CN112653979A

CN112653979A - 自适应去混响方法和装置

Info

Publication number: CN112653979A
Application number: CN202011593161.8A
Authority: CN
Inventors: 黄超凡
Original assignee: AI Speech Ltd
Current assignee: AI Speech Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-13

Abstract

本发明公开一种自适应去混响方法，用于助听器，其中，自适应去混响方法，包括：响应于麦克风采集到录音，对所述录音是否含有语音进行判断；若判断所述录音含有语音，则对所述录音当前所处环境进行判断，其中，所诉所处环境包括室内和室外；若判断所述录音当前处于室内，则对所述录音进行去混响，生成目标语音；对所述目标语音进行语音增强处理并输出。本发明提出一种自适应场景的去混响解决方案，在助听器这种对功耗相对敏感的设备上提供较大帮助。

Description

自适应去混响方法和装置

技术领域

本发明属于语音信号处理技术领域，尤其涉及自适应去混响方法和装置。

背景技术

目前市面上应用于助听器的算法有去混响、语音增强以及响度补偿等，由于混响在室内或者其他密闭条件下对语音的可懂度影响很大，尤其对听力有障碍的人更是如此，因此本方案从去混响出发，提出一种自适应场景的去混响解决方案，并用递推最小二乘(Recursive least squares,RLS)迭代方法对在线实时语音进行处理。

由于助听器在不同的场景中会经常切换，普通算法对场景的识别度较差或者没有很好的根据场景自适应改变算法的功能，本文根据室内以及室外场景自动的选择是否执行去混响方案，以达到降低助听器功耗，并且将算力更好的分配在降噪以及语音增强算法中。

传统去混响算法有谱减法，传统的加权预测误差(Weighted Predict Error,WPE)去混响方法等。

谱减法利用带噪信号的频谱减去噪声信号的频谱，谱减法基于一个简单的假设：假设语音中的噪声只有加性噪声，只要将带噪语音谱减去噪声谱，就可以得到纯净语音。但谱减法模型太过简单，因此导致大部分场景效果不好。

混响的本质即先前的语音帧通过一定的时延反射构成，传统的WPE算法利用这个性质建立模型，用当前的语音帧减去先前语音帧的叠加作为纯净语音的估计，并利用极大似然估计(Maximum Likelihood Estimation,ML)作为代价函数，进而计算预测系数矩阵。但传统的WPE方法没有考虑实时性，另外对功率谱密度(power spectral density,PSD)的估计不够精确，影响收敛速度。

发明内容

本发明实施例提供一种自适应去混响方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种自适应去混响方法，用于助听器，包括：响应于麦克风采集到录音，对所述录音是否含有语音进行判断；若判断所述录音含有语音，则对所述录音当前所处环境进行判断，其中，所诉所处环境包括室内和室外；若判断所述录音当前处于室内，则对所述录音进行去混响，生成目标语音；对所述目标语音进行语音增强处理并输出。

第二方面，本发明实施例提供一种自适应去混响装置，用于助听器，包括：录音检测模块，配置为响应于麦克风采集到录音，对所述录音是否含有语音进行判断；环境检测程序模块，配置为若判断所述录音含有语音，则对所述录音当前所处环境进行判断，其中，所诉所处环境包括室内和室外；去混响程序模块，配置为若判断所述录音当前处于室内，则对所述录音进行去混响，生成目标语音；语音输出程序模块，配置为对目标语音进行语音增强处理并输出。

第三方面，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述方法的步骤。

第四方面，本发明实施例还提供一种存储介质，其包括：所述程序被处理器执行时实现第一方面所述方法的步骤。

本申请实施例提供通过提出一种自适应场景的去混响解决方案，在助听器这种对功耗相对敏感的设备上提供较大帮助。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种自适应去混响方法的流程图；

图2为本发明实施例的自适应去混响的方案一具体实施例的自适应去混响流程图；

图3为本发明实施例的自适应去混响的方案一具体实施例的另一自适应去混响流程图；

图4为本发明一实施例提供的一种自适应去混响装置的框图；

图5为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，其示出了本发明的一种自适应去混响方法的一实施例的流程图。

如图1所示，在步骤101中，响应于麦克风采集到录音，对所述录音是否含有语音进行判断；

在步骤102中，若判断所述录音含有语音，则对所述录音当前所处环境进行判断，其中，所诉所处环境包括室内和室外；

在步骤103中，若判断所述录音当前处于室内，则对所述录音进行去混响，生成目标语音；

在步骤104中，对所述目标语音进行语音增强处理并输出。

在本实施例中，对于步骤101，助听器响应于麦克风采集到录音，对所述录音是否含有语音进行判断，其中，采用语音活动检测对所述录音是否含有语音进行判断。例如，助听器的麦克风采集到录音，助听器采用语音活动检测方法对此录音进行处理，以此判断该录音中是否含有语音信号，在此不在赘述。

之后，对于步骤102，若判断所述录音含有语音，则对所述录音当前所处环境进行判断，其中，所诉所处环境包括室内和室外。例如，对麦克风采集的含有语音的录音当前所处环境利用深度神经网络模型进行判断，判断结果为室内或室外，其中，深度神经网络模型进行判断包括建立环境模型，音频特征提取和模型比对等，在此不再赘述。

然后，对于步骤103，判断所述录音当前处于室内，则对所述录音进行去混响，生成目标语音，例如，当判定麦克风采集的录音当前所处环境为室内时，由于室内环境墙壁反射等造成混响交大的特征，需对该录音进行去混响操作，其中，去混响包括采用采用深度神经网络、递推最小二乘和加权预测误差算法，之后，生成目标语音，在此不再赘述。

最后，对于步骤104，助听器对所述目标语音进行语音增强处理并输出，其中语音增强采用盲源分离算法，例如，当目标语音中含有多个人声，本申请在此没有限制，则对目标语音进行多人声分离，之后，输出处理后的语音进行后续工作，在此不再赘述。

在本实施例所述的方案中，通过提出一种自适应场景的去混响解决方案，在助听器这种对功耗相对敏感的设备上提供较大帮助。

在一些可选的实施例中，所述对所述录音是否含有语音进行判断包括采用语音活动检测进行判断，其中，语音活动检测(VAD)为一种语音识别技术，主要任务是从声音信号流里识别和消除长时间的静音期例，对采集到的录音采用VAD，以此来判断该录音中是否含有语音信号。例如，假设检测到语音信号，表示为VAD＝1，未检测到语音信号，表示为VAD＝0，当麦克风采集的录音经过VAD检测结果为VAD＝1，本申请在此没有限制，则代表该录音中包含语音，在此不再赘述。

在一些可选的实施例中，在所述对所述录音是否含有语音进行判断之后，还包括：若判断所述录音不含有语音，则直接输出所述录音，例如，当麦克风采集的录音经过VAD检测，检测结果为不含有语音，则对该录音不进行后续的去混响处理和语音增强处理，直接输出，在此不再赘述。

在一些可选的实施例中，所述对所述所处环境进行判断，包括：采用深度神经网络(DNN)对所述录音进行判断，其中，对所述录音进行判断在预设时间内只判断一次。基于室内和室外环境环境音频特征训练室内DNN模型和室外DNN模型，用模型提取麦克风采集的含有语音的录音的音频特征，用该特征与室内DNN模型和室外DNN模型分别进行比对，以此来判定该录音当前所处环境为室内还是室外。例如，麦克风采集到含有语音的录音，用该模型数据提取该录音的音频特征，对比发现与室内DNN模型匹配，本申请在此没有限制，则判断该录音当前所处环境为室内，在此不再赘述。

由于人处在某个环境下，不会出现快速的环境切换，所以对于录音所处环境的判定在预设时间内只判定一次，例如，假设时间为1min，本申请在此没有限制，当判定录音当前所处环境为室内，则在1min内将不再进行所处环境的判定，当录音间隔超过1min，则再次进行所处环境判断，在此不再赘述。

在一些可选的实施例中，在对所述录音当前所处环境进行判断之后，还包括：若判断所述录音当前处于室外，则对所述语音直接进行语音增强处理并输出。其中，当判定麦克风采集的录音当前所处环境为室外时，由于室外环境空间大、噪声少等特征，则不进行去混响操作，直接对该录音进行语音增强处理并输出，在此不再赘述。

在一些可选的实施例中，对所述录音进行去混响，包括：

采用深度神经网络(DNN)，获取所述目标语音的功率谱密度(PSD)；

采用递推最小二乘(RLS)做实时迭代，获取所述目标语音的实时预测矩阵；

采用加权预测误差算法(WPE)，根据公式：

获取所述目标语音，

其中，

为目标语音，y_l(t)为当前帧语音，

为预测矩阵，Δ为步长。例如，麦克风在室内采集的含有语音的录音经过DNN计算，得到目标语音的PSD，之后，经RLS实时迭代计算出目标语音的预测矩阵，然后，采用加权预测误差算法及公式，最后计算获得目标语音，其中，经过DNN计算的PSD较传统方式更为精确，RLS实时迭代能解决实时问题，在此不再赘述。

在一些可选的实施例中，所述语音增强处理包括采用盲源分离算法，其中，盲源分离(Blind Source Separation，BSS)是一种信号处理方法，一种从若干观测到的混合信号中恢复出未知的源信号的方法，其目的是求得源信号的最佳估计，具有很好的区分同相干扰的效果，对麦克风的阵列摆放限制相对于波束成形算法较小。例如，使用BSS对目标语音进行人声以及噪音的分离或者时多个人声的分离，在此不再赘述。

需要说明的是，以上实施例中虽然采用了步骤101、步骤102等具有明确先后顺序的数字，限定了步骤的先后顺序，但是在实际的应用场景中，有些步骤是可以并列执行的，有些步骤的先后顺序也不受到以上数字的限定，本申请在此没有限制，在此不再赘述。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明，以使本领域技术人员更好地理解本申请的方案。

发明人在实现本发明的过程中发现这些相似技术的缺陷：

这些技术受限于模型所致，以及没有考虑实时性等应用需求。

谱减法模型太过简单，因此导致大部分场景效果不好。

传统的WPE方法没有考虑实时性，另外对PSD的估计不够精确，影响收敛速度。

本专利首先基于场景识别算法，仅从计算量方面考量只识别室内及室外场景，然后基于场景选择是否去混响，去混响则基于改进的WPE算法，利用DNN估计出PSD，并且用RLS解决实时问题。

发明人在实现本发明的过程中发现为什么不容易想到原因：

对于产品应从实时性，性能及硬件多方面进行考虑，大部分的解决方法都集中在对模型的替换或者改进上，而不够全面，在实际应用上并不能取得很好的效果。

本方案利用场景选择以及实时计算WPE的方法在性能以及功耗间进行均衡，提出一种自适应场景的去混响解决方案，在助听器这种对功耗相对敏感的设备上会有很大帮助。

请参考图2，其示出了本发明实施例的自适应去混响的方案一具体实施例的自适应去混响流程图。

如图2所示，我们提出一种自适应去混响方法，包括以下步骤：

录音模块：麦克风录音。

室内室外场景检测：利用DNN做室内室外场景的检测，已决定是否做去混响算法。

去混响：利用DNN估计纯净语音的PSD，并利用RLS做实时迭代，兼顾实时性以及收敛速度。

语音增强：利用BSS做人声以及噪音的分离或者是多个人声的分离，盲源分离可以很好的区分同向干扰，而且对麦克风阵列的摆放限制相对于波束成形算法较小。

本发明的技术创新点：

通过DNN做室内室外场景判别决定是否去混响。

DNN估计PSD并实时估计预测矩阵。

请参考图3，其示出了本发明实施例的自适应去混响的方案一具体实施例的另一自适应去混响流程图。

步骤1：麦克风录音采集；

步骤2：麦克风录音经过VAD判断是否有语音，如果没有语音则不需要做语音处理算法直接输出，如果有语音则送室内室外检测模块；

步骤3：利用DNN确定语音所处场景是室内以及室外，来决定是否做去混响操作，由于人处在某个环境下不会出现快速的场景切换，因此室内室外场景检测可以间隔一段时间做一次，然后两段时间间隔之间的场景不变，并且室内室外场景的确定可以帮助其他模块根据场景进行调配参数；

步骤4：WPE去混响处理，首先经DNN计算出目标语音的功率谱密度PSD，然后经RLS迭代计算预测矩阵

最后得到目标语音，

其中，

为目标估计语音，y_l(t)为当前帧语音，

为预测矩阵，Δ为步长；

步骤5：步骤4输出的语音经过盲源分离算法，最后输出到助听器进行后续工作。

发明人在实现本发明的过程中形成的beta版：

最开始的想法只是去混响方案，没有过多考虑场景切换以及功耗方面的问题。后来考虑硬件的可能限制，尽量减小计算量，在性能以及效果间取得均衡。

请参考图4，其示出了本发明一实施例提供的一种自适应去混响装置的框图。

如图4所示，自适应去混响装置400包括录音检测模块410、环境检测程序模块420、去混响程序模块430和语音输出程序模块440。

其中，录音检测模块410，配置为响应于麦克风采集到录音，对所述录音是否含有语音进行判断；环境检测程序模块420，配置为若判断所述录音含有语音，则对所述录音当前所处环境进行判断，其中，所诉所处环境包括室内和室外；去混响程序模块430，配置为若判断所述录音当前处于室内，则对所述录音进行去混响，生成目标语音；语音输出程序模块440，配置为对目标语音进行语音增强处理并输出。

应当理解，图4中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作和特征以及相应的技术效果同样适用于图4中的诸模块，在此不再赘述。

值得注意的是，本申请的实施例中的模块并不用于限制本申请的方案，例如数据响应模块，配置为响应于用户上传的训练数据，对所述训练数据进行音频标注，生成所述训练数据的第一标注文本和所述训练数据的音频，另外，还可以通过硬件处理器来实现相关功能模块，例如数据响应模块可以用处理器实现，在此不再赘述。

在另一些实施例中，本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的自适应去混响方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

响应于麦克风采集到录音，对所述录音是否含有语音进行判断；

若判断所述录音含有语音，则对所述录音当前所处环境进行判断，其中，所诉所处环境包括室内和室外；

若判断所述录音当前处于室内，则对所述录音进行去混响，生成目标语音；

对所述目标语音进行语音增强处理并输出。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据自适应去混响装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至自适应去混响装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品，计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，使计算机执行上述任一项自适应去混响方法。

图5是本发明实施例提供的电子设备的结构示意图，如图5所示，该设备包括：一个或多个处理器510以及存储器520，图5中以一个处理器510为例。用于自适应去混响方法的设备还可以包括：输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例用于自适应去混响装置方法。输入装置530可接收输入的数字或字符信息，以及产生与用于自适应去混响装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

作为一种实施方式，上述电子设备应用于自适应去混响装置中，包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

对所述目标语音进行语音增强处理并输出。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括：PDA、MID和UMPC设备等。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种自适应去混响方法，用于助听器，包括：

对所述目标语音进行语音增强处理并输出。

2.根据权利要求1所述的方法，其中，所述对所述录音是否含有语音进行判断包括采用语音活动检测进行判断。

3.根据权利要求1所述的方法，其中，在所述对所述录音是否含有语音进行判断之后，还包括：

若判断所述录音不含有语音，则直接输出所述录音。

4.根据权利要求1所述的方法，其中，所述对所述所处环境进行判断，包括：

采用深度神经网络对所述录音进行判断，其中，对所述录音进行判断在预设时间内只判断一次。

5.根据权利要求4所述的方法，其中，在对所述录音当前所处环境进行判断之后，还包括：

若判断所述录音当前处于室外，则对所述语音直接进行语音增强处理并输出。

6.根据权利要求4所述的方法，其中，对所述录音进行去混响，包括：

采用深度神经网络，获取所述目标语音的功率谱密度；

采用递推最小二乘做实时迭代，获取所述目标语音的实时预测矩阵；

采用加权预测误差算法，根据公式：

获取所述目标语音；

其中，

为目标语音，y_l(t)为当前帧语音，

为预测矩阵，Δ为步长。

7.根据权利要求1所述的方法，其中，所述语音增强处理包括采用盲源分离算法进行增强处理。

8.一种自适应去混响装置，用于助听器，包括：

录音检测模块，配置为响应于麦克风采集到录音，对所述录音是否含有语音进行判断；

环境检测程序模块，配置为若判断所述录音含有语音，则对所述录音当前所处环境进行判断，其中，所诉所处环境包括室内和室外；

去混响程序模块，配置为若判断所述录音当前处于室内，则对所述录音进行去混响，生成目标语音；

语音输出程序模块，配置为对目标语音进行语音增强处理并输出。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。