CN112700786A

CN112700786A - 语音增强方法、装置、电子设备和存储介质

Info

Publication number: CN112700786A
Application number: CN202011593233.9A
Authority: CN
Inventors: 张姣; 付中华; 王海坤
Original assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Current assignee: Xi'an Xunfei Super Brain Information Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-23
Anticipated expiration: 2040-12-29
Also published as: CN112700786B

Abstract

本发明提供一种语音增强方法、装置、电子设备和存储介质，所述方法包括：获取采集所得的原始语音，对原始语音进行降噪，得到降噪语音；基于原始语音和降噪语音，确定原始语音的语音增强掩码；基于语音增强掩码，对所述原始语音进行语音增强。本发明实施例通过在语音增强掩码中融入原始语音信息和降噪语音信息，使得语音增强掩码能够准确学习到带噪的原始语音到干净语音的映射关系，提高了语音增强的效果。

Description

语音增强方法、装置、电子设备和存储介质

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音增强方法、装置、电子设备和存储介质。

背景技术

由于设备采集的语音通常是带有噪声的语音，语音增强的主要目的就是对带有噪声的语音进行降噪处理，即通过语音增强可以有效抑制各种干扰信号，增强目标语音信号。

目前，多通过语音增强网络模型对带有噪声的语音进行语音增强，但训练语音增强网络模型时需要大量的语音或噪声数据样本，而有时这些样本难以获取，进而影响语音网络模型的降噪性能。

发明内容

本发明提供一种语音增强方法、装置、电子设备和存储介质，用以解决现有技术中语音增强效果较差的缺陷。

本发明提供一种语音增强方法，包括：

获取采集所得的原始语音，对所述原始语音进行降噪，得到降噪语音；

基于所述原始语音和所述降噪语音，确定所述原始语音的语音增强掩码；

基于所述语音增强掩码，对所述原始语音进行语音增强。

根据本发明提供的一种语音增强方法，所述基于所述原始语音和所述降噪语音，确定所述原始语音的语音增强掩码，具体包括：

基于第一掩码预测模型，对所述原始语音的声学特征和所述降噪语音的声学特征进行融合，并基于融合所得的特征进行掩码预测，得到所述原始语音的第一语音增强掩码；

其中，所述第一掩码预测模型是基于样本原始语音的声学特征、样本降噪语音的声学特征及其对应的样本语音增强掩码标签训练得到的。

根据本发明提供的一种语音增强方法，所述基于第一掩码预测模型，对所述原始语音的声学特征和所述降噪语音的声学特征进行融合，并基于融合所得的特征进行掩码预测，得到所述原始语音的第一语音增强掩码，具体包括：

基于所述第一掩码预测模型的融合层，对所述原始语音的声学特征和所述降噪语音的声学特征进行加权融合，得到第一融合特征；

基于所述第一掩码预测模型的预测层，得到所述原始语音的第一语音增强掩码。

根据本发明提供的一种语音增强方法，所述加权融合应用的权重是基于所述原始语音的声学特征和所述降噪语音的声学特征确定的。

对所述原始语音的声学特征和所述降噪语音的声学特征进行融合，得到第二融合特征；

基于第二掩码预测模型，得到所述原始语音的第二语音增强掩码；

其中，所述第二掩码预测模型是基于样本语音融合特征及其对应的样本语音增强掩码标签训练得到的，所述样本语音融合特征是基于样本原始语音的声学特征和样本降噪语音的声学特征确定的。

根据本发明提供的一种语音增强方法，所述样本原始语音是将干净语音与噪声音频混合得到的，所述样本语音增强掩码标签是基于所述干净语音的声学特征和所述噪声音频的声学特征确定的。

本发明还提供一种语音增强装置，包括：

语音降噪单元，用于获取采集所得的原始语音，对所述原始语音进行降噪，得到降噪语音；

掩码确定单元，用于基于所述原始语音和所述降噪语音，确定所述原始语音的语音增强掩码；

语音增强单元，用于基于所述语音增强掩码，对所述原始语音进行语音增强。

根据本发明提供的一种语音增强装置，所述掩码确定单元，具体用于：

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述语音增强方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音增强方法的步骤。

本发明提供的语音增强方法、装置、电子设备和存储介质，通过对采集所得的原始语音进行降噪得到降噪语音；基于原始语音和降噪语音，确定原始语音的语音增强掩码；基于语音增强掩码，对原始语音进行语音增强。本发明实施例通过在语音增强掩码中融入原始语音信息和降噪语音信息，使得语音增强掩码能够准确学习到带噪的原始语音到干净语音的映射关系，提高了语音增强的效果。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音增强方法的流程示意图；

图2是本发明提供的第一语音增强掩码预测方法的流程示意图；

图3是本发明提供的第二语音增强掩码预测方法的流程示意图；

图4为本发明提供的又一语音增强方法的流程示意图；

图5为本发明提供的干净语音语谱的示意图；

图6为本发明提供的带噪语音语谱的示意图；

图7为传统OMLSA算法输出音频的语谱示意图；

图8为传统FSMN模型输出音频的语谱示意图；

图9为本发明提供的带噪语音与OMLSA输出特征拼接的FSMN模型输出音频的语谱示意图；

图10是本发明提供的语音增强装置的结构示意图；

图11是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

语音增强是从带噪语音中提取纯净的原始语音的技术。由于环境周围存在各种各样的噪声，例如大自然产生的白噪声，人为制造的突发噪声，以及房间反射产生的混响等等，从而导致麦克风接收的语音信号中也混入了噪声，进而影响接收语音的质量、可懂度或者后续语音后端的处理。

目前，语音增强算法根据使用的麦克风接收信号的通道数是否为1来划分为单通道算法以及多通道算法。单通道语音增强算法可大致分为基于信号处理的方法和基于数据驱动的方法。其中，基于信号处理的方法多采用降噪算法(Optimally-Modified Log-Spectral Amplitude，OMLSA)，OMLSA通过最小化对数幅度谱的均方误差推导出功率谱每个时间-频率单元的语音存在概率，结合噪声方差的估计得到谱增益来进行语音增强，但该方法对于非平稳噪声处理效果较差，且容易导致降噪后的语音失真。基于数据驱动的方法多采用有监督深度学习的语音增强网络模型进行语音增强时，通常采取的训练目标以时间-频率为单元，计算时需要计算纯净语音的功率谱。然而，绝对纯净的语音是无法获取的，因此一般选取VAD后的语音作为纯净语音，再叠加不同的噪声作为训练数据来训练语音增强网络模型，导致用于训练学习的标签值不准确，为了保证训练学习的效果，需要大量的语音或噪声样本数据，但在某些情况下难以获取足量的语音或噪声样本数据，从而影响网络的降噪性能。

对此，本发明提供一种语音增强方法。图1是本发明提供的语音增强方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、获取采集所得的原始语音，对原始语音进行降噪，得到降噪语音。

具体地，原始语音是指通过语音采集设备采集的语音信号，由于语音信号会受周围环境各种各样的噪声干扰，因此采集的原始语音并非纯净的语音信号，而是受噪声污染的带噪语音信号，甚至在噪声干扰较大的情况下，原始语音中的有用语音信号会被噪声淹没，需要从噪声背景中提取有用的语音信号，抑制并降低噪声干扰，进而从含噪的原始语音中提取尽可能纯净的语音。

因此，本发明实施例通过对含噪的原始语音进行降噪处理，从而使得获取的降噪语音中减少了环境噪声的干扰。其中，降噪处理可以采用降噪算法(如OMLSA算法、LTSA算法等)对原始语音进行降噪处理，本发明实施例对此不作具体限定。

步骤120、基于原始语音和降噪语音，确定原始语音的语音增强掩码。

具体地，若单纯采用降噪算法对原始语音进行降噪，随着降噪过程中信噪比的减小，降噪效果也随之变差，并且经常造成语音丢字或者波形失真。例如，OMLSA算法是根据语音信号能量在时间与频率单位上的变化来更新语音存在的概率值，进而对语音进行降噪，但当信噪比较低的时候，语音能量也较低，有可能导致有用语音存在概率值较小，进而影响降噪效果以及导致语音失真。

由于原始语音中包含的原始信号和噪声信号的比例是不变的，将原始语音应用于语音增强的掩码预测，可以保证语音增强掩码中能够保留原始信号的语音信息，进而可以避免传统降噪算法中随着信噪比减小降噪效果变差以及语音失真的问题；同时降噪语音是对原始语音进行降噪处理后的语音信号，其中包含了降噪后的语音细节信息和降噪程度信息，相较于传统的基于深度学习网络进行语音增强的方法，本发明实施例中降噪语音保留了降噪后的语音细节信息和降噪程度信息，从而避免传统方法中训练学习的标签值不准确，需要大量的语音或噪声样本数据的问题，而且在某些情况下难以获取足量的语音或噪声样本数据，进而影响网络的降噪性能。

由此可见，本发明实施例基于原始语音和降噪语音确定的语音增强掩码，融入了原始语音信息和降噪语音信息作为参考，不仅避免了低信噪比情况下降噪效果较差且语音失真的问题，而且避免了训练学习标签值不准确需要大量语音或噪声样本数据的问题。其中，语音增强掩码可以理解为当前时频单元的语音存在概率，语音增强掩码可以包括IBM(Ideal binary mask)，IRM(Ideal Ratio Mask)，SMM(Spectral magnitude mask)等，本实施例对此不作具体限定。

步骤130、基于语音增强掩码，对原始语音进行语音增强。

具体地，由于语音增强掩码可以理解为当前时频单元的语音存在概率，即可以将语音增强掩码与带噪的原始语音的功率谱相乘，得到干净语音的功率谱，即实现对原始语音的语音增强。

此外，由于语音增强掩码中融入有带噪的原始语音信息和降噪语音信息，使得语音增强掩码能够更准确反映当前时频单元的语音存在概率，进而能够得到效果较好的干净语音功率谱，实现语音增强。

本发明实施例提供的语音增强方法，通过对采集所得的原始语音进行降噪得到降噪语音；基于原始语音和降噪语音，确定原始语音的语音增强掩码；基于语音增强掩码，对原始语音进行语音增强。本发明实施例通过在语音增强掩码中融入原始语音信息和降噪语音信息，使得语音增强掩码能够准确学习到带噪的原始语音到干净语音的映射关系，提高了语音增强的效果。

基于上述实施例，步骤120具体包括：

基于第一掩码预测模型，对原始语音的声学特征和降噪语音的声学特征进行融合，并基于融合所得的特征进行掩码预测，得到原始语音的第一语音增强掩码；

其中，第一掩码预测模型是基于样本原始语音的声学特征、样本降噪语音的声学特征及其对应的样本语音增强掩码标签训练得到的。

具体地，原始语音的声学特征指用于表征带噪原始语音声学特性的特征，降噪语音的声学特征指用于表征降噪处理后的原始语音声学特性的特征。

基于第一掩码预测模型对原始语音的声学特征和降噪语音的声学特征进行融合，从而使得融合所得的特征包含有原始语音的声学特征信息和降噪语音的声学特征信息，进而基于融合所得的特征进行掩码预测得到的第一语音增强掩码能够同时学习到原始语音的声学特征和降噪语音的声学特征，准确反映当前视频单元的语音存在概率，提高语音增强的效果。

在第一掩码预测模型对原始语音的声学特征和降噪语音的声学特征进行融合之前，还可以预先训练得到第一掩码预测模型，具体可以通过执行如下步骤实现：首先，收集大量样本原始语音的声学特征、样本降噪语音的声学特征，通过人工标注确定其对应的样本语音增强掩码标签。随即，基于样本原始语音的声学特征、样本降噪语音的声学特征及其对应的样本语音增强掩码标签对初始模型进行训练，从而得到第一掩码预测模型。

相较于传统的语音增强网络模型仅采用样本原始语音的声学特征进行模型训练，本发明实施例中训练第一掩码预测模型融合了原始语音的声学特征和降噪语音的声学特征，在训练数据不充分的情况下，例如需要针对某种特定语音或噪声降噪时，可以充分利用降噪语音的声学特征信息，与原始语音的声学特征信息一起对网络进行训练，改善模型在小数据量下对特定场景的降噪性能。

此外，相较于传统的采用降噪算法进行语音增强的方式，由于降噪算法是根据信号能量在时间与频率单位上的变化来更新语音存在概率值，因此当信噪比较低的时候语音能量较低，有可能导致语音存在概率值较小，进而导致语音失真，字间降噪性能较差，而基于监督学习的第一掩码预测模型的训练样本可以包含多种信噪比场景，从而可缓解传统降噪算法带来的语音失真问题。

本发明实施例提供的语音增强方法，基于第一掩码预测模型，对原始语音的声学特征和降噪语音的声学特征进行融合，并基于融合所得的特征进行掩码预测，得到原始语音的第一语音增强掩码，从而使得预测得到的第一语音增强掩码能够同时学习到原始语音的声学特征信息和降噪语音的声学特征信息，准确反映当前视频单元的语音存在概率，提高语音增强的效果。

基于上述任一实施例，原始语音的声学特征和降噪语音的声学特征可以通过如下步骤确定：

首先，对原始语音和降噪语音分别进行短时傅里叶变换(STFT)，将时域信号转换到时频域，提取原始语音的时频域特征和降噪语音的时频域特征；由于频域特征相较于时域特征更稳定，以及更具有区分性，因此使得傅里叶变换后的原始语音和降噪语音能够较好表征对应语音的声学特性。其中，原始语音的时频域特征和降噪语音的时频域特征可分别表示为Y(t,f),Y_omlsa(t,f)。接着，将傅里叶变换后得到的时频域特征的功率谱通过包含若干个滤波器的Mel滤波器组(如128个滤波器的Mel滤波器组)，分别得到原始语音和降噪语音的128维的Filter-Bank特征(FBK特征)，分别表示为Y_fb(t,f),Y_omlsa_fb(t,f)，从而使得提取的声学特征更符合人耳对声音的非线性响应；然后将FBK特征的结果取对数，从而可以将特征数值范围进行压缩，降低第一掩码预测模型的运算量，而且取对数之后的FBK特征更符合人耳的听觉特性，所以能够更准确表征语音的声学特征。

基于上述任一实施例，如图2所示，步骤120具体包括：

步骤1211、基于第一掩码预测模型的融合层，对原始语音的声学特征和降噪语音的声学特征进行加权融合，得到第一融合特征。

具体地，原始语音的声学特征体现了混合有噪声语音的声学特征信息，而降噪语音的声学特征体现了干净语音的声学特征信息，融合层可以将此两者进行加权融合，使得基于第一掩码预测模型的融合层得到的第一融合特征中融合有原始语音的声学特征和降噪语音的声学特征，即第一融合特征既包括原始语音信号的细节信息，也包括降噪后的语音信号的细节信息。

步骤1212、基于第一掩码预测模型的预测层，得到原始语音的第一语音增强掩码。

具体地，由于第一融合特征融合有原始语音的声学特征和降噪语音的声学特征，从而在基于第一融合特征预测第一语音增强掩码的过程中，可以准确学习到从带噪的原始语音到干净语音的映射关系，进而准确获取第一语音增强掩码，避免传统语音增强模型在训练数据量较小的情况下无法准确学习从带噪的原始语音到干净语音的映射关系，导致模型的泛化性能较差的问题。

本发明实施例提供的语音增强方法，通过融合层对原始语音的声学特征和降噪语音的声学特征进行加权融合，从而在基于第一融合特征预测第一语音增强掩码的过程中，可以准确学习到从带噪的原始语音到干净语音的映射关系，进而准确获取第一语音增强掩码。

基于上述任一实施例，加权融合应用的权重是基于原始语音的声学特征和降噪语音的声学特征确定的。

具体地，在进行第一语音增强掩码的过程中，需要考虑原始语音的声学特征和降噪语音的声学特征对于语音增强效果的影响。原始语音的声学特征包含了对应信噪比场景下的声学特征信息，降噪语音的声学特征包含了干净语音对应的声学特征信息，但由于降噪语音是经过降噪处理获取的，而降噪处理过程中由于信噪比的降低会造成语音失真，因此降噪语音中包含的干净语音信息并不是完全符合真实情况的语音信息，需要结合原始语音的声学特征进行分析，即本发明实施例基于原始语音的声学特征和降噪语音的声学特征确定加权融合的权重，使得根据权重进行融合所得的第一融合特征学习到从带噪的原始语音到干净语音的较优映射关系。

需要说明的是，此处加权融合应用的权重可以作为一个超参数，根据验证集在第一掩码预测模型的效果进行调节，也可以在第一掩码预测模型的训练过程中由第一掩码预测模型自动学习得到，本发明实施例不对此作具体限定。

本发明实施例提供的语音增强方法，基于原始语音的声学特征和降噪语音的声学特征确定加权融合应用的权重，使得根据权重进行融合所得的第一融合特征可以准确学习到从带噪的原始语音到干净语音的映射关系。

基于上述任一实施例，如图3所示，步骤120具体包括：

步骤1221、对原始语音的声学特征和降噪语音的声学特征进行融合，得到第二融合特征。

其中，第二掩码预测模型是基于样本语音融合特征及其对应的样本语音增强掩码标签训练得到的，样本语音融合特征是基于样本原始语音的声学特征和样本降噪语音的声学特征确定的。

具体地，原始语音的声学特征包含了对应信噪比场景下的声学特征信息，降噪语音的声学特征包含了干净语音对应的声学特征信息，但由于降噪语音是经过降噪处理获取的，而降噪处理过程中由于信噪比的降低会造成语音失真，因此降噪语音中包含的干净语音信息并不是完全符合真实情况的语音信息，需要结合原始语音的声学特征进行分析，因此本发明实施例对原始语音的声学特征和降噪语音的声学特征进行融合，使得融合得到第二融合特征可以学习到从带噪的原始语音到干净语音的映射关系。

需要说明的是，此处第二融合特征可以是对原始语音的声学特征和降噪语音的声学特征进行拼接得到的，例如原始语音的声学特征为128维的FBK特征，降噪语音的声学特征为128维的FBK特征，在对两个FBK特征进行拼接后得到的256维的FBK特征即为第二融合特征。

在执行步骤1221之前，还可以预先训练得到第二掩码预测模型，具体可以通过执行如下步骤实现：首先，收集大量样本原始语音的声学特征、样本降噪语音的声学特征，通过人工标注确定其对应的样本语音增强掩码标签。随即，基于样本原始语音的声学特征、样本降噪语音的声学特征及其对应的样本语音增强掩码标签对初始模型进行训练，从而得到第二掩码预测模型。

可以理解的是，样本原始语音的声学特征可以参照上述原始语音的声学特征确定方法获取，样本降噪语音的声学特征可以参照上述降噪语音的声学特征确定方法获取，本发明实施例对此不再赘述。

相较于传统的语音增强网络模型仅采用样本原始语音的声学特征进行模型训练，本发明实施例中训练第二掩码预测模型采用融合了原始语音的声学特征和降噪语音的声学特征的第二融合特征，在训练数据不充分的情况下，可以充分利用第二融合特征中降噪语音的声学特征信息以及原始语音的声学特征信息对网络进行训练，改善模型在小数据量下对特定场景的降噪性能。

此外，相较于传统的采用降噪算法进行语音增强的方式，由于降噪算法是根据信号能量在时间与频率单位上的变化来更新语音存在概率值，因此当信噪比较低的时候语音能量较低，有可能导致语音存在概率值较小，进而导致语音失真，字间降噪性能较差，而基于监督学习的第二掩码预测模型的训练样本可以包含多种信噪比场景，从而可缓解传统降噪算法带来的语音失真问题。

步骤1222、基于第二掩码预测模型，得到原始语音的第二语音增强掩码。

具体地，由于第二融合特征融合有原始语音的声学特征和降噪语音的声学特征，从而在基于第二融合特征预测第二语音增强掩码的过程中，可以准确学习到从带噪的原始语音到干净语音的映射关系，进而准确获取第二语音增强掩码，避免传统语音增强模型在训练数据量较小的情况下无法准确学习从带噪的原始语音到干净语音的映射关系，导致模型的泛化性能较差的问题。

需要说明的是，第一掩码预测模型和第二掩码预测模型均可以基于FSMN网络训练得到，例如FSMN网络可以由3个串联的子网络构成，每个子网络含3个隐含层，节点数分别为1024，256，256，同时在每个子网络的第三个隐含层添加记忆模块，可以更好的利用前后时刻的相关信息，相较于LSTM网络延时较小；此外，每个子网络的输出结果均参与最终损失函数的计算，使得网络模型在底层就能够学习到更有区分性的特征用于最终语音增强掩码的预测。网络通过对原始语音的声学特征与降噪语音的声学特征(如OMLSA输出信号的每个时间-频率单元在MEL域上的特征)进行学习，预测出语音增强掩码以达到降噪的效果。

本发明实施例提供的语音增强方法，通过对原始语音的声学特征和降噪语音的声学特征进行融合，得到第二融合特征，从而在基于第二融合特征预测第二语音增强掩码的过程中，可以准确学习到从带噪的原始语音到干净语音的映射关系，进而准确获取第二语音增强掩码。

基于上述任一实施例，样本原始语音是将干净语音与噪声音频混合得到的，样本语音增强掩码标签是基于干净语音的声学特征和噪声音频的声学特征确定的。

具体地，由于样本原始语音包含了对应信噪比场景下的语音信息，样本降噪语音包含了原始语音降噪后的信息，从而在将样本原始语音的声学特征和样本降噪语音的声学特征作为模型的训练样本时，可以使得模型学习到从带噪语音信号到干净语音信号的映射关系，并且样本的数据量越大，模型的训练效果越好。

其中，样本原始语音和样本降噪语音可以基于如下步骤获取：将VAD处理后的干净语音卷积房间冲激响应，与噪声音频按不同信噪比进行混合，从而可以得到大量不同信噪比场景下的样本原始语音。此外，将样本原始语音经过降噪处理如OMLSA算法处理，得到样本降噪语音。以一条持续时间为2秒的干净语音s(n)为例，将干净语音卷积一个房间冲激响应h(n)，并叠加相同长度的噪声音频noise(n)，得到样本原始语音为y(n)＝s(n)*h(n)+noise(n)。随后，将样本原始语音按照OMLSA算法进行降噪，得到OMLSA降噪后的样本降噪语音y_omlsa(n)。

此外，样本语音增强掩码标签是基于干净语音的声学特征和噪声音频的声学特征确定的，干净语音的声学特征和噪声音频的声学特征是基于如下步骤确定的：首先，对干净语音和噪声音频分别进行短时傅里叶变换，得到干净语音的时频域特征S(t,f)，以及噪声音频的时频域特征N(t,f)；接着，将变换后得到的S(t,f)和N(t,f)通过含128个滤波器的Mel滤波器组，分别得到128维的FBK特征S_fb(t,f),N_fb(t,f)，将S_fb(t,f)作为干净语音的声学特征,N_fb(t,f)作为噪声音频的声学特征。

基于干净语音的声学特征S_fb(t,f)和噪声音频的声学特征N_fb(t,f)，可以基于如下公式获取样本语音增强掩码标签：

其中，β值可以作为一个超参数，取值范围为0～1，可以基于验证集在模型上的效果调节β值的大小。

在确定样本语音增强掩码标签之后，利用模型预测的语音增强掩码与样本语音增强掩码计算均方误差MSE后，反向传播更新模型权重，优化模型的训练参数。

本发明实施例提供的语音增强方法，将干净语音与噪声音频混合得到样本原始语音，从而可以获取大量不同信噪比场景下的样本原始语音用于模型的训练，提高模型的训练效果，并且基于干净语音的声学特征和噪声音频的声学特征确定样本语音增强掩码标签，从而可以使得模型以样本语音增强掩码标签作为训练目标，优化模型的训练参数。

基于上述任一实施例，对原始语音进行降噪，包括：

基于OMLSA算法，对原始语音进行降噪。

具体地，OMLSA算法采用了噪声估计方法，通过做先验无声概率及先验信噪比SNR的估计来进一步得到有声条件概率，进而计算出噪声有效增益，实现了噪声估计。OMLSA算法相比较其它抑制算法有较少的音乐噪声残留，具有较好的降噪性能。

基于上述任一实施例，图4为本发明提供的又一语音增强方法的流程示意图，如图4所示，该方法包括：

首先，基于OMLSA模块对带噪的原始语音(noisy)进行OMLSA降噪处理，输出降噪语音。

接着，对降噪语音按照STFT->MEL滤波器组->取对数(log)顺序进行特征提取，获取降噪语音的声学特征；以及对原始语音(noisy)按照STFT->MEL滤波器组->取对数(log)顺序进行特征提取，获取原始语音的声学特征。

随即，将降噪语音的声学特征和原始语音的声学特征进行拼接后，输入FSMN模型，预测IRM值。

其中，FSMN模型是以预测IRM值和理想IRM值计算MSE作为损失函数的，以MSE反向更新模型权重，优化模型参数。

此外，为验证本发明实施例提供的语音增强方法在较小数据量情况下的语音增强性能，本发明实施例使用300h的通用带噪语音用于FSMN模型训练，输入特征为带噪语音与OMLSA输出语音的LOG-MEL特征拼接而成，网络训练20步后存储模型进行测试。测试时选取的干净语音与带噪语音的语谱图分别如图5，图6所示。从图6中可看出，选用的带噪语音信噪比较低，语音特征已被噪声所掩盖。

对上述带噪语音进行OMLSA传统方法增强与FSMN有监督方法语音增强，得到的结果分别如图7和图8所示。由于带噪语音信噪比较低，图7中OMLSA算法的输出丢失了大量语音频谱细节；而图8中FSMN有监督语音增强方法由于训练数据量不足，语音增强的效果也没有达到期望。

同样，使用相同数据来源与数据规模训练本发明实施例提出的多输入形式的FSMN模型，即输入特征拼接了OMLSA算法的输出特征，所得到的输出音频的语谱图如图9所示。相较于仅使用OMLSA算法，保留了较多语音频谱细节，相较于仅使用FSMN算法，整体达到了更好的降噪效果，且低频语音特征更加清晰。

此外，本发明实施例还计算上述几种方法的客观语音质量评估(Perceptualevaluation of speech quality，PESQ)值，结果如表1所示。由表1可知，本发明实施例提出的基于OMLSA和FSMN结合的语音增强算法可以在小数据量、低信噪比的情况下提升带噪语音的语音质量，且比起单独使用OMLSA或FSMN网络的语音增强算法均有很大提升。

表1

增强算法	noisy	OMLSA	FSMN	OMLSA+FSMN
					Pesq值	0.9760	1.0243	1.3757	1.7533

下面对本发明提供的语音增强装置进行描述，下文描述的语音增强装置与上文描述的语音增强方法可相互对应参照。

基于上述任一实施例，图10是本发明提供的语音增强装置的结构示意图，如图10所示，该装置包括：

语音降噪单元1010，用于获取采集所得的原始语音，对所述原始语音进行降噪，得到降噪语音；

掩码确定单元1020，用于基于所述原始语音和所述降噪语音，确定所述原始语音的语音增强掩码；

语音增强单元1030，用于基于所述语音增强掩码，对所述原始语音进行语音增强。

基于上述任一实施例，所述掩码确定单元1020，具体用于：

基于上述任一实施例，所述掩码确定单元1020，具体包括：

第一融合单元，用于基于所述第一掩码预测模型的融合层，对所述原始语音的声学特征和所述降噪语音的声学特征进行加权融合，得到第一融合特征；

第一预测单元，用于基于所述第一掩码预测模型的预测层，得到所述原始语音的第一语音增强掩码。

基于上述任一实施例，所述加权融合应用的权重是基于所述原始语音的声学特征和所述降噪语音的声学特征确定的。

基于上述任一实施例，所述掩码确定单元1020，具体包括：

第二融合单元，用于对所述原始语音的声学特征和所述降噪语音的声学特征进行融合，得到第二融合特征；

第二预测单元，用于基于第二掩码预测模型，得到所述原始语音的第二语音增强掩码；

基于上述任一实施例，所述样本原始语音是将干净语音与噪声音频混合得到的，所述样本语音增强掩码标签是基于所述干净语音的声学特征和所述噪声音频的声学特征确定的。

基于上述任一实施例，所述语音降噪单元，用于对所述原始语音进行降噪，具体包括：基于OMLSA算法，对所述原始语音进行降噪。

图11是本发明提供的电子设备的结构示意图，如图11所示，该电子设备可以包括：处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和通信总线1140，其中，处理器1110，通信接口1120，存储器1130通过通信总线1140完成相互间的通信。处理器1110可以调用存储器1130中的逻辑指令，以执行语音增强方法，该方法包括：获取采集所得的原始语音，对所述原始语音进行降噪，得到降噪语音；基于所述原始语音和所述降噪语音，确定所述原始语音的语音增强掩码；基于所述语音增强掩码，对所述原始语音进行语音增强。

此外，上述的存储器1130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音增强方法，该方法包括：获取采集所得的原始语音，对所述原始语音进行降噪，得到降噪语音；基于所述原始语音和所述降噪语音，确定所述原始语音的语音增强掩码；基于所述语音增强掩码，对所述原始语音进行语音增强。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语音增强方法，该方法包括：获取采集所得的原始语音，对所述原始语音进行降噪，得到降噪语音；基于所述原始语音和所述降噪语音，确定所述原始语音的语音增强掩码；基于所述语音增强掩码，对所述原始语音进行语音增强。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音增强方法，其特征在于，包括：

基于所述语音增强掩码，对所述原始语音进行语音增强。

2.根据权利要求1所述的语音增强方法，其特征在于，所述基于所述原始语音和所述降噪语音，确定所述原始语音的语音增强掩码，具体包括：

3.根据权利要求2所述的语音增强方法，其特征在于，所述基于第一掩码预测模型，对所述原始语音的声学特征和所述降噪语音的声学特征进行融合，并基于融合所得的特征进行掩码预测，得到所述原始语音的第一语音增强掩码，具体包括：

4.根据权利要求3所述的语音增强方法，其特征在于，所述加权融合应用的权重是基于所述原始语音的声学特征和所述降噪语音的声学特征确定的。

5.根据权利要求1所述的语音增强方法，其特征在于，所述基于所述原始语音和所述降噪语音，确定所述原始语音的语音增强掩码，具体包括：

6.根据权利要求2至5任一项所述的语音增强方法，其特征在于，所述样本原始语音是将干净语音与噪声音频混合得到的，所述样本语音增强掩码标签是基于所述干净语音的声学特征和所述噪声音频的声学特征确定的。

7.一种语音增强装置，其特征在于，包括：

8.根据权利要求7所述的语音增强装置，其特征在于，所述掩码确定单元，具体用于：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述语音增强方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音增强方法的步骤。