CN111798862A

CN111798862A - 音频降噪方法、系统、设备及存储介质

Info

Publication number: CN111798862A
Application number: CN202010548206.3A
Authority: CN
Inventors: 陈英博
Original assignee: TP Link Technologies Co Ltd
Current assignee: TP Link Technologies Co Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-10-20

Abstract

本发明公开了一种音频降噪方法，包括：对音频进行分帧，并计算当前帧的能量；判断所述当前帧的能量与预设的混合高斯模型中的若干个单高斯模型是否匹配；根据匹配结果确定所述当前帧的类型；其中，所述当前帧的类型包括激活帧和背景帧；当所述当前帧为激活帧时，获取与所述激活帧的频域数组匹配的单高斯模型的第一目标标准差；根据所述第一目标标准差利用预设的降噪算法对所述激活帧进行降噪。本发明还公开一种音频降噪系统、一种音频降噪设备和一种计算机可读存储介质。采用本发明实施例，能有效提高音频的降噪效果。

Description

音频降噪方法、系统、设备及存储介质

技术领域

本发明涉及语音处理技术领域，尤其涉及一种音频降噪方法、系统、设备及存储介质。

背景技术

降噪是音频或语音优化中一个重要的功能，通过麦克风采集到的声音，除了有用信号外，往往掺杂着很多噪声。噪声的来源有很多，有环境中的杂音，也有音频采集设备自身产生的噪声，如电流声，电路元器件产生的噪声等等。过大的噪声会影响用户体验，所以需要降噪算法来对噪声进行抑制。近年来，随着深度学习的发展，有很多利用深度学习的语音降噪技术问世，如WaveNet与rnnoise。但深度学习需要的算力太高，而且降噪效果与训练数据强相关，泛化性较差，很有可能换了一个环境后，降噪效果会大打折扣。

发明内容

本发明实施例的目的是提供一种音频降噪方法、系统、设备及存储介质，能有效提高音频的降噪效果。

为实现上述目的，本发明实施例提供了一种音频降噪方法，包括：

对音频进行分帧，并计算当前帧的能量；

判断所述当前帧的能量与预设的混合高斯模型中的若干个单高斯模型是否匹配；

根据匹配结果确定所述当前帧的类型；其中，所述当前帧的类型包括激活帧和背景帧；

当所述当前帧为激活帧时，获取与所述激活帧的频域数组匹配的单高斯模型的第一目标标准差；

根据所述第一目标标准差利用预设的降噪算法对所述激活帧进行降噪。

作为上述方案的改进，所述对音频进行分帧，并计算当前帧的能量，包括：

对音频进行分帧；其中，每一帧中包含若干个时域点；

根据每一所述时域点的幅值计算当前帧的能量。

作为上述方案的改进，所述方法还包括：

当所述当前帧为背景帧时，将所述背景帧中每个所述时域点的幅值输入所述混合高斯模型中，以更新所述混合高斯模型的参数；

获取与所述背景帧的频域数组匹配的更新参数后的所述混合高斯模型中单高斯模型的第二目标标准差；

根据所述第二目标标准差利用预设的降噪算法对所述背景帧进行降噪。

作为上述方案的改进，所述判断所述当前帧的能量与预设的混合高斯模型中的若干个单高斯模型是否匹配，具体包括：

将所述当前帧的能量按照预设匹配顺序与若干个单高斯模型依次进行匹配；

判断所述当前帧的能量与当前单高斯模型的均值的差值是否小于或等于所述当前单高斯模型的标准差与预设第一阈值的乘积；

若是，则判定所述当前帧的能量与所述当前单高斯模型匹配成功；若否，则判定所述当前帧的能量与所述当前单高斯模型匹配失败。

作为上述方案的改进，所述根据匹配结果确定所述当前帧的类型，包括：

当所述当前帧的能量与任一单高斯模型匹配成功时，更新当前单高斯模型的参数；

对所述混合高斯模型中的所有单高斯模型的权重进行调整，以使所有单高斯模型的权重的和为预设固定值；

计算所述当前帧与匹配顺序在所述当前帧之前的其它帧的权重和；

判断所述权重和是否大于预设第二阈值；

若是，则判定所述当前帧为背景帧；若否，则判定所述当前帧为激活帧。

作为上述方案的改进，所述单高斯模型的参数包括权重、标准差和均值；则，所述更新当前单高斯模型的参数，具体包括：

更新所述当前单高斯模型的权重、标准差和均值中的至少一种。

作为上述方案的改进，所述根据匹配结果确定所述当前帧的类型，还包括：

当所述当前帧的能量与所有单高斯模型匹配失败时，判定所述当前帧为激活帧。

为实现上述目的，本发明实施例还提供了一种音频降噪系统，包括：

当前帧能量计算模块，用于对音频进行分帧，并计算当前帧的能量；

匹配模块，用于判断所述当前帧的能量与预设的混合高斯模型中的若干个单高斯模型是否匹配；

当前帧类型确定模块，用于根据匹配结果确定所述当前帧的类型；其中，所述当前帧的类型包括激活帧和背景帧；

降噪模块，用于当所述当前帧为激活帧时，获取与所述激活帧的频域数组匹配的单高斯模型的第一目标标准差，并根据所述第一目标标准差利用预设的降噪算法对所述激活帧进行降噪。

为实现上述目的，本发明实施例还提供了一种音频降噪设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一实施例所述的音频降噪方法。

为实现上述目的，本发明实施例还提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的音频降噪方法。

与现有技术相比，本发明实施例公开的一种音频降噪方法、系统、设备和存储介质，通过确定音频中每一帧的类型，然后针对不同类型的帧采用不同的降噪方式。首先对音频进行分帧，并计算当前帧的能量；然后，判断所述当前帧的能量与预设的混合高斯模型中的若干个单高斯模型是否匹配，以根据匹配结果确定所述当前帧的类型；最后，当所述当前帧为激活帧时，获取与所述激活帧的频域数组匹配的单高斯模型的第一目标标准差；根据所述第一目标标准差利用预设的降噪算法对所述激活帧进行降噪，能有效提高音频的降噪效果。

附图说明

图1是本发明实施例提供的一种音频降噪方法的流程图；

图2是本发明实施例提供的一种音频降噪系统的流程图；

图3是本发明实施例提供的一种音频降噪设备的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种音频降噪方法的流程图；所述音频降噪方法包括：

S1、对音频进行分帧，并计算当前帧的能量；

S2、判断所述当前帧的能量与预设的混合高斯模型中的若干个单高斯模型是否匹配；

S3、根据匹配结果确定所述当前帧的类型；其中，所述当前帧的类型包括激活帧和背景帧；

S4、当所述当前帧为激活帧时，获取与所述激活帧的频域数组匹配的单高斯模型的第一目标标准差；

S5、根据所述第一目标标准差利用预设的降噪算法对所述激活帧进行降噪。

值得说明的是，本发明实施例中的所述音频降噪方法可由语音识别装置执行实现，所述语音识别装置用户获取用户的音频信息，并根据所述音频降噪方法对所述音频信息进行降噪。

本发明实施例中预设有混合高斯模型，所述混合高斯模型用于区分当前语音帧是否为激活帧。假设每个帧的长度为W(在8KHz采样率下W一般取128)，则我们需要1个GMM(混合高斯模型)模型，根据帧总能量来进行音频活性检测。时域长度为W的帧，用傅里叶变换变换到频域后，频域数组长度为WF＝W/2+1，我们还需要WF个GMM模型来对每个频点的噪声均值方差进行建模。初始化这1+WF个单高斯模型。

假设所述混合高斯模型中共K个单高斯模型(K一般取2或3)，标号分别为1…k…K。混合高斯模型的表示如下：

其中，p(x)表示x的概率分布可由K个权重的单高斯分布来表示。K表示共有K个单高斯模型，w_k表示第k个单高斯模型的权重，u_k表示第k个单高斯模型的均值，v_k表示第k个单高斯模型的标准差。在初始化过程中，可以任意指定w_k、u_k、v_k的值，只要保证这三个值均为正数，且权重w_k和为1。初始化最后一步是调整K个模型，让均值u_k下标小的模型排在前面，即若u_j<u_k,则必有j<k。

具体地，在步骤S1中，对音频进行分帧；其中，每一帧中包含若干个时域点。示例性的，每一帧可以包括128个时域点。具体的对音频信号流进行分帧的方式可参考现有技术中的音频分帧方式，本发明对此不做具体限定。根据当前帧中每一所述时域点的幅值计算当前帧的能量，当前帧的能量即帧内所有时域点的平方和。假设此帧为第i个帧，计算此帧的能量满足以下公式：

其中，s_p为当前帧的第p个时域点的幅值。

具体地，在步骤S2中，所述判断所述当前帧的能量与预设的混合高斯模型中的若干个单高斯模型是否匹配成功，具体包括S21～S23：

S21、将所述当前帧的能量按照预设匹配顺序与若干个单高斯模型依次进行匹配；其中，所述匹配顺序为按照模型的下标从小到大；

S22、判断所述当前帧的能量与当前单高斯模型的均值的差值是否小于或等于所述当前单高斯模型的标准差与预设第一阈值的乘积，满足以下公式：

abs(x_i-u_k)≤λ₀*v_k 公式(4)；

其中，λ₀为所述预设第一阈值，可以设置为2-3之间，也可设置为其他值；

S23、若是，则判定所述当前帧的能量与所述当前单高斯模型匹配成功，不再进行后续单高斯模型的匹配；若否，则判定所述当前帧的能量与所述当前单高斯模型匹配失败。

示例性的，要区分背景帧与激活帧，可以用两个单高斯模型来组成混合高斯模型，即K＝2，即用一个单高斯模型来刻画背景噪声的帧能量分布，用另一个单高斯模型来刻画语音帧能量分布。对于一个帧，将帧能量依次与各个单高斯模型匹配的作用就是来判断这个帧是背景帧还是激活帧。

具体地，在步骤S3中，所述根据匹配结果确定所述当前帧的类型，包括步骤S31～S35。

S31、当所述当前帧的能量与任一单高斯模型匹配成功时，更新当前单高斯模型的参数；其中，所述单高斯模型的参数包括权重w_k、标准差v_k和均值u_k；则，所述更新当前单高斯模型的参数，具体包括：更新所述当前单高斯模型的权重、标准差和均值中的至少一种。

示例性的，x_i与第k个模型匹配成功，一种可能的更新方式如下：

u'_k＝u_k+a₀*(x_i-u_k) 公式(5)；

其中，a₀为预设第三阈值，取0-1之间。

S32、对所述混合高斯模型中的所有单高斯模型的权重进行调整，以使所有单高斯模型的权重的和为预设固定值；其中，所述预设固定值为1；用以下公式所有单高斯模型的权重进行缩放，使其和为1；

S33、计算所述当前帧与匹配顺序在所述当前帧之前的其它帧的权重和。

S34、判断所述权重和是否大于预设第二阈值；满足以下公式：

其中，Thresh为所述预设第二阈值，一般取0.5-0.8之间。

S35、若是，则判定所述当前帧为背景帧，即vad＝0；若否，则判定所述当前帧为激活帧，即vad＝1。

可选地，所述根据匹配结果确定所述当前帧的类型，还包括步骤S36：

S36、当所述当前帧的能量与所有单高斯模型匹配失败时，判定所述当前帧为激活帧。

示例性的，当x_i与K个单高斯模型全都匹配失败，则直接判断所述当前帧为激活帧，即vad＝1。此时，更新所述混合高斯模型中匹配顺序位于末位(第K个)的单高斯模型的参数。更新方式满足以下公式：

u_K＝x_i 公式(10)；

v_K＝v₀ 公式(11)；

进一步的，更新完第K个单高斯模型(最后一个)的三个参数后，再对所有K个模型的权重进行缩放，并对K个模型根据更新后的均值按照从小到大的顺序进行重新排序。

具体地，在步骤S4～S5中，当所述当前帧为激活帧时，获取与所述激活帧的频域数组匹配的单高斯模型的第一目标标准差；根据所述第一目标标准差利用预设的降噪算法对所述激活帧进行降噪。

示例性的，假设所述激活帧的频域数组为X[f]，0<＝f<WF。对于所述激活帧中的每一个频点f，我们找第f个GMM模型中与X[f]匹配的单高斯模型的第一目标标准差v_k1，由于已经进行过模型更新，所以X[f]必定与其中至少一个单高斯模型匹配，并利用维纳滤波或谱减算法来对这个频点进行降噪。如果采用谱减算法，满足以下公式：

X[f]＝sqrt(max(X[f]*X[f]-v_k1*v_k1,0)) 公式(13)。

进一步的，处理完所有的频点之后，再将处理后的频点数组通过逆傅里叶变换变换到时域，便完成了这个帧的降噪。

可选的，当所述当前帧为背景帧时，所述方法还包括S6～S8：

S6、当所述当前帧为背景帧时，将所述背景帧中每个所述时域点的幅值输入所述混合高斯模型中，以更新所述混合高斯模型的参数；

S7、获取与所述背景帧的频域数组匹配的更新参数后的所述混合高斯模型中单高斯模型的第二目标标准差；

S8、根据所述第二目标标准差利用预设的降噪算法对所述背景帧进行降噪。

示例性的，当所述当前帧为背景帧时，将所述背景帧中每个频点幅值X[f]送入对应的WF个GMM模型之一，初始化过程中一共初始化了WF(下标从0开始)个GMM模型用于对每个频点进行建模。比如，第0个GMM模型用于处理所有帧的第0个频点幅值X[f]。根据上述公式(10)～(12)的方式更新所述混合高斯模型的参数。然后，对于所述背景帧中的每一个频点f，我们找第f个GMM模型中与X[f]匹配的单高斯模型的第二目标标准差v_k2，由于已经进行过模型更新，所以X[f]必定与其中至少一个单高斯模型匹配，并利用维纳滤波或谱减算法来对这个频点进行降噪。如果采用谱减算法，可参考公式(13)。最后，处理完所有的频点之后，再将处理后的频点数组通过逆傅里叶变换变换到时域，便完成了这个帧的降噪。

与现有技术相比，本发明实施例公开的一种音频降噪方法，通过确定音频中每一帧的类型，然后针对不同类型的帧采用不同的降噪方式。首先对音频进行分帧，并计算当前帧的能量；然后，判断所述当前帧的能量与预设的混合高斯模型中的若干个单高斯模型是否匹配，以根据匹配结果确定所述当前帧的类型；最后，当所述当前帧为激活帧时，获取与所述激活帧的频域数组匹配的单高斯模型的第一目标标准差；根据所述第一目标标准差利用预设的降噪算法对所述激活帧进行降噪，能有效提高音频的降噪效果。

参见图2，图2是本发明实施例提供的一种音频降噪系统10的流程图；所述音频降噪系统10包括：

当前帧能量计算模块11，用于对音频进行分帧，并计算当前帧的能量；

匹配模块12，用于判断所述当前帧的能量与预设的混合高斯模型中的若干个单高斯模型是否匹配；

当前帧类型确定模块13，用于根据匹配结果确定所述当前帧的类型；其中，所述当前帧的类型包括激活帧和背景帧；

降噪模块14，用于当所述当前帧为激活帧时，获取与所述激活帧的频域数组匹配的单高斯模型的第一目标标准差，并根据所述第一目标标准差利用预设的降噪算法对所述激活帧进行降噪。

具体地，所述当前帧能量计算模块11用于：

对音频进行分帧；其中，每一帧中包含若干个时域点；根据每一所述时域点的幅值计算当前帧的能量。

具体地，所述匹配模块12用于：

具体地，所述当前帧类型确定模块13用于：

判断所述权重和是否大于预设第二阈值；

具体地，所述当前帧类型确定模块13还用于：

所述降噪模块14还用于：

值得说明的是，本发明实施例所述的音频降噪系统10中各个模块的工作过程请参考上述实施例所述的音频降噪方法的工作过程，在此不再赘述。

与现有技术相比，本发明实施例公开的一种音频降噪系统10，通过确定音频中每一帧的类型，然后针对不同类型的帧采用不同的降噪方式。首先对音频进行分帧，并计算当前帧的能量；然后，判断所述当前帧的能量与预设的混合高斯模型中的若干个单高斯模型是否匹配，以根据匹配结果确定所述当前帧的类型；最后，当所述当前帧为激活帧时，获取与所述激活帧的频域数组匹配的单高斯模型的第一目标标准差；根据所述第一目标标准差利用预设的降噪算法对所述激活帧进行降噪，能有效提高音频的降噪效果。

参见图3，图3是本发明实施例提供的一种音频降噪设备20的流程图。该实施例的音频降噪设备20包括：处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述音频降噪方法实施例中的步骤，例如图1所示的步骤S1～S5。或者，所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如当前帧能量计算模块11。

示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器22中，并由所述处理器21执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述音频降噪设备20中的执行过程。例如，所述计算机程序可以被分割成当前帧能量计算模块11、匹配模块12、当前帧类型确定模块13和降噪模块14，各模块具体功能请参考上述实施例所述的音频降噪系统10的具体工作过程，在此不再赘述。

所述音频降噪设备20可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述音频降噪设备20可包括，但不仅限于，处理器21、存储器22。本领域技术人员可以理解，所述示意图仅仅是音频降噪设备20的示例，并不构成对音频降噪设备20的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述音频降噪设备20还可以包括输入输出设备、网络接入设备、总线等。

所述处理器21可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器21也可以是任何常规的处理器等，所述处理器21是所述音频降噪设备20的控制中心，利用各种接口和线路连接整个音频降噪设备20的各个部分。

所述存储器22可用于存储所述计算机程序和/或模块，所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块，以及调用存储在存储器22内的数据，实现所述音频降噪设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述音频降噪设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器21执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种音频降噪方法，其特征在于，包括：

对音频进行分帧，并计算当前帧的能量；

2.如权利要求1所述的音频降噪方法，其特征在于，所述对音频进行分帧，并计算当前帧的能量，包括：

对音频进行分帧；其中，每一帧中包含若干个时域点；

根据每一所述时域点的幅值计算当前帧的能量。

3.如权利要求2所述的音频降噪方法，其特征在于，所述方法还包括：

4.如权利要求1所述的音频降噪方法，其特征在于，所述判断所述当前帧的能量与预设的混合高斯模型中的若干个单高斯模型是否匹配，具体包括：

5.如权利要求4所述的音频降噪方法，其特征在于，所述根据匹配结果确定所述当前帧的类型，包括：

判断所述权重和是否大于预设第二阈值；

6.如权利要求5所述的音频降噪方法，其特征在于，所述单高斯模型的参数包括权重、标准差和均值；则，所述更新当前单高斯模型的参数，具体包括：

7.如权利要求1所述的音频降噪方法，其特征在于，所述根据匹配结果确定所述当前帧的类型，还包括：

8.一种音频降噪系统，其特征在于，包括：

9.一种音频降噪设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的音频降噪方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的音频降噪方法。