CN112289337A

CN112289337A - 一种滤除机器学习语音增强后的残留噪声的方法及装置

Info

Publication number: CN112289337A
Application number: CN202011207590.7A
Authority: CN
Inventors: 项京朋; 邱锋海; 王之禹
Original assignee: Beijing Sound+ Technology Co ltd
Current assignee: Beijing Sound+ Technology Co ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-01-29
Anticipated expiration: 2040-11-03
Also published as: CN112289337B

Abstract

本申请实施例公开了一种滤除机器学习语音增强后的残留噪声的方法及装置，方法包括：根据原始带噪语音信号，确定所述原始带噪语音信号中干净语音信号的后验存在概率；根据所述后验存在概率，确定第一语音信号中的残留噪声信号的功率谱；其中，所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到；根据所述残留噪声信号的功率谱，确定所述第一语音信号的增益函数；根据所述增益函数，滤除所述第一语音信号中的残留噪声信号。本申请实施例通过更加准确地估计干净语音信号的后验存在概率，从而更为准确地估计残留噪声信号的功率谱，因此能够更有效地滤除残留噪声信号。

Description

一种滤除机器学习语音增强后的残留噪声的方法及装置

技术领域

本申请涉及机器学习语音增强领域。尤其涉及一种滤除机器学习语音增强后的残留噪声的方法及装置。

背景技术

随着互联网及人工智能技术的发展，数字语音通信设备吗，例如，耳机、移动手机、助听器等设备得到了人们越来越多的使用和关注。然而这些设备的应用场景通常包含各类环境噪声，会严重影响语音通话质量及人机语音交互性能。这些噪声可大致分为平稳噪声和非平稳噪声。平稳噪声包括空调噪声、马路噪声等，非平稳噪声包括风噪、类语音噪声、鸣笛噪声等。语音增强算法的目的是降低各类环境噪声并尽可能地保护目标语音的质量及可懂度。

传统语音增强方法大多采用增益函数进行语音增强。对这类语音增强方法而言，纯净语音功率谱(Power Spectral Density,PSD)以及噪声功率谱的估计是计算增益函数的必要条件。其中，由于噪声的种类较多，对噪声功率谱的估计一直以来都是该领域研究的重点与难点。目前较典型的噪声功率谱估计方法包括最小统计(Minimum Statistics,MS)方法，基于语音存在概率(Speech Presence Probability,SPP)的噪声功率谱估计方法以及基于最小均方误差(Minimum Mean-Square Error，MMSE)的噪声功率谱估计方法等。尽管现存的噪声功率谱估计方法对非平稳噪声具有快速的跟踪性能，但在噪声的非平稳性较高时，仍然存在较大的跟踪延迟，造成噪声谱估计误差，最终影响语音增强的效果。

近年来，基于机器学习的语音增强算法是该领域研究的热点。该类算法基于数据驱动，将大量带噪语音信号数据作为深度神经网络的输入，即可通过训练的模型，获得增强信号或增益函数。但上述基于机器学习的语音增强算法存在一个缺陷，即恢复的语音存在大量的非平稳残留噪声，影响语音听感。

发明内容

由于现有方法存在上述问题，本申请实施例提出一种滤除机器学习语音增强后的残留噪声的方法及装置。

第一方面，本申请实施例提出一种滤除机器学习语音增强后的残留噪声的方法，包括：

根据原始带噪语音信号，确定所述原始带噪语音信号中干净语音信号的后验存在概率；

根据所述后验存在概率，确定第一语音信号中的残留噪声信号的功率谱；其中，所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到；

根据所述残留噪声信号的功率谱，确定所述第一语音信号的增益函数；

根据所述增益函数，滤除所述第一语音信号中的残留噪声信号。

在一种可能的实现中，所述根据原始带噪语音信号，确定所述原始带噪语音信号中干净语音信号的后验存在概率，包括：

根据所述原始带噪语音信号和所述第一语音信号，确定所述原始带噪语音信号中干净语音信号的后验存在概率。

根据所述干净语音信号的第一先验不存在概率、所述干净语音信号的第一先验存在概率、所述原始带噪语音信号中原始噪声信号的功率谱、所述原始带噪语音信号的第一先验信噪比和原始带噪语音信号，确定所述干净语音信号的后验存在概率；其中，所述第一先验信噪比为先验知识未知时，所述干净语音信号功率与所述原始带噪语音信号中原始噪声信号功率的比值。

在一种可能的实现中，所述根据所述原始带噪语音信号和所述第一语音信号，确定所述原始带噪语音信号中干净语音信号的后验存在概率，包括：

根据所述神经网络，确定所述原始带噪语音信号的谱增益函数；

根据所述谱增益函数，确定后验信噪比；其中，所述后验信噪比为原始带噪语音信号功率与经过神经网络去除掉的噪声信号功率的比值；

根据所述干净语音信号的第二先验不存在概率、所述干净语音信号的第二先验存在概率、所述原始带噪语音信号的第二先验信噪比和所述后验信噪比，确定所述干净语音信号的后验存在概率；其中，所述第二先验信噪比为先验知识未知时，所述第一语音信号功率与经过神经网络去除掉的噪声信号功率的比值。

在一种可能的实现中，根据所述残留噪声信号的功率谱，确定所述第一语音信号的增益函数，包括：

根据所述残留噪声信号的功率谱，利用决策导向Decision-Directed算法，确定所述第一语音信号的第三先验信噪比；其中，所述第三先验信噪比为先验知识未知时，所述第一语音信号中的纯净语音信号功率与残留噪声信号功率的比值；

根据所述第三先验信噪比和预设先验信噪比，确定所述增益函数。

在一种可能的实现中，所述根据所述增益函数，滤除所述第一语音信号中的残留噪声信号，包括：

将所述增益函数的频谱与所述第一语音信号的频谱相乘，获得降噪信号的频谱；

根据所述降噪信号的频谱，确定降噪信号。

第二方面，本申请实施例提出一种滤除机器学习语音增强后的残留噪声的装置，包括：

确定模块和滤除模块；

所述确定模块，根据原始带噪语音信号，确定所述原始带噪语音信号中干净语音信号的后验存在概率；

所述确定模块，还用于根据所述后验存在概率和第一语音信号，确定残留噪声信号的功率谱；其中，所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到，所述第一语音信号包括残留噪声信号；

所述确定模块，还用于根据所述残留噪声信号的功率谱，确定所述第一语音信号的增益函数；

所述滤除模块，用于根据所述增益函数，滤除所述第一语音信号中的残留噪声信号。

第三方面，本申请实施例还提出一种滤除机器学习语音增强后的残留噪声的装置，包括至少一个处理器，所述处理器用于执行存储器中存储的程序，当所述程序被执行时，使得所述装置执行：

第四方面，本申请实施例还提出一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下步骤：

由上述技术方案可知，本申请实施例通过原始带噪语音信号或者通过原始带噪语音信号和通过神经网络对所述原始带噪语音信号进行增强后的第一语音信号可以更加准确地估计干净语音信号的后验存在概率，从而更为准确地估计残留噪声信号的功率谱，因此能够更有效地去除残留噪声信号，显著提高了语音质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的方法的流程示意图；

图2为本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的方法的另一流程示意图；

图3为本申请实施例提供的DARCN语音增强后的残留噪声信号在800Hz处的功率谱，以及采用传统噪声功率谱估计方法估计的残留噪声信号的功率谱和本申请提出的两种方法估计的残留噪声信号的功率谱；

图4为本申请实施例提供的DARCN语音增强前后的语音语谱图，以及采用传统后滤波方案和本申请提出的两种方法处理后的语音语谱图；

图5为本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的方法的又一流程示意图；

图6为本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本申请的技术方案，而不能以此来限制本申请的保护范围。

需要说明的是，本申请实施例的说明书和权利要求书中的术语“第一”、“第二”和“第三”是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一先验信噪比、第二先验信噪比和第三先验信噪比是用于区别不同的先验信噪比，而不是用于描述目标对象的特定顺序。

基于机器学习的语音增强算法将大量带噪语音信号数据输入深度神经网络，即可通过训练的模型，获得增强信号或增益函数。典型的机器学习神经网络包括前馈多层感知网络，即全连接(Fully-Connected，FC)模型、循环神经网络(Recurrent Neural Network，RNN)模型、卷积神经网络(Convolutional Neural Networks，CNN)模型、以及生成对抗式网络(Generative Adversarial Networks，GAN)模型等。其中，长短期记忆(Long Short-TermMemory,LSTM)网络是RNN模型中应用最为广泛的一种模型，具有较强的泛化能力，但该模型参数量较大。相比之下，CNN模型由于共享卷积核的机制，参数量较小，适用于具有低功耗低延迟要求的便携式产品。目前基于卷积编解码(Convolutional Encoder-Decoder，CED)结构的神经网络是较为热门的一类CNN模型，包括卷积循环神经网络(ConvolutionalRecurrent Neural Networks，CRN)、门残差神经网络(Gated Residual Networks，GRN)、密集连接式神经网络(Densely Connected Networks，DCN)和动态注意力机制卷积循环神经网络(Dynamic Attention Recurrent Convolutional Networks,DARCN)等。但通过上述神经网络恢复的语音存在大量的非平稳残留噪声，影响语音听感。

在一个可能的实施例中，假设原始带噪语音信号为x(n)＝s(n)+d(n)，其中，n为离散时间采样点，s(n)为干净语音信号，d(n)为原始噪声信号。经过短时傅里叶变换后，原始带噪语音信号的频谱可以表示为：

X(k,l)＝S(k,l)+D(k,l) (1)

其中，k和l表示第k个频点和第l帧。假设用函数

表示深度神经网络(DeepNeural Networks，DNN)单通道语音增强处理过程，则经过DNN增强后的语音信号，即第一语音信号(第一语音信号包括残留噪声信号)，可以表示为：

其中，

和

分别为估计的纯净语音信号和残留噪声信号。

图1示出了本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的方法的流程示意图。在该流程示意图中，首先通过原始带噪语音信号估计干净语音信号的后验存在概率(即下文中的第一种方法)，再结合DNN增强后语音信号估计残留噪声信号的功率谱，从而计算基于决策导向(Decision-Directed，DD)算法的增益函数，最终将该增益函数应用到DNN增强后语音信号，获得降噪信号频谱Z(k,l)。

图2示出了本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的方法的另一流程示意图。在该流程示意图中，首先通过原始带噪语音信号和DNN增强后语音信号估计干净语音信号的后验存在概率(即下文中的第二种方法)，再根据上述后验存在概率估计残留噪声信号的功率谱，从而计算基于DD算法的增益函数，最终将该增益函数应用到DNN增强后语音信号，获得降噪信号频谱Z(k,l)。

接下来，详细介绍估计干净语音信号的后验存在概率的方法。

第一种方法：根据原始带噪语音信号X(k,l)估计原始带噪语音信号中干净语音信号的后验存在概率。

针对原始带噪语音信号X(k,l)，根据干净语音信号在第k个频点第l帧是否存在定义两个假设，分别表示干净语音信号不存在的假设：

Η₀(k,l):X(k,l)＝D(k,l)

(3)

Η₁(k,l):X(k,l)＝S(k,l)+D(k,l)

根据最大似然准则以及贝叶斯原理，可以得到干净语音信号的后验存在概率：

其中，P(Η₀)和P(Η₁)分别表示干净语音信号的第一先验不存在概率和干净语音信号的第一先验存在概率，在先验知识未知时，令P(Η₀)＝P(Η₁)＝0.5。

为原始带噪语音信号的第一先验信噪比，上述第一先验信噪比为先验知识未知时，干净语音信号S(k,l)功率与原始带噪语音信号中原始噪声信号D(k,l)功率的比值，令

为估计的原始噪声信号的功率谱。利用公式(4)中的干净语音信号的后验存在概率和第一语音信号，即可估计第一语音信号的残留噪声周期图：

其中，

为估计的残留噪声信号的功率谱。残留噪声信号的功率谱可以由一阶递归平滑获得：

其中，α为平滑因子，令α＝0.8。

第二种方法：根据原始带噪语音信号X(k,l)和第一语音信号(即DNN增强后的语音信号Y(k,l))估计干净语音信号的后验存在概率。

根据干净语音信号在第k个频点第l帧是否存在重新定义两个假设，分别表示干净语音信号不存在的假设：

其中，V(k,l)表示经过DNN去除掉的噪声信号。假设第一语音信号与去除掉的噪声信号不相关，则可以将DNN模块作为谱增益函数M(k,l)，其表达式为：

其中，γ(k,l)＝|X(k,l)|²/|V(k,l)|²为后验信噪比。通过公式(8)计算该后验信噪比为：

根据后验信噪比可以计算出干净语音信号的后验存在概率为：

其中，P(Η'₀)和P(Η'₁)分别表示干净语音信号先验不存在概率和干净语音信号先验存在概率，在先验知识未知时，另P(Η'₀)＝P(Η'₁)＝0.5。

为原始带噪语音信号的第二先验信噪比，上述第二先验信噪比为先验知识未知时，第一语音信号Y(k,l)功率与经过神经网络去除掉的噪声信号V(k,l)功率的比值，令

将由公式(10)得到的P(Η'₁|X)代入公式(5)和(6)，即根据后验存在概率和第一语音信号获得残留噪声信号的功率谱，其中，公式(5)中的P(Η₁|X)＝P(Η'₁|X)。

在本申请实施例中，利用上述两种方法估计出残留噪声信号的功率谱后，利用DD算法，根据残留噪声信号的功率谱，估计第一语音信号的第三先验信噪比

上述第三先验信噪比为第一语音信号Y(k,l)中的纯净语音信号

功率和残留噪声信号

功率的比值，具体地，

其中，α_DD为第一平滑因子，取值为0.9。然后，根据第三先验信噪比和预设先验信噪比确定增益函数，具体地，

其中，ξ_min为预设先验信噪比，在本申请实施例中，预设先验信噪比为最小先验信噪比，令ξ_min＝0.1。将增益函数G_DD(k,l)应用在第一语音信号上，即将增益函数G_DD(k,l)的频谱与第一语音信号的频谱相乘，可获得最终的降噪信号频谱Z(k,l)。通过逆傅里叶变换和重叠相加法，可获得最终的降噪信号z(n)。

图3为本申请实施例提供的DARCN语音增强后的残留噪声信号在800Hz处的功率谱，以及采用传统噪声功率谱估计方法估计的残留噪声信号的功率谱和本申请提出的两种方法估计的残留噪声信号的功率谱。其中，图3(a)的噪声类型为NOISEX-92数据库中的f16噪声，信噪比为-5dB；图3(b)的噪声类型为白噪声，信噪比为0dB；图3(c)的噪声类型为NOISEX-92数据库中的f16噪声，信噪比为5dB；图3(d)的噪声类型为白噪声，信噪比为10dB。由图3可以看出，经过DARCN处理后的语音信号存在高度非平稳态残留噪声信号。若采用传统的噪声功率估计方法进行估计，跟踪速度缓慢，造成残留噪声信号被严重低估。若采用本申请提出的方案进行估计，可以较快速地跟踪残留噪声信号的功率谱，估计的准确性明显提升。

图4为本申请实施例提供的DARCN语音增强前后的语音语谱图，以及采用传统后滤波方案和本申请提出的两种方法处理后的语音语谱图。其中，图4(a)为干净语音信号S(k,l)的语谱图；图4(b)为原始带噪语音信号X(k,l)的语谱图，噪声为NOISEX-92数据库中的f16噪声，信噪比为0dB；图4(c)为DARCN增强后的语音Y(k,l)的语谱图；图4(d)为针对图4(c)的语音采用传统后滤波方案处理后的语谱图；图4(e)为针对图4(c)的语音采用本申请提出的第一种方法处理后的语谱图；图4(f)为针对图4(c)的语音采用本申请提出的第二种方法处理后的语谱图。对比图4(b)和图4(c)可以看出，经过DARCN语音增强处理后的语音噪声明显降低了，但是仍有残留噪声信号。从图4(d)中可以看出，经过传统后滤波方案处理后的语音信号，残留噪声信号仍然存在。从图4(e)和图4(f)可以看出，本申请提出的两种方法能够明显降低残留噪声信号，两者语谱结构相对于图4(d)更为清晰。

显然，本申请提出的两种方法相对于传统后滤波方案可以更加准确地估计干净语音信号的后验存在概率，从而更为准确地估计残留噪声信号的功率谱，因此能够更有效地去除残留噪声信号，显著提高了语音质量。

图5为本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的方法的又一流程示意图，该流程示意图包括：S501—S504，具体包括：

S501,根据原始带噪语音信号，确定所述原始带噪语音信号中干净语音信号的后验存在概率。

在本申请实施例中，可以通过两种方法，确定原始带噪语音信号中干净语音信号的后验存在概率。其中一种方法是根据原始带噪语音信号，确定原始带噪语音信号中干净语音信号的后验存在概率；另一种方法是根据原始带噪语音信号和通过神经网络对所述原始带噪语音信号进行增强后的第一语音信号，确定原始带噪语音信号中干净语音信号的后验存在概率。第一种方法具体为，根据干净语音信号的第一先验不存在概率、干净语音信号的第一先验存在概率、原始带噪语音信号中原始噪声信号的功率谱、原始带噪语音信号的第一先验信噪比和原始带噪语音信号，确定干净语音信号的后验存在概率；其中，第一先验信噪比为先验知识未知时，干净语音信号功率与原始带噪语音信号中原始噪声信号功率的比值。第二种方法具体为，根据神经网络，确定原始带噪语音信号的谱增益函数；根据谱增益函数，确定后验信噪比；其中，后验信噪比为原始带噪语音信号功率与经过神经网络去除掉的噪声信号功率的比值；根据干净语音信号的第二先验不存在概率、干净语音信号的第二先验存在概率、原始带噪语音信号的第二先验信噪比和后验信噪比，确定干净语音信号的后验存在概率；其中，第二先验信噪比为先验知识未知时，第一语音信号功率与经过神经网络去除掉的噪声信号功率的比值。

S502,根据所述后验存在概率，确定第一语音信号中的残留噪声信号的功率谱；其中，所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到。

S503,根据所述残留噪声信号的功率谱，确定所述第一语音信号的增益函数。

在本申请实施例中，首先，根据残留噪声信号的功率谱，利用决策导向Decision-Directed算法，确定第一语音信号的第三先验信噪比；其中，第三先验信噪比为先验知识未知时，第一语音信号中的纯净语音信号功率与残留噪声信号功率的比值；然后根据第三先验信噪比和预设先验信噪比，确定增益函数。

S504，根据所述增益函数，滤除所述第一语音信号中的残留噪声信号。

在本申请实施例中，将增益函数的频谱与残留噪声信号的频谱相乘，获得降噪信号的频谱；根据降噪信号的频谱，确定降噪信号。

图6为本申请实施例提供的一种滤除机器学习语音增强后的残留噪声的装置的结构示意图，该结构示意图包括：确定模块601和滤除模块602；

所述确定模块601，用于根据原始带噪语音信号，确定所述原始带噪语音信号中干净语音信号的后验存在概率；

所述确定模块601，还用于根据所述后验存在概率，确定第一语音信号中的残留噪声信号的功率谱；其中，所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到；

所述确定模块601，还用于根据所述残留噪声信号的功率谱，确定第一语音信号的增益函数；

所述滤除模块602，用于根据所述增益函数，滤除所述第一语音信号中的残留噪声信号。

本申请实施例提供一种滤除机器学习语音增强后的残留噪声的装置，包括至少一个处理器，所述处理器用于执行存储器中存储的程序，当所述程序被执行时，使得所述装置执行：

根据原始带噪语音信号，确定所述原始带噪语音信号中干净语音信号的后验存在概率；根据所述后验存在概率，确定第一语音信号中的残留噪声信号的功率谱；其中，所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到；根据所述残留噪声信号的功率谱，确定所述第一语音信号的增益函数；根据所述增益函数，滤除所述第一语音信号中的残留噪声信号。

本申请实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如下步骤：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种滤除机器学习语音增强后的残留噪声的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据原始带噪语音信号，确定所述原始带噪语音信号中干净语音信号的后验存在概率，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据原始带噪语音信号，确定所述原始带噪语音信号中干净语音信号的后验存在概率，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述原始带噪语音信号和所述第一语音信号，确定所述原始带噪语音信号中干净语音信号的后验存在概率，包括：

5.根据权利要求1所述的方法，其特征在于，根据所述残留噪声信号的功率谱，确定所述第一语音信号的增益函数，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述增益函数，滤除所述第一语音信号中的残留噪声信号，包括：

根据所述降噪信号的频谱，确定降噪信号。

7.一种滤除机器学习语音增强后的残留噪声的装置，其特征在于，包括：

确定模块和滤除模块；

所述确定模块，用于根据原始带噪语音信号，确定所述原始带噪语音信号中干净语音信号的后验存在概率；

所述确定模块，还用于根据所述后验存在概率，确定第一语音信号中的残留噪声信号的功率谱；其中，所述第一语音信号通过神经网络对所述原始带噪语音信号进行增强得到；

8.一种滤除机器学习语音增强后的残留噪声的装置，其特征在于，包括至少一个处理器，所述处理器用于执行存储器中存储的程序，当所述程序被执行时，使得所述装置执行：

如权利要求1-6任一项所述的滤除机器学习语音增强后的残留噪声的方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一所述的滤除机器学习语音增强后的残留噪声的方法。