CN111899752A

CN111899752A - 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端

Info

Publication number: CN111899752A
Application number: CN202010670348.7A
Authority: CN
Inventors: 巴莉芳; 康力
Original assignee: Unisoc Chongqing Technology Co Ltd
Current assignee: Unisoc Chongqing Technology Co Ltd
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-11-06
Anticipated expiration: 2040-07-13
Also published as: US20230298610A1; CN111899752B; WO2022012367A1

Abstract

一种快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端，其中，所述方法包括：获取输入信号，将所述输入信号由时域信号转化为频域信号；计算所述频域信号的实时功率谱，跟踪所述实时功率谱中的功率最小值；根据所述功率最小值进行噪声估计，得到估计噪声功率谱；根据所述估计噪声功率谱计算增益系数，并根据所述增益系数对所述频域信号增强，得到增强后的频域信号；将增强后的频域信号转化为时域信号，得到输出信号。该方法采用连续谱最小值跟踪方法跟踪实时功率谱的功率最小值，能够快速且准确地抑制语音信号中的噪声。

Description

快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端

技术领域

本发明涉及语音通信技术领域，具体地涉及一种快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端。

背景技术

在实时语音通信与通过网络语音协议(Voice over Internet Protocol，简称VOIP)传输语音消息的过程中，环境噪声以及周围人的语音干扰会被该设备近端的麦克风拾取到，拾取到的语音通常信噪比(signal-to-noise ratio，简称SNR)较低。若是不对其进行处理就将信号发送出去，其中的噪声会干扰远端对通话内容的理解；同时若对噪声处理不当，则可能对近端语音造成失真，影响语音的可懂度。例如，在人机交互领域，由于环境中的噪声被麦克风拾取到，交互终端在识别控制者说话声音时受到干扰，降低了语音识别的准确率，最终可能造成交互困难。

现有技术中提出了多种噪声抑制方法，噪声抑制的主要目的是对带噪语音中的噪声成分进行抑制，尽可能得到较为纯净的语音信号，但目前常见的噪声抑制方法不能快速且准确的抑制带噪语音中的噪声。

发明内容

本发明解决的技术问题是如何快速且准确的抑制带噪语音中的噪声。

为解决上述技术问题，本发明实施例提供一种快速计算语音存在概率的噪声抑制方法，包括：获取输入信号，将所述输入信号由时域信号转化为频域信号；计算所述频域信号的实时功率谱，跟踪所述实时功率谱中的功率最小值；根据所述功率最小值进行噪声估计，得到估计噪声功率谱；根据所述估计噪声功率谱计算增益系数，并根据所述增益系数对所述频域信号增强，得到增强后的频域信号；将增强后的频域信号转化为时域信号，得到输出信号。

可选的，所述根据所述功率最小值进行噪声估计，得到估计噪声功率谱，包括：计算实时功率与实时功率谱中的功率最小值之间的比值；获取阈值，比较所述比值与所述阈值，以得到语音不存在的先验概率；根据实时功率谱计算后验信噪比，所述后验信噪比为当前帧的实时功率与前一帧的估计噪声功率的比值；使用判决引导法计算先验信噪比；根据所述先验信噪比、后验信噪比和语音不存在的先验概率计算语音存在概率；根据所述语音存在概率计算所述估计噪声功率谱。

可选的，所述获取阈值，比较所述比值与所述阈值，以得到语音不存在的先验概率的计算公式如下：

其中，P_min(m,k)表示第m帧、第k个频点的带噪语音功率的最小值；P(m,k)为第m帧、第k个频点的平滑后的实时功率；Srk为所述比值，

alpha为预设常数且alpha的取值范围为0～1；Δ为根据噪声分布特性按频点设置的阈值；q(m,k)为第m帧、第k个频点的语音不存在的先验概率。

可选的，按照下述公式根据噪声分布特性按频点设置阈值：

Δ＝a×(tanh w₁(x-thres)+b)+c

其中，a，b，c为预设常数，thres为根据当前帧语音信号的信噪比设定的预设值，w₁为用于控制Δ取值所在曲线的映射曲率的常数，w₁的取值范围为0～1。

可选的，所述根据所述先验信噪比、后验信噪比和语音不存在的先验概率计算语音存在概率，包括：根据所述先验信噪比与后验信噪比计算似然比，所述似然比表示收到的一帧数据符合带噪语音信号分布的概率和该帧数据符合噪声信号分布的概率的比值；根据所述似然比和语音不存在的先验概率计算语音存在概率。

可选的，所述带噪语音信号和噪声信号均满足高斯分布，则所述似然比可以采用以下公式表示：

其中，Λ(m,k)表示第m帧、第k个频点的似然比，σ(m,k)表示第m帧、第k个频点的后验信噪比，ρ(m,k)为第m帧、第k个频点的先验信噪比，exp()表示以自然常数e为底的指数函数，其指数为括号内的值。

可选的，按照下述公式根据所述似然比和语音不存在的先验概率计算语音存在概率：

其中，phat(m,k)为第m帧、第k个频点的语音存在概率，q(m,k)为第m帧、第k个频点的语音不存在的先验概率。

可选的，所述根据所述先验信噪比与后验信噪比计算似然比之后，还包括：对所述似然比进行频点间平滑，得到平滑后的似然比；所述根据所述似然比和语音不存在的先验概率计算语音存在概率，包括：根据平滑后的似然比和语音不存在的先验概率计算语音存在概率。

可选的，所述根据所述似然比、先验信噪比以及语音不存在的先验概率计算语音存在概率之后，还包括：获取概率阈值，根据所述后验语音存在概率与所述概率阈值之间的关系确定是否更新所述语音存在概率。

可选的，所述语音存在概率的平滑值根据以下公式确定：

phat_smooth(m,k)＝α×phat_smooth(m-1,k)+(1-α)×phat(m,k)

其中，phat_smooth(m,k)为第m帧、第k个频点的语音存在概率的平滑值，α为预设常数，α的取值范围为0到1；

按照以下公式更新所述语音存在概率：

其中，phat_max为概率阈值，其取值为预设常数。

可选的，当所述估计噪声功率谱中无前一帧的估计噪声功率时，将当前的实时功率作为前一帧的估计噪声功率，计算所述后验信噪比。

可选的，所述根据所述估计噪声功率谱计算增益系数，并根据所述增益系数对所述频域信号增强，得到增强后的频域信号，包括：根据所述估计噪声功率谱计算所述频域信号的后验信噪比，并根据所述频域信号的后验信噪比更新先验信噪比；根据更新的先验信噪比计算语音不存在的先验概率；根据所述后验信噪比、更新的先验信噪比和所述语音不存在的先验概率计算更新的语音存在概率，并根据更新的语音存在概率得到所述增益系数；计算所述频域信号和所述增益系数的乘积，得到增强后的频域信号。

可选的，根据更新的先验信噪比计算语音不存在的先验概率可采用以下公式：

其中，语音不存在的先验概率为d(m,k)，

为更新后的先验信噪比，ρ_max(m,k)为先验信噪比最大值，ρ_min(m,k)为先验信噪比最小值，ρ_max(m,k)和ρ_min(m,k)的具体数值为预设值。

本发明实施例还提供一种快速计算语音存在概率的噪声抑制装置，所述装置包括：时频转换模块，用于获取输入信号，将所述输入信号由时域信号转化为频域信号；最小值跟踪模块，用于计算所述频域信号的实时功率谱，跟踪所述实时功率谱中的功率最小值；噪声功率谱计算模块，用于根据所述功率最小值进行噪声估计，得到估计噪声功率谱；语音增强模块，用于根据所述估计噪声功率谱计算增益系数，并根据所述增益系数对所述频域信号增强，得到增强后的频域信号；输出模块，用于将增强后的频域信号转化为时域信号，得到输出信号。

本发明实施例还提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述快速计算语音存在概率的噪声抑制方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述快速计算语音存在概率的噪声抑制方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供的快速计算语音存在概率的噪声抑制方法，较之现有技术，在噪声估计部分跟踪实时功率谱最小值时，采用连续谱最小值跟踪方法，加快噪声谱更新速度，计算语音不存在的先验概率，准确估计噪声功率谱，并对语音信号进行增强，以准确降噪。本发明的方案在算法复杂度可控情况下，优化了系统降噪性能，且该降噪方法不受终端硬件资源限制，本发明适用范围更广。

进一步地，通过连续频谱最小值跟踪法跟踪平滑后的实时功率谱中的最小值，并按噪声分布特性按频点设置阈值，用于计算输入信号中语音信号不存在的先验概率。另外，计算每帧数据的语音存在概率时仅与先验信噪比、后验信噪比以及语音不存在的先验概率有关，节省计算量，且能够较为准确地估计语音存在概率，此时语音存在概率为后验语音存在概率。根据语音信号不存在的先验概率和后验语音存在概率，对输入信号中的噪声进行准确估计。

进一步地，将带噪语音信号与噪声信号以高斯分布表示，从而建立似然比与先验信噪比和后验信噪比之间的关系，将每一帧数据中语音存在概率的后验系数用先验信噪比和后验信噪比表示。

进一步地，提供了连续谱中语音存在概率的计算方法，以及根据连续谱中语音存在概率进行噪声估计的方法，对连续谱的语音存在概率持续跟踪，实时更新噪声估计结果。

进一步地，用简化后的最优对数谱幅度估计算法计算增益得到增强后语音，将最优改进对数谱幅度估计算法中计算“局部”和“全局”上的语音存在似然概率修改为计算单一语音不存在的先验概率，在保证噪声抑制性能的情况下简化语音不存在的先验概率的计算方法，降低了计算复杂度。

通过本发明的技术方案，能够快速且准确的抑制带噪语音中的噪声。相较于现有的几种噪声估计算法，本发明的方案具有以下优点：相比MCRA2对语音不存在的先验概率的计算方法，本发明对平滑后的语音信号功率与噪声功率谱最小值的比值采用线性变化阈值，解决MCRA2的过估计问题，准确高效地估计出噪声功率谱。与IMCRA相比，本发明对最小值的跟踪速度更快，计算过程更简单。与现有的OMLSA算法相比，本发明在保证语音增强效果的同时简化了语音不存在先验概率的计算过程，降低了算法复杂度。

附图说明

图1为本发明实施例的一种快速计算语音存在概率的噪声抑制方法的流程示意图；

图2为图1中的步骤S103在一实施例的流程示意图；

图3为图1中的步骤S104在一实施例的流程示意图；

图4为本发明一应用实例中噪声抑制系统的示意图；

图5是本发明实施例的一种快速计算语音存在概率的噪声抑制装置的结构示意图。

具体实施方式

如背景技术所言，在通信过程中存在噪声，将会干扰语音传输。

为解决该问题，现有技术中采取了一系列噪声抑制方法，噪声抑制通常包括噪声估计与增益计算。其中，噪声估计包含两方面问题，一是噪声跟踪速度，二是噪声估计准确性。噪声估计的准确性将直接影响最终效果，当噪声估计过高，在滤除噪声时微弱语音将被去掉，造成语音失真；而噪声估计过低，在滤除噪声后会残留过多的背景噪声，尤其当背景噪声是非平稳噪声时，由于噪声的快速变化，噪声的估计困难，导致残留噪声过多，因此需要对噪声进行连续跟踪。目前应用较广的噪声估计方法为最小控制递归平均(Minima-Controlled Recursive Average，简称MCRA)算法、MCRA的算法修正(也称为MCRA2)以及改进的最小控制递归平均(Improved Minima-Controlled Recursive Average，简称IMCRA)算法。这类算法在纯噪声段进行噪声功率谱更新，在语音段噪声功率谱保持不变，可一定程度上跟踪非平稳噪声变化。MCRA方法采用递归平均进行噪声估计，通过计算带噪语音功率谱的当前值与一定时间窗内的局部最小值的比值，然后与阈值比较得到当前帧的语音存在概率。语音存在概率以及由其得到的时间平滑因子受谱最小值控制。当语音存在时，用前一帧的噪声估计值作为这一帧的估计值；当语音不存在时，计算当前帧的功率谱与前一帧的噪声估计的一阶递归来更新噪声谱。MCRA2使用连续谱最小值跟踪方法，该方法可以连续地跟踪最小值而不受窗口长度的限制，能快速跟踪最小值。IMCRA是基于MCRA提出的改进算法，该算法使用两次平滑和两次最小值搜索，第一次递归进行粗略的语音存在判决，基于该判决进行第二次递归，最终计算出语音存在概率和时间平滑因子，并增加了补偿参数。表1从跟踪速度方面、计算复杂度等方面对三种算法的优缺点进行了比较。

表1

算法	优缺点
		MCRA	跟踪速度慢，计算复杂度低
IMCRA	跟踪速度较快，计算复杂度高
		MCRA2	跟踪速度快，计算复杂度低，过估计

MCRA算法由于搜索窗存在导致时延较大，但计算复杂度低。IMCRA是基于MCRA提出的改进算法，进行最小值跟踪时将最小搜索窗划分为几个子窗，缩短时间延迟，并且较为准确的估计语音中的噪声部分，优化了过估计欠估计和延迟问题，但该算法计算过于复杂。MCRA2使用连续谱最小值跟踪方法，该方法不受窗口长度的限制，能快速跟踪最小值，并且在噪声估计准确性上优于MCRA，但噪声功率谱会出现过估计现象。

另外，常见的增益计算方法有谱减法、维纳滤波以及最优对数谱幅度估计算法(Optimally modified LSA Estimator，简称OMLSA)。其中，谱减法没有利用明确的语音模型，其性能的好坏取决于对带噪语音的频谱跟踪的好坏，并且该方法容易产生音乐噪声。维纳滤波法是基于统计模型的方法，能有效抑制平稳噪声，一旦遇到不符合预期的统计特征，比如一些非平稳噪声，则噪声抑制效果会下降。目前采用最多的增益计算方法是OMLSA。该算法结合语音存在概率和修正对数最小均方误差(Minimum Mean Square Error，简称MMSE)估计器，最小化期望干净语音和估计的干净语音之间的差异，但在计算语音不存在的先验概率时,计算过于复杂。

综上，现有技术中的噪声抑制方法不能快速且准确的抑制带噪语音中的噪声。

为解决上述问题，本发明实施例提供了一种快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端。其中，噪声抑制方法包括：获取输入信号，将所述输入信号由时域信号转化为频域信号；计算所述频域信号的实时功率谱，跟踪所述实时功率谱中的功率最小值；根据所述功率最小值进行噪声估计，得到估计噪声功率谱；根据所述估计噪声功率谱计算增益系数，并根据所述增益系数对所述频域信号增强，得到增强后的频域信号；将增强后的频域信号转化为时域信号，得到输出信号。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

为解决上述技术问题，本发明实施例提供一种快速计算语音存在概率的噪声抑制方法，请参见图1，该方法包括以下步骤：

S101，获取输入信号，将所述输入信号由时域信号转化为频域信号；

输入信号为待分析的语音信号，可为由电话等语音设备的麦克风采集到的语音信号，该信号为时域信号。获取输入信号后，将其进行时-频域转化，得到对应的频域信号。可对输入信号进行多个预处理步骤，以将其转化为频域信号确保噪声抑制在频域中进行。

假设语音信号受到加性噪声干扰，并且输入信号与干净语音信号不相关，则输入信号在时域表示为：

y(t)＝x(t)+n(t) (1)

其中，y(t)表示近端接收到的输入信号，x(t)表示干净语音信号，n(t)表示环境噪声或周围人的干扰声。

可选的，输入信号经过信号分析阶段的加窗、分帧以及傅里叶变换等一种或多种预处理步骤后由时域信号变为频域信号。

S102，计算所述频域信号的实时功率谱，跟踪所述实时功率谱中的功率最小值；

在频域中，公式(1)可转换为下述公式(2)：

Y(m,k)＝X(m,k)+N(m,k) (2)

其中，Y(m,k)是带噪语音的频谱，用于表示第m帧、第k个频点的频域信号，X(m,k)是干净语音的频谱，N(m,k)是噪声的频谱，k表示频点，m代表帧索引。

计算得到的实时功率谱可表示为|Y(m,k)|²，也即第m帧、第k个频点的实时功率。

可选的，步骤S102计算所述频域信号中信号帧的频点的实时功率谱之后、跟踪所述功率谱中的功率最小值之前，还可以包括：对所述实时功率谱进行平滑处理得到平滑后的实时功率谱；所述跟踪所述实时功率谱中的功率最小值，可包括：跟踪平滑后的实时功率谱中的功率最小值。

可选的，所述对所述实时功率谱进行平滑处理得到平滑后的实时功率谱，包括：对所述实时功率谱进行频点间平滑处理；对频点间平滑处理后的实时功率谱进行帧间平滑，得到平滑后的实时功率谱。

可对实时功率谱做两次平滑，第一次是频点间的平滑，即以实时功率谱中的频点为对象，进行平滑处理，避免截断和加窗效应的影响，减少频谱泄露；第二次是帧间平滑，即以实时功率谱中的帧为对象，进行平滑处理，减小孤立频点存在峰值现象。如果不进行帧间平滑，则实时功率谱的最小值会出现奇异值并且数值小。在平滑过程中，可根据行业经验设置平滑系数，平滑系数越大，后续进行最小值跟踪时得到的功率谱最小值越大。

在进行帧间平滑后，跟踪实时功率谱的最小值。本发明所采用的连续频谱最小值跟踪算法能快速跟踪噪声信号，并且与最小值统计算法相比，计算量明显降低。

可选的，帧间平滑计算过程可参见下述公式：

P′(m,k)＝αP(m-1,k)+(1-α)|Y(m,k)|²

其中，P′(m,k)为平滑后第m帧、第k个频点的实时功率，也可表示平滑后的实时功率谱；P(m-1,k)是上一帧(也即第m-1帧)、第k个频点的实时功率，α为预设的平滑系数，其取值范围为0≤α≤1。

通过上述实施例计算出平滑后的实时功率P′(m,k)，再以平滑后的实时功率P′(m,k)代替实时功率P(m,k)执行上述步骤。

在将输入信号转化为频域信号且计算其实时功率谱后，先对实时功率谱进行平滑处理，平滑处理可包括频点间平滑和帧间平滑，以减少频谱泄露，防止噪声谱特性跳变(以对实时功率谱进行基础的滤波、降噪)，从而提高对输入信号进行噪声抑制的准确性。

S103，根据所述功率最小值进行噪声估计，得到估计噪声功率谱；

以连续频谱最小值跟踪算法跟踪带噪语音功率谱的最小值，进而，对跟踪的频点的噪声进行分析，得到估计噪声功率谱。

S104，根据所述估计噪声功率谱计算增益系数，并根据所述增益系数对所述频域信号增强，得到增强后的频域信号；

增益系数用于对频域信号进行增强，该增益系数可根据估计噪声功率谱计算得到。

S105，将增强后的频域信号转化为时域信号，得到输出信号。

将得到的增强后的频域语音信号频谱进行逆傅里叶变换以及窗口合成等流程转换到时域，得到输出信号。

本发明方案在噪声估计部分跟踪实时功率谱最小值时，采用连续谱最小值跟踪方法，加快噪声谱更新速度，计算语音不存在的先验概率，准确估计噪声功率谱，并对语音信号进行增强，以准确降噪。本发明的方案在算法复杂度可控情况下，优化了系统降噪性能，且该降噪方法不受终端硬件资源限制，本发明适用范围更广。

可选的，步骤S102在跟踪实时功率谱中的功率最小值时，可采用下述公式(3)：

其中，P_min(m,k)表示第m帧、第k个频点的带噪语音功率的最小值，P_min(m-1,k)是第m-1帧的带噪语音功率的最小值，β和γ为预设的经验系数，P(m,k)为第m帧、第k个频点的实时功率谱。

可选的，调整β可以改变算法的适应时间，例如β变大，跟踪时间变短。

在一个实施例中，请参见图1和图2，图1中的步骤S103中所述根据所述功率最小值进行噪声估计，得到估计噪声功率谱，可以包括图2中的步骤S201至S206，其中：

步骤S201，计算实时功率与实时功率谱中的功率最小值之间的比值；

实时功率为第m帧、第k个频点的实时功率谱对应的功率，以P(m,k)表示实时功率；实时功率谱中的功率最小值记作P_min(m,k)，也即第m帧、第k个频点的带噪语音功率的最小值。二者的比值Srk可表示为下述公式(4)：

步骤S202，获取阈值，比较所述比值与所述阈值，以得到语音不存在的先验概率；

语音不存在的先验概率为根据公式(4)得到的比值Srk分析实时功率谱中第m帧、第k个频点处不存在语音信号的概率。

阈值是用于判定比值Srk对应的功率谱中某个频点的语音不存在的先验概率，该阈值可依据噪声分布特性按频点设置，最优阈值可基于实验或经验设定，用于判定实时功率谱的各帧各频点的语音不存在的先验概率，以此判断实时功率谱上存在语音的区域。

可选的，可基于下述公式(5)判定比值Srk对应的功率谱中某个频点的语音不存在的先验概率。

其中，Srk为所述比值，alpha为预设常数且alpha的取值范围为0～1，Δ为根据噪声分布特性按频点设置的阈值，q(m,k)为第m帧、第k个频点的语音不存在的先验概率。

当q(m,k)＝0时，可判断这一频段为纯语音信号，即纯语音段；当q(m,k)＝1时，可判断这一频段不存在语音信号，也即该频段为纯噪声段，纯噪声时，比值Srk的值大部分情况下分布在1～2之间，在1～2之间分布的比例大约占50％。；其他情况下，可能存在语音信号也可能不存在语音信号，估计器在语音存在与不存在之间提供了平缓过渡，可将该频段称为带噪语音段，此时比值Srk分布比较均匀，由小到大，表明带噪语音段的幅度变化大。

进一步地，可按照下述公式(6)根据噪声分布特性按频点设置上述公式(5)中的阈值：

Δ＝a×(tanh w₁(x-thres)+b)+c (6)

可选的，thres根据当前帧语音信号的信噪比的变化而变化。当信噪比较低时，thres减小，Δ值增大；当信噪比较大时，thres增大，Δ值减小。

在计算先验语音不存在概率时，根据当前语音信号的分布规律，各个频点阈值Δ独立设置。还可根据当前帧语音信号信噪比自适应调整各个频点阈值。对阈值Δ进行更新的映射函数的形状可接近于“s”型曲线函数。当信噪比较高，Δ值相应减小，保留更多的语音成分；当信噪比较低，Δ值相应增加，加强噪声抑制。

步骤S203，根据实时功率谱计算后验信噪比，所述后验信噪比为当前帧的实时功率与前一帧的估计噪声功率的比值；

后验信噪比是以观测到的与估计得到的噪声功率谱相关的输入信号的实时功率谱为基础的瞬态信噪比，其计算公式如下公式(7)：

其中，σ(m,k)表示第m帧、第k个频点的后验信噪比。|Y(m,k)|²为实时功率谱；

为前一帧(也即第m-1帧，第k个频点)的噪声功率谱。

步骤S204，使用判决引导法计算先验信噪比；

计算公式可如下述公式(8)：

ρ(m,k)＝max(γ_dρ(m-1,k)+(1-γ_d)max(σ(m,k)-1,0),ρ_min) (8)

其中，ρ(m,k)为第m帧、第k个频点的先验信噪比；γ_d表示预设的平滑系数，γ_d的取值范围在0和1之间；ρ(m-1,k)为上一帧(也即m-1帧)，第k个频点的先验信噪比；ρ_min为ρ(m,k)所允许的最小值，可为根据经验设定的常数，用来控制降噪程度，ρ_min越小，降噪程度越高，语音信号失真度也越高；max()为取括号中内容的最大值。

步骤S205，根据所述先验信噪比、后验信噪比和语音不存在的先验概率计算语音存在概率；

步骤S206，根据所述语音存在概率计算所述估计噪声功率谱。

本实施例中，通过连续频谱最小值跟踪法跟踪平滑后的实时功率谱中的最小值，并按噪声分布特性按频点设置阈值，用于计算输入信号中语音信号不存在的先验概率。另外，计算每帧数据的语音存在概率时仅与先验信噪比、后验信噪比以及语音不存在的先验概率有关，节省计算量，且能够较为准确地估计语音存在概率，此时语音存在概率为后验语音存在概率。根据语音信号不存在的先验概率和后验语音存在概率，对输入信号中的噪声进行准确估计。

在一个实施例中，步骤S205根据所述先验信噪比、后验信噪比和语音不存在的先验概率计算语音存在概率，可以包括：根据所述先验信噪比与后验信噪比计算似然比，所述似然比表示收到的一帧数据符合带噪语音信号分布的概率和该帧数据符合噪声信号分布的概率的比值；根据所述似然比和语音不存在的先验概率计算语音存在概率。

将一帧数据符合带噪语音信号分布的概率以P(Y(m,k)|H₁)表示，将一帧数据符合噪声信号分布的概率以P(Y(m,k)|H₀)表示，其中，H₁表示带噪语音状态，H₀表示纯噪声状态，则似然比可以表示为下述公式(9)

也即，对于每一帧数据进行语音存在概率计算时，是将该数据与带噪语音信号以及纯噪声信号的分布情况分别进行匹配，以计算对应的似然比。

在一个实施例中，纯噪声信号(也即公式(2)中的N(m,k))可认为满足高斯分布，则噪声信号分布的概率以P(Y(m,k)|H₀)可以进一步表示为下述公式(10)：

对于带噪语音信号(也即公式(2)中的Y(m,k))也可认为是语音信号与加性噪声，也满足高斯分布，则带噪语音信号P(Y(m,k)|H₁)可以进一步表示为下述公式(11)：

按照公式(9)中似然比的计算方式，则该似然比与先验信噪比、后验信噪比之间的关系为下述公式(12)：

其中，Λ(m,k)表示第m帧、第k个频点的似然比，σ(m,k)表示第m帧、第k个频点的后验信噪比，ρ(m,k)为第m帧、第k个频点的先验信噪比，exp()表示以自然常数e为底的指数函数，其指数为括号内的值。先验信噪比和后验信噪比的计算方法参见上述公式(7)和公式(8)。

本实施例中，将带噪语音信号与噪声信号以高斯分布表示，从而建立似然比与先验信噪比和后验信噪比之间的关系，将每一帧数据中语音存在概率的似然比用先验信噪比和后验信噪比表示。

需要说明的是，带噪语音信号与噪声信号的分布包括但不限于高斯分布，也可考虑其他分布情况，如拉普拉斯分布等，对于其他分布情况，可对应调整似然比的计算方式。

在一个实施例中，按照下述公式(13)根据所述似然比和语音不存在的先验概率计算语音存在概率(也称后验语音存在概率)：

可选的，所述根据所述先验信噪比与后验信噪比计算似然比之后，还可以包括：对所述似然比进行频点间平滑，得到平滑后的似然比；所述根据所述似然比和语音不存在的先验概率计算语音存在概率，包括：根据平滑后的似然比和语音不存在的先验概率计算语音存在概率。

在得到似然比之后，可按照下述公式(14)对其进行频点间平滑：

其中，Λ_smooth为平滑后的似然比，

且m为常数。

对应地，按照平滑后的似然比更新上述公式(13)为如下所示的公式(13’)：

计算Λ_smooth时需要计算后验信噪比，因为后验信噪比是瞬时值，频点间的变化较大。考虑相邻频点的信息进行频点间平滑后，噪声估计更加准确，同时能够防止频谱泄露。

可选的，得到语音存在概率phat(m,k)之后，采用语音存在概率的平滑值phat_smooth(m,k)判断是否出现死锁。phat_smooth(m,k)可表示为下述公式(15)：

phat_smooth(m,k)＝α×phat_smooth(m-1,k)+(1-α)×phat(m,k)(15)其中，phat_smooth(m,k)为第m帧、第k个频点估计出的语音存在概率，α为取值范围为0到1的预设常数，phat_smooth(m-1,k)为上一帧(即m-1帧)、第k个频点估计出的语音存在概率的平滑值。

当phat_smooth(m,k)大于预设的概率阈值时，由于平滑延迟影响，后验语音存在概率phat(m,k)可能在当前帧的前几帧持续为1，出现死锁导致噪声估计部分不更新，因此，加入如下判断防死锁，加快噪声更新。

具体可根据下述公式(16)判断是否出现死锁，并对可能出现死锁的后验语音存在概率进行更新：

其中，phat_max为用于防死锁的概率阈值，其为取值为0～1之间的常数。

可选的，请继续参见图2，步骤S206根据所述语音存在概率计算所述估计噪声功率谱，包括：按照下述公式(17)对带噪语音信号功率谱进行一阶递归平滑得到估计频段内的噪声功率谱：

其中，

为第m帧、第k个频点的估计噪声功率，也为估计噪声功率谱的表达式；

为上一帧的估计噪声功率，也即第m-1帧、第k个频点的估计噪声功率；|Y(m,k)|²为第m帧、第k个频点的实时功率；

为受语音存在概率p(m,k)控制的自适应平滑因子，

可表示为公式(18)

其中，

为预设的平滑系数，为根据经验或实验测算设定的某一常数，其取值范围为

且

取值范围为

可选的，在初始阶段计算后验信噪比时，当无前一帧的估计噪声功率时，将当前的实时功率作为前一帧的估计噪声功率，计算所述后验信噪比。

本实施例中，提供了连续谱中语音存在概率的计算方法，以及根据连续谱中语音存在概率进行噪声估计的方法，对连续谱的语音存在概率持续跟踪，实时更新噪声估计结果。

在一个实施例中，请参见图1和图3，图1中的步骤S104所述根据所述估计噪声功率谱计算增益系数，并根据所述增益系数对所述频域信号增强，得到增强后的频域信号，可以包括图3中的步骤S301至S304，其中：

步骤S301，根据所述估计噪声功率谱计算所述频域信号的后验信噪比，并根据所述频域信号的后验信噪比更新先验信噪比；

根据上述的噪声估计阶段得到的噪声功率谱

计算频域信号的后验信噪比，计算公式如下述公式(19)：

其中，

为噪声功率谱，也即第m帧、第k个频点的噪声功率；|Y(m,k)|²为实时功率谱，也即第m帧、第k个频点的实时功率；

为第m帧、第k个频点的后验信噪比。

可将频域信号的后验信噪比

代入下述公式(20)更新先验信噪比：

其中，γ_dd表示时间平滑参数，为预设常数。先验信噪比是后验信噪比的平滑，时间有一些滞后。γ_dd越大，时间延迟会增加。

为更新后的第m帧、第k个频点的先验信噪比。

步骤S302，根据更新的先验信噪比计算语音不存在的先验概率；

可选的，计算语音不存在的先验概率，具体计算参见公式(21)：

其中，语音不存在的先验概率为d(m,k)，

在现有技术中的最优改进对数谱幅度估计算法中，通过MMSE估计器来计算语音不存在的先验概率时，可利用连续帧的相邻频点之间的强相关性，根据经验测得先验信噪比的取值在ρ_min(m,k)和ρ_max(m,k)之间，可将最优改进对数谱幅度估计算法中计算“局部”和“全局”上的语音存在似然概率修改为计算单一语音不存在的先验概率，计算公式见公式(21)。

可选的，ρ_max(m,k)的经验取值为0.3162，对应-5dB；ρ_min(m,k)的经验取值为0.1，所述值对应-10dB。

可选的，根据平滑后的先验信噪比计算语音不存在的先验概率。

步骤S303，根据所述后验信噪比、更新的先验信噪比和所述语音不存在的先验概率计算更新的语音存在概率，并根据更新的语音存在概率得到所述增益系数；

请再次参见公式(12)，似然比Λ(m,k)可更新为Λ′(m,k)：

根据Λ′(m,k)、更新的先验信噪比

与后验信噪比

以及语音不存在的先验概率d(m,k)计算更新的语音存在概率phat₁(m,k)，得到更新的语音存在概率如下述公式(22)：

对于得到的更新的语音存在概率phat₁(m,k)，可计算实时功率谱中的各帧对应的增益系数，以实现对实时功率谱进行增益计算。

步骤S304，计算所述频域信号和所述增益系数的乘积，得到增强后的频域信号。

可选的，所述增益系数的计算公式如下公式(23)：

其中，GH0为预设常数，非零但取值很小。G_min为预设的最小值，用来控制噪声抑制的程度。

GH1的计算公式可参见下述公式(24)：

其中，

其中，∫()为计算括号内值的积分；则可根据下述公式(25)得到增强后的频域信号：

X(m,k)＝Y(m,k)×Gain(m,k) (25)

其中，X(m,k)为第m帧、第k个频点增强后的频域信号；Y(m,k)为第m帧、第k个频点的频域信号。

本实施例中，用简化后的最优对数谱幅度估计算法计算增益得到增强后语音，将最优改进对数谱幅度估计算法中计算“局部”和“全局”上的语音存在似然概率修改为计算单一语音不存在的先验概率，在保证噪声抑制性能的情况下简化语音不存在的先验概率的计算方法，降低了计算复杂度。

请参见图4，图4提供了本发明一应用实例中噪声抑制系统的示意图；噪声抑制系统主要包括三个部分：信号分析部分401、噪声估计与增益计算部分402和信号合成部分403。其中：

信号分析部分401可对输入信号执行下述预处理步骤S4011和S4012，得到频域信号：

步骤S4011，分帧加窗；

步骤S4012，快速傅里叶变换(fast Fourier transform，简称FFT)。

噪声估计与增益计算部分402对频域信号执行噪声估计的相关步骤S4021至S4024，以对噪声功率谱更新：

步骤S4021，带噪语音功率谱最小值跟踪；

步骤S4022，后验信噪比和先验信噪比的判决引导法更新；

步骤S4023，语音存在概率计算；

步骤S4024，噪声功率谱更新。

噪声估计与增益计算部分402对更新后的噪声功率谱执行增益计算的相关步骤S4025至S4027，得到增强后的语音信号：

步骤S4025，先验信噪比计算；

步骤S4026，语音不存在的先验概率计算；

步骤S4027，改进的最优对数谱幅度估计器；应用改进的OMLSA算法计算增益得到增强后语音。

信号合成部分403通过步骤S4031和S4032将增强后语音由频域转换到时域，得到输出信号：

步骤S4031，逆傅里叶变换，也即反向FFT。

步骤S4032，窗口合成。

请参见图5，本发明还提供一种快速计算语音存在概率的噪声抑制装置，该装置可包括：

时频转换模块501，用于获取输入信号，将所述输入信号由时域信号转化为频域信号；

最小值跟踪模块502，用于计算所述频域信号的实时功率谱，跟踪所述实时功率谱中的功率最小值；

噪声功率谱计算模块503，用于根据所述功率最小值进行噪声估计，得到估计噪声功率谱；

语音增强模块504，用于根据所述估计噪声功率谱计算增益系数，并根据所述增益系数对所述频域信号增强，得到增强后的频域信号；

输出模块505，用于将增强后的频域信号转化为时域信号，得到输出信号。

关于快速计算语音存在概率的噪声抑制装置的工作原理、工作方式的更多内容，可以参照上述图1至图4中的关于快速计算语音存在概率的噪声抑制方法的相关描述，这里不再赘述。

进一步地，本发明实施例还公开一种存储介质，其上存储有计算机指令，计算机指令运行时执行上述图1至图4中所示实施例中的关于快速计算语音存在概率的噪声抑制方法技术方案。优选地，存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。存储介质可以包括ROM、RAM、磁盘或光盘等。

进一步地，本发明实施例还公开一种终端，包括存储器和处理器，存储器上存储有能够在处理器上运行的计算机指令，处理器运行计算机指令时执行上述图1至图4所示实施例中的关于快速计算语音存在概率的噪声抑制方法技术方案。该终端可指手机、电脑、服务器等。

本发明提及的MCRA、MCRA2、IMCRA等方法均为公知的噪声估计方法，不限定某一种具体的实现方法。本发明提及的OMLSA估计算法以及维纳滤波等方法是公知的增益计算算法，不限定某一种具体的实现方式。本发明给出的参考和推荐值均为实践得到，实际应用不受给定范围限制。本发明所提出的噪声抑制方法包含噪声估计与增益计算两个部分，替换其中一中均在本发明范围内。其他的用于计算语音存在概率的方法都在本发明范围内。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式，以实现设备间的通信，本申请实施例对此不做任何限定。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种快速计算语音存在概率的噪声抑制方法，其特征在于，所述方法包括：获取输入信号，将所述输入信号由时域信号转化为频域信号；

计算所述频域信号的实时功率谱，跟踪所述实时功率谱中的功率最小值；

根据所述功率最小值进行噪声估计，得到估计噪声功率谱；

根据所述估计噪声功率谱计算增益系数，并根据所述增益系数对所述频域信号增强，得到增强后的频域信号；

将增强后的频域信号转化为时域信号，得到输出信号。

2.根据权利要求1所述的方法，其特征在于，所述根据所述功率最小值进行噪声估计，得到估计噪声功率谱，包括：

计算实时功率与实时功率谱中的功率最小值之间的比值；

获取阈值，比较所述比值与所述阈值，以得到语音不存在的先验概率；

根据实时功率谱计算后验信噪比，所述后验信噪比为当前帧的实时功率与前一帧的估计噪声功率的比值；

使用判决引导法计算先验信噪比；

根据所述先验信噪比、后验信噪比和语音不存在的先验概率计算语音存在概率；

根据所述语音存在概率计算所述估计噪声功率谱。

3.根据权利要求2所述的方法，其特征在于，所述获取阈值，比较所述比值与所述阈值，以得到语音不存在的先验概率的计算公式如下：

4.根据权利要求3所述的方法，其特征在于，按照下述公式根据噪声分布特性按频点设置阈值：

Δ＝a×(tanhw₁(x-thres)+b)+c

5.根据权利要求3所述的方法，其特征在于，所述根据所述先验信噪比、后验信噪比和语音不存在的先验概率计算语音存在概率，包括：

根据所述先验信噪比与后验信噪比计算似然比，所述似然比表示收到的一帧数据符合带噪语音信号分布的概率和该帧数据符合噪声信号分布的概率的比值；

根据所述似然比和语音不存在的先验概率计算语音存在概率。

6.根据权利要求5所述的方法，其特征在于，所述带噪语音信号和噪声信号均满足高斯分布，则所述似然比可以采用以下公式表示：

其中，Λ(m,k)表示第m帧、第k个频点的似然比；σ(m,k)表示第m帧、第k个频点的后验信噪比；ρ(m,k)为第m帧、第k个频点的先验信噪比；exp()表示以自然常数e为底的指数函数，其指数为括号内的值。

7.根据权利要求6所述的方法，其特征在于，按照下述公式根据所述似然比和语音不存在的先验概率计算语音存在概率：

其中，phat(m,k)为第m帧、第k个频点的语音存在概率；q(m,k)为第m帧、第k个频点的语音不存在的先验概率。

8.根据权利要求6所述的方法，其特征在于，所述根据所述先验信噪比与后验信噪比计算似然比之后，还包括：

对所述似然比进行频点间平滑，得到平滑后的似然比；

所述根据所述似然比和语音不存在的先验概率计算语音存在概率，包括：

根据平滑后的似然比和语音不存在的先验概率计算语音存在概率。

9.根据权利要求5所述的方法，其特征在于，所述根据所述似然比、先验信噪比以及语音不存在的先验概率计算语音存在概率之后，还包括：

获取概率阈值，根据所述后验语音存在概率与所述概率阈值之间的关系确定是否更新所述语音存在概率。

10.根据权利要求9所述的方法，其特征在于，所述语音存在概率的平滑值根据以下公式确定：

phat_smooth(m,k)＝α×phat_smooth(m-1,k)+(1-α)×phat(m,k)

其中，phat_smooth(m,k)为第m帧、第k个频点的语音存在概率的平滑值；α为预设常数，α的取值范围为0到1；

按照以下公式更新所述语音存在概率：

其中，phat_max为概率阈值，其取值为预设常数。

11.根据权利要求2所述的方法，其特征在于，当所述估计噪声功率谱中无前一帧的估计噪声功率时，将当前的实时功率作为前一帧的估计噪声功率，计算所述后验信噪比。

12.根据权利要求1所述的方法，其特征在于，所述根据所述估计噪声功率谱计算增益系数，并根据所述增益系数对所述频域信号增强，得到增强后的频域信号，包括：

根据所述估计噪声功率谱计算所述频域信号的后验信噪比，并根据所述频域信号的后验信噪比更新先验信噪比；

根据更新的先验信噪比计算语音不存在的先验概率；

根据所述后验信噪比、更新的先验信噪比和所述语音不存在的先验概率计算更新的语音存在概率，并根据更新的语音存在概率得到所述增益系数；计算所述频域信号和所述增益系数的乘积，得到增强后的频域信号。

13.根据权利要求12所述的方法，其特征在于，根据更新的先验信噪比计算语音不存在的先验概率可采用以下公式：

其中，语音不存在的先验概率为d(m,k)；

为更新后的先验信噪比；ρ_max(m,k)为先验信噪比最大值；ρ_min(m,k)为先验信噪比最小值，ρ_max(m,k)和ρ_min(m,k)的具体数值为预设值。

14.一种快速计算语音存在概率的噪声抑制装置，其特征在于，所述装置包括：

时频转换模块，用于获取输入信号，将所述输入信号由时域信号转化为频域信号；

最小值跟踪模块，用于计算所述频域信号的实时功率谱，跟踪所述实时功率谱中的功率最小值；

噪声功率谱计算模块，用于根据所述功率最小值进行噪声估计，得到估计噪声功率谱；

语音增强模块，用于根据所述估计噪声功率谱计算增益系数，并根据所述增益系数对所述频域信号增强，得到增强后的频域信号；

输出模块，用于将增强后的频域信号转化为时域信号，得到输出信号。

15.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13任一项所述方法的步骤。

16.一种终端，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13任一项所述方法的步骤。