CN110310656A

CN110310656A - 一种语音增强方法

Info

Publication number: CN110310656A
Application number: CN201910444187.7A
Authority: CN
Inventors: 林孝康; 张明哲; 范聪聪
Original assignee: Chongqing Gaokai Core Technology Development Co Ltd
Current assignee: Chongqing Gaokai Core Technology Development Co Ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-10-08

Abstract

本发明提供一种语音增强方法包括如下方法步骤：采集带噪语音信号，通过加权平滑法进行噪声估计，获取噪声功率谱的估计值；在多频带谱减法中引入获取的所述噪声功率谱的估计值，对所述带噪语音信号进行处理；经过处理后的带噪语音信号，计算掩蔽阈值，并通过所述掩蔽阈值确定谱减参数；利用所述噪声功率谱的估计值，以及所确定的谱减参数对纯净语音信号进行增强。本发明提供的一种语音信号增强方法，能够提高信号的信噪比，有效抑制背景噪声，减少语音失真。

Description

一种语音增强方法

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音增强方法。

背景技术

语音信号作为信息最普遍的表达方式，在众多领域都有广泛的应用前景。然而，现实生活中的语音不可避免的要受到周遭环境的影响，例如通信设备内部的电噪声，各种传输媒介引入的噪声及其他说话者的影响等。

噪声降低了语音的信噪比和可懂度，严重时会使语音系统几乎无法正常工作。因此，就需要使用语音增强技术来抑制噪声的影响。语音增强的目标在于，从带噪语音中去除掉噪声，以便尽可能地提取出纯净的原始语音。近年来，语音增强技术得到了很大的发展，已经成为了语音信号数字处理的一个重要分支。

谱减法以原理简单和易于实现的优点，广泛的应用于语音增强。传统的谱减法去除背景噪声和抑制残余噪声的能力有限，影响了增强后语音信号的清晰度和可懂度。为了减小残余噪声的影响，提出了多频带谱减法。但是，单纯的采用多频谱减法，其信噪比的提高受限，其背景噪声抑制、语音失真等方面效果欠佳。

因此，为了解决现有技术中出现的上述问题，需要一种语音增强方法，提高信噪比，有效抑制背景噪声，减少语音失真。

发明内容

本发明的目的在于提供一种语音增强方法，所述方法包括如下方法步骤：

采集带噪语音信号，通过加权平滑法进行噪声估计，获取噪声功率谱的估计值；

在多频带谱减法中引入获取的所述噪声功率谱的估计值，对所述带噪语音信号进行处理；

经过处理后的带噪语音信号，计算掩蔽阈值，并通过所述掩蔽阈值确定谱减参数；

利用所述噪声功率谱的估计值，以及所确定的谱减参数对纯净语音信号进行增强。

优选地，通过加权平滑法进行噪声估计，包括如下方法步骤：

计算投影平滑后的带噪语音功率谱，平滑后的带噪语音信号功率谱通过如下方法计算：

其中，|Y(i,k)|²为带噪语音信号功率谱，i为帧号，k为采样点序号，为投影平滑因子；

通过所述带噪语音信号功率谱计算信噪比：

其中，为噪声功率谱估计值，S_p(i,k)为平滑后的带噪语音信号功率谱，i为帧号，k为采样点序号；

计算加权因子W(i,k)：

其中，θ₂为加权因子参数，为信噪比；

对带噪语音信号加权后，通过时域平滑计算噪声噪声功率谱的估计值：

其中，α_d为平滑参数，|Y(i,k)|²为音信号功率谱。

优选地，在多频带谱减法中引入获取的所述噪声功率谱的估计值，对所述带噪语音信号进行如下处理：

将带噪语音的每一帧频谱划分为N个互不重叠的子带，对每个子带进行处理，包括：

对每一个子带的纯净语音信号功率谱进行估计：

其中，为离散频率，为第i个子带的估计的噪声功率谱，为第i个子带的带噪语音的功率谱，b_i和e_i为第i个子带上频点的起始点和结束点，α_i为第i个子带的过减因子，δ_i为第i个子带的减法因子。

优选地，对每一个子带的纯净语音信号功率谱估计过程中，当估计的纯净语音信号功率谱出现负值时，将带噪语音信号功率谱乘以频谱基，作为估计的纯净语音信号功率谱。

优选地，子带的过减因子为频率子带的信噪比函数，通过如下方法计算：

其中，α_i为第i个子带的过减因子，SNR_i为第i个子带的信噪，满足：

其中，为离散频率，为第i个子带的估计的噪声功率谱，为第i个子带的带噪语音的功率谱，b_i和e_i为第i个子带上频点的起始点和结束点。

优选地，第i个子带的减法因子δ_i满足：

其中，f_i为第i个子带的频率上界，F_s为采样频率，k为采样点序号。

优选地，对经过处理后的带噪语音信号进行噪声特性判断：

其中，SFM(i)_dB为谱平坦度，和分别为功率谱的几何平均值和算术平均值，i为临界带宽号，取值与采样频率有关，

定义

当α为0时，则判该子带的信号具有噪声特性，其掩蔽阈值偏移量为5.5dB当α为1时，则判定该子带的信号具有纯净语音特性，其掩蔽阈值的偏移量为(14.5+i)dB。

优选地，通过带噪语音信号的噪声特性判断结果，计算掩蔽阈值，包括：

计算相对掩蔽阈值的偏移量：

O_i＝α(14.5+i)+(1-α)5.5 i＝1,2,...,i_max，其中，i为临界带宽号，取值与采样频率有关，

对扩展掩蔽阈值进行估计：

其中，T′_i为扩展掩蔽阈值的估计值，C_i为第i个临界带的扩展功率谱，O_i为第i个临界带的相对掩蔽阈值的偏移量；

计算绝对听阈：

其中，f为带噪信号频率；

计算掩蔽阈值：T_i＝max(T′_i,T_a)。

优选地，按照如下方法确定谱减参数：

其中，为谱减参数，T_max和T_min分别表示掩蔽阈值的最大值和最小值，和分别表示谱减参数的最大值和最小值。

优选地，通过如下方法计算纯净语音信号增强后的功率谱：

其中，S(m,k)为增强后纯净语音信号的功率谱，Y(m,k)和分别表示带噪语音信号的功率谱和估计的噪声信号功率谱，m为信号帧数，k为采样点序号，和ξ为谱减参数。

本发明提供的一种语音信号增强方法，能够提高信号的信噪比，有效抑制背景噪声，减少语音失真。

应当理解，前述大体的描述和后续详尽的描述均为示例性说明和解释，并不应当用作对本发明所要求保护内容的限制。

附图说明

参考随附的附图，本发明更多的目的、功能和优点将通过本发明实施方式的如下描述得以阐明，其中：

图1示意性示了本发明语音信号增强的流程框图。

具体实施方式

通过参考示范性实施例，本发明的目的和功能以及用于实现这些目的和功能的方法将得以阐明。然而，本发明并不受限于以下所公开的示范性实施例；可以通过不同形式来对其加以实现。说明书的实质仅仅是帮助相关领域技术人员综合理解本发明的具体细节。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

下面通过具体的实施例对本发明提供的一种语音增强方法进行说明。如图1所示本发明语音信号增强的流程框图，根据本发明的实施例，一种语音增强方法如下方法步骤：

采集带噪语音信号，进行预处理。

在一些实施例中，计算设备(例如降噪芯片)，由数字麦克风采集带噪语音信号。带噪语音信号是指，带有背景噪声的语音信号，是一种混合由讲话者语音信号与噪声的混合语音信号。本发明的语音增强目的是就是增强带噪语音信号中的讲话者的语音信号。

语音信号是非平稳信号，采集的带噪语音信号进行加窗处理和快速傅里叶变换(FFT)。在一些实施例中，采用汉明窗做分帧处理。

噪声功率谱估计。

根据本发明的实施例，经过预处理，采集带噪语音信号，通过加权平滑法进行噪声估计，获取噪声功率谱的估计值。

在一个实施例中，通过加权平滑法进行噪声估计，包括如下方法步骤：

通过带噪语音信号功率谱计算信噪比：

其中，为噪声功率谱估计值，S_p(i,k)为平滑后的带噪语音信号功率谱，i为帧号，k为采样点序号。

计算加权因子W(i,k)：

其中，θ₂为加权因子参数，为信噪比。

当时，认为是强语音，此时不用更新噪声。而当时，出现的可能是噪声或者是弱语音成分，此时需要更新噪声。

其中，α_d为平滑参数，|Y(i,k)|²为音信号功率谱。

多频谱减法处理。

根据本发明的实施例，在多频带谱减法中引入获取的所述噪声功率谱的估计值，对带噪语音信号进行处理。

具体地，在一些实施例中，在多频带谱减法中引入获取的噪声功率谱的估计值，对带噪语音信号进行如下处理：

对每一个子带的纯净语音信号功率谱进行估计：

在一些实施例中，对每一个子带的纯净语音信号功率谱估计过程中，当估计的纯净语音信号功率谱出现负值时，将带噪语音信号功率谱乘以频谱基，作为估计的纯净语音信号功率谱。具体地，通过如下方式表述：

β为频谱基，在优选的实施例中，频谱基取值为0.002。

在一些实施例中，子带的过减因子为频率子带的信噪比函数，通过如下方法计算：

其中，α_i为第i个子带的过减因子，SNR_i为第i个子带的信噪比，满足：

其中，为离散频率，为第i个子带的估计的噪声功率谱，为第i个子带的带噪语音的功率谱，b_i和e_i为第i个子带上频点的起始点和结束点。第i个子带的减法因子δ_i满足：

由于采集的语音信号中，绝大部分语音能量都处于低频部分,为了最小化语音失真，优选的实施例中，在低频带时减法因子取较小值。

计算掩蔽阈值，确定谱减参数。

根据本发明的实施例，经过处理后的带噪语音信号，计算掩蔽阈值，并通过掩蔽阈值确定谱减参数。

实施例中，采用bark刻度来实现将线性频率映射到人的听觉感知域，在这种映射中，频率f和线性bark刻度z的函数关系为：

z＝13arctan(0.76×10^-3f)+3.5arctan(f/7500)。

根据上式对频率划分，求得每个bark带在一帧信号中的能量分布，得到临界能量：

其中，n表示语音信号的帧号，b_li和b_hi分别表示临界带宽i的下限和上限。

b_li和b_hi通过频率划分和采样率求出：

N表示傅里叶变换的点数，i表示临界带宽号，取值与采样频率有关。

掩蔽音的中心频率在某个临界带内,对其他相近临界带内的被掩蔽音的掩蔽阈值有一定的影响。扩展函数就是临界带之间Bark谱对扩展谱定量的描述，扩展函数的定义：

Δ＝i-j表示两个临界带频带号的差值，且Δ≤i_max。

扩展Bark域的能量表述为：

C_j表示第j个临界带的扩展功率谱。

根据本发明的实施例，由于噪声和纯音的掩蔽特性的不同，需要对经过处理后的带噪语音信号进行噪声特性判断：

定义

通过带噪语音信号的噪声特性判断结果，计算掩蔽阈值，包括：

计算相对掩蔽阈值的偏移量：

在确定了相对掩蔽阈值的偏移量之后，对扩展掩蔽阈值进行估计：

其中，T′_i为扩展掩蔽阈值的估计值，C_i为第i个临界带的扩展功率谱，O_i为第i个临界带的相对掩蔽阈值的偏移量。

计算绝对听阈：

其中，f为带噪语音信号频率。

计算掩蔽阈值：T_i＝max(T′_i,T_a)。

计算得到掩蔽阈值后，并通过掩蔽阈值确定谱减参数。根据本发明的实施例，通过掩蔽阈值自使用对谱减系数进行调整。在一些实施例中，按照如下方法确定谱减参数：

其中，为谱减参数，T_max和T_min分别表示掩蔽阈值的最大值和最小值，和分别表示谱减参数的最大值和最小值。在一些优选的实施例中，

纯净语音信号增强。

根据本发明的实施例，利用所噪声功率谱的估计值，以及所确定的谱减参数对纯净语音信号进行增强。

在一些实施例中，通过如下方法计算纯净语音信号增强后的功率谱：

对于谱减参数ξ采用与上述实施中谱减参数相同的方法进行确定，将不再赘述。在优选地的实施例中，在确定谱减参数ξ时，ξ_max＝0.02，ξ_min＝0。

上述对纯净语音信号进行增强过程中，增加谱减参数可以增大背景噪声的消除，同时也加大了增强后语音失真的程度。谱减参数ξ的作用是为了掩蔽残余的噪声而加的背景噪声。增加ξ会起到减少噪声的目的，但同时也加大了增强语音信号中的背景噪声水平。

随着噪声强度的增加，在不增加语音失真的前提下，掩蔽阈值不能完全掩蔽残留噪声，影响了增强语音的清晰度。

本实施例进行如下处理：当掩蔽阈值较高时，残留噪声被掩蔽而变得不可闻，因此不需要去除残留噪声，为了使语音失真度尽可能小，这种情况下减小谱减参数。

当掩蔽阈值较低时，残余噪声干扰人耳的收听，这种情况下要增大谱减参数来消除残留噪声。

纯净语音信号增强后，对信号进行快速傅里叶逆变换(IFFT)，将各帧信号按序叠加后输出。

结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

Claims

1.一种语音增强方法，其特征在于，所述方法包括如下方法步骤：

2.根据权利要求1所述的方法，其特征在于，通过加权平滑法进行噪声估计，包括如下方法步骤：

通过所述带噪语音信号功率谱计算信噪比：

计算加权因子W(i,k)：

其中，θ₂为加权因子参数，为信噪比；

其中，α_d为平滑参数，|Y(i,k)|²为音信号功率谱。

3.根据权利要求1所述的方法，其特征在于，在多频带谱减法中引入获取的所述噪声功率谱的估计值，对所述带噪语音信号进行如下处理：

对每一个子带的纯净语音信号功率谱进行估计：

4.根据权利要求3所述的方法，其特征在于，对每一个子带的纯净语音信号功率谱估计过程中，当估计的纯净语音信号功率谱出现负值时，将带噪语音信号功率谱乘以频谱基，作为估计的纯净语音信号功率谱。

5.根据权利要求3所述的方法，其特征在于，子带的过减因子为频率子带的信噪比函数，通过如下方法计算：

6.根据权利要求3所述的方法，其特征在于，第i个子带的减法因子δ_i满足：

7.根据权利要求1所述的方法，其特征在于，对经过处理后的带噪语音信号进行噪声特性判断：

定义α∈[0,1]，

8.根据权利要求7所述的方法，其特征在于，通过带噪语音信号的噪声特性判断结果，计算掩蔽阈值，包括：

计算相对掩蔽阈值的偏移量：

O_i＝α(14.5+i)+(1-α)5.5 i＝1,2,...,i_max，其中，i为临界带宽号，取值与采样频率有关，α∈[0,1]；

对扩展掩蔽阈值进行估计：

计算绝对听阈：

其中，f为带噪信号频率；

计算掩蔽阈值：T_i＝max(T_i′,T_a)。

9.根据权利8所述的方法，其特征在于，按照如下方法确定谱减参数：

10.根据权利要求1所述的方法，其特征在于，通过如下方法计算纯净语音信号增强后的功率谱：