CN107731242A

CN107731242A - 一种广义最大后验的谱幅度估计的增益函数语音增强方法

Info

Publication number: CN107731242A
Application number: CN201710880953.5A
Authority: CN
Inventors: 曾庆宁; 肖强; 王瑶
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2017-09-26
Filing date: 2017-09-26
Publication date: 2018-02-23
Anticipated expiration: 2037-09-26
Also published as: CN107731242B

Abstract

本发明公开了一种广义最大后验的谱幅度估计的增益函数语音增强方法，该方法通过建立含噪语音模型，短时傅里叶变换；获得含噪语音的功率谱；以及最小功率谱；计算无偏修正因子，到的结果没有说；获得噪声功率谱估计值；通过后验信噪比获得先验信噪比；计算增益函数值；得出纯净语音的估计值；动态根据含噪语音的先验信噪比计算出最佳的增益函数功能，对含噪语音采用最小跟踪估计噪声功率谱，然后动态的根据含噪语音的先验信噪比计算出最佳的增益函数，信噪比高时，广义最大后验的谱幅度估计的增益函数采用较小值防止语音失真；信噪比低时，广义最大后验的谱幅度估计的增益函数使用较大值避免抑制噪声能力不足。

Description

一种广义最大后验的谱幅度估计的增益函数语音增强方法

技术领域

本发明涉及语音信号处理领域，一种广义最大后验的谱幅度估计的增益函数语音增强方法。

背景技术

在非平稳和多种噪声并存的实际环境中，噪声的干扰往往会严重影响目标语音的获取，致使获取的语音信号不是纯净的语音信号，为了抑制噪声的影响提高语音可懂度，噪声消除技术在现代语音通信系统中是至关重要的一个功能，单通道语音增强算法以其简单的模型和廉价的成本已取得广泛的应用和成熟的发展。

从含噪语音中获取纯净语音频域的幅度谱方法，是利用频域中幅度谱的增益函数抑制含噪语音信号中的噪声成分，如何设计增益函数是提高语音质量的重要环节之一，在大多数研究中，增益函数是根据噪声和语音分布的一些假设，例如最小均方误差、维纳滤波和最大后验准则来优化的。然而，有研究表明，尽管最大后验估计量在信噪比较低时有效地降低了噪声成分，但当信噪比较高时，会带来较大的语音失真。

发明内容

针对现有技术的不足，本发明一种广义最大后验的谱幅度估计的增益函数的语音增强方法，该方法动态根据含噪语音的先验信噪比计算出最佳的增益函数功能，对含噪语音采用最小跟踪估计噪声功率谱，然后动态的根据含噪语音的先验信噪比计算出最佳的增益函数，

信噪比高时，广义最大后验的谱幅度估计的增益函数采用较小值防止语音失真；

信噪比低时，广义最大后验的谱幅度估计的增益函数使用较大值避免抑制噪声能力不足。

实现本发明目的的技术方案是：

一种广义最大后验的谱幅度估计的增益函数的语音增强方法，包括如下步骤：

1)建立含噪语音模型；

2)对步骤1)中建立的含噪语音模型进行短时傅里叶变换；

3)利用步骤2)的含噪语音的频域获得含噪语音的功率谱；

4)利用步骤3)的含噪语音的功率谱得到含噪语音的最小功率谱；

5)利用步骤3)的含噪语音的功率谱计算无偏修正因子，到的结果没有说；

6)利用步骤4)的最小功率谱与步骤5)的结果获得噪声功率谱估计值；

7)利用步骤6)的噪声功率谱估计值及步骤3)的含噪语音的功率谱获得后验信噪比，通过后验信噪比获得先验信噪比。

8)通过最大后验的谱估计推导增益函数，利用步骤7)获得的先验信噪比计算增益函数值；

9)利用步骤8)得到的增益函数和步骤7)得到的先验信噪比以及步骤2)含噪语音的频域得出纯净语音的估计值；

通过上述步骤就能得到基于广义最大后验的谱幅度估计的增益函数的增强语音。

步骤1)中，麦克风接受到的含噪语音信号表示为：

y(n)＝s(n)+v(n) (1)

y(n)表示含噪语音；s(n)表示纯净语音；v(n)表示噪声。

步骤2)中：由步骤1)对麦克风接收到的含噪语音进行短时傅里叶变换，获得含噪语音的频域。

Y(u,w)＝S(u,w)+V(u,w) (2)

u表示帧数；w表示频率。

步骤3)中：由步骤2)利用含噪语音的频域估计含噪语音的功率谱。采用一阶递归的功率谱估计。

P(u,w)＝αP(u-1,w)+(1-α)|Y(u,w)|² (3)

步骤4)中：利用步骤3)得到的含噪语音的功率谱，计算一段含噪语音帧的含噪语音最小功率谱，即在局部搜索窗长内搜索含噪语音功率谱来计算最小功率谱，得到：

P_min(u,w)＝min{P(u,w),P(u-1,w),…P(u-D+1,w)} (4)

式中P_min(u,w)含噪语音最小功率谱，P_min(u,w)的计算是基于P(u,w)在 {u,u-1,…u-D+1}上计算，其中D为过去帧的帧数；

步骤5)中：由于步骤4)得到的P_min(u,w)总会小于噪声平均值，利用无偏修正因子B_min(u,w)进行修正噪声功率谱，而无偏修正因子与步骤 4)中过去帧数D有关，B_min(u,w)的值会随着D的变化而变化。Martin 通过渐进求取的方法计算无偏修正因子B_min(u,w)的近似值，B_min(u,w)表示为：

步骤6)中：利用步骤4)与步骤5)得到的含噪语音最小功率谱及无偏因子估计噪声功率谱。噪声功率谱估计值由含噪语音的最小功率谱与无偏因子的乘积获得，因此噪声功率谱估计值为：

P_V(u,w)＝P_min(u,w)B_min(u,w) (6)

步骤7)中：通过步骤3)得到的含噪语音的功率谱与步骤6)得到的噪声功率谱获得后验信噪比以及通过后验信噪比获得先验信噪比。

γ(u,w)为后验信噪比；ξ(u,w)为先验信噪比；P_S(u,w)为纯净语音功率谱估计值。

引入平滑因子λ，通过前一帧的先验信噪比及当前帧的后验信噪比获得当前帧的先验信噪比。

ξ(u,w)＝λξ(u-1,w)+(1-λ)(γ(u,w)-1) (9)

步骤8)中：由广义最大后验的谱幅度估计推导增益函数

S_k＝|S(u,w)|为纯净语音的幅度；J_GMAPA(S_k)是最大后验的代价函数，定义为：

J_GMAPA(S_k)＝ln{p(Y|S_k)[p(S_k)]^η} (11)

p(Y|S_k)表示最大似然；p(S_k)是由瑞利分布建模的表示先验概率；

假设含噪语音与纯净语音的的幅度谱不相关，p(Y|S_k)表示为

Y_k＝|Y(u,w)|表示含噪语音的幅度；σ_V ²＝P_V(u,w)表示噪声幅度。

因此代价函数表示为：

上式中σ_S ²表示P_S(u,w)。

对代价函数求导，使其得出：

一种广义最大后验的谱幅度估计的增益函数语音增强方法

技术领域

背景技术

发明内容

实现本发明目的的技术方案是：

4)建立含噪语音模型；

5)对步骤1)中建立的含噪语音模型进行短时傅里叶变换；

6)利用步骤2)的含噪语音的频域获得含噪语音的功率谱；

10)利用步骤3)的含噪语音的功率谱计算无偏修正因子，到的结果没有说；

11)利用步骤4)的最小功率谱与步骤5)的结果获得噪声功率谱估计值；

12)利用步骤6)的噪声功率谱估计值及步骤3)的含噪语音的功率谱获得后验信噪比，通过后验信噪比获得先验信噪比。

13)通过最大后验的谱估计推导增益函数，利用步骤7)获得的先验信噪比计算增益函数值；

14)利用步骤8)得到的增益函数和步骤7)得到的先验信噪比以及步骤2)含噪语音的频域得出纯净语音的估计值；

步骤1)中，麦克风接受到的含噪语音信号表示为：

y(n)＝s(n)+v(n) (1)

y(n)表示含噪语音；s(n)表示纯净语音；v(n)表示噪声。

Y(u,w)＝S(u,w)+V(u,w) (2)

u表示帧数；w表示频率。

P(u,w)＝αP(u-1,w)+(1-α)|Y(u,w)|² (3)

P_min(u,w)＝min{P(u,w),P(u-1,w),…P(u-D+1,w)} (4)

P_V(u,w)＝P_min(u,w)B_min(u,w) (6)

ξ(u,w)＝λξ(u-1,w)+(1-λ)(γ(u,w)-1) (9)

步骤8)中：由广义最大后验的谱幅度估计推导增益函数

J_GMAPA(S_k)＝ln{p(Y|S_k)[p(S_k)]^η} (11)

假设含噪语音与纯净语音的的幅度谱不相关，p(Y|S_k)表示为

因此代价函数表示为：

上式中σ_S ²表示P_S(u,w)。

对代价函数求导，使其得出：

ξ表示ξ(u,w)；γ表示γ(u,w)。

因此增益函数为：

步骤9)中：利用步骤8)得到的增益函数、步骤7)的先验信噪比以及步骤2)含噪语音的频域得出纯净语音的估计值：

S(u,w)＝G(u,w)Y(u,w) (16)

有益效果

一种广义最大后验的谱幅度估计的增益函数的语音增强方法，该方法动态根据含噪语音的先验信噪比计算出最佳的增益函数功能，对含噪语音采用最小跟踪估计噪声功率谱，然后动态的根据含噪语音的先验信噪比计算出最佳的增益函数，

具体实施方式

下列结合对本发明内容作进一步的阐述，但不是对本发明的限定。

1)建立含噪语音模型；

2)对步骤1)中建立的含噪语音模型进行短时傅里叶变换；

3)利用步骤2)的含噪语音的频域获得含噪语音的功率谱；

通过上述步骤就能得到基于广义最大后验的谱幅度估计的增益函数的增强语音。(需要点题)

步骤1)中，麦克风接受到的含噪语音信号表示为：

y(n)＝s(n)+v(n) (1)

y(n)表示含噪语音；s(n)表示纯净语音；v(n)表示噪声。

Y(u,w)＝S(u,w)+V(u,w) (2)

u表示帧数；w表示频率。

P(u,w)＝αP(u-1,w)+(1-α)|Y(u,w)|² (3)

P_min(u,w)＝min{P(u,w),P(u-1,w),…P(u-D+1,w)} (4)

步骤5)中：由于步骤4)得到的P_min(u,w)总会小于噪声平均值，利用无偏修正因子B_min(u,w)进行修正噪声功率谱，而无偏修正因子与步骤4) 中过去帧数D有关，B_min(u,w)的值会随着D的变化而变化。Martin通过渐进求取的方法计算无偏修正因子B_min(u,w)的近似值，B_min(u,w)表示为：

P_V(u,w)＝P_min(u,w)B_min(u,w) (6)

ξ(u,w)＝λξ(u-1,w)+(1-λ)(γ(u,w)-1) (9)

步骤8)中：由广义最大后验的谱幅度估计推导增益函数

J_GMAPA(S_k)＝ln{p(Y|S_k)[p(S_k)]^η} (11)

假设含噪语音与纯净语音的的幅度谱不相关，p(Y|S_k)表示为

一种广义最大后验的谱幅度估计的增益函数语音增强方法

技术领域

背景技术

发明内容

实现本发明目的的技术方案是：

7)建立含噪语音模型；

8)对步骤1)中建立的含噪语音模型进行短时傅里叶变换；

9)利用步骤2)的含噪语音的频域获得含噪语音的功率谱；

15)利用步骤3)的含噪语音的功率谱计算无偏修正因子，到的结果没有说；

16)利用步骤4)的最小功率谱与步骤5)的结果获得噪声功率谱估计值；

17)利用步骤6)的噪声功率谱估计值及步骤3)的含噪语音的功率谱获得后验信噪比，通过后验信噪比获得先验信噪比。

18)通过最大后验的谱估计推导增益函数，利用步骤7)获得的先验信噪比计算增益函数值；

19)利用步骤8)得到的增益函数和步骤7)得到的先验信噪比以及步骤2)含噪语音的频域得出纯净语音的估计值；

步骤1)中，麦克风接受到的含噪语音信号表示为：

y(n)＝s(n)+v(n) (1)

y(n)表示含噪语音；s(n)表示纯净语音；v(n)表示噪声。

Y(u,w)＝S(u,w)+V(u,w) (2)

u表示帧数；w表示频率。

P(u,w)＝αP(u-1,w)+(1-α)|Y(u,w)|² (3)

P_min(u,w)＝min{P(u,w),P(u-1,w),…P(u-D+1,w)} (4)

P_V(u,w)＝P_min(u,w)B_min(u,w) (6)

ξ(u,w)＝λξ(u-1,w)+(1-λ)(γ(u,w)-1) (9)

步骤8)中：由广义最大后验的谱幅度估计推导增益函数

J_GMAPA(S_k)＝ln{p(Y|S_k)[p(S_k)]^η} (11)

假设含噪语音与纯净语音的的幅度谱不相关，p(Y|S_k)表示为

因此代价函数表示为：

上式中σ_S ²表示P_S(u,w)。

对代价函数求导，使其得出：

ξ表示ξ(u,w)；γ表示γ(u,w)。

因此增益函数为：

S(u,w)＝G(u,w)Y(u,w) (16)

有益效果

具体实施方式

4)建立含噪语音模型；

5)对步骤1)中建立的含噪语音模型进行短时傅里叶变换；

6)利用步骤2)的含噪语音的频域获得含噪语音的功率谱；

步骤1)中，麦克风接受到的含噪语音信号表示为：

y(n)＝s(n)+v(n) (1)

y(n)表示含噪语音；s(n)表示纯净语音；v(n)表示噪声。

Y(u,w)＝S(u,w)+V(u,w) (2)

u表示帧数；w表示频率。

P(u,w)＝αP(u-1,w)+(1-α)|Y(u,w)|² (3)

P_min(u,w)＝min{P(u,w),P(u-1,w),…P(u-D+1,w)} (4)

式中P_min(u,w)含噪语音最小功率谱，P_min(u,w)的计算是基于P(u,w)在{u,u-1,…u-D+1}上计算，其中D为过去帧的帧数；

P_V(u,w)＝P_min(u,w)B_min(u,w) (6)

ξ(u,w)＝λξ(u-1,w)+(1-λ)(γ(u,w)-1) (9)

步骤8)中：由广义最大后验的谱幅度估计推导增益函数

J_GMAPA(S_k)＝ln{p(Y|S_k)[p(S_k)]^η} (11)

假设含噪语音与纯净语音的的幅度谱不相关，p(Y|S_k)表示为

因此代价函数表示为：

上式中σ_S ²表示P_S(u,w)。

对代价函数求导，使其得出：

ξ表示ξ(u,w)；γ表示γ(u,w)。

因此增益函数为：

S(u,w)＝G(u,w)Y(u,w) (16)

因此代价函数表示为：

上式中σ_S ²表示P_S(u,w)。

对代价函数求导，使其得出：

ξ表示ξ(u,w)；γ表示γ(u,w)。

因此增益函数为：

S(u,w)＝G(u,w)Y(u,w) (16)

ξ表示ξ(u,w)；γ表示γ(u,w)。

因此增益函数为：

S(u,w)＝G(u,w)Y(u,w) (16)

有益效果

具体实施方式

1)建立含噪语音模型；

2)对步骤1)中建立的含噪语音模型进行短时傅里叶变换；

3)利用步骤2)的含噪语音的频域获得含噪语音的功率谱；

步骤1)中，麦克风接受到的含噪语音信号表示为：

y(n)＝s(n)+v(n) (1)

y(n)表示含噪语音；s(n)表示纯净语音；v(n)表示噪声。

Y(u,w)＝S(u,w)+V(u,w) (2)

u表示帧数；w表示频率。

P(u,w)＝αP(u-1,w)+(1-α)|Y(u,w)|² (3)

P_min(u,w)＝min{P(u,w),P(u-1,w),…P(u-D+1,w)} (4)

P_V(u,w)＝P_min(u,w)B_min(u,w) (6)

ξ(u,w)＝λξ(u-1,w)+(1-λ)(γ(u,w)-1) (9)

步骤8)中：由广义最大后验的谱幅度估计推导增益函数

J_GMAPA(S_k)＝ln{p(Y|S_k)[p(S_k)]^η} (11)

假设含噪语音与纯净语音的的幅度谱不相关，p(Y|S_k)表示为

因此代价函数表示为：

上式中σ_S ²表示P_S(u,w)。

对代价函数求导，使其得出：

ξ表示ξ(u,w)；γ表示γ(u,w)。

因此增益函数为：

S(u,w)＝G(u,w)Y(u,w) (16)。

Claims

1.一种广义最大后验的谱幅度估计的增益函数语音增强方法，其特征在于，包括如下步骤：

1)建立含噪语音模型；

2)对步骤1)中建立的含噪语音模型进行短时傅里叶变换；

3)利用步骤2)的含噪语音的频域获得含噪语音的功率谱；

7)利用步骤6)的噪声功率谱估计值及步骤3)的含噪语音的功率谱获得后验信噪比，通过后验信噪比获得先验信噪比；

2.根据权利要求1所述的广义最大后验的谱幅度估计的增益函数语音增强方法，其特征在于，步骤1)中：麦克风接受到的含噪语音信号表示为：

y(n)＝s(n)+v(n) (1)

y(n)表示含噪语音；s(n)表示纯净语音；v(n)表示噪声。

3.根据权利要求1所述的广义最大后验的谱幅度估计的增益函数语音增强方法，其特征在于，步骤2)中：由步骤1)对麦克风接收到的含噪语音进行短时傅里叶变换，获得含噪语音的频域，

Y(u,w)＝S(u,w)+V(u,w) (2)

式中，u表示帧数；w表示频率。

4.根据权利要求1所述的广义最大后验的谱幅度估计的增益函数语音增强方法，其特征在于，步骤3)中：步骤3)中：由步骤2)利用含噪语音的频域估计含噪语音的功率谱，采用一阶递归的功率谱估计，

P(u,w)＝αP(u-1,w)+(1-α)|Y(u,w)|²。 (3)

5.根据权利要求1所述的广义最大后验的谱幅度估计的增益函数语音增强方法，其特征在于，步骤4)中：利用步骤3)得到的含噪语音的功率谱，计算一段含噪语音帧的含噪语音最小功率谱，即在局部搜索窗长内搜索含噪语音功率谱来计算最小功率谱，得到：

P_min(u,w)＝min{P(u,w),P(u-1,w),…P(u-D+1,w)} (4)

式中P_min(u,w)含噪语音最小功率谱，P_min(u,w)的计算是基于P(u,w)在{u,u-1,…u-D+1}上计算，其中D为过去帧的帧数。

6.根据权利要求1所述的广义最大后验的谱幅度估计的增益函数语音增强方法，其特征在于，步骤5)中：由于步骤4)得到的P_min(u,w)总会小于噪声平均值，利用无偏修正因子B_min(u,w)进行修正噪声功率谱，而无偏修正因子与步骤4)中过去帧数D有关，B_min(u,w)的值会随着D的变化而变化，Martin通过渐进求取的方法计算无偏修正因子B_min(u,w)的近似值，B_min(u,w)表示为：

7.根据权利要求1所述的广义最大后验的谱幅度估计的增益函数语音增强方法，其特征在于，步骤6)中：利用步骤4)与步骤5)得到的含噪语音最小功率谱及无偏因子估计噪声功率谱，噪声功率谱估计值由含噪语音的最小功率谱与无偏因子的乘积获得，因此噪声功率谱估计值为：

P_V(u,w)＝P_min(u,w)B_min(u,w)。 (6)

8.根据权利要求1所述的广义最大后验的谱幅度估计的增益函数语音增强方法，其特征在于，步骤7)中：通过步骤3)得到的含噪语音的功率谱与步骤6)得到的噪声功率谱获得后验信噪比以及通过后验信噪比获得先验信噪比，

式中:γ(u,w)为后验信噪比；ξ(u,w)为先验信噪比；P_S(u,w)为纯净语音功率谱估计值，引入平滑因子λ，通过前一帧的先验信噪比及当前帧的后验信噪比获得当前帧的先验信噪比，

ξ(u,w)＝λξ(u-1,w)+(1-λ)(γ(u,w)-1)。 (9)

9.根据权利要求1所述的广义最大后验的谱幅度估计的增益函数语音增强方法，其特征在于，步骤8)中：由广义最大后验的谱幅度估计推导增益函数

式中:S_k＝|S(u,w)|为纯净语音的幅度；J_GMAPA(S_k)是最大后验的代价函数，定义为：

J_GMAPA(S_k)＝ln{p(Y|S_k)[p(S_k)]^η} (11)

式中:p(Y|S_k)表示最大似然；p(S_k)是由瑞利分布建模的表示先验概率；

假设含噪语音与纯净语音的的幅度谱不相关，p(Y|S_k)表示为

式中:Y_k＝|Y(u,w)|表示含噪语音的幅度；σ_V ²＝P_V(u,w)表示噪声幅度，

因此代价函数表示为：

上式中σ_S ²表示P_S(u,w)，

对代价函数求导，使其得出：

式中:ξ表示ξ(u,w)；γ表示γ(u,w)，

因此增益函数为：

10.根据权利要求1所述的广义最大后验的谱幅度估计的增益函数语音增强方法，其特征在于，步骤9)中：利用步骤8)得到的增益函数、步骤7)的先验信噪比以及步骤2)含噪语音的频域得出纯净语音的估计值：

S(u,w)＝G(u,w)Y(u,w)。 (16)。