CN108428456A

CN108428456A - 语音降噪算法

Info

Publication number: CN108428456A
Application number: CN201810274913.0A
Authority: CN
Inventors: 禹深义; 娄进凯; 张勤磊; 胥杨; 李万顺; 高峻峰; 丁辉; 付琰; 于江菊
Original assignee: Zhejiang Kaichi Electronic Technology Co Ltd
Current assignee: Zhejiang Kaichi Electronic Technology Co Ltd
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2018-08-21

Abstract

本发明公开了一种语音降噪算法：使用仿真软件采集声音样本，并进行A/D转换；将经过AD采样后的带噪语音进行短时傅里叶变换，并对每一帧信号进行VAD检测，根据VAD门限，得出每一帧信号时有效帧还是无效帧，根据当前帧的带噪语音的能量谱和噪声估计的能量谱，计算当前帧数据每一频率分量的后验信噪比，利用当前帧的后验信噪比结合前一帧数据的谱估计器，计算当前帧的先验信噪比，利用先验信噪比结合logMMSE算法模型，计算出当前帧数据的谱估计器，并计算出纯净信号的能量谱，根据纯净语音能量谱与当前帧数据的相位谱，进行短时傅里叶反变换并合成，形成连续的纯净语音信号。本发明利用多种端点监测算法结合噪声进行估计，进而提高噪声估计的准确度。

Description

语音降噪算法

技术领域：

本发明涉及一种算法，特别是涉及一种语音降噪算法。

背景技术：

无论身处何处，我们都被噪声所包围，噪声可以是平稳的，即不随时间而改变，如电脑风扇噪声；噪声也可以是非平稳的，比如餐馆里面的北京噪声，很多人说话的同时还夹杂着厨房里传出来的声音，这种餐馆噪声的频域以及时域特征随着周围餐桌上人们的对话以及服务员与顾客交流内容的改变而改变。

发明内容：

本发明所要解决的技术问题是：克服现有技术的不足，提供一种能够提高噪声估计的准确度的语音降噪算法。

本发明为解决技术问题所采取的技术方案是：

一种语音降噪算法，包括以下步骤：

(1)使用仿真软件对声音样本进行前期的采集与处理，并进行A/D转换；

(2)将前级经过AD采样后的一段带噪语音，经过分帧(20ms)加窗后进行短时傅里叶变换，由信号的时域处理转换为信号的频时处理，计算出每一帧信号的短时能量谱和相位谱；

其中x(m)为输入信号，w(m)是分析窗，此处取汉明窗，它在时间上反转并且有n个样本的偏移量，ω为频率变量，N为短时傅里叶变换的分辨率，这里取N＝128,Y_i(k)为第帧数据，第k条谱线频率分量f_k的能量谱；

(3)对经过傅里叶分析处理的每一帧信号进行VAD检测，根据VAD门限，得出每一帧信号时有效帧还是无效帧，如果是无效帧，即不含有效语音的帧，更新噪声估计的能量谱，如果是有效帧，则不动作；

(4)根据当前帧的带噪语音的能量谱和噪声估计的能量谱，计算当前帧数据每一频率分量的后验信噪比，如下式所示：

其中Y_i ²(k)为当前帧数据的频率分量k的能量值，λ_d(k)为噪声估计能量谱中频率分量k的能量值，γ_i(k)为当前帧数据的k频率分量的后验信噪比；

(1)利用当前帧的后验信噪比结合前一帧数据的谱估计器，计算当前帧的先验信噪比，如下式所示：

ξ_i(k)≈αξ_i-1(k)+(1-α)(γ_i(k)-1)

其中α为平滑因子，一般取0.9-1.0，这里取0.95，ξ_i-1(k)为上一帧数据频率分量k的先验信噪比，γ_i(k)为当前帧数据频率分量k的后验信噪比，ξ_i(k)为当前帧数据频率分量k的先验信噪比；

(2)根据计算出的当前帧的先验信噪比，结合logMMSE算法模型，计算出当前帧数据的谱估计器，并计算出纯净信号的能量谱，如下式所示：

其中ξ_i(k)为当前帧数据频率分量k的先验信噪比，为当前帧数据后验信噪比的维纳估计，Y_i(k)为当前帧数据频率分量k的带噪语音的能量谱，X_k为当前帧数据频率分量k的纯净语音的能量谱；

(3)根据计算出的纯净语音能量谱与计算出的当前帧数据的相位谱，进行短时傅里叶反变换，将信号从频域转换到时域，再对每一帧数据进行合成，形成连续的纯净语音信号。

步骤(3)中的VAD检测，使用能熵比进行检测，具体能熵比计算过程如下所示：

(1)计算当前帧数据的每个频率分量的归一化谱概率密度函数，如下式所示：

其中Y_i(k)为第k条谱线频率分量f_k的能量谱，为所有频率分量的能量和，p_i(k)为第i帧第k个频率分量f_k对应的概率密度，N为短时傅里叶变换的分辨率，这里取N＝128；

(2)计算当前帧数据的短时谱熵，如下式所示：

其中H_i为当前帧数据的短时谱熵；

(3)计算当前帧数据的能量，如下式所示：

LE_i＝log₁₀(1+AMR_i/a)

其中Y_i ²(k)是当前帧数据的能量，AMP_i为当前帧数据的能量，LE_i是改进的能量关系，a是一个常数，这里取1.5：

(4)计算当前帧数据的能熵比，如下式所示：

其中EEF_i就是当前帧数据的能熵比，根据EEF_i的值，判断是否为有效语音，如果是，则不更新噪声估计的能量谱，如果不是，这里取EEF_i<1.6为无效语音，则更新噪声能量谱λ_d(k)：

λ_d(k)＝0.9*λ_d-1(k)+0.1*Y_i ²(k)

在进行语音降噪算法的过程中，选择使用数字信号处理器TMS320VC5509A作为主处理芯片，使用音频编解码器TLV320AIC23B作为AD/DA芯片。

本发明的积极有益效果是：

噪声估计是所有降噪算法中的重中之重，提高噪声估计的准确度能明显提高处理后的语音的信噪比与可懂性，本发明使用多种端点检测算法结合对噪声进行估计，进而提高噪声估计的准确度，提高了语音降噪的效果。

附图说明：

图1为本发明语音降噪算法的算法过程框图。

具体实施方式：

下面结合附图1和具体实施例对本发明作进一步的解释和说明：

实施例：一种语音降噪算法，包括以下步骤：

(4)利用当前帧的后验信噪比结合前一帧数据的谱估计器，计算当前帧的先验信噪比，如下式所示：

ξ_i(k)≈αξ_i-1(k)+(1-α)(γ_i(k)-1)

(5)根据计算出的当前帧的先验信噪比，结合logMMSE算法模型，计算出当前帧数据的谱估计器，并计算出纯净信号的能量谱，如下式所示：

(6)根据计算出的纯净语音能量谱与计算出的当前帧数据的相位谱，进行短时傅里叶反变换，将信号从频域转换到时域，再对每一帧数据进行合成，形成连续的纯净语音信号。

(2)计算当前帧数据的短时谱熵，如下式所示：

其中H_i为当前帧数据的短时谱熵；

(3)计算当前帧数据的能量，如下式所示：

LE_i＝log₁₀(1+AMP_i/a)

(4)计算当前帧数据的能熵比，如下式所示：

λ_d(k)＝0.9*λ_d-1(k)+0.1*Y_i ²(k)

语音降噪过程中，先使用仿真软件采集声音样本，并进行A/D转换；随后进行短时傅里叶变换，并对每一帧信号进行VAD检测，根据VAD门限，得出每一帧信号时有效帧还是无效帧，然后根据当前帧的带噪语音的能量谱和噪声估计的能量谱，计算当前帧数据每一频率分量的后验信噪比，利用当前帧的后验信噪比结合前一帧数据的谱估计器，计算当前帧的先验信噪比，利用先验信噪比结合logMMSE算法模型，计算出当前帧数据的谱估计器，并计算出纯净信号的能量谱，根据纯净语音能量谱与当前帧数据的相位谱，进行短时傅里叶反变换并合成，形成连续的纯净语音信号。

以上所述，仅是本发明的优先实施例而已，并未对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的保护范围内。

Claims

1.一种语音降噪算法，包括以下步骤：

(5)利用当前帧的后验信噪比结合前一帧数据的谱估计器，计算当前帧的先验信噪比，如下式所示：

ξ_i(k)≈αξ_i-1(k)+(1-α)(γ_i(k)-1)

(6)根据计算出的当前帧的先验信噪比，结合logMMSE算法模型，计算出当前帧数据的谱估计器，并计算出纯净信号的能量谱，如下式所示：

(7)根据计算出的纯净语音能量谱与计算出的当前帧数据的相位谱，进行短时傅里叶反变换，将信号从频域转换到时域，再对每一帧数据进行合成，形成连续的纯净语音信号。

2.根据权利要求1所述的语音降噪算法，其特征是：步骤(3)中的VAD检测，使用能熵比进行检测，具体能熵比计算过程如下所示：

(2)计算当前帧数据的短时谱熵，如下式所示：

其中H_i为当前帧数据的短时谱熵；

(3)计算当前帧数据的能量，如下式所示：

LE_i＝log₁₀(1+AMP_i/a)

(4)计算当前帧数据的能熵比，如下式所示：

其中EEF_i就是当前帧数据的能熵比，根据EEF_i的值，判断是否为有效语音，如果是，则不更新噪声估计的能量谱，如果不是，这里取EEF_i<1.6为无效语音，则更新噪声能量谱λ_d(k)，λ_d(k)＝0.9*λ_d-1(k)+0.1*Y_i ²(k)

3.根据权利要求1所述的语音降噪算法，其特征是：在进行语音降噪算法的过程中，选择使用数字信号处理器TMS320VC5509A作为主处理芯片，使用音频编解码器TLV320AIC23B作为AD/DA芯片。