CN105489226A

CN105489226A - 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法

Info

Publication number: CN105489226A
Application number: CN201510812196.9A
Authority: CN
Inventors: 张正文; 李婕; 王远; 周航麒; 高铭泽
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2015-11-23
Filing date: 2015-11-23
Publication date: 2016-04-13

Abstract

本发明提供一种用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，该方法先将带噪语音进行多窗口谱估计，再通过小波阈值去除噪声项得到近似纯净的语音谱；然后与维纳滤波处理后的语音谱相比较，根据不同的失真类型选择相应的谱作为最终增强的语音谱。将本方法应用于拾音器中，相比已有的均方预测误差和预白化子空间方法，该方法处理后的语音更平滑，与纯净语音更接近；在低信噪比及复杂噪声的情况下，该拾音器对语音处理速度更快，编解码效率高，降噪性能更好，且鲁棒性更强。同时，在距离较远的环境下，语音也有较好的识别效果。

Description

一种用于拾音器的多窗谱估计的维纳滤波语音增强方法

技术领域

本发明涉及应用于拾音器的语音增强方法，尤其涉及小波阈值和维纳滤波语音增强方法，属于语音信号处理中语音增强领域。

背景技术

语音增强是语音编码的关键步骤，但是在应用于拾音器时，语音很容易受到噪声的污染，致使语音质量下降。因此，当语音信号被不同的噪声干扰时，能在较低的信噪比环境下抑制背景噪声，而尽量不影响原始语音信号的可懂性是在拾音器应用中的重要问题。

为了抑制语音中的噪声，学者已经提出了一些语音增强方法。现有比较常用的谱减法，从带噪语音功率谱中减去噪声功率谱而得到增强语音的功率谱；然而噪声谱是通过对带噪语音估计获得，而真实噪声谱和估计噪声谱存在误差，其残留的音乐噪声使人不舒服。维纳滤波语音增强算法是一种基于统计模型，采用“直接判别”最小均方误差短时谱估计的方法，估计当前帧的先验信噪比，增强后的语音残留噪声类似于白噪声且噪声大大减少；然而维纳滤波要求待处理的信号是平稳信号，当语音信号中噪声较多时会导致语音信号成分衰减过大，得不到理想的纯净语音信号。为了研究影响语音质量的因素，将纯净语音和增强算法处理后的语音相比较，根据信噪比将失真进一步分类，研究不同类型的失真对语音质量的影响；然而纯净的语音是理想的状态，现实环境中几乎是不存在的。

有鉴于此，有必要提供一种用于拾音器的多窗谱估计的维纳滤波语音增强方法，以解决上述问题。

发明内容

本发明的目的是：为了解决拾音器在较低信噪比和复杂背景噪声下，语音信号容易受到污染，语音信号质量下降的问题，提出了一种用于拾音器的多窗谱估计的维纳滤波语音增强方法。

本发明所采用的技术方案是：一种用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，该方法先将带噪语音进行多窗口谱估计，再通过小波阈值去除噪声项得到近似纯净的语音谱；然后与维纳滤波处理后的语音谱相比较，根据不同的失真类型选择相应的谱作为最终增强的语音谱。

如上所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，所述多窗口谱估计的步骤如下：

1）多窗口谱估计定义如下：

(1)

其中，M是数据窗个数，第i个数据窗谱定义如下：

(2)

其中，为第i个带噪语音的数据窗谱，N是带噪语音信号的长度，为带噪语音帧序列，是第i个正弦的正交窗；

正交窗定义如下：

(3)

如果上式的不相关，则带噪语音的多窗口功率谱和纯净语音功率谱的比值符合自由度为2L的Chi-Square分布：

(4)

两边同时取对数，可得

(5)

可将(5)式看成带噪语音模型，其表示纯净语音与噪声之和，其中，将作为带噪语音，和分别为纯净语音和噪声项，是均值为、方差为的分布，和分别表示双伽玛函数和3阶伽玛函数，当时，是近似的正态分布，若将L取最小值5，根据正态分布的特性：

(6)

此时，近似为均值0、方差为的正态分布，

如果将定义如下：

(7)

然后，

(8)

上式可将看成多窗口功率谱的对数加上一个常数，可作为纯净语音，作为噪声项，针对(8)，通过小波去噪技术去除噪声项并且能得到一个最佳的对数谱估计。

如上所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，小波阈值多窗口谱的具体实现步骤如下：

1）通过(1)(2)(3)式得到多窗口功率谱，通过(7)式计算；

2）将经过级的离散小波变换（DWT），然后每个j级都可以得到DWT系数，其中被预先确定，其中小波基为db3，小波分解层数为5；

3）将系数做阈值处理，小波阈值采用的是sqtwolog规则固定的阈值形式，产生的阈值为；

阈值处理后的小波系数通过逆离散小波变换得到精确的对数频谱。

如上所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，该算法能够通过下面的步骤来实现：

1）带噪语音信号通过汉明窗分帧，每帧长为20ms，然后子帧通过离散傅里叶变换(DFT)；

2）将DFT后的子帧进行多窗口谱估计，得到带噪语音模型；通过(1)式计算带噪语音信号z的多窗口功率谱；是噪声的多窗口功率频谱，在语音帧丢失时通过噪声样本采集来获得，数据窗个数M为16，纯净语音信号的多窗口功率谱通过：

(9)

其中，为频谱因子，值为0.002；

3）通过(7)式计算，然后采用5级离散小波变换，每一级分别可得到经验的DWT系数，对小波系数做阈值处理，阈值处理后的小波系数通过逆离散小波变换得到带噪语音增强的谱对数，重复上面的步骤得到精确的噪声信号对数谱，纯净语音信号的估计功率频谱，通过下式：

(10)

4）DFT后的带噪语音信号通过噪声估计和维纳滤波；表示在时间t和频率下带噪语音谱幅度，然后通过给频谱幅度乘上一个增益函数得到估计的信号频谱，，该增益函数是基于先验的信噪比的维纳增益函数，下式：

(11)

其中是采用直接决策方法的先验信噪比估计：

(12)

其中是背景噪声的功率谱密度估计，是平滑系数，通常设置；

5）为了分析失真对语音信号的影响，将近似的纯净语音幅度谱和通过增强算法估计的幅度谱之间的误差继续分类，将6dB作为临界值，同时指出信噪比和幅度谱之间的联系：

(a)当时，幅度谱，此时为衰减失真，(b)当时，幅度谱，此时为不超过6dB的放大失真；(c)当时，幅度谱，此时为放大失真且失真超过6dB，为了使语音信号在噪声环境下有较好的鲁棒性，同时有较高的可懂性，在这里提出改进方法，将(a)(b)联合作为约束条件添加到增强的频谱中，得到最终增强的谱，下式：

(13)

通过对做逆DFT变换得到最终增强的语音信号。

本发明的有益效果是：将本方法应用于拾音器中，相比已有的均方预测误差和预白化子空间方法，该方法处理后的语音更平滑，与纯净语音更接近；在低信噪比及复杂噪声的情况下，该拾音器对语音处理速度更快，编解码效率高，降噪性能更好，且鲁棒性更强。同时，在距离较远的环境下，语音也有较好的识别效果。

附图说明

图1是本发明不同谱估计的带噪语音功率谱图。

图2是本发明基于小波阈值多窗口和约束维纳滤波的语音增强流程图。

图3是本发明不同算法处理后语音信号的时域波形图。

具体实施方式

为了更好地理解本发明，下面结合实施例进一步阐明本发明的内容，但本发明的内容不仅仅局限于下面的实施例。本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样在本申请所列权利要求书限定范围之内。

本发明提供的一种用于拾音器的多窗谱估计的维纳滤波语音增强方法，该方法先将带噪语音进行多窗口谱估计，再通过小波阈值去除噪声项得到近似纯净的语音谱；然后与维纳滤波处理后的语音谱相比较，根据不同的失真类型选择相应的谱作为最终增强的语音谱。

所述多窗口谱估计的步骤如下：

1）多窗口谱估计定义如下：

(1)

其中，M是数据窗个数，第i个数据窗谱定义如下：

(2)

其中，为第i个带噪语音的数据窗谱，N是带噪语音信号的长度，为带噪语音帧序列，是第i个正弦的正交窗。

正交窗定义如下：

(3)

(4)

两边同时取对数，可得

(5)

可将(5)式看成带噪语音模型，其表示纯净语音与噪声之和。其中，将作为带噪语音，和分别为纯净语音和噪声项，是均值为、方差为的分布，和分别表示双伽玛函数和3阶伽玛函数。当时，是近似的正态分布。若将L取最小值5，根据正态分布的特性：

(6)

此时，近似为均值0、方差为的正态分布。

如果将定义如下：

(7)

然后，

(8)

上式可将看成多窗口功率谱的对数加上一个常数，可作为纯净语音，作为噪声项。针对(8)，通过小波去噪技术去除噪声项并且能得到一个最佳的对数谱估计。

总结以上的推导，小波阈值多窗口谱的具体实现步骤如下：

1）通过(1)(2)(3)式得到多窗口功率谱，通过(7)式计算；

图1为使用周期图法、多窗口功率谱估计方法和小波阈值多窗口功率估计方法估计的带噪语音功率谱。

纯净语音和增强后的带噪语音之间存在着失真，不同类型的失真对语音质量的影响也不同。为了得到舒适的声音，首先需要将纯净语音谱和增强后的带噪语音谱相比较，然后根据比较结果添加合适的约束条件。然而，纯净的语音几乎是不存在的，由于多窗口谱估计有较小的误差和方差特性，可以估计出近似的带噪语音模型，进一步通过小波阈值技术去除噪声项得到纯净的语音。同时，在较低的信噪比条件下，维纳增益函数在抑制噪声的同时有较小的失真。因此，也可以将维纳滤波应用在带噪语音信号处理中。

本文语音增强算法的流程图如图2。

该算法可以通过下面的步骤来实现：

2）将DFT后的子帧进行多窗口谱估计，得到带噪语音模型；通过(1)式计算带噪语音信号z的多窗口功率谱；是噪声的多窗口功率频谱，在语音帧丢失时通过噪声样本采集来获得，数据窗个数M为16。纯净语音信号的多窗口功率谱通过：

(9)

其中，为频谱因子，值为0.002。

3）通过(7)式计算，然后采用5级离散小波变换，每一级分别可得到经验的DWT系数，对小波系数做阈值处理，阈值处理后的小波系数通过逆离散小波变换得到带噪语音增强的谱对数，重复上面的步骤得到精确的噪声信号对数谱。纯净语音信号的估计功率频谱，通过下式：

(10)

4）DFT后的带噪语音信号通过噪声估计和维纳滤波；表示在时间t和频率下带噪语音谱幅度，然后通过给频谱幅度乘上一个增益函数得到估计的信号频谱，。该增益函数是基于先验的信噪比的维纳增益函数，下式：

(11)

其中是采用直接决策方法的先验信噪比估计：

(12)

其中是背景噪声的功率谱密度估计，是平滑系数（通常设置）。

(a)当时，幅度谱，此时为衰减失真，(b)当时，幅度谱，此时为不超过6dB的放大失真；(c)当时，幅度谱，此时为放大失真且失真超过6dB。为了使语音信号在噪声环境下有较好的鲁棒性，同时有较高的可懂性，在这里提出改进方法，将(a)(b)联合作为约束条件添加到增强的频谱中，得到最终增强的谱，下式：

(13)

通过对做逆DFT变换得到最终增强的语音信号。

以下为实验仿真与分析。通过三个仿真实验，对比得出本发明的语音增强方法与现有技术相比具有较好的效果。

仿真实验中，选用一段标准的语音作为纯净语音，白噪声，坦克噪声，f16噪声作为干扰噪声，纯净语音和噪声叠加后的带噪语音信号作为输入语音信号。语音信号采样率设置为8kHz，采样点为256个，采用汉明窗对语音分帧，假设起始的四帧是只包含噪声的帧，每帧长为20ms，帧移为10ms，每个子帧进行160点的离散傅里叶变换。采用MSCEP和PSS算法作为对比算法。

实验一，从语音的时域角度检验增强算法的性能，将纯净语音与白噪声叠加作为输入信号。从图3可以看出，相比于MSCEP和PSS算法，该算法波形保持更完整，残余噪声更小。

实验二，将白噪声，坦克噪声和f16噪声分别与纯净的语音信号相叠加作为输入信号，比较在相同信噪比（0dB），不同的噪声环境下算法的性能，使用MSCEP，PSS和本文算法处理这三种带噪信号，采用主观语音质量评估(Perceptualevaluationofspeechquality,PESQ)，的测试结果如表1所示。在不同的噪声环境下，从语音听觉质量角度看，本文算法取得了较好的效果。

表1相同信噪比下不同算法处理后的PESQ分值

实验三，从噪声强度角度，比较三种算法处理后的信噪比SNR，从表2中可以看出，在不同信噪比条件下，该算法处理后SNR比MSCEP和PSS算法有明显提高。

表2不同噪声强度下经增强算法处理后的信噪比

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，该方法先将带噪语音进行多窗口谱估计，再通过小波阈值去除噪声项得到近似纯净的语音谱；然后与维纳滤波处理后的语音谱相比较，根据不同的失真类型选择相应的谱作为最终增强的语音谱。

2.根据权利要求1所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，所述多窗口谱估计的步骤如下：

1）多窗口谱估计定义如下：

(1)

其中，M是数据窗个数，第i个数据窗谱定义如下：

(2)

正交窗定义如下：

(3)

(4)

两边同时取对数，可得

(5)

(6)

此时，近似为均值0、方差为的正态分布，

如果将定义如下：

(7)

然后，

(8)

3.根据权利要求2所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，小波阈值多窗口谱的具体实现步骤如下：

1）通过(1)(2)(3)式得到多窗口功率谱，通过(7)式计算；

4.根据权利要求2所述的用于拾音器的多窗谱估计的维纳滤波语音增强方法，其特征在于，该算法能够通过下面的步骤来实现：

(9)

其中，为频谱因子，值为0.002；

(10)

(11)

其中是采用直接决策方法的先验信噪比估计：

(12)

(13)

通过对做逆DFT变换得到最终增强的语音信号。