CN102637438A

CN102637438A - 一种语音滤波方法

Info

Publication number: CN102637438A
Application number: CN2012100815060A
Authority: CN
Inventors: 罗怡桂; 张晨曦; 林秀
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2012-03-23
Filing date: 2012-03-23
Publication date: 2012-08-15
Anticipated expiration: 2032-03-23
Also published as: CN102637438B

Abstract

本发明涉及一种语音滤波方法，包括以下步骤：1)采集带噪声的语音信号作为输入信号；2)采用功率谱相减法对输入信号进行初步去噪处理；3)对初步去噪后的语音信号采用二阶扩展卡尔曼滤波算法进行消噪处理；4)对步骤3)处理后的语音信号采用二阶扩展卡尔曼平滑算法消去尖峰毛刺；5)判断经步骤4)处理后的语音信号是否收敛，若为是，则输出该语音信号，若为否，则对所述的语音信号进行平方根扩展卡尔曼滤波后执行步骤6)；6)判断进行平方根扩展卡尔曼滤波后的语音信号是否收敛，若为是，则输出该语音信号，若为否，则通过增益矩阵加权的方法得到收敛的语音信号，并输出。与现有技术相比，本发明具有噪声小、信号收敛性好等优点。

Description

一种语音滤波方法

技术领域

本发明涉及一种语音滤波方法，尤其是涉及一种基于改进的卡尔曼滤波算法的语音滤波方法。

背景技术

语音增强算法中一个很重要的问题是噪音估计问题。基于语音活动检测(VoiceActivity Detection，VAD)和最小值统计跟踪两种噪音估计方法是都是较好的噪音估计方法，对噪声功率谱有较好的整型效果，使得增强后的语音具有较好的听觉效果。另一个重要的问题是如何有效地去除噪声信号，以得到较好的语音增强效果。扩展卡尔曼滤波算法是一种良好的非平稳噪声环境下的语音增强算法，具有良好的语音增强效果，在语音的信噪比、可懂度、舒适度方面都有所提高，同时降低语音信号的失真度。

VAD用于判断语音信号有声段和无声段，是常用的语音信号处理技术，通过与门限阈值的比较，来检测有声段和无声段。最小值统计跟踪方法相比于VAD可以较快地跟踪变化的噪音，以判断有声段与无声段，应用最小值统计跟踪方法进行参数估计可以获得较好的噪声谱估计值。

大部分的语音活动检测判决都是基于背景噪声是平稳的这种假设之上的，但在不断变化的语音和背景噪声的实际环境中，语音活动检测就很难找到一个或一系列数值作为判断有声段和无声段的门限阈值，使得这种判断方法变得复杂，也对噪声谱的估计造成了影响。在复杂度背景噪声环境下，噪声具有随机非平稳性且语音停顿阶段或者语音微弱时，带噪声语音功率谱不是噪音功率谱，在上面这种情况下，应用最小值统计跟踪方法时带噪声语音功率谱的估计值就会产生较大的误差。扩展卡尔曼滤波由于误差的影响可能出现滤波发散的问题，采用平方根卡尔曼滤波可以抑制滤波发散，但不能完全保证滤波的收敛性。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种噪声小、信号收敛性好的语音滤波方法。

本发明的目的可以通过以下技术方案来实现：

一种语音滤波方法，包括以下步骤：

1)采集带噪声的语音信号作为输入信号；

2)采用功率谱相减法对输入信号进行初步去噪处理；

3)对初步去噪后的语音信号采用二阶扩展卡尔曼滤波算法进行消噪处理；

4)对步骤3)处理后的语音信号采用二阶扩展卡尔曼平滑算法消去尖峰毛刺；

5)判断经步骤4)处理后的语音信号是否收敛，若为是，则输出该语音信号，若为否，则对所述的语音信号进行平方根扩展卡尔曼滤波后执行步骤6)；

6)判断进行平方根扩展卡尔曼滤波后的语音信号是否收敛，若为是，则输出该语音信号，若为否，则通过增益矩阵加权的方法得到收敛的语音信号，并输出。

语音信号是否收敛的判断条件为：

ε^T(k)ε(k)＝Tr{E[ε^T(k)ε(k)]}

其中，ε(k)为白噪声序列，Tr为矩阵迹，ε^T(k)ε(k)是新息序列的平方和，表示实际估计误差，E表示求矩估计，Tr{E[ε^T(k)ε(k)]}是新息序列的协方差矩阵的迹，表示理论误差。

步骤6)中增益矩阵加权递归到不满足滤波收敛的条件时，增益矩阵就保持常数不变，直到重新满足滤波收敛的条件为止。

与现有技术相比，本发明采用二阶扩展卡尔曼滤波与二阶扩展卡尔曼平滑的方法使得语音信号逼近二阶精度，在滤波发散问题上，采用平方根卡尔曼滤波算法和增益矩阵加权的方法可以使滤波具有较好的稳定性和收敛性。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种语音滤波方法，包括以下步骤：

步骤S1：采集带噪声的语音信号作为输入信号；

步骤S2：采用功率谱相减法对输入信号进行初步去噪处理；

步骤S3：对初步去噪后的语音信号采用二阶扩展卡尔曼滤波算法进行消噪处理；

步骤S4：对步骤S3处理后的语音信号采用二阶扩展卡尔曼平滑算法消去尖峰毛刺；

步骤S5：判断经步骤S4处理后的语音信号是否收敛，若为是，则执行步骤S9输出该语音信号，若为否，则执行步骤S6：

步骤S6：对语音信号进行平方根扩展卡尔曼滤波后执行步骤S7；

步骤S7：判断进行平方根扩展卡尔曼滤波后的语音信号是否收敛，若为是，则执行步骤S9输出该语音信号，若为否，则执行步骤S8通过增益矩阵加权的方法得到收敛的语音信号，然后执行步骤S9输出语音信号。

语音信号是否收敛的判断条件为：

ε^T(k)ε(k)＝Tr{E[ε^T(k)ε(k)]}

其中，k为语音样本序号，语音信号的新息序列，ε(k)为白噪声序列，Tr为取矩阵迹，ε^T(k)ε(k)是新息序列的平方和，E表示求期望值。

步骤6)中增益矩阵加权递归到不满足滤波收敛的条件时，增益矩阵就保持常数不变，直到重新满足滤波收敛的条件为止，对矩阵参数和收敛条件的推导基于扩展卡尔曼滤波的假设条件，推导过程如下：

E[ε(k)^Tε(k)]＝H(k)P(k|k-1)H(k)^T+R_k

Tr [ϵ {(k)}^{T} ϵ (k)] = Tr {E [{(ϵ)}^{T} ϵ (k)]} = Tr {[H (k) P (k | k - 1) H {(k)}^{T} + \frac{R}{α^{2 k}}]}

R＝R_k/α^zk

α^2k Tr[ε(k)^Tε(k)]＝Tr{H(k)α^2k P(k|k-1)H(k)^T+R}

α^{2 k} = \frac{Tr [R]}{Tr [ϵ {(k)}^{T} ϵ (k)] - Tr {H (k) P (k | k - 1) H {(k)}^{T}}

其中，H为观测模型，P表示增益矩阵，R为观测噪声方差，α大于1时，随着时间k的增加，R_k逐渐减小，P_k逐渐增大，这时信号估计值将发散，此时可固定P_k，使得收敛条件ε^T(k)ε(k)＝Tr{E[ε^T(k)ε(k)]}得到满足，从而使得信号值收敛。

利用MATLAB对本发明进行实验仿真，并通过与已有的两种语音增强算法(功率谱相减法和扩展卡尔曼滤波算法)做比较，实验的说话人纯净语音来源于IEEE语音库，并在完全隔音的室内使用Tucker Davis Technologies(TDT)设备录制的纯净语音。噪音库包含30个IEEE语句(3名男士和3名女士)，其包括6种不同的噪音类型，包括人群噪声(Babble)、机场噪声(Airport)、展览馆噪声(ExhibitionHall)、街道噪声(Street)、火车噪声(Train)、餐馆噪声(Restaurant)。将六种噪音信号以0dB，5dB，10dB，15dB四种信噪比(Signal Noises Ratio，SNR)人工加到纯净语音信号中，得到具有4种不同的信噪比的带噪声语音信号。单个输入语音是单声道编码且语音时长约为2.5秒的内容不同的语音。本文语音信号采用采样频率是8KHz，量化位数是16Bits的单通道语音信号。在预加重子模块采用的预加重因子为0.97，分帧帧宽是25ms，帧移为10ms，在预处理阶段采用汉明窗来减小语音帧的截断效应。

在不同信噪比的机场噪声(Airport)环境下，应用三种方法的分段信噪比如下表所示：

本发明使得语音信号具有较高的分段信噪比，可以较好地提高语音的音质。

Claims

1.一种语音滤波方法，其特征在于，包括以下步骤：

1)采集带噪声的语音信号作为输入信号；

2)采用功率谱相减法对输入信号进行初步去噪处理；

2.根据权利要求1所述的一种语音滤波方法，其特征在于，语音信号是否收敛的判断条件为：

ε^T(k)ε(k)＝Tr{E[ε^T(k)ε(k)]}

其中，ε(k)为白噪声序列，Tr为矩阵迹，ε^T(k)ε(k)是新息序列的平方和，表示实际估计误差，E表示求期望值，Tr{E[ε^T(k)ε(k)]}是新息序列的协方差矩阵的迹，表示理论误差。

3.根据权利要求1所述的一种语音滤波方法，其特征在于，步骤6)中增益矩阵加权递归到不满足滤波收敛的条件时，增益矩阵就保持常数不变，直到重新满足滤波收敛的条件为止。