CN103903630A

CN103903630A - 一种用于消除稀疏噪声方法及装置

Info

Publication number: CN103903630A
Application number: CN201410101764.XA
Authority: CN
Inventors: 李健; 吴飞; 张连毅; 武卫东
Original assignee: JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Current assignee: JIETONG HUASHENG SPEECH TECHNOLOGY Co Ltd
Priority date: 2014-03-18
Filing date: 2014-03-18
Publication date: 2014-07-02

Abstract

本发明公开了用于消除稀疏噪声的方法，该方法包括将现有的用于高斯噪声信号估计的系统噪声模型进行修改，在量测噪声向量中增加一量测稀疏噪声的量n_s(k)；采用凸优化形式，将所述增加了n_s(k)的系统噪声模型转化得到目标函数f(n_s(k))，以对稀疏噪声进行估计；将所述目标函数转化成标准的l₁-l₂范数形式F(n_s(k))；采用数值迭代算法PCD去计算F(n_s(k))的最优解，从而估计出稀疏噪声值；基于所估计出的稀疏噪声值更新滤波器值，去除语音信号中的稀疏噪声，输出干净语音信号。本发明还提供一种用于消除稀疏噪声的装置。使用该发明，能很好的估计和去除语音前端存在的稀疏噪声，计算处理速度快，适合于实际应用，得到很好的语音信号估计，且可明显提高语音识别的准确率。

Description

一种用于消除稀疏噪声方法及装置

技术领域

本发明涉及语音信号处理技术领域，具体地说，涉及一种用于消除稀疏噪声的方法及装置。

背景技术

在语音识别的前端处理中，去噪和抗噪是最关键的处理步骤，通过语音增强对各种坏境噪声抑制、消除，降低噪声对语音信号输入的干扰，得到所需的纯净且高质量的语音信号。一般去噪滤波方法都是针对一般的高斯白噪声，对于实际坏境中的稀疏噪声，譬如像脉冲噪声、尖端噪声等满足大部分时间为0、偶尔出现一些幅值大于0(相当于满足拉普拉斯分布)的噪声，需要另行采用方法进行处理。

在语音识别的前段数据采集过程中，语音信号通常被各种噪声所污染，存在的噪声影响人的主观感受和声音质量，因此，在语音识别过程中通过语音增强去除噪声变的非常重要。

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。一句话，从含噪语音中提取尽可能纯净的原始语音。

传统的语音增强算法是谱减法、维纳滤波法等。对带噪语音运用谱减法就是从输入信号的谱中减去估计的噪声谱，谱减法算法简单，较容易实现，但只适用于平稳噪声，而且会产生“音乐噪声”，影响了人的主观感受。维纳滤波受限于平稳条件的约束，具有一定的局限性。现实中，语音和噪声都是非平稳的。对于解决非平稳的信号，卡尔曼滤波是语音增强的又一基本方法，但是只能对带有高斯噪声的信号做出最优估计，针对现实中存在一些瞬间的稀疏噪声，一般卡尔曼滤波不能很好的解决。

在现有研究中也提出了基于凸优化理论的鲁棒卡尔曼方法，将语音增强问题转化成凸优化形式，利用鲁棒卡尔曼算法解决语音前端的稀疏噪声问题。已有的研究中用到的SSF（代理函数分离）法存在许多的不完善，比如在实际工程应用中上述凸优化形式运行速度很慢，因此，需要找到一个更有效的数值方法。

发明内容

本发明提供一种用于消除稀疏噪声方法机装置，可快速高效地估算出稀疏噪声。

本发明提供的一种用于消除稀疏噪声方法，包括：

将现有的用于高斯噪声信号估计的系统噪声模型进行修改，在量测噪声向量中增加一量测稀疏噪声的量n_s(k)；

采用凸优化形式，将所述增加了n_s(k)的系统噪声模型转化得到目标函数f(n_s(k))，以对稀疏噪声进行估计；

将所述目标函数转化成标准的l₁-l₂范数形式F(n_s(k))；

采用数值迭代算法PCD去计算F(n_s(k))的最优解，从而估计出稀疏噪声值；

基于所估计出的稀疏噪声值更新滤波器值，去除语音信号中的稀疏噪声，输出干净语音信号。

本发明提供的一种用于消除稀疏噪声的装置，包括：

稀疏噪声设置模块，用于将现有的用于高斯噪声信号估计的系统噪声模型进行修改，在量测噪声向量中增加一量测稀疏噪声的量n_s(k)；

第一转化模块，用于采用凸优化形式，将所述增加了n_s(k)的系统噪声模型转化得到目标函数f(n_s(k))，以对稀疏噪声进行估计；

第二转化模块，将所述目标函数转化成标准的l₁-l₂范数形式F(n_s(k))；

计算模块，采用数值迭代算法PCD去计算F(n_s(k))的最优解，从而估计出稀疏噪声值。

使用该发明，能很好的估计和去除语音前端存在的稀疏噪声，计算处理速度快，适合于实际应用，得到很好的语音信号估计，且可明显提高语音识别的准确率。

附图说明

图1为本发明提供的用于消除稀疏噪声的方法流程图；

图2为语音增强问题模型示意图；

图3为本发明提供的一种用于消除稀疏噪声的装置示意图；

图4所示为连续语音识别框图；

图5所示为去噪算法流程图；

图6为纯净语音信号加噪声信号图；

图7为本发明提供的PCD算法估计出的语音信号示意图；

图8为采用本发明提供的PCD迭代算法估计出的稀疏噪声示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。其他实施方案可以包括结构的、逻辑的、电气的、过程的以及其他的改变。实施例仅代表可能的变化。除非明确要求，否则单独的组件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，本发明的这些实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。

在语音识别的前端处理中，去噪和抗噪是最关键的处理步骤，通过语音增强对各种坏境噪声抑制、消除，降低噪声对语音信号输入的干扰，得到我们所需的纯净且高质量的语音信号。一般去噪滤波方法都是针对一般的高斯白噪声，对于实际坏境中的稀疏噪声，本发明也能针对性的消除和抑制。本发明中采用PCD（平行坐标下降法）一种有效迭代算法去实现估计稀疏噪声，得到更纯净的语音信号，为后续语音识别准确率的提高提供了可靠的技术手段。所谓坐标下降法是一种非梯度优化算法，为了找到一个函数的局部极小值，在每次迭代中可以在当前点处沿一个坐标方向进行一维搜索，在整个过程中循环使用不同的坐标方向，一个周期的一维搜索迭代过程相当于一个梯度迭代。

为了针对性的消除和抑制稀疏噪声，本发明中采用PCD（平行坐标下降法）一种有效迭代算法去实现估计系数噪声，得到更纯净的语音信号，为后续语音识别准确率的提高提供了可靠的技术手段。

如图1所示，本发明提供的一种用于消除稀疏噪声方法，包括如下步骤：

S101，将现有的用于高斯噪声信号估计的系统噪声模型进行修改，在量测噪声向量中增加一量测稀疏噪声的量n_s(k)；

S102，采用凸优化形式，将所述增加了n_s(k)的系统噪声模型转化得到目标函数f(n_s(k))，以对稀疏噪声进行估计；

S103，将所述目标函数转化成标准的l₁-l₂范数形式F(n_s(k))；

S104，采用数值迭代算法PCD去计算F(n_s(k))的最优解，从而估计出稀疏噪声值；

S105，基于所估计出的稀疏噪声值更新滤波器值，去除语音信号中的稀疏噪声，输出干净语音信号。

下面结合附图对本发明的原理、特性进行描述。

图2为语音增强问题模型示意图，语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。也就是从含噪语音中提取尽可能纯净的原始语音。如图2所示，语音增强的目标是设计一个滤波器，在给定条件下：语音信号和噪声信号满足y_X＝y_S+y_N，产生一个语音信号y_S的估计

最终的目的和结果是得到最高可信度和信噪比（SNR）的语音估计信号。描述的这个语音质量的标准是：真实值与估计值偏差e的均方值达到最小。

实际语音增强中采用各种滤波算法都是为了更好的估计语音信号y_S，传统卡尔曼滤波是语音增强的基本方法，通过状态的估计的更新得到更准确的语音信号

卡尔曼滤波是以最小均方误差为估计的最佳准则，来寻求一套递推估计的算法，其基本思想是：采用信号与噪声的状态空间模型，利用前一时刻的估计值和现时刻的观测值来更新对状态变量的估计，求出现时刻的估计值。它适合于实时处理和计算机运算。

卡尔曼滤波的基本特征之一是利用状态方程和测量方程来描述随机系统。针对语音信号的处理，一般以帧为单位，假设在每帧中语音信号是平稳的。语音信号可以用自回归AR模型来表示，其中所有的AR参数在语音段中保持不变。结合语音生成全极点模型，可以把语音模型转化成状态空间的形式。语音信号在k时刻的表示s(k)：

其中a_i，i＝1,…,p是AR模型参数，p是AR参数的阶数，u(k)是高斯白噪声。然后，我们再把上式转化下面的状态空间模型：x(k)＝Ax(k-1)+Bu(k)其中状态向量x(k)，状态转移矩阵A以及输入矩阵B分别为：x(k)＝[s(k),s(k-1),...,s(k-p+1)]^T

A = [\begin{matrix} {- a}_{1} & {- a}_{2} & \cdot \cdot \cdot & {- a}_{p} \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ 0 & 1 & \cdot \cdot \cdot & 0 \\ 0 & \cdot \cdot \cdot & 1 & 0 \end{matrix}]

B＝[1 0 … 0]^T

实际中语音信号是带有量测噪声的，其模型为y(k)＝s(k)+n(k)观测噪声n(k)也满足

的高斯分布，与状态变量一样，上式也可以用状态空间模型来表示：y(k)＝Cx(k)+n(k)其中C＝[1 0 … 0]为量测矩阵。

在语音增强问题上，都是在得到{y(1),y(2),…,y(k)}量测数据后去估计实际的状态值x(k)，针对语音信号的状态空间模型，可采用下面传统的卡尔曼系统模型解决形式。

（一）传统卡尔曼滤波

传统卡尔曼系统模型定义为：

X(k+1)＝F(k)X(k)+V(k)

Z(k+1)＝H(k+1)X(k+1)+W(k) （1）

其中k是时间序列，F和H分别是状态转移矩阵和量测矩阵；X(k)∈Rⁿ是状态向量，Z(k)∈R^m是量测向量。V(k)∈Rⁿ和W(k)∈R^m分别为过程噪声和量测噪声，满足零均值的高斯分布。其协方差矩阵分别为Q和R。

传统卡尔曼滤波的状态估计为：

\overset{Λ}{X} (k + 1 | k + 1) = F (k) \overset{Λ}{X} (k | k) + K (k + 1) (Z (k + 1) - H (k + 1) F (k) \overset{Λ}{X} (k | k)) - - - (2)

最优滤波增益矩阵为：

K(k+1)＝P(k+1|k)H(k+1)^T(H(k+1)P(k+1|k)H(k+1)^T+R(k))^-1 （3）

预测协方差阵为：

P(k+1|k)＝F(k)P(k|k)F(k)^T+Q(k) （4）

滤波误差协方差阵为：

P(k+1|k+1)＝(I-K(k+1)H(k+1))P(k+1|k) （5）

上述(2)至(5)式即组成了卡尔曼滤波的逆推公式，只要给定状态估计初始值

和协方差矩阵P(0|0)，上面的滤波逆推过程就可以启动。只是过程噪声和量测噪声一般都只满足高斯白噪声分布。其中状态估计

就是我们问题模型想要得到的语音信号

（二）鲁棒卡尔曼滤波解决稀疏噪声问题

将传统的卡尔曼滤波逆推过程通过变换转换成二次优化形式，通过二次优化形式得到所要的p(X(k)|Z(k))的最优估计形式：

\begin{matrix} \min imize & W^{T} (k) R^{- 1} W (k) + {(X (k) - \hat{X} (k | k - 1))}^{T} Σ^{- 1} (X (k) - \hat{X} (k | k - 1)) \\ subjectto & Z (k) = HX (k) + W (k) \end{matrix} - - - (6)

上述利用凸优化技术求解估计值，其解决形式可以利用cvx工具有效求解。所述凸优化技术是指一种比较特殊的优化处理技术，是指目标函数为凸函数且由约束条件得到的定义域为凸集的优化问题。式中X(k)和W(k)是变量，Σ是预测状态协方差，X(k)的估计值即是

W(k)就是对一般量测噪声的估计。W^T(k)R^-1W(k)是根据量测噪声所作的补偿，上式中

{(X (k) - \hat{X} (k | k - 1))}^{T} Σ^{- 1} (X (k) - \hat{X} (k | k - 1))

是根据先验信息对状态所得到的补偿。

针对语音识别前端稀疏噪声的存在，传统卡尔曼的系统模型需要做些修改，增加一个另外的量测稀疏噪声，其形式如下：

X(k+1)＝FX(k)+V(k)

Z(k)＝HX(k)+W(k)+n_s(k) （7）

为了处理这个增加的稀疏噪声n_s(k)，继续采用凸优化形式，通过l₁来处理稀疏噪声。根据鲁棒卡尔曼对应的优化形式继续转化：

\begin{matrix} \min imize & W^{T} (k) R^{- 1} W (k) + {(X (k) - \hat{X} (k | k - 1))}^{T} Σ^{- 1} (X (k) - \hat{X} (k | k - 1)) \\ + λ {| | n_{s} (k) | |}_{1} \\ subjectto & Z (k) = HX (k) + W (k) + n_{s} (k) \end{matrix} - - - (8)

其中变量为X(k)，W(k)，n_s(k)，前面两个变量如上节描述，n_s(k)得到的估计即是对稀疏噪声的估计。

上面的形式仍可继续转换成简单的形式,最后得到二次优化的有效等价形式表达式：

minimize (e(k)-n_s(k))^TQ_s(e(k)-n_s(k))+λ||n_s(k)||₁ （9）

其中

Q_s＝(I-HL)^TR^-1(I-HL)+L^TΣ^-1L，FP(k-1|k-1)F^T+Q＝Σ上面形式中n_s(k)是对稀疏噪声的估计，也是唯一的变量，最后的估计形式

X (k) = \hat{X} (k | k - 1) + L (e (k) - n_{s} (k))

等价于

参数λ≥0根据稀疏噪声的稀疏性自行调整，达到最佳估计。当λ足够大时，最优形式为n_s(k)＝0，等价于前节提到的传统卡尔曼优化形式，因此传统卡尔曼是鲁棒卡尔曼优化形式的一种特例。上面的二次优化解决形式已经能很好的在有稀疏噪声的情形下估计出状态值，但是实际工程应用中上述凸优化形式运行速度很慢，还需要找到一个更有效的数值方法去计算上面这个优化形式。

（三）数值迭代算法PCD改进

这里需要考虑将二次优化形式转化为基于l₁-l₂的最优化问题，本发明将重点阐述这种有效的迭代计算形式去解决二次优化的估计和计算速度问题。将（9）式转化下面的目标函数形式：

f(n_s(k))＝||x-An_s(k)||₂ ²+λ||n_s(k)||₁ （10）

其中x＝Q_s ^1/2e(k)，A＝Q_s ^1/2现在是找到f(n_s(k))的最优形式，前面提到这里用一种数值迭代算法PCD解决。首先我们把上面的目标函数转化成标准的l₁-l₂形式：

F (n_{s} (k)) = \frac{1}{2} f (n_{s} (k)) = \frac{1}{2} {| | x - {An}_{s} (k) | |}_{2}^{2} + \frac{λ}{2} {| | n_{s} (k) | |}_{1} - - - (11)

其中

λ_{new} = \frac{λ}{2},

然后得到

F (n_{s} (k)) = \frac{1}{2} {| | x - {An}_{s} (k) | |}_{2}^{2} + λ_{new} {| | n_{s} (k) | |}_{1},

考虑这个形式，增加变量z₀，矩阵A拆开k列表示，等价变换上面公式，得到下式：

g (n_{s} (k)) = \frac{1}{2} {| | x - {Az}_{0} - α_{k} (n_{s} (k) - z_{0} [k]) | |}_{2}^{2} + λ_{new} {| | n_{s} (k) | |}_{1} - - - (12)

其中向量α_k是A的第k列，式子α_k(n_s(k)-z₀[k])去除了原值的影响，同时增加了新值，上式等价于下式：

g (n_{s} (k)) = \frac{1}{2} {| | α | |}_{2}^{2} . {(n_{s} (k) - n_{s} {(k)}_{0})}^{2} + λ_{new} | n_{s} (k) | - - - (13)

其中定义n_s(k)₀为

根据这种形式可以根据标量函数g(τ)＝0.5(τ₀-τ)²+ν|τ|的最优解形式：

τ_{opt} = S_{v} (τ_{0}) = \{\begin{matrix} 0 & | τ_{0} | \leq v \\ τ_{0} - sign (τ_{0}) v & otherwise \end{matrix}\} - - - (14)

得到13式的最优解形式为：

{z_{k}}^{opt} = S_{n_{s} (k) / {| | α_{k} | |}_{2}^{2}} (\frac{{α_{k}}^{T} (x - {Az}_{0})}{{| | α_{k} | |}_{2}^{2}} + z_{0} [k]) - - - (15)

因为稀疏噪声这里是低维的，所以上面的数值迭代算法计算量很小，有效的迭代计算求取二次优化的最优解，效率和速度都比一般的凸优化要快，具有有效的实用性。

基于上述理论，稀疏噪声采用l₁范数表示，通过凸优化的二次优化形式转化成l₁-l₂的最优化问题，然后采用一种有效的数值迭代算法PCD计算估计稀疏噪声，得到需要的语音信号状态估计值p(X(k)|Z(k))。即语音增强问题所需要解决和估计的语音信号y_S的估计

图3所示为本发明提供的一种用于消除稀疏噪声的装置300，包括：

稀疏噪声设置模块310，用于将现有的用于高斯噪声信号估计的系统噪声模型进行修改，在量测噪声向量中增加一量测稀疏噪声的量n_s(k)；

第一转化模块320，用于采用凸优化形式，将所述增加了n_s(k)的系统噪声模型转化得到目标函数f(n_s(k))，以对稀疏噪声进行估计；

第二转化模块330，将所述目标函数转化成标准的l₁-l₂范数形式F(n_s(k))；

计算模块340，采用数值迭代算法PCD去计算F(n_s(k))的最优解，从而估计出稀疏噪声值。

实际语音信号中存在的尖端噪声，通过本发明的滤波器能很好的去除，得到较纯净的语音信号。图4所示为连续语音识别框图。本发明用在语音识别的前端处理中，下面针对语音识别中的实际应用实例，给出相关实现的流程。

语音数据（声音文件）做预处理的第一步就是去噪，本发明针对性的去除常见的稀疏噪声，同时能对一般的噪声进行过滤。

图5所示为去噪算法流程图。

本发明噪声的消除能够针对性的去噪稀疏噪声，下面继续通过实际语音数据来展示其性能，分别给出原始纯净语音数据，含一般噪声和稀疏噪声的数据，然后通过本发明的滤波方法得到过滤后的语音数据与原始语音数据对比，说明本发明的有效性，另外再根据原始的稀疏噪声分布和估计出的稀疏噪声分布对比，发现PCD估计的稀疏噪声和实际产生的稀疏噪声的位置以及幅值也基本偏差不多，得出本发明去除稀疏噪声的鲁棒性。

图6为纯净语音信号加噪声信号图。

图7为本发明提供的PCD算法估计出的语音信号示意图。

图示能够很明显的得出本发明去噪的有效性，针对一般鲁棒卡尔曼中采用cvx工具去求凸优化问题的最优解，一般需要迭代多次才能收敛，速度很慢，无法工程使用。本发明中提出的PCD迭代算法针对低维数据（稀疏噪声这里是一维的）迭代的快速性，通过下面的对比数据可以反映，在单次滤波迭代对比测试中，可以得到如下数据：

单次滤波迭代时间对比

	鲁棒卡尔曼滤波	PCD迭代
			时间消耗(s)	43.8039	0.3212

通过测试可以看出在测试中单次滤波采用PCD迭代算法的时间明显比鲁棒卡尔曼的cvx估计方法快很多，可以得出本发明的PCD迭代算法可以有很好的工程实用性。

综述所述，采用本发明，可以实现有效去除现实语音前端中存在的稀疏噪声，提高语音识别的准确率，而且提供了一种有效的数值迭代算法PCD，利于工程上的使用和处理。

由于本发明是基于传统卡尔曼的基础上做的改进和扩展，本就吸取卡尔曼实时性强的特点（卡尔曼滤波是一种递归估计，它使用时不需要记录观测或者估计的历史信息，只要获知上一时刻状态的估计值以及当前状态的观测值就可以计算出当前时刻状态的估计值，因此计算量小和存储数据较小），加上对传统卡尔曼模型的修改（引入稀疏噪声），优化改进状态估计的形式，使其对高斯和稀疏噪声的估计更加鲁棒，最后结合一种有效数值迭代算法PCD去解决l₁-l₂的最优化问题，最后使在工程上去除稀疏噪声和高斯噪声变成现实。语音前端噪声消除的极大化，为后续的语音识别的准确率的提高提供了更现实的基础。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

本发明虽然以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以做出可能的变动和修改，因此本发明的保护范围应当以本发明权利要求所界定的范围为准。