CN102938254A

CN102938254A - 一种语音信号增强系统和方法

Info

Publication number: CN102938254A
Application number: CN2012104102128A
Authority: CN
Inventors: 张宁; 马峰; 戴礼荣; 凌震华
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2012-10-24
Filing date: 2012-10-24
Publication date: 2013-02-20
Anticipated expiration: 2032-10-24
Also published as: CN102938254B

Abstract

本发明公开了一种语音信号增强系统和方法，方法包括如下步骤：将输入信号通过自适应滤波器进行滤波得到语音参考信号，利用阻塞矩阵对输入信号进行噪声提取处理，得到噪声参考信号；将噪声参考信号和语音参考信号通过多通道维纳滤波进行滤波得到降噪语音信号；根据噪声参考信号对降噪语音信号进行语音增强处理，得到增强语音信号和语音存在概率信号；根据语音存在概率信号对自适应匹配滤波器的滤波系数、阻塞矩阵、多通道维纳滤波器的滤波系数和学习步长进行更新。本发明在麦克风阵列比较简单的情况下，很好地克服在实际应用环境下对目标源实时跟踪的收敛不能保证、速度慢和实时增强失真大等问题。

Description

一种语音信号增强系统和方法

技术领域

本发明属于信号处理技术领域，具体涉及语音信号的增强处理，特别是一种语音增强系统和方法。

背景技术

语音增强是指当语音信号被各种各样的噪声干扰后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音，改进语音质量。随着数字信号处理理论成熟和硬件计算能力的大幅提升，使得基于麦克风阵列语音增强性能和实时性得以保证。

传统的广义旁瓣消除语音增强法必须已知准确的目标源方位角，用线性预测的方式对噪声抑制。其缺点是难以满足目标源方位角未知或目标源移动的情况，广义旁瓣消除方法信号失真较大，并且用传统的NLMS自适应滤波方法收敛速度慢。

传统的多通道维纳滤波在平稳噪声环境下较广义旁瓣消除的信号失真较小，但是对于复杂环境下的目标源活性检测误差较大，信号失真也较大。

传统的单通道语音幅度谱估计在平稳噪声环境下，能较为准确的估计噪声功率谱密度，但是在非平稳噪声情况下，噪声估计误差较大，会造成严重的音乐噪声和信号失真。

如今大多数使用麦克风阵列语音增强的设备主要是基于指向型麦克风，即将有向麦克对准目标源，然后经过简单的处理。因此这类设备需要已知目标源的位置，且不能对目标源做实时跟踪。

在实际应用环境下，噪声和干扰的情况往往比较复杂，并且如果目标源存在移动情况，会对目标源尤其是移动目标源的跟踪和增强产生巨大的影响，其结果是使现有的语音增强系统和方法所涉及的一些滤波器系数更新算法难以收敛，处理后得到结果相对于真实的信号源存在大量的失真。而现有的在这些方面表现较好的语音增强系统和方法，往往对麦克风阵列中麦克风的数量和布局有特定的要求。

发明内容

(一)要解决的技术问题

本发明所述解决的技术问题是现有的语音增强系统和方法在实际应用环境下进行语音信号处理时，对目标源实时跟踪以及对目标源实时增强性能不佳的问题。

(二)技术方案

为解决上述技术问题，本发明提出一种语音信号增强系统，用于对包含目标语音信号的输入信号进行增强，所述目标语音信号由目标源发出，该系统包括目标源跟踪模块、噪声自适应模块、多通道维纳滤波模块和语音幅度谱估计模块，其中输入信号分别连接到目标源跟踪模块和噪声自适应模块，所述目标源跟踪模块用于对输入信号进行滤波，得到一个语音参考信号；所述噪声自适应模块用于对输入信号进行处理，消去目标源成分，得到一个噪声参考信号；所述多通道维纳滤波模块用于接收所述语音参考信号和所述噪声参考信号，并利用所述噪声参考信号对所述语音参考信号进行滤波，得到一个降噪语音信号；所述语音幅度谱估计模块用于接收所述降噪语音信号和所述噪声参考信号，并根据所述噪声参考信号对所述降噪语音信号进行语音增强处理，得到一个语音增强信号和一个语音存在概率信号，并将所述语音存在概率信号反馈到所述目标源跟踪模块、噪声自适应模块和多通道维纳滤波模块，以对目标源跟踪模块、噪声自适应模块和多通道维纳滤波模块的参数进行实时调节。

本发明还提出一种语音信号增强方法，用于对包含目标语音信号的输入信号进行增强，所述目标语音信号由目标源发出，该方法包括如下步骤：S1、将所述输入信号通过一个自适应滤波器进行滤波得到一个语音参考信号，利用阻塞矩阵对所述输入信号进行噪声提取处理，得到一个噪声参考信号；S2、将所述噪声参考信号和所述语音参考信号通过一个多通道维纳滤波进行滤波得到一个降噪语音信号；S3、根据所述噪声参考信号对所述降噪语音信号进行语音增强处理，得到一个增强语音信号和一个语音存在概率信号；S4、根据语音存在概率信号对所述自适应匹配滤波器的滤波系数、阻塞矩阵、多通道维纳滤波器的滤波系数和学习步长进行更新。

(三)有益效果

本发明的系统和方法可以在麦克风阵列比较简单的情况下，很好地克服在实际应用环境下对目标源实时跟踪的收敛不能保证、速度慢和实时增强失真大等问题。

首先，在实际干扰和噪声较为复杂的应用环境下能够进行实时语音信号处理，能够对目标源尤其是移动目标源进行很好地跟踪并进行实时增强。

其次，本发明所采用的方法对麦克风阵列本身没有太大要求，并且对目标源的先验知识要求比较少，对目标源的行为(主要指移动和是否处于活动状态)要求也不算严格，所以使得本发明应用范围比较广泛。

再次，本发明是基于ASIO音频驱动进行设计和实现的，实时数据的输入和输出的延迟非常小，使本发明能够适应数据延迟性要求较高的应用场合，增强了本发明的实用性。

最后，在本发明下的应用时，如果针对不同的应用环境有针对性地选择麦克风阵列，本发明的处理效果会更加优越。

附图说明

图1是本发明的语音增强系统的结构框图；

图2和图3是本发明不能处理的特殊情况的示意图；

图4为本发明进行实验验证时的实验布局示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明的语音增强系统和该语音增强系统所采用的方法是从实际应用环境出发，根据实际应用环境进行研究的。本发明使用的实验数据都是在实际场景下录制得到的，理论结合实验，得到了大体的处理方法框架。同时为了达到本发明能够实时运行的目的，我们不仅考虑了运行效果，而且把运算速率作为另一个重要的因素放入本发明的研究中，使得本发明能同时兼顾运行效果和运算速度。基于以上考虑，发明人对于本发明进行了进一步的完善，最后得到本发明的语音增强系统和方法。

图1是本发明的语音增强系统的结构框图。如图1所示，本发明的语音增强系统主要由目标源跟踪模块、噪声自适应模块、多通道维纳滤波模块和语音幅度谱估计模块四个模块组成，输入信号分别连接到目标源跟踪模块和噪声自适应模块。目标源跟踪模块用于对输入信号进行滤波，得到目标语音参考信号；噪声自适应模块用于对输入信号进行处理，消去目标源成分，得到噪声参考信号。

所述输入信号包含目标语音信号，所述目标语音信号由目标源发出。

本发明的创新点在于根据实际环境的特性，经过反复实验，确定用这四个模块组成本发明的信号增强系统的基本架构。本发明的四个模块主要涉及传统的广义旁瓣消除、多通道维纳滤波、以及语音幅度谱估计三个技术环节。我们将这些技术环节进行修改并整合到本发明的模块中，使这些模块能够有机地结合起来，产生良好的处理效果，以达到实用的目的。

目标源跟踪模块和噪声自适应模块是本发明的系统的关键所在，本发明能够根据输入信号的信噪比将输入信号判定为纯噪声和带噪信号。纯噪声中不含有目标源成分，带噪信号含有需要提取的目标成分以及噪声成分。

根据本发明的一个具体实施例，所述目标源跟踪模块可由一个滤波器实现，该滤波器的滤波系数可以实时更新；并且，所述噪声自适应模块利用一个阻塞矩阵消去输入信号中的目标源成分，从而得到噪声参考信号。

继续参照图1，所述语音参考信号和噪声参考信号均输入到所述多通道维纳滤波模块，该多通道维纳滤波模块利用噪声参考信号对语音参考信号进行滤波，得到一个降噪语音信号。

根据本发明的该实施例，该多通道维纳滤波模块可以由计算量很小的基于最小均方误差准则的自适应滤波器实现。

所述降噪语音信号和所述噪声参考信号均输入到所述语音幅度谱估计模块，所述语音幅度谱估计模块根据所述噪声参考信号对所述降噪语音信号进行语音增强处理，得到一个语音增强信号和一个语音存在概率信号。

根据本发明的该实施例，所述语音幅度谱估计模块可以由成熟的最小均方误差准则下的短时语音幅度谱估计实现，其利用信号的时域和频域信息对降噪语音信号进行语音增强处理。

根据本发明的该实施例，如图1所示，由语音幅度谱估计模块输出的语音存在概率信号反馈到所述目标源跟踪模块、噪声自适应模块和多通道维纳滤波模块，以对目标源跟踪模块、噪声自适应模块和多通道维纳滤波模块的参数进行自动且实时地调节，使其更加适应复杂的环境。

根据本发明的该实施例，所述目标源跟踪模块由滤波器实现，该滤波器的滤波系数根据所述语音存在概率信号进行调节，使该滤波器对噪声具有一定的鲁棒性；所述噪声自适应模块可以由广义特征值分解实现，其根据所述语音存在概率信号对其阻塞矩阵进行更新，以使其噪声参考信号中含有的目标源成分减小，从而减小最终的输出结果的失真；所述多通道维纳滤波模块根据所述语音存在概率信号对滤波系数和学习步长进行更新，该更新仅在信噪比低的时刻进行，以减小信号失真，提升降噪效果。

下面具体描述本发明的语音增强系统中各模块所执行的具体操作，即根据本发明的语音增强方法。

在对本发明的方法进行说明之前，首先定义符号：X(k，l)为输入的时域信号向量经过短时傅里叶变换得到的频域输入信号向量，H(k，l)为估计的目标源到麦克风阵列的响应向量，B(k，l)为阻塞矩阵，W(k，l)多通道维纳滤波向量。R_XX(k，l)为含有噪声的信号的协方差矩阵，R_NN(k，l)为噪声协方差矩阵。其中k表示频带序号，l表示数据帧序号。

S1、首先，将输入信号X(k，l)经过目标源跟踪模块和噪声自适应模块分别进行处理，并分别得到语音参考信号和噪声参考信号。

如前所述，根据本发明的一个具体实施例，目标源跟踪模块为自适应匹配滤波器，该自适应匹配滤波器对所述输入信号的第l帧进行滤波得到语音参考信号Y₀(k，l)：

Y₀(k，l)＝H(k，l)^HX(k，l)，

H(k，l)为自适应匹配滤波器对输入信号的第l帧的滤波系数。根据本发明的该实施例，噪声自适应模块为利用阻塞矩阵对输入信号进行噪声提取处理，得到一个噪声参考信号。具体来说，该阻塞矩阵是自适应阻塞矩阵B(k，l)，其用来消去输入信号中的目标源成分，得到噪声参考信号Y_1；M(k，l)，即

Y_1；M(k，l)＝B(k，l)^HX(k，l)。

S2、将噪声参考信号Y_1；M(k，l)和语音参考信号Y₀(k，l)通过一个多通道维纳滤波模块进行滤波得到一个降噪语音信号Z(k，l)，其中

Z(k，l)＝W(k，l)^HY(k，l)，Y(k，l)＝[Y₀(k，l)，Y_1M(k，l)]

根据本发明的一个具体实施例，多通道维纳滤波模块是一个多通道维纳滤波器。

S3、然后，根据所述噪声参考信号Y_1；M(k，l)对所述降噪语音信号Z(k，l)进行语音增强处理，得到一个增强语音信号和一个语音存在概率信号。

根据本发明，通过语音信号幅度谱估计来对语音信号进行增强，从而得到增强语音信号。

在该实施例中，得到一个增强语音信号和一个语音存在概率信号的步骤是：

步骤一：由所述噪声参考信号Y_1；M(k，l)估计噪声方差λ_d(l，k)；

步骤二：由噪声方差λ_d(l，k)和上一帧已估计的语音信号幅度谱A(k，l-1)估计当前帧的为先验信噪比ξ(k，l)；

步骤三：由当前帧的为先验信噪比ξ(k，l)计算增益函数

即

G_{LSA}^{H_{1}} (k, l) = \frac{ξ (k, l)}{1 + ξ (k, l)} \exp {\frac{1}{2} {&Integral;}_{&upsi; (k, l)}^{\infty} \frac{e^{- t}}{t} dt}

式中υ(k，l)为定义的中间变量。上标H₁表示该时频点含有语音成分。

步骤四：由当前帧的为先验信噪比ξ(k，l)计算语音存在概率信号p(k，l)，即

p (k, l) = {1 + \frac{q (k, l)}{1 - q (k, l)} (1 + ξ (k, l)) \exp (- &upsi; (k, l))}^{- 1}

式中υ(k，l)为定义的中间变量，q(k，l)是先验语音不存在概率。

步骤五：对所述降噪语音信号Z(k，l)进行语音增强处理，得到增强语音信号的幅度谱估计A(k，l)，即

A(k，l)＝G_LSA|Z(k，l)|，

式中

G_{LSA} (k, l) = {(G_{LSA}^{H_{1}} (k, l))}^{p (k, l)} {(G_{\min})}^{1 - p (k, l)},

(G_min为预先设定的经验值)。

步骤六：由增强的语音幅度谱估计值A(k，l)，通过短时傅里叶分析反变换(ISTFT)得到一个增强语音信号。

S4、最后，根据语音存在概率信号对所述自适应匹配滤波器的滤波系数、阻塞矩阵、多通道维纳滤波器的滤波系数和学习步长进行更新。

所述语音存在概率信号可以对前述步骤进行反馈并对参数进行更新，并且对更新的步长进行调节，从而减小信号失真和保证噪声抑制性能。

1)自适应匹配滤波器的滤波系数的更新

更新适应匹配滤波器的滤波系数之前，首先需要对带噪信号协方差矩阵R_XX(k，l)和噪声信号协方差矩阵R_NN(k，l)进行更新：

α为平滑系数，其取值范围为0-1，经过反复实验，并且为0.95时最佳。输入信号中语音的存在与否的判断可利用语音参考信号和噪声参考信号的能量比值与一个门限值进行比较得到。

然后依据R_XX(k，l)和R_NN(k，l)对输入信号的第l帧进行滤波的滤波系数进行更新，方法如下：

F(k，l-1)＝maxeig(R_NN(k，l-1)^-1R_XX(k，l-1))

H (k, l) = \frac{R_{NN} (k, l - 1) F (k, l - 1)}{e_{1}^{T} R_{NN} (k, l - 1) F (k, l - 1)}

max eig(·)表示取最大特征值对应的特征向量；

其中M为设备中麦克风的数目。

2)阻塞矩阵的更新

该阻塞矩阵的更新可以根据输入信号的前一帧的带噪信号协方差矩阵R_XX(k，l)、噪声信号协方差矩阵R_NN(k，l)，以及从目标源到麦克风阵列的响应向量估计得到，即

B (k, l) = I_{M} - \frac{R_{NN} (k, l - 1) F (k, l - 1)}{F {(k, l - 1)}^{H} R_{NN} (k, l - 1) F (k, l - 1)} F (k, l - 1),

其中I_M为M×M的单位矩阵。

3)多通道维纳滤波器的滤波系数和学习步长的更新

利用噪声参考信号估计语音参考信号中的噪声成分，并使用最小均方误差准则的NLMS方法(Normalized Least Mean Squares)对多通道维纳滤波器的滤波系数的进行更新，即：

W (k, l + 1) = W (k, l) + u (p (k, l), pz (k, l)) Z (k, l) Y_{0; M}^{*} (k, l)

式中u(p(k，l)，pz(k，l))表示多通道维纳滤波器的学习步长，其与输出结果Z(k，l)的能量以及目标语音存在概率p(k，l)有关，语音存在概率是衡量该时频点为语音的一种度量。

u &Proportional; \frac{1}{pz (k, l)}, u &Proportional; \frac{1}{p (k, l)}

如上所述，本发明首先对广义旁瓣噪声消除技术中的固定波束形成器和自适应匹配阻塞矩阵两个模块进行改进，将固定波束形成器改进为自适应匹配滤波器，使本发明能够对目标源的位置进行实时估计，同时也能使本发明在不同混响环境下具有一定的鲁棒性。

对自适应匹配滤波器和自适应阻塞矩阵我们都采用广义特征值分解的方法进行估计，使收敛速度加快。将输入信号通过自适应匹配滤波器和自适应阻塞矩阵可以得到语音参考信号和噪声参考信号，进而可以根据这两个信号对目标源进行语音活性检测(VAD，Voice Activation Detection)。因为这两路信号经过空域预滤波，因此根据它们所得的信噪比对目标源活性进行直接检测更为准确，进而为本发明能够应用于非平稳噪声场景下提供极大的支持。

更好的目标源活性检测结果，可以使多通道维纳滤波抑制噪声的性能提高，使信号失真减小。最后使用语音幅度谱估计方法对残留噪声进一步抑制，由于噪声功率谱密度可由噪声参考信号预测得出，因此在非平稳噪声情况下，本发明也能保证增强性能。本发明在语音幅度谱估计过程中计算得到的语音存在概率反馈给自适应匹配滤波器、自适应阻塞矩阵、多通道维纳滤波，对这些相关参数进行实时更新，从而提高系统稳定性。

本发明的实验验证

下面通过对本发明的具体实验进行说明，实验各个源的布局如图4所示。实验中所涉及的各种信号源在图中已列举：随机噪声例如为一段音乐，位置不定，时有时无，并且声音方向性较弱；白噪声例如为一个音箱播放的由仿真软件产生的白噪声信号；干扰源例如为两个人交头接耳的声音。图中的单向箭头表示信号源传播的主方向，双向箭头表示信号源的移动方向。需要说明的是，图4仅为一种情况的示意图，不表示每次实验图中所有的信号源都存在，具体情况参照下面对于实验效果的具体描述。实验中一般都要求不管目标源移动与否，其主方向要大体对准麦克风阵列。对于其他源没有此要求，但有其他的方面的位置限制，具体限制参照处理效果。实验中所采用的是由三个麦克风“一”字等距离排开而形成的麦克风阵列。各个源如果在以麦克风阵列为中心1m为半径的圆内出现的话，大体位置可以参照坐标轴，但如果在坐标轴表示的范围以外的话，则其角度可以参照坐标轴，但其相对于麦克风阵列的距离不能参照坐标轴。

为了提高系统处理的实时性，发明人在系统开发时采用了目前延时性能最好的专业级的ASIO音频SDK(现阶段大多音频处理系统大多都用的是direct sound SDK)，从而减小目标源输出到处理输出的延时。以下是本发明的工作流程：

预处理(preprocess)，实时数据处理程序主要进行核心处理程序运行所需要的几个窗函数的定义工作，以及返回初始化所需的数据帧数。

初始化(initialize)，进入初始化阶段后，实时处理程序主要进行核心处理程序运行所需的初始状态的设置，以及相关状态变量的内存分配。

实时运行(run)，进入核心处理阶段，实时运行，将处理后的目标源从预先选择的输出通道输出。

终止(terminate)，回收和处理程序相关的所有未释放的内存。

图2和图3是本发明不能处理的特殊情况示意图。如图2所示，当目标源一次性移动范围较大时，系统难以实时跟踪。如图3所示，目标源的主方向并不对准麦克风，虽然目标源和干扰源的位置不重合，但由于墙壁反射的原因，使得从信号的接收端(麦克风阵列)上看来，两个源的位置非常接近，这样会对处理产生较大的不利影响。

由于本发明的系统和方法能够实时运行，加上ASIO音频驱动的高效性能，使得从目标源输出到处理的输出延时较小。当然延时性能跟设置的帧长度有关，帧越长延时越长，但系统消耗越少(如线程切换消耗，和一些相关的运算消耗)，系统消耗越少，相应地系统工作则会越稳定。为兼顾延时特性和系统消耗，一般延时控制在0.2s以内，一般系统消耗都在0.12s左右。

由于本发明的系统和方法对麦克风阵列本身没有太大要求，加之对目标源的先验知识要求比较少，对目标源的行为(主要指移动和是否处于active状态)要求也不算严格，所以使得本发明应用范围比较广泛，如果针对不同的室内环境应用有针对性的麦克风阵列，处理效果则会更加优越。

增强效果，系统在办公室和会议室的室内环境经过测试，得到各个情况下的处理效果。需要说明的是，因为实验中存在很多信号源移动的情况，所以无法对处理后的效果进行性能指标的计算，所以这里就没有将性能指标列出。以下是各种情况下的处理效果：

(1)固定源(目标源+强干扰源+白噪声)

这里指所有的源，包括目标源(即目标源)，干扰源(有和无的情况都已验证)，噪声源(多为白噪声，类似咖啡厅的背景噪声也做个试验)，都固定不动。经过实验，发明人发现，只要目标源和干扰源相对于麦克风阵列的角度不重合，即使在输入sir：0db以下也可以在保证目标源质量良好的情况下消除噪声，输出sir：20db以上；

(2)移动源(强干扰源移动，目标源固定)

在这种情况下，对于噪声源(多指白噪声和背景噪声)存在与否没有太大影响。干扰源只要满足(1)中的限制条件，都有不错的效果，但输出的目标源存在一些失真的情况，并且有一些干扰和噪声混入目标源中。

(3)移动源(目标源移动，干扰源固定)

在这种情况下，与场景(2)类似对于噪声源(多指白噪声和背景噪声)存在与否没有太大影响。干扰源只要不与目标源重合，并且不出现极端移动情况下(如图2和3示)，实时运行的效果与情况(2)类似；

(4)移动源(目标源和干扰源都移动)

在满足(2)和(3)的限制要求下，运行效果跟(2)(3)比较相近，但相对来说，目标源中混入的噪声和干扰会更多一些，失真也会明显一点。

(5)多重噪声

这里是指将前面提到的所有噪声全部加入，并且中间加入目标源或者(和)强干扰源的移动的情况，进行实时处理。实验效果相对(4)来说处理后输出的目标源混入噪声更加明显，并且输出的目标源会有更多的失真，但这些从主观听感来说，是不影响对目标源内容的分辨的。虽然，总体来说，对于目标源的跟踪是可以比较好完成的，在局部会出现目标源跟踪不上的情况。

需要说明的是，当噪声和干扰较强并且存在移动的可能时，信号目标源的信噪比需要比固定源情况时的大一些才能达到比较好的处理效果，否则处理得到的信号会有比较明显的失真。并且在实际使用时，必须注意在初始化阶段，目标源是不能发出声音的，否则将会严重影响处理效果。

由此可见，本发明主要用于在实际的室内应用环境中实时有效地进行对目标源信号的增强，从而进行有利于对目标源直接应用(直接输出)和间接应用(如，车载语音控制系统和作为后端的语音识别系统的输入)。

本发明采用了自适应数字信号处理技术对目标语音增强，放宽对麦克风类型的要求，既可使用全向型麦克风也可使用指向型麦克风，并且使用的麦克风数量较少，就能够很好抑制平稳噪声和非平稳噪声。由于本发明实时运行处理所需要的先验知识少、限制条件少，并能够保证实时处理，因此能适用于很多场合的语音增强，例如车载条件下的人机交互，报告会中报告内容的语音转写和视频会议。如今许多数字信号处理器中带有多路音频输入输出接口和模拟数字转换器，因此本发明可以制成手持设备，并且可以根据需要改变阵列形状，使其应用范围更加广泛。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音信号增强系统，用于对包含目标语音信号的输入信号进行增强，所述目标语音信号由目标源发出，其特征在于，该系统包括目标源跟踪模块、噪声自适应模块、多通道维纳滤波模块和语音幅度谱估计模块，其中输入信号分别连接到目标源跟踪模块和噪声自适应模块，

所述目标源跟踪模块用于对输入信号进行滤波，得到一个语音参考信号；

所述噪声自适应模块用于对输入信号进行处理，消去目标源成分，得到一个噪声参考信号；

所述多通道维纳滤波模块用于接收所述语音参考信号和所述噪声参考信号，并利用所述噪声参考信号对所述语音参考信号进行滤波，得到一个降噪语音信号；

所述语音幅度谱估计模块用于接收所述降噪语音信号和所述噪声参考信号，并根据所述噪声参考信号对所述降噪语音信号进行语音增强处理，得到一个语音增强信号和一个语音存在概率信号，并将所述语音存在概率信号反馈到所述目标源跟踪模块、噪声自适应模块和多通道维纳滤波模块，以对目标源跟踪模块、噪声自适应模块和多通道维纳滤波模块的参数进行实时调节。

2.如权利要求1所述的语音信号增强系统，其特征在于，所述目标源跟踪模块为滤波器，该滤波器的滤波系数能够根据所述语音存在概率信号进行调节，以提高其对噪声的鲁棒性。

3.如权利要求1所述的语音信号增强系统，其特征在于，所述噪声自适应模块利用一个阻塞矩阵消去输入信号中的目标源成分，从而得到噪声参考信号，且该阻塞矩阵能够根据所述语音存在概率信号进行更新，以减小所述噪声参考信号中的目标源成分。

4.如权利要求1所述的语音信号增强系统，其特征在于，所述多通道维纳滤波模块为最小均方误差准则的自适应滤波器，其能够根据所述语音存在概率信号对其滤波系数和学习步长进行调节，并使其仅在信噪比低的时刻对其滤波系数进行更新。

5.一种语音信号增强方法，用于对包含目标语音信号的输入信号进行增强，所述目标语音信号由目标源发出，其特征在于，该方法包括如下步骤：

S1、将所述输入信号通过一个自适应滤波器进行滤波得到一个语音参考信号，利用阻塞矩阵对所述输入信号进行噪声提取处理，得到一个噪声参考信号；

S2、将所述噪声参考信号和所述语音参考信号通过一个多通道维纳滤波进行滤波得到一个降噪语音信号；

S3、根据所述噪声参考信号对所述降噪语音信号进行语音增强处理，得到一个增强语音信号和一个语音存在概率信号；

S4、根据语音存在概率信号对所述自适应匹配滤波器的滤波系数、阻塞矩阵、多通道维纳滤波器的滤波系数和学习步长进行更新。

6.如权利要求5所述的语音增强方法，其特征在于，在所述步骤S1中，

所述自适应匹配滤波器对所述输入信号的第l帧进行滤波得到语音参考信号Y₀(k，l)：Y₀(k，l)＝H(k，l)^HX(k，l)，H(k，l)为该自适应匹配滤波器对输入信号的第l帧的滤波系数；

所述该阻塞矩阵是自适应阻塞矩阵B(k，l)，其用来消去输入信号中的目标源成分，得到噪声参考信号Y_1；M(k，l)，即Y_1；M(k，l)＝B(k，l)^HX(k，l)。

7.如权利要求6所述的语音增强方法，其特征在于，在所述步骤S2中，所述降噪语音信号Z(k，l)为：

Z(k，l)＝W(k，l)^HY(k，l)，Y(k，l)＝[Y₀(k，l)，Y_1；M(k，l)]。

8.如权利要求7所述的语音增强方法，其特征在于，所述步骤S3包括：

步骤三：由当前帧的为先验信噪比ξ(k，l)计算增益函数

即

式中υ(k，l)为定义的中间变量，上标H₁表示该时频点含有语音成分；

步骤四：由当前帧的为先验信噪比ξ(k，l)计算语音存在概率信号p(k，l)，即，

p (k, l) = {1 + \frac{q (k, l)}{1 - q (k, l)} (1 + ξ (k, l)) \exp (- &upsi; (k, l))}^{- 1},

式中υ(k，l)为定义的中间变量，q(k，l)是先验语音不存在概率；

步骤五：对所述降噪语音信号Z(k，l)进行语音增强处理，得到增强语音信号的幅度谱估计A(k，l)，即A(k，l)＝G_LSA|Z(k，l)|，式中

G_{LSA} (k, l) = {(G_{LSA}^{H_{1}} (k, l))}^{p (k, l)} {(G_{\min})}^{1 - p (k, l)},

G_min为预先设定的经验值；

步骤六：由增强的语音幅度谱估计值A(k，l)，通过短时傅里叶分析反变换得到一个增强语音信号。

9.如权利要求8所述的语音增强方法，其特征在于，所述步骤S4中对于自适应匹配滤波器的滤波系数的更新的步骤为：

首先，对带噪信号协方差矩阵R_XX(k，l)和噪声信号协方差矩阵R_NN(k，l)进行更新：

α为平滑系数，其取值范围为0-1，经过反复实验，并且为0.95时最佳。输入信号中语音的存在与否的判断可利用语音参考信号和噪声参考信号的能量比值与一个门限值进行比较得到；

然后，依据R_XX(k，l)和R_NN(k，l)对输入信号的第l帧进行滤波的滤波系数进行更新，方法如下：

F(k，l-1)＝maxeig(R_NN(k，l-1)^-1R_XX(k，l-1))

H (k, l) = \frac{R_{NN} (k, l - 1) F (k, l - 1)}{e_{1}^{T} R_{NN} (k, l - 1) F (k, l - 1)}

max eig(·)表示取最大特征值对应的特征向量；

其中M为设备中麦克风的数目。

10.如权利要求8所述的语音增强方法，其特征在于，所述步骤S4中对于阻塞矩阵的更新的步骤为：

根据所述输入信号的前一帧的带噪信号协方差矩阵R_XX(k，l)、噪声信号协方差矩阵R_NN(k，l)，以及从目标源到麦克风阵列的响应向量估计得到，即

B (k, l) = I_{M} - \frac{R_{NN} (k, l - 1) F (k, l - 1)}{F {(k, l - 1)}^{H} R_{NN} (k, l - 1) F (k, l - 1)} F (k, l - 1),

其中I_M为M×M的单位矩阵。

11.如权利要求8所述的语音增强方法，其特征在于，在步骤S4中，对于多通道维纳滤波器的滤波系数和学习步长的更新的步骤为：

利用所述噪声参考信号估计所述语音参考信号中的噪声成分，并使用最小均方误差准则的NLMS方法对所述多通道维纳滤波器的滤波系数的进行更新，即：

W (k, l + 1) = W (k, l) + u (p (k, l), pz (k, l)) Z (k, l) Y_{0; M}^{*} (k, l),

式中u(p(k，l)，pz(k，l))表示多通道维纳滤波器的学习步长。