CN101587712A

CN101587712A - 一种基于小型麦克风阵列的定向语音增强方法

Info

Publication number: CN101587712A
Application number: CNA2008101121953A
Authority: CN
Inventors: 颜永红; 付强; 张恒
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2008-05-21
Filing date: 2008-05-21
Publication date: 2009-11-25
Anticipated expiration: 2028-05-21
Also published as: CN101587712B

Abstract

本发明提供一种基于小型麦克风阵列的定向语音增强方法，包括如下步骤：1)利用两个全指向性麦克风采集声音信号；2)利用自适应谷点形成算法，对所采集到声音信号进行数据处理，得到延迟相减信号x(t)和自适应滤波后的信号z(t)；3)对x(t)和z(t)进行处理分别形成语谱X(ω)和Z(ω)；4)根据X(ω)和Z(ω)，利用单通道语音增强方法计算出初步增益G′(ω)；根据X(ω)和Z(ω)，计算出目标信号存在概率P(ω)；5)利用所述目标信号存在概率P(ω)，对初步增益G′(ω)进行修正，得出最终增益G(ω)，，其中G_m为预设的增益最小值；6)利用最终增益G(ω)，对自适应滤波后的信号z(t)进行增强，得到最终的增强语音信号r(t)。本发明能够在很小的体积内，实现定向语音增强算法；并且能够获得更大程度的抑制噪声，提高信噪比。

Description

一种基于小型麦克风阵列的定向语音增强方法

技术领域

本发明涉及语音处理技术领域，具体的说，本发明特别涉及一种基于麦克风阵列的定向语音增强方法。

背景技术

语音信号的增强和噪声的消除问题，一直以来都是研究的热点。针对这一问题，已经存在很多基于麦克风阵列的算法，实现加强语音信号，同时抑制干扰(包括各类噪声和其他语音)的效果。麦克风阵列一般体积较大，难以用于在便携式设备(如手机等)。Elko和Luo等人提出和发展了自适应谷点形成算法(Elko and Nguyen，A steerable and variable first-orderdifferential microphone array，ICASSP，1997；Luo，et al.Adaptivenull-forming scheme in digital hearing aids，IEEE Trans.Signal Processing，2002)，可以在小尺度阵列上实现定向语音增强，但去噪程度有限。另外，后滤波算法在大尺度阵列上已经得到广泛运用，效果显著。但由于小阵列的麦克风间距有限，噪声相关性较大，基于相关函数的后滤波难以得到运用。

发明内容

本发明的目的在于克服已有的定向语音增强方法的不足，将自适应谷点形成算法与概率控制的后滤波算法相结合，提出一种适于便携设备的定向语音增强方法，该方法能否在很小的尺度下实现较强的消噪能力，克服了基于相关函数的后滤波器在较小阵列中难以得到应用的缺点。

为实现上述发明目的，本发明提供的基于小型麦克风阵列的定向语音增强方法，包括如下步骤：

1)利用两个全指向性麦克风采集声音信号；

2)利用自适应谷点形成算法，对所采集到声音信号进行数据处理，得到延迟相减信号的语谱X(ω)和自适应滤波后信号的语谱Z(ω)；

3)根据X(ω)和Z(ω)，利用单通道语音增强方法计算出初步增益G′(ω)；根据X(ω)和Z(ω)，计算出目标信号存在概率P(ω)；

4)利用所述目标信号存在概率P(ω)，对初步增益G′(ω)进行修正，得出最终增益G(ω)，

G (ω) = {(G^{'} (ω))}^{P (ω)} G_{m}^{1 - P (ω)},

其中G_m为预设的增益最小值；

5)利用最终增益G(ω)，对自适应滤波后的信号z(t)进行增强，得到最终的增强语音信号r(t)。

上述技术方案中，所述步骤2)包括如下子步骤：

21)利用自适应谷点形成算法，对所采集到声音信号进行数据处理，得到延迟相减信号x(t)和自适应滤波后的信号z(t)；

22)对x(t)和z(t)进行处理分别形成语谱X(ω)和Z(ω)。

上述技术方案中，所述步骤1)中，所述两个麦克风且呈端射式排布，所采集声音信号包括fore(t)和back(t)信号，fore(t)为离说话人较近的麦克风收到的信号，back(t)为离说话人较远的麦克风收到的信号。

上述技术方案中，所述两个麦克风间距d为2cm-5cm。

上述技术方案中，所述步骤21)中，对fore(t)和back(t)进行数据处理，得到延迟相减信号x(t)和自适应滤波后的信号z(t)；

x(t)＝fore(t)-back(t-d/c)

y(t)＝fore(t-d/c)-back(t)

式中，c为声波的传输速度；

z(t)是以y(t)做为参考信号，对x(t)进行自适应滤波后得到的信号。

上述技术方案中，所述步骤3)中，所述单通道语音增强方法可采用谱减法，维纳滤波法或EM方法。

上述技术方案中，所述步骤4)中，还包括对G(ω)进行分区间地进一步修正；

G (ω) = \{\begin{matrix} G_{m}, & G^{'} (ω) \leq G_{m} \\ G^{'} (ω), & G^{'} (ω) > G_{m} \\ andP (ω) > P_{1} \\ {(G^{'} (ω))}^{P (ω)} G_{m}^{1 - P (ω)}, & otherwise . \end{matrix}

式中，G_m为预设的增益最小值，P₁是目标信号存在概率的门限值。

上述技术方案中，所述增益最小值G_m取值在0.01-0.1之间，所述目标信号存在概率的门限值P₁的取值在0.85-0.95之间。

本发明的技术效果包括：将自适应谷点形成和概率控制后滤波算法的相结合，在很小的体积内，实现了定向语音增强算法；并且能够获得更大程度的抑制噪声，提高信噪比。概率控制的后滤波算法的主旨是估算出目标信号在各个频率点上是否存在及存在的可能性有多大，藉以决定算法在该频率点上的降噪策略，这种降噪策略特别适合于小尺度的情况。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1是本发明中麦克风摆放和自适应谷点形成示意图；

图2是本发明中的概率控制后滤波算法示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步地描述。

如图1所示，双麦克风接收到的立体声信号先经过延迟相减，将其结果x(t)和y(t)每32ms作为一帧，计算自适应滤波器系数w(n)，其中n为帧序号。如果一帧信号包含的采样点数为L，则自适应滤波器系数可由下式求得：

w (n) = αw (n - 1) + (1 - α) \frac{Σ_{t = 0}^{L - 1} x (nL - L + t) y (nL - L + t)}{Σ_{t = 0}^{L - 1} y {(nL - L + t)}^{2}}

式中α＝0.9。

第n帧的滤波结果可计算为：

z(nL-L+t)＝x(nL-L+t)-W(n)y(nL-L+t) t＝0，1，...，L-1

将z(t)和y(t)重新组帧，帧长为32ms，相邻帧重叠50％帧长，第n帧信号分别记作z_n(t)和y_n(t)，对其加窗并进行快速傅立叶变换(即短时傅立叶分析)，得第n帧语谱，如图2所示。

STFT[z_n(t)]＝Z_n(ω)

STFT[y_n(t)]＝Y_n(ω)

用IMCRA方法(Cohen，Noise spectrum estimation in adverseenvironments：improved minima controlled recursive averaging，IEEETrans.Speech and Audio processing)计算出Z_n(ω)和Y_n(ω)中的噪声分量N_n ^Z(ω)和N_n ^Y(ω)。随后通过分析Z_n(ω)、Y_n(ω)、N_n ^Z(ω)和N_n ^Y(ω)，计算出初步增益G′_n(ω)和目标语音存在概率P_n(ω)(Cohen and Berdugo，Two-channel signaldetection and speech enhancement based on the transientbeam-to-reference ratio，ICASSP 2003)。其中，初步增益G′_n(ω)可由各种单通道语音增强方法(如谱减法，维纳滤波法，EM方法等)得到，本实施例中采用EM方法计算初步增益G′_n(ω)。目标语音存在概率P_n(ω)表征的是各频点上目标语音成份存在的可能性。本发明中利用该目标语音存在概率P_n(ω)对初步增益G′_n(ω)进行修正，从而得出用于增强的最终增益。修正方法如下式所示：

G_{n} (ω) = \{\begin{matrix} G_{m}, & G_{n}^{'} (ω) \leq G_{m} \\ G_{n}^{'} (ω), & G_{n}^{'} (ω) > G_{m} \\ and P_{n} (ω) > P_{1} \\ {(G_{n}^{'} (ω))}^{P (ω)} G_{m}^{1 - P (ω)}, & otherwise . \end{matrix}

上式中，G_m为增益的最小值，取值在0.01-0.1之间，P₁是存在概率的门限值，取值在0.85-0.95之间。对G_n(ω)的分段处理可以使其取值在合理的区间范围内，减少算法对语音信号产生的失真。

得到最终增益G_n(ω)后，即可对Z_n(ω)进行增强，如下式所示：

R_n(ω)＝G_n(ω)·Z_n(ω)

对R_n(ω)做逆傅立叶变换(IFFT)，得到该帧的时域信号r_n(t)。对照相邻帧的重叠量，进行帧间叠接相加，最终得到增强后的语音信号r(t)。

本发明在很小的体积内，实现了定向语音增强算法，很大程度地抑制了噪声，提高了信噪比和听觉舒适度。

为证明本方法的有效性，对同一组带噪语音(两个干扰源，其一为干扰说话人，另一个为音乐，信噪比由-10dB到10dB)进行处理，噪声去除量(NoiseReduction)如下表(单位：dB)：

去噪能力提升均在16dB以上。

Claims

1.一种基于小型麦克风阵列的定向语音增强方法，包括如下步骤：

1)利用两个全指向性麦克风采集声音信号；

G (ω) = {(G^{'} (ω))}^{P (ω)} G_{m}^{1 - P (ω)},

其中G_m为预设的增益最小值；

2.根据权利要求1所述的定向语音增强方法，其特征在于，所述步骤2)包括如下子步骤：

22)对x(t)和z(t)进行处理分别形成语谱X(ω)和Z(ω)。

3.根据权利要求2所述的定向语音增强方法，其特征在于，所述步骤1)中，所述两个麦克风且呈端射式排布，所采集声音信号包括fore(t)和back(t)信号，fore(t)为离说话人较近的麦克风收到的信号，back(t)为离说话人较远的麦克风收到的信号。

4.根据权利要求3所述的定向语音增强方法，其特征在于，所述两个麦克风间距d为2cm-5cm。

5.根据权利要求3所述的定向语音增强方法，其特征在于，所述步骤21)中，对fore(t)和back(t)进行数据处理，得到延迟相减信号x(t)和自适应滤波后的信号z(t)；

x(t)＝fore(t)-back(t-d/c)

y(t)＝fore(t-d/c)-back(t)

式中，c为声波的传输速度；

6.根据权利要求1所述的定向语音增强方法，其特征在于，所述步骤3)中，所述单通道语音增强方法可采用谱减法，维纳滤波法或EM方法。

7.根据权利要求1所述的定向语音增强方法，其特征在于，所述步骤4)中，还包括对G(ω)进行分区间地进一步修正；

G (ω) = \{\begin{matrix} G_{m}, & G^{'} (ω) \leq G_{m} \\ G^{'} (ω), & G^{'} (ω) > G_{m} \\ and P (ω) > P_{1} \\ {(G^{'} (ω))}^{P (ω)} G_{m}^{1 - P (ω)}, & otherwise . \end{matrix}

8.根据权利要求7所述的定向语音增强方法，其特征在于，所述增益最小值G_m取值在0.01-0.1之间，所述目标信号存在概率的门限值P₁的取值在0.85-0.95之间。