CN103413555B

CN103413555B - 一种小孔径阵列麦克风语音增强方法

Info

Publication number: CN103413555B
Application number: CN201310363179.2A
Authority: CN
Inventors: 王冬霞; 秦亚光; 梅亚男; 刘艳军
Original assignee: Liaoning University of Technology
Current assignee: Liaoning University of Technology
Priority date: 2013-08-16
Filing date: 2013-08-16
Publication date: 2016-02-24
Anticipated expiration: 2033-08-16
Also published as: CN103413555A

Abstract

本发明提出了一种小孔径阵列麦克风语音增强方法，该方法在语音信号波达方向（DOA）及阵列拓扑结构等先验知识未知的情况下，根据FastICA的基本原理，对输出变量构建以分离矩阵为变量的目标函数，并使其最大化，分离出独立分量，再进行后置处理，该过程省去了对语音源信号方向的估计，节省了计算量。

Description

一种小孔径阵列麦克风语音增强方法

技术领域

本发明涉及一种空时域语音增强方法，更具体而言，涉及一种小孔径线阵盲波束形成语音增强方法。

背景技术

在当今生活工作中较流行使用的视频会议、电话会议与其它多种智能语音通信系统中，由于会受到混响、环境噪声以及干扰等因素的影响，麦克风阵列拾取的语音信号质量就会变差，而这将直接影响到语音编码及语音识别系统的性能。因此，需要进行有效的噪声抑制。

中国专利申请号200910132345.1公开了一种语音增强的方法和装置。其中,所述方法包括:将带噪语音信号进行变换,得到频域带噪语音信号；采用相关度修正参数设置所述频域带噪语音信号的前一帧谱方差和前一帧谱幅度平方的权值,得到频域纯净语音信号中当前帧的谱方差；可以降低在语音增强过程中,由先验信噪比的计算而引入的误差，达到良好效果。

在实际应用中，期望信号的波达方向（DOA）和阵列的拓扑结构往往是未知的，因而采用盲波束形成方法来实现麦克风阵列语音增强。目前，基于盲波束形成麦克风阵列语音增强方法的研究正日益趋于成熟。一种是采用四阶互累积量和线性约束最小方差波束形成相结合的麦克风阵列语音增强方法，并取得了较好的噪声抑制效果。另一种是将固定波束形成、独立分量分析算法和后置滤波技术相结合，有效地抑制了噪声。

在现有技术中,四阶互累积量和线性约束最小方差波束形成相结合的麦克风阵列语音增强方法需要事先估计出语音信号的方向向量，使得整个过程的计算比较复杂固定波束形成、独立分量分析算法和后置滤波技术相结合的方法虽然有效地抑制了噪声,但是该方法过于复杂，计算量很大。本发明提出了一种基于独立分量分析(ICA)与广义旁瓣抵消器(GSC)相结合的盲波束形成方法，该方法在语音信号波达方向（DOA）及阵列拓扑结构等先验知识未知的情况下，根据FastICA的基本原理，对输出变量构建以分离矩阵为变量的目标函数，并使其最大化，分离出独立分量，再进行后置处理，该过程省去了对语音源信号方向的估计，节省了计算量。

发明内容

本发明提供一种小孔径线阵盲波束形成语音增强方法，能够有效的抑制噪声。

一种小孔径线阵盲波束形成语音增强方法，（1）采用FastICA算法构建目标函数，对信号进行白化处理，分离出独立分量信号；（2）对所述独立分量信号分别进行检测，识别出语音信号和干扰噪声信号；（3）对所述干扰噪声信号的期望进行滤波处理，所述语音信号的期望减去所述滤波处理后的信号之和得到语音增强信号。

作为一种优选，所述第（2）步骤的识别依据：如果独立分量信号的峭度大于零，则代表该路信号为语音信号；否则，代表该路信号为干扰噪声信号。

作为一种优选，所述第（2）步骤的识别依据：如果三阶或四阶累积量参数大于零，则代表以语音为主的信号分量；否则，为以干扰噪声为主的信号分量。

作为一种优选，求取第p+1个所述独立分量信号的公式：

y_{p + 1} (n) = w_{p + 1} (n) \tilde{x} (n),

其中，

w_{p + 1} (n) = w_{p} (n) - Σ_{j = 1}^{p} w_{p}^{T} (n) w_{j} w_{j},

\tilde{x} (n) = Vx (n)

是观测信号x(n)白化后的信号，V是白化矩阵,w_j是分离矩阵W的第j列矢量。

作为一种优选，在第（3）步骤中进一步采用最小均方误差法得到增强语音信号输出表达式：其中，式中u为步长因子，z(n)增强语音信号，f_k(n)是第k通道滤波器系数，是第k通道信号期望。

作为一种优选，3至4个麦克风组成均匀线性阵列，在麦克风语音处理硬件中设置信号采集模块、语音增强模块和输出模块。

作为一种优选，所述目标函数J(y)＝[E{G(y)}-E{G(y_gauss)}]²式中y_gauss是具有零均值、单位方差的高斯变量；G(y)代表任意非二次函数，这里取G(y)＝y³；E{·}代表均值运算。

有益效果:

1、波达方向等先验知识未知的情况，具有较好的噪声抑制性能。

2、在不同噪声场环境下，该方法对噪声的抑制能力强。

3、采用小孔径阵列（3至4个麦克风组成的均匀线阵），可以取得较好的噪声抑制效果，计算量相对较小。

4、不需要估计阵列方向向量且保留小孔径线阵的优越性的前提下完成盲波束形成的方法。在不同噪声场，存在混响和低信噪比的封闭环境下，本方法具有较好的噪声抑制能力。

附图说明

图1是表示语音混合模型图。

具体实施方式

（1）声学模型的建立

假设在封闭环境下存在一个目标语音源信号s₁(n)和M-1个干扰噪声源s_i(n),2≤i≤M构成源信号向量s(n)＝[s₁(n),s₂(n),...,s_M(n)]^T（T表示矩阵转置），其中s(n)的各个分量之间相互独立；设空间有N个麦克风构成线性麦克风阵列，则源信号与麦克风阵列之间的房间冲激响应（混响系数）为h_ij,1≤i≤M,1≤j≤N则麦克风接收到的观测信号与信号源的关系如图1所示。n表示信号所对应的时间（时刻），（这是一种数字信号的时域常规表示符号）。

从图1中可以看出，观测信号是由源信号和房间混响系数混合而成。第j个麦克风接收到的信号可以表示为

x_{j} (n) = s_{1} (n) * h_{1 j} (n) + Σ_{i = 2}^{M} s_{i} (n) * h_{ij} (n)

= Σ_{i = 1}^{M} s_{i} (n) * h_{ij} (n)

= Σ_{i = 1}^{M} {Σ_{l = 0}^{Len - 1} s_{i} (n - l) h_{ij} (l)} 1 \leq i \leq M, 1 \leq j \leq N, 0 \leq l \leq Len - 1 - - - (1)

式中“*”代表线性卷积，s₁(n)是目标语音源信号，s_j(n)(j＝2,…M)代表干扰噪声源信号，Len为房间冲激响应阶数。房间混响系数矩阵H＝[h₁,…,h_M]，且H为N×Len×M维满秩矩阵，则麦克风阵列接收的观测信号矩阵形式可表示为

x＝Hs（2）

式中s＝[s₁,…,s_i,…,s_M]^T,s_i＝[s_i(n),s_i(n-1),…s_i(n-Len+1)]^T。若存在一个分离矩阵W＝(w_ij)使

y(n)＝Wx＝WHs（3）

成立。当WH＝I（I为单位矩阵）即可实现对s的估计。

（2）盲波束形成语音增强方法

这里，盲波束形成指的是在仅知x的情况下估计目标源信号s₁(n)，抑制噪声，进而实现语音增强。本发明采用基于小孔径线阵的盲波束形成方法，所谓小孔径线阵指的是均匀线阵在空间上有效接收信号的范围，它与阵元个数和阵元间距有关，定义式为L＝Nd，N为阵元个数，d为阵元间距。作为一种优选实施例，以三或四个麦克风构成小孔径线性阵列为例，与大孔径线阵相比，节省了麦克风的个数还保证了其占有空间相对比较小，同时也能保证小孔径线阵抑制噪声的性能，具有比较强代表性。基于此，小孔径线阵同样可以应用到手机、摄像机、录音机等小型语音设备中，代替以前的单麦克风，实现更好的噪声抑制功能。

该盲波束形成语音增强方法原理结构主要包括以下几部分：FastICA模块、语音干扰检测模块（SID）和自适应噪声抵消模块（MCAF）。在麦克风语音处理硬件系统中设置信号采集麦克风阵列模块，语音增强模块和输出模块，语音增强模块包括FastICA模块、语音干扰检测模块（SID）和自适应噪声抵消模块（MCAF），实现语音增强功能。

（3）FastICA模块

根据负熵准则，构建目标函数如下

J(y)＝[E{G(y)}-E{G(y_gauss)}]²（4）

式中y_gauss是具有零均值、单位方差的高斯变量；非二次函数取G(y)＝y³；E{·}代表均值运算。其中

E {G (y)} = E {G (w^{T} \tilde{x})} - - - (5)

式（5）中是观测信号x白化后的信号，V称作白化矩阵，目的是去除信号各个分量之间的相关性。w是分离矩阵W的某一个列矢量。

根据式（5）可以判定的某个最优解对应着J(y)的最大值。根据Lagrange定理，在约束条件下，最优值满足

E {xg (w^{T} \tilde{x})} - λ \tilde{x} = 0 - - - (6)

式中λ为Lagrange常数，g(·)是G(·)的一阶导数。令上式左端为F(w)，即

F (w) = E {xg (w^{T} \tilde{x})} - λ \tilde{x},

则有

\frac{dF (w)}{dw} = E {\tilde{x} {\tilde{x}}^{T} g^{'} (w^{T} \tilde{x})} - λI - - - (7)

式中g′(·)是g(·)的导数。由于数据经过白化处理，（7）式可以进一步写成

\frac{dF (w)}{dw} = E {g^{'} (w^{T} \tilde{x})} I - λI

从而得到近似的牛顿迭代格式

w_{+} = w - \frac{E {\tilde{x} g (w^{T} \tilde{x})} - λw}{E {g^{'} (w^{T} \tilde{x})} - λ} - - - (8)

上式两边同时乘以可得

w_{+} = E {\tilde{x} g (w^{T} \tilde{x})} - E {g^{'} (w^{T} \tilde{x})} w - - - (9)

归一化得

w₊＝w/||w||（10）

从上述过程可以完成对一个独立分量的估计，若估计M个独立分量则需要M个列矢量w₁,w₂,…,w_M，在每次提取一个独立分量之后，要从观测信号中去掉该独立分量，如此的重复，直至所有独立分量被提取出来为止。假设估计了p个独立分量，即已知w₁,…,w_p，在此基础上求w_p+1，每一次迭代后去相关表达式为

w_{p + 1} (n + 1) = w_{p} (n + 1) - Σ_{j = 1}^{p} w_{p}^{T} (n + 1) w_{j} w_{j} - - - (11)

w_{p + 1} (n + 1) = w_{p} (n + 1) / \sqrt{w_{p}^{T} (n + 1) w_{p} (n + 1)} - - - (12)

从而得到FastICA分离出的第p+1个独立分量y_p+1(n)的表达式为

y_{p + 1} (n) = w_{p + 1} (n) \tilde{x} (n) - - - (13)

（4）对FastICA分离的信号进行区分检测

由式(13)可以分离出独立分量，但由于其包含以期望语音为主的信号和以干扰噪声为主的信号，为了区分确定语音参考信号还是干扰噪声信号，需要对ICA分离输出的信号进行语音和干扰检测。一般情况下，语音信号为非高斯信号，而干扰噪声为高斯信号。根据高斯信号的特点即其高阶累积量为零，所以提出采用三阶或四阶累积量的方法来检测语音信号和干扰噪声信号。

判定依据：如果三阶或四阶累积量参数大于零，则代表以语音为主的信号分量；否则为以干扰噪声为主的信号分量；或者，如果独立分量信号的峭度大于零，则代表该路信号为语音信号；否则，代表该路信号为干扰噪声信号。

（5）自适应噪声抵消处理

设第k通道滤波器系数为f_k(n)长度为L_w、相应的多通道自适应滤波器系数为f(n)，则

f_{k} (n) = {[f_{k}^{(1)} (n), . . ., f_{k}^{L_{w}} (n)]}^{T} - - - (14)

f(n)＝[f₂(n),…,f_N(n)]^T（15）

{\tilde{y}}_{k} (n) = {[y_{k} (n), . . ., y_{k} (n - L_{w})]}^{T} - - - (16)

假设检测的结果为目标源信号，其余为干扰噪声信号，则自适应噪声抵消器的输出信号为：

z (n) = {\tilde{y}}_{1} (n) - Σ_{k = 2}^{N} ({\tilde{y}}_{k} (n) f_{k} (n)) - - - (17)

z(n)即为整个语音增强系统的语音信号。

此处采用的自适应算法为最小均方误差（LMS）算法，根据LMS自适应算法得权更新表达式为

f_{k} (n + 1) = f_{k} (n) + uz (n) {\tilde{y}}_{k} (n) - - - (18)

式中u为步长因子。

具体实施例：实验在有混响和噪声的环境下进行，由4个间距为10cm的麦克风组成均匀线性阵列，房间大小为6m×4m×3m，声源位于空间位置(4m,1m,1.5m)，噪声源位于(5m,3.5m,1.5m)，采样频率为16kHz，房间的混响模型采用Image模型，实验结果对比如表1所示。

表1不同噪声SNR统计表

从表1可以看出，在相干噪声场和非相干噪声场环境下，该方法对噪声的抑制能力比较好，能够得到非常好的效果。

此实施例只是体现本发明精神的优选特例，本领域技术人员完全可以根据本发明专利的主旨，加以灵活变通，已达到最佳的实施效果。对本发明进行修改或者等同替换，而不脱离本发明专利的精神和范围，其均应涵盖在本发明专利的权利要求范围当中。

Claims

1.一种小孔径线阵盲波束形成语音增强方法，其特征在于：(1)采用FastICA算法构建目标函数，对信号进行白化处理，分离出独立分量信号；(2)对所述独立分量信号分别进行检测，识别出语音信号和干扰噪声信号；(3)对所述干扰噪声信号的期望进行滤波处理，所述语音信号的期望减去所述滤波处理后的信号之和得到语音增强信号。

2.根据权利要求1所述的语音增强方法，其特征在于：所述第(2)步骤的识别依据：如果独立分量信号的峭度大于零，则代表该路信号为语音信号；否则，代表该路信号为干扰噪声信号。

3.根据权利要求1所述的语音增强方法，其特征在于：所述第(2)步骤的识别依据：如果三阶或四阶累积量参数大于零，则代表以语音为主的信号分量；否则，为以干扰噪声为主的信号分量。

4.根据权利要求1-3之一所述的语音增强方法，其特征在于：求取第p+1个所述独立分量信号的公式：其中，

w_{p + 1} (n + 1) = w_{p} (n + 1) / \sqrt{w_{p}^{T} (n + 1) w_{p} (n + 1)},

\tilde{x} (n) = V x (n)

是观测信号x(n)白化后的信号，V是白化矩阵，w_p+1(n+1)是分离矩阵第p+1个列矢量，w_p(n+1)是分离矩阵第p个列矢量。

5.根据权利要求4所述的语音增强方法，其特征在于：在第(3)步骤中进一步采用最小均方误差法得到增强语音信号输出表达式：其中，式中u为步长因子，z(n)增强语音信号，f_k(n)是第k通道滤波器系数，是第k通道信号期望。

6.根据权利要求4所述的语音增强方法，其特征在于：3至4个麦克风组成均匀线性阵列，在麦克风语音处理硬件中包括信号采集模块、语音增强模块和输出模块。

7.根据权利要求1-3、5和6中任意一项所述的语音增强方法，其特征在于：所述目标函数J(y)＝[E{G(y)}-E{G(y_gauss)}]²式中y_gauss是具有零均值、单位方差的高斯变量；G(y)代表任意非二次函数，这里取G(y)＝y³；E{·}代表均值运算。