CN110931036A

CN110931036A - 一种麦克风阵列波束形成方法

Info

Publication number: CN110931036A
Application number: CN201911246555.3A
Authority: CN
Inventors: 卢燕; 梁骏; 姚欢; 王坤鹏; 陈谢; 汪文轩; 沈旭东
Original assignee: Hangzhou National Chip Science & Technology Co Ltd
Current assignee: Hangzhou National Chip Science & Technology Co Ltd
Priority date: 2019-12-07
Filing date: 2019-12-07
Publication date: 2020-03-27
Anticipated expiration: 2039-12-07
Also published as: CN110931036B

Abstract

本发明公开了一种麦克风阵列波束形成方法。本发明针对麦克风阵列波束形成算法在嘈杂及多语音干扰环境中无法很好地估计噪声及干扰协方差矩阵以及源语音信号导向矢量的问题，提出了一种麦克风阵列波束形成方法。本发明在传统麦克风阵列波束形成的基础上，构造方向模板，利用时频单元信号的相位差矢量与不同方向模板的夹角余弦得到时频掩蔽值TFmask，以较低的计算量在短时傅里叶变换域中尽可能地区分开了源信号与其他方向的语音干扰。

Description

一种麦克风阵列波束形成方法

技术领域

本发明属于噪声及干扰抑制技术领域，具体涉及一种麦克风阵列波束形成方法。

背景技术

麦克风阵列波束形成通过估计环境协方差矩阵(噪声及干扰)以及源语音信号导向矢量,为提高语音通话质量、提升智能语音交互准确率，设计相关的波束形式滤波权值，以达到提高信干噪比(Signal-to-Interferences-plus-Noise Ratio，SINR)的目的。

传统的麦克风阵列波束形成方法的效果依赖于环境协方差矩阵以及源语音信号导向矢量估计的准确性。

针对环境协方差矩阵的估计，常用的方法有两种：(1)使用语音活动检测(VoiceActivity Detection，VAD)算法，在期望信息的无声段(即语音间隙)来估计和更新噪声协方差矩阵。尽管这种方法在平稳噪声(例如白噪声)或者是不存在语音干扰的情况下可以取得令人满意的效果，但在更多的现实场景中，例如餐厅或者办公室场景，噪声谱不断变化且存在其他人声干扰，对噪声协方差矩阵的估计变得不尽理想。(2)基于复高斯混合模型(Complex Gaussian Mixture Model，CGMM)，用期望最大化算法(ExpectationMaximization，EM)迭代求得每个时频单元的时频掩蔽值(Time-Frequency Mask，TFmask)，进而得到环境协方差矩阵。一方面，迭代要求的高计算量限制了该方法的实际使用；另一方面，该方法仍旧未能将感兴趣的语音(目标语音)和来自其他方向的干扰语音进行有效的区分。

针对源语音信号导向矢量(Steering Vector，ST)的估计，常常基于语音波达方向估计(Direction of Arrival，DOA)方法和已知的阵列参数进行构造。而在实际场景中，往往存在一定的信号折射，这给DOA带来了较大的挑战，特别是当信号折射与多个强干扰并存，且麦克风个数较少的时候，DOA极其容易判断错误。

发明内容

本发明的目的就是针对现有技术的缺陷，提出了一种适用于非平稳噪声环境以及存在干扰语音情况下，更有效的估计环境协方差矩阵，确定源语音信号导向矢量，提升麦克风阵列波束形成效果的方法。

本发明方法具体步骤是：

步骤(1).确定源语音信号和干扰信号可能存在的N个方向，根据麦克风阵列参数确定对应方向的导向矢量；

步骤(2).计算导向矢量相位，并对第一个麦克风阵元的相位归一化得到方向模板；

步骤(3).将麦克风阵列接收信号经过短时傅里叶变换(Short Time FourierTransform，STFT)得到短时傅里叶变换域(Short Time Fourier Transform Domain，STFTDomain)信号，其中每一个单元称之为时频单元；进而得到一个时频单元中信号的相位差矢量，计算相位差矢量与每一个方向的方向模板的夹角的余弦值，该夹角余弦值表征了当前时频单元中信号与N个方向的距离；

步骤(4).将N个夹角的余弦值归一化至[0 1]：将其通过softmax函数，得到N个方向上存在语音信号的概率，即时频掩蔽值TFmask；

步骤(5).依据得到的时频掩蔽值TFmask更新噪声干扰协方差矩阵；

步骤(6).利用噪声干扰协方差矩阵，依据最小方差无失真响应(MinimumVariance Distortionless Response，MVDR)波束形成算法得到滤波权值w_opt，进而滤波得到波束形成增强信号。

进一步，步骤(1)具体方法是：首先确定源语音信号和干扰信号可能存在的N个方向，根据麦克风阵列参数确定对应方向的导向矢量

其中，M为麦克风阵列的阵元个数，θ∈[0,π]为俯仰角，

为方向角，

为第m个麦克风阵元的相移，m＝1,2,…,M；针对第f个频率单元，所有N个方向的向矢量组成一个导向矢量组：

进一步，步骤(2)具体方法是：计算导向矢量的相位，并对第一个麦克风阵元的相位归一化，得到

将

称为方向模板，并统一记为

其中angle(·)为求相位角运算；针对第f个频率单元，所有N个方向的方向模板组成一个方向模板组，记为

进一步，步骤(3)具体方法是：分别求N个方向的方向模板

与当前时频单元(t,f)的相位差矢量z_t,f的夹角余弦值γ_t,f＝[γ_t,f,1 γ_t,f,2 … γ_t,f,n … γ_t,f,N]∈C^1×N；

其中，

进一步，步骤(4)具体方法是：将N个方向夹角余弦值γ_t,f通过softmax函数，得到时频掩蔽值

其中

且有

softmax函数将γ_t,f转换成当前时频单元(t,f)在N个方向存在语音信号的概率，即

即是N个方向对应的信号的时频掩蔽值TFmask；所述的语音信号为源语音信号或者干扰语音信号；

表示干扰和噪声的时频掩蔽值TFmask。

进一步，步骤(5)具体方法是：对噪声及干扰协方差矩阵进行更新，得到更新后的噪声及干扰协方差矩阵

其中l∈{1 … L}是一个最小批(Mini Batch)，β_l表示第l个最小批的所有帧的集合，中

是所有帧的

之和，由

更新得到；初始估计的噪声及干扰协方差矩阵根据

计算得到。

进一步，步骤(6)具体方法是：得到最优的波束形成滤波权值

最终得到滤波之后的增强信号y_t,f＝w_opt ^Hx_t,f，其中x_t,f为麦克风阵列接收信号。

本发明的有益效果是：针对麦克风阵列波束形成算法在嘈杂及多语音干扰环境中无法很好地估计噪声及干扰协方差矩阵以及源语音信号导向矢量的问题，提出了一种麦克风阵列波束形成方法。本发明在传统麦克风阵列波束形成的基础上，构造方向模板，利用时频单元信号的相位差矢量与不同方向模板的夹角余弦得到时频掩蔽值TFmask，以较低的计算量在短时傅里叶变换域中尽可能地区分开了源信号与其他方向的语音干扰。

本方法的优势在于：

(1)跟“根据VAD更新噪声协方差矩阵”方法相比，引入方向模板，能够区分与源信号不同方向的语音干扰，实现对语音干扰的最大化压制。

(2)跟“基于CGMM”方法相比，不需要使用迭代算法，以较小的计算量得到了时频掩蔽值TFmask。

(3)跟“根据DOA构造源语音信号导向矢量”方法相比，在存在强折射且有多个强语音干扰的场景中，本发明利用方向模板，可以不依赖于DOA算法的性能，算法整体更鲁棒，抗干扰能力更强。

附图说明

图1为本发明的流程示意图；

图2为本发明中麦克风阵列模型示意图。

具体实施方式

为了便于理解本发明，为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便充分理解本发明，附图中给出了本发明的较佳实施方式。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本发明的公开内容理解地更加透彻全面。本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。

一种麦克风阵列波束形成方法，整体流程如图1所示。

信号模型：

考虑一个M阵元麦克风阵列，在短时傅里叶变换域中，整个麦克风阵列接收信号可以表示为：

其中x_t,f,m为第m个麦克风在时间单元t和频率单元f的信号；s_t,f,i表示在时间单元t和频率单元f的第i个语音信号(i＝1,…,I)；

表示其对应的M维导向矢量，其中φ_m为第m个麦克风阵元的相移，

分别代表信号入射俯仰角和方位角；n_t,f＝[n_t,f,1 … n_t,f,M]^TM维噪声矢量；其中·^T表示转置。为了方便叙述，假设第1个语音信号是感兴趣的源语音信号，而第2,…,I个语音信号是不需要的干扰语音信号，麦克风阵列接收信号可以重写为：

其中，x_t,f,target是麦克风阵列接收到的感兴趣的源语音信号，x_t,f,interf是麦克风阵列接收到的语音干扰信号，n_t,f是噪声信号。

导向矢量以及方向模板的构造：

实际应用时，本发明方法不局限于麦克风阵列的形状，已知阵列参数的均匀线阵，均匀圆阵，抑或是不规则阵列均适用。下面便于阐述本发明的技术原理，以均匀圆阵为例，介绍导向矢量以及方向模板的构造。考虑如图2所示的具有M个麦克风的均匀圆阵列的几何结构，圆阵半径为R。麦克风阵元m的坐标为pm＝[Rcos[2π(m-1)/M] Rsin[2π(m-1)/M] 0]。

以原点作为参考点，假设信号从

方向入射，其中θ∈[0,π]为俯仰角，定义为z轴到入射方向的角度；

为方向角，定义为x轴到入射方向在xoy平面投影的角度。

信号的入射方向的单位向量为

假设麦克风阵元m接收到的入射波的时间滞后于信号到达参考点的时间，阵元m相对于参考点的时延可以表示为：

其中v＝340m/s为音速，相应的相移为：

此时导向矢量可以表示为

计算导向矢量的相位，并对第一个麦克风阵元的相位归一化，得到

其中angle(·)为求相位角运算。当该频率单元不存在频率混叠时，等价于：

但如果存在频率混叠，情况将将有所变化，将

称为方向模板，并统一记为：

针对第f个频率单元，所有N个方向的方向模板组成一个方向模板组，记为：

考虑到圆阵一般水平放置，针对远场情况时，入射角一般垂直于z轴，即俯仰角θ≈90°，所以简化导向矢量，设置俯仰角θ＝90°。对于N个源语音信号和干扰信号的可能方向，我们可以通过DOA相关算法计算得到，也把全方向方位角(线阵[0,π]，圆阵[0,2π))均匀分成N个方向，得到固定的N个方向，即

时频掩蔽值TFmask的计算：

在短时傅里叶变换域中，针对时频单元(t,f)，整个麦克风阵列接收信号可以表示为

对时频单元(t,f)求阵列信号相位并归一化得到：

z_t,f＝[0 angle(x_t,f,2)-angle(x_t,f,1) … angle(x_t,f,M)-angle(x_t,f,1)]^T∈C^M×1；

z_t,f为时频单元(t,f)的相位差矢量。

假设源语音信号与噪声、干扰源信号在短时傅里叶变换域中满足稀疏性假设，则在大部分源信号占优的时频单元中，可以认为噪声、干扰源信号的影响是比较小的。当时频单元(t,f)中源语音信号占优时，可以认为：

其中<>表示求两向量的夹角。又因为向量间的夹角与其余弦值一一对应，所以为了优化计算，用向量间的夹角余弦作为两个向量夹角大小的度量，两向量的夹角余弦由下式得到

其中a≠0且b≠0。

分别求N个方向的方向模板与当前时频单元(t,f)的相位差矢量的夹角余弦值，记为：γ_t,f＝[γ_t,f,1 γ_t,f,2 … γ_t,f,n … γ_t,f,N]∈C^1×N，其中

从向量夹角以及夹角余弦的定义可以知道，两个向量夹角越小，其对应的夹角余弦越接近于1，而相反地，两个向量夹角越大，其对应的夹角余弦越接近0。所以将γ_t,f通过softmax函数，得到

其中

Softmax函数将γ_t,f转换成当前时频单元(t,f)在N个方向存在语音信号(源语音信号或者干扰语音信号)的概率，即

即是N个方向对应的时频掩蔽值TFmask。

基于时频掩蔽值TFmask的协方差矩阵流式迭代方法：

表示时频单元中包含感兴趣的源语音信号s_t,f的概率，即时频掩蔽值TFmask，

表示时频单元(t,f)中包含噪声以及干扰语音信号的概率，则可以估计初始的噪声及干扰协方差矩阵，得到

流式处理时，记l∈{1 … L}是一个最小批(Mini Batch)，β_l表示第l个最小批的所有帧的集合，则

其中

是所有帧的

之和，并通过以下公式进行更新

最小方差无失真响应算法：

利用波束形成器处理阵列接收信号，通过改变滤波器权值，可使某些期望方向的信号通过滤波器，同时抑制其他方向的信号。

针对频率f，M阵元麦克风阵列的接收信号x_t,f作为M抽头横向滤波器的输入，滤波器权向量可以表示w_f＝[w₁ w₂ … w_M]^T∈C^M×1；空域滤波器的输出为y_t,f＝w_f ^Hx_t,f；输出的平均功率

为

其中

是接收信号的协方差矩阵。

假设感兴趣的信号(源语音信号)s_t,f从

方向入射，麦克风阵列对该方向的接收信号为

为了使该方向入射的信号无失真的通过空域滤波器，应有

所以，空域滤波权矢量应满足

在保证上式成立的情况下，选择滤波权矢量w，使得空域滤波器的平均输出功率

最小，即对其他方向的信号和噪声尽量抑制。则问题描述为

因为实际应用中，估计的信号方向可能与实际信号方向存在误差，并不能保证信号完全无失真通过滤波器，所以一般将接收信号的协方差矩阵R_f替换为需要抑制的信号(噪声和干扰)对应的协方差矩阵

这是一个条件极值问题，用拉格朗日乘子法求解可以得到最优的波束形成滤波权值

进而得到滤波之后的增强信号y_t,f＝w_opt ^Hx_t,f。

Claims

1.一种麦克风阵列波束形成方法，其特征在于该方法具体步骤是：

步骤(3).将麦克风阵列接收信号经过短时傅里叶变换得到短时傅里叶变换域信号，其中每一个单元称之为时频单元；进而得到一个时频单元中信号的相位差矢量，计算相位差矢量与每一个方向的方向模板的夹角的余弦值，该夹角余弦值表征了当前时频单元中信号与N个方向的距离；

步骤(6).利用噪声干扰协方差矩阵，依据最小方差无失真响应波束形成算法得到滤波权值w_opt，进而滤波得到波束形成增强信号。

2.如权利要求1所述的一种麦克风阵列波束形成方法，其特征在于，步骤(1)具体方法是：首先确定源语音信号和干扰信号可能存在的N个方向，根据麦克风阵列参数确定对应方向的导向矢量

其中，M为麦克风阵列的阵元个数，θ∈[0,π]为俯仰角，

为方向角，

3.如权利要求1所述的一种麦克风阵列波束形成方法，其特征在于，步骤(2)具体方法是：计算导向矢量的相位，并对第一个麦克风阵元的相位归一化，得到

将

称为方向模板，并统一记为

4.如权利要求1所述的一种麦克风阵列波束形成方法，其特征在于，步骤(3)具体方法是：分别求N个方向的方向模板

与当前时频单元(t,f)的相位差矢量z_t,f的夹角余弦值γ_t,f＝[γ_t,f,1 γ_t,f,2…γ_t,f,n…γ_t,f,N]∈C^1×N；其中，

5.如权利要求1所述的一种麦克风阵列波束形成方法，其特征在于，步骤(4)具体方法是：将N个方向夹角余弦值γ_t,f通过softmax函数，得到时频掩蔽值

其中

且有

表示干扰和噪声的时频掩蔽值TFmask。

6.如权利要求1所述的一种麦克风阵列波束形成方法，其特征在于，步骤(5)具体方法是：对噪声及干扰协方差矩阵进行更新，得到更新后的噪声及干扰协方差矩阵

其中l∈{1…L}是一个最小批(Mini Batch)，β_l表示第l个最小批的所有帧的集合，中

是所有帧的

之和，由

更新得到；初始估计的噪声及干扰协方差矩阵根据

计算得到。

7.如权利要求1所述的一种麦克风阵列波束形成方法，其特征在于，步骤(6)具体方法是：得到最优的波束形成滤波权值