CN106782590B

CN106782590B - 基于混响环境下麦克风阵列波束形成方法

Info

Publication number: CN106782590B
Application number: CN201611150238.8A
Authority: CN
Inventors: 郭业才; 陈小燕; 韩金金; 禹胜林
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Jiangsu Xinshiyun Science and Technology Co.,Ltd.
Priority date: 2016-12-14
Filing date: 2016-12-14
Publication date: 2020-10-09
Anticipated expiration: 2036-12-14
Also published as: CN106782590A

Abstract

本发明公开了一种基于混响环境下麦克风阵列波束形成方法：步骤1、获取麦克风接收到的信号；步骤2、对第n个麦克风接收到的信号x_n(k)进行分帧加窗处理，得第n个麦克风接收到的加窗信号x_nw(k)；步骤3、对第n个麦克风接收到的加窗信号x_nw(k)进行第i个频率点的傅里叶变换；步骤4、基于维纳滤波的方法获得的输出信号；步骤5、通过基于维纳滤波的LCMV波束形成方法获得麦克风阵列波束形成器的输出信号。可有效抑制麦克风阵列混响问题，是一种适用于任意阵列结构的波束形成方法。

Description

基于混响环境下麦克风阵列波束形成方法

技术领域

本发明涉及一种基于混响环境下麦克风阵列波束形成方法。

背景技术

波束成形技术已经在语音通信系统、电话会议、语音识别和助听器等方面有着广泛应用，波束成形作为空间滤波器，从由一组麦克风接收的混合信号中提取目标信号。目前，波束形成器有固定波束形成、最小方差无失真响应(minimum variancedistortionless response，MVDR)等经典的宽带波束形成器，但存在阵列响应频率不变性较差、主瓣宽度因频率增大而减小、信号畸变等现象。为了解决宽带波束的畸变，目前出现了最小二乘方法、凸优化方法、特殊阵列结构方法、空间响应约束方法等，这些方法虽然改善了频率不变性，但是对于混响环境应用，上述的方法并不满足要求。

在封闭的空间环境中的目标语音信号通常会受到混响和噪声影响导致语音信号失真，因此抑制混响是目前语音信号处理当中的一个热点问题。近年来研究成熟的抑制或者去除混响的方法包括：逆滤波器方法、广义奇异值分解方法等。其中，逆滤波方法根据房间脉冲响应，设计相应的逆滤波器，通过对混响信号的逆滤波恢复出目标语音信号；而广义奇异值分解方法是估计房间脉冲响应，并且通过匹配滤波实现逆卷积。以上去混响的方法只能去除前期混响，且均没有考虑语音信号在空间上的信息。虽然具有空间指向性的线性约束最小方差波束形成方法(linear constrained minimum variance beamformer,LCMV)在理论上能够去除混响，但是计算复杂度较高，实际上难以实现。

发明内容

针对上述问题，本发明提供一种基于混响环境下麦克风阵列波束形成方法，可有效抑制麦克风阵列混响问题，是一种适用于任意阵列结构的波束形成方法。

为实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

一种基于混响环境下麦克风阵列波束形成方法，包括如下步骤：

步骤1、获取麦克风接收到的信号：

设在封闭的室内环境下，由N个相同的全向性麦克风组成均匀线阵，有M个语音信号，位置为r_m,m＝1,…,M，其中，目标语音信号位置为r₁，其余位置的信号为干扰信号，N＞M，则第n个麦克风接收到的信号x_n(k)表示为：

式中，H_nm,l是第m个语音到第n个麦克风、长度为l的房间冲激响应，且n＝1,…,N，l＝1,…,L；L为房间冲激响应的长度；s_m(k)是第m个语音信号，v_n(k)是第n个麦克风接收到的噪声；k表示离散时间；

步骤2、对第n个麦克风接收到的信号x_n(k)进行分帧加窗处理，得第n个麦克风接收到的加窗信号x_nw(k)；下标w表示加窗处理；

步骤3、对第n个麦克风接收到的加窗信号x_nw(k)进行第i个频率点的傅里叶变换，得：x_nw(ω_i,k)

式中，s_m(ω_i,k)是s_m(k)第n个麦克风接收信号的第i个频率带中的第k帧噪声信号；v_n(ω_i,k)是v_n(k)在第n个麦克风接收信号的第i个频率带中的第k帧噪声信号；

步骤4、基于维纳滤波的方法获得的输出信号：

式中，W(ω_i)是第i个频率点的维纳滤波器的系数，

是在维纳滤波输出信号的第i个频率带中的第k帧信号，i∈[1,I],I表示离散频率点的总数，I为整数；v_n(ω_i,k)表示第n个麦克风接收信号的第i个频率带中的第k帧噪声信号；i∈[1,I],I表示离散频率点的总数，I为整数；

步骤5、通过基于维纳滤波的LCMV波束形成方法获得麦克风阵列波束形成器的输出信号

其中W_n,opt(ω)是第n个麦克风阵列响应的最优权向量，

是第n个麦克风接收的信号在整个频率带中的维纳滤波输出信号。

优选，步骤2中的窗函数采用汉明窗函数w(k)，且w(k)＝0.5(1-cos(2πk))。

优选，步骤3中的傅里叶变换为短时傅里叶变换：通过在I个均等间隔的频率点上对频率变量ω进行采样，即ω_i＝2πi/I，得到一个短时傅里叶变换

其中q是汉明窗移动的长度。

优选，步骤4中，维纳滤波器系数W(ω_i)的确定方法为：

式中，Φ_ss(ω_i)为目标语音信号在第i个频率点的自功率谱，Φ_xx(ω_i)为麦克风接收信号在第i个频率点的自功率谱。

优选，混响环境下维纳滤波的LCMV分频波束形成方法中麦克风阵列响应的最优权向量获取步骤如下：

1)计算麦克风阵列接收信号的自功率谱Φ_xx(ω)和维纳滤波器系数W(ω_i)，得到维纳滤波器输出

2)将室内环境下的干扰抑制作为约束条件，则波束形成器分频带响应约束条件为：

式中，C^N表示N维复数域；

是频率响应权向量；(·)^*T表示共轭转置；

是低频段频率响应权向量，上标lcmv1表示低频段的LCMV波束形成方法，

是高频段频率响应权向量，上标lcmv2表示高频段LCMV波束形成方法，

是麦克风阵列接收到的信号

的自功率谱，

H_1n,l表示目标语音信号方向的第n个麦克风、长度为l的房间冲激响应向量；H_nm,l表示第m个语音信号方向的第n个麦克风、长度为l的房间冲激响应向量；G_D1(ω)为从目标语音信号点到线阵参考点麦克风的波束形成器输出的直达路径低频响应函数，下标D1表示目标语音信号低频段；G_D2(ω)为从目标语音信号点到线阵参考点麦克风的波束形成器输出的直达路径高频响应，下标D2表示目标语音信号高频段；v_n(ω)表示第n个麦克风接收信号的噪声向量；

3)根据LCMV准则，通过维纳滤波器输出语音信号的频域信息分别计算出低频段

和高频段

最优权值，其中：

式中，

维纳滤波器输出信号向量；

是第n个麦克风接收的信号在整个频率带中的维纳滤波输出信号；H是房间冲激响应向量，H＝H_n1,l......H_nm,l，则基于分频维纳滤波器的LCMV波束形成的最优权向量W_n,opt(ω)为：

式中，α是矩阵加权系数，是正常数。

优选，设实际环境中接收信号的频率范围是(ω_min，ω_max)，ω₀是ω_min和ω_max的平均值，则高频和低频的划分方法为：当ω＞ω₀为高频段，当ω≤ω₀为低频段。

本发明的有益效果是：

本发明首先通过从空域滤波角度出发将自由场推广到混响场，对麦克风阵列接收到的信号进行短时傅里叶变换，得到具有空域信息和频域信息的麦克风阵列接收信号，然后将接收到的麦克风阵列信号输入到各个通道维纳滤波器中进行频域处理，最后通过维纳滤波器输出语音信号的频域信息，使用麦克风阵列线性约束最小方差(Linearconstrained minimum variance,LCMV)波束形成方法并由拉格朗日乘子法分别计算高频段和低频段最优权向量，从混响语音中分离出语音直达声语音信号。本发明方法可有效抑制麦克风阵列混响问题，是一种适用于任意阵列结构的波束形成方法。

附图说明

图1是本发明基于全频维纳滤波器的线性约束最小方差波束形成的结构图；

图2是本发明基于分频维纳滤波器的线性约束最小方差波束形成的结构图；

图3是消声室内的实验布局设置；

图4是目标语音信号的示意图；

图5是麦克风阵列通道1接收信号的示意图；

图6是全频波束形成方法的效果图；

图7是本发明分频去混响方法的效果图。

具体实施方式

下面结合附图和具体的实施例对本发明技术方案作进一步的详细描述，以使本领域的技术人员可以更好的理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

如图1-7所示，一种基于混响环境下麦克风阵列波束形成方法，包括如下步骤：

步骤1、获取麦克风接收到的信号：

式中，H_nm,l是第m个语音到第n个麦克风、长度为l的房间冲激响应，且n＝1,…,N，l＝1,…,L；L为房间冲激响应的长度；s_m(k)是第m个语音信号，v_n(k)是第n个麦克风接收到的噪声；k表示离散时间。

步骤2、对第n个麦克风接收到的信号x_n(k)进行分帧加窗处理，得第n个麦克风接收到的加窗信号x_nw(k)；下标w表示加窗处理，窗函数可以采用汉明窗函数w(k)，且w(k)＝0.5(1-cos(2πk))。

步骤3、对第n个麦克风接收到的加窗信号x_nw(k)进行第i个频率点的傅里叶变换，得x_nw(ω_i,k)：

式中，s_m(ω_i,k)是s_m(k)第n个麦克风接收信号的第i个频率带中的第k帧噪声信号；v_n(ω_i,k)是v_n(k)在第n个麦克风接收信号的第i个频率带中的第k帧噪声信号。

步骤3中的傅里叶变换为短时傅里叶变换：本发明通过在I个均等间隔的频率点上对频率变量ω进行采样，即ω_i＝2πi/I，得到一个短时傅里叶变换

其中q是汉明窗移动的长度。

步骤4、基于维纳滤波的方法获得的输出信号

式中，W(ω_i)是第i个频率点的维纳滤波器的系数，

是在维纳滤波输出信号的第i个频率带中的第k帧信号，i∈[1,I],I表示离散频率点的总数，I为整数；v_n(ω_i,k)也即在第n个麦克风接收信号的第i个频率带中的第k帧噪声信号；i∈[1,I],I表示离散频率点的总数，I为整数。

维纳滤波器系数W(ω_i)的确定方法为：

其中W_n,opt(ω)是第n个麦克风阵列响应的最优权向量，

在封闭环境内，麦克风阵列采集到的语音信号不仅仅包含直达路径传播的信号，而且包含了由于房间反射而产生的延迟衰减信号，这种多径传播效应在接收信号中引入导致谱失真，称为混响。

本发明对麦克风阵列接收到的信号进行分帧加窗的短时傅里叶变换之后，计算接收信号的自功率谱，由这些短时功率谱估计得到维纳滤波器的系数，最后将接收到的麦克风阵列信号输入到各个通道维纳滤波器中进行频域处理。

如图1所示，基于维纳滤波的LCMV全频波束形成方法中麦克风阵列响应的最优权向量获取步骤如下：

由维纳滤波器理论可知，最佳滤波器系数W(ω_i)为：

Φ_xx(ω_i)＝E[|x(ω_i,k)|²]

Φ_vv(ω_i)＝E[|v(ω_i,k)|²]

Φ_ss(ω_i)＝Φ_xx(ω_i)-Φ_vv(ω_i)

式中，Φ_ss(ω_i)为目标语音信号在第i个频率点的自功率谱，Φ_xx(ω_i)为麦克风接收信号在第i个频率点的自功率谱，Φ_vv(ω_i)为噪声信号在第i个频率点的自功率谱，单通道接收的信号x(ω_i,k)，单通道接收的噪声信号v(ω_i,k)。

2)将室内环境下的干扰抑制作为约束条件：在麦克风阵列各个通道信号经过维纳滤波器输出增强信号

这时各个通道内的混响得到一定程度的衰减，为了满足能够在室内达到干扰抑制和降噪的理想性能，则波束形成器全频带响应应满足条件为：

式中，C^N表示N维复数域；

表示频率响应权向量，上标lcmv表示线性约束最小方差波束形成方法，下标n表示第n个麦克风；(·)^*T表示共轭转置；

是麦克风阵列接收到的信号

的自功率谱，

H是房间冲激响应向量，H＝H_n1,l......H_nm,l，H_1n,l表示目标语音信号方向的第n个麦克风、长度为l的房间冲激响应向量，H_nm,l表示第m个语音信号方向的第n个麦克风、长度为l的房间冲激响应向量；G(ω)表示从目标语音信号点到线阵参考点麦克风的波束形成器输出的直达路径传递函数，且G(ω)＝[G_D(ω) 0]^T，标D表示目标语音信号；v_n(ω)表示第n个麦克风接收信号的噪声向量；需要说明的是奇数个麦克风线阵的参考点取为中间的麦克风，偶数个麦克风取为最内的两个麦克风的连线的中垂线；

3)求解最优权向量

为：

式中，

是麦克风阵列接收到的信号

的自功率谱

的矩阵求逆运算。

基于维纳滤波的LCMV全频波束形成方法抑制混响影响的效果较差，主要是由于该方法没有考虑不同频率的语音信号产生混响的差异性，因此本发明方法充分考虑不同频率语音信号产生混响的差异性，给出了一种改进的基于分频维纳滤波器的LCMV波束形成结构，如图2所示。按图2，本发明方法优化波束形成器权向量步骤如下：

2)将室内环境下的干扰抑制作为约束条件，则本发明方法给出的波束形成器分频带响应约束条件为：

式中，C^N表示N维复数域；

是频率响应权向量；

是高频段频率响应权向量，上标lcmv1表示低频段的LCMV波束形成方法，

是麦克风阵列接收到的信号

的自功率谱，

H_1n,l表示目标语音信号方向的第n个麦克风、长度为l的房间冲激响应向量；H_nm,l表示第m个语音信号方向的第n个麦克风、长度为l的房间冲激响应向量；G_D1(ω)为从目标语音信号点到线阵参考点麦克风的波束形成器输出的直达路径低频响应函数，下标D1表示目标语音信号低频段；G_D2(ω)为从目标语音信号点到线阵参考点麦克风的波束形成器输出的直达路径高频响应，下标D2表示目标语音信号高频段；v_n(ω)表示第n个麦克风接收信号的噪声向量；需说明：高频段和低频段可根据实际情况进行分频，因为实际环境中接收信号的频率范围可以通过分析得到频率分布在一定范围内，本发明采用分频方法如下：设实际环境中接收信号的频率范围是(ω_min，ω_max)，ω₀是ω_min和ω_max的平均值，即ω₀＝(ω_min+ω_max)/2，当ω＞ω₀为高频段，当ω≤ω₀为低频段；

和高频段

最优权值，其中：

式中，

维纳滤波器输出信号向量；

是第n个麦克风接收的信号在整个频率带中的维纳滤波输出信号；H是房间冲激响应向量，H＝H_n1,l......H_nm,l，这时基于分频维纳滤波器的LCMV波束形成的最优权向量W_n,opt(ω)为：

式中，α是矩阵加权系数，是正常数。

本发明性能评价如下：采用分段信噪比(SNRseg)和语音质量评估(Perceptualevaluation of speech quality,PESQ)，用于评估语音去混响的性能。

分段信噪比定义为

式中，s(k)是第k个时间帧无混响的直达目标语音信号，

分别是第k个时间帧增强的目标语音信号。

对于PESQ分数，它是由ITU-T为3.2GHz的手机电话和窄带语音编解码器(ITU，2000,2003)的语音质量评估的建议，它是由平均干扰值D_ind和平均的线性组合获得的对称干扰值A_ind，则PESQ定义为：

PESQ＝4.5-0.1D_ind-0.0309A_ind

本发明的效果可以通过以下实施例来说明：

实验环境的布局设置如图3所示，采用了一个由7个全向麦克风组成的线阵，其位置分别为(2.0,3.0,1.4)，(2.1,3.0,1.4)，(2.2,3.0,1.4)，(2.3,3.0,1.4)，(2.4,3.0,1.4)，(2.5,3.0,1.4)，(2.6,3.0,1.4)(坐标值的测量单位是米，m)；为了模拟目标语音，在位置(3.7,2.0,1.4)m处放置一个人工嘴，播放一段事先录制好的男声语音信号，如图3中所示的单个目标语音信号。

本发明的含混响语音是通过消声室中测得标准方向目标语音和实际会场测得房间脉冲响应做卷积得到混响信号，采样率为8kHz，实际会场总的混响时间为2s。将待处理的含混响语音信号分帧变成频域，通过维纳滤波器得到高低频段语音信号；然后再将高低频段的语音信号输入到LCMV滤波器中进行分频段去混响。图5是麦克风阵列通道1接收含混响的语音信号。

实施例结果，如图4-7所示：

从图5和图4的波形时域图对比可以看出混响信号比原先干净信号多出了很多部分，根据混响的定义多出的部分是叠加在原始干净语音信号上的混响部分。图6是全频带方法处理的效果，比较图7是本发明分频方法处理后的效果，波形时域图的波峰波谷和原始干净语音信号相比更加明显，可以明显的看出去混响的效果。

从图5和图4的语谱图对比可以看出，图5含混响语谱图的深色重叠区域较多，特别是低频部分前后覆盖严重不利于语音识别应用。图6是全频带方法处理的语谱图，比较图7是本发明分频去混响效果的语谱图，相较于图5颜色变浅，能量降低，且与图3原始语音信号的语谱图相似度较高，代表着去混响的效果比较好。

下面采用两个评价标准，即分段信噪比和语音质量评估，来定量的评价目标语音去混响的性能，如表1所示。

表1分频和全频方法去混响性能对比表

从表1中可以得出，分频去混响比全频去混响的分段信噪比提高3.2dB；语音质量评估的得分两者相当，但是对比含混响目标语音分数提高了0.2左右。这个表明本发明方法的效性。

本发明首先通过从空域滤波角度出发将自由场推广到混响场，对麦克风阵列接收到的信号进行短时傅里叶变换，得到具有空域信息和频域信息的麦克风阵列接收信号，然后将接收到的麦克风阵列信号输入到各个通道维纳滤波器中进行频域处理，最后通过维纳滤波器输出语音信号的频域信息使用麦克风阵列线性约束最小方差波束形成方法(LCMV)并由拉格朗日乘子法分别计算高频段和低频段最优权向量，从混响语音中分离出语音直达声语音信号。可有效抑制麦克风阵列混响问题，是一种适用于任意阵列结构的波束形成方法。

本发明方法基于每个频段上混响时间不同的特性，在麦克风阵列接收信号的各个通道维纳滤波器中进行分频处理，将波束形成方法应用到高低频域的子带中，提高了去混响的精度。实测实验结果表明，本发明方法去混响效果更加有效。本发明方法可广泛应用于多通道语音增强、人机语音交互系统、助听器、车载免提语音通信、远程电视会议系统以及机器人听觉等诸多领域。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或者等效流程变换，或者直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。