CN112017684B

CN112017684B - 一种基于麦克风阵列的密闭空间混响消除方法

Info

Publication number: CN112017684B
Application number: CN202010880441.0A
Authority: CN
Inventors: 闵新宇; 郭申; 张琨; 赵伯阳; 郭庆鹏
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-08-27
Filing date: 2020-08-27
Publication date: 2022-06-24
Anticipated expiration: 2040-08-27
Also published as: CN112017684A

Abstract

本发明涉及一种基于麦克风阵列的密闭空间混响消除方法，属于计算机、语音信号技术领域。本发明提出的基于麦克风阵列的混响消除方法，其认为阵列中各通道之间的语音信号是相关的，而噪声是不相干的，通过将含混响信号在时域上分为直达信号和经反射信号，在频域上分为低频信号与高频信号，对含混响语音信号从时域和频域上进行分时和分频的处理，利用基于线性约束最小方差后置维纳滤波的方法，在约束方程中增加了分时和分频的处理方式，求得最优权矢量，实现了基于麦克风阵列的混响消除，采用这种方式能在抑制混响的前提下突出不同频率信号的声纹特性，有利于后续语音识别工作的开展，具有计算量小、通用性、灵活性高、易于实现，应用范围广的特点。

Description

一种基于麦克风阵列的密闭空间混响消除方法

技术领域

本发明属于计算机、语音信号技术领域，具体涉及一种基于麦克风阵列的密闭空间混响消除方法。

背景技术

随着计算机、人工智能技术的发展，人们对语音控制的需求越来越大，在指挥控制系统、会议系统、智能家居等领域，使用语音控制设备能够减轻使用者的操作难度，降低出现误操作的可能性，提高设备的可用性。但上述应用系统往往部署在密闭狭小的空间中，语音信号在其中会产生回声与混响，影响麦克风接收到的信号的听觉感受和语音可懂度，同时，该空间中可能存在多个说话者，利用现有的技术从包含多个人声音的语音中区分出某一个人的声音是很困难的。传统的解决以上问题的方法主要是利用麦克风阵列作为语音信号的采集设备，麦克风阵列是指将多个麦克风按照一定的空间位置排布形成阵列，如图1所示，其可以采集到信号中除了时域和频域外的空间域信息，实现对语音信号定向采集的目的，但是由于语音信号在狭小空间中会产生混响，且不同频率信号的混响效果并不相同，传统方法的去混响效果有限，因此，需要提出一种密闭空间混响消除方法。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：如何有效解决密闭空间中的语音采集问题。

(二)技术方案

为了解决上述技术问题，本发明提供了一种基于麦克风阵列的密闭空间混响消除方法，包括以下步骤：

(1)利用含混响语音信号的数学模型推导出，混响存在时麦克风阵列接收到信号的功率谱，利用线性约束最小方差准则，在保证期望信号增益的情况下，使输出功率最小，依据此线性约束最小方差准则确定约束方程；

(2)依据麦克风接收到的信号存在时间延迟的特点，将含混响语音信号的冲激响应分为直达部分和经反射到达部分；

(3)依据麦克风接收到的信号频带范围较宽的特点，将含混响语音信号分为高频和低频两部分，分别计算各自的滤波器系数；将时域上分解的冲激响应和频域上分解的滤波器系数结合，对步骤1得到的约束方程进行改造，求得最优权矢量的值。

本发明还提供了一种所述的方法在麦克风阵列的语音增强系统中的应用。

本发明又提供了一种所述的方法在语音信号处理技术领域中的应用。

本发明还提供了一种所述的方法在计算机技术领域中的应用。

(三)有益效果

本发明提出的基于麦克风阵列的混响消除方法，其认为阵列中各通道之间的语音信号是相关的，而噪声是不相干的，通过将含混响信号在时域上分为直达信号和经反射信号，在频域上分为低频信号与高频信号，对含混响语音信号从时域和频域上进行分时和分频的处理，利用基于线性约束最小方差后置维纳滤波的方法，在约束方程中增加了分时和分频的处理方式，求得最优权矢量，实现了基于麦克风阵列的混响消除，采用这种方式能在抑制混响的前提下突出不同频率信号的声纹特性，有利于后续语音识别工作的开展，具有计算量小、通用性、灵活性高、易于实现，应用范围广的特点，在指挥控制系统、会议系统或智能家居领域具有广阔的应用前景。

附图说明

图1为麦克风阵列示意图；

图2为远场下麦克风阵列示意图；

图3为本发明中线性约束最小方差后置维纳滤波波束形成法结构图；

图4为本发明中基于麦克风阵列的密闭空间混响消除方法结构图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

在间距相等的线性阵列中，当声源位置距离阵列较远时，可以认为声波是以平面波的形式传播的，即阵列中各阵元接收到的信号幅度是相同的，但在时间上存在延迟，这一时间延迟可以表示为

其中τ为两个阵元接收到的信号之间的时间延迟，d为两个阵元之间的间距，θ为信号入射方向与法线之间的夹角，c为声音的传播速度，如图2所示，以左数第一个麦克风为基准参考点，该阵列各阵元接收到的信号方向向量为：

A(f,θ)＝[1,exp(-j2πfd sinθ/c),…,exp(-j2πf(M-1)d sinθ/c)]

f为声音信号的频率，M为麦克风阵元数量；

因此，本发明提供的一种基于麦克风阵列的密闭空间混响消除方法，其流程为：

步骤1具体为：设基准阵元m₀接收到的声源信号为s(t)，则第i个阵元m_i接收到的信号为x_i(t)＝s(t-τ_i)，改写成复数形式为

即x_i(t)＝s(t)e^{-j2πfdsinθ/c}，ω₀为表示声音信号的频率，τ_i表示m_i与m₀接收到的信号之间的时间延迟；所述麦克风阵列是由M个完全相同的麦克风组成的均匀线阵，在一个密闭环境中，第m个麦克风接收到的信号为

其中，x_m(k)是第m个麦克风接收到的信号，x_m(k)即为混响语音，s(k)是信号源发出的纯净语音信号，k_a是该信号经过第a次反射后产生的时延，α_a为衰减系数，s(k-ak_a)即为麦克风采集到的s(k)经a次反射后的信号。利用单位冲激函数δ(n)，将上式改写为卷积形式为：

其中，*表示卷积运算，h(k)为该密闭空间的冲激响应，是反映这一空间中混响效果的重要参数之一，其在频域中的表达式为x(ω)＝H(ω)s(ω)，在实际环境中，麦克风采集到的信号不仅为沿直线传播的声源信号，还包括经过墙壁等多种物体反射的信号，这种反射效果在密闭狭小空间中的影响尤为明显，根据所述含混响语音信号的数学模型，推导出混响存在时麦克风阵列接收到信号的功率谱φ_x(ω)为φ_x(ω)＝H(ω)φ_s(ω)H^T(ω)，其中，φ_s(ω)为目标语音信号的功率谱，依据线性约束最小方差的准则，要求输出功率最小，其输出功率表示为E{|y²(ω)|}＝v(ω)^Hφ_x(ω)v(ω),其中，v(ω)为此种情况下的滤波器系数，由于φ_x(ω)＝E[|x(ω)x^H(ω)|]，因此，混响存在时的基于线性约束最小方差的约束方程表示为：

minv^H(ω)φ_x(ω)v(ω) (3)

s.t.v^H(ω)H(ω)＝P(ω)

步骤2、混响的本质是麦克风接收到的信号存在着多种路径的反射，而这些混响噪声信号与目标信号之间并非不相关，其相干系数随频率变化而变化，在低频部分，其相干系数的模接近1，而在高频部分其模值则较小。麦克风接收到的信号为目标信号经过一系列延时的和，将密闭空间中的冲激响应h(k)按照信号传输的时间分为两部分，其中一部分是信号发出经过较短时间就传输到麦克风的，这部分信号可以看成是信号源经直线直接传输到麦克风的部分h_a(k)，即直达部分，另一部分则是经过了一段时间才传到麦克风的，即为麦克风接收信号中的混响部分h_b(k)，即经反射到达部分，这一分解表示为：

其中，β是均值为零的高斯白噪音，γ是混响的衰减系数，这一系数与时间紧密相关，一般符合γ＝3ln10/T，h_a(k)和h_b(k)分别为上述描述的两种情况下的空间脉冲响应，k_b是该信号经过第b次反射后产生的时延，b>a，设x_ma(k)和x_mb(k)分别为麦克风接收到的来自于上述两个过程的信号，x_ma(k)可以认为是信号源直接传输过来的信号，x_mb(k)可以认为是经过反射形成的混响噪声，所以其满足以下条件

由此，这两部分信号的能量谱函数φ_a(ω)、φ_b(ω)表示为

求解上述的混响存在时的基于线性约束最小方差的约束方程，利用拉格朗日乘子法，设定目标函数为

L(v)＝v^H(ω)φ_x(ω)v(ω)+λ[v^H(ω)H(ω)-P(ω)] (9)

其中，λ为拉格朗日乘子，当

时，计算得到的最优权矢量为

v(ω)＝(φ_x(ω))^-1H(ω)(H^H(ω)(φ_x(ω))^-1H(ω))P(ω) (10)

为了更好的达到消除混响的效果，在应用线性约束最小方差约束时还加入了维纳滤波，线性约束最小方差后置维纳滤波波束形成法结构图如图3所示，在混响存在时的基于线性约束最小方差约束并应用了维纳滤波算法的最优权矢量V(ω)表示为V(ω)＝v(ω)w(ω)

其中

为第i个阵元接收到的信号的能量谱函数；

步骤3、这种基于线性约束最小方差约束并应用后置维纳滤波的方法采取的方式是利用直达语音和混响语音到达的时间差异，但事实上，不同频段的信号的混响效果与时间并不是完全相同的，而且衰减系数也不是固定不变的，所以信号中各频率的分量产生的混响时间自然是不同的。从频谱上来看，直接到达的语音信号与经反射到达的语音信号之间的频率分布是相同的，其频谱也是混合在一起的，但是对于宽带信号来说，不同频率分量产生的混响效果是不一样的，因此在频域上采取分类的方法对语音信号的混响进行处理是可行的，在分频的思想下，麦克风接收到信号在频域下为x(ω)＝H(ω)s(ω)，其中x(ω)＝[x₁(ω),…,x_M(ω)]，s(ω)＝[s₁(ω),…,s_N(ω)]表示的是N个信号源发出的信号，H(ω)可以表示为

麦克风阵列输出信号为

w_m(ω)为第m个阵元接收到的信号对应的w(ω)；密闭空间内考虑混响情况下的线性约束最小方差后置维纳滤波波束形成的约束方程表示为

minw^H(ω)φ_x(ω)w(ω)

其中w^H(ω)为基于线性约束最小方差约束并应用后置维纳滤波方法的权矢量，

为基于线性约束最小方差约束并应用后置维纳滤波方法中高频段的权矢量，

为基于线性约束最小方差约束并应用后置维纳滤波方法中低频段的权矢量，其基本结构图如图4所示。

利用拉格朗日乘子法对上述约束方程求解，可以得到此时的最优权矢量为

根据以上全频段的权矢量，利用后置维纳滤波输出的信息计算

和

的最优值w(ω)＝αw_H(ω)+(1-α)w_L(ω)，其中，α是加权系数，设维纳滤波器的最优权向量为v(ω)，则在混响存在的情况下，基于时频域线性约束最小方差并应用后置维纳滤波的波束形成算法最优权矢量W(ω)表示为

W(ω)＝(αw_H(ω)+(1-α)w_L(ω))v(ω)

在麦克风阵列的语音增强系统中，各通道信号是相干的，而噪声信号可以认为是不相干的，因此采用后置维纳滤波计算各通道信号之间的互功率谱，并由此确定维纳滤波系数，为得到更好的去混响效果，通过不同的冲激响应将含混响信号分为前期直达信号和后期反射信号，通过两者的功率谱来改进维纳滤波系统，同时，在应用线性约束最小方差时，分别计算高频段和低频段的权矢量，加权得到最优权矢量，削弱了不同频率信号混响效果不同的影响，达到了更好的去混响效果。

可以看出，本发明涉及一种基于麦克风阵列的应用于密闭空间中的混响消除方法。该种方法特别适用于密闭狭小、存在多种声源或干扰的空间。本发明提供的混响消除方法使用麦克风阵列作为信号采集设备，可以提取到语音信号中的空间域信息，达到定向采集的目的，由于语音信号在密闭空间中易产生混响，本方法利用不同频率信号的混响效果不同的特点，对麦克风接收到的信号进行分时和分频处理，达到了较好的混响抑制效果。本发明能有效解决密闭空间中的语音采集问题，在指挥控制系统、会议系统或智能家居领域具有广阔的应用前景。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于麦克风阵列的密闭空间混响消除方法，其特征在于，包括以下步骤：

(3)依据麦克风接收到的信号频带范围的特点，将含混响语音信号分为高频和低频两部分，分别计算各自的滤波器系数；将时域上分解的冲激响应和频域上分解的滤波器系数结合，对步骤1得到的约束方程进行改造，求得最优权矢量的值；

步骤1具体为：

设基准阵元m₀接收到的声源信号为s(t)，则第i个阵元m_i接收到的信号为x_i(t)＝s(t-τ_i)，改写成复数形式为

即

ω₀为表示声音信号的频率，τ_i表示m_i与m₀接收到的信号之间的时间延迟；所述麦克风阵列是由M个完全相同的麦克风组成的均匀线阵，在一个密闭环境中，第m个麦克风接收到的信号为

其中，x_m(k)是第m个麦克风接收到的信号，x_m(k)即为混响语音，s(k)是信号源发出的纯净语音信号，k_a是该信号经过第a次反射后产生的时延，α_a为衰减系数，s(k-ak_a)即为麦克风采集到的s(k)经a次反射后的信号，利用单位冲激函数δ(n)，将上式改写为卷积形式为：

其中，*表示卷积运算，h(k)为该密闭空间的冲激响应，是反映这一空间中混响效果的重要参数之一，其在频域中的表达式为x(ω)＝H(ω)s(ω)，根据式(1)、式(2)表示的含混响语音信号的数学模型，推导出混响存在时麦克风阵列接收到信号的功率谱φ_x(ω)为φ_x(ω)＝H(ω)φ_s(ω)H^T(ω)，其中，φ_s(ω)为目标语音信号的功率谱，依据线性约束最小方差的准则，要求输出功率最小，其输出功率表示为E{|y²(ω)|}＝v(ω)^Hφ_x(ω)v(ω),其中，v(ω)为此种情况下的滤波器系数，由于φ_x(ω)＝E[|x(ω)x^H(ω)|]，因此，混响存在时的基于线性约束最小方差的约束方程表示为：

minv^H(ω)φ_x(ω)v(ω) (3)；

s.t.v^H(ω)H(ω)＝P(ω)

步骤2中，将密闭空间中的冲激响应h(k)按照信号传输的时间分为两部分，其中一部分是信号发出经过较短时间就传输到麦克风的，这部分信号可以看成是信号源经直线直接传输到麦克风的部分h_a(k)，即直达部分，另一部分则是经过了一段时间才传到麦克风的，即为麦克风接收信号中的混响部分h_b(k)，即经反射到达部分，这一分解表示为：

其中，β是均值为零的高斯白噪音，γ是混响的衰减系数，h_a(k)和h_b(k)分别为两种情况下的空间脉冲响应，k_b是该信号经过第b次反射后产生的时延，设x_ma(k)和x_mb(k)分别为麦克风接收到的来自于两个过程的信号，x_ma(k)认为是信号源直接传输过来的信号，x_mb(k)认为是经过反射形成的混响噪声，所以其满足以下条件