CN112394324A

CN112394324A - 一种基于麦克风阵列的远距离声源定位的方法及系统

Info

Publication number: CN112394324A
Application number: CN202011130564.9A
Authority: CN
Inventors: 黄绍锋; 向阳; 靳冠军; 刘芳
Original assignee: Xi'an Hepu Accoustic Technology Co ltd
Current assignee: Xi'an Hepu Accoustic Technology Co ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-02-23

Abstract

本发明属于声音拾取技术领域，公开了一种基于麦克风阵列的远距离声源定位的方法及系统。方法包括：步骤1：获取多路带噪信号，对多路带噪信号进行预处理，得到多路待测声信号；步骤2：对多路待测声信号中任一路待测声信号的当前帧进行判断，若当前帧的信噪比满足第一阈值且当前帧的能量满足第二阈值，则获得所有路待测声信号的当前帧，执行步骤3；否则，返回执行步骤2；步骤3：对所有路待测声信号的前帧进行分类，得到多路目标声源信号的当前帧；步骤4：对多路目标声源信号进行互相关计算，得到多个互功率谱；步骤5：获取互功率谱中峰值的最大值，根据峰值的最大值对应的时延进行角度反推，获得目标声源信号的方向信息。

Description

一种基于麦克风阵列的远距离声源定位的方法及系统

技术领域

本发明属于声音拾取技术领域，具体涉及一种基于麦克风阵列的远距离声源定位的方法及系统。

背景技术

声音是感知世界的重要信息，是与外界环境交互的重要方式。根据不同的声音，可以判断出声源的位置信息，并获取特定的含义。某一些特定的情景，需要机器准确的确定某种特定的声音，并能够定位声源与设备的位置关系。传统的单麦克风输入很难满足此应用，因此，基于麦克风阵列的声源定位得到快速的发展。

麦克风阵列(Microphone Array，MA)主要包含三种结构：一维线阵列、一维面阵列和三维立体阵列。三维立体阵列涉及算法的复杂度高，不易实现，一维线阵列只能实现局部定位具有局限性，因此，利用一维面阵列进行识别能够满足特殊情境下对准确定位的需求。由于实际环境的复杂性，麦克风阵列的接收信号在获取声音信号的同时，不可避免地会受到来自传输媒介引入的噪声、环境的噪声、目标声源是宽带信号，频带范围是400－6000Hz，宽带信号由于阵列输出的相位差不仅依赖于波达方向，而且还依赖于信号频率。因此，宽带信号阵列处理需要解决算法计算量大以及如何更加合理地利用宽带信号波达估计等问题。

目前利用宽带信号阵列进行声源检测的方式有多种，各类方式主要根据混合噪声的类型进行分类，包括：通过跟踪信号的功率变化确定是否存在声源信号进行分类、根据声源和预测编码的自相关性来判别的、通过机器学习的方式进行分类等。根据阵列信号处理的理论，麦克风阵列的拓扑结构和基于阵列的定位算法是影响麦克风阵列声源定位系统的关键因素。麦克风阵列的设计主要考虑阵列结构、阵元数目、信号噪声比、信号干扰比以及很多其他的因素。本发明的阵列的几何结构和几何特征决定阵列空域滤波的性能，阵列的几何结构形成了该阵列工作时性能的基本限制，从而确定了阵列方向图。

声源检测完成后确定目标声源的位置信息的定位方法有三类：(1)，基于高分辨率的空间谱估计算法。特征子空间算法和子空间拟合算法是核心部分，但该方法识别频段较窄，且信号要求为平稳信号，算法复杂度高。(2)基于最大输出功率的可控波束形成算法。该方法通过比较阵列在各个方向上的输出功率，视最大功率的波束方向为目标声源方向，该系统易受噪声干扰。(3)基于时延估计的定位算法。该方法通过目标声源到麦克风阵列不同麦克风之间的距离差，结合麦克风阵列自身的位置信息，估算出目标声源的位置。该方法具有原理简单，定位精度较高，易于实现等优点，但时延估计的误差会影响整个系统的精度。

发明内容

本发明的目的在于提供一种基于麦克风阵列的远距离声源采集和定位的方法及系统，用以解决现有技术中的定位算法准确性不足的问题。

为了实现上述任务，本发明采用以下技术方案：

一种基于麦克风阵列的远距离声源定位的方法，包括如下步骤：

步骤1：获取同一个目标声源的多路带噪信号，对多路带噪信号进行预处理，得到多路待测声信号，所述预处理包括收音量控制和滤波；

步骤2：对多路待测声信号中任一路待测声信号的当前帧进行判断，若当前帧的信噪比满足第一阈值且当前帧的能量满足第二阈值，则获得所有路待测声信号同一时刻的当前帧，执行步骤3；否则，令该任一路待测声信号的下一帧为该任一路待测声信号的当前帧返回执行步骤2；

步骤3：对所有路待测声信号的同一时刻的当前帧利用GMM-UBM模型进行分类，得到多路目标声源信号的当前帧；

步骤4：利用式Ⅰ对多路目标声源信号进行互相关计算，得到多个互相关函数；

其中，y_m表示第m路目标声源信号的当前帧，y_n表示第n路目标声源信号的当前帧，τ为第m路和第n路信号间的时延，

为y_m和y_n的互相关函数，φ(y_my_n)为y_m和y_n的功率谱密度函数，

为y_m和y_n的加权函数；

步骤5：获取步骤4得到的所有互相关函数中峰值的最大值，根据峰值的最大值对应的时延进行角度反推，获得目标声源的方向信息。

进一步的，收音量控制采用AGC自动增益控制方法，滤波采用BP滤波器和AAF滤波器。

进一步的，步骤2中当前帧的信噪比满足第一阈值是指：分别计算当前帧的先验信噪比和后验信噪比，再对当前帧的先验信噪比进行平滑操作得到C，对当前帧的后验信噪比进行平滑操作得到D，并进行判断，若D＞μ₁C则满足第一阈值，其中，μ₁为系数，取值范围为(0,1)。

进一步的，步骤2中当前帧的能量满足第二阈值是指：计算当前帧的能量平均值，再对当前帧的能量平均值进行平滑操作得到E，并进行判断，若E＞μ₂E₀则满足第二阈值，其中，μ₂为系数，取值范围为(0,1)，E₀为固定门限。

进一步的，步骤1采用麦克风阵列获取多路带噪信号，所述麦克风阵列包括多个麦克风阵元，在同一直线上每个麦克风阵元的间隔距离相同。

进一步的，步骤5中根据峰值的最大值对应的时延利用式Ⅱ进行角度反推，获得目标声源信号的方向信息是指：

其中，

为目标声源信号与麦克风阵列法线的夹角，t为峰值的最大值对应的时延，d为相邻两个麦克风阵元的间隔距离，c为声速。

进一步的，所述麦克风阵列包括8个麦克风阵元，其中7个均匀分布在同一个圆的圆周上，其余1个分布在圆心上。

一种基于麦克风阵列的远距离声源定位的系统，麦克风阵列采集单元、信号预处理单元、判断单元、目标声源信号分类单元和定位单元；

所述麦克风阵列采集单元用于获取同一个目标声源的多路带噪信号，其中，所述麦克风阵列包括多个麦克风阵元，每个麦克风阵元采集一路带噪信号；

所述信号预处理单元用于对多路带噪信号进行预处理，得到多路待测声信号，所述预处理包括收音量控制和滤波；

所述判断单元用于对多路待测声信号中任一路待测声信号的当前帧进行判断，若当前帧的信噪比满足第一阈值且当前帧的能量满足第二阈值，则获得所有路待测声信号同一时刻的的当前帧，执行分类单元；否则，令该任一路待测声信号的下一帧为该任一路待测声信号的当前帧返回执行判断单元；

所述目标声源信号分类单元用于对所有路待测声信号的同一时刻的当前帧利用GMM-UBM模型进行分类选，得到多路目标声源信号的当前帧；

所述定位单元用于利用式Ⅰ对多路目标声源信号进行互相关计算，得到多个互相关函数；获取所有互相关函数中峰值的最大值，根据峰值的最大值对应的时延进行角度反推，获得目标声源的方向信息；

为y_m和y_n的加权函数。

进一步的，在同一直线上每个麦克风阵元的间隔距离相同。

本发明与现有技术相比具有以下技术特点：

(1)本发明中远距离声源采集的系统对于噪声的判别采用多个模块综合分析。BP(band-pass)滤波器会滤除不相关波段的信号；AGC(Automatic Gain Control)自动增益控制有效增强了远端目标信号的拾取，为算法处理提供了有效输入；AAF(Anti-aliasingfilter)滤波器用于屏蔽其他频段的设备对系统的干扰，增加系统的鲁棒性；信噪比能量检测模块进一步判断是否存在声源信息。上述综合分析后信号会进入机器学习处理模块，该模块通过大量的数据进行有监督学习，训练出的模型可有效的分类目标声源信号和噪声信号，极大的提升了系统的准确性。

(2)本发明采用优化的时延估计定位算法，大大的提升了时延估计的准确性。

(3)本发明的远距离声源采集的系统采用一维面阵的方式，可以实现全方位的较精确定位，较好的抑制了接受语音主轴方向之外的背景噪声与反射回声，从而达到了增强远距离拾音的灵敏度与清晰度。

(4)本发明能够实现识别定位远距离能量较大冲击波，具有实际的应用价值，在工业，民用和军事领域有着广泛应用与需求，本发明是基于声源检测与定位系统的研究，包括视频电话，视频会议系统，电话会议系统。还有在强噪声环境下语音采集的声源定位技术，语音识别和说话人识别软件处理，大型网站的会议记录和助听器等。这些产品应用于各种实际的社会生活场合，已经显示出巨大的优势和市场潜力。

附图说明

图1所示为本发明中定位方法流程图；

图2所示为本发明麦克风阵列的示意图。

具体实施方式

首先对本发明中出现的技术词汇进行解释：

GMM-UBM模型：高斯混合模型，模型采用有监督学习的方式，对于目标声源数据量少的样本有较好的效果，在本发明该模型为训练好的模型用于进行目标声源和噪声的分类。该模型训练流程如下：

(1)应用场景分析；确定目标声源一些的基本属性，诸如：响度，频率等；确定干扰的噪声类别；诸如：风声，脚步声等；

(2)采集数据；根据(1)中所述采集对应的语音数据，要求分布尽可能全；

(3)数据清洗；此步骤包括对数据的筛选、标识和结构的设计；包括对样本的标注，获取目标声源信号标签和噪声标签；

(4)训练；此步骤包含模型的训练和参数的优化；具体包括设置训练参数，该模型为二分类输出，分别为目标声源信号和噪声。

在本实施例中公开了一种基于麦克风阵列的远距离声源定位的方法，采用麦克风阵列上不同的麦克风阵元采集同一个目标声源的多路带噪信号，其中每个麦克风阵元采集一路信号且相邻两个麦克风所采集到的两路信号之间具有时延，再通过滤波和检测，最终获得目标声源信号的方向信息，包括如下步骤：

为y_m和y_n的加权函数；

步骤5：获取步骤4得到的所有互功率谱中峰值的最大值，根据峰值的最大值对应的时延进行角度反推，获得目标声源信号的方向信息。

具体的，所述收音量控制采用AGC自动增益控制方法，AGC自动增益控制方法能够对麦克风阵列输入信号进行收音量的自适应控制，使信号控制在良好的信噪比区间内，使得收音量不会限幅，能够有效的减小信号的失真率。具体的，收音量控制在-3db左右。

具体的，所述滤波为通过BP滤波器和AAF滤波器抑制噪声，在滤波前需要对带噪信号进行频域转换如式(2)所示，对式(1)进行拆帧，加窗，快速傅里叶变换，得到频率信号：

其中，h表示窗函数，T表示窗的长度，M表示相邻帧步进长度，n表示第n帧，k表示第k路信号，大写的X，Y，A，B均为信号的频域表示。

具体的，本实施例的目标声源频段为400Hz--6000Hz，BP滤波器和AAF 滤波器会抑制非此频率波段的信号，一定程度上改善信号的输入。

具体的，步骤2中当前帧的信噪比满足第一阈值是指：分别计算当前帧的先验信噪比和后验信噪比，再对当前帧的先验信噪比进行平滑操作得到C，对当前帧的后验信噪比进行平滑操作得到D，并进行判断，若D＞μ₁C则满足第一阈值，其中，μ₁为系数，取值范围为(0,1)。

具体的，所述带噪信号使用式(1)表示：

y(t)＝x(t)+a(t)+b(t) 式(1)

其中，y(t)表示时域带噪信号，x(t)表示目标声源的纯净信号，a(t)表示非稳态噪声，b(t)表示背景噪声，t表示为离散的时间点。

具体的，信号当前帧的先验信噪比使用式(2)表示：

其中为λ_x为语音信号的功率谱密度，λ_d为准平稳噪声的功率谱密度，k表示频点号，n表示帧号。

具体的，信号当前帧的后验信噪比使用式(3)表示：

具体的，当前帧的先验信噪比进行平滑操作得到C如式(4)所示：

C＝aC(n-1)+(1-a)C 式(4)

其中，a为遗忘因子，取值范围为0到1之间。如果的当前先验和后验信噪比满足条件，并持续n帧以上，则认为当前帧包含语音信号

具体的，步骤2中当前帧的能量满足第二阈值是指：计算当前帧的能量平均值，再对当前帧的能量平均值进行平滑操作得到E，并进行判断，若E＞μ₂E₀则满足第二阈值，其中，μ₂为系数，取值范围为(0,1)，E₀为固定门限，取值范围为为根据经验设定的固定门限，本实施例中为800。

具体的，当前帧的能量平均值如式(5)所示：

其中，E(n)表示第n帧上各个频点上能量的平均值，K为当前帧上频点总数。

具体的，步骤1采用麦克风阵列获取多路带噪信号，所述麦克风阵列包括多个麦克风阵元，在同一直线上每个麦克风阵元的间隔距离相同。

具体的，步骤5中根据峰值的最大值对应的时延利用式Ⅱ进行角度反推，获得目标声源信号的方向信息是指：

其中，

为目标声源信号与麦克风阵列法线的夹角，t为峰值的最大值对应的时延，d为相邻两个麦克风阵元的间隔距离，本实施例中为8cm，此间隔设计与阵列相关，c为声速。c为声音在准大气压和15℃条件下的传播速度，即c＝340m/s。

因为来自同一声源的信号必然存在一定的相关性,本方法根据这一特点，通过计算不同阵元接收到的声源信号之间相关函数，利用数学中相关函数的性质,选取使互相关函数最大的时刻，即可估算出不同阵元间的时延差值。

具体的，所述麦克风阵列包括8个麦克风阵元，其中7个均匀分布在同一个圆的圆周上，其余1个分布在圆心上。

本实施例中还公开了一种基于麦克风阵列的远距离声源定位的系统，麦克风阵列采集单元、信号预处理单元、判断单元、目标声源信号分类单元和定位单元；

所述麦克风阵列采集单元用于获取多路带噪信号，其中，所述麦克风阵列包括多个麦克风阵元，每个麦克风阵元采集一路带噪信号；

所述定位单元用于利用式Ⅰ对多路目标声源信号进行互相关计算，得到多个互功率谱；获取所有互功率谱中峰值的最大值，根据峰值的最大值对应的时延进行角度反推，获得目标声源信号的方向信息；

其中，y_m表示第m路目标声源信号的当前帧，y_n表示第n路目标声源信号的当前帧，τ为两路信号间的时延，

为y_m和y_n的互相关函数，φ(y_my_n) 为y_m和y_n的功率谱，

为y_m和y_n的加权函数。

本系统的麦克风阵列是由麦克风作为阵元按一定的方法排列组成的阵列。根据声源离麦克风的距离远近,可将声源传递的波分为近场波和远场波.假设声源距麦克风阵列较远,产生的是远场波。此时可以将远场波近似看作成平面波。此外,为了简化分析,将麦克风阵列抽象为均匀线性阵列(Uniform Linear Array,ULA),该阵列由同一直线上距离相同间隔的多个麦克风组成。构建的麦克风阵列模型如图2所示。

本系统采用机器学习处理单元进行目标声源和噪声的分类，模型采用有监督学习的方式，对采集的噪声样本和目标声源样本进行标注，训练。得到分类器模型，可有效的分类噪声和目标声源，识别率达95％以上。

Claims

1.一种基于麦克风阵列的远距离声源定位的方法，其特征在于，包括如下步骤：

为y_m和y_n的加权函数；

2.如权利要求1的基于麦克风阵列的远距离声源定位的方法，其特征在于，收音量控制采用AGC自动增益控制方法，滤波采用BP滤波器和AAF滤波器。

3.如权利要求1的基于麦克风阵列的远距离声源定位的方法，其特征在于，步骤2中当前帧的信噪比满足第一阈值是指：分别计算当前帧的先验信噪比和后验信噪比，再对当前帧的先验信噪比进行平滑操作得到C，对当前帧的后验信噪比进行平滑操作得到D，并进行判断，若D＞μ₁C则满足第一阈值，其中，μ₁为系数，取值范围为(0,1)。

4.如权利要求1的基于麦克风阵列的远距离声源定位的方法，其特征在于，步骤2中当前帧的能量满足第二阈值是指：计算当前帧的能量平均值，再对当前帧的能量平均值进行平滑操作得到E，并进行判断，若E＞μ₂E₀则满足第二阈值，其中，μ₂为系数，取值范围为(0,1)，E₀为固定门限。

5.如权利要求1的基于麦克风阵列的远距离声源定位的方法，其特征在于，步骤1采用麦克风阵列获取多路带噪信号，所述麦克风阵列包括多个麦克风阵元，在同一直线上每个麦克风阵元的间隔距离相同。

6.如权利要求5的基于麦克风阵列的远距离声源定位的方法，其特征在于，步骤5中根据峰值的最大值对应的时延利用式Ⅱ进行角度反推，获得目标声源信号的方向信息是指：

其中，

7.如权利要求5的基于麦克风阵列的远距离声源定位的方法，其特征在于，所述麦克风阵列包括8个麦克风阵元，其中7个均匀分布在同一个圆的圆周上，其余1个分布在圆心上。

8.一种基于麦克风阵列的远距离声源定位的系统，其特征在于，麦克风阵列采集单元、信号预处理单元、判断单元、目标声源信号分类单元和定位单元；

为y_m和y_n的加权函数。

9.如权利要求8的基于麦克风阵列的远距离声源定位的系统，其特征在于，在同一直线上每个麦克风阵元的间隔距离相同。

10.如权利要求9的基于麦克风阵列的远距离声源定位的系统，其特征在于，所述麦克风阵列包括8个麦克风阵元，其中7个均匀分布在同一个圆的圆周上，其余1个分布在圆心上。