CN116106827A

CN116106827A - 一种基于四麦克风阵列和深度学习的声源定位方法

Info

Publication number: CN116106827A
Application number: CN202211727267.1A
Authority: CN
Inventors: 余永升; 章林柯
Original assignee: Haina Kede Hubei Technology Co ltd
Current assignee: Haina Kede Hubei Technology Co ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-05-12

Abstract

本发明公开了一种基于四麦克风阵列和深度学习的声源定位方法，通过搭载四个麦克风的四面体麦克风阵列进行声源信号采集，获取原始声源音频信息；对原始声源数据进行短时傅里叶变换，将其转化为相位谱，将相位谱输入神经网络进行训练，利用训练好的模型对声源角度信息进行预测；本发明的有益效果是：在基于传统的卷积循环神经网络的基础上创新性的采用了残差网络搭配通道注意力机制的模块，这对输入特征的选择性更强，减小了模型的误差，让模型的收敛速度更快，由此获得了更好的声源定位准确度。

Description

一种基于四麦克风阵列和深度学习的声源定位方法

技术领域

本发明涉及声源定位领域，尤其涉及一种基于四麦克风阵列和深度学习的声源定位方法。

背景技术

如果长期处在噪声环境中，对人体健康危害非常大。当前针对噪声的控制主要从噪声源、噪声传播路径和接受者保护三个途径着手。最直接和有效的方法就是从噪声产生源头上控制噪声，而无论采用哪种噪声控制方法，首先要做的就是弄清楚主要噪声源发声位置，进而采取相应的检查和控制措施。其中非接触、远距离传声器阵列技术因为可以直接对噪声源实施可视化识别定位，成为了研究的重点，得到了广泛的应用。

近些年随着人工智能技术的快速发展，基于深度学习的声源定位算法已经成为了研究的热点。目前最流行的是基于卷积循环神经网络的声源定位方法，常被用来在复杂声学环境中进行定位，这类方法通过对各种声信号特征参数建模，构建声源位置和信号特征参数之间的映射关系，从而实现声源定位，但目前该类算法对未知环境(噪声和混响)的泛化能力较低，性能还有待进一步提高。

发明内容

本发明的主要目的在于解决现有技术中对未知环境(噪声和混响)的泛化能力较低，对输入特征筛选较差、缺乏一定的鲁棒性等问题，从而提出一种基于四麦克风阵列和深度学习的声源定位方法。本发明提供的一种基于四麦克风阵列和深度学习的声源定位方法包括以下步骤：

S1、设置麦克风阵列，所述麦克风阵列包括四个呈四面体拓扑结构的麦克风，通过四麦克风阵列传感器进行声源信号采集，从而获取声源点的原始声场信号；

S2、对原始声源数据进行短时傅里叶变换处理，使其转换为STFT相位特征，并将STFT相位特征输入声源定位神经网络模块进行训练，经调优得到训练好的声源定位模型；

S3、将原始声源数据经过短时傅里叶相位变换输入已训练的神经网络模型，从而得到声源点的角度信息。

本发明提供的有益效果是：

本发明创新性的对传统的卷积循环神经网络进行了大幅度的改进，加入了残差块和注意力机制。我们使用残差块来代替普通的二维卷积层来提取更深层次的特征，这防止了梯度消失和爆炸问题，同时引入注意力机制，提高了特征利用效率。以经过短时傅里叶变换的相位分量作为神经网络的输入，利用相位特征对声源点进行回归任务的学习。

本发明的声源定位模型采用残差块加注意力机制的主体特征提取模块，在模型推理过程中该网络块中由于训练参数和结构简单，能较好地节省硬件资源，便于硬件加速，有助于模型能更好地部署到硬件上。同时通过残差块连接循环层再连接全连接层有助于提高模型的收敛速度和减小训练误差，有效克服了现有技术的不足。

附图说明

图1是本发明方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，图1是本发明系统简单结构示意图；

一种基于四麦克风阵列和深度学习的声源定位方法包括以下步骤：

为了方便训练深度学习模型，本发明首先利用短时傅里叶变换将麦克风阵列传感器采集的原始声源信号转化为相位谱。具体地，四个麦克风阵列在空间上呈四面体的拓扑结构，采样频率为48kHz，根据公式(1)可以将原始声源信号x通过短时傅里叶变换转化为时频谱y。

式中：S表示声源个数，L_i(b)表示海宁窗的长度，P表示相邻窗之间的跳跃尺寸，L(b)表示海宁窗的宽度。

将原始音频信号转化为时频图像，是因为STFT的结果包含丰富的相位信息，因此声源位置神经网络模块可以捕捉到不同通道之间的相位变换，从而得到准确的声源位置信息。

所述神经网络模块包含二维卷积块、残差块、注意力块、循环块、全连接块。

声源定位神经网络模块处理过程如下：

STFT相位特征经过二维卷积块得到输入特征m；输入特征m经过残差块，得到叠加信息N，其中残差块利用公式(2)将输入特征m进行处理后，再与输入特征m相加，公式(2)如下：

N＝F(m,ω)+m (2)

其中，ω代表权重；

使用注意力块对叠加信息N进行时频通道选择，放大有用的时频信息，如公式(3):

O＝αSigmoid{Conv[Pooling(N)]} (3)

其中，α代表修正系数，Sigmoid代表Sigmoid函数，Conv代表卷积，Pooling代表全局平均池化；

网络越深，训练就越困难，因为网络参数的微小变换会放大输出并增加错误的成本(即损失)，网络深度在挑战性任务中至关重要。更深层次的模型不仅在分类任务中表现良好，而且对于回归而言也非常重要，网络越深，任务就越容易。引入残差网络的声源定位模型，可以有效的解决网络层数和梯度消失或爆炸之间的问题。

与此同时，加入注意力机制增强模型的学习能力，提高了模型的收敛速度并且减小了训练误差。

具体来说，通过BP训练方法对所述声源定位神经网络模块进行训练，采用MSE计算输出的声源位置与实际声源位置的差值，以便于对输出的预测值进行优化。其中k表示样本数量，y_t表示真实的声源位置，y_p表示预测的声源位置。

依据代价函数不断调整神经网络参数对深度学习模型进行迭代找到最优模型。

最后将采集到的声信号转换为短时傅里叶变换相位谱，输入到训练好的最优模型得到声源位置。另外，可以结合最终声源位置做故障排查或检测等其它工作。

本发明的有益效果是：

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于四麦克风阵列和深度学习的声源定位方法，其特征在于：包括以下步骤：

2.如权利要求1所述的一种基于四麦克风阵列和深度学习的声源定位方法，其特征在于：所述声源定位神经网络模块为主干网络为Res-eca网络，包括：二维卷积块、残差块、注意力块、循环块和全连接块。

3.如权利要求2所述的一种基于四麦克风阵列和深度学习的声源定位方法，其特征在于：声源定位神经网络模块处理过程如下：

N＝F(m,ω)+m (2)

其中，ω代表权重；

O＝αSigmoid{Conv[Pooling(N)]}

有用的时频信息经过循环块和全连接块，得到输出的预测值。

4.如权利要求1所述的一种基于四麦克风阵列和深度学习的声源定位方法，其特征在于：步骤S2中进行短时傅里叶变换处理的过程如下：根据公式(1)将原始声源信号x通过短时傅里叶变换转化为时频图像y：

5.如权利要求1所述的一种基于四麦克风阵列和深度学习的声源定位方法，其特征在于：步骤S2得到训练好的声源定位模型的具体过程如下：在步骤S2，通过神经网络的反向传播训练方法对所述声源角度神经网络模块进行训练，首先计算输出的声源位置与实际声源位置的差值，根据此差值和各梯度调整训练参数，最后再根据代价函数循环迭代不断更新各个参数以让差值最小，最终得到训练好的声源定位模型。

6.如权利要求5所述的一种基于四麦克风阵列和深度学习的声源定位方法，其特征在于：采用MSE计算输出的声源位置与实际声源位置的差值，公式如下：

其中，k表示样本数量，y_t表示真实的声源位置，y_p表示预测的声源位置。