CN116106827A - 一种基于四麦克风阵列和深度学习的声源定位方法 - Google Patents
一种基于四麦克风阵列和深度学习的声源定位方法 Download PDFInfo
- Publication number
- CN116106827A CN116106827A CN202211727267.1A CN202211727267A CN116106827A CN 116106827 A CN116106827 A CN 116106827A CN 202211727267 A CN202211727267 A CN 202211727267A CN 116106827 A CN116106827 A CN 116106827A
- Authority
- CN
- China
- Prior art keywords
- sound source
- microphone array
- neural network
- deep learning
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Algebra (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于四麦克风阵列和深度学习的声源定位方法,通过搭载四个麦克风的四面体麦克风阵列进行声源信号采集,获取原始声源音频信息;对原始声源数据进行短时傅里叶变换,将其转化为相位谱,将相位谱输入神经网络进行训练,利用训练好的模型对声源角度信息进行预测;本发明的有益效果是:在基于传统的卷积循环神经网络的基础上创新性的采用了残差网络搭配通道注意力机制的模块,这对输入特征的选择性更强,减小了模型的误差,让模型的收敛速度更快,由此获得了更好的声源定位准确度。
Description
技术领域
本发明涉及声源定位领域,尤其涉及一种基于四麦克风阵列和深度学习的声源定位方法。
背景技术
如果长期处在噪声环境中,对人体健康危害非常大。当前针对噪声的控制主要从噪声源、噪声传播路径和接受者保护三个途径着手。最直接和有效的方法就是从噪声产生源头上控制噪声,而无论采用哪种噪声控制方法,首先要做的就是弄清楚主要噪声源发声位置,进而采取相应的检查和控制措施。其中非接触、远距离传声器阵列技术因为可以直接对噪声源实施可视化识别定位,成为了研究的重点,得到了广泛的应用。
近些年随着人工智能技术的快速发展,基于深度学习的声源定位算法已经成为了研究的热点。目前最流行的是基于卷积循环神经网络的声源定位方法,常被用来在复杂声学环境中进行定位,这类方法通过对各种声信号特征参数建模,构建声源位置和信号特征参数之间的映射关系,从而实现声源定位,但目前该类算法对未知环境(噪声和混响)的泛化能力较低,性能还有待进一步提高。
发明内容
本发明的主要目的在于解决现有技术中对未知环境(噪声和混响)的泛化能力较低,对输入特征筛选较差、缺乏一定的鲁棒性等问题,从而提出一种基于四麦克风阵列和深度学习的声源定位方法。本发明提供的一种基于四麦克风阵列和深度学习的声源定位方法包括以下步骤:
S1、设置麦克风阵列,所述麦克风阵列包括四个呈四面体拓扑结构的麦克风,通过四麦克风阵列传感器进行声源信号采集,从而获取声源点的原始声场信号;
S2、对原始声源数据进行短时傅里叶变换处理,使其转换为STFT相位特征,并将STFT相位特征输入声源定位神经网络模块进行训练,经调优得到训练好的声源定位模型;
S3、将原始声源数据经过短时傅里叶相位变换输入已训练的神经网络模型,从而得到声源点的角度信息。
本发明提供的有益效果是:
本发明创新性的对传统的卷积循环神经网络进行了大幅度的改进,加入了残差块和注意力机制。我们使用残差块来代替普通的二维卷积层来提取更深层次的特征,这防止了梯度消失和爆炸问题,同时引入注意力机制,提高了特征利用效率。以经过短时傅里叶变换的相位分量作为神经网络的输入,利用相位特征对声源点进行回归任务的学习。
本发明的声源定位模型采用残差块加注意力机制的主体特征提取模块,在模型推理过程中该网络块中由于训练参数和结构简单,能较好地节省硬件资源,便于硬件加速,有助于模型能更好地部署到硬件上。同时通过残差块连接循环层再连接全连接层有助于提高模型的收敛速度和减小训练误差,有效克服了现有技术的不足。
附图说明
图1是本发明方法流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,图1是本发明系统简单结构示意图;
一种基于四麦克风阵列和深度学习的声源定位方法包括以下步骤:
S1、设置麦克风阵列,所述麦克风阵列包括四个呈四面体拓扑结构的麦克风,通过四麦克风阵列传感器进行声源信号采集,从而获取声源点的原始声场信号;
S2、对原始声源数据进行短时傅里叶变换处理,使其转换为STFT相位特征,并将STFT相位特征输入声源定位神经网络模块进行训练,经调优得到训练好的声源定位模型;
S3、将原始声源数据经过短时傅里叶相位变换输入已训练的神经网络模型,从而得到声源点的角度信息。
为了方便训练深度学习模型,本发明首先利用短时傅里叶变换将麦克风阵列传感器采集的原始声源信号转化为相位谱。具体地,四个麦克风阵列在空间上呈四面体的拓扑结构,采样频率为48kHz,根据公式(1)可以将原始声源信号x通过短时傅里叶变换转化为时频谱y。
式中:S表示声源个数,Li(b)表示海宁窗的长度,P表示相邻窗之间的跳跃尺寸,L(b)表示海宁窗的宽度。
将原始音频信号转化为时频图像,是因为STFT的结果包含丰富的相位信息,因此声源位置神经网络模块可以捕捉到不同通道之间的相位变换,从而得到准确的声源位置信息。
所述神经网络模块包含二维卷积块、残差块、注意力块、循环块、全连接块。
声源定位神经网络模块处理过程如下:
STFT相位特征经过二维卷积块得到输入特征m;输入特征m经过残差块,得到叠加信息N,其中残差块利用公式(2)将输入特征m进行处理后,再与输入特征m相加,公式(2)如下:
N=F(m,ω)+m (2)
其中,ω代表权重;
使用注意力块对叠加信息N进行时频通道选择,放大有用的时频信息,如公式(3):
O=αSigmoid{Conv[Pooling(N)]} (3)
其中,α代表修正系数,Sigmoid代表Sigmoid函数,Conv代表卷积,Pooling代表全局平均池化;
网络越深,训练就越困难,因为网络参数的微小变换会放大输出并增加错误的成本(即损失),网络深度在挑战性任务中至关重要。更深层次的模型不仅在分类任务中表现良好,而且对于回归而言也非常重要,网络越深,任务就越容易。引入残差网络的声源定位模型,可以有效的解决网络层数和梯度消失或爆炸之间的问题。
与此同时,加入注意力机制增强模型的学习能力,提高了模型的收敛速度并且减小了训练误差。
具体来说,通过BP训练方法对所述声源定位神经网络模块进行训练,采用MSE计算输出的声源位置与实际声源位置的差值,以便于对输出的预测值进行优化。其中k表示样本数量,yt表示真实的声源位置,yp表示预测的声源位置。
依据代价函数不断调整神经网络参数对深度学习模型进行迭代找到最优模型。
最后将采集到的声信号转换为短时傅里叶变换相位谱,输入到训练好的最优模型得到声源位置。另外,可以结合最终声源位置做故障排查或检测等其它工作。
本发明的有益效果是:
本发明创新性的对传统的卷积循环神经网络进行了大幅度的改进,加入了残差块和注意力机制。我们使用残差块来代替普通的二维卷积层来提取更深层次的特征,这防止了梯度消失和爆炸问题,同时引入注意力机制,提高了特征利用效率。以经过短时傅里叶变换的相位分量作为神经网络的输入,利用相位特征对声源点进行回归任务的学习。
本发明的声源定位模型采用残差块加注意力机制的主体特征提取模块,在模型推理过程中该网络块中由于训练参数和结构简单,能较好地节省硬件资源,便于硬件加速,有助于模型能更好地部署到硬件上。同时通过残差块连接循环层再连接全连接层有助于提高模型的收敛速度和减小训练误差,有效克服了现有技术的不足。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于四麦克风阵列和深度学习的声源定位方法,其特征在于:包括以下步骤:
S1、设置麦克风阵列,所述麦克风阵列包括四个呈四面体拓扑结构的麦克风,通过四麦克风阵列传感器进行声源信号采集,从而获取声源点的原始声场信号;
S2、对原始声源数据进行短时傅里叶变换处理,使其转换为STFT相位特征,并将STFT相位特征输入声源定位神经网络模块进行训练,经调优得到训练好的声源定位模型;
S3、将原始声源数据经过短时傅里叶相位变换输入已训练的神经网络模型,从而得到声源点的角度信息。
2.如权利要求1所述的一种基于四麦克风阵列和深度学习的声源定位方法,其特征在于:所述声源定位神经网络模块为主干网络为Res-eca网络,包括:二维卷积块、残差块、注意力块、循环块和全连接块。
3.如权利要求2所述的一种基于四麦克风阵列和深度学习的声源定位方法,其特征在于:声源定位神经网络模块处理过程如下:
STFT相位特征经过二维卷积块得到输入特征m;输入特征m经过残差块,得到叠加信息N,其中残差块利用公式(2)将输入特征m进行处理后,再与输入特征m相加,公式(2)如下:
N=F(m,ω)+m (2)
其中,ω代表权重;
使用注意力块对叠加信息N进行时频通道选择,放大有用的时频信息,如公式(3):
O=αSigmoid{Conv[Pooling(N)]}
其中,α代表修正系数,Sigmoid代表Sigmoid函数,Conv代表卷积,Pooling代表全局平均池化;
有用的时频信息经过循环块和全连接块,得到输出的预测值。
5.如权利要求1所述的一种基于四麦克风阵列和深度学习的声源定位方法,其特征在于:步骤S2得到训练好的声源定位模型的具体过程如下:在步骤S2,通过神经网络的反向传播训练方法对所述声源角度神经网络模块进行训练,首先计算输出的声源位置与实际声源位置的差值,根据此差值和各梯度调整训练参数,最后再根据代价函数循环迭代不断更新各个参数以让差值最小,最终得到训练好的声源定位模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211727267.1A CN116106827A (zh) | 2022-12-30 | 2022-12-30 | 一种基于四麦克风阵列和深度学习的声源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211727267.1A CN116106827A (zh) | 2022-12-30 | 2022-12-30 | 一种基于四麦克风阵列和深度学习的声源定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116106827A true CN116106827A (zh) | 2023-05-12 |
Family
ID=86263184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211727267.1A Pending CN116106827A (zh) | 2022-12-30 | 2022-12-30 | 一种基于四麦克风阵列和深度学习的声源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116106827A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117368847A (zh) * | 2023-12-07 | 2024-01-09 | 深圳市好兄弟电子有限公司 | 基于麦克风射频通信网络的定位方法及系统 |
-
2022
- 2022-12-30 CN CN202211727267.1A patent/CN116106827A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117368847A (zh) * | 2023-12-07 | 2024-01-09 | 深圳市好兄弟电子有限公司 | 基于麦克风射频通信网络的定位方法及系统 |
CN117368847B (zh) * | 2023-12-07 | 2024-03-15 | 深圳市好兄弟电子有限公司 | 基于麦克风射频通信网络的定位方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11024324B2 (en) | Methods and devices for RNN-based noise reduction in real-time conferences | |
CN107644650B (zh) | 一种基于渐进串行正交化盲源分离算法的改进声源定位方法及其实现系统 | |
CN102103200B (zh) | 一种分布式非同步声传感器的声源空间定位方法 | |
CN108318862B (zh) | 一种基于神经网络的声源定位方法 | |
CN109782231B (zh) | 一种基于多任务学习的端到端声源定位方法及系统 | |
JPH02160298A (ja) | 雑音除去方法、それに用いるニューラルネットワークの学習方法 | |
CN108109617A (zh) | 一种远距离拾音方法 | |
CN102411138A (zh) | 一种机器人声源定位方法 | |
CN113472390B (zh) | 一种基于深度学习的跳频信号参数估计方法 | |
CN109597021B (zh) | 一种波达方向估计方法及装置 | |
CN116106827A (zh) | 一种基于四麦克风阵列和深度学习的声源定位方法 | |
WO2021237958A1 (zh) | 基于特征提取和神经网络的水声目标测距方法 | |
Yang et al. | Learning deep direct-path relative transfer function for binaural sound source localization | |
Yin et al. | Underwater acoustic target classification based on LOFAR spectrum and convolutional neural network | |
Zhang et al. | Multi-features fusion for underwater acoustic target recognition based on convolution recurrent neural networks | |
CN117169812A (zh) | 一种基于深度学习和波束形成的声源定位方法 | |
CN114927141B (zh) | 异常水声信号的检测方法及系统 | |
Zhang et al. | Sound event localization and classification using WASN in Outdoor Environment | |
CN107564546A (zh) | 一种基于位置信息的语音端点检测方法 | |
Hu et al. | A generalized network based on multi-scale densely connection and residual attention for sound source localization and detection | |
KR102329353B1 (ko) | 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치 | |
Song et al. | Decoupling Temporal Convolutional Networks Model in Sound Event Detection and Localization | |
Song et al. | Underwater Acoustic Signal Noise Reduction Based on a Fully Convolutional Encoder-Decoder Neural Network | |
CN114822584B (zh) | 一种基于积分改进广义互相关的传动装置信号分离方法 | |
CN116996148B (zh) | 基于生成对抗网络的极地环境水下声信道建模方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |