CN114994608B - 基于深度学习的多设备自组织麦克风阵列声源定位方法 - Google Patents
基于深度学习的多设备自组织麦克风阵列声源定位方法 Download PDFInfo
- Publication number
- CN114994608B CN114994608B CN202210421855.6A CN202210421855A CN114994608B CN 114994608 B CN114994608 B CN 114994608B CN 202210421855 A CN202210421855 A CN 202210421855A CN 114994608 B CN114994608 B CN 114994608B
- Authority
- CN
- China
- Prior art keywords
- sound source
- microphone
- nodes
- estimation
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000003491 array Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000010587 phase diagram Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000012216 screening Methods 0.000 abstract description 2
- 230000004807 localization Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Radar, Positioning & Navigation (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于深度学习的多设备自组织麦克风阵列声源定位方法,经过对语音数据的预处理并提取相位图特征后,系统首先通过卷积神经网络得到方位角度估计。接着依据神经网络输出的Softmax值,使用节点选择算法对多个节点的方位角估计结果进行筛选,挑选出认为声源位置估计更准确的麦克风节点。然后使用三角测量法从每两个节点中粗略的估计出声源的位置,最后利用均值漂移聚类算法从大量粗略估计的声源位置中得到最终准确的声源位置估计。本发明可以在降低算法计算复杂度的同时可以达到提升声源定位精度的目的。
Description
技术领域
本发明属于语音处理技术领域,具体涉及一种深度学习声源定位方法。
背景技术
声源定位(Sound Source Localization,SSL)是一种根据麦克风阵列记录下的多通道声信号,估计一个或者多个声源相对于某个参考坐标系的位置的方法。近年来,随着深度学习被引入到语音处理的领域,数据驱动的深度学习技术所具有的诸多优势也体现在了声源定位算法当中。由于多数情况下均会假设场景为远场条件,而单个麦克风阵列只能确定声源的方向信息。为了确定声源在二维或者三维空间中的坐标,使用多个麦克风阵列进行声源定位是一种可行的方案。目前基于多麦克风阵列的声源定位方法主要分为以下两类:基于经典信号处理的方法和基于深度学习的方法。
基于经典信号处理的方法主要分为以下四类:1.基于能量的声源定位方法,首先对声源发出声音在空间中的能量衰减进行建模,通过结合声源和麦克风位置与声能变化,得到估计的声源位置;2.基于到达时间(time-of-arrival,TOA)方法根据同一声源发出的声音到不同麦克风节点的传播时间的不同来计算声源和麦克风节点之间的距离,通过这种方法确定一系列以节点为中心的圆,进一步通过多个圆的交点确定估计的声源位置;3.当每个麦克风节点有一个麦克风阵列时,基于到达时间差(time-difference-of-arrival,TDOA)的声源定位方法根据同一声源所发出的声音到达同一阵列上的不同麦克风的到达时间的不同来计算到达时间差,通过这种方法确定一系列以麦克风节点位置为焦点的双曲线,进一步通过双曲线的交点估计声源的位置。4.基于到达方向(direction-of-arrival,DOA)的声源定位方法是通过估计每个节点的麦克风阵列接收声源信号的方向得到声源相对于麦克风阵列的角度,这样多个节点可以确定出一系列从声源到不同麦克风节点的径向线,这些线的交点就是估计的声源位置。
以上方法存在各自的局限性。首先,由于实际房间中的声音传播比较复杂,基于能量的声源定位方法很难建立出符合实际情况的声音衰减模型,因此在室内条件下方法的定位误差较大。基于TOA的声源定位方法要求声源和每个节点上的麦克风之间的时钟是精确同步的,这样才可以在每个节点的麦克风处检测到信号的传播时间,这需要声源和麦克风阵列之间的协同。然而在一般情况下,当需要定位一些未知的声音信号如语音和一些不可预料的声音事件时,使用这种方法估计到达时间是非常不准确的。相比于基于TOA的声源定位方法,基于TDOA的声源定位方法不需要保证声源和麦克风之间的时钟同步,只需要保证每个节点的麦克风之间是时钟同步的即可。但是基于TDOA的声源定位方法存在以下的两个问题:1.对于混响和噪声的干扰非常敏感,尤其是混响存在的情况下,会导致TDOA的估计不准确,进一步导致在室内场景下估计的声源位置精度较差;2.由于声音在空气中的传播速度受到多种条件的影响,如温度、湿度等,导致估计时延的这类方法必然存在一定的误差。基于DOA的声源定位方法也需要保证每个节点的麦克风之间是时钟同步,这类方法同样也容易受到混响和噪声的干扰。
近年来,由于深度学习的发展,基于深度学习的方法展现了以下优势:1.在强混响和低信噪比情况下仍然具备较高的定位精度;2.可以通过训练使得声源定位方法具备较好的泛化性能。2019年,Le Moing等人借助编解码器结构,提出了一种基于网格的端到端的声源定位方法,该方法一方面提出了两种新的基于深度神经网络的声源位置表示方法,将基于概率分布和基于分类任务的网格作为神经网络的输出,另一方面对编解码器进行改进,使麦克风阵列之间共享一个编码器,网络中还加入了配对麦克风之间特征的网络。虽然作者在2021年的另一篇文章中中对网络进行了改进使得可以适应不同的麦克风阵列位置,但是该方法存在以下两个问题:1.方法对麦克风阵列的个数有要求,无法推广到数目随机的麦克风阵列上;2.方法在仿真的理想实验条件下进行,没有测试方法在低信噪比和强混响条件下的性能。2021年,Wu等人借助深度神经网络及编解码器结构,提出了一种端到端的声源定位方法。该方法使用了两个并行的解码器分别用于去多径和预测声源位置,通过联合训练使得编码器具备隐式的去多径能力,从而提高系统对声源的定位精度。但是该方法存在以下两个问题:1.系统要求测试阶段的房间大小与训练阶段保持一致,限制了该方法对不同声学场景的泛化能力;2.对麦克风阵列的个数及布放位置有要求,算法不能推广到数目及布防均随机的麦克风阵列上。
发明内容
为了克服现有技术的不足,本发明提供了一种基于深度学习的多设备自组织麦克风阵列声源定位方法,发明方法框架图如图1所示。经过对语音数据的预处理并提取相位图特征后,系统首先通过卷积神经网络得到方位角度估计。接着依据神经网络输出的Softmax值,使用节点选择算法对多个节点的方位角估计结果进行筛选,挑选出认为声源位置估计更准确的麦克风节点。然后使用三角测量法从每两个节点中粗略的估计出声源的位置,最后利用均值漂移聚类(mean shift clustering)算法从大量粗略估计的声源位置中得到最终准确的声源位置估计。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:在室内的声学场景中随机布置多个包含有麦克风阵列的节点,并放置一个随机位置的声源;
步骤2:对麦克风采集到的语音数据进行预处理和提取短时傅里叶变换特征STFT,在每个时频点上观测到的信号用复数形式进行表示:
其中Yi(t,f)表示第i个麦克风采集到信号的短时傅里叶变换,Ai(t,f)和分别表示短时傅里叶变换的幅度分量和相位分量,t和f分别表示时间帧和频率;
在麦克风采集到信号的短时傅里叶变换特征中,和波达方向估计相关的特征是相位分量;对于多通道语音的每个时间帧,以时间帧对应的相位谱特征为基础,得到一个相位图特征M×K,其中M代表麦克风阵列中的阵元个数,K代表频点的个数;进一步将所有时间帧的相位图特征叠加在一起得到一个训练语句的相位图特征M×K×N,其中N表示一个训练语句中所有时间帧的个数;
步骤3:构造卷积神经网络(convolutional neural networks,CNN),该卷积神经网络由三个卷积层和两个全连接层依次组成,每层的激活函数均为ReLU函数;
将每个语音帧的相位图特征输入卷积神经网络,在神经网络的输出层,用Softmax激活函数进行分类,通过Softmax函数生成了I个类别的Softmax值;所述I个类别是根据DOA方法每间隔一定角度将声音传播方向作为一类,总共分成I类;
步骤4:将每个节点在测试集语句上每帧平均的Softmax值的最大值作为这个句子通过波达方向估计算法处理后的该方位估计角度的准确度;该最大值越高,则认为该节点上的波达方向估计更为准确;
步骤5:按照步骤4的方法将Softmax值作为依据,利用全节点选择算法或N-best节点选择算法,从多个节点中选择P个节点的DOA估计参与后续的声源位置估计;
步骤6:通过三角测量法,将P个节点的DOA估计值作为方位线,将每两个节点的方位线两两交叉粗略估计出多个声源可能存在的位置;
步骤7:利用均值漂移聚类算法从所有粗略估计的声源位置中得到最终准确的声源位置。
本发明的有益效果如下:
1、相比于传统的麦克风阵列,自组织麦克风阵列具备以下两个显著的优势:首先,由于在空间中随机布置了多个自组织麦克风节点,距离声源较近的范围内大概率存在一个或多个麦克风阵列,这样可以获得更高的定位精度。其次,自组织麦克风阵列的性能不受设备物理大小的限制,手机、智能音箱、电脑等设备上的麦克风均可以构建自组织麦克风阵列。
2、本发明将基于深度学习的声源方位角估计算法和基于经典信号处理的自组织麦克风阵列算法结合,利用多个随机布置的麦克风阵列的位置和声信号信息进行声源位置的估计。该发明方法对不同声学环境具有较好的泛化能力。此外该方法对麦克风阵列的个数没有要求,可以推广到数目随机的自组织麦克风阵列上。
3、本发明研究了一种基于Softmax的节点选择算法,在降低算法计算复杂度的同时可以达到提升声源定位精度的目的。
附图说明
图1为本发明方法框架图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明提出了一种基于深度学习的多设备自组织麦克风阵列声源定位方法,将自组织麦克风阵列参与声源定位任务中,并将基于深度学习的声源方位角估计算法和基于经典信号处理的自组织麦克风阵列算法结合。使得该方法对不同声学环境具有较好的泛化能力,同时该方法可以推广到数目随机的自组织麦克风阵列上。
一种基于深度学习的多设备自组织麦克风阵列声源定位方法,包括如下步骤:
步骤1:分别在三种室内的声学场景中随机布置多个包含有麦克风阵列的节点,并放置一个随机位置的声源;
步骤2:对麦克风采集到的语音数据进行预处理和提取短时傅里叶变换特征(short-time Fourier transform,STFT),在每个时频点上观测到的信号用复数形式进行表示:
其中Yi(t,f)表示第i个麦克风采集到信号的短时傅里叶变换,Ai(t,f)和分别表示短时傅里叶变换的幅度分量和相位分量,t和f分别表示时间帧和频率;
在麦克风采集到信号的短时傅里叶变换特征中,和波达方向估计相关的特征主要是其相位分量。
对于多通道语音的每个时间帧,以其对应的相位谱特征为基础,可以得到一个相位图特征M×K,其中M代表麦克风阵列中的阵元个数,K=NDFT/2+1代表频点的个数。进一步将所有时间帧的相位图特征叠加在一起得到一个训练语句的相位图特征M×K×N,其中N表示一句话中所有时间帧的个数。将该相位图特征作为神经网络的输入。
步骤3:构造卷积神经网络(convolutional neural networks,CNN),由三个卷积层和两个全连接层依次组成,每层的激活函数均为ReLU函数;
将每个语音帧的相位图特征输入卷积神经网络,在神经网络的最后一个全连接层,用softmax激活函数进行分类,通过softmax函数生成了I个类别的softmax值;所述I个类别是根据DOA方法每间隔一定角度将声音传播方向作为一类,总共分成I类;所述I个类别是声音传播的0度到180度每间隔5度作为一类,总共37类。
步骤4:将每个节点在测试集语句上每帧平均的Softmax值的最大值作为这个句子通过波达方向估计算法处理后的该方位估计角度的准确度。该最大值越高,我们就认为该节点上的波达方向估计更为准确。
步骤5:按照步骤4的方法将Softmax值作为依据,利用全节点选择算法或N-best节点选择算法,从多个节点中选择N个节点的DOA估计参与后续的声源位置估计;
步骤6:通过三角测量法,将N个节点的DOA估计值作为方位线,将每两个节点的方位线两两交叉粗略的估计出多个声源可能存在的位置;
步骤7:利用均值漂移聚类算法从大量粗略估计的声源位置中得到最终准确的声源位置。
Claims (1)
1.一种基于深度学习的多设备自组织麦克风阵列声源定位方法,其特征在于,包括如下步骤:
步骤1:在室内的声学场景中随机布置多个包含有麦克风阵列的节点,并放置一个随机位置的声源;
步骤2:对麦克风采集到的语音数据进行预处理和提取短时傅里叶变换特征STFT,在每个时频点上观测到的信号用复数形式进行表示:
其中Yi(t,f)表示第i个麦克风采集到信号的短时傅里叶变换,Ai(t,f)和分别表示短时傅里叶变换的幅度分量和相位分量,t和f分别表示时间帧和频率;
在麦克风采集到信号的短时傅里叶变换特征中,和波达方向估计相关的特征是相位分量;对于多通道语音的每个时间帧,以时间帧对应的相位谱特征为基础,得到一个相位图特征M×K,其中M代表麦克风阵列中的阵元个数,K代表频点的个数;进一步将所有时间帧的相位图特征叠加在一起得到一个训练语句的相位图特征M×K×N,其中N表示一个训练语句中所有时间帧的个数;
步骤3:构造卷积神经网络(convolutional neural networks,CNN),该卷积神经网络由三个卷积层和两个全连接层依次组成,每层的激活函数均为ReLU函数;
将每个语音帧的相位图特征输入卷积神经网络,在神经网络的输出层,用Softmax激活函数进行分类,通过Softmax函数生成了I个类别的Softmax值;所述I个类别是根据DOA方法每间隔一定角度将声音传播方向作为一类,总共分成I类;
步骤4:将每个节点在测试集语句上每帧平均的Softmax值的最大值作为这个句子通过波达方向估计算法处理后的该方位估计角度的准确度;该最大值越高,则认为该节点上的波达方向估计更为准确;
步骤5:按照步骤4的方法将Softmax值作为依据,利用全节点选择算法或N-best节点选择算法,从多个节点中选择P个节点的DOA估计参与后续的声源位置估计;
步骤6:通过三角测量法,将P个节点的DOA估计值作为方位线,将每两个节点的方位线两两交叉粗略估计出多个声源可能存在的位置;
步骤7:利用均值漂移聚类算法从所有粗略估计的声源位置中得到最终准确的声源位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210421855.6A CN114994608B (zh) | 2022-04-21 | 2022-04-21 | 基于深度学习的多设备自组织麦克风阵列声源定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210421855.6A CN114994608B (zh) | 2022-04-21 | 2022-04-21 | 基于深度学习的多设备自组织麦克风阵列声源定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114994608A CN114994608A (zh) | 2022-09-02 |
CN114994608B true CN114994608B (zh) | 2024-05-14 |
Family
ID=83025322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210421855.6A Active CN114994608B (zh) | 2022-04-21 | 2022-04-21 | 基于深度学习的多设备自组织麦克风阵列声源定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114994608B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117031399B (zh) * | 2023-10-10 | 2024-02-20 | 浙江华创视讯科技有限公司 | 多智能体协同的声源定位方法、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109791768A (zh) * | 2016-09-30 | 2019-05-21 | 冠状编码股份有限公司 | 用于对三维音频信号进行转换、立体声编码、解码和转码的过程 |
CN112289334A (zh) * | 2020-12-29 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 一种混响消除方法及装置 |
CN112904279A (zh) * | 2021-01-18 | 2021-06-04 | 南京工程学院 | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 |
CN113111765A (zh) * | 2021-04-08 | 2021-07-13 | 浙江大学 | 一种基于深度学习的多语音源计数和定位方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7235534B6 (ja) * | 2019-02-27 | 2024-02-08 | 本田技研工業株式会社 | マイクロホンアレイ位置推定装置、マイクロホンアレイ位置推定方法、およびプログラム |
-
2022
- 2022-04-21 CN CN202210421855.6A patent/CN114994608B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109791768A (zh) * | 2016-09-30 | 2019-05-21 | 冠状编码股份有限公司 | 用于对三维音频信号进行转换、立体声编码、解码和转码的过程 |
CN112289334A (zh) * | 2020-12-29 | 2021-01-29 | 北京达佳互联信息技术有限公司 | 一种混响消除方法及装置 |
CN112904279A (zh) * | 2021-01-18 | 2021-06-04 | 南京工程学院 | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 |
CN113111765A (zh) * | 2021-04-08 | 2021-07-13 | 浙江大学 | 一种基于深度学习的多语音源计数和定位方法 |
Non-Patent Citations (2)
Title |
---|
基于圆形麦克风阵列的声源定位改进算法;郭业才;宋宫琨琨;吴礼福;孙心宇;王丽华;;数据采集与处理;20150315(第02期);全文 * |
基于时频单元选择的双耳目标声源定位;李如玮;李涛;孙晓月;杨登才;王琪;;电子与信息学报;20191215(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114994608A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cobos et al. | A survey of sound source localization methods in wireless acoustic sensor networks | |
CN107102296B (zh) | 一种基于分布式麦克风阵列的声源定位系统 | |
CN103308889B (zh) | 复杂环境下被动声源二维doa估计方法 | |
CN105388459B (zh) | 分布式麦克风阵列网络的鲁棒声源空间定位方法 | |
Compagnoni et al. | Localization of acoustic sources through the fitting of propagation cones using multiple independent arrays | |
Nguyen et al. | Multilevel B-splines-based learning approach for sound source localization | |
CN107167770A (zh) | 一种混响条件下的麦克风阵列声源定位装置 | |
CN115902776B (zh) | 一种基于被动式声音信号的声源定位方法 | |
CN114994608B (zh) | 基于深度学习的多设备自组织麦克风阵列声源定位方法 | |
CN112986907A (zh) | 一种时钟偏差和时钟漂移条件下的运动目标定位方法 | |
Dang et al. | A feature-based data association method for multiple acoustic source localization in a distributed microphone array | |
Huang et al. | A time-domain unsupervised learning based sound source localization method | |
CN111273231A (zh) | 基于不同麦克风阵列拓扑结构分析的室内声源定位方法 | |
KR20090128221A (ko) | 음원 위치 추정 방법 및 그 방법에 따른 시스템 | |
Gala et al. | Multi-sound-source localization using machine learning for small autonomous unmanned vehicles with a self-rotating bi-microphone array | |
Cobos et al. | Wireless acoustic sensor networks and applications | |
Himawan et al. | Clustering of ad-hoc microphone arrays for robust blind beamforming | |
Grinstein et al. | The Neural-SRP method for positional sound source localization | |
Chen et al. | A sound source localization device based on rectangular pyramid structure for mobile robot | |
Dang et al. | Multiple sound source localization based on a multi-dimensional assignment model | |
CN114545332A (zh) | 基于互相关序列和神经网络的任意阵列声源定位方法 | |
Sledevič et al. | An evaluation of hardware-software design for sound source localization based on SoC | |
CN109239665B (zh) | 一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置 | |
Pasha et al. | Forming ad-hoc microphone arrays through clustering of acoustic room impulse responses | |
Zhang et al. | Three‐Dimension Localization of Wideband Sources Using Sensor Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |