CN115902774B - 无人机声源定位方法、装置、无人机及存储介质 - Google Patents
无人机声源定位方法、装置、无人机及存储介质 Download PDFInfo
- Publication number
- CN115902774B CN115902774B CN202211252056.7A CN202211252056A CN115902774B CN 115902774 B CN115902774 B CN 115902774B CN 202211252056 A CN202211252056 A CN 202211252056A CN 115902774 B CN115902774 B CN 115902774B
- Authority
- CN
- China
- Prior art keywords
- sound
- human voice
- sound source
- source
- microphone array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000005236 sound signal Effects 0.000 claims abstract description 112
- 238000013528 artificial neural network Methods 0.000 claims abstract description 50
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 18
- 238000013459 approach Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 12
- 230000004807 localization Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种基于麦克风阵列的无人机声源定位方法,包括步骤:获取待处理的声源声音信号;对所述声源声音信号进行人声检测,提取人声声音信号,所述人声声音信号包括与麦克风阵列的每一路麦克风一一对应的多个子人声声音信号;根据麦克风阵列的拓扑结构,计算每一路麦克风对应的所述子人声声音信号的延迟相位及短时傅里叶变换,并针对每一方位角,根据所述延迟相位和所述短时傅里叶变换计算所述人声声音信号的声音方向来源值;将每一方位角对应的所述声音方向来源值输入训练好的反向传播神经网络,得到声源方位。相对于现有技术,本发明通过反向传播神经网络可以修正无人机桨噪造成的影响,能够做出更准确的声源方位判断。
Description
技术领域
本发明涉及无人机技术领域,尤其是涉及一种基于麦克风阵列的无人机声源定位方法、装置、电子设备及计算机可读存储介质。
背景技术
随着无人机技术的发展,无人机配合负载在军事、警用、交通执法、农业和测绘等各个领域发挥着越来越大的作用。在野外救援中,可利用警用无人机在低空悬停,无人机搭载麦克风进行远距离人声收集并对人声声源进行定位,以实现寻人等搜救任务。
但是,在无人机飞行的过程中存在明显的自噪声,包括稳态的无人机机械噪声,以及非稳态的螺旋桨旋转时产生的桨噪和螺旋桨引起空气流动产生的风噪。无人机的自噪声普遍大于90分贝,远远大于所接收到的人声等有效声音,而且有效声音从地面声源到无人机麦克风的传播距离较长,有效声音在空气中的传播存在衰减,造成无人机麦克风所采集到的声音信号低信噪比极低。因此,难以对人声声源进行定位。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于麦克风阵列的无人机声源定位方法,能够提高对人声声源的定位精确性。
本发明是通过以下技术方案实现的:一种基于麦克风阵列的无人机声源定位方法,包括如下步骤:
获取待处理的声源声音信号;
对所述声源声音信号进行人声检测,提取人声声音信号,所述人声声音信号包括与麦克风阵列的每一路麦克风一一对应的多个子人声声音信号;
根据麦克风阵列的拓扑结构,计算每一路麦克风对应的所述子人声声音信号的延迟相位及短时傅里叶变换,并针对每一方位角,根据所述延迟相位和所述短时傅里叶变换计算所述人声声音信号的声音方向来源值;
将每一方位角对应的所述声音方向来源值输入训练好的反向传播神经网络,得到声源方位。
相对于现有技术,本发明通过反向传播神经网络可以修正无人机桨噪造成的影响,能够做出更准确的声源方位判断。
进一步地,所述反向传播神经网络包括输入层、隐层和输出层,其中所述输入层包括n个输入节点,每一所述输入节点对应一方位角,每一所述输入节点输入对应方位角的所述声音方向来源值;所述隐层包括若干隐层节点,每一隐层节点对每一输入节点的所述声音方向来源值进行计算,输出隐层输出值;所述输出层包括1个输出节点,所述输出节点根据所述隐层输出值输出声源方位。
进一步地,所述反向传播神经网络的训练包括如下步骤:
将人声训练集和非人声训练集输入反向传播神经网络进行正向传播计算得到学习声源方位,所述人声训练集为人声声音信号的每一方位角的声音方向来源值的集合,所述非人声训练集为非人声声音信号的每一方位角的声音方向来源值的集合;
根据所述学习声源方位与期望声源方位通过误差函数计算得到学习误差,所述人声训练集对应的所述期望声源方位为真实声源方位,所述非人声训练集的所述期望声源方位为无方位;
根据所述学习误差调整所述反向传播神经网络的权值;
重复上述步骤,直至所述学习误差趋近于一极小值。
进一步地,所述麦克风阵列为线性阵列,所述声音方向来源值的表达式为:
其中,m为麦克风阵列中的麦克风数量;n为麦克风阵列中第n路声源声音信号线路;X(k,l)为第n路子人声声音信号的第l帧的短时傅里叶变换,c是声音在空气中传播的速度;H(k,l)为第n路子人声声音信号的第l帧的延迟相位fk是子人声声音信号频率,/>d为麦克风阵列的麦克风间距,θ为方位角。
基于同一发明构思,本申请还提供一种基于麦克风阵列的无人机声源定位装置,包括:
信号获取模块,用于获取待处理的声源声音信号;
人声检测模块,用于对所述声源声音信号进行人声检测,提取人声声音信号,所述人生人声声音信号包括与麦克风阵列一一对应的多个子人生声音信号;
方向检测模块,用于根据麦克风阵列的拓扑结构,计算每一路麦克风对应的所述子人声声音信号的延迟相位及短时傅里叶变换,并针对每一方位角,根据所述延迟相位和所述短时傅里叶变换计算所述人声声音信号的声音方向来源值;
声源预测模块,用于将每一方位角对应的所述声音方向来源值输入训练好的反向传播神经网络,得到声源方位。
进一步地,所述反向传播神经网络包括输入层、隐层和输出层,其中所述输入层包括n个输入节点,每一所述输入节点对应一方位角,每一所述输入节点输入对应方位角的所述声音方向来源值;所述隐层包括若干隐层节点,每一隐层节点对每一输入节点的所述声音方向来源值进行计算,输出隐层输出值;所述输出层包括1个输出节点,所述输出节点根据所述隐层输出值输出声源方位。
进一步地,还包括神经网络训练模块,该神经网络训练模块包括:
正向传播子模块,用于将人声训练集和非人声训练集输入反向传播神经网络进行正向传播计算得到学习声源方位,所述人声训练集为人声声音信号的每一方位角的声音方向来源值的集合,所述非人声训练集为非人声声音信号的每一方位角的声音方向来源值的集合;
误差计算子模块,用于根据所述学习声源方位与期望声源方位通过误差函数计算得到学习误差,所述人声训练集对应的所述期望声源方位为真实声源方位,所述非人声训练集的所述期望声源方位为无方位;
权值调整子模块,用于根据所述学习误差调整所述反向传播神经网络的权值;
极小误差子模块,用于当所述学习误差趋近于一极小值,结束训练。
进一步地,所述麦克风阵列为线性阵列,所述声音方向来源值的表达式为:
其中,m为麦克风阵列中的麦克风数量;n为麦克风阵列中第n路声音信号线路;X(k,l)为第n路子人声声音信号的第l帧的短时傅里叶变换,c是声音在空气中传播的速度;H(k,l)为第n路子人声声音信号的第l帧的延迟相位fk是子r人声声音信号频率,d为麦克风阵列的麦克风间距,θ为方位角。
基于同一发明构思,本申请还提供一种无人机,包括机身,还包括:麦克风阵列和控制器;
所述麦克风阵列设置在所述机身上,用于采集声源声音信号并传输至所述控制器;
所述控制器包括:
处理器;
存储器,用于存储由所述处理器执行的计算机程序;
其中,所述处理器执行所述计算机程序时实现上述方法的步骤。
基于同一发明构思,本申请还提供一种计算机可读存储介质,其上存储由计算机程序,所述计算机程序被执行时实现上述方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为一个实施例的无人机声源定位方法的一个示例性应用环境示意图;
图2为实施例的基于麦克风阵列的无人机声源定位方法的流程示意图;
图3为为一个实施例的反向传播神经网络的结构示意图;
图4为用于无人机声源定位的反向传播神经网络训练方法的流程示意图;
图5为一个实施例中的基于麦克风阵列的无人机声源定位装置的结构示意图;
图6为一个实施例中的神经网络训练模块的结构示意图;
图7为一个实施例中的无人机的结构示意图;
图8为一个实施例的麦克风阵列的局部放大示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,其为一个实施例的无人机声源定位方法的一个示例性应用环境示意图,包括麦克风阵列11和控制器12,麦克风阵列11是搭载于无人机上的收音装置,可以是线性麦克风阵列等;控制器12包括存储有计算机程序的存储器和可运行存储器中的计算机程序的处理器。麦克风阵列11采集声音信号后传输至控制器12,可通过蓝牙模块、无线wifi模块等方式实现远程传输,控制器12对接收的声音信号通过本实施例的无人机声源定位方法进行处理,得到声源方位。
请参阅图2,其为一个实施例的基于麦克风阵列的无人机声源定位方法的流程示意图。该方法包括如下步骤:
S1:获取待处理的声源声音信号;
S2:对声源声音信号进行人声检测,提取人声声音信号;
S3:针对每一方位角,计算人声声音信号的声音方向来源值;
S4:将每一方位角对应的声音方向来源值输入训练好的反向传播神经网络,得到声源方位。
在步骤S1中,声源声音信号为无人机搭载的麦克风所直接采集的声音信号,该声源声音信号中包括有人声、无人机桨噪、风噪及其他环境噪声等,与麦克风通过有线或无线传输,可获得声源声音信号。声源声音信号由麦克风阵列采集,麦克风阵列包括多个麦克风,每一麦克风为一路独立的声音信号线路,每一声音信号线路对应一子声源声音信号,声源声音信号为多个子声源声音信号构成的信号矩阵。
在步骤S2中,声源声音信号为时域信号,不同时间段的声源声音信号所包含的声音不同。按声源中是否包含人声区分,声源声音信号可分为两部分,包括人声声音信号和非人声声音信号,其中,人声声音信号为包含了人声、无人机桨噪、风噪及其他环境噪声等的声音信号;非人声声音信号为包含了无人机桨噪、风噪及其他环境噪声等的声音信号,非人声声音信号中不包含人声。
人声检测可以检测声源声音信号中的人声特征,将检测有人声特征的声源声音信号段截取为人声声音信号,人声声音信号包括多个子人声声音信号,每一子人声声音信号对应一麦克风的声音信号线路;将未检测有人声特征的声源声音信号段截取为非人声声音信号,非人声声音信号包括多个子非人声声音信号,每一子非人声声音信号对应一麦克风的声音信号线路。用于人声检测的算法可采用VAD(Voice Activity Detection)检测算法,该算法提取声音特征,通过高斯模型计算每段声音信号的分类概率,以判断声音信号是否包含人声。
在一个优选实施例中,对声源声音信号进行人声检测,提取人声声音信号前,包括步骤:对声源声音信号进行带通滤波。其中,带通滤波范围可设置为300-3500Hz。经过带通滤波可滤除无人机噪声中的低频部分。
在一个可选实施例中,对声源声音信号进行人声检测,提取人声声音信号前,或在对声源声音信号进行带通滤波前,包括步骤:对声源声音信号进行分帧加窗处理。其中,对声源声音信号进行分帧加窗处理,以对声源声音信号进行短时分析,利于对非平稳信号的处理。
在步骤S3中,方位角为相对于无人机的方位角度,例如,可以无人机的正前方为0度方位角,无人机的正前方顺时针方向,方位角增大。方位角的密度选取,可根据实施中对声源方位的精度需求设置。
针对每一方位角,计算人声声音信号的声音方向来源值,具体包括步骤:根据麦克风阵列的拓扑结构,计算每一路麦克风对应的子人声声音信号的延迟相位及短时傅里叶变换,并针对每一方位角,根据延迟相位和短时傅里叶变换计算人声声音信号的声音方向来源值。
其中,麦克风阵列可选用为等间隔线性阵列。
声音方向来源值可通过空间滤波函数计算,其表达式为:
其中,m为麦克风阵列中的麦克风数量;n为麦克风阵列中第n路麦克风的声音信号线路;X(k,l)为第n路子人声声音信号的第l帧的短时傅里叶变换,k=w/c,w=2*pi*f,f是子人声声音信号做傅里叶变换得到的频率,c是声音在空气中传播的速度;H(k,l)为第n路子人声声音信号的第l帧的延迟相位fk是子人声声音信号频率,/>d为麦克风阵列的麦克风间距,θ为方位角,在一具体实施中,以无人机飞行方向的方位角为原点,沿顺时针方向方位角增大。
在步骤S4中,反向传播神经网络对每一方位角对应的声音方向来源值进行正向传播计算,输出声源方位。请参阅图3,其为一个实施例的反向传播神经网络的结构示意图。该反向传播神经网络包括输入层、隐层和输出层,其中,输入层对应h个方位角设置h个输入节点,每个输入节点输入对应方位角的声音方向来源值,h个声音方向来源值表示为{X1,X2,...,Xh};隐层所包含的节点可以根据数据分析进行调节,以达到目标效果,在一个具体实施中,隐层可设置100个隐层节点;输出层包括1个输出节点,该输出节点输出声源方位。
该反向传播神经网络在正向传播计算时,输入层的每一输入节点将对应的声音方向来源值传播至每一隐层节点;隐层节点根据所接收的声音方向来源值计算得到的q个隐层输出值,表示为{Z1,Z2,...,Zq},并传播至输出层的输出节点;输出层的输出节点根据所接收的隐层输出值计算得到声源方位Y。其中,第k个隐层输出值Zk的表达式为:
其中,f1(·)为隐层的传递函数,该传递函数f1(·)可选用为sigmoid函数;vki为输入层和隐层之间的权值;Xi为输入层中第i个输入节点对应的声音方向来源值。
声源方位Y的表达式为:
其中,f2(·)为输出层的传递函数,该传递函数f2(·)可选用为sigmoid函数;wjk为隐层和输出层之间的权值。
基于上述无人机声源定位方法,以下提出一种用于无人机声源定位的反向传播神经网络训练方法。请参阅图4,其为该用于无人机声源定位的反向传播神经网络训练方法的流程示意图,该方法包括步骤:
S41:将训练样本输入反向传播神经网络进行正向传播计算得到学习声源方位;
其中,训练样本包括人声训练集和非人声训练集,其中人声训练集为人声声音信号样本的每一方位角的声音方向来源值的集合,该人声声音信号样本从声源声音信号样本中通过人声检测提取得到;非人声训练集为非人声声音信号样本的每一方位角的声音方向来源值的集合,该非人声声音信号样本从声源声音信号样本中通过人声检测提取得到。
将人声训练集以及非人声训练集输入反向传播神经网络进行正向传播计算时,分别将人声训练集、非人声训练集中的声源方位来源值输入反向传播神经网络的输入层,经过反向传播神经网络的正向传播计算后,输出层输出为学习声源方位。
S42:根据学习声源方位与期望声源方位通过误差函数计算得到学习误差;
根据学习声源方位与期望声源方位通过误差函数计算得到学习误差,其中,对于人声训练集,其期望声源方位为真实的人声声源方位;对于非人声训练集,其期望声源方位为无方位;误差函数可采用平方型误差函数,第p个人声训练集或非人声训练集的学习误差Ep的表达式为:
其中,tp为第p个人声训练集或非人声训练集的期望声源方位;Yp为第p个人声训练集或非人声训练集的学习声源方位。
S43:根据学习误差调整反向传播神经网络的权值;
根据学习误差调整反向传播神经网络的权值,在权向量空间执行误差函数梯度下降策略,动态迭代搜索一组权向量,即完成一次反向传播神经网络的反向传播。
S44:重复步骤S41~S43,直至学习误差趋近于一极小值。
在反向传播神经网络的多次正向传播和反向传播下,学习误差趋近于一极小值,即完成反向传播神经网络的训练。
相对于现有技术,本发明通过反向传播神经网络可以修正无人机桨噪造成的影响,且该反向传播神经网络针对无人机非平稳状态的桨噪影响、无人机机桨噪和声源定位耦合现象进行学习,能够做出更准确的声源方位判断。
基于同一发明构思,本发明还提供一种基于麦克风阵列的无人机声源定位装置。请参阅图5,其为一个实施例中的基于麦克风阵列的无人机声源定位装置的结构示意图,该装置包括信号获取模块21、人声检测模块22、方向检测模块23和声源预测模块24,其中,信号获取模块21用于获取待处理的声源声音信号;人声检测模块22用于对声源声音信号进行人声检测,提取人声声音信号;方向检测模块23用于针对每一方位角,计算人声声音信号的声音方向来源值;差分处理模块24用于将每一方位角对应的声音方向来源值输入训练好的反向传播神经网络,得到声源方位。
进一步,方向检测模块23用于根据麦克风阵列的拓扑结构,计算每一路麦克风对应的子人声声音信号的延迟相位及短时傅里叶变换,并针对每一方位角,根据延迟相位和短时傅里叶变换计算人声声音信号的声音方向来源值。
进一步,该装置还包括神经网络训练模块25,如图6所示,该神经网络训练模块包括正向传播子模块251、误差计算子模块252、权值调整子模块253和极小误差子模块254,其中,正向传播子模块251用于将训练样本输入反向传播神经网络进行正向传播计算得到学习声源方位;误差计算子模块252用于根据学习声源方位与期望声源方位通过误差函数计算得到学习误差;权值调整子模块253用于根据学习误差调整反向传播神经网络的权值;极小误差子模块254用于当学习误差趋近于一极小值,结束训练。
在一优选实施例中,基于麦克风阵列的无人机声源定位装置还包括带通滤波模块26,该带通滤波模块26用于对声源声音信号进行带通滤波。
在一可选实施例中,基于麦克风阵列的无人机声源定位装置还包括分帧加窗模块27,该分帧加窗模块27用于对声源声音信号进行分帧加窗处理。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关细节之处请参见方法实施例的说明。
基于上述无人机声源定位方法,本申请还提供一种无人机。请参阅图7,其为一个实施例中的无人机的结构示意图,该无人机包括机身31、支撑杆32、麦克风阵列33和控制器(图未示)。其中,机身31为飞行载体。支撑杆32的第一端设置在机身31上,支撑杆32可选用为伸长型轻型碳管。麦克风阵列33设置在支撑杆32的第二端上,请参阅图8,其为一个实施例的麦克风阵列33的局部放大示意图,麦克风阵列33包括底座331和多颗麦克风头332,底座331与支撑杆32的第二端连接;麦克风头332为声音采集端,每一麦克风头332为一独立的声音信号线路,多颗麦克风头332等间隔线性排列,并设置在底座331上,作为优选的,麦克风头332的数量可设置为3颗。优选的,麦克风阵列33可设置在机身31的正前方或正前上方45度方向,针对麦克风阵列33设置在机身31的正前方的情况,麦克风可选用为心型指向性麦克风,可屏蔽无人机后方的降噪;针对麦克风阵列33设置在机身31正前上方45度方向的情况,麦克风可选用为8字型麦克风,可提高声音收集的指向性。控制器包括一个或多个处理器和存储器,其中处理器用于执行程序实现方法实施例的无人机声源定位方法;存储器用于存储可由所述处理器执行的计算机程序。
基于同一发明构思,本发明还提供一种计算机可读存储介质,与前述无人机声源定位方法的实施例相对应,所述计算机可读存储介质其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所记载的所述无人机声源定位方法的步骤。
本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,则本发明也意图包含这些改动和变形。
Claims (10)
1.一种基于麦克风阵列的无人机声源定位方法,其特征在于,包括如下步骤:
获取待处理的声源声音信号;
对所述声源声音信号进行人声检测,提取人声声音信号,所述人声声音信号包括与麦克风阵列的每一路麦克风一一对应的多个子人声声音信号;
根据麦克风阵列的拓扑结构,计算每一路麦克风对应的所述子人声声音信号的延迟相位及短时傅里叶变换,并针对每一方位角,根据所述延迟相位和所述短时傅里叶变换计算所述人声声音信号的声音方向来源值;
将每一方位角对应的所述声音方向来源值输入训练好的反向传播神经网络,得到声源方位。
2.根据权利要求1所述的方法,其特征在于:所述反向传播神经网络包括输入层、隐层和输出层,其中所述输入层包括n个输入节点,每一所述输入节点对应一方位角,每一所述输入节点输入对应方位角的所述声音方向来源值;所述隐层包括若干隐层节点,每一隐层节点对每一输入节点的所述声音方向来源值进行计算,输出隐层输出值;所述输出层包括1个输出节点,所述输出节点根据所述隐层输出值输出声源方位。
3.根据权利要求1所述的方法,其特征在于:所述反向传播神经网络的训练包括如下步骤:
将人声训练集和非人声训练集输入反向传播神经网络进行正向传播计算得到学习声源方位,所述人声训练集为人声声音信号的每一方位角的声音方向来源值的集合,所述非人声训练集为非人声声音信号的每一方位角的声音方向来源值的集合;
根据所述学习声源方位与期望声源方位通过误差函数计算得到学习误差,所述人声训练集对应的所述期望声源方位为真实声源方位,所述非人声训练集的所述期望声源方位为无方位;
根据所述学习误差调整所述反向传播神经网络的权值;
重复上述步骤,直至所述学习误差趋近于一极小值。
4.根据权利要求1所述的方法,其特征在于,所述麦克风阵列为线性阵列,所述声音方向来源值的表达式为:
其中,m为麦克风阵列中的麦克风数量;n为麦克风阵列中第n路声源声音信号线路;X(k,l)为第n路子人声声音信号的第l帧的短时傅里叶变换,c是声音在空气中传播的速度;H(k,l)为第n路子人声声音信号的第l帧的延迟相位fk是子人声声音信号频率,d为麦克风阵列的麦克风间距,θ为方位角。
5.一种基于麦克风阵列的无人机声源定位装置,其特征在于,包括:
信号获取模块,用于获取待处理的声源声音信号;
人声检测模块,用于对所述声源声音信号进行人声检测,提取人声声音信号,所述人声声音信号包括与麦克风阵列一一对应的多个子人声声音信号;
方向检测模块,用于根据麦克风阵列的拓扑结构,计算每一路麦克风对应的所述子人声声音信号的延迟相位及短时傅里叶变换,并针对每一方位角,根据所述延迟相位和所述短时傅里叶变换计算所述人声声音信号的声音方向来源值;
声源预测模块,用于将每一方位角对应的所述声音方向来源值输入训练好的反向传播神经网络,得到声源方位。
6.根据权利要求5所述的装置,其特征在于:所述反向传播神经网络包括输入层、隐层和输出层,其中所述输入层包括n个输入节点,每一所述输入节点对应一方位角,每一所述输入节点输入对应方位角的所述声音方向来源值;所述隐层包括若干隐层节点,每一隐层节点对每一输入节点的所述声音方向来源值进行计算,输出隐层输出值;所述输出层包括1个输出节点,所述输出节点根据所述隐层输出值输出声源方位。
7.根据权利要求5所述的装置,其特征在于,还包括神经网络训练模块,该神经网络训练模块包括:
正向传播子模块,用于将人声训练集和非人声训练集输入反向传播神经网络进行正向传播计算得到学习声源方位,所述人声训练集为人声声音信号的每一方位角的声音方向来源值的集合,所述非人声训练集为非人声声音信号的每一方位角的声音方向来源值的集合;
误差计算子模块,用于根据所述学习声源方位与期望声源方位通过误差函数计算得到学习误差,所述人声训练集对应的所述期望声源方位为真实声源方位,所述非人声训练集的所述期望声源方位为无方位;
权值调整子模块,用于根据所述学习误差调整所述反向传播神经网络的权值;
极小误差子模块,用于当所述学习误差趋近于一极小值,结束训练。
8.根据权利要求5所述的装置,其特征在于,所述麦克风阵列为线性阵列,所述声音方向来源值的表达式为:
其中,m为麦克风阵列中的麦克风数量;n为麦克风阵列中第n路声音信号线路;X(k,l)为第n路子人声声音信号的第l帧的短时傅里叶变换,c是声音在空气中传播的速度;H(k,l)为第n路子人声声音信号的第l帧的延迟相位fk是子r人声声音信号频率,d为麦克风阵列的麦克风间距,θ为方位角。
9.一种无人机,包括机身,其特征在于,还包括:麦克风阵列和控制器;
所述麦克风阵列设置在所述机身上,用于采集声源声音信号并传输至所述控制器;
所述控制器包括:
处理器;
存储器,用于存储由所述处理器执行的计算机程序;
其中,所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储由计算机程序,其特征在于,所述计算机程序被执行时实现权利要求1-4中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211252056.7A CN115902774B (zh) | 2022-10-13 | 2022-10-13 | 无人机声源定位方法、装置、无人机及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211252056.7A CN115902774B (zh) | 2022-10-13 | 2022-10-13 | 无人机声源定位方法、装置、无人机及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115902774A CN115902774A (zh) | 2023-04-04 |
CN115902774B true CN115902774B (zh) | 2023-11-07 |
Family
ID=86490430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211252056.7A Active CN115902774B (zh) | 2022-10-13 | 2022-10-13 | 无人机声源定位方法、装置、无人机及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115902774B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103439688A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种用于分布式麦克风阵列的声源定位系统及定位方法 |
CN107942290A (zh) * | 2017-11-16 | 2018-04-20 | 东南大学 | 基于bp神经网络的双耳声源定位方法 |
KR102199158B1 (ko) * | 2020-06-19 | 2021-01-06 | 한국건설기술연구원 | 방위각-주파수 표현법과 합성곱 신경망 모델을 이용한 음원 위치 추정 방법 및 시스템 |
CN112257484A (zh) * | 2019-07-22 | 2021-01-22 | 中国科学院声学研究所 | 一种基于深度学习的多声源测向方法及系统 |
CN112562716A (zh) * | 2020-12-03 | 2021-03-26 | 兰州交通大学 | 基于神经网络的语音增强方法、装置、终端和介质 |
CN114420099A (zh) * | 2022-01-25 | 2022-04-29 | 广东工业大学 | 一种多声源融合场景的人声检测方法及装置 |
-
2022
- 2022-10-13 CN CN202211252056.7A patent/CN115902774B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103439688A (zh) * | 2013-08-27 | 2013-12-11 | 大连理工大学 | 一种用于分布式麦克风阵列的声源定位系统及定位方法 |
CN107942290A (zh) * | 2017-11-16 | 2018-04-20 | 东南大学 | 基于bp神经网络的双耳声源定位方法 |
CN112257484A (zh) * | 2019-07-22 | 2021-01-22 | 中国科学院声学研究所 | 一种基于深度学习的多声源测向方法及系统 |
KR102199158B1 (ko) * | 2020-06-19 | 2021-01-06 | 한국건설기술연구원 | 방위각-주파수 표현법과 합성곱 신경망 모델을 이용한 음원 위치 추정 방법 및 시스템 |
CN112562716A (zh) * | 2020-12-03 | 2021-03-26 | 兰州交通大学 | 基于神经网络的语音增强方法、装置、终端和介质 |
CN114420099A (zh) * | 2022-01-25 | 2022-04-29 | 广东工业大学 | 一种多声源融合场景的人声检测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115902774A (zh) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10725149B1 (en) | System and method for autonomous joint detection-classification and tracking of acoustic signals of interest | |
CN103308889B (zh) | 复杂环境下被动声源二维doa估计方法 | |
WO2020024816A1 (zh) | 音频信号处理方法、装置、设备和存储介质 | |
CN112799128B (zh) | 一种地震信号检测和震相提取的方法 | |
CN103792513B (zh) | 一种雷声定位系统及方法 | |
CN108363041B (zh) | 基于k均值聚类迭代的无人机声源定位方法 | |
CN109597021B (zh) | 一种波达方向估计方法及装置 | |
CN113281706A (zh) | 一种目标定位方法、装置及计算机可读存储介质 | |
CN107167770A (zh) | 一种混响条件下的麦克风阵列声源定位装置 | |
CN112904279A (zh) | 基于卷积神经网络和子带srp-phat空间谱的声源定位方法 | |
CN112986914A (zh) | 一种单兵头盔及其目标声源定位和声纹识别方法 | |
CN113359192B (zh) | 一种微弱磁异常目标检测及定位方法 | |
CN115598594B (zh) | 无人机声源定位方法、装置、无人机及可读存储介质 | |
CN112415467B (zh) | 一种基于神经网络的单矢量潜标目标定位实现方法 | |
CN112180318B (zh) | 声源波达方向估计模型训练和声源波达方向估计方法 | |
CN115902774B (zh) | 无人机声源定位方法、装置、无人机及存储介质 | |
CN108614235B (zh) | 一种多鸽群信息交互的单快拍测向方法 | |
CN115826042B (zh) | 一种边云端结合的分布式地震数据处理方法与装置 | |
CN113570041B (zh) | 一种神经网络以及利用该神经网络压制海上光纤拖缆地震数据噪声的方法 | |
CN115052245A (zh) | 基于深度学习的无人机辅助无线传感器网络节点定位方法 | |
CN205003281U (zh) | 一种无人飞行器预警装置 | |
Canclini et al. | Distributed 3D source localization from 2D DOA measurements using multiple linear arrays | |
Bach | Improving the classification of propeller ships using lofar and triple loss variational auto encoder | |
Park et al. | Metric optimization for sound event localization and detection | |
CN113126029A (zh) | 适用于深海可靠声路径环境的多传感器脉冲声源定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |