CN115598594B

CN115598594B - 无人机声源定位方法、装置、无人机及可读存储介质

Info

Publication number: CN115598594B
Application number: CN202211252034.0A
Authority: CN
Inventors: 陈翔; 廖科文; 雷文彬; 吕继先; 宁挺
Original assignee: Guangzhou Chengzhi Intelligent Machine Technology Co ltd
Current assignee: Guangzhou Chengzhi Intelligent Machine Technology Co ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-05-05
Anticipated expiration: 2042-10-13
Also published as: CN115598594A

Abstract

本发明涉及一种基于麦克风阵列的无人机声源定位方法，包括步骤：获取待处理的声源声音信号；对所述声源声音信号进行人声检测，提取人声声音信号和非人声声音信号；根据麦克风阵列的拓扑结构，计算所述人声声音信号和非人声声音信号的声音方向来源值；针对每一方位角，将对应的所述人声声音信号的声音方向来源值和所述非人声声音信号的声音方向来源值进行差分处理，确定差分结果中声音方向来源值极大值所对应的方位角为人声声源方位，能够提高对人声声源的定位精确性。

Description

无人机声源定位方法、装置、无人机及可读存储介质

技术领域

本发明涉及无人机技术领域，尤其是涉及一种基于麦克风阵列的无人机声源定位方法、装置、电子设备及计算机可读存储介质。

背景技术

随着无人机技术的发展，无人机配合负载在军事、警用、交通执法、农业和测绘等各个领域发挥着越来越大的作用。在野外救援中，可利用警用无人机在低空悬停，无人机搭载麦克风进行远距离人声收集并对人声声源进行定位，以实现寻人等搜救任务。

但是，在无人机飞行的过程中存在明显的自噪声，包括稳态的无人机机械噪声，以及非稳态的螺旋桨旋转时产生的桨噪和螺旋桨引起空气流动产生的风噪。无人机的自噪声普遍大于90分贝，远远大于所接收到的人声等有效声音，而且有效声音从地面声源到无人机麦克风的传播距离较长，有效声音在空气中的传播存在衰减，造成无人机麦克风所采集到的声音信号低信噪比极低。因此，难以对人声声源进行定位。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于麦克风阵列的无人机声源定位方法，能够削弱环境噪声的干扰，提高对人声声源的定位精确性。

本发明是通过以下技术方案实现的：一种基于麦克风阵列的无人机声源定位方法，包括如下步骤：

获取待处理的声源声音信号；

对所述声源声音信号进行人声检测，提取人声声音信号和非人声声音信号，所述人声声音信号包括多个子人声声音信号，所述非人声声音信号包括多个子非人声声音信号；

根据麦克风阵列的拓扑结构，计算每一路麦克风对应的所述子人声声音信号和所述子非人声声音信号的延迟相位及短时傅里叶变换，并针对每一方位角，分别根据所述子人声声音信号的延迟相位和短时傅里叶变换、所述非子人声声音信号的的延迟相位和短时傅里叶变换，计算所述人声声音信号和非人声声音信号的声音方向来源值；

针对每一方位角，将对应的所述人声声音信号的声音方向来源值和所述非人声声音信号的声音方向来源值进行差分处理，确定差分结果中声音方向来源值极大值所对应的方位角为人声声源方位。

相对于现有技术，本发明提供的一种基于麦克风线性阵列的无人机声源定位方法通过声音方向来源值表示各个方位角上的声音信息，基于非人声声音信号的各个方位角上的声音信息修正人声声音信号，能够对实现降噪，提高人声声源的信噪比，从而能够准确获取人声声源方位。

进一步地，所述麦克风阵列为线性阵列，所述声音方向来源值的表达式为：

其中，m为麦克风阵列中的麦克风数量；n为麦克风阵列中第n路声音信号线路；X(k,l)为第n路子人声声音信号或子非人声声音信号的第l帧的短时傅里叶变换，c是声音在空气中传播的速度；H(k,l)为第n路子人声声音信号或子非人声声音信号的第l帧的延迟相位

f_k是子人声声音信号频率或非子人声声音信号频率，

d为麦克风阵列的麦克风间距，θ为方位角。

进一步地，对所述声源声音信号进行人声检测，提取人声声音信号和非人声声音信号前，还包括步骤：对所述声源声音信号进行带通滤波。

进一步地，对所述声源声音信号进行人声检测，提取人声声音信号和非人声声音信号前，还包括步骤：对所述声源声音信号进行分帧加窗处理。

基于同一发明构思，本申请还提供一种基于麦克风阵列的无人机声源定位装置，包括：

信号获取模块，用于获取待处理的声源声音信号；

人声检测模块，用于对所述声源声音信号进行人声检测，提取人声声音信号和非人声声音信号，所述人声声音信号包括多个子人声声音信号，所述非人声声音信号包括多个子非人声声音信号；

方向检测模块，用于根据麦克风阵列的拓扑结构，计算每一路麦克风对应的所述子人声声音信号和所述子非人声声音信号的延迟相位及短时傅里叶变换，并针对每一方位角，分别根据所述子人声声音信号的延迟相位和短时傅里叶变换、所述非子人声声音信号的的延迟相位和短时傅里叶变换，计算所述人声声音信号和非人声声音信号的声音方向来源值；

差分处理模块，用于针对每一方位角，将对应的所述人声声音信号的声音方向来源值和所述非人声声音信号的声音方向来源值进行差分处理，确定差分结果中声音方向来源值极大值所对应的方位角为人声声源方位。

f_k是子人声声音信号频率或非子人声声音信号频率，

d为麦克风阵列的麦克风间距，θ为方位角。

进一步地，还包括带通滤波模块，所述带通滤波模块用于对所述声源声音信号进行带通滤波。

进一步地，还包括分帧加窗模块，所述分帧加窗模块用于对所述声源声音信号进行分帧加窗处理。

基于同一发明构思，本申请还提供一种无人机，包括机身，还包括：麦克风阵列和控制器；

所述麦克风阵列设置在所述机身上，用于采集声源声音信号并传输至所述控制器；

控制器，包括：

处理器；

存储器，用于存储由所述处理器执行的计算机程序；

其中，所述处理器执行所述计算机程序时实现上述方法的步骤。

基于同一发明构思，本申请还提供一种计算机可读存储介质，其上存储由计算机程序，所述计算机程序被执行时实现上述方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为一个实施例的无人机声源定位方法的一个示例性应用环境示意图；

图2为实施例的基于麦克风阵列的无人机声源定位方法的流程示意图；

图3为一个示例性的人声声音方向来源值-方位角曲线示意图；

图4为一个示例性的非人声声音方向来源值-方位角曲线示意图；

图5为一个示例性的差分结果的声音方向来源值-方位角曲线；

图6为一个实施例中的基于麦克风阵列的无人机声源定位装置的结构示意图；

图7为一个实施例中的无人机的结构示意图；

图8为一个实施例的麦克风阵列的局部放大示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参阅图1，其为一个实施例的无人机声源定位方法的一个示例性应用环境示意图，包括麦克风阵列11和控制器12，麦克风阵列11是搭载于无人机上的收音装置，可以是线性麦克风阵列等；控制器12包括存储有计算机程序的存储器和可运行存储器中的计算机程序的处理器。麦克风阵列11采集声音信号后传输至控制器12，可通过蓝牙模块、无线wifi模块等方式实现远程传输，控制器12对接收的声音信号通过本实施例的无人机声源定位方法进行处理，得到声源方位。

请参阅图2，其为一个实施例的基于麦克风阵列的无人机声源定位方法的流程示意图。该方法包括如下步骤：

S1：获取待处理的声源声音信号；

S2：对声源声音信号进行人声检测，提取人声声音信号和非人声声音信号；

S3：针对每一方位角，分别计算人声声音信号和非人声声音信号的声音方向来源值；

S4：针对每一方位角，将对应的人声声音信号的声音方向来源值和非人声声音信号的声音方向来源值进行差分处理，确定差分结果中声音方向来源值极大值所对应的方位角为人声声源方位。

在步骤S1中，声源声音信号为无人机搭载的麦克风所直接采集的声音信号，该声源声音信号中包括有人声、无人机桨噪、风噪及其他环境噪声等，与麦克风通过有线或无线传输，可获得声源声音信号。声源声音信号由麦克风阵列采集，麦克风阵列包括多个麦克风，每一麦克风为一路独立的声音信号线路，每一声音信号线路对应一子声源声音信号，声源声音信号为多个子声源声音信号构成的信号矩阵。

在步骤S2中，声源声音信号为时域信号，不同时间段的声源声音信号所包含的声音不同。按声源中是否包含人声区分，声源声音信号可分为两类，包括人声声音信号和非人声声音信号，其中，人声声音信号为包含了人声、无人机桨噪、风噪及其他环境噪声等的声音信号；非人声声音信号为包含了无人机桨噪、风噪及其他环境噪声等的声音信号，非人声声音信号中不包含人声。

人声检测可以检测声源声音信号中的人声特征，将检测有人声特征的声源声音信号段截取为人声声音信号，人声声音信号包括多个子人声声音信号，每一子人声声音信号对应一麦克风的声音信号线路；将未检测有人声特征的声源声音信号段截取为非人声声音信号，非人声声音信号包括多个子非人声声音信号，每一子非人声声音信号对应一麦克风的声音信号线路。用于人声检测的算法可采用VAD(Voice Activity Detection)检测算法，该算法提取声音特征，通过高斯模型计算每段声音信号的分类概率，以判断声音信号是否包含人声。

在一个优选实施例中，对声源声音信号进行人声检测，提取人声声音信号和非人声声音信号前，包括步骤：对声源声音信号进行带通滤波。其中，带通滤波范围可设置为300-3500Hz。经过带通滤波可滤除无人机噪声中的低频部分。

在一个可选实施例中，对声源声音信号进行人声检测，提取人声声音信号和非人声声音信号前，或在对声源声音信号进行带通滤波前，包括步骤：对声源声音信号进行分帧加窗处理。其中，对声源声音信号进行分帧加窗处理，以对声源声音信号进行短时分析，利于对非平稳信号的处理。

在步骤S3中，方位角为相对于无人机的方位角度，例如，可以无人机的正前方为0°方位角，沿无人机的正前方顺时针方向，方位角增大。方位角的密度选取，可根据实施中对声源方位的精度需求设置。针对每一方位角，分别计算人声声音信号和非人声声音信号的声音方向来源值，具体包括步骤：根据麦克风阵列的拓扑结构，计算每一路麦克风对应的子人声声音信号和非子人声声音信号的延迟相位及短时傅里叶变换，并针对每一方位角，分别根据所述子人声声音信号的延迟相位和短时傅里叶变换、所述非子人声声音信号的的延迟相位和短时傅里叶变换，计算人声声音信号和非人声声音信号的声音方向来源值。

其中，麦克风阵列可选用为等间隔线性阵列。

声音方向来源值可通过空间滤波函数计算，其表达式为：

其中，m为麦克风阵列中的麦克风数量；n为麦克风阵列中第n路麦克风的声音信号线路；X(k,l)为第n路子人声声音信号或非子人声声音信号的第l帧的短时傅里叶变换，k＝w/c，w＝2*pi*f，f是子人声声音信号或非子人声声音信号做傅里叶变换得到的频率，c是声音在空气中传播的速度；H(k,l)为第n路子人声声音信号或非子人声声音信号的第l帧的延迟相位

f_k是子人声声音信号频率或非子人声声音信号频率，

d为麦克风阵列的麦克风间距，θ为方位角，在一具体实施中，以无人机飞行方向的方位角为原点，沿顺时针方向方位角增大。

在步骤S4中，针对每一方位角，将人声声音信号的声音方向来源值和非人声声音信号的声音方向来源值进行差分处理，确定差分结果中极大值所对应的方位角为人声声源方位。利用非人声声音信号的声音方向来源值修正人声声音信号中的噪声，进行差分处理后，可得到降噪的声源声音信号的声音方向来源值，即差分结果为每一方位角对应的降噪的声源声音信号的声音方向来源值。根据该降噪的声源声音信号的声音方向来源值，其中极大值所对应的方位角，即为人声声源的方位。

请参阅图3和图4，基于每一方位角上的人声声音信号和非人声声音信号的声音方向来源值，可以得到人声声音方向来源值-方位角曲线(如图3)和非人声声音方向来源值-方位角曲线(如图4)。在声音方向来源值-方位角曲线中，出现声音方向来源值峰值表示对应方位上存在声源。对比人声声音方向来源值-方位角曲线和非人声声音方向来源值-方位角曲线可见，无人机噪声的声源幅度大于人声的声源幅度，即声源信噪比低，在这种情况下是难以准确定位人声声源方位的。

请参阅图5，其为差分结果的声音方向来源值-方位角曲线，即声源定位曲线，可见进行差分之后无人机噪声的声源幅度被削弱或消除，人声的声源幅度得到突出，据此可以准确获取人声声源方位。

相对于现有技术，本发明通过声音方向来源值表示各个方位角上的声音信息，基于非人声声音信号的各个方位角上的声音信息修正人声声音信号，能够对实现降噪，提高人声声源的信噪比，从而能够准确获取人声声源方位。

基于同一发明构思，本发明还提供一种基于麦克风阵列的无人机声源定位装置。请参阅图6，其为一个实施例中的基于麦克风阵列的无人机声源定位装置的结构示意图，该装置包括信号获取模块21、人声检测模块22、方向检测模块23和差分处理模块24，其中，信号获取模块21用于获取待处理的声源声音信号；人声检测模块22用于对声源声音信号进行人声检测，提取人声声音信号和非人声声音信号；方向检测模块23用于针对每一方位角，分别计算人声声音信号和非人声声音信号的声音方向来源值；差分处理模块24用于针对每一方位角，将对应的人声声音信号的声音方向来源值和非人声声音信号的声音方向来源值进行差分处理，确定差分结果中极大值所对应的方位角为人声声源方位。

进一步，方向检测模块23用于根据麦克风阵列的拓扑结构，计算每一路麦克风对应的子声源声音信号的延迟相位及短时傅里叶变换，并针对每一方位角，根据延迟相位和短时傅里叶变换计算人声声音信号和非人声声音信号的声音方向来源值。

在一优选实施例中，基于麦克风阵列的无人机声源定位装置还包括带通滤波模块25，该带通滤波模块25用于对声源声音信号进行带通滤波。

在一可选实施例中，基于麦克风阵列的无人机声源定位装置还包括分帧加窗模块26，该分帧加窗模块26用于对声源声音信号进行分帧加窗处理。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关细节之处请参见方法实施例的说明。

基于上述无人机声源定位方法，本申请还提供一种无人机。请参阅图7，其为一个实施例中的无人机的结构示意图，该无人机包括机身31、支撑杆32、麦克风阵列33和控制器(图未示)。其中，机身31为飞行载体。支撑杆32的第一端设置在机身31上，支撑杆32可选用为伸长型轻型碳管。麦克风阵列33设置在支撑杆32的第二端上，请参阅图8，其为一个实施例的麦克风阵列33的局部放大示意图，麦克风阵列33包括底座331和多颗麦克风头332，底座331与支撑杆32的第二端连接；麦克风头332为声音采集端，每一麦克风头332为一独立的声音信号线路，多颗麦克风头332等间隔线性排列，并设置在底座331上，作为优选的，麦克风头332的数量可设置为3颗。优选的，麦克风阵列33可设置在机身31的正前方或正前上方45度方向，针对麦克风阵列33设置在机身31的正前方的情况，麦克风可选用为心型指向性麦克风，可屏蔽无人机后方的降噪；针对麦克风阵列33设置在机身31正前上方45度方向的情况，麦克风可选用为8字型麦克风，可提高声音收集的指向性。控制器包括一个或多个处理器和存储器，其中处理器用于执行程序实现方法实施例的无人机声源定位方法；存储器用于存储可由所述处理器执行的计算机程序。

基于同一发明构思，本发明还提供一种计算机可读存储介质，与前述无人机声源定位方法的实施例相对应，所述计算机可读存储介质其上存储有计算机程序，该程序被处理器执行时实现上述任一实施例所记载的所述无人机声源定位方法的步骤。

本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，则本发明也意图包含这些改动和变形。

Claims

1.一种基于麦克风阵列的无人机声源定位方法，其特征在于，包括如下步骤：

获取待处理的声源声音信号；

根据麦克风阵列的拓扑结构，计算每一路麦克风对应的所述子人声声音信号和所述子非人声声音信号的延迟相位及短时傅里叶变换，并针对每一方位角，分别根据所述子人声声音信号的延迟相位和短时傅里叶变换、所述子非人声声音信号的的延迟相位和短时傅里叶变换，计算所述人声声音信号和非人声声音信号的声音方向来源值；

2.根据权利要求1所述的方法，其特征在于：所述麦克风阵列为线性阵列，所述声音方向来源值的表达式为：

其中，m为麦克风阵列中的麦克风数量；n为麦克风阵列中第n路声音信号线路；为第n路子人声声音信号或子非人声声音信号的第l帧的短时傅里叶变换，c是声音在空气中传播的速度；为第n路子人声声音信号或子非人声声音信号的第l帧的延迟相位，是子人声声音信号频率或子非人声声音信号频率，，d为麦克风阵列的麦克风间距，为方位角。

3.根据权利要求1所述的方法，其特征在于，对所述声源声音信号进行人声检测，提取人声声音信号和非人声声音信号前，还包括步骤：对所述声源声音信号进行带通滤波。

4.根据权利要求1所述的方法，其特征在于，对所述声源声音信号进行人声检测，提取人声声音信号和非人声声音信号前，还包括步骤：对所述声源声音信号进行分帧加窗处理。

5.一种基于麦克风阵列的无人机声源定位装置，其特征在于，包括：

信号获取模块，用于获取待处理的声源声音信号；

方向检测模块，用于根据麦克风阵列的拓扑结构，计算每一路麦克风对应的所述子人声声音信号和所述子非人声声音信号的延迟相位及短时傅里叶变换，并针对每一方位角，分别根据所述子人声声音信号的延迟相位和短时傅里叶变换、所述子非人声声音信号的的延迟相位和短时傅里叶变换，计算所述人声声音信号和非人声声音信号的声音方向来源值；

6.根据权利要求5所述的装置，其特征在于：所述麦克风阵列为线性阵列，所述声音方向来源值的表达式为：

7.根据权利要求5所述的装置，其特征在于：还包括带通滤波模块，所述带通滤波模块用于对所述声源声音信号进行带通滤波。

8.根据权利要求5所述的装置，其特征在于：还包括分帧加窗模块，所述分帧加窗模块用于对所述声源声音信号进行分帧加窗处理。

9.一种无人机，包括机身，其特征在于，还包括：麦克风阵列和控制器；

所述控制器包括：

处理器；

存储器，用于存储由所述处理器执行的计算机程序；

其中，所述处理器执行所述计算机程序时实现权利要求1-4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现权利要求1-4中任一项所述方法的步骤。