CN114743562B

CN114743562B - 一种飞机声纹识别方法、系统、电子设备及存储介质

Info

Publication number: CN114743562B
Application number: CN202210644525.3A
Authority: CN
Inventors: 张鹏; 黄巧平; 郭唯娜; 陈珂; 李宁; 王晓全
Original assignee: Chengdu CAIC Electronics Co Ltd
Current assignee: Chengdu CAIC Electronics Co Ltd
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-11-01
Anticipated expiration: 2042-06-09
Also published as: CN114743562A

Abstract

本发明提供了一种飞机声纹识别方法、系统、电子设备及存储介质，属于飞机声纹数据处理技术领域。该方法包括：实时采集环境中的声信号；对所采集的声信号进行采样和量化处理，得到声信号的时域特征；利用FFT将时域特征转换成频域特征；对所述频域特征进行三层识别，得到飞机声信号，并发送指示信号。本发明基于上述方案解决了现有技术难以在室外无人环境下快速、实时识别飞机信号的问题。

Description

一种飞机声纹识别方法、系统、电子设备及存储介质

技术领域

本发明属于飞机声纹数据处理技术领域，尤其涉及一种飞机声纹识别方法、系统、电子设备及存储介质。

背景技术

声纹作为一种常见的生物感知特征，随着数字信号处理技术的发展，现已成为了一种有效的侦查手段。各类飞行器在运行过程中无法避免得会产生噪音，利用声纹探测飞机目标，是一种有效的信息获取手段。在军事应用领域，基于声信号被动感知敌方飞机发动机噪声，为指挥中心及时提供一线情报，可弥补雷达与遥感手段仅能监测近场目标的缺陷；在民用领域，声信号被动感知探测飞机目标，能够在搜救、监控等场景中提供及时、精确的情报信息。近年来在被动声识别技术应用于识别飞机等战场目标的研究中，基于声音的时频谱特征，BP神经网络、支持向量机、自编码器等机器学习方法已被证实具有可行性。但在实际应用探测场景中，无论是飞机起降或是跑道滑行，机场跑道往往位于或空旷或偏远的室外环境中，对于飞机这种高速运动目标，既要保证较高的识别率又要保证识别的及时性，往往存在以下难点：一方面，机器学习建模所需的全面、大量的飞机声音样本难以获取，且建模、训练过程较为复杂；另一方面，室外环境下无法联网进行探测，可用的嵌入式平台运算量和运算精度有限，难以部署复杂的识别模型。

鉴于此，本文提出一种时间序列频谱特征飞机声纹识别方法、系统、电子设备及存储介质，适用于嵌入式平台，通过计算声信号频谱能量比率、频谱能量集中度在时间序列上的统计特征筛选出飞机声信号，简单高效。

发明内容

针对现有技术中的上述不足，本发明提供的一种飞机声纹识别方法、系统、电子设备及存储介质，解决了现有技术存在的难以在室外无人环境下快速、实时识别飞机信号的问题。

为了达到以上目的，本发明采用的技术方案为：

第一方面，本方案提供了一种飞机声纹识别方法，包括：

S1、实时采集环境中的声信号；

S2、对所采集的声信号进行采样和量化处理，得到声信号的时域特征；

S3、利用FFT将时域特征转换成频域特征；

S4、对频域特征进行三层识别，得到飞机声信号，并发送指示信号。

本发明的有益效果是：本发明依托于嵌入式声处理平台和时间序列频谱特征，建立了一种飞机声纹识别方法，相比基于机器学习的识别算法降低了运算负荷与模型训练成本，减少了对样本质量和数量的需求，简单高效，为解决现有技术存在的需要在室外无人环境下快速识别飞机信号的困难提供了技术支撑。

进一步地，所述进行采样和量化处理为：将采集的连续的声信号转换为离散的时间和幅度信号，得到声信号的时域特征。

上述进一步方案的有益效果是：该过程即采样、量化，把电信号转化为数字信号进行处理。

再进一步地，所述将时域特征转换成频域特征的表达式如下：

其中，

表示x[n]变换后的复数频谱，N表示声信号的长度，n表示第n长度的声信号，且n属于[0,N-1]，i表示虚数单位，x[n]表示长度为N的声信号， exp()表示指数函数，k表示频谱特征个数。

上述进一步方案的有益效果是：由于飞机声音是低频信号，转为频域特征更易进行特征提取。

再进一步地，所述步骤S4包括以下步骤：

S401、根据频域特征，通过频谱能量比率取阈值过滤高频噪声信号，筛选得到低频声信号；

S402、根据低频声信号和飞机特征频段的统计特征，过滤与飞机噪声特征存在差异的环境噪声；

S403、根据步骤S402的过滤结果，筛选得到频谱能量集中特征稳定的声信号，从而得到飞机声信号，并发送指示信号。

上述进一步方案的有益效果是：本发明基于时间序列频谱特征，通过计算频谱能量比率和频谱能量集中度在时间序列上的统计特征，设置三层判断条件，依次递进得筛选出低频声信号、飞机声信号及类似信号、稳定的飞机声信号。从而快速、简单、有效地识别环境中的飞机声信号。

再进一步地，所述频谱能量比率的表达式如下：

其中，BER_t,i,j表示频谱能量比率，S_i和S_j分别表示第t帧声信号频谱的频段i和频段j的傅里叶变换系数，

表示第t帧声信号的傅里叶变换，k表示频谱特征个数。

再进一步地，所述筛选得到低频声信号的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：BER_{t，(0，1000)，(0，3000)} >70%且MAX_Xt(k)>70dB，其中，BER_{t，（0，1000），（0，3000）}表示第t帧声信号频谱特征0-1000hz占0-3000hz频谱能量比，MAX_Xt(k)表示第t帧声信号频谱幅值最大值。

上述进一步方案的有益效果是：通过低频筛选，过滤掉高频噪声，同时考虑声信号距离衰减，与室外环境低频噪声，为低频段频谱幅值的最大值设置临界值。此外，为避免瞬时噪声影响，引入占空比进行判断。

再进一步地，所述过滤与飞机噪声特征存在差异的环境噪声的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：MEAN_Xt(100,230)>50dB、BER_{t，(100，230)，(0，1000)} >30% 和30%>BER_{t，(400，600)，(0，1000)} >5% 其中，MEAN_Xt(100,230) 表示100-230hz频段的声信号频谱幅值均值，BER_{t，(100，230)，(0，1000)}表示第t帧声信号100-230hz占0-1000hz频谱能量比，BER_{t，(400，600)，(0，1000)}表示第t帧声信号400-600hz占0-1000hz频谱能量比。

上述进一步方案的有益效果是：飞机声信号能量主要集中在100-230hz（频段1），其次是400-600hz（频段2），通过为频段1、频段2频谱能量占低频段（0-1000hz）比率设置阈值进行判断，同时为频段1频谱幅值均值设置最低门限阈值，从而筛选出飞机声信号及类似声信号，为避免瞬时噪声影响，引入占空比进行判断。

再进一步地，所述筛选得到飞机声信号的频谱能量集中特征的条件为：所述筛选得到频谱能量集中特征稳定的声信号的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：MAX_Xt(0,1000)>100dB 且STD_TS_MAXINDEX ∈[0,3] 且MEAN_TS_MAXINDEX∈[6,9]，其中，MAX_Xt(0,1000) 表示第t帧声信号0-1000hz频段频谱幅值最大值，STD_TS_MAXINDEX表示MAX_Xt(0,1000) 所对应的频率索引波动标准差，MEAN_TS_MAXINDEX表示MAX_Xt(0,1000) 所对应的频率索引波动均值。

上述进一步方案的有益效果是：基于飞机声信号低频带（0-1000hz）的最大值对应的频率索引在时间序列上的波动特征：标准差与均值，其本质是为了筛选频谱能量集中特征在时间序列上稳定的声信号。为避免瞬时噪声影响，引入占空比进行判断。

第二方面，本发明提供了一种飞机声纹识别系统，所述飞机声纹识别系统位于嵌入式平台中，包括：

采集模块，用于实时采集环境中的声信号；

第一处理模块，用于对所采集的声信号进行采样和量化处理，得到声信号的时域特征；

第二处理模块，用于利用FFT将时域特征转换成频域特征；

识别模块，用于对频域特征进行三层识别，得到飞机声信号，并发送指示信号。

本发明的有益效果是：本发明依托于嵌入式声处理平台和时间序列频谱特征，建立了一种飞机声纹识别系统，相比基于机器学习的识别算法降低了运算负荷与模型训练成本，减少了对样本质量和数量的需求，简单高效，为解决现有技术存在的需要在室外无人环境下快速识别飞机信号的困难提供了技术支撑。

其中，

表示x[n]变换后的复数频谱，N表示声信号的长度，n表示第n长度的声信号，且n属于[0,N-1]，i表示虚数单位，x[n]表示长度为N的声信号，exp()表示指数函数，k表示频谱特征个数。

上述进一步方案的有益效果是：由到飞机声音是低频信号，转为频域特征更易进行特征提取。

再进一步地，所述识别模块包括：

第一筛选单元，用于根据频域特征，通过频谱能量比率取阈值过滤高频噪声信号，筛选得到低频声信号；

第二筛选单元，用于根据低频声信号和飞机特征频段的统计特征，过滤与飞机噪声特征存在差异的环境噪声；

第三筛选单元，用于根据第二筛选单元的过滤结果，筛选得到频谱能量集中特征稳定的声信号，从而得到飞机声信号，并发送指示信号。

上述进一步方案的有益效果是：本发明基于时间序列频谱特征，通过计算频谱能量比率和频谱能量集中度在时间序列上的统计特征，设置三层判断条件，依次递进得筛选出低频声信号、飞机声信号及特征相似的声信号、稳定的飞机声信号，从而快速、简单、有效地识别环境中的飞机声信号。

再进一步地，所述频谱能量比率的表达式如下：

表示第t帧声信号的傅里叶变换，k表示频谱特征个数。

再进一步地，所述筛选得到频谱能量集中特征稳定的声信号的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：MAX_Xt(0,1000)>100dB 且STD_TS_MAXINDEX ∈[0,3] 且MEAN_TS_MAXINDEX∈[6,9]，其中，MAX_Xt(0,1000) 表示第t帧声信号0-1000hz频段频谱幅值最大值，STD_TS_MAXINDEX表示MAX_Xt(0,1000) 所对应的频率索引波动标准差，MEAN_TS_MAXINDEX表示MAX_Xt(0,1000) 所对应的频率索引波动均值。

第三方面，本发明提供了一种电子设备包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现任一所述的飞机声纹识别方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，执行所述计算机程序时实现任一项所述的飞机声纹识别方法的步骤。

附图说明

图1为本发明的方法流程图。

图2为本实施例中试验噪声时间序列频谱幅值均值曲线分布示意图。

图3为本实施例中飞机特征频段频谱能量比率时间序列分布特征示意图。

图4为本实施例中低频段（0-1000hz）频谱幅值最大值对应频率索引时间序列波动分布特征示意图。

图5为本发明的系统结构示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1

本发明提出一种适用于嵌入式平台的，基于时间序列频谱统计特征的飞机声纹识别方法，能够在室外环境下快速、有效探测到飞机声信号。为实现这一目的，本发明提出以下技术方案：如图1所示，本发明提供了一种飞机声纹识别方法，其实现方法如下：

S1、实时采集环境中的声信号；

S3、利用FFT将时域特征转换成频域特征；

S4、对频域特征进行三层识别，得到飞机声信号，并发送指示信号，其实现方法如下：

所述筛选得到低频声信号的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：BER_{t，(0，1000)，(0，3000)} >70%且MAX_Xt(k)>70dB，其中，BER_{t，（0，1000），（0，3000）}表示第t帧声信号频谱特征0-1000hz占0-3000hz频谱能量比，MAX_Xt(k)表示第t帧声信号频谱幅值最大值；

所述过滤与飞机噪声特征存在差异的环境噪声的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：MEAN_Xt(100,230)>50dB、BER_{t，(100，230)，(0，1000)} >30% 和30%>BER_{t，(400，600)，(0，1000)} >5% 其中，MEAN_Xt(100,230) 表示100-230hz频段的声信号频谱幅值均值，BER_{t，(100，230)，(0，1000)}表示第t帧声信号100-230hz占0-1000hz频谱能量比，BER_{t，(400，600)，(0，1000)}表示第t帧声信号400-600hz占0-1000hz频谱能量比；

S403、根据步骤S402的过滤结果，筛选得到频谱能量集中特征稳定的声信号，从而得到飞机声信号，并发送指示信号；

所述筛选得到频谱能量集中特征稳定的声信号的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：MAX_Xt(0,1000)>100dB 且STD_TS_MAXINDEX ∈[0,3]且MEAN_TS_MAXINDEX∈[6,9]，其中，MAX_Xt(0,1000) 表示第t帧声信号0-1000hz频段频谱幅值最大值，STD_TS_MAXINDEX表示MAX_Xt(0,1000) 所对应的频率索引波动标准差，MEAN_TS_MAXINDEX表示MAX_Xt(0,1000) 所对应的频率索引波动均值。

本实施例中，本发明利用嵌入式平台的采音装置（麦克风或声传感器等）实时采集环境中的声信号，因为所要识别的目标飞机声信号属于低频信号，因此采样频率设置为6000hz即可满足识别需求。

本实施例中，在嵌入式平台中，对所采集的声信号进行采样和量化处理：将连续的声信号转换为离散的时间和幅度信号，得到声信号的时域特征。

本实施例中，在嵌入式平台中，通过傅立叶变换FFT将声信号从时域转换成频率，对于长度为N的声信号x[n]，n属于[0,N-1]，其傅立叶变换的公式为：

其中，

本实施例中，本发明基于时间序列频谱特征：整个系统放在飞机可能低空出现的无人环境中，进行实时识别，环境中存在各种各样的噪声，通过计算频谱能量比率、频谱能量集中度在时间序列上的统计特征，设置有三层判断条件，第一层判断为低频筛选；第二层判断条件是基于目标飞机声信号的特征频段进行筛选；第三层判断条件是基于目标飞机声信号低频带（0-1000hz）的最大值对应的频率索引在时间序列上的波动特征设置，从而筛选出飞机声信号。基于上述三层判断条件，为降低对其他环境噪声的虚警率，每一层判断条件都引入占空比作为时间序列特征稳定性评价，占空比指在一段时间序列窗口内，满足条件的数据帧占总数据帧的比例，以识别飞机声信号。为了识别稳定的飞机声信号，降低对其他环境噪声的虚警率，每一层判断条件都引入占空比作为时间序列特征稳定性评价，占空比指在一段时间序列窗口内，满足条件的数据帧占总数据帧的比例。

本实施例中，第一层判断条件进行低频声信号筛选：通过为低频段（0-1000hz）频谱能量占总能量比率设置阈值来过滤掉高频噪声，同时考虑目标飞机声信号距离衰减，与室外环境低频噪声，为低频段频谱幅值的最大值设置临界值。低频声信号筛选的时间序列窗口为1秒钟，占空比大于等于80%。即，通过频谱能量比率取阈值，并根据该阈值过滤高频飞机噪声，对于频段i和频段j，频谱能量比率的表式如下：

表示第t帧声信号的傅里叶变换，k表示频谱特征个数。

本实施例中，目标飞机声信号属于低频信号，能量集中在0-1000hz频段内，同时为消除瞬时噪声的影响，引入占空比进行特征稳定性判断，如图2所示，自然环境中获取的飞机噪声：采集飞机声音1、采集飞机声音2的时间序列频谱幅值均值都集中在低频0-1000hz，且集中在100-230hz、400-600hz两个频段；采集得到的其他环境、机械噪声如强台风声音、挖掘机音效等也属于低频噪声，会给飞机声信号识别带来干扰。低频声信号筛选的条件设置为：1秒的时间序列窗口内占空比大于等于80%，每帧数据需满足：0-1000hz频谱能量占频谱总能量比率大于70%，频谱最大值大于70dB。即，在1000hz 以下1秒的时间序列窗口内占空比大于80%，且每帧数据同时满足：BER_{t，(0，1000)，(0，3000)}和MAX_Xt(k)>70dB，其中，BER_{t，（0，1000），（0，3000）}表示第t帧声信号频谱特征0-1000hz占0-3000hz频谱能量比，MAX_Xt(k)表示第t帧声信号频谱幅值最大值。

在0-1000hz频段中，频谱能量占比大于总能量比率的70%，频谱最大值大于70dB，其中，频谱能量为信号傅里叶变换后频段频谱幅值绝对值之和；频谱总能量为信号傅里叶变换后整个频段频谱幅值绝对值之和。

本实施例中，在对低频声信号筛选之后，第二层判断条件是基于飞机声信号特征频段进行筛选，飞机声信号能量主要集中在100-230hz（频段1），其次是400-600hz（频段2）。通过为频段1、频段2频谱能量占低频段（0-1000hz）比率设置阈值进行判断，同时为频段1频谱幅值均值设置最低门限阈值。第二层判断的时间序列窗口为1秒钟，占空比大于等于80%。设置判断条件为，1秒的时间序列窗口内占空比大于等于80%，每帧数据需满足：100-230hz频谱幅值均值大于50dB,100-230hz频谱能量占0-1000hz频段比率大于30%，400-600hz频谱能量占0-1000hz频段比率小于等于30%、大于等于5%。即，根据统计得到的飞机声信号特征频段对低频噪声进行筛选，筛选得到与飞机声信号特征相似的声信号的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据同时满足：MEAN_Xt(100,230)>50dB、BER_{t，(100，230)，(0，1000)} >30% 和30% >BER_{t，(400，600)，(0，1000)} >5%其中，MEAN_Xt(100,230) 表示100-230hz频段的声信号频谱幅值均值，BER_{t，(100，230)，(0，1000)}表示第t帧声信号100-230hz占0-1000hz频谱能量比，BER_{t，(400，600)，(0，1000)}表示第t帧声信号400-600hz占0-1000hz频谱能量比。如图3所示，图3中，M和N分别代表频段在100-230hz的BER_{t，(100，230)，(0，1000)} 和频段在400-600hz的BER_{t，(400，600)，(0，1000)} ，M1为采集的飞机声信号1频段在100-230hz的BER_{t，(100，230)，(0，1000)}，M2为采集的飞机声信号2频段在100-230hz的BER_{t，(100，230)，(0，1000)}，N1为采集的飞机声信号1在频段400-600hz的BER_{t，(400，600)，(0，1000)}，N2为采集的飞机声信号2在频段400-600hz的BER_{t，(400，600)，(0，1000)}。

本实施例中，第三层判断条件是基于飞机声信号低频段（0-1000hz）的最大值对应的频率索引在时间序列上的波动特征：标准差与均值，其本质是为了筛选频谱能量集中特征在时间序列上稳定的声信号，为标准差和均值设定阈值区间进行判断，同时为频段1频谱幅值最大值设置最低门限阈值。第三层判断的时间序列窗口为1秒钟，占空比大于等于80%，飞机低频（即0-1000hz）频谱幅值最大值所对应的频率索引在1秒时间序列窗口内的均值和标准差波动稳定在一定区间内，其本质为低频频谱幅值最大值所对应的频率稳定在100-230hz间。筛选出飞机声信号的条件为：在1000hz以下1秒的时间序列窗口内占空比大于等于80%，且每帧数据同时满足：MAX_Xt(0,1000)>100dB 且STD_TS_MAXINDEX ∈[0,3] 且MEAN_TS_MAXINDEX∈[6,9]，其中，MAX_Xt(0,1000) 表示第t帧声信号0-1000hz频段频谱幅值最大值，STD_TS_MAXINDEX表示MAX_Xt(0,1000) 所对应的频率索引波动标准差，MEAN_TS_MAXINDEX表示MAX_Xt(0,1000) 所对应的频率索引波动均值。如图4所示，图4中，X和Y分别为标准差STD_TS_MAXINDEX和均值MEAN_TS_MAXINDEX，X1为采集的飞机声信号1的标准差STD_TS_MAXINDEX，X2为采集的飞机声信号2的标准差STD_TS_MAXINDEX，Y1为采集的飞机声信号1的均值MEAN_TS_MAXINDEX，Y2为采集的飞机声信号2的均值MEAN_TS_MAXINDEX。

实施例2

如图5所示，本发明提供了一种飞机声纹识别系统，所述飞机声纹识别系统位于嵌入式平台中，包括：

采集模块，用于实时采集环境中的声信号；

第二处理模块，用于利用FFT将时域特征转换成频域特征；

在其中一个实施例中，所述进行采样和量化处理为：将采集的连续的声信号转换为离散的时间和幅度信号，得到声信号的时域特征。

在其中一个实施例中，所述将时域特征转换成频域特征的表达式如下：

其中，

在其中一个实施例中，所述识别模块包括：

在其中一个实施例中，所述频谱能量比率的表达式如下：

表示第t帧声信号的傅里叶变换，k表示频谱特征个数。

在其中一个实施例中，所述筛选得到低频声信号的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：BER_{t，(0，1000)，(0，3000)} >70%且MAX_Xt(k)>70dB，其中，BER_{t，（0，1000），（0，3000）}表示第t帧声信号频谱特征0-1000hz占0-3000hz频谱能量比，MAX_Xt(k)表示第t帧声信号频谱幅值最大值。

在其中一个实施例中，所述过滤与飞机噪声特征存在差异的环境噪声的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：MEAN_Xt(100,230)>50dB、BER_{t，(100，230)，(0，1000)} >30% 和30%>BER_{t，(400，600)，(0，1000)} >5% 其中，MEAN_Xt(100,230) 表示100-230hz频段的声信号频谱幅值均值，BER_{t，(100，230)，(0，1000)}表示第t帧声信号100-230hz占0-1000hz频谱能量比，BER_{t，(400，600)，(0，1000)}表示第t帧声信号400-600hz占0-1000hz频谱能量比。

在其中一个实施例中，所述筛选得到频谱能量集中特征稳定的声信号的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：MAX_Xt(0,1000)>100dB 且STD_TS_MAXINDEX ∈[0,3] 且MEAN_TS_MAXINDEX∈[6,9]，其中，MAX_Xt(0,1000) 表示第t帧声信号0-1000hz频段频谱幅值最大值，STD_TS_MAXINDEX表示MAX_Xt(0,1000) 所对应的频率索引波动标准差，MEAN_TS_MAXINDEX表示MAX_Xt(0,1000) 所对应的频率索引波动均值。

如图5所示实施例提供的飞机声纹识别系统可以执行上述方法实施例飞机声纹识方法所示的技术方案，其实现原理与有益效果类似，此处不再赘述。

本实施例中，本申请可以根据飞机声纹识别方法进行功能单元的划分，例如可以将各个功能划分为各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成单元即可以采用硬件的形式来实现，也可以采用软件功能单元的形式来实现。需要说明的是，本发明中对单元的划分是示意性的，仅仅为一种逻辑划分，实际实现时可以有另外的划分方式。

本实施例中，飞机声纹识别系统为了飞机声纹识别方法的原理与有益效果，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本发明所公开的实施例描述的各示意单元及算法步骤，本发明能够以硬件和/或硬件和计算机软件结合的形式来实现，某个功能以硬件还是计算机软件驱动的方式来执行，取决于技术方案的特定应用和设计约束条件，可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本实施例中，本发明提供的飞机声纹识别系统，可在室外环境下有效识别1-3km距离的飞机声信号，该系统基于嵌入式声处理平台，包括：采集模块（麦克风/声传感器）实时对环境声信号进行采集；第一处理模块对数据进行采样、量化，获取声信号的时域数据；第二处理模块，利用FFT将时域特征转换成频域特征：识别模块，通过计算频谱能量比率、频谱能量集中度在时间序列上的稳定性特征进行判断，当识别到飞机声信号时，指示模块发送指示信号。本发明依托于嵌入式声处理平台和时间序列频谱特征，建立了一种飞机声纹识别系统，相比基于机器学习的识别系统降低了运算负荷与模型训练成本，减少了对样本质量和数量的需求，简单高效，为解决现有技术存在的需要在室外无人环境下快速识别飞机信号的困难提供了技术支撑。

实施例3

本实施例中，电子设备可以包括：处理器，存储器，总线和通信接口，处理器、通信接口和存储器通过总线连接，存储器中存储有可在处理器上运行的计算机程序，处理器运行该计算机程序时执行本申请前述实施例1所提供的飞机声纹识别方法的部分或全部步骤。

实施例4

上述计算机可读存储介质可以中由任何类型的易失性或非易失性存储设备或他们的组合实现，如静态随机存取存储器（SRAM），可擦除可维和只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘，可读存储介质可以是通用或专用计算机能够存取的任何可用介质。可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息，可读存储介质也可以是处理器组成部分，处理器和可读存储介质可以位于专用集成电路（ASIC）中，处理器和可读存储介质也可以作为分立组件存在于飞机声纹识别系统中。

本发明实施例可提供为方法、装置、或计算机程序产品，因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且本发明可采用一个或多个其中包括有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。参照根据本发明实施例的方法、设备（装置）、和计算机程序产品的流程和/或方框图来描述的，应理解可由计算机程序指令实现流程图和/或方框图中每一流程和/或方框图、以及流程图和/或方框图的结合，可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图中一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

实施例5

基于上述实施例阐述，下面对本发明的具体实施方式做进一步说明，使本发明的技术路线更加清晰。采集距机场跑道1-3km处的飞机起降、跑道滑行音频以及其他设备、环境噪声音频用于试验。其中飞机噪声因距离衰减传播至嵌入式平台的分贝大于70dB，最终采集、收集了飞机以及应用场景中常见的人为、自然、机械等其他三种环境噪声音频共71个，总时长大于18分钟。嵌入式平台以PyAI-K210开发板为例，实施步骤如下：

步骤1、在试验环境中模拟播放不同距离、方位的试验噪声集，确保到达开发板的飞机声信号分贝大于70dB，将PyAI-K210放置在试验环境中利用麦克风模块实时采集声信号，采样频率为6000，采样点数为512，每秒大约处理12帧数据。

步骤2、利用PyAI-K210的模数转换模块对所采集的声音进行采样、量化处理以获取声信号的时域数据：采样和量化将连续的声信号变成时间和幅度都离散的数字信号。

步骤3、PyAI-K210的核心处理模块内嵌了飞机声纹识别方法，首先通过傅里叶变换（FFT）将信号从时域转为频域特征，其变换公式为：

其中，

表示x[n]变换后的复数频谱，N表示声信号的长度，n表示第n长度的声信号，且n属于[0,N-1]，i表示虚数单位，x[n]表示长度为N的声信号，exp()表示指数函数，k表示频谱特征个数，实数信号x在经过离散傅里叶变换之后，得到的

为复数频谱，对频谱取幅值

，便得到N个频谱幅值特征；

步骤4、声纹识别有三层判断，第一层判断为低频飞机声信号筛选，即通过频谱能量比率取阈值过滤掉高频噪声。对于频段i和频段

，频谱能量比率定义如下：

表示第t帧声信号的傅里叶变换，k表示频谱特征个数。飞机声信号属于低频信号，能量集中在0-1000hz频段内，同时为消除瞬时噪声的影响，引入占空比进行特征稳定性判断，占空比指在一段时间序列窗口内，满足条件的数据帧占总数据帧的比例。因此低频筛选的条件设置为，1秒的时间序列窗口内占空比大于等于80%，每帧数据需满足：0-1000hz频谱能量占总能量比率大于70%（见附图2），频谱最大值大于70dB，即：

BER_{t，(0，1000)，(0，3000)} >70%且MAX_Xt(k)>70dB

步骤5、根据低频声信号和飞机特征频段的统计特征，过滤与飞机噪声特征差异较大的环境噪声，可筛选到飞机、强台风、挖掘机等低频噪声（见附图2），第二层判断条件是基于飞机声信号特征频段进行筛选，飞机声信号能量主要集中在100-230hz，其次是400-600hz（见附图2）。设置判断条件为，1秒的时间序列窗口内占空比大于等于80%，每帧数据需满足：100-230hz 频谱幅值均值大于50dB,100-230hz频谱能量占0-1000hz频段比率大于30%，400-600hz频谱能量占0-1000hz频段比率小于等于30%、大于等于5%（见附图3），即：

MEAN_Xt(100,230)>50dB 且 BER_{t，(100，230)，(0，1000)} >30%且BER_{t，(400，600)，(0，1000)} >5%

步骤6、第三层判断是基于飞机声信号的频谱能量集中特征，飞机低频（即0-1000hz）频谱幅值最大值所对应的频率索引在一秒时间序列窗口内的均值和方差波动稳定在一定区间内，其本质为低频频谱幅值最大值所对应的频率稳定在100-230hz间。设置判断条件为：1秒的时间序列窗口内占空比大于等于80%，每帧数据需满足：低频频谱幅值最大值大于100dB，最大值所对应的频率索引波动标准差STD_TS_MAXINDEX属于[0,3]区间，均值MEAN_TS_MAXINDEX属于[6,9]区间（见附图4），即：

MAX_Xt(0,1000)>100dB 且 STD_TS_MAXINDEX ∈[0,3] 且MEAN_TS_MAXINDEX∈[6,9]

步骤7、当声音信号均通过三层判断条件时，即识别飞机声信号，PyAI-K210发送指示信号，指示灯亮起。

最终，在71个试验噪声集中，该算法的识别率为92.3%，误触发率为1.7%，能够有效的探测到飞机声纹。

本领域的技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种飞机声纹识别方法，其特征在于，包括以下步骤：

S1、实时采集环境中的声信号；

S3、利用FFT将时域特征转换成频域特征；

S4、对频域特征进行三层识别，得到飞机声信号，并发送指示信号；

所述步骤S4包括以下步骤：

2.根据权利要求1所述的飞机声纹识别方法，其特征在于，所述进行采样和量化处理为：将采集的连续的声信号转换为离散的时间和幅度信号，得到声信号的时域特征。

3.根据权利要求1所述的飞机声纹识别方法，其特征在于，所述将时域特征转换成频域特征的表达式如下：

其中，

4.根据权利要求1所述的飞机声纹识别方法，其特征在于，所述频谱能量比率的表达式如下：

表示第t帧声信号的傅里叶变换，k表示频谱特征个数。

5.根据权利要求1所述的飞机声纹识别方法，其特征在于，所述筛选得到低频声信号的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：BER_{t，(0，1000)，(0，3000)}>70%且MAX_Xt(k)>70dB，其中，BER_{t，（0，1000），（0，3000）}表示第t帧声信号频谱特征0-1000hz占0-3000hz频谱能量比，MAX_Xt(k)表示第t帧声信号频谱幅值最大值。

6.根据权利要求1所述的飞机声纹识别方法，其特征在于，所述过滤与飞机噪声特征存在差异的环境噪声的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：MEAN_Xt(100,230)>50dB、BER_{t，(100，230)，(0，1000)}>30% 和30%>BER_{t，(400，600)，(0，1000)}>5% 其中，MEAN_Xt(100,230)表示100-230hz频段的声信号频谱幅值均值，BER_{t，(100，230)，(0，1000)}表示第t帧声信号100-230hz占0-1000hz频谱能量比，BER_{t，(400，600)，(0，1000)}表示第t帧声信号400-600hz占0-1000hz频谱能量比。

7.根据权利要求1所述的飞机声纹识别方法，其特征在于，所述筛选得到频谱能量集中特征稳定的声信号的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：MAX_Xt(0,1000)>100dB 且STD_TS_MAXINDEX∈[0,3] 且 MEAN_TS_MAXINDEX∈[6,9]，其中，MAX_Xt(0,1000)表示第t帧声信号0-1000hz频段频谱幅值最大值，STD_TS_MAXINDEX表示MAX_Xt(0,1000)所对应的频率索引波动标准差，MEAN_TS_MAXINDEX表示MAX_Xt(0,1000)所对应的频率索引波动均值。

8.一种飞机声纹识别系统，其特征在于，所述飞机声纹识别系统位于嵌入式平台中，包括：

采集模块，用于实时采集环境中的声信号；

第二处理模块，用于利用FFT将时域特征转换成频域特征；

识别模块，用于对频域特征进行三层识别，得到飞机声信号，并发送指示信号，所述识别模块包括：

9.根据权利要求8所述的飞机声纹识别系统，其特征在于，所述进行采样和量化处理为：将采集的连续的声信号转换为离散的时间和幅度信号，得到声信号的时域特征。

10.根据权利要求8所述的飞机声纹识别系统，其特征在于，所述将时域特征转换成频域特征的表达式如下：

其中，

11.根据权利要求8所述的飞机声纹识别系统，其特征在于，所述频谱能量比率的表达式如下：

表示第t帧声信号的傅里叶变换，k表示频谱特征个数。

12.根据权利要求8所述的飞机声纹识别系统，其特征在于，所述筛选得到低频声信号的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：BER_{t，(0，1000)，(0，3000)}>70%且MAX_Xt(k)>70dB，其中，BER_{t，（0，1000），（0，3000）}表示第t帧声信号频谱特征0-1000hz占0-3000hz频谱能量比，MAX_Xt(k)表示第t帧声信号频谱幅值最大值。

13.根据权利要求8所述的飞机声纹识别系统，其特征在于，所述过滤与飞机噪声特征存在差异的环境噪声的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：MEAN_Xt(100,230)>50dB、BER_{t，(100，230)，(0，1000)}>30% 和30%>BER_{t，(400，600)，(0，1000)}>5% 其中，MEAN_Xt(100,230)表示100-230hz频段的声信号频谱幅值均值，BER_{t，(100，230)，(0，1000)}表示第t帧声信号100-230hz占0-1000hz频谱能量比，BER_{t，(400，600)，(0，1000)}表示第t帧声信号400-600hz占0-1000hz频谱能量比。

14.根据权利要求8所述的飞机声纹识别系统，其特征在于，所述筛选得到频谱能量集中特征稳定的声信号的条件为：在1秒的时间序列窗口内占空比大于等于80%，且每帧数据满足：MAX_Xt(0,1000)>100dB 且STD_TS_MAXINDEX∈[0,3] 且 MEAN_TS_MAXINDEX∈[6,9]，其中，MAX_Xt(0,1000)表示第t帧声信号0-1000hz频段频谱幅值最大值，STD_TS_MAXINDEX表示MAX_Xt(0,1000)所对应的频率索引波动标准差，MEAN_TS_MAXINDEX表示MAX_Xt(0,1000)所对应的频率索引波动均值。

15.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-7中任一所述的飞机声纹识别方法的步骤。

16.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，执行所述计算机程序时实现如权利要求1-7任一项所述的飞机声纹识别方法的步骤。