CN114093385A - 一种无人机检测方法及装置 - Google Patents
一种无人机检测方法及装置 Download PDFInfo
- Publication number
- CN114093385A CN114093385A CN202111409241.8A CN202111409241A CN114093385A CN 114093385 A CN114093385 A CN 114093385A CN 202111409241 A CN202111409241 A CN 202111409241A CN 114093385 A CN114093385 A CN 114093385A
- Authority
- CN
- China
- Prior art keywords
- sound signals
- unmanned aerial
- aerial vehicle
- neural network
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 62
- 230000005236 sound signal Effects 0.000 claims abstract description 122
- 238000001228 spectrum Methods 0.000 claims abstract description 58
- 238000003062 neural network model Methods 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000008859 change Effects 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 230000009466 transformation Effects 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 21
- 238000005070 sampling Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 21
- 238000012360 testing method Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 12
- 239000000463 material Substances 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 238000009432 framing Methods 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005553 drilling Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 208000008918 voyeurism Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种无人机检测方法及装置,其中,方法包括:实时采集待检测区域的声音信号;对所述声音信号进行预加重和短时傅里叶变化,得到频谱信号;对所述频谱信号进行梅尔倒谱分析,获取多维特征参数MFCC;将所述多维特征参数MFCC输入至预先设置的神经网络模型,以使所述神经网络模型判断所述待检测区域是否存在无人机,并输出检测结果。其中,所述神经网络模型是根据多个样本声音信号以及各样本声音信号对应的无人机检测结果,结合卷积神经网络训练得到的;所述多个样本声音信号包括多个不同类型的无人机声音信号,以此提高无人机检测的精准度。
Description
技术领域
本发明涉及声音信号处理领域。特别是涉及一种无人机检测方法及装置。
背景技术
目前,随着电子技术的发展,无人机逐渐被广泛应用到商业和民用消费市场,例如,航空拍摄、新闻报道、快递服务等行业,越来越多的无人机公司如雨后春笋般涌入这一新兴产业,例如大疆、零度智控、中科遥感等。不过无人机虽有万般好,在无人机开始逐渐走入寻常百姓家时,无人机的相关弊端也逐渐显现。例如,由于使用不规范对航空事业产生不利影响,偷窥居民隐私等都是无人机逐渐普及所带来的负面影响,它的危害包括侵犯他人隐私、带来安全隐患、财产损失等。且因为5G技术的到来,这些不法行为会更加隐蔽,更加难以发现。
无人机监管问题刻不容缓,充分发挥无人机的有利面就必须对无人机进行规范。为了实现对无人机的管理,无人机识别技术显得尤为重要。现有技术中,常用的两种识别技术是雷达探测技术和光电/红外探测技术。雷达设备发送超声波信号,当雷达设备检测到该超声波信号对应的反射波信号时,确定待检测区域存在无人机。但是,通过雷达检测实现无人机识别的过程中,很容易误识别,例如,待检测区域中飞行的是小鸟,雷达设备也可能接收到反射波信号,如此可能将小鸟误识别为无人机。同时雷达检测技术存在近距离盲区,漏警率高,难以探测“低慢小”无人机,而光电/红外探测技术虽然能够通过摄像取证,弥补雷达探测技术无法探测静默无人机的不足,但是受环境和能见度影响较大,对使用场景要求较高。
发明内容
本发明要解决的技术问题是:提供一种无人机识别技术,提高无人机识别的精准度。
为了解决上述技术问题,本发明提供了一种无人机识别方法,包括:实时采集待检测区域的声音信号;
依次对所述声音信号进行预加重和短时傅里叶变化,得到频谱信号;
对所述频谱信号进行梅尔倒谱分析,获取多维特征参数MFCC;
将所述多维特征参数MFCC输入至预先设置的神经网络模型,以使所述神经网络模型判断所述待检测区域是否存在无人机,并输出检测结果;其中,所述神经网络模型是根据多个样本声音信号以及各样本声音信号对应的无人机检测结果,结合卷积神经网络训练得到的;所述多个样本声音信号包括多个不同类型的无人机声音信号。
进一步的,依次对所述声音信号进行预加重和短时傅里叶变化,得到频谱信号,具体为:
将所述声音信号通过高通滤波器进行预加重,获取预加重后的中高频信号;
将所述预加重后的中高频信号做短时傅里叶变换变化,得到频谱信号。
进一步的,对所述频谱信号进行梅尔倒谱分析,获取多维特征参数MFCC,具体为:
将所述频谱信号通过梅尔标度滤波器组,得到所述频谱信号对应的梅尔频谱图;
将所述频谱信号按帧为单位,对所述对应的梅尔频谱图取对数,计算对数能量;
将所述对数能量做离散余弦变换,获取梅尔倒谱能量系数;
对所述梅尔倒谱能量系数提取动态差分参数,得到多维特征参数MFCC。
进一步的,所述神经网络模型的训练过程,具体为:
获取多个不同类型的声音信号;其中,所述多个不同类型的样本声音信号包括无人机声音信号和非无人机声音信号;
对所述多个不同类型的声音信号进行梅尔倒谱分析,得到所述多个不同类型的声音信号对应的多维特征参数MFCC;
设置解析函数,对所述多个不同类型的样本声音信号是否为无人机运行声音的对应结果进行映射,获取映射关系;
分别将所述多个不同类型的样本声音信号对应的多维特征参数MFCC以及所述映射关系输入至预先设置的神经网络模型,对所述预先设置的神经网络模型进行训练,得到所述神经网络模型。
进一步的,所述实时采集待检测区域的声音信号,具体为:
通过预设采样频率、通道数、采样位数和帧长度,实时采集待检测区域的声音信号。
进一步的,本发明还提供了一种无人机识别装置,包括:采集模块、第一变换模块、第二变换模块和识别模块;
所述采集模块用于实时采集待检测区域的声音信号;
所述第一变换模块用于依次对所述声音信号进行预加重和短时傅里叶变化,得到频谱信号;
所述第二变换模块用于对所述频谱信号进行梅尔倒谱分析,获取多维特征参数MFCC;
所述识别模块用于将所述多维特征参数MFCC输入至预先设置的神经网络模型,以使所述神经网络模型判断所述待检测区域是否存在无人机,并输出检测结果;其中,所述神经网络模型是根据多个样本声音信号以及各样本声音信号对应的无人机识别结果,结合卷积神经网络而训练得到的;所述多个样本声音信号包括多个不同类型的无人机声音信号。
进一步的,所述第一变换模块包括预加重单元和傅里叶变换单元,具体为:
所述预加重单元用于将所述声音信号通过高通滤波器进行预加重,获取预加重后的中高频信号;
所述傅里叶变换单元用于将所述预加重后的中高频信号做短时傅里叶变换变化,得到频谱信号。
进一步的,所述第二变换模块包括滤波单元、对数单元、离散单元和差分单元,具体为:
所述滤波单元用于将所述频谱信号通过梅尔标度滤波器组,得到所述频谱信号对应的梅尔频谱图;
所述对数单元用于将所述频谱信号按帧为单位,对所述对应的梅尔频谱图取对数,计算对数能量;
所述离散单元用于将所述对数能量做离散余弦变换,获取梅尔倒谱能量系数;
所述差分单元用于对所述梅尔倒谱能量系数提取动态差分参数,得到多维特征参数MFCC。
进一步的,所述映射单元用于设置解析函数,对所述多个不同类型的样本声音信号是否为无人机运行声音的对应结果进行映射;
所述训练单元用于分别将所述多个不同类型的样本声音信号对应的多维特征参数MFCC以及所述映射关系输入至预先设置的神经网络模型,对所述预先设置的神经网络模型进行训练,得到所述神经网络模型。
进一步的,所述采集模块用于实时采集待检测区域的声音信号,具体为:
具体通过预设采样频率、通道数、采样位数和帧长度,实时采集带检测区域的声音信号。
本发明实施例提供的一种无人机检测方法及装置与现有技术相比,其有益效果在于:可以实时采集待检测区域的声音信号并进行预处理得到频谱信号,根据所述频谱信号进行梅尔倒谱分析,获取多维特征参数MFCC;将所述多维特征参数MFCC输入至预先设置的神经网络模型,以使所述神经网络模型判断所述待检测区域是否存在无人机,并输出检测结果。本发明实施例提供的一种无人机检测方法及装置是对待检测区域的声音信号进行检测,对所述声音信号进行多次处理,获取多维特征参数MFCC后进行识别,待检测区域是否存在无人机,可以降低检测失误率和漏警率,提高无人机检测的精准度。同时声音信号不受检测环境和能见度影响,具有更高的可适用性。本发明实施例还通过扩大并改良声音样本的数据集对所述神经网络模型进行优化,进一步提高无人机检测的精准度。
附图说明
图1是本发明实施例提供的无人机检测方法的一种实施例的流程示意图;
图2是本发明实施例提供的无人机检测方法的一种实施例采集到的无人机声音样本;
图3是本发明实施例提供的无人机检测方法的一种实施例采集到的无人机声音信号的原始频谱图;
图4是本发明实施例提供的无人机检测方法的一种实施例采集到的无人机声音信号预加重后的频谱图;
图5是本发明实施例提供的无人机检测装置的一种实施例的结构示意图;
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1,图1是本发明实施例提供的无人机检测方法的一种实施例的流程示意图,如1所示,该方法包括步骤101至步骤104,各项步骤具体如下:
步骤101:实时采集待检测区域的声音信号。
在本发明例中,通过预设采样频率、通道数、采样位数、帧长度,实时采集待检测区域的声音信号。在待检测区域的音频数据时,预先设置录制音频的采样率为48k、道数为1、采样位数为16位、每帧长度为512个采样点后,再进行数据采集。参见图2,图2是本发明实施例提供的无人机检测方法的一种实施例采集到的无人机声音样本。
步骤102:依次对所述声音信号进行预加重和短时傅里叶变化,得到频谱信号。
在本发明实施例中,对所述声音信号进行预加重提高原始声音信号的中高频部分,优化无人机声音的识别效果。将原始声音信号通过高通滤波器,预加重可用以下公式表示:
Y(n)=X(n)-μX(n-1);
式中,Y(n)为预加重处理后的结果;X(n)为第n时刻的声音信号采样值;μ为滤波器系数,取值一般在[0.9,1]之间。参见图3和图4,图3是本发明实施例提供的无人机检测方法的一种实施例采集到的无人机声音信号的原始频谱图;图4是本发明实施例提供的无人机检测方法的一种实施例采集到的无人机声音信号预加重后的频谱图。通过图3和图4的对比参照,可以明显看出,经过预加重后的声音信号的中高频部分的特征更加突出,有利于提高对声音信号的识别效果。
在本发明实施例中,对经过预加重处理后的中高频信号作短时傅里叶变化STFT,即分帧、加窗和傅里叶变换。信号每n个采样点分为一帧,通常情况下一帧的总长是256或512个采样点。同时,为了能够保证相邻两帧之间具备一定的相关性,允许两相邻帧之间存在一段长度为m的重叠区域,在本实施例中设定相邻帧的重叠区域m为n的一半,完成对中高频信号的分帧。
在本发明实施例中,为了尽可能减少分帧带来的频谱泄露误差,需要将每一帧信号代入加权函数,也叫窗函数,即加窗。在本发明实施例中使用的是汉明窗,其函数可以用以下公式表示:
W(n,a)=(1-a)-acos(2πn/(N-1)),0<=n<=N-1;
式中,W为加窗处理后的结果;n表示第n时刻的取值;N为汉明窗长度,通过设置a的值来选取窗的类型,本发明实施例中当(1-a)=0.53836时为汉明窗,即a=0.46164。
在本发明实施例中,对加窗后的每一帧信号经过离散傅里叶变换DFT得到频谱信号,傅里叶变换可用以下公式表示:
式中,Xa(k)为离散傅里叶变换处理后的结果;x(n)为采样的模拟信号,即加窗后的每一帧信号;N为采样的模拟信号的长度。
作为本发明实施例的一种优选方案,在需要处理规模较大的加窗后信号时,可以采用快速傅里叶变换FFT来代替计算量过大的传统离散傅里叶变换DFT,提高数据处理的效率,快速傅里叶变换可用以下公式表示:
式中,Xa(k)为快速傅里叶变换处理后的结果;x(n)为采样的模拟信号,即加窗后的每一帧信号;W为旋转因子;N为采样的模拟信号的长度。
步骤103:对所述频谱信号进行梅尔倒谱分析,获取多维特征参数MFCC。
在本发明实施例中,将所述频谱信号通过梅尔标度滤波器组,得到所述频谱信号对应的梅尔频谱图。梅尔标度滤波器由多个幅值各异的三角滤波器共同构成,且低频处的滤波器分布密集,而高频处的滤波器分布稀疏,符合与赫兹的非线性感知规律。本发明实施例设定三角滤波器数量为四十个,考虑到需要尽可能保留无人机声音的中高频段信息,采用了等高梅尔滤波器组,即每个三角滤波器的门限值相同。梅尔频率标度与赫兹频率的转换关系可用以下公式表示:
mel(f)=2595log10(1+f/700);
式中mel(f)是以梅尔(Mel)为单位的感知频域(简称梅尔频率),f是以Hz为单位的实际语音频率。
计算所述频谱信号通过滤波器输出的能量,可用以下公式表示:
式中,Hm(k)为频谱信号通过滤波器输出的能量,melf(m)为梅尔频率。
在本发明实施例中,将所述频谱信号按帧为单位,对所述对应的梅尔频谱图取对数,计算对数能量,可用以下公式表示:
式中,s(m)为总对数能量;|Xa(k)|2为傅里叶变换中第k个点的能量;M为滤波器数量,m表示从1到M;Hm(k)为频谱信号通过滤波器输出的能量。
将所述对数能量做离散余弦变换,获取L阶梅尔倒谱能量系数,可用以下公式表示:
式中,s(m)为对数能量;C(n)为离散余弦变换处理后的结果;L指梅尔倒谱能量系数阶数,取值区间通常在[12-16],M指的是三角滤波器的数目。
将所述反映信号静态特征的L阶梅尔倒谱能量系数进行差分运算,能够准确描述并提取动态差分参数,动静结合能够有效地改善识别效果,差分运算可用以下公式表示:
式中,K是一阶导数时间差,可取1或2,Ct是第t个倒谱系数,Q是倒谱系数阶数,也就是离散余弦变换中的L,dt是第t个一阶差分。将上述结果继续代入可进而求出二阶差分参数。
本发明实施例中,利用librosa库提取梅尔倒谱系数为例,设定离散余弦变换的阶数L为13,加上一阶和二阶的差分参数就有39项,最后再加上对数能量,总共得到40维MFCC特征参数。
步骤104:将所述多维特征参数MFCC输入至预先设置的神经网络模型,以使所述神经网络模型判断所述待检测区域是否存在无人机,并输出检测结果;其中,所述神经网络模型是根据多个样本声音信号以及各样本声音信号对应的无人机检测结果,结合卷积神经网络训练得到的;所述多个样本声音信号包括多个不同类型的无人机声音信号。具体为:获取多个不同类型的声音信号,对所述多个不同类型的声音信号进行梅尔倒谱分析,得到所述多个不同类型的声音信号对应的多维特征参数MFCC;设置解析函数,对所述多个不同类型的样本声音信号是否为无人机运行声音的对应结果进行映射;分别将所述多个不同类型的样本声音信号对应的多维特征参数MFCC以及所述映射关系输入至预先设置的神经网络模型,对所述预先设置的神经网络模型进行训练,得到所述神经网络模型。
在本发明实施例中,将提取的多维特征参数MFCC制作成TFrecord数据集(包括训练集与测试集),作为卷积神经网络模型的输入数据。从TFrecord文件导入该数据集,利用解析函数实现样本的数据与标签的映射,设置二分类交叉熵作为损失函数,二分类准确率作为评估准则。将训练集通过model.fit函数输入并对模型进行训练,再使用model.evaluate函数输入测试集来评估模型,输出损失函数与准确率两个指标。具体结果如表1所示。
表1
迭代次数 | 运行时长 | 损失函数 | 准确率 | |
训练集 | 1132 | 650s | 9.9536 | 0.9738 |
测试集 | 15 | 2s | 2.7691e04 | 1.0000 |
将全部无人机声音素材以及其对应的多维特征参数MFCC输入模型进行判断并计算检测率,以及判断非无人机声音素材并计算虚警率,具体结果如表2所示。
表2
检测个数 | 检测率 | 虚报个数 | 虚警率 |
1389 | 1.0000 | 1 | 0.001144 |
本发明实施例中,将样本声音信号对应的多维特征参数MFCC输入至预先设置的神经网络模型,检测该样本声音是否为无人机运行声音,并将检测结果与输入的样本声音信号是否为无人机运行声音的对应结果进行对比,不断对预设神经网络模型进行调节,反复操作,使得检测结果与输入的声音信号相同,完成训练。经过对一定数量的样本声音信号的多维特征参数MFCC进行上述处理,不断地进行上述训练过程,最终得到用于无人机识别的神经网络模型。结合上述表1和表2的测试结果,最终可以实现检查率达到1的成果,虚报率仅为0.001144,可以证明本神经网络模型的可行性。
作为本发明实例的一种优选方案,考虑到该神经网络模型在噪声以及室外环境的识别效果会有所下降,本发明实施例通过对数据集进行改进来强化模型在信噪比较低的情况下的鲁棒性。增加了噪声环境下录制的音频素材,降低了原先素材在数据集中的比例。并且同样扩大了非无人机声音素材,从UrbanSound8K数据集选取大量与实验录制环境类似的背景噪声,例如嘈杂的人说话声,工地的钻孔机以及汽车鸣笛声音等,以期望该神经网络模型在即使不能识别无人机声音的情况下也能够识别出非无人机的背景噪声,来提高分类准确率。按照相同的比例分成训练集与测试集,训练与测试具体结果如表3所示。
表3
训练集准确率 | 测试集准确率 |
0.9338 | 0.9873 |
表4
结合表3和表4的测试结果,基于新数据集的无人机声音检测率与非无人机声音虚警率可以看出,即使加入了有噪声的无人机声音素材,无论是训练集还是测试集都对整体样本依旧保持很高的检测率。同时,对表2和表4的测试结果进行对比可以看出,虚报个数降至为0,该神经网络模型的识别效果有明显提升。
实施例2
参见图5,图5是本发明实施例提供的无人机检测装置的一种实施例的结构示意图。如图5所示,该装置包括:采集模块501、第一变换模块502、第二变换模块503和识别模块504。
其中,采集模块501用于通过预设采样频率、通道数、采样位数、和帧长度,实时采集带检测区域的声音信号。
本发明实施例中,第一变换模块502用于依次对所述声音信号进行预加重和短时傅里叶变化,得到频谱信号。第一变换模块502包括预加重单元和傅里叶变换单元。所述预加重单元用于将所述声音信号通过高通滤波器进行预加重,获取预加重后的中高频信号,优化无人机声音的识别效果。将原始声音信号通过高通滤波器,预加重可用以下公式表示:
Y(n)=X(n)-μX(n-1);
式中,Y(n)为预加重处理后的结果;X(n)为第n时刻的声音信号采样值;μ为滤波器系数,取值一般在[0.9,1]之间。
所述傅里叶变换单元用于将所述预加重后的中高频信号做短时傅里叶变换变化,得到频谱信号。具体为:分帧、加窗和傅里叶变换。信号每n个采样点分为一帧,通常情况下一帧的总长是256或512个采样点。同时,为了能够保证相邻两帧之间具备一定的相关性,允许两相邻帧之间存在一段长度为m的重叠区域,在本实施例中设定相邻帧的重叠区域m为n的一半,完成对中高频信号的分帧。为了尽可能减少分帧带来的频谱泄露误差,需要将每一帧信号代入加权函数,也叫窗函数,即加窗。在本发明实施例中使用的是汉明窗,其函数可以用以下公式表示:
W(n,a)=(1-a)-acos(2πn/(N-1)),0<=n<=N-1;
式中,,W为加窗处理后的结果;n表示第n时刻的取值;N为汉明窗长度,通过设置a的值来选取窗的类型,本发明实施例中当(1-a)=0.53836时为汉明窗,即a=0.46164。
在本发明实施例中,对加窗后的每一帧信号经过离散傅里叶变换DFT得到频谱信号,傅里叶变换可用以下公式表示:
Xa(k)为离散傅里叶变换处理后的结果;x(n)为采样的模拟信号,即加窗后的每一帧信号;N为采样的模拟信号的长度。
在需要处理规模较大的加窗后信号时,可以采用快速傅里叶变换FFT来代替计算量过大的传统离散傅里叶变换DFT,提高数据处理的效率,快速傅里叶变换可用以下公式表示:
式中,Xa(k)为快速傅里叶变换处理后的结果;x(n)为采样的模拟信号,即加窗后的每一帧信号;W为旋转因子;N为采样的模拟信号的长度。
本发明实施例中,第二变换模块503用于对所述频谱信号进行梅尔倒谱分析,获取多维特征参数MFCC。第二变换模块503包括滤波单元、离散单元、对数单元和差分单元。所述滤波单元用于将所述频谱信号通过梅尔标度滤波器组,得到所述频谱信号对应的梅尔频谱图。梅尔标度滤波器由多个幅值各异的三角滤波器共同构成,且低频处的滤波器分布密集,而高频处的滤波器分布稀疏,符合与赫兹的非线性感知规律。本发明实施例设定三角滤波器数量为四十个,考虑到需要尽可能保留无人机声音的中高频段信息,采用了等高梅尔滤波器组,即每个三角滤波器的门限值相同。梅尔频率标度与赫兹频率的转换关系可用以下公式表示:
mel(f)=2595log10(1+f/700);
式中,mel(f)是以梅尔(Mel)为单位的感知频域(简称梅尔频率),f是以Hz为单位的实际语音频率。
计算所述频谱信号通过滤波器输出的能量,可用以下公式表示:
式中,Hm(k)为频谱信号通过滤波器输出的能量,melf(m)为梅尔频率。
所述对数单元用于将所述频谱信号按帧为单位,对所述对应的梅尔频谱图取对数,计算对数能量。可用以下公式表示:
式中,s(m)为总对数能量,|Xa(k)|2为傅里叶变换中第k个点的能量,Hm(k)为频谱信号通过滤波器输出的能量;M为滤波器数量,m表示从1到M。
所述离散单元用于将所述对数能量做离散余弦变换,获取L阶梅尔倒谱能量系数,可用以下公式表示:
所述差分单元用于对所述梅尔倒谱能量系数提取动态差分参数,得到多维特征参数MFCC。将所述反映信号静态特征的L阶梅尔倒谱能量系数进行差分运算,能够准确描述并提取动态差分参数,动静结合能够有效地改善装置的识别效果,差分运算可用以下公式表示:
式中,K是一阶导数时间差,可取1或2,Ct是第t个倒谱系数,Q是倒谱系数阶数,也就是离散余弦变换中的L,dt是第t个一阶差分。将上述结果继续代入可进而求出二阶差分参数。
本发明实施例中利用librosa库提取梅尔倒谱系数为例,设定离散余弦变换的阶数L为13,加上一阶和二阶的差分参数就有39项,最后再加上对数能量,总共得到40维MFCC特征参数。
本发明实施例中,识别模块504用于将所述多维特征参数MFCC输入至预先设置的神经网络模型,以使所述神经网络模型判断所述待检测区域是否存在无人机,并输出检测结果;其中,所述神经网络模型是根据多个样本声音信号以及各样本声音信号对应的无人机识别结果,结合卷积神经网络而训练得到的;所述多个样本声音信号包括多个不同类型的无人机声音信号。识别模块包括获取单元、变换单元、映射单元和训练单元。
获取单元用于获取多个不同类型的声音信号;其中,所述多个不同类型的样本声音信号包括无人机声音信号和非无人机声音信号。变换单元用于对所述多个不同类型的声音信号进行梅尔倒谱分析,得到所述多个不同类型的声音信号对应的多维特征参数MFCC。映射单元用于设置解析函数,对所述多个不同类型的样本声音信号是否为无人机运行声音的对应结果进行映射。
在本发明实施例中,将提取的多维特征参数MFCC制作成TFrecord数据集(包括训练集与测试集),作为卷积神经网络模型的输入数据。从TFrecord文件导入该数据集,利用解析函数实现样本的数据与标签的映射,设置二分类交叉熵作为损失函数,二分类准确率作为评估准则。将训练集通过model.fit函数输入并对模型进行训练,再使用model.evaluate函数输入测试集来评估模型,输出损失函数与准确率两个指标。
训练单元用于分别将所述多个不同类型的样本声音信号对应的多维特征参数MFCC以及所述映射关系输入至预先设置的神经网络模型,对所述预先设置的神经网络模型进行训练,得到所述神经网络模型。
本发明实施例中,将样本声音信号对应的多维特征参数MFCC输入至预先设置的神经网络模型,检测该样本声音是否为无人机运行声音,并将检测结果与输入的样本声音信号是否为无人机运行声音的对应结果进行对比,不断对预设神经网络模型进行调节,反复操作,使得检测结果与输入的声音信号相同,完成训练。经过对一定数量的样本声音信号的多维特征参数MFCC进行上述处理,不断地进行上述训练过程,结合上述测试结果,最终得到用于无人机识别的神经网络模型。
作为本发明实例的一种优选方案,考虑到该神经网络模型在噪声以及室外环境的识别效果会有所下降,本发明实施例通过对数据集进行改进来强化模型在信噪比较低的情况下的鲁棒性。增加了噪声环境下录制的音频素材,降低了原先素材在数据集中的比例。并且同样扩大了非无人机声音素材,从UrbanSound8K数据集选取大量与实验录制环境类似的背景噪声,例如嘈杂的人说话声,工地的钻孔机以及汽车鸣笛声音等,以期望该神经网络模型在即使不能识别无人机声音的情况下也能够识别出非无人机的背景噪声,来提高分类准确率。
基于新数据集的无人机声音检测率与非无人机声音虚警率,可以看出即使加入了有噪声的无人机声音素材,对整体样本依旧保持很高的检测率,同时虚警个数降至0。
对基于新数据集训练的模型测试不同环境的识别效果,结果如下表所示。从结果分析得出,该神经网络模型对室外以及噪声环境下无人机声音的识别效果有明显的提升。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。
本领域普通技术人员可以理解实现上述实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
Claims (10)
1.一种无人机检测方法,其特征在于,包括:
实时采集待检测区域的声音信号;
依次对所述声音信号进行预加重和短时傅里叶变化,得到频谱信号;
对所述频谱信号进行梅尔倒谱分析,获取多维特征参数MFCC;
将所述多维特征参数MFCC输入至预先设置的神经网络模型,以使所述神经网络模型判断所述待检测区域是否存在无人机,并输出检测结果;其中,所述神经网络模型是根据多个样本声音信号以及各样本声音信号对应的无人机检测结果,结合卷积神经网络训练得到的;所述多个样本声音信号包括多个不同类型的无人机声音信号。
2.如权利要求1所述的一种无人机检测方法,其特征在于,依次对所述声音信号进行预加重和短时傅里叶变化,得到频谱信号,具体为:
将所述声音信号通过高通滤波器进行预加重,获取预加重后的中高频信号;
将所述预加重后的中高频信号做短时傅里叶变换变化,得到频谱信号。
3.如权利要求1所述的一种无人机检测方法,其特征在于,对所述频谱信号进行梅尔倒谱分析,获取多维特征参数MFCC,具体为:
将所述频谱信号通过梅尔标度滤波器组,得到所述频谱信号对应的梅尔频谱图;
将所述频谱信号按帧为单位,对所述对应的梅尔频谱图取对数,计算对数能量;
将所述对数能量做离散余弦变换,获取梅尔倒谱能量系数;
对所述梅尔倒谱能量系数提取动态差分参数,得到多维特征参数MFCC。
4.如权利要求1所述的一种无人机检测方法,其特征在于,所述神经网络模型的训练过程,具体为:
获取多个不同类型的声音信号;其中,所述多个不同类型的样本声音信号包括无人机声音信号和非无人机声音信号;
对所述多个不同类型的声音信号进行梅尔倒谱分析,得到所述多个不同类型的声音信号对应的多维特征参数MFCC;
设置解析函数,对所述多个不同类型的样本声音信号是否为无人机运行声音的对应结果进行映射,获取映射关系;
分别将所述多个不同类型的样本声音信号对应的多维特征参数MFCC以及所述映射关系输入至预先设置的神经网络模型,对所述预先设置的神经网络模型进行训练,得到所述神经网络模型。
5.如权利要求1至4任意一项所述的无人机检测方法,其特征在于,所述实时采集待检测区域的声音信号,具体为:
通过预设采样频率、通道数、采样位数和帧长度,实时采集待检测区域的声音信号。
6.一种无人机检测装置,其特征在于,包括:采集模块、第一变换模块、第二变换模块和识别模块;
所述采集模块用于实时采集待检测区域的声音信号;
所述第一变换模块用于依次对所述声音信号进行预加重和短时傅里叶变化,得到频谱信号;
所述第二变换模块用于对所述频谱信号进行梅尔倒谱分析,获取多维特征参数MFCC;
所述识别模块用于将所述多维特征参数MFCC输入至预先设置的神经网络模型,以使所述神经网络模型判断所述待检测区域是否存在无人机,并输出检测结果;其中,所述神经网络模型是根据多个样本声音信号以及各样本声音信号对应的无人机识别结果,结合卷积神经网络而训练得到的;所述多个样本声音信号包括多个不同类型的无人机声音信号。
7.如权利要求6所述的一种无人机检测装置,其特征在于,所述第一变换模块包括预加重单元和傅里叶变换单元,具体为:
所述预加重单元用于将所述声音信号通过高通滤波器进行预加重,获取预加重后的中高频信号;
所述傅里叶变换单元用于将所述预加重后的中高频信号做短时傅里叶变换变化,得到频谱信号。
8.如权利要求6所述的一种无人机检测装置,其特征在于,所述第二变换模块包括滤波单元、对数单元、离散单元和差分单元,具体为:
所述滤波单元用于将所述频谱信号通过梅尔标度滤波器组,得到所述频谱信号对应的梅尔频谱图;
所述对数单元用于将所述频谱信号按帧为单位,对所述对应的梅尔频谱图取对数,计算对数能量;
所述离散单元用于将所述对数能量做离散余弦变换,获取梅尔倒谱能量系数;
所述差分单元用于对所述梅尔倒谱能量系数提取动态差分参数,得到多维特征参数MFCC。
9.如权利要求6所述的一种无人机检测装置,其特征在于,所述识别模块包括获取单元、变换单元、映射单元和训练单元,具体为:
所述获取单元用于获取多个不同类型的声音信号;其中,所述多个不同类型的样本声音信号包括无人机声音信号和非无人机声音信号;
所述变换单元用于对所述多个不同类型的声音信号进行梅尔倒谱分析,得到所述多个不同类型的声音信号对应的多维特征参数MFCC;
所述映射单元用于设置解析函数,对所述多个不同类型的样本声音信号是否为无人机运行声音的对应结果进行映射,获取映射关系;
所述训练单元用于分别将所述多个不同类型的样本声音信号对应的多维特征参数MFCC以及所述映射关系输入至预先设置的神经网络模型,对所述预先设置的神经网络模型进行训练,得到所述神经网络模型。
10.如权利要求6至9任意一项所述的一种无人机检测装置,其特征在于,所述采集模块用于实时采集待检测区域的声音信号,具体为:
通过预设采样频率、通道数、采样位数和帧长度,实时采集带检测区域的声音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111409241.8A CN114093385A (zh) | 2021-11-24 | 2021-11-24 | 一种无人机检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111409241.8A CN114093385A (zh) | 2021-11-24 | 2021-11-24 | 一种无人机检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114093385A true CN114093385A (zh) | 2022-02-25 |
Family
ID=80304282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111409241.8A Pending CN114093385A (zh) | 2021-11-24 | 2021-11-24 | 一种无人机检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114093385A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE2200059A1 (en) * | 2022-06-02 | 2023-12-03 | Saab Ab | DETECTION AND CLASSIFICATION OF UAVs |
-
2021
- 2021-11-24 CN CN202111409241.8A patent/CN114093385A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE2200059A1 (en) * | 2022-06-02 | 2023-12-03 | Saab Ab | DETECTION AND CLASSIFICATION OF UAVs |
WO2023234841A1 (en) * | 2022-06-02 | 2023-12-07 | Saab Ab | DETECTION AND CLASSIFICATION OF UAVs |
SE545861C2 (en) * | 2022-06-02 | 2024-02-27 | Saab Ab | DETECTION AND CLASSIFICATION OF UAVs |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034046B (zh) | 一种基于声学检测的电能表内异物自动识别方法 | |
CN110299141B (zh) | 一种声纹识别中录音回放攻击检测的声学特征提取方法 | |
CN113763986B (zh) | 一种基于声音分类模型的空调内机异常声音检测方法 | |
CN111429935A (zh) | 一种语音话者分离方法和装置 | |
CN110890087A (zh) | 一种基于余弦相似度的语音识别方法和装置 | |
CN112542174A (zh) | 基于vad的多维特征参数声纹识别方法 | |
CN116935892A (zh) | 一种基于音频关键特征动态聚合的工业阀门异常检测方法 | |
CN109997186B (zh) | 一种用于分类声环境的设备和方法 | |
Couvreur et al. | Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models | |
CN114093385A (zh) | 一种无人机检测方法及装置 | |
CN113345443A (zh) | 基于梅尔频率倒谱系数的海洋哺乳动物发声检测识别方法 | |
AU2021101586A4 (en) | A System and a Method for Non-Intrusive Speech Quality and Intelligibility Evaluation Measures using FLANN Model | |
CN112735468A (zh) | 一种基于mfcc的汽车座椅电机异常噪声检测方法 | |
Magrin-Chagnolleau et al. | Detection of target speakers in audio databases | |
CN116364108A (zh) | 变压器声纹检测方法及装置、电子设备、存储介质 | |
Xie et al. | Acoustic feature extraction using perceptual wavelet packet decomposition for frog call classification | |
CN112908344B (zh) | 一种鸟鸣声智能识别方法、装置、设备和介质 | |
CN116110417A (zh) | 一种面向超声波声纹防伪的数据增强方法及装置 | |
Zhang et al. | Computer-assisted sampling of acoustic data for more efficient determination of bird species richness | |
CN111968671B (zh) | 基于多维特征空间的低空声目标综合识别方法及装置 | |
CN114898778A (zh) | 基于注意力时频网络的语音情感识别方法及系统 | |
Tahliramani et al. | Performance analysis of speaker identification system with and without spoofing attack of voice conversion | |
CN111091816A (zh) | 一种基于语音评测的数据处理系统及方法 | |
Yang et al. | Research on Voiceprint recognition method of buried drainage pipe based on MFCC and GMM-HMM | |
Morovati | Increase the accuracy of speech signal categories in high noise environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |