CN112735473B - 基于声音识别无人机的方法及系统 - Google Patents

基于声音识别无人机的方法及系统 Download PDF

Info

Publication number
CN112735473B
CN112735473B CN202011375154.0A CN202011375154A CN112735473B CN 112735473 B CN112735473 B CN 112735473B CN 202011375154 A CN202011375154 A CN 202011375154A CN 112735473 B CN112735473 B CN 112735473B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
irtblock
sound
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011375154.0A
Other languages
English (en)
Other versions
CN112735473A (zh
Inventor
薛珊
卫立炜
吕琼莹
陈宇超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Science and Technology
Original Assignee
Changchun University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Science and Technology filed Critical Changchun University of Science and Technology
Priority to CN202011375154.0A priority Critical patent/CN112735473B/zh
Publication of CN112735473A publication Critical patent/CN112735473A/zh
Application granted granted Critical
Publication of CN112735473B publication Critical patent/CN112735473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明提供了一种基于声音识别无人机的方法、系统电子设备及计算机可读存储介质,其中的方法包括:采集待识别的声音信号;音对采集的声音信号进行滤波,增强信号质量;然后进行预加重、分帧、加窗处理;提取声音信号的音频特征,构成无人机声音样本库;通过无人机识别声学模型对声音信号进行识别;最后运用麦克风阵列接收无人机目标声音信号,然后进行数字信号处理,最终得到声源的位置信息,为反无人机下一步操作做准备。本发明利用IRBNet模型作为声学模型,通过卷积神经网络对无人机声音样本库样本训练改声学模型,以实现对无人机的有效识别。

Description

基于声音识别无人机的方法及系统
技术领域
本发明涉及无人机识别技术领域,更为具体地,涉及一种基于声音识别无人机的方法及系统。
背景技术
随着现代科技的快速发展,无人机的使用门槛变得越来越低,无人机的应用越来越普遍。由于缺乏统一的行业标准和规范,无人机的“黑飞”问题日益严重,使得无人机被滥用的可能性大大增加。无人机在低空空域的非合作入侵飞行事件在国内外屡见不鲜,不仅伤害了公民的隐私和生命财产安全,更对公共安全和国家安全构成了极大威胁。对此,各种反无人机技术受到越来越多的重视,而对无人机进行检测和识别作为反无人机技术的关键技术,就显得尤为重要。
《无人驾驶航空器飞行管理暂行条例(征求意见稿)》明确规定,除空中禁区、机场、军事禁区、危险区域等周边一定范围内,微型无人机无需批准可以在真空50米以下空域飞行,轻型无人机可以在真空120米以下空域飞行。而目前我国无人机市场上约90%的产品都属于这类无人机。
目前已有的检测无人机的方法有多种,包括无线电频率检测、雷达检测、视频检测、声音检测等。声音作为无人机的固有属性,区别于周围的其它声音,而且声音检测不受光线、电子的干扰,可以穿透遮挡物,价格低,使用方便等优点。出于此,运用麦克风阵列的基于声学的低空无人机探测和识别方案正在被越来越多地研究,它不取决于无人机的大小和位置,而是取决于螺旋桨的声音,可以有效的探测和识别无人机。但国内运用声音识别无人机的方法还不成熟,有很大的研究空间。
发明内容
鉴于上述问题,本发明的目的是提供一种基于声音识别无人机的方法和系统,解决现有研究的空缺和不足。
为实现上述目的,本发明的基于声音识别无人机的方法,应用于电子装置,包括:采集待识别的声音信号;
对所述声音信号进行滤波和预处理,以提取所述声音信号的音频特征;
根据预设的声学模型对所述音频特征进行识别,确定是否存在无人机,以及存在的无人机的所属型号;
其中,所述声学模型为运用卷积神经网络对无人机声音样本库样本进行训练学习所得到的用于无人机声音识别的声学模型,所述声学模型为IRBNet模型,所述IRBNet模型包括IRTBlock-A模块和IRTBlock-B模块;其中,
所述IRTBlock-A模块的主通路在进行残差相加融合之前只利用1×1卷积进行升维,并且在残差相加融合之后再进行降维;
所述IRTBlock-A模块的主通路包括并行主通路和远跳链接主通路;其中,
所述并行主通路为1×1Conv+BN+Relu+3×3Conv+BN+Relu+3×3Conv+BN;
所述远跳连接通路为1×1Conv+BN+Relu,通过1x1的卷积核来调整大小,使得维度相等;
所述IRTBlock-B模块用于利用非对称卷积来代替所述IRTBlock-A中的3×3对称卷积。
为实现上述目的,本发明还提供一种基于声音识别无人机的系统,包括:
声音采集单元,用于采集待识别的声音信号;
音频特征处理单元,用于对所述声音信号进行滤波和预处理,以提取所述声音信号的音频特征;
声音识别单元,用于根据预设的声学模型对所述音频特征进行识别,确定是否存在无人机,以及存在的无人机的所属型号。
其中,优选地,所述音频特征处理单元包括滤波模块、预处理模块以及特征提取模块;其中,所述滤波模块用于对所述对声音信号进行滤波,以增强所述声音信号的信号质量;所述预处理模块用于对滤波后的声音信号进行预加重、分帧、加窗处理,把所述声音信号预处理为以段为单位的音频样本;所述特征提取模块用于对所述音频样本进行音频特征的提取。
为实现上述目的,本发明还提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于声音识别无人机的方法中的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述所述的基于声音识别无人机的方法。
上述根据本发明的基于声音识别无人机的方法、系统、电子设备及计算机可读存储介质,利用IRBNet模型作为声学模型,通过卷积神经网络对无人机声音样本库样本训练改声学模型,以实现对无人机的有效识别。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。在附图中:
图1为根据本发明实施例的基于声音识别无人机的方法的流程示意图;
图2为根据本发明实施例的基于声音识别无人机系统的构成示意图;
图3为本发明一实施例提供的声音识别单元中声学模型IRBNet模型示意图;
图4为本发明一实施例提供的IRBNet模型中IRTBLock-A以及IRTBlock-B结构示意图;
图5为本发明一实施例提供的实现基于声音识别无人机的方法的电子设备的内部结构示意图。
在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施方式
在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。
为了有效识别无人机,本发明利用IRBNet模型作为声学模型,通过卷积神经网络对无人机声音样本库样本训练改声学模型,在对采集声音信号进行滤波、预加重、分帧、加窗处理等一系列处理之后,通过专门建立的无人机识别的声学模型对声音信号进行识别。
以下将结合附图对本发明的具体实施例进行详细描述。
图1为根据本发明实施例的基于声音识别无人机的方法的流程示意图;
如图1所示,本发明提供的基于声音识别无人机的方法包括如下步骤:
S110:采集待识别的声音信号;
S120:对所采集的声音信号进行滤波和预处理,以提取所述声音信号的音频特征;
S30:根据预设的声学模型对所提取的音频特征进行识别,确定是否存在无人机,以及存在的无人机的所属型号。
其中,步骤S120在对所采集的声音信号进行滤波和预处理的过程中,通过如下步骤提取声音信号的音频特征:
S121:通过滤波模块对所采集的声音信号进行滤波处理,以增强声音信号的信号质量;
S122:通过预处理模块对滤波后的声音信号进行预加重、分帧、加窗处理,以把声音信号预处理为以段为单位的音频样本;
S123:通过特征提取模块对预处理后的音频样本进行音频特征的提取。
具体的,滤波模块运用滤波算法对上一单元采集得到的无人机声音信号进行滤波操作,尽可能降低所采集无人机声音信号中各种噪声的影响,增强声音信号质量,之后将滤波后的声音信号输入预处理模块。
预处理模块包括预加重、分帧以及加窗处理,通过预处理模块把声音信号变为一段段的音频样本。
特征提取模块可以对音频样本依次通过分帧、加窗、傅里叶变换、梅尔滤波、Log对数能量处理,得到最终的Log-Mel特征作为音频样本的音频特征。
把预处理得到的音频片段进行分帧、加窗,每一帧帧长100ms,帧移为50ms,有50%的重叠;之后把每一帧信号进行傅里叶变换,把其从时域信号转换成频域信号;进行Mel滤波,Mel就是将不同的频率按照不同的灵敏度进行处理,以至对语调的感知度为线性关系;之后取Log对数能量,得到最终的Log-Mel特征,此时就把波形信号转换成带有声音的特征矩阵,可以传入声音识别单元进行识别。以下,以一个特征提取模块进行特征提取具体示例对上述分帧、加窗、傅里叶变换、梅尔滤波、Log对数能量处理的过程做详细描述。
在本实施例中,特征提取模块进行特征提取要经过以下六个步骤:
(1)预处理得到的音频片段进行预加重处理,使音频片段的信号频谱变得平坦,不易受到有限字长效应的影响。
具体的,通过一个一阶有限激励响应高通滤波器:H(z)=1-μz-1
其中,μ一般介于0.88-1.2之间,优选的取0.95-0.98,z为待分析的信号。
(2)对预处理后的音频片段信号进行分帧加窗处理
在对信号分帧时,首先考虑帧的长度对应的时间是否合适,由于无人机声音信号的特性是时变的,若帧长过小,相邻帧频谱变化较大,而且计算量增大,不易满足实时性。因此,在本实施例中,选用汉明窗进行分帧处理,而帧叠取半个帧长,使相邻帧的频谱变化减小,更利于获取特征。
实验中在采样频率为44100Hz时,综上考虑,为了计算方便,每帧数据是1024个点,对应时间约为23ms,帧移是512。
(3)对分帧加窗处理后的音频片段信号进行DFT处理
如果对每帧信号进行滤波,直接计算时域卷积,计算量大,不满足实时性,因此,在本实施例中,对分帧加窗处理后的音频片段信号进行DFT转换处理。实际应用中,可以使用FFT实现DFT,以进一步加快处理速度。
(4)通过Mel滤波器组计算滤波器频谱成分的加权和
Mel滤波器组是定义在Mel频率轴上等间隔的一组三角形滤波器,滤波器间隔为其中fmax为最大频率fs/2(即采样频率的一半)对应的Mel频率,M为滤波器数量。
(5)通过DCT将Mel滤波器组能量去相关
DCT变换是KL变换(Karhunen-Loève Transform,卡洛南-洛伊变换)的近似,在实验中用来减小输出的对数能量间的相关性,得到一组相关性较小的特征向量,特征向量的维度由DCT的点数决定。
(6)计算差分MFCC获取特征向量
在声音特征中加入表征声音动态特性的差分参数,来提高系统的识别性能。其中,可以将差分做三点平均来提高稳定性,然后将三点平均后的三个矢量拼接成特征向量。
声音识别单元运用预设的声学模型对上述特征处理模块得到的目标无人机声音特征进行识别。
该预设的声学模型为运用卷积神经网络对无人机声音样本库样本进行训练学习所得到的无人机声音识别模型。创建该声学模型的过程如下:
样本声音采集,首先需要获取不同类型的多个样本声音信号,具体到本发明的无人机识别,多个样本声音信号中至少部分为无人机运行声音信号,即通过采集不同型号、尺寸、姿态、距离、速度以及不同场景中的无人机声音信号获取用于建立无人机声音样本库的原始声音样本。其中的原始声音样本可以包括无人机运行声音、歌声、街道噪声、鸣笛声、喷气式飞机运行声音和单螺旋桨飞机运行声音等不同类型的多个样本声音信号。一般情况下,为了完善声学模型,需要在训练的过程中获取大量的样本声音信号,例如,2000帧、3000帧等。
样本库建立,对所采集的原始声音样本进行特征处理以建立无人机声音样本库;
模型训练,运用卷积神经网络对无人机声音样本库样本进行训练学习,得到无人机声音识别模型。
运用预设的声学模型对上述特征处理模块得到的目标无人机声音特征进行识别的过程也可以视为上述声学模型的一个测试阶段,目标声音被采集后经过音频特征处理单元得到的音频特征输入训练好的无人机声音识别的声学模型进行识别,得到声音信号的识别结果。
本发明中所采用的声学模型为IRBNet(Improved Residual Block Network,IRBNet)模型,该IRBNet模型包括IRTBlock-A模块和IRTBlock-B模块。图2为本发明一实施例提供的声音识别单元中声学模型IRBNet模型示意图,图3为本发明一实施例提供的IRBNet模型中IRTBLock-A以及IRTBlock-B结构示意图。
在图2所示的IRBNet模型的网络结构中,括号内数字代表输入通道数。如图2和图3共同所示,在建立IRBNet模型的过程中,首先建立3×3Conv,s=1(Conv表示卷积层;s代表步长);之后串联两个IRTBlock-A,其输入维度num_filters(num_filters表示设定的滤波器数量)分别设置为32和64;接着串联一个IRTBlock-B,其输入维度num_filters设置为128;然后接着一个64通道的全连接层;最后以Softmax作为分类器,输出预测结果。其中所有卷积层都加入Batch Normalization(BN)层,来加快收敛速度,提高网络的泛化能力。所有隐藏层都采用ReLU激活函数。最后,全连接层使用了一个0.4的Dropout来减轻过拟合。
IRBNet网络模型中的IRTBlock-A以及IRTBlock-B两个模块如下所述:
IRTBlock-A:相较于残差块,该模块主通路在进行add(残差相加融合)之前只利用1×1卷积进行升维,并且在add之后再进行降维;而非在残差块内部升维并降维。并行主通路为1×1Conv+BN+Relu+3×3Conv+BN+Relu+3×3Conv+BN;远跳连接通路为1×1Conv+BN+Relu,通过1x1的卷积核来调整大小,使得维度相等;之后两者输出结果进行add融合,输入Relu激活函数;这一部分称为IRes-Model。最后,把融合层结果在输入汇聚层前利用1×1卷积进行降维;这一部分称为Trans-Model,用来连接各个IRes-Model,以及运用Pooling层进行特征降维。
所述IRes-Model中各通路所有卷积层的步长均为1,过滤器数目均相同,并且使用了SAME填充,因此,各个层的输出具有相同的尺寸。把IRes-Model以及Trans-Model统称为IRTBlock-A。
IRTBlock-B:先进行1×n卷积再进行n×1卷积,与直接进行n×n卷积的结果是等价的。非对称卷积可以减少网络参数,降低运算量,加快训练,而且可以进一步增加网络的非线性。本文顶层模块利用非对称卷积来代替IRTBlock-A中的3×3对称卷积,即3×3卷积变为1×3和3×1的堆叠;其余不发生改变,与IRTBlock-A一致。称其为IRTBlock-B。
运用声学模型IRBNet模型对无人机进行识别,比运用传统CNN模型的准确率更高。
另外,在确定存在无人机之后,还可以基于麦克风阵列进一步判断目标无人机的方向位置。具体的,可以利用麦克风阵列接收声音信号,然后进行数字信号处理,最终得到声源的位置信息。麦克风阵列是指由若干个麦克风按照一定的空间几何结构排列而形成的阵列,该阵列可以接收空间声源信号,并对接收到的声源信号进行空时处理。目前麦克风阵列声源定位实现方法主要有两种,即基于最大输出功率的可控波束形成方法,与基于谱估计的声波到达时间差(Time Delay of Arrival,TDOA)估计方法。时延估计指传感器阵列中不同传感器接收到的同源信号之间由于传输距离不同而产生时间差,通过处理3组或更多的信号到达时间差实现目标方位的解算。
运用三个及以上麦克风阵列接受音讯;麦克风接收的讯号经过一放大器,再经由四输入USB动态信号摘取模组,依设定的取样频率取样讯号,输入电脑分析;将每个麦克风接收的讯号音量标准化,并切割成多个音框(frame);设定音量阈值,去除音量小的部分;以广义互相关(Generalize CrossCorrelation,GCC)的方法估计TDOA,基于广义互相关(GCC)的时延估计是经典的TDOA参数估计方法,通过计算接收阵列中不同位置的不同接收器所接收到信号的互相关函数的峰值,来得到TDOA的估计值。;将求得的TDOA代入方向角公式,即可得到音源入射的方向角。根据麦克风间的位置和声程差,计算得到声源与参考点的方向角,这些夹角之间所形成位置面焦点就是声音源的估算位置。
在确定目标无人机位置之后,可以为反无人机下一步操作提供准备工作。
如上参照图1~图3示例性的描述了根据本发明的基于声音识别无人机的方法。本发明的上述基于声音识别无人机的方法,可以采用软件实现,也可以采用硬件实现,或采用软件和硬件组合的方式实现。
与上述基于声音识别无人机的系统相对应,本发明还提供一种基于声音识别无人机的系统。图4示出了根据本发明的基于声音识别无人机的系统的逻辑结构。
图4所示的基于声音识别无人机系统,可以集成于电子设备中。该电子设备可以为台式计算机、便携式计算机、智能移动终端等。
如图4所示,本实施例提供的基于声音识别无人机的系统,包括声音采集单元、音频特征处理单元、声音识别单元,另外还可以包括声源定位单元。
其中的声音采集单元用于采集待识别的声音信号;音频特征处理单元,用于对所采集的声音信号进行滤波和预处理,以提取声音信号的音频特征;声音识别单元,用于根据预设的声学模型对所述音频特征进行识别,确定是否存在无人机,以及存在的无人机的所属型号;声源定位单元,用于基于麦克风阵列判断目标无人机的方向位置。
具体的,声音采集单元运用声音采集设备(如麦克风等拾音器)采集探测范围内的声音信号,传入音频特征处理单元。
音频特征处理单元可以进一步包括滤波模块、预处理模块以及特征提取模块。其中,滤波模块对声音采集单元采集的声音信号进行滤波处理,以增强所述声音信号的信号质量;预处理模块对滤波后的声音信号进行预加重、分帧、加窗处理,以把滤波后的声音信号预处理为以段为单位的音频样本;特征提取模块用于对预处理后的音频样本进行音频特征的提取。
具体的,特征提取模块对所述音频样本依次通过分帧、加窗、傅里叶变换、梅尔滤波、Log对数能量处理,得到最终的Log-Mel特征作为音频样本的音频特征。
声音识别单元运用声学模型IRBNet模型对目标声音的特征信息进行识别,判断是否存在无人机,若存在无人机则进一步确定其所属型号,然后传入声源定位单元。
声源定位单元则基于麦克风阵列判断目标无人机的方向和位置。
本实施例中所采用的声学模型为IRBNet模型,该IRBNet模型包括IRTBlock-A模块和IRTBlock-B模块。其具体构成如前所述。因此,本实施例的基于声音识别无人机的系统还可以包括声学模型创建模块,用于创建运用卷积神经网络对无人机声音样本库样本进行训练学习所得到的无人机声音识别模型。
具体的,作为示例,该声学模型创建模块进一步包括:
原始声音样本获取单元,用于通过采集不同型号、尺寸、姿态、距离、速度以及不同场景中的无人机声音信号获取所述无人机声音样本库的原始声音样本;
无人机声音样本库获取单元,用于对所述原始声音样本进行特征处理以获取所述无人机声音样本库;
模型训练单元,用于运用卷积神经网络对所述无人机声音样本库样本进行训练学习,得到所述无人机声音识别模型。
图5为本发明一实施例提供的实现基于声音识别无人机的方法的电子设备的内部结构示意图。如图5所示,本发明还提供一种实现基于声音识别无人机的方法的电子设备1。
该电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在存储器11中并可在所述处理器10上运行的计算机程序,如基于声音识别无人机的程序12。
其中的存储器11至少包括一种类型的可读存储介质,该可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11还可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于声音识别无人机的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在存储器11内的程序或者模块(例如基于声音识别无人机的程序等),以及调用存储在存储器11内的数据,以执行电子设备1的各种功能和处理数据。
总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现存储器11以及至少一个处理器10等之间的连接通信。
图5仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图5示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),用户接口还可以是标准的有线接口、无线接口。在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
电子设备1中的存储器11存储的基于声音识别无人机的程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
采集待识别的声音信号;
对所述声音信号进行滤波和预处理,以提取所述声音信号的音频特征;
根据预设的声学模型对所述音频特征进行识别,确定是否存在无人机,以及存在的无人机的所属型号。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于声音识别无人机的方法,应用于电子装置,其特征在于,包括:
采集待识别的声音信号;
对所述声音信号进行滤波和预处理,以提取所述声音信号的音频特征;
根据预设的声学模型对所述音频特征进行识别,确定是否存在无人机,以及存在的无人机的所属型号;
其中,所述声学模型为运用卷积神经网络对无人机声音样本库样本进行训练学习所得到的用于无人机声音识别的声学模型,所述声学模型为IRBNet模型,所述IRBNet模型包括IRTBlock-A模块和IRTBlock-B模块;其中,
在建立所述IRBNet模型的过程中,首先建立3×3Conv,步长s=1;之后串联两个IRTBlock-A模块,所述IRTBlock-A模块的输入维度num_filters分别设置为32和64;接着串联一个IRTBlock-B模块,所述IRTBlock-B模块的输入维度num_filters设置为128;然后接着一个64通道的全连接层;最后以Softmax作为分类器,输出预测结果;
所述IRTBlock-A模块的主通路在进行残差相加融合之前只利用1×1卷积进行升维,并且在残差相加融合之后再进行降维;
所述IRTBlock-A模块的主通路包括并行主通路和远跳链接主通路;其中,
所述并行主通路为1×1Conv+BN+Relu+3×3Conv+BN+Relu+3×3Conv+BN;
所述远跳链接主通路为1×1Conv+BN+Relu,通过1x1的卷积核来调整大小,使得维度相等;
在所述IRTBlock-B模块中,先进行1×n卷积再进行n×1卷积,以利用1×3卷积和3×1卷积的堆叠的非对称卷积来代替所述IRTBlock-A模块中的3×3对称卷积,其余与所述IRTBlock-A模块一致。
2.如权利要求1所述的基于声音识别无人机的方法,其特征在于,所述并行主通路和远跳链接主通路的输出结果在融合层进行残差相加融合后,进入IRes-Model和Trans-Model;其中,
在所述IRes-Model中,将融合层的结果输入Relu激活函数;
所述Trans-Model,用于连接各个IRes-Model,以及运用Pooling层进行特征降维;其中,在所述Trans-Model中,将融合层的结果在输入汇聚层前利用1×1卷积进行特征降维。
3.如权利要求2所述的基于声音识别无人机的方法,其特征在于,
在所述IRes-Model中,各通路所有卷积层的步长均为1,过滤器数目均相同,并且使用SAME填充。
4.如权利要求1所述的基于声音识别无人机的方法,其特征在于,在对所述声音信号进行滤波和预处理,以提取所述声音信号的音频特征的过程中,
通过滤波模块对所述声音信号进行滤波处理,以增强所述声音信号的信号质量;
通过预处理模块对滤波后的声音信号进行预加重、分帧、加窗处理,以把所述声音信号预处理为以段为单位的音频样本;
通过特征提取模块对所述音频样本进行音频特征的提取。
5.如权利要求4所述的基于声音识别无人机的方法,其特征在于,
所述特征提取模块对所述音频样本依次通过分帧、加窗、傅里叶变换、梅尔滤波、Log对数能量处理,得到最终的Log-Mel特征作为所述音频样本的音频特征。
6.如权利要求1所述的基于声音识别无人机的方法,其特征在于,还包括创建所述声学模型的步骤,其中,创建所述声学模型的步骤包括:
通过采集不同型号、尺寸、姿态、距离、速度以及不同场景中的无人机声音信号获取所述无人机声音样本库的原始声音样本;
对所述原始声音样本进行特征处理以获取所述无人机声音样本库;
运用卷积神经网络对所述无人机声音样本库样本进行训练学习,得到所述声学模型。
7.如权利要求1所述的基于声音识别无人机的方法,其特征在于,在确定存在无人机之后,还包括基于麦克风阵列判断目标无人机的方向位置的步骤。
8.一种基于声音识别无人机的系统,包括:
声音采集单元,用于采集待识别的声音信号;
音频特征处理单元,用于对所述声音信号进行滤波和预处理,以提取所述声音信号的音频特征;
声音识别单元,用于根据预设的声学模型对所述音频特征进行识别,确定是否存在无人机,以及存在的无人机的所属型号;
其中,所述声学模型为运用卷积神经网络对无人机声音样本库样本进行训练学习所得到的用于无人机声音识别的声学模型,所述声学模型为IRBNet模型,所述IRBNet模型包括IRTBlock-A模块和IRTBlock-B模块;其中,
在建立所述IRBNet模型的过程中,首先建立3×3Conv,步长s=1;之后串联两个IRTBlock-A模块,所述IRTBlock-A模块的输入维度num_filters分别设置为32和64;接着串联一个IRTBlock-B模块,所述IRTBlock-B模块的输入维度num_filters设置为128;然后接着一个64通道的全连接层;最后以Softmax作为分类器,输出预测结果;
所述IRTBlock-A模块的主通路在进行残差相加融合之前只利用1×1卷积进行升维,并且在残差相加融合之后再进行降维;
所述IRTBlock-A模块的主通路包括并行主通路和远跳链接主通路;其中,
所述并行主通路为1×1Conv+BN+Relu+3×3Conv+BN+Relu+3×3Conv+BN;
所述远跳链接主通路为1×1Conv+BN+Relu,通过1x1的卷积核来调整大小,使得维度相等;
在所述IRTBlock-B模块中,先进行1×n卷积再进行n×1卷积,以利用1×3卷积和3×1卷积的堆叠的非对称卷积来代替所述IRTBlock-A模块中的3×3对称卷积,其余与所述IRTBlock-A模块一致。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于声音识别无人机的方法中的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的基于声音识别无人机的方法。
CN202011375154.0A 2020-11-30 2020-11-30 基于声音识别无人机的方法及系统 Active CN112735473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011375154.0A CN112735473B (zh) 2020-11-30 2020-11-30 基于声音识别无人机的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011375154.0A CN112735473B (zh) 2020-11-30 2020-11-30 基于声音识别无人机的方法及系统

Publications (2)

Publication Number Publication Date
CN112735473A CN112735473A (zh) 2021-04-30
CN112735473B true CN112735473B (zh) 2022-07-05

Family

ID=75597980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011375154.0A Active CN112735473B (zh) 2020-11-30 2020-11-30 基于声音识别无人机的方法及系统

Country Status (1)

Country Link
CN (1) CN112735473B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113338909B (zh) * 2021-08-09 2021-10-26 天津市正方科技发展有限公司 一种基于音频的抽油机故障巡检系统及声音采集方法
CN113721882A (zh) * 2021-08-31 2021-11-30 广州朗国电子科技股份有限公司 一种广告声音播放控制方法、系统、终端和可读介质
CN113611332B (zh) * 2021-10-09 2022-01-18 聊城中赛电子科技有限公司 一种基于神经网络的智能控制开关电源方法及装置
CN114114274B (zh) * 2021-11-02 2022-06-07 北京理工大学 一种基于类脑听觉模型的无人机识别方法
CN114006675B (zh) * 2021-12-30 2022-04-19 成都星宇融科电力电子股份有限公司 一种反无人机光电侦查方法、系统、可读存储介质
CN114999529B (zh) * 2022-08-05 2022-11-01 中国民航大学 一种面向机场航空噪声的机型分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993648A (zh) * 2017-11-27 2018-05-04 北京邮电大学 一种无人机识别方法、装置及电子设备
CN109343001A (zh) * 2018-11-07 2019-02-15 江西理工大学 一种无人机声音识别定位装置及方法
CN111653270A (zh) * 2020-08-05 2020-09-11 腾讯科技(深圳)有限公司 语音处理方法、装置、计算机可读存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ759804A (en) * 2017-10-16 2022-04-29 Illumina Inc Deep learning-based techniques for training deep convolutional neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107993648A (zh) * 2017-11-27 2018-05-04 北京邮电大学 一种无人机识别方法、装置及电子设备
CN109343001A (zh) * 2018-11-07 2019-02-15 江西理工大学 一种无人机声音识别定位装置及方法
CN111653270A (zh) * 2020-08-05 2020-09-11 腾讯科技(深圳)有限公司 语音处理方法、装置、计算机可读存储介质及电子设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
"Very deep convolutional networks for end-to-end speech recognition";Yu Z;《 ICASSP 2017 》;20171231;全文 *
"Convolutional recurrent neural networks with multi-sized convolution filters for sound-event recognition";Huang F;《Modern Physics Letters B》;20200820;全文 *
"一种基于深度学习的禁飞区无人机目标识别方法";虞晓霞;《长春理工大学学报(自然科学版)》;20181231;全文 *
"卷积神经网络在低空空域无人机检测中的研究";甘雨涛;《中国优秀硕士学位论文全文数据库工程科技辑》;20200115;全文 *
"小型旋翼无人机声探测识别方法研究";王立宏;《中国优秀硕士学位论文全文数据库工程科技辑》;20200215;全文 *

Also Published As

Publication number Publication date
CN112735473A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN112735473B (zh) 基于声音识别无人机的方法及系统
CN106846803B (zh) 基于音频的交通事件检测装置及方法
CN112802484B (zh) 一种混合音频下的大熊猫声音事件检测方法及系统
EP2907121B1 (en) Real-time traffic detection
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN111986699B (zh) 基于全卷积网络的声音事件检测方法
CN110600059A (zh) 声学事件检测方法、装置、电子设备及存储介质
CN104795064A (zh) 低信噪比声场景下声音事件的识别方法
CN109919295B (zh) 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法
CN113566948A (zh) 机器人化煤机故障音频识别及诊断方法
CN114417908A (zh) 一种基于多模态融合的无人机探测系统和方法
Dennis et al. Analysis of spectrogram image methods for sound event classification
CN110580915B (zh) 基于可穿戴式设备的声源目标识别系统
CN110444225B (zh) 基于特征融合网络的声源目标识别方法
CN116910690A (zh) 一种基于数据融合的目标分类系统
CN114743562B (zh) 一种飞机声纹识别方法、系统、电子设备及存储介质
CN111145726A (zh) 基于深度学习的声场景分类方法、系统、装置及存储介质
CN114783462A (zh) 一种基于cs-music矿井提升机故障源定位分析方法
CN112201259B (zh) 声源定位方法、装置、设备和计算机存储介质
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN113990303A (zh) 基于多分辨率空洞深度可分卷积网络的环境声音辨识方法
CN117238298B (zh) 一种基于声音事件的动物识别与定位方法及系统
CN114114274B (zh) 一种基于类脑听觉模型的无人机识别方法
CN117388835B (zh) 一种多拼融合的声雷达信号增强方法
CN112288870B (zh) 基于移动机器人与地面交互声音的地形识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant