CN111816205B - 一种基于飞机音频的机型智能识别方法 - Google Patents

一种基于飞机音频的机型智能识别方法 Download PDF

Info

Publication number
CN111816205B
CN111816205B CN202010657182.5A CN202010657182A CN111816205B CN 111816205 B CN111816205 B CN 111816205B CN 202010657182 A CN202010657182 A CN 202010657182A CN 111816205 B CN111816205 B CN 111816205B
Authority
CN
China
Prior art keywords
model
audio
aircraft
airplane
mel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010657182.5A
Other languages
English (en)
Other versions
CN111816205A (zh
Inventor
王卫杰
叶瑞达
任元
何亮
余昊元
樊亚洪
张克明
张贤炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Original Assignee
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peoples Liberation Army Strategic Support Force Aerospace Engineering University filed Critical Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority to CN202010657182.5A priority Critical patent/CN111816205B/zh
Publication of CN111816205A publication Critical patent/CN111816205A/zh
Application granted granted Critical
Publication of CN111816205B publication Critical patent/CN111816205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)

Abstract

一种基于飞机音频的机型智能识别方法。所述识别方法流程包括:采集不同型号飞机的音频,将音频进行预处理,提取音频的梅尔倒谱系数特征,训练残差自注意力模型;将目标飞机音频信号输入到训练好的模型中,得到目标飞机的型号。本发明的残差自注意力模型训练网络包括:嵌入层、位置编码器、残差自注意力模块、池化层和全连接层;嵌入层将特征进行降维,位置编码器对特征进行位置编码,残差自注意力模块进行特征学习,池化层主要防止网络发生过拟合现象,全连接层表示飞机型号的类别。本发明为飞机型号识别提供了一种高效准确识别方法,可以有效地提高飞机型号识别的准确性和鲁棒性。

Description

一种基于飞机音频的机型智能识别方法
技术领域
本发明涉及目标识别领域,特别涉及一种通过飞机音频识别机型的智能方法。
背景技术
随着航空技术的发展,飞机的种类和数量越来越多,飞行速度也越来越快。因此,情报侦察系统需要处理的信息量大大增加,信息处理的速度和精度也越来越高,从而对目标识别的精度和处理时间提出了更高的要求。飞机类型识别是现代化空战的重中之重。精确的飞机型号识别在指挥自动化系统的后期信息处理中起着至关重要的作用,有利于准确分析战场态势,从而提供更合理的战场决策。
目前机型识别主要依靠人工经验,耗费了大量的人力物力,智能识别尚处于研究阶段,现有的智能识别方法主要基于图像完成。然而图像识别机型有一定的局限性,如在拍摄过程中存在着成像分辨率、运动模糊和自然因素的影响,使得基于图像的智能机型识别不能达到战场需求。基于飞机音频特征的机型识别能够有效解决图像识别存在的问题。
申请号为CN201911264985.8的公开发明专利公开了“一种飞机机型识别方法、装置及存储介质”,通过探测设备得到飞机视频信息,提取待识别飞机样本图片,通过二分类器模型识别飞机型号,此方法使用视频识别机型,具有一定的局限性。专利号为CN201410377473.3的公开发明专利公开了“一种基于视觉图像的飞机机型识别方法”,使用帧差法提取目标轮廓信息,计算飞机各部位的长度比值,此方法使用图片识别机型,不仅具有局限性而且在飞机飞行姿势不同时,识别精度会下降。
发明内容
(一)发明目的
本发明的目的是提供通过一种基于飞机音频的机型智能识别方法。本发明飞机机型识别精确度高,并能克服飞机运动模糊、成像分辨率和自然因素带来的影响,适用于实际工程项目。
(二)技术方案
本发明的技术解决方案,一种基于飞机音频的机型智能识别方法,其特征在于,包括:采集不同型号飞机的音频,将音频进行预处理,提取音频的梅尔倒谱系数特征,训练残差自注意力模型;将目标飞机音频信号输入到训练好的模型中,得到目标飞机的型号,该方法的由如下步骤构成。
采集不同型号飞机的音频,飞机起飞降落时,通过机场噪音监测系统采集不同型号飞机的噪声;飞机空中飞行时,通过安装在飞机录音设备采集与飞机起飞降落时相同机型飞机的噪声;通过不同方法采集的飞机音频可以提高识别模型的鲁棒性;
飞机音频的预处理,飞机空中飞行时的噪声可能存在人声,剔除人声部分;同一机型的飞机记录标签,将所有音频切割为5s的音频片段;对不同类型的飞机音频进行等数量随机选取,并按照7:2:1的比例随机分为训练集,验证集和测试集;
提取音频的梅尔倒谱系数特征,将音频信号频率转化为梅尔频率:
Figure BDA0002577181740000021
其中fmel是梅尔频率,f是音频信号频率;梅尔频率取对数得到对数梅尔声谱,进行离散余弦变化,保留第2个到第13个系数,得到12维的梅尔倒谱系数特征;
训练残差自注意力模型,将梅尔倒谱系数特征输入至嵌入层进行降维,位置编码器对特征进行位置编码得到特征X1,特征X1与三个权重矩阵相乘得到Q,K,V:
Figure BDA0002577181740000031
Wq、Wk、Wv分别由由查询向量q(query)、键向量k(key)、值向量v(value)组成的权重矩阵;计算自注意力值:
Figure BDA0002577181740000032
得到特征X2,与特征X1特征相加得到特征X,使用残差网络结构可以减轻网络的退化程度;将特征X输入到池化层,减少网络参数,防止过拟合;最后通过全连接层,得到识别模型,全连接层中神经元的个数等于飞机型号类别总数;
将飞机训练集和验证集输入到残差自注意力模型中,网络学习率learning_rate设置为0.0001,选用交叉熵损失函数,利用梯度下降法迭代训练网络,直至损失函数收敛,得到基于飞机音频的机型智能识别模型;
识别目标机型,将飞机音频的测试集,提取梅尔倒谱系数特征,将特征输入到机型智能识别模型中,得到目标机型的识别结果,并通过与正确标签对比,计算型智能识别模型的精确度。
本发明实现了基于飞机音频的机型智能识别。本发明可以克服飞机运动模糊、成像分辨率和自然因素带来的影响,高精度识别多种机型的型号。
(三)有益效果
本发明的上述技术方案具有如下有益的技术效果:本发明被用来识别飞机的型号,可以克服飞机运动模糊、成像分辨率和自然因素带来的影响,实验结果如图4所示,其机型识别结果达到98.7%,结果证明了一种基于飞机音频的机型智能识别方法可以应用于飞机机型识别。
附图说明
图1是本发明的流程框架图;
图2是本发明实施例识别模型训练时的精确度函数图;
图3是本发明实施例识别模型训练时的损失函数图;
图4是本发明实施例基于飞机音频的飞机型号识别结果混淆图。
具体实施方式
为使本发明的技术方案、优点和目的更加清楚明了,结合具体实例说明了方法流程并参照附图,对本发明的技术方案进一步说明。
本发明实施例1,一种基于飞机音频的机型智能识别方法,参见图1,按下述步骤进行:
采集9种不同型号飞机的音频,型号分别是:a330、a340、a350、a350、a380、b737、b747、b757、b777。飞机起飞降落时,通过机场噪音监测系统采集这9种型号飞机的噪声;飞机空中飞行时,通过安装在飞机录音设备采集与飞机起飞降落时相同机型飞机的噪声。
飞机音频的预处理,飞机空中飞行时的噪声可能存在人声,剔除人声部分;同一机型的飞机记录标签,将所有音频切割为5s的音频片段,共计9900条音频样本;对不同类型的飞机音频进行等数量随机选取,并按照7:2:1的比例随机分为训练集,验证集和测试集;
提取音频的梅尔倒谱系数特征,将音频信号频率转化为梅尔频率:
Figure BDA0002577181740000051
其中fmel是梅尔频率,f是音频信号频率;梅尔频率取对数得到对数梅尔声谱,进行离散余弦变化,保留第2个到第13个系数,得到12维的梅尔倒谱系数特征;
训练残差自注意力模型,将梅尔倒谱系数特征输入至嵌入层进行降维,位置编码器对特征进行位置编码得到特征X1,特征X1与三个权重矩阵相乘得到Q,K,V:
Figure BDA0002577181740000052
Wq、Wk、Wv分别由由查询向量q(query)、键向量k(key)、值向量v(value)组成的权重矩阵;计算自注意力值:
Figure BDA0002577181740000053
得到特征X2,与特征X1特征相加得到特征X,使用残差网络结构可以减轻网络的退化程度;将特征X输入至池化层,减少网络参数,防止过拟合;最后通过全连接层,得到识别模型,全连接层中神经元的个数等于飞机型号类别总数,此处设置为9;
将飞机训练集和验证集输入到残差自注意力模型中,网络学习率learning_rate设置为0.0001,选用交叉熵损失函数,利用梯度下降法迭代训练网络,迭代50次,得到基于飞机音频的机型智能识别模型;在训练过程中,测试集和验证集的训练过程如图2和图3所示,损失函数变化如图2所示,精确度变化如图3所示。
识别目标机型,将飞机音频的测试集,提取梅尔倒谱系数特征,将特征输入到机型智能识别模型中,得到目标机型的识别结果,并通过与正确标签对比,其识别正确率到达98.7%;其结果如图4所示,横坐标表示模型识别型号,纵坐标表示飞机真实型号。
本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (1)

1.一种基于飞机音频的机型智能识别方法,其特征在于,包括:采集不同型号飞机的音频,将音频进行预处理,提取音频的梅尔倒谱系数特征,训练残差自注意力模型;将目标飞机音频信号输入到训练好的模型中,得到目标飞机的型号,该方法的步骤包括如下;
(1)采集不同型号飞机的音频及预处理:
飞机起飞降落时,通过机场噪音监测系统采集不同型号飞机的噪声;飞机空中飞行时,通过安装在飞机录音设备采集与飞机起飞降落时相同机型飞机的噪声;通过不同方法采集的飞机音频提高识别模型的鲁棒性;飞机音频的预处理,飞机空中飞行时的噪声可能存在人声,剔除人声;同一机型的飞机记录标签,将所有音频切割为5s的音频片段;对不同类型的飞机音频进行等数量随机选取,并按照7:2:1的比例随机分为训练集,验证集和测试集;
(2)提取音频的梅尔倒谱系数特征;
将音频信号频率转化为梅尔频率:
Figure FDA0004186033540000011
其中fmel是梅尔频率,f是音频信号频率;梅尔频率取对数得到对数梅尔声谱,进行离散余弦变化,保留第2个到第13个系数,得到12维的梅尔倒谱系数特征;
(3)训练残差自注意力模型:
(3a)训练流程:
将梅尔倒谱系数特征输入至嵌入层进行降维,位置编码器对特征进行位置编码得到特征X1,特征X1与三个权重矩阵相乘得到Q,K,V:
Figure FDA0004186033540000021
Wq、Wk、Wv分别由查询向量q、键向量k、值向量v组成的权重矩阵;Q,K,V进行两步计算,算法1:
Figure FDA0004186033540000022
算法2:
X2=Matmul·V (4)
得到特征X2,与特征X1特征相加得到特征X,使用残差网络结构减轻网络的退化程度;将特征X输入池化层,减少网络参数,防止过拟合;最后通过全连接层输出,得到识别模型,全连接层中神经元的个数等于飞机型号类别总数;
(3b)参数设置:
将飞机训练集和验证集输入到残差自注意力模型中,网络学习率learning_rate设置为0.0001,选用交叉熵损失函数,利用梯度下降法迭代训练网络,直至损失函数收敛,得到基于飞机音频的机型智能识别模型;
(4)识别目标机型:
将飞机音频的测试集,按照上述步骤(1)-(3)操作得到音频的梅尔倒谱系数特征,将特征输入到机型智能识别模型中,得到目标机型的识别结果,并通过与正确标签对比,计算型智能识别模型的精确度。
CN202010657182.5A 2020-07-09 2020-07-09 一种基于飞机音频的机型智能识别方法 Active CN111816205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010657182.5A CN111816205B (zh) 2020-07-09 2020-07-09 一种基于飞机音频的机型智能识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010657182.5A CN111816205B (zh) 2020-07-09 2020-07-09 一种基于飞机音频的机型智能识别方法

Publications (2)

Publication Number Publication Date
CN111816205A CN111816205A (zh) 2020-10-23
CN111816205B true CN111816205B (zh) 2023-06-20

Family

ID=72842330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010657182.5A Active CN111816205B (zh) 2020-07-09 2020-07-09 一种基于飞机音频的机型智能识别方法

Country Status (1)

Country Link
CN (1) CN111816205B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112734709A (zh) * 2020-12-31 2021-04-30 山西三友和智慧信息技术股份有限公司 一种基于注意力机制与迁移学习的黑素瘤检测方法
CN112992121B (zh) * 2021-03-01 2022-07-12 德鲁动力科技(成都)有限公司 基于注意力残差学习的语音增强方法
CN114999529B (zh) * 2022-08-05 2022-11-01 中国民航大学 一种面向机场航空噪声的机型分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
WO2019023877A1 (zh) * 2017-07-31 2019-02-07 深圳和而泰智能家居科技有限公司 特定声音识别方法、设备和存储介质
CN109817246A (zh) * 2019-02-27 2019-05-28 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN110265035A (zh) * 2019-04-25 2019-09-20 武汉大晟极科技有限公司 一种基于深度学习的说话人识别方法
CN110782878A (zh) * 2019-10-10 2020-02-11 天津大学 一种基于注意力机制的多尺度音频场景识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG140445A1 (en) * 2003-07-28 2008-03-28 Sony Corp Method and apparatus for automatically recognizing audio data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
WO2019023877A1 (zh) * 2017-07-31 2019-02-07 深圳和而泰智能家居科技有限公司 特定声音识别方法、设备和存储介质
CN109817246A (zh) * 2019-02-27 2019-05-28 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN110265035A (zh) * 2019-04-25 2019-09-20 武汉大晟极科技有限公司 一种基于深度学习的说话人识别方法
CN110782878A (zh) * 2019-10-10 2020-02-11 天津大学 一种基于注意力机制的多尺度音频场景识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于梅尔倒谱系数、深层卷积和Bagging的环境音分类方法;王天锐;鲍骞月;秦品乐;;计算机应用(第12期);全文 *

Also Published As

Publication number Publication date
CN111816205A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN111816205B (zh) 一种基于飞机音频的机型智能识别方法
CN107481717B (zh) 一种声学模型训练方法及系统
CN113158445B (zh) 一种卷积记忆残差自注意力机制的航空发动机剩余使用寿命预测算法
Wang et al. Gan-knowledge distillation for one-stage object detection
CN112465199B (zh) 空域态势评估系统
CN109871749B (zh) 一种基于深度哈希的行人重识别方法和装置、计算机系统
CN106845434B (zh) 一种基于支持向量机的图像型机房漏水监测方法
CN111860277B (zh) 基于颜色直方图特征的民航飞机空速管套安全警示方法
CN113053366A (zh) 一种基于多模态融合的管制话音复述一致性校验方法
KR20190087363A (ko) 실질 잡음 환경에서 mfcc 기법을 이용한 hmm 기반 무인 항공기 음향 인식 방법 및 시스템
CN112580512A (zh) 一种基于通道裁剪的轻量级无人机目标检测方法
CN112966555B (zh) 一种基于深度学习和部件先验的遥感影像飞机识别方法
CN114298183B (zh) 飞行动作智能识别方法
CN109447092B (zh) 基于海冰场景分类的冰间通路提取方法
CN112257621A (zh) 一种无人机巡检的设备图像识别方法
CN112069889A (zh) 民航飞行器轨迹预测方法、电子设备及存储介质
CN110991554B (zh) 一种基于改进pca的深度网络图像分类方法
CN114399689A (zh) 基于多视角无人机图像的缺少定位设备的无人机定位方法
CN117612044A (zh) 一种复杂场景下无人机巡检输电线路绝缘子的方法
CN111191027B (zh) 一种基于高斯混合分布vae的广义零样本识别方法
CN112395952A (zh) 一种用于铁轨缺陷检测的无人机
KR20190019726A (ko) 실질 잡음 환경에서 mfcc 기법을 이용한 hmm 기반 무인 항공기 음향 인식 방법 및 시스템
CN114743562B (zh) 一种飞机声纹识别方法、系统、电子设备及存储介质
CN114067155B (zh) 基于元学习的图像分类方法、装置、产品及存储介质
CN116797928A (zh) 基于平衡模型稳定性和可塑性的sar目标增量分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Weijie

Inventor after: Ye Ruida

Inventor after: Ren Yuan

Inventor after: He Liang

Inventor after: Yu Haoyuan

Inventor after: Fan Yahong

Inventor after: Zhang Keming

Inventor after: Zhang Xianwei

Inventor before: Wang Weijie

Inventor before: Ye Ruida

Inventor before: Ren Yuan

Inventor before: He Liang

Inventor before: Fan Yahong

Inventor before: Zhang Keming

Inventor before: Zhang Xianwei

GR01 Patent grant
GR01 Patent grant