CN111274989A - 一种基于深度学习的野外车辆识别方法 - Google Patents
一种基于深度学习的野外车辆识别方法 Download PDFInfo
- Publication number
- CN111274989A CN111274989A CN202010087003.9A CN202010087003A CN111274989A CN 111274989 A CN111274989 A CN 111274989A CN 202010087003 A CN202010087003 A CN 202010087003A CN 111274989 A CN111274989 A CN 111274989A
- Authority
- CN
- China
- Prior art keywords
- signal
- spectrogram
- vehicle
- vibration
- sound signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种基于深度学习的野外车辆识别方法,包括:步骤S1,通过传感器采集目标车辆产生的原始声音信号和震动信号;步骤S2,分别对采集到的原始声音信号和震动信号进行特征提取,分别得到声音信号以及震动信号的频谱图;步骤S3,将所述声音信号频谱图和震动信号频谱图分别输入至并行的MobileNet V1网络,得到声音信号和震动信号的特征图并将两者拼接融合;步骤S4,将所述拼接融合后的特征图输送至Softmax层,使用Softmax函数识别出目标车辆的种类。本发明融合声音震动信号来识别野外车辆,拥有较高的识别率,并且本发明基于深度学习的识别方法具有较强的泛化能力。
Description
技术领域
本发明涉及车辆识别领域,更具体地涉及一种基于深度学习的野外车辆识别方法。
背景技术
传统的野外车辆识别方法是对单一信号,例如图像信号或声音信号进行信号处理得到表征信号的特征,然后使用机器学习方法进行检测识别。常用的特征有:梅尔倒谱系数(Mel-Frequency Cepstrum Coefficients,简称MFCC)、离散小波变换(Discrete WaveletTransform,简称DWT)、快速傅里叶变换频谱信息(Fast Fourier Transform,简称FFT)、短时能量、基于经验模式分解(Empirical Mode Decomposition,简称EMD)以及线性预测倒谱系数(Linear Prediction Coefficient,简称LPCC);而常用的分类方法有:支持向量机(Support Vector Machine,简称SVM)、k近邻法(k-Nearest Neighbor,简称KNN)、稀疏表示分类(Sparse Representation Classification,简称SRC)以及混合高斯模型(GaussianMixed Model,简称GMM)。利用传统机器学习方法识别野外车辆流程如图1所示。
目前,实际被广泛应用的野外车辆识别方法是对车辆声音信号提取梅尔倒谱系数(MFCC),然后选择GMM模型来识别野外车辆。提取MFCC步骤如下:预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组以及离散余弦变换。然而,MFCC提取方法对噪声比较敏感,导致这种识别方法在信号噪声较大的情况下识别率不理想。另外,单一的声音信号不能完全表征车辆的特征。
发明内容
本发明提供一种基于深度学习的野外车辆识别方法,解决了现有技术中野外车辆识别方法在信号噪声较大的情况下识别率不理想的问题。
本发明提供的一种基于深度学习的野外车辆识别方法,包括:
步骤S1,通过传感器采集目标车辆产生的原始声音信号和震动信号;
步骤S2,分别对采集到的原始声音信号和震动信号进行特征提取,分别得到声音信号以及震动信号的频谱图;
步骤S3,将所述声音信号频谱图和震动信号频谱图分别输入至并行的MobileNetV1网络,得到声音信号和震动信号的特征图并将两者拼接融合;
步骤S4,将所述拼接融合后的特征图输送至Softmax层,使用Softmax函数识别出目标车辆的种类。
所述步骤S2中特征提取的方法为:首先对原始信号分帧加窗,然后作短时傅里叶变换得到能量密度谱,最后通过彩色映射得到信号频谱图。
所述步骤S3中所述声音信号和震动信号的特征图通过MobileNet V1神经网络训练声音信号频谱图和震动信号频谱图而得。
所述MobileNet V1神经网络训练频谱图的方法为:每训练一次计算损失函数,通过减小损失函数来修改MobileNet V1网络模型参数,直到达到预期要求。
所述损失函数采用交叉熵函数。
所述交叉熵函数按公式(1)计算:
其中,p指的是真实概率分布,q指的是预测概率分布。
所述步骤S4具体为:首先使用Softmax函数计算出每种车辆对应的概率,然后比较计算出的各概率值,取最接近1的概率值所对应的车辆为目标车辆。
所述Softmax函数按公式(2)计算:
其中,j=1,K,K,zj是Softmax层的输入,K为车辆的种类数,e是自然常数。
本发明将卷积神经网络引入到野外车辆识别,使用声音和震动双重信号为目标输入信号,借助两张并行MobileNet V1网络模型,将声音和震动信号的频谱图经训练而分别得到声音和震动信号的特征图(feature map),将这两种特征图耦合在一起实现两种信号之间特征级融合,最后使用Softmax函数来实现检测分类从而实现野外车辆种类的识别。本发明融合声音和震动信号来识别野外车辆,拥有较高的识别率,并且本发明基于深度学习的识别方法具有较强的泛化能力。
附图说明
图1是传统野外车辆识别方法流程图。
图2是按照本发明的野外车辆识别方法流程图。
图3是对声音和震动信号进行频谱图生成的流程图。
图4(a)是车辆行驶一次采集到的一条完整声音信号的频谱图;图4(b)是车辆行驶一次采集到的一条完整震动信号的频谱图。
图5(a)是传统卷积方式的流程图;图5(b)是深度可分离卷积方式的流程图。
图6是MobileNet V1网络结构图。
具体实施方式
下面结合附图,给出本发明的较佳实施例,并予以详细描述。
本发明提供的一种基于深度学习的野外车辆识别方法,应用于在水泥路、砂石路、硬土路等道路上行驶的车辆,如图2所示,包括:
步骤S1,当野外车辆进入声音震动传感器检测范围时,传感器采集目标车辆产生的原始声音信号和震动信号。
步骤S2,分别对采集到的原始声音信号和震动信号进行信号处理,得到卷积神经网络训练所需要的声音信号频谱图以及震动信号频谱图。信号处理的步骤如图3所示,具体为:首先对原始信号分帧加窗,然后作短时傅里叶变换得到能量密度谱,最后通过彩色映射得到信号频谱图。
所述卷积神经网络常用于图像领域多维信号的处理识别,而声音震动信号是一维信号,本发明先将声音和震动信号进行处理转化为二维的频谱图。该频谱图是连接了时域和频域的二维平面图。如图4(a)和(b)所示,为某种车辆行驶一次采集到的一条完整声音和震动信号的频谱图。其横轴为时间,纵轴为频率,图中点的值代表在特定时间的特定频率的幅值。图中点颜色的深浅表示幅值的大小,颜色越深则幅值越大,颜色越浅则幅值越小,因而该频谱图用二维平面表达出了三维信息。
本发明之所以选择频谱图作为信号特征,是因为卷积神经网络多用于图像领域的识别分类,而频谱图刚好将一维的声音震动信号转化为二维平面图,从而能通过卷积神经网络训练来得到信号特征图。
步骤S3,随后,将声音信号频谱图和震动信号频谱图分别输入至两张并行的MobileNet V1网络,用并行MobileNet V1神经网络来训练频谱图分别得到声音和震动信号的特征图(feature map),并将两特征图拼接在一起,从而实现两种信号特征级上的融合。这里所述的特征图实质上是指一种多维向量,并没有生成实际的图片,而所述的拼接即指的是向量拼接。
这里所述的MobileNet V1是一种为嵌入式设备设计的轻型卷积神经网络,它能够在计算资源受限时通过小型化参数来有效地最大化识别率。具体来说,首先,该网络参数数量少,降低了网络的过拟合可能性;其次,该网络计算量小,适用于嵌入式这种计算资源受限的平台。对于本案来说,该网络模型的主要贡献在于可以采用深度可分离卷积来代替传统的卷积。图5(a)和图5(b)是传统卷积方式与深度可分离卷积方式的对比图,其中的每个小框都是卷积神经网络的一小组成部分,conv对应卷积层,3*3和1*1指的是卷积核大小,BN指的是批量归一化(batch nomalization)层,RELU是激活函数。从图中可以看到,传统的卷积过程一步即可完成,深度可分离卷积则将其分离成两个步骤,首先对每个通道的特征图进行滤波(filter)操作,然后使用1*1卷积核将不同通道的信息整合在一起,调整输出的维度。用深度可分离卷积来代替传统的卷积,打破了输出通道维度和卷积核大小的联系,从而大幅度减小了网络计算量。由于声音信号和震动信号本质是两种不同信号,因此需要MobileNet V1并行网络结构来训练两种信号的频谱图,MobileNet V1网络结构参照图6。
在MobileNet V1网络中,用损失函数来衡量预测值与真实值的不一致程度。因而所述训练频谱图的方法为:每训练一次计算损失函数,通过减小损失函数来修改MobileNetV1网络模型参数,以达到预期要求,即使得预测值与真实值一致。在本实施例中使用经典的交叉熵函数,交叉熵数学意义上是两种概率分布之间的距离,表达式如公式(1)所示:
其中,p指的是真实概率分布,q指的是预测概率分布。例如,车辆三分类,正确答案应该是【1,0,0】,通过softmax层之后预测答案是【0.5,0.4,0.1】,那么这个预测和正确答案之间的交叉熵按照公式计算约为0.3。
最后步骤S4,将两种信号融合后的特征图输送至Softmax层,使用Softmax函数识别出车辆的种类(如图2所示)。具体包括:
首先,使用Softmax函数计算出每种车辆对应的概率;接着,比较计算出的各概率值,取最接近1的概率值所对应的车辆为目标车辆。
这里,Softmax函数将多个标量映射为一个概率分布,其输出的每一个值范围在(0,1),按公式(2)计算:
其中,j=1,K,K,zj是Softmax层的输入,K为车辆的种类数,e是自然常数。如果是要实现四种车辆的分类,那么K就是4,该层的输入就是1*4的向量,通过Softmax函数转换为0和1之间的概率,对应四种车辆的概率,哪个概率最接近1那么分类结果就是哪种车辆。
使用外场采集的车辆声音震动信号数据集来验证本发明提出的融合声震信号分类网络的识别效果,同时使用几种方法来进行对比验证。在本实施例中,实验对象是四种车辆,分为三种轮式车和一种履带车。对比方法有声音信号MFCC+GMM,声音信号频谱图+MobileNet V1,震动信号频谱图+MobileNet V1。实验结果如表1所示。从表1中可知,利用声音信号的频谱图和MobileNet V1网络的效果比传统的MFCC+GMM要好,提高了3.83%。本发明提出的融合声震信号的分类网络效果最好,识别率相对传统算法提高了7.18%。
表1各方法识别结果
以上所述的,仅为本发明的较佳实施例,并非用以限定本发明的范围,本发明的上述实施例还可以做出各种变化。即凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰,皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。
Claims (8)
1.一种基于深度学习的野外车辆识别方法,其特征在于,包括:
步骤S1,通过传感器采集目标车辆产生的原始声音信号和震动信号;
步骤S2,分别对采集到的原始声音信号和震动信号进行特征提取,分别得到声音信号以及震动信号的频谱图;
步骤S3,将所述声音信号频谱图和震动信号频谱图分别输入至并行的MobileNet V1网络,得到声音信号和震动信号的特征图并将两者拼接融合;
步骤S4,将所述拼接融合后的特征图输送至Softmax层,使用Softmax函数识别出目标车辆的种类。
2.根据权利要求1所述的野外车辆识别方法,其特征在于,所述步骤S2中特征提取的方法为:首先对原始信号分帧加窗,然后作短时傅里叶变换得到能量密度谱,最后通过彩色映射得到信号频谱图。
3.根据权利要求1所述的野外车辆识别方法,其特征在于,所述步骤S3中所述声音信号和震动信号的特征图通过并行MobileNet V1神经网络训练声音信号频谱图和震动信号频谱图而得。
4.根据权利要求3所述的野外车辆识别方法,其特征在于,所述并行MobileNet V1神经网络训练频谱图的方法为:每训练一次计算损失函数,通过减小损失函数来修改并行MobileNet V1网络模型参数,直到达到预期要求。
5.根据权利要求4所述的野外车辆识别方法,其特征在于,所述损失函数采用交叉熵函数。
7.根据权利要求1所述的野外车辆识别方法,其特征在于,所述步骤S4具体为:首先使用Softmax函数计算出每种车辆对应的概率,然后比较计算出的各概率值,取最接近1的概率值所对应的车辆为目标车辆。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010087003.9A CN111274989A (zh) | 2020-02-11 | 2020-02-11 | 一种基于深度学习的野外车辆识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010087003.9A CN111274989A (zh) | 2020-02-11 | 2020-02-11 | 一种基于深度学习的野外车辆识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111274989A true CN111274989A (zh) | 2020-06-12 |
Family
ID=71002054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010087003.9A Pending CN111274989A (zh) | 2020-02-11 | 2020-02-11 | 一种基于深度学习的野外车辆识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274989A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113314140A (zh) * | 2021-05-31 | 2021-08-27 | 哈尔滨理工大学 | 一种端到端时域多尺度卷积神经网络的音源分离算法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN109087634A (zh) * | 2018-10-30 | 2018-12-25 | 四川长虹电器股份有限公司 | 一种基于音频分类的音质设置方法 |
CN109583436A (zh) * | 2019-01-29 | 2019-04-05 | 杭州朗阳科技有限公司 | 一种基于毫米波雷达的手势识别系统 |
KR20190087363A (ko) * | 2019-07-15 | 2019-07-24 | 인하대학교 산학협력단 | 실질 잡음 환경에서 mfcc 기법을 이용한 hmm 기반 무인 항공기 음향 인식 방법 및 시스템 |
CN110405537A (zh) * | 2019-07-17 | 2019-11-05 | 湘潭大学 | 一种基于深度学习的导轨精度预测模型的建立方法 |
-
2020
- 2020-02-11 CN CN202010087003.9A patent/CN111274989A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
CN109087634A (zh) * | 2018-10-30 | 2018-12-25 | 四川长虹电器股份有限公司 | 一种基于音频分类的音质设置方法 |
CN109583436A (zh) * | 2019-01-29 | 2019-04-05 | 杭州朗阳科技有限公司 | 一种基于毫米波雷达的手势识别系统 |
KR20190087363A (ko) * | 2019-07-15 | 2019-07-24 | 인하대학교 산학협력단 | 실질 잡음 환경에서 mfcc 기법을 이용한 hmm 기반 무인 항공기 음향 인식 방법 및 시스템 |
CN110405537A (zh) * | 2019-07-17 | 2019-11-05 | 湘潭大学 | 一种基于深度学习的导轨精度预测模型的建立方法 |
Non-Patent Citations (4)
Title |
---|
易强 等: "基于改进MobileNet V1 网络的野外车辆识别", 《工业控制计算机》, vol. 33, no. 7, pages 104 - 107 * |
焦琴琴 等: "基于车辆声音及震动信号相融合的车型识别", 《微型机与应用》, vol. 34, no. 11, pages 79 - 82 * |
王瑞 等: "基于协同表示的声振传感器网络车辆分类识别", 《上海交通大学学报》, vol. 52, no. 1, pages 103 - 110 * |
邓雄 等: "基于深度学习和特征融合的人脸活体检测算法", 《计算机应用》, pages 1 - 8 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113314140A (zh) * | 2021-05-31 | 2021-08-27 | 哈尔滨理工大学 | 一种端到端时域多尺度卷积神经网络的音源分离算法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364779B (zh) | 信号处理与深-浅网络多模型融合的水声目标识别方法 | |
Lin et al. | Audio classification and categorization based on wavelets and support vector machine | |
CN109559736B (zh) | 一种基于对抗网络的电影演员自动配音方法 | |
CN111754988A (zh) | 基于注意力机制和双路径深度残差网络的声场景分类方法 | |
CN113077795A (zh) | 一种通道注意力传播与聚合下的声纹识别方法 | |
CN109378014A (zh) | 一种基于卷积神经网络的移动设备源识别方法及系统 | |
Aravind et al. | Audio spoofing verification using deep convolutional neural networks by transfer learning | |
CN112347910A (zh) | 一种基于多模态深度学习的信号指纹识别方法 | |
Colonna et al. | Feature subset selection for automatically classifying anuran calls using sensor networks | |
Lei et al. | Speaker recognition using wavelet cepstral coefficient, i-vector, and cosine distance scoring and its application for forensics | |
CN111243621A (zh) | 一种用于合成语音检测的gru-svm深度学习模型的构造方法 | |
CN113436646B (zh) | 一种采用联合特征与随机森林的伪装语音检测方法 | |
CN111274989A (zh) | 一种基于深度学习的野外车辆识别方法 | |
Kamaruddin et al. | Features extraction for speech emotion | |
CN111968669B (zh) | 一种多元混合声信号分离方法及装置 | |
CN113628640A (zh) | 一种基于样本均衡和最大均值差异的跨库语音情感识别方法 | |
Esmaeilpour et al. | From sound representation to model robustness | |
CN115545086B (zh) | 一种可迁移的特征自动选取声学诊断方法及系统 | |
KR102241364B1 (ko) | 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법 | |
CN116304818A (zh) | 一种基于Transformer地震信号分类识别方法 | |
CN112735442B (zh) | 一种具有音频分离声纹识别的湿地生态监测系统及其音频分离方法 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Dinkel et al. | Small-footprint convolutional neural network for spoofing detection | |
CN104166837A (zh) | 采用最相关的兴趣点的各组的选择的视觉语音识别方法 | |
CN104166855A (zh) | 通过跟踪讲话者的嘴部的一组感兴趣点的局部变形来进行视觉语音识别的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |