CN111274989A

CN111274989A - 一种基于深度学习的野外车辆识别方法

Info

Publication number: CN111274989A
Application number: CN202010087003.9A
Authority: CN
Inventors: 易强; 覃荣华; 李宝清; 陈益刚
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2020-06-12

Abstract

本发明涉及一种基于深度学习的野外车辆识别方法，包括：步骤S1，通过传感器采集目标车辆产生的原始声音信号和震动信号；步骤S2，分别对采集到的原始声音信号和震动信号进行特征提取，分别得到声音信号以及震动信号的频谱图；步骤S3，将所述声音信号频谱图和震动信号频谱图分别输入至并行的MobileNet V1网络，得到声音信号和震动信号的特征图并将两者拼接融合；步骤S4，将所述拼接融合后的特征图输送至Softmax层，使用Softmax函数识别出目标车辆的种类。本发明融合声音震动信号来识别野外车辆，拥有较高的识别率，并且本发明基于深度学习的识别方法具有较强的泛化能力。

Description

一种基于深度学习的野外车辆识别方法

技术领域

本发明涉及车辆识别领域，更具体地涉及一种基于深度学习的野外车辆识别方法。

背景技术

传统的野外车辆识别方法是对单一信号，例如图像信号或声音信号进行信号处理得到表征信号的特征，然后使用机器学习方法进行检测识别。常用的特征有：梅尔倒谱系数(Mel-Frequency Cepstrum Coefficients，简称MFCC)、离散小波变换(Discrete WaveletTransform，简称DWT)、快速傅里叶变换频谱信息(Fast Fourier Transform，简称FFT)、短时能量、基于经验模式分解(Empirical Mode Decomposition，简称EMD)以及线性预测倒谱系数(Linear Prediction Coefficient，简称LPCC)；而常用的分类方法有：支持向量机(Support Vector Machine，简称SVM)、k近邻法(k-Nearest Neighbor，简称KNN)、稀疏表示分类(Sparse Representation Classification，简称SRC)以及混合高斯模型(GaussianMixed Model，简称GMM)。利用传统机器学习方法识别野外车辆流程如图1所示。

目前，实际被广泛应用的野外车辆识别方法是对车辆声音信号提取梅尔倒谱系数(MFCC)，然后选择GMM模型来识别野外车辆。提取MFCC步骤如下：预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器组以及离散余弦变换。然而，MFCC提取方法对噪声比较敏感，导致这种识别方法在信号噪声较大的情况下识别率不理想。另外，单一的声音信号不能完全表征车辆的特征。

发明内容

本发明提供一种基于深度学习的野外车辆识别方法，解决了现有技术中野外车辆识别方法在信号噪声较大的情况下识别率不理想的问题。

本发明提供的一种基于深度学习的野外车辆识别方法，包括：

步骤S1，通过传感器采集目标车辆产生的原始声音信号和震动信号；

步骤S2，分别对采集到的原始声音信号和震动信号进行特征提取，分别得到声音信号以及震动信号的频谱图；

步骤S3，将所述声音信号频谱图和震动信号频谱图分别输入至并行的MobileNetV1网络，得到声音信号和震动信号的特征图并将两者拼接融合；

步骤S4，将所述拼接融合后的特征图输送至Softmax层，使用Softmax函数识别出目标车辆的种类。

所述步骤S2中特征提取的方法为：首先对原始信号分帧加窗，然后作短时傅里叶变换得到能量密度谱，最后通过彩色映射得到信号频谱图。

所述步骤S3中所述声音信号和震动信号的特征图通过MobileNet V1神经网络训练声音信号频谱图和震动信号频谱图而得。

所述MobileNet V1神经网络训练频谱图的方法为：每训练一次计算损失函数，通过减小损失函数来修改MobileNet V1网络模型参数，直到达到预期要求。

所述损失函数采用交叉熵函数。

所述交叉熵函数按公式(1)计算：

其中，p指的是真实概率分布，q指的是预测概率分布。

所述步骤S4具体为：首先使用Softmax函数计算出每种车辆对应的概率，然后比较计算出的各概率值，取最接近1的概率值所对应的车辆为目标车辆。

所述Softmax函数按公式(2)计算：

其中，j＝1,K,K，z_j是Softmax层的输入，K为车辆的种类数，e是自然常数。

本发明将卷积神经网络引入到野外车辆识别，使用声音和震动双重信号为目标输入信号，借助两张并行MobileNet V1网络模型，将声音和震动信号的频谱图经训练而分别得到声音和震动信号的特征图(feature map)，将这两种特征图耦合在一起实现两种信号之间特征级融合，最后使用Softmax函数来实现检测分类从而实现野外车辆种类的识别。本发明融合声音和震动信号来识别野外车辆，拥有较高的识别率，并且本发明基于深度学习的识别方法具有较强的泛化能力。

附图说明

图1是传统野外车辆识别方法流程图。

图2是按照本发明的野外车辆识别方法流程图。

图3是对声音和震动信号进行频谱图生成的流程图。

图4(a)是车辆行驶一次采集到的一条完整声音信号的频谱图；图4(b)是车辆行驶一次采集到的一条完整震动信号的频谱图。

图5(a)是传统卷积方式的流程图；图5(b)是深度可分离卷积方式的流程图。

图6是MobileNet V1网络结构图。

具体实施方式

下面结合附图，给出本发明的较佳实施例，并予以详细描述。

本发明提供的一种基于深度学习的野外车辆识别方法，应用于在水泥路、砂石路、硬土路等道路上行驶的车辆，如图2所示，包括：

步骤S1，当野外车辆进入声音震动传感器检测范围时，传感器采集目标车辆产生的原始声音信号和震动信号。

步骤S2，分别对采集到的原始声音信号和震动信号进行信号处理，得到卷积神经网络训练所需要的声音信号频谱图以及震动信号频谱图。信号处理的步骤如图3所示，具体为：首先对原始信号分帧加窗，然后作短时傅里叶变换得到能量密度谱，最后通过彩色映射得到信号频谱图。

所述卷积神经网络常用于图像领域多维信号的处理识别，而声音震动信号是一维信号，本发明先将声音和震动信号进行处理转化为二维的频谱图。该频谱图是连接了时域和频域的二维平面图。如图4(a)和(b)所示，为某种车辆行驶一次采集到的一条完整声音和震动信号的频谱图。其横轴为时间，纵轴为频率，图中点的值代表在特定时间的特定频率的幅值。图中点颜色的深浅表示幅值的大小，颜色越深则幅值越大，颜色越浅则幅值越小，因而该频谱图用二维平面表达出了三维信息。

本发明之所以选择频谱图作为信号特征，是因为卷积神经网络多用于图像领域的识别分类，而频谱图刚好将一维的声音震动信号转化为二维平面图，从而能通过卷积神经网络训练来得到信号特征图。

步骤S3，随后，将声音信号频谱图和震动信号频谱图分别输入至两张并行的MobileNet V1网络，用并行MobileNet V1神经网络来训练频谱图分别得到声音和震动信号的特征图(feature map)，并将两特征图拼接在一起，从而实现两种信号特征级上的融合。这里所述的特征图实质上是指一种多维向量，并没有生成实际的图片，而所述的拼接即指的是向量拼接。

这里所述的MobileNet V1是一种为嵌入式设备设计的轻型卷积神经网络，它能够在计算资源受限时通过小型化参数来有效地最大化识别率。具体来说，首先，该网络参数数量少，降低了网络的过拟合可能性；其次，该网络计算量小，适用于嵌入式这种计算资源受限的平台。对于本案来说，该网络模型的主要贡献在于可以采用深度可分离卷积来代替传统的卷积。图5(a)和图5(b)是传统卷积方式与深度可分离卷积方式的对比图，其中的每个小框都是卷积神经网络的一小组成部分，conv对应卷积层，3*3和1*1指的是卷积核大小，BN指的是批量归一化(batch nomalization)层，RELU是激活函数。从图中可以看到，传统的卷积过程一步即可完成，深度可分离卷积则将其分离成两个步骤，首先对每个通道的特征图进行滤波(filter)操作，然后使用1*1卷积核将不同通道的信息整合在一起，调整输出的维度。用深度可分离卷积来代替传统的卷积，打破了输出通道维度和卷积核大小的联系，从而大幅度减小了网络计算量。由于声音信号和震动信号本质是两种不同信号，因此需要MobileNet V1并行网络结构来训练两种信号的频谱图，MobileNet V1网络结构参照图6。

在MobileNet V1网络中，用损失函数来衡量预测值与真实值的不一致程度。因而所述训练频谱图的方法为：每训练一次计算损失函数，通过减小损失函数来修改MobileNetV1网络模型参数，以达到预期要求，即使得预测值与真实值一致。在本实施例中使用经典的交叉熵函数，交叉熵数学意义上是两种概率分布之间的距离，表达式如公式(1)所示：

其中，p指的是真实概率分布，q指的是预测概率分布。例如，车辆三分类，正确答案应该是【1，0，0】，通过softmax层之后预测答案是【0.5，0.4，0.1】，那么这个预测和正确答案之间的交叉熵按照公式计算约为0.3。

最后步骤S4，将两种信号融合后的特征图输送至Softmax层，使用Softmax函数识别出车辆的种类(如图2所示)。具体包括：

首先，使用Softmax函数计算出每种车辆对应的概率；接着，比较计算出的各概率值，取最接近1的概率值所对应的车辆为目标车辆。

这里，Softmax函数将多个标量映射为一个概率分布，其输出的每一个值范围在(0，1)，按公式(2)计算：

其中，j＝1,K,K，z_j是Softmax层的输入，K为车辆的种类数，e是自然常数。如果是要实现四种车辆的分类，那么K就是4，该层的输入就是1*4的向量，通过Softmax函数转换为0和1之间的概率，对应四种车辆的概率，哪个概率最接近1那么分类结果就是哪种车辆。

使用外场采集的车辆声音震动信号数据集来验证本发明提出的融合声震信号分类网络的识别效果，同时使用几种方法来进行对比验证。在本实施例中，实验对象是四种车辆，分为三种轮式车和一种履带车。对比方法有声音信号MFCC+GMM，声音信号频谱图+MobileNet V1，震动信号频谱图+MobileNet V1。实验结果如表1所示。从表1中可知，利用声音信号的频谱图和MobileNet V1网络的效果比传统的MFCC+GMM要好，提高了3.83％。本发明提出的融合声震信号的分类网络效果最好，识别率相对传统算法提高了7.18％。

表1各方法识别结果

以上所述的，仅为本发明的较佳实施例，并非用以限定本发明的范围，本发明的上述实施例还可以做出各种变化。即凡是依据本发明申请的权利要求书及说明书内容所作的简单、等效变化与修饰，皆落入本发明专利的权利要求保护范围。本发明未详尽描述的均为常规技术内容。

Claims

1.一种基于深度学习的野外车辆识别方法，其特征在于，包括：

步骤S3，将所述声音信号频谱图和震动信号频谱图分别输入至并行的MobileNet V1网络，得到声音信号和震动信号的特征图并将两者拼接融合；

2.根据权利要求1所述的野外车辆识别方法，其特征在于，所述步骤S2中特征提取的方法为：首先对原始信号分帧加窗，然后作短时傅里叶变换得到能量密度谱，最后通过彩色映射得到信号频谱图。

3.根据权利要求1所述的野外车辆识别方法，其特征在于，所述步骤S3中所述声音信号和震动信号的特征图通过并行MobileNet V1神经网络训练声音信号频谱图和震动信号频谱图而得。

4.根据权利要求3所述的野外车辆识别方法，其特征在于，所述并行MobileNet V1神经网络训练频谱图的方法为：每训练一次计算损失函数，通过减小损失函数来修改并行MobileNet V1网络模型参数，直到达到预期要求。

5.根据权利要求4所述的野外车辆识别方法，其特征在于，所述损失函数采用交叉熵函数。

6.根据权利要求5所述的野外车辆识别方法，其特征在于，所述交叉熵函数按公式(1)计算：

其中，p指的是真实概率分布，q指的是预测概率分布。

7.根据权利要求1所述的野外车辆识别方法，其特征在于，所述步骤S4具体为：首先使用Softmax函数计算出每种车辆对应的概率，然后比较计算出的各概率值，取最接近1的概率值所对应的车辆为目标车辆。

8.根据权利要求1或7所述的野外车辆识别方法，其特征在于，所述Softmax函数按公式(2)计算：