CN111028859A

CN111028859A - 一种基于音频特征融合的杂交神经网络车型识别方法

Info

Publication number: CN111028859A
Application number: CN201911288016.6A
Authority: CN
Inventors: 张志杰; 陈昊泽; 赵晨阳
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2019-12-15
Filing date: 2019-12-15
Publication date: 2020-04-17

Abstract

本发明涉及车型识别技术，具体是一种基于音频特征融合的杂交神经网络车型识别方法。本发明解决了传统的车型识别技术在应用于复杂的照明和天气环境下时识别准确率低的问题。一种基于音频特征融合的杂交神经网络车型识别方法，该方法是采用如下步骤实现的：步骤一：对待训练车型的音频信号进行随机破坏：从破坏后的车辆音频信号中随机选取80%的车辆音频信号，然后在选取的车辆音频信号上叠加环境噪声；步骤二：构建杂交神经网络；步骤三：将带有标签的融合特征输入到杂交神经网络中进行有监督训练；步骤四：将待识别车型的车辆音频信号输入到训练好的杂交神经网络中。本发明适用于车型识别。

Description

一种基于音频特征融合的杂交神经网络车型识别方法

技术领域

本发明涉及车型识别技术，具体是一种基于音频特征融合的杂交神经网络车型识别方法。

背景技术

车型识别是智能交通领域的重要研究方向。传统的车型识别技术主要通过采集车辆图片信息来实现车型识别。然而实践表明，传统的车型识别技术在应用于复杂的照明和天气环境下时，往往难以清晰准确地获取车辆图片信息，由此导致识别准确率低。基于此，有必要发明一种基于音频特征融合的杂交神经网络车型识别方法，以解决传统的车型识别技术在应用于复杂的照明和天气环境下时识别准确率低的问题。

发明内容

本发明为了解决传统的车型识别技术在应用于复杂的照明和天气环境下时识别准确率低的问题，提供了一种基于音频特征融合的杂交神经网络车型识别方法。

本发明是采用如下技术方案实现的：

一种基于音频特征融合的杂交神经网络车型识别方法，该方法是采用如下步骤实现的：

步骤一：对待训练车型的音频信号进行随机破坏：从破坏后的车辆音频信号中随机选取80%的车辆音频信号，然后在选取的车辆音频信号上叠加环境噪声；然后，对叠加环境噪声后的车辆音频信号进行预处理，并对预处理后的车辆音频信号进行特征提取，然后将提取的特征首尾拼接为带有标签的融合特征；所述提取的特征包括：梅尔倒谱系数特征、音级轮廓特征、一阶差分系数、短时能量特征；

步骤二：构建杂交神经网络；

步骤三：将带有标签的融合特征输入到杂交神经网络中进行有监督训练，并采用牛顿动量下降法优化调整杂交神经网络的权重和偏置，由此完成杂交神经网络的训练；

步骤四：将待识别车型的车辆音频信号输入到训练好的杂交神经网络中，由此输出车辆音频信号对应的车型类别标签，从而实现车型识别。

与传统的车型识别技术相比，本发明所述的一种基于音频特征融合的杂交神经网络车型识别方法无需采集车辆图片信息，而是通过对车辆音频信号进行特征提取和融合及通过融合后的特征对杂交神经网络进行训练，实现了车型识别，由此彻底避免了照明和天气环境对识别结果的影响，从而大幅提高了识别准确率。

本发明有效解决了传统的车型识别技术在应用于复杂的照明和天气环境下时识别准确率低的问题，适用于车型识别。

附图说明

图1是本发明中步骤一的流程示意图。

具体实施方式

步骤二：构建杂交神经网络；

所述步骤一中，所述环境噪声是以20dB的信噪比叠加在车辆音频信号上的；所述预处理步骤包括：分帧、加窗；

所述梅尔倒谱系数特征的维数为40维，其提取步骤如下：对预处理后的车辆音频信号进行快速傅里叶变换，并将变换得到的频谱输入到梅尔滤波器组，然后对梅尔滤波器组的输出信号依次进行对数运算、离散余弦变换，由此得到40维的梅尔倒谱系数特征；

所述音级轮廓特征的维数、一阶差分系数的维数均为12维，其提取步骤如下：对预处理后的车辆音频信号进行常数Q变换，并将变换得到的频谱映射到12个不同的半音级上，然后将所有与某一特定音级相对应的频率值分量进行累加，由此得到12维的音级轮廓特征和12维的一阶差分系数；

所述短时能量特征的维数为1维，其提取步骤如下：对预处理后的车辆音频信号进行平方运算，由此得到1维的短时能量特征；

所述融合特征的维数为65维。

所述步骤二中，所述杂交神经网络按照数据流向依次包括：卷积层I、卷积层II、批量标准化层I、一维最大池化层I、卷积层III、一维最大池化层II、丢失层I、长短时神经网络层、批量标准化层II、丢失层II、批量标准化层III、分类层；

所述卷积层I的参数如下：卷积窗口的长度为16，步长为1，通道数为64，输出保持与输入相同尺寸，激活函数采用ReLU；

所述卷积层II的参数如下：卷积窗口的长度为8，步长为1，通道数为64，输出保持与输入相同尺寸，激活函数采用ReLU；

所述批量标准化层I的参数如下：移动均值和移动方差的动量为0.99；

所述一维最大池化层I的参数如下：池化窗口大小为3，池化步长为3；

所述卷积层III的参数如下：卷积窗口的长度为2，步长为1，通道数为128，输出保持与输入相同尺寸，激活函数采用ReLU；

所述一维最大池化层II的参数如下：池化窗口大小为3，池化步长为3；

所述丢失层I的参数如下：输入丢失比例为0.5；

所述长短时神经网络层的参数如下：输出维数为32；

所述批量标准化层II的参数如下：移动均值和移动方差的动量为0.99；

所述丢失层II的参数如下：输入丢失比例为0.5；

所述批量标准化层III的参数如下：移动均值和移动方差的动量为0.99；

所述分类层的参数如下：输出维数为分类种类个数，采用softmax回归分类器进行分类。

所述步骤三中，所述有监督训练是采用小批量梯度下降方法进行的；在一个训练周期中，样本数为100，迭代次数为150；在训练过程中，学习率衰减是采用牛顿动量下降法进行的：学习率的初始值设为0.001，每次参数更新后学习率的衰减值为0.0001，动量参数为1。

分帧时，帧长为128，帧移为64；加窗时，窗长为128。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式作出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种基于音频特征融合的杂交神经网络车型识别方法，其特征在于：该方法是采用如下步骤实现的：

步骤二：构建杂交神经网络；

2.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法，其特征在于：所述步骤一中，所述环境噪声是以20dB的信噪比叠加在车辆音频信号上的；所述预处理步骤包括：分帧、加窗；

所述融合特征的维数为65维。

3.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法，其特征在于：所述步骤二中，所述杂交神经网络按照数据流向依次包括：卷积层I、卷积层II、批量标准化层I、一维最大池化层I、卷积层III、一维最大池化层II、丢失层I、长短时神经网络层、批量标准化层II、丢失层II、批量标准化层III、分类层；

所述丢失层I的参数如下：输入丢失比例为0.5；

所述长短时神经网络层的参数如下：输出维数为32；

所述丢失层II的参数如下：输入丢失比例为0.5；

4.根据权利要求1所述的一种基于音频特征融合的杂交神经网络车型识别方法，其特征在于：所述步骤三中，所述有监督训练是采用小批量梯度下降方法进行的；在一个训练周期中，样本数为100，迭代次数为150；在训练过程中，学习率衰减是采用牛顿动量下降法进行的：学习率的初始值设为0.001，每次参数更新后学习率的衰减值为0.0001，动量参数为1。

5.根据权利要求2所述的一种基于音频特征融合的杂交神经网络车型识别方法，其特征在于：分帧时，帧长为128，帧移为64；加窗时，窗长为128。