CN112560822B

CN112560822B - 一种基于卷积神经网络的道路声信号分类方法

Info

Publication number: CN112560822B
Application number: CN202110199215.0A
Authority: CN
Inventors: 谢维; 陈俊; 郭宏成; 刘世宇
Original assignee: Jiangsu Lishi Technology Co ltd
Current assignee: Jiangsu Lishi Technology Co ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-05-14
Anticipated expiration: 2041-02-23
Also published as: CN112560822A

Abstract

本发明公开了一种基于卷积神经网络的道路声信号分类方法，步骤1、特征提取，步骤2、数据增强，步骤3、模型训练，步骤4、测试阶段，把待测声音样本使用步骤1的特征提取方法，得到待测声音梅尔能量频谱特征集，将待测声音梅尔能量频谱特征集中的测试样本输入到步骤3中训练好的卷积神经网络模型内，如果识别结果为机动车鸣笛声或非机动车鸣笛声，则通过声源定位和异常声发生时那一帧的图像生成声云图，并将声云图送入YOLOv3模型中计算出离声源中心最近的车辆是机动车还是非机动车。

Description

一种基于卷积神经网络的道路声信号分类方法

技术领域

本发明属于声音监测与识别技术领域，具体涉及基于卷积神经网络的道路声信号分类方法。

背景技术

异常声是指某种正常环境下不应该产生的声音，道路交通场景的异常声包括警报声、刹车声、急求车声等，交通道路上的异常声音能够反映出交通事故与紧急情况的发生，通过对交通道路声音的监测，可以及时对异常情况进行反应，当发生异常情况时，通过对异常声音的识别，能够分析出该异常情况的性质，还能通过添加鸣笛声分类，对违法鸣笛行为进行检测；

现有的针对道路交通场景的异常声识别方法都是通过音频对异常声进行识别，对从音频信息上难以完全区分的类别时表现一般，比如无法分辨机动车鸣笛和非机动车鸣笛，需要研发一种道路声信号分类方式来解决现有的问题。

发明内容

本发明的目的在于提供一种基于卷积神经网络的道路声信号分类方法，以解决道路上检测到的异常声无法分辨车辆类型的问题。

为实现上述目的，本发明提供如下技术方案：一种基于卷积神经网络的道路声信号分类方法，包括以下步骤：

步骤1、特征提取包括以下步骤：

S1、从原始音频中提取N个采样点集合成一个帧，并把每一帧代入窗函数；

S2、对每一个短时分析窗，通过FFT得到对应的幅度频谱，取平方得到声音的能量频谱；

S3、将能量频谱通过梅尔滤波器组得到梅尔能量频谱；

S4、再把梅尔能量频谱取log非线性变换，得到梅尔能量频谱特征数据集；

步骤2、数据增强：将梅尔能量频谱特征数据集按8:2的比例分为训练集和测试集；对训练集使用Mixup数据增强方法以提升模型的泛化能力；

所述Mixup数据增强的方式：在训练集数据中随机选取两个特征样本按比例混合以线性插值的方式来构建新的训练样本和标签，使用公式对标签处理，所述公式为：

两个数据对是原始数据集中的训练样本对，其中

是一个服从B分布的参数,

；其中

是参数，计算事件概率的发生，用于计算分布时的均值计算。根据参数的设定，从而根据特定问题设定

的大小。

步骤3、模型训练：将训练样本输入卷积神经网络模型中进行监督训练，保存在验证集上表现最好的一个模型；训练时，采用Adam算法进行网络参数的更新，当网络迭代次数达到预设的迭代次数或验证集上的识别精度长时间没有提高时，训练停止把结果保存到训练好的卷积神经网络模型。

步骤4、测试阶段：把待测声音样本使用步骤1的特征提取方法，得到待测声音梅尔能量频谱特征集，将待测声音梅尔能量频谱特征集中的测试样本输入到步骤3中训练好的卷积神经网络模型内，如果识别结果为机动车鸣笛声或非机动车鸣笛声，则通过声源定位和异常声发生时那一帧的图像生成声云图，并将声云图送入YOLOv3模型中计算出离声源中心最近的车辆是机动车还是非机动车。

优选的，所述S1中两相邻帧之间有一段重叠区域，将每一帧代入窗函数以消除各个帧两端可能会造成的信号不连续性；

优选的，所述声源定位技术采用波束形成方法。

优选的，所述波束形成方法中将阵列中各个传感器所采集到的信号进行滤波、加权叠加后形成波束，扫描整个接收空间，对一个平面的声压分布进行成像可视化。

优选的，所述步骤3中，所述卷积神经网络模型中进行监督训练时，卷积核和权重采用均匀初始化，偏置采用全0初始化。

优选的，所述窗函数为Hann窗。

优选的，所述步骤2中训练样本对为训练样本和其对应的标签。

优选的，所述卷积神经网络的包括：六个卷积层、四个最大池化层、一个全局平均池化层和三个全连接层。

优选的，所述六个卷积层中前两个卷积层中每个卷积层后都会接一个最大池化层，后四个卷积层中每两个卷积层后都会接一个最大池化层；所述全局平均池化层在卷积池化层和全连接层之间。

本发明的技术效果和优点：该基于卷积神经网络的道路声信号分类方法，对机动车鸣笛的识别准确度从81.6%（600个样本识别正确490个）提高到了94.0%（600个样本识别正确564个），对非机动车鸣笛的识别准确度从88.3%（443个样本识别正确391个）提高到了95.9%（443个样本识别正确425个）。

附图说明

图1为本发明的识别流程图；

图2为本发明卷积神经网络训练流程图；

图3为本发明YOLOv3输出的机动车鸣笛声云图A；

图4为本发明YOLOv3输出的机动车鸣笛声云图B。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了如图1至4所示的一种基于卷积神经网络的道路声信号分类方法：从原始音频中提取得到的梅尔频谱特征作为数据集，接着将数据集按8:2的比例分为训练集和测试集，接着对训练数据使用Mixup数据增强进行混合后用于模型训练，保存在测试数据上表现最好的模型。同时针对机动车鸣笛和非机动车鸣笛，通过多摄像头单麦克风阵列汽车鸣笛检测设备和声源定位技术生成鸣笛产生的那一帧视频截图的声云图，接着将声云图输入预训练的YOLOv3模型中，计算距离声源中心点与图像中非机动车和机动车目标框中心点的距离，以距离最近的车辆来判断该次鸣笛是机动车鸣笛还是非机动车鸣笛，上述提取梅尔频谱特征分为以下四个步骤：

1、对原始音频进行分帧和加窗；

2、对每一个短时分析窗，通过FFT得到对应的幅度频谱，经平方处理得到能量频谱；

3、将上面的能量频谱通过Mel滤波器组得到Mel能量频谱，

4、对Mel能量频谱进行取log非线性变换得到对数梅尔能量频谱特征；

上述声源定位技术采用波束形成（Beamforming）方法，Beamforming方法通过将阵列中各个传感器所采集到的信号进行滤波、加权叠加后形成波束，扫描整个接收空间，对一个平面的声压分布进行成像可视化；

波束形成方法鲁棒性较强，不需要先验知识，使用简单直观，因此这类设备也被形象的称为声学照相机；

步骤1）特征提取：为了方便对语音分析，先将N个采样点集合成一个观测单位，称为帧，本实施例中， N的值为256或512，涵盖的时间约为20~30ms左右，为了避免相邻两帧的变化过大，因此会让两相邻帧之间有一段重叠区域，此重叠区域包含了M个取样点，通常M的值约为N的1/2或1/3，本实施例中，语音识别所采用语音信号的采样频率为8KHz或16KHz，本实施例中采用8KHz的频率，若帧长度为256个采样点，则对应的时间长度是256/8000×1000=32ms；将每一帧代入窗函数以消除各个帧两端可能会造成的信号不连续性。对每一个短时分析窗，通过FFT得到对应的幅度频谱，在本实施例中，转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性，每帧再经过快速傅里叶变换以得到在频谱上的能量分布，对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱，取平方得到声音的能量频谱，然后利用梅尔滤波器组得到声音的梅尔能量频谱，本实施例中，对频谱进行平滑化，并消除谐波的作用，突显原先语音的共振峰，接着对梅尔能量频谱取log非线性变换，得到最后的梅尔能量频谱特征；本实施例中，再加上一帧的对数能量，例如：一帧内信号的平方和，再取以10为底的对数值，再乘以10，使得每一帧基本的语音特征就多了一维；

步骤2）数据增强：由于数据集数据量较少，本实施例对特征数据使用了Mixup数据增强方法以提升模型的泛化能力，Mixup数据增强是指随机选取两个特征样本按比例混合以线性插值的方式来构建新的训练样本和标签，最终对标签的处理如下公式所示：

两个数据对是原始数据集中的训练样本对，其中

是一个服从B分布的参数,

；其中

，

是一个超参数，随着

的增大，网络的训练误差就会增加，而其泛化能力会随之增强；由于取到的数据经过处理已经变成特征矩阵的形式，因此这边第一个式子是对特征矩阵里的值进行线性加权得到新的特征值，而这边的标签是用one-hot向量表示的，因此线性加权后的标签也就是two-hot向量，也就是属于两个类别；标签就是类别，这个公式就是将部分样本线性求特征值然后将新得到的特征值分到两个样本集里面。

步骤3）模型训练：本实施例训练时将混合的训练数据按8:2的比例分为训练集和测试集，将训练集输入卷积神经网络模型中进行监督训练，保存在验证集上表现最好的一个模型，训练时，卷积核和权重采用均匀初始化，偏置采用全0初始化，采用Adam算法进行网络参数的更新，当网络迭代次数达到预设的迭代次数或验证集上的识别精度长时间没有提高时，训练停止并保存训练好的卷积神经网络模型；保存在验证集上正确率最高的模型，验证集不参与训练，用于调整模型超参数，作为初步判断模型的依据，测试集用来评估最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据，Adam算法是深度学习参数更新算法，此算法通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率；

步骤4）测试阶段：通过对待测声音样本采用和训练阶段同样的特征提取步骤，得到待测声音梅尔能量频谱特征，将测试样本输入到训练好的卷积神经网络模型中，如果识别结果为机动车鸣笛声或非机动车鸣笛声，则通过声源定位和异常声发生时那一帧的图像生成声云图，并将声云图送入YOLOv3模型中计算出离声源中心最近的车辆是机动车还是非机动车；

YOLOv3模型计算的步骤包括：

把声云图用LabelImg进行标注，制作训练数据和测试数据集文件，同时创建类别名文件，创建数据集配置文件，新建模型配置文件，用darknet53 yolo 识别训练自己的数据集，启动YOLOv3模型计算；

具体地，本实施例使用的音视频数据是从道路交通场景的视频监控中截取的，异常声数据集包含6739个异常声片段，每段声音长度为5秒，采样率为44.1kHz。该数据集包括：10个类别，分别为警报声、吹哨声、说话声、洒水车声、急救车声、背景噪声、刹车声、扩音喇叭声、机动车鸣笛声和非机动车鸣笛声，数据集详细信息见表1：

表1 异常声数据集

异常声类别	数目
		警报声	80
吹哨声	57
		说话声	179
洒水车声	313
		机动车鸣笛声	2999
急救车声	57
		背景噪声	332
刹车声	216
		非机动车鸣笛声	2213
扩音喇叭声	293

使用Hann窗对声音信号进行分帧，每帧选取1764个采样点，为了保持相邻帧之间的连续性，帧移选取为882个采样点；利用FFT变换得到声音的幅度频谱，对幅度频谱做平方处理得到声音的能量频谱，然后利用梅尔滤波器组将声音的能量频谱转换到梅尔能量频谱，为了提升声音的低频表示，增强隐藏在低频部分的特征信息，本实施例对梅尔能量频谱取log非线性变换，得到6739个40×251维梅尔能量频谱特征，其中80%为训练集，另外20%为测试集；

上述卷积神经网络的包括：六个卷积层、四个最大池化层、一个全局平均池化层和三个全连接层，其中：前两个卷积层中每个卷积层后都会接一个最大池化层，后四个卷积层中每两个卷积层后都会接一个最大池化层；全局平均池化层在卷积池化层和全连接层之间；六个卷积层的卷积核数量分别为64、128、256、256、512和512，卷积核尺寸为3x3，步长为3，填充方式为补0；四个最大池化层的卷积核尺寸为2x2，填充方式为补0；前两个全连接层都有256个节点；最后一个全连接层的节点数为声音类别数量，异常声数据集有10个声音类别，所以该层节点数为10。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的道路声信号分类方法，其特征在于：包括以下步骤：

步骤1、特征提取：从原始音频中提取特征数据，得到梅尔能量频谱特征数据集：

所述Mixup数据增强方法的方式：在训练集数据中按一定比例随机选取两个特征样本并用权重混合以线性插值的方式，通过公式对训练样本和标签处理，得到新训练样本特征值

和标签

，所述公式为：

其中

两个数据对是原始数据集中的训练样本对，

是一个服从B分布的参数,

；

步骤3、模型训练：将步骤2得到的新训练样本特征值

和标签

送入卷积神经网络模型中进行监督训练，把表现最好的一个模型保存在验证集，训练停止把结果保存到训练好的卷积神经网络模型；

步骤4、测试阶段：把待测声音样本使用步骤1的特征提取方法，得到待测声音梅尔能量频谱特征集，将待测声音的梅尔能量频谱特征输入到步骤3中训练好的卷积神经网络模型内，如果识别结果为机动车鸣笛声或非机动车鸣笛声，则通过声源定位和异常声发生时那一帧的图像生成声云图，并将声云图送入YOLOv3模型中进行目标检测，计算出离声源中心最近的车辆是机动车还是非机动车，如果YOLOv3得到的检测结果是机动车则最终该条样本被划分为机动车类别，如果YOLOv3得到的检测结果是非机动车则最终该条样本被划分为非机动车类别，所述步骤1中特征提取的方法为：

S2、上述S1中的每一帧带入窗函数后得到短时分析窗，通过FFT得到对应的幅度频谱，取平方得到声音的能量频谱；

S3、将能量频谱通过梅尔滤波器组得到梅尔能量频谱；

S4、再把梅尔能量频谱取log非线性变换，得到梅尔能量频谱特征数据集，步骤4中，所述声源定位采用波束形成方法，所述波束形成方法中将阵列中各个传感器所采集到的信号进行滤波、加权叠加后形成波束，扫描整个接收空间，对一个平面的声压分布进行成像可视化。

2.根据权利要求1所述的一种基于卷积神经网络的道路声信号分类方法，其特征在于：所述步骤3中，所述卷积神经网络模型中进行监督训练时，卷积核和权重采用均匀初始化，偏置采用全0初始化，训练时，采用Adam算法进行网络参数的更新，当网络迭代次数达到预设的迭代次数或验证集上的识别精度长时间没有提高时，训练停止把结果保存到训练好的卷积神经网络模型。

3.根据权利要求1所述的一种基于卷积神经网络的道路声信号分类方法，其特征在于：所述窗函数为Hann窗。

4.根据权利要求1所述的一种基于卷积神经网络的道路声信号分类方法，其特征在于：所述步骤2中训练样本对为训练样本和其对应的标签。

5.根据权利要求1所述的一种基于卷积神经网络的道路声信号分类方法，其特征在于：所述卷积神经网络的包括：六个卷积层、四个最大池化层、一个全局平均池化层和三个全连接层。

6.根据权利要求5所述的一种基于卷积神经网络的道路声信号分类方法，其特征在于：所述六个卷积层中前两个卷积层中每个卷积层后都会接一个最大池化层，后四个卷积层中每两个卷积层后都会接一个最大池化层；所述全局平均池化层在卷积池化层和全连接层之间。