CN111161754B

CN111161754B - 基于深度聚类的车辆鸣笛声分类方法及系统

Info

Publication number: CN111161754B
Application number: CN201911135578.7A
Authority: CN
Inventors: 赵兆; 庄正高; 许志勇
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2023-06-09
Anticipated expiration: 2039-11-19
Also published as: CN111161754A

Abstract

本发明公开了一种基于深度聚类的车辆鸣笛声分类方法及系统，方法包括：实测交通声音信号数据，并从交通声音信号数据中截取若干单声源车辆鸣笛声信号；基于若干单声源车辆鸣笛声信号，获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵；利用时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络；获取单声源车辆鸣笛声信号的MFCC系数；基于MFCC系数优化BP神经网络；利用优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类。系统用于实现上述方法。本发明可以有效地对来自不同车辆的单声源鸣笛声和混合鸣笛声进行分类，且分类结果准确，性能优良。

Description

基于深度聚类的车辆鸣笛声分类方法及系统

技术领域

本发明属于非语音识别技术领域，特别涉及一种基于深度聚类的车辆鸣笛声分类方法及系统。

背景技术

交通鸣笛声是城市交通环境中常见的一类噪声，是城市噪声的主要来源之一，随着中国经济与社会的持续快速发展，交通鸣笛声污染这一问题越来越严重，控制交通鸣笛声的噪声水平势在必行。以往整治违法交通鸣笛声的方式主要是人工辨别，这一方式会消耗大量的人力物力，而且效果往往不够理想。加上道路环境复杂，交通管理人员执法难度大，因此智能化的违法车辆鸣笛声分类识别方法具有重大意义。

虽然目前已经出现了一些针对交通鸣笛声分类的方法，但是这些方法只能完成对单声源交通鸣笛声的分类。在真实道路环境下，经常出现多辆车同时鸣笛的情况，现有的交通鸣笛声分类方法对这种情况下产生的交通鸣笛声无能为力，因此，迫切需要新的方法实现针对由多辆车同时鸣笛产生的混合交通鸣笛声的分类。

发明内容

本发明的目的在于提供一种能实现车辆鸣笛声有效、准确分类的分类方法及系统。

实现本发明目的的技术解决方案为：一种基于深度聚类的车辆鸣笛声分类方法，包括以下步骤：

步骤1、实测交通声音信号数据，并从所述交通声音信号数据中截取若干单声源车辆鸣笛声信号；

步骤2、基于所述若干单声源车辆鸣笛声信号，获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵；

步骤3、利用所述时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络；

步骤4、获取所述单声源车辆鸣笛声信号的MFCC系数；

步骤5、基于MFCC系数优化BP神经网络；

步骤6、利用所述优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类。

一种基于深度聚类的车辆鸣笛声分类系统，包括：

单声源车辆鸣笛声信号采集模块，用于实测交通声音信号数据，并从所述交通声音信号数据中截取若干单声源车辆鸣笛声信号；

第一特征提取模块，用于基于所述若干单声源车辆鸣笛声信号，获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵；

第一神经网络优化模块，用于利用所述时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络；

第二特征提取模块，用于获取所述单声源车辆鸣笛声信号的MFCC系数；

第二神经网络优化模块，用于基于MFCC系数优化BP神经网络；

分类模块，用于利用所述优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类。

本发明与现有技术相比，其显著优点为：1)解决了现有交通鸣笛声分类方法只能对单声源交通鸣笛声分类的局限性，可针对混合车辆鸣笛声信号和单声源车辆鸣笛声信号进行分类，适用范围广；2)仅依赖于输入数据样本和误差反向传播算法，即使得前几层网络调整为适用于分类的网络模型；3)限制条件少，可以在各类条件下实现交通鸣笛声分类；4)分类结果准确，性能优良。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明基于深度聚类的车辆鸣笛声分类方法流程图。

图2为一个实施例中优化神经网络的流程图。

图3为一个实施例中提取MFCC系数的流程图。

图4为一个实施例中利用优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类的流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

结合图1，本发明提供了一种基于深度聚类的车辆鸣笛声分类方法，包括以下步骤：

步骤1、实测交通声音信号数据，并从交通声音信号数据中截取若干单声源车辆鸣笛声信号；

步骤2、基于上述若干单声源车辆鸣笛声信号，获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵；

步骤3、利用上述时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络；

步骤4、获取上述单声源车辆鸣笛声信号的MFCC系数；

步骤5、基于MFCC系数优化BP神经网络；

步骤6、利用上述优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类。

进一步地，在其中一个实施例中，步骤2中基于若干单声源车辆鸣笛声信号，获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵，具体包括：

步骤2-1、在时域空间，对若干单声源车辆鸣笛声信号中的两两单声源车辆鸣笛声信号进行混合，每个混合信号的长度取其对应的两个单声源车辆鸣笛声信号中较短信号的长度；

步骤2-2、对每个混合信号进行采样，并进行短时傅里叶变换，获得该混合信号对应的时频单元矩阵；

步骤2-3、针对时频单元矩阵中的每一个元素，标记该元素对应的单声源车辆鸣笛声信号，由此生成时频单元矩阵对应的声源标识矩阵。

进一步优选地，在其中一个实施例中，步骤2-2中对每个混合信号进行采样，并进行短时傅里叶变换，具体采用的参数包括：采样频率为40KHz，帧长为16ms，帧移为4ms。

进一步地，在其中一个实施例中，结合图2，步骤3中利用时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络，具体包括：

步骤3-1、初始化LSTM神经网络中隐藏层的层数和各层的神经元数量、连接权重、阈值以及阈值更新的学习率，并预设迭代次数阈值p；

步骤3-2、将时频单元矩阵及其对应的声源标识矩阵划分为训练集与验证集，且采用批处理的方式将训练集输入至初始化后的LSTM神经网络中进行训练，并利用正向传播算法预测LSTM神经网络输入数据的嵌入式特征；

步骤3-3、基于嵌入式特征，利用反向传播算法更新LSTM神经网络中的连接权重、阈值；

步骤3-4、判断当前训练次数n是否等于预设迭代次数阈值p，若是，则完成LSTM神经网络的优化；反之执行步骤3-2～步骤3-3。

进一步优选地，在其中一个实施例中，步骤3-1中初始化LSTM神经网络中连接权重、阈值，具体是利用(0,1)范围内的随机数实现初始化。

进一步地，在其中一个实施例中，结合图3，步骤4获取单声源车辆鸣笛声信号的MFCC系数，具体包括：

步骤4-1、对单声源车辆鸣笛声信号进行预加重、短时分帧以及加窗处理；

步骤4-2、对每一帧单声源车辆鸣笛声信号进行快速傅里叶变换，获得该帧单声源车辆鸣笛声信号频谱；

步骤4-3、获取单声源车辆鸣笛声信号频谱对应的幅度谱；

步骤4-4、将幅度谱输入至Mel滤波器组；

步骤4-5、对Mel滤波器组的输出进行对数运算，获得对数能量；

步骤4-6、对对数能量进行离散余弦变换，获得MFCC系数。

进一步优选地，在其中一个实施例中，步骤4-1中短时分帧的帧长32ms，帧移16ms。

进一步地，在其中一个实施例中，结合图2，步骤5基于MFCC系数优化BP神经网络，具体包括：

步骤5-1、初始化BP神经网络中隐藏层的层数和各层的神经元数量、连接权重、阈值以及阈值更新的学习率，并预设迭代次数阈值q；

步骤5-2、根据MFCC系数对应的单声源车辆鸣笛声信号，为每个MFCC系数添加单声源车辆鸣笛声类别标签，将添加有标签的MFCC系数记为输入特征；

步骤5-3、将输入特征划分为训练集与验证集，且采用批处理的方式将训练集输入至初始化的BP神经网络中进行训练，并利用正向传播算法预测BP神经网络输入数据的类别；

步骤5-4、基于上述预测的类别，利用反向传播算法更新BP神经网络中的连接权重、阈值；

步骤5-5、判断当前训练次数m是否等于预设迭代次数阈值q，若是，则完成BP神经网络的优化；反之执行步骤5-3～步骤5-4。

进一步地，在其中一个实施例中，结合图4，步骤6中利用优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类，具体包括：

步骤6-1、对待分类的混合车辆鸣笛声信号进行采样，并进行短时傅里叶变换，获得该待分类的混合车辆鸣笛声信号对应的时频单元矩阵；

步骤6-2、将待分类的混合车辆鸣笛声信号对应的时频单元矩阵输入至步骤3优化后的LSTM神经网络，获得嵌入式特征；

步骤6-3、对步骤6-2中的嵌入式特征进行聚类；

步骤6-4、对聚类后的结果进行逆短时傅里叶变换，获得若干单声源车辆鸣笛声时域信号；

步骤6-5、按照步骤4的过程，提取步骤6-4单声源车辆鸣笛声时域信号的MFCC系数；

步骤6-6、将步骤6-5提取到的MFCC系数输入至步骤5优化后的BP神经网络中进行分类，获得分类结果。

进一步优选地，在其中一个实施例中，步骤6-3对步骤6-2中的嵌入式特征进行聚类分析，具体采用K-means模型。

本发明提供了一种基于深度聚类的车辆鸣笛声分类系统，包括：

单声源车辆鸣笛声信号采集模块，用于实测交通声音信号数据，并从交通声音信号数据中截取若干单声源车辆鸣笛声信号；

第一特征提取模块，用于基于若干单声源车辆鸣笛声信号，获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵；

第一神经网络优化模块，用于利用时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络；

第二特征提取模块，用于获取单声源车辆鸣笛声信号的MFCC系数；

第二神经网络优化模块，用于基于MFCC系数优化BP神经网络；

分类模块，用于利用优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类。

进一步地，在其中一个实施例中，上述第一特征提取模块，包括：

车辆鸣笛声信号混合单元，用于在时域空间，对若干单声源车辆鸣笛声信号中的两两单声源车辆鸣笛声信号进行混合，每个混合信号的长度取其对应的两个单声源车辆鸣笛声信号中较短信号的长度；

第一特征提取单元，用于对每个混合信号进行采样，并进行短时傅里叶变换，获得该混合信号对应的时频单元矩阵；

第二特征提取单元，用于标记时频单元矩阵的每一个元素对应的单声源车辆鸣笛声信号，由此生成时频单元矩阵对应的声源标识矩阵。

进一步地，在其中一个实施例中，上述第二特征提取模块，包括：

预处理单元，用于对单声源车辆鸣笛声信号进行预加重、短时分帧以及加窗处理；

时域转频域单元，用于对每一帧单声源车辆鸣笛声信号进行快速傅里叶变换，获得该帧单声源车辆鸣笛声信号频谱，并获取单声源车辆鸣笛声信号频谱对应的幅度谱；

第三特征提取单元，用于将幅度谱输入至Mel滤波器组，并对Mel滤波器组的输出进行对数运算获得对数能量，之后对对数能量进行离散余弦变换，获得MFCC系数。

进一步地，在其中一个实施例中，上述第一神经网络优化模块，包括：

第一初始化单元，用于初始化LSTM神经网络中隐藏层的层数和各层的神经元数量、连接权重、阈值以及阈值更新的学习率，并预设迭代次数阈值p；

第一训练单元，用于将时频单元矩阵及其对应的声源标识矩阵划分为训练集与验证集，且采用批处理的方式将训练集输入至初始化后的LSTM神经网络中进行训练，并利用正向传播算法预测LSTM神经网络输入数据的嵌入式特征；

第一网络参数更新单元，用于基于嵌入式特征，利用反向传播算法更新LSTM神经网络中的连接权重、阈值；

第一判别模块，用于判断当前训练次数n是否等于预设迭代次数阈值p，若是，则完成LSTM神经网络的优化；反之重新运行第一训练单元和第一网络参数更新单元。

进一步地，在其中一个实施例中，上述第二神经网络优化模块，包括：

第二初始化单元，用于初始化BP神经网络中隐藏层的层数和各层的神经元数量、连接权重、阈值以及阈值更新的学习率，并预设迭代次数阈值q；

输入特征建立单元，用于根据MFCC系数对应的单声源车辆鸣笛声信号，为每个MFCC系数添加单声源车辆鸣笛声类别标签，将添加有标签的MFCC系数记为输入特征；

第二训练单元，用于将输入特征划分为训练集与验证集，且采用批处理的方式将训练集输入至初始化的BP神经网络中进行训练，并利用正向传播算法预测BP神经网络输入数据的类别；

第二网络参数更新单元，用于基于上述预测的类别，利用反向传播算法更新BP神经网络中的连接权重、阈值；

第二判别模块，用于判断当前训练次数m是否等于预设迭代次数阈值q，若是，则完成BP神经网络的优化；反之重新运行第二训练单元和第二网络参数更新单元。

进一步地，在其中一个实施例中，上述分类模块，包括：

第四特征提取单元，用于对待分类的混合车辆鸣笛声信号进行采样，并进行短时傅里叶变换，获得该混合车辆鸣笛声信号对应的时频单元矩阵；

第五特征提取单元，用于将第四特征提取单元提取的时频单元矩阵输入至第一神经网络优化模块优化后的LSTM神经网络，获得嵌入式特征；

聚类单元，用于对第五特征提取单元提取的嵌入式特征进行聚类；

频域转时域单元，用于对聚类单元聚类后的结果进行逆短时傅里叶变换，获得若干单声源车辆鸣笛声时域信号；

第六特征提取单元，用于根据第二特征提取模块的工作过程，提取频域转时域单元输出的单声源车辆鸣笛声时域信号的MFCC系数；

分类单元，用于将第六特征提取单元提取到的MFCC系数输入至第二神经网络优化模块优化后的BP神经网络中进行分类，获得分类结果。

示例性地，采用具有2个隐藏层、每个隐藏层神经元数量为300的LSTM神经网络和具有1个隐藏层、每个隐藏层神经元数量为10的BP神经网络，利用本发明的方法对测试数据集的485个单声源车辆鸣笛声样本、232个由两类车辆鸣笛声混合而成的鸣笛声样本进行测试，测试的结果如下：单声源车辆鸣笛声样本的分类正确率达到了89％，混合车辆鸣笛声样本的分类正确率达到78％，最终平均分类正确率为85％。

综上所述，本发明以实测数据为基础，通过LSTM神经网络配合聚类(K-means)算法实现车辆鸣笛声混合信号的分离，最后采用BP神经网络，对交通鸣笛声片段的MFCC特征进行自主训练和分类。通过本发明的方法可以得到较好的分类效果，可以用于帮助有关部门实现对道路交通违法鸣笛的高效管理。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度聚类的车辆鸣笛声分类方法，其特征在于，包括以下步骤：

步骤3、利用所述时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络；具体包括：

步骤3-2、将所述时频单元矩阵及其对应的声源标识矩阵划分为训练集与验证集，且采用批处理的方式将训练集输入至初始化后的LSTM神经网络中进行训练，并利用正向传播算法预测所述LSTM神经网络输入数据的嵌入式特征；

步骤3-3、基于所述嵌入式特征，利用反向传播算法更新所述LSTM神经网络中的连接权重、阈值；

步骤3-4、判断当前训练次数n是否等于所述预设迭代次数阈值p，若是，则完成LSTM神经网络的优化；反之执行步骤3-2～步骤3-3；

步骤4、获取所述单声源车辆鸣笛声信号的MFCC系数；

步骤5、基于MFCC系数优化BP神经网络；

2.根据权利要求1所述的基于深度聚类的车辆鸣笛声分类方法，其特征在于，步骤2中基于所述若干单声源车辆鸣笛声信号，获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵，具体包括：

步骤2-1、在时域空间，对所述若干单声源车辆鸣笛声信号中的两两单声源车辆鸣笛声信号进行混合，每个混合信号的长度取其对应的两个单声源车辆鸣笛声信号中较短信号的长度；

3.根据权利要求1所述的基于深度聚类的车辆鸣笛声分类方法，其特征在于，步骤4所述获取单声源车辆鸣笛声信号的MFCC系数，具体包括：

步骤4-1、对所述单声源车辆鸣笛声信号进行预加重、短时分帧以及加窗处理；

步骤4-3、获取所述单声源车辆鸣笛声信号频谱对应的幅度谱；

步骤4-4、将所述幅度谱输入至Mel滤波器组；

步骤4-5、对所述Mel滤波器组的输出进行对数运算，获得对数能量；

步骤4-6、对所述对数能量进行离散余弦变换，获得MFCC系数。

4.根据权利要求3所述的基于深度聚类的车辆鸣笛声分类方法，其特征在于，步骤5所述基于MFCC系数优化BP神经网络，具体包括：

步骤5-3、将所述输入特征划分为训练集与验证集，且采用批处理的方式将训练集输入至初始化的BP神经网络中进行训练，并利用正向传播算法预测所述BP神经网络输入数据的类别；

步骤5-4、基于上述预测的类别，利用反向传播算法更新所述BP神经网络中的连接权重、阈值；

步骤5-5、判断当前训练次数m是否等于所述预设迭代次数阈值q，若是，则完成BP神经网络的优化；反之执行步骤5-3～步骤5-4。

5.根据权利要求4所述的基于深度聚类的车辆鸣笛声分类方法，其特征在于，步骤6所述利用优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类，具体包括：

步骤6-2、将所述待分类的混合车辆鸣笛声信号对应的时频单元矩阵输入至步骤3优化后的LSTM神经网络，获得嵌入式特征；

步骤6-3、对步骤6-2中的嵌入式特征进行聚类；

步骤6-4、对所述聚类后的结果进行逆短时傅里叶变换，获得若干单声源车辆鸣笛声时域信号；

步骤6-5、按照步骤4的过程，提取步骤6-4所述单声源车辆鸣笛声时域信号的MFCC系数；

6.一种基于深度聚类的车辆鸣笛声分类系统，其特征在于，包括：

第一神经网络优化模块，用于利用所述时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络；具体包括：

第二神经网络优化模块，用于基于MFCC系数优化BP神经网络；

7.根据权利要求6所述的基于深度聚类的车辆鸣笛声分类系统，其特征在于，所述第一特征提取模块，包括：

车辆鸣笛声信号混合单元，用于在时域空间，对所述若干单声源车辆鸣笛声信号中的两两单声源车辆鸣笛声信号进行混合，每个混合信号的长度取其对应的两个单声源车辆鸣笛声信号中较短信号的长度；

第二特征提取单元，用于标记时频单元矩阵的每一个元素对应的单声源车辆鸣笛声信号，由此生成时频单元矩阵对应的声源标识矩阵；

所述第二特征提取模块，包括：

预处理单元，用于对所述单声源车辆鸣笛声信号进行预加重、短时分帧以及加窗处理；

时域转频域单元，用于对每一帧单声源车辆鸣笛声信号进行快速傅里叶变换，获得该帧单声源车辆鸣笛声信号频谱，并获取所述单声源车辆鸣笛声信号频谱对应的幅度谱；

第三特征提取单元，用于将所述幅度谱输入至Mel滤波器组，并对Mel滤波器组的输出进行对数运算获得对数能量，之后对所述对数能量进行离散余弦变换，获得MFCC系数。

8.根据权利要求7所述的基于深度聚类的车辆鸣笛声分类系统，其特征在于，所述第一神经网络优化模块，包括：

第一训练单元，用于将所述时频单元矩阵及其对应的声源标识矩阵划分为训练集与验证集，且采用批处理的方式将训练集输入至初始化后的LSTM神经网络中进行训练，并利用正向传播算法预测所述LSTM神经网络输入数据的嵌入式特征；

第一网络参数更新单元，用于基于所述嵌入式特征，利用反向传播算法更新所述LSTM神经网络中的连接权重、阈值；

第一判别模块，用于判断当前训练次数n是否等于所述预设迭代次数阈值p，若是，则完成LSTM神经网络的优化；反之重新运行第一训练单元和第一网络参数更新单元；

所述第二神经网络优化模块，包括：

第二训练单元，用于将所述输入特征划分为训练集与验证集，且采用批处理的方式将训练集输入至初始化的BP神经网络中进行训练，并利用正向传播算法预测所述BP神经网络输入数据的类别；

第二网络参数更新单元，用于基于上述预测的类别，利用反向传播算法更新所述BP神经网络中的连接权重、阈值；

第二判别模块，用于判断当前训练次数m是否等于所述预设迭代次数阈值q，若是，则完成BP神经网络的优化；反之重新运行第二训练单元和第二网络参数更新单元。

9.根据权利要求8所述的基于深度聚类的车辆鸣笛声分类系统，其特征在于，所述分类模块，包括：

第五特征提取单元，用于将所述第四特征提取单元提取的时频单元矩阵输入至所述第一神经网络优化模块优化后的LSTM神经网络，获得嵌入式特征；

聚类单元，用于对所述第五特征提取单元提取的嵌入式特征进行聚类；

频域转时域单元，用于对所述聚类单元聚类后的结果进行逆短时傅里叶变换，获得若干单声源车辆鸣笛声时域信号；

第六特征提取单元，用于根据所述第二特征提取模块的工作过程，提取所述频域转时域单元输出的单声源车辆鸣笛声时域信号的MFCC系数；

分类单元，用于将所述第六特征提取单元提取到的MFCC系数输入至所述第二神经网络优化模块优化后的BP神经网络中进行分类，获得分类结果。