CN111161754B - 基于深度聚类的车辆鸣笛声分类方法及系统 - Google Patents
基于深度聚类的车辆鸣笛声分类方法及系统 Download PDFInfo
- Publication number
- CN111161754B CN111161754B CN201911135578.7A CN201911135578A CN111161754B CN 111161754 B CN111161754 B CN 111161754B CN 201911135578 A CN201911135578 A CN 201911135578A CN 111161754 B CN111161754 B CN 111161754B
- Authority
- CN
- China
- Prior art keywords
- neural network
- sound
- whistling
- signals
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013528 artificial neural network Methods 0.000 claims abstract description 110
- 239000011159 matrix material Substances 0.000 claims abstract description 85
- 230000005236 sound signal Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims description 44
- 238000000605 extraction Methods 0.000 claims description 30
- 238000005457 optimization Methods 0.000 claims description 20
- 238000001228 spectrum Methods 0.000 claims description 16
- 210000002569 neuron Anatomy 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000009432 framing Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K9/00—Devices in which sound is produced by vibrating a diaphragm or analogous element, e.g. fog horns, vehicle hooters or buzzers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Traffic Control Systems (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于深度聚类的车辆鸣笛声分类方法及系统,方法包括:实测交通声音信号数据,并从交通声音信号数据中截取若干单声源车辆鸣笛声信号;基于若干单声源车辆鸣笛声信号,获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵;利用时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络;获取单声源车辆鸣笛声信号的MFCC系数;基于MFCC系数优化BP神经网络;利用优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类。系统用于实现上述方法。本发明可以有效地对来自不同车辆的单声源鸣笛声和混合鸣笛声进行分类,且分类结果准确,性能优良。
Description
技术领域
本发明属于非语音识别技术领域,特别涉及一种基于深度聚类的车辆鸣笛声分类方法及系统。
背景技术
交通鸣笛声是城市交通环境中常见的一类噪声,是城市噪声的主要来源之一,随着中国经济与社会的持续快速发展,交通鸣笛声污染这一问题越来越严重,控制交通鸣笛声的噪声水平势在必行。以往整治违法交通鸣笛声的方式主要是人工辨别,这一方式会消耗大量的人力物力,而且效果往往不够理想。加上道路环境复杂,交通管理人员执法难度大,因此智能化的违法车辆鸣笛声分类识别方法具有重大意义。
虽然目前已经出现了一些针对交通鸣笛声分类的方法,但是这些方法只能完成对单声源交通鸣笛声的分类。在真实道路环境下,经常出现多辆车同时鸣笛的情况,现有的交通鸣笛声分类方法对这种情况下产生的交通鸣笛声无能为力,因此,迫切需要新的方法实现针对由多辆车同时鸣笛产生的混合交通鸣笛声的分类。
发明内容
本发明的目的在于提供一种能实现车辆鸣笛声有效、准确分类的分类方法及系统。
实现本发明目的的技术解决方案为:一种基于深度聚类的车辆鸣笛声分类方法,包括以下步骤:
步骤1、实测交通声音信号数据,并从所述交通声音信号数据中截取若干单声源车辆鸣笛声信号;
步骤2、基于所述若干单声源车辆鸣笛声信号,获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵;
步骤3、利用所述时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络;
步骤4、获取所述单声源车辆鸣笛声信号的MFCC系数;
步骤5、基于MFCC系数优化BP神经网络;
步骤6、利用所述优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类。
一种基于深度聚类的车辆鸣笛声分类系统,包括:
单声源车辆鸣笛声信号采集模块,用于实测交通声音信号数据,并从所述交通声音信号数据中截取若干单声源车辆鸣笛声信号;
第一特征提取模块,用于基于所述若干单声源车辆鸣笛声信号,获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵;
第一神经网络优化模块,用于利用所述时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络;
第二特征提取模块,用于获取所述单声源车辆鸣笛声信号的MFCC系数;
第二神经网络优化模块,用于基于MFCC系数优化BP神经网络;
分类模块,用于利用所述优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类。
本发明与现有技术相比,其显著优点为:1)解决了现有交通鸣笛声分类方法只能对单声源交通鸣笛声分类的局限性,可针对混合车辆鸣笛声信号和单声源车辆鸣笛声信号进行分类,适用范围广;2)仅依赖于输入数据样本和误差反向传播算法,即使得前几层网络调整为适用于分类的网络模型;3)限制条件少,可以在各类条件下实现交通鸣笛声分类;4)分类结果准确,性能优良。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于深度聚类的车辆鸣笛声分类方法流程图。
图2为一个实施例中优化神经网络的流程图。
图3为一个实施例中提取MFCC系数的流程图。
图4为一个实施例中利用优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
结合图1,本发明提供了一种基于深度聚类的车辆鸣笛声分类方法,包括以下步骤:
步骤1、实测交通声音信号数据,并从交通声音信号数据中截取若干单声源车辆鸣笛声信号;
步骤2、基于上述若干单声源车辆鸣笛声信号,获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵;
步骤3、利用上述时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络;
步骤4、获取上述单声源车辆鸣笛声信号的MFCC系数;
步骤5、基于MFCC系数优化BP神经网络;
步骤6、利用上述优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类。
进一步地,在其中一个实施例中,步骤2中基于若干单声源车辆鸣笛声信号,获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵,具体包括:
步骤2-1、在时域空间,对若干单声源车辆鸣笛声信号中的两两单声源车辆鸣笛声信号进行混合,每个混合信号的长度取其对应的两个单声源车辆鸣笛声信号中较短信号的长度;
步骤2-2、对每个混合信号进行采样,并进行短时傅里叶变换,获得该混合信号对应的时频单元矩阵;
步骤2-3、针对时频单元矩阵中的每一个元素,标记该元素对应的单声源车辆鸣笛声信号,由此生成时频单元矩阵对应的声源标识矩阵。
进一步优选地,在其中一个实施例中,步骤2-2中对每个混合信号进行采样,并进行短时傅里叶变换,具体采用的参数包括:采样频率为40KHz,帧长为16ms,帧移为4ms。
进一步地,在其中一个实施例中,结合图2,步骤3中利用时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络,具体包括:
步骤3-1、初始化LSTM神经网络中隐藏层的层数和各层的神经元数量、连接权重、阈值以及阈值更新的学习率,并预设迭代次数阈值p;
步骤3-2、将时频单元矩阵及其对应的声源标识矩阵划分为训练集与验证集,且采用批处理的方式将训练集输入至初始化后的LSTM神经网络中进行训练,并利用正向传播算法预测LSTM神经网络输入数据的嵌入式特征;
步骤3-3、基于嵌入式特征,利用反向传播算法更新LSTM神经网络中的连接权重、阈值;
步骤3-4、判断当前训练次数n是否等于预设迭代次数阈值p,若是,则完成LSTM神经网络的优化;反之执行步骤3-2~步骤3-3。
进一步优选地,在其中一个实施例中,步骤3-1中初始化LSTM神经网络中连接权重、阈值,具体是利用(0,1)范围内的随机数实现初始化。
进一步地,在其中一个实施例中,结合图3,步骤4获取单声源车辆鸣笛声信号的MFCC系数,具体包括:
步骤4-1、对单声源车辆鸣笛声信号进行预加重、短时分帧以及加窗处理;
步骤4-2、对每一帧单声源车辆鸣笛声信号进行快速傅里叶变换,获得该帧单声源车辆鸣笛声信号频谱;
步骤4-3、获取单声源车辆鸣笛声信号频谱对应的幅度谱;
步骤4-4、将幅度谱输入至Mel滤波器组;
步骤4-5、对Mel滤波器组的输出进行对数运算,获得对数能量;
步骤4-6、对对数能量进行离散余弦变换,获得MFCC系数。
进一步优选地,在其中一个实施例中,步骤4-1中短时分帧的帧长32ms,帧移16ms。
进一步地,在其中一个实施例中,结合图2,步骤5基于MFCC系数优化BP神经网络,具体包括:
步骤5-1、初始化BP神经网络中隐藏层的层数和各层的神经元数量、连接权重、阈值以及阈值更新的学习率,并预设迭代次数阈值q;
步骤5-2、根据MFCC系数对应的单声源车辆鸣笛声信号,为每个MFCC系数添加单声源车辆鸣笛声类别标签,将添加有标签的MFCC系数记为输入特征;
步骤5-3、将输入特征划分为训练集与验证集,且采用批处理的方式将训练集输入至初始化的BP神经网络中进行训练,并利用正向传播算法预测BP神经网络输入数据的类别;
步骤5-4、基于上述预测的类别,利用反向传播算法更新BP神经网络中的连接权重、阈值;
步骤5-5、判断当前训练次数m是否等于预设迭代次数阈值q,若是,则完成BP神经网络的优化;反之执行步骤5-3~步骤5-4。
进一步地,在其中一个实施例中,结合图4,步骤6中利用优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类,具体包括:
步骤6-1、对待分类的混合车辆鸣笛声信号进行采样,并进行短时傅里叶变换,获得该待分类的混合车辆鸣笛声信号对应的时频单元矩阵;
步骤6-2、将待分类的混合车辆鸣笛声信号对应的时频单元矩阵输入至步骤3优化后的LSTM神经网络,获得嵌入式特征;
步骤6-3、对步骤6-2中的嵌入式特征进行聚类;
步骤6-4、对聚类后的结果进行逆短时傅里叶变换,获得若干单声源车辆鸣笛声时域信号;
步骤6-5、按照步骤4的过程,提取步骤6-4单声源车辆鸣笛声时域信号的MFCC系数;
步骤6-6、将步骤6-5提取到的MFCC系数输入至步骤5优化后的BP神经网络中进行分类,获得分类结果。
进一步优选地,在其中一个实施例中,步骤6-3对步骤6-2中的嵌入式特征进行聚类分析,具体采用K-means模型。
本发明提供了一种基于深度聚类的车辆鸣笛声分类系统,包括:
单声源车辆鸣笛声信号采集模块,用于实测交通声音信号数据,并从交通声音信号数据中截取若干单声源车辆鸣笛声信号;
第一特征提取模块,用于基于若干单声源车辆鸣笛声信号,获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵;
第一神经网络优化模块,用于利用时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络;
第二特征提取模块,用于获取单声源车辆鸣笛声信号的MFCC系数;
第二神经网络优化模块,用于基于MFCC系数优化BP神经网络;
分类模块,用于利用优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类。
进一步地,在其中一个实施例中,上述第一特征提取模块,包括:
车辆鸣笛声信号混合单元,用于在时域空间,对若干单声源车辆鸣笛声信号中的两两单声源车辆鸣笛声信号进行混合,每个混合信号的长度取其对应的两个单声源车辆鸣笛声信号中较短信号的长度;
第一特征提取单元,用于对每个混合信号进行采样,并进行短时傅里叶变换,获得该混合信号对应的时频单元矩阵;
第二特征提取单元,用于标记时频单元矩阵的每一个元素对应的单声源车辆鸣笛声信号,由此生成时频单元矩阵对应的声源标识矩阵。
进一步地,在其中一个实施例中,上述第二特征提取模块,包括:
预处理单元,用于对单声源车辆鸣笛声信号进行预加重、短时分帧以及加窗处理;
时域转频域单元,用于对每一帧单声源车辆鸣笛声信号进行快速傅里叶变换,获得该帧单声源车辆鸣笛声信号频谱,并获取单声源车辆鸣笛声信号频谱对应的幅度谱;
第三特征提取单元,用于将幅度谱输入至Mel滤波器组,并对Mel滤波器组的输出进行对数运算获得对数能量,之后对对数能量进行离散余弦变换,获得MFCC系数。
进一步地,在其中一个实施例中,上述第一神经网络优化模块,包括:
第一初始化单元,用于初始化LSTM神经网络中隐藏层的层数和各层的神经元数量、连接权重、阈值以及阈值更新的学习率,并预设迭代次数阈值p;
第一训练单元,用于将时频单元矩阵及其对应的声源标识矩阵划分为训练集与验证集,且采用批处理的方式将训练集输入至初始化后的LSTM神经网络中进行训练,并利用正向传播算法预测LSTM神经网络输入数据的嵌入式特征;
第一网络参数更新单元,用于基于嵌入式特征,利用反向传播算法更新LSTM神经网络中的连接权重、阈值;
第一判别模块,用于判断当前训练次数n是否等于预设迭代次数阈值p,若是,则完成LSTM神经网络的优化;反之重新运行第一训练单元和第一网络参数更新单元。
进一步地,在其中一个实施例中,上述第二神经网络优化模块,包括:
第二初始化单元,用于初始化BP神经网络中隐藏层的层数和各层的神经元数量、连接权重、阈值以及阈值更新的学习率,并预设迭代次数阈值q;
输入特征建立单元,用于根据MFCC系数对应的单声源车辆鸣笛声信号,为每个MFCC系数添加单声源车辆鸣笛声类别标签,将添加有标签的MFCC系数记为输入特征;
第二训练单元,用于将输入特征划分为训练集与验证集,且采用批处理的方式将训练集输入至初始化的BP神经网络中进行训练,并利用正向传播算法预测BP神经网络输入数据的类别;
第二网络参数更新单元,用于基于上述预测的类别,利用反向传播算法更新BP神经网络中的连接权重、阈值;
第二判别模块,用于判断当前训练次数m是否等于预设迭代次数阈值q,若是,则完成BP神经网络的优化;反之重新运行第二训练单元和第二网络参数更新单元。
进一步地,在其中一个实施例中,上述分类模块,包括:
第四特征提取单元,用于对待分类的混合车辆鸣笛声信号进行采样,并进行短时傅里叶变换,获得该混合车辆鸣笛声信号对应的时频单元矩阵;
第五特征提取单元,用于将第四特征提取单元提取的时频单元矩阵输入至第一神经网络优化模块优化后的LSTM神经网络,获得嵌入式特征;
聚类单元,用于对第五特征提取单元提取的嵌入式特征进行聚类;
频域转时域单元,用于对聚类单元聚类后的结果进行逆短时傅里叶变换,获得若干单声源车辆鸣笛声时域信号;
第六特征提取单元,用于根据第二特征提取模块的工作过程,提取频域转时域单元输出的单声源车辆鸣笛声时域信号的MFCC系数;
分类单元,用于将第六特征提取单元提取到的MFCC系数输入至第二神经网络优化模块优化后的BP神经网络中进行分类,获得分类结果。
示例性地,采用具有2个隐藏层、每个隐藏层神经元数量为300的LSTM神经网络和具有1个隐藏层、每个隐藏层神经元数量为10的BP神经网络,利用本发明的方法对测试数据集的485个单声源车辆鸣笛声样本、232个由两类车辆鸣笛声混合而成的鸣笛声样本进行测试,测试的结果如下:单声源车辆鸣笛声样本的分类正确率达到了89%,混合车辆鸣笛声样本的分类正确率达到78%,最终平均分类正确率为85%。
综上所述,本发明以实测数据为基础,通过LSTM神经网络配合聚类(K-means)算法实现车辆鸣笛声混合信号的分离,最后采用BP神经网络,对交通鸣笛声片段的MFCC特征进行自主训练和分类。通过本发明的方法可以得到较好的分类效果,可以用于帮助有关部门实现对道路交通违法鸣笛的高效管理。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于深度聚类的车辆鸣笛声分类方法,其特征在于,包括以下步骤:
步骤1、实测交通声音信号数据,并从所述交通声音信号数据中截取若干单声源车辆鸣笛声信号;
步骤2、基于所述若干单声源车辆鸣笛声信号,获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵;
步骤3、利用所述时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络;具体包括:
步骤3-1、初始化LSTM神经网络中隐藏层的层数和各层的神经元数量、连接权重、阈值以及阈值更新的学习率,并预设迭代次数阈值p;
步骤3-2、将所述时频单元矩阵及其对应的声源标识矩阵划分为训练集与验证集,且采用批处理的方式将训练集输入至初始化后的LSTM神经网络中进行训练,并利用正向传播算法预测所述LSTM神经网络输入数据的嵌入式特征;
步骤3-3、基于所述嵌入式特征,利用反向传播算法更新所述LSTM神经网络中的连接权重、阈值;
步骤3-4、判断当前训练次数n是否等于所述预设迭代次数阈值p,若是,则完成LSTM神经网络的优化;反之执行步骤3-2~步骤3-3;
步骤4、获取所述单声源车辆鸣笛声信号的MFCC系数;
步骤5、基于MFCC系数优化BP神经网络;
步骤6、利用所述优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类。
2.根据权利要求1所述的基于深度聚类的车辆鸣笛声分类方法,其特征在于,步骤2中基于所述若干单声源车辆鸣笛声信号,获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵,具体包括:
步骤2-1、在时域空间,对所述若干单声源车辆鸣笛声信号中的两两单声源车辆鸣笛声信号进行混合,每个混合信号的长度取其对应的两个单声源车辆鸣笛声信号中较短信号的长度;
步骤2-2、对每个混合信号进行采样,并进行短时傅里叶变换,获得该混合信号对应的时频单元矩阵;
步骤2-3、针对时频单元矩阵中的每一个元素,标记该元素对应的单声源车辆鸣笛声信号,由此生成时频单元矩阵对应的声源标识矩阵。
3.根据权利要求1所述的基于深度聚类的车辆鸣笛声分类方法,其特征在于,步骤4所述获取单声源车辆鸣笛声信号的MFCC系数,具体包括:
步骤4-1、对所述单声源车辆鸣笛声信号进行预加重、短时分帧以及加窗处理;
步骤4-2、对每一帧单声源车辆鸣笛声信号进行快速傅里叶变换,获得该帧单声源车辆鸣笛声信号频谱;
步骤4-3、获取所述单声源车辆鸣笛声信号频谱对应的幅度谱;
步骤4-4、将所述幅度谱输入至Mel滤波器组;
步骤4-5、对所述Mel滤波器组的输出进行对数运算,获得对数能量;
步骤4-6、对所述对数能量进行离散余弦变换,获得MFCC系数。
4.根据权利要求3所述的基于深度聚类的车辆鸣笛声分类方法,其特征在于,步骤5所述基于MFCC系数优化BP神经网络,具体包括:
步骤5-1、初始化BP神经网络中隐藏层的层数和各层的神经元数量、连接权重、阈值以及阈值更新的学习率,并预设迭代次数阈值q;
步骤5-2、根据MFCC系数对应的单声源车辆鸣笛声信号,为每个MFCC系数添加单声源车辆鸣笛声类别标签,将添加有标签的MFCC系数记为输入特征;
步骤5-3、将所述输入特征划分为训练集与验证集,且采用批处理的方式将训练集输入至初始化的BP神经网络中进行训练,并利用正向传播算法预测所述BP神经网络输入数据的类别;
步骤5-4、基于上述预测的类别,利用反向传播算法更新所述BP神经网络中的连接权重、阈值;
步骤5-5、判断当前训练次数m是否等于所述预设迭代次数阈值q,若是,则完成BP神经网络的优化;反之执行步骤5-3~步骤5-4。
5.根据权利要求4所述的基于深度聚类的车辆鸣笛声分类方法,其特征在于,步骤6所述利用优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类,具体包括:
步骤6-1、对待分类的混合车辆鸣笛声信号进行采样,并进行短时傅里叶变换,获得该待分类的混合车辆鸣笛声信号对应的时频单元矩阵;
步骤6-2、将所述待分类的混合车辆鸣笛声信号对应的时频单元矩阵输入至步骤3优化后的LSTM神经网络,获得嵌入式特征;
步骤6-3、对步骤6-2中的嵌入式特征进行聚类;
步骤6-4、对所述聚类后的结果进行逆短时傅里叶变换,获得若干单声源车辆鸣笛声时域信号;
步骤6-5、按照步骤4的过程,提取步骤6-4所述单声源车辆鸣笛声时域信号的MFCC系数;
步骤6-6、将步骤6-5提取到的MFCC系数输入至步骤5优化后的BP神经网络中进行分类,获得分类结果。
6.一种基于深度聚类的车辆鸣笛声分类系统,其特征在于,包括:
单声源车辆鸣笛声信号采集模块,用于实测交通声音信号数据,并从所述交通声音信号数据中截取若干单声源车辆鸣笛声信号;
第一特征提取模块,用于基于所述若干单声源车辆鸣笛声信号,获取混合车辆鸣笛声信号的时频单元矩阵以及该矩阵对应的声源标识矩阵;
第一神经网络优化模块,用于利用所述时频单元矩阵以及该矩阵对应的声源标识矩阵优化LSTM神经网络;具体包括:
步骤3-1、初始化LSTM神经网络中隐藏层的层数和各层的神经元数量、连接权重、阈值以及阈值更新的学习率,并预设迭代次数阈值p;
步骤3-2、将所述时频单元矩阵及其对应的声源标识矩阵划分为训练集与验证集,且采用批处理的方式将训练集输入至初始化后的LSTM神经网络中进行训练,并利用正向传播算法预测所述LSTM神经网络输入数据的嵌入式特征;
步骤3-3、基于所述嵌入式特征,利用反向传播算法更新所述LSTM神经网络中的连接权重、阈值;
步骤3-4、判断当前训练次数n是否等于所述预设迭代次数阈值p,若是,则完成LSTM神经网络的优化;反之执行步骤3-2~步骤3-3;
第二特征提取模块,用于获取所述单声源车辆鸣笛声信号的MFCC系数;
第二神经网络优化模块,用于基于MFCC系数优化BP神经网络;
分类模块,用于利用所述优化后的LSTM神经网络和BP神经网络对待分类的混合车辆鸣笛声信号进行分类。
7.根据权利要求6所述的基于深度聚类的车辆鸣笛声分类系统,其特征在于,所述第一特征提取模块,包括:
车辆鸣笛声信号混合单元,用于在时域空间,对所述若干单声源车辆鸣笛声信号中的两两单声源车辆鸣笛声信号进行混合,每个混合信号的长度取其对应的两个单声源车辆鸣笛声信号中较短信号的长度;
第一特征提取单元,用于对每个混合信号进行采样,并进行短时傅里叶变换,获得该混合信号对应的时频单元矩阵;
第二特征提取单元,用于标记时频单元矩阵的每一个元素对应的单声源车辆鸣笛声信号,由此生成时频单元矩阵对应的声源标识矩阵;
所述第二特征提取模块,包括:
预处理单元,用于对所述单声源车辆鸣笛声信号进行预加重、短时分帧以及加窗处理;
时域转频域单元,用于对每一帧单声源车辆鸣笛声信号进行快速傅里叶变换,获得该帧单声源车辆鸣笛声信号频谱,并获取所述单声源车辆鸣笛声信号频谱对应的幅度谱;
第三特征提取单元,用于将所述幅度谱输入至Mel滤波器组,并对Mel滤波器组的输出进行对数运算获得对数能量,之后对所述对数能量进行离散余弦变换,获得MFCC系数。
8.根据权利要求7所述的基于深度聚类的车辆鸣笛声分类系统,其特征在于,所述第一神经网络优化模块,包括:
第一初始化单元,用于初始化LSTM神经网络中隐藏层的层数和各层的神经元数量、连接权重、阈值以及阈值更新的学习率,并预设迭代次数阈值p;
第一训练单元,用于将所述时频单元矩阵及其对应的声源标识矩阵划分为训练集与验证集,且采用批处理的方式将训练集输入至初始化后的LSTM神经网络中进行训练,并利用正向传播算法预测所述LSTM神经网络输入数据的嵌入式特征;
第一网络参数更新单元,用于基于所述嵌入式特征,利用反向传播算法更新所述LSTM神经网络中的连接权重、阈值;
第一判别模块,用于判断当前训练次数n是否等于所述预设迭代次数阈值p,若是,则完成LSTM神经网络的优化;反之重新运行第一训练单元和第一网络参数更新单元;
所述第二神经网络优化模块,包括:
第二初始化单元,用于初始化BP神经网络中隐藏层的层数和各层的神经元数量、连接权重、阈值以及阈值更新的学习率,并预设迭代次数阈值q;
输入特征建立单元,用于根据MFCC系数对应的单声源车辆鸣笛声信号,为每个MFCC系数添加单声源车辆鸣笛声类别标签,将添加有标签的MFCC系数记为输入特征;
第二训练单元,用于将所述输入特征划分为训练集与验证集,且采用批处理的方式将训练集输入至初始化的BP神经网络中进行训练,并利用正向传播算法预测所述BP神经网络输入数据的类别;
第二网络参数更新单元,用于基于上述预测的类别,利用反向传播算法更新所述BP神经网络中的连接权重、阈值;
第二判别模块,用于判断当前训练次数m是否等于所述预设迭代次数阈值q,若是,则完成BP神经网络的优化;反之重新运行第二训练单元和第二网络参数更新单元。
9.根据权利要求8所述的基于深度聚类的车辆鸣笛声分类系统,其特征在于,所述分类模块,包括:
第四特征提取单元,用于对待分类的混合车辆鸣笛声信号进行采样,并进行短时傅里叶变换,获得该混合车辆鸣笛声信号对应的时频单元矩阵;
第五特征提取单元,用于将所述第四特征提取单元提取的时频单元矩阵输入至所述第一神经网络优化模块优化后的LSTM神经网络,获得嵌入式特征;
聚类单元,用于对所述第五特征提取单元提取的嵌入式特征进行聚类;
频域转时域单元,用于对所述聚类单元聚类后的结果进行逆短时傅里叶变换,获得若干单声源车辆鸣笛声时域信号;
第六特征提取单元,用于根据所述第二特征提取模块的工作过程,提取所述频域转时域单元输出的单声源车辆鸣笛声时域信号的MFCC系数;
分类单元,用于将所述第六特征提取单元提取到的MFCC系数输入至所述第二神经网络优化模块优化后的BP神经网络中进行分类,获得分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911135578.7A CN111161754B (zh) | 2019-11-19 | 2019-11-19 | 基于深度聚类的车辆鸣笛声分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911135578.7A CN111161754B (zh) | 2019-11-19 | 2019-11-19 | 基于深度聚类的车辆鸣笛声分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111161754A CN111161754A (zh) | 2020-05-15 |
CN111161754B true CN111161754B (zh) | 2023-06-09 |
Family
ID=70556008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911135578.7A Active CN111161754B (zh) | 2019-11-19 | 2019-11-19 | 基于深度聚类的车辆鸣笛声分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161754B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114530163B (zh) * | 2021-12-31 | 2024-07-09 | 安徽云磬科技产业发展有限公司 | 基于密度聚类的采用声音识别设备生命周期的方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108847244A (zh) * | 2018-08-22 | 2018-11-20 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于mfcc和改进bp神经网络的声纹识别方法及系统 |
CN109358317B (zh) * | 2018-09-30 | 2021-06-08 | 科大讯飞股份有限公司 | 一种鸣笛信号检测方法、装置、设备及可读存储介质 |
CN109614887B (zh) * | 2018-11-23 | 2022-09-23 | 西安联丰迅声信息科技有限责任公司 | 一种基于支持向量机的汽车鸣笛分类方法 |
CN109961017A (zh) * | 2019-02-26 | 2019-07-02 | 杭州电子科技大学 | 一种基于卷积循环神经网络的心音信号分类方法 |
CN110136745A (zh) * | 2019-05-08 | 2019-08-16 | 西北工业大学 | 一种基于卷积神经网络的汽车鸣笛识别方法 |
-
2019
- 2019-11-19 CN CN201911135578.7A patent/CN111161754B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111161754A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108922560B (zh) | 一种基于混合深度神经网络模型的城市噪声识别方法 | |
CN109065030B (zh) | 基于卷积神经网络的环境声音识别方法及系统 | |
CN109767785A (zh) | 基于卷积神经网络的环境噪声识别分类方法 | |
CN103440873B (zh) | 一种基于相似性的音乐推荐方法 | |
CN112802484B (zh) | 一种混合音频下的大熊猫声音事件检测方法及系统 | |
CN108600135A (zh) | 一种信号调制方式的识别方法 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN109949823A (zh) | 一种基于dwpt-mfcc与gmm的车内异响识别方法 | |
CN104916289A (zh) | 行车噪声环境下快速声学事件的检测方法 | |
CN101366078A (zh) | 从单音音频信号分离音频信源的神经网络分类器 | |
CN104978507A (zh) | 一种基于声纹识别的智能测井评价专家系统身份认证方法 | |
CN102982351A (zh) | 基于bp神经网络的瓷绝缘子振动声学检测数据分类方法 | |
CN102592593B (zh) | 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 | |
CN109036470A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
CN103761965B (zh) | 一种乐器信号的分类方法 | |
CN108615532A (zh) | 一种应用于声场景的分类方法及装置 | |
CN112086100B (zh) | 基于量化误差熵的多层随机神经网络的城市噪音识别方法 | |
CN113472390B (zh) | 一种基于深度学习的跳频信号参数估计方法 | |
CN113111786B (zh) | 基于小样本训练图卷积网络的水下目标识别方法 | |
CN114897023A (zh) | 一种基于水声目标敏感差异特征提取的水声目标辨识方法 | |
CN111161754B (zh) | 基于深度聚类的车辆鸣笛声分类方法及系统 | |
CN109741759A (zh) | 一种面向特定鸟类物种的声学自动检测方法 | |
CN110458071B (zh) | 一种基于dwt-dfpa-gbdt的光纤振动信号特征提取与分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |