CN105810212B - 一种复杂噪声环境下的列车鸣笛识别方法 - Google Patents
一种复杂噪声环境下的列车鸣笛识别方法 Download PDFInfo
- Publication number
- CN105810212B CN105810212B CN201610128374.0A CN201610128374A CN105810212B CN 105810212 B CN105810212 B CN 105810212B CN 201610128374 A CN201610128374 A CN 201610128374A CN 105810212 B CN105810212 B CN 105810212B
- Authority
- CN
- China
- Prior art keywords
- whistle
- class
- sample
- whistle class
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000012360 testing method Methods 0.000 claims abstract description 37
- 239000013598 vector Substances 0.000 claims description 91
- 239000002131 composite material Substances 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 10
- 230000003068 static effect Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 230000001174 ascending effect Effects 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 238000007664 blowing Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 210000003739 neck Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种复杂噪声环境下的列车鸣笛识别方法,其特征是按如下步骤进行:1、利用麦克风获取原始训练样本库;2、选择具有代表性的训练样本集;3、利用HMM模型对训练样本集进行训练,得到模型库;4、利用麦克风获取测试样本库,再利用HMM模型对测试样本库进行分类识别,获得最终识别结果。本发明能够利用较少的人工标注获得质量更高的训练数据集,从而解决列车声音本身复杂性带来的训练样本选择的困难,进而提高识别正确率。
Description
技术领域
本发明涉及一种复杂噪声环境下的列车鸣笛识别方法,属于声音识别技术领域。
背景技术
声音信号具有不受光线和视野影响的优点,对其进行识别分析可以获取视觉所捕捉不到的信息。因此,声音识别广泛应用于安防、导航、环境声检测以及智能交通检测等领域。近年来,针对语音识别的研究已经相当成熟,然而对非语音类声音的研究却远不及语音识别。目前,对非语音类声音的识别仍然缺乏系统的方法,大多研究直接采用语音识别技术中的特征提取和分类方法。
特征提取过程中常用的特征有Mel频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、短时过零率(ZCR)和短时能量等等。其中最常用的是MFCC,它充分考虑了人耳的听觉特性,具有良好的识别性能,因而可以用来描述声音的特征。然而在实际复杂环境中,会遇到各种各样不可预测的噪音,当噪音出现时,MFCC的分类效果就开始明显下降,因此传统的MFCC特征并不能满足实际应用的需要。
声音的分类,本质上属于模式识别问题,因此,模式识别领域内的很多算法,如高斯混合模型(GMM)、隐马尔可夫模型(HMM)和支持向量机(SVM)等都可以用于构建声音分类器。过去的反复试验和经验表明基于样本的学习方法是设计分类器最有效的方法,因而训练样本的数量和质量自然成为影响分类器性能最关键的因素之一。
在传统的训练过程中,存在如下问题:第一,当训练样本的数量足够大时,基于统计的分类学习方法可以获得泛化能力强的分类器,但是训练分类器所需的计算代价也会随之而增加;第二,很多样本库中存在样本冗余的问题,相似的样本其实不需要重复训练;第三,实际情况下,列车声音属于一种复杂声音信号,其包含各种声音类型且各种类型交替出现。在本发明中,相对于列车鸣笛声而言,列车非鸣笛声音属于复杂的噪声干扰,它包括铁轨声、风声和刹车声等多种单一噪声以及它们组成的复杂噪声,因此对其进行人工标注,所需的标注成本很高。而且有些声音类型的标注还可能需要专业知识,如列车的鸣笛声包含汽鸣笛和电鸣笛等。
发明内容
本发明为了解决现有技术所存在的不足之处,提供一种复杂噪声环境下的列车鸣笛识别方法,以期能选出对分类更有用的样本进行标注,并能利用较少的人工标注获得质量更高的训练数据集,从而解决列车声音本身复杂性带来的训练样本选择的困难,进而提高识别正确率。
本发明为解决技术问题采取如下技术方案:
本发明一种复杂噪声环境下的列车鸣笛识别方法的特点是按如下步骤进行:
步骤1:利用麦克风获取列车经过时的W1个原始声音样本,记为S={S(1),S(2),…,S(m),…,S(W1)},S(m)表示第m个原始声音样本;将第m个原始声音样本S(m)的时间长度记为T(m),1≤m≤W1;
步骤2:选择具有代表性的训练样本集;
步骤2.1、人工辨别所述W1个声音样本中的鸣笛段和非鸣笛段,并利用声音处理工具截取出来,从而获得X个鸣笛类样本S1={S1(1),S1(2),…,S1(j),…,S1(X)}和Y个非鸣笛类样本S2={S2(1),S2(2),…,S2(k),…,S2(Y)};S1(j)表示第j个鸣笛类样本,其时间长度记为T1(j);1≤j≤X,0<X<W1;S2(k)表示第k个非鸣笛类样本,时间长度记为T2(k);1≤k≤Y,0<Y<W1;
步骤2.2、对所述X个鸣笛类样本S1和Y个非鸣笛类样本S2分别进行预处理,获得鸣笛类声音信号和非鸣笛类声音信号;
步骤2.3、对所述鸣笛类声音信号和非鸣笛类声音信号分别进行特征提取,获得第j个鸣笛类样本S1(j)的混合特征向量矩阵V1(j)和第k个非鸣笛类样本S2(k)的混合特征向量矩阵V2(k);
步骤2.4、利用K-Means聚类方法,并以余弦相似度作为距离度量,对所述第j个鸣笛类样本S1(j)的混合特征向量矩阵V1(j)中的所有n×μ行向量聚成一类,获得第j个鸣笛类样本S1(j)的鸣笛类质心向量C1(j);从而获得X个鸣笛类质心向量;
对所述第k个非鸣笛类样本S2(k)的混合特征向量矩阵V2(k)的所有n×μ行向量聚成一类,获得第k个非鸣笛类样本S2(k)的非鸣笛类质心向量C2(k);从而获得Y个非鸣笛类质心向量;
步骤2.5、利用K-Means聚类方法,以余弦相似度作为距离度量,分别对所述X个鸣
笛类质心向量进行聚类,获得P个鸣笛类,其中,第p个鸣笛类中含xp个质心向量,1≤p≤P,
并有:
对所述Y个非鸣笛类质心向量进行聚类,获得Q个非鸣笛类,其中,第q个非鸣笛类中含yq个质心向量,1≤q≤Q,并有:
步骤2.6、利用K-Means方法获得所述第p个鸣笛类中的每个质心向量到第p个鸣笛类中心的距离,并进行升序排列后;选择第1+k1×d1个质心向量作为第p个鸣笛类的质心向量代表集;其中,k1=0,1,2,…,Np-1;Np表示所设定的常数;
利用K-Means方法获得所述第q个非鸣笛类中的每个质心向量到第q个非鸣笛类中心的距离,并进行升序排列后;选择第1+k2×d2个质心向量作为第q个非鸣笛类的质心向量代表集;其中,k2=0,1,2,…,Nq-1;Nq表示所设定的常数;
步骤2.7、根据所述第p个鸣笛类的质心向量代表集中的每个质心向量,获得每个质心向量所对应的鸣笛类样本,从而构成第p个鸣笛类的训练样本代表集;
根据所述第q个非鸣笛类的质心向量代表集中的每个质心向量,获得每个质心向量所对应的非鸣笛类样本,从而构成第q个非鸣笛类的训练样本代表集;
步骤3:HMM模型训练;
利用HMM模型对所述第p个鸣笛类的训练样本代表集和第q个非鸣笛类的训练样本代表集分别进行建模,从而获得P+Q个HMM模型,并构成模板库;
步骤4:HMM分类识别;
步骤4.1、利用麦克风获取列车经过时的W2个原始声音样本,从所述W2个原始声音样本中任意选择一个测试样本,并进行切割划分,获得n个时间长度均为t的测试声音片段;
步骤4.2、利用HMM模型对所述第i个测试声音片段进行分类识别,获得第i个识别结果,记为flag(i),若识别结果为鸣笛,则令flag(i)=1,否则,令flag(i)=0;
步骤4.3、按照式(3)获得测试样本的识别结果Test:
步骤4.4、对识别结果Test进行判断,若识别结果Test>0,则表示测试样本中含鸣笛片段,最终识别结果为鸣笛,若Test=0,则表示测试样本中不含鸣笛片段,最终识别结果为非鸣笛。
本发明所述的复杂噪声环境下的列车鸣笛识别方法的特点也在于,
所述步骤2.2中的X个鸣笛类样本S1是按如下步骤进行预处理;
步骤2.2.1、利用式(1)对第j个鸣笛类样本S1(j)进行切割划分,获得n个时间长度均为t的鸣笛类样本片段:
式(1)中,t为常数,T1 a(i)和T1 b(i)分别表示第i个鸣笛类样本片段S1(i)的时间起止点,1≤i≤n;
步骤2.2.3、利用高通滤波器对所述第i个鸣笛类样本片段S1(i)进行预加重处理,获得平滑的第i个鸣笛类样本片段数据;
步骤2.2.4、对所述平滑的第i个鸣笛类样本片段数据进行分帧加窗处理,获得μ帧鸣笛类声音信号,其中,第x帧鸣笛类声音信号记为S1(x),1≤x≤μ;
所述步骤2.3是按如下过程进行:
步骤2.3.1、利用梅尔频率倒谱系数对所述第x帧鸣笛类声音信号S1(x)进行MFCC特征提取,获得第x帧鸣笛类静态的特征参数SMFCC1(x);
步骤2.3.2、对所述第x帧鸣笛类静态的特征参数SMFCC1(x)进行一阶差分计算,获得第x帧鸣笛类一阶差分系数DMFCC1(x);
步骤2.3.3、对所述第x帧鸣笛类声音信号S1(x)进行短时能量特征的提取,获得第x帧鸣笛类短时能量特征E1(x);
步骤2.3.4、对所述第x帧鸣笛类静态的特征参数SMFCC1(x)、第x帧鸣笛类一阶差分系数DMFCC1(x)和第x帧鸣笛类短时能量特征E1(x)进行组合,获得第x帧鸣笛类声音信号S1(x)的混合特征向量VMFCC1(x),从而获得μ帧鸣笛类声音信号的混合特征向量矩阵,即第i个鸣笛类样本片段数据的混合特征向量矩阵,进而获得第j个鸣笛类样本S1(j)的混合特征向量矩阵V1(j)。
与已有技术相比,本发明的有益效果体现在:
1、本发明通过基于K-Means聚类的方法来标记选择训练样本代表集,克服了传统训练过程中遇到的训练样本数不够、训练样本冗余度高和人工标注成本高的困难,从而可以自动获取质量更高的训练样本集,既有利于提高分类器性能,还能有效地缩短训练时间,在工程实际应用中具有实用性。
2、本发明的预处理方法,考虑到列车声音样本时间长度不一致的问题,采用切割划分的方法,以等时间长度的声音样本片段作为处理单元,不仅克服了样本数据量过大可能带来的数据溢出的问题,而且还使得预处理结果更加科学合理,识别结果可信度更高。
3、本发明通过采用混合特征的方法,将MFCC特征、MFCC一阶差分系数和短时能量三种特征参数组合在一起,克服了单一MFCC特征在噪声环境下的不足,从而大大提高了最终识别正确率。
附图说明
图1为本发明列车鸣笛识别流程图;
图2为本发明选择训练样本代表集的流程图。
具体实施方式
本实施例中,一种复杂噪声环境下的列车鸣笛识别方法,参照图1,是按如下步骤进行:
步骤1:利用麦克风获取列车经过时的W1个原始声音样本,记为S={S(1),S(2),…,S(m),…,S(W1)},S(m)表示第m个原始声音样本;将第m个原始声音样本S(m)的时间长度记为T(m),1≤m≤W1;在具体采集样本的过程中,W1的值越大越好,这样使得训练样本能更加全面地反应实际情况。本实施例中,将W1的值设定为200,时间长度T(m)为30秒到180秒不等。声音文件的属性均为采样率48kHz,16bit,单通道,格式为wav,PCM编码形式。
步骤2:参照图2的流程,选择具有代表性的训练样本集;
步骤2.1、人工辨别W1个声音样本中的鸣笛段和非鸣笛段,并利用声音处理工具截取出来,从而获得X个鸣笛类样本S1={S1(1),S1(2),…,S1(j),…,S1(X)}和Y个非鸣笛类样本S2={S2(1),S2(2),…,S2(k),…,S2(Y)};S1(j)表示第j个鸣笛类样本,时间长度记为T1(j);1≤j≤X,0<X<W1;S2(k)表示第k个非鸣笛类样本,时间长度记为T2(k);1≤k≤Y,Y=W1;由于采集的是列车经过时的整个声音样本,无论列车是否鸣笛,都可以截取到非鸣笛类样本,所以这里截取的非鸣笛样本数Y=W1。本实例中,X的值为125,Y的值为200。
步骤2.2、对X个鸣笛类样本S1和Y个非鸣笛类样本S2分别按如下步骤进行预处理,获得鸣笛类声音信号和非鸣笛类声音信号;
步骤2.2.1、利用式(1)对第j个鸣笛类样本S1(j)进行切割划分,获得n个时间长度均为t的鸣笛类样本片段:
式(1)中,t为常数,1≤i≤n;T1 a(i)和T1 b(i)分别表示第i个鸣笛类样本片段S1(i)的时间起止点,即将样本S1(j)的第T1 a(i)秒到第T1 b(i)秒划分为第i个鸣笛类样本片段S1(i);通过切割划分,将原来时间长度不一的连续的列车声音样本,划分为时间长度同等大小的声音样本片段,然后对每一个样本片段进行训练识别。本实施例中,t取0.5秒。
步骤2.2.3、利用高通滤波器对第i个鸣笛类样本片段S1(i)进行预加重处理,获得平滑的第i个鸣笛类样本片段数据;本实施例中,预加重滤波器的参数设置为0.9375。
步骤2.2.4、对平滑的第i个鸣笛类样本片段数据进行分帧加窗处理,获得μ帧鸣笛类声音信号,其中,第x帧鸣笛类声音信号记为S1(x),1≤x≤μ;本实施例中,分帧采用的帧长为1024(约21毫秒),即隔1024个采样点取一帧。为了保持帧与帧之间的连续性,取帧移为480,即每次位移480点后取下一帧,窗函数采用汉明窗。经过实验分析可以发现,0.5秒的鸣笛类样本片段数据经过分帧加窗可以获得44帧鸣笛类声音信号,即μ的值为44。
步骤2.3、对鸣笛类声音信号和非鸣笛类声音信号分别按如下步骤进行特征提取,获得第j个鸣笛类样本S1(j)的混合特征向量矩阵V1(j)和第k个非鸣笛类样本S2(k)的混合特征向量矩阵V2(k);
步骤2.3.1、利用梅尔频率倒谱系数对第x帧鸣笛类声音信号S1(x)进行MFCC特征提取,获得第x帧鸣笛类静态的特征参数SMFCC1(x);本实施例中,只提取MFCC系数的前12维作为特征参数,由于MFCC特征的提取是现有技术,所以说明书中没有详尽介绍。
步骤2.3.2、对第x帧鸣笛类静态的特征参数SMFCC1(x)进行一阶差分计算,获得第x帧鸣笛类一阶差分系数DMFCC1(x);本实施例中,通过对12维MFCC进行一阶差分计算可以得到12维一阶差分系数。由于一阶差分系数的计算是现有技术,所以说明书中没有详尽介绍。
步骤2.3.3、对第x帧鸣笛类声音信号S1(x)进行短时能量特征的提取,获得第x帧鸣笛类短时能量特征E1(x);短时能量特征是一个标量,只包含1维参数。由于短时能量的计算是现有技术,所以省略说明。
步骤2.3.4、对第x帧12维鸣笛类静态的特征参数SMFCC1(x)、第x帧12维鸣笛类一阶差分系数DMFCC1(x)和第x帧1维鸣笛类短时能量特征E1(x)进行组合,获得第x帧鸣笛类声音信号S1(x)的25维混合特征向量VMFCC1(x),从而获得μ帧鸣笛类声音信号的混合特征向量矩阵,即第i个鸣笛类样本片段数据的混合特征向量矩阵,矩阵维度为44×25,即44行25列;进而获得第j个鸣笛类样本S1(j)的混合特征向量矩阵V1(j),V1(j)的矩阵维度为44n×25,即n×44行25列。
步骤2.4、利用K-Means聚类方法,并以余弦相似度作为距离度量,对第j个鸣笛类样本S1(j)的混合特征向量矩阵V1(j)中的所有n×44行向量聚成一类,获得第j个鸣笛类样本S1(j)的鸣笛类质心向量C1(j);从而获得X个鸣笛类质心向量;
对第k个非鸣笛类样本S2(k)的混合特征向量矩阵V2(k)的所有n×44行向量聚成一类,获得第k个非鸣笛类样本S2(k)的非鸣笛类质心向量C2(k);从而获得Y个非鸣笛类质心向量;
一般来说,同一个鸣笛类样本或者非鸣笛类样本的特征随时间变化都不大。因此,本实例中用鸣笛类质心向量C1(j)来代表第j个鸣笛类样本S1(j)的整体特征,用非鸣笛类质心向量C2(k)来代表第k个非鸣笛类样本S2(k)的整体特征。因为聚类的对象是向量,所以以余弦相似度作为距离度量。由于K-Means聚类是现有的技术,所以省略介绍。
步骤2.5、利用K-Means聚类方法,以余弦相似度作为距离度量,分别对X个鸣笛类质心向量进行聚类,获得P个鸣笛类,其中,第p个鸣笛类中含xp个质心向量,1≤p≤P,并有:根据实验分析,本实例中,P的值取3,即将鸣笛类质心向量分为三类。
对Y个非鸣笛类质心向量进行聚类,获得Q个非鸣笛类,其中,第q个非鸣笛类中含yq个质心向量,1≤q≤Q,并有:根据实验分析,本实例中,Q的值取8,即将非鸣笛类质心向量分为八类。
步骤2.6、利用K-Means方法获得第p个鸣笛类中的每个质心向量到第p个鸣笛类中心的距离,并进行升序排列后;选择第1+k1×d1个质心向量作为第p个鸣笛类的质心向量代表集;其中,k1=0,1,2,…,Np-1;Np表示所设定的常数;一般xp越大,Np也就越大。Np的设定原则为:在保证代表样本数不能过多的情况下,尽量确保所选的质心向量能够涵盖第p个鸣笛类的整体情况。
利用K-Means方法获得第q个非鸣笛类中的每个质心向量到第q个非鸣笛类中心的距离,并进行升序排列后;选择第1+k2×d2个质心向量作为第q个非鸣笛类的质心向量代表集;其中,k2=0,1,2,...,Nq-1;Nq表示所设定的常数;一般yq越大,Nq也就越大。Nq的设定原则为:在保证代表样本数不能过多的情况下,尽量确保所选的质心向量能够涵盖第q个非鸣笛类的整体情况。
步骤2.7、根据第p个鸣笛类的质心向量代表集中的每个质心向量,获得每个质心向量所对应的鸣笛类样本,从而构成第p个鸣笛类的训练样本代表集;本实例中,一共选出了29个鸣笛代表样本,构成了3个鸣笛类训练样本代表集。
根据第q个非鸣笛类的质心向量代表集中的每个质心向量,获得每个质心向量所对应的非鸣笛类样本,从而构成第q个非鸣笛类的训练样本代表集;本实例中,一共选出了47个非鸣笛代表样本,构成了8个非鸣笛类训练样本代表集。
步骤3:HMM模型训练;
利用HMM模型对第p个鸣笛类的训练样本代表集和第q个非鸣笛类的训练样本代表集分别进行建模,从而获得P+Q个HMM模型,并构成模板库;本实例中,HMM模型训练过程中使用的迭代算法是Baum-Welch算法,训练最终一共获得11个HMM模型。由于HMM训练过程和Baum-Welch算法均为已有方法,因此省略介绍。
步骤4:HMM分类识别;
步骤4.1、利用麦克风获取列车经过时的W2个原始声音样本,从W2个原始声音样本中任意选择一个测试样本,并进行切割划分,获得n个时间长度均为t的测试声音片段;通过实时采集新的样本作为测试样本来测试本发明的识别正确率。本实例中,一共获得了230个测试样本,即W2的值为230,t仍取0.5秒。
步骤4.2、利用HMM模型对第i个测试声音片段进行分类识别,获得第i个识别结果,记为flag(i),若识别结果为鸣笛,则令flag(i)=1,否则,令flag(i)=0;本实例中,HMM模型的识别过程是利用Viterbi算法计算待测声音片段对每一个HMM模型的输出概率,然后选择概率最大值所对应的HMM模型作为识别结果。由于HMM识别过程和Viterbi算法均为已有技术,所以说明书中没有详尽介绍。
步骤4.3、按照式(3)获得测试样本的识别结果Test:
步骤4.4、对识别结果Test进行判断,若识别结果Test>0,则表示测试样本中含鸣笛片段,最终识别结果为鸣笛,若Test=0,则表示测试样本中不含鸣笛片段,最终识别结果为非鸣笛。本实施例中,通过对144个鸣笛测试样本和86个非鸣笛测试样本进行分类识别,鸣笛识别正确率达到了98.61%,非鸣笛识别正确率达到了94.19%,综合识别正确率达到了96.96%。本发明方法识别率较高,可以很好地应用到工程实际应用中去。
Claims (3)
1.一种复杂噪声环境下的列车鸣笛识别方法,其特征是按如下步骤进行:
步骤1:利用麦克风获取列车经过时的W1个原始声音样本,记为S={S(1),S(2),…,S(m),…,S(W1)},S(m)表示第m个原始声音样本;将第m个原始声音样本S(m)的时间长度记为T(m),1≤m≤W1;
步骤2:选择具有代表性的训练样本集;
步骤2.1、人工辨别所述W1个原始声音样本中的鸣笛段和非鸣笛段,并利用声音处理工具截取出来,从而获得X个鸣笛类样本S1={S1(1),S1(2),…,S1(j),…,S1(X)}和Y个非鸣笛类样本S2={S2(1),S2(2),…,S2(k),…,S2(Y)};S1(j)表示第j个鸣笛类样本,其时间长度记为T1(j);1≤j≤X,0<X<W1;S2(k)表示第k个非鸣笛类样本,时间长度记为T2(k);1≤k≤Y,0<Y<W1;
步骤2.2、对所述X个鸣笛类样本S1和Y个非鸣笛类样本S2分别进行预处理,获得鸣笛类声音信号和非鸣笛类声音信号;
步骤2.3、对所述鸣笛类声音信号和非鸣笛类声音信号分别进行特征提取,获得第j个鸣笛类样本S1(j)的混合特征向量矩阵V1(j)和第k个非鸣笛类样本S2(k)的混合特征向量矩阵V2(k);
步骤2.4、利用K-Means聚类方法,并以余弦相似度作为距离度量,对所述第j个鸣笛类样本S1(j)的混合特征向量矩阵V1(j)中的所有n×μ行向量聚成一类,获得第j个鸣笛类样本S1(j)的鸣笛类质心向量C1(j);从而获得X个鸣笛类质心向量;
对所述第k个非鸣笛类样本S2(k)的混合特征向量矩阵V2(k)的所有n×μ行向量聚成一类,获得第k个非鸣笛类样本S2(k)的非鸣笛类质心向量C2(k);从而获得Y个非鸣笛类质心向量;
步骤2.5、利用K-Means聚类方法,以余弦相似度作为距离度量,分别对所述X个鸣笛类质心向量进行聚类,获得P个鸣笛类,其中,第p个鸣笛类中含xp个质心向量,1≤p≤P,并有:
对所述Y个非鸣笛类质心向量进行聚类,获得Q个非鸣笛类,其中,第q个非鸣笛类中含yq个质心向量,1≤q≤Q,并有:
步骤2.6、利用K-Means方法获得所述第p个鸣笛类中的每个质心向量到第p个鸣笛类中心的距离,并进行升序排列后;选择第1+k1×d1个质心向量作为第p个鸣笛类的质心向量代表集;其中,k1=0,1,2,…,Np-1;Np表示所设定的常数;
利用K-Means方法获得所述第q个非鸣笛类中的每个质心向量到第q个非鸣笛类中心的距离,并进行升序排列后;选择第1+k2×d2个质心向量作为第q个非鸣笛类的质心向量代表集;其中,k2=0,1,2,…,Nq-1;Nq表示所设定的常数;
步骤2.7、根据所述第p个鸣笛类的质心向量代表集中的每个质心向量,获得每个质心向量所对应的鸣笛类样本,从而构成第p个鸣笛类的训练样本代表集;
根据所述第q个非鸣笛类的质心向量代表集中的每个质心向量,获得每个质心向量所对应的非鸣笛类样本,从而构成第q个非鸣笛类的训练样本代表集;
步骤3:HMM模型训练;
利用HMM模型对所述第p个鸣笛类的训练样本代表集和第q个非鸣笛类的训练样本代表集分别进行建模,从而获得P+Q个HMM模型,并构成模板库;
步骤4:HMM分类识别;
步骤4.1、利用麦克风获取列车经过时的W2个原始声音样本,从所述W2个原始声音样本中任意选择一个测试样本,并进行切割划分,获得n个时间长度均为t的测试声音片段;
步骤4.2、利用HMM模型对第i个测试声音片段进行分类识别,获得第i个识别结果,记为flag(i),若识别结果为鸣笛,则令flag(i)=1,否则,令flag(i)=0;
步骤4.3、按照式(1)获得测试样本的识别结果Test:
步骤4.4、对识别结果Test进行判断,若识别结果Test>0,则表示测试样本中含鸣笛片段,最终识别结果为鸣笛,若Test=0,则表示测试样本中不含鸣笛片段,最终识别结果为非鸣笛。
2.根据权利要求1所述的复杂噪声环境下的列车鸣笛识别方法,其特征是,所述步骤2.2中的X个鸣笛类样本S1是按如下步骤进行预处理;
步骤2.2.1、利用式(2)对第j个鸣笛类样本S1(j)进行切割划分,获得n个时间长度均为t的鸣笛类样本片段:
式(2)中,t为常数,T1 a(i)和T1 b(i)分别表示第i个鸣笛类样本片段S′1(i)的时间起止点,1≤i≤n;
步骤2.2.2、利用高通滤波器对所述第i个鸣笛类样本片段S′1(i)进行预加重处理,获得平滑的第i个鸣笛类样本片段数据;
步骤2.2.3、对所述平滑的第i个鸣笛类样本片段数据进行分帧加窗处理,获得μ帧鸣笛类声音信号,其中,第x帧鸣笛类声音信号记为S1(x),1≤x≤μ。
3.根据权利要求2所述的复杂噪声环境下的列车鸣笛识别方法,其特征是,所述步骤2.3是按如下过程进行:
步骤2.3.1、利用梅尔频率倒谱系数对所述第x帧鸣笛类声音信号S1(x)进行MFCC特征提取,获得第x帧鸣笛类静态的特征参数SMFCC1(x);
步骤2.3.2、对所述第x帧鸣笛类静态的特征参数SMFCC1(x)进行一阶差分计算,获得第x帧鸣笛类一阶差分系数DMFCC1(x);
步骤2.3.3、对所述第x帧鸣笛类声音信号S1(x)进行短时能量特征的提取,获得第x帧鸣笛类短时能量特征E1(x);
步骤2.3.4、对所述第x帧鸣笛类静态的特征参数SMFCC1(x)、第x帧鸣笛类一阶差分系数DMFCC1(x)和第x帧鸣笛类短时能量特征E1(x)进行组合,获得第x帧鸣笛类声音信号S1(x)的混合特征向量VMFCC1(x),从而获得μ帧鸣笛类声音信号的混合特征向量矩阵,即第i个鸣笛类样本片段数据的混合特征向量矩阵,进而获得第j个鸣笛类样本S1(j)的混合特征向量矩阵V1(j)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610128374.0A CN105810212B (zh) | 2016-03-07 | 2016-03-07 | 一种复杂噪声环境下的列车鸣笛识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610128374.0A CN105810212B (zh) | 2016-03-07 | 2016-03-07 | 一种复杂噪声环境下的列车鸣笛识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105810212A CN105810212A (zh) | 2016-07-27 |
CN105810212B true CN105810212B (zh) | 2019-04-23 |
Family
ID=56467751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610128374.0A Active CN105810212B (zh) | 2016-03-07 | 2016-03-07 | 一种复杂噪声环境下的列车鸣笛识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105810212B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107452401A (zh) * | 2017-05-27 | 2017-12-08 | 北京字节跳动网络技术有限公司 | 一种广告语音识别方法及装置 |
CN107452371B (zh) * | 2017-05-27 | 2019-03-05 | 北京字节跳动网络技术有限公司 | 一种语音分类模型的构建方法及装置 |
CN109358317B (zh) * | 2018-09-30 | 2021-06-08 | 科大讯飞股份有限公司 | 一种鸣笛信号检测方法、装置、设备及可读存储介质 |
CN109614887B (zh) * | 2018-11-23 | 2022-09-23 | 西安联丰迅声信息科技有限责任公司 | 一种基于支持向量机的汽车鸣笛分类方法 |
CN109448389B (zh) * | 2018-11-23 | 2021-09-10 | 西安联丰迅声信息科技有限责任公司 | 一种汽车鸣笛智能检测方法 |
CN110880328B (zh) * | 2019-11-20 | 2022-11-15 | Oppo广东移动通信有限公司 | 到站提醒方法、装置、终端及存储介质 |
CN111009261B (zh) * | 2019-12-10 | 2022-11-15 | Oppo广东移动通信有限公司 | 到站提醒方法、装置、终端及存储介质 |
CN111415679B (zh) * | 2020-03-25 | 2023-02-28 | Oppo广东移动通信有限公司 | 站点识别方法、装置、终端及存储介质 |
CN111640427A (zh) * | 2020-05-29 | 2020-09-08 | 武汉科技大学 | 基于声音时频域分析的球磨机工况识别方法、系统和装置 |
CN115083439B (zh) * | 2022-06-10 | 2024-07-12 | 北京中电慧声科技有限公司 | 车辆鸣笛声识别方法、系统、终端及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103052953A (zh) * | 2010-08-11 | 2013-04-17 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN103065627A (zh) * | 2012-12-17 | 2013-04-24 | 中南大学 | 基于dtw与hmm证据融合的特种车鸣笛声识别方法 |
CN103295583A (zh) * | 2012-02-24 | 2013-09-11 | 佳能株式会社 | 用于提取声音的子带能量特征的方法、设备以及监视系统 |
CN104078051A (zh) * | 2013-03-29 | 2014-10-01 | 中兴通讯股份有限公司 | 一种人声提取方法、系统以及人声音频播放方法及装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5806034A (en) * | 1995-08-02 | 1998-09-08 | Itt Corporation | Speaker independent speech recognition method utilizing multiple training iterations |
US6219642B1 (en) * | 1998-10-05 | 2001-04-17 | Legerity, Inc. | Quantization using frequency and mean compensated frequency input data for robust speech recognition |
CN1188804C (zh) * | 2002-11-15 | 2005-02-09 | 郑方 | 一种声纹识别方法 |
US20040176950A1 (en) * | 2003-03-04 | 2004-09-09 | Docomo Communications Laboratories Usa, Inc. | Methods and apparatuses for variable dimension vector quantization |
CN101980336B (zh) * | 2010-10-18 | 2012-01-11 | 福州星网视易信息系统有限公司 | 一种基于隐马尔可夫模型的汽车声音识别方法 |
KR101236539B1 (ko) * | 2010-12-30 | 2013-02-25 | 부산대학교 산학협력단 | 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법 |
US20130070928A1 (en) * | 2011-09-21 | 2013-03-21 | Daniel P. W. Ellis | Methods, systems, and media for mobile audio event recognition |
CN103295584B (zh) * | 2012-02-24 | 2015-10-14 | 索尼公司 | 音声数据检测装置、音声监控系统及其方法 |
CN102799899B (zh) * | 2012-06-29 | 2014-12-10 | 北京理工大学 | 基于svm和gmm的特定音频事件分层泛化识别方法 |
CN105100367A (zh) * | 2014-04-18 | 2015-11-25 | 深圳富泰宏精密工业有限公司 | 交通鸣笛安全警示系统与方法 |
US9858922B2 (en) * | 2014-06-23 | 2018-01-02 | Google Inc. | Caching speech recognition scores |
CN104318927A (zh) * | 2014-11-04 | 2015-01-28 | 东莞市北斗时空通信科技有限公司 | 一种抗噪声的低速率语音编码方法及解码方法 |
-
2016
- 2016-03-07 CN CN201610128374.0A patent/CN105810212B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103052953A (zh) * | 2010-08-11 | 2013-04-17 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN103295583A (zh) * | 2012-02-24 | 2013-09-11 | 佳能株式会社 | 用于提取声音的子带能量特征的方法、设备以及监视系统 |
CN103065627A (zh) * | 2012-12-17 | 2013-04-24 | 中南大学 | 基于dtw与hmm证据融合的特种车鸣笛声识别方法 |
CN104078051A (zh) * | 2013-03-29 | 2014-10-01 | 中兴通讯股份有限公司 | 一种人声提取方法、系统以及人声音频播放方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105810212A (zh) | 2016-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105810212B (zh) | 一种复杂噪声环境下的列车鸣笛识别方法 | |
CN102779508B (zh) | 语音库生成设备及其方法、语音合成系统及其方法 | |
Shobaki et al. | The OGI kids’ speech corpus and recognizers | |
CN101136199B (zh) | 语音数据处理方法和设备 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN103177733B (zh) | 汉语普通话儿化音发音质量评测方法与系统 | |
Zhuang et al. | Feature analysis and selection for acoustic event detection | |
Ravikumar et al. | Automatic detection of syllable repetition in read speech for objective assessment of stuttered disfluencies | |
CN102723079B (zh) | 基于稀疏表示的音乐和弦自动识别方法 | |
Cetin et al. | Classification of closed-and open-shell pistachio nuts using voice-recognition technology | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN108876951A (zh) | 一种基于声音识别的教学考勤方法 | |
Rahman et al. | Continuous bangla speech segmentation using short-term speech features extraction approaches | |
Das et al. | Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model | |
CN109377981A (zh) | 音素对齐的方法及装置 | |
Nwe et al. | Automatic Detection Of Vocal Segments In Popular Songs. | |
CN109545191A (zh) | 一种歌曲中人声起始位置的实时检测方法 | |
Sun et al. | A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea | |
CN110136746A (zh) | 一种基于融合特征的加性噪声环境下手机来源识别方法 | |
US20040158466A1 (en) | Sound characterisation and/or identification based on prosodic listening | |
CN109410968A (zh) | 一种高效的歌曲中人声起始位置检测方法 | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Michalevsky et al. | Speaker identification using diffusion maps | |
Singh et al. | A critical review on automatic speaker recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |