CN105810212B

CN105810212B - 一种复杂噪声环境下的列车鸣笛识别方法

Info

Publication number: CN105810212B
Application number: CN201610128374.0A
Authority: CN
Inventors: 蒋翠清; 樊鹏; 丁勇; 邵宏波
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2016-03-07
Filing date: 2016-03-07
Publication date: 2019-04-23
Anticipated expiration: 2036-03-07
Also published as: CN105810212A

Abstract

本发明公开了一种复杂噪声环境下的列车鸣笛识别方法，其特征是按如下步骤进行：1、利用麦克风获取原始训练样本库；2、选择具有代表性的训练样本集；3、利用HMM模型对训练样本集进行训练，得到模型库；4、利用麦克风获取测试样本库，再利用HMM模型对测试样本库进行分类识别，获得最终识别结果。本发明能够利用较少的人工标注获得质量更高的训练数据集，从而解决列车声音本身复杂性带来的训练样本选择的困难，进而提高识别正确率。

Description

一种复杂噪声环境下的列车鸣笛识别方法

技术领域

本发明涉及一种复杂噪声环境下的列车鸣笛识别方法，属于声音识别技术领域。

背景技术

声音信号具有不受光线和视野影响的优点，对其进行识别分析可以获取视觉所捕捉不到的信息。因此，声音识别广泛应用于安防、导航、环境声检测以及智能交通检测等领域。近年来，针对语音识别的研究已经相当成熟，然而对非语音类声音的研究却远不及语音识别。目前，对非语音类声音的识别仍然缺乏系统的方法，大多研究直接采用语音识别技术中的特征提取和分类方法。

特征提取过程中常用的特征有Mel频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、短时过零率(ZCR)和短时能量等等。其中最常用的是MFCC，它充分考虑了人耳的听觉特性，具有良好的识别性能，因而可以用来描述声音的特征。然而在实际复杂环境中，会遇到各种各样不可预测的噪音，当噪音出现时，MFCC的分类效果就开始明显下降，因此传统的MFCC特征并不能满足实际应用的需要。

声音的分类，本质上属于模式识别问题，因此，模式识别领域内的很多算法，如高斯混合模型(GMM)、隐马尔可夫模型(HMM)和支持向量机(SVM)等都可以用于构建声音分类器。过去的反复试验和经验表明基于样本的学习方法是设计分类器最有效的方法，因而训练样本的数量和质量自然成为影响分类器性能最关键的因素之一。

在传统的训练过程中，存在如下问题：第一，当训练样本的数量足够大时，基于统计的分类学习方法可以获得泛化能力强的分类器，但是训练分类器所需的计算代价也会随之而增加；第二，很多样本库中存在样本冗余的问题，相似的样本其实不需要重复训练；第三，实际情况下，列车声音属于一种复杂声音信号，其包含各种声音类型且各种类型交替出现。在本发明中，相对于列车鸣笛声而言，列车非鸣笛声音属于复杂的噪声干扰，它包括铁轨声、风声和刹车声等多种单一噪声以及它们组成的复杂噪声，因此对其进行人工标注，所需的标注成本很高。而且有些声音类型的标注还可能需要专业知识，如列车的鸣笛声包含汽鸣笛和电鸣笛等。

发明内容

本发明为了解决现有技术所存在的不足之处，提供一种复杂噪声环境下的列车鸣笛识别方法，以期能选出对分类更有用的样本进行标注，并能利用较少的人工标注获得质量更高的训练数据集，从而解决列车声音本身复杂性带来的训练样本选择的困难，进而提高识别正确率。

本发明为解决技术问题采取如下技术方案：

本发明一种复杂噪声环境下的列车鸣笛识别方法的特点是按如下步骤进行：

步骤1：利用麦克风获取列车经过时的W₁个原始声音样本，记为S＝{S(1),S(2),…,S(m),…,S(W₁)}，S(m)表示第m个原始声音样本；将第m个原始声音样本S(m)的时间长度记为T(m)，1≤m≤W₁；

步骤2：选择具有代表性的训练样本集；

步骤2.1、人工辨别所述W₁个声音样本中的鸣笛段和非鸣笛段，并利用声音处理工具截取出来，从而获得X个鸣笛类样本S₁＝{S₁(1),S₁(2),…,S₁(j),…,S₁(X)}和Y个非鸣笛类样本S₂＝{S₂(1),S₂(2),…,S₂(k),…,S₂(Y)}；S₁(j)表示第j个鸣笛类样本，其时间长度记为T₁(j)；1≤j≤X，0＜X＜W₁；S₂(k)表示第k个非鸣笛类样本，时间长度记为T₂(k)；1≤k≤Y，0＜Y＜W₁；

步骤2.2、对所述X个鸣笛类样本S₁和Y个非鸣笛类样本S₂分别进行预处理，获得鸣笛类声音信号和非鸣笛类声音信号；

步骤2.3、对所述鸣笛类声音信号和非鸣笛类声音信号分别进行特征提取，获得第j个鸣笛类样本S₁(j)的混合特征向量矩阵V₁(j)和第k个非鸣笛类样本S₂(k)的混合特征向量矩阵V₂(k)；

步骤2.4、利用K-Means聚类方法，并以余弦相似度作为距离度量，对所述第j个鸣笛类样本S₁(j)的混合特征向量矩阵V₁(j)中的所有n×μ行向量聚成一类，获得第j个鸣笛类样本S₁(j)的鸣笛类质心向量C₁(j)；从而获得X个鸣笛类质心向量；

对所述第k个非鸣笛类样本S₂(k)的混合特征向量矩阵V₂(k)的所有n×μ行向量聚成一类，获得第k个非鸣笛类样本S₂(k)的非鸣笛类质心向量C₂(k)；从而获得Y个非鸣笛类质心向量；

步骤2.5、利用K-Means聚类方法，以余弦相似度作为距离度量，分别对所述X个鸣笛类质心向量进行聚类，获得P个鸣笛类，其中，第p个鸣笛类中含x_p个质心向量，1≤p≤P，并有：

对所述Y个非鸣笛类质心向量进行聚类，获得Q个非鸣笛类，其中，第q个非鸣笛类中含y_q个质心向量，1≤q≤Q，并有：

步骤2.6、利用K-Means方法获得所述第p个鸣笛类中的每个质心向量到第p个鸣笛类中心的距离，并进行升序排列后；选择第1+k₁×d₁个质心向量作为第p个鸣笛类的质心向量代表集；其中，k₁＝0,1,2,…,N_p-1；N_p表示所设定的常数；

利用K-Means方法获得所述第q个非鸣笛类中的每个质心向量到第q个非鸣笛类中心的距离，并进行升序排列后；选择第1+k₂×d₂个质心向量作为第q个非鸣笛类的质心向量代表集；其中，k₂＝0,1,2,…,N_q-1；N_q表示所设定的常数；

步骤2.7、根据所述第p个鸣笛类的质心向量代表集中的每个质心向量，获得每个质心向量所对应的鸣笛类样本，从而构成第p个鸣笛类的训练样本代表集；

根据所述第q个非鸣笛类的质心向量代表集中的每个质心向量，获得每个质心向量所对应的非鸣笛类样本，从而构成第q个非鸣笛类的训练样本代表集；

步骤3：HMM模型训练；

利用HMM模型对所述第p个鸣笛类的训练样本代表集和第q个非鸣笛类的训练样本代表集分别进行建模，从而获得P+Q个HMM模型，并构成模板库；

步骤4：HMM分类识别；

步骤4.1、利用麦克风获取列车经过时的W₂个原始声音样本，从所述W₂个原始声音样本中任意选择一个测试样本，并进行切割划分，获得n个时间长度均为t的测试声音片段；

步骤4.2、利用HMM模型对所述第i个测试声音片段进行分类识别，获得第i个识别结果，记为flag(i)，若识别结果为鸣笛，则令flag(i)＝1，否则，令flag(i)＝0；

步骤4.3、按照式(3)获得测试样本的识别结果Test：

步骤4.4、对识别结果Test进行判断，若识别结果Test＞0，则表示测试样本中含鸣笛片段，最终识别结果为鸣笛，若Test＝0，则表示测试样本中不含鸣笛片段，最终识别结果为非鸣笛。

本发明所述的复杂噪声环境下的列车鸣笛识别方法的特点也在于，

所述步骤2.2中的X个鸣笛类样本S₁是按如下步骤进行预处理；

步骤2.2.1、利用式(1)对第j个鸣笛类样本S₁(j)进行切割划分，获得n个时间长度均为t的鸣笛类样本片段：

式(1)中，t为常数，T₁ ^a(i)和T₁ ^b(i)分别表示第i个鸣笛类样本片段S₁(i)的时间起止点，1≤i≤n；

步骤2.2.3、利用高通滤波器对所述第i个鸣笛类样本片段S₁(i)进行预加重处理，获得平滑的第i个鸣笛类样本片段数据；

步骤2.2.4、对所述平滑的第i个鸣笛类样本片段数据进行分帧加窗处理，获得μ帧鸣笛类声音信号，其中，第x帧鸣笛类声音信号记为S₁(x)，1≤x≤μ；

所述步骤2.3是按如下过程进行：

步骤2.3.1、利用梅尔频率倒谱系数对所述第x帧鸣笛类声音信号S₁(x)进行MFCC特征提取，获得第x帧鸣笛类静态的特征参数SMFCC₁(x)；

步骤2.3.2、对所述第x帧鸣笛类静态的特征参数SMFCC₁(x)进行一阶差分计算，获得第x帧鸣笛类一阶差分系数DMFCC₁(x)；

步骤2.3.3、对所述第x帧鸣笛类声音信号S₁(x)进行短时能量特征的提取，获得第x帧鸣笛类短时能量特征E₁(x)；

步骤2.3.4、对所述第x帧鸣笛类静态的特征参数SMFCC₁(x)、第x帧鸣笛类一阶差分系数DMFCC₁(x)和第x帧鸣笛类短时能量特征E₁(x)进行组合，获得第x帧鸣笛类声音信号S₁(x)的混合特征向量VMFCC₁(x)，从而获得μ帧鸣笛类声音信号的混合特征向量矩阵，即第i个鸣笛类样本片段数据的混合特征向量矩阵，进而获得第j个鸣笛类样本S₁(j)的混合特征向量矩阵V₁(j)。

与已有技术相比，本发明的有益效果体现在：

1、本发明通过基于K-Means聚类的方法来标记选择训练样本代表集，克服了传统训练过程中遇到的训练样本数不够、训练样本冗余度高和人工标注成本高的困难，从而可以自动获取质量更高的训练样本集，既有利于提高分类器性能，还能有效地缩短训练时间，在工程实际应用中具有实用性。

2、本发明的预处理方法，考虑到列车声音样本时间长度不一致的问题，采用切割划分的方法，以等时间长度的声音样本片段作为处理单元，不仅克服了样本数据量过大可能带来的数据溢出的问题，而且还使得预处理结果更加科学合理，识别结果可信度更高。

3、本发明通过采用混合特征的方法，将MFCC特征、MFCC一阶差分系数和短时能量三种特征参数组合在一起，克服了单一MFCC特征在噪声环境下的不足，从而大大提高了最终识别正确率。

附图说明

图1为本发明列车鸣笛识别流程图；

图2为本发明选择训练样本代表集的流程图。

具体实施方式

本实施例中，一种复杂噪声环境下的列车鸣笛识别方法，参照图1，是按如下步骤进行：

步骤1：利用麦克风获取列车经过时的W₁个原始声音样本，记为S＝{S(1),S(2),…,S(m),…,S(W₁)}，S(m)表示第m个原始声音样本；将第m个原始声音样本S(m)的时间长度记为T(m)，1≤m≤W₁；在具体采集样本的过程中，W₁的值越大越好，这样使得训练样本能更加全面地反应实际情况。本实施例中，将W₁的值设定为200，时间长度T(m)为30秒到180秒不等。声音文件的属性均为采样率48kHz，16bit，单通道，格式为wav，PCM编码形式。

步骤2：参照图2的流程，选择具有代表性的训练样本集；

步骤2.1、人工辨别W₁个声音样本中的鸣笛段和非鸣笛段，并利用声音处理工具截取出来，从而获得X个鸣笛类样本S₁＝{S₁(1),S₁(2),…,S₁(j),…,S₁(X)}和Y个非鸣笛类样本S₂＝{S₂(1),S₂(2),…,S₂(k),…,S₂(Y)}；S₁(j)表示第j个鸣笛类样本，时间长度记为T₁(j)；1≤j≤X，0＜X＜W₁；S₂(k)表示第k个非鸣笛类样本，时间长度记为T₂(k)；1≤k≤Y，Y＝W₁；由于采集的是列车经过时的整个声音样本，无论列车是否鸣笛，都可以截取到非鸣笛类样本，所以这里截取的非鸣笛样本数Y＝W₁。本实例中，X的值为125，Y的值为200。

步骤2.2、对X个鸣笛类样本S₁和Y个非鸣笛类样本S₂分别按如下步骤进行预处理，获得鸣笛类声音信号和非鸣笛类声音信号；

式(1)中，t为常数，1≤i≤n；T₁ ^a(i)和T₁ ^b(i)分别表示第i个鸣笛类样本片段S₁(i)的时间起止点，即将样本S1(j)的第T₁ ^a(i)秒到第T₁ ^b(i)秒划分为第i个鸣笛类样本片段S₁(i)；通过切割划分，将原来时间长度不一的连续的列车声音样本，划分为时间长度同等大小的声音样本片段，然后对每一个样本片段进行训练识别。本实施例中，t取0.5秒。

步骤2.2.3、利用高通滤波器对第i个鸣笛类样本片段S₁(i)进行预加重处理，获得平滑的第i个鸣笛类样本片段数据；本实施例中，预加重滤波器的参数设置为0.9375。

步骤2.2.4、对平滑的第i个鸣笛类样本片段数据进行分帧加窗处理，获得μ帧鸣笛类声音信号，其中，第x帧鸣笛类声音信号记为S₁(x)，1≤x≤μ；本实施例中，分帧采用的帧长为1024(约21毫秒)，即隔1024个采样点取一帧。为了保持帧与帧之间的连续性，取帧移为480，即每次位移480点后取下一帧，窗函数采用汉明窗。经过实验分析可以发现，0.5秒的鸣笛类样本片段数据经过分帧加窗可以获得44帧鸣笛类声音信号，即μ的值为44。

步骤2.3、对鸣笛类声音信号和非鸣笛类声音信号分别按如下步骤进行特征提取，获得第j个鸣笛类样本S₁(j)的混合特征向量矩阵V₁(j)和第k个非鸣笛类样本S₂(k)的混合特征向量矩阵V₂(k)；

步骤2.3.1、利用梅尔频率倒谱系数对第x帧鸣笛类声音信号S₁(x)进行MFCC特征提取，获得第x帧鸣笛类静态的特征参数SMFCC₁(x)；本实施例中，只提取MFCC系数的前12维作为特征参数，由于MFCC特征的提取是现有技术，所以说明书中没有详尽介绍。

步骤2.3.2、对第x帧鸣笛类静态的特征参数SMFCC₁(x)进行一阶差分计算，获得第x帧鸣笛类一阶差分系数DMFCC₁(x)；本实施例中，通过对12维MFCC进行一阶差分计算可以得到12维一阶差分系数。由于一阶差分系数的计算是现有技术，所以说明书中没有详尽介绍。

步骤2.3.3、对第x帧鸣笛类声音信号S₁(x)进行短时能量特征的提取，获得第x帧鸣笛类短时能量特征E₁(x)；短时能量特征是一个标量，只包含1维参数。由于短时能量的计算是现有技术，所以省略说明。

步骤2.3.4、对第x帧12维鸣笛类静态的特征参数SMFCC₁(x)、第x帧12维鸣笛类一阶差分系数DMFCC₁(x)和第x帧1维鸣笛类短时能量特征E₁(x)进行组合，获得第x帧鸣笛类声音信号S₁(x)的25维混合特征向量VMFCC₁(x)，从而获得μ帧鸣笛类声音信号的混合特征向量矩阵，即第i个鸣笛类样本片段数据的混合特征向量矩阵，矩阵维度为44×25，即44行25列；进而获得第j个鸣笛类样本S₁(j)的混合特征向量矩阵V₁(j)，V₁(j)的矩阵维度为44n×25，即n×44行25列。

步骤2.4、利用K-Means聚类方法，并以余弦相似度作为距离度量，对第j个鸣笛类样本S₁(j)的混合特征向量矩阵V₁(j)中的所有n×44行向量聚成一类，获得第j个鸣笛类样本S₁(j)的鸣笛类质心向量C₁(j)；从而获得X个鸣笛类质心向量；

对第k个非鸣笛类样本S₂(k)的混合特征向量矩阵V₂(k)的所有n×44行向量聚成一类，获得第k个非鸣笛类样本S₂(k)的非鸣笛类质心向量C₂(k)；从而获得Y个非鸣笛类质心向量；

一般来说，同一个鸣笛类样本或者非鸣笛类样本的特征随时间变化都不大。因此，本实例中用鸣笛类质心向量C₁(j)来代表第j个鸣笛类样本S₁(j)的整体特征，用非鸣笛类质心向量C₂(k)来代表第k个非鸣笛类样本S₂(k)的整体特征。因为聚类的对象是向量，所以以余弦相似度作为距离度量。由于K-Means聚类是现有的技术，所以省略介绍。

步骤2.5、利用K-Means聚类方法，以余弦相似度作为距离度量，分别对X个鸣笛类质心向量进行聚类，获得P个鸣笛类，其中，第p个鸣笛类中含x_p个质心向量，1≤p≤P，并有：根据实验分析，本实例中，P的值取3，即将鸣笛类质心向量分为三类。

对Y个非鸣笛类质心向量进行聚类，获得Q个非鸣笛类，其中，第q个非鸣笛类中含y_q个质心向量，1≤q≤Q，并有：根据实验分析，本实例中，Q的值取8，即将非鸣笛类质心向量分为八类。

步骤2.6、利用K-Means方法获得第p个鸣笛类中的每个质心向量到第p个鸣笛类中心的距离，并进行升序排列后；选择第1+k₁×d₁个质心向量作为第p个鸣笛类的质心向量代表集；其中，k₁＝0,1,2,…,N_p-1；N_p表示所设定的常数；一般x_p越大，N_p也就越大。N_p的设定原则为：在保证代表样本数不能过多的情况下，尽量确保所选的质心向量能够涵盖第p个鸣笛类的整体情况。

利用K-Means方法获得第q个非鸣笛类中的每个质心向量到第q个非鸣笛类中心的距离，并进行升序排列后；选择第1+k₂×d₂个质心向量作为第q个非鸣笛类的质心向量代表集；其中，k₂＝0,1,2,...,N_q-1；N_q表示所设定的常数；一般y_q越大，N_q也就越大。N_q的设定原则为：在保证代表样本数不能过多的情况下，尽量确保所选的质心向量能够涵盖第q个非鸣笛类的整体情况。

步骤2.7、根据第p个鸣笛类的质心向量代表集中的每个质心向量，获得每个质心向量所对应的鸣笛类样本，从而构成第p个鸣笛类的训练样本代表集；本实例中，一共选出了29个鸣笛代表样本，构成了3个鸣笛类训练样本代表集。

根据第q个非鸣笛类的质心向量代表集中的每个质心向量，获得每个质心向量所对应的非鸣笛类样本，从而构成第q个非鸣笛类的训练样本代表集；本实例中，一共选出了47个非鸣笛代表样本，构成了8个非鸣笛类训练样本代表集。

步骤3：HMM模型训练；

利用HMM模型对第p个鸣笛类的训练样本代表集和第q个非鸣笛类的训练样本代表集分别进行建模，从而获得P+Q个HMM模型，并构成模板库；本实例中，HMM模型训练过程中使用的迭代算法是Baum-Welch算法，训练最终一共获得11个HMM模型。由于HMM训练过程和Baum-Welch算法均为已有方法，因此省略介绍。

步骤4：HMM分类识别；

步骤4.1、利用麦克风获取列车经过时的W₂个原始声音样本，从W₂个原始声音样本中任意选择一个测试样本，并进行切割划分，获得n个时间长度均为t的测试声音片段；通过实时采集新的样本作为测试样本来测试本发明的识别正确率。本实例中，一共获得了230个测试样本，即W₂的值为230，t仍取0.5秒。

步骤4.2、利用HMM模型对第i个测试声音片段进行分类识别，获得第i个识别结果，记为flag(i)，若识别结果为鸣笛，则令flag(i)＝1，否则，令flag(i)＝0；本实例中，HMM模型的识别过程是利用Viterbi算法计算待测声音片段对每一个HMM模型的输出概率，然后选择概率最大值所对应的HMM模型作为识别结果。由于HMM识别过程和Viterbi算法均为已有技术，所以说明书中没有详尽介绍。

步骤4.3、按照式(3)获得测试样本的识别结果Test：

步骤4.4、对识别结果Test进行判断，若识别结果Test＞0，则表示测试样本中含鸣笛片段，最终识别结果为鸣笛，若Test＝0，则表示测试样本中不含鸣笛片段，最终识别结果为非鸣笛。本实施例中，通过对144个鸣笛测试样本和86个非鸣笛测试样本进行分类识别，鸣笛识别正确率达到了98.61％，非鸣笛识别正确率达到了94.19％，综合识别正确率达到了96.96％。本发明方法识别率较高，可以很好地应用到工程实际应用中去。

Claims

1.一种复杂噪声环境下的列车鸣笛识别方法，其特征是按如下步骤进行：

步骤2：选择具有代表性的训练样本集；

步骤2.1、人工辨别所述W₁个原始声音样本中的鸣笛段和非鸣笛段，并利用声音处理工具截取出来，从而获得X个鸣笛类样本S₁＝{S₁(1),S₁(2),…,S₁(j),…,S₁(X)}和Y个非鸣笛类样本S₂＝{S₂(1),S₂(2),…,S₂(k),…,S₂(Y)}；S₁(j)表示第j个鸣笛类样本，其时间长度记为T₁(j)；1≤j≤X，0<X<W₁；S₂(k)表示第k个非鸣笛类样本，时间长度记为T₂(k)；1≤k≤Y，0<Y<W₁；

步骤3：HMM模型训练；

步骤4：HMM分类识别；

步骤4.2、利用HMM模型对第i个测试声音片段进行分类识别，获得第i个识别结果，记为flag(i)，若识别结果为鸣笛，则令flag(i)＝1，否则，令flag(i)＝0；

步骤4.3、按照式(1)获得测试样本的识别结果Test：

步骤4.4、对识别结果Test进行判断，若识别结果Test>0，则表示测试样本中含鸣笛片段，最终识别结果为鸣笛，若Test＝0，则表示测试样本中不含鸣笛片段，最终识别结果为非鸣笛。

2.根据权利要求1所述的复杂噪声环境下的列车鸣笛识别方法，其特征是，所述步骤2.2中的X个鸣笛类样本S₁是按如下步骤进行预处理；

步骤2.2.1、利用式(2)对第j个鸣笛类样本S₁(j)进行切割划分，获得n个时间长度均为t的鸣笛类样本片段：

式(2)中，t为常数，T₁ ^a(i)和T₁ ^b(i)分别表示第i个鸣笛类样本片段S′₁(i)的时间起止点，1≤i≤n；

步骤2.2.2、利用高通滤波器对所述第i个鸣笛类样本片段S′₁(i)进行预加重处理，获得平滑的第i个鸣笛类样本片段数据；

步骤2.2.3、对所述平滑的第i个鸣笛类样本片段数据进行分帧加窗处理，获得μ帧鸣笛类声音信号，其中，第x帧鸣笛类声音信号记为S₁(x)，1≤x≤μ。

3.根据权利要求2所述的复杂噪声环境下的列车鸣笛识别方法，其特征是，所述步骤2.3是按如下过程进行：