CN110120218B - 基于gmm-hmm的高速公路大型车辆识别方法 - Google Patents

基于gmm-hmm的高速公路大型车辆识别方法 Download PDF

Info

Publication number
CN110120218B
CN110120218B CN201910353445.0A CN201910353445A CN110120218B CN 110120218 B CN110120218 B CN 110120218B CN 201910353445 A CN201910353445 A CN 201910353445A CN 110120218 B CN110120218 B CN 110120218B
Authority
CN
China
Prior art keywords
model
gmm
probability
gaussian
hmm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910353445.0A
Other languages
English (en)
Other versions
CN110120218A (zh
Inventor
郭军
张小钰
刘晨
高志远
王理庚
李文雨
迟航民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dixn Technology Co ltd
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910353445.0A priority Critical patent/CN110120218B/zh
Priority to PCT/CN2019/090876 priority patent/WO2020220440A1/zh
Publication of CN110120218A publication Critical patent/CN110120218A/zh
Application granted granted Critical
Publication of CN110120218B publication Critical patent/CN110120218B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Traffic Control Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供一种基于GMM‑HMM的高速公路大型车辆识别方法,涉及智能交通技术领域。该方法提取音频信号的MFCC特征,对此音频信号特征分析其在特征空间中的特定分布,采用高斯概率密度函数拟合特征向量,得到GMM‑HMM模型;在训练阶段,采用EM算法训练GMM,进而估计出模型参数;采用K‑means算法选择训练样本;采用Baum‑Welch算法,结合高斯概率密度函数拟合的观测序列概率分布,对GMM‑HMM模型参数进行训练,生成训练模型。在识别阶段,待识别的音频数据提取出MFCC特征参数,采用Viterbi算法将其与模型库中的各个模型进行特征概率匹配,匹配概率最大的模型即为识别结果。本发明的高速公路大型车辆识别方法,能够准确的识别出高速公路上各大型车辆。

Description

基于GMM-HMM的高速公路大型车辆识别方法
技术领域
本发明属于智能交通技术领域,特别涉及一种基于GMM-HMM的高速公路大型车辆识别方法。
背景技术
交通信息在交通管理中发挥着重要作用,高速公路交通信息的检测不力是导致目前高速公路交通拥堵、事故频发的重要原因。
当大型车辆在高速公路中处于长期运输状态时,大型车辆的安全性能就会受到影响,例如车辆制动和操作车辆时出现问题。它可能导致轮胎变形和穿刺,制动失灵,舵机闪烁等现象。因此,大型车辆在高速公路上的驾驶存在许多潜在的安全隐患。一旦引发高速公路交通事故,将严重影响人民的社会经济发展和安全生产,国民经济将遭受损失,高速公路上大型车辆的识别相当重要。
目前车辆识别的方式大多通过摄像机,摄像机存在着易受外部光线遮挡影响和图像分析的计算成本较高的不足。通过对高速公路交通的音频信号的研究,高速公路上可以获取各种类型的音频信号,例如车辆轮胎噪声、发动机噪音、喇叭声等,这些声音的累积可以用于有效监控道路的交通状况。因此,音频信号在监测高速公路交通信息的应用被证明是有效的。声学识别在高速公路的交通信息识别中具有一定的优势:不受照明条件的影响,天气条件的变化不会影响声学模型识别效果。此外,与摄像机相比,音频传感器对于公民隐私而言更便宜且侵入性更小。与图像处理相比,声学信号处理所需的计算负荷可能会降低,并且人们对基础设施中的集成需求将受到较少的限制。
在整个声音识别过程中,在特征提取完成之后,接下来要完成的任务时分类器的训练,要选择合适的模型。声音有很多的分类算法,常用的分类算法有最近邻法(NearestNeighbor,即NN)和动态时间规划(Dynamic Time Warping,即DTW)等,它们的主要原理是计算样本之间的相似度,根据相似度进行分类的过程,这些算法存在的缺点是计算存储空间需求较大,因为在声音的分类识别过程中,所有训练样本的特征向量都需要进行存储。随着统计学习算法的发展越来越成熟,统计学习算法被逐渐应用到声音识别的研究中。
有一种常用的统计学习算法是隐马尔可夫模型(Hidden Markov Model,即HMM),它主要是声音信号随时间变化的过程的模拟形式。它的组成部分包括马尔科夫链和随机观察值,其中,马尔科夫链的状态是有限的,每一个观察值都有一个与之相对应的状态,对于下一时刻的状态转移选择,主要依据的是状态转移概率矩阵,将两个随机过程的结合描述声音信号随时间变化的特性。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于GMM-HMM的高速公路大型车辆识别方法,实现对高速公路上的大型车辆进行识别。
为解决上述技术问题,本发明所采取的技术方案是:基于GMM-HMM的高速公路大型车辆识别方法,包括以下步骤:
步骤1:对音频信号进行降噪处理和特征提取,获得多维的高速公路大型车辆的音频信号特征向量,并采用高斯概率密度函数拟合各状态下的观测向量概率密度函数来表示这些连续变化的多维特征向量;
步骤1.1:利用基于小波变化的音频降噪算法,去除背景干扰,增强高速公路交通的音频信号的重要信息;
步骤1.2:利用基于经典模态分解加权的MFCC特征提取方法,对高速公路交通的音频信号用EMD分解代替,求得高速公路交通的音频信号MFCC的特征参数;
步骤1.3:采用高斯混合模型(Gaussian Mixture Model,即GMM)的高斯概率密度函数来拟合各状态下的观测向量Oj概率密度函数,以得到对高速公路大型车辆进行识别的GMM-HMM模型,如下公式所示:
Figure BDA0002044676700000021
其中,N为观测向量的长度,M是HMM中对应观测向量的隐含状态的高斯分量数,wij是隐含状态的第j个高斯分布的权值,μij是隐含状态的第j个高斯分布的均值向量,Cij是隐含状态的第j个高斯分布的协方差矩阵;gij(ot)是隐含状态的第j个高斯分布,此分布为一个多维正态随机变量概率密度函数,如下公式所示:
Figure BDA0002044676700000022
步骤1.4:将GMM-HMM模型用HMM模型相似的参数表示;将GMM-HMM模型的观测值状态转移概率矩阵由多维高斯密度函数建模,即gij(ot)的值由均值向量μij、协方差矩阵Cij以及混合权重wij表示;
步骤2:提取出音频数据的特征参数,采用K-means算法选择训练样本代表集,作为GMM-HMM模型的输入,然后进行模型训练,得到最终的模型库;
步骤2.1:采用K-means算法选择训练样本代表集;
步骤2.1.1:读取音频数据,进行人工辨别分类,每一个初始样本集代表同一类声音;
步骤2.1.1.1:读取第i′个样本ai′,对样本ai′进行降噪处理及MFCC参数的特征提取,获得相应的特征向量矩阵,a为训练样本初始集;
步骤2.1.1.2:对每一个特征向量矩阵求其均值向量代表该样本,获得n个均值向量集;
步骤2.1.1.3:对n个均值向量集分别进行K-means聚类处理,聚类数目根据实际情况进行选择;每一个均值向量集聚类得到Hl,Hl为聚类后样本集,1≤l≤n;
步骤2.1.2:从每一类中选择部分均值向量所对应的样本作为最终训练样本代表集,选择标准是计算该类中每个均值向量到该类中心距离的余弦值,将获得计算结果升序排序,选择第1+k*X/N′个均值向量作为该类的均值向量代表集si,s为训练样本代表集,m为训练样本代表集个数,X为类均值向量个数,N′为均值向量代表集中均值向量个数,0≤k≤N′-1;
步骤2.2:根据基于K-means的训练样本选择算法选择出来的样本,作为GMM-HMM模型的输入,然后进行模型训练得到模型库;
步骤2.2.1:将HMM模型的状态数设为5,初始状态概率矩阵分布为π=[1,0,0,0,0],每个状态的观测值数量设为3,初始的状态转移概率矩阵A如下公式所示:
Figure BDA0002044676700000031
步骤2.2.2:在训练模型过程中,将Baum-Welch算法和GMM参数估计的EM算法结合使用;对大型车辆和非大型车辆音频信号分别进行建模,并计算测试的音频信号属于哪一个类别的概率最大;通过Baum-Welch算法和EM算法不断计算观测值和估计值,直到模型收敛;
步骤3:对未知状态的音频数据样本进行处理;
步骤3.1:采用高斯函数对未知状态的音频信号进行拟合,作为HMM模型的输入;
步骤3.1.1:由Q个高斯模型线性组合得到的模型就是Q阶GMM,高斯模型属于正态分布,每个高斯模型就是一个高斯分量;因此,GMM的概率密度函数等价于Q个高斯模型概率密度函数的线性组合,其计算方法如下公式所示:
Figure BDA0002044676700000032
其中,O是一个n维随机向量,wq为混合权重,gq(O)为高斯分量,是一个n维的联合高斯概率分布,如下公式所示:
Figure BDA0002044676700000041
其中,μ′q为均值向量,∑qi为n*n协方差矩阵,|∑q||∑i|为协方差行列式值,ωq代表不同高斯之间的比重,并且满足归一化条件,如下公式所示:
Figure BDA0002044676700000042
步骤3.1.2:在GMM-HMM模型当中,一个完整的GMM参数包括均值向量、混合权重以及协方差矩阵,如下公式所示:
λ={ωq,μ′q,∑q},q=1,...,Q (7)
步骤3.1.3:对于输入向量O={o1,o2,......,oN},由如下公式计算混合高斯模型的对数似然度,其中N为观测向量的长度:
Figure BDA0002044676700000043
步骤3.2:对GMM-HMM模型的模型参数进行估计;
步骤3.2.1:对于长度为N的高速公路大型车辆的训练向量O={o1,o2,......,oN}来说,由以下公式计算其高斯混合模型的似然度;
Figure BDA0002044676700000044
步骤3.2.2:用EM算法求解似然度的最大值,即使期望最大化,具体过程如下:
步骤3.2.2.1:先给参数λ赋一个初始值,然后通过EM算法计算出一个λ的估计值记为λ′,新参数λ′需满足条件P(O|λ′)≥P(O|λ);参数通过λ′参数进行训练,训练过程循环迭代至模型收敛;训练过程中的参数估计计算方式如下:
wq的重估公式如下公式所示:
Figure BDA0002044676700000045
μ′q的重估公式如下公式所示:
Figure BDA0002044676700000046
其中,以上两个公式中的分量q的后验概率计算如下公式所示:
Figure BDA0002044676700000047
步骤3.2.2.2:方差的重估公式如公式12所示:
Figure BDA0002044676700000051
步骤4:将步骤3处理得到的未知状态的音频数据样本结果与训练获得的识别器模型库进行概率匹配计算,获得最终的识别结果,具体方法为:
步骤4.1:进行模型识别,模型匹配的概率计算用到Viterbi算法,使用Viterbi算法计算出一个最佳的状态序列,结果即为模型匹配概率最高所对应的模型;
步骤4.1.1:从t=1时刻开始,递归计算各个时刻下状态为s的路径中概率的最大值,计算方法如下公式所示:
Figure BDA0002044676700000052
其中,pt(s)是t时刻状态为s的各个路径(s1,s2,...,st)的最大概率值;由此推导出下一时刻中状态为s的路径中概率的最大值,计算方法如下公式所示:
Figure BDA0002044676700000053
其中,aks为状态转移概率矩阵A中k行s列,bs(ot+1)表示相应的观测状态转移概率矩阵中的值;
步骤4.1.2:求出一条最优路径S′=(s′1,......,s′T),从状态s′T开始由后往前迭代求各时刻下的路径s′T-1,...,s′1,,计算如下公式所示:
Figure BDA0002044676700000054
其中,aks表示状态转移概率矩阵A中k行s列值;
Figure BDA0002044676700000055
其中,ψt(e)为在时刻t状态为e的所有单个路径(e1,e2,...,et-1,e)中概率最大的路径的第t-1个节点,are为状态转移概率矩阵A中r行e列值;
步骤4.1.3:在t=T时刻的最大概率值为最优路径S′,如下公式所示:
Figure BDA0002044676700000056
步骤4.2:根据最大概率值判断音频信号是否来自大型车辆。
采用上述技术方案所产生的有益效果在于:本发明提供的基于GMM-HMM的高速公路大型车辆识别方法,提出了基于GMM-HMM的高速公路大型车辆识别模型,有效的保留了高速公路大型车辆的连续音频信号,因此,在高速公路大型车辆的识别过程中,使用带连续观测值概率密度函数的HMM比观测值为离散符号的HMM将更有优势,同时,HMM中包含的隐藏状态都是通过高斯混合模型描述的,高斯混合模型比概率密度分布具有更高精确性。基于K-means的训练样本选择算法进行HMM的训练样本选择,使选择后的训练样本具有相似性、非冗余性和全面性。
附图说明
图1为本发明实施例提供的基于GMM-HMM的高速公路大型车辆识别方法的流程图;
图2为本发明实施例提供的基于GMM-HMM的高速公路大型车辆识别模型的训练过程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,基于GMM-HMM的高速公路大型车辆识别方法,如图1所示,包括以下步骤:
步骤1:对音频信号进行降噪处理和特征提取,获得多维的高速公路大型车辆的音频信号特征向量,并采用高斯概率密度函数拟合各状态下的观测向量概率密度函数来表示这些连续变化的多维特征向量;
步骤1.1:利用基于小波变化的音频降噪算法,去除背景干扰,增强高速公路交通的音频信号的重要信息;
步骤1.2:利用基于经典模态分解加权的MFCC特征提取方法,对高速公路交通的音频信号用EMD分解代替,求得高速公路交通的音频信号MFCC的特征参数;
步骤1.3:采用高斯混合模型(Gaussian Mixture Model,即GMM)的高斯概率密度函数来拟合各状态下的观测向量Oj概率密度函数,以得到对高速公路大型车辆进行识别的GMM-HMM模型,如下公式所示:
Figure BDA0002044676700000061
其中,N为观测向量的长度,M是HMM中对应观测向量的隐含状态的高斯分量数,wij是隐含状态的第j个高斯分布的权值,μij是隐含状态的第j个高斯分布的均值向量,Cij是隐含状态的第j个高斯分布的协方差矩阵;gij(ot)是隐含状态的第j个高斯分布,此分布为一个多维正态随机变量概率密度函数,如下公式所示:
Figure BDA0002044676700000062
Figure BDA0002044676700000071
步骤1.4:将GMM-HMM模型用HMM模型相似的参数表示;将GMM-HMM模型的观测值状态转移概率矩阵由多维高斯密度函数建模,即gij(ot)的值由均值向量μij、协方差矩阵Cij以及混合权重wij表示;
步骤2:提取出音频数据的特征参数,采用K-means算法选择训练样本代表集,作为GMM-HMM模型的输入,然后进行模型训练,得到最终的模型库;
步骤2.1:采用K-means聚类算法选择训练样本代表集;
步骤2.1.1:读取音频数据,进行人工辨别分类,每一个初始样本集代表同一类声音;
步骤2.1.1.1:读取第i′个样本ai′,对样本ai′进行降噪处理及MFCC参数的特征提取,获得相应的特征向量矩阵,a为训练样本初始集;
步骤2.1.1.2:对每一个特征向量矩阵求其均值向量代表该样本,获得n个均值向量集;
步骤2.1.1.3:对n个均值向量集分别进行K-means聚类处理,聚类数目根据实际情况进行选择;每一个均值向量集聚类得到Hl,Hl为聚类后样本集,1≤l≤n;
步骤2.1.2:从每一类中选择部分均值向量所对应的样本作为最终训练样本代表集,选择标准是计算该类中每个均值向量到该类中心距离的余弦值,将获得计算结果升序排序,选择第1+k*X/N′个均值向量作为该类的均值向量代表集si,s为训练样本代表集,m为训练样本代表集个数,X为类均值向量个数,N′为均值向量代表集中均值向量个数,0≤k≤N′-1;
步骤2.2:根据基于K-means的训练样本选择算法选择出来的样本,作为GMM-HMM模型的输入,然后进行模型训练得到模型库;
步骤2.2.1:将HMM模型的状态数设为5,初始状态概率矩阵分布为π=[1,0,0,0,0],每个状态的观测值数量设为3,初始的状态转移概率矩阵A如下公式所示:
Figure BDA0002044676700000072
步骤2.2.2:在训练模型过程中,如图2所示,将Baum-Welch算法和GMM参数估计的EM算法结合使用;对大型车辆和非大型车辆音频信号分别进行建模,并计算测试的音频信号属于哪一个类别的概率最大;通过Baum-Welch算法和EM算法不断计算观测值和估计值,直到模型收敛;
步骤3:对未知状态的音频数据样本进行处理;
步骤3.1:采用高斯函数对未知状态的音频信号进行拟合,作为HMM模型的输入;
步骤3.1.1:由Q个高斯模型线性组合得到的模型就是Q阶GMM,高斯模型属于正态分布,每个高斯模型就是一个高斯分量;因此,GMM的概率密度函数等价于Q个高斯模型概率密度函数的线性组合,其计算方法如下公式所示:
Figure BDA0002044676700000081
其中,O是一个n维随机向量,wq为混合权重,gq(O)为高斯分量,是一个n维的联合高斯概率分布,如下公式所示:
Figure BDA0002044676700000082
其中,μ′q为均值向量,∑qi为n*n协方差矩阵,|∑q||∑i|为协方差行列式值,ωq代表不同高斯之间的比重,并且满足归一化条件,如下公式所示:
Figure BDA0002044676700000083
步骤3.1.2:在GMM-HMM模型当中,一个完整的GMM参数包括均值向量、混合权重以及协方差矩阵,如下公式所示:
λ={ωq,μ′q,∑q},q=1,...,Q (7)
步骤3.1.3:对于输入向量O={o1,o2,......,oN},由如下公式计算混合高斯模型的对数似然度,其中N为观测向量的长度:
Figure BDA0002044676700000084
步骤3.2:对GMM-HMM模型的模型参数进行估计;
步骤3.2.1:对于长度为N的高速公路大型车辆的训练向量O={o1,o2,......,oN}来说,由以下公式计算其高斯混合模型的似然度;
Figure BDA0002044676700000085
步骤3.2.2:用EM算法求解似然度的最大值,即使期望最大化,具体过程如下:
步骤3.2.2.1:先给参数λ赋一个初始值,然后通过EM算法计算出一个λ的估计值记为λ′,新参数λ′需满足条件P(O|λ′)≥P(O|λ);参数通过λ′参数进行训练,训练过程循环迭代至模型收敛;训练过程中的参数估计计算方式如下:
wq的重估公式如下公式所示:
Figure BDA0002044676700000086
μ′q的重估公式如下公式所示:
Figure BDA0002044676700000091
其中,以上两个公式中的分量q的后验概率计算如下公式所示:
Figure BDA0002044676700000092
步骤3.2.2.2:方差的重估公式如公式12所示:
Figure BDA0002044676700000093
步骤4:将步骤3处理得到的未知状态的音频数据样本结果与训练获得的识别器模型库进行概率匹配计算,获得最终的识别结果,具体方法为:
步骤4.1:进行模型识别,模型匹配的概率计算用到Viterbi算法,使用Viterbi算法计算出一个最佳的状态序列,结果即为模型匹配概率最高所对应的模型;
步骤4.1.1:从t=1时刻开始,递归计算各个时刻下状态为s的路径中概率的最大值,计算方法如下公式所示:
Figure BDA0002044676700000094
其中,pt(s)是t时刻状态为s的各个路径(s1,s2,...,st)的最大概率值;由此推导出下一时刻中状态为s的路径中概率的最大值,计算方法如下公式所示:
Figure BDA0002044676700000095
其中,aks为状态转移概率矩阵A中k行s列值,bs(ot+1)表示相应的观测状态转移概率矩阵中的值;
步骤4.1.2:求出一条最优路径S′=(s′1,......,s′T),从状态s′T开始由后往前迭代求各时刻下的路径s′T-1,...,s′1,,计算如下公式所示:
Figure BDA0002044676700000096
Figure BDA0002044676700000097
其中,ψt(e)为在时刻t状态为e的所有单个路径(e1,e2,...,et-1,e)中概率最大的路径的第t-1个节点,are为状态转移概率矩阵A中r行e列值;
步骤4.1.3:在t=T时刻的最大概率值为最优路径S′,如下公式所示:
Figure BDA0002044676700000098
步骤4.2:根据最大概率值判断音频信号是否来自大型车辆。
本实施例使用MATLAB软件进行实验仿真,软件运行在HPZ820工作站上,工作站的性能详细参数如表4.1所示,编程仿真软件为MATLAB2012版本。实验的音频数据是室外道路实况录制,采集环境为正常天气(不包含雨雪天气),采集时间段为08:00到19:00之间,所有的音频数据都先通过音频编辑软件Cool Edit Pro 2.0统一转换为采样率为48KHz单声道的wav格式的音频。其中音频数据总样本数量为200个,大型车辆音频样本数量为120个,非大型车辆音频样本数量为80个;选取80%的样本作为训练集,选取20%的样本作为测试集。
表1 HPZ820服务器性能参数表
性能指标 性能参数
CPU类型 四核至强E5-2603
CPU主频 1.8GHz
CPU线程数 24线程
内存类型 DDR3-1333 ECC
内存容量 8GB
硬盘类型 15000转SAS硬盘
硬盘容量 300GB
带宽 1000Mbps
在测试阶段,输入一段类型已知的音频数据,进行降噪处理,然后提取其特征向量,构造特征向量集,并将其输入到训练好的识别模型中。识别模型给出待识别的音频数据的识别结果,并且参考已知的类别信息,确定识别模型的识别结果是否正确,并记录结果。最后,统计识别模型的准确度,识别准确度由识别精度测量,识别精度计算如下公式所示:
Figure BDA0002044676700000101
其中,P代表分类精度,C代表分类结果正确的样本数,S代表总的样本数。
本实施例首先K-means中聚类数目对识别准确率的影响进行分析,确定识别准确率最高时的聚类数目,具体为:
在K-means聚类中,不能自动获取聚类的个数,因此,不同的聚类数目对得模型识别准确率效果有很大影响,而且非大型车辆音频信号的复杂性比大型车辆音频信号的复杂性要大得多,因此本实施例讨论了大型车辆和非大型车辆对训练样本选择的影响。特征参数是由基于经典模态分解的MFCC特征参数提取算法提取的MFCC参数,结合了基于小波变换的高速公路多音频信号降噪处理的音频降噪。表2是模型识别准确率在不同聚类类别数目下的实验结果,从表2可以看出,不同的聚类数目,识别准确率也存在着差异,当聚类数目为8时,聚类效果最佳,识别准确率最高。因此,设定8为K-means的聚类数目并用于后续仿真实验。
表2不同聚类数目时K-means聚类标注的识别准确率
Figure BDA0002044676700000111
本实施例中,基于小波变换的高速公路多音频信号降噪算法进行降噪处理,然后使用基于经典模态分解加权的MFCC特征提取算法进行特征参数提取,将MFCC参数特征向量,作为识别模型的输入参数。
针对大型车辆和非大型车辆的音频信号特征,共选取160个训练样本数据,大型车辆音频数据有96个,非大型车辆有64个,分别来进行高斯混合隐马尔可夫模型库建立。原始音频信号经过降噪算法和特征提取进行前期处理后,获得不同音频信号的特征向量,然后利用K-means进行训练样本选择,生成一系列观测向量,作为高斯混合隐马尔科夫模型的输入样本。再通过Baum-Welch算法进行参数训练,得到获得大型车辆和非大型车辆的GMM-HMM模型库。通过Viterbi算法计算在HMM模型中各个状态产生观察序列的概率,找出观测序列最可能的隐藏状态。当前的音频信号测试数据,经过降噪处理和特征提取后,作为HMM模型库的输入观测矢量,计算在HMM库观测矢量出现的概率,结果是最大概率所对应的状态。
本实施例对16个测试样本进行了测试,根据Vertibi算法,可以计算出测试数据在高斯混合隐马尔科夫模型库出现的最大概率,表3和表4分别表示为测试样本对已经建立的大型车辆和非大型车辆的高斯混合隐马尔科夫模型测试结果,从表3和表4可以看出,大型车辆音频信号作为测试样本输出的最大概率值为0.7841,大型车辆音频信号作为测试样本输出的最大概率值为0.7558。
表3大型车辆音频信号对GMM-HMM的测试
Figure BDA0002044676700000112
Figure BDA0002044676700000121
表4非大型车辆音频信号对GMM-HMM的测试
Figure BDA0002044676700000122
在声音识别研究中,目前的应用较广的分类器模型是神经网络模型。本实施例还将本发明方法与神经网络模型进行对比实验并分析实验结果;其中,采用BP神经网络模型进行神经网络识别。BP神经网络中的激活函数选为Sigmoid函数,初始权值取值范围为(-1,1),学习率取值为0.01,输入层节点取值为8,隐藏层节点取值为17,输出层节点为2。确定BP神经网络结构后,选取80%的训练数据集进行神经网络模型训练。
针对大型车辆和非大型车辆的音频信号进行分帧加窗和MFCC特征参数的提取,将提取出的大型车辆和非大型车辆的特征向量作为神经网络的输入分别进行训练,得到高速公路大型车辆和非大型车辆的BP神经网络模型。采用40个测试数据分别用于本发明方法与神经网络的性能测试,测试结果如表5所示。通过对表5分析可知,本发明方法对于大型车辆的误判数目为2个,识别准确率为91.67%,对于非大型车辆的误判数目为2个,识别准确率为87.5%,综合识别率为89.56%;BP神经网络模型大型车辆的误判数目为2个,识别准确率为91.67%,对于非大型车辆的误判数目为3个,识别准确率为81.25%,综合识别率为86.46%。
对本发明方法与BP神经网络模型的实验结果进行分析可得:虽然两者都具有学习和自适应的能力,但对比实验结果,针对于高速公路大型车辆的识别问题,本发明方法的识别准确率高于BP神经网络;本发明方法中,提出了基于K-means的训练样本选择算法,模型训练所需样本数量少于BP神经网络模型训练所需样本数量,训练速度更快;并且本发明方法所描述的是一个随机过程,相比于神经网络模型而言,更适用于高速公路大型车辆的识别检测,而BP神经网络更适合于静态模式的分类。
表5不同模型识别率性能对比
Figure BDA0002044676700000131
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (5)

1.一种基于GMM-HMM的高速公路大型车辆识别方法,其特征在于:包括以下步骤:
步骤1:对音频信号进行降噪处理和特征提取,获得多维的高速公路大型车辆的音频信号特征向量,并采用高斯概率密度函数拟合各状态下的观测向量概率密度函数来表示这些连续变化的多维特征向量;
步骤1.1:利用基于小波变化的音频降噪算法,去除背景干扰,增强高速公路交通的音频信号的重要信息;
步骤1.2:利用基于经典模态分解加权的MFCC特征提取方法,对高速公路交通的音频信号用EMD分解代替,求得高速公路交通的音频信号MFCC的特征参数;
步骤1.3:采用高斯混合模型GMM的高斯概率密度函数来拟合各状态下的观测向量的概率密度函数,以得到对高速公路大型车辆进行识别的GMM-HMM模型;
步骤1.4:将GMM-HMM模型用HMM模型相似的参数表示;将GMM-HMM模型的观测值状态转移概率矩阵由多维高斯密度函数建模,即gij(ot)的值由均值向量μij、协方差矩阵Cij以及混合权重wij表示;
步骤2:提取出音频数据的特征参数,采用K-means算法选择训练样本代表集,作为GMM-HMM模型的输入,然后进行模型训练,得到最终的模型库;
步骤2.1:采用K-means算法选择训练样本代表集;
步骤2.1.1:读取音频数据,进行人工辨别分类,每一个初始样本集代表同一类声音;
步骤2.1.1.1:读取第i′个样本ai′,对样本ai′进行降噪处理及MFCC参数的特征提取,获得相应的特征向量矩阵,a为训练样本初始集;
步骤2.1.1.2:对每一个特征向量矩阵求其均值向量代表该样本,获得n个均值向量集;
步骤2.1.1.3:对n个均值向量集分别进行K-means聚类处理,聚类数目根据实际情况进行选择;每一个均值向量集聚类得到Hl,Hl为聚类后样本集,1≤l≤n;
步骤2.1.2:从每一类中选择部分均值向量所对应的样本作为最终训练样本代表集,选择标准是计算该类中每个均值向量到该类中心距离的余弦值,将获得计算结果升序排序,选择第1+k*X/N′个均值向量作为该类的均值向量代表集si,s为训练样本代表集,m为训练样本代表集个数,X为类均值向量个数,N′为均值向量代表集中均值向量个数,0≤k≤N′-1;
步骤2.2:根据基于K-means的训练样本选择算法选择出来的样本,作为GMM-HMM模型的输入,然后进行模型训练得到模型库;
步骤2.2.1:将HMM模型的状态数设为5,初始状态概率矩阵分布为π=[1,0,0,0,0],每个状态的观测值数量设为3,初始的状态转移概率矩阵A如下公式所示:
Figure FDA0002810834190000021
步骤2.2.2:在训练模型过程中,将Baum-Welch算法和GMM参数估计的EM算法结合使用;对大型车辆和非大型车辆音频信号分别进行建模,并计算测试的音频信号属于哪一个类别的概率最大;通过Baum-Welch算法和EM算法不断计算观测值和估计值,直到模型收敛;
步骤3:对未知状态的音频数据样本进行处理;
步骤3.1:采用高斯函数对未知状态的音频信号进行拟合,作为HMM模型的输入;
步骤3.2:对GMM-HMM模型的模型参数进行估计;
步骤4:将步骤3处理得到的未知状态的音频数据样本结果与训练获得的识别器模型库进行概率匹配计算,获得最终的识别结果,具体方法为:
步骤4.1:进行模型识别,模型匹配的概率计算用到Viterbi算法,使用Viterbi算法计算出一个最佳的状态序列,结果即为模型匹配概率最大所对应的模型;
步骤4.2:根据最大概率值判断音频信号是否来自大型车辆。
2.根据权利要求1所述的基于GMM-HMM的高速公路大型车辆识别方法,其特征在于:步骤1.3所述采用高斯混合模型GMM的高斯概率密度函数来拟合各状态下的观测向量Oj概率密度函数,如下公式所示:
Figure FDA0002810834190000022
其中,N为观测向量的长度,M是HMM中对应观测向量的隐含状态的高斯分量数,wij是隐含状态的第j个高斯分布的权值,μij是隐含状态的第j个高斯分布的均值向量,Cij是隐含状态的第j个高斯分布的协方差矩阵;gij(ot)是隐含状态的第j个高斯分布,此分布为一个多维正态随机变量概率密度函数,如下公式所示:
Figure FDA0002810834190000023
3.根据权利要求2所述的基于GMM-HMM的高速公路大型车辆识别方法,其特征在于:所述步骤3.1的具体方法为:
步骤3.1.1:由Q个高斯模型线性组合得到的模型就是Q阶GMM,高斯模型属于正态分布,每个高斯模型就是一个高斯分量;因此,GMM的概率密度函数等价于Q个高斯模型概率密度函数的线性组合,其计算方法如下公式所示:
Figure FDA0002810834190000031
其中,O是一个n维随机向量,wq为混合权重,gq(O)为高斯分量,是一个n维的联合高斯概率分布,如下公式所示:
Figure FDA0002810834190000032
其中,μ′q为均值向量,∑qi为n*n协方差矩阵,|∑q||∑i|为协方差行列式值,ωq代表不同高斯之间的比重,并且满足归一化条件,如下公式所示:
Figure FDA0002810834190000033
步骤3.1.2:在GMM-HMM模型当中,一个完整的GMM参数包括均值向量、混合权重以及协方差矩阵,如下公式所示:
λ={ωq,μ′q,∑q},q=1,...,Q (7)
步骤3.1.3:对于输入向量O={o1,o2,......,oN},由如下公式计算混合高斯模型的对数似然度,其中N为观测向量的长度:
Figure FDA0002810834190000034
4.根据权利要求3所述的基于GMM-HMM的高速公路大型车辆识别方法,其特征在于:所述步骤3.2的具体方法为:
步骤3.2.1:对于长度为N的高速公路大型车辆的训练向量O={o1,o2,......,oN}来说,由以下公式计算其高斯混合模型的似然度;
Figure FDA0002810834190000035
步骤3.2.2:用EM算法求解似然度的最大值,即使期望最大化;
步骤3.2.2.1:先给参数λ赋一个初始值,然后通过EM算法计算出一个λ的估计值记为λ′,新参数λ′需满足条件P(O|λ′)≥P(O|λ);参数通过λ′参数进行训练,训练过程循环迭代至模型收敛;训练过程中的参数估计计算方式如下:
wq的重估公式如下公式所示:
Figure FDA0002810834190000041
μ′q的重估公式如下公式所示:
Figure FDA0002810834190000042
其中,以上两个公式中的分量q的后验概率计算如下公式所示:
Figure FDA0002810834190000043
步骤3.2.2.2:方差的重估公式如下公式所示:
Figure FDA0002810834190000044
5.根据权利要求4所述的基于GMM-HMM的高速公路大型车辆识别方法,其特征在于:所述步骤4.1的具体方法为:
步骤4.1.1:从t=1时刻开始,递归计算各个时刻下状态为s的路径中概率的最大值,计算方法如下公式所示:
Figure FDA0002810834190000045
其中,pt(s)是i时刻状态为s的各个路径(s1,s2,...,st)的最大概率值;由此推导出下一时刻中状态为s的路径中概率的最大值,计算方法如下公式所示:
Figure FDA0002810834190000046
其中,aks为状态转移概率矩阵A中k行s列值,bs(ot+1)表示相应的观测状态转移概率矩阵中的值;
步骤4.1.2:求出一条最优路径S′=(s′1,......,s′T),从状态s′T开始由后往前迭代求各时刻下的路径s′T-1,...,s′1,,计算如下公式所示:
Figure FDA0002810834190000047
Figure FDA0002810834190000048
其中,ψt(e)为在时刻t状态为e的所有单个路径(e1,e2,…,et-1,e)中概率最大的路径的第t-1个节点,are为状态转移概率矩阵A中r行e列值;
步骤4.1.3:在t=T时刻的最大概率值为最优路径S′,如下公式所示:
Figure FDA0002810834190000051
CN201910353445.0A 2019-04-29 2019-04-29 基于gmm-hmm的高速公路大型车辆识别方法 Active CN110120218B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910353445.0A CN110120218B (zh) 2019-04-29 2019-04-29 基于gmm-hmm的高速公路大型车辆识别方法
PCT/CN2019/090876 WO2020220440A1 (zh) 2019-04-29 2019-06-12 基于gmm-hmm的高速公路大型车辆识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910353445.0A CN110120218B (zh) 2019-04-29 2019-04-29 基于gmm-hmm的高速公路大型车辆识别方法

Publications (2)

Publication Number Publication Date
CN110120218A CN110120218A (zh) 2019-08-13
CN110120218B true CN110120218B (zh) 2021-06-22

Family

ID=67521678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910353445.0A Active CN110120218B (zh) 2019-04-29 2019-04-29 基于gmm-hmm的高速公路大型车辆识别方法

Country Status (2)

Country Link
CN (1) CN110120218B (zh)
WO (1) WO2020220440A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028859A (zh) * 2019-12-15 2020-04-17 中北大学 一种基于音频特征融合的杂交神经网络车型识别方法
CN111402616B (zh) * 2020-02-20 2022-01-04 西安电子科技大学 智能停车控制方法、系统、存储介质、终端
CN111428816B (zh) * 2020-04-17 2023-01-20 贵州电网有限责任公司 一种非侵入式负荷分解方法
CN111914614A (zh) * 2020-05-25 2020-11-10 广州杰赛科技股份有限公司 一种车辆智能化识别方法、装置及存储介质
CN113761996B (zh) * 2020-08-21 2023-11-07 北京京东振世信息技术有限公司 一种火灾识别方法和装置
CN112466299B (zh) * 2020-11-26 2023-11-17 广东工业大学 一种声音主题识别方法
CN112634942B (zh) * 2020-12-28 2022-05-17 深圳大学 一种手机录音原始性的鉴定方法、存储介质及设备
CN112927716A (zh) * 2021-01-22 2021-06-08 华东交通大学 一种基于改进mfcc的工地特种车辆识别方法
CN113192322B (zh) * 2021-03-19 2022-11-25 东北大学 一种基于云边协同的高速公路交通流量计数方法
CN113723221B (zh) * 2021-08-11 2023-09-08 西安交通大学 基于WiFi信道状态信息的室内行为实时识别方法及系统
CN114329342B (zh) * 2021-12-20 2024-02-06 中交第二公路勘察设计研究院有限公司 基于极值-高斯混合分布模型的高速公路通行能力计算方法
CN117357073B (zh) * 2023-12-07 2024-04-05 北京清雷科技有限公司 基于gmm-hmm模型的睡眠分期方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息系统有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
WO2015102921A1 (en) * 2014-01-03 2015-07-09 Gracenote, Inc. Modifying operations based on acoustic ambience classification
CN106782510A (zh) * 2016-12-19 2017-05-31 苏州金峰物联网技术有限公司 基于连续混合高斯hmm模型的地名语音信号识别方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2707174B2 (ja) * 1991-09-19 1998-01-28 沖電気工業株式会社 エンジン音からの車種判別方法
JP3132705B2 (ja) * 1994-05-20 2001-02-05 株式会社エフ・エフ・シー 交通情報計測装置
CN102693724A (zh) * 2011-03-22 2012-09-26 张燕 一种基于神经网络的高斯混合模型的噪声分类方法
CN102682765B (zh) * 2012-04-27 2013-09-18 中咨泰克交通工程集团有限公司 高速公路音频车辆检测装置及其方法
CN102799899B (zh) * 2012-06-29 2014-12-10 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
CN103473932B (zh) * 2013-09-06 2016-01-20 中山大学 一种结合振荡标线的音频信号车型识别系统
CN104916289A (zh) * 2015-06-12 2015-09-16 哈尔滨工业大学 行车噪声环境下快速声学事件的检测方法
CN108305616B (zh) * 2018-01-16 2021-03-16 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息系统有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
WO2015102921A1 (en) * 2014-01-03 2015-07-09 Gracenote, Inc. Modifying operations based on acoustic ambience classification
CN106782510A (zh) * 2016-12-19 2017-05-31 苏州金峰物联网技术有限公司 基于连续混合高斯hmm模型的地名语音信号识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于MFCC的异常声音识别技术研究;王梁;《中国优秀硕士学位论文全文数据库信息科技辑》;20180315(第2018/03期);第5页第3段,第57页第2段 *

Also Published As

Publication number Publication date
WO2020220440A1 (zh) 2020-11-05
CN110120218A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN110120218B (zh) 基于gmm-hmm的高速公路大型车辆识别方法
US11900947B2 (en) Method and system for automatically diarising a sound recording
WO2020220439A1 (zh) 基于深度神经网络的高速公路交通流量状态识别方法
US7263485B2 (en) Robust detection and classification of objects in audio using limited training data
US7245767B2 (en) Method and apparatus for object identification, classification or verification
US8838452B2 (en) Effective audio segmentation and classification
CN111754988B (zh) 基于注意力机制和双路径深度残差网络的声场景分类方法
CN104795064B (zh) 低信噪比声场景下声音事件的识别方法
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
CN108831506B (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
Reynolds et al. A study of new approaches to speaker diarization.
CN108538312B (zh) 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
US20120232900A1 (en) Speaker recognition from telephone calls
Wu et al. Multiple change-point audio segmentation and classification using an MDL-based Gaussian model
Le et al. Speaker diarization using normalized cross likelihood ratio.
CN111666996B (zh) 一种基于attention机制的高精度设备源识别方法
CN111986699A (zh) 基于全卷积网络的声音事件检测方法
Bassiou et al. Speaker diarization exploiting the eigengap criterion and cluster ensembles
Sun et al. Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization
Xia et al. Confidence based acoustic event detection
Moh et al. Towards domain independent speaker clustering
CN115457966A (zh) 基于改进ds证据理论多分类器融合的猪咳嗽声识别方法
CN104575495A (zh) 一种采用总变化量因子的语种识别方法及系统
Baelde et al. A mixture model-based real-time audio sources classification method
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211231

Address after: 110136 No. 131, gouziyan Road, Shenbei New District, Shenyang City, Liaoning Province

Patentee after: DIXN TECHNOLOGY CO.,LTD.

Address before: 110819 No. 3 lane, Heping Road, Heping District, Shenyang, Liaoning 11

Patentee before: Northeastern University

TR01 Transfer of patent right