CN101980336B

CN101980336B - 一种基于隐马尔可夫模型的汽车声音识别方法

Info

Publication number: CN101980336B
Application number: CN2010105104282A
Authority: CN
Inventors: 王子亮; 陈铮
Original assignee: FUZHOU STARNET EVIDEO INFORMATION SYSTEM Co Ltd
Current assignee: Fujian Star Net eVideo Information Systems Co Ltd
Priority date: 2010-10-18
Filing date: 2010-10-18
Publication date: 2012-01-11
Anticipated expiration: 2030-10-18
Also published as: CN101980336A

Abstract

本发明提供一种基于隐马尔可夫模型的汽车声音识别方法，先对车辆声音数据进行归一化、分帧、加窗、去噪等预处理，然后利用美尔倒谱(MFCC)算法提取车辆声音的特征参数；再利用隐马尔科夫模型算法(HMM)对每一部车辆声音样本进行训练，并建立相应的模型，加入模板库；将待识别车辆声音经预处理、求取MFCC特征系数后，与模板库中的所有样本一一匹配，得到最佳匹配值所对应的样本即为识别结果。本发明通过车辆声音识别方法准确识别不同车辆，便于车辆管理，可应用于小区或单位的门禁系统等场景，具有极好的应用前景。

Description

一种基于隐马尔可夫模型的汽车声音识别方法

【技术领域】

本发明涉及一种音频处理和模式识别技术领域，尤其涉及一种基于隐马尔可夫模型的汽车声音识别方法。

【背景技术】

HMM(隐马尔可夫模型)是马尔可夫链的一种，它的状态不能直接观察到，但能通过观测向量序列观察到，每个观测向量都是通过某些概率密度分布表现为各种状态，每一个观测向量是由一个具有响应概率密度分布的状态序列产生。所以，隐马尔可夫模型是一个双重随机过程----具有一定状态数的隐马尔可夫链和显示随机函数集。自20世纪80年代以来，HMM被应用于语音识别，取得重大成功。到了90年代，HMM还被引入计算机文字识别和移动通信核心技术“多用户的检测”。近年来，HMM在生物信息科学、故障诊断等领域也开始得到应用。

随着人们生活水平的不断提高，车辆在不断的增多，很多小区和单位对车辆的管理都不是很有条理，现有技术一般都是人为的对车辆进行管理，在此提出利用识别车辆声音的方法来更好的管理车辆，该方法嵌入到门禁系统中，可以统计识别不同车辆进出数据。车辆音频信号与语音信号一样都是随时间变化的，即使是同一辆车在不同时刻不同地点产生的音频信号都是不同的，这表明车辆音频信号的不确定性，它只具有统计的确定性，为描述这种音频信号随时间变化的特性，采用状态的概念是比较恰当的，音频信号特征的变化表现为从一个状态到另一个状态的转移，特征从一个状态到另一个状态只是以一定的概率转移。因此，用隐马尔可夫模型可以很好的表示这一转移过程。车辆声音识别的过程首先用美尔倒谱(MFCC)算法提取车辆声音的特征参数，其中MFCC是在Mel度频率域提取出来的倒谱参数。Mel标度描述了人耳对频率感知的非线性特征，它与频率的关系可近似表示为Mel (f)＝2595*log(1+f/700)其中f为频率，单位是Hz。同时MFCC分析着眼于人耳的听觉机理，依据听觉实验的结果来分析声音的频谱，获得了较高的识别率和较好的噪声鲁棒性。MFCC的计算是：先把信号变换到频域得到线性频谱，再经过一组的Mel滤波器组，得到能够模拟人耳听觉特性的非线性频谱，然后取对数变换，压缩音谱的动态范围，最后作DCT变换。

【发明内容】

本发明要解决的技术问题，在于提供一种基于隐马尔可夫模型的汽车声音识别方法，通过车辆声音识别方法准确识别不同车辆，便于车辆管理，可应用于小区或单位的门禁系统等场景，具有极好的应用前景。

本发明是这样实现的：一种基于隐马尔可夫模型的汽车声音识别方法，其特征在于：包括以下步骤：

步骤10、基本预处理：将采集的车辆音频信号进行归一化，再将音频信号中的数据划分成N个帧，并对每个帧进行加海明窗滤波；

步骤20、去噪处理：将音频信号在频域中根据公式

| {\hat{S}}_{w} (ω) | = {[{| Y_{w} (ω) |}^{a} - b {| {\hat{N}}_{w} (ω) |}^{a}]}^{\frac{1}{a}}

算出信号的功率谱，其中Y_w(ω)表示带噪信号功率，N_w(ω)表示噪声功率，表示信号的功率谱，其中下标w是表示经过加窗处理后的信号，a为谱减功率修正系数，b为谱减噪声系数，获得信号的功率谱

通过相位恢复后再采用逆傅里叶变换来恢复时域信号；

步骤30、对每个帧计算MFCC系数，获得车辆声音12维特征参数，再根据公式

d (n) = \frac{1}{\sqrt{Σ_{i = - k}^{k} i^{2}}} Σ_{i = - k}^{k} i \cdot c (n + i) (n = 3,4, . . . T - 2)

计算帧间差分系数，其中c和d都表示一帧声音参数，T表示总帧数；k为常数，将差分系数追加至原12维的MFCC系数末尾，并去除所有帧的首两帧和末两帧系数，得到24维的车辆声音特征参数；

步骤40、用HMM模型对不同的汽车声音样本一一进行建模，将HMM模型参数(N，π，A，B)初始化，其中状态数N取整数1到4，初始概率π为[1 0 0 0]，状态转移概率A取为

[\begin{matrix} 0.5 & 0.5 & 0 & 0 \\ 0 & 0.5 & 0.5 & 0 \\ 0 & 0 & 0.5 & 0.5 \\ 0 & 0 & 0 & 1 \end{matrix}]

根据混合高斯函数：

b_{j} (O) = Σ_{i = 1}^{M} c_{ji} N (O, μ_{ji}, U_{ji})

求出参数B，B是状态输出观测值的概率，其中N是高斯概率密度函数，O是声音的特征系数帧即观察序列，μ、U、c、分别是均值、方差、以及权重系数，M是每个状态包含的高斯混元个数，先对观察序列的参数分成N段，然后用K均值聚类算法初始化各状态的混合高斯概率密度函数中的均值、方差和权系数。

步骤50、初始化模型参数，并设置迭代次数，用Viterbi算法计算HMM输出所有训练声音观测序列的概率P(O/λ)，并累加得到∑₁中，再用Baum-Welch算法对模型参数进行重估，得到

再用Viterbi算法计算HMM输出所有训练声音观测序列的概率

并累加得到∑₂，将∑₁和∑₂结果进行比较，判断差值是否小于预设阈值？是，则无需进行重估计算，将

作为计算结果输出，否则将

作为新的初值代入P(O/λ)中的λ做新一轮运算，将所有汽车声音的样本进行如上处理后导入到参考模板库中。

步骤60、进行识别：先对待测车辆音频信号进行预处理，求出24维MFCC特征参数，即所述的观察序列，然后利用viterbi算法求参考模板库中各个HMM模型输出该观测序列的概率

其中

最大的HMM模型所对应的汽车声音样本即为识别结果。

本发明具有如下优点：对车辆声音数据进行归一化、分帧、加窗、去噪等预处理，然后利用美尔倒谱(MFCC)算法提取车辆声音的特征参数；再利用隐马尔科夫模型算法(HMM)对每一部车辆声音样本进行训练，并建立相应的模型，加入模板库；将待识别车辆声音经预处理、求取MFCC特征系数后，与模板库中的所有样本一一匹配，得到最佳匹配值所对应的样本即为识别结果。本发明通过车辆声音识别方法准确识别不同车辆，便于车辆管理，可应用于小区或单位的门禁系统等场景，具有极好的应用前景。

【附图说明】

图1为本发明方法流程示意图。

图2为本发明HMM模型训练流程。

图3为本发明车辆音频信号的识别过程。

【具体实施方式】

下面参照图1结合实施例对本发明作进一步的说明：

一种基于隐马尔可夫模型的汽车声音识别方法，包括以下步骤：

步骤10、先是基本预处理：将采集的车辆音频信号进行归一化(归一化就是找出信号绝对值的最大值，将原信号除以该值，使信号的的正负幅值限制在-1和+1之间)，再将音频信号中的数据划分成N个帧，一般每个帧包含1024个声音采样点，并且相邻帧之间有512个采样点的重合，再将每个帧进行加海明窗滤波以减少后续变换到频域后造成的频谱泄露；

步骤20：进行去噪处理，通常采集发动机声音时会混入环境噪声，如雨声等，影响后续识别率，因此必须去除，将音频信号在频域中根据公式

| {\hat{S}}_{w} (ω) | = {[{| Y_{w} (ω) |}^{a} - b {| {\hat{N}}_{w} (ω) |}^{a}]}^{\frac{1}{a}}

算出信号的功率谱，其中Y_w(ω)表示带噪信号功率，

表示噪声功率，

表示信号的功率谱，其中下标w是表示经过加窗处理后的信号，a为谱减功率修正系数，b为谱减噪声系数，获得信号的功率谱

通过相位恢复后再采用逆傅里叶变换来恢复时域信号。

d (n) = \frac{1}{\sqrt{Σ_{i = - k}^{k} i^{2}}} Σ_{i = - k}^{k} i \cdot c (n + i), (n = 3,4, . . . T - 2)

计算帧间差分系数，其中c和d都表示一帧声音参数，k为常数(通常取为2)，此时差分系数表示当前帧的前两帧和后两帧参数的线性组合，将差分系数追加至原12维的MFCC系数末尾，并去除所有帧的首两帧和末两帧系数，得到24维的车辆声音特征参数。

步骤40、用HMM模型对所有汽车的声音样本一一进行建模，将HMM模型参数(N，π，A，B)初始化，其中状态数N是整数1到4，初始概率为[1 0 0 0]，状态转移概率A为

[\begin{matrix} 0.5 & 0.5 & 0 & 0 \\ 0 & 0.5 & 0.5 & 0 \\ 0 & 0 & 0.5 & 0.5 \\ 0 & 0 & 0 & 1 \end{matrix}]

根据混合高斯函数：

求出参数B，B是状态输出观测值的概率，其中N是高斯概率密度函数，O是声音的特征系数帧即观察序列，μ、U、c、分别是均值、方差、以及权重系数，M是每个状态包含的高斯混元个数。其中各状态的混合高斯概率密度函数中的均值、方差和权系数的初始化采用K均值聚类算法，首先要把观察序列的参数分成N段，其分段方法包括如下步骤：

步骤401、根据公式

d_{t} = Σ_{n = 1}^{p} n^{2} {(C_{t + 1} (n) - C_{t} (n))}^{2}, (t = 1,2, . . ., T - 1)

计算观察序列相邻两帧之间的距离d_t，其中C表示特征参数，p为MFCC特征参数的阶数，T为观察序列的帧数。

步骤402、从数组d_t中找出N-1个极大值。

步骤403、采用N-1个极大值为分割点将观察序列O分成N段，每一段对应一个状态。

步骤404、分段后将所有所述的观察序列中属于同一个段的参数组成一个大的矩阵，再用K均值聚类算法把该矩阵中的所有训练帧分成M类(M取值视情况而定)，然后对同一类中各声音系数帧矢量求均值及方差，作为该类所对应的高斯混元的均值μ和方差U，用每一类中包含的声音系数帧数除以该状态的声音系数帧总数，即得到各类所对应的高斯混元的权重系数c。

步骤50、初始化模型参数，并设置迭代次数，见图3进行HMM模型训练流程，用Viterbi算法计算HMM输出所有训练声音观测序列的概率P(O/λ)，并累加得到∑₁中，再用Baum-Welch算法对模型参数进行重估，得到

再用Viterbi算法计算HMM输出所有训练声音观测序列的概率

作为计算结果输出，否则将作为新的初值代入P(O/λ)中的λ做新一轮运算。将所有汽车声音的样本进行如上处理后导入到参考模板库中。

其中

最大的HMM模型所对应的汽车声音样本即为识别结果。

以上所述仅为本实发明的较佳实施例，凡依本实发明申请专利范围所做的均等变化与修饰，皆应属本实发明的涵盖范围。

Claims

1.一种基于隐马尔可夫模型的汽车声音识别方法，其特征在于：包括以下步骤：

步骤20、去噪处理：将音频信号在频域中根据公式

| {\hat{S}}_{w} (ω) | = {[{| Y_{w} (ω) |}^{a} - b {| {\hat{N}}_{w} (ω) |}^{a}]}^{\frac{1}{a}}

通过相位恢复后再采用逆傅里叶变换来恢复时域信号；

d (n) = \frac{1}{\sqrt{Σ_{i = - k}^{k} i^{2}}} Σ_{i = - k}^{k} i \cdot c (n + i) (n = 3,4, . . . T - 2)

[\begin{matrix} 0.5 & 0.5 & 0 & 0 \\ 0 & 0.5 & 0.5 & 0 \\ 0 & 0 & 0.5 & 0.5 \\ 0 & 0 & 0 & 1 \end{matrix}]

根据混合高斯函数：

b_{j} (O) = Σ_{i = 1}^{M} c_{ji} N (O, μ_{ji}, U_{ji})

求出参数B，B是状态输出观测值的概率，其中N是高斯概率密度函数，O是声音的特征系数帧即观察序列，μ、U、c、分别是均值、方差、以及权重系数，M是每个状态包含的高斯混元个数，先对观察序列的参数分成N段，然后用K均值聚类算法初始化各状态的混合高斯概率密度函数中的均值、方差和权系数；

步骤50、初始化模型参数，并设置迭代次数，用Viterbi算法计算HMM输出所有训练声音观测序列的概率P(O/λ)，并累加得到∑₁中，再用Baum-Welch算法对模型参数进行重估，得到再用Viterbi算法计算HMM输出所有训练声音观测序列的概率

作为计算结果输出，否则将

作为新的初值代入P(O/λ)中的λ做新一轮运算，将所有汽车声音的样本进行如上处理后导入到参考模板库中；

其中最大的HMM模型所对应的汽车声音样本即为识别结果。

2.根据权利要求1所述的一种基于隐马尔可夫模型的汽车声音识别方法，其特征在于：所述的步骤40中分段，其分段方法包括如下步骤：

步骤401、根据公式

d_{t} = Σ_{n = 1}^{p} n^{2} {(C_{t - 1} (n) - C_{t} (n))}^{2}, (t = 1,2, . . ., T - 1)

计算所述的观察序列相邻两帧之间的距离d_t，其中C表示特征参数，p为MFCC特征参数的阶数，T为观察序列的帧数；

步骤402、从数组d_t中找出N-1个极大值；

步骤403、采用N-1个极大值为分割点将观察序列O分成N段，每一段对应一个状态；

步骤404、分段后将所有所述的观察序列中属于同一个段的参数组成一个大的矩阵，再用K均值聚类算法把该矩阵中的所有训练帧分成M类，然后对同一类中各声音系数帧矢量求均值及方差，作为该类所对应的高斯混元的均值μ和方差U，用每一类中包含的声音系数帧数除以该状态的声音系数帧总数，即得到各类所对应的高斯混元的权重系数c。