CN112927716A

CN112927716A - 一种基于改进mfcc的工地特种车辆识别方法

Info

Publication number: CN112927716A
Application number: CN202110088900.6A
Authority: CN
Inventors: 曾繁洋; 李伟
Original assignee: Zhongke Weibo Suzhou Intelligent Technology Co ltd; East China Jiaotong University
Current assignee: Zhongke Weibo Suzhou Intelligent Technology Co ltd; East China Jiaotong University
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-06-08

Abstract

本申请涉及一种基于改进MFCC的工地特种车辆识别方法，用于实时识别工地特种车辆，它包括预处理、DFT变换、Mel滤波、取对数处理、DCT变换、构建音频信号特征参数、使用GMM‑UBM模型进行训练和识别。本发明将MFCC参数和加权的一阶、二阶Mel差分倒谱参数合并为一个矢量，作为音频信号的特征参数，所述特征参数不仅能够反映音频的静态特性，还能表示出音频的动态特性，而且所述特征参数的维数比MFCC+ΔMFCC的维数少N维，比MFCC+ΔMFCC+Δ²MFC的维数少2*N维，计算复杂程度减小，有效提升识别速度。

Description

一种基于改进MFCC的工地特种车辆识别方法

技术领域

本申请涉及声纹识别技术领域，具体涉及一种基于改进MFCC的工地特种车辆识别方法。

背景技术

经国家电网调研发现，在已发生地下电缆事故中，有三分之一都是外力破坏致使的。在外力破坏地下电缆事件中，基本上都是由于工程队不正当的使用工程机械进行施工作业，导致电缆的破损、断开。为解决此类问题，采用的解决方法有人工巡检、加装地下电缆防护外管、摄像头监控以及使用振动信号来监测工程机械。但这些方法都存在不具有实时性、成本高、容易受到遮挡、易受天气影响、准确度不高等缺点。

发明内容

本发明的目的在于，提供一种基于改进MFCC的工地特种车辆识别方法，将MFCC参数和加权的一阶、二阶Mel差分倒谱参数合并为一个矢量，作为音频信号的特征参数，通过GMM-UBM模型，对所述特征参数进行训练和识别，实现对工程车辆的实时识别。

本发明的所采取的技术方案是：一种基于改进MFCC的工地特种车辆识别方法，用于实时识别工地特种车辆，包括如下步骤：

S101：对采集到的语音信号进行预处理，得到时域信号s(n)；

S102：对音频时域信号s(n)进行DFT变换，得到频域信号X(k)；

S103：使用Mel滤波器组对频域信号X(k)进行Mel滤波；

S104：对滤波器的输出E(m)取对数，得到对数频谱S(m)；

S105：对对数频谱S(m)进行离散余弦变换，得到MFCC参数MFCC(n)、一阶差分倒谱参数ΔMFCC(n)和二阶差分倒谱参数Δ²MFCC(n)；

S106：将MFCC参数和加权的一阶、二阶差分倒谱参数合并为一个矢量，提取为音频信号的特征参数，所述特征参数表达式如下所示：

newMFCC＝MFCC+a·ΔMFCC+b·Δ²MFCC

其中a为一阶差分倒谱参数权重，b为一阶差分倒谱参数权重，且0<b<a<1；

S107：使用GMM-UBM模型，对特征参数newMFCC进行训练和识别。

进一步地，所述预处理包括采样和量化、预加重处理、分帧与加窗处理和语音端点检测处理。

进一步地，所述DFT变换公式为：

进一步地，所述Mel滤波器的传递函数H_m(k)表达式如下：

f(m)定义为：

式中，f_l和f_h分别是在Mel滤波器组内的最低和最高频率；N是离散余弦变换的变换点数；M为三角滤波器的个数。B^-1和B是互逆函数，且

F_s为采样频率。

进一步地，每个滤波器的输出为：

进一步地，所述MFCC参数、一阶差分倒谱参数ΔMFCC(n)和二阶差分倒谱参数Δ²MFCC(n)的表达式如下：

式中k为常数。

进一步地，所述步骤S107的具体方法为：

(1)利用GMM为每种工程车辆建立概率模型，M阶的GMM为M个单高斯函数的加权平均和表达式如下：

其中，x是维度为D的特征向量，ω_i，i＝1,2,…,M是混合权重；b_i(x)，i＝1,2,…,M是D维单高斯密度函数，具体表达式如下：

其中，μ_i是平均值向量，∑_i是完全协方差矩阵，

是∑_i的逆矩阵，|∑_i|是∑_i的行列式，混合权重ω_i应满足下列条件：

(2)GMM的模型参数记为λ＝{ω_i,μ_i,∑_i}，得到GMM的对数似然函数具体表达式如下：

(3)根据音频的特征向量序列，找出在已训练出的N个GMM找出最大的对数似然函数，即对应识别出来的工程车辆i^*，具体表达式如下：

本发明的有益技术效果在于：将MFCC参数和加权的一阶、二阶Mel差分倒谱参数合并为一个矢量，作为音频信号的特征参数，所述特征参数不仅能够反映音频的静态特性，还能表示出音频的动态特性，而且所述特征参数的维数所述特征参数的维数比MFCC+ΔMFCC的维数少N维，比MFCC+ΔMFCC+Δ²MFC的维数少2*N维，计算复杂程度减小，有效提升识别速度；通过GMM-UBM模型，有效提高识别的准确度；实现对工地特种车辆的实时识别，以便及时向有关部门传输相关信息，有效防护地下电缆。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例的方法流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明并不限于下面公开的具体实施例的限制。

如图1所示，一种基于改进MFCC的工地特种车辆识别方法，用于实时识别工地特种车辆，包括如下步骤：

S101：对采集到的语音信号进行预处理，得到时域信号s(n)；

S102：对音频时域信号s(n)进行DFT变换，得到频域信号X(k)；

S103：使用Mel滤波器组对频域信号X(k)进行Mel滤波；

S104：对滤波器的输出E(m)取对数，得到对数频谱S(m)；

newMFCC＝MFCC+a·ΔMFCC+b·Δ²MFCC

S107：使用GMM-UBM模型，对特征参数newMFCC进行训练和识别。

在本发明实施例中，步骤S101中的预处理包括采样和量化、预加重处理、分帧与加窗处理和语音端点检测处理，具体方法如下：

(1)采样和量化

根据采样定理(莱奎斯特定理)进行采样即采样频率高于声音频率的两倍时，才能使信号在波形下不失真，即采样频率应满足：F_S≥2f。将音频信号进行采样和量化，使连续的模拟信号转换成离散的数字信号，便于计算机对声音信号进行一系列的操作。

(2)预加重

由于声音信号的能量在低频处大，而在高频处比较小，使得高频处的信号不明显，音频信号在高频处传输困难。为了解决这种问题，需要在传输之前对声音信号的高频进行预加重处理。

预加重处理是在数模转换后通过一个数字滤波器，提高信号的高频部分，使得信号传输质量提高，高低频保持在平衡的状态下。所述数字滤波器特点是可以以6dB/倍程来提高高频的特性，所述数字滤波器的传递函数为：

H(Z)＝1-aZ^-1

式中，a称为预加重系数，其范围为0.9≤a<1。

经过采样后的n时刻的信号为s(n)，在经过了预加重处理后的表达式为：

s(n)＝s(n)-as(n-1)

(3)加窗和分帧

将音频信号以10-30ms为单位进行分帧处理，为了让前后相邻的两帧能够平滑相接，相邻两帧之间会重叠一部分。分帧的实质就是给信号进行加窗处理，声音信号s(n)进行加窗后号s_w(n)为：

s_w(n)＝s(n)×ω(n)

式中，ω(n)表示窗函数。

(4)语音端点检测

通过端点检测将需要进行识别的音频信号的开始点和结束点检测出来，丢弃无关段，降低无关段对识别结果的影响，提高时间鲁棒性。

步骤S102中，对音频时域信号s(n)进行DFT变换，得到频域信号X(k)，所述DFT变换公式为：

通过DFT变换，把音频信号从时域变换到频域，进而研究音频信号的频谱结构和变化规律。

步骤S103中，所述Mel滤波器的传递函数H_m(k)表达式如下：

f(m)定义为：

F_s为采样频率。

每个滤波器的输出为：

利用Mel滤波器组模拟人耳只关注某些特定的频率分量的特性，将线性频谱映射到基于听觉感知的非线性频谱中，然后转化到倒谱上。

步骤S104中，对E(m)取对数，得到对数频谱S(m)，具体表达式如下：

S(m)＝ln(E(m)),0≤m≤M

步骤S105中，通过DCT变换使得特征参数的维度减少，减少训练，使得识别率的计算更加简单。对S(m)进行DCT变换，得到MFCC系数，具体表达式如下：

所述MFCC参数反映了音频数据的静态特性，但人耳对音频信号的动态特征更为敏感，通过对MFCC参数的一阶和二阶差分，可得到反映音频信号动态变化的参数。

一阶差分倒谱参数ΔMFCC(n)的表达式如下：

二阶差分倒谱参数Δ²MFCC(n)的表达式如下：

式中k为常数，在本发明实施例中，k＝2。

步骤S106中，将MFCC参数和加权的一阶、二阶差分倒谱参数合并为一个矢量，提取为音频信号的特征参数，所述特征参数表达式如下所示：

newMFCC＝MFCC+a·ΔMFCC+b·Δ²MFCC

其中a为一阶差分倒谱参数权重，b为一阶差分倒谱参数权重，且0<b<a<1。在本发明实施例中，a＝1/3，b＝1/6。在所述特征参数newMFCC中，MFCC表示音频的静态特性，ΔMFCC反映动态特性，Δ²MFCC表示平衡因子。

最后使用GMM-UBM模型，对特征参数newMFCC进行训练和识别。步骤S107的具体方法为：

其中，μ_i是平均值向量，∑_i是完全协方差矩阵，

GMM模型利用多个高斯分布的线性组合来近似表征多维矢量的任意连续概率分布，能够有效的描述音频的特征。但在实际使用过程中，由于每段音频包含的数据都不够多，训练出来GMM模型通常并不高效。而UBM模型相当于一个大的混合高斯分布模型，能够为GMM模型提供足够多的高斯分布线性组合数据，提高GMM模型的高效性，从而解决目标训练数据太少的问题。通过将UBM和GMM结合生成GMM-UBM模型，可以有效提高识别的准确度。

现有技术通常采用MFCC+ΔMFCC或MFCC+ΔMFCC+Δ²MFCC两种方式构建音频信号的特征参数。与现有技术相比，本发明实施例所述的特征参数newMFCC，大大减小了参数矩阵的维数从而减少了计算量。用mat1和mat2分别表示MFCC+ΔMFCC和MFCC+ΔMFCC+Δ²MFCC的系数矩阵，mat3表示newMFCC的系数矩阵，可以得到如下表达式：

mat1＝{M_r,1,…,M_r,N,ΔM_r,1,…,ΔM_r,N}

mat2＝{M_r,1,…,M_r,N,ΔM_r,1,…,ΔM_r,N,Δ²M_r,1,…,Δ²M_r,N}

mat3＝{M_r,1+a·ΔM_r,1+b·Δ²M_r,1,…,M_r,N+a·ΔM_r,N+b·Δ²M_r,N}

通过比较mat1、mat2和mat3三个系数矩阵可以发现，mat3的维数比mat1的维数少N维，比mat2的维数少2*N维。因此在本发明实施例所述的特征参数newMFCC进行训练和识别的时候，能够大大减少计算时间。本发明实施例从很大程度上了逼近了音频的动态特性，很好的消除了音频帧之间的相关性，大大提高了识别率。

表1为在不同的高斯混合模型维度下，采用不同特征参数进行识别的性能分析。

表1不同特征参数的性能分析

实验采用的音频数据来源与现场工地，使用网络声音采集器分别在4个工地现场采集了钻孔机、挖掘机、打桩机在工作时候的音频，在录制过程中，存在着各种噪音，如鸟叫声、路边车辆经过的声音等，每种特种车辆工作时的音频数据各取了150段，一共450段，时间长度在10-15s。采样频率设置为22.05kHz，精度为16位，单声道，存储格式为wav格式。其中130段音频数据用于训练模型，30段音频对UBM进行训练，100段对GMM进行训练，另外20段作为测试集。

实验数据表明：

(1)四种特征参数所对应的识别率都与高斯混合度成正比关系，即高斯混合度越高，拟合越精确，系统识别率越高。

(2)newMFCC在四种特征参数所对应的系统中识别率最高，比采用传统MFCC的系统平均高15％，比使用MFCC+ΔMFCC的系统高8.9％，与使用MFCC+ΔMFCC+Δ²MFCC的系统高4.7％。

(3)采用newMFCC的系统与使用传统的MFCC的系统速度基本一致，与使用MFCC+ΔMFCC的系统相比，速度平均提升了0.98倍，比使用MFCC+ΔMFCC+Δ²MFCC的系统速度提升了1.93倍。

本发明实施例所述的识别方法，将MFCC参数和加权的一阶、二阶Mel差分倒谱参数合并为一个矢量，作为音频信号的特征参数，所述特征参数不仅能够反映音频的静态特性，还能表示出音频的动态特性。所述特征参数的维数比MFCC+ΔMFCC的维数少N维，比MFCC+ΔMFCC+Δ²MFC的维数少2*N维，计算复杂程度减小，有效提升识别速度。通过GMM-UBM模型，有效提高识别的准确度。本发明实施例所述的识别方法可实现对工地特种车辆的实时识别，以便及时向有关部门传输相关信息，有效防护地下电缆。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。