CN112927716A - 一种基于改进mfcc的工地特种车辆识别方法 - Google Patents

一种基于改进mfcc的工地特种车辆识别方法 Download PDF

Info

Publication number
CN112927716A
CN112927716A CN202110088900.6A CN202110088900A CN112927716A CN 112927716 A CN112927716 A CN 112927716A CN 202110088900 A CN202110088900 A CN 202110088900A CN 112927716 A CN112927716 A CN 112927716A
Authority
CN
China
Prior art keywords
mfcc
follows
parameters
identification method
vehicle identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110088900.6A
Other languages
English (en)
Inventor
曾繁洋
李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Weibo Suzhou Intelligent Technology Co ltd
East China Jiaotong University
Original Assignee
Zhongke Weibo Suzhou Intelligent Technology Co ltd
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Weibo Suzhou Intelligent Technology Co ltd, East China Jiaotong University filed Critical Zhongke Weibo Suzhou Intelligent Technology Co ltd
Priority to CN202110088900.6A priority Critical patent/CN112927716A/zh
Publication of CN112927716A publication Critical patent/CN112927716A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

本申请涉及一种基于改进MFCC的工地特种车辆识别方法,用于实时识别工地特种车辆,它包括预处理、DFT变换、Mel滤波、取对数处理、DCT变换、构建音频信号特征参数、使用GMM‑UBM模型进行训练和识别。本发明将MFCC参数和加权的一阶、二阶Mel差分倒谱参数合并为一个矢量,作为音频信号的特征参数,所述特征参数不仅能够反映音频的静态特性,还能表示出音频的动态特性,而且所述特征参数的维数比MFCC+ΔMFCC的维数少N维,比MFCC+ΔMFCC+Δ2MFC的维数少2*N维,计算复杂程度减小,有效提升识别速度。

Description

一种基于改进MFCC的工地特种车辆识别方法
技术领域
本申请涉及声纹识别技术领域,具体涉及一种基于改进MFCC的工地特种车辆识别方法。
背景技术
经国家电网调研发现,在已发生地下电缆事故中,有三分之一都是外力破坏致使的。在外力破坏地下电缆事件中,基本上都是由于工程队不正当的使用工程机械进行施工作业,导致电缆的破损、断开。为解决此类问题,采用的解决方法有人工巡检、加装地下电缆防护外管、摄像头监控以及使用振动信号来监测工程机械。但这些方法都存在不具有实时性、成本高、容易受到遮挡、易受天气影响、准确度不高等缺点。
发明内容
本发明的目的在于,提供一种基于改进MFCC的工地特种车辆识别方法,将MFCC参数和加权的一阶、二阶Mel差分倒谱参数合并为一个矢量,作为音频信号的特征参数,通过GMM-UBM模型,对所述特征参数进行训练和识别,实现对工程车辆的实时识别。
本发明的所采取的技术方案是:一种基于改进MFCC的工地特种车辆识别方法,用于实时识别工地特种车辆,包括如下步骤:
S101:对采集到的语音信号进行预处理,得到时域信号s(n);
S102:对音频时域信号s(n)进行DFT变换,得到频域信号X(k);
S103:使用Mel滤波器组对频域信号X(k)进行Mel滤波;
S104:对滤波器的输出E(m)取对数,得到对数频谱S(m);
S105:对对数频谱S(m)进行离散余弦变换,得到MFCC参数MFCC(n)、一阶差分倒谱参数ΔMFCC(n)和二阶差分倒谱参数Δ2MFCC(n);
S106:将MFCC参数和加权的一阶、二阶差分倒谱参数合并为一个矢量,提取为音频信号的特征参数,所述特征参数表达式如下所示:
newMFCC=MFCC+a·ΔMFCC+b·Δ2MFCC
其中a为一阶差分倒谱参数权重,b为一阶差分倒谱参数权重,且0<b<a<1;
S107:使用GMM-UBM模型,对特征参数newMFCC进行训练和识别。
进一步地,所述预处理包括采样和量化、预加重处理、分帧与加窗处理和语音端点检测处理。
进一步地,所述DFT变换公式为:
Figure BDA0002911993760000021
进一步地,所述Mel滤波器的传递函数Hm(k)表达式如下:
Figure BDA0002911993760000022
f(m)定义为:
Figure BDA0002911993760000023
式中,fl和fh分别是在Mel滤波器组内的最低和最高频率;N是离散余弦变换的变换点数;M为三角滤波器的个数。B-1和B是互逆函数,且
Figure BDA0002911993760000024
Fs为采样频率。
进一步地,每个滤波器的输出为:
Figure BDA0002911993760000025
进一步地,所述MFCC参数、一阶差分倒谱参数ΔMFCC(n)和二阶差分倒谱参数Δ2MFCC(n)的表达式如下:
Figure BDA0002911993760000026
Figure BDA0002911993760000027
Figure BDA0002911993760000031
式中k为常数。
进一步地,所述步骤S107的具体方法为:
(1)利用GMM为每种工程车辆建立概率模型,M阶的GMM为M个单高斯函数的加权平均和表达式如下:
Figure BDA0002911993760000032
其中,x是维度为D的特征向量,ωi,i=1,2,…,M是混合权重;bi(x),i=1,2,…,M是D维单高斯密度函数,具体表达式如下:
Figure BDA0002911993760000033
其中,μi是平均值向量,∑i是完全协方差矩阵,
Figure BDA0002911993760000037
是∑i的逆矩阵,|∑i|是∑i的行列式,混合权重ωi应满足下列条件:
Figure BDA0002911993760000034
(2)GMM的模型参数记为λ={ωii,∑i},得到GMM的对数似然函数具体表达式如下:
Figure BDA0002911993760000035
(3)根据音频的特征向量序列,找出在已训练出的N个GMM找出最大的对数似然函数,即对应识别出来的工程车辆i*,具体表达式如下:
Figure BDA0002911993760000036
本发明的有益技术效果在于:将MFCC参数和加权的一阶、二阶Mel差分倒谱参数合并为一个矢量,作为音频信号的特征参数,所述特征参数不仅能够反映音频的静态特性,还能表示出音频的动态特性,而且所述特征参数的维数所述特征参数的维数比MFCC+ΔMFCC的维数少N维,比MFCC+ΔMFCC+Δ2MFC的维数少2*N维,计算复杂程度减小,有效提升识别速度;通过GMM-UBM模型,有效提高识别的准确度;实现对工地特种车辆的实时识别,以便及时向有关部门传输相关信息,有效防护地下电缆。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的方法流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
如图1所示,一种基于改进MFCC的工地特种车辆识别方法,用于实时识别工地特种车辆,包括如下步骤:
S101:对采集到的语音信号进行预处理,得到时域信号s(n);
S102:对音频时域信号s(n)进行DFT变换,得到频域信号X(k);
S103:使用Mel滤波器组对频域信号X(k)进行Mel滤波;
S104:对滤波器的输出E(m)取对数,得到对数频谱S(m);
S105:对对数频谱S(m)进行离散余弦变换,得到MFCC参数MFCC(n)、一阶差分倒谱参数ΔMFCC(n)和二阶差分倒谱参数Δ2MFCC(n);
S106:将MFCC参数和加权的一阶、二阶差分倒谱参数合并为一个矢量,提取为音频信号的特征参数,所述特征参数表达式如下所示:
newMFCC=MFCC+a·ΔMFCC+b·Δ2MFCC
其中a为一阶差分倒谱参数权重,b为一阶差分倒谱参数权重,且0<b<a<1;
S107:使用GMM-UBM模型,对特征参数newMFCC进行训练和识别。
在本发明实施例中,步骤S101中的预处理包括采样和量化、预加重处理、分帧与加窗处理和语音端点检测处理,具体方法如下:
(1)采样和量化
根据采样定理(莱奎斯特定理)进行采样即采样频率高于声音频率的两倍时,才能使信号在波形下不失真,即采样频率应满足:FS≥2f。将音频信号进行采样和量化,使连续的模拟信号转换成离散的数字信号,便于计算机对声音信号进行一系列的操作。
(2)预加重
由于声音信号的能量在低频处大,而在高频处比较小,使得高频处的信号不明显,音频信号在高频处传输困难。为了解决这种问题,需要在传输之前对声音信号的高频进行预加重处理。
预加重处理是在数模转换后通过一个数字滤波器,提高信号的高频部分,使得信号传输质量提高,高低频保持在平衡的状态下。所述数字滤波器特点是可以以6dB/倍程来提高高频的特性,所述数字滤波器的传递函数为:
H(Z)=1-aZ-1
式中,a称为预加重系数,其范围为0.9≤a<1。
经过采样后的n时刻的信号为s(n),在经过了预加重处理后的表达式为:
s(n)=s(n)-as(n-1)
(3)加窗和分帧
将音频信号以10-30ms为单位进行分帧处理,为了让前后相邻的两帧能够平滑相接,相邻两帧之间会重叠一部分。分帧的实质就是给信号进行加窗处理,声音信号s(n)进行加窗后号sw(n)为:
sw(n)=s(n)×ω(n)
式中,ω(n)表示窗函数。
(4)语音端点检测
通过端点检测将需要进行识别的音频信号的开始点和结束点检测出来,丢弃无关段,降低无关段对识别结果的影响,提高时间鲁棒性。
步骤S102中,对音频时域信号s(n)进行DFT变换,得到频域信号X(k),所述DFT变换公式为:
Figure BDA0002911993760000051
通过DFT变换,把音频信号从时域变换到频域,进而研究音频信号的频谱结构和变化规律。
步骤S103中,所述Mel滤波器的传递函数Hm(k)表达式如下:
Figure BDA0002911993760000061
f(m)定义为:
Figure BDA0002911993760000062
式中,fl和fh分别是在Mel滤波器组内的最低和最高频率;N是离散余弦变换的变换点数;M为三角滤波器的个数。B-1和B是互逆函数,且
Figure BDA0002911993760000063
Fs为采样频率。
每个滤波器的输出为:
Figure BDA0002911993760000064
利用Mel滤波器组模拟人耳只关注某些特定的频率分量的特性,将线性频谱映射到基于听觉感知的非线性频谱中,然后转化到倒谱上。
步骤S104中,对E(m)取对数,得到对数频谱S(m),具体表达式如下:
S(m)=ln(E(m)),0≤m≤M
步骤S105中,通过DCT变换使得特征参数的维度减少,减少训练,使得识别率的计算更加简单。对S(m)进行DCT变换,得到MFCC系数,具体表达式如下:
Figure BDA0002911993760000065
所述MFCC参数反映了音频数据的静态特性,但人耳对音频信号的动态特征更为敏感,通过对MFCC参数的一阶和二阶差分,可得到反映音频信号动态变化的参数。
一阶差分倒谱参数ΔMFCC(n)的表达式如下:
Figure BDA0002911993760000066
二阶差分倒谱参数Δ2MFCC(n)的表达式如下:
Figure BDA0002911993760000071
式中k为常数,在本发明实施例中,k=2。
步骤S106中,将MFCC参数和加权的一阶、二阶差分倒谱参数合并为一个矢量,提取为音频信号的特征参数,所述特征参数表达式如下所示:
newMFCC=MFCC+a·ΔMFCC+b·Δ2MFCC
其中a为一阶差分倒谱参数权重,b为一阶差分倒谱参数权重,且0<b<a<1。在本发明实施例中,a=1/3,b=1/6。在所述特征参数newMFCC中,MFCC表示音频的静态特性,ΔMFCC反映动态特性,Δ2MFCC表示平衡因子。
最后使用GMM-UBM模型,对特征参数newMFCC进行训练和识别。步骤S107的具体方法为:
(1)利用GMM为每种工程车辆建立概率模型,M阶的GMM为M个单高斯函数的加权平均和表达式如下:
Figure BDA0002911993760000072
其中,x是维度为D的特征向量,ωi,i=1,2,…,M是混合权重;bi(x),i=1,2,…,M是D维单高斯密度函数,具体表达式如下:
Figure BDA0002911993760000073
其中,μi是平均值向量,∑i是完全协方差矩阵,
Figure BDA0002911993760000074
是∑i的逆矩阵,|∑i|是∑i的行列式,混合权重ωi应满足下列条件:
Figure BDA0002911993760000075
(2)GMM的模型参数记为λ={ωii,∑i},得到GMM的对数似然函数具体表达式如下:
Figure BDA0002911993760000076
(3)根据音频的特征向量序列,找出在已训练出的N个GMM找出最大的对数似然函数,即对应识别出来的工程车辆i*,具体表达式如下:
Figure BDA0002911993760000077
GMM模型利用多个高斯分布的线性组合来近似表征多维矢量的任意连续概率分布,能够有效的描述音频的特征。但在实际使用过程中,由于每段音频包含的数据都不够多,训练出来GMM模型通常并不高效。而UBM模型相当于一个大的混合高斯分布模型,能够为GMM模型提供足够多的高斯分布线性组合数据,提高GMM模型的高效性,从而解决目标训练数据太少的问题。通过将UBM和GMM结合生成GMM-UBM模型,可以有效提高识别的准确度。
现有技术通常采用MFCC+ΔMFCC或MFCC+ΔMFCC+Δ2MFCC两种方式构建音频信号的特征参数。与现有技术相比,本发明实施例所述的特征参数newMFCC,大大减小了参数矩阵的维数从而减少了计算量。用mat1和mat2分别表示MFCC+ΔMFCC和MFCC+ΔMFCC+Δ2MFCC的系数矩阵,mat3表示newMFCC的系数矩阵,可以得到如下表达式:
mat1={Mr,1,…,Mr,N,ΔMr,1,…,ΔMr,N}
mat2={Mr,1,…,Mr,N,ΔMr,1,…,ΔMr,N2Mr,1,…,Δ2Mr,N}
mat3={Mr,1+a·ΔMr,1+b·Δ2Mr,1,…,Mr,N+a·ΔMr,N+b·Δ2Mr,N}
通过比较mat1、mat2和mat3三个系数矩阵可以发现,mat3的维数比mat1的维数少N维,比mat2的维数少2*N维。因此在本发明实施例所述的特征参数newMFCC进行训练和识别的时候,能够大大减少计算时间。本发明实施例从很大程度上了逼近了音频的动态特性,很好的消除了音频帧之间的相关性,大大提高了识别率。
表1为在不同的高斯混合模型维度下,采用不同特征参数进行识别的性能分析。
表1不同特征参数的性能分析
Figure BDA0002911993760000081
Figure BDA0002911993760000091
实验采用的音频数据来源与现场工地,使用网络声音采集器分别在4个工地现场采集了钻孔机、挖掘机、打桩机在工作时候的音频,在录制过程中,存在着各种噪音,如鸟叫声、路边车辆经过的声音等,每种特种车辆工作时的音频数据各取了150段,一共450段,时间长度在10-15s。采样频率设置为22.05kHz,精度为16位,单声道,存储格式为wav格式。其中130段音频数据用于训练模型,30段音频对UBM进行训练,100段对GMM进行训练,另外20段作为测试集。
实验数据表明:
(1)四种特征参数所对应的识别率都与高斯混合度成正比关系,即高斯混合度越高,拟合越精确,系统识别率越高。
(2)newMFCC在四种特征参数所对应的系统中识别率最高,比采用传统MFCC的系统平均高15%,比使用MFCC+ΔMFCC的系统高8.9%,与使用MFCC+ΔMFCC+Δ2MFCC的系统高4.7%。
(3)采用newMFCC的系统与使用传统的MFCC的系统速度基本一致,与使用MFCC+ΔMFCC的系统相比,速度平均提升了0.98倍,比使用MFCC+ΔMFCC+Δ2MFCC的系统速度提升了1.93倍。
本发明实施例所述的识别方法,将MFCC参数和加权的一阶、二阶Mel差分倒谱参数合并为一个矢量,作为音频信号的特征参数,所述特征参数不仅能够反映音频的静态特性,还能表示出音频的动态特性。所述特征参数的维数比MFCC+ΔMFCC的维数少N维,比MFCC+ΔMFCC+Δ2MFC的维数少2*N维,计算复杂程度减小,有效提升识别速度。通过GMM-UBM模型,有效提高识别的准确度。本发明实施例所述的识别方法可实现对工地特种车辆的实时识别,以便及时向有关部门传输相关信息,有效防护地下电缆。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于改进MFCC的工地特种车辆识别方法,用于实时识别工地特种车辆,其特征在于,包括如下步骤:
S101:对采集到的语音信号进行预处理,得到时域信号s(n);
S102:对音频时域信号s(n)进行DFT变换,得到频域信号X(k);
S103:使用Mel滤波器组对频域信号X(k)进行Mel滤波;
S104:对滤波器的输出E(m)取对数,得到对数频谱S(m);
S105:对对数频谱S(m)进行离散余弦变换,得到MFCC参数MFCC(n)、一阶差分倒谱参数ΔMFCC(n)和二阶差分倒谱参数Δ2MFCC(n);
S106:将MFCC参数和加权的一阶、二阶差分倒谱参数合并为一个矢量,提取为音频信号的特征参数,所述特征参数表达式如下所示:
newMFCC=MFCC+a·ΔMFCC+b·Δ2MFCC
其中a为一阶差分倒谱参数权重,b为一阶差分倒谱参数权重,且0<b<a<1;
S107:使用GMM-UBM模型,对特征参数newMFCC进行训练和识别。
2.根据权利要求1所述的一种基于改进MFCC的工地特种车辆识别方法,其特征在于,所述预处理包括采样和量化、预加重处理、分帧与加窗处理和语音端点检测处理。
3.根据权利要求1所述的一种基于改进MFCC的工地特种车辆识别方法,其特征在于,所述DFT变换公式为:
Figure FDA0002911993750000011
4.根据权利要求1所述的一种基于改进MFCC的工地特种车辆识别方法,其特征在于,所述Mel滤波器的传递函数Hm(k)表达式如下:
Figure FDA0002911993750000012
f(m)定义为:
Figure FDA0002911993750000013
式中,fl和fh分别是在Mel滤波器组内的最低和最高频率;N是离散余弦变换的变换点数;M为三角滤波器的个数。B-1和B是互逆函数,且
Figure FDA0002911993750000021
Fs为采样频率。
5.根据权利要求4所述的一种基于改进MFCC的工地特种车辆识别方法,其特征在于,每个滤波器的输出为:
Figure FDA0002911993750000022
6.根据权利要求1所述的一种基于改进MFCC的工地特种车辆识别方法,其特征在于,所述MFCC参数、一阶差分倒谱参数ΔMFCC(n)和二阶差分倒谱参数Δ2MFCC(n)的表达式如下:
Figure FDA0002911993750000023
Figure FDA0002911993750000024
Figure FDA0002911993750000025
式中k为常数。
7.根据权利要求1所述的一种基于改进MFCC的工地特种车辆识别方法,其特征在于,所述步骤S107的具体方法为:
(1)利用GMM为每种工程车辆建立概率模型,M阶的GMM为M个单高斯函数的加权平均和表达式如下:
Figure FDA0002911993750000026
其中,x是维度为D的特征向量,ωi,i=1,2,…,M是混合权重;bi(x),i=1,2,…,M是D维单高斯密度函数,具体表达式如下:
Figure FDA0002911993750000027
其中,μi是平均值向量,∑i是完全协方差矩阵,
Figure FDA0002911993750000028
是∑i的逆矩阵,|∑i|是∑i的行列式,混合权重ωi应满足下列条件:
Figure FDA0002911993750000031
(2)GMM的模型参数记为λ={ωii,∑i},得到GMM的对数似然函数具体表达式如下:
Figure FDA0002911993750000032
(3)根据音频的特征向量序列,找出在已训练出的N个GMM找出最大的对数似然函数,即对应识别出来的工程车辆i*,具体表达式如下:
Figure FDA0002911993750000033
CN202110088900.6A 2021-01-22 2021-01-22 一种基于改进mfcc的工地特种车辆识别方法 Pending CN112927716A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110088900.6A CN112927716A (zh) 2021-01-22 2021-01-22 一种基于改进mfcc的工地特种车辆识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110088900.6A CN112927716A (zh) 2021-01-22 2021-01-22 一种基于改进mfcc的工地特种车辆识别方法

Publications (1)

Publication Number Publication Date
CN112927716A true CN112927716A (zh) 2021-06-08

Family

ID=76164864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110088900.6A Pending CN112927716A (zh) 2021-01-22 2021-01-22 一种基于改进mfcc的工地特种车辆识别方法

Country Status (1)

Country Link
CN (1) CN112927716A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118522271A (zh) * 2024-07-19 2024-08-20 西安中盛凯新技术发展有限责任公司 一种基于ai技术的沉浸式数字医生评估方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588536A (zh) * 2004-09-29 2005-03-02 上海交通大学 语音识别中状态结构调整方法
CN101829689A (zh) * 2010-03-31 2010-09-15 北京科技大学 一种基于声信号的热轧带钢甩尾故障识别方法
CN106373559A (zh) * 2016-09-08 2017-02-01 河海大学 一种基于对数谱信噪比加权的鲁棒特征提取方法
CN108847253A (zh) * 2018-09-05 2018-11-20 平安科技(深圳)有限公司 车辆型号识别方法、装置、计算机设备及存储介质
CN110120218A (zh) * 2019-04-29 2019-08-13 东北大学 基于gmm-hmm的高速公路大型车辆识别方法
CN111461064A (zh) * 2020-04-24 2020-07-28 中国人民解放军国防科技大学 一种用于无人值守传感器系统的车辆目标识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588536A (zh) * 2004-09-29 2005-03-02 上海交通大学 语音识别中状态结构调整方法
CN101829689A (zh) * 2010-03-31 2010-09-15 北京科技大学 一种基于声信号的热轧带钢甩尾故障识别方法
CN106373559A (zh) * 2016-09-08 2017-02-01 河海大学 一种基于对数谱信噪比加权的鲁棒特征提取方法
CN108847253A (zh) * 2018-09-05 2018-11-20 平安科技(深圳)有限公司 车辆型号识别方法、装置、计算机设备及存储介质
CN110120218A (zh) * 2019-04-29 2019-08-13 东北大学 基于gmm-hmm的高速公路大型车辆识别方法
CN111461064A (zh) * 2020-04-24 2020-07-28 中国人民解放军国防科技大学 一种用于无人值守传感器系统的车辆目标识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHUAI YUAN,等: "Recognition of Aircraft Engine Sound Based on GMM-UBM Model", 《MATEC WEB OF CONFERENCES》 *
刘士: "基于GMM的声纹识别技术的研究", 《中国优秀硕士学位论文全文数据库》 *
韩志艳,等: "《语音信号鲁棒特征提取及可视化技术研究》", 28 February 2012 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118522271A (zh) * 2024-07-19 2024-08-20 西安中盛凯新技术发展有限责任公司 一种基于ai技术的沉浸式数字医生评估方法

Similar Documents

Publication Publication Date Title
Alim et al. Some commonly used speech feature extraction algorithms
US8412526B2 (en) Restoration of high-order Mel frequency cepstral coefficients
CN103854646B (zh) 一种实现数字音频自动分类的方法
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
CN111261189B (zh) 一种车辆声音信号特征提取方法
CN1205601C (zh) 用于与说话者无关的话音识别系统的构造话音模板的方法和设备
WO2022012195A1 (zh) 音频信号处理方法和相关装置
CN1321390C (zh) 客观音质评价归一化主客观统计相关模型的建立方法
CN1138386A (zh) 分布式话音识别系统
CN106992011A (zh) 基于mf‑plpcc特征的工程机械声音识别方法
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
CN107293306B (zh) 一种基于输出的客观语音质量的评估方法
CN109256138A (zh) 身份验证方法、终端设备及计算机可读存储介质
CN101577116B (zh) 语音信号的MFCC系数提取方法、装置及Mel滤波方法、装置
Sarikaya et al. Subband based classification of speech under stress
US7305339B2 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
Lim et al. Classification of underwater transient signals using mfcc feature vector
Loweimi et al. Robust Source-Filter Separation of Speech Signal in the Phase Domain.
CN112927716A (zh) 一种基于改进mfcc的工地特种车辆识别方法
CN111261192A (zh) 一种基于lstm网络的音频检测方法、电子设备及存储介质
CN114512111A (zh) 模型训练方法、装置、终端设备及计算机可读存储介质
CN112233693B (zh) 一种音质评估方法、装置和设备
Zhang et al. Deep scattering spectra with deep neural networks for acoustic scene classification tasks
Xu et al. Agricultural price information acquisition using noise-robust Mandarin auto speech recognition
Pan et al. Application of hidden Markov models in speech command recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210608

WD01 Invention patent application deemed withdrawn after publication