CN112927716A - 一种基于改进mfcc的工地特种车辆识别方法 - Google Patents
一种基于改进mfcc的工地特种车辆识别方法 Download PDFInfo
- Publication number
- CN112927716A CN112927716A CN202110088900.6A CN202110088900A CN112927716A CN 112927716 A CN112927716 A CN 112927716A CN 202110088900 A CN202110088900 A CN 202110088900A CN 112927716 A CN112927716 A CN 112927716A
- Authority
- CN
- China
- Prior art keywords
- mfcc
- follows
- parameters
- identification method
- vehicle identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000010276 construction Methods 0.000 title claims abstract description 15
- 230000005236 sound signal Effects 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000002156 mixing Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 4
- 238000013139 quantization Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 7
- 238000004364 calculation method Methods 0.000 abstract description 6
- 239000000203 mixture Substances 0.000 abstract description 4
- 230000009466 transformation Effects 0.000 abstract description 4
- 101100491335 Caenorhabditis elegans mat-2 gene Proteins 0.000 description 4
- 101100495256 Caenorhabditis elegans mat-3 gene Proteins 0.000 description 4
- 102100040428 Chitobiosyldiphosphodolichol beta-mannosyltransferase Human genes 0.000 description 4
- 101000891557 Homo sapiens Chitobiosyldiphosphodolichol beta-mannosyltransferase Proteins 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005553 drilling Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本申请涉及一种基于改进MFCC的工地特种车辆识别方法,用于实时识别工地特种车辆,它包括预处理、DFT变换、Mel滤波、取对数处理、DCT变换、构建音频信号特征参数、使用GMM‑UBM模型进行训练和识别。本发明将MFCC参数和加权的一阶、二阶Mel差分倒谱参数合并为一个矢量,作为音频信号的特征参数,所述特征参数不仅能够反映音频的静态特性,还能表示出音频的动态特性,而且所述特征参数的维数比MFCC+ΔMFCC的维数少N维,比MFCC+ΔMFCC+Δ2MFC的维数少2*N维,计算复杂程度减小,有效提升识别速度。
Description
技术领域
本申请涉及声纹识别技术领域,具体涉及一种基于改进MFCC的工地特种车辆识别方法。
背景技术
经国家电网调研发现,在已发生地下电缆事故中,有三分之一都是外力破坏致使的。在外力破坏地下电缆事件中,基本上都是由于工程队不正当的使用工程机械进行施工作业,导致电缆的破损、断开。为解决此类问题,采用的解决方法有人工巡检、加装地下电缆防护外管、摄像头监控以及使用振动信号来监测工程机械。但这些方法都存在不具有实时性、成本高、容易受到遮挡、易受天气影响、准确度不高等缺点。
发明内容
本发明的目的在于,提供一种基于改进MFCC的工地特种车辆识别方法,将MFCC参数和加权的一阶、二阶Mel差分倒谱参数合并为一个矢量,作为音频信号的特征参数,通过GMM-UBM模型,对所述特征参数进行训练和识别,实现对工程车辆的实时识别。
本发明的所采取的技术方案是:一种基于改进MFCC的工地特种车辆识别方法,用于实时识别工地特种车辆,包括如下步骤:
S101:对采集到的语音信号进行预处理,得到时域信号s(n);
S102:对音频时域信号s(n)进行DFT变换,得到频域信号X(k);
S103:使用Mel滤波器组对频域信号X(k)进行Mel滤波;
S104:对滤波器的输出E(m)取对数,得到对数频谱S(m);
S105:对对数频谱S(m)进行离散余弦变换,得到MFCC参数MFCC(n)、一阶差分倒谱参数ΔMFCC(n)和二阶差分倒谱参数Δ2MFCC(n);
S106:将MFCC参数和加权的一阶、二阶差分倒谱参数合并为一个矢量,提取为音频信号的特征参数,所述特征参数表达式如下所示:
newMFCC=MFCC+a·ΔMFCC+b·Δ2MFCC
其中a为一阶差分倒谱参数权重,b为一阶差分倒谱参数权重,且0<b<a<1;
S107:使用GMM-UBM模型,对特征参数newMFCC进行训练和识别。
进一步地,所述预处理包括采样和量化、预加重处理、分帧与加窗处理和语音端点检测处理。
进一步地,所述DFT变换公式为:
进一步地,所述Mel滤波器的传递函数Hm(k)表达式如下:
f(m)定义为:
进一步地,每个滤波器的输出为:
进一步地,所述MFCC参数、一阶差分倒谱参数ΔMFCC(n)和二阶差分倒谱参数Δ2MFCC(n)的表达式如下:
式中k为常数。
进一步地,所述步骤S107的具体方法为:
(1)利用GMM为每种工程车辆建立概率模型,M阶的GMM为M个单高斯函数的加权平均和表达式如下:
其中,x是维度为D的特征向量,ωi,i=1,2,…,M是混合权重;bi(x),i=1,2,…,M是D维单高斯密度函数,具体表达式如下:
(2)GMM的模型参数记为λ={ωi,μi,∑i},得到GMM的对数似然函数具体表达式如下:
(3)根据音频的特征向量序列,找出在已训练出的N个GMM找出最大的对数似然函数,即对应识别出来的工程车辆i*,具体表达式如下:
本发明的有益技术效果在于:将MFCC参数和加权的一阶、二阶Mel差分倒谱参数合并为一个矢量,作为音频信号的特征参数,所述特征参数不仅能够反映音频的静态特性,还能表示出音频的动态特性,而且所述特征参数的维数所述特征参数的维数比MFCC+ΔMFCC的维数少N维,比MFCC+ΔMFCC+Δ2MFC的维数少2*N维,计算复杂程度减小,有效提升识别速度;通过GMM-UBM模型,有效提高识别的准确度;实现对工地特种车辆的实时识别,以便及时向有关部门传输相关信息,有效防护地下电缆。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的方法流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
如图1所示,一种基于改进MFCC的工地特种车辆识别方法,用于实时识别工地特种车辆,包括如下步骤:
S101:对采集到的语音信号进行预处理,得到时域信号s(n);
S102:对音频时域信号s(n)进行DFT变换,得到频域信号X(k);
S103:使用Mel滤波器组对频域信号X(k)进行Mel滤波;
S104:对滤波器的输出E(m)取对数,得到对数频谱S(m);
S105:对对数频谱S(m)进行离散余弦变换,得到MFCC参数MFCC(n)、一阶差分倒谱参数ΔMFCC(n)和二阶差分倒谱参数Δ2MFCC(n);
S106:将MFCC参数和加权的一阶、二阶差分倒谱参数合并为一个矢量,提取为音频信号的特征参数,所述特征参数表达式如下所示:
newMFCC=MFCC+a·ΔMFCC+b·Δ2MFCC
其中a为一阶差分倒谱参数权重,b为一阶差分倒谱参数权重,且0<b<a<1;
S107:使用GMM-UBM模型,对特征参数newMFCC进行训练和识别。
在本发明实施例中,步骤S101中的预处理包括采样和量化、预加重处理、分帧与加窗处理和语音端点检测处理,具体方法如下:
(1)采样和量化
根据采样定理(莱奎斯特定理)进行采样即采样频率高于声音频率的两倍时,才能使信号在波形下不失真,即采样频率应满足:FS≥2f。将音频信号进行采样和量化,使连续的模拟信号转换成离散的数字信号,便于计算机对声音信号进行一系列的操作。
(2)预加重
由于声音信号的能量在低频处大,而在高频处比较小,使得高频处的信号不明显,音频信号在高频处传输困难。为了解决这种问题,需要在传输之前对声音信号的高频进行预加重处理。
预加重处理是在数模转换后通过一个数字滤波器,提高信号的高频部分,使得信号传输质量提高,高低频保持在平衡的状态下。所述数字滤波器特点是可以以6dB/倍程来提高高频的特性,所述数字滤波器的传递函数为:
H(Z)=1-aZ-1
式中,a称为预加重系数,其范围为0.9≤a<1。
经过采样后的n时刻的信号为s(n),在经过了预加重处理后的表达式为:
s(n)=s(n)-as(n-1)
(3)加窗和分帧
将音频信号以10-30ms为单位进行分帧处理,为了让前后相邻的两帧能够平滑相接,相邻两帧之间会重叠一部分。分帧的实质就是给信号进行加窗处理,声音信号s(n)进行加窗后号sw(n)为:
sw(n)=s(n)×ω(n)
式中,ω(n)表示窗函数。
(4)语音端点检测
通过端点检测将需要进行识别的音频信号的开始点和结束点检测出来,丢弃无关段,降低无关段对识别结果的影响,提高时间鲁棒性。
步骤S102中,对音频时域信号s(n)进行DFT变换,得到频域信号X(k),所述DFT变换公式为:
通过DFT变换,把音频信号从时域变换到频域,进而研究音频信号的频谱结构和变化规律。
步骤S103中,所述Mel滤波器的传递函数Hm(k)表达式如下:
f(m)定义为:
每个滤波器的输出为:
利用Mel滤波器组模拟人耳只关注某些特定的频率分量的特性,将线性频谱映射到基于听觉感知的非线性频谱中,然后转化到倒谱上。
步骤S104中,对E(m)取对数,得到对数频谱S(m),具体表达式如下:
S(m)=ln(E(m)),0≤m≤M
步骤S105中,通过DCT变换使得特征参数的维度减少,减少训练,使得识别率的计算更加简单。对S(m)进行DCT变换,得到MFCC系数,具体表达式如下:
所述MFCC参数反映了音频数据的静态特性,但人耳对音频信号的动态特征更为敏感,通过对MFCC参数的一阶和二阶差分,可得到反映音频信号动态变化的参数。
一阶差分倒谱参数ΔMFCC(n)的表达式如下:
二阶差分倒谱参数Δ2MFCC(n)的表达式如下:
式中k为常数,在本发明实施例中,k=2。
步骤S106中,将MFCC参数和加权的一阶、二阶差分倒谱参数合并为一个矢量,提取为音频信号的特征参数,所述特征参数表达式如下所示:
newMFCC=MFCC+a·ΔMFCC+b·Δ2MFCC
其中a为一阶差分倒谱参数权重,b为一阶差分倒谱参数权重,且0<b<a<1。在本发明实施例中,a=1/3,b=1/6。在所述特征参数newMFCC中,MFCC表示音频的静态特性,ΔMFCC反映动态特性,Δ2MFCC表示平衡因子。
最后使用GMM-UBM模型,对特征参数newMFCC进行训练和识别。步骤S107的具体方法为:
(1)利用GMM为每种工程车辆建立概率模型,M阶的GMM为M个单高斯函数的加权平均和表达式如下:
其中,x是维度为D的特征向量,ωi,i=1,2,…,M是混合权重;bi(x),i=1,2,…,M是D维单高斯密度函数,具体表达式如下:
(2)GMM的模型参数记为λ={ωi,μi,∑i},得到GMM的对数似然函数具体表达式如下:
(3)根据音频的特征向量序列,找出在已训练出的N个GMM找出最大的对数似然函数,即对应识别出来的工程车辆i*,具体表达式如下:
GMM模型利用多个高斯分布的线性组合来近似表征多维矢量的任意连续概率分布,能够有效的描述音频的特征。但在实际使用过程中,由于每段音频包含的数据都不够多,训练出来GMM模型通常并不高效。而UBM模型相当于一个大的混合高斯分布模型,能够为GMM模型提供足够多的高斯分布线性组合数据,提高GMM模型的高效性,从而解决目标训练数据太少的问题。通过将UBM和GMM结合生成GMM-UBM模型,可以有效提高识别的准确度。
现有技术通常采用MFCC+ΔMFCC或MFCC+ΔMFCC+Δ2MFCC两种方式构建音频信号的特征参数。与现有技术相比,本发明实施例所述的特征参数newMFCC,大大减小了参数矩阵的维数从而减少了计算量。用mat1和mat2分别表示MFCC+ΔMFCC和MFCC+ΔMFCC+Δ2MFCC的系数矩阵,mat3表示newMFCC的系数矩阵,可以得到如下表达式:
mat1={Mr,1,…,Mr,N,ΔMr,1,…,ΔMr,N}
mat2={Mr,1,…,Mr,N,ΔMr,1,…,ΔMr,N,Δ2Mr,1,…,Δ2Mr,N}
mat3={Mr,1+a·ΔMr,1+b·Δ2Mr,1,…,Mr,N+a·ΔMr,N+b·Δ2Mr,N}
通过比较mat1、mat2和mat3三个系数矩阵可以发现,mat3的维数比mat1的维数少N维,比mat2的维数少2*N维。因此在本发明实施例所述的特征参数newMFCC进行训练和识别的时候,能够大大减少计算时间。本发明实施例从很大程度上了逼近了音频的动态特性,很好的消除了音频帧之间的相关性,大大提高了识别率。
表1为在不同的高斯混合模型维度下,采用不同特征参数进行识别的性能分析。
表1不同特征参数的性能分析
实验采用的音频数据来源与现场工地,使用网络声音采集器分别在4个工地现场采集了钻孔机、挖掘机、打桩机在工作时候的音频,在录制过程中,存在着各种噪音,如鸟叫声、路边车辆经过的声音等,每种特种车辆工作时的音频数据各取了150段,一共450段,时间长度在10-15s。采样频率设置为22.05kHz,精度为16位,单声道,存储格式为wav格式。其中130段音频数据用于训练模型,30段音频对UBM进行训练,100段对GMM进行训练,另外20段作为测试集。
实验数据表明:
(1)四种特征参数所对应的识别率都与高斯混合度成正比关系,即高斯混合度越高,拟合越精确,系统识别率越高。
(2)newMFCC在四种特征参数所对应的系统中识别率最高,比采用传统MFCC的系统平均高15%,比使用MFCC+ΔMFCC的系统高8.9%,与使用MFCC+ΔMFCC+Δ2MFCC的系统高4.7%。
(3)采用newMFCC的系统与使用传统的MFCC的系统速度基本一致,与使用MFCC+ΔMFCC的系统相比,速度平均提升了0.98倍,比使用MFCC+ΔMFCC+Δ2MFCC的系统速度提升了1.93倍。
本发明实施例所述的识别方法,将MFCC参数和加权的一阶、二阶Mel差分倒谱参数合并为一个矢量,作为音频信号的特征参数,所述特征参数不仅能够反映音频的静态特性,还能表示出音频的动态特性。所述特征参数的维数比MFCC+ΔMFCC的维数少N维,比MFCC+ΔMFCC+Δ2MFC的维数少2*N维,计算复杂程度减小,有效提升识别速度。通过GMM-UBM模型,有效提高识别的准确度。本发明实施例所述的识别方法可实现对工地特种车辆的实时识别,以便及时向有关部门传输相关信息,有效防护地下电缆。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于改进MFCC的工地特种车辆识别方法,用于实时识别工地特种车辆,其特征在于,包括如下步骤:
S101:对采集到的语音信号进行预处理,得到时域信号s(n);
S102:对音频时域信号s(n)进行DFT变换,得到频域信号X(k);
S103:使用Mel滤波器组对频域信号X(k)进行Mel滤波;
S104:对滤波器的输出E(m)取对数,得到对数频谱S(m);
S105:对对数频谱S(m)进行离散余弦变换,得到MFCC参数MFCC(n)、一阶差分倒谱参数ΔMFCC(n)和二阶差分倒谱参数Δ2MFCC(n);
S106:将MFCC参数和加权的一阶、二阶差分倒谱参数合并为一个矢量,提取为音频信号的特征参数,所述特征参数表达式如下所示:
newMFCC=MFCC+a·ΔMFCC+b·Δ2MFCC
其中a为一阶差分倒谱参数权重,b为一阶差分倒谱参数权重,且0<b<a<1;
S107:使用GMM-UBM模型,对特征参数newMFCC进行训练和识别。
2.根据权利要求1所述的一种基于改进MFCC的工地特种车辆识别方法,其特征在于,所述预处理包括采样和量化、预加重处理、分帧与加窗处理和语音端点检测处理。
7.根据权利要求1所述的一种基于改进MFCC的工地特种车辆识别方法,其特征在于,所述步骤S107的具体方法为:
(1)利用GMM为每种工程车辆建立概率模型,M阶的GMM为M个单高斯函数的加权平均和表达式如下:
其中,x是维度为D的特征向量,ωi,i=1,2,…,M是混合权重;bi(x),i=1,2,…,M是D维单高斯密度函数,具体表达式如下:
(2)GMM的模型参数记为λ={ωi,μi,∑i},得到GMM的对数似然函数具体表达式如下:
(3)根据音频的特征向量序列,找出在已训练出的N个GMM找出最大的对数似然函数,即对应识别出来的工程车辆i*,具体表达式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110088900.6A CN112927716A (zh) | 2021-01-22 | 2021-01-22 | 一种基于改进mfcc的工地特种车辆识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110088900.6A CN112927716A (zh) | 2021-01-22 | 2021-01-22 | 一种基于改进mfcc的工地特种车辆识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112927716A true CN112927716A (zh) | 2021-06-08 |
Family
ID=76164864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110088900.6A Pending CN112927716A (zh) | 2021-01-22 | 2021-01-22 | 一种基于改进mfcc的工地特种车辆识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112927716A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118522271A (zh) * | 2024-07-19 | 2024-08-20 | 西安中盛凯新技术发展有限责任公司 | 一种基于ai技术的沉浸式数字医生评估方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1588536A (zh) * | 2004-09-29 | 2005-03-02 | 上海交通大学 | 语音识别中状态结构调整方法 |
CN101829689A (zh) * | 2010-03-31 | 2010-09-15 | 北京科技大学 | 一种基于声信号的热轧带钢甩尾故障识别方法 |
CN106373559A (zh) * | 2016-09-08 | 2017-02-01 | 河海大学 | 一种基于对数谱信噪比加权的鲁棒特征提取方法 |
CN108847253A (zh) * | 2018-09-05 | 2018-11-20 | 平安科技(深圳)有限公司 | 车辆型号识别方法、装置、计算机设备及存储介质 |
CN110120218A (zh) * | 2019-04-29 | 2019-08-13 | 东北大学 | 基于gmm-hmm的高速公路大型车辆识别方法 |
CN111461064A (zh) * | 2020-04-24 | 2020-07-28 | 中国人民解放军国防科技大学 | 一种用于无人值守传感器系统的车辆目标识别方法及系统 |
-
2021
- 2021-01-22 CN CN202110088900.6A patent/CN112927716A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1588536A (zh) * | 2004-09-29 | 2005-03-02 | 上海交通大学 | 语音识别中状态结构调整方法 |
CN101829689A (zh) * | 2010-03-31 | 2010-09-15 | 北京科技大学 | 一种基于声信号的热轧带钢甩尾故障识别方法 |
CN106373559A (zh) * | 2016-09-08 | 2017-02-01 | 河海大学 | 一种基于对数谱信噪比加权的鲁棒特征提取方法 |
CN108847253A (zh) * | 2018-09-05 | 2018-11-20 | 平安科技(深圳)有限公司 | 车辆型号识别方法、装置、计算机设备及存储介质 |
CN110120218A (zh) * | 2019-04-29 | 2019-08-13 | 东北大学 | 基于gmm-hmm的高速公路大型车辆识别方法 |
CN111461064A (zh) * | 2020-04-24 | 2020-07-28 | 中国人民解放军国防科技大学 | 一种用于无人值守传感器系统的车辆目标识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
SHUAI YUAN,等: "Recognition of Aircraft Engine Sound Based on GMM-UBM Model", 《MATEC WEB OF CONFERENCES》 * |
刘士: "基于GMM的声纹识别技术的研究", 《中国优秀硕士学位论文全文数据库》 * |
韩志艳,等: "《语音信号鲁棒特征提取及可视化技术研究》", 28 February 2012 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118522271A (zh) * | 2024-07-19 | 2024-08-20 | 西安中盛凯新技术发展有限责任公司 | 一种基于ai技术的沉浸式数字医生评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alim et al. | Some commonly used speech feature extraction algorithms | |
US8412526B2 (en) | Restoration of high-order Mel frequency cepstral coefficients | |
CN103854646B (zh) | 一种实现数字音频自动分类的方法 | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
CN111261189B (zh) | 一种车辆声音信号特征提取方法 | |
CN1205601C (zh) | 用于与说话者无关的话音识别系统的构造话音模板的方法和设备 | |
WO2022012195A1 (zh) | 音频信号处理方法和相关装置 | |
CN1321390C (zh) | 客观音质评价归一化主客观统计相关模型的建立方法 | |
CN1138386A (zh) | 分布式话音识别系统 | |
CN106992011A (zh) | 基于mf‑plpcc特征的工程机械声音识别方法 | |
Dubey et al. | Non-intrusive speech quality assessment using several combinations of auditory features | |
CN107293306B (zh) | 一种基于输出的客观语音质量的评估方法 | |
CN109256138A (zh) | 身份验证方法、终端设备及计算机可读存储介质 | |
CN101577116B (zh) | 语音信号的MFCC系数提取方法、装置及Mel滤波方法、装置 | |
Sarikaya et al. | Subband based classification of speech under stress | |
US7305339B2 (en) | Restoration of high-order Mel Frequency Cepstral Coefficients | |
Lim et al. | Classification of underwater transient signals using mfcc feature vector | |
Loweimi et al. | Robust Source-Filter Separation of Speech Signal in the Phase Domain. | |
CN112927716A (zh) | 一种基于改进mfcc的工地特种车辆识别方法 | |
CN111261192A (zh) | 一种基于lstm网络的音频检测方法、电子设备及存储介质 | |
CN114512111A (zh) | 模型训练方法、装置、终端设备及计算机可读存储介质 | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 | |
Zhang et al. | Deep scattering spectra with deep neural networks for acoustic scene classification tasks | |
Xu et al. | Agricultural price information acquisition using noise-robust Mandarin auto speech recognition | |
Pan et al. | Application of hidden Markov models in speech command recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210608 |
|
WD01 | Invention patent application deemed withdrawn after publication |