CN108847253A - 车辆型号识别方法、装置、计算机设备及存储介质 - Google Patents
车辆型号识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN108847253A CN108847253A CN201811031361.7A CN201811031361A CN108847253A CN 108847253 A CN108847253 A CN 108847253A CN 201811031361 A CN201811031361 A CN 201811031361A CN 108847253 A CN108847253 A CN 108847253A
- Authority
- CN
- China
- Prior art keywords
- model
- voice signal
- voiceprint
- vehicle
- identified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000003860 storage Methods 0.000 title claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 43
- 238000010801 machine learning Methods 0.000 claims abstract description 13
- 230000005236 sound signal Effects 0.000 claims description 52
- 238000012545 processing Methods 0.000 claims description 49
- 238000004590 computer program Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 230000006399 behavior Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 235000013399 edible fruits Nutrition 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005311 autocorrelation function Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000000721 basilar membrane Anatomy 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本发明实施例提供了一种车辆型号识别方法、装置、计算机设备及存储介质,该方法包括:采集若干种型号的车辆在行驶过程所产生的声音信号;从所述声音信号中提取声纹信息;基于高斯混合模型分别对每种型号的车辆所对应的声纹信息进行机器学习以得到每种型号对应的声纹识别模型;若接收到待识别声音信号,提取所述待识别声音信号的待识别声纹信息;利用每种型号对应的声纹识别模型对所述待识别声纹信息进行识别以得到识别结果。本发明实施例通过高斯混合模型进行声纹识别,进而识别出车辆型号,可保证车辆型号识别的便利性和准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种车辆型号识别方法、装置、计算机设备及存储介质。
背景技术
车险作为保险中常见的一种险种,对车主(驾驶员)非常重要,对于保险公司而言,车险中涉及的车辆安全性能问题与驾驶员的驾驶行为尤为重要,因此建立车辆驾驶行为体系对管理车险有着重要意义。
目前APP被广泛应用于不同的行业中,包括保险行业,结合车险APP可以方便地建立车辆驾驶行为体系,在车辆驾驶行为体系中车辆的型号必不可少,通过车险APP建立车辆驾驶行为体系较其中一个重要的问题在于如何识别不同车辆的型号。
现有的识别车辆型号的方法一般是通过拍摄车辆特定区域的图像,通过图像的处理识别出车辆的型号,如结合现有的方法和车险APP建立车辆驾驶行为体系,则需要驾驶员主动拍摄其车辆的图片后通过车险APP上传保险公司系统,保险公司系统利用图片训练识别车辆型号的模型,后续利用模型对图像进行车辆型号识别,虽然准确率较高,但在建立模型时,需要大量的训练样本,这需要车主主动上传车辆照片,如此不便于保险公司的工作,因此,通过图像识别车辆型号这一方法丧失了便利性。
发明内容
本发明实施例提供了一种车辆型号识别方法、装置、计算机设备及存储介质,旨在保证车辆型号识别的准确性的同时提高车辆型号识别的便利性。
第一方面,本发明实施例提供了一种车辆型号识别方法,该方法包括:采集若干种型号的车辆在行驶过程所产生的声音信号;从所述声音信号中提取声纹信息;基于高斯混合模型分别对每种型号的车辆所对应的声纹信息进行机器学习以得到每种型号对应的声纹识别模型;若接收到待识别声音信号,提取所述待识别声音信号的待识别声纹信息;利用每种型号对应的声纹识别模型对所述待识别声纹信息进行识别以得到识别结果。
第二方面,本发明实施例还提供了一种车辆型号识别装置,所述车辆型号识别装置包括用于实现第一方面所述的车辆型号识别方法的单元。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器,以及与所述存储器相连的处理器,所述存储器用于存储实现车辆型号识别方法的计算机程序,所述处理器用于运行所述存储器中存储的计算机程序,以执行如上述第一方面所述的方法。
第四方面,本发明实施例提供了一种存储介质,所述存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序被处理器执行时实现上述第一方面所述的方法。
本发明实施例提供的车辆型号识别方法、装置、计算机设备及存储介质,利用车辆型号识别方法,车主在驾驶车辆时只需要打开相应的APP,在车辆行驶过程中,终端的声音传感器采集车辆驾驶所发出的声音信号,并通过APP自动上传至保险公司系统,保险公司系统再根据车辆的声音信号识别出车辆的型号,非常便利;另外,不同物体所产生的声音信号的声纹信息具有差异性,通过声纹信息识别车辆型号可保证识别的准确性。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种车辆型号识别方法的流程示意图;
图2是本发明一实施例提供的一种车辆型号识别方法的子流程示意图;
图3是本发明另一实施例提供的一种车辆型号识别方法的流程示意图;
图4是本发明一实施例提供的一种车辆型号识别装置的示意性框图;
图5是本发明一实施例提供的一种车辆型号识别装置的子单元示意性框图;
图6是本发明另一实施例提供的一种车辆型号识别装置的示意性框图;
图7是本发明实施例提供的一种计算机设备的结构示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
也应当理解,尽管术语第一、第二等可以在此用来描述各种元素,但这些元素不应该受限于这些术语,这些术语仅用来将这些元素彼此区分开。
图1为本发明实施例提供的一种车辆型号识别方法的流程示意图,该方法包括步骤S101~S105。
S101、采集若干种型号的车辆在行驶过程所产生的声音信号。
车辆的行驶过程包括车辆的启动、加速、减速或匀速行驶。车主在驾驶车辆时只需要打开APP,APP事先绑定车主账号,具有车辆信息,车辆信息包括车辆型号,发动机号、车架号等信息。在车辆行驶过程中,终端的声音传感器采集车辆驾驶所发出的声音信号,并通过APP自动上传至保险公司系统,如此,保险公司便可以非常方便地采集不同车辆型号的车辆在启动、加速、减速或匀速行驶过程中车辆发出的声音信号,这些声音信号作为模型训练的样本数据。
S102、从所述声音信号中提取声纹信息。
不同物体产生的声音不一致,其声纹信息具有一定的稳定性,也具有差异性,即不同物体发出的声音的声纹信息不一样,通过声纹的识别可以辨别出哪种声音是由哪个物体发出的。
提取不同车辆信号的车辆的声音信号中的声纹信息,声纹信息作为样本的特征被用于声纹识别模型的模型训练。
在一实施例中,所述声纹信息包括梅尔频率倒谱系数(Mel-scaleFrequencyCepstral Coefficients,简称MFCC)的p阶分量、MFCC的一阶差分以及基音频率。
如图2所示,步骤S102包括步骤S201-S214:
S201、将所采集到的声音信号进行采样处理以得到数字声音信号。
原始采集到的声音信号为模拟信号,需要对这些声音信号进行采样处理得到数字信号,采样频率设置为8000hz或16000hz。
S202、将所述数字声音信号进行预加重处理。
预加重处理其实是将语音信号通过一个高通滤波器,可用以下公式表示:H(z)=1-μz-1。其中,μ介于0.9-1.0之间,通常取0.97。
预加重的目的是提升声音信号的高频部分,使声音信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。
S203、将预加重处理后的数字声音信号进行分帧处理。
先将N个采样点集合成一个观测单位,称为帧,N的值为256或512,涵盖的时间约为20~30ms左右。为避免相邻两帧的变化过大,让两相邻帧之间有一段重叠区域,此重叠区域包含了M个取样点,M的值约为N的1/2或1/3。
S204、将分帧处理后的数字声音信号进行加窗处理。
加窗处理即为将每一帧的声音信号乘以窗函数,以增加相邻两帧信号的右端和左端的连续性。在本实施例中,窗函数例如为汉明窗或三角窗,将每一帧乘以汉明窗,以增加帧左端和右端的连续性。
通过以上步骤S201-S204对声音信号进行了预处理,预处理后提取声纹信息。
S205、将加窗处理后的数字声音信号进行快速傅里叶变换以得到频域的声音信号。
信号在时域上的变化通常很难看出信号的特性,需要将它转换为频域上的能量分布来观察,不同的能量分布代表不同声音的特性,因此,加窗处理后将每帧声音信号经过快速傅里叶变换以得到它在频谱上的能量分布,即得到声音信号的能量谱。
声音信号的快速傅里叶变换为:
其中,x(n)为输入的声音信号,X(k)为快速傅里叶变换后输出的声音信号,N表示快速傅里叶变换的点数,例如为256或512。
S206、通过三角形带通滤波器组对所述频域的声音信号进行滤波以使所述三角形带通滤波器中的每个滤波器分别输出滤波结果,其中,所述三角形带通滤波器包括p个滤波器。
定义一个有p个滤波器的三角形带通滤波器组,p在22-26范围内取值,采用的滤波器为三角滤波器,定义第m个滤波器的中心频率为f(m),m值比较小时,相邻滤波器的中心频率间隔也比较小,m值比较大时,相邻滤波器的中心频率间隔变宽,即各f(m)之间的间隔随着m值的增大而增大。
三角滤波器的频率响应定义为:
其中,Mel(f(m+1))-Mel(f(m))=Mel(f(m))-Mel(f(m-1)),Mel(f)表示滤波器在mel刻度上的中心频率。
人耳对不同频率的声波有不同的听觉敏感度,两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到人耳对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故低音容易掩蔽高音,而高音掩蔽低音较困难,在低频处的声音掩蔽的临界带宽较高频要小,因此,需要从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,即各个滤波器的中心频率之间的间隔随着p值的减小而缩小,随着p值的增大而增宽。
将声音信号的能量谱通过的三角形带通滤波器组对频谱进行平滑化,并消除谐波的作用,突显原先声音信号的共振峰。
每个滤波器输出的信号为:
S207、将每个滤波器输出的滤波结果分别取对数以得到所述声音信号的p个对数能量。
每个滤波器组输出的对数能量为:
S208、将所得的p个对数能量进行离散余弦变化得到梅尔频率倒谱系数的p阶分量。
为了得到各阶MCFF分量,需要对每个对数能量进行离散余弦变换以得到对应的MCFF分量,滤波器的个数与MCFF的阶数对应。
S209、利用一阶梅尔频率倒谱系数分量和二阶梅尔频率倒谱系数分量计算梅尔频率倒谱系数的一阶差分。
步骤S205-S209为计算声音信号的MFCC及其一阶差分的过程。
MFCC只反映了声音的静态特性,声音的动态特性可以用这些静态特征的差分谱来描述,在本实施例中,通过MFCC一阶差分来表示声音信号的动态特性。把动态特征和静态特征结合起来能有效提高声音的识别准确性。
S210、将加窗处理后的数字声音信号进行削波处理。
削波处理的公式如下:
其中s(n)表示声音信号,CL表示削波电平。削波电平取声音信号峰值的60%-70%之间,削波处理可以过滤掉绝大多数的次要峰值仅保留主要峰值,使得基音周期更容易获得。
S211、将削波处理后的数字声音信号进行短时自相关计算以得到自相关图。
如果一个信号具有周期性,那么它的自相关函数也具有周期性,在周期的整数倍上,自相关函数能获得最大值,因此通过信号自相关函数来获得信号周期。
声音信号虽然具有一定的周期性,但是声音信号还是一种非稳态的信号,其特性还是随时间变化而变化,因此可取一段时间内的声音片段,这个片段很短,假设在这个很短的时间段内声音信号具有相对稳定的特征,即短时平稳性,再通过短时自相关计算得到声音信号得到自相关图。
S212、获取所述自相关图的相邻两个峰值。
S213、计算所述相邻两个峰值的差值,将所述差值确定为所述声音信号的基音周期。
自相关图的相邻两个峰值即为声音信号的基音周期。
S214、计算所述基音周期的倒数,将所述倒数确定为所述声音信号的基音频率。
基音频率等于基音周期的倒数。
步骤S210-S214为计算声音信号的基音频率的过程,该过程与声音信号的MFCC及其一阶差分的过程为两个相互独立的过程,二者并无时间上的必然联系。
在不同的实施例中,声纹信息所选取的特征可以不一致,例如可包括上述的基音频率、各阶MFCC分量及MFCC的一阶差分,或包括MFCC分量及MFCC的一阶差分,或仅包括MFCC分量,当然,所选择特征越多,所建立的声纹识别模型的识别准确率越高。
S103、基于高斯混合模型分别对每种型号的车辆所对应的声纹信息进行机器学习以得到每种型号对应的声纹识别模型。
分别将同一型号的车辆发出的声音信号对应的声纹信息输入一高斯混合模型进行机器学习,得到训练的模型,即每一种型号对应的声纹识别模型。
S104、若接收到待识别声音信号,提取所述待识别声音信号的待识别声纹信息。
声纹信息作为用于识别声音信号的特征,因此,当接收到待识别声音信号时,需要提取声音信号的声纹信息以便进行识别,即提取待识别声纹信息。
S105、利用每种型号对应的声纹识别模型对所述待识别声纹信息进行识别以得到识别结果。
利用机器学习得到的不同型号对应的声纹识别模型来识别该待识别声纹信息并得到对应的识别结果,通过分析不同声纹识别模型输出的识别结果可得到该待识别声纹信息属于哪一种车辆型号,即分析出待识别声音信号来自于哪一种车辆型号的汽车。
在另一实施例中,如图3所示,步骤S105之后还包括以下步骤:
S106、获取最高概率。
S107、将所述最高概率对应的型号确定为产生所述待识别声音信号的车辆的型号。
S108、将所述型号显示在显示界面。
高斯混合模型的识别结果为一概率,即一型号对应的声纹识别模型输出的识别结果为一个概率,用来表示声音信号属于该型号的可能性。概率越大,声音信号来源于该型号的车辆的可能性越大,该一实施例将概率最高对应的型号作为产生所述待识别声音信号的车辆的型号,并将最终的结果反馈到显示界面。
在另一实施例中,得到识别结果之后,可获取较高的前i个概率,计算所述i个概率中的最小值和最大值之间的差值,若所述差值小于或等于第一阈值(例如0.1),则将所述i个概率及对应的车辆型号显示在显示界面。即当识别结果中具有概率值较为接近的多个结果,将待识别声音信号来自于对应几种型号的车辆的可能性非常接近,因此将这些识别结果(型号即概率)均反馈至显示界面作为参考,以便测试者进一步甄别。
本发明实施例提供的车辆型号识别方法,车主在驾驶车辆时只需要打开相应的APP,在车辆行驶过程中,终端的声音传感器采集车辆驾驶所发出的声音信号,并通过APP自动上传至保险公司系统,保险公司系统根据采集到的声音样本进行声纹识别模型的训练,非常便利,另外,本发明实施例的车辆型号识别方法利用不同物体所产生的声音信号的声纹信息具有差异性的特点,基于训练得到的声纹识别模型,通过声纹信息识别车辆型号,可保证识别的准确性。
图4为本发明实施例提供的一种车辆型号识别装置100示意性框图,该车辆型号识别装置100包括采集单元101、第一提取单元102、机器学习单元103、第二提取单元104以及识别单元105。
采集单元101用于采集若干种型号的车辆在行驶过程所产生的声音信号。
第一提取单元102用于从所述声音信号中提取声纹信息。
机器学习单元103用于基于高斯混合模型分别对每种型号的车辆所对应的声纹信息进行机器学习以得到每种型号对应的声纹识别模型。
第二提取单元104用于若接收到待识别声音信号,提取所述待识别声音信号的待识别声纹信息。
识别单元105用于利用每种型号对应的声纹识别模型对所述待识别声纹信息进行识别以得到识别结果。
在一实施例中,所述声纹信息包括梅尔频率倒谱系数的n阶分量和梅尔频率倒谱系数的一阶差分。
如图5所示,所述第一提取单元102包括:
采样子单元201用于将所采集到的声音信号进行采样处理以得到数字声音信号;
预加重处理子单元202用于将所述数字声音信号进行预加重处理;
分帧处理子单元203用于将预加重处理后的数字声音信号进行分帧处理;
加窗处理子单元204用于将分帧处理后的数字声音信号进行加窗处理;
快速傅里叶变换子单元205用于将加窗处理后的数字声音信号进行快速傅里叶变换以得到频域的声音信号;
滤波子单元206用于通过三角形带通滤波器组对所述频域的声音信号进行滤波以使所述三角形带通滤波器中的每个滤波器分别输出滤波结果,其中,所述三角形带通滤波器包括p个滤波器;
第一计算子单元207用于将每个滤波器输出的滤波结果分别取对数以得到所述声音信号的p个对数能量;
离散余弦变换子单元208用于将所得的p个对数能量进行离散余弦变换得到梅尔频率倒谱系数的p阶分量;
第二计算子单元209用于利用一阶梅尔频率倒谱系数分量和二阶梅尔频率倒谱系数分量计算梅尔频率倒谱系数的一阶差分;
削波子单元210用于将加窗处理后的数字声音信号进行削波处理;
自相关子单元211用于将削波处理后的数字声音信号进行短时自相关计算以得到自相关图;
获取子单元212用于获取所述自相关图的相邻两个峰值;
第三计算子单元213用于计算所述相邻两个峰值的差值,将所述差值确定为所述声音信号的基音周期;以及
第四计算子单元214用于计算所述基音周期的倒数,将所述倒数确定为所述声音信号的基音频率。
每个声纹识别模型得到的识别结果为一个概率。
在一实施例中,如图6所示,车辆型号识别装置100还包括获取单元106、确定单元107以及显示单元108。
获取单元106用于在识别单元105得到识别结果后获取最高概率。
确定单元107用于将所述最高概率对应的型号确定为产生所述待识别声音信号的车辆的型号。
显示单元108用于将所述型号显示在显示界面。
上述车辆型号识别装置100与前述车辆型号识别方法对应,本实施例中对车辆型号识别装置100未详尽之处可参考前述方法实施例,此处不做赘述。
上述车辆型号识别装置100可以实现为一种计算机程序的形式,计算机程序可以在如图7所示的多个计算机设备上共同运行。
图7为本发明实施例提供的一种计算机设备300的结构示意性框图。该计算机设备300,该计算机设备300为服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
该计算机设备300包括通过系统总线301连接的处理器302、存储器和网络接口305,其中,存储器可以包括非易失性存储介质303和内存储器304。
该计算机设备300的非易失性存储介质303可存储操作系统3031和计算机程序3032,该计算机程序3032被执行时,可使得处理器302执行一种标车辆型号识别方法。该内存储器304为非易失性存储介质303中的计算机程序3032的运行提供环境。该计算机设备300的处理器302用于提供计算和控制能力,支撑整个计算机设备300的运行。计算机设备300的网络接口305用于进行网络通信,如发送分配的任务、接收数据等。
本领域技术人员可以理解,图7中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图7所示实施例一致,在此不再赘述。
处理器302运行非易失性存储介质303中的计算机程序3032时,处理器302执行以下步骤:采集若干种型号的车辆在行驶过程所产生的声音信号;从所述声音信号中提取声纹信息;基于高斯混合模型分别对每种型号的车辆所对应的声纹信息进行机器学习以得到每种型号对应的声纹识别模型;若接收到待识别声音信号,提取所述待识别声音信号的待识别声纹信息;利用每种型号对应的声纹识别模型对所述待识别声纹信息进行识别以得到识别结果。
在一实施例中,所述声纹信息包括梅尔频率倒谱系数的p阶分量;所述处理器302在执行所述从所述声音信号中提取声纹信息的步骤时,具体执行以下步骤:将所采集到的声音信号进行采样处理以得到数字声音信号;将所述数字声音信号进行预加重处理;将预加重处理后的数字声音信号进行分帧处理;将分帧处理后的数字声音信号进行加窗处理;将加窗处理后的数字声音信号进行快速傅里叶变换以得到频域的声音信号;通过三角形带通滤波器组对所述频域的声音信号进行滤波以使所述三角形带通滤波器中的每个滤波器分别输出滤波结果,其中,所述三角形带通滤波器包括p个滤波器;将每个滤波器输出的滤波结果分别取对数以得到所述声音信号的p个对数能量;将所得的p个对数能量进行离散余弦变化得到梅尔频率倒谱系数的p阶分量。
在一实施例中,所述声纹信息还包括梅尔频率倒谱系数的一阶差分;所述处理器302在执行将所得的p个对数能量进行离散余弦变化得到梅尔频率倒谱系数的n阶分量的步骤之后,还执行以下步骤:利用一阶梅尔频率倒谱系数分量和二阶梅尔频率倒谱系数分量计算梅尔频率倒谱系数的一阶差分。
在一实施例中,所述声纹信息包括基音频率;所述处理器302在执行所述从所述声音信号中提取声纹信息的步骤时,具体执行以下步骤:将所采集到的声音信号进行采样处理以得到数字声音信号;将所述数字声音信号进行预加重处理;将预加重处理后的数字声音信号进行分帧处理;将分帧处理后的数字声音信号进行加窗处理;将加窗处理后的数字声音信号进行削波处理;将削波处理后的数字声音信号进行短时自相关计算以得到自相关图;获取所述自相关图的相邻两个峰值;计算所述相邻两个峰值的差值,将所述差值确定为所述声音信号的基音周期;计算所述基音周期的倒数,将所述倒数确定为所述声音信号的基音频率。
在一实施例中,所述识别结果为概率;所述处理器302在执行利用每种型号对应的声纹识别模型对所述待识别声纹信息进行识别以得到识别结果的步骤之后,还执行以下步骤:获取最高概率;将所述最高概率对应的型号确定为产生所述待识别声音信号的车辆的型号;将所述型号显示在显示界面。
应当理解,在本申请实施例中,处理器302可以是中央处理单元(CentralProcessing Unit,CPU),该处理器302还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质,所述存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序可被一个或者一个以上的处理器执行,可实现以下步骤:采集若干种型号的车辆在行驶过程所产生的声音信号;从所述声音信号中提取声纹信息;基于高斯混合模型分别对每种型号的车辆所对应的声纹信息进行机器学习以得到每种型号对应的声纹识别模型;若接收到待识别声音信号,提取所述待识别声音信号的待识别声纹信息;利用每种型号对应的声纹识别模型对所述待识别声纹信息进行识别以得到识别结果。
在一实施例中,所述声纹信息包括梅尔频率倒谱系数的p阶分量;在实现所述从所述声音信号中提取声纹信息的步骤时,具体实现以下步骤:将所采集到的声音信号进行采样处理以得到数字声音信号;将所述数字声音信号进行预加重处理;将预加重处理后的数字声音信号进行分帧处理;将分帧处理后的数字声音信号进行加窗处理;将加窗处理后的数字声音信号进行快速傅里叶变换以得到频域的声音信号;通过三角形带通滤波器组对所述频域的声音信号进行滤波以使所述三角形带通滤波器中的每个滤波器分别输出滤波结果,其中,所述三角形带通滤波器包括p个滤波器;将每个滤波器输出的滤波结果分别取对数以得到所述声音信号的p个对数能量;将所得的p个对数能量进行离散余弦变化得到梅尔频率倒谱系数的p阶分量。
在一实施例中,所述声纹信息还包括梅尔频率倒谱系数的一阶差分;在实现将所得的p个对数能量进行离散余弦变化得到梅尔频率倒谱系数的n阶分量的步骤之后,还实现以下步骤:利用一阶梅尔频率倒谱系数分量和二阶梅尔频率倒谱系数分量计算梅尔频率倒谱系数的一阶差分。
在一实施例中,所述声纹信息包括基音频率;在实现所述从所述声音信号中提取声纹信息的步骤时,具体实现以下步骤:将所采集到的声音信号进行采样处理以得到数字声音信号;将所述数字声音信号进行预加重处理;将预加重处理后的数字声音信号进行分帧处理;将分帧处理后的数字声音信号进行加窗处理;将加窗处理后的数字声音信号进行削波处理;将削波处理后的数字声音信号进行短时自相关计算以得到自相关图;获取所述自相关图的相邻两个峰值;计算所述相邻两个峰值的差值,将所述差值确定为所述声音信号的基音周期;计算所述基音周期的倒数,将所述倒数确定为所述声音信号的基音频率。
在一实施例中,所述识别结果为概率;在实现利用每种型号对应的声纹识别模型对所述待识别声纹信息进行识别以得到识别结果的步骤之后,还实现以下步骤:获取最高概率;将所述最高概率对应的型号确定为产生所述待识别声音信号的车辆的型号;将所述型号显示在显示界面。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种车辆型号识别方法,其特征在于,包括:
采集若干种型号的车辆在行驶过程所产生的声音信号;
从所述声音信号中提取声纹信息;
基于高斯混合模型分别对每种型号的车辆所对应的声纹信息进行机器学习以得到每种型号对应的声纹识别模型;
若接收到待识别声音信号,提取所述待识别声音信号的待识别声纹信息;
利用每种型号对应的声纹识别模型对所述待识别声纹信息进行识别以得到识别结果。
2.根据权利要求1所述的车辆型号识别方法,其特征在于,所述声纹信息包括梅尔频率倒谱系数的p阶分量;
所述从所述声音信号中提取声纹信息,包括:
将所采集到的声音信号进行采样处理以得到数字声音信号;
将所述数字声音信号进行预加重处理;
将预加重处理后的数字声音信号进行分帧处理;
将分帧处理后的数字声音信号进行加窗处理;
将加窗处理后的数字声音信号进行快速傅里叶变换以得到频域的声音信号;
通过三角形带通滤波器组对所述频域的声音信号进行滤波以使所述三角形带通滤波器中的每个滤波器分别输出滤波结果,其中,所述三角形带通滤波器包括p个滤波器;
将每个滤波器输出的滤波结果分别取对数以得到所述声音信号的p个对数能量;
将所得的p个对数能量进行离散余弦变化得到梅尔频率倒谱系数的p阶分量。
3.根据权利要求2所述的车辆型号识别方法,其特征在于,所述声纹信息还包括梅尔频率倒谱系数的一阶差分;
将所得的p个对数能量进行离散余弦变化得到梅尔频率倒谱系数的n阶分量之后,还包括:
利用一阶梅尔频率倒谱系数分量和二阶梅尔频率倒谱系数分量计算梅尔频率倒谱系数的一阶差分。
4.根据权利要求1所述的车辆型号识别方法,其特征在于,所述声纹信息包括基音频率;
所述从所述声音信号中提取声纹信息,包括:
将所采集到的声音信号进行采样处理以得到数字声音信号;
将所述数字声音信号进行预加重处理;
将预加重处理后的数字声音信号进行分帧处理;
将分帧处理后的数字声音信号进行加窗处理;
将加窗处理后的数字声音信号进行削波处理;
将削波处理后的数字声音信号进行短时自相关计算以得到自相关图;
获取所述自相关图的相邻两个峰值;
计算所述相邻两个峰值的差值,将所述差值确定为所述声音信号的基音周期;
计算所述基音周期的倒数,将所述倒数确定为所述声音信号的基音频率。
5.根据权利要求1所述的车辆型号识别方法,其特征在于,所述识别结果为概率;
利用每种型号对应的声纹识别模型对所述待识别声纹信息进行识别以得到识别结果之后,还包括:
获取最高概率;
将所述最高概率对应的型号确定为产生所述待识别声音信号的车辆的型号;
将所述型号显示在显示界面。
6.一种车辆型号识别装置,其特征在于,包括:
采集单元,用于采集若干种型号的车辆在行驶过程所产生的声音信号;
第一提取单元,用于从所述声音信号中提取声纹信息;
机器学习单元,用于基于高斯混合模型分别对每种型号的车辆所对应的声纹信息进行机器学习以得到每种型号对应的声纹识别模型;
第二提取单元,用于若接收到待识别声音信号,提取所述待识别声音信号的待识别声纹信息;
识别单元,用于利用每种型号对应的声纹识别模型对所述待识别声纹信息进行识别以得到识别结果。
7.根据权利要求6所述的车辆型号识别装置,其特征在于,所述声纹信息包括梅尔频率倒谱系数的p阶分量和梅尔频率倒谱系数的一阶差分;
所述第一提取单元包括:
采样子单元,用于将所采集到的声音信号进行采样处理以得到数字声音信号;
预加重处理子单元,用于将所述数字声音信号进行预加重处理;
分帧处理子单元,用于将预加重处理后的数字声音信号进行分帧处理;
加窗处理子单元,用于将分帧处理后的数字声音信号进行加窗处理;
快速傅里叶变换子单元,用于将加窗处理后的数字声音信号进行快速傅里叶变换以得到频域的声音信号;
滤波子单元,用于通过三角形带通滤波器组对所述频域的声音信号进行滤波以使所述三角形带通滤波器中的每个滤波器分别输出滤波结果,其中,所述三角形带通滤波器包括p个滤波器;
第一计算子单元,用于将每个滤波器输出的滤波结果分别取对数以得到所述声音信号的p个对数能量;
离散余弦变换子单元,用于将所得的p个对数能量进行离散余弦变换得到梅尔频率倒谱系数的p阶分量。
8.根据权利要求6所述的车辆型号识别装置,其特征在于,所述识别结果为概率;
车辆型号识别装置还包括:
获取单元,用于获取最高概率;
确定单元,用于将所述最高概率对应的型号确定为产生所述待识别声音信号的车辆的型号;
显示单元,用于将所述型号显示在显示界面。
9.一种计算机设备,其特征在于,包括存储器以及与所述存储器相连的处理器,所述存储器用于存储实现车辆型号识别方法的计算机程序,所述处理器用于运行所述存储器中存储的计算机程序,以执行如权利要求1至5任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者一个以上计算机程序,所述一个或者一个以上计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811031361.7A CN108847253B (zh) | 2018-09-05 | 2018-09-05 | 车辆型号识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811031361.7A CN108847253B (zh) | 2018-09-05 | 2018-09-05 | 车辆型号识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108847253A true CN108847253A (zh) | 2018-11-20 |
CN108847253B CN108847253B (zh) | 2023-06-13 |
Family
ID=64189699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811031361.7A Active CN108847253B (zh) | 2018-09-05 | 2018-09-05 | 车辆型号识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108847253B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111261189A (zh) * | 2020-04-02 | 2020-06-09 | 中国科学院上海微系统与信息技术研究所 | 一种车辆声音信号特征提取方法 |
CN112927716A (zh) * | 2021-01-22 | 2021-06-08 | 华东交通大学 | 一种基于改进mfcc的工地特种车辆识别方法 |
CN113689888A (zh) * | 2021-07-30 | 2021-11-23 | 浙江大华技术股份有限公司 | 一种异常声音分类方法、系统、装置以及存储介质 |
CN114241780A (zh) * | 2021-11-29 | 2022-03-25 | 深圳市锐明技术股份有限公司 | 车辆型号识别方法、装置、电子设备及可读存储介质 |
CN116935278A (zh) * | 2023-07-25 | 2023-10-24 | 广东技术师范大学 | 基于同步信号的车型识别方法、装置、电子设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073851A (zh) * | 2011-01-13 | 2011-05-25 | 北京科技大学 | 一种城市交通事故自动识别方法和系统 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN105355202A (zh) * | 2014-08-22 | 2016-02-24 | 现代自动车株式会社 | 语音识别装置、具有语音识别装置的车辆及其控制方法 |
CN106782565A (zh) * | 2016-11-29 | 2017-05-31 | 重庆重智机器人研究院有限公司 | 一种声纹特征识别方法及系统 |
CN107610707A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
-
2018
- 2018-09-05 CN CN201811031361.7A patent/CN108847253B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073851A (zh) * | 2011-01-13 | 2011-05-25 | 北京科技大学 | 一种城市交通事故自动识别方法和系统 |
CN102324232A (zh) * | 2011-09-12 | 2012-01-18 | 辽宁工业大学 | 基于高斯混合模型的声纹识别方法及系统 |
CN105355202A (zh) * | 2014-08-22 | 2016-02-24 | 现代自动车株式会社 | 语音识别装置、具有语音识别装置的车辆及其控制方法 |
US20160057261A1 (en) * | 2014-08-22 | 2016-02-25 | Hyundai Motor Company | Voice recognition apparatus, vehicle having the same, and method of controlling the vehicle |
CN106782565A (zh) * | 2016-11-29 | 2017-05-31 | 重庆重智机器人研究院有限公司 | 一种声纹特征识别方法及系统 |
CN107610707A (zh) * | 2016-12-15 | 2018-01-19 | 平安科技(深圳)有限公司 | 一种声纹识别方法及装置 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111261189A (zh) * | 2020-04-02 | 2020-06-09 | 中国科学院上海微系统与信息技术研究所 | 一种车辆声音信号特征提取方法 |
CN112927716A (zh) * | 2021-01-22 | 2021-06-08 | 华东交通大学 | 一种基于改进mfcc的工地特种车辆识别方法 |
CN113689888A (zh) * | 2021-07-30 | 2021-11-23 | 浙江大华技术股份有限公司 | 一种异常声音分类方法、系统、装置以及存储介质 |
CN114241780A (zh) * | 2021-11-29 | 2022-03-25 | 深圳市锐明技术股份有限公司 | 车辆型号识别方法、装置、电子设备及可读存储介质 |
CN114241780B (zh) * | 2021-11-29 | 2023-01-06 | 深圳市锐明技术股份有限公司 | 车辆型号识别方法、装置、电子设备及可读存储介质 |
CN116935278A (zh) * | 2023-07-25 | 2023-10-24 | 广东技术师范大学 | 基于同步信号的车型识别方法、装置、电子设备及介质 |
CN116935278B (zh) * | 2023-07-25 | 2024-02-13 | 广东技术师范大学 | 基于同步信号的车型识别方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108847253B (zh) | 2023-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108847253A (zh) | 车辆型号识别方法、装置、计算机设备及存储介质 | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
CN105118502B (zh) | 语音识别系统的端点检测方法及系统 | |
CN109147796A (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
KR101266894B1 (ko) | 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법 | |
CN110459241B (zh) | 一种用于语音特征的提取方法和系统 | |
US20210193149A1 (en) | Method, apparatus and device for voiceprint recognition, and medium | |
CN109767783A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN109378010A (zh) | 神经网络模型的训练方法、语音去噪方法及装置 | |
KR20120090086A (ko) | 협대역 신호로부터의 상위대역 신호의 결정 | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
Shahnaz et al. | Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time-domain matching scheme | |
CN108604452A (zh) | 声音信号增强装置 | |
CN104183245A (zh) | 一种演唱者音色相似的歌星推荐方法与装置 | |
CN112599148A (zh) | 一种语音识别方法及装置 | |
CN105144290A (zh) | 信号处理装置、信号处理方法和信号处理程序 | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN111968651A (zh) | 一种基于wt的声纹识别方法及系统 | |
CN114863905A (zh) | 语音类别获取方法、装置、电子设备和存储介质 | |
CN112116909A (zh) | 语音识别方法、装置及系统 | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
Wang et al. | Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities | |
CN112489692B (zh) | 语音端点检测方法和装置 | |
Hammam et al. | Blind signal separation with noise reduction for efficient speaker identification | |
CN107919136B (zh) | 一种基于高斯混合模型的数字语音采样频率估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |