CN109065043A - 一种命令词识别方法及计算机存储介质 - Google Patents
一种命令词识别方法及计算机存储介质 Download PDFInfo
- Publication number
- CN109065043A CN109065043A CN201810954189.6A CN201810954189A CN109065043A CN 109065043 A CN109065043 A CN 109065043A CN 201810954189 A CN201810954189 A CN 201810954189A CN 109065043 A CN109065043 A CN 109065043A
- Authority
- CN
- China
- Prior art keywords
- voice
- efficient voice
- frequency
- energy value
- mfcc characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims description 41
- 238000001228 spectrum Methods 0.000 claims description 38
- 238000009432 framing Methods 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 8
- 241001269238 Data Species 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种命令词识别方法及计算机存储介质,所述命令词识别方法包括以下步骤:获取待识别语音的有效语音;获取有效语音的MFCC特征系数;将有效语音的MFCC特征系数与预设的若干MFCC特征系数依次通过DTW相似性算法进行匹配,得到若干MFCC特征系数对应的若干相似值;所述预设的若干MFCC特征系数为预设的若干命令词对应的MFCC特征系数;当某一相似值小于预设相似值时,则判断匹配成功,并提取匹配成功的MFCC特征系数对应的命令词。本发明解决了现有技术需要联网状态才能进行语音命令词识别的问题。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及一种命令词识别方法及计算机存储介质。
背景技术
近十几年来,在细化模型的设计、参数提取及优化,以及系统的自适应技术上取得了一些关键进展。语音识别技术越来越成熟,准确率逐步得到提高,并且市场上有相应的语音产品。
在智能录播系统中,不断的提高人机交互体验性更加便于老师不需要管理录播系统,语音命令词识别进而控制录播系统的常用功能,老师可以忘记录播系统的存在,更加专心与教学。老师上课时只需要说声“开始录制”,录播系统就开始录制视频。下课结束时说声“停止录制”即可完成一节课堂的录制。
目前市场上有对应的命令词识别模块,但是大部分的应用都得联网才能实现命令词的识别,这妨碍了命令词识别功能在嵌入式录播系统的应用,小型高效的命令词识别在嵌入式系统里很有前景的。
发明内容
鉴于以上技术问题,本发明的目的在于提供一种命令词识别方法及计算机存储介质,解决现有技术命令词识别需要联网才能实现命令词识别的问题。
本发明采用以下技术方案:
一种命令词识别方法,包括以下步骤:
获取待识别语音的有效语音;
获取有效语音的MFCC特征系数,(MFCC,即Mel频率倒谱系数的缩写);
将有效语音的MFCC特征系数与预设的若干MFCC特征系数依次通过DTW相似性算法进行匹配,得到若干MFCC特征系数对应的若干相似值;所述预设的若干MFCC特征系数为预设的若干命令词对应的MFCC特征系数;
当某一相似值小于预设相似值时,则判断有效语音的MFCC特征系数与该相似值对应的MFCC特征系数匹配成功,并提取匹配成功的MFCC特征系数对应的命令词。
进一步的,获取待识别语音的有效语音的步骤包括:
获取待识别语音的开始点和结束点;所述待识别语音的有效语音为以所述开始点开始,并以所述结束点结束的完整语音;
获取待识别语音的开始点和结束点包括以下步骤:
根据预设的采样频率和采样大小对待识别语音依次进行采样,得到若干采样音频数据,所述采样音频数据对应待识别语音的若干采样点;将所有采样音频数据依次通过FFT傅里叶变换得到若干采样频谱;
获取所有采样频谱频率位于100~1000Hz的能量值;并将所述能量值依次与预设能量值N1进行对比;
获取所有采样频谱频率位于300~1000Hz频段内的能量方差;并将所述能量方差依次与预设能量值n2进行对比;
当采样频谱频率中频率位于300~1000Hz频段获取的能量值大于预设能量值N1,且获取的能量方差大于预设能量值n2时,则判断该采样频谱对应的采样点位于有效语音的范围;
当采样频谱频率中频率位于300~1000Hz频段获取的能量值未大于预设能量值N1或获取的能量方差未大于预设能量值n2时,则判断该采样频谱对应的采样点位于噪音的范围;
将位于完整语音的范围的所有采样点按时序排列,得到按时序排列的完整语音的采样点序列,以有效语音的采样点序列中的第一采样点为有效语音的开始点;
将位于噪音的范围的采样点、且采样点采样时间位于有效语音的开始点之后的所有采样点按时序排列,得到按时序排列的噪音的采样点序列,以噪音的采样点序列中第一采样点为有效语音的结束点。
进一步的,获取有效语音的MFCC特征系数的步骤具体包括:
对有效语音依次进行分帧和加汉明窗,得到分帧加窗后的有效语音;
对分帧加窗后的有效语音提取MFCC特征系数。
进一步的,对分帧加窗后的有效语音提取MFCC特征系数的步骤具体包括:
对分帧加窗后的有效语音进行FFT傅里叶变换,得到有效语音频谱;将有效语音频谱通过滤波器组进行,并计算通过滤波器组的有效语音频谱共振峰;根据得到的共振峰计算有效语音频谱的对数能量值x(m),根据得到的对数能量值x(m)计算有效语音频谱的MFCC特征系数。
进一步的,对有效语音依次进行分帧和加汉明窗,得到分帧加窗的有效语音的步骤包括:
根据预设帧长N和帧移对有效语音进行分帧,得到n帧分帧有效语音;将得到的n帧分帧有效语音均加汉明窗,汉明窗的数值W满足以下公式:
其中,N为预设帧长,n为自然数。
进一步的,所述共振峰Hm(k)满足以下公式:
其中,Hm(k)为有效语音频谱中频率为k的频谱通过第m个滤波器时的共振峰,f(m)为第m个滤波器对应的中心频率,m为自然数。
进一步的,所述对数能量值满足以下公式:对数能量值
其中,x(m)为有效语音频谱通过第m个滤波器时的对数能量值,M为滤波器组中滤波器的个数,Hm(k)为有效语音频谱中频率为k的频谱通过第m个滤波器时的共振峰,X(k)为有效语音频谱中频率为k的频谱振幅,N为预设帧长,m为自然数;
所述MFCC特征系数满足以下公式:
MFCC特征系数
其中,Xj为第K阶梅尔特征系数,M为滤波器组中滤波器的个数,N为预设帧长,x(m)为有效语音频谱通过第m个滤波器时的对数能量值,L为MFCC系数的阶数,L、j均为自然数。
进一步的,所述滤波器组为三角滤波器组,所述三角滤波器组包括若干个三角滤波器,所述滤波器的个数为26个。
进一步的,所述预设的若干命令词根据嵌入式录播系统的老师预先录制的命令词语音获取。
一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的命令词识别方法。
相比现有技术,本发明的有益效果在于:
本发明通过获取待识别语音的有效语音,并将获取的有效语音的MFCC特征系数与预设的若干MFCC特征系数依次进行匹配,得到若干MFCC特征系数对应的若干相似值;当某一相似值小于预设相似值时,则判断有效语音的MFCC特征系数与该相似值对应的MFCC特征系数匹配成功,并提取匹配成功的MFCC特征系数对应的命令词,从而实现不联网状态下语音命令词的识别。
进一步的,预设的若干命令词根据嵌入式录播系统的老师预先录制的命令词语音得到,这样,命令词可根据老师的说话特点,将老师说的命令词语音作为匹配模板,进一步提高了识别的准确率。
附图说明
图1为本发明命令词识别方法的流程示意图;
图2为本发明获取有效语音MFCC特征系数的流程示意图;
图3为获取待识别语音的有效语音的流程示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例:
实施例:
请参考图1-3,一种命令词识别方法,如图1,包括以下步骤:
步骤S100:获取待识别语音的有效语音;
如图3所示,具体的,获取待识别语音的有效语音的步骤包括:
获取待识别语音的开始点和结束点;所述待识别语音的有效语音为以所述开始点开始,并以所述结束点结束的完整语音;
获取待识别语音的开始点和结束点包括以下步骤:
步骤S1001:根据预设的采样频率和采样大小对待识别语音依次进行采样,得到若干采样音频数据,所述采样音频数据对应待识别语音的若干采样点;并将所有采样音频数据依次通过FFT傅里叶变换得到若干采样频谱。
步骤S1002:获取所有采样频谱频率位于100~1000Hz的能量值;并将所述能量值依次与预设能量值N1进行对比;
步骤S1003:获取所有采样频谱频率位于300~1000Hz频段内的能量方差;并将所述能量方差依次与预设能量值n2进行对比;
步骤S1004:当采样频谱频率中频率位于300~1000Hz频段获取的能量值大于预设能量值N1,且获取的能量方差大于预设能量值n2时,则判断该采样频谱对应的采样点位于有效语音的范围;
步骤S1005:将位于完整语音的范围的所有采样点按时序排列,得到按时序排列的完整语音的采样点序列,以有效语音的采样点序列中的第一采样点为有效语音的开始点;
步骤S1006:当采样频谱频率中频率位于300~1000Hz频段获取的能量值未大于预设能量值N1或获取的能量方差未大于预设能量值n2时,则判断该采样频谱对应的采样点位于噪音的范围;
步骤S1007:将位于噪音的范围的采样点、且采样点采样时间位于有效语音的开始点之后的所有采样点按时序排列,得到按时序排列的噪音的采样点序列,以噪音的采样点序列中第一采样点为有效语音的结束点。所述按时序排列是指按照采样点在待识别语音中的出现的时间先后顺序。采样点采样时间先后顺序也是以采样点在待识别语音中的出现的时间先后顺序依次进行采样。
数字化的声音数据就是音频数据。在数字化声音时有两个重要的指标,即采样频率和采样大小。采样频率即单位时间内的采样次数,采样频率越大,采样点之间的间隔越小,数字化得到的声音就越逼真,但相应的数据量增大,处理起来就越困难;采样大小即记录每次样本值大小的数值的位数,它决定采样的动态变化范围,位数越多,所能记录声音的变化程度就越细腻,所得的数据量也越大。优选的,预设的采样大小为2048个音频数据。如果采样大小太小,这样得到的这段音频会不准确,频率分辨率过低,需要通过FFT傅里叶变换补零,补零的情况会耗费CPU资源及耗时,采样过多也会耗时,因此,采用了采样大小2048个音频数据,既保证了分辨率的精度,也不会过多耗费CPU资源。
将一段语音从时域转为频域,这段语音这时就有可量化的参数,(人声的频率范围)判断是否有这段语音是否有人声的频率同时对应的频率能量值是多少。本发明的发明点进一步通过将频段的能量方差与预设能量值N2进行对比,提高了对待识别语音开始点和结束点判断的准确率,大部分在100-1000HZ的噪音各个频段的能量值相差不大,因此这些噪音方差值比较小。
调节N1和N2值,值越小,越灵敏,很容易触发程序判断为这段语音就是人声不是噪音,但是误触发的概率会越大。根据项目多方面的测试,当预设能量值N1设置为38000-60000J,预设能量值n2设置为30-70J时,大大提高了开始点和结束点检测的准确率。
步骤S200:获取有效语音的MFCC特征系数;
具体的,图2所示,获取有效语音的MFCC特征系数的步骤具体包括:
步骤S2001:对有效语音依次进行分帧和加汉明窗,得到分帧加窗后的有效语音;
步骤S2002:对分帧加窗后的有效语音提取MFCC特征系数;
对分帧加窗后的有效语音提取MFCC特征系数的步骤具体包括:
步骤S20021:对分帧加窗后的有效语音进行FFT傅里叶变换,得到有效语音频谱;
步骤S20022:将有效语音频谱通过滤波器组进行,并计算通过滤波器组的有效语音频谱共振峰;
步骤S20023:根据得到的共振峰计算有效语音频谱的对数能量值x(m);
步骤S20024:根据得到的对数能量值x(m)计算有效语音频谱的MFCC特征系数。
对有效语音依次进行分帧和加汉明窗,得到分帧加窗的有效语音的步骤包括:
根据预设帧长N和帧移对有效语音进行分帧,得到n帧分帧有效语音;将得到的n帧分帧有效语音均加汉明窗,汉明窗的数值W满足以下公式:
其中,N为预设帧长,n为自然数。
所述共振峰Hm(k)满足以下公式:
其中,Hm(k)为有效语音频谱中频率为k的频谱通过第m个滤波器时的共振峰,f(m)为第m个滤波器对应的中心频率,m为自然数。
所述对数能量值满足以下公式:对数能量值
其中,x(m)为有效语音频谱通过第m个滤波器时的对数能量值,M为滤波器组中滤波器的个数,Hm(k)为有效语音频谱中频率为k的频谱通过第m个滤波器时的共振峰,X(k)为有效语音频谱中频率为k的频谱振幅,N为预设帧长,m为自然数;
所述MFCC特征系数满足以下公式:
MFCC特征系数
其中,Xj为第K阶梅尔特征系数,M为滤波器组中滤波器的个数,N为预设帧长,x(m)为有效语音频谱通过第m个滤波器时的对数能量值,L为MFCC系数的阶数,L、j均为自然数。
作为实施例:所述滤波器组为三角滤波器组,所述三角滤波器组包括若干个三角滤波器,滤波器的个数为26个。
本发明通过对有效语音进行分帧,对每帧加汉明窗以减少频率的泄露,再对每帧进行FFT傅里叶变换,得到有效语音频谱,将有效语音频谱使用了26个三角滤波器,对每帧经过FFT傅里叶变换后的数据进行三角滤波以模拟人耳的掩蔽效应。最后对每帧进行DCT离散余弦变换即可得到每帧语音的MFCC梅尔特征系数。
步骤S300:将有效语音的MFCC特征系数与预设的若干MFCC特征系数依次通过DTW相似性算法进行匹配,得到若干MFCC特征系数对应的若干相似值;所述预设的若干MFCC特征系数为预设的若干命令词对应的MFCC特征系数;所述预设的若干命令词根据嵌入式录播系统的老师预先录制的命令词语音获取。
步骤S400:当某一相似值小于预设相似值时,则判断有效语音的MFCC特征系数与该相似值对应的MFCC特征系数匹配成功,并提取匹配成功的MFCC特征系数对应的命令词。
通过将有效语音的MFCC特征系数与预设的命令词的MFCC特征系数使用DTW匹配算法进行匹配,实现将相似度控制在相似值的阈值以内的命令词匹配上。
本发明中,待识别语音主要是指语音命令词,本发明主要是用于嵌入式录播系统的老师的命令词语音识别。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,可以存储在该计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被微处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (10)
1.一种命令词识别方法,其特征在于,包括以下步骤:
获取待识别语音的有效语音;
获取有效语音的MFCC特征系数;
将有效语音的MFCC特征系数与预设的若干MFCC特征系数依次通过DTW相似性算法进行匹配,得到若干MFCC特征系数对应的若干相似值;所述预设的若干MFCC特征系数为预设的若干命令词对应的MFCC特征系数;
当某一相似值小于预设相似值时,则判断有效语音的MFCC特征系数与该相似值对应的MFCC特征系数匹配成功,并提取匹配成功的MFCC特征系数对应的命令词。
2.根据权利要求1所述的命令词识别方法,其特征在于,获取待识别语音的有效语音的步骤包括:
获取待识别语音的开始点和结束点;所述待识别语音的有效语音为以所述开始点开始,并以所述结束点结束的完整语音;
获取待识别语音的开始点和结束点包括以下步骤:
根据预设的采样频率和采样大小对待识别语音依次进行采样,得到若干采样音频数据,所述采样音频数据对应待识别语音的若干采样点;将所有采样音频数据依次通过FFT傅里叶变换得到若干采样频谱;
获取所有采样频谱频率位于100~1000Hz的能量值;并将所述能量值依次与预设能量值N1进行对比;
获取所有采样频谱频率位于300~1000Hz频段内的能量方差;并将所述能量方差依次与预设能量值n2进行对比;
当采样频谱频率中频率位于300~1000Hz频段获取的能量值大于预设能量值N1,且获取的能量方差大于预设能量值n2时,则判断该采样频谱对应的采样点位于有效语音的范围;
当采样频谱频率中频率位于300~1000Hz频段获取的能量值未大于预设能量值N1或获取的能量方差未大于预设能量值n2时,则判断该采样频谱对应的采样点位于噪音的范围;
将位于完整语音的范围的所有采样点按时序排列,得到按时序排列的完整语音的采样点序列,以有效语音的采样点序列中的第一采样点为有效语音的开始点;
将位于噪音的范围的采样点、且采样点采样时间位于有效语音的开始点之后的所有采样点按时序排列,得到按时序排列的噪音的采样点序列,以噪音的采样点序列中第一采样点为有效语音的结束点。
3.根据权利要求1所述的命令词识别方法,其特征在于,获取有效语音的MFCC特征系数的步骤具体包括:
对有效语音依次进行分帧和加汉明窗,得到分帧加窗后的有效语音;
对分帧加窗后的有效语音提取MFCC特征系数。
4.根据权利要求3所述的命令词识别方法,其特征在于,对分帧加窗后的有效语音提取MFCC特征系数的步骤具体包括:
对分帧加窗后的有效语音进行FFT傅里叶变换,得到有效语音频谱;将有效语音频谱通过滤波器组进行,并计算通过滤波器组的有效语音频谱共振峰;根据得到的共振峰计算有效语音频谱的对数能量值x(m),根据得到的对数能量值x(m)计算有效语音频谱的MFCC特征系数。
5.根据权利要求4所述的命令词识别方法,其特征在于,对有效语音依次进行分帧和加汉明窗,得到分帧加窗的有效语音的步骤包括:
根据预设帧长N和帧移对有效语音进行分帧,得到n帧分帧有效语音;将得到的n帧分帧有效语音均加汉明窗,汉明窗的数值W满足以下公式:
其中,N为预设帧长,n为自然数。
6.根据权利要求4所述的命令词识别方法,其特征在于,所述共振峰Hm(k)满足以下公式:
其中,Hm(k)为有效语音频谱中频率为k的频谱通过第m个滤波器时的共振峰,f(m)为第m个滤波器对应的中心频率,m为自然数。
7.根据权利要求6所述的命令词识别方法,其特征在于,
所述对数能量值满足以下公式:对数能量值
其中,x(m)为有效语音频谱通过第m个滤波器时的对数能量值,M为滤波器组中滤波器的个数,Hm(k)为有效语音频谱中频率为k的频谱通过第m个滤波器时的共振峰,X(k)为有效语音频谱中频率为k的频谱振幅,N为预设帧长,m为自然数;
所述MFCC特征系数满足以下公式:
MFCC特征系数
其中,Xj为第K阶梅尔特征系数,M为滤波器组中滤波器的个数,N为预设帧长,x(m)为有效语音频谱通过第m个滤波器时的对数能量值,L为MFCC系数的阶数,L、j均为自然数。
8.根据权利要求4所述的命令词识别方法,其特征在于,所述滤波器组为三角滤波器组,所述三角滤波器组包括若干个三角滤波器,所述滤波器的个数为26个。
9.根据权利要求1-8任一项所述的命令词识别方法,其特征在于,所述预设的若干命令词根据嵌入式录播系统的老师预先录制的命令词语音获取。
10.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-9任一项所述的命令词识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810954189.6A CN109065043B (zh) | 2018-08-21 | 2018-08-21 | 一种命令词识别方法及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810954189.6A CN109065043B (zh) | 2018-08-21 | 2018-08-21 | 一种命令词识别方法及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109065043A true CN109065043A (zh) | 2018-12-21 |
CN109065043B CN109065043B (zh) | 2022-07-05 |
Family
ID=64687635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810954189.6A Active CN109065043B (zh) | 2018-08-21 | 2018-08-21 | 一种命令词识别方法及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109065043B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415682A (zh) * | 2019-07-08 | 2019-11-05 | 海尔优家智能科技(北京)有限公司 | 控制智能设备的方法及装置 |
CN110580908A (zh) * | 2019-09-29 | 2019-12-17 | 出门问问信息科技有限公司 | 一种支持不同语种的命令词检测方法及设备 |
CN111798846A (zh) * | 2020-06-02 | 2020-10-20 | 厦门亿联网络技术股份有限公司 | 语音命令词识别方法、装置、会议终端及会议终端系统 |
CN112965687A (zh) * | 2021-03-19 | 2021-06-15 | 成都启英泰伦科技有限公司 | 一种多用户语音识别产品开发平台和开发方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108962249B (zh) * | 2018-08-21 | 2023-03-31 | 广州市保伦电子有限公司 | 一种基于mfcc语音特征的语音匹配方法及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5826230A (en) * | 1994-07-18 | 1998-10-20 | Matsushita Electric Industrial Co., Ltd. | Speech detection device |
EP0945854A2 (en) * | 1998-03-24 | 1999-09-29 | Matsushita Electric Industrial Co., Ltd. | Speech detection system for noisy conditions |
US20090265159A1 (en) * | 2008-04-18 | 2009-10-22 | Li Tze-Fen | Speech recognition method for both english and chinese |
CN103165128A (zh) * | 2011-12-14 | 2013-06-19 | 天津天维移动通讯终端检测有限公司 | 一种频带方差端点检测方法 |
CN103903612A (zh) * | 2014-03-26 | 2014-07-02 | 浙江工业大学 | 一种实时语音识别数字的方法 |
CN104822108A (zh) * | 2015-03-13 | 2015-08-05 | 广州市保伦电子有限公司 | 全数字会议音频混音装置及方法 |
CN106920558A (zh) * | 2015-12-25 | 2017-07-04 | 展讯通信(上海)有限公司 | 关键词识别方法及装置 |
CN106991998A (zh) * | 2017-04-19 | 2017-07-28 | 重庆邮电大学 | 噪声环境下语音端点的检测方法 |
-
2018
- 2018-08-21 CN CN201810954189.6A patent/CN109065043B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5826230A (en) * | 1994-07-18 | 1998-10-20 | Matsushita Electric Industrial Co., Ltd. | Speech detection device |
EP0945854A2 (en) * | 1998-03-24 | 1999-09-29 | Matsushita Electric Industrial Co., Ltd. | Speech detection system for noisy conditions |
US20090265159A1 (en) * | 2008-04-18 | 2009-10-22 | Li Tze-Fen | Speech recognition method for both english and chinese |
CN103165128A (zh) * | 2011-12-14 | 2013-06-19 | 天津天维移动通讯终端检测有限公司 | 一种频带方差端点检测方法 |
CN103903612A (zh) * | 2014-03-26 | 2014-07-02 | 浙江工业大学 | 一种实时语音识别数字的方法 |
CN104822108A (zh) * | 2015-03-13 | 2015-08-05 | 广州市保伦电子有限公司 | 全数字会议音频混音装置及方法 |
CN106920558A (zh) * | 2015-12-25 | 2017-07-04 | 展讯通信(上海)有限公司 | 关键词识别方法及装置 |
CN106991998A (zh) * | 2017-04-19 | 2017-07-28 | 重庆邮电大学 | 噪声环境下语音端点的检测方法 |
Non-Patent Citations (3)
Title |
---|
YI HU,ET AL.: "Speech enhancement based on wavelet thresholding the multitaper spectrum", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING 》 * |
郭逾等: "一种基于频域特征和过渡段判决的端点检测算法", 《山东大学学报(工学版)》 * |
韩志艳著: "《语音识别及语音可视化技术研究》", 30 January 2017, 东北大学出版社 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110415682A (zh) * | 2019-07-08 | 2019-11-05 | 海尔优家智能科技(北京)有限公司 | 控制智能设备的方法及装置 |
CN110580908A (zh) * | 2019-09-29 | 2019-12-17 | 出门问问信息科技有限公司 | 一种支持不同语种的命令词检测方法及设备 |
CN111798846A (zh) * | 2020-06-02 | 2020-10-20 | 厦门亿联网络技术股份有限公司 | 语音命令词识别方法、装置、会议终端及会议终端系统 |
CN112965687A (zh) * | 2021-03-19 | 2021-06-15 | 成都启英泰伦科技有限公司 | 一种多用户语音识别产品开发平台和开发方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109065043B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109065043A (zh) | 一种命令词识别方法及计算机存储介质 | |
CN108369813B (zh) | 特定声音识别方法、设备和存储介质 | |
CN106847292B (zh) | 声纹识别方法及装置 | |
CN106935248B (zh) | 一种语音相似度检测方法及装置 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN103280220B (zh) | 一种实时的婴儿啼哭声识别方法 | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
CN108701469B (zh) | 咳嗽声音识别方法、设备和存储介质 | |
CN106504768B (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
CN110880329B (zh) | 一种音频识别方法及设备、存储介质 | |
CN108694954A (zh) | 一种性别年龄识别方法、装置、设备及可读存储介质 | |
CN103514884A (zh) | 通话音降噪方法及终端 | |
CN106024010B (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
CN102982803A (zh) | 基于hrsf及改进dtw算法的孤立词语音识别方法 | |
CN107993663A (zh) | 一种基于Android的声纹识别方法 | |
CN109036437A (zh) | 口音识别方法、装置、计算机装置及计算机可读存储介质 | |
CN110060665A (zh) | 语速检测方法及装置、可读存储介质 | |
CN106548786B (zh) | 一种音频数据的检测方法及系统 | |
WO2019232826A1 (zh) | i-vector向量提取方法、说话人识别方法、装置、设备及介质 | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
CN108198545A (zh) | 一种基于小波变换的语音识别方法 | |
CN110797031A (zh) | 语音变音检测方法、系统、移动终端及存储介质 | |
Chauhan et al. | Speech to text converter using Gaussian Mixture Model (GMM) | |
Thirumuru et al. | Novel feature representation using single frequency filtering and nonlinear energy operator for speech emotion recognition | |
CN109377982A (zh) | 一种有效语音获取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: No. 56 Nanli East Road, Shiqi Town, Panyu District, Guangzhou City, Guangdong Province, 510000 Patentee after: Guangdong Baolun Electronics Co.,Ltd. Address before: 511400 Building 1, industrial zone B, Zhongcun street, Zhongcun street, Panyu District, Guangzhou City, Guangdong Province Patentee before: GUANGZHOU ITC ELECTRONIC TECHNOLOGY Co.,Ltd. |