CN108962249B - 一种基于mfcc语音特征的语音匹配方法及存储介质 - Google Patents

一种基于mfcc语音特征的语音匹配方法及存储介质 Download PDF

Info

Publication number
CN108962249B
CN108962249B CN201810954183.9A CN201810954183A CN108962249B CN 108962249 B CN108962249 B CN 108962249B CN 201810954183 A CN201810954183 A CN 201810954183A CN 108962249 B CN108962249 B CN 108962249B
Authority
CN
China
Prior art keywords
voice
mfcc
effective
preset
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810954183.9A
Other languages
English (en)
Other versions
CN108962249A (zh
Inventor
赵定金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Baolun Electronics Co Ltd
Original Assignee
Guangzhou Baolun Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baolun Electronics Co Ltd filed Critical Guangzhou Baolun Electronics Co Ltd
Priority to CN201810954183.9A priority Critical patent/CN108962249B/zh
Publication of CN108962249A publication Critical patent/CN108962249A/zh
Application granted granted Critical
Publication of CN108962249B publication Critical patent/CN108962249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于MFCC语音特征的语音匹配方法,包括以下步骤:获取有效语音的MFCC特征系数;将有效语音的MFCC特征系数与预设的若干MFCC特征系数依次进行匹配,得到若干MFCC特征系数对应的若干相似值;所述预设的若干MFCC特征系数为预设的若干命令词对应的MFCC特征系数;当某一相似值小于预设相似值时,则判断有效语音的MFCC特征系数与该相似值对应的MFCC特征系数匹配成功,并提取匹配成功的MFCC特征系数对应的命令词。本发明解决命令词识别系统不联网状态下语音命令词的语音匹配问题。

Description

一种基于MFCC语音特征的语音匹配方法及存储介质
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于MFCC语音特征的语音匹配方法及存储介质。
背景技术
近十几年来,在细化模型的设计、参数提取及优化,以及系统的自适应技术上取得了一些关键进展。语音识别技术越来越成熟,准确率逐步得到提高,并且市场上有相应的语音产品。
在智能录播系统中,不断的提高人机交互体验性更加便于老师不需要管理录播系统,语音命令词识别进而控制录播系统的常用功能,老师可以忘记录播系统的存在,更加专心与教学。老师上课时只需要说声“开始录制”,录播系统就开始录制视频。下课结束时说声“停止录制”即可完成一节课堂的录制。
目前市场上有对应的命令词识别模块,但是大部分的应用都得联网才能实现命令词的识别,这妨碍了命令词识别功能在嵌入式录播系统的应用,小型高效的命令词识别在嵌入式系统里很有前景的。
发明内容
鉴于以上技术问题,本发明的目的在于提供一种基于MFCC语音特征的语音匹配方法及存储介质,解决命令词识别系统不联网状态下语音命令词的语音匹配问题。
本发明采用以下技术方案:
一种基于MFCC语音特征的语音匹配方法,包括以下步骤:
获取有效语音的MFCC特征系数;
将有效语音的MFCC特征系数与预设的若干MFCC特征系数依次进行匹配,得到若干MFCC特征系数对应的若干相似值;所述预设的若干MFCC特征系数为预设的若干命令词对应的MFCC特征系数;
当某一相似值小于预设相似值时,则判断有效语音的MFCC特征系数与该相似值对应的MFCC特征系数匹配成功,并提取匹配成功的MFCC特征系数对应的命令词。
进一步的,将有效语音的MFCC特征系数与预设的若干MFCC特征系数依次进行匹配的步骤具体包括将有效语音的MFCC特征系数与预设的若干MFCC特征系数依次通过DTW相似性算法进行匹配。
进一步的,获取有效语音的MFCC特征系数的步骤具体包括:
对有效语音依次进行分帧和加汉明窗,得到分帧加窗后的有效语音;
对分帧加窗后的有效语音提取MFCC特征系数。
进一步的,对分帧加窗后的有效语音提取MFCC特征系数的步骤具体包括:
对分帧加窗后的有效语音进行FFT傅里叶变换,得到有效语音频谱;将有效语音频谱通过滤波器组进行,并计算通过滤波器组的有效语音频谱共振峰;根据得到的共振峰计算有效语音频谱的对数能量值x(m),根据得到的对数能量值x(m)计算有效语音频谱的MFCC特征系数。
进一步的,对有效语音依次进行分帧和加汉明窗,得到分帧加窗的有效语音的步骤包括:
根据预设帧长N和帧移对有效语音进行分帧,得到n帧分帧有效语音;将得到的n帧分帧有效语音均加汉明窗,汉明窗的数值W满足以下公式:
Figure BDA0001772276730000031
其中,N为预设帧长,n为自然数。
进一步的,所述共振峰Hm(k)满足以下公式:
Figure BDA0001772276730000032
其中,Hm(k)为有效语音频谱中频率为k的频谱通过第m个滤波器时的共振峰,f(m)为第m个滤波器对应的中心频率,m为自然数。
进一步的,所述对数能量值满足以下公式:对数能量值
Figure BDA0001772276730000033
其中,x(m)为有效语音频谱通过第m个滤波器时的对数能量值,M为滤波器组中滤波器的个数,Hm(k)为有效语音频谱中频率为k的频谱通过第m个滤波器时的共振峰,X(k)为有效语音频谱中频率为k的频谱振幅,N为预设帧长,m为自然数;
进一步的,所述MFCC特征系数满足以下公式:
MFCC特征系数
Figure BDA0001772276730000041
其中,Xj为第K阶梅尔特征系数,M为滤波器组中滤波器的个数,N为预设帧长,x(m)为有效语音频谱通过第m个滤波器时的对数能量值,L为MFCC系数的阶数,L、j均为自然数。
进一步的,所述预设的若干命令词根据嵌入式录播系统的老师预先录制的命令词语音获取。
一种计算机存储介质,实现上述的基于MFCC语音特征的语音匹配方法。
相比现有技术,本发明的有益效果在于:
本发明通过将获取的有效语音的MFCC特征系数与预设的若干MFCC特征系数依次进行匹配,得到若干MFCC特征系数对应的若干相似值;预设的若干MFCC特征系数为预设的若干命令词对应的MFCC特征系数;当某一相似值小于预设相似值时,则判断有效语音的MFCC特征系数与该相似值对应的MFCC特征系数匹配成功,并提取匹配成功的MFCC特征系数对应的命令词,从而实现不联网状态下语音命令词的语音匹配。
进一步的,预设的若干命令词根据嵌入式录播系统的老师预先录制的命令词语音获取,这样,命令词可根据老师的说话特点,将老师说的命令词语音作为匹配模板,进一步提高了语音命令词语音匹配的准确率。
附图说明
图1为本发明基于MFCC语音特征的语音匹配方法的流程示意图;
图2为本发明的获取有效语音的MFCC特征系数的流程示意图;
图3为获取待识别语音的有效语音的流程示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例:
实施例:
如图1所示,本发明的基于MFCC语音特征的语音匹配方法包括:
步骤S200:获取有效语音的MFCC特征系数;(MFCC,即Mel频率倒谱系数的缩写);
具体的,如图2所示,获取有效语音的MFCC特征系数的步骤具体包括:
步骤S2001:对有效语音依次进行分帧和加汉明窗,得到分帧加窗后的有效语音;
步骤S2002:对分帧加窗后的有效语音提取MFCC特征系数;
对分帧加窗后的有效语音提取MFCC特征系数的步骤具体包括:
步骤S20021:对分帧加窗后的有效语音进行FFT傅里叶变换,得到有效语音频谱;
步骤S20022:将有效语音频谱通过滤波器组进行,并计算通过滤波器组的有效语音频谱共振峰;
步骤S20023:根据得到的共振峰计算有效语音频谱的对数能量值x(m);
步骤S20024:根据得到的对数能量值x(m)计算有效语音频谱的MFCC特征系数。
对有效语音依次进行分帧和加汉明窗,得到分帧加窗的有效语音的步骤包括:
根据预设帧长N和帧移对有效语音进行分帧,得到n帧分帧有效语音;将得到的n帧分帧有效语音均加汉明窗,汉明窗的数值W满足以下公式:
Figure BDA0001772276730000061
其中,N为预设帧长,n为自然数。
所述共振峰Hm(k)满足以下公式:
Figure BDA0001772276730000062
其中,Hm(k)为有效语音频谱中频率为k的频谱通过第m个滤波器时的共振峰,f(m)为第m个滤波器对应的中心频率,m为自然数。
所述对数能量值满足以下公式:对数能量值
Figure BDA0001772276730000063
其中,x(m)为有效语音频谱通过第m个滤波器时的对数能量值,M为滤波器组中滤波器的个数,Hm(k)为有效语音频谱中频率为k的频谱通过第m个滤波器时的共振峰,X(k)为有效语音频谱中频率为k的频谱振幅,N为预设帧长,m为自然数;
所述MFCC特征系数满足以下公式:
MFCC特征系数
Figure BDA0001772276730000071
其中,Xj为第K阶梅尔特征系数,M为滤波器组中滤波器的个数,N为预设帧长,x(m)为有效语音频谱通过第m个滤波器时的对数能量值,L为MFCC系数的阶数,L、j均为自然数。
作为实施例:所述滤波器组为三角滤波器组,所述三角滤波器组包括若干个三角滤波器,滤波器的个数为26个。
本发明通过对有效语音进行分帧,对每帧加汉明窗以减少频率的泄露,再对每帧进行FFT傅里叶变换,得到有效语音频谱,将有效语音频谱使用了26个三角滤波器,对每帧经过FFT傅里叶变换后的数据进行三角滤波以模拟人耳的掩蔽效应。最后对每帧进行DCT离散余弦变换即可得到每帧语音的MFCC梅尔特征系数。
步骤S300:将有效语音的MFCC特征系数与预设的若干MFCC特征系数依次通过DTW相似性算法进行匹配,得到若干MFCC特征系数对应的若干相似值;所述预设的若干MFCC特征系数为预设的若干命令词对应的MFCC特征系数;所述预设的若干命令词根据嵌入式录播系统的老师预先录制的命令词语音获取。
步骤S400:当某一相似值小于预设相似值时,则判断有效语音的MFCC特征系数与该相似值对应的MFCC特征系数匹配成功,并提取匹配成功的MFCC特征系数对应的命令词。
通过将有效语音的MFCC特征系数与预设的命令词的MFCC特征系数使用DTW匹配算法进行匹配,实现将相似度控制在相似值的阈值以内的命令词匹配上。
本发明用于在命令词识别系统不联网状态下语音命令词的语音匹配问题,命令词的识别方法,包括:步骤S100:获取待识别语音的有效语音;步骤S200:将有效语音进行基于MFCC语音特征的语音匹配。
具体的,获取待识别语音的有效语音的步骤包括,如图3所示:
获取待识别语音的开始点和结束点;所述待识别语音的有效语音为以所述开始点开始,并以所述结束点结束的完整语音;
获取待识别语音的开始点和结束点包括以下步骤:
步骤S1001:根据预设的采样频率和采样大小对待识别语音依次进行采样,得到若干采样音频数据,所述采样音频数据对应待识别语音的若干采样点;并将所有采样音频数据依次通过FFT傅里叶变换得到若干采样频谱。
步骤S1002:获取所有采样频谱频率位于100~1000Hz的能量值;并将所述能量值依次与预设能量值N1进行对比;
步骤S1003:获取所有采样频谱频率位于300~1000Hz频段内的能量方差;并将所述能量方差依次与预设能量值n2进行对比;
步骤S1004:当采样频谱频率中频率位于300~1000Hz频段获取的能量值大于预设能量值N1,且获取的能量方差大于预设能量值n2时,则判断该采样频谱对应的采样点位于有效语音的范围;
步骤S1005:将位于完整语音的范围的所有采样点按时序排列,得到按时序排列的完整语音的采样点序列,以有效语音的采样点序列中的第一采样点为有效语音的开始点;
步骤S1006:当采样频谱频率中频率位于300~1000Hz频段获取的能量值未大于预设能量值N1或获取的能量方差未大于预设能量值n2时,则判断该采样频谱对应的采样点位于噪音的范围;
步骤S1007:将位于噪音的范围的采样点、且采样点采样时间位于有效语音的开始点之后的所有采样点按时序排列,得到按时序排列的噪音的采样点序列,以噪音的采样点序列中第一采样点为有效语音的结束点。所述按时序排列是指按照采样点在待识别语音中的出现的时间先后顺序。采样点采样时间先后顺序也是以采样点在待识别语音中的出现的时间先后顺序依次进行采样。
数字化的声音数据就是音频数据。在数字化声音时有两个重要的指标,即采样频率和采样大小。采样频率即单位时间内的采样次数,采样频率越大,采样点之间的间隔越小,数字化得到的声音就越逼真,但相应的数据量增大,处理起来就越困难;采样大小即记录每次样本值大小的数值的位数,它决定采样的动态变化范围,位数越多,所能记录声音的变化程度就越细腻,所得的数据量也越大。优选的,预设的采样大小为2048个音频数据。如果采样大小太小,这样得到的这段音频会不准确,频率分辨率过低,需要通过FFT傅里叶变换补零,补零的情况会耗费CPU资源及耗时,采样过多也会耗时,因此,采用了采样大小2048个音频数据,既保证了分辨率的精度,也不会过多耗费CPU资源。
将一段语音从时域转为频域,这段语音这时就有可量化的参数,(人声的频率范围)判断是否有这段语音是否有人声的频率同时对应的频率能量值是多少。本发明的发明点进一步通过将频段的能量方差与预设能量值N2进行对比,提高了对待识别语音开始点和结束点判断的准确率,大部分在100-1000HZ的噪音各个频段的能量值相差不大,因此这些噪音方差值比较小。
调节N1和N2值,值越小,越灵敏,很容易触发程序判断为这段语音就是人声不是噪音,但是误触发的概率会越大。根据项目多方面的测试,当预设能量值N1设置为38000-60000J,预设能量值n2设置为30-70J时,大大提高了开始点和结束点检测的准确率。
本发明中,待识别语音主要是指语音命令词,本发明主要是用于嵌入式录播系统的老师的命令词语音识别。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,可以存储在该计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被微处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (9)

1.一种基于MFCC语音特征的语音匹配方法,其特征在于,包括以下步骤:
获取有效语音的MFCC特征系数;具体的,获取待识别语音的有效语音的步骤包括:
获取待识别语音的开始点和结束点;所述待识别语音的有效语音为以所述开始点开始,并以所述结束点结束的完整语音;
获取待识别语音的开始点和结束点包括以下步骤:
步骤S1001:根据预设的采样频率和采样大小对待识别语音依次进行采样,得到若干采样音频数据,所述采样音频数据对应待识别语音的若干采样点;并将所有采样音频数据依次通过FFT傅里叶变换得到若干采样频谱;
步骤S1002:获取所有采样频谱频率位于100~1000Hz的能量值;并将所述能量值依次与预设能量值N1进行对比;
步骤S1003:获取所有采样频谱频率位于300~1000Hz频段内的能量方差;并将所述能量方差依次与预设能量值n2进行对比;
步骤S1004:当采样频谱频率中频率位于300~1000Hz频段获取的能量值大于预设能量值N1,且获取的能量方差大于预设能量值n2时,则判断该采样频谱对应的采样点位于有效语音的范围;
步骤S1005:将位于完整语音的范围的所有采样点按时序排列,得到按时序排列的完整语音的采样点序列,以有效语音的采样点序列中的第一采样点为有效语音的开始点;
步骤S1006:当采样频谱频率中频率位于300~1000Hz频段获取的能量值未大于预设能量值N1或获取的能量方差未大于预设能量值n2时,则判断该采样频谱对应的采样点位于噪音的范围;
步骤S1007:将位于噪音的范围的采样点、且采样点采样时间位于有效语音的开始点之后的所有采样点按时序排列,得到按时序排列的噪音的采样点序列,以噪音的采样点序列中第一采样点为有效语音的结束点;
将有效语音的MFCC特征系数与预设的若干MFCC特征系数依次进行匹配,得到若干MFCC特征系数对应的若干相似值;所述预设的若干MFCC特征系数为预设的若干命令词对应的MFCC特征系数;
当某一相似值小于预设相似值时,则判断有效语音的MFCC特征系数与该相似值对应的MFCC特征系数匹配成功,并提取匹配成功的MFCC特征系数对应的命令词。
2.根据权利要求1所述的基于MFCC语音特征的语音匹配方法,其特征在于,获取有效语音的MFCC特征系数的步骤具体包括:
对有效语音依次进行分帧和加汉明窗,得到分帧加窗后的有效语音;
对分帧加窗后的有效语音提取MFCC特征系数。
3.根据权利要求2所述的基于MFCC语音特征的语音匹配方法,其特征在于,对分帧加窗后的有效语音提取MFCC特征系数的步骤具体包括:
对分帧加窗后的有效语音进行FFT傅里叶变换,得到有效语音频谱;将有效语音频谱通过滤波器组进行,并计算通过滤波器组的有效语音频谱共振峰;根据得到的共振峰计算有效语音频谱的对数能量值x(m),根据得到的对数能量值x(m)计算有效语音频谱的MFCC特征系数。
4.根据权利要求3所述的基于MFCC语音特征的语音匹配方法,其特征在于,对有效语音依次进行分帧和加汉明窗,得到分帧加窗的有效语音的步骤包括:
根据预设帧长N和帧移对有效语音进行分帧,得到n帧分帧有效语音;将得到的n帧分帧有效语音均加汉明窗,汉明窗的数值W满足以下公式:
Figure FDA0003888701020000031
其中,N为预设帧长,n为自然数。
5.根据权利要求3所述的基于MFCC语音特征的语音匹配方法,其特征在于,所述共振峰Hm(k)满足以下公式:
Figure FDA0003888701020000032
其中,Hm(k)为有效语音频谱中频率为k的频谱通过第m个滤波器时的共振峰,f(m)为第m个滤波器对应的中心频率,m为自然数。
6.根据权利要求5所述的基于MFCC语音特征的语音匹配方法,其特征在于,
所述对数能量值满足以下公式:对数能量值
Figure FDA0003888701020000041
其中,x(m)为有效语音频谱通过第m个滤波器时的对数能量值,M为滤波器组中滤波器的个数,Hm(k)为有效语音频谱中频率为k的频谱通过第m个滤波器时的共振峰,X(k)为有效语音频谱中频率为k的频谱振幅,N为预设帧长,m为自然数。
7.根据权利要求6所述的基于MFCC语音特征的语音匹配方法,其特征在于,
所述MFCC特征系数满足以下公式:
MFCC特征系数
Figure FDA0003888701020000042
其中,Xj为第K阶梅尔特征系数,M为滤波器组中滤波器的个数,N为预设帧长,x(m)为有效语音频谱通过第m个滤波器时的对数能量值,L为MFCC系数的阶数,L、j均为自然数。
8.根据权利要求1-7任一项所述的基于MFCC语音特征的语音匹配方法,其特征在于,所述预设的若干命令词根据嵌入式录播系统的老师预先录制的命令词语音获取。
9.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-8任一项所述的基于MFCC语音特征的语音匹配方法。
CN201810954183.9A 2018-08-21 2018-08-21 一种基于mfcc语音特征的语音匹配方法及存储介质 Active CN108962249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810954183.9A CN108962249B (zh) 2018-08-21 2018-08-21 一种基于mfcc语音特征的语音匹配方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810954183.9A CN108962249B (zh) 2018-08-21 2018-08-21 一种基于mfcc语音特征的语音匹配方法及存储介质

Publications (2)

Publication Number Publication Date
CN108962249A CN108962249A (zh) 2018-12-07
CN108962249B true CN108962249B (zh) 2023-03-31

Family

ID=64473000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810954183.9A Active CN108962249B (zh) 2018-08-21 2018-08-21 一种基于mfcc语音特征的语音匹配方法及存储介质

Country Status (1)

Country Link
CN (1) CN108962249B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112382293A (zh) * 2020-11-11 2021-02-19 广东电网有限责任公司 一种电力物联网的智能语音交互方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
CN101968957A (zh) * 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法
CN105467428A (zh) * 2015-11-17 2016-04-06 南京航空航天大学 一种基于短时能量检测和频谱特征分析的地震波预警方法
CN109065043B (zh) * 2018-08-21 2022-07-05 广州市保伦电子有限公司 一种命令词识别方法及计算机存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2359544A1 (en) * 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time speech recognition system using an oversampled filterbank
CN102982803A (zh) * 2012-12-11 2013-03-20 华南师范大学 基于hrsf及改进dtw算法的孤立词语音识别方法
CN103810374B (zh) * 2013-12-09 2017-04-05 中国矿业大学 一种基于mfcc特征提取的机器故障预测方法
CN103903612B (zh) * 2014-03-26 2017-02-22 浙江工业大学 一种实时语音识别数字的方法
US9672841B2 (en) * 2015-06-30 2017-06-06 Zte Corporation Voice activity detection method and method used for voice activity detection and apparatus thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
CN101968957A (zh) * 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法
CN105467428A (zh) * 2015-11-17 2016-04-06 南京航空航天大学 一种基于短时能量检测和频谱特征分析的地震波预警方法
CN109065043B (zh) * 2018-08-21 2022-07-05 广州市保伦电子有限公司 一种命令词识别方法及计算机存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Speech enhancement based on wavelet thresholding the multitaper spectrum;Yi hu,et al.;《IEEE Transactions on Speech and Audio Processing》;IEEE;20040121;第12卷(第1期);全文 *
何俊红等.基于倒谱距离—频带方差的端点检测方法.《计算机与数字工程 》.中国知网,2014,第42卷(第11期),全文. *

Also Published As

Publication number Publication date
CN108962249A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN109065043B (zh) 一种命令词识别方法及计算机存储介质
CN106935248B (zh) 一种语音相似度检测方法及装置
CN109147796B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
CN110880329B (zh) 一种音频识别方法及设备、存储介质
US20210193149A1 (en) Method, apparatus and device for voiceprint recognition, and medium
CN109192200B (zh) 一种语音识别方法
CN108198545B (zh) 一种基于小波变换的语音识别方法
CN110931022B (zh) 基于高低频动静特征的声纹识别方法
WO2019232826A1 (zh) i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN110970036A (zh) 声纹识别方法及装置、计算机存储介质、电子设备
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
CN112542174A (zh) 基于vad的多维特征参数声纹识别方法
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN112466276A (zh) 一种语音合成系统训练方法、装置以及可读存储介质
CN110268471A (zh) 具有嵌入式降噪的asr的方法和设备
Maganti et al. Auditory processing-based features for improving speech recognition in adverse acoustic conditions
CN111798846A (zh) 语音命令词识别方法、装置、会议终端及会议终端系统
CN109377982B (zh) 一种有效语音获取方法
CN112116909A (zh) 语音识别方法、装置及系统
CN108962249B (zh) 一种基于mfcc语音特征的语音匹配方法及存储介质
CN109741761B (zh) 声音处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB02 Change of applicant information

Address after: No. 56 Nanli East Road, Shiqi Town, Panyu District, Guangzhou City, Guangdong Province, 510000

Applicant after: Guangdong Baolun Electronics Co.,Ltd.

Address before: 511400 Building 1, industrial zone B, Zhongcun street, Zhongcun street, Panyu District, Guangzhou City, Guangdong Province

Applicant before: GUANGZHOU ITC ELECTRONIC TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information