CN104103272B - 语音识别方法、装置和蓝牙耳机 - Google Patents

语音识别方法、装置和蓝牙耳机 Download PDF

Info

Publication number
CN104103272B
CN104103272B CN201410337554.0A CN201410337554A CN104103272B CN 104103272 B CN104103272 B CN 104103272B CN 201410337554 A CN201410337554 A CN 201410337554A CN 104103272 B CN104103272 B CN 104103272B
Authority
CN
China
Prior art keywords
feature vector
order
vector sequence
template
reference template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410337554.0A
Other languages
English (en)
Other versions
CN104103272A (zh
Inventor
冯宇红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Zhonggan Microelectronics Co Ltd
Original Assignee
Wuxi Zhonggan Microelectronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Zhonggan Microelectronics Co Ltd filed Critical Wuxi Zhonggan Microelectronics Co Ltd
Priority to CN201410337554.0A priority Critical patent/CN104103272B/zh
Publication of CN104103272A publication Critical patent/CN104103272A/zh
Application granted granted Critical
Publication of CN104103272B publication Critical patent/CN104103272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及一种语音识别方法。包括:训练命令集中的命令词,获取每个命令词的参考特征矢量序列以为该命令词构建参考模板,各个命令词的参考模板构成参考模板集;从待测语音信号中提取特征参数,生成待测特征矢量序列,待测特征矢量序列构成测试模板;将测试模板和参考模板集进行匹配以生成测试模板与每个参考模板的匹配分数;将各个参考模板的匹配分数和预设的第一门限值以及预设的第二门限值进行比对,如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于第二门限值,且最小得分小于第一门限值,则最小得分的参考模板所对应的命令词被识别为待测语音信号中的命令词。实现了较低的误识别率和误拒绝率,且用户体验性较好。

Description

语音识别方法、装置和蓝牙耳机
技术领域
本发明语音识别领域,尤其涉及一种语音识别方法、装置和蓝牙耳机。
背景技术
随着智能手机的普及,使用蓝牙耳机的用户越来越多,尤其是开车用户。由于蓝牙耳机体型较小,按键很少,一些蓝牙耳机需要按组合键来完成相应操作,因此造成蓝牙耳机操作比较复杂,用户体验较差,尤其是在车载环境下,还涉及安全因素。现在市场上一些高端蓝牙耳机已经支持通过语音命令来代替手工操作,但这些高端蓝牙耳机基本都支持非特定人语音,在使用过程中,存在以下缺陷:1)语音命令事先已固定好,用户无法定制和修改,无法满足用户个性化需求;2)非特定人语音识别算法对计算和存储资源要求较高,导致目前支持非特定人语音识别的高端蓝牙耳机成本较高,功耗较大;3)只能支持一种语音,例如英语或者中文普通话,缺少对地方方言支持。现有基于孤立词的特定人语音识别算法能解决上述问题,孤立词,指的是用户发音方式,需要为识别命令集中每个命令词建立一个模板;特定人,指的是识别和训发音人为同一个人,很容易支持多种语音和地方方言的支持。
但是现有特定人语音识别算法虽然集内命令(已训练命令词)识别率较高,但集外命令(没有训练命令词)误识别率也较高,即虚假接受类错误较高,这样会出现较多的误识别,导致用户体验很差。
特定人语音识别算法为了解决集外命令的误识别,增加了一个门限值参数,如果最小的DTW匹配分数小于该门限值,则接受这个识别结果,如果最小的DTW匹配分数大于该门限值,则拒绝这个识别结果。但在实际应用中,由于外界环境噪声干扰,这个门限值很难选择,选择过高,会导致误识别率较高,选择过低,会导致误拒绝率较高。
发明内容
本发明的目的是解决特定人语音识别时的误识别率和误拒绝率较高的问题,通过双门限的识别分数后处理机制,保证特定人孤立词语音识别的误识别率和误拒绝率都维持在很低的水平。
第一方面,本发明实施例提供了一种特定人孤立词的语音识别方法,所述方法包括:
训练命令集中的命令词,获取每个命令词的参考特征矢量序列以为该命令词构建参考模板,各个命令词的参考模板构成参考模板集;
从待测语音信号中提取特征参数,生成待测特征矢量序列,其中所述待测特征矢量序列构成测试模板;
将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数;
将各个参考模板的匹配分数和预设的第一门限值以及预设的第二门限值进行比对,如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于第二门限值,且所述最小得分小于第一门限值,则最小得分的参考模板所对应的命令词被识别为待测语音信号中的命令词。
结合第一方面,在第一方面的第一种可能的实现方式中,所述训练命令集中的命令词,获取每个命令词的参考特征矢量序列以为该命令词构建参考模板具体包括:
训练命令集中的命令词,每一个所述命令词至少训练两遍以获取至少两组特征矢量序列,如果所述两组特征矢量序列中的第一组特征矢量序列和第二组特征矢量序列的失真得分小于预设门限,根据所述第一组特征矢量序列和所述第二组特征矢量序列确定该命令词的参考特征矢量序列以为该命令词构建参考模板,其中所述训练命令集包括集内命令词。
结合第一方面,在第一方面的第二种可能的实现方式中,所述参考特征矢量序列包括参考MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数,所述待测特征矢量序列包括待测MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数;
所述将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数,具体包括:
利用DTW算法,将所述测试模板的待测特征矢量序列中由MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数和所述参考模板集中的每个参考模板的参考特征矢量序列中由MFCC的CI-C12倒谱分量和1阶差分系数构成的24维特征参数分别进行运算,获取所述测试模板相对于每个参考模板的匹配分数。
结合第一方面,在第一方面的第三种可能的实现方式中,所述训练命令集包括集内命令词和集外命令词,在预设环境下,对集外命令词和集内命令词分别进行录音和特征提取,将获取到的特征矢量序列与所述参考模板集进行匹配,生成所述特征矢量序列的得分,利用直方图统计方法,确定第一门限值和第二门限值。
第二方面,本发明实施例提供了一种语音识别装置,所述装置包括:第一获取单元,第二获取单元,匹配单元,比对单元;
所述第一获取单元,用于训练命令集中的命令词,获取每个命令词的参考特征矢量序列以为该命令词构建参考模板,各个命令词的参考模板构成参考模板集;
所述第二获取单元,从待测语音信号中提取特征参数,生成待测特征矢量序列,其中所述待测特征矢量序列构成测试模板;
所述匹配单元,用于将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数;
所述比对单元,用于将各个参考模板的匹配分数和预设的第一门限值以及预设的第二门限值进行比对,如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于第二门限值,且所述最小得分小于第一门限值,则最小得分的参考模板所对应的命令词被识别为待测语音信号中的命令词。
结合第二方面,在第二方面的第一种可能的实现方式中,所述第一获取单元具体用于:
训练命令集中的命令词,每一个所述命令词至少训练两遍以获取至少两组特征矢量序列,如果所述两组特征矢量序列中的第一组特征矢量序列和第二组特征矢量序列的失真得分小于预设门限,根据所述第一组特征矢量序列和所述第二组特征矢量序列确定该命令词的参考特征矢量序列以为该命令词构建参考模板,其中所述训练命令集包括集内命令词。
结合第二方面,在第二方面的第二种可能的实现方式中,所述参考特征矢量序列包括参考MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数,所述待测特征矢量序列包括待测MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数;
所述匹配单元具体用于,利用DTW算法,将所述测试模板的待测特征矢量序列中由MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数和所述参考模板集中的每个参考模板的参考特征矢量序列中由MFCC的CI-C12倒谱分量和1阶差分系数构成的24维特征参数分别进行运算,获取所述测试模板相对于每个参考模板的匹配分数。
第三方面,本发明实施例提供了一种蓝牙耳机,所述蓝牙耳机包括第二方面所述的语音识别装置。
通过使用本发明实施例提供的语音识别方法、装置和蓝牙耳机,解决了特定人孤立词语音识别时的误识别率和误拒绝率较高的问题,实现了特定人孤立词识别时较低的误识别率和误拒绝率,而且用户体验性较好。
附图说明
图1为本发明实施例一提供的语音识别方法流程图;
图2为本发明实施例二提供的语音识别装置示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1为本发明实施例一提供的语音识别方法流程图。如图1所示,本实施例包括以下步骤:
步骤S110,训练命令集中的命令词,获取每个命令词的参考特征矢量序列以为该命令词构建参考模板,各个命令词的参考模板构成参考模板集。
可选地,所述训练命令集中的命令词,获取每个命令词的参考特征矢量序列以为该命令词构建参考模板具体包括:
训练命令集中的命令词,每一个所述命令词至少训练两遍以获取至少两组特征矢量序列,如果所述两组特征矢量序列中的第一组特征矢量序列和第二组特征矢量序列的失真得分小于预设门限,根据所述第一组特征矢量序列和所述第二组特征矢量序列确定该命令词的参考特征矢量序列以为该命令词构建参考模板,其中所述训练命令集包括集内命令词。
具体地,训练命令集中的命令词,每一个命令词可以训练两遍。进行第一遍训练时,获取该命令词的特征参数,该特征参数可以以Mel频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)中的C1-C12倒谱分量和1阶差分系数构成的24维特征参数表示,将获取到的24维特征参数可以称为第一组特征参数,该第一组特征参数构成第一组特征矢量序列,该第一组特征矢量序列可以以表示;进行第二遍训练时,获取到第二组特征参数,该第二组特征参数也可以以MFCC中的C1-C12和1阶差分系数构成的24维特征参数表示,获取到的第二组特征参数构成第二组特征矢量序列,该第二组特征矢量序列可以以表示,其中,x1,x2表示第一遍和第二遍提取命令词中的每帧语音信号的C1-C12倒谱分量和1阶差分系数的24维特征参数,T1,T2为第一遍和第二遍提取命令词中的最后一帧语音信号的帧序号。一般,每帧语音信号对应时间长度为10~20ms。
通过动态时间规整(Dynamic Time Warping,DTW)算法计算第一组特征矢量序列和第二组特征矢量序列的失真得分,即d(X1,X2),如果d(X1,X2)小于预设门限,则该第一组特征矢量序列和第二组特征矢量序列的一致性较好,可以通过X1和X2的时间弯折平均获取参考特征矢量序列,该参考特征矢量序列可以以A={a1,a2,...,aI}表示。
训练命令词可以包括接听、挂断、重拨和配对(这只是举例,训练命令词具体内容可以根据实际需求任意设置)。对于命令集中的每一个命令词,都可以生成一个参考模板,即接听、挂断、重拨和配对对应4个参考模板,该4个参考模板构成参考模板集。
步骤S120,从待测语音信号中提取特征参数,生成待测特征矢量序列,其中所述待测特征矢量序列构成测试模板。
具体地,检测用户输入的语音信号,从该语音信号中提取特征参数,该特征参数可以以上述步骤S110中的MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数表示,提取到的24维特征参数构成待测特征矢量序列,该待测特征矢量序列即为测试模板,该测试模板可以以B={b1,b2,...,bJ}表示。
步骤S130,将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数。
可选地,所述将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数,具体包括:
利用DTW算法,将所述测试模板的待测特征矢量序列中由MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数和所述参考模板集中的每个参考模板的参考特征矢量序列中由MFCC的CI-C12倒谱分量和1阶差分系数构成的24维特征参数分别进行运算,获取所述测试模板相对于每个参考模板的匹配分数。
具体地,以将测试模板和参考模板集中的一个参考模板进行匹配为例,该参考模板的参考特征矢量序列为A={a1,a2,...,aI},该测试模板的待测特征矢量序列为B={b1,b2,...,bJ},其中,I≠J。生成匹配分数可以采用现有技术,比如,可以利用DTW算法寻找一个最佳的时间规正函数,使待测语音模板的时间轴i非线性地映射到参考模板的时间轴j,使总的累积失真量最小,从而获得匹配分数。由于是将测试模板和每一个参考模板进行比对,可以获知生成的匹配分数的个数和参考模板的个数是相等的。
步骤S140,将各个参考模板的匹配分数和预设的第一门限值以及预设的第二门限值进行比对,如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于第二门限值,且所述最小得分小于第一门限值,则最小得分的参考模板所对应的命令词被认为是待测语音信号中的命令词。
具体地,以参考模板集中训练了4个命令词为例,该4个命令词可以是接听、挂断、重拨和配对,利用DTW算法,将待测特征矢量序列分别与参考模板集中的命令词“接听”对应的参考模板、命令词“挂断”对应的参考模板、命令词“重拨”对应的参考模板和命令词“配对”对应的参考特征矢量序列进行匹配后,可以获得一组匹配分数,假如获得的匹配分数为113,302,278,269,匹配分数越小,表示该参考模板和所述测试模板的匹配度越高,其对应的命令词越可能被认为是识别结果,在这一组匹配分数中,最小得分为113,最小得分和次小得分的差值为269-113=156,预设的第一门限值可以以threhold_score表示,预设的第二门限值可以以threhold_dist表示,如果预设的第一门限值threhold_score的值为200,第二门限值threhold_dist的值为100,如果每个参考模板的匹配分数中的最小得分和次小得分的差值大于第二门限值,同时每个参考模板的匹配分数的最小得分小于第一门限值,则最小得分的参考模板所对应的命令词被识别为待测语音信号中的命令词。在上述匹配分数中,只有接听命令词所对应匹配分数满足要求,则可以正确的识别出接听这个命令词,从而实现了语音识别。
第一门限值和第二门限值可以根据各种各样的方式获得,比如可以通过经验来设置,随后根据误识别率和错拒绝率来确定识别效果,看是否可以调整两个门限值,直到得到最优的第一门限值和第二门限值。
此外,在一个优选的实施例中,在预设环境下,对集外命令词(不属于训练集命令,实验选取集外命令词有介绍、配合、拒绝、重载以及咳嗽声,共5个)和集内命令词(属于训练集命令)分别进行录音和特征提取,将获取到的特征矢量序列与所述参考模板集进行匹配,生成所述特征矢量序列的得分,利用直方图统计方法,生成第一门限值和第二门限值。
比如,选取20位特定人,该20位特定人男女可以各占一半。首先在安静会议室环境下进行集内命令词训练,得到每个特定人集内命令词的参考模板集。然后在三种环境下,比如办公室、会议室、户外,进行录音,可以对每个命令词录10遍,当集内命令为接听、挂断、重拨、配对时,可以采集到的集内命令词样本每个特定人有4*3*10=120个,当集外命令有为介绍、配合、拒绝、重载以及咳嗽声时,可以采集到的集外命令词样本每个特定人有5*3*10=150个,每个特定人总共采集到的样本有270个。针对每个特定人,对这270个样本,可以进行DTW匹配计算,将该270个样本和对应特定人的参考模板集进行匹配,得到270组匹配分数。20位特定人可以得到270*20=5400组匹配分数。然后对这5400组匹配分数统计出每一组匹配分数的最小得分以及最小得分和次小得分的差值,可以使用直方图统计方法,通过分析集内命令和集外命令匹配分数的最小得分以及最小得分和次小得分的差值的分布,获得第一门限值和第二门限值。
当采用本发明实施例提供的语音识别方法,即threhold_score参数取值为200,而threhold_dist参数取值为100时,集内命令的识别率为95%,而集外命令拒绝率为95%。当采用传统的单一门限值方法,即threhold_score参数取值为200时,集内命令的识别率为95%,而集外命令的拒绝率为70%。显然采用双门限判决方法后,在保证集内命令识别率不下降的前提下去,集外命令的误识别率由30%降低为5%。
在本发明中的方案中,通过设置第一门限值,并将第一门限值与参考模板的匹配分数的最小得分进行比较,从而保证了匹配度足够好的参考模板才能通过识别,从而可以降低误识别率;通过设置第二门限值,并将第二门限值与参考模板的匹配分数的最小得分和次小得分的差值进行比较,从而保证了只有最小得分和次小得分的差值足够大的识别结果才能通过识别,降低了集外命令词的误识别率,这样实现了特定人孤立词识别时较低的误识别率和误拒绝率,而且用户体验性较好。
图2为本发明实施例二提供的语音识别装置示意图。如图2所示,本实施例包括:第一获取单元210,第二获取单元220,匹配单元230,比对单元240;
第一获取单元210,用于训练命令集中的命令词,获取每个命令词的参考特征矢量序列以为该命令词构建参考模板,各个命令词的参考模板构成参考模板集;
可选地,第一获取单元210具体用于:训练命令集中的命令词,每一个所述命令词至少训练两遍以获取至少两组特征矢量序列,如果所述两组特征矢量序列中的第一组特征矢量序列和第二组特征矢量序列的失真得分小于预设门限,根据所述第一组特征矢量序列和所述第二组特征矢量序列确定该命令词的参考特征矢量序列以为该命令词构建参考模板,其中所述训练命令集包括集内命令词。
第二获取单元220,从待测语音信号中提取特征参数,生成待测特征矢量序列,其中所述待测特征矢量序列构成测试模板;
所述匹配单元230,用于将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数;
可选地,所述匹配单元230具体用于,利用DTW算法,将所述测试模板的所述待测特征矢量序列中由MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数和所述参考模板集中的每个参考模板的参考特征矢量序列中由MFCC的CI-C12倒谱分量和1阶差分系数构成的24维特征参数分别进行运算,获取所述测试模板相对于每个参考模板的匹配分数。
所述比对单元240,用于将各个参考模板的匹配分数和预设的第一门限值以及预设的第二门限值进行比对,如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于第二门限值,且所述最小得分小于第一门限值,则最小得分的参考模板所对应的命令词被识别为待测语音信号中的命令词。
进一步地,本发明实施例可以应用在蓝牙耳机中,所述蓝牙耳机包括如图2所示的语音识别装置。
在本发明实施例提供的语音识别装置和蓝牙耳机中,通过设置第一门限值,并将第一门限值与参考模板的匹配分数的最小得分进行比较,从而保证了匹配度足够好的参考模板才能通过识别,从而可以降低误识别率;通过设置第二门限值,并将第二门限值与参考模板的匹配分数的最小得分和次小得分的差值进行比较,从而保证了只有最小得分和次小得分的差值足够大的识别结果才能通过识别,降低了集外命令词的误识别率,实现了特定人孤立词识别时较低的误识别率和误拒绝率,而且用户体验性较好。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种语音识别方法,其特征在于,所述方法包括:
训练命令集中的命令词,获取每个命令词的参考特征矢量序列以为该命令词构建参考模板,各个命令词的参考模板构成参考模板集;
从待测语音信号中提取特征参数,生成待测特征矢量序列,其中所述待测特征矢量序列构成测试模板;
将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数;
将各个参考模板的匹配分数和预设的第一门限值以及预设的第二门限值进行比对,如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于第二门限值,且所述最小得分小于第一门限值,则最小得分的参考模板所对应的命令词被认为待测语音信号中的命令词。
2.如权利要求1所述的方法,其特征在于,所述训练命令集中的命令词,获取每个命令词的参考特征矢量序列以为该命令词构建参考模板具体包括:
训练命令集中的命令词,每一个所述命令词至少训练两遍以获取至少两组特征矢量序列,如果所述两组特征矢量序列中的第一组特征矢量序列和第二组特征矢量序列的失真得分小于预设门限,根据所述第一组特征矢量序列和所述第二组特征矢量序列确定该命令词的参考特征矢量序列以为该命令词构建参考模板,其中所述训练命令集包括集内命令词。
3.如权利要求1所述的方法,其特征在于,所述参考特征矢量序列包括参考MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数,所述待测特征矢量序列包括待测MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数;
所述将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数,具体包括:
利用动态时间规整DTW算法,将所述测试模板的待测特征矢量序列中由MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数和所述参考模板集中的每个参考模板的参考特征矢量序列中由MFCC的CI-C12倒谱分量和1阶差分系数构成的24维特征参数分别进行运算,获取所述测试模板与每个参考模板的匹配分数。
4.如权利要求1所述的方法,其特征在于,在预设环境下,对集外命令词和集内命令词分别进行录音和特征参数提取,将获取到的特征矢量序列与所述参考模板集进行匹配,生成所述特征矢量序列的得分,利用直方图统计方法,确定第一门限值和第二门限值。
5.一种语音识别装置,其特征在于,所述装置包括:第一获取单元,第二获取单元,匹配单元,比对单元;
所述第一获取单元,用于训练命令集中的命令词,获取每个命令词的参考特征矢量序列以为该命令词构建参考模板,各个命令词的参考模板构成参考模板集;
所述第二获取单元,用于从待测语音信号中提取特征参数,生成待测特征矢量序列,其中所述待测特征矢量序列构成测试模板;
所述匹配单元,用于将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数;
所述比对单元,用于将各个参考模板的匹配分数和预设的第一门限值以及预设的第二门限值进行比对,如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于第二门限值,且所述最小得分小于第一门限值,则最小得分的参考模板所对应的命令词被识别为待测语音信号中的命令词。
6.如权利要求5所述的装置,其特征在于,所述第一获取单元具体用于:
训练命令集中的命令词,每一个所述命令词至少训练两遍以获取至少两组特征矢量序列,如果所述两组特征矢量序列中的第一组特征矢量序列和第二组特征矢量序列的失真得分小于预设门限,根据所述第一组特征矢量序列和所述第二组特征矢量序列确定该命令词的参考特征矢量序列以为该命令词构建参考模板,其中所述训练命令集包括集内命令词。
7.如权利要求5所述的装置,其特征在于,所述参考特征矢量序列包括参考MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数,所述待测特征矢量序列包括待测MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数;
所述匹配单元具体用于,利用DTW算法,将所述测试模板的待测特征矢量序列中由MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数和所述参考模板集中的每个参考模板的参考特征矢量序列中由MFCC的CI-C12倒谱分量和1阶差分系数构成的24维特征参数分别进行运算,获取所述测试模板与每个参考模板的匹配分数。
8.一种蓝牙耳机,其特征在于,所述蓝牙耳机包括如权利要求5-7任一项所述的语音识别装置。
CN201410337554.0A 2014-07-15 2014-07-15 语音识别方法、装置和蓝牙耳机 Active CN104103272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410337554.0A CN104103272B (zh) 2014-07-15 2014-07-15 语音识别方法、装置和蓝牙耳机

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410337554.0A CN104103272B (zh) 2014-07-15 2014-07-15 语音识别方法、装置和蓝牙耳机

Publications (2)

Publication Number Publication Date
CN104103272A CN104103272A (zh) 2014-10-15
CN104103272B true CN104103272B (zh) 2017-10-10

Family

ID=51671359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410337554.0A Active CN104103272B (zh) 2014-07-15 2014-07-15 语音识别方法、装置和蓝牙耳机

Country Status (1)

Country Link
CN (1) CN104103272B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096940B (zh) * 2015-06-30 2019-03-08 百度在线网络技术(北京)有限公司 用于进行语音识别的方法和装置
KR102420450B1 (ko) * 2015-09-23 2022-07-14 삼성전자주식회사 음성인식장치, 음성인식방법 및 컴퓨터 판독가능 기록매체
CN106920558B (zh) * 2015-12-25 2021-04-13 展讯通信(上海)有限公司 关键词识别方法及装置
CN106971734B (zh) * 2016-01-14 2020-10-23 芋头科技(杭州)有限公司 一种可根据模型的提取频率训练识别模型的方法及系统
CN105825857A (zh) * 2016-03-11 2016-08-03 无锡吾芯互联科技有限公司 基于声纹识别帮助失聪患者判断声音类别的方法
CN109671434A (zh) * 2019-02-18 2019-04-23 成都启英泰伦科技有限公司 一种语音设备及自学习语音识别方法
CN110580908A (zh) * 2019-09-29 2019-12-17 出门问问信息科技有限公司 一种支持不同语种的命令词检测方法及设备
CN113571043A (zh) * 2021-07-27 2021-10-29 广州欢城文化传媒有限公司 一种方言模拟力测评方法、装置、电子设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6058164A (en) * 1995-03-01 2000-05-02 Fujitsu Limited Mode-switchable telephone and mode setting and switching methods for the same
CN1268732A (zh) * 2000-03-31 2000-10-04 清华大学 基于语音识别专用芯片的特定人语音识别、语音回放方法
CN1540623A (zh) * 2003-11-04 2004-10-27 清华大学 一种门限自适应的语音检测系统
CN101345668A (zh) * 2008-08-22 2009-01-14 中兴通讯股份有限公司 监控设备的控制方法和装置
CN101436405A (zh) * 2008-12-25 2009-05-20 北京中星微电子有限公司 说话人识别方法和系统
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN101662305A (zh) * 2009-09-25 2010-03-03 西安电子科技大学 直接序列扩频系统伪随机码估计方法
CN102270450A (zh) * 2010-06-07 2011-12-07 株式会社曙飞电子 多模型自适应和语音识别装置及其方法
CN103065627A (zh) * 2012-12-17 2013-04-24 中南大学 基于dtw与hmm证据融合的特种车鸣笛声识别方法
CN103106900A (zh) * 2013-02-28 2013-05-15 用友软件股份有限公司 语音识别装置和语音识别方法
CN103366740A (zh) * 2012-03-27 2013-10-23 联想(北京)有限公司 语音命令识别方法及装置
CN103474065A (zh) * 2013-09-24 2013-12-25 贵阳世纪恒通科技有限公司 基于自动分类技术的语音意图判定识别方法
CN103632667A (zh) * 2013-11-25 2014-03-12 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
CN103824564A (zh) * 2014-03-17 2014-05-28 上海申磬产业有限公司 一种电动轮椅语音识别过程中的语音增强方法
CN103888312A (zh) * 2014-03-04 2014-06-25 京信通信系统(广州)有限公司 一种预失真系统的报警方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6754629B1 (en) * 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
CN1337670A (zh) * 2001-09-28 2002-02-27 北京安可尔通讯技术有限公司 特定人汉语短语语音识别快速方法
JP2003241790A (ja) * 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
ATE470217T1 (de) * 2002-03-27 2010-06-15 Nokia Corp Bestimmung eines verzerrungsmasses bei der spracherkennung

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6058164A (en) * 1995-03-01 2000-05-02 Fujitsu Limited Mode-switchable telephone and mode setting and switching methods for the same
CN1268732A (zh) * 2000-03-31 2000-10-04 清华大学 基于语音识别专用芯片的特定人语音识别、语音回放方法
CN1540623A (zh) * 2003-11-04 2004-10-27 清华大学 一种门限自适应的语音检测系统
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN101345668A (zh) * 2008-08-22 2009-01-14 中兴通讯股份有限公司 监控设备的控制方法和装置
CN101436405A (zh) * 2008-12-25 2009-05-20 北京中星微电子有限公司 说话人识别方法和系统
CN101662305A (zh) * 2009-09-25 2010-03-03 西安电子科技大学 直接序列扩频系统伪随机码估计方法
CN102270450A (zh) * 2010-06-07 2011-12-07 株式会社曙飞电子 多模型自适应和语音识别装置及其方法
CN103366740A (zh) * 2012-03-27 2013-10-23 联想(北京)有限公司 语音命令识别方法及装置
CN103065627A (zh) * 2012-12-17 2013-04-24 中南大学 基于dtw与hmm证据融合的特种车鸣笛声识别方法
CN103106900A (zh) * 2013-02-28 2013-05-15 用友软件股份有限公司 语音识别装置和语音识别方法
CN103474065A (zh) * 2013-09-24 2013-12-25 贵阳世纪恒通科技有限公司 基于自动分类技术的语音意图判定识别方法
CN103632667A (zh) * 2013-11-25 2014-03-12 华为技术有限公司 声学模型优化方法、装置及语音唤醒方法、装置和终端
CN103888312A (zh) * 2014-03-04 2014-06-25 京信通信系统(广州)有限公司 一种预失真系统的报警方法及装置
CN103824564A (zh) * 2014-03-17 2014-05-28 上海申磬产业有限公司 一种电动轮椅语音识别过程中的语音增强方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"与文本无关的说话人识别系统研究";高会贤;《中国优秀硕士学位论文全文数据库信息科技辑》;20080115(第01期);全文 *
"基于文本无关的说话人识别";刘雪燕;《中国优秀硕士学位论文全文数据库信息科技辑》;20081015(第10期);全文 *
"语音识别关键技术研究及系统实现";黄文龙;《中国优秀硕士学位论文全文数据库信息科技辑 》;20110415(第04期);全文 *

Also Published As

Publication number Publication date
CN104103272A (zh) 2014-10-15

Similar Documents

Publication Publication Date Title
CN104103272B (zh) 语音识别方法、装置和蓝牙耳机
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
US10013977B2 (en) Smart home control method based on emotion recognition and the system thereof
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
TWI473080B (zh) The use of phonological emotions or excitement to assist in resolving the gender or age of speech signals
CN108305615A (zh) 一种对象识别方法及其设备、存储介质、终端
CN101789990A (zh) 一种在通话过程中判断对方情绪的方法及移动终端
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
WO2021139327A1 (zh) 一种音频信号处理方法、模型训练方法以及相关装置
CN105006230A (zh) 一种面向非特定人的语音敏感信息检测和过滤方法
CN108831440A (zh) 一种基于机器学习及深度学习的声纹降噪方法及系统
WO2016150001A1 (zh) 语音识别的方法、装置及计算机存储介质
CN105206271A (zh) 智能设备的语音唤醒方法及实现所述方法的系统
CN107507626B (zh) 一种基于语音频谱融合特征的手机来源识别方法
CN104168353A (zh) 蓝牙耳机及其语音交互控制方法
CN109614881B (zh) 可自适应调节阈值的生物识别认证方法、设备及存储设备
CN107360157A (zh) 一种用户注册方法、装置及智能空调器
CN108986824A (zh) 一种回放语音检测方法
CN110136709A (zh) 语音识别方法及基于语音识别的视频会议系统
CN105869657A (zh) 语音情感辨识系统及方法
CN113744742B (zh) 对话场景下的角色识别方法、装置和系统
CN110400565A (zh) 说话人识别方法、系统及计算机可读存储介质
CN107134277A (zh) 一种基于gmm模型的语音激活检测方法
CN110931019B (zh) 公安语音数据采集方法、装置、设备和计算机存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Wuxi District of Jiangsu city of Wuxi province Qingyuan Road 214135 No. 18 Taihu International Science Park sensor network university science and Technology Park 530 building A1001

Applicant after: WUXI ZHONGGAN MICROELECTRONIC CO., LTD.

Address before: A 530 building 214135 Jiangsu Province, Wuxi city Wuxi District Taihu international science and Technology Park Qingyuan Road 10

Applicant before: Wuxi Vimicro Co., Ltd.

GR01 Patent grant
GR01 Patent grant