CN104103272B

CN104103272B - 语音识别方法、装置和蓝牙耳机

Info

Publication number: CN104103272B
Application number: CN201410337554.0A
Authority: CN
Inventors: 冯宇红
Original assignee: Wuxi Zhonggan Microelectronics Co Ltd
Current assignee: Wuxi Zhonggan Microelectronics Co Ltd
Priority date: 2014-07-15
Filing date: 2014-07-15
Publication date: 2017-10-10
Anticipated expiration: 2034-07-15
Also published as: CN104103272A

Abstract

本发明涉及一种语音识别方法。包括：训练命令集中的命令词，获取每个命令词的参考特征矢量序列以为该命令词构建参考模板，各个命令词的参考模板构成参考模板集；从待测语音信号中提取特征参数，生成待测特征矢量序列，待测特征矢量序列构成测试模板；将测试模板和参考模板集进行匹配以生成测试模板与每个参考模板的匹配分数；将各个参考模板的匹配分数和预设的第一门限值以及预设的第二门限值进行比对，如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于第二门限值，且最小得分小于第一门限值，则最小得分的参考模板所对应的命令词被识别为待测语音信号中的命令词。实现了较低的误识别率和误拒绝率，且用户体验性较好。

Description

语音识别方法、装置和蓝牙耳机

技术领域

本发明语音识别领域，尤其涉及一种语音识别方法、装置和蓝牙耳机。

背景技术

随着智能手机的普及，使用蓝牙耳机的用户越来越多，尤其是开车用户。由于蓝牙耳机体型较小，按键很少，一些蓝牙耳机需要按组合键来完成相应操作，因此造成蓝牙耳机操作比较复杂，用户体验较差，尤其是在车载环境下，还涉及安全因素。现在市场上一些高端蓝牙耳机已经支持通过语音命令来代替手工操作，但这些高端蓝牙耳机基本都支持非特定人语音，在使用过程中，存在以下缺陷：1)语音命令事先已固定好，用户无法定制和修改，无法满足用户个性化需求；2)非特定人语音识别算法对计算和存储资源要求较高，导致目前支持非特定人语音识别的高端蓝牙耳机成本较高，功耗较大；3)只能支持一种语音，例如英语或者中文普通话，缺少对地方方言支持。现有基于孤立词的特定人语音识别算法能解决上述问题，孤立词，指的是用户发音方式，需要为识别命令集中每个命令词建立一个模板；特定人，指的是识别和训发音人为同一个人，很容易支持多种语音和地方方言的支持。

但是现有特定人语音识别算法虽然集内命令(已训练命令词)识别率较高，但集外命令(没有训练命令词)误识别率也较高，即虚假接受类错误较高，这样会出现较多的误识别，导致用户体验很差。

特定人语音识别算法为了解决集外命令的误识别，增加了一个门限值参数，如果最小的DTW匹配分数小于该门限值，则接受这个识别结果，如果最小的DTW匹配分数大于该门限值，则拒绝这个识别结果。但在实际应用中，由于外界环境噪声干扰，这个门限值很难选择，选择过高，会导致误识别率较高，选择过低，会导致误拒绝率较高。

发明内容

本发明的目的是解决特定人语音识别时的误识别率和误拒绝率较高的问题，通过双门限的识别分数后处理机制，保证特定人孤立词语音识别的误识别率和误拒绝率都维持在很低的水平。

第一方面，本发明实施例提供了一种特定人孤立词的语音识别方法，所述方法包括：

训练命令集中的命令词，获取每个命令词的参考特征矢量序列以为该命令词构建参考模板，各个命令词的参考模板构成参考模板集；

从待测语音信号中提取特征参数，生成待测特征矢量序列，其中所述待测特征矢量序列构成测试模板；

将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数；

将各个参考模板的匹配分数和预设的第一门限值以及预设的第二门限值进行比对，如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于第二门限值，且所述最小得分小于第一门限值，则最小得分的参考模板所对应的命令词被识别为待测语音信号中的命令词。

结合第一方面，在第一方面的第一种可能的实现方式中，所述训练命令集中的命令词，获取每个命令词的参考特征矢量序列以为该命令词构建参考模板具体包括：

训练命令集中的命令词，每一个所述命令词至少训练两遍以获取至少两组特征矢量序列，如果所述两组特征矢量序列中的第一组特征矢量序列和第二组特征矢量序列的失真得分小于预设门限，根据所述第一组特征矢量序列和所述第二组特征矢量序列确定该命令词的参考特征矢量序列以为该命令词构建参考模板，其中所述训练命令集包括集内命令词。

结合第一方面，在第一方面的第二种可能的实现方式中，所述参考特征矢量序列包括参考MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数，所述待测特征矢量序列包括待测MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数；

所述将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数，具体包括：

利用DTW算法，将所述测试模板的待测特征矢量序列中由MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数和所述参考模板集中的每个参考模板的参考特征矢量序列中由MFCC的CI-C12倒谱分量和1阶差分系数构成的24维特征参数分别进行运算，获取所述测试模板相对于每个参考模板的匹配分数。

结合第一方面，在第一方面的第三种可能的实现方式中，所述训练命令集包括集内命令词和集外命令词，在预设环境下，对集外命令词和集内命令词分别进行录音和特征提取，将获取到的特征矢量序列与所述参考模板集进行匹配，生成所述特征矢量序列的得分，利用直方图统计方法，确定第一门限值和第二门限值。

第二方面，本发明实施例提供了一种语音识别装置，所述装置包括：第一获取单元，第二获取单元，匹配单元，比对单元；

所述第一获取单元，用于训练命令集中的命令词，获取每个命令词的参考特征矢量序列以为该命令词构建参考模板，各个命令词的参考模板构成参考模板集；

所述第二获取单元，从待测语音信号中提取特征参数，生成待测特征矢量序列，其中所述待测特征矢量序列构成测试模板；

所述匹配单元，用于将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数；

所述比对单元，用于将各个参考模板的匹配分数和预设的第一门限值以及预设的第二门限值进行比对，如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于第二门限值，且所述最小得分小于第一门限值，则最小得分的参考模板所对应的命令词被识别为待测语音信号中的命令词。

结合第二方面，在第二方面的第一种可能的实现方式中，所述第一获取单元具体用于：

结合第二方面，在第二方面的第二种可能的实现方式中，所述参考特征矢量序列包括参考MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数，所述待测特征矢量序列包括待测MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数；

所述匹配单元具体用于，利用DTW算法，将所述测试模板的待测特征矢量序列中由MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数和所述参考模板集中的每个参考模板的参考特征矢量序列中由MFCC的CI-C12倒谱分量和1阶差分系数构成的24维特征参数分别进行运算，获取所述测试模板相对于每个参考模板的匹配分数。

第三方面，本发明实施例提供了一种蓝牙耳机，所述蓝牙耳机包括第二方面所述的语音识别装置。

通过使用本发明实施例提供的语音识别方法、装置和蓝牙耳机，解决了特定人孤立词语音识别时的误识别率和误拒绝率较高的问题，实现了特定人孤立词识别时较低的误识别率和误拒绝率，而且用户体验性较好。

附图说明

图1为本发明实施例一提供的语音识别方法流程图；

图2为本发明实施例二提供的语音识别装置示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

图1为本发明实施例一提供的语音识别方法流程图。如图1所示，本实施例包括以下步骤：

步骤S110，训练命令集中的命令词，获取每个命令词的参考特征矢量序列以为该命令词构建参考模板，各个命令词的参考模板构成参考模板集。

可选地，所述训练命令集中的命令词，获取每个命令词的参考特征矢量序列以为该命令词构建参考模板具体包括：

具体地，训练命令集中的命令词，每一个命令词可以训练两遍。进行第一遍训练时，获取该命令词的特征参数，该特征参数可以以Mel频率倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)中的C1-C12倒谱分量和1阶差分系数构成的24维特征参数表示，将获取到的24维特征参数可以称为第一组特征参数，该第一组特征参数构成第一组特征矢量序列，该第一组特征矢量序列可以以表示；进行第二遍训练时，获取到第二组特征参数，该第二组特征参数也可以以MFCC中的C1-C12和1阶差分系数构成的24维特征参数表示，获取到的第二组特征参数构成第二组特征矢量序列，该第二组特征矢量序列可以以表示，其中，x₁,x₂表示第一遍和第二遍提取命令词中的每帧语音信号的C1-C12倒谱分量和1阶差分系数的24维特征参数，T₁，T₂为第一遍和第二遍提取命令词中的最后一帧语音信号的帧序号。一般，每帧语音信号对应时间长度为10～20ms。

通过动态时间规整(Dynamic Time Warping，DTW)算法计算第一组特征矢量序列和第二组特征矢量序列的失真得分，即d(X₁,X₂)，如果d(X₁,X₂)小于预设门限，则该第一组特征矢量序列和第二组特征矢量序列的一致性较好，可以通过X₁和X₂的时间弯折平均获取参考特征矢量序列，该参考特征矢量序列可以以A＝{a₁,a₂,...,a_I}表示。

训练命令词可以包括接听、挂断、重拨和配对(这只是举例，训练命令词具体内容可以根据实际需求任意设置)。对于命令集中的每一个命令词，都可以生成一个参考模板，即接听、挂断、重拨和配对对应4个参考模板，该4个参考模板构成参考模板集。

步骤S120，从待测语音信号中提取特征参数，生成待测特征矢量序列，其中所述待测特征矢量序列构成测试模板。

具体地，检测用户输入的语音信号，从该语音信号中提取特征参数，该特征参数可以以上述步骤S110中的MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数表示，提取到的24维特征参数构成待测特征矢量序列，该待测特征矢量序列即为测试模板，该测试模板可以以B＝{b₁,b₂,...,b_J}表示。

步骤S130，将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数。

可选地，所述将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数，具体包括：

具体地，以将测试模板和参考模板集中的一个参考模板进行匹配为例，该参考模板的参考特征矢量序列为A＝{a₁,a₂,...,a_I}，该测试模板的待测特征矢量序列为B＝{b₁,b₂,...,b_J}，其中，I≠J。生成匹配分数可以采用现有技术，比如，可以利用DTW算法寻找一个最佳的时间规正函数，使待测语音模板的时间轴i非线性地映射到参考模板的时间轴j，使总的累积失真量最小，从而获得匹配分数。由于是将测试模板和每一个参考模板进行比对，可以获知生成的匹配分数的个数和参考模板的个数是相等的。

步骤S140，将各个参考模板的匹配分数和预设的第一门限值以及预设的第二门限值进行比对，如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于第二门限值，且所述最小得分小于第一门限值，则最小得分的参考模板所对应的命令词被认为是待测语音信号中的命令词。

具体地，以参考模板集中训练了4个命令词为例，该4个命令词可以是接听、挂断、重拨和配对，利用DTW算法，将待测特征矢量序列分别与参考模板集中的命令词“接听”对应的参考模板、命令词“挂断”对应的参考模板、命令词“重拨”对应的参考模板和命令词“配对”对应的参考特征矢量序列进行匹配后，可以获得一组匹配分数，假如获得的匹配分数为113，302，278，269，匹配分数越小，表示该参考模板和所述测试模板的匹配度越高，其对应的命令词越可能被认为是识别结果，在这一组匹配分数中，最小得分为113，最小得分和次小得分的差值为269-113＝156，预设的第一门限值可以以threhold_score表示，预设的第二门限值可以以threhold_dist表示，如果预设的第一门限值threhold_score的值为200，第二门限值threhold_dist的值为100，如果每个参考模板的匹配分数中的最小得分和次小得分的差值大于第二门限值，同时每个参考模板的匹配分数的最小得分小于第一门限值，则最小得分的参考模板所对应的命令词被识别为待测语音信号中的命令词。在上述匹配分数中，只有接听命令词所对应匹配分数满足要求，则可以正确的识别出接听这个命令词，从而实现了语音识别。

第一门限值和第二门限值可以根据各种各样的方式获得，比如可以通过经验来设置，随后根据误识别率和错拒绝率来确定识别效果，看是否可以调整两个门限值，直到得到最优的第一门限值和第二门限值。

此外，在一个优选的实施例中，在预设环境下，对集外命令词(不属于训练集命令，实验选取集外命令词有介绍、配合、拒绝、重载以及咳嗽声，共5个)和集内命令词(属于训练集命令)分别进行录音和特征提取，将获取到的特征矢量序列与所述参考模板集进行匹配，生成所述特征矢量序列的得分，利用直方图统计方法，生成第一门限值和第二门限值。

比如，选取20位特定人，该20位特定人男女可以各占一半。首先在安静会议室环境下进行集内命令词训练，得到每个特定人集内命令词的参考模板集。然后在三种环境下，比如办公室、会议室、户外，进行录音，可以对每个命令词录10遍，当集内命令为接听、挂断、重拨、配对时，可以采集到的集内命令词样本每个特定人有4*3*10＝120个，当集外命令有为介绍、配合、拒绝、重载以及咳嗽声时，可以采集到的集外命令词样本每个特定人有5*3*10＝150个，每个特定人总共采集到的样本有270个。针对每个特定人，对这270个样本，可以进行DTW匹配计算，将该270个样本和对应特定人的参考模板集进行匹配，得到270组匹配分数。20位特定人可以得到270*20＝5400组匹配分数。然后对这5400组匹配分数统计出每一组匹配分数的最小得分以及最小得分和次小得分的差值，可以使用直方图统计方法，通过分析集内命令和集外命令匹配分数的最小得分以及最小得分和次小得分的差值的分布，获得第一门限值和第二门限值。

当采用本发明实施例提供的语音识别方法，即threhold_score参数取值为200，而threhold_dist参数取值为100时，集内命令的识别率为95％，而集外命令拒绝率为95％。当采用传统的单一门限值方法，即threhold_score参数取值为200时，集内命令的识别率为95％，而集外命令的拒绝率为70％。显然采用双门限判决方法后，在保证集内命令识别率不下降的前提下去，集外命令的误识别率由30％降低为5％。

在本发明中的方案中，通过设置第一门限值，并将第一门限值与参考模板的匹配分数的最小得分进行比较，从而保证了匹配度足够好的参考模板才能通过识别，从而可以降低误识别率；通过设置第二门限值，并将第二门限值与参考模板的匹配分数的最小得分和次小得分的差值进行比较，从而保证了只有最小得分和次小得分的差值足够大的识别结果才能通过识别，降低了集外命令词的误识别率，这样实现了特定人孤立词识别时较低的误识别率和误拒绝率，而且用户体验性较好。

图2为本发明实施例二提供的语音识别装置示意图。如图2所示，本实施例包括：第一获取单元210，第二获取单元220，匹配单元230，比对单元240；

第一获取单元210，用于训练命令集中的命令词，获取每个命令词的参考特征矢量序列以为该命令词构建参考模板，各个命令词的参考模板构成参考模板集；

可选地，第一获取单元210具体用于：训练命令集中的命令词，每一个所述命令词至少训练两遍以获取至少两组特征矢量序列，如果所述两组特征矢量序列中的第一组特征矢量序列和第二组特征矢量序列的失真得分小于预设门限，根据所述第一组特征矢量序列和所述第二组特征矢量序列确定该命令词的参考特征矢量序列以为该命令词构建参考模板，其中所述训练命令集包括集内命令词。

第二获取单元220，从待测语音信号中提取特征参数，生成待测特征矢量序列，其中所述待测特征矢量序列构成测试模板；

所述匹配单元230，用于将所述测试模板和所述参考模板集进行匹配以生成所述测试模板与每个参考模板的匹配分数；

可选地，所述匹配单元230具体用于，利用DTW算法，将所述测试模板的所述待测特征矢量序列中由MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数和所述参考模板集中的每个参考模板的参考特征矢量序列中由MFCC的CI-C12倒谱分量和1阶差分系数构成的24维特征参数分别进行运算，获取所述测试模板相对于每个参考模板的匹配分数。

所述比对单元240，用于将各个参考模板的匹配分数和预设的第一门限值以及预设的第二门限值进行比对，如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于第二门限值，且所述最小得分小于第一门限值，则最小得分的参考模板所对应的命令词被识别为待测语音信号中的命令词。

进一步地，本发明实施例可以应用在蓝牙耳机中，所述蓝牙耳机包括如图2所示的语音识别装置。

在本发明实施例提供的语音识别装置和蓝牙耳机中，通过设置第一门限值，并将第一门限值与参考模板的匹配分数的最小得分进行比较，从而保证了匹配度足够好的参考模板才能通过识别，从而可以降低误识别率；通过设置第二门限值，并将第二门限值与参考模板的匹配分数的最小得分和次小得分的差值进行比较，从而保证了只有最小得分和次小得分的差值足够大的识别结果才能通过识别，降低了集外命令词的误识别率，实现了特定人孤立词识别时较低的误识别率和误拒绝率，而且用户体验性较好。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

将各个参考模板的匹配分数和预设的第一门限值以及预设的第二门限值进行比对，如果各个参考模板的匹配分数中的次小得分和最小得分的差值大于第二门限值，且所述最小得分小于第一门限值，则最小得分的参考模板所对应的命令词被认为待测语音信号中的命令词。

2.如权利要求1所述的方法，其特征在于，所述训练命令集中的命令词，获取每个命令词的参考特征矢量序列以为该命令词构建参考模板具体包括：

3.如权利要求1所述的方法，其特征在于，所述参考特征矢量序列包括参考MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数，所述待测特征矢量序列包括待测MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数；

利用动态时间规整DTW算法，将所述测试模板的待测特征矢量序列中由MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数和所述参考模板集中的每个参考模板的参考特征矢量序列中由MFCC的CI-C12倒谱分量和1阶差分系数构成的24维特征参数分别进行运算，获取所述测试模板与每个参考模板的匹配分数。

4.如权利要求1所述的方法，其特征在于，在预设环境下，对集外命令词和集内命令词分别进行录音和特征参数提取，将获取到的特征矢量序列与所述参考模板集进行匹配，生成所述特征矢量序列的得分，利用直方图统计方法，确定第一门限值和第二门限值。

5.一种语音识别装置，其特征在于，所述装置包括：第一获取单元，第二获取单元，匹配单元，比对单元；

所述第二获取单元，用于从待测语音信号中提取特征参数，生成待测特征矢量序列，其中所述待测特征矢量序列构成测试模板；

6.如权利要求5所述的装置，其特征在于，所述第一获取单元具体用于：

7.如权利要求5所述的装置，其特征在于，所述参考特征矢量序列包括参考MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数，所述待测特征矢量序列包括待测MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数；

所述匹配单元具体用于，利用DTW算法，将所述测试模板的待测特征矢量序列中由MFCC的C1-C12倒谱分量和1阶差分系数构成的24维特征参数和所述参考模板集中的每个参考模板的参考特征矢量序列中由MFCC的CI-C12倒谱分量和1阶差分系数构成的24维特征参数分别进行运算，获取所述测试模板与每个参考模板的匹配分数。

8.一种蓝牙耳机，其特征在于，所述蓝牙耳机包括如权利要求5-7任一项所述的语音识别装置。