CN104143326B

CN104143326B - 一种语音命令识别方法和装置

Info

Publication number: CN104143326B
Application number: CN201310645815.0A
Authority: CN
Inventors: 岳帅; 张翔; 卢鲤; 饶丰; 王尔玉; 刘海波; 陈波; 刘荐; 李露
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2013-12-03
Filing date: 2013-12-03
Publication date: 2016-11-02
Anticipated expiration: 2033-12-03
Also published as: US20160086609A1; US10013985B2; CN104143326A; WO2015081681A1

Abstract

本发明实施方式提出一种语音命令识别方法和装置。方法包括：获取广义背景模型，并基于用户的注册语音获取用户的声纹模型；接收语音，提取所述语音的声纹特征，并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户；当确定所述语音源自所述用户时，识别所述语音中的命令词。本发明实施方式可以基于注册用户的声纹模型确定语音是否源自注册用户，从而提高安全性。

Description

一种语音命令识别方法和装置

技术领域

本发明实施方式涉及自动语音识别（ASR，Automatic Speech Recognition）技术领域，更具体地，涉及一种语音命令识别方法和装置。

背景技术

自动语音识别技术是将人类的语音中的词汇内容转换为计算机可读的输入字符的一项技术。语音识别具有复杂的处理流程，主要包括模型训练、解码网络构建以及解码等过程。

语音命令识别技术是自动语音识别技术的一项具体应用，其主要功能是用户不必利用键盘、鼠标、触摸屏等输入设备，只要说出命令词的语音，则语音命令识别系统会自动识别出该语音对应的字符串，如果该字符串为命令词对应的字符串，则触发对应的操作。然而，目前语音命令识别系统通常并不对用户进行区分，这会带来显著的安全性问题。

例如目前的语音唤醒系统就是一种典型的语音命令识别系统，用户可以说出唤醒命令，系统识别用户说出的语音，如果识别出是唤醒命令则唤醒（即启动）对应的设备，否则不唤醒对应的设备。语音命令识别系统的评测标准通常包括误识率和拒认率两个部分。误识率指用户未发出语音命令，但系统却错误的触发了该命令对应的操作。拒认率指用户发出了语音命令，但系统却没有反应，即没有触发该命令对应的操作。误识率和拒认率越低，证明语音命令识别系统越稳定。

当前已公开的这些技术中，存在这样的问题，当其他人发出相应的命令时，由于唤醒系统本身不具有识别用户身份的能力，所以用户自己的系统也会被唤醒，这就大大增加了用户使用时的风险。由于每个人的声音都具有唯一性，通过声纹识别来确认用户身份具有其独特的优越性，也只有这种方式才能真正实现唤醒者的不可替代性，即使其他人故意要唤醒系统，系统也可以判断不是用户本人而拒绝被唤醒。

发明内容

本发明实施方式提出一种语音命令识别方法，以提高安全性。

本发明实施方式提出一种语音命令识别装置，以提高安全性。

本发明实施方式的技术方案如下：

一种语音命令识别方法，该方法包括：

获取广义背景模型，并基于用户的注册语音获取用户的声纹模型；

接收语音，提取所述语音的声纹特征，并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户；

当确定所述语音源自所述用户时，识别所述语音中的命令词。

一种语音命令识别装置，其特征在于，包括模型获取单元、用户识别单元和命令词识别单元，其中：

模型获取单元，用于获取广义背景模型，并基于用户的注册语音获取用户的声纹模型；

用户识别单元，用于接收语音，提取所述语音的声纹特征，并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户；

命令词识别单元，用于当确定所述语音源自所述用户时，识别所述语音中的命令词。

从上述技术方案可以看出，在本发明实施方式中，获取广义背景模型，并基于用户的注册语音获取用户的声纹模型；接收语音，提取所述语音的声纹特征，并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户；当确定所述语音源自所述用户时，识别所述语音中的命令词。应用本发明实施方式之后，可以基于注册用户的声纹模型确定语音是否源自注册用户，从而提高了安全性。

而且，在语音唤醒应用中，本发明实施方式可以将使用声纹识别的方式来确认用户的身份，可保证系统只能由用户本身唤醒。

附图说明

图1为根据本发明实施方式语音命令识别方法流程图；

图2为根据本发明实施方式的用户声纹注册流程图；

图3为根据本发明实施方式的基于用户语音的语音唤醒流程图；

图4为根据本发明实施方式的语音命令识别装置结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

由于每个人的声音都具有唯一性，通过声纹识别来确认用户身份具有其独特的优越性。比如，声纹识别来确认用户身份可以真正实现唤醒者的不可替代性，即使其他人故意要唤醒系统，系统也可以判断不是用户本人而拒绝被唤醒。

声纹识别也称为说话人识别。声纹识别包括文本相关（Text-Dependent）和文本无关（Text-Independent）两种。与文本有关的声纹识别系统要求用户按照规定的内容发音，每个人的声纹模型逐个被精确地建立，而识别时也必须按规定的内容发音，因此可以达到较好的识别效果。文本无关的说话人识别由于不需要存储特定的文本密码，而直接使用说话人的语音作为密码，可以广泛的应用在互联网用户身份认证等安全领域。

本发明实施方式可以适用于针对文本有关以及文本无关的应用，尤其适用于针对文本有关的应用，比如语音唤醒应用。

图1为根据本发明实施方式语音命令识别方法流程图。

如图1所示，该方法包括：

步骤101：获取广义背景模型，并基于用户的注册语音获取用户的声纹模型。

可以利用包含大量说话人的语音数据训练一个说话人无关的广义背景模型（Universal Background Model，UBM），然后利用可以获得的少量当前说话人的语音数据，通过最大后验概率（Maximum A Posteriori,MAP）或者最大似然线性回归（MaximumLikelihood Linear Regression,MLLR）等准则，训练得到说话人的模型，以作为用户的声纹模型。

在一个实施方式中：

可以使用大量语音数据训练出一个基于混合高斯模型（GMM）的广义背景模型（UBM）。另外，还可以通过麦克风等语音采集设备采集用户口述命令词的注册语音；再从注册语音中提取用户语音特征；并利用所述用户语音特征通过最大后验自适应方式在所述广义背景模型上自适应获取该用户的混合高斯模型，以作为所述用户的声纹模型。

通过注册用户的声音（声纹），可以便于后续过程中对语音进行鉴定，以确定所检测的语音是否由注册用户所发出。

步骤102：接收语音，提取所述语音的声纹特征，并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户。

在做说话人身份判决的时候，分别针对待测试语音数据计算说话人对应的GMM模型和UBM模型似然度，并通过对数似然比（Logistic Likelihood Ratio，LLR）这个度量来计算最终的得分。对于说话人确认任务来说，通过比较与预先设定的一个门限（Threshold）的关系，来进行判决，而对于说话人识别来说，模型得分高的则为说话人识别结果。

在用户完成语音注册后，就具有了识别该用户的能力。在实际应用中，用户说出其对应的文字密码的语音，使用该语音与用户之前注册的声纹模型进行比对，即可判定是否是之前注册的用户所发出的命令。

在一个实施方式中：

在这里，可以确定所述声纹特征与用户声纹模型的相似度以及所述声纹特征与广义背景模型的相似度；当所述声纹特征与用户声纹模型的相似度和所述声纹特征与广义背景模型的相似度之间的差值大于预先设定的门限值时，确定该语音源自所述用户。

具体流程如下：首先对输入的语音进行声纹特征的提取，然后使用该特征序列与目标人的声纹模型和广义背景模型（UBM）进行相似度得分的计算，一般采用log似然比得分，即目标人模型上的似然值与UBM上的似然值的差值Score：

score = \frac{1}{T} (\log p (X | λ_{spk}) - \log p (X | λ_{ubm}));

其中底数示范性为e；

其中：

X为测试的语音特征，T为语音特征的帧数，λ_spk为目标说话人模型，λ_ubm为UBM模型；P(x|^)是特征序列x与模型^的相似度，由计算混合高斯模型的似然度函数得出。

当Score得分大于设定的阈值的时候，可以判定用户为注册时的用户，即合法用户。当Score得分小于设定的阈值的时候，判定为非法用户，拒绝进一步的处理，返回录音阶段。

步骤103：当确定所述语音源自所述用户时，识别所述语音中的命令词。

在这里，当确定所述语音源自所述用户时，可以基于多种实施方式来识别所述语音中的命令词。

比如：

第一步骤，对语音进行低于指定精度的声学模型训练计算，得到背景声学模型，该背景声学模型是音素精度较低的声学模型。

第二步骤，对语音进行高于指定精度的声学模型训练计算，得到前景声学模型，该前景声学模型是音素精度很高的声学模型，目的是为了提高对命令词语音的识别精度。

当然，上述第一步骤和第二步骤并不一定严格按照先后顺序，也可以同时进行，或者第二步骤先执行。

第三步骤，依据所述前景声学模型和背景声学模型构建解码网络，其中包括：从所述前景声学模型中选择命令词包含的音素，利用选出的音素构建所述命令词对应的解码路径，依据所述背景声学模型的音素构建对应的解码路径。

第四步骤，依据所述解码网络对输入的语音进行解码。

第五步骤，在语音结束后判断解码结果是否为指定命令词的字符串，在解码结果为指定命令词的字符串时触发该命令词对应的操作。

例如，本发明可以应用在语音唤醒系统中，假设唤醒命令为“微信秘书”，当用户说出“微信秘书”的语音时，系统会自动识别出该语音的字符串“微信秘书”，从而唤醒“微信秘书”这个功能。

所述声学模型是语音识别系统中最为重要的部分之一，目前的主流语音识别系统多采用隐马尔科夫模型（HMM，Hidden Markov Model）进行建模，隐马尔可夫模型是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中，状态并不是直接可见的，但受状态影响的某些变量则是可见的。在声学模型中描述了语音与音素的对应概率。所述音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位；从生理性质来看，一个发音动作形成一个音素。

本发明中所述声学模型训练计算的具体计算方法可以采用现有的成熟的训练计算方法，例如可以使用HTK的工具和流程，对语音进行声学模型训练计算得到对应的声学模型。其中：

第一步骤中，所述对语音进行低于指定精度的声学模型训练计算的过程中，需要使用尽可能多的语音数据，为了能够低于指定的精度，其中具体包括：用于描述音素的混合高斯模型（GMM，Gaussian mixture model）中的高斯数量B需要低于指定值，例如在本发明的优选实施例中，所述B可以为4或8。所述高斯混合模型可以有效地提取语音信号中的说话人特征、剔除语义等冗余信息，从而较充分地反映说话人个性特征的统计分布，是目前语音识别的主流技术。

第二步骤中，所述对语音进行高于指定精度的声学模型训练计算的过程中，需要使用尽可能多的语音数据，为了能够高于指定的精度，其中具体包括：用于描述音素的混合高斯模型中的高斯数量Q高于指定值，且所述Q需要大于B，例如在本发明的优选实施中，所述Q需要远大于B，例如所述Q为16或32或32以上的值。

在一种具体实施例中，第一步骤中所述对语音进行低于指定精度的声学模型训练计算，得到背景声学模型，可以用精度较低的单音素（monophone）进行训练计算，也可以用精度较高的三音素（triphone）进行训练计算，但是需要对三音素进行聚类处理。

例如第一步骤具体可以为：对语音进行单音素的声学模型训练计算，将得到的单音素声学模型作为背景声学模型。其中，用于描述所述单音素的GMM中的高斯数量B需要低于指定值，例如在本发明的优选实施例中，所述B可以为4或8。

或者第一步骤具体可以为：对语音进行三音素的声学模型训练计算，得到三音素声学模型，对该三音素声学模型中的三音素进行聚类，将聚类后的三音素声学模型作为背景声学模型。其中，用于描述所述三音素的GMM中的高斯数量B需要低于指定值，例如在本发明的优选实施例中，所述B可以为4或8。

在一种具体实施例中，第二步骤中所述对语音进行高于指定精度的声学模型训练计算，得到前景声学模型，可以用精度较高的三音素进行训练计算；也可以用精度较低的单音素进行训练计算，但是这些单音素序列需要是增强的隐马尔可夫模型（HMM，HiddenMarkov Model）序列，例如用于描述这些单音素的GMM中的高斯数量要为很高的值，通常为32或更高的值。

例如第二步骤具体可以为：对语音进行三音素的声学模型训练，得到三音素声学模型，其中用于描述该三音素的GMM的高斯数量Q需要高于指定值，例如在本发明的优选实施例中，所述Q为16或32或32以上的值。之后利用命令词对应的语音对得到的三音素声学模型进行自适应计算，将经过自适应计算后的三音素声学模型作为前景声学模型。

或者第二步骤具体也可以为：对语音进行单音素的声学模型训练计算，得到单音素声学模型，其中用于描述单音素的GMM中的高斯数量Q高于指定高值，例如Q为32或更高的值，之后利用命令词对应的语音对得到的单音素声学模型进行自适应计算，将经过自适应计算后的单音素声学模型作为背景声学模型。

在这里，当确定所述语音源自所述用户时，可以基于多种方式来识别语音中的命令词。

在一个实施方式中：

对语音进行低于指定精度的声学模型训练计算，得到背景声学模型；

对语音进行高于指定精度的声学模型训练计算，得到前景声学模型；

依据所述前景声学模型和背景声学模型构建解码网络，其中包括：从所述前景声学模型中选择命令词包含的音素，利用选出的音素构建所述命令词对应的解码路径，依据所述背景声学模型的音素构建对应的解码路径；

依据所述解码网络对输入的语音进行解码，在语音结束后判断解码结果是否为指定命令词的字符串，在解码结果为指定命令词的字符串时触发该命令词对应的操作。

在一个实施方式中：

所述对语音进行低于指定精度的声学模型训练计算的过程中，具体包括：用于描述音素的混合高斯模型中的高斯数量B低于指定值；

所述对语音进行高于指定精度的声学模型训练计算的过程中，具体包括：用于描述音素的混合高斯模型中的高斯数量Q高于指定值，且所述Q大于B。

在一个实施方式中：

对语音进行低于指定精度的声学模型训练计算，得到背景声学模型，具体为：

对语音进行单音素的声学模型训练计算，将得到的单音素声学模型作为背景声学模型；

或者，对语音进行三音素的声学模型训练计算，得到三音素声学模型，对该三音素声学模型中的三音素进行聚类，将聚类后的三音素声学模型作为背景声学模型。

在一个实施方式中：

对语音进行高于指定精度的声学模型训练计算，得到前景声学模型，具体为：

对语音进行三音素的声学模型训练，利用命令词对应的语音对得到的三音素声学模型进行自适应计算，将经过自适应计算后的三音素声学模型作为前景声学模型；

对语音进行单音素的声学模型训练计算，其中用于描述单音素的混合高斯模型中的高斯数量高于指定高值，利用命令词对应的语音对得到的单音素声学模型进行自适应计算，将经过自适应计算后的单音素声学模型作为背景声学模型。

在一个实施方式中：

依据所述前景声学模型和背景声学模型构建解码网络，具体包括：

从所述前景声学模型中选择各个命令词包含的音素；针对每一命令词，利用选出的该命令词包含的音素构建该命令词对应的一条解码路径；

依据所述背景声学模型的所有音素构建对应的解码路径。

优选地，在接收语音与提取所述语音的声纹特征之间，对所述语音执行语音活动检测，而且当确定所述语音中包含人类语音后，才提取所述语音的声纹特征。

图2为根据本发明实施方式的用户声纹注册流程图。

如图2所示，该流程包括：

步骤201：采集用户口述命令词的注册语音。

步骤202：从注册语音中提取用户语音特征。

步骤203：利用所述用户语音特征通过最大后验自适应方式在所述广义背景模型上自适应获取该用户的混合高斯模型，以作为所述用户的声纹模型。

具体地，在用户进行声纹注册的时候，用户首先在设备上说出命令词。比如，在唤醒应用中，文字密码就是命令词本身。设备通过麦克风采集该用户说出唤醒命令词时的语音，然后本地或通过后台服务器进行与命令词相关的声纹模型训练。比如，首先将设备麦克风采集的语音数据压缩后通过网络传递给后台服务器，后台服务器获得设备所传的语音数据后，提取说话人以及命令词相关的信息特征（如mfcc，lpcc等语音特征），然后使用语音特征序列进行声纹模型的训练，包括：首先使用大量语音数据训练一个基于GMM模型的广义背景模型，随后使用用户的语音特征通过最大后验自适应的方式在UBM模型上自适应得到该用户的GMM模型。

在得到广义背景模型和该用户的GMM模型后，将这两个模型通过网络等传输方式发到设备中，即完成了声纹的注册。这里，声纹模型的训练可以是在云端的服务器上，也可以在设备本地进行。

可以将本发明应用到多种应用环境中，比如系统唤醒应用。通过使用声纹识别的方式来代替确认用户的身份，可保证系统只能由用户本身唤醒，从而提高了系统的安全性。

图3为根据本发明实施方式的基于用户语音的语音唤醒流程图。

在系统唤醒应用中，可以首先提示用户注册语音，注册语音包含唤醒命令词，再基于注册语音获取用户的声纹模型。注册完成后，当用户在使用时，由语音活动检测（VAD）模块负责检测从话筒中输入的语音是否包含人说话的部分。如果包含，那么就将语音信号送入说话人识别模块，由说话人识别模块检测是否是用户本人发出的命令。如果是用户本人发出的命令，那么再将语音信号送入命令识别模块，判断用户是否要唤醒系统。

基于本发明实施方式可以识别多个命令词，并可以将这些命令词做进一步的应用，比如去打电话、发短信等等，而不仅仅是唤醒系统这一种功能。

基于上述分析，本发明实施方式还提出了一种语音命令识别装置。

图4为根据本发明实施方式的语音命令识别装置结构图。

如图4所示，该装置包括模型获取单元401、用户识别单元402和命令词识别单元403，其中：

模型获取单元401，用于获取广义背景模型，并基于用户的注册语音获取用户的声纹模型；

用户识别单元402，用于接收语音，提取所述语音的声纹特征，并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户；

命令词识别单元403，用于当确定所述语音源自所述用户时，识别所述语音中的命令词。

在一个实施方式中：

用户识别单元402，用于确定所述声纹特征与用户声纹模型的相似度以及所述声纹特征与广义背景模型的相似度；当所述声纹特征与用户声纹模型的相似度和所述声纹特征与广义背景模型的相似度之间的差值大于预先设定的门限值时，确定该语音源自注册用户。

在一个实施方式中：

模型获取单元401，用于采集用户口述命令词的注册语音；从所述注册语音中提取用户语音特征；利用所述用户语音特征通过最大后验自适应方式在所述广义背景模型上自适应获取该用户的混合高斯模型，以作为所述用户的声纹模型。

在一个实施方式中：

命令词识别单元403，用于对语音进行低于指定精度的声学模型训练计算，得到背景声学模型；对语音进行高于指定精度的声学模型训练计算，得到前景声学模型；依据所述前景声学模型和背景声学模型构建解码网络，其中包括：从所述前景声学模型中选择命令词包含的音素，利用选出的音素构建所述命令词对应的解码路径，依据所述背景声学模型的音素构建对应的解码路径；依据所述解码网络对输入的语音进行解码，在语音结束后判断解码结果是否为指定命令词的字符串，在解码结果为指定命令词的字符串时触发该命令词对应的操作。

在一个实施方式中：

命令词识别单元403，用于：

在一个实施方式中：

命令词识别单元403，用于：

在一个实施方式中：

命令词识别单元403，用于从所述前景声学模型中选择各个命令词包含的音素；针对每一命令词，利用选出的该命令词包含的音素构建该命令词对应的一条解码路径；依据所述背景声学模型的所有音素构建对应的解码路径。

在一个实施方式中：

进一步包括语音活动检测单元（未示出）；

所述语音活动检测单元，用于对所述语音执行语音活动检测，而且只有当确定所述语音中包含人类语音后，所述用户识别单元才提取所述语音的声纹特征。

可以将图1所示方法集成到各种网络的硬件实体当中。比如，可以将语音命令识别方法集成到：功能手机、智能手机、掌上电脑、个人电脑（PC）、平板电脑或个人数字助理（PDA），等等设备之中。

实际上，可以通过多种形式来具体实施本发明实施方式所提出的语音命令识别方法。比如，可以遵循一定规范的应用程序接口，将语音命令识别方法编写为安装到自然语言处理服务器中的插件程序，也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时，可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的语音命令识别方法。

可以通过指令或指令集存储的储存方式将本发明实施方式所提出的语音命令识别方法存储在各种存储介质上。这些存储介质包括但是不局限于：软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒（Memory Stick）、xD卡等。

另外，还可以将本发明实施方式所提出的语音命令识别方法应用到基于闪存（Nand flash）的存储介质中，比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。

综上所述，在本发明实施方式中，获取广义背景模型，并基于用户的注册语音获取用户的声纹模型；接收语音，提取所述语音的声纹特征，并基于所述语音的声纹特征、所述广义背景模型和所述用户声纹模型确定该语音是否源自所述用户；当确定所述语音源自所述用户时，识别所述语音中的命令词。应用本发明实施方式之后，可以基于注册用户的声纹模型确定语音是否源自注册用户，从而提高了安全性。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音命令识别方法，其特征在于，该方法包括：

当确定所述语音源自所述用户时，识别所述语音中的命令词；

所述识别所述语音中的命令词包括：

2.根据权利要求1所述的语音命令识别方法，其特征在于，所述基于语音的声纹特征、广义背景模型和用户声纹模型确定该语音是否源自所述用户包括：

确定所述声纹特征与用户声纹模型的相似度以及所述声纹特征与广义背景模型的相似度；

当所述声纹特征与用户声纹模型的相似度和所述声纹特征与广义背景模型的相似度之间的差值大于预先设定的门限值时，确定该语音源自所述用户。

3.根据权利要求1所述的语音命令识别方法，其特征在于，所述基于用户的注册语音获取用户的声纹模型包括：

采集用户口述命令词的注册语音；

从所述注册语音中提取用户语音特征；

利用所述用户语音特征通过最大后验自适应方式在所述广义背景模型上自适应获取该用户的混合高斯模型，以作为所述用户的声纹模型。

4.根据权利要求1所述的语音命令识别方法，其特征在于，所述对语音进行低于指定精度的声学模型训练计算的过程中，具体包括：用于描述音素的混合高斯模型中的高斯数量B低于指定值；

5.根据权利要求1所述的语音命令识别方法，其特征在于，所述对语音进行低于指定精度的声学模型训练计算，得到背景声学模型，具体为：

6.根据权利要求1所述的语音命令识别方法，其特征在于，所述对语音进行高于指定精度的声学模型训练计算，得到前景声学模型，具体为：

对语音进行三音素的声学模型训练，利用命令词对应的语音对得到的三音素声学模型进行自适应计算，将经过自适应计算后的三音素声学模型作为前景声学模型。

7.根据权利要求1所述的语音命令识别方法，其特征在于，所述依据所述前景声学模型和背景声学模型构建解码网络，具体包括：

依据所述背景声学模型的所有音素构建对应的解码路径。

8.根据权利要求1-7中任一项所述的语音命令识别方法，其特征在于，该方法进一步包括：

在接收语音与提取所述语音的声纹特征之间，对所述语音执行语音活动检测，而且当确定所述语音中包含人类语音后，才提取所述语音的声纹特征。

9.一种语音命令识别装置，其特征在于，包括模型获取单元、用户识别单元和命令词识别单元，其中：

命令词识别单元，用于当确定所述语音源自所述用户时，识别所述语音中的命令词；所述识别所述语音中的命令词包括：对语音进行低于指定精度的声学模型训练计算，得到背景声学模型；对语音进行高于指定精度的声学模型训练计算，得到前景声学模型；依据所述前景声学模型和背景声学模型构建解码网络，其中包括：从所述前景声学模型中选择命令词包含的音素，利用选出的音素构建所述命令词对应的解码路径，依据所述背景声学模型的音素构建对应的解码路径；依据所述解码网络对输入的语音进行解码，在语音结束后判断解码结果是否为指定命令词的字符串，在解码结果为指定命令词的字符串时触发该命令词对应的操作。

10.根据权利要求9所述的语音命令识别装置，其特征在于，

用户识别单元，用于确定所述声纹特征与用户声纹模型的相似度以及所述声纹特征与广义背景模型的相似度；当所述声纹特征与用户声纹模型的相似度和所述声纹特征与广义背景模型的相似度之间的差值大于预先设定的门限值时，确定该语音源自注册用户。

11.根据权利要求9所述的语音命令识别装置，其特征在于，

模型获取单元，用于采集用户口述命令词的注册语音；从所述注册语音中提取用户语音特征；利用所述用户语音特征通过最大后验自适应方式在所述广义背景模型上自适应获取该用户的混合高斯模型，以作为所述用户的声纹模型。

12.根据权利要求9所述的语音命令识别装置，其特征在于，

13.根据权利要求9所述的语音命令识别装置，其特征在于，

命令词识别单元，用于：

14.根据权利要求9所述的语音命令识别装置，其特征在于，

命令词识别单元，用于：

15.根据权利要求9所述的语音命令识别装置，其特征在于，

命令词识别单元，用于从所述前景声学模型中选择各个命令词包含的音素；针对每一命令词，利用选出的该命令词包含的音素构建该命令词对应的一条解码路径；依据所述背景声学模型的所有音素构建对应的解码路径。

16.根据权利要求9-15中任一项所述的语音命令识别装置，其特征在于，进一步包括语音活动检测单元；