CN104616653B

CN104616653B - 唤醒词匹配方法、装置以及语音唤醒方法、装置

Info

Publication number: CN104616653B
Application number: CN201510033800.8A
Authority: CN
Inventors: 李鹏
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2015-01-23
Filing date: 2015-01-23
Publication date: 2018-02-23
Anticipated expiration: 2035-01-23
Also published as: CN104616653A

Abstract

本发明公开了一种唤醒词匹配方法、装置以及语音唤醒方法、装置。该唤醒词匹配方法包括：使用两种或两种以上算法分别对输入语音与所述唤醒词的匹配进行打分，得到所述输入语音与所述唤醒词匹配的对应的分数；以及将由每种算法得到的分数输入分类器，根据所述分类器的输出来判断所述输入语音是否与所述唤醒词匹配。本发明提供的唤醒词匹配方法通过多种算法融合的判别方法来判断输入语音是否与唤醒词匹配，提高了唤醒词匹配的准确率。

Description

唤醒词匹配方法、装置以及语音唤醒方法、装置

技术领域

本发明涉及计算机声学领域，具体地，涉及唤醒词匹配方法、装置以及语音唤醒方法、装置。

背景技术

基于语音交互的智能设备已经实用化，在诸如家电、车机、手机等设备上已经有广泛应用，其中，很多设备都具有语音唤醒功能，用于屏幕解锁或者作为启动应用的辅助手段。语音唤醒是这样一项技术，当设备处于待机状态时，在非常低的功耗条件下，在后台不间断运行一个装置，对某个预先定义的唤醒词进行检测，当检测到用户说出这个词时，将设备唤醒，使该设备进入正常工作状态。

现有的唤醒词匹配主要应用以下三种方法：

基于动态时间弯折(dynamic time warping,DTW)的方法，该方法将语音与预先录制的若干条同一唤醒词的录音进行声学特征的动态匹配，将匹配距离与预先设定的阈值比较，当距离小于阈值时，判断该语音为要检测的唤醒词。该方法需要事先录制唤醒词，而且录制唤醒词的人和使用唤醒的人需要为同一人。

基于对数似然比(log likelihood ration,LLR)的方法，该方法是一种基于模型的方法。该方法首先使用大量人说同一个唤醒词的语音训练得到一个唤醒词的隐马尔可夫模型(hidden Markov model,HMM)，并且训练若干个背景模型。在匹配时，使用维特比(Viterbi)算法将语音与模型状态做强制对齐，得到一个对数似然值；同时使用背景模型对语音进行打分，得到一个最大参考似然值。将对数似然值和最大参考似然值的比值与预先设定的阈值比较，当比值大于阈值时，判断该语音为要检测的唤醒词。该方法需要对每个唤醒词都训练一个唤醒词模型，需要大量的不同人的录音数据，使得唤醒词的定制比较困难。并且，该方法中，背景模型的数量过多时，增加计算量，在低功耗(低频率)设备上无法满足实时性；而数量过少时，参考准确率降低，导致唤醒词检出准确率下降。

基于对数似然值的方法，该方法与上述LLR的方法相似，不同点是它不再需要背景模型，而是直接将唤醒词模型与语音进行强制对齐得到最优路径的对数似然值打分，当打分大于预先设定的阈值时，判断该语音为要检测的唤醒词。该方法中，由于似然值是概率密度函数的取值，并非概率，所以动态范围大且不一致，使得很难设定一个合适的阈值。并且，该方法需要大量的不同人的录音数据，使得唤醒词的定制比较困难。

评判一个语音唤醒技术的准确率有两个指标：一个是错误拒绝(falserejection,FR)，一个是错误接受(false acceptance,FA)。前者指用户说出唤醒词时，装置没有检测到；后者指没有说出唤醒词，而装置检测到了。以上三种方法在单独使用的时候，上述“错误拒绝”和“错误接受”两个指标都比较高，因此，唤醒词匹配的准确率较低。

发明内容

本发明的目的是提供一种准确率较高的唤醒词匹配方法、装置以及语音唤醒方法、装置。

为了实现上述目的，本发明提供一种唤醒词匹配方法。该方法包括：使用两种或两种以上算法分别对输入语音与所述唤醒词的匹配进行打分，得到所述输入语音与所述唤醒词匹配的对应的分数；以及将由每种算法得到的分数输入分类器，根据所述分类器的输出来判断所述输入语音是否与所述唤醒词匹配。

优选地，所述算法包括第一算法和/或第二算法，其中，所述第一算法按照以下步骤执行：生成所述唤醒词的正向隐马尔可夫模型，其中，所述唤醒词的正向隐马尔可夫模型的状态序列为S＝[S₁,S₂,…,S_n]，n表示所述唤醒词的正向隐马尔可夫模型中的状态的数目；用维特比算法将输入语音和所述唤醒词的正向隐马尔可夫模型强制对齐，确定每一帧中所述唤醒词的正向隐马尔可夫模型的每个状态的对数似然值；以及根据每一帧中所述唤醒词的正向隐马尔可夫模型的每个状态的对数似然值来确定所述输入语音与所述唤醒词匹配的最优路径的分数，所述第二算法按照以下步骤执行：生成所述唤醒词的正向隐马尔可夫模型，其中，所述唤醒词的正向隐马尔可夫模型的状态序列为S＝[S₁,S₂,…,S_n]，n表示所述唤醒词的正向隐马尔可夫模型中的状态的数目；用维特比算法将输入语音和所述唤醒词的正向隐马尔可夫模型强制对齐，确定每一帧中所述唤醒词的正向隐马尔可夫模型的每个状态的对数似然值；将每一帧中所述唤醒词的正向隐马尔可夫模型的全部状态的对数似然值按照大小顺序排成一序列，将每个状态在该序列中的位置作为该状态的分数；以及根据每一帧中所述唤醒词的正向隐马尔可夫模型的每个状态的分数来确定所述输入语音与所述唤醒词匹配的最优路径的分数。

优选地，所述算法还包括第三算法和/或第四算法，其中，所述第三算法按照以下步骤执行：生成所述唤醒词的正向隐马尔可夫模型，其中，所述唤醒词的正向隐马尔可夫模型的状态序列为S＝[S₁,S₂,…,S_n]，n表示所述唤醒词的正向隐马尔可夫模型中的状态的数目；生成所述唤醒词的反向隐马尔可夫模型，其中，对所述唤醒词的正向隐马尔可夫模型中的状态S₁,S₂,…,S_n重新排序，得到所述唤醒词的反向隐马尔可夫模型中的状态序列S'＝[S_j1,S_j2,…,S_jn]，该序列S'使得的取值最大，其中，dist(S_i,S_ji)表示状态S_i的混合高斯模型和状态S_ji的混合高斯模型之间的距离，i为1到n的正整数；以及用维特比算法将所述输入语音和所述唤醒词的反向隐马尔可夫模型强制对齐，确定每一帧中所述唤醒词的反向隐马尔可夫模型的每个状态的对数似然值；以及根据每一帧中所述唤醒词的反向隐马尔可夫模型的每个状态的对数似然值来确定所述输入语音与所述唤醒词匹配的最优路径的分数，所述第四算法按照以下步骤执行：生成所述唤醒词的正向隐马尔可夫模型，其中，所述唤醒词的正向隐马尔可夫模型的状态序列为S＝[S₁,S₂,…,S_n]，n表示所述唤醒词的正向隐马尔可夫模型中的状态的数目；生成所述唤醒词的反向隐马尔可夫模型，其中，对所述唤醒词的正向隐马尔可夫模型中的状态S₁,S₂,…,S_n重新排序，得到所述唤醒词的反向隐马尔可夫模型中的状态序列S'＝[S_j1,S_j2,…,S_jn]，该序列S'使得的取值最大，其中，dist(S_i,S_ji)表示状态S_i的混合高斯模型和状态S_ji的混合高斯模型之间的距离，i为1到n的正整数；用维特比算法将所述输入语音和所述唤醒词的反向隐马尔可夫模型强制对齐，确定每一帧中所述唤醒词的反向隐马尔可夫模型的每个状态的对数似然值；将每一帧中所述唤醒词的反向隐马尔可夫模型的全部状态的对数似然值按照大小顺序排成一序列，将每个状态在该序列中的位置作为该状态的分数；以及根据每一帧中所述唤醒词的反向隐马尔可夫模型的每个状态的分数来确定所述输入语音与所述唤醒词匹配的最优路径的分数。

优选地，生成所述唤醒词的正向隐马尔可夫模型的步骤包括：从发音词典获得所述唤醒词中所包含的基本声学单元；以及从经过训练的一通用声学模型中提取出所述基本声学单元的隐马尔可夫模型，并将所述基本声学单元按照所述唤醒词中的顺序拼接成所述唤醒词的正向隐马尔可夫模型。

本发明还提供一种唤醒词匹配装置。该唤醒词匹配装置包括：用于使用两种或两种以上算法分别对输入语音与所述唤醒词的匹配进行打分，得到所述输入语音与所述唤醒词匹配的对应的分数的打分装置；以及分类器，用于根据由每种算法得到的分数来判断所述输入语音是否与所述唤醒词匹配。

本发明还提供一种语音唤醒方法。该语音唤醒方法包括：采集输入语音信号；对所述输入语音信号进行端点检测；用上述唤醒词匹配方法判断所述输入语音信号是否与所述唤醒词匹配；以及在所述输入语音信号与所述唤醒词判断为匹配的情况下，进行唤醒，并在所述输入语音信号与所述唤醒词判断为不匹配的情况下，不进行唤醒。

本发明提供一种语音唤醒装置。该语音唤醒装置包括：采集装置，用于采集输入语音信号，并将所述输入语音信号传输到语音端点检测装置；所述语音端点检测装置，与所述采集装置连接，用于对所述输入语音信号进行端点检测；上述唤醒词匹配装置，用于从所述语音端点检测装置接收端点检测后的输入语音信号，判断所述端点检测后的输入语音信号是否与所述唤醒词匹配，并将所述判断结果传输到执行装置；以及所述执行装置，在所述端点检测后的输入语音信号与所述唤醒词判断为匹配的情况下，进行唤醒，并在所述端点检测后的输入语音信号与所述唤醒词判断为不匹配的情况下，不进行唤醒。

通过上述技术方案，使用两种或两种以上算法分别对输入语音和唤醒词的匹配进行打分，得到对应的分数，并将得到的分数通过分类器输出匹配结果。在本发明的优选实施方式中，构建了三种新的算法对输入语音与唤醒词的匹配进行打分。本发明提供的唤醒词匹配方法通过多种算法融合的判别方法来判断输入语音是否与唤醒词匹配，提高了唤醒词匹配的准确率。另外，在本发明的优选实施方式中，从经过训练的通用声学模型中提取基本声学单元的隐马尔可夫模型，拼接成唤醒词的正向隐马尔可夫模型。因此，不需要通过对唤醒词进行录音来训练唤醒词模型，从而使得唤醒词的定制比较简单。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明的实施方式提供的唤醒词匹配方法的步骤；

图2是本发明的实施方式提供的第一算法的步骤；

图3是本发明的实施方式提供的第二算法的步骤；

图4是本发明的实施方式提供的第三算法的步骤；

图5是本发明的实施方式提供的第四算法的步骤；

图6是本发明的实施方式提供的语音唤醒方法的步骤；以及

图7是本发明的实施方式提供的语音唤醒装置的结构框图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明提供的唤醒词匹配方法可以包括：使用两种或两种以上算法分别对输入语音与唤醒词的匹配进行打分得到输入语音与唤醒词匹配的对应的分数；以及将由每种算法得到的分数输入分类器，根据分类器的输出来判断输入语音是否与唤醒词匹配。

图1是本发明的实施方式提供的唤醒词匹配方法的步骤。如图1所示，该实施方式中，通过两种算法对输入语音和唤醒词进行了匹配。该实施方式中，唤醒词匹配方法可以包括：

步骤S101，使用一算法对输入语音与唤醒词的匹配进行打分，得到一分数；

步骤S102，使用另一算法对输入语音与唤醒词的匹配进行打分，得到另一分数；以及

步骤S103，将所有算法得到的分数输入分类器，根据分类器的输出来判断输入语音是否与唤醒词匹配。其中，分类器可以由本领域技术人员根据所使用的算法进行设置。

本发明提供的唤醒词匹配方法通过多种算法融合的判别方法来判断输入语音是否与所述唤醒词匹配，提高了唤醒词匹配的准确率。

在现有技术中，上述算法可以为基于对数似然值的算法。图2是本发明的实施方式提供的第一算法的步骤，该第一算法是基于对数似然值的算法。具体地，如图2所示，该第一算法可以按照以下步骤执行：

步骤S201，生成唤醒词的正向隐马尔可夫模型(Hidden Markov Model，HMM)。一般情况下，可以对唤醒词进行录音来训练唤醒词模型。上述唤醒词的正向HMM可以通过大量的人说同一个唤醒词的语音训练得到。优选情况下，步骤S201可以包括：从发音词典获得唤醒词中所包含的基本声学单元(例如，三音子)，从训练好的一通用声学模型中提取出基本声学单元的HMM，并将基本声学单元按照唤醒词中的顺序拼接成唤醒词的正向HMM。例如，唤醒词是“你好北京”，则可以将从发音词典获得的8个三音子的HMM，按照唤醒词中的顺序拼接成唤醒词的正向HMM：“sil-N+I3 N-I3+H I3-H+AO3 H-AO3+B AO3-B+EI3 B-EI3+J EI3-J+ING1 J-ING1+sil”。该优选实施方式中，唤醒词的正向HMM从通用声学模型中来提取，不需要通过对唤醒词进行录音来训练唤醒词模型，从而使得唤醒词的定制比较简单。

其中，每个基本声学单元的HMM可以包含若干个状态(一般为3个)，每个状态由一个高斯混合模型(Gaussian Mixture Model,GMM)表示。为了方便下文中的描述，假设唤醒词的正向HMM的状态序列为S＝[S₁,S₂,…,S_n]，n表示唤醒词的正向HMM中的状态的数目。

步骤S202，用维特比(Viterbi)算法将输入语音和唤醒词的正向HMM强制对齐，确定每一帧中唤醒词的正向HMM的每个状态的对数似然值。

步骤S203，根据每一帧中唤醒词的正向HMM的每个状态的对数似然值来确定输入语音与唤醒词匹配的最优路径的分数。最优路径的分数可以是沿着最优路径上的对数似然值的和。以上步骤为本领域技术人员在唤醒词匹配时所采用的公知手段，于此不再赘述。

本发明在上述第一算法(基于对数似然值的算法)的基础上，构建了三种新的算法，以下详细描述这三种算法。

图3是本发明的实施方式提供的第二算法的步骤。本发明所选的算法可以包括第一算法和/或第二算法。该第二算法在第一算法的基础上作出了一些改动。如图3所示，第二算法可以按照以下步骤执行：

第一算法中的步骤S201-步骤S202。

步骤S303，将每一帧中唤醒词的正向HMM的全部状态的对数似然值按照大小顺序排成一序列，将每个状态在该序列中的位置作为对该状态进行打分的分数。例如，一唤醒词有30个状态，则每一帧中，这30个状态打分的分数可以为0到29。

步骤S304，根据每一帧中唤醒词的正向HMM的每个状态的打分来确定输入语音与唤醒词匹配的最优路径的分数。

该第二算法中，与现有技术(第一算法)不同的是，将用于确定最优路径的最大似然值换成了最大似然值的打分。在第一算法中，由于对数似然值的范围不确定，当输入语音不是唤醒词时，有可能会出现每一帧中唤醒词的正向HMM的很多状态的打分都很高的情况，这时，确定的最优路径的分数可能会高于预设的阈值，造成错误接受(FA)。而在第二算法中，将每一帧中每个状态的对数似然值用其在该帧中排序的位置来代替，这样，由于每一帧中状态的打分区间是已知的，确定的最优路径的分数就会控制在一个范围内，从而避免了“错误接受”(FA)。本发明中，可以将第一和第二算法得到的分数输入分类器，根据分类器的输出来判断输入语音是否与唤醒词匹配，提高了唤醒词匹配的准确率。

本发明所选的算法还可以包括第三算法和/或第四算法。图4是本发明的实施方式提供的第三算法的步骤。如图4所示，该第三算法可以按照以下步骤执行：

第一算法中的步骤S201。

步骤S402，生成唤醒词的反向HMM。其中，对唤醒词的正向HMM中的状态S₁,S₂,…,S_n重新排序，得到唤醒词的反向HMM中的状态序列S'＝[S_j1,S_j2,…,S_jn]，该序列S'使得的取值最大。其中，dist(S_i,S_ji)表示状态S_i的GMM和状态S_ji的GMM之间的距离，i为1到n的正整数。也就是，将唤醒词的正向HMM中的状态重新进行排序，使得正向HMM中的每个状态的GMM与处于同一排序位置的反向HMM中的状态的GMM之间的距离之和最大。例如，唤醒词的正向HMM的状态序列为S＝[1,2,3]，唤醒词的反向HMM的状态序列为S'＝[3,1,2]，则满足dist(1,3)+dist(2,1)+dist(3,2)的取值最大。其中，dist(S_i,S_ji)可以使用KL散度(Kullback–Leibler divergence)或者其他量度的方法来求解，反向HMM的序列J＝[j1,j2,…,jn]可以用动态规划来求解。

步骤S403，用Viterbi算法将输入语音和唤醒词的反向HMM强制对齐，确定每一帧中唤醒词的反向HMM的每个状态的对数似然值；以及

步骤S404，根据每一帧中唤醒词的反向HMM的每个状态的对数似然值来确定输入语音与唤醒词匹配的最优路径的分数。

由此，在该第三算法中，通过将唤醒词的正向HMM的状态按照序列S'重新排序来构建唤醒词的反向HMM，在该唤醒词的反向HMM的基础上得到输入语音与唤醒词匹配的最优路径的分数。

与第二算法相似地，可以通过对第三算法中唤醒词的反向HMM的每个状态进行打分来生成第四算法。图5是本发明的实施方式提供的第四算法的步骤。如图5所示，该第四算法可以按照以下步骤执行：

第三算法中的步骤S201-步骤S403。

步骤S504，将每一帧中唤醒词的反向HMM的全部状态的对数似然值按照大小顺序排成一序列，将每个状态在该序列中的位置作为该状态的分数。

步骤S505，根据每一帧中唤醒词的反向HMM的每个状态的分数来确定输入语音与唤醒词匹配的最优路径的分数。

以上构建的唤醒词的反向HMM是与唤醒词的常规HMM(本发明中的正向HMM)具有最大反差的模型。该唤醒词的反向HMM具有这样的特点：当输入语音不是唤醒词时，用正向HMM(第一算法或第二算法)和反向HMM(第三算法或第四算法)分别确定的最优路径的分数的差异较小，而输入语音为唤醒词时，该差异较大。利用该特点，在本发明提供的唤醒词匹配方法中，对于上述提供的多种算法，可以在第一算法和第二算法中至少选择其中之一者，再在剩余算法中选择一者或多者，将由所选算法得到的分数输入一分类器，再根据该分类器的输出来判断输入语音是否与唤醒词匹配。本发明通过多种算法融合的判别方法，提高了唤醒词匹配的准确率。

本发明还提供一种唤醒词匹配装置。该唤醒词匹配装置可以包括：

用于使用两种或两种以上算法分别对输入语音与唤醒词的匹配进行打分，得到输入语音与唤醒词匹配的对应的分数的打分装置；以及

分类器，用于根据由每种算法得到的分数来判断输入语音是否与唤醒词匹配。

同样地，本发明提供的唤醒词匹配装置可以通过上述四种算法的组合方式进行组合来判断输入语音是否与唤醒词匹配。

本发明还提供一种语音唤醒方法。图6是本发明的实施方式提供的语音唤醒方法的步骤。如图6所示，该语音唤醒方法可以包括：

步骤S601，采集输入语音信号。例如，可以用麦克风接收声波，再通过模数转换和数字信号处理，将接收的声波转换成语音的数字信号。

步骤S602，对输入语音信号进行端点检测。

步骤S603，用上述唤醒词匹配方法来判断输入语音信号与唤醒词是否匹配。

步骤S604，在输入语音信号与唤醒词判断为匹配的情况下，进行唤醒。

步骤S605，在输入语音信号与唤醒词判断为不匹配的情况下，不进行唤醒。

本发明提供的语音唤醒方法中，应用上述语音唤醒方法，对唤醒词的匹配准确率较高。

本发明还提供一种语音唤醒装置。图7是本发明的实施方式提供的语音唤醒装置的结构框图。如图7所示，该语音唤醒装置700可以包括采集装置701、语音端点检测装置702、上述唤醒词匹配装置703和执行装置704。其中，采集装置701可以用于采集输入语音信号，并将输入语音信号传输到语音端点检测装置702。语音端点检测装置702可以与采集装置701连接，用于对输入语音信号进行端点检测。唤醒词匹配装置703可以用于从语音端点检测装置702接收端点检测后的输入语音信号，判断端点检测后的输入语音信号是否与唤醒词匹配，并将判断结果传输到执行装置704。执行装置704在端点检测后的输入语音信号与唤醒词判断为匹配的情况下，进行唤醒，并在端点检测后的输入语音信号与所述唤醒词判断为不匹配的情况下，不进行唤醒。

通过上述技术方案，使用两种或两种以上算法分别对输入语音和唤醒词的匹配进行打分，得到对应的分数，并将得到的分数通过分类器输出匹配结果。在本发明的优选实施方式中，构建了三种新的算法来对输入语音与唤醒词的匹配进行打分。本发明提供的唤醒词匹配方法通过多种算法融合的判别方法来判断输入语音是否与唤醒词匹配，提高了唤醒词匹配的准确率。另外，在本发明的优选实施方式中，从经过训练的通用声学模型中提取基本声学单元的HMM，按照唤醒词中的顺序拼接成唤醒词的正向HMM。因此，不需要通过对唤醒词进行录音来训练唤醒词模型，从而使得唤醒词的定制比较简单。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种唤醒词匹配方法，该唤醒词匹配方法包括：

步骤1：使用两种或两种以上算法分别对输入语音与所述唤醒词的匹配进行打分，得到所述输入语音与所述唤醒词匹配的对应的分数，其中，所述算法至少包括第二算法，所述第二算法按照以下步骤执行：

生成所述唤醒词的正向隐马尔可夫模型，其中，所述唤醒词的正向隐马尔可夫模型的状态序列为S＝[S₁,S₂,…,S_n]，n表示所述唤醒词的正向隐马尔可夫模型中的状态的数目；

用维特比算法将输入语音和所述唤醒词的正向隐马尔可夫模型强制对齐，确定每一帧中所述唤醒词的正向隐马尔可夫模型的每个状态的对数似然值；

将每一帧中所述唤醒词的正向隐马尔可夫模型的全部状态的对数似然值按照大小顺序排成一序列，将每个状态在该序列中的位置作为该状态的分数；

根据每一帧中所述唤醒词的正向隐马尔可夫模型的每个状态的分数来确定所述输入语音与所述唤醒词匹配的最优路径的分数；以及

步骤2：将由每种算法得到的分数输入分类器，根据所述分类器的输出来判断所述输入语音是否与所述唤醒词匹配。

2.根据权利要求1所述的方法，其特征在于，所述算法还包括第一算法，其中，所述第一算法按照以下步骤执行：

用维特比算法将输入语音和所述唤醒词的正向隐马尔可夫模型强制对齐，确定每一帧中所述唤醒词的正向隐马尔可夫模型的每个状态的对数似然值；以及

根据每一帧中所述唤醒词的正向隐马尔可夫模型的每个状态的对数似然值来确定所述输入语音与所述唤醒词匹配的最优路径的分数。

3.根据权利要求2所述的方法，其特征在于，所述算法还包括第三算法和/或第四算法，其中，所述第三算法按照以下步骤执行：

生成所述唤醒词的反向隐马尔可夫模型，其中，对所述唤醒词的正向隐马尔可夫模型中的状态S₁,S₂,…,S_n重新排序，得到所述唤醒词的反向隐马尔可夫模型中的状态序列S'＝[S_j1,S_j2,…,S_jn]，该序列S'使得的取值最大，其中，dist(S_i,S_ji)表示状态S_i的混合高斯模型和状态S_ji的混合高斯模型之间的距离，i为1到n的正整数；以及

用维特比算法将所述输入语音和所述唤醒词的反向隐马尔可夫模型强制对齐，确定每一帧中所述唤醒词的反向隐马尔可夫模型的每个状态的对数似然值；以及

根据每一帧中所述唤醒词的反向隐马尔可夫模型的每个状态的对数似然值来确定所述输入语音与所述唤醒词匹配的最优路径的分数，

所述第四算法按照以下步骤执行：

生成所述唤醒词的反向隐马尔可夫模型，其中，对所述唤醒词的正向隐马尔可夫模型中的状态S₁,S₂,…,S_n重新排序，得到所述唤醒词的反向隐马尔可夫模型中的状态序列S'＝[S_j1,S_j2,…,S_jn]，该序列S'使得的取值最大，其中，dist(S_i,S_ji)表示状态S_i的混合高斯模型和状态S_ji的混合高斯模型之间的距离，i为1到n的正整数；

用维特比算法将所述输入语音和所述唤醒词的反向隐马尔可夫模型强制对齐，确定每一帧中所述唤醒词的反向隐马尔可夫模型的每个状态的对数似然值；

将每一帧中所述唤醒词的反向隐马尔可夫模型的全部状态的对数似然值按照大小顺序排成一序列，将每个状态在该序列中的位置作为该状态的分数；以及

根据每一帧中所述唤醒词的反向隐马尔可夫模型的每个状态的分数来确定所述输入语音与所述唤醒词匹配的最优路径的分数。

4.根据权利要求2或3所述的唤醒词匹配方法，其特征在于，生成所述唤醒词的正向隐马尔可夫模型的步骤包括：

从发音词典获得所述唤醒词中所包含的基本声学单元；以及

从经过训练的一通用声学模型中提取出所述基本声学单元的隐马尔可夫模型，并将所述基本声学单元按照所述唤醒词中的顺序拼接成所述唤醒词的正向隐马尔可夫模型。

5.一种唤醒词匹配装置，该唤醒词匹配装置包括：

用于使用两种或两种以上算法分别对输入语音与所述唤醒词的匹配进行打分，得到所述输入语音与所述唤醒词匹配的对应的分数的打分装置，其中，所述装置被配置成至少使用第二算法，所述第二算法按照以下步骤执行：

分类器，用于根据由每种算法得到的分数来判断所述输入语音是否与所述唤醒词匹配。

6.根据权利要求5所述的唤醒词匹配装置，其特征在于，所述打分装置还被配置成使用第一算法，其中，所述第一算法按照以下步骤执行：

7.根据权利要求6所述的唤醒词匹配装置，其特征在于，所述打分装置还被配置成使用第三算法和/或第四算法，其中，所述第三算法按照以下步骤执行：

所述第四算法按照以下步骤执行：

8.根据权利要求6或7所述的唤醒词匹配装置，其特征在于，所述打分装置被配置成按照以下方式生成所述唤醒词的正向隐马尔可夫模型：

从发音词典获得所述唤醒词中所包含的基本声学单元；以及

9.一种语音唤醒方法，该语音唤醒方法包括：

采集输入语音信号；

对所述输入语音信号进行端点检测；

用权利要求1-4中任一权利要求所述的唤醒词匹配方法判断所述输入语音信号是否与所述唤醒词匹配；以及

在所述输入语音信号与所述唤醒词判断为匹配的情况下，进行唤醒，并在所述输入语音信号与所述唤醒词判断为不匹配的情况下，不进行唤醒。

10.一种语音唤醒装置，该语音唤醒装置包括：

采集装置，用于采集输入语音信号，并将所述输入语音信号传输到语音端点检测装置；

所述语音端点检测装置，与所述采集装置连接，用于对所述输入语音信号进行端点检测；

权利要求5-8中任一权利要求所述的唤醒词匹配装置，用于从所述语音端点检测装置接收端点检测后的输入语音信号，判断所述端点检测后的输入语音信号是否与所述唤醒词匹配，并将所述判断结果传输到执行装置；以及

所述执行装置，在所述端点检测后的输入语音信号与所述唤醒词判断为匹配的情况下，进行唤醒，并在所述端点检测后的输入语音信号与所述唤醒词判断为不匹配的情况下，不进行唤醒。