CN105575386B

CN105575386B - 语音识别方法和装置

Info

Publication number: CN105575386B
Application number: CN201510956467.8A
Authority: CN
Inventors: 潘复平; 钱胜; 贺利强; 黄辰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2019-07-30
Anticipated expiration: 2035-12-18
Also published as: CN105575386A

Abstract

本发明公开了一种语音识别方法和装置，其中，该方法包括：获取待识别语音数据，提取其语音特征；根据第一语言模型和第二语言模型同时对语音特征进行解码，得到第一语音识别结果和第二语音识别结果、以及在第一语言模型下的第一累计概率和在第二语言模型下的第二累计概率；根据第一累计概率和第二累计概率确定最终识别结果；根据最终识别结果的出处判断是否对待识别语音数据进行语音识别。本发明实施例的语音识别方法能够提供稳定可靠的语音识别环境，保证人机交互的顺畅性。

Description

语音识别方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法和装置。

背景技术

随着语音识别技术的发展以及识别率的不断提高，语音识别技术越来越多地被应用于日常生活的各个场景中。其中，对话交互是一个非常重要的领域，用户可以通过语音与计算机进行交流，使计算机理解用户意图，完成用户的指令。一轮完整的交互过程可能包含若干个对话场景，例如“订酒店”过程，包括以下场景：首先告诉计算机所订酒店的所在城市；其次是入住时间；然后是房间类型与数量；最后是离店时间。从第一个场景开始，计算机识别用户语音，判断用户意图，根据用户意图向下一个场景跳转，直至收集到所有用户信息，完成交互过程。在每个场景下，正常的用户说话用语是符合一定模式的。因此为了提高识别引擎对用户语音的识别率，通常对每个场景下的语言模型根据常用模式进行定制优化。采用这种定制化的语言模型进行识别，对于模式匹配的语音，识别正确率会很高。但这种识别结果本身具有偏向性，如果用户答非所问，所说语句不符合当前场景的上下文要求，识别正确率就会比较低，进而容易造成语义理解上的困惑，使交互流程难以继续。

为了避免这种情况，通过对话交互系统的拒识功能可以使得在检测到用户语音不符合当前场景要求的模式时，拒绝识别用户的语音，并请用户在该场景下再说一遍。相关技术中，该拒识方法在常规识别框架的基础上，针对识别结果采用以下两种后处理算法：(1)第一种方法，在得到识别结果的单词序列后，在定制语言模型上计算识别结果的ppl(Perplexity，困惑度)值，如果ppl值大于预先设定的门限，则判定为拒识；(2)第二种方法，识别引擎除了输出最优识别结果外，还可以输出词网，在词网中可以计算出最优识别结果每个单词的置信度，进而加权平均得到整个句子的置信度，如果句子置信度小于预先设定的门限，则判定为拒识。

但是，目前存在的问题是：(1)针对上述第一种方法，ppl值的动态范围比较大，是一个无界的值，针对无界值很难确定合适的门限，容易造成虚警和漏检，并且，有些识别结果虽然是错误的，但是该识别结果的ppl值可能会比较高，导致判定错误；(2)针对上述第二种方法，由于语言模型概率分布不均衡，所以会造成识别结果发生偏置的同时，也使词网难以充分包括有效的竞争候选，导致计算出的置信度不准确，导致判定错误，从而降低语音识别系统的稳定性、可靠性，并且，由于置信度不能判断识别结果是否符合场景上下文要求的模式，所以根据置信度判为正确的识别结果也有可能因为不符合场景要求而使交互流程阻塞。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种语音识别方法，该方法稳定性好，可靠性高，能够保证人机语音交互过程的顺畅。

本发明的第二个目的在于提出一种语音识别装置。

为达到上述目的，本发明第一方面实施例提出了一种语音识别方法，包括：获取用户输入的待识别语音数据，提取所述待识别语音数据中的语音特征；根据第一语言模型和第二语言模型同时对所述语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及所述待识别语音数据在所述第一语言模型下的第一累计概率和在所述第二语言模型下的第二累计概率；根据所述第一累计概率和第二累计概率确定最终识别结果；根据所述最终识别结果的出处判断是否对所述待识别语音数据进行语音识别。

本发明实施例的语音识别方法，首先获取用户输入的待识别语音数据，并提取其语音特征，根据第一语言模型第二语言模型同时对语音特征进行解码，得到第一语音识别结果和第二语音识别结果、以及待识别语音数据在第一语言模型下的第一累计概率和在第二语言模型下的第二累计概率，然后，根据第一累计概率和第二累计概率确定最终识别结果，最后，根据最终识别结果的出处判断是否对待识别语音数据进行语音识别。本发明实施例的语音识别方法能够提供稳定可靠的语音识别环境，进而保证人机语音交互过程的顺畅。

为达到上述目的，本发明第二方面实施例提出了一种语音识别装置，包括：

获取模块，用于获取用户输入的待识别语音数据；提取模块，用于提取所述待识别语音数据中的语音特征；解码模块，用于根据第一语言模型和第二语言模型同时对所述语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及所述待识别语音数据在所述第一语言模型下的第一累计概率和在所述第二语言模型下的第二累计概率；确定模块，用于根据所述第一累计概率和第二累计概率确定最终识别结果；语音识别模块，用于根据所述最终识别结果的出处判断是否对所述待识别语音数据进行语音识别。

本发明实施例的语音识别装置，通过获取模块获取用户输入的待识别语音数据，通过提取模块提取待识别语音数据中的语音特征，通过解码模块根据第一语言模型和第二语言模型同时对语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及待识别语音数据在第一语言模型下的第一累计概率和在第二语言模型下的第二累计概率，确定模块根据第一累计概率和第二累计概率确定最终识别结果，语音识别模块根据最终识别结果的出处判断是否对待识别语音数据进行语音识别。本发明实施例的语音识别装置能够提供稳定可靠的语音识别环境，进而保证人机通过语音进行交互的顺畅性。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的时间了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本发明一个实施例的语音识别方法的流程图；

图2是根据本发明一个实施例的在语音识别的解码过程的示意图；

图3是根据本发明另一个实施例的语音识别方法的流程图；

图4是根据本发明另一个实施例的在语音识别的解码过程的示意图；

图5是根据本发明一个实施例的语音识别装置的结构框图；

图6是根据本发明一个实施例的确定模块的结构框图；

图7是根据本发明一个实施例的语音识别模块的结构框图以及

图8是根据本发明一个实施例的解码模块的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的语音识别方法和装置。

图1是根据本发明一个实施例的语音识别方法的流程图。需要说明的是，本发明实施例的语音识别方法可应用于语音交互系统中。

如图1所示，该语音识别方法包括：

S101，获取用户输入的待识别语音数据，提取待识别语音数据中的语音特征。

具体地，在获取到用户输入的待识别语音数据之后，可通过特征提取模块等提取该待识别语音数据中的语音特征。

S102，根据第一语言模型和第二语言模型同时对语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及待识别语音数据在第一语言模型下的第一累计概率和在第二语言模型下的第二累计概率。

其中，在本发明的一个实施例中，第一语言模型可为通用语言模型，第二语言模型可以为定制语言模型。该通用语言模型可理解为用于描述不符合当前场景要求的异常句法模式，该定制语言模型可理解为用于描述符合当前场景要求的正常句法模式。

具体地，在语音识别的解码过程中，可将语音特征输入到解码器进行解码，该解码器中可具有如图2所示中的解码搜索状态图1和解码搜索状态图2，该状态图1和状态图2完全一样，其中，状态图1使用的是通用语言模型，状态图2使用的是定制语言模型，在本步骤中，可将语音特征输入到状态图1上以进行解码搜索，可以得到对应的第一语音识别结果，以及该待识别语音数据在该通用语言模型下的输出概率，即第一累计概率。

在语音识别的解码过程中，在将语音特征输入到状态图1上以进行解码搜索的同时，还可将语音特征输入到如图2所示中的状态图2上以进行解码搜索，如上述状态图2使用的是定制语言模型，可以得到对应的第二语音识别结果以及该待识别语音数据在该定制语言模型下的输出概率，即第二累计概率。

S103，根据第一累计概率和第二累计概率确定最终识别结果。

具体地，可以判断第一累计概率是否大于第二累计概率，如果第一累计概率大于第二累计概率，则将第一累计概率对应的第一语音识别结果确定为最终识别结果；以及如果第一累计概率小于或等于第二累计概率，则将第二累计概率对应的第二语音识别结果确定为最终识别结果。也就是说，可将第一累计概率和第二累计概率中最大值所对应的语音识别结果作为最终识别结果。

S104，根据最终识别结果的出处判断是否对待识别语音数据进行语音识别。

可根据最终识别结果的出处来判断待识别语音数据是否满足当前场景下的正常句法模式，并根据判断结果进行相应的操作。具体而言，在本发明的实施例中，当最终识别结果为第一语音识别结果时，判断待识别语音数据为不符合当前场景要求的异常句法模式，并生成拒识信息并提供给用户；当最终识别结果为第二语音识别结果时，判断待识别语音数据为符合当前场景要求的正常句法模式，并将第二语音识别结果作为语音识别的最终输出。

更具体地，在确定最终识别结果之后，可根据最终识别结果的出处来实现语音识别系统中的拒识功能。即当最终识别结果为第一语音识别结果，即最终识别结果是通过通用语言模型解码出来的语音识别结果时，可认为该语音更符合异常的句法模式，则可判定为用户的语音为错误回答，可生成拒识信息以提示用户回答错误。其中，在本发明的一个实施例中，拒识信息可以是计算机默认的，例如“请再说一遍”，也可以是用户自定义的，例如“没听懂”。进一步地，拒识信息可以通过屏幕显示的方式提供给用户，也可以通过语音的形式与用户进行“对话”。

当最终识别结果为第二语音识别结果，即最终识别结果是通过定制语言模型解码出来的语音识别结果时，可认为该语音更符合正常的句法模式，则可判为用户的语音为正确回答，此时可将该语音识别结果作为语音识别的最终输出，并可该语音识别结果提供给用户或者提供给语音交互系统，语音交互系统根据该语音识别结果进行相应的语音交互操作。

为方便理解本发明实施例的语音识别方法，可通过图2进行说明。

如图2所示，在语音特征的解码过程中，语音特征输入到如图2中的状态图1和状态图2上且同时展开搜索。其中，状态图2使用定制语言模型(即第二语言模型)，主要用于描述符合要求的正常句法模式，例如，我要订酒店→请选择地点→北京→请选择入住时间→2016年1月1日→请选择房间类型和数量→两个标准间→请选择离店时间→2016年1月3日→计算机显示满足条件的酒店以便用户进行后续操作；状态图1使用通用语言模型(即第一语言模型)，主要用于描述不符合要求的异常句法模式，例如，天真热呀→水真好喝→真麻烦(即答非所问或句法不合逻辑)。两个状态图同时输出识别结果(即第一语音结果和第一累计概率、第二语音结果和第二累计概率)，把两个结果进行比较，取其中累计概率较大者作为最终识别结果。之后，可根据识别结果的出处，即可实现拒识功能，即：如果识别结果是从状态图2得到的，说明语音更符合正常的句法模式，可判为回答正确；如果识别结果是从状态图1得到的，说明语音更符合异常的句法模式，可判为回答错误。

举例而言，如果用户输入语音数据：我要订酒店，在识别的解码过程中，可将该“我要订酒店”对应的语音特征同时输入到状态图1和状态图2，其中，根据状态图1中的通用语言模型进行解码，可以得到第一语音识别结果为“？”，第一累计概率为0，根据状态图2中的定制语言模型进行解码，可以得到第二语音识别结果为“我要订酒店”，第二累计概率为1，则第一累计概率小于第二累计概率，则输出最终识别结果为“我要订酒店”；进一步地，语音交互系统提示：请选择所订酒店地点，用户输入语音：天真热呀，则此时在对用户当前输入的语音数据“天真热呀”进行语音识别时，在识别的解码过程中，根据通用语言模型进行解码，得到第一语音识别结果为“天真热呀”，第一累计概率为1，根据定制语言模型进行解码，得到第二语音识别结果为“？”，第二累计概率为0，则第一累计概率大于第二累计概率，此时最终识别结果为“天真热呀”，该识别结果不符合当前场景要求的正常句法模式，则可生成拒识信息并提供给用户，例如，提示用户“请再说一次”。

综上，相对于传统的语音识别系统中的拒识功能，本发明提出的语音识别方法在实现拒识功能时，不需要预先设定门限，避免了由于门限不合适造成的虚警和漏检，并且将识别与拒识过程放在一起，在一遍解码中同时完成，在识别的结果过程中，通过引入通用语言模型避免了定制语言模型概率分布不均衡而造成的识别结果发音不符合实际语音的情况，另外，通过比较通用语言模型与定制语言模型的输出，实现对异常句式的鉴定，而不仅仅判断识别结果是不是准确，保证了交互流程的顺畅。

本发明实施例的语音识别方法，首先获取用户输入的待识别语音数据，并提取其语音特征，根据第一语言模型第二语言模型同时对语音特征进行解码，得到第一语音识别结果和第二语音识别结果、以及待识别语音数据在第一语言模型下的第一累计概率和在第二语言模型下的第二累计概率，然后根据第一累计概率和第二累计概率确定最终识别结果，最后，根据最终识别结果的出处判断是否对待识别语音数据进行语音识别。

图3是根据本发明另一个实施例的语音识别方法的流程图。

为了进一步提升语音交互系统中的拒识能力，提高交互系统的稳定性和可靠性，在本发明的实施例中，可对图2所示的状态图1的语言模型进行改进，即如图4所示，在解码过程中，状态图1使用的第一语言模型可包括通用语言模型和定制语言模型，状态图2使用的第二语言模型为定制语言模型。具体地，如图3所示，利用图4所示的解码器而进行语音识别的语音识别方法可以包括：

S301，获取用户输入的待识别语音数据，提取待识别语音数据中的语音特征。

S302，针对语音特征中的每个单词特征，根据通用语言模型和定制语言模型同时对每个单词特征进行解码，以得到第一语音识别结果，以及每个单词特征在通用语言模型下的第一概率以及每个单词特征在定制语言模型下的第二概率。

可以理解，由于通用语言模型的训练数据非常广泛，可以包括各种各样的句式，其中可能也包括定制语言模型的句式。因此，对于特定场景下的正常语句，通用语言模型的输出概率也可能比较高，从而会被选为最终识别结果，但是，会被错误地拒识掉。为了解决这个问题，在本实施例中，状态图1可同时使用通用语言模型和定制语言模型。

具体地，在语音识别的解码过程中，可将语音特征输入到解码器进行解码，该解码器中可具有如图4所示中的解码搜索状态图1和解码搜索状态图2，该状态图1和状态图2完全一样，其中，状态图1同时使用通用语言模型和定制语言模型，状态图2使用的是定制语言模型。在本步骤中，在解码过程中，可将语音特征输入状态图1，用通用语言模型和定制语言模型同时进行解码搜索，可以得到该语音特征中的每个单词特征在通用语言模型下的第一概率、在定制语言模型下的第二概率。

例如，在解码的过程中，可将活跃路径在状态图1中行进，该状态图1同时使用通用语言模型和定制语言模型，当该活跃路径到达单词“天安门”的尾节点时，需要加上这个单词的语言模型概率，假设这个活跃路径的单词历史是“今天”-“早上”，那么它首先在通用语言模型上根据这个词历史查询“天安门”的概率：P1(天安门|今天早上)，然后在定制语言模型上根据同样的词历史查询“天安门”的概率：P2(天安门|今天早上)。

S303，根据第一概率和第二概率获取每个单词特征在第一语言模型下的语言模型概率。

具体而言，在本发明的实施例中，可通过以下公式获取每个单词特征在第一语言模型下的语言模型概率：

其中，P_W为语言模型概率，为第一概率，为第二概率，α为加权系数。

也就是说，在得到每个单词特征在通用语言模型下的第一概率和在定制语言模型下的第二概率之后，可将这两个概率相减作为该单词特征的最终的语言模型概率。例如，单词特征“天安门”最终的语言模型概率：P(天安门|今天早上)＝P1(天安门|今天早上)-a*P2(天安门|今天早上)，其中a是加权系数。

S304，根据每个单词特征在第一语言模型下的语言模型概率计算待识别语音数据在第一语言模型下的第一累计概率。

具体地，可将每个单词特征在第一语言模型下的语言模型概率加入到路径累积概率中，作为累计概率的一部分，最终得到待识别语音数据在第一语言模型下的累计概率(即第一累计概率)。

S305，根据第二语言模型对语音特征进行解码，以得到第二语音识别结果和待识别语音数据在第二语言模型下的第二累计概率。

需要说明的是，在本发明的实施例中，步骤S302和步骤S305可同时被执行。

S306，根据第一累计概率和第二累计概率确定最终识别结果。

具体地，可以判断第一累计概率是否大于第二累计概率，如果第一累计概率大于第二累计概率，则将第一累计概率对应的第一语音识别结果确定为最终识别结果；以及如果第一累计概率小于或等于第二累计概率，则将第二累计概率对应的第二语音识别结果确定为最终识别结果。

S307，当最终识别结果为第一语音识别结果时，判断待识别语音数据为不符合当前场景要求的异常句法模式，并生成拒识信息并提供给用户。

S308，当最终识别结果为第二语音识别结果时，判断待识别语音数据为符合当前场景要求的正常句法模式，并将第二语音识别结果作为语音识别的最终输出。

可以理解，在本发明的实施例中，使用如图4所示的解码器框架以识别特定场景下的语音可存在下面几种情况：假设语音的文本词串为W，W在通用语言模型下的概率为在定制语言模型下的概率为如果语音是符合场景要求的正常句子，且远大于根据上述公式(1)，由于状态图1的P_W远小于因此，状态图1识别结果的累计概率远小于状态图2识别结果的累计概率，此时可判断该语音识别正常，不会被拒识；如果语音是符合场景要求的正常句子，且与相近，根据上述公式(1)，可以调节α，使两者相减后，状态图1的P_W小于因此，状态图1识别结果的累计概率小于状态图2识别结果的累计概率，此时可判断该语音识别正常，不会被拒识；如果语音是不符合场景要求的异常句子，且远大于根据上述公式(1)，两者相减后，状态图1的P_W仍然大于因此，状态图1识别结果的累计概率远大于状态图2的累计概率，此时判断结果会被拒识。

举例而言，如果用户输入语音数据：我要订酒店，则在识别的解码过程中，该语音数据在通用语言模型下的第一概率为0，在定制语言模型下的第二概率为1，即远大于根据公式(1)，状态图1的P_W远小于因此，状态图1识别结果的累计概率远小于状态图2，识别正常，不会被拒识，输出结果为“我要订酒店”；进一步地，语音交互系统：请选择所订酒店地点，用户：天真热，则在识别的解码的过程中，该语音数据在通用语言模型下的第一概率为1，在定制语言模型下的第二概率为0，远大于根据公式(1)，两者相减后，状态图1的P_W仍然大于因此，状态图1识别结果的累计概率远大于状态图2的累计概率，结果会被拒识，并生成拒识信息，例如“请再说一次”。如果用户输入语音数据：天真热呀，去订酒店，则在识别的解码的过程中，该语音数据在通用语言模型下的第一概率为1，在定制语言模型下的第二概率为0.6，与相近，根据公式(1)，可以调节α，例如α为1，两者相减后，状态图1的P_W为0.4小于因此，状态图1识别结果的累计概率小于状态图2，识别正常，不会被拒识，输出结果为“订酒店”。由此，可以看出，各种情况都得到了正确处理，进一步提高了交互系统的稳定性和可靠性。

本发明实施例的语音识别方法，针对语音特征中的每个单词特征，可根据通用语言模型和定制语言模型同时对每个单词特征进行解码，以得到第一语音识别结果，以及每个单词特征在通用语言模型下的第一概率以及每个单词特征在定制语言模型下的第二概率，之后，可根据第一概率和第二概率以获取待每个单词特征在第一语言模型下的语言模型概率，最后根据每个单词特征在第一语言模型下的语言模型概率计算待识别语音数据在第一语言模型下的第一累计概率，即在解码过程中，通过使用图4所示的解码器而进行语音识别所得到的识别结果，可以进一步提升语音交互系统中的拒识能力，提高交互系统的稳定性和可靠性。

为了实现上述实施例，本发明还提出了一种语音识别装置。

图5是根据本发明一个实施例的语音识别装置的结构框图。

如图5所示，该语音识别装置包括：获取模块10、提取模块20、解码模块30、确定模块40和语音识别模块50。

具体地，获取模块10用于获取用户输入的待识别语音数据。

提取模块20用于提取待识别语音数据中的语音特征。更具体地，在获取模块10获取到用户输入的待识别语音数据之后，提取模块20可通过特征提取模块等提取该待识别语音数据中的语音特征。

解码模块30用于根据第一语言模型和第二语言模型同时对语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及待识别语音数据在第一语言模型下的第一累计概率和在第二语言模型下的第二累计概率。其中，在本发明的一个实施例中，第一语言模型可为通用语言模型，该通用语言模型可理解为用于描述不符合当前场景要求的异常句法模式。

更具体地，在语音识别的解码过程中，解码模块30可将语音特征输入到解码器进行解码，该解码器中可具有如图2所示中的解码搜索状态图1和解码搜索状态图2，该状态图1和状态图2完全一样，其中，状态图1使用的是通用语言模型，状态图2使用的是定制语言模型，该定制语言模型可理解为用于描述符合当前场景要求的正常句法模式。在本步骤中，可将语音特征输入到状态图1上以进行解码搜索，可以得到对应的第一语音识别结果，以及该待识别语音数据在该通用语言模型下的输出概率，即第一累计概率。

在语音识别的解码过程中，解码模块30在解码模块30将语音特征输入到状态图1上以进行解码搜索的同时，还可将语音特征输入到如图2所示中的状态图2上以进行解码搜索，如上述状态图2使用的是定制语言模型，可以得到对应的第二语音识别结果以及该待识别语音数据在该定制语言模型下的输出概率，即第二累计概率。

确定模块40用于根据第一累计概率和第二累计概率确定最终识别结果。

具体而言，在本发明的一个实施例中，如图6所示，该确定模块40可以包括：判断单元41和确定单元42。其中，判断单元41用于判断第一累计概率是否大于第二累计概率；确定单元42用于在判断单元41判断第一累计概率大于第二累计概率时，将第一累计概率对应的第一语音识别结果确定为最终识别结果，并在判断单元41判断第一累计概率小于或等于第二累计概率时，将第二累计概率对应的第二语音识别结果确定为最终识别结果。也就是说，可将第一累计概率和第二累计概率中最大值所对应的语音识别结果作为最终识别结果。

语音识别模块50可用于根据最终识别结果的出处判断是否对待识别语音数据进行语音识别。具体地，语音识别模块50可根据最终识别结果的出处来判断待识别语音数据是否满足当前场景下的正常句法模式，并根据判断结果进行相应的操作。

具体而言，在本发明的一个实施例中，如图7所示，该语音识别模块50可包括拒识单元51和识别结果提供单元52。

其中，拒识单元51用于在最终识别结果为第一语音识别结果时，判断待识别语音数据为不符合当前场景要求的异常句法模式，并生成拒识信息并提供给用户。更具体地，在确定最终识别结果之后，可根据最终识别结果的出处来实现语音识别系统中的拒识功能。即当最终识别结果为第一语音识别结果，即最终识别结果是通过通用语言模型解码出来的语音识别结果时，拒识单元51可认为该语音更符合异常的句法模式，则可判定为用户的语音为错误回答，可生成拒识信息以提示用户回答错误。

识别结果提供单元52用于在最终识别结果为第二语音识别结果时，判断待识别语音数据为符合当前场景要求的正常句法模式，并将第二语音识别结果作为语音识别的最终输出。更具体地，当最终识别结果为第二语音识别结果，即最终识别结果是通过定制语言模型解码出来的语音识别结果时，识别结果提供单元52可认为该语音更符合正常的句法模式，则可判为用户的语音为正确回答，此时可将该语音识别结果作为语音识别的最终输出，并可该语音识别结果提供给用户或者提供给语音交互系统，语音交互系统根据该语音识别结果进行相应的语音交互操作。

为了进一步提升语音交互系统中的拒识能力，提高交互系统的稳定性和可靠性，优选地，在本发明的一个实施例中，可对图2所示的状态图1的语言模型进行改进，即如图4所示，在解码过程中，状态图1使用的第一语言模型可包括通用语言模型和定制语言模型，状态图2使用的第二语言模型为定制语言模型。具体地，该解码模块30可利用图4所示的解码器而进行语音识别。如图8所示，该解码模块30可包括解码单元31、获取单元32和计算单元33。

其中，解码单元31可用于针对语音特征中的每个单词特征，根据通用语言模型和定制语言模型同时对每个单词特征进行解码，以得到第一语音识别结果，以及每个单词特征在通用语言模型下的第一概率以及每个单词特征在定制语言模型下的第二概率。

更具体地，在语音识别的解码过程中，解码单元31可将语音特征输入到解码器进行解码，该解码器中可具有如图4所示中的解码搜索状态图1和解码搜索状态图2，该状态图1和状态图2完全一样，其中，状态图1同时使用通用语言模型和定制语言模型，状态图2使用的是定制语言模型。在解码过程中，可将语音特征输入状态图1，用通用语言模型和定制语言模型同时进行解码搜索，可以得到该语音特征中的每个单词特征在通用语言模型下的第一概率、在定制语言模型下的第二概率。

例如，在解码的过程中，解码单元31可将活跃路径在状态图1中行进，该状态图1同时使用通用语言模型和定制语言模型，当该活跃路径到达单词“天安门”的尾节点时，需要加上这个单词的语言模型概率，假设这个活跃路径的单词历史是“今天”-“早上”，那么它首先在通用语言模型上根据这个词历史查询“天安门”的概率：P1(天安门|今天早上)，然后在定制语言模型上根据同样的词历史查询“天安门”的概率：P2(天安门|今天早上)。

获取单元32可用于根据第一概率和第二概率获取每个单词特征在第一语言模型下的语言模型概率。其中，获取单元32可通过以下公式获取每个单词特征在第一语言模型下的语言模型概率：

也就是说，在解码单元31得到每个单词特征在通用语言模型下的第一概率和在定制语言模型下的第二概率之后，获取单元32可将这两个概率相减作为该单词特征的最终的语言模型概率。例如，单词特征“天安门”最终的语言模型概率：P(天安门|今天早上)＝P1(天安门|今天早上)-a*P2(天安门|今天早上)，其中a是加权系数。

计算单元33可用于根据每个单词特征在第一语言模型下的语言模型概率计算待识别语音数据在第一语言模型下的第一累计概率。更具体地，计算单元33可将每个单词特征在第一语言模型下的语言模型概率加入到路径累积概率中，作为累计概率的一部分，最终得到待识别语音数据在第一语言模型下的累计概率(即第一累计概率)。

可以理解，在本发明的实施例中，使用如图4所示的解码器框架以识别特定场景下的语音可存在下面几种情况：假设语音的文本词串为W，W在通用语言模型下的概率为在定制语言模型下的概率为如果语音是符合场景要求的正常句子，且远大于根据上述公式(1)，由于状态图1的P_W远小于因此，状态图1识别结果的累计概率远小于状态图2识别结果的累计概率，此时可判断该语音识别正常，不会被拒识；如果语音是符合场景要求的正常句子，且与相近，根据上述公式(1)，可以调节α，使两者相减后，状态图1的P_W小于因此，状态图1识别结果的累计概率小于状态图2识别结果的累计概率，此时可判断该语音识别正常，不会被拒识；如果语音是不符合场景要求的异常句子，且远大于根据上述公式(1)，两者相减后，状态图1的P_W仍然大于因此，状态图1识别结果的累计概率远大于状态图2的累计概率，此时判断结果会被拒识。由此，可以看出，各种情况都得到了正确处理，进一步提高了交互系统的稳定性和可靠性。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音识别方法，其特征在于，包括以下步骤：

获取用户输入的待识别语音数据，提取所述待识别语音数据中的语音特征；

根据第一语言模型和第二语言模型同时对所述语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及所述待识别语音数据在所述第一语言模型下的第一累计概率和在所述第二语言模型下的第二累计概率；

根据所述第一累计概率和第二累计概率确定最终识别结果，其中，所述根据所述第一累计概率和第二累计概率确定最终识别结果，包括：将所述第一累计概率和第二累计概率中最大值所对应的语音识别结果作为所述最终识别结果；

根据所述最终识别结果的出处判断是否对所述待识别语音数据进行语音识别；

其中，所述根据所述最终识别结果的出处判断是否对所述待识别语音数据进行语音识别，包括：

当所述最终识别结果为所述第一语音识别结果时，判断所述待识别语音数据为不符合当前场景要求的异常句法模式，并生成拒识信息并提供给所述用户；以及

当所述最终识别结果为所述第二语音识别结果时，判断所述待识别语音数据为符合所述当前场景要求的正常句法模式，并将所述第二语音识别结果作为所述语音识别的最终输出。

2.如权利要求1所述的语音识别方法，其特征在于，其中，所述第一语言模型为通用语言模型，所述第二语言模型为定制语言模型。

3.如权利要求1所述的语音识别方法，其特征在于，其中，所述第一语言模型包括通用语言模型和定制语言模型，所述第二语言模型为所述定制语言模型。

4.如权利要求3所述的语音识别方法，其特征在于，所述根据第一语言模型对所述语音特征进行解码，以得到第一语音识别结果和所述待识别语音数据在所述第一语言模型下的第一累计概率，包括：

针对所述语音特征中的每个单词特征，根据所述通用语言模型和定制语言模型同时对所述每个单词特征进行解码，以得到所述第一语音识别结果，以及所述每个单词特征在所述通用语言模型下的第一概率以及所述每个单词特征在所述定制语言模型下的第二概率；

根据所述第一概率和所述第二概率获取所述每个单词特征在所述第一语言模型下的语言模型概率；

根据所述每个单词特征在所述第一语言模型下的语言模型概率计算所述待识别语音数据在所述第一语言模型下的所述第一累计概率。

5.如权利要求1所述的语音识别方法，其特征在于，所述根据所述第一累计概率和第二累计概率确定最终识别结果，包括：

判断所述第一累计概率是否大于所述第二累计概率；

如果所述第一累计概率大于所述第二累计概率，则将所述第一累计概率对应的所述第一语音识别结果确定为所述最终识别结果；

如果所述第一累计概率小于或等于所述第二累计概率，则将所述第二累计概率对应的所述第二语音识别结果确定为所述最终识别结果。

6.一种语音识别装置，其特征在于，包括：

获取模块，用于获取用户输入的待识别语音数据；

提取模块，用于提取所述待识别语音数据中的语音特征；

解码模块，用于根据第一语言模型和第二语言模型同时对所述语音特征进行解码，以得到第一语音识别结果和第二语音识别结果、以及所述待识别语音数据在所述第一语言模型下的第一累计概率和在所述第二语言模型下的第二累计概率；

确定模块，用于根据所述第一累计概率和第二累计概率确定最终识别结果；其中，所述确定模块具体用于：将所述第一累计概率和第二累计概率中最大值所对应的语音识别结果作为所述最终识别结果；

语音识别模块，用于根据所述最终识别结果的出处判断是否对所述待识别语音数据进行语音识别；

其中，所述语音识别模块包括：

拒识单元，用于在所述最终识别结果为所述第一语音识别结果时，判断所述待识别语音数据为不符合当前场景要求的异常句法模式，并生成拒识信息并提供给所述用户；以及

识别结果提供单元，用于在所述最终识别结果为所述第二语音识别结果时，判断所述待识别语音数据为符合所述当前场景要求的正常句法模式，并将所述第二语音识别结果作为所述语音识别的最终输出。

7.如权利要求6所述的语音识别装置，其特征在于，其中，所述第一语言模型为通用语言模型，所述第二语言模型为定制语言模型。

8.如权利要求6所述的语音识别装置，其特征在于，其中，所述第一语言模型包括通用语言模型和定制语言模型，所述第二语言模型为所述定制语言模型。

9.如权利要求8所述的语音识别装置，其特征在于，所述解码模块包括：

解码单元，用于针对所述语音特征中的每个单词特征，根据所述通用语言模型和定制语言模型同时对所述每个单词特征进行解码，以得到所述第一语音识别结果，以及所述每个单词特征在所述通用语言模型下的第一概率以及所述每个单词特征在所述定制语言模型下的第二概率；

获取单元，用于根据所述第一概率和所述第二概率获取所述每个单词特征在所述第一语言模型下的语言模型概率；

计算单元，用于根据所述每个单词特征在所述第一语言模型下的语言模型概率计算所述待识别语音数据在所述第一语言模型下的所述第一累计概率。

10.如权利要求6所述的语音识别装置，其特征在于，所述确定模块包括：

判断单元，用于判断所述第一累计概率是否大于所述第二累计概率；

确定单元，用于在所述判断单元判断所述第一累计概率大于所述第二累计概率时，将所述第一累计概率对应的所述第一语音识别结果确定为所述最终识别结果，并在所述判断单元判断所述第一累计概率小于或等于所述第二累计概率时，将所述第二累计概率对应的所述第二语音识别结果确定为所述最终识别结果。