CN103325370B

CN103325370B - 语音识别方法和语音识别系统

Info

Publication number: CN103325370B
Application number: CN201310271192.5A
Authority: CN
Inventors: 贾磊; 万广鲁
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-07-01
Filing date: 2013-07-01
Publication date: 2015-11-25
Anticipated expiration: 2033-07-01
Also published as: CN103325370A

Abstract

公开语音识别方法和语音识别系统。所述语音识别方法包括：接收语音输入并提取语音帧特征；通过使用解码空间对输入的语音进行语音解码，以确定语音解码结果，其中，解码空间包括基于语法规则构造的多条解码路径，所述多条解码路径包括仅包含类语言模型节点的解码路径、仅包含统计语言模型节点的解码路径以及包含类语言模型节点和统计语言模型节点二者的解码路径的三种类型的解码路径；通过回溯选择的解码路径上的各个节点确定语义解析结果，其中，所述语音解码的步骤包括：将输入的语音遍历解码空间中的每一条解码路径，选择语言层得分与声学层得分之和最大的一条解码路径，并根据选择的解码路径上的各个节点的三音子声学模型确定语音解码结果。

Description

语音识别方法和语音识别系统

技术领域

本发明涉及语音识别技术，更具体地讲，涉及一种通过将基于统计语言模型的识别与基于语法规则的识别结合从而实现声音识别和语义理解一体化的语音识别方法和语音识别系统。

背景技术

随着信息技术的发展，语音识别技术已经走入了人们的生活。在现有的常用语音识别技术中，通常用到的识别方法是基于统计语言模型（Ngram）的识别，或者是基于语法规则（grammer）的识别。基于统计语言模型的识别是把所有语音层信息组合成一个Ngram语言模型，识别结果是在Ngram模型所组成的解码空间上进行的。基于语法规则的识别是把语言层信息组织成固定的语法（grammer），识别的解码过程是在grammer上进行的。一般来说，基于Ngram的识别具有较高的灵活性，但是识别率偏低。基于grammer的识别具有较高的识别准确度，但是只能识别语法规则规定的语法样式的识别，不具备可推广性。

基于统计语言模型的大词汇量连续语音识别系统是在语音识别系统中广泛使用的语言建模技术。语音识别的解码空间是由Ngram语言模型的词典做自我回跳形成的。在解码的时候，词典中的词的自我回跳会形成二元词连接概率、三元词连接概率、四元词连接概率等。理论上，由于词典中的任何一个词都会回跳到词典中任意一个其他词，因此通过这种任意的回跳，Ngram语言模型能够描述任意的语言现象。同时，根据语音模型公知的行业知识，统计语言模型是采用了概率平滑技术来训练词汇连接概率的，对于那些概率不高的事件，由于采用语言模型平滑技术，因此在语音识别任务中也是可以被识别出来的。具有对任何语言现象的广泛的推广性是Ngram语言模型的巨大优点。但是Ngram语言模型也有一个非常明显的缺点，就是会产生大量的不合乎语言规律的错误的词与词之间的连接。这会导致在语音识别解码时候产生大量的歧义路径，从而影响了最终的语音识别系统在识别合乎语言规律的语音识别结果。

基于语法规则的语音识别系统是实际工业中，特别是嵌入式产品中广泛采用的一种识别系统。这种识别系统中的解码路径，必须是沿着事先设定好的词和词之间的连接进行，不能在词典中的任何词与词之间进行，这一点是基于语法规则的语音识别系统和基于统计语言模型的识别系统的核心差异。这样做的优点是，语音识别系统对于设定好的路径部分的识别率非常高，但是对于事先没有设定好路径的句子，几乎就根本不能识别。在语音产品的实际使用中，由于人类语言现象的复杂性，这种事先设定解码路径的语音识别系统总是会遇到各种各样的不能覆盖全面的问题，总会造成召回率的降低。

另一方面，基于统计语言模型的语音识别通常情况下和基于语法规则的语音识别是不可兼容的。造成这种不可兼容性的原因有两个：原因之一是统计语言模型内部的概率都是自己独立归一的，这个概率值的大小通常和语法规则模型的概率是不可相比的。原因之二是统计语言模型往往由于体积过大，在构架其解码空间的时候，大都是不能完全展开。而语法规则模型通常由于规则条数都是有限的，往往是采用完全展开的方式。由于两种识别方法的解码空间的组织方式不同，就导致两个解码空间没有办法直接融合在一个解码器中。

发明内容

因此，本发明的目的在于提供一种能够将基于统计语言模型的识别与基于语法规则的识别结合从而实现声音识别和语义理解一体化的语音识别方法和语音识别系统。

根据本发明的一方面，提供一种语音识别方法，包括：接收语音输入并提取语音帧特征；通过使用解码空间对输入的语音进行语音解码，以确定语音解码结果，其中，解码空间包括基于语法规则构造的多条解码路径，所述多条解码路径包括仅包含类语言模型节点的解码路径、仅包含统计语言模型节点的解码路径以及包含类语言模型节点和统计语言模型节点二者的解码路径的三种类型的解码路径；通过回溯选择的解码路径上的各个节点确定语义解析结果，其中，所述语音解码的步骤包括：将输入的语音遍历解码空间中的每一条解码路径，选择语言层得分与声学层得分之和最大的一条解码路径，并根据选择的解码路径上的各个节点的三音子声学模型确定语音解码结果。

优选地，每条解码路径的语言层得分为该解码路径上的各个节点之间的类语言模型概率P-Class与该解码路径上的统计语言模型节点的统计语言模型概率P-Ngram之和，每条解码路径的声学层得分为该解码路径上的各个节点的三音子声学模型得分之和。

优选地，通过训练获得类语言模型概率P-Class和统计语言模型概率P-Ngram。

优选地，对于统计语言模型节点，与该节点相应的统计语言模型的词典中的每个词的尾部被连接到到词典中的任何一个词的头部，从而实现整个词典的自跳转，并且每个词被展开为对应的三音子声学模型。

优选地，对于类语言模型节点，与该节点相应的词类词被展开为对应的三音子声学模型。

优选地，在解码空间中，三音子声学模型在保证输出词和路径概率得分一致的基础上被合并。

优选地，通过WFST算法对三音子声学模型进行合并。

优选地，所述语音解码的步骤包括：如果遇到统计语言模型节点，则根据历史词和当前词得到完整的语音查询序列，并使用该完整的语音查询序列进行统计语言模型的查询，以确定该节点的三音子声学模型。

优选地，所述语音解码的步骤包括：如果遇到类语言模型节点，则直接使用与该节点相应的词类词的三音子声学模型。

优选地，所述语音识别方法还包括：通过将语音解码结果和语义解析结果结合来输出最终的语音识别结果。

根据本发明的另一方面，提供一种语音识别系统，包括：输入单元，接收语音输入并提取语音帧特征；存储器，存储解码空间，解码空间包括基于语法规则构造的多条解码路径，所述多条解码路径包括仅包含类语言模型节点的解码路径、仅包含统计语言模型节点的解码路径以及包含类语言模型节点和统计语言模型节点二者的解码路径的三种类型的解码路径；控制器，包括语音解码单元和语义解析单元，其中，语音解码单元将输入的语音遍历解码空间中的每一条解码路径，选择语言层得分与声学层得分之和最大的一条解码路径，并根据选择的解码路径上的各个节点的三音子声学模型确定语音解码结果，语义解析单元通过回溯选择的解码路径上的各个节点确定语义解析结果。

优选地，其中，对于统计语言模型节点，与该节点相应的统计语言模型的词典中的每个词的尾部被连接到到词典中的任何一个词的头部，从而实现整个词典的自跳转，并且每个词被展开为对应的三音子声学模型。

优选地，通过WFST算法对三音子声学模型进行合并。

优选地，如果遇到统计语言模型节点，则语音解码单元根据历史词和当前词得到完整的语音查询序列，并使用该完整的语音查询序列进行统计语言模型的查询，以确定该节点的三音子声学模型。

优选地，如果遇到类语言模型节点，则语音解码单元直接使用与该节点相应的词类词的三音子声学模型。

优选地，所述语音识别系统还包括：输出单元，通过将语音解码结果和语义解析结果结合来输出最终的语音识别结果。

根据本发明的示例性实施例的语音识别系统和语音识别方法实现了语音识别和语义解析一体的过程，从技术实现上解决了统计语言模型信息和语法规则信息不能同时存在的矛盾，提高了特定指令识别的识别精度，同时也解决了语音识别中专名识别的难题。

附图说明

通过下面结合附图对实施例进行的描述，本发明的这些和/或其他方面和优点将会变得清楚和更易于理解，在附图中：

图1是示出根据本发明的示例性实施例的语音识别方法的流程图；

图2是示出根据本发明的示例性实施例的解码空间的示例的示图；

图3是示出根据本发明的示例性实施例的统计语言模型的词典的自跳转的示意性示图；

图4是示出根据本发明示例性实施例的语音识别系统的框图。

具体实施方式

现在对本发明实施例进行详细的描述，其示例表示在附图中，其中，相同的标号始终表示相同部件。下面通过参照附图对实施例进行描述以解释本发明。此外，为了清楚和简要，将省略对公知功能和构造的描述。

图1是示出根据本发明的示例性实施例的语音识别方法的流程图。

参照图1，在步骤S101中，接收语音输入并提取语音帧特征。例如，一个10秒钟的语言，会有1000个帧特征。这里，接收语音输入和提取帧特征的方法可通过现有技术的各种方法实现，不再赘述。

在步骤S102中，通过使用解码空间对输入的语音进行语音解码，以确定语音解码结果。具体地讲，可以将输入的语音遍历解码空间中的每一条解码路径，选择语言层得分与声学层得分之和最大的一条解码路径，并根据选择的解码路径上的各个节点的三音子声学模型确定语音解码结果。根据本发明的示例性实施例，解码空间是建立在语法规则的解码空间基础之上的，并且包括多条解码路径。这里，整个语法规则的解码空间，是按照语法规则信息本身的形式而完全展开的。统计语言模型信息可以抽象成一条语法规则信息，也可以是语法规则信息中的一个节点。每个统计语言模型都拥有自己独立的词典，其解码空间是由自己拥有的词典的自跳转构成。也就是说，解码空间包括三种类型的解码路径。一种是仅包含类语言模型节点的解码路径，一种是仅包含统计语言模型节点的解码路径，还有一种是包含类语言模型节点和统计语言模型节点二者的解码路径。由于引入类语言模型节点，因此可归一化语法规则信息中的概率和类语言模型中的概率，使解码过程的语法规则概率和统计语言模型概率的概率值可比，从而使得解码过程可以同时在语言模型空间上和语法规则信息的空间上展开。从技术实现上解决了语言模型信息和语法规则信息不能同时存在的矛盾，提高了特定指令识别的识别精度，同时也解决了语音识别中专名识别的难题。

图2是示出根据本发明的示例性实施例的解码空间的示例的示图。参照图2，在解码空间中同时包含了统计语言模型信息和语法规则信息。整个解码空间是按照语法规则信息的大框架来组织的，任何一条从开始标志<s>到结束标志</s>的路径，都可以看做一个语法规则。整个解码空间原理上可以看作是很多语法规则并行展开的。在图2中，路径①和路径②表示并存的两条仅包含统计语言模型节点的路径，路径③表示混合类语言模型节点和统计语言模型节点的路径。路径④表示仅包含类语言模型节点的路径。上述所有路径共存于一个解码空间中。这些路径中的概率P-Class代表这条路径的本次跳转采用的类语言模型概率（即，两个节点之间的类语言模型概率），而在统计语言模型节点中，P-Ngram表示这个节点中的语言模型概率都采用统计语言模型概率。各个统计语言模型是各自独立训练的，而整体的类语言模型是全局统一训练的。即，类语言模型概率P-Class和统计语言模型概率P-Ngram都可以通过训练获得。

于统计语言模型节点中的统计语言模型通常包含有几十亿的语言模型文法。因此采用传统的WFST算法，是不能直接把整个语言模型整体连接到图2所示的解码空间中的。为此，本发明的示例性实施例提出了类似图3所示的统计语言模型空间构建实施方案。每个统计语言模型的词典被单独拿出来拼在一起，然后让每个词的尾部都可以跳转到任何一个词的头部，从而实现整个词典的自回环的跳转（即，词典的自跳转）。在这之后，每个词会被展开为对应的三音子声学模型，从而连接到解码空间中。这里，三音子声学模型可在进行局部合并之后再连接到解码空间中。

类语言模型节点中的词类词的定义也是本发明的重要实施要素。词类的定义非常宽泛，可以是类语言模型中的任意单个词，也可以是一些同义词构成的集合，比如表示意愿的很多词（想，要，要求，希望…）构成的小集合，这类小集合中的词的数目通常比较少，只有几个词。但是另外还有一类专门词，可以是特定的人名、地名等。这类词的数目往往比较大，可以达到数万乃至几十万。这些词在声学上都必须有独立的路径，实际语音识别解码过程都可以沿着这些独立的路径从左向右的扩展。但是和统计语言模型的处理不同，这些词类词的头尾不必连接起来组成回环。也就是说，类语言模型节点中词类词可以被独立地展开成三音子模型，然后直接连接到解码空间中。

根据本发明的示例性实施例，解码空间是分块生成的。在分块生成过程中需要进行必要的路径合并。路径合并的原则是在保证输出词和路径概率得分一致的基础上，对三音子声学模型进行合并。具体地讲，对于每个节点，可以首先单独地构造自身的局部解码空间（称为“解码子空间”）。然后，每个解码子空间可以按照三音子声学模型的左右连接约束的一致性原则连接起来，保证每个三音子声学模型的前驱音素和后接音素的一致性。最后，组成的整体解码空间还可以进行必要的路径合并，保证合并后的整体解码空间的冗余度最低。这里，可通过WFST算法对三音子声学模型进行合并，也可以采用图论的其他知在识保证合并后的图的冗余度最低的情况下对三音子声学模型进行合并。

在语音解码过程中，如果遇到统计语言模型节点，则根据历史词和当前词得到完整的语音查询序列，并使用该完整的语音查询序列进行统计语言模型的查询，以确定该节点的三音子声学模型；如果遇到类语言模型节点，则直接使用与该节点相应的词类词的三音子声学模型。每条解码路径的语言层得分为该解码路径上的各个节点之间的类语言模型概率P-Class与该解码路径上的统计语言模型节点的统计语言模型概率P-Ngram之和，每条解码路径的声学层得分为该解码路径上的各个节点的三音子声学模型得分之和。

接下来，在步骤S103中，通过回溯选择的解码路径上的各个节点确定语义解析结果。也就是说，在解码过程中，可记录所有经过的节点。解码结束后，不但能够得到语音识别的结果，还可以根据经过的所有节点的信息，获得语义理解的理解结果。

最后，在步骤S104中，通过将语音解码结果和语义解析结果结合，可输出适当的语音识别结果。

图4是示出根据本发明示例性实施例的语音识别系统的框图。

参照图4，所述语音识别系统包括输入单元401、存储器402、控制器403和输出单元404。输入单元401接收语音输入并提取语音帧特征。存储器402存储解码空间。如上所述，解码空间包括基于语法规则构造的多条解码路径，所述多条解码路径包括仅包含类语言模型节点的解码路径、仅包含统计语言模型节点的解码路径以及包含类语言模型节点和统计语言模型节点二者的解码路径的三种类型的解码路径。控制器403包括语音解码单元411和语义解析单元412。语音解码单元403将输入的语音遍历解码空间中的每一条解码路径，选择语言层得分与声学层得分之和最大的一条解码路径，并根据选择的解码路径上的各个节点的三音子声学模型确定语音解码结果，语义解析单元412通过回溯选择的解码路径上的各个节点确定语义解析结果。如上所述，每条解码路径的语言层得分为该解码路径上的各个节点之间的类语言模型概率P-Class与该解码路径上的统计语言模型节点的统计语言模型概率P-Ngram之和，每条解码路径的声学层得分为该解码路径上的各个节点的三音子声学模型得分之和。对于统计语言模型节点，与该节点相应的统计语言模型的词典中的每个词的尾部被连接到到词典中的任何一个词的头部，从而实现整个词典的自跳转，并且每个词被展开为对应的三音子声学模型。对于类语言模型节点，与该节点相应的词类词被展开为对应的三音子声学模型。在语音解码过程中，如果遇到统计语言模型节点，则语音解码单元411根据历史词和当前词得到完整的语音查询序列，并使用该完整的语音查询序列进行统计语言模型的查询，以确定该节点的三音子声学模型；如果遇到类语言模型节点，则语音解码单元412直接使用与该节点相应的词类词的三音子声学模型。输出单元404通过将语音解码结果和语义解析结果结合来输出最终的语音识别结果。

根据本发明的示例性实施例的语音识别系统和语音识别方法采用一遍解码设计，一遍解码后的结果不但有语音解码结果，还有语义解析结果，从而实现了语音识别和语义解析一体的过程。此外，根据本发明的示例性实施例的语音识别系统和语音识别方法从技术实现上解决了统计语言模型信息和语法规则信息不能同时存在的矛盾，提高了特定指令识别的识别精度，同时也解决了语音识别中专名识别的难题。

虽然已经显示和描述了一些实施例，但是本领域技术人员应该理解，在不脱离本发明的原理和精神的情况下，可以对这些实施例进行修改，本发明的范围由权利要求及其等同物限定。

Claims

1.一种语音识别方法，包括：

接收语音输入并提取语音帧特征；

通过使用解码空间对输入的语音进行语音解码，以确定语音解码结果，其中，解码空间包括基于语法规则构造的多条解码路径，所述多条解码路径包括仅包含类语言模型节点的解码路径、仅包含统计语言模型节点的解码路径以及包含类语言模型节点和统计语言模型节点二者的解码路径的三种类型的解码路径；

通过回溯选择的解码路径上的各个节点确定语义解析结果；

通过将语音解码结果和语义解析结果结合来输出最终的语音识别结果，

其中，所述语音解码的步骤包括：将输入的语音遍历解码空间中的每一条解码路径，选择语言层得分与声学层得分之和最大的一条解码路径，并根据选择的解码路径上的各个节点的三音子声学模型确定语音解码结果，

其中，每条解码路径的语言层得分为该解码路径上的各个节点之间的类语言模型概率P-Class与该解码路径上的统计语言模型节点的统计语言模型概率P-Ngram之和，每条解码路径的声学层得分为该解码路径上的各个节点的三音子声学模型得分之和。

2.根据权利要求1所述的语音识别方法，其中，通过训练获得类语言模型概率P-Class和统计语言模型概率P-Ngram。

3.根据权利要求1所述的语音识别方法，其中，对于统计语言模型节点，与该节点相应的统计语言模型的词典中的每个词的尾部被连接到到词典中的任何一个词的头部，从而实现整个词典的自跳转，并且每个词被展开为对应的三音子声学模型。

4.根据权利要求1所述的语音识别方法，其中，对于类语言模型节点，与该节点相应的词类词被展开为对应的三音子声学模型。

5.根据权利要求3或4所述的语音识别方法，其中，在解码空间中，三音子声学模型在保证输出词和路径概率得分一致的基础上被合并。

6.根据权利要求5所述的语音识别方法，其中，通过WFST算法对三音子声学模型进行合并。

7.根据权利要求3所述的语音识别方法，其中，所述语音解码的步骤包括：如果遇到统计语言模型节点，则根据历史词和当前词得到完整的语音查询序列，并使用该完整的语音查询序列进行统计语言模型的查询，以确定该节点的三音子声学模型。

8.根据权利要求4所述的语音识别方法，其中，所述语音解码的步骤包括：如果遇到类语言模型节点，则直接使用与该节点相应的词类词的三音子声学模型。

9.一种语音识别系统，包括：

输入单元，接收语音输入并提取语音帧特征；

存储器，存储解码空间，解码空间包括基于语法规则构造的多条解码路径，所述多条解码路径包括仅包含类语言模型节点的解码路径、仅包含统计语言模型节点的解码路径以及包含类语言模型节点和统计语言模型节点二者的解码路径的三种类型的解码路径；

控制器，包括语音解码单元和语义解析单元，其中，语音解码单元将输入的语音遍历解码空间中的每一条解码路径，选择语言层得分与声学层得分之和最大的一条解码路径，并根据选择的解码路径上的各个节点的三音子声学模型确定语音解码结果，语义解析单元通过回溯选择的解码路径上的各个节点确定语义解析结果；

输出单元，通过将语音解码结果和语义解析结果结合来输出最终的语音识别结果，

10.根据权利要求9所述的语音识别系统，其中，通过训练获得类语言模型概率P-Class和统计语言模型概率P-Ngram。

11.根据权利要求9所述的语音识别系统，其中，对于统计语言模型节点，与该节点相应的统计语言模型的词典中的每个词的尾部被连接到到词典中的任何一个词的头部，从而实现整个词典的自跳转，并且每个词被展开为对应的三音子声学模型。

12.根据权利要求9所述的语音识别系统，其中，对于类语言模型节点，与该节点相应的词类词被展开为对应的三音子声学模型。

13.根据权利要求11或12所述的语音识别系统，其中，在解码空间中，三音子声学模型在保证输出词和路径概率得分一致的基础上被合并。

14.根据权利要求13所述的语音识别系统，其中，通过WFST算法对三音子声学模型进行合并。

15.根据权利要求11所述的语音识别系统，其中，如果遇到统计语言模型节点，则语音解码单元根据历史词和当前词得到完整的语音查询序列，并使用该完整的语音查询序列进行统计语言模型的查询，以确定该节点的三音子声学模型。

16.根据权利要求12所述的语音识别系统，其中，如果遇到类语言模型节点，则语音解码单元直接使用与该节点相应的词类词的三音子声学模型。