CN103871407A

CN103871407A - 语音识别错误的纠正方法及装置

Info

Publication number: CN103871407A
Application number: CN201310604269.6A
Authority: CN
Inventors: 李根培; 崔俊辉; 李仁载; 李东贤; 徐弘锡; 金龙熙; 柳成瀚; 具常俊
Original assignee: Academy Industry Foundation of POSTECH
Current assignee: Academy Industry Foundation of POSTECH
Priority date: 2012-12-07
Filing date: 2013-11-25
Publication date: 2014-06-18
Anticipated expiration: 2033-11-25
Also published as: JP5788953B2; US9318102B2; CN103871407B; JP2014115646A; KR101364774B1; US20140163975A1

Abstract

本发明提出了语音识别错误纠正方法及装置。语音识别错误纠正方法包括如下步骤：对语音识别结果的错误可能性进行判断；在错误可能性大于事先定义的基准的情况下，根据正确答案语料库以及语音识别结果是否匹配生成平行语料库；以平行语料库为基础，生成语音识别模型；以语音识别模型及语言模型为基础，对错误的语音识别结果进行纠正。根据本发明，可对通过语音识别所产生错误进行纠正。

Description

语音识别错误的纠正方法及装置

本申请主张申请日为2012年12月7日的韩国专利申请No.10-2012-0141972的优先权，该在先申请的全文引入本说明书作为参考。

技术领域

本发明涉及语音识别错误的纠正方法及装置，更详细地涉及一种用于纠正在语音识别装置中产生的错误的语音识别错误纠正方法及装置。

背景技术

由于智能手机、平板电脑等移动设备的普及，提高了对语音识别应用软件（例如，如苹果公司的SIRI一样的对话系统）的关注。但是现在语音识别技术的准确度不高，由此频繁产生语音识别的错误，这导致了语音识别应用软件中出现故障。

发明内容

用于解决上述问题的本发明的目的在于，提供一种语音识别错误纠正方法，其用于以平行语料库为基础对语音识别的错误进行纠正。

用于解决上述问题的本发明的另一个目的在于，提供一种语音识别错误纠正装置，其用于以平行语料库为基础对语音识别的错误进行纠正。

在一些实施例中，语音识别错误纠正装置执行的语音识别错误纠正方法包括如下步骤：以通过正确答案语料库以及领域语料库学习的语言模型为基础，对语音识别结果的错误可能性进行判断；在上述错误可能性大于事先定义的基准的情况下，根据语音识别结果是否与正确答案语料库相匹配生成平行语料库；根据平行语料库生成语音识别模型；以及根据语音识别模型和语言模型，对错误的语音识别结果进行纠正。

在此，在判断错误可能性的步骤中，可根据上述语音识别结果的生成概率对语音识别结果的错误可能性进行判断。

在此，上述生成平行语料库的步骤可包括如下步骤：从上述正确答案语料库以及上述语音识别结果中对正确答案集进行检测；从上述正确答案语料库以及上述语音识别结果中对错误答案集进行检测；以及以上述正确答案语料库、上述语音识别结果、上述正确答案集及上述错误答案集为基础，生成上述平行语料库。

在此，上述生成语音识别模型步骤可包括如下步骤：从上述平行语料库中对语音识别前的第一语法进行检测；从上述平行语料库中对语音识别后的第二语法进行检测；对上述第一语法和上述第二语法之间的语音识别概率进行计算；以及以上述第一语法、上述第二语法以及上述语音识别概率为基础，生成上述语音识别模型。

在此，上述对语音识别结果的错误进行纠正的步骤可包括如下步骤：根据上述第一语法和上述第二语法之间的对应关系生成图表；从上述图表中对具有最小错误的路径进行检测；以及以检测的路径为基础，对上述错误的语音识别结果进行纠正。

在此，上述生成图表的步骤中，在不存在对应于第二语法的第一语法的情况下，可将第二语法假设为第一语法。

在此，在以上述检测的路径为基础对错误的语音识别结果进行纠正的步骤中，在无需根据语言模型进行重新排列的情况下，可对错误的语音识别结果进行纠正。

根据用于实现上述目的的本发明的另一个实施例的语音识别错误纠正装置，其包括：处理部，其以通过正确答案语料库以及领域语料库学习的语言模型为基础，对语音识别结果的错误可能性进行判断，并且在错误可能性大于事先定义的基准的情况下，根据正确答案语料库以及语音识别结果是否相匹配生成平行语料库，并且以平行语料库为基础生成语音识别模型，并且以语音识别模型以及语言模型为基础对错误的语音识别结果进行纠正；存储部，其对上述处理部中所处理的信息以及已处理的信息进行存储。

在此，所述处理部根据语音识别结果的生成概率对语音识别结果的错误可能性进行判断。

在此，所述处理部从正确答案语料库以及语音识别结果中对正确答案集进行检测，并且从正确答案语料库以及语音识别结果中对错误答案集进行检测，并且以正确答案语料库、语音识别结果、正确答案集以及错误答案集为基础生成平行语料库。

所述处理部从平行语料库中对语音识别前的第一语法进行检测，并且从平行语料库中对语音识别后的第二语法进行检测，并且对第一语法和第二语法之间的语音识别概率进行计算，并且以第一语法、第二语法以及语音识别概率为基础生成所述语音识别模型。

在此，所述处理部对根据第一语法和第二语法之间的对应关系生成图表，并且从所述图表中对具有最小错误的路径进行检测，并且以检测到的路径为基础，对错误的语音识别结果进行纠正。

在此，所述处理部在不存在对应于第二语法的第一语法的情况下，将第二语法假设为第一语法，从而生成所述图表。

在此，所述处理部在无需根据语言模型进行重新排列的情况下，对错误的语音识别结果进行纠正。

根据本发明，可对语音识别产生的错误进行纠正，从而提高语音识别的准确度。

附图说明

图1是表示语音识别装置的框图；

图2是表示根据本发明的一个实施例的语音识别错误纠正方法的流程图；

图3是表示根据本发明的一个实施例的语音识别错误纠正方法中生成平行语料库的步骤的流程图；

图4是根据本发明的一个实施例的语音识别错误纠正方法中生成语音识别模型的步骤的流程图；

图5是表示语音识别模型的示意图；

图6是表示根据本发明的一个实施例的语音识别错误纠正方法中对语音识别结果的错误进行纠正的步骤的流程图；

图7是表示根据语法对应关系的图表的示意图。

图8是表示根据本发明的一个实施例的语音识别错误纠正装置的框图。

图9是表示根据本发明的另一个实施例的语音识别错误纠正装置的框图。

具体实施方式

本发明可增加各种变更，并且可具有各种实施例，将特定实施例示出于附图中，并且将会进行详细说明。但是，上述不会将本发明限定在特定实施例形态，而是应理解为包括在本发明的思想以及技术范围内的所有变更、等同物或者替代物。

第一、第二等术语可用于说明各种构成部件，但是不能使用上述术语对上述构成部件进行限定。使用上述术语的目的是将一个构成部件与其他构成部件进行区别。例如，在不脱离本发明的权利范围的情况下，第一构成部件可命名为第二构成部件，同样第二构成部件也可命名为第一构成部件。术语“以及/或者”包括多个相关的所记载的组件的组合或者多个相关的所记载的组件中的任何组件。

当提到某构成部件“连接”或者“耦合”于其他构成部件时，可直接连接或者耦合于其他构成部件中，也可理解为在中间存在其他的构成部件。相反地，当提到某构成部件“直接连接”或者“直接耦合”于其他构成部件时，应理解为在中间不存在其他的构成部件。

在本申请中所使用的术语只是为了说明特定的实施例而使用的，因此没有限定本发明的意图。单数的表达在上下文上只要没有明确地指出其他的意思，则包括复数的表达。在本申请中，“包括”或者“具有”等术语应理解为指定记载于说明书中的特征、数字、步骤、操作、构成部件、部件或者组合上述部分的存在，而不是排除一个或者一个以上的其他特征或者数字、步骤、操作、构成部件、部件或者组合上述部分的存在或者附加可能性。

只要不做其他定义，包括技术性或者科学性的术语，在此使用的全部术语与本发明所属的技术领域中具有一般知识的技术人员通常所理解的意思相同。通常所使用的事先定义的术语应理解为与相关技术的上下文上所具有的意思一致，只要在本申请中没有明确地定义，就不能理解为理想性或者过于形式性的意思。

以下，参照附图，对本发明的优选实施例进行更详细说明。在说明本发明时，为了帮助整体上的理解，对附图上的相同构成部件使用相同的参照符号，并且对相同的构成部件省略重复说明。

图1是表示语音识别装置的框图。

参照图1，语音识别装置可包括语音识别部20、错误纠正部30以及语音识别应用部40。语音识别部20可接收语音信号10，并且对语音信号10进行识别，从而可生成语音识别结果（文本）。错误纠正部30可分析在语音识别结果中是否包括有错误，并且在包括有错误的情况下，可对包括于语音识别结果中的错误进行纠正。实质上，错误纠正部30可具有与图8以及图9所示的语音识别错误纠正装置30相同的配置。

语音识别应用部40可将语音识别结果适用于各种应用。应用可以是语音文字处理软件、语音对话系统等。

图2是表示根据本发明的一个实施例的语音识别错误纠正方法的流程图。

参照图2，语音识别错误纠正方法包括如下步骤：以通过正确答案语料库以及领域语料库学习的语言模型为基础，对语音识别结果的错误可能性进行判断（S100）；在错误可能性大于事先定义的基准的情况下，根据语音识别结果是否与正确答案语料库相匹配生成平行语料库（S200）；以平行语料库为基础生成语音识别模型（S300）；以及以语音识别模型以及语言模型为基础，对错误的语音识别结果进行纠正（S400）。在此，语音识别的错误纠正方法的各个步骤可通过图8以及图9所示的语音识别错误纠正装置30执行。

语音识别错误纠正装置可判断在语音识别结果中是否包括错误（换句话说，错误的可能性）（S100）。语音识别的错误纠正装置使用语言模型来判断错误的可能性，上述语言模型通过与语音识别结果相关的正确答案语料库和大容量的领域语料库的学习而获得。在此，可将n元语法(N-gram)用作语言模型，具体地，可使用二元语法（bigram）或三元语法（trigram）。

例如，在语音识别结果为“苹果美味地吃”的情况下，语音识别错误纠正装置通过二元语法可对“苹果美味地”、“美味地吃”的生成概率进行计算，并且通过三元语法可对“苹果美味地吃”的生成概率进行计算。此时，语言模型是通过正确答案语料库学习的，因此作为二元语法的“苹果美味地”具有低生成概率，由此，语音识别错误纠正装置可将“苹果美味地”判断为具有高错误可能性的语法。最终，语音识别错误纠正装置可将“苹果美味地吃”判断为具有高错误可能性的语法。

语音识别错误纠正装置在错误可能性大于事先定义的基准的情况下，可根据正确答案语料库以及语音识别结果是否匹配生成平行语料库（S200）。

图3是表示根据本发明的一个实施例的语音识别错误纠正方法中生成平行语料库的步骤的流程图。

参照图3，生成平行语料库的步骤（S200）可包括如下步骤：从正确答案语料库以及语音识别结果中对正确答案集进行检测（S210）；从正确答案语料库以及语音识别结果中对错误答案集进行检测（S220）；以及以正确答案语料库、语音识别结果、正确答案集以及错误答案集为基础，生成平行语料库（S230）。

语音识别错误纠正装置可从现有平行语料库中对正确答案集进行检测（S210），上述现有平行语料库可包括正确答案语料库以及语音识别结果。

【表1】

表1是表示包括有正确答案语料库以及语音识别结果的现有平行语料库。在此，记载于左列的“苹果美味地吃”、“苹果减少”、“毒药放了苹果”是语音识别结果，记载于右列的“苹果被美味地吃”、“苹果为红色”、“毒药被放入苹果中”是正确答案语料库。

例如，在表1的第二行中，作为语音识别结果的“苹果”与作为正确答案语料库的“苹果”相同，因此语音识别错误纠正装置可将“苹果”检测为正确答案集。此外，在表1的第三行中，作为语音识别结果的“毒药被放”与作为正确答案语料库的“毒药被放”相同，因此语音识别错误纠正装置可将“毒药被放”检测为正确答案集。

语音识别错误纠正装置可从包括正确答案语料库以及语音识别结果的现有平行语料库中对错误答案集进行检测（S220）。

例如，在表1的第二行中，作为语音识别结果的“减少”与作为正确答案语料库的“为红色”不同，因此语音识别错误纠正装置可将“减少、为红色”检测为错误答案集。此外，在表1的第三行中，作为语音识别结果的“了苹果”与作为正确答案语料库的“入苹果”不同，因此语音识别错误纠正装置可将“了苹果、入苹果”检测为错误答案集。

在此，虽然描述了在执行步骤S210之后执行步骤S220，但是也可以在步骤S220之后执行步骤S210。

语音识别错误纠正装置可生成扩展的平行语料库，包括正确的答案语料库、语音识别结果、正确答案集以及错误答案集（S230）。

【表2】

表2是表示包括有正确答案语料库、语音识别结果、正确答案集以及错误答案集的扩展的平行语料库。在备注1、2、3中，记载于左列的“苹果美味地吃”、“苹果减少”、“毒药被放了苹果”是语音识别结果，记载于右列的“苹果被美味地吃”、“苹果为红色”、“毒药被投入苹果”是正确的答案语料库。

在备注5、6、9中，“美味地、美味地”、“苹果、苹果”、“毒药被放、毒药被放”是正确答案集。在备注7、8中，“减少、红色”以及“了苹果、入苹果”意味着错误答案集。

换句话说，如上述表2所示，语音识别错误纠正装置可生成扩展的平行语料库，上述扩展的平行语料库包括正确答案语料库、语音识别结果、正确答案集以及错误答案集。

在此，在表1的第一行中，作为语音识别结果的“苹果”与作为正确答案语料库的“苹果被”不同。但是，由于“苹果”被检测为正确答案集（表2的备注6），因此语音识别错误纠正装置不会将“苹果、苹果被”检测为错误答案集（参考表2的备注4）。换句话说，如果错误答案集所包括的文本包括于正确答案集中，语音识别错误纠正装置就不会将相应的错误答案集检测为错误答案集。据此，语音识别错误纠正装置可减少错误的产生。

语音识别错误纠正装置根据平行语料库生成语音识别模型（S300）。

图4是表示根据本发明的一个实施例的语音识别错误纠正方法中生成语音识别模型的流程图。

参照图4，生成语音识别模型的步骤（S300）可包括如下步骤：从平行语料库中对语音识别前的第一语法进行检测（S310）；从平行语料库中对语音识别后的第二语法进行检测（S320）；对第一语法和第二语法之间的语音识别概率进行计算（S330）；以及以第一语法、第二语法以及语音识别概率为基础，生成语音识别模型。

语音识别错误纠正装置可从扩展的平行语料库（换句话说，参照表2）中对语音识别前的第一语法进行检测（S310）。换句话说，语音识别错误纠正装置可将包括于扩展的平行语料库中的正确答案语料库检测为第一语法。

语音识别错误纠正装置可从扩展的平行语料库（换句话说，参照表2）中对语音识别后的第二语法进行检测（S320）。换句话说，语音识别错误纠正装置可将包括于扩展的平行语料库中的语音识别结果检测为第二语法。

在此，虽然描述为在步骤S310之后执行步骤S320，但是也可以在步骤S320之后执行步骤S310。

语音识别错误纠正装置可对第一语法和第二语法之间的语音识别概率进行计算（S330）。换句话说，语音识别错误纠正装置可对将第一语法识别为第二语法的语音识别概率进行计算，此时，也可以使用扩展的平行语料库对语音识别概率进行计算。

语音识别错误纠正装置以第一语法、第二语法以及语音识别概率为基础，可生成语音识别模型（S340）。

图5是表示语音识别模型的示意图。

参照图5，图5（A）意味着将英语翻译为德语的语音识别模型，图5（B）意味着将德语翻译为英语的语音识别模型，图5（C）意味着将图5（A）和图5（B）结合的语音识别模型。

在图5（A）的语音识别模型中，行表示英语（对应于第一语法），列表示德语（对应于第二语法）。在此，表示为黑色的单元表示将第一语法翻译为第二语法的概率很高。（例如，将“that”翻译为“dass”的概率很高）

在图5（B）的语音识别模型中，行表示英语（对应于第二语法），列表示德语（对应于第一语法）。在此，表示为黑色的单元表示将第一语法翻译为第二语法的概率很高。（例如，将“geht”翻译为“assumes”的概率很高）

图5（C）的语音识别模型是将图5（A）的语音识别模型和图5（B）的语音识别模型结合。在图5（A）和图5（B）中将第一语法翻译为第二语法的概率均为高的单元用黑色表示（例如，“that”→“dass”），仅在图5（A）和图5（B）中一个图中将第一语法翻译为第二语法的概率为高的单元用灰色表示（“the”→“im”）。

通过上述方法，语音识别错误纠正装置可生成语音识别模型。换句话说，语音识别错误纠正装置将第一语法（例如，正确答案语料库）设定为行，并且将对应于第一语法的第二语法（例如，语音识别结果）设定为列，从而可生成矩阵，第一语法将要识别为第二语法的概率判断为高的单元使用黑色表示，从而生成第一语音识别模型。

在语音识别错误纠正装置中，将第一语法（例如，语音识别结果）设定为列，并且将对应于第一语法的第二语法（例如，正确答案语料库）设定为行，从而可生成矩阵，并且第一语法将要识别为第二语法的概率判断为高的单元使用黑色表示，从而可生成第二语音识别模型。

在语音识别错误纠正装置中，在将第一语音识别模型和第二语音识别模型结合后，可生成最终语音识别模型。

语音识别错误纠正装置以语音识别模型以及语言模型为基础，可对错误的语音识别结果进行纠正（S400）。

图6是表示根据本发明的一个实施例的语音识别错误纠正方法中对语音识别结果的错误进行纠正的步骤的流程图。

参照图6，对错误的语音识别结果进行纠正的步骤（S400）可包括如下步骤：根据第一语法和第二语法之间的对应关系生成图表（S410）；从图表中对具有最小错误的路径进行检测（S420）；根据检测到的路径对错误的语音识别结果进行纠正（S430）。

语音识别错误纠正装置可根据第一语法和第二语法之间的对应关系生成图表（S410）。

图7是表示根据语法的对应关系的图表的示意图。

参照图7，“标号50（例如，第一语法）”表示西班牙语，“标号60（例如，第二语法）”表示英语。换句话说，“Maria”、“no”、“did not”分别对应于“Mary”、“not”、“no”。

通过上述方法，语音识别错误纠正装置可对分别对应于第一语法（换句话说，正确答案语料库）的第二语法（换句话说，语音识别结果）进行检测，并且以此为基础，根据第一语法和第二语法之间的对应关系生成图表。

此时，如果不存在对应于某个第二语法的某个第一语法，语音识别错误纠正装置可将某个第二语法假设为某个第一语法。换句话说，如果不存在对应于某个第二语法的某个第一语法，则有关某个第一语法的图表上的部分视为空白，语音识别错误纠正装置为了防止上述情况，可将该第二语法假设为该第一语法。

例如，如果不存在对应于某个第二语法“了苹果”的某个第一语法，则语音识别错误纠正装置可将第二语法的“了苹果”假设为第一语法。

语音识别错误纠正装置可从图表中对具有最小错误的路径进行检测（S420）。此时，语音识别错误纠正装置可通过已知的技术（例如，维特比（viterbi）搜索）对具有最小错误的路径进行检测。

语音识别错误纠正装置以所检测的路径为基础，可对语音识别结果的错误进行纠正（S430）。换句话说，语音识别错误纠正装置可对语音识别结果和检测到的路径进行比较，如果比较的结果存在差异，则以检测到的路径为基准，可纠正语音识别的结果。例如，如果语音识别结果为“苹果美味地吃”，并且检测的路径为“苹果被美味地吃”，则语音识别错误纠正装置可将语音识别的结果纠正为“苹果被美味地吃”。

在此，语音识别错误纠正装置无需根据语言模型重新排列，可以对错误的语音识别结果进行纠正。重新排列的处理是指语言之间的语序相互不同，因此在翻译时重新排列语序。例如，在将英语翻译为韩语的情况下，“I have an apple”可翻译为

并且根据语言模型的重新排列处理，将

重新排列为

。语音识别错误纠正方法是在相同的语言之间纠正错误，因此语音识别错误纠正装置不用再执行如上所述的重新排列处理。

参照图8，语音识别错误纠正装置30包括处理部31以及存储部32。处理部31以语言模型为基础可对语音识别结果的错误可能性进行判断，上述语言模型是通过正确答案语料库以及领域语料库学习的，并且在错误可能性大于事先定义的基准的情况下，可根据正确答案语料库与语音识别结果是否相匹配来生成平行语料库，以平行语料库为基础生成语音识别模型，并以语音识别模型及语言模型为基础，可对错误的语音识别结果进行纠正。存储部32可对处理部31中所要处理的信息以及已经处理的信息进行存储。

处理部31以前面所述步骤S100为基础，对语音识别结果的错误可能性进行判断。具体地，处理部31可使用语言模型判断错误可能性，上述语言模型通过与语音识别结果相关的正确答案语料库和大容量的领域语料库学习而获得。在此，可将n元语法（N-gram）用作语言模型，具体地也可使用二元语法（bigram）或三元语法（trigram）。

例如，在语音识别结果为“苹果美味地吃”的情况下，处理部31可通过二元语法对“苹果美味地”、“美味地吃”的生成概率进行计算，并且通过三元语法可对“苹果美味地吃”的生成概率进行计算。此时，语言模型是通过正确答案语料库学习的，因此作为二元语法的“苹果美味地”具有低生成率，由此处理部31可将“苹果美味地”判断为具有高错误可能性的语法。最终，处理部31可将“苹果美味地吃”判断为具有高错误可能性的语法。

处理部31以所述步骤S200为基础，可生成平行语料库。具体地，处理部31以所述步骤S210为基础，可对正确答案集进行检测。例如，在上述表1的第二行中，作为语音识别结果的“苹果”与作为正确答案语料库的“苹果”相同，因此处理部31可将“苹果”检测为正确答案集。此外，在上述表1的第三行中，作为语音识别结果的“毒药被放”与作为正确答案语料库的“毒药被放”相同，因此处理部31可将“毒药被放”检测为正确答案集。

处理部31以上述步骤S220为基础，可对错误答案集进行检测。例如，在上述表1的第二行中，作为语音识别结果的“减少”与作为正确答案语料库的“红色”不同，因此处理部31可将“减少、红色”检测为错误答案集。此外，在上述表1的第三行中，作为语音识别结果的“了苹果”与作为正确答案语料库的“入苹果”不同，因此处理部31可将“了苹果、入苹果”检测为错误答案集。

处理部31以上述步骤S230为基础，可生成平行语料库，并且如上述表2所示，可生成扩展的平行语料库，上述扩展的平行语料库包括有正确答案语料库、语音识别结果、正确答案集以及错误答案集。

处理部31以上述步骤S300为基础，可生成语音识别模型。具体地，处理部31以上述步骤S310为基础，可对语音识别前的第一语法进行检测，并且以上述步骤S320为基础，可对语音识别后的第二语法进行检测，并且以上述步骤S330为基础，可对语法之间的语音识别概率进行计算，以上述步骤S340为基础，可生成语音识别模型。

换句话说，处理部31可生成如图5所示的语音识别模型。处理部31将第一语法（例如，正确答案语料库）设定为行，并且将对应于第一语法的第二语法（例如，语音识别结果）设定为列，从而可生成矩阵，并且通过将第一语法很可能被识别为第二语法的单位标识为黑色，生成第一语音识别模型。

处理部31将第一语法（例如，语音识别结果）设定为列，将对应于第一语法的第二语法（例如，正确答案语料库）设定为行，从而可生成矩阵，并且通过将第一语法很可能被识别为第二语法的单位标识为黑色，生成第二语音识别模型。

处理部31通过将第一语音识别模型和第二语音识别模型进行结合，可以生成最终语音识别模型。

处理部31以上述步骤S400为基础，可对错误的语音识别结果进行纠正。具体地，处理部31以上述步骤S410为基础，可根据语法之间的对应关系生成图表，如图7所示，可对分别对应于第一语法（换句话说，正确答案语料库）的第二语法（换句话说，语音识别结果）进行检测，并且以此为基础，可生成根据第一语法和第二语法的对应关系的图表。

处理部31以上述步骤S420为基础，可对具有最小错误的路径进行检测，并且通过已知的技术（例如，维比特（viterbi）搜索）可对具有最小错误的路径进行检测。

处理部31以上述步骤S430为基础，可对错误的语音识别结果进行纠正。换句话说，处理部31对语音识别结果和检测到的路径进行比较，并且在比较的结果存在差异的情况下，以检测的路径为基准，可对语音识别的结果进行纠正。例如，在语音识别结果为“苹果美味地吃”以及检测到的路径为“苹果被美味地吃”的情况下，语音识别错误纠正装置将语音识别的结果纠正为“苹果被美味地吃”。

处理部31所执行的功能可在数据处理器（例如，中央处理器（CPU）和/或图形处理器（GPU））中执行。

参照图9，语音识别错误纠正装置30包括错误判断部33、语料库生成部34、模型生成部35以及解码器36。图9所示的语音识别错误纠正装置30与图8所示的语音识别错误纠正装置30基本相同。

错误判断部33以上述步骤S100为基础，可对语音识别结果的错误可能性进行判断。语料库生成部34以上述步骤S200为基础，可生成平行语料库。模型生成部35以上述步骤S300为基础，可生成语音识别模型。解码器36以上述步骤S400为基础，可对错误的语音识别结果进行纠正。

错误判断部33、语料库生成部34、模型生成部35以及解码器36所执行的功能基本上可在数据处理器（例如，CPU和/或GPU）中执行。

此外，错误判断部33、语料库生成部34、模型生成部35以及解码器36可实现为一体的形式、一个物理装置或者一个模块。不仅如此，错误判断部33、语料库生成部34、模型生成部35以及解码器36分别实现为多个物理装置或者组件，而不是一个物理装置或者组件。

根据本发明的方法实现为可记录于计算机可读取介质中并由计算机执行的程序代码。计算机可读取介质可以单独或组合地包括程序指令、数据文件、数据结构等。记录在计算机可读取介质中的程序代码可以针对本发明进行专门设计，或者可以为本领域普通技术人员所公知。计算机可读取介质的例子包括专门构成用于存储和执行程序代码的硬件装置，例如只读存储器（ROM）、随机存取存储器（RAM）或闪存。程序代码的例子包括编译器生成的机器代码以及可以由计算机通过使用编译器执行的高级语言代码。为了执行本发明的操作，如上所述的硬件装置可以包括一个或多个软件模块，反之亦然。

参照以上实施例进行了说明，但是应理解为，所属技术领域的熟练的技术人员可对本发明进行各种修正及变更，这并不脱离由所附权利要求书所限定的本发明的范围。

Claims

1.一种语音识别错误纠正方法，其在语音识别错误纠正装置中执行，其特征在于，包括如下步骤：

以通过正确答案语料库以及领域语料库学习的语言模型为基础，对语音识别结果的错误可能性进行判断；

在上述错误可能性大于事先定义的基准的情况下，根据正确答案语料库以及语音识别结果是否匹配生成平行语料库；

以上述平行语料库为基础，生成语音识别模型；以及

以语音识别模型以及语言模型为基础，对错误的语音识别结果进行纠正。

2.根据权利要求1所述的语音识别错误纠正方法，其特征在于：

在判断错误可能性的步骤中，根据语音识别结果的生成概率对语音识别结果的错误可能性进行判断。

3.根据权利要求1所述的语音识别错误纠正方法，其特征在于，生成平行语料库的步骤可包括如下步骤：

从上述正确答案语料库以及上述语音识别结果中对正确答案集进行检测；

从上述正确答案语料库以及上述语音识别结果中对错误答案集进行检测；以及

以上述正确答案语料库、上述语音识别结果、上述正确答案集以及上述错误答案集为基础，生成上述平行语料库。

4.根据权利要求1所述的语音识别错误纠正方法，其特征在于，生成语音识别模型的步骤包括如下步骤：

从上述平行语料库中对语音识别前的第一语法进行检测；

从上述平行语料库中对语音识别后的第二语法进行检测；

对第一语法和第二语法之间的语音识别概率进行计算；以及

以第一语法、第二语法以及语音识别概率为基础，生成上述语音识别模型。

5.根据权利要求4所述的语音识别错误纠正方法，其特征在于，对错误的语音识别结果进行纠正的步骤包括如下步骤：

根据第一语法和第二语法之间的对应关系生成图表；

从上述图表中对具有最小错误的路径进行检测；以及

以检测的路径为基础，对错误的语音识别结果进行纠正。

6.根据权利要求5所述的语音识别错误纠正方法，其特征在于：

在生成图表的步骤中，在不存在对应于第二语法的第一语法的情况下，假设第二语法为第一语法。

7.根据权利要求5所述的语音识别错误纠正方法，其特征在于：

在以检测的路径为基础对错误的语音识别结果进行纠正的步骤中，在无需根据语言模型进行重新排列的情况下，对错误的语言识别结果进行纠正。

8.一种语音识别错误纠正装置，其特征在于，包括：

处理部，其以通过正确答案语料库以及领域语料库学习的语言模型为基础，对语音识别结果的错误可能性进行判断，并且在错误可能性大于事先定义的基准的情况下，根据正确答案语料库以及语音识别结果是否相匹配生成平行语料库，并且以平行语料库为基础生成语音识别模型，并且以语音识别模型以及语言模型为基础对错误的语音识别结果进行纠正；以及

存储部，其对上述处理部中所处理的信息以及已处理的信息进行存储。

9.根据权利要求8所述的语音识别错误纠正装置，其特征在于：

所述处理部根据语音识别结果的生成概率对语音识别结果的错误可能性进行判断。

10.根据权利要求8所述的语音识别错误纠正装置，其特征在于：

所述处理部从正确答案语料库以及语音识别结果中对正确答案集进行检测，并且从正确答案语料库以及语音识别结果中对错误答案集进行检测，并且以正确答案语料库、语音识别结果、正确答案集以及错误答案集为基础生成平行语料库。

11.根据权利要求8所述的语音识别错误纠正装置，其特征在于：

12.根据权利要求11所述的语音识别错误纠正装置，其特征在于：

所述处理部对根据第一语法和第二语法之间的对应关系生成图表，并且从所述图表中对具有最小错误的路径进行检测，并且以检测到的路径为基础，对错误的语音识别结果进行纠正。

13.根据权利要求12所述的语音识别错误纠正装置，其特征在于：

所述处理部在不存在对应于第二语法的第一语法的情况下，将第二语法假设为第一语法，从而生成所述图表。

14.根据权利要求12所述的语音识别错误纠正装置，其特征在于：

所述处理部在无需根据语言模型进行重新排列的情况下，对错误的语音识别结果进行纠正。