CN103871407A - 语音识别错误的纠正方法及装置 - Google Patents

语音识别错误的纠正方法及装置 Download PDF

Info

Publication number
CN103871407A
CN103871407A CN201310604269.6A CN201310604269A CN103871407A CN 103871407 A CN103871407 A CN 103871407A CN 201310604269 A CN201310604269 A CN 201310604269A CN 103871407 A CN103871407 A CN 103871407A
Authority
CN
China
Prior art keywords
speech recognition
grammer
identification result
corpus
voice identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310604269.6A
Other languages
English (en)
Other versions
CN103871407B (zh
Inventor
李根培
崔俊辉
李仁载
李东贤
徐弘锡
金龙熙
柳成瀚
具常俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy Industry Foundation of POSTECH
Original Assignee
Academy Industry Foundation of POSTECH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy Industry Foundation of POSTECH filed Critical Academy Industry Foundation of POSTECH
Publication of CN103871407A publication Critical patent/CN103871407A/zh
Application granted granted Critical
Publication of CN103871407B publication Critical patent/CN103871407B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了语音识别错误纠正方法及装置。语音识别错误纠正方法包括如下步骤:对语音识别结果的错误可能性进行判断;在错误可能性大于事先定义的基准的情况下,根据正确答案语料库以及语音识别结果是否匹配生成平行语料库;以平行语料库为基础,生成语音识别模型;以语音识别模型及语言模型为基础,对错误的语音识别结果进行纠正。根据本发明,可对通过语音识别所产生错误进行纠正。

Description

语音识别错误的纠正方法及装置
本申请主张申请日为2012年12月7日的韩国专利申请No.10-2012-0141972的优先权,该在先申请的全文引入本说明书作为参考。
技术领域
本发明涉及语音识别错误的纠正方法及装置,更详细地涉及一种用于纠正在语音识别装置中产生的错误的语音识别错误纠正方法及装置。
背景技术
由于智能手机、平板电脑等移动设备的普及,提高了对语音识别应用软件(例如,如苹果公司的SIRI一样的对话系统)的关注。但是现在语音识别技术的准确度不高,由此频繁产生语音识别的错误,这导致了语音识别应用软件中出现故障。
发明内容
用于解决上述问题的本发明的目的在于,提供一种语音识别错误纠正方法,其用于以平行语料库为基础对语音识别的错误进行纠正。
用于解决上述问题的本发明的另一个目的在于,提供一种语音识别错误纠正装置,其用于以平行语料库为基础对语音识别的错误进行纠正。
在一些实施例中,语音识别错误纠正装置执行的语音识别错误纠正方法包括如下步骤:以通过正确答案语料库以及领域语料库学习的语言模型为基础,对语音识别结果的错误可能性进行判断;在上述错误可能性大于事先定义的基准的情况下,根据语音识别结果是否与正确答案语料库相匹配生成平行语料库;根据平行语料库生成语音识别模型;以及根据语音识别模型和语言模型,对错误的语音识别结果进行纠正。
在此,在判断错误可能性的步骤中,可根据上述语音识别结果的生成概率对语音识别结果的错误可能性进行判断。
在此,上述生成平行语料库的步骤可包括如下步骤:从上述正确答案语料库以及上述语音识别结果中对正确答案集进行检测;从上述正确答案语料库以及上述语音识别结果中对错误答案集进行检测;以及以上述正确答案语料库、上述语音识别结果、上述正确答案集及上述错误答案集为基础,生成上述平行语料库。
在此,上述生成语音识别模型步骤可包括如下步骤:从上述平行语料库中对语音识别前的第一语法进行检测;从上述平行语料库中对语音识别后的第二语法进行检测;对上述第一语法和上述第二语法之间的语音识别概率进行计算;以及以上述第一语法、上述第二语法以及上述语音识别概率为基础,生成上述语音识别模型。
在此,上述对语音识别结果的错误进行纠正的步骤可包括如下步骤:根据上述第一语法和上述第二语法之间的对应关系生成图表;从上述图表中对具有最小错误的路径进行检测;以及以检测的路径为基础,对上述错误的语音识别结果进行纠正。
在此,上述生成图表的步骤中,在不存在对应于第二语法的第一语法的情况下,可将第二语法假设为第一语法。
在此,在以上述检测的路径为基础对错误的语音识别结果进行纠正的步骤中,在无需根据语言模型进行重新排列的情况下,可对错误的语音识别结果进行纠正。
根据用于实现上述目的的本发明的另一个实施例的语音识别错误纠正装置,其包括:处理部,其以通过正确答案语料库以及领域语料库学习的语言模型为基础,对语音识别结果的错误可能性进行判断,并且在错误可能性大于事先定义的基准的情况下,根据正确答案语料库以及语音识别结果是否相匹配生成平行语料库,并且以平行语料库为基础生成语音识别模型,并且以语音识别模型以及语言模型为基础对错误的语音识别结果进行纠正;存储部,其对上述处理部中所处理的信息以及已处理的信息进行存储。
在此,所述处理部根据语音识别结果的生成概率对语音识别结果的错误可能性进行判断。
在此,所述处理部从正确答案语料库以及语音识别结果中对正确答案集进行检测,并且从正确答案语料库以及语音识别结果中对错误答案集进行检测,并且以正确答案语料库、语音识别结果、正确答案集以及错误答案集为基础生成平行语料库。
所述处理部从平行语料库中对语音识别前的第一语法进行检测,并且从平行语料库中对语音识别后的第二语法进行检测,并且对第一语法和第二语法之间的语音识别概率进行计算,并且以第一语法、第二语法以及语音识别概率为基础生成所述语音识别模型。
在此,所述处理部对根据第一语法和第二语法之间的对应关系生成图表,并且从所述图表中对具有最小错误的路径进行检测,并且以检测到的路径为基础,对错误的语音识别结果进行纠正。
在此,所述处理部在不存在对应于第二语法的第一语法的情况下,将第二语法假设为第一语法,从而生成所述图表。
在此,所述处理部在无需根据语言模型进行重新排列的情况下,对错误的语音识别结果进行纠正。
根据本发明,可对语音识别产生的错误进行纠正,从而提高语音识别的准确度。
附图说明
图1是表示语音识别装置的框图;
图2是表示根据本发明的一个实施例的语音识别错误纠正方法的流程图;
图3是表示根据本发明的一个实施例的语音识别错误纠正方法中生成平行语料库的步骤的流程图;
图4是根据本发明的一个实施例的语音识别错误纠正方法中生成语音识别模型的步骤的流程图;
图5是表示语音识别模型的示意图;
图6是表示根据本发明的一个实施例的语音识别错误纠正方法中对语音识别结果的错误进行纠正的步骤的流程图;
图7是表示根据语法对应关系的图表的示意图。
图8是表示根据本发明的一个实施例的语音识别错误纠正装置的框图。
图9是表示根据本发明的另一个实施例的语音识别错误纠正装置的框图。
具体实施方式
本发明可增加各种变更,并且可具有各种实施例,将特定实施例示出于附图中,并且将会进行详细说明。但是,上述不会将本发明限定在特定实施例形态,而是应理解为包括在本发明的思想以及技术范围内的所有变更、等同物或者替代物。
第一、第二等术语可用于说明各种构成部件,但是不能使用上述术语对上述构成部件进行限定。使用上述术语的目的是将一个构成部件与其他构成部件进行区别。例如,在不脱离本发明的权利范围的情况下,第一构成部件可命名为第二构成部件,同样第二构成部件也可命名为第一构成部件。术语“以及/或者”包括多个相关的所记载的组件的组合或者多个相关的所记载的组件中的任何组件。
当提到某构成部件“连接”或者“耦合”于其他构成部件时,可直接连接或者耦合于其他构成部件中,也可理解为在中间存在其他的构成部件。相反地,当提到某构成部件“直接连接”或者“直接耦合”于其他构成部件时,应理解为在中间不存在其他的构成部件。
在本申请中所使用的术语只是为了说明特定的实施例而使用的,因此没有限定本发明的意图。单数的表达在上下文上只要没有明确地指出其他的意思,则包括复数的表达。在本申请中,“包括”或者“具有”等术语应理解为指定记载于说明书中的特征、数字、步骤、操作、构成部件、部件或者组合上述部分的存在,而不是排除一个或者一个以上的其他特征或者数字、步骤、操作、构成部件、部件或者组合上述部分的存在或者附加可能性。
只要不做其他定义,包括技术性或者科学性的术语,在此使用的全部术语与本发明所属的技术领域中具有一般知识的技术人员通常所理解的意思相同。通常所使用的事先定义的术语应理解为与相关技术的上下文上所具有的意思一致,只要在本申请中没有明确地定义,就不能理解为理想性或者过于形式性的意思。
以下,参照附图,对本发明的优选实施例进行更详细说明。在说明本发明时,为了帮助整体上的理解,对附图上的相同构成部件使用相同的参照符号,并且对相同的构成部件省略重复说明。
图1是表示语音识别装置的框图。
参照图1,语音识别装置可包括语音识别部20、错误纠正部30以及语音识别应用部40。语音识别部20可接收语音信号10,并且对语音信号10进行识别,从而可生成语音识别结果(文本)。错误纠正部30可分析在语音识别结果中是否包括有错误,并且在包括有错误的情况下,可对包括于语音识别结果中的错误进行纠正。实质上,错误纠正部30可具有与图8以及图9所示的语音识别错误纠正装置30相同的配置。
语音识别应用部40可将语音识别结果适用于各种应用。应用可以是语音文字处理软件、语音对话系统等。
图2是表示根据本发明的一个实施例的语音识别错误纠正方法的流程图。
参照图2,语音识别错误纠正方法包括如下步骤:以通过正确答案语料库以及领域语料库学习的语言模型为基础,对语音识别结果的错误可能性进行判断(S100);在错误可能性大于事先定义的基准的情况下,根据语音识别结果是否与正确答案语料库相匹配生成平行语料库(S200);以平行语料库为基础生成语音识别模型(S300);以及以语音识别模型以及语言模型为基础,对错误的语音识别结果进行纠正(S400)。在此,语音识别的错误纠正方法的各个步骤可通过图8以及图9所示的语音识别错误纠正装置30执行。
语音识别错误纠正装置可判断在语音识别结果中是否包括错误(换句话说,错误的可能性)(S100)。语音识别的错误纠正装置使用语言模型来判断错误的可能性,上述语言模型通过与语音识别结果相关的正确答案语料库和大容量的领域语料库的学习而获得。在此,可将n元语法(N-gram)用作语言模型,具体地,可使用二元语法(bigram)或三元语法(trigram)。
例如,在语音识别结果为“苹果美味地吃”的情况下,语音识别错误纠正装置通过二元语法可对“苹果美味地”、“美味地吃”的生成概率进行计算,并且通过三元语法可对“苹果美味地吃”的生成概率进行计算。此时,语言模型是通过正确答案语料库学习的,因此作为二元语法的“苹果美味地”具有低生成概率,由此,语音识别错误纠正装置可将“苹果美味地”判断为具有高错误可能性的语法。最终,语音识别错误纠正装置可将“苹果美味地吃”判断为具有高错误可能性的语法。
语音识别错误纠正装置在错误可能性大于事先定义的基准的情况下,可根据正确答案语料库以及语音识别结果是否匹配生成平行语料库(S200)。
图3是表示根据本发明的一个实施例的语音识别错误纠正方法中生成平行语料库的步骤的流程图。
参照图3,生成平行语料库的步骤(S200)可包括如下步骤:从正确答案语料库以及语音识别结果中对正确答案集进行检测(S210);从正确答案语料库以及语音识别结果中对错误答案集进行检测(S220);以及以正确答案语料库、语音识别结果、正确答案集以及错误答案集为基础,生成平行语料库(S230)。
语音识别错误纠正装置可从现有平行语料库中对正确答案集进行检测(S210),上述现有平行语料库可包括正确答案语料库以及语音识别结果。
【表1】
表1是表示包括有正确答案语料库以及语音识别结果的现有平行语料库。在此,记载于左列的“苹果美味地吃”、“苹果减少”、“毒药放了苹果”是语音识别结果,记载于右列的“苹果被美味地吃”、“苹果为红色”、“毒药被放入苹果中”是正确答案语料库。
例如,在表1的第二行中,作为语音识别结果的“苹果”与作为正确答案语料库的“苹果”相同,因此语音识别错误纠正装置可将“苹果”检测为正确答案集。此外,在表1的第三行中,作为语音识别结果的“毒药被放”与作为正确答案语料库的“毒药被放”相同,因此语音识别错误纠正装置可将“毒药被放”检测为正确答案集。
语音识别错误纠正装置可从包括正确答案语料库以及语音识别结果的现有平行语料库中对错误答案集进行检测(S220)。
例如,在表1的第二行中,作为语音识别结果的“减少”与作为正确答案语料库的“为红色”不同,因此语音识别错误纠正装置可将“减少、为红色”检测为错误答案集。此外,在表1的第三行中,作为语音识别结果的“了苹果”与作为正确答案语料库的“入苹果”不同,因此语音识别错误纠正装置可将“了苹果、入苹果”检测为错误答案集。
在此,虽然描述了在执行步骤S210之后执行步骤S220,但是也可以在步骤S220之后执行步骤S210。
语音识别错误纠正装置可生成扩展的平行语料库,包括正确的答案语料库、语音识别结果、正确答案集以及错误答案集(S230)。
【表2】
Figure BDA0000421132030000061
Figure BDA0000421132030000071
表2是表示包括有正确答案语料库、语音识别结果、正确答案集以及错误答案集的扩展的平行语料库。在备注1、2、3中,记载于左列的“苹果美味地吃”、“苹果减少”、“毒药被放了苹果”是语音识别结果,记载于右列的“苹果被美味地吃”、“苹果为红色”、“毒药被投入苹果”是正确的答案语料库。
在备注5、6、9中,“美味地、美味地”、“苹果、苹果”、“毒药被放、毒药被放”是正确答案集。在备注7、8中,“减少、红色”以及“了苹果、入苹果”意味着错误答案集。
换句话说,如上述表2所示,语音识别错误纠正装置可生成扩展的平行语料库,上述扩展的平行语料库包括正确答案语料库、语音识别结果、正确答案集以及错误答案集。
在此,在表1的第一行中,作为语音识别结果的“苹果”与作为正确答案语料库的“苹果被”不同。但是,由于“苹果”被检测为正确答案集(表2的备注6),因此语音识别错误纠正装置不会将“苹果、苹果被”检测为错误答案集(参考表2的备注4)。换句话说,如果错误答案集所包括的文本包括于正确答案集中,语音识别错误纠正装置就不会将相应的错误答案集检测为错误答案集。据此,语音识别错误纠正装置可减少错误的产生。
语音识别错误纠正装置根据平行语料库生成语音识别模型(S300)。
图4是表示根据本发明的一个实施例的语音识别错误纠正方法中生成语音识别模型的流程图。
参照图4,生成语音识别模型的步骤(S300)可包括如下步骤:从平行语料库中对语音识别前的第一语法进行检测(S310);从平行语料库中对语音识别后的第二语法进行检测(S320);对第一语法和第二语法之间的语音识别概率进行计算(S330);以及以第一语法、第二语法以及语音识别概率为基础,生成语音识别模型。
语音识别错误纠正装置可从扩展的平行语料库(换句话说,参照表2)中对语音识别前的第一语法进行检测(S310)。换句话说,语音识别错误纠正装置可将包括于扩展的平行语料库中的正确答案语料库检测为第一语法。
语音识别错误纠正装置可从扩展的平行语料库(换句话说,参照表2)中对语音识别后的第二语法进行检测(S320)。换句话说,语音识别错误纠正装置可将包括于扩展的平行语料库中的语音识别结果检测为第二语法。
在此,虽然描述为在步骤S310之后执行步骤S320,但是也可以在步骤S320之后执行步骤S310。
语音识别错误纠正装置可对第一语法和第二语法之间的语音识别概率进行计算(S330)。换句话说,语音识别错误纠正装置可对将第一语法识别为第二语法的语音识别概率进行计算,此时,也可以使用扩展的平行语料库对语音识别概率进行计算。
语音识别错误纠正装置以第一语法、第二语法以及语音识别概率为基础,可生成语音识别模型(S340)。
图5是表示语音识别模型的示意图。
参照图5,图5(A)意味着将英语翻译为德语的语音识别模型,图5(B)意味着将德语翻译为英语的语音识别模型,图5(C)意味着将图5(A)和图5(B)结合的语音识别模型。
在图5(A)的语音识别模型中,行表示英语(对应于第一语法),列表示德语(对应于第二语法)。在此,表示为黑色的单元表示将第一语法翻译为第二语法的概率很高。(例如,将“that”翻译为“dass”的概率很高)
在图5(B)的语音识别模型中,行表示英语(对应于第二语法),列表示德语(对应于第一语法)。在此,表示为黑色的单元表示将第一语法翻译为第二语法的概率很高。(例如,将“geht”翻译为“assumes”的概率很高)
图5(C)的语音识别模型是将图5(A)的语音识别模型和图5(B)的语音识别模型结合。在图5(A)和图5(B)中将第一语法翻译为第二语法的概率均为高的单元用黑色表示(例如,“that”→“dass”),仅在图5(A)和图5(B)中一个图中将第一语法翻译为第二语法的概率为高的单元用灰色表示(“the”→“im”)。
通过上述方法,语音识别错误纠正装置可生成语音识别模型。换句话说,语音识别错误纠正装置将第一语法(例如,正确答案语料库)设定为行,并且将对应于第一语法的第二语法(例如,语音识别结果)设定为列,从而可生成矩阵,第一语法将要识别为第二语法的概率判断为高的单元使用黑色表示,从而生成第一语音识别模型。
在语音识别错误纠正装置中,将第一语法(例如,语音识别结果)设定为列,并且将对应于第一语法的第二语法(例如,正确答案语料库)设定为行,从而可生成矩阵,并且第一语法将要识别为第二语法的概率判断为高的单元使用黑色表示,从而可生成第二语音识别模型。
在语音识别错误纠正装置中,在将第一语音识别模型和第二语音识别模型结合后,可生成最终语音识别模型。
语音识别错误纠正装置以语音识别模型以及语言模型为基础,可对错误的语音识别结果进行纠正(S400)。
图6是表示根据本发明的一个实施例的语音识别错误纠正方法中对语音识别结果的错误进行纠正的步骤的流程图。
参照图6,对错误的语音识别结果进行纠正的步骤(S400)可包括如下步骤:根据第一语法和第二语法之间的对应关系生成图表(S410);从图表中对具有最小错误的路径进行检测(S420);根据检测到的路径对错误的语音识别结果进行纠正(S430)。
语音识别错误纠正装置可根据第一语法和第二语法之间的对应关系生成图表(S410)。
图7是表示根据语法的对应关系的图表的示意图。
参照图7,“标号50(例如,第一语法)”表示西班牙语,“标号60(例如,第二语法)”表示英语。换句话说,“Maria”、“no”、“did not”分别对应于“Mary”、“not”、“no”。
通过上述方法,语音识别错误纠正装置可对分别对应于第一语法(换句话说,正确答案语料库)的第二语法(换句话说,语音识别结果)进行检测,并且以此为基础,根据第一语法和第二语法之间的对应关系生成图表。
此时,如果不存在对应于某个第二语法的某个第一语法,语音识别错误纠正装置可将某个第二语法假设为某个第一语法。换句话说,如果不存在对应于某个第二语法的某个第一语法,则有关某个第一语法的图表上的部分视为空白,语音识别错误纠正装置为了防止上述情况,可将该第二语法假设为该第一语法。
例如,如果不存在对应于某个第二语法“了苹果”的某个第一语法,则语音识别错误纠正装置可将第二语法的“了苹果”假设为第一语法。
语音识别错误纠正装置可从图表中对具有最小错误的路径进行检测(S420)。此时,语音识别错误纠正装置可通过已知的技术(例如,维特比(viterbi)搜索)对具有最小错误的路径进行检测。
语音识别错误纠正装置以所检测的路径为基础,可对语音识别结果的错误进行纠正(S430)。换句话说,语音识别错误纠正装置可对语音识别结果和检测到的路径进行比较,如果比较的结果存在差异,则以检测到的路径为基准,可纠正语音识别的结果。例如,如果语音识别结果为“苹果美味地吃”,并且检测的路径为“苹果被美味地吃”,则语音识别错误纠正装置可将语音识别的结果纠正为“苹果被美味地吃”。
在此,语音识别错误纠正装置无需根据语言模型重新排列,可以对错误的语音识别结果进行纠正。重新排列的处理是指语言之间的语序相互不同,因此在翻译时重新排列语序。例如,在将英语翻译为韩语的情况下,“I have an apple”可翻译为
Figure BDA0000421132030000101
Figure BDA0000421132030000102
并且根据语言模型的重新排列处理,将
Figure BDA0000421132030000103
重新排列为
Figure BDA0000421132030000104
。语音识别错误纠正方法是在相同的语言之间纠正错误,因此语音识别错误纠正装置不用再执行如上所述的重新排列处理。
图8是表示根据本发明的一个实施例的语音识别错误纠正装置的框图。
参照图8,语音识别错误纠正装置30包括处理部31以及存储部32。处理部31以语言模型为基础可对语音识别结果的错误可能性进行判断,上述语言模型是通过正确答案语料库以及领域语料库学习的,并且在错误可能性大于事先定义的基准的情况下,可根据正确答案语料库与语音识别结果是否相匹配来生成平行语料库,以平行语料库为基础生成语音识别模型,并以语音识别模型及语言模型为基础,可对错误的语音识别结果进行纠正。存储部32可对处理部31中所要处理的信息以及已经处理的信息进行存储。
处理部31以前面所述步骤S100为基础,对语音识别结果的错误可能性进行判断。具体地,处理部31可使用语言模型判断错误可能性,上述语言模型通过与语音识别结果相关的正确答案语料库和大容量的领域语料库学习而获得。在此,可将n元语法(N-gram)用作语言模型,具体地也可使用二元语法(bigram)或三元语法(trigram)。
例如,在语音识别结果为“苹果美味地吃”的情况下,处理部31可通过二元语法对“苹果美味地”、“美味地吃”的生成概率进行计算,并且通过三元语法可对“苹果美味地吃”的生成概率进行计算。此时,语言模型是通过正确答案语料库学习的,因此作为二元语法的“苹果美味地”具有低生成率,由此处理部31可将“苹果美味地”判断为具有高错误可能性的语法。最终,处理部31可将“苹果美味地吃”判断为具有高错误可能性的语法。
处理部31以所述步骤S200为基础,可生成平行语料库。具体地,处理部31以所述步骤S210为基础,可对正确答案集进行检测。例如,在上述表1的第二行中,作为语音识别结果的“苹果”与作为正确答案语料库的“苹果”相同,因此处理部31可将“苹果”检测为正确答案集。此外,在上述表1的第三行中,作为语音识别结果的“毒药被放”与作为正确答案语料库的“毒药被放”相同,因此处理部31可将“毒药被放”检测为正确答案集。
处理部31以上述步骤S220为基础,可对错误答案集进行检测。例如,在上述表1的第二行中,作为语音识别结果的“减少”与作为正确答案语料库的“红色”不同,因此处理部31可将“减少、红色”检测为错误答案集。此外,在上述表1的第三行中,作为语音识别结果的“了苹果”与作为正确答案语料库的“入苹果”不同,因此处理部31可将“了苹果、入苹果”检测为错误答案集。
处理部31以上述步骤S230为基础,可生成平行语料库,并且如上述表2所示,可生成扩展的平行语料库,上述扩展的平行语料库包括有正确答案语料库、语音识别结果、正确答案集以及错误答案集。
处理部31以上述步骤S300为基础,可生成语音识别模型。具体地,处理部31以上述步骤S310为基础,可对语音识别前的第一语法进行检测,并且以上述步骤S320为基础,可对语音识别后的第二语法进行检测,并且以上述步骤S330为基础,可对语法之间的语音识别概率进行计算,以上述步骤S340为基础,可生成语音识别模型。
换句话说,处理部31可生成如图5所示的语音识别模型。处理部31将第一语法(例如,正确答案语料库)设定为行,并且将对应于第一语法的第二语法(例如,语音识别结果)设定为列,从而可生成矩阵,并且通过将第一语法很可能被识别为第二语法的单位标识为黑色,生成第一语音识别模型。
处理部31将第一语法(例如,语音识别结果)设定为列,将对应于第一语法的第二语法(例如,正确答案语料库)设定为行,从而可生成矩阵,并且通过将第一语法很可能被识别为第二语法的单位标识为黑色,生成第二语音识别模型。
处理部31通过将第一语音识别模型和第二语音识别模型进行结合,可以生成最终语音识别模型。
处理部31以上述步骤S400为基础,可对错误的语音识别结果进行纠正。具体地,处理部31以上述步骤S410为基础,可根据语法之间的对应关系生成图表,如图7所示,可对分别对应于第一语法(换句话说,正确答案语料库)的第二语法(换句话说,语音识别结果)进行检测,并且以此为基础,可生成根据第一语法和第二语法的对应关系的图表。
处理部31以上述步骤S420为基础,可对具有最小错误的路径进行检测,并且通过已知的技术(例如,维比特(viterbi)搜索)可对具有最小错误的路径进行检测。
处理部31以上述步骤S430为基础,可对错误的语音识别结果进行纠正。换句话说,处理部31对语音识别结果和检测到的路径进行比较,并且在比较的结果存在差异的情况下,以检测的路径为基准,可对语音识别的结果进行纠正。例如,在语音识别结果为“苹果美味地吃”以及检测到的路径为“苹果被美味地吃”的情况下,语音识别错误纠正装置将语音识别的结果纠正为“苹果被美味地吃”。
处理部31所执行的功能可在数据处理器(例如,中央处理器(CPU)和/或图形处理器(GPU))中执行。
图9是表示根据本发明的另一个实施例的语音识别错误纠正装置的框图。
参照图9,语音识别错误纠正装置30包括错误判断部33、语料库生成部34、模型生成部35以及解码器36。图9所示的语音识别错误纠正装置30与图8所示的语音识别错误纠正装置30基本相同。
错误判断部33以上述步骤S100为基础,可对语音识别结果的错误可能性进行判断。语料库生成部34以上述步骤S200为基础,可生成平行语料库。模型生成部35以上述步骤S300为基础,可生成语音识别模型。解码器36以上述步骤S400为基础,可对错误的语音识别结果进行纠正。
错误判断部33、语料库生成部34、模型生成部35以及解码器36所执行的功能基本上可在数据处理器(例如,CPU和/或GPU)中执行。
此外,错误判断部33、语料库生成部34、模型生成部35以及解码器36可实现为一体的形式、一个物理装置或者一个模块。不仅如此,错误判断部33、语料库生成部34、模型生成部35以及解码器36分别实现为多个物理装置或者组件,而不是一个物理装置或者组件。
根据本发明的方法实现为可记录于计算机可读取介质中并由计算机执行的程序代码。计算机可读取介质可以单独或组合地包括程序指令、数据文件、数据结构等。记录在计算机可读取介质中的程序代码可以针对本发明进行专门设计,或者可以为本领域普通技术人员所公知。计算机可读取介质的例子包括专门构成用于存储和执行程序代码的硬件装置,例如只读存储器(ROM)、随机存取存储器(RAM)或闪存。程序代码的例子包括编译器生成的机器代码以及可以由计算机通过使用编译器执行的高级语言代码。为了执行本发明的操作,如上所述的硬件装置可以包括一个或多个软件模块,反之亦然。
参照以上实施例进行了说明,但是应理解为,所属技术领域的熟练的技术人员可对本发明进行各种修正及变更,这并不脱离由所附权利要求书所限定的本发明的范围。

Claims (14)

1.一种语音识别错误纠正方法,其在语音识别错误纠正装置中执行,其特征在于,包括如下步骤:
以通过正确答案语料库以及领域语料库学习的语言模型为基础,对语音识别结果的错误可能性进行判断;
在上述错误可能性大于事先定义的基准的情况下,根据正确答案语料库以及语音识别结果是否匹配生成平行语料库;
以上述平行语料库为基础,生成语音识别模型;以及
以语音识别模型以及语言模型为基础,对错误的语音识别结果进行纠正。
2.根据权利要求1所述的语音识别错误纠正方法,其特征在于:
在判断错误可能性的步骤中,根据语音识别结果的生成概率对语音识别结果的错误可能性进行判断。
3.根据权利要求1所述的语音识别错误纠正方法,其特征在于,生成平行语料库的步骤可包括如下步骤:
从上述正确答案语料库以及上述语音识别结果中对正确答案集进行检测;
从上述正确答案语料库以及上述语音识别结果中对错误答案集进行检测;以及
以上述正确答案语料库、上述语音识别结果、上述正确答案集以及上述错误答案集为基础,生成上述平行语料库。
4.根据权利要求1所述的语音识别错误纠正方法,其特征在于,生成语音识别模型的步骤包括如下步骤:
从上述平行语料库中对语音识别前的第一语法进行检测;
从上述平行语料库中对语音识别后的第二语法进行检测;
对第一语法和第二语法之间的语音识别概率进行计算;以及
以第一语法、第二语法以及语音识别概率为基础,生成上述语音识别模型。
5.根据权利要求4所述的语音识别错误纠正方法,其特征在于,对错误的语音识别结果进行纠正的步骤包括如下步骤:
根据第一语法和第二语法之间的对应关系生成图表;
从上述图表中对具有最小错误的路径进行检测;以及
以检测的路径为基础,对错误的语音识别结果进行纠正。
6.根据权利要求5所述的语音识别错误纠正方法,其特征在于:
在生成图表的步骤中,在不存在对应于第二语法的第一语法的情况下,假设第二语法为第一语法。
7.根据权利要求5所述的语音识别错误纠正方法,其特征在于:
在以检测的路径为基础对错误的语音识别结果进行纠正的步骤中,在无需根据语言模型进行重新排列的情况下,对错误的语言识别结果进行纠正。
8.一种语音识别错误纠正装置,其特征在于,包括:
处理部,其以通过正确答案语料库以及领域语料库学习的语言模型为基础,对语音识别结果的错误可能性进行判断,并且在错误可能性大于事先定义的基准的情况下,根据正确答案语料库以及语音识别结果是否相匹配生成平行语料库,并且以平行语料库为基础生成语音识别模型,并且以语音识别模型以及语言模型为基础对错误的语音识别结果进行纠正;以及
存储部,其对上述处理部中所处理的信息以及已处理的信息进行存储。
9.根据权利要求8所述的语音识别错误纠正装置,其特征在于:
所述处理部根据语音识别结果的生成概率对语音识别结果的错误可能性进行判断。
10.根据权利要求8所述的语音识别错误纠正装置,其特征在于:
所述处理部从正确答案语料库以及语音识别结果中对正确答案集进行检测,并且从正确答案语料库以及语音识别结果中对错误答案集进行检测,并且以正确答案语料库、语音识别结果、正确答案集以及错误答案集为基础生成平行语料库。
11.根据权利要求8所述的语音识别错误纠正装置,其特征在于:
所述处理部从平行语料库中对语音识别前的第一语法进行检测,并且从平行语料库中对语音识别后的第二语法进行检测,并且对第一语法和第二语法之间的语音识别概率进行计算,并且以第一语法、第二语法以及语音识别概率为基础生成所述语音识别模型。
12.根据权利要求11所述的语音识别错误纠正装置,其特征在于:
所述处理部对根据第一语法和第二语法之间的对应关系生成图表,并且从所述图表中对具有最小错误的路径进行检测,并且以检测到的路径为基础,对错误的语音识别结果进行纠正。
13.根据权利要求12所述的语音识别错误纠正装置,其特征在于:
所述处理部在不存在对应于第二语法的第一语法的情况下,将第二语法假设为第一语法,从而生成所述图表。
14.根据权利要求12所述的语音识别错误纠正装置,其特征在于:
所述处理部在无需根据语言模型进行重新排列的情况下,对错误的语音识别结果进行纠正。
CN201310604269.6A 2012-12-07 2013-11-25 语音识别错误的纠正方法及装置 Expired - Fee Related CN103871407B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2012-0141972 2012-12-07
KR1020120141972A KR101364774B1 (ko) 2012-12-07 2012-12-07 음성 인식의 오류 수정 방법 및 장치

Publications (2)

Publication Number Publication Date
CN103871407A true CN103871407A (zh) 2014-06-18
CN103871407B CN103871407B (zh) 2017-04-19

Family

ID=50271426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310604269.6A Expired - Fee Related CN103871407B (zh) 2012-12-07 2013-11-25 语音识别错误的纠正方法及装置

Country Status (4)

Country Link
US (1) US9318102B2 (zh)
JP (1) JP5788953B2 (zh)
KR (1) KR101364774B1 (zh)
CN (1) CN103871407B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809923A (zh) * 2015-05-13 2015-07-29 苏州清睿信息技术有限公司 可自编自导的智能语音对话生成方法和系统
CN105390049A (zh) * 2014-08-25 2016-03-09 卡西欧计算机株式会社 电子装置和发音学习支援方法
CN105468468A (zh) * 2015-12-02 2016-04-06 北京光年无限科技有限公司 面向问答系统的数据纠错方法及装置
CN105869634A (zh) * 2016-03-31 2016-08-17 重庆大学 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN109036424A (zh) * 2018-08-30 2018-12-18 出门问问信息科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN109389983A (zh) * 2017-08-10 2019-02-26 奥迪股份公司 用于处理移动终端设备的自动的在线-语音识别器的识别结果的方法以及交换设备
CN109922371A (zh) * 2019-03-11 2019-06-21 青岛海信电器股份有限公司 自然语言处理方法、设备及存储介质
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110265019A (zh) * 2019-07-03 2019-09-20 中通智新(武汉)技术研发有限公司 一种语音识别的方法及语音机器人系统
CN111539231A (zh) * 2020-04-29 2020-08-14 北京金山安全软件有限公司 一种翻译方法、装置、服务器及计算机可读存储介质

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102298457B1 (ko) 2014-11-12 2021-09-07 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
KR102396983B1 (ko) 2015-01-02 2022-05-12 삼성전자주식회사 문법 교정 방법 및 장치
CN107220235B (zh) * 2017-05-23 2021-01-22 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及存储介质
CN107357775A (zh) * 2017-06-05 2017-11-17 百度在线网络技术(北京)有限公司 基于人工智能的循环神经网络的文本纠错方法及装置
JP2019057123A (ja) * 2017-09-21 2019-04-11 株式会社東芝 対話システム、方法、及びプログラム
CN110111793B (zh) * 2018-02-01 2023-07-14 腾讯科技(深圳)有限公司 音频信息的处理方法、装置、存储介质及电子装置
US11520992B2 (en) 2018-03-23 2022-12-06 Servicenow, Inc. Hybrid learning system for natural language understanding
US10713441B2 (en) * 2018-03-23 2020-07-14 Servicenow, Inc. Hybrid learning system for natural language intent extraction from a dialog utterance
CN108549637A (zh) * 2018-04-19 2018-09-18 京东方科技集团股份有限公司 基于拼音的语义识别方法、装置以及人机对话系统
KR20200056712A (ko) 2018-11-15 2020-05-25 삼성전자주식회사 전자 장치 및 그 제어 방법
US11487945B2 (en) 2019-07-02 2022-11-01 Servicenow, Inc. Predictive similarity scoring subsystem in a natural language understanding (NLU) framework
US11468238B2 (en) 2019-11-06 2022-10-11 ServiceNow Inc. Data processing systems and methods
US11455357B2 (en) 2019-11-06 2022-09-27 Servicenow, Inc. Data processing systems and methods
US11481417B2 (en) 2019-11-06 2022-10-25 Servicenow, Inc. Generation and utilization of vector indexes for data processing systems and methods

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02171876A (ja) 1988-12-23 1990-07-03 Nippon Telegr & Teleph Corp <Ntt> パターン認識処理方式
JP3126945B2 (ja) * 1997-10-30 2001-01-22 株式会社エイ・ティ・アール音声翻訳通信研究所 文字誤り校正装置
JP2003308094A (ja) * 2002-02-12 2003-10-31 Advanced Telecommunication Research Institute International 音声認識における認識誤り箇所の訂正方法
US7539619B1 (en) * 2003-09-05 2009-05-26 Spoken Translation Ind. Speech-enabled language translation system and method enabling interactive user supervision of translation and speech recognition accuracy
JP2005234236A (ja) 2004-02-19 2005-09-02 Canon Inc 音声認識装置、音声認識方法、記憶媒体およびプログラム
KR100639931B1 (ko) 2004-11-24 2006-11-01 한국전자통신연구원 대화형 음성인식 시스템의 인식오류 수정장치 및 그 방법
US7552053B2 (en) * 2005-08-22 2009-06-23 International Business Machines Corporation Techniques for aiding speech-to-speech translation
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
JP2008033198A (ja) 2006-08-01 2008-02-14 Nec System Technologies Ltd 音声対話システム、音声対話方法、音声入力装置、プログラム
KR100825690B1 (ko) 2006-09-15 2008-04-29 학교법인 포항공과대학교 음성 인식 시스템에서의 인식 오류 수정 방법
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US8788258B1 (en) * 2007-03-15 2014-07-22 At&T Intellectual Property Ii, L.P. Machine translation using global lexical selection and sentence reconstruction
US8645119B2 (en) * 2007-03-26 2014-02-04 Google Inc. Minimum error rate training with a large number of features for machine learning
US9002869B2 (en) * 2007-06-22 2015-04-07 Google Inc. Machine translation for query expansion
US7890525B2 (en) * 2007-11-14 2011-02-15 International Business Machines Corporation Foreign language abbreviation translation in an instant messaging system
JP4769261B2 (ja) 2008-02-20 2011-09-07 日本電信電話株式会社 音声認識誤り分析装置、方法、プログラム及びその記録媒体
KR101445904B1 (ko) * 2008-04-15 2014-09-29 페이스북, 인크. 현장 음성 번역 유지 시스템 및 방법
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
US8407049B2 (en) * 2008-04-23 2013-03-26 Cogi, Inc. Systems and methods for conversation enhancement
KR100961717B1 (ko) * 2008-09-16 2010-06-10 한국전자통신연구원 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
JP4977116B2 (ja) 2008-12-03 2012-07-18 株式会社東芝 音声認識装置、方法、およびプログラム
KR101149521B1 (ko) * 2008-12-10 2012-05-25 한국전자통신연구원 도메인 온톨로지를 이용한 음성 인식 방법 및 그 장치
EP2211336B1 (en) * 2009-01-23 2014-10-08 Harman Becker Automotive Systems GmbH Improved speech input using navigation information
JP2011002656A (ja) 2009-06-18 2011-01-06 Nec Corp 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム
CN101655837B (zh) * 2009-09-08 2010-10-13 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
US20110238406A1 (en) * 2010-03-23 2011-09-29 Telenav, Inc. Messaging system with translation and method of operation thereof
JP2012018201A (ja) 2010-07-06 2012-01-26 Hitachi Ltd テキスト補正方法及び認識方法
KR101828273B1 (ko) * 2011-01-04 2018-02-14 삼성전자주식회사 결합기반의 음성명령 인식 장치 및 그 방법
TWI441163B (zh) * 2011-05-10 2014-06-11 Univ Nat Chiao Tung 中文語音辨識裝置及其辨識方法
KR101181928B1 (ko) 2011-07-18 2012-09-11 포항공과대학교 산학협력단 문법오류 검출 장치 및 이를 이용한 문법오류 검출 방법
US20130091138A1 (en) * 2011-10-05 2013-04-11 Microsoft Corporation Contextualization, mapping, and other categorization for data semantics
US9311293B2 (en) * 2012-04-13 2016-04-12 Google Inc. Techniques for generating translation clusters
CN102799579B (zh) * 2012-07-18 2015-01-21 西安理工大学 具有错误自诊断和自纠错功能的统计机器翻译方法
US9916306B2 (en) * 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105390049A (zh) * 2014-08-25 2016-03-09 卡西欧计算机株式会社 电子装置和发音学习支援方法
CN104809923A (zh) * 2015-05-13 2015-07-29 苏州清睿信息技术有限公司 可自编自导的智能语音对话生成方法和系统
CN105468468A (zh) * 2015-12-02 2016-04-06 北京光年无限科技有限公司 面向问答系统的数据纠错方法及装置
CN105468468B (zh) * 2015-12-02 2018-07-27 北京光年无限科技有限公司 面向问答系统的数据纠错方法及装置
CN105869634B (zh) * 2016-03-31 2019-11-19 重庆大学 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN105869634A (zh) * 2016-03-31 2016-08-17 重庆大学 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置
CN109389983A (zh) * 2017-08-10 2019-02-26 奥迪股份公司 用于处理移动终端设备的自动的在线-语音识别器的识别结果的方法以及交换设备
CN109389983B (zh) * 2017-08-10 2023-07-07 奥迪股份公司 用于处理移动终端设备的自动的在线-语音识别器的识别结果的方法以及交换设备
CN109036424A (zh) * 2018-08-30 2018-12-18 出门问问信息科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN109922371A (zh) * 2019-03-11 2019-06-21 青岛海信电器股份有限公司 自然语言处理方法、设备及存储介质
CN109922371B (zh) * 2019-03-11 2021-07-09 海信视像科技股份有限公司 自然语言处理方法、设备及存储介质
CN110134952B (zh) * 2019-04-29 2020-03-31 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110265019A (zh) * 2019-07-03 2019-09-20 中通智新(武汉)技术研发有限公司 一种语音识别的方法及语音机器人系统
CN111539231A (zh) * 2020-04-29 2020-08-14 北京金山安全软件有限公司 一种翻译方法、装置、服务器及计算机可读存储介质

Also Published As

Publication number Publication date
JP5788953B2 (ja) 2015-10-07
US9318102B2 (en) 2016-04-19
CN103871407B (zh) 2017-04-19
JP2014115646A (ja) 2014-06-26
KR101364774B1 (ko) 2014-02-20
US20140163975A1 (en) 2014-06-12

Similar Documents

Publication Publication Date Title
CN103871407A (zh) 语音识别错误的纠正方法及装置
CN108595410B (zh) 手写作文的自动批改方法及装置
US10467340B2 (en) Grammar correcting method and apparatus
CN107688803B (zh) 字符识别中识别结果的校验方法和装置
US9454525B2 (en) Information extraction in a natural language understanding system
US20160371246A1 (en) System and method of template creation for a data extraction tool
CN101655837A (zh) 一种对语音识别后文本进行检错并纠错的方法
CN109189895B (zh) 一种针对口算题的题目批改方法及装置
CN107273883B (zh) 决策树模型训练方法、确定ocr结果中数据属性方法及装置
CN112101032A (zh) 一种基于自蒸馏的命名实体识别与纠错方法
CN104714950A (zh) 用于对数据库中的信息进行修正及补充的方法及系统
CN112149680B (zh) 错字检测识别方法、装置、电子设备及存储介质
US20150205779A1 (en) Server for correcting error in voice recognition result and error correcting method thereof
CN110826301B (zh) 标点符号添加方法、系统、移动终端及存储介质
CN103038762A (zh) 自然语言处理装置、方法、以及程序
CN105373527B (zh) 一种省略恢复方法及问答系统
CN113657098A (zh) 文本纠错方法、装置、设备及存储介质
CN110929514B (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN104933030A (zh) 一种维吾尔语拼写检查方法及装置
CN109614624B (zh) 一种英文语句的识别方法及电子设备
WO2013191662A1 (en) Method for correcting grammatical errors of an input sentence
CN103049434A (zh) 一种变形词证认系统及证认方法
CN112863518B (zh) 一种语音数据主题识别的方法及装置
CN114065762A (zh) 一种文本信息的处理方法、装置、介质及设备
JP2008027133A (ja) 帳票処理装置及び帳票処理方法ならびに帳票処理方法を実行するプログラムと記憶媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170419

Termination date: 20191125