CN101655837B - 一种对语音识别后文本进行检错并纠错的方法 - Google Patents

一种对语音识别后文本进行检错并纠错的方法 Download PDF

Info

Publication number
CN101655837B
CN101655837B CN2009100924615A CN200910092461A CN101655837B CN 101655837 B CN101655837 B CN 101655837B CN 2009100924615 A CN2009100924615 A CN 2009100924615A CN 200910092461 A CN200910092461 A CN 200910092461A CN 101655837 B CN101655837 B CN 101655837B
Authority
CN
China
Prior art keywords
word
text
knowledge
sentence
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009100924615A
Other languages
English (en)
Other versions
CN101655837A (zh
Inventor
李蕾
龙丽霞
王兴建
王骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN2009100924615A priority Critical patent/CN101655837B/zh
Publication of CN101655837A publication Critical patent/CN101655837A/zh
Application granted granted Critical
Publication of CN101655837B publication Critical patent/CN101655837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种对语音识别后文本进行检错并纠错的方法,用于依次对语音识别后文本中的文本句进行检错并纠错:分别创建所述语音识别后文本中的文本句所属领域的第二语法知识库、第二语义知识库和第二语境知识库;基于所述第二语法知识库和所述第二语义知识库定位文本句中的锚点词,并基于所述第二语境知识库抽取所述定位的锚点词的实例;基于第一语义知识库和所述抽取的实例对文本句进行检错;基于第一语法知识库和所述抽取的实例对检错后得到的错误词语进行纠错。应用本发明所述的方法,能够对语音识别后文本进行准确的检错并纠错,从而提高语音识别率、实现人类与机器的自由交流。

Description

一种对语音识别后文本进行检错并纠错的方法
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种对语音识别后文本进行检错并纠错的方法。
背景技术
语音识别技术是一种让机器通过识别和理解,把人类的语言转变为相应的文本的技术,其最终目的是让机器“听懂”人类的语言,实现人类与机器的自由交流。然而,现有语音识别后文本中经常会有很多错误,也即语音识别率并不是很高,从而影响了人类与机器之间的正常交流,因此,提高语音识别率成了语音识别技术中的当务之急。
为了提高语音识别率,也就需要对语音识别后文本进行检错并纠错。
发明内容
有鉴于此,本发明提供了一种对语音识别后文本进行检错并纠错的方法,以提高语音识别率、实现人类与机器的自由交流。
为达到上述目的,本发明的技术方案具体是这样实现的:
一种对语音识别后文本进行检错并纠错的方法,用于对语音识别后文本中的文本句进行检错,并对检错后文本句中的错误词语进行纠错,包括:
按照所述语音识别后文本中的文本句所属领域,分别创建包含有N元语法值集合的第二语法知识库,包含有核心词集合的第二语义知识库,以及第二语境知识库,其中,第二语境知识库包含有核心词、由包含核心词的文本句形成的实例、以及所述核心词与其实例中除该核心词之外的其它词语的语境关联度集合;并且,所述第二语法知识库独立于包含有通用语法知识的第一语法知识库,所述第二语义知识库独立于包含有通用语义知识的第一语义知识库;
将所述语音识别后文本中的文本句转换成拼音形式的文本句,从所述第二语法知识库中获取所述拼音形式的文本句的N元语法值,将N元语法值大于阈值T1的N个拼音对应的词语和所述第二语义知识库中的核心词的并集作为所述语音识别后文本中的文本句的锚点词,其中,所述N为自然数;
查找所述第二语境知识库,获取每个锚点词对应的实例;基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的每个词语与每个所述获取的实例中所有词语的词语相关度,并根据所述词语相关度计算所述获取的实例与所述语音识别后文本中的文本句的文本相关度,获取每个锚点词对应的实例中文本相关度最大的实例;
基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的词语与所述获取的每个锚点词对应的实例中文本相关度最大的实例的词语相关度,如果所述词语相关度大于阈值T3,则将所述词语作为正确词语,将所述语音识别后文本中的文本句中正确词语以外的其它词语作为错误词语;
从第一语法知识库中获取候选词语,如果所述候选词语与所述获取的文本相关度最大的实例和谐,则使用所述候选词语替换所述错误词语,
其中,所述创建第二语义知识库包括:
搜索所述语音识别后文本中的文本句所属领域中的文本,并设定所述语音识别后文本中的文本句所属领域中的语境词为种子词库,分别计算所述搜索到的文本中的文本句与所述语境词共同出现在同一个文本句中的频数,将频数最高的前三位词语加入到种子词库中,得到新种子词库,
基于新种子词库对所述搜索到的文本进行卡方检验,将卡方检验后得到的所述搜索到的文本中每个词语的总卡方值大小进行排序,从所述排序后的词语中取出卡方值大于某一阈值的词语作为核心词,得到所述第二语义知识库,所述阈值的大小由所需选取的核心词数量来确定。
由上述的技术方案可见,本发明所采用的对语音识别后文本进行检错并纠错的方法,是分别对语音识别后文本中的每一个文本句进行检错、并对检错后的文本句中的错误词语进行纠错的。由于该方法中所采用的第二语法知识库、第二语义知识库和第二语境知识库都是针对所述语音识别后文本中的文本句所属领域创建的,而且通过上述创建的特定领域的第二语法知识库和第二语义知识库来获取锚点词,也就使得获取的锚点词是特定领域下的,并通过该特定领域下的锚点词来获取实例,进一步地,通过实例来计算其与所述语音识别后文本中中的文本句的文本相关度,也就使得在对文本句进行检错纠错时充分结合了文本句所属领域下的语法、语义以及语境知识,能够对语音识别后文本进行准确的检错并纠错,从而提高语音识别率、实现人类与机器的自由交流。
附图说明
图1为本发明对语音识别后文本进行检错并纠错的工作流程图。
图2为本实施例所采用的第二语法知识库的创建方法的工作流程图。
图3为本实施例所采用的第二语义知识库的创建方法的工作流程图。
图4为本发明采用第二语法知识库定位锚点词的工作流程图。
图5为本发明抽取实例的工作流程图。
图6为本发明所采用的第二语境知识库的创建方法的工作流程图。
图7为本发明所采用的检错方法的工作流程图。
图8为本发明所采用的纠错方法的工作流程图。
具体实施方式
为解决现有技术中存在的问题,本发明提出一种检错并纠错语音识别后文本的方法,即基于实例对语音识别后文本进行检错并纠错:确定好每个文本句中的锚点词,抽取所述确定的锚点词的实例,并根据所述抽取的实例对文本句进行检错并纠错,由于该方法中所采用的第二语法知识库、第二语义知识库和第二语境知识库都是针对所述语音识别后文本中的文本句所属领域创建的,而且通过上述创建的特定领域的第二语法知识库和第二语义知识库来获取锚点词,也就使得获取的锚点词是特定领域下的,并通过该特定领域下的锚点词来获取实例,进一步地,通过实例来计算其与所述语音识别后文本中中的文本句的文本相关度,也就使得在对文本句进行检错纠错时充分结合了文本句所属领域下的语法、语义以及语境知识,能够对语音识别后文本进行准确的检错并纠错,从而提高语音识别率、实现人类与机器的自由交流。
在介绍具体的实现方案之前,首先介绍一下文本句的概念,目标词、核心词、语境词和锚点词这四个词的概念,语境知识库、语法知识库和语义知识库这三个知识库的概念以及文本相关度、词语相关度、语境关联度和语义相似度的概念。
文本句是指具有完整结构的一个句子,例如以逗号结尾的一句话,或以句号结尾的一句话等。
目标词是从研究对象的角度来说的,即所要研究的目标对应的词语;核心词和语境词是从使用功能的角度来说的,其中,核心词是针对一个特定领域来说的,是最能体现一个特定领域中的具有代表意义的词语,语境词则是针对一个目标词来说的,且一个词语既可以是核心词又可以是语境词;锚点词是指被语音识别后文本中的被识别为正确的可能性很高的词语,是作为本发明检错并纠错语音识别后文本的基准点的词语。
语境知识库是用于提供特定领域中的语境相关知识的一种知识库;语法知识库是用于提供与语法相关内容的一种知识库;语义知识库是用于提供表现各种语义知识的一种知识库。
文本相关度是指两个文本句之间的相关程度;词语相关度是指两个文本句中其中某一个文本句的某个词语与另一个文本句的词语之间的相关程度,它由语境关联度和语义相似度两部分组成,其中,语境关联度是指某个特定领域中的两个词语在同一个文本句中共现的概率,而语义相似度是两个词语在意义上的相近程度。
基于上述介绍,本发明所述方案的具体实现包括:
按照所述语音识别后文本中的文本句所属领域,分别创建包含有N元语法值集合的第二语法知识库,包含有核心词集合的第二语义知识库,以及第二语境知识库,其中,第二语境知识库包含有核心词、由包含核心词的文本句形成的实例、以及所述核心词与其实例中除该核心词之外的其它词语的语境关联度集合;并且,所述第二语法知识库独立于包含有通用语法知识的第一语法知识库,所述第二语义知识库独立于包含有通用语义知识的第一语义知识库;
将所述语音识别后文本中的文本句转换成拼音形式的文本句,从所述第二语法知识库中获取所述拼音形式的文本句的N元语法值,将N元语法值大于阈值T1的N个拼音对应的词语和所述第二语义知识库中的核心词的并集作为所述语音识别后文本中的文本句的锚点词,其中,所述N为自然数;
查找所述第二语境知识库,获取每个锚点词对应的实例;基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的每个词语与每个所述获取的实例中所有词语的词语相关度,并根据所述词语相关度计算所述获取的实例与所述语音识别后文本中的文本句的文本相关度,获取每个锚点词对应的实例中文本相关度最大的实例;
基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的词语与所述获取的每个锚点词对应的实例中文本相关度最大的实例的词语相关度,如果所述词语相关度大于阈值T3,则将所述词语作为正确词语,将所述语音识别后文本中的文本句中正确词语以外的其它词语作为错误词语;
从第一语法知识库中获取候选词语,如果所述候选词语与所述获取的文本相关度最大的实例和谐,则将所述候选词语替换所述错误词语。
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
图1为本发明对语音识别后文本进行检错并纠错的工作流程图。如图1所示,该流程包括以下步骤:
步骤101:将语音识别后文本中的第一个文本句作为当前文本句。
语音识别后文本中有词语和文本句两种表现形式,本实施例是对文本句进行处理的,且在对文本句进行处理时,是依次对语音识别后文本中的每一个文本句分别进行处理的,因此,需要将语音识别后文本中的第一个文本句作为当前文本句。
步骤102:对当前文本句进行预处理,得到当前文本句中所有的词语。
为了方便后续操作,需要对当前文本句进行预处理。本步骤所采用的预处理方法为:首先,对当前文本句进行中文分词,也即将当前文本句这种表现形式转换为该文本句中所有的词语的表现形式;再者,如果当前文本句中有一些标点,还需要将这些标点进行去除等。对当前文本句进行预处理后就得到了当前文本句中所有的词语。
需要说明的是,具体的中文分词以及去除标点操作为现有技术,这里不再赘述。
步骤103~104:定位当前文本句中的锚点词,并判断是否定位成功,如果是,执行步骤105;否则,执行步骤117。
在本实施例中,锚点词的定位有两种方法:一种是依据语法知识库定位锚点词;另一种是依据语义知识库定位锚点词。下面分别对采用这两种方法定位锚点词的具体过程进行详细描述。
由于定位锚点词是在所述语音识别后文本中的文本句所属的特定领域中进行的,而现有的语法知识库和语义知识库体现的都是一种比较宽泛领域中的通用语法知识和通用语义知识,而并没有限定该特定领域,从而,本实施例所需的定位锚点词的语法知识库和语义知识库的内容在现有语法知识库和语义知识库中是不存在的,因此,在定位锚点词之前,首先需要创建定位锚点词时所采用的能够体现特定领域包含有N元语法值集合的语法知识库和包含有核心词集合的语义知识库。为了描述方便,将现有的语法知识库和语义知识库分别称为第一语法知识库和第一语义知识库,将本实施例中定位锚点词时所采用的能够体现特定领域的语法知识库和语义知识库分别称为第二语法知识库和第二语义知识库。下面分别对本实施例所采用的第二语法知识库和第二语义知识库的创建过程进行详细描述。
图2即为本实施例所采用的第二语法知识库的创建方法的工作流程图。如图2所示,该方法包括以下步骤:
步骤201:选定某个特定领域。
在本实施例中,依据第二语法知识库定位锚点词是在特定领域中进行的,因此,创建第二语法知识库时也就需要选定某个特定领域。其中,选定的特定领域可以为医药领域、电学领域、化学领域等大层次的领域,也可以为上述大层次领域下的某个小层次领域。
需要说明的是,这里的特定领域指的是所述语音识别后文本中的文本句所属领域。
步骤202:搜索该特定领域对应的文本。
在选定好特定领域之后,进一步地,还需搜索该特定领域所对应的文本,具体的搜索文本方法有很多种,如利用因特网进行在线搜索等。在实际中可采用任何搜索文本的方法,以不影响本发明实施例的实现为准。
步骤203:对步骤202得到的文本中所有的文本句进行预处理。
对文本句进行预处理的方法有很多种,在本步骤中采用的预处理方法同步骤102中所采用的预处理方法是有区别的,由于在本实施例中主要采用了语法中的拼音知识,因此,这里的预处理还需要将汉字形式的文本句转换为拼音形式的文本句的步骤,具体的预处理过程为:首先,去除文本句中的标点符号;其次,将去除标点符号之后的汉字形式的文本句转换为相应的拼音形式的文本句。
需要说明的是,如果在文本句中出现了阿拉伯数字,则需将阿拉伯数字形式转换为相应的汉语对应的数字形式,如果出现的阿拉伯数字对整个文本句影响不大,则需直接将阿拉伯数字进行去除;同样地,如果在文本句中出现字母,并且出现的字母对整个文本句影响不大,则直接去除文本句中的字母。具体的转换操作以及去除操作为现有技术,这里不再赘述。
步骤204:建立由步骤203中得到的预处理后的文本句的N元语法模型。
在得到了拼音形式的文本句之后,就可以建立拼音形式的文本句的N元语法模型,也即统计所有相邻N个字的拼音出现的概率,具体的建立过程为现有技术,这里不再赘述。
还需说明的是,这里N的取值为1,2或3等自然数,当N值过小时,建立的N元语法模型中的值都过大,后续在定位锚点词时会出现锚点词过多的情况;当N值过大时,建立的N元语法模型中的值都过小,从而使得定位锚点词时会出现遗漏的情况。因此,在本实施例中,采用了N=2或3,也即建立的是二元语法模型或三元语法模型。
步骤205:对建立的N元语法模型进行平滑处理,得到第二语法知识库。
在建立好N元语法模型、也即二元语法模型或三元语法模型之后,进一步地,由于建立好的语法模型中可能会出现数据稀疏的情况,而这种情况的出现在语法模型中是不合理的,因此,需要对建立好的语法模型进行平滑处理。
在本实施例中,采用了对语音识别结果处理效果较好的Witten-Bell(威顿-贝尔)插值平滑方法对建立好的语法模型进行平滑处理,实际中也可以采用其它的平滑处理方法,以不影响本发明实施例的实现为准。
对语法模型进行平滑处理后,即完成了本发明定位锚点词所采用的第二语法知识库的创建过程。下面对本发明定位锚点词所采用的第二语义知识库的创建方法的工作流程进行描述,如图3所示,该方法包括以下步骤:
步骤301:搜索选定的特定领域所对应的文本,并预先设定该特定领域中的几个语境词。
同创建第二语法知识库一样,在创建第二语义知识库时,也需要选定特定领域并对该特定领域所对应的文本进行搜索,具体的选定以及搜索过程同创建第二语法知识库。
需要说明的是,这里的特定领域指的是所述语音识别后文本中的文本句所属领域。
同时,还需要预先设定所述选定的特定领域中的几个语境词,这里的语境词的具体个数是不定的,一般取1-2个语境词即可。
需要说明的是,本发明所说的特定领域指的都是同一个特定领域。
步骤302:对由步骤301得到的文本中所有的文本句进行预处理,并将预先设定的语境词作为种子词库。
本步骤中所采用的预处理的方法同步骤102中预处理的方法基本上是一致的,即都需要对文本句进行中文分词,并且对分词后的文本句进行去除标点等,不同之处在于,该步骤是对由步骤301得到的文本中所有的文本句进行处理的,并且还进一步地需要去除一些停用词。
同时,还需将预先设定的特定领域中的几个语境词作为种子词库。
步骤303:将种子词库中的第一个语境词作为当前语境词。
在本实施例中,是依次对给出的每个语境词分别来进行处理的,因此,需要将种子词库中的第一个语境词作为当前语境词。
步骤304~305:获取步骤302得到的所有文本句中与当前语境词在同一个文本句中出现的词语,计算所述获取到的所有词语的频数,并判断当前语境词是否是种子词库中的最后一个语境词,如果是,执行步骤307;否则,执行步骤306。
对于每个当前语境词来说,都需要获取由步骤302得到的所有文本句中与当前语境词在同一个文本句中出现的所有词语,并计算所述获取到的所有词语的频数,得到了所有词语的频数后,还需进一步判断当前语境词是否是种子词库中的最后一个语境词,如果是种子词库中的最后一个语境词,执行步骤307;如果当前语境词不是种子词库中的最后一个语境词,则执行步骤306。
如何计算频数已为现有技术,这里不再对其进行赘述。
步骤306:将当前语境词的下一个语境词作为当前语境词,并返回执行步骤304。
如果当前语境词不是种子词库中的最后一个语境词,需要将种子词库中当前语境词的下一个语境词作为当前语境词,并返回执行步骤304。
步骤307:按照计算出的所有词语的频数的高低对所有词语进行排序。
统计获取到的所有词语,并对其按照计算出的频数高低进行排序,具体的排序方式可以有多种,以不影响本发明实施例的实现为准。
步骤308:将频数最高的词语作为当前词语。
将按照频数高低排序后的所有词语中频数最高的词语作为当前词语。
步骤309:判断当前词语是否在频数最高的词语的前三位,如果是,执行步骤310;否则,执行步骤313。
判断当前词语是否在排好序的频数最高的词语的前三位,如果当前词语在频数最高的词语的前三位,执行步骤310;如果当前词语不在频数最高的词语的前三位,则执行步骤313。
需要说明的是,在本实施例中,选取的只是前三位频数最高的词语,实际中可以选取更少或者更多的词语,当选取的词语过多时,可能会得到很多的核心词,而有些词语并不一定是核心词的情况;当选取的词语过少时,可能会出现一个核心词都得不到的情况。通过实验证明,选择排好序的前三位频数最高的词语是比较合理的。
步骤310:判断当前词语是否在种子词库中,如果是,执行步骤311;否则,执行步骤312。
当当前词语在频数最高的词语的前三位时,还需进一步判断当前词语是否在种子词库中,如果当前词语在种子词库中,执行步骤311;如果当前词语不在种子词库中,则需执行步骤312。
步骤311:将当前词语的下一个词语作为当前词语,并返回执行步骤309。
如果当前词语在种子词库中,则需将当前词语的下一个词语作为当前词语,并返回执行步骤309。
步骤312:将当前词语加入到种子词库中。
如果当前词语不在种子词库中,则需将当前词语加入到种子词库中。
步骤313:根据种子词库对由步骤302得到的所有文本句中的词语进行卡方检验。
根据种子词语对由步骤302得到的所有文本句中的词语进行卡方检验实际上是根据种子词库中的每一个词语依次对由步骤302得到的所有文本句中的词语进行卡方检验来实现的,下面以种子词库中的一个词语对由步骤302得到的所有文本句中的词语进行卡方检验为例来说明卡方检验的过程。
首先,将种子词库中的第一个词语作为当前检验词语,将所有文本句中的第一个词语作为当前被检验词语,并令a表示在所有文本句中当前检验词语与当前被检验词语都出现的文本句的个数,b表示在所有文本句中未出现当前检验词语、而出现当前被检验词语的文本句的个数,c表示在所有文本句中出现当前检验词语、而未出现当前被检验词语的文本句的个数,d表示在所有文本句中当前检验词语与当前被检验词语都未出现的文本句的个数,则当前被检验词语的卡方值V按照如下公式计算,
V = ( ad - bc ) / ( a + b ) ( c + d ) ( a + c ) ( b + d ) , 且-1≤V≤1,
其中,V值小于0表示当前检验词语与当前被检验词语之间存在正关联;反之,则表示两者之间存在负关联,且绝对值越大,两者的关联度越强;当V值等于0时,表示两者没有任何关联。
当计算出当前被检验词语的V值后,需要将当前被检验词语的下一个词语作为当前被检验词语,直至得到由步骤302得到的所有文本句中的所有词语的V值。
然后,将当前检验词语的下一个词语作为当前检验词语,重复上述过程,直至当前检验词语为种子词库中的最后一个词语。
经过上述步骤的操作后,即可得到由步骤302得到的所有词语的卡方值,分别将每个词语由种子词库中的所有不同词语分别得到的卡方值进行相加,即可得到每个词语的总卡方值,从而完成了卡方检验的整个过程。
步骤314:按照每个词语的总卡方值的大小对所有词语进行排序。
在得到了每个词语的总卡方值之后,需要按照总卡方值的大小对文本中所有词语进行排序,具体的排序方式可以有多种,以不影响本发明实施例的实现为准。
步骤315:按照总卡方值的大小获取一定数量的词语作为核心词,得到第二语义知识库。
根据文本的长度,从卡方值最大的几个词语中获取大于某一阈值的词语作为核心词即得到了本发明所采用的第二语义知识库,所述阈值的大小由所需选取得核心词数量来确定。
还需要说明的是,这里获取的词语的数量其实是以文本长度为依据的,如果获取的词语相对于文本长度来说比例过小,则会出现获取到的词语不能覆盖所有核心词、即核心词被遗漏的情况;如果获取的词语相对于文本长度来说比例过大,则会出现核心词中存在很多原本并不是核心词的词语的情况。实验证明,从每包含500个字的文本中获取前5个卡方值最大的词语作为核心词是比较合理的。
至此,即完成了本发明定位锚点词所采用的第二语义知识库的创建过程。
在创建完第二语法知识库和第二语义知识库之后,即可分别利用所创建的第二语法知识库和第二语义知识库来定位锚点词。下面分别对本发明定位锚点词的过程进行详细说明。图4即为本发明采用第二语法知识库定位锚点词的工作流程图,如图4所示,该流程包括以下步骤:
步骤401:对由步骤102得到的当前文本句进行预处理,得到拼音形式的当前文本句。
由于第二语法知识库中是由拼音形式的文本句得到N元语法值的,因此,在采用第二语法知识库定位锚点词时需要将汉字形式的文本句转换为相应的拼音形式。
步骤402:将当前文本句中的前N个拼音作为当前N个拼音。
前面已经描述过,在本实施例中,采用的是二元语法模型或三元语法模型,因此,这里需要将当前文本句中的前二个拼音作为当前二个拼音、或者将当前文本句中的前三个拼音作为当前三个拼音。
步骤403~404:从第二语法知识库中获取当前N个拼音的N元语法值,并判断所述获取到的N元语法值是否大于阈值T1,如果是,执行步骤405;否则,执行步骤406。
在本步骤中,即可直接从创建好的第二语法知识库中获取当前二个拼音的二元语法值、或者当前三个拼音的三元语法值,进一步地还需判断所述获取到的二元语法值、或者三元语法值是否大于设定的阈值T1,如果大于,执行步骤405;否则,执行步骤406。
需要说明的是,T1为大于0小于1的实数,如果T1取值过小,则会出现获取很多错误的锚点词的情况,也即此时获取到的锚点词并非真正的锚点词;如果T取值过大,则会出现遗漏锚点词的情况。此外,对于二元语法值和三元语法值来说,T1的大小又有所不同,实验证明,对于二元语法值来说,T1=0.002是比较合理的;对于三元语法值来说,T1=0.0015是比较合理的。
步骤405:将当前N个拼音对应的词语作为锚点词。
如果获取到的二元语法值、或者三元语法值大于设定的T1,则将当前二个拼音所对应的词语、或者将当前三个拼音所对应的词语作为锚点词即可。
步骤406:判断当前N个拼音是否是当前文本句中的最后N个拼音,如果是,则结束锚点词的定位过程;否则,执行步骤407。
如果获取到的二元语法值、或者三元语法值不大于设定的T1,则需进一步判断当前二个拼音、或者当前三个拼音是否是当前文本句中的最后二个拼音、或者是最后三个拼音,如果是,则结束定位锚点词的过程;否则,执行步骤407。
步骤407:将当前N个拼音的下一个N个拼音作为当前N个拼音,并返回执行步骤403。
如果当前二个拼音不是当前文本句中的最后二个拼音、或者当前三个拼音不是当前文本句中的最后三个拼音,则需进一步地将当前二个拼音的下一个二个拼音作为当前二个拼音、或者将当前三个拼音的下一个三个拼音作为当前三个拼音,并返回执行步骤403。
至此,即完成了本发明采用第二语法知识库定位锚点词的整个过程。
采用本发明所创建的第二语义知识库定位锚点词的具体过程为:提取第二语义知识库中的所有核心词,并将所述提取到的所有核心词直接作为由步骤102得到的当前文本句中的锚点词。
通过这两种方法分别定位好锚点词之后,还需将通过这两种方法得到的锚点词进行合并,从而得到了本步骤中所需的由步骤102得到的当前文本句中的锚点词。
此外,还需进一步判断依据这两种方法是否能够成功定位到锚点词,如果成功定位到锚点词,则需执行步骤105;如果没有定位到锚点词,说明由步骤102得到的当前文本句是无法进行处理的,则需执行步骤117。
还需说明的是,在本实施例中,语音识别后文本中的每个文本句所对应的锚点词可能不止一个,也即在一个文本句中可能会存在多个锚点词,从而定位到的锚点词也就有多个。
步骤105:抽取所述定位到的每个锚点词所对应的实例。
在得到了当前文本句的锚点词之后,还需进一步抽取每个锚点词所对应的实例,下面对抽取实例的过程进行详细地描述。
图5即为本发明抽取实例的工作流程图。如图5所示,该流程包括以下步骤:
步骤501:获取由步骤103得到的每个锚点词所对应的实例。
在本实施例中,获取由步骤103得到的锚点词所对应的实例是通过查找语境知识库来实现的,同语法知识库和语义知识库一样,现有的语境知识库体现的是一种比较宽泛领域中的通用语境知识,而并没有限定特定领域,从而,获取锚点词所对应的实例在现有语境知识库中是无法进行的,也就需要重新创建新的语境知识库。同样地,为了描述方便,在本实施例中,将现有的语境知识库称为第一语境知识库,将本发明新创建的语境知识库称为第二语境知识库,下面对第二语境知识库的创建过程进行详细描述,创建的具体流程见图6,如图6所示,该流程包括以下步骤:
步骤601:选定某个特定领域。
同创建第二语法知识库和第二语义知识库一样,在创建第二语境知识库时,也需首先选定某个特定领域。
需要说明的是,这里的特定领域指的也是所述语音识别后文本中的文本句所属领域。
步骤602:搜索该特定领域对应的文本。
在选定好特定领域后,即可搜索该特定领域对应的文本,具体的搜索过程同样为现有技术,这里不再赘述。
步骤603:将由步骤602得到的文本中所有的文本句依据核心词进行分类。
该步骤的操作中用到了第二语义知识库的内容,即将由步骤602得到的文本中包含核心词的所有文本句提取出来,并按照所拥有的核心词的不同进行分类,将拥有相同核心词的文本句聚到一块,形成该核心词的一个实例的集合。
具体如何提取包含核心词的文本句为现有技术。
步骤604:计算所述提取出来的文本句中的核心词与该文本句中的其它词语的语境关联度。
将包含相同核心词的文本句聚到一块之后,还需进一步计算所述提取出来的文本句中的核心词与该文本句中其它词语的语境关联度,从而得到本发明所采用的语境知识库,具体的语境关联度的计算已为现有技术,这里不再对其进行赘述。
至此,即完成了本发明所采用的第二语境知识库的创建过程。从创建过程中可以看出,第二语境知识库中存储的是一些核心词、由包含核心词的文本句形成的实例、以及所述核心词与其实例中除该核心词之外的其它词语的语境关联度集合。
在创建好第二语境知识库之后,即可通过查找第二语境知识库获取每个锚点词所对应的实例,这里的锚点词也就是第二语境知识库中的核心词。
还需说明的是,在本实施例中,一个锚点词可能对应一个实例,也可能对应多个实例。
步骤502:分别计算每个实例与当前文本句的文本相关度。
在获取到每个锚点词所对应的实例后,还需要进一步计算每个实例与当前文本句的文本相关度,所述文本相关度Csen是按照如下公式计算得到的:
C sen = Σ i = 1 n C wordi ,
其中,所述n为当前文本句中词语的总个数,所述Cwordi为当前文本句中第i个词语与某一个实例中所有词语的词语相关度中的最大值,其具体的计算公式如下:
Figure G2009100924615D00162
其中,所述m为某一个实例中词语的总个数,所述wi为当前文本句中第i个词语,所述wj为所述某一个实例中第j个词语,所述wk为所述某一个实例中的锚点词,且当所述wi为当前文本句中锚点词之前的词语时,所述wj也应取所述wk之前的词语,当所述wi为当前文本句中锚点词之后的词语时,所述wj也应取所述wk之后的词语;所述SS(wi,wj)为所述wi与所述wj的语义相似度,所述CC(wj,wk)为所述wj与所述wk的语境关联度,且只有当某个SS(wi,wj)>T2时,才需考虑语境关联度,否则,CC(wj,wk)=0;所述T2为实数,且0<T2≤1,实验证明,当T2=0.8时可以得到较高的检错率和纠错率。
需要说明的是,语义相似度以及语境关联度的具体计算方式已为现有技术,这里不再赘述。
还需说明的是,在本步骤中由于采用了语义相似度,而语义相似度是第一语义知识库中的内容,也即在本步骤中用到了第一语义知识库。
步骤503:获取每个锚点词的所有实例中文本相关度最大的实例。
在得到了每个实例与当前文本句的文本相关度后,即可获取每个锚点词对应的所有实例中文本相关度最大的实例,并将获取到的实例作为该锚点词最终所需的实例。
本实施例是通过比较的方法来获取文本相关度最大的实例的,实际中也可以采用其他获取相关度最大的实例的方法,以并不影响本发明实施例的实现为准。
至此,即完成了本发明抽取实例方法的整个过程。
步骤106:对抽取后得到的所有实例进行预处理。
在得到了每个锚点词所对应的一个文本相关度最大的实例后,还需对所有锚点词对应的实例的集合进行预处理,这里所采用的预处理方法为:首先,对所有实例的集合进行去冗余操作,即对于由不同锚点词得到的相同的实例,只保其中的一个;然后,再将去冗余后剩余的实例按照文本相关度大小进行排序,在本实施例中,采用的是冒泡排序的方法,同样地,也可采用其他排序方法,以不影响本发明实施例的实现为准。
还需说明的是,在本实施例中,也可以先对得到的实例的集合按相关度大小进行排序,再对排序后的实例进行去除冗余的操作。
步骤107~108:根据预处理后的实例对当前文本句进行检错,并判断是否成功检错,如果是,执行步骤109;否则,执行步骤117。
在对实例的集合进行预处理之后,还需要根据所述预处理后的实例的集合对当前文本句进行检错,且在检错时是对当前文本句中的每一个词语分别进行检错的。图7即为本发明所采用的检错方法的工作流程图,如图7所示,该方法包括以下步骤:
步骤701:将由步骤102得到的当前文本句中的第一个词语作为当前词语。
本发明在对由步骤102得到的当前文本句进行检错时是对当前文本句中的每一个词语分别进行检错的,因此,需要将当前文本句中的第一个词语作为当前词语。
步骤702:将预处理后的实例集合中的第一个实例作为当前实例。
由于预处理后的实例集合是按照相关度大小由大到小进行排序的,在处理时需要首先对相关度最大的实例进行处理,也就需要将预处理后的实例集合中的第一个实例作为当前实例。
步骤703:计算当前词语与当前实例的词语相关度。
当前词语与当前实例的词语相关度的计算公式同计算文本相关度时的词语相关度的计算公式,这里不再赘述其具体的计算过程。
步骤704:判断所述计算出的词语相关度是否大于阈值T3,如果是,执行步骤707;否则,执行步骤705。
当计算出当前词语与当前实例的词语相关度之后,还需进一步判断所述计算出的词语相关度是否大于阈值T3,如果大于T3,执行步骤707;如果不大于T3,则执行步骤705。
需要说明的是,这里的T3为一实数,且0<T3≤2,通过实验证明,当T3=0.8时能够得到较佳的检错率。
步骤705:判断当前实例是否是预处理后的实例集合中的最后一个实例,如果是,执行步骤708;否则,执行步骤706。
如果计算出的当前词语与当前实例的词语相关度不大于T3,还需进一步判断当前实例是否是预处理后的实例集合中的最后一个实例,如果是,执行步骤708;如果不是最后一个实例,则执行步骤706。
步骤706:将当前实例的下一个实例作为当前实例,并返回执行步骤703。
如果当前实例不是预处理后的实例集合中的最后一个实例,则将当前实例的下一个实例作为当前实例,并返回执行步骤703。
步骤707:将当前词语作为正确词语。
如果计算出的当前词语与当前实例的词语相关度大于T3,则应将当前词语作为当前文本句中的正确词语。
步骤708:判断当前词语是否是当前文本句中的最后一个词语,如果是,执行步骤710;否则,执行步骤709。
如果当前实例是预处理后的实例集合中的最后一个实例,则需进一步判断当前词语是否是当前文本句中的最后一个词语,如果是最后一个词语,执行步骤710;如果不是最后一个词语,则执行步骤709。
步骤709:将当前词语的下一个词语作为当前词语,并返回执行步骤702。
如果当前词语不是当前文本句中的最后一个词语,则需将当前词语的下一个词语作为当前词语,并返回执行步骤702。
步骤710:将当前文本句中的正确词语以外的其它词语作为当前文本句中的错误词语。
如果当前词语是当前文本句中的最后一个词语,则将当前文本句中的正确词语以外的其它词语作为当前文本句中的错误词语。
至此,即得到了当前文本句中的错误词语,也即完成了本发明对当前文本句进行检错的整个过程。
如果成功检错,即成功得到当前文本句中的错误词语,即可对得到的错误词语进行纠错,即直接执行步骤112,如果为了得到更精确的检错结果,还需进一步执行步骤108;如果检错失败,即没有得到当前文本句中的错误词语,则执行步骤117。
需要说明的是,在本步骤中,由于用到了词语相关度的概念,而词语相关度是第一语义知识库中的内容,也就是说,步骤在对当前文本句进行检错时用到了第一语义知识库。
步骤109:将检错后得到的正确词语作为新的锚点词,再次抽取实例。
为了得到更加精确的检错结果,还需将第一次检错后得到的正确词语作为新的锚点词,并抽取新的锚点词所对应的实例,具体抽取实例过程同步骤105,也即仍然采用图5所示的抽取实例过程,这里不再对该过程进行赘述。
步骤110:将抽取出的所有实例与之前预处理后的所有实例的集合进行合并。
在抽取出新的锚点词对应的实例后,为了得到更高的检错纠错率,需要将所述抽取出的新的锚点词对应的实例与步骤306中的得到的预处理后的所有实例的集合进行合并。
步骤111:对合并后的所有实例进行预处理。
该步骤的具体操作同步骤106,这里不再赘述。
步骤112~113:根据预处理后的实例对当前文本句进行检错,并判断是否成功检错,如果是,执行步骤114;否则,执行步骤117。
该步骤的具体操作同步骤107~108,这里不再赘述。
步骤114~115:将检错后得到的错误词语进行纠错,并判断是否成功纠错,如果是,执行步骤116;否则,执行步骤117。
在得到当前文本句中的错误词语后,即可对所述得到的错误词语进行纠错处理,具体的纠错处理方法如图如8所示,该方法包括以下步骤:
步骤801:将错误词语中的第一个错误词语作为当前错误词语。
同检错过程一样,在对当前文本句进行纠错时,也是对当前文本句中的每个词语分别进行检错的。因此,需要将错误词语中的第一个错误词语作为当前错误词语。
步骤802:从第一语法知识库中获取第一个候选词语作为当前候选词语。
在将错误词语进行纠错时用到了第一语法知识库中的语音易混淆知识库,在该知识库中存储了错误词语可能被纠正为正确词语的一些候选词语,一般情况下,第一个候选词语很可能就是错误词语对应的正确词语,因此,需要将其中的第一个候选词语作为当前候选词语。
步骤803:将预处理后的实例中的第一个实例作为当前实例。
在确定好当前错误词语以及当前候选词语之后,还需确定一个当前实例,由于预处理后的实例已经按照文本相关度大小由大到小进行排序了,故这里首先选取了相关度最大的实例,也就需要将预处理后的实例中的第一个实例作为当前实例。
步骤804:判断所述当前候选词语与所述当前实例是否和谐,如果是,执行步骤809;否则,执行步骤807。
在选取好当前候选词语与当前实例后,需要判断所述当前候选词语是否与所述当前实例和谐,如果和谐,执行步骤809;如果不和谐,则执行步骤805。
需要说明的是,在本实施例中的和谐指的是所述当前候选词语是否出现在所述当前实例中,如果出现,即认为两者是和谐的,否则,两者就是不和谐的。实际中还可以其它的指标来定义和谐的概念,以不影响本发明实施例的实现为准。
步骤805:判断所述当前实例是否是预处理后的实例中的最后一个实例,如果是,执行步骤806;否则,执行步骤808。
如果当前候选词语与当前实例不和谐,则还需进一步判断所述当前实例是否是预处理后的实例中的最后一个实例,如果是最后一个实例,执行步骤860;如果当前实例不是最后一个实例,则执行步骤808。
步骤806:判断所述当前候选词语是否是第一语法知识库中的最后一个候选词语,如果是,执行步骤811;否则,执行步骤807。
如果当前实例不是预处理后的实例中的最后一个实例,还需进一步判断所述当前候选词语是否是第一语法知识库中的最后一个候选词语,如果当前候选词语是最后一个候选词语,执行步骤811;如果当前候选词语不是最后一个候选词语,则执行步骤807。
步骤807:将当前候选词语的下一个候选词语作为当前候选词语,并返回执行步骤803。
如果当前候选词语不是第一语法知识库中的最后一个候选词语,则将当前候选词语的下一个候选词语作为当前候选词语,并返回执行步骤803。
步骤808:将所述当前实例的下一个实例作为当前实例,并返回执行步骤804。
如果当前实例不是预处理后的实例中的最后一个实例,则将当前实例的下一个实例作为当前实例,并返回执行步骤804。
步骤809:将当前错误词语替换为所述当前候选词语。
如果当前候选词语与当前实例和谐,即所述当前候选词语在所述当前实例中出现,则将当前错误词语替换为所述当前候选词语。
步骤810:判断当前错误词语是否是错误词语中的最后一个错误词语,如果是,则结束纠错过程;否则,执行步骤811。
将当前错误词语被替换为所述当前候选词语之后,还需进一步判断所述当前错误词语是否是当前文本句中的最后一个错误词语,如果是最后一个错误词语,则结束纠错流程;如果不是最后一个错误词语,则执行步骤811。
步骤811:将当前错误词语的下一个错误词语作为当前错误词语,并返回执行步骤802。
如果当前错误词语不是当前文本句中的最后一个错误词语,则需将当前错误词语的下一个错误词语作为当前错误词语,并返回执行步骤802。
至此,即完成了对当前文本句中的错误词语进行纠错的整个过程,也即完成了本发明所采用的纠错方法的整个过程。
如果找到适合于错误词语的候选词语,说明成功纠错,即执行步骤116;如果没有找到适合于错误词语的候选词语,则说明纠错失败,即执行步骤117。
步骤116:输出纠错后的语音识别后文本句。
将当前文本句中的错误词语纠错完毕后,即可将纠错后得到的正确的语音识别后文本句进行输出。
步骤117:判断当前文本句是否是语音识别后文本中的最后一个文本句,如果是,则结束;否则,执行步骤118。
得到了纠错后的当前文本句后,还需进一步判断当前文本句是否是语音识别后文本中的最后一个文本句,如果是最后一个文本句,则结束;如果当前文本句不是最后一个文本句,则需执行步骤118。
步骤118:将当前文本句的下一个文本句作为当前文本句,再返回执行步骤102。
如果纠错后输出的当前文本句不是语音识别文本正的最后一个文本句,需要将当前文本句的下一个文本句作为当前文本句,再返回执行步骤102及其之后的步骤,直至语音识别文本中的最后一个文本句被处理完毕。
至此,即完成了本发明对语音识别后文本进行检错并纠错的整个工作流程。
总之,本发明所采用的检错并纠错语音识别后文本的方法,是分别对语音识别后文本中的每一个文本句进行检错、并对检错后文本句中的错误词语进行纠错的,在对文本句进行检错前,首先分别创建适用于特定领域的第二语法知识库、第二语义知识库和第二语境知识库,然后根据所述第二语法知识库和所述第二语义知识库定位文本句中的锚点词,并根据所述第二语境知识库抽取所述定位的锚点词的实例,再根据第一语义知识库和所述抽取的实例对文本句进行检错,最后根据第一语法知识库和所述抽取的实例对检错后得到的错误词语进行纠错。由于该方法中所采用的第二语法知识库、第二语义知识库和第二语境知识库都是针对所述语音识别后文本中的文本句所属领域创建的,而且通过上述创建的特定领域的第二语法知识库和第二语义知识库来获取锚点词,也就使得获取的锚点词是特定领域下的,并通过该特定领域下的锚点词来获取实例,进一步地,通过实例来计算其与所述语音识别后文本中中的文本句的文本相关度,也就使得在对文本句进行检错纠错时充分结合了文本句所属领域下的语法、语义以及语境知识,能够对语音识别后文本进行准确的检错并纠错,从而提高语音识别率、实现人类与机器的自由交流。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种对语音识别后文本进行检错并纠错的方法,用于对语音识别后文本中的文本句进行检错,并对检错后文本句中的错误词语进行纠错,其特征在于,该方法包括:
按照所述语音识别后文本中的文本句所属领域,分别创建包含有N元语法值集合的第二语法知识库,包含有核心词集合的第二语义知识库,以及第二语境知识库,其中,第二语境知识库包含有核心词、由包含核心词的文本句形成的实例、以及所述核心词与其实例中除该核心词之外的其它词语的语境关联度集合;并且,所述第二语法知识库独立于包含有通用语法知识的第一语法知识库,所述第二语义知识库独立于包含有通用语义知识的第一语义知识库;
将所述语音识别后文本中的文本句转换成拼音形式的文本句,从所述第二语法知识库中获取所述拼音形式的文本句的N元语法值,将N元语法值大于阈值T1的N个拼音对应的词语和所述第二语义知识库中的核心词的并集作为所述语音识别后文本中的文本句的锚点词,其中,所述N为自然数;
查找所述第二语境知识库,获取每个锚点词对应的实例;基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的每个词语与每个所述获取的实例中所有词语的词语相关度,并根据所述词语相关度计算所述获取的实例与所述语音识别后文本中的文本句的文本相关度,获取每个锚点词对应的实例中文本相关度最大的实例;
基于第二语境知识库中的语境关联度和第一语义知识库中的语义相似度,计算所述语音识别后文本中的文本句中的词语与所述获取的每个锚点词对应的实例中文本相关度最大的实例的词语相关度,如果所述词语相关度大于阈值T3,则将所述词语作为正确词语,将所述语音识别后文本中的文本句中正确词语以外的其它词语作为错误词语;
从第一语法知识库中获取候选词语,如果所述候选词语与所述获取的文本相关度最大的实例和谐,则使用所述候选词语替换所述错误词语,
其中,所述创建第二语义知识库包括:
搜索所述语音识别后文本中的文本句所属领域中的文本,并设定所述语音识别后文本中的文本句所属领域中的语境词为种子词库,分别计算所述搜索到的文本中的文本句与所述语境词共同出现在同一个文本句中的频数,将频数最高的前三位词语加入到种子词库中,得到新种子词库,
基于新种子词库对所述搜索到的文本进行卡方检验,将卡方检验后得到的所述搜索到的文本中每个词语的总卡方值大小进行排序,从所述排序后的词语中取出卡方值大于某一阈值的词语作为核心词,得到所述第二语义知识库,所述阈值的大小由所需选取的核心词数量来确定。
2.如权利要求1所述的方法,其特征在于,所述创建第二语法知识库包括:
搜索所述语音识别后文本中的文本句所属领域中的文本,将所述搜索到的文本中所有的文本句转换成拼音形式的文本句,建立所述拼音形式的文本句的N元语法模型,将得到的N元语法模型进行平滑处理,得到所述第二语法知识库。
3.如权利要求1所述的方法,其特征在于,所述创建第二语境知识库包括:
搜索所述语音识别后文本中的文本句所属领域中的文本,基于所述第二语义知识库中的核心词对所述搜索到的文本中的文本句进行分类,计算所述核心词与其实例中除该核心词之外的其它词语的语境关联度,得到所述第二语境知识库。
4.如权利要求2所述的方法,其特征在于,所述N元语法值大于某个阈值T1中的T1为大于0小于1的实数。
5.如权利要求3所述的方法,其特征在于,所述文本相关度是按照如下公式计算得到的:
C sen = Σ i = 1 n C wordi ,
其中,所述n为所述语音识别后文本中文本句中词语的总个数,所述Cwordi为所述语音识别后文本中文本句中第i个词语与所述获取的实例中所有词语的词语相关度中的最大值,其具体的计算公式如下:
Figure FSB00000193671000031
其中,所述m为所述获取的实例中词语的总个数,所述wi为所述语音识别后文本中文本句中第i个词语,所述wj为所述获取的实例中第j个词语,所述wk为所述获取的实例中的锚点词,且,
当所述wi为所述语音识别后文本中文本句中锚点词之前的词语时,所述wj为所述wk之前的词语,
当所述wi为所述语音识别后文本中文本句中锚点词之后的词语时,所述wj为所述wk之后的词语;
所述SS(wi,wj)为wi与wj的语义相似度,所述CC(wj,wk)为wj与所述wk的语境关联度,所述T2为实数,且0<T2≤1。
6.如权利要求5所述的方法,其特征在于,所述阈值T3为大于0小于等于2的实数。
7.如权利要求6所述的方法,其特征在于,所述候选词语与所述获取的某个文本相关度最大的实例和谐为,判断所述候选词语是否存在于所述获取的某个文本相关度最大的实例中。
8.如权利要求1所述的方法,其特征在于,所述语音识别后文本中的文本句中正确词语以外的其它词语作为错误词语还包括:
将所述正确词语作为新的锚点词,查找所述第二语境知识库,获取每个新的锚点词对应的实例,计算所述获取的每个新的锚点词对应的实例与所述语音识别后文本中的文本句的文本相关度,获取每个新的锚点词对应的实例中文本相关度最大的实例;
基于第一语义知识库,计算所述语音识别后文本中的文本句中的词语与所述获取的每个锚点词对应的实例中文本相关度最大的实例、以及与所述获取的每个新的锚点词对应的实例中文本相关度最大的实例的词语相关度,如果所述词语相关度大于某个设定的阈值,则将所述词语作为正确词语,将所述语音识别后文本中的文本句中正确词语以外的其它词语作为错误词语。
9.如权利要求8所述的方法,其特征在于,所述从第一语法知识库中获取候选词语,如果所述候选词语与所述获取的某个文本相关度最大的实例和谐,使用所述候选词语替换所述错误词语包括:
从所述第一语法知识库中获取候选词语,如果所述候选词语与所述获取的每个锚点词对应的实例或者与所述获取的每个新的锚点词对应的实例和谐,则使用所述候选词语替换所述错误词语。
CN2009100924615A 2009-09-08 2009-09-08 一种对语音识别后文本进行检错并纠错的方法 Active CN101655837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100924615A CN101655837B (zh) 2009-09-08 2009-09-08 一种对语音识别后文本进行检错并纠错的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100924615A CN101655837B (zh) 2009-09-08 2009-09-08 一种对语音识别后文本进行检错并纠错的方法

Publications (2)

Publication Number Publication Date
CN101655837A CN101655837A (zh) 2010-02-24
CN101655837B true CN101655837B (zh) 2010-10-13

Family

ID=41710130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100924615A Active CN101655837B (zh) 2009-09-08 2009-09-08 一种对语音识别后文本进行检错并纠错的方法

Country Status (1)

Country Link
CN (1) CN101655837B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678271A (zh) * 2012-09-10 2014-03-26 华为技术有限公司 一种文本校正方法及用户设备

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103140889B (zh) * 2010-09-29 2015-01-07 Nec卡西欧移动通信株式会社 语音转换装置、便携电话终端、语音转换方法
CN102456344B (zh) * 2010-10-22 2014-12-10 中国电信股份有限公司 基于语音识别技术分析客户行为特征的系统及方法
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
US8515751B2 (en) * 2011-09-28 2013-08-20 Google Inc. Selective feedback for text recognition systems
KR101522522B1 (ko) * 2011-10-26 2015-05-27 에스케이텔레콤 주식회사 작문 자동 평가를 위한 예제 기반 오류 검출 시스템 및 방법
US9122673B2 (en) * 2012-03-07 2015-09-01 International Business Machines Corporation Domain specific natural language normalization
CN102833633B (zh) * 2012-09-04 2016-01-20 深圳创维-Rgb电子有限公司 一种电视机语音控制系统及方法
CN103699530A (zh) * 2012-09-27 2014-04-02 百度在线网络技术(北京)有限公司 根据语音输入信息在目标应用中输入文本的方法与设备
CN103853702B (zh) * 2012-12-06 2016-08-17 富士通株式会社 校正语料中的成语错误的装置和方法
KR101364774B1 (ko) * 2012-12-07 2014-02-20 포항공과대학교 산학협력단 음성 인식의 오류 수정 방법 및 장치
CN104238991B (zh) 2013-06-21 2018-05-25 腾讯科技(深圳)有限公司 语音输入匹配方法及装置
CN103593454A (zh) * 2013-11-21 2014-02-19 中国科学院深圳先进技术研究院 面向微博文本分类的挖掘方法及系统
US9721564B2 (en) * 2014-07-31 2017-08-01 Rovi Guides, Inc. Systems and methods for performing ASR in the presence of heterographs
CN105374356B (zh) * 2014-08-29 2019-07-30 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN104217039B (zh) * 2014-10-10 2017-12-29 浙江完美在线网络科技有限公司 一种将电话对话实时记录并转化陈述句的方法和系统
EP3089159B1 (en) * 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
CN105096953B (zh) * 2015-08-11 2019-03-12 东莞市凡豆信息科技有限公司 实现多语种混合使用的语音识别方法
CN105279149A (zh) * 2015-10-21 2016-01-27 上海应用技术学院 一种中文文本自动校正方法
CN105302795B (zh) * 2015-11-11 2018-03-20 河海大学 基于汉语模糊发音和语音识别的中文文本校验系统及方法
CN107092605B (zh) * 2016-02-18 2019-12-31 北大方正集团有限公司 一种实体链接方法及装置
CN107193389A (zh) * 2016-03-14 2017-09-22 中兴通讯股份有限公司 一种实现输入的方法和装置
CN107229627B (zh) * 2016-03-24 2020-12-22 华为技术有限公司 一种文本处理方法、装置及计算设备
CN105869642B (zh) * 2016-03-25 2019-09-20 海信集团有限公司 一种语音文本的纠错方法及装置
CN105869634B (zh) * 2016-03-31 2019-11-19 重庆大学 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN107305768B (zh) * 2016-04-20 2020-06-12 上海交通大学 语音交互中的易错字校准方法
CN106297797B (zh) * 2016-07-26 2019-05-31 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
CN106328145B (zh) * 2016-08-19 2019-10-11 北京云知声信息技术有限公司 语音修正方法及装置
JP6597527B2 (ja) * 2016-09-06 2019-10-30 トヨタ自動車株式会社 音声認識装置および音声認識方法
CN106484660A (zh) * 2016-10-21 2017-03-08 合网络技术(北京)有限公司 标题处理方法和装置
CN106534548B (zh) * 2016-11-17 2020-06-12 科大讯飞股份有限公司 语音纠错方法和装置
CN108121455B (zh) * 2016-11-29 2021-10-26 百度在线网络技术(北京)有限公司 识别纠正方法及装置
CN106710592B (zh) * 2016-12-29 2021-05-18 北京奇虎科技有限公司 一种智能硬件设备中的语音识别纠错方法和装置
CN106847288B (zh) * 2017-02-17 2020-12-25 上海创米科技有限公司 语音识别文本的纠错方法与装置
CN106782560B (zh) * 2017-03-06 2020-06-16 海信集团有限公司 确定目标识别文本的方法及装置
CN107423317A (zh) * 2017-03-26 2017-12-01 北京联合大学 一种基于首字母序列的中文文本校对方法
CN107273359A (zh) * 2017-06-20 2017-10-20 北京四海心通科技有限公司 一种文本相似度确定方法
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统
CN107741928B (zh) * 2017-10-13 2021-01-26 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法
CN107844481B (zh) * 2017-11-21 2019-09-13 新疆科大讯飞信息科技有限责任公司 识别文本检错方法及装置
CN108255956B (zh) * 2017-12-21 2020-04-03 北京声智科技有限公司 基于历史数据及机器学习自适应获取词库领域的方法及系统
CN108509416B (zh) * 2018-03-20 2022-10-11 京东方科技集团股份有限公司 句意识别方法及装置、设备和存储介质
CN108647346B (zh) * 2018-05-15 2021-10-29 苏州东巍网络科技有限公司 一种用于可穿戴电子设备的老年人语音交互方法和系统
CN109102824B (zh) * 2018-07-06 2021-04-09 北京比特智学科技有限公司 基于人机交互的语音纠错方法和装置
CN109243433B (zh) * 2018-11-06 2021-07-09 北京百度网讯科技有限公司 语音识别方法和装置
CN109473093B (zh) * 2018-12-13 2023-08-04 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN109711412A (zh) * 2018-12-27 2019-05-03 信雅达系统工程股份有限公司 一种基于字典的光学字符识别纠错方法
CN109858005B (zh) * 2019-03-07 2024-01-12 百度在线网络技术(北京)有限公司 基于语音识别的文档更新方法、装置、设备及存储介质
CN109922371B (zh) * 2019-03-11 2021-07-09 海信视像科技股份有限公司 自然语言处理方法、设备及存储介质
CN110532522A (zh) * 2019-08-22 2019-12-03 深圳追一科技有限公司 音频标注的检错方法、装置、计算机设备和存储介质
CN113095072A (zh) * 2019-12-23 2021-07-09 华为技术有限公司 文本处理方法及装置
CN111613214A (zh) * 2020-05-21 2020-09-01 重庆农村商业银行股份有限公司 一种用于提升语音识别能力的语言模型纠错方法
CN111626049B (zh) * 2020-05-27 2022-12-16 深圳市雅阅科技有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN112016305B (zh) * 2020-09-09 2023-03-28 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN113157819A (zh) * 2021-03-25 2021-07-23 东南大学 基于规则挖掘的实例匹配方法
CN113535900A (zh) * 2021-07-08 2021-10-22 李刚 目标信息提取方法、电子设备及计算机可读存储介质
CN113948065B (zh) * 2021-09-01 2022-07-08 北京数美时代科技有限公司 基于n-gram模型的错误拦截词筛选方法及系统
CN114564942B (zh) * 2021-09-06 2023-07-18 北京数美时代科技有限公司 一种用于监管领域的文本纠错方法、存储介质和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678271A (zh) * 2012-09-10 2014-03-26 华为技术有限公司 一种文本校正方法及用户设备
CN103678271B (zh) * 2012-09-10 2016-09-14 华为技术有限公司 一种文本校正方法及用户设备

Also Published As

Publication number Publication date
CN101655837A (zh) 2010-02-24

Similar Documents

Publication Publication Date Title
CN101655837B (zh) 一种对语音识别后文本进行检错并纠错的方法
CN109344250B (zh) 基于医保数据的单病种诊断信息快速结构化方法
CN1159661C (zh) 用于中文的标记和命名实体识别的系统
CN105244029B (zh) 语音识别后处理方法及系统
CN105718586B (zh) 分词的方法及装置
CN103324609B (zh) 文本校对装置和文本校对方法
CN102214166B (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN112016304A (zh) 文本纠错方法、装置、电子设备及存储介质
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN106777275A (zh) 基于多粒度语义块的实体属性和属性值提取方法
CN109446885B (zh) 一种基于文本的元器件识别方法、系统、装置和存储介质
CN110866399B (zh) 一种基于增强字符向量的中文短文本实体识别与消歧方法
US20120030157A1 (en) Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
CN105869642A (zh) 一种语音文本的纠错方法及装置
CN104756100A (zh) 意图估计装置以及意图估计方法
CN103440252B (zh) 一种中文句子中并列信息提取方法及装置
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN111460793A (zh) 纠错方法、装置、设备及存储介质
CN111159332A (zh) 一种基于bert的文本多意图识别方法
CN109086266A (zh) 一种文本形近字的检错与校对方法
CN112101032A (zh) 一种基于自蒸馏的命名实体识别与纠错方法
CN104317882A (zh) 一种决策级中文分词融合方法
KR101072460B1 (ko) 한국어 형태소 분석 방법
CN107797986A (zh) 一种基于lstm‑cnn的混合语料分词方法
CN107368466A (zh) 一种面向初等数学领域的命名识别方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant