CN103970765A

CN103970765A - 一种改错模型训练方法、装置和文本改错方法、装置

Info

Publication number: CN103970765A
Application number: CN201310033697.8A
Authority: CN
Inventors: 李露; 程强; 饶丰; 卢鲤; 张翔; 岳帅; 陈波; 陆读羚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-01-29
Filing date: 2013-01-29
Publication date: 2014-08-06
Anticipated expiration: 2033-01-29
Also published as: CN103970765B; WO2014117549A1

Abstract

本发明公开了一种改错模型训练方法、装置和文本改错方法、装置。该方法包括：搜索正确字符串在训练文本集中的上下文信息，以所述上下文信息作为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串；搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串；根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则，根据对改错规则的测试结果建立改错模型。应用本发明能够提供一种利用其进行文本改错时具备较高错误召回率和改错准确性的改错模型，提高文本改错的错误召回率和改错的准确性。

Description

一种改错模型训练方法、装置和文本改错方法、装置

技术领域

本申请涉及信息处理技术领域，尤其涉及一种改错模型训练方法、装置和文本改错方法、装置。

背景技术

人们日常工作和生活中用到的文本常常会带有错别字、拼写错误的词等错误字符串，如何识别并改正文本中的错误字符串，是当前信息处理技术领域需要解决的一个技术问题。

目前，存在一种根据语言规则进行文本改错的方案。

具体地，在该方案中，预先总结出目标语言（即目标文件所采用的语言）的词语搭配规则、词语拼写规则等语言规则，例如，当目标语言为汉语时，预先总结出汉语的词语搭配规则等，然后根据预先总结出的语言规则对待处理文本进行评测，从而判断待处理文本是否符合预先总结出的语言规则，当评测结果显示待处理文本与预先总结出的语言规则的符合程度不满足预定要求时，根据预先总结出的语言规则对待处理文本进行改错处理。

可见，目前基于语言规则进行文本改错方案，不仅需要大量具备深厚语言背景的工作人员总结大量的语言规则，而且，由于语言本身结构复杂，要总结出语言规则并非易事，并且总结出的不同的语言规则之间还常常会相互冲突，因此，基于语言规则进行文本改错的方案的错误召回率较低，改错的准确性也较低。

发明内容

本申请提供了一种改错模型训练方法、装置和文本改错方法、装置，能够提供一种利用其进行文本改错时具备较高错误召回率和改错准确性的改错模型，提高文本改错的错误召回率和改错的准确性。

一种改错模型的训练方法，该方法包括：

搜索正确字符串在训练文本集中的上下文信息，以所述上下文信息作为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串；

搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串；

根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则，根据对改错规则的测试结果建立改错模型。

一种改错模型的训练装置，该装置包括有效上下文搜集模块、相似串查找模块和模型建立模块；

所述有效上下文搜索模块，用于搜索正确字符串在训练文本集中的上下文信息，以所述上下文信息作为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串；

所述相似串查找模块，用于搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串；

所述模型建立模块，用于根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则，根据对改错规则的测试结果建立改错模型。

一种文本改错方法，该方法包括：

根据改错模型中存储的改错规则，从待处理文本中搜索错误字符串，根据所述改错规则对所述错误字符串进行改错处理；

其中，所述改错模型通过如下步骤建立得到：

根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则，根据对改错规则的测试结果建立所述改错模型。

一种文本改错装置，该装置包括改错模型模块和改错处理模块；

所述改错模型模块，用于存储改错规则，且所述改错模型模块通过如下步骤训练得到：搜索正确字符串在训练文本集中的上下文信息，以所述上下文信息作为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串；搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串；根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则，根据对改错规则的测试结果建立所述改错模型；

所述改错处理模块，用于根据改错模型中存储的改错规则，从待处理文本中搜索错误字符串，根据所述改错规则对所述错误字符串进行改错处理。

一种文本改错方法，该方法包括：

预先以正确字符串的上下文信息作为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串；

搜索待处理文本中具有所述有效上下文信息的待处理字符串，判断所述待处理字符串与和所述待处理字符串具有相同有效上下文信息的正确字符串的相似性是否满足预定要求；

在所述相似性满足预定要求时，将所述待处理字符串替换成所述正确字符串，或者将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息。

一种文本改错装置，该装置包括存储模块、相似串搜索模块和改错模块；

所述存储模块，用于预先以正确字符串的上下文信息作为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串；

所述相似串搜索模块，用于搜索待处理文本中具有所述有效上下文信息的待处理字符串，判断所述待处理字符串与和所述待处理字符串具有相同有效上下文信息的正确字符串的相似性是否满足预定要求；

所述改错模块，用于在所述相似性满足预定要求时，将所述待处理字符串替换成所述正确字符串，或者将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息。

由上述技术方案可见，本发明根据字符串的上下文信息进行改错处理，通过对具有相同上下文信息的正确字符串和待处理字符串进行相似性分析，可以识别出在某些上下文语境中容易出现的错误字符串，从而能够将在某些上下文语境下容易出现的错误字符串替换为相应的正确字符串。由于错别字、拼写错误等错误字符串常常伴随着一定的上下文语境共同出现，因此，本发明具有较高的错误召回率和改错准确性。

附图说明

图1是本发明提供的改错模型的训练方法第一流程图。

图2是本发明提供的改错模型的训练方法第二流程图。

图3是本发明提供的改错模型的训练装置结构图。

图4是本发明提供的利用改错模型进行文本改错的方法流程图。

图5是本发明提供的利用改错模型进行文本改错的文本改错装置结构图。

图6是本发明提供的另一文本改错方法的流程图。

图7是本发明提供的另一文本改错装置的结构图。

具体实施方式

本发明根据字符串的上下文信息进行改错处理。具体通过对具有相同上下文信息的正确字符串和待处理字符串进行相似性分析，识别在某些上下文语境中容易出现的错误字符串，将在某些上下文语境下出现的错误字符串替换为相应的正确字符串。

在具体实现本发明时，可以预先根据字符串的上下文信息以及字符串之间的相似性建立改错模型，在对待处理文本的实际改错过程中，直接根据改错模型中的改错规则进行改错处理。也可以在对待处理文本的实际改错过程中，根据字符串的上下文信息以及字符串之间的相似性识别出错误字符串，将所述错误字符串替换为相应的正确字符串。

图1是本发明提供的改错模型的训练方法第一流程图。

如图1所示，该第一流程包括：

步骤101，搜索正确字符串在训练文本集中的上下文信息，以所述上下文信息作为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串。

步骤102，搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串。

步骤103，根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则，根据对改错规则的测试结果建立改错模型。

其中，所述的训练文本集可以包括第一文本集、第二文本集和第三文本集，图1所示的训练方法还可以进一步细化，具体请参加图2所示流程。

图2是本发明提供的改错模型的训练方法第二流程图。

如图2所示，该方法包括：

步骤201，根据预定规则，搜索预设的正确字符串在第一文本集中的上下文信息。

本步骤中，一般以预设词典中的词作为正确字符串，当然，本发明也不排除采用其他方法确定正确字符串。其中，预设词典中的词可以是由多个字组成的词语或短语，也可以是单个字。

步骤202，以所述上下文信息为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串。

本步骤中，还可以存储每个正确字符串对应的所有有效上下文信息，从而便于在需要时查找指定的正确字符串对应的所有有效上下文信息。

步骤203，从第二文本集搜索待处理字符串。

本步骤中，为了限定待处理字符串的范围，从而提高改错模型的建立速度，可以根据所述预定词典中的词的长度范围，从训练文本集中搜索所述长度范围内的待处理字符串。

步骤204，确定待处理字符串在所述第二文本集中的上下文信息是否包括有效上下文信息。

本步骤中，可以根据所述预定规则，从训练文本集搜索待处理字符串的上下文信息，根据待处理字符串的上下文与有效上下文相互之间的匹配效果判断待处理字符串的上下文信息是否为所述有效上下文信息。

其中，本发明对匹配待处理字符串的上下文与有效上下文之间的具体方法不做限定，例如，可以利用字符匹配算法直接将待处理字符串的上下文和有效上下文进行匹配，也可以将待处理字符串的上下文和有效上下文转换成其他等效信息后再进行匹配。

步骤205，当待处理字符串在所述第二文本集中的上下文信息包括有效上下文信息时，判断所述待处理字符串与该有效上下文信息对应的正确字符串的相似性是否满足预定要求。

本步骤中，通过判断具有相同的有效上下文信息的待处理字符串与正确字符串之间的相似性是否满足预定要求来查找相似串，具有相同的有效上下文信息、且相互之间的相似性满足预定要求的待处理字符串与正确字符串互为彼此的相似串。

在判断具有相同的有效上下文信息的待处理字符串与正确字符串之间的相似性是否满足预定要求时，可以根据待处理字符串和正确字符串的读音进行判断，也可以根据待处理字符串和正确字符串的字形来判断，如果读音相似、或者字形相似，则所述待处理字符串和所述正确字符串互为彼此的相似串。

具体地，对于具有相同有效上下文信息的待处理字符串和正确字符串，根据读音词典，判断所述待处理字符串的读音与所述正确字符串的读音的相似性是否满足预定要求，如果是，则所述待处理字符串和所述正确字符串互为相似串。

或者，对于具有相同有效上下文信息的待处理字符串和正确字符串，根据字形词典，判断所述待处理字符串的字形与所述正确字符串的字形的相似性是否满足预定要求，如果是，则所述待处理字符串和所述正确字符串互为相似串。

步骤206，根据彼此的相似性满足预定要求的待处理字符串和正确字符串、以及所述待处理字符串和所述正确字符串共同的有效上下文信息，生成待测试的改错规则。

其中，对于每一对具有相同有效上下文信息、且彼此的相似性满足预定要求的待处理字符串和正确字符串，所述待测试的改错规则包括：用于将彼此的相似性满足预定要求的待处理字符串替换成正确字符串的第一改错规则，和/或，用于将待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息的第二改错规则。

换言之，对于每一对具有相同有效上下文信息、且彼此的相似性满足预定要求的待处理字符串和正确字符串，都具有一条第一改错规则和一条以上的第二改错规则，其中，当所述待处理字符串和所述正确字符串具有两个以上的相同有效上下文信息时，所述待处理字符串和所述正确字符串及其各个共同具有的有效上下文信息分别组成不同的第二改错规则。

比如，正确字符串B在第一文本集中具有有效上下文C和D，待处理字符串A在第二文本集中也具有有效上下文C和D，且待处理字符串A和正确字符串B的相似性满足预定要求，则待处理字符串A和正确字符串B对应的改错规则包括：将待处理字符串A替换成正确字符串B；将待处理字符串A连同其上下文C共同替换成正确字符串B连同其上下文C；将待处理字符串A连同其上下文D共同替换成正确字符串B连同其上下文D。

步骤207，利用所述待测试的改错规则对第三文本集进行改错处理，根据对改错处理结果的评估信息建立改错模型，所述改错模型包括其改错处理结果的评估信息满足预定条件的改错规则。

本步骤中，对于步骤205中查找出的每一对具有相同的有效上下文信息、且彼此的相似性满足预定要求的待处理字符串和正确字符串，可以先依据所述第一改错规则将训练文本集中的所述待处理字符串替换成所述正确字符串得到第一替换结果，判断对第一替换结果的评估结果是否满足预定条件，如果是，则对所述第一改错规则予以通过，如果否，丢弃所述第一改错规则，并依据所述第二改错规则，将第三文本集中的所述待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息，从而得到第二替换结果，判断对第二替换结果的评估结果是否满足预定条件，如果是，则对所述第二改错规则予以通过，否则，丢弃所述第二改错规则；所述改错模型包括所述予以通过的改错规则。所建立的改错模型包括所述予以通过的改错规则。其中，对于步骤205中查找出的每一对具有相同的有效上下文信息、且彼此的相似性满足预定要求的待处理字符串和正确字符串，如果该对待处理字符串和正确字符串所对应的第一改错规则能够评估通过，则一般不需要再评估该对待处理字符串和正确字符串对应的其他改错规则。

其中，对替换结果进行评估的具体方法本发明不做限定，例如可以根据语言规则、预先建立的语言模型等对替换结果进行评估，也可以人工对替换结果进行评估。

本发明中，字符串的上下文信息通常包括位于所述字符串之前的信息（简称串前上下文信息）和位于所述字符串之后的信息（简称串后上下文信息），也可以只包括串前上下文信息或只包括串后上下文信息。

对于任意目标字符串（例如该目标字符串是某一正确字符串，或者是某一待处理字符串），确定该目标字符串的上下文信息的方法可以有多种。例如：可以将目标字符串之前和/或之后预定长度的字符串确定为所述目标字符串的上下文信息；或者，根据词典搜索目标字符串之前和/或之后出现的预定数个词，将所述预定数个词确定为所述目标字符串的上下文信息；或者，根据目标字符串的语义特征，根据预定的语言规则为所述目标字符串选取上下文信息。上述确定目标字符串的上下文信息的各种方法可以分别单独使用，也可以在不相互矛盾的前提下相互组合使用。

关于图2所示方法所用到的文本集，所述第一文本集、所述第二文本集和所述第三文本集可以是同一个文本集，其中包含了一定比例的错误字符串，但是大部分都是正确字符串；或者，所述第一文本集可以是与所述第二文本集和所述第三文本集不同的文本集，所述第一文本集中文本的正确率高于所述第二文本集中文本的正确率，也高于所述第三文本集中文本的正确率，所述第二文本集和所述第三文本集可以是相同或不同的文本集。图2所示方法所用到的文本集的预料资源越丰富、涵盖范围越广，则建立的改错模型的改错效果越好。

图3是本发明提供的改错模型的训练装置结构图。

如图3所示，该装置包括有效上下文搜集模块301、相似串查找模块302和模型建立模块303。

有效上下文搜索模块301，用于搜索正确字符串在训练文本集中的上下文信息，以所述上下文信息作为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串。

相似串查找模块302，用于搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串。

模型建立模块303，用于根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则，根据对改错规则的测试结果建立改错模型。

有效上下文搜集模块301，可以用于根据预定规则，搜索预设的正确字符串在第一文本集中的上下文信息，以所述上下文信息为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串。

相似串查找模块302，可以用于从第二文本集搜索待处理字符串，确定待处理字符串在所述第二文本集中的上下文信息是否包括有效上下文信息，在包括有效上下文信息时，判断所述待处理字符串与该有效上下文信息对应的正确字符串的相似性是否满足预定要求。

模型建立模块303，可以用于根据彼此的相似性满足预定要求的待处理字符串和正确字符串、以及所述待处理字符串和所述正确字符串共同的有效上下文信息，生成待测试的改错规则，利用所述待测试的改错规则对第三文本集进行改错处理，根据对改错处理结果的评估信息建立改错模型，所述改错模型包括其改错处理结果的评估信息满足预定条件的改错规则。

所述待测试的改错规则包括：用于将彼此的相似性满足预定要求的待处理字符串替换成正确字符串的第一改错规则，和/或，用于将待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息的第二改错规则。

其中，述预设的正确字符串可以包括预设词典中的词。

相似串查找模块302，可以用于根据所述预定词典中的词的长度范围，从训练文本集中搜索所述长度范围内的待处理字符串。

相似串查找模块302，可以用于根据所述预定规则，从训练文本集搜索待处理字符串的上下文信息，根据待处理字符串的上下文与有效上下文相互之间的匹配效果判断待处理字符串的上下文信息是否为所述有效上下文信息。

所述上下文信息包括串前上下文信息和/或串后上下文信息。

用于搜索上下文信息的所述预定规则可以包括：将目标字符串之前和/或之后预定长度的字符串确定为所述目标字符串的上下文信息；或者，根据词典搜索目标字符串之前和/或之后出现的预定数个词，将所述预定数个词确定为所述目标字符串的上下文信息；或者，根据目标字符串的语义特征，根据预定的语言规则为所述目标字符串选取上下文信息。

相似串查找模块302，可以用于根据读音词典，判断所述待处理字符串的读音与所述正确字符串的读音的相似性是否满足预定要求，或者，根据字形词典，判断所述待处理字符串的字形与所述正确字符串的字形的相似性是否满足预定要求。

模型建立模块303，可以用于根据彼此的相似性满足预定要求的待处理字符串和正确字符串，依据所述第一改错规则将训练文本集中的所述待处理字符串替换成所述正确字符串得到第一替换结果，判断对第一替换结果的评估结果是否满足预定条件，如果是，则对所述第一改错规则予以通过，如果否，丢弃所述第一改错规则，并依据所述第二改错规则将训练文本集中的所述待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息，从而得到第二替换结果，判断对第二替换结果的评估结果是否满足预定条件，如果是，则对所述第二改错规则予以通过，否则，丢弃所述第二改错规则，建立的改错模型包括所述予以通过的改错规则。

其中，所述第一文本集、所述第二文本集和所述第三文本集是同一个文本集；或者，所述第一文本集中文本的正确率高于所述第二文本集中文本的正确率，也高于所述第三文本集中文本的正确率，所述第二文本集和所述第三文本集是相同或不同的文本集。

基于本发明提供的上述训练改错模型的方法，本发明还提供了一种文本改错方法，在该文本改错方法中，根据所述改错模型中存储的改错规则，从待处理文本中搜索字符串，根据所述改错规则对搜索到的字符串进行改错处理。

基于本发明提供的改错模型进行文本改错的方法具体也可以参见图4。

如图4所示，该流程包括：

步骤401，根据改错模型中存储的第一改错规则，从待处理文本中搜索待处理字符串，根据改错模型中存储的第二改错规则，从待处理文本中搜索待处理字符串及其有效上下文信息。

步骤402，根据所述第一改错规则，将所述待处理字符串替换为正确字符串，根据所述第二改错规则，将所述待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息。

其中，所述第一改错规则包括将彼此的相似性满足预定要求的待处理字符串替换成正确字符串，所述第二改错规则包括将待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息；其中，所述有效上下文信息是所述正确字符串在训练文本集中的上下文信息，彼此的相似性满足预定要求的所述待处理字符串和所述正确字符串在所述训练文本集中具有相同的有效上下文信息。所述训练文本集是用于训练所述改错模型的文本集。

基于本发明提供的改错模型进行文本改错的装置可以包括改错模型模块和改错处理模块。

所述改错模型模块，用于存储改错规则，且所述改错模型模块通过如下步骤训练得到：搜索正确字符串在训练文本集中的上下文信息，以所述上下文信息作为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串；搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串；根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则，根据对改错规则的测试结果建立所述改错模型。

所述改错处理模块，用于根据改错模型中存储的改错规则，从待处理文本中搜索字符串，根据所述改错规则对搜索到的字符串进行改错处理。

基于本发明提供的改错模型进行文本改错的装置的具体结构也可以参见图5。

如图5所示，该文本改错装置包括改错模型模块501、搜索模块502和替换模块503。

改错模型模块501，用于存储改错规则，所述改错规则包括将彼此的相似性满足预定要求的待处理字符串替换成正确字符串的第一改错规则，或者，将待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息的第二改错规则；其中，所述有效上下文信息是所述正确字符串在训练文本集中的上下文信息，彼此的相似性满足预定要求的所述待处理字符串和所述正确字符串在所述训练文本集中具有相同的有效上下文信息，所述训练文本集是用于训练所述改错模型的文本集。

搜索模块502，用于根据所述第一改错规则，从待处理文本中搜索所述待处理字符串，根据所述第二改错规则，从待处理文本中搜索所述待处理字符串及其有效上下文信息。

替换模块503，用于根据所述第一改错规则，将所述待处理字符串替换为所述正确字符串，根据所述第二改错规则，将所述待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息。

通过对图1-图5的描述可见，当预先根据字符串的上下文信息以及字符串之间的相似性建立改错模型，在对待处理文本的实际改错过程中，直接根据改错模型中的改错规则进行改错处理时，由于字符串的上下文信息的查找与匹配、以及字符串之间相似性的判断、改错规则的评估等工作都可以在改错模型的建立过程中进行，因此可以大大加快对待处理文本的实际改错速度。

本发明也可以在对待处理文本的实际改错过程中，根据字符串的上下文信息以及字符串之间的相似性识别出错误字符串，将所述错误字符串替换为相应的正确字符串，具体请参加图6-图7。

图6是本发明提供的另一文本改错方法的流程图。

如图6所示，该流程包括：

步骤601，预先以正确字符串的上下文信息作为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串。

其中，所述正确字符串一般为预定词典中的词，所述有效上下文信息为正确字符串在预定的训练文本集中的上下文信息。

步骤602，搜索待处理文本中具有所述有效上下文信息的待处理字符串，判断所述待处理字符串与和所述待处理字符串具有相同有效上下文信息的正确字符串的相似性是否满足预定要求。

本步骤中，可以根据读音词典，判断所述待处理字符串的读音与和所述待处理字符串具有相同有效上下文信息的正确字符串的读音的相似性是否满足预定要求，或者，根据字形词典，判断所述待处理字符串的字形与和所述待处理字符串具有相同有效上下文信息的正确字符串的字形的相似性是否满足预定要求。

步骤603，在所述相似性满足预定要求时，将所述待处理字符串替换成所述正确字符串，或者将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息。

本步骤中，可以在所述相似性满足预定要求时，将所述待处理字符串替换成所述正确字符串得到第一替换结果，在对所述第一替换结果的评估结果满足预定要求时，将所述第一替换结果确定为最终的改错结果，在对所述第一替换结果的评估结果不满足预定要求时，将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息得到第二替换结果，在对所述第二替换结果的评估结果满足预定要求时，将所述第二替换结果确定为最终的改错结果，在对所述第二替换结果的评估结果不满足预定要求时，保持所述待处理字符串不变或者进行其他改错处理。

图7是本发明提供的另一文本改错装置的结构图。

如图7所示，该装置包括存储模块701、相似串搜索模块702和改错模块703。

存储模块701，用于预先以正确字符串的上下文信息作为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串。

相似串搜索模块702，用于搜索待处理文本中具有所述有效上下文信息的待处理字符串，判断所述待处理字符串与和所述待处理字符串具有相同有效上下文信息的正确字符串的相似性是否满足预定要求。

改错模块703，用于在所述相似性满足预定要求时，将所述待处理字符串替换成所述正确字符串，或者将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息。

相似串搜索模块702，可以用于根据读音词典，判断所述待处理字符串的读音与和所述待处理字符串具有相同有效上下文信息的正确字符串的读音的相似性是否满足预定要求，或者，根据字形词典，判断所述待处理字符串的字形与和所述待处理字符串具有相同有效上下文信息的正确字符串的字形的相似性是否满足预定要求。

改错模块703，可以用于在所述相似性满足预定要求时，将所述待处理字符串替换成所述正确字符串得到第一替换结果，在对所述第一替换结果的评估结果满足预定要求时，将所述第一替换结果确定为最终的改错结果，在对所述第一替换结果的评估结果不满足预定要求时，将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息得到第二替换结果，在对所述第二替换结果的评估结果满足预定要求时，将所述第二替换结果确定为最终的改错结果，在对所述第二替换结果的评估结果不满足预定要求时，保持所述待处理字符串不变或者进行其他改错处理。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种改错模型的训练方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述训练文本集包括第一文本集、第二文本集和第三文本集；

根据预定规则，搜索预设的正确字符串在第一文本集中的上下文信息，以所述上下文信息为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串；

从第二文本集搜索待处理字符串，确定待处理字符串在所述第二文本集中的上下文信息是否包括有效上下文信息，在包括有效上下文信息时，判断所述待处理字符串与该有效上下文信息对应的正确字符串的相似性是否满足预定要求；

根据彼此的相似性满足预定要求的待处理字符串和正确字符串、以及所述待处理字符串和所述正确字符串共同的有效上下文信息，生成待测试的改错规则；

利用所述待测试的改错规则对第三文本集进行改错处理，根据对改错处理结果的评估信息建立改错模型，所述改错模型包括其改错处理结果的评估信息满足预定条件的改错规则；

其中，所述待测试的改错规则包括：用于将彼此的相似性满足预定要求的待处理字符串替换成正确字符串的第一改错规则，和/或，用于将待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息的第二改错规则。

3.根据权利要求2所述的方法，其特征在于，所述预设的正确字符串包括预设词典中的词；所述从训练文本集搜索待处理字符串包括：

根据所述预定词典中的词的长度范围，从训练文本集中搜索所述长度范围内的待处理字符串。

4.根据权利要求2所述的方法，其特征在于，确定待处理字符串在所述训练文本集中的上下文信息是否包括有效上下文信息包括：

根据所述预定规则，从训练文本集搜索待处理字符串的上下文信息，根据待处理字符串的上下文与有效上下文相互之间的匹配效果判断待处理字符串的上下文信息是否为所述有效上下文信息。

5.根据权利要求2或4所述的方法，其特征在于，所述上下文信息包括串前上下文信息和/或串后上下文信息；所述预定规则包括：

将目标字符串之前和/或之后预定长度的字符串确定为所述目标字符串的上下文信息；

或者，根据词典搜索目标字符串之前和/或之后出现的预定数个词，将所述预定数个词确定为所述目标字符串的上下文信息；

或者，根据目标字符串的语义特征，根据预定的语言规则为所述目标字符串选取上下文信息。

6.根据权利要求2所述的方法，其特征在于，判断所述待处理字符串与该有效上下文信息对应的正确字符串的相似性是否满足预定要求包括：

根据读音词典，判断所述待处理字符串的读音与所述正确字符串的读音的相似性是否满足预定要求；

或者，根据字形词典，判断所述待处理字符串的字形与所述正确字符串的字形的相似性是否满足预定要求。

7.根据权利要求2所述的方法，其特征在于，利用所述待测试的改错规则对训练文本集进行改错处理，根据对改错处理结果的评估信息建立改错模型包括：

根据彼此的相似性满足预定要求的待处理字符串和正确字符串，依据所述第一改错规则将第三文本集中的所述待处理字符串替换成所述正确字符串得到第一替换结果，判断对第一替换结果的评估结果是否满足预定条件，如果是，则对所述第一改错规则予以通过，如果否，丢弃所述第一改错规则，并依据所述第二改错规则将第三文本集中的所述待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息，从而得到第二替换结果，判断对第二替换结果的评估结果是否满足预定条件，如果是，则对所述第二改错规则予以通过，否则，丢弃所述第二改错规则；所述改错模型包括所述予以通过的改错规则。

8.根据权利要求2所述的方法，其特征在于，所述第一文本集、所述第二文本集和所述第三文本集是同一个文本集；

或者，所述第一文本集中文本的正确率高于所述第二文本集中文本的正确率，也高于所述第三文本集中文本的正确率，所述第二文本集和所述第三文本集是相同或不同的文本集。

9.一种改错模型的训练装置，其特征在于，该装置包括有效上下文搜集模块、相似串查找模块和模型建立模块；

10.根据权利要求9所述的装置，其特征在于，所述训练文本集包括第一文本集、第二文本集和第三文本集；

所述有效上下文搜集模块，用于根据预定规则，搜索预设的正确字符串在第一文本集中的上下文信息，以所述上下文信息为有效上下文信息，存储每个有效上下文信息对应的所有正确字符串；

所述相似串查找模块，用于从第二文本集搜索待处理字符串，确定待处理字符串在所述第二文本集中的上下文信息是否包括有效上下文信息，在包括有效上下文信息时，判断所述待处理字符串与该有效上下文信息对应的正确字符串的相似性是否满足预定要求；

所述模型建立模块，用于根据彼此的相似性满足预定要求的待处理字符串和正确字符串、以及所述待处理字符串和所述正确字符串共同的有效上下文信息，生成待测试的改错规则，利用所述待测试的改错规则对第三文本集进行改错处理，根据对改错处理结果的评估信息建立改错模型，所述改错模型包括其改错处理结果的评估信息满足预定条件的改错规则；

11.根据权利要求10所述的装置，其特征在于，所述预设的正确字符串包括预设词典中的词；

所述相似串查找模块，用于根据所述预定词典中的词的长度范围，从训练文本集中搜索所述长度范围内的待处理字符串。

12.根据权利要求10所述的装置，其特征在于，

所述相似串查找模块，用于根据所述预定规则，从训练文本集搜索待处理字符串的上下文信息，根据待处理字符串的上下文与有效上下文相互之间的匹配效果判断待处理字符串的上下文信息是否为所述有效上下文信息。

13.根据权利要求10或12所述的装置，其特征在于，所述上下文信息包括串前上下文信息和/或串后上下文信息；所述预定规则包括：

14.根据权利要求10所述的装置，其特征在于，

所述相似串查找模块，用于根据读音词典，判断所述待处理字符串的读音与所述正确字符串的读音的相似性是否满足预定要求，或者，根据字形词典，判断所述待处理字符串的字形与所述正确字符串的字形的相似性是否满足预定要求。

15.根据权利要求10所述的装置，其特征在于，

所述模型建立模块，用于根据彼此的相似性满足预定要求的待处理字符串和正确字符串，依据所述第一改错规则将训练文本集中的所述待处理字符串替换成所述正确字符串得到第一替换结果，判断对第一替换结果的评估结果是否满足预定条件，如果是，则对所述第一改错规则予以通过，如果否，丢弃所述第一改错规则，并依据所述第二改错规则将训练文本集中的所述待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息，从而得到第二替换结果，判断对第二替换结果的评估结果是否满足预定条件，如果是，则对所述第二改错规则予以通过，否则，丢弃所述第二改错规则，建立的改错模型包括所述予以通过的改错规则。

16.根据权利要求10所述的装置，其特征在于，所述第一文本集、所述第二文本集和所述第三文本集是同一个文本集；

17.一种文本改错方法，其特征在于，该方法包括：

根据改错模型中存储的改错规则，从待处理文本中搜索字符串，根据所述改错规则对搜索到的字符串进行改错处理；

其中，所述改错模型通过如下步骤建立得到：

18.根据权利要求17的方法，其特征在于，

根据改错模型中存储的第一改错规则，从待处理文本中搜索待处理字符串，将所述待处理字符串替换为正确字符串；

根据改错模型中存储的第二改错规则，从待处理文本中搜索待处理字符串及其有效上下文信息，将所述待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息；

其中，所述第一改错规则包括将彼此的相似性满足预定要求的待处理字符串替换成正确字符串，所述第二改错规则包括将待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息。

19.一种文本改错装置，其特征在于，该装置包括改错模型模块和改错处理模块；

20.根据权利要求19所述的装置，其特征在于，所述改错处理模块包括搜索模块和替换模块；

所述改错模型模块，用于存储改错规则，所述改错规则包括将彼此的相似性满足预定要求的待处理字符串替换成正确字符串的第一改错规则，或者，将待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息的第二改错规则；

所述搜索模块，用于根据所述第一改错规则，从待处理文本中搜索所述待处理字符串，根据所述第二改错规则，从待处理文本中搜索所述待处理字符串及其有效上下文信息；

所述替换模块，用于根据所述第一改错规则，将所述待处理字符串替换为所述正确字符串，根据所述第二改错规则，将所述待处理字符串及其有效上下文信息，替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息。

21.一种文本改错方法，其特征在于，该方法包括：

22.一种文本改错装置，其特征在于，该装置包括存储模块、相似串搜索模块和改错模块；