CN103970765A - 一种改错模型训练方法、装置和文本改错方法、装置 - Google Patents

一种改错模型训练方法、装置和文本改错方法、装置 Download PDF

Info

Publication number
CN103970765A
CN103970765A CN201310033697.8A CN201310033697A CN103970765A CN 103970765 A CN103970765 A CN 103970765A CN 201310033697 A CN201310033697 A CN 201310033697A CN 103970765 A CN103970765 A CN 103970765A
Authority
CN
China
Prior art keywords
contextual information
string
character string
correcting mistakes
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310033697.8A
Other languages
English (en)
Other versions
CN103970765B (zh
Inventor
李露
程强
饶丰
卢鲤
张翔
岳帅
陈波
陆读羚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201310033697.8A priority Critical patent/CN103970765B/zh
Priority to PCT/CN2013/086152 priority patent/WO2014117549A1/en
Priority to US14/106,642 priority patent/US20140214401A1/en
Publication of CN103970765A publication Critical patent/CN103970765A/zh
Application granted granted Critical
Publication of CN103970765B publication Critical patent/CN103970765B/zh
Priority to US16/133,440 priority patent/US10643029B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种改错模型训练方法、装置和文本改错方法、装置。该方法包括:搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串;根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对改错规则的测试结果建立改错模型。应用本发明能够提供一种利用其进行文本改错时具备较高错误召回率和改错准确性的改错模型,提高文本改错的错误召回率和改错的准确性。

Description

一种改错模型训练方法、装置和文本改错方法、装置
技术领域
本申请涉及信息处理技术领域,尤其涉及一种改错模型训练方法、装置和文本改错方法、装置。
背景技术
人们日常工作和生活中用到的文本常常会带有错别字、拼写错误的词等错误字符串,如何识别并改正文本中的错误字符串,是当前信息处理技术领域需要解决的一个技术问题。
目前,存在一种根据语言规则进行文本改错的方案。
具体地,在该方案中,预先总结出目标语言(即目标文件所采用的语言)的词语搭配规则、词语拼写规则等语言规则,例如,当目标语言为汉语时,预先总结出汉语的词语搭配规则等,然后根据预先总结出的语言规则对待处理文本进行评测,从而判断待处理文本是否符合预先总结出的语言规则,当评测结果显示待处理文本与预先总结出的语言规则的符合程度不满足预定要求时,根据预先总结出的语言规则对待处理文本进行改错处理。
可见,目前基于语言规则进行文本改错方案,不仅需要大量具备深厚语言背景的工作人员总结大量的语言规则,而且,由于语言本身结构复杂,要总结出语言规则并非易事,并且总结出的不同的语言规则之间还常常会相互冲突,因此,基于语言规则进行文本改错的方案的错误召回率较低,改错的准确性也较低。
发明内容
本申请提供了一种改错模型训练方法、装置和文本改错方法、装置,能够提供一种利用其进行文本改错时具备较高错误召回率和改错准确性的改错模型,提高文本改错的错误召回率和改错的准确性。
一种改错模型的训练方法,该方法包括:
搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;
搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串;
根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对改错规则的测试结果建立改错模型。
一种改错模型的训练装置,该装置包括有效上下文搜集模块、相似串查找模块和模型建立模块;
所述有效上下文搜索模块,用于搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;
所述相似串查找模块,用于搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串;
所述模型建立模块,用于根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对改错规则的测试结果建立改错模型。
一种文本改错方法,该方法包括:
根据改错模型中存储的改错规则,从待处理文本中搜索错误字符串,根据所述改错规则对所述错误字符串进行改错处理;
其中,所述改错模型通过如下步骤建立得到:
搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;
搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串;
根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对改错规则的测试结果建立所述改错模型。
一种文本改错装置,该装置包括改错模型模块和改错处理模块;
所述改错模型模块,用于存储改错规则,且所述改错模型模块通过如下步骤训练得到:搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串;根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对改错规则的测试结果建立所述改错模型;
所述改错处理模块,用于根据改错模型中存储的改错规则,从待处理文本中搜索错误字符串,根据所述改错规则对所述错误字符串进行改错处理。
一种文本改错方法,该方法包括:
预先以正确字符串的上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;
搜索待处理文本中具有所述有效上下文信息的待处理字符串,判断所述待处理字符串与和所述待处理字符串具有相同有效上下文信息的正确字符串的相似性是否满足预定要求;
在所述相似性满足预定要求时,将所述待处理字符串替换成所述正确字符串,或者将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息。
一种文本改错装置,该装置包括存储模块、相似串搜索模块和改错模块;
所述存储模块,用于预先以正确字符串的上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;
所述相似串搜索模块,用于搜索待处理文本中具有所述有效上下文信息的待处理字符串,判断所述待处理字符串与和所述待处理字符串具有相同有效上下文信息的正确字符串的相似性是否满足预定要求;
所述改错模块,用于在所述相似性满足预定要求时,将所述待处理字符串替换成所述正确字符串,或者将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息。
由上述技术方案可见,本发明根据字符串的上下文信息进行改错处理,通过对具有相同上下文信息的正确字符串和待处理字符串进行相似性分析,可以识别出在某些上下文语境中容易出现的错误字符串,从而能够将在某些上下文语境下容易出现的错误字符串替换为相应的正确字符串。由于错别字、拼写错误等错误字符串常常伴随着一定的上下文语境共同出现,因此,本发明具有较高的错误召回率和改错准确性。
附图说明
图1是本发明提供的改错模型的训练方法第一流程图。
图2是本发明提供的改错模型的训练方法第二流程图。
图3是本发明提供的改错模型的训练装置结构图。
图4是本发明提供的利用改错模型进行文本改错的方法流程图。
图5是本发明提供的利用改错模型进行文本改错的文本改错装置结构图。
图6是本发明提供的另一文本改错方法的流程图。
图7是本发明提供的另一文本改错装置的结构图。
具体实施方式
本发明根据字符串的上下文信息进行改错处理。具体通过对具有相同上下文信息的正确字符串和待处理字符串进行相似性分析,识别在某些上下文语境中容易出现的错误字符串,将在某些上下文语境下出现的错误字符串替换为相应的正确字符串。
在具体实现本发明时,可以预先根据字符串的上下文信息以及字符串之间的相似性建立改错模型,在对待处理文本的实际改错过程中,直接根据改错模型中的改错规则进行改错处理。也可以在对待处理文本的实际改错过程中,根据字符串的上下文信息以及字符串之间的相似性识别出错误字符串,将所述错误字符串替换为相应的正确字符串。
图1是本发明提供的改错模型的训练方法第一流程图。
如图1所示,该第一流程包括:
步骤101,搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串。
步骤102,搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串。
步骤103,根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对改错规则的测试结果建立改错模型。
其中,所述的训练文本集可以包括第一文本集、第二文本集和第三文本集,图1所示的训练方法还可以进一步细化,具体请参加图2所示流程。
图2是本发明提供的改错模型的训练方法第二流程图。
如图2所示,该方法包括:
步骤201,根据预定规则,搜索预设的正确字符串在第一文本集中的上下文信息。
本步骤中,一般以预设词典中的词作为正确字符串,当然,本发明也不排除采用其他方法确定正确字符串。其中,预设词典中的词可以是由多个字组成的词语或短语,也可以是单个字。
步骤202,以所述上下文信息为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串。
本步骤中,还可以存储每个正确字符串对应的所有有效上下文信息,从而便于在需要时查找指定的正确字符串对应的所有有效上下文信息。
步骤203,从第二文本集搜索待处理字符串。
本步骤中,为了限定待处理字符串的范围,从而提高改错模型的建立速度,可以根据所述预定词典中的词的长度范围,从训练文本集中搜索所述长度范围内的待处理字符串。
步骤204,确定待处理字符串在所述第二文本集中的上下文信息是否包括有效上下文信息。
本步骤中,可以根据所述预定规则,从训练文本集搜索待处理字符串的上下文信息,根据待处理字符串的上下文与有效上下文相互之间的匹配效果判断待处理字符串的上下文信息是否为所述有效上下文信息。
其中,本发明对匹配待处理字符串的上下文与有效上下文之间的具体方法不做限定,例如,可以利用字符匹配算法直接将待处理字符串的上下文和有效上下文进行匹配,也可以将待处理字符串的上下文和有效上下文转换成其他等效信息后再进行匹配。
步骤205,当待处理字符串在所述第二文本集中的上下文信息包括有效上下文信息时,判断所述待处理字符串与该有效上下文信息对应的正确字符串的相似性是否满足预定要求。
本步骤中,通过判断具有相同的有效上下文信息的待处理字符串与正确字符串之间的相似性是否满足预定要求来查找相似串,具有相同的有效上下文信息、且相互之间的相似性满足预定要求的待处理字符串与正确字符串互为彼此的相似串。
在判断具有相同的有效上下文信息的待处理字符串与正确字符串之间的相似性是否满足预定要求时,可以根据待处理字符串和正确字符串的读音进行判断,也可以根据待处理字符串和正确字符串的字形来判断,如果读音相似、或者字形相似,则所述待处理字符串和所述正确字符串互为彼此的相似串。
具体地,对于具有相同有效上下文信息的待处理字符串和正确字符串,根据读音词典,判断所述待处理字符串的读音与所述正确字符串的读音的相似性是否满足预定要求,如果是,则所述待处理字符串和所述正确字符串互为相似串。
或者,对于具有相同有效上下文信息的待处理字符串和正确字符串,根据字形词典,判断所述待处理字符串的字形与所述正确字符串的字形的相似性是否满足预定要求,如果是,则所述待处理字符串和所述正确字符串互为相似串。
步骤206,根据彼此的相似性满足预定要求的待处理字符串和正确字符串、以及所述待处理字符串和所述正确字符串共同的有效上下文信息,生成待测试的改错规则。
其中,对于每一对具有相同有效上下文信息、且彼此的相似性满足预定要求的待处理字符串和正确字符串,所述待测试的改错规则包括:用于将彼此的相似性满足预定要求的待处理字符串替换成正确字符串的第一改错规则,和/或,用于将待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息的第二改错规则。
换言之,对于每一对具有相同有效上下文信息、且彼此的相似性满足预定要求的待处理字符串和正确字符串,都具有一条第一改错规则和一条以上的第二改错规则,其中,当所述待处理字符串和所述正确字符串具有两个以上的相同有效上下文信息时,所述待处理字符串和所述正确字符串及其各个共同具有的有效上下文信息分别组成不同的第二改错规则。
比如,正确字符串B在第一文本集中具有有效上下文C和D,待处理字符串A在第二文本集中也具有有效上下文C和D,且待处理字符串A和正确字符串B的相似性满足预定要求,则待处理字符串A和正确字符串B对应的改错规则包括:将待处理字符串A替换成正确字符串B;将待处理字符串A连同其上下文C共同替换成正确字符串B连同其上下文C;将待处理字符串A连同其上下文D共同替换成正确字符串B连同其上下文D。
步骤207,利用所述待测试的改错规则对第三文本集进行改错处理,根据对改错处理结果的评估信息建立改错模型,所述改错模型包括其改错处理结果的评估信息满足预定条件的改错规则。
本步骤中,对于步骤205中查找出的每一对具有相同的有效上下文信息、且彼此的相似性满足预定要求的待处理字符串和正确字符串,可以先依据所述第一改错规则将训练文本集中的所述待处理字符串替换成所述正确字符串得到第一替换结果,判断对第一替换结果的评估结果是否满足预定条件,如果是,则对所述第一改错规则予以通过,如果否,丢弃所述第一改错规则,并依据所述第二改错规则,将第三文本集中的所述待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息,从而得到第二替换结果,判断对第二替换结果的评估结果是否满足预定条件,如果是,则对所述第二改错规则予以通过,否则,丢弃所述第二改错规则;所述改错模型包括所述予以通过的改错规则。所建立的改错模型包括所述予以通过的改错规则。其中,对于步骤205中查找出的每一对具有相同的有效上下文信息、且彼此的相似性满足预定要求的待处理字符串和正确字符串,如果该对待处理字符串和正确字符串所对应的第一改错规则能够评估通过,则一般不需要再评估该对待处理字符串和正确字符串对应的其他改错规则。
其中,对替换结果进行评估的具体方法本发明不做限定,例如可以根据语言规则、预先建立的语言模型等对替换结果进行评估,也可以人工对替换结果进行评估。
本发明中,字符串的上下文信息通常包括位于所述字符串之前的信息(简称串前上下文信息)和位于所述字符串之后的信息(简称串后上下文信息),也可以只包括串前上下文信息或只包括串后上下文信息。
对于任意目标字符串(例如该目标字符串是某一正确字符串,或者是某一待处理字符串),确定该目标字符串的上下文信息的方法可以有多种。例如:可以将目标字符串之前和/或之后预定长度的字符串确定为所述目标字符串的上下文信息;或者,根据词典搜索目标字符串之前和/或之后出现的预定数个词,将所述预定数个词确定为所述目标字符串的上下文信息;或者,根据目标字符串的语义特征,根据预定的语言规则为所述目标字符串选取上下文信息。上述确定目标字符串的上下文信息的各种方法可以分别单独使用,也可以在不相互矛盾的前提下相互组合使用。
关于图2所示方法所用到的文本集,所述第一文本集、所述第二文本集和所述第三文本集可以是同一个文本集,其中包含了一定比例的错误字符串,但是大部分都是正确字符串;或者,所述第一文本集可以是与所述第二文本集和所述第三文本集不同的文本集,所述第一文本集中文本的正确率高于所述第二文本集中文本的正确率,也高于所述第三文本集中文本的正确率,所述第二文本集和所述第三文本集可以是相同或不同的文本集。图2所示方法所用到的文本集的预料资源越丰富、涵盖范围越广,则建立的改错模型的改错效果越好。
图3是本发明提供的改错模型的训练装置结构图。
如图3所示,该装置包括有效上下文搜集模块301、相似串查找模块302和模型建立模块303。
有效上下文搜索模块301,用于搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串。
相似串查找模块302,用于搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串。
模型建立模块303,用于根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对改错规则的测试结果建立改错模型。
有效上下文搜集模块301,可以用于根据预定规则,搜索预设的正确字符串在第一文本集中的上下文信息,以所述上下文信息为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串。
相似串查找模块302,可以用于从第二文本集搜索待处理字符串,确定待处理字符串在所述第二文本集中的上下文信息是否包括有效上下文信息,在包括有效上下文信息时,判断所述待处理字符串与该有效上下文信息对应的正确字符串的相似性是否满足预定要求。
模型建立模块303,可以用于根据彼此的相似性满足预定要求的待处理字符串和正确字符串、以及所述待处理字符串和所述正确字符串共同的有效上下文信息,生成待测试的改错规则,利用所述待测试的改错规则对第三文本集进行改错处理,根据对改错处理结果的评估信息建立改错模型,所述改错模型包括其改错处理结果的评估信息满足预定条件的改错规则。
所述待测试的改错规则包括:用于将彼此的相似性满足预定要求的待处理字符串替换成正确字符串的第一改错规则,和/或,用于将待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息的第二改错规则。
其中,述预设的正确字符串可以包括预设词典中的词。
相似串查找模块302,可以用于根据所述预定词典中的词的长度范围,从训练文本集中搜索所述长度范围内的待处理字符串。
相似串查找模块302,可以用于根据所述预定规则,从训练文本集搜索待处理字符串的上下文信息,根据待处理字符串的上下文与有效上下文相互之间的匹配效果判断待处理字符串的上下文信息是否为所述有效上下文信息。
所述上下文信息包括串前上下文信息和/或串后上下文信息。
用于搜索上下文信息的所述预定规则可以包括:将目标字符串之前和/或之后预定长度的字符串确定为所述目标字符串的上下文信息;或者,根据词典搜索目标字符串之前和/或之后出现的预定数个词,将所述预定数个词确定为所述目标字符串的上下文信息;或者,根据目标字符串的语义特征,根据预定的语言规则为所述目标字符串选取上下文信息。
相似串查找模块302,可以用于根据读音词典,判断所述待处理字符串的读音与所述正确字符串的读音的相似性是否满足预定要求,或者,根据字形词典,判断所述待处理字符串的字形与所述正确字符串的字形的相似性是否满足预定要求。
模型建立模块303,可以用于根据彼此的相似性满足预定要求的待处理字符串和正确字符串,依据所述第一改错规则将训练文本集中的所述待处理字符串替换成所述正确字符串得到第一替换结果,判断对第一替换结果的评估结果是否满足预定条件,如果是,则对所述第一改错规则予以通过,如果否,丢弃所述第一改错规则,并依据所述第二改错规则将训练文本集中的所述待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息,从而得到第二替换结果,判断对第二替换结果的评估结果是否满足预定条件,如果是,则对所述第二改错规则予以通过,否则,丢弃所述第二改错规则,建立的改错模型包括所述予以通过的改错规则。
其中,所述第一文本集、所述第二文本集和所述第三文本集是同一个文本集;或者,所述第一文本集中文本的正确率高于所述第二文本集中文本的正确率,也高于所述第三文本集中文本的正确率,所述第二文本集和所述第三文本集是相同或不同的文本集。
基于本发明提供的上述训练改错模型的方法,本发明还提供了一种文本改错方法,在该文本改错方法中,根据所述改错模型中存储的改错规则,从待处理文本中搜索字符串,根据所述改错规则对搜索到的字符串进行改错处理。
基于本发明提供的改错模型进行文本改错的方法具体也可以参见图4。
图4是本发明提供的利用改错模型进行文本改错的方法流程图。
如图4所示,该流程包括:
步骤401,根据改错模型中存储的第一改错规则,从待处理文本中搜索待处理字符串,根据改错模型中存储的第二改错规则,从待处理文本中搜索待处理字符串及其有效上下文信息。
步骤402,根据所述第一改错规则,将所述待处理字符串替换为正确字符串,根据所述第二改错规则,将所述待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息。
其中,所述第一改错规则包括将彼此的相似性满足预定要求的待处理字符串替换成正确字符串,所述第二改错规则包括将待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息;其中,所述有效上下文信息是所述正确字符串在训练文本集中的上下文信息,彼此的相似性满足预定要求的所述待处理字符串和所述正确字符串在所述训练文本集中具有相同的有效上下文信息。所述训练文本集是用于训练所述改错模型的文本集。
基于本发明提供的改错模型进行文本改错的装置可以包括改错模型模块和改错处理模块。
所述改错模型模块,用于存储改错规则,且所述改错模型模块通过如下步骤训练得到:搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串;根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对改错规则的测试结果建立所述改错模型。
所述改错处理模块,用于根据改错模型中存储的改错规则,从待处理文本中搜索字符串,根据所述改错规则对搜索到的字符串进行改错处理。
基于本发明提供的改错模型进行文本改错的装置的具体结构也可以参见图5。
图5是本发明提供的利用改错模型进行文本改错的文本改错装置结构图。
如图5所示,该文本改错装置包括改错模型模块501、搜索模块502和替换模块503。
改错模型模块501,用于存储改错规则,所述改错规则包括将彼此的相似性满足预定要求的待处理字符串替换成正确字符串的第一改错规则,或者,将待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息的第二改错规则;其中,所述有效上下文信息是所述正确字符串在训练文本集中的上下文信息,彼此的相似性满足预定要求的所述待处理字符串和所述正确字符串在所述训练文本集中具有相同的有效上下文信息,所述训练文本集是用于训练所述改错模型的文本集。
搜索模块502,用于根据所述第一改错规则,从待处理文本中搜索所述待处理字符串,根据所述第二改错规则,从待处理文本中搜索所述待处理字符串及其有效上下文信息。
替换模块503,用于根据所述第一改错规则,将所述待处理字符串替换为所述正确字符串,根据所述第二改错规则,将所述待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息。
通过对图1-图5的描述可见,当预先根据字符串的上下文信息以及字符串之间的相似性建立改错模型,在对待处理文本的实际改错过程中,直接根据改错模型中的改错规则进行改错处理时,由于字符串的上下文信息的查找与匹配、以及字符串之间相似性的判断、改错规则的评估等工作都可以在改错模型的建立过程中进行,因此可以大大加快对待处理文本的实际改错速度。
本发明也可以在对待处理文本的实际改错过程中,根据字符串的上下文信息以及字符串之间的相似性识别出错误字符串,将所述错误字符串替换为相应的正确字符串,具体请参加图6-图7。
图6是本发明提供的另一文本改错方法的流程图。
如图6所示,该流程包括:
步骤601,预先以正确字符串的上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串。
其中,所述正确字符串一般为预定词典中的词,所述有效上下文信息为正确字符串在预定的训练文本集中的上下文信息。
步骤602,搜索待处理文本中具有所述有效上下文信息的待处理字符串,判断所述待处理字符串与和所述待处理字符串具有相同有效上下文信息的正确字符串的相似性是否满足预定要求。
本步骤中,可以根据读音词典,判断所述待处理字符串的读音与和所述待处理字符串具有相同有效上下文信息的正确字符串的读音的相似性是否满足预定要求,或者,根据字形词典,判断所述待处理字符串的字形与和所述待处理字符串具有相同有效上下文信息的正确字符串的字形的相似性是否满足预定要求。
步骤603,在所述相似性满足预定要求时,将所述待处理字符串替换成所述正确字符串,或者将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息。
本步骤中,可以在所述相似性满足预定要求时,将所述待处理字符串替换成所述正确字符串得到第一替换结果,在对所述第一替换结果的评估结果满足预定要求时,将所述第一替换结果确定为最终的改错结果,在对所述第一替换结果的评估结果不满足预定要求时,将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息得到第二替换结果,在对所述第二替换结果的评估结果满足预定要求时,将所述第二替换结果确定为最终的改错结果,在对所述第二替换结果的评估结果不满足预定要求时,保持所述待处理字符串不变或者进行其他改错处理。
图7是本发明提供的另一文本改错装置的结构图。
如图7所示,该装置包括存储模块701、相似串搜索模块702和改错模块703。
存储模块701,用于预先以正确字符串的上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串。
相似串搜索模块702,用于搜索待处理文本中具有所述有效上下文信息的待处理字符串,判断所述待处理字符串与和所述待处理字符串具有相同有效上下文信息的正确字符串的相似性是否满足预定要求。
改错模块703,用于在所述相似性满足预定要求时,将所述待处理字符串替换成所述正确字符串,或者将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息。
相似串搜索模块702,可以用于根据读音词典,判断所述待处理字符串的读音与和所述待处理字符串具有相同有效上下文信息的正确字符串的读音的相似性是否满足预定要求,或者,根据字形词典,判断所述待处理字符串的字形与和所述待处理字符串具有相同有效上下文信息的正确字符串的字形的相似性是否满足预定要求。
改错模块703,可以用于在所述相似性满足预定要求时,将所述待处理字符串替换成所述正确字符串得到第一替换结果,在对所述第一替换结果的评估结果满足预定要求时,将所述第一替换结果确定为最终的改错结果,在对所述第一替换结果的评估结果不满足预定要求时,将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息得到第二替换结果,在对所述第二替换结果的评估结果满足预定要求时,将所述第二替换结果确定为最终的改错结果,在对所述第二替换结果的评估结果不满足预定要求时,保持所述待处理字符串不变或者进行其他改错处理。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (22)

1.一种改错模型的训练方法,其特征在于,该方法包括:
搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;
搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串;
根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对改错规则的测试结果建立改错模型。
2.根据权利要求1所述的方法,其特征在于,所述训练文本集包括第一文本集、第二文本集和第三文本集;
根据预定规则,搜索预设的正确字符串在第一文本集中的上下文信息,以所述上下文信息为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;
从第二文本集搜索待处理字符串,确定待处理字符串在所述第二文本集中的上下文信息是否包括有效上下文信息,在包括有效上下文信息时,判断所述待处理字符串与该有效上下文信息对应的正确字符串的相似性是否满足预定要求;
根据彼此的相似性满足预定要求的待处理字符串和正确字符串、以及所述待处理字符串和所述正确字符串共同的有效上下文信息,生成待测试的改错规则;
利用所述待测试的改错规则对第三文本集进行改错处理,根据对改错处理结果的评估信息建立改错模型,所述改错模型包括其改错处理结果的评估信息满足预定条件的改错规则;
其中,所述待测试的改错规则包括:用于将彼此的相似性满足预定要求的待处理字符串替换成正确字符串的第一改错规则,和/或,用于将待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息的第二改错规则。
3.根据权利要求2所述的方法,其特征在于,所述预设的正确字符串包括预设词典中的词;所述从训练文本集搜索待处理字符串包括:
根据所述预定词典中的词的长度范围,从训练文本集中搜索所述长度范围内的待处理字符串。
4.根据权利要求2所述的方法,其特征在于,确定待处理字符串在所述训练文本集中的上下文信息是否包括有效上下文信息包括:
根据所述预定规则,从训练文本集搜索待处理字符串的上下文信息,根据待处理字符串的上下文与有效上下文相互之间的匹配效果判断待处理字符串的上下文信息是否为所述有效上下文信息。
5.根据权利要求2或4所述的方法,其特征在于,所述上下文信息包括串前上下文信息和/或串后上下文信息;所述预定规则包括:
将目标字符串之前和/或之后预定长度的字符串确定为所述目标字符串的上下文信息;
或者,根据词典搜索目标字符串之前和/或之后出现的预定数个词,将所述预定数个词确定为所述目标字符串的上下文信息;
或者,根据目标字符串的语义特征,根据预定的语言规则为所述目标字符串选取上下文信息。
6.根据权利要求2所述的方法,其特征在于,判断所述待处理字符串与该有效上下文信息对应的正确字符串的相似性是否满足预定要求包括:
根据读音词典,判断所述待处理字符串的读音与所述正确字符串的读音的相似性是否满足预定要求;
或者,根据字形词典,判断所述待处理字符串的字形与所述正确字符串的字形的相似性是否满足预定要求。
7.根据权利要求2所述的方法,其特征在于,利用所述待测试的改错规则对训练文本集进行改错处理,根据对改错处理结果的评估信息建立改错模型包括:
根据彼此的相似性满足预定要求的待处理字符串和正确字符串,依据所述第一改错规则将第三文本集中的所述待处理字符串替换成所述正确字符串得到第一替换结果,判断对第一替换结果的评估结果是否满足预定条件,如果是,则对所述第一改错规则予以通过,如果否,丢弃所述第一改错规则,并依据所述第二改错规则将第三文本集中的所述待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息,从而得到第二替换结果,判断对第二替换结果的评估结果是否满足预定条件,如果是,则对所述第二改错规则予以通过,否则,丢弃所述第二改错规则;所述改错模型包括所述予以通过的改错规则。
8.根据权利要求2所述的方法,其特征在于,所述第一文本集、所述第二文本集和所述第三文本集是同一个文本集;
或者,所述第一文本集中文本的正确率高于所述第二文本集中文本的正确率,也高于所述第三文本集中文本的正确率,所述第二文本集和所述第三文本集是相同或不同的文本集。
9.一种改错模型的训练装置,其特征在于,该装置包括有效上下文搜集模块、相似串查找模块和模型建立模块;
所述有效上下文搜索模块,用于搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;
所述相似串查找模块,用于搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串;
所述模型建立模块,用于根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对改错规则的测试结果建立改错模型。
10.根据权利要求9所述的装置,其特征在于,所述训练文本集包括第一文本集、第二文本集和第三文本集;
所述有效上下文搜集模块,用于根据预定规则,搜索预设的正确字符串在第一文本集中的上下文信息,以所述上下文信息为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;
所述相似串查找模块,用于从第二文本集搜索待处理字符串,确定待处理字符串在所述第二文本集中的上下文信息是否包括有效上下文信息,在包括有效上下文信息时,判断所述待处理字符串与该有效上下文信息对应的正确字符串的相似性是否满足预定要求;
所述模型建立模块,用于根据彼此的相似性满足预定要求的待处理字符串和正确字符串、以及所述待处理字符串和所述正确字符串共同的有效上下文信息,生成待测试的改错规则,利用所述待测试的改错规则对第三文本集进行改错处理,根据对改错处理结果的评估信息建立改错模型,所述改错模型包括其改错处理结果的评估信息满足预定条件的改错规则;
所述待测试的改错规则包括:用于将彼此的相似性满足预定要求的待处理字符串替换成正确字符串的第一改错规则,和/或,用于将待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息的第二改错规则。
11.根据权利要求10所述的装置,其特征在于,所述预设的正确字符串包括预设词典中的词;
所述相似串查找模块,用于根据所述预定词典中的词的长度范围,从训练文本集中搜索所述长度范围内的待处理字符串。
12.根据权利要求10所述的装置,其特征在于,
所述相似串查找模块,用于根据所述预定规则,从训练文本集搜索待处理字符串的上下文信息,根据待处理字符串的上下文与有效上下文相互之间的匹配效果判断待处理字符串的上下文信息是否为所述有效上下文信息。
13.根据权利要求10或12所述的装置,其特征在于,所述上下文信息包括串前上下文信息和/或串后上下文信息;所述预定规则包括:
将目标字符串之前和/或之后预定长度的字符串确定为所述目标字符串的上下文信息;
或者,根据词典搜索目标字符串之前和/或之后出现的预定数个词,将所述预定数个词确定为所述目标字符串的上下文信息;
或者,根据目标字符串的语义特征,根据预定的语言规则为所述目标字符串选取上下文信息。
14.根据权利要求10所述的装置,其特征在于,
所述相似串查找模块,用于根据读音词典,判断所述待处理字符串的读音与所述正确字符串的读音的相似性是否满足预定要求,或者,根据字形词典,判断所述待处理字符串的字形与所述正确字符串的字形的相似性是否满足预定要求。
15.根据权利要求10所述的装置,其特征在于,
所述模型建立模块,用于根据彼此的相似性满足预定要求的待处理字符串和正确字符串,依据所述第一改错规则将训练文本集中的所述待处理字符串替换成所述正确字符串得到第一替换结果,判断对第一替换结果的评估结果是否满足预定条件,如果是,则对所述第一改错规则予以通过,如果否,丢弃所述第一改错规则,并依据所述第二改错规则将训练文本集中的所述待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息,从而得到第二替换结果,判断对第二替换结果的评估结果是否满足预定条件,如果是,则对所述第二改错规则予以通过,否则,丢弃所述第二改错规则,建立的改错模型包括所述予以通过的改错规则。
16.根据权利要求10所述的装置,其特征在于,所述第一文本集、所述第二文本集和所述第三文本集是同一个文本集;
或者,所述第一文本集中文本的正确率高于所述第二文本集中文本的正确率,也高于所述第三文本集中文本的正确率,所述第二文本集和所述第三文本集是相同或不同的文本集。
17.一种文本改错方法,其特征在于,该方法包括:
根据改错模型中存储的改错规则,从待处理文本中搜索字符串,根据所述改错规则对搜索到的字符串进行改错处理;
其中,所述改错模型通过如下步骤建立得到:
搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;
搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串;
根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对改错规则的测试结果建立所述改错模型。
18.根据权利要求17的方法,其特征在于,
根据改错模型中存储的第一改错规则,从待处理文本中搜索待处理字符串,将所述待处理字符串替换为正确字符串;
根据改错模型中存储的第二改错规则,从待处理文本中搜索待处理字符串及其有效上下文信息,将所述待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息;
其中,所述第一改错规则包括将彼此的相似性满足预定要求的待处理字符串替换成正确字符串,所述第二改错规则包括将待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息。
19.一种文本改错装置,其特征在于,该装置包括改错模型模块和改错处理模块;
所述改错模型模块,用于存储改错规则,且所述改错模型模块通过如下步骤训练得到:搜索正确字符串在训练文本集中的上下文信息,以所述上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;搜索训练文本集中与所述正确字符串的相似性满足预定要求、且具备所述有效上下文信息的待处理字符串;根据所述待处理字符串、与所述待处理字符串的相似性满足预定要求的正确字符串以及所述待处理字符串和所述正确字符串共同的有效上下文信息生成改错规则,根据对改错规则的测试结果建立所述改错模型;
所述改错处理模块,用于根据改错模型中存储的改错规则,从待处理文本中搜索字符串,根据所述改错规则对搜索到的字符串进行改错处理。
20.根据权利要求19所述的装置,其特征在于,所述改错处理模块包括搜索模块和替换模块;
所述改错模型模块,用于存储改错规则,所述改错规则包括将彼此的相似性满足预定要求的待处理字符串替换成正确字符串的第一改错规则,或者,将待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息的第二改错规则;
所述搜索模块,用于根据所述第一改错规则,从待处理文本中搜索所述待处理字符串,根据所述第二改错规则,从待处理文本中搜索所述待处理字符串及其有效上下文信息;
所述替换模块,用于根据所述第一改错规则,将所述待处理字符串替换为所述正确字符串,根据所述第二改错规则,将所述待处理字符串及其有效上下文信息,替换成与所述待处理字符串的相似性满足预定要求且具有所述有效上下文信息的正确字符串和所述有效上下文信息。
21.一种文本改错方法,其特征在于,该方法包括:
预先以正确字符串的上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;
搜索待处理文本中具有所述有效上下文信息的待处理字符串,判断所述待处理字符串与和所述待处理字符串具有相同有效上下文信息的正确字符串的相似性是否满足预定要求;
在所述相似性满足预定要求时,将所述待处理字符串替换成所述正确字符串,或者将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息。
22.一种文本改错装置,其特征在于,该装置包括存储模块、相似串搜索模块和改错模块;
所述存储模块,用于预先以正确字符串的上下文信息作为有效上下文信息,存储每个有效上下文信息对应的所有正确字符串;
所述相似串搜索模块,用于搜索待处理文本中具有所述有效上下文信息的待处理字符串,判断所述待处理字符串与和所述待处理字符串具有相同有效上下文信息的正确字符串的相似性是否满足预定要求;
所述改错模块,用于在所述相似性满足预定要求时,将所述待处理字符串替换成所述正确字符串,或者将所述待处理字符串和所述有效上下文信息一并替换为所述正确字符串和所述有效上下文信息。
CN201310033697.8A 2013-01-29 2013-01-29 一种改错模型训练方法、装置和文本改错方法、装置 Active CN103970765B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201310033697.8A CN103970765B (zh) 2013-01-29 2013-01-29 一种改错模型训练方法、装置和文本改错方法、装置
PCT/CN2013/086152 WO2014117549A1 (en) 2013-01-29 2013-10-29 Method and device for error correction model training and text error correction
US14/106,642 US20140214401A1 (en) 2013-01-29 2013-12-13 Method and device for error correction model training and text error correction
US16/133,440 US10643029B2 (en) 2013-01-29 2018-09-17 Model-based automatic correction of typographical errors

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310033697.8A CN103970765B (zh) 2013-01-29 2013-01-29 一种改错模型训练方法、装置和文本改错方法、装置

Publications (2)

Publication Number Publication Date
CN103970765A true CN103970765A (zh) 2014-08-06
CN103970765B CN103970765B (zh) 2016-03-09

Family

ID=51240277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310033697.8A Active CN103970765B (zh) 2013-01-29 2013-01-29 一种改错模型训练方法、装置和文本改错方法、装置

Country Status (2)

Country Link
CN (1) CN103970765B (zh)
WO (1) WO2014117549A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538292A (zh) * 2018-04-26 2018-09-14 科大讯飞股份有限公司 一种语音识别方法、装置、设备及可读存储介质
CN108664466A (zh) * 2018-04-11 2018-10-16 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN110162750A (zh) * 2019-01-24 2019-08-23 腾讯科技(深圳)有限公司 文本相似度检测方法、电子设备及计算机可读存储介质
WO2021129410A1 (zh) * 2019-12-23 2021-07-01 华为技术有限公司 文本处理方法及装置
CN113360705A (zh) * 2021-08-09 2021-09-07 武汉华信数据系统有限公司 数据管理方法和数据管理装置
CN113657098A (zh) * 2021-08-24 2021-11-16 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104882139B (zh) * 2015-05-28 2017-03-15 百度在线网络技术(北京)有限公司 语音合成的方法和装置
US11093709B2 (en) 2017-08-10 2021-08-17 International Business Machine Corporation Confidence models based on error-to-correction mapping
CN109669549B (zh) * 2017-10-16 2023-04-28 北京搜狗科技发展有限公司 候选内容生成方法和装置、用于候选内容生成的装置
CN108595419B (zh) * 2018-04-11 2022-05-03 广州视源电子科技股份有限公司 候选词评估方法、候选词排序方法及装置
CN111339756B (zh) * 2018-11-30 2023-05-16 北京嘀嘀无限科技发展有限公司 一种文本检错方法及装置
CN110941720B (zh) * 2019-09-12 2023-06-09 贵州耕云科技有限公司 一种基于知识库的特定人员信息纠错方法
CN110807319B (zh) * 2019-10-31 2023-07-25 北京奇艺世纪科技有限公司 一种文本内容检测方法、检测装置、电子设备及存储介质
CN111079416B (zh) * 2019-12-03 2024-02-02 河海大学常州校区 基于共享控制门结构的中文文本校正方法
CN112509581B (zh) * 2020-11-20 2024-03-01 北京有竹居网络技术有限公司 语音识别后文本的纠错方法、装置、可读介质和电子设备
CN116306598B (zh) * 2023-05-22 2023-09-08 上海蜜度信息技术有限公司 针对不同领域字词的定制化纠错方法、系统、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1169199A (zh) * 1995-01-26 1997-12-31 苹果电脑公司 产生和利用上下文相关子音节模型来识别有调语言的系统和方法
CN1387650A (zh) * 1999-11-05 2002-12-25 微软公司 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
CN1489740A (zh) * 2001-02-07 2004-04-14 �Ҵ���˾ 基于上下文的信息检索
CN101256462A (zh) * 2007-02-28 2008-09-03 北京三星通信技术研究有限公司 基于全混合联想库的手写输入方法和装置
CN101266520A (zh) * 2008-04-18 2008-09-17 黄晓凤 一种可实现灵活键盘布局的系统
US20120284308A1 (en) * 2011-05-02 2012-11-08 Vistaprint Technologies Limited Statistical spell checker
CN102884518A (zh) * 2010-02-01 2013-01-16 金格软件有限公司 尤其用于小键盘装置的使用互联网语料库的自动的上下文相关的语言校正

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US7194684B1 (en) * 2002-04-09 2007-03-20 Google Inc. Method of spell-checking search queries

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1169199A (zh) * 1995-01-26 1997-12-31 苹果电脑公司 产生和利用上下文相关子音节模型来识别有调语言的系统和方法
CN1387650A (zh) * 1999-11-05 2002-12-25 微软公司 对拼写、打字和转换错误具有容错能力的将一种文本形式转换为另一种文本形式的语言输入体系结构
CN1489740A (zh) * 2001-02-07 2004-04-14 �Ҵ���˾ 基于上下文的信息检索
CN101256462A (zh) * 2007-02-28 2008-09-03 北京三星通信技术研究有限公司 基于全混合联想库的手写输入方法和装置
CN101266520A (zh) * 2008-04-18 2008-09-17 黄晓凤 一种可实现灵活键盘布局的系统
CN102884518A (zh) * 2010-02-01 2013-01-16 金格软件有限公司 尤其用于小键盘装置的使用互联网语料库的自动的上下文相关的语言校正
US20120284308A1 (en) * 2011-05-02 2012-11-08 Vistaprint Technologies Limited Statistical spell checker

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664466A (zh) * 2018-04-11 2018-10-16 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN108664466B (zh) * 2018-04-11 2022-07-08 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN108538292A (zh) * 2018-04-26 2018-09-14 科大讯飞股份有限公司 一种语音识别方法、装置、设备及可读存储介质
CN108538292B (zh) * 2018-04-26 2020-12-22 科大讯飞股份有限公司 一种语音识别方法、装置、设备及可读存储介质
CN110162750A (zh) * 2019-01-24 2019-08-23 腾讯科技(深圳)有限公司 文本相似度检测方法、电子设备及计算机可读存储介质
CN110162750B (zh) * 2019-01-24 2023-07-07 腾讯科技(深圳)有限公司 文本相似度检测方法、电子设备及计算机可读存储介质
WO2021129410A1 (zh) * 2019-12-23 2021-07-01 华为技术有限公司 文本处理方法及装置
CN113360705A (zh) * 2021-08-09 2021-09-07 武汉华信数据系统有限公司 数据管理方法和数据管理装置
CN113360705B (zh) * 2021-08-09 2021-11-19 武汉华信数据系统有限公司 数据管理方法和数据管理装置
CN113657098A (zh) * 2021-08-24 2021-11-16 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN113657098B (zh) * 2021-08-24 2024-03-01 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN103970765B (zh) 2016-03-09
WO2014117549A1 (en) 2014-08-07

Similar Documents

Publication Publication Date Title
CN103970765B (zh) 一种改错模型训练方法、装置和文本改错方法、装置
US10643029B2 (en) Model-based automatic correction of typographical errors
US20200349175A1 (en) Address Search Method and Device
US9613025B2 (en) Natural language question answering system and method, and paraphrase module
CN107291783B (zh) 一种语义匹配方法及智能设备
CN105045778B (zh) 一种汉语同音词错误自动校对方法
CN112016304A (zh) 文本纠错方法、装置、电子设备及存储介质
CN103324621B (zh) 一种泰语文本拼写纠正方法及装置
CN110134949B (zh) 一种基于教师监督的文本标注方法和设备
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
TWI553491B (zh) 問句處理系統及其方法
KR101633556B1 (ko) 문법 오류 수정 장치 및 이를 이용한 문법 오류 수정 방법
CN111488468A (zh) 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN109614623B (zh) 一种基于句法分析的作文处理方法及系统
CN106815193A (zh) 模型训练方法及装置和错别字识别方法及装置
CN106547743B (zh) 一种进行翻译的方法及其系统
CN105512110A (zh) 一种基于模糊匹配与统计的错字词知识库构建方法
CN105740235B (zh) 一种融合越南语语法特征的短语树到依存树的转换方法
CN109213998A (zh) 中文错字检测方法及系统
US10319378B2 (en) Interaction apparatus and method
CN107797981B (zh) 一种目标文本识别方法及装置
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
Schottmüller et al. Issues in translating verb-particle constructions from german to english
CN106815592B (zh) 文本数据处理方法及装置和错别字识别方法及装置
CN109727591B (zh) 一种语音搜索的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant