CN102999483A - 一种文本矫正的方法和装置 - Google Patents

一种文本矫正的方法和装置 Download PDF

Info

Publication number
CN102999483A
CN102999483A CN2011102762415A CN201110276241A CN102999483A CN 102999483 A CN102999483 A CN 102999483A CN 2011102762415 A CN2011102762415 A CN 2011102762415A CN 201110276241 A CN201110276241 A CN 201110276241A CN 102999483 A CN102999483 A CN 102999483A
Authority
CN
China
Prior art keywords
text
word
corrected
candidate
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102762415A
Other languages
English (en)
Other versions
CN102999483B (zh
Inventor
刘占一
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110276241.5A priority Critical patent/CN102999483B/zh
Publication of CN102999483A publication Critical patent/CN102999483A/zh
Application granted granted Critical
Publication of CN102999483B publication Critical patent/CN102999483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文本矫正的方法和装置,其中方法包括:获取待矫正文本;利用预设的标准文本库查找待矫正文本的相似文本;将相似文本与待矫正文本进行比较,确定差异词对,其中差异词对中待矫正文本中的差异词为原始词,相似文本中的差异词为原始词对应的候选词;利用候选词分别对待矫正文本中对应的原始词进行替换构成M1个候选文本,M1为正整数;分别针对候选文本和待矫正文本计算文本流利度,选出流利度最高的M2个文本,M2为小于或等于M1+1的正整数;分别计算M2个文本的搭配概率,选出搭配概率排在前M3个的文本作为矫正后的文本,M3为小于或等于M2的正整数。本发明能够实现对文本中不地道的表达或者不恰当的词语搭配进行矫正。

Description

一种文本矫正的方法和装置
【技术领域】
本发明涉及计算机技术领域,特别涉及一种文本矫正的方法和装置。
【背景技术】
随着社会的发展,科技的进步,国际学术交流越来越频繁。在各国之间进行学术文献的非母语交流时,尤其对于经验不足的人来说,表达是否地道,词语搭配是否恰当是常常被困扰的问题。例如,想用英文表达“绿色食品”,对于母语是汉语的人来说,很可能表达成“green food”,但实际上,地道的说法应该是“organic food”,可以看出,高质量的学术论文,离不开地道的语言表达方式。
目前已经存在对文本进行查错的技术,但这种差错通常只能查出拼写错误或者语法错误,而不能对文本中不地道的表达或者不恰当的词语搭配进行矫正。
【发明内容】
本发明提供了一种文本矫正的方法和装置,以便于实现对文本中不地道的表达或者不恰当的词语搭配进行矫正。
具体技术方案如下:
一种文本矫正的方法,该方法包括:
S1、获取待矫正文本;
S2、利用预设的标准文本库查找所述待矫正文本的相似文本;
S3、将所述相似文本与待矫正文本进行比较,确定差异词对,其中所述差异词对中待矫正文本中的差异词为原始词,相似文本中的差异词为所述原始词对应的候选词;
S4、利用候选词分别对所述待矫正文本中对应的原始词进行替换构成M1个候选文本,M1为正整数;
S5、分别针对所述候选文本和所述待矫正文本计算文本流利度,选出流利度最高的M2个文本,M2为小于或等于M1+1的正整数;
S6、分别计算所述M2个文本的搭配概率,选出搭配概率排在前M3个的文本作为矫正后的文本,M3为小于或等于M2的正整数,其中文本的搭配概率由文本中对象词与其他各词语在所述标准文本库中的搭配概率确定,所述对象词为文本中的原始词或候选词。
其中,所述步骤S2具体包括:计算所述待矫正文本与所述标准文本库中文本的相似度,确定相似度满足预设相似度阈值的文本作为所述待矫正文本的相似文本。
计算所述待矫正文本与所述标准文本库中文本的相似度具体包括:
计算所述待矫正文本与所述标准文本库中文本之间的编辑距离,利用所述编辑距离确定相似度;或者,
利用所述待矫正文本与所述标准文本库中文本的差异词特征向量之间的距离,计算所述待矫正文本与所述标准文本库中文本之间的相似距离,利用所述相似距离确定相似度。
更进一步地,在所述步骤S3中确定出差异词对之后,还包括:
判断所述差异词对是否为同义词对,将不是同义词对的差异词对删除。
具体地,判断所述差异词对是否为同义词对包括:
判断所述差异词对中的两个差异词是否在预设的同义词典中以同义词对的形式出现,如果是,则确定所述差异词对为同义词对;或者,
判断所述差异词对中的两个差异词是否在预设的翻译词典中具有相同的译文,如果是,则确定所述差异词对为同义词对。
在所述步骤S5中,文本流利度由文本中对象词在大规模语料库中的出现概率以及对象词与上下文在所述标准文本库或大规模语料库中的共现概率确定。
具体地,在所述S6中,所述文本的搭配概率为文本中各对象词与其他各词语在所述标准文本库中的搭配概率之和。
优选地,该方法还包括:将所述矫正后的文本在弹出的文本框中显示,且将所述待矫正文本中对应的原始词进行突出显示,将矫正后文本中的候选词进行突出显示。
较优地,在所述步骤S6之后还包括:
S7、分别计算所述矫正后文本中候选词的评分以及所述待矫正文本中对应原始词的评分,其中词语在文本中的评分由该词语与上下文在所述标准文本库中的共现概率和/或该词语与文本中其他词语在所述标准文本库中的搭配概率确定;
S8、根据所述矫正后文本中候选词的评分与所述待矫正文本中对应原始词的评分差异,为矫正后文本中候选词的置信度进行打分。
较优地,将所述矫正后文本中候选词的置信度的打分状况在弹出的文本框中显示。
更进一步地,该方法还包括:
在所述矫正后文本中确定与候选词的搭配概率最大的词语,以确定的该词语和候选词的组合作为查询词在所述标准文本库中进行查询,确定包含所述组合的例句在弹出的文本框中显示。
一种文本矫正的装置,该装置包括:
输入单元,用于获取待矫正文本;
相似文本确定单元,用于利用预设的标准文本库查找所述待矫正文本的相似文本;
差异词确定单元,用于将所述相似文本与待矫正文本进行比较,确定差异词对,其中所述差异词对中待矫正文本中的差异词为原始词,相似文本中的差异词为所述原始词对应的候选词;
候选文本确定单元,用于利用候选词分别对所述待矫正文本中对应的原始词进行替换构成M1个候选文本,M1为正整数;
流利度计算单元,用于分别针对所述候选文本和所述待矫正文本计算文本流利度,选出流利度最高的M2个文本,M2为小于或等于M1+1的正整数;
搭配概率计算单元,用于分别计算所述M2个文本的搭配概率,选出搭配概率排在前M3个的文本作为矫正后的文本,M3为小于或等于M2的正整数,其中文本的搭配概率由文本中对象词与其他各词语在所述标准文本库中的搭配概率确定,所述对象词为文本中的原始词或候选词。
其中,所述相似文本确定单元计算所述待矫正文本与所述标准文本库中文本的相似度,确定相似度满足预设相似度阈值的文本作为所述待矫正文本的相似文本。
所述相似文本确定单元具体计算所述待矫正文本与所述标准文本库中文本之间的编辑距离,利用所述编辑距离确定相似度;或者,
利用所述待矫正文本与所述标准文本库中文本的差异词特征向量之间的距离,计算所述待矫正文本与所述标准文本库中文本之间的相似距离,利用所述相似距离确定相似度。
较优地,该装置还包括:同义词判断单元,用于判断所述差异词确定单元确定的差异词对是否为同义词,将不是同义词对的差异词对删除后,将剩余的差异词对提供给所述候选文本确定单元。
所述同义词对判断单元具体判断所述差异词对中的两个差异词是否在预设的同义词典中以同义词对的形式出现,如果是,则确定所述差异词对为同义词对;或者,
判断所述差异词对中的两个差异词是否在预设的翻译词典中具有相同的译文,如果是,则确定所述差异词对为同义词对。
所述流利度计算单元根据文本中对象词在大规模语料库中的出现概率以及对象词与上下文在所述标准文本库或大规模语料库中的共现概率确定文本流利度。
其中,搭配概率计算单元在计算文本的搭配概率时,具体计算文本中各对象词与其他各词语在所述标准文本库中的搭配概率之和。
较优地,该装置还包括:第一显示单元,用于将所述矫正后的文本在弹出的文本框中显示,且将所述待矫正文本中对应的原始词进行突出显示,将矫正后文本中的候选词进行突出显示。
更进一步地,该装置还包括:
词语评分单元,用于分别计算所述矫正后文本中候选词的评分以及所述待矫正文本中对应原始词的评分,其中词语在文本中的评分由该词语与上下文在所述标准文本库中的共现概率和/或该词语与文本中其他词语在所述标准文本库中的搭配概率确定;
置信度评分单元,用于根据所述矫正后文本中候选词的评分与所述待矫正文本中对应原始词的评分差异,为矫正后文本中候选词的置信度进行打分。
优选地,该装置还包括:第二显示单元,用于将所述矫正后文本中候选词的置信度的打分状况在弹出的文本框中显示。
较优地,该装置还包括:
例句参考单元,用于在所述矫正后文本中确定与候选词的搭配概率最大的词语,以确定的该词语和候选词的组合作为查询词在所述标准文本库中进行查询,确定包含所述组合的例句;
第三显示单元,用于在弹出的文本框中显示所述例句参考单元确定的例句。
由以上技术方案可以看出,本发明提供的方法和装置基于标准文本库,将文本流利度和词语间的搭配概率融入文本的矫正,从而实现对文本中不地道的表达或者不恰当的词语搭配进行矫正。
【附图说明】
图1为本发明实施例一提供的方法流程图;
图2为本发明实施例一提供的包含矫正后文本的文本框实例图;
图3为本发明实施例二提供的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
首先对本发明所提供的方法进行描述,图1为本发明实施例一提供的方法流程图,如图1所示,该方法可以包括以下步骤:
步骤101:获取待矫正文本。
在本发明实施例中,待矫正文本可以是段落、句子或者短语等。
步骤102:利用预设的标准文本库查找上述待矫正文本的相似文本。
根据不同的待矫正文本类型,在本步骤中可以相应选取标准文本库。例如,如果待矫正文本是句子,则该标准文本库可以是标准例句库,更具体地,如果用于学术论文的矫正,则可以采用学术论文例句库。
在查找相似文本时,可以计算待矫正文本和标准文本库中文本的相似度,确定相似度满足预设相似度阈值的文本。例如,待矫正文本是句子,则计算待矫正句子与标准例句库中例句之间的相似度,选择相似度满足预设相似度阈值的例句作为待矫正句子的相似例句。
其中,相似度的计算方式可以采用但不限于:利用文本之间的编辑距离计算文本之间的相似度,或者,利用文本之间差异词的相似距离计算文本之间的相似度。上述文本之间的编辑距离指的是:从其中一个文本转换到另一个文本所需要的最少的操作数目,操作包括:插入、删除或替换等,该部分为已有技术,在此不再赘述。上述差异词的相似距离可以采用差异词的特征向量之间的距离进行计算。
需要说明的是,本步骤确定出的相似文本可能是一个,也可能是多个。也可能找不到相似文本,如果找不到相似文本,则结束矫正流程,可以认为该待矫正文本无需矫正。
步骤103:将相似文本与待矫正文本进行比较,确定差异词对,其中差异词对中待矫正文本的差异词确定为原始词,相似文本中的差异词确定为原始词对应的候选词。
本步骤中将相似文本与待矫正文本逐一进行比较,确定出不一致的词语即为差异词。需要说明的是,在比较时会首先对相似文本和待矫正文本进行文本分析和停用词过滤的处理,该部分为已有的成熟技术,在此不再赘述。
举个例子,为了描述方便,我们以确定出一个相似文本为例:
待矫正文本:Using the suggested method,we increased the performance ofthe system。
相似文本:Using the proposed method,we improved the performance of thesystem。
将上述相似文本和待矫正文本进行比较后,确定出差异词对为:suggested(原始词)和proposed(候选词),increased(原始词)和improved(候选词)。
作为一种优选的实施方式,在确定出差异词对后,可以进一步判断差异词对是否为同义词对,将不是同义词对的差异词对删除。其中同义词对的判断方法可以采用但不限于以下两种方式:
方式1:利用预设的同义词典实现,即判断差异词对中的两个差异词是否在同义词典中以同义词对的形式出现,如果是,则判断出该差异词对为同义词对。
方式2:利用预设的翻译词典实现,即判断差异词对中的两个差异词是否在翻译词典中具有相同的译文,如果是,则判断出该差异词对为同义词对。
步骤104:利用候选词分别对待矫正文本中对应的原始词进行替换构成M1个候选文本,M1为正整数。
接续上例,利用proposed对suggested进行替换后,构成候选文本1;利用improved对increased进行替换后,构成候选文本2;利用proposed对suggested进行替换且利用improved对increased进行替换后,构成候选文本3。具体如下:
候选文本1:Using the proposed method,we increased the performance ofthe system。
候选文本2:Using the suggested method,we improved the performance ofthe system。
候选文本3:Using the proposed method,we improved the performance ofthe system。
实际上就是采用不同位置的原始词和候选词排列组合的方式构成的各文本中除了待矫正文本之外,其他都是候选文本。
步骤105:分别针对候选文本和待矫正文本计算文本流利度,从中选出流利度最高的M2个文本,M2为小于或等于M1+1的正整数。
其中文本流利度由文本中原始词或候选词在大规模语料库中的出现概率以及原始词或候选词与上下文在所述标准文本库中的共现概率确定。
例如,可以采用如下公式计算文本流利度:
F ( E ) = λ LM Σ w i ∈ e p ( w i | w i - 1 , · · · , w i - N ) + λ C Σ w i ∈ e C ( w i ) - - - ( 1 )
其中,F(E)为文本E的流利度,e为文本E中的原始词和候选词构成的集合,p(wi|wi-1,…,wi-N)为原始词或候选词wi与其前N个词语在标准文本库中的共现概率,当然也可以选择与其后N个词语在标准文本库中的共现概率,或者其前后N个词语在标准文本库中的共现概率,在此仅以与其前N个词语在标准文本库中共现的概率为例,其中N为预设的正整数,C(wi)为wi在大规模语料库中的出现概率,λLM和λC为预设的权值参数。
以上述例子中的候选文本2为例,计算该候选文本2的流利度。在该候选文本2中,原始词和候选词包括:suggested和improved,如果公式(1)中N设为1,则可以分别计算suggested与the在标准文本库中的共现概率,improved与we在标准文本库中的共现概率,统计suggested在大规模语料库中的出现概率以及improved在大规模语料库中的出现概率,利用公式(1)计算候选文本2的流利度。
假设分别计算待矫正文本、候选文本1、候选文本2和候选文本3的流利度后,选出流利度排在前2个的文本为:待矫正文本和候选文本3。
需要说明的是,在文本流利度的计算中,考虑原始词或候选词与上下文在标准文本库中的共现概率仅是其中一种方式,或者,可以考虑原始词或候选词与上下文在大规模语料库中的共现概率,或者,综合考虑原始词或候选词与上下文在大规模语料库和标准文本库中的共现概率。当然,文本流利度也可以采用已有的其他计算方式。
步骤106:分别计算选出的M2个文本的搭配概率,选出搭配概率排在前M3个的文本作为矫正后文本,M3为小于或等于M2的正整数,其中文本的搭配概率由文本中原始词与其他各词语在标准文本库中的搭配概率以及候选词与其他各词语在标准文本库中的搭配概率确定。
例如,可以采用如下公式计算文本的搭配概率:
CO ( E ) = Σ w i ∈ E , w j ∈ E , w i ∈ e , w j ≠ w i r ( w i , w j ) - - - ( 2 )
其中,CO(E)为文本E的搭配概率,e为文本E中的原始词和候选词构成的集合,r(wi,wj)为文本E中的原始词或候选词wi与其他词语wj在标准文本库中的搭配概率。
以上述的候选文本3为例,计算propose与候选文本3中其他各词语在标准文本库中的搭配概率,以及improved与候选文本3中其他各词语在标准文本中的搭配概率,将计算得到的搭配概率进行求和后得到候选文本3的搭配概率。
需要说明的是,搭配概率通常是通过统计词语的固定搭配得到的,由于搭配概率的确定方法是已有技术,在此不再赘述。
在计算出N2个文本的搭配概率后,按照搭配概率从高到低的顺序从中选出矫正后文本。作为一种优选的实施例,从中选出一个文本作为矫正后文本。接续上例,假设计算待矫正文本和候选文本3的搭配概率后,候选文本3的搭配概率高,则选择候选文本3作为矫正后文本。
在本实施例中可以将矫正后的文本作为建议在弹出的文本框中进行显示,如图2所示,且可以将矫正后的文本中的候选词进行突出显示,并将待矫正文本中对应的原始词进行突出显示,图2中以黑体进行显示。
在确定出矫正后文本之后,更优地,还可以进一步对该矫正后文本中候选词的置信度进行评价,即执行以下步骤:
步骤107:分别计算矫正后文本中候选词的评分以及待矫正文本中对应原始词的评分,其中词语在文本中的评分由该词语与上下文的共现概率和/或该词语与文本中其他词语的搭配概率确定。
例如,可以采用如下公式计算词语在文本中的评分,该词语为矫正后文本中的候选词或待矫正文本中对应的原始词:
conf ( w i , E ) = λ 1 p ( w i - n , · · · , w i - 1 , w i , w i + 1 , · · · , w i + n ) + λ 2 Σ w i ∈ E , w j ∈ E , w j ≠ w i r ( w i , w j ) - - - ( 3 )
其中,conf(wi,E)为原始词或候选词wi在文本E中的评分,p(wi-n,…,wi-1,wi,wi+1,…,wi+n)为wi与其上下n个词语在标准文本库中的共现概率,体现了wi的流利度,n为预设的正整数,r(wi,wj)为wi与文本E中其他词语wj在标准文本库中的搭配概率,λ1和λ2为预设的权值参数。
以矫正后文本中的候选词proposed为例,如果设定n为1,则计算theproposed method在标准文本库中的共现概率,计算proposed与该矫正后文本中其他词语的搭配概率之和,然后按照公式(3)进行计算得到该候选词proposed的评分。
步骤108:根据矫正后文本中候选词的评分与待矫正文本中对应原始词的评分差异,为矫正后文本中候选词的置信度进行打分。
其中,矫正后文本中候选词的评分与待矫正文本中对应原始词的评分差异越大,则矫正后文本中候选词的置信度越高。
例如,可以计算矫正后文本中候选词的评分与待矫正文本中对应原始词的评分的比值,比值越大,该矫正后文本中候选词的置信度越高。
仍接续上例,按照公式(3)计算proposed在矫正后文本中的评分,计算suggested在待矫正文本中的评分,求两者的比值,比值越大,说明proposed的置信度越高,也就是说,从suggested修改为proposed的准确性越高。同样计算improved在矫正后文本中的评分,计算increased在待矫正文本中的评分,求两者的比值,比值越大,说明improved的置信度越高,也就是说,从increased修改为improved的准确性越高。
优选地,可以将矫正后文本中候选词的置信度的打分进行显示,例如,可以将置信度的打分对应到不同的置信度级别,例如,当置信度的打分值高于阈值u1时,给出三颗星,当置信度的打分值在阈值u1和u2之间时,给出两颗星,当置信度的打分值低于阈值u2时,给出一颗星。如图2中所示。这样就能够给与用户更清楚的指导作用,供用户确定是否选择矫正后的文本。
除此之外,在本发明的实施例中,还可以进一步确定矫正后文本中候选词与该矫正后文本中其他词语的搭配概率最大的词语,以该候选词和确定的该词语的组合作为query在标准文本库中进行查询,确定包含该组合的例句同时显示给用户作为参考。如图2所示,proposed在矫正后文本中与method的搭配概率最大,则以propose method的组合作为query在标准文本库中进行查询,可以确定出包含该组合的例句,从中选出一个或多个作为参考进行显示。
另外,在弹出的文本框中,用户可以选择是否采用矫正后文本中的候选词,如果用户拒绝采用,则可以点击拒绝采用的标识,如图2中置信度框中的“×”,这样就会撤销对应的候选词还原成对应的原始词。
以上是对本发明所提供的方法进行的详细描述,下面结合实施例二对本发明提供的文本矫正的装置进行详细描述。
实施例二、
图3为本发明实施例二提供的装置结构图,如图3所示,该装置可以包括:输入单元300、相似文本确定单元301、差异词确定单元302、候选文本确定单元303、流利度计算单元304和搭配概率计算单元305。
输入单元300获取待矫正文本。
在本发明实施例中,待矫正文本可以是段落、句子或者短语等。
相似文本确定单元301利用预设的标准文本库查找待矫正文本的相似文本。
根据不同的待矫正文本类型可以选择相应的标准文本库,例如,如果待矫正文本是句子,则该标准文本库可以是标准例句库,更具体地,如果用于学术论文的矫正,则可以采用更加专业的学术论文例句库。
在查找相似文本时,相似文本确定单元301通过计算待矫正文本与标准文本库中文本的相似度,确定相似度满足预设相似度阈值的文本作为待矫正文本的相似文本。具体地,相似度的计算方式可以采用但不限于:计算待矫正文本与标准文本库中文本之间的编辑距离,利用编辑距离确定相似度,其中文本之间的编辑距离指的是:从其中一个文本转换到另一个文本所需要的最少的操作数目,操作包括:插入、删除或替换等,该部分为已有技术,在此不再赘述。或者,利用待矫正文本与标准文本库中文本的差异词特征向量之间的距离,计算待矫正文本与标准文本库中文本之间的相似距离,利用相似距离确定相似度。
相似文本确定单元301确定出的相似文本可能是一个,也可能是多个,也可能找不到相似文本,如果找不到相似文本,则结束矫正流程,认为该待矫正文本无需矫正。
差异词确定单元302将相似文本与待矫正文本进行比较,确定差异词对,其中差异词对中待矫正文本中的差异词为原始词,相似文本中的差异词为原始词对应的候选词。
候选文本确定单元303利用候选词分别对待矫正文本中对应的原始词进行替换构成M1个候选文本,M1为正整数。
也就是说,选择不同位置的原始词和候选词排列组合的方式构成的各文本中除了待矫正文本之外,其他都是候选文本。
流利度计算单元304分别针对候选文本和待矫正文本计算文本流利度,选出流利度最高的M2个文本,M2为小于或等于M1+1的正整数。
具体地,流利度计算单元304可以根据文本中对象词在大规模语料库中的出现概率以及对象词与上下文在标准文本库或大规模语料库中的共现概率确定文本流利度,其中对象词为文本中的原始词或候选词。
例如,在计算文本流利度时,可以采用实施例一中所述的公式(1)进行计算,在此不再赘述。
搭配概率计算单元305分别计算M2个文本的搭配概率,选出搭配概率排在前M3个的文本作为矫正后的文本,M3为小于或等于M2的正整数,其中文本的搭配概率由文本中对象词与其他各词语在标准文本库中的搭配概率确定。
其中,搭配概率计算单元305在计算文本的搭配概率时,具体计算文本中各对象词与其他各词语在标准文本库中的搭配概率之和,例如可以采用实施例一中公式(2)所示的方式。
作为一种优选的实施方式,在按照搭配概率从高到低的顺序从中选出一个文本作为校正后的文本。
另外,该装置还可以包括:同义词判断单元306,用于判断差异词确定单元302确定的差异词对是否为同义词,将不是同义词对的差异词对删除后,将剩余的差异词对信息提供给候选文本确定单元303。
具体地,同义词对判断单元306可以采用但不限于以下方式判断同义词对:判断差异词对中的两个差异词是否在预设的同义词典中以同义词对的形式出现,如果是,则确定差异词对为同义词对;或者,判断差异词对中的两个差异词是否在预设的翻译词典中具有相同的译文,如果是,则确定差异词对为同义词对。
为了将矫正后的结果展现给用户供用户参考和选择,该装置还可以包括:第一显示单元307,用于将矫正后的文本在弹出的文本框中显示,且将待矫正文本中对应的原始词进行突出显示,将矫正后文本中的候选词进行突出显示。
该装置在确定出矫正后文本之后,还可以进一步对矫正后文本中候选词的置信度进行评价,此时,该装置还可以包括:词语评分单元308和置信度评分单元309。
词语评分单元308分别计算矫正后文本中候选词的评分以及待矫正文本中对应原始词的评分,其中词语在文本中的评分由该词语与上下文在标准文本库中的共现概率和/或该词语与文本中其他词语在标准文本库中的搭配概率确定。在计算词语在文本中的评分时,可以采用诸如实施例一中公式(3)所示的方式。
置信度评分单元309根据矫正后文本中候选词的评分与待矫正文本中对应原始词的评分差异,为矫正后文本中候选词的置信度进行打分。
其中,矫正后文本中候选词的评分与待矫正文本中对应原始词的评分差异越大,则矫正后文本中候选词的置信度越高。例如,可以计算矫正后文本中候选词的评分与待矫正文本中对应原始词的评分的比值,比值越大,该矫正后文本中候选词的置信度越高。
此时,该装置还可以包括:第二显示单元310,用于将矫正后文本中候选词的置信度的打分状况在弹出的文本框中显示。
除此之外,为了证明矫正后文本中所采用候选词的置信度较高,可以进一步为用户提供一些参考文本,此时,该装置还可以包括:例句参考单元311和第三显示单元312。
例句参考单元311在矫正后文本中确定与候选词的搭配概率最大的词语,以确定的该词语和候选词的组合作为查询词在标准文本库中进行查询,确定包含组合的例句。
第三显示单元312在弹出的文本框中显示例句参考单元确定的例句。
上述第一显示单元307、第二显示单元310和第三显示单元312可以分别设置为独立的单元,也设置为一个单元实现。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (22)

1.一种文本矫正的方法,其特征在于,该方法包括:
S1、获取待矫正文本;
S2、利用预设的标准文本库查找所述待矫正文本的相似文本;
S3、将所述相似文本与待矫正文本进行比较,确定差异词对,其中所述差异词对中待矫正文本中的差异词为原始词,相似文本中的差异词为所述原始词对应的候选词;
S4、利用候选词分别对所述待矫正文本中对应的原始词进行替换构成M1个候选文本,M1为正整数;
S5、分别针对所述候选文本和所述待矫正文本计算文本流利度,选出流利度最高的M2个文本,M2为小于或等于M1+1的正整数;
S6、分别计算所述M2个文本的搭配概率,选出搭配概率排在前M3个的文本作为矫正后的文本,M3为小于或等于M2的正整数,其中文本的搭配概率由文本中对象词与其他各词语在所述标准文本库中的搭配概率确定,所述对象词为文本中的原始词或候选词。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括:计算所述待矫正文本与所述标准文本库中文本的相似度,确定相似度满足预设相似度阈值的文本作为所述待矫正文本的相似文本。
3.根据权利要求2所述的方法,其特征在于,计算所述待矫正文本与所述标准文本库中文本的相似度具体包括:
计算所述待矫正文本与所述标准文本库中文本之间的编辑距离,利用所述编辑距离确定相似度;或者,
利用所述待矫正文本与所述标准文本库中文本的差异词特征向量之间的距离,计算所述待矫正文本与所述标准文本库中文本之间的相似距离,利用所述相似距离确定相似度。
4.根据权利要求1所述的方法,其特征在于,在所述步骤S3中确定出差异词对之后,还包括:
判断所述差异词对是否为同义词对,将不是同义词对的差异词对删除。
5.根据权利要求4所述的方法,其特征在于,判断所述差异词对是否为同义词对包括:
判断所述差异词对中的两个差异词是否在预设的同义词典中以同义词对的形式出现,如果是,则确定所述差异词对为同义词对;或者,
判断所述差异词对中的两个差异词是否在预设的翻译词典中具有相同的译文,如果是,则确定所述差异词对为同义词对。
6.根据权利要求1所述的方法,其特征在于,在所述步骤S5中,文本流利度由文本中对象词在大规模语料库中的出现概率以及对象词与上下文在所述标准文本库或大规模语料库中的共现概率确定。
7.根据权利要求1所述的方法,其特征在于,在所述S6中,所述文本的搭配概率为文本中各对象词与其他各词语在所述标准文本库中的搭配概率之和。
8.根据权利要求1所述的方法,其特征在于,该方法还包括:将所述矫正后的文本在弹出的文本框中显示,且将所述待矫正文本中对应的原始词进行突出显示,将矫正后文本中的候选词进行突出显示。
9.根据权利要求1所述的方法,其特征在于,在所述步骤S6之后还包括:
S7、分别计算所述矫正后文本中候选词的评分以及所述待矫正文本中对应原始词的评分,其中词语在文本中的评分由该词语与上下文在所述标准文本库中的共现概率和/或该词语与文本中其他词语在所述标准文本库中的搭配概率确定;
S8、根据所述矫正后文本中候选词的评分与所述待矫正文本中对应原始词的评分差异,为矫正后文本中候选词的置信度进行打分。
10.根据权利要求9所述的方法,其特征在于,该方法还包括:将所述矫正后文本中候选词的置信度的打分状况在弹出的文本框中显示。
11.根据权利要求1所述的方法,其特征在于,该方法还包括:
在所述矫正后文本中确定与候选词的搭配概率最大的词语,以确定的该词语和候选词的组合作为查询词在所述标准文本库中进行查询,确定包含所述组合的例句在弹出的文本框中显示。
12.一种文本矫正的装置,其特征在于,该装置包括:
输入单元,用于获取待矫正文本;
相似文本确定单元,用于利用预设的标准文本库查找所述待矫正文本的相似文本;
差异词确定单元,用于将所述相似文本与待矫正文本进行比较,确定差异词对,其中所述差异词对中待矫正文本中的差异词为原始词,相似文本中的差异词为所述原始词对应的候选词;
候选文本确定单元,用于利用候选词分别对所述待矫正文本中对应的原始词进行替换构成M1个候选文本,M1为正整数;
流利度计算单元,用于分别针对所述候选文本和所述待矫正文本计算文本流利度,选出流利度最高的M2个文本,M2为小于或等于M1+1的正整数;
搭配概率计算单元,用于分别计算所述M2个文本的搭配概率,选出搭配概率排在前M3个的文本作为矫正后的文本,M3为小于或等于M2的正整数,其中文本的搭配概率由文本中对象词与其他各词语在所述标准文本库中的搭配概率确定,所述对象词为文本中的原始词或候选词。
13.根据权利要求12所述的装置,其特征在于,所述相似文本确定单元计算所述待矫正文本与所述标准文本库中文本的相似度,确定相似度满足预设相似度阈值的文本作为所述待矫正文本的相似文本。
14.根据权利要求13所述的装置,其特征在于,所述相似文本确定单元具体计算所述待矫正文本与所述标准文本库中文本之间的编辑距离,利用所述编辑距离确定相似度;或者,
利用所述待矫正文本与所述标准文本库中文本的差异词特征向量之间的距离,计算所述待矫正文本与所述标准文本库中文本之间的相似距离,利用所述相似距离确定相似度。
15.根据权利要求12所述的装置,其特征在于,该装置还包括:同义词判断单元,用于判断所述差异词确定单元确定的差异词对是否为同义词,将不是同义词对的差异词对删除后,将剩余的差异词对提供给所述候选文本确定单元。
16.根据权利要求15所述的装置,其特征在于,所述同义词对判断单元具体判断所述差异词对中的两个差异词是否在预设的同义词典中以同义词对的形式出现,如果是,则确定所述差异词对为同义词对;或者,
判断所述差异词对中的两个差异词是否在预设的翻译词典中具有相同的译文,如果是,则确定所述差异词对为同义词对。
17.根据权利要求12所述的装置,其特征在于,所述流利度计算单元根据文本中对象词在大规模语料库中的出现概率以及对象词与上下文在所述标准文本库或大规模语料库中的共现概率确定文本流利度。
18.根据权利要求12所述的装置,其特征在于,搭配概率计算单元在计算文本的搭配概率时,具体计算文本中各对象词与其他各词语在所述标准文本库中的搭配概率之和。
19.根据权利要求12所述的装置,其特征在于,该装置还包括:第一显示单元,用于将所述矫正后的文本在弹出的文本框中显示,且将所述待矫正文本中对应的原始词进行突出显示,将矫正后文本中的候选词进行突出显示。
20.根据权利要求12所述的装置,其特征在于,该装置还包括:
词语评分单元,用于分别计算所述矫正后文本中候选词的评分以及所述待矫正文本中对应原始词的评分,其中词语在文本中的评分由该词语与上下文在所述标准文本库中的共现概率和/或该词语与文本中其他词语在所述标准文本库中的搭配概率确定;
置信度评分单元,用于根据所述矫正后文本中候选词的评分与所述待矫正文本中对应原始词的评分差异,为矫正后文本中候选词的置信度进行打分。
21.根据权利要求20所述的装置,其特征在于,该装置还包括:第二显示单元,用于将所述矫正后文本中候选词的置信度的打分状况在弹出的文本框中显示。
22.根据权利要求12所述的装置,其特征在于,该装置还包括:
例句参考单元,用于在所述矫正后文本中确定与候选词的搭配概率最大的词语,以确定的该词语和候选词的组合作为查询词在所述标准文本库中进行查询,确定包含所述组合的例句;
第三显示单元,用于在弹出的文本框中显示所述例句参考单元确定的例句。
CN201110276241.5A 2011-09-16 2011-09-16 一种文本矫正的方法和装置 Active CN102999483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110276241.5A CN102999483B (zh) 2011-09-16 2011-09-16 一种文本矫正的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110276241.5A CN102999483B (zh) 2011-09-16 2011-09-16 一种文本矫正的方法和装置

Publications (2)

Publication Number Publication Date
CN102999483A true CN102999483A (zh) 2013-03-27
CN102999483B CN102999483B (zh) 2016-04-27

Family

ID=47928065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110276241.5A Active CN102999483B (zh) 2011-09-16 2011-09-16 一种文本矫正的方法和装置

Country Status (1)

Country Link
CN (1) CN102999483B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464736A (zh) * 2014-12-15 2015-03-25 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
CN105320641A (zh) * 2014-07-30 2016-02-10 腾讯科技(深圳)有限公司 一种文本校验方法及用户终端
CN105374356A (zh) * 2014-08-29 2016-03-02 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
WO2016131278A1 (zh) * 2015-07-16 2016-08-25 中兴通讯股份有限公司 一种文档查错方法和装置
CN106156098A (zh) * 2015-04-02 2016-11-23 深圳市腾讯计算机系统有限公司 一种纠错对挖掘方法及系统
CN106782560A (zh) * 2017-03-06 2017-05-31 海信集团有限公司 确定目标识别文本的方法及装置
CN106991416A (zh) * 2017-03-14 2017-07-28 浙江大学 一种基于手动拍照的化验单识别方法
CN107491730A (zh) * 2017-07-14 2017-12-19 浙江大学 一种基于图像处理的化验单识别方法
CN108875738A (zh) * 2018-06-13 2018-11-23 深圳市云识科技有限公司 一种智能摄像表的云识别纠错系统及其方法
CN109062888A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种出现错误文本输入时的自纠正方法
CN109783811A (zh) * 2018-12-26 2019-05-21 东软集团股份有限公司 一种识别文本编辑错误的方法、装置、设备及存储介质
CN109858005A (zh) * 2019-03-07 2019-06-07 百度在线网络技术(北京)有限公司 基于语音识别的文档更新方法、装置、设备及存储介质
CN111079415A (zh) * 2019-11-12 2020-04-28 中国标准化研究院 一种基于搭配冲突的中文自动查错方法
CN111460110A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 异常文本检测方法、异常文本序列检测方法及装置
CN111626049A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN111797638A (zh) * 2020-06-23 2020-10-20 语联网(武汉)信息技术有限公司 一种单词级质量标签的生成方法及装置
CN112036273A (zh) * 2020-08-19 2020-12-04 泰康保险集团股份有限公司 一种图像识别方法及装置
CN112115703A (zh) * 2020-09-03 2020-12-22 腾讯科技(深圳)有限公司 文章评估方法及装置
CN112528894A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 一种差异项判别方法及装置
CN113168498A (zh) * 2018-12-31 2021-07-23 语享路有限责任公司 语言校正系统及其方法以及系统中的语言校正模型学习方法
CN113919327A (zh) * 2020-07-07 2022-01-11 阿里巴巴集团控股有限公司 文本纠错方法、设备以及计算机可读介质
CN118013958A (zh) * 2024-04-08 2024-05-10 江苏网进科技股份有限公司 一种文本中搭配的纠错方法、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
CN101211344A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 文本信息遍历的快速四维可视化方法
CN101295295A (zh) * 2008-06-13 2008-10-29 中国科学院计算技术研究所 基于线性模型的汉语词法分析方法
CN101361064A (zh) * 2005-12-16 2009-02-04 Emil有限公司 文本编辑装置和方法
CN101568918A (zh) * 2006-12-05 2009-10-28 微软公司 基于web的搭配错误证明
US20100286979A1 (en) * 2007-08-01 2010-11-11 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101361064A (zh) * 2005-12-16 2009-02-04 Emil有限公司 文本编辑装置和方法
CN101568918A (zh) * 2006-12-05 2009-10-28 微软公司 基于web的搭配错误证明
CN101211344A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 文本信息遍历的快速四维可视化方法
CN101079028A (zh) * 2007-05-29 2007-11-28 中国科学院计算技术研究所 一种统计机器翻译中的在线翻译模型选择方法
US20100286979A1 (en) * 2007-08-01 2010-11-11 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
CN101295295A (zh) * 2008-06-13 2008-10-29 中国科学院计算技术研究所 基于线性模型的汉语词法分析方法

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320641A (zh) * 2014-07-30 2016-02-10 腾讯科技(深圳)有限公司 一种文本校验方法及用户终端
CN105320641B (zh) * 2014-07-30 2020-04-03 腾讯科技(深圳)有限公司 一种文本校验方法及用户终端
CN105374356A (zh) * 2014-08-29 2016-03-02 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN105374356B (zh) * 2014-08-29 2019-07-30 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN104464736B (zh) * 2014-12-15 2018-02-02 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
CN104464736A (zh) * 2014-12-15 2015-03-25 北京百度网讯科技有限公司 语音识别文本的纠错方法和装置
CN106156098A (zh) * 2015-04-02 2016-11-23 深圳市腾讯计算机系统有限公司 一种纠错对挖掘方法及系统
WO2016131278A1 (zh) * 2015-07-16 2016-08-25 中兴通讯股份有限公司 一种文档查错方法和装置
CN106782560B (zh) * 2017-03-06 2020-06-16 海信集团有限公司 确定目标识别文本的方法及装置
CN106782560A (zh) * 2017-03-06 2017-05-31 海信集团有限公司 确定目标识别文本的方法及装置
CN106991416A (zh) * 2017-03-14 2017-07-28 浙江大学 一种基于手动拍照的化验单识别方法
CN107491730A (zh) * 2017-07-14 2017-12-19 浙江大学 一种基于图像处理的化验单识别方法
CN109062888A (zh) * 2018-06-04 2018-12-21 昆明理工大学 一种出现错误文本输入时的自纠正方法
CN109062888B (zh) * 2018-06-04 2023-03-31 昆明理工大学 一种出现错误文本输入时的自纠正方法
CN108875738A (zh) * 2018-06-13 2018-11-23 深圳市云识科技有限公司 一种智能摄像表的云识别纠错系统及其方法
CN109783811A (zh) * 2018-12-26 2019-05-21 东软集团股份有限公司 一种识别文本编辑错误的方法、装置、设备及存储介质
CN109783811B (zh) * 2018-12-26 2023-10-31 东软集团股份有限公司 一种识别文本编辑错误的方法、装置、设备及存储介质
CN113168498A (zh) * 2018-12-31 2021-07-23 语享路有限责任公司 语言校正系统及其方法以及系统中的语言校正模型学习方法
CN111460110B (zh) * 2019-01-22 2023-04-25 阿里巴巴集团控股有限公司 异常文本检测方法、异常文本序列检测方法及装置
CN111460110A (zh) * 2019-01-22 2020-07-28 阿里巴巴集团控股有限公司 异常文本检测方法、异常文本序列检测方法及装置
CN109858005A (zh) * 2019-03-07 2019-06-07 百度在线网络技术(北京)有限公司 基于语音识别的文档更新方法、装置、设备及存储介质
CN109858005B (zh) * 2019-03-07 2024-01-12 百度在线网络技术(北京)有限公司 基于语音识别的文档更新方法、装置、设备及存储介质
CN111079415A (zh) * 2019-11-12 2020-04-28 中国标准化研究院 一种基于搭配冲突的中文自动查错方法
CN111626049B (zh) * 2020-05-27 2022-12-16 深圳市雅阅科技有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN111626049A (zh) * 2020-05-27 2020-09-04 腾讯科技(深圳)有限公司 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN111797638A (zh) * 2020-06-23 2020-10-20 语联网(武汉)信息技术有限公司 一种单词级质量标签的生成方法及装置
CN111797638B (zh) * 2020-06-23 2023-11-03 语联网(武汉)信息技术有限公司 一种单词级质量标签的生成方法及装置
CN113919327A (zh) * 2020-07-07 2022-01-11 阿里巴巴集团控股有限公司 文本纠错方法、设备以及计算机可读介质
CN112036273A (zh) * 2020-08-19 2020-12-04 泰康保险集团股份有限公司 一种图像识别方法及装置
CN112115703A (zh) * 2020-09-03 2020-12-22 腾讯科技(深圳)有限公司 文章评估方法及装置
CN112115703B (zh) * 2020-09-03 2023-10-17 腾讯科技(深圳)有限公司 文章评估方法及装置
CN112528894A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 一种差异项判别方法及装置
CN112528894B (zh) * 2020-12-17 2024-05-31 科大讯飞股份有限公司 一种差异项判别方法及装置
CN118013958A (zh) * 2024-04-08 2024-05-10 江苏网进科技股份有限公司 一种文本中搭配的纠错方法、设备和存储介质

Also Published As

Publication number Publication date
CN102999483B (zh) 2016-04-27

Similar Documents

Publication Publication Date Title
CN102999483B (zh) 一种文本矫正的方法和装置
US20190087403A1 (en) Online spelling correction/phrase completion system
US9069753B2 (en) Determining proximity measurements indicating respective intended inputs
US8386237B2 (en) Automatic correction of user input based on dictionary
US8994660B2 (en) Text correction processing
US8762358B2 (en) Query language determination using query terms and interface language
KR101412763B1 (ko) 문맥적 입력 방법
US8521761B2 (en) Transliteration for query expansion
JP4652737B2 (ja) 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
RU2458391C2 (ru) Проверка ошибок сочетаний слов на базе сети интернет
US7818332B2 (en) Query speller
US20130061139A1 (en) Server-based spell checking on a user device
US20020188448A1 (en) Spell checking for text input via reduced keypad keys
KR101495240B1 (ko) 교정 어휘 쌍을 이용한 통계적 문맥 철자오류 교정 장치 및 방법
CN102646091B (zh) 依存关系标注方法、装置和系统
CN101131706A (zh) 一种查询修正方法及系统
KR101573854B1 (ko) 관계어 기반 확률추정 방법을 이용한 통계적 문맥의존 철자오류 교정 장치 및 방법
US20130060560A1 (en) Server-based spell checking
CN106326233B (zh) 地址提示方法及装置
KR20140119763A (ko) 사용자 데이터 입력 예측
KR20100030547A (ko) 중문 문장 오류 검출 장치 및 방법
CN106127265B (zh) 一种基于激活力模型的图片中文本识别纠错方法
WO2014036827A1 (zh) 一种文本校正方法及用户设备
CN109033066A (zh) 一种摘要形成方法及装置
US20100125725A1 (en) Method and system for automatically detecting keyboard layout in order to improve the quality of spelling suggestions and to recognize a keyboard mapping mismatch between a server and a remote user

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant