CN107608963B - 一种基于互信息的中文纠错方法、装置、设备及存储介质 - Google Patents

一种基于互信息的中文纠错方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN107608963B
CN107608963B CN201710817047.0A CN201710817047A CN107608963B CN 107608963 B CN107608963 B CN 107608963B CN 201710817047 A CN201710817047 A CN 201710817047A CN 107608963 B CN107608963 B CN 107608963B
Authority
CN
China
Prior art keywords
word
error correction
sequence
mutual information
pinyin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710817047.0A
Other languages
English (en)
Other versions
CN107608963A (zh
Inventor
何朋
罗欢
权圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN201710817047.0A priority Critical patent/CN107608963B/zh
Publication of CN107608963A publication Critical patent/CN107608963A/zh
Application granted granted Critical
Publication of CN107608963B publication Critical patent/CN107608963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于互信息的中文纠错方法,该方法包括以下步骤:获得待纠错的目标短句,对目标短句进行分词处理,获得分词序列,确定分词序列对应的拼音组合序列,拼音组合序列中每个拼音组合与分词序列中每个分词一一顺序对应,基于拼音组合序列中每个拼音组合映射的同音词语,获得纠错词语序列集合,计算纠错词语序列集合中的每一个纠错词语序列的互信息,根据互信息的大小,确定目标短句的纠错结果。应用本发明实施例提供的技术方案,可根据词语的频率和词语搭配频率对目标短句进行纠错,可以提高中文纠错准确率。本发明还公开了一种基于互信息的中文纠错装置、一种基于互信息的中文纠错设备及一种计算机可读存储介质具有相应的技术效果。

Description

一种基于互信息的中文纠错方法、装置、设备及存储介质
技术领域
本发明涉及文本纠错技术领域,特别是涉及一种基于互信息的中文纠错方法、装置、及存储介质。
背景技术
随着出版电子化的迅猛发展,中文自动校对技术也得到了极大的发展。其中,拼音纠错技术在推动中文自动校对技术的发展中功不可没。
近年来,拼音纠错技术主要依赖于在大规模的语料获取、并生成一定数量的语料库,然后基于语料库对需要纠错的文本进行匹配比较,如果发现有不一样的地方,则根据语料库中计算的词语的频率提出最合理、最正确的字或词。
现有的拼音纠错在应对词语搭配错误时,可能会忽略语法错误,使得中文纠错准确率较低。以“我的贷款余期了”为例,在统计语料中出现大量的“余期”这样的表述时,利用拼音纠错技术可能不会将“余期”这个错误指出,更不会将“余期”纠正为“逾期”。
发明内容
本发明的目的是提供一种基于互信息的中文纠错方法、装置、设备及存储介质,以提高中文纠错的准确率。
为解决上述技术问题,本发明提供如下技术方案:
一种基于互信息的中文纠错方法,包括:
获得待纠错的目标短句;
对所述目标短句进行分词处理,获得分词序列;
确定所述分词序列对应的拼音组合序列,所述拼音组合序列中每个拼音组合与所述分词序列中每个分词一一顺序对应;
基于所述拼音组合序列中每个拼音组合映射的同音词语,获得纠错词语序列集合;
计算所述纠错词语序列集合中的每一个纠错词语序列的互信息;
根据互信息的大小,确定所述目标短句的纠错结果。
优选地,所述计算所述纠错词语序列集合中的每一个纠错词语序列的互信息,包括:
针对所述纠错词语序列集合中每一个纠错词语序列,计算该纠错词语序列中每一个词语与相邻词语的互信息;
将该纠错词语序列中每一个词语与相邻词语的互信息进行累加,获得该纠错词语序列的互信息。
优选地,针对该纠错词语序列中每一个词语,通过以下步骤计算该词语与相邻词语的互信息:
基于预先获得的语料库,确定该词语的词频、该词语与相邻词语的搭配组合的搭配频率;
根据所述词频和所述搭配频率,确定该词语与相邻词语的互信息。
优选地,所述根据互信息的大小,确定所述目标短句的纠错结果,包括:
将所述纠错词语序列集合中互信息最大的纠错词语序列确定为所述目标短句的纠错结果。
优选地,所述目标短句为根据预设的断句符号,对待纠错的文本中的长句进行断句后获得的。
一种基于互信息的中文纠错装置,包括:
目标短句获得模块,用于获得待纠错的目标短句;
分词序列获得模块,用于对所述目标短句进行分词处理,获得分词序列;
拼音组合序列确定模块,用于确定所述分词序列对应的拼音组合序列,所述拼音组合序列中每个拼音组合与所述分词序列中每个分词一一顺序对应;
纠错词语序列集合获得模块,用于基于所述拼音组合序列中每个拼音组合映射的同音词语,获得纠错词语序列集合;
互信息计算模块,用于计算所述纠错词语序列集合中的每一个纠错词语序列的互信息;
纠错结果确定模块,用于根据互信息的大小,确定所述目标短句的纠错结果。
优选地,所述互信息计算模块,具体用于:
针对所述纠错词语序列集合中每一个纠错词语序列,计算该纠错词语序列中每一个词语与相邻词语的互信息;
将该纠错词语序列中每一个词语与相邻词语的互信息进行累加,获得该纠错词语序列的互信息。
优选地,所述互信息计算模块,具体用于:
针对该纠错词语序列中每一个词语,通过以下步骤计算该词语与相邻词语的互信息:
基于预先获得的语料库,确定该词语的词频、该词语与相邻词语的搭配组合的搭配频率;
根据所述词频和所述搭配频率,确定该词语与相邻词语的互信息。
优选地,所述纠错结果确定模块,具体用于:
将所述纠错词语序列集合中互信息最大的纠错词语序列确定为所述目标短句的纠错结果。
优选地,所述目标短句为根据预设的断句符号,对待纠错的文本中的长句进行断句后获得的。
一种基于互信息的中文纠错设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述基于互信息的中文纠错方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于互信息的中文纠错方法的步骤。
应用本发明实施例所提供的技术方案,获得待纠错的目标短句,对目标短句进行分词处理,获得与目标短句对应的原始词语序列,将词语序列中的词语转化为拼音,获得与词语序列对应的拼音序列,将拼音序列中的拼音转化为中文,获得纠错词语序列集合,针对纠错词语序列集合中的每一个纠错词语序列,计算第一互信息,将纠错词语序集合中互信息最大的纠错词语序列确定为目标短句的纠错结果。基于互信息,利用拼音对目标短句进行纠错,不仅可以根据词语的频率对目标句子进行纠错,还可以根据词语搭配频率对目标句子进行纠错,可以提高中文纠错准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种基于互信息的中文纠错方法的实施流程图;
图2为本发明实施例中一种基于互信息的中文纠错方法的设计框图;
图3为本发明实施例中一种基于互信息的中文纠错方法的功能框图;
图4为本发明实施例中一种基于互信息的中文纠错装置的结构示意图;
图5为本发明实施例中一种基于互信息的中文纠错设备的结构示意图。
具体实施方式
本发明的核心的提供一种基于互信息的中文纠错方法,其中,互信息(MutualInformation)是信息论里一种有用的信息度量,表征两个事件集合之间的相关性,具体的,它可以作为一个随机变量中关于另一个随机变量的信息量,或者说作为一个随机变量与另一个已知随机变量的变化而变化的不肯定性。
结合本发明利用拼音来进行中文纠错的出发点来说,在中文中,上一词语和下一词语之间常常具有一定的搭配关系。以“我的贷款余期了”为例,其中“贷款”和拼音“yuqi”的正确词语搭配可以是“逾期”,而不是“余期”。对输入“我的贷款余期了”进行纠错,需要把“余期”纠错为“逾期”,为了解决这一技术要求,本发明实施例引入了“互信息”这样一个模型,将“贷款”、“逾期”、“余期”分别看作是三个随机变量,通过统计大量包含中文文本的文件语料后,可以计算出“逾期”对于“贷款”的互信息,并明显大于“余期”对于“贷款”的互信息,这可以作为进行中文纠错的依据。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明实施例中一种基于互信息的中文纠错方法的实施流程图,包括以下步骤:
S101、获得待纠错的目标短句。
当接收到待纠错的文本后,对待纠错的文本进行断句,获得若干短句,可以将断句后得到的若干短句依次作为待纠错的目标短句。
在本发明的一个实施例中,目标短句为根据预设的断句符号,对待纠错的文本中的长句进行断句后获得的。
在本实施例中,可以对待纠错的文本按照预先设置的断句字符如逗号、分号、句号等中文符号进行断句后获得短句,可以将所有短句依次作为待纠错的目标短句。当然,在实际应用中,可以针对断句后得到的所有短句进行筛选,如,根据短句的字数进行筛选,或者,根据短句的词语的个数进行筛选,或者,根据设定的概率进行筛选等,然后将筛选得到的部分短句依次作为待纠错的目标短句。
获得目标短句后,可以执行步骤S102的操作。
S102、对目标短句进行分词处理,获得分词序列。
可以使用常规的分词处理技术,对目标短句进行分词处理,获得针对目标短句的分词序列,该分词序列中的分词顺序可以和在目标短句中出现的顺序相同。其中,使用的分词处理技术可以是中文分词技术,也可以是其他能够对中文进行分词的技术,通过验证,分词的效果并不影响本发明实施例实现发明目的,因此,本发明实施例对具体使用哪个分词处理技术并不限定。
S103、确定分词序列对应的拼音组合序列。
其中,拼音组合序列中每个拼音组合与分词序列中每个分词一一顺序对应。
将步骤S102中获得的分词序列中的每一个分词转化为每一个分词对应的包含语调的全拼、或每一个分词对应的全拼、或每一个分词对应的首字母等形式之中的任意一种或多种形式的拼音组合,得到分词序列对应的拼音组合序列。其中,拼音组合序列中的每个拼音组合与分词序列中的每个分词一一顺序对应,也就是说,将分词序列转化为拼音组合序列不改变分词的顺序、数量,只是将原来每一个中文分语替换为该中文分词对应的拼音组合。
得到拼音组合序列之后,可以执行步骤S104的操作。
S104、基于拼音组合序列中每个拼音组合映射的同音词语,获得纠错词语序列集合。
需要说明的是,由于存在一部分拼音组合可以映射为多个不同词义的同音词语,所以,将拼音组合映射为词语时,可能会获得多个不同的纠错词语序列。同音词语为根据同一个拼音组合可能映射的多个词语,这多个词语之间互为同音词语,也就是说,同音词语并不只是同音同调的同音词语,而是能够以一个拼音组合映射得到的词语均可以互为同音词语。以拼音组合为全拼加音调的形式举例,拼音组合“mìfēng”可以映射的同音词语包括“密封”或“蜜蜂”、拼音组合“gōng fū”可以映射的同音词语包括“功夫”或“工夫”、拼音组合“jiǎn jié”可以映射的同音词语包括为“简洁”或“简捷”;以拼音组合为全拼的形式举例,拼音组合“yuxi”可以映射的同音词语包括“预习”或“玉溪”或“玉玺”或“遇袭”等。
在本实施例中,基于拼音组合序列中每个拼音组合映射的同音词语,获得至少一个纠错词语序列,将这些纠错词语序列归属于纠错词语序列集合中。
具体的,以一个拼音组合序列共有N个拼音组合为例,其中N为正整数,如果N个拼音组合中有2个拼音组合有同音词语,其中一个拼音组合可以映射的同音词语有2个,另外一个拼音组合可以映射的同音词语有3个,那么最后得到的纠错词语序列个数可以为:C2 1*C3 1=6。
当然,在本发明的其他实施例中,确定的纠错词语序列集合也可以不包含所有同音词语的组合,例如,可以在纠错词语序列数达到预设的纠错词语序列集合的纠错词语序列个数的上限时,以预先设置的筛选方式进行选择纠错词语集合中的纠错词语序列,如,以纠错词语集合中所能容纳的纠错词语序列的个数与得到的纠错词语序列进行计算,得到筛选概率,对获得的多个纠错词语序列进行筛选,确定纠错词语序列集合中的纠错词语序列。
得到纠错词语序列集合后,可以执行步骤S105的操作。
S105、计算纠错词语序列集合中的每一个纠错词语序列的互信息。
根据预先获得的语料库中的统计数据,针对纠错词语序列集合中的每一个纠错词语序列,计算该纠错词语序列对应的互信息。
在本发明的一个实施例中,可以通过以下步骤计算纠错词语序列集合中的每一个纠错词语序列的互信息:
步骤一、针对纠错词语序列集合中每一个纠错词语序列,计算该纠错词语序列中每一个词语与相邻词语的互信息;
步骤二、将该纠错词语序列中每一个词语与相邻词语的互信息进行累加,获得该纠错词语序列的互信息。
为了便于描述,将上述两个步骤结合起来进行说明。
在本实施例中,可以针对纠错词语序列集合中的每一个纠错词语序列,计算该纠错词语序列中每一个词语与相邻词语的互信息的大小。也就是说,可以对纠错词语序列中除首尾的两个纠错词语之外的所有纠错词语都要进行两次互信息的计算,首尾的两个纠错词语分别进行一次互信息的计算,然后,将该纠错词语序列中的每一个词语与相邻词语的互信息进行累加,获得的累加结果即为该纠错词语序列的互信息大小。
在本发明的一个具体实施例中,可以针对该纠错词语序列中每一个词语,通过以下步骤计算该词语与相邻词语的互信息:
步骤一、基于预先获得的语料库,确定该词语的词频、该词语与相邻词语的搭配组合的搭配频率;
步骤二、根据词频和搭配频率,确定该词语与相邻词语的互信息。
为了便于描述,将上述两个步骤结合起来进行说明。
在本实施例中,可以在预先建立一个语料库,该语料库中可以存储大量的语料,以及在语料库存储各个词语的词频和每一个词和其他词语的搭配组合的搭配频率,其中,语料库的语料可以来自多个途径,如可以通过爬虫技术从权威媒体获取,也可以人工录入大量的文本信息。
在本实施例中,可以基于预先获得的语料库,经过查询,确定该词语的词频、该词语与相邻词语的搭配组合的搭配频率,然后依据词频和搭配频率进行计算该词语与相邻词语的互信息。
在本发明的一个具体实施例中,关于互信息的计算可以参考如下过程:
在本实施例中,随机变量(random variable)表示随机试验各种结果的实值单值函数。假设X是一个离散型随机变量,其概率分布为p(x)=P(X=X),x∈X,则X的熵定义为:
Figure BDA0001405317390000081
条件熵:事件X与Y分别取xi和yi时,定义为:
Figure BDA0001405317390000082
如果变量不是独立的,可以通过考察联合概率分布与边缘概率分布乘积之间的Kullback-Leibler散度来判断它们是否“接近”于相互独立。此时,相对熵中的Kullback-Leibler散度可以称为变量X和变量Y之间的互信息:
Figure BDA0001405317390000083
在实际应用中,在中文环境中,变量不是独立的,中文文本中的上一词语与下一词语之间可能存在搭配关系,因此,上述的互信息计算公式中的变量X可以表示纠错词语序列,变量Y可以表示语料库中存储的语料,可以用p(x)表示词语x的词频,可以用p(x,y)表示词语x与相邻词语y的搭配组合的搭配频率,i、j分别代表纠错词语序列中的纠错词语个数,语料库中纠错词语对应的词语的搭配个数。通过互信息计算公式可以根据语料库中的词频和搭配频率计算纠错词语序列的互信息I。
得到纠错词语序列中的每一个纠错词语序列对应的互信息之后,可以执行步骤S106的操作。
S106、根据互信息的大小,确定目标短句的纠错结果。
在本实施例中,可以对纠错词语序列集合中的每一个纠错词语序列对应的互信息进行统计,然后根据互信息的大小,将纠错词语序列集合中的一个纠错词语序列确定目标短句的纠错结果。
在本发明的一个实施例中,可以将纠错词语序列集合中互信息最大的纠错词语序列确定为目标短句的纠错结果。
在本实施例中,可以对纠错词语序列集合中的互信息进行统计,选择互信息最大的纠错词语序列确定为目标短句的纠错结果。
当然,在本发明的其他实施例中,还可以在纠错词语序列集合中选择互信息超过预先设定的互信息阈值的任意一个纠错词语序列作为最终的纠错结果。
应用本发明实施例所提供的方法,获得待纠错的目标短句,对目标短句进行分词处理,获得与目标短句对应的原始词语序列,将词语序列中的词语转化为拼音,获得与词语序列对应的拼音序列,将拼音序列中的拼音转化为中文,获得纠错词语序列集合,针对纠错词语序列集合中的每一个纠错词语序列,计算第一互信息,将纠错词语序集合中互信息最大的纠错词语序列确定为目标短句的纠错结果。基于互信息,利用拼音对目标短句进行纠错,不仅可以根据词语的频率对目标句子进行纠错,还可以根据词语搭配频率对目标句子进行纠错,可以提高中文纠错准确率。
为了便于理解本发明实施例提供的技术方案,本发明实施例还提供了如图2所示的设计框图,以及如图3所示的功能框图。
具体的,以图2为例,获取语料之后,可以统计词频和统计搭配频率,然后在接收到待纠错的输入文本之后,利用词频和词语搭配频率计算关于输入文本的互信息,根据互信息得到纠错文本后输出该文本,输出纠错文本的同时,还可以输出针对纠错文本的统计文本,该统计文本可以包括纠错的总字符,具体的纠错词语,以及纠错的位置,以便人工核实纠错是否正确。
以图3为例,在本发明的一个实施例中,基于互信息的中文纠错方法的纠错功能之间的关系可以如下:对纠错文本中的长句进行断句,将短句分词得到针对短句的分词序列,针对分词序列计算互信息,短句的纠错结果主要由数据库中统计的词语频率和搭配频率的统计数据和互信息确定,得到短句纠错结果后,合并纠错后的短句。
相应于上面的方法实施例,本发明实施例还提供了一种基于互信息的中文纠错装置,下文描述的一种基于互信息的中文纠错装置与上文描述的一种基于互信息的中文纠错方法可相互对应参照。
参见图4所示,该装置包括以下模块:
目标短句获得模块201,用于获得待纠错的目标短句;
分词序列获得模块202,用于对目标短句进行分词处理,获得分词序列;
拼音组合序列确定模块203,用于确定分词序列对应的拼音组合序列,拼音组合序列中每个拼音组合与分词序列中每个分词一一顺序对应;
纠错词语序列集合获得模块204,用于基于拼音组合序列中每个拼音组合映射的同音词语,获得纠错词语序列集合;
互信息计算模块205,用于计算纠错词语序列集合中的每一个纠错词语序列的互信息;
纠错结果确定模块206,用于根据互信息的大小,确定目标短句的纠错结果。
应用本发明实施例所提供的装置,获得待纠错的目标短句,对目标短句进行分词处理,获得与目标短句对应的原始词语序列,将词语序列中的词语转化为拼音,获得与词语序列对应的拼音序列,将拼音序列中的拼音转化为中文,获得纠错词语序列集合,针对纠错词语序列集合中的每一个纠错词语序列,计算第一互信息,将纠错词语序集合中互信息最大的纠错词语序列确定为目标短句的纠错结果。基于互信息,利用拼音对目标短句进行纠错,不仅可以根据词语的频率对目标句子进行纠错,还可以根据词语搭配频率对目标句子进行纠错,可以提高中文纠错准确率。
在本发明的一种具体实施方式中,互信息计算模块205,具体用于:
针对纠错词语序列集合中每一个纠错词语序列,计算该纠错词语序列中每一个词语与相邻词语的互信息;
将该纠错词语序列中每一个词语与相邻词语的互信息进行累加,获得该纠错词语序列的互信息。
在本发明的一种具体实施方式中,互信息计算模块205,具体用于:
针对该纠错词语序列中每一个词语,通过以下步骤计算该词语与相邻词语的互信息:
基于预先获得的语料库,确定该词语的词频、该词语与相邻词语的搭配组合的搭配频率;
根据词频和搭配频率,确定该词语与相邻词语的互信息。
在本发明的一种具体实施方式中,纠错结果确定模块206,具体用于:
将纠错词语序列集合中互信息最大的纠错词语序列确定为目标短句的纠错结果。
在本发明的一种具体实施方式中,目标短句为根据预设的断句符号,对待纠错的文本中的长句进行断句后获得的。
相应于上面的方法实施例,本发明实施例还提供了一种基于互信息的中文纠错设备,下文描述的一种基于互信息的中文纠错设备与上文描述的一种基于互信息的中文纠错方法可相互对应参照。
参见图5所示,该基于互信息的中文纠错设备包括:
存储器D1,用于存储计算机程序;
处理器D2,用于执行计算机程序时实现上述方法实施例的基于互信息的中文纠错方法的步骤。
相应于上面的方法实施例,本发明实施例还提供了一种计算机可读存储介质,下文描述的一种计算机可读存储介质与上文描述的一种基于互信息的中文纠错方法可相互对应参照。
一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例的基于互信息的中文纠错方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (8)

1.一种基于互信息的中文纠错方法,其特征在于,包括:
获得待纠错的目标短句;
对所述目标短句进行分词处理,获得分词序列;
确定所述分词序列对应的拼音组合序列,所述拼音组合序列中每个拼音组合与所述分词序列中每个分词一一顺序对应;具体的,将所述分词序列中的每一个分词转化为每一个分词对应的包含语调的全拼、或每一个分词对应的全拼、或每一个分词对应的首字母形式之中的任意一种或多种形式的拼音组合,得到分词序列对应的所述拼音组合序列;
基于所述拼音组合序列中每个拼音组合映射的同音词语,获得纠错词语序列集合;
根据互信息计算公式对所述纠错词语序列集合中每一个纠错词语序列,计算该纠错词语序列中每一个词语与相邻词语的互信息;
将该纠错词语序列中每一个词语与相邻词语的互信息进行累加,获得该纠错词语序列的互信息;
将所述纠错词语序列集合中互信息最大的纠错词语序列确定为所述目标短句的纠错结果。
2.根据权利要求1所述的基于互信息的中文纠错方法,其特征在于,针对该纠错词语序列中每一个词语,通过以下步骤计算该词语与相邻词语的互信息:
基于预先获得的语料库,确定该词语的词频、该词语与相邻词语的搭配组合的搭配频率;
根据所述词频和所述搭配频率,确定该词语与相邻词语的互信息。
3.根据权利要求1所述的基于互信息的中文纠错方法,其特征在于,所述目标短句为根据预设的断句符号,对待纠错的文本中的长句进行断句后获得的。
4.一种基于互信息的中文纠错装置,其特征在于,包括:
目标短句获得模块,用于获得待纠错的目标短句;
分词序列获得模块,用于对所述目标短句进行分词处理,获得分词序列;
拼音组合序列确定模块,用于确定所述分词序列对应的拼音组合序列,所述拼音组合序列中每个拼音组合与所述分词序列中每个分词一一顺序对应;具体的,将所述分词序列中的每一个分词转化为每一个分词对应的包含语调的全拼、或每一个分词对应的全拼、或每一个分词对应的首字母形式之中的任意一种或多种形式的拼音组合,得到分词序列对应的所述拼音组合序列;
纠错词语序列集合获得模块,用于基于所述拼音组合序列中每个拼音组合映射的同音词语,获得纠错词语序列集合;
互信息计算模块,用于针对所述纠错词语序列集合中每一个纠错词语序列,计算该纠错词语序列中每一个词语与相邻词语的互信息;并将该纠错词语序列中每一个词语与相邻词语的互信息进行累加,获得该纠错词语序列的互信息;
纠错结果确定模块,用于将所述纠错词语序列集合中互信息最大的纠错词语序列确定为所述目标短句的纠错结果。
5.根据权利要求4所述的基于互信息的中文纠错装置,其特征在于,所述互信息计算模块,针对该纠错词语序列中每一个词语,通过以下步骤计算该词语与相邻词语的互信息:
基于预先获得的语料库,确定该词语的词频、该词语与相邻词语的搭配组合的搭配频率;
根据所述词频和所述搭配频率,确定该词语与相邻词语的互信息。
6.根据权利要求4或5所述的基于互信息的中文纠错装置,其特征在于,所述目标短句为根据预设的断句符号,对待纠错的文本中的长句进行断句后获得的。
7.一种基于互信息的中文纠错设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至3任一项所述基于互信息的中文纠错方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述基于互信息的中文纠错方法的步骤。
CN201710817047.0A 2017-09-12 2017-09-12 一种基于互信息的中文纠错方法、装置、设备及存储介质 Active CN107608963B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710817047.0A CN107608963B (zh) 2017-09-12 2017-09-12 一种基于互信息的中文纠错方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710817047.0A CN107608963B (zh) 2017-09-12 2017-09-12 一种基于互信息的中文纠错方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN107608963A CN107608963A (zh) 2018-01-19
CN107608963B true CN107608963B (zh) 2021-04-16

Family

ID=61062824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710817047.0A Active CN107608963B (zh) 2017-09-12 2017-09-12 一种基于互信息的中文纠错方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN107608963B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563632A (zh) * 2018-03-29 2018-09-21 广州视源电子科技股份有限公司 文字拼写错误的修正方法、系统、计算机设备及存储介质
CN108491392A (zh) * 2018-03-29 2018-09-04 广州视源电子科技股份有限公司 文字拼写错误的修正方法、系统、计算机设备及存储介质
CN108519973A (zh) * 2018-03-29 2018-09-11 广州视源电子科技股份有限公司 文字拼写的检测方法、系统、计算机设备及存储介质
CN108595437B (zh) * 2018-05-04 2022-06-03 和美(深圳)信息技术股份有限公司 文本查询纠错方法、装置、计算机设备和存储介质
CN109065054A (zh) * 2018-08-31 2018-12-21 出门问问信息科技有限公司 语音识别纠错方法、装置、电子设备及可读存储介质
CN109492224B (zh) * 2018-11-07 2024-05-03 北京金山数字娱乐科技有限公司 一种词表构建的方法及装置
CN109522550B (zh) * 2018-11-08 2023-04-07 和美(深圳)信息技术股份有限公司 文本信息纠错方法、装置、计算机设备和存储介质
CN109492202B (zh) * 2018-11-12 2022-12-27 浙江大学山东工业技术研究院 一种基于拼音的编码与解码模型的中文纠错方法
CN111310440B (zh) * 2018-11-27 2023-05-30 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN109376362A (zh) * 2018-11-30 2019-02-22 武汉斗鱼网络科技有限公司 一种纠错文本的确定方法以及相关设备
CN109901727A (zh) * 2019-03-06 2019-06-18 上海依智医疗技术有限公司 一种获取文字纠错信息的方法和装置
CN111696545B (zh) * 2019-03-15 2023-11-03 北京汇钧科技有限公司 语音识别纠错方法、装置以及存储介质
CN111859089B (zh) * 2019-04-30 2024-02-06 北京智慧星光信息技术有限公司 一种用于互联网信息的错词检测控制方法
CN110210028B (zh) * 2019-05-30 2023-04-28 杭州远传新业科技股份有限公司 针对语音转译文本的领域特征词提取方法、装置、设备及介质
CN110362824B (zh) * 2019-06-24 2022-12-02 广州多益网络股份有限公司 一种自动纠错的方法、装置、终端设备及存储介质
CN112329446B (zh) * 2019-07-17 2023-05-23 北方工业大学 一种中文拼写的检查方法
CN112364642B (zh) * 2019-07-23 2024-04-02 马上消费金融股份有限公司 一种文本处理方法及装置
CN110717021B (zh) * 2019-09-17 2023-08-29 平安科技(深圳)有限公司 人工智能面试中获取输入文本和相关装置
CN110781662B (zh) * 2019-10-21 2022-02-01 腾讯科技(深圳)有限公司 一种逐点互信息的确定方法和相关设备
CN110781665B (zh) * 2019-10-29 2023-04-07 腾讯科技(深圳)有限公司 纠错对的质量评估方法、装置、设备及存储介质
CN111613214A (zh) * 2020-05-21 2020-09-01 重庆农村商业银行股份有限公司 一种用于提升语音识别能力的语言模型纠错方法
CN111737982A (zh) * 2020-06-29 2020-10-02 武汉虹信技术服务有限责任公司 一种基于深度学习的汉语文本错别字检测方法
CN112380333B (zh) * 2020-12-04 2024-03-29 北京中科凡语科技有限公司 用于问答系统的基于拼音概率的文本纠错方法
CN113378553A (zh) * 2021-04-21 2021-09-10 广州博冠信息科技有限公司 文本处理方法、装置、电子设备和存储介质
CN114611524B (zh) * 2022-02-08 2023-11-17 马上消费金融股份有限公司 文本纠错方法、装置、电子设备及存储介质
CN114936549B (zh) * 2022-06-06 2024-02-13 湖南环境生物职业技术学院 一种人工智能的文字校对方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831177A (zh) * 2012-07-31 2012-12-19 聚熵信息技术(上海)有限公司 语句纠错方法及其系统
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI391832B (zh) * 2008-09-09 2013-04-01 Inst Information Industry 中文文章偵錯裝置、中文文章偵錯方法以及儲存媒體
CN106528524A (zh) * 2016-09-22 2017-03-22 中山大学 一种基于MMseg算法与逐点互信息算法的分词方法
CN106528616B (zh) * 2016-09-30 2019-12-17 厦门快商通科技股份有限公司 一种人机交互过程中的语言纠错方法及系统
CN106528532B (zh) * 2016-11-07 2019-03-12 上海智臻智能网络科技股份有限公司 文本纠错方法、装置及终端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831177A (zh) * 2012-07-31 2012-12-19 聚熵信息技术(上海)有限公司 语句纠错方法及其系统
CN107122346A (zh) * 2016-12-28 2017-09-01 平安科技(深圳)有限公司 一种输入语句的纠错方法及装置

Also Published As

Publication number Publication date
CN107608963A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
CN107608963B (zh) 一种基于互信息的中文纠错方法、装置、设备及存储介质
Slimane et al. A new arabic printed text image database and evaluation protocols
CN100587686C (zh) 用于识别一种或者多种自然语言中的单词及其词性的系统、方法
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
US9323744B2 (en) Transliteration device, transliteration program, computer-readable recording medium on which transliteration program is recorded, and transliteration
CN105068997B (zh) 平行语料的构建方法及装置
KR101633556B1 (ko) 문법 오류 수정 장치 및 이를 이용한 문법 오류 수정 방법
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
KR101836996B1 (ko) 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
Kumar et al. Design and development of a stemmer for Punjabi
CN111651978A (zh) 基于实体的词法检查方法与装置和计算机设备及存储介质
US9679566B2 (en) Apparatus for synchronously processing text data and voice data
CN106815593B (zh) 中文文本相似度的确定方法和装置
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN109977430B (zh) 一种文本翻译方法、装置及设备
CN110929514A (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN103064967A (zh) 一种用于建立用户二元关系库的方法与设备
JP2010257021A (ja) 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム
KR102562692B1 (ko) 문장 구두점 제공 시스템 및 방법
KR20160053587A (ko) 엔-그램 언어 모델의 데이터베이스 사이즈 최소화 방법
CN114510925A (zh) 一种中文文本纠错方法、系统、终端设备及存储介质
JP2020135126A (ja) 校閲方法、情報処理装置および校閲プログラム
CN112417851B (zh) 文本纠错分词方法、系统及电子设备
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JP2020016939A (ja) 単語列修正装置、単語列修正方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant