CN115146636A - 一种中文错别字纠错处理方法、系统及存储介质 - Google Patents

一种中文错别字纠错处理方法、系统及存储介质 Download PDF

Info

Publication number
CN115146636A
CN115146636A CN202211079853.XA CN202211079853A CN115146636A CN 115146636 A CN115146636 A CN 115146636A CN 202211079853 A CN202211079853 A CN 202211079853A CN 115146636 A CN115146636 A CN 115146636A
Authority
CN
China
Prior art keywords
sentence
word
characters
character
wrongly written
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211079853.XA
Other languages
English (en)
Inventor
王鹏鸣
熊正坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202211079853.XA priority Critical patent/CN115146636A/zh
Publication of CN115146636A publication Critical patent/CN115146636A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种中文错别字纠错处理方法、系统及存储介质,该方法将目标短句转化为n元组集合,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分,对初始字级评分修正计算后识别出错别字,实现了对字粒度的文本进行分析纠错的效果,能够在中文错别字纠错时有效减小改变原句意思的概率。此外,本发明利用kenlm语言模型结合同音同形字典,能够直接将存在错别字的目标短句修改为句子信息熵中的最大者对应的句子,无需遍历操作,有效减少了纠错耗时。

Description

一种中文错别字纠错处理方法、系统及存储介质
技术领域
本发明涉及文字处理技术领域,特别涉及一种中文错别字纠错处理方法、系统及存储介质。
背景技术
随着拼音输入法和语音识别的广泛应用,出现了越来越多因为音似产生的中文文本错误,同时手写输入法的使用会出现大量的形似字。纠错这些中文文本里字、词级别的书写错误是一个具有挑战性的课题。举个例子,给定一个句子“我对这局话进行了一些修改了”,显然“局”是这句话的目标错误,而句尾的‘了”则是个语法错误。
现有的一部分纠错模型会在尝试修改目标错误时改变语义,例如Transformers模型,它们的训练数据集的单元是句子对。Transformers模型直接将原句转化为另一个句子。这可能会将这句话转化为“我对这句话进行了一些修改”、“我对这句话进行了修改”,“我修改了这句话”。这在句子层面的纠错任务上是很好的方法,但是这样会改变句子结构,可能改出病句,同时因为改变词语甚至会改变句子含义,显然这种方法在工业实践上还不够成熟。
另一部分纠错模型通过穷举法验证目标错误并修改,虽然性能优秀,但十分耗时,不太适用于大规模的文本纠错。例如macbert模型,它们的训练数据集的单元是句子。它不改变句子,只是评估句子的合理性给出分数。但是它不具备探测错误位置的能力,所以它要把句子中的字遍历出来,把这些字依次替换成词典中的字。假如这句话有x个字,模型的字典中有y个字,我们就会得到x*y个句子,也就是说完成一个10个字的句子纠错的背后需要模型评估1000-100000个句子的得分,最后选取最好的几个句子作为参考,这是非常耗时的一个过程。
因此,如何在中文错别字纠错时,减小改变原句意思的概率,同时减少耗时,是本领域技术人员需要解决的技术问题。
发明内容
为此,本发明的实施例提出一种中文错别字纠错处理方法、系统及存储介质,以实现在中文错别字纠错时,减小改变原句意思的概率,同时减少耗时。
根据本发明实施例的中文错别字纠错处理方法,包括以下步骤:
步骤1,通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;
步骤2,通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;
步骤3,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;
步骤4,采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;
步骤5,获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;
步骤6,采用kenlm语言模型依次计算替换句子集合中各个元素的句子信息熵以及目标短句的句子信息熵
Figure 79771DEST_PATH_IMAGE001
,并查找替换句子集合中各个元素的句子信息熵中的最大者
Figure 331760DEST_PATH_IMAGE002
步骤7,若
Figure 231583DEST_PATH_IMAGE003
,则将目标短句修改为
Figure 79585DEST_PATH_IMAGE002
对应的句子,其中,
Figure 646832DEST_PATH_IMAGE004
表示信息熵阈值。
根据本发明实施例的中文错别字纠错处理方法,将目标短句转化为n元组集合,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分,对初始字级评分修正计算后识别出错别字,实现了对字粒度的文本进行分析纠错的效果,能够在中文错别字纠错时有效减小改变原句意思的概率。此外,本发明利用kenlm语言模型结合同音同形字典,能够直接将存在错别字的目标短句修改为句子信息熵中的最大者对应的句子,无需遍历操作,有效减少了纠错耗时。
另外,根据本发明上述实施例的中文错别字纠错处理方法,还可以具有如下附加的技术特征:
进一步的,步骤2中,n元组集合表示为
Figure 804144DEST_PATH_IMAGE005
,其中,
Figure 191263DEST_PATH_IMAGE006
表示目标短句中文字的字数,
Figure 92223DEST_PATH_IMAGE007
分别表示n元组集合
Figure 530289DEST_PATH_IMAGE008
中第1个元素、第2个元素、第3个元素、第
Figure 592923DEST_PATH_IMAGE009
个元素;
步骤3中,n元组集合中各个元素的n元组信息熵表示为
Figure 467338DEST_PATH_IMAGE010
,其中,
Figure 906409DEST_PATH_IMAGE010
分别表示n元组集合
Figure 182670DEST_PATH_IMAGE008
中第1个元素、第2个元素、第3个元素、第
Figure 432517DEST_PATH_IMAGE009
个元素的n元组信息熵;
目标短句中各个文字的初始字级评分分别为:
Figure 794228DEST_PATH_IMAGE011
其中,
Figure 36990DEST_PATH_IMAGE012
分别表示目标短句中第1个文字、第2个文字、第
Figure 167757DEST_PATH_IMAGE013
个文字、第
Figure 837773DEST_PATH_IMAGE006
个文字的初始字级评分。
进一步的,步骤4中,采用平均绝对离差对各个文字的初始字级评分进行修正计算的公式为:
Figure 686781DEST_PATH_IMAGE014
其中,
Figure 483966DEST_PATH_IMAGE015
表示修正字级评分,
Figure 469240DEST_PATH_IMAGE016
为初始字级评分的通式表达,
Figure 310157DEST_PATH_IMAGE017
表示可调参数,
Figure 646460DEST_PATH_IMAGE018
表示取中位数。
进一步的,步骤4中,根据各个文字的修改字级评分确定目标短句中的错别字具体包括:
若目标短句中的某一目标字的修正字级评分大于评分阈值t,且该目标字的初始字级评分小于
Figure 231025DEST_PATH_IMAGE019
,则确定该目标字为错别字。
进一步的,步骤4中,所述方法还包括:
扫描原始文本中是否存在混淆词典中的收纳词;
若是,则在扫描原始文本中将收纳词替换为混淆词典中指定的替换词。
进一步的,步骤6中,目标短句的句子信息熵
Figure 352696DEST_PATH_IMAGE001
的计算公式为:
Figure 98935DEST_PATH_IMAGE020
进一步的,所述方法还包括:
Figure 922535DEST_PATH_IMAGE021
,则认定目标短句合理,不进行修改。
进一步的,步骤1具体为:
通过文本过滤器采用正则表达式将原始文本中的非中文部分剔除,获得只含中文部分的中间文本。
本发明还提出一种中文错别字纠错处理系统,其中,所述系统包括:
文本剔除模块,用于:
通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;
文本分割模块,用于:
通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;
第一计算模块,用于:
采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;
第二计算模块,用于:
采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;
第一替换模块,用于:
获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;
第二替换模块,用于:
采用kenlm语言模型依次计算替换句子集合中各个元素的句子信息熵以及目标短句的句子信息熵
Figure 45212DEST_PATH_IMAGE001
,并查找替换句子集合中各个元素的句子信息熵中的最大者
Figure 5078DEST_PATH_IMAGE002
语句修改模块,用于:
Figure 204109DEST_PATH_IMAGE021
,则将目标短句修改为
Figure 249425DEST_PATH_IMAGE002
对应的句子,其中,
Figure 175793DEST_PATH_IMAGE004
表示信息熵阈值。
本发明还提出一种存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上所述的中文错别字纠错处理方法。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明提出的中文错别字纠错处理方法的流程图;
图2为本发明提出的中文错别字纠错处理系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明一实施例提出的中文错别字纠错处理方法,包括以下步骤1~步骤7:
步骤1,通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本。
具体的,通过文本过滤器采用正则表达式将原始文本中的非中文部分剔除,获得只含中文部分的中间文本。
步骤2,通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合。
其中,n元组集合表示为
Figure 255744DEST_PATH_IMAGE022
,其中,L表示目标短句中文字的字数,
Figure 609365DEST_PATH_IMAGE023
分别表示
Figure 141978DEST_PATH_IMAGE008
元组集合中第1个元素、第2个元素、第3个元素、第
Figure 622769DEST_PATH_IMAGE009
个元素。
本实施例中,以标点符号为分割符将中间文本分割为若干个短句。
一示例性的目标短句如“1234”,n元组集合采用2元组集合,则目标短句“1234” 转化为集合
Figure 557227DEST_PATH_IMAGE024
,该目标短句的字数L=4。
步骤3,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分。
其中,n元组集合中各个元素的n元组信息熵表示为
Figure 81749DEST_PATH_IMAGE010
,其中,
Figure 101658DEST_PATH_IMAGE010
分别表示n元组集合
Figure 369828DEST_PATH_IMAGE008
中第1个元素、第2个元素、第3个元素、第
Figure 909525DEST_PATH_IMAGE009
个元素的n元组信息熵。
目标短句中各个文字的初始字级评分分别为:
Figure 870528DEST_PATH_IMAGE025
其中,
Figure 377732DEST_PATH_IMAGE025
分别表示目标短句中第1个文字、第2个文字、第
Figure 918435DEST_PATH_IMAGE013
个文字、第
Figure 93064DEST_PATH_IMAGE006
个文字的初始字级评分。在此需要说明的是,在第2个文字与第
Figure 710122DEST_PATH_IMAGE013
个文字之间存在多个文字。
本实施例中,对于集合
Figure 704623DEST_PATH_IMAGE024
中的元素“12”, “23”, “34”,其n元组信息熵分别为
Figure 314595DEST_PATH_IMAGE026
,将这些信息熵首尾延伸得到列表
Figure 78152DEST_PATH_IMAGE027
,对列表中相邻的求平均值得到:
Figure 380957DEST_PATH_IMAGE028
,它们依次代表目标短句“1234”中字“1”,“2”,“3”,“4”的初始字级评分。如此实现了将n元组评分依据权重比例转化为字级评分的目的,该评分是一个相对值,在实际上错字的评分大概率会比其他汉字的评分要低。
步骤4,采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字。
其中,采用平均绝对离差对各个文字的初始字级评分进行修正计算的公式为:
Figure 597175DEST_PATH_IMAGE014
其中,
Figure 761571DEST_PATH_IMAGE015
表示修正字级评分,
Figure 379635DEST_PATH_IMAGE016
为初始字级评分的通式表达,
Figure 853341DEST_PATH_IMAGE017
表示可调参数,
Figure 556855DEST_PATH_IMAGE018
表示取中位数。
通过平均绝对离差对各个文字的初始字级评分进行修正计算,可以避免极端值对决策结果的过度影响。
具体的,若目标短句中的某一目标字的修正字级评分大于评分阈值t,且该目标字的初始字级评分小于
Figure 508631DEST_PATH_IMAGE019
,则确定该目标字为错别字。
步骤5,获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合。
步骤6,采用kenlm语言模型依次计算替换句子集合中各个元素的句子信息熵以及目标短句的句子信息熵
Figure 997512DEST_PATH_IMAGE001
,并查找替换句子集合中各个元素的句子信息熵中的最大者
Figure 376541DEST_PATH_IMAGE002
其中,目标短句的句子信息熵
Figure 832930DEST_PATH_IMAGE001
的计算公式为:
Figure 322817DEST_PATH_IMAGE029
步骤7,若
Figure 915472DEST_PATH_IMAGE003
,则将目标短句修改为
Figure 465402DEST_PATH_IMAGE002
对应的句子,其中,
Figure 159820DEST_PATH_IMAGE004
表示信息熵阈值。
可以理解的,若
Figure 453398DEST_PATH_IMAGE021
,则认定目标短句合理,不进行修改。
此外,作为一个具体示例,所述方法还包括:
扫描原始文本中是否存在混淆词典中的收纳词;
若是,则在扫描原始文本中将收纳词替换为混淆词典中指定的替换词。
此外,本实施例中,kenlm语言模型训练过程分为增加标签、计数、调整计数、平滑处理四步。
如有字符串
Figure 166139DEST_PATH_IMAGE030
,该字符串表示语料库中一个短句。
第一步,增加标签。在句首加上开始符,在句尾加上结束符结果如下:
Figure 886970DEST_PATH_IMAGE031
其中,
Figure 52373DEST_PATH_IMAGE032
表示开始符,
Figure 900374DEST_PATH_IMAGE033
表示结束符。
第二步,计数。假如要建立一个的n元组语言模型,首先会将上述处理过的句子中所有n元组提取出来并统计其出现的次数,此计数结果表示为f
第三步,调整计数。由于语言中存在许多组合词,如果只是简单的把上述提取的字符计数会导致某些字计数权重严重不符合该词在实际语言应用中的概率。拿“饕餮”这个词举例,‘饕’和‘餮’都很难以其他方式出现。如果直接计数,“饕”字单独的合理性甚至可能超过“饕餮”这个词的合理。这显然是不符合直觉的,通常认为是汉字一般是成组出现的,长字符的出现应该更合理,所以减少这类长度短于n的字符的权重十分有必要。
具体思路如下:
1)假定短字符的权重只受所接字符的种数影响。具体就是:如有“纽约”,“契约”两词,即‘约’前面可以接两种字符,这决定了“约”的权重。但“纽”字的权重不受“纽约”的影响,而与“X纽”的种类有关。
2)统计出所有短字符接上其他短字符组成长字符的种类,即短字符的调整计数值。
3)若字符长度等于n,则该字符的调整计数值
Figure 467622DEST_PATH_IMAGE034
,其中,f表示计数结果。
如此保留了长字符的计数值,根据短字符适用的广泛性不同程度的减小了短字符的计数值,好处在于长字符有了更高的权重,短字符减少权重的同时进行了分类处理。
第四步,平滑处理。虽然假定语料库的统计结果能代表语言统计结果,但是语料库不可能包括所有词语,这其中包括根本不存在的词和没统计到的词。这些词在模型中概率为零,但是在计算过程中零的出现是不好处理的。平滑处理就是将调整一些极端词的概率,包括出现次数极高和极低的。
本实施例中的平滑方法为修正的 Kneser-Ney 平滑方法,其操作分为四步:
1)计算平滑参数
Figure 359354DEST_PATH_IMAGE035
此参数可以非线性的反映对应词。
这里采用discount公式来计算它:
Figure 12052DEST_PATH_IMAGE036
如有字符调整计数值为k且长度为n,那么这类字符的种数由
Figure 913012DEST_PATH_IMAGE037
表示。公式中
Figure 644138DEST_PATH_IMAGE035
表示此类字符对应的平滑系数。
2)计算字符的伪概率。
公式为:
Figure 972351DEST_PATH_IMAGE038
其中,
Figure 846767DEST_PATH_IMAGE039
表示选中字符
Figure 551417DEST_PATH_IMAGE040
相对于其它的选中字符
Figure 827678DEST_PATH_IMAGE041
的伪概率,
Figure 77525DEST_PATH_IMAGE042
Figure 439236DEST_PATH_IMAGE043
表示被计算概率的n元组,
Figure 681998DEST_PATH_IMAGE044
表示末端的最小选中字符单元,
Figure 812766DEST_PATH_IMAGE045
表示其它的选中字符,表示未知字符,
Figure 482781DEST_PATH_IMAGE046
表示调整计数操作。
3)计算退回权值。
上述操作计算得出的已知字符伪概率相较于统计概率更为平滑,但是这并没有解决未知字符概率为零的问题。退回权值策略解决的是长字符多元组不存在于字典中,但其组成部分都存在于字典中的情况。退回权值策为利用低阶信息估计异常的高阶信息,公式如下:
Figure 331789DEST_PATH_IMAGE047
Figure 863395DEST_PATH_IMAGE048
其中,
Figure 114248DEST_PATH_IMAGE049
表示选中字符
Figure 955165DEST_PATH_IMAGE050
相对于选中字符
Figure 291468DEST_PATH_IMAGE051
的退回权值,
Figure 876034DEST_PATH_IMAGE052
表示退回操作,
Figure 732125DEST_PATH_IMAGE053
表示n-1元组集合中第2个元素,
Figure 743944DEST_PATH_IMAGE054
的取值为1或2或3。
4)插值操作。
由于伪概率之和小于1,插值操作的思想为将总概率补全为一的同时赋予unk的字符一定的概率值。
该操作解决了字符unk概率为零问题,并进一步对数据进行平滑处理。公式如下(此公式为递归公式):
一阶插值:
Figure 301964DEST_PATH_IMAGE055
k阶插值:
Figure 690220DEST_PATH_IMAGE056
其中,
Figure 650086DEST_PATH_IMAGE057
表示选中字符
Figure 583538DEST_PATH_IMAGE040
的退回权值,
Figure 894433DEST_PATH_IMAGE058
表示选中字符
Figure 820801DEST_PATH_IMAGE059
的伪概率,
Figure 635173DEST_PATH_IMAGE060
表示词汇表的长度,
Figure 988794DEST_PATH_IMAGE061
表示空字符,
Figure 786986DEST_PATH_IMAGE062
表示选中字符
Figure 2198DEST_PATH_IMAGE059
相对于选中字符
Figure 936656DEST_PATH_IMAGE063
的伪概率,
Figure 726757DEST_PATH_IMAGE063
表示n-1元组集合中第
Figure 746666DEST_PATH_IMAGE064
个元素,
Figure 749257DEST_PATH_IMAGE065
表示n-1元组集合中第
Figure 554533DEST_PATH_IMAGE066
个元素,
Figure 249956DEST_PATH_IMAGE046
表示调整计数操作,
Figure 757161DEST_PATH_IMAGE067
表示对应的伪概率,
Figure 563443DEST_PATH_IMAGE068
表示字符长度,
Figure 738073DEST_PATH_IMAGE054
的取值为1或2或3。
综上,根据本实施例提供的中文错别字纠错处理方法,将目标短句转化为n元组集合,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分,对初始字级评分修正计算后识别出错别字,实现了对字粒度的文本进行分析纠错的效果,能够在中文错别字纠错时有效减小改变原句意思的概率,此外,本发明利用kenlm语言模型结合同音同形字典,能够直接将存在错别字的目标短句修改为句子信息熵中的最大者对应的句子,无需遍历操作,有效减少了纠错耗时。
请参阅图2,本发明还提出一种中文错别字纠错处理系统,其中,所述系统包括:
文本剔除模块,用于:
通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;
文本分割模块,用于:
通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;
第一计算模块,用于:
采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;
第二计算模块,用于:
采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;
第一替换模块,用于:
获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;
第二替换模块,用于:
采用kenlm语言模型依次计算替换句子集合中各个元素的句子信息熵以及目标短句的句子信息熵
Figure 338818DEST_PATH_IMAGE001
,并查找替换句子集合中各个元素的句子信息熵中的最大者
Figure 349631DEST_PATH_IMAGE002
语句修改模块,用于:
Figure 694024DEST_PATH_IMAGE003
,则将目标短句修改为
Figure 723160DEST_PATH_IMAGE002
对应的句子,其中,
Figure 494807DEST_PATH_IMAGE004
表示信息熵阈值。
本发明还提出一种存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上所述的中文错别字纠错处理方法。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通讯、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种中文错别字纠错处理方法,其特征在于,所述方法包括如下步骤:
步骤1,通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;
步骤2,通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;
步骤3,采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;
步骤4,采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;
步骤5,获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;
步骤6,采用kenlm语言模型依次计算替换句子集合中各个元素的句子信息熵以及目标短句的句子信息熵
Figure 652203DEST_PATH_IMAGE001
,并查找替换句子集合中各个元素的句子信息熵中的最大者
Figure 98228DEST_PATH_IMAGE002
步骤7,若
Figure 556891DEST_PATH_IMAGE003
,则将目标短句修改为
Figure 164590DEST_PATH_IMAGE002
对应的句子,其中,
Figure 482439DEST_PATH_IMAGE004
表示信息熵阈值。
2.根据权利要求1所述的中文错别字纠错处理方法,其特征在于,步骤2中,n元组集合表示为
Figure 76362DEST_PATH_IMAGE005
,其中,
Figure 530477DEST_PATH_IMAGE006
表示目标短句中文字的字数,
Figure 433711DEST_PATH_IMAGE007
分别表示n元组集合
Figure 973277DEST_PATH_IMAGE008
中第1个元素、第2个元素、第3个元素、第
Figure 636471DEST_PATH_IMAGE009
个元素;
步骤3中,n元组集合中各个元素的n元组信息熵表示
Figure 945092DEST_PATH_IMAGE010
,其中,
Figure 160173DEST_PATH_IMAGE010
分别表示n元组集合
Figure 46089DEST_PATH_IMAGE008
中第1个元素、第2个元素、第3个元素、第
Figure 372028DEST_PATH_IMAGE009
个元素的n元组信息熵;
目标短句中各个文字的初始字级评分分别为:
Figure 410523DEST_PATH_IMAGE011
其中,
Figure 796505DEST_PATH_IMAGE012
分别表示目标短句中第1个文字、第2个文字、第
Figure 435296DEST_PATH_IMAGE013
个文字、第
Figure 299347DEST_PATH_IMAGE006
个文字的初始字级评分。
3.根据权利要求2所述的中文错别字纠错处理方法,其特征在于,步骤4中,采用平均绝对离差对各个文字的初始字级评分进行修正计算的公式为:
Figure 582561DEST_PATH_IMAGE014
其中,
Figure 11881DEST_PATH_IMAGE015
表示修正字级评分,
Figure 747756DEST_PATH_IMAGE016
为初始字级评分的通式表达,
Figure 540131DEST_PATH_IMAGE017
表示可调参数,
Figure 677851DEST_PATH_IMAGE018
表示取中位数。
4.根据权利要求3所述的中文错别字纠错处理方法,其特征在于,步骤4中,根据各个文字的修改字级评分确定目标短句中的错别字具体包括:
若目标短句中的某一目标字的修正字级评分大于评分阈值t,且该目标字的初始字级评分小于
Figure 281002DEST_PATH_IMAGE019
,则确定该目标字为错别字。
5.根据权利要求1所述的中文错别字纠错处理方法,其特征在于,步骤4中,所述方法还包括:
扫描原始文本中是否存在混淆词典中的收纳词;
若是,则在扫描原始文本中将收纳词替换为混淆词典中指定的替换词。
6.根据权利要求2所述的中文错别字纠错处理方法,其特征在于,步骤6中,目标短句的句子信息熵
Figure 504173DEST_PATH_IMAGE001
的计算公式为:
Figure 975606DEST_PATH_IMAGE020
7.根据权利要求3所述的中文错别字纠错处理方法,其特征在于,所述方法还包括:
Figure 92466DEST_PATH_IMAGE021
,则认定目标短句合理,不进行修改。
8.根据权利要求1所述的中文错别字纠错处理方法,其特征在于,步骤1具体为:
通过文本过滤器采用正则表达式将原始文本中的非中文部分剔除,获得只含中文部分的中间文本。
9.一种中文错别字纠错处理系统,其特征在于,所述系统包括:
文本剔除模块,用于:
通过文本过滤器将原始文本中的非中文部分剔除,获得中间文本;
文本分割模块,用于:
通过分割器将中间文本分割为若干个短句,对于其中任一目标短句,将目标短句转化为n元组集合;
第一计算模块,用于:
采用kenlm语言模型依次计算n元组集合中各个元素的n元组信息熵,根据n元组集合中各个元素的n元组信息熵计算目标短句中各个文字的初始字级评分;
第二计算模块,用于:
采用平均绝对离差对各个文字的初始字级评分进行修正计算,得到各个文字的修改字级评分,并根据各个文字的修改字级评分确定目标短句中的错别字;
第一替换模块,用于:
获取同音同形字典中与错别字对应的替换字,在目标短句中用替换字替换错别字,以得到替换句子集合;
第二替换模块,用于:
采用kenlm语言模型依次计算替换句子集合中各个元素的句子信息熵以及目标短句的句子信息熵
Figure 991152DEST_PATH_IMAGE001
,并查找替换句子集合中各个元素的句子信息熵中的最大者
Figure 311406DEST_PATH_IMAGE002
语句修改模块,用于:
Figure 586530DEST_PATH_IMAGE003
,则将目标短句修改为
Figure 823476DEST_PATH_IMAGE002
对应的句子,其中,
Figure 627484DEST_PATH_IMAGE004
表示信息熵阈值。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现上述权利要求1至8任意一项所述的中文错别字纠错处理方法。
CN202211079853.XA 2022-09-05 2022-09-05 一种中文错别字纠错处理方法、系统及存储介质 Pending CN115146636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211079853.XA CN115146636A (zh) 2022-09-05 2022-09-05 一种中文错别字纠错处理方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211079853.XA CN115146636A (zh) 2022-09-05 2022-09-05 一种中文错别字纠错处理方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN115146636A true CN115146636A (zh) 2022-10-04

Family

ID=83415716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211079853.XA Pending CN115146636A (zh) 2022-09-05 2022-09-05 一种中文错别字纠错处理方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115146636A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110276077A (zh) * 2019-06-25 2019-09-24 上海应用技术大学 中文纠错的方法、装置及设备
CN111753531A (zh) * 2020-06-28 2020-10-09 平安科技(深圳)有限公司 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN111859921A (zh) * 2020-07-08 2020-10-30 金蝶软件(中国)有限公司 文本纠错方法、装置、计算机设备和存储介质
CN111984845A (zh) * 2020-08-17 2020-11-24 江苏百达智慧网络科技有限公司 网站错别字识别方法和系统
US20220050876A1 (en) * 2020-08-14 2022-02-17 Salesforce.Com, Inc. Systems and methods for query autocompletion

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134952A (zh) * 2019-04-29 2019-08-16 华南师范大学 一种错误文本拒识方法、装置及存储介质
CN110276077A (zh) * 2019-06-25 2019-09-24 上海应用技术大学 中文纠错的方法、装置及设备
CN111753531A (zh) * 2020-06-28 2020-10-09 平安科技(深圳)有限公司 一种基于人工智能的文本纠错方法、装置、计算机设备及存储介质
CN111859921A (zh) * 2020-07-08 2020-10-30 金蝶软件(中国)有限公司 文本纠错方法、装置、计算机设备和存储介质
US20220050876A1 (en) * 2020-08-14 2022-02-17 Salesforce.Com, Inc. Systems and methods for query autocompletion
CN111984845A (zh) * 2020-08-17 2020-11-24 江苏百达智慧网络科技有限公司 网站错别字识别方法和系统

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
KENNETH HEAFIELD ET AL: "Scalable Modified Kneser-Ney Language Model Estimation", 《ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
匿名: "Kenlm中使用的Modified Kneser-Ney平滑方法和计算过程推演", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/406029473》 *
匿名: "传统语言模型+KenLMu实现", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/270516015》 *
匿名: "图解N-gram语言模型的原理-以kenlm为例", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/63884335》 *
苏剑波 等: "《应用模式识别技术导论 人脸识别与语音识别》", 31 May 2001, 上海:上海交通大学出版社 *
苑少鹏: "基于n-gram和依存句法分析的中文文本纠错研究", 《中国优秀硕士学位论文全文数据库电子期刊 信息科技辑》 *
袁怡: "基于自然语言处理的行政案件快速办理系统的设计与实现", 《中国优秀硕士学位论文全文数据库电子期刊 社会科学I辑》 *
高甲伟: "作文句子错误识别系统的设计与实现", 《中国优秀硕士学位论文全文数据库电子期刊 社会科学II辑》 *
龚静: "《中文文本聚类研究》", 31 March 2012, 北京:中国传媒大学出版社 *

Similar Documents

Publication Publication Date Title
Duan et al. Online spelling correction for query completion
JP4652737B2 (ja) 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
US9720903B2 (en) Method for parsing natural language text with simple links
CN101131706A (zh) 一种查询修正方法及系统
CN111046652A (zh) 文本纠错方法、文本纠错装置、存储介质和电子设备
CN105068997B (zh) 平行语料的构建方法及装置
CN103678282A (zh) 一种分词方法及装置
US8660969B1 (en) Training dependency parsers by jointly optimizing multiple objectives
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
CN115965009A (zh) 文本纠错模型的训练与文本纠错方法、设备
CN112232055A (zh) 一种基于拼音相似度与语言模型的文本检测与纠正方法
CN117744633B (zh) 一种文本纠错方法、装置及电子设备
JP5097802B2 (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN114429136A (zh) 一种文本纠错方法
CN116090441B (zh) 一种融合局部语义特征和全局语义特征的中文拼写纠错方法
CN115146636A (zh) 一种中文错别字纠错处理方法、系统及存储介质
US20200097549A1 (en) Semantic processing method, electronic device, and non-transitory computer readable recording medium
CN110929514A (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN115994544A (zh) 平行语料筛选方法、平行语料筛选设备和可读存储介质
CN115688748A (zh) 问句纠错方法、装置、电子设备及存储介质
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
CN113269192A (zh) 一种基于词匹配和语法匹配的ocr后处理方法
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
Park et al. Self-organizing n-gram model for automatic word spacing
CN113807081B (zh) 基于上下文的聊天文本内容纠错方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221004

RJ01 Rejection of invention patent application after publication