CN115659958A - 一种中文拼写错误检查方法 - Google Patents

一种中文拼写错误检查方法 Download PDF

Info

Publication number
CN115659958A
CN115659958A CN202211679594.4A CN202211679594A CN115659958A CN 115659958 A CN115659958 A CN 115659958A CN 202211679594 A CN202211679594 A CN 202211679594A CN 115659958 A CN115659958 A CN 115659958A
Authority
CN
China
Prior art keywords
text
character
candidate set
original text
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211679594.4A
Other languages
English (en)
Other versions
CN115659958B (zh
Inventor
李芳芳
汤达夫
欧晓叶
毛星亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Dademaning Information Technology Co ltd
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202211679594.4A priority Critical patent/CN115659958B/zh
Publication of CN115659958A publication Critical patent/CN115659958A/zh
Application granted granted Critical
Publication of CN115659958B publication Critical patent/CN115659958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种中文拼写错误检查方法,包括:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出。本发明提供的中文拼写错误检查方法通过增加降噪模块,得到原文本的正确语义特征表示,使原文本和噪声文本的字符更加准确,消除错误字符对原文本语境的影响。

Description

一种中文拼写错误检查方法
技术领域
本发明涉及文本纠错技术领域,具体涉及一种中文拼写错误检查方法。
背景技术
目前中文文本检查的方法主要有基于统计语言模型的规则方法和端到端的深度学习方法两大类。基于统计语言模型的规则匹配分为错误检测、候选召回、候选排序三个步骤,此方法需要大量语料库训练语言模型和人工规则设计,在纠错结果上也无法令人满意。基于端到端的深度学习方法主要有基于自回归的seq2seq模型和非自回归的Bert模型;由于文本大部分字符不需要修改,自回归模型会造成性能的浪费。
因此目前主流的中文文本检查方法是基于非自回归模型,在模型的最后一层通过全连接层,直接对单个字符进行纠错预测,并且在此基础上还融合了拼音和字形的信息,以达到提高纠错效果的目的。
但是该方法忽略了纠错结果字符间存在的依赖关系,因而直接通过全连接层预测正确字符的方式会造成上下文依赖关系的丢失,造成语句间的不连贯。除此之外,当文本出现多个错误字符时,会影响全文的上下文语境,出现错误的词向量表示,容易将正确字符纠为错误字符,出现过度纠正的现象。
综上所述,急需一种中文拼写错误检查方法以解决现有技术中存在的问题。
发明内容
本发明目的在于提供一种中文拼写错误检查方法,具体技术方案如下:
一种中文拼写错误检查方法,包括:
S1:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;
S2:通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:
S2-1:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;
S2-2:通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;
S2-3:计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出。
优选的,所述降噪模块包括噪声文本生成模块以及降噪网络,所述噪声文本生成模块基于特定规则搭建,降噪网络基于Bert搭建。
优选的,所述步骤S1包括:
S1-1:采集原文本,通过噪声文本生成模块生成噪声文本;
S1-2:通过降噪网络获取原文本和噪声文本的初始语义特征表示,通过噪声文本的初始语义特征和其没有加噪的概率对原文本的初始语义特征表示进行降噪处理,获得原文本的语义特征表示。
优选的,所述步骤S2-1具体是:基于候选集生成模块对原文本的语义特征表示进行归一化,获得候选集合中每个字符作为替换字符的预测概率,选取预测概率前top-k的字符作为最终候选集;
优选的,所述S2-2具体是使用最终候选集中的替换字符对原文本的当前字符进行依次替换,得到初始输入文本
Figure 220822DEST_PATH_IMAGE001
,然后将当前字符的下一位字符使用mask代替,到最终输入文本
Figure 951011DEST_PATH_IMAGE002
,获取最终输入文本
Figure 730748DEST_PATH_IMAGE002
的语义特征表示,将最终输入文本
Figure 125958DEST_PATH_IMAGE002
的语义特征表示通过标准化层与全连接层,获取对整个词汇表的预测概率,归一化得到当前位i置候选集的转移概率
Figure 2647DEST_PATH_IMAGE003
Figure 825109DEST_PATH_IMAGE004
表示原文本第i个位置的最终候选集中第
Figure 92143DEST_PATH_IMAGE005
个字符到原文本第i+1个位置的最终候选集中第
Figure 291043DEST_PATH_IMAGE005
个字符的转移概率,依次遍历原文本的每个位置,重复上述操作,输出得到整个最终候选集的状态转移矩阵。
优选的,所述步骤S2-3中转移路径的得分计算表达式如下:
Figure 268576DEST_PATH_IMAGE006
其中,
Figure 261940DEST_PATH_IMAGE007
表示第
Figure 16270DEST_PATH_IMAGE008
条转移路径得分,
Figure 753281DEST_PATH_IMAGE009
表达第
Figure 338983DEST_PATH_IMAGE008
条转移路径,
Figure 768828DEST_PATH_IMAGE010
表示原文本的字符总数,
Figure 10453DEST_PATH_IMAGE011
表示原文本第i个位置的字符预测为最终候选集第
Figure 98626DEST_PATH_IMAGE005
个字符的概率。
优选的,所述降噪处理的单个字符损失计算表达式如下:
Figure 742097DEST_PATH_IMAGE012
其中,
Figure 77263DEST_PATH_IMAGE013
表示降噪处理的单个字符损失,
Figure 868502DEST_PATH_IMAGE014
表示
Figure 947316DEST_PATH_IMAGE015
Figure 445294DEST_PATH_IMAGE016
的相对熵,
Figure 216941DEST_PATH_IMAGE017
表示
Figure 479164DEST_PATH_IMAGE016
Figure 361669DEST_PATH_IMAGE015
的相对熵,
Figure 714153DEST_PATH_IMAGE015
表示原文本第i个字符的语义特征表示,
Figure 719018DEST_PATH_IMAGE016
表示噪声文本第i个字符的语义特征表示,i大于等于1,小于等于
Figure 156953DEST_PATH_IMAGE010
所述降噪处理的整体损失计算表达式如下:
Figure 577570DEST_PATH_IMAGE018
;
其中,
Figure 50139DEST_PATH_IMAGE019
表示降噪处理的整体损失,
Figure 976638DEST_PATH_IMAGE020
表示噪声文本第i个字符没有加噪的概率,
Figure 901869DEST_PATH_IMAGE021
表示第i个字符的标记,若该位置添加了噪声,则值为0,否则为1。
优选的,转移路径的损失函数表示式如下:
Figure 126177DEST_PATH_IMAGE022
其中,
Figure 249991DEST_PATH_IMAGE023
表示转移路径的损失函数,
Figure 534341DEST_PATH_IMAGE024
表示正确转移路径的得分,
Figure 946868DEST_PATH_IMAGE025
表示各转移路径得分总和。
优选的,降噪处理和转移路径的整体损失函数表达式如下:
Figure 974867DEST_PATH_IMAGE026
其中,
Figure 470964DEST_PATH_IMAGE027
表示超参数,
Figure 660637DEST_PATH_IMAGE028
表示降噪处理和转移路径的整体损失函数。
优选的,所述
Figure 560460DEST_PATH_IMAGE027
大于0小于1。
应用本发明的技术方案,具有以下有益效果:
(1)本发明提供的中文拼写错误检查方法通过增加降噪模块,获取原文本和噪声文本,训练降噪模块,通过降噪模块得到原文本的正确语义特征表示,使原文本和噪声文本的语义表示更加准确,消除错误字符对原文本语境的影响,从而避免文本出现多个错误字符时,错误字符会对全文的上下文语境造成噪声干扰,出现错误的词向量表示,容易导致将正确字符被纠为错误字符,出现过度纠正的现象。
(2)本发明的纠正模块中状态转移矩阵生成模块通过获取候选集合中每个字符的转移概率从而生成状态转移矩阵,然后计算状态转移矩阵中各转移路径的得分,取得分最高的转移路径作为正确文本输出,加强了输出结果中各字符之间的相关性,提高了文本输出的正确率。
(3)本发明基于候选集生成模块对原文本的语义特征表示进行归一化,获得候选集合中每个字符作为替换字符的预测概率,选取预测概率前top-k的字符作为状态转移矩阵生成模块输入的最终候选集,极大地减少了状态转移矩阵生成模块输入的组合数量,降低了后续计算成本,并且不会对纠正效果产生影响。
(4)本发明通过Bert的mask任务,在原句中,先从最终候选集中依次选择字符对当前字符进行替换,当前字符的下一个字符进行mask处理,通过Bert的mask任务得到mask位置各个候选字符的预测概率,将其作为状态转移矩阵,从而得到一个动态矩阵,使其获得学习能力,能够根据上下文变化进行调整。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例1的流程示意图;
图2是本发明优选实施例1的整体模块示意图。
具体实施方式
为了便于理解本发明,下面将对本发明进行更全面的描述,并给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例1:
参见图1和图2,
一种中文拼写错误检查方法,包括:
S1:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;所述降噪模块包括噪声文本生成模块以及降噪网络,所述噪声文本生成模块以及降噪网络均基于Bert搭建。具体步骤如下:
S1-1:采集原文本
Figure 188887DEST_PATH_IMAGE029
,通过噪声文本生成模块生成对应的噪声文本
Figure 490555DEST_PATH_IMAGE030
,其中,
Figure 851130DEST_PATH_IMAGE031
表示原文本中第
Figure 238249DEST_PATH_IMAGE032
个字符,
Figure 421099DEST_PATH_IMAGE033
表示噪声文本中第
Figure 311695DEST_PATH_IMAGE032
个字符;具体是:
步骤一:判断原文本是否需要加入噪声。对于没有错别字的原文本,和对于错别字个数超过原文本总字数10%的,不需要进行处理,直接作为原文本和噪声文段输出。其它情况均为需要噪声处理的原文本。
步骤二: 确定噪声添加的位置。对原文本中存在错别字的位置,前后5个字符以内随机选取一个位置作为噪声位。并对该位置进行噪声标记,表达式如下:
Figure 108750DEST_PATH_IMAGE034
其中,
Figure 779903DEST_PATH_IMAGE035
为标记向量,
Figure 953395DEST_PATH_IMAGE036
为原文本第
Figure 964076DEST_PATH_IMAGE032
个字符的标记,
Figure 243617DEST_PATH_IMAGE037
为第i个字符的标记,若该位置添加了噪声,则值为0,否则为1,i大于等于1,小于等于
Figure 339749DEST_PATH_IMAGE032
步骤三:选择噪声位的替换字符。我们以50%的概率从读音混淆集中随机挑取替换字符,35%的概率替换为形近字,15%的概率随机替换。
S1-2:通过降噪网络获取原文本的初始语义特征表示
Figure 51353DEST_PATH_IMAGE038
和噪声文本的初始语义特征表示
Figure 916541DEST_PATH_IMAGE039
,其中,
Figure 117715DEST_PATH_IMAGE040
为语义特征表示维度,取值为768,R表示向量空间,
Figure 701143DEST_PATH_IMAGE041
表示原文本第
Figure 950859DEST_PATH_IMAGE032
个字符的语义特征表示,
Figure 936132DEST_PATH_IMAGE042
表示噪声文本第
Figure 58940DEST_PATH_IMAGE032
个字符的语义特征表示;
通过噪声文本的初始语义特征对原文本的初始语义特征表示进行降噪处理,获得原文本的语义特征表示,具体如下:
对噪声文本的第i个字符的初始语义特征表示
Figure 129664DEST_PATH_IMAGE042
进行正确性判断,得出噪声文本第i个字符没有加噪的概率
Figure 183071DEST_PATH_IMAGE043
Figure 22851DEST_PATH_IMAGE043
表示如下:
Figure 565828DEST_PATH_IMAGE044
其中,
Figure 858269DEST_PATH_IMAGE045
表示第i个字符的位置全连接神经网络连接的权重向量,可根据需求调整取值,
Figure 715366DEST_PATH_IMAGE046
表示第i个字符的位置全连接神经网络连接的偏置,可根据需求调整取值,
Figure 409653DEST_PATH_IMAGE047
表示标准化层,
Figure 369869DEST_PATH_IMAGE048
表示激活函数;
采用
Figure 415185DEST_PATH_IMAGE049
作为降噪网络的单个字符损失函数,表达式如下:
Figure 810395DEST_PATH_IMAGE050
其中,
Figure 359188DEST_PATH_IMAGE051
表示降噪处理的单个字符损失,
Figure 509546DEST_PATH_IMAGE014
表示
Figure 776579DEST_PATH_IMAGE015
Figure 975480DEST_PATH_IMAGE016
的相对熵,
Figure 191828DEST_PATH_IMAGE017
表示
Figure 450771DEST_PATH_IMAGE016
Figure 205101DEST_PATH_IMAGE015
的相对熵,
Figure 4430DEST_PATH_IMAGE015
表示原文本第i个字符的语义特征表示,
Figure 527815DEST_PATH_IMAGE016
表示噪声文本第i个字符的语义特征表示;
所述降噪处理的整体损失计算表达式如下:
Figure 957659DEST_PATH_IMAGE052
其中,
Figure 933705DEST_PATH_IMAGE053
表示降噪处理的整体损失,
Figure 785993DEST_PATH_IMAGE054
表示噪声文本第i个字符没有加噪的概率,
Figure 429464DEST_PATH_IMAGE055
表示第
Figure 764630DEST_PATH_IMAGE056
个字符的标记,若该位置添加了噪声,则值为0,否则为1,当
Figure 555868DEST_PATH_IMAGE054
值接近1时,说明模型预测噪声文本中第i个字符的拼写是没有添加噪声的,此时如果该字符的真实标记为非噪声位字符,其
Figure 634683DEST_PATH_IMAGE055
值位1,
Figure 132660DEST_PATH_IMAGE051
所代表的原文本的字符和噪声文本的字符的语义特征表示差异的损失可以根据
Figure 451777DEST_PATH_IMAGE057
的值进行相应缩小。相反,如果
Figure 667995DEST_PATH_IMAGE054
趋向于0,
Figure 550500DEST_PATH_IMAGE057
的值会相对偏大,损失函数也会相对偏大,说明原文本的语义特征表示需要进行大的调整。噪声模块训练得到Bert参数与纠错模块共享。
S2:通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:
S2-1:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;具体是:基于候选集生成模块对原文本的语义特征表示进行归一化,获得候选集合中每个字符作为替换字符的预测概率,选取预测概率前top-k的的字符作为最终候选集;具体是:
步骤一:根据原文本的
Figure 902984DEST_PATH_IMAGE058
,获得语料库所有词语的预测概率
Figure 907849DEST_PATH_IMAGE059
Figure 345784DEST_PATH_IMAGE060
为语料库词语数。
Figure 766401DEST_PATH_IMAGE061
Figure 553485DEST_PATH_IMAGE062
步骤二:从混淆集中挑选出每个字符的可能被替换为的字符,作为初始候选集。再根据候步骤一得到的语料库所有词语的预测概率,获得初始候选集每个字符的预测概率
Figure 401355DEST_PATH_IMAGE063
,在初始候选集中采样预测概率前top-k的的字符作为最终候选集,这里k取值为5。将
Figure 326586DEST_PATH_IMAGE063
中最终候选集的字符概率进行提取再进行softmax操作,得到最终候选集归一化后的预测概率
Figure 550894DEST_PATH_IMAGE064
Figure 940287DEST_PATH_IMAGE065
表示原文本第i个位置的字符预测为最终候选集第
Figure 224638DEST_PATH_IMAGE066
个字符的概率。
S2-2:通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;具体是:使用最终候选集中的替换字符对原文本的当前字符进行依次替换,得到初始输入文本
Figure 637164DEST_PATH_IMAGE067
,表达式如下:
Figure 212633DEST_PATH_IMAGE068
其中,
Figure 394216DEST_PATH_IMAGE069
表示句子开始标志,
Figure 849468DEST_PATH_IMAGE070
表示原文本第二个字符的最终候选集中第i个替换字符;
然后将当前字符的下一位字符使用mask代替,到最终输入文本
Figure 749291DEST_PATH_IMAGE071
,表达式如下:
Figure 377718DEST_PATH_IMAGE072
,获取最终输入文本
Figure 413808DEST_PATH_IMAGE071
的语义特征表示
Figure 39961DEST_PATH_IMAGE073
将最终输入文本
Figure 738664DEST_PATH_IMAGE071
的语义特征表示通过标准化层与全连接层,获取对整个词汇表的预测概率
Figure 842887DEST_PATH_IMAGE074
,表达式如下:
Figure 999062DEST_PATH_IMAGE075
Figure 796116DEST_PATH_IMAGE076
其中,
Figure 467269DEST_PATH_IMAGE077
表示LayerNorm归一化的输出,
Figure 640761DEST_PATH_IMAGE078
表示GELU激活函数,
Figure 651443DEST_PATH_IMAGE079
表示长度为vocab的一维向量空间,vocab为词汇表的数量,
Figure 432448DEST_PATH_IMAGE080
表示LayerNorm归一化层全连接神经网络的权重向量,
Figure 528580DEST_PATH_IMAGE081
表示LayerNorm归一化层全连接神经网络的偏置,
Figure 974605DEST_PATH_IMAGE082
表示Softmax层全连接神经网络的权重向量,
Figure 105372DEST_PATH_IMAGE083
表示Softmax层全连接神经网络的偏置,
Figure 306546DEST_PATH_IMAGE084
表示归一化指数函数。
得到原文本第i个位置的最终候选集中第
Figure 889974DEST_PATH_IMAGE085
个字符到原文本第i+1个位置的最终候选集中第
Figure 139690DEST_PATH_IMAGE086
个字符的转移概率
Figure 457056DEST_PATH_IMAGE087
,依次遍历原文本的每个位置,重复上述操作,输出得到整个最终候选集的状态转移矩阵;
S2-3:计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出;所述转移路径的得分计算表达式如下:
Figure 766814DEST_PATH_IMAGE088
其中,
Figure 837539DEST_PATH_IMAGE089
表示第
Figure 890945DEST_PATH_IMAGE090
条转移路径得分,
Figure 793042DEST_PATH_IMAGE091
表达第
Figure 273702DEST_PATH_IMAGE090
条转移路径,
Figure 566143DEST_PATH_IMAGE092
表示原文本的字符总数,
Figure 236290DEST_PATH_IMAGE093
表示原文本第i个位置的字符预测为最终候选集第
Figure 930577DEST_PATH_IMAGE094
个字符的概率,
Figure 582138DEST_PATH_IMAGE095
表示原文本第i个位置的最终候选集中第
Figure 627454DEST_PATH_IMAGE094
个字符到原文本第i+1个位置的最终候选集中第
Figure 84980DEST_PATH_IMAGE096
个字符的转移概率。
转移路径得分总和表达式如下:
Figure 633773DEST_PATH_IMAGE097
其中,
Figure 721815DEST_PATH_IMAGE098
表示各转移路径得分总和,
Figure 988848DEST_PATH_IMAGE099
表示状态转移矩阵中转移路径的总数。
所述转移路径的损失函数表示式如下:
Figure 233754DEST_PATH_IMAGE100
简化得到:
Figure 902632DEST_PATH_IMAGE101
其中,
Figure 161575DEST_PATH_IMAGE102
表示转移路径的损失函数,通过训练,减少转移路径的损失函数的函数值,函数值越少,说明正确转移路径得分占所有路径总得分的比重越高,纠正越准确;
Figure 650326DEST_PATH_IMAGE103
表示正确文本对应的转移路径的得分。
所述降噪处理和转移路径的整体损失函数表达式如下:
Figure 715234DEST_PATH_IMAGE104
其中,
Figure 238619DEST_PATH_IMAGE105
表示超参数,其取值大于0小于1,
Figure 402884DEST_PATH_IMAGE106
表示降噪处理和转移路径的整体损失函数,其值越小,说明降噪网络的降噪效果越好,纠正效果也越好,其值越大,说明降噪效果和纠正效果都较差,当
Figure 644509DEST_PATH_IMAGE105
趋近1时,说明噪声对模型纠正效果的干扰很大,此时
Figure 998261DEST_PATH_IMAGE107
的结果没有很大的实际意义。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种中文拼写错误检查方法,其特征在于,包括:
S1:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;
S2:通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:
S2-1:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;
S2-2:通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;
S2-3:计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出。
2.根据权利要求1所述的中文拼写错误检查方法,其特征在于,所述降噪模块包括噪声文本生成模块以及降噪网络,所述噪声文本生成模块基于特定规则搭建,降噪网络基于Bert搭建。
3.根据权利要求2所述的中文拼写错误检查方法,其特征在于,所述步骤S1包括:
S1-1:采集原文本,通过噪声文本生成模块生成噪声文本;
S1-2:通过降噪网络获取原文本和噪声文本的初始语义特征表示,通过噪声文本的初始语义特征和其没有加噪的概率对原文本的初始语义特征表示进行降噪处理,获得原文本的语义特征表示。
4.根据权利要求3所述的中文拼写错误检查方法,其特征在于,所述步骤S2-1具体是:基于候选集生成模块对原文本的语义特征表示进行归一化,获得候选集合中每个字符作为替换字符的预测概率,选取预测概率前top-k的字符作为最终候选集。
5.根据权利要求4所述的中文拼写错误检查方法,其特征在于,所述S2-2具体是使用最终候选集中的替换字符对原文本的当前字符进行依次替换,得到初始输入文本
Figure 995175DEST_PATH_IMAGE001
,然后将当前字符的下一位字符使用mask代替,到最终输入文本
Figure 912315DEST_PATH_IMAGE002
,获取最终输入文本
Figure 692052DEST_PATH_IMAGE002
的语义特征表示,将最终输入文本
Figure 274212DEST_PATH_IMAGE002
的语义特征表示通过标准化层与全连接层,获取对整个词汇表的预测概率,归一化得到当前位i置候选集的转移概率
Figure 88584DEST_PATH_IMAGE003
Figure 911047DEST_PATH_IMAGE003
表示原文本第i个位置的最终候选集中第
Figure 178080DEST_PATH_IMAGE004
个字符到原文本第i+1个位置的最终候选集中第
Figure 314663DEST_PATH_IMAGE005
个字符的转移概率,依次遍历原文本的每个位置,重复上述操作,输出得到整个最终候选集的状态转移矩阵。
6.根据权利要求5所述的中文拼写错误检查方法,其特征在于,所述步骤S2-3中转移路径的得分计算表达式如下:
Figure 983542DEST_PATH_IMAGE006
其中,
Figure 976906DEST_PATH_IMAGE007
表示第
Figure 731235DEST_PATH_IMAGE008
条转移路径得分,
Figure 468247DEST_PATH_IMAGE009
表达第
Figure 178583DEST_PATH_IMAGE008
条转移路径,
Figure 608427DEST_PATH_IMAGE010
表示原文本的字符总数,
Figure 850053DEST_PATH_IMAGE011
表示原文本第i个位置的字符预测为最终候选集第
Figure 125176DEST_PATH_IMAGE004
个字符的概率。
7.根据权利要求6所述的中文拼写错误检查方法,其特征在于,所述降噪处理的单个字符损失计算表达式如下:
Figure 706330DEST_PATH_IMAGE012
其中,
Figure 41497DEST_PATH_IMAGE013
表示降噪处理的单个字符损失,
Figure 770418DEST_PATH_IMAGE014
表示
Figure 849233DEST_PATH_IMAGE015
Figure 531231DEST_PATH_IMAGE016
的相对熵,
Figure 302878DEST_PATH_IMAGE017
表示
Figure 253517DEST_PATH_IMAGE016
Figure 136022DEST_PATH_IMAGE015
的相对熵,
Figure 426189DEST_PATH_IMAGE015
表示原文本第i个字符的语义特征表示,
Figure 368737DEST_PATH_IMAGE016
表示噪声文本第i个字符的语义特征表示,i大于等于1,小于等于
Figure 806672DEST_PATH_IMAGE010
所述降噪处理的整体损失计算表达式如下:
Figure 227289DEST_PATH_IMAGE018
;
其中,
Figure 699859DEST_PATH_IMAGE019
表示降噪处理的整体损失,
Figure 259DEST_PATH_IMAGE020
表示噪声文本第i个字符没有加噪的概率,
Figure 925489DEST_PATH_IMAGE021
表示第
Figure 149797DEST_PATH_IMAGE022
个字符的标记,若该位置添加了噪声,则值为0,否则为1。
8.根据权利要求7所述的中文拼写错误检查方法,其特征在于,转移路径的损失函数表示式如下:
Figure 211294DEST_PATH_IMAGE023
其中,
Figure 433328DEST_PATH_IMAGE024
表示转移路径的损失函数,
Figure 845855DEST_PATH_IMAGE025
表示正确转移路径的得分,
Figure 873854DEST_PATH_IMAGE026
表示各转移路径得分总和。
9.根据权利要求8所述的中文拼写错误检查方法,其特征在于,降噪处理和转移路径的整体损失函数表达式如下:
Figure 55437DEST_PATH_IMAGE027
其中,
Figure 432060DEST_PATH_IMAGE028
表示超参数,
Figure 331883DEST_PATH_IMAGE029
表示降噪处理和转移路径的整体损失函数。
10.根据权利要求9所述的中文拼写错误检查方法,其特征在于,所述
Figure 897994DEST_PATH_IMAGE028
大于0小于1。
CN202211679594.4A 2022-12-27 2022-12-27 一种中文拼写错误检查方法 Active CN115659958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211679594.4A CN115659958B (zh) 2022-12-27 2022-12-27 一种中文拼写错误检查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211679594.4A CN115659958B (zh) 2022-12-27 2022-12-27 一种中文拼写错误检查方法

Publications (2)

Publication Number Publication Date
CN115659958A true CN115659958A (zh) 2023-01-31
CN115659958B CN115659958B (zh) 2023-03-21

Family

ID=85023183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211679594.4A Active CN115659958B (zh) 2022-12-27 2022-12-27 一种中文拼写错误检查方法

Country Status (1)

Country Link
CN (1) CN115659958B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
CN111079412A (zh) * 2018-10-18 2020-04-28 北京嘀嘀无限科技发展有限公司 文本纠错方法及装置
CN111368525A (zh) * 2020-03-09 2020-07-03 深圳市腾讯计算机系统有限公司 信息搜索方法、装置、设备及存储介质
CN112287670A (zh) * 2020-11-18 2021-01-29 北京明略软件系统有限公司 文本纠错方法、系统、计算机设备及可读存储介质
CN112395864A (zh) * 2020-11-26 2021-02-23 北京世纪好未来教育科技有限公司 文本纠错模型训练、文本纠错方法及相关装置
US20210150340A1 (en) * 2019-11-18 2021-05-20 Salesforce.Com, Inc. Systems and Methods for Distilled BERT-Based Training Model for Text Classification
CN112990353A (zh) * 2021-04-14 2021-06-18 中南大学 一种基于多模态模型的汉字易混淆集构建方法
CN113076739A (zh) * 2021-04-09 2021-07-06 厦门快商通科技股份有限公司 一种实现跨领域的中文文本纠错方法和系统
CN114154487A (zh) * 2021-12-08 2022-03-08 和美(深圳)信息技术股份有限公司 文本自动纠错方法、装置、电子设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
CN111079412A (zh) * 2018-10-18 2020-04-28 北京嘀嘀无限科技发展有限公司 文本纠错方法及装置
US20210150340A1 (en) * 2019-11-18 2021-05-20 Salesforce.Com, Inc. Systems and Methods for Distilled BERT-Based Training Model for Text Classification
CN111368525A (zh) * 2020-03-09 2020-07-03 深圳市腾讯计算机系统有限公司 信息搜索方法、装置、设备及存储介质
CN112287670A (zh) * 2020-11-18 2021-01-29 北京明略软件系统有限公司 文本纠错方法、系统、计算机设备及可读存储介质
CN112395864A (zh) * 2020-11-26 2021-02-23 北京世纪好未来教育科技有限公司 文本纠错模型训练、文本纠错方法及相关装置
CN113076739A (zh) * 2021-04-09 2021-07-06 厦门快商通科技股份有限公司 一种实现跨领域的中文文本纠错方法和系统
CN112990353A (zh) * 2021-04-14 2021-06-18 中南大学 一种基于多模态模型的汉字易混淆集构建方法
CN114154487A (zh) * 2021-12-08 2022-03-08 和美(深圳)信息技术股份有限公司 文本自动纠错方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王建新: "基于深度学习的自然场景文本检测与识别综述" *

Also Published As

Publication number Publication date
CN115659958B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
Chollampatt et al. A multilayer convolutional encoder-decoder neural network for grammatical error correction
CN114444479B (zh) 一种端到端中文语音文本纠错方法、装置和存储介质
CN111310447B (zh) 语法纠错方法、装置、电子设备和存储介质
CN110008472B (zh) 一种实体抽取的方法、装置、设备和计算机可读存储介质
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
Yildiz et al. A morphology-aware network for morphological disambiguation
CN114386371B (zh) 中文拼写纠错方法、系统、设备及存储介质
CN110427619B (zh) 一种基于多通道融合与重排序的中文文本自动校对方法
CN113449514B (zh) 一种适用于垂直领域的文本纠错方法及其纠错装置
CN116306600B (zh) 一种基于MacBert的中文文本纠错方法
CN108257650A (zh) 一种应用于医技检查报告的智能纠错方法
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN114925170B (zh) 文本校对模型训练方法及装置、计算设备
CN111079433A (zh) 一种事件抽取方法、装置及电子设备
Göker et al. Neural text normalization for turkish social media
CN112183060A (zh) 多轮对话系统的指代消解方法
CN115659958B (zh) 一种中文拼写错误检查方法
CN114896966A (zh) 一种中文文本语法错误定位方法、系统、设备及介质
CN115563959A (zh) 面向中文拼音拼写纠错的自监督预训练方法、系统及介质
Hladek et al. Unsupervised spelling correction for Slovak
CN115099222A (zh) 标点符号误用检测纠正方法、装置、设备及存储介质
WO2020250279A1 (ja) モデル学習装置、方法及びプログラム
CN112101019A (zh) 一种基于词性标注和组块分析的需求模板符合性检查优化方法
CN114548080B (zh) 一种基于分词增强的中文错字校正方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240104

Address after: 410116 No. 502, building A2, lingzhi Industrial Park, 128 Jinhai Road, Yuhua District, Changsha City, Hunan Province

Patentee after: Hunan dademaning Information Technology Co.,Ltd.

Address before: Yuelu District City, Hunan province 410083 Changsha Lushan Road No. 932

Patentee before: CENTRAL SOUTH University

TR01 Transfer of patent right