CN115659958A - 一种中文拼写错误检查方法 - Google Patents
一种中文拼写错误检查方法 Download PDFInfo
- Publication number
- CN115659958A CN115659958A CN202211679594.4A CN202211679594A CN115659958A CN 115659958 A CN115659958 A CN 115659958A CN 202211679594 A CN202211679594 A CN 202211679594A CN 115659958 A CN115659958 A CN 115659958A
- Authority
- CN
- China
- Prior art keywords
- text
- character
- candidate set
- original text
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000007704 transition Effects 0.000 claims abstract description 46
- 230000009467 reduction Effects 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 238000012937 correction Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000012546 transfer Methods 0.000 claims description 21
- 239000000126 substance Substances 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 13
- 238000011946 reduction process Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 17
- 230000000694 effects Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 241000532123 Setia Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种中文拼写错误检查方法,包括:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出。本发明提供的中文拼写错误检查方法通过增加降噪模块,得到原文本的正确语义特征表示,使原文本和噪声文本的字符更加准确,消除错误字符对原文本语境的影响。
Description
技术领域
本发明涉及文本纠错技术领域,具体涉及一种中文拼写错误检查方法。
背景技术
目前中文文本检查的方法主要有基于统计语言模型的规则方法和端到端的深度学习方法两大类。基于统计语言模型的规则匹配分为错误检测、候选召回、候选排序三个步骤,此方法需要大量语料库训练语言模型和人工规则设计,在纠错结果上也无法令人满意。基于端到端的深度学习方法主要有基于自回归的seq2seq模型和非自回归的Bert模型;由于文本大部分字符不需要修改,自回归模型会造成性能的浪费。
因此目前主流的中文文本检查方法是基于非自回归模型,在模型的最后一层通过全连接层,直接对单个字符进行纠错预测,并且在此基础上还融合了拼音和字形的信息,以达到提高纠错效果的目的。
但是该方法忽略了纠错结果字符间存在的依赖关系,因而直接通过全连接层预测正确字符的方式会造成上下文依赖关系的丢失,造成语句间的不连贯。除此之外,当文本出现多个错误字符时,会影响全文的上下文语境,出现错误的词向量表示,容易将正确字符纠为错误字符,出现过度纠正的现象。
综上所述,急需一种中文拼写错误检查方法以解决现有技术中存在的问题。
发明内容
本发明目的在于提供一种中文拼写错误检查方法,具体技术方案如下:
一种中文拼写错误检查方法,包括:
S1:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;
S2:通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:
S2-1:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;
S2-2:通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;
S2-3:计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出。
优选的,所述降噪模块包括噪声文本生成模块以及降噪网络,所述噪声文本生成模块基于特定规则搭建,降噪网络基于Bert搭建。
优选的,所述步骤S1包括:
S1-1:采集原文本,通过噪声文本生成模块生成噪声文本;
S1-2:通过降噪网络获取原文本和噪声文本的初始语义特征表示,通过噪声文本的初始语义特征和其没有加噪的概率对原文本的初始语义特征表示进行降噪处理,获得原文本的语义特征表示。
优选的,所述步骤S2-1具体是:基于候选集生成模块对原文本的语义特征表示进行归一化,获得候选集合中每个字符作为替换字符的预测概率,选取预测概率前top-k的字符作为最终候选集;
优选的,所述S2-2具体是使用最终候选集中的替换字符对原文本的当前字符进行依次替换,得到初始输入文本,然后将当前字符的下一位字符使用mask代替,到最终输入文本,获取最终输入文本的语义特征表示,将最终输入文本的语义特征表示通过标准化层与全连接层,获取对整个词汇表的预测概率,归一化得到当前位i置候选集的转移概率, 表示原文本第i个位置的最终候选集中第个字符到原文本第i+1个位置的最终候选集中第个字符的转移概率,依次遍历原文本的每个位置,重复上述操作,输出得到整个最终候选集的状态转移矩阵。
优选的,所述步骤S2-3中转移路径的得分计算表达式如下:
优选的,所述降噪处理的单个字符损失计算表达式如下:
所述降噪处理的整体损失计算表达式如下:
优选的,转移路径的损失函数表示式如下:
应用本发明的技术方案,具有以下有益效果:
(1)本发明提供的中文拼写错误检查方法通过增加降噪模块,获取原文本和噪声文本,训练降噪模块,通过降噪模块得到原文本的正确语义特征表示,使原文本和噪声文本的语义表示更加准确,消除错误字符对原文本语境的影响,从而避免文本出现多个错误字符时,错误字符会对全文的上下文语境造成噪声干扰,出现错误的词向量表示,容易导致将正确字符被纠为错误字符,出现过度纠正的现象。
(2)本发明的纠正模块中状态转移矩阵生成模块通过获取候选集合中每个字符的转移概率从而生成状态转移矩阵,然后计算状态转移矩阵中各转移路径的得分,取得分最高的转移路径作为正确文本输出,加强了输出结果中各字符之间的相关性,提高了文本输出的正确率。
(3)本发明基于候选集生成模块对原文本的语义特征表示进行归一化,获得候选集合中每个字符作为替换字符的预测概率,选取预测概率前top-k的字符作为状态转移矩阵生成模块输入的最终候选集,极大地减少了状态转移矩阵生成模块输入的组合数量,降低了后续计算成本,并且不会对纠正效果产生影响。
(4)本发明通过Bert的mask任务,在原句中,先从最终候选集中依次选择字符对当前字符进行替换,当前字符的下一个字符进行mask处理,通过Bert的mask任务得到mask位置各个候选字符的预测概率,将其作为状态转移矩阵,从而得到一个动态矩阵,使其获得学习能力,能够根据上下文变化进行调整。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明优选实施例1的流程示意图;
图2是本发明优选实施例1的整体模块示意图。
具体实施方式
为了便于理解本发明,下面将对本发明进行更全面的描述,并给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例1:
参见图1和图2,
一种中文拼写错误检查方法,包括:
S1:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;所述降噪模块包括噪声文本生成模块以及降噪网络,所述噪声文本生成模块以及降噪网络均基于Bert搭建。具体步骤如下:
步骤一:判断原文本是否需要加入噪声。对于没有错别字的原文本,和对于错别字个数超过原文本总字数10%的,不需要进行处理,直接作为原文本和噪声文段输出。其它情况均为需要噪声处理的原文本。
步骤二: 确定噪声添加的位置。对原文本中存在错别字的位置,前后5个字符以内随机选取一个位置作为噪声位。并对该位置进行噪声标记,表达式如下:
步骤三:选择噪声位的替换字符。我们以50%的概率从读音混淆集中随机挑取替换字符,35%的概率替换为形近字,15%的概率随机替换。
S1-2:通过降噪网络获取原文本的初始语义特征表示和噪声文本的初始语义特征表示,其中,为语义特征表示维度,取值为768,R表示向量空间,表示原文本第个字符的语义特征表示,表示噪声文本第个字符的语义特征表示;
通过噪声文本的初始语义特征对原文本的初始语义特征表示进行降噪处理,获得原文本的语义特征表示,具体如下:
所述降噪处理的整体损失计算表达式如下:
其中,表示降噪处理的整体损失,表示噪声文本第i个字符没有加噪的概率,表示第个字符的标记,若该位置添加了噪声,则值为0,否则为1,当值接近1时,说明模型预测噪声文本中第i个字符的拼写是没有添加噪声的,此时如果该字符的真实标记为非噪声位字符,其值位1,所代表的原文本的字符和噪声文本的字符的语义特征表示差异的损失可以根据的值进行相应缩小。相反,如果趋向于0,的值会相对偏大,损失函数也会相对偏大,说明原文本的语义特征表示需要进行大的调整。噪声模块训练得到Bert参数与纠错模块共享。
S2:通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:
S2-1:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;具体是:基于候选集生成模块对原文本的语义特征表示进行归一化,获得候选集合中每个字符作为替换字符的预测概率,选取预测概率前top-k的的字符作为最终候选集;具体是:
步骤二:从混淆集中挑选出每个字符的可能被替换为的字符,作为初始候选集。再根据候步骤一得到的语料库所有词语的预测概率,获得初始候选集每个字符的预测概率,在初始候选集中采样预测概率前top-k的的字符作为最终候选集,这里k取值为5。将中最终候选集的字符概率进行提取再进行softmax操作,得到最终候选集归一化后的预测概率,表示原文本第i个位置的字符预测为最终候选集第个字符的概率。
其中,表示LayerNorm归一化的输出,表示GELU激活函数,表示长度为vocab的一维向量空间,vocab为词汇表的数量,表示LayerNorm归一化层全连接神经网络的权重向量,表示LayerNorm归一化层全连接神经网络的偏置,表示Softmax层全连接神经网络的权重向量,表示Softmax层全连接神经网络的偏置,表示归一化指数函数。
S2-3:计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出;所述转移路径的得分计算表达式如下:
其中,表示第条转移路径得分,表达第条转移路径,表示原文本的字符总数,表示原文本第i个位置的字符预测为最终候选集第个字符的概率,表示原文本第i个位置的最终候选集中第个字符到原文本第i+1个位置的最终候选集中第个字符的转移概率。
转移路径得分总和表达式如下:
所述转移路径的损失函数表示式如下:
简化得到:
其中,表示超参数,其取值大于0小于1,表示降噪处理和转移路径的整体损失函数,其值越小,说明降噪网络的降噪效果越好,纠正效果也越好,其值越大,说明降噪效果和纠正效果都较差,当趋近1时,说明噪声对模型纠正效果的干扰很大,此时的结果没有很大的实际意义。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种中文拼写错误检查方法,其特征在于,包括:
S1:获取原文本和噪声文本,训练得到降噪模块并获取原文本的语义特征表示;
S2:通过纠正模块输出得到正确文本,所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块,具体是:
S2-1:通过候选集生成模块根据原文本的语义特征表示输出最终候选集;
S2-2:通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率,并生成最终候选集的状态转移矩阵;
S2-3:计算状态转移矩阵中各转移路径的分数,选择得分最高的转移路径作为正确文本输出。
2.根据权利要求1所述的中文拼写错误检查方法,其特征在于,所述降噪模块包括噪声文本生成模块以及降噪网络,所述噪声文本生成模块基于特定规则搭建,降噪网络基于Bert搭建。
3.根据权利要求2所述的中文拼写错误检查方法,其特征在于,所述步骤S1包括:
S1-1:采集原文本,通过噪声文本生成模块生成噪声文本;
S1-2:通过降噪网络获取原文本和噪声文本的初始语义特征表示,通过噪声文本的初始语义特征和其没有加噪的概率对原文本的初始语义特征表示进行降噪处理,获得原文本的语义特征表示。
4.根据权利要求3所述的中文拼写错误检查方法,其特征在于,所述步骤S2-1具体是:基于候选集生成模块对原文本的语义特征表示进行归一化,获得候选集合中每个字符作为替换字符的预测概率,选取预测概率前top-k的字符作为最终候选集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211679594.4A CN115659958B (zh) | 2022-12-27 | 2022-12-27 | 一种中文拼写错误检查方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211679594.4A CN115659958B (zh) | 2022-12-27 | 2022-12-27 | 一种中文拼写错误检查方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115659958A true CN115659958A (zh) | 2023-01-31 |
CN115659958B CN115659958B (zh) | 2023-03-21 |
Family
ID=85023183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211679594.4A Active CN115659958B (zh) | 2022-12-27 | 2022-12-27 | 一种中文拼写错误检查方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115659958B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106959977A (zh) * | 2016-01-12 | 2017-07-18 | 广州市动景计算机科技有限公司 | 文字输入中的候选集合计算方法及装置、文字纠错方法及装置 |
CN111079412A (zh) * | 2018-10-18 | 2020-04-28 | 北京嘀嘀无限科技发展有限公司 | 文本纠错方法及装置 |
CN111368525A (zh) * | 2020-03-09 | 2020-07-03 | 深圳市腾讯计算机系统有限公司 | 信息搜索方法、装置、设备及存储介质 |
CN112287670A (zh) * | 2020-11-18 | 2021-01-29 | 北京明略软件系统有限公司 | 文本纠错方法、系统、计算机设备及可读存储介质 |
CN112395864A (zh) * | 2020-11-26 | 2021-02-23 | 北京世纪好未来教育科技有限公司 | 文本纠错模型训练、文本纠错方法及相关装置 |
US20210150340A1 (en) * | 2019-11-18 | 2021-05-20 | Salesforce.Com, Inc. | Systems and Methods for Distilled BERT-Based Training Model for Text Classification |
CN112990353A (zh) * | 2021-04-14 | 2021-06-18 | 中南大学 | 一种基于多模态模型的汉字易混淆集构建方法 |
CN113076739A (zh) * | 2021-04-09 | 2021-07-06 | 厦门快商通科技股份有限公司 | 一种实现跨领域的中文文本纠错方法和系统 |
CN114154487A (zh) * | 2021-12-08 | 2022-03-08 | 和美(深圳)信息技术股份有限公司 | 文本自动纠错方法、装置、电子设备及存储介质 |
-
2022
- 2022-12-27 CN CN202211679594.4A patent/CN115659958B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106959977A (zh) * | 2016-01-12 | 2017-07-18 | 广州市动景计算机科技有限公司 | 文字输入中的候选集合计算方法及装置、文字纠错方法及装置 |
CN111079412A (zh) * | 2018-10-18 | 2020-04-28 | 北京嘀嘀无限科技发展有限公司 | 文本纠错方法及装置 |
US20210150340A1 (en) * | 2019-11-18 | 2021-05-20 | Salesforce.Com, Inc. | Systems and Methods for Distilled BERT-Based Training Model for Text Classification |
CN111368525A (zh) * | 2020-03-09 | 2020-07-03 | 深圳市腾讯计算机系统有限公司 | 信息搜索方法、装置、设备及存储介质 |
CN112287670A (zh) * | 2020-11-18 | 2021-01-29 | 北京明略软件系统有限公司 | 文本纠错方法、系统、计算机设备及可读存储介质 |
CN112395864A (zh) * | 2020-11-26 | 2021-02-23 | 北京世纪好未来教育科技有限公司 | 文本纠错模型训练、文本纠错方法及相关装置 |
CN113076739A (zh) * | 2021-04-09 | 2021-07-06 | 厦门快商通科技股份有限公司 | 一种实现跨领域的中文文本纠错方法和系统 |
CN112990353A (zh) * | 2021-04-14 | 2021-06-18 | 中南大学 | 一种基于多模态模型的汉字易混淆集构建方法 |
CN114154487A (zh) * | 2021-12-08 | 2022-03-08 | 和美(深圳)信息技术股份有限公司 | 文本自动纠错方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王建新: "基于深度学习的自然场景文本检测与识别综述" * |
Also Published As
Publication number | Publication date |
---|---|
CN115659958B (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
Chollampatt et al. | A multilayer convolutional encoder-decoder neural network for grammatical error correction | |
CN114444479B (zh) | 一种端到端中文语音文本纠错方法、装置和存储介质 | |
CN111310447B (zh) | 语法纠错方法、装置、电子设备和存储介质 | |
CN110008472B (zh) | 一种实体抽取的方法、装置、设备和计算机可读存储介质 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
Yildiz et al. | A morphology-aware network for morphological disambiguation | |
CN114386371B (zh) | 中文拼写纠错方法、系统、设备及存储介质 | |
CN110427619B (zh) | 一种基于多通道融合与重排序的中文文本自动校对方法 | |
CN113449514B (zh) | 一种适用于垂直领域的文本纠错方法及其纠错装置 | |
CN116306600B (zh) | 一种基于MacBert的中文文本纠错方法 | |
CN108257650A (zh) | 一种应用于医技检查报告的智能纠错方法 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN114925170B (zh) | 文本校对模型训练方法及装置、计算设备 | |
CN111079433A (zh) | 一种事件抽取方法、装置及电子设备 | |
Göker et al. | Neural text normalization for turkish social media | |
CN112183060A (zh) | 多轮对话系统的指代消解方法 | |
CN115659958B (zh) | 一种中文拼写错误检查方法 | |
CN114896966A (zh) | 一种中文文本语法错误定位方法、系统、设备及介质 | |
CN115563959A (zh) | 面向中文拼音拼写纠错的自监督预训练方法、系统及介质 | |
Hladek et al. | Unsupervised spelling correction for Slovak | |
CN115099222A (zh) | 标点符号误用检测纠正方法、装置、设备及存储介质 | |
WO2020250279A1 (ja) | モデル学習装置、方法及びプログラム | |
CN112101019A (zh) | 一种基于词性标注和组块分析的需求模板符合性检查优化方法 | |
CN114548080B (zh) | 一种基于分词增强的中文错字校正方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240104 Address after: 410116 No. 502, building A2, lingzhi Industrial Park, 128 Jinhai Road, Yuhua District, Changsha City, Hunan Province Patentee after: Hunan dademaning Information Technology Co.,Ltd. Address before: Yuelu District City, Hunan province 410083 Changsha Lushan Road No. 932 Patentee before: CENTRAL SOUTH University |
|
TR01 | Transfer of patent right |