CN115659958A

CN115659958A - 一种中文拼写错误检查方法

Info

Publication number: CN115659958A
Application number: CN202211679594.4A
Authority: CN
Inventors: 李芳芳; 汤达夫; 欧晓叶; 毛星亮
Original assignee: Central South University
Current assignee: Hunan Dademaning Information Technology Co ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-01-31
Anticipated expiration: 2042-12-27
Also published as: CN115659958B

Abstract

本发明提供了一种中文拼写错误检查方法，包括：获取原文本和噪声文本，训练得到降噪模块并获取原文本的语义特征表示；通过纠正模块输出得到正确文本，所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块，具体是：通过候选集生成模块根据原文本的语义特征表示输出最终候选集；通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率，并生成最终候选集的状态转移矩阵；计算状态转移矩阵中各转移路径的分数，选择得分最高的转移路径作为正确文本输出。本发明提供的中文拼写错误检查方法通过增加降噪模块，得到原文本的正确语义特征表示，使原文本和噪声文本的字符更加准确，消除错误字符对原文本语境的影响。

Description

一种中文拼写错误检查方法

技术领域

本发明涉及文本纠错技术领域，具体涉及一种中文拼写错误检查方法。

背景技术

目前中文文本检查的方法主要有基于统计语言模型的规则方法和端到端的深度学习方法两大类。基于统计语言模型的规则匹配分为错误检测、候选召回、候选排序三个步骤，此方法需要大量语料库训练语言模型和人工规则设计，在纠错结果上也无法令人满意。基于端到端的深度学习方法主要有基于自回归的seq2seq模型和非自回归的Bert模型；由于文本大部分字符不需要修改，自回归模型会造成性能的浪费。

因此目前主流的中文文本检查方法是基于非自回归模型，在模型的最后一层通过全连接层，直接对单个字符进行纠错预测，并且在此基础上还融合了拼音和字形的信息，以达到提高纠错效果的目的。

但是该方法忽略了纠错结果字符间存在的依赖关系，因而直接通过全连接层预测正确字符的方式会造成上下文依赖关系的丢失，造成语句间的不连贯。除此之外，当文本出现多个错误字符时，会影响全文的上下文语境，出现错误的词向量表示，容易将正确字符纠为错误字符，出现过度纠正的现象。

综上所述，急需一种中文拼写错误检查方法以解决现有技术中存在的问题。

发明内容

本发明目的在于提供一种中文拼写错误检查方法，具体技术方案如下：

一种中文拼写错误检查方法，包括：

S1：获取原文本和噪声文本，训练得到降噪模块并获取原文本的语义特征表示；

S2：通过纠正模块输出得到正确文本，所述纠正模块包括候选集生成模块以及状态转移矩阵生成模块，具体是：

S2-1：通过候选集生成模块根据原文本的语义特征表示输出最终候选集；

S2-2：通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率，并生成最终候选集的状态转移矩阵；

S2-3：计算状态转移矩阵中各转移路径的分数，选择得分最高的转移路径作为正确文本输出。

优选的，所述降噪模块包括噪声文本生成模块以及降噪网络，所述噪声文本生成模块基于特定规则搭建，降噪网络基于Bert搭建。

优选的，所述步骤S1包括：

S1-1：采集原文本，通过噪声文本生成模块生成噪声文本；

S1-2：通过降噪网络获取原文本和噪声文本的初始语义特征表示，通过噪声文本的初始语义特征和其没有加噪的概率对原文本的初始语义特征表示进行降噪处理，获得原文本的语义特征表示。

优选的，所述步骤S2-1具体是：基于候选集生成模块对原文本的语义特征表示进行归一化，获得候选集合中每个字符作为替换字符的预测概率，选取预测概率前top-k的字符作为最终候选集；

优选的，所述S2-2具体是使用最终候选集中的替换字符对原文本的当前字符进行依次替换，得到初始输入文本

，然后将当前字符的下一位字符使用mask代替，到最终输入文本

，获取最终输入文本

的语义特征表示，将最终输入文本

的语义特征表示通过标准化层与全连接层，获取对整个词汇表的预测概率，归一化得到当前位i置候选集的转移概率

，

表示原文本第i个位置的最终候选集中第

个字符到原文本第i+1个位置的最终候选集中第

个字符的转移概率，依次遍历原文本的每个位置，重复上述操作，输出得到整个最终候选集的状态转移矩阵。

优选的，所述步骤S2-3中转移路径的得分计算表达式如下：

；

其中，

表示第

条转移路径得分，

表达第

条转移路径，

表示原文本的字符总数，

表示原文本第i个位置的字符预测为最终候选集第

个字符的概率。

优选的，所述降噪处理的单个字符损失计算表达式如下：

；

其中，

表示降噪处理的单个字符损失，

表示

对

的相对熵，

表示

对

的相对熵，

表示原文本第i个字符的语义特征表示，

表示噪声文本第i个字符的语义特征表示，i大于等于1，小于等于

；

所述降噪处理的整体损失计算表达式如下：

;

其中，

表示降噪处理的整体损失，

表示噪声文本第i个字符没有加噪的概率，

表示第i个字符的标记，若该位置添加了噪声，则值为0，否则为1。

优选的，转移路径的损失函数表示式如下：

；

其中，

表示转移路径的损失函数，

表示正确转移路径的得分，

表示各转移路径得分总和。

优选的，降噪处理和转移路径的整体损失函数表达式如下：

；

其中，

表示超参数，

表示降噪处理和转移路径的整体损失函数。

优选的，所述

大于0小于1。

应用本发明的技术方案，具有以下有益效果：

（1）本发明提供的中文拼写错误检查方法通过增加降噪模块，获取原文本和噪声文本，训练降噪模块，通过降噪模块得到原文本的正确语义特征表示，使原文本和噪声文本的语义表示更加准确，消除错误字符对原文本语境的影响，从而避免文本出现多个错误字符时，错误字符会对全文的上下文语境造成噪声干扰，出现错误的词向量表示，容易导致将正确字符被纠为错误字符，出现过度纠正的现象。

（2）本发明的纠正模块中状态转移矩阵生成模块通过获取候选集合中每个字符的转移概率从而生成状态转移矩阵，然后计算状态转移矩阵中各转移路径的得分，取得分最高的转移路径作为正确文本输出，加强了输出结果中各字符之间的相关性，提高了文本输出的正确率。

（3）本发明基于候选集生成模块对原文本的语义特征表示进行归一化，获得候选集合中每个字符作为替换字符的预测概率，选取预测概率前top-k的字符作为状态转移矩阵生成模块输入的最终候选集，极大地减少了状态转移矩阵生成模块输入的组合数量，降低了后续计算成本，并且不会对纠正效果产生影响。

（4）本发明通过Bert的mask任务，在原句中，先从最终候选集中依次选择字符对当前字符进行替换，当前字符的下一个字符进行mask处理，通过Bert的mask任务得到mask位置各个候选字符的预测概率，将其作为状态转移矩阵，从而得到一个动态矩阵，使其获得学习能力，能够根据上下文变化进行调整。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例1的流程示意图；

图2是本发明优选实施例1的整体模块示意图。

具体实施方式

为了便于理解本发明，下面将对本发明进行更全面的描述，并给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例1：

参见图1和图2，

一种中文拼写错误检查方法，包括：

S1：获取原文本和噪声文本，训练得到降噪模块并获取原文本的语义特征表示；所述降噪模块包括噪声文本生成模块以及降噪网络，所述噪声文本生成模块以及降噪网络均基于Bert搭建。具体步骤如下：

S1-1：采集原文本

，通过噪声文本生成模块生成对应的噪声文本

，其中，

表示原文本中第

个字符，

表示噪声文本中第

个字符；具体是：

步骤一：判断原文本是否需要加入噪声。对于没有错别字的原文本，和对于错别字个数超过原文本总字数10%的，不需要进行处理，直接作为原文本和噪声文段输出。其它情况均为需要噪声处理的原文本。

步骤二：确定噪声添加的位置。对原文本中存在错别字的位置，前后5个字符以内随机选取一个位置作为噪声位。并对该位置进行噪声标记，表达式如下：

；

其中，

为标记向量，

为原文本第

个字符的标记，

为第i个字符的标记，若该位置添加了噪声，则值为0，否则为1，i大于等于1，小于等于

。

步骤三：选择噪声位的替换字符。我们以50%的概率从读音混淆集中随机挑取替换字符，35%的概率替换为形近字，15%的概率随机替换。

S1-2：通过降噪网络获取原文本的初始语义特征表示

和噪声文本的初始语义特征表示

，其中，

为语义特征表示维度，取值为768，R表示向量空间，

表示原文本第

个字符的语义特征表示，

表示噪声文本第

个字符的语义特征表示；

通过噪声文本的初始语义特征对原文本的初始语义特征表示进行降噪处理，获得原文本的语义特征表示，具体如下：

对噪声文本的第i个字符的初始语义特征表示

进行正确性判断，得出噪声文本第i个字符没有加噪的概率

，

表示如下：

；

其中，

表示第i个字符的位置全连接神经网络连接的权重向量，可根据需求调整取值，

表示第i个字符的位置全连接神经网络连接的偏置，可根据需求调整取值，

表示标准化层，

表示激活函数；

采用

作为降噪网络的单个字符损失函数，表达式如下：

；

其中，

表示降噪处理的单个字符损失，

表示

对

的相对熵，

表示

对

的相对熵，

表示原文本第i个字符的语义特征表示，

表示噪声文本第i个字符的语义特征表示；

所述降噪处理的整体损失计算表达式如下：

；

其中，

表示降噪处理的整体损失，

表示噪声文本第i个字符没有加噪的概率，

表示第

个字符的标记，若该位置添加了噪声，则值为0，否则为1，当

值接近1时，说明模型预测噪声文本中第i个字符的拼写是没有添加噪声的，此时如果该字符的真实标记为非噪声位字符，其

值位1，

所代表的原文本的字符和噪声文本的字符的语义特征表示差异的损失可以根据

的值进行相应缩小。相反，如果

趋向于0，

的值会相对偏大，损失函数也会相对偏大，说明原文本的语义特征表示需要进行大的调整。噪声模块训练得到Bert参数与纠错模块共享。

S2-1：通过候选集生成模块根据原文本的语义特征表示输出最终候选集；具体是：基于候选集生成模块对原文本的语义特征表示进行归一化，获得候选集合中每个字符作为替换字符的预测概率，选取预测概率前top-k的的字符作为最终候选集；具体是：

步骤一：根据原文本的

，获得语料库所有词语的预测概率

，

为语料库词语数。

；

；

步骤二：从混淆集中挑选出每个字符的可能被替换为的字符，作为初始候选集。再根据候步骤一得到的语料库所有词语的预测概率，获得初始候选集每个字符的预测概率

，在初始候选集中采样预测概率前top-k的的字符作为最终候选集，这里k取值为5。将

中最终候选集的字符概率进行提取再进行softmax操作，得到最终候选集归一化后的预测概率

，

表示原文本第i个位置的字符预测为最终候选集第

个字符的概率。

S2-2：通过状态转移矩阵生成模块获取最终候选集中每个字符的转移概率，并生成最终候选集的状态转移矩阵；具体是：使用最终候选集中的替换字符对原文本的当前字符进行依次替换，得到初始输入文本

，表达式如下：

；

其中，

表示句子开始标志，

表示原文本第二个字符的最终候选集中第i个替换字符；

然后将当前字符的下一位字符使用mask代替，到最终输入文本

，表达式如下：

，获取最终输入文本

的语义特征表示

；

将最终输入文本

的语义特征表示通过标准化层与全连接层，获取对整个词汇表的预测概率

，表达式如下：

；

；

其中，

表示LayerNorm归一化的输出，

表示GELU激活函数，

表示长度为vocab的一维向量空间，vocab为词汇表的数量，

表示LayerNorm归一化层全连接神经网络的权重向量，

表示LayerNorm归一化层全连接神经网络的偏置，

表示Softmax层全连接神经网络的权重向量，

表示Softmax层全连接神经网络的偏置，

表示归一化指数函数。

得到原文本第i个位置的最终候选集中第

个字符到原文本第i+1个位置的最终候选集中第

个字符的转移概率

，依次遍历原文本的每个位置，重复上述操作，输出得到整个最终候选集的状态转移矩阵；

S2-3：计算状态转移矩阵中各转移路径的分数，选择得分最高的转移路径作为正确文本输出；所述转移路径的得分计算表达式如下：

；

其中，

表示第

条转移路径得分，

表达第

条转移路径，

表示原文本的字符总数，

表示原文本第i个位置的字符预测为最终候选集第

个字符的概率，

表示原文本第i个位置的最终候选集中第

个字符到原文本第i+1个位置的最终候选集中第

个字符的转移概率。

转移路径得分总和表达式如下：

；

其中，

表示各转移路径得分总和，

表示状态转移矩阵中转移路径的总数。

所述转移路径的损失函数表示式如下：

；

简化得到：

；

其中，

表示转移路径的损失函数，通过训练，减少转移路径的损失函数的函数值，函数值越少，说明正确转移路径得分占所有路径总得分的比重越高，纠正越准确；

表示正确文本对应的转移路径的得分。

所述降噪处理和转移路径的整体损失函数表达式如下：

；

其中，

表示超参数，其取值大于0小于1，

表示降噪处理和转移路径的整体损失函数，其值越小，说明降噪网络的降噪效果越好，纠正效果也越好，其值越大，说明降噪效果和纠正效果都较差，当

趋近1时，说明噪声对模型纠正效果的干扰很大，此时

的结果没有很大的实际意义。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种中文拼写错误检查方法，其特征在于，包括：

2.根据权利要求1所述的中文拼写错误检查方法，其特征在于，所述降噪模块包括噪声文本生成模块以及降噪网络，所述噪声文本生成模块基于特定规则搭建，降噪网络基于Bert搭建。

3.根据权利要求2所述的中文拼写错误检查方法，其特征在于，所述步骤S1包括：

S1-1：采集原文本，通过噪声文本生成模块生成噪声文本；

4.根据权利要求3所述的中文拼写错误检查方法，其特征在于，所述步骤S2-1具体是：基于候选集生成模块对原文本的语义特征表示进行归一化，获得候选集合中每个字符作为替换字符的预测概率，选取预测概率前top-k的字符作为最终候选集。

5.根据权利要求4所述的中文拼写错误检查方法，其特征在于，所述S2-2具体是使用最终候选集中的替换字符对原文本的当前字符进行依次替换，得到初始输入文本

，获取最终输入文本

的语义特征表示，将最终输入文本

，

表示原文本第i个位置的最终候选集中第

个字符到原文本第i+1个位置的最终候选集中第

6.根据权利要求5所述的中文拼写错误检查方法，其特征在于，所述步骤S2-3中转移路径的得分计算表达式如下：

；

其中，

表示第

条转移路径得分，

表达第

条转移路径，

表示原文本的字符总数，

表示原文本第i个位置的字符预测为最终候选集第

个字符的概率。

7.根据权利要求6所述的中文拼写错误检查方法，其特征在于，所述降噪处理的单个字符损失计算表达式如下：

；

其中，

表示降噪处理的单个字符损失，

表示

对

的相对熵，

表示

对

的相对熵，

表示原文本第i个字符的语义特征表示，

；

所述降噪处理的整体损失计算表达式如下：

;

其中，

表示降噪处理的整体损失，

表示噪声文本第i个字符没有加噪的概率，

表示第

个字符的标记，若该位置添加了噪声，则值为0，否则为1。

8.根据权利要求7所述的中文拼写错误检查方法，其特征在于，转移路径的损失函数表示式如下：

；

其中，

表示转移路径的损失函数，

表示正确转移路径的得分，

表示各转移路径得分总和。

9.根据权利要求8所述的中文拼写错误检查方法，其特征在于，降噪处理和转移路径的整体损失函数表达式如下：

；

其中，

表示超参数，

表示降噪处理和转移路径的整体损失函数。

10.根据权利要求9所述的中文拼写错误检查方法，其特征在于，所述

大于0小于1。