CN114970503A

CN114970503A - 一种基于预训练的字音字形知识增强的中文拼写纠正方法

Info

Publication number: CN114970503A
Application number: CN202210598799.3A
Authority: CN
Inventors: 赵铁军; 王晨懿; 徐冰; 杨沐昀; 朱聪慧; 曹海龙
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-08-30

Abstract

本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法。属于自然语言处理技术领域。本发明的目的是为了改进中文拼写纠正技术的准确性，更好地解决字音或字形混淆导致的拼写错误，节省人工复核的时间。本发明首先从数据库中取出待纠错文本对应的拼音和仓颉码序列，然后将文本和拼音、仓颉码序列一同输入模型中。模型会整合文本的上下文语义信息和字音字形知识，给出拼写纠正建议。本发明还采用了特定的mask策略和预训练任务，在大规模中文语料上预训练得到更适用于中文拼写纠正技术的预训练语言模型。本发明可用于各种文本纠错场景，提高了校验文章的效率。

Description

一种基于预训练的字音字形知识增强的中文拼写纠正方法

技术领域

本发明属于自然语言处理技术领域，特别是涉及一种基于预训练的字音字形知识增强的中文拼写纠正方法。

背景技术

随着互联网的飞速发展，文本的数量急速增长，传统的以人工为主的拼写纠错已经不能适应日益增多的电子文本信息的发展，面对这些无穷无尽的文章，人工逐字校验显然是不现实的。而自然语言处理技术的发展让机器自动修改文本中的拼写错误成为可能。此外，文本查错技术保证了许多常见应用的性能，在搜索引擎、文章自动评分、光学字符识别等应用中都发挥着重要作用。

然而目前的关键词抽取技术并不十分成熟，依旧有很多需要改进的地方。本发明提出的字音字形增强的中文拼写检查系统试图解决如下困难：

一、中文文本中的拼写错误大多与字音字形相关，据统计有76％的错误与发音相似有关，46％与字形相似有关，29％与二者都有关。因此，本发明在理解如何纠正错误的同时，整合了字符的字音字形知识；

二、最新的技术大多基于以BERT为代表的预训练语言模型，但是BERT预训练阶段的Masked language model任务和中文拼写纠正技术存在差异性，因此本发明采用了特定的mask策略和预训练任务，在大规模中文语料上预训练得到更适用于中文拼写纠正技术的预训练语言模型。

发明内容

本发明目的是为了解决现有技术中的问题，提出了一种基于预训练的字音字形知识增强的中文拼写纠正方法。所述方法能够更好地解决字音或字形混淆导致的拼写错误。

本发明是通过以下技术方案实现的，本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法，所述方法具体包括：

步骤一、对于输入的文本，从数据库中取出每个汉字的拼音和仓颉码作为字音和字形知识；

步骤二、将汉字的拼音和仓颉码映射到可训练的嵌入，然后将拼音序列和仓颉码序列嵌入进行编码，获得汉字的字音和字形特征向量；

步骤三、使用特定预训练任务在海量中文文本上预训练得到的语言模型作为编码器，将文本的字音字形特征和文本一起输入模型中，获得每个位置的字的上下文表示；

步骤四、使用词表大小的分类器，选择得分最高的分类结果对应的字符作为该位置的纠正结果。

进一步地，采用GRU网络分别对汉字的拼音序列和仓颉码序列进行编码，具体过程包括以下步骤：

步骤2.1、对于输入的每个字符c，获得其拼音序列和仓颉码序列；

步骤2.2、将字符的拼音序列中的声母、韵母、声调，分别映射到可训练的嵌入，将字符的仓颉码序列中的每个字码也映射到可训练的嵌入，嵌入的维度设置为768；

步骤2.3、使用两个GRU网络，分别作为字音编码器和字形编码器，将每个汉字的拼音序列和仓颉码序列分别作为二者的输入，将GRU网络在序列最后时刻的隐藏层作为该字符的字音字形特征向量。

进一步地，将步骤2中获得的字音和字形特征向量作为BERT模型的输入之一，一同输入BERT模型中，从而获得该位置的上下文表示；所述BERT模型，其输入包含五个部分：Token Embeddings，Position Embeddings，Segment Embeddings，Phonetic Embeddings和Graphic Embeddings；Phonetic Embeddings和Graphic Embeddings分别对应步骤2中经过GRU编码得到的字音特征向量和字形特征向量，在输入端将这五个部分的嵌入相加并经过LayerNorm后，一同输入BERT模型中。

进一步地，在步骤4中使用词表大小的分类器，将其权重矩阵和BERT模型的TokenEmbeddings进行权值共享；

对每个位置进行一个词表大小的分类，具体地，取BERT模型最后一层隐藏层输出的上下文表示h_i，用于进行分类，

P(y_i＝j|X)＝softmax(Wh_i)[j],

其中W是分类器的可训练参数，将BERT的Token Embeddings层和W进行权值共享，二者在语义上是相似的，权重矩阵的每一行和词表中的每个字相对应，且大小均为R^V|*H，其中|V|表示词表大小，H表示隐藏层维度大小。

进一步地，所述特定预训练任务为适用于CSC任务的基于混淆集的预训练任务，随机替换语料中15％的token，其中：

(1)50％的情况下替换为发音相似的字符，25％的情况下替换为字形相似的字符，考虑到与字音相关的错误和与字形相关的错误出现的频率不同，在替换时这两种类型的相似字符被分配不同的比例，相似字符从公开的混淆集中获得；

(2)10％的情况下替换为词表中的任一中文字符，混淆集的大小是有限的，但是拼写错误是由于任意字符错误造成的，为了提高泛化能力，用词汇表中的随机字符替换选定标记；

(3)15％的情况下保持不变。

进一步地，步骤3中所使用的预训练模型，是采用了更适合中文拼写纠正任务的三个预训练任务进行预训练得到，即字符预测任务、拼音预测任务和仓颉码预测任务；取BERT模型最后一层隐藏层输出的上下文表示h_i，用于进行预测。

进一步地，字符预测任务和MLM任务类似，预测mask位置的正确字符，选择得分最高的字符作为预测结果，将BERT的Token Embeddings层和分类器权值共享。

进一步地，拼音预测任务预测mask位置字符的正确拼音；分为声母、韵母、声调三个预测子任务，选择得分最高的声母、韵母、声调作为预测结果，将声母、韵母、声调的特征嵌入和对应的分类器进行权值共享，来计算特征嵌入和h_i的相似性，相关的嵌入会被拉近，不相关的嵌入会被拉远。

进一步地，仓颉码预测任务预测mask位置字符的正确仓颉码序列组成，视为多标签分类任务，选择得分经过sigmoid后大于一定阈值的字码作为预测结果；将仓颉码的特征嵌入和分类器进行权值共享，来计算仓颉码嵌入和h_i的相似性，相关的嵌入会被拉近，不相关的嵌入会被拉远。

进一步地，在预训练过程中，收集104万条中文wiki数据和250万篇新闻语料，从中随机选择7,000,000条句子作为预训练的数据。

本发明所涉及的基于预训练的字音字形知识增强的中文拼写纠正方法，通过引入拼音和仓颉码外部知识，将汉字的字形和字音特点整合进模型中，并且依赖于在海量中文文本上进行适用于拼写检查技术的预训练方法，得到了更好地利用字音字形知识的中文拼写纠正系统。由于大多数的拼写错误都是由于使用了拼音相似或者字形相似的错字导致的，例如使用拼音输入法或者光学字符识别得到的文本，因此本发明方法使用者可以轻松地找到文章中的拼写错误，节省校验时间。此外本发明方法可以应用在搜索引擎中，对用户输入的错字进行修改可以帮助系统更好地理解检索需求；或者是应用在文章自动评分系统中，通过分析文章中的拼写错误的数量，将其作为评分的重要参考之一；或者是应用在光学字符识别系统中，将中文拼写纠正系统应用于图片转文字识别结果的后处理步骤中；亦或者是直接应用在对拼写错误容忍度较低的新闻文本上，校验人员在此方法的帮助下可以节省大量的时间，快速锁定可能存在的拼写错误。

附图说明

图1为本发明方法实施例流程图；

图2为本发明中字音字形知识增强的中文拼写纠正模型的模型结构图；

图3为本发明中基于预训练的字音字形知识增强的中文拼写纠正模型在预训练期间的模型结构图；

图4为本发明实施例中待纠错文本的原始网页；

图5为本发明实施例中的文本纠错效果图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1-图5，本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法，所述方法具体包括：

在中文文本中，大多数的拼写错误都是由于字音相似或字形相似导致的。因此，中文拼写纠正系统需要在理解如何纠正错误的同时，整合字符的相似性知识。例如在句子“我觉得看电影很有意事”中，其错误字符“事”应改为字符“思”。如果仅考虑语义，将字符“事”改为字符“义”也是可行的，但是考虑到语言使用者出现拼写错误的原因，字符“思”和字符“事”的拼音更接近，因此改为“思”是更好的选择。因此本发明使用字音和字形的知识引导中文拼写纠正方法。在中文中，拼音表示了一个字的发音，它是由声母、韵母和声调组成。仓颉码可以表示一个汉字的字形组成。在仓颉码中，汉字以字码表示。字母A至Y各代表一个字码，每个字码各代表一个字形，如G对应“土”、R对应“口”。一个字符的仓颉码序列可以展示该字的字形组成结构，这使得仓颉码可以用来衡量两个字之间的字形相似度，仓颉码越接近的两个字，它们的字形越相似。

本步骤是将人类可读的字音和字形的信息转化为机器可读的向量。每个汉字的拼音是由声母、韵母、声调三个部分组成的；每个汉字的仓颉码是一个最长长度为5的仓颉字码序列。本发明将声母、韵母、声调和每个仓颉字码分别映射到可训练的嵌入，然后使用字音和字形编码器对拼音和仓颉码序列的特征嵌入进行编码，获得该字符的字音字形特征向量。

采用GRU网络分别对汉字的拼音序列和仓颉码序列进行编码，具体过程包括以下步骤：

将步骤2中获得的字音和字形特征向量作为BERT模型的输入之一，一同输入BERT模型中，从而获得该位置的上下文表示；所述BERT模型，其输入包含五个部分：TokenEmbeddings，Position Embeddings，Segment Embeddings，Phonetic Embeddings和Graphic Embeddings；Phonetic Embeddings和Graphic Embeddings分别对应步骤2中经过GRU编码得到的字音特征向量和字形特征向量，在输入端将这五个部分的嵌入相加并经过LayerNorm后，一同输入BERT模型中。

步骤3中所使用的预训练模型，是采用了更适合中文拼写纠正任务的新的mask策略，在大规模语料上预训练得到。

在中文拼写纠正领域，最新的技术大都依赖于预训练语言模型的强大的语义表征能力。以BERT为代表的自编码语言模型大都采用Masked language model(MLM)的预训练任务。在BERT的MLM的在预训练阶段，会随机进行mask。其中80％使用特殊标记“[MASK]”代替，10％使用词表中的随机字符来代替MASK的字，10％保持不变。而这种MASK策略实际上和中文拼写纠正任务不完全一致：

(1)MLM任务待预测字符大部分情况下是“[MASK]”标记，CSC任务待预测字符大部分情况下是中文字符；

(2)MLM任务的输入“[MASK]”标记和输出字符之间没有明显关系，CSC任务输入的错误字符通常和输出的字符是字形或字音上相似的；

这就导致了预训练和微调的不一致问题。因此这种方式预训练的语言模型并不是最适用于CSC任务的。

本发明提出一种适用于CSC任务的基于混淆集的预训练任务。和MLM任务类似，随机替换一定百分比的输入token，然后希望模型恢复它们。具体的，替换语料中15％的token。

所述特定预训练任务为适用于CSC任务的基于混淆集的预训练任务，随机替换语料中15％的token，其中：

(1)50％的情况下替换为发音相似的字符，25％的情况下替换为字形相似的字符，中文拼写错误大多与字形字音相关，希望模型能够关注到这种现象，考虑到与字音相关的错误和与字形相关的错误出现的频率不同，在替换时这两种类型的相似字符被分配不同的比例，相似字符从公开的混淆集中获得；

(3)15％的情况下保持不变。如果在预训练期间要预测的所有标记都是“拼写错误”的，模型将倾向于对所有输入做出更正决策。

在预训练过程中，收集104万条中文wiki数据和250万篇新闻语料，从中随机选择7,000,000条句子作为预训练的数据。

步骤3中所使用的预训练模型，是采用了更适合中文拼写纠正任务的三个预训练任务进行预训练得到，即字符预测任务、拼音预测任务和仓颉码预测任务；在预训练时，模型需要预测mask位置的正确字符。考虑到字音和字形特征是通过设计从外部添加的，为了更好地学习字音字形知识，本发明设计了另外两个类似的预训练任务，即拼音预测和仓颉码预测。因此模型包含三个预测任务。取BERT模型最后一层隐藏层输出的上下文表示h_i，用于进行预测。

字符预测任务和MLM任务类似，预测mask位置的正确字符，选择得分最高的字符作为预测结果，将BERT的Token Embeddings层和分类器权值共享。

拼音预测任务预测mask位置字符的正确拼音；分为声母、韵母、声调三个预测子任务，选择得分最高的声母、韵母、声调作为预测结果，将声母、韵母、声调的特征嵌入和对应的分类器进行权值共享，来计算特征嵌入和h_i的相似性，相关的嵌入会被拉近，不相关的嵌入会被拉远。

仓颉码预测任务预测mask位置字符的正确仓颉码序列组成，视为多标签分类任务，选择得分经过sigmoid后大于一定阈值的字码作为预测结果；将仓颉码的特征嵌入和分类器进行权值共享，来计算仓颉码嵌入和h_i的相似性，相关的嵌入会被拉近，不相关的嵌入会被拉远。

步骤四、使用词表大小的分类器，选择得分最高的分类结果对应的字符作为该位置的纠正结果。本步骤是对每个位置进行一个词表大小的分类，如果分类结果对应的字符和该位置的输入字符相同，则系统表示该位置无错误，否则将该位置纠正为分类结果对应的字符。

在步骤4中使用词表大小的分类器，将其权重矩阵和BERT模型的TokenEmbeddings进行权值共享；

P(y_i＝j|X)＝softmax(Wh_i)[j],

其中W是分类器的可训练参数，将BERT的Token Embeddings层和W进行权值共享，二者在语义上是相似的，权重矩阵的每一行和词表中的每个字相对应，且大小均为R^V|*H，其中|V|表示词表大小，H表示隐藏层维度大小。通过这样的权重共享可以减少参数的数量，加快收敛。

实施例

本发明中按照上述步骤可实现一个简单的自动化中文拼写纠正模块，该模块可以嵌入到任何现存的系统中，达到即插即用的效果，具体验证发明有益效果如下：

本实施例按照如图1所示流程进行，搭建一个基于预训练的字音字形知识增强的中文拼写纠正系统。本发明所实现的系统启动之后，会先加载预训练模型和拼音、仓颉码数据库至内存中。之后系统会根据用户输入的文本，从数据库中取出文本对应的拼音和仓颉码序列，然后将文本和拼音、仓颉码序列一同输入模型中。模型会整合文本的上下文语义信息和字音字形知识，给出拼写纠正建议。

图4为随机选取的一篇示例文章和系统对其提示的拼写纠正结果。

随机选取的一篇示例文章，如图4，这里选取了一篇较容易出现拼写错误的中学生作文作为示例，将其作为待纠错文本输入系统。

本发明最终的实际运行结果如图5所示。根据图中的纠正效果可以看到，本发明实现的中文拼写纠正系统，可以直观指出中学生作文的错误位置，并给出纠正意见。得到了错误位置后可以对待纠错文本以不同颜色等形式呈现；根据纠正意见，可以生成纠正后的正确句子供使用者进行比对。并且图中的示例可以看出，本发明对于中学生常见的“的地得”错误也能很好地纠正。并且拥有相似发音或字形的纠正选项会被优先考虑。通过本发明实现的系统，使用者可以轻松地找出文章中可能存在的拼写错误，提高了校验文章的效率。

以上对本发明所提出的一种基于预训练的字音字形知识增强的中文拼写纠正方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于预训练的字音字形知识增强的中文拼写纠正方法，其特征在于，所述方法具体包括：

2.根据权利要求1所述的方法，其特征在于，采用GRU网络分别对汉字的拼音序列和仓颉码序列进行编码，具体过程包括以下步骤：

3.根据权利要求2所述的方法，其特征在于，将步骤2中获得的字音和字形特征向量作为BERT模型的输入之一，一同输入BERT模型中，从而获得该位置的上下文表示；所述BERT模型，其输入包含五个部分：Token Embeddings，Position Embeddings，SegmentEmbeddings，Phonetic Embeddings和Graphic Embeddings；Phonetic Embeddings和Graphic Embeddings分别对应步骤2中经过GRU编码得到的字音特征向量和字形特征向量，在输入端将这五个部分的嵌入相加并经过LayerNorm后，一同输入BERT模型中。

4.根据权利要求3所述的方法，其特征在于，在步骤4中使用词表大小的分类器，将其权重矩阵和BERT模型的Token Embeddings进行权值共享；

P(y_i＝j|X)＝softmax(Wh_i)[j],

其中W是分类器的可训练参数，将BERT的Token Embeddings层和W进行权值共享，二者在语义上是相似的，权重矩阵的每一行和词表中的每个字相对应，且大小均为R^|V|*H，其中|V|表示词表大小，H表示隐藏层维度大小。

5.根据权利要求4所述的方法，其特征在于，所述特定预训练任务为适用于CSC任务的基于混淆集的预训练任务，随机替换语料中15％的token，其中：

(3)15％的情况下保持不变。

6.根据权利要求5所述的方法，其特征在于，步骤3中所使用的预训练模型，是采用了更适合中文拼写纠正任务的三个预训练任务进行预训练得到，即字符预测任务、拼音预测任务和仓颉码预测任务；取BERT模型最后一层隐藏层输出的上下文表示h_i，用于进行预测。

7.根据权利要求6所述的方法，其特征在于，字符预测任务和MLM任务类似，预测mask位置的正确字符，选择得分最高的字符作为预测结果，将BERT的Token Embeddings层和分类器权值共享。

8.根据权利要求7所述的方法，其特征在于，拼音预测任务预测mask位置字符的正确拼音；分为声母、韵母、声调三个预测子任务，选择得分最高的声母、韵母、声调作为预测结果，将声母、韵母、声调的特征嵌入和对应的分类器进行权值共享，来计算特征嵌入和h_i的相似性，相关的嵌入会被拉近，不相关的嵌入会被拉远。

9.根据权利要求8所述的方法，其特征在于，仓颉码预测任务预测mask位置字符的正确仓颉码序列组成，视为多标签分类任务，选择得分经过sigmoid后大于一定阈值的字码作为预测结果；将仓颉码的特征嵌入和分类器进行权值共享，来计算仓颉码嵌入和h_i的相似性，相关的嵌入会被拉近，不相关的嵌入会被拉远。

10.根据权利要求9所述的方法，其特征在于，在预训练过程中，收集104万条中文wiki数据和250万篇新闻语料，从中随机选择7,000,000条句子作为预训练的数据。