CN114065738B

CN114065738B - 基于多任务学习的中文拼写纠错方法

Info

Publication number: CN114065738B
Application number: CN202210023934.1A
Authority: CN
Inventors: 刘洋; 刘酃威; 林中尧
Original assignee: Hunan Dademaning Information Technology Co ltd
Current assignee: Hunan Dademaning Information Technology Co ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-05-17
Anticipated expiration: 2042-01-11
Also published as: CN114065738A

Abstract

本发明提供了一种基于多任务学习的中文拼写纠错方法，包括：步骤1，将样例句文本和标签句文本以特定格式输入文本编码模块，文本编码模块输出文本向量；步骤2，将文本向量中句子起始的标识符对应的向量输入正确句判别模块；步骤3，将文本向量中样例句对应的向量输入字级别多分类模块，字级别多分类模块将输出输入候选字生成模块的语义混淆集中。本发明提出了正确句判别任务，通过在训练过程中构建句子对，模型需要识别句子对中不含错误的句子，能够让模型具有基于句子级别分辨正确语句与错误语句的能力，同时和预训练模型的句子对顺序预测任务较好契合，更好的挖掘利用了预训练模型在拼写校对领域的能力，具备更好的识别正确句的能力。

Description

基于多任务学习的中文拼写纠错方法

技术领域

本发明涉及中文拼写纠错技术领域，特别涉及一种基于多任务学习的中文拼写纠错方法。

背景技术

随着计算机应用技术的快速发展，越来越多的信息通过网络为媒介进行传播，随着信息数量的快速增长，信息的质量却难以得到保障，低质量的信息会破坏网络环境，同时传播错误知识，文字是网络信息中最多也最重要的承载体，而拼写错误是文字信息中最频繁且最容易出现的一类错误，传统人工对文本进行校对的方式，已经无法处理如今海量的数据，近些年提出的基于深度学习模型架构的拼写校对系统，依赖于预训练模型，且聚焦于字级别的分类任务，主要存在三个问题：依赖于深度学习的拼写校对系统，未充分考量整体句子语境，仅从字级别推断最可能正确的字，而不同句子、不同语义场景下最可能的字不同。

目前对于预训练模型的使用，仅挖掘利用了其中的掩码语言模型部分，忽略了另一个预训练任务：句子顺序预测，没有充分发挥预训练模型在文本校对领域的潜能。

中文拼写纠错方法分为两种，一种是端到端的方法，即直接让模型做约2万分类的多分类任务，其任务难度高，效率低。而另一种非端到端的方法，即模型先完成检错，再完成纠错，然而目前基于非端到端的方法，检错和纠错两个模块缺少交互，无法互相促进。

发明内容

本发明提供了一种基于多任务学习的中文拼写纠错方法，其目的是为了解决了传统的中文拼写纠错方法未充分考量整体句子语境，任务难度高，效率低的问题。

为了达到上述目的，本发明的实施例提供了一种基于多任务学习的中文拼写纠错方法，包括：

步骤1，将样例句文本和标签句文本以特定格式输入文本编码模块，文本编码模块输出文本向量；

步骤2，将文本向量中句子起始的标识符对应的向量输入正确句判别模块；

步骤3，将文本向量中样例句对应的向量输入字级别多分类模块，字级别多分类模块将输出输入候选字生成模块的语义混淆集中；

步骤4，将文本向量中样例句对应的向量输入字级别二分类模块，字级别二分类模块将输出输入候选字生成模块，提供样例句中每个位置字符的正误信息；

步骤5，根据字级别二分类模块的输出，取出样例句中可能存在错误的位置上的字，分别基于字音混淆集和字形混淆集，取出对应的字音候选字和字形候选字，候选字生成模块将所有语义、字音和字形候选字输入语言模型评分模块；

步骤6，语言模型评分模块将所有候选字依次替换到句中，得到对应的候选句，基于所有候选句计算语句困惑度并排序，得到中文拼写纠错结果。

其中，所述步骤1具体包括：

步骤11，将样例句文本和标签句文本打乱顺序后拼接，文本拼接形式为[CLS]+senA+[SEP]+senB，将拼接后的文本输入文本编码模块的MacBERT自编码预训练模型；其中，[CLS]表示MacBERT自编码预训练模型预定义的指示句子起始的标识符，[SEP]表示MacBERT自编码预训练模型预定义的的分割两个句子的标识符，senA和senB表示样例句或标签句，当senA为样例句时，senB为标签句，当senA为标签句时，senB为样例句，样例句表示训练时的原句，标签句表示样例句对应的不含错误的语句；

步骤12，通过MacBERT自编码预训练模型对输入的拼接后的文本进行编码，得到文本的向量化表示h∈R ^L×d，其中，h表示文本的向量表示，L表示文本的长度，d表示编码维度，R表示文本经MacBERT自编码预训练模型转化后的向量表示；

步骤13，文本编码模块将编码后指示句子起始的标识符对应的向量cls∈R ^1×d输入正确句判断模块，将样例句对应的向量表示senA∈R ^La×d分别输入字级别多分类模块和字级别二分类模块，其中，L _a表示样例句的长度。

其中，所述步骤2具体包括：

步骤21，正确句判断模块构建全连接层做三分类任务，将cls向量作为全连接层的输入，输出正确句判断结果logit _cls，正确句判断结果表示输入的两个句子为正确句的概率，正确句判断结果为0时，表示senA为正确句，正确句判断结果为1时，表示senB为正确句，正确句判断结果为2时，表示senA和senB均为正确句。

其中，所述步骤3具体包括：

步骤31，字级别二分类模块构建全连接层，将senA∈R ^La×d向量作为全连接层的输入，字级别二分类模块输出pre ₂∈R ^La×1向量，将输出的pre ₂∈R ^La×1向量转换为对应的汉字输入候选字生成模块，其中，样例句中每个字对应一个标签，表示该位置的字是否正确，0表示正确，1表示错误。

其中，所述步骤4具体包括：

步骤41，字级别多分类模块构建全连接层，将senA∈R ^La×d向量作为全连接层的输入，字级别多分类模块将正确概率大的前三个输出，输出表示为pre ₂∈R ^La×3；

步骤42，将输出的pre ₂∈R ^La×3向量转换为对应的汉字输入候选字生成模块，作为语义混淆集。

其中，所述步骤5具体包括：

步骤51，候选字生成模块提取pre ₂∈R ^La×1向量中存在错误的位置的原字；

步骤52，从字音混淆集和字形混淆集中，查表取得对应的音近候选字和形近候选字；

步骤53，从pre ₂∈R ^La×3向量中取得对应位置生成的语义候选字；

步骤54，将音近候选字、形近候选字和语义候选字与对应的位置原字进行合并得到候选字输入语言模型评分模块。

其中，所述步骤6具体包括：

步骤61，语言模型评分模块基于预先收集的大规模语料对自回归语言模型进行微调，自回归语言模型为GPT预训练模型；

步骤62，将候选字生成模块得到的候选字分别替换到句中，得到对应的候选句；

步骤63，将得到的所有候选句通过GPT语言模型计算语句困惑度；

步骤64，基于计算得到的语句困惑度进行排序，选取语句困惑度最低的候选句作为最终的输出，得到中文拼写纠错结果。

本发明的上述方案有如下的有益效果：

本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法，提出了新颖的正确句判别任务，通过在训练过程中构建句子对，模型需要识别句子对中不含错误的句子，能够让模型具有基于句子级别分辨正确语句与错误语句的能力，同时和预训练模型的句子对顺序预测任务较好契合，更好的挖掘利用了预训练模型在拼写校对领域的能力，具备更好的识别正确句的能力，任务难度低，效率高。

附图说明

图1为本发明的总体流程图；

图2为本发明的具体流程图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的中文拼写纠错方法未充分考量整体句子语境，任务难度高，效率低的问题，提供了一种基于多任务学习的中文拼写纠错方法。

如图1至图2所示，本发明的实施例提供了一种基于多任务学习的中文拼写纠错方法，包括：步骤1，将样例句文本和标签句文本以特定格式输入文本编码模块，文本编码模块输出文本向量；步骤2，将文本向量中句子起始的标识符对应的向量输入正确句判别模块；步骤3，将文本向量中样例句对应的向量输入字级别多分类模块，字级别多分类模块将输出输入候选字生成模块的语义混淆集中；步骤4，将文本向量中样例句对应的向量输入字级别二分类模块，字级别二分类模块将输出输入候选字生成模块，提供样例句中每个位置字符的正误信息；步骤5，根据字级别二分类模块的输出，取出样例句中可能存在错误的位置上的字，分别基于字音混淆集和字形混淆集，取出对应的字音候选字和字形候选字，候选字生成模块将所有语义、字音和字形候选字输入语言模型评分模块；步骤6，语言模型评分模块将所有候选字依次替换到句中，得到对应的候选句，基于所有候选句计算语句困惑度并排序，得到中文拼写纠错结果。

本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法，在中文拼写校对任务中，所述基于多任务学习的中文拼写纠错方法对于中文拼写校对任务提出了四个子任务，分别设立正确句判别模块、字级别二分类模块、字级别多分类模块和候选句评分模块分别进行处理，所述基于多任务学习的中文拼写纠错方法提出基于字音混淆集、字形混淆集和语义混淆集三种混淆集共同生成候选字集，扩充候选字范围及准确率，所述基于多任务学习的中文拼写纠错方法提出使用生成式预训练模型GPT计算语句困惑度，以判定选取哪一个候选字作为最终结果，以进一步提升拼写校对准确度，所述基于多任务学习的中文拼写纠错方法通过正确句判别、字级别二分类、字级别多分类三个模块进行联合训练，以提升各模块表现，提升训练后模型拼写校对的正确率，所述基于多任务学习的中文拼写纠错方法能提高中文拼写校对的精度，通过将正确句判别模块、字级别二分类模块和字级别多分类模块三个模块进行联合训练，更好的通过预训练模型抽取句子级别和字级别的特征，同时将较难的两万分类的多分类任务拆解为一个字级别二分类模块负责检错，候选字生成模块和正确句判别模块两模块共同负责纠错，简化了任务难度，提升了模型性能。同时通过多任务学习，使多模块之间产生交互，共同提升性能。

其中，所述步骤1具体包括：步骤11，将样例句文本和标签句文本打乱顺序后拼接，文本拼接形式为[CLS]+senA+[SEP]+senB，将拼接后的文本输入文本编码模块的MacBERT自编码预训练模型；其中，[CLS]表示MacBERT自编码预训练模型预定义的指示句子起始的标识符，[SEP]表示MacBERT自编码预训练模型预定义的的分割两个句子的标识符，senA和senB表示样例句或标签句，当senA为样例句时，senB为标签句，当senA为标签句时，senB为样例句，样例句表示训练时的原句，标签句表示样例句对应的不含错误的语句；步骤12，通过MacBERT自编码预训练模型对输入的拼接后的文本进行编码，得到文本的向量化表示h∈R ^L×d，其中，h表示文本的向量表示，L表示文本的长度，d表示编码维度，R表示文本经MacBERT自编码预训练模型转化后的向量表示；步骤13，文本编码模块将编码后指示句子起始的标识符对应的向量cls∈R ^1×d输入正确句判断模块，将样例句对应的向量表示senA∈R ^La×d分别输入字级别多分类模块和字级别二分类模块，其中，L _a表示样例句的长度。

其中，所述步骤2具体包括：步骤21，正确句判断模块构建全连接层做三分类任务，将cls向量作为全连接层的输入，输出正确句判断结果logit _cls，正确句判断结果表示输入的两个句子为正确句的概率，正确句判断结果为0时，表示senA为正确句，正确句判断结果为1时，表示senB为正确句，正确句判断结果为2时，表示senA和senB均为正确句。

其中，所述步骤3具体包括：步骤31，字级别二分类模块构建全连接层，将senA∈R ^La ^×d向量作为全连接层的输入，字级别二分类模块输出pre ₂∈R ^La×1向量，将输出的pre ₂∈R ^La×1向量转换为对应的汉字输入候选字生成模块，其中，样例句中每个字对应一个标签，表示该位置的字是否正确，0表示正确，1表示错误。

本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法，所述字级别多分类模块，目的是提供语义上的候选字，为后续语言模型评分模块提供良好的基础，例如，对于样例句：天器整好，所述字级别多分类模块会取出四个位置对应的语义候选字：{天：[夭，大，甜]，器：[气，七，嚣]，整：[真，正，蒸]，好：[号，妤，子]}。

其中，所述步骤4具体包括：步骤41，字级别多分类模块构建全连接层，将senA∈R ^La ^×d向量作为全连接层的输入，字级别多分类模块将正确概率大的前三个输出，输出表示为pre ₂∈R ^La×3；步骤42，将输出的pre ₂∈R ^La×3向量转换为对应的汉字输入候选字生成模块，作为语义混淆集。

本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法，所述字级别二分类模块的主要任务是判定句子中哪些位置可能存在错误，例如，对于样例句：天器整好，其输出的

，表示其第二、第三个字存在错误。

其中，所述步骤5具体包括：步骤51，候选字生成模块提取pre ₂∈R ^La×1向量中存在错误的位置的原字；步骤52，从字音混淆集和字形混淆集中，查表取得对应的音近候选字和形近候选字；步骤53，从pre ₂∈R ^La×3向量中取得对应位置生成的语义候选字；步骤54，将音近候选字、形近候选字和语义候选字与对应的位置原字进行合并得到候选字输入语言模型评分模块。

本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法，所述候选字生成模块的主要目的是对于字级别二分类任务判定为错误的字，提供基于字音、字形和语义的候选字。字音混淆集指的是基于拼音相似情况收集的字和对应容易混淆的字；字形混淆集是基于字形相似情况收集的字和对应容易混淆的字，如表1所示：

表1 原字、字音混淆集和字形混淆集

原字	字音混淆集	字形混淆集
			夫	付，富，负	天，夭，人

其中，所述步骤6具体包括：步骤61，语言模型评分模块基于预先收集的大规模语料对自回归语言模型进行微调，自回归语言模型为GPT预训练模型；步骤62，将候选字生成模块得到的候选字分别替换到句中，得到对应的候选句；步骤63，将得到的所有候选句通过GPT语言模型计算语句困惑度；步骤64，基于计算得到的语句困惑度进行排序，选取语句困惑度最低的候选句作为最终的输出，得到中文拼写纠错结果。

本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法，所述语言模型评分模块的目的是从候选字中判断选择最终的字作为输出。

本发明的上述实施例所述的基于多任务学习的中文拼写纠错方法，设立了四个子模块，将其中的三个子任务进行联合训练，分别是正确句判别任务，字级别二分类任务，字级别多分类任务，正确句判别任务使模型能够基于句子级别，具备判定句子中是否存在错别字的能力；字级别二分类任务判定语句中哪些位置存在错误；字级别多分类任务将语义信息通过扩充混淆集的形式融入整体流程。所述基于多任务学习的中文拼写纠错方法将复杂的文本校对任务分解为两个相对简单的任务，又通过三个存在内在关联的子任务进行多任务联合训练，训练损失为三个子任务损失之和，相互联系，共同优化，以提升模型精度，所述的基于多任务学习的中文拼写纠错方法可以提高模型精度。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多任务学习的中文拼写纠错方法，其特征在于，包括：

步骤1，将样例句文本和标签句文本以特定格式输入文本编码模块，文本编码模块输出文本向量，其中，所述步骤1具体包括：

步骤11，将样例句文本和标签句文本打乱顺序后拼接，文本拼接形式为[CLS]+senA+[SEP]+senB，将拼接后的文本输入文本编码模块的MacBERT自编码预训练模型；其中，[CLS]表示MacBERT自编码预训练模型预定义的指示句子起始的标识符，[SEP]表示MacBERT自编码预训练模型预定义的分割两个句子的标识符，senA和senB表示样例句或标签句，当senA为样例句时，senB为标签句，当senA为标签句时，senB为样例句，样例句表示训练时的原句，标签句表示样例句对应的不含错误的语句；

步骤13，文本编码模块将编码后指示句子起始的标识符对应的向量cls∈R ^1×d输入正确句判断模块，将样例句对应的向量表示senA∈R ^La×d分别输入字级别多分类模块和字级别二分类模块，其中，L _a表示样例句的长度；

步骤3，将文本向量中样例句对应的向量输入字级别多分类模块，字级别多分类模块将输出 pre ₁∈R ^La×3 向量转化为对应的汉字输入候选字生成模块的语义混淆集中，其中，字级别二分类模块构建全连接层，将senA∈R ^La×d向量作为全连接层的输入，字级别二分类模块输出pre ₂∈R ^La×1向量，将输出的pre ₂∈R ^La×1向量转换为对应的汉字输入候选字生成模块，其中，样例句中每个字对应一个标签，表示该位置的字是否正确，0表示正确，1表示错误；

2.根据权利要求1所述的基于多任务学习的中文拼写纠错方法，其特征在于，所述步骤2具体包括：

3.根据权利要求2所述的基于多任务学习的中文拼写纠错方法，其特征在于，所述步骤3具体包括：

4.根据权利要求3所述的基于多任务学习的中文拼写纠错方法，其特征在于，所述步骤4具体包括：

5.根据权利要求4所述的基于多任务学习的中文拼写纠错方法，其特征在于，所述步骤5具体包括：

6.根据权利要求5所述的基于多任务学习的中文拼写纠错方法，其特征在于，所述步骤6具体包括：