CN114881010A

CN114881010A - 一种基于Transformer和多任务学习的中文语法纠错方法

Info

Publication number: CN114881010A
Application number: CN202210452081.3A
Authority: CN
Inventors: 黄继风; 冯雅
Original assignee: Shanghai Normal University
Current assignee: Shanghai Normal University
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-08-09

Abstract

本发明涉及一种基于Transformer和多任务学习的中文语法纠错方法，该方法包括以下步骤：步骤A：利用爬虫技术收集Lang‑8网站母语非中文学习者书写语句和对应批改语句，清洗并筛选语句对，组成语料库；步骤B：对语料库中的语句对数据进行预处理；包括去停用词、繁体转简体、以及划分训练集和验证集；步骤C：基于编辑操作集合生成训练样本所需的标签；步骤D：构建基于Transformer和多任务学习的中文语法纠错模型进并采用训练集行训练；步骤E：对完成训练的中文语法纠错模型通过验证集进行验证，根据评价指标评价纠错效果，并利用该模型输入待纠错语句进行纠错。与现有技术相比，本发明具有精确率高、泛化能力强、性能好等优点。

Description

一种基于Transformer和多任务学习的中文语法纠错方法

技术领域

本发明涉及中文文本纠错技术领域，尤其是涉及一种基于Transformer和多任务学习的中文语法纠错方法。

背景技术

在互联网时代，每天都要产生海量的文本数据和文本信息，人们需要对这些数据进行核对和校正，否则会干扰后续重要的工作。常规的人工校对方式速度慢、成本高，无法适应现在的信息爆炸时代。随着计算机技术和自然语言处理技术的发展，学术界以及工业界开始自动文本校对的研究，减轻人工校对的负担。早期的文本校对采用基于规则和统计的机器学习方法，随着文本数据的扩增，该方法存在不够灵活、泛化能力差的缺点。随着深度学习的发展，主流更多选择基于深度学习的神经网络模型实现文本校对，进行大规模的文本数据的训练。

中文语法纠错指的是针对中文文本中的语法错误进行校对，包括错误检测、错误定位和错误纠正等任务，常用的语法纠错方案有两种：一种是把纠错看成错误检测、错误标注和错误纠正等子任务，将多个子模型集成起来，错误标注通常使用序列标注模型，比如BiLSTM+CRF经典模型。这种方法容易产生错误传递，上一个子模型结果影响到下一子模型，从而影响整个纠错系统性能；另一种是将纠错任务直接看成“翻译”任务，由待纠错句“翻译”成正确句，通常选择端到端的神经翻译模型(NMT)实现纠错任务，但是目前纠错的性能的速度都不能满足要求。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于Transformer和多任务学习的中文语法纠错方法。

本发明的目的可以通过以下技术方案来实现：

一种基于Transformer和多任务学习的中文语法纠错方法，该方法包括以下步骤：

步骤A：利用爬虫技术收集Lang-8网站母语非中文学习者书写语句和对应批改语句，清洗并筛选语句对，组成语料库；

步骤B：对语料库中的语句对数据进行预处理；包括去停用词、繁体转简体、以及划分训练集和验证集；

步骤C：基于编辑操作集合生成训练样本所需的标签；

步骤D：构建基于Transformer和多任务学习的中文语法纠错模型进并采用训练集行训练；

步骤E：对完成训练的中文语法纠错模型通过验证集进行验证，根据评价指标评价纠错效果，并利用该模型输入待纠错语句进行纠错。

所述的步骤A中，对语句对进行清洗筛选的原则具体包括：

若原语句对应不止一个批改句，则选择其中一个批改句和原语句组成语句对；

若原语句没有对应批改句，表示该语句正确，则复制其本身组成语句对；

选取句长范围在20～90的原语句。

所述的步骤B中，预处理包括去停用词、繁体转简体、以及划分训练集和验证集，所述的去停用词具体为：

去除包括数字、英文、乱符的非中文字符，以提高语料数据精度；

所述的繁体转简体具体为：

将语句中的繁体字符转为简体字符。

所述的步骤C具体包括以下步骤：

步骤C1、将语句对按照字粒度切割成token序列；

步骤C2、计算待纠错语句和对应的正确句的token级别编辑距离，得到编辑操作集合；

步骤C3、根据编辑操作集合，按照多字、少字、乱序和替换四种语法错误进行分类，对待纠错语句序列中存在的语法错误进行标注，获得错误标签序列。

所述的步骤C2中，采用工具包MaxMatch(M2)计算编辑距离。

所述的步骤D中，基于Transformer和多任务学习的中文语法纠错模型包括预训练模型、Transformer和CRF层，所述的Transformer的Encoder端由Embedding层和N个相同的神经模块组成，每个神经模块由Multi-Head Attention和Feed Forward子层组成，每个子层均后接残差连接，Transformer的Decoder端由N个相同的神经模块组成，其比Encoder端多一个额外的编解码多头注意力层。

所述的中文语法纠错模型包括语法错误标注和语法纠错两个子任务，所述的Encoder端和CRF组成语法错误标注任务，所述的Encoder端和Decoder端组成语法纠错任务，且二者共Encoder端隐层权重，所述的Encoder端Embedding层输入为待纠错句序列，Decoder端Embedding层输入为正确句序列，CRF层输出语句中存在的错误标签，Decoder端输出纠错模型的最终结果，即待纠错句对应的纠正语句，Embedding层用以将输入的语句序列映射为词向量，神经模块的Multi-Head Attention用于计算注意力，Feed Forward用于对输入数据进行线性变换，残差连接用以防止模型过拟合以及加快收敛速度，CRF层用以添加约束保证预测的标签序列合法。

所述的预训练模型具体采用Hugging Face的开源中文预训练模型Chinese-RoBERTa-wwm-ext。

所述的步骤D中，训练基于Transformer和多任务学习的中文语法纠错模型具体为：

使用预训练模型权重初始化Transformer的Encoder端，其他部分随机初始化，进行超参数微调训练，超参数包括batch size、epoch、learning rate和drop rate，在训练过程中，每次输入一批次的语句对数据。

所述的步骤E具体为：

利用验证集验证训练好的中文语法纠错模型，并使用评价指标对模型纠错效果进行评价，所述的评价指标包括精确率、召回率和综合指标F值。

与现有技术相比，本发明具有以下优点：

一、本发明提出一种基于编辑操作集合的错误标签生成方法，扩增了语料数据的多样性。

二、本发明采用基于注意力机制的Transformer模型能够更好地捕捉上下文语义信息，并且实现并行处理，加快计算速度。

三、本发明提出一种多任务学习的中文语法纠错方法，相较于单任务模型，进一步提高纠错模型的性能和泛化能力，提升纠错效果。

四、本发明通过结合预训练模型的微调训练有效加快模型收敛速度，进一步提高了模型的性能。

附图说明

图1为本发明的步骤结构框图。

图2为本发明的语料预处理流程图。

图3为本发明的Transformer模型结构图。

图4为本发明的基于Transformer和多任务学习的中文语法纠错模型结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

如图1所示，本发明提供一种基于Transformer和多任务学习的中文语法纠错方法，包括以下步骤：

步骤A：利用爬虫技术爬取Lang-8网站母语非中文用户写作语句和批改语句，按照以下原则对语句对进行清洗筛选，组成语料库：

①如果原语句对应不止一个批改句，选择其中一个批改句和原语句组成句对；

②如果原语句没有对应批改句，表示该语句正确，则复制其本身组成句对；

③选取句长范围在20～90个字的原语句。

经过筛选，最终语料库规模为50万级别。

步骤B：对语料库中的语句对数据进行去停用词、繁体转简体、划分训练集和验证集预处理工作；

进一步地，包括以下分步骤：

①去除数字、英文、乱符等非中文字符，提高语料数据精度；

②将语句中的繁体字符转为简体字符；

③将语料库划分为训练集和验证集。随机选择语料库中5000个句对作为验证集，其余为训练集。

步骤C：基于编辑操作集合生成训练样本所需的标签；

进一步地，包括以下分步骤：

①将语句对按照字粒度切割成token序列；

②计算待纠错和对应的正确句的token级别编辑距离，得到编辑操作集合；

③根据编辑操作集合，按照多字(R)、少字(M)、乱序(W)、替换(S)四种语法错误分类，对待纠错句序列中存在的语法错误进行标注，生成错误标签序列。

进一步地，所述的步骤C的编辑距离的计算使用公开的工具包MaxMatch(M2)。

步骤D：结合预训练模型，对基于Transformer和多任务学习的中文语法纠错模型进行训练；

进一步地，

预训练模型使用Hugging Face提供的开源中文预训练模型：Chinese-RoBERTa-wwm-ext。基于Transformer和多任务学习的中文语法纠错模型结构(如图4所示)由Transformer的编码器(Encoder)和解码器(Decoder)以及CRF部分组成，其中，Transformer模型(如图3所示)的编码器(Encoder)由Embedding层和N个相同的神经模块组成，每个神经模块由Multi-Head Attention和Feed Forward子层组成，每个子层都后接了残差连接(Residual Connection)；解码器(Decoder)同样由N个相同的神经模块组成，其只比Encoder的模块多一个额外的编解码多头注意力层(Scaled Dot-Product Attention)。

如图4所示，多任务学习模型包括语法错误标注和语法纠错两个子任务，其中Encoder端和CRF组成语法错误标注任务，Encoder端和Decoder端组成语法纠错任务，二者共Encoder端隐层权重。Encoder端Embedding层输入为待纠错句序列，Decoder端Embedding层输入为正确句序列，CRF层输出语句中存在的错误标签，Decoder端输出是纠错模型的最终结果，即待纠错句对应的纠正语句。Embedding层作用是将输入序列映射成词向量，神经模块的Multi-Head Attention用于计算注意力，Feed Forward用于对输入数据进行线性变换，残差连接是为了防止模型过拟合和加快收敛速度。CRF层作用是添加一些约束以保证预测的标签序列合法。

在训练过程中，使用预训练模型权重初始化多任务学习模型的Encoder端，其他部分随机初始化，进行微调训练。

模型的超参数主要包括：batch size、epoch、learning rate和drop rate等，调整合适的超参数，提高模型的性能。

步骤E：对训练完成的纠错模型进行验证，根据评价指标评价纠错效果。

进一步地，所述的模型评价指标为：精确率(Precision)、召回率(Recall)和综合评价指标F值(F0.5)。本发明提出的方法在验证集上表现：精确率为31.23，召回率为5.90，F0.5为17.29。相较于现有方法的单任务模型(baseline)在验证集表现：精确率为24.95，召回率为4.95，F0.5为13.80，在精确率和F值有显著的提升，进一步优化模型性能。

综上所述，根据本发明提出的基于Transformer和多任务学习的中文语法纠错方法，在中文语法纠错任务训练的基础上，加入语法错误标注任务，进行多任务学习的训练，并结合预训练模型进行微调训练，极大地提高模型精度和泛化能力，进一步提升纠错水平。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，该方法包括以下步骤：

步骤C：基于编辑操作集合生成训练样本所需的标签；

2.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的步骤A中，对语句对进行清洗筛选的原则具体包括：

选取句长范围在20～90的原语句。

3.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的步骤B中，预处理包括去停用词、繁体转简体、以及划分训练集和验证集，所述的去停用词具体为：

所述的繁体转简体具体为：

将语句中的繁体字符转为简体字符。

4.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的步骤C具体包括以下步骤：

步骤C1、将语句对按照字粒度切割成token序列；

5.根据权利要求4所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的步骤C2中，采用工具包MaxMatch(M2)计算编辑距离。

6.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的步骤D中，基于Transformer和多任务学习的中文语法纠错模型包括预训练模型、Transformer和CRF层，所述的Transformer的Encoder端由Embedding层和N个相同的神经模块组成，每个神经模块由Multi-Head Attention和Feed Forward子层组成，每个子层均后接残差连接，Transformer的Decoder端由N个相同的神经模块组成，其比Encoder端多一个额外的编解码多头注意力层。

7.根据权利要求6所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的中文语法纠错模型包括语法错误标注和语法纠错两个子任务，所述的Encoder端和CRF组成语法错误标注任务，所述的Encoder端和Decoder端组成语法纠错任务，且二者共Encoder端隐层权重，所述的Encoder端Embedding层输入为待纠错句序列，Decoder端Embedding层输入为正确句序列，CRF层输出语句中存在的错误标签，Decoder端输出纠错模型的最终结果，即待纠错句对应的纠正语句，Embedding层用以将输入的语句序列映射为词向量，神经模块的Multi-Head Attention用于计算注意力，Feed Forward用于对输入数据进行线性变换，残差连接用以防止模型过拟合以及加快收敛速度，CRF层用以添加约束保证预测的标签序列合法。

8.根据权利要求6所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的预训练模型具体采用Hugging Face的开源中文预训练模型Chinese-RoBERTa-wwm-ext。

9.根据权利要求8所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的步骤D中，训练基于Transformer和多任务学习的中文语法纠错模型具体为：

10.根据权利要求1所述的一种基于Transformer和多任务学习的中文语法纠错方法，其特征在于，所述的步骤E具体为：