CN111767718B

CN111767718B - 一种基于弱化语法错误特征表示的中文语法错误更正方法

Info

Publication number: CN111767718B
Application number: CN202010636770.0A
Authority: CN
Inventors: 李思; 梁景贵; 陆树栋; 李明正; 孙忆南
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2021-12-07
Anticipated expiration: 2040-07-03
Also published as: CN111767718A

Abstract

本发明提供了一种基于弱化语法错误特征表示的中文语法错误更正方法，在用于中文语法错误更正任务的Transformer神经网络的基础上，通过编码器所提取得到字符特征表示和上下文特征表示，为待纠错文本中每一个字符学习得到一个弱化因子。弱化因子能够通过联合方程将编码器提取得到的字符特征表示和上下文特征表示联合，使得编码器所提取得到的待纠错文本的特征表示中，语法错误的特征信息得到抑制，从而弱化了语法错误特征信息对中文语法错误更正模型的负面影响，提升了基于Transformer的序列到序列神经网络模型在中文语法错误更正任务中的性能。

Description

一种基于弱化语法错误特征表示的中文语法错误更正方法

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于Transformer神经网络的中文语法错误更正方法。

背景技术

中文是世界上最古老、最复杂的一门语言之一。随着中国的不断发展，越来越多的外国人将中文作为第二语言进行学习。自动化地中文语法错误更正能够替代传统耗时耗力的人工中文语法错误更正，提高外国人学习中文的效率。同时，中文语法错误更正任务能够作为自然语言处理领域中生成任务的辅助任务，提高生成任务中生成文本的质量和合理性。因此，近年来中文语法错误更正任务引起了学术界和工业界的普遍关注。

中文语法错误更正任务即通过某种算法，使计算机自动地对包含语法错误的中文句子进行语法错误更正，输出正确的中文句子。目前，最普遍的中文语法错误更正方法是把语法错误更正任务作为翻译任务来完成。通过使用序列到序列神经网络模型，将包含语法错误的中文句子“翻译”为正确的中文句子。

现有用于中文语法错误更正的“翻译”技术，一部分方法是利用多模型，对包含语法错误的中文句子进行多次处理实现中文语法错误更正；另一部分方法则是直接改进序列到序列神经网络模型，加强序列到序列神经网络模型对中文句子的建模能力，实现中文语法错误更正。

如图1所示，现有技术之一的“A Two-Stage Model for Chinese GrammaticalError Correction”文章中，使用拼写检查(Spelling Check)+Transformer双模型进行中文语法错误更正。

对于拼写检查(Spelling Check)模型，首先利用JIEBA分词器和给定词典找出分词结果中未在给定词典内的词；其次，通过相似字符集合给出未在给定词典内的词的可能候选词集合；最后使用预训练好的5-gram语言模型在可能候选词集合中选择最高概率候选词，得到一次纠错结果。

对于Transformer神经网络模型，首先使用通过拼写检查(Spelling Check)模型得到的一次纠错结果作为编码器的输入；其次，编码器通过多头注意力对输入句子进行建模，得到输入句子的特征表示；最后解码器直接使用编码器提取得到的特征表示进行解码，得到二次纠错结果。

如图2所示，现有技术之二的“Improving Grammatical Error Correction viaPre-Training a Copy-Augmented Architecture with Unlabeled Data”文章中提出通过加入复制增强机制(Copy-Augmented)改进Transformer，解决语法纠错任务中未知词(OOV，Out Of Vocabulary)问题和部分词无需纠错问题。

首先，将待纠错句子作为Transformer模型编码器的输入，通过多头注意力对待纠错句子进行建模，得到待纠错句子的特征表示；其次，将待纠错句子的特征表示作为Transformer模型解码器的输入，解码得到解码器预测字符概率分布；同时，使用待纠错句子的特征表示和Transformer解码器最后一层的隐藏状态作为复制增强模块的输入，得到待纠错句子中每个字符被复制到解码器输出的复制概率分布；最后，联合解码器预测字符概率分布和待纠错句子中每个字符的复制概率分布得到每个预测字符的最终概率分布，最终概率分布如下所示：

其中，t表示解码器当前预测第t个字符；

表示Transformer解码器预测字符概率分布；

表示待纠错句子中每个字符的复制概率分布；

表示联合两个概率分布的平衡因子。

通过每个预测字符的最终概率分布，解码得到最优输出序列，完成语法错误更正任务。

发明人在研究过程中发现，对于“A Two-Stage Model for Chinese GrammaticalError Correction”、“Improving Grammatical Error Correction via Pre-Training aCopy-Augmented Architecture with Unlabeled Data”现有技术中，Transformer网络模型解码器直接使用由编码器所提取的待纠错句子的特征表示作为输入。其中该特征表示中包含了语法错误的特征信息，导致现有技术中Transformer神经网络模型被包含语法错误信息的特征表示所影响，在语法纠错任务中表现不佳。

发明内容

为了解决现有技术问题，本发明提供了一种基于弱化语法错误特征表示的中文错误更正方法。方案如下：

(1)将中文语法错误更正语料划分为待纠错文本数据和正确文本数据；

(2)将待纠错文本和正确文本的中文字符，利用相同字典，映射为向量表示，输入的待纠错文本和正确文本即数值化为每个字符向量列连接而成的数值矩阵；

(3)将步骤(2)中得到的待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示；

(4)将步骤(3)中得到的待纠错文本特征表示和步骤(2)中得到的正确文本数值矩阵作为解码器的两个输入，得到每一个预测字符概率分布；

(5)使用交叉熵损失函数，计算每一个预测字符的概率分布和真实字符之间的交叉熵损失，用反向传播算法(Back Propagation，BP)计算更新网络各层权重。

进一步的，非训练情况下，中文语法错误更正时，将步骤(1)～(5)予以替换，替换如下：

(1)将待纠错文本作为神经网络的输入；

(2)将待纠错文本中的中文字符，利用与训练过程中相同的字典，映射为向量表示，输入的待纠错文本即数值化为每个字符向量列连接而成的数值矩阵；

(3)将向量表示输入编码器，提取得到待纠错文本的特征表示；

(4)将待纠错文本的特征表示输入解码器，利用集束搜索算法(Beam Search)对字符进行逐个解码，得到最优输出序列，完成语法错误更正。

进一步的，所述步骤(2)中，将待纠错文本和正确文本的中文字符，利用相同字典，映射为向量表示，包括：

首先，随机初始化字符到字符向量的映射索引和字符向量矩阵；其次，通过映射索引将字符映射为对应的字符编号；再次，通过各个字符的字符编号取得字符向量矩阵中对应的字符向量；最后，将字符向量连接，各个字符的字符向量列连接而成的数值矩阵。

进一步的，所述步骤(3)中，将待纠错文本数值矩阵输入编码器提取得到待纠错文本的特征表示，具体包括：

首先，将待纠错文本数值矩阵或上层编码器层的输出输入至当前编码器层，通过多头注意力+全连接网络和上下文注意力+全连接网络分别提取得到待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示。

对于待纠错文本中每一个字符在当前编码器层中的字符特征表示的提取，计算如下：

其中，H^l-1为待纠错文本数值矩阵或上层编码器层的输出；

表示当前编码器层提取得到的字符特征表示；LN(·)为输入归一化函数；FFN(·)表示全连接网络；MultiHead(·)表示多头注意力模块；

其中，MultiHead(·)计算公式如下：

MultiHead(X)＝Concat(head₁，…，head_h)W^O

head_i＝Attention(Q_i，K_i，V_i)

Q_i，K_i，V_i＝XW_i ^Q，XW_i ^K，XW_i ^V

其中，Concat(·)表示向量拼接操作；W^O表示输出连接权重矩阵；{W_i ^Q，W_i ^K，W_i ^V}表示多头注意力中第i个注意力头的权重矩阵；head_i表示多头注意力中第i个注意力头的输出向量；Attention(·)表示自注意力机制；{Q_i，K_i，V_i}表示query，key，value向量；

其中，Attention(·)计算公式如下：

其中，d_k表示key向量的维度；softmax(·)表示归一化指数函数，计算公式如下：

其中，x为向量，x_i为向量中第i个元素。

对于待纠错文本中每一个字符在当前编码器层中的上下文特征表示的提取，计算如下：

其中，H^l-1为待纠错文本数值矩阵或上层编码器层的输出；

表示当前编码器层提取得到的上下文特征表示；LN(·)为输入归一化函数；FFN(·)表示全连接网络；ContextAttn(·)表示上下文注意力模块；

其中，上下文注意力模块为多头注意力模块的一种变体，其计算过程与多头注意力模块相似。区别在于，在上下文注意力模块中，通过使用掩码，使自注意力机制能够提取得到待纠错文本中每一个字符在当前编码器层中的上下文特征表示，计算如下：

其中，M_ij表示所加入掩码函数，计算公式如下：

其次，将提取得到的待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示输入至语法错误弱化模块，得到当前编码器层对待纠错文本中每一个字符的弱化因子，计算如下：

其中，

表示语法错误弱化模块学习得到的待纠错文本中每一个字符的弱化因子；Length_Sentence表示输入的待纠错文本长度；

和

分别为待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示；

为权重矩阵；d_model为特征表示的维度；tanh(·)、sigmoid(·)为激活函数；

其中，tanh(·)、sigmoid(·)计算公式如下：

再次，将提取得到的待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示以及待纠错文本中每一个字符的弱化因子通过联合方程联合，得到当前编码器层的输出。联合方程如下：

其中，⊙表示点积；H^l表示当前编码器层的最终输出。

最后，取编码器最终层的输出，作为待纠错文本的特征表示。

进一步的，所述步骤(4)中，将待纠错文本的特征表示和正确文本的数值矩阵作为解码器的两个输入，得到每一个预测字符的概率分布，具体包括：

首先，将正确文本的数值矩阵或上层解码器层的输出输入至当前解码器层中的掩码多头注意力网络，得到当前解码器层中掩码多头注意力网络层的输出：

其中，D^l-1表示正确文本的数值矩阵或上层解码器层的输出；

表示当前解码器层中掩码注意力网络层输出；LN(·)为输入归一化函数；MaskMultiHead(·)表示掩码多头注意力模块，掩码多头注意力网络与上下文注意力模块相似。区别在于，掩码多头注意力网络中，掩码函数如下：

其次，将待纠错文本的特征表示和当前解码器层中掩码多头注意力网络层的输出作为当前解码器层中多头注意力+全连接网络的两个输入，得到当前解码器层的最终输出：

其中，

表示当前解码器层中掩码注意力网络层输出；D^l表示当前解码器层的最终输出；H^L表示编码器所提取的待纠错文本的特征表示；LN(·)为输入归一化函数；FFN(·)表示全连接网络；MultiHead(·)表示多头注意力模块；

其中，与编码器中的MultiHead(·)模块不同的是，解码器中的MultiHead(·)模块接受待纠错文本的特征表示和当前解码器层中掩码多头注意力网络层的输出作为其两个输入，计算公式如下：

MultiHead(X，Y)＝Concat(head₁，…，head_h)W^O

head_i＝Attention(Q_i，K_i，V_i)

Q_i，K_i，V_i＝XW_i ^Q，YW_i ^K，YW_i ^V

最后，取解码器最终层的输出，作为线性层的输入，并经过softmax函数计算得到每一个预测字符概率分布：

其中，P(·)表示每一个预测字符的概率分布；D^L表示解码器最终层输出；

表示线性层权重矩阵；d_model表示解码器最终层输出向量矩阵的维度；|V|表示语料库字典大小；

进一步的，所述步骤(5)中，使用交叉熵损失函数，计算每一个预测字符概率分布和真实字符之间的交叉熵损失，损失函数计算如下：

其中，T表示正确文本中所包含字符数；t表示解码器当前预测第t个字符；P_t(·)表示当前预测字符概率分布；y_t表示当前预测字符对应正确字符。

本发明提供的一种基于弱化语法错误特征表示的中文语法错误更正方法，通过使用编码器中多头注意力+全连接网络和上下文注意力+全连接网络提取的字符特征表示和上下文特征表示，为待纠错文本中每一个字符学习一个弱化因子，并通过学习到的弱化因子联合字符特征表示和上下文特征表示，实现了弱化语法错误特征表示的中文语法错误更正方法，提升了基于Transformer的序列到序列神经网络模型在中文语法错误更正任务中的性能。

附图说明

图1为拼写检查(Spelling Check)+Transformer的双模型示意图；

图2为Copy-Augmented Transformer神经网络模型示意图；

图3为本发明的中文语法错误更正模型示意图；

图4为本发明的中文语法错误更正方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例一

参照图3，4所示，图3，4示出了本发明提供的一种基于弱化语法错误特征表示的中文语法错误更正方法。具体的，该方法包括：

本实施例中，每一个字符设置映射向量维度为512，；本步骤通过一个映射字典实现，将字符映射稠密的向量表示。首先建立语料文本中字符到字符向量的映射字典，将文本中各个字符映射为相应的字符编号；其次，随机初始化字符向量矩阵，每一行行号对应相应的字符编号，每一行代表一个字符向量。通过字符向量矩阵将字符编号映射为相应的字符向量。连接语料文本中各个字符的字符向量形成的数值矩阵。假设中文字符共有N个，那么字符向量矩阵可以表示为一个(N+1)×512的矩阵，除了N个字符以外，还设置一个向量表示所有没有在语料文本中出现的字符，为未知字符。

本实施例中，由编码器提取得到的每个字符特征的维度为512维，编码器层数设置为6层，编码器多头注意力模块注意力头数设置为8，编码器上下文注意力模块注意力头数设置为8，编码器所所学习到的每一个字符的弱化因子取值范围为0到1。

本实施例中，解码器层数设置为6，解码器掩码多头注意力模块注意力头数设置为8，解码器多头注意力模块注意力头数设置为8，解码器线性层输入维度设置为512，解码器线性层输出维度设置为步骤(2)中所建立词典大小。

(5)使用交叉熵损失函数，计算每一个预测字符的概率分布和真实字符之间的交叉熵损失，用反向传播算法(Back Propagation，BP)计算更新网络各层权重；

(1)将待纠错文本作为神经网络的输入；

本发明实施例一在原有应用于错误更正任务的基于Transformer的序列到序列神经网络模型上，引入了语法错误特征表示弱化机制，该弱化机制通过为待纠错文本中每一个字符学习一个弱化因子，使得在编码器所提取的待纠错文本的特征表示中，语法错误的特征信息得到抑制，提升了基于Transformer的序列到序列神经网络模型在中文语法错误更正任务中的性能。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于弱化语法错误特征表示的中文语法错误更正方法，其特征在于，所述方法包含以下步骤：

(2)将待纠错文本和正确文本的中文字符，利用相同字典，映射为向量表示，输入的待纠错文本和正确文本即数值化为每个字符向量列连接而成的数值矩阵，所述步骤(2)具体包括：2.1)随机初始化字符到字符向量编号的映射索引和字符向量矩阵；2.2)通过映射索引将字符映射为对应的字符编号；2.3)通过各个字符的字符编号取得字符向量矩阵中对应的字符向量；2.4)将字符向量连接，得到各个字符的字符向量列连接而成的数值矩阵；

(5)使用交叉熵损失函数，计算每一个预测字符的概率分布和真实字符之间的交叉熵损失，用反向传播算法(Back propagation,BP)计算更新网络各层权重。

2.如权利要求1所述的方法中，其特征在于，所述步骤(3)中，将待纠错文本数值矩阵输入编码器提取得到待纠错文本特征表示，具体包括：

(3.1)将待纠错文本数值矩阵或上层编码器层的输出输入至当前编码器层，通过多头注意力+全连接网络和上下文注意力+全连接网络分别提取得到待纠错文本中每一个字符在当前编码器层中的字符特征表示和上下文特征表示；

(3.2)将(3.1)中提取得到的字符特征表示和上下文特征表示输入至语法错误弱化模块，得到当前编码器层对待纠错文本中每一个字符的弱化因子；

(3.3)将(3.1)中提取得到的字符特征表示和上下文特征表示以及(3.2)中得到的弱化因子通过联合方程联合，得到当前编码器层的输出；

(3.4)重复(3.1)～(3.3)，得到编码器最终层的输出，并作为待纠错文本的特征表示。

3.如权利要求1所述的方法中，其特征在于，所述步骤(4)中，将待纠错文本的特征表示和正确文本的数值矩阵作为解码器的两个输入，得到每一个预测字符概率分布，具体包括：

(4.1)将正确文本的数值矩阵或上层解码器层的输出输入至当前解码器层中的掩码多头注意力网络，得到当前解码器层中掩码多头注意力网络层的输出；

(4.2)将待纠错文本的特征表示和当前解码器层中掩码多头注意力网络层的输出作为当前解码器层中多头注意力+全连接网络的两个输入，得到当前解码器层的最终输出；

(4.3)重复(4.1)～(4.2)，得到解码器最终层的输出；

(4.4)将解码器最终层的输出输入至解码器的线性层，得到线性层的输出，并经过softmax函数计算得到每一个预测字符概率分布。

4.如权利要求1所述的方法中，其特征在于，所述步骤(5)中，使用交叉熵损失函数，计算每一个预测字符概率分布和真实字符之间的交叉熵损失，损失函数计算如下：