CN111062205B

CN111062205B - 一种中文自动语法纠错中的动态掩码训练方法

Info

Publication number: CN111062205B
Application number: CN201911292849.XA
Authority: CN
Inventors: 王厚峰; 赵泽伟
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2021-10-01
Anticipated expiration: 2039-12-16
Also published as: CN111062205A

Abstract

本发明提供一种中文自动语法纠错的动态掩码训练方法，属于自然语言处理领域。本发明引入了多种基于词替换的加噪模式，提出了一种混合加噪模式来更好地利用已有标注数据，提升模型泛化能力和健壮性；且利用动态掩码机制来避免静态掩码机制重复产生样例的缺陷，进一步提升语法纠错效果。在得到经过动态掩码的源端的错误句子后，将其与原本的目标端的正确句子组成新的训练样例，进行字级别的序列到序列模型的训练。本发明通过不同的加噪模式引入多种噪声信息，增加神经网络模型的泛化能力，缓解中文语法纠错领域数据稀缺的问题，提升了中文自动语法纠错模型的训练效果。

Description

一种中文自动语法纠错中的动态掩码训练方法

技术领域

本发明属于自然语言处理领域，具体涉及一种对中文自动语法纠错中训练神经网络模型的动态掩码方法。

背景技术

自动语法纠错有着很广阔的应用场景，比如外语学习、公文纠错等等。在语法纠错系统中，用户输入一个可能含有错误的自然语言句子，系统输出更正后的句子。

把含有错误的句子视为源语言，改正后的句子视为目标语言，那么语法纠错的过程可以视为一个翻译的过程。系统将有错的句子(语言片段)转换为正确的句子(片段)过程，是通过编码器将(有错误的)源句子中的信息编码，再通过解码器解码成(没有错误的)目标句子而成的，即“序列到序列”模型。

序列到序列模型的训练需要大量的数据。现有的监督式方法通常依赖有标注的数据，而要获得高质量的数据需要花费大量的人力物力。然而在现实中，自动语法纠错，尤其是中文领域的数据量相当有限，严重限制了神经网络模型的性能，这也使得目前的中文语法纠错模型普遍性能不佳。

发明内容

本发明的目的在于提供一种中文自动语法纠错中的动态掩码训练方法，用于提升中文自动语法纠错模型的训练效果。

本发明提供的中文自动语法纠错中的动态掩码训练方法，在序列到序列模型的源端加入动态掩码机制，在模型训练过程中产生多样化的噪声句对，增强编码器和解码器的泛化能力。具体流程如图1所示。

具体技术方案如下：

A.中文自动语法纠错中的动态掩码训练，即根据词替换方法进行源端训练语句的掩码，其作用是提升语法纠错模型的泛化能力。具体为：

A1.对于中文自动语法纠错中动态掩码训练的掩码任务，定义四大类词替换模式。定义四大类词替换模式：

模式1(空白替换)：源句子中的每一个词，都按照一定的概率被选中，并被替换为一个特殊的空白符号。

模式2(随机替换)：选择被替换词的过程与模式1相同，但是改从词汇表中按照均匀分布随机选择一个词进行替换。

模式3(词频替换)：选择被替换词和替换词的过程与模式2基本相同，但是从词汇表中选词时改为按照词频分布选择替换词。

模式4(同音替换)：选择被替换词和替换词的过程与模式3基本相同，但是选择替换词的范围从完整的词汇表改为同音词的词汇表。

A2.模型在纠错语句的字级别层面上对语法信息进行编码，并据此生成语法纠错结果。模型使用一个编码器和一个解码器来模拟语义信息的抽取和还原：字级别的编码器用来表示每一个待纠错的句子，解码器则负责根据抽取的语义信息按照正确的语法还原成自然语言。字级别的编码器以加了动态掩码的错误句子作为输入，学习句子的向量表示。而解码器则将编码器学习到的句子向量作为初始状态，以上一个时刻解码器的输出作为当前时刻的输入，输出目标句子到当前时刻为止的隐状态，并通过束搜索方法得到当前时刻生成的词。

B.模型使用一个均匀分布来进行词替换模式的选择，在神经网络模型训练的每一个批次，等概率地从A1中四种替换模式和不进行替换的模式中选择。混合替换模式可以将多种基本词例替换模式结合，生成更多样化的噪声样例。使用一个均匀分布采样决定当前批次使用的基本替换模式，也可能不进行替换。这样对于同一训练样本，在不同轮次中可能采用不同的掩码模式。在增加训练用例的丰富性的同时，又保留了原有标注数据，达到了增强模型泛化能力的效果。

C.利用动态生成的加噪源句子和目标句子进行自然语言的语法错误纠正。

C1.本发明使用序列到序列的方法来为中文句子进行语法纠错。模型将经过掩码后的源句子输入到编码器中，依次将语句中的每个字转换为随机初始化的字向量，由编码器学习出一个向量作为句子的语义表示。在得到上述句子表示后，最终采用束搜索方法进行语法正确句子的生成，从而得到更加完善的纠错结果。

C2.在训练的过程中动态生成掩码，不同轮次的掩码各自独立。模型训练过程中输入源句子到加噪器中，加噪器随机按照某个替换模式对源端(含错)语句进行掩码，每一个训练轮次的掩码各自独立，故相比于预处理阶段就生成若干固定掩码的做法，本发明提出的掩码过程是动态的。

本发明使用不同的词例替换模式对源句子进行动态掩码，根据加噪后的源句子和原本的目标句子组成的噪声句对进行神经网络模型训练，使用基于字的序列到序列模型进行自动语法纠错。本发明在序列到序列模型的源端加入动态掩码机制，在模型训练过程中产生多样化的噪声句对，增强编码器和解码器的泛化能力。除此之外，本发明还将多种替换模式结合为混合模式，进一步提升噪声句对的丰富性。在得到当前的被动态掩码过的源句子后，本发明根据此源句子和原本的目标句子，对自动语法纠错模型进行参数更新。

附图说明

图1本发明中文自动语法纠错中的动态掩码训练方法的流程图；

图2本发明所述动态掩码过程的示意图；

图3本发明所述动态掩码训练方法的操作示意图。

具体实施方式

下面通过实例对本发明做进一步的说明。

参考图2，假定有一个已标注的由含有语法错误的句子X和相应改正后句子Y组成的平行语料库S。在模型Θ训练的第t个轮次，令当前轮次的训练集为S^(t)，对于S中的每一个(X,Y)句对，动态加噪模块选定当前的替换方法f。若替换模式为空白、随机、词频、同音这四种替换模式，则加噪时的替换方法固定为相应模式；若替换模式为混合模式，则按照相同概率从这四种替换模式和不进行替换的模式之中随机确定当前的替换方法。将替换方法f应用到X上，得到噪声句对

经过动态掩码后的源句子

如下面式子所示：

其中m为源句子X的长度。

的第i个词由下式给出：

其中p为由[0.0,1.0]区间的均匀分布采样的随机值，δ是控制替换概率的阈值，δ为可调节的超参数。

将新得到的噪声句对

加到当前轮次的训练集S^(t)中，重复此过程直到S中所有句对都经过掩码为止。最后模型Θ根据S^(t)更新参数，完成该轮训练。每一轮训练都重复此过程，直到满足训练终止条件为止。

通过序列到序列的方法来训练语法纠错模型，模型需要估计以下条件概率：

模型通过最大似然估计训练，给定输入的源句子X＝(x₁,x₂,…,x_m)，以及标注好的目标句子Y＝(y₁,y₂,…,y_n)，目标函数是以下负对数似然函数：

模型通过反向传播来进行端到端训练，使用的优化器为Adam。

参考图3，预测时，在编码器中输入源句子序列对应的词向量，由编码器得到句子表示后，传给解码器，在t时刻输入t-1时刻解码器生成的词

对应的词向量，得到t时刻的隐状态h_t。再通过softmax层得到当前时刻目标词的概率分布，利用束搜索方法确定当前生成的词y_t，束搜索的大小是可以调节的超参数。当所有的目标词都生成完毕后，即模型输出了句子结束标志，就得到了最终的语法纠错结果。

本发明所涉及的技术不限于上文所提到的中文纠错问题。凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均属于本发明技术方案保护的范围内。

Claims

1.一种中文自动语法纠错中的动态掩码训练方法，其步骤包括：

A. 根据词替换方法进行源端训练语句的掩码，包括：

A1. 定义四大类词替换模式，分别为空白替换、随机替换、词频替换和同音替换；

A2. 模型在纠错语句的字级别层面上对语法信息进行编码，并据此生成语法纠错结果；

B. 根据混合方法进行源端训练语句的掩码，包括：

B1. 模型使用一个均匀分布来进行词替换模式的选择，在神经网络模型训练的每一个批次，等概率地从A1中四种替换模式和不进行替换的模式中选择；

C. 利用动态生成的加噪源句子和目标句子进行自然语言的语法错误纠正，包括：

C1. 使用序列到序列的方法来为中文句子进行语法纠错，具体为，将经过掩码后的源句子输入到编码器中，依次将语句中的每个字转换为随机初始化的字向量，由编码器学习出一个向量作为句子的语义表示；

C2. 在训练的过程中动态生成掩码，不同轮次的掩码各自独立，具体为，模型训练过程中输入源句子到加噪器中，加噪器随机按照某个替换模式对源端语句进行掩码，每一个训练轮次的掩码各自独立。

2.如权利要求1所述的中文自动语法纠错中的动态掩码训练方法，其特征是，步骤A1中空白替换模式具体为：源句子中的每一个词，都按照设定的概率被选中，并被替换为一个空白符号。

3.如权利要求2所述的中文自动语法纠错中的动态掩码训练方法，其特征是，步骤A1中随机替换模式具体为：选择被替换词的过程与空白替换模式相同，但是改从词汇表中按照均匀分布随机选择一个词进行替换。

4.如权利要求3所述的中文自动语法纠错中的动态掩码训练方法，其特征是，步骤A1中词频替换模式具体为：选择被替换词和替换词的过程与随机替换模式相同，但是从词汇表中选词改为按照词频分布选择替换词。

5.如权利要求4所述的中文自动语法纠错中的动态掩码训练方法，其特征是，步骤A1中同音替换模式具体为：选择被替换词和替换词的过程与词频替换模式相同，但是选择替换词的范围从完整的词汇表改为同音词的词汇表。

6.如权利要求1所述的中文自动语法纠错中的动态掩码训练方法，其特征是，步骤A2具体为：使用一个编码器和一个解码器来模拟语义信息的抽取和还原：字级别的编码器以加了动态掩码的错误句子作为输入，学习句子的向量表示；而解码器则将编码器学习到的句子向量作为初始状态，以上一个时刻解码器的输出作为当前时刻的输入，输出目标句子到当前时刻为止的隐状态，并通过束搜索方法得到当前时刻生成的词。