CN111985219A

CN111985219A - 一种融合单语数据的文本语法错误纠正方法

Info

Publication number: CN111985219A
Application number: CN202010751644.XA
Authority: CN
Inventors: 朱海麒; 白明骏; 姜峰
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-24

Abstract

本发明是一种融合单语数据的文本语法错误纠正方法。本发明属于文本纠错技术领域，构建反向语法错误生成模型，并对所述反向语法错误生成模型进行训练；根据训练后的反向语法错误生成模型，对含有语法错误的文本，进行构造错误纠正平行句对；采用对抗训练反向语法错误生成模型，对错误纠正平行句对区分语法错误句子；采用对抗训练正向语法错误纠正模型，对语法错误句子进行纠正。本发明首次在back‑translation中采用sampling解码策略来构造伪“错误‑纠正”平行句对；基于对抗学习框架训练语法错误生成模型，并用其构造更真实的伪“错误‑纠正”平行语料。

Description

一种融合单语数据的文本语法错误纠正方法

技术领域

本发明涉及文本纠错技术领域，是一种融合单语数据的文本语法错误纠正方法。

背景技术

随着信息化逐步完善，大量的文本随之产生，面对海量的文本，由人工书写的文本必然会存在一些隐含的语法错误，这对传统的以人工为主的校对提出了严峻的挑战。对文本中隐含的语法错误进行纠错不光可以使得行文更为流畅且易于阅读，而且一些特殊文本，若存在语法错误或逻辑错误将会带来巨大的影响，而基于人工校对处理大量的文本显然是不现实的，这就使得文本纠错技术在近年来越来越受到关注。本专利对文本语法错误纠正方法展开详细的分析，并在此基础上完成了一种新的解决方案。

近年来，采用序列到序列学习框架的神经机器翻译方法俨然成为语法错误纠正研究的主流，神经机器翻译研究中最新的模型不断被应用到语法错误纠正任务中，并取得远超其他方法的性能。然而，受限于“错误-纠正”平行语料的规模(目前，所有可公开获取的“错误-纠正”平行句对的数量不超过200万)，拥有巨大参数空间的神经语法错误纠正模型很难被充分训练，这使得模型的泛化能力大打折扣。

一个很自然的想法是，能否人工地合成伪训练数据。然而，之前大部分工作仅关注于少数特定类型的语法错误的生成。尝试生成全部类型的语法错误，并从句子层面考虑伪数据中的语法错误多样性，是一个值得关注的问题。

发明内容

本发明为有效减轻数据稀疏问题给模型泛化带来的影响，本发明提供了一种融合单语数据的文本语法错误纠正方法，本发明提供了以下技术方案：

一种融合单语数据的文本语法错误纠正方法，包括以下步骤：

步骤1：构建反向语法错误生成模型，并对所述反向语法错误生成模型进行训练；

步骤2：根据训练后的反向语法错误生成模型，对含有语法错误的文本，进行构造错误纠正平行句对；

步骤3：采用对抗训练反向语法错误生成模型，对错误纠正平行句对区分语法错误句子；

步骤4：采用对抗训练正向语法错误纠正模型，对语法错误句子进行纠正。

优选地，所述步骤1具体为：

构建反向语法错误生成模型,所述模型输入为平行句对中书写正确的句子，输出为平行句对中含有语法错误的句子，反向语法错误生成模型采用于正向语法错误纠正模型完全相同的网络结构、学习准则以及训练方法，通过给定错误句子x＝(x₁，x₂，...，x_m)和对应的纠正句子y＝(y₁，y₂，...，y_n)，通过下式表示反向语法错误生成模型建模的加噪概率p(x|y)：

确定反向语法错误生成模型的损失函数，通过下式表示所述损失函数Loss(θ_backward)：

确定反向语法错误生成模型在训练数据上的似然，通过下式表示所述似然：

其中，x_m为源端词，y_n为目标端词，t为时间步。

优选地，所述步骤2具体为：在种子语料(X，Y)上训练反向语法错误生成模型后，翻译书写正确的文本Y_clean，得到含有语法错误的文本Y_corrupt，进而构建伪平行语料(Y_corrupt，Y_clean)，构建的伪平行语料和原始种子语料(X，Y)融合在一起，得到错误纠正平行句对(X_mixture，Y_mixture)。

优选地，通过back-translation方法将Y_clean映射到Y_corrupt。

优选地，通过Sampling解码策略进行翻译。

优选地，所述步骤3具体为：

采用对抗训练反向语法错误生成模型，对错误纠正平行句对区分语法错误句子，所述对抗训练反向语法错误生成模型由一个生成器和一个判别器构成，所述生成器为神经语法错误纠正模型，是一个采用序列到序列框架的编码器和解码器模型，所述判别器是一个基于卷积神经网络的二分类模型，判别器区分一个纠正句子是由人类书写还是由生成器生成；

生成器在生成纠正句子的每一个时间步，基于随机策略采取动作，即生成一个词，在生成一个完整的纠正句子后，将完整的纠正句子和对应的源端错误句子一起作为判别器的输入，判别器将错误-纠正句对在是否由人工标注，并输出概率值作为奖励反馈给生成器，强化学习的优化目标，对错误纠正平行句对区分语法错误句子。

优选地，所述步骤4具体为：采用对抗训练正向语法错误纠正模型，对语法错误句子进行纠正给定错误纠正，根据种子语料(X，Y),一个生成器G，G的参数用θ表示，给定源端错误句子x＝(x₁，x₂，...，x_m),x_m∈X,X为源端词表，生成器生成纠正句子y＝(y₁，y₂，…，y_n),y_n∈Y，Y为目标端词表；

在时间步t，状态s定义为生成器当前已经产生的前缀序列(y₁，y₂，...，y_t-1)，动作a定义为生成下一个词y_t，将生成器作为是一个随机的策略模型，所述策略模型的状态转移是确定性的，采取某一动作时，a＝y_t，由当前状态s＝y_1：t-1转移到下一状态s'＝y_1：t的概率为1；

在采用对抗训练正向语法错误生成模型中，额外训练一个判别器D来引导生成器的学习，判别器输出平行句对(x，y)为人工标注的概率，使用策略梯度方法更新生成器的参数，在对抗训练时，优化目标时最大化期望奖励，对语法错误句子进行纠正给定错误纠正。

本发明具有以下有益效果：

本发明使用back-translation方法来缓解语法错误纠正面临的数据稀疏问题。为了提高生成的伪错误句子中的语法错误多样性，在back-translation阶段使用sampling解码策略。对比了采用不同解码策略合成的伪数据给训练正向语法错误纠正模型带来的影响，并证实采用sampling解码优于greedy search。更进一步地，使用一种对抗学习框架，提升反向语法错误生成模型的“犯错”能力，从而构造更真实的伪“错误-纠正”平行句对。细分析了合成的伪“错误-纠正”平行句对，发现，在一定程度上，使用对抗学习框架能帮助反向模型生成更真实的语法错误。在CoNLL-2014Test Set和JFLEG Test Set上的实验结果表明，本专利提出的数据增强方法能有效减轻数据稀疏问题给模型泛化带来的影响。

本发明首次在back-translation中采用sampling解码策略来构造伪“错误-纠正”平行句对；基于对抗学习框架训练语法错误生成模型，并用其构造更真实的伪“错误-纠正”平行语料。

附图说明

图1为本发明对抗学习框架图。

具体实施方式

以下结合具体实施例，对本发明进行了详细说明。

具体实施例一：

本发明提供一种融合单语数据的文本语法错误纠正方法，具体为：

所述步骤1具体为：

其中，x_m为源端词，y_n为目标端词，t为时间步。

所述步骤2具体为：在种子语料(X，Y)上训练反向语法错误生成模型后，翻译书写正确的文本Y_clean，得到含有语法错误的文本Y_corrupt，进而构建伪平行语料(Y_corrupt，Y_clean)，构建的伪平行语料和原始种子语料(X，Y)融合在一起，得到错误纠正平行句对(X_mixture，Y_mixture)。

通过back-translation方法将Y_clean映射到Y_corrupt。

通过Sampling解码策略进行翻译。

所述步骤3具体为：

所述步骤4具体为：采用对抗训练正向语法错误纠正模型，对语法错误句子进行纠正给定错误纠正，根据种子语料(X，Y),一个生成器G，G的参数用θ表示，给定源端错误句子x＝(x₁，x₂，...，x_m),x_m∈X,X为源端词表，生成器生成纠正句子y＝(y₁，y₂，...，y_n),y_n∈Y，Y为目标端词表；

具体实施例2：

本发明使用神经机器翻译中的back-translation方法来合成伪数据。

首先，利用种子语料训练一个反向语法错误生成模型，

在训练时，该模型的源端输入为“错误-纠正”平行句对中书写正确的纠正句子，目标端输出是平行句对中含语法错误的句子，

一旦训练完成，便可以使用该反向模型将海量书写正确的文本“翻译”成含有语法错误的文本，进而构造伪“错误-纠正”平行句对。

在过去的研究中表明，在反向模型的解码阶段，若直接采用Beam Search策略，在生成的伪源端错误句子中将缺乏足够的语法错误多样性。不同于过去研究中使用加噪的Beam Search解码策略来引入更多的语法错误，首先，本发明直接使用Sampling解码策略，并证实以此构造的伪平行句对中包含足够的语法错误多样性，能有效促进正向语法错误纠正模型的训练；

在这一基础上，本发明进一步使用对抗训练反向语法错误生成模型，通过让反向模型输出的伪错误句子与人类语言学习者书写的错误句子难以区分，本发明反向模型将能在生成的伪错误句子中引入更多、更真实的语法错误，进而帮助后续正向语法错误纠正模型的训练。

后续，本发明采用对抗训练正向语法错误纠正模型，通过使用对抗训练反向语法错误生成模型构造的“错误-纠正”平行句对，可以在原有基础上提高语法错误纠正的准确性。

目前，“错误-纠正”平行语料的规模是限制神经语法错误纠正系统性能的主要瓶颈。为了获取更多平行句对来训练正向语法错误纠正模型，本发明对书写正确的文本Y_clean施加“噪声”，得到带噪声(语法错误)的文本Y_corrupt，进而构建伪平行语料(Y_corrupt，Y_clean)。之后，将合成的伪平行语料和原始种子语料(X，Y)合在一起(称之为混合语料，记作(X_mixture，Y_mixture))，训练正向语法错误纠正模型。对于将Y_clean映射到Y_corrupt的加噪过程，本发明使用back-translation方法。

使用“错误-纠正”平行语料训练基本的神经语法错误生成模型，模型输入为平行句对中书写正确的句子，输出为句对中含有语法错误的句子，反向语法错误生成模型采用于正向语法错误纠正模型完全相同的网络结构、学习准则以及训练方法。

给定错误句子x＝(x₁，x₂，...，x_m)和对应的纠正句子y＝(y₁，y₂，...，y_n)，反向模型建模“加噪”概率：

模型损失函数定义为：

学习目标是最大化模型再训练数据上的似然，

在种子语料(X，Y)上训练好语法错误生成模型后，用其“翻译”书写正确的文本Y_clean，得到含有语法错误的文本Y_corrupt，进而构建伪平行语料(Y_corrupt，Y_clean)。

面向语法错误多样性的back-translation，在机器翻译中使用back-translation数据增强方法生成伪源语言句子时，一般采用greedy search或者beam search解码。然而，在本发明中发现，采用sampling或者加噪的beam search解码能取得更好的效果。对于该现象的一种解释是，在构造伪平行句对时，greedy search或者beam search解码生成的伪源语言句子缺乏足够的多样性，切无法全面地呈现反向模型建模的概率分布P(Source|Target)。相比之下，采用sampling或者加噪的beam search解码能在生成的伪源语言句子中引入更多的多样性，从而为后续正向模型的学习提供更强的训练信号。

面向语法错误纠正的“错误-纠正”平行语料，其源端错误句子和目标端纠正句子往往存在大量的重复，这是因为，在通常情况下，语法错误只涉及句子中的少数词。使用具有这种特性的语料进行训练，模型往往趋于“保守”，无论是正向语法错误纠正模型，还是反向语法错误生成模型。若在使用back-translation方法合成伪数据时，反向模型采用greedy search或者beam search解码策略，那么，在生成的伪错误句子中，只会包含极少的语法错误，这样构造出的伪平行句对将只能提供微弱的训练信号。实际上，在早期的实验中发现，若采用这两种解码策略，在反向模型输出的伪错误句子中，有相当一部分和输入的书写正确的句子完全相同。受神经对话生成研究的启发，在做back-translation时，采用加噪的beam search解码来生成伪错误句子，并证实有效。采用sampling解码构造的伪平行句对同样能为正向语法错误纠正模型的学习带来帮助，且效果比greedy search和beam search这两种解码策略更好。

语法错误纠正模型的对抗学习框架如图1所示，整个生成对抗网络由一个生成器和一个判别器构成，生成器即为神经语法错误纠正模型，是一个采用序列到序列框架的编码器-解码器模型，判别器是一个基于卷积神经网络的二分类模型，其负责区分一个纠正句子是由人类书写还是由生成器生成。本发明从强化学习的视角来看待对抗学习的过程，将生成器看成是一个参数化的随机策略，在生成纠正句子的每一个时间步，智能体基于该随机策略采取动作(即生成一个词)，在生成一个完整的纠正句子后，将其和对应的源端错误句子一起作为判别器的输入，判别器将该“错误-纠正”句对在多大程度上是人工标注，并输出具体的概率值作为奖励反馈给生成器，强化学习的优化目标是，智能体基于判别器的反馈调整策略(更新生成器参数)，以便获取的期望奖励最大化。

形式化地，给定“错误-纠正”平行语料(X，Y),要训练一个生成器G，G的参数用θ表示，给定源端错误句子x＝(x₁，x₂，…，x_m),x_i∈X,X为源端词表，生成器生成纠正句子y＝(y₁，y₂，...，y_n),y_i∈Y，Y为目标端词表。本发明使用强化学习的术语来描述整个过程，在时间步t，状态s定义为生成器当前已经产生的前缀序列(y₁，y₂，...，y_t-1)，动作a定义为生成下一个词y_t，将生成器看成是一个随机的策略模型，但其状态转移是确定性的，即，一旦采取某一动作a＝y_t，由当前状态s＝y_1：t-1转移到下一状态s'＝y_1：t的概率为1。

在对抗学习框架中，本发明额外训练一个判别器D来引导生成器的学习，判别器输出平行句对(x，y)为人工标注的概率，本发明使用策略梯度方法更新生成器的参数，对抗训练时，优化目标时最大化期望奖励。

对抗学习框架训练算法如表1所示：

表1对抗学习框架中的训练算法

语法错误纠正中对抗增强的back-translation，使用生成对抗网络和强化学习方法提升神经语法错误生成模型的能力，即让反向模型生成的伪错误句子和人类语言学习者书写的错误句子更接近，进而使用back-translation方法合成更真实的伪“错误-纠正”平行句对。

面向语法错误生成的生成对抗网络模型概述

与对抗学习框架相反，这里，对抗学习框架种的生成器为语法错误生成模型，给定一个书写正确的句子和对应的错误句子，判别器的任务是区分该错误句子是由人类语言学习者书写还是由生成器生成。对抗学习框架种使用的方法与前文完全相同，本发明同样将生成器堪称一个参数化的随机策略，智能体基于该随机策略采取动作，而判别其将对生成的错误句子给出反馈，优化目标是最大化智能体获取的期望奖励。

生成对抗网络中的生成器和判别器，这里，生成器为back-translation中的语法错误生成模型，本发明选用Transformer，在预训练语法错误生成模型时，本发明将“错误-纠正”平行语料中的源端错误句子和目标端纠正句子的位置进行了调换。生成器被用来生成伪错误句子，伪错误句子与真实书写错误句子同时作为判别器的输入。最终生成器可以产生更接近真实书写错误的句子，可以获得更多的类似真实书写错误的伪错误句子，这样可以进一步扩大正常语法错误纠正中所需要的“错误-纠正”语料对。

判别器

判别器被用来区分书写错误的句子和生成器生成的伪错误句子。在预训练时，正样本来自调换了源端错误句子X和目标端纠正句子Y的“错误-纠正”平行语料(Y，X)，负样本(Y，X')由语法错误生成模型“翻译”平行语料中书写正确的句子Y构造得到。

使用back-translation方法来缓解语法错误纠正面临的数据稀疏问题。为了提高生成的伪错误句子中的语法错误多样性，本发明在back-translation阶段使用sampling解码策略。本发明对比了采用不同解码策略合成的伪数据给训练正向语法错误纠正模型带来的影响，并证实采用sampling解码优于greedy search。更进一步地，本发明使用一种对抗学习框架，提升反向语法错误生成模型的“犯错”能力，从而构造更真实的伪“错误-纠正”平行句对。本发明详细分析了合成的伪“错误-纠正”平行句对，发现，在一定程度上，使用本发明的对抗学习框架能帮助反向模型生成更真实的语法错误。在CoNLL-2014Test Set和JFLEG Test Set上的实验结果表明，本专利提出的数据增强方法能有效减轻数据稀疏问题给模型泛化带来的影响。

以上所述仅是一种融合单语数据的文本语法错误纠正方法的优选实施方式，一种融合单语数据的文本语法错误纠正方法的保护范围并不仅局限于上述实施例，凡属于该思路下的技术方案均属于本发明的保护范围。应当指出，对于本领域的技术人员来说，在不脱离本发明原理前提下的若干改进和变化，这些改进和变化也应视为本发明的保护范围。

Claims

1.一种融合单语数据的文本语法错误纠正方法，其特征是：包括以下步骤：

2.根据权利要求1所述的一种融合单语数据的文本语法错误纠正方法，其特征是：所述步骤1具体为：

其中，x_m为源端词，y_n为目标端词，t为时间步。

3.根据权利要求2所述的一种融合单语数据的文本语法错误纠正方法，其特征是：所述步骤2具体为：在种子语料(X，Y)上训练反向语法错误生成模型后，翻译书写正确的文本Y_clean，得到含有语法错误的文本Y_corrupt，进而构建伪平行语料(Y_corrupt，Y_clean)，构建的伪平行语料和原始种子语料(X，Y)融合在一起，得到错误纠正平行句对(X_mixture，Y_mixture)。

4.根据权利要求3所述的一种融合单语数据的文本语法错误纠正方法，其特征是：通过back-translation方法将Y_clean映射到Y_corrupt。

5.根据权利要求3所述的一种融合单语数据的文本语法错误纠正方法，其特征是：通过Sampling解码策略进行翻译。

6.根据权利要求5所述的一种融合单语数据的文本语法错误纠正方法，其特征是：所述步骤3具体为：

7.根据权利要求1所述的一种融合单语数据的文本语法错误纠正方法，其特征是：所述步骤4具体为：采用对抗训练正向语法错误纠正模型，对语法错误句子进行纠正给定错误纠正，根据种子语料(X，Y),一个生成器G，G的参数用θ表示，给定源端错误句子x＝(x₁，x₂，...，x_m),x_m∈X,X为源端词表，生成器生成纠正句子y＝(y₁，y₂，...，y_n),y_n∈Y，Y为目标端词表；