CN111985219A - 一种融合单语数据的文本语法错误纠正方法 - Google Patents
一种融合单语数据的文本语法错误纠正方法 Download PDFInfo
- Publication number
- CN111985219A CN111985219A CN202010751644.XA CN202010751644A CN111985219A CN 111985219 A CN111985219 A CN 111985219A CN 202010751644 A CN202010751644 A CN 202010751644A CN 111985219 A CN111985219 A CN 111985219A
- Authority
- CN
- China
- Prior art keywords
- sentence
- error
- grammar error
- grammar
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000013519 translation Methods 0.000 claims abstract description 23
- 238000005070 sampling Methods 0.000 claims abstract description 13
- 230000009471 action Effects 0.000 claims description 13
- 230000003042 antagnostic effect Effects 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 230000001537 neural effect Effects 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 7
- 230000002787 reinforcement Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 238000013145 classification model Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000011160 research Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 2
- 230000001915 proofreading effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明是一种融合单语数据的文本语法错误纠正方法。本发明属于文本纠错技术领域,构建反向语法错误生成模型,并对所述反向语法错误生成模型进行训练;根据训练后的反向语法错误生成模型,对含有语法错误的文本,进行构造错误纠正平行句对;采用对抗训练反向语法错误生成模型,对错误纠正平行句对区分语法错误句子;采用对抗训练正向语法错误纠正模型,对语法错误句子进行纠正。本发明首次在back‑translation中采用sampling解码策略来构造伪“错误‑纠正”平行句对;基于对抗学习框架训练语法错误生成模型,并用其构造更真实的伪“错误‑纠正”平行语料。
Description
技术领域
本发明涉及文本纠错技术领域,是一种融合单语数据的文本语法错误纠正方法。
背景技术
随着信息化逐步完善,大量的文本随之产生,面对海量的文本,由人工书写的文本必然会存在一些隐含的语法错误,这对传统的以人工为主的校对提出了严峻的挑战。对文本中隐含的语法错误进行纠错不光可以使得行文更为流畅且易于阅读,而且一些特殊文本,若存在语法错误或逻辑错误将会带来巨大的影响,而基于人工校对处理大量的文本显然是不现实的,这就使得文本纠错技术在近年来越来越受到关注。本专利对文本语法错误纠正方法展开详细的分析,并在此基础上完成了一种新的解决方案。
近年来,采用序列到序列学习框架的神经机器翻译方法俨然成为语法错误纠正研究的主流,神经机器翻译研究中最新的模型不断被应用到语法错误纠正任务中,并取得远超其他方法的性能。然而,受限于“错误-纠正”平行语料的规模(目前,所有可公开获取的“错误-纠正”平行句对的数量不超过200万),拥有巨大参数空间的神经语法错误纠正模型很难被充分训练,这使得模型的泛化能力大打折扣。
一个很自然的想法是,能否人工地合成伪训练数据。然而,之前大部分工作仅关注于少数特定类型的语法错误的生成。尝试生成全部类型的语法错误,并从句子层面考虑伪数据中的语法错误多样性,是一个值得关注的问题。
发明内容
本发明为有效减轻数据稀疏问题给模型泛化带来的影响,本发明提供了一种融合单语数据的文本语法错误纠正方法,本发明提供了以下技术方案:
一种融合单语数据的文本语法错误纠正方法,包括以下步骤:
步骤1:构建反向语法错误生成模型,并对所述反向语法错误生成模型进行训练;
步骤2:根据训练后的反向语法错误生成模型,对含有语法错误的文本,进行构造错误纠正平行句对;
步骤3:采用对抗训练反向语法错误生成模型,对错误纠正平行句对区分语法错误句子;
步骤4:采用对抗训练正向语法错误纠正模型,对语法错误句子进行纠正。
优选地,所述步骤1具体为:
构建反向语法错误生成模型,所述模型输入为平行句对中书写正确的句子,输出为平行句对中含有语法错误的句子,反向语法错误生成模型采用于正向语法错误纠正模型完全相同的网络结构、学习准则以及训练方法,通过给定错误句子x=(x1,x2,...,xm)和对应的纠正句子y=(y1,y2,...,yn),通过下式表示反向语法错误生成模型建模的加噪概率p(x|y):
确定反向语法错误生成模型的损失函数,通过下式表示所述损失函数Loss(θbackward):
确定反向语法错误生成模型在训练数据上的似然,通过下式表示所述似然:
其中,xm为源端词,yn为目标端词,t为时间步。
优选地,所述步骤2具体为:在种子语料(X,Y)上训练反向语法错误生成模型后,翻译书写正确的文本Yclean,得到含有语法错误的文本Ycorrupt,进而构建伪平行语料(Ycorrupt,Yclean),构建的伪平行语料和原始种子语料(X,Y)融合在一起,得到错误纠正平行句对(Xmixture,Ymixture)。
优选地,通过back-translation方法将Yclean映射到Ycorrupt。
优选地,通过Sampling解码策略进行翻译。
优选地,所述步骤3具体为:
采用对抗训练反向语法错误生成模型,对错误纠正平行句对区分语法错误句子,所述对抗训练反向语法错误生成模型由一个生成器和一个判别器构成,所述生成器为神经语法错误纠正模型,是一个采用序列到序列框架的编码器和解码器模型,所述判别器是一个基于卷积神经网络的二分类模型,判别器区分一个纠正句子是由人类书写还是由生成器生成;
生成器在生成纠正句子的每一个时间步,基于随机策略采取动作,即生成一个词,在生成一个完整的纠正句子后,将完整的纠正句子和对应的源端错误句子一起作为判别器的输入,判别器将错误-纠正句对在是否由人工标注,并输出概率值作为奖励反馈给生成器,强化学习的优化目标,对错误纠正平行句对区分语法错误句子。
优选地,所述步骤4具体为:采用对抗训练正向语法错误纠正模型,对语法错误句子进行纠正给定错误纠正,根据种子语料(X,Y),一个生成器G,G的参数用θ表示,给定源端错误句子x=(x1,x2,...,xm),xm∈X,X为源端词表,生成器生成纠正句子y=(y1,y2,…,yn),yn∈Y,Y为目标端词表;
在时间步t,状态s定义为生成器当前已经产生的前缀序列(y1,y2,...,yt-1),动作a定义为生成下一个词yt,将生成器作为是一个随机的策略模型,所述策略模型的状态转移是确定性的,采取某一动作时,a=yt,由当前状态s=y1:t-1转移到下一状态s'=y1:t的概率为1;
在采用对抗训练正向语法错误生成模型中,额外训练一个判别器D来引导生成器的学习,判别器输出平行句对(x,y)为人工标注的概率,使用策略梯度方法更新生成器的参数,在对抗训练时,优化目标时最大化期望奖励,对语法错误句子进行纠正给定错误纠正。
本发明具有以下有益效果:
本发明使用back-translation方法来缓解语法错误纠正面临的数据稀疏问题。为了提高生成的伪错误句子中的语法错误多样性,在back-translation阶段使用sampling解码策略。对比了采用不同解码策略合成的伪数据给训练正向语法错误纠正模型带来的影响,并证实采用sampling解码优于greedy search。更进一步地,使用一种对抗学习框架,提升反向语法错误生成模型的“犯错”能力,从而构造更真实的伪“错误-纠正”平行句对。细分析了合成的伪“错误-纠正”平行句对,发现,在一定程度上,使用对抗学习框架能帮助反向模型生成更真实的语法错误。在CoNLL-2014Test Set和JFLEG Test Set上的实验结果表明,本专利提出的数据增强方法能有效减轻数据稀疏问题给模型泛化带来的影响。
本发明首次在back-translation中采用sampling解码策略来构造伪“错误-纠正”平行句对;基于对抗学习框架训练语法错误生成模型,并用其构造更真实的伪“错误-纠正”平行语料。
附图说明
图1为本发明对抗学习框架图。
具体实施方式
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
本发明提供一种融合单语数据的文本语法错误纠正方法,具体为:
一种融合单语数据的文本语法错误纠正方法,包括以下步骤:
步骤1:构建反向语法错误生成模型,并对所述反向语法错误生成模型进行训练;
所述步骤1具体为:
构建反向语法错误生成模型,所述模型输入为平行句对中书写正确的句子,输出为平行句对中含有语法错误的句子,反向语法错误生成模型采用于正向语法错误纠正模型完全相同的网络结构、学习准则以及训练方法,通过给定错误句子x=(x1,x2,...,xm)和对应的纠正句子y=(y1,y2,...,yn),通过下式表示反向语法错误生成模型建模的加噪概率p(x|y):
确定反向语法错误生成模型的损失函数,通过下式表示所述损失函数Loss(θbackward):
确定反向语法错误生成模型在训练数据上的似然,通过下式表示所述似然:
其中,xm为源端词,yn为目标端词,t为时间步。
步骤2:根据训练后的反向语法错误生成模型,对含有语法错误的文本,进行构造错误纠正平行句对;
所述步骤2具体为:在种子语料(X,Y)上训练反向语法错误生成模型后,翻译书写正确的文本Yclean,得到含有语法错误的文本Ycorrupt,进而构建伪平行语料(Ycorrupt,Yclean),构建的伪平行语料和原始种子语料(X,Y)融合在一起,得到错误纠正平行句对(Xmixture,Ymixture)。
通过back-translation方法将Yclean映射到Ycorrupt。
通过Sampling解码策略进行翻译。
步骤3:采用对抗训练反向语法错误生成模型,对错误纠正平行句对区分语法错误句子;
所述步骤3具体为:
采用对抗训练反向语法错误生成模型,对错误纠正平行句对区分语法错误句子,所述对抗训练反向语法错误生成模型由一个生成器和一个判别器构成,所述生成器为神经语法错误纠正模型,是一个采用序列到序列框架的编码器和解码器模型,所述判别器是一个基于卷积神经网络的二分类模型,判别器区分一个纠正句子是由人类书写还是由生成器生成;
生成器在生成纠正句子的每一个时间步,基于随机策略采取动作,即生成一个词,在生成一个完整的纠正句子后,将完整的纠正句子和对应的源端错误句子一起作为判别器的输入,判别器将错误-纠正句对在是否由人工标注,并输出概率值作为奖励反馈给生成器,强化学习的优化目标,对错误纠正平行句对区分语法错误句子。
步骤4:采用对抗训练正向语法错误纠正模型,对语法错误句子进行纠正。
所述步骤4具体为:采用对抗训练正向语法错误纠正模型,对语法错误句子进行纠正给定错误纠正,根据种子语料(X,Y),一个生成器G,G的参数用θ表示,给定源端错误句子x=(x1,x2,...,xm),xm∈X,X为源端词表,生成器生成纠正句子y=(y1,y2,...,yn),yn∈Y,Y为目标端词表;
在时间步t,状态s定义为生成器当前已经产生的前缀序列(y1,y2,...,yt-1),动作a定义为生成下一个词yt,将生成器作为是一个随机的策略模型,所述策略模型的状态转移是确定性的,采取某一动作时,a=yt,由当前状态s=y1:t-1转移到下一状态s'=y1:t的概率为1;
在采用对抗训练正向语法错误生成模型中,额外训练一个判别器D来引导生成器的学习,判别器输出平行句对(x,y)为人工标注的概率,使用策略梯度方法更新生成器的参数,在对抗训练时,优化目标时最大化期望奖励,对语法错误句子进行纠正给定错误纠正。
具体实施例2:
本发明使用神经机器翻译中的back-translation方法来合成伪数据。
首先,利用种子语料训练一个反向语法错误生成模型,
在训练时,该模型的源端输入为“错误-纠正”平行句对中书写正确的纠正句子,目标端输出是平行句对中含语法错误的句子,
一旦训练完成,便可以使用该反向模型将海量书写正确的文本“翻译”成含有语法错误的文本,进而构造伪“错误-纠正”平行句对。
在过去的研究中表明,在反向模型的解码阶段,若直接采用Beam Search策略,在生成的伪源端错误句子中将缺乏足够的语法错误多样性。不同于过去研究中使用加噪的Beam Search解码策略来引入更多的语法错误,首先,本发明直接使用Sampling解码策略,并证实以此构造的伪平行句对中包含足够的语法错误多样性,能有效促进正向语法错误纠正模型的训练;
在这一基础上,本发明进一步使用对抗训练反向语法错误生成模型,通过让反向模型输出的伪错误句子与人类语言学习者书写的错误句子难以区分,本发明反向模型将能在生成的伪错误句子中引入更多、更真实的语法错误,进而帮助后续正向语法错误纠正模型的训练。
后续,本发明采用对抗训练正向语法错误纠正模型,通过使用对抗训练反向语法错误生成模型构造的“错误-纠正”平行句对,可以在原有基础上提高语法错误纠正的准确性。
目前,“错误-纠正”平行语料的规模是限制神经语法错误纠正系统性能的主要瓶颈。为了获取更多平行句对来训练正向语法错误纠正模型,本发明对书写正确的文本Yclean施加“噪声”,得到带噪声(语法错误)的文本Ycorrupt,进而构建伪平行语料(Ycorrupt,Yclean)。之后,将合成的伪平行语料和原始种子语料(X,Y)合在一起(称之为混合语料,记作(Xmixture,Ymixture)),训练正向语法错误纠正模型。对于将Yclean映射到Ycorrupt的加噪过程,本发明使用back-translation方法。
使用“错误-纠正”平行语料训练基本的神经语法错误生成模型,模型输入为平行句对中书写正确的句子,输出为句对中含有语法错误的句子,反向语法错误生成模型采用于正向语法错误纠正模型完全相同的网络结构、学习准则以及训练方法。
给定错误句子x=(x1,x2,...,xm)和对应的纠正句子y=(y1,y2,...,yn),反向模型建模“加噪”概率:
模型损失函数定义为:
学习目标是最大化模型再训练数据上的似然,
在种子语料(X,Y)上训练好语法错误生成模型后,用其“翻译”书写正确的文本Yclean,得到含有语法错误的文本Ycorrupt,进而构建伪平行语料(Ycorrupt,Yclean)。
面向语法错误多样性的back-translation,在机器翻译中使用back-translation数据增强方法生成伪源语言句子时,一般采用greedy search或者beam search解码。然而,在本发明中发现,采用sampling或者加噪的beam search解码能取得更好的效果。对于该现象的一种解释是,在构造伪平行句对时,greedy search或者beam search解码生成的伪源语言句子缺乏足够的多样性,切无法全面地呈现反向模型建模的概率分布P(Source|Target)。相比之下,采用sampling或者加噪的beam search解码能在生成的伪源语言句子中引入更多的多样性,从而为后续正向模型的学习提供更强的训练信号。
面向语法错误纠正的“错误-纠正”平行语料,其源端错误句子和目标端纠正句子往往存在大量的重复,这是因为,在通常情况下,语法错误只涉及句子中的少数词。使用具有这种特性的语料进行训练,模型往往趋于“保守”,无论是正向语法错误纠正模型,还是反向语法错误生成模型。若在使用back-translation方法合成伪数据时,反向模型采用greedy search或者beam search解码策略,那么,在生成的伪错误句子中,只会包含极少的语法错误,这样构造出的伪平行句对将只能提供微弱的训练信号。实际上,在早期的实验中发现,若采用这两种解码策略,在反向模型输出的伪错误句子中,有相当一部分和输入的书写正确的句子完全相同。受神经对话生成研究的启发,在做back-translation时,采用加噪的beam search解码来生成伪错误句子,并证实有效。采用sampling解码构造的伪平行句对同样能为正向语法错误纠正模型的学习带来帮助,且效果比greedy search和beam search这两种解码策略更好。
语法错误纠正模型的对抗学习框架如图1所示,整个生成对抗网络由一个生成器和一个判别器构成,生成器即为神经语法错误纠正模型,是一个采用序列到序列框架的编码器-解码器模型,判别器是一个基于卷积神经网络的二分类模型,其负责区分一个纠正句子是由人类书写还是由生成器生成。本发明从强化学习的视角来看待对抗学习的过程,将生成器看成是一个参数化的随机策略,在生成纠正句子的每一个时间步,智能体基于该随机策略采取动作(即生成一个词),在生成一个完整的纠正句子后,将其和对应的源端错误句子一起作为判别器的输入,判别器将该“错误-纠正”句对在多大程度上是人工标注,并输出具体的概率值作为奖励反馈给生成器,强化学习的优化目标是,智能体基于判别器的反馈调整策略(更新生成器参数),以便获取的期望奖励最大化。
形式化地,给定“错误-纠正”平行语料(X,Y),要训练一个生成器G,G的参数用θ表示,给定源端错误句子x=(x1,x2,…,xm),xi∈X,X为源端词表,生成器生成纠正句子y=(y1,y2,...,yn),yi∈Y,Y为目标端词表。本发明使用强化学习的术语来描述整个过程,在时间步t,状态s定义为生成器当前已经产生的前缀序列(y1,y2,...,yt-1),动作a定义为生成下一个词yt,将生成器看成是一个随机的策略模型,但其状态转移是确定性的,即,一旦采取某一动作a=yt,由当前状态s=y1:t-1转移到下一状态s'=y1:t的概率为1。
在对抗学习框架中,本发明额外训练一个判别器D来引导生成器的学习,判别器输出平行句对(x,y)为人工标注的概率,本发明使用策略梯度方法更新生成器的参数,对抗训练时,优化目标时最大化期望奖励。
对抗学习框架训练算法如表1所示:
表1对抗学习框架中的训练算法
语法错误纠正中对抗增强的back-translation,使用生成对抗网络和强化学习方法提升神经语法错误生成模型的能力,即让反向模型生成的伪错误句子和人类语言学习者书写的错误句子更接近,进而使用back-translation方法合成更真实的伪“错误-纠正”平行句对。
面向语法错误生成的生成对抗网络模型概述
与对抗学习框架相反,这里,对抗学习框架种的生成器为语法错误生成模型,给定一个书写正确的句子和对应的错误句子,判别器的任务是区分该错误句子是由人类语言学习者书写还是由生成器生成。对抗学习框架种使用的方法与前文完全相同,本发明同样将生成器堪称一个参数化的随机策略,智能体基于该随机策略采取动作,而判别其将对生成的错误句子给出反馈,优化目标是最大化智能体获取的期望奖励。
生成对抗网络中的生成器和判别器,这里,生成器为back-translation中的语法错误生成模型,本发明选用Transformer,在预训练语法错误生成模型时,本发明将“错误-纠正”平行语料中的源端错误句子和目标端纠正句子的位置进行了调换。生成器被用来生成伪错误句子,伪错误句子与真实书写错误句子同时作为判别器的输入。最终生成器可以产生更接近真实书写错误的句子,可以获得更多的类似真实书写错误的伪错误句子,这样可以进一步扩大正常语法错误纠正中所需要的“错误-纠正”语料对。
判别器
判别器被用来区分书写错误的句子和生成器生成的伪错误句子。在预训练时,正样本来自调换了源端错误句子X和目标端纠正句子Y的“错误-纠正”平行语料(Y,X),负样本(Y,X')由语法错误生成模型“翻译”平行语料中书写正确的句子Y构造得到。
使用back-translation方法来缓解语法错误纠正面临的数据稀疏问题。为了提高生成的伪错误句子中的语法错误多样性,本发明在back-translation阶段使用sampling解码策略。本发明对比了采用不同解码策略合成的伪数据给训练正向语法错误纠正模型带来的影响,并证实采用sampling解码优于greedy search。更进一步地,本发明使用一种对抗学习框架,提升反向语法错误生成模型的“犯错”能力,从而构造更真实的伪“错误-纠正”平行句对。本发明详细分析了合成的伪“错误-纠正”平行句对,发现,在一定程度上,使用本发明的对抗学习框架能帮助反向模型生成更真实的语法错误。在CoNLL-2014Test Set和JFLEG Test Set上的实验结果表明,本专利提出的数据增强方法能有效减轻数据稀疏问题给模型泛化带来的影响。
以上所述仅是一种融合单语数据的文本语法错误纠正方法的优选实施方式,一种融合单语数据的文本语法错误纠正方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。
Claims (7)
1.一种融合单语数据的文本语法错误纠正方法,其特征是:包括以下步骤:
步骤1:构建反向语法错误生成模型,并对所述反向语法错误生成模型进行训练;
步骤2:根据训练后的反向语法错误生成模型,对含有语法错误的文本,进行构造错误纠正平行句对;
步骤3:采用对抗训练反向语法错误生成模型,对错误纠正平行句对区分语法错误句子;
步骤4:采用对抗训练正向语法错误纠正模型,对语法错误句子进行纠正。
2.根据权利要求1所述的一种融合单语数据的文本语法错误纠正方法,其特征是:所述步骤1具体为:
构建反向语法错误生成模型,所述模型输入为平行句对中书写正确的句子,输出为平行句对中含有语法错误的句子,反向语法错误生成模型采用于正向语法错误纠正模型完全相同的网络结构、学习准则以及训练方法,通过给定错误句子x=(x1,x2,...,xm)和对应的纠正句子y=(y1,y2,...,yn),通过下式表示反向语法错误生成模型建模的加噪概率p(x|y):
确定反向语法错误生成模型的损失函数,通过下式表示所述损失函数Loss(θbackward):
确定反向语法错误生成模型在训练数据上的似然,通过下式表示所述似然:
其中,xm为源端词,yn为目标端词,t为时间步。
3.根据权利要求2所述的一种融合单语数据的文本语法错误纠正方法,其特征是:所述步骤2具体为:在种子语料(X,Y)上训练反向语法错误生成模型后,翻译书写正确的文本Yclean,得到含有语法错误的文本Ycorrupt,进而构建伪平行语料(Ycorrupt,Yclean),构建的伪平行语料和原始种子语料(X,Y)融合在一起,得到错误纠正平行句对(Xmixture,Ymixture)。
4.根据权利要求3所述的一种融合单语数据的文本语法错误纠正方法,其特征是:通过back-translation方法将Yclean映射到Ycorrupt。
5.根据权利要求3所述的一种融合单语数据的文本语法错误纠正方法,其特征是:通过Sampling解码策略进行翻译。
6.根据权利要求5所述的一种融合单语数据的文本语法错误纠正方法,其特征是:所述步骤3具体为:
采用对抗训练反向语法错误生成模型,对错误纠正平行句对区分语法错误句子,所述对抗训练反向语法错误生成模型由一个生成器和一个判别器构成,所述生成器为神经语法错误纠正模型,是一个采用序列到序列框架的编码器和解码器模型,所述判别器是一个基于卷积神经网络的二分类模型,判别器区分一个纠正句子是由人类书写还是由生成器生成;
生成器在生成纠正句子的每一个时间步,基于随机策略采取动作,即生成一个词,在生成一个完整的纠正句子后,将完整的纠正句子和对应的源端错误句子一起作为判别器的输入,判别器将错误-纠正句对在是否由人工标注,并输出概率值作为奖励反馈给生成器,强化学习的优化目标,对错误纠正平行句对区分语法错误句子。
7.根据权利要求1所述的一种融合单语数据的文本语法错误纠正方法,其特征是:所述步骤4具体为:采用对抗训练正向语法错误纠正模型,对语法错误句子进行纠正给定错误纠正,根据种子语料(X,Y),一个生成器G,G的参数用θ表示,给定源端错误句子x=(x1,x2,...,xm),xm∈X,X为源端词表,生成器生成纠正句子y=(y1,y2,...,yn),yn∈Y,Y为目标端词表;
在时间步t,状态s定义为生成器当前已经产生的前缀序列(y1,y2,...,yt-1),动作a定义为生成下一个词yt,将生成器作为是一个随机的策略模型,所述策略模型的状态转移是确定性的,采取某一动作时,a=yt,由当前状态s=y1:t-1转移到下一状态s'=y1:t的概率为1;
在采用对抗训练正向语法错误生成模型中,额外训练一个判别器D来引导生成器的学习,判别器输出平行句对(x,y)为人工标注的概率,使用策略梯度方法更新生成器的参数,在对抗训练时,优化目标时最大化期望奖励,对语法错误句子进行纠正给定错误纠正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010751644.XA CN111985219A (zh) | 2020-07-30 | 2020-07-30 | 一种融合单语数据的文本语法错误纠正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010751644.XA CN111985219A (zh) | 2020-07-30 | 2020-07-30 | 一种融合单语数据的文本语法错误纠正方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111985219A true CN111985219A (zh) | 2020-11-24 |
Family
ID=73445606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010751644.XA Pending CN111985219A (zh) | 2020-07-30 | 2020-07-30 | 一种融合单语数据的文本语法错误纠正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111985219A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784611A (zh) * | 2021-01-21 | 2021-05-11 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算机存储介质 |
CN112818669A (zh) * | 2021-01-26 | 2021-05-18 | 山西三友和智慧信息技术股份有限公司 | 一种基于生成对抗网络的语法错误纠正方法 |
CN113657093A (zh) * | 2021-07-12 | 2021-11-16 | 广东外语外贸大学 | 基于真实错误模式的语法纠错数据增强方法及装置 |
CN113723080A (zh) * | 2021-07-26 | 2021-11-30 | 山东建筑大学 | 一种基于反向翻译的英文文章自动语法纠错方法 |
CN114881011A (zh) * | 2022-07-12 | 2022-08-09 | 中国人民解放军国防科技大学 | 多通道中文文本更正方法、装置、计算机设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309512A (zh) * | 2019-07-05 | 2019-10-08 | 北京邮电大学 | 一种基于生成对抗网络的中文语法错误更正方法 |
-
2020
- 2020-07-30 CN CN202010751644.XA patent/CN111985219A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309512A (zh) * | 2019-07-05 | 2019-10-08 | 北京邮电大学 | 一种基于生成对抗网络的中文语法错误更正方法 |
Non-Patent Citations (2)
Title |
---|
王辰成等: "基于Transformer增强架构的中文语法纠错方法", 《中文信息学报》 * |
邓俊锋: "基于神经机器翻译方法的英语语法错误纠正研究", 《中国优秀博硕士学位论文全文数据库(硕士)哲学与人文科学辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784611A (zh) * | 2021-01-21 | 2021-05-11 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算机存储介质 |
CN112784611B (zh) * | 2021-01-21 | 2024-08-13 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及计算机存储介质 |
CN112818669A (zh) * | 2021-01-26 | 2021-05-18 | 山西三友和智慧信息技术股份有限公司 | 一种基于生成对抗网络的语法错误纠正方法 |
CN113657093A (zh) * | 2021-07-12 | 2021-11-16 | 广东外语外贸大学 | 基于真实错误模式的语法纠错数据增强方法及装置 |
CN113723080A (zh) * | 2021-07-26 | 2021-11-30 | 山东建筑大学 | 一种基于反向翻译的英文文章自动语法纠错方法 |
CN113723080B (zh) * | 2021-07-26 | 2023-10-10 | 山东建筑大学 | 一种基于反向翻译的英文文章自动语法纠错方法 |
CN114881011A (zh) * | 2022-07-12 | 2022-08-09 | 中国人民解放军国防科技大学 | 多通道中文文本更正方法、装置、计算机设备和存储介质 |
CN114881011B (zh) * | 2022-07-12 | 2022-09-23 | 中国人民解放军国防科技大学 | 多通道中文文本更正方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985219A (zh) | 一种融合单语数据的文本语法错误纠正方法 | |
Vaibhav et al. | Improving robustness of machine translation with synthetic noise | |
CN110110337B (zh) | 翻译模型训练方法、介质、装置和计算设备 | |
CN110069790B (zh) | 一种通过译文回译对照原文的机器翻译系统及方法 | |
Ran et al. | Guiding non-autoregressive neural machine translation decoding with reordering information | |
CN111310447B (zh) | 语法纠错方法、装置、电子设备和存储介质 | |
US10866877B2 (en) | Automated repair of bugs and security vulnerabilities in software | |
CN111062205B (zh) | 一种中文自动语法纠错中的动态掩码训练方法 | |
CN108923922A (zh) | 一种基于生成对抗网络的文本隐写方法 | |
CN113822054A (zh) | 基于数据增强的中文语法纠错方法及装置 | |
CN113408535B (zh) | 一种基于中文字符级特征和语言模型的ocr纠错方法 | |
CN111178092B (zh) | 一种动态调整长度惩罚及译文长度的翻译模型优化方法 | |
CN111507092A (zh) | 一种基于cnn与bert模型的英文语法纠错方法 | |
Yang et al. | Controllable data synthesis method for grammatical error correction | |
CN111985218A (zh) | 一种基于生成对抗网络的司法文书自动校对方法 | |
CN115293138A (zh) | 一种文本纠错方法及计算机设备 | |
CN115114940A (zh) | 一种基于课程化预训练的机器翻译风格的迁移方法和系统 | |
CN113657125B (zh) | 一种基于知识图谱的蒙汉非自回归机器翻译方法 | |
CN114548053A (zh) | 一种基于编辑方法的文本对比学习纠错系统、方法及装置 | |
CN116992892B (zh) | 基于数据增强和多任务训练改善ape模型的方法、系统及可读存储介质 | |
CN111767701B (zh) | 一种基于对抗性互信息的文本生成方法 | |
CN115204196A (zh) | 基于领域特定子层隐变量的多领域自适应神经机器翻译方法 | |
CN114330375A (zh) | 一种基于固定范式的术语翻译方法及系统 | |
CN114492464A (zh) | 一种基于双向异步序列的对话生成方法及系统 | |
CN112818669A (zh) | 一种基于生成对抗网络的语法错误纠正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201124 |
|
RJ01 | Rejection of invention patent application after publication |