CN110399936A - 一种用于训练英语语法改错模型的文本数据生成方法 - Google Patents

一种用于训练英语语法改错模型的文本数据生成方法 Download PDF

Info

Publication number
CN110399936A
CN110399936A CN201910719334.7A CN201910719334A CN110399936A CN 110399936 A CN110399936 A CN 110399936A CN 201910719334 A CN201910719334 A CN 201910719334A CN 110399936 A CN110399936 A CN 110399936A
Authority
CN
China
Prior art keywords
word
model
training
data generation
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910719334.7A
Other languages
English (en)
Inventor
徐书尧
秦龙
陈进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiansheng Intelligent Technology Co Ltd
Original Assignee
Beijing Xiansheng Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiansheng Intelligent Technology Co Ltd filed Critical Beijing Xiansheng Intelligent Technology Co Ltd
Priority to CN201910719334.7A priority Critical patent/CN110399936A/zh
Publication of CN110399936A publication Critical patent/CN110399936A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及数据生成技术领域,尤其是一种用于训练英语语法改错模型的文本数据生成方法,其步骤为:(1)句子错误数量的引入;(2)确定错误类型;(3)根据错误类型进行相应的Word Tree替换;(4)利用WMT11单语言数据与One‑Billion‑Word单语言数据生成作为语法改错模型预训练数据,本发明有效提高语法改错模型的效果。

Description

一种用于训练英语语法改错模型的文本数据生成方法
技术领域
本发明涉及数据生成技术领域,具体领域为一种用于训练英语语法改错模型的文本数据生成方法。
背景技术
自动语法改错(Grammatical Error Correction)可以看成一个翻译问题:把需要进行纠正的语言作为源语言,把改错后的语言作为目标语言的翻译过程。经典的统计翻译模型与神经翻译模型均在这个问题里都体现出了巨大的潜力。尤其随着近年来神经翻译的技术的发展,新模型、新算法的不断提出,基于神经翻译模型的自动语法改错模型性能得到了很大的提高。
然而与翻译问题相比,自动语法改错的标注数据远远少于翻译的数据。而训练神经翻译模型,尤其是如Transformer需要较大的数据量才能充分发挥模型的表达能力。利用单语言数据被证明是个能够提高语法改错模型性能的有效方法。对于单语言数据的利用主要有几种策略:a.利用单语言数据预训练语法该错模型中的解码器;b.利用单语言数据人工构造错误数据。Junczys-Dowmunt等提出了利用大量单语言数据预训练改错模型的解码器的方法,该方法被证明可以有效提高语法改错模型的效果[1]。Lichtarge等提出利用Wikipedia Revisions数据,人工构造错误数据,可以取得更好的效果,利用该方法构建的模型是CoNLL2014与JFLEG两个标准测试集上效果最好的。
发明内容
本发明的目的在于提供一种用于训练英语语法改错模型的文本数据生成方法,以解决现有技术中自动语法改错的标注数据远远少于翻译的数据的问题。
为实现上述目的,本发明提供如下技术方案:一种用于训练英语语法改错模型的文本数据生成方法,其步骤为:
(1)句子错误数量的引入;
(2)确定错误类型;
(3)根据错误类型进行相应的Word Tree替换;
(4)利用WMT11单语言数据与One-Billion-Word单语言数据生成作为语法改错模型预训练数据。
优选的,根据步骤(1),以句子为单位引入错误,对每一句句子,根据一个与长度相关的随机变量决定该句引入多少个错误;当某一句子需要引入的错误数量确定之后,随机地从该句句子中挑选相应数量的词作为错误。
优选的,根据步骤(2),针对挑选的每个词,引入另外一个随机变量确定该词所要引入的错误类型。
优选的,错误类型包括拼接错误、拼写错误、替换错误、删除错误、移位错误。
优选的,若该错误是一个拼写错误,则需要另外一个随机变量根据单词长度来确认该单词中引入字符错误的数量。
优选的,根据单词长度确定需要在单词中插入的字符数量之后,随机抽取单词中相应数量的字符作为字符错误,针对一个单词中的每个字符错误,引入一个随机变量确认每个字符错误类型;
字符错误的类型包括删除当前字符、随机插入一个英文字符、与后一个字符交换位置、随机替换为任意一个英语字母。
优选的,替换错误的替换方式包括介词间替换、冠词间替换、单数人称代词间替换、复数人称代词间替、Wh词替换、情态动词间替、Word Tree中的替换。
优选的,根据步骤(3),Word Tree是一组拥有相同词根、不同后缀的单词。
优选的,根据EPOS制定规则或确定概率分布决定哪些替换容易发生。
优选的,根据步骤(4),在生成数据上训练1epoch后,在Lang-8数据集上训练20epoch。
与现有技术相比,本发明的有益效果是:通过本方法训练的Singsound系统,在CoNLL2014上,无论单模型还是四模型融合都超过了之前的state-of-the-art系统,融合模型得到了8.4%的显著提升。在CoNLL10与JFLEG上均达到了人类水平;
利用该方法生成数据训练的语法改错模型在CoNLL2014与JFLEG两个语法改错标准数据集上均取得了更好的结果。
附图说明
图1为本发明的Word Tree替换的实施例树状衍生图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
利用单语言数据人工构造语法错误,对于训练基于神经翻译框架的语法改错模型是一种有效的方法。然而Lichtarge等提出的构造语法错误的方法——句子中每个字符有0.03的概率突变——比较简单,错误类型比较单一。针对该问题,本专利公开一种系统地构建语法错误的方法。
表1:生成数据样列
如表1所示,该方法可以构建出拼写错误(如,price→puice),移位错误(如,independent voters→voters independent),拼接错误(如,the man→theman),词形错误(如,ramped→ramping)等。利用该方法生成数据训练的语法改错模型在CoNLL2014与JFLEG两个语法改错标准数据集上均取得了更好的结果。
本发明提供一种技术方案:一种用于训练英语语法改错模型的文本数据生成方法,其步骤为:
(1)句子错误数量的引入;
(2)确定错误类型;
(3)根据错误类型进行相应的Word Tree替换;
(4)利用WMT11单语言数据与One-Billion-Word单语言数据生成作为语法改错模型预训练数据。
根据步骤(1),以句子为单位引入错误,对每一句句子,根据一个与长度相关的随机变量(随机变量参数见表2)决定该句引入多少个错误;当某一句子需要引入的错误数量确定之后,随机地从该句句子中挑选相应数量的词作为错误。
表2句子错误数量
根据步骤(2),针对挑选的每个词,引入另外一个随机变量确定该词所要引入的错误类型。
表3错误类型
错误类型包括:
拼接错误,如hello world→helloworld;
拼写错误,如computer→camputer;
删除错误,删除当前的词;
移位错误,与句子中下一个词交换位置;
替换错误的替换方式包括介词间替换、冠词间替换、单数人称代词间替换、复数人称代词间替、Wh词替换、情态动词间替、Word Tree中的替换:
本发明设计了七种替换方式:
a.介词间替换,如:in,on,at,through,for,with;
b.冠词间替换,如:a,an,the;
c.单数人称代词间替换,如:he,she,his,him,her,hers;
d.复数人称代词间替换,如:their,them,they,theirs;
e.Wh词替换,如:which,where,what,how,when,who,whose,whom;
f.情态动词间替换,如:will,shall,can,may,would,could,might;
g.Word Tree中的替换。
针对挑选的每个词,引入另外一个随机变量来(表3)确定该词所要引入的错误类型。
若该错误是一个拼写错误,则需要另外一个随机变量根据单词长度来确认该单词中引入字符错误的数量(表4);
表4拼写错误数量
根据单词长度确定需要在单词中插入的字符数量之后,随机抽取单词中相应数量的字符作为字符错误,针对一个单词中的每个字符错误,引入一个随机变量确认每个字符错误类型;
字符错误的类型本文设计了四种字符错误类型:
a.删除:删除当前字符;
b.插入:随机插入一个英文字符;
c.交换:与后一个字符交换位置;
d.替换:随机替换为任意一个英语字母。
根据单词长度确定需要在单词中插入的字符数量之后,随机抽取单词中相应数量的字符作为字符错误。针对一个单词中的每个字符错误,引入一个随机变量(表5)来确认每个字符错误类型;
表5字符错误类型
拼写错误只引入到常规的单词中,数字、含有数字的单词或者非英语单词不引入拼写错误。
根据步骤(3),Word Tree是一组拥有相同词根、不同后缀的单词。
根据EPOS制定规则或确定概率分布决定哪些替换容易发生。
为了能够有如going→gone,useful→usable,administration→administrative等替换,本文引入Word Tree替换。Word Tree是一组拥有相同词根、不同后缀的单词。如图1样例use所示,树的每个节点表示以use为词根的单词如useless,以及对应的EPOS(Extended Part-of-Speech)标签NN_JJ_L。其中EPOS由词性与词缀变化规则推衍得到。
根据步骤(4),在生成数据上训练1epoch后,在Lang-8数据集上训练20epoch。
本文中所采用的神经翻译模型为Transformer。本文采用的模型中,编码器与解码器都是6层,隐层的大小是1024。该模型是单词级别的输入输出,其中稀有词根据BPE算法被切分为subword,该词表大小约为66000。Dropout概率设为0.3,Source word dropout设为0.2,实验中采用的优化算法为Adafactor。解码过程中采用了Beam search,其中Beam的大小为4。
表6在标准测试集CoNLL与JFLEG上与其它state-of-the-art系统比较
测试结果如表6所示,利用本文所述的方法训练的Singsound系统,在CoNLL2014上,无论单模型还是四模型融合都超过了之前的state-of-the-art系统,融合模型得到了8.4%的显著提升。在CoNLL10与JFLEG上均达到了人类水平。
通过本技术方案,1.表2,表3,表4,表5以及模型参数可以调整。
2.除了Transformer,其它任意基于神经翻译的encoder-decoder系统,如基于RNN的seq2seq模型,基于卷及神经网络的seq2seq模型等,都可以作为基础模型。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (10)

1.一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:其步骤为:
(1)句子错误数量的引入;
(2)确定错误类型;
(3)根据错误类型进行相应的Word Tree替换;
(4)利用WMT11单语言数据与One-Billion-Word单语言数据生成作为语法改错模型预训练数据。
2.根据权利要求1所述的一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:根据步骤(1),以句子为单位引入错误,对每一句句子,根据一个与长度相关的随机变量决定该句引入多少个错误;当某一句子需要引入的错误数量确定之后,随机地从该句句子中挑选相应数量的词作为错误。
3.根据权利要求2所述的一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:根据步骤(2),针对挑选的每个词,引入另外一个随机变量确定该词所要引入的错误类型。
4.根据权利要求3所述的一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:错误类型包括拼接错误、拼写错误、替换错误、删除错误、移位错误。
5.根据权利要求4所述的一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:若该错误是一个拼写错误,则需要另外一个随机变量根据单词长度来确认该单词中引入字符错误的数量。
6.根据权利要求5所述的一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:根据单词长度确定需要在单词中插入的字符数量之后,随机抽取单词中相应数量的字符作为字符错误,针对一个单词中的每个字符错误,引入一个随机变量确认每个字符错误类型;
字符错误的类型包括删除当前字符、随机插入一个英文字符、与后一个字符交换位置、随机替换为任意一个英语字母。
7.根据权利要求4所述的一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:替换错误的替换方式包括介词间替换、冠词间替换、单数人称代词间替换、复数人称代词间替、Wh词替换、情态动词间替、Word Tree中的替换。
8.根据权利要求1所述的一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:根据步骤(3),Word Tree是一组拥有相同词根、不同后缀的单词。
9.根据权利要求8所述的一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:根据EPOS制定规则或确定概率分布决定哪些替换容易发生。
10.根据权利要求1所述的一种用于训练英语语法改错模型的文本数据生成方法,其特征在于:根据步骤(4),在生成数据上训练1epoch后,在Lang-8数据集上训练20epoch。
CN201910719334.7A 2019-08-06 2019-08-06 一种用于训练英语语法改错模型的文本数据生成方法 Pending CN110399936A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910719334.7A CN110399936A (zh) 2019-08-06 2019-08-06 一种用于训练英语语法改错模型的文本数据生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910719334.7A CN110399936A (zh) 2019-08-06 2019-08-06 一种用于训练英语语法改错模型的文本数据生成方法

Publications (1)

Publication Number Publication Date
CN110399936A true CN110399936A (zh) 2019-11-01

Family

ID=68327465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910719334.7A Pending CN110399936A (zh) 2019-08-06 2019-08-06 一种用于训练英语语法改错模型的文本数据生成方法

Country Status (1)

Country Link
CN (1) CN110399936A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536776A (zh) * 2021-06-22 2021-10-22 深圳价值在线信息科技股份有限公司 混淆语句的生成方法、终端设备及计算机可读存储介质
CN113642318A (zh) * 2021-10-14 2021-11-12 江西风向标教育科技有限公司 英语文章的纠错方法、系统、存储介质及设备
CN113723080A (zh) * 2021-07-26 2021-11-30 山东建筑大学 一种基于反向翻译的英文文章自动语法纠错方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150261745A1 (en) * 2012-11-29 2015-09-17 Dezhao Song Template bootstrapping for domain-adaptable natural language generation
KR20160034678A (ko) * 2014-09-22 2016-03-30 포항공과대학교 산학협력단 문법 오류 수정 장치 및 이를 이용한 문법 오류 수정 방법
CN110020434A (zh) * 2019-03-22 2019-07-16 北京语自成科技有限公司 一种自然语言句法分析的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150261745A1 (en) * 2012-11-29 2015-09-17 Dezhao Song Template bootstrapping for domain-adaptable natural language generation
KR20160034678A (ko) * 2014-09-22 2016-03-30 포항공과대학교 산학협력단 문법 오류 수정 장치 및 이를 이용한 문법 오류 수정 방법
CN110020434A (zh) * 2019-03-22 2019-07-16 北京语自成科技有限公司 一种自然语言句法分析的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JOHN LEE 等: "Automatic Grammar Correction for Second-Language Learners", 《INTERSPEECH 2006_ICSLP》 *
MARIANO FELICE: "Artificial error generation for translation-based grammatical error correction", 《HTTPS://WWW.CL.CAM.AC.UK/TECHREPORTS》 *
SHUYAO XU 等: "Erroneous data generation for Grammatical Error Correction", 《PROCEEDINGS OF THE FOURTEENTH WORKSHOP ON INNOVATIVE USE OF NLP FOR BUILDING EDUCATIONAL APPLICATIONS》 *
李灿润 等: "基于层次语言模型的英语动名词搭配纠错策略", 《计算机系统应用》 *
沈涛: "结合N-gram模型与句法分析的语法纠错", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536776A (zh) * 2021-06-22 2021-10-22 深圳价值在线信息科技股份有限公司 混淆语句的生成方法、终端设备及计算机可读存储介质
CN113723080A (zh) * 2021-07-26 2021-11-30 山东建筑大学 一种基于反向翻译的英文文章自动语法纠错方法
CN113723080B (zh) * 2021-07-26 2023-10-10 山东建筑大学 一种基于反向翻译的英文文章自动语法纠错方法
CN113642318A (zh) * 2021-10-14 2021-11-12 江西风向标教育科技有限公司 英语文章的纠错方法、系统、存储介质及设备

Similar Documents

Publication Publication Date Title
CN110399936A (zh) 一种用于训练英语语法改错模型的文本数据生成方法
Brockett et al. Correcting ESL errors using phrasal SMT techniques
Chollampatt et al. Neural network translation models for grammatical error correction
Chiang et al. Parsing arabic dialects
CN101639830B (zh) 一种输入过程中的中文术语自动纠错方法
CN110046261A (zh) 一种建筑工程多模态双语平行语料库的构建方法
CN105654945A (zh) 一种语言模型的训练方法及装置、设备
CN109885824A (zh) 一种层次的中文命名实体识别方法、装置及可读存储介质
US6961692B1 (en) System and method for writing analysis using the linguistic discourse model
CN111488466B (zh) 中文带标记错误语料生成方法、计算装置和存储介质
CN104102630A (zh) 一种针对中文社交网络中中英文混合文本的规范方法
CN106547741B (zh) 一种基于搭配的汉语文本自动校对方法
Bollmann Normalization of historical texts with neural network models
CN105573994B (zh) 基于句法骨架的统计机器翻译系统
CN103020045B (zh) 一种基于谓词论元结构的统计机器翻译方法
Hana et al. Building a learner corpus
CN105868187A (zh) 多译本平行语料库的构建方法
CN105740235B (zh) 一种融合越南语语法特征的短语树到依存树的转换方法
CN104391984A (zh) 一种中英文混合的网络用户评论的推荐度评分方法
KR102149935B1 (ko) 8품사 및 문장 내 사용역할로 성분을 구분하는 단순도해법을 이용한 영어문장 학습 서비스 제공 방법
CN107894977A (zh) 结合兼类词词性消歧模型和字典的越南语词性标记方法
JP2011008553A (ja) 翻訳装置及び翻訳プログラム
CN110362691A (zh) 一种句法树库构建系统
JPS61278970A (ja) 自然言語処理装置における構文解析結果の表示及び校正のための制御方法
Cabrio et al. Extracting context-rich entailment rules from wikipedia revision history

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 155, bungalow 17, No. 12, Jiancai Chengzhong Road, Xisanqi, Haidian District, Beijing 100096

Applicant after: BEIJING SINGSOUND INTELLIGENT TECHNOLOGY Co.,Ltd.

Address before: 1027 bungalows, building 10, Beijing Xijiao farm, Shangzhuang village, Shangzhuang Township, Haidian District, Beijing

Applicant before: BEIJING SINGSOUND INTELLIGENT TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20191101

RJ01 Rejection of invention patent application after publication