CN112364990B - 通过元学习实现语法改错少样本领域适应的方法及系统 - Google Patents

通过元学习实现语法改错少样本领域适应的方法及系统 Download PDF

Info

Publication number
CN112364990B
CN112364990B CN202011183390.2A CN202011183390A CN112364990B CN 112364990 B CN112364990 B CN 112364990B CN 202011183390 A CN202011183390 A CN 202011183390A CN 112364990 B CN112364990 B CN 112364990B
Authority
CN
China
Prior art keywords
grammar
data set
model
error correction
meta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011183390.2A
Other languages
English (en)
Other versions
CN112364990A (zh
Inventor
杨麟儿
张生盛
黄雅平
杨尔弘
庞桂娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Original Assignee
BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LANGUAGE AND CULTURE UNIVERSITY filed Critical BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority to CN202011183390.2A priority Critical patent/CN112364990B/zh
Publication of CN112364990A publication Critical patent/CN112364990A/zh
Application granted granted Critical
Publication of CN112364990B publication Critical patent/CN112364990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种通过元学习实现语法改错少样本领域适应的方法及系统,该方法包括:构建预训练数据集,其包括二语学习者所写的句子和母语修改者修改后的句子;构建源领域数据集,其包括多个领域的语法改错数据;构建目标领域数据集,其包括验证领域的数据和测试领域的数据;先使用预训练数据集对语法改错模型进行预训练;然后,使用源领域数据集对模型进行元训练;基于目标领域数据集,对元训练后的语法改错模型进行微调,使得调整后的语法改错模型可以对目标领域数据集中的数据进行语法改错的测试。本发明在语法改错系统的基础上,使用元学习技术实现了语法改错在少样本领域的适应,提升了语法改错的性能。

Description

通过元学习实现语法改错少样本领域适应的方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种通过元学习实现语法改错少样本领域适应的方法及系统。
背景技术
语法改错任务可以对输入的可能含有语法错误的句子进行语法错误的定位和修改,输出修改后的句子,在二语教学、二语学习者写作等方面具有重大的理论价值和实践意义。但是,由于有的领域样本较少,且现有的大多数基于序列到序列的语法错误校正方法主要集中在如何产生更多的伪数据,以获得更好的性能上,但是要产生更多的伪数据依然需要许多的原生数据,故低资源的条件下,使得语法改错任务准确率不理想。现有的语法改错技术一般基于深度学习,使用二语学习者所写的句子和母语修改者修改后的句子形成的句对作为输入,并使用循环神经网络或卷积神经网络对生成过程进行建模。
由于现有的大多数基于序列到序列的语法错误校正方法主要集中在如何产生更多的伪数据,以获得更好的性能上,很少有工作涉及少样本领域的语法改错域适应,故现有的语法改错方法仍有许多不足之处。
首先,目前而言,语法改错任务存在部分领域样本较少的问题。例如,将汉语作为第二语言的二语学习者的作文语料库中,将二语学习者的母语设为领域,母语是蒙古语的学习者人数较少,因此母语是蒙古语的领域样本较少。这就容易造成在模型的训练过程中出现过拟合的问题,从而导致语法改错系统的性能不够理想。其次,现有的大多数基于序列到序列的语法错误校正方法主要集中在如何产生更多的伪数据,以获得更好的性能上,但想要生成特定领域的数据,仍然需要大量的该领域内的真实数据,故通过伪数据的方式并不能有效地解决少样本领域自适应的问题。最后,少样本领域学习的实际场景中,数据量缺乏会带来领域漂移的问题。故,有必要对现有的语法改错技术进行改进。
发明内容
本发明提供了一种通过元学习实现语法改错少样本领域适应的方法及系统,以解决现有的语法改错技术无法实现少样本领域自适应的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供了一种通过元学习实现语法改错少样本领域适应的方法,该通过元学习实现语法改错少样本领域适应的方法包括:
构建预训练数据集,所述预训练数据集中包括二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子;
构建源领域数据集,所述源领域数据集中包括多个领域的语法改错数据;
构建目标领域数据集,所述目标领域数据集中包括验证领域的数据和测试领域的数据;
先使用所述预训练数据集对预设的语法改错模型进行预训练;然后,使用所述源领域数据集对预训练后的语法改错模型进行元训练;
基于所述目标领域数据集,对元训练后的语法改错模型进行预设参数的调整,使得调整后的语法改错模型可以应用于对所述目标领域数据集中的数据进行语法改错的测试。
其中,所述语法改错模型以二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子一一对应,形成句对作为输入。
其中,所述少样本领域为二语学习者语法改错数据量小于预设值的领域。
其中,所述预设的语法改错模型为基于梯度下降的语法改错模型。
其中,所述预训练为通过所述预训练数据集对预设的语法改错模型进行训练,以得到一套模型参数,利用得到的模型参数对模型进行初始化。
其中,所述语法改错模型进行语法改错的过程,包括:
获取待改错的句子X={x1,…,xM}、相应的二语学习者的领域c,以及基于神经机器翻译的领域感知语法改错模型,对输出句子的条件概率Y={y1,…,yN}进行建模:
Figure BDA0002750791310000021
其中,θ是模型参数;
首先将语法改错模型的参数适应到二语学习者领域c,然后以待改错的句子为条件对输出句子进行建模:
Figure BDA0002750791310000022
其中,θc是适应到对应的二语学习者领域的模型参数的集合。
其中,所述学习者领域的定义标准为学习者的母语或熟练程度。
其中,使用源领域数据集对预训练后的语法改错模型进行元训练,包括:
定义一组源任务
Figure BDA0002750791310000031
其中每个源任务是具有预设类型学习者领域的语法改错系统,而k是学习者的领域数;对于每个元学习事件,从τ中随机抽取任务
Figure BDA0002750791310000032
然后,从
Figure BDA0002750791310000033
的数据中独立抽取两个批次,分别是支持批次
Figure BDA0002750791310000034
和查询批次
Figure BDA0002750791310000035
首先使用
Figure BDA0002750791310000036
更新语法改错模型参数:
Figure BDA0002750791310000037
其中α是学习率,L是交叉熵损失函数,L的计算公式为:
Figure BDA0002750791310000038
Figure BDA0002750791310000039
上评估更新后的参数
Figure BDA00027507913100000310
并使用从该评估中计算出的梯度来更新原始模型参数θ,在更新θ前汇总多轮源任务,原始模型参数θ更新如下:
Figure BDA00027507913100000311
其中,β为元学习率;
在元训练片段结束之后,从新的目标任务Tc的示例中完成预设类型任务的学习,以获得预设类型任务的模型参数θc
其中,元参数的更新使用一阶近似值,以节省内存消耗。
另一方面,本发明还提供了一种通过元学习实现语法改错少样本领域适应的系统,该通过元学习实现语法改错少样本领域适应的系统包括:
预训练数据集构建模块,用于构建预训练数据集,所述预训练数据集中包括二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子;
源领域数据集构建模块,用于构建源领域数据集,所述源领域数据集中包括多个领域的语法改错数据;
目标领域数据集构建模块,用于构建目标领域数据集,所述目标领域数据集中包括验证领域的数据和测试领域的数据;
模型训练模块,用于先使用所述预训练数据集对预设的语法改错模型进行预训练;然后,使用所述源领域数据集对预训练后的语法改错模型进行元训练;
模型调整模块,用于基于所述目标领域数据集,对元训练后的语法改错模型进行预设参数的调整,使得调整后的语法改错模型可以应用于对所述目标领域数据集中的数据进行语法改错的测试。
再一方面,本发明还提供了一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明利用一组数据丰富的源领域来学习模型参数的初始化,从而以最少的训练实例来快速适应新的目标领域。在语法改错系统的基础上,使用元学习的方法实现了语法改错在少样本领域的适应,提升了语法改错的性能。具有可以被应用到任意基于梯度下降的语法改错模型;与具体的语言无关,可对任意语言使用;可有效解决低资源的语法改错问题的优点,妥善地解决了现有的大多数基于序列的语法纠错方法对某种语言少样本领域纠错性能不够理想的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的通过元学习实现语法改错少样本领域适应的方法的流程示意图;
图2为本发明实施例提供的通过元学习实现语法改错少样本领域适应的算法示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种通过元学习实现语法改错少样本领域适应的方法,其中,少样本领域指的是二语学习者语法改错数据量较少的领域。该方法可以由电子设备实现,该电子设备可以是终端或者服务器。该通过元学习实现语法改错少样本领域适应的方法的执行流程如图1所示,包括以下步骤:
S1,构建预训练数据集;
需要说明的是,上述预训练数据集中包括二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子;其中,母语(第一语言)指的是一个人最早学会的语言,一般为本民族语言,二语(第二语言)指的是母语习得之后所学习的任何其他语言。
S2,构建源领域数据集;
需要说明的是,上述源领域数据集中包括多个领域的语法改错数据;也即多个领域的二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子。其中,学习者领域可以由不同的标准来定义,例如学习者的母语和学习者对某语言熟练程度;当然,本实施例的方法与学习者领域的定义无关,因此,本实施例的方法适用于任何类型领域的语法改错系统。
S3,构建目标领域数据集;
需要说明的是,上述目标领域数据集中包括验证领域的数据和测试领域的数据;
S4,先使用所述预训练数据集对预设的语法改错模型进行预训练;然后,使用所述源领域数据集对预训练后的语法改错模型进行元训练;
需要说明的是,语法改错模型以二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子一一对应,形成句对作为输入。上述语法改错模型可以为任意类型的基于梯度下降的语法改错模型。而且本实施例的方法与具体的语言无关,可以应用到任何语言上,此外,本实施例的方法还可以有效解决低资源的语法改错问题。
其中,预训练为通过大量普通领域上的平行句对进行语法纠错的模型进行训练,得到一套模型参数,利用这套参数对模型进行初始化,再根据具体任务在现有语法改错模型的基础上进行微调。元训练是利用一组数据丰富的源领域来学习模型参数的初始化,从而以最少的训练示例来快速适应新的目标领域。其中,元学习为一种机器学习(训练)的过程,旨在解决如何快速适应新数据的难题;元学习从高资源领域中学习模型参数的初始化,这些参数可以以最少的数据快速适应新的目标领域;具体地,本实施例实现上述方案的过程包括:
步骤一,构建由多个领域的语法改错任务组成的任务集合,将其分为用于元训练的源任务集合和用于元验证和元测试的目标任务集合;
步骤二,在元训练阶段,将源任务集合应用到元语法改错系统中,然后输出元训练后的模型的初始化参数θ0,θ0在使用少量目标领域的数据的情况下,可以实现快速的适应;
步骤三,在元测试阶段,将目标任务应用到语法改错系统中,此系统中模型的初始化参数θ0为上一阶段元训练得到的,然后输出适应到目标任务上的模型的参数θ。其中,元训练为元学习的训练阶段,元测试为元学习的测试阶段。
S5,基于所述目标领域数据集,对元训练后的语法改错模型进行预设参数的调整,使得调整后的语法改错模型可以应用于对所述目标领域数据集中的数据进行语法改错的测试。
其中,语法改错模型进行语法改错的过程,包括:
步骤一、获取一个错误的句子X={x1,…,xM}和二语学习者的领域c,一个基于神经机器翻译的领域感知语法改错模型,对输出句子的条件概率Y={y1,…,yN}进行建模:
Figure BDA0002750791310000061
其中,θ是模型参数;
步骤二、首先将语法改错模型的参数适应到领域c,然后以待改错的句子为条件对输出句子进行建模:
Figure BDA0002750791310000062
其中,θc是适应到对应的二语学习者领域的模型参数的集合。
具体地,如图2所示,本实施例中使用源领域数据集对模型进行元训练,从而通过元学习实现语法改错系统少样本领域适应的算法包括以下步骤:
步骤一,定义一组源任务
Figure BDA0002750791310000063
其中每个源任务是具有特定学习者领域的语法改错系统,而k是学习者的领域数;对于每个元学习事件,从τ中随机抽取任务
Figure BDA0002750791310000064
然后,从
Figure BDA0002750791310000065
的数据中独立抽取两个批次,分别是支持批次
Figure BDA0002750791310000066
和查询批次
Figure BDA0002750791310000067
首先使用
Figure BDA0002750791310000068
更新语法改错模型参数:
Figure BDA0002750791310000069
其中α是学习率,L是交叉熵损失函数,L的计算公式为:
Figure BDA00027507913100000610
步骤二,在
Figure BDA00027507913100000611
上评估更新后的参数
Figure BDA00027507913100000612
并使用从该评估中计算出的梯度来更新原始模型参数θ,在更新θ前可汇总多轮源任务,因此,原始模型参数θ更新如下:
Figure BDA00027507913100000613
其中,β为元学习率;
步骤三,在元训练片段结束之后,从新的目标任务Tc的示例中完成预设类型任务的学习,以获得特定任务的模型参数θc
进一步地,由于元参数的更新涉及二阶偏导数,计算量大,故本实施例使用一阶近似值来节省内存消耗;其中,内存消耗为计算机进程开销所占的内存。
综上,本实施例利用一组数据丰富的源领域来学习模型参数的初始化,从而以最少的训练实例来快速适应新的目标领域。在语法改错系统的基础上,使用元学习的方法实现了语法改错在少样本领域的适应,提升了语法改错的性能。具有可被应用到任意基于梯度下降的语法改错模型;与具体的语言无关,可对任意语言使用;可有效解决低资源的语法改错问题的优点,妥善解决了现有大多数基于序列的语法纠错方法对某种语言少样本领域纠错性能不够理想的问题。
第二实施例
本实施例提供了一种通过元学习实现语法改错少样本领域适应的系统,该通过元学习实现语法改错少样本领域适应的系统包括以下模块:
预训练数据集构建模块,用于构建预训练数据集,所述预训练数据集中包括二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子;
源领域数据集构建模块,用于构建源领域数据集,所述源领域数据集中包括多个领域的语法改错数据;
目标领域数据集构建模块,用于构建目标领域数据集,所述目标领域数据集中包括验证领域的数据和测试领域的数据;
模型训练模块,用于先使用所述预训练数据集对预设的语法改错模型进行预训练;然后,使用所述源领域数据集对预训练后的语法改错模型进行元训练;
模型调整模块,用于基于所述目标领域数据集,对元训练后的语法改错模型进行预设参数的调整,使得调整后的语法改错模型可以应用于对所述目标领域数据集中的数据进行语法改错的测试。
本实施例的通过元学习实现语法改错少样本领域适应的系统与上述第一实施例的通过元学习实现语法改错少样本领域适应的方法相对应;其中,本实施例的通过元学习实现语法改错少样本领域适应的系统中的各功能模块所实现的功能与上述第一实施例的通过元学习实现语法改错少样本领域适应的方法中的各流程步骤一一对应;故,在此不再赘述。
第三实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以下步骤:
S1,构建预训练数据集,所述预训练数据集中包括二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子;
S2,构建源领域数据集,源领域数据集中包括多个领域的语法改错数据;
S3,构建目标领域数据集,目标领域数据集中包括验证领域的数据和测试领域的数据;
S4,先使用所述预训练数据集对预设的语法改错模型进行预训练;然后,使用所述源领域数据集对预训练后的语法改错模型进行元训练;
S5,基于所述目标领域数据集,对元训练后的语法改错模型进行预设参数的调整,使得调整后的语法改错模型可以应用于对所述目标领域数据集中的数据进行语法改错的测试。
第四实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以实现上述方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行以下步骤:
S1,构建预训练数据集,所述预训练数据集中包括二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子;
S2,构建源领域数据集,源领域数据集中包括多个领域的语法改错数据;
S3,构建目标领域数据集,目标领域数据集中包括验证领域的数据和测试领域的数据;
S4,先使用所述预训练数据集对预设的语法改错模型进行预训练;然后,使用所述源领域数据集对预训练后的语法改错模型进行元训练;
S5,基于所述目标领域数据集,对元训练后的语法改错模型进行预设参数的调整,使得调整后的语法改错模型可以应用于对所述目标领域数据集中的数据进行语法改错的测试。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims (9)

1.一种通过元学习实现语法改错少样本领域适应的方法,其特征在于,所述通过元学习实现语法改错少样本领域适应的方法包括:
构建预训练数据集,所述预训练数据集中包括二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子;
构建源领域数据集,所述源领域数据集中包括多个领域的语法改错数据;
构建目标领域数据集,所述目标领域数据集包括验证领域的数据和测试领域的数据;
先使用所述预训练数据集对预设的语法改错模型进行预训练;然后,使用所述源领域数据集对预训练后的语法改错模型进行元训练;
基于所述目标领域数据集,对元训练后的语法改错模型进行预设参数的调整,使得调整后的语法改错模型可以应用于对所述目标领域数据集中的数据进行语法改错的测试;
所述语法改错模型进行语法改错的过程,包括:
获取待改错的句子X={x1,…,xM}、相应的二语学习者的领域c,以及基于神经机器翻译的领域感知语法改错模型,对输出句子的条件概率Y={y1,…,yN}进行建模:
Figure FDA0003009337440000011
其中,θ是模型参数;
首先将语法改错模型的参数适应到二语学习者领域c,然后以待改错的句子为条件对输出句子进行建模:
Figure FDA0003009337440000012
其中,θc是适应到对应的二语学习者领域的模型参数的集合。
2.如权利要求1所述的通过元学习实现语法改错少样本领域适应的方法,其特征在于,所述语法改错模型以二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子一一对应,形成句对作为输入。
3.如权利要求1所述的通过元学习实现语法改错少样本领域适应的方法,其特征在于,所述少样本领域为二语学习者语法改错数据量小于预设值的领域。
4.如权利要求1所述的通过元学习实现语法改错少样本领域适应的方法,其特征在于,所述预设的语法改错模型为基于梯度下降的语法改错模型。
5.如权利要求1所述的通过元学习实现语法改错少样本领域适应的方法,其特征在于,所述预训练为通过所述预训练数据集对预设的语法改错模型进行训练,以得到一套模型参数,利用得到的模型参数对模型进行初始化。
6.如权利要求1所述的通过元学习实现语法改错少样本领域适应的方法,其特征在于,所述学习者领域的定义标准为学习者的母语或熟练程度。
7.如权利要求1所述的通过元学习实现语法改错少样本领域适应的方法,其特征在于,使用源领域数据集对预训练后的语法改错模型进行元训练,包括:
定义一组源任务
Figure FDA0003009337440000021
其中每个源任务是具有预设类型学习者领域的语法改错系统,而k是学习者的领域数;对于每个元学习事件,从τ中随机抽取任务
Figure FDA0003009337440000022
然后,从
Figure FDA0003009337440000023
的数据中独立抽取两个批次,分别是支持批次
Figure FDA0003009337440000024
和查询批次
Figure FDA0003009337440000025
首先使用
Figure FDA0003009337440000026
更新语法改错模型参数:
Figure FDA0003009337440000027
其中α是学习率,L是交叉熵损失函数,L的计算公式为:
Figure FDA0003009337440000028
Figure FDA0003009337440000029
上评估更新后的参数
Figure FDA00030093374400000210
并使用从该评估中计算出的梯度来更新原始模型参数θ,在更新θ前汇总多轮源任务,原始模型参数θ更新如下:
Figure FDA00030093374400000211
其中,β为元学习率;
在元训练片段结束之后,从新的目标任务Tc的示例中完成预设类型任务的学习,以获得预设类型任务的模型参数θc
8.如权利要求7所述的通过元学习实现语法改错少样本领域适应的方法,其特征在于,元参数的更新使用一阶近似值,以节省内存消耗。
9.一种通过元学习实现语法改错少样本领域适应的系统,其特征在于,所述通过元学习实现语法改错少样本领域适应的系统包括:
预训练数据集构建模块,用于构建预训练数据集,所述预训练数据集中包括二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子;
源领域数据集构建模块,用于构建源领域数据集,所述源领域数据集中包括多个领域的语法改错数据;
目标领域数据集构建模块,用于构建目标领域数据集,所述目标领域数据集中包括验证领域的数据和测试领域的数据;
模型训练模块,用于先使用所述预训练数据集对预设的语法改错模型进行预训练;然后,使用所述源领域数据集对预训练后的语法改错模型进行元训练;
模型调整模块,用于基于所述目标领域数据集,对元训练后的语法改错模型进行预设参数的调整,使得调整后的语法改错模型可以应用于对所述目标领域数据集中的数据进行语法改错的测试;
所述语法改错模型进行语法改错的过程,包括:
获取待改错的句子X={x1,…,xM}、相应的二语学习者的领域c,以及基于神经机器翻译的领域感知语法改错模型,对输出句子的条件概率Y={y1,…,yN}进行建模:
Figure FDA0003009337440000031
其中,θ是模型参数;
首先将语法改错模型的参数适应到二语学习者领域c,然后以待改错的句子为条件对输出句子进行建模:
Figure FDA0003009337440000032
其中,θc是适应到对应的二语学习者领域的模型参数的集合。
CN202011183390.2A 2020-10-29 2020-10-29 通过元学习实现语法改错少样本领域适应的方法及系统 Active CN112364990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011183390.2A CN112364990B (zh) 2020-10-29 2020-10-29 通过元学习实现语法改错少样本领域适应的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011183390.2A CN112364990B (zh) 2020-10-29 2020-10-29 通过元学习实现语法改错少样本领域适应的方法及系统

Publications (2)

Publication Number Publication Date
CN112364990A CN112364990A (zh) 2021-02-12
CN112364990B true CN112364990B (zh) 2021-06-04

Family

ID=74512920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011183390.2A Active CN112364990B (zh) 2020-10-29 2020-10-29 通过元学习实现语法改错少样本领域适应的方法及系统

Country Status (1)

Country Link
CN (1) CN112364990B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022240358A1 (en) * 2021-05-11 2022-11-17 National University Of Singapore System and method for training a culturally-specific assisting language learning model

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670191A (zh) * 2019-01-24 2019-04-23 语联网(武汉)信息技术有限公司 机器翻译的校准优化方法、装置与电子设备
CN110851599A (zh) * 2019-11-01 2020-02-28 中山大学 一种中文作文自动评分方法及教辅系统
CN110929875A (zh) * 2019-10-12 2020-03-27 平安国际智慧城市科技股份有限公司 基于机器学习的智能语言学习方法、系统、装置及介质
CN111475618A (zh) * 2020-03-31 2020-07-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111767717A (zh) * 2020-05-13 2020-10-13 广东外语外贸大学 印尼语的语法纠错方法、装置、设备及存储介质
CN111767731A (zh) * 2020-07-09 2020-10-13 北京猿力未来科技有限公司 语法纠错模型的训练方法及装置、语法纠错方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101374900B1 (ko) * 2012-12-13 2014-03-13 포항공과대학교 산학협력단 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법
CN110689523A (zh) * 2019-09-02 2020-01-14 西安电子科技大学 基于元学习个性化图像信息评价方法、信息数据处理终端
CN111476292B (zh) * 2020-04-03 2021-02-19 北京全景德康医学影像诊断中心有限公司 医学图像分类处理人工智能的小样本元学习训练方法
CN111767718B (zh) * 2020-07-03 2021-12-07 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670191A (zh) * 2019-01-24 2019-04-23 语联网(武汉)信息技术有限公司 机器翻译的校准优化方法、装置与电子设备
CN110929875A (zh) * 2019-10-12 2020-03-27 平安国际智慧城市科技股份有限公司 基于机器学习的智能语言学习方法、系统、装置及介质
CN110851599A (zh) * 2019-11-01 2020-02-28 中山大学 一种中文作文自动评分方法及教辅系统
CN111475618A (zh) * 2020-03-31 2020-07-31 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN111767717A (zh) * 2020-05-13 2020-10-13 广东外语外贸大学 印尼语的语法纠错方法、装置、设备及存储介质
CN111767731A (zh) * 2020-07-09 2020-10-13 北京猿力未来科技有限公司 语法纠错模型的训练方法及装置、语法纠错方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《A Meta Learning Approach to Grammatical Error Correction》;Hongsuck Seo等;《50th Annual Meeting of the Association for Computational Linguistics》;20120714;第328–332页:第328–331页1-3节 *
《Personalizing Dialogue Agents via Meta-Learning》;Andrea Madotto等;《57th Annual Meeting of the Association for Computational Linguistics》;20190802;第5454–5459页:第5454–5456页1-3节 *
《Task-Agnostic Meta-Learning for Few-shot Learning》;Muhammad Abdullah Jamal等;《arXiv》;20180520;第1-11页 *
《基于Transformer增强架构的中文语法纠错方法》;王辰成 等;《中文信息学报》;20200630;第34卷(第6期);第106-114页 *
《基于自适应特征比较的少样本学习算法》;年福东 等;《西安文理学院学报(自然科学版)》;20201015;第23卷(第04期);第50-56页 *

Also Published As

Publication number Publication date
CN112364990A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
WO2018051841A1 (ja) モデル学習装置、その方法、及びプログラム
CN108960407B (zh) 递归神经网路语言模型训练方法、装置、设备及介质
US20140156575A1 (en) Method and Apparatus of Processing Data Using Deep Belief Networks Employing Low-Rank Matrix Factorization
JP2018160234A (ja) 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体
JP2023544336A (ja) 多言語発話認識フレームワークのためのシステム及び方法
JP6712644B2 (ja) 音響モデル学習装置、その方法、及びプログラム
CN115064155A (zh) 一种基于知识蒸馏的端到端语音识别增量学习方法及系统
CN112084301B (zh) 文本修正模型的训练方法及装置、文本修正方法及装置
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN112364990B (zh) 通过元学习实现语法改错少样本领域适应的方法及系统
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN114822518A (zh) 知识蒸馏方法、电子设备和存储介质
CN116595130B (zh) 基于小语言模型的多种任务下的语料扩充方法及装置
CN112528598B (zh) 基于预训练语言模型和信息论的自动化文本摘要评测方法
CN110287498A (zh) 层次化翻译方法、装置及存储介质
CN110287999B (zh) 基于隐变量模型的故事生成方法及装置
JP2010128774A (ja) 固有表現抽出装置、その方法およびプログラム
CN114330375A (zh) 一种基于固定范式的术语翻译方法及系统
CN116151347A (zh) 一种预训练语言模型的训练方法、装置和电子设备
KR20220096966A (ko) 학생 친화적 교사 모델 및 학생 모델의 학습을 위한 시스템 및 방법
JPWO2020241071A5 (zh)
CN112037770B (zh) 发音词典的生成方法、单词语音识别的方法和装置
CN112347793B (zh) 一种基于规则与学习的语义解析方法、装置和电子设备
CN116595385B (zh) 作文生成模型训练方法及装置
CN117709435B (zh) 大语言模型的训练方法、代码生成方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant