CN112364990B

CN112364990B - 通过元学习实现语法改错少样本领域适应的方法及系统

Info

Publication number: CN112364990B
Application number: CN202011183390.2A
Authority: CN
Inventors: 杨麟儿; 张生盛; 黄雅平; 杨尔弘; 庞桂娜
Original assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Current assignee: BEIJING LANGUAGE AND CULTURE UNIVERSITY
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2021-06-04
Anticipated expiration: 2040-10-29
Also published as: CN112364990A

Abstract

本发明公开了一种通过元学习实现语法改错少样本领域适应的方法及系统，该方法包括：构建预训练数据集，其包括二语学习者所写的句子和母语修改者修改后的句子；构建源领域数据集，其包括多个领域的语法改错数据；构建目标领域数据集，其包括验证领域的数据和测试领域的数据；先使用预训练数据集对语法改错模型进行预训练；然后，使用源领域数据集对模型进行元训练；基于目标领域数据集，对元训练后的语法改错模型进行微调，使得调整后的语法改错模型可以对目标领域数据集中的数据进行语法改错的测试。本发明在语法改错系统的基础上，使用元学习技术实现了语法改错在少样本领域的适应，提升了语法改错的性能。

Description

通过元学习实现语法改错少样本领域适应的方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种通过元学习实现语法改错少样本领域适应的方法及系统。

背景技术

语法改错任务可以对输入的可能含有语法错误的句子进行语法错误的定位和修改，输出修改后的句子，在二语教学、二语学习者写作等方面具有重大的理论价值和实践意义。但是，由于有的领域样本较少，且现有的大多数基于序列到序列的语法错误校正方法主要集中在如何产生更多的伪数据，以获得更好的性能上，但是要产生更多的伪数据依然需要许多的原生数据，故低资源的条件下，使得语法改错任务准确率不理想。现有的语法改错技术一般基于深度学习，使用二语学习者所写的句子和母语修改者修改后的句子形成的句对作为输入，并使用循环神经网络或卷积神经网络对生成过程进行建模。

由于现有的大多数基于序列到序列的语法错误校正方法主要集中在如何产生更多的伪数据，以获得更好的性能上，很少有工作涉及少样本领域的语法改错域适应，故现有的语法改错方法仍有许多不足之处。

首先，目前而言，语法改错任务存在部分领域样本较少的问题。例如，将汉语作为第二语言的二语学习者的作文语料库中，将二语学习者的母语设为领域，母语是蒙古语的学习者人数较少，因此母语是蒙古语的领域样本较少。这就容易造成在模型的训练过程中出现过拟合的问题，从而导致语法改错系统的性能不够理想。其次，现有的大多数基于序列到序列的语法错误校正方法主要集中在如何产生更多的伪数据，以获得更好的性能上，但想要生成特定领域的数据，仍然需要大量的该领域内的真实数据，故通过伪数据的方式并不能有效地解决少样本领域自适应的问题。最后，少样本领域学习的实际场景中，数据量缺乏会带来领域漂移的问题。故，有必要对现有的语法改错技术进行改进。

发明内容

本发明提供了一种通过元学习实现语法改错少样本领域适应的方法及系统，以解决现有的语法改错技术无法实现少样本领域自适应的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种通过元学习实现语法改错少样本领域适应的方法，该通过元学习实现语法改错少样本领域适应的方法包括：

构建预训练数据集，所述预训练数据集中包括二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子；

构建源领域数据集，所述源领域数据集中包括多个领域的语法改错数据；

构建目标领域数据集，所述目标领域数据集中包括验证领域的数据和测试领域的数据；

先使用所述预训练数据集对预设的语法改错模型进行预训练；然后，使用所述源领域数据集对预训练后的语法改错模型进行元训练；

基于所述目标领域数据集，对元训练后的语法改错模型进行预设参数的调整，使得调整后的语法改错模型可以应用于对所述目标领域数据集中的数据进行语法改错的测试。

其中，所述语法改错模型以二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子一一对应，形成句对作为输入。

其中，所述少样本领域为二语学习者语法改错数据量小于预设值的领域。

其中，所述预设的语法改错模型为基于梯度下降的语法改错模型。

其中，所述预训练为通过所述预训练数据集对预设的语法改错模型进行训练，以得到一套模型参数，利用得到的模型参数对模型进行初始化。

其中，所述语法改错模型进行语法改错的过程，包括：

获取待改错的句子X＝{x₁,…,x_M}、相应的二语学习者的领域c，以及基于神经机器翻译的领域感知语法改错模型，对输出句子的条件概率Y＝{y₁,…,y_N}进行建模：

其中，θ是模型参数；

首先将语法改错模型的参数适应到二语学习者领域c，然后以待改错的句子为条件对输出句子进行建模：

其中，θ_c是适应到对应的二语学习者领域的模型参数的集合。

其中，所述学习者领域的定义标准为学习者的母语或熟练程度。

其中，使用源领域数据集对预训练后的语法改错模型进行元训练，包括：

定义一组源任务

其中每个源任务是具有预设类型学习者领域的语法改错系统，而k是学习者的领域数；对于每个元学习事件，从τ中随机抽取任务

然后，从

的数据中独立抽取两个批次，分别是支持批次

和查询批次

首先使用

更新语法改错模型参数：

其中α是学习率，L是交叉熵损失函数，L的计算公式为：

在

上评估更新后的参数

并使用从该评估中计算出的梯度来更新原始模型参数θ，在更新θ前汇总多轮源任务，原始模型参数θ更新如下：

其中，β为元学习率；

在元训练片段结束之后，从新的目标任务T_c的示例中完成预设类型任务的学习，以获得预设类型任务的模型参数θ_c。

其中，元参数的更新使用一阶近似值，以节省内存消耗。

另一方面，本发明还提供了一种通过元学习实现语法改错少样本领域适应的系统，该通过元学习实现语法改错少样本领域适应的系统包括：

预训练数据集构建模块，用于构建预训练数据集，所述预训练数据集中包括二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子；

源领域数据集构建模块，用于构建源领域数据集，所述源领域数据集中包括多个领域的语法改错数据；

目标领域数据集构建模块，用于构建目标领域数据集，所述目标领域数据集中包括验证领域的数据和测试领域的数据；

模型训练模块，用于先使用所述预训练数据集对预设的语法改错模型进行预训练；然后，使用所述源领域数据集对预训练后的语法改错模型进行元训练；

模型调整模块，用于基于所述目标领域数据集，对元训练后的语法改错模型进行预设参数的调整，使得调整后的语法改错模型可以应用于对所述目标领域数据集中的数据进行语法改错的测试。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明利用一组数据丰富的源领域来学习模型参数的初始化，从而以最少的训练实例来快速适应新的目标领域。在语法改错系统的基础上，使用元学习的方法实现了语法改错在少样本领域的适应，提升了语法改错的性能。具有可以被应用到任意基于梯度下降的语法改错模型；与具体的语言无关，可对任意语言使用；可有效解决低资源的语法改错问题的优点，妥善地解决了现有的大多数基于序列的语法纠错方法对某种语言少样本领域纠错性能不够理想的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的通过元学习实现语法改错少样本领域适应的方法的流程示意图；

图2为本发明实施例提供的通过元学习实现语法改错少样本领域适应的算法示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例提供了一种通过元学习实现语法改错少样本领域适应的方法，其中，少样本领域指的是二语学习者语法改错数据量较少的领域。该方法可以由电子设备实现，该电子设备可以是终端或者服务器。该通过元学习实现语法改错少样本领域适应的方法的执行流程如图1所示，包括以下步骤：

S1，构建预训练数据集；

需要说明的是，上述预训练数据集中包括二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子；其中，母语(第一语言)指的是一个人最早学会的语言，一般为本民族语言，二语(第二语言)指的是母语习得之后所学习的任何其他语言。

S2，构建源领域数据集；

需要说明的是，上述源领域数据集中包括多个领域的语法改错数据；也即多个领域的二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子。其中，学习者领域可以由不同的标准来定义，例如学习者的母语和学习者对某语言熟练程度；当然，本实施例的方法与学习者领域的定义无关，因此，本实施例的方法适用于任何类型领域的语法改错系统。

S3，构建目标领域数据集；

需要说明的是，上述目标领域数据集中包括验证领域的数据和测试领域的数据；

S4，先使用所述预训练数据集对预设的语法改错模型进行预训练；然后，使用所述源领域数据集对预训练后的语法改错模型进行元训练；

需要说明的是，语法改错模型以二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子一一对应，形成句对作为输入。上述语法改错模型可以为任意类型的基于梯度下降的语法改错模型。而且本实施例的方法与具体的语言无关，可以应用到任何语言上，此外，本实施例的方法还可以有效解决低资源的语法改错问题。

其中，预训练为通过大量普通领域上的平行句对进行语法纠错的模型进行训练，得到一套模型参数，利用这套参数对模型进行初始化，再根据具体任务在现有语法改错模型的基础上进行微调。元训练是利用一组数据丰富的源领域来学习模型参数的初始化，从而以最少的训练示例来快速适应新的目标领域。其中，元学习为一种机器学习(训练)的过程，旨在解决如何快速适应新数据的难题；元学习从高资源领域中学习模型参数的初始化，这些参数可以以最少的数据快速适应新的目标领域；具体地，本实施例实现上述方案的过程包括：

步骤一，构建由多个领域的语法改错任务组成的任务集合，将其分为用于元训练的源任务集合和用于元验证和元测试的目标任务集合；

步骤二，在元训练阶段，将源任务集合应用到元语法改错系统中，然后输出元训练后的模型的初始化参数θ⁰，θ⁰在使用少量目标领域的数据的情况下，可以实现快速的适应；

步骤三，在元测试阶段，将目标任务应用到语法改错系统中，此系统中模型的初始化参数θ⁰为上一阶段元训练得到的，然后输出适应到目标任务上的模型的参数θ。其中，元训练为元学习的训练阶段，元测试为元学习的测试阶段。

S5，基于所述目标领域数据集，对元训练后的语法改错模型进行预设参数的调整，使得调整后的语法改错模型可以应用于对所述目标领域数据集中的数据进行语法改错的测试。

其中，语法改错模型进行语法改错的过程，包括：

步骤一、获取一个错误的句子X＝{x₁,…,x_M}和二语学习者的领域c，一个基于神经机器翻译的领域感知语法改错模型，对输出句子的条件概率Y＝{y₁,…,y_N}进行建模：

其中，θ是模型参数；

步骤二、首先将语法改错模型的参数适应到领域c，然后以待改错的句子为条件对输出句子进行建模：

具体地，如图2所示，本实施例中使用源领域数据集对模型进行元训练，从而通过元学习实现语法改错系统少样本领域适应的算法包括以下步骤：

步骤一，定义一组源任务

其中每个源任务是具有特定学习者领域的语法改错系统，而k是学习者的领域数；对于每个元学习事件，从τ中随机抽取任务

然后，从

的数据中独立抽取两个批次，分别是支持批次

和查询批次

首先使用

更新语法改错模型参数：

其中α是学习率，L是交叉熵损失函数，L的计算公式为：

步骤二，在

上评估更新后的参数

并使用从该评估中计算出的梯度来更新原始模型参数θ，在更新θ前可汇总多轮源任务，因此，原始模型参数θ更新如下：

其中，β为元学习率；

步骤三，在元训练片段结束之后，从新的目标任务T_c的示例中完成预设类型任务的学习，以获得特定任务的模型参数θ_c。

进一步地，由于元参数的更新涉及二阶偏导数，计算量大，故本实施例使用一阶近似值来节省内存消耗；其中，内存消耗为计算机进程开销所占的内存。

综上，本实施例利用一组数据丰富的源领域来学习模型参数的初始化，从而以最少的训练实例来快速适应新的目标领域。在语法改错系统的基础上，使用元学习的方法实现了语法改错在少样本领域的适应，提升了语法改错的性能。具有可被应用到任意基于梯度下降的语法改错模型；与具体的语言无关，可对任意语言使用；可有效解决低资源的语法改错问题的优点，妥善解决了现有大多数基于序列的语法纠错方法对某种语言少样本领域纠错性能不够理想的问题。

第二实施例

本实施例提供了一种通过元学习实现语法改错少样本领域适应的系统，该通过元学习实现语法改错少样本领域适应的系统包括以下模块：

本实施例的通过元学习实现语法改错少样本领域适应的系统与上述第一实施例的通过元学习实现语法改错少样本领域适应的方法相对应；其中，本实施例的通过元学习实现语法改错少样本领域适应的系统中的各功能模块所实现的功能与上述第一实施例的通过元学习实现语法改错少样本领域适应的方法中的各流程步骤一一对应；故，在此不再赘述。

第三实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以下步骤：

S1，构建预训练数据集，所述预训练数据集中包括二语学习者所写的句子和母语修改者对二语学习者所写的句子的语法进行修改后的句子；

S2，构建源领域数据集，源领域数据集中包括多个领域的语法改错数据；

S3，构建目标领域数据集，目标领域数据集中包括验证领域的数据和测试领域的数据；

第四实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行以下步骤：

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。