CN114491028A

CN114491028A - 基于正则化元学习的小样本文本分类方法

Info

Publication number: CN114491028A
Application number: CN202210056441.8A
Authority: CN
Inventors: 彭德中; 雷天一; 吕建成; 彭玺; 桑永胜; 胡鹏; 孙亚楠; 王旭; 陈杰; 王骞
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2022-05-13

Abstract

本发明公开了一种基于正则化元学习的小样本文本分类方法，包括以下步骤：构建基于小样本学习框架下的数据集，并将数据集划分训练集、验证集和测试集，从训中抽取出支持集和查询集用于训练模型、验证模型和测试模型；构建基于训练模型的基础学习器；构建基于正则化的元学习的元训练，对训练集中支持集进行基础学习器的参数更新；利用更新后参数对训练集中查询集获取正则化器，并利用损失函数梯度传给元学习器进行两步更新完成元学习的训练过程；保存参数达到最优的模型，并利用该模型对测试集中支持集进行微调，使其适应测试集中的查询集的任务分布，完成对测试集中的查询集进行类别。

Description

基于正则化元学习的小样本文本分类方法

技术领域

本发明涉及一种计算机的语言处理技术领域，特别涉及一种基于正则化元学习的小样本文本分类方法。

背景技术

文本分类在现实生活中有着广泛的应用，文本分类模型也多种多样，包括传统的机器学习方法和现阶段流行的深度学习方法，在数据密集的情况下，目前的机器学习和神经网络模型是非常成功，但当数据集很小时，这些传统方法常常受到阻碍。故将现有预训练模型结合元学习框架，如MAML，Reptile等，可以将先验知识快速地推广到只包含少量样本和监督信息的新任务。但是由于预训练模型的参数量非常大而样本数量受到限制，且文本可能出现缺乏语义信息或样本存在跨域情况，在这种情况下，现存的元学习框架不能使模型学习到足够接近真实的任务分布，甚至连测试集和训练集的任务分布本身都不接近，这些问题都会引起严重的过拟合问题。

另外，由于小样本学习的特殊性，需要学习到不同类别间共性部分和类别变化的情况下模型的泛化能力，所以传统的基于样本与类别对的文本分类数据集不能直接应用于小样本学习任务的训练和测试。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于正则化元学习的小样本文本分类方法，有效解决对小样本学习训练过程中产生的过拟合问题，同时提高了模型的有效容量。

为了解决上述技术问题，本发明通过以下方式来实现：

一种基于正则化元学习的小样本文本分类方法，具体包括以下步骤：

S1、构建基于小样本学习框架下的数据集，并将数据集划分训练集、验证集和测试集，从训练集、验证集和测试集中分别抽取出支持集和查询集用于训练模型、验证模型和测试模型；

S2、构建基于训练模型BERT的基础学习器；

S3、构建基于正则化的元学习的元训练，对训练集中支持集进行基础学习器的参数更新；

S4、利用更新后参数对训练集中查询集获取正则化器，并利用基础学习器的参数和正则化器的参数的损失函数梯度传给元学习器，进行两步更新完成元学习的训练过程；

S5、保存参数达到最优的模型，并利用该模型对测试集中支持集进行微调，使其适应测试集中的查询集的任务分布，完成对测试集中的查询集进行类别。

进一步的，所述步骤S1中，数据集的划分过程包括：将数据集划分训练集、验证集和测试集，小样本文本分类的最小基本元素为任务，将学习目标从学习每个样本中的分类特性变为学习任务间分布，保证各个集合类别互斥；构建对应的N-way K-shot任务，每个任务随机包含N个不同类别、每类别中包含K个不同样本，对构建的任务分布

进行随机抽取，在其对应的训练集、验证集和测试集中分别划分出支持集(support set)和查询集(query set)，完成元学习框架下的数据准备。

进一步的，所述步骤S2中，训练模型BERT的学习器的调整过程是：初始化BERT模型参数Ψ，定为元学习器并设置对应参数优化器并深拷贝模型，设定参数θ为基础学习器，并设置参数优化器。

进一步的，所述步骤S3中，基础学习器的参数更新目标函数为：

其中，x_s和y_s分别表示为支持集中的文本和对应标签。

进一步的，所述步骤S4中，更新后的参数

对查询集获取正则化器，目标函数为：

其中，x_q和y_q分别表示为查询集中的文本和对应标签。

进一步的，所述步骤S4中，损失函数梯度传给元学习器的两步更新公式如下：

与现有技术相比，本发明具有的有益效果：

本申请的小样本文本分类，通过设计一种基于优化器的元学习方法，对其构建正则化器，来解决小样本学习训练过程中产生的过拟合问题，同时提高了模型的有效容量，也学习到了更多任务分布的共性。

附图说明

图1为本发明的算法示意图。

图2为本发明的元学习训练阶段示意图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式作进一步详细的说明。应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它网络或其组合的存在或添加。

如图1～2所示，一种基于正则化元学习的小样本文本分类方法，具体包括以下步骤：

S1、构建基于小样本学习框架下的数据集，将数据集划分训练集、验证集和测试集，保证各个集合类别互斥；从训练集、验证集和测试集中分别抽取出支持集和查询集用于训练模型、验证模型和测试模型；

将传统数据量充足情况下的有监督文本分类中的最小基本元素——样本，转换为小样本文本分类中的最小基本元素——任务，同样将学习目标从学习每个样本之中的分类特性变为学习任务间分布。同时构建对应的N-way K-shot任务，每个任务随机包含N个不同类别、每类别中包含K个不同样本，对构建的任务分布

进行随机抽取，在其对应的训练集、验证集和测试集中分别划分出支持集(support set)和查询集(query set)，完成元学习框架下的数据准备，构建的任务分布

是随机抽取的任务

服从同一任务分布

的通用数学表达。

S2、构建基于训练模型BERT的基础学习器，初始化BERT模型参数Ψ，定为元学习器并设置对应参数优化器并深拷贝模型，设定参数θ为基础学习器，并设置参数优化器。

S3、构建基于正则化的元学习的元训练，对训练集中支持集进行基础学习器的参数更新，基础学习器的参数更新目标函数为：

其中，x_s和y_s分别表示为支持集中的文本和对应标签，arg min表示使式子达到最小值时θ的取值，

表示神经网络训练时的Loss函数，上下标是限定。

S4、利用更新后参数对训练集中查询集获取正则化器，目标函数为：

其中，x_q和y_q分别表示为查询集中的文本和对应标签；

利用基础学习器的参数和正则化器的参数的损失函数梯度传给元学习器，进行两步更新公式如下：

完成元学习的训练过程；

其中，ψ表示元网络的初始参数值，

表示更新一步后的元网络参数值，

表示更新两步后的元网络参数值，θ表示是由公式(1)更新的基础网络参数值，

是由公式(2)更新后的基础网络参数值。

本申请通过训练集中的支持集，以学习任务之中的特性和任务间的共性，及再通过训练集中的查询集以获取正则化器，为最终二者的损失函数梯度传入元学习器。分三个阶段完成对训练集的元学习训练过程，保存能使初始化参数达到最优的模型，并利用该模型对测试集中支持集的微调，使其能够快速适应测试集中的查询集，并完成预测。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节。

Claims

1.一种基于正则化元学习的小样本文本分类方法，其特征在于：具体包括以下步骤：

S2、构建基于训练模型BERT的基础学习器；

2.根据权利要求1所述的一种基于正则化元学习的小样本文本分类方法，其特征在于：

所述步骤S1中，数据集的划分过程包括：将数据集划分训练集、验证集和测试集，小样本文本分类的最小基本元素为任务，将学习目标从学习每个样本中的分类特性变为学习任务间分布，保证各个集合类别互斥；构建对应的N-way K-shot任务，每个任务随机包含N个不同类别、每类别中包含K个不同样本，对构建的任务分布

进行随机抽取，在其对应的训练集、验证集和测试集中分别划分出支持集和查询集，完成元学习框架下的数据准备。

3.根据权利要求1所述的一种基于正则化元学习的小样本文本分类方法，其特征在于：

所述步骤S2中，训练模型BERT的学习器的调整过程是：初始化BERT模型参数Ψ，定为元学习器并设置对应参数优化器并深拷贝模型，设定参数θ为基础学习器，并设置参数优化器。

其中，x_s和y_s分别表示为支持集中的文本和对应标签。

4.根据权利要求1所述的一种基于正则化元学习的小样本文本分类方法，其特征在于：所述步骤S4中，更新后的参数

对查询集获取正则化器，目标函数为：

其中，x_q和y_q分别表示为查询集中的文本和对应标签。

5.根据权利要求4所述的一种基于正则化元学习的小样本文本分类方法，其特征在于：所述步骤S4中，损失函数梯度传给元学习器的两步更新公式如下：