CN114491028A - 基于正则化元学习的小样本文本分类方法 - Google Patents

基于正则化元学习的小样本文本分类方法 Download PDF

Info

Publication number
CN114491028A
CN114491028A CN202210056441.8A CN202210056441A CN114491028A CN 114491028 A CN114491028 A CN 114491028A CN 202210056441 A CN202210056441 A CN 202210056441A CN 114491028 A CN114491028 A CN 114491028A
Authority
CN
China
Prior art keywords
meta
training
learning
model
learner
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210056441.8A
Other languages
English (en)
Inventor
彭德中
雷天一
吕建成
彭玺
桑永胜
胡鹏
孙亚楠
王旭
陈杰
王骞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202210056441.8A priority Critical patent/CN114491028A/zh
Publication of CN114491028A publication Critical patent/CN114491028A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于正则化元学习的小样本文本分类方法,包括以下步骤:构建基于小样本学习框架下的数据集,并将数据集划分训练集、验证集和测试集,从训中抽取出支持集和查询集用于训练模型、验证模型和测试模型;构建基于训练模型的基础学习器;构建基于正则化的元学习的元训练,对训练集中支持集进行基础学习器的参数更新;利用更新后参数对训练集中查询集获取正则化器,并利用损失函数梯度传给元学习器进行两步更新完成元学习的训练过程;保存参数达到最优的模型,并利用该模型对测试集中支持集进行微调,使其适应测试集中的查询集的任务分布,完成对测试集中的查询集进行类别。

Description

基于正则化元学习的小样本文本分类方法
技术领域
本发明涉及一种计算机的语言处理技术领域,特别涉及一种基于正则化元学习的小样本文本分类方法。
背景技术
文本分类在现实生活中有着广泛的应用,文本分类模型也多种多样,包括传统的机器学习方法和现阶段流行的深度学习方法,在数据密集的情况下,目前的机器学习和神经网络模型是非常成功,但当数据集很小时,这些传统方法常常受到阻碍。故将现有预训练模型结合元学习框架,如MAML,Reptile等,可以将先验知识快速地推广到只包含少量样本和监督信息的新任务。但是由于预训练模型的参数量非常大而样本数量受到限制,且文本可能出现缺乏语义信息或样本存在跨域情况,在这种情况下,现存的元学习框架不能使模型学习到足够接近真实的任务分布,甚至连测试集和训练集的任务分布本身都不接近,这些问题都会引起严重的过拟合问题。
另外,由于小样本学习的特殊性,需要学习到不同类别间共性部分和类别变化的情况下模型的泛化能力,所以传统的基于样本与类别对的文本分类数据集不能直接应用于小样本学习任务的训练和测试。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于正则化元学习的小样本文本分类方法,有效解决对小样本学习训练过程中产生的过拟合问题,同时提高了模型的有效容量。
为了解决上述技术问题,本发明通过以下方式来实现:
一种基于正则化元学习的小样本文本分类方法,具体包括以下步骤:
S1、构建基于小样本学习框架下的数据集,并将数据集划分训练集、验证集和测试集,从训练集、验证集和测试集中分别抽取出支持集和查询集用于训练模型、验证模型和测试模型;
S2、构建基于训练模型BERT的基础学习器;
S3、构建基于正则化的元学习的元训练,对训练集中支持集进行基础学习器的参数更新;
S4、利用更新后参数对训练集中查询集获取正则化器,并利用基础学习器的参数和正则化器的参数的损失函数梯度传给元学习器,进行两步更新完成元学习的训练过程;
S5、保存参数达到最优的模型,并利用该模型对测试集中支持集进行微调,使其适应测试集中的查询集的任务分布,完成对测试集中的查询集进行类别。
进一步的,所述步骤S1中,数据集的划分过程包括:将数据集划分训练集、验证集和测试集,小样本文本分类的最小基本元素为任务,将学习目标从学习每个样本中的分类特性变为学习任务间分布,保证各个集合类别互斥;构建对应的N-way K-shot任务,每个任务随机包含N个不同类别、每类别中包含K个不同样本,对构建的任务分布
Figure BDA0003476685590000021
进行随机抽取,在其对应的训练集、验证集和测试集中分别划分出支持集(support set)和查询集(query set),完成元学习框架下的数据准备。
进一步的,所述步骤S2中,训练模型BERT的学习器的调整过程是:初始化BERT模型参数Ψ,定为元学习器并设置对应参数优化器并深拷贝模型,设定参数θ为基础学习器,并设置参数优化器。
进一步的,所述步骤S3中,基础学习器的参数更新目标函数为:
Figure BDA0003476685590000022
其中,xs和ys分别表示为支持集中的文本和对应标签。
进一步的,所述步骤S4中,更新后的参数
Figure BDA0003476685590000023
对查询集获取正则化器,目标函数为:
Figure BDA0003476685590000024
其中,xq和yq分别表示为查询集中的文本和对应标签。
进一步的,所述步骤S4中,损失函数梯度传给元学习器的两步更新公式如下:
Figure BDA0003476685590000025
Figure BDA0003476685590000026
与现有技术相比,本发明具有的有益效果:
本申请的小样本文本分类,通过设计一种基于优化器的元学习方法,对其构建正则化器,来解决小样本学习训练过程中产生的过拟合问题,同时提高了模型的有效容量,也学习到了更多任务分布的共性。
附图说明
图1为本发明的算法示意图。
图2为本发明的元学习训练阶段示意图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式作进一步详细的说明。应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它网络或其组合的存在或添加。
如图1~2所示,一种基于正则化元学习的小样本文本分类方法,具体包括以下步骤:
S1、构建基于小样本学习框架下的数据集,将数据集划分训练集、验证集和测试集,保证各个集合类别互斥;从训练集、验证集和测试集中分别抽取出支持集和查询集用于训练模型、验证模型和测试模型;
将传统数据量充足情况下的有监督文本分类中的最小基本元素——样本,转换为小样本文本分类中的最小基本元素——任务,同样将学习目标从学习每个样本之中的分类特性变为学习任务间分布。同时构建对应的N-way K-shot任务,每个任务随机包含N个不同类别、每类别中包含K个不同样本,对构建的任务分布
Figure BDA0003476685590000031
进行随机抽取,在其对应的训练集、验证集和测试集中分别划分出支持集(support set)和查询集(query set),完成元学习框架下的数据准备,构建的任务分布
Figure BDA0003476685590000032
是随机抽取的任务
Figure BDA0003476685590000033
服从同一任务分布
Figure BDA0003476685590000034
的通用数学表达。
S2、构建基于训练模型BERT的基础学习器,初始化BERT模型参数Ψ,定为元学习器并设置对应参数优化器并深拷贝模型,设定参数θ为基础学习器,并设置参数优化器。
S3、构建基于正则化的元学习的元训练,对训练集中支持集进行基础学习器的参数更新,基础学习器的参数更新目标函数为:
Figure BDA0003476685590000035
其中,xs和ys分别表示为支持集中的文本和对应标签,arg min表示使式子达到最小值时θ的取值,
Figure BDA0003476685590000036
表示神经网络训练时的Loss函数,上下标是限定。
S4、利用更新后参数对训练集中查询集获取正则化器,目标函数为:
Figure BDA0003476685590000041
其中,xq和yq分别表示为查询集中的文本和对应标签;
利用基础学习器的参数和正则化器的参数的损失函数梯度传给元学习器,进行两步更新公式如下:
Figure BDA0003476685590000042
Figure BDA0003476685590000043
完成元学习的训练过程;
其中,ψ表示元网络的初始参数值,
Figure BDA0003476685590000044
表示更新一步后的元网络参数值,
Figure BDA0003476685590000045
表示更新两步后的元网络参数值,θ表示是由公式(1)更新的基础网络参数值,
Figure BDA0003476685590000046
是由公式(2)更新后的基础网络参数值。
S5、保存参数达到最优的模型,并利用该模型对测试集中支持集进行微调,使其适应测试集中的查询集的任务分布,完成对测试集中的查询集进行类别。
本申请通过训练集中的支持集,以学习任务之中的特性和任务间的共性,及再通过训练集中的查询集以获取正则化器,为最终二者的损失函数梯度传入元学习器。分三个阶段完成对训练集的元学习训练过程,保存能使初始化参数达到最优的模型,并利用该模型对测试集中支持集的微调,使其能够快速适应测试集中的查询集,并完成预测。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节。

Claims (5)

1.一种基于正则化元学习的小样本文本分类方法,其特征在于:具体包括以下步骤:
S1、构建基于小样本学习框架下的数据集,并将数据集划分训练集、验证集和测试集,从训练集、验证集和测试集中分别抽取出支持集和查询集用于训练模型、验证模型和测试模型;
S2、构建基于训练模型BERT的基础学习器;
S3、构建基于正则化的元学习的元训练,对训练集中支持集进行基础学习器的参数更新;
S4、利用更新后参数对训练集中查询集获取正则化器,并利用基础学习器的参数和正则化器的参数的损失函数梯度传给元学习器,进行两步更新完成元学习的训练过程;
S5、保存参数达到最优的模型,并利用该模型对测试集中支持集进行微调,使其适应测试集中的查询集的任务分布,完成对测试集中的查询集进行类别。
2.根据权利要求1所述的一种基于正则化元学习的小样本文本分类方法,其特征在于:
所述步骤S1中,数据集的划分过程包括:将数据集划分训练集、验证集和测试集,小样本文本分类的最小基本元素为任务,将学习目标从学习每个样本中的分类特性变为学习任务间分布,保证各个集合类别互斥;构建对应的N-way K-shot任务,每个任务随机包含N个不同类别、每类别中包含K个不同样本,对构建的任务分布
Figure FDA0003476685580000011
进行随机抽取,在其对应的训练集、验证集和测试集中分别划分出支持集和查询集,完成元学习框架下的数据准备。
3.根据权利要求1所述的一种基于正则化元学习的小样本文本分类方法,其特征在于:
所述步骤S2中,训练模型BERT的学习器的调整过程是:初始化BERT模型参数Ψ,定为元学习器并设置对应参数优化器并深拷贝模型,设定参数θ为基础学习器,并设置参数优化器。
进一步的,所述步骤S3中,基础学习器的参数更新目标函数为:
Figure FDA0003476685580000012
其中,xs和ys分别表示为支持集中的文本和对应标签。
4.根据权利要求1所述的一种基于正则化元学习的小样本文本分类方法,其特征在于:所述步骤S4中,更新后的参数
Figure FDA0003476685580000013
对查询集获取正则化器,目标函数为:
Figure FDA0003476685580000021
其中,xq和yq分别表示为查询集中的文本和对应标签。
5.根据权利要求4所述的一种基于正则化元学习的小样本文本分类方法,其特征在于:所述步骤S4中,损失函数梯度传给元学习器的两步更新公式如下:
Figure FDA0003476685580000022
Figure FDA0003476685580000023
CN202210056441.8A 2022-01-18 2022-01-18 基于正则化元学习的小样本文本分类方法 Pending CN114491028A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210056441.8A CN114491028A (zh) 2022-01-18 2022-01-18 基于正则化元学习的小样本文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210056441.8A CN114491028A (zh) 2022-01-18 2022-01-18 基于正则化元学习的小样本文本分类方法

Publications (1)

Publication Number Publication Date
CN114491028A true CN114491028A (zh) 2022-05-13

Family

ID=81472020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210056441.8A Pending CN114491028A (zh) 2022-01-18 2022-01-18 基于正则化元学习的小样本文本分类方法

Country Status (1)

Country Link
CN (1) CN114491028A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115730300A (zh) * 2022-12-12 2023-03-03 西南大学 基于混合式对抗元学习算法的程序安全模型构建方法
CN116011657A (zh) * 2023-01-29 2023-04-25 上海交通大学 基于微型pmu的配电网负荷预测模型优选方法、装置及系统
CN116071609A (zh) * 2023-03-29 2023-05-05 中国科学技术大学 基于目标特征动态自适应提取的小样本图像分类方法
CN116991984A (zh) * 2023-09-27 2023-11-03 人民法院信息技术服务中心 广域协同与体系知识增强的电子卷宗材料处理方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115730300A (zh) * 2022-12-12 2023-03-03 西南大学 基于混合式对抗元学习算法的程序安全模型构建方法
CN116011657A (zh) * 2023-01-29 2023-04-25 上海交通大学 基于微型pmu的配电网负荷预测模型优选方法、装置及系统
CN116011657B (zh) * 2023-01-29 2023-06-27 上海交通大学 基于微型pmu的配电网负荷预测模型优选方法、装置及系统
CN116071609A (zh) * 2023-03-29 2023-05-05 中国科学技术大学 基于目标特征动态自适应提取的小样本图像分类方法
CN116991984A (zh) * 2023-09-27 2023-11-03 人民法院信息技术服务中心 广域协同与体系知识增强的电子卷宗材料处理方法及系统
CN116991984B (zh) * 2023-09-27 2024-01-12 人民法院信息技术服务中心 广域协同与体系知识增强的电子卷宗材料处理方法及系统

Similar Documents

Publication Publication Date Title
CN114491028A (zh) 基于正则化元学习的小样本文本分类方法
CN109902732B (zh) 车辆自动分类方法及相关装置
CN107909101B (zh) 基于卷积神经网络的半监督迁移学习字符识别方法及系统
US8239336B2 (en) Data processing using restricted boltzmann machines
CN114462489A (zh) 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
WO2020125404A1 (zh) 构建神经网络的方法、装置和计算机可读介质
CN114186084B (zh) 在线多模态哈希检索方法、系统、存储介质及设备
CN114491039A (zh) 基于梯度改进的元学习少样本文本分类方法
CN114140645B (zh) 基于改进自监督特征学习的摄影图像美学风格分类方法
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN113987236B (zh) 基于图卷积网络的视觉检索模型的无监督训练方法和装置
CN113743203A (zh) 基于深度迁移学习网络的笔记本屏幕缺陷检测方法及设备
CN114386482A (zh) 一种基于半监督增量学习的图片分类系统及分类方法
CN112270334B (zh) 一种基于异常点暴露的少样本图像分类方法及系统
CN114048843A (zh) 一种基于选择性特征迁移的小样本学习网络
CN113779988A (zh) 一种通信领域过程类知识事件抽取方法
CN110163716B (zh) 一种基于卷积神经网络的红酒推荐方法
CN117058394A (zh) 一种零样本语义分割方法
CN112199505A (zh) 一种基于特征表示学习的跨领域情感分类方法及系统
KR102211762B1 (ko) 딥러닝 기반 컬러링 방법, 시스템 및 프로그램
CN116681128A (zh) 一种带噪多标签数据的神经网络模型训练方法和装置
CN114170484B (zh) 图片属性预测方法、装置、电子设备和存储介质
CN116108195A (zh) 基于时序元学习的动态知识图谱预测方法和装置
CN112989088B (zh) 一种基于强化学习的视觉关系实例学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220513