CN114491028A - 基于正则化元学习的小样本文本分类方法 - Google Patents
基于正则化元学习的小样本文本分类方法 Download PDFInfo
- Publication number
- CN114491028A CN114491028A CN202210056441.8A CN202210056441A CN114491028A CN 114491028 A CN114491028 A CN 114491028A CN 202210056441 A CN202210056441 A CN 202210056441A CN 114491028 A CN114491028 A CN 114491028A
- Authority
- CN
- China
- Prior art keywords
- meta
- training
- learning
- model
- learner
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000012360 testing method Methods 0.000 claims abstract description 32
- 230000006870 function Effects 0.000 claims abstract description 14
- 238000012795 verification Methods 0.000 claims abstract description 14
- 238000009826 distribution Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 7
- 238000002360 preparation method Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 101100455978 Arabidopsis thaliana MAM1 gene Proteins 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于正则化元学习的小样本文本分类方法,包括以下步骤:构建基于小样本学习框架下的数据集,并将数据集划分训练集、验证集和测试集,从训中抽取出支持集和查询集用于训练模型、验证模型和测试模型;构建基于训练模型的基础学习器;构建基于正则化的元学习的元训练,对训练集中支持集进行基础学习器的参数更新;利用更新后参数对训练集中查询集获取正则化器,并利用损失函数梯度传给元学习器进行两步更新完成元学习的训练过程;保存参数达到最优的模型,并利用该模型对测试集中支持集进行微调,使其适应测试集中的查询集的任务分布,完成对测试集中的查询集进行类别。
Description
技术领域
本发明涉及一种计算机的语言处理技术领域,特别涉及一种基于正则化元学习的小样本文本分类方法。
背景技术
文本分类在现实生活中有着广泛的应用,文本分类模型也多种多样,包括传统的机器学习方法和现阶段流行的深度学习方法,在数据密集的情况下,目前的机器学习和神经网络模型是非常成功,但当数据集很小时,这些传统方法常常受到阻碍。故将现有预训练模型结合元学习框架,如MAML,Reptile等,可以将先验知识快速地推广到只包含少量样本和监督信息的新任务。但是由于预训练模型的参数量非常大而样本数量受到限制,且文本可能出现缺乏语义信息或样本存在跨域情况,在这种情况下,现存的元学习框架不能使模型学习到足够接近真实的任务分布,甚至连测试集和训练集的任务分布本身都不接近,这些问题都会引起严重的过拟合问题。
另外,由于小样本学习的特殊性,需要学习到不同类别间共性部分和类别变化的情况下模型的泛化能力,所以传统的基于样本与类别对的文本分类数据集不能直接应用于小样本学习任务的训练和测试。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于正则化元学习的小样本文本分类方法,有效解决对小样本学习训练过程中产生的过拟合问题,同时提高了模型的有效容量。
为了解决上述技术问题,本发明通过以下方式来实现:
一种基于正则化元学习的小样本文本分类方法,具体包括以下步骤:
S1、构建基于小样本学习框架下的数据集,并将数据集划分训练集、验证集和测试集,从训练集、验证集和测试集中分别抽取出支持集和查询集用于训练模型、验证模型和测试模型;
S2、构建基于训练模型BERT的基础学习器;
S3、构建基于正则化的元学习的元训练,对训练集中支持集进行基础学习器的参数更新;
S4、利用更新后参数对训练集中查询集获取正则化器,并利用基础学习器的参数和正则化器的参数的损失函数梯度传给元学习器,进行两步更新完成元学习的训练过程;
S5、保存参数达到最优的模型,并利用该模型对测试集中支持集进行微调,使其适应测试集中的查询集的任务分布,完成对测试集中的查询集进行类别。
进一步的,所述步骤S1中,数据集的划分过程包括:将数据集划分训练集、验证集和测试集,小样本文本分类的最小基本元素为任务,将学习目标从学习每个样本中的分类特性变为学习任务间分布,保证各个集合类别互斥;构建对应的N-way K-shot任务,每个任务随机包含N个不同类别、每类别中包含K个不同样本,对构建的任务分布进行随机抽取,在其对应的训练集、验证集和测试集中分别划分出支持集(support set)和查询集(query set),完成元学习框架下的数据准备。
进一步的,所述步骤S2中,训练模型BERT的学习器的调整过程是:初始化BERT模型参数Ψ,定为元学习器并设置对应参数优化器并深拷贝模型,设定参数θ为基础学习器,并设置参数优化器。
进一步的,所述步骤S3中,基础学习器的参数更新目标函数为:
其中,xs和ys分别表示为支持集中的文本和对应标签。
其中,xq和yq分别表示为查询集中的文本和对应标签。
进一步的,所述步骤S4中,损失函数梯度传给元学习器的两步更新公式如下:
与现有技术相比,本发明具有的有益效果:
本申请的小样本文本分类,通过设计一种基于优化器的元学习方法,对其构建正则化器,来解决小样本学习训练过程中产生的过拟合问题,同时提高了模型的有效容量,也学习到了更多任务分布的共性。
附图说明
图1为本发明的算法示意图。
图2为本发明的元学习训练阶段示意图。
具体实施方式
下面结合附图和具体实施例对本发明的具体实施方式作进一步详细的说明。应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它网络或其组合的存在或添加。
如图1~2所示,一种基于正则化元学习的小样本文本分类方法,具体包括以下步骤:
S1、构建基于小样本学习框架下的数据集,将数据集划分训练集、验证集和测试集,保证各个集合类别互斥;从训练集、验证集和测试集中分别抽取出支持集和查询集用于训练模型、验证模型和测试模型;
将传统数据量充足情况下的有监督文本分类中的最小基本元素——样本,转换为小样本文本分类中的最小基本元素——任务,同样将学习目标从学习每个样本之中的分类特性变为学习任务间分布。同时构建对应的N-way K-shot任务,每个任务随机包含N个不同类别、每类别中包含K个不同样本,对构建的任务分布进行随机抽取,在其对应的训练集、验证集和测试集中分别划分出支持集(support set)和查询集(query set),完成元学习框架下的数据准备,构建的任务分布是随机抽取的任务服从同一任务分布的通用数学表达。
S2、构建基于训练模型BERT的基础学习器,初始化BERT模型参数Ψ,定为元学习器并设置对应参数优化器并深拷贝模型,设定参数θ为基础学习器,并设置参数优化器。
S3、构建基于正则化的元学习的元训练,对训练集中支持集进行基础学习器的参数更新,基础学习器的参数更新目标函数为:
S4、利用更新后参数对训练集中查询集获取正则化器,目标函数为:
其中,xq和yq分别表示为查询集中的文本和对应标签;
利用基础学习器的参数和正则化器的参数的损失函数梯度传给元学习器,进行两步更新公式如下:
完成元学习的训练过程;
S5、保存参数达到最优的模型,并利用该模型对测试集中支持集进行微调,使其适应测试集中的查询集的任务分布,完成对测试集中的查询集进行类别。
本申请通过训练集中的支持集,以学习任务之中的特性和任务间的共性,及再通过训练集中的查询集以获取正则化器,为最终二者的损失函数梯度传入元学习器。分三个阶段完成对训练集的元学习训练过程,保存能使初始化参数达到最优的模型,并利用该模型对测试集中支持集的微调,使其能够快速适应测试集中的查询集,并完成预测。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节。
Claims (5)
1.一种基于正则化元学习的小样本文本分类方法,其特征在于:具体包括以下步骤:
S1、构建基于小样本学习框架下的数据集,并将数据集划分训练集、验证集和测试集,从训练集、验证集和测试集中分别抽取出支持集和查询集用于训练模型、验证模型和测试模型;
S2、构建基于训练模型BERT的基础学习器;
S3、构建基于正则化的元学习的元训练,对训练集中支持集进行基础学习器的参数更新;
S4、利用更新后参数对训练集中查询集获取正则化器,并利用基础学习器的参数和正则化器的参数的损失函数梯度传给元学习器,进行两步更新完成元学习的训练过程;
S5、保存参数达到最优的模型,并利用该模型对测试集中支持集进行微调,使其适应测试集中的查询集的任务分布,完成对测试集中的查询集进行类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210056441.8A CN114491028A (zh) | 2022-01-18 | 2022-01-18 | 基于正则化元学习的小样本文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210056441.8A CN114491028A (zh) | 2022-01-18 | 2022-01-18 | 基于正则化元学习的小样本文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114491028A true CN114491028A (zh) | 2022-05-13 |
Family
ID=81472020
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210056441.8A Pending CN114491028A (zh) | 2022-01-18 | 2022-01-18 | 基于正则化元学习的小样本文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114491028A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730300A (zh) * | 2022-12-12 | 2023-03-03 | 西南大学 | 基于混合式对抗元学习算法的程序安全模型构建方法 |
CN116011657A (zh) * | 2023-01-29 | 2023-04-25 | 上海交通大学 | 基于微型pmu的配电网负荷预测模型优选方法、装置及系统 |
CN116071609A (zh) * | 2023-03-29 | 2023-05-05 | 中国科学技术大学 | 基于目标特征动态自适应提取的小样本图像分类方法 |
CN116991984A (zh) * | 2023-09-27 | 2023-11-03 | 人民法院信息技术服务中心 | 广域协同与体系知识增强的电子卷宗材料处理方法及系统 |
-
2022
- 2022-01-18 CN CN202210056441.8A patent/CN114491028A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115730300A (zh) * | 2022-12-12 | 2023-03-03 | 西南大学 | 基于混合式对抗元学习算法的程序安全模型构建方法 |
CN116011657A (zh) * | 2023-01-29 | 2023-04-25 | 上海交通大学 | 基于微型pmu的配电网负荷预测模型优选方法、装置及系统 |
CN116011657B (zh) * | 2023-01-29 | 2023-06-27 | 上海交通大学 | 基于微型pmu的配电网负荷预测模型优选方法、装置及系统 |
CN116071609A (zh) * | 2023-03-29 | 2023-05-05 | 中国科学技术大学 | 基于目标特征动态自适应提取的小样本图像分类方法 |
CN116991984A (zh) * | 2023-09-27 | 2023-11-03 | 人民法院信息技术服务中心 | 广域协同与体系知识增强的电子卷宗材料处理方法及系统 |
CN116991984B (zh) * | 2023-09-27 | 2024-01-12 | 人民法院信息技术服务中心 | 广域协同与体系知识增强的电子卷宗材料处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114491028A (zh) | 基于正则化元学习的小样本文本分类方法 | |
CN109902732B (zh) | 车辆自动分类方法及相关装置 | |
CN107909101B (zh) | 基于卷积神经网络的半监督迁移学习字符识别方法及系统 | |
US8239336B2 (en) | Data processing using restricted boltzmann machines | |
CN114462489A (zh) | 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质 | |
CN110598869B (zh) | 基于序列模型的分类方法、装置、电子设备 | |
WO2020125404A1 (zh) | 构建神经网络的方法、装置和计算机可读介质 | |
CN114186084B (zh) | 在线多模态哈希检索方法、系统、存储介质及设备 | |
CN114491039A (zh) | 基于梯度改进的元学习少样本文本分类方法 | |
CN114140645B (zh) | 基于改进自监督特征学习的摄影图像美学风格分类方法 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN113987236B (zh) | 基于图卷积网络的视觉检索模型的无监督训练方法和装置 | |
CN113743203A (zh) | 基于深度迁移学习网络的笔记本屏幕缺陷检测方法及设备 | |
CN114386482A (zh) | 一种基于半监督增量学习的图片分类系统及分类方法 | |
CN112270334B (zh) | 一种基于异常点暴露的少样本图像分类方法及系统 | |
CN114048843A (zh) | 一种基于选择性特征迁移的小样本学习网络 | |
CN113779988A (zh) | 一种通信领域过程类知识事件抽取方法 | |
CN110163716B (zh) | 一种基于卷积神经网络的红酒推荐方法 | |
CN117058394A (zh) | 一种零样本语义分割方法 | |
CN112199505A (zh) | 一种基于特征表示学习的跨领域情感分类方法及系统 | |
KR102211762B1 (ko) | 딥러닝 기반 컬러링 방법, 시스템 및 프로그램 | |
CN116681128A (zh) | 一种带噪多标签数据的神经网络模型训练方法和装置 | |
CN114170484B (zh) | 图片属性预测方法、装置、电子设备和存储介质 | |
CN116108195A (zh) | 基于时序元学习的动态知识图谱预测方法和装置 | |
CN112989088B (zh) | 一种基于强化学习的视觉关系实例学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220513 |