CN115344696A - 一种基于主动学习的开放域小样本文本学习方法 - Google Patents

一种基于主动学习的开放域小样本文本学习方法 Download PDF

Info

Publication number
CN115344696A
CN115344696A CN202210927182.1A CN202210927182A CN115344696A CN 115344696 A CN115344696 A CN 115344696A CN 202210927182 A CN202210927182 A CN 202210927182A CN 115344696 A CN115344696 A CN 115344696A
Authority
CN
China
Prior art keywords
small sample
data
model
learning
sample text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210927182.1A
Other languages
English (en)
Inventor
陈霄鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tenth Research Institute Of Telecommunications Technology Co ltd
Original Assignee
Tenth Research Institute Of Telecommunications Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tenth Research Institute Of Telecommunications Technology Co ltd filed Critical Tenth Research Institute Of Telecommunications Technology Co ltd
Priority to CN202210927182.1A priority Critical patent/CN115344696A/zh
Publication of CN115344696A publication Critical patent/CN115344696A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于主动学习的开放域小样本文本学习方法,首先对小样本文本数据特征编码并初始化小样本模型;再采用主动学习算法获取正确数据集与候选集数据,对候选数据集编码;然后对编码后的候选数据集进行聚类分析,得到最优数目的聚类簇;将最优数目的聚类簇重新聚类,判别出最优簇;进行标注后生成新类别的文本数据以及小样本文本增量数据,将主动学习出的正确数据集、新类别的文本数据、小样本文本增量数据添加至小样本文本数据集;重复执行最终得到充分的文本数据集。本发明将主动学习与小样本学习融合,利用小样本学习的优势,经过主动学习的多次迭代,减少人工标注的数量以及次数,从而使得模型能够快速的落地应用。

Description

一种基于主动学习的开放域小样本文本学习方法
技术领域
本发明属于机器学习技术领域,具体涉及一种开放域小样本文本学习方法。
背景技术
对于自然语言处理中的文本分类,在工程应用中,使用的数据源具体包含文本类别未知、只拥有十几条欲分类的文本数据。最常用的办法是采样一部分数据,对采样数据进行人工标注,根据采样的数据对数据源进行初步分类。通过不断的人工标注,将每类数据积累至万条左右,则可以训练一个相对优秀的文本分类模型。这个方法的优点在于便于实施,而缺点在于需要大量的人力进行人工标注,人工标注会大大影响模型上线的效率。为了解决这个问题,学术界和工业界采用了两种方式,学术界采用了小样本学习的方式,通过一系列的小样本学习算法,训练出一个准确率相对较高的模型作为应用模型;工业界则选择使用主动学习的方式,通过不断的对模型进行快速迭代,使得模型能够在更短的时间内收敛到一个优秀的模型。
主动学习技术背景和学习流程:
1.利用少量的样本数据训练初始化模型;
2.利用初始化模型针对待标注数据进行预测,并计算出最需要标注的数据;
3.人工标注预测出的数据;
4.将标注好的数据与小样本数据融合训练新模型;
5.以上流程经过若干次迭代,使得模型达到最优效果。
6.对于如何计算出最需要标注的数据,目前常用的算法有:基于委员会的查询,投票熵,平均KL散度,期望模型变化,期望误差减少,方差减少,基于密度权重选择。
小样本学习技术背景:
小样本学习方法可以分为三类:数据增强、模型训练优化、梯度下降算法优化。
数据增强方法,就是增加样本数据的方法。
1.自然语言处理领域则可以通过同义词替换,插入,删除的方式来增加样本;
2.寻找与小样本相似的数据集进行补充替换。
模型训练优化,就是通过模型的结构来实现对小样本数据的学习。
1.多任务学习,将多个小样本学习融合成一个有足够样本的多任务学习,并对其中的参数进行共享,从而实现小样本学习;
2.表示学习,通过通用的先验知识学习样本,然后使用特定的表示方法应用到特定应用中;
3.生成式模型方法,通过生成式模型生成样本扩充小样本数据集
梯度下降算法优化,就是学习基于梯度下降的参数更新算法,通过对优化算法的学习,使得模型可以在小样本的问题下可以在最短的迭代次数下实现模型的泛化,降低小样本模型过拟合的问题。梯度下降算法优化的好处在于不需要向模型训练优化方法一样对训练模型的设计有很高的要求。
主动学习的缺点:
训练样本过少,依然会增加人工标注的工作,影响模型训练的迭代效率;
小样本学习的缺点:
1.数据增强的方式在样本特别小的情况下,采用近义词替换,插入,删除的方式扩充文本内容,抑或采用相似数据集扩充文本内容,然而针对特殊行业,采用相似数据集方法又很难找到相似数据集。
2.模型训练优化的方法首先针对不同的人工智能应用不具有普适性,对于模型的优化具有很高的技术门槛。其次模型训练优化方法得到的模型尚不可达到落地应用的程度。
梯度下降算法的优化方式是在训练模型的时候通过分析小样本数据的损失值的梯度设置特定的优化函数,这种优化的方式同样需要很高的技术门槛,梯度下降的优化只能保证模型在当前训练条件下达到最优,即为局部最优。在现实应用中无法达到应用程度。
目前人工智能优化模型的最有效的方法就是增加训练的样本数量,然而大量的人工标注工作对于标注人员需要业务要求,同时标注量巨大。
发明内容
为了克服现有技术的不足,本发明提供了一种基于主动学习的开放域小样本文本学习方法,首先对小样本文本数据特征编码并初始化小样本模型;再采用主动学习算法获取正确数据集与候选集数据,对候选数据集编码;然后对编码后的候选数据集进行聚类分析,得到最优数目的聚类簇;将最优数目的聚类簇重新聚类,判别出最优簇;进行标注后生成新类别的文本数据以及小样本文本增量数据,将主动学习出的正确数据集、新类别的文本数据、小样本文本增量数据添加至小样本文本数据集;重复执行最终得到充分的文本数据集。本发明将主动学习与小样本学习融合,利用小样本学习的优势,经过主动学习的多次迭代,减少人工标注的数量以及次数,从而使得模型能够快速的落地应用。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤101:小样本文本数据特征编码;
将小样本文本数据集的数据编码成特征向量:如果小样本文本数据的分类模型采用存在预训练模型的分类模型,则使用该分类模型的预训练模型进行特征向量编码;如果小样本文本数据的分类模型不存在预训练模型,则随机编码生成特征向量;
步骤102:初始化小样本模型;
将已经编码的特征向量输入小样本文本数据的分类模型,训练得到小样本模型;
步骤103:获取正确数据集与候选集数据;
将未标注的文本数据通过步骤101的编码方法编码后,输入至小样本模型,通过投票熵主动学习算法得到正确数据集和需要人工标注的候选数据集;
步骤104:候选数据集编码;
将候选数据集通过步骤101的编码方法进行编码;
步骤105:对编码后的候选数据集进行聚类分析;通过多次迭代计算簇的误差平方和,找到误差平方和的拐点,得到最优数目的聚类簇;
步骤106:将最优数目的聚类簇重新聚类,对现有标签的小样本文本数据进行预测,通过寻找预测簇中包含最多已知标签,判别出最优簇;
步骤107:对最优簇进行标注;
步骤108:对最优簇进行判别和标注后标注数据会生成新类别的文本数据以及小样本文本增量数据,将主动学习出的正确数据集、新类别的文本数据、小样本文本增量数据添加至小样本文本数据集;
步骤109:设定重复次数,重复执行步骤101至步骤108;
步骤110:步骤109的重复执行结束后,得到充分的文本数据集。
优选地,所述存在预训练模型的分类模型为BERT模型。
优选地,所述不存在预训练模型的分类模型为TextCNN模型。
优选地,所述聚类分析采用KMeans聚类。
本发明的有益效果如下:
本发明将主动学习与小样本学习融合,利用小样本学习的优势,经过主动学习的多次迭代,减少人工标注的数量以及次数,从而使得模型能够快速的落地应用。本发明同时不仅限于人工智能的某个领域,不同领域均可以使用该发明快速的迭代出所需要的模型。
附图说明
图1为本发明方法示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明的目的是利用小样本学习高效地初始化化主动学习的模型,减少人工标注的数量,针对小样本学习识别不准确,模型训练迭代速度慢的问题,加快模型的迭代,用最少的人工标注使得模型达到最优,解决人工智能领域各个任务的模型训练的快速迭代。
一种基于主动学习的开放域小样本文本学习方法,包括如下步骤:
步骤101:小样本文本数据特征编码:将小样本文本数据编码成分类模型可以识别的特征向量,模型如:TextCNN,BERT等模型。如果使用存在预训练模型的分类模型,如已经训练好的BERT模型,则可以使用BERT的预训练模型进行特征向量编码,如果不存在预训练模型,则需要随机生成特征向量。
步骤102:初始化小样本模型:如果使用BERT预训练模型,初始化BERT模型;如果不使用预训练模型,则初始化TextCNN模型;将已经编码的特征向量输入BERT或者TextCNN模型,训练出初始化小样本模型。
步骤103:获取正确数据集与候选集数据:将未标注的文本数据通过特征编码后,输入至初始化小样本模型。通过投票熵的主动学习算法得到正确数据集和需要人工标注的候选数据集。
步骤104:候选数据集编码:如果候选数据集的文本数据存在BERT模型,则使用BERT预训练模型对候选集的数据进行特征编码,其选择的预训练模型与步骤101中的预训练模型一致。否则采用随机初始化的方式对数据进行编码;
步骤105:对编码后的候选集数据进行聚类分析,聚类方法采用KMeans聚类。通过多次迭代计算簇的误差平方和,找到误差平方和的拐点,得到最优数目的聚类簇;
步骤106:根据最优的聚类簇数目重新聚类,对现有标签的小样本数据进行预测,通过寻找预测的簇中包含最多已知标签方法,判别出最优簇;
步骤107:对最优的簇进行判别与标注。
步骤108:判别后标注数据会生成新类别的数据以及小样本的增量数据,将主动学习出的正确识别数据,新增类别数据,小样本增量数据添加至小样本数据集
步骤109:重复步骤101至108若干次;
步骤110:经过步骤109后会得到充分的样本的数据集,利用充分样本的数据集完成特定的任务。
目前人工智能应用面对小样本识别不准确,模型迭代速度慢的痛点,工业界采用主动学习的方式通过多次迭代标注数据使得模型达到最优效果,学术界更偏向使用小样本学习的方式使得模型达到最优。虽然主动学习相较于盲目标注数据是一大进步,但是依然需要大量多次的标注数据。小样本学习虽然充分地利用了小样本数据训练出有一定效果的模型,但是距离模型落地应用依然存在一定差距。本发明将主动学习与小样本学习融合,利用小样本学习的优势,经过主动学习的多次迭代,减少人工标注的数量以及次数,从而使得模型能够快速的落地应用。本发明同时不仅限于人工智能的某个领域,不同领域均可以使用该发明快速的迭代出所需要的模型。
本发明的关键点在于如何将主动学习和小样本学习融合,利用小样本学习对主动学习模型进行初始化,小样本学习采用的算法可根据具体人工智能应用进行选择。
1、主动学习和小样本学习融合的整个方法流程;
2、主动学习算子匹配方法;
3、最优簇数量选择方法;
4、最优簇判别方法。
现有人工智能实施方案针对小样本问题最直接的实施方案为使用大量的人力进行人工标注,或者采用主动学习的方式进行人工标注,以及使用小样本学习在模型层面进行优化。本发明的实施方案将分开的实施方案进行了统一融合,结合了各个方案的优点。针对不同的人工智能应用,采用主动学习和小样本学习均需要针对不同的样本数据就进行算法选择,本发明将不同的人工智能应用融合统一,采用通用的主动学习方法与小样本学习方法,使得应用更具有通用性。本发明除了在小样本文本分类问题上有很好的效果之外,对于解决图像分类问题以及人工智能领域其它的分类问题,也都有非常好的表现。

Claims (4)

1.一种基于主动学习的开放域小样本文本学习方法,其特征在于,包括如下步骤:
步骤101:小样本文本数据特征编码;
将小样本文本数据集的数据编码成特征向量:如果小样本文本数据的分类模型采用存在预训练模型的分类模型,则使用该分类模型的预训练模型进行特征向量编码;如果小样本文本数据的分类模型不存在预训练模型,则随机编码生成特征向量;
步骤102:初始化小样本模型;
将已经编码的特征向量输入小样本文本数据的分类模型,训练得到小样本模型;
步骤103:获取正确数据集与候选集数据;
将未标注的文本数据通过步骤101的编码方法编码后,输入至小样本模型,通过投票熵主动学习算法得到正确数据集和需要人工标注的候选数据集;
步骤104:候选数据集编码;
将候选数据集通过步骤101的编码方法进行编码;
步骤105:对编码后的候选数据集进行聚类分析;通过多次迭代计算簇的误差平方和,找到误差平方和的拐点,得到最优数目的聚类簇;
步骤106:将最优数目的聚类簇重新聚类,对现有标签的小样本文本数据进行预测,通过寻找预测簇中包含最多已知标签,判别出最优簇;
步骤107:对最优簇进行标注;
步骤108:对最优簇进行判别和标注后标注数据会生成新类别的文本数据以及小样本文本增量数据,将主动学习出的正确数据集、新类别的文本数据、小样本文本增量数据添加至小样本文本数据集;
步骤109:设定重复次数,重复执行步骤101至步骤108;
步骤110:步骤109的重复执行结束后,得到充分的文本数据集。
2.根据权利要求1所述的一种基于主动学习的开放域小样本文本学习方法,其特征在于,所述存在预训练模型的分类模型为BERT模型。
3.根据权利要求1所述的一种基于主动学习的开放域小样本文本学习方法,其特征在于,所述不存在预训练模型的分类模型为TextCNN模型。
4.根据权利要求1所述的一种基于主动学习的开放域小样本文本学习方法,其特征在于,所述聚类分析采用KMeans聚类。
CN202210927182.1A 2022-08-03 2022-08-03 一种基于主动学习的开放域小样本文本学习方法 Pending CN115344696A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210927182.1A CN115344696A (zh) 2022-08-03 2022-08-03 一种基于主动学习的开放域小样本文本学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210927182.1A CN115344696A (zh) 2022-08-03 2022-08-03 一种基于主动学习的开放域小样本文本学习方法

Publications (1)

Publication Number Publication Date
CN115344696A true CN115344696A (zh) 2022-11-15

Family

ID=83949814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210927182.1A Pending CN115344696A (zh) 2022-08-03 2022-08-03 一种基于主动学习的开放域小样本文本学习方法

Country Status (1)

Country Link
CN (1) CN115344696A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115774854A (zh) * 2023-01-30 2023-03-10 北京亿赛通科技发展有限责任公司 一种文本分类方法、装置、电子设备和存储介质
CN116721778A (zh) * 2023-08-10 2023-09-08 北方健康医疗大数据科技有限公司 一种医学术语标准化方法、系统、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115774854A (zh) * 2023-01-30 2023-03-10 北京亿赛通科技发展有限责任公司 一种文本分类方法、装置、电子设备和存储介质
CN116721778A (zh) * 2023-08-10 2023-09-08 北方健康医疗大数据科技有限公司 一种医学术语标准化方法、系统、设备及介质
CN116721778B (zh) * 2023-08-10 2024-01-09 北方健康医疗大数据科技有限公司 一种医学术语标准化方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN115344696A (zh) 一种基于主动学习的开放域小样本文本学习方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN112699247A (zh) 一种基于多类交叉熵对比补全编码的知识表示学习框架
CN109034186B (zh) 基于da-rbm分类器模型的手写数据识别方法
CN110046356B (zh) 标签嵌入的微博文本情绪多标签分类方法
CN114528221B (zh) 一种基于异质图神经网络的软件缺陷预测方法
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN111914550A (zh) 一种面向限定领域的知识图谱更新方法及系统
CN115587207A (zh) 一种基于分类标签的深度哈希检索方法
CN110377690B (zh) 一种基于远程关系抽取的信息获取方法和系统
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN110019796A (zh) 一种用户文本信息分析方法及装置
Han et al. Study on the test data fault mining technology based on decision tree
CN110688312A (zh) 一种基于Transformer的软件缺陷预测方法
CN113742396A (zh) 一种对象学习行为模式的挖掘方法及装置
CN111723021B (zh) 一种基于知识库和表示学习的缺陷报告自动分派方法
CN113221575B (zh) Pu强化学习的远程监督命名实体识别方法
CN113392929B (zh) 一种基于词嵌入与自编码器融合的生物序列特征提取方法
CN113342982B (zh) 融合RoBERTa和外部知识库的企业行业分类方法
Wolf et al. Active clustering of document fragments using information derived from both images and catalogs
CN111460160B (zh) 一种基于强化学习的流式文本数据的事件聚类方法
CN112199287B (zh) 基于强化混合专家模型的跨项目软件缺陷预测方法
CN115204179A (zh) 基于电网公共数据模型的实体关系预测的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination