CN112132179A - 基于少量标注样本的增量学习方法及系统 - Google Patents

基于少量标注样本的增量学习方法及系统 Download PDF

Info

Publication number
CN112132179A
CN112132179A CN202010840523.2A CN202010840523A CN112132179A CN 112132179 A CN112132179 A CN 112132179A CN 202010840523 A CN202010840523 A CN 202010840523A CN 112132179 A CN112132179 A CN 112132179A
Authority
CN
China
Prior art keywords
learning
data set
incremental learning
model
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010840523.2A
Other languages
English (en)
Inventor
卢记仓
周刚
兰明敬
张伟
陈静
吴建萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202010840523.2A priority Critical patent/CN112132179A/zh
Publication of CN112132179A publication Critical patent/CN112132179A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据智能分析技术领域,特别涉及一种基于少量标注样本的增量学习方法及系统,收集样本数据;对少量已标注样本扩充增强,获得可靠标签数据集,利用该可靠标签数据集对网络进行学习获得预训练模型;基于网络预训练模型,对大量未标注样本进行预测分类,构建增量学习候选数据集;将可靠标签数据集和增量学习候选数据集组合得到增量学习数据集,对网络预训练模型进行增量学习,并利用可靠标签数据集对增量学习所得模型进行校准学习;利用校准学习后预训练模型对未标注数据进行预测分类,通过设置循环迭代条件来判定返回重新执行。本发明在仅有少量标注样本情况下通过增量学习得到用于分类识别的可靠样本数据,提升分类识别性能和准确率。

Description

基于少量标注样本的增量学习方法及系统
技术领域
本发明属于大数据智能分析技术领域,特别涉及一种基于少量标注样本的增量学习方法及系统。
背景技术
IDC在《数据时代2025》白皮书中指出,2025年全球数据量将达到163ZB,且其中约20%将会是性命攸关的数据,约10%会达到超级关键的程度。数据大爆炸促使信息时代向数据时代的转变,诱发了科学研究第四范式——数据密集型科学研究的产生,但也带来了新的问题。如何从多源异构、种类和模态繁多的大数据中挖掘高价值信息和知识早已超出传统人工手段的能力范围,人工智能技术尤其是深度学习技术的发展为大数据挖掘分析和预测研究等提供了一种可能的方法。目前以有监督深度学习为代表的算法往往需要大量标注样本作为基础支撑,然而,相对于海量异构大数据,由于应用场景、隐私、安全等原因,大规模高质量的标注数据往往极为缺乏,限制了此类人工智能算法尤其是深度学习算法的性能发挥与应用。标注样本缺乏主要表现在两个方面:一是类别不平衡情况下的标注样本缺乏,主要表现为多类样本中某一类或几类样本的标注数量或规模远远大于另外一类或几类样本的标注数量或规模,从而使得算法或模型在不同类别样本的学习中产生偏见;二是类别平衡条件下的标注样本缺乏,主要表现为各类样本的标注数量或规模相差不大。近年来,深度学习技术的飞速发展使得上述问题表现更为突出。
标注样本缺乏问题受到了研究者的广泛关注,从分析场景来看,包括少量样本学习(Small data、Few-shot Learning)、1样本学习(One-shot Learning)、零样本学习(Zero-shot Learning)等。针对上述问题,已有的解决策略主要包括:新样本标注、数据增强以及基于少量标注样本的新算法研究等,大多数方法通常会尝试结合多种策略进行研究。针对关注类别平衡条件下标注样本缺乏问题的研究,一种有效解决方法就是半监督学习,起源于20世纪90年代。简单来看,已有研究大致可认为从两个角度展开:一是借助外界相关知识,研究设计基于少量已知标注样本的半监督学习方法;二是不借助外界相关知识,主要通过研究设计新的模型架构或改进已有模型的学习策略,进而给出新的学习方法。上述研究虽然在一定程度上能够改善少量标注样本情况下的分类识别性能,但在方法的适用性以及准确率上都有待进一步提升。
发明内容
为此,本发明提供一种基于少量标注样本的增量学习方法及系统,在仅有很少量标注样本情况下能够通过增量学习得到用于分类识别处理的可靠样本数据,以提升分类识别性能和准确率。
按照本发明所提供的设计方案,一种基于少量标注样本的增量学习方法,包含如下内容:
收集样本数据,包含:少量已标注样本和大量未标注样本;
对少量已标注样本进行扩充增强,获得可靠标签数据集,利用该可靠标签数据集对网络进行学习获得预训练模型,调整模型收敛参数和配置;基于学习后的网络预训练模型,对大量未标注样本进行预测分类,依据分类结果构建增量学习候选数据集;
将可靠标签数据集和增量学习候选数据集组合得到增量学习数据集;利用该增量学习数据集对网络预训练模型进行增量学习,并利用可靠标签数据集对增量学习所得模型进行校准学习;
利用校准学习后的所得模型对未标注数据进行预测分类,通过设置是否达到预设期望的循环迭代条件来判定是否返回重新执行构建增量学习候选数据集及增量学习和校准学习步骤内容。
作为本发明基于少量标注样本的增量学习方法,进一步地,针对少量已标注样本,依据样本数据的类型及分布特性,利用数据增强方法对其进行扩充增强来获取可靠标签数据集。
作为本发明基于少量标注样本的增量学习方法,进一步地,基于学习后的网络预训练模型,对大量未标注样本进行预测分类识别,得到各样本分别属于各类别的得分值,将得分值大于预设选择阈值的样本作为增量学习候选数据,并以得分值确定的类别对样本添加临时标签,构建增量学习候选数据集。
作为本发明基于少量标注样本的增量学习方法,进一步地,按照模型收敛参数和配置,利用增量学习数据集对网络预训练模型进行增量学习,以通过模型训练得到扩展预训练模型。
作为本发明基于少量标注样本的增量学习方法,进一步地,针对扩展预训练模型,利用可靠标签数据集进行校准学习,以通过模型训练消除增量学习中引入的噪声。
作为本发明基于少量标注样本的增量学习方法,进一步地,预设期望的循环迭代条件为预先设置的循环迭代次数。
进一步地,本发明还提供一种基于少量标注样本的增量学习系统,包含:收集模块,扩充模块,增量校准模块和循环迭代模块,其中,
收集模块,用于收集样本数据,包含:少量已标注样本和大量未标注样本;
扩充模块,用于对少量已标注样本进行扩充增强,获得可靠标签数据集,利用该可靠标签数据集对网络进行学习获得预训练模型,调整模型收敛参数和配置;基于学习后的网络预训练模型,对大量未标注样本进行预测分类,依据分类结果构建增量学习候选数据集;
增量校准模块,用于将可靠标签数据集和增量学习候选数据集组合得到增量学习数据集;利用该增量学习数据集对网络预训练模型进行增量学习,并利用可靠标签数据集对增量学习所得模型进行校准学习;
循环迭代模块,用于利用校准学习后的所得模型对未标注数据进行预测分类,通过设置是否达到预设期望的循环迭代条件来判定是否返回重新执行构建增量学习候选数据集及增量学习和校准学习步骤内容。
进一步地,本发明还提供一种用于视觉类数据分类识别方法,包含如下内容:
分析视觉类数据的图像通道数量、尺寸及类别数量信息,选取用于图像类数据分析的卷积神经网络深度学习模型作为网络预训练模型;
并采用上述的基于少量标注样本的增量学习方法,在少量标注样本情况下基于网络预训练模型及迭代增量学习和校准学习对大量未标注样本数据进行分类识别。
进一步地,本发明还提供一种用于自然语言数据分析处理方法,包含如下内容:
分析文本数据长度、领域、向量表示及分析任务,选取用于文本类数据分析的深度学习网络模型;并采用上述的基于少量标注样本的增量学习方法,在少量标注样本情况下基于网络预训练模型及迭代增量学习和校准学习对大量未标注样本数据进行分类识别。
本发明的有益效果:
本发明考虑到仅有少量标注样本时导致传统算法或深度学习模型的分类识别准确率严重降低的问题,采用样本标注与数据增强扩充原少量标注样本数据集进而学习预训练模型,预测未标注数据并构建增量学习候选数据集,能够进一步扩充带标签数据,进而提升模型的学习能力;通过使用原少量标注样本数据和扩充增强数据对增量学习所得模型进行校准学习,能够对增量学习候选数据集构建时可能引入的错误标签数据带来的训练误差或噪声进行校准,使得模型更可靠,进而提升分类识别准确性;在大数据时代仅有少量标注样本的情况下,针对已有分类识别算法或模型在训练过程中存在的标注样本缺乏、准确率低等问题,利用可靠标签样本数据学习预训练模型,在此基础上,进一步循环使用增量学习和校准学习策略,不断提升和优化模型性能,进而更好地提升分类识别准确率。
附图说明:
图1为实施例中样本增量学习流程示意图;
图2为实施例中样本增量学习系统模块示意图;
图3为实施例中已知标注样本数量为50时不同策略训练分类对比示意;
图4为实施例中已知标注样本数量为200时不同策略训练分类对比示意;
图5为实施例中已知标注样本数量为1000时不同策略训练分类对比示意;
图6为实施例中已知标注样本数量为50000时不同策略训练分类对比示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。
针对图像识别或自然语言类数据处理中,仅有少量标注样本时导致传统算法或深度学习模型的分类识别准确率严重降低等的问题,本发明实施例,提供一种基于少量标注样本的增量学习方法,包含如下内容:
S101、收集样本数据,包含:少量已标注样本和大量未标注样本;
S102、对少量已标注样本进行扩充增强,获得可靠标签数据集,利用该可靠标签数据集对网络进行学习获得预训练模型,调整模型收敛参数和配置;基于学习后的网络预训练模型,对大量未标注样本进行预测分类,依据分类结果构建增量学习候选数据集;
S103、将可靠标签数据集和增量学习候选数据集组合得到增量学习数据集;利用该增量学习数据集对网络预训练模型进行增量学习,并利用可靠标签数据集对增量学习所得模型进行校准学习;
S104、利用校准学习后的所得模型对未标注数据进行预测分类,通过设置是否达到预设期望的循环迭代条件来判定是否返回重新执行构建增量学习候选数据集及增量学习和校准学习步骤内容。
参见图1所示,基于少量标注样本增量学习的分类识别中,将已标注标签样本数据作为样本数据集A,未标注标签数据作为样本数据集B,其中,因实际分类识别中已有的标签数据较少,大多存在未标注标签数据,因此,样本数据集合A规模要远远小于样本数据集B规模,因此,样本数据集A即可称为少量已标注样本,样本数据集合B称为大量未标注标签样本。本案实施例中,首先分析少量已标注样本及大量未标注样本的数据特点,从已有经典算法或模型库中选择适用的模型,并采用人工标注或数据增强方法对少量已标注样本进行扩充增强,作为可靠标签数据集;然后,基于可靠标签数据集学习预训练模型,用其对测试数据分类,根据结果构建增量学习候选数据集;其次,将可靠标签数据和增量学习候选数据组合得到增量学习数据集,基于其对预训练模型进行增量学习,在此基础上,再次利用可靠标签数据集对增量学习所得模型进行校准学习;最后,基于校准学习模型对未标注数据进行预测,若未达到期望目标,则基于此结果重新构建增量学习数据集,循环执行上述增量学习和校准学习过程,直至满足期望训练目标后退出。预训练模型是在对已有少量标注样本数据进行扩充增强后,获得相对更多可靠标签数据基础上学习得到的;增量学习主要利用预训练模型对大量未知标签数据进行分类识别,根据结果进一步扩充数据集,并用其对预训练模型继续学习;校准学习主要利用原可靠标签数据对增量学习所得模型进行继续学习,以去除或纠正增量学习过程中可能引入的噪声或误差,提升分类识别准确性和性能。
作为本发明实施例中的基于少量标注样本的增量学习方法,进一步地,针对少量已标注样本,依据样本数据的类型及分布特性,利用数据增强方法对其进行扩充增强来获取可靠标签数据集。
通过分析获取少量标注样本集Dtrain、待分类识别样本集Dtest等数据的类型、表示模式、维度、已标注及未标注样本数量等特性,选择适用模型。在原始少量标注样本数据集Dtrain的基础上,根据样本数据的类型及分布特性,选择合适的数据标注与增强方法进行处理,获得更多可靠的带标签样本数据,可将扩充增强后的已标注样本数据集记为Dentrain;合理设计与配置所选择模型的预训练参数及超参数,比如:网络层数、节点数、参数初始化方法等结构参数以及学习率、优化算法、训练回合数、损失函数等,训练得到相应的预训练模型ModelPre
作为本发明实施例中的基于少量标注样本的增量学习方法,进一步地,基于学习后的网络预训练模型,对大量未标注样本进行预测分类识别,得到各样本分别属于各类别的得分值,将得分值大于预设选择阈值的样本作为增量学习候选数据,并以得分值确定的类别对样本添加临时标签,构建增量学习候选数据集。
根据设定的增量学习候选样本选择阈值ExCand_thrd,选择得分值大于阈值的样本作为候选样本集Dcand,同时,以得分值确定的类别对样本添加临时标签,这样就能够获取更多的带标签的样本数据。
作为本发明实施例中的基于少量标注样本的增量学习方法,进一步地,按照模型收敛参数和配置,利用增量学习数据集对网络预训练模型进行增量学习,以通过模型训练得到扩展预训练模型。
将获取的增量学习候选样本集Dcand与扩充增强后的数据集Dentrain合并,得到一个规模更大的带标注的训练样本数据集Dextrain,将其作为新的训练样本集,按照预先配置的参数,对预训练模型继续进行训练,称为增量学习,得到更新的增量学习模型ModelEx
作为本发明实施例中的基于少量标注样本的增量学习方法,进一步地,针对扩展预训练模型,利用可靠标签数据集进行校准学习,以通过模型训练消除增量学习中引入的噪声。进一步地,预设期望的循环迭代条件为预先设置的循环迭代次数。
使用扩充构建的训练样本数据集Dentrain,按照预先配置的参数,对增量学习得到的模型进行继续训练,将其称为校准学习,进一步得到更新的校准学习模型ModelCal。基于获得的校准学习模型分析训练及预测结果是否满足结束判别条件,若不满足,则将校准学习得到的模型ModelCal作为预训练模型ModelPre,返回到构建增量学习的候选数据集继续模型训练学习,如此循环执行,直到满足结束条件为止;若满足结束条件,则保存模型,所得模型用于所有未标注数据的预测分类,输出结果并结束运行。
进一步地,基于上述的方法,本发明还提供一种基于少量标注样本的增量学习系统,包含:收集模块,扩充模块,增量校准模块和循环迭代模块,其中,
收集模块,用于收集样本数据,包含:少量已标注样本和大量未标注样本;
扩充模块,用于对少量已标注样本进行扩充增强,获得可靠标签数据集,利用该可靠标签数据集对网络进行学习获得预训练模型,调整模型收敛参数和配置;基于学习后的网络预训练模型,对大量未标注样本进行预测分类,依据分类结果构建增量学习候选数据集;
增量校准模块,用于将可靠标签数据集和增量学习候选数据集组合得到增量学习数据集;利用该增量学习数据集对网络预训练模型进行增量学习,并利用可靠标签数据集对增量学习所得模型进行校准学习;
循环迭代模块,用于利用校准学习后的所得模型对未标注数据进行预测分类,通过设置是否达到预设期望的循环迭代条件来判定是否返回重新执行构建增量学习候选数据集及增量学习和校准学习步骤内容。
本发明实施例中少量标注样本增量学习的分类识别算法可描述如下:
Figure BDA0002641214250000051
Figure BDA0002641214250000061
基于图1所示原理框架,在具体系统或算例实现中,可通过模块化的方法进行构建与设计实现,主要包括如图2所示模块及处理流程,即依次为数据分析模块、算法或模型选择模块、数据扩充增强模块、模型参数配置及预训练模块、增量学习与校准学习循环迭代模块。
进一步地,本发明实施例还提供一种用于视觉类数据分类识别方法,包含如下内容:
分析视觉类数据的图像通道数量、尺寸及类别数量信息,选取用于图像类数据分析的卷积神经网络深度学习模型作为网络预训练模型;
并采用上述的基于少量标注样本的增量学习方法,在少量标注样本情况下基于网络预训练模型及迭代增量学习和校准学习对大量未标注样本数据进行分类识别。
进一步地,本发明实施例还提供一种用于自然语言数据分析处理方法,包含如下内容:
分析文本数据长度、领域、向量表示及分析任务,选取用于文本类数据分析的深度学习网络模型;并采用上述的基于少量标注样本的增量学习方法,在少量标注样本情况下基于网络预训练模型及迭代增量学习和校准学习对大量未标注样本数据进行分类识别。
通过分析获取数据的类型、表示模式、维度、已标注及未标注样本数量等特性,在此基础上,选择适用的模型开展后续工作,比如:对于图像等计算机视觉类数据,就需要分析图像的通道数量、尺寸以及包含多少类别和对应的数量等信息,据此选择适用于图像类数据分析的卷积神经网络等深度学习模型进行分析;对于文本等自然语言处理类数据,就需要分析文本的长度、主题领域、是否已有向量表示以及待完成的分析任务等信息,据此选择适用于文本类数据分析的循环网络、Transformer架构或Bert等深度学习模型进行分析。根据已有样本情况,通过新样本标注、数据增强等方法扩充带标签数据。在原始少量标注样本数据集Dtrain的基础上,根据样本数据的类型及分布特性,选择合适的数据标注与增强方法进行处理,从而获得更多可靠的带标签样本数据,可将扩充增强后的已标注样本数据集记为Dentrain。比如:对于图像等计算机视觉类数据,可通过几何变换、颜色变换、旋转/仿射变换、缩放变换、翻转变换、裁剪、噪声注入、人工标注以及对抗生成等方法来扩充带标签数据;对于文本等自然语言处理类数据,可通过同义词替换、词嵌入替换、掩码语言模型、反向翻译、文本形式转换、随机噪声注入、文本混合以及对抗生成等方法来扩充带标签数据。根据待分析数据的特性,合理设计与配置所选择模型在进行预训练以及后续增量学习和校准学习时的参数、超参数,比如:网络层数、节点数、参数初始化方法等结构参数以及学习率、优化算法、训练回合数、损失函数、增量学习候选样本选择阈值等超参数的配置,部分主要参数及说明如表1所示;当已标注样本数量很少,而模型参数又较多时,为防止过快进入过拟合状态,可对模型的网络结构进行压缩、剪枝或设置较大的Dropout参数等;在此基础上,利用步骤2中扩充增强后得到的数据集Dentrain,训练得到相应的预训练模型ModelPre
表1.模型训练与学习中涉及的需要配置的部分超参数
序号 符号表示 含义描述
1 Learning_rate 模型训练学习率
2 Optimizer 模型参数优化算法
3 Loss 损失函数
4 Pretr_epoch 模型预训练回合数
5 Pretr_batchsize 模型预训练时的批大小
6 Pretr_dropout 模型预训练时参数的随机丢弃概率
7 ExCand_thrd 增量学习候选样本选择阈值
8 Exlearn_epoch 预训练模型增量学习回合数
9 Extr_batchsize 预训练模型增量学习时的批大小
10 Extr_dropout 预训练模型增量学习时参数的随机丢弃概率
11 Caltr_epoch 模型校准学习回合数
12 Caltr_batchsize 增量学习模型校准学习时的批大小
13 Caltr_dropout 增量学习模型校准学习时参数的随机丢弃概率
为验证本案实施例中技术方案有效性,基于图1所构建分类识别方法总体框架进行处理分析和算例实现,以对所提方法的效果进行验证分析。
在算法模型选择中,以已有经典的卷积神经网络模型LeNet-5为例,数据集使用经典的手写数字数据集MNIST。所使用的的数据集合由两部分组成,分别是包含50000个样本的训练集和包含10000个样本的测试集。为了构建少量标注样本应用环境,首先将训练集和测试集两部分合并,即总的样本数量为60000;然后,假设已知标注样本数量分别为50、100、200、500、1000、2000的情况下,将数据集随机划分为已知标注样本训练集和待分类识别样本测试集,则不同情况对应的待分类样本数分别为59950、59900、59800、59500、59000、58000。
实验仿真按照附图1框架及其算法描述实现基于少量标注样本增量学习的应用算例,以验证所提方法的有效性和性能。首先,在不考虑增量学习的情况下,仅使用给定的已标注样本进行训练学习,循环次数为10000,每200次保存一次模型,并对测试集进行分类识别,结果记为Origlearn;然后,按照本发明增量学习与校准学习循环训练的处理流程,分别以600次、1000次和2000次训练保存的模型作为预训练模型,依次进行模型的增量学习和校准学习,并检验模型分类识别性能,分别记为ExlearnE600、ExlearnE1000、ExlearnE2000。其中,增量学习和校准学习的循环轮数为30,每一轮中增量学习循环次数设为100,且每20次保存一次模型,并对测试集进行分类识别,校准学习循环次数设为100。由此可知,模型增量学习和校准学习的总循环次数为30×(100+100)=6000,当考虑预训练模型循环次数时,分别为6600、7000、8000次。
在仿真实验中,针对上述仿真条件关于测试数据、算法模型及参数的选择与配置,当已知标注样本数量分别为50、100、200、500、1000、2000以及原始数据集的训练样本数50000时,未采用增量学习方法Origlearn的测试结果与分别采用增量学习方法ExlearnE600、ExlearnE1000、ExlearnE2000的测试结果如表2所示,为了更好地对比展示训练过程中的结果变化,将已知标注样本数分别为50、200、1000以及原始数据集的训练样本数50000时对待分类样本的分类准确率随训练回合数的变化分别如附图3~6所示。
表2.不同已知标注样本数量时不同训练方法的分类识别结果对比(%)
Figure BDA0002641214250000081
表2中仿真实验的对比结果表明,当仅有少量标注样本时,若仍采用原模型及策略进行训练和学习,分类识别准确率较低,比如当仅有50、100个标注样本时,准确率仅为约69.13%、86.72%,若采用本发明设计提出的分类识别框架与策略,可明显提升准确率,分别为80.75%、96.37%,提升约10%。随着标注样本数量的增加,原方法的准确率逐步得到改善。以上结果表明本案实施例中基于少量标注样本增量学习的方法能够改善大规模未知样本的分类识别性能,标注样本数量越少,则性能改善提升越明显,从而验证了本案所涉及样本增量学习分类识别的准确性、有效性。
以上仿真分析仅以已有经典模型LeNet-5对经典公开数据集MNIST的多类分类识别为例实现了一种具体算例,事实上,本案方案并不限定特定数据类型以及算法或模型,具有较好的适用性,对于实际的应用场景,按照框架与方法的分析处理步骤,均应能够给出适用的具体实现算法。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
基于上述的系统,本发明实施例还提供一种服务器,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述的系统。
基于上述的系统,本发明实施例还提供一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现上述的系统。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述系统实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、系统和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和系统,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述系统的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于少量标注样本的增量学习方法,其特征在于,包含如下内容:
收集样本数据,包含:少量已标注样本和大量未标注样本;
对少量已标注样本进行扩充增强,获得可靠标签数据集,利用该可靠标签数据集对网络进行学习获得预训练模型,调整模型收敛参数和配置;基于学习后的网络预训练模型,对大量未标注样本进行预测分类,依据分类结果构建增量学习候选数据集;
将可靠标签数据集和增量学习候选数据集组合得到增量学习数据集;利用该增量学习数据集对网络预训练模型进行增量学习,并利用可靠标签数据集对增量学习所得模型进行校准学习;
利用校准学习后的预训练模型对未标注数据进行预测分类,通过设置是否达到预设期望的循环迭代条件来判定是否返回重新执行构建增量学习候选数据集及增量学习和校准学习步骤内容。
2.根据权利要求1所述的基于少量标注样本的增量学习方法,其特征在于,针对少量已标注样本,依据样本数据的类型及分布特性,利用数据增强方法对其进行扩充增强来获取可靠标签数据集。
3.根据权利要求1所述的基于少量标注样本的增量学习方法,其特征在于,基于学习后的网络预训练模型,对大量未标注样本进行预测分类识别,得到各样本分别属于各类别的得分值,将得分值大于预设选择阈值的样本作为增量学习候选数据,并以得分值确定的类别对样本添加临时标签,构建增量学习候选数据集。
4.根据权利要求1所述的基于少量标注样本的增量学习方法,其特征在于,按照模型收敛参数和配置,利用增量学习数据集对网络预训练模型进行增量学习,以通过模型训练得到扩展预训练模型。
5.根据权利要求4所述的基于少量标注样本的增量学习方法,其特征在于,针对扩展预训练模型,利用可靠标签数据集进行校准学习,以通过模型训练消除增量学习中引入的噪声。
6.根据权利要求1所述的基于少量标注样本的增量学习方法,其特征在于,预设期望的循环迭代条件为预先设置的循环迭代次数。
7.一种基于少量标注样本的增量学习系统,其特征在于,包含:收集模块,扩充模块,增量校准模块和循环迭代模块,其中,
收集模块,用于收集样本数据,包含:少量已标注样本和大量未标注样本;
扩充模块,用于对少量已标注样本进行扩充增强,获得可靠标签数据集,利用该可靠标签数据集对网络进行学习获得预训练模型,调整模型收敛参数和配置;基于学习后的网络预训练模型,对大量未标注样本进行预测分类,依据分类结果构建增量学习候选数据集;
增量校准模块,用于将可靠标签数据集和增量学习候选数据集组合得到增量学习数据集;利用该增量学习数据集对网络预训练模型进行增量学习,并利用可靠标签数据集对增量学习所得模型进行校准学习;
循环迭代模块,用于利用校准学习后的所得模型对未标注数据进行预测分类,通过设置是否达到预设期望的循环迭代条件来判定是否返回重新执行构建增量学习候选数据集及增量学习和校准学习步骤内容。
8.一种用于视觉类数据分类识别方法,其特征在于,包含如下内容:
分析视觉类数据的图像通道数量、尺寸及类别数量信息,选取用于图像类数据分析的卷积神经网络深度学习模型作为网络预训练模型;
并采用权利要求1~6任一项所述的基于少量标注样本的增量学习方法,在少量标注样本情况下基于网络预训练模型及迭代增量学习和校准学习对大量未标注样本数据进行分类识别。
9.一种用于自然语言数据分析处理方法,其特征在于,包含如下内容:
分析文本数据长度、领域、向量表示及分析任务,选取用于文本类数据分析的深度学习网络模型;并采用权利要求1~6任一项所述的基于少量标注样本的增量学习方法,在少量标注样本情况下基于网络预训练模型及迭代增量学习和校准学习对大量未标注样本数据进行分类识别。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行权利要求1~6任一项所述的增量学习方法。
CN202010840523.2A 2020-08-20 2020-08-20 基于少量标注样本的增量学习方法及系统 Pending CN112132179A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010840523.2A CN112132179A (zh) 2020-08-20 2020-08-20 基于少量标注样本的增量学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010840523.2A CN112132179A (zh) 2020-08-20 2020-08-20 基于少量标注样本的增量学习方法及系统

Publications (1)

Publication Number Publication Date
CN112132179A true CN112132179A (zh) 2020-12-25

Family

ID=73851078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010840523.2A Pending CN112132179A (zh) 2020-08-20 2020-08-20 基于少量标注样本的增量学习方法及系统

Country Status (1)

Country Link
CN (1) CN112132179A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749924A (zh) * 2021-02-01 2021-05-04 深圳无域科技技术有限公司 风控模型训练方法、系统、设备及计算机可读介质
CN112884003A (zh) * 2021-01-18 2021-06-01 中国船舶重工集团公司第七二四研究所 一种基于样本扩充器的雷达目标样本扩充生成方法
CN112926621A (zh) * 2021-01-21 2021-06-08 百度在线网络技术(北京)有限公司 数据标注方法、装置、电子设备及存储介质
CN112926496A (zh) * 2021-03-19 2021-06-08 京东方科技集团股份有限公司 用于预测图像清晰度的神经网络、训练方法及预测方法
CN112966610A (zh) * 2021-03-09 2021-06-15 金陵科技学院 一种基于增量学习的电梯智能指纹识别系统
CN112989841A (zh) * 2021-02-24 2021-06-18 中国搜索信息科技股份有限公司 一种用于突发事件新闻识别与分类的半监督学习方法
CN112990578A (zh) * 2021-03-16 2021-06-18 北京航空航天大学 一种工业低质高噪数据建模及产品质量预测方法
CN113033665A (zh) * 2021-03-26 2021-06-25 北京沃东天骏信息技术有限公司 样本扩展方法、训练方法和系统、及样本学习系统
CN113220883A (zh) * 2021-05-17 2021-08-06 华南师范大学 一种文本分类模型性能优化方法、装置及存储介质
CN113239191A (zh) * 2021-04-27 2021-08-10 北京妙医佳健康科技集团有限公司 一种基于小样本数据的人工辅助文本标注方法及装置
CN113283509A (zh) * 2021-05-28 2021-08-20 深圳一清创新科技有限公司 一种自动标注标签的方法、电子设备及存储介质
CN113343242A (zh) * 2021-07-26 2021-09-03 北京信息科技大学 一种恶意Android应用在线检测方法及装置
CN113537291A (zh) * 2021-06-16 2021-10-22 中国人民解放军战略支援部队信息工程大学 频域对抗样本生成方法及系统
CN113672732A (zh) * 2021-08-19 2021-11-19 胜斗士(上海)科技技术发展有限公司 用于对业务数据进行分类的方法和设备
CN113807424A (zh) * 2021-09-10 2021-12-17 华侨大学 一种基于离线数据增强的固废数据集生成方法
CN114398943A (zh) * 2021-12-09 2022-04-26 北京百度网讯科技有限公司 样本增强方法及其装置
CN114419399A (zh) * 2022-03-22 2022-04-29 杭州利珀科技有限公司 机器视觉深度学习样本自动生成方法、计算机及存储介质
WO2022174436A1 (zh) * 2021-02-22 2022-08-25 深圳大学 分类模型增量学习实现方法、装置、电子设备及介质
CN115018472A (zh) * 2022-08-03 2022-09-06 中国电子科技集团公司第五十四研究所 一种基于可解释机制的交互式增量化情报分析系统
CN115114467A (zh) * 2021-03-17 2022-09-27 腾讯科技(深圳)有限公司 图片神经网络模型的训练方法以及装置
WO2022198477A1 (zh) * 2021-03-24 2022-09-29 深圳大学 分类模型增量学习实现方法、装置、电子设备及介质
CN115329723A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 基于小样本学习的用户圈层挖掘方法、装置、介质及设备
CN116342077A (zh) * 2023-05-30 2023-06-27 南方电网数字电网研究院有限公司 一种适用于数据缺失场站的新能源功率迁移学习预测方法
CN116863277A (zh) * 2023-07-27 2023-10-10 北京中关村科金技术有限公司 结合rpa的多媒体数据检测方法及系统
US11928183B2 (en) 2021-07-29 2024-03-12 Lemon Inc. Image processing method, image processing device and computer readable medium, for acquiring image sample data for training an attribute recognition model

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN108596266A (zh) * 2018-05-02 2018-09-28 深圳市易成自动驾驶技术有限公司 基于半监督学习的融合决策方法、装置及存储介质
CN109102005A (zh) * 2018-07-23 2018-12-28 杭州电子科技大学 基于浅层模型知识迁移的小样本深度学习方法
CN109697469A (zh) * 2018-12-26 2019-04-30 西北工业大学 一种基于一致性约束的自学习小样本遥感图像分类方法
CN111325320A (zh) * 2020-02-10 2020-06-23 深圳前海微众银行股份有限公司 弱监督机器学习优化方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
CN108596266A (zh) * 2018-05-02 2018-09-28 深圳市易成自动驾驶技术有限公司 基于半监督学习的融合决策方法、装置及存储介质
CN109102005A (zh) * 2018-07-23 2018-12-28 杭州电子科技大学 基于浅层模型知识迁移的小样本深度学习方法
CN109697469A (zh) * 2018-12-26 2019-04-30 西北工业大学 一种基于一致性约束的自学习小样本遥感图像分类方法
CN111325320A (zh) * 2020-02-10 2020-06-23 深圳前海微众银行股份有限公司 弱监督机器学习优化方法、装置、设备及存储介质

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884003A (zh) * 2021-01-18 2021-06-01 中国船舶重工集团公司第七二四研究所 一种基于样本扩充器的雷达目标样本扩充生成方法
CN112926621A (zh) * 2021-01-21 2021-06-08 百度在线网络技术(北京)有限公司 数据标注方法、装置、电子设备及存储介质
CN112926621B (zh) * 2021-01-21 2024-05-10 百度在线网络技术(北京)有限公司 数据标注方法、装置、电子设备及存储介质
CN112749924A (zh) * 2021-02-01 2021-05-04 深圳无域科技技术有限公司 风控模型训练方法、系统、设备及计算机可读介质
WO2022174436A1 (zh) * 2021-02-22 2022-08-25 深圳大学 分类模型增量学习实现方法、装置、电子设备及介质
CN112989841A (zh) * 2021-02-24 2021-06-18 中国搜索信息科技股份有限公司 一种用于突发事件新闻识别与分类的半监督学习方法
CN112966610A (zh) * 2021-03-09 2021-06-15 金陵科技学院 一种基于增量学习的电梯智能指纹识别系统
CN112990578A (zh) * 2021-03-16 2021-06-18 北京航空航天大学 一种工业低质高噪数据建模及产品质量预测方法
CN115114467B (zh) * 2021-03-17 2024-05-14 腾讯科技(深圳)有限公司 图片神经网络模型的训练方法以及装置
CN115114467A (zh) * 2021-03-17 2022-09-27 腾讯科技(深圳)有限公司 图片神经网络模型的训练方法以及装置
CN112926496A (zh) * 2021-03-19 2021-06-08 京东方科技集团股份有限公司 用于预测图像清晰度的神经网络、训练方法及预测方法
WO2022198477A1 (zh) * 2021-03-24 2022-09-29 深圳大学 分类模型增量学习实现方法、装置、电子设备及介质
CN113033665A (zh) * 2021-03-26 2021-06-25 北京沃东天骏信息技术有限公司 样本扩展方法、训练方法和系统、及样本学习系统
CN113239191A (zh) * 2021-04-27 2021-08-10 北京妙医佳健康科技集团有限公司 一种基于小样本数据的人工辅助文本标注方法及装置
CN113220883B (zh) * 2021-05-17 2023-12-26 华南师范大学 一种文本分类方法、装置及存储介质
CN113220883A (zh) * 2021-05-17 2021-08-06 华南师范大学 一种文本分类模型性能优化方法、装置及存储介质
CN113283509B (zh) * 2021-05-28 2024-03-29 深圳一清创新科技有限公司 一种自动标注标签的方法、电子设备及存储介质
CN113283509A (zh) * 2021-05-28 2021-08-20 深圳一清创新科技有限公司 一种自动标注标签的方法、电子设备及存储介质
CN113537291A (zh) * 2021-06-16 2021-10-22 中国人民解放军战略支援部队信息工程大学 频域对抗样本生成方法及系统
CN113537291B (zh) * 2021-06-16 2023-06-16 中国人民解放军战略支援部队信息工程大学 图像频域对抗样本生成方法及系统
CN113343242A (zh) * 2021-07-26 2021-09-03 北京信息科技大学 一种恶意Android应用在线检测方法及装置
US11928183B2 (en) 2021-07-29 2024-03-12 Lemon Inc. Image processing method, image processing device and computer readable medium, for acquiring image sample data for training an attribute recognition model
CN113672732A (zh) * 2021-08-19 2021-11-19 胜斗士(上海)科技技术发展有限公司 用于对业务数据进行分类的方法和设备
CN113672732B (zh) * 2021-08-19 2024-04-26 胜斗士(上海)科技技术发展有限公司 用于对业务数据进行分类的方法和设备
CN113807424B (zh) * 2021-09-10 2024-04-16 华侨大学 一种基于离线数据增强的固废数据集生成方法
CN113807424A (zh) * 2021-09-10 2021-12-17 华侨大学 一种基于离线数据增强的固废数据集生成方法
CN114398943A (zh) * 2021-12-09 2022-04-26 北京百度网讯科技有限公司 样本增强方法及其装置
CN114419399A (zh) * 2022-03-22 2022-04-29 杭州利珀科技有限公司 机器视觉深度学习样本自动生成方法、计算机及存储介质
CN115018472B (zh) * 2022-08-03 2022-11-11 中国电子科技集团公司第五十四研究所 一种基于可解释机制的交互式增量化情报分析系统
CN115018472A (zh) * 2022-08-03 2022-09-06 中国电子科技集团公司第五十四研究所 一种基于可解释机制的交互式增量化情报分析系统
CN115329723A (zh) * 2022-10-17 2022-11-11 广州数说故事信息科技有限公司 基于小样本学习的用户圈层挖掘方法、装置、介质及设备
CN116342077B (zh) * 2023-05-30 2023-09-15 南方电网数字电网研究院有限公司 一种适用于数据缺失场站的新能源功率迁移学习预测方法
CN116342077A (zh) * 2023-05-30 2023-06-27 南方电网数字电网研究院有限公司 一种适用于数据缺失场站的新能源功率迁移学习预测方法
CN116863277A (zh) * 2023-07-27 2023-10-10 北京中关村科金技术有限公司 结合rpa的多媒体数据检测方法及系统

Similar Documents

Publication Publication Date Title
CN112132179A (zh) 基于少量标注样本的增量学习方法及系统
CN111312329B (zh) 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN110188827B (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
Islam et al. Application of deep learning to computer vision: A comprehensive study
Huang et al. Deep and wide multiscale recursive networks for robust image labeling
CN113312505B (zh) 一种基于离散在线哈希学习的跨模态检索方法及系统
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN113010683B (zh) 基于改进图注意力网络的实体关系识别方法及系统
Xu et al. ESA-VLAD: A lightweight network based on second-order attention and NetVLAD for loop closure detection
CN113128622B (zh) 基于语义-标签多粒度注意力的多标签分类方法及系统
CN113869052A (zh) 基于ai的房屋地址匹配方法、存储介质及设备
CN115795065A (zh) 基于带权哈希码的多媒体数据跨模态检索方法及系统
Zhang et al. Robust neural relation extraction via multi-granularity noises reduction
CN116743493A (zh) 网络入侵检测模型构建方法及网络入侵检测方法
CN114821340A (zh) 一种土地利用分类方法及系统
Chao et al. Variational connectionist temporal classification
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统
Liu et al. Margin-based two-stage supervised hashing for image retrieval
CN114357200A (zh) 一种基于监督图嵌入的跨模态哈希检索方法
CN114612663A (zh) 基于弱监督学习的域自适应实例分割方法及装置
US20230214598A1 (en) Semantic Frame Identification Using Capsule Networks
CN112256838B (zh) 相似域名查找方法、装置及电子设备
US20240193368A1 (en) Nested Named Entity Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201225

WD01 Invention patent application deemed withdrawn after publication