CN113947133A - 小样本图像识别的任务重要性感知元学习方法 - Google Patents

小样本图像识别的任务重要性感知元学习方法 Download PDF

Info

Publication number
CN113947133A
CN113947133A CN202111092585.0A CN202111092585A CN113947133A CN 113947133 A CN113947133 A CN 113947133A CN 202111092585 A CN202111092585 A CN 202111092585A CN 113947133 A CN113947133 A CN 113947133A
Authority
CN
China
Prior art keywords
task
meta
batch
importance
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111092585.0A
Other languages
English (en)
Other versions
CN113947133B (zh
Inventor
徐阳
范云蕾
李惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202111092585.0A priority Critical patent/CN113947133B/zh
Publication of CN113947133A publication Critical patent/CN113947133A/zh
Application granted granted Critical
Publication of CN113947133B publication Critical patent/CN113947133B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出小样本图像识别的任务重要性感知元学习方法,所述方法包括步骤一、形成多个不同的元批次、每个元批次包括多个不同的任务;步骤二、对于每一个任务,建立深度网络模型,选取合适的损失函数,完成在该任务上的内层更新;步骤三、构造任务重要性感知函数,对于同一元批次所有任务的验证损失,通过任务重要性感知函数计算任务重要性系数;步骤四、进行外层更新,完成一个元批次的训练;每一个外层元批次训练结束后得到的模型参数作为下一个元批次的初始参数,如此循环往复,不断进行内外双层更新直至模型收敛,从而完成小样本图像识别的任务重要性感知元学习。

Description

小样本图像识别的任务重要性感知元学习方法
技术领域
本发明属于图像识别技术领域,特别是涉及小样本图像识别的任务重要性感知元学习方法。
背景技术
目前,计算机视觉和深度学习技术获得了飞速发展。特别是在有监督学习领域,随着可用数据集的增加,国内外研究者接连提出了一系列有关计算机视觉识别任务的图像分类、目标检测和语义分割网络模型,分别实现对输入图像的全局场景理解、对图像包含目标物体的矩形框定位和像素级分类识别。
这些网络模型的改进之处可以总结为以下两部分:一是改进网络架构,如ResNet/U-net/DenseNet/PANet等,通过增加相邻或不同层级特征图之间的联系以及特征融合/聚合,增加特征提取的深度和宽度,从而提高模型的特征提取能力;二是设计特殊功能模块,如通道/空间自注意力机制和Transformer系列等,通过加入新功能模块或替换原始模块来提高模型对某些重要性特征的感知能力,从而提高模型性能。
统一地,基于有监督学习的计算机视觉识别任务可以用下式表达:
Figure BDA0003267906790000011
其中,f表示识别模型,w表示模型参数,w*表示经过优化算法更新得到的最优模型参数,
Figure BDA0003267906790000012
表示模型所在的假设空间,E表示期望运算,l表示损失函数,x表示输入数据(向量形式),y表示标签(向量形式),Dtrain表示训练集。
对于有监督学习的计算机视觉识别任务,上式表达的基本思想是在获得训练集输入数据x-真实标签y的基础上,针对不同的识别任务,选取相应的网络架构f,采用相应的损失函数l,让训练集输入数据x经过模型得到的输入fw(x)与真实标签y差异的期望(或平均值)达到最小,此时训练完毕、得到最优参数w*,相应的模型即为识别性能最优的模型fw*。对于不同的识别任务,网络架构f和损失函数l可以采用不同的形式。比如,图像分类问题可以采用VGG/ResNet等网络模型,目标检测问题可以采用Faster R-CNN/YOLO系列等网络模型,语义分割可以采用U-net/Deeplab系列等网络模型。分类问题可以采用交叉熵损失函数,回归问题可以采用最小平方误差损失函数。
可以发现,按上述方法解决此类问题十分依赖于监督条件,即首先要收集大量的训练数据和标签,并且训练样本的数量越多、类别越丰富、标签精度越高,模型的识别和泛化能力就越好。然而,在实际场景下,数据集往往具有信息不完备、样本不充分、数据不平衡、标签不精准的特点,导致训练模型的特征表达能力不全面,进而引起在小样本数据集上训练得到的模型识别和泛化能力较差。
针对小样本学习问题,研究者提出了元学习(meta learning)的概念,即学会学习(learn to learn),基本思想如下。
首先,从训练集中随机选取不同类别的样本组成支持集(support set)和查询集(query set),构成不同的任务(task);对于每一个任务,建立深度网络模型(根据识别对象的不同可以是图像分类或目标检测或语义分割模型),使用支持集的数据及标签进行有监督学习,训练完毕得到适应于该任务的模型参数。
然后,在查询集上获得该任务的测试损失,并且将所有任务的测试损失求和再次更新模型参数,作为上一个元学习批次(meta batch);每一个元学习批次结束后得到的模型参数作为下一个元批次的初始参数,如此循环往复,不断进行模型的双层更新,即内层在特定任务上使用支持集的数据及标签进行训练,外层在不同的元学习批次上进行更新。
然而,传统元学习方法主要存在以下两点不足:
(1)外层更新是基于对所有任务的测试损失取平均值进行的,对k=1~K求平均,因此就默认了不同任务的重要性程度是一致的;然而,由于每个任务包含的数据样本存在较大差异,以往任务和新任务的差异性必然有所不同,导致以往任务对新任务的有效性也不同,但现有的元学习方法无法区别出不同以往任务对于新选取任务的重要性;
(2)由于每个任务的查询集是从训练集中随机选取的,数据样本存在着显著差异,即每个任务的测试损失是在不同的数据集上获得的,即每个任务查询集中包括的样本不完全相同,这就会导致不同任务的评价标准存在较大差异、无法统一,无法判断不同任务的难易程度。
发明内容
本发明目的是为了解决现有技术中的问题,提出了小样本图像识别的任务重要性感知元学习方法。
本发明是通过以下技术方案实现的,本发明提出小样本图像识别的任务重要性感知元学习方法,所述方法包括以下步骤:
步骤一:从图像训练集总样本中随机选取一定量的图像样本作为元批次,在同一元批次中随机采样出互斥的图像样本分别构成支持集和查询集,如此形成一个任务,此过程重复进行多次,在一个元批次中形成多个任务;以上对元批次的处理过程再重复进行多次,最终形成多个不同的元批次、每个元批次包括多个不同的任务,同时,对于每一个元批次,构造一个统一的元批次查询池,对于不同任务都包含相同的样本和标签;
步骤二:对于每一个任务,建立深度网络模型,选取合适的损失函数,使用该任务上支持集的数据及标签进行有监督学习,训练完毕得到适应于该任务的最优模型参数,完成在该任务上的内层更新;
步骤三:对于每一个元批次,计算其中所有任务在支持集上获得的最优模型参数在统一元批次查询池上的验证损失;构造任务重要性感知函数,对于同一元批次所有任务的验证损失,通过任务重要性感知函数计算任务重要性系数,让验证损失越大的任务具有更大的重要性系数;
步骤四:对于每一元批次,将所有任务在查询集上的测试损失,与由步骤三获得的任务重要性系数进行加权求和,进行外层更新,完成一个元批次的训练;每一个外层元批次训练结束后得到的模型参数作为下一个元批次的初始参数,如此循环往复,不断进行内外双层更新直至模型收敛,从而完成小样本图像识别的任务重要性感知元学习。
进一步地,在步骤二中,计算在该任务支持集上所有图像样本上的平均损失,作为内层循环的损失值,如式(1)所示,然后基于误差反向传播算法进行模型参数更新;训练完毕得到适应于该任务的模型参数,完成在该任务上的内层更新;
Figure BDA0003267906790000031
Figure BDA0003267906790000032
式中,lossinternal,k代表内层更新第k个任务的损失函数,k代表第k个任务,Strain代表第k个任务支持集中的图像样本数量,i为支持集图像样本的索引编号,f()表示预测模型,xs,i k表示第k个任务支持集中的第i个输入图像,ys,i k表示第k个任务支持集中的第i个标签,l代表目标函数,
Figure BDA0003267906790000033
表示对应于第n个元批次第k个任务训练得到的最优模型参数,
Figure BDA0003267906790000034
为内层更新过程中的模型参数,θ0,n为第n个元批次的初始模型参数,α为内层更新的学习率,
Figure BDA0003267906790000035
代表对模型参数求梯度运算。
进一步地,在步骤三中,获得一个元批次内不同任务对于新任务的重要性程度;定义任务重要性系数wk,表示第k个任务的重要性程度,如式(2)所示:
Figure BDA0003267906790000041
式中,
Figure BDA0003267906790000042
为任务重要性感知函数,Qn表示第n个元批次对应的查询池,x和y分别表示查询池Qn中的图像样本和标签,
Figure BDA0003267906790000043
表示在第k个任务上获得的最优模型参数,k为同一元批次中的任务编号索引,K为同一元批次中所有任务的数量。
进一步地,所述任务重要性系数的取值范围为0-1,并且对于同一元批次的所有任务,任务重要性系数之和为1,即:
Figure BDA0003267906790000044
进一步地,所述任务重要性感知函数为线性函数,对于任务重要性感知函数为线性函数的情况,任务重要性系数的计算公式为:
Figure BDA0003267906790000045
Figure BDA0003267906790000046
进一步地,所述任务重要性感知函数为指数函数,对于任务重要性感知函数为指数函数的情况,任务重要性系数的计算公式为:
Figure BDA0003267906790000047
Figure BDA0003267906790000048
其中,softmax表示上式在形式上满足softamx函数的形式。
进一步地,在步骤四中,基于步骤三获得的任务重要性系数wk,融合不同任务查询集的测试损失,进行外层更新;以某小样本图像数据集作为识别对象,将每一个元批次所有任务在查询集上的测试损失,与任务重要性系数进行加权求和,获得外层循环的损失值,如式(6)所示,并基于误差反向传播算法进行外层更新,完成一个元批次的训练,得到的模型参数作为下一个元批次的初始模型参数;
如此循环往复,不断进行内外双层更新直至模型收敛,即得到了在小样本数据上的最优识别模型;
Figure BDA0003267906790000049
Figure BDA0003267906790000051
式中,lossexternal表示外层更新的损失函数,wk表示第k个任务的重要性系数,n表示第n个元学习批次,K表示一个元学习批次中包含的任务数量,k为任务的索引编号,Qtrain表示第k个任务查询集中的样本数量,xq,i k表示第k个任务查询集中的第i个输入图像,yq,i k表示第k个任务查询集中的第i个标签,l代表目标函数,
Figure BDA0003267906790000052
表示在第k个任务上获得的最优模型参数,θ0,n表示第n个元批次的初始模型参数,θ0,n+1表示第n+1个元批次的初始模型参数,β表示外层更新的学习率,
Figure BDA0003267906790000053
代表对模型参数求梯度运算。
本发明的有益效果:
(1)本发明所述方法实现了对不同任务重要性程度的感知,考虑了由不同任务样本差异性导致的不同学习难易程度,区分了不同任务对于新任务学习的有效性;
(2)本发明所述方法通过构造统一的元批次查询池,使得考虑任务重要性时选取的标准是一致的,解决了不同任务评价标准存在较大差异、无法统一的问题;
(3)本发明所述方法在保证样本使用次数公平性的原则下和传统方法对比,在小样本的条件下可以获得更高的识别精度。
附图说明
图1是本发明所述小样本图像识别的任务重要性感知元学习方法的流程图。
图2是本发明所提方法与原始U-net对小样本混凝土裂缝语义分割识别效果的示例图。
其中,(a)为输入图像,(b)为真实标签,(c)为本发明所述方法识别结果,(d)为原始U-net识别结果。
图3是本发明所述方法与原始U-net对小样本混凝土裂缝语义分割精度的对比图。
图4是采用元学习+U-net双层优化框架与原始U-net对小样本混凝土裂缝语义分割精度的对比图。
图5是本发明所提的任务重要性感知函数对小样本图像语义分割识别精度的影响对比图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1-图5,本发明提出小样本图像识别的任务重要性感知元学习方法,所述方法包括以下步骤:
步骤一:从图像训练集总样本中随机选取一定量的图像样本作为元批次,在同一元批次中随机采样出互斥的图像样本分别构成支持集和查询集,如此形成一个任务,此过程重复进行多次,在一个元批次中形成多个任务;以上对元批次的处理过程再重复进行多次,最终形成多个不同的元批次、每个元批次包括多个不同的任务,同时,对于每一个元批次,构造一个统一的元批次查询池,对于不同任务都包含相同的样本和标签;
步骤二:对于每一个任务,建立深度网络模型,选取合适的损失函数(根据识别对象的不同可以是图像分类或目标检测或语义分割模型,损失函数可以是交叉熵或最小平方误差函数等),使用该任务上支持集的数据及标签进行有监督学习,训练完毕得到适应于该任务的最优模型参数,完成在该任务上的内层更新;
在步骤二中,计算在该任务支持集上所有图像样本上的平均损失,作为内层循环的损失值,如式(1)所示,然后基于误差反向传播算法(如随机梯度下降算法和Adam算法等)进行模型参数更新;训练完毕得到适应于该任务的模型参数,完成在该任务上的内层更新;
Figure BDA0003267906790000061
Figure BDA0003267906790000062
式中,lossinternal,k代表内层更新第k个任务的损失函数,k代表第k个任务,Strain代表第k个任务支持集中的图像样本数量,i为支持集图像样本的索引编号,f()表示预测模型,xs,i k表示第k个任务支持集中的第i个输入图像,ys,i k表示第k个任务支持集中的第i个标签,l代表目标函数(可以根据识别对象进行选择,分类任务可以采用交叉熵损失,回归任务可以采用最小平方距离损失等),
Figure BDA0003267906790000063
表示对应于第n个元批次第k个任务训练得到的最优模型参数,
Figure BDA0003267906790000064
为内层更新过程中的模型参数,θ0,n为第n个元批次的初始模型参数,α为内层更新的学习率,
Figure BDA0003267906790000065
代表对模型参数求梯度运算。
步骤三:对于每一个元批次,计算其中所有任务在支持集上获得的最优模型参数在统一元批次查询池上的验证损失;构造任务重要性感知函数,对于同一元批次所有任务的验证损失,通过任务重要性感知函数计算任务重要性系数,让验证损失越大的任务具有更大的重要性系数,从而对于新任务训练的重要程度越高。对于同一元批次的所有任务,采用元批次查询池作为统一评价标准,计算得到该元批次不同任务训练模型的验证损失。
在步骤三中,获得一个元批次内不同任务对于新任务的重要性程度;定义任务重要性系数wk,表示第k个任务的重要性程度,如式(2)所示:
Figure BDA0003267906790000071
式中,
Figure BDA0003267906790000072
为任务重要性感知函数,可以取不同的形式,如线性函数
Figure BDA0003267906790000073
指数函数
Figure BDA0003267906790000074
等。不同形式的任务重要性感知函数表现了对验证损失即目标函数l的不同放大效应:线性函数即为线性效应,指数函数则对验证损失越大的任务、其任务重要性程度会更高,Qn表示第n个元批次对应的查询池,x和y分别表示查询池Qn中的图像样本和标签,
Figure BDA0003267906790000075
表示在第k个任务上获得的最优模型参数,k为同一元批次中的任务编号索引,K为同一元批次中所有任务的数量。
所述任务重要性系数的取值范围为0-1,并且对于同一元批次的所有任务,任务重要性系数之和为1,即:
Figure BDA0003267906790000076
所述任务重要性感知函数为线性函数,对于任务重要性感知函数为线性函数的情况,任务重要性系数的计算公式为:
Figure BDA0003267906790000077
Figure BDA0003267906790000078
所述任务重要性感知函数为指数函数,对于任务重要性感知函数为指数函数的情况,任务重要性系数的计算公式为:
Figure BDA0003267906790000079
Figure BDA00032679067900000710
其中,softmax表示上式在形式上满足softamx函数的形式。
步骤四:对于每一元批次,将所有任务在查询集上的测试损失,与由步骤三获得的任务重要性系数进行加权求和,进行外层更新,完成一个元批次的训练;每一个外层元批次训练结束后得到的模型参数作为下一个元批次的初始参数,如此循环往复,不断进行内外双层更新直至模型收敛,从而完成小样本图像识别的任务重要性感知元学习。
在步骤四中,基于步骤三获得的任务重要性系数wk,融合不同任务查询集的测试损失,进行外层更新;以某小样本图像数据集作为识别对象,将每一个元批次所有任务在查询集上的测试损失,与任务重要性系数进行加权求和,获得外层循环的损失值,如式(6)所示,并基于误差反向传播算法(如随机梯度下降算法和Adam算法等)进行外层更新,完成一个元批次的训练,得到的模型参数作为下一个元批次的初始模型参数;
如此循环往复,不断进行内外双层更新直至模型收敛,即得到了在小样本数据上的最优识别模型;
Figure BDA0003267906790000081
Figure BDA0003267906790000082
式中,lossexternal表示外层更新的损失函数,wk表示第k个任务的重要性系数,n表示第n个元学习批次,K表示一个元学习批次中包含的任务数量,k为任务的索引编号,Qtrain表示第k个任务查询集中的样本数量,xq,i k表示第k个任务查询集中的第i个输入图像,yq,i k表示第k个任务查询集中的第i个标签,l代表目标函数,
Figure BDA0003267906790000083
表示在第k个任务上获得的最优模型参数,θ0,n表示第n个元批次的初始模型参数,θ0,n+1表示第n+1个元批次的初始模型参数,β表示外层更新的学习率,
Figure BDA0003267906790000084
代表对模型参数求梯度运算。
本发明所述方法的训练超参数设置的指导思想为:无论采用本发明所述方法进行训练或采用普通网络模型直接训练,保证训练过程中对图像样本的总利用次数近似相等,具体解释如下。
本发明所述方法包括内外双层更新,对图像样本的使用次数如下式所示:
Num1=epoch1×N×[K×(step×Stram+Qtrain)+Qn]
式中,Num1代表本发明所述方法对图像样本的使用次数,epoch1代表外层训练轮次,N代表一轮外层训练包含的元批次总数,step代表内层训练的迭代次数,K代表一个元批次中包含的任务数量,Strain和Qtrain分别代表每一个任务的支持集和查询集中所包含的图像样本数量,Qn表示第n个元批次对应的查询池。
若采用某深度网络模型在小样本数据集上直接训练,设置训练总轮次的数量,每轮训练都对所有图像样本进行了遍历,因此使用的样本总数为训练总轮次×样本数量。
Num2=epoch2×Total_Num
式中,Num2代表采用某深度网络模型在小样本数据集上直接训练对图像样本的使用次数,epoch2代表训练轮次,Total_Num代表小样本图像数据集包含的样本数量。
本发明所述方法的训练超参数设置原则为Num1≈Num2,即通过设置不同的训练超参数,保证训练过程中对图像样本的总利用次数近似相等,也就保证了采用本发明所述方法与传统普通方法进行对比的公平性。
实施例
将本发明提出的小样本图像识别的任务重要性感知元学习方法,应用于混凝土裂缝像素级识别场景。所选用的图像数据集为188张混凝土裂缝图像,分辨率为512×512,其中20张作为测试集。所选取的语义分割模型为U-net。使用U-net对168张混凝土裂缝图像直接进行训练,作为与本发明所述方法的对比,以下简称为原始U-net。依照上述公平性原则,原始U-net的训练超参数设置如下:epoch=15。本发明所述方法的训练超参数设置如下:step=5,epoch=1,Task_num=200,K=2,Strain=5,Qtrain=1,Stest=5,Qtest=1,采用FocalLoss作为任务更新的损失函数。
图2展示了本发明所述方法与原始U-net对小样本混凝土裂缝语义分割识别效果。图3对比了本发明所述方法与原始U-net对小样本混凝土裂缝语义分割精度。结果表明,本发明所述方法在训练样本较少的情况下,识别效果明显优于原始U-net,具有实现小样本学习的有效性。
图4对比了采用元学习+U-net双层优化框架与原始U-net对小样本混凝土裂缝语义分割的精度。结果表明,使用元学习双层优化框架后,识别效果的平均精度和离散程度优于原始U-net,即元学习双层优化模型能够提高网络模型的测试精度并且更稳定。
图5展示了本发明所提的任务重要性感知函数对小样本图像语义分割识别精度的影响。结果表明,任务重要性感知函数的选择对模型精度影响明显;对比三种不同任务重要性感知函数,在平方放大效应下识别精度最优。
以上对本发明所提出的小样本图像识别的任务重要性感知元学习方法,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.小样本图像识别的任务重要性感知元学习方法,其特征在于:所述方法包括以下步骤:
步骤一:从图像训练集总样本中随机选取一定量的图像样本作为元批次,在同一元批次中随机采样出互斥的图像样本分别构成支持集和查询集,如此形成一个任务,此过程重复进行多次,在一个元批次中形成多个任务;以上对元批次的处理过程再重复进行多次,最终形成多个不同的元批次、每个元批次包括多个不同的任务,同时,对于每一个元批次,构造一个统一的元批次查询池,对于不同任务都包含相同的样本和标签;
步骤二:对于每一个任务,建立深度网络模型,选取合适的损失函数,使用该任务上支持集的数据及标签进行有监督学习,训练完毕得到适应于该任务的最优模型参数,完成在该任务上的内层更新;
步骤三:对于每一个元批次,计算其中所有任务在支持集上获得的最优模型参数在统一元批次查询池上的验证损失;构造任务重要性感知函数,对于同一元批次所有任务的验证损失,通过任务重要性感知函数计算任务重要性系数,让验证损失越大的任务具有更大的重要性系数;
步骤四:对于每一元批次,将所有任务在查询集上的测试损失,与由步骤三获得的任务重要性系数进行加权求和,进行外层更新,完成一个元批次的训练;每一个外层元批次训练结束后得到的模型参数作为下一个元批次的初始参数,如此循环往复,不断进行内外双层更新直至模型收敛,从而完成小样本图像识别的任务重要性感知元学习。
2.根据权利要求1所述的方法,其特征在于:在步骤二中,计算在该任务支持集上所有图像样本上的平均损失,作为内层循环的损失值,如式(1)所示,然后基于误差反向传播算法进行模型参数更新;训练完毕得到适应于该任务的模型参数,完成在该任务上的内层更新;
Figure FDA0003267906780000011
Figure FDA0003267906780000012
式中,lossinternal,k代表内层更新第k个任务的损失函数,k代表第k个任务,Strain代表第k个任务支持集中的图像样本数量,i为支持集图像样本的索引编号,f()表示预测模型,xs ,i k表示第k个任务支持集中的第i个输入图像,ys,i k表示第k个任务支持集中的第i个标签,l代表目标函数,
Figure FDA0003267906780000021
表示对应于第n个元批次第k个任务训练得到的最优模型参数,
Figure FDA0003267906780000022
为内层更新过程中的模型参数,θ0,n为第n个元批次的初始模型参数,α为内层更新的学习率,
Figure FDA0003267906780000023
代表对模型参数求梯度运算。
3.根据权利要求2所述的方法,其特征在于:在步骤三中,获得一个元批次内不同任务对于新任务的重要性程度;定义任务重要性系数wk,表示第k个任务的重要性程度,如式(2)所示:
Figure FDA0003267906780000024
式中,
Figure FDA0003267906780000025
为任务重要性感知函数,Qn表示第n个元批次对应的查询池,x和y分别表示查询池Qn中的图像样本和标签,
Figure FDA0003267906780000026
表示在第k个任务上获得的最优模型参数,k为同一元批次中的任务编号索引,K为同一元批次中所有任务的数量。
4.根据权利要求3所述的方法,其特征在于:所述任务重要性系数的取值范围为0-1,并且对于同一元批次的所有任务,任务重要性系数之和为1,即:
Figure FDA0003267906780000027
5.根据权利要求3所述的方法,其特征在于:所述任务重要性感知函数为线性函数,对于任务重要性感知函数为线性函数的情况,任务重要性系数的计算公式为:
Figure FDA0003267906780000028
Figure FDA0003267906780000029
6.根据权利要求3所述的方法,其特征在于:所述任务重要性感知函数为指数函数,对于任务重要性感知函数为指数函数的情况,任务重要性系数的计算公式为:
Figure FDA00032679067800000210
Figure FDA00032679067800000211
其中,softmax表示上式在形式上满足softamx函数的形式。
7.根据权利要求4所述的方法,其特征在于:在步骤四中,基于步骤三获得的任务重要性系数wk,融合不同任务查询集的测试损失,进行外层更新;以某小样本图像数据集作为识别对象,将每一个元批次所有任务在查询集上的测试损失,与任务重要性系数进行加权求和,获得外层循环的损失值,如式(6)所示,并基于误差反向传播算法进行外层更新,完成一个元批次的训练,得到的模型参数作为下一个元批次的初始模型参数;
如此循环往复,不断进行内外双层更新直至模型收敛,即得到了在小样本数据上的最优识别模型;
Figure FDA0003267906780000031
Figure FDA0003267906780000032
式中,lossexternal表示外层更新的损失函数,wk表示第k个任务的重要性系数,n表示第n个元学习批次,K表示一个元学习批次中包含的任务数量,k为任务的索引编号,Qtrain表示第k个任务查询集中的样本数量,xq,i k表示第k个任务查询集中的第i个输入图像,yq,i k表示第k个任务查询集中的第i个标签,l代表目标函数,
Figure FDA0003267906780000033
表示在第k个任务上获得的最优模型参数,θ0,n表示第n个元批次的初始模型参数,θ0,n+1表示第n+1个元批次的初始模型参数,β表示外层更新的学习率,
Figure FDA0003267906780000034
代表对模型参数求梯度运算。
CN202111092585.0A 2021-09-17 2021-09-17 小样本图像识别的任务重要性感知元学习方法 Active CN113947133B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111092585.0A CN113947133B (zh) 2021-09-17 2021-09-17 小样本图像识别的任务重要性感知元学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111092585.0A CN113947133B (zh) 2021-09-17 2021-09-17 小样本图像识别的任务重要性感知元学习方法

Publications (2)

Publication Number Publication Date
CN113947133A true CN113947133A (zh) 2022-01-18
CN113947133B CN113947133B (zh) 2022-11-08

Family

ID=79328269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111092585.0A Active CN113947133B (zh) 2021-09-17 2021-09-17 小样本图像识别的任务重要性感知元学习方法

Country Status (1)

Country Link
CN (1) CN113947133B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491039A (zh) * 2022-01-27 2022-05-13 四川大学 基于梯度改进的元学习少样本文本分类方法
CN114596440A (zh) * 2022-03-22 2022-06-07 小米汽车科技有限公司 语义分割模型的生成方法、装置、电子设备及存储介质
CN115861720A (zh) * 2023-02-28 2023-03-28 人工智能与数字经济广东省实验室(广州) 一种小样本亚类图像分类识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919299A (zh) * 2019-02-19 2019-06-21 西安交通大学 一种基于元学习器逐步梯度校正的元学习算法
CN111695603A (zh) * 2020-05-19 2020-09-22 广东石油化工学院 基于注意力指导的外部记忆和元学习的小样本学习方法
CN112215280A (zh) * 2020-10-12 2021-01-12 西安交通大学 一种基于元骨干网络的小样本图像分类方法
CN112417319A (zh) * 2020-11-24 2021-02-26 清华大学 基于难度采样元学习的地点推荐方法及装置
CN112487805A (zh) * 2020-11-30 2021-03-12 武汉大学 一种基于元学习框架的小样本Web服务分类方法
CN112613556A (zh) * 2020-09-01 2021-04-06 电子科技大学 基于元学习的少样本图像情感分类方法
CN112949693A (zh) * 2021-02-02 2021-06-11 北京嘀嘀无限科技发展有限公司 图像分类模型的训练方法、图像分类方法、装置和设备
CN113095575A (zh) * 2021-04-16 2021-07-09 清华大学深圳国际研究生院 一种基于迁移学习的车流量预测方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919299A (zh) * 2019-02-19 2019-06-21 西安交通大学 一种基于元学习器逐步梯度校正的元学习算法
CN111695603A (zh) * 2020-05-19 2020-09-22 广东石油化工学院 基于注意力指导的外部记忆和元学习的小样本学习方法
CN112613556A (zh) * 2020-09-01 2021-04-06 电子科技大学 基于元学习的少样本图像情感分类方法
CN112215280A (zh) * 2020-10-12 2021-01-12 西安交通大学 一种基于元骨干网络的小样本图像分类方法
CN112417319A (zh) * 2020-11-24 2021-02-26 清华大学 基于难度采样元学习的地点推荐方法及装置
CN112487805A (zh) * 2020-11-30 2021-03-12 武汉大学 一种基于元学习框架的小样本Web服务分类方法
CN112949693A (zh) * 2021-02-02 2021-06-11 北京嘀嘀无限科技发展有限公司 图像分类模型的训练方法、图像分类方法、装置和设备
CN113095575A (zh) * 2021-04-16 2021-07-09 清华大学深圳国际研究生院 一种基于迁移学习的车流量预测方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MENGYE REN等: "Learning to Reweight Examples for Robust Deep Learning", 《ARXIV》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114491039A (zh) * 2022-01-27 2022-05-13 四川大学 基于梯度改进的元学习少样本文本分类方法
CN114491039B (zh) * 2022-01-27 2023-10-03 四川大学 基于梯度改进的元学习少样本文本分类方法
CN114596440A (zh) * 2022-03-22 2022-06-07 小米汽车科技有限公司 语义分割模型的生成方法、装置、电子设备及存储介质
CN114596440B (zh) * 2022-03-22 2023-08-04 小米汽车科技有限公司 语义分割模型的生成方法、装置、电子设备及存储介质
CN115861720A (zh) * 2023-02-28 2023-03-28 人工智能与数字经济广东省实验室(广州) 一种小样本亚类图像分类识别方法

Also Published As

Publication number Publication date
CN113947133B (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
CN113947133B (zh) 小样本图像识别的任务重要性感知元学习方法
CN109711413B (zh) 基于深度学习的图像语义分割方法
CN110555399B (zh) 手指静脉识别方法、装置、计算机设备及可读存储介质
CN112347970B (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN108629370B (zh) 一种基于深度置信网络的分类识别算法及装置
CN111243045A (zh) 一种基于高斯混合模型先验变分自编码器的图像生成方法
CN112183742B (zh) 基于渐进式量化和Hessian信息的神经网络混合量化方法
CN113469186B (zh) 一种基于少量点标注的跨域迁移图像分割方法
CN112686376A (zh) 一种基于时序图神经网络的节点表示方法及增量学习方法
CN116089883B (zh) 用于提高已有类别增量学习新旧类别区分度的训练方法
CN110991621A (zh) 一种基于通道数搜索卷积神经网络的方法
CN114819091B (zh) 基于自适应任务权重的多任务网络模型训练方法及系统
CN115761654B (zh) 一种车辆重识别方法
CN116563602A (zh) 基于类别级软目标监督的细粒度图像分类模型训练方法
CN116192669A (zh) 基于动态时空图卷积的网络流量预测方法
CN116486150A (zh) 一种基于不确定性感知的图像分类模型回归误差消减方法
CN113779287B (zh) 基于多阶段分类器网络的跨域多视角目标检索方法及装置
CN114936890A (zh) 一种基于逆倾向加权方法的反事实公平的推荐方法
CN115292509A (zh) 基于多粒度注意力网络的图立方链接预测方法
CN115170793A (zh) 面向工业产品质检的小样本图像分割自我校准方法
US20230376745A1 (en) Automated Selection of Neural Architecture Using a Smoothed Super-Net
CN117576381B (zh) 目标检测训练方法及电子设备、计算机可读存储介质
CN116663516B (zh) 表格机器学习模型训练方法、装置、电子设备及存储介质
CN111626306B (zh) 一种显著图融合方法及系统
CN112926682B (zh) 一种基于图网络的核磁共振影像小样本学习分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant