CN113947133A

CN113947133A - 小样本图像识别的任务重要性感知元学习方法

Info

Publication number: CN113947133A
Application number: CN202111092585.0A
Authority: CN
Inventors: 徐阳; 范云蕾; 李惠
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2022-01-18
Anticipated expiration: 2041-09-17
Also published as: CN113947133B

Abstract

本发明提出小样本图像识别的任务重要性感知元学习方法，所述方法包括步骤一、形成多个不同的元批次、每个元批次包括多个不同的任务；步骤二、对于每一个任务，建立深度网络模型，选取合适的损失函数，完成在该任务上的内层更新；步骤三、构造任务重要性感知函数，对于同一元批次所有任务的验证损失，通过任务重要性感知函数计算任务重要性系数；步骤四、进行外层更新，完成一个元批次的训练；每一个外层元批次训练结束后得到的模型参数作为下一个元批次的初始参数，如此循环往复，不断进行内外双层更新直至模型收敛，从而完成小样本图像识别的任务重要性感知元学习。

Description

小样本图像识别的任务重要性感知元学习方法

技术领域

本发明属于图像识别技术领域，特别是涉及小样本图像识别的任务重要性感知元学习方法。

背景技术

目前，计算机视觉和深度学习技术获得了飞速发展。特别是在有监督学习领域，随着可用数据集的增加，国内外研究者接连提出了一系列有关计算机视觉识别任务的图像分类、目标检测和语义分割网络模型，分别实现对输入图像的全局场景理解、对图像包含目标物体的矩形框定位和像素级分类识别。

这些网络模型的改进之处可以总结为以下两部分：一是改进网络架构，如ResNet/U-net/DenseNet/PANet等，通过增加相邻或不同层级特征图之间的联系以及特征融合/聚合，增加特征提取的深度和宽度，从而提高模型的特征提取能力；二是设计特殊功能模块，如通道/空间自注意力机制和Transformer系列等，通过加入新功能模块或替换原始模块来提高模型对某些重要性特征的感知能力，从而提高模型性能。

统一地，基于有监督学习的计算机视觉识别任务可以用下式表达：

其中，f表示识别模型，w表示模型参数，w^*表示经过优化算法更新得到的最优模型参数，

表示模型所在的假设空间，E表示期望运算，l表示损失函数，x表示输入数据(向量形式)，y表示标签(向量形式)，D_train表示训练集。

对于有监督学习的计算机视觉识别任务，上式表达的基本思想是在获得训练集输入数据x-真实标签y的基础上，针对不同的识别任务，选取相应的网络架构f，采用相应的损失函数l，让训练集输入数据x经过模型得到的输入f_w(x)与真实标签y差异的期望(或平均值)达到最小，此时训练完毕、得到最优参数w^*，相应的模型即为识别性能最优的模型f_w*。对于不同的识别任务，网络架构f和损失函数l可以采用不同的形式。比如，图像分类问题可以采用VGG/ResNet等网络模型，目标检测问题可以采用Faster R-CNN/YOLO系列等网络模型，语义分割可以采用U-net/Deeplab系列等网络模型。分类问题可以采用交叉熵损失函数，回归问题可以采用最小平方误差损失函数。

可以发现，按上述方法解决此类问题十分依赖于监督条件，即首先要收集大量的训练数据和标签，并且训练样本的数量越多、类别越丰富、标签精度越高，模型的识别和泛化能力就越好。然而，在实际场景下，数据集往往具有信息不完备、样本不充分、数据不平衡、标签不精准的特点，导致训练模型的特征表达能力不全面，进而引起在小样本数据集上训练得到的模型识别和泛化能力较差。

针对小样本学习问题，研究者提出了元学习(meta learning)的概念，即学会学习(learn to learn)，基本思想如下。

首先，从训练集中随机选取不同类别的样本组成支持集(support set)和查询集(query set)，构成不同的任务(task)；对于每一个任务，建立深度网络模型(根据识别对象的不同可以是图像分类或目标检测或语义分割模型)，使用支持集的数据及标签进行有监督学习，训练完毕得到适应于该任务的模型参数。

然后，在查询集上获得该任务的测试损失，并且将所有任务的测试损失求和再次更新模型参数，作为上一个元学习批次(meta batch)；每一个元学习批次结束后得到的模型参数作为下一个元批次的初始参数，如此循环往复，不断进行模型的双层更新，即内层在特定任务上使用支持集的数据及标签进行训练，外层在不同的元学习批次上进行更新。

然而，传统元学习方法主要存在以下两点不足：

(1)外层更新是基于对所有任务的测试损失取平均值进行的，对k＝1～K求平均，因此就默认了不同任务的重要性程度是一致的；然而，由于每个任务包含的数据样本存在较大差异，以往任务和新任务的差异性必然有所不同，导致以往任务对新任务的有效性也不同，但现有的元学习方法无法区别出不同以往任务对于新选取任务的重要性；

(2)由于每个任务的查询集是从训练集中随机选取的，数据样本存在着显著差异，即每个任务的测试损失是在不同的数据集上获得的，即每个任务查询集中包括的样本不完全相同，这就会导致不同任务的评价标准存在较大差异、无法统一，无法判断不同任务的难易程度。

发明内容

本发明目的是为了解决现有技术中的问题，提出了小样本图像识别的任务重要性感知元学习方法。

本发明是通过以下技术方案实现的，本发明提出小样本图像识别的任务重要性感知元学习方法，所述方法包括以下步骤：

步骤一：从图像训练集总样本中随机选取一定量的图像样本作为元批次，在同一元批次中随机采样出互斥的图像样本分别构成支持集和查询集，如此形成一个任务，此过程重复进行多次，在一个元批次中形成多个任务；以上对元批次的处理过程再重复进行多次，最终形成多个不同的元批次、每个元批次包括多个不同的任务，同时，对于每一个元批次，构造一个统一的元批次查询池，对于不同任务都包含相同的样本和标签；

步骤二：对于每一个任务，建立深度网络模型，选取合适的损失函数，使用该任务上支持集的数据及标签进行有监督学习，训练完毕得到适应于该任务的最优模型参数，完成在该任务上的内层更新；

步骤三：对于每一个元批次，计算其中所有任务在支持集上获得的最优模型参数在统一元批次查询池上的验证损失；构造任务重要性感知函数，对于同一元批次所有任务的验证损失，通过任务重要性感知函数计算任务重要性系数，让验证损失越大的任务具有更大的重要性系数；

步骤四：对于每一元批次，将所有任务在查询集上的测试损失，与由步骤三获得的任务重要性系数进行加权求和，进行外层更新，完成一个元批次的训练；每一个外层元批次训练结束后得到的模型参数作为下一个元批次的初始参数，如此循环往复，不断进行内外双层更新直至模型收敛，从而完成小样本图像识别的任务重要性感知元学习。

进一步地，在步骤二中，计算在该任务支持集上所有图像样本上的平均损失，作为内层循环的损失值，如式(1)所示，然后基于误差反向传播算法进行模型参数更新；训练完毕得到适应于该任务的模型参数，完成在该任务上的内层更新；

式中，loss_internal，k代表内层更新第k个任务的损失函数，k代表第k个任务，S^train代表第k个任务支持集中的图像样本数量，i为支持集图像样本的索引编号，f()表示预测模型，x^s，i _k表示第k个任务支持集中的第i个输入图像，y^s，i _k表示第k个任务支持集中的第i个标签，l代表目标函数，

表示对应于第n个元批次第k个任务训练得到的最优模型参数，

为内层更新过程中的模型参数，θ^0，n为第n个元批次的初始模型参数，α为内层更新的学习率，

代表对模型参数求梯度运算。

进一步地，在步骤三中，获得一个元批次内不同任务对于新任务的重要性程度；定义任务重要性系数w_k，表示第k个任务的重要性程度，如式(2)所示：

式中，

为任务重要性感知函数，Qⁿ表示第n个元批次对应的查询池，x和y分别表示查询池Qⁿ中的图像样本和标签，

表示在第k个任务上获得的最优模型参数，k为同一元批次中的任务编号索引，K为同一元批次中所有任务的数量。

进一步地，所述任务重要性系数的取值范围为0-1，并且对于同一元批次的所有任务，任务重要性系数之和为1，即：

进一步地，所述任务重要性感知函数为线性函数，对于任务重要性感知函数为线性函数的情况，任务重要性系数的计算公式为：

进一步地，所述任务重要性感知函数为指数函数，对于任务重要性感知函数为指数函数的情况，任务重要性系数的计算公式为：

其中，softmax表示上式在形式上满足softamx函数的形式。

进一步地，在步骤四中，基于步骤三获得的任务重要性系数w_k，融合不同任务查询集的测试损失，进行外层更新；以某小样本图像数据集作为识别对象，将每一个元批次所有任务在查询集上的测试损失，与任务重要性系数进行加权求和，获得外层循环的损失值，如式(6)所示，并基于误差反向传播算法进行外层更新，完成一个元批次的训练，得到的模型参数作为下一个元批次的初始模型参数；

如此循环往复，不断进行内外双层更新直至模型收敛，即得到了在小样本数据上的最优识别模型；

式中，loss_external表示外层更新的损失函数，w_k表示第k个任务的重要性系数，n表示第n个元学习批次，K表示一个元学习批次中包含的任务数量，k为任务的索引编号，Q^train表示第k个任务查询集中的样本数量，x^q，i _k表示第k个任务查询集中的第i个输入图像，y^q，i _k表示第k个任务查询集中的第i个标签，l代表目标函数，

表示在第k个任务上获得的最优模型参数，θ^0，n表示第n个元批次的初始模型参数，θ^0，n+1表示第n+1个元批次的初始模型参数，β表示外层更新的学习率，

代表对模型参数求梯度运算。

本发明的有益效果：

(1)本发明所述方法实现了对不同任务重要性程度的感知，考虑了由不同任务样本差异性导致的不同学习难易程度，区分了不同任务对于新任务学习的有效性；

(2)本发明所述方法通过构造统一的元批次查询池，使得考虑任务重要性时选取的标准是一致的，解决了不同任务评价标准存在较大差异、无法统一的问题；

(3)本发明所述方法在保证样本使用次数公平性的原则下和传统方法对比，在小样本的条件下可以获得更高的识别精度。

附图说明

图1是本发明所述小样本图像识别的任务重要性感知元学习方法的流程图。

图2是本发明所提方法与原始U-net对小样本混凝土裂缝语义分割识别效果的示例图。

其中，(a)为输入图像，(b)为真实标签，(c)为本发明所述方法识别结果，(d)为原始U-net识别结果。

图3是本发明所述方法与原始U-net对小样本混凝土裂缝语义分割精度的对比图。

图4是采用元学习+U-net双层优化框架与原始U-net对小样本混凝土裂缝语义分割精度的对比图。

图5是本发明所提的任务重要性感知函数对小样本图像语义分割识别精度的影响对比图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1-图5，本发明提出小样本图像识别的任务重要性感知元学习方法，所述方法包括以下步骤：

步骤二：对于每一个任务，建立深度网络模型，选取合适的损失函数(根据识别对象的不同可以是图像分类或目标检测或语义分割模型，损失函数可以是交叉熵或最小平方误差函数等)，使用该任务上支持集的数据及标签进行有监督学习，训练完毕得到适应于该任务的最优模型参数，完成在该任务上的内层更新；

在步骤二中，计算在该任务支持集上所有图像样本上的平均损失，作为内层循环的损失值，如式(1)所示，然后基于误差反向传播算法(如随机梯度下降算法和Adam算法等)进行模型参数更新；训练完毕得到适应于该任务的模型参数，完成在该任务上的内层更新；

式中，loss_internal，k代表内层更新第k个任务的损失函数，k代表第k个任务，S^train代表第k个任务支持集中的图像样本数量，i为支持集图像样本的索引编号，f()表示预测模型，x^s，i _k表示第k个任务支持集中的第i个输入图像，y^s，i _k表示第k个任务支持集中的第i个标签，l代表目标函数(可以根据识别对象进行选择，分类任务可以采用交叉熵损失，回归任务可以采用最小平方距离损失等)，

代表对模型参数求梯度运算。

步骤三：对于每一个元批次，计算其中所有任务在支持集上获得的最优模型参数在统一元批次查询池上的验证损失；构造任务重要性感知函数，对于同一元批次所有任务的验证损失，通过任务重要性感知函数计算任务重要性系数，让验证损失越大的任务具有更大的重要性系数，从而对于新任务训练的重要程度越高。对于同一元批次的所有任务，采用元批次查询池作为统一评价标准，计算得到该元批次不同任务训练模型的验证损失。

在步骤三中，获得一个元批次内不同任务对于新任务的重要性程度；定义任务重要性系数w_k，表示第k个任务的重要性程度，如式(2)所示：

式中，

为任务重要性感知函数，可以取不同的形式，如线性函数

指数函数

等。不同形式的任务重要性感知函数表现了对验证损失即目标函数l的不同放大效应：线性函数即为线性效应，指数函数则对验证损失越大的任务、其任务重要性程度会更高，Qⁿ表示第n个元批次对应的查询池，x和y分别表示查询池Qⁿ中的图像样本和标签，

所述任务重要性系数的取值范围为0-1，并且对于同一元批次的所有任务，任务重要性系数之和为1，即：

所述任务重要性感知函数为线性函数，对于任务重要性感知函数为线性函数的情况，任务重要性系数的计算公式为：

所述任务重要性感知函数为指数函数，对于任务重要性感知函数为指数函数的情况，任务重要性系数的计算公式为：

其中，softmax表示上式在形式上满足softamx函数的形式。

在步骤四中，基于步骤三获得的任务重要性系数w_k，融合不同任务查询集的测试损失，进行外层更新；以某小样本图像数据集作为识别对象，将每一个元批次所有任务在查询集上的测试损失，与任务重要性系数进行加权求和，获得外层循环的损失值，如式(6)所示，并基于误差反向传播算法(如随机梯度下降算法和Adam算法等)进行外层更新，完成一个元批次的训练，得到的模型参数作为下一个元批次的初始模型参数；

代表对模型参数求梯度运算。

本发明所述方法的训练超参数设置的指导思想为：无论采用本发明所述方法进行训练或采用普通网络模型直接训练，保证训练过程中对图像样本的总利用次数近似相等，具体解释如下。

本发明所述方法包括内外双层更新，对图像样本的使用次数如下式所示：

Num₁＝epoch₁×N×[K×(step×S^tram+Q^train)+Qⁿ]

式中，Num₁代表本发明所述方法对图像样本的使用次数，epoch₁代表外层训练轮次，N代表一轮外层训练包含的元批次总数，step代表内层训练的迭代次数，K代表一个元批次中包含的任务数量，S^train和Q^train分别代表每一个任务的支持集和查询集中所包含的图像样本数量，Qⁿ表示第n个元批次对应的查询池。

若采用某深度网络模型在小样本数据集上直接训练，设置训练总轮次的数量，每轮训练都对所有图像样本进行了遍历，因此使用的样本总数为训练总轮次×样本数量。

Num₂＝epoch₂×Total_Num

式中，Num₂代表采用某深度网络模型在小样本数据集上直接训练对图像样本的使用次数，epoch₂代表训练轮次，Total_Num代表小样本图像数据集包含的样本数量。

本发明所述方法的训练超参数设置原则为Num₁≈Num₂，即通过设置不同的训练超参数，保证训练过程中对图像样本的总利用次数近似相等，也就保证了采用本发明所述方法与传统普通方法进行对比的公平性。

实施例

将本发明提出的小样本图像识别的任务重要性感知元学习方法，应用于混凝土裂缝像素级识别场景。所选用的图像数据集为188张混凝土裂缝图像，分辨率为512×512，其中20张作为测试集。所选取的语义分割模型为U-net。使用U-net对168张混凝土裂缝图像直接进行训练，作为与本发明所述方法的对比，以下简称为原始U-net。依照上述公平性原则，原始U-net的训练超参数设置如下：epoch＝15。本发明所述方法的训练超参数设置如下：step＝5，epoch＝1，Task_num＝200，K＝2，S^train＝5，Q^train＝1，S^test＝5，Q^test＝1，采用FocalLoss作为任务更新的损失函数。

图2展示了本发明所述方法与原始U-net对小样本混凝土裂缝语义分割识别效果。图3对比了本发明所述方法与原始U-net对小样本混凝土裂缝语义分割精度。结果表明，本发明所述方法在训练样本较少的情况下，识别效果明显优于原始U-net，具有实现小样本学习的有效性。

图4对比了采用元学习+U-net双层优化框架与原始U-net对小样本混凝土裂缝语义分割的精度。结果表明，使用元学习双层优化框架后，识别效果的平均精度和离散程度优于原始U-net，即元学习双层优化模型能够提高网络模型的测试精度并且更稳定。

图5展示了本发明所提的任务重要性感知函数对小样本图像语义分割识别精度的影响。结果表明，任务重要性感知函数的选择对模型精度影响明显；对比三种不同任务重要性感知函数，在平方放大效应下识别精度最优。

以上对本发明所提出的小样本图像识别的任务重要性感知元学习方法，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.小样本图像识别的任务重要性感知元学习方法，其特征在于：所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于：在步骤二中，计算在该任务支持集上所有图像样本上的平均损失，作为内层循环的损失值，如式(1)所示，然后基于误差反向传播算法进行模型参数更新；训练完毕得到适应于该任务的模型参数，完成在该任务上的内层更新；

式中，loss_internal,k代表内层更新第k个任务的损失函数，k代表第k个任务，S^train代表第k个任务支持集中的图像样本数量，i为支持集图像样本的索引编号，f()表示预测模型，x^s ^,i _k表示第k个任务支持集中的第i个输入图像，y^s,i _k表示第k个任务支持集中的第i个标签，l代表目标函数，

为内层更新过程中的模型参数，θ^0,n为第n个元批次的初始模型参数，α为内层更新的学习率，

代表对模型参数求梯度运算。

3.根据权利要求2所述的方法，其特征在于：在步骤三中，获得一个元批次内不同任务对于新任务的重要性程度；定义任务重要性系数w_k，表示第k个任务的重要性程度，如式(2)所示：

式中，

4.根据权利要求3所述的方法，其特征在于：所述任务重要性系数的取值范围为0-1，并且对于同一元批次的所有任务，任务重要性系数之和为1，即：

5.根据权利要求3所述的方法，其特征在于：所述任务重要性感知函数为线性函数，对于任务重要性感知函数为线性函数的情况，任务重要性系数的计算公式为：

6.根据权利要求3所述的方法，其特征在于：所述任务重要性感知函数为指数函数，对于任务重要性感知函数为指数函数的情况，任务重要性系数的计算公式为：

其中，softmax表示上式在形式上满足softamx函数的形式。

7.根据权利要求4所述的方法，其特征在于：在步骤四中，基于步骤三获得的任务重要性系数w_k，融合不同任务查询集的测试损失，进行外层更新；以某小样本图像数据集作为识别对象，将每一个元批次所有任务在查询集上的测试损失，与任务重要性系数进行加权求和，获得外层循环的损失值，如式(6)所示，并基于误差反向传播算法进行外层更新，完成一个元批次的训练，得到的模型参数作为下一个元批次的初始模型参数；

式中，loss_external表示外层更新的损失函数，w_k表示第k个任务的重要性系数，n表示第n个元学习批次，K表示一个元学习批次中包含的任务数量，k为任务的索引编号，Q^train表示第k个任务查询集中的样本数量，x^q,i _k表示第k个任务查询集中的第i个输入图像，y^q,i _k表示第k个任务查询集中的第i个标签，l代表目标函数，

表示在第k个任务上获得的最优模型参数，θ^0,n表示第n个元批次的初始模型参数，θ^0,n+1表示第n+1个元批次的初始模型参数，β表示外层更新的学习率，

代表对模型参数求梯度运算。