CN114387454A

CN114387454A - 一种基于区域筛选模块和多层次对比的自监督预训练方法

Info

Publication number: CN114387454A
Application number: CN202210018471.XA
Authority: CN
Inventors: 张宇; 米思娅; 陈子涵; 程昊
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-04-22

Abstract

本发明公开了一种基于区域筛选模块和多层次对比的自监督预训练方法,由于对数据集图片进行人工标注既昂贵又费时，采用无标签的自监督方法对图像分类和目标检测的深度学习模型进行预训练在计算机视觉领域中有着不可或缺的研究意义，为了在这一类数据集中直接进行有效的自监督预训练，本发明提出基于实例区域筛选模块来预训练模型，其功能是在用于对比学习的图片生成两个增强图中筛选出特定数量最可能包含实例信息的块图，并将他们进行匹配,本发明提出了一种对全局、局部以及全局局部综合信息进行多层次对比学习的模块。这种方法用多实例数据集预训练出的模型在图片识别、目标检测等下游任务中取得了良好的精度提升。

Description

一种基于区域筛选模块和多层次对比的自监督预训练方法

技术领域

本申请涉及计算机视觉技术领域，特别涉及一种基于区域筛选模块和多层次对比的自监督预训练方法。

背景技术

自监督预训练方法是指利用辅助任务从没有人工标注的数据中挖掘自身的监督信息，通过这种方式构造有效的监督信息对深度学习神经网络模型进行预训练，以学习到对图片识别、目标检测和语义分割等下游任务有价值的特征提取器。由于在大规模数据集中进行人工的数据标注是既昂贵又费时的，采用无标签训练方式的自监督方法计算机视觉领域具有非常重要的研究价值，已受到了越加广泛的关注。

目前自监督预训练方法的辅助任务多采用了对比学习，它通过对比损失函数来最大化同一图像两个不同增强图之间的相似性，从而在数据集中学习模型的特征表示。通过对比学习，现有的自监督学习方法在ImageNet这一类单实例数据集中取得有效的进展。ImageNet是一个以实例为中心的数据集，它不仅只包含了单个实例，而且还将与实例无关的背景区域进行了最大限度的裁剪。自监督对比学习方法的关键步骤是使同一实例中不同增强表示的相似度最大化，这在很大程度上依赖于整个图像中实例信息的比例，所以目前的对比学习研究在ImageNet上易取得较高的准确度。然而，针对目前常用在目标检测的多实例数据集，如COCO和PASCAL VOC，进行自监督预训练的研究则一直很难取得有效的进展，因为这一类数据集不仅并没有以实例信息为中心，而且也没有裁剪图片中大量无关的背景噪声。

现有的多数自监督预训练方法，只是对图像增强的全局信息进行了对比学习。为了通过多尺度预测来提高密集特征提取器的性能，一些方法将全局和局部信息结合的对比引入到预训练中。然而，它们不能保证对比的局部信息能有效包含实例信息。这说明现有的自监督方法很难适用于多实例数据集的预训练任务。所以一种基于区域筛选模块和多层次对比的自监督预训练方法是迫切需求的。

发明内容

发明目的：为了解决现有技术存在的问题，实现基于多实例数据集也能有效的训练自监督模型。本发明提供了一种基于区域筛选模块和多层次对比的自监督预训练方法。它能够有效地筛选出数据集中局部实例信息块图，并设置了全局、局部、“全局—局部”三种层次对比损失函数来最大限度的利用筛选出的实例信息，从而有效提升预训练出的特征提取器的准确性。

技术方案：一种基于区域筛选模块和多层次对比的自监督预训练方法，其特征在于，包括以下步骤：

步骤1)：建立初始深度学习神经网络；

步骤2)：将不带标签的训练输入数据输入神经网络，并基于无监督数据筛选出其中包含实例特征的局部块图；

步骤3)：训练步骤，通过多层次对比学习的损失函数，基于无监督数据筛选出的局部块图训练深度学习神经网络模型。

作为本发明的一种改进，步骤2)中生成数据集图片的增强图，对于一张给定的数据集RGB图片x，随机生成它的两个增强图v和v′，其中增强图的生成方式包括随机大小裁剪、颜色抖动、随机灰度值变换、灰度图像转换和随机水平翻转五种方法；

图片的两个RGB增强图生成后，将其按照网格化的方式分割为整齐排列的多个块图{P¹,P²,…,Pⁿ}，其中n表示增强图包含块图的总数；

采用图像RGB信息熵来初步筛选实例块图，对于一个增强图的块图P,其依据RGB的三个不同颜色通道划分为[P_r:P_g:P_b]，红色通道P_r的图像信息熵计算方式如下：

其中p(r_i)表示像素值i在红色通道P_r中的比例，像素值的范围为[0,255]。绿色通道P_g和蓝色通道P_b图像信息熵

和

计算方式与上述红色通道P_r类似。接下来，计算块图总RGB信息熵H_P，图像总RGB信息熵计算方式表示为：

在整个增强图v中，将所有的网格化切分的块图{P¹,P²,…,Pⁿ}按照图像RGB信息熵H_P大小从高到低排序，筛选出图像信息熵前k_H高的块图进入步骤五的进一步筛选；

因图像RGB信息熵仅能对增强图中块图的局部信息进行计算，故采用衡量全局信息的LC显著性检测值筛选方法对块图进行二次筛选，在增强图中，使用像素与图中其他灰度值所在像素之间的距离之来度量像素属于实例区域的概率，假设I_k表示增强图中一个像素点，则I_k的显著值计算方式如下：

其中，g(I_k)表示像素I_k的灰度值，f_n表示灰度值n在整个增强图中的出现频率，Dist(.)代表两个灰度值之间的欧式距离，对于一个增强图v，将其转化为灰度图V_g，对于所有的像素点I_k，计算其显著值

在V_g中的值；

根据像素点的显著值来计算块图的显著值S_P，其计算方式表示为：

对于在步骤四中筛选出块图，根据块图的显著值S_P从高到底排序，进一步筛选出显著值S_P最高的前k个(k<k_H)小块，作为实例区域筛选模块的筛选结果，对于增强图v，筛选出的所有块图表示为P(v)；

由于增强图的生成方式包括能够改变位置特征的随机大小裁剪方法，所以不能保证在步骤七中筛选出的块图在一个图像的两个增强图v和v′中的位置是对应一致的，故采用互信息度量的方法对两个增强图v和v′中筛选的块图进行匹配，以将其准确用于步骤十和步骤十二的对比学习中，给定两个块图X,Y，他们的互信息值M(X,Y)的计算方式如下：

H(X,Y)＝-∑_a,b p_XY(a,b)log₂p_XY(a,b)

M(X,Y)＝H_X+H_Y-H(X,Y)

其中p_XY(a,b)表示两个像素值a,b在两个块图X,Y中的联合概率分布，接下来，对于一个块图，在另一个增强图中选择与其互信息值最高的作为匹配块图；

计算用于对比学习的全局和局部特征，本发明的深度学习模型依次包含一个主干网络f_θ和两个MLP头，主干网络选择残差网络Resnet50，MLP头包含一个线性层，归一化算子和ReLu层，对于多实例数据集中一个图像的两个增强图v和v′与它们在步骤七中筛选出的块图P(v)和P(v′)，将其首先放入主干网络f_θ中进行计算，输出得到它们对应的嵌入特征向量，其中通过整个增强图得到全局特征向量I_y，I_y′，块图视为局部特征向量，记为P_y，P_y′，它们经过第一个MLP头之后，得到对应的投影特征I_z，I_z′和P_z，P_z′，对于第一个增强图v，还需要将其投影特征投入第二个MLP头的计算，得到预测特征I_q和P_q；

作为本发明的一种改进，步骤3)中：采用多层次的对比学习来最大限度地利用从步骤七中筛选出块图的实例信息，首先进行局部对比学习，对于增强图v中的一个块图，其预测特征记为P_q，在步骤八中计算得到该块图来自增强图v′的匹配块图，该匹配块图的投影特征记为P_z′，为了提升上述匹配块图间的特征相似性，设立局部对比损失函数L_local，其计算方式表示如下：

其中‖·‖表示L-2范数函数，<·>表示向量的内积；

接下来进行全局对比学习，对于数据集中一个图像的两个增强图v和v′，设定增强图v的预测特征为I_q，增强图v′的投影特征记为I_z′，则全局对比损失函数L_global的计算方式为：

其中‖·‖表示L-2范数函数，<·>表示向量的内积。

由于局部实例块图的位置在下游任务中也是十分重要的潜在信息，本发明设立一种全新的“全局—局部”的对比损失函数

其将全局和局部的特征表示及局部块图的位置编码综合应用于对比学习，该位置编码设定为POS，表示一个筛选出的局部实例块图在整个增强图中的定位信息，对于一个像素大小为224×224的增强图，POS设定为初始值均为0的的一维向量，其长度为408，假定某块图左上角的像素点在增强图中的位置坐标为[a,b],其位置编码POC设置方式则是将向量下标为a和224+b的元素值设为1，对于一个增强图v，设立其综合对比学习连接表示C_q，其计算方式表示如下：

C_q＝cat(I_q,P_q,POS_P,v)

其中cat(·)表示向量的拼接操作，POS_P,v代表块图P在增强图v中的位置编码，对于相对应的增强图v′的综合对比学习连接表示C_z′，具有类似的计算方式，接下来，计算“全局—局部”的对比损失函数：

步骤十三：接下来设置总损失函数，其表示为上述全局、局部、“全局—局部”三种层次对比损失函数的结合：

其中α,β,γ表示平衡这三种对比损失函数的权重；

将步骤十三中的基于区域筛选模块和多层次对比的模型应用于多实例数据集进行无监督的预训练，然后根据对应的下游任务，训练模型的线性分类层，最后使用数据集的测试集进行准确率的测试。

进一步的，所述步骤一中的图片增强图生成方式还包括随机填充和仿射变换。

进一步的，所述步骤一中使用图片随机大小裁剪增强时，将裁剪的范围设置为[0.08,0.75]。

进一步的，所述步骤二中块图网格化分割设置为实际数据集中图片切分为32×32块的标准。

进一步的，所述步骤三中信息熵的求平均运算是基于RGB图像进行的，若是基于灰度图像的数据集则直接计算灰度值的信息熵。

进一步的，所述步骤七中对于在每个增强中筛选块图的块数k的设置，根据实际数据集中实例区域平均信息量的含量来衡定，在COCO2017数据集预训练中设置为24。

进一步的，所述步骤九中主干网络f_θ设置为Resnet18，Resnet34，Transformer特征提取网络。

进一步的，所述步骤十四中下游任务包括图像分类和目标检测。

有益效果：本发明提供了一种基于区域筛选模块和多层次对比的自监督预训练方法，在多实例数据集的环境下进行预训练时，相比较现有方法可以获得更高的模型准确度。该方法能筛选出数据集中局部实例信息块图，并设置多层次对比损失函数来最大限度的利用筛选出的实例信息，有效地解决了基于多实例数据集的对比学习中难以获得有效的实例信息并加以利用的问题。

附图说明

图1为本发明的方法流程图；

图2为本发明对PASCAL VOC 2007数据集图片进行实例区域筛选后的筛选结果图；

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细说明：

本实施例提供基于区域筛选模块和多层次对比的自监督预训练方法，并将其应用于PASCAL VOC中和COCO数据集中进行图像分类和目标检测。

该方法的流程如图1所示：

步骤一：生成数据集图片的增强图，对于一张给定的数据集RGB图片x，随机生成它的两个增强图v和v′，其中增强图的生成方式包括随机大小裁剪、颜色抖动、随机灰度值变换、灰度图像转换和随机水平翻转五种方法；

步骤二：图片的两个RGB增强图生成后，将其按照网格化的方式分割为整齐排列的多个块图{P¹,P²,…,Pⁿ}，其中n表示增强图包含块图的总数；

步骤三：采用图像RGB信息熵来初步筛选实例块图，对于一个增强图的块图P,其依据RGB的三个不同颜色通道划分为[P_r:P_g:P_b]，红色通道P_r的图像信息熵计算方式如下：

和

步骤四：在整个增强图v中，将所有的网格化切分的块图{P¹,P²,…,Pⁿ}按照图像RGB信息熵H_P大小从高到低排序，筛选出图像信息熵前k_H高的块图进入步骤五的进一步筛选；

步骤五：因图像RGB信息熵仅能对增强图中块图的局部信息进行计算，故采用衡量全局信息的LC显著性检测值筛选方法对块图进行二次筛选，在增强图中，使用像素与图中其他灰度值所在像素之间的距离之来度量像素属于实例区域的概率，假设I_k表示增强图中一个像素点，则I_k的显著值计算方式如下：

在V_g中的值；

步骤六：根据像素点的显著值来计算块图的显著值S_P，其计算方式表示为：

步骤七：对于在步骤四中筛选出块图，根据块图的显著值S_P从高到底排序，进一步筛选出显著值S_P最高的前k个(k<k_H)小块，作为实例区域筛选模块的筛选结果，对于增强图v，筛选出的所有块图表示为P(v)；

图2展示了步骤七方法对PASCAL VOC 2007数据集中一张图片进行实例区域筛选的结果。可以看出在没有标签的情况下，本发明筛选出的区域很大概率都包含了图像中最关键的实例信息，所以将该模块筛选出的块图视为局部实例信息进行对比学习是有效的。

步骤八：由于增强图的生成方式包括能够改变位置特征的随机大小裁剪方法，所以不能保证在步骤七中筛选出的块图在一个图像的两个增强图v和v′中的位置是对应一致的，故采用互信息度量的方法对两个增强图v和v′中筛选的块图进行匹配，以将其准确用于步骤十和步骤十二的对比学习中，给定两个块图X,Y，他们的互信息值M(X,Y)的计算方式如下：

H(X,Y)＝-∑_a,b p_XY(a,b)log₂p_XY(a,b)

M(X,Y)＝H_X+H_Y-H(X,Y)

步骤九：计算用于对比学习的全局和局部特征，本发明的深度学习模型依次包含一个主干网络f_θ和两个MLP头，主干网络选择残差网络Resnet50，MLP头包含一个线性层，归一化算子和ReLu层，对于多实例数据集中一个图像的两个增强图v和v′与它们在步骤七中筛选出的块图P(v)和P(v′)，将其首先放入主干网络f_θ中进行计算，输出得到它们对应的嵌入特征向量，其中通过整个增强图得到全局特征向量I_y，I_y′，块图视为局部特征向量，记为P_y，P_y′，它们经过第一个MLP头之后，得到对应的投影特征I_z，I_z′和P_z，P_z′，对于第一个增强图v，还需要将其投影特征投入第二个MLP头的计算，得到预测特征I_q和P_q；

步骤十：采用多层次的对比学习来最大限度地利用从步骤七中筛选出块图的实例信息，首先进行局部对比学习，对于增强图v中的一个块图，其预测特征记为P_q，在步骤八中计算得到该块图来自增强图v′的匹配块图，该匹配块图的投影特征记为P_z′，为了提升上述匹配块图间的特征相似性，设立局部对比损失函数L_local，其计算方式表示如下：

其中‖·‖表示L-2范数函数，<·>表示向量的内积；

步骤十一：接下来进行全局对比学习，对于数据集中一个图像的两个增强图v和v′，设定增强图v的预测特征为I_q，增强图v′的投影特征记为I_z′，则全局对比损失函数L_global的计算方式为：

其中‖·‖表示L-2范数函数，<·>表示向量的内积。

步骤十二：由于局部实例块图的位置在下游任务中也是十分重要的潜在信息，本发明设立一种全新的“全局—局部”的对比损失函数

C_q＝cat(I_q,P_q,POS_P,v)

其中α,β,γ表示平衡这三种对比损失函数的权重；

步骤十四：将步骤十三中的基于区域筛选模块和多层次对比的模型应用于多实例数据集进行无监督的预训练，然后根据对应的下游任务，训练模型的线性分类层，最后使用数据集的测试集进行准确率的测试。

本实例中，首先基于了COCO2017进行了自监督预训练，然后在PASCAL VOC 2007的测试集上进行了测试，本发明提出的模型获得了86.2％的top-1图像分类准确率和AP:52.9AP50:79.5AP75:58.0的目标检测结果，相较于以前的自监督预训练方法，这是一个极具竞争力的结果。除此之外，也基于了多实例数据集PASCAL VOC2007+2012的训练和验证集进行预训练，在PASCAL VOC 2007的测试集上能得到66.1％的图像分类准确率，相比于之前的自监督方法在同样数据集上的结果也有一定的效果提升。这些结果有力地证明了本发明提出的基于区域筛选模块和多层次对比的自监督模型针对多实例数据集的预训练具有优异的效果。

Claims

1.一种基于区域筛选模块和多层次对比的自监督预训练方法，其特征在于：所述方法包括以下步骤：

步骤1)：建立初始深度学习神经网络；

2.根据权利要求1所述的一种基于区域筛选模块和多层次对比的自监督预训练方法，其特征在于，所述步骤2)具体包括：

其中p(r_i)表示像素值i在红色通道P_r中的比例，像素值的范围为[0,255]，接下来，计算块图总RGB信息熵H_P，图像总RGB信息熵计算方式表示为：

在整个增强图v中，将所有的网格化切分的块图{P¹,P²,…,Pⁿ}按照图像RGB信息熵H_P大小从高到低排序，筛选出图像信息熵前k_H高的块图；

在V_g中的值；

根据块图的显著值S_P从高到底排序，进一步筛选出显著值S_P最高的前k个(k<k_H)小块，作为实例区域筛选模块的筛选结果，对于增强图v，筛选出的所有块图表示为P(v)；

计算用于对比学习的全局和局部特征，本发明的深度学习模型依次包含一个主干网络f_θ和两个MLP头，主干网络选择残差网络Resnet50，MLP头包含一个线性层，归一化算子和ReLu层，

对于多实例数据集中一个图像的两个增强图v和v′与筛选出的块图P(v)和P(v′)，将其首先放入主干网络f_θ中进行计算，输出得到它们对应的嵌入特征向量，其中通过整个增强图得到全局特征向量I_y，I_y′，块图视为局部特征向量，记为P_y，P_y′，它们经过第一个MLP头之后，得到对应的投影特征I_z，I_z′和P_z，P_z′，对于第一个增强图v，还需要将其投影特征投入第二个MLP头的计算，得到预测特征I_q和P_q。

3.根据权利要求1所述的一种基于区域筛选模块和多层次对比的自监督预训练方法，其特征在于，所述步骤3)具体包括：

采用多层次的对比学习来最大限度地利用筛选出块图的实例信息，首先进行局部对比学习，对于增强图v中的一个块图，其预测特征记为P_q，计算得到该块图来自增强图v′的匹配块图，该匹配块图的投影特征记为P_z′，为了提升上述匹配块图间的特征相似性，设立局部对比损失函数L_local，其计算方式表示如下：

其中‖·‖表示L-2范数函数，<·>表示向量的内积；

进行全局对比学习，对于数据集中一个图像的两个增强图v和v′，设定增强图v的预测特征为I_q，增强图v′的投影特征记为I_z′，则全局对比损失函数L_global的计算方式为：

其中‖·‖表示L-2范数函数，<·>表示向量的内积，

将全局和局部的特征表示及局部块图的位置编码综合应用于对比学习，该位置编码设定为POS，表示一个筛选出的局部实例块图在整个增强图中的定位信息，对于一个像素大小为224×224的增强图，POS设定为初始值均为0的的一维向量，其长度为408，假定某块图左上角的像素点在增强图中的位置坐标为[a,b],其位置编码POC设置方式则是将向量下标为a和224+b的元素值设为1，对于一个增强图v，设立其综合对比学习连接表示C_q，其计算方式表示如下：

C_q＝cat(I_q,P_q,POS_P,v)

设置总损失函数，其表示为上述全局、局部、“全局—局部”三种层次对比损失函数的结合：

其中α,β,γ表示平衡这三种对比损失函数的权重。

4.根据权利要求2所述的基于区域筛选模块和多层次对比的自监督预训练方法，其特征在于，图片增强图生成方式还包括随机大小裁剪、颜色抖动、随机灰度值变换、灰度图像转换和随机水平翻转、随机填充和仿射变换。

5.根据权利要求4所述的基于区域筛选模块和多层次对比的自监督预训练方法，其特征在于，使用图片随机大小裁剪增强时，将裁剪的范围设置为[0.08,0.75]。

6.根据权利要求2所述的基于区域筛选模块和多层次对比的自监督预训练方法，其特征在于，块图网格化分割设置为实际数据集中图片切分为32×32块的标准。

7.根据权利要求2所述的基于区域筛选模块和多层次对比的自监督预训练方法，其特征在于，信息熵的求平均运算是基于RGB图像进行的，若是基于灰度图像的数据集则直接计算灰度值的信息熵。

8.根据权利要求2所述的基于区域筛选模块和多层次对比的自监督预训练方法，其特征在于，所述对于在每个增强中筛选块图的块数k的设置，根据实际数据集中实例区域平均信息量的含量来衡定，在COCO2017数据集预训练中设置为24。