CN116363465A

CN116363465A - 一种基于非对称掩码的对比学习方法

Info

Publication number: CN116363465A
Application number: CN202310355846.6A
Authority: CN
Inventors: 沈成超; 陈建忠; 王建新
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-06-30

Abstract

本发明公开了一种基于非对称掩码的对比学习方法对提取的图像的语义信息进行图像分类的方法，主要包括对获取到的原始图像进行两次随机裁剪并分别做不同的数据增强来构建正样本对；采用非对称掩码策略对图像块进行采样，降低重叠区域的采样率，构建具有较大外观差异的正样本对；将采样的图像块输入到一对参数共享的编码器中，其中一侧编码器使用梯度下降更新，另一侧编码器则动量更新来提取图像表征；将图像表征分别经过映射模块和预测模块，使用对比损失函数最小化正样本之间的差异，同时最大化负样本之间的差异；同时在训练的过程中利用自适应的裁剪梯度策略来稳定训练过程。本发明能够更好的捕捉图像表征信息，从而能够提高图像分类的准确率。

Description

一种基于非对称掩码的对比学习方法

技术领域

本发明属于图像分类技术领域，涉及一种基于非对称掩码的对比学习方法。

背景技术

深度学习的迅速进展,使它成为了许多现代人工智能技术的基础方法。传统的监督训练方式,严重依赖于带标签的数据集。这就是自监督方法在推动深度学习进步方面发挥重要作用的地方，它不需要昂贵的带标签的数据，即在学习图像表征时不需要提供有监督的数据。近年来，自监督/无监督学习的领域取得了巨大的突破。基于代理任务的差异，目前较为流行的分支包括对比学习(CL)和掩码图像建模(MIM)。

对于对比学习任务，需要训练模型将同一图像的不同视图与其他图像区分开来，这种方式称为实例区分。为了学习有效的图像表征，不对称设计在对比学习中发挥着至关重要的作用，它在低级特征上引入了一系列变化，但不改变图像的语义信息。其中最重要的非对称设计是一系列应用于正样本对的数据增强技术，例如，颜色变换、灰度变换和曝光等操作，它们显著的改变了正样本的颜色，因此这要求基于对比学习的模型捕获图像中无关于颜色的表征。然后，随机裁剪操作引入了图像大小和比例的变化，这进一步消除了模型对图像的大小和比例的依赖性。因此，该模型被训练来使用语义特征来识别对象，而不是浅显的表层特征。此外，非对称设计也被引入到网络架构中，例如预测模块和动量编码器，它们改变了正样本对的表征。因此，合理的不对称设计对于对比学习的表现非常重要。然而，由于正样本对之间的图像区域重叠，现有的对比学习方法中正样本对仍然存在大量的外观相似性，这降低了模型学习良好表征的能力。

与对比学习不同，MIM任务遵循自然语言处理(NLP)中掩码语言建模任务(MLM)的思想，其中部分掩码的数据被输送到模型中，以自动编码的方式预测数据的不可见部分。由于图像的严重空间冗余，MIM任务中的掩码图像仍然可以有效地保留原始图像的语义，这在自监督学习中实现了非常不错的性能。然而，在相似的语义下，原始像素或其图像块在外观上具有较大的波动，导致从随机掩码图像重建不可见区域存在着非唯一的预测目标，特别是当掩码比率较大时。现有的MIM方法试图将高度掩码的图像映射到固定的目标，即使预测的目标是给定输入的合理目标，这也不可避免地引入了较大的拟合误差。我们称之为非唯一目标问题，这实质上限制了MIM模型的灵活性。

为此，一些方法使用了基于特征预测的方法来缓解上述问题。尽管这些方法取得了不错的结果，但这些方法仍然严重依赖于重建像素或图像块的不稳定目标。因此，相比之下，我们所提出的方法通过学习由非对称采样策略采样的不同视图之间的实例相似性来建模掩码图像，这为自监督学习提供了更灵活和稳定的目标。

发明内容

本发明所解决的技术问题是，针对现有技术的不足，提供一种基于非对称掩码的对比学习方法，这个方法能够提高图像分类的准确度。

为实现上述目的，本发明的技术方案如下：

一种基于非对称掩码的对比学习方法，包括以下步骤：

步骤1、对获取到的原始图像进行两次随机裁剪、随机水平垂直翻转和颜色变化等数据增强，构建正样本对。

步骤2、采用非对称掩码策略对图像块掩码采样，降低正样本之间重叠区域的采样率，构建具有较大外观差异的正样本对。

步骤3、分别将正样本对放入初始参数共享的编码器中，提取图像表征信息。其中一侧编码器使用梯度下降更新，另一侧编码器动量更新。

步骤4、将编码器得到的表征分别经过映射模块和预测模块，使用对比损失函数最小化正样本之间的差异，同时最大化负样本之间的差异。

步骤5、在训练的过程中利用自适应的裁剪梯度策略来平稳梯度、稳定训练过程。

步骤6、通过训练得到的模型在图像分类任务上微调，在测试数据集图像上进行分类。

进一步地，所述步骤1中，对原始图像做两次不对称的数据增强的过程是：首先在原始图像以随机的面积比例和随机宽高比例裁剪出矩形区域。将裁剪区域的位置和大小数据保存：

Box＝[i,j,h,w]

其中，Box代表裁剪区域的矩形框；i表示裁剪矩形框的左上角横坐标，j表示裁剪矩形框的左上纵坐标，h表示裁剪矩形框的高度，w表示裁剪矩形框的宽度。

对图像进行两次裁剪后，得到了图像两个视图的矩形框，分别为Box1和Box2。之后，使用双线性插值将裁剪后的图像恢复成指定的模型输入大小，让模型学习无关于图像尺寸和区域的表征。然后，将图像分别做随机的水平和垂直翻转。

对图像做数据增强使用的是torchvision的transform工具包，该工具包是计算机上视觉领域中常用的Python工具箱；

进一步地，为了使得模型学习无关于颜色的表征信息，对图像做颜色变换、灰度化变换和曝光操作。

进一步地，所述步骤2中，由于图像空间的严重冗余，为了提高代理任务的难度，以便于模型学习更深层的语义信息而不是浅层的表征信息。对视图1采用稀疏采样来实现掩码操作。其中掩码块大小与图像块大小一致，掩码块的总数为掩码比率乘以图像块总数。

为了进一步的降低正样本对两视图之间的外观相似性，采用非对称掩码策略来降低重叠区域的图像块的采样率，提高非重叠区域的采样率，从而保持采样图像块总数不变。具体来说，首先对视图1中的图像块进行随机采样，再根据视图1中已经采样的图像块来确定视图2中需要采样的图像块。所采用的采样方法是根据图像块的重叠比例来确定图像块的采样率。

其中，重叠比例的计算方式如下：

其中，P_i(i＝1，2)代表视图i中图像块。S(·)代表的是给定图像块的面积。为了降低重叠图像块的采样概率，在视图2使用了一种选择性的图像块采样方法，其中图像块的采样概率密度p_sel通过以下公式计算：

p_sel＝(γ+1)·s₁·(1-r_overlap)^γ

其中s₁指的是视图1中采样的图像块的采样概率，γ是调整采样灵敏度的超参数。γ越大，图像块被采样的可能性越小。这种选择性采样和稀疏采样方法形成了不对称采样策略。

由于稀疏采样策略从第一视图x₁均匀的采样图像块，因此重叠区域x₁∩x₂中的图像块采样的概率也是s₁，与x₁中的概率相同。因此，采样概率密度需要满足以下等式：

这保证了总概率满足所提出的采样策略的比率(x₁∩x₂)。

进一步地，所述步骤3中，采用视觉Transformer来提取图像的表征信息。将所有的图像块都经过一维线性投影E(·)，得到对应的Token嵌入向量。为了使图像不丢失位置信息，所有的Token嵌入向量中都加上可学习的位置编码E_pos，同时除了现有的所有Token外，还添加了一个class Token嵌入来获取图像的全局信息。接着，通过Transformer的编码器层，实现Token之间的信息交互。transformer结构中每层编码器结构相同。所采用的Transformer结构由一系列相同结构的Transformer块构成。其中，每个Transformer块由多头注意力机制和多层感知机构成，在每个Transformer块之前采用Layer Norm对输入进行归一化操作，在每个Transformer块之后使用残差连接。

把视图1和视图2的Token序列分别输入到两个初始化参数相同的编码器中，其中一个编码器使用正常的梯度下降更新，另一个编码器使用动量方式更新参数。动量更新公式如下所示：

P_t＝m·P_t-1+(1-m)·P_t

其中P_t为t步骤下正常梯度下降更新后模型的参数，P_t-1为(t-1)步骤下动量编码器的模型参数，m为动量更新系数。

进一步地，所述步骤4中，将视图1和视图2的图像表征class Token经过映射模块和预测模块进行特征映射。然后，使用对比损失函数最小化正样本之间的差异，同时最大化负样本之间的差异。对比损失函数公式如下所示：

其中τ和N分别表示温度参数和批次大小，q⁽ⁱ⁾和z⁽ⁱ⁾分别表示数据批次中第i个样本的表征q和z，sg(·)表示表示梯度截断操作。q代表的是经过映射模块出来的特征，z代表的经过映射模块和预测模块出来的特征。

进一步地，所述步骤5中，为了解决基于视觉Transformer的对比学习方法的不稳定的优化问题，稳定训练过程，根据梯度

的指数移动平均值为步骤t设置自适应阈值，公式如下所示：

其中m∈[0，1)是动量系数，g_t表示步骤t中模型参数的梯度。当

时，梯度/>

按阈值/>

的范数缩放：

通过设置∈来提升梯度缩放的数值稳定性，将梯度的幅度调整到合理的范围内，从而提高对比学习的训练稳定性。

进一步地，所述步骤6中，将上述预训练的Transformer模型在标注数据集上进行微调。将预训练模型的参数加载到标准的Transformer模型中，丢弃预训练模型的映射层和预测层参数，同时为了实现分类任务将完整的图片裁剪成图像块序列的形式输入到模型中，经过Transformer模型编码得到Token表征序列。取其中的全局表征class Token，并输入到单层的线性网络构成的分类器模块中，计算其与标注数据的one-hot标签的交叉熵损失函数来，引导模型往分类正确的方向进行参数优化。

有益效果

本发明构建的模型是基于非对称掩码的对比学习神经网络，主要包括对获取到的原始图像进行两次随机裁剪并分别做不同的数据增强来构建正样本对；采用非对称掩码策略对图像块进行采样，降低重叠区域图像块的采样率，构建具有较大外观差异的正样本对；将采样的图像块输入到一对初始化参数相同的编码器中来获取图像表征，其中一侧编码器使用正常的梯度下降更新，另一侧编码器则使用动量方式更新参数；将图像表征分别经过映射模块和预测模块，使用对比损失函数最小化正样本之间的差异，同时最大化负样本之间的差异；同时在训练的过程中利用自适应的裁剪梯度策略来稳定训练过程。在ImageNet和CIFAR数据集上的实验表明，本发明能够提高图像分类的准确率并且降低显存的占用。

附图说明

图1是本发明方法的总体示意图。

图2是本发明方法计算图像块重叠面积的示意图。

具体实施方式

如图1所示，本发明提出的基于非对称掩码的对比学习方法主要包括以下步骤：

步骤1：选取公开的图像分类数据集ImageNet和CIFAR。将数据集划分为训练集和测试集，使用训练集数据进行预训练，使用测试集数据进行微调。将训练集中的图片做两次不对称的数据增强。首先在原始图像以随机的面积比例和随机宽高比例裁剪出矩形区域。其中裁剪的面积比例范围为原始图像的0.15倍到1.0倍之间，裁剪区域的宽高比例为3/4到4/3。将裁剪区域的位置和宽高数据保存。

随后使用双线性插值将裁剪后的图像恢复成指定的模型输入大小，其中在ImageNet数据集上模型的输入大小为224×224，在CIFAR数据集上模型的输入大小为32×32。然后，将图像分别做随机的水平和垂直翻转，水平翻转和垂直翻转的概率p＝0.5。进一步的，对图像做颜色变换、灰度化和曝光操作，最后将原始数据做归一化操作。

步骤2：采用非对称采样策略对图像块采样。在ImageNet数据集上图像块的大小为16×16，在CIFAR数据集上图像块的大小为2×2。视图1和视图2的采样概率均设为0.25，即s₁＝s₂＝0.25。对视图1采用均匀采样策略，即每一个图像块的采样概率相等。具体来说，将从0开始与图像块数目相等的步长为1的数组随机打乱，取得数组中前25％的数据即为所要采样图像块的索引。计算视图1的图像块与视图2中的所有图像块的重叠比例：

其中，P_i(i＝1，2)代表视图i中采样的图像块。S(·)代表的是给定图像块的面积。对视图2的图像块使用选择性采样策略，采样概率密度p_sel通过以下公式计算：

p_sel＝(γ+1)·s₁·(1-r_overlap)^γ

其中s₁指的是视图1中的图像块的采样概率，γ是调整采样灵敏度的超参数，γ设为3来增大图像块之间的差异。

步骤3，将视图1和视图2采样的所有图像块分别输入到初始化参数相同的Transformer编码器。所有的图像块都经过一维线性投影E(·)，具体是使用卷积操作将所有特征投影到指定维度，得到对应的Token嵌入向量。其中卷积核和步长都为图像块的大小，即在ImageNet数据集上为16，在CIFAR数据集上为2。以base版本的Transformer编码器为例，卷积的输入通道为3，输出通道为768。所有的Token嵌入向量中都加上可学习的位置编码E_pos，位置编码的维度与嵌入维度相同，也为768。同时除了所有的Token外，还添加了一个class Token嵌入来获取图像的全局信息。

然后，我们采用带有h个注意力头的MHSA来实现Token之间的信息交互：

其中，1≤l≤L，

表示第(l-1)层Transformer的输出，Norm表示批归一化操作。之后，本方法采用两层的FFN对/>

进行非线性转换，线性层之间使用ReLU作为激活函数，计算公式如下所示：

其中，FFN定义为FFN(x)＝W₂(ReLU(W₁x+b₁)+b₂)。取Transformer最后一层得到的结果

作为最终的图像表征。我们使用带有h＝12个注意头的MHSA和L＝12层的Transformer编码器来获取图像表征。

步骤4，构建映射和预测模块，计算对比损失。

映射模块和预测模块都使用的是3层的线性层，线性层之间使用ReLU函数作为激活函数，同时线性层之间使用BatchNorm做特征的归一化操作。使用对比损失函数最小化正样本之间的差异，同时最大化负样本之间的差异。对比损失函数公式如下所示：

其中τ和N分别表示温度参数和批次大小，q⁽ⁱ⁾和z⁽ⁱ⁾分别表示数据批次中第i个样本的表征g和z，sg(·)表示表示梯度截断操作。q代表的是经过映射模块出来的特征，z代表的经过映射模块和预测模块出来的特征。

使用梯度裁剪策略稳定训练过程，根据梯度

的指数移动平均值为步骤t设置自适应阈值，公式如下所示：

时，梯度/>

按阈值/>

的范数缩放：

对于ImageNet-1K数据集，我们使用AdamW优化器，批量大小为4096，学习率为1.28×10^-3，动量更新系数为0.9，权重衰退为0.1。学习率预热20个epoch，然后其余780个epoch遵循余弦学习率衰减调整。为了进一步稳定训练，在每层Transformer块上执行自适应梯度剪辑操作，其中m＝0.4，α＝1.05。对于图像块采样，我们设置γ＝3以增加正样本对之间的外观差异。

对于CIFAR数据集，我们使用批量大小为512、学习率为1×10^-3、动量为0.9、权重衰减为0.05的AdamW优化器。该模型由1600个epoch训练，其中前20个epoch用于学习率预热。此外，没有对CIFAR模型进行梯度剪辑操作。

步骤5，将上述预训练的Transformer模型在标注数据集上进行微调。将预训练模型的参数加载到标准的Transformer模型中，丢弃预训练模型的映射层和预测层参数，同时为了实现分类任务将完整的图片裁剪成图像块序列的形式输入到模型中，经过Transformer模型编码得到Token表征序列。取其中的全局表征class Token，并输入到单层的线性网络构成的分类器模块中，计算其与标注数据的one-hot标签的交叉熵损失函数来，引导模型往分类正确的方向进行参数优化。交叉熵损失函数的公式如下：

式中θ表示模型所有可学习参数，N为样本数量，y_i是样本真实的标签，

为模型的预测结果。所有预训练的模型都会进行100个epoch的微调，选取微调结果最高的epoch作为微调分类的结果。

Claims

1.一种基于非对称掩码的对比学习方法，其特征在于，包括以下步骤：

步骤1、对获取到的原始图像进行两次随机裁剪、随机水平垂直翻转和颜色变化等数据增强，获取裁剪框，构建正样本对。

步骤3、分别将正样本对放入初始参数共享的编码器中，提取图像表征信息。其中一侧编码器使用梯度下降更新，另一侧编码器则动量更新。

步骤4、将图像表征分别经过映射模块和预测模块，使用对比损失函数最小化正样本之间的差异，同时最大化负样本之间的差异。

步骤6、通过训练得到的模型在图像分类任务上微调，对测试数据集图像进行分类。

2.根据权利要求1所述的基于非对称掩码的对比学习方法，其特征在于，所述步骤1中，对原始图像做两次不对称的数据增强的过程是：首先在原始图像以随机的面积比例和随机宽高比例裁剪出矩形区域。将裁剪区域的左上角坐标和长宽数据保存为Box：

Box＝[i,j,h,w]

对图像进行两次裁剪后，得到了图像两个视图的矩形框，分别为Box1和Box2。之后，使用双线性插值将裁剪后的图像恢复成指定的模型输入大小，让模型学习无关于图像尺寸和区域的表征。随后将图像分别做随机的水平和垂直翻转。进一步的，对图像做颜色变换、灰度变化和曝光操作，最后将原始数据做归一化操作。

3.根据权利要求1所述的基于非对称掩码的对比学习方法，其特征在于，所述步骤2中，对视图1采用稀疏采样来实现掩码操作。其中掩码块大小与图像块大小一致，掩码块的总数量为掩码比率乘以总的图像块个数。

为了进一步的降低正样本对的外观相似性，采用非对称掩码策略来降低重叠区域的采样率，提高非重叠区域的采样率。首先对视图1中的图像块进行随机采样，再根据视图1中已经采样的图像块来确定视图2中需要采样的图像块。所采用的采样方法是根据视图2与视图1之间的图像块的重叠比例来确定视图2中与视图1的采样率。其中，重叠比例的计算方式如下：

其中，P_i(i＝1,2)代表视图i中采样的图像块。S(·)代表的是给定图像块的面积。为了降低重叠图像块的采样概率，在视图2中使用了一种选择性的图像采样方法，其采样概率密度p_sel通过以下公式计算：

p_sel＝(γ+1)·s₁·(1-r_overlap)^γ

其中s₁指的是视图1中的图像块的采样概率，γ是调整采样灵敏度的超参数。γ越大，图像块被采样的可能性越小。这种选择性采样和稀疏采样方法形成了不对称采样策略。

4.根据权利要求1所述的基于非对称掩码的对比学习方法，其特征在于，所述步骤3中，采用视觉Transformer来提取图像的表征信息。将所有的图像块都经过一维线性投影E(·)，得到对应的Token嵌入向量。为了使图像不丢失位置信息，所有的Token嵌入向量中都加上可学习的位置编码E_pos，同时除了所有的Token外，还添加了一个class Token嵌入来获取图像的全局信息。接着，通过Transformer的编码器层，实现Token之间的信息交互。所采用的Transformer结构由一系列相同结构的Transformer块构成。其中，每个Transformer块由多头注意力机制和多层感知机构成，在每个Transformer块之前采用Layer Norm对输入进行归一化操作，在每个Transformer块之后使用残差连接。

P_t＝m·P_t-1+(1-m)·P_t

5.根据权利要求1所述的基于非对称掩码的对比学习方法，其特征在于，所述步骤4中，将视图1和视图2的图像表征class Token经过映射模块和预测模块进行特征映射。其中映射模块和预测模块采用多层感知机实现。然后，使用对比损失函数最小化正样本之间的差异，同时最大化负样本之间的差异。对比损失函数公式如下所示：

6.根据权利要求1所述的基于非对称掩码的对比学习方法，其特征在于，所述步骤5中，使用梯度裁剪策略稳定训练过程，根据梯度

的指数移动平均值为步骤t设置自适应阈值，公式如下所示：

其中m∈[0,1)是动量系数，g_t表示步骤t中模型参数的梯度。当||g_t||>α·

时，梯度/>

按阈值/>

的范数缩放：

7.根据权利要求1所述的基于非对称掩码的对比学习方法，其特征在于，所述步骤6中，将上述预训练的Transformer模型在标注数据集上进行微调。将预训练模型的参数加载到标准的Transformer模型中，丢弃预训练模型的映射层和预测层参数，同时为了实现分类任务将完整的图片裁剪成图像块序列的形式输入到模型中，经过Transformer模型编码得到Token表征序列。取其中的全局表征class Token，并输入到单层的线性网络构成的分类器模块中，计算其与标注数据的one-hot标签的交叉熵损失函数来，引导模型往分类正确的方向进行参数优化。交叉熵损失函数的公式如下：

为模型的预测结果。