CN116363465A - 一种基于非对称掩码的对比学习方法 - Google Patents

一种基于非对称掩码的对比学习方法 Download PDF

Info

Publication number
CN116363465A
CN116363465A CN202310355846.6A CN202310355846A CN116363465A CN 116363465 A CN116363465 A CN 116363465A CN 202310355846 A CN202310355846 A CN 202310355846A CN 116363465 A CN116363465 A CN 116363465A
Authority
CN
China
Prior art keywords
image
sampling
model
view
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310355846.6A
Other languages
English (en)
Inventor
沈成超
陈建忠
王建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202310355846.6A priority Critical patent/CN116363465A/zh
Publication of CN116363465A publication Critical patent/CN116363465A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于非对称掩码的对比学习方法对提取的图像的语义信息进行图像分类的方法,主要包括对获取到的原始图像进行两次随机裁剪并分别做不同的数据增强来构建正样本对;采用非对称掩码策略对图像块进行采样,降低重叠区域的采样率,构建具有较大外观差异的正样本对;将采样的图像块输入到一对参数共享的编码器中,其中一侧编码器使用梯度下降更新,另一侧编码器则动量更新来提取图像表征;将图像表征分别经过映射模块和预测模块,使用对比损失函数最小化正样本之间的差异,同时最大化负样本之间的差异;同时在训练的过程中利用自适应的裁剪梯度策略来稳定训练过程。本发明能够更好的捕捉图像表征信息,从而能够提高图像分类的准确率。

Description

一种基于非对称掩码的对比学习方法
技术领域
本发明属于图像分类技术领域,涉及一种基于非对称掩码的对比学习方法。
背景技术
深度学习的迅速进展,使它成为了许多现代人工智能技术的基础方法。传统的监督训练方式,严重依赖于带标签的数据集。这就是自监督方法在推动深度学习进步方面发挥重要作用的地方,它不需要昂贵的带标签的数据,即在学习图像表征时不需要提供有监督的数据。近年来,自监督/无监督学习的领域取得了巨大的突破。基于代理任务的差异,目前较为流行的分支包括对比学习(CL)和掩码图像建模(MIM)。
对于对比学习任务,需要训练模型将同一图像的不同视图与其他图像区分开来,这种方式称为实例区分。为了学习有效的图像表征,不对称设计在对比学习中发挥着至关重要的作用,它在低级特征上引入了一系列变化,但不改变图像的语义信息。其中最重要的非对称设计是一系列应用于正样本对的数据增强技术,例如,颜色变换、灰度变换和曝光等操作,它们显著的改变了正样本的颜色,因此这要求基于对比学习的模型捕获图像中无关于颜色的表征。然后,随机裁剪操作引入了图像大小和比例的变化,这进一步消除了模型对图像的大小和比例的依赖性。因此,该模型被训练来使用语义特征来识别对象,而不是浅显的表层特征。此外,非对称设计也被引入到网络架构中,例如预测模块和动量编码器,它们改变了正样本对的表征。因此,合理的不对称设计对于对比学习的表现非常重要。然而,由于正样本对之间的图像区域重叠,现有的对比学习方法中正样本对仍然存在大量的外观相似性,这降低了模型学习良好表征的能力。
与对比学习不同,MIM任务遵循自然语言处理(NLP)中掩码语言建模任务(MLM)的思想,其中部分掩码的数据被输送到模型中,以自动编码的方式预测数据的不可见部分。由于图像的严重空间冗余,MIM任务中的掩码图像仍然可以有效地保留原始图像的语义,这在自监督学习中实现了非常不错的性能。然而,在相似的语义下,原始像素或其图像块在外观上具有较大的波动,导致从随机掩码图像重建不可见区域存在着非唯一的预测目标,特别是当掩码比率较大时。现有的MIM方法试图将高度掩码的图像映射到固定的目标,即使预测的目标是给定输入的合理目标,这也不可避免地引入了较大的拟合误差。我们称之为非唯一目标问题,这实质上限制了MIM模型的灵活性。
为此,一些方法使用了基于特征预测的方法来缓解上述问题。尽管这些方法取得了不错的结果,但这些方法仍然严重依赖于重建像素或图像块的不稳定目标。因此,相比之下,我们所提出的方法通过学习由非对称采样策略采样的不同视图之间的实例相似性来建模掩码图像,这为自监督学习提供了更灵活和稳定的目标。
发明内容
本发明所解决的技术问题是,针对现有技术的不足,提供一种基于非对称掩码的对比学习方法,这个方法能够提高图像分类的准确度。
为实现上述目的,本发明的技术方案如下:
一种基于非对称掩码的对比学习方法,包括以下步骤:
步骤1、对获取到的原始图像进行两次随机裁剪、随机水平垂直翻转和颜色变化等数据增强,构建正样本对。
步骤2、采用非对称掩码策略对图像块掩码采样,降低正样本之间重叠区域的采样率,构建具有较大外观差异的正样本对。
步骤3、分别将正样本对放入初始参数共享的编码器中,提取图像表征信息。其中一侧编码器使用梯度下降更新,另一侧编码器动量更新。
步骤4、将编码器得到的表征分别经过映射模块和预测模块,使用对比损失函数最小化正样本之间的差异,同时最大化负样本之间的差异。
步骤5、在训练的过程中利用自适应的裁剪梯度策略来平稳梯度、稳定训练过程。
步骤6、通过训练得到的模型在图像分类任务上微调,在测试数据集图像上进行分类。
进一步地,所述步骤1中,对原始图像做两次不对称的数据增强的过程是:首先在原始图像以随机的面积比例和随机宽高比例裁剪出矩形区域。将裁剪区域的位置和大小数据保存:
Box=[i,j,h,w]
其中,Box代表裁剪区域的矩形框;i表示裁剪矩形框的左上角横坐标,j表示裁剪矩形框的左上纵坐标,h表示裁剪矩形框的高度,w表示裁剪矩形框的宽度。
对图像进行两次裁剪后,得到了图像两个视图的矩形框,分别为Box1和Box2。之后,使用双线性插值将裁剪后的图像恢复成指定的模型输入大小,让模型学习无关于图像尺寸和区域的表征。然后,将图像分别做随机的水平和垂直翻转。
对图像做数据增强使用的是torchvision的transform工具包,该工具包是计算机上视觉领域中常用的Python工具箱;
进一步地,为了使得模型学习无关于颜色的表征信息,对图像做颜色变换、灰度化变换和曝光操作。
进一步地,所述步骤2中,由于图像空间的严重冗余,为了提高代理任务的难度,以便于模型学习更深层的语义信息而不是浅层的表征信息。对视图1采用稀疏采样来实现掩码操作。其中掩码块大小与图像块大小一致,掩码块的总数为掩码比率乘以图像块总数。
为了进一步的降低正样本对两视图之间的外观相似性,采用非对称掩码策略来降低重叠区域的图像块的采样率,提高非重叠区域的采样率,从而保持采样图像块总数不变。具体来说,首先对视图1中的图像块进行随机采样,再根据视图1中已经采样的图像块来确定视图2中需要采样的图像块。所采用的采样方法是根据图像块的重叠比例来确定图像块的采样率。
其中,重叠比例的计算方式如下:
Figure BDA0004163244540000031
其中,Pi(i=1,2)代表视图i中图像块。S(·)代表的是给定图像块的面积。为了降低重叠图像块的采样概率,在视图2使用了一种选择性的图像块采样方法,其中图像块的采样概率密度psel通过以下公式计算:
psel=(γ+1)·s1·(1-roverlap)γ
其中s1指的是视图1中采样的图像块的采样概率,γ是调整采样灵敏度的超参数。γ越大,图像块被采样的可能性越小。这种选择性采样和稀疏采样方法形成了不对称采样策略。
由于稀疏采样策略从第一视图x1均匀的采样图像块,因此重叠区域x1∩x2中的图像块采样的概率也是s1,与x1中的概率相同。因此,采样概率密度需要满足以下等式:
Figure BDA0004163244540000032
Figure BDA0004163244540000033
这保证了总概率满足所提出的采样策略的比率(x1∩x2)。
进一步地,所述步骤3中,采用视觉Transformer来提取图像的表征信息。将所有的图像块都经过一维线性投影E(·),得到对应的Token嵌入向量。为了使图像不丢失位置信息,所有的Token嵌入向量中都加上可学习的位置编码Epos,同时除了现有的所有Token外,还添加了一个class Token嵌入来获取图像的全局信息。接着,通过Transformer的编码器层,实现Token之间的信息交互。transformer结构中每层编码器结构相同。所采用的Transformer结构由一系列相同结构的Transformer块构成。其中,每个Transformer块由多头注意力机制和多层感知机构成,在每个Transformer块之前采用Layer Norm对输入进行归一化操作,在每个Transformer块之后使用残差连接。
把视图1和视图2的Token序列分别输入到两个初始化参数相同的编码器中,其中一个编码器使用正常的梯度下降更新,另一个编码器使用动量方式更新参数。动量更新公式如下所示:
Pt=m·Pt-1+(1-m)·Pt
其中Pt为t步骤下正常梯度下降更新后模型的参数,Pt-1为(t-1)步骤下动量编码器的模型参数,m为动量更新系数。
进一步地,所述步骤4中,将视图1和视图2的图像表征class Token经过映射模块和预测模块进行特征映射。然后,使用对比损失函数最小化正样本之间的差异,同时最大化负样本之间的差异。对比损失函数公式如下所示:
Figure BDA0004163244540000041
Figure BDA0004163244540000042
Figure BDA0004163244540000043
其中τ和N分别表示温度参数和批次大小,q(i)和z(i)分别表示数据批次中第i个样本的表征q和z,sg(·)表示表示梯度截断操作。q代表的是经过映射模块出来的特征,z代表的经过映射模块和预测模块出来的特征。
进一步地,所述步骤5中,为了解决基于视觉Transformer的对比学习方法的不稳定的优化问题,稳定训练过程,根据梯度
Figure BDA0004163244540000044
的指数移动平均值为步骤t设置自适应阈值,公式如下所示:
Figure BDA0004163244540000045
其中m∈[0,1)是动量系数,gt表示步骤t中模型参数的梯度。当
Figure BDA0004163244540000046
时,梯度/>
Figure BDA0004163244540000047
按阈值/>
Figure BDA0004163244540000048
的范数缩放:
Figure BDA0004163244540000049
通过设置∈来提升梯度缩放的数值稳定性,将梯度的幅度调整到合理的范围内,从而提高对比学习的训练稳定性。
进一步地,所述步骤6中,将上述预训练的Transformer模型在标注数据集上进行微调。将预训练模型的参数加载到标准的Transformer模型中,丢弃预训练模型的映射层和预测层参数,同时为了实现分类任务将完整的图片裁剪成图像块序列的形式输入到模型中,经过Transformer模型编码得到Token表征序列。取其中的全局表征class Token,并输入到单层的线性网络构成的分类器模块中,计算其与标注数据的one-hot标签的交叉熵损失函数来,引导模型往分类正确的方向进行参数优化。
有益效果
本发明构建的模型是基于非对称掩码的对比学习神经网络,主要包括对获取到的原始图像进行两次随机裁剪并分别做不同的数据增强来构建正样本对;采用非对称掩码策略对图像块进行采样,降低重叠区域图像块的采样率,构建具有较大外观差异的正样本对;将采样的图像块输入到一对初始化参数相同的编码器中来获取图像表征,其中一侧编码器使用正常的梯度下降更新,另一侧编码器则使用动量方式更新参数;将图像表征分别经过映射模块和预测模块,使用对比损失函数最小化正样本之间的差异,同时最大化负样本之间的差异;同时在训练的过程中利用自适应的裁剪梯度策略来稳定训练过程。在ImageNet和CIFAR数据集上的实验表明,本发明能够提高图像分类的准确率并且降低显存的占用。
附图说明
图1是本发明方法的总体示意图。
图2是本发明方法计算图像块重叠面积的示意图。
具体实施方式
如图1所示,本发明提出的基于非对称掩码的对比学习方法主要包括以下步骤:
步骤1:选取公开的图像分类数据集ImageNet和CIFAR。将数据集划分为训练集和测试集,使用训练集数据进行预训练,使用测试集数据进行微调。将训练集中的图片做两次不对称的数据增强。首先在原始图像以随机的面积比例和随机宽高比例裁剪出矩形区域。其中裁剪的面积比例范围为原始图像的0.15倍到1.0倍之间,裁剪区域的宽高比例为3/4到4/3。将裁剪区域的位置和宽高数据保存。
随后使用双线性插值将裁剪后的图像恢复成指定的模型输入大小,其中在ImageNet数据集上模型的输入大小为224×224,在CIFAR数据集上模型的输入大小为32×32。然后,将图像分别做随机的水平和垂直翻转,水平翻转和垂直翻转的概率p=0.5。进一步的,对图像做颜色变换、灰度化和曝光操作,最后将原始数据做归一化操作。
步骤2:采用非对称采样策略对图像块采样。在ImageNet数据集上图像块的大小为16×16,在CIFAR数据集上图像块的大小为2×2。视图1和视图2的采样概率均设为0.25,即s1=s2=0.25。对视图1采用均匀采样策略,即每一个图像块的采样概率相等。具体来说,将从0开始与图像块数目相等的步长为1的数组随机打乱,取得数组中前25%的数据即为所要采样图像块的索引。计算视图1的图像块与视图2中的所有图像块的重叠比例:
Figure BDA0004163244540000061
其中,Pi(i=1,2)代表视图i中采样的图像块。S(·)代表的是给定图像块的面积。对视图2的图像块使用选择性采样策略,采样概率密度psel通过以下公式计算:
psel=(γ+1)·s1·(1-roverlap)γ
其中s1指的是视图1中的图像块的采样概率,γ是调整采样灵敏度的超参数,γ设为3来增大图像块之间的差异。
步骤3,将视图1和视图2采样的所有图像块分别输入到初始化参数相同的Transformer编码器。所有的图像块都经过一维线性投影E(·),具体是使用卷积操作将所有特征投影到指定维度,得到对应的Token嵌入向量。其中卷积核和步长都为图像块的大小,即在ImageNet数据集上为16,在CIFAR数据集上为2。以base版本的Transformer编码器为例,卷积的输入通道为3,输出通道为768。所有的Token嵌入向量中都加上可学习的位置编码Epos,位置编码的维度与嵌入维度相同,也为768。同时除了所有的Token外,还添加了一个class Token嵌入来获取图像的全局信息。
然后,我们采用带有h个注意力头的MHSA来实现Token之间的信息交互:
Figure BDA0004163244540000062
其中,1≤l≤L,
Figure BDA0004163244540000063
表示第(l-1)层Transformer的输出,Norm表示批归一化操作。之后,本方法采用两层的FFN对/>
Figure BDA0004163244540000064
进行非线性转换,线性层之间使用ReLU作为激活函数,计算公式如下所示:
Figure BDA0004163244540000065
其中,FFN定义为FFN(x)=W2(ReLU(W1x+b1)+b2)。取Transformer最后一层得到的结果
Figure BDA0004163244540000066
作为最终的图像表征。我们使用带有h=12个注意头的MHSA和L=12层的Transformer编码器来获取图像表征。
步骤4,构建映射和预测模块,计算对比损失。
映射模块和预测模块都使用的是3层的线性层,线性层之间使用ReLU函数作为激活函数,同时线性层之间使用BatchNorm做特征的归一化操作。使用对比损失函数最小化正样本之间的差异,同时最大化负样本之间的差异。对比损失函数公式如下所示:
Figure BDA0004163244540000067
Figure BDA0004163244540000068
Figure BDA0004163244540000071
其中τ和N分别表示温度参数和批次大小,q(i)和z(i)分别表示数据批次中第i个样本的表征g和z,sg(·)表示表示梯度截断操作。q代表的是经过映射模块出来的特征,z代表的经过映射模块和预测模块出来的特征。
使用梯度裁剪策略稳定训练过程,根据梯度
Figure BDA0004163244540000072
的指数移动平均值为步骤t设置自适应阈值,公式如下所示:
Figure BDA0004163244540000073
其中m∈[0,1)是动量系数,gt表示步骤t中模型参数的梯度。当
Figure BDA0004163244540000074
时,梯度/>
Figure BDA0004163244540000075
按阈值/>
Figure BDA0004163244540000076
的范数缩放:
Figure BDA0004163244540000077
对于ImageNet-1K数据集,我们使用AdamW优化器,批量大小为4096,学习率为1.28×10-3,动量更新系数为0.9,权重衰退为0.1。学习率预热20个epoch,然后其余780个epoch遵循余弦学习率衰减调整。为了进一步稳定训练,在每层Transformer块上执行自适应梯度剪辑操作,其中m=0.4,α=1.05。对于图像块采样,我们设置γ=3以增加正样本对之间的外观差异。
对于CIFAR数据集,我们使用批量大小为512、学习率为1×10-3、动量为0.9、权重衰减为0.05的AdamW优化器。该模型由1600个epoch训练,其中前20个epoch用于学习率预热。此外,没有对CIFAR模型进行梯度剪辑操作。
步骤5,将上述预训练的Transformer模型在标注数据集上进行微调。将预训练模型的参数加载到标准的Transformer模型中,丢弃预训练模型的映射层和预测层参数,同时为了实现分类任务将完整的图片裁剪成图像块序列的形式输入到模型中,经过Transformer模型编码得到Token表征序列。取其中的全局表征class Token,并输入到单层的线性网络构成的分类器模块中,计算其与标注数据的one-hot标签的交叉熵损失函数来,引导模型往分类正确的方向进行参数优化。交叉熵损失函数的公式如下:
Figure BDA0004163244540000078
式中θ表示模型所有可学习参数,N为样本数量,yi是样本真实的标签,
Figure BDA0004163244540000079
为模型的预测结果。所有预训练的模型都会进行100个epoch的微调,选取微调结果最高的epoch作为微调分类的结果。

Claims (7)

1.一种基于非对称掩码的对比学习方法,其特征在于,包括以下步骤:
步骤1、对获取到的原始图像进行两次随机裁剪、随机水平垂直翻转和颜色变化等数据增强,获取裁剪框,构建正样本对。
步骤2、采用非对称掩码策略对图像块掩码采样,降低正样本之间重叠区域的采样率,构建具有较大外观差异的正样本对。
步骤3、分别将正样本对放入初始参数共享的编码器中,提取图像表征信息。其中一侧编码器使用梯度下降更新,另一侧编码器则动量更新。
步骤4、将图像表征分别经过映射模块和预测模块,使用对比损失函数最小化正样本之间的差异,同时最大化负样本之间的差异。
步骤5、在训练的过程中利用自适应的裁剪梯度策略来平稳梯度、稳定训练过程。
步骤6、通过训练得到的模型在图像分类任务上微调,对测试数据集图像进行分类。
2.根据权利要求1所述的基于非对称掩码的对比学习方法,其特征在于,所述步骤1中,对原始图像做两次不对称的数据增强的过程是:首先在原始图像以随机的面积比例和随机宽高比例裁剪出矩形区域。将裁剪区域的左上角坐标和长宽数据保存为Box:
Box=[i,j,h,w]
对图像进行两次裁剪后,得到了图像两个视图的矩形框,分别为Box1和Box2。之后,使用双线性插值将裁剪后的图像恢复成指定的模型输入大小,让模型学习无关于图像尺寸和区域的表征。随后将图像分别做随机的水平和垂直翻转。进一步的,对图像做颜色变换、灰度变化和曝光操作,最后将原始数据做归一化操作。
3.根据权利要求1所述的基于非对称掩码的对比学习方法,其特征在于,所述步骤2中,对视图1采用稀疏采样来实现掩码操作。其中掩码块大小与图像块大小一致,掩码块的总数量为掩码比率乘以总的图像块个数。
为了进一步的降低正样本对的外观相似性,采用非对称掩码策略来降低重叠区域的采样率,提高非重叠区域的采样率。首先对视图1中的图像块进行随机采样,再根据视图1中已经采样的图像块来确定视图2中需要采样的图像块。所采用的采样方法是根据视图2与视图1之间的图像块的重叠比例来确定视图2中与视图1的采样率。其中,重叠比例的计算方式如下:
Figure FDA0004163244530000011
其中,Pi(i=1,2)代表视图i中采样的图像块。S(·)代表的是给定图像块的面积。为了降低重叠图像块的采样概率,在视图2中使用了一种选择性的图像采样方法,其采样概率密度psel通过以下公式计算:
psel=(γ+1)·s1·(1-roverlap)γ
其中s1指的是视图1中的图像块的采样概率,γ是调整采样灵敏度的超参数。γ越大,图像块被采样的可能性越小。这种选择性采样和稀疏采样方法形成了不对称采样策略。
由于稀疏采样策略从第一视图x1均匀的采样图像块,因此重叠区域x1∩x2中的图像块采样的概率也是s1,与x1中的概率相同。因此,采样概率密度需要满足以下等式:
Figure FDA0004163244530000021
4.根据权利要求1所述的基于非对称掩码的对比学习方法,其特征在于,所述步骤3中,采用视觉Transformer来提取图像的表征信息。将所有的图像块都经过一维线性投影E(·),得到对应的Token嵌入向量。为了使图像不丢失位置信息,所有的Token嵌入向量中都加上可学习的位置编码Epos,同时除了所有的Token外,还添加了一个class Token嵌入来获取图像的全局信息。接着,通过Transformer的编码器层,实现Token之间的信息交互。所采用的Transformer结构由一系列相同结构的Transformer块构成。其中,每个Transformer块由多头注意力机制和多层感知机构成,在每个Transformer块之前采用Layer Norm对输入进行归一化操作,在每个Transformer块之后使用残差连接。
把视图1和视图2的Token序列分别输入到两个初始化参数相同的编码器中,其中一个编码器使用正常的梯度下降更新,另一个编码器使用动量方式更新参数。动量更新公式如下所示:
Pt=m·Pt-1+(1-m)·Pt
其中Pt为t步骤下正常梯度下降更新后模型的参数,Pt-1为(t-1)步骤下动量编码器的模型参数,m为动量更新系数。
5.根据权利要求1所述的基于非对称掩码的对比学习方法,其特征在于,所述步骤4中,将视图1和视图2的图像表征class Token经过映射模块和预测模块进行特征映射。其中映射模块和预测模块采用多层感知机实现。然后,使用对比损失函数最小化正样本之间的差异,同时最大化负样本之间的差异。对比损失函数公式如下所示:
Figure FDA0004163244530000022
Figure FDA0004163244530000023
Figure FDA0004163244530000024
其中τ和N分别表示温度参数和批次大小,q(i)和z(i)分别表示数据批次中第i个样本的表征q和z,sg(·)表示表示梯度截断操作。q代表的是经过映射模块出来的特征,z代表的经过映射模块和预测模块出来的特征。
6.根据权利要求1所述的基于非对称掩码的对比学习方法,其特征在于,所述步骤5中,使用梯度裁剪策略稳定训练过程,根据梯度
Figure FDA0004163244530000031
的指数移动平均值为步骤t设置自适应阈值,公式如下所示:
Figure FDA0004163244530000032
其中m∈[0,1)是动量系数,gt表示步骤t中模型参数的梯度。当||gt||>α·
Figure FDA0004163244530000033
时,梯度/>
Figure FDA0004163244530000034
按阈值/>
Figure FDA0004163244530000035
的范数缩放:
Figure FDA0004163244530000036
通过设置∈来提升梯度缩放的数值稳定性,将梯度的幅度调整到合理的范围内,从而提高对比学习的训练稳定性。
7.根据权利要求1所述的基于非对称掩码的对比学习方法,其特征在于,所述步骤6中,将上述预训练的Transformer模型在标注数据集上进行微调。将预训练模型的参数加载到标准的Transformer模型中,丢弃预训练模型的映射层和预测层参数,同时为了实现分类任务将完整的图片裁剪成图像块序列的形式输入到模型中,经过Transformer模型编码得到Token表征序列。取其中的全局表征class Token,并输入到单层的线性网络构成的分类器模块中,计算其与标注数据的one-hot标签的交叉熵损失函数来,引导模型往分类正确的方向进行参数优化。交叉熵损失函数的公式如下:
Figure FDA0004163244530000037
式中θ表示模型所有可学习参数,N为样本数量,yi是样本真实的标签,
Figure FDA0004163244530000038
为模型的预测结果。
CN202310355846.6A 2023-04-06 2023-04-06 一种基于非对称掩码的对比学习方法 Pending CN116363465A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310355846.6A CN116363465A (zh) 2023-04-06 2023-04-06 一种基于非对称掩码的对比学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310355846.6A CN116363465A (zh) 2023-04-06 2023-04-06 一种基于非对称掩码的对比学习方法

Publications (1)

Publication Number Publication Date
CN116363465A true CN116363465A (zh) 2023-06-30

Family

ID=86907184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310355846.6A Pending CN116363465A (zh) 2023-04-06 2023-04-06 一种基于非对称掩码的对比学习方法

Country Status (1)

Country Link
CN (1) CN116363465A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912623A (zh) * 2023-07-20 2023-10-20 东北大学 用于医学图像数据集的对比学习方法及系统
CN117036832A (zh) * 2023-10-09 2023-11-10 之江实验室 一种基于随机多尺度分块的图像分类方法、装置及介质
CN118154884A (zh) * 2024-05-13 2024-06-07 山东锋士信息技术有限公司 一种基于样本混合和对比学习的弱监督图像语义分割方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116912623A (zh) * 2023-07-20 2023-10-20 东北大学 用于医学图像数据集的对比学习方法及系统
CN116912623B (zh) * 2023-07-20 2024-04-05 东北大学 用于医学图像数据集的对比学习方法及系统
CN117036832A (zh) * 2023-10-09 2023-11-10 之江实验室 一种基于随机多尺度分块的图像分类方法、装置及介质
CN117036832B (zh) * 2023-10-09 2024-01-05 之江实验室 一种基于随机多尺度分块的图像分类方法、装置及介质
CN118154884A (zh) * 2024-05-13 2024-06-07 山东锋士信息技术有限公司 一种基于样本混合和对比学习的弱监督图像语义分割方法

Similar Documents

Publication Publication Date Title
WO2022252272A1 (zh) 一种基于迁移学习的改进vgg16网络猪的身份识别方法
CN116363465A (zh) 一种基于非对称掩码的对比学习方法
CN106845478B (zh) 一种字符置信度的二次车牌识别方法及装置
CN108038435B (zh) 一种基于卷积神经网络的特征提取与目标跟踪方法
CN109934158B (zh) 基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法
CN112560831B (zh) 一种基于多尺度空间校正的行人属性识别方法
CN109978882A (zh) 一种基于多模态融合的医疗影像目标检测方法
CN110889865B (zh) 一种基于局部加权稀疏特征选择的视频目标跟踪方法
CN111753789A (zh) 基于堆栈式组合自编码器的机器人视觉slam闭环检测方法
CN110084201B (zh) 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法
CN109710804B (zh) 一种教学视频图像知识点降维分析方法
CN110503063A (zh) 基于沙漏卷积自动编码神经网络的跌倒检测方法
CN112766056B (zh) 一种基于深度神经网络的弱光环境车道线检测方法、装置
CN106874862A (zh) 基于子模技术和半监督学习的人群计数方法
CN111428727A (zh) 基于序列变换纠正及注意力机制的自然场景文本识别方法
CN115995040A (zh) 一种基于多尺度网络的sar图像小样本目标识别方法
CN113869234B (zh) 人脸表情识别方法、装置、设备及存储介质
CN116630369A (zh) 基于时空记忆网络的无人机目标跟踪方法
CN108009512A (zh) 一种基于卷积神经网络特征学习的人物再识别方法
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
CN115690917B (zh) 一种基于外观和运动智能关注的行人动作识别方法
Salah et al. Improved approach for Semantic Segmentation of MBRSC aerial Imagery based on Transfer Learning and modified UNet
CN117315543A (zh) 一种基于置信度门控时空记忆网络的半监督视频目标分割方法
CN116189096A (zh) 多尺度注意力机制的双路人群计数方法
CN114511732A (zh) 一种柑橘斑点状病虫害细粒度图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination