CN116363465A - 一种基于非对称掩码的对比学习方法 - Google Patents
一种基于非对称掩码的对比学习方法 Download PDFInfo
- Publication number
- CN116363465A CN116363465A CN202310355846.6A CN202310355846A CN116363465A CN 116363465 A CN116363465 A CN 116363465A CN 202310355846 A CN202310355846 A CN 202310355846A CN 116363465 A CN116363465 A CN 116363465A
- Authority
- CN
- China
- Prior art keywords
- image
- sampling
- model
- view
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005070 sampling Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000012512 characterization method Methods 0.000 claims abstract description 26
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 230000006870 function Effects 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 14
- 239000010410 layer Substances 0.000 claims description 24
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000000873 masking effect Effects 0.000 claims description 5
- 230000000087 stabilizing effect Effects 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 239000012633 leachable Substances 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于非对称掩码的对比学习方法对提取的图像的语义信息进行图像分类的方法,主要包括对获取到的原始图像进行两次随机裁剪并分别做不同的数据增强来构建正样本对;采用非对称掩码策略对图像块进行采样,降低重叠区域的采样率,构建具有较大外观差异的正样本对;将采样的图像块输入到一对参数共享的编码器中,其中一侧编码器使用梯度下降更新,另一侧编码器则动量更新来提取图像表征;将图像表征分别经过映射模块和预测模块,使用对比损失函数最小化正样本之间的差异,同时最大化负样本之间的差异;同时在训练的过程中利用自适应的裁剪梯度策略来稳定训练过程。本发明能够更好的捕捉图像表征信息,从而能够提高图像分类的准确率。
Description
技术领域
本发明属于图像分类技术领域,涉及一种基于非对称掩码的对比学习方法。
背景技术
深度学习的迅速进展,使它成为了许多现代人工智能技术的基础方法。传统的监督训练方式,严重依赖于带标签的数据集。这就是自监督方法在推动深度学习进步方面发挥重要作用的地方,它不需要昂贵的带标签的数据,即在学习图像表征时不需要提供有监督的数据。近年来,自监督/无监督学习的领域取得了巨大的突破。基于代理任务的差异,目前较为流行的分支包括对比学习(CL)和掩码图像建模(MIM)。
对于对比学习任务,需要训练模型将同一图像的不同视图与其他图像区分开来,这种方式称为实例区分。为了学习有效的图像表征,不对称设计在对比学习中发挥着至关重要的作用,它在低级特征上引入了一系列变化,但不改变图像的语义信息。其中最重要的非对称设计是一系列应用于正样本对的数据增强技术,例如,颜色变换、灰度变换和曝光等操作,它们显著的改变了正样本的颜色,因此这要求基于对比学习的模型捕获图像中无关于颜色的表征。然后,随机裁剪操作引入了图像大小和比例的变化,这进一步消除了模型对图像的大小和比例的依赖性。因此,该模型被训练来使用语义特征来识别对象,而不是浅显的表层特征。此外,非对称设计也被引入到网络架构中,例如预测模块和动量编码器,它们改变了正样本对的表征。因此,合理的不对称设计对于对比学习的表现非常重要。然而,由于正样本对之间的图像区域重叠,现有的对比学习方法中正样本对仍然存在大量的外观相似性,这降低了模型学习良好表征的能力。
与对比学习不同,MIM任务遵循自然语言处理(NLP)中掩码语言建模任务(MLM)的思想,其中部分掩码的数据被输送到模型中,以自动编码的方式预测数据的不可见部分。由于图像的严重空间冗余,MIM任务中的掩码图像仍然可以有效地保留原始图像的语义,这在自监督学习中实现了非常不错的性能。然而,在相似的语义下,原始像素或其图像块在外观上具有较大的波动,导致从随机掩码图像重建不可见区域存在着非唯一的预测目标,特别是当掩码比率较大时。现有的MIM方法试图将高度掩码的图像映射到固定的目标,即使预测的目标是给定输入的合理目标,这也不可避免地引入了较大的拟合误差。我们称之为非唯一目标问题,这实质上限制了MIM模型的灵活性。
为此,一些方法使用了基于特征预测的方法来缓解上述问题。尽管这些方法取得了不错的结果,但这些方法仍然严重依赖于重建像素或图像块的不稳定目标。因此,相比之下,我们所提出的方法通过学习由非对称采样策略采样的不同视图之间的实例相似性来建模掩码图像,这为自监督学习提供了更灵活和稳定的目标。
发明内容
本发明所解决的技术问题是,针对现有技术的不足,提供一种基于非对称掩码的对比学习方法,这个方法能够提高图像分类的准确度。
为实现上述目的,本发明的技术方案如下:
一种基于非对称掩码的对比学习方法,包括以下步骤:
步骤1、对获取到的原始图像进行两次随机裁剪、随机水平垂直翻转和颜色变化等数据增强,构建正样本对。
步骤2、采用非对称掩码策略对图像块掩码采样,降低正样本之间重叠区域的采样率,构建具有较大外观差异的正样本对。
步骤3、分别将正样本对放入初始参数共享的编码器中,提取图像表征信息。其中一侧编码器使用梯度下降更新,另一侧编码器动量更新。
步骤4、将编码器得到的表征分别经过映射模块和预测模块,使用对比损失函数最小化正样本之间的差异,同时最大化负样本之间的差异。
步骤5、在训练的过程中利用自适应的裁剪梯度策略来平稳梯度、稳定训练过程。
步骤6、通过训练得到的模型在图像分类任务上微调,在测试数据集图像上进行分类。
进一步地,所述步骤1中,对原始图像做两次不对称的数据增强的过程是:首先在原始图像以随机的面积比例和随机宽高比例裁剪出矩形区域。将裁剪区域的位置和大小数据保存:
Box=[i,j,h,w]
其中,Box代表裁剪区域的矩形框;i表示裁剪矩形框的左上角横坐标,j表示裁剪矩形框的左上纵坐标,h表示裁剪矩形框的高度,w表示裁剪矩形框的宽度。
对图像进行两次裁剪后,得到了图像两个视图的矩形框,分别为Box1和Box2。之后,使用双线性插值将裁剪后的图像恢复成指定的模型输入大小,让模型学习无关于图像尺寸和区域的表征。然后,将图像分别做随机的水平和垂直翻转。
对图像做数据增强使用的是torchvision的transform工具包,该工具包是计算机上视觉领域中常用的Python工具箱;
进一步地,为了使得模型学习无关于颜色的表征信息,对图像做颜色变换、灰度化变换和曝光操作。
进一步地,所述步骤2中,由于图像空间的严重冗余,为了提高代理任务的难度,以便于模型学习更深层的语义信息而不是浅层的表征信息。对视图1采用稀疏采样来实现掩码操作。其中掩码块大小与图像块大小一致,掩码块的总数为掩码比率乘以图像块总数。
为了进一步的降低正样本对两视图之间的外观相似性,采用非对称掩码策略来降低重叠区域的图像块的采样率,提高非重叠区域的采样率,从而保持采样图像块总数不变。具体来说,首先对视图1中的图像块进行随机采样,再根据视图1中已经采样的图像块来确定视图2中需要采样的图像块。所采用的采样方法是根据图像块的重叠比例来确定图像块的采样率。
其中,重叠比例的计算方式如下:
其中,Pi(i=1,2)代表视图i中图像块。S(·)代表的是给定图像块的面积。为了降低重叠图像块的采样概率,在视图2使用了一种选择性的图像块采样方法,其中图像块的采样概率密度psel通过以下公式计算:
psel=(γ+1)·s1·(1-roverlap)γ
其中s1指的是视图1中采样的图像块的采样概率,γ是调整采样灵敏度的超参数。γ越大,图像块被采样的可能性越小。这种选择性采样和稀疏采样方法形成了不对称采样策略。
这保证了总概率满足所提出的采样策略的比率(x1∩x2)。
进一步地,所述步骤3中,采用视觉Transformer来提取图像的表征信息。将所有的图像块都经过一维线性投影E(·),得到对应的Token嵌入向量。为了使图像不丢失位置信息,所有的Token嵌入向量中都加上可学习的位置编码Epos,同时除了现有的所有Token外,还添加了一个class Token嵌入来获取图像的全局信息。接着,通过Transformer的编码器层,实现Token之间的信息交互。transformer结构中每层编码器结构相同。所采用的Transformer结构由一系列相同结构的Transformer块构成。其中,每个Transformer块由多头注意力机制和多层感知机构成,在每个Transformer块之前采用Layer Norm对输入进行归一化操作,在每个Transformer块之后使用残差连接。
把视图1和视图2的Token序列分别输入到两个初始化参数相同的编码器中,其中一个编码器使用正常的梯度下降更新,另一个编码器使用动量方式更新参数。动量更新公式如下所示:
Pt=m·Pt-1+(1-m)·Pt
其中Pt为t步骤下正常梯度下降更新后模型的参数,Pt-1为(t-1)步骤下动量编码器的模型参数,m为动量更新系数。
进一步地,所述步骤4中,将视图1和视图2的图像表征class Token经过映射模块和预测模块进行特征映射。然后,使用对比损失函数最小化正样本之间的差异,同时最大化负样本之间的差异。对比损失函数公式如下所示:
其中τ和N分别表示温度参数和批次大小,q(i)和z(i)分别表示数据批次中第i个样本的表征q和z,sg(·)表示表示梯度截断操作。q代表的是经过映射模块出来的特征,z代表的经过映射模块和预测模块出来的特征。
通过设置∈来提升梯度缩放的数值稳定性,将梯度的幅度调整到合理的范围内,从而提高对比学习的训练稳定性。
进一步地,所述步骤6中,将上述预训练的Transformer模型在标注数据集上进行微调。将预训练模型的参数加载到标准的Transformer模型中,丢弃预训练模型的映射层和预测层参数,同时为了实现分类任务将完整的图片裁剪成图像块序列的形式输入到模型中,经过Transformer模型编码得到Token表征序列。取其中的全局表征class Token,并输入到单层的线性网络构成的分类器模块中,计算其与标注数据的one-hot标签的交叉熵损失函数来,引导模型往分类正确的方向进行参数优化。
有益效果
本发明构建的模型是基于非对称掩码的对比学习神经网络,主要包括对获取到的原始图像进行两次随机裁剪并分别做不同的数据增强来构建正样本对;采用非对称掩码策略对图像块进行采样,降低重叠区域图像块的采样率,构建具有较大外观差异的正样本对;将采样的图像块输入到一对初始化参数相同的编码器中来获取图像表征,其中一侧编码器使用正常的梯度下降更新,另一侧编码器则使用动量方式更新参数;将图像表征分别经过映射模块和预测模块,使用对比损失函数最小化正样本之间的差异,同时最大化负样本之间的差异;同时在训练的过程中利用自适应的裁剪梯度策略来稳定训练过程。在ImageNet和CIFAR数据集上的实验表明,本发明能够提高图像分类的准确率并且降低显存的占用。
附图说明
图1是本发明方法的总体示意图。
图2是本发明方法计算图像块重叠面积的示意图。
具体实施方式
如图1所示,本发明提出的基于非对称掩码的对比学习方法主要包括以下步骤:
步骤1:选取公开的图像分类数据集ImageNet和CIFAR。将数据集划分为训练集和测试集,使用训练集数据进行预训练,使用测试集数据进行微调。将训练集中的图片做两次不对称的数据增强。首先在原始图像以随机的面积比例和随机宽高比例裁剪出矩形区域。其中裁剪的面积比例范围为原始图像的0.15倍到1.0倍之间,裁剪区域的宽高比例为3/4到4/3。将裁剪区域的位置和宽高数据保存。
随后使用双线性插值将裁剪后的图像恢复成指定的模型输入大小,其中在ImageNet数据集上模型的输入大小为224×224,在CIFAR数据集上模型的输入大小为32×32。然后,将图像分别做随机的水平和垂直翻转,水平翻转和垂直翻转的概率p=0.5。进一步的,对图像做颜色变换、灰度化和曝光操作,最后将原始数据做归一化操作。
步骤2:采用非对称采样策略对图像块采样。在ImageNet数据集上图像块的大小为16×16,在CIFAR数据集上图像块的大小为2×2。视图1和视图2的采样概率均设为0.25,即s1=s2=0.25。对视图1采用均匀采样策略,即每一个图像块的采样概率相等。具体来说,将从0开始与图像块数目相等的步长为1的数组随机打乱,取得数组中前25%的数据即为所要采样图像块的索引。计算视图1的图像块与视图2中的所有图像块的重叠比例:
其中,Pi(i=1,2)代表视图i中采样的图像块。S(·)代表的是给定图像块的面积。对视图2的图像块使用选择性采样策略,采样概率密度psel通过以下公式计算:
psel=(γ+1)·s1·(1-roverlap)γ
其中s1指的是视图1中的图像块的采样概率,γ是调整采样灵敏度的超参数,γ设为3来增大图像块之间的差异。
步骤3,将视图1和视图2采样的所有图像块分别输入到初始化参数相同的Transformer编码器。所有的图像块都经过一维线性投影E(·),具体是使用卷积操作将所有特征投影到指定维度,得到对应的Token嵌入向量。其中卷积核和步长都为图像块的大小,即在ImageNet数据集上为16,在CIFAR数据集上为2。以base版本的Transformer编码器为例,卷积的输入通道为3,输出通道为768。所有的Token嵌入向量中都加上可学习的位置编码Epos,位置编码的维度与嵌入维度相同,也为768。同时除了所有的Token外,还添加了一个class Token嵌入来获取图像的全局信息。
然后,我们采用带有h个注意力头的MHSA来实现Token之间的信息交互:
其中,FFN定义为FFN(x)=W2(ReLU(W1x+b1)+b2)。取Transformer最后一层得到的结果作为最终的图像表征。我们使用带有h=12个注意头的MHSA和L=12层的Transformer编码器来获取图像表征。
步骤4,构建映射和预测模块,计算对比损失。
映射模块和预测模块都使用的是3层的线性层,线性层之间使用ReLU函数作为激活函数,同时线性层之间使用BatchNorm做特征的归一化操作。使用对比损失函数最小化正样本之间的差异,同时最大化负样本之间的差异。对比损失函数公式如下所示:
其中τ和N分别表示温度参数和批次大小,q(i)和z(i)分别表示数据批次中第i个样本的表征g和z,sg(·)表示表示梯度截断操作。q代表的是经过映射模块出来的特征,z代表的经过映射模块和预测模块出来的特征。
对于ImageNet-1K数据集,我们使用AdamW优化器,批量大小为4096,学习率为1.28×10-3,动量更新系数为0.9,权重衰退为0.1。学习率预热20个epoch,然后其余780个epoch遵循余弦学习率衰减调整。为了进一步稳定训练,在每层Transformer块上执行自适应梯度剪辑操作,其中m=0.4,α=1.05。对于图像块采样,我们设置γ=3以增加正样本对之间的外观差异。
对于CIFAR数据集,我们使用批量大小为512、学习率为1×10-3、动量为0.9、权重衰减为0.05的AdamW优化器。该模型由1600个epoch训练,其中前20个epoch用于学习率预热。此外,没有对CIFAR模型进行梯度剪辑操作。
步骤5,将上述预训练的Transformer模型在标注数据集上进行微调。将预训练模型的参数加载到标准的Transformer模型中,丢弃预训练模型的映射层和预测层参数,同时为了实现分类任务将完整的图片裁剪成图像块序列的形式输入到模型中,经过Transformer模型编码得到Token表征序列。取其中的全局表征class Token,并输入到单层的线性网络构成的分类器模块中,计算其与标注数据的one-hot标签的交叉熵损失函数来,引导模型往分类正确的方向进行参数优化。交叉熵损失函数的公式如下:
Claims (7)
1.一种基于非对称掩码的对比学习方法,其特征在于,包括以下步骤:
步骤1、对获取到的原始图像进行两次随机裁剪、随机水平垂直翻转和颜色变化等数据增强,获取裁剪框,构建正样本对。
步骤2、采用非对称掩码策略对图像块掩码采样,降低正样本之间重叠区域的采样率,构建具有较大外观差异的正样本对。
步骤3、分别将正样本对放入初始参数共享的编码器中,提取图像表征信息。其中一侧编码器使用梯度下降更新,另一侧编码器则动量更新。
步骤4、将图像表征分别经过映射模块和预测模块,使用对比损失函数最小化正样本之间的差异,同时最大化负样本之间的差异。
步骤5、在训练的过程中利用自适应的裁剪梯度策略来平稳梯度、稳定训练过程。
步骤6、通过训练得到的模型在图像分类任务上微调,对测试数据集图像进行分类。
2.根据权利要求1所述的基于非对称掩码的对比学习方法,其特征在于,所述步骤1中,对原始图像做两次不对称的数据增强的过程是:首先在原始图像以随机的面积比例和随机宽高比例裁剪出矩形区域。将裁剪区域的左上角坐标和长宽数据保存为Box:
Box=[i,j,h,w]
对图像进行两次裁剪后,得到了图像两个视图的矩形框,分别为Box1和Box2。之后,使用双线性插值将裁剪后的图像恢复成指定的模型输入大小,让模型学习无关于图像尺寸和区域的表征。随后将图像分别做随机的水平和垂直翻转。进一步的,对图像做颜色变换、灰度变化和曝光操作,最后将原始数据做归一化操作。
3.根据权利要求1所述的基于非对称掩码的对比学习方法,其特征在于,所述步骤2中,对视图1采用稀疏采样来实现掩码操作。其中掩码块大小与图像块大小一致,掩码块的总数量为掩码比率乘以总的图像块个数。
为了进一步的降低正样本对的外观相似性,采用非对称掩码策略来降低重叠区域的采样率,提高非重叠区域的采样率。首先对视图1中的图像块进行随机采样,再根据视图1中已经采样的图像块来确定视图2中需要采样的图像块。所采用的采样方法是根据视图2与视图1之间的图像块的重叠比例来确定视图2中与视图1的采样率。其中,重叠比例的计算方式如下:
其中,Pi(i=1,2)代表视图i中采样的图像块。S(·)代表的是给定图像块的面积。为了降低重叠图像块的采样概率,在视图2中使用了一种选择性的图像采样方法,其采样概率密度psel通过以下公式计算:
psel=(γ+1)·s1·(1-roverlap)γ
其中s1指的是视图1中的图像块的采样概率,γ是调整采样灵敏度的超参数。γ越大,图像块被采样的可能性越小。这种选择性采样和稀疏采样方法形成了不对称采样策略。
4.根据权利要求1所述的基于非对称掩码的对比学习方法,其特征在于,所述步骤3中,采用视觉Transformer来提取图像的表征信息。将所有的图像块都经过一维线性投影E(·),得到对应的Token嵌入向量。为了使图像不丢失位置信息,所有的Token嵌入向量中都加上可学习的位置编码Epos,同时除了所有的Token外,还添加了一个class Token嵌入来获取图像的全局信息。接着,通过Transformer的编码器层,实现Token之间的信息交互。所采用的Transformer结构由一系列相同结构的Transformer块构成。其中,每个Transformer块由多头注意力机制和多层感知机构成,在每个Transformer块之前采用Layer Norm对输入进行归一化操作,在每个Transformer块之后使用残差连接。
把视图1和视图2的Token序列分别输入到两个初始化参数相同的编码器中,其中一个编码器使用正常的梯度下降更新,另一个编码器使用动量方式更新参数。动量更新公式如下所示:
Pt=m·Pt-1+(1-m)·Pt
其中Pt为t步骤下正常梯度下降更新后模型的参数,Pt-1为(t-1)步骤下动量编码器的模型参数,m为动量更新系数。
7.根据权利要求1所述的基于非对称掩码的对比学习方法,其特征在于,所述步骤6中,将上述预训练的Transformer模型在标注数据集上进行微调。将预训练模型的参数加载到标准的Transformer模型中,丢弃预训练模型的映射层和预测层参数,同时为了实现分类任务将完整的图片裁剪成图像块序列的形式输入到模型中,经过Transformer模型编码得到Token表征序列。取其中的全局表征class Token,并输入到单层的线性网络构成的分类器模块中,计算其与标注数据的one-hot标签的交叉熵损失函数来,引导模型往分类正确的方向进行参数优化。交叉熵损失函数的公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310355846.6A CN116363465A (zh) | 2023-04-06 | 2023-04-06 | 一种基于非对称掩码的对比学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310355846.6A CN116363465A (zh) | 2023-04-06 | 2023-04-06 | 一种基于非对称掩码的对比学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116363465A true CN116363465A (zh) | 2023-06-30 |
Family
ID=86907184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310355846.6A Pending CN116363465A (zh) | 2023-04-06 | 2023-04-06 | 一种基于非对称掩码的对比学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116363465A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912623A (zh) * | 2023-07-20 | 2023-10-20 | 东北大学 | 用于医学图像数据集的对比学习方法及系统 |
CN117036832A (zh) * | 2023-10-09 | 2023-11-10 | 之江实验室 | 一种基于随机多尺度分块的图像分类方法、装置及介质 |
CN118154884A (zh) * | 2024-05-13 | 2024-06-07 | 山东锋士信息技术有限公司 | 一种基于样本混合和对比学习的弱监督图像语义分割方法 |
-
2023
- 2023-04-06 CN CN202310355846.6A patent/CN116363465A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116912623A (zh) * | 2023-07-20 | 2023-10-20 | 东北大学 | 用于医学图像数据集的对比学习方法及系统 |
CN116912623B (zh) * | 2023-07-20 | 2024-04-05 | 东北大学 | 用于医学图像数据集的对比学习方法及系统 |
CN117036832A (zh) * | 2023-10-09 | 2023-11-10 | 之江实验室 | 一种基于随机多尺度分块的图像分类方法、装置及介质 |
CN117036832B (zh) * | 2023-10-09 | 2024-01-05 | 之江实验室 | 一种基于随机多尺度分块的图像分类方法、装置及介质 |
CN118154884A (zh) * | 2024-05-13 | 2024-06-07 | 山东锋士信息技术有限公司 | 一种基于样本混合和对比学习的弱监督图像语义分割方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022252272A1 (zh) | 一种基于迁移学习的改进vgg16网络猪的身份识别方法 | |
CN116363465A (zh) | 一种基于非对称掩码的对比学习方法 | |
CN106845478B (zh) | 一种字符置信度的二次车牌识别方法及装置 | |
CN108038435B (zh) | 一种基于卷积神经网络的特征提取与目标跟踪方法 | |
CN109934158B (zh) | 基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法 | |
CN112560831B (zh) | 一种基于多尺度空间校正的行人属性识别方法 | |
CN109978882A (zh) | 一种基于多模态融合的医疗影像目标检测方法 | |
CN110889865B (zh) | 一种基于局部加权稀疏特征选择的视频目标跟踪方法 | |
CN111753789A (zh) | 基于堆栈式组合自编码器的机器人视觉slam闭环检测方法 | |
CN110084201B (zh) | 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法 | |
CN109710804B (zh) | 一种教学视频图像知识点降维分析方法 | |
CN110503063A (zh) | 基于沙漏卷积自动编码神经网络的跌倒检测方法 | |
CN112766056B (zh) | 一种基于深度神经网络的弱光环境车道线检测方法、装置 | |
CN106874862A (zh) | 基于子模技术和半监督学习的人群计数方法 | |
CN111428727A (zh) | 基于序列变换纠正及注意力机制的自然场景文本识别方法 | |
CN115995040A (zh) | 一种基于多尺度网络的sar图像小样本目标识别方法 | |
CN113869234B (zh) | 人脸表情识别方法、装置、设备及存储介质 | |
CN116630369A (zh) | 基于时空记忆网络的无人机目标跟踪方法 | |
CN108009512A (zh) | 一种基于卷积神经网络特征学习的人物再识别方法 | |
CN114494786A (zh) | 一种基于多层协调卷积神经网络的细粒度图像分类方法 | |
CN115690917B (zh) | 一种基于外观和运动智能关注的行人动作识别方法 | |
Salah et al. | Improved approach for Semantic Segmentation of MBRSC aerial Imagery based on Transfer Learning and modified UNet | |
CN117315543A (zh) | 一种基于置信度门控时空记忆网络的半监督视频目标分割方法 | |
CN116189096A (zh) | 多尺度注意力机制的双路人群计数方法 | |
CN114511732A (zh) | 一种柑橘斑点状病虫害细粒度图像识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |