CN113989582A - 一种基于密集语义对比的自监督视觉模型预训练方法 - Google Patents

一种基于密集语义对比的自监督视觉模型预训练方法 Download PDF

Info

Publication number
CN113989582A
CN113989582A CN202110988818.9A CN202110988818A CN113989582A CN 113989582 A CN113989582 A CN 113989582A CN 202110988818 A CN202110988818 A CN 202110988818A CN 113989582 A CN113989582 A CN 113989582A
Authority
CN
China
Prior art keywords
pixel
clustering
sample image
learning
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110988818.9A
Other languages
English (en)
Inventor
王伟平
李晓倪
周宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202110988818.9A priority Critical patent/CN113989582A/zh
Publication of CN113989582A publication Critical patent/CN113989582A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于密集语义对比的自监督视觉模型预训练方法,其步骤包括:1)对于样本图像xi,利用数据增强方法a、b分别对样本图像xi增强后进行特征提取和映射,得到样本图像xi中每一个像素点pi的特征,即像素级特征
Figure DDA0003231779330000011
以及实例级特征
Figure DDA0003231779330000012
2)基于
Figure DDA0003231779330000013
Figure DDA0003231779330000014
进行对比学习,得到实例判别损失Lins;基于
Figure DDA0003231779330000015
Figure DDA0003231779330000016
进行对比学习,得到像素判别损失Lpix;3)根据像素点pi对应的正样本集计算邻居判别损失Lnei;4)对像素级特征集合va、vb分别执行聚类,分别获得K个聚类集群;然后对每个集群进行对比学习,计算聚类对比损失LKM;5)根据损失函数L=Lins+Lpix+Lsem对自监督视觉模型进行端到端的训练。

Description

一种基于密集语义对比的自监督视觉模型预训练方法
技术领域
本发明涉及计算机软件技术领域,具体涉及一种基于密集语义对比的自监督视觉模型预 训练方法。
背景技术
随着大规模有标注数据集的使用,有监督学习的计算机视觉任务取得很高的性能,但是 有标注的数据集需要大量的人工标注成本,而且经过有标注数据预训练得到的模型不够通用, 再加上现实中我们面临的更多的是无标注数据,因此各种无监督方法应运而生。而自监督学 习实际上是无监督学习的一个变种,是数据能够提供监督信息的一种无监督学习方式。自监 督学习通过解决自定义的代理任务,进行模型的预训练,将训练好的模型进行迁移或是微调 以解决特定的下游任务,如分类、检测和分割等。
从粒度上来说,目前已有的自监督学习方法可分为两个大类,一个是实例级别的学习方 法,另一个是像素级别的学习方法。基于实例级别的学习方法,根据实现的方式,又可以大 致分为实例判别和实例级别的语义挖掘。
实例判别的方法将每一个样本都当作单独的一类,通过对比学习,将正样本拉近(或同 时将负样本推远),从而学习特定于实例的判别性表示。着眼于实例级别的语义关系,现有 的语义挖掘方法按照实现方式又可以分为两类:一类是查询邻居,另一类是深度聚类。查询 邻居的方法通过发现样本锚定的邻居,以此来推理潜在的类别决策边界。深度聚类方法又可 分为交替迭代和代理任务。交替迭代的方法是指对特征进行迭代聚类,并使用后续的聚类分 配结果来更新深度网络;代理任务是指使用代理任务作为监督信号,同时学习标签分配和特 征更新。
为了探索更适合于下游密集预测任务的复杂多前景图像预训练方法,像素级别的自监督 学习从更密集的角度出发,实现像素判别。这类方法将每个像素都当作一个单独的类别,并 学习像素的判别表示,显著缩小了预训练的模型和下游密集预测任务之间的差距。
1,实例判别:
实例判别的方法,把所有的样本都当作单独的一类,忽略了样本之间潜在的语义关系。 换言之,这类方法将每个图像视为单独的一个类别,忽略了两个图像包含相同语义类别的前 景目标的信息。
2,基于实例的语义挖掘:
目前已有的语义挖掘方法都是基于实例级别的,所以当两个图像里分别有两个不同的目 标时,这类方法会简单地因为二者的整体相似度不高,而把这两个图像聚为两类,忽略了图 像中不同前景目标之间的语义关系。
3,像素判别:
基于像素判别的方法,把每一个像素都当作单独的一类,彼此推远。由于每个像素的任 何非线性类内变化都没有被建模,所以这类方法缺乏像素级别的语义类别判别能力。因此, 这类方法仅限于单个像素水平上的中、低级别的视觉理解,在缩小预训练模型与下游密集预 测任务的差距时遇到了瓶颈。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于密集语义对比的自监 督视觉模型预训练方法。本发明提出密集语义的概念,用于在像素级显示地建模语义类别决 策边界,在语义上建立了实例到实例和像素到像素的连接。同时构建一个用于多粒度表示学 习的密集跨图像语义对比学习框架,弥补以往自监督学习预训练方法中语义的缺陷。
本发明提出一个多任务多结构的融合框架,以整合不同的标记结构,使它们为子类分类 器提供多方面的先验知识和相似性约束。首次提出像素判别任务缺乏语义类别决策边界推理 的能力。这种能力的不足导致迁移的模型不能准确地为一个目标的像素分配相同的类别标签, 导致预先训练的模型与下游密集预测任务之间存在差距。因此,本发明显示地建模语义决策 边界来缩小这一差距。
本发明提出一个用于多粒度表示学习的密集跨图像语义对比学习框架。与之前的自监督 学习预训练方法不同,该框架同时考虑了图像内和图像间像素的语义关系。本发明同时学习 实例、像素和语义粒度中的判别信息,以确保像素级别类内特征的多样性和类间特征的判别 性。
本发明的技术方案为:
一种基于密集语义对比的自监督视觉模型预训练方法,其步骤包括:
1)对于样本图像xi,利用数据增强方法a对样本图像xi增强后输入第一编码器网络分支得到基础特征
Figure BDA0003231779310000021
然后将基础特征
Figure BDA0003231779310000022
输入全局映射模块得到实例级特征
Figure BDA0003231779310000023
将 基础特征
Figure BDA0003231779310000024
输入密集映射模块得到实例样本xi的每一个像素点的特征,比如像素pi的像素级特征表示为
Figure BDA0003231779310000025
利用数据增强方法b对样本图像xi增强后输入第二编码器 网络分支得到基础特征
Figure BDA0003231779310000026
然后将基础特征
Figure BDA0003231779310000027
输入全局映射模块得到实例级特征
Figure BDA0003231779310000028
将基础特征
Figure BDA0003231779310000031
输入密集映射模块得到实例样本xi的每一个像素点的特征,比如像素 pi的像素级特征表示为
Figure BDA0003231779310000032
2)基于
Figure BDA0003231779310000033
Figure BDA0003231779310000034
进行对比学习,得到实例判别损失Lins;基于
Figure BDA0003231779310000035
Figure BDA0003231779310000036
进行对比学习,得到像素判别损失Lpix
3)对于样本图像xi中的任意一像素点pi,根据该像素点pi对应的正样本集
Figure BDA0003231779310000037
计算邻居判别损失Lnei;其中,Ni是像素点pi的邻居数量;
4)对数据增强方法a增强后的样本图像对应的像素级特征va(包含样本图像中各像 素点的特征)执行聚类操作,获得K个聚类集群;对数据增强方法b增强后的样本 图像对应的的像素级特征vb(包含样本图像中各个像素点的特征)执行聚类,获得K 个聚类集群;然后对每个集群进行对比学习,计算聚类对比损失LKM
5)将损失函数L=Lins+Lpix+Lsem作为自监督视觉模型预训练的最终损失函数,对自监督视觉模型进行端到端的训练;其中Lsem为Lnei、LKM或LPM,LPM表示对一个像 素进行原型映射的损失。
进一步的,
Figure BDA0003231779310000038
其中,τins代表 实例级别的温度系数;s(,)是相似度函数,z_为除xi自身之外的其他所有样本构成负样本集。
进一步的,
Figure BDA0003231779310000039
其中,τpix代表像 素级别的温度系数,s(,)是相似度函数,v-为来自于除xi之外的其他图像的像素点构成负样本 集。
进一步的,a、b的相似度
Figure BDA00032317793100000310
进一步的,
Figure BDA00032317793100000311
Figure BDA00032317793100000312
进一步的,
Figure BDA00032317793100000313
其中ec为第c个集群 的质心特征,
Figure BDA0003231779310000041
为对像素级特征va进行聚类操作得到的第c个集群的质心特征,
Figure BDA0003231779310000042
为对像素 级特征vb进行聚类操作得到的第c个集群的质心特征,τKM为温度系数,e-表示对像素级特征 va进行聚类所得K个集群中除第c个集群之外的其他所有K-1个集群的质心。
进一步的,
Figure BDA0003231779310000043
本发明具有如下有益效果:
本发明首先探索了一种邻居发现方法来增强图像内部像素的相关性,它从多个视图中挖 掘邻居。此外,还采用某些聚类方法,设计了一个用于跨图像语义关系建模的密集语义模块。 对于其他粒度,分别进行实例和像素判别,执行标准的对比学习。本发明在ImageNet和MS COCO上预训练的模型迁移到丰富的下游密集预测任务中。实验结果表明,本发明比以往的 工作具有更好的性能。
附图说明
图1为本发明方法流程图。
图2为不同视图下的邻居挖掘示意图。
图3为不同视图下的聚类对齐图。
图4为不同K在PASCAL VOC数据集目标检测的性能和效率对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附 图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分 实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创 造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了密集语义对比的概念,用于在像素级显示地建模语义类别决策边界,并设 计了多粒度表示学习的密集跨图像语义对比学习框架(DSC)。DSC包含三个不同的粒度: 实例、像素和语义级别。在实例和像素级别分别进行实例判别和像素判别,执行标准的对比 学习操作。如图1所示,给定输入样本xi,经过两种数据增强方法a和b可以得到两种不同 的视图,这两种视图分别送到两个编码器网络分支得到基础特征
Figure BDA0003231779310000044
Figure BDA0003231779310000045
再分别经过全局映 射模块得到
Figure BDA0003231779310000051
Figure BDA0003231779310000052
两个全局特征(实例级特征);经过密集映射模块得到
Figure BDA0003231779310000053
Figure BDA0003231779310000054
两个密集特 征(像素级特征),然后分别按照公式(1)和(2)进行对比学习操作。本发明中的数据增 强方法a和b分别是一组集成的操作,参照已有的方法,包含随机裁剪,并重新调整大小为 224*224;水平翻转;随机灰度;同时,随机选择使用颜色抖动和高斯滤波。编码器网络分支, 都使用卷积神经网络ResNet50;全局映射模块使用标准的多层感知机MLP;密集映射模块也 使用多层感知机MLP,唯一的一点区别在于把MLP的最后一个线性层替换为1*1的卷积层, 以此可以得到样本中每一个像素点的特征,也即“密集特征”。
其中s(a,b)是用余弦距离表示的相似度(公式(3)),超参τins和τpix分别代表实例和像 素级别的温度系数,z-和v-分别代表实例和像素级别的负样本集。对于实例级别,除xi自身 之外的其他所有样本构成负样本集z-;对于像素级别,来自于除xi之外的其他图像的像素点 构成负样本集v-。注,实例判别损失Lins表示对每一个实例进行对比学习的损失;而像素判 别损失Lpix表示对每一个实例内的像素进行对比学习的损失。
Figure BDA0003231779310000055
Figure BDA0003231779310000056
Figure BDA0003231779310000057
在语义级别,从图像内和图像间两个角度补充不同目标之间的语义信息。对于图像内, 从多个视图中搜索邻居,如图2所示,邻居不仅来源于不同的视图,还可以来源于相同的视 图。理论上,所有这些样本都应该属于同一个语义范畴。这些邻居在理论上都属于同一个语 义类别,所以应该构成正样本集
Figure BDA0003231779310000058
Ni是相同视图下像素点pi的邻居数量。 关于邻居的确定,本发明计算一张图像的相同视图下的所有像素点(pi除外)与像素点pi的 相似度,然后选取相似度最大的Ni个像素点,作为像素点pi的邻居,其中相似度使用公式(3) 计算。加入邻居约束的对比学习可以定义为邻居判别损失Lnei,可以用公式(4)表示。
Figure BDA0003231779310000059
对于图像间,通过一些聚类方法重新分配每个像素的标签,如图4所示。一种自然的做 法是在一个批(batch)内,对所有图像中的像素级特征va和vb执行k-means聚类(DSC-KM), 以获得一定数量的集群(K个),然后根据公式(5)对每个集群进行对比学习,聚类对比损 失LKM是指对集群c进行对比学习的损失。同一集群中的像素彼此更接近,不同集群中的样 本被推得更远。其中ec指经过聚类之后第c个集群的质心特征,
Figure BDA0003231779310000061
Figure BDA0003231779310000062
代表在a、b两种数据 增强之后的两种视图下,分别对各自的像素级特征va和vb进行聚类操作得到的第c个集群的 质心特征,τKM指集群级别的温度系数,e-表示对像素级特征va进行聚类所得K个集群中除 第c个集群之外的其他所有K-1个集群的质心。
Figure BDA0003231779310000063
本发明还探索了一种原型映射的方法进行聚类操作,并迫使不同视图下的像素分配情况 保持一致(DSC-PM)。实例样本xi的其中一个像素pi,在两个数据增强下的视图中分别有 像素级特征
Figure BDA0003231779310000064
Figure BDA0003231779310000065
通过将这些特征与K个原型{c1,...,cK}相匹配,以此来计算它们的集群分 配
Figure BDA0003231779310000066
Figure BDA0003231779310000067
然后使用公式(6)建立一个“交换”的预测问题。实现起来,以像素级特征
Figure BDA0003231779310000068
Figure BDA0003231779310000069
为例,把它们放入一个K-分类器,分别得到一个K维的向量,每一维对应着分配到该类的概 率值,这个分类结果表示为
Figure BDA00032317793100000610
Figure BDA00032317793100000611
我们也把它们叫作集群分配。原型映射损失LPM表示对 一个像素进行原型映射的损失。l(v,q)衡量了特征v和分配q之间的匹配程度,可以用交叉熵 损失来表示,其中概率p由一个softmax函数得到,如公式(7)所示。其中,k是索引值, ck表示K-分类器中第k个类别的权重,k’是一个变量,范围从1变化到K,ck’表示K-分类器 中第k’个类别的权重。T是转置操作。
Figure BDA00032317793100000612
Figure BDA00032317793100000613
通过这三个不同粒度的损失约束,可以同时获得、中和高级的视觉理解。如图1所示, 最终的损失函数(公式(8))由三部分组成,分别对应了实例、像素和语义三个不同的粒度。 其中Lsem可以是Lnei,LKM或LPM。整个框架可以进行端到端地训练。
L=Lins+Lpix+Lsem (8)
我们的模型首先在大规模图像数据集ImageNet和MS COCO上进行预训练,然后在多种 下游任务上进行微调,以验证预训练模型学到的特征表示到下游密集预测任务的迁移能力。 下游密集预测任务具体包含在PASCAL VOC数据集上的目标检测,在PASCAL VOC和Cityscaps数据集上的语义分割,以及在MS COCO上的目标检测和实例分割任务。实验结果表明,本发明得到的预训练模型,在迁移到以上下游密集预测任务时,都达到了与现有最先进方法可比的性能,有的甚至高出了现有方法。此外,还采用在MS COCO上预训练的模型,在PASCAL VOC的目标检测和语义分割任务进行消融实验。
表1展示了在PASCAL VOC数据集上目标检测的性能。实验结果显示,对于在MSCOCO 和ImageNet上预训练的模型,DSC-KM和DSC-PM都可以达到比前两种方法更好的性能。特别是在MS COCO预训练模型上,DSC-PM比MoCo-v2高出5.1%AP性能,比MSCOCO 模型的baseline DenseCL高出0.8%AP;在ImageNet预训练模型上,DSC-KM比MoCo-v2 高出1.6%AP,比DenseCL高出0.3%AP。实验结果表明,通过推理语义类别决策边界,预 训练模型与下游密集预测任务之间的差距将大大缩小。
表2分别展示了在MS COCO和ImageNet上预先训练的PASCAL VOC和Cityscapes数据 集上语义分割的性能。对于PASCAL VOC数据集的语义分割任务,DSC-KM和DSC-PM都 显著提高了性能。特别是,在MS COCO预训练时,DSC-PM比MoCo-v2高出9.3%mIoU, 比DenseCL高出1.2%mIoU;在ImageNet预训练时,DSC-PM比MoCo-v2高出3.3%mIoU, 比DenseCL高出0.7%mIoU,这再次验证了语义类别决策边界建模的有效性。对于Cityscapes 数据集的语义分割任务,当在MS COCO上预训练时,DSC-KM比MoCo-v2高出3.3%mIoU, 比DenseCL高0.4%mIoU。当在ImageNet上预训练时,DSC-KM比MoCo-v2高3.4%mIoU, 比DenseCL高0.5%mIoU。语义分割任务的显著性能改进表明,本发明方法中的语义类别标 签分配比任何其他子监督学习的预训练方法都更准确。
表3展示了在MS COCO数据集上目标检测和实例分割的性能。通过MS COCO预训练,DSC-KM比MoCo-v2高2.2%APb,2.0%APm,比DenseCL高0.4%APb,0.4%APm。对于 ImageNet,DSC-PM比MoCo-v2高0.5%APb,0.5%APm,比DenseCL高0.2%APb,0.2%APm。 该任务在MSCOCO和ImageNet预训练模型中都受到限制,因为MS COCO包含了许多真实 的场景图像,这对自监督学习的预训练仍然是一个挑战。
表4展示了不同语义策略在PASCAL VOC数据集上目标检测和语义分割的性能。实验结 果表明,所有的策略都在一定程度上提高了下游密集预测任务的性能,表明像素语义的补充 有助于在数据集中获得更好的语义结构。此外,可以看到“CE”、“PM”和“KM”的性能优于 “Neighbor”和“Triplet”,这证明了探索跨图像像素之间的全局关系比挖掘单个图像中像素的局 部关系更有效。
在DSC-KM中,随着K的增加,下游任务的性能变得更好,这表明适度的过聚类对语义 表示学习更有益。而随着K的增长,耗时的情况也变得很严重。为了平衡性能改进和时间成 本,本发明在DSC-KM中选择K=100,DSC-PM选择K=150。
表5展示了不同粒度在PASCAL VOC数据集上目标检测和语义分割的影响。随着粒度的 增加,下游密集预测任务的性能显示了一种渐进的上升趋势。通过联合学习多个粒度中的特 征表示,DSC模型不仅在实例或像素级别上获得了中、低级的视觉理解,而且在语义类别级 别上获得了高水平的视觉理解。这种多粒度的考虑有利于在执行下游密集预测任务时进行准 确的类别分配。
表1在PASCAL VOC数据集上目标检测的性能。
预训练方法 AP AP<sub>50</sub> AP<sub>75</sub>
MoCo-v2 CC* 52.1 79.0 56.7
DenseCL CC* 56.4 81.8 62.7
DSC-KM 57.0 82.1 63.0
DSC-PM 57.2 82.3 63.4
SimCLR IN 51.5 79.4 55.6
BYOL IN 51.9 81.0 56.5
MoCo IN 55.9 81.5 62.6
MoCo-v2 IN* 57.1 82.0 63.9
DenseCL IN* 58.4 82.7 65.7
DSC-KM 58.7 82.7 65.6
DSC-PM 58.6 82.8 65.6
其中,CC和IN分别指在MS COCO和ImageNet数据集上进行预训练。*代表我们的重新实现。
表2在PASCAL VOC和Cityscapes数据集上语义分割的性能。
Figure BDA0003231779310000081
Figure BDA0003231779310000091
其中,CC和IN分别指在MS COCO和ImageNet数据集上进行预训练。*代表我们的重新实现。
表3在MS COCO数据集上目标检测和实例分割的性能。
预训练方法 AP<sup>b</sup> AP<sup>b</sup><sub>50</sub> AP<sup>b</sup><sub>75</sub> AP<sup>m</sup> AP<sup>m</sup><sub>50</sub> AP<sup>m</sup><sub>75</sub>
MoCo-v2 CC* 37.0 55.9 40.2 33.5 53.1 35.9
DenseCL CC* 38.8 58.4 42.6 35.1 55.4 37.7
DSC-KM 39.2 58.8 42.8 35.5 55.9 38.0
DSC-PM 39.0 58.6 42.5 35.1 55.5 37.7
MoCo-v2 IN* 38.9 58.5 42.5 35.2 55.6 37.8
DenseCL IN* 39.2 58.7 42.9 35.5 56.0 37.7
DSC-KM 39.4 58.8 43.0 35.6 56.1 38.1
DSC-PM 39.4 58.9 43.2 35.7 56.1 38.3
其中,CC和IN分别指在MS COCO和ImageNet数据集上进行预训练。*代表我们的重新实现。
表4不同语义策略在PASCAL VOC数据集上目标检测和语义分割的性能。
语义策略 AP AP<sub>50</sub> AP<sub>75</sub> mIoU
- 56.4 81.8 62.7 56.7
Neighbor 56.6 81.6 63.0 57.5
Triplet 55.5 80.9 61.4 53.5
CE 56.8 81.9 63.0 58.1
KM 56.8 81.9 62.8 57.7
PM 57.1 82.2 63.3 57.9
其中,Neighbor、Triplet、CE、KM和PM分别代表以下语义策略:邻居挖潜、三元组损失、交叉熵损失、K-means和原型映射。
表5不同粒度在PASCAL VOC数据集上目标检测和语义分割的影响
实例 像素 语义 AP AP<sub>50</sub> AP<sub>75</sub> mIoU
54.7 81.0 60.6 48.6
56.4 81.8 62.7 56.7
57.1 82.2 63.3 57.9
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以 实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各 种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发 明要求保护的范围以权利要求书界定的范围为准。

Claims (7)

1.一种基于密集语义对比的自监督视觉模型预训练方法,其步骤包括:
1)对于样本图像xi,利用数据增强方法a对样本图像xi增强后输入第一编码器网络分支得到基础特征
Figure FDA0003231779300000011
然后将基础特征
Figure FDA0003231779300000012
输入全局映射模块得到实例级特征
Figure FDA0003231779300000013
将基础特征
Figure FDA0003231779300000014
输入密集映射模块得到样本图像xi中每一个像素点pi的特征,即像素级特征
Figure FDA0003231779300000015
利用数据增强方法b对样本图像xi增强后输入第二编码器网络分支得到基础特征
Figure FDA0003231779300000016
然后将基础特征
Figure FDA0003231779300000017
输入全局映射模块得到实例级特征
Figure FDA0003231779300000018
将基础特征
Figure FDA0003231779300000019
输入密集映射模块得到样本图像xi中每一个像素点pi的特征,即像素级特征
Figure FDA00032317793000000110
2)基于
Figure FDA00032317793000000111
Figure FDA00032317793000000112
进行对比学习,得到实例判别损失Lins;基于
Figure FDA00032317793000000113
Figure FDA00032317793000000114
进行对比学习,得到像素判别损失Lpix
3)对于样本图像xi中的任意一像素点pi,根据该像素点pi对应的正样本集计算邻居判别损失Lnei
4)对数据增强方法a增强后的样本图像对应的像素级特征集合va执行聚类操作,获得K个聚类集群;对数据增强方法b增强后的样本图像对应的的像素级特征集合vb执行聚类,获得K个聚类集群;然后对每个集群进行对比学习,计算聚类对比损失LKM
5)将损失函数L=Lins+Lpix+Lsem作为自监督视觉模型预训练的最终损失函数,对自监督视觉模型进行端到端的训练;其中Lsem为Lnei、LKM或LPM,LPM表示对一个像素进行原型映射的损失。
2.如权利要求1所述的方法,其特征在于,
Figure FDA00032317793000000115
其中,τins代表实例级别的温度系数;s(,)是相似度函数,z_为除xi自身之外的其他所有样本构成负样本集。
3.如权利要求1所述的方法,其特征在于,
Figure FDA00032317793000000116
其中,τpix代表像素级别的温度系数,s(,)是相似度函数,v-为来自于除xi之外的其他图像的像素点构成负样本集。
4.如权利要求2或3所述的方法,其特征在于,a、b的相似度
Figure FDA00032317793000000117
5.如权利要求1所述的方法,其特征在于,
Figure FDA0003231779300000021
6.如权利要求1所述的方法,其特征在于,
Figure FDA0003231779300000022
其中ec为第c个集群的质心特征,
Figure FDA0003231779300000023
为对像素级特征va进行聚类操作得到的第c个集群的质心特征,
Figure FDA0003231779300000024
为对像素级特征vb进行聚类操作得到的第c个集群的质心特征,τKM为集群级别的温度系数,e-表示对像素级特征va进行聚类所得K个集群中除第c个集群之外的其他所有K-1个集群的质心。
7.如权利要求6所述的方法,其特征在于,
Figure FDA0003231779300000025
l(v,q)=∑kqklogpk,
Figure FDA0003231779300000026
其中,k是索引值,ck表示K-分类器中第k个类别的权重,k’的取值范围为1~K,ck’表示K-分类器中第k’个类别的权重。
CN202110988818.9A 2021-08-26 2021-08-26 一种基于密集语义对比的自监督视觉模型预训练方法 Pending CN113989582A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110988818.9A CN113989582A (zh) 2021-08-26 2021-08-26 一种基于密集语义对比的自监督视觉模型预训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110988818.9A CN113989582A (zh) 2021-08-26 2021-08-26 一种基于密集语义对比的自监督视觉模型预训练方法

Publications (1)

Publication Number Publication Date
CN113989582A true CN113989582A (zh) 2022-01-28

Family

ID=79735229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110988818.9A Pending CN113989582A (zh) 2021-08-26 2021-08-26 一种基于密集语义对比的自监督视觉模型预训练方法

Country Status (1)

Country Link
CN (1) CN113989582A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612685A (zh) * 2022-03-22 2022-06-10 中国科学院空天信息创新研究院 一种结合深度特征与对比学习的自监督信息提取方法
CN114758298A (zh) * 2022-04-22 2022-07-15 华南理工大学 基于多任务的自监督目标检测方法、系统、装置及介质
CN115100390A (zh) * 2022-08-24 2022-09-23 华东交通大学 一种联合对比学习与自监督区域定位的图像情感预测方法
CN116861923A (zh) * 2023-04-04 2023-10-10 大连理工大学 多视图无监督图对比学习模型构建方法、系统、计算机、存储介质及应用
CN114758298B (zh) * 2022-04-22 2024-06-04 华南理工大学 基于多任务的自监督目标检测方法、系统、装置及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612685A (zh) * 2022-03-22 2022-06-10 中国科学院空天信息创新研究院 一种结合深度特征与对比学习的自监督信息提取方法
CN114758298A (zh) * 2022-04-22 2022-07-15 华南理工大学 基于多任务的自监督目标检测方法、系统、装置及介质
CN114758298B (zh) * 2022-04-22 2024-06-04 华南理工大学 基于多任务的自监督目标检测方法、系统、装置及介质
CN115100390A (zh) * 2022-08-24 2022-09-23 华东交通大学 一种联合对比学习与自监督区域定位的图像情感预测方法
CN116861923A (zh) * 2023-04-04 2023-10-10 大连理工大学 多视图无监督图对比学习模型构建方法、系统、计算机、存储介质及应用

Similar Documents

Publication Publication Date Title
Balestriero A spline theory of deep learning
CN108345850B (zh) 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
CN113989582A (zh) 一种基于密集语义对比的自监督视觉模型预训练方法
CN112184752A (zh) 一种基于金字塔卷积的视频目标跟踪方法
CN110321967B (zh) 基于卷积神经网络的图像分类改进方法
CN105528575B (zh) 基于上下文推理的天空检测方法
WO2021088365A1 (zh) 确定神经网络的方法和装置
CN105184772A (zh) 一种基于超像素的自适应彩色图像分割方法
CN113688894B (zh) 一种融合多粒度特征的细粒度图像分类方法
CN114677565B (zh) 特征提取网络的训练方法和图像处理方法、装置
CN113076970A (zh) 一种缺失条件下的高斯混合模型聚类机器学习方法
CN113903031A (zh) 一种基于图卷积和对比学习的跨域语义分割方法
CN110992379B (zh) 一种基于方向超像素的快速图像分割方法
CN106846321B (zh) 一种基于贝叶斯概率与神经网络的图像分割方法
Cheng et al. Leveraging semantic segmentation with learning-based confidence measure
CN114782752A (zh) 基于自训练的小样本图像集成分类方法及装置
Shyr et al. Supervised hierarchical Pitman-Yor process for natural scene segmentation
Li et al. Saliency detection via alternative optimization adaptive influence matrix model
Wang et al. Robust pixelwise saliency detection via progressive graph rankings
Wei et al. Salient object detection based on weighted hypergraph and random walk
CN105279489B (zh) 一种基于稀疏编码的视频指纹提取方法
CN115019342A (zh) 一种基于类关系推理的濒危动物目标检测方法
Zhu et al. Recognition of speed signs in uncertain and dynamic environments
Gao et al. Improved detection of adversarial images using deep neural networks
Zhang et al. A novel dilated convolutional neural network model for road scene segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination