CN113989582A

CN113989582A - 一种基于密集语义对比的自监督视觉模型预训练方法

Info

Publication number: CN113989582A
Application number: CN202110988818.9A
Authority: CN
Inventors: 王伟平; 李晓倪; 周宇
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2022-01-28

Abstract

本发明公开了一种基于密集语义对比的自监督视觉模型预训练方法，其步骤包括：1)对于样本图像x_i，利用数据增强方法a、b分别对样本图像x_i增强后进行特征提取和映射，得到样本图像x_i中每一个像素点p_i的特征，即像素级特征

以及实例级特征

2)基于

和

进行对比学习，得到实例判别损失L_ins；基于

和

进行对比学习，得到像素判别损失L_pix；3)根据像素点p_i对应的正样本集计算邻居判别损失L_nei；4)对像素级特征集合v^a、v^b分别执行聚类，分别获得K个聚类集群；然后对每个集群进行对比学习，计算聚类对比损失L_KM；5)根据损失函数L＝L_ins+L_pix+L_sem对自监督视觉模型进行端到端的训练。

Description

一种基于密集语义对比的自监督视觉模型预训练方法

技术领域

本发明涉及计算机软件技术领域，具体涉及一种基于密集语义对比的自监督视觉模型预训练方法。

背景技术

随着大规模有标注数据集的使用，有监督学习的计算机视觉任务取得很高的性能，但是有标注的数据集需要大量的人工标注成本，而且经过有标注数据预训练得到的模型不够通用，再加上现实中我们面临的更多的是无标注数据，因此各种无监督方法应运而生。而自监督学习实际上是无监督学习的一个变种，是数据能够提供监督信息的一种无监督学习方式。自监督学习通过解决自定义的代理任务，进行模型的预训练，将训练好的模型进行迁移或是微调以解决特定的下游任务，如分类、检测和分割等。

从粒度上来说，目前已有的自监督学习方法可分为两个大类，一个是实例级别的学习方法，另一个是像素级别的学习方法。基于实例级别的学习方法，根据实现的方式，又可以大致分为实例判别和实例级别的语义挖掘。

实例判别的方法将每一个样本都当作单独的一类，通过对比学习，将正样本拉近(或同时将负样本推远)，从而学习特定于实例的判别性表示。着眼于实例级别的语义关系，现有的语义挖掘方法按照实现方式又可以分为两类：一类是查询邻居，另一类是深度聚类。查询邻居的方法通过发现样本锚定的邻居，以此来推理潜在的类别决策边界。深度聚类方法又可分为交替迭代和代理任务。交替迭代的方法是指对特征进行迭代聚类，并使用后续的聚类分配结果来更新深度网络；代理任务是指使用代理任务作为监督信号，同时学习标签分配和特征更新。

为了探索更适合于下游密集预测任务的复杂多前景图像预训练方法，像素级别的自监督学习从更密集的角度出发，实现像素判别。这类方法将每个像素都当作一个单独的类别，并学习像素的判别表示，显著缩小了预训练的模型和下游密集预测任务之间的差距。

1,实例判别：

实例判别的方法，把所有的样本都当作单独的一类，忽略了样本之间潜在的语义关系。换言之，这类方法将每个图像视为单独的一个类别，忽略了两个图像包含相同语义类别的前景目标的信息。

2,基于实例的语义挖掘：

目前已有的语义挖掘方法都是基于实例级别的，所以当两个图像里分别有两个不同的目标时，这类方法会简单地因为二者的整体相似度不高，而把这两个图像聚为两类，忽略了图像中不同前景目标之间的语义关系。

3,像素判别：

基于像素判别的方法，把每一个像素都当作单独的一类，彼此推远。由于每个像素的任何非线性类内变化都没有被建模，所以这类方法缺乏像素级别的语义类别判别能力。因此，这类方法仅限于单个像素水平上的中、低级别的视觉理解，在缩小预训练模型与下游密集预测任务的差距时遇到了瓶颈。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于密集语义对比的自监督视觉模型预训练方法。本发明提出密集语义的概念，用于在像素级显示地建模语义类别决策边界，在语义上建立了实例到实例和像素到像素的连接。同时构建一个用于多粒度表示学习的密集跨图像语义对比学习框架，弥补以往自监督学习预训练方法中语义的缺陷。

本发明提出一个多任务多结构的融合框架，以整合不同的标记结构，使它们为子类分类器提供多方面的先验知识和相似性约束。首次提出像素判别任务缺乏语义类别决策边界推理的能力。这种能力的不足导致迁移的模型不能准确地为一个目标的像素分配相同的类别标签，导致预先训练的模型与下游密集预测任务之间存在差距。因此，本发明显示地建模语义决策边界来缩小这一差距。

本发明提出一个用于多粒度表示学习的密集跨图像语义对比学习框架。与之前的自监督学习预训练方法不同，该框架同时考虑了图像内和图像间像素的语义关系。本发明同时学习实例、像素和语义粒度中的判别信息，以确保像素级别类内特征的多样性和类间特征的判别性。

本发明的技术方案为：

一种基于密集语义对比的自监督视觉模型预训练方法，其步骤包括：

1)对于样本图像x_i，利用数据增强方法a对样本图像x_i增强后输入第一编码器网络分支得到基础特征

然后将基础特征

输入全局映射模块得到实例级特征

将基础特征

输入密集映射模块得到实例样本x_i的每一个像素点的特征，比如像素p_i的像素级特征表示为

利用数据增强方法b对样本图像x_i增强后输入第二编码器网络分支得到基础特征

然后将基础特征

输入全局映射模块得到实例级特征

将基础特征

输入密集映射模块得到实例样本x_i的每一个像素点的特征，比如像素 p_i的像素级特征表示为

2)基于

和

进行对比学习，得到实例判别损失L_ins；基于

和

进行对比学习，得到像素判别损失L_pix；

3)对于样本图像x_i中的任意一像素点p_i，根据该像素点p_i对应的正样本集

计算邻居判别损失L_nei；其中，N_i是像素点p_i的邻居数量；

4)对数据增强方法a增强后的样本图像对应的像素级特征v^a(包含样本图像中各像素点的特征)执行聚类操作，获得K个聚类集群；对数据增强方法b增强后的样本图像对应的的像素级特征v^b(包含样本图像中各个像素点的特征)执行聚类，获得K 个聚类集群；然后对每个集群进行对比学习，计算聚类对比损失L_KM；

5)将损失函数L＝L_ins+L_pix+L_sem作为自监督视觉模型预训练的最终损失函数，对自监督视觉模型进行端到端的训练；其中L_sem为L_nei、L_KM或L_PM，L_PM表示对一个像素进行原型映射的损失。

进一步的，

其中，τ_ins代表实例级别的温度系数；s(,)是相似度函数，z_为除x_i自身之外的其他所有样本构成负样本集。

进一步的，

其中，τ_pix代表像素级别的温度系数，s(,)是相似度函数，v_-为来自于除x_i之外的其他图像的像素点构成负样本集。

进一步的，a、b的相似度

进一步的，

进一步的，

其中e_c为第c个集群的质心特征，

为对像素级特征v^a进行聚类操作得到的第c个集群的质心特征，

为对像素级特征v^b进行聚类操作得到的第c个集群的质心特征，τ_KM为温度系数，e_-表示对像素级特征 v^a进行聚类所得K个集群中除第c个集群之外的其他所有K-1个集群的质心。

进一步的，

本发明具有如下有益效果：

本发明首先探索了一种邻居发现方法来增强图像内部像素的相关性，它从多个视图中挖掘邻居。此外，还采用某些聚类方法，设计了一个用于跨图像语义关系建模的密集语义模块。对于其他粒度，分别进行实例和像素判别，执行标准的对比学习。本发明在ImageNet和MS COCO上预训练的模型迁移到丰富的下游密集预测任务中。实验结果表明，本发明比以往的工作具有更好的性能。

附图说明

图1为本发明方法流程图。

图2为不同视图下的邻居挖掘示意图。

图3为不同视图下的聚类对齐图。

图4为不同K在PASCAL VOC数据集目标检测的性能和效率对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出了密集语义对比的概念，用于在像素级显示地建模语义类别决策边界，并设计了多粒度表示学习的密集跨图像语义对比学习框架(DSC)。DSC包含三个不同的粒度：实例、像素和语义级别。在实例和像素级别分别进行实例判别和像素判别，执行标准的对比学习操作。如图1所示，给定输入样本x_i，经过两种数据增强方法a和b可以得到两种不同的视图，这两种视图分别送到两个编码器网络分支得到基础特征

和

再分别经过全局映射模块得到

和

两个全局特征(实例级特征)；经过密集映射模块得到

和

两个密集特征(像素级特征)，然后分别按照公式(1)和(2)进行对比学习操作。本发明中的数据增强方法a和b分别是一组集成的操作，参照已有的方法，包含随机裁剪，并重新调整大小为 224*224；水平翻转；随机灰度；同时，随机选择使用颜色抖动和高斯滤波。编码器网络分支，都使用卷积神经网络ResNet50；全局映射模块使用标准的多层感知机MLP；密集映射模块也使用多层感知机MLP，唯一的一点区别在于把MLP的最后一个线性层替换为1*1的卷积层，以此可以得到样本中每一个像素点的特征，也即“密集特征”。

其中s(a,b)是用余弦距离表示的相似度(公式(3))，超参τ_ins和τ_pix分别代表实例和像素级别的温度系数，z_-和v_-分别代表实例和像素级别的负样本集。对于实例级别，除x_i自身之外的其他所有样本构成负样本集z_-；对于像素级别，来自于除x_i之外的其他图像的像素点构成负样本集v_-。注，实例判别损失L_ins表示对每一个实例进行对比学习的损失；而像素判别损失L_pix表示对每一个实例内的像素进行对比学习的损失。

在语义级别，从图像内和图像间两个角度补充不同目标之间的语义信息。对于图像内，从多个视图中搜索邻居，如图2所示，邻居不仅来源于不同的视图，还可以来源于相同的视图。理论上，所有这些样本都应该属于同一个语义范畴。这些邻居在理论上都属于同一个语义类别，所以应该构成正样本集

N_i是相同视图下像素点p_i的邻居数量。关于邻居的确定，本发明计算一张图像的相同视图下的所有像素点(p_i除外)与像素点p_i的相似度，然后选取相似度最大的N_i个像素点，作为像素点p_i的邻居，其中相似度使用公式(3) 计算。加入邻居约束的对比学习可以定义为邻居判别损失L_nei，可以用公式(4)表示。

对于图像间，通过一些聚类方法重新分配每个像素的标签，如图4所示。一种自然的做法是在一个批(batch)内，对所有图像中的像素级特征v^a和v^b执行k-means聚类(DSC-KM)，以获得一定数量的集群(K个)，然后根据公式(5)对每个集群进行对比学习，聚类对比损失L_KM是指对集群c进行对比学习的损失。同一集群中的像素彼此更接近，不同集群中的样本被推得更远。其中e_c指经过聚类之后第c个集群的质心特征，

和

代表在a、b两种数据增强之后的两种视图下，分别对各自的像素级特征v^a和v^b进行聚类操作得到的第c个集群的质心特征，τ_KM指集群级别的温度系数，e_-表示对像素级特征v^a进行聚类所得K个集群中除第c个集群之外的其他所有K-1个集群的质心。

本发明还探索了一种原型映射的方法进行聚类操作，并迫使不同视图下的像素分配情况保持一致(DSC-PM)。实例样本x_i的其中一个像素p_i，在两个数据增强下的视图中分别有像素级特征

和

通过将这些特征与K个原型{c₁,...,c_K}相匹配，以此来计算它们的集群分配

和

然后使用公式(6)建立一个“交换”的预测问题。实现起来，以像素级特征

和

为例，把它们放入一个K-分类器，分别得到一个K维的向量，每一维对应着分配到该类的概率值，这个分类结果表示为

和

我们也把它们叫作集群分配。原型映射损失L_PM表示对一个像素进行原型映射的损失。l(v,q)衡量了特征v和分配q之间的匹配程度，可以用交叉熵损失来表示，其中概率p由一个softmax函数得到，如公式(7)所示。其中，k是索引值， c^k表示K-分类器中第k个类别的权重，k’是一个变量，范围从1变化到K，c^k’表示K-分类器中第k’个类别的权重。T是转置操作。

通过这三个不同粒度的损失约束，可以同时获得、中和高级的视觉理解。如图1所示，最终的损失函数(公式(8))由三部分组成，分别对应了实例、像素和语义三个不同的粒度。其中L_sem可以是L_nei，L_KM或L_PM。整个框架可以进行端到端地训练。

L＝L_ins+L_pix+L_sem (8)

我们的模型首先在大规模图像数据集ImageNet和MS COCO上进行预训练，然后在多种下游任务上进行微调，以验证预训练模型学到的特征表示到下游密集预测任务的迁移能力。下游密集预测任务具体包含在PASCAL VOC数据集上的目标检测，在PASCAL VOC和Cityscaps数据集上的语义分割，以及在MS COCO上的目标检测和实例分割任务。实验结果表明，本发明得到的预训练模型，在迁移到以上下游密集预测任务时，都达到了与现有最先进方法可比的性能，有的甚至高出了现有方法。此外，还采用在MS COCO上预训练的模型，在PASCAL VOC的目标检测和语义分割任务进行消融实验。

表1展示了在PASCAL VOC数据集上目标检测的性能。实验结果显示，对于在MSCOCO 和ImageNet上预训练的模型，DSC-KM和DSC-PM都可以达到比前两种方法更好的性能。特别是在MS COCO预训练模型上，DSC-PM比MoCo-v2高出5.1％AP性能，比MSCOCO 模型的baseline DenseCL高出0.8％AP；在ImageNet预训练模型上，DSC-KM比MoCo-v2 高出1.6％AP，比DenseCL高出0.3％AP。实验结果表明，通过推理语义类别决策边界，预训练模型与下游密集预测任务之间的差距将大大缩小。

表2分别展示了在MS COCO和ImageNet上预先训练的PASCAL VOC和Cityscapes数据集上语义分割的性能。对于PASCAL VOC数据集的语义分割任务，DSC-KM和DSC-PM都显著提高了性能。特别是，在MS COCO预训练时，DSC-PM比MoCo-v2高出9.3％mIoU，比DenseCL高出1.2％mIoU；在ImageNet预训练时，DSC-PM比MoCo-v2高出3.3％mIoU，比DenseCL高出0.7％mIoU，这再次验证了语义类别决策边界建模的有效性。对于Cityscapes 数据集的语义分割任务，当在MS COCO上预训练时，DSC-KM比MoCo-v2高出3.3％mIoU，比DenseCL高0.4％mIoU。当在ImageNet上预训练时，DSC-KM比MoCo-v2高3.4％mIoU，比DenseCL高0.5％mIoU。语义分割任务的显著性能改进表明，本发明方法中的语义类别标签分配比任何其他子监督学习的预训练方法都更准确。

表3展示了在MS COCO数据集上目标检测和实例分割的性能。通过MS COCO预训练，DSC-KM比MoCo-v2高2.2％AP^b，2.0％AP^m，比DenseCL高0.4％AP^b，0.4％AP^m。对于 ImageNet，DSC-PM比MoCo-v2高0.5％AP^b，0.5％AP^m，比DenseCL高0.2％AP^b，0.2％AP^m。该任务在MSCOCO和ImageNet预训练模型中都受到限制，因为MS COCO包含了许多真实的场景图像，这对自监督学习的预训练仍然是一个挑战。

表4展示了不同语义策略在PASCAL VOC数据集上目标检测和语义分割的性能。实验结果表明，所有的策略都在一定程度上提高了下游密集预测任务的性能，表明像素语义的补充有助于在数据集中获得更好的语义结构。此外，可以看到“CE”、“PM”和“KM”的性能优于 “Neighbor”和“Triplet”，这证明了探索跨图像像素之间的全局关系比挖掘单个图像中像素的局部关系更有效。

在DSC-KM中，随着K的增加，下游任务的性能变得更好，这表明适度的过聚类对语义表示学习更有益。而随着K的增长，耗时的情况也变得很严重。为了平衡性能改进和时间成本，本发明在DSC-KM中选择K＝100，DSC-PM选择K＝150。

表5展示了不同粒度在PASCAL VOC数据集上目标检测和语义分割的影响。随着粒度的增加，下游密集预测任务的性能显示了一种渐进的上升趋势。通过联合学习多个粒度中的特征表示，DSC模型不仅在实例或像素级别上获得了中、低级的视觉理解，而且在语义类别级别上获得了高水平的视觉理解。这种多粒度的考虑有利于在执行下游密集预测任务时进行准确的类别分配。

表1在PASCAL VOC数据集上目标检测的性能。

预训练方法	AP	AP<sub>50</sub>	AP<sub>75</sub>
				MoCo-v2 CC*	52.1	79.0	56.7
DenseCL CC*	56.4	81.8	62.7
				DSC-KM	57.0	82.1	63.0
DSC-PM	57.2	82.3	63.4
				SimCLR IN	51.5	79.4	55.6
BYOL IN	51.9	81.0	56.5
				MoCo IN	55.9	81.5	62.6
MoCo-v2 IN*	57.1	82.0	63.9
				DenseCL IN*	58.4	82.7	65.7
DSC-KM	58.7	82.7	65.6
				DSC-PM	58.6	82.8	65.6

其中，CC和IN分别指在MS COCO和ImageNet数据集上进行预训练。*代表我们的重新实现。

表2在PASCAL VOC和Cityscapes数据集上语义分割的性能。

表3在MS COCO数据集上目标检测和实例分割的性能。

预训练方法	AP<sup>b</sup>	AP<sup>b</sup><sub>50</sub>	AP<sup>b</sup><sub>75</sub>	AP<sup>m</sup>	AP<sup>m</sup><sub>50</sub>	AP<sup>m</sup><sub>75</sub>
							MoCo-v2 CC*	37.0	55.9	40.2	33.5	53.1	35.9
DenseCL CC*	38.8	58.4	42.6	35.1	55.4	37.7
							DSC-KM	39.2	58.8	42.8	35.5	55.9	38.0
DSC-PM	39.0	58.6	42.5	35.1	55.5	37.7
							MoCo-v2 IN*	38.9	58.5	42.5	35.2	55.6	37.8
DenseCL IN*	39.2	58.7	42.9	35.5	56.0	37.7
							DSC-KM	39.4	58.8	43.0	35.6	56.1	38.1
DSC-PM	39.4	58.9	43.2	35.7	56.1	38.3

表4不同语义策略在PASCAL VOC数据集上目标检测和语义分割的性能。

语义策略	AP	AP<sub>50</sub>	AP<sub>75</sub>	mIoU
					-	56.4	81.8	62.7	56.7
Neighbor	56.6	81.6	63.0	57.5
					Triplet	55.5	80.9	61.4	53.5
CE	56.8	81.9	63.0	58.1
					KM	56.8	81.9	62.8	57.7
PM	57.1	82.2	63.3	57.9

其中，Neighbor、Triplet、CE、KM和PM分别代表以下语义策略：邻居挖潜、三元组损失、交叉熵损失、K-means和原型映射。

表5不同粒度在PASCAL VOC数据集上目标检测和语义分割的影响

实例	像素	语义	AP	AP<sub>50</sub>	AP<sub>75</sub>	mIoU
							√			54.7	81.0	60.6	48.6
√	√		56.4	81.8	62.7	56.7
							√	√	√	57.1	82.2	63.3	57.9

尽管为说明目的公开了本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。