CN114998671A

CN114998671A - 基于卷积掩码的视觉特征学习器、获取装置及存储介质

Info

Publication number: CN114998671A
Application number: CN202210501756.9A
Authority: CN
Inventors: 高鹏; 马特立; 代季峰; 李鸿升; 乔宇
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-09-02

Abstract

本发明涉及一种基于卷积掩码自动编码技术的视觉特征学习器，其利用卷积的局部特征提取机制在浅层收集特征，用变换(Transformer)模块的全局特征提取机制在深层网络收集特征；所述学习器的参数通过预学习获得。在预学习中，使用随机掩码在不同尺度之间的图像上掩盖相同位置，解决了现有掩码生成无法多尺度的问题，以及在多尺度之间随机掩码会导致信息泄漏的问题，从而通过实现高效的多尺度掩码训练，形成金字塔型多尺度特征。将学习器配合下游任务进一步训练使用，比如图像分类、目标检测或语义分割，能够提高业务性能和准确度。

Description

基于卷积掩码的视觉特征学习器、获取装置及存储介质

技术领域

本公开涉及计算机视觉，尤其涉及一种基于卷积掩码的视觉特征学习器、获取装置及存储介质。

背景技术

Vision Transformer(ViT)已被提升为针对视觉相关任务的有力实用工具。混合局部全局特征的架构和高效的预训练方案掩码自动编码技术(Mask Autoencoding-MAE)的引入进一步增强了ViT的表示能力，并在所有视觉基准上展示了最先进的性能、更加快速的收敛和更高的数据效率。但是，目前这种MAE技术的引入并没有很好地与混合特征网络结构进行很好的结合，而混合特征网络结构在下游任务上非常重用。

发明内容

针对上述现有技术，本发明提供一种能够输出多尺度特征的学习器，通过在混合特征架构网络上进行掩码自动编码的学习，进一步提升ViT的表征能力，至少解决混合架构的可扩展计算问题和预训练/微调差异，从而在分类、迁移学习、目标检测和语义分割上实现强大的性能。其中，混合特征网络架构指融合局部和全局特征提取机制的视觉骨干网络。

为了解决上述技术问题，本发明的技术方案如下：

第一方面，本发明提出一种基于卷积掩码自动编码技术的视觉特征学习器：

所述学习器包括串接的卷积单元和变换(Transformer)单元，所述卷积单元包括下采样层和卷积层，所述变换(Transformer)单元包括下采样层和变换(Transformer)层；

将图像输入学习器，能够输出多尺度图像特征；

若在使用卷积层或变换(Transformer)层进行图像特征提取之前，对下采样得到的图像特征使用掩码进行局部随机遮盖，且每次未被遮盖的部分不包括曾被遮盖过的部分，基于变换(Transformer)层输出的图像特征和最后一次掩码，能够得到被遮盖部分的恢复图像。

在上述技术方案中，学习器利用卷积层提取图像的局部特征，有利于提取图像的先验信息，而利用变换(Transformer)层获取图像的全局特征，有利于图像全局特征之间进行信息交互，从而有利于进行视觉信息的推理，进而能够在更短的时间获得更加好的模型表现，输出的金字塔型多尺度特征，也会有助于在分类、迁移学习、目标检测和语义分割上等下游业务的实施，提高相应业务的准确度和精度。在上述技术方案中，若在图像特征提取过程中，添加掩码进行局部随机遮盖，基于学习器的变换(Transformer)层输出的图像特征和最后一次掩码，能够得到被遮盖部分的恢复图像，是由于其卷积层和变换层的参数已经预训练好，在预训练中是利用掩码进行自动编码预训练，即：在计算机视觉骨干网络的预训练中，利用掩码将图像进行局部随机掩盖，利用编码器学习并挖掘遮盖部分与未遮盖部分的关系特征，然后根据这些关系特征，推断恢复出被掩盖的图像特征。在这个过程中，模型的表征能力通过学习得到极大地增强。

作为本发明的进一步改进，解决现有技术生成无法多尺度掩码，而生成多尺度掩码会导致信息泄露的问题，所述未被遮盖的部分不包括曾被遮盖过的部分通过下述方式实现：

随机生成一个尺度的掩码并固定，通过上采样或下采样，进而确定相邻层掩码的位置，以保证不同尺度之间在图像上掩盖相同位置。

作为本发明的进一步改进，所述卷积层采用的卷积核为5×5时，学习器的效率最佳，所述卷积核的大小还可以是3×3。

作为本发明的进一步改进，所述卷积层采用深度可分离卷积进行局部图像特征提取，可以减少学习器参数，提高学习器性能。

作为本发明的进一步改进，所述变换(Transformer)层由变换(Transformer)模块构成，所述变换(Transformer)模块的数量可调整，比如当学习器的卷积层变多或者结构变大时，变换(Transformer)模块的数量可以增加；所述卷积层中的至少进行两次卷积操作，当进行每个卷积层中进行两次卷积操作，实施图像特征提取，学习器的效果和效率最佳。

作为本发明的进一步改进，所述学习器在变换(Transformer)层之后，还包括一个下采样层，从而使用于下游业务的图像特征增加一个尺度，提升下游业务的处理效果。

作为本发明的进一步改进，所述学习器采用预训练确定卷积层和变换(Transformer)层的参数：

所述预训练将训练图像输入第一模型，所述第一模型包括编码器和解码器；所述编码器中的卷积层和变换(Transformer)层与学习器相同；

在编码器中，在第一个卷积层进行局部图像特征提取之前，依次进行下述操作：对训练图像进行下采样，对下采样得到的图像使用掩码进行局部随机遮盖；

在接下来的卷积层进行局部图像特征提取之前，依次进行下述操作：对输入的局部图像特征进行下采样，对下采样后的局部图像特征使用掩码进行局部随机遮盖且使未被遮盖的部分不包含被遮盖过的部分；

对输入变换(Transformer)层进行全局图像特征提取之前，依次进行下述操作：对输入的局部图像特征进行下采样，对下采样后的局部图像特征进行拉平，使用掩码进行局部随机遮盖且使未被遮盖的部分不包含被遮盖过的部分；

将变换(Transformer)层输出的图像特征和最后一次掩码，输入到解码器，获取被遮盖部分的恢复图像；

计算遮盖部分恢复值与实际值的损失，通过梯度反传更新卷积层和变换(Transformer)层的参数值，直至训练完成。

作为本发明的进一步改进，所述解码器由变换(Transformer)模块构成，所述变换(Transformer)模块的数量可调整。

在上述技术方案中，利用掩码进行自动编码预训练，即：在计算机视觉骨干网络的预训练中，利用随机的掩码将图像的一定部分进行掩盖，利用编码器学习未被掩盖部分的特征，然后根据这些特征学习恢复出被掩盖的图像特征。在这个过程中，模型的表征能力通过学习得到极大地增强。

第二方面，本发明提出一种基于卷积掩码自动编码技术的视觉特征获取装置，所述装置包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行上述任一种学习器的计算机实现程序。

第三方面，本发明提出一种计算机可读存储介质，存储有能够被处理器加载并执行上述任一种学习器的计算机实现程序。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1、一个实施例中用于获得学习器参数的第一模型架构示意图；

图2、一个实施例中学习器应用示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

在实施例1中，设计了第一模型ConvMAE，其能够实现一种简单有效的自监督学习，通过将局部和全局特征提取模块、以及掩码卷积引入使用掩码训练的各向同性和纯全局特征网络结构ViT中，以探索训练更加强大且可扩展的网络的可能性。将掩码卷积MaskedConvolution(MConv)融入到掩码训练的网络中，实现简单高效地局部特征提取。并且利用卷积机制的易分层性质，得到适用于掩码训练的金字塔型多尺度特征的编码器，从而得到本发明的视觉特征学习器。相比现有技术，本发明能够用更短的时间获得了更加好的模型表现，其能够输出金字塔型多尺度特征。将学习器配合下游任务进一步训练使用，比如图像分类、目标检测或语义分割，能够提高业务性能和准确度。

具体地，采用一个多尺度掩码生成器，生成训练中的掩码。所述多尺度掩码生成器随机生成并固定了一个尺度的掩码，然后上采样或下采样生成其它尺度，保证不同尺度之间的图像上掩盖相同位置，解决了现有技术无法生成多尺度掩码的问题，也解决了在不同尺度之间随机掩码导致的信息泄漏问题，从而实现多尺度训练。图1示意了一种掩码生成的方式，先在多尺度掩码生成器内生成一个原图像尺寸1/16的随机掩码，其次通过上采样将1/16的随机掩码分别扩大为1/8和1/4的随机掩码，且扩大的随机掩码包含扩大前的随机掩码。本发明中随机掩码是指掩码的位置随机生成。

图1中，设置了卷积层两个，变换(Transformer)层1个，故图像的特征提取分为三个阶段。第一个阶段将原图像下采样为原分辨率的1/4，并用多尺度掩码生成器产生的1/4原分辨率的随机掩码进行遮掩，然后利用卷积对未被掩盖的特征部分进行特征提取。在第一次生成的随机掩码，掩码位置随机产生。在实施例1中，基于输入的图像大小为224×224、或者384×384，将卷积核的大小设置为5×5，采用2个深度可分离卷积模块进行局部特征提取。然后送入第二阶段，将1/4分辨率的特征下采样为1/8的特征，利用1/8掩码进行特征遮掩然后同样是利用两个卷积核为5×5的深度可分离卷积对未被掩盖的特征部分进行特征提取。1/8掩码遮盖的位置是1/4掩码遮盖的位置的子集，且第二阶段中未被遮盖的位置不包括第一阶段中未被遮盖的部分，以避免图像信息泄漏。第三个阶段的特征分辨率为1/16，这些特征拉平，由1/16分辨率的掩码拉平之后进行遮掩，然后将未掩盖的特征送入11层变换(Transformer)模块，进行全局特征的提取。同样的，1/16掩码遮盖的位置是1/8掩码遮盖的位置的子集，且第二阶段中未被遮盖的位置不包括第一阶段和第二阶段中未被遮盖的部分，以避免图像信息泄漏。经过这样多尺度编码网络的特征提取后，这些未掩盖的特征和掩码都会被一起送入解码器网络进行图像重建，解码器网络由8层变换(Transformer)模块组成，将特征掩码部分进行预测重建，并与图像实际的被遮掩部分计算损失，根据损失进行梯度反传来更新模型参数。其中，遮盖部分为原图面积的75％。

将上述预训练好的模型的解码网络和掩码生成器部分去掉，将第一阶段和第二阶段的卷积参数保留，即将图1中的掩码卷积换成普通深度可分离卷积，将第三阶段的变换(Transformer)模块参数保留，并将第三阶段的全局自注意力机制调整为根据下游任务采用局部或者全局自注意力机制，就获得了一个视觉特征学习器。

从图2可以看出，学习器利用卷积在浅层收集特征，用变换(Transformer)模块在深层网络收集特征，输出金字塔型多尺度特征，并用于下游任务。在图2中，还在第三阶段后添加一个新的下采样将原分辨率1/16的特征下采样成1/32的特征。然后和前三个阶段产生的1/4，1/8以及1/16的特征一起送入到检测网络或者分割网络中进行下游任务的训练。

在实施例2中将第一模型ConvMAE与其它掩码训练方法进行了实验对比，对比结果见表1-3。通过对比可以看出：

(1)本发明学习器由于采用掩码卷积，具有高效收敛快的特点；

(2)通过第一模型得到的学习器，由于能够形成金字塔多尺度特征，有利于下游业务的实现，取得良好的业务效果。

表1

方法	骨干网络	预训练回合	微调精度(％)	线性拟合精度(％)
					BEiT	ViT-B	300	83.0	37.6
MAE	ViT-B	1600	83.6	67.8
					SimMIM	Swin-B	800	84.0	56.7
MaskFeat	ViT-B	300	83.6	-
					Data2vec	ViT-B	800	84.2	-
ConvMAE	ConViT-B	200	84.1	62.5
					ConvMAE	ConViT-B*	200	84.1	62.6

从表1可以看出，其它掩码训练方法，训练周期长，长达800至1600个训练回合才能达到良好效果。本发明辅助获取学习器的第一模型，通过引入掩码卷积(MConv)，为掩码自动编码训练引入了局部特征提取机制，从而引入了更多的局部归纳偏置，因此加快了训练的收敛速度，第一模型只需要更短的预训练回合数目(200个)就可以达到比其他300、800和1600个训练周期的方法差不多甚至更好的模型微调精度和模型线性拟合精度。

表2是预训练的骨干网络利用Mask RCNN方法在检测和实例分割上的表现。Ap^box和AP^mask分别表示检测和语义分割的准确度，可以看出利用ConvMAE获得的学习器由于可以输出多尺度的特征用于下游目标检测和实例分割其应用于用Mask RCNN方法在检测和实例分割上，能够取得更好的效果。

表2

方法	特征尺度	预训练回合	微调回合	AP<sup>box</sup>	AP<sup>mask</sup>
						Benchmarking	单尺度	1600	100	50.3	44.9
ViTDet	单尺度	1600	100	51.2	45.5
						ConvMAE	多尺度	200	25	50.2	44.8
ConvMAE	多尺度	800	25	52.0	46.3

表3是预训练的骨干网络利用UperNet方法在语义分割上的表现对比。对比其他利用掩码训练的方法，利用ConvMAE获得的学习器，由于可以输出多尺度的信息，其应用于UperNet方法进行语义分割可以获得更好的表现。

表3

方法	特征尺度	预训练回合	mIoU
				BEiT	单尺度	800	46.5
MAE	单尺度	1600	48.1
				CAE	单尺度	800	48.8
ConvMAE	多尺度	800	50.2

从表2和表3可以看出，相对于现有的掩码自动编码训练都是使用的单尺度特征，在下游任务的方法上使用时效果受限制，而本发明利用局部特征提取机制在浅层收集特征，用全局特征提取机制在深层网络收集特征，在掩码自动编码训练中形成金字塔型多尺度特征，将本发明的学习器应用于下游任务的相关方法中时，能够使相关方法取得更好的效果。

在本发明中，卷积层中卷积的数量、卷积核大小、变换(Transformer)层中变换(Transformer)模块的数据均可根据实际使用进行调整，卷积类型也可以根据实际应用择优选取。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本公开的学习器、以及学习器中参数的获取方法或装置，可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本公开而言更多情况下，软件程序实现是更佳的实施方式。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种基于卷积掩码自动编码技术的视觉特征学习器，其特征在于：

将图像输入学习器，能够输出多尺度图像特征；

2.根据权利要求1所述的学习器，其特征在于，所述未被遮盖的部分不包括曾被遮盖过的部分通过下述方式实现：

随机生成一个尺度的掩码并固定，通过上采样或下采样，进而确定相邻层掩码的位置。

3.根据权利要求1所述的学习器，其特征在于，所述卷积层采用的卷积核为5×5。

4.根据权利要求1所述的学习器，其特征在于，所述卷积层采用深度可分离卷积进行局部图像特征提取。

5.根据权利要求1所述的学习器，其特征在于，所述变换(Transformer)层由变换(Transformer)模块构成，所述变换(Transformer)模块的数量可调整；所述卷积层中的至少进行两次卷积操作。

6.根据权利要求1所述的学习器，其特征在于，所述学习器在变换(Transformer)层之后，还包括一个下采样层。

7.根据权利要求1所述的学习器，其特征在于，所述学习器采用预训练确定卷积层和变换(Transformer)层的参数：

所述预训练将训练图像输入第一模型，所述第一模型包括编码器和解码器；编码器中的卷积层和变换(Transformer)层与学习器相同；

8.根据权利要求7所述的学习器，其特征在于，所述解码器由变换(Transformer)模块构成，所述变换(Transformer)模块的数量可调整。

9.一种基于卷积掩码自动编码技术的视觉特征获取装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行如权利要求1至8中任一种学习器的计算机实现程序。

10.一种计算机可读存储介质，其特征在于：存储有能够被处理器加载并执行如权利要求1至8中任一种学习器的计算机实现程序。