CN115797751A

CN115797751A - 基于对比掩码图像建模的图像分析方法与系统

Info

Publication number: CN115797751A
Application number: CN202310063063.0A
Authority: CN
Inventors: 张越一; 占语承; 孙晓艳
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-03-14
Anticipated expiration: 2043-01-18
Also published as: CN115797751B

Abstract

本发明公开了一种基于对比掩码图像建模的图像分析方法与系统，它们是一一对应的方案，方案中将对比学习和掩码图像建模结合，相比于现有的实例级的对比学习方法，本发明对图像的内部结构建模，以获得对细粒度任务友好的表示；相比现有的掩码图像建模方法，本发明在自注意力机制的引导下选择遮盖区域以及特征预测，而不是重建被随机遮盖的像素或小图像块，因此训练更加高效。因此，通过本发明提供的对比掩码图像建模方法进行网络训练后，能够有效的提取图像的表征，从而在图像分析任务中获得更好的效果；通过实验表明本发明在图像分类、目标检测、语义分割等图像分析任务中获得了优于各项现有技术的效果。

Description

基于对比掩码图像建模的图像分析方法与系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于对比掩码图像建模的图像分析方法与系统。

背景技术

对比学习和掩码图像建模作为极具影响力的两种自监督学习方法，被广泛应用在了视觉transformer的自监督训练中。

基于对比学习的方法（Xinlei Chen, Saining Xie, and Kaiming He. Anempirical study of training self-supervised Vision Transformers. In ICCV,2021.）通过实例判别任务来进行训练，以此得到具有分辨力的全局图像特征。具体来说，该方法使用噪声对比估计来解决实例级的非参数分类问题，即每个图像样本被视为一个不同的类，然后吸引正样本，同时排斥负样本。其中正样本是原始图片经过数据增强后生成的新视图，而负样本则为其他图片。但该方式忽略了对图像内部结构的探索，不能很好地提取局部细粒度的表征。

基于掩码图像建模的方法（Hangbo Bao, Li Dong, and Furu Wei. BEiT: BERTpretraining of image transformers. arXiv:2106.08254, 2021. Accessed inJune2021.）则是先随机遮盖图像的一部分，然后利用视觉transformer模型预测或重建出遮盖部分的每个像素或图像小块。这种训练方式没有考虑到图像信息稀疏度高、信息分布不平衡的特点，导致训练效率不高，影响了提取的特征的有效性。

由于现有对比学习和掩码图像建模方案所存在的种种问题，因此，通过以上方案训练后的网络，难以在图像分析任务中有效地提取图像的表征，从而制约了图像分析任务的效果。

发明内容

本发明的目的是提供一种基于对比掩码图像建模的图像分析方法与系统，在进行图像分析过程中可以有效提取图像的表征，从而提升图像分析任务的效果。

本发明的目的是通过以下技术方案实现的：

一种基于对比掩码图像建模的图像分析方法，包括：

构建视觉网络，其包含结构相同的第一子网络与第二子网络；

基于对比掩码图像建模的方法训练所述视觉网络：将每一输入图像通过两种不同的数据增强方法进行处理，获得第一增强图像与第二增强图像，并对每一增强图像分别以图像块的形式进行分割；将分割后的第二增强图像输入至所述第二子网络，由第二子网络中的第二编码网络进行编码处理，并结合编码处理获得的信息选出一个矩形区域，利用矩形区域对所述第一增强图像中相应位置区域进行遮盖，将遮盖后的第一增强图像输入至第一子网络，由所述第一子网络中的第一编码网络进行编码处理；利用第一编码网络输出的包含遮盖区域的编码结果生成第一图像块特征与第一全局特征；利用第二编码网络输出的编码结果生成第二图像块特征与第二全局特征；将同一输入图像对应的同类型特征作为一个正样本对，其他输入图像对应的特征作为负样本，建立两个对比损失，结合两个对比损失训练所述视觉网络；

取出训练后的第一子网络中的第一编码网络，并迁移至图像分析网络；将待分析图像输入至所述图像分析网络后通过所述训练后的第一编码网络进行编码，再利用编码结果进行图像分析。

一种基于对比掩码图像建模的图像分析系统，包括：

视觉网络构建单元，用于构建视觉网络，其包含结构相同的第一子网络与第二子网络；

视觉网络训练单元，用于基于对比掩码图像建模的方法训练所述视觉网络：将每一输入图像通过两种不同的数据增强方法进行处理，获得第一增强图像与第二增强图像，并对每一增强图像分别以图像块的形式进行分割；将分割后的第二增强图像输入至所述第二子网络，由第二子网络中的第二编码网络进行编码处理，并结合编码处理获得的信息选出一个矩形区域，利用矩形区域对所述第一增强图像中相应位置区域进行遮盖，将遮盖后的第一增强图像输入至第一子网络，由所述第一子网络中的第一编码网络进行编码处理；利用第一编码网络输出的包含遮盖区域的编码结果生成第一图像块特征与第一全局特征；利用第二编码网络输出的编码结果生成第二图像块特征与第二全局特征；将同一输入图像对应的同类型特征作为一个正样本对，其他输入图像对应的特征作为负样本，建立两个对比损失，结合两个对比损失训练所述视觉网络；

网络迁移与图像分析单元，用于取出训练后的第一子网络中的第一编码网络，并迁移至图像分析网络；将待分析图像输入至所述图像分析网络后通过所述训练后的第一编码网络进行编码，再利用编码结果进行图像分析。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，将对比学习和掩码图像建模结合，相比于现有的实例级的对比学习方法，本发明引入图像局部区域的遮盖及预测任务，以获得对细粒度任务友好的表示；相比现有的掩码图像建模方法，本发明在自注意力机制的引导下选择遮盖区域并对该区域进行特征预测，而不是重建被随机遮盖的像素或小图像块，因此训练更加高效，同时获得更有利于多种下游图像分析任务的表征，从而提升图像分析任务的效果。因此，通过本发明提供的对比掩码图像建模方法进行网络训练后，能够有效的提取图像的表征，从而在图像分析任务中获得更好的效果；通过实验表明本发明在图像分类、目标检测、语义分割等图像分析任务中获得了优于各项现有技术的效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于对比掩码图像建模的图像分析方法的示意图；

图2为本发明实施例提供的视觉网络的结构及其训练流程的示意图；

图3为本发明实施例提供的一种基于对比掩码图像建模的图像分析系统的示意图；

图4为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种基于对比掩码图像建模的图像分析的相关方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

实施例一

本发明实施例提供一种基于对比掩码图像建模的图像分析方法，如图1所示，该方法主要包括：

1、构建视觉网络。

本发明实施例中，所述视觉网络，其包含结构相同的第一子网络与第二子网络，两个子网络都包含编码网络与MLP映射头。

本发明实施例中，编码网络可以使用ViT网络（Vision Transformer，视觉变换器）实现，MLP映射头（projector）为多层感知机。示例性的，可以使用12层的维度为768的ViT网络，可以使用层数为2的多层感知机。

如图2所示，展示了视觉网络的结构及其训练流程，中间部分的两个虚线框部分各自对应一个子网络，上方虚线框部分为第一子网络，下方虚线框部分为第二子网络。

2、基于对比掩码图像建模的方法训练所述视觉网络。

如图2所示，展示了基于对比掩码图像建模的方法训练所述视觉网络的流程，主要包括：

1）将每一输入图像通过两种不同的数据增强方法进行处理，获得第一增强图像T₁与第二增强图像T₂，并对每一增强图像分别以图像块的形式进行分割。

本发明实施例中，数据增强方法可以包括：随机裁剪、翻转、颜色抖动等操作，可根据实际情况选择相应的操作生成两个不同的增强图像。

示例性的，可以将每一增强图像分割为N×N个的图像块，N是指每个方向上图像块的数目，作为举例，可以设置N=14。当然，实际应用中，用户可根据实际情况选择分割的具体数目，例如图2提供了分割为6×6个的图像块的示例。

2）将分割后的第二增强图像输入至所述第二子网络，由第二子网络中的第二编码网络进行编码处理，并结合编码处理获得的信息选出一个矩形区域，利用矩形区域对所述第一增强图像中相应位置区域进行遮盖，将遮盖后的第一增强图像输入至第一子网络，由所述第一子网络中的第一编码网络进行编码处理。

具体地，第二增强图像被分割为N×N个图像块，称为N×N个第二图像块，每个第二图像块都会被线性映射为一个token（即维度固定的向量），得到N×N个图像块token，称作第二图像块token。另外，和原始的ViT网络一样，附加一个额外的向量（称作第二[CLS]token），它通过和所有图像块token进行交互来获取图像全局信息，以便后续进行全局特征提取。图像块token以及第二[CLS]token一同进入第二编码网络后通过自注意力机制进行交互和编码，最终第二编码网络输出的编码处理后的N×N个第二图像块token与第二[CLS]token，以及第二[CLS]token对应的自注意力图（此处的自注意力图即为自注意力机制计算产生的矩阵，可代表第二[CLS]token分别对N×N个图像块token的注意力大小）；在第二[CLS]token对应的自注意力图选择出一块矩形区域（包含若干图像块），并找到第一增强图像中对应的位置区域作为遮盖区域。值得说明的是，由于随机裁剪和翻转，两个增强图像的遮盖区域可能会有不同的位置和大小，但它们大致都对应原图（即输入图像）中同一个区域。

类似的，第一增强图像被分割为N×N个的图像块，称为N×N个第一图像块，每个第一图像块也会被线性映射为一个token，得到N×N个图像块token，称作第一图像块token；并附加一个额外的向量（称作第一[CLS]token），与第一[CLS]token类似的，第一[CLS]token通过和所有第一图像块token进行交互来获取图像全局信息，以便后续进行全局特征提取。对遮盖区域进行遮盖操作，具体的遮盖操作为：将遮盖区域处的第一图像块对应的token替换为[MASK]token，后者是初始化为0的可学习嵌入向量，且维度和第一图像块token一致，编码时[MASK]token与所有第一图像块token进行交互。

第一增强图像经过遮盖操作后再输入至所述第一子网络，由所述第一子网络中的第一编码网络输出编码处理后的[MASK] token与第一[CLS]token。此处，第一编码网络输入包含所有第一图像块token（即未遮盖区域的第一图像块token）、[MASK]token（遮盖区域的图像块token）、第一[CLS]token，这样做的目的是：使得第一编码网络将未遮盖区域的第一图像块token和遮盖的图像块token（即[MASK] token）进行交互和编码，来更新[MASK]token的信息获得编码处理后的[MASK]token，从而预测出遮盖区域的特征，也就是从可见的部分来恢复（或者预测）出不可见部分的内容。同样的，也需要将未遮盖区域的第一图像块token和第一[CLS] token交互和编码，以便后续能够提取出全局图像特征。

本发明实施例中，在第二[CLS] token对应的自注意力图选择出一块矩形区域的优选实施方式如下：对自注意力图取平均值，得到平均自注意力图（尺寸为N×N）；根据设定的遮盖比例（例如30%），随机在所述平均自注意力图上生成N1个矩形框，并计算每个矩形框在自注意力图中对应的分数，分数越高表示相应矩形框区域的重要程度越高（关注度越高）；选出分数最高的N2个矩形框，并从中随机选取一个矩形框对应的矩形区域；其中，N1与N2均为正整数，且N1＞N2。作为举例，可以设置：N1=20，N2=2。

图2中的虚线箭头部分展示了利用第二子网络的自注意力图中选取矩形区域并对分割后的第一增强图像进行遮盖的示意。

3）利用第一编码网络输出的包含遮盖区域的编码结果生成第一图像块特征与第一全局特征；利用第二编码网络输出的编码结果生成第二图像块特征与第二全局特征；将同一输入图像对应的同类型特征作为一个正样本对，其他输入图像对应的同类型特征作为负样本，建立两个对比损失，结合两个对比损失训练所述视觉网络；其中，第一图像块特征与第二图像块特征为同类型特征，第一全局特征与第二全局特征为同类型特征。

具体的，选出矩形区域对应的编码处理后的第二图像块token并进行池化平均操作后，和编码处理后的第二[CLS]token分别经第二子网络中第二MLP映射头（即projector）映射为单位球空间内的向量，作为用于对比学习的特征，称为第二图像块特征与第二[CLS]特征，第二[CLS]特征为第二增强图像的全局特征，简称为第二全局特征；以及将编码处理后的所有 [MASK]token进行池化平均操作后，和编码处理后第一[CLS] token分别依次经第一子网络中第一MLP映射头以及训练时额外附加的MLP映射头（称作第三MLP映射头，它与第一MLP映射头结构完全一致）映射为单位球空间内的向量，作为用于对比学习的特征，称为第一图像块特征与第一[CLS]特征，第一[CLS]特征为第一增强图像的全局特征，简称为第一全局特征；将同一输入图像对应的同类型特征作为一个正样本对，其他输入图像对应的同类型特征作为负样本，建立两个对比损失（Contrastiveloss），结合两个对比损失训练所述视觉网络。

具体的：将同一输入图像对应的第一图像块特征与第二图像块特征作为一个正样本对，其他输入图像对应的第二图像块特征作为负样本，建立第一对比损失；将同一输入图像对应的第一[CLS]特征与第二[CLS]特征作为一个正样本对，其他输入图像对应的第二[CLS]特征作为负样本，建立第二对比损失，总的对比损失为两个对比损失之和。

为了增加loss函数中的负样本数目，设置了两个固定长度的存储队列用于存储历史特征，第一个存储队列用于存储之前得到的第一图像块特征与第二图像块特征，第二个存储队列用于存储之前得到的第一[CLS]特征和第二[CLS]特征。当有新的图像块特征与[CLS]特征生成后，它们就会进入对应的存储队列并替换掉存储队列里相对最早的一批特征。作为举例，可以设置每个存储队列长度为4096，即可以存储4096个历史特征。

第一对比损失与第二对比损失分别表示为：

其中，

表示第一对比损失，

表示第二对比损失；

与

表示同一输入图像对应的第一图像块特征与第二图像块特征，第一对比损失中的

表示第一个存储队列里存储的其他输入图像对应的第二图像块特征，第二对比损失中的

表示第二个存储队列里存储的其他输入图像对应的第二[CLS]特征；

与

表示同一输入图像对应的第一[CLS]特征与第二[CLS]特征，K+1即为每个存储队列的长度，i表示存储队列中的历史特征的序号；

为设定系数，一般设置为0.2。

此外，还引用了对称损失，所述对称损失是指将第一子网络与第二子网络输入的增强图像对调，并使用对比掩码图像建模的方法进行处理，即将分割后的第一增强图像输入至所述第二子网络，结合第二子网络编码处理获得的信息选出一个矩形区域对所述第二增强图像中相应位置区域进行遮盖再输入至第一子网络，将两个子网络的输出带入对比损失公式得到两部分损失，称为第一对称损失

和第二对称损失

。此处流程与前文介绍的流程完全一致，区别仅在于两个子网络输入的增强图像进行了调换，且对比损失和对称损失计算方式也是完全相同的，此处只是进行名称上的区分。

最终，总损失函数为

。

本发明实施例中，利用总损失函数训练视觉网络。具体的，训练视觉网络主要是优化所述第一子网络的参数，可以通过梯度下降更新所述第一子网络的参数，第二子网络不进行梯度计算（stop grad），而是根据更新后的第一子网络的参数，使用动量更新（EMA）的方式更新所述第二子网络的参数。此外，为了简单起见，图2中省略了对比学习中的负样本队列和对称损失。

3、网络迁移与图像分析。

本发明实施例中，通过前述步骤2完成第一子网络的训练后（例如，达到训练次数或者总损失函数收敛），取出训练后的第一子网络中的第一编码网络，并迁移至图像分析网络；将待分析图像输入至所述图像分析网络后通过所述训练后的第一编码网络进行编码，再利用编码结果进行图像分析。。

具体的，待分析图像输入至所述图像分析网络后通过所述第一编码网络进行编码主要是指，先将待分析图像以图像块的形式进行分割，假设分割为N×N个的图像块，将每个图像块都线性映射为一个token，获得N×N个图像块token，同时附加一个额外的向量（[CLS]token），N×N个图像块token与[CLS]token经过第一编码网络进行交互和编码，得到编码处理后的N×N个图像块token与[CLS]token即为编码结果。

为了保证迁移后第一编码网络的效果，将第一子网络中的第一编码网络迁移至图像分析网络后，根据图像分析网络及相关图像分析任务的类型，对所述第一编码网络进行微调；再利用微调后的第一编码网络对待分析图像进行编码，并应用于后续图像分析。

示例性的，可以ImageNet-1k数据集采用前述步骤2的方式训练第一子网络，在完成300个训练轮数的预训练后，可以取出其中的第一编码网络，迁移至指定的图像分析网络中并进行微调。

本领域技术人员可以理解，微调是本领域专有名字，它是指在原有参数基础上进行网络训练。

本发明实施例中，图像分析网络可以使用现有神经网络，例如：图像分析任务为图像分类任务时，可以根据需要选择相应的图像分类网络；图像分析任务为目标检测任务时，可以根据需要选择相应的目标检测网络；图像分析任务为语义分割任务时，可以根据需要选择相应的语义分割网络，本发明实施例不针对图像分析网络的具体结构形式进行限定，将第一编码网络迁移至图像分析网络后，可以作为特征提取的主干网络，并按照图像分析网络原有工作流程实现相关的图像分类任务。

本发明实施例提供的以上方案中，可以更好的提取图像的表征，且训练过程更加高效，实验表明本发明在较少的训练轮数下就能在多个图像分析任务上达到更优的性能，实验结果如下表所示。

表1为不同的预训练方法在COCO数据集下进行目标检测与实例分割任务的表现。目标检测需要对图像中的物体预测出一个矩形框，实例分割需要对物体预测出一个像素级的轮廓。AP^bbox和AP^mask分别代表预测出的矩形框和像素级轮廓的准确程度。这些指标越大就说明预测出的结果越准确（50，75等数字代表交并比的百分比阈值，大于此值则判定为预测正确）。可以看出本发明的方法（Ours）在更少的训练开销下，就能达到更高的目标检测或实例分割的准确率，超过了之前基于对比学习或掩码图像建模的方法。

表1：不同的预训练方法在COCO数据集下进行目标检测与实例分割任务的表现

表2为不同的预训练方法在ImageNet-1K数据集下进行图像分类任务的表现。Top-1 acc即代表分类的准确率。可以看见本发明的方法在较少的训练开销下就能达到84.0%的分类准确度，超过了之前的方法。

表2：不同的预训练方法在ImageNet-1K数据集下进行图像分类任务的表现

表3为不同的预训练方法在ADE20K数据集下进行语义分割任务的表现。mIoU代表预测的分割图与实际标签的平均交并比，数值越大就代表分割地越准确。由表3可知，本发明的方法显著超过了基于实例判别的方法（MoCo v3），相比于之前的掩码图像建模方法，本发明的方法在更少的训练开销下就能取得更好或相近的性能。

表3：不同的预训练方法在ADE20K数据集下进行语义分割任务的表现

公平起见，以上3个表格内的所有方法均采用ViT-B模型（它是现有的网络模型）作为主干网络，并且它们在具体的下游任务中所采用的图像分析网络和训练方法都是一致的。

以上3个表格中Pre-train data代表这些方法在预训练过程中所使用的数据集。IN-1K代表ImageNet-1K数据集，DALLE代表DALL-E项目所用的数据集。Pre-train epochs代表预训练的训练轮数。其中supervised DeiT代表传统的有监督训练，即在ImageNet-1K上进行有监督分类任务训练。SAAE为基于自编码器的自监督方法，即对图像编码后再对特征进行解码生成目标图片。MoCov3和DINO为基于对比学习的自监督方法，它们提取图像的全局特征后通过实例判别任务来进行训练。BEIT，iBOT，MaskFeat和MAE则为基于掩码图像建模的自监督方法，它们随机遮盖图像的一部分，然后利用ViT-B模型预测或重建出遮盖部分的每个像素或图像小块；iBOT*表示iBOT方法运用了multi-crop的技巧，即生成增强图像时，除了生成两个大分辨率的图像外还生成了很多个小分辨率的图像，这样操作显著增加了计算开销和训练时间。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种基于对比掩码图像建模的图像分析系统，其主要基于前述实施例提供的方法实现，如图3所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图4所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于对比掩码图像建模的图像分析方法，其特征在于，包括：

2.根据权利要求1所述的一种基于对比掩码图像建模的图像分析方法，其特征在于，所述将分割后的第二增强图像输入至所述第二子网络，由第二子网络中的第二编码网络进行编码处理，并结合编码处理获得的信息选出一个矩形区域包括：

第二增强图像分割为N×N个图像块，称为N×N个第二图像块，每个第二图像块均被线性映射为一个token，则有N×N个第二图像块token，token为维度固定的向量，同时，附加一个额外的向量，称作第二[CLS] token，编码时第二[CLS] token与所有第二图像块token进行交互；将N×N个第二图像块token与第二[CLS] token输入至第二子网络中的第二编码网络，通过自注意力机制进行交互和编码，输出编码处理后的N×N个第二图像块token与第二[CLS] token，以及第二[CLS] token对应的自注意力图；在第二[CLS] token对应的自注意力图选择出一块矩形区域。

3.根据权利要求2所述的一种基于对比掩码图像建模的图像分析方法，其特征在于，所述在第二[CLS] token对应的自注意力图选择出一块矩形区域包括：

对第二[CLS] token对应的自注意力图取平均值，得到平均自注意力图；根据设定的遮盖比例，随机在所述平均自注意力图上生成N1个矩形框，并计算每个矩形框在自注意力图中对应的分数，分数越高表示相应矩形框区域的重要程度越高；选出分数最高的N2个矩形框，并从中随机选取一个矩形框对应的矩形区域；其中，N1与N2均为正整数，且N1＞N2。

4.根据权利要求2或3所述的一种基于对比掩码图像建模的图像分析方法，其特征在于，所述利用矩形区域对所述第一增强图像中相应位置区域进行遮盖，将遮盖后的第一增强图像输入至第一子网络，由所述第一子网络中的第一编码网络进行编码处理包括：

第一增强图像分割为N×N个的图像块，称为N×N个第一图像块，每个第一图像块均被线性映射为一个token，则有N×N个第一图像块token，token为维度固定的向量，同时，附加一个额外的向量，称作第一[CLS] token，编码时第一[CLS] token与所有第一图像块token进行交互；

根据所述矩形区域找到第一增强图像中对应的位置区域作为遮盖区域，并进行遮盖操作：将遮盖区域处的第一图像块对应的token替换为[MASK] token，[MASK] token是初始化为0的嵌入向量，维度和第一图像块token一致，编码时[MASK] token与所有第一图像块token进行交互；

第一增强图像经过遮盖操作后再输入至所述第一子网络中的第一编码网络，通过自注意力机制进行交互和编码，输出编码处理后的[MASK] token与第一[CLS] token。

5.根据权利要求4所述的一种基于对比掩码图像建模的图像分析方法，其特征在于，利用第一编码网络输出的包含遮盖区域的编码结果生成第一图像块特征与第一全局特征；利用第二编码网络输出的编码结果生成第二图像块特征与第二全局特征包括：

将编码处理后的[MASK] token进行池化平均操作后，和编码处理后第一[CLS] token分别依次经第一子网络中第一MLP映射头以及训练时额外附加的第三MLP映射头映射为第一图像块特征与第一[CLS]特征，第一[CLS]特征为第一增强图像的全局特征，称为第一全局特征；

选出矩形区域对应的编码处理后的第二图像块token并进行池化平均操作后，和编码处理后的第二[CLS] token分别经第二子网络中第二MLP映射头映射为第二图像块特征与第二[CLS]特征，第二[CLS]特征为第二增强图像的全局特征，称为第二全局特征；

其中，MLP映射头为多层感知机。

6.根据权利要求1所述的一种基于对比掩码图像建模的图像分析方法，其特征在于，所述将同一输入图像对应的同类型特征作为一个正样本对，其他输入图像对应的特征作为负样本，建立两个对比损失，结合两个对比损失训练所述视觉网络包括：

将同一输入图像对应的第一图像块特征与第二图像块特征作为一个正样本对，其他输入图像对应的第二图像块特征作为负样本，建立第一对比损失，表示为：