CN117593215A

CN117593215A - 一种生成模型增强的大规模视觉预训练方法及系统

Info

Publication number: CN117593215A
Application number: CN202410077241.XA
Authority: CN
Inventors: 吴建龙; 李潇婕; 聂礼强; 张淼; 张民
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-02-23
Anticipated expiration: 2044-01-19
Also published as: CN117593215B

Abstract

本发明属于图像自监督预训练领域，为解决生成模型生成图像的准确性差的问题，提供一种生成模型增强的大规模视觉预训练方法及系统。其中，生成模型增强的大规模视觉预训练方法包括利用预训练的生成模型，自适应生成原始图像所对应的正视图；对原始图像和正视图进行数据增强，生成增强后的正样本对，使用预训练的图像编码器提取正样本对的特征表示；根据正样本对的特征表示，计算注意力掩码来分隔前景区域和背景区域；评估正样本对的质量来调整每个正样本对在训练生成模型过程中对整体损失的贡献，计算每个正样本对的重新加权因子，得到最终损失函数，以确定是否继续训练生成模型，其能够减轻低质量和错误图像对生成模型生成图像准确性的影响。

Description

一种生成模型增强的大规模视觉预训练方法及系统

技术领域

本发明属于图像自监督预训练领域，尤其涉及一种生成模型增强的大规模视觉预训练方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

自监督学习已经展示出在从丰富的未标记数据源中获取强大和广义的视觉表示方面具有卓越的能力。在自监督学习的各种方法中，对比学习已经成为一种杰出的方法，展示了其在众多下游任务中的有效性。对比学习旨在学习不变表示，通过最大化从样本的不同扭曲版本获得的表示之间的相似度来确保这些表示在各种条件或环境下保持一致，这些表示被称为正视图。因此，构建高质量的正视图对于对比学习至关重要。高质量的正视图应该保留原始图像的语义，同时引入尽可能多的与语义无关的属性多样性和环境变化，以便学到的表示更具通用性，可用于下游任务。

目前的对比学习方法通常在同一实例上使用预定义的图像增强（例如随机裁剪、颜色扭曲和高斯模糊）来获得正视图。然而，目前的对比学习方法面临两个限制：

（1）有限多样性，标准增强仅修改表面级的视觉特征，未能引入高级变化的新内容，例如不同的对象视角、纹理或语义类别内的变化。这个限制阻碍了在具有高内部类别多样性的领域中的性能；

（2）假正对风险，激进的增强并不总是精确的，可能导致假正样本对。如图1中的（a）所示，远距离区域的随机裁剪可能会漏掉整个对象，这可能会误导表示学习，因为它会在嵌入空间中最小化对象和背景之间的距离。此外，如图1中的（b）所示，裁剪附近的区域可能未能引入足够的对象变化，从而以另一种方式限制了多样性。为了解决该问题，例如保持任务相关特征的情况下使用更强大数据增强、基于显著性检测的采样和中心抑制采样，以创建信息丰富的正样本对，也有技术方案通过利用整个训练数据集的信息来扩展正样本对的多样性。然而，这些方法只关注于优化实例内的正视图，而不引入新的内容，从而降低了生成模型生成图像的准确性。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种生成模型增强的大规模视觉预训练方法及系统，其能够增强高质量正样本对的贡献，并减轻低质量和错误图像对生成模型生成图像准确性的影响。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种生成模型增强的大规模视觉预训练方法。

一种生成模型增强的大规模视觉预训练方法，其包括：

利用预训练的生成模型，自适应生成原始图像所对应的正视图；其中，生成模型包括预训练的图像编码器和扩散生成器，图像编码器用于提取原始图像的嵌入特征和潜在特征，扩散生成器用于根据图像编码器提取的特征自适应生成原始图像所对应的正视；

对原始图像和正视图进行数据增强，生成增强后的正样本对，再使用预训练的图像编码器提取增强后的正样本对的特征表示；

根据正样本对的特征表示，计算注意力掩码来分隔前景区域和背景区域；

计算前景区域之间的相似性和背景区域之间相似性，评估出正样本对的质量，以在生成模型训练过程中来调整每个正样本对在对比损失函数的贡献；

根据每个正样本对在对比损失函数的贡献，计算每个正样本对的重新加权因子，基于重新加权因子与对比损失函数加权，得到最终的损失函数，以用来确定是否继续训练生成模型。

作为一种实施方式，自适应生成原始图像所对应的正视图的过程为：

对原始图像的潜在特征进行处理，生成包含前景和背景的注意力图；

根据注意力图，计算前景区域的比例并将该比例映射施加到原始图像的嵌入特征的噪声水平上，得到带有噪声嵌入特征；

利用预训练的扩散生成器及带有噪声嵌入特征，通过逐步去噪的方式生成多样性的正视图。

作为一种实施方式，对原始图像的潜在特征进行处理的过程包括：

对原始图像的所有潜在特征执行主成分分析，并获得第一个主成分；

应用最小-最大归一化第一个主成分，生成注意力图。

作为一种实施方式，采用余弦相似性来计算前景区域之间的相似性和背景区域之间相似性。

作为一种实施方式，使用Softmax函数结合每个正样本对在训练生成模型过程中对整体损失的贡献，计算重新加权因子。

本发明的第二个方面提供一种生成模型增强的大规模视觉预训练系统。

一种生成模型增强的大规模视觉预训练系统，其包括：

正视图生成模块，其用于利用预训练的生成模型，自适应生成原始图像所对应的正视图；其中，生成模型包括预训练的图像编码器和扩散生成器，图像编码器用于提取原始图像的嵌入特征和潜在特征，扩散生成器用于根据图像编码器提取的特征自适应生成原始图像所对应的正视图；

特征表示模块，其用于对原始图像和正视图进行数据增强，生成增强后的正样本对，再使用预训练的图像编码器提取增强后的正样本对的特征表示；

区域分割模块，其用于根据正样本对的特征表示，计算注意力掩码来分隔前景区域和背景区域；

贡献调整模块，其用于计算前景区域之间的相似性和背景区域之间相似性，评估出正样本对的质量，以在生成模型训练过程中来调整每个正样本对在对比损失函数的贡献；

对比损失函数确定模块，其用于根据每个正样本对在对比损失函数的贡献，计算每个正样本对的重新加权因子，基于重新加权因子与对比损失函数加权，得到最终的损失函数，以用来确定是否继续训练生成模型。

作为一种实施方式，所述正视图生成模块包括：

注意力图生成模块，其用于对原始图像的潜在特征进行处理，生成包含前景和背景的注意力图；

带有噪声嵌入特征计算模块，其用于根据注意力图，计算前景区域的比例并将该比例映射施加到原始图像的嵌入特征的噪声水平上，得到带有噪声嵌入特征；

逐步去噪模块，其用于利用预训练的扩散生成器及带有噪声嵌入特征，通过逐步去噪的方式生成多样性的正视图。

作为一种实施方式，在所述注意力图生成模块中，对原始图像的潜在特征进行处理的过程包括：

应用最小-最大归一化第一个主成分，生成注意力图。

作为一种实施方式，在所述贡献调整模块中，采用余弦相似性来计算前景区域之间的相似性和背景区域之间相似性。

作为一种实施方式，在所述对比损失函数确定模块中，使用Softmax函数结合每个正样本对在训练生成模型过程中对整体损失的贡献，计算重新加权因子。

与现有技术相比，本发明的有益效果是：

（1）针对正样本对的多样性问题，本发明利用预训练的图像编码器提取原始图像的嵌入特征和潜在特征，再结合预训练的扩散生成器自适应生成原始图像所对应的正视图，解决了传统基于增强的正样本对可能导致多样性不足的问题，确保了正样本对之间具有一定的多样性，有利用模型更好地学习特征。

（2）针对前景主体语义的保留问题，本发明引入了自适应视图生成方法，通过对原始图像的潜在特征进行处理，再将前景区域的比例映射施加到原始图像的嵌入特征的噪声水平上，动态调整生成模型的噪声水平，以在多样性和语义保真度之间取得平衡，确保了正样本对既具有多样性又保留了前景主体语义一致。

（3）针对生成模型或随机裁剪的人工数据增强带来的低质量正样本对的问题，本发明引入了质量驱动的对比损失，用于评估正样本对的质量，考虑了前景相似性和背景多样性，以指导对比学习，从而增强了高质量正样本对的贡献，并减轻低了质量和错误图像对生成模型的影响。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是标准数据增强与本发明实施例所提出的方法构建的样本对的差异；

图2是本发明实施例的生成模型增强的大规模视觉预训练方法流程图；

图3是本发明实施例的自适应视图生成机制。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

生成模型增强的大规模视觉预训练方法是一个自监督学习框架，旨在提高自监督学习视图的质量以增强模型的性能。其核心架构分为两个关键阶段，如图2所示：

首先，通过自适应视图生成阶段，自监督学习框架利用冻结的CLIP图像编码器和预训练的稳定扩散生成器来生成多样性的正视图，从而增加正样本对的多样性。这一阶段包括使用CLIP图像编码器提取原始图像的嵌入和潜在特征，然后通过处理潜在特征生成前景和背景的注意力图。根据前景区域的比例，动态调整噪声扰动的强度，并结合噪声扰动和权重，生成多样性的正视图。

接下来，自监督学习框架进行质量驱动的对比损失训练。在这个阶段，生成的正视图与原始图像形成正样本对，然后通过对比损失进行训练，以引导模型学习更好的特征表示。这一阶段包括对每个原始图像和其对应的正视图应用数据增强，使用预训练编码器提取正样本对的特征表示，并计算注意力掩码，以便评估图像的前景和背景相似性。然后，计算图像对的质量分数，用于指导对比损失的重新加权，重点关注高质量正样本对。

需要强调的是，本自监督学习框架中的编码器可以是相同的，也可以是不同的，例如，可以使用编码器和其动量更新版本。此外，所有预训练的CLIP编码器和稳定扩散生成器都未访问用于自监督学习的数据集，确保了其独立性和通用性。通过以上步骤，本框架旨在提高自监督学习视图质量，并引导模型更好地学习特征表示，从而在各种下游任务中实现更好的性能。

自监督学习框架通过为每个图像实例在一个包含n张图像的批次/>中创建正样本对/>来生成这些对。这些正样本对是通过对相同实例应用随机数据增强来生成的，其中/>是从/>获得的，/>是从/>获得的。这些增强，/>和/>，可以来自相同的数据增强分布/>或来自不同的分布/>。然后，编码器网络/>被应用于/>以提取表示，得到/>。这些表示通过两层非线性投影头进行投影到嵌入空间，表示为/>。另外，/>可以使用与/>相同的编码器和投影头进行编码，也可以使用它们的动量更新版本。

各种自监督学习框架，包括SimCLR和MoCo，使用噪声对比估计目标来区分实例，公式如下：

其中是温度参数。此外，像BYOL和SimSiam这样的方法引入了非线性预测头/>，将/>映射到/>，通过最小化负余弦相似性/>来训练，公式如下：

SwAV采用线性映射将正样本嵌入和/>到学习到的两组聚类簇/>和/>，并使用Sinkhorn-Knopp（SK）步骤对目标特征进行转换。然后计算Kullback-Leibler散度损失，如下所示：

在实验中，将在所有这些流行的自监督学习方法上集成本发明的自监督预训练模型（GenView）中，以测试其通用性。

实施例一

本实施例提供了一种生成模型增强的大规模视觉预训练方法，其具体包括如下步骤：

步骤1：使利用预训练的生成模型，自适应生成原始图像所对应的正视图；其中，生成模型包括预训练的图像编码器和扩散生成器，图像编码器用于提取原始图像的嵌入特征和潜在特征，扩散生成器用于根据图像编码器提取的特征自适应生成原始图像所对应的正视。

给定一个条件图像，使用预训练的CLIP图像编码器/>来提取图像的潜在特征，其中/>和/>分别表示特征的高度、宽度和通道数量。

在具体实施过程中，自适应生成原始图像所对应的正视图的过程为：

步骤1.1：对原始图像的潜在特征进行处理，生成包含前景和背景的注意力图。

在一些可选实施例中，对原始图像的潜在特征进行处理的过程包括：

应用最小-最大归一化第一个主成分，生成注意力图。其中较高的值表示更可能是前景内容。

此处需要说明的是，在另一些实施例中，可采用类激活映射 (Class ActivationMapping, CAM)、梯度加权类激活映射 (Gradient-weighted Class Activation Mapping,Grad-CAM)、注意力机制(Attention Mechanism)等方法，生成注意力图。

步骤1.2：根据注意力图，计算前景区域的比例并将该比例映射施加到原始图像的嵌入特征的噪声水平上，得到带有噪声嵌入特征。

前景内容的比例可以通过下面的公式计算：

其中表示使用/>作为阈值的二值化阈值函数。为了将前景比例映射到施加到图像嵌入的噪声水平/>，引入了函数/>将前景比率/>的范围分为5个间隔，将不同间隔的值映射到离散的噪声水平上：{0, 100, 200, 300, 400}。自适应噪声水平/>计算如下：

其中向下舍入到最近的整数。本实施例的该方法根据图像的特性调整噪声水平，有效平衡了语义保真度和生成图像多样性之间。如图3所示，所选的噪声水平对于前景比例较低的图像较低，以更好地保留其语义内容，而对于前景比例较高的图像，采用较高的噪声水平以引入更多多样性，因为关键主体不太可能在生成的图像中发生变化或消失。

步骤1.3：利用预训练的扩散生成器及带有噪声嵌入特征，通过逐步去噪的方式生成多样性的正视图。

在图像生成的阶段，首先随机采样一个正态分布，其中/>表示生成过程的去噪步数。使用一个预训练的扩散生成器/>根据带有噪声的图像嵌入，通过逐步去噪的方式生成图像。生成的正视图可以定义为：

其中表示Stable Diffusion模型的预训练参数，/>表示从CLIP图像编码器获得的条件图像嵌入，即/>。最后，通过对原始图像应用手动设计的数据增强（对于原始图像采用/>，对于生成的图像采用/>或/>），创建了增强的正视图对/>：

步骤2：对原始图像和正视图进行数据增强，生成增强后的正样本对，再使用预训练的图像编码器提取增强后的正样本对的特征表示。

给定一对正视图，使用由CLIP预训练的冻结的编码器/>来提取特征图。

步骤3：根据正样本对的特征表示，计算注意力掩码来分隔前景区域和背景区域。

对特征图执行主成分分析（PCA），并对PCA特征的第一个分量应用最小-最大规范化来生成前景注意力图。第/>个样本的背景激活图定义为/>。随后，使用这些图将特征图聚合为前景和背景特征，得到/>，计算方式如下：

其中操作表示空间聚合，定义为：

。

步骤4：计算前景区域之间的相似性和背景区域之间相似性，评估出正样本对的质量，以在生成模型训练过程中来调整每个正样本对在对比损失函数的贡献。

在本实施例中，采用余弦相似性来计算前景区域之间的相似性和背景区域之间相似性。

计算前景-前景相似性和背景-背景相似性/>如下：

其中表示计算两个输入表征的余弦相似性。

为每对正视图引入一个质量分数：

步骤5：根据每个正样本对在对比损失函数的贡献，计算每个正样本对的重新加权因子，基于重新加权因子与对比损失函数加权，得到最终的损失函数，以用来确定是否继续训练生成模型。

例如，使用Softmax函数结合每个正样本对在训练生成模型过程中对整体损失的贡献，计算重新加权因子。

重新加权因子可以用于平衡不同正样本对的影响，能够优先考虑具有更高前景相似性和更低背景相似性的正样本对，并且减轻低质量或错误正样本对可能带来的潜在影响。最终的损失函数，为对比损失，其定义为：

其中可以是/>中的任何对比损失。

本发明的生成模型增强的大规模视觉预训练方法与其他自监督预训练算法结合后在ImageNet数据集进行Linear Probe（测试预训练模型性能）任务上的Top 1准确率（%），如表1所示。

设本发明实施例的自监督预训练模型为GenView，其基于预训练生成模型自适应生成视图并使用质量驱动的对比损失函数调整每个正样本对对损失函数的贡献。

在表1中，Top 1准确率是指其中在一个分类任务中，如果模型预测的最可能的一个分类（即概率最高的那个类别）与真实的类别相匹配，那么就认为这个预测是正确的。Top1准确率就是所有预测中正确预测的比例。"Linear Probe"是一种评估技术，用于测试预训练模型的特征提取能力。

在这种方法中，在已训练好的模型上添加一个简单的线性分类器，仅训练这个分类器而保持模型的其他部分不变。通过评估这个线性分类器在特定任务上的表现，可以判断模型学习到的特征的有效性。如果Linear Probe表现良好，表明模型捕捉到了有用的特征，可用于多种下游任务。

表1 测试预训练模型性能对比

表1中结合的自监督预训练算法框架有以下几种：

MoCo (Momentum Contrast for Unsupervised Visual RepresentationLearning)：MoCo 是一个自监督学习框架，专用于无监督视觉表示学习。它依靠动量更新机制来构建和更新一个动态特征字典，通过正负样本对的对比学习来优化特征表示。这种方法在无标签数据上的特征提取方面表现卓越，尤其适用于图像分类任务。

MoCov2（Improved Baselines with Momentum Contrastive Learning）：作为MoCo 的改进版，MoCov2 在自监督视觉表示学习方面引入了更有效的数据增强技术。它通过动态字典和基于动量的编码器来保持表示的一致性，提升了模型在无标签数据上的理解能力和特征表现。

SwAV（Unsupervised Learning of Visual Features by Contrasting ClusterAssignments）：SwAV 利用自监督学习来获取高质量的图像表示。它通过在同一图像的不同视图间交换聚类分配，运用在线聚类技术映射视图到原型集合，实现视图间的间接一致性。

SimSiam（Exploring simple siamese representation learning）：SimSiam 是一个简单的孪生网络自监督学习框架，通过处理同一图像的不同增强版本而无需负样本对。它利用两个并行网络和一个预测头最小化两个表示之间的差异，从而有效学习图像特征。

BYOL（Bootstrap your own latent: A new approach to self-supervisedLearning）：BYOL 通过自引导方式学习隐含特征表示。它采用在线网络和目标网络处理不同视图的图像，其中目标网络参数是在线网络参数的移动平均，实现了在无负样本对的情况下的有效学习。

MoCov3（An Empirical Study of Training Self-Supervised VisionTransformers）：作为 MoCo 系列的最新迭代，MoCov3 在无监督视觉表示学习中进一步提升了性能。它继承了 MoCov2 的主要特点，同时引入了更高效的训练方法和改进的数据增强策略，更高效地从无标签数据中学习特征。

本发明实施例的生成模型增强的大规模视觉预训练算法框架（GenView）是一个通用框架，可以与各种自监督预训练框架和相关训练组件（如骨干网络、损失函数和优化器）结合使用，可与不同的自监督预训练方法集成，并为研究人员提供了更大的自由度；而且在不同的网络架构上都提高了自监督学习性能，包括ResNet-50和Transformer架构（ViT-S和ViT-B）。它不仅适用于传统的卷积神经网络，还适用于最新的Transformer架构，这表明其在不同类型的模型上都有效。

本发明实施例的生成模型增强的大规模视觉预训练算法框架的性能在不同的预训练时长下保持一致，在与MoCov3的预训练中，不论是100个还是300个训练轮次的情况下都表现出色，通过改善自监督学习的训练质量，改善了线性分类性能，并在多个任务和数据集上都取得了显著的成功。

本实施例为了提高正视图的多样性，通过扩散过程向条件图像嵌入注入高斯噪声扰动，该过程将l步高斯噪声添加到条件图像嵌入中。扰动强度的值越高，最终图像的多样性越大。为了解决不合适噪声水平造成的生成的图像多样性不足或者偏离原始图片语义的情况，本实施例提供了一种自适应视图生成方法，它根据前景内容的比例动态调整噪声水平，在确保一致的主体语义的同时引入了多样的正视图。

采用本发明实施例的生成模型增强的大规模视觉预训练方法所得到的生成模型，所生成的图像如图1中的（c）和（d）所示，其与图1中的（a）和（b）相比，生成图像的质量明显提升。本实施例的损失函数通过评估正样本对质量来引导对比学习，其优先考虑具有高前景相似性和低背景相似性的正样本对，从而促进模型学习具有鲁棒性和泛化性的特征表示。

实施例二

本实施例提供了一种生成模型增强的大规模视觉预训练系统，其具体包括如下模块：

（1）正视图生成模块，其用于利用预训练的生成模型，自适应生成原始图像所对应的正视图；其中，生成模型包括预训练的图像编码器和扩散生成器，图像编码器用于提取原始图像的嵌入特征和潜在特征，扩散生成器用于根据图像编码器提取的特征自适应生成原始图像所对应的正视。

在具体实施过程中，所述正视图生成模块包括：

（1.1）注意力图生成模块，其用于对原始图像的潜在特征进行处理，生成包含前景和背景的注意力图。

在一些实施例中，在所述注意力图生成模块中，对原始图像的潜在特征进行处理的过程包括：

应用最小-最大归一化第一个主成分，生成注意力图。

（1.2）带有噪声嵌入特征计算模块，其用于根据注意力图，计算前景区域的比例并将该比例映射施加到原始图像的嵌入特征的噪声水平上，得到带有噪声嵌入特征。

（1.3）逐步去噪模块，其用于利用预训练的扩散生成器及带有噪声嵌入特征，通过逐步去噪的方式生成多样性的正视图。

（2）特征表示模块，其用于对原始图像和正视图进行数据增强，生成增强后的正样本对，再使用预训练的图像编码器提取增强后的正样本对的特征表示。

（3）区域分割模块，其用于根据正样本对的特征表示，计算注意力掩码来分隔前景区域和背景区域。

（4）贡献调整模块，其用于计算前景区域之间的相似性和背景区域之间相似性，评估出正样本对的质量，以在生成模型训练过程中来调整每个正样本对在对比损失函数的贡献。

在具体实施过程中，在所述贡献调整模块中，采用余弦相似性来计算前景区域之间的相似性和背景区域之间相似性。

（5）对比损失函数确定模块，其用于根据每个正样本对在对比损失函数的贡献，计算每个正样本对的重新加权因子，基于重新加权因子与对比损失函数加权，得到最终的损失函数，以用来确定是否继续训练生成模型。

在具体实施过程中，在所述对比损失函数确定模块中，使用Softmax函数结合每个正样本对在训练生成模型过程中对整体损失的贡献，计算重新加权因子。

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

本发明是参照本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生成模型增强的大规模视觉预训练方法，其特征在于，包括：

2.如权利要求1所述的生成模型增强的大规模视觉预训练方法，其特征在于，自适应生成原始图像所对应的正视图的过程为：

3.如权利要求2所述的生成模型增强的大规模视觉预训练方法，其特征在于，对原始图像的潜在特征进行处理的过程包括：

应用最小-最大归一化第一个主成分，生成注意力图。

4.如权利要求1所述的生成模型增强的大规模视觉预训练方法，其特征在于，采用余弦相似性来计算前景区域之间的相似性和背景区域之间相似性。

5.如权利要求1所述的生成模型增强的大规模视觉预训练方法，其特征在于，使用Softmax函数结合每个正样本对在训练生成模型过程中对整体损失的贡献，计算重新加权因子。

6.一种生成模型增强的大规模视觉预训练系统，其特征在于，包括：

正视图生成模块，其用于利用预训练的生成模型，自适应生成原始图像所对应的正视图；其中，生成模型包括预训练的图像编码器和扩散生成器，图像编码器用于提取原始图像的嵌入特征和潜在特征，扩散生成器用于根据图像编码器提取的特征自适应生成原始图像所对应的正视；

7.如权利要求6所述的生成模型增强的大规模视觉预训练系统，其特征在于，所述正视图生成模块包括：

8.如权利要求7所述的生成模型增强的大规模视觉预训练系统，其特征在于，在所述注意力图生成模块中，对原始图像的潜在特征进行处理的过程包括：

应用最小-最大归一化第一个主成分，生成注意力图。

9.如权利要求6所述的生成模型增强的大规模视觉预训练系统，其特征在于，在所述贡献调整模块中，采用余弦相似性来计算前景区域之间的相似性和背景区域之间相似性。

10.如权利要求6所述的生成模型增强的大规模视觉预训练系统，其特征在于，在所述对比损失函数确定模块中，使用Softmax函数结合每个正样本对在训练生成模型过程中对整体损失的贡献，计算重新加权因子。