CN116310667A

CN116310667A - 联合对比损失和重建损失的自监督视觉表征学习方法

Info

Publication number: CN116310667A
Application number: CN202310542990.0A
Authority: CN
Inventors: 王耀威; 李鑫; 郑伟诗; 高义朋; 严俊楷
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-06-23
Anticipated expiration: 2043-05-15
Also published as: CN116310667B

Abstract

本申请实施例提供了联合对比损失和重建损失的自监督视觉表征学习方法及装置、存储介质，通过深度编码教师网络和深度编码学生网络根据原始输入图像构建蒸馏损失，以学习具有判别特性的特征；在深度编码学生网络的输出特征之上，添加解码网络用于重建原始输入图像，并构建了重建损失，以学习具有复原特性的特征；深度编码教师网络使用最后一层原始特征的自注意力图，计算自适应权重以调整蒸馏损失与重建损失的作用。本申请实施例中，通过构建蒸馏损失和重建损失以实现对于两种类型损失的联合优化，使得在相同的训练代价下所训练得到的深度编码教师网络和深度编码学生网络兼具良好判别能力和信息表征能力，有利于提高图像表征的全面性和泛化性。

Description

联合对比损失和重建损失的自监督视觉表征学习方法

技术领域

本申请涉及人工智能技术领域，尤其涉及一种联合对比损失和重建损失的自监督视觉表征学习方法及装置、存储介质。

背景技术

随着通用人工智能技术的发展与应用场景对于模型快速部署需求的加剧，通用高性能视觉基础表征的需求变得越来越迫切，用于通用视觉表征学习的数据需求也在不断增长。目前，行业中已经存在通用视觉表征模型的训练方法，这类方法虽然能够实现对于通用视觉表征模型的自监督训练，但是只单一地专注于捕捉不同样本图像之间的判别信息，或是图像的复原信息，难以学习得到兼顾判别特性和信息复原特性的图像表征，这限制了所学图像表征的全面性和泛化性。因此，如何提高图像表征的全面性和泛化性，成为了亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提出一种联合对比损失和重建损失的自监督视觉表征学习方法及装置、存储介质，旨在提高图像表征的全面性和泛化性。

为实现上述目的，本申请实施例的第一方面提出了一种联合对比损失和重建损失的自监督视觉表征学习方法，包括：

通过深度编码教师网络提取第一图像的特征，以及通过深度编码学生网络提取第二图像的特征，其中，所述第二图像为对所述第一图像进行掩码得到；

根据所述第一图像的特征生成所述第一图像的自注意力图，并且根据所述自注意力图确定平衡权重参数和重建权重参数；

根据所述第一图像的特征、所述第二图像的特征和所述平衡权重参数构建自蒸馏损失函数，以及根据所述第一图像的特征、所述平衡权重参数和所述重建权重参数构建掩码重建损失函数；

根据所述自蒸馏损失函数、所述掩码重建损失函数和预设的函数权重参数，生成联合优化损失函数；

根据所述联合优化损失函数对所述深度编码教师网络和所述深度编码学生网络进行优化。

在一些实施例中，所述第一图像的特征包括若干原始图像特征组，每个原始图像特征组包括第一局部特征和第一类别令牌，所述第一局部特征对应于所述第一类别令牌；

所述根据所述第一图像的特征生成所述第一图像的自注意力图，包括：

基于多头自注意力机制分别生成各个所述原始图像特征组对应的自注意力图。

在一些实施例中，所述根据所述自注意力图确定平衡权重参数，包括：

根据所有所述自注意力图确定所有掩码区域对应的所述自注意力图，并计算所有掩码区域对应的所述自注意力图与所有所述自注意力图之比，得到平衡权重参数。

在一些实施例中，所述根据所述自注意力图确定重建权重参数，包括：

根据所有所述自注意力图确定所有掩码区域对应的所述自注意力图；

对于每个所述掩码区域，计算每个所述掩码区域对应的所述自注意力图与所有所述掩码区域对应的自注意力图之比，得到重建权重参数。

在一些实施例中，所述第二图像的特征包括若干掩码图像特征组，每个掩码图像特征组包括第二局部特征和第二类别令牌，所述第二局部特征对应于所述第二类别令牌；

所述根据所述第一图像的特征、所述第二图像的特征和所述平衡权重参数构建自蒸馏损失函数，包括：

通过所述深度编码学生网络对应的鉴别器对各个所述第一类别令牌和所述第二类别令牌进行映射，得到映射结果，其中，所述鉴别器至少包括两层全连接神经网络；

根据所述映射结果和所述平衡权重参数，得到自蒸馏损失函数。

在一些实施例中，所述根据所述第一图像的特征、所述平衡权重参数和所述重建权重参数构建掩码重建损失函数，包括：

通过所述深度编码学生网络对应的解码器分别对各个所述第一局部特征进行采样，得到多个采样结果，其中，所述解码器包括卷积神经网络；

对多个所述采样结果、所述平衡权重参数和所述重建权重参数进行加权计算，得到掩码重建损失函数。

在一些实施例中，所述根据所述联合优化损失函数对所述深度编码教师网络和所述深度编码学生网络进行优化，包括：

采用反向传播算法，根据所述联合优化损失函数对所述深度编码学生网络以及对应于所述深度编码学生网络的鉴别器和解码器，进行端到端优化。

在一些实施例中，所述根据所述联合优化损失函数对所述深度编码教师网络和所述深度编码学生网络进行优化，还包括：

根据经过所述端到端优化的所述深度编码学生网络，采用加权平均策略对所述深度编码教师网络进行更新。

为实现上述目的，本申请实施例的第二方面提出了一种自监督视觉表征学习装置，包括至少一个处理器和用于与所述至少一个处理器通信连接的存储器；所述存储器存储有能够被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述第一方面所述的自监督视觉表征学习方法。

为实现上述目的，本申请实施例的第三方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如上述第一方面所述的自监督视觉表征学习方法。

本申请提出的联合对比损失和重建损失的自监督视觉表征学习方法及装置、存储介质,通过提取原始图像特征和掩码图像特征以提升对于图像数据的使用效率，进而基于局部自注意力感知对深度编码教师网络和深度编码学生网络进行无监督训练，在确定平衡权重参数和重建权重参数的情况下，通过构建用于平衡获取判别能力的自蒸馏损失函数和用于获取更低级语义信息的掩码重建损失函数，以实现对于两种类型损失的联合优化，使得在相同的训练代价下所训练得到的深度编码教师网络和深度编码学生网络兼具良好判别能力和信息表征能力，以优化通用视觉表征模型的应用性能，有利于提高图像表征的全面性和泛化性。

附图说明

图1是本申请一个实施例提供的联合对比损失和重建损失的自监督视觉表征学习方法的流程图；

图2是图1中的步骤S102的一个流程图；

图3是图1中的步骤S102的另一个流程图；

图4是图1中的步骤S102的另一个流程图；

图5是图1中的步骤S103的一个流程图；

图6是图1中的步骤S103的另一个流程图；

图7是图1中的步骤S105的一个流程图；

图8是图1中的步骤S105的另一个流程图；

图9是本申请一个实施例提供的联合对比损失和重建损失的自监督视觉表征学习方法的原理示意图；

图10是本申请一个实施例提供的自监督视觉表征学习装置的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以用不同于装置中的模块划分，或流程图中的顺序执行所示或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是用于描述本申请实施例，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

教师-学生自监督学习网络:即teacher-student网络,属于迁移学习的一种类型。迁移学习即为将一个模型的性能迁移到另一个模型上，对于教师-学生网络，教师网络往往是一个更加复杂的网络，具有非常好的性能和泛化能力，可以用这个网络作为一个softtarget来指导另外一个更加简单的学生网络进行学习，使得更加简单、参数运算量更少的学生网络也能够具有和教师网络相近的性能，在本申请中用于实现自监督对比学习框架。

随着通用人工智能技术的发展与应用场景对于模型快速部署需求的加剧，通用高性能视觉基础表征的需求变得越来越迫切，用于通用视觉表征学习的数据需求也在不断增长。近年来，行业中已经出现较为成熟的自监督预训练方法，但是其仍然存在一些问题，例如：一种方法是基于自蒸馏的对比学习算法，该类方法将来自于同一图片的两张不同数据增广样本分别输入到教师网络模型和学生网络模型，并最小化学生网络模型和教师网络模型输出的多元逻辑值(logit)的交叉熵损失，即强制学生网络模型的输出编码与教师网络模型的输出编码保持一致；通过在大量样本上训练，该类方法所训练的模型专注于捕获不同样本之间的判别性信息，但是对于样本其它信息的表征能力不足。另一种方法为图像重建，该类方法首先对一张图片的一些随机区域进行遮挡，然后训练一个网络模型依据未遮挡的部分对该图像进行复原，通过最小化复原图像与原图像像素级的差异来指导模型的训练，该方法所学习到的特征模型能够捕获像素级细微信息，但是弱化了模型对图像中判别信息的表征，也就是说，现有方法只单一地专注于捕捉不同样本图像之间的判别信息，或是图像的复原信息，难以学习得到兼顾判别特性和信息复原特性的图像表征，这限制了所学图像表征的全面性和泛化性。

基于此，本申请实施例提供了一种联合对比损失和重建损失的自监督视觉表征学习方法及装置、存储介质，旨在提高图像表征的全面性和泛化性。

本申请实施例提供的联合对比损失和重建损失的自监督视觉表征学习方法及装置、存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的联合对比损失和重建损失的自监督视觉表征学习方法。

本申请实施例提供的联合对比损失和重建损失的自监督视觉表征学习方法，涉及人工智能技术领域。本申请实施例提供的联合对比损失和重建损失的自监督视觉表征学习方法可应用于通信节点中，也可应用于服务器端中，还可以是运行于通信节点或服务器端中的软件。在一些实施例中，通信节点可以是智慧手机、平板计算机、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现联合对比损失和重建损失的自监督视觉表征学习方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可程序设计的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网路而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

图1是本申请实施例提供的联合对比损失和重建损失的自监督视觉表征学习方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S101至步骤S105。

步骤S101，通过深度编码教师网络提取第一图像的特征，以及通过深度编码学生网络提取第二图像的特征，其中，第二图像为对第一图像进行掩码得到；

步骤S102，根据第一图像的特征生成第一图像的自注意力图，并且根据自注意力图确定平衡权重参数和重建权重参数；

步骤S103，根据第一图像的特征、第二图像的特征和平衡权重参数构建自蒸馏损失函数，以及根据第一图像的特征、平衡权重参数和重建权重参数构建掩码重建损失函数；

步骤S104，根据自蒸馏损失函数、掩码重建损失函数和预设的函数权重参数，生成联合优化损失函数；

步骤S105，根据联合优化损失函数对深度编码教师网络和深度编码学生网络进行优化。

本申请实施例所示意的步骤S101至步骤S105，通过提取原始图像特征和掩码图像特征以提升对于图像数据的使用效率，进而基于局部自注意力感知对深度编码教师网络和深度编码学生网络进行无监督训练，在确定平衡权重参数和重建权重参数的情况下，通过构建用于平衡获取判别能力的自蒸馏损失函数和用于获取更低级语义信息的掩码重建损失函数，以实现对于两种类型损失的联合优化，使得在相同的训练代价下所训练得到的深度编码教师网络和深度编码学生网络兼具良好判别能力和信息表征能力，以优化通用视觉表征模型的应用性能，有利于提高图像表征的全面性和泛化性。

需要说明的是，教师-学生自监督学习网络，即深度编码教师网络和深度编码学生网络，作为通用视觉表征模型的一种，在本实施例中主要对此进行描述，其他类似于本实施例的教师-学生自监督学习网络的通用视觉表征模型的相关实施方式，可以参照本实施例提供的联合对比损失和重建损失的自监督视觉表征学习方法，此处并未限制。

在一些实施例的步骤S101中，第一图像可以为输入的原始图像，第二图像可以为对输入的原始图像进行掩码处理后而得到的掩码图像，这样可以确保第一图像和第二图像形成区分，以便于为后续的模型训练做好准备；其中，第一图像的性质、内容均不作限制，可以根据具体应用场景进行选择设置，此处并未限制。

以下给出一个具体示例以说明上述步骤S101的工作原理。

示例一：

首先，编码器输入原始图像

，其中H和W分别是原始图像的高度和宽度，3为通道数，接着对/>

应用两种不同数据增强手段进行处理，分别得到/>

和

，同时随机生成掩码/>

，其中r代表掩码比率，“0”代表对应位置没有被掩码，“1”代表对应位置被掩盖掉并被替换成一个可学习的向量；并且通过对原始图像进行掩码的逻辑处理，得到掩码图像，例如可以为掩码图像/>

。

然后，采用深度编码教师网络

和深度编码学生网络/>

分别对原始图像/>

和掩码图像/>

进行特征提取，得到局部特征图/>

和/>

，以及局部特征图分别对应的类别令牌（class token）/>

和/>

，其中S为空域降采样倍数，C为通道数。

在一些实施例的步骤S102中，通过实现局部自注意力感知以生成第一图像的自注意力图，打破了标注数据受限的瓶颈，有利于提升图像数据的使用效率。

在一些实施例的步骤S104中，预设的函数权重参数用于表征掩码重建损失函数或自蒸馏损失函数在联合优化损失函数中的占比，该占比在不同应用场景中可以相应设置，即此处并未限制函数权重参数的具体取值。

以下给出一个具体示例以说明上述步骤S104的工作原理。

示例二：

对鉴别任务和掩码任务进行联合优化，即利用自蒸馏损失函数、掩码重建损失函数和预设的函数权重参数，生成联合优化损失函数，该联合优化损失函数如下式所示：

；

其中，

表示自蒸馏损失函数，/>

表示掩码重建损失函数，/>

表示掩码重建损失函数的权重。

请参阅图2，在一些实施例中，第一图像的特征包括若干原始图像特征组，每个原始图像特征组包括第一局部特征和第一类别令牌，第一局部特征对应于第一类别令牌，步骤S102中的“根据第一图像的特征生成第一图像的自注意力图”可以包括但不限于包括步骤S201：

步骤S201，基于多头自注意力机制分别生成各个原始图像特征组对应的自注意力图。

本步骤中，由于第一图像的特征包括若干原始图像特征组，每个原始图像特征组包括第一局部特征和第一类别令牌，第一局部特征对应于第一类别令牌，因此需要分别对各个原始图像特征组进行自注意力图的生成，所以考虑基于多头自注意力机制，根据多头自注意力机制中的头的数目来分别生成各个原始图像特征组对应的自注意力图，这样可以准确可靠地生成各个原始图像特征组对应的自注意力图，例如，在服务器接收到深度编码教师网络

提取到的局部特征图/>

和类别令牌/>

后，使用多头自注意力机制生成类别令牌和每一个局部特征的自注意力图，如下所示：

；

其中，K为多头自注意力机制中的头的数目，所得到的

包含/>

中的每一个局部特征/>

和类别令牌的自注意力图。

请参阅图3，在一些实施例中，步骤S102中的“根据自注意力图确定平衡权重参数”可以包括但不限于包括步骤S301至S302：

步骤S301，根据所有自注意力图确定所有掩码区域对应的自注意力图；

步骤S302，计算所有掩码区域对应的自注意力图与所有自注意力图之比，得到平衡权重参数。

本步骤中，通过确定所有掩码区域对应的自注意力图，以计算所有掩码区域对应的自注意力图与所有自注意力图之比，从而得到平衡权重参数，该平衡权重参数可以表征掩码区域在自注意力图中的占比，在该占比的指导下可以更有效地鉴别和重建任务，即对于得到的自注意力图，计算所有掩码区域对应的自注意力激活值占全部自注意力激活值的比例

，将该比例作为鉴别和重建任务的平衡权重，该权重计算方式如下所示：

。

在一些实施例的步骤S301中，可以从所有自注意力图中进行逐一筛选，以确定所有掩码区域对应的自注意力图。

请参阅图4，在一些实施例中，步骤S102中的“根据自注意力图确定重建权重参数”可以包括但不限于包括步骤S401至S402：

步骤S401，根据所有自注意力图确定所有掩码区域对应的自注意力图；

步骤S402，对于每个掩码区域，计算每个掩码区域对应的自注意力图与所有掩码区域对应的自注意力图之比，得到重建权重参数。

本步骤中，通过确定所有掩码区域对应的自注意力图，以计算每个掩码区域对应的自注意力图与所有掩码区域对应的自注意力图之比，从而得到每个掩码区域分别对应的重建权重参数，该重建权重参数可以表征每个掩码区域的自注意力图在所有掩码区域下的占比，通过重建权重参数可以指导对应掩码区域的重建权重，即对于每一个被掩码的区域，计算其自注意力图与所有掩码区域的自注意力图之间的比例，并将该比例作为对应掩码区域的重建权重，该权重计算如下所示：

。

在一些实施例的步骤S401中，可以从所有自注意力图中筛选以确定所有掩码区域对应的自注意力图。

在一些实施例的步骤S402中，对于非掩码区域，则在此不用为其考虑重建权重参数。

请参阅图5，在一些实施例中，第二图像的特征包括若干掩码图像特征组，每个掩码图像特征组包括第二局部特征和第二类别令牌，第二局部特征对应于第二类别令牌，步骤S103中的“根据第一图像的特征、第二图像的特征和平衡权重参数构建自蒸馏损失函数”可以包括但不限于包括步骤S501至S502：

步骤S501，通过深度编码学生网络对应的鉴别器对各个第一类别令牌和第二类别令牌进行映射，得到映射结果，其中，鉴别器至少包括两层全连接神经网络；

步骤S502，根据映射结果和平衡权重参数，得到自蒸馏损失函数。

本步骤中，通过预设的深度编码学生网络对应的鉴别器对各个第一类别令牌和第二类别令牌进行映射，以评估各个第一类别令牌和第二类别令牌所对应的损失值，在此基础上，再根据映射结果和平衡权重参数可以构建得到符合要求的自蒸馏损失函数，例如：使用包含两层全连接神经网络的鉴别器

对相应的类别令牌进行映射，并构造自蒸馏损失函数如下所示：

；

其中，

和/>

分别表示/>

和/>

的类别令牌，/>

表示交叉熵损失函数。

在一些实施例的步骤S501中，鉴别器可以为预先配置好的，鉴别器至少包括的两层全连接神经网络的具体结构可以根据实际场景进行设置，此处并未限制。

请参阅图6，在一些实施例中，步骤S103中的“根据第一图像的特征、平衡权重参数和重建权重参数构建掩码重建损失函数”可以包括但不限于包括步骤S601至S602：

步骤S601，通过深度编码学生网络对应的解码器分别对各个第一局部特征进行采样，得到多个采样结果，其中，解码器包括卷积神经网络；

步骤S602，对多个采样结果、平衡权重参数和重建权重参数进行加权计算，得到掩码重建损失函数。

本步骤中，通过预设的深度编码学生网络对应的解码器对第一局部特征进行采样，以实现对于第一局部特征的解码分析，例如进行上采样，然后对多个采样结果、平衡权重参数和重建权重参数进行加权计算，即通过可见的区域进行原图的重建，从而能够得到掩码重建损失函数，该掩码重建损失函数如下所示：

；

其中，

代表RGB原图，/>

表示对应的区域是否被掩码。

在一些实施例的步骤S601中，解码器可以为预先配置好的，解码器包括的卷积神经网络的具体结构可以根据实际场景进行设置，此处并未限制。

请参阅图7，在一些实施例中，步骤S105可以包括但不限于包括步骤S701：

步骤S701，采用反向传播算法，根据联合优化损失函数对深度编码学生网络以及对应于深度编码学生网络的鉴别器和解码器，进行端到端优化。

本步骤中，在深度编码学生网络的训练阶段，可以通过计算联合优化损失函数的值，采用反向传播算法对深度编码学生网络以及对应于深度编码学生网络的鉴别器和解码器，进行端到端优化，这样的优化方式较为全面，能够对深度编码学生网络以及对应于深度编码学生网络的鉴别器和解码器进行鉴别能力和信息复原能力的优化。

在一些实施例的步骤S701中，根据端到端优化的具体方式可以对深度编码学生网络以及对应于深度编码学生网络的鉴别器和解码器进行进一步地优化调整，可以由本领域技术人员根据具体应用场景进行选择设置，此处并未限制。

请参阅图8，在一些实施例中，步骤S105还可以包括但不限于包括步骤S702：

步骤S702，根据经过端到端优化的深度编码学生网络，采用加权平均策略对深度编码教师网络进行更新。

本步骤中，对深度编码学生网络进行优化更新之后，可以基于优化更新后的深度编码学生网络对深度编码教师网络进行更新，即采用加权平均策略对深度编码教师网络进行更新，使得深度编码教师网络能够进行鉴别能力和信息复原能力的优化。

在一些实施例的步骤S702中，加权平均策略具体可以为多种，此处并未限制，例如其可以为下式所示：

；

其中，

表示衰减比率。

为了更好地说明上述各实施例的工作原理，以下给出另一个示例进行说明。

示例三：

请参阅图9，图9是本申请实施例提供的联合对比损失和重建损失的自监督视觉表征学习方法的原理示意图。

如图9所示，首先，使用教师网络模型从未掩码的图片中提取原始特征，使用学生网络模型从掩码后的图片中提取掩码特征；然后，在训练优化模块中，使用编码网络最后一层的原始特征的自注意力图，结合随机生成的掩码,加权平均计算得到平衡权重参数和重建权重参数；对学生网络模型输出的掩码特征，同时输入包含卷积上采样模块的解码器和由两层全连接网络组成的鉴别器，并对重建损失和鉴别损失分别使用局部适应权重和平衡权重进行加权，即利用鉴别适应模块和生成适应模块计算得到自蒸馏损失和掩码重建损失，并使用反向传播算法计算梯度，进行端到端的网络模型联合优化；在相同的训练代价下，本实施例提出的联合优化手段能够同时使教师网络模型和学生网络模型兼具鉴别能力和信息复原能力，有利于提高图像表征的全面性和泛化性。

需要说明的是，由于该训练优化方法的相关实施例在前面已经详细描述，因此上述图9所示架构下的教师网络模型和学生网络模型的具体实施方式，可以参照前面实施例中的训练优化方法的具体实施方式，为避免冗余，对该部分具体实施方式在此不再赘述。

本申请的另一实施例还提供了一种自监督视觉表征学习装置，包括至少一个处理器和用于与至少一个处理器通信连接的存储器；存储器存储有能够被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上述实施例所示的联合对比损失和重建损失的自监督视觉表征学习方法。

请参阅图10，图10示意了另一实施例的训练优化装置的硬件结构，训练优化装置包括：

处理器901，可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

内存902，可以采用只读存储器（Read Only Memory，ROM）、静态存储设备、动态存储设备或者随机存取内存(Random Access Memory，RAM)等形式实现。内存902可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在内存902中，并由处理器901来调用执行本申请实施例的训练优化方法；

输入/输出接口903，用于实现信息输入及输出；

通信接口904，用于实现本设备与其他设备的通信交互，可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信；

总线905，在设备的各个组件（例如处理器901、内存902、输入/输出接口903和通信接口904）之间传输信息；

其中处理器901、内存902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。

内存作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序以及非瞬时性计算机可执行程序。此外，内存可以包括高速随机存取内存，还可以包括非瞬时内存，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态内存件。在一些实施方式中，内存可选包括相对于处理器远程设置的内存，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行如上述实施例所示的联合对比损失和重建损失的自监督视觉表征学习方法。

在一个典型的配置中，计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算机设备访问的信息。

本申请实施例描述的实施方式是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的装置、设备、计算机可读存储介质与方法是对应的，因此，装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备、计算机存储介质的有益技术效果。

本领域内的技术人员应明白，本申请实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。

以上所述仅为本申请实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种联合对比损失和重建损失的自监督视觉表征学习方法，其特征在于，包括：

2.根据权利要求1所述的自监督视觉表征学习方法，其特征在于，所述第一图像的特征包括若干原始图像特征组，每个原始图像特征组包括第一局部特征和第一类别令牌，所述第一局部特征对应于所述第一类别令牌；

3.根据权利要求1所述的自监督视觉表征学习方法，其特征在于，所述根据所述自注意力图确定平衡权重参数，包括：

4.根据权利要求1所述的自监督视觉表征学习方法，其特征在于，所述根据所述自注意力图确定重建权重参数，包括：

5.根据权利要求2所述的自监督视觉表征学习方法，其特征在于，所述第二图像的特征包括若干掩码图像特征组，每个掩码图像特征组包括第二局部特征和第二类别令牌，所述第二局部特征对应于所述第二类别令牌；

6.根据权利要求2所述的自监督视觉表征学习方法，其特征在于，所述根据所述第一图像的特征、所述平衡权重参数和所述重建权重参数构建掩码重建损失函数，包括：

7.根据权利要求1所述的自监督视觉表征学习方法，其特征在于，所述根据所述联合优化损失函数对所述深度编码教师网络和所述深度编码学生网络进行优化，包括：

8.根据权利要求7所述的自监督视觉表征学习方法，其特征在于，所述根据所述联合优化损失函数对所述深度编码教师网络和所述深度编码学生网络进行优化，还包括：

9.一种自监督视觉表征学习装置，其特征在于，包括至少一个处理器和用于与所述至少一个处理器通信连接的存储器；所述存储器存储有能够被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8任意一项所述的自监督视觉表征学习方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至8任意一项所述的自监督视觉表征学习方法。