CN116486193A

CN116486193A - 基于内容感知及自蒸馏结构的自监督算法训练方法和装置

Info

Publication number: CN116486193A
Application number: CN202310228804.6A
Authority: CN
Inventors: 张睿
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Terminus Technology Group Co Ltd
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-07-25

Abstract

本公开提供一种基于内容感知及自蒸馏结构的自监督算法训练方法和装置，包括：分别使用第一增强方式和第二增强方式对图像进行处理，分别得到第一增强图和第二增强图；获取第一增强图的能量图，得到第一能量图，获取第二增强图的能量图，得到第二能量图；根据第一增强图、第二增强图、第一能量图和第二能量图得到无损表征集和有损表征集；分别将将有损表征集和无损表征集输入自蒸馏结构中的学生网络和教师网络，根据输出结果得到总损失函数。本公开的一种基于内容感知及自蒸馏结构的自监督算法训练方法，提出了基于不变因果机制的对比式自监督学习训练方法，优化当前的对比式自监督学习方法，使得所述训练方法可以更好利用无标签数据来训练模型的。

Description

基于内容感知及自蒸馏结构的自监督算法训练方法和装置

技术领域

本公开属于图像视觉技术领域，具体涉及一种基于内容感知及自蒸馏结构的自监督算法训练方法、装置、设备和介质。

背景技术

监督学习是计算机视觉领域中常用的一种训练方法，是图像分类、目标检测、实例分割等图像处理过程中常用的一种训练方法。监督学习在过去得到巨大成功，但其严重依赖于昂贵且难得的人工标签，同时容易陷入泛化错误，伪相关及受到对抗攻击，因此监督学习的相关研究也进入了瓶颈期。

发明内容

本公开旨在至少解决现有技术中存在的技术问题之一，提供一种基于内容感知及自蒸馏结构的自监督算法训练方法、装置、设备和介质。

本公开的一个方面提供一种基于内容感知及自蒸馏结构的自监督算法训练方法，所述方法包括：

使用第一增强方式对图像进行处理，得到第一增强图，使用第二增强方式对所述图像进行处理，得到第二增强图，所述第一增强方式与所述第二增强方式不同；

获取所述第一增强图的能量图，得到第一能量图，获取所述第二增强图的能量图，得到第二能量图；

根据所述第一增强图、第二增强图、第一能量图和第二能量图得到无损表征集和有损表征集；

将所述有损表征集输入自蒸馏结构中的学生网络，将所述无损表征集输入自蒸馏结构中的教师网络，根据输出结果得到总损失函数；

根据所述总损失函数更新所述学生网络的模型权重和所述教师网络的模型权重。

可选的，所述获取所述第一增强图的能量图，得到第一能量图，包括：

获取所述第一增强图的梯度，得到所述第一能量图；

所述获取所述第二增强图的能量图，得到第二能量图，包括：

获取所述第二增强图的梯度，得到所述第二能量图。

可选的，所述根据所述第一增强图、第二增强图、第一能量图和第二能量图得到无损表征集和有损表征集，包括：

根据所述第一增强图、第二增强图、第一能量图和第二能量图得到数据预处理结果集；

对所述数据预处理结果集进行等尺度分块，得到分块后的数据预处理结果集；

对所述分块后的数据预处理结果集进行卷积操作，得到一维局部嵌入表征块集；

根据所述一维局部嵌入表征块集和可学习掩码表征得到一维掩码局部嵌入表征块集；

根据所述一维掩码局部嵌入表征块集生成第一分类占位符集，根据所述一维局部嵌入表征块集生成第二分类占位符集；

根据所述一维掩码局部嵌入表征块集和所述第一分类占位符集得到所述有损表征集，根据所述一维局部嵌入表征块集和所述第二分类占位符集得到所述无损表征集。

可选的，所述将所述有损表征集输入自蒸馏结构中的学生网络，将所述无损表征集输入自蒸馏结构中的教师网络，根据输出结果得到总损失函数，包括：

将所述有损表征集输入自蒸馏结构中的学生网络，得到信息类别预测概率和第一语义类别概率；

将所述无损表征集输入自蒸馏结构中的教师网络，得到信息类别预估概率和第二语义类别概率；

根据所述信息类别预测概率和所述信息类别预估概率得到信息损失值；

根据所述第一语义类别概率和所述第二语义类别概率得到语义损失值；

根据所述信息损失值和所述语义损失值得到所述总损失函数。

可选的，所述将所述有损表征集输入自蒸馏结构中的学生网络，得到信息类别预测概率和第一语义类别概率，包括：

将所述有损表征集中的所述一维局部嵌入表征块集和所述第一分类占位符集输入编码器，得到学生网络输出结果；

将所述学生网络输出结果和所述有损表征集中的所述可学习掩码表征输入预测器，得到所述信息类别预测概率和所述第一语义类别概率。

可选的，所述将所述无损表征集输入自蒸馏结构中的教师网络，得到信息类别预估概率和第二语义类别概率，包括：

将所述无损表征集中的所述一维局部嵌入表征块集和所述第二分类占位符集输入编码器，得到教师网络输出结果；

将所述教师网络输出结果输入预测器，得到所述信息类别预估概率和所述第二语义类别概率。

可选的，所述根据所述信息损失值和所述语义损失值得到所述总损失函数，包括：

根据所述信息损失值和所述语义损失值之和得到所述总损失函数。

可选的，所述根据所述总损失函数更新所述学生网络的模型权重和所述教师网络的模型权重，包括：

根据所述总损失函数对所述学生网络进行梯度反向传播，更新所述学生网络的模型权重。

对所述学生网络更新后的模型权重使用指数滑动平均处理，将处理后的权重作为所述教师网络的模型权重。

本公开的另一个方面，提供一种基于内容感知及自蒸馏结构的自监督算法训练装置，所述装置包括：

图像增强模块，用于使用第一增强方式对图像进行处理，得到第一增强图，使用第二增强方式对所述图像进行处理，得到第二增强图，所述第一增强方式与所述第二增强方式不同；

能量图获取模块，用于获取所述第一增强图的能量图，得到第一能量图，获取所述第二增强图的能量图，得到第二能量图；

表征集获取模块，用于根据所述第一增强图、第二增强图、第一能量图和第二能量图得到无损表征集和有损表征集；

自蒸馏模块，用于将所述有损表征集输入自蒸馏结构中的学生网络，将所述无损表征集输入自蒸馏结构中的教师网络，根据输出结果得到总损失函数；

更新模块，用于根据所述总损失函数更新所述学生网络的模型权重和所述教师网络的模型权重。

本公开的另一个方面，提供一种电子设备，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现前文阐述的一种基于内容感知及自蒸馏结构的自监督算法训练方法。

本公开的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，

所述计算机程序被处理器执行时能实现前文阐述的一种基于内容感知及自蒸馏结构的自监督算法训练方法。

本公开实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法、装置、设备和介质中，提出了一种基于不变因果机制的对比式自监督学习训练方法，其中，内容感知技术使用能量图量化图像内容重要性，将重构目标从单一的“重构像素”，扩展到“重构能量”，进而提高编码器所学习到的潜在表征的语义级别，提高特征鲁棒性；通过引入自蒸馏结构，实现在线信息提取(onlinetokenizer)，可一步完成训练，解决信息提取器域间信息差异问题，降低训练操作复杂度以及训练耗时；结合内容感知技术和自蒸馏结构，引入因果机制约束学习过程，从而优化当前的对比式自监督学习方法，使得所述训练方法可以更好利用无标签数据来训练模型的，用这种方法训练好的模型，是可以通过针对性微调的方式来适配图像视觉领域的其他任务，包括图像分类、目标检测、实例分割等图像处理任务。

附图说明

图1为用于实现根据本公开一实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法和装置的示例电子设备的示意性框图；

图2为本公开另一实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法的流程示意图；

图3为本公开另一实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法的流程具体框图；

图4为本公开另一实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法的流程示意图；

图5为本公开另一实施例的一种基于内容感知及自蒸馏结构的自监督算法训练装置的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本公开的技术方案，下面结合附图和具体实施方式对本公开作进一步详细描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具体说明，本公开中使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“包括”或者“包含”等既不限定所提及的形状、数字、步骤、动作、操作、构件、原件和/或它们的组，也不排除出现或加入一个或多个其他不同的形状、数字、步骤、动作、操作、构件、原件和/或它们的组，或加入这些。在本公开的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对设置、数字表达式和数值不限制本公开的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的，对于相关领域普通技术人员已知的技术，方法和设备可能不作详细讨论，但在适当情况下，所示技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体的其他示例可以具有不同的值。应注意到：相似的符号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进一步讨论。

在更加详细地讨论之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

首先，参照图1来描述用于实现本公开实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法和装置的示例电子设备。

如图1所示，电子设备200包括一个或多个处理器210、一个或多个存储装置220、输入装置230、输出装置240等，这些组件通过总线系统和/或其他形式的连接机构250互连。应当注意，图1所示的电子设备的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

示例性的，处理器能够有效对多源异构的大规模实时数据进行数据接入、数据存储、数据处理、数据分析等系列操作。

所述处理器210可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制所述电子设备中的其他组件以执行期望的功能。

所述存储装置220可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行所述程序指令，以实现下文所述的本公开实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如，所述应用程序使用和/或产生的各种数据等。

所述输入装置230可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置240可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

示例性地，用于实现根据本公开实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法和装置的示例电子设备可以被实现为诸如智能手机、平板电脑。

监督学习在过去得到巨大成功，但其严重依赖于昂贵且难得的人工标签，同时容易陷入泛化错误，伪相关及受到对抗攻击，因此监督学习的相关研究也进入了瓶颈期。最近，基于自监督学习的预训练模式以其良好的数据利用效率和泛化能力，在计算机视觉中获得了非常巨大的进展，并形成了一套主流的训练范式，称为“自监督预训练-基于任务微调”。

目前主流的模型训练方法主要是采用监督学习，其核心思想是使用有标签数据为模型提供强监督反馈信息。在训练的过程中，可以通过计算损失函数(即强监督反馈信息)和利用梯度反向传播技术，使模型不断调整自身参数，慢慢拟合目标输出分布。由此可见，监督学习是一个非常直观且高效的训练方法，但缺点也十分明显，其严重依赖于昂贵且难得的人工标签，大部分实际情况下的特定场景的海量数据仅有少部分可被标注，存在着大量的无标签数据无法被利用。除此之外，少量数据下的训练会使模型陷入泛化性差，鲁棒性差，容易受到噪声攻击等等问题。

为了解决监督学习存在的种种问题，目前主流解决方案主要是基于自监督学习的训练方法。目前的自监督学习可分成三个技术方向：1)对比学习，其做法主要是：首先对某一批次的数据通过数据增强(如水平翻转，垂直翻转，对比度调整，裁剪等等)构造正负样例，即该批次里的原样本和基于其所增强的样本相互视为正例，与其他样本及基于其他样本所进行增强的样本视为负例；然后把正负样本分别输入至两个结构相同的神经网络模型中，两个结构相同的神经网络模型同时输出样本的嵌入式表征，最后通过特定的损失函数(如计算两个嵌入式表征的距离)，把正样本之间的距离拉近，且把负样本之间的距离推远，进而使神经网络模型在无需标签的情况下，学习到提取样本表征的能力，代替了以往需要大规模有标签数据才能进行的预训练阶段；2)生成式学习，一般采用的是“编码器-解码器”结构，其做法主要是：使用编码器将图像输入编码成显性表征向量，然后通过解码器将显性表征向量对图像进行重构，最后通过最小化重构误差，使模型在无标签情况下亦可学习到蕴含潜在信息的显性表征向量；3)生成式对比学习(也称为对抗学习)，此方法结合了前两者，采用“生成器-鉴别器”结构，其中生成器一般采用“编码器-解码器”结构，鉴别器一般为分类器结构，其做法主要是：首先通过生成器生成假样本，然后同时将真假样本输入到鉴别器，让其区分样本真假。

现有主流自监督技术主要采用对比学习或生成式学习。其中，在对比学习方向上主流的算法有MoCo系列，SimCLR，DINO等等。此类算法均存在以下问题：

1)均采用“孪生网络”的训练结构，即训练阶段的每一步都需要前向计算两个网络结构完全相同的神经网络模型(相当于进行了两次训练)，因此需要消耗更多的算力和时间。除此之外，根据不同的模型参数更新策略，会有不同的内存/显存空间消耗，最坏的情况是两个神经网络模型的参数均要更新，那么相较于监督训练，内存/显存空间消耗会翻倍提高；

2)从第2节技术背景介绍可知，对比学习严重依赖于数据增强技术，为了保证模型性能，不同任务下需要精心设计不同的数据增强技术。因此，模型性能会受限于数据增强技术的设计，除此以外，模型所学习到的知识很可能只是某种变换特性，而非真正有用的信息；

3)对比学习在训练期间一般需要大量负样本(至少需4096个样本)，因此，内存/显存空间非常巨大。

在生成式学习方向上的主流算法有BEiT，MAE，SimMIM等等，此类算法采用“编码器-解码器”结构，编码器负责将x编码成显性表征向量z，解码器负责利用表征向量z尝试重构原输入得到x’，最后通过最小化重构差异使编码器学习到数据潜在表征。其中，编码器和解码器的网络结构无需相同，如MAE中正是采用非对称“编码器-解码器”结构，即编码器可为任意一个Transformer结构模型，解码器是一个轻量级的Transformer结构模型。除此外，以上算法重构目标均为像素级，即解码器的目标是利用表征向量z尽可能重构出原输入某对应位置的像素值。相较于对比学习，生成式学习无需采用“孪生网络”，不依赖于数据增强技术，也不需要大量负样本，因此在算力消耗和空间消耗上有着非常明显的优势，模型性能也不再受限于某个数据增强技术。但这类生成式自监督学习方法也存在一些问题：

1)重构目标决定了编码器所学习到的潜在表征的语义级别，换言之，其影响着潜在表征的信息密度，最终潜在表征的信息密度大小也会影响到下游任务的性能。以上所提及的主流算法的重构目标均为像素级恢复，即恢复相应位置的像素值，但像素是一种信息密度非常低的数据，其冗余度高，例如从一张图像中去除某一些像素，也不会对整一张图像的语义(内容)产生影响。因此，“重构像素”目标实际上为编码器所带来的信息有限，一定程度上限制了潜在表征的语义级别。

2)像素值所携带的信息是内容颜色和亮度，而这些信息极其容易因某些环境因素产生噪声，例如环境光照强度的改变。因此，编码器所学习到的潜在表征也在一定程度上受到噪声的影响，即鲁棒性较弱。

3)目前主流的计算机视觉生成式自监督学习算法是基于NLP(自然语言处理)生成式自监督学习算法演化而来，因此Token(词向量)类概念也运用在了部分计算机视觉生成式自监督学习算法上。但和NLP领域不同，自然语言的每个词汇个体是包含了高层语义信息，可通过Word2Vec自动转化成一个固定大小的token(包含了某词汇个体的语义信息)，且有一套完整的词汇表在训练时候提供监督信号，而在计算机视觉上，像素是冗余且低层的语义信息，每个token相当于是局部像素块的嵌入式向量，所以每个token所蕴含的语义信息不多，并且没有词汇表对应。因此，目前部分主流的计算机视觉生成式自监督学习算法需要分开两步进行，先提前训练一个tokenizer(信息提取器)，然后再进行自监督训练，此范式称为离线信息提取(offline tokenizer)。由于训练要分开两步进行，所以会导致信息提取器域间信息差异问题(训练信息提取器的数据和使用信息提取器时的数据分布差异大)，操作复杂度高，耗时长等缺点。

下面，将参考图2和图3描述根据本公开实施例一种基于内容感知及自蒸馏结构的自监督算法训练方法。

如图2和图3所示，一种基于内容感知及自蒸馏结构的自监督算法训练方法，包括：

S100：使用第一增强方式对图像进行处理，得到第一增强图，使用第二增强方式对图像进行处理，得到第二增强图，第一增强方式与第二增强方式不同。

具体地，在本步骤中，输入数据为尺度H*W的图像I，其中，H和W可根据实际情况进行选择，以使得图像I可以根据实际情况调整不同的尺度。需要说明的是，图像I也就是图3中的“原RGB图像”，在本实施例中，示例性的选择了RGB图像作为图像I，在其他实施例中，也可以根据实际的使用情况选择其他图像，例如灰度图像等。

具体地，在本步骤中，首先通过两种任意且不同的数据增强方式第一增强方式A₀和第二增强方式A₁，对图像I进行处理，分别得到第一增强图I₀和第二增强图I₁，需要说明的是，第一增强图I₀对应图3中的“增强图1”，第二增强图I₁对应图3中的“增强图2”。在本步骤中，可根据实际情况选取不同的数据增强方式，本公开实施例对此并不限制。

S200：获取第一增强图的能量图，得到第一能量图，获取第二增强图的能量图，得到第二能量图。

具体地，在本步骤中，使用能量计算公式e₂，为第一增强图I₀和第二增强图I₁分别计算出每个通道(R,G,B)的能量，分别得到第一能量图E₀和第二能量图E₁，需要说明的是，第一能量图E₀对应图3中“能量图1”，第二能量图E₁对应图3中的“能量图2”。能量图可有效反映出图像中的重要内容特征，能量的大小和内容的重要程度成正比关系。在本步骤中，可根据实际使用情况选择不同的能量计算公式e₂，本公开实施例对此并不限制。

S300：根据第一增强图、第二增强图、第一能量图和第二能量图得到无损表征集和有损表征集。

具体地，在本步骤中，可根据实际情况选择不同的方法得到无损表征集和有损表征集，示例性的，例如，根据第一增强图、第二增强图、第一能量图和第二能量图得到无损表征集，根据第一增强图、第二增强图、第一能量图和第二能量图得到有损表征集，也可以用其他方式，例如根据第一增强图、第二增强图、第一能量图和第二能量图得到无损表征集，根据无损表征集得到有损表征集。

S400：将有损表征集输入自蒸馏结构中的学生网络，将无损表征集输入自蒸馏结构中的教师网络，根据输出结果得到总损失函数。

具体地，在本步骤中，自蒸馏结构中的学生网络和教师网络均使用编码器和预测器，示例性的，学生网络和教师网络使用孪生网络结构，即学生网络f_student和教师网络f_teacher的模型结构是完全相同。其中，学生网络和教师网络的编码器为任意给定的一个Transformer结构模型，预测器则是采用“全连接层+非线性激活函数+全连接层”结构的MLP层模型。

需要说明的是，在本步骤中，可根据实际的使用情况选择学生网络和教师网络的结构，本公开实施例对此并不限制，本实施例中给出的上述网络结构仅为示例性说明。

S500：根据总损失函数更新学生网络的模型权重和教师网络的模型权重。

具体地，在本步骤中，可根据实际情况选择不同的方法更新学生网络的模型权重和教师网络的模型权重，以完成训练，本公开实施例对此并不限制。

本公开实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法，引入两个重要的核心技术——内容感知技术和自蒸馏结构。其中，内容感知技术使用能量图量化图像内容重要性，将重构目标从单一的“重构像素”，扩展到“重构能量”，进而提高编码器所学习到的潜在表征的语义级别，提高特征鲁棒性；通过引入自蒸馏结构，实现在线信息提取(online tokenizer)，可一步完成训练，解决信息提取器域间信息差异问题，降低训练操作复杂度以及训练耗时；结合内容感知技术和自蒸馏结构，引入因果机制约束学习过程，从而优化当前的对比式自监督学习方法，使得训练方法可以更好利用无标签数据来训练模型的，用这种方法训练好的模型，是可以通过针对性微调的方式来适配图像视觉领域的其他任务，包括图像分类、目标检测、实例分割等图像处理任务。

下面将进一步阐述实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法中步骤S200的具体步骤。

示例性的，步骤S200中，获取第一增强图的能量图，得到第一能量图，包括：获取第一增强图的梯度，得到第一能量图。

示例性的，步骤S200中，获取第二增强图的能量图，得到第二能量图，包括：获取第二增强图的梯度，得到第二能量图。

具体地，在本步骤中，能量计算公式e₂如下所示：

其中，分别表示RGB各通道的x方向梯度，分别表示RGB各通道的y方向梯度，i取值0或1，当i取值为0时，对应第一增强图I₀和第一能量图E₀，当i取值为1时，对应第二增强图I₁和第二能量图E₁。需要说明的是，由于本实施例中选取了RGB图像作为输入图像，则本步骤在获取梯度时分别获取了R、G、B三个通道的梯度，若选取灰度图像作为输入图像，则无需获取多个通道的梯度。

下面将进一步阐述实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法中步骤S300的具体步骤。

示例性的，步骤S300中，根据第一增强图、第二增强图、第一能量图和第二能量图得到无损表征集和有损表征集，包括：

S310：根据第一增强图、第二增强图、第一能量图和第二能量图得到数据预处理结果集。

具体地，在本步骤中，完成能量图计算后，我们可以得到数据预处理结果集I_all＝{I₀,I₁,E₀,E₁}。

S320：对数据预处理结果集进行等尺度分块，得到分块后的数据预处理结果集。

具体地，在本步骤中，对I_all里每个数据分别进行等尺度分块。每个局部块的大小为n*m，那么I_all里每个数据均可分得的局部块数量为完成分块后，一一对应得到P_all＝{P_I0,P_I1,P_E0,P_E1}。需要说明的是，在本步骤中，可根据实际的使用情况选取m和n的数值，以选取不同大小的局部块，本公开实施例对此并不限制。

S330：对分块后的数据预处理结果集进行卷积操作，得到一维局部嵌入表征块集。

具体地，在本步骤中，对P_I0,P_I1,P_E0,P_E1分别使用卷积核卷积核卷积核进行卷积操作，其中c₀为编码器输入的通道数。需要说明的是，R代表实数集合，也就是说，在本步骤中，可根据实际使用情况从实数中选取不同的卷积核。

操作完后，分别得到对P_I0,P_I1,P_E0,P_E1的卷积结果EBD_I0,EBD_I1,EBD_E0,EBD_E1，进而得到一维局部嵌入表征块集EBD＝{EBD_I0,EBD_I1,EBD_E0,EBD_E1}，其中：

其中，为一维局部嵌入表征块，k＝0,2，……N，代表一维局部嵌入表征块的数量；j＝{I0,I1,E0,E1}，其中，I0用于对应第一增强图的输出，I1用于对应第二增强图的输出，E0用于对应第一能量图的输出，E1用于对应第二能量图的输出。以上所有一维局部嵌入表征块的张量形状均为

需要说明的是，一维局部嵌入表征块集EBD对应图3中“无损局部嵌入表征块集”，其中的EBD_I0，EBD_I1，EBD_E0，EBD_E1与图3中无损局部嵌入表征块集中的块集按照从左到右依次对应。

S340：根据一维局部嵌入表征块集和可学习掩码表征得到一维掩码局部嵌入表征块集。

具体地，在本步骤中，对EBD进行随机掩码操作，即从N个一维局部嵌入表征块中按一定比例进行随机挑选，对被选中的一维局部嵌入表征块用可学习掩码表征v_mask进行替换(相当于对无损局部嵌入表征集进行“破坏”操作)，然后使用正态分布对可学习掩码表征的参数随机初始化，最终得到一维掩码局部嵌入表征块集MEBD，对应图3中的“有损局部嵌入表征块集”，具体如下：

MEBD＝{MEBD_I0,MEBD_I1,MEBD_E0,MEBD_E1}

其中，一维局部嵌入掩码表征块，m_k∈{0,1}^N，当m_k为1时，表示对应位置的一维局部嵌入表征块被替换成v_mask，否则，表示一维局部嵌入表征块保持不变。

S350：根据一维掩码局部嵌入表征块集生成第一分类占位符集MEBD_cls，根据一维局部嵌入表征块集生成第二分类占位符集EBD_cls。

具体地，在本步骤中，第一分类占位符集MEBD_cls和第二分类占位符集EBD_cls分别为：

MEBD_cls＝{mc_I0,mc_I1,mc_E0,mc_E1}

EBD_cls＝{c_I0,c_I1,c_E0,c_E1}

S360：根据一维掩码局部嵌入表征块集和第一分类占位符集得到有损表征集，根据一维局部嵌入表征块集和第二分类占位符集得到无损表征集。

具体地，在本步骤中，根据一维掩码局部嵌入表征块集MEBD和第一分类占位符集MEBD_cls得到有损表征集：

X_mask＝{MEBD_cls,MEBD}

根据一维局部嵌入表征块集EBD和第二分类占位符集EBD_cls得到无损表征集：

X_good＝{EBD_cls,EBD}

具体地，在本步骤中，还可以使用其他方式构建有损表征集和无损表征集，本公开实施例对此并不限制。

下面将进一步阐述实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法中步骤S400的具体步骤。

示例性的，步骤S400中，将有损表征集输入自蒸馏结构中的学生网络，将无损表征集输入自蒸馏结构中的教师网络，根据输出结果得到总损失函数，包括：

S410：将有损表征集输入自蒸馏结构中的学生网络，得到信息类别预测概率和第一语义类别概率。具体地，在本步骤中，包括：

S411：将有损表征集X_mask＝{MEBD_cls,MEBD}中的一维掩码局部嵌入表征块集MEBD中未被替换的局部嵌入表征块和第一分类占位符集MEBD_cls输入编码器，也就是将一维局部嵌入表征块集和第一分类占位符集输入编码器，经过transformer模型计算，得到学生网络输出结果。

S412：将学生网络输出结果和有损表征集中的可学习掩码表征v_mask输入预测器，结合编码器输出结果和可学习掩码表征通过MLP层模型预测被“破坏”位置的信息类别预测概率(可间接表示像素类别或能量类别)，以及第一语义类别概率，因此，学生网络的作用是间接对原始图像信息和原始图像能量进行重建。

得到的信息类别预测概率为第一语义类别概率为其中，j＝{I0,I1,E0,E1}，其中，I0用于对应第一增强图的输出，I1用于对应第二增强图的输出，E0用于对应第一能量图的输出，E1用于对应第二能量图的输出，且c_out为预测器输出的通道数。

需要说明的是，信息类别预测概率和信息类别预估概率中的信息类别可根据实际情况确认，例如，选取图像像素值，图像像素值是离散值，其值范围是0～255，也就是有256类信息类别；第一语义类别概率和第二语义类别概率中的语义类别可根据实际情况确认，例如，由模型生成的隐性语义信息，本公开实施例中均不进行限制。

具体地，在本步骤中，学生网络的输出结果构成集合：

Token_mask＝{token_cls0,token_pred}

其中，token_cls0为第一语义类别概率集，对应图3中“语义类别概率集1”，token_pred为信息类别预测概率集，对应图3中的“信息类别预测概率集”，第一语义类别概率为信息类别预测概率为其中，j＝{I0,I1,E0,E1}，I0用于对应第一增强图的输出，I1用于对应第二增强图的输出，E0用于对应第一能量图的输出。

S420：将无损表征集输入自蒸馏结构中的教师网络，得到信息类别预估概率和第二语义类别概率。具体地，在本步骤中，包括：

S421：将无损表征集X_good＝{EBD_cls,EBD}中的一维局部嵌入表征块集EBD中的所有局部嵌入表征块和第二分类占位符集EBD_cls输入编码器，得到教师网络输出结果。

S422：将教师网络输出结果输入预测器，得到无损表征集中的一维局部嵌入表征块集EBD中的所有局部嵌入表征块的信息类别预估概率和第二语义类别概率。

由于教师网络是无损的，所以教师网络的角色正是一个信息提取器(tokenizer)，其作用是通过预测器得到EBD中所有局部嵌入表征块的预估概率分布，并以预估概率分布作为监督信号，监督学生网络学习，也就是让学生网络的预测器所预测的概率分布要尽可能接近教师网络的预估概率分布。

得到的信息类别预估概率为第二语义类别概率为其中，j＝{I0,I1,E0,E1}，其中，I0用于对应第一增强图的输出，I1用于对应第二增强图的输出，E0用于对应第一能量图的输出，E1用于对应第二能量图的输出，且c_out为预测器输出的通道数。

具体地，在本步骤中，教师网络的输出结果构成集合：

Token_good＝{token_cls1,token_gt}

其中，token_cls1为第二语义类别概率集，对应图3中的“语义类别概率2”，token_gt为信息类别预估概率集，对应图3中的“信息类别预估概率集”。

S430：根据信息类别预测概率和信息类别预估概率得到信息损失值L_info。

S440：根据第一语义类别概率和第二语义类别概率得到语义损失值L_cls。

S450：根据信息损失值L_info和语义损失值L_cls得到总损失函数L_total。

具体地，在本步骤中，根据信息损失值L_info和语义损失值L_cls之和得到总损失函数L_total。

其中，语义损失值L_cls保证了“在线信息提取”的语义有效性，信息损失值L_info保证了学生网络所“学到”的信息与教师网络所“给出”的信息之间的差异尽可能小。两者的具体定义如下：

L_total＝L_cls+L_info

需要说明的是，上述步骤S410和步骤S420的顺序并不进行限制，可互换顺序先后执行，也可同时执行；步骤S430和步骤S440的顺序并不进行限制，可互换顺序先后执行，也可同时执行。

下面将进一步阐述实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法中步骤S500的具体步骤。

示例性的，步骤S500中，根据总损失函数更新学生网络的模型权重和教师网络的模型权重，包括：

S510：根据总损失函数对学生网络进行梯度反向传播，更新学生网络的模型权重。

在本步骤中，示例性的，基于总损失函数，仅对学生网络进行梯度反向传播，更新学生网络的模型权重。

S520：对学生网络更新后的模型权重使用指数滑动平均处理，将处理后的权重作为教师网络的模型权重。

具体地，在本步骤中，教师网络的模型权重每训练K次进行一次更新，更新方法是：先对学生网络的模型权重使用指数滑动平均处理，然后再将处理后的权重复制到教师网络模型；由于整个训练阶段学生网络和教师网络都是会发生模型权重更新，再考虑到教师网络实际是一个信息提取器(tokenizer)，因此可实现“在线信息提取”，信息提取器(教师网络)的训练数据和学生网络是完全一样，因此也解决了域间信息差异问题。

下面将结合图进一步阐述实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法的具体步骤。

示例性的，如图4所示，在步骤S500之后，还包括：

S600：循环执行步骤S100至S500，直到接收到停止训练的信号。

本公开实施例的一种基于内容感知及自蒸馏结构的自监督算法训练方法，具体给出了能量图的获取方式、无损表征集和有损表征集的获取方式以及学生网络的模型权重和教师网络的模型权重的更新方式，提出了效率更高、占内存更少且效果更好的训练方法，使得训练方法可以更好利用无标签数据来训练模型。

下面将参考图5描述本公开另一实施例的一种基于内容感知及自蒸馏结构的自监督算法训练装置。

示例性的，如图5所示，一种基于内容感知及自蒸馏结构的自监督算法训练装置100，包括：

图像增强模块110，用于使用第一增强方式对图像进行处理，得到第一增强图，使用第二增强方式对图像进行处理，得到第二增强图，第一增强方式与第二增强方式不同；

能量图获取模块120，用于获取第一增强图的能量图，得到第一能量图，获取第二增强图的能量图，得到第二能量图；

表征集获取模块130，用于根据第一增强图、第二增强图、第一能量图和第二能量图得到无损表征集和有损表征集；

自蒸馏模块140，用于将有损表征集输入自蒸馏结构中的学生网络，将无损表征集输入自蒸馏结构中的教师网络，根据输出结果得到总损失函数；

更新模块150，用于根据总损失函数更新学生网络的模型权重和教师网络的模型权重。

本公开实施例的一种基于内容感知及自蒸馏结构的自监督算法训练装置，引入两个重要的核心技术——内容感知技术和自蒸馏结构。其中，内容感知技术使用能量图量化图像内容重要性，将重构目标从单一的“重构像素”，扩展到“重构能量”，进而提高编码器所学习到的潜在表征的语义级别，提高特征鲁棒性；通过引入自蒸馏结构，实现在线信息提取(online tokenizer)，可一步完成训练，解决信息提取器域间信息差异问题，降低训练操作复杂度以及训练耗时；结合内容感知技术和自蒸馏结构，引入因果机制约束学习过程，从而优化当前的对比式自监督学习方法，使得训练方法可以更好利用无标签数据来训练模型的，用这种方法训练好的模型，是可以通过针对性微调的方式来适配图像视觉领域的其他任务，包括图像分类、目标检测、实例分割等图像处理任务。

进一步的，本实施例中还公开了一种电子设备，包括：

一个或多个处理器；

存储单元，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，能使得所述一个或多个处理器实现前文记载的种基于内容感知及自蒸馏结构的自监督算法训练方法。

进一步的，本实施例中还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时能实现前文记载的种基于内容感知及自蒸馏结构的自监督算法训练方法。

其中，计算机可读介质可以是本公开的装置、设备、系统中所包含的，也可以是单独存在。

在数据处理上，对于视频流数据、图像数据、数据库数据和统计结果数据分别采用符合各自数据类型的数据处理工具。在数据管理上，采用集成化的管理工具，能够形成统一的数据管理目录、索引、标准等。将接入的数据分阶段处理、分阶段存储，全周期关联、全周期分析。

其中，计算机可读存储介质可是任何包含或存储程序的有形介质，其可以是电、磁、光、电磁、红外线、半导体的系统、装置、设备，更具体的例子包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、光纤、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或它们任意合适的组合。

其中，计算机可读存储介质也可包括在基带中或作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码，其具体的例子包括但不限于电磁信号、光信号，或它们任意合适的组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

可以理解的是，以上实施方式仅仅是为了说明本公开的原理而采用的示例性实施方式，然而本公开并不局限于此。对于本领域内的普通技术人员而言，在不脱离本公开的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本公开的保护范围。

Claims

1.基于内容感知及自蒸馏结构的自监督算法训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述基于内容感知及自蒸馏结构的自监督算法训练方法，其特征在于，

所述获取所述第一增强图的能量图，得到第一能量图，包括：

获取所述第一增强图的梯度，得到所述第一能量图；

获取所述第二增强图的梯度，得到所述第二能量图。

3.根据权利要求1所述基于内容感知及自蒸馏结构的自监督算法训练方法，其特征在于，所述根据所述第一增强图、第二增强图、第一能量图和第二能量图得到无损表征集和有损表征集，包括：

4.根据权利要求3所述基于内容感知及自蒸馏结构的自监督算法训练方法，其特征在于，所述将所述有损表征集输入自蒸馏结构中的学生网络，将所述无损表征集输入自蒸馏结构中的教师网络，根据输出结果得到总损失函数，包括：

5.根据权利要求4所述基于内容感知及自蒸馏结构的自监督算法训练方法，其特征在于，所述将所述有损表征集输入自蒸馏结构中的学生网络，得到信息类别预测概率和第一语义类别概率，包括：

6.根据权利要求4所述基于内容感知及自蒸馏结构的自监督算法训练方法，其特征在于，所述将所述无损表征集输入自蒸馏结构中的教师网络，得到信息类别预估概率和第二语义类别概率，包括：

7.根据权利要求4所述基于内容感知及自蒸馏结构的自监督算法训练方法，其特征在于，所述根据所述信息损失值和所述语义损失值得到所述总损失函数，包括：

8.根据权利要求4所述基于内容感知及自蒸馏结构的自监督算法训练方法，其特征在于，所述根据所述总损失函数更新所述学生网络的模型权重和所述教师网络的模型权重，包括：

9.根据权利要求8所述基于内容感知及自蒸馏结构的自监督算法训练方法，其特征在于，所述根据所述总损失函数更新所述学生网络的模型权重和所述教师网络的模型权重，包括：

10.基于内容感知及自蒸馏结构的自监督算法训练装置，其特征在于，所述装置包括：