CN115424288A

CN115424288A - 一种基于多维度关系建模的视觉Transformer自监督学习方法及系统

Info

Publication number: CN115424288A
Application number: CN202210645115.0A
Authority: CN
Inventors: 程明明; 李钟毓; 高尚华
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-12-02

Abstract

本发明属于计算机视觉技术领域，提供了一种基于多维度关系建模的视觉Transformer自监督学习方法及系统，该方法利用空间维度和通道维度上的自关系建模，使用不同的图像变换处理图像得到图像的不同视图；图像的不同视图分别由教师网络和学生网络处理，得到特征图；学生网络提取的特征图进一步通过卷积层处理；通过点积计算特征图在空间维度与通道维度的自关系矩阵，计算教师网络与学生网络提取的关系矩阵的差异作为损失函数，并利用其关于网络参数的导数更新网络参数，相较于现有的自监督学习方法只考虑视觉模式的特征，该方法同时考虑了视觉模式在空间和通道维度的相关性，可以显著提升图像识别、语义分割、目标检测、实例检测等任务的准确性。

Description

一种基于多维度关系建模的视觉Transformer自监督学习方法及系统

技术领域

本发明属于计算机视觉技术领域，尤其涉及一种基于多维度关系建模的视觉Transformer自监督学习方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

自监督学习逐渐成为计算机视觉领域的研究热点之一，尤其是关于Transformer的自监督模型已经被证明可以提取高质量的图像特征，同时可以不受标注成本的限制。如何提高模型表达视觉模式特征的能力是自监督学习的关键。

在现实场景中，不同的视觉模式之间存在关系，即相似的视觉模式是强相关的而不同的视觉模式应是弱相关的。对于Transformer网络来说，其提取的图像特征包含多个维度，如空间维度和通道维度。在空间维度上，每一个像素有其所属的类别，属于同一类物体的像素之间是强相关的；在通道维度上，不同的通道表示不同的视觉模型，不同通道之间表示的模式也存在着一定的关系。正确捕捉视觉模式间关系的能力，是使神经网络具有强大特征提取能力的必要条件。

发明人发现，目前关于Transformer网络的自监督学习方法主要都是通过图像特征实现的，却忽略了视觉模式之间的关系。Chen等人通过对比学习，构造正样本和负样本，通过在特征空间拉近正样本而推开负样本的方式来强化的表征质量。Caron等人通过聚类赋予图像类别标签，通过加强图片不同视角间的类别一致性，提高模型识别图像语义的能力。Zhou等人在Caron等人提出方法的基础上，在更细粒度的维度即像素上引入类别一致性，强化了模型的表征表达能力。以上方法主要着眼于特征层次，并在很多视觉任务上取得了较好的成果，但这些方法忽略了视觉模式之间的关系，因而不能充分发挥自监督模型表达视觉模式的潜力。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供一种基于多维度关系建模的视觉Transformer自监督学习方法及系统，其在Transformer自监督训练过程中显式地强化模型的建模视觉关系的能力，解决了现有的自监督学习方法仅考虑特征而忽略视觉模式间关系的问题。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于多维度关系建模的视觉Transformer自监督学习方法，包括如下步骤：

对待训练图像样本数据进行预处理得到每张图像对应的不同视图并提取得到对应视图的特征图；

基于每张图像对应的不同视图的特征图和Transformer网络进行自监督学习得到语义特征；其中，所述自监督学习的过程包括：

基于不同视图的特征图，通过点积计算得到所有视图在通道维度上的自关系矩阵，将每张视图的特征图沿着通道维度划分为多个子集，通过点乘计算每个子特征图上像素之间在空间维度上的自关系矩阵；

将通道维度上和空间维度上的自关系矩阵的差异作为损失函数，通过损失函数的梯度更新Transformer网络的参数。

本发明的第二个方面提供一种基于多维度关系建模的视觉Transformer自监督学习系统，包括：

特征提取模块，用于对待训练图像样本数据进行预处理得到每张图像对应的不同视图并提取得到对应视图的特征图；

自监督学习模块，用于基于每张图像对应的不同视图的特征图和Transformer网络进行自监督学习得到语义特征；其中，所述自监督学习的过程包括：

将通道维度上和空间维度上的自关系矩阵的自关系矩阵的差异作为损失函数，通过损失函数的梯度更新Transformer网络的参数。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于多维度关系建模的视觉Transformer自监督学习方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于多维度关系建模的视觉Transformer自监督学习方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明利用空间维度和通道维度上的自关系建模提升了自监督模型的表征质量，使用不同的图像变换处理图像得到图像的不同视图；图像的不同视图分别由教师网络和学生网络处理得到特征图；通过点积计算特征图在空间维度与通道维度的自关系矩阵，计算教师网络与学生网络提取的关系矩阵的差异作为损失函数，并利用其关于网络参数的导数更新网络参数。相较于现有的自监督学习方法只考虑视觉模式的特征，该方法同时考虑了视觉模式在空间和通道维度的相关性，基于该方法的自监督预训练模型能提供高质量的语义特征，可以显著提升图像识别、语义分割、目标检测、实例检测等任务的准确性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明中的基于多维度关系建模的视觉Transformer自监督学习方法的流程图；

图2为本发明中的基于多维度关系建模的视觉Transformer自监督学习方法的框架图；

图3是本发明与现有方法的主要区别示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

为了解决正如背景技术所提及的现有的自监督学习方法仅考虑特征而忽略视觉模式间关系的问题，本发明使用不同的图像变换处理图像得到图像的不同视图；图像的不同视图分别由教师网络和学生网络处理，得到特征图；学生网络提取的特征图进一步通过卷积层处理；通过点积计算特征图在空间维度与通道维度的自关系矩阵，计算教师网络与学生网络提取的关系矩阵的差异作为损失函数，并利用其关于网络参数的导数更新网络参数。本发明提出一种方法在Transformer自监督训练过程中显式地强化模型的建模视觉关系的能力，相较于其他方法只考虑了特征实现自监督学习，本发明方法可以显著提高自监督模型建模视觉关系的能力，从而提高自监督模型的特征表达能力。基于该方法训练的到的模型可以作为多种视觉任务的预训练模型，同时提升准确性。

实施例一

如图1-图2所示，本实施例提供一种基于多维度关系建模的视觉Transformer自监督学习方法，包括如下步骤：

步骤1：获取待训练图像样本数据；

步骤2：对待训练图像样本数据进行预处理；

所述预处理过程包括：

对于待训练的大规模数据集中的数据，通过随机裁剪、随机翻转、随机模糊、随机灰度化等变换预处理图像，并将预处理后的图像变换为统一的尺寸；

可以理解的是，图像的具体尺寸可以根据需求进行设置，本实施将预处理后的图像的尺寸统一变换为224×224。

步骤3：将预处理后的每张图像分别采用不同的图像变换方法进行随机变换处理，得到每张图像对应的不同视图；

步骤4：基于每张图像对应的不同视图和Transformer网络进行自监督学习得到语义特征，其中，所述自监督学习的过程包括：

分别采用教师网络和学生网络进行特征提取得到对应视图的特征图；

基于不同视图的特征图，通过点积计算得到所有视图在通道维度上的自关系矩阵，将每张视图的特征图沿着通道维度划分为多个子集，通过点乘计算每个子特征图上像素之间在空间维度上的自关系矩阵；将通道维度上和空间维度上的自关系矩阵的差异作为损失函数，通过损失函数的梯度更新学生网络和教师网络的参数。

作为一种或多种实施例，步骤4中，所述Transformer网络包括教师网络和学生网络，其中，学生网络通过梯度下降更新参数，教师网络的参数基于学生网络的参数按动量更新。

为了更清楚地理解本发明的技术方案，本实施例以每张图像存在两个视图为例，分别用x₁和x₂表示，若视图的个数大于二，则多出来的视图由学生网络处理，在自监督学习时，这些视图的处理方式与x₁的处理方式一致。

具体包括如下技术方案：

步骤401：分别采用教师网络和学生网络进行特征提取得到对应视图的特征图；

z₁＝S(x₁)

z₂＝T(x₂)

其中，S表示学生网络，T表示教师网络。

步骤402：将学生网络提取的特征图采用卷积层、归一化层和激活层进一步处理；

z’₁＝M(z₁)

本实施例中，M表示由卷积层、归一化层和激活层组成的函数，表示进一步处理学生网络提取的特征；归一化层为批归一化；激活层为RELU，M中的卷积层输入维度是384，输出维度是384维度；

特征的维度是B×N×C，B表示当前训练批次的图像数量，N表示图片中像素的数量，C表示特征的维度。

步骤403：基于步骤401和步骤402得到的特征图，通过点积计算得到所有视图通道维度上的自关系矩阵，将特征图沿着通道维度划分为多个子集，通过点乘计算每个特征图子集上两两像素之间的空间维度上的自关系矩阵。

具体包括：

(1)在空间维度上，首先将特征图沿着通道划分为几个子集：

其中，split函数表示划分通道的操作，

的维度是B×H×N/H×C，H表示子集的数量。

之后通过点乘计算每一个子集上两两像素之间空间维度上的自关系矩阵：

其中，矩阵P₁表示了每一个子集上两两像素之间的关系，transpose表示转置矩阵最后两维；

可以理解的是，上述以其中一个视图为例，另一个视图上的空间维度上的自关系矩阵P₂通过相同的方法得到，因此在次不再赘述。

(2)在通道维度上，利用对应视图的特征图计算所有视图通道维度上的自关系矩阵：

C₁＝transpose(z′₁)*z′₁

C₂＝transpose(z₂)*z₂

步骤404：基于通道维度上和空间维度上的自关系矩阵的自关系矩阵的差异更新学生网络和教师网络的参数，通过交叉熵损失衡量相同图像不同视图的关系矩阵之间的差异，作为损失函数，并计算损失函数关于网络参数的导数作为梯度更新网络参数；具体包括：

(1)在通道维度上，利用交叉熵损失函数衡量两个视图的空间维度关系矩阵的差异：

其中，

表示第一视图通道维度上像素i和像素j之间的关系，

表示第二视图通道维度上像素i和像素j之间的关系。

关系矩阵的差异越大，损失函数的值也越大。

(2)在空间维度上，利用交叉熵损失函数衡量两个视图的通道维度关系矩阵的差异：

其中，式中，

表示第一视图空间维度上像素i和像素j之间的关系，

表示第二视图空间维度上像素i和像素j之间的关系。

(3)将通道维度上和空间维度上的两个损失函数相加得到最后的损失函数：

L＝L_c+L_p

(4)计算该损失对网络参数的倒数，作为梯度利用反向传播更新学生网络的参数：

其中，

是时刻t的学生网络参数，其中，

是损失函数关于网络参数的导数即梯度，α是学习率，

表示更新后的模型的参数。

教师网络的参数

按照学生网络的参数动量更新：

其中，m表示动量，

是时刻t的教师网络参数，随着训练m从0.996逐渐增长到1。

上述实施例的自监督学习方法训练之后可以应用于在目标检测、语义分割、半监督语义分割和图像分类等任务上。

为了证明本发明的有效性，故在多个任务上测试使用本方法提出的预训练方法的效果。如表格1所示，相较于现有的方法DINO，本发明提出的自监督预训练方法可以在目标检测、语义分割、半监督语义分割和图像分类等任务上实现更优异的效果。

表1本发明和现有方法训练效果对比

任务	DINO	本发明
			目标检测	46.0	46.6
VOC语义分割/mIoU	77.1	78.5
			半监督语义分割/mIoU	22.3	25.9
图像分类/％	79.7	80.4

上述技术方案的优点在于，如图3所示，其中，图3中的(a)表示现有的方法主要关注于表征；(b)表示本发明关注于视觉模式间的关系。

现有方法主要关注与表征，而本发明从关注视觉模式间的关系出发，本发明提出的自监督学习方法考虑了神经网络提取的特征中视觉模式之间的关系，相较于其他方法只考虑了特征实现自监督学习，本发明方法可以显著提高自监督模型建模视觉关系的能力，从而提高自监督模型的特征表达能力，基于该方法训练得到的模型可以作为多种视觉任务的预训练模型，同时提升准确性。

实施例二

本实施例提供一种基于多维度关系建模的视觉Transformer自监督学习系统，包括：

样本数据获取模块，用于获取待训练图像样本数据；

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于多维度关系建模的视觉Transformer自监督学习方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于多维度关系建模的视觉Transformer自监督学习方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多维度关系建模的视觉Transformer自监督学习方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于多维度关系建模的视觉Transformer自监督学习方法，其特征在于，所述将通道维度上和空间维度上的自关系矩阵的差异，通过损失函数的梯度更新学生网络和教师网络的参数包括：

基于通道维度上和空间维度上的自关系矩阵，分别利用交叉熵损失函数计算通道维度上和空间维度上自关系矩阵的差异得到对应的损失函数；

将损失函数作为梯度利用反向传播更新学生网络的参数；

按照学生网络的参数动量更新得到教师网络的参数。

3.如权利要求1所述的一种基于多维度关系建模的视觉Transformer自监督学习方法，其特征在于，每张图像对应的不同视图通过采用教师网络和学生网络进行特征提取得到对应视图的特征图表示为：

z₁＝S(x₁)

z₂＝T(x₂)

其中，S表示学生网络，T表示教师网络，x₁和x₂表示不同的视图。

4.如权利要求1所述的一种基于多维度关系建模的视觉Transformer自监督学习方法，其特征在于，在获取待训练图像样本数据后，对数据进行预处理，分别将每张图像分别采用不同的图像变换方法进行随机变换处理，得到每张图像对应的不同视图。

5.如权利要求3所述的一种基于多维度关系建模的视觉Transformer自监督学习方法，其特征在于，分别采用教师网络和学生网络进行特征提取得到对应视图的特征图，其中，学生网络提取的特征图采用卷积层、归一化层和激活层进一步处理。

6.如权利要求2所述的一种基于多维度关系建模的视觉Transformer自监督学习方法，其特征在于，所述分别利用交叉熵损失函数计算通道维度上和空间维度上自关系矩阵的差异得到对应的损失函数中：

通道维度上的损失函数为:

式中，

表示第一视图通道维度上像素i和像素j之间的关系，

表示第二视图通道维度上像素i和像素j之间的关系；

空间维度上的损失函数为：

式中，

表示第一视图空间维度上像素i和像素j之间的关系，

表示第二视图空间维度上像素i和像素j之间的关系。

7.如权利要求2所述的一种基于多维度关系建模的视觉Transformer自监督学习方法，其特征在于，所述将损失函数作为梯度利用反向传播更新学生网络的参数的表达式为：

其中，

是时刻t的学生网络参数，

是损失函数关于网络参数的导数即梯度，α是学习率，

表示更新后的模型的参数；

所述按照学生网络的参数动量更新得到教师网络的参数的表达式为：

其中，m表示动量，

是时刻t的教师网络参数。

8.一种基于多维度关系建模的视觉Transformer自监督学习系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于多维度关系建模的视觉Transformer自监督学习方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于多维度关系建模的视觉Transformer自监督学习方法中的步骤。