CN115496919A

CN115496919A - 基于窗口掩码策略的混合卷积-变压器架构及自监督方法

Info

Publication number: CN115496919A
Application number: CN202211304367.3A
Authority: CN
Inventors: 杨树明; 李传祥; 张国锋; 胡鹏宇; 邓惠文; 段宇; 瞿兴
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-10-24
Filing date: 2022-10-24
Publication date: 2022-12-20

Abstract

本发明公开了一种基于窗口掩码策略的混合卷积‑变压器架构及自监督方法，使用窗口掩码策略将图像划分为可见图像面片和掩码图像面片，将可见图像面片重组输入到设计的兼顾效率和性能的混合卷积‑变压器金字塔主干网络中进行特征学习，将不同尺度的特征通过多尺度融合模块和特征对齐模块分别进行融合和对齐，并将其于可学习的掩码特征向量进行拼接和对齐，作为轻量级解码器的输入进行图像重建任务，预测掩码图像面片，在标注数据有限的情况下可以利用大量工业无标签数据进行预训练，进一步提升监督学习任务的性能，大大降低了标注成本和时间成本。本发明适合于具有实时性和高精度等硬性要求的工业检测场景。

Description

基于窗口掩码策略的混合卷积-变压器架构及自监督方法

技术领域

本发明属于计算机视觉领域，具体涉及一种基于窗口掩码策略的混合卷积-变压器架构及其自监督方法。

背景技术

受掩码语言建模(MLM)在自然语言处理领域的巨大成功和Vision Transformer(ViT)在计算机视觉领域的迅猛发展的启发，掩码图像建模(MIM)在计算机视觉方面取得了优异的成绩。Mask Autoencoders(MAE)是MIM中具有代表性的自监督方法，已逐渐成为引领计算机领域的自监督预训练范式。通过对原始图像使用随机遮罩策略，MAE仅将可见图像块作为输入图像，并对掩码图像面片进行预测。它期望编码器网络通过恢复掩码图像面片的像素来学习包含丰富语义信息的特征。

本质上，MAE最出色的设计是非对称的编码解码结构，其编码器仅对可见图像块进行操作，解码器旨在恢复所有图像块。一方面，这种方法不仅提高了预训练的训练速度和减少了GPU的内存占用，又在下游任务上取得了出色性能。另一方面，ViT作为其编码器网络，由于计算成本高、参数量大，在工业检测应用中存在重大障碍。ViT具有的自我注意模块可以学习特征的长期依赖，使ViT具有比卷积神经网络具有更强的全局上下文建模能力。事实上，局部归纳偏差和层次架构对于增强ViT的性能是至关重要的。最近的许多工作都探索了卷积神经网络和Transformer的结合。混合卷积-变压器网络在视觉任务(例如图像分类、目标检测、实例分割等)上表现出卓越的性能。然而，由于其巨大的计算成本和较慢的推理速度，仍然难以实现工业应用。

因此，如何设计一种混合卷积-变压器的金字塔主干网络，以利用自注意力机制来尽可能提高卷积神经网络(CNNs)的性能。使得主干网络不仅在公开数据集上取得了良好的性能，又能够在工业实例分割数据上实现良好的性能和计算效率，成为目前亟需解决的技术问题。

另一方面，对比很多自监督方法，MAE中的掩码自动编码策略效果显著，然而，其存在限制，因为它仅支持各向同性ViT结构。目前许多方法对掩码区域进行补零还原整张图来利用掩码自编码策略。尽管这样有效，但它只能得到一个次优的模型，并在训练时也牺牲了很多效率。

因此，考虑设计一种将掩码自动编码策略应用到混合卷积-变压器金字塔主干网络的自监督学习方法，进一步提高工业数据的检测性能，降低时间成本是本发明要解决的技术问题之一。

发明内容

本发明是为了将MAE的掩码自动编码策略和非对称编码器-解码器架构扩展到混合卷积-变压器金字塔网络，从而解决掩码自编码策略不适用于混合卷积-变压器金字塔网络的问题。因此，本发明提出了一种简单有效的卷积上下文变压器掩码自动编码器方法，及其基于窗口掩码策略的混合卷积-变压器架构，以达到提高工业检测效率和利用大量无标签数据进行自监督学习提升性能的目的。

本发明采用如下技术方案来实现的。

本发明一方面，公开了一种基于窗口掩码策略的混合卷积-变压器架构的自监督方法，包括：

对输入图像通过图像划分和窗口重组进行窗口掩码采样和图像恢复，获得分辨率为原图一半的重组图像；

基于混合卷积-变压器金字塔网络的编码器进行阶段划分，分别将输入特征重组图像依次等比缩小，对重组图像进行局部特征和全局特征充分融合；

将局部特征和全局特征融合后的不同尺度的图像特征在同一维度进行多尺度融合，融合后的特征图像经过对齐，作为解码器的输入；

基于混合卷积-变压器金字塔网络的解码器将融合并对齐后的图像特征的维度映射到与解码器输入图像特征维度相同的数目，通过视觉变压器模块对解码器输入图像进行图像重建，求解基础网络的输出特征和原图之间的均方损失函数；

利用损失函数公式计算混合卷积-变压器金字塔网络总误差，然后通过误差反向传播以及随机梯度下降法对网络参数进行更新，不断迭代直至损失函数收敛，完成自监督学习整体训练过程。

在本发明实施例中，输入图像通过图像划分和窗口重组进行窗口掩码采样和图像恢复，包括输入三通道图像，将图像划分为等大的图像面片，并将所有面片重组为不同的窗口，提取出每一个窗口内的可见面片，将其重组为一张图像作为编码器的输入。

在本发明实施例中，编码器包含卷积先验模块、大核卷积模块和变压器-卷积融合模块。

在本发明实施例中，基于混合卷积-变压器金字塔网络的编码器进行阶段划分，编码器被划分为四个阶段：

卷积先验模块位于混合卷积-变压器金字塔网络前端；

第一、第二阶段，分别由下采样模块和大核卷积模块构成；

第三、第四阶段，分别由下采样模块和变压器-卷积融合模块构成；

通过四个阶段分别将输入特征图缩小。

在本发明实施例中，卷积先验模块包括7×7卷积块和两个3×3卷积块。

在本发明实施例中，大核卷积模块包括7×7深度卷积块和两个线性层。

在本发明实施例中，下采样模块由卷积核大小为3，步长为2，补充边界为1的卷积块组成，将图像大小缩减为原来的1/2，并将通道增加一倍，同时包含有归一化层。

在本发明实施例中，变压器-卷积融合模块以垂直的方式堆叠自我注意模块和大核卷积模块，实现局部特征和全局特征的充分融合；自我注意模块包括自我注意力模块、残差模块和多层感知机模块。

在本发明实施例中，将局部特征和全局特征融合后的不同尺度的图像特征在同一维度进行多尺度融合，利用下采样模块、线性层以及上采样模块将第二、三、四阶段的特征图输出到同一维度进行多尺度融合。

本发明另一方面，公开了一种所述方法的基于窗口掩码策略的混合卷积-变压器架构，包括：编码器和解码器。

编码器包括卷积先验模块、大核卷积模块、下采样模块和变压器-卷积融合模块，其中：

卷积先验模块，卷积先验模块在混合卷积-变压器金字塔网络开端，利用含有7×7卷积核的重叠卷积提升感受野，增加特征交互；

下采样模块，由具有卷积核的卷积块组成，将图像大小缩减；对重组后的特征图进行归一化；

大核卷积模块，与下采样模块分别组成编码器的前两个阶段，利用7×7的大卷积核提升感受野；采用深度卷积操作，使用两个线性层对不同通道的特征信息进行交互；

变压器-卷积融合模块，与下采样模块分别组成编码器的后两个阶段，变压器-卷积融合模块包括深度卷积和两个线性层，用于采用7×7的卷积操作提升感受野，以垂直的方式堆叠自我注意模块和大核卷积模块，实现局部特征和全局特征的充分融合；

上采样模块，包括线性层和像素反卷积模块；使用线性层扩大特征通道维度，使用像素反卷积模块上采样到与解码器输入相同的维度；

解码器包括变压器模块，用于将融合并对齐后的图像特征维度映射到与解码器输入图像特征维度相同的数目，通过视觉变压器模块对解码器输入图像进行图像重建，求解基础网络的输出特征和原图之间的均方损失函数。

本发明由于采取以上技术方案，其具有以下有益效果：

本发明针对目前没有适合混合卷积-变压器金字塔网络的基于掩码自编码器的自监督方法，使用窗口掩码策略将图像划分为可见图像面片和掩码图像面片，将可见图像面片重组输入到设计的兼顾效率和性能的混合卷积-变压器金字塔主干网络中进行特征学习，将不同尺度的特征通过多尺度融合模块和特征对齐模块分别进行融合和对齐，并将其于可学习的掩码特征向量进行拼接和对齐，作为轻量级解码器的输入进行图像重建任务，预测掩码图像面片，在标注数据有限的情况下可以利用大量工业无标签数据进行预训练，进一步提升监督学习任务的性能，大大降低了标注成本和时间成本。

本发明提出窗口掩码策略处理原始图像，利用提出的兼顾性能和效率的混合卷积-变压器金字塔网络作为编码器学习图像特征，加入多尺度融合模块使解码器能够专注于图像重建，同时达到监督编码器不同尺度特征的目的。通过解码器对图像进行重建来迫使编码器学习更好的特征，两者相互依存。本发明基于窗口掩码策略的混合卷积-变压器架构的自监督方法，具有简单高效、时间成本和计算成本低、下游任务性能强的优点。

本发明具有较强的泛化性能，用此方法进行自监督学习，大大缩短了训练时间，提取自监督学习的编码器特征作为预训练模型，可以在下游实例分割任务上实现了比监督学习更好的性能。

本发明实现了密集目标场景下的机器人实时抓取，图像大小为1640×1250的单张推理时间为125ms。本发明由于其高准确率、高效率和低计算成本，有效解决了监督学习训练时间长，针对性不强，泛化性能低的问题，充分利用了工业场景下的大量无标签数据，节省了计算成本，及其适合直接利用在机器人抓取、无人机场景分割等任务。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的不当限定，在附图中：

图1为本发明的窗口掩码采用策略的原理示意图；

图2为本发明的编码器的原理示意图；

图3为本发明的自监督方法整体架构的原理示意图。

具体实施方式

下面将结合附图以及具体实施例来详细说明本发明，在此本发明的示意性实施例以及说明用来解释本发明，但并不作为对本发明的限定。

如图1所示，本发明提供的一种基于窗口掩码策略的混合卷积-变压器架构的自监督方法，包括如下步骤：

步骤S101，对输入图像采用窗口掩码策略：输入三通道图像，将该图像划分为等大的图像面片，并将所有面片重组为不同的窗口，在每一个窗口内使用随机掩码策略，提取出每一个窗口内的可见面片，将其重组为一张图像作为编码器的输入。

其中，图像划分和窗口重组：

将三通道的图像(H×W×3)划分为等大的图像面片，比如采取的图像面片大小为16×16，图像大小为256×256×3；在原图划分为合适数目的窗口，本发明采用窗口数量为4，即划分四个窗口，每一个窗口内含有等数量的图像面片，数目为64。

其中，窗口掩码采样和图像恢复：

在每一个窗口内使用随机掩码策略，掩码比例为75％，即将每一个窗口内的图像面片数量随机选取75％即作为掩码图像面片，数目为48个，剩余25％图像面片作为可见图像面片，数目为16个；提取每一个窗口内的16个可见图像面片，按照窗口的位置进行随机排列，即每一个窗口内的16个图像面片重新排列为一个4×4的方形图像块，最后将不同的窗口按照原来的划分顺序重组为一张图像，一般重组后的图像为原图分辨率的一半。

S102，编码器学习特征：编码器是一种混合卷积-变压器金字塔网络，有效地结合了卷积和自注意力机制。其输入大小为步骤S101得到的特征图128×128×3，该编码器被划分为四个阶段，包含卷积先验模块、大核卷积块以及变压器-卷积融合模块组成；其中卷积先验模块在网络开端，利用重叠窗口提高性能和降低输入分辨率，大核卷积块组成编码器的前两个阶段，变压器-卷积融合模块构成后两个阶段，每一个阶段前包含一个下采样模块，分别将输入特征图缩小为原图的1/4、1/8、1/16和1/32，编码器的网络框架整体如图2所示。

编码器被划分为四个阶段：

卷积先验模块位于混合卷积-变压器金字塔网络前端；

第一、第二阶段，分别由下采样模块和大核卷积模块构成；

第三、第四阶段，分别由下采样模块和变压器-卷积融合模块构成。

其中，卷积先验模块：

如图2中的卷积先验模块所示，卷积先验模块包括7×7卷积块和两个3×3卷积块。利用含有7×7卷积核的重叠卷积提升感受野，增加特征交互，提升性能；并利用3×3的连续卷积操作引入足够的卷积先验知识，同时降低图像分辨率为64×64，通道维度增加至64，降低后续模块的计算成本。

其中，大核卷积模块：

如图2中的大核卷积模块所示，大核卷积模块包括7×7深度卷积块和两个线性层，组成了编码器的前两个阶段，利用7×7的大卷积核提升感受野；采用深度卷积操作降低计算复杂度；深度卷积后使用了两个线性层对不同通道的特征信息进行交互。

其中，下采样模块：

下采样模块由卷积核大小为3，步长为2，补充边界为1的卷积块组成，作用是将图像大小缩减为原来的1/2，并将通道增加一倍，同时包含有归一化层，对重组后的特征图进行归一化，稳定训练。

其中，变压器-卷积融合模块：

如图2中的变压器-卷积融合模块所示，该模块以一种垂直的方式堆叠自我注意模块和大核卷积模块，实现局部特征和全局特征的充分融合。自我注意模块即包含自我注意力模块、残差模块以及多层感知机模块组成，在自我注意模块的多层感知机层引入深度卷积，使得两个模块的特征能平滑过渡；大核卷积模块同样采用7×7的卷积操作提升感受野，由深度卷积和两个线性层组成。

S103，多尺度融合模块构成编码器输入，特征对齐模块将融合后特征对齐：利用下采样模块、线性层以及上采样模块将步骤S102中的第二、三、四的三个阶段的特征图输出到同一维度进行多尺度融合，融合后的特征图经过特征对齐模块后作为解码器的输入，多尺度融合模块示意图如图3中的多尺度融合模块所示。

其中，多尺度融合模块：

该模块将编码器的不同尺度的特征进行融合，具体是编码器第二阶段的特征(16×16×192)通过2×2的卷积进行特征下采样，并将通道映射到和可见图像面片相同的特征维度512；编码器的第三阶段的特征(8×8×384)通过1×1的卷积将该特征通道映射为同一个特征维度；编码器的第四阶段(4×4×512)的特征通过上采样模块将该特征通道映射为同一个特征维度。最后，将变换后的不同尺度的特征进行融合(特征向量相加)。

其中，上采样模块：

上采样模块由线性层和像素反卷积模块组成。先使用线性层扩大特征通道维度为原来的4倍，然后使用像素反卷积模块上采样到与解码器输入相同的维度。

其中，特征对齐模块：

该模块将融合后的特征和编码器输入特征进行对齐，具体是记录下编码器输入特征的每一个面片的编号，然后将融合后的特征按照该编号进行重组。后续将该特征转换为一维与可学习的掩码向量进行拼接，同时按照记录的原图的每一个面片的编号，将拼接后的特征也进行重组。

S104，解码器重建图像：该部分处理步骤S103中融合并对齐后的特征图和可学习掩码向量组合后的特征，通过一个轻量级的视觉变压器模块对解码器输入图像进行图像重建，解码器示意图如图3中的解码器所示。

其中，解码器基础网络：

解码器利用线性层将融合并对齐的特征维度映射到与解码器输入特征维度相同的数目，即512，然后经过一个轻量级(深度为8)的由自我注意模块组成的网络进行特征学习，通过与原图进行对比，求解该基础网络的输出特征和原图直接的MSE-Loss，实现通过监督解码器重建效果来促使编码器学习到更好的输入特征的目的。

S105，网络训练：

网络输入为三通道的图像，例如工业密集商品场景图像，通过以数据为驱动的方法进行自监督学习任务训练，其使用MSE-Loss作为损失函数：

其中，m是掩码面片的集合，i是所有图像面片的索引。I(i)是输入图像的归一化像素值，

是解码器的输出。

利用损失函数公式计算网络总误差，然后通过误差反向传播以及随机梯度下降法对网络参数进行更新，不断迭代直至损失函数收敛，完成自监督学习整体训练过程。

如图3所示，本发明提供了一种基于窗口掩码策略的混合卷积-变压器架构，包括：编码器和解码器。

卷积先验模块，卷积先验模块在混合卷积-变压器金字塔网络开端，利用含有7×7卷积核的重叠卷积提升感受野，增加特征交互。

下采样模块，由具有卷积核的卷积块组成，将图像大小缩减；对重组后的特征图进行归一化。

大核卷积模块，与下采样模块分别组成编码器的第一、第二两个阶段，利用7×7的大卷积核提升感受野；采用深度卷积操作，使用两个线性层对不同通道的特征信息进行交互。

变压器-卷积融合模块，与下采样模块分别组成编码器的、第四两个阶段，变压器-卷积融合模块包括深度卷积和两个线性层，用于采用7×7的卷积操作提升感受野，以垂直的方式堆叠自我注意模块和大核卷积模块，实现局部特征和全局特征的充分融合。

上采样模块，包括线性层和像素反卷积模块；使用线性层扩大特征通道维度，使用像素反卷积模块上采样到与解码器输入相同的维度。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

实施例

本发明提供了一种基于窗口掩码策略的混合卷积-变压器架构的自监督方法，包括模型训练和模型使用两部分，具体实施方式如下：

1.网络模型训练

该基于窗口掩码策略的混合卷积-变压器架构的自监督预训练模型，首先需要充足的工业场景无标签数据。每一张数据是通过工业相机进行拍摄和保存，无需经过去重及筛选流程，一般为三通道的彩色图像，其比单通道的图像包含更丰富的信息，对下游任务性能增强有帮助。

获取足够的工业检测数据后，每一张图像需要经过窗口掩码策略进行掩码和重组，窗口掩码采样方法如图1所示；将可见图像面片输入到编码器中进行特征学习，编码器的网络结构如图2；之后利用多尺度融合模块和特征对齐模块分别对编码器的后三个阶段的特征进行融合和对齐；对齐后的特征经过线性映射后，与可学习的掩码向量拼接和重组，作为解码器的输入用轻量级的网络进行图像重建，整体网络架构如图3所示，其包含窗口掩码、编码器、多尺度融合模块以及解码器部分。最后利用式(1)计算重建的图像与原始图像之间的损失，并按照梯度反向传播的方法进行参数的迭代更新，并利用GPU进行加速训练，直到网络的误差降低到设定的阈值之内或者网络迭代的次数满足要求时停止训练。

2.训练模型使用

针对工业机器人抓取场景，提取出编码器作为下游实例分割任务的主干网络，并取出编码器在自监督预训练模型中的权重。使用工业标注后的实例分割数据集进行物体的实例分割任务，在进行此监督学习任务之前，载入自监督预训练模型可以大幅度提高实例分割任务的性能。该方法同样适用于任何工业数据，具体高效率、高准确率、计算成本和时间成本低的优点。

本发明可以直接应用于所有包含机器人抓取、无人机场景分割和工业缺陷检测等任务，且由于该方法具有高实时性、高性能、低开销的优点，以及可替换的模块化设计，使得在能够得到高性能和泛化性的预训练模型的同时，可以广泛适用于任何具备实时性的网络模型，同时更加适合于具有实时性和高精度等硬性要求的工业检测场景。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于窗口掩码策略的混合卷积-变压器架构的自监督方法，其特征在于，包括：

基于混合卷积-变压器金字塔网络的解码器将融合并对齐后的图像特征维度映射到与解码器输入图像特征维度相同的数目，通过视觉变压器模块对解码器输入图像进行图像重建，求解基础网络的输出特征和原图之间的均方损失函数；

2.根据权利要求1所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法，其特征在于，输入图像通过图像划分和窗口重组进行窗口掩码采样和图像恢复，包括输入三通道图像，将图像划分为等大的图像面片，并将所有面片重组为不同的窗口，提取出每一个窗口内的可见面片，将其重组为一张图像作为编码器的输入。

3.根据权利要求1所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法，其特征在于，编码器包含卷积先验模块、大核卷积模块和变压器-卷积融合模块。

4.根据权利要求3所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法，其特征在于，基于混合卷积-变压器金字塔网络的编码器进行阶段划分，编码器被划分为四个阶段：

卷积先验模块位于混合卷积-变压器金字塔网络前端；

第一、第二阶段，分别由下采样模块和大核卷积模块构成；

通过四个阶段分别将输入特征图缩小。

5.根据权利要求3所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法，其特征在于，卷积先验模块包括7×7卷积块和两个3×3卷积块。

6.根据权利要求3所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法，其特征在于，大核卷积模块包括7×7深度卷积块和两个线性层。

7.根据权利要求4所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法，其特征在于，下采样模块由卷积核大小为3，步长为2，补充边界为1的卷积块组成，将图像大小缩减为原来的1/2，并将通道增加一倍，同时包含有归一化层。

8.根据权利要求3所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法，其特征在于，变压器-卷积融合模块以垂直的方式堆叠自我注意模块和大核卷积模块，实现局部特征和全局特征的充分融合；自我注意模块包括自我注意力模块、残差模块和多层感知机模块。

9.根据权利要求4所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法，其特征在于，将局部特征和全局特征融合后的不同尺度的图像特征在同一维度进行多尺度融合，利用下采样模块、线性层以及上采样模块将第二、三、四阶段的特征图输出到同一维度进行多尺度融合。

10.一种权利要求1-9任一项所述方法的基于窗口掩码策略的混合卷积-变压器架构，其特征在于，包括：编码器和解码器；

大核卷积模块，与下采样模块分别组成编码器的前两个阶段，利用7×7的大卷积核提升感受野；采用深度卷积操作，降低计算量，并使用两个线性层对不同通道的特征信息进行交互；

变压器-卷积融合模块，与下采样模块分别组成编码器的后两个阶段，变压器-卷积融合模块包括深度卷积和两个线性层，采用7×7的卷积操作提升感受野，以垂直的方式堆叠自我注意模块和大核卷积模块，实现局部特征和全局特征的充分融合；