CN115496919A - 基于窗口掩码策略的混合卷积-变压器架构及自监督方法 - Google Patents
基于窗口掩码策略的混合卷积-变压器架构及自监督方法 Download PDFInfo
- Publication number
- CN115496919A CN115496919A CN202211304367.3A CN202211304367A CN115496919A CN 115496919 A CN115496919 A CN 115496919A CN 202211304367 A CN202211304367 A CN 202211304367A CN 115496919 A CN115496919 A CN 115496919A
- Authority
- CN
- China
- Prior art keywords
- convolution
- module
- transformer
- image
- hybrid
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于窗口掩码策略的混合卷积‑变压器架构及自监督方法,使用窗口掩码策略将图像划分为可见图像面片和掩码图像面片,将可见图像面片重组输入到设计的兼顾效率和性能的混合卷积‑变压器金字塔主干网络中进行特征学习,将不同尺度的特征通过多尺度融合模块和特征对齐模块分别进行融合和对齐,并将其于可学习的掩码特征向量进行拼接和对齐,作为轻量级解码器的输入进行图像重建任务,预测掩码图像面片,在标注数据有限的情况下可以利用大量工业无标签数据进行预训练,进一步提升监督学习任务的性能,大大降低了标注成本和时间成本。本发明适合于具有实时性和高精度等硬性要求的工业检测场景。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于窗口掩码策略的混合卷积-变压器架构及其自监督方法。
背景技术
受掩码语言建模(MLM)在自然语言处理领域的巨大成功和Vision Transformer(ViT)在计算机视觉领域的迅猛发展的启发,掩码图像建模(MIM)在计算机视觉方面取得了优异的成绩。Mask Autoencoders(MAE)是MIM中具有代表性的自监督方法,已逐渐成为引领计算机领域的自监督预训练范式。通过对原始图像使用随机遮罩策略,MAE仅将可见图像块作为输入图像,并对掩码图像面片进行预测。它期望编码器网络通过恢复掩码图像面片的像素来学习包含丰富语义信息的特征。
本质上,MAE最出色的设计是非对称的编码解码结构,其编码器仅对可见图像块进行操作,解码器旨在恢复所有图像块。一方面,这种方法不仅提高了预训练的训练速度和减少了GPU的内存占用,又在下游任务上取得了出色性能。另一方面,ViT作为其编码器网络,由于计算成本高、参数量大,在工业检测应用中存在重大障碍。ViT具有的自我注意模块可以学习特征的长期依赖,使ViT具有比卷积神经网络具有更强的全局上下文建模能力。事实上,局部归纳偏差和层次架构对于增强ViT的性能是至关重要的。最近的许多工作都探索了卷积神经网络和Transformer的结合。混合卷积-变压器网络在视觉任务(例如图像分类、目标检测、实例分割等)上表现出卓越的性能。然而,由于其巨大的计算成本和较慢的推理速度,仍然难以实现工业应用。
因此,如何设计一种混合卷积-变压器的金字塔主干网络,以利用自注意力机制来尽可能提高卷积神经网络(CNNs)的性能。使得主干网络不仅在公开数据集上取得了良好的性能,又能够在工业实例分割数据上实现良好的性能和计算效率,成为目前亟需解决的技术问题。
另一方面,对比很多自监督方法,MAE中的掩码自动编码策略效果显著,然而,其存在限制,因为它仅支持各向同性ViT结构。目前许多方法对掩码区域进行补零还原整张图来利用掩码自编码策略。尽管这样有效,但它只能得到一个次优的模型,并在训练时也牺牲了很多效率。
因此,考虑设计一种将掩码自动编码策略应用到混合卷积-变压器金字塔主干网络的自监督学习方法,进一步提高工业数据的检测性能,降低时间成本是本发明要解决的技术问题之一。
发明内容
本发明是为了将MAE的掩码自动编码策略和非对称编码器-解码器架构扩展到混合卷积-变压器金字塔网络,从而解决掩码自编码策略不适用于混合卷积-变压器金字塔网络的问题。因此,本发明提出了一种简单有效的卷积上下文变压器掩码自动编码器方法,及其基于窗口掩码策略的混合卷积-变压器架构,以达到提高工业检测效率和利用大量无标签数据进行自监督学习提升性能的目的。
本发明采用如下技术方案来实现的。
本发明一方面,公开了一种基于窗口掩码策略的混合卷积-变压器架构的自监督方法,包括:
对输入图像通过图像划分和窗口重组进行窗口掩码采样和图像恢复,获得分辨率为原图一半的重组图像;
基于混合卷积-变压器金字塔网络的编码器进行阶段划分,分别将输入特征重组图像依次等比缩小,对重组图像进行局部特征和全局特征充分融合;
将局部特征和全局特征融合后的不同尺度的图像特征在同一维度进行多尺度融合,融合后的特征图像经过对齐,作为解码器的输入;
基于混合卷积-变压器金字塔网络的解码器将融合并对齐后的图像特征的维度映射到与解码器输入图像特征维度相同的数目,通过视觉变压器模块对解码器输入图像进行图像重建,求解基础网络的输出特征和原图之间的均方损失函数;
利用损失函数公式计算混合卷积-变压器金字塔网络总误差,然后通过误差反向传播以及随机梯度下降法对网络参数进行更新,不断迭代直至损失函数收敛,完成自监督学习整体训练过程。
在本发明实施例中,输入图像通过图像划分和窗口重组进行窗口掩码采样和图像恢复,包括输入三通道图像,将图像划分为等大的图像面片,并将所有面片重组为不同的窗口,提取出每一个窗口内的可见面片,将其重组为一张图像作为编码器的输入。
在本发明实施例中,编码器包含卷积先验模块、大核卷积模块和变压器-卷积融合模块。
在本发明实施例中,基于混合卷积-变压器金字塔网络的编码器进行阶段划分,编码器被划分为四个阶段:
卷积先验模块位于混合卷积-变压器金字塔网络前端;
第一、第二阶段,分别由下采样模块和大核卷积模块构成;
第三、第四阶段,分别由下采样模块和变压器-卷积融合模块构成;
通过四个阶段分别将输入特征图缩小。
在本发明实施例中,卷积先验模块包括7×7卷积块和两个3×3卷积块。
在本发明实施例中,大核卷积模块包括7×7深度卷积块和两个线性层。
在本发明实施例中,下采样模块由卷积核大小为3,步长为2,补充边界为1的卷积块组成,将图像大小缩减为原来的1/2,并将通道增加一倍,同时包含有归一化层。
在本发明实施例中,变压器-卷积融合模块以垂直的方式堆叠自我注意模块和大核卷积模块,实现局部特征和全局特征的充分融合;自我注意模块包括自我注意力模块、残差模块和多层感知机模块。
在本发明实施例中,将局部特征和全局特征融合后的不同尺度的图像特征在同一维度进行多尺度融合,利用下采样模块、线性层以及上采样模块将第二、三、四阶段的特征图输出到同一维度进行多尺度融合。
本发明另一方面,公开了一种所述方法的基于窗口掩码策略的混合卷积-变压器架构,包括:编码器和解码器。
编码器包括卷积先验模块、大核卷积模块、下采样模块和变压器-卷积融合模块,其中:
卷积先验模块,卷积先验模块在混合卷积-变压器金字塔网络开端,利用含有7×7卷积核的重叠卷积提升感受野,增加特征交互;
下采样模块,由具有卷积核的卷积块组成,将图像大小缩减;对重组后的特征图进行归一化;
大核卷积模块,与下采样模块分别组成编码器的前两个阶段,利用7×7的大卷积核提升感受野;采用深度卷积操作,使用两个线性层对不同通道的特征信息进行交互;
变压器-卷积融合模块,与下采样模块分别组成编码器的后两个阶段,变压器-卷积融合模块包括深度卷积和两个线性层,用于采用7×7的卷积操作提升感受野,以垂直的方式堆叠自我注意模块和大核卷积模块,实现局部特征和全局特征的充分融合;
上采样模块,包括线性层和像素反卷积模块;使用线性层扩大特征通道维度,使用像素反卷积模块上采样到与解码器输入相同的维度;
解码器包括变压器模块,用于将融合并对齐后的图像特征维度映射到与解码器输入图像特征维度相同的数目,通过视觉变压器模块对解码器输入图像进行图像重建,求解基础网络的输出特征和原图之间的均方损失函数。
本发明由于采取以上技术方案,其具有以下有益效果:
本发明针对目前没有适合混合卷积-变压器金字塔网络的基于掩码自编码器的自监督方法,使用窗口掩码策略将图像划分为可见图像面片和掩码图像面片,将可见图像面片重组输入到设计的兼顾效率和性能的混合卷积-变压器金字塔主干网络中进行特征学习,将不同尺度的特征通过多尺度融合模块和特征对齐模块分别进行融合和对齐,并将其于可学习的掩码特征向量进行拼接和对齐,作为轻量级解码器的输入进行图像重建任务,预测掩码图像面片,在标注数据有限的情况下可以利用大量工业无标签数据进行预训练,进一步提升监督学习任务的性能,大大降低了标注成本和时间成本。
本发明提出窗口掩码策略处理原始图像,利用提出的兼顾性能和效率的混合卷积-变压器金字塔网络作为编码器学习图像特征,加入多尺度融合模块使解码器能够专注于图像重建,同时达到监督编码器不同尺度特征的目的。通过解码器对图像进行重建来迫使编码器学习更好的特征,两者相互依存。本发明基于窗口掩码策略的混合卷积-变压器架构的自监督方法,具有简单高效、时间成本和计算成本低、下游任务性能强的优点。
本发明具有较强的泛化性能,用此方法进行自监督学习,大大缩短了训练时间,提取自监督学习的编码器特征作为预训练模型,可以在下游实例分割任务上实现了比监督学习更好的性能。
本发明实现了密集目标场景下的机器人实时抓取,图像大小为1640×1250的单张推理时间为125ms。本发明由于其高准确率、高效率和低计算成本,有效解决了监督学习训练时间长,针对性不强,泛化性能低的问题,充分利用了工业场景下的大量无标签数据,节省了计算成本,及其适合直接利用在机器人抓取、无人机场景分割等任务。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的不当限定,在附图中:
图1为本发明的窗口掩码采用策略的原理示意图;
图2为本发明的编码器的原理示意图;
图3为本发明的自监督方法整体架构的原理示意图。
具体实施方式
下面将结合附图以及具体实施例来详细说明本发明,在此本发明的示意性实施例以及说明用来解释本发明,但并不作为对本发明的限定。
如图1所示,本发明提供的一种基于窗口掩码策略的混合卷积-变压器架构的自监督方法,包括如下步骤:
步骤S101,对输入图像采用窗口掩码策略:输入三通道图像,将该图像划分为等大的图像面片,并将所有面片重组为不同的窗口,在每一个窗口内使用随机掩码策略,提取出每一个窗口内的可见面片,将其重组为一张图像作为编码器的输入。
其中,图像划分和窗口重组:
将三通道的图像(H×W×3)划分为等大的图像面片,比如采取的图像面片大小为16×16,图像大小为256×256×3;在原图划分为合适数目的窗口,本发明采用窗口数量为4,即划分四个窗口,每一个窗口内含有等数量的图像面片,数目为64。
其中,窗口掩码采样和图像恢复:
在每一个窗口内使用随机掩码策略,掩码比例为75%,即将每一个窗口内的图像面片数量随机选取75%即作为掩码图像面片,数目为48个,剩余25%图像面片作为可见图像面片,数目为16个;提取每一个窗口内的16个可见图像面片,按照窗口的位置进行随机排列,即每一个窗口内的16个图像面片重新排列为一个4×4的方形图像块,最后将不同的窗口按照原来的划分顺序重组为一张图像,一般重组后的图像为原图分辨率的一半。
S102,编码器学习特征:编码器是一种混合卷积-变压器金字塔网络,有效地结合了卷积和自注意力机制。其输入大小为步骤S101得到的特征图128×128×3,该编码器被划分为四个阶段,包含卷积先验模块、大核卷积块以及变压器-卷积融合模块组成;其中卷积先验模块在网络开端,利用重叠窗口提高性能和降低输入分辨率,大核卷积块组成编码器的前两个阶段,变压器-卷积融合模块构成后两个阶段,每一个阶段前包含一个下采样模块,分别将输入特征图缩小为原图的1/4、1/8、1/16和1/32,编码器的网络框架整体如图2所示。
编码器被划分为四个阶段:
卷积先验模块位于混合卷积-变压器金字塔网络前端;
第一、第二阶段,分别由下采样模块和大核卷积模块构成;
第三、第四阶段,分别由下采样模块和变压器-卷积融合模块构成。
其中,卷积先验模块:
如图2中的卷积先验模块所示,卷积先验模块包括7×7卷积块和两个3×3卷积块。利用含有7×7卷积核的重叠卷积提升感受野,增加特征交互,提升性能;并利用3×3的连续卷积操作引入足够的卷积先验知识,同时降低图像分辨率为64×64,通道维度增加至64,降低后续模块的计算成本。
其中,大核卷积模块:
如图2中的大核卷积模块所示,大核卷积模块包括7×7深度卷积块和两个线性层,组成了编码器的前两个阶段,利用7×7的大卷积核提升感受野;采用深度卷积操作降低计算复杂度;深度卷积后使用了两个线性层对不同通道的特征信息进行交互。
其中,下采样模块:
下采样模块由卷积核大小为3,步长为2,补充边界为1的卷积块组成,作用是将图像大小缩减为原来的1/2,并将通道增加一倍,同时包含有归一化层,对重组后的特征图进行归一化,稳定训练。
其中,变压器-卷积融合模块:
如图2中的变压器-卷积融合模块所示,该模块以一种垂直的方式堆叠自我注意模块和大核卷积模块,实现局部特征和全局特征的充分融合。自我注意模块即包含自我注意力模块、残差模块以及多层感知机模块组成,在自我注意模块的多层感知机层引入深度卷积,使得两个模块的特征能平滑过渡;大核卷积模块同样采用7×7的卷积操作提升感受野,由深度卷积和两个线性层组成。
S103,多尺度融合模块构成编码器输入,特征对齐模块将融合后特征对齐:利用下采样模块、线性层以及上采样模块将步骤S102中的第二、三、四的三个阶段的特征图输出到同一维度进行多尺度融合,融合后的特征图经过特征对齐模块后作为解码器的输入,多尺度融合模块示意图如图3中的多尺度融合模块所示。
其中,多尺度融合模块:
该模块将编码器的不同尺度的特征进行融合,具体是编码器第二阶段的特征(16×16×192)通过2×2的卷积进行特征下采样,并将通道映射到和可见图像面片相同的特征维度512;编码器的第三阶段的特征(8×8×384)通过1×1的卷积将该特征通道映射为同一个特征维度;编码器的第四阶段(4×4×512)的特征通过上采样模块将该特征通道映射为同一个特征维度。最后,将变换后的不同尺度的特征进行融合(特征向量相加)。
其中,上采样模块:
上采样模块由线性层和像素反卷积模块组成。先使用线性层扩大特征通道维度为原来的4倍,然后使用像素反卷积模块上采样到与解码器输入相同的维度。
其中,特征对齐模块:
该模块将融合后的特征和编码器输入特征进行对齐,具体是记录下编码器输入特征的每一个面片的编号,然后将融合后的特征按照该编号进行重组。后续将该特征转换为一维与可学习的掩码向量进行拼接,同时按照记录的原图的每一个面片的编号,将拼接后的特征也进行重组。
S104,解码器重建图像:该部分处理步骤S103中融合并对齐后的特征图和可学习掩码向量组合后的特征,通过一个轻量级的视觉变压器模块对解码器输入图像进行图像重建,解码器示意图如图3中的解码器所示。
其中,解码器基础网络:
解码器利用线性层将融合并对齐的特征维度映射到与解码器输入特征维度相同的数目,即512,然后经过一个轻量级(深度为8)的由自我注意模块组成的网络进行特征学习,通过与原图进行对比,求解该基础网络的输出特征和原图直接的MSE-Loss,实现通过监督解码器重建效果来促使编码器学习到更好的输入特征的目的。
S105,网络训练:
网络输入为三通道的图像,例如工业密集商品场景图像,通过以数据为驱动的方法进行自监督学习任务训练,其使用MSE-Loss作为损失函数:
利用损失函数公式计算网络总误差,然后通过误差反向传播以及随机梯度下降法对网络参数进行更新,不断迭代直至损失函数收敛,完成自监督学习整体训练过程。
如图3所示,本发明提供了一种基于窗口掩码策略的混合卷积-变压器架构,包括:编码器和解码器。
编码器包括卷积先验模块、大核卷积模块、下采样模块和变压器-卷积融合模块,其中:
卷积先验模块,卷积先验模块在混合卷积-变压器金字塔网络开端,利用含有7×7卷积核的重叠卷积提升感受野,增加特征交互。
下采样模块,由具有卷积核的卷积块组成,将图像大小缩减;对重组后的特征图进行归一化。
大核卷积模块,与下采样模块分别组成编码器的第一、第二两个阶段,利用7×7的大卷积核提升感受野;采用深度卷积操作,使用两个线性层对不同通道的特征信息进行交互。
变压器-卷积融合模块,与下采样模块分别组成编码器的、第四两个阶段,变压器-卷积融合模块包括深度卷积和两个线性层,用于采用7×7的卷积操作提升感受野,以垂直的方式堆叠自我注意模块和大核卷积模块,实现局部特征和全局特征的充分融合。
上采样模块,包括线性层和像素反卷积模块;使用线性层扩大特征通道维度,使用像素反卷积模块上采样到与解码器输入相同的维度。
解码器包括变压器模块,用于将融合并对齐后的图像特征维度映射到与解码器输入图像特征维度相同的数目,通过视觉变压器模块对解码器输入图像进行图像重建,求解基础网络的输出特征和原图之间的均方损失函数。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
实施例
本发明提供了一种基于窗口掩码策略的混合卷积-变压器架构的自监督方法,包括模型训练和模型使用两部分,具体实施方式如下:
1.网络模型训练
该基于窗口掩码策略的混合卷积-变压器架构的自监督预训练模型,首先需要充足的工业场景无标签数据。每一张数据是通过工业相机进行拍摄和保存,无需经过去重及筛选流程,一般为三通道的彩色图像,其比单通道的图像包含更丰富的信息,对下游任务性能增强有帮助。
获取足够的工业检测数据后,每一张图像需要经过窗口掩码策略进行掩码和重组,窗口掩码采样方法如图1所示;将可见图像面片输入到编码器中进行特征学习,编码器的网络结构如图2;之后利用多尺度融合模块和特征对齐模块分别对编码器的后三个阶段的特征进行融合和对齐;对齐后的特征经过线性映射后,与可学习的掩码向量拼接和重组,作为解码器的输入用轻量级的网络进行图像重建,整体网络架构如图3所示,其包含窗口掩码、编码器、多尺度融合模块以及解码器部分。最后利用式(1)计算重建的图像与原始图像之间的损失,并按照梯度反向传播的方法进行参数的迭代更新,并利用GPU进行加速训练,直到网络的误差降低到设定的阈值之内或者网络迭代的次数满足要求时停止训练。
2.训练模型使用
针对工业机器人抓取场景,提取出编码器作为下游实例分割任务的主干网络,并取出编码器在自监督预训练模型中的权重。使用工业标注后的实例分割数据集进行物体的实例分割任务,在进行此监督学习任务之前,载入自监督预训练模型可以大幅度提高实例分割任务的性能。该方法同样适用于任何工业数据,具体高效率、高准确率、计算成本和时间成本低的优点。
本发明可以直接应用于所有包含机器人抓取、无人机场景分割和工业缺陷检测等任务,且由于该方法具有高实时性、高性能、低开销的优点,以及可替换的模块化设计,使得在能够得到高性能和泛化性的预训练模型的同时,可以广泛适用于任何具备实时性的网络模型,同时更加适合于具有实时性和高精度等硬性要求的工业检测场景。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,包括:
对输入图像通过图像划分和窗口重组进行窗口掩码采样和图像恢复,获得分辨率为原图一半的重组图像;
基于混合卷积-变压器金字塔网络的编码器进行阶段划分,分别将输入特征重组图像依次等比缩小,对重组图像进行局部特征和全局特征充分融合;
将局部特征和全局特征融合后的不同尺度的图像特征在同一维度进行多尺度融合,融合后的特征图像经过对齐,作为解码器的输入;
基于混合卷积-变压器金字塔网络的解码器将融合并对齐后的图像特征维度映射到与解码器输入图像特征维度相同的数目,通过视觉变压器模块对解码器输入图像进行图像重建,求解基础网络的输出特征和原图之间的均方损失函数;
利用损失函数公式计算混合卷积-变压器金字塔网络总误差,然后通过误差反向传播以及随机梯度下降法对网络参数进行更新,不断迭代直至损失函数收敛,完成自监督学习整体训练过程。
2.根据权利要求1所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,输入图像通过图像划分和窗口重组进行窗口掩码采样和图像恢复,包括输入三通道图像,将图像划分为等大的图像面片,并将所有面片重组为不同的窗口,提取出每一个窗口内的可见面片,将其重组为一张图像作为编码器的输入。
3.根据权利要求1所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,编码器包含卷积先验模块、大核卷积模块和变压器-卷积融合模块。
4.根据权利要求3所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,基于混合卷积-变压器金字塔网络的编码器进行阶段划分,编码器被划分为四个阶段:
卷积先验模块位于混合卷积-变压器金字塔网络前端;
第一、第二阶段,分别由下采样模块和大核卷积模块构成;
第三、第四阶段,分别由下采样模块和变压器-卷积融合模块构成;
通过四个阶段分别将输入特征图缩小。
5.根据权利要求3所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,卷积先验模块包括7×7卷积块和两个3×3卷积块。
6.根据权利要求3所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,大核卷积模块包括7×7深度卷积块和两个线性层。
7.根据权利要求4所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,下采样模块由卷积核大小为3,步长为2,补充边界为1的卷积块组成,将图像大小缩减为原来的1/2,并将通道增加一倍,同时包含有归一化层。
8.根据权利要求3所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,变压器-卷积融合模块以垂直的方式堆叠自我注意模块和大核卷积模块,实现局部特征和全局特征的充分融合;自我注意模块包括自我注意力模块、残差模块和多层感知机模块。
9.根据权利要求4所述的基于窗口掩码策略的混合卷积-变压器架构的自监督方法,其特征在于,将局部特征和全局特征融合后的不同尺度的图像特征在同一维度进行多尺度融合,利用下采样模块、线性层以及上采样模块将第二、三、四阶段的特征图输出到同一维度进行多尺度融合。
10.一种权利要求1-9任一项所述方法的基于窗口掩码策略的混合卷积-变压器架构,其特征在于,包括:编码器和解码器;
编码器包括卷积先验模块、大核卷积模块、下采样模块和变压器-卷积融合模块,其中:
卷积先验模块,卷积先验模块在混合卷积-变压器金字塔网络开端,利用含有7×7卷积核的重叠卷积提升感受野,增加特征交互;
下采样模块,由具有卷积核的卷积块组成,将图像大小缩减;对重组后的特征图进行归一化;
大核卷积模块,与下采样模块分别组成编码器的前两个阶段,利用7×7的大卷积核提升感受野;采用深度卷积操作,降低计算量,并使用两个线性层对不同通道的特征信息进行交互;
变压器-卷积融合模块,与下采样模块分别组成编码器的后两个阶段,变压器-卷积融合模块包括深度卷积和两个线性层,采用7×7的卷积操作提升感受野,以垂直的方式堆叠自我注意模块和大核卷积模块,实现局部特征和全局特征的充分融合;
上采样模块,包括线性层和像素反卷积模块;使用线性层扩大特征通道维度,使用像素反卷积模块上采样到与解码器输入相同的维度;
解码器包括变压器模块,用于将融合并对齐后的图像特征维度映射到与解码器输入图像特征维度相同的数目,通过视觉变压器模块对解码器输入图像进行图像重建,求解基础网络的输出特征和原图之间的均方损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211304367.3A CN115496919A (zh) | 2022-10-24 | 2022-10-24 | 基于窗口掩码策略的混合卷积-变压器架构及自监督方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211304367.3A CN115496919A (zh) | 2022-10-24 | 2022-10-24 | 基于窗口掩码策略的混合卷积-变压器架构及自监督方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115496919A true CN115496919A (zh) | 2022-12-20 |
Family
ID=84474264
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211304367.3A Pending CN115496919A (zh) | 2022-10-24 | 2022-10-24 | 基于窗口掩码策略的混合卷积-变压器架构及自监督方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115496919A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258939A (zh) * | 2023-02-27 | 2023-06-13 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理模型的模型训练方法及装置 |
CN116912926A (zh) * | 2023-09-14 | 2023-10-20 | 成都武侯社区科技有限公司 | 一种基于自掩码的人脸隐私的人脸识别方法 |
CN117635451A (zh) * | 2023-10-12 | 2024-03-01 | 中国石油大学(华东) | 基于注意力引导的多源多尺度数字岩心图像融合方法 |
-
2022
- 2022-10-24 CN CN202211304367.3A patent/CN115496919A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258939A (zh) * | 2023-02-27 | 2023-06-13 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像处理模型的模型训练方法及装置 |
CN116912926A (zh) * | 2023-09-14 | 2023-10-20 | 成都武侯社区科技有限公司 | 一种基于自掩码的人脸隐私的人脸识别方法 |
CN116912926B (zh) * | 2023-09-14 | 2023-12-19 | 成都武侯社区科技有限公司 | 一种基于自掩码的人脸隐私的人脸识别方法 |
CN117635451A (zh) * | 2023-10-12 | 2024-03-01 | 中国石油大学(华东) | 基于注意力引导的多源多尺度数字岩心图像融合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115496919A (zh) | 基于窗口掩码策略的混合卷积-变压器架构及自监督方法 | |
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN110084274B (zh) | 实时图像语义分割方法及系统、可读存储介质和终端 | |
CN113888744A (zh) | 一种基于Transformer视觉上采样模块的图像语义分割方法 | |
CN110569851B (zh) | 门控多层融合的实时语义分割方法 | |
WO2024040973A1 (zh) | 一种基于堆叠沙漏网络的多尺度融合去雾方法 | |
CN115482382A (zh) | 一种基于Transformer架构的图像语义分割方法 | |
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN113066089B (zh) | 一种基于注意力引导机制的实时图像语义分割方法 | |
CN116051549B (zh) | 一种太阳能电池片缺陷分割方法、系统、介质及设备 | |
CN116740527A (zh) | U型网络与自注意力机制结合的遥感图像变化检测方法 | |
CN112767247A (zh) | 图像超分辨率重建方法、模型蒸馏方法、装置及存储介质 | |
US12087046B2 (en) | Method for fine-grained detection of driver distraction based on unsupervised learning | |
CN113313721B (zh) | 基于多尺度结构的实时语义分割方法 | |
Li et al. | HoloParser: Holistic visual parsing for real-time semantic segmentation in autonomous driving | |
CN118196628A (zh) | 基于不同预训练特征提取骨干的增强型语义-位置特征融合网络方法、装置及应用 | |
Liu et al. | Single‐image super‐resolution using lightweight transformer‐convolutional neural network hybrid model | |
CN113255675A (zh) | 基于扩张卷积和残差路径的图像语义分割网络结构及方法 | |
CN117132885A (zh) | 一种高光谱影像分类方法、系统及存储介质 | |
CN116310324A (zh) | 一种基于语义分割的金字塔跨层融合解码器 | |
CN116051850A (zh) | 神经网络目标检测方法、装置、介质和嵌入式电子设备 | |
Miao et al. | Semantic segmentation of vehicle vision based on two-branch Enet network | |
CN114627370A (zh) | 一种基于transformer特征融合的高光谱影像分类方法 | |
CN114219738A (zh) | 单幅图像多尺度超分辨重建网络结构及方法 | |
CN113628107A (zh) | 人脸图像超分辨率方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |