CN117011638A - 一种端到端的图像掩码预训练方法及装置 - Google Patents

一种端到端的图像掩码预训练方法及装置 Download PDF

Info

Publication number
CN117011638A
CN117011638A CN202310779312.6A CN202310779312A CN117011638A CN 117011638 A CN117011638 A CN 117011638A CN 202310779312 A CN202310779312 A CN 202310779312A CN 117011638 A CN117011638 A CN 117011638A
Authority
CN
China
Prior art keywords
mask
representation
image
block
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310779312.6A
Other languages
English (en)
Inventor
赵欢
查徐鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202310779312.6A priority Critical patent/CN117011638A/zh
Publication of CN117011638A publication Critical patent/CN117011638A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种端到端的图像掩码预训练方法及装置,该方法步骤包括:S1.对原始图像数据集中各数据样本分别进行预处理;S2.对待处理图像数据集中各数据样本分别进行不重叠切割,随机采样出指定比例的图像块作为可见块、剩余作为掩码块;S3.将可见块分别输入至两个不同的编码器中,由其中一个编码器生成可见块表示,另一个编码器用于推理出掩码块表示;S4.根据掩码块对掩码块表示与掩码块位置进行匹配和排序,匹配排序后将可见块表示和掩码块表示组合构建形成完整的原图像表示输入到解码器中进行原始图像重构。本发明具有实现方法简单、训练生成图像的图像表示能力与模型整体的学习和推理能力强等优点。

Description

一种端到端的图像掩码预训练方法及装置
技术领域
本发明涉及图像表征学习技术领域,尤其涉及一种端到端的图像掩码预训练方法及装置。
背景技术
预训练技术是学习图像先验知识的主要方式。基于掩码预训练方法作为一种图像表征学习方法,相比于自编码器其具有更强的数据表示,相比于学习需要严重依赖于数据增强策略和大量的负样本、和低扩展性的聚类方法,其掩码图像建模更符合无监督学习所要求的无标签性和独立性,以便于预训练阶段的图像表征学习。
现有技术中图像掩码预训练主要采用两种方式:基于Pixel Reconstruction的掩码图像建模方法和基于Token Reconstruction的掩码图像建模方法,其中基于PixelReconstruction的掩码图像建模方法是以重构像素值为预训练目标,引入一种非对称的编码器-解码器结构,其中编码器仅对可见块进行学习,由编码器输出的可见块表示和初始化的掩码块表示一起输入到解码器来恢复掩盖区域的图像内容。基于TokenReconstruction的掩码图像建模方法与基于Pixel Reconstruction的掩码图像建模方法的预训练目标不同,其是通过由变分自动编码器(Variational AutoEncoder,VAE)得到可见块的标记(token)来推理出掩码块的标记(token),VAE的目标是将一张完整的224×224图像映射到一个14×14标记(token)矩阵中,每一个矩阵元素对应一个16×16的图像块。综上,基于Pixel reconstruction的掩码图像建模是拟合重构的图像块和原图像块间的像素值,而基于Token reconstruction的掩码图像建模是拟合重构的图像块和真实图像块对应变分自动编码器生成的图像标记(token)。
但是,基于Pixel Reconstruction的掩码图像建模方法和基于TokenReconstruction的掩码图像建模方法均存在一定的局限性,会导致学习的图像表示属于低级语义或存在语义不足,同时,基于Token Reconstruction的掩码图像建模方法还需要高度依赖于已训练的VAE模型来提供预训练目标,导致限制了模型学习的扩展性。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、效率高且灵活性强的端到端的图像掩码预训练方法及装置,能够增强图像的语义表示能力以及模型整体的学习和推理能力,且无需依赖于模型提供高级语义信息。
为解决上述技术问题,本发明提出的技术方案为:
一种端到端的图像掩码预训练方法,当图像块表示的维度不为1时,所述预训练方法的步骤包括:
S1.对原始图像数据集中各数据样本分别进行预处理操作,得到待处理图像数据集;
S2.对所述待处理图像数据集中各数据样本分别进行不重叠切割,并从切割得到的各图片块中随机采样出指定比例的图像块作为可见块、剩余图像块作为掩码块;
S3.将所述可见块分别输入至两个不同的编码器中,由其中一个编码器生成可见块表示,另一个编码器用于根据可见块内容推理出掩码块表示;
S4.根据所述掩码块对所述掩码块表示与掩码块位置进行匹配和排序,匹配排序后将所述可见块表示和所述掩码块表示组合构建形成完整的原图像表示输入到解码器中进行原始图像重构。
进一步的,所述步骤S2中,通过对所述待处理图像数据样本中每一个样本X进行均匀不重叠切割,形成相同大小、相同数量的图片块,并按指定比例随机抽取出一个集合可见块Xv,将剩余的图像块作为掩码块Xu,其中X=Xv∪Xu
进一步的,所述步骤S3的步骤包括:
S301.将所述可见块中每一个图像块通过线性映射层将RGB三通道扩展成指定维度,得到可见块特征;
S302.初始化一个额外的cls token xcla并与所述可见块特征进行拼接构成一个特征矩阵,其中xcla用于聚集所有可见块的特征以作为输入的全局特征;
S303.将所述特征矩阵与对应的位置信息共同作为输入特征,分别输入至两个编码器中以分别得到对应的可见块表示、掩码块表示。
进一步的,两个编码器均为基于Transformer-Encoder模块构成,通过所述Transformer-Encoder模块中Add&Norm层、Feed Forward层和多头注意力层提取图像块的高级语义特征,所述Add&Norm层包括Add层和Layer Normalization层,其中Add层用于进行残差连接,所述Layer Normalization层用于将神经网络中的隐藏层归一化为标准正态分布。
进一步的,所述步骤S3中,两个编码器基于Transformer-Encoder模块生成可见块表示和掩码块表示,步骤包括:
将第l层Transformer-Encoder模块的输入el作为第l+1层Transformer-Encoder的输入,通过多头注意力层和Add&Norm层提取高级特征el′:
e′l=LayerNorm(el+MultiHeadAttention(el))
其中,MultiHeadAttention(·)是多头注意力层,LayerNorm(·)是LayerNormalization层,el+MultiHeadAttention(el)对应Add层;
将提取的所述高级特征e′l输入到Feed Forward层和Add&Norm层以提取高级语义特征:
el+1=LayerNorm(e′l+FeedForward(e′l))
其中,FeedForward(·)是一个两层的全连接层,第一层的激活函数为ReLU,第二层不使用激活函数,采用如下公式进行表述:
max(0,e′lWl1+bl1)Wl2+bl2
其中,Wl1和Wl2为待训练的特征矩阵;bl1和bl2为待训练的特征偏置;
由各图像块提取得到的高级高级语义特征最终得到各可见块和掩码块对应的高级语义表示,得到所述可见块表示和掩码块表示。
进一步的,所述多头注意力层函数MultiHeadAttention(el)中包括若干个自注意力函数Self-Attention(el),所述多头注意力层MultiHeadAttention(el)将所有自注意力函数Self-Attention(el)的输出特征拼接在一起,所述自注意力函数Self-Attention(el)包括:
Ql=el*Wl,Q
Kl=el*Wl,K
Vl=el*Wl,V
其中,Wl,Q、Wl,K、Wl,V是第l个Encoder模块中待训练的三个特征矩阵,用于对特征el进行线性映射操作,每个自注意力函数Self-Attention(el)所对应的线性映射矩阵Wl,Q、Wl,K、Wl,V不同,d是矩阵Ql和Kl的列数。
进一步的,所述步骤S4中,通过掩码表示匹配头(Masked Embeddings MatchingHead)根据所述掩码块将所述掩码块表示与掩码块位置进行匹配和排序,所述掩码表示匹配头的具体执行步骤包括:
将掩码块输入到第三个编码器以获取掩码块嵌入空间并与对应的掩码块的位置信息一一对应组合构建得到一个表示空间(Embedding space),所述第三编码器为在预训练过程中对第一编码器进行梯度滑动平均得到,第一编码器为所述两个编码器中用于生成可见块表示的编码器,掩码块表示Hu由所述两个编码器中第二编码器生成得到;
使用掩码块表示Hu和所述掩码块嵌入空间中的元素对应构建出两个集合Au并通过将集合Au中元素排序使得两个集合Au和/>元素间的KL(Kullback-Leiblerdivergence)散度最小;
根据排序后的Au的元素值相对应中的元素在构建的所述表示空间中查找对应匹配的掩码表示的位置信息,并根据查找得到的掩码块表示Hu的位置信息对掩码块表示Hu进行排序,得到排序后的掩码块表示/>
进一步的,所述步骤S4中,按照下式构建模型的预训练目标函数:
其中,是组合后的完整图像嵌入,Hv为可见块表示,g(·)表示解码器,表示根据学习的图像嵌入生成的图像,MSE表示均方误差函数以用于计算生成的图像/>和原图像X之间的像素损失。
进一步的,当图像块表示的维度为1时,所述预训练方法的步骤包括:
S1.对原始图像数据集中各数据样本分别进行预处理操作,得到待处理图像数据集;
S2.对所述待处理图像数据集中各数据样本分别进行不重叠切割,并将切割出的各图像块随机分成集合A、B;
S3.将集合A作为可见块输入到模型中,生成可见块集合A的特征表示HA、以及推理出将集合B作为掩码块的特征表示HA→B;将集合B作为可见块输入到模型中,生成可见块集合B的特征表示HB、以及推理出作为将集合A作为掩码块的特征表示HB→A
S4.通过掩码表示匹配头对特征表示HA→B进行排序,以使得特征表示HB和特征表示HA→B间的KL散度最小,以及通过掩码表示匹配头对特征表示HB→A进行排序,使得特征表示HB→A和特征表示HA间的KL散度最小;
S5.分别将排序后的特征表示HA→B与特征表示HB、排序后的特征表示HB→A与特征表示HA进行组合后,共同作为目标图像的高级语义表示。
一种计算机装置,包括处理器以及存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序以执行如上述方法。
与现有技术相比,本发明的优点在于:本发明通过充分利用掩码图像表示的特性,使用以原图像为预训练目标的学习机制进行图像掩码预训练,利用两个编码器分别学习可见块的语义信息以及根据可见块内容推理出掩码块的语义信息,然后再将可件块与掩码块的语义信息进行组合构成完整的图像表示进入图像重构,可以有效提高各类图像特征的捕获能力,针对于难以学习或捕获的图像特征,也可以通过可见块信息推理出来,有效弥补和增强图像表示,进而使得学习的图像表示在下游任务中可以相互促进、相互弥补,有效增强图像的高级语义表示能力、图像表示能力以及模型整体的学习和推理能力,且不需要依赖于模型提供高级语义信息。
附图说明
图1是本发明实施例1中端到端的图像掩码预训练方法的实现流程示意图。
图2是本发明实施例1中实现端到端的图像掩码预训练的实现网络架构原理示意图。
图3是本发明在具体应用实施例中采用的编码器的结构示意图。
图4是本发明实施例2(图像块表示的维度为1)中端到端的图像掩码预训练方法的实现流程示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如本发明公开所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。本发明公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
传统基于Pixel Reconstruction的掩码图像建模方法和基于TokenReconstruction的掩码图像建模方法都会存在一定的局限性,导致学习的图像表示属于低级语义或存在语义不足,同时基于Token Reconstruction的掩码图像建模方法又需要高度依赖于已训练的VAE模型来提供预训练目标。本发明通过结合传统基于PixelReconstruction的掩码图像建模方法和基于Token Reconstruction的掩码图像建模方法的优势,建立一个以图像像素为预训练目标同时又能够实现语义互补和增强图像表示的掩码图像建模方法,首先在完整的图像上随机采样出一定比例的图像块作为可见块和剩下图像块作为掩码块,然后可见块分别通过两个不同的编码器来提取可见块表示和通过可见块内容推理出掩码块表示,最后组合可见块表示和掩码块表示作为整个图像的隐式嵌入输入到解码器中以重构出原始图像。
本发明通过充分利用掩码图像表示的特性,使用以原图像为预训练目标的学习机制有效地增强和促进图像表示,利用两个编码器学习可见块的语义信息和根据可见块内容推理出掩码块的语义信息,可以有效提高各类图像特征的捕获能力,针对难以学习或捕获的图像特征,也可以通过可见块信息推理出来,能够在很大程度上弥补和增强图像表示,且用于推理的编码器具有更强的推理能力,也进一步增强了模型整体的学习和推理能力,从而通过上述方式学习的图像表示在下游任务中可以相互促进、相互弥补,有效增强图像的高级语义表示能力,且不需要依赖于模型提供高级语义信息。
本实施例端到端的图像掩码预训练方法,如图1、2所示,其中图像块表示的维度不为1,该预训练方法的步骤包括:
S1.对原始图像数据集中各数据样本分别进行预处理操作,得到待处理图像数据集。
在本实施例中,首先对原始图像数据集ImageNet-1K中每一个数据样本进行旋转、裁剪、着色等预处理操作,以扩充数据集ImageNet-1K的样本量,然后转换成统一大小224×224的尺寸,形成待处理图像数据集ImageNet-1K-1。
S2.对待处理图像数据集中各数据样本分别进行不重叠切割,并从切割得到的各图片块中随机采样出指定比例的图像块作为可见块、剩余图像块作为掩码块。
在本实施例中,具体通过对待处理图像数据集ImageNet-1K-1每一个样本X通过均匀不重叠切割成相同大小16×16、相同数量的图片块(patch),并按一定比例随机抽取出一个集合,即Xv,由剩余的图像块作为掩码块Xu,则X=Xv∪Xu。本实施例中采用的抽取比例具体是50%,具体可以根据实际需求配置。
S3.将可见块分别输入至两个不同的编码器中,由其中一个编码器生成可见块表示,另一个编码器用于根据可见块内容推理出掩码块表示。
在本实施例中,将可见块Xv转换成一个二维的特征矩阵,通过线性映射层以扩展每一个图片块的特征维度,然后初始化一个额外的cls token添加到输入特征的0位置,并与图片块特征进行拼接后加上相应的位置信息以作为编码器的输入特征。
S301.将可见块中每一个图像块xi∈Xv通过线性层将RGB三通道扩展成指定维度(如1024维度),即x′i=xiE;
S302.初始化一个额外的cls tokenxcla,并和可见块特征x′i进行拼接成一个特征矩阵,即[xcla,x′1,…,x′i,…,x′I],其中xcla用于聚集所有可见块的特征以作为输入的全局特征;
S303.将特征矩阵[xcla,x′1,…,x′i,…,x′I]加上相应的位置信息Epos后共同作为编码器的输入特征e0,即e0=[xcla,x′1,…,x′i,…,x′I′]+Epos
S304.将得到的输入特征e0分别输入至第一编码器fθ生成可见块对应的标记(token)即/>以及输入至第二编码器fθ推理出掩码块对应的标记(token)/>即/>即得到对应的可见块表示、掩码块表示。
在本实施例中,两个编码器(第一编码器fθ、第二编码器fθ)均为基于Transformer-Encoder模块构成,如图3所示,Transformer-Encoder模块包括Add&Norm层、Feed Forward层和多头注意力层提取图像块,通过Add&Norm层、Feed Forward层和多头注意力层提取图像块的高级语义特征,Add&Norm层包括Add层和Layer Normalization层,其中Add层用于进行残差连接,Layer Normalization层用于将神经网络中的隐藏层归一化为标准正态分布。
在本实施例中,两个编码器(第一编码器fθ、第二编码器fθ)基于Transformer-Encoder模块前向传播以生成可见块表示和掩码块表示的步骤包括:
步骤1)将第l层Transformer-Encoder模块的输入el作为第l+1层Transformer-Encoder的输入,通过多头注意力层和Add&Norm层提取高级特征e′l
其中,MultiHeadAttention(·)是多头注意力层,LayerNorm(·)是LayerNormalization层,el+MultiHeadAttention(el)对应Add层;
步骤2)将提取的所述高级特征e′l输入到Feed Forward层和Add&Norm层以提取高级语义特征:
el+1=LayerNorm(e′l+FeedForward(e′l)) (2)
其中,FeedForward(·)是一个两层的全连接层,第一层的激活函数为ReLU,第二层不使用激活函数,采用如下公式进行表述:
max(0,e′lWl1+bl1)Wl2+bl2 (3)
其中,Wl1和Wl2为待训练的特征矩阵;bl1和bl2为待训练的特征偏置;
步骤3)重复上述步骤1)、2)、3)共Num次,Num为设定的次数(本实施例具体设置为12次)最终得到关于每一个图像块对应的高级语义表示,即得到可见块表示和掩码块表示。
上述多头注意力层函数MultiHeadAttention(el)中具体包括包括若干个自注意力函数Self-Attention(el),多头注意力层MultiHeadAttention(el)将所有自注意力函数Self-Attention(el)的输出特征拼接在一起,自注意力函数Self-Attention(el):
其中,Wl,Q、Wl,K、Wl,V是第l个Encoder模块中待训练的三个特征矩阵,用于对特征el进行线性映射操作,每个自注意力函数Self-Attention(el)所对应的线性映射矩阵Wl,Q、Wl,K、Wl,V不同,d是矩阵Ql和Kl的列数。
S4.根据掩码块将掩码块表示与掩码块位置进行匹配,将匹配后可见块表示和所述掩码块表示组合构建形成完整的原图像表示输入到解码器中进行原始图像重构。
第一个编码器fθ生成的图像表示与可见块是一一对应的,但第二个编码器fθ推理的图像表示由于没有位置信息来使其与掩码块相匹配,导致学习的语义表示无法与相应的掩码块相匹配,因此需要对掩码块表示与掩码块位置进行位置匹配。本实施例进一步引入一个掩码表示匹配头,基于该掩码表示匹配头通过嵌入空间为Hu提供的位置信息来对Hu进行位置匹配和排序,该掩码表示匹配头的具体执行步骤包括:
S401.将掩码块输入到第三个编码器以获取掩码块嵌入空间/>并与对应的掩码块的位置信息一一对应组合构建得到一个表示空间,第三编码器/>为在预训练过程中对第一编码器fθ进行梯度滑动平均得到;
S402.使用掩码块表示Hu和所述掩码块嵌入空间中的元素对应构建出两个集合Au和/>并通过将集合Au中元素排序使得两个集合Au和/>元素间的KL散度最小;
S403.根据排序后的Au的元素值相对应中的元素在构建的表示空间中查找对应匹配的掩码表示的位置信息,并根据查找得到的掩码块表示Hu的位置信息对掩码块表示Hu进行排序,得到排序后的掩码块表示/>
在本实施例中,具体按照下式构建模型的预训练目标函数:
其中,是组合后的完整图像嵌入,Hv为可见块表示,g(·)表示解码器,网络结构和编码器类似,/>表示根据学习的图像嵌入生成的图像,MSE(Mean-SquareError,MSE)表示均方误差函数以用于计算生成的图像/>和原图像X之间的像素损失。
需要说明的是,在计算任意两个图像块表示的KL散度时,由于图像块表示的特点,不会存在一个图像块表示与其它图像块表示之间具有较高j的相似性,因此,排序后的Au是唯一的、明确的。
实施例2:
本实施例为对应图像块表示的维度为1的特殊情况时进行图像掩码预训练。当图像块表示的维度为1时,将每一个图像块映射为一个数值,即标记(token),然后组合成一个标记(token)矩阵作为整个图像的潜在语义嵌入。与高维度嵌入不同的是,本实施例采用类似于基于Token Reconstruction的掩码图像建模方法的预训练方法,以学习一个14×14矩阵来表示整张图像的语义信息。
本实施例与实施例1中多维度的图像块处理时存在以下区别:
(1)、使用的编码器除了包括一个Transformer-Encoder模块外,还需要后接一个线性层和一个Softmax层构成。
上述后接的一个线性层和一个Softmax层的具体过程可表示如下:
Y=Softmax(WrH+br)
其中,H是最后一层Transformer-Encoder的特征输出,表示图像块的高级语义特征,在编码器fθ中表示可见块对应的特征表示Hv和在编码器fθ中表示掩码块对应的特征表示Hu;Y是根据图像块特征生成对应的标记(token);线性层在算式中体现为WrH+br,其中Wr为待训练的特征矩阵;br为待训练的特征偏置。
(2)、计算集合元素间的最小距离时使用的是MSE函数。
本实施例在完成模型的预训练后,保留模型中第一编码器fθ和第二编码器fθ中的网络参数,以获取整个图像中每一个图像块对应的高级语义表征。其中,第一编码器fθ生成的图像块表示对应于该图像块的表示;第二编码器fθ需要通过掩码块输入第二编码器fθ和第三编码器fθ中生成的图像块表示获取每一个掩码块表示的位置信息,匹配过程与预训练阶段类似,从而进一步推理出对应的掩码块表示。
本实施例中预训练方法的具体步骤包括:
S1.对原始图像数据集中各数据样本分别进行预处理操作,得到待处理图像数据集;
S2.对所述待处理图像数据集中各数据样本分别进行不重叠切割,并将切割出的各图像块随机分成集合A、B。
举例来说,将目标图像转换成大小224×224的尺寸,通过均匀不重叠切割成相同大小16×16、相同数量的图片块(patch),并按50%的比例随机划分成两个集合A、B。
S3.将集合A作为可见块输入到模型中,生成可见块集合A的特征表示HA、以及推理出将集合B作为掩码块的特征表示HA→B;将集合B作为可见块输入到模型中,生成可见块集合B的特征表示HB、以及推理出作为将集合A作为掩码块的特征表示HB→A
S4.通过掩码表示匹配头对特征表示HA→B进行排序,以使得特征表示HB和特征表示HA→B间的KL散度最小,以及通过掩码表示匹配头对特征表示HB→A进行排序,使得特征表示HB→A和特征表示HA间的KL散度最小;
S5.分别将排序后的特征表示HA→B与特征表示HB、排序后的特征表示HB→A与特征表示HA进行组合后,共同作为目标图像的高级语义表示。
本实施例通过上述步骤,在进行下游任务时,在Transformer-Encoder模块后通过初始化新的线性层对目标图像的高级语义信息进行进一步的linear probe或fine probe微调操作,以拟合下游任务目标,能够解决传统基于Token Reconstruction的掩码图像建模方法需要依赖于模型来提供高级语义信息的问题。
本实施例计算机装置,包括处理器以及存储器,存储器用于存储计算机程序,处理器用于执行所述计算机程序以执行如上述方法。
本发明通过通过对图像语义表示进行融合,实现端到端的图像掩码预训练,能够解决传统基于Pixel Reconstruction的掩码图像建模方法生成图像表征不足等的问题,有效提高图像的高级语义表示能力。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (10)

1.一种端到端的图像掩码预训练方法,其特征在于,当图像块表示的维度不为1时,所述预训练方法的步骤包括:
S1.对原始图像数据集中各数据样本分别进行预处理操作,得到待处理图像数据集;
S2.对所述待处理图像数据集中各数据样本分别进行不重叠切割,并从切割得到的各图片块中随机采样出指定比例的图像块作为可见块、剩余图像块作为掩码块;
S3.将所述可见块分别输入至两个不同的编码器中,由其中一个编码器生成可见块表示,另一个编码器用于根据可见块内容推理出掩码块表示;
S4.根据所述掩码块对所述掩码块表示与掩码块位置进行匹配和排序,匹配排序后将所述可见块表示和所述掩码块表示组合构建形成完整的原图像表示输入到解码器中进行原始图像重构。
2.根据权利要求1所述的端到端的图像掩码预训练方法,其特征在于,所述步骤S2中,通过对所述待处理图像数据样本中每一个样本X进行均匀不重叠切割,形成相同大小、相同数量的图片块,并按指定比例随机抽取出一个集合可见块Xv,将剩余的图像块作为掩码块
Xu,其中X=Xv∪Xu
3.根据权利要求1所述的端到端的图像掩码预训练方法,其特征在于,所述步骤S3的步骤包括:
S301.将所述可见块中每一个图像块通过线性映射层将RGB三通道扩展成指定维度,得到可见块特征;
S302.初始化一个额外的cls token xcla并与所述可见块特征进行拼接构成一个特征矩阵,其中xcla用于聚集所有可见块的特征以作为输入的全局特征;
S303.将所述特征矩阵与对应的位置信息共同作为输入特征,分别输入至两个编码器中以分别得到对应的可见块表示、掩码块表示。
4.根据权利要求1所述的端到端的图像掩码预训练方法,其特征在于,两个编码器均为基于Transformer-Encoder模块构成,通过所述Transformer-Encoder模块中Add&Norm层、Feed Forward层和多头注意力层提取图像块的高级语义特征,所述Add&Norm层包括Add层和Layer Normalization层,其中Add层用于进行残差连接,所述Layer Normalization层用于将神经网络中的隐藏层归一化为标准正态分布。
5.根据权利要求4所述的端到端的图像掩码预训练方法,其特征在于,所述步骤S3中,两个编码器基于Transformer-Encoder模块生成可见块表示和掩码块表示,步骤包括:
将第l层Transformer-Encoder模块的输入el作为第l+1层Transformer-Encoder的输入,通过多头注意力层和Add&Norm层提取高级特征e′l
e′l=LayerNorm(el+MultiHeadAttention(el))
其中,MultiHeadAttention(·)是多头注意力层,LayerNorm(·)是LayerNormalization层,el+MultiHeadAttention(el)对应Add层;
将提取的所述高级特征e′l输入到Feed Forward层和Add&Norm层以提取高级语义特征:
el+1=LayerNorm(e′l+FeedForward(e′l))
其中,FeedForward(·)是一个两层的全连接层,第一层的激活函数为ReLU,第二层不使用激活函数,采用如下公式进行表述:
max(0,e′lWl1+bl1)Wl2+bl2
其中,Wl1和Wl2为待训练的特征矩阵;bl1和bl2为待训练的特征偏置;
由各图像块提取得到的高级高级语义特征最终得到各可见块和掩码块对应的高级语义表示,得到所述可见块表示和掩码块表示。
6.根据权利要求5所述的端到端的图像掩码预训练方法,其特征在于,所述多头注意力层函数MultiHeadAttention(el)中包括若干个自注意力函数Self-Attention(el),所述多头注意力层MultiHeadAttention(el)将所有自注意力函数Self-Attention(el)的输出特征拼接在一起,所述自注意力函数Self-Attention(el)包括:
Ql=el*Wl,Q
Kl=el*Wl,K
Vl=el*Wl,V
其中,Wl,Q、Wl,K、Wl,V是第l个Encoder模块中待训练的三个特征矩阵,用于对特征el进行线性映射操作,每个自注意力函数Self-Attention(el)所对应的线性映射矩阵Wl,Q、Wl,K、Wl,V不同,d是矩阵Ql和Kl的列数。
7.根据权利要求1~6中任意一项所述的端到端的图像掩码预训练方法,其特征在于,所述步骤S4中,通过掩码表示匹配头根据所述掩码块将所述掩码块表示与掩码块位置进行匹配和排序,所述掩码表示匹配头的具体执行步骤包括:
将掩码块输入到第三个编码器以获取掩码块嵌入空间并与对应的掩码块的位置信息一一对应组合构建得到一个表示空间,所述第三编码器为在预训练过程中对第一编码器进行梯度滑动平均得到,第一编码器为所述两个编码器中用于生成可见块表示的编码器,掩码块表示Hu由所述两个编码器中第二编码器生成得到;
使用掩码块表示Hu和所述掩码块嵌入空间中的元素对应构建出两个集合Au和/>并通过将集合Au中元素排序使得两个集合Au和/>元素间的KL散度最小;
根据排序后的Au的元素值相对应中的元素在构建的所述表示空间中查找对应匹配的掩码表示的位置信息,并根据查找得到的掩码块表示Hu的位置信息对掩码块表示Hu进行排序,得到排序后的掩码块表示/>
8.根据权利要求7所述的端到端的图像掩码预训练方法,其特征在于,所述步骤S4中,按照下式构建模型的预训练目标函数:
其中,是组合后的完整图像嵌入,Hv为可见块表示,g(·)表示解码器,表示根据学习的图像嵌入生成的图像,MSE表示均方误差函数以用于计算生成的图像/>和原图像X之间的像素损失。
9.根据权利要求1所述的端到端的图像掩码预训练方法,其特征在于,当图像块表示的维度为1时,所述预训练方法的步骤包括:
S1.对原始图像数据集中各数据样本分别进行预处理操作,得到待处理图像数据集;
S2.对所述待处理图像数据集中各数据样本分别进行不重叠切割,并将切割出的各图像块随机分成集合A、B;
S3.将集合A作为可见块输入到模型中,生成可见块集合A的特征表示HA、以及推理出将集合B作为掩码块的特征表示HA→B;将集合B作为可见块输入到模型中,生成可见块集合B的特征表示HB、以及推理出作为将集合A作为掩码块的特征表示HB→A
S4.通过掩码表示匹配头对特征表示HA→B进行排序,以使得特征表示HB和特征表示HA→B间的KL散度最小,以及通过掩码表示匹配头对特征表示HB→A进行排序,使得特征表示HB→A和特征表示HA间的KL散度最小;
S5.分别将排序后的特征表示HA→B与特征表示HB、排序后的特征表示HB→A与特征表示HA进行组合后,共同作为目标图像的高级语义表示。
10.一种计算机装置,包括处理器以及存储器,所述存储器用于存储计算机程序,其特征在于,所述处理器用于执行所述计算机程序以执行如权利要求1~9中任意一项所述方法。
CN202310779312.6A 2023-06-28 2023-06-28 一种端到端的图像掩码预训练方法及装置 Pending CN117011638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310779312.6A CN117011638A (zh) 2023-06-28 2023-06-28 一种端到端的图像掩码预训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310779312.6A CN117011638A (zh) 2023-06-28 2023-06-28 一种端到端的图像掩码预训练方法及装置

Publications (1)

Publication Number Publication Date
CN117011638A true CN117011638A (zh) 2023-11-07

Family

ID=88575261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310779312.6A Pending CN117011638A (zh) 2023-06-28 2023-06-28 一种端到端的图像掩码预训练方法及装置

Country Status (1)

Country Link
CN (1) CN117011638A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117671341A (zh) * 2023-11-28 2024-03-08 广州市玄武无线科技股份有限公司 一种商品识别建模方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117671341A (zh) * 2023-11-28 2024-03-08 广州市玄武无线科技股份有限公司 一种商品识别建模方法及装置

Similar Documents

Publication Publication Date Title
Mancini et al. Boosting domain adaptation by discovering latent domains
CN105184303B (zh) 一种基于多模态深度学习的图像标注方法
CN105678292A (zh) 基于卷积及递归神经网络的复杂光学文字序列识别系统
CN105678300A (zh) 一种复杂图像文字序列识别方法
CN113076994A (zh) 一种开集域自适应图像分类方法及系统
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
Dixit et al. Object based scene representations using fisher scores of local subspace projections
CN117529755A (zh) 图像识别系统中的迁移学习
Ji et al. ColorFormer: Image colorization via color memory assisted hybrid-attention transformer
CN111126464A (zh) 一种基于无监督域对抗领域适应的图像分类方法
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
CN117011638A (zh) 一种端到端的图像掩码预训练方法及装置
CN114329034A (zh) 基于细粒度语义特征差异的图像文本匹配判别方法及系统
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN114898141A (zh) 一种基于对比损失的多视图半监督图像分类方法
Ma et al. Multi-scale cooperative multimodal transformers for multimodal sentiment analysis in videos
Abdelaziz et al. Few-shot learning with saliency maps as additional visual information
Wang et al. Interpolation normalization for contrast domain generalization
WO2023168818A1 (zh) 视频和文本相似度确定方法、装置、电子设备、存储介质
CN108537855B (zh) 一种草图一致的陶瓷花纸图案生成方法及装置
Vijayalakshmi K et al. Copy-paste forgery detection using deep learning with error level analysis
Gokhale et al. AbhAS: A novel realistic image splicing forensics dataset
Hu et al. Bagging deep convolutional autoencoders trained with a mixture of real data and GAN-generated data
CN115620101A (zh) 一种基于混合标签的弱监督显著性检测方法及训练策略
CN114972851A (zh) 一种基于遥感影像的船只目标智能检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination