CN115527064A - 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法 - Google Patents

基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法 Download PDF

Info

Publication number
CN115527064A
CN115527064A CN202211152826.0A CN202211152826A CN115527064A CN 115527064 A CN115527064 A CN 115527064A CN 202211152826 A CN202211152826 A CN 202211152826A CN 115527064 A CN115527064 A CN 115527064A
Authority
CN
China
Prior art keywords
image
new
vit
stage
tensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211152826.0A
Other languages
English (en)
Inventor
杜吉祥
黄政
张洪博
翟传敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaqiao University
Original Assignee
Huaqiao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaqiao University filed Critical Huaqiao University
Priority to CN202211152826.0A priority Critical patent/CN115527064A/zh
Publication of CN115527064A publication Critical patent/CN115527064A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法,涉及图像识别技术领域。图像分类方法包含S1获取待识别图像。S2根据待识别图像,进行图像重叠划分,获取多个部分重叠的图像块。S3根据多个部分重叠的图像块,获取嵌入序列。S4将嵌入序列输入预先训练好的基于池化的多阶段ViT编码器中进行编码,获取待识别图像的特征编码。S5将特征编码输入分类器中进行分类,获取待识别图像的识别结果。预先训练好的基于池化的多阶段ViT编码器包含间隔设置的子编码器和池化层。子编码器包含L层transformer block,用以将嵌入序列编码成特征图。池化层配置于子编码器之间,用以调整特征图的空间尺寸。基于池化的多阶段ViT编码器能够大大减小了计算开销。

Description

基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法
技术领域
本发明涉及图像识别技术领域,具体而言,涉及一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法。
背景技术
图像分类是计算机视觉最基本的任务,主要是对目标的大类进行识别,如识别出蘑菇、鱼、狗、车等。这种分类属于粗粒度分类。然而,在日常生活中,需要更精细化的分类,如识别出蘑菇是属于鹅膏菌的鳞柄白鹅膏、鲀鱼的绿鳍马面鲀等。这种分类是细粒度子类别的识别。
细粒度图像分类难点在于不同子类在形状,外貌上极为相似,仅有细微差异,难以区分;而相同类由于目标的姿态,拍摄视角等因素,易导致分类错误。
传统的细粒度图像分类方法需要对图像数据进行目标的部件标注,以此训练模型,实现目标的部件定位和特征学习。然而,部件标注消耗巨大的人力成本,不利于细粒度分类的技术应用。
弱监督细粒度图像分类方法,仅使用图像级标注,是减少标注成本的有效办法。将带有自注意力机制的transformer结构应用于计算机视觉领域,例如:基于VisionTransformer(ViT)的细粒度图像分类方法,能够提升识别性能。但是,ViT存在图片划分破坏目标判别区域及自注意力机制引起计算开销大的问题。
有鉴于此,申请人在研究了现有的技术后特提出本申请。
发明内容
本发明提供了一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法,以改善上述技术问题中的至少一个。
本发明实施例提供了一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法,其包含:
S1、获取待识别图像。
S2、根据待识别图像,进行图像重叠划分,获取多个部分重叠的图像块。
S3、根据多个部分重叠的图像块,获取嵌入序列。
S4、将嵌入序列输入预先训练好的基于池化的多阶段Vi T编码器中进行编码,获取待识别图像的特征编码。
S5、将特征编码输入分类器中进行分类,获取待识别图像的识别结果。
预先训练好的基于池化的多阶段ViT编码器包含间隔设置的子编码器和池化层。子编码器包含L层transformer block,用以将嵌入序列编码成特征图。池化层配置于子编码器之间,用以调整特征图的空间尺寸。
通过采用上述技术方案,本发明可以取得以下技术效果:
本发明实施例的基于池化的多阶段ViT编码器能够在准确的进行细粒度图像分类的同时,大大减小了计算开销,具有很好的实际意义。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是毒蘑菇细粒度图像分类方法的流程示意图。
图2是图像重叠划分的示意图。
图3是基于池化的多阶段ViT编码器的网络结构图。
图4是池化层的网络结构图。
图5是transformer block的网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至图5,本发明第一实施例提供一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法,其可由毒蘑菇细粒度图像分类设备来执行(以下简称:图像分类设备)。特别地,由图像分类设备中的一个或多个处理器来执行,以实现步骤S1至步骤S5。
S1、获取待识别图像。
可以理解的是,所述毒蘑菇细粒度图像分类设备可以是便携笔记本计算机、台式机计算机、服务器、智能手机或者平板电脑等具有计算性能的电子设备。待识别图像为保存于图像分类设备的图像,或者通过网络传输至图像分类设备的图像。
具体的,待识别图像为3通道的RGB图像X,以(C,H,W)表示,其中C为通道数,RGB图像原始通道数为C=3。(H,W)表示图像分辨率。
优选地,所述待识别图像的分辨率为(224,224)或(448,448)。(224,224)是图像分类网络常用分辨率。(448,448)是细粒度图像分类网络常用分辨率。
S2、根据待识别图像,进行图像重叠划分,获取多个部分重叠的图像块。
具体的,本发明实施例采用滑动窗口实现图像重叠划分,能够有效减少对判别区域的破坏,从而进一步提升了学习目标图像判别区域的准确性。
如图2所示。使用滑动窗口方法对给定图像划分成多个重叠的图像块(patch)。滑动窗口大小为(P,P),滑动步长为S(0<S≤P)。滑窗的初始位置为图像左上角,滑窗框选的图像区域(P,P)为一个图像块。滑窗先于水平方向以S步长逐步滑动至图片右边界,后重新回到左边界,在竖直方向向下滑动S,再向水平方向逐步滑动,循环进行,滑动至图像右下角结束。
相邻的两个图像块的重叠面积表示为P*(P-S)。
经滑动,共获得N个patch,N的计算公式如下:
N=NH*NW
Figure BDA0003857614800000041
Figure BDA0003857614800000042
在上述实施例的基础上,本发明的一个可选地实施例中,滑动窗口由2D卷积实现,则步骤S2具体为:
根据待识别图像,以卷积核为(P,P)步幅为S进行2D卷积,获取三维块嵌入。其中,0<S≤P。
在本发明实施例中,滑动窗口由2D卷积实现,输入通为3,输出通道D,卷积核为(P,P),步幅为S。对输入图像进行2D卷积,获得3D的块嵌入(patch embedding),表示为(D,NH,NW)。优选地,在当前步骤中,输出通道D为256。
S3、根据多个部分重叠的图像块,获取嵌入序列。
具体的,需要将图像转换为计算机能够识别并运算的嵌入序列,才能输入神经网络进行操作。
在上述实施例的基础上,本发明的一个可选地实施例中,步骤S3具体包括步骤S31至步骤S33。
S31、将三维块嵌入和与其尺寸相同的三维位置嵌入相加,获取新的三维块嵌入。
S32、将新的三维块嵌入变换为二维块嵌入,获取块嵌入序列。
S33、将块嵌入序列和与其通道数相同的分类表示向量进行拼接,获取嵌入序列。
具体的,为保留图像patch的位置信息,设计一个与块嵌入尺寸相同的参数可学习的位置嵌入(position embedding),并将原始块嵌入和位置嵌入相加,获得新的块嵌入。随后,进行3D转2D变换,即(D,NH,NW)→(D,NH*NW),得到块嵌入序列。最后,用大小为(D,1)的可学习分类token向量
Figure BDA0003857614800000051
与块嵌入序列拼接,构建嵌入序列Z0,输入transformer编码器。
可以理解的是,位置嵌入的具体参数可以根据滑动窗口的参数以及待识别图像的参数进行更新,当二者为固定不变的参数时,位置嵌入的参数也可以是固定的,本发明对位置嵌入的具体值不做限定。3D块嵌入与2D块嵌入维度不同,其二者的转换过程为本领域的公知常识,本发明在此不再赘述。
S4、将嵌入序列输入预先训练好的基于池化的多阶段ViT编码器中进行编码,获取待识别图像的特征编码。其中,预先训练好的基于池化的多阶段ViT编码器包含间隔设置的子编码器和池化层。子编码器包含L层transformer block,用以将嵌入序列编码成特征图。池化层配置于子编码器之间,用以调整特征图的空间尺寸。
优选地,子编码器的数量为3个。池化层的数量为2个。3个子编码器和2个池化层之间间隔设置,以构成三阶段的ViT编码器。可选地,三个子编码器的transformer block层数分别为3、6和4。三个阶段的2D卷积输出通道D分别为256,512,1024。三个阶段的输出空间尺寸依次减半。
在本实施例中,在包含L层transformer block的编码器中插入两层池化层,构成三阶段层次结构的ViT编码器。每一阶段的层数为{3,6,4}。具体的,层次结构的编码器能够增加模型表示能力和泛化能力的层次结构。
此外,加入池化层构成层次结构以变换特征图的空间尺寸,学习图像的层次特征。由于多头自注意力机制的运算特性,不同空间尺寸的特征图的运算仅需要更小的计算开销,具有很好的实际意义。
transformer block的网络结构如图5所示,一个transformer bl ock由两组层归一化(LN,Layer norm),一组多头自注意力(MHSA,multiheaded self-attention),两次残差连接,一组多层感知机(MLP,multi-layer perceptron)构成。可以理解的是,transformer block编码器是现有技术,本发明在此不再赘述,嵌入序列经transformerblock编码得到特征图。
transformer block的多头自注意力对输入的嵌入序列进行多组的自注意力处理,计算各patch的查询(query),键(key)之间的相似度。经softmax后得到表征patch间相似度的注意力权重矩阵,再与值(value)做加权求和得到各组的自注意力模块输出。经过拼接后进行一次线性变换得到当前block的多头自注意力最终的特征编码输出。计算流程如下:
Z′l=MSA(LN(Zl-1))+Zl-1,l=1…L
zl=MLP(LN(′Zl))+z′l,l=1…L
需要说明的是,如图2所示,3个阶段的子编码器中,transformer block的层数分别为3/6/4,即为depth=3/6/4。各阶段的base_dims=[64,64,64],heads=[4,8,16]。base_dims为隐藏层基准维度,heads为transformer特有的多头自注意力并行运算机制,使得注意力层的输出包含不同子空间中的编码表示信息,从而增强了模型的表达能力。如隐藏层维度为256,分为4个heads,即4个子空间,每个heads维度为64。
S5、将特征编码输入分类器中进行分类,获取待识别图像的识别结果。
具体的,基于池化的多阶段ViT编码器输出特征分类头
Figure BDA0003857614800000061
将其传入分类器获得分类预测标签y′,从而得到待识别图像的识别结果。
可以理解的是,分类器为现有的分类器,本发明对此不做具体限定。优选地,在本实施例中,分类器为线性分类器
self.head=n.Linear(base_dims[-1]*heads[-1],num_classes)
式中,num_classes为数据集类别数、base_dims[-1]*heads[-1]为特征提取层最后一层维度,本实施例中为1024。
在上述实施例的基础上,本发明的一个可选地实施例中,分类器以对比损失和交叉熵损失相结合作为损失函数训练得到。损失函数L的表达式为:
L=Lcon(Z)+Lcross(y,y′)
式中,Lcon(Z)表示对比损失,Lcross(y,y′)表示交叉熵损失。
具体的,针对细粒度图像分类子类间的差异小,类内差异大的问题,为更好监督模型的特征学习,本发明结合对比特征学习,引入对比损失(contrastive loss)来最大化不同类(即不同类别标签)的差异,最小化同类(即同类别标签)的差异。对N个样本计算对比损失,公式如下:
Figure BDA0003857614800000071
式中,Fi,Fj为经过L2归一化的分类头,Sim(Fi,Fj)表示Fi,Fj之间的相似余弦相似度,并且设置阈值0.4,用于筛除相似小于0.4的简单负样本对。
将对比损失和交叉熵损失相结合作为训练分类器的损失函数,本细粒度图像分类方法的损失函数表示为:
L=Lcon(Z)+Lcross(y,y′)
本发明实施例在训练阶段,只需使用图像级标注,属于弱监督细粒度图像分类,避免了成本巨大的专业人工标注,利于实际应用需求。
通过滑动窗口对图像进行重叠划分,避免了直接进行划分对细粒度图像判别区域的破坏,利于自注意力模型学习判别区域的特征,使得分类准确度更高。在先技术中,直接对图像进行划分导致目标的判别区域被破坏,影响模型对目标的重要区域的特征学习,使得分类的准确性不够高。
通过在子编码之间插入池化层将编码器分为多个阶段,有利于增加模型表示能力和泛化能力的层次结构。此外池化层减小特征图的空间尺寸,使模型学习图像的层次特征,并解决因图像重叠划分计算开销增加的问题。在先技术中,训练模型过程中特征图始终保持相同的空间尺寸,无法充分的对图像进行表达,在一定程度上降低了分类精度,并且计算开销较大。
此外,引入对比损失(contrastive loss)来使模型学习不同子类的细节特征,学习同类的相似特征,从而强化模型对图像判别区域的特征学习,能够大大提高分类性能。
在上述实施例的基础上,本发明的一个可选地实施例中,池化层用于执行步骤A1至步骤A5。具体的,池化层的加入使特征图通道数翻倍,空间尺寸减半。操作流程如图4所示,池化层核心是depth-wise卷积运算。
A1、将前一个子编码器输出的特征图拆分成分类表示和二维的空间表示。
可以理解的是,在步骤S33中,往块嵌入序列中加入了分类表示,在这个步骤中,将二者分开分别进行变换。
A2、将空间表示变换成3D张量,然后通过depth-wise卷积,获取尺寸减小后的新的3D张量。
具体的,步骤A2包括步骤A21和步骤A22。A21、将空间表示变换成3D张量。其中,3D张量的尺寸为(D,NH,NW),式中,D为通道数,NH和NW为分辨率。A22、根据3D张量,通过输入通为D,输出通道2D,卷积核为(3,3),步幅为2的depth-wise卷积运算,获取新的3D张量。其中,新的3D张量的尺寸为
Figure BDA0003857614800000081
A3、将新的3D张量变换成新的空间表示。
具体的,步骤A3包括步骤A31和步骤A32。A31、将新的3D张量和与其尺寸相同的位置嵌入相加,获得带位置信息的新的3D张量。A32、将带位置信息的新的3D张量变换成新的空间表示。
A4、将分类表示调整为与新的空间表示维度相同的新的分类表示。
具体的,步骤A4包括根据分类表示,通过全连接层,获取与新的空间表示通道数相同的新的分类表示。
A5、将新的空间表示和新的分类表示拼接,获取新的特征图。其中,新的特征图用以输入后一个子编码器。
在本实施例中,池化层先将上一个阶段编码得到的2D特征
Figure BDA0003857614800000091
Figure BDA0003857614800000092
拆分成空间tokens和一个分类token,再把空间tokens变换为3D张量,执行输入通为D,输出通道2D,卷积核为(3,3),步幅为2的depth-wise卷积运算,实现3D张量从
Figure BDA0003857614800000093
的变换。然后,把新的3D张量转成尺寸为
Figure BDA0003857614800000094
的空间tokens。同时,用一个全连接层把分类token调整为与空间tokens维度匹配的(2D,1)。最后,空间tokens和分类token重新拼接构成新的嵌入序列
Figure BDA0003857614800000095
输入下一阶段的编码器。以上为完整的池化层操作流程,实现了嵌入序列的通道数增加,空间尺寸减小。
具体的,加入池化层构建多阶段的编码器,池化层使用depth-wise卷积操作实现嵌入序列维度变换,使模型学习图像的层次特征,同时能够有效的减小计算开销。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
实施例中提及的“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的实施例能够以除了在这里图示或描述的那些内容以外的顺序实施。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法,其特征在于,包含:
获取待识别图像;
根据所述待识别图像,进行图像重叠划分,获取多个部分重叠的图像块;
根据所述多个部分重叠的图像块,获取嵌入序列;
将所述嵌入序列输入预先训练好的基于池化的多阶段ViT编码器中进行编码,获取所述待识别图像的特征编码;
将所述特征编码输入分类器中进行分类,获取所述待识别图像的识别结果;
所述预先训练好的基于池化的多阶段ViT编码器包含间隔设置的子编码器和池化层;所述子编码器包含L层transformer block,用以将所述嵌入序列编码成特征图;所述池化层配置于所述子编码器之间,用以调整所述特征图的空间尺寸。
2.根据权利要求1所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法,其特征在于,所述子编码器的数量为3个;所述池化层的数量为2个;3个所述子编码器和2个所述池化层之间间隔设置,以构成三阶段的ViT编码器。
3.根据权利要求2所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法,其特征在于,三个子编码器的transformer block层数分别为3、6和4。
4.根据权利要求1所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法,其特征在于,所述池化层用于:
将前一个子编码器输出的特征图拆分成分类表示和二维的空间表示;
将所述空间表示变换成3D张量,然后通过depth-wise卷积,获取尺寸减小后的新的3D张量;
将所述新的3D张量变换成新的空间表示;
将所述分类表示调整为与所述新的空间表示维度相同的新的分类表示;
将所述新的空间表示和所述新的分类表示拼接,获取新的特征图;其中,所述新的特征图用以输入后一个子编码器。
5.根据权利要求4所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法,其特征在于,将所述空间表示变换成3D张量,然后通过depth-wise卷积,获取尺寸减小后的新的3D张量,具体包括:
将所述空间表示变换成3D张量;其中,所述3D张量的尺寸为(D,NH,NW),式中,D为通道数,NH和NW为分辨率;
根据所述3D张量,通过输入通为D,输出通道2D,卷积核为(3,3),步幅为2的depth-wise卷积运算,获取所述新的3D张量;其中,所述新的3D张量的尺寸为
Figure FDA0003857614790000021
将所述新的3D张量变换成新的空间表示,具体包括:
将所述新的3D张量和与其尺寸相同的位置嵌入相加,获得带位置信息的新的3D张量;
将所述带位置信息的新的3D张量变换成所述新的空间表示;
将所述分类表示调整为与所述新的空间表示维度相同的新的分类表示,具体包括:
根据所述分类表示,通过全连接层,获取与所述新的空间表示通道数相同的所述新的分类表示。
6.根据权利要求1所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法,其特征在于,
根据所述待识别图像,进行图像重叠划分,获取多个部分重叠的图像块,具体包括:
根据所述待识别图像,以卷积核为(P,P)步幅为S进行2D卷积,获取三维块嵌入;其中,0<S≤P。
7.根据权利要求6所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法,其特征在于,
根据所述多个部分重叠的图像块,获取嵌入序列,具体包括:
将所述三维块嵌入和与其尺寸相同的三维位置嵌入相加,获取新的三维块嵌入;
将所述新的三维块嵌入变换为二维,获取块嵌入序列;
将所述块嵌入序列和与其通道数相同的分类表示向量进行拼接,获取所述嵌入序列。
8.根据权利要求1至7任意一项所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法,其特征在于,
分类器以对比损失和交叉熵损失相结合作为损失函数训练得到;损失函数L的表达式为:L=Lcon(Z)+Lcross(y,y′),式中,Lcon(Z)表示对比损失,Lcross(y,y′)表示交叉熵损失。
CN202211152826.0A 2022-09-21 2022-09-21 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法 Pending CN115527064A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211152826.0A CN115527064A (zh) 2022-09-21 2022-09-21 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211152826.0A CN115527064A (zh) 2022-09-21 2022-09-21 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法

Publications (1)

Publication Number Publication Date
CN115527064A true CN115527064A (zh) 2022-12-27

Family

ID=84699717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211152826.0A Pending CN115527064A (zh) 2022-09-21 2022-09-21 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法

Country Status (1)

Country Link
CN (1) CN115527064A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116135797A (zh) * 2023-04-19 2023-05-19 江苏海峡环保科技发展有限公司 污水处理智能控制系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116135797A (zh) * 2023-04-19 2023-05-19 江苏海峡环保科技发展有限公司 污水处理智能控制系统
CN116135797B (zh) * 2023-04-19 2023-07-04 江苏海峡环保科技发展有限公司 污水处理智能控制系统

Similar Documents

Publication Publication Date Title
CN111985369B (zh) 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
Shang et al. SAR targets classification based on deep memory convolution neural networks and transfer parameters
CN111695467B (zh) 基于超像素样本扩充的空谱全卷积高光谱图像分类方法
CN110516095B (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN110349229A (zh) 一种图像描述方法及装置
CN109492610B (zh) 一种行人重识别方法、装置及可读存储介质
CN114386534A (zh) 一种基于变分自编码器和对抗生成网络的图像增广模型训练方法及图像分类方法
SG171858A1 (en) A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine
JP2011248879A (ja) テスト画像内のオブジェクトを分類するための方法
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN112597324A (zh) 一种基于相关滤波的图像哈希索引构建方法、系统及设备
CN113065409A (zh) 一种基于摄像分头布差异对齐约束的无监督行人重识别方法
CN115131313A (zh) 基于Transformer的高光谱图像变化检测方法及装置
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN115527064A (zh) 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法
CN112990340B (zh) 一种基于特征共享的自学习迁移方法
CN114445816A (zh) 一种基于二维图像和三维点云的花粉分类方法
Li et al. Image decomposition with multilabel context: Algorithms and applications
CN114329031A (zh) 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法
CN114913339A (zh) 特征图提取模型的训练方法和装置
Parekhji et al. Comparing GANs for translating satellite images to maps
CN116129198B (zh) 一种多域轮胎花纹图像分类方法、系统、介质及设备
CN116501908B (zh) 一种基于特征融合可学习图注意力网络的图像检索方法
Ring Learning Approaches in Signal Processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination