CN115527064A

CN115527064A - 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法

Info

Publication number: CN115527064A
Application number: CN202211152826.0A
Authority: CN
Inventors: 杜吉祥; 黄政; 张洪博; 翟传敏
Original assignee: Huaqiao University
Current assignee: Huaqiao University
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-12-27

Abstract

本发明实施例提供一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法，涉及图像识别技术领域。图像分类方法包含S1获取待识别图像。S2根据待识别图像，进行图像重叠划分，获取多个部分重叠的图像块。S3根据多个部分重叠的图像块，获取嵌入序列。S4将嵌入序列输入预先训练好的基于池化的多阶段ViT编码器中进行编码，获取待识别图像的特征编码。S5将特征编码输入分类器中进行分类，获取待识别图像的识别结果。预先训练好的基于池化的多阶段ViT编码器包含间隔设置的子编码器和池化层。子编码器包含L层transformer block，用以将嵌入序列编码成特征图。池化层配置于子编码器之间，用以调整特征图的空间尺寸。基于池化的多阶段ViT编码器能够大大减小了计算开销。

Description

基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法

技术领域

本发明涉及图像识别技术领域，具体而言，涉及一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法。

背景技术

图像分类是计算机视觉最基本的任务，主要是对目标的大类进行识别，如识别出蘑菇、鱼、狗、车等。这种分类属于粗粒度分类。然而，在日常生活中，需要更精细化的分类，如识别出蘑菇是属于鹅膏菌的鳞柄白鹅膏、鲀鱼的绿鳍马面鲀等。这种分类是细粒度子类别的识别。

细粒度图像分类难点在于不同子类在形状，外貌上极为相似，仅有细微差异，难以区分；而相同类由于目标的姿态，拍摄视角等因素，易导致分类错误。

传统的细粒度图像分类方法需要对图像数据进行目标的部件标注，以此训练模型，实现目标的部件定位和特征学习。然而，部件标注消耗巨大的人力成本，不利于细粒度分类的技术应用。

弱监督细粒度图像分类方法，仅使用图像级标注，是减少标注成本的有效办法。将带有自注意力机制的transformer结构应用于计算机视觉领域，例如：基于VisionTransformer(ViT)的细粒度图像分类方法，能够提升识别性能。但是，ViT存在图片划分破坏目标判别区域及自注意力机制引起计算开销大的问题。

有鉴于此，申请人在研究了现有的技术后特提出本申请。

发明内容

本发明提供了一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法，以改善上述技术问题中的至少一个。

本发明实施例提供了一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法，其包含：

S1、获取待识别图像。

S2、根据待识别图像，进行图像重叠划分，获取多个部分重叠的图像块。

S3、根据多个部分重叠的图像块，获取嵌入序列。

S4、将嵌入序列输入预先训练好的基于池化的多阶段Vi T编码器中进行编码，获取待识别图像的特征编码。

S5、将特征编码输入分类器中进行分类，获取待识别图像的识别结果。

预先训练好的基于池化的多阶段ViT编码器包含间隔设置的子编码器和池化层。子编码器包含L层transformer block，用以将嵌入序列编码成特征图。池化层配置于子编码器之间，用以调整特征图的空间尺寸。

通过采用上述技术方案，本发明可以取得以下技术效果：

本发明实施例的基于池化的多阶段ViT编码器能够在准确的进行细粒度图像分类的同时，大大减小了计算开销，具有很好的实际意义。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是毒蘑菇细粒度图像分类方法的流程示意图。

图2是图像重叠划分的示意图。

图3是基于池化的多阶段ViT编码器的网络结构图。

图4是池化层的网络结构图。

图5是transformer block的网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图5，本发明第一实施例提供一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法，其可由毒蘑菇细粒度图像分类设备来执行(以下简称：图像分类设备)。特别地，由图像分类设备中的一个或多个处理器来执行，以实现步骤S1至步骤S5。

S1、获取待识别图像。

可以理解的是，所述毒蘑菇细粒度图像分类设备可以是便携笔记本计算机、台式机计算机、服务器、智能手机或者平板电脑等具有计算性能的电子设备。待识别图像为保存于图像分类设备的图像，或者通过网络传输至图像分类设备的图像。

具体的，待识别图像为3通道的RGB图像X，以(C,H,W)表示，其中C为通道数，RGB图像原始通道数为C＝3。(H,W)表示图像分辨率。

优选地，所述待识别图像的分辨率为(224,224)或(448,448)。(224,224)是图像分类网络常用分辨率。(448,448)是细粒度图像分类网络常用分辨率。

具体的，本发明实施例采用滑动窗口实现图像重叠划分，能够有效减少对判别区域的破坏，从而进一步提升了学习目标图像判别区域的准确性。

如图2所示。使用滑动窗口方法对给定图像划分成多个重叠的图像块(patch)。滑动窗口大小为(P,P)，滑动步长为S(0<S≤P)。滑窗的初始位置为图像左上角，滑窗框选的图像区域(P,P)为一个图像块。滑窗先于水平方向以S步长逐步滑动至图片右边界，后重新回到左边界，在竖直方向向下滑动S，再向水平方向逐步滑动，循环进行，滑动至图像右下角结束。

相邻的两个图像块的重叠面积表示为P*(P-S)。

经滑动，共获得N个patch，N的计算公式如下：

N＝N_H*N_W

在上述实施例的基础上，本发明的一个可选地实施例中，滑动窗口由2D卷积实现，则步骤S2具体为：

根据待识别图像，以卷积核为(P,P)步幅为S进行2D卷积，获取三维块嵌入。其中，0<S≤P。

在本发明实施例中，滑动窗口由2D卷积实现，输入通为3，输出通道D，卷积核为(P,P)，步幅为S。对输入图像进行2D卷积，获得3D的块嵌入(patch embedding)，表示为(D,N_H,N_W)。优选地，在当前步骤中，输出通道D为256。

S3、根据多个部分重叠的图像块，获取嵌入序列。

具体的，需要将图像转换为计算机能够识别并运算的嵌入序列，才能输入神经网络进行操作。

在上述实施例的基础上，本发明的一个可选地实施例中，步骤S3具体包括步骤S31至步骤S33。

S31、将三维块嵌入和与其尺寸相同的三维位置嵌入相加，获取新的三维块嵌入。

S32、将新的三维块嵌入变换为二维块嵌入，获取块嵌入序列。

S33、将块嵌入序列和与其通道数相同的分类表示向量进行拼接，获取嵌入序列。

具体的，为保留图像patch的位置信息，设计一个与块嵌入尺寸相同的参数可学习的位置嵌入(position embedding)，并将原始块嵌入和位置嵌入相加，获得新的块嵌入。随后，进行3D转2D变换，即(D,N_H,N_W)→(D,N_H*N_W)，得到块嵌入序列。最后，用大小为(D,1)的可学习分类token向量

与块嵌入序列拼接，构建嵌入序列Z₀，输入transformer编码器。

可以理解的是，位置嵌入的具体参数可以根据滑动窗口的参数以及待识别图像的参数进行更新，当二者为固定不变的参数时，位置嵌入的参数也可以是固定的，本发明对位置嵌入的具体值不做限定。3D块嵌入与2D块嵌入维度不同，其二者的转换过程为本领域的公知常识，本发明在此不再赘述。

S4、将嵌入序列输入预先训练好的基于池化的多阶段ViT编码器中进行编码，获取待识别图像的特征编码。其中，预先训练好的基于池化的多阶段ViT编码器包含间隔设置的子编码器和池化层。子编码器包含L层transformer block，用以将嵌入序列编码成特征图。池化层配置于子编码器之间，用以调整特征图的空间尺寸。

优选地，子编码器的数量为3个。池化层的数量为2个。3个子编码器和2个池化层之间间隔设置，以构成三阶段的ViT编码器。可选地，三个子编码器的transformer block层数分别为3、6和4。三个阶段的2D卷积输出通道D分别为256，512,1024。三个阶段的输出空间尺寸依次减半。

在本实施例中，在包含L层transformer block的编码器中插入两层池化层，构成三阶段层次结构的ViT编码器。每一阶段的层数为{3,6,4}。具体的，层次结构的编码器能够增加模型表示能力和泛化能力的层次结构。

此外，加入池化层构成层次结构以变换特征图的空间尺寸，学习图像的层次特征。由于多头自注意力机制的运算特性，不同空间尺寸的特征图的运算仅需要更小的计算开销，具有很好的实际意义。

transformer block的网络结构如图5所示，一个transformer bl ock由两组层归一化(LN,Layer norm)，一组多头自注意力(MHSA,multiheaded self-attention)，两次残差连接，一组多层感知机(MLP,multi-layer perceptron)构成。可以理解的是，transformer block编码器是现有技术，本发明在此不再赘述，嵌入序列经transformerblock编码得到特征图。

transformer block的多头自注意力对输入的嵌入序列进行多组的自注意力处理，计算各patch的查询(query)，键(key)之间的相似度。经softmax后得到表征patch间相似度的注意力权重矩阵，再与值(value)做加权求和得到各组的自注意力模块输出。经过拼接后进行一次线性变换得到当前block的多头自注意力最终的特征编码输出。计算流程如下：

Z′_l＝MSA(LN(Z_l-1))+Z_l-1,l＝1…L

z_l＝MLP(LN(′Z_l))+z′_l,l＝1…L

需要说明的是，如图2所示，3个阶段的子编码器中，transformer block的层数分别为3/6/4，即为depth＝3/6/4。各阶段的base_dims＝[64,64,64]，heads＝[4,8,16]。base_dims为隐藏层基准维度，heads为transformer特有的多头自注意力并行运算机制，使得注意力层的输出包含不同子空间中的编码表示信息，从而增强了模型的表达能力。如隐藏层维度为256，分为4个heads，即4个子空间，每个heads维度为64。

具体的，基于池化的多阶段ViT编码器输出特征分类头

将其传入分类器获得分类预测标签y′，从而得到待识别图像的识别结果。

可以理解的是，分类器为现有的分类器，本发明对此不做具体限定。优选地，在本实施例中，分类器为线性分类器

self.head＝n.Linear(base_dims[-1]*heads[-1],num_classes)

式中，num_classes为数据集类别数、base_dims[-1]*heads[-1]为特征提取层最后一层维度，本实施例中为1024。

在上述实施例的基础上，本发明的一个可选地实施例中，分类器以对比损失和交叉熵损失相结合作为损失函数训练得到。损失函数L的表达式为：

L＝L_con(Z)+L_cross(y,y′)

式中，L_con(Z)表示对比损失，L_cross(y,y′)表示交叉熵损失。

具体的，针对细粒度图像分类子类间的差异小，类内差异大的问题，为更好监督模型的特征学习，本发明结合对比特征学习，引入对比损失(contrastive loss)来最大化不同类(即不同类别标签)的差异，最小化同类(即同类别标签)的差异。对N个样本计算对比损失，公式如下：

式中，F_i,F_j为经过L2归一化的分类头，Sim(F_i,F_j)表示F_i,F_j之间的相似余弦相似度，并且设置阈值0.4，用于筛除相似小于0.4的简单负样本对。

将对比损失和交叉熵损失相结合作为训练分类器的损失函数，本细粒度图像分类方法的损失函数表示为：

L＝L_con(Z)+L_cross(y,y′)

本发明实施例在训练阶段，只需使用图像级标注，属于弱监督细粒度图像分类，避免了成本巨大的专业人工标注，利于实际应用需求。

通过滑动窗口对图像进行重叠划分，避免了直接进行划分对细粒度图像判别区域的破坏，利于自注意力模型学习判别区域的特征，使得分类准确度更高。在先技术中，直接对图像进行划分导致目标的判别区域被破坏，影响模型对目标的重要区域的特征学习，使得分类的准确性不够高。

通过在子编码之间插入池化层将编码器分为多个阶段，有利于增加模型表示能力和泛化能力的层次结构。此外池化层减小特征图的空间尺寸，使模型学习图像的层次特征，并解决因图像重叠划分计算开销增加的问题。在先技术中，训练模型过程中特征图始终保持相同的空间尺寸，无法充分的对图像进行表达，在一定程度上降低了分类精度，并且计算开销较大。

此外，引入对比损失(contrastive loss)来使模型学习不同子类的细节特征，学习同类的相似特征，从而强化模型对图像判别区域的特征学习，能够大大提高分类性能。

在上述实施例的基础上，本发明的一个可选地实施例中，池化层用于执行步骤A1至步骤A5。具体的，池化层的加入使特征图通道数翻倍，空间尺寸减半。操作流程如图4所示，池化层核心是depth-wise卷积运算。

A1、将前一个子编码器输出的特征图拆分成分类表示和二维的空间表示。

可以理解的是，在步骤S33中，往块嵌入序列中加入了分类表示，在这个步骤中，将二者分开分别进行变换。

A2、将空间表示变换成3D张量，然后通过depth-wise卷积，获取尺寸减小后的新的3D张量。

具体的，步骤A2包括步骤A21和步骤A22。A21、将空间表示变换成3D张量。其中，3D张量的尺寸为(D,N_H,N_W)，式中，D为通道数，N_H和N_W为分辨率。A22、根据3D张量，通过输入通为D，输出通道2D，卷积核为(3,3)，步幅为2的depth-wise卷积运算，获取新的3D张量。其中，新的3D张量的尺寸为

A3、将新的3D张量变换成新的空间表示。

具体的，步骤A3包括步骤A31和步骤A32。A31、将新的3D张量和与其尺寸相同的位置嵌入相加，获得带位置信息的新的3D张量。A32、将带位置信息的新的3D张量变换成新的空间表示。

A4、将分类表示调整为与新的空间表示维度相同的新的分类表示。

具体的，步骤A4包括根据分类表示，通过全连接层，获取与新的空间表示通道数相同的新的分类表示。

A5、将新的空间表示和新的分类表示拼接，获取新的特征图。其中，新的特征图用以输入后一个子编码器。

在本实施例中，池化层先将上一个阶段编码得到的2D特征

拆分成空间tokens和一个分类token，再把空间tokens变换为3D张量，执行输入通为D，输出通道2D，卷积核为(3,3)，步幅为2的depth-wise卷积运算，实现3D张量从

的变换。然后，把新的3D张量转成尺寸为

的空间tokens。同时，用一个全连接层把分类token调整为与空间tokens维度匹配的(2D,1)。最后，空间tokens和分类token重新拼接构成新的嵌入序列

输入下一阶段的编码器。以上为完整的池化层操作流程，实现了嵌入序列的通道数增加，空间尺寸减小。

具体的，加入池化层构建多阶段的编码器，池化层使用depth-wise卷积操作实现嵌入序列维度变换，使模型学习图像的层次特征，同时能够有效的减小计算开销。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

实施例中提及的“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的实施例能够以除了在这里图示或描述的那些内容以外的顺序实施。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法，其特征在于，包含：

获取待识别图像；

根据所述待识别图像，进行图像重叠划分，获取多个部分重叠的图像块；

根据所述多个部分重叠的图像块，获取嵌入序列；

将所述嵌入序列输入预先训练好的基于池化的多阶段ViT编码器中进行编码，获取所述待识别图像的特征编码；

将所述特征编码输入分类器中进行分类，获取所述待识别图像的识别结果；

所述预先训练好的基于池化的多阶段ViT编码器包含间隔设置的子编码器和池化层；所述子编码器包含L层transformer block，用以将所述嵌入序列编码成特征图；所述池化层配置于所述子编码器之间，用以调整所述特征图的空间尺寸。

2.根据权利要求1所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法，其特征在于，所述子编码器的数量为3个；所述池化层的数量为2个；3个所述子编码器和2个所述池化层之间间隔设置，以构成三阶段的ViT编码器。

3.根据权利要求2所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法，其特征在于，三个子编码器的transformer block层数分别为3、6和4。

4.根据权利要求1所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法，其特征在于，所述池化层用于：

将前一个子编码器输出的特征图拆分成分类表示和二维的空间表示；

将所述空间表示变换成3D张量，然后通过depth-wise卷积，获取尺寸减小后的新的3D张量；

将所述新的3D张量变换成新的空间表示；

将所述分类表示调整为与所述新的空间表示维度相同的新的分类表示；

将所述新的空间表示和所述新的分类表示拼接，获取新的特征图；其中，所述新的特征图用以输入后一个子编码器。

5.根据权利要求4所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法，其特征在于，将所述空间表示变换成3D张量，然后通过depth-wise卷积，获取尺寸减小后的新的3D张量，具体包括：

将所述空间表示变换成3D张量；其中，所述3D张量的尺寸为(D,N_H,N_W)，式中，D为通道数，N_H和N_W为分辨率；

根据所述3D张量，通过输入通为D，输出通道2D，卷积核为(3,3)，步幅为2的depth-wise卷积运算，获取所述新的3D张量；其中，所述新的3D张量的尺寸为

将所述新的3D张量变换成新的空间表示，具体包括：

将所述新的3D张量和与其尺寸相同的位置嵌入相加，获得带位置信息的新的3D张量；

将所述带位置信息的新的3D张量变换成所述新的空间表示；

将所述分类表示调整为与所述新的空间表示维度相同的新的分类表示，具体包括：

根据所述分类表示，通过全连接层，获取与所述新的空间表示通道数相同的所述新的分类表示。

6.根据权利要求1所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法，其特征在于，

根据所述待识别图像，进行图像重叠划分，获取多个部分重叠的图像块，具体包括：

根据所述待识别图像，以卷积核为(P,P)步幅为S进行2D卷积，获取三维块嵌入；其中，0<S≤P。

7.根据权利要求6所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法，其特征在于，

根据所述多个部分重叠的图像块，获取嵌入序列，具体包括：

将所述三维块嵌入和与其尺寸相同的三维位置嵌入相加，获取新的三维块嵌入；

将所述新的三维块嵌入变换为二维，获取块嵌入序列；

将所述块嵌入序列和与其通道数相同的分类表示向量进行拼接，获取所述嵌入序列。

8.根据权利要求1至7任意一项所述的基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法，其特征在于，

分类器以对比损失和交叉熵损失相结合作为损失函数训练得到；损失函数L的表达式为：L＝L_con(Z)+L_cross(y,y′)，式中，L_con(Z)表示对比损失，L_cross(y,y′)表示交叉熵损失。