CN116452896B

CN116452896B - 用于提升细粒度图像分类性能的方法、系统、设备及介质

Info

Publication number: CN116452896B
Application number: CN202310715333.1A
Authority: CN
Inventors: 谢洪涛; 卢志颖; 张勇东; 刘传彬
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-10-20
Anticipated expiration: 2043-06-16
Also published as: CN116452896A

Abstract

本发明公开了一种用于提升细粒度图像分类性能的方法、系统、设备及介质，它们是一一对应的方案，方案中：在细粒度图像分类网络中设置源信息生成器、中间处理器与目标结合器对细粒度图像分类网络提取的图像特征进行处理后再进行分类，可以提升分类精确度；源信息生成器、中间处理器与目标结合器可以适用于多种结构的细粒度图像分类网络，体现了其即插即用特性，并且，所需的额外计算非常小，与现有的细粒度图像分类网络相结合，能带来更进一步的性能提升，体现了泛用性；综上所示，本发明可以兼顾计算资源消耗和精度提升，并且可以实现即插即用性和泛用性，对于细粒度识别的实际应用有积极深远的影响。

Description

用于提升细粒度图像分类性能的方法、系统、设备及介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种用于提升细粒度图像分类性能的方法、系统、设备及介质。

背景技术

细粒度图像分类也称作子类别图像分类，是近年来计算机视觉、模式识别等领域一个热门的研究课题。其目的是对图像中粗粒度的物体类别做更为细致的子类划分，但由于属于不同子类别的物体存在细微的类间差异和较大的类内差异，因此与普通的图像分类任务相比，细粒度图像分类难度更大。

细粒度图像分类是一项极具挑战的研究课题，为了获得满意的分类结果，许多现有方案着眼于提取更精细和更充分的物体特征，力求将该类物体与其他类物体进行更精细的区分。这些现有方案基于特征提取骨干网络，例如卷积神经网络模型或者视觉Transformer（变换器）模型，设计了复杂的特征处理模块和分类头。特征处理模块通过融合多层语义信息获得充分的物体表征，分类头则主要基于增强后的物体表征，结合多阶段迭代计算或高阶语义表征算法来得到细粒度识别结果。现有方案虽能够取得较高的精度，但需要消耗大量的计算资源，不利于实际部署与应用。

近年来，由于细粒度物体分类在实际生活中的应用需求增大，如何设计出一种兼顾计算资源消耗和识别精度的细粒度分类算法，越来越得到广泛且深入的研究。

发明内容

本发明的目的是提供一种用于提升细粒度图像分类性能的方法、系统、设备及介质，可以兼顾计算资源消耗和识别精度提升，并且可以实现即插即用性和泛用性。

本发明的目的是通过以下技术方案实现的：

一种用于提升细粒度图像分类性能的方法，包括：

在细粒度图像分类网络中设置源信息生成器、中间处理器与目标结合器；

通过源信息生成器、中间处理器与目标结合器对细粒度图像分类网络从输入图像中提取的若干图像特征进行处理，获得输出分类元素，并由细粒度图像分类网络中的分类器进行分类；其中，所述源信息生成器对细粒度图像分类网络从输入图像中提取的若干图像特征分别进行信息提取，获得若干初级信息元素；所述中间处理器结合给定的分类元素，将所述若干初级信息元素融合为信息元素；所述目标结合器将所述信息元素与所述给定的分类元素融合为输出分类元素。

一种用于提升细粒度图像分类性能的系统，包括：

网络设置单元，用于在细粒度图像分类网络中设置源信息生成器、中间处理器与目标结合器；

信息处理与分类单元，用于通过源信息生成器、中间处理器与目标结合器对细粒度图像分类网络从输入图像中提取的若干图像特征进行处理，获得输出分类元素，并由细粒度图像分类网络中的分类器进行分类；其中，所述源信息生成器对细粒度图像分类网络从输入图像中提取的若干图像特征分别进行信息提取，获得若干初级信息元素；所述中间处理器结合给定的分类元素，将所述若干初级信息元素融合为信息元素；所述目标结合器将所述信息元素与所述给定的分类元素融合为输出分类元素。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，本发明设置的源信息生成器、中间处理器与目标结合器可以适用于多种结构的细粒度图像分类网络，体现了其即插即用特性；并且，引入源信息生成器、中间处理器与目标结合器后所需的额外计算非常小，与现有的细粒度图像分类网络相结合，能带来更进一步的性能提升，体现了泛用性；同时，经过测试实验表明本发明的方案获得当前最高的精确度。综上所示，本发明可以兼顾计算资源消耗和精度提升，并且可以实现即插即用性和泛用性，对于细粒度识别的实际应用有积极深远的影响。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种用于提升细粒度图像分类性能的方法的示意图；

图2为本发明实施例提供的信息快速路方案的整体流程示意图；

图3为本发明实施例提供的细粒度图像分类网络的整体架构示意图；

图4为本发明实施例提供的分类残差融合模块的结构示意图；

图5为本发明实施例提供的多阶段语义融合模块的结构示意图；

图6为本发明实施例提供的双向特征对齐模块的结构示意图；

图7为本发明实施例提供的一种用于提升细粒度图像分类性能的系统的示意图；

图8为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

下面对本发明所提供的一种用于提升细粒度图像分类性能的方法、系统、设备及介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

实施例一

本发明实施例提供一种用于提升细粒度图像分类性能的方法，如图1所示，主要包括：在细粒度图像分类网络中设置源信息生成器、中间处理器与目标结合器；通过源信息生成器、中间处理器与目标结合器对细粒度图像分类网络从输入图像中提取的若干图像特征进行处理，获得输出分类元素，并由细粒度图像分类网络中的分类器进行分类；其中，所述源信息生成器对细粒度图像分类网络从输入图像中提取的若干图像特征分别进行信息提取，获得若干初级信息元素；所述中间处理器结合给定的分类元素，将所述若干初级信息元素融合为信息元素；所述目标结合器将所述信息元素与所述给定的分类元素融合为输出分类元素。

本发明实施例中，提取的信息是指图像特征；文中提到的各类元素均为相应的特征，例如，初级信息元素是从源特征（即从输入图像中提取的图像特征）中提取到的特征；信息元素则是初级信息元素融合后生成的特征信息。

本发明实施例提供的上述方案中，源信息生成器、中间处理器与目标结合器可以称为信息快速路方案，如图2所示，为信息快速路方案的整体流程，它可以将任意多的输入特征进行充分融合，融合后生成的单独的信息元素携带关于物体更细致和全面的表征，并可以与任意的目标元素相融合，将精细化的物体表征传递到目标元素中，在本发明实施例中，将给定的分类元素作为目标元素。由于信息的传递只通过一个元素进行，因此所需的额外计算量和内存消耗会非常小。

图1与图2中跳连的信息均为分类元素。

基于上述信息快速路方案，本发明设计了三种具体模块，分别称为分类残差融合模块（Class Residual Fusion，CRF）、多阶段语义融合模块（Stage Semantic Fusion，SSF）、双向特征对齐模块（Dual Feature Alignment， DFA）。本发明设计的三个模块可以被引入到任意基于卷积神经网络和视觉Transformer模型的细粒度图像分类网络中，并带来识别精度的提升；同时三个模块所需的额外计算量和内存消耗量非常小，实现了计算资源消耗和识别精度的平衡。具体的：利用源信息生成器与中间处理器构建分类残差融合模块，利用源信息生成器与中间处理器构建多阶段语义融合模块，利用目标结合器构建双向特征对齐模块；所述分类残差融合模块、多阶段语义融合模块与双向特征对齐模块形成一个整体模块，根据分类元素的数目设置相应数目的整体模块；其中，每一个整体模块中的工作过程包括：分类残差融合模块与多阶段语义融合模块分别输出一个信息元素，双向特征对齐模块将给定的分类元素与两个信息元素进行融合，获得输出分类元素；当整体模块的数目大于1时，将所有输出分类元素合并获得最终的输出分类元素，再由细粒度图像分类网络中的分类器进行分类。

下面以一个具体细粒度图像分类网络为例介绍引入以上三个模块后的整体流程。如图3所示，细粒度图像分类网络为早期阶段采用卷积层和移动卷积层，深层采用常规编码器层的混合型视觉Transformer架构。这种架构可以视作视觉Transformer与卷积神经网络的混合架构，相比于视觉Transformer模型，具有更高效的低级特征例如纹理特征、形状特征的提取能力，能够在视觉识别任务上获得更高的精度。输入一张图像，将图像调整为指定尺寸（例如，448*448），然后作为骨干网络的视觉Transformer模型会将图像通过块嵌入映射，生成一系列的图像块元素，组成一个元素序列。每个块元素由设定大小（例如，16*16）的像素的图像区域组成，以上述具体数值的尺寸为例，则总的序列长度M为：。

本领域技术人员可以理解，通常情况下将形状是二维、方形的特征称为特征图。在混合型视觉Transformer架构的前3个阶段中，特征的形式为特征图。从第4个阶段开始，特征会被变形为一维序列，然后再合并分类元素，因此称为元素序列；当然，此处的特征图与元素序列均属于特征。

元素序列会通过多层级联的编码器层进行特征提取，每个编码器层包含一个多头注意力模块和一个多层感知机模块。一个额外的分类元素会加入到元素序列中，并通过多头注意力机制收集来自所有块元素的物体表征。最后一个编码器层输出的分类元素会被送入到线性分类头中，获得细粒度图像分类结果。每个编码器层可以公式化如下：

；

其中，为第/>个Transformer的编码器层的输出特征，/>为第/>个Transformer的编码器层的输出特征，/>为第/>个编码器层的多头注意力模块的输出特征，，/>为该阶段中编码器层的总数，/>为元素序列中每个元素的通道数，n为空间维度，/>为实数集符号。MHSA与MLP分别指代多头自注意力模块和多层感知机模块，LN表示层归一化方法。多头自注意力模块会将输入序列通过多组线性映射函数映射成为/>、/>、/>三个矩阵，每个序列的维度都是/>，其中/>为线性映射函数的组数，即多头注意力的头数。

多头自注意力机制的公式化可以表示为：

；

其中，T为转置符号，、/>、/>分别为多头自注意力机制中的查询矩阵、键矩阵、值矩阵，softmax为归一化指数函数。

本发明实施例中，不同阶段中编码器层的总数L不同，示例性的，阶段4中L=14，阶段5中L=2。

引入本发明所提出的三个模块后，会分别从网络的多个阶段、每个阶段内的多个编码器层提取信息，然后各自生成单独的信息元素。来自多个模块的信息元素通过目标接合器与分类元素进行融合，将来自多个层级的语义信息补充到分类元素中，从而提高细粒度分类的精度。

本发明实施例中，分类元素一开始是一组可学习的参数，可以利用数据集训练得到的，由于分类元素承担了图像的类别信息，因此本发明提出的方法可将更多信息融合到分类元素中，帮助进行细粒度图像分类，获得更为准确的分类结果。

图3所示的示例中，第3和第4阶段分别使用了两个不同的分类元素，因此，设置了中上下两个整体模块（即SSF、DFA、CRF组成的模块），两个整体模块的输出分类元素通过合并模块进行空间上的合并，再通过聚合层进行线性加权后输入到线性分类头中得到细粒度分类结果。图3中，H、W为输入图像的高度、宽度，3为输入图像的通道数目，d₁~d₅为对应的5个阶段中特征的通道数目，符号表示划分，符号/>表示合并。

本发明实施例提供的上述方案与现有方法相比，显著提升了分类精确度：在CUB-200-2011数据集上达到了当今最高的93.1%的精确度，在Stanford Cars数据集上达到最高的95.3%的精确度，在Stanford Dogs上达到最高的92.4%的精确度。同时，三个模块引入后，所需的额外内存消耗量仅增加不到3%，额外计算量仅增加不到1%，体现出了方案的轻量化特性。并且可以在视觉Transformer和卷积神经网络的混合模型，以及视觉Transformer模型上都能带来性能提升，体现了该方案的即插即用特性。由于方案所需的额外计算非常小，与以往复杂的基于视觉Transformer模型相结合，能带来更进一步的性能提升，体现了该方案的泛用性。综上所述，本发明可以兼顾计算资源消耗和精度提升，并且可以做到即插即用性和泛用性，对于细粒度识别的实际应用有积极深远的影响。

为了更加清晰地展现出本发明所提供的技术方案，下面以具体实施例对本发明实施例所提供三个模块进行详细描述。

一、分类残差融合模块。

本发明实施例中，分类残差融合模块可以将每个阶段内的各个编码器层所学习到的独立表征进行融合，并将融合后的丰富语义特征与目标元素相融合。所述分类残差融合模块中的源信息生成器与中间处理器称为第一源信息生成器与第一中间处理器；第一源信息生成器的数目与对应阶段中编码器层的数目相同，单个第一源信息生成器对单个编码器层输出的图像特征进行信息提取，获得第一初级信息元素；第一中间处理器的输入为所有第一初级信息元素以及给定的分类元素，通过交叉注意力机制，将所有第一初级信息元素聚合到收集者元素上，再与给定的分类元素相加后通过多层感知机处理，获得信息元素，称为第一信息元素。其中，所述阶段是指细粒度图像分类网络的工作阶段，分类残差融合模块对应的阶段中包含若干编码器层；所述收集者元素为一组预训练的参数。

本发明实施例中，不同整体模块对应于不同的分类元素，因此，可以一个整体模块对应的分类元素称之为目标元素。

如图4所示，为分类残差融合模块的原理图。左侧部分展示了单个第一源信息生成器的原理，单个第一源信息生成器对应细粒度图像分类网络的单个阶段中的单个编码器层（例如，第k个编码器层），根据对应编码器层的输入图像特征与输出图像特征确定对应编码器层输入与输出的分类元素，将二者相减，再乘以一个加权系数，获得第一初级信息元素，可以用如下公式表示：

；

其中，表示第/>个编码器层对应的第一初级信息元素，/>为加权系数，/>与分别表示第/>个编码器层输出的分类元素与输入的分类元素，以上四个参数的维度均为/>。加权系数/>是可学习的参数，可以赋予每个残差（即/>）特定的权重，并在训练阶段早期使模型训练更平稳。

以前文提到的编码器层的总数L为例，分类残差融合模块中第一源信息生成器的数目为L，获得的第一初级信息元素的数目也为L，L的具体数值可根据实际情况进行设定。

图4的右侧部分为第一中间处理器的原理，将所有第一初级信息元素在空间上进行合并，然后利用交叉注意力机制将信息聚合到收集者元素上，收集者元素与目标元素之和再通过多层感知机进行重加权，得到最终具有丰富语义表征的第一信息元素。在交叉注意力机制中，由预定义的可学习的收集者元素/>通过线性映射而来，而和/>则是由收集者元素与L个初级信息元素合并而成的序列线性映射而来。交叉注意力机制可以被公式化如下：

；

其中，表示交叉注意力机制，/>、/>、/>分别为交叉注意力机制中的查询矩阵、键矩阵、值矩阵。

本领域技术人员可以理解，文中所述的第一、第二主要起到标识的作用。

二、多阶段语义融合模块。

本发明实施例中，多阶段语义融合模块可以将来多个阶段的各层级语义特征相融合，使得模型在深层具有对局部细粒度特征的感知能力，从而对细粒度图像进行更精确的分类。所述多阶段语义融合模块中的源信息生成器与中间处理器称为第二源信息生成器与第二中间处理器；第二源信息生成器的数目为若干个，单个第二源信息生成器对应一个设定阶段，单个第二源信息生成器对设定阶段输出的图像特征进行信息提取，获得第二初级信息元素；第二中间处理器的输入为所有第二初级信息元素以及给定的分类元素，通过多头通道自注意力机制将所有第二初级信息元素以及给定的分类元素合并，再与给定的分类元素相加后通过多层感知机处理，获得信息元素，称为第二信息元素。其中，所述阶段是指细粒度图像分类网络的工作阶段，每一工作阶段输出相应的图像特征。

如图5所示，为多阶段语义融合模块的原理图。左侧部分展示了左侧部分展示了单个第二源信息生成器的原理，单个第二源信息生成器对应细粒度图像分类网络的单个阶段，对单个阶段输出的图像特征进行下采样，通过交叉注意力机制与收集者元素聚合，再通过多层感知机处理，获得第二初级信息元素。具体的，每个第二源信息生成器包含相应的提取器，虚线框部分展示了提取器的处理流程：通过下采样操作将相应阶段输出的图像特征与目标阶段的图像特征在空间维度上进行对齐，然后再利用类似于分类残差融合模块中的收集者元素和交叉注意力机制（Q1、K1、V1为此部分交叉注意力机制中的查询矩阵、键矩阵，值矩阵）得到第二初级信息元素。其中，目标阶段是目标元素所在的阶段，图5左侧的N_T是目标元素的空间维度，d_T是目标元素的通道数；N_i是第i个阶段图像特征的空间维度，d_i是第i个阶段图像特征的通道数（等于相应第二初级信息元素的通道数）。

本发明实施例中，多阶段语义融合模块对应的阶段是可以自由设定，不需要选择全部的阶段，也不需要从第一个阶段开始选，默认使用时以第2与第3阶段作为输入阶段。

图5右侧部分为第二中间处理器的原理，将多个初级信息元素的信息进行融合，得到具有多层语义特征的第二信息元素。由于多个第二初级信息元素具有不同的通道数，因此本发明采用多头通道自注意力机制（MHCA）来进行信息融合。具体来说，对于第二初级信息元素，以及目标元素/>，将这些元素在通道维度上合并之后得到的元素维度为/>，其中，/>为第二初级信息元素的总数，其等同于多阶段语义融合模块对应的阶段数目。多头通道自注意力机制会将该合并后的元素等维度映射成查询矩阵/>、键矩阵/>、值矩阵/>，再利用如下公式进行计算：

；

其中，MHCA表示多头通道自注意力机制，为可学习的温度系数。多头通道自注意力机制的输出会通过一个线性映射重新变化回d_T维度，再与目标元素相加后经过多层感知机进行重加权。

三、双向特征对齐模块。

单独使用分类残差融合模块与多阶段语义融合模块可以在较低的额外计算消耗下提高模型的识别性能，但如果需要将二者的输出结合，以获取更进一步的提升，则需要用双向特征对齐模块将二者输出的信息元素进行语义对齐，消除两个信息元素之间的语义鸿沟。本发明设计的双向特征对齐模块可以将来自于分类残差融合模块与多阶段语义融合模块的信息元素以目标元素为媒介，进行逐通道的对齐，具体为：对分类残差融合模块与多阶段语义融合模块输出的信息元素均分别进行映射与激活函数处理，再分别与分类元素相乘后，将相乘得到的两部分结果相加再经过映射处理，获得输出分类元素。所述输出分类元素具有一个物体完整且精细的表征，从而极大地提高了模型的细粒度识别效果。

如图6所示，为双向特征对齐模块的原理图，对来自分类残差融合模块与多阶段语义融合模块输出的信息元素分别依次通过线性映射层、GELU（激活函数）、线性映射层后，与目标元素进行逐通道相乘，相乘后的结果直接相加，然后通过线性映射层得到输出分类元素。

为了便于理解，结合上述说明对图3所示示例进行介绍。图3所示的混合型视觉Transformer架构中包含5个阶段，涉及两个分类元素，因此构建了两个整体模块，下方的整体模块对应于第一个分类元素，上方的整体模块对应于第二个分类元素。对于第一个分类元素，它会经过阶段4，那么下方整体模块中的分类残差融合模块负责结合阶段4中每个编码器层输出进行信息提取，获得第一信息元素，同时，设定多阶段语义融合模块对应阶段2与阶段3，则根据阶段2与阶段3以及第一分类元素，获得第二信息元素，最终通过双向特征对齐模块获得输出分类元素。类似的，对于第二个分类元素，由于它会经过阶段5，因此，上方整体模块中的分类残差融合模块对应于阶段5中所有编码器层，输出相应的第一信息元素，设定多阶段语义融合模块对应阶段2与阶段3，则根据阶段2与阶段3以及第二分类元素，获得第二信息元素，最终通过双向特征对齐模块获得输出分类元素。图3中，阶段3与阶段4中间的符号表示将第一分类元素合并至阶段3输出的图像特征中，阶段4与阶段5中间的符号/>、符号/>表示从阶段4输出的图像特征中分离出第一分类元素、合并第二分类元素。此外，两个分类元素的维度（通道数）不同，而下方整体模块的输出分类元素维度与第一分类元素维度相同，上方整体模块的输出分类元素与第二分类元素维度相同，需要进行线性映射将使得两部分输出分类元素的维度一致后，再进行合并。另外，图3中虚线箭头部分表示原始特征流，它是指按照传统的技术方案，在阶段4部分未加入本发明提出的整体模块时，直接将分离出的第一分类元素进行线性映射。需要说明的是，图3所示的示例中，多阶段语义融合模块对应的阶段2与阶段3仅为示意，在实际应用中，用户可以根据实际情况或者经验选择多阶段语义融合模块对应的阶段。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种用于提升细粒度图像分类性能的系统，其主要用于实现前述实施例提供的方法，如图7所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图8所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种用于提升细粒度图像分类性能的方法，其特征在于，包括：

在细粒度图像分类网络中设置源信息生成器、中间处理器与目标结合器，包括：利用源信息生成器与中间处理器构建分类残差融合模块，利用源信息生成器与中间处理器构建多阶段语义融合模块，利用目标结合器构建双向特征对齐模块；所述分类残差融合模块、多阶段语义融合模块与双向特征对齐模块形成一个整体模块，根据分类元素的数目设置相应数目的整体模块；其中，每一个整体模块中的工作过程包括：分类残差融合模块与多阶段语义融合模块分别输出一个信息元素，双向特征对齐模块将给定的分类元素与两个信息元素进行融合，获得输出分类元素；当整体模块的数目大于1时，将所有输出分类元素合并获得最终的输出分类元素，再由细粒度图像分类网络中的分类器进行分类；

2.根据权利要求1所述一种用于提升细粒度图像分类性能的方法，其特征在于，所述分类残差融合模块中的源信息生成器与中间处理器称为第一源信息生成器与第一中间处理器；

第一源信息生成器的数目与对应阶段中编码器层的数目相同，单个第一源信息生成器对单个编码器层输出的图像特征进行信息提取，获得第一初级信息元素；其中，所述阶段是指细粒度图像分类网络的工作阶段，分类残差融合模块对应的阶段中包含若干编码器层；

第一中间处理器的输入为所有第一初级信息元素以及给定的分类元素，通过交叉注意力机制，将所有第一初级信息元素聚合到收集者元素上，再与给定的分类元素相加后通过多层感知机处理，获得信息元素，称为第一信息元素；其中，所述收集者元素为一组预训练的参数。

3.根据权利要求2所述一种用于提升细粒度图像分类性能的方法，其特征在于，所述单个第一源信息生成器对单个编码器层输出的图像特征进行信息提取，获得第一初级信息元素包括：

单个第一源信息生成器根据对应编码器层的输入图像特征与输出图像特征确定对应编码器层输入与输出的分类元素，将输入与输出的分类元素相减，再乘以一个加权系数，获得第一初级信息元素。

4.根据权利要求1所述一种用于提升细粒度图像分类性能的方法，其特征在于，所述多阶段语义融合模块中的源信息生成器与中间处理器称为第二源信息生成器与第二中间处理器；

第二源信息生成器的数目为若干个，单个第二源信息生成器对应一个设定阶段，单个第二源信息生成器对设定阶段输出的图像特征进行信息提取，获得第二初级信息元素；其中，所述阶段是指细粒度图像分类网络的工作阶段，每一工作阶段输出相应的图像特征；

第二中间处理器的输入为所有第二初级信息元素以及给定的分类元素，通过多头通道自注意力机制将所有第二初级信息元素以及给定的分类元素合并，再与给定的分类元素相加后通过多层感知机处理，获得信息元素，称为第二信息元素。

5.根据权利要求4所述一种用于提升细粒度图像分类性能的方法，其特征在于，所述单个第二源信息生成器对设定阶段输出的图像特征进行信息提取，获得第二初级信息元素包括：

单个第二源信息生成器对设定阶段输出的图像特征进行下采样，使设定阶段输出的图像特征与目标阶段的图像特征在空间维度上进行对齐，并通过交叉注意力机制与收集者元素聚合，再通过多层感知机处理，获得第二信息元素；其中，目标阶段是指给定分类元素所在阶段，所述收集者元素为一组预训练的参数。

6.根据权利要求1所述一种用于提升细粒度图像分类性能的方法，其特征在于，所述双向特征对齐模块将给定的分类元素与两个信息元素进行融合，获得输出分类元素包括：

对分类残差融合模块与多阶段语义融合模块输出的信息元素均分别进行映射与激活函数处理，再分别与分类元素相乘，将相乘得到的两部分结果相加再经过映射处理，获得输出分类元素。

7.一种用于提升细粒度图像分类性能的系统，其特征在于，包括：

网络设置单元，用于在细粒度图像分类网络中设置源信息生成器、中间处理器与目标结合器，包括：利用源信息生成器与中间处理器构建分类残差融合模块，利用源信息生成器与中间处理器构建多阶段语义融合模块，利用目标结合器构建双向特征对齐模块；所述分类残差融合模块、多阶段语义融合模块与双向特征对齐模块形成一个整体模块，根据分类元素的数目设置相应数目的整体模块；其中，每一个整体模块中的工作过程包括：分类残差融合模块与多阶段语义融合模块分别输出一个信息元素，双向特征对齐模块将给定的分类元素与两个信息元素进行融合，获得输出分类元素；当整体模块的数目大于1时，将所有输出分类元素合并获得最终的输出分类元素，再由细粒度图像分类网络中的分类器进行分类；

8.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~6任一项所述的方法。

9.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~6任一项所述的方法。