CN114627312B

CN114627312B - 零样本图像分类方法、系统、设备及存储介质

Info

Publication number: CN114627312B
Application number: CN202210534202.9A
Authority: CN
Inventors: 王子磊; 胡效鸣
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-09-06
Anticipated expiration: 2042-05-17
Also published as: CN114627312A

Abstract

本发明公开了一种零样本图像分类方法、系统、设备及存储介质，为了建模属性中包含的具体信息，使用通道选择与空间抑制两个操作对视觉特征进行更新，从而定位视觉特征图中与语义属性相关且具有判别性的部分区域；为了建模对应于空间中多个部位关系的抽象属性，使用视觉特征与语义属性交互的方式，对抽象属性进行判别；本发明的上述方案通过动态建模来自适应地调整语义属性的表征，能够改善同一属性在不同物体上的视觉表征不一致的问题。实验结果表明本发明所提出方法在零样本图像分类任务上能够大幅提升分类准确率。

Description

零样本图像分类方法、系统、设备及存储介质

技术领域

本发明涉及计算机视觉中的零样本学习技术领域，尤其涉及一种零样本图像分类方法、系统、设备及存储介质。

背景技术

计算机视觉中的图像识别技术能够帮助计算机系统自动地处理与识别数字图像。但目前常用的深度学习模型往往需要大量的训练图像以及这些训练图像所对应的标注，这将消耗大量的资源，且例如稀有动物等类别的训练数据难以获得。相比之下，人类的视觉系统则能够根据少量训练样本甚至不需要训练样本，就能对特定类别的物体进行识别。因此，为了解决计算机视觉模型对于大量训练数据的依赖问题，需要将零样本学习的能力引入到计算机视觉系统之中。

目前的基于零样本学习的图像分类方法，主要采取类别的属性标注、词向量或文字描述等作为语义辅助信息，图像分类模型利用这些语义辅助信息将可见类别上学到的知识迁移到未见过的类别上。目前各类模型的处理流程（称为方法框架）为：首先，对于数据集中包含的所有类别，标注各个类别所对应的语义属性；之后，在训练阶段利用可见类别的图像，学习将输入图像的视觉特征映射至类别语义属性的映射函数；最后，对于测试阶段未见过的图像类别，利用最近邻分类器根据预测出的语义属性推断其所属的类别。对于上述方法框架，后续的改进包含了使用不同的映射函数和映射空间，以及提出不同的正则化项约束映射过程等。

零样本学习的最新进展主要是使用局部特征对属性进行判别，也是基于不同的映射函数和映射空间，或者不同的正则化项约束映射过程的改进思路提出的相关方案。例如，2019年国际计算机视觉与模式识别会议（TheConference on Computer Vision andPattern Recognition）上的一篇名为《AttentiveRegion Embedding Network for Zero-shot Learning》的文章提出了一种使用注意力机制定位图像中的判别性区域和二阶池化层对判别性区域针对性地提取视觉特征的方法。公开号为CN110163258A的中国专利申请《一种基于语义属性注意力重分配机制的零样本学习方法及系统》使用语义-注意力模块得到对于属性信息的注意力向量，以在不同图像类别上对于关注不同位置的属性信息。2020年的神经信息处理系统进展大会（Conference and Workshop on Neural InformationProcessing Systems）上的一篇名为《Attribute Prototype Network for Zero-shotLearning》的文章使用属性原型学习分支约束图像特征之中包含更多的局部信息，进而提升模型对于图像表示的判别能力。公开号为CN111914949A的中国专利申请《基于强化学习的零样本学习模型的训练方法及装置》则是将对于判别性区域的搜索过程视为马尔科夫过程，而后使用深度强化学习的手段对此过程进行学习优化。以上文章及中国专利申请的技术方案（简称四类技术方案）主要是为了提取判别性区域，虽然能够在零样本学习任务上获得一定的性能提升，但是，依然存在如下两类问题，导致分类效果不佳：一方面，深度神经网络所提取特征图的不同通道对应图像上的不同区域，而某一类属性却往往只对应于图像中的某一个或几个区域，上述四类方案在某类属性的预测过程中所使用的大量不相关特征会引入噪声；另一方面，如心情、性格等抽象属性在视觉空间中表现为多个不同部位之间的关联，且其视觉表征会随物体的不同而发生改变，仅通过视觉线索难以直接对这些属性进行判别。

发明内容

本发明的目的是提供一种零样本图像分类方法、系统、设备及存储介质，能够更好地利用语义属性之中所包含的丰富信息，提升零样本学习系统的图像分类能力。

本发明的目的是通过以下技术方案实现的：

一种零样本图像分类方法，包括：

步骤1、提取输入图像的视觉特征图；

步骤2、从所述视觉特征图中分别选取与已标注的每一组属性相关的通道；对每一组属性相关的通道分别通过属性原型学习操作将相应通道的视觉特征转换至语义空间，再通过空间抑制操作获得每一组属性对应的空间抑制后的特征图，结合所有组属性对应的空间抑制后的特征图，获得第一属性预测结果；

步骤3、利用步骤2中学习到的属性原型与预先利用词向量模型提取的属性原型分别作为每个属性的语义表示，并分别与所述视觉特征图进行交互，获得两份注意力热图，将两份注意力热图与所述视觉特征图结合，获得第二属性预测结果；

步骤4、结合第一属性预测结果与第二属性预测结果，进行图像属性分类。

一种零样本图像分类系统，该系统包括零样本图像分类模型，由所述零样本图像分类模型基于前述方法实现零样本图像分类，所述零样本图像分类模型包括：

深度神经网络，用于提取输入图像的视觉特征图；

属性定位分支网络，用于从所述视觉特征图中分别选取与已标注的每一组属性相关的通道；对每一组属性相关的通道分别通过属性原型学习操作将相应通道的视觉特征转换至语义空间，再通过空间抑制操作获得每一组属性对应的空间抑制后的特征图，结合所有组属性对应的空间抑制后的特征图，获得第一属性预测结果；

视觉语义交互分支网络，用于利用属性定位分支网络中学习到的属性原型与预先利用词向量模型提取的属性原型分别作为每个属性的语义表示，并与所述视觉特征图进行交互，获得两份注意力热图，将两份注意力热图与所述视觉特征图结合，获得第二属性预测结果；

分类器，用于结合第一属性预测结果与第二属性预测结果，进行图像属性分类。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，为了建模属性中包含的具体信息，使用通道选择与空间抑制两个操作对视觉特征进行更新，从而定位视觉特征图中与语义属性相关且具有判别性的部分区域；为了建模对应于空间中多个部位关系的抽象属性，使用视觉特征与语义属性交互的方式，对抽象属性进行判别；本发明的上述方案通过动态建模来自适应地调整语义属性的表征，能够改善同一属性在不同物体上的视觉表征不一致的问题。实验结果表明本发明所提出方法在零样本图像分类任务上能够大幅提升分类准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种零样本图像分类方法的模型结构示意图；

图2为本发明实施例提供的一种零样本图像分类系统的示意图；

图3为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……构成”、“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

下面对本发明所提供的一种零样本图像分类方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种零样本图像分类方法，其主要包括：

步骤1、提取输入图像的视觉特征图。

步骤2、从所述视觉特征图中分别选取与已标注的每一组属性相关的通道；对每一组属性相关的通道分别通过属性原型学习操作将相应通道的视觉特征转换至语义空间，再通过空间抑制操作获得每一组属性对应的空间抑制后的特征图，结合所有组属性对应的空间抑制后的特征图，获得第一属性预测结果。

步骤3、利用步骤2中学习到的属性原型与预先利用词向量模型提取的属性原型分别作为每个属性的语义表示，并分别与所述视觉特征图进行交互以对属性进行建模，获得两份注意力热图，将两份注意力热图与所述视觉特征图结合，获得第二属性预测结果。

本发明实施例中，上述步骤1可以通过深度神经网络实现，上述步骤2可以通过属性定位分支网络实现，上述步骤3可以通过视觉语义交互分支网络实现，上述步骤4可通过分类器实现；由所述深度神经网络、属性定位分支网络、视觉语义交互分支网络与分类器构成零样本图像分类模型，如图1所示，展示了零样本图像分类模型的结构，以及相关的处理流程，左下角部分的Glove，表示基础的Glove语言模型，本发明将其作为词向量模型来提取的每一属性的属性原型，并应用于前述步骤3中。

本发明实施例中，属性是指语义属性；前述步骤2与步骤3中的属性都包含具体属性与抽象属性，但是，步骤2中更加关注具体属性，步骤3中更加关注抽象属性，其中，具体属性是图像中可以直接反映出的属性，例如物体的部位、颜色等；抽象属性是指图像中无法直接反映出来的属性，例如，性格、表现等；将步骤2与步骤3各自获得的属性预测结果融合作为最终预测结果，利用最终预测结果进行图像属性分类，例如，最终预测结果对应的属性向量的内容为：含有尾巴、白色、表现活跃、运动速度快等，则将其判定为兔子；如果内容为：含有长脖子、黄色、表现不活跃、运动速度慢等，则将其判定为长颈鹿。

为了便于理解，下面结合图1对零样本图像分类模型的各部分及其训练与测试过程做详细的介绍。

一、零样本图像分类模型（以下简称为“模型”）的组成部分及各部分的工作原理。

1、深度神经网络。

本发明实施例中，所述深度神经网络主要负责提取输入图像的视觉特征图，如图1所示，最左侧的三层立方体结构表示深度神经网络Z，其输出的Z(x)表示输入图像x的视觉特征图。深度神经网络可以看作模型的特征提取器部分，示例性的，它可以使用现有的ResNet101实现，考虑到此部分所涉及的视觉特征图提取流程可参照常规技术实现，故不做赘述。

2、属性定位分支网络。

前述步骤2中介绍了属性定位分支网络的主要工作流程，其主要对视觉特征图进行更新，从而定位视觉特征图中与语义属性相关且具有判别性的部分区域，最终输出相应的属性预测结果。

本发明实施例中，属性定位分支网络主要包括通道选择模块、属性原型学习模块和空间抑制模块三个部分。

（1）通道选择模块。

本发明实施例中，设置了多个通道选择模块，每一通道选择模块的输入均为所述视觉特征图。每一组属性对应一个通道选择模块，通过对应通道选择模块选出一组属性最为相关的η×C个通道，η为设定比例。图1展示了包含三个通道选择模块的示例，并以第一个通道选择模块为例，展示了通道选择模块的内部处理流程。

本发明实施例中，记所述视觉特征图的通道数、高度、宽度分别为C、H、W，图像标注有N条属性，每一属性的词向量维度均记为K。由于人工标注的属性（语义属性）包含了明确的语义信息，若干属性同时对应物体的同一个部位，因而可以利用这一属性的分组特性，也就是说，可以将同时对应物体同一部位的若干属性作为一组属性，分组获得多组属性。

本发明实施例中，所有通道选择模块的处理方式都是相同的，主要包括如下步骤：

（a）对输入的视觉特征图进行全局平均池化操作，得到维度为C的视觉特征图描述向量（图1中，简称为描述子）。

（b）使用通道重要性生成网络根据视觉特征图描述向量生成维度为C的通道重要性向量；所述通道重要性向量中单个分量表示对应的视觉特征图通道对于识别某一组属性的重要程度。

本发明实施例中，通道重要性生成网络可以由两层全连接层组成，生成的重要性向量中每个分量表示对应的特征图通道对于识别某一组属性的重要程度。如之前所述，本发明依照属性的分组特性进行了分组，因此，可以每组属性学习一个通道重要性向量。图1中使用带有圆圈的S符号来表示通道重要性生成网络。

（c）使用门控机制从通道重要性向量中选取激活值最大的多个分量（例如，η×C个分量）；将选取的所有分量的掩码设置为1，表示在识别某一组属性时需要被保留的通道；将其余分量的掩码设置为0，表示将相应分量对应的通道丢弃；将选取的分量的掩码与所述视觉特征图逐元素相乘，表示仅使用被保留的通道对相应的一组属性进行识别。

图1中，使用带有圆圈的G符号来表示门控机制，符号⊗表示逐元素相乘。

示例性的，选取分量时，设定比例η=1/4，选出激活值最大的1/4个分量，从而选出对应的η×C个通道。

通过以上（a）~（c）三个步骤，单个通道选择模块都能够选出与一组属性所相关的通道。如之前所述，所有通道选择模块的处理方式都是相同的，它们的输入也是相同的，即均为视觉特征图，但是，不同通道选择模块在前述步骤（b）中通道重要性生成网络的参数不同，因此，输出不同的结果。

（2）属性原型学习模块。

本领域技术人员可以理解，属性原型是指相应属性特征的向量。

本发明实施例中，为每一组属性设置对应的属性原型向量（简称为属性原型）。

对每一组属性相关的通道进行卷积操作（例如，图1中的1*1卷积操作，其中的Conv表示卷积操作），将相应通道的视觉特征转换至语义空间，卷积操作的卷积核为相应属性对应的属性原型。上述卷积操作的输入、输出的通道数分别为C和N。

本发明实施例中，通过优化卷积操作的参数学习属性原型，将学习到的属性原型作为相应卷积操作的卷积核。

（3）空间抑制模块。

本发明实施例中，也设置了多个空间抑制模块，数目等同于通道选择模块的数目。通道选择模块、属性原型学习模块与空间抑制模块是一一对应的，具体的：一个通道选择模块，输出的一组属性对应的若干通道，通过对应的属性原型将相应通道的视觉特征从视觉空间转为语义空间，转为语义空间的特征通过相应空间抑制模块进行处理。

本发明实施例中，所有空间抑制模块为例的处理方式都是相同的，图1中以第一个空间抑制模块为例，展示了空间抑制模块的内部处理流程。

空间抑制模块主要处理流程包括：对于转换至语义空间的特征图上每一通道，在空间尺度上分别选取激活值最大的位置和另一个随机的位置，将选取的两个位置所对应的激活值以设定的随机概率乘以固定的抑制系数，如图1所示，两个位置的抑制操作分别称为峰值抑制与随机抑制，二者共同构成激活值抑制，最终获得空间抑制后的特征图。

本发明实施例中，所有空间抑制模块可使用相同的参数。

本发明实施例中，通过空间抑制模块在特征图的空间尺度上进行抑制操作，令模型不会过度关注图像上最具有判别力的部位，而也应关注到其他较为具有判别力的位置，从而使得模型能够关注更为完整的图像细节，提升模型的泛化能力。

如图1所示，将所有组属性对应的空间抑制后的特征图进行拼接（图1中使用带有圆圈的C符号表示）后，进行全局平均池化操作，获得第一属性预测结果a ₁(x)，也就是属性定位分支网络预测的语义属性。

3、视觉语义交互分支网络。

本发明实施例中，视觉语义交互分支网络主要利用属性定位分支学到的属性原型和词向量模型所提取的属性原型作为每个属性的语义表示，与深度特征图进行交互操作，建模难以进行精准定位的抽象属性信息。需要说明的是，本发明两个分支网络所涉及的属性均包含所有属性，但是，两个分支网络的侧重点不同，属性定位分支网络侧重于具体属性，而视觉语义交互分支网络侧重于抽象属性。

如图1所示，展示了视觉语义交互分支网络主要的处理流程，其首先针对输入的视觉特征进行了分别进行四种不同的卷积操作，之后，结合相应卷积操作的结果做后续处理。

其中，通过两种不同的卷积操作获得维度为C的特征图，以及维度为K的特征图；此处的维度C等于所述视觉特征图的通道数C，维度K等于属性的词向量维度。将维度为C的特征图与步骤2中学习到的属性原型进行交互，得到尺度为N*(H*W)的针对每个属性的空间尺度的注意力热图，称为第一注意力热图。类似的，将维度为K的特征图与词向量模型提取的属性原型进行交互，得到尺度为N*(H*W)的针对每个属性的空间尺度的注意力热图，称为第二注意力热图。此部分所涉及的交互是指将维度为C的特征图、维度为K的特征图分别与相应的属性原型相乘并进行归一化（图1中Norm表示归一化操作）。

通过第三种卷积操作捕捉所述视觉特征图的空间线索，获得维度为H*W的特征图，将维度为H*W的特征图与第一注意力热图及第二注意力热图分别相乘，以捕捉抽象属性在空间中应当被关注的位置，获得两个属性激活图。

本发明实施例中还引入了残差机制，即通过第四种卷积操作将所述视觉特征图变换至语义空间，并与所述两个属性激活图相加（图1中符号⊕表示逐元素相加）后进行全局平均池化操作，获得第二属性预测结果a ₂(x)。

本领域技术人员可以理解，1*1表示卷积操作中卷积核的大小，即代指一种类型的卷积操作，但是，同一种类型的卷积操作是可以具有不同的参数，本发明实施例中通过模型优化更新卷积核参数，最终，使得不同卷积操作的参数不同，从而得到不同的卷积操作结果。

本发明实施例中，通过前述属性定位分支网络的通道选择以及视觉语义交互分支网络可以自适应地调整语义属性的表征，从而能够改善同一属性在不同物体上的视觉表征不一致的问题。

4、分类器。

结合第一属性预测结果与第二属性预测结果，进行图像属性分类，具体的，将两个属性预测结果加权平均作为最终预测的语义属性，进而将输入图像分为最相近属性标签对应的类别。

需要说明的是，图1所示的输入图像内容与类别，属性的内容，各个模块的数量，卷积操作的相关参数等均为举例，并非构成限制。

二、模型训练。

本发明实施例中，训练阶段利用交叉熵分类损失和梯度提升损失构造总的损失函数；利用所述总的损失函数对所述零样本图像分类模型进行训练，使用随机梯度下降算法同时更新所述深度神经网络、属性定位分支网络与视觉语义交互分支网络的参数，此处使用随机梯度下降算法更新参数的主要流程可参照常规技术实现，本发明不做赘述。

本发明实施例中利用交叉熵分类损失和梯度提升损失构造总的损失函数的优选实施方式如下：

1、将所述属性定位分支网络对应的第一属性预测结果分别与各个类别的标签语义属性相乘，将所述视觉语义交互分支网络对应的第二属性预测结果分别与各个类别的标签语义属性相乘，得到两个分支网络对输入图像的类别预测结果，每一分支网络对输入图像的类别预测结果即为输入图像对应各个类别的激活值得分，此部分中所述的各个类别包含标签类别与所有非标签类别；使用交叉熵损失分别约束两个分支网络的类别预测结果，构建两个交叉熵损失函数，具体地，可以将各个类别的激活值得分经过softmax操作获得各个类别的预测得分，使用与标签类别得分的负对数作为损失函数值，该损失函数约束标签类别得分应当接近于1。

2、为了从视觉特征相近的类别学习图像之间的细粒度特征差异，在原始交叉熵损失中进一步加入梯度提升损失项。

本发明实施例中，将两个分支网络对输入图像的类别预测结果，使用激活值得分最高的k个非标签类别，在标签类别与这些非标签类别所组成的类别集合中计算交叉熵损失，包括：通过前文介绍的方式获得每一分支网络下各个类别的激活值得分，对于每一分支网络，选出激活值得分最高的k个非标签类别，将选出的k个非标签类别的激活值得分经过softmax操作获得k个非标签类别的预测得分，计算与标签类别得分的负对数作为梯度提升损失，对两个分支网络分别计算梯度提升损失项，构建两个梯度提升损失项函数。

本发明实施例中，第一属性预测结果与第二属性预测结果的数据结构类似，即预测出的输入图像各个属性特征的描述；举例来说，如果给定A₁个类别（例如，10个类别），每一个类别对应A₂维（例如，300维）的标签语义属性，则第一属性预测结果与第二属性预测结果均为A₂维的向量；每一个类别与对应的标签语义属性相乘得到一个A₁×A₂的矩阵，该矩阵是已知信息。在损失函数的计算时，将第一属性预测结果与第二属性预测结果分别与A₁×A₂的矩阵相乘，得到各个类别的激活值得分，再经过softmax操作可以得到各个类别的预测得分，即属于每一类别的概率。此处所涉及的各项运算均可参照常规技术，故不做赘述。

本领域技术人员可以理解，对于图像分类任务，预先给定每一输入图像的所有可能类别，例如，对于动物分类任务，输入图像只可能是特定种类的动物，非标签类别为除了输入图像的标签类别之外的其他所有动物类别。本发明需要提前获知所有可能的类别以及它们的属性，即引入了非标签类别的信息。前述第1点计算的是原始交叉熵损失，它包含了所有的非标签类别，即损失函数的分母上包含所有非标签类别；而第2点中（梯度提升损失项函数中）选出了k个非标签类别，因此，分母上仅包含最可能的k个非标签类别（错误类别），相当于梯度提升损失项函数需要重点关注标签类别与最可能的k个非标签类别之间的差异。

3、为每一交叉熵损失函数以及每一梯度提升损失项函数分别设置相应的权重，计算两个交叉熵损失函数以及两个梯度提升损失项函数的加权和，作为总的损失函数。

示例性的，在总的损失函数中，可以使用1作为权重分别对两个分支的交叉熵损失函数进行加权，使用0.1作为权重分别对两个分支的梯度提升损失函数进行加权，使用以上四部分损失函数作为总的损失函数，端到端地优化模型各部分参数。

三、模型测试。

测试阶段流程与训练阶段的流程相同，将两分支所输出的测试样本的属性预测结果进行加权平均作为模型的最终预测结果，计算与之最为相近的类别属性，并将对应的类别作为最终预测，从而完成对未见过类别图像的识别。

本发明实施例上述方案，主要具有如下优点：利用属性定位分支网络，能够对于从视觉特征中定位到与具体属性相关且具有判别性的区域，排除不相关和不具有判别性的特征图干扰；利用视觉语义交互分支网络，能够建模表征部位间复杂关系的抽象属性。本发明通过对于属性信息进行动态建模，能够根据不同的输入图像自适应地调整属性表达，解决同一属性在不同物体上视觉表示不一致的问题。

为了应证本发明的效果，结合下述实验进行说明。

一、实验中的数据集构建。

使用带有类别语义属性标注的数据集测试本发明方法的有效性。AwA2是包含50个动物类别的粗粒度数据集，共包含37322个样本；CUB是包含200个鸟类图像类别的细粒度数据集，包含11788个样本；SUN是包含717个场景图像类别的细粒度数据集，包含14320个样本。对于三个数据集的属性标注，分别共包含85、312和102维，按照这些属性所代表语义的不同，这些属性被分成8、28和4个组。三个数据集的划分方式信息如表1所示：

表1 数据集划分方式统计信息表

二、模型训练。

参照前文介绍的方式对图1所示的模型进行训练。下面给出一些模型训练中的相关设置：使用ResNet101作为特征提取器，使用224*224作为输入图像尺寸，在训练阶段对输入图像使用随机裁剪和随机亮度变化等数据增强方式；使用随机梯度下降算法对模型进行训练，设置优化器的动量参数为0.9，权重下降参数设置为0.00001，共训练模型50个epoch；将梯度提升损失中的负类别数量这一参数统一设置为5。需要说明的是，此处所涉及的各参数的数值仅为举例，并非构成限制。

三、模型性能比较。

为了使用本发明所提出的方法对于未见过的类别样本进行分类，分别使用传统设定和泛化设定对模型性能进行评估。在传统设定下，测试阶段仅对不可见类别的样本进行分类，使用类别平均的准确率评估模型性能；在泛化设定下，需要同样对可见类别与不可见类别的样本进行分类，分别计算可见类与不可见类的逐类别准确率，并使用二者的调和平均作为最终的评价指标。注意到，泛化设定下，由于模型对于可见类别存在一定的偏向，因此将可见类别得分乘以一定的比例系数，以重新调整模型在可见类和不可见类别的准确率。在224*224的输入图像分辨率下，本发明所提出方法的结果如表2所示：

表2零样本图像分类结果比较

表2中，方法AREN表示背景技术部分介绍的2019年国际计算机视觉与模式识别会议上的文章《Attentive Region Embedding Network for Zero-shot Learning》所提的方法；方法LFGAA表示背景技术部分介绍的公开号为CN110163258A的中国专利申请《一种基于语义属性注意力重分配机制的零样本学习方法及系统》所提的方法；APN方法表示背景技术部分介绍的2020年的神经信息处理系统进展大会上的文章《Attribute PrototypeNetwork for Zero-shot Learning》所提的方法；A代表传统设定下的分类准确率，B代表泛化设定下的可见类准确率与不可见准确率的加权。通过表2所示的比较结果可见，本发明所提出的方法大幅提升了模型的零样本分类性能，在传统设定与泛化设定下均超出以上三种方法的最优指标，这验证了本发明所提出方法的有效性。

为了进一步验证本发明所提出方法中各个模块的有效性，选取更为困难的泛化设定进行消融实验。为了验证所提出的方法在不同测试集可见类-不可见类样本数量对比的设定下均能有效，在计算可见类与不可见类准确率的调和平均数的基础上，进一步在消融实验中调整可见类得分的比例系数，进而得到一系列可见类-不可见类的准确率，计算该曲线与坐标轴所围成的面积（AUC）。

首先，所制作的基线方法直接使用1*1卷积操作将特征提取器提取到的视觉特征图变换到属性域中，并使用全局平均池化操作将这一属性激活图转换为预测的语义属性；在这一基线方法的基础上，依次添加通道选择模块、空间抑制模块、视觉语义交互分支网络和梯度提升损失，比较结果如表3所示：

表3 各部分对于最终性能影响的结果比较

根据表3可以看出，本发明所提出的各个创新模块（网络）均在一定程度上提升了零样本图像分类的性能，且根据数据集类型的不同，通道选择模块和视觉-语义交互分支网络分别在不同的数据集上取得了最大的性能提升。

实施例二

本发明还提供一种零样本图像分类系统，该系统包括零样本图像分类模型，由所述零样本图像分类模型基于前述实施例一提供的方法实现零样本图像分类，如图2所示，所述零样本图像分类模型包括：

深度神经网络，用于提取输入图像的视觉特征图；

视觉语义交互分支网络，用于利用属性定位分支网络中学习到的属性原型与预先利用词向量模型提取的属性原型分别作为每个属性的语义表示，并分别与所述视觉特征图进行交互以对属性进行建模，获得两份注意力热图，将两份注意力热图与所述视觉特征图结合，获得第二属性预测结果；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图3所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种零样本图像分类方法，其特征在于，包括：

步骤1、提取输入图像的视觉特征图；

2.根据权利要求1所述的一种零样本图像分类方法，其特征在于，从所述视觉特征图中分别选取与已标注的每一组属性相关的通道包括：

设置多个通道选择模块，每一通道选择模块的输入均为所述视觉特征图；记所述视觉特征图的通道数、高度、宽度分别为C、H、W，图像标注有N条属性，每一属性的词向量维度均记为K，将同时对应物体同一部位的若干属性作为一组属性，分组获得多组属性；

每一通道选择模块针对输入的视觉特征图分别进行如下处理：对输入的视觉特征图进行全局平均池化操作，得到维度为C的视觉特征图描述向量；使用通道重要性生成网络根据视觉特征图描述向量生成维度为C的通道重要性向量；所述通道重要性向量中单个分量表示对应的视觉特征图通道对于识别某一组属性的重要程度；使用门控机制从通道重要性向量中选取激活值最大的多个分量；将选取的所有分量的掩码设置为1，表示在识别某一组属性时需要被保留的通道；将其余分量的掩码设置为0，表示将相应分量对应的通道丢弃；将选取的分量的掩码与所述视觉特征图逐元素相乘，表示仅使用被保留的通道对相应的一组属性进行识别。

3.根据权利要求1所述的一种零样本图像分类方法，其特征在于，所述对每一组属性相关的通道分别通过属性原型学习操作将相应通道的视觉特征转换至语义空间包括：

为每一组属性设置对应的属性原型；对每一组属性相关的通道进行卷积操作，将相应通道的视觉特征转换至语义空间，卷积操作的卷积核为相应属性对应的属性原型，通过优化卷积操作的参数学习属性原型。

4.根据权利要求1所述的一种零样本图像分类方法，其特征在于，所述通过空间抑制操作获得每一组属性对应的空间抑制后的特征图，结合所有组属性对应的空间抑制后的特征图，获得第一属性预测结果包括：

对于转换至语义空间的特征图上每一通道，在空间尺度上分别选取激活值最大的位置和另一个随机的位置，将选取的两个位置所对应的激活值以设定的随机概率乘以固定的抑制系数，获得空间抑制后的特征图；

将所有组属性对应的空间抑制后的特征图进行全局平均池化操作，获得第一属性预测结果。

5.根据权利要求1所述的一种零样本图像分类方法，其特征在于，所述利用步骤2中学习到的属性原型与预先利用词向量模型提取的属性原型分别作为每个属性的语义表示，并分别与所述视觉特征图进行交互，获得两份注意力热图，将两份注意力热图与所述视觉特征图结合，获得第二属性预测结果包括：

对所述视觉特征图分别进行四种不同的卷积操作；

通过两种不同的卷积操作获得维度为C的特征图，以及维度为K的特征图；其中，维度C等于所述视觉特征图的通道数C，维度K等于图像标注中每一属性的词向量维度；将维度为C的特征图与步骤2中学习到的属性原型进行交互，得到尺度为N*（H*W）的针对每个属性的空间尺度的注意力热图，称为第一注意力热图；将维度为K的特征图与词向量模型提取的属性原型进行交互，得到尺度为N*（H*W）的针对每个属性的空间尺度的注意力热图，称为第二注意力热图；其中，N为图像标注的属性数目，H、W分别为视觉特征图的高度、宽度；

通过第三种卷积操作捕捉所述视觉特征图的空间线索，获得维度为H*W的特征图，将维度为H*W的特征图与第一注意力热图及第二注意力热图分别相乘，获得两个属性激活图；

通过第四种卷积操作将所述视觉特征图变换至语义空间，并与所述两个属性激活图相加后进行全局平均池化操作，获得第二属性预测结果。

6.根据权利要求1所述的一种零样本图像分类方法，其特征在于，将所述步骤1通过深度神经网络实现，将所述步骤2通过属性定位分支网络实现，将所述步骤3通过视觉语义交互分支网络实现，将所述步骤4通过分类器实现；由所述深度神经网络、属性定位分支网络、视觉语义交互分支网络与分类器构成零样本图像分类模型；训练阶段利用交叉熵分类损失和梯度提升损失构造总的损失函数；利用所述总的损失函数对所述零样本图像分类模型进行训练，更新所述深度神经网络、属性定位分支网络与视觉语义交互分支网络的参数。

7.根据权利要求6所述的一种零样本图像分类方法，其特征在于，所述利用交叉熵分类损失和梯度提升损失构造总的损失函数包括：

将所述属性定位分支网络对应的第一属性预测结果分别与各个类别的标签语义属性相乘，将所述视觉语义交互分支网络对应的第二属性预测结果分别与各个类别的标签语义属性相乘，得到两个分支网络对输入图像的类别预测结果，每一分支网络对输入图像的类别预测结果即为输入图像对应各个类别的激活值得分；使用交叉熵损失分别约束两个分支网络的类别预测结果，构建两个交叉熵损失函数；

根据两个分支网络对输入图像的类别预测结果，选出激活值得分最高的k个非标签类别，在标签类别与k个非标签类别所组成的类别集合中计算交叉熵损失作为梯度提升损失，构建两个梯度提升损失项函数；

为每一交叉熵损失函数以及每一梯度提升损失项函数分别设置相应的权重，计算两个交叉熵损失函数以及两个梯度提升损失项函数的加权和，作为总的损失函数。

8.一种零样本图像分类系统，其特征在于，该系统包括零样本图像分类模型，由所述零样本图像分类模型基于权利要求1~7任一项所述的方法实现零样本图像分类，所述零样本图像分类模型包括：

深度神经网络，用于提取输入图像的视觉特征图；

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。