CN116109877B

CN116109877B - 组合式零样本图像分类方法、系统、设备及存储介质

Info

Publication number: CN116109877B
Application number: CN202310364487.0A
Authority: CN
Inventors: 王子磊; 胡效鸣
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-06-20
Anticipated expiration: 2043-04-07
Also published as: CN116109877A

Abstract

本发明公开了一种组合式零样本图像分类方法、系统、设备及存储介质，它们是对应的方案，方案中：构建基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器，基于子类信息感知的特征提取网络能够捕捉表征图像子类信息的视觉特征，基于子类信息调制的动态分类器能够根据图像的属性与物体所属子类的不同，动态调整相应分类器的权重，使得本发明能够对属于不同子类的原始概念进行针对性地识别（即分别对属性和物体的类别进行分类），从而解决传统的解耦式学习与合成式学习方法受到属性与物体的视觉特征耦合而造成的图像分类模型判别性下降的问题，实验结果表明本发明所提出的方法在组合式零样本图像分类任务上能够大幅提升分类准确率。

Description

组合式零样本图像分类方法、系统、设备及存储介质

技术领域

本发明涉及计算机视觉中的组合式零样本分类技术领域，尤其涉及一种组合式零样本图像分类方法、系统、设备及存储介质。

背景技术

计算机视觉中的图像分类方案能够辅助计算机系统自动地判定数字图像所属的语义类别，而目前基于深度学习的计算机视觉模型往往依赖大量由人工进行标注的训练数据。但是在现实应用场景之中，视觉图像的类别通常服从长尾分布，即存在着大量仅存在着少量训练数据的语义类别，因而为所有类别收集大量训练数据十分困难甚至并不可行。为了将计算机视觉系统对于训练阶段见过的类别的识别能力泛化到未知的类别之中，组合式零样本学习任务逐渐成为了计算机视觉领域的研究热点。

目前的组合式零样本学习方法主要的应用场景是用在图像分类任务之中，假定为每张训练图像都打上属性类别和物体类别的标签，而在测试数据中，所有的属性与物体都是属于在训练集中见过的类别，因此可以训练图像识别模型来对属于未见过的属性-物体组合类别的图像进行分类。主流的组合式零样本图像分类方法可以分为基于解耦式学习的方法与基于合成式学习的方法。一方面，基于解耦式学习的方法包含了属性分类分支与物体分类分支，两分支分别对于输入图像所包含的属性和物体类别进行分类，在训练阶段，对于属性和物体分类分支进行联合训练，而在测试阶段，使用直接相乘的方式结合两分支的预测，得到对于组合类别的预测结果。另一方面，基于合成式学习的方法需要预先使用自然语言处理的方法提取属性和物体类别的语义词向量，例如Glove词向量（全局词向量）等，并在训练阶段学习如何使用属性与物体词向量的组合生成对应组合类别的分类器，进而在测试阶段，可以使用相同的方式为训练中不可见的测试类别生成对应的类别分类器。

组合式零样本图像分类的最新进展同时包含了以上两种类型的学习方式。

一方面，对于基于解耦式学习的组合式零样本学习方法，2020年国际计算机视觉与模式识别会议（The Conference on Computer Vision and Pattern Recognition）上的一篇名为《Symmetry and Group in Attribute-Object Compositions》的文章提出了一种通过耦合和解耦等特征转换对概念的组合性质进行建模的方法，该方法提出对于特定属性所代表的特征转换，图像的物体特征应当关于该转换对称的正则化约束，此外该方法还提出了一种基于相对移动距离的识别方法，利用属性变化而非属性模式本身来对属性类别进行识别；2022年国际计算机视觉与模式识别会议（The Conference on Computer Visionand Pattern Recognition）上的一篇名为《Disentangling Visual Embeddings forAttributes and Objects》的文章克服了预训练的骨干特征提取网络无法捕捉到与属性相关的细节视觉特征的问题，该方法提出了用于改进解耦学习的亲和力模块，该模块能够识别具有相同概念的两张图像之间最为相似的特征，此外该方法还展示了如何通过解耦后的视觉特征来生成虚拟的特征表示，从而约束分类模型学习到更为一致的视觉特征。

另一方面，对于基于合成式学习的组合式零样本学习方法，2019年国际计算机视觉大会（IEEE International Conference on Computer Vision）上的一篇名为《Task-Driven Modular Networks for Zero-Shot Compositional Learning》的文章提出了一系列通过门函数进行配置的神经网络模块，该方法所使用的这些模块以输入任务作为门函数的激活条件，使任务能够表示为子任务的组合，并通过在测试阶段根据新类别的输入图像重新加权一组小模块来使模型的识别能力泛化到未见过的类别；2021年国际计算机视觉与模式识别会议（The Conference on Computer Vision and Pattern Recognition）上的一篇名为《Learning Graph Embeddings for Compositional Zero-shot Learning》的文章以端到端的方式学习图像特征、属性与物体分类器以及输入图像的视觉特征，该方法利用图神经网络模型来捕捉编码了各个概念之间的语义的联合兼容性。

尽管这些基于解耦式学习或基于合成式学习的方法能够在组合式零样本图像分类这一任务上取得较好的性能，但是组合式零样本图像任务主要存在着属性和物体的视觉表征之间相互耦合的问题。具体地，在某一属性与不同的物体组合的图像中，该属性的视觉表征会发生变化，类似地，某一图像的物体类别的视觉表征同样受到与其组合的属性类别所影响。一方面，基于解耦式学习的方法将属于同一类别的特征聚在一起，但同一类别中属于不同组合类别的概念所对应的视觉表征不一致，拉近其特征间距离会破坏模型的判别性，影响图像分类性能；另一方面，合成式学习方法通过直接对于组合类别进行分类而部分地解决了这一问题，但这类方法对于在不同组合之中的同一概念使用共享的词向量，而这一作为输入的词向量同样无法根据组合类别的不同而动态调整，此外，基于合成式学习方法的分类性能高度依赖于词向量的初始化方式，但是在现实应用场景中，受到计算资源等条件的限制，往往无法获得最优的词向量表征，进而限制了这类方法的图像分类性能。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供一种组合式零样本图像分类方法、系统、设备及存储介质，可以在组合式零样本图像分类任务上大幅提升分类准确率。

本发明的目的是通过以下技术方案实现的：

一种组合式零样本图像分类方法，包括：

构建组合式零样本图像分类模型并进行训练，其中，组合式零样本图像分类模型包括：基线分类模型、基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器；所述基线分类模型对输入图像进行特征图提取，通过不同编码器对特征图进行编码，获得第一属性特征、第一物体特征与第一组合特征；所述基于子类信息感知的特征提取网络对所述第一组合特征进行解码获得第二属性特征与第二物体特征，以及对所述第一属性特征与第一物体特征进行编码获得第二组合特征；所述基于子类信息调制的动态分类器存储有属性分类器与物体分类器的权重，利用所述第一组合特征对属性分类器与物体分类器的权重分别进行动态更新；所述基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类，利用属性分类器与物体分类器的分类结果计算相应的分类损失；所述基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类，利用组合分类器的分类结果计算相应的分类损失；以及利用第一属性特征与第一物体特征分别构造对应的正负样本，计算相应的对比学习损失；结合所有分类损失与对比学习损失构造总损失函数训练所述组合式零样本图像分类模型；

训练完毕后，将待分类图像输入至训练后的组合式零样本图像分类模型，进行特征图提取并编码获得第一属性特征与第一物体特征，再对应的经属性分类器与物体分类器做进行分类，将属性分类结果与物体分类结果组合，作为组合类别的分类结果。

一种组合式零样本图像分类系统，包括：

模型构建与训练单元，用于构建组合式零样本图像分类模型并进行训练，其中，组合式零样本图像分类模型包括：基线分类模型、基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器；所述基线分类模型对输入图像进行特征图提取，通过不同编码器对特征图进行编码，获得第一属性特征、第一物体特征与第一组合特征；所述基于子类信息感知的特征提取网络对所述第一组合特征进行解码获得第二属性特征与第二物体特征，以及对所述第一属性特征与第一物体特征进行编码获得第二组合特征；所述基于子类信息调制的动态分类器存储有属性分类器与物体分类器的权重，利用所述第一组合特征对属性分类器与物体分类器的权重分别进行动态更新；所述基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类，利用属性分类器与物体分类器的分类结果计算相应的分类损失；所述基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类，利用组合分类器的分类结果计算相应的分类损失；以及利用第一属性特征与第一物体特征分别构造对应的正负样本，计算相应的对比学习损失；结合所有分类损失与对比学习损失构造总损失函数训练所述组合式零样本图像分类模型；

分类单元，用于在训练完毕后，将待分类图像输入至训练后的组合式零样本图像分类模型，进行特征图提取并编码获得第一属性特征与第一物体特征，再对应的经属性分类器与物体分类器做进行分类，将属性分类结果与物体分类结果组合，作为组合类别的分类结果。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，通过构建基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器，基于子类信息感知的特征提取网络能够捕捉表征图像子类信息的视觉特征，而基于子类信息调制的动态分类器能够根据图像的属性与物体所属子类的不同，动态调整相应分类器的权重，使得本发明能够对属于不同子类的原始概念进行针对性地识别（也即通过属性分类器和物体分类器，分别对属性和物体的类别进行分类），从而解决传统的解耦式学习与合成式学习方法受到属性与物体的视觉特征耦合而造成的图像分类模型判别性下降的问题，实验结果表明本发明所提出的方法在组合式零样本图像分类任务上能够大幅提升分类准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种组合式零样本图像分类方法的流程图；

图2为本发明实施例提供的一种组合式零样本图像分类模型的结构示意图；

图3为本发明实施例提供的一种组合式零样本图像分类系统的示意图；

图4为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中，则该术语将使权利要求成为封闭式，使其不包含除明确列出的技术特征要素以外的技术特征要素，但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中，那么其仅限定在该子句中明确列出的要素，其他子句中所记载的要素并不被排除在整体权利要求之外。

下面对本发明所提供的一种组合式零样本图像分类方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

为了更好地解决属性与物体的视觉表征之间的耦合问题，本发明提供一种组合式零样本图像分类方法，为了方便表述，首先定义图像的每个属性类别和物体类别为原始概念，并定义属于不同组合类别的同一原始概念属于不同的子类，具体而言，一个组合类别是由属性与物体组合而成，例如，红色的苹果这一组合类别由红色这一属性类别与苹果这一物体类别组合而成。在本发明中，将不同组合类别中的同一个概念视为不同子类，例如，将红色苹果与黄色苹果这两个组合类别中的苹果这一物体类别，视为属于不同的子类。通过构建基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器，分别在模型的特征提取与特征分类两部分实现对于不同子类概念的精细识别，改善属性与物体的视觉表征高度耦合导致的对不同子类中概念的判别能力下降的问题，从而取得更优的组合式零样本图像分类的性能。

如图1所示，本发明实施例提供一种组合式零样本图像分类方法，主要包括如下步骤：

步骤1、构建组合式零样本图像分类模型并进行训练。

本发明实施例中，组合式零样本图像分类模型包括：基线分类模型、基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器；所述基线分类模型对输入图像进行特征图提取，通过不同编码器对特征图进行编码，获得第一属性特征、第一物体特征与第一组合特征；所述基于子类信息感知的特征提取网络对所述第一组合特征进行解码获得第二属性特征与第二物体特征，以及对所述第一属性特征与第一物体特征进行编码获得第二组合特征；所述基于子类信息调制的动态分类器存储有属性分类器与物体分类器的权重，利用所述第一组合特征对属性分类器与物体分类器的权重分别进行动态更新；所述基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类，利用属性分类器与物体分类器的分类结果计算相应的分类损失；所述基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类，利用组合分类器的分类结果计算相应的分类损失；以及利用第一属性特征与第一物体特征分别构造对应的正负样本，计算相应的对比学习损失；结合所有分类损失与对比学习损失构造总损失函数训练所述组合式零样本图像分类模型。

步骤2、利用训练后的组合式零样本图像分类模型对待分类图像进行分类预测。

本发明实施例中，训练完毕后，将待分类图像输入至训练后的组合式零样本图像分类模型，进行特征图提取并编码获得第一属性特征与第一物体特征，再对应的经属性分类器与物体分类器做进行分类，将属性分类结果与物体分类结果组合，作为组合类别的分类结果。

本发明实施例提供的上述方案中，基于子类信息感知的特征提取网络能够捕捉表征图像子类信息的视觉特征，而基于子类信息调制的动态分类器能够根据图像的属性与物体所属子类的不同，动态调整相应分类器的权重；本发明通过构建基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器，能够对属于不同子类的原始概念进行针对性地识别（例如，能够针对红色苹果与黄色苹果中苹果这一物体的特征的变化而进行针对性地识别），从而解决传统的解耦式学习与合成式学习方法受到属性与物体的视觉特征耦合而造成的图像分类模型判别性下降的问题，实验结果表明本发明所提出的方法在组合式零样本图像分类任务上能够大幅提升模型分类准确率。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的上述方法进行详细描述。

一、构建组合式零样本图像分类模型。

本发明实施例构建的组合式零样本图像分类模型是一种基于子类信息学习的组合式零样本学习网络，主要包括：基线分类模型、基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器三个部分，图2展示了组合式零样本图像分类模型主要结构，下面结合图2对以上三个部分分别进行详细的描述。

1、基线分类模型。

如图2所示，所述基线分类模型包括：特征提取网络与三个分支，三个分支为属性分类分支、物体分类分支与组合分类分支；属性分类分支包括：属性编码器与属性分类器；物体分类分支包括：物体编码器与物体分类器；组合分类分支包括：组合编码器与组合分类器。

所述特征提取网络，用于特征图提取，并将特征图分别输入至三个分支。

属性分类分支中，属性编码器用于对特征图进行编码变换，获得第一属性特征；属性分类器用于利用动态更新的属性分类器权重对第一属性特征进行分类。

物体分类分支中，物体编码器用于对特征图进行编码变换，获得第一物体特征；物体分类器，用于利用动态更新的物体分类器权重对第一物体特征进行分类。

组合分类分支中，组合编码器负责对特征图进行编码变换，获得第一组合特征；组合分类器，用于对第一组合特征与第二组合特征分别进行分类。

本发明实施例中，特征提取网络可以采用基础的深度卷积神经网络模型实现；例如，深度残差网络ResNet18模型中倒数前二层之前的部分，并在ImageNet数据集上进行预训练，之后固定不变，也就是说特征提取网络不参与组合式零样本图像分类模型的训练。

示例性的，对于给定的224*224分辨率的输入图像

，通过特征提取网络输出输出维度为7*7*512的特征图/>

。图2左侧给出了输入图像的示例，其中：旧、多彩的为输入图像的属性类别，汽车、楼房为输入图像的物体类别。

本发明实施例中，属性编码器

、物体编码器/>

与组合编码器/>

可以采用相同的结构，例如，由1*1卷积层、批量归一化层与使用ReLU（线性整流函数）激活函数的全连接层以及全局平均池化层所组成。这三个编码器分别将特征提取网络输出的7*7*512维的特征图/>

变换为512维的特征向量（即第一属性特征、第一物体特征与第一组合特征对应的向量）。

本发明实施例中，属性分类器

、物体分类器/>

与组合分类器/>

分别输出输入图像的属性类别、物体类别以及组合类别的预测，其中组合分类器仅针对训练集中见过的组合类别进行识别。

本发明实施例中，三个分类器也可以采用相同的结构，例如，由包含ReLU激活函数的两层全连接层构成。

2、基于子类信息感知的特征提取网络。

如图2所示，所述基于子类信息感知的特征提取网络包括：属性解码器、物体解码器与虚拟组合编码器。

所述属性解码器，用于将第一组合特征映射至属性域，获得第二属性特征。

所述物体解码器，用于将第一组合特征映射至物体域，获得第二物体特征。

所述虚拟组合编码器，用于对第一属性特征与第一物体特征进行编码变换，获得第二组合特征。

本发明实施例中，一方面，构建额外的属性解码器与物体解码器以分别将第一组合特征解码至属性域与物体域之中，获得第二属性特征与第二物体特征。另一方面，利用额外的虚拟组合编码器根据第一属性特征与第一物体特征生成虚拟的组合特征（即第二组合特征）。

3、基于子类信息调制的动态分类器。

如图2所示，所述基于子类信息调制的动态分类器包括：属性调制器与物体调制器。所述属性调制器中存储有属性分类器的权重，所述属性调制器通过softmax函数对所述第一组合特征进行处理后，与存储的属性分类器的权重Hadamard乘法操作，再与存储的属性分类器的权重逐元素相加，获得动态更新的属性分类器的权重；所述物体调制器中存储有物体分类器的权重，所述物体调制器通过softmax函数对所述第一组合特征进行处理后，与存储的物体分类器的权重Hadamard乘法操作，再与存储的物体分类器的权重逐元素相加，获得动态更新的物体分类器的权重；其中，softmax函数为归一化指数函数，Hadamard为哈达玛乘积。

本发明实施例中，分别建立针对属性分类器的原型调制器和针对物体分类器的原型调制器，每个原型调制器中分别保存了属性或物体分类中的类别权重。此处的原型是指类别原型，也即分类器的权重。通过基于子类信息调制的动态分类器动态更新相应属性分类器与物体分类器的权重，然后使用动态更新的分类器的权重获取相应类别标签对应的权重，再与相应的特征（第一属性特征或第一物体特征）相乘，得到相应分类器的分类结果（即属于各个属性或物体类别的得分）。

二、训练组合式零样本图像分类模型。

本发明实施例中，端到端训练结合了基于子类信息感知的特征提取网络与基于子类信息调制的动态分类器的组合式零样本图像分类模型。利用各分类损失与对比学习损失构成总损失函数对组合式零样本图像分类模型进行端到端地训练，使用自适应矩估计算法优化除特征提取网络外其他部分的模型参数。对于测试阶段的输入图像，使用属性分类分支与物体分类分支的输出相乘作为组合类别的预测结果，进而将测试样本分类至所有可行的组合中得分最高的组合类别。

1、分类损失。

（1）基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类，利用属性分类器与物体分类器的分类结果计算相应的分类损失。

本发明实施例中，基于子类信息调制的动态分类器能够根据输入图像的子类信息，对于基线分类模型中分类器所存储的类别原型进行动态调整。基于子类信息调制的动态分类器包括：属性调制器与物体调制器，它们分别存储有属性分类器与物体分类器的权重，分类器的权重与类别原型是相同的概念。将属性分类器与物体分类器的权重分别记为

与/>

。对表征了子类信息的第一组合特征进行softmax操作后，与分别/>

、/>

进行Hadamard乘法操作，从而学习各类别原型与子类原型之间的残差项。将这一残差项与/>

、/>

分别进行逐元素相加，得到根据子类信息调整后的属性与物体各类别原型（即动态更新的属性分类器与物体分类器的权重）/>

、/>

。使用第一属性特征、第一物体特征对应的与/>

、

进行相乘，得到属性、物体分类的各类别预测得分（分类结果），并使用交叉熵分类损失对属性与物体类别的分类进行优化。

具体的：将输入图像

的第一属性特征记为/>

，属性分类器利用动态更新的属性分类器的权重/>

对第一属性特征/>

进行分类，再根据属性分类器的分类结果/>

计算相应的分类损失，称为基于调制的属性分类损失/>

；将输入图像/>

的第一物体特征记为/>

，物体分类器利用动态更新的物体分类器的权重/>

对第一物体特征/>

进行分类，再根据物体分类器的分类结果/>

计算相应的分类损失，称为基于调制的物体分类损失

。

基于调制的属性分类损失

与基于调制的物体分类损失/>

分别表示为：

；

；

其中，exp表示以自然常数e为底的指数函数；A表示属性类别标签集合，

为输入图像/>

的属性类别标签，/>

为属性类别标签集合A中的任意属性类别标签，/>

表示从动态更新的属性分类器的权重/>

中获取相应属性类别标签对应的权重；O表示物体类别标签集合，/>

为图像/>

的物体类别标签，/>

为属性标签集合O中的任意物体类别标签，/>

表示从动态更新的物体分类器的权重/>

中获取相应物体类别标签对应的权重。

（2）基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类，利用组合分类器的分类结果计算相应的分类损失。

将输入图像

的第一组合特征记为/>

，第二组合特征记为/>

，组合分类器对所述第一组合特征/>

进行分类，再根据组合分类器的分类结果/>

计算相应的分类损失，称为组合分类损失/>

；以及，组合分类器对所述第二组合特征/>

进行分类，再根据组合分类器的分类结果/>

计算相应的分类损失，称为虚拟组合特征分类损失/>

。

组合分类损失

与虚拟组合特征分类损失/>

分别表示为：

；

；

其中，exp表示以自然常数e为底的指数函数；

为输入图像/>

的组合类别标签，C表示组合类别标签集合，/>

为组合类别标签集合中的任意组合类别标签，/>

表示从组合分类器的权重/>

中获取相应组合类别标签对应的权重。

本发明实施例中，虚拟组合编码器可以使用ReLU作为激活函数的两层全连接层，其输入为属性分类分支与物体分类分支的特征（即第一属性特征与第一物体特征）的拼接。将该虚拟组合编码器输出的第二组合特征输入至组合分类器，为使得第一属性特征与第一物体特征能够学习到概念的子类信息，约束第二组合特征同样能够被组合分类器正确分类，使用交叉熵损失对第二组合特征的分类进行约束，这部分虚拟组合特征分类损失

构成了基于虚拟组合编码器输出的特征对齐损失。

2、对比损失。

本发明实施例中，利用第一属性特征与第一物体特征分别构造对应的正负样本，计算相应的对比学习损失。

本发明实施例中，基于子类信息感知的特征提取网络添加了两个分别将第一组合特征映射至属性域与物体域的解码器，即前文所述的属性解码器与物体解码器，这两个解码器均是由包含了ReLU激活层的两层全连接层所构成的，分别将第一组合特征映射为第二属性特征与第二物体特征。由于第一组合特征受到组合分类器的约束，因而第二属性特征与第二物体特征相比于第一属性特征与第一物体特征，能够包含更多子类判别性信息。将输入图像

的第一属性特征记为/>

，第一物体特征记为/>

，第二属性特征记为/>

，第二物体特征记为/>

；对于输入图像/>

的第一属性特征/>

，将第二属性特征/>

作为正样本，同一批次中属于不同组合类别的输入图像的第二属性特征作为负样本，计算属性对比学习损失/>

；对于输入图像/>

的第一物体特征/>

，将第二物体特征/>

作为正样本，同一批次中属于不同组合类别的输入图像的第二物体特征作为负样本，计算物体对比学习损失/>

；基于这一正样本与负样本采样机制，使用基于特征相似度的对比学习机制进行训练，并引入温度参数控制较为相近的负样本的作用程度。

属性对比学习损失

与物体对比学习损失/>

分别表示为：

；

；

其中，exp表示以自然常数e为底的指数函数；

表示同一批次中与输入图像/>

属于不同组合类别的输入图像形成的集合，/>

表示集合/>

中的输入图像j的第二属性特征，/>

表示集合/>

中的输入图像l的第二物体特征；/>

为温度参数，用于控制负样本的作用程度。

在训练阶段，总损失函数包括：组合分类损失

、基于调制的属性分类损失/>

、基于调制的物体分类损失/>

、虚拟组合特征分类损失/>

、以及属性对比学习损失/>

与物体对比学习损失/>

。本发明实施例中，可使用1作为权重分别对于以上6项损失函数进行加权，并使用加权后的各项损失函数之和作为总损失函数，端到端地优化除特征提取网络部分以外的各部分模型参数。

三、组合类别图像分类。

在测试阶段，本发明将基线分类模型中属性分类分支获得的属性预测得分（即属性分类器的分类结果）与物体分类分支获得的与物体预测得分（即物体分类器的分类结果）相乘，作为各个组合类别的得分，从中挑选出可行的组合中得分最高的组合类别，作为最终预测结果，从而完成对于未见过组合类别图像的分类。

本领域技术人员可以理解，两个分类器的输出分类结果是属于各个类别（属性类别或物体类别）的预测得分，通常情况下，将预测得分经过softmax（归一化指数函数）操作进行归一化后得到属于各个类别的概率。但是，由于归一化的过程并不影响最终的分类结果，因此此处直接使用两类预测得分相乘，相比使用概率相乘，减少了softmax操作。

本发明实施例中，可行的组合可以预先定义，假设数据集中包含有P个属性类别，Q个物体类别，这样总共构成P×Q个组合类别。但在实际情况中，部分属性和物体构成的组合不含任何意义。在数据集中已经预先定义好在这P×Q中的可行的组合。在测试阶段，只在这些可行的组合中选择得分最高的组合类别。

为了便于理解本发明并展示本发明的图像分类性能，下面结合具体实施例进行说明，主要包括：数据集构建、模型训练、模型性能比较三部分。

1、数据集构建。

本示例中，使用标准的组合式零样本图像分类数据集以测试本发明的有效性。UT-Zappos是包含50025张鞋类图像的中等规模数据集，其中22998张图像被划分为训练集，3214张图像被划分为验证集，2914张被划分为测试集，该数据集中的属性类别表征了鞋子的材质，物体类别表征了鞋子的型号。C-GQA则是包含了39298张自然图像的数据集，其中26920张图像用于构建训练集，7280张图像用于验证集，5098张图像用于测试集。相比之下，C-GQA包含了远远更多的属性类别与物体类别，因而使得在该数据集上的识别难度也远远更高。这两个数据集的划分方式信息如表1所示。

表1：数据集划分方式统计信息表

2、模型训练。

本示例中，使用ResNet18模型作为特征提取网络，使用224*224作为输入图像的尺寸，并在训练阶段对输入图像使用随机裁剪和随机翻转变换等数据增强方式；本示例使用自适应矩估计算法对除去特征提取网络之外的模型参数进行优化，设置学习率为0.0001，权重参数下降为0.00005，将对比学习函数中的温度参数统一设置为0.05，并将特征对齐损失的权重设置为1。本发明使用英伟达GTX2080Ti GPU进行训练和测试，共训练50个epoch（轮次），并采用在验证集上分类效果最好的模型参数生成测试阶段的最终结果。

3、模型性能比较。

为了使用本发明所提出的方法对属于训练阶段未见过的组合类别的图像进行分类，使用泛化设定对本发明的性能进行评估。在泛化设定下，需要在测试阶段同时对属于见过的组合类别与未见过组合类别的样本进行分类，分别计算见过类别与未见过类别的逐类别准确率，并使用二者的调和平均作为最终的评价指标。注意到，在这一设定下，由于模型对于见过的类别存在一定的偏向，因此对见过的组合类别得分乘以一定的比例系数，以重新调整模型在见过类别和未见过类别的准确率。在此基础上，本发明通过调整该比例系数，可以得到一系列见过类别-未见过类别的准确率，进而计算该曲线与坐标轴所围成的面积。

在UT-Zappos数据集与C-GQA数据集上，本发明所提出方法与其他方法的分类结果如表2所示。

表2：组合式零样本图像分类结果比较结果

其中，AUC 代表见过类别-未见过类别的准确率曲线与坐标轴围成的面积，HM代表最优的见过类别与未见过类别准确率的调和平均，S和U分别代表最优的见过类别准确率与未见过类别准确率。可以看出，与2018年欧洲计算机视觉国际会议上的论文《Attributesas Operators: Factorizing Unseen Attribute-Object Compositions》（Attop），2017年国际计算机视觉与模式识别会议上的论文《From Red Wine to Red Tomato: Compositionwith Context》（LE＋），2019年国际计算机视觉大会上的论文《Task-Driven ModularNetworks for Zero-Shot Compositional Learning》（TMN），2020年国际计算机视觉与模式识别会议上的论文《Symmetry and Group in Attribute-Object Compositions》（SymNet），2021年国际计算机视觉与模式识别会议上的论文《Open World CompositionalZero-Shot Learning》（CompCos），2022年IEEE模式分析与机器智能汇刊上的论文《Learning Graph Embeddings for Open World Compositional Zero-Shot Learning》（CGE、Co-CGE），2022年国际计算机视觉与模式识别会议上的论文《Disentangling VisualEmbeddings for Attributes and Objects》（OADis）相比，本发明所提出的方法大幅提升了模型的组合式零样本图像分类性能，在UT-Zappos与C-GQA数据集上，考虑更为综合的AUC与HM两项指标，本发明所提出的方法均超出以上8种方法的最优指标，这验证了本发明所提出方法的有效性。

为了进一步验证本发明所提出方法中各个模块的有效性，在基线分类模型上分别添加基于解码器输出的对比学习损失

（即/>

）、虚拟组合特征分类损失/>

以及原型调制模块M（包含物体调制器与属性调制器），并尝试各项模块之间的不同组合方式。各部分对于最终性能影响的结果比较结果如表3所示。

表3：各部分模块对于最终性能影响的结果比较

其中，在未使用原型调制模块M时，不计算损失

与/>

，而是由基线分类模型中的属性分类器与物体分类器各自利用权重/>

与/>

进行属性分类与物体分类，结合分类结果计算属性分类损失/>

与物体分类损失/>

，计算公式也即将/>

与/>

公式中的/>

、/>

对应的替换为/>

、/>

。

根据表3可以看出，本发明所提出的各个部分均在一定程度上提升了组合式零样本图像分类模型的性能，说明特征层面以及分类器层面的子类信息识别能力的提升均能够为识别未见过的组合类别带来帮助。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种组合式零样本图像分类系统，其主要基于前述实施例提供的方法实现，如图3所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图4所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种组合式零样本图像分类方法，其特征在于，包括：

2.根据权利要求1所述的一种组合式零样本图像分类方法，其特征在于，所述基线分类模型包括：特征提取网络与三个分支，三个分支为属性分类分支、物体分类分支与组合分类分支；属性分类分支包括：属性编码器与属性分类器；物体分类分支包括：物体编码器与物体分类器；组合分类分支包括：组合编码器与组合分类器；其中：

所述特征提取网络，用于特征图提取，并将特征图分别输入至三个分支；

属性分类分支中，属性编码器用于对特征图进行编码变换，获得第一属性特征；属性分类器用于利用动态更新的属性分类器权重对第一属性特征进行分类；

物体分类分支中，物体编码器用于对特征图进行编码变换，获得第一物体特征；物体分类器，用于利用动态更新的物体分类器权重对第一物体特征进行分类；

3.根据权利要求1所述的一种组合式零样本图像分类方法，其特征在于，所述基于子类信息感知的特征提取网络包括：属性解码器、物体解码器与虚拟组合编码器；其中：

所述属性解码器，用于将第一组合特征映射至属性域，获得第二属性特征；

所述物体解码器，用于将第一组合特征映射至物体域，获得第二物体特征；

4.根据权利要求1所述的一种组合式零样本图像分类方法，其特征在于，所述基于子类信息调制的动态分类器包括：属性调制器与物体调制器；其中：

所述属性调制器中存储有属性分类器的权重，所述属性调制器通过softmax函数对所述第一组合特征进行处理后，与存储的属性分类器的权重Hadamard乘法操作，再与存储的属性分类器的权重逐元素相加，获得动态更新的属性分类器的权重；

所述物体调制器中存储有物体分类器的权重，所述物体调制器通过softmax函数对所述第一组合特征进行处理后，与存储的物体分类器的权重Hadamard乘法操作，再与存储的物体分类器的权重逐元素相加，获得动态更新的物体分类器的权重；

其中，softmax函数为归一化指数函数，Hadamard为哈达玛乘积。

5.根据权利要求1~4任一项所述的一种组合式零样本图像分类方法，其特征在于，所述基线分类模型中的属性分类器与物体分类器各自利用动态更新的权重对应的对第一属性特征与第一物体特征进行分类，利用属性分类器与物体分类器的分类结果计算相应的分类损失包括：

将输入图像

的第一属性特征记为/>

，属性分类器利用动态更新的属性分类器的权重

对第一属性特征/>

进行分类，再根据属性分类器的分类结果/>

计算相应的分类损失，称为基于调制的属性分类损失/>

；将输入图像/>

的第一物体特征记为/>

，物体分类器利用动态更新的物体分类器的权重/>

对第一物体特征/>

进行分类，再根据物体分类器的分类结果/>

计算相应的分类损失，称为基于调制的物体分类损失/>

；

基于调制的属性分类损失

与基于调制的物体分类损失/>

分别表示为：

；

；

为输入图像

的属性类别标签，/>

为属性类别标签集合A中的任意属性类别标签，/>

表示从动态更新的属性分类器的权重/>

中获取相应属性类别标签对应的权重；O表示物体类别标签集合，

为图像/>

的物体类别标签，/>

为属性标签集合O中的任意物体类别标签，/>

表示从动态更新的物体分类器的权重/>

中获取相应物体类别标签对应的权重。

6.根据权利要求1~4任一项所述的一种组合式零样本图像分类方法，其特征在于，所述基线分类模型中的组合分类器分别对所述第一组合特征与第二组合特征进行分类，利用组合分类器的分类结果计算相应的分类损失包括：

将输入图像

的第一组合特征记为/>

，第二组合特征记为/>

，组合分类器对所述第一组合特征/>

进行分类，再根据组合分类器的分类结果/>

计算相应的分类损失，称为组合分类损失/>

；以及，组合分类器对所述第二组合特征/>

进行分类，再根据组合分类器的分类结果/>

计算相应的分类损失，称为虚拟组合特征分类损失/>

；

组合分类损失

与虚拟组合特征分类损失/>

分别表示为：

；

；

其中，exp表示以自然常数e为底的指数函数；

为输入图像/>

的组合类别标签，C表示组合类别标签集合，/>

为组合类别标签集合中的任意组合类别标签，/>

表示从组合分类器的权重/>

中获取相应组合类别标签对应的权重。

7.根据权利要求1~4任一项所述的一种组合式零样本图像分类方法，其特征在于，所述利用第一属性特征与第一物体特征分别构造对应的正负样本，计算相应的对比学习损失包括：

将输入图像

的第一属性特征记为/>

，第一物体特征记为/>

，第二属性特征记为/>

，第二物体特征记为/>

；

对于输入图像

的第一属性特征/>

，将第二属性特征/>

；对于输入图像/>

的第一物体特征/>

，将第二物体特征/>

；

属性对比学习损失

与物体对比学习损失/>

分别表示为：

；

；

其中，exp表示以自然常数e为底的指数函数；

表示同一批次中与输入图像/>

属于不同组合类别的输入图像形成的集合，/>

表示集合/>

中的输入图像j的第二属性特征，/>

表示集合/>

中的输入图像l的第二物体特征；/>

为温度参数，用于控制负样本的作用程度。

8.一种组合式零样本图像分类系统，其特征在于，基于权利要求1~7任一项所述的方法实现，该系统包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。