CN116524261A

CN116524261A - 一种基于多模态小样本持续学习的图像分类方法及产品

Info

Publication number: CN116524261A
Application number: CN202310465671.4A
Authority: CN
Inventors: 王鑫; 朱文武
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-08-01

Abstract

本申请提供了一种基于多模态小样本持续学习的图像分类方法及产品，涉及图像处理技术领域，包括：获取输入图像；基于输入图像，获取输入数据，输入数据至少包括视觉特征以及所述视觉特征对应的文本原型；将视觉特征以及文本原型输入语义融合网络，以对视觉特征以及文本原型进行信息融合，获取自适应原型，自适应原型至少包括自适应视觉原型以及自适应查询表征；基于自适应视觉原型与自适应查询表征，获取查询图像的类别概率。本申请通过在小样本持续学习过程中，基于语义融合网络将隐藏在类别文本中语义信息与视觉信息进行融合，使模型在进行小样本持续学习时考虑语义信息的影响，从而极大地缓解了小样本持续学习过程中的灾难性遗忘问题。

Description

一种基于多模态小样本持续学习的图像分类方法及产品

技术领域

本申请实施例涉及图像处理技术领域，具体而言，涉及一种基于多模态小样本持续学习的图像分类方法及产品。

背景技术

小样本持续学习作为一种同时解决持续学习和小样本学习问题的范式，已经成为机器学习中一个充满挑战的问题。一个理想的小样本持续学习模型应当能够在新类别出现时区分所有已知类别，其中每个类别仅包含少量有标签数据。

然而，现有的小样本持续学习方法只考虑了视觉模态，侧重于在图像的单一模态的视觉信息上进行特征学习，忽略了类别之间的语义关联，这使得新类别的分布往往和旧类别发生重叠而难以区分，从而导致了严重的灾难性遗忘问题。因此，如何缓解小样本持续学习的灾难性遗忘问题，成为本领域技术人员当前亟待解决的技术问题。

发明内容

本申请实施例在于提供一种基于多模态小样本持续学习的图像分类方法及产品，旨在解决如何缓解小样本持续学习的灾难性遗忘的问题。

本申请实施例第一方面提供一种基于多模态小样本持续学习的图像分类方法，应用于第t个持续学习任务，t≥1，所述方法包括：

获取输入图像，所述输入图像至少包括查询图像和支持图像；

基于所述输入图像，获取输入数据，所述输入数据至少包括视觉特征以及所述视觉特征对应的文本原型；

将所述视觉特征以及所述文本原型输入语义融合网络，以对所述视觉特征以及所述文本原型进行信息融合，获取自适应原型，所述自适应原型至少包括自适应视觉原型以及自适应查询表征；

基于所述自适应视觉原型与所述自适应查询表征，获取所述查询图像的类别概率。

在一种可选的实施方式中，所述自适应原型还包括自适应文本原型，在获取自适应原型之后，所述方法还包括：

基于所述自适应视觉原型、所述自适应文本原型与第一真实标签，获取语义一致性损失，所述第一真实标签用于表征所述自适应视觉原型与所述自适应视觉原型对应的文本原型之间的匹配关系；

基于所述自适应查询表征、所述自适应视觉原型与第二真实标签，获取查询损失，所述第二真实标签为所述查询表征的真实类别标签；

基于所述语义一致性损失以及所述查询损失，对所述语义融合网络进行优化，得到优化的语义融合网络；

将所述优化的语义融合网络作为第t+1个持续学习任务的所述语义融合网络。

在一种可选的实施方式中，基于所述输入图像，获取输入数据，包括：

基于所述支持图像所属的类别，获取语义信息；

将所述支持图像以及所述查询图像输入卷积子网络，分别得到所述支持图像对应的视觉原型以及所述查询图像对应的查询表征；

将所述语义信息输入投影子网络，得到所述文本原型；

将所述查询表征以及所述视觉原型进行连接处理，得到所述视觉特征。

在一种可选的实施方式中，所述语义融合网络包括自注意力模块以及前向传播层，将所述视觉特征以及所述文本原型输入语义融合网络，以对所述视觉特征以及所述文本原型进行信息融合，获取自适应原型，包括：

将所述视觉特征以及所述文本原型输入所述自注意力模块，以使所述视觉特征以及所述文本原型中的一者基于自注意力机制，对另一者进行信息融合以及信息增强，得到第一视觉特征以及第一文本原型；

对所述第一视觉特征、所述第一文本原型和所述文本原型进行加和以及归一化处理，得到增强的第一视觉特征以及增强的第一文本原型；

将所述增强的第一视觉特征以及所述增强的第一文本原型输入所述前向传播层，以向隐空间进行映射，得到第二视觉特征以及第二文本原型；

对所述第二视觉特征、所述第二文本原型和所述增强的第一文本原型进行加和以及归一化处理，得到所述自适应原型。

在一种可选的实施方式中，基于所述自适应视觉原型与所述自适应查询表征，获取所述查询图像的类别概率，包括：

基于所述自适应视觉原型与所述自适应查询表征，获取所述自适应查询表征与所述自适应视觉原型之间的余弦距离；

基于所述余弦距离，获取所述自适应查询表征属于所述自适应视觉原型对应的图像类别的概率，作为所述类别概率。

在一种可选的实施方式中，在获取所述自适应查询表征与所述自适应视觉原型之间的余弦距离之后，所述方法还包括：

基于所述余弦距离，获取目标自适应视觉原型，所述目标自适应视觉原型为与所述自适应查询表征之间的余弦距离最小的自适应视觉原型；

将所述目标自适应视觉原型对应的图像类别，作为所述查询图像的类别。

在一种可选的实施方式中，当t＝1时，所述语义融合网络，按照如下方式获取：

获取训练数据集，所述训练数据集至少包括原始支持图像、原始查询图像以及原始语义信息；

将所述训练数据集输入初始投影子网络以及初始卷积子网络，获取原始输入数据；

将所述原始输入数据输入初始语义融合网络，获取原始自适应原型；

基于所述原始自适应原型与原始真实标签，获取基础训练损失；

基于所述基础训练损失，对所述初始投影子网络、所述初始卷积子网络以及所述初始语义融合网络进行训练，得到第一语义融合网络、投影子网络以及卷积子网络，所述投影子网络以及所述卷积子网络用于在所有持续学习任务中获取所述输入数据；

将所述第一语义融合网络作为t＝1时的所述语义融合网络。

本申请实施例第二方面提供了一种基于多模态小样本持续学习的图像分类装置，应用于第t个持续学习任务，t≥1，所述装置包括：

获取模块，用于获取输入图像，所述输入图像至少包括查询图像和支持图像；

底层处理模块，用于基于所述输入图像，获取输入数据，所述输入数据至少包括视觉特征以及所述视觉特征对应的文本原型；

语义融合模块，用于将所述视觉特征以及所述文本原型输入语义融合网络，以对所述视觉特征以及所述文本原型进行信息融合，获取自适应原型，所述自适应原型至少包括自适应视觉原型以及自适应查询表征；

分类模块，用于基于所述自适应视觉原型与所述自适应查询表征，获取所述查询图像的类别概率。

在一种可选的实施方式中，所述装置还包括：

第一损失模块，用于基于所述自适应视觉原型、所述自适应文本原型与第一真实标签，获取语义一致性损失，所述第一真实标签用于表征所述自适应视觉原型与所述自适应视觉原型对应的文本原型之间的匹配关系；

第二损失模块，用于基于所述自适应查询表征、所述自适应视觉原型与第二真实标签，获取查询损失，所述第二真实标签为所述查询表征的真实类别标签；

优化模块，用于基于所述语义一致性损失以及所述查询损失，对所述语义融合网络进行优化，得到优化的语义融合网络；

更新模块，用于将所述优化的语义融合网络作为第t+1个持续学习任务的所述语义融合网络。

在一种可选的实施方式中，所述底层处理模块，包括：

语义获取子模块，用于基于所述支持图像所属的类别，获取语义信息；

第一底层处理子模块，用于将所述支持图像以及所述查询图像输入卷积子网络，分别得到所述支持图像对应的视觉原型以及所述查询图像对应的查询表征；

第二底层处理子模块，用于将所述语义信息输入投影子网络，得到所述文本原型；

连接子模块，用于将所述查询表征以及所述视觉原型进行连接处理，得到所述视觉特征。

在一种可选的实施方式中，所述语义融合模块，包括：

自注意力子模块，用于将所述视觉特征以及所述文本原型输入所述自注意力模块，以使所述视觉特征以及所述文本原型中的一者基于自注意力机制，对另一者进行信息融合以及信息增强，得到第一视觉特征以及第一文本原型；

第一增强子模块，用于对所述第一视觉特征、所述第一文本原型和所述文本原型进行加和以及归一化处理，得到增强的第一视觉特征以及增强的第一文本原型；

前向传播子模块，用于将所述增强的第一视觉特征以及所述增强的第一文本原型输入所述前向传播层，以向隐空间进行映射，得到第二视觉特征以及第二文本原型；

第二增强子模块，用于对所述第二视觉特征、所述第二文本原型和所述增强的第一文本原型进行加和以及归一化处理，得到所述自适应原型。

在一种可选的实施方式中，所述分类模块，包括：

距离计算子模块，用于基于所述自适应视觉原型与所述自适应查询表征，获取所述自适应查询表征与所述自适应视觉原型之间的余弦距离；

类别概率获取子模块，用于基于所述余弦距离，获取所述自适应查询表征属于所述自适应视觉原型对应的图像类别的概率，作为所述类别概率。

在一种可选的实施方式中，所述分类模块，还包括：

目标自适应视觉原型获取子模块，用于基于所述余弦距离，获取目标自适应视觉原型，所述目标自适应视觉原型为与所述自适应查询表征之间的余弦距离最小的自适应视觉原型；

分类子模块，用于将所述目标自适应视觉原型对应的图像类别，作为所述查询图像的类别。

在一种可选的实施方式中，所述装置还包括：

训练集获取模块，用于获取训练数据集，所述训练数据集至少包括原始支持图像、原始查询图像以及原始语义信息；

原始输入数据获取模块，用于将所述训练数据集输入初始投影子网络以及初始卷积子网络，获取原始输入数据；

初始语义融合模块，用于将所述原始输入数据输入初始语义融合网络，获取原始自适应原型；

基础损失模块，用于基于所述原始自适应原型与原始真实标签，获取基础训练损失；

训练模块，用于基于所述基础训练损失，对所述初始投影子网络、所述初始卷积子网络以及所述初始语义融合网络进行训练，得到第一语义融合网络、投影子网络以及卷积子网络，所述投影子网络以及所述卷积子网络用于在所有持续学习任务中获取所述输入数据；

第一更新模块，用于将所述第一语义融合网络作为t＝1时的所述语义融合网络。

本申请实施例第三方面提供一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现第一方面中任一项所述的基于多模态小样本持续学习的图像分类方法中的步骤。

本申请实施例第四方面提供一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现第一方面中任一项所述的基于多模态小样本持续学习的图像分类方法中的步骤。

有益效果：

本申请提供一种基于多模态小样本持续学习的图像分类方法及产品，应用于第t个持续学习任务，t≥1，所述方法包括：获取输入图像，所述输入图像至少包括查询图像和支持图像；基于所述输入图像，获取输入数据，所述输入数据至少包括视觉特征以及所述视觉特征对应的文本原型；将所述视觉特征以及所述文本原型输入语义融合网络，以对所述视觉特征以及所述文本原型进行信息融合，获取自适应原型，所述自适应原型至少包括自适应视觉原型以及自适应查询表征；基于所述自适应视觉原型与所述自适应查询表征，获取所述查询图像的类别概率。

本申请通过在小样本持续学习过程中，基于语义融合网络将隐藏在类别文本中语义信息与视觉信息进行融合，使模型在进行小样本持续学习时考虑语义信息的影响，从而极大地缓解了小样本持续学习过程中的灾难性遗忘问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中的基于单一模态的图像分类基线模型示意图；

图2是本申请一实施例提出的一种基于多模态小样本持续学习的图像分类方法流程图；

图3是本申请一实施例提出的一种基于多模态小样本持续学习的图像分类模型示意图；

图4是本申请一实施例提出的一种基于多模态小样本持续学习的图像分类方法网络架构示意图；

图5是本申请一实施例提出的一种语义融合网络架构示意图；

图6是本申请一实施例提出的一种基于多模态小样本持续学习的图像分类装置示意图；

图7是本申请一实施例提出的一种电子设备示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

相关技术中，小样本持续学习作为一种同时解决持续学习和小样本学习问题的范式，已经成为机器学习中一个充满挑战的问题。一个理想的小样本持续学习模型应当能够在新类别出现时区分所有已知类别，其中每个类别仅包含少量有标签数据。

图1示出了现有技术中的基于单一模态的图像分类基线模型示意图，如图1所示，现有的小样本持续学习方法只考虑了视觉模态，基于查询图像与基于支持图像对应的视觉原型之间的视觉相似度分数对查询图像进行图像分类，该过程侧重于在图像的单一模态的视觉信息上进行特征学习，忽略了类别之间的语义关联，这使得新类别的分布往往和旧类别发生重叠而难以区分，从而导致了严重的灾难性遗忘问题。

有鉴于此，本申请实施例提出一种基于多模态小样本持续学习的图像分类方法。图2示出了本申请实施例提出的一种基于多模态小样本持续学习的图像分类方法流程图，如图2所示，应用于第t个持续学习任务，t≥1，所述方法包括如下步骤：

S101、获取输入图像。

本申请实施例中，查询图像为在每个持续学习任务中输入的待分类图像，在每个持续学习任务中，该查询图像并非数据库中已有的图像。具体实施步骤S101时，获取当前持续学习任务输入的多个类别的图像，对当前持续学习任务输入的多个类别的图像进行采样，分别得到查询图像以及支持图像，查询图像和支持图像组成所述输入图像。具体而言，从当前持续学习任务输入的多个类别的图像中，从每个类别中抽取第一预设数量的图像作为支持图像，从每个类别中抽取第二预设数量的图像作为查询图像。将查询图像以及支持图像作为输入图像一并输入持续学习任务中的网络架构中，以对该查询图像进行图像分类。需要说明的是，上述第一预设数量以及第二预设数量可根据实际情况确定，本申请在此不作限制。

S102、基于所述输入图像，获取输入数据。

本申请实施例中，基于所述输入图像，获取输入数据，所述输入数据至少包括视觉特征以及所述视觉特征对应的文本原型。其中，输入数据为基于查询图像、支持图像以及语义信息获取的多模态基础特征，该多模态基础特征包括查询表征、视觉原型以及文本原型，查询表征和视觉原型同为图像特征，将查询表征和视觉原型组合为所述视觉特征，查询表征为查询图像经主干网络处理得到的隐表征(在共享的隐空间中的向量表征)，视觉原型为支持图像中每个类别的图像的平均隐表征，文本原型为语义信息的隐表征。

具体实施步骤S102时，在获取支持图像的同时，基于支持图像所属的类别，获取该类别对应的语义信息，其中，所述语义信息为支持图像所属的每个类别的文本标签基于预训练的词嵌入模型计算得到的。至此得到用于获取输入数据的数据集(包括查询图像、支持图像以及语义信息)，接下来基于该数据集，获取输入数据。

具体而言，将所述数据集中的数据输入初步训练的主干网络，得到输入数据。其中，主干网络包括卷积子网络以及投影子网路，一方面，将所述数据集中的所述支持图像以及所述查询图像分别输入卷积子网络，基于卷积子网络获取查询图像在共享的隐空间中对应的隐表征，作为查询图像对应的查询表征，基于卷积子网络获取每个类别的支持图像在共享的隐空间中的平均隐表征，作为每个类别对应的视觉原型；另一方面，将语义信息输入投影子网络，通过投影子网络中的线性仿射层将语义信息(每个类别的词嵌入)投影到共享的隐空间中，得到所述文本原型。在获取视觉原型与查询表征之后，由于其均为图像的隐表征，因此将所述查询表征以及所述视觉原型进行连接处理，得到所述视觉特征。

在一种可选的实施方式中，所述主干网络在基础学习任务阶段进行初步训练，并在每个持续学习任务中用于获取所述输入数据，该基础学习任务阶段在所有持续学习任务之前，按照如下方式获取初步训练的主干网络：

首先获取训练数据集，所述训练数据集至少包括原始支持图像、原始查询图像以及原始语义信息，其中，原始查询图像和原始支持图像区别于所述查询图像和支持图像，在基础学习阶段，所述原始查询图像和原始支持图像为从数据库中多个类别的图像中采样的图像。具体而言，在基础学习任务阶段的每个训练周期中，从数据库中采样第三预设数量的类别，从每个类别中抽取第四预设数量的图像组成原始支持图像；从与原始支持图像相同的每个类别中抽取图像作为原始查询图像；基于原始支持图像，获取原始支持图像所属的类别对应的原始语义信息，将原始查询图像、原始支持图像以及原始语义信息组合为训练数据集。需要说明的是，上述第三预设数量以及第四预设数量可根据实际情况确定，本申请在此不作限制。

随后在每个训练周期中，将所述训练数据集输入初始主干网络，得到原始输入数据，其中，该初始主干网络包括初始投影子网络以及初始卷积子网络。具体而言，将所述训练数据集中的所述原始支持图像以及所述原始查询图像分别输入初始卷积子网络，基于初始卷积子网络获取原始查询图像在共享的隐空间中对应的隐表征，作为原始查询图像对应的原始查询表征，基于初始卷积子网络获取每个类别的原始支持图像在共享的隐空间中的平均隐表征，作为每个类别对应的原始视觉原型；将原始语义信息输入初始投影子网络，通过初始投影子网络中的线性仿射层将原始语义信息投影到共享的隐空间中，得到原始文本原型，将原始文本原型、原始查询表征以及原始视觉原型组合为原始输入数据。

将所述原始输入数据输入初始语义融合网络，获取原始自适应原型；基于所述原始自适应原型与原始真实标签，获取基础训练损失，该基础训练损失包括语义一致性损失以及查询损失，通过查询损失区分不同类别的查询图像，通过语义一致性损失鼓励视觉和文本原型的对齐，并增强原始视觉原型的语义信息；基于所述基础训练损失，对所述初始投影子网络、所述初始卷积子网络以及所述初始语义融合网络进行训练，得到第一语义融合网络、投影子网络以及卷积子网络，所述投影子网络以及所述卷积子网络用于在所有持续学习任务中获取所述输入数据。需要说明的是，基于基础训练损失对所述主干网络以及所述初始语义融合网络进行训练的过程与持续学习阶段对语义融合网络的训练优化过程相同，区别在于在基础训练任务阶段同时对初始主干网络以及初始语义融合网络进行训练优化，在持续学习任务阶段只对语义融合网络进行训练优化，因此详情参见下述S103中在持续学习任务阶段对语义融合网络进行训练优化的过程，本申请在此不再赘述。

在基础学习任务阶段，通过原始自适应原型中的文本原型为隐空间提供锚点，从而使模型在优化过程中所获取的原始自适应原型中的视觉原型趋向于与文本原型对齐，经基础学习任务得到的投影子网络和卷积子网络应用于持续学习任务中，有助于加速持续学习的速度。

S103、将所述视觉特征以及所述文本原型输入语义融合网络，以对所述视觉特征以及所述文本原型进行信息融合，获取自适应原型。

将所述视觉特征(包含视觉原型以及查询表征)以及所述文本原型输入语义融合网络，以对所述视觉特征以及所述文本原型进行信息融合，获取自适应原型，所述自适应原型至少包括自适应视觉原型以及自适应查询表征，此外，所述自适应原型还包括自适应文本原型。自适应原型按照如下公式进行获取：

其中，e_q为所述查询表征，e_v为所述视觉原型，e_t为所述文本原型，e′_q为所述自适应查询表征，e′_v为所述自适应视觉原型，e′_t为所述自适应文本原型，为所述语义融合网络。

具体实施步骤S103时，图5示出了本申请一实施例提出的一种语义融合网络架构示意图，如图5所示，所述语义融合网络包括自注意力模块以及前向传播层。首先，使包含有视觉特征和文本原型的多模态信息基于自注意力模块的自注意力机制进行相互融合和增强，具体而言，将所述视觉特征以及所述文本原型输入所述自注意力模块，以使所述视觉特征以及所述文本原型中的一者基于自注意力机制，对另一者进行信息融合以及信息增强，得到第一视觉特征以及第一文本原型；随后，通过在经自注意力机制融合后的信息中引入文本原型，对第一视觉特征以及第一文本原型进行增强。具体而言，对所述第一视觉特征、所述第一文本原型和所述文本原型进行加和以及归一化处理，得到增强的第一视觉特征以及增强的第一文本原型。

将所述增强的第一视觉特征以及所述增强的第一文本原型输入所述前向传播层，通过前向传播层将多模态的信息(增强的第一视觉特征以及增强的第一文本原型)向共同的隐空间进行映射，得到第二视觉特征以及第二文本原型；最后，通过在经前向传播层映射后的信息中引入增强的第一文本原型，对第二视觉特征以及第二文本原型进行增强。具体而言，对所述第二视觉特征、所述第二文本原型和所述增强的第一文本原型进行加和以及归一化处理，得到自适应文本原型和自适应视觉特征，再将自适应视觉特征拆分为自适应视觉原型以及自适应查询表征，得到自适应原型，该自适应原型至少包括自适应视觉原型、自适应查询表征以及自适应文本原型。

基于语义融合模块，对视觉特征和文本原型进行融合和增强，得到的自适应原型融合了图像信息和语义信息，基于语义融合模块的自适应学习机制增强了视觉原型和图像类别之间的语义关联，有效缓解持续学习中的灾难性遗忘问题。

在一种可选的实施方式中，在每个持续学习任务中，需要对语义融合网络进行优化。具体而言，在第t个持续学习任务中，将输入数据输入到语义融合网络中，得到自适应视觉原型、自适应文本原型以及自适应查询表征之后，基于自适应视觉原型、自适应文本原型以及自适应查询表征计算总体损失，并基于所述总体损失对第t个持续学习任务中的语义融合网络进行训练优化。

首先基于所述自适应视觉原型、所述自适应文本原型与第一真实标签，获取语义一致性损失，所述第一真实标签用于表征所述自适应视觉原型与所述自适应视觉原型对应的文本原型之间的匹配关系。所述语义一致性损失按照如下公式获取：

m_v＝argmax_t(e′_v·e′_t)；

其中，e′_v为所述自适应视觉原型，e′_t为所述自适应文本原型，m_v是所述自适应视觉原型e′_v与所述自适应文本原型e′_t之间的最大计算匹配概率，g_v是所述第一真实标签，L_m为所述语义一致性损失，CrossEntropy为交叉熵函数，(e′_v·e′_t)为e′_v与e′_t之间的余弦距离。

在语义融合后，将自适应文本原型作为共享隐空间的锚点，并期望自适应视觉原型与作为隐空间锚点的自适应文本原型对齐，从而降低在极少样本的情况下的估计误差。因此，本申请实施例通过上式中语义知识正则化的方式获取语义一致性损失对语义融合网络进行优化，使基于优化的语义融合网络得到的自适应视觉原型与自适应文本原型对齐，并利用语义信息对视觉原型进行增强。

其中，由于在隐空间内，自适应文本原型的分布相较于自适应视觉原型更为稀疏，通过语义一致性损失对语义融合网络进行优化(即语义层面的正则化)，使得具有相似语义的类别彼此紧密分布，而对立的类别则被限制在远离彼此的位置上，从而使自适应文本原型在隐空间的分布更为稠密，更加对齐于自适应视觉原型在隐空间的分布。通过基于语义一致性损失的语义层面的正则化对语义融合网络进行优化，提升了语义融合网络区分属于新类别的图像和数据库中已有的旧类别的能力，从而极大地缓解了小样本持续学习中的灾难性遗忘问题。

基于所述自适应查询表征、所述自适应视觉原型与第二真实标签，获取查询损失，所述第二真实标签为所述查询表征的真实类别标签。所述查询损失按照如下公式获取：

c_q＝argmax_v(e′_q·e′_v)；

其中，e′_q为所述自适应查询表征，e′_v为所述自适应视觉原型，c_q为所述自适应查询表征的预测类别标签，y_q为所述第二真实标签，L_c为所述语义一致性损失，CrossEntropy为交叉熵函数，(e′_q·e′_v)为e′_q与e′_v之间的余弦距离。

本申请实施例中，查询图像的类别基于自适应查询表征采用最近邻原则进行分类，通过获取查询损失对语义融合模块进行优化，以提升基于自适应查询表征进行分类的分类准确率。

随后，基于所述语义一致性损失以及所述查询损失，获取总体损失，所述总体损失按照如下公式获取：

L＝L_c+λ·L_m；

其中，L为所述总体损失，L_c为所述查询损失，L_m为所述语义一致性损失，λ为控制因子。

图3示出了本申请一实施例提出的一种基于多模态小样本持续学习的图像分类模型示意图，如图3所示，基于所述总体损失，对所述语义融合网络进行优化，得到优化的语义融合网络，该优化的语义融合网络为基于第t个持续学习任务的查询图像进行语义融合，并基于语义融合的结果采用语义知识正则化的方式对语义融合性能进行优化，同时基于查询图像的分类(图3中的视觉相似度分数)进行优化得到的语义融合网络，将所述优化的语义融合网络作为第t+1个持续学习任务的所述语义融合网络，用于在第t+1个持续学习任务中，对第t+1个持续学习任务的查询图像进行后续的语义融合。

本申请实施例中，语义融合网络在持续学习任务阶段和基础学习任务阶段均会进行优化。具体而言，当t＝1时，语义融合网络为第一语义融合网络；当t＝2时，语义融合网络为第一语义融合网络基于总体损失优化得到的；在t＞2时，第t个持续学习任务中的语义融合网络均为第t-1个持续学习任务中的语义融合网络基于总体损失优化得到的。该第一语义融合网络为在基础学习任务阶段，基于训练数据集对初始语义融合网络进行优化得到的，该过程中同时也会对初始主干网络进行优化，对初始语义融合网络得到第一语义融合网络的过程详情可参见上述S102中初步训练的主干网络的获取过程，本申请在此不再赘述。

S104、基于所述自适应视觉原型与所述自适应查询表征，获取所述查询图像的类别概率。

具体实施步骤S104时，自适应查询表征采用最近邻原则进行分类，基于所述自适应视觉原型与所述自适应查询表征，在不失一般性的前提下，获取所述自适应查询表征与所述自适应视觉原型之间的余弦距离，以便将自适应查询表征分配给隐空间内与自适应查询表征距离最小的自适应视觉原型所属的类别。基于所述余弦距离，获取所述自适应查询表征属于所述自适应视觉原型对应的图像类别的概率，作为所述类别概率。当自适应查询表征与一个自适应视觉原型在隐空间的余弦距离越小，表征自适应查询表征对应的查询图像属于该自适应视觉原型所属类别的类别概率越大；当自适应查询表征与一个自适应视觉原型在隐空间的余弦距离越大，表征自适应查询表征对应的查询图像属于该自适应视觉原型所属类别的类别概率越小，通过该类别概率可以对该查询图像进行分类。

在一种可选的实施方式中，在获取所述自适应查询表征与所述自适应视觉原型之间的余弦距离之后，基于所述余弦距离，获取与所述自适应查询表征之间的余弦距离最小的自适应视觉原型，作为目标自适应视觉原型，自适应查询表征属于该目标自适应视觉原型所属类别的概率最大，将所述目标自适应视觉原型对应的图像类别，作为所述查询图像的类别。

为使本领域技术人员更加清楚地理解本申请，图4示出了本申请一实施例提出的一种基于多模态小样本持续学习的图像分类方法网络架构示意图，以图4为例，现通过以下实施例对本申请所述的基于多模态小样本持续学习的图像分类方法进行详细说明。

从数据库中获取预设数量的图像类别，从每个图像类别对应的图像中分别采样，得到原始支持图像(图4中基础学习任务阶段的支持图片)以及原始查询图像(图4中基础学习任务阶段的查询图片)，同时基于原始支持图像所属的类别，得到原始语义信息，以图4为例，对应于图4中示出了三张原始支持图像所属的类别对应的原始语义信息分别为“橘子”、“斗牛犬”和“交通标志”。将原始查询图像、原始支持图像以及原始语义信息作为训练数据集在基础学习任务阶段对初始主干网络和初始语义融合网络进行训练。

在基础学习任务的每个训练周期中，将所述训练数据集中的所述原始支持图像以及所述原始查询图像分别输入初始卷积子网络(图4中的卷积神经网络)，基于初始卷积子网络获取原始查询图像在共享的隐空间中对应的隐表征，作为原始查询图像对应的原始查询表征(图4中基础学习任务阶段的查询表征)，基于初始卷积子网络获取每个类别的原始支持图像在共享的隐空间中的平均隐表征，作为每个类别对应的原始视觉原型(图4中基础学习任务阶段的视觉原型)；将原始语义信息输入初始投影子网络(图4中的投影算子)，通过初始投影子网络中的线性仿射层将原始语义信息投影到共享的隐空间中，得到原始文本原型，将原始文本原型、原始查询表征以及原始视觉原型组合为原始输入数据。

将原始输入数据输入初始语义融合网络(图4中基础学习任务阶段的语义融合Transformer)，获取原始自适应原型(包括原始自适应查询特征、原始自适应视觉原型以及原始自适应文本原型，对应图4中基础学习任务阶段语义融合Transformer的三个输出)；基于原始自适应查询特征和原始自适应视觉原型与原始真实标签，获取语义一致性损失，通过语义一致性损失对基础学习任务阶段的网络模型参数进行优化，鼓励视觉和文本原型的对齐；基于原始自适应文本原型与原始真实标签，获取查询损失，通过查询损失对基础学习任务阶段的网络模型参数进行优化，以区分不同类别的查询图像，并利用语义信息对视觉原型进行增强。基于所述训练数据集，对所述初始投影子网络、所述初始卷积子网络以及所述初始语义融合网络进行训练，得到第一语义融合网络、投影子网络以及卷积子网络。

固定投影子网络和卷积子网络的参数应用于后续每个持续学习任务中，并在后续的持续学习任务中继续对语义融合网络进行优化。对于第t个持续学习任务，以t＝1为例(即第一个持续学习任务)，首先获取查询图像和支持图像，该查询图像以及支持图像区别于上述原始查询图像和原始支持图像，为在该持续学习任务输入的预设数量的多个图像类别的图像中分别采样得到的图像，同时基于支持图像所属的类别，获取语义信息，以图4为例，对应于图4中示出的支持图像所属类别的语义信息为“穹顶”。将所述支持图像以及所述查询图像分别输入卷积子网络，基于卷积子网络获取查询图像在共享的隐空间中对应的隐表征，作为查询图像对应的查询表征，基于卷积子网络获取每个类别的支持图像在共享的隐空间中的平均隐表征，作为每个类别对应的视觉原型；将语义信息输入投影子网络，通过投影子网络中的线性仿射层将语义信息(每个类别的词嵌入)投影到共享的隐空间中，得到文本原型。在获取视觉原型与查询表征之后，由于其均为图像的隐表征，因此将所述查询表征以及所述视觉原型进行连接处理，得到所述视觉特征，该视觉特征和语义原型组成输入数据。

将该输入数据输入第一语义融合网络，对视觉特征和文本原型进行融合和增强，得到第一个持续学习任务输出的自适应原型(包括自适应视觉原型、自适应文本原型以及自适应查询表征)。自适应查询表征采用最近邻原则进行分类，基于所述自适应视觉原型与所述自适应查询表征，在不失一般性的前提下，获取所述自适应查询表征与所述自适应视觉原型之间的余弦距离，基于所述余弦距离，获取所述自适应查询表征属于所述自适应视觉原型对应的图像类别的概率，作为所述类别概率，通过该类别概率可以对该查询图像进行分类。

基于所述自适应视觉原型、所述自适应文本原型与第一真实标签，获取语义一致性损失，基于所述自适应查询表征、所述自适应视觉原型与第二真实标签，获取查询损失。随后将语义一致性损失和查询损失组合为总体损失，并基于总体损失对第一语义融合网络进行优化，得到的优化的语义融合网络作为第t+1个持续学习任务的语义融合网络。随后进入第t+1个持续学习任务，以第t个持续学习任务中优化的语义融合网络作为第t+1个持续学习任务中的语义融合网络，按照上述步骤对第t+1个持续学习任务的查询图像进行分类，同时获取第t+1个持续学习任务中优化的语义融合网络。至此实现小样本持续学习，在对持续的查询图像进行图像分类的同时，持续对语义融合网络进行优化。

本申请提供一种基于多模态小样本持续学习的图像分类方法，应用于第t个持续学习任务，t≥1，所述方法包括：获取输入图像，所述输入图像至少包括查询图像和支持图像；基于所述输入图像，获取输入数据，所述输入数据至少包括视觉特征以及所述视觉特征对应的文本原型；将所述视觉特征以及所述文本原型输入语义融合网络，以对所述视觉特征以及所述文本原型进行信息融合，获取自适应原型，所述自适应原型至少包括自适应视觉原型以及自适应查询表征；基于所述自适应视觉原型与所述自适应查询表征，获取所述查询图像的类别概率。

基于同一发明构思，本申请实施例公开一种基于多模态小样本持续学习的图像分类装置，应用于第t个持续学习任务，t≥1，图6示出了一种基于多模态小样本持续学习的图像分类装置示意图，如图6所示，所述装置包括：

语义融合模块，用于将所述视觉特征以及所述文本原型输入语义融合网络，以对所述视觉特征以及所述文本原型进行信息融合，获取自适应原型，所述自适应原型至少包括自适应视觉原型、自适应查询表征以及自适应文本原型；

在一种可选的实施方式中，所述装置还包括：

在一种可选的实施方式中，所述底层处理模块，包括：

在一种可选的实施方式中，所述语义融合模块，包括：

在一种可选的实施方式中，所述分类模块，包括：

在一种可选的实施方式中，所述分类模块，还包括：

在一种可选的实施方式中，所述装置还包括：

基于同一发明构思，本申请实施例公开一种电子设备，图7示出了本申请实施例提出的电子设备的示意图，如图7所示，电子设备100包括：存储器110和处理器120，存储器110与处理器120之间通过总线通信连接，存储器110中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集可在处理器120上加载并运行，以实现本申请实施例公开的基于多模态小样本持续学习的图像分类方法中的步骤。

基于同一发明构思，本申请实施例公开一种计算机可读存储介质，其上存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行，以实现本申请实施例公开的基于多模态小样本持续学习的图像分类方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种基于多模态小样本持续学习的图像分类方法及产品，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于多模态小样本持续学习的图像分类方法，其特征在于，应用于第t个持续学习任务，t≥1，所述方法包括：

2.根据权利要求1所述的基于多模态小样本持续学习的图像分类方法，其特征在于，所述自适应原型还包括自适应文本原型，在获取自适应原型之后，所述方法还包括：

3.根据权利要求1所述的基于多模态小样本持续学习的图像分类方法，其特征在于，基于所述输入图像，获取输入数据，包括：

基于所述支持图像所属的类别，获取语义信息；

将所述语义信息输入投影子网络，得到所述文本原型；

4.根据权利要求1所述的基于多模态小样本持续学习的图像分类方法，其特征在于，所述语义融合网络包括自注意力模块以及前向传播层，将所述视觉特征以及所述文本原型输入语义融合网络，以对所述视觉特征以及所述文本原型进行信息融合，获取自适应原型，包括：

5.根据权利要求1所述的基于多模态小样本持续学习的图像分类方法，其特征在于，基于所述自适应视觉原型与所述自适应查询表征，获取所述查询图像的类别概率，包括：

6.根据权利要求5所述的基于多模态小样本持续学习的图像分类方法，其特征在于，在获取所述自适应查询表征与所述自适应视觉原型之间的余弦距离之后，所述方法还包括：

7.根据权利要求1所述的基于多模态小样本持续学习的图像分类方法，其特征在于，当t＝1时，所述语义融合网络，按照如下方式获取：

将所述第一语义融合网络作为t＝1时的所述语义融合网络。

8.一种基于多模态小样本持续学习的图像分类装置，其特征在于，应用于第t个持续学习任务，t≥1，所述装置包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现权利要求1-7中任一项所述的基于多模态小样本持续学习的图像分类方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-7中任一项所述的基于多模态小样本持续学习的图像分类方法中的步骤。