CN117011672B

CN117011672B - 基于类特定元提示学习的小样本类增对象识别方法和装置

Info

Publication number: CN117011672B
Application number: CN202311259542.6A
Authority: CN
Inventors: 李亚南; 沈倩倩; 金纪勇; 刘斌
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-01-09
Anticipated expiration: 2043-09-27
Also published as: CN117011672A

Abstract

本发明公开了一种基于类特定元提示学习的小样本类增对象识别方法和装置，该方法包括：采用基础任务的大量有标签图片构造基于类别特定提示的跨模态特征学习网络；从基础任务中构造具有伪基础任务和多阶段伪增量任务的元学习情景训练数据集，用以模拟真实的小样本类增对象识别任务；针对每个伪学习任务，使用支持集图片，构造类特定的提示向量，使用查询集图片，优化跨模态特征学习网络中的提示生成器及上下文提示向量；使用最终的跨模态特征学习网络获取增量任务的所有类别文本特征，根据测试图片的图片特征与所有类别文本特征的余弦相似度进行类别识别。本发明实现方法简便、灵活，显著提高了新类别的泛化能力，缓解旧类别的灾难性遗忘现象。

Description

基于类特定元提示学习的小样本类增对象识别方法和装置

技术领域

本发明涉及计算机视觉领域，尤其涉及一种基于类特定元提示学习的小样本类增对象识别方法和装置。

背景技术

深度学习技术在物体分类、识别、检测等多项视觉任务中取得了显著成功，原因之一在于使用了大规模的有标签数据。这类有监督学习技术只能对封闭实验环境中已经定义好的类别进行判断。然而，现实环境是动态的、开放的，这就意味着新的类别会随着时间不断出现，比如不断推陈出新的新产品、社交网络中的新热点等。为了有效学习这些不断出现的新对象类别，需要收集大量的有标签图片，并采用这些图片进一步优化已经训练好的深度学习模型，使之适配到新的对象类别的同时不遗忘旧类别。这显然是不现实的，不断收集大量有标注的数据费时费力。与之相比，人类有能力在只看过少量几张图片的情况下，既能快速学习新知识，又能记住旧知识。为了进一步缩小现有深度学习模型与人类学习能力之间的差异，小样本类增对象识别问题是其中重要一环。

在小样本类增识别问题中，通常有N个学习任务，其中第一个任务称为基础任务（记为），其余任务称为增量任务（记为/>），每个任务中的对象类别互斥。在基础任务中，共有/>个对象类，每个类具有大量的有标签训练图片。在增量任务/>中，有/>个对象类，每个对象类只有K个少量的有标签训练图片。通常/>，K=5，因此每个增量任务也可以叫做/>-way K-shot任务。在对当前任务进行学习时，模型只能使用当前任务中的训练数据进行训练，而在每个任务学习完毕后，模型需要在所有已见过类别上的测试数据上评估性能。如何提升模型的泛化能力并减弱灾难性遗忘现象，是求解小样本类增对象识别问题的关键难题。

对比语言-图像预训练（Contrastive Language-Image Pre-training，CLIP）模型在分类、图片生成等多种下游视觉问题上取得了显著进展，并在零样本/小样本类别上具有良好的泛化性能。如何利用CLIP模型的泛化能力，求解小样本类增对象识别问题中的灾难性遗忘现象及过拟合现象，是当前亟待解决的关键难题。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于类特定元提示学习的小样本类增对象识别方法和装置。

本发明的目的是通过以下技术方案来实现的：本发明实施例第一方面提供了一种基于类特定元提示学习的小样本类增对象识别方法，包括以下步骤：

（1）构造跨模态特征学习网络，使用基础任务中的有标签图片对跨模态特征学习网络进行训练，以获取训练好的适配于当前基础任务的跨模态特征学习网络；所述跨模态特征学习网络包括图片编码器、文本编码器和提示生成器；

（2）使用基础任务中的有标签图片构造多个伪增量任务的元学习情景的支持集和查询集；

（3）使用所述步骤（2）构造的多个伪增量任务的支持集和完整查询集中的有标签图片对所述步骤（1）得到的训练好的跨模态特征学习网络进行再训练，对其中的提示生成器和上下文提示向量进行微调，以获取最终的跨模态特征学习网络；

（4）对于每个增量任务，使用该增量任务中新类别的有标签图片和所述步骤（3）得到的最终的跨模态特征学习网络获取类别特定的提示向量，并对上下文提示向量进行更新，将更新后的上下文提示向量和对应的类别标签进行拼接后输入最终的跨模态特征学习网络中的文本编码器，以获取所有新类别的有标签图片对应的类别文本特征；

（5）将测试图片输入所述步骤（3）得到的最终的跨模态特征学习网络中的图片编码器，获取该测试图片对应的图片特征，计算该测试图片对应的图片特征与所述步骤（4）得到的所有类别文本特征之间的余弦相似度，选取具有最大相似度的类别作为该测试图片的最终预测类别。

进一步地，所述步骤（1）包括以下子步骤：

（1.1）构造基于类别特定提示的跨模态特征学习网络，该跨模态特征学习网络包括图片编码器、文本编码器和提示生成器；

（1.2）使用开源的训练好的对比语言-图像预训练模型对跨模态特征学习网络中的图片编码器和文本编码器进行初始化；

（1.3）将基础任务中的有标签图片输入到所述步骤（1.2）初始化后的图片编码器中，得到该有标签图片对应的图片特征；

（1.4）将所述步骤（1.3）得到的图片特征输入提示生成器中，得到对应的提示向量；

（1.5）将所述步骤（1.4）得到的提示向量与所有的上下文提示向量分别进行相加融合更新，以获取更新后的上下文提示向量；

（1.6）将更新后的上下文提示向量与有标签图片对应的类别标签进行拼接后输入所述步骤（1.2）初始化后的文本编码器中，得到对应的文本特征；

（1.7）基于配对的图片特征与文本特征，使用基础任务中的有标签图片对跨模态特征学习网络进行迭代训练，采用交叉熵损失作为跨模态特征学习网络的第一损失函数，根据训练过程中计算得到的第一损失函数值调整优化跨模态特征学习网络中的提示生成器和上下文提示向量，同时保持图片编码器和文本编码器不动，以获取训练好的适配于当前基础任务的跨模态特征学习网络。

进一步地，所述步骤（1）还包括：根据基础任务中的有标签图片的类别以获取基础任务中的所有类别标签，并采用独热编码对类别标签进行编码，以获取有标签图片对应的类别标签向量。

进一步地，所述跨模态特征学习网络的第一损失函数的表达式为：

；

其中，L1表示第一损失函数，为基础任务中数据类别的总数，/>为基础任务中有标签图片的总数，/>是第i个有标签图片的类别标签向量/>的第j个元素，/>表示第i个有标签图片的图片特征/>预测为类别j的概率，/>表示预测为第j个类别标签；

第i个有标签图片的图片特征预测为类别j的概率的计算公式为：

；

其中，表示指数函数，/>表示余弦相似度，/>表示第i个有标签图片的文本特征。

进一步地，所述步骤（2）包括以下子步骤：

（2.1）对于基础任务中的有标签图片类别，随机抽取多个类别的有标签图片构成伪基础任务，采用剩余类别的有标签图片构造多个伪增量任务；

（2.2）针对伪基础任务中的每个类别，按比例随机选取有标签图片构成训练数据集和测试数据集；

（2.3）对于每个伪增量任务，随机抽取多个类别，从每个类别的有标签图片中随机抽取K个有标签图片构成该伪增量任务的支持集，从该类别剩余的有标签图片中随机抽取H个有标签图片作为当前伪增量任务的查询集，并与所有历史伪增量任务的查询集进行合并，和伪基础任务的测试数据集共同构成完整查询集；

（2.4）重复所述步骤（2.3），直至所有伪增量任务的支持集和查询集构造完成。

进一步地，所述步骤（3）包括以下子步骤：

（3.1）对于每个伪增量任务，将该伪增量任务的支持集中每个类别的有标签图片输入到所述步骤（1）得到的训练好的跨模态特征学习网络中的图片编码器中，得到对应的图片特征，并对得到的所有图片特征求均值作为该类别对应的图片特征；

（3.2）将所述步骤（3.1）得到的类别对应的图片特征输入到所述步骤（1）得到的训练好的跨模态特征学习网络中的提示生成器中，得到类别特定的提示向量；

（3.3）将所述步骤（3.2）得到的类别特定的提示向量与所述步骤（1）得到的训练好的跨模态特征学习网络的所有上下文提示向量分别进行相加融合更新，以获取类特定的上下文提示向量；

（3.4）将所述步骤（3.3）得到的类特定的上下文提示向量与对应的类别标签进行拼接后输入到所述步骤（1）得到的训练好的跨模态特征学习网络中的文本编码器中，得到对应的类别文本特征；

（3.5）重复所述步骤（3.1）-所述步骤（3.4），直至获得当前伪增量任务的支持集中的所有类别文本特征；

（3.6）使用完整查询集中的有标签图片对所述步骤（1）得到的训练好的跨模态特征学习网络进行再训练，采用交叉熵损失作为跨模态特征学习网络的第二损失函数，根据训练过程中计算得到的第二损失函数值对跨模态特征学习网络中的提示生成器和上下文提示向量进行微调，同时保持图片编码器和文本编码器不动，以获取最终的适配于当前伪增量任务的跨模态特征学习网络；

（3.7）重复所述步骤（3.1）-所述步骤（3.6），直到所有伪增量任务优化完毕，以获取最终的跨模态特征学习网络。

进一步地，所述跨模态特征学习网络的第二损失函数的表达式为：

；

其中，L2表示第二损失函数，表示第p个有标签图片的图片特征，/>表示第n个伪增量任务的完整查询集，|/>表示第n个伪增量任务的完整查询集中的有标签图片的总数，/>表示截止到当前伪增量任务为止的所有类别，/>是第p个有标签图片的类别标签向量/>的第j个元素，/> 表示第p个有标签图片的图片特征/>预测为类别j的概率，/>表示预测为第j个类别标签；

第p个有标签图片的图片特征预测为类别j的概率的计算公式为：

；

其中，表示该类别标签对应的图片均值特征，/>表示第p个有标签图片的图片特征/>所对应的类别标签。

进一步地，所述步骤（4）包括以下子步骤：

（4.1）对于每个增量任务，将增量任务中新类别的有标签图片输入到所述步骤（3）得到的最终的跨模态特征学习网络中的图片编码器中，得到对应的图片特征，并对得到的所有图片特征求均值作为该类别对应的图片特征；

（4.2）将所述步骤（4.1）得到的类别对应的图片特征输入到所述步骤（3）得到的最终的跨模态特征学习网络中的提示生成器中，得到类别特定的提示向量；

（4.3）将所述步骤（4.2）得到的类别特定的提示向量与所述步骤（3）得到的最终的跨模态特征学习网络的所有上下文提示向量分别进行相加融合更新，以获取更新后的上下文提示向量；

（4.4）将所述步骤（4.3）得到的更新后的上下文提示向量与对应的类别标签进行拼接后输入到所述步骤（3）得到的最终的跨模态特征学习网络中的文本编码器中，得到新类别对应的类别文本特征；

（4.5）重复所述步骤（4.1）-所述步骤（4.4），直至获得所有新类别对应的类别文本特征。

本发明实施例第二方面提供了一种基于类特定元提示学习的小样本类增对象识别装置，包括一个或多个处理器和存储器，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现上述的基于类特定元提示学习的小样本类增对象识别方法。

本发明实施例第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的基于类特定元提示学习的小样本类增对象识别方法。

本发明的有益效果是，本发明基于CLIP模型，通过构造类别特定的提示向量，融合通用的上下文提示向量，从而提升CLIP模型在新类别上的适配能力；在此基础上，本发明进一步构造元学习的情景训练策略，自适应地学习出类特定的提示向量，通过模拟真实的小样本类增对象识别场景，提升CLIP模型在多任务上的泛化能力，从而使得在只有少量有标签训练数据的情况下，也能不断识别新类别，同时不过分遗忘旧对象类别，减弱灾难性遗忘现象；本发明实现方法简便、灵活，可以显著提高提示向量在新类别上的泛化能力，缓解模型在旧类别上的灾难性遗忘现象，从而改善模型的连续学习及快速学习能力。

附图说明

图1是本发明的基于类特定元提示学习的小样本类增对象识别方法的流程图；

图2是本发明的基于类特定元提示学习的小样本类增对象识别方法的框架示意图；

图3是本发明的基础任务训练流程图；

图4是本发明的伪增量任务构建示意图；

图5是本发明的基于类特定元提示学习的小样本类增对象识别装置的一种结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

参见图1和图2，本发明的基于类特定元提示学习的小样本类增对象识别方法，具体包括以下步骤：

（1）构造跨模态特征学习网络，使用基础任务中的有标签图片对跨模态特征学习网络进行训练，以获取训练好的适配于当前基础任务的跨模态特征学习网络。其中，跨模态特征学习网络包括图片编码器f、文本编码器g和提示生成器。

（1.1）构造基于类别特定提示的跨模态特征学习网络，该跨模态特征学习网络包括图片编码器f、文本编码器g和提示生成器。

（1.2）使用开源的训练好的对比语言-图像预训练（Contrastive Language-ImagePre-training，CLIP）模型对跨模态特征学习网络中的图片编码器f和文本编码器g进行初始化。

需要说明的是，CLIP模型包括图片编码器和文本编码器，可以下载开源的训练好的CLIP模型，使用训练好的CLIP模型即可对跨模态特征学习网络中的图片编码器f和文本编码器g进行初始化。

（1.3）将基础任务中的有标签图片输入到步骤（1.2）初始化后的图片编码器f中，得到该有标签图片对应的图片特征。

应当理解的是，在小样本类增识别问题中，通常有多个学习任务，其中第一个学习任务称为基础任务，其余学习任务称为增量任务。

具体地，假设基础任务中有个数据类别，/>个有标签图片，记为/>，/>表示第i张图片，/>表示该图片对应的类别标签，其中每个数据类别都有大量的有标签图片。将第i张图片输入到图片编码器f中，可以得到该图片对应的图片特征向量/>。

进一步地，根据基础任务中的有标签图片的类别以获取基础任务中的所有类别标签，需要采用one-hot编码（独热编码）对类别标签进行编码，以获取该有标签图片对应的类别标签向量。例如基础任务中有10个数据类别，如果第i张图片的类别是第5个数据类别，对第i张图片的类别标签进行one-hot编码，可以得到第i张图片的类别标签向量，该类别标签向量就是第5位为1、其余位为0的一个10维的向量。

应当理解的是，one-hot编码，又称为独热编码、一位有效编码，其方法是使用N位状态寄存器对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。

（1.4）将步骤（1.3）得到的图片特征输入提示生成器中，得到对应的提示向量。

具体地，将步骤（1.3）得到的图片特征向量输入提示生成器/>中，得到对应的提示向量，记为/>。

（1.5）将步骤（1.4）得到的提示向量与所有的上下文提示向量分别进行相加融合更新，以获取更新后的上下文提示向量。

需要说明的是，上下文提示向量是跨模态特征学习网络的需要优化的一项参数。

具体地，假设跨模态特征学习网络模型共有M个上下文提示向量，记为，将步骤（1.4）得到的提示向量/>分别与上下文提示向量/>进行相加融合更新，获取更新后的上下文提示向量/>，其中/>。

（1.6）将更新后的上下文提示向量与有标签图片对应的类别标签进行拼接后输入步骤（1.2）初始化后的文本编码器g中，得到对应的文本特征。

具体地，将步骤（1.5）获取的更新后的上下文提示向量与第i张图片对应的类别标签向量进行拼接，得到，其中/>表示第j个类别的类别标签向量，将拼接后得到的/>输入到步骤（1.2）初始化后的文本编码器/>中，得到对应的文本特征向量/>。

（1.7）基于配对的图片特征与文本特征，使用基础任务中的有标签图片对跨模态特征学习网络进行迭代训练，采用交叉熵损失作为跨模态特征学习网络的第一损失函数，根据训练过程中计算得到的第一损失函数值调整优化跨模态特征学习网络中的提示生成器和上下文提示向量，同时保持图片编码器f和文本编码器g不动，以获取训练好的适配于当前基础任务的跨模态特征学习网络。

具体地，基于配对的图片特征向量与文本特征向量/>，使用基础任务中的有标签图片对跨模态特征学习网络进行迭代训练，可以根据实际需要设置迭代训练的轮次，例如200次，说明对跨模态特征学习网络训练200轮次后停止训练。采用交叉熵损失作为跨模态特征学习网络的第一损失函数，在训练过程中，计算得到第一损失函数值，保持步骤（1.2）初始化后的图片编码器f和文本编码器g不动，根据第一损失函数值调整优化跨模态特征学习网络中的提示生成器/>和上下文提示向量/>，最终可以得到训练好的适配于当前基础任务的跨模态特征学习网络，如图3所示。

进一步地，跨模态特征学习网络的第一损失函数的表达式为：

。

其中，L1表示第一损失函数，为基础任务中数据类别的总数，/>为基础任务中有标签图片的总数，/>是第i个有标签图片的类别标签向量/>的第j个元素，/>表示第i个有标签图片的图片特征/>预测为类别j的概率，/>表示预测为第j个类别标签。

进一步地，第i个有标签图片的图片特征预测为类别j的概率的计算公式为：

。

（2）使用基础任务中的有标签图片构造多个伪增量任务的元学习情景的支持集和查询集，如图4所示。

（2.1）对于基础任务中的有标签图片类别，随机抽取多个类别的有标签图片构成伪基础任务，采用剩余类别的有标签图片构造多个伪增量任务。

具体地，基础任务中有个有标签图片类别，随机抽取/>个类别的有标签图片构成伪基础任务，采用剩余的/>个类别构造多个伪增量任务，用来模拟真实的小样本类增场景。

（2.2）针对伪基础任务中的每个类别，按比例随机选取有标签图片构成训练数据集和测试数据集。

具体地，针对伪基础任务中的每个类别，可以随机选取80%的有标签图片作为训练数据集，记为，剩余20%的有标签图片作为测试数据集，记为/>。应当理解的是，针对伪基础任务中的每个类别，按比例随机选取有标签图片即可构成训练数据集和测试数据集，例如也可以随机选取70%的有标签图片作为训练数据集，剩余30%的有标签图片作为测试数据集。

（2.3）对于每个伪增量任务，随机抽取多个类别，从每个类别的有标签图片中随机抽取K个有标签图片构成该伪增量任务的支持集，从该类别剩余的有标签图片中随机抽取H个有标签图片作为当前伪增量任务的查询集，并与所有历史伪增量任务的查询集进行合并，和伪基础任务的测试数据集共同构成完整查询集。

应当理解的是，在剩余的类别中，可以随机抽取多个类别构造伪增量任务，通常情况下每个伪增量任务中的类别数量相等，当然也可以不相等，类别的数量可以为2个、5个或10个等，具体可以根据实际需要选取，最终构造多个伪增量任务。

需要说明的是，在增量任务中，每个类别只有少量的有标签训练图片，因此构造伪增量任务时，每个伪增量任务中的每个类别的有标签图片也会很少，因此K的取值通常小于等于10，相对应的，H的取值通常小于等于20。

具体地，对于剩余的个类别，构造/>个伪增量任务，对于每个伪增量任务，随机抽取/>个类别，从每个类别的有标签图片中随机抽取K个有标签图片构成伪增量任务的支持集，记为/>；从该类别剩余的有标签图片中随机抽取H个有标签图片作为当前伪增量任务的查询集/>；当前伪增量任务的查询集/>与所有历史伪任务的查询集进行合并，和伪基础任务的测试数据集共同构成完整查询集，即/>，其中表示第n个伪增量任务的查询集。

（2.4）重复步骤（2.3），直至所有伪增量任务的支持集和查询集构造完成。

（3）使用步骤（2）构造的多个伪增量任务的支持集和完整查询集中的有标签图片对步骤（1）得到的训练好的跨模态特征学习网络进行再训练，对其中的提示生成器和上下文提示向量进行微调，以获取最终的跨模态特征学习网络。

（3.1）对于每个伪增量任务，将该伪增量任务的支持集中每个类别的有标签图片输入到步骤（1）得到的训练好的跨模态特征学习网络中的图片编码器中，得到对应的图片特征，并对得到的所有图片特征求均值作为该类别对应的图片特征。

具体地，对于每个伪增量任务，将该伪增量任务的支持集中每个类别的有标签图片输入到步骤（1）得到的训练好的跨模态特征学习网络中的图片编码器中，得到对应的图片特征，并对得到的所有图片特征求均值作为该类别对应的图片特征。假设/>表示第k个类别的均值，也是第k个类别的图片特征：

。

其中，表示第k个类别的图片特征，/>表示当前伪增量任务的支持集/>中第k个类别的有标签图片集合，/>表示第k个类别的有标签图片，/>表示图片编码器。

（3.2）将步骤（3.1）得到的类别对应的图片特征输入到步骤（1）得到的训练好的跨模态特征学习网络中的提示生成器中，得到类别特定的提示向量。

（3.3）将步骤（3.2）得到的类别特定的提示向量与步骤（1）得到的训练好的跨模态特征学习网络的所有上下文提示向量分别进行相加融合更新，以获取类特定的上下文提示向量。

具体地，步骤（1）得到的训练好的跨模态特征学习网络的所有上下文提示向量表示为，将类别特定的提示向量/>与训练好的所有上下文提示向量分别进行相加融合更新，得到类特定的上下文提示向量/>，其中。

（3.4）将步骤（3.3）得到的类特定的上下文提示向量与对应的类别标签进行拼接后输入到步骤（1）得到的训练好的跨模态特征学习网络中的文本编码器中，得到对应的类别文本特征。

具体地，将步骤（3.3）得到的类特定的上下文提示向量与对应的类别标签进行拼接，得到，其中/>表示第j个类别标签向量，将/>输入文本编码器/>，得到对应的类别文本特征向量/>。

（3.5）重复步骤（3.1）-步骤（3.4），直至获得当前伪增量任务的支持集中的所有类别文本特征。

应当理解的是，每个伪增量任务的支持集中包括多个类别的有标签图片，每个类别都有对应的类特定的上下文提示向量，这些类特定的上下文提示向量需要与对应的类别标签向量进行拼接，之后输入文本编码器中，重复步骤（3.1）-步骤（3.4），直至得到所有类别对应的类别文本特征。

（3.6）使用完整查询集中的有标签图片对步骤（1）得到的训练好的跨模态特征学习网络进行再训练，采用交叉熵损失作为跨模态特征学习网络的第二损失函数，根据训练过程中计算得到的第二损失函数值对跨模态特征学习网络中的提示生成器和上下文提示向量进行微调，同时保持图片编码器和文本编码器不动，以获取最终的适配于当前伪增量任务的跨模态特征学习网络。

具体地，基于配对的图片特征向量与文本特征向量/>，使用完整的查询集中的有标签图片对步骤（1）得到的训练好的跨模态特征学习网络进行测试，以对跨模态特征学习网络进一步优化。采用交叉熵损失作为跨模态特征学习网络的第二损失函数，对于完整的查询集中的每张有标签图片，计算对应的第二损失函数值，保持图片编码器f和文本编码器g不动，根据第二损失函数值微调步骤（1）得到的训练好的跨模态特征学习网络中的提示生成器/>和上下文提示向量/>，最终可以得到最终的适配于当前伪增量任务的跨模态特征学习网络。

进一步地，跨模态特征学习网络的第二损失函数的表达式为：

。

其中，L2表示第二损失函数，表示第p个有标签图片的图片特征，/>表示第n个伪增量任务的完整查询集，|/>表示第n个伪增量任务的完整查询集中的有标签图片的总数，/>表示截止到当前伪增量任务为止的所有类别，/>是第p个有标签图片的类别标签向量/>的第j个元素，/> 表示第p个有标签图片的图片特征/>预测为类别j的概率，/>表示预测为第j个类别标签。

进一步地，第p个有标签图片的图片特征预测为类别j的概率的计算公式为：

。

（3.7）重复步骤（3.1）-步骤（3.6），直到所有伪增量任务优化完毕，以获取最终的跨模态特征学习网络。

（4）对于每个增量任务，使用该增量任务中新类别的有标签图片和步骤（3）得到的最终的跨模态特征学习网络获取类别特定的提示向量，并对上下文提示向量进行更新，将更新后的上下文提示向量和对应的类别标签进行拼接后输入最终的跨模态特征学习网络中的文本编码器，以获取所有新类别的有标签图片对应的类别文本特征。

（4.1）对于每个增量任务，将增量任务中新类别的有标签图片输入到步骤（3）得到的最终的跨模态特征学习网络中的图片编码器中，得到对应的图片特征，并对得到的所有图片特征求均值作为该类别对应的图片特征。

应当理解的是，增量任务中新类别的有标签训练图片数量一般较少，通常小于等于5，将新类别的少量有标签训练图片输入最终的跨模态特征学习网络中的图片编码器，得到这些有标签训练图片对应的图片特征，然后对这些图片特征求均值作为该类别对应的图片特征。

（4.2）将步骤（4.1）得到的类别对应的图片特征输入到步骤（3）得到的最终的跨模态特征学习网络中的提示生成器中，得到类别特定的提示向量。

（4.3）将步骤（4.2）得到的类别特定的提示向量与步骤（3）得到的最终的跨模态特征学习网络的所有上下文提示向量分别进行相加融合更新，以获取更新后的上下文提示向量。

（4.4）将步骤（4.3）得到的更新后的上下文提示向量与对应的类别标签进行拼接后输入到步骤（3）得到的最终的跨模态特征学习网络中的文本编码器中，得到新类别对应的类别文本特征。

（4.5）重复步骤（4.1）-步骤（4.4），直至获得所有新类别对应的类别文本特征。

（5）将测试图片输入步骤（3）得到的最终的跨模态特征学习网络中的图片编码器，获取该测试图片对应的图片特征，计算该测试图片对应的图片特征与步骤（4）得到的所有类别文本特征之间的余弦相似度，选取具有最大相似度的类别作为该测试图片的最终预测类别。

应当理解的是，测试图片指的是无标签的一个图片，将该图片输入到最终的跨模态特征学习网络中的图片编码器中可以得到对应的图片特征，进一步得到该测试图片的预测类别。当然，测试图片也可以是一个有标签的图片，将该图片输入到最终的跨模态特征学习网络中的图片编码器中可以得到对应的图片特征，进一步得到该测试图片的预测类别，将预测类别和该测试图片的标签进行比对，用来验证预测效果。

本发明基于CLIP模型，通过构造多阶段的元学习任务，自适应地学习出类特定的提示向量，大幅提升模型在新类别上的持续泛化能力，从而使得在只有少量有标签训练数据的情况下，也能不断识别新类别，同时不过分遗忘旧对象类别。首先采用基础任务的大量有标签图片构造基于类别特定提示的跨模态特征学习网络；其次从基础任务中构造具有伪基础任务和多阶段伪增量任务的元学习情景训练数据集，用以模拟真实的小样本类增对象识别任务；然后针对每个伪学习任务，使用支持集图片，构造类特定的提示向量，使用查询集图片，优化跨模态特征学习网络中的提示生成器及上下文提示向量；最后使用最终的跨模态特征学习网络获取增量任务的所有类别文本特征，根据测试图片的图片特征与所有类别文本特征的余弦相似度进行类别识别。本发明实现方法简便、灵活，可以显著提高提示向量在新类别上的泛化能力，缓解模型在旧类别上的灾难性遗忘现象，从而改善模型的连续学习及快速学习能力。

与前述基于类特定元提示学习的小样本类增对象识别方法的实施例相对应，本发明还提供了基于类特定元提示学习的小样本类增对象识别装置的实施例。

参见图5，本发明实施例提供的一种基于类特定元提示学习的小样本类增对象识别装置，包括一个或多个处理器和存储器，存储器与处理器耦接；其中，存储器用于存储程序数据，处理器用于执行程序数据以实现上述实施例中的基于类特定元提示学习的小样本类增对象识别方法。

本发明基于类特定元提示学习的小样本类增对象识别装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明基于类特定元提示学习的小样本类增对象识别装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于类特定元提示学习的小样本类增对象识别方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于类特定元提示学习的小样本类增对象识别方法，其特征在于，包括以下步骤：

(1)构造跨模态特征学习网络，使用基础任务中的有标签图片对跨模态特征学习网络进行训练，以获取训练好的适配于当前基础任务的跨模态特征学习网络；所述跨模态特征学习网络包括图片编码器、文本编码器和提示生成器；

所述步骤(1)包括以下子步骤：

(1.1)构造基于类别特定提示的跨模态特征学习网络，该跨模态特征学习网络包括图片编码器、文本编码器和提示生成器；

(1.2)使用开源的训练好的对比语言-图像预训练模型对跨模态特征学习网络中的图片编码器和文本编码器进行初始化；

(1.3)将基础任务中的有标签图片输入到所述步骤(1.2)初始化后的图片编码器中，得到该有标签图片对应的图片特征；

(1.4)将所述步骤(1.3)得到的图片特征输入提示生成器中，得到对应的提示向量；

(1.5)将所述步骤(1.4)得到的提示向量与所有的上下文提示向量分别进行相加融合更新，以获取更新后的上下文提示向量；

(1.6)将更新后的上下文提示向量与有标签图片对应的类别标签进行拼接后输入所述步骤(1.2)初始化后的文本编码器中，得到对应的文本特征；

(1.7)基于配对的图片特征与文本特征，使用基础任务中的有标签图片对跨模态特征学习网络进行迭代训练，采用交叉熵损失作为跨模态特征学习网络的第一损失函数，根据训练过程中计算得到的第一损失函数值调整优化跨模态特征学习网络中的提示生成器和上下文提示向量，同时保持图片编码器和文本编码器不动，以获取训练好的适配于当前基础任务的跨模态特征学习网络；

(2)使用基础任务中的有标签图片构造多个伪增量任务的元学习情景的支持集和查询集；

所述步骤(2)包括以下子步骤：

(2.1)对于基础任务中的有标签图片类别，随机抽取多个类别的有标签图片构成伪基础任务，采用剩余类别的有标签图片构造多个伪增量任务；

(2.2)针对伪基础任务中的每个类别，按比例随机选取有标签图片构成训练数据集和测试数据集；

(2.3)对于每个伪增量任务，随机抽取多个类别，从每个类别的有标签图片中随机抽取K个有标签图片构成该伪增量任务的支持集，从该类别剩余的有标签图片中随机抽取H个有标签图片作为当前伪增量任务的查询集，并与所有历史伪增量任务的查询集进行合并，和伪基础任务的测试数据集共同构成完整查询集；

(2.4)重复所述步骤(2.3)，直至所有伪增量任务的支持集和查询集构造完成；

(3)使用所述步骤(2)构造的多个伪增量任务的支持集和完整查询集中的有标签图片对所述步骤(1)得到的训练好的跨模态特征学习网络进行再训练，对其中的提示生成器和上下文提示向量进行微调，以获取最终的跨模态特征学习网络；

(4)对于每个增量任务，使用该增量任务中新类别的有标签图片和所述步骤(3)得到的最终的跨模态特征学习网络获取类别特定的提示向量，并对上下文提示向量进行更新，将更新后的上下文提示向量和对应的类别标签进行拼接后输入最终的跨模态特征学习网络中的文本编码器，以获取所有新类别的有标签图片对应的类别文本特征；

(5)将测试图片输入所述步骤(3)得到的最终的跨模态特征学习网络中的图片编码器，获取该测试图片对应的图片特征，计算该测试图片对应的图片特征与所述步骤(4)得到的所有的类别文本特征之间的余弦相似度，选取具有最大相似度的类别作为该测试图片的最终预测类别。

2.根据权利要求1所述的基于类特定元提示学习的小样本类增对象识别方法，其特征在于，所述步骤(1)还包括：根据基础任务中的有标签图片的类别以获取基础任务中的所有类别标签，并采用独热编码对类别标签进行编码，以获取有标签图片对应的类别标签向量。

3.根据权利要求1所述的基于类特定元提示学习的小样本类增对象识别方法，其特征在于，所述跨模态特征学习网络的第一损失函数的表达式为：

其中，L1表示第一损失函数，C₁为基础任务中数据类别的总数，N₁为基础任务中有标签图片的总数，y_ij是第i个有标签图片的类别标签向量y_i的第j个元素，表示第i个有标签图片的图片特征x_i预测为类别j的概率，/>表示预测为第j个类别标签；

第i个有标签图片的图片特征x_i预测为类别j的概率的计算公式为：

其中，exp()表示指数函数，cos()表示余弦相似度，g(t_j(x_i))表示第i个有标签图片的文本特征。

4.根据权利要求1所述的基于类特定元提示学习的小样本类增对象识别方法，其特征在于，所述步骤(3)包括以下子步骤：

(3.1)对于每个伪增量任务，将该伪增量任务的支持集中每个类别的有标签图片输入到所述步骤(1)得到的训练好的跨模态特征学习网络中的图片编码器中，得到对应的图片特征，并对得到的所有图片特征求均值作为该类别对应的图片特征；

(3.2)将所述步骤(3.1)得到的类别对应的图片特征输入到所述步骤(1)得到的训练好的跨模态特征学习网络中的提示生成器中，得到类别特定的提示向量；

(3.3)将所述步骤(3.2)得到的类别特定的提示向量与所述步骤(1)得到的训练好的跨模态特征学习网络的所有上下文提示向量分别进行相加融合更新，以获取类特定的上下文提示向量；

(3.4)将所述步骤(3.3)得到的类特定的上下文提示向量与对应的类别标签进行拼接后输入到所述步骤(1)得到的训练好的跨模态特征学习网络中的文本编码器中，得到对应的类别文本特征；

(3.5)重复所述步骤(3.1)-所述步骤(3.4)，直至获得当前伪增量任务的支持集中的所有类别文本特征；

(3.6)使用完整查询集中的有标签图片对所述步骤(1)得到的训练好的跨模态特征学习网络进行再训练，采用交叉熵损失作为跨模态特征学习网络的第二损失函数，根据训练过程中计算得到的第二损失函数值对跨模态特征学习网络中的提示生成器和上下文提示向量进行微调，同时保持图片编码器和文本编码器不动，以获取最终的适配于当前伪增量任务的跨模态特征学习网络；

(3.7)重复所述步骤(3.1)-所述步骤(3.6)，直到所有伪增量任务优化完毕，以获取最终的跨模态特征学习网络。

5.根据权利要求4所述的基于类特定元提示学习的小样本类增对象识别方法，其特征在于，所述跨模态特征学习网络的第二损失函数的表达式为：

其中，L2表示第二损失函数，x_p表示第p个有标签图片的图片特征，表示第n个伪增量任务的完整查询集，/>表示第n个伪增量任务的完整查询集中的有标签图片的总数，C_n ^′表示截止到当前伪增量任务为止的所有类别，y_pj是第p个有标签图片的类别标签向量y_p的第j个元素，/>表示第p个有标签图片的图片特征x_p预测为类别j的概率，/>表示预测为第j个类别标签；

第p个有标签图片的图片特征x_p预测为类别j的概率的计算公式为：

其中，表示该类别标签对应的图片均值特征，y_p表示第p个有标签图片的图片特征x_p所对应的类别标签。

6.根据权利要求1所述的基于类特定元提示学习的小样本类增对象识别方法，其特征在于，所述步骤(4)包括以下子步骤：

(4.1)对于每个增量任务，将增量任务中新类别的有标签图片输入到所述步骤(3)得到的最终的跨模态特征学习网络中的图片编码器中，得到对应的图片特征，并对得到的所有图片特征求均值作为该类别对应的图片特征；

(4.2)将所述步骤(4.1)得到的类别对应的图片特征输入到所述步骤(3)得到的最终的跨模态特征学习网络中的提示生成器中，得到类别特定的提示向量；

(4.3)将所述步骤(4.2)得到的类别特定的提示向量与所述步骤(3)得到的最终的跨模态特征学习网络的所有上下文提示向量分别进行相加融合更新，以获取更新后的上下文提示向量；

(4.4)将所述步骤(4.3)得到的更新后的上下文提示向量与对应的类别标签进行拼接后输入到所述步骤(3)得到的最终的跨模态特征学习网络中的文本编码器中，得到新类别对应的类别文本特征；

(4.5)重复所述步骤(4.1)-所述步骤(4.4)，直至获得所有新类别对应的类别文本特征。

7.一种基于类特定元提示学习的小样本类增对象识别装置，包括一个或多个处理器和存储器，其特征在于，所述存储器与所述处理器耦接；其中，所述存储器用于存储程序数据，所述处理器用于执行所述程序数据以实现权利要求1-6中任一项所述的基于类特定元提示学习的小样本类增对象识别方法。

8.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，用于实现权利要求1-6中任一项所述的基于类特定元提示学习的小样本类增对象识别方法。