CN118038139A

CN118038139A - 一种基于大模型微调的多模态小样本图像分类方法

Info

Publication number: CN118038139A
Application number: CN202410129619.6A
Authority: CN
Inventors: 刘学亮; 苏玉玲; 闫坤祺; 郭丹; 洪日昌; 汪萌; 蒋贻顺
Original assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-05-14

Abstract

本发明涉及计算机视觉技术领域，公开了一种基于大模型微调的多模态小样本图像分类方法，包括：图像文本对的预处理；多模态特征的提取；构建基于CLIP大模型微调的多模态小样本分类模型；类别预测：将测试图像输入到完成训练的分类模型的图像编码器后，得到图像特征，利用余弦分类器，对图像特征与类原型字典中的所有多模态特征的余弦相似度进行计算，相似度最高的多模态特征所述的类别，即为测试图像的预测类别。本发明在视觉‑语言大模型的基础之上，迁移大模型中丰富的多模态信息到特定的图像分类任务上，既通过大模型蕴含的丰富知识来补充数据不足的问题，又充分挖掘图像数据的信息，以实现更加高效的小样本图像分类方法。

Description

一种基于大模型微调的多模态小样本图像分类方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于大模型微调的多模态小样本图像分类方法。

背景技术

处于大数据时代的现实生活中，充满了各种模态的数据，例如图像、文本、语音、视频等，大规模的数据推动着视觉-语言大模型的快速发展。然而，由于隐私、安全等因素，许多领域往往难以获取大量的可用信息，例如卫星图像处理、智能交通和医学影像诊断等领域。在这些领域中，获取大规模监督数据的成本高昂且要求苛刻，这大大限制了模型的泛化性能。如何有效地利用小样本数据来训练高性能模型，以弥补数据不足，是机器学习的关键挑战之一。

现有的基于大模型的小样本图像分类技术，一般通过挖掘多模态数据之间的相关性，来提升图像分类任务的性能。但是，由于过度关注于研究多模态之间的相关性，忽略了图像本身的信息，对于小样本图像分类方法来说，有效提取图像蕴含的信息是至关重要的。

发明内容

为解决上述技术问题，本发明提供一种基于大模型微调的多模态小样本图像分类方法，本发明在视觉-语言大模型的基础之上，迁移大模型中丰富的多模态信息到特定的图像分类任务上，既通过大模型蕴含的丰富知识来补充数据不足的问题，又充分挖掘图像数据的信息，以实现更加高效的小样本图像分类方法。

为解决上述技术问题，本发明采用如下技术方案：

一种基于大模型微调的多模态小样本图像分类方法，包括以下步骤：

步骤一，图像文本对的预处理：

采集图像数据，图像数据包括图像样本x、图像所属的类别，以及有关图像所属类别的文本描述w；对图像样本进行样本增广，获得增广图像样本；基于文本描述w构建图像样本的文本提示，通过自然语言处理模型将文本提示转化为文本标记；

步骤二，多模态特征的提取：

将多个类别的图像样本，以及对应的增广图像样本、文本标记组成小样本数据集，小样本数据集中每个类别的图像样本数量小于或者等于16；

CLIP大模型包括图像编码器和文本编码器，文本编码器采用Bert模型，图像编码器包括多层transformer层；将小样本数据集中的图像样本、增广图像样本和文本标记输入到预训练的CLIP大模型，得到图像样本的图像特征、增广图像样本的图像特征以及文本标记的文本特征；

基于图像特征和文本特征，计算第i个类别的图像原型特征V_i和文本原型特征T_i，采用先行加权的方式融合图像原型特征V_i和文本原型特征T_i，得到第i个类别的多模态特征P_i，保存在类原型字典中；

步骤三，构建基于CLIP大模型微调的多模态小样本分类模型：

冻结CLIP大模型的文本编码器所有参数以及图像编码器除最后一层transformer层的参数，得到待训练的分类模型；

设置图像和文本的跨模态对齐损失L_ita，使得同一个类别的图像特征和文本特征在特征空间上保持一致性；基于图像样本的图像特征、增广图像样本的图像特征设置自相关学习损失L_ss，来学习图像内的潜在信息；

融合跨模态对齐损失L_ita和自相关学习损失L_ss，得到总损失函数L＝L_ita+λL_ss，λ为自适应权重超参数；通过总损失函数L对分类模型进行训练；

步骤四，类别预测：将测试图像输入到完成训练的分类模型的图像编码器后，得到测试图像的图像特征，利用余弦分类器，对测试图像的图像特征与类原型字典中的所有多模态特征的余弦相似度进行计算，相似度最高的多模态特征所属的类别，即为测试图像的预测类别。

进一步地，所述每层transformer层包括多头注意力层和多层感知器。

进一步地，步骤二中，所述基于图像特征和文本特征计算第i个类别的图像原型特征V_i和文本原型特征T_i，具体包括：

其中，f和g分别代表图像编码器和文本编码器，h为自然语言处理模型，X_i和W_i表示第i个类别中所有图像的集合及对应的文本描述的集合，x_k表示X_i中的第k个图像样本，w_k为x_k对应的文本描述，|·|表示计算集合的元素个数。

进一步地，步骤二中，所述采用先行加权的方式融合图像原型特征V_i和文本原型特征T_i得到第i个类别的多模态特征P_i，具体包括：

P_i＝(1-α)V_i+αT_i；

α为平衡因子。

进一步地，步骤三中，所述设置图像和文本的跨模态对齐损失L_ita，具体包括：

S_ij表示为图像样本x_i与文本描述w_j的余弦相似性，n_b表示每个批次数据的样本个数。

进一步地，步骤三中，所述基于图像样本的图像特征、增广图像样本的图像特征设置自相关学习损失L_ss来学习图像内的潜在信息，具体包括：

定义图像的增广样本为正样本，其余为负样本，采用自监督对比学习来分类更具有区分性的特征：

其中，Q_i表示图像样本x_i的正样本集合，B_i表示图像x_i所在批次数据中的所有样本集合，τ为调节温度。

与现有技术相比，本发明的有益技术效果是：

现有技术中的基于大模型的小样本图像分类方法的核心思想是利用大模型中预训练得到的丰富的文本知识来弥补小样本图像分类任务中训练数据稀少的问题，通过度量图像与文本知识的相关性来进行图像分类。这种方法虽然简单易行，但由于模型过度依赖图像文本跨模态的匹配机制，导致对于图像数据本身蕴含的信息的探索不够充分，使得模型的泛化能力较差。

本发明在视觉语言大模型的基础之上，迁移大模型中丰富的多模态信息到特定的图像分类任务上，既通过大模型蕴含的丰富知识来补充数据不足的问题，又充分挖掘图像数据的信息，以实现更加高效的小样本图像分类方法。

附图说明

图1为本发明对图像进行增广、对文本描述进行自然语言技术处理的示意图；

图2为本发明对提取图像样本的图像特征、提取文本描述的文本特征的示意图；

图3为本发明基于大模型微调的多模态小样本分类模型的示意图；

图4为本发明对图像进行分类的示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

本发明提出了一种基于大模型微调的多模态小样本图像分类方法，在视觉-语言大模型的基础之上，迁移大模型中丰富的多模态信息到特定的图像分类任务上，以实现更加高效的小样本图像分类方法。

下面对本发明的技术方案进行详细说明。

1.图像文本对的预处理

1.1，从现有公开的图像数据集中收集不同领域、类别的小样本图像数据，包含图像样本、类别及其所属类别的文本描述。

1.2，对收集到的图像数据进行预处理，首先，采用中心裁剪方式对图像样本进行尺寸统一，裁剪为224*224，然后随机角度翻转图像进行样本增广，获得两个图像样本，包含原图像样本及增广图像样本。

1.3，对图像数据构建专属的文本提示(prompts)，对于不同的图像样本，采用相同的文本prompts构建格式—“a photo of a{}”,其中“{}”填充图像对应的文本描述。

1.4，对文本prompts，采用自然语言处理技术，将文本prompts描述转化为文本标记(文本token)，维度为1*77。

1.5，将图像样本和文本token共同组合到一起，增广图像样本与原图像样本共享同一个文本prompt，并且同一个类别的图像共享同一个文本prompt。图像文本对的数据预处理如图1所示。

2.多模态特征的提取

2.1，面向小样本图像分类环境，分别设定1、2、4、8、16-shot场景，即在小样本数据集中，每个类别只包含1、2、4、8或16个图像样本。

2.2，预训练的CLIP大模型包含一个图像编码器和文本编码器，其中，文本编码器主要采用Bert模型，图像编码器主要由12层transformer层组成。在图像编码器中，每层transformer层的结构相同，主要由一个多头注意力层(Multi-head Attention)和一个多层感知器(MLP)组成。

2.3，将小样本数据集中的图像样本和对应的文本标记分别输入到CLIP模型中的图像编码器和文本编码器。对于图像特征的提取，首先将每个图像样本平均分为16个局部块，然后输入到图像编码器中，得到一个长度为512维的图像特征。对于文本特征提取，将处理后的文本token输入到文本编码器中，输出文本特征，维度也是512，具体过程如图2所示。

2.4，采用先行加权的方式融合多模态特征，以获取更加一般化、高质量的类别特征表示，文本信息作为强大的先验知识可以提供类别的概念解释和隐性表示，图像特征直观地表示图像的更加细节和具体的特征。第i个类别的多模态特征P_i为：

P_i＝(1-α)V_i+αT_i；

其中，V_i和T_i分别为第i个类别的图像原型特征和文本原型特征，α为非负平衡因子，设置为0.6。

图像原型特征V_i和文本原型特征T_i的计算方式如下：

其中，f和g分别代表图像编码器和文本编码器，h为自然语言处理模型(例如Bert模型或者GPT系列模型)，x_i和W_i表示第i个类别中所有图像的集合及对应的文本描述的集合，x_k表示X_i中的第k个图像样本，w_k为x_k对应的文本描述，|·|表示计算集合的元素个数。

3.基于大模型微调的多模态小样本分类模型的构建

3.1，为了继承大模型蕴含的丰富知识，冻结文本编码器所有参数以及图像编码器大部分的参数，微调图像编码器的最后一层网络的参数以适应不同的小样本图像分类任务。

3.2，模型两个编码器模块实现对输入图像和文本的特征提取，然后融合这两个模态的特征以获得更加一般化的类原型表示，将这些保存在类原型字典中，作为新的图像样本的分类基准。

3.3，为了获得更加一般化的类原型表示，设计了一个图像文本对齐损失，使得同一个类别的图像和文本特征在特征空间上保持一致性：

其中，S_ij表示为图像样本x_i与文本描述w_j的余弦相似性，n_b表示每个batch的样本个数。

3.4，本发明还设计了一个自相关学习损失来学习图像内的潜在信息。定义图像的增广样本为正样本，其余为负样本，采用自监督对比学习来类别更具有区分性的特征：

其中，Q_i表示图像样本x_i的正样本集合，B_i表示图像样本x_i所在batch中的所有样本集合，τ为调节温度，设置为0.07。

3.5，融合跨模态对齐损失L_ita和自相关学习损失L_ss，模型的总损失函数为：

L＝L_ita+λL_ss；

其中，λ为自适应权重超参数。利用这个总损失函数L来微调大模型，以获取更具区别性和高质量的类原型表示，作为分类基准来提高新的图像样本的分类准确性，并保存在类原型字典中，字典大小为N*512，其中N为类别总数。当给定一张新的图像，利用余弦分类器与字典中的原型进行对比分类。

3.6，利用图像特征和文本特征，采用SGD优化器，对分类模型进行优化求解。每批数据采样图像音频对32个。学习率设置为0.0001，权重衰减率设为0.0001，并使用余弦退火规则衰减学习率。SGD是一种常用的优化器，收敛速度快，能够更快地找到局部最优解或者接近最优解的位置。上述超参数的设置与优化器的选择能有效提升模型的训练效率与准确性。具体参考图3。

4.小样本图像的分类

4.1，给定一张测试图像，和步骤1中的操作相同，先对图像进行预处理，不同的是，此时不需要对图像进行数据增广，即采用中心裁剪方式对图像进行尺寸统一，裁剪为224*224。

4.2，将处理之后的测试图像，输入到训练好的图像编码器中，获取测试图像的图像特征，尺寸为1*512。

4.3，对于得到的图像特征，利用余弦分类器，将图像特征与类原型字典中的所有类原型特征表示(即多模态特征P)进行余弦相似度计算，相似度最高的类原型特征表示所属的类别，即为该测试图像的预测类别。具体参考图4。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于大模型微调的多模态小样本图像分类方法，其特征在于，包括以下步骤：

步骤一，图像文本对的预处理：

步骤二，多模态特征的提取：

步骤三，构建基于CLIP大模型微调的多模态小样本分类模型：

2.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法，其特征在于，所述每层transformer层包括多头注意力层和多层感知器。

3.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法，其特征在于，步骤二中，所述基于图像特征和文本特征计算第i个类别的图像原型特征V_i和文本原型特征T_i，具体包括：

4.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法，其特征在于，步骤二中，所述采用先行加权的方式融合图像原型特征V_i和文本原型特征T_i得到第i个类别的多模态特征P_i，具体包括：

P_i＝(1-α)V_i+αT_i；

α为平衡因子。

5.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法，其特征在于，步骤三中，所述设置图像和文本的跨模态对齐损失L_ita，具体包括：

6.根据权利要求1所述的基于大模型微调的多模态小样本图像分类方法，其特征在于，步骤三中，所述基于图像样本的图像特征、增广图像样本的图像特征设置自相关学习损失L_ss来学习图像内的潜在信息，具体包括：