CN117033961A

CN117033961A - 一种上下文语境感知的多模态图文分类方法

Info

Publication number: CN117033961A
Application number: CN202311058311.9A
Authority: CN
Inventors: 李莹; 朱明炜; 赵天成; 尹建伟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-08-22
Filing date: 2023-08-22
Publication date: 2023-11-10

Abstract

本发明公开了一种上下文语境感知的多模态图文分类方法。先构建多对交错的图像文本对，将传统微调的范式转化到上下文感知的范式，并达到零样本、少样本无需梯度更新的分类模式。应对跨域迁移的场景下，传统方法需要更多的计算成本，而上下文语境感知学习的模式，能够对原有需要二次梯度更新学习的范式做优化，同时尽可能避免模型预训练权重的灾难遗忘现象，通过少数样本来做元梯度学习，使模型具备跨域知识迁移的能力，在开放词表分类任务的设定下达到比基线模型更优的分类准确度。

Description

一种上下文语境感知的多模态图文分类方法

技术领域

本发明属于计算机视觉和自然语言处理领域，具体涉及一种上下文语境感知的多模态图文分类方法。

背景技术

传统的图像分类集评估方法中，通常需要让视觉或多模态模型在零样本设定下完成正确度校验，但零样本的设定往往只能得到次优的结果，只能通过对每个场景的数据集做少样本微调才有更优的分类评估性能，这样的代价是不能更好地将分类模型迁移到新的图像场景，不具备开放词表的能力，同时每有一个测试集的接入，则需要重新做一轮模型的微调训练，计算成本的开销大。

发明内容

针对上述现有技术的不足，本发明提供一种上下文语境感知的多模态图文分类方法，实现了通过无需微调更新模型，提供少样本的情况下，即可对多个下游场景的分类任务中，获得更优的评估性能。

本发明的目的是通过以下技术方案实现的：

本发明提出一种上下文语境感知的多模态图文分类方法，包括以下步骤：

将图像文本对形式的分类数据集进行小样本处理，构建每条数据是多对图文形式的小样本数据集，每个图文对以图像和文本标签的形式呈现，每个图文对属于不同的类别；

引入查询数据，查询数据类型为预分类的新图像，将所述查询数据和所述小样本数据集共同组合为上下文数据集，其中，所述小样本数据集中的小样本数据和查询数据的类别不同；

使用多模态模型的图像文本编码器对所述上下文数据集中图像和文本标签分别进行特征抽取，得到图像和文本特征向量；

将所述图像和文本特征向量进行过滤优化，使得图像和文本特征向量在语义上高度近似，得到输入特征；

将所述输入特征输入至所述因果语言模型，得到预测特征；

将所述输入特征中的图像特征相应的文本特征与对应的所述预测特征的文本特征进行交叉熵损失计算，并将计算得到的损失值用于所述因果语言模型的训练，得到能对上下文语境感知的多模态图文分类模型；

使用所述多模态图文分类模型对多模态图像文本对进行分类。

进一步地，获得所述图像和文本特征向量具体包括以下步骤：

使用CLIP的图文编码器，对整个所述上下文数据集做表征转化处理，用ViT-B/16得到图像特征，用BERT得到文本特征。

进一步地，获得所述输入特征具体包括以下步骤：

对所有的所述图像和文本特征向量中同属为一个类别的图像和文本特征做余弦相似度的计算，设定相似过滤阈值，并只保留每个类别中和文本特征相似度最高的Top-K个图像特征，使得图像和文本特征向量在语义上高度近似，根据小样本的策略，随机采样N个图文对的特征向量，N-1对图文特征向量作为小样本数据，最后一对图文特征向量作为查询数据，并将小样本数据、查询数据中的图像特征作为因果语言模型的输入特征。

进一步地，构建多模态图文分类模型具体包括以下步骤：

输入特征中图像特征对应的预测特征中的文本特征作为模型反向传播更新的目标，因果语言建模下，当前图像特征的预测只依赖于前文中出现过的输入特征中的文本特征，损失建模都只针对预测特征中的文本特征和输入特征中的文本特征进行，当前位置的预测特征中文本特征只依赖于前文中出现过的输入特征中的文本特征，以此得到损失子项，对查询图像的损失计算则是基于全局的输入特征中的文本特征和查询图像的预测特征中的文本特征做余弦相似计算后完成归一化并统计查询损失，最终的全局损失为每个损失子项和查询损失的总和，最后通过损失梯度更新完成因果语言模型的训练，得到能对上下文语境感知的多模态图文分类模型。

本发明的有益效果是：本发明基于语言模型上下文语境感知的图像分类方法实现了通过无需微调更新模型，提供少样本的情况下，即可对多个下游场景的分类任务中，获得更优的评估性能；本发明语言模型作为推理的骨干网络，以多模态模型的图像文本编码器作为图像视觉特征和文本标签的抽取器，通过小样本对语言模型做上下文语境感知能力的学习，达到开放词表场景下的更优的图像分类准确度；本发明可避免因为传统的下游任务微调策略而造成的额外计算时间成本和模型灾难遗忘现象等问题。此外，模型通过上下文的语言环境来做感知推理更符合人类学习的方式，比传统微调来说是通用人工智能模型的应用技术之一，也具备更优的泛化性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一示例性实施例提供的基于语言模型上下文语境感知的图像分类方法的流程图；

图2为一示例性实施例提供的自回归因果语言模型GPT的损失建模流程图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

本实例旨在按本发明实现基于语言模型上下文语境感知的图像分类。该方法流程包括训练集特征预处理、上下文语境感知样本的构建、图文对特征抽取、GPT自回归语言模型的训练、下游封闭集的数据评估，如图1所示，上下文语境感知的多模态图文分类方法，包括以下步骤：

在一实施例中，在整个上下文数据集中，随机采样N-1个图文对，每一个图文对类别都不同，构建每条数据是多对图文形式的小样本数据集。

引入查询数据，查询数据类型为预分类的新图像，其中将查询数据和小样本数据集共同组合为上下文数据集，其中，小样本数据集中的小样本数据和查询数据的类别不同；

使用多模态模型的图像文本编码器对上下文数据集中图像和文本标签分别进行特征抽取，得到图像和文本特征向量；

在一实施例中，多模态模型的图像文本编码器对所述上下文数据集中图像和文本标签分别进行特征抽取是通过CLIP模型编码器ImageNet21K训练集的图像和文本数据做编码处理，通过ViT-B/16得到图像的512维视觉特征向量，再通过Bert编码器得到文本特征向量。ImageNet21K中有10450个类别的图像数据，每个类别的图像数量不固定，构建上下文语境感知数据的时候，每个类别的图像数据只需要随机采样一张即可；

I_i＝{image₁，image₂，...，image_n}，I_i∈t_i

Visual_embeds＝ViTEmbedding(I_i)＝{v₁，v₂，v₃，...，v_n}

I＝{I₁，I₂，I₃，...，I_n|n≤10450}

T＝{text₁，text₂，text₃，...，text_n|n≤10450}

本阶段在于过滤上下文数据集，其中I_i是同属于一个标签类别t_i的全部图像，image_n的具体数量依照该类别图像总量实际情况而定，利用CLIP模型中的ViT编码器将图像编码成对应特征，Visual_embeds即为某个类别的图像特征向量集合，当对所有类别的图像特征化处理后则得到一个向量库I。T则代表10450类的文本标签，Text_embeds是由CLIP模型的文本编码器转译得到的文本特征向量。

将图像和文本特征向量进行过滤优化，使得图像和文本特征向量在语义上高度近似，得到输入特征；这句话调整到这里

cosine_similarity＝cos(t_i@I_i)

s_i＝softmax(cosine_similarity).top_k(100)

由于一个文本标签对应的图像是非常多的，过滤优化的策略选择性地保留和单个文本标签相似度最高的Top_K张图。cosine_similarity是计算单个文本特征向量和该类别对应的所有图像特征向量的余弦相似度，s_i即是根据某个类别i计算得到的余弦相似度值，做softmax归一化，并根据降序过滤出排在前100张的和文本特征向量语义最近似的图像作为保留。

将输入特征输入至因果语言模型，得到预测特征；

因果语言模型的输入特征数量会决定输出的词向量个数，图片特征向量对应的输出特征才作为预测特征。

在一实施例中，构建多模态图文分类模型具体包括以下步骤：

输入特征中图像特征对应的预测特征作为模型反向传播更新的目标，因果语言建模下，当前图像特征的预测只依赖于前文中出现过的输入特征中的文本特征，损失建模都只针对预测特征中的文本特征和输入特征中的文本特征进行，当前位置的预测特征中文本特征只依赖于前文中出现过的输入特征中的文本特征，以此得到损失子项，对查询图像的损失计算则是基于全局的输入特征中的文本特征和查询图像的预测特征中的文本特征做余弦相似计算后完成归一化并统计查询损失，最终的全局损失为每个损失子项和查询损失的总和，最后通过损失梯度更新完成因果语言模型的训练，得到能对上下文语境感知的多模态图文分类模型。

具体地，通过交叉熵损失函数逐步计算图像位置词向量预测的损失值：

A_i＝{x₁，y₁，x₂，y₂，...，x_n-1，y_n-1，x_query}

x_n＝x_query，y_n＝y_label

O(x_i，y_i)＝GPT(A_i)，O(x_i，y_i)＝{x′₁，y′₁，x′₂，y′₂，...，x′_n}

θ＝[argmax(cosine(x′_i·{y₁，y₂，y₃，...，y_i}))＝＝y_i]

其中n是上下文的总长度，A_i是一个上下文的样例，第n个样例的图像对应类别标签y_n可以不输入到GPT-2中作为预测项，而只需要提供最后一个需要查询的图像特征x_n＝x_query即可。O(x_i，y_i)是GPT的模型预测输出，x′_i和y′_i是输入序列中第i个图文对位置的模型输出值，代表着每个token序列的预测结果，σ(·)是softmax函数。上述计算流程中Loss是对GPT自回归预测输出值中的x′_i元素做的损失计算，计算过程中只需要针对每个图像特征向量对应的预测输出值，这个预测结果是用于预测图像的具体类别，总共会算N项的损失值。θ是最终的优化目标参数，对于每一项x′_i的概率预测值，都希望和Y＝{y₁，y₂，y₃，...，y_i}序列计算余弦相似度，并最大化y_i的概率值，上下文越长的后置序列，余弦相似计算的y_i项越长。例如最后一个x′_n，其计算余弦的y_i项也是最长的，包含了所有图像类别的标签值。图2展示了具体损失计算的位置，x′_i即对应y^，为图像词向量位置的模型输出值。

使用多模态图文分类模型对多模态图像文本对进行分类。

下游任务数据集推理评估。本实例将域外的分类数据集作为评估集，采用封闭集评估的方式来验证语言模型上下文感知的能力，并达到优于CLIP模型分类基线准确度的能力。

A_i＝{x₁，y₁，x₂，y₂，...，x_n-1，y_n-1，x_query}

x_n＝x_query，y_n＝y_label

Inference_i＝GPT(A_i)＝{x′₁，y′₁，x′₂，y′₂，...，x′_n}

其中A_i是某条数据的输入特征，最后推理的结果应该是x′_n，Inference_i即为GPT-2语言模型的词向量预测输出，对其和Y＝{y₁，y₂，y₃，...，y_n}标签集计算余弦相似度并做softmax取argmax得到的类别预测结果来计算准确度，能够预测正确真实标签为y_n时，判定模型对单样本的预测是正确的，反之为错误。该类方法在开放词表图像分类的任务中，比起CLIP模型的基线性能，普遍要更好，同时可以解决下游场景多次微调的时间计算成本问题。如表1，是作为基线对照组的CLIP模型零样本评估成绩，编码器有四个不同的视觉抽取骨干网络，其中在ViT-B/16的设定下，普遍达到最优的零样本分类准确性。

表1 CLIP模型在下游任务评估数据集的零样本分类准确度

编码器\数据集	DTD	EuroSAT	Oxford_Pets	Caltech101	Oxford_Flowers
						ResNet50	42.90％	36.27％	82.72％	83.89％	66.01％
ResNet101	38.06％	32.92％	84.70％	89.21％	64.03％
						ViT-B/32	44.15％	45.25％	83.27％	89.53％	66.99％
ViT-B/16	44.08％	48.34％	88.39％	91.48％	71.30％

如表2所示，展示的是利用GPT-2作为外部知识语料库，来训练上下文语境感知能力，实验中，视觉部分的编码器采用的也是ViT-B/16，为的是实验对照的有效性。

表2上下文语境感知训练版的GPT-2在下游任务评估小样本分类的准确度

小样本量\数据集	DTD	EuroSAT	Oxford_Pets	Caltech101	Oxford_Flowers
						10-shot	35.26％	42.26％	65.88％	87.38％	69.20％
20-shot	45.43％	58.44％	89.91％	91.76％	75.32％
						30-shot	46.83％	54.94％	88.54％	92.72％	73.08％
50-shot	43.71％	56.81％	82.76％	91.73％	71.18％

小样本量表示对GPT-2模型在ImageNet21K上采用的N-shot训练及评估策略的设定，消融实验中采用10-shot、20-shot、30-shot，50-shot作为对照，在10-shot和50-shot的结果中略低于CLIP的基准分类性能，可以视作是语言模型上下文语境感知的自身问题，语言模型难以对较短上下文演示样本的训练和过长的演示样本训练产生良好的泛化能力，因为较短的演示样本难以拟合训练集的上下文语境，过长的演示样本，会导致演示样本随机性的噪声影响，同时过长的词向量个数对语言模型的上下文学习是不利的。在20-shot的上下文评估中，五个域外评估任务集上，都超越了CLIP的基线水准，尤其在EuroSAT数据集上，上下文语境感知训练版的GPT-2模型取得了58.44％的分类准确性能，要比CLIP基线的分类准确度48.34％高出10.1％的分数，在30-shot设定下，仍然可以在五个评估数据集中取得优于基线的收益，所以上下文语境感知是高度以来上下文演示的质量和长度的。需要注明的是，以上消融实验的GPT-2模型，并没有采用预训练的权重作为上下文语境感知训练的基础，因为从头训的策略可以产生更好的性能，同时针对6层transformer解码器和12层transformer解码器架构都做了消融验证，取最优的一组性能作为对照。当然也可以采用更优架构的自回归语言模型做上下文语境感知的评估，也可以取得更好的学习性能。

该基于语言模型上下文语境感知的图像分类方法实现了通过无需微调更新模型，提供少样本的情况下，即可对多个下游场景的分类任务中，获得更优的评估性能；本语言模型作为推理的骨干网络，以多模态模型的图像文本编码器作为图像视觉特征和文本标签的抽取器，通过小样本对语言模型做上下文语境感知能力的学习，达到开放词表场景下的更优的图像分类准确度；本基于语言模型上下文语境感知的图像分类方法可避免因为传统的下游任务微调策略而造成的额外计算时间成本和模型灾难遗忘现象等问题。此外，模型通过上下文的语言环境来做感知推理更符合人类学习的方式，比传统微调来说是通用人工智能模型的应用技术之一，也具备更优的泛化性能。

以上仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改。

Claims

1.一种上下文语境感知的多模态图文分类方法，其特征在于，包括以下步骤：

将所述输入特征输入至因果语言模型，得到预测特征；

2.根据权利要求1所述的上下文语境感知的多模态图文分类方法，其特征在于，获得所述图像和文本特征向量具体包括以下步骤：

3.根据权利要求1所述的上下文语境感知的多模态图文分类方法，其特征在于，获得所述输入特征具体包括以下步骤：

4.根据权利要求1所述的上下文语境感知的多模态图文分类方法，其特征在于，构建多模态图文分类模型具体包括以下步骤：