CN116432026A

CN116432026A - 视觉语言理解任务处理方法和系统

Info

Publication number: CN116432026A
Application number: CN202310240088.3A
Authority: CN
Inventors: 汪诚愚; 唐莫鸣
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-07-14

Abstract

本公开涉及一种视觉语言理解任务处理方法和系统。所述方法基于视觉语言预训练模型操作，并且包括：构造包括多个图像‑文本对的任务训练数据；将训练数据送入预训练模型以获取位于多个图像和文本嵌入向量；将同一图像文本对的嵌入向量融合为一个融合特征；基于多个融合特征构造知识库原型矩阵；以及使用原型矩阵进行相似度匹配以获取推理结果。本发明将各种视觉语言理解任务重新表述为一个开卷的相似性匹配问题，采用知识库原型矩阵通过融合特征记录每个类别的显着特征，再使用图像‑文本对与每个类别的原型进行相似性匹配。在下游任务的微调阶段，可通过对比学习利用真实标签的隐式排序信息，从低资源训练集中提供更多监督线索。

Description

视觉语言理解任务处理方法和系统

技术领域

本公开涉及深度学习领域，尤其涉及一种视觉语言理解任务处理方法和系统。

背景技术

业已提出的预训练视觉语言模型，例如XVLM和CLIP(Contrastive Visual-Language Pretraining，对比视觉语言预训练)，并在VLU(Visual LanguageUnderstanding，视觉语言理解)任务中显示出巨大潜力。由于预训练模型并非用于特定任务，因此在进行下游任务时往往需要对预训练模型进行微调。常规的微调方法在很大程度上依赖于过程耗时且劳动密集的数据注释，这在低资源场景中会造成麻烦。现已提出了微调部分参数以保留模型预训练知识的方法。另外，可以通过手工制作的提示将视觉对象提取和视觉问答重新表述为完形填空问题；还可以利用轻量级适配器来保留CLIP的知识。

然而，现有的方法需要为不同的VLU任务设计不同的任务执行架构，在构造提示时需要耗费大量人力并会遇到在低资源场景中性能不佳等的问题。

为此，需要一种改进的用于实现下游任务的方法。

发明内容

本公开要解决的一个技术问题是提供一种视觉语言理解任务处理方法和系统。所述方法将各种VLU任务统一重新表述为一个开卷的(open-book)相似性匹配(affinity-matching)问题。具体地，本发明采用知识库原型矩阵通过视觉-文本融合特征记录每个类别的显着特征，然后在图像-文本对与每个类别的原型进行相似性匹配。进一步地，在针对下游任务的微调阶段，可以通过对比学习进一步利用真实标签的隐式排序信息，从低资源训练集中提供更多的监督线索，此时预训练视觉语言模型中文本和视觉编码器的所有参数都是固定的，因此能够提供极高的参数训练效率。

根据本公开的第一个方面，提供了一种视觉语言理解任务处理方法，所述方法基于视觉语言预训练模型VL-PTM进行操作，并且包括：构造所述视觉语言理解任务的训练数据，所述训练数据包括多个图像-文本对；将所述视觉语言理解任务的训练数据送入所述VL-PTM以获取位于同一嵌入空间的多个图像嵌入向量和多个文本嵌入向量；将属于同一个图像-文本对的图像嵌入向量和文本嵌入向量融合为一个融合特征；基于多个融合特征构造知识库原型矩阵；以及使用所述知识库原型矩阵进行相似度匹配以获取所述视觉语言理解任务的推理结果。

可选地，所述训练数据还包括与每个图像-文本对相对应的标签，并且基于多个融合特征构造知识库原型矩阵包括：基于标签对所述多个融合特征进行分类；求取每个类别融合特征的平均融合特征；以及将每个平均融合特征作为对应类别的原型特征，以得到所述知识库原型矩阵。

可选地，使用所述知识库原型矩阵进行相似度匹配以获取所述视觉语言理解任务的推理结果包括：在推理阶段，将图像和文本送入所述VL-PTM以获取待分类的图像嵌入向量和文本嵌入向量；将所述待分类的图像嵌入向量和文本嵌入向量融合成待分类的融合特征；将所述待分类的融合特征与所述知识库原型矩阵中每个类别的原型特征进行相似度匹配；以及选取与所述待分类的融合特征最匹配的原型特征对应的类别作为推理结果。

可选地，将属于同一个图像-文本对的图像嵌入向量和文本嵌入向量融合为一个融合特征包括级联如下至少两个向量：属于同一个图像-文本对的所述图像嵌入向量；属于同一个图像-文本对的所述文本嵌入向量；所述图像嵌入向量与所述文本嵌入向量之和；所述图像嵌入向量与所述文本嵌入向量之差；以及所述图像嵌入向量与所述文本嵌入向量的逐元素之积。

可选地，所述视觉语言理解任务包括如下之一：视觉问答任务，其中，在所述训练数据中，多个图像文本对中的文本对应于针对图像提出的非开放性问题，标签对应于非开放性问题的回答选项；以及视觉蕴涵任务，其中，在所述训练数据中，所述多个图像文本对中的文本对应于针对图像提出的假设，标签对应于蕴涵、矛盾或中性。

可选地，所述视觉语言理解任务是图像分类任务，在所述图像分类任务的训练阶段，所述多个图像文本对中的文本对应于类别的文本描述；在所述图像分类任务的推理阶段，计算待分类图像与每个类别文本描述的待分类融合特征，将每个待分类融合特征与其对应原型特征进行相似度匹配，并且选取匹配度最高的类别作为推理结果。

可选地，所述方法还包括：在所述视觉语言理解任务的训练阶段，基于表征预测分类与真实标签的差异的第一损失函数进行参数更新。

可选地，所述方法还包括：在所述视觉语言理解任务的训练阶段，将图像文本对所属类别的概率视为正样本，将其余类别的概率视为负样本，构造用于对比学习的第二损失函数；以及基于所述第一损失函数和所述第二函数进行参数更新。

可选地，在所述视觉语言理解任务的训练阶段和推理阶段，所述VL-PTM的图像编码器和文本编码器的参数保持不变。

根据本公开的第二个方面，提供了一种一种视觉语言理解任务处理系统，用于执行如第一方面所述的视觉语言理解任务处理方法，并且包括：训练设备，用于获取针对特定视觉语言理解任务的知识库原型矩阵；以及推理设备，用于基于所述知识库原型矩阵执行所述特定视觉语言理解任务的推理。

根据本公开的第三个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面所述的方法。

根据本公开的第四个方面，提供了一种计算机程序产品，包括可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上述第一方面所述的方法。

根据本公开的第五个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一方面所述的方法。

由此，本发明提出了一种针对预训练视觉-文本模型在低资源视觉-文本理解任务的高效参数微调方法。通过将VLU任务统一形式化为基于知识库原型矩阵的相似性匹配问题，大大减少方法微调的参数规模，此外通过对比学习利用真实标签的隐式排序信息为模型训练提供更多监督信号从而增强模型性能。实验结果表明，本发明的方案在小样本图像分类任务以及各类VE任务及VQA任务都取得了比现有技术更好的性能。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了CLIP的基本训练过程。

图2示出了利用CLIP进行图像分类的过程。

图3示出了视觉问答的几个例子。

图4示出了视觉蕴涵任务的一个例子。

图5示出了根据本发明一个实施例的视觉语言理解任务处理方法的示意性流程图。

图6示出了根据本发明一个实施例的视觉语言理解任务处理系统的组成示意图。

图7示出了根据本发明一实施例可用于实现上述VLU任务处理方法的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

常规的图像分类模型往往都基于有类别标签的图像数据集进行全监督训练，这对于数据需求非常高，需要大量人工标注；同时限制了模型的适用性和泛化能力，不适于任务迁移。业已提出了预训练视觉语言模型，尤其是CLIP(Contrastive Visual-LanguagePretraining，对比视觉语言预训练)，是通过从互联网上轻松获取的大批量的文本-图像配对(4亿个文本-图像对)数据训练得到的。

图1示出了CLIP的基本训练过程。如图所示，CLIP的模型结构包括两个部分，即文本编码器(Text Encoder)和图像编码器(Image Encoder)。文本编码器可以使用文本Transformer(变压器)模型实现；图像编码器则使用了基于CNN的ResNet和基于Transformer的ViT。

在训练阶段，假设一个训练批次(batch)包含N个(文本-图像)对。每个文本-图像对可以如图1左侧的例子所示，包括一张图像及其文本描述(“a man wearing a white hat(戴白帽子的男人)”)。对于这N个文本-图像对，将其中的N个文本先通过文本编码器进行文本编码，假设文本编码器将每条文本编码为一个长度为d_t的一维向量，那么这个批次的文本数据经文本编码器的输出为[T₁,T₂，...，T_N],维度为(N,d_t)；同样地，将N个图像先通过图像编码器进行图像编码，假设图像编码器将每条文本编码为一个长度为d_i的一维向量，那么这个批次的图像数据经图像编码器的输出为[I₁,I₂，...，I_N]，维度为(N,d_i)。

得到的[T₁,T₂，...，T_N]和[I₁,I₂，...，I_N]中，文本-图像一一对应，例如T₁与I₁对应，T₂与I₂对应，...，T_N与I_N对应，将这N个对应关系标记为正样本；而原本并不对应的文本-图像则标记为负样本，例如T₁与I₂不对应。于是，得到N个正样本，N ²-N个负样本，这些正负样本就可以作为正负标签，用来训练文本编码器和图像编码器了。

在具体训练过程中，可以计算T_i与I_j(i,j∈[1,N])之间的余弦相似度(cosinesimilarity)T_i·I_j来度量相应的文本与图像之间的对应关系。余弦相似度越大，表明T_i与I_j的对应关系越强。通过训练文本编码器和图像编码器的参数，最大化N个正样本的余弦相似度，最小化N ²-N个负样本的余弦相似度。如图1所示，即，最大化对角线中的数值，最小化其它非对角线的数值。于是优化目标可以写为：

通过大批量的文本-图像预训练后,CLIP可以先通过编码，计算输入的文本和图像的余弦相似度，来判断数据对的匹配程度。

经过如上训练的CLIP作为视觉-语言预训练模型(Vision-Textual Pre-TrainedModels，VT-PLM)，在其参数中蕴涵了大量判定图片和文本是否匹配的知识。CLIP利用同一嵌入空间统一表征图片和文本，能够大幅提升零次学习(zero-shot)和小样本学习(few-shot)的视觉-语言理解任务的处理水平。

视觉语言理解任务是针对图像和文本的跨模态任务，常见的跨模态任务包括基于图文匹配的图像分类任务、视觉蕴涵任务、视觉问答任务。

图像分类(Image Classification，IC)任务是用于将输入的图像分类到特定分类的任务。由于通过预训练获取了大量知识，CLIP甚至能够在zero-shot的情况下实现该任务。图2示出了利用CLIP进行图像分类的过程。首先，可以将迁移数据集的所有类别转换为文本。具体地，可以构造图像描述句：A photo of{object}({对象}的照片)，并将类别转换为输入文本。例如Imagenet有1000个类别，可以得到了1000个文本，例如A photo of Dog(狗的照片)；A photo of cat(猫的照片)等等。可以将这1000个文本全部输入文本编码器中，得到1000个编码后的向量T_i(i＝1,…,1000)(N＝1000)作为文本特征。

将需要分类的图像(例如，单张图像)输入图像编码器中，得到这张图像编码后的向量I₁.将I₁与得到的1000个文本特征分别计算余弦相似度，以找出1000个相似度中最大的那一个。在图2的例子中，与I₁余弦相似度最大的为T₃，即由文本A photo of Dog输入文本编码器得到的向量，于是判定待分类图片与第三个文本标签(dog)最匹配，即可将该图像分类为狗。

在常规的IC任务中，训练数据包括图像及其分类标签，并且在训练过程中，需要使用表征模型输出分类与标签分类之间的差异的损失函数来进行参数更新；而在推理阶段，输入为图像，需要模型输出图像所属的正确分类。

视觉问答(Visual Question Answering，VQA)任务需要模型观察分析一张图像，然后回答与图像相关的问题。VQA是结合了图像辨识和自然语言理解的一个研究领域。在视觉问答数据库中,视觉问答系统需要根据图像来回答二元分类问题、计数问题、或是开放式问题。图3示出了视觉问答的几个例子。

在图3上部，问题“Is the umbrella upside down？(伞是上下颠倒的嘛)”是一个二元分类问题，需要回答是或否，显然左图的回答是“yes(是)”，右图的回答是“no(否)”。在图3中部，问题“How many children are in the bed？(床上有几个孩子)”是一个计数问题，需要回答某一个数值，显然左图的回答是“2”，右图的回答是“1”。而在图3下部，问题“Who is wearing glasses？(谁戴眼镜)？”则是一个开放问题，例如左图的回答是“man(男人)”，右图的回答是“woman(女人)”。

在常规的VQA任务中，训练数据包括图像文本对及其标签，图像文本对包括图像以及针对图像提出的问题(作为文本)，标签则对应所述问题的正确答案。在训练过程中，需要使用表征模型输出回答与标签指示的正确回答之间的差异的损失函数来进行参数更新；而在推理阶段，输入为图像以及文本(针对图像提出的问题)，需要模型基于图像和问题输出正确的回答。

视觉蕴涵(Visual Entailment，VE，也可译作视觉文本推理)任务的目标是预测一段文本与一幅图像的逻辑关系，并且要求模型对文本中每个具体的项目做出预测。在VE任务中，前提由图像定义，而不是传统文本蕴含(TE)任务中的自然语言句子。经过训练的VE模型的目标是预测图像是否在语义上包含文本。在VE任务中，给出了一个真实世界的图像前提P_image和一个自然语言假设H_text，目标是确定是否可以根据P_image提供的信息得出H_text。根据(P_image,H_text)传达的关系分配三个标签蕴含、中性或矛盾。

·如果P_image中有足够的证据得出H_text为真的结论，则蕴涵(Entailment)成立。

·如果P_image中有足够的证据断定H_text是错误的，则矛盾(Contradiction)成立。

·否则，关系是中性的(Neutral)，暗示P_image中的证据不足以得出关于H_text的结论。

VE和TE任务的主要区别在于，TE中的前提是一个自然语言句子H_text，而不是一个图像前提P_image。与之前推理结果仅包括“是-否”的二元分类VQA任务相比，“中性”的存在使得VE任务更具挑战性，因为“中性”要求模型得出“蕴含(是)”和“矛盾(否)”之间的不确定性。

为了方便理解，图4示出了视觉蕴涵任务的一个例子。左侧的图像作为视觉蕴涵任务的前提(Premise)，即，P_image。中间的假设(Hypothesis)则包括需要模型判定的文本描述，右侧则对应于模型对三种假设给出的回答(Answer)。由于回答是正确的，因此右侧的回答也可以看作是使用左侧图像和中间文本进行训练时的标签。具体地，第一条假设“Twowoman are holding packages.(两个女人都拿着包裹)”由于能够从右图完全推出，因此被判定为“蕴涵”(或者该假设与前提图像组成的图文对的标签为“蕴涵”)，第三条假设“Themen are fighting outside a deli.(男人们在熟食店外面打架)”则与右图完全不符而被判定为“矛盾”(或者该图文对的标签为“矛盾”)。而第二条假设“The sisiters arehugging goodbye while holding to go packages after just eating lunch.(两姐妹在午饭后拿着包裹拥抱道别)”，虽然不包括与右图矛盾的内容，但由于无法推定两人是否是姐妹，是否刚吃过午饭因此被判定为“中性”(或者该图文对的标签为“中性”)。

在常规的VE任务中，训练数据包括图像文本对及其标签，图像文本对包括图像以及针对图像提出的假设(作为文本)，标签则是对假设性质的正确回答。在训练过程中，需要使用表征模型输出回答与标签指示的正确回答之间的差异的损失函数来进行参数更新；而在推理阶段，输入为图像以及文本(针对图像提出的假设)，需要模型基于图像和问题输出正确的回答，即，针对图像的假设是蕴涵、矛盾还是中性。

如上IC、VQA和VE任务都可以作为CLIP模型的下游任务实现。应该理解的是，除了这三种任务之外，VLU还可以包括其他已经提出或是尚未提出的任务范式。针对现有的各种VLU任务，已经提出了多种基于CLIP实现或改善下游VLU任务表现的方法，包括但不限于：

1.部分参数微调方法：可以微调预训练视觉语言模型(VL-PTM)中的偏置项和LayerNorm以及模型分类头，同时将VL-PTM中的其余参数固定以减少微调参数的规模同时最大限度保留VL-PTM在预训练阶段学习的知识。但由于VL-PTM的上亿级别的参数规模，这类方法微调的参数规模仍然庞大，需要更多的训练数据才能获得较好的性能。

2.人工模板：通过人工构建提示(prompt)用于视觉对象提取和视觉关系抽取任务测试并推理出VL-PTM对哪些颜色敏感，然后利用这些颜色构建蒙版以掩码图像中的对象。基于掩码形式设计人工提示模板，将上述问题转化为完形填空问题。

然而这类方法需要复杂的数据预处理工作，难以推广到所有任务中。

3.参数化的软提示：用于小样本图像分类，将人工设计的提示模板用参数化的向量代替。在训练阶段冻结VL-PTM的参数，将参数化提示模板+类别名称作为VL-

PTM的文本编码器输入，挖掘VL-PTM的知识获得更好的类别表征。最后通过图像与类别表征相似度计算，决定图片的分类类别。这类方法使用范围受限，只能应用与基于向量相似度计算的图像分类任务，且训练时间较长，最终效果并不出色。此外，参数化的提示模板的各项参数设置需要大量的网格搜索才能达到最佳效果。

4.基于启发式规则的数据预处理方法：利用语言规则或利用预训练的序列到序列语言模型将问句转化为陈述句，由此将VQA任务转化为完形填空问题。然而这类需要利用复杂的启发式规则或利用外部语言模型对数据进行预处理，非常耗时，且该方法使用范围受限。

5.特定模型结构适配器(adapter)方法：同样用于小样本图像分类。在训练阶段冻结VL-PTM的参数，并利用轻量级的adapter结构从低资源训练数据中学习下游任务的图像-文本特征，然后将下游任务的图像-文本特征分别于CLIP的图像文本特征进行加权求和，然后进行图像-文本向量相似度计算。然而adapter结构的参数规模对少类别分类任务太过庞大。

如前所述，虽然诸如CLIP的预训练视觉语言模型的提出极大地方便了下游VLU任务的实现，然而现有的基于CLIP的微调方法仍然过于复杂、需要耗费大量人工，并且不同的VLU任务需要不同的架构，因此参数微调效率低下。

有鉴于此，本发明提出一种构建知识库的原型矩阵相似度匹配方案作为一种通用的视觉语言理解任务的操作方法。本发明将一系列VLU任务统一重新表述为一个开卷的(open-book)相似性匹配(affinity-matching)问题，通过视觉-文本交互获得图像-文本融合表征从而统一表征图像-文本多模态信息，并根据低资源训练数据(例如，小样本微调数据)构建知识库原型矩阵，然后将各种各样的视觉语言理解任务统一形式化为基于知识库原型矩阵的匹配问题。此外，为了在训练阶段提供更多监督信号，该模型通过对比学习利用真实标签的隐式排序信息在训练阶段提供更多监督信息。在公共基准数据集上进行的实验表明，该模型有效地提高了低训练资源下的视觉语言理解任务(例如，图像文本理解任务)的性能。

图5示出了根据本发明一个实施例的视觉语言理解任务处理方法的示意性流程图。该方法基于视觉语言预训练模型(VL-PTM)进行操作。在此，应该明确的是，本发明的应用前提是已经具有一个经训练的VL-PTM，例如CLIP(在本发明的如下描述中，将使用CLIP作为VL-PTM的实例，但应该理解的是，本发明也可以适用于将文本和图像嵌入向量统一到一个嵌入空间的其他视觉语言模型)。由于CLIP并非专门用于某一个具体任务，因此经训练的CLIP仍然是“预训练”模型。VL-PTM可被用于完成各类下游的视觉语言理解任务，本发明便是基于VL-PTM(此时，模型中的参数已经包含了大量的图像文本知识)进行的微调操作。在此，微调即是在预训练的模型上直接按照下游任务的要求进行训练。换句话说，下文提及的VLU任务训练阶段，是针对VLU任务的训练并不是针对VL-PTM的训练；并且在VLU任务的训练阶段，VL-PTM自身的参数仅仅会被微调甚至大部分参数不被更新。

虽然本发明的处理方法也是针对VLU任务训练阶段和推理阶段的处理方法，但与现有技术不同的是，本发明的方法普适于各种下游的VLU任务，不再需要为每一个任务设计一种不同的架构。但应该注意的是，虽然针对如上的VE、VQA和IC任务，本发明都是训练一个知识库原型矩阵，并在通过与原型矩阵的开卷相似度匹配完成推理，但在实现每一个任务时，仍然需要为不同的任务训练不同的知识库原型矩阵，而不是针对所有任务都使用同一个知识库原型矩阵。本发明的优势在于，在实现对于VL-PTM被视作下游的VLU任务时，不需要调整VL-PTM本身的文本编码器和图像编码器的参数，而仅调整其他参数，例如知识库原型矩阵，并且需要的训练数据量也是极小的，因此极大地提升了参数训练效率。

在步骤S510，构造VLU任务的训练数据，所述训练数据包括多个图像-文本对。在实际操作中，训练数据尤其可以从与具体VLU任务相对应的公开数据集获取，或是从互联网的开源资源处收集。为了构造本发明的知识库原型矩阵，需要在训练和推理时同时输入图像和文本(而不是仅输出图像或是仅输入文本)。因此，本发明尤其适用于在常规在训练和推理时同时输入图像和文本的VLU任务，例如如上所述的VQA和VE任务。然而，对于在训练和推理时仅输入图像或仅输入文本的VLU任务，例如如上所述的IC任务，只要能够额外构造缺失的文本或是图像(对于IC任务，基于类别标签构造分类文本描述)，仍然可以适用本发明。

在步骤S520，将VLU任务的训练数据送入VL-PTM以获取位于同一嵌入空间的多个图像嵌入向量和多个文本嵌入向量。参见图1所示，可以将图像文本对中的图像和文本分别送入CLIP的图像传感器和文本传感器，由此获取图像嵌入向量和文本嵌入向量。图像嵌入向量和文本嵌入向量位于同一嵌入空间，例如，都是维度为d的嵌入向量。由于训练数据中包含多个图像文本对，因此可以通过CLIP的图像传感器和文本传感器分别获得多个图像嵌入向量和多个文本嵌入向量。

在步骤S530，将属于同一个图像-文本对的图像嵌入向量和文本嵌入向量融合为一个融合特征。在此，可以通过某种操作，对同一个像-文本对的图像嵌入向量和文本嵌入向量进行融合，使得由此得到的融合特征中包括两个嵌入向量的特征。在一个简单的实施例中，可以级联两个嵌入向量；在另一个实施例中，可以级联两个嵌入向量、以及两个向量之和与之差；在一个实施例中，将属于同一个图像-文本对的图像嵌入向量和文本嵌入向量融合为一个融合特征包括级联如下至少两个向量：属于同一个图像-文本对的所述图像嵌入向量；属于同一个图像-文本对的所述文本嵌入向量；所述图像嵌入向量与所述文本嵌入向量之和；所述图像嵌入向量与所述文本嵌入向量之差；以及所述图像嵌入向量与所述文本嵌入向量的逐元素之积。

如果将v₁和v₂分别表示为输入视觉表示(即，图像)和文本表示，即，分别对应于经由图像编码器和文本编码器编码的图像嵌入向量和文本嵌入向量，则在一个优选实施例中，可以使用有效计算视觉和文本信息间交互的融合函数

来获得图像-文本对的统一表示：

其中

d是嵌入向量的维度，×是逐元素运算符。在上例中，融合函数/>

级联了5个长度为d的向量，这5个向量对应于图像嵌入向量、文本嵌入向量、两向量之和(对应位置元素相加)、两向量之差(对应位置元素相减)、逐元素之积(对应位置元素相成)。在其他实施例中，融合函数/>

也可以具有其他形式。

在训练过程中，可以获取每个图像-文本对的融合向量，即，求取每一个图像文本对的

随后，可以在步骤S540，基于每个图像-文本对的融合向量构造知识库原型矩阵。在此，知识库原型矩阵指的是作为知识库的原型矩阵。“知识库”指的是该原型矩阵中蕴含着该CLIP的编码知识以及训练数据的知识，并且可以在推理过程中作为知识库使用。“原型矩阵”指的是知识库采取矩阵形式，并且包括多个原型特征。

在一个实施例中，原型矩阵中包括多个原型特征，且原型特征的数量与具体VLP任务的类别数量相同(也与训练数据中标签的取值类型相同)。例如，在如上的VE任务中，由于回答只可能是“蕴涵”、“矛盾”或是“中性”，因此VE任务的原型矩阵包括3个原型特征，分别对应于蕴涵原型、矛盾原型和中性原型。在

的情况下，知识库原型矩阵就是一个3×5d的矩阵。此时，基于多个融合特征构造知识库原型矩阵包括：基于标签对所述多个融合特征进行分类；求取每个类别融合特征的平均融合特征；以及将每个平均融合特征作为对应类别的原型特征，以得到所述知识库原型矩阵。换句话说，可以通过求取当前标签下的每一个融合特征的平均而获取原型特征。在其他实施例中，也可以基于求平均之外的其他方式获取原型特征。

在获得的知识库原型矩阵之后，就可以直接将其用于推理。于是，在步骤S550，使用所述知识库原型矩阵进行相似度匹配，以获取所述视觉语言理解任务的推理结果。

在此，知识库原型矩阵也是一种相似性(affinity)矩阵，也可以称为亲和力矩阵。亲和是一种用于组织一组数据点之间的相互相似性的统计技术。相似度类似于距离，但不满足度量的属性，相同的两个点的相似度得分为1，而计算度量的结果为零。相似度匹配的典型例子是余弦相似度和Jaccard相似度。这些相似性度量可以解释为两个点相关的概率。例如，如果两个数据点的坐标接近，那么它们的余弦相似性得分(也称为各自的“亲和力”得分)将比两个数据点之间有很大空间的数据点更接近1。为此，在本发明中，在获取了针对某一个具体VLU任务的知识库原型矩阵之后，就可以通过待推理的图像文本的融合特征与原型特征的亲和力得分来完成推理。

为此，使用所述知识库原型矩阵进行相似度匹配以获取所述视觉语言理解任务的推理结果可以包括：在VLU任务的推理阶段，将图像和文本送入所述VL-PTM以获取待分类的图像嵌入向量和文本嵌入向量；将所述待分类的图像嵌入向量和文本嵌入向量融合成待分类的融合特征；将所述待分类的融合特征与所述知识库原型矩阵中每个类别的原型特征进行相似度匹配；以及选取与所述待分类的融合特征最匹配的原型特征对应的类别作为推理结果。

具体地，在推理阶段，同样可以将待推理的图像文本对送入CLIP的图像和文本编码器，由此获得图像嵌入向量和文本嵌入向量，并且使用与构造原型特征时相同的融合函数

来获取融合特征，作为待推理的融合特征。随后，可以将该待推理的融合特征与知识库原型矩阵中的各个原型特征进行相似度计算，并选取相似度得分最高的原型特征所对应的分类，作为推理结果。

为了加深对本发明原理的理解，如下将结合具体的VLU任务对本发明的处理方法进行说明。

在一个实施例中，能够实施本发明方法的VLU任务可以是如上所述的VE任务。在训练阶段，训练数据包括多个图像文本对以及对应的标签。例如，一组训练数据可以包括由图4右侧所示的图像(作为前提)以及文本“The men are fighting outside a deli.(男人们在熟食店外面打架)”(作为假设)组成的图像文本对，以及对应的标签(真实分类)“矛盾”。随后，图像被送入CLIP的图像传感器，得到嵌入向量v₁；文本被送入CLIP的文本传感器，得到嵌入向量v₂。应该理解的是，虽然v₁和v₂分别对应于图像嵌入向量和文本嵌入向量，以分别表示由图像和由文本获取的嵌入向量，但v₁和v₂是具有相同维度d并位于同一嵌入空间的向量。随后，可以将v₁和v₂进行融合得到

可以对该VE任务所构造的N组训练数据都进行如下的转换并得到N个

由于VE任务具有“蕴涵”、“矛盾”和“中性”三个分类，因此也可以根据这N个/>

各自所对应的标签将其分为三组，并求取每一组融合特征的平均，作为该分类的原型特征。由此，得到蕴涵原型特征、矛盾原型特征和中性原型特征。将三个原型进行组合，就可以得到针对该VE任务的知识库原型矩阵。

在推理阶段，可以利用该知识库原型矩阵进行开卷的相似度匹配。在此，“开卷”指代推理操作是基于已有原型矩阵所限定的范围内进行检索操作，而并非是在不确定范围的“闭卷”操作。在VE任务的推理阶段，需要判定输入的文本(作为假设)针对输入图像(作为前提)是“蕴涵”、“矛盾”还是“中性”。由于作为知识库的原型矩阵的存在，使得此时只需要将输入的图像文本对转换为融合特征，并将该待推理的融合特征与原型矩阵中的三个原型特征进行相似度匹配计算(例如，计算余弦相似度)，并从中选出最为相似的原型特征，例如，与中性原型特征的相似度得分最高，就可以获取推理结果“中性”。换句话说，原型矩阵的存在将推理过程转换成了融合特征和原型特征的相似度匹配过程。

类似地，在一个实施例中，能够实施本发明的处理方法的VLU任务可以是如上所述的VQA任务。在所述训练数据中，多个图像文本对中的文本对应于针对图像提出的非开放性问题，标签对应于非开放性问题的回答选项。例如，在一个实施例中，本发明适用于VQA任务中的二元分类任务，此时，标签仅包括是和否两类，构造的知识库原型矩阵也仅包括是原型和否原型两个特征。在进行推理时，也只能回答二元分类问题。

在一个实施例中，本发明适用于VQA任务中的计数问题(但此时计数的范围需要被限定)，此时，标签的类别与计数范围相同，例如，标签包括1～5，则构造的知识库原型矩阵也仅包括1原型～5原型五个特征。在进行推理时，也只能回答计数范围内的问题。

在一个更为特殊的实施例中，能够实施本发明的处理方法的VLU任务可以是如上所述的IC任务，即，图像分类任务。如上所述，在常规的图像分类任务中，训练数据和推理数据都不包括文本描述。但通过基于类别的描述文本构造，仍然可以针对IC任务构造知识库原型矩阵，并进行基于相似度匹配的推理。此时，在IC任务的训练阶段，一组训练数据可以包括原有的图像和标签，以及基于标签对应分类构造的文本描述。例如，例如，一组训练数据可以包括一幅图像，标签“狗”，以及根据标签对应分类构造的文本描述“狗的照片”。随后，图像被送入CLIP的图像传感器，得到嵌入向量v₁；文本描述“狗的照片”被送入CLIP的文本传感器，得到嵌入向量v₂。随后，可以将v₁和v₂进行融合得到

可以对该IC任务所构造的N组训练数据都进行如下的转换并得到N个

并根据IC任务的分类数C，根据这N个/>

各自所对应的标签将其分为C组，并求取每一组融合特征的平均，作为该分类的原型特征，并由此得到针对该IC任务的知识库原型矩阵。在IC任务的推理阶段，由于同样缺乏默认的文本输入，因此可以计算待分类图像与每个类别文本描述的待分类融合特征，将每个待分类融合特征与其对应原型特征进行相似度匹配，并且选取匹配度最高的类别作为推理结果。

例如，在一个图像分类任务中，包括猫、狗、车、树4个分类。因此可以在训练阶段，获取一个包括4个原型特征的知识库原型矩阵。而在推理阶段，可以将待分类图像分别与文本描述“猫的照片”、“狗的照片”、“车的照片”和“树的照片”进行融合，得到四个融合特征。将与文本描述“猫的照片”融合得到的融合特征与猫原型特征进行相似度匹配，将与文本描述“猫的照片”融合得到的融合特征与猫原型特征进行相似度匹配，将与文本描述“狗的照片”融合得到的融合特征与狗原型特征进行相似度匹配，将与文本描述“车的照片”融合得到的融合特征与车原型特征进行相似度匹配，将与文本描述“树的照片”融合得到的融合特征与树原型特征进行相似度匹配。比较这四次相似度匹配的得分，选取相似度得分最高的分类作为该图像的分类。

应该理解的是，本发明通过构建知识库原型矩阵和相似度匹配，使得在VLU任务的训练阶段和推理阶段，VL-PTM的图像编码器和文本编码器的参数都可以保持不变。

具体地，在训练阶段，可以基于表征预测分类与真实标签的差异的第一损失函数(例如，交叉熵损失函数L_CE)进行参数更新。在优选实施例中，针对训练数据有限的情况下，可以基于图像-文本对与其所属类别的相似度应该比其他类别更高这一隐式排序信息来指导模型通过对比学习识别正确的分类类别。此时，在训练阶段，可以将图像文本对所属类别的概率视为正样本，将其余类别的概率视为负样本，构造用于对比学习的第二损失函数(例如，对比文件损失函数L_CL)；并基于第一损失函数和第二函数两者进行参数更新。

如上提出了根据本发明的VLU任务处理方法，本发明的处理方法通过视觉-文本融合特征构建知识库原型矩阵，以记录各个类的显着特征。接下来，在图像-文本对和每个类的原型之间进行开卷的相似性匹配。

具体地，在原型矩阵构建阶段，基于CLIP，可以发现所有的VE、VQA和IC任务都需要文本和视觉内容作为输入。对于IC，输入文本可以是额外制作的描述图像类别的提示。给定一组N个图像-文本对的实例：

其中l_i表示真实标签，txt_i表示图像img_i对应的文本描述(在此，txt_i对应于VE中的假设；对应于VQA中的问题；或是对应于IC中类别的文本描述)。使用CLIP的视觉编码器/>

(也称为图像编码器)和文本编码器/>

对图像文本实例进行编码，并应用/>

来获得融合特征。接下来，通过根据真实标签对融合特征进行平均来构造知识库原型矩阵，即W_P：

W_P＝[M₁，…，M_C](W_P∈R^C×5d)

其中C表示类数，M_c表示第c类的原型，c∈1…C，I(·)表示指示函数，[·]表示级联操作。

在开卷匹配阶段，针对VE和VQA以及IC任务进行不同的操作。

具体地，给定VE或VQA的图像-文本对，在其融合特征与每个类的原型之间进行相似性匹配。类别概率分布P_i的计算公式为：

而在原始IC任务中，只有图像而没有相应的文本描述。为了解决这个问题，为所有类别构造文本描述(提示)。给定一张图像img_i和所有图像类别的文本描述{t_c|c＝1…C}，img_i对于第c个图像类别的预测概率(表示为P_i,c)如下：

因此，整个概率分布P_i为：P_i＝[P_i,c|c＝1···C]。

在训练中，CLIP的视觉和文本编码器的所有参数被冻结以确保参数效率，其他参数可调(包括W_P)。在一个实施例中，使用给定P_i的交叉熵(CE)损失训练模型，其中逐样本(sample-wise)的CE损失定义如下：

其中l_i,c表示关于第c类的真实标签。在此，逐样本的CE损失指的是单个样本的损失函数，整体损失函数需要将所有样本的损失相加。

然而，为了进一步提升性能，可以在低资源任务中引入CE监督信号之外的其他监督信号。鉴于实例与真实类别的相似性应该排在比其他类别更高的位置，可以使用这种隐式排序信息来指导模型通过对比学习来识别实例的真实类别。为此，在一个优选实施例中，将真实类别的相似性(即，原型匹配概率，表示为P_i,l)定义为正样本，将P_i中的其他相似性定义为负样本。于是，逐样本的对比学习(CL)损失计算如下：

此时，本发明VLU任务训练的总损失函数，即L，可被定义为：L＝L_CE+L_CL。类似地，在此，逐样本的L损失指的是单个样本的损失函数，整体损失函数需要将所有样本的损失相加。

在实际应用中，本发明可以实现为一种VLU任务处理系统。图6示出了根据本发明一个实施例的视觉语言理解任务处理系统的组成示意图。如图所示，VLU任务处理系统600可以用于实现如上所述的视觉语言理解任务处理方法，并且可以包括训练设备610和推理设备620。训练设备610用于获取针对特定视觉语言理解任务的知识库原型矩阵，推理设备620则用于基于所述知识库原型矩阵执行所述特定视觉语言理解任务的推理。具体地，在需要执行特定VLU任务时，训练设备610可以构造小样本训练数据，并利用CLIP生成针对该特定任务的知识库原型矩阵。应该理解的是，训练设备610可以为各种不同类型的VLU任务，相同类型但对应不同数据集的VLU任务训练不同的知识库原型矩阵。构造好的知识库原型矩阵于是可以被提供给推理设备620，用于后者基于融合特征和原型特征的相似度匹配进行的推理。

在实际操作中，VLU任务处理系统可以应用于各种场景，例如对图像进行分类，以确定其是否符合发布标准等。

另外，虽然如上主要使用CLIP描述了本发明基于VL-PTM的处理，但是本领域技术人员应该理解的是，也可以使用CLIP之外的其他VL-PTM进行本发明的VLU任务训练和推理操作，只要该预训练模块能够输出用于融合的图像和文本嵌入向量即可。

参见图7，计算设备700包括存储器710和处理器720。

处理器720可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器720可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器720可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器710可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器720或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器710可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器710可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器710上存储有可执行代码，当可执行代码被处理器720处理时，可以使处理器720执行上文述及的VLU任务处理方法。

上文中已经参考附图详细描述了根据本发明的VLU任务处理方法。

本发明首先提出了一种针对预训练视觉-文本模型在低资源视觉-文本理解任务的高效参数微调方法。通过将VLU任务统一形式化为基于知识库原型矩阵的相似性匹配问题，大大减少方法微调的参数规模，此外通过对比学习利用真实标签的隐式排序信息为模型训练提供更多监督信号从而增强模型性能。实验结果表明，本发明的方案在小样本图像分类任务以及各类VE任务及VQA任务都取得了比现有技术更好的性能。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种视觉语言理解任务处理方法，所述方法基于视觉语言预训练模型VL-PTM进行操作，并且包括：

构造所述视觉语言理解任务的训练数据，所述训练数据包括多个图像-文本对；

将所述视觉语言理解任务的训练数据送入所述VL-PTM以获取位于同一嵌入空间的多个图像嵌入向量和多个文本嵌入向量；

将属于同一个图像-文本对的图像嵌入向量和文本嵌入向量融合为一个融合特征；

基于多个融合特征构造知识库原型矩阵；以及

使用所述知识库原型矩阵进行相似度匹配以获取所述视觉语言理解任务的推理结果。

2.如权利要求1所述的方法，其中，所述训练数据还包括与每个图像-文本对相对应的标签，并且基于多个融合特征构造知识库原型矩阵包括：

基于标签对所述多个融合特征进行分类；

求取每个类别融合特征的平均融合特征；以及

将每个平均融合特征作为对应类别的原型特征，以得到所述知识库原型矩阵。

3.如权利要求1所述的方法，其中，使用所述知识库原型矩阵进行相似度匹配以获取所述视觉语言理解任务的推理结果包括：

在推理阶段，将图像和文本送入所述VL-PTM以获取待分类的图像嵌入向量和文本嵌入向量；

将所述待分类的图像嵌入向量和文本嵌入向量融合成待分类的融合特征；

将所述待分类的融合特征与所述知识库原型矩阵中每个类别的原型特征进行相似度匹配；以及

选取与所述待分类的融合特征最匹配的原型特征对应的类别作为推理结果。

4.如权利要求1所述的方法，其中，将属于同一个图像-文本对的图像嵌入向量和文本嵌入向量融合为一个融合特征包括级联如下至少两个向量：

属于同一个图像-文本对的所述图像嵌入向量；

属于同一个图像-文本对的所述文本嵌入向量；

所述图像嵌入向量与所述文本嵌入向量之和；

所述图像嵌入向量与所述文本嵌入向量之差；以及

所述图像嵌入向量与所述文本嵌入向量的逐元素之积。

5.如权利要求1所述的方法，其中，所述视觉语言理解任务包括如下之一：

视觉问答任务，其中，在所述训练数据中，多个图像文本对中的文本对应于针对图像提出的非开放性问题，标签对应于非开放性问题的回答选项；以及

视觉蕴涵任务，其中，在所述训练数据中，所述多个图像文本对中的文本对应于针对图像提出的假设，标签对应于蕴涵、矛盾或中性。

6.如权利要求1所述的方法，其中，所述视觉语言理解任务是图像分类任务，

在所述图像分类任务的训练阶段，所述多个图像文本对中的文本对应于类别的文本描述；

在所述图像分类任务的推理阶段，计算待分类图像与每个类别文本描述的待分类融合特征，将每个待分类融合特征与其对应原型特征进行相似度匹配，并且选取匹配度最高的类别作为推理结果。

7.如权利要求1所述的方法，包括：

在所述视觉语言理解任务的训练阶段，基于表征预测分类与真实标签的差异的第一损失函数进行参数更新。

8.如权利要求7所述的方法，还包括：

在所述视觉语言理解任务的训练阶段，将图像文本对所属类别的概率视为正样本，将其余类别的概率视为负样本，构造用于对比学习的第二损失函数；

基于所述第一损失函数和所述第二函数进行参数更新。

9.如权利要求1所述的方法，其中，在所述视觉语言理解任务的训练阶段和推理阶段，所述VL-PTM的图像编码器和文本编码器的参数保持不变。

10.一种视觉语言理解任务处理系统，用于执行如权利要求1至9中任何一项所述的视觉语言理解任务处理方法，并且包括：

训练设备，用于获取针对特定视觉语言理解任务的知识库原型矩阵；以及

推理设备，用于基于所述知识库原型矩阵执行所述特定视觉语言理解任务的推理。

11.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至9中任何一项所述的方法。

12.一种计算机程序产品，包括可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至9中任何一项所述的方法。

13.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至9中任何一项所述的方法。