CN115311389A

CN115311389A - 一种基于预训练模型的多模态视觉提示技术表示学习方法

Info

Publication number: CN115311389A
Application number: CN202210937416.0A
Authority: CN
Inventors: 高岭; 曹瑞; 陈沐梓; 郑杰
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2022-11-08

Abstract

一种基于预训练模型的多模态视觉提示技术表示学习方法，在视觉模型的文本编码器编码对标签文本进行一遍提示后，再利用已经提示过的文本，给图像生成整个提示蒙版，覆盖在整个图像上，以获得更好的提示效果，其次对于模型预训练和微调的客观形式间的巨大差距所导致的需要大量标记数据去刺激模型在下游任务中的视觉接地能力，本发明将视觉接地重新表述为一个填空问题，在图像和文本中使用基于像素的共同参考标记，最大限度的缓解了这种差距。

Description

一种基于预训练模型的多模态视觉提示技术表示学习方法

技术领域

本发明属于视觉提示领域，具体涉及到一种基于预训练模型的多模态视觉提示技术表示学习方法，基于提示的确定图像方法。

背景技术

对于文本领域的自然语言处理，通过预训练语言模型的预训练以及微调将预训练语言模型应用到了下游任务中，对预训练语言模型进行调整以满足下游任务的特定需求。但随着逐渐增大的模型体，在微调阶段的成本代价也在不断加大，面对下游任务的多样性，调整不同的下游任务也会随之变得更加复杂，因此研究人员针对此情况提出了更加方便的，具有更强泛化能力的方法，即产生了提示技术prompt，即能够帮助预训练模型“回忆”起自己在预训练时“学习”到的东西。

具体为对于输入的文本数据x，有映射函数f_prompt(x)，将x转化成prompt的形式x＇，即:

x＇＝f_prompt(x)

该映射函数一般会进行两个步骤进行操作:

1、选择一个模板，该模板一般为一段自然语言，其中包含了两个空位置：一个是用于填输入数据x的位置[X],和另一个用于生成文本答案的z的位置[Z]。

2、将输入数据x填到指定[X]的位置。

提示技术先在文本领域大放异彩，视觉领域受此启发，探索视觉领域的提示，而模型预训练和微调的客观形式之间存在巨大的差距，导致需要大量的标记数据去刺激视觉领域预训练模型在下游任务中的视觉接地能力。微调以及线性探测是视觉领域标准的适应方法，微调是固定模型的其余层，只留一层进行调参，涉及整个层的参数对模型进行访问；线性探测是在输出时对模型进行访问，通常是激活模型的倒数第二层。对比利用像素的方式构建提示，视觉提示是把输入适用于整个模型，模型在获得视觉提示后，在测试阶段不需要访问模型，即用户控制整个模型的输入空间，进一步向人工智能靠近。

博弈算法GAN分为两个模块，生成器和判别器。生成器去负责生成逼真合理的样本数据，数据生成后被送入判别器中，由判别器判断此数据是原始标记数据还是由生成器产生的，模型原理就是在整个训练过程中，生成器去生成出很逼真合理的样本使得判别器出错，失去判别能力，相对来说判别器是提高自己的判别能力，使能够成功辨别数据。利用文本描述图像信息去生成相对应的图像，从其字面大致意思上看就是很复杂多样的，比如当文本中的一个具体描述性的词语变化就会导致所生成的相对应图像有大量的像素点信息发生变化，举例:当描述信息砖红色变为深红色，改变的像素信息之间的关联是人肉眼难以辨查到的，相反由图像生成文本的问题就不会有如此严重的问题，因为文本是通过语言模型进行建模的，而由文本生成图像的问题，是能够通过GAN解决的。

发明内容

为了克服上述现有技术的不足，本发明的目的是提出一种基于预训练模型的多模态视觉提示技术表示学习方法，与传统的视觉提示方法不同，本发明提出的提示技术，是会在视觉模型的文本编码器编码对标签文本进行一遍提示后，再利用已经提示过的文本，给图像生成整个提示蒙版，覆盖在整个图像上，以获得更好的提示效果，其次对于模型预训练和微调的客观形式间的巨大差距所导致的需要大量标记数据去刺激模型在下游任务中的视觉接地能力，本发明将视觉接地重新表述为一个填空问题，在图像和文本中使用基于像素的共同参考标记，最大限度的缓解了这种差距。

为了实现上述目的，本发明采用的技术方案是：

一种基于预训练模型的多模态视觉提示技术表示学习方法，其特征在于,包括一下步骤:

步骤1、设视觉语言模型采用由文本生成提示加入到图像的CLIP，模型利用不同的编码器分别处理文本以及图像数据，CLIP模型拥有文本编码器以及图像编码器，文本编码器采用Bert,图像编码器采用vision transformer(vit)，将文本和图像分别送入编码器中，通过线性映射到多模态嵌入向量空间，构建文本图像行列矩阵，计算文本以及图像间的相似度，相似度越高，即匹配程度越高，反之越低，因此需取得相似度最高的文本图像对，即取对角线元素，通过将公共文化云数据送入CLIP模型中，对预训练的文本和图像编码器进行微调，损失函数为最大化相似度矩阵对角线构造出的交叉熵损失，通过微调操作使得加载了预训练模型的两个编码器更专注于公共文化数据；

夹角余弦被用来衡量两个向量方向上的差异，在机器学习中其也可以被用来衡量两个样本间的差异，因此在二维空间中衡量文本向量A和图像向量B的相似度就采用夹角余弦公式为:

步骤2、对文本标签数据进行提示处理，将CLIP中文本编码器Bert中的文本标签数据转换为嵌入向量，加入人工设计的与公共文化云相关的文本提示向量，即使用提示技术先训练带有标签的文本:将文本数据利用数据切割，加入人工给定的标签，整合为相等长度的文本向量，将手动指定的静态提示加入到文本句向量的指定位置，利用提示去预测被遮蔽掉的文本信息，其类似于阅读理解中的完形填空，虽然给予静态提示手动搜索最佳文本提示是非常费力的，但视觉领域的提示可以补偿低质量的文本提示；

即有n个物体x₁,x₂…x_n,通过提示模板“a photo of a{object}”提示后，送入编码器；

步骤3、利用GAN生成对抗网络，利用文本描述的图像信息生成图像提示蒙版，使用的文本是已经提示一遍的文本，再去生成提示，用于提示图像，提示为视觉领域的像素提示，作为图像蒙版，覆盖整张图像作为提示，与不加图像蒙版的原始图像进行对比。

进一步，在训练阶段，对于一个一次训练所抓取的数据样本，首先通过文本编码器和图像编码器，得到所有文本和图像的特征，分别计算内积，得到一个矩阵，站在图像的角度上去观测，行方向视为一个文本分类器，相对在文本角度去看，列方向视为一个图像分类器，预先知道一次训练所抓取的数据样本中的图像跟文本的匹配关系，对于同一对匹配成功的图像和文本，最大化其特征内积就是目标函数，也就是特征矩阵上对角线的元素，相对去最小化不相关的特征内积，通过对预训练的文本和图像编码器进行微调，使得加载了预训练模型的两个编码器更专注于公共文化数据；将标签文本数据送入已经创建好的提示模板进行预训练，得到已经提示一遍过的文本数据，再将此文本数据送入GAN的生成器，使文本转换为图像，覆盖在原始图像上，得到提示图像重新进行CLIP操作，将一条提示文本相关数据与提示图像数据进行配对，形成一个文本图像对，然后将此文本图像对反复进行几次，形成一次训练所抓取的数据样本数量，将其送入CLIP模型，训练数据就是提示图像文本对；与第一次不同的是，第二次将冻结已经训练好的文本、图像两个编码器，仅仅更新GAN的参数；最后，在测试的一次学习场景中，新图像将与GAN生成的图像提示相叠加，并利用最大化对角线矩阵的方式找出新图像所属的类别；

GAN生成对抗网络模型有两个模块:生成器G和判别器D；生成器去负责生成逼真合理的样本数据，数据生成后被送入判别器中，判别器去判断此数据是原始标记数据还是由生成器产生的，模型原理是在整个训练过程中，生成器去生成出很逼真合理的样本使得判别器出错，从而失去判别能力，相对来说判别器则是需要提高自己的判别能力，使能够成功辨别数据；

模块D和G在V(D,G)上进行以下博弈

注:

一堆x，是从p_data中举例出来的，即就是它们为真正的图像，将真正的图像送入生成器，得到一个分数再去对数；

一堆y,是p_g从生成器中所产生出来的，将这些图片送到判别器中，得到一个分数，再取对数；

最小化博弈GAN会存在有一个全局最优情况，即当p_g＝p_data时，并且在生成器和判别器拥有足够容量时，p_g会收敛到p_data；

为了学习获得文本描述信息数据中的有效视觉描述信息，采用递归文本编码器和深度卷积去学习其相对应的图像映射函数，采用优化结构化损失去训练学习所对应的对应函数f_t指导的文本分类器；

其中v_n是图像，t_n是相应的文本描述，{(x_n,t_n,y_n):n＝1,…,N}是训练数据集，Δ是0-1损失，y_n是类标签；分类器f_v和f_t的参数如下：

其中τ(y)是y类的文本描述集，ψ是文本编码器(例如，字符级CNN或LSTM)，φ是图像编码器(例如，深度卷积神经网络)，同样，υ(y)是图像的描述集。

进一步，数据在送入模型之前，对数据集中的数据进行数据增强的预处理操作；对于文本数据的英文文本，针对词语间存在的同义不同形进行去复数，去名词，转形式等一系列操作将单词转换为原来的相貌；对于中文文本，需要使用第三方工具对文本进行分词。

进一步，将手动指定的静态提示加入到文本句向量的指定位置一般为句首或者句尾。

本发明的有益效果是：

与现有视觉提示方法相比，采用本发明所述的方法，可以更好地实现视觉提示效果，并且不需要大量的标记数据去刺激预训练模型在下游任务中的视觉接地能力，并且与视觉领域中的标准下游任务适应方法，即引入一个单独的特定任务的头，去适应模型参数激活。本发明只需要通过修改输入空间去适应预训练的模型，使用基于梯度的学习方案去学习一个单一的、与输入无关的扰动(即视觉提示)，可以用来提高任务的性能；通过改变视觉提示就可以使模型去执行不同的任务，其在公共文化云中，表现效果明显，可以更好地应用于下游分类法任务中，对于公共文化云中涉及的图像标签分类等，利用本发明可以有更好的表现。同时，本发明创新性的提出了使用文字描述信息生成图像提示蒙版加在图像上，再送入CLIP模型，即视觉信息经过了两次提示，对比未使用蒙版的图像，其效果提升明显。

附图说明

图1为本发明的CLIP网络核心图，其中a为预训练-微调阶段图，b为二次训练阶段图；

图2为本发明的GAN网络核心图。

图3为本发明的处理流程图。

具体实施方式

以下结合附图及实施例对本发明进一步叙述。

如图1、2、3所示，一种基于预训练模型的多模态视觉提示技术表示学习方法，其特征在于,包括一下步骤:

模块D和G在V(D,G)上进行以下博弈

注:

实施例

利用CLIP模型进行预训练的同时，在一次学习场景下将标签构造的文本利用生成对抗网络生成图像提示。首先，准备好公共文化云数据集后将数据送入CLIP模型中对预训练的文本和图像编码器进行微调，损失函数为最大化相似度矩阵对角线构造出的交叉熵损失，通过微调操作使加载了预训练模型的两个编码器更专注于公共文化数据。其次，在一次学习场景中，设计与公共文化云相关的文本提示结构，将标签与提示模板组合构造文本提示语句并通过微调好的文本编码器生成文本提示特征。同时，将构造的文本提示语句通过随机初始化的GAN网络生成图像提示，并将图像提示叠加到真实的训练图像上并通过微调的图像编码器生成图像特征。随后，第二次将图像特征与文本特征对应相乘构造相似度矩阵，损失函数为最大化相似度矩阵对角线构造出的交叉熵损失，与第一次不同的是，第二次将冻结已经训练好的文本、图像两个编码器，仅仅更新GAN的参数。最后，在测试的一次学习场景中，新图像将与GAN生成的图像提示相叠加，并利用最大化对角线矩阵的方式找出新图像所属的类别。为了实现在视觉领域的提示，本发明使用视觉模型CLIP，使用python语言，开发工具为VSCode。

数据集:采用多个数据集分别衡量分布内和分布外的性能，模型在训练集上学习视觉提示，在测试集上评估其表现，对于分布内的性能，我们在鸟类图像的CUB数据集和花卉图像的Oxford-102数据集上进行测试。

实验环境如下：

·CPU：AMD Ryzen 93900X 12-Core Processor 3.80GHz

·内存：32BG

·硬盘：2TB

·操作系统：Windows 10(64位)

网络结构:

生成器网络表示为G:R^Z×R^T→R^D

判别器网络表示为D:R^D×R^T→{0,1}

其中T是文本描述嵌入的维度，D是图像的维度，Z是G的噪声输入维度。

在生成器G中，首先我们从噪声先验z∈R^Z～ω(0,1),取样，然后我们用文本编码器j对文本查询t进行编码。描述嵌入j(t)首先被压缩，使用一个完全一致的编码系统。

基准方法:我们将视觉提示与文本提示(即"零样本"CLIP)和线性探测进行比较。对于文字提示的CLIP，我们使用提示"这是一张[LABEL]的照片"作为默认。

Claims

1.一种基于预训练模型的多模态视觉提示技术表示学习方法，其特征在于,包括一下步骤:

步骤1、设视觉语言模型采用由文本生成提示加入到图像的CLIP，模型利用不同的编码器分别处理文本以及图像数据，将文本和图像分别送入编码器中，通过线性映射到多模态嵌入向量空间，构建文本图像行列矩阵，计算文本以及图像间的相似度，相似度越高，即匹配程度越高，反之越低，因此需取得相似度最高的文本图像对，即取对角线元素，通过将公共文化云数据送入CLIP模型中，对预训练的文本和图像编码器进行微调，损失函数为最大化相似度矩阵对角线构造出的交叉熵损失；

步骤4、在训练阶段，对于一个一次训练所抓取的数据样本，首先通过文本编码器和图像编码器，得到所有文本和图像的特征，分别计算内积，得到一个矩阵，站在图像的角度上去观测，行方向视为一个文本分类器，相对在文本角度去看，列方向视为一个图像分类器，预先知道一次训练所抓取的数据样本中的图像跟文本的匹配关系，对于同一对匹配成功的图像和文本，最大化其特征内积就是目标函数，也就是特征矩阵上对角线的元素，相对去最小化不相关的特征内积，通过对预训练的文本和图像编码器进行微调，使得加载了预训练模型的两个编码器更专注于公共文化数据；将标签文本数据送入已经创建好的提示模板进行预训练，得到已经提示一遍过的文本数据，再将此文本数据送入GAN的生成器，使文本转换为图像，覆盖在原始图像上，得到提示图像重新进行CLIP操作，将一条提示文本相关数据与提示图像数据进行配对，形成一个文本图像对，然后将此文本图像对反复进行几次，形成一次训练所抓取的数据样本数量，将其送入CLIP模型，训练数据就是提示图像文本对；与第一次不同的是，第二次将冻结已经训练好的文本、图像两个编码器，仅仅更新GAN的参数；最后，在测试的一次学习场景中，新图像将与GAN生成的图像提示相叠加，并利用最大化对角线矩阵的方式找出新图像所属的类别。

2.根据权利要求1所述的一种基于预训练模型的多模态视觉提示技术表示学习方法，其特征在于,数据在送入模型之前，对数据集中的数据进行数据增强的预处理操作；对于文本数据的英文文本，针对词语间存在的同义不同形进行去复数，去名词，转形式等一系列操作将单词转换为原来的相貌；对于中文文本，需要使用第三方工具对文本进行分词。

3.根据权利要求1所述的一种基于预训练模型的多模态视觉提示技术表示学习方法，其特征在于,将手动指定的静态提示加入到文本句向量的指定位置一般为句首或者句尾。

4.根据权利要求1所述的一种基于预训练模型的多模态视觉提示技术表示学习方法，其特征在于,文本编码器为字符级CNN或LSTM，图像编码器深度卷积神经网络。

5.根据权利要求1所述的一种基于预训练模型的多模态视觉提示技术表示学习方法，其特征在于,CLIP模型拥有文本编码器以及图像编码器，文本编码器采用Bert,图像编码器采用vision transformer(vit)。

6.根据权利要求1所述的一种基于预训练模型的多模态视觉提示技术表示学习方法，其特征在于,GAN生成对抗网络模型有两个模块:生成器G和判别器D；生成器去负责生成逼真合理的样本数据，数据生成后被送入判别器中，判别器去判断此数据是原始标记数据还是由生成器产生的，模型原理是在整个训练过程中，生成器去生成出很逼真合理的样本使得判别器出错，从而失去判别能力，相对来说判别器则是需要提高自己的判别能力，使能够成功辨别数据；

模块D和G在V(D,G)上进行以下博弈：

注:

其中τ(y)是y类的文本描述集，ψ是文本编码器，φ是图像编码器，同样，υ(y)是图像的描述集。