CN115311389A - 一种基于预训练模型的多模态视觉提示技术表示学习方法 - Google Patents

一种基于预训练模型的多模态视觉提示技术表示学习方法 Download PDF

Info

Publication number
CN115311389A
CN115311389A CN202210937416.0A CN202210937416A CN115311389A CN 115311389 A CN115311389 A CN 115311389A CN 202210937416 A CN202210937416 A CN 202210937416A CN 115311389 A CN115311389 A CN 115311389A
Authority
CN
China
Prior art keywords
text
image
data
prompt
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210937416.0A
Other languages
English (en)
Inventor
高岭
曹瑞
陈沐梓
郑杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest University
Original Assignee
Northwest University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University filed Critical Northwest University
Priority to CN202210937416.0A priority Critical patent/CN115311389A/zh
Publication of CN115311389A publication Critical patent/CN115311389A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

一种基于预训练模型的多模态视觉提示技术表示学习方法,在视觉模型的文本编码器编码对标签文本进行一遍提示后,再利用已经提示过的文本,给图像生成整个提示蒙版,覆盖在整个图像上,以获得更好的提示效果,其次对于模型预训练和微调的客观形式间的巨大差距所导致的需要大量标记数据去刺激模型在下游任务中的视觉接地能力,本发明将视觉接地重新表述为一个填空问题,在图像和文本中使用基于像素的共同参考标记,最大限度的缓解了这种差距。

Description

一种基于预训练模型的多模态视觉提示技术表示学习方法
技术领域
本发明属于视觉提示领域,具体涉及到一种基于预训练模型的多模态视觉提示技术表示学习方法,基于提示的确定图像方法。
背景技术
对于文本领域的自然语言处理,通过预训练语言模型的预训练以及微调将预训练语言模型应用到了下游任务中,对预训练语言模型进行调整以满足下游任务的特定需求。但随着逐渐增大的模型体,在微调阶段的成本代价也在不断加大,面对下游任务的多样性,调整不同的下游任务也会随之变得更加复杂,因此研究人员针对此情况提出了更加方便的,具有更强泛化能力的方法,即产生了提示技术prompt,即能够帮助预训练模型“回忆”起自己在预训练时“学习”到的东西。
具体为对于输入的文本数据x,有映射函数fprompt(x),将x转化成prompt的形式x',即:
x'=fprompt(x)
该映射函数一般会进行两个步骤进行操作:
1、选择一个模板,该模板一般为一段自然语言,其中包含了两个空位置:一个是用于填输入数据x的位置[X],和另一个用于生成文本答案的z的位置[Z]。
2、将输入数据x填到指定[X]的位置。
提示技术先在文本领域大放异彩,视觉领域受此启发,探索视觉领域的提示,而模型预训练和微调的客观形式之间存在巨大的差距,导致需要大量的标记数据去刺激视觉领域预训练模型在下游任务中的视觉接地能力。微调以及线性探测是视觉领域标准的适应方法,微调是固定模型的其余层,只留一层进行调参,涉及整个层的参数对模型进行访问;线性探测是在输出时对模型进行访问,通常是激活模型的倒数第二层。对比利用像素的方式构建提示,视觉提示是把输入适用于整个模型,模型在获得视觉提示后,在测试阶段不需要访问模型,即用户控制整个模型的输入空间,进一步向人工智能靠近。
博弈算法GAN分为两个模块,生成器和判别器。生成器去负责生成逼真合理的样本数据,数据生成后被送入判别器中,由判别器判断此数据是原始标记数据还是由生成器产生的,模型原理就是在整个训练过程中,生成器去生成出很逼真合理的样本使得判别器出错,失去判别能力,相对来说判别器是提高自己的判别能力,使能够成功辨别数据。利用文本描述图像信息去生成相对应的图像,从其字面大致意思上看就是很复杂多样的,比如当文本中的一个具体描述性的词语变化就会导致所生成的相对应图像有大量的像素点信息发生变化,举例:当描述信息砖红色变为深红色,改变的像素信息之间的关联是人肉眼难以辨查到的,相反由图像生成文本的问题就不会有如此严重的问题,因为文本是通过语言模型进行建模的,而由文本生成图像的问题,是能够通过GAN解决的。
发明内容
为了克服上述现有技术的不足,本发明的目的是提出一种基于预训练模型的多模态视觉提示技术表示学习方法,与传统的视觉提示方法不同,本发明提出的提示技术,是会在视觉模型的文本编码器编码对标签文本进行一遍提示后,再利用已经提示过的文本,给图像生成整个提示蒙版,覆盖在整个图像上,以获得更好的提示效果,其次对于模型预训练和微调的客观形式间的巨大差距所导致的需要大量标记数据去刺激模型在下游任务中的视觉接地能力,本发明将视觉接地重新表述为一个填空问题,在图像和文本中使用基于像素的共同参考标记,最大限度的缓解了这种差距。
为了实现上述目的,本发明采用的技术方案是:
一种基于预训练模型的多模态视觉提示技术表示学习方法,其特征在于,包括一下步骤:
步骤1、设视觉语言模型采用由文本生成提示加入到图像的CLIP,模型利用不同的编码器分别处理文本以及图像数据,CLIP模型拥有文本编码器以及图像编码器,文本编码器采用Bert,图像编码器采用vision transformer(vit),将文本和图像分别送入编码器中,通过线性映射到多模态嵌入向量空间,构建文本图像行列矩阵,计算文本以及图像间的相似度,相似度越高,即匹配程度越高,反之越低,因此需取得相似度最高的文本图像对,即取对角线元素,通过将公共文化云数据送入CLIP模型中,对预训练的文本和图像编码器进行微调,损失函数为最大化相似度矩阵对角线构造出的交叉熵损失,通过微调操作使得加载了预训练模型的两个编码器更专注于公共文化数据;
夹角余弦被用来衡量两个向量方向上的差异,在机器学习中其也可以被用来衡量两个样本间的差异,因此在二维空间中衡量文本向量A和图像向量B的相似度就采用夹角余弦公式为:
Figure BDA0003784141290000041
步骤2、对文本标签数据进行提示处理,将CLIP中文本编码器Bert中的文本标签数据转换为嵌入向量,加入人工设计的与公共文化云相关的文本提示向量,即使用提示技术先训练带有标签的文本:将文本数据利用数据切割,加入人工给定的标签,整合为相等长度的文本向量,将手动指定的静态提示加入到文本句向量的指定位置,利用提示去预测被遮蔽掉的文本信息,其类似于阅读理解中的完形填空,虽然给予静态提示手动搜索最佳文本提示是非常费力的,但视觉领域的提示可以补偿低质量的文本提示;
即有n个物体x1,x2…xn,通过提示模板“a photo of a{object}”提示后,送入编码器;
步骤3、利用GAN生成对抗网络,利用文本描述的图像信息生成图像提示蒙版,使用的文本是已经提示一遍的文本,再去生成提示,用于提示图像,提示为视觉领域的像素提示,作为图像蒙版,覆盖整张图像作为提示,与不加图像蒙版的原始图像进行对比。
进一步,在训练阶段,对于一个一次训练所抓取的数据样本,首先通过文本编码器和图像编码器,得到所有文本和图像的特征,分别计算内积,得到一个矩阵,站在图像的角度上去观测,行方向视为一个文本分类器,相对在文本角度去看,列方向视为一个图像分类器,预先知道一次训练所抓取的数据样本中的图像跟文本的匹配关系,对于同一对匹配成功的图像和文本,最大化其特征内积就是目标函数,也就是特征矩阵上对角线的元素,相对去最小化不相关的特征内积,通过对预训练的文本和图像编码器进行微调,使得加载了预训练模型的两个编码器更专注于公共文化数据;将标签文本数据送入已经创建好的提示模板进行预训练,得到已经提示一遍过的文本数据,再将此文本数据送入GAN的生成器,使文本转换为图像,覆盖在原始图像上,得到提示图像重新进行CLIP操作,将一条提示文本相关数据与提示图像数据进行配对,形成一个文本图像对,然后将此文本图像对反复进行几次,形成一次训练所抓取的数据样本数量,将其送入CLIP模型,训练数据就是提示图像文本对;与第一次不同的是,第二次将冻结已经训练好的文本、图像两个编码器,仅仅更新GAN的参数;最后,在测试的一次学习场景中,新图像将与GAN生成的图像提示相叠加,并利用最大化对角线矩阵的方式找出新图像所属的类别;
GAN生成对抗网络模型有两个模块:生成器G和判别器D;生成器去负责生成逼真合理的样本数据,数据生成后被送入判别器中,判别器去判断此数据是原始标记数据还是由生成器产生的,模型原理是在整个训练过程中,生成器去生成出很逼真合理的样本使得判别器出错,从而失去判别能力,相对来说判别器则是需要提高自己的判别能力,使能够成功辨别数据;
模块D和G在V(D,G)上进行以下博弈
Figure BDA0003784141290000051
Figure BDA0003784141290000061
注:
Figure BDA0003784141290000062
一堆x,是从pdata中举例出来的,即就是它们为真正的图像,将真正的图像送入生成器,得到一个分数再去对数;
Figure BDA0003784141290000063
一堆y,是pg从生成器中所产生出来的,将这些图片送到判别器中,得到一个分数,再取对数;
最小化博弈GAN会存在有一个全局最优情况,即当pg=pdata时,并且在生成器和判别器拥有足够容量时,pg会收敛到pdata
为了学习获得文本描述信息数据中的有效视觉描述信息,采用递归文本编码器和深度卷积去学习其相对应的图像映射函数,采用优化结构化损失去训练学习所对应的对应函数ft指导的文本分类器;
Figure BDA0003784141290000064
其中vn是图像,tn是相应的文本描述,{(xn,tn,yn):n=1,…,N}是训练数据集,Δ是0-1损失,yn是类标签;分类器fv和ft的参数如下:
Figure BDA0003784141290000065
Figure BDA0003784141290000066
其中τ(y)是y类的文本描述集,ψ是文本编码器(例如,字符级CNN或LSTM),φ是图像编码器(例如,深度卷积神经网络),同样,υ(y)是图像的描述集。
进一步,数据在送入模型之前,对数据集中的数据进行数据增强的预处理操作;对于文本数据的英文文本,针对词语间存在的同义不同形进行去复数,去名词,转形式等一系列操作将单词转换为原来的相貌;对于中文文本,需要使用第三方工具对文本进行分词。
进一步,将手动指定的静态提示加入到文本句向量的指定位置一般为句首或者句尾。
本发明的有益效果是:
与现有视觉提示方法相比,采用本发明所述的方法,可以更好地实现视觉提示效果,并且不需要大量的标记数据去刺激预训练模型在下游任务中的视觉接地能力,并且与视觉领域中的标准下游任务适应方法,即引入一个单独的特定任务的头,去适应模型参数激活。本发明只需要通过修改输入空间去适应预训练的模型,使用基于梯度的学习方案去学习一个单一的、与输入无关的扰动(即视觉提示),可以用来提高任务的性能;通过改变视觉提示就可以使模型去执行不同的任务,其在公共文化云中,表现效果明显,可以更好地应用于下游分类法任务中,对于公共文化云中涉及的图像标签分类等,利用本发明可以有更好的表现。同时,本发明创新性的提出了使用文字描述信息生成图像提示蒙版加在图像上,再送入CLIP模型,即视觉信息经过了两次提示,对比未使用蒙版的图像,其效果提升明显。
附图说明
图1为本发明的CLIP网络核心图,其中a为预训练-微调阶段图,b为二次训练阶段图;
图2为本发明的GAN网络核心图。
图3为本发明的处理流程图。
具体实施方式
以下结合附图及实施例对本发明进一步叙述。
如图1、2、3所示,一种基于预训练模型的多模态视觉提示技术表示学习方法,其特征在于,包括一下步骤:
步骤1、设视觉语言模型采用由文本生成提示加入到图像的CLIP,模型利用不同的编码器分别处理文本以及图像数据,CLIP模型拥有文本编码器以及图像编码器,文本编码器采用Bert,图像编码器采用vision transformer(vit),将文本和图像分别送入编码器中,通过线性映射到多模态嵌入向量空间,构建文本图像行列矩阵,计算文本以及图像间的相似度,相似度越高,即匹配程度越高,反之越低,因此需取得相似度最高的文本图像对,即取对角线元素,通过将公共文化云数据送入CLIP模型中,对预训练的文本和图像编码器进行微调,损失函数为最大化相似度矩阵对角线构造出的交叉熵损失,通过微调操作使得加载了预训练模型的两个编码器更专注于公共文化数据;
夹角余弦被用来衡量两个向量方向上的差异,在机器学习中其也可以被用来衡量两个样本间的差异,因此在二维空间中衡量文本向量A和图像向量B的相似度就采用夹角余弦公式为:
Figure BDA0003784141290000081
步骤2、对文本标签数据进行提示处理,将CLIP中文本编码器Bert中的文本标签数据转换为嵌入向量,加入人工设计的与公共文化云相关的文本提示向量,即使用提示技术先训练带有标签的文本:将文本数据利用数据切割,加入人工给定的标签,整合为相等长度的文本向量,将手动指定的静态提示加入到文本句向量的指定位置,利用提示去预测被遮蔽掉的文本信息,其类似于阅读理解中的完形填空,虽然给予静态提示手动搜索最佳文本提示是非常费力的,但视觉领域的提示可以补偿低质量的文本提示;
即有n个物体x1,x2…xn,通过提示模板“a photo of a{object}”提示后,送入编码器;
步骤3、利用GAN生成对抗网络,利用文本描述的图像信息生成图像提示蒙版,使用的文本是已经提示一遍的文本,再去生成提示,用于提示图像,提示为视觉领域的像素提示,作为图像蒙版,覆盖整张图像作为提示,与不加图像蒙版的原始图像进行对比。
进一步,在训练阶段,对于一个一次训练所抓取的数据样本,首先通过文本编码器和图像编码器,得到所有文本和图像的特征,分别计算内积,得到一个矩阵,站在图像的角度上去观测,行方向视为一个文本分类器,相对在文本角度去看,列方向视为一个图像分类器,预先知道一次训练所抓取的数据样本中的图像跟文本的匹配关系,对于同一对匹配成功的图像和文本,最大化其特征内积就是目标函数,也就是特征矩阵上对角线的元素,相对去最小化不相关的特征内积,通过对预训练的文本和图像编码器进行微调,使得加载了预训练模型的两个编码器更专注于公共文化数据;将标签文本数据送入已经创建好的提示模板进行预训练,得到已经提示一遍过的文本数据,再将此文本数据送入GAN的生成器,使文本转换为图像,覆盖在原始图像上,得到提示图像重新进行CLIP操作,将一条提示文本相关数据与提示图像数据进行配对,形成一个文本图像对,然后将此文本图像对反复进行几次,形成一次训练所抓取的数据样本数量,将其送入CLIP模型,训练数据就是提示图像文本对;与第一次不同的是,第二次将冻结已经训练好的文本、图像两个编码器,仅仅更新GAN的参数;最后,在测试的一次学习场景中,新图像将与GAN生成的图像提示相叠加,并利用最大化对角线矩阵的方式找出新图像所属的类别;
GAN生成对抗网络模型有两个模块:生成器G和判别器D;生成器去负责生成逼真合理的样本数据,数据生成后被送入判别器中,判别器去判断此数据是原始标记数据还是由生成器产生的,模型原理是在整个训练过程中,生成器去生成出很逼真合理的样本使得判别器出错,从而失去判别能力,相对来说判别器则是需要提高自己的判别能力,使能够成功辨别数据;
模块D和G在V(D,G)上进行以下博弈
Figure BDA0003784141290000101
注:
Figure BDA0003784141290000102
一堆x,是从pdata中举例出来的,即就是它们为真正的图像,将真正的图像送入生成器,得到一个分数再去对数;
Figure BDA0003784141290000103
一堆y,是pg从生成器中所产生出来的,将这些图片送到判别器中,得到一个分数,再取对数;
最小化博弈GAN会存在有一个全局最优情况,即当pg=pdata时,并且在生成器和判别器拥有足够容量时,pg会收敛到pdata
为了学习获得文本描述信息数据中的有效视觉描述信息,采用递归文本编码器和深度卷积去学习其相对应的图像映射函数,采用优化结构化损失去训练学习所对应的对应函数ft指导的文本分类器;
Figure BDA0003784141290000111
其中vn是图像,tn是相应的文本描述,{(xn,tn,yn):n=1,…,N}是训练数据集,Δ是0-1损失,yn是类标签;分类器fv和ft的参数如下:
Figure BDA0003784141290000112
Figure BDA0003784141290000113
其中τ(y)是y类的文本描述集,ψ是文本编码器(例如,字符级CNN或LSTM),φ是图像编码器(例如,深度卷积神经网络),同样,υ(y)是图像的描述集。
进一步,数据在送入模型之前,对数据集中的数据进行数据增强的预处理操作;对于文本数据的英文文本,针对词语间存在的同义不同形进行去复数,去名词,转形式等一系列操作将单词转换为原来的相貌;对于中文文本,需要使用第三方工具对文本进行分词。
进一步,将手动指定的静态提示加入到文本句向量的指定位置一般为句首或者句尾。
实施例
利用CLIP模型进行预训练的同时,在一次学习场景下将标签构造的文本利用生成对抗网络生成图像提示。首先,准备好公共文化云数据集后将数据送入CLIP模型中对预训练的文本和图像编码器进行微调,损失函数为最大化相似度矩阵对角线构造出的交叉熵损失,通过微调操作使加载了预训练模型的两个编码器更专注于公共文化数据。其次,在一次学习场景中,设计与公共文化云相关的文本提示结构,将标签与提示模板组合构造文本提示语句并通过微调好的文本编码器生成文本提示特征。同时,将构造的文本提示语句通过随机初始化的GAN网络生成图像提示,并将图像提示叠加到真实的训练图像上并通过微调的图像编码器生成图像特征。随后,第二次将图像特征与文本特征对应相乘构造相似度矩阵,损失函数为最大化相似度矩阵对角线构造出的交叉熵损失,与第一次不同的是,第二次将冻结已经训练好的文本、图像两个编码器,仅仅更新GAN的参数。最后,在测试的一次学习场景中,新图像将与GAN生成的图像提示相叠加,并利用最大化对角线矩阵的方式找出新图像所属的类别。为了实现在视觉领域的提示,本发明使用视觉模型CLIP,使用python语言,开发工具为VSCode。
数据集:采用多个数据集分别衡量分布内和分布外的性能,模型在训练集上学习视觉提示,在测试集上评估其表现,对于分布内的性能,我们在鸟类图像的CUB数据集和花卉图像的Oxford-102数据集上进行测试。
实验环境如下:
·CPU:AMD Ryzen 93900X 12-Core Processor 3.80GHz
·内存:32BG
·硬盘:2TB
·操作系统:Windows 10(64位)
网络结构:
生成器网络表示为G:RZ×RT→RD
判别器网络表示为D:RD×RT→{0,1}
其中T是文本描述嵌入的维度,D是图像的维度,Z是G的噪声输入维度。
在生成器G中,首先我们从噪声先验z∈RZ~ω(0,1),取样,然后我们用文本编码器j对文本查询t进行编码。描述嵌入j(t)首先被压缩,使用一个完全一致的编码系统。
基准方法:我们将视觉提示与文本提示(即"零样本"CLIP)和线性探测进行比较。对于文字提示的CLIP,我们使用提示"这是一张[LABEL]的照片"作为默认。

Claims (6)

1.一种基于预训练模型的多模态视觉提示技术表示学习方法,其特征在于,包括一下步骤:
步骤1、设视觉语言模型采用由文本生成提示加入到图像的CLIP,模型利用不同的编码器分别处理文本以及图像数据,将文本和图像分别送入编码器中,通过线性映射到多模态嵌入向量空间,构建文本图像行列矩阵,计算文本以及图像间的相似度,相似度越高,即匹配程度越高,反之越低,因此需取得相似度最高的文本图像对,即取对角线元素,通过将公共文化云数据送入CLIP模型中,对预训练的文本和图像编码器进行微调,损失函数为最大化相似度矩阵对角线构造出的交叉熵损失;
夹角余弦被用来衡量两个向量方向上的差异,在机器学习中其也可以被用来衡量两个样本间的差异,因此在二维空间中衡量文本向量A和图像向量B的相似度就采用夹角余弦公式为:
Figure FDA0003784141280000011
步骤2、对文本标签数据进行提示处理,将CLIP中文本编码器Bert中的文本标签数据转换为嵌入向量,加入人工设计的与公共文化云相关的文本提示向量,即使用提示技术先训练带有标签的文本:将文本数据利用数据切割,加入人工给定的标签,整合为相等长度的文本向量,将手动指定的静态提示加入到文本句向量的指定位置,利用提示去预测被遮蔽掉的文本信息,其类似于阅读理解中的完形填空,虽然给予静态提示手动搜索最佳文本提示是非常费力的,但视觉领域的提示可以补偿低质量的文本提示;
即有n个物体x1,x2…xn,通过提示模板“a photo of a{object}”提示后,送入编码器;
步骤3、利用GAN生成对抗网络,利用文本描述的图像信息生成图像提示蒙版,使用的文本是已经提示一遍的文本,再去生成提示,用于提示图像,提示为视觉领域的像素提示,作为图像蒙版,覆盖整张图像作为提示,与不加图像蒙版的原始图像进行对比。
步骤4、在训练阶段,对于一个一次训练所抓取的数据样本,首先通过文本编码器和图像编码器,得到所有文本和图像的特征,分别计算内积,得到一个矩阵,站在图像的角度上去观测,行方向视为一个文本分类器,相对在文本角度去看,列方向视为一个图像分类器,预先知道一次训练所抓取的数据样本中的图像跟文本的匹配关系,对于同一对匹配成功的图像和文本,最大化其特征内积就是目标函数,也就是特征矩阵上对角线的元素,相对去最小化不相关的特征内积,通过对预训练的文本和图像编码器进行微调,使得加载了预训练模型的两个编码器更专注于公共文化数据;将标签文本数据送入已经创建好的提示模板进行预训练,得到已经提示一遍过的文本数据,再将此文本数据送入GAN的生成器,使文本转换为图像,覆盖在原始图像上,得到提示图像重新进行CLIP操作,将一条提示文本相关数据与提示图像数据进行配对,形成一个文本图像对,然后将此文本图像对反复进行几次,形成一次训练所抓取的数据样本数量,将其送入CLIP模型,训练数据就是提示图像文本对;与第一次不同的是,第二次将冻结已经训练好的文本、图像两个编码器,仅仅更新GAN的参数;最后,在测试的一次学习场景中,新图像将与GAN生成的图像提示相叠加,并利用最大化对角线矩阵的方式找出新图像所属的类别。
2.根据权利要求1所述的一种基于预训练模型的多模态视觉提示技术表示学习方法,其特征在于,数据在送入模型之前,对数据集中的数据进行数据增强的预处理操作;对于文本数据的英文文本,针对词语间存在的同义不同形进行去复数,去名词,转形式等一系列操作将单词转换为原来的相貌;对于中文文本,需要使用第三方工具对文本进行分词。
3.根据权利要求1所述的一种基于预训练模型的多模态视觉提示技术表示学习方法,其特征在于,将手动指定的静态提示加入到文本句向量的指定位置一般为句首或者句尾。
4.根据权利要求1所述的一种基于预训练模型的多模态视觉提示技术表示学习方法,其特征在于,文本编码器为字符级CNN或LSTM,图像编码器深度卷积神经网络。
5.根据权利要求1所述的一种基于预训练模型的多模态视觉提示技术表示学习方法,其特征在于,CLIP模型拥有文本编码器以及图像编码器,文本编码器采用Bert,图像编码器采用vision transformer(vit)。
6.根据权利要求1所述的一种基于预训练模型的多模态视觉提示技术表示学习方法,其特征在于,GAN生成对抗网络模型有两个模块:生成器G和判别器D;生成器去负责生成逼真合理的样本数据,数据生成后被送入判别器中,判别器去判断此数据是原始标记数据还是由生成器产生的,模型原理是在整个训练过程中,生成器去生成出很逼真合理的样本使得判别器出错,从而失去判别能力,相对来说判别器则是需要提高自己的判别能力,使能够成功辨别数据;
模块D和G在V(D,G)上进行以下博弈:
Figure FDA0003784141280000041
注:
Figure FDA0003784141280000042
一堆x,是从pdata中举例出来的,即就是它们为真正的图像,将真正的图像送入生成器,得到一个分数再去对数;
Figure FDA0003784141280000043
一堆y,是pg从生成器中所产生出来的,将这些图片送到判别器中,得到一个分数,再取对数;
最小化博弈GAN会存在有一个全局最优情况,即当pg=pdata时,并且在生成器和判别器拥有足够容量时,pg会收敛到pdata
为了学习获得文本描述信息数据中的有效视觉描述信息,采用递归文本编码器和深度卷积去学习其相对应的图像映射函数,采用优化结构化损失去训练学习所对应的对应函数ft指导的文本分类器;
Figure FDA0003784141280000044
其中vn是图像,tn是相应的文本描述,{(xn,tn,yn):n=1,…,N}是训练数据集,Δ是0-1损失,yn是类标签;分类器fv和ft的参数如下:
Figure FDA0003784141280000051
Figure FDA0003784141280000052
其中τ(y)是y类的文本描述集,ψ是文本编码器,φ是图像编码器,同样,υ(y)是图像的描述集。
CN202210937416.0A 2022-08-05 2022-08-05 一种基于预训练模型的多模态视觉提示技术表示学习方法 Pending CN115311389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210937416.0A CN115311389A (zh) 2022-08-05 2022-08-05 一种基于预训练模型的多模态视觉提示技术表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210937416.0A CN115311389A (zh) 2022-08-05 2022-08-05 一种基于预训练模型的多模态视觉提示技术表示学习方法

Publications (1)

Publication Number Publication Date
CN115311389A true CN115311389A (zh) 2022-11-08

Family

ID=83859852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210937416.0A Pending CN115311389A (zh) 2022-08-05 2022-08-05 一种基于预训练模型的多模态视觉提示技术表示学习方法

Country Status (1)

Country Link
CN (1) CN115311389A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304066A (zh) * 2023-05-23 2023-06-23 中国人民解放军国防科技大学 一种基于提示学习的异质信息网络节点分类方法
CN116383671A (zh) * 2023-03-27 2023-07-04 武汉大学 隐式关系推理对齐的文本图像跨模态行人检索方法及系统
CN116503683A (zh) * 2023-06-06 2023-07-28 重庆师范大学 一种视觉语言模型的模态交互增强的提示学习方法
CN116912353A (zh) * 2023-09-13 2023-10-20 上海蜜度信息技术有限公司 多任务图像处理方法、系统、存储介质及电子设备
CN116994098A (zh) * 2023-09-27 2023-11-03 西南交通大学 基于类别属性知识增强的大模型提示学习方法
CN117079299A (zh) * 2023-10-12 2023-11-17 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN117688193A (zh) * 2024-02-01 2024-03-12 湘江实验室 图文统一编码方法、装置、计算机设备及介质
CN118379563A (zh) * 2024-06-21 2024-07-23 武汉人工智能研究院 导航模型训练方法、装置、电子设备及存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383671B (zh) * 2023-03-27 2024-05-28 武汉大学 隐式关系推理对齐的文本图像跨模态行人检索方法及系统
CN116383671A (zh) * 2023-03-27 2023-07-04 武汉大学 隐式关系推理对齐的文本图像跨模态行人检索方法及系统
CN116304066B (zh) * 2023-05-23 2023-08-22 中国人民解放军国防科技大学 一种基于提示学习的异质信息网络节点分类方法
CN116304066A (zh) * 2023-05-23 2023-06-23 中国人民解放军国防科技大学 一种基于提示学习的异质信息网络节点分类方法
CN116503683A (zh) * 2023-06-06 2023-07-28 重庆师范大学 一种视觉语言模型的模态交互增强的提示学习方法
CN116912353A (zh) * 2023-09-13 2023-10-20 上海蜜度信息技术有限公司 多任务图像处理方法、系统、存储介质及电子设备
CN116912353B (zh) * 2023-09-13 2023-12-19 上海蜜度信息技术有限公司 多任务图像处理方法、系统、存储介质及电子设备
CN116994098A (zh) * 2023-09-27 2023-11-03 西南交通大学 基于类别属性知识增强的大模型提示学习方法
CN116994098B (zh) * 2023-09-27 2023-12-05 西南交通大学 基于类别属性知识增强的大模型提示学习方法
CN117079299A (zh) * 2023-10-12 2023-11-17 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN117079299B (zh) * 2023-10-12 2024-01-09 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN117688193A (zh) * 2024-02-01 2024-03-12 湘江实验室 图文统一编码方法、装置、计算机设备及介质
CN117688193B (zh) * 2024-02-01 2024-05-31 湘江实验室 图文统一编码方法、装置、计算机设备及介质
CN118379563A (zh) * 2024-06-21 2024-07-23 武汉人工智能研究院 导航模型训练方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN115311389A (zh) 一种基于预训练模型的多模态视觉提示技术表示学习方法
US11899927B2 (en) Simulated handwriting image generator
CN111444955B (zh) 一种基于类意识领域自适应的水下声纳图像无监督分类方法
CN108121975B (zh) 一种联合原始数据和生成数据的人脸识别方法
CN107437100A (zh) 一种基于跨模态关联学习的图像位置预测方法
CN114529765B (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN112966685B (zh) 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN112037225B (zh) 一种基于卷积神经的海洋船舶图像分割方法
CN114973229B (zh) 文本识别模型训练、文本识别方法、装置、设备及介质
CN114742224A (zh) 行人重识别方法、装置、计算机设备及存储介质
CN115563327A (zh) 基于Transformer网络选择性蒸馏的零样本跨模态检索方法
CN113554040B (zh) 一种基于条件生成对抗网络的图像描述方法、装置设备
Lin Comparative Analysis of Pix2Pix and CycleGAN for image-to-image translation
Zhu et al. How to evaluate semantic communications for images with vitscore metric?
CN118172283A (zh) 基于改进gUNet模型的海上目标图像去雾方法
CN117689996A (zh) 模型的生成方法、装置、电子设备以及存储介质
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
CN116258917A (zh) 一种基于tf-idf转移熵的恶意软件分类方法及装置
CN116958027A (zh) 三维工业异常检测方法、装置、存储介质及电子设备
CN116137043A (zh) 一种基于卷积和Transformer的红外图像彩色化方法
CN112381176B (zh) 一种基于双目特征融合网络的图像分类方法
Meng et al. A Novel Steganography Algorithm Based on Instance Segmentation.
US20240296596A1 (en) Personalized text-to-image diffusion model
CN116051917B (zh) 一种训练图像量化模型的方法、检索图像的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination