CN117037176A - 一种面向视觉-语言任务的预训练语言模型适配方法 - Google Patents

一种面向视觉-语言任务的预训练语言模型适配方法 Download PDF

Info

Publication number
CN117037176A
CN117037176A CN202310971499.XA CN202310971499A CN117037176A CN 117037176 A CN117037176 A CN 117037176A CN 202310971499 A CN202310971499 A CN 202310971499A CN 117037176 A CN117037176 A CN 117037176A
Authority
CN
China
Prior art keywords
language model
layer
visual
training
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310971499.XA
Other languages
English (en)
Inventor
纪荣嵘
周奕毅
黄书滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202310971499.XA priority Critical patent/CN117037176A/zh
Publication of CN117037176A publication Critical patent/CN117037176A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种面向视觉‑语言任务的预训练语言模型适配方法,涉及多模态处理技术。用于根据视觉‑语言任务中给定的图像和描述文本,动态地提取出高效的、紧凑的视觉提示,并适配到给定的预训练语言模型,结合参数高效化的迁移学习方法,实现单模态任务和多模态任务的转换。步骤:1)基于视觉特征和文本特征,使用跨模态注意力层来提取轻量级的动态视觉提示,进而减少输入序列过长带来的计算开销。2)使用一种基于强化学习的搜索方法找出视觉提示在预训练语言模型中最合适的插入位置,提升预训练语言模型在视觉‑语言任务的适配性能。3)在预训练语言模型中加入Adapter模块,大幅度降低训练参数量,实现语言任务向视觉‑语言任务的快速过渡。

Description

一种面向视觉-语言任务的预训练语言模型适配方法
技术领域
本发明属于多模态处理技术领域,涉及视觉语言任务,特别涉及一种面向视觉-语言任务的预训练语言模型适配方法。
背景技术
预训练语言模型(PLMs)在自然语言处理领域中占据主导地位,其预训练-微调范式也逐渐被多模态领域所采纳。在视觉-语言(VL)任务中,视觉-语言预训练(VLP)模型取得了优异的性能。通常VLP模型会将PLMs会作为其语言分支,同时仍需要一个额外的模态融合编码器,这会导致PLMs还要再被重新训练以及整个VLP模型的笨重化。除此之外,VLP模型需要在大规模图像-文本对数据集上学习VL通用表征,这需要昂贵的时间成本和计算开销。因此,部分研究工作提出利用视觉编码器提取的图像特征作为PLMs的视觉提示,并直接使用PLMs来适配VL任务上来解决上述问题。然而,这些方法所获取的视觉提示往往只是对视觉特征做简单的线性映射,因为视觉特征的长度往往远大于文本特征,所以这将使输入PLMs的序列过长,从而导致计算开销呈指数级增长。
发明内容
本发明的目的在于提供一种面向视觉-语言任务的预训练语言模型适配方法。根据视觉-语言任务中给定的图像和描述文本,动态地提取出高效的、紧凑的视觉提示,并适配到给定的预训练语言模型,结合参数高效化的迁移学习方法,实现单模态任务和多模态任务的转换。
本发明包括如下步骤:
步骤1,设置视觉-语言任务给定的图像I大小为224×224×3,描述文本T的长度设置为16;
步骤2,获取给定图像I的视觉特征Fv∈R197×768,根据预训练语言模型的类型(基于编码器类型或基于编码器-解码器类型),得到对应描述文本T当前的全局表征Ft∈R16×768
步骤3,使用跨模态注意力层φ,将Ft作为查询向量(query),Fv作为键向量(key)和值向量(key),进而提取轻量级的动态视觉提示;
步骤4,使用基于k臂-老虎机的强化学习搜索方法,将预训练语言模型的所有层视为搜索空间,并赋予它们偏好H∈RM来表示每个层被选取的概率,这里M表示预训练语言模型的层数;同时为每一层配备一个独立的跨模态注意力层Φ=[φ1,…,φM];
步骤5,在每个迭代t上,随机在H中采样一个插入层K;使用对应的跨模态注意力层φK生成视觉提示,在预训练语言模型的第K层中与前一层的文本特征输出进行拼接后持续传递到后续层,更新整个预训练语言模型和φK的参数;更新结束后,基于偏好H的权值大小采样n次;在这个过程中,设置一个验证数据集dv,求得每个采样后的奖励得分Rt,接着基于Rt对偏好H进行更新;在搜索阶段结束后,根据偏好H的权值大小得到在当前视觉-语言任务上最佳的插入位置K;
步骤6,在预训练语言模型的每一层中,将Adapter模块加入到注意力层后以及前馈神经网络层后,视觉提示插入到预训练模型的第K层,整个预训练语言模型在训练中只更新Adapter模块和归一化层的参数,在实现参数高效化训练的同时也能够从语言任务转换到视觉-语言任务。
上述步骤2中,利用CLIP预训练好的ViT-B/16作为视觉编码器,得到图像的视觉特征:Fv∈R197×768;基于编码器类型的预训练语言模型如BERT的文本表征为:
Ft=ΘK-1K-2,…,Θ1(E(T))
其中将预训练语言模型的各层定义为Θ=[Θ1,…,ΘM],E表示预训练语言模型的Embedding层;
基于编码器-解码器的预训练语言模型如T5的文本表征为:
Ft=Ψ(E(T))
这里Ψ为预训练语言模型的编码器;
上述步骤3中,跨模态注意力层生成轻量级的动态视觉提示FDVP的计算公式为:
FDVP=Concat(head1,..,headh)WO
其中d为特征的维度,即768;n是注意力头的个数;WO∈Rd×d,EQ i,EK i,
上述步骤5中,在每个迭代t上,偏好H中第K层的权值πt(K)计算公式为:
采样n次后,基于Rt对偏好H进行更新的公式为:
Ht+1(K)=Ht(K)+α(Rt-Rbt(K)(1-πt(K))
α为偏好更新的学习率,设置为0.005;Rb为n次采样的奖励均值。
上述步骤6中,Adapter模块由一个下采样层一个上采样层和一个激活函数σ组成,定义Adapter模块的输入为/>那么Adapter的输出O的计算公式为:
本发明利用视觉提示适配预训练语言模型到视觉-语言任务;由于视觉提示的长度仍然与文本长度一致,预训练语言模型的输入序列是两倍的文本长度,导致计算开销相比原本扩大四倍;同时搜索算法的迭代过程需要控制在一定的时间里,既保证不增大过多时间成本,也能够保证搜索结果的有效性;因此,本发明的突出改进点体现在:
(1)本发明采用更紧凑的轻量级动态视觉提示,使用文本的全局表征作为跨模态注意力层的查询向量,其长度仅为1,大幅度减少预训练语言模型的输入序列长度,进而减少计算开销;
(2)在强化学习搜索插入层的算法中,基于搜索空间不大,将搜索的迭代过程控制在一个较短的时间范围上。
附图说明
图1是动态视觉提示生成的结构图示;
图2是模型训练的图示。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
本发明公开一种面向视觉-语言任务的预训练语言模型适配方法,用于根据视觉-语言任务中给定的图像和描述文本,动态地提取出高效的、紧凑的视觉提示,并适配到给定的预训练语言模型,结合参数高效化的迁移学习方法,实现单模态任务和多模态任务的转换。包括以下步骤:(1)基于视觉特征和文本特征,使用跨模态注意力层来提取轻量级的动态视觉提示,进而减少输入序列过长带来的计算开销。(2)使用一种基于强化学习的搜索方法找出视觉提示在预训练语言模型中最合适的插入位置,进一步提升预训练语言模型在视觉-语言任务的适配性能。(3)在预训练语言模型中加入Adapter模块,大幅度降低训练参数量,实现语言任务向视觉-语言任务的快速过渡。
本发明实施例包括如下步骤:
一、模型实施过程:
1.1模型的输入:
模型的输入分别为给定视觉-语言任务的图像I,其大小设置为224×224×3,以及对应图片的描述文本T,其中模型的最长文本输入设置为16,如图1所示。
1.2视觉特征编码器:
对于图像I,利用在CLIP[1]预训练好的ViT-B/16[2]作为视觉编码器,从而得到视觉特征:Fv∈R197×768
1.3预训练语言模型:
针对于输入的描述文本,选取的预训练语言模型若为基于编码器形式如BERT[3],使用Ft的[CLS]特征;若为基于编码器-解码器形式如T5[4],使用Ft的均值池化特征。需要声明的是,将基于编码器-解码器形式的预训练语言模型转换成判别式形式,即在解码器最后接上分类头,同时在解码器前放上一个统一初始化的输入向量f∈R1×768作为分类依据,动态视觉提示只放在解码器一侧。
1.4动态视觉提示的生成:
如图1所示,将Ft的全局表征作为跨模态注意力层φ的查询向量,Fv作为跨模态注意力层φ的键向量和值向量,生成动态视觉提示FDVP∈R1×768
FDVP=Concat(head1,..,headh)Wo
其中,d为特征的维度,即768;n是注意力头的个数。WO∈Rd×d,WQ o,WK o,
二、基于k臂-老虎机的强化学习搜索
将预训练语言模型的所有层视为搜索空间,每一层的选择视为策略动作,整个搜索过程视为k臂-老虎机问题。赋予所有层偏好H∈RM来表示每个层被选取的概率,这里M表示预训练语言模型的层数。同时为每一层配备一个独立的跨模态注意力层Φ=[φ1,…,φM]。
在每个迭代t上,随机在H中采样一个插入层K。使用对应的跨模态注意力层φK生成视觉提示,在预训练语言模型的第K层中与前一层的文本特征输出进行拼接后持续传递到后续层,更新整个预训练语言模型和φK的参数。更新结束后,基于偏好H的权值大小采样n次。在这个过程中,设置一个验证数据集dv,求得每个采样后的奖励得分Rt,接着基于Rt对偏好H进行更新。在搜索阶段结束后,根据偏好H的权值大小得到在当前视觉-语言任务上最佳的插入位置K。
在这个搜索过程中,将epoch控制在1-2,保证较短的搜索时间且能找到最佳的视觉提示放置层。在搜索过程中,使用Adam优化器[8],并根据不同的预训练语言模型设置学习率,如表1所示,采样次数n为5,batch size设置为256,验证数据集dv的batch size设为128。
表1不同预训练语言模型的搜索插入层K的参数设置
三、模型训练过程:
如图2所示,使用步骤二获得的插入位置K,将视觉提示放置在预训练语言模型的第K层结合,同时在语言模型的注意力层后和前馈神经网络层后加入Adapter[9]模块,只训练语言模型的Adapter模块和归一化层,通过梯度下降,优化模型参数。在训练过程中,使用Adam优化器,并根据不同的视觉-语言任务、不同的预训练语言模型设置学习率和epoch,如表2所示,batch size设置为256。
表2不同预训练语言模型适配视觉-语言任务的训练参数设置
四、模型部署过程:
在步骤三的模型训练后,输入通过输入给定图片和描述文本即可得到预训练语言模型适配视觉-语言任务的预测结果,同时实现语言模态向视觉-语言模态的转换。
参考文献:
[1]Radford A,Kim J W,Hallacy C,et al.Learning Transferable VisualModels From Natural Language Supervision[J].2021.
[2]DosovitskiyA,Beyer L,Kolesnikov A,et al.An Image is Worth 16x16Words:Transformers for Image Recognition at Scale[C]//InternationalConference on Learning Representations.2021.
[3]Devlin J,Chang M W,Lee K,et al.BERT:Pre-training of DeepBidirectional Transformers for Language Understanding[J].2018.
[4]RaffelC,Shazeer N,Roberts A,et al.Exploring the Limits of TransferLearning with aUnified Text-to-Text Transformer[J].2020(140).
[5]AntolS,Agrawal A,Lu J,et al.VQA:Visual Question Answering[J].International Journal of Computer Vision,2015,123(1):4-31.
[6]Hudson D A,Manning C D.GQA:A New Dataset for Real-World VisualReasoning and Compositional Question Answering[J].2019.
[7]XieN,Lai F,Doran D,et al.Visual Entailment:ANovel Task for Fine-Grained Image Understanding[J].2019.
[8]LoshchilovI,Hutter F.Decoupled Weight Decay Regularization[J].2017.
[9]Sung Y L,Cho J,Bansal M.VL-Adapter:Parameter-Efficient TransferLearning for Vision-and-Language Tasks[J].2021.
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (5)

1.一种面向视觉-语言任务的预训练语言模型适配方法,用于根据视觉-语言任务中给定的图像和描述文本,动态地提取出高效的、紧凑的视觉提示,并适配到给定的预训练语言模型,结合参数高效化的迁移学习方法,实现单模态任务和多模态任务的转换;其特征在于包括如下步骤:
步骤1,设置视觉-语言任务给定的图像I大小为224×224×3,描述文本T的长度设置为16;
步骤2,获取给定图像i的视觉特征Fv∈R197×768,根据预训练语言模型的类型,基于编码器类型或基于编码器-解码器类型,得到对应描述文本T当前特征Ft∈R16×768
步骤3,使用跨模态注意力层φ生成轻量级的动态视觉提示;
使用跨模态注意力层φ,将Ft作为查询向量query,Fv作为键向量key和值向量key,进而提取轻量级的动态视觉提示;
步骤4,使用基于k臂-老虎机的强化学习搜索方法,将预训练语言模型的所有层视为搜索空间,并赋予它们偏好H∈RM来表示每个层被选取的概率,这里M表示预训练语言模型的层数;同时为每一层配备一个独立的跨模态注意力层Φ=[φ1,…,φM];
步骤5,在每个迭代t上,随机在H中采样一个插入层K;使用对应的跨模态注意力层φK生成视觉提示,在预训练语言模型的第K层中与前一层的文本特征输出进行拼接后持续传递到后续层,更新整个预训练语言模型和φK的参数;更新结束后,基于偏好H的权值大小采样n次;在这个过程中,设置一个验证数据集dv,求得每个采样后的奖励得分Rt,接着基于Rt对偏好H进行更新;在搜索阶段结束后,根据偏好H的权值大小得到在当前视觉-语言任务上最佳的插入位置K;
步骤6,在预训练语言模型的每一层中,将Adapter模块加入到注意力层后以及前馈神经网络层后,视觉提示插入到预训练模型的第K层,整个预训练语言模型在训练中只更新Adapter模块和归一化层的参数,在实现参数高效化训练的同时也能够从语言任务转换到视觉-语言任务。
2.如权利要求1所述的一种面向视觉-语言任务的预训练语言模型适配方法,其特征在于:在步骤2中,所述获取给定图像I的视觉特征,是利用CLIP预训练好的ViT-B/16作为视觉编码器,得到图像的视觉特征:Fv∈R197×768;基于编码器类型的预训练语言模型如BERT的文本表征为:
Ft=ΘK-1K-2,…,Θ1(E(T))
其中,将预训练语言模型的各层定义为Θ=[Θ1,…,ΘM],E表示预训练语言模型的Embedding层;
基于编码器-解码器的预训练语言模型如T5的文本表征为:
Ft=Ψ(E(T))
这里Ψ为预训练语言模型的编码器。
3.如如权利要求1所述的一种面向视觉-语言任务的预训练语言模型适配方法,其特征在于:在步骤3中,所述使用跨模态注意力层φ生成轻量级的动态视觉提示,具体步骤为:使用跨模态注意力层φ,将Ft作为查询向量query,Fv作为键向量key和值向量key,进而提取轻量级的动态视觉提示;
所述提取轻量级的动态视觉提示,跨模态注意力层生成轻量级的动态视觉提示FDVP的计算公式为:
FDVP=Concat(head1,..,headh)WO
其中d为特征的维度,即768;n是注意力头的个数;WO∈Rd×d
4.如权利要求1所述的一种面向视觉-语言任务的预训练语言模型适配方法,其特征在于:在步骤5中,在每个迭代t上,偏好H中第K层的权值πt(K)计算公式为:
采样n次后,基于Rt对偏好H进行更新的公式为:
Ht+1(K)=Ht(K)+α(Rt-Rbt(K)(1-πt(K))
α为偏好更新的学习率,设置为0.005;Rb为n次采样的奖励均值。
5.如权利要求1所述的一种面向视觉-语言任务的预训练语言模型适配方法,其特征在于:在步骤6中,所述Adapter模块由一个下采样层一个上采样层/> 和一个激活函数σ组成,定义Adapter模块的输入为/>那么Adapter的输出O的计算公式为:
O=X+WU(σ(WD(X)))。
CN202310971499.XA 2023-08-03 2023-08-03 一种面向视觉-语言任务的预训练语言模型适配方法 Pending CN117037176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310971499.XA CN117037176A (zh) 2023-08-03 2023-08-03 一种面向视觉-语言任务的预训练语言模型适配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310971499.XA CN117037176A (zh) 2023-08-03 2023-08-03 一种面向视觉-语言任务的预训练语言模型适配方法

Publications (1)

Publication Number Publication Date
CN117037176A true CN117037176A (zh) 2023-11-10

Family

ID=88627324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310971499.XA Pending CN117037176A (zh) 2023-08-03 2023-08-03 一种面向视觉-语言任务的预训练语言模型适配方法

Country Status (1)

Country Link
CN (1) CN117037176A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117876940A (zh) * 2024-03-11 2024-04-12 浪潮电子信息产业股份有限公司 视频语言任务执行及其模型训练方法、装置、设备、介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117876940A (zh) * 2024-03-11 2024-04-12 浪潮电子信息产业股份有限公司 视频语言任务执行及其模型训练方法、装置、设备、介质
CN117876940B (zh) * 2024-03-11 2024-05-31 浪潮电子信息产业股份有限公司 视频语言任务执行及其模型训练方法、装置、设备、介质

Similar Documents

Publication Publication Date Title
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
CN108596265B (zh) 基于文本描述信息和生成对抗网络的视频生成模型
WO2021077974A1 (zh) 一种个性化对话内容生成方法
CN108985457B (zh) 一种受优化算法启发的深度神经网络结构设计方法
CN112733768B (zh) 基于双向特征语言模型的自然场景文本识别方法及装置
CN109902750A (zh) 基于双向单注意力机制图像描述方法
CN115205730A (zh) 一种结合特征增强与模板更新的目标跟踪方法
CN117037176A (zh) 一种面向视觉-语言任务的预训练语言模型适配方法
CN113886626B (zh) 基于多重注意力机制的动态记忆网络模型的视觉问答方法
CN114240810B (zh) 一种基于渐进式生成网络的人脸素描-照片合成方法
Wehenkel et al. Diffusion priors in variational autoencoders
CN111768354A (zh) 基于多尺度人脸部位特征字典的人脸图像复原系统
CN117521672A (zh) 一种基于扩散模型的长文本生成连续图片的方法
CN117149952A (zh) 一种基于aigc的多场景内容生成系统
CN117315069A (zh) 基于图像特征对齐的人体姿态迁移方法
CN112580777A (zh) 一种基于注意力机制的深度神经网络插件及图像识别方法
CN112163605A (zh) 一种基于生成注意力网络的多域图像翻译方法
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN111813907A (zh) 一种自然语言问答技术中的问句意图识别方法
CN116881416A (zh) 关系推理与跨模态独立匹配网络的实例级跨模态检索方法
CN116645287A (zh) 一种基于扩散模型的图像去模糊方法
CN110188355A (zh) 一种基于wfst技术的分词方法、系统、设备及介质
CN115982652A (zh) 一种基于注意力网络的跨模态情感分析方法
CN115589446A (zh) 一种基于预训练与提示的会议摘要生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination