CN117037176A

CN117037176A - 一种面向视觉-语言任务的预训练语言模型适配方法

Info

Publication number: CN117037176A
Application number: CN202310971499.XA
Authority: CN
Inventors: 纪荣嵘; 周奕毅; 黄书滨
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-11-10

Abstract

一种面向视觉‑语言任务的预训练语言模型适配方法，涉及多模态处理技术。用于根据视觉‑语言任务中给定的图像和描述文本，动态地提取出高效的、紧凑的视觉提示，并适配到给定的预训练语言模型，结合参数高效化的迁移学习方法，实现单模态任务和多模态任务的转换。步骤：1)基于视觉特征和文本特征，使用跨模态注意力层来提取轻量级的动态视觉提示，进而减少输入序列过长带来的计算开销。2)使用一种基于强化学习的搜索方法找出视觉提示在预训练语言模型中最合适的插入位置，提升预训练语言模型在视觉‑语言任务的适配性能。3)在预训练语言模型中加入Adapter模块，大幅度降低训练参数量，实现语言任务向视觉‑语言任务的快速过渡。

Description

一种面向视觉-语言任务的预训练语言模型适配方法

技术领域

本发明属于多模态处理技术领域，涉及视觉语言任务，特别涉及一种面向视觉-语言任务的预训练语言模型适配方法。

背景技术

预训练语言模型(PLMs)在自然语言处理领域中占据主导地位，其预训练-微调范式也逐渐被多模态领域所采纳。在视觉-语言(VL)任务中，视觉-语言预训练(VLP)模型取得了优异的性能。通常VLP模型会将PLMs会作为其语言分支，同时仍需要一个额外的模态融合编码器，这会导致PLMs还要再被重新训练以及整个VLP模型的笨重化。除此之外，VLP模型需要在大规模图像-文本对数据集上学习VL通用表征，这需要昂贵的时间成本和计算开销。因此，部分研究工作提出利用视觉编码器提取的图像特征作为PLMs的视觉提示，并直接使用PLMs来适配VL任务上来解决上述问题。然而，这些方法所获取的视觉提示往往只是对视觉特征做简单的线性映射，因为视觉特征的长度往往远大于文本特征，所以这将使输入PLMs的序列过长，从而导致计算开销呈指数级增长。

发明内容

本发明的目的在于提供一种面向视觉-语言任务的预训练语言模型适配方法。根据视觉-语言任务中给定的图像和描述文本，动态地提取出高效的、紧凑的视觉提示，并适配到给定的预训练语言模型，结合参数高效化的迁移学习方法，实现单模态任务和多模态任务的转换。

本发明包括如下步骤：

步骤1，设置视觉-语言任务给定的图像I大小为224×224×3，描述文本T的长度设置为16；

步骤2，获取给定图像I的视觉特征F_v∈R^197×768，根据预训练语言模型的类型(基于编码器类型或基于编码器-解码器类型)，得到对应描述文本T当前的全局表征F_t∈R^16×768；

步骤3，使用跨模态注意力层φ，将F_t作为查询向量(query)，F_v作为键向量(key)和值向量(key)，进而提取轻量级的动态视觉提示；

步骤4，使用基于k臂-老虎机的强化学习搜索方法，将预训练语言模型的所有层视为搜索空间，并赋予它们偏好H∈R^M来表示每个层被选取的概率，这里M表示预训练语言模型的层数；同时为每一层配备一个独立的跨模态注意力层Φ＝[φ₁,…,φ_M]；

步骤5，在每个迭代t上，随机在H中采样一个插入层K；使用对应的跨模态注意力层φ_K生成视觉提示，在预训练语言模型的第K层中与前一层的文本特征输出进行拼接后持续传递到后续层，更新整个预训练语言模型和φ_K的参数；更新结束后，基于偏好H的权值大小采样n次；在这个过程中，设置一个验证数据集d_v，求得每个采样后的奖励得分R_t，接着基于R_t对偏好H进行更新；在搜索阶段结束后，根据偏好H的权值大小得到在当前视觉-语言任务上最佳的插入位置K；

步骤6，在预训练语言模型的每一层中，将Adapter模块加入到注意力层后以及前馈神经网络层后，视觉提示插入到预训练模型的第K层，整个预训练语言模型在训练中只更新Adapter模块和归一化层的参数，在实现参数高效化训练的同时也能够从语言任务转换到视觉-语言任务。

上述步骤2中，利用CLIP预训练好的ViT-B/16作为视觉编码器，得到图像的视觉特征：F_v∈R^197×768；基于编码器类型的预训练语言模型如BERT的文本表征为：

F_t＝Θ_K-1(Θ_K-2,…,Θ₁(E(T))

其中将预训练语言模型的各层定义为Θ＝[Θ₁,…,Θ_M]，E表示预训练语言模型的Embedding层；

基于编码器-解码器的预训练语言模型如T5的文本表征为：

F_t＝Ψ(E(T))

这里Ψ为预训练语言模型的编码器；

上述步骤3中，跨模态注意力层生成轻量级的动态视觉提示F_DVP的计算公式为：

F_DVP＝Concat(head₁,..,head_h)W_O

其中d为特征的维度，即768；n是注意力头的个数；W_O∈R^d×d，E_Q ⁱ,E_K ⁱ,

上述步骤5中，在每个迭代t上，偏好H中第K层的权值π_t(K)计算公式为：

采样n次后，基于R_t对偏好H进行更新的公式为：

H_t+1(K)＝H_t(K)+α(R_t-R_b)π_t(K)(1-π_t(K))

α为偏好更新的学习率，设置为0.005；R_b为n次采样的奖励均值。

上述步骤6中，Adapter模块由一个下采样层一个上采样层和一个激活函数σ组成，定义Adapter模块的输入为/>那么Adapter的输出O的计算公式为：

本发明利用视觉提示适配预训练语言模型到视觉-语言任务；由于视觉提示的长度仍然与文本长度一致，预训练语言模型的输入序列是两倍的文本长度，导致计算开销相比原本扩大四倍；同时搜索算法的迭代过程需要控制在一定的时间里，既保证不增大过多时间成本，也能够保证搜索结果的有效性；因此，本发明的突出改进点体现在：

(1)本发明采用更紧凑的轻量级动态视觉提示，使用文本的全局表征作为跨模态注意力层的查询向量，其长度仅为1，大幅度减少预训练语言模型的输入序列长度，进而减少计算开销；

(2)在强化学习搜索插入层的算法中，基于搜索空间不大，将搜索的迭代过程控制在一个较短的时间范围上。

附图说明

图1是动态视觉提示生成的结构图示；

图2是模型训练的图示。

具体实施方式

以下将结合附图，对本发明的技术方案及有益效果进行详细说明。

本发明公开一种面向视觉-语言任务的预训练语言模型适配方法，用于根据视觉-语言任务中给定的图像和描述文本，动态地提取出高效的、紧凑的视觉提示，并适配到给定的预训练语言模型，结合参数高效化的迁移学习方法，实现单模态任务和多模态任务的转换。包括以下步骤：(1)基于视觉特征和文本特征，使用跨模态注意力层来提取轻量级的动态视觉提示，进而减少输入序列过长带来的计算开销。(2)使用一种基于强化学习的搜索方法找出视觉提示在预训练语言模型中最合适的插入位置，进一步提升预训练语言模型在视觉-语言任务的适配性能。(3)在预训练语言模型中加入Adapter模块，大幅度降低训练参数量，实现语言任务向视觉-语言任务的快速过渡。

本发明实施例包括如下步骤：

一、模型实施过程：

1.1模型的输入：

模型的输入分别为给定视觉-语言任务的图像I，其大小设置为224×224×3，以及对应图片的描述文本T，其中模型的最长文本输入设置为16，如图1所示。

1.2视觉特征编码器：

对于图像I，利用在CLIP^[1]预训练好的ViT-B/16^[2]作为视觉编码器，从而得到视觉特征：F_v∈R^197×768。

1.3预训练语言模型：

针对于输入的描述文本，选取的预训练语言模型若为基于编码器形式如BERT^[3]，使用F_t的[CLS]特征；若为基于编码器-解码器形式如T5^[4]，使用F_t的均值池化特征。需要声明的是，将基于编码器-解码器形式的预训练语言模型转换成判别式形式，即在解码器最后接上分类头，同时在解码器前放上一个统一初始化的输入向量f∈R^1×768作为分类依据，动态视觉提示只放在解码器一侧。

1.4动态视觉提示的生成：

如图1所示，将F_t的全局表征作为跨模态注意力层φ的查询向量，F_v作为跨模态注意力层φ的键向量和值向量，生成动态视觉提示F_DVP∈R^1×768：

F_DVP＝Concat(head₁,..,head_h)W_o

其中，d为特征的维度，即768；n是注意力头的个数。W_O∈R^d×d，W_Q ^o,W_K ^o,

二、基于k臂-老虎机的强化学习搜索

将预训练语言模型的所有层视为搜索空间，每一层的选择视为策略动作，整个搜索过程视为k臂-老虎机问题。赋予所有层偏好H∈R^M来表示每个层被选取的概率，这里M表示预训练语言模型的层数。同时为每一层配备一个独立的跨模态注意力层Φ＝[φ₁,…,φ_M]。

在每个迭代t上，随机在H中采样一个插入层K。使用对应的跨模态注意力层φ_K生成视觉提示，在预训练语言模型的第K层中与前一层的文本特征输出进行拼接后持续传递到后续层，更新整个预训练语言模型和φ_K的参数。更新结束后，基于偏好H的权值大小采样n次。在这个过程中，设置一个验证数据集d_v，求得每个采样后的奖励得分R_t，接着基于R_t对偏好H进行更新。在搜索阶段结束后，根据偏好H的权值大小得到在当前视觉-语言任务上最佳的插入位置K。

在这个搜索过程中，将epoch控制在1-2，保证较短的搜索时间且能找到最佳的视觉提示放置层。在搜索过程中，使用Adam优化器^[8]，并根据不同的预训练语言模型设置学习率，如表1所示，采样次数n为5，batch size设置为256，验证数据集d_v的batch size设为128。

表1不同预训练语言模型的搜索插入层K的参数设置

三、模型训练过程：

如图2所示，使用步骤二获得的插入位置K，将视觉提示放置在预训练语言模型的第K层结合，同时在语言模型的注意力层后和前馈神经网络层后加入Adapter^[9]模块，只训练语言模型的Adapter模块和归一化层，通过梯度下降，优化模型参数。在训练过程中，使用Adam优化器，并根据不同的视觉-语言任务、不同的预训练语言模型设置学习率和epoch，如表2所示，batch size设置为256。

表2不同预训练语言模型适配视觉-语言任务的训练参数设置

四、模型部署过程：

在步骤三的模型训练后，输入通过输入给定图片和描述文本即可得到预训练语言模型适配视觉-语言任务的预测结果，同时实现语言模态向视觉-语言模态的转换。

参考文献：

[1]Radford A,Kim J W,Hallacy C,et al.Learning Transferable VisualModels From Natural Language Supervision[J].2021.

[2]DosovitskiyA,Beyer L,Kolesnikov A,et al.An Image is Worth 16x16Words:Transformers for Image Recognition at Scale[C]//InternationalConference on Learning Representations.2021.

[3]Devlin J,Chang M W,Lee K,et al.BERT:Pre-training of DeepBidirectional Transformers for Language Understanding[J].2018.

[4]RaffelC,Shazeer N,Roberts A,et al.Exploring the Limits of TransferLearning with aUnified Text-to-Text Transformer[J].2020(140).

[5]AntolS,Agrawal A,Lu J,et al.VQA:Visual Question Answering[J].International Journal of Computer Vision,2015,123(1):4-31.

[6]Hudson D A,Manning C D.GQA:A New Dataset for Real-World VisualReasoning and Compositional Question Answering[J].2019.

[7]XieN,Lai F,Doran D,et al.Visual Entailment:ANovel Task for Fine-Grained Image Understanding[J].2019.

[8]LoshchilovI,Hutter F.Decoupled Weight Decay Regularization[J].2017.

[9]Sung Y L,Cho J,Bansal M.VL-Adapter:Parameter-Efficient TransferLearning for Vision-and-Language Tasks[J].2021.

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种面向视觉-语言任务的预训练语言模型适配方法，用于根据视觉-语言任务中给定的图像和描述文本，动态地提取出高效的、紧凑的视觉提示，并适配到给定的预训练语言模型，结合参数高效化的迁移学习方法，实现单模态任务和多模态任务的转换；其特征在于包括如下步骤：

步骤2，获取给定图像i的视觉特征F_v∈R^197×768，根据预训练语言模型的类型，基于编码器类型或基于编码器-解码器类型，得到对应描述文本T当前特征F_t∈R^16×768；

步骤3，使用跨模态注意力层φ生成轻量级的动态视觉提示；

使用跨模态注意力层φ，将F_t作为查询向量query，F_v作为键向量key和值向量key，进而提取轻量级的动态视觉提示；

2.如权利要求1所述的一种面向视觉-语言任务的预训练语言模型适配方法，其特征在于：在步骤2中，所述获取给定图像I的视觉特征，是利用CLIP预训练好的ViT-B/16作为视觉编码器，得到图像的视觉特征：F_v∈R^197×768；基于编码器类型的预训练语言模型如BERT的文本表征为：

F_t＝Θ_K-1(Θ_K-2,…,Θ₁(E(T))

其中，将预训练语言模型的各层定义为Θ＝[Θ₁,…,Θ_M]，E表示预训练语言模型的Embedding层；

基于编码器-解码器的预训练语言模型如T5的文本表征为：

F_t＝Ψ(E(T))

这里Ψ为预训练语言模型的编码器。

3.如如权利要求1所述的一种面向视觉-语言任务的预训练语言模型适配方法，其特征在于：在步骤3中，所述使用跨模态注意力层φ生成轻量级的动态视觉提示，具体步骤为：使用跨模态注意力层φ，将F_t作为查询向量query，F_v作为键向量key和值向量key，进而提取轻量级的动态视觉提示；

所述提取轻量级的动态视觉提示，跨模态注意力层生成轻量级的动态视觉提示F_DVP的计算公式为：

F_DVP＝Concat(head₁,..,head_h)W_O

其中d为特征的维度，即768；n是注意力头的个数；W_O∈R^d×d，

4.如权利要求1所述的一种面向视觉-语言任务的预训练语言模型适配方法，其特征在于：在步骤5中，在每个迭代t上，偏好H中第K层的权值π_t(K)计算公式为：

采样n次后，基于R_t对偏好H进行更新的公式为：

H_t+1(K)＝H_t(K)+α(R_t-R_b)π_t(K)(1-π_t(K))

5.如权利要求1所述的一种面向视觉-语言任务的预训练语言模型适配方法，其特征在于：在步骤6中，所述Adapter模块由一个下采样层一个上采样层/> 和一个激活函数σ组成，定义Adapter模块的输入为/>那么Adapter的输出O的计算公式为：

O＝X+W_U(σ(W_D(X)))。