CN117421591A

CN117421591A - 一种基于文本引导图像块筛选的多模态表征学习方法

Info

Publication number: CN117421591A
Application number: CN202311334146.5A
Authority: CN
Inventors: 才华; 易亚希; 付强; 马智勇; 王伟刚; 刘广文
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-19

Abstract

本发明一种基于文本引导图像块筛选的多模态表征学习方法，属于计算机技术领域；包括准备预训练数据集，构建多模态预训练表征模型，对图像和文本进行特征提取，通过文本语义感知的图像块选择模块和视觉令牌摘要模块，获得与文本特征高度相关的图像特征。将文本特征和图像特征投影到公共嵌入空间，结合图文对比损失进行模态对齐。再将对齐后的特征送入跨模态编码器，结合图文匹配损失训练模型学习多模态表示。最后将多模态表示送入跨模态解码器进行语言建模。本发明通过文本特征引导模型聚焦于与文本相关性高的图像块，减少视觉序列中的冗余信息，提升模型计算效率，实现高效的细粒度交互，从而获得更好的多模态表示。

Description

一种基于文本引导图像块筛选的多模态表征学习方法

技术领域

本发明属于计算机技术领域，尤其涉及基于文本引导图像块筛选的多模态表征学习方法。

背景技术

图像-文本多模态表征学习是计算机视觉和自然语言处理领域的研究热点之一，它旨在学习一个多模态表示来提高各种视觉和语言任务的性能。近年来，预训练-微调(Pretrain-finetune)的范式变得流行起来。这种方法首先在大规模通用数据集上对庞大的模型进行预训练，然后在具体的下游任务上进行微调，从而增强模型的泛化能力。

受此启发，许多研究已经尝试在图像-文本多模态数据集上对模型进行预训练，通过联合学习图像和文本数据，从大规模未标记数据中提取丰富的语义信息，为视觉和语言领域的任务提供强大的表征能力。然而，以往的图像-文本预训练表征学习主要使用预训练好的特征提取模型如Vision Transformer(ViT)和BERT来提取图像和文本的单模态信息，然后将提取到的图像、文本全局语义表示通过图文对比学习进行粗粒度的模态对齐，而图像区域和单词之间更细粒度的语义交互通过注意力机制实现。

ViT作为图像编码器，能够将图像分成图像块来建模细粒度的长视觉序列。但是，长视觉序列在图像表示建模和跨模态融合时需要进行大量的自注意力计算，从而导致训练时间长。同时，长视觉序列中包含许多与文本语义无关的冗余图像块，这些与文本无关的图像块将阻碍文本和图像之间的细粒度对齐，并且在可能会导致跨模态融合过程中简短的语言信号(例如，图像的简短标题)被复杂的视觉信息所掩盖。

为解决长视觉序列带来的问题，计算机视觉领域提出了一种方法，即通过来自ViT主干的视觉全局语义表示来选择相对重要的图像块，从而减少视觉序列长度。然而，不同于视觉的单模态任务，图像-文本多模态任务中，图像块的选择与文本上下文密切相关，并且单个图像对应的不同文本可能集中在图像内容中的不同部分。目前的方法大多集中于计算机视觉单模态领域，研究如何利用图像特征对长视觉序列进行修剪，不适用于图像-文本多模态表征任务。仅考虑图像特征而不考虑文本特征，模型无法根据不同文本输入，保留不同的图像标记，可能造成大的信息丢失，导致图像表示和文本表示不能完美地对齐到相同的语义空间，影响模型的跨模态交互性能，不利于多模态表征的学习。

发明内容

本发明目的在于提供一种基于文本引导图像块筛选的多模态表征学习方法，以解决现有的多模态表征学习算法中由于长视觉序列引起的计算复杂度高和模态间细粒度对齐困难的技术问题。

为实现上述目的，本发明的基于文本引导图像块筛选的多模态表征学习方法的具体技术方案如下：

一种基于文本引导图像块筛选的多模态表征学习方法，包括以下步骤，且以下步骤顺序进行:

步骤S1、多模态数据涉及图像和文本两个模态，收集人工标注的图像-文本对(I，T)作为预训练数据集；

步骤S2、构建多模态预训练表征模型，所述多模态预训练表征模型包括图像编码器、文本编码器、文本语义感知的图像块选择模块、视觉摘要模块、跨模态编码器以及跨模态解码器；将所述步骤S1中获得的人工标注的图像-文本对(I，T)作为输入，分别送入图像编码器和文本编码器；所述图像编码器采用预训练的ViT；

步骤S3、在所述步骤S2中ViT的第j-1和第j层transformer层之间加入一层交叉注意力块和一层图像令牌选择块作为文本语义感知的图像选择模块；

将ViT第j-1层输出的图像特征被馈送到交叉注意力层作为键向量(K)和值向量(V)，文本编码器输出的全局语义表示t_cls通过交叉注意力层的查询线性层线性投影为查询向量(Q_text)；按公式(3)计算得到文本到图像块的注意映射，即文本与每个图像块的注意力得分：

其中，表示前一层ViT的输出特征；

根据注意力得分a_cls＝{a₁，..a_n}，保留注意力得分较高的图像令牌，并融合注意力得分较低的图像令牌，重构视觉序列，有效滤除部分与文本无关的冗余图像块，然后将新的视觉序列送入后续ViT层继续进行编码，最终ViT输出与文本相关度高的视觉序列；

步骤S4、依据所述步骤S3中文本到图像块的注意力得分a_cls＝{a₁，..a_n}，在ViT输出序列{v_cls，v₁，…，v_u，v_H}中进一步选取与文本高度相关的前s个图像块令牌作为视觉令牌摘要模块的输入，指导模块压缩视觉信息，通过交叉注意力机制，将较长的视觉序列用较短的向量表示，获得长度为s+1的输出序列作为最终的图像表示；

步骤S5，所述步骤S4获得的图像I的全局语义表示与所述步骤S2获得的文本T的全局语义表示t_cls经过单层感知机映射到一个公共嵌入空间，进行图文对比学习。通过优化图文对比损失函数来训练模型学习不同模态间的语义关联性和差异性。在图文对比损失计算过程中，若图像I与文本T相匹配，则尽可能地最大化它们之间的相似度，否则，最小化它们之间的相似度，实现模态间的粗粒度对齐；

步骤S6、所述步骤S5获得的对齐后的图像-文本表示送入跨模态编码器，跨模态编码器由多头自注意力层、交叉注意力层和前馈层组成，文本表示与图像表示经过跨模态的交叉注意力层进行模态间的细粒度交互和融合，并通过预训练目标“图像-文本匹配”训练模型学习多模态表示；

步骤S7、所述步骤S6获得的包含图像与文本两种模态信息的多模态表示{d_cls，d₁，d₂，...，d_m}输入至跨模态解码器进行“语言建模”，训练模型解码生成文本；

至此，基于文本引导图像块筛选的多模态表征学习方法完成。

进一步，所述步骤S2中，包括以下步骤：

步骤S2-1、对于输入的图像采用预训练的视觉Transformer(Vision Transformer，ViT)作为图像编码器，将输入图像分成N个不重叠的图像块把每个图像块展平成二维的视觉序列，并将可学习的[CLS]标记放在视觉序列前面作为图像的全局语义令牌；输入的视觉序列表示如下：

V＝{v_cls，v，v₂，…，v_n} (1)

其中，v_cls表示输入图像的全局语义令牌，v_1，2...，n表示N个不重叠图像块的视觉令牌。

步骤S2-2、对于输入文本T，采用预训练的双向编码器(Bidirectional EncoderRepresentation from Transformers，BERT)的作为文本编码器，对输入文本采用字节级字节对编码(BPE)标记化；输入的文本序列表示如下：

T＝{t_cls，t₁，t₂，…，t_m} (2)

其中，t_cls表示输入文本的全局语义令牌，t_1，2...，m表示m个字节对的文本令牌。

进一步，所述步骤S4中s＝γ*u，γ是视觉令牌的选择比例，默认为30％；将输入到三个堆叠的transformer块中，在每个transformer块中，首先经过自注意力层，获取更多有效的上下文特征，然后再与输出序列{v_cls，v₁，…，v_u，v_H}通过公式(4)进行交叉注意力计算：

其中，为/>经查询矩阵/>线性变换得到的查询向量，K和V为{v_cls，v₁，…，v_u，v_H}经键矩阵/>和值矩阵/>线性变换得到的键、值向量。

进一步，所述步骤S6中的“图像-文本匹配”包括以下步骤：

通过文本表示与图像表示获得包含两个模态信息的多模态表示D＝{d_cls，d₁，d₂，...，d_m}，并应用一个全连接FC层和Softmax来预测图像-文本是否匹配，通过公式(5)图像-文本匹配损失学习多模态表示：

其中，p^itm为预测两类的概率，H为交叉熵，y^itm表示ground-truth，当图像-文本相匹配时，y^itm为1，当图像-文本不匹配时，y^itm为0。

进一步，所述步骤S7中的“语言建模”具体包括以下步骤：

利用交叉熵损失以自回归的方式最大化文本似然性，语言建模损失如公式(6)所示：

其中，P(w_i|w₁，w₂，...，w_i-1；θ)表示在给定模型参数θ下，根据上下文w₁，w₂，...，w_i-1预测下一个词w_i的概率；N表示文本中词的总数，i表示当前词的位置；的目标是最大化在给定上下文中预测下一个词的概率，从而训练模型生成连贯、准确的文本描述。

本发明的基于文本引导图像块筛选的多模态表征学习方法具有以下优点：本发明基于文本引导图像块筛选的多模态表征学习方法，使用预训练的ViT和BERT分别作为图像编码器和文本编码器，在ViT主干中插入文本语义感知的图像块选择模块，可以在ViT编码过程中，通过文本语义信息的指导，帮助模型聚焦与文本相关性高的图像块，一定程度上，能有效减少视觉序列长度，提高ViT和后续跨模态编码器中自注意力与交叉注意力的计算效率。需要注意的是，在ViT主干中删除过多的图像令牌会导致图像的结构信息丢失，影响隐藏表示的分布，本发明在ViT的主干外加入视觉令牌摘要模块，选取ViT输出序列的部分图像块令牌作为输入，利用交叉注意力机制将较长的图像特征概括为少量的图像标记，实现对视觉信息的高效建模。两个模块协同作用，保留图像端与文本相关的图像信息，滤除无关的冗余图像信息，降低模型的计算量，帮助模型更好的进行模态间细粒度交互，减少文本信息被视觉信息多模态表示。

附图说明

图1为本发明基于文本引导图像块筛选的多模态表征学习方法的框架图。

图2为本发明基于文本引导图像块筛选的多模态表征学习方法的文本语义感知的图像块选择模块结构示意图。

图3为本发明基于文本引导图像块筛选的多模态表征学习方法的视觉令牌摘要模块结构示意图。

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于文本引导图像块筛选的多模态表征学习方法做进一步详细的描述。

如图1所示，本发明一种基于文本引导图像块筛选的多模态表征学习方法，具体地，包含以下步骤，并按以下步骤依次执行：

步骤S1，本发明的多模态数据涉及图像和文本两个模态，收集大量相匹配的图像-文本对(I，T)作为多模态预训练数据集，例如一张包含狗和草地的图像与一段“狗在草地上玩耍”的文本。

步骤S2，构建多模态预训练表征模型，所述多模态预训练表征模型包括图像编码器、文本编码器、文本语义感知的图像块选择模块、视觉摘要模块、跨模态编码器以及跨模态解码器。步骤S1中获得的图像-文本对(I，T)作为输入，分别送入图像编码器和文本编码器。

对于输入的图像本发明采用预训练的ViT作为图像编码器，将输入图像分成N个不重叠的图像块/>把每个图像块展平成二维的视觉序列，并将可学习的[CLS]标记放在视觉序列前面作为图像的全局语义令牌。输入的视觉序列表示如下：

V＝{v_cls，v，v₂，…，v_n) (1)

对于输入文本T，本发明采用预训练的BERT的作为文本编码器，对输入文本采用字节级字节对编码(BPE)标记化。输入的文本序列表示如下：

T＝{t_cls，t₁，t₂，…，t_m} (2)

步骤S3，在所述步骤S2中ViT的第j-1和第j层transformer层之间加入一层交叉注意力块和一层图像令牌选择块作为文本语义感知的图像选择模块。

将ViT第j-1层输出的图像特征被馈送到交叉注意力层作为键向量(K)和值向量(V)，文本端输出的全局语义表示t_cls通过交叉注意力层的查询线性层线性投影为查询向量(Q_text)。按如下公式计算得到文本到图像块的注意映射，即文本与每个图像块的注意力得分：

其中，表示前一层ViT的输出特征；

根据注意力得分a_cls＝{a₁，..a_n}，对其中u个最大注意力元素对应的图像令牌进行保留，其中u＝n×r，r为该层的保持率。对未选中的图像令牌通过如下公式进行融合操作：

融合未选中的图像令牌后，将ViT中第j-1层输出的视觉序列重构为有效滤除部分与文本无关的冗余图像块，然后将新的视觉序列送入第j层ViT中继续进行编码，最终ViT输出与文本相关度高的视觉序列{v_cls，v₁，…，v_u，v_H}。

步骤S4，依据所述步骤S3中文本到图像块的注意力得分a_cls＝{a₁，..a_n}，在ViT输出序列{v_cls，v₁，…，v_u，v_H}中进一步选取与文本高度相关的前s个图像块令牌作为视觉令牌摘要模块的输入，其中s＝γ*u，γ是视觉令牌的选择比例，默认为30％。这些前s个图像块令牌可以为视觉令牌摘要模块提供强有力的先验，指导模块压缩视觉信息。将/>输入到三个堆叠的transformer块中，在每个transformer块中，/>首先经过自注意力层，获取更多有效的上下文特征，然后再与输出序列{v_cls，v₁，…，v_u，v_H}通过如下公式进行交叉注意力计算：

最后，视觉令牌摘要模块的输出长度为s+1特征序列作为最终的图像表示。

步骤S5，所述步骤S4获得的图像I的全局语义表示与所述步骤S2获得的文本T的全局语义表示t_cls经过单层感知机映射到一个公共嵌入空间，进行图文对比学习。通过优化图文对比损失函数来训练模型学习不同模态间的语义关联性和差异性。在图文对比损失计算过程中，若图像I与文本T相匹配，则尽可能地最大化它们之间的相似度，否则，最小化它们之间的相似度，实现模态间的粗粒度对齐。

图文对比学习的目的是最大化正样本的相似度，最小化负样本的相似度，实现途径是优化图文对比损失。

由于一张图和一段文本没法体现正、负样本，所以本发明通过“具体地”，引出模型实际训练过程中正、负样本是怎么构造的以及具体的图文对比损失函数。

具体地，假设一个训练批次中有M个图像和M个文本，对于该批次中第k个图像I_k，其与对应的第k个文本T_k组成正样本图像-文本对(I_k，T_k)，与该批次中其它文本组成负样本图像-文本对，即该训练批次中包含M个正样本对和M²-M个负样本对。将所有图像-文本表示投影到公共嵌入空间，进行图文对比学习。图文对比损失函数公式如下所示：

其中τ是可学习的温度参数，为图像I_k映射到公共嵌入空间的全局语义表示，为文本T_k映射到到公共嵌入空间的全局语义表示，s(·，·)表示相似度函数，/>为图像I_k到文本的对比损失，/>为文本T_k到图像的对比损失，/>为该批次的总损失。

在模型训练过程中，通过最小化图文对比损失，使得正样本的图像表示和文本表示尽可能相近，从而学习到两个模态之间的语义关联性，负样本的图像表示和文本表示尽可能相异，从而学习到不同实体之间的差异性，粗粒度地对齐两个模态的表示。

步骤S6，所述步骤S5获得的对齐后的图像-文本表示送入跨模态编码器，通过图像-文本匹配的预训练目标学习多模态表示。跨模态编码器由多头自注意力层、交叉注意力层和前馈层组成，文本表示与图像表示经过跨模态的交叉注意力层进行模态间的细粒度交互和融合，获得包含两个模态信息的多模态表示D＝{d_cls，d₁，d₂，...，d_m}，并应用一个全连接(FC)层和Softmax来预测图像-文本是否匹配，通过如下所示的图像-文本匹配损失学习多模态表示：

步骤S7，所述步骤S6获得的包含图像与文本两种模态信息的多模态表示{d_cls，d₁，d₂，...，d_m}输入至跨模态解码器进行“语言建模”，利用交叉熵损失以自回归的方式最大化文本似然性，语言建模损失如下式所示：

其中，P(w_i|w₁，w₂，...，w_i-1；θ)表示在给定模型参数θ下，根据上下文w₁，w₂，...，w_i-1预测下一个词w_i的概率。N表示文本中词的总数，i表示当前词的位置。的目标是最大化在给定上下文中预测下一个词的概率，从而训练模型生成连贯、准确的文本描述。

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于文本引导图像块筛选的多模态表征学习方法，其特征在于，包括以下步骤，且以下步骤顺序进行:

步骤S1、多模态数据涉及图像和文本两个模态，收集人工标注的图像-文本对作为预训练数据集；

步骤S2、构建多模态预训练表征模型，所述多模态预训练表征模型包括图像编码器、文本编码器、文本语义感知的图像块选择模块、视觉摘要模块、跨模态编码器以及跨模态解码器；将所述步骤S1中获得的人工标注的图像-文本对作为输入，分别送入图像编码器和文本编码器；所述图像编码器采用预训练的ViT；

将ViT第j-1层输出的图像特征被馈送到交叉注意力层作为键向量K和值向量V，文本编码器输出的全局语义表示t_cls通过交叉注意力层的查询线性层线性投影为查询向量Q_text；按公式(3)计算得到文本到图像块的注意映射，即文本与每个图像块的注意力得分：

其中，表示前一层ViT的输出特征；

步骤S4、依据所述步骤S3中文本到图像块的注意力得分a_cls＝{a₁，..a_n}，在ViT输出序列{v_cls，v₁，…，v_u，v_H}中进一步选取与文本高度相关的前s个图像块令牌作为视觉令牌摘要模块的输入，指导模块压缩视觉信息，通过交叉注意力机制，将较长的视觉序列{v_cls，v₁，…，v_u，v_H}用较短的向量/>表示，其中s<u，获得长度为s+1的输出序列/>作为最终的图像表示；

步骤S5，所述步骤S4获得的图像I的全局语义表示与所述步骤S2获得的文本T的全局语义表示t_cls经过单层感知机映射到一个公共嵌入空间，进行图文对比学习；通过优化图文对比损失函数来训练模型学习不同模态间的语义关联性和差异性；在图文对比损失计算过程中，若图像I与文本T相匹配，则尽可能地最大化它们之间的相似度，否则，最小化它们之间的相似度，实现模态间的粗粒度对齐；

2.根据权利要求1所述的基于文本引导图像块筛选的多模态表征学习方法，其特征在于，所述步骤S2中，包括以下步骤：

步骤S2-1、对于输入的图像采用预训练的视觉Transformer作为图像编码器，将输入图像分成N个不重叠的图像块/>把每个图像块展平成二维的视觉序列，并将可学习的[CLS]标记放在视觉序列前面作为图像的全局语义令牌；输入的视觉序列表示如下：

V＝{v_cls，v，v₂，…，v_n} (1)

其中，v_cls表示输入图像的全局语义令牌，v_1，2...，n表示N个不重叠图像块的视觉令牌；

步骤S2-2、对于输入文本T，采用预训练的双向编码器的作为文本编码器，对输入文本采用字节级字节对编码BPE标记化；输入的文本序列表示如下：

T＝{t_cls，t₁，t₂，…，t_m} (2)

3.根据权利要求1所述的基于文本引导图像块筛选的多模态表征学习方法，其特征在于，所述步骤S4中s＝γ*u，γ是视觉令牌的选择比例，默认为30％；将输入到三个堆叠的transformer块中，在每个transformer块中，/>首先经过自注意力层，获取更多有效的上下文特征，然后再与输出序列{v_cls，v₁，…，v_u，v_H}通过公式(4)进行交叉注意力计算：

4.根据权利要求1所述的基于文本引导图像块筛选的多模态表征学习方法，其特征在于，所述步骤S6中的“图像-文本匹配”包括以下步骤：

5.根据权利要求1所述的基于文本引导图像块筛选的多模态表征学习方法，其特征在于，所述步骤S7中的“语言建模”具体包括以下步骤：