CN114996502A

CN114996502A - 一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备

Info

Publication number: CN114996502A
Application number: CN202210718706.6A
Authority: CN
Inventors: 张建庆; 张飞飞; 徐常胜
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-09-02

Abstract

本发明公开了一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备。视觉常识推理部分使用预训练模型提取图像和文本的特征，得到视觉模态和文本模态的联合表示，再使用多类交叉熵损失函数进行优化训练；然后对视觉常识推理原始数据集进行处理，以用于图文匹配模块；图文匹配部分，先提取图像的像素级特征作为全局特征，提取图像的区域级特征作为局部特征，再通过对比学习损失函数对图文匹配进行优化训练；最后通过参数共享实现图文匹配和视觉常识推理双向促进。本发明提高了模型对多样化的视觉内容和高级文本语义联合推理能力，使模型更好地对齐两种模态。通过图文匹配和视觉推理双向促进，提高视觉常识推理任务的性能。

Description

一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备

技术领域

本发明属于多媒体计算领域，具体涉及一种联合图文匹配和视觉推理的多任务学习模型、视觉常识推理方法及计算机设备。

背景技术

随着社交网络中多模态数据量急剧增长，为有效地分析异构模态的数据，许多具有挑战性的任务被关注和研究。视觉常识推理(Visual Commonsense Reasoning，VCR)和图文匹配(Image Text Matching)正是其中的两项任务，是目前国内外的研究热点。视觉常识推理即给定有关某张图像的一个问题，视觉常识推理模型不仅需要提供正确的答案，还需要提供合理的理由来证明该答案。图文匹配则是给定一张图像和一个文本描述，模型需要计算出这两种模态的数据是否相似。近年来，随着深度学习技术的发展，视觉常识推理任务和图文匹配模型取得了丰硕的进展。但是视觉常识推理任务仍是一个具有挑战性的问题，因为它需要全面理解图像中多样化的视觉内容、语义丰富的语言表达以及复杂的跨模态关系。图文匹配任务相对取得了更好的研究成果，本发明希望使用图文匹配去提升视觉常识推理模型的性能。

为了解决上述挑战，目前的方法求助于整体注意力机制，或探索具有大规模预训练的基于Transformer的模型，但是很少有研究人员将视觉推理任务和图文匹配任务联合起来去研究，由于图文匹配也需要对图像特征进行全面且细粒度的学习，所以本发明认为通过图文匹配对视觉推理任务可以起到一个促进作用。因此，对图文进行更全面的理解并学习从而得到更具判别力的特征表示对于视觉常识推理任务是十分重要的。

为了得到视觉模态和语言模态中的细粒度信息，提出了采用多层级的形式去全方位的进行特征表示；图文匹配任务需要视觉模态和语言模态之间的高度对齐，同样VCR任务也需要实现这两个模态高度对齐进而挖掘深层的语义信息，所以本发明提出了一个模型实现图文匹配和视觉常识推理的相互促进的多任务学习框架。因此，本发明设计了一种联合图文匹配和视觉推理的多任务学习方法来提高视觉常识推理模型的特征学习和理解推理能力从而提高模型的整体性能。

发明内容

针对以上问题，本发明主要侧重视觉常识推理任务，本发明的目的是利用图文匹配模块去增强视觉常识推理模块的表现力，通过将问题和响应合并转为一种全文本的形式输入到图文匹配模块中，得到更高层级的文本语义和复杂的跨模态间关系的联合建模，从而学习更具判别力的特征表示，得到一个鲁棒且高性能的视觉常识推理模型。实现本发明的技术方案如下：

一种联合图文匹配和视觉推理的多任务学习模型，该模型由以下步骤得到：

步骤S1：使用预训练模型提取原始图片和文本的特征，并得到视觉模态和文本模态的联合表示；

步骤S2：使用多类交叉熵损失函数对视觉常识推理进行优化训练；

步骤S3：对视觉常识推理原始数据集进行数据处理，使之用于图文匹配模块；

步骤S4：提取图像的像素级特征作为全局特征，提取图像的区域级特征作为局部特征；

步骤S5：通过对比学习损失函数对图文匹配进行优化训练；

步骤S6：通过参数共享实现图文匹配和视觉常识推理的双向促进，将上述所有部分整合到一个统一框架得到多任务学习模型，并进行多任务学习模型的整体训练。

以上过程均在具体实施方式部分作详细说明。

本发明利用上述多任务学习模型进行视觉常识推理的方法如下：

对于任意一组图像、问题，其中一个候选答案，首先采用步骤s1和s4的特征提取方法提取图像和文本的特征，并得到其跨模态联合表示，然后根据步骤s2，使模型计算出当前候选答案为正确答案的概率，然后根据s4提取图像的局部特征和全局特征将提取好的全局特征和局部特征按照步骤S5的方法进行图像和文本的局部对齐和全局对齐并且计算出图像和文本的相似度，根据相似度最大时得出视觉常识推理结果。

本发明基于上述模型和方法，还提出了一种计算机设备，所述计算机设备内置所述的一种联合图文匹配和视觉推理的多任务学习模型的执行指令代码或存储程序代码、或者所述的视觉常识推理方法的执行指令代码或存储程序代码。

本发明的有益效果：

(1)本发明提出了一个联合图文匹配和视觉推理的多任务学习模型，提高了模型对多样化的视觉内容，和高级的文本语义联合理解的推理能力。

(2)本发明将图文匹配任务引用到视觉常识推理任务中，增强了模型的感知能力，有助于模型更有效地对齐两种模态特征。

(3)本发明将通过图文匹配和视觉推理进行联合训练从而双向促进，这进一步提高了视觉常识推理的性能。

附图说明

图1是本发明基于一个联合图文匹配和视觉推理的多任务学习模型的框架图。

具体实施方式

下面结合附图对本发明作进一步说明。

图1为本发明提出的联合图文匹配和视觉推理的多任务学习模型的框架图，所述模型利用视觉常识推理和图文匹配联合学习得到更加丰富全面的特征表示，所述模型由以下步骤得到：

步骤S1，使用预训练模型提取原始图片和文本的特征；

所述步骤S1进一步包括以下步骤：

步骤S1-1：对训练数据中的每一个问题，及其对应的图片和四个选项，提取其问题特征

图像特征

和四个选项特征

这里D_q,D_o,D_r代表特征的维度。在实施例中，图像特征可以通过ResNet101提取、以及拼接处理，得到512维视觉特征(即D_o＝512)，问题特征和选项特征可以通过BERT提取、以及拼接处理，得到512维文本特征。

步骤S1-2：将根据步骤S1-1得到的文本特征q(或r)和图像特征o，使用联合编码器f(·；θ)将句子中的每个单词的嵌入表示和它所对应的局部图像表示进行连接，将连接得到的特征表示再通过一个长短时记忆网络(LSTM)进行转换，LSTM每个单元的输出进行池化得到最终的联合嵌入表示f((o,q)；θ),f((o,r)；θ)，其中θ为训练过程中的参数。

步骤S2，如图1所示，使用多类交叉熵损失函数对视觉常识推理进行优化训练；

所述步骤S2进一步包括以下步骤:

步骤S2-1：将步骤S1-2得到的两个联合嵌入表示送入多层感知机MLP中进行概率分数计算，再将该分数使用softmax函数进行归一化操作。具体如下：

这里的

表示归一化的结果，w_o和w_q是两个映射矩阵，可以稳定训练，所使用的MLP由两个全连接层构成。

步骤S2-2：利用一个交叉熵损失函数，对基于融合后的特征和选项特征的视觉常识推理进行约束，损失函数的定义如下：

这里的f(·)为分类函数，y_i是选项r_i的真实结果，L₁是基本的视觉常识推理的分类损失函数。

步骤S3，如图1中的文本形式转化部分所示，对视觉常识推理原始数据集进行数据预处理，使之用于图文匹配；

所述步骤S3进一步包括以下步骤：

步骤S3-1：从视觉常识推理数据集文件中提取初始的问题、正确响应句子。将问题和正确响应进行连接得到“全文本”字幕描述表示为c，以一行代表一个文本描述的形式保存至文本文件中，从而构成了图文匹配模块所需的文本描述。

步骤S3-2：在完成S3-1之后，由于在传统的图文匹配任务中一张图片对应五个正确描述，而在视觉常识推理数据集中有些图像对应两个问题，有些图片对应三个问题，为了实现所需要的图像和文本描述索引号的一一对应，将图像进行复制实现一张图片只对应一个正确的文本描述。所以需从原始视觉常识推理模块的数据集中提取图像和对应描述的分别对应的索引号，作为正样本的标签存入json文件中，针对当前图像对应的相同索引号的描述为正样本之外，其余均为负样本。

步骤S4，如图1中的图文匹配模块部分所示，提取图像的像素级特征作为全局特征，提取图像的区域级特征作为局部特征；

所述步骤S4进一步包括以下步骤：

步骤S4-1：在图文匹配部分，首先提取图像的像素级特征。对于像素级特征，本发明对CNN骨干网络进行调整，将输入图像的分辨率提高到512×512。用两个不同的CNN进行处理:FasterRCNN在ImageNet上预训练、自下而上注意力机制(BUTD)和ResNeXT-101(32×8d)在Instagram(WSL)上预训练，联合嵌入空间的维数为1024。使用预提取的对象特征作为区域特征(BUTD feature)。同时，使用BiGRU或BERT-base作为文本特征提取器，实现整张图像和文本描述的全局对齐。具体特征计算公式如下：

其中，x为输入到ConvNet网络中的图像，t为输入到SeqModel模型中的选项或者问题，视觉特征集

是有着

个卷积局部表示，φ_n是来自特征映射函数(feature map)、目标提取框(object proposal)的空间像素级特征向量，N表示提取图像目标候选框的个数；文本特征集

表示从序列模型中取出的上下文化的词标记特征序列，其中M为词数，

d¹和d²是特征维度。

然后将输出的视觉特征集

和文本特征集

通过视觉和文本聚合器f_visual(·)和f_text(·)进行聚合，进一步编码整体视觉和文本，嵌入

如下:

和

为图像的总体特征表示，u为文本的整体特征表示，d³表示将

映射到同一嵌入空间后的维度。

步骤S4-2：在图文匹配部分，再提取图像的区域特征。使用目标检测模型fasterRCNN提取ROI特征作为局部特征，实现图像中关键对象和文本描述中重点单词的局部对齐；

步骤S5，如图1中的图文匹配模块部分所示，通过对比学习损失函数对图文匹配模块进行优化训练；

所述步骤S5进一步包括以下步骤：

步骤S5-1：通过步骤S4-1提取到图像的像素级特征以后，除了与当前图像对应的描述为正样本，其余均为负样本，假设正确的对应描述的id为i,则正负样本的特征分别为步骤S3-1中的c_i和{c₁,c₂,...,c_i-1,c_i+1,...,c_n}。基于这些特征构建整个图像和整个句子之间的对比学习，建模不同模态间的关系并增强语言语义的理解，具体的对比损失函数如下：

这里的s(·)为相似性度量函数，τ为温度参数，τ为0.2。

步骤S5-2：通过步骤S4-2提取到图像的区域特征以后，除了与当前图像对应的描述为正样本，其余均为负样本，假设正确的对应描述的id为j,则正负样本的特征分别为步骤S3-1中的c_j和{c₁,c₂,...,c_j-1,c_j+1,...,c_n}。基于这些特征构建图像区域-单词之间的对比学习，建模不同模态间的关系并增强语言语义的理解，具体的对比损失函数如下：

这里的s(·)为相似性度量函数，τ为温度参数，τ为0.2。

步骤S6，如图1中的联合训练部分所示，通过参数共享实现图文匹配和视觉常识推理的双向促进，将上述所有部分整合到一个统一框架，进行多任务学习模型的整体训练。

所述步骤S6进一步包括以下步骤：

统一框架的整合得到多任务学习模型，即优化以下损失函数：

L＝L₁+λ₁L_{g_sim}+λ₂L_{l_sim}

这里的λ₁,λ₂是平衡化参数，λ₁＝0.6，λ₂＝0.4，L₁是视觉常识推理的损失函数，L_{g_sim}是整个图像和整个句子之间的对比损失函数，L_{l_sim}是图像区域和单词之间的对比损失函数。

对于任意一组图像、问题，其中一个候选答案，首先采用步骤s1和s4的特征提取方法提取图像和文本的特征，并得到其跨模态联合表示，然后根据步骤s2，使模型计算出当前候选答案为正确答案的概率，然后根据s4提取图像的局部特征和全局特征将提取好的全局特征和局部特征按照步骤S5的方法进行图像和文本的局部对齐和全局对齐并且计算出图像和文本的相似度，最后根据交叉熵损失函数和三元排序损失函数得出视觉常识推理结果。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种联合图文匹配和视觉推理的多任务学习模型，其特征在于，该模型由如下步骤得到：

S1：提取原始图片和文本的特征，并得到视觉模态和文本模态的联合表示；

S2：使用多类交叉熵损失函数对视觉常识推理进行优化训练；

S3：对视觉常识推理原始数据集进行数据处理，使之用于图文匹配；

S4：提取图像的像素级特征作为全局特征，提取图像的区域级特征作为局部特征；

S5：通过对比学习损失函数对图文匹配进行优化训练；

S6：通过参数共享实现图文匹配和视觉常识推理的双向促进，融合上述过程得到多任务学习模型。

2.根据权利要求1所述的一种联合图文匹配和视觉推理的多任务学习模型，其特征在于，所述S1的具体实现包括：

所述步骤S1进一步包括以下步骤：

S1-1：对训练数据中的每一个问题，及其对应的图片和四个选项，提取其问题特征

图像特征

和选项特征

这里D_q，D_o，D_r代表特征的维度；图像特征可以通过ResNet101进行提取以及拼接处理，得到512维视觉特征(即D_o＝512)，问题和选项特征可以通过BERT提取以及拼接处理，得到512维文本特征；

S1-2：将步骤S1-1得到的文本特征q(或r)和图像特征o，使用联合编码器f(·；θ)将句子中的每个单词的嵌入表示和它所对应的局部图像表示进行连接，将连接得到的特征表示再通过一个长短时记忆网络(LSTM)进行转换，LSTM每个单元的输出进行池化得到最终的联合表示f((o，q)；θ)，f((o，r)；θ)。

3.根据权利要求2所述的一种联合图文匹配和视觉推理的多任务学习模型，其特征在于，所述S2的具体实现包括：

S2-1：将步骤S1-2得到的联合嵌入表示送入一个多层感知机MLP中进行分数计算，再将该分数使用softmax函数进行归一化操作，具体如下：

这里的w_o和w_q是两个映射矩阵；

S2-2：使用交叉熵损失函数对基于融合后的特征和选项特征的视觉常识推理进行约束，损失函数定义如下：

这里的f(·)为分类函数，y_i是选项r_i的真实结果，L₁是基本的视觉常识推理的分类损失。

4.根据权利要求1所述的一种联合图文匹配和视觉推理的多任务学习模型，其特征在于，所述S3的具体实现包括：

S3-1：从视觉常识推理数据集文件中提取初始未做任何处理的问题、正确响应句子，将问题和正确响应进行连接得到“全文本”字幕描述表示为c，以一行代表一个文本描述的形式保存至文本文件中，从而构成了图文匹配所需的文本描述；

S3-2：为实现所需要的图像和文本描述索引号的一一对应，将图像进行复制实现一张图片只对应一个正确的文本描述，所以从原始视觉常识推理的数据集中提取每张图像的id号和每个描述的id号，作为正样本的标签存入json文件中，针对当前图像对应的相同索引号的描述为正样本之外，其余均为负样本。

5.根据权利要求4所述的一种联合图文匹配和视觉推理的多任务学习模型，其特征在于，所述S4的具体实现包括：

S4-1：在图文匹配部分，首先提取图像的像素级特征，对于像素级特征，通过对CNN骨干网络进行调整，将输入图像的分辨率提高到512×512，用两个不同的CNN进行处理：FasterRCNN在ImageNet上预训练，自下而上注意力机制(BUTD)和ResNeXT-101(32×8d)在Instagram(WSL)上预训练，联合嵌入空间的维数设为1024；使用预提取的对象特征作为区域特征(BUTD feature)；同时，使用BiGRU或BERT-base作为文本特征提取器，实现整张图像和文本描述的全局对齐，具体特征计算公式如下：

ConvNet(x)：

SeqModel(t)：

其中，视觉特征集

是有着

个卷积局部表示，φ_n可以是来自特征映射函数(feature map)、目标提取框(object proposal)的空间像素级特征向量；文本特征

d¹和d²是特征维度；

然后将输出的视觉特征

和文本特征

通过视觉聚合器f_visual(·)和文本聚合器f_text(·)进行聚合，进一步编码整体视觉和文本嵌入

如下：

和

步骤S4-2：在图文匹配部分，再提取图像的区域特征；使用目标检测模型faster RCNN提取ROI特征作为局部特征，实现图像中关键对象和文本描述中重点单词的局部对齐。

6.根据权利要求5所述的一种联合图文匹配和视觉推理的多任务学习模型，其特征在于，所述S5的具体实现包括：

S5-1：通过步骤S4-1提取到图像的像素级特征以后，只有与本图像id号一致的文本描述为正样本，其余均为负样本，假设正确的对应描述的id为i，则正负样本的特征分别为步骤S3-1中的c_i和{c₁，c₂，...，c_i-1，c_i+1，...，c_n}，基于这些特征构建整个图像和整个句子之间的对比学习，建模不同模态间的关系并增强语言语义的理解，具体的对比损失函数如下：

这里的s(·)为相似性度量函数，τ为温度参数；

S5-2：通过步骤S4-2提取到图像的区域特征以后，除了与当前图像对应的描述为正样本，其余均为负样本，假设正确对应描述对应id为j，则正负样本的特征分别为步骤S3-1中的c_j和{c₁，c₂，...，c_j-1，c_j+1，...，c_n}，基于这些特征构建图像区域-单词之间的对比学习，建模不同模态间的关系并增强语言语义的理解，具体的对比损失函数如下：

这里的s(·)为相似性度量函数，τ为温度参数。

7.根据权利要求6所述的一种联合图文匹配和视觉推理的多任务学习模型，其特征在于，所述S6的具体实现包括：所述多任务学习模型通过以下融合方式得到：

L＝L₁+λ₁L_{g_sim}+λ₂L_{l_sim}

这里的λ₁，λ₂是平衡化参数，L₁是视觉常识推理的损失函数，L_{g_sim}是整个图像和整个句子之间的对比损失函数，L_{l_sim}是图像区域和单词之间的对比损失函数。

8.根据权利要求1-7任一项所述的一种联合图文匹配和视觉推理的多任务学习模型的视觉常识推理方法，其特征在于，

对于任意一组图像、问题，其中一个候选答案，首先采用步骤s1和s4提取图像和文本的特征，并得到其跨模态联合表示，然后根据步骤s2，使模型计算出当前候选答案为正确答案的概率，然后根据s4提取图像的局部特征和全局特征，将提取好的全局特征和局部特征按照步骤S5的方法进行图像和文本的局部对齐和全局对齐并且计算出图像和文本的相似度，根据相似度最大时得出结果。

9.一种计算机设备，其特征在于，所述计算机设备内置权利要求1-7任一项所述的一种联合图文匹配和视觉推理的多任务学习模型的执行指令代码或存储程序代码、或者权利要求8所述的视觉常识推理的执行指令代码或存储程序代码。