CN115146100A

CN115146100A - 一种基于反事实推理的跨模态检索模型、方法及计算机设备

Info

Publication number: CN115146100A
Application number: CN202210716568.8A
Authority: CN
Inventors: 马泽伟; 张飞飞; 徐常胜
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-10-04

Abstract

本发明公开了一种基于反事实推理的跨模态检索模型、方法及计算机设备，包括：提取原始图片和文本的特征，使用反事实对比学习构建样本的正负样本。采用反事实方法分别生成实例级、图像级的正负样本，使模型关注图片细节信息及全局场景信息；生成文本在语义级的反事实样本，构建语义级的对比学习，实现跨模态语义关系；将上述部分融合得到跨模态检索模型并整体训练。本发明将反事实推理的多级对比学习应用在跨模态检索中，构造文本特征和图片特征对齐模块，对生成反事实样本进行指导，分别在实例级、图像级和语义级构建反事实对比样本，通过反事实对比学习，缓解由于数据集的数据分布不均导致的虚假问题，提升模型的语义对齐能力以及模型准确度。

Description

一种基于反事实推理的跨模态检索模型、方法及计算机设备

技术领域

本发明属于多媒体计算领域，具体涉及一种基于反事实推理的跨模态检索模型、方法及计算机设备。

背景技术

伴随着人工智能技术在各个领域的广泛应用，数据呈现形式越来越多样化。文本、图像、视频等多模态数据急剧增长，单一模态数据的信息是有限的，交互的多模态数据能传递更为丰富的信息，同一事物会有多种不同模态数据的描述。这些数据在形式上“异构同源”，而在语义上相互关联，数据内容形式多样化能帮助人对周围世界的感知与理解，因为人们很容易做到不同形式信息对齐与互补从而更加全面准确地学习知识。在人工智能跨模态领域，带来了跨模态检索的迫切需求。跨模态检索是跨模态学习的重要应用之一，又称为跨媒体检索，其特点是训练过程中所有模态的数据都存在，但在测试过程中只有一种模态可用。跨模态检索旨在实现两个不同模态之间的信息交互，其根本目的在于挖掘不同模态样本之间的关系，即通过一种模态样本来检索具有近似语义的另一种模态样本。跨模态检索要求检索集和查询集为不同模态，比如用文本去搜索图片、图片去搜索视频等。如何提取不同模态数据的结构信息以及其深度语义对应关系，进而对其进行建模是提升多模态检索的难点。

近些年来随着因果关系论在深度学习领域的应用，基于因果推理的反事实方法在多模态领域开始被用来不同模态数据间的深层次语义对齐关系。目前已经在很多跨模态子任务比如VQA(Visual Question Answering)中取得了非常好的效果。因果关系具有较强的可解释性，而基于因果的反事实学习是在假设已经存在一个因果关系结构，通过控制变量的方法得到每次的影子投射结果，就可以对历史中不存在的情况进行分布建模，从而能得到无偏估计。Swaminathan等首先定义了在历史记录中进行反事实学习的机器学习框架，并且针对其模型结构在深度学习上进行推广以及进一步归一化。此外，反事实学习也被扩展在表示学习以及日志学习领域。

发明内容

本发明的目的是利用多层级的反事实对比学习来促进模型对多样的图像内容，高层级的文本语义，和复杂的跨模态间关系的联合建模，从而学习更具判别力的特征表示。实现本发明的技术方案如下：

一种基于反事实推理的跨模态检索模型，该模型由以下步骤得到：

步骤S1，分别使用Faster-RCNN模型和经过预训练的Bert模型来提取原始图片特征和文本特征，将得到的图片特征和文本特征独立映射到同一维度之后，各自用四层transformer构成的图片特征编码器和文本特征编码器中得到特征向量，将得到的图片特征向量和文本特征向量使用一个两层Transformer进行高层次语义对齐，使得图片特征向量和文本特征向量映射到同一个公共空间，通过计算损失来优化模型。

然后将图片特征和原始文本使用反事实推理方法进行处理，使用识别到的图像区域标签，与从原始文本中提取到的名词进行比较，为后续三种对比学习(实例级、图像级、语义级)提供构造正负样本的系数矩阵。

步骤S2，使用反事实推理构建实例级的正负样本，将步骤S1中得到的实例级图片特征和文本特征分别独立映射到同一维度之后，各自用四层transformer构成的图片特征编码器和文本特征编码器中得到特征向量，将得到的图片特征向量和文本特征向量使用一个两层Transformer进行对齐，使得图片特征向量和文本特征向量映射到一个公共空间来构建实例级的对比学习，使得模型感知图像中的视觉物体并学习细粒度的图片文本局部特征对齐，使得模型能感知图片细节信息。

步骤S3，利用反事实推理生成图像级的正负样本，将步骤S1得到的图像级图片特征和文本特征独立映射到同一维度之后，再使用由四层Transformer构成的图片特征编码器和文本特征编码器中计算得到特征向量，将得到的图片特征向量和文本特征向量使用一个两层Transformer进行处理，将图片特征向量和文本特征向量映射到一个公共空间来构建图像级的对比学习，指导模型学习细粒度的图片文本全局特征对齐，使模型能感知图片全局场景信息。

步骤S4，使用反事实推理生成文本在语义级的反事实样本，将步骤S1得到的语义级图片特征和文本特征独立映射到同一维度之后，各自用四层Transformer构成的图片特征编码器和文本特征编码器中得到特征向量，将得到的图片特征向量和文本特征向量使用一个两层Transformer进行处理，将图片特征向量和文本特征向量映射到一个公共空间来构建语义级的对比学习中，得到最终的特征向量，并基于这些特征构建图像级的对比学习，指导模型学习细粒度的图片文本全局特征对齐，使模型能够跨模态语义关系。

步骤S5，将上述所有部分整合到一个统一框架，进行跨模态检索模型的整体训练。

本发明的有益效果：

(1)本发明提出了一个多层级反事实对比学习跨模态检索框架，提高了模型对多样化的视觉内容、高层级的文本语义、和复杂的跨模态关系的理解推理能力。

(2)将基于反事实推理的多级对比学习方法应用在跨模态检索中，分别在实例级、图像级和语义级构建反事实对比样本。使得模型能够提取到更具有判别性的特征，从而对图像和语言表达进行全面的理解，提升模型的语义对齐能力。

(3)通过反事实对比学习方法，可以缓解由于数据集的数据分布不均导致的虚假相关问题。

附图说明

图1是本发明基于反事实推理的跨模态检索模型框架图；

图2是本发明构建的基本的跨模态检索模型。

图3是本发明基于反事实推理的跨模态检索方法流程图。

具体实施方式

本发明提出了一种基于反事实推理的跨模态检索模型、方法及计算机设备。利用反事实推理来构建多级别对比学习。根据各对象节点的重要程度来生成反事实正负样本，在实例级对比学习模块中我们通过在原图像上掩盖重要的对象区域来生成反事实样本(负样本)，原图像作为事实样本(正样本)来进行对比学习。在图像级反事实对比学习模块中将小批量中的其他图像作为反事实样本，掩盖重要性低的对象作为事实样本，使得模型能够着重于学习图像和文本高度相关的区域特征，在语义级通过随机替换文本中的名词来生成反事实样本，原文本作为事实样本并且在使用反事实样本进行对比学习的过程中，可以缓解数据集中可能存在的虚假相关和选择偏差。使得模型能够提取到更具有判别性的特征，从而对图像和语言表达进行全面的理解，提升模型的语义对齐能力，提高模型的精度。

下面结合附图对本发明作进一步说明。

图1为本发明提出的反事实推理的跨模态检索模型的框架图，利用反事实生成对比学习的正负样本，并利用多层级对比学习使模型对丰富的视觉信息和复杂的跨模态关系进行联合建模。具体来说，所述模型由以下步骤得到：

步骤S1，如图1中的文本特征提取模块和图像特征提取模块所示，提取原始图片特征和文本的特征，从而为后面的步骤提供生成正负样本的数据支持；

所述步骤S1进一步包括以下步骤：

步骤S1.1：对训练数据中的每一张图片G以及其对应的文本E表述，提取其文本特征

图像特征

位置特征

以及图片的对象区域标签

这里D_q，D_v代表文本特征和图像特征的维度，D_s代表图片标注出来的标签区域数量，即这张图片所有被识别出来的对象的轮廓区域(不一定是矩形)。D_n代表从图像中提取到的局部区域数量，D_p表示为局部区域的位置特征维度，D_l代表句子的长度。

图像特征通过Faster-RCNN进行提取，得到36(即D_n＝36)个区域视觉特征，之后将其连接在一起作为图像特征V。每个区域视觉特征的维度为2048(即D_v＝2048)，位置特征P包含每个特征区域的左上角坐标和右下角坐标以及区域的面积。D_p为5。

其中x₁，y₁，x₂，y₂分别是区域左上角坐标和区域右下角坐标，W，H分别表示图片的宽度和高度。

文本特征可以通过BERT进行提取，得到768维文本特征(即Dq＝768)。

T_F＝FC^t(Bert(T))#(3)

FC^v和FC^t表示两个独立的全连接层、Bert表示Bert模型、

表示将前后两个值在相同维度上连接起来。

T_F∈R^De，

D_e＝1024。

构建一个包含各自用四层Transformer构成的图片特征编码器和文本特征编码器、用来进行高级语义特征对齐的两层参数共享的Transformer结构的基本的跨模态检索模型，如图2所示，在此基本的跨模态检索模型的基础上增加三种对比学习实现完整的跨模态检索模型。

将图像特征和文本特征经过式(2)(3)处理之后得到的V_F和T_F输入到创建的基本的跨模态检索模型中，将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量，建立三元组损失函数作为图片和文本对齐的损失函数：

其中t，x表示为正样本，t^-，x^-表示为负样本，即同一批次的其他文本特征和图像特征。α为超参数，[a]⁺＝max(a，0)，

步骤S1.2：使用图片对应的图像区域标签I和原始文本中解析到的名词进行对齐，判断文本中的名词对象在图像哪个区域出现，之后将图像中提取到的局部特征区域和通过比对可以知道图片中的哪些区域特征是重要的，比如如果文本中有出现狗的描述，那么对应图片中狗所在的区域就是重要的，这时候如果把与这块区域有交集的局部特征掩盖掉，那么这时图片特征和文本特征的相似度绝对会低于掩盖之前的相似度，反事实推理就是这个原理。将图像的所有局部特征区域形成的方框长宽各均匀分为14份，取交叉点共计196个点。然后通过统计落在重要区域轮廓内部的点的数量来计算该图像区域特征对文本的重要系数，再将所有值连接起来构成系数矩阵

如式(5)所示，其中 Fⁱ值越小表示区域特征Vⁱ越重要。

Pⁱ表示区域i的位置特征，

表示图片的对象区域标签，E表示原始文本，

表示统计区域i落在重要区域内部的点的数量， Fⁱ表示

的第i行的值。

步骤S2，如图1中的实例级对比学习模块所示，利用步骤S1.2生成的重要系数矩阵

来构建实例级的对比学习，使模型关注视觉图片中的细粒度信息；

所述步骤S2进一步包括以下步骤：

步骤S2.1：构建实例级的对比学习：利用S1.2中得到的

来判断图像局部特征Vⁱi∈D_n对当前文本特征的重要程度，根据S1.2中的计算过程，如果图像局部特征Vⁱ对应Fⁱ的值为1的话，可以认为该区域不在重要范围之内，是不重要区域特征。将重要区域的特征连接起来(在

中对应的值不为1)构建正样本O_ins+，例如图1中的“[sheep]”和“[meadow]”，将不重要区域的特征连接起来(在F中对应的值等于1)(假设有k个) 作为反事实样本(负样本)

其中i＝1表示掩盖掉一个最不重要的区域特征，以此类推i＝k代表掩盖k个。例如图1中的“[dog]”和“[man]”。；

步骤S2.2：将步骤S2.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的基本的跨模态检索模型中，使用得到的特征中[CLS]标志位的特征向量作为最终的特征向量V_ins+和

以及T。帮助模型感知图像中的视觉物体并学习细粒度的图片文本局部特征对齐。设计InfoNCE对比损失函数，具体表示如下：

这里的exp(n)＝eⁿ、T是原始文本特征，τ＝0.15为温度参数。正样本的相似度与负样本的相似度相比，更接近于原始样本的相似度。因此，正样本的相似度应比负样本的结果更高。

基于以上推论，基于正负样本对应的对比损失，提高模型对图片中主要对象的识别能力。通过优化上述损失，包含重要物体的正样本对的特征(T，V_ins)被指引在特征空间中靠近，同时负样本对的特征

被指引远离。因此，使得模型能够着重于学习图像和文本高度相关的区域特征，以及缓解数据集中可能存在的虚假相关和选择偏差。

步骤S3，如图1中的图像级对比学习模块所示，利用步骤S1.2生成的重要矩阵

构建图像级的对比学习，使模型关注全局场景信息；

所述步骤S3进一步包括以下步骤：

步骤S3.1：构建图像级的对比学习：利用S1.2中得到的

来判断图像局部特征Vⁱi∈D_n对当前文本特征的重要程度，原理与S2.1中相同。随机掩盖20％不重要的局部特征(在

中对应的值为1)来构建正样本B_img+，从其余部分中随机选择m个图像作为负样本

步骤S3.2：将步骤S3.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的基本的跨模态检索模型中，使用得到的特征中[CLS]标志位的特征向量作为最终的特征向量V_img+和

以及T。指导跨模态检索模型学习细粒度的图片文本全局特征对齐。设计InfoNCE对比损失函数，具体表示如下：

这里的exp(n)＝eⁿ、T是原始文本特征、τ＝0.15为温度参数。正样本的相似度与负样本的相似度相比，更接近于原始样本的相似度。因此，正样本的相似度应比负样本的结果更高。基于以上推论，基于正负样本对应的对比损失，提高模型对图片全局场景的识别能力。通过优化上述损失，具有相似全局场景的正样本对的特征(T，V_img+)被指引在特征空间中靠近，同时具有不同场景的负样本对的特征

被指引远离。因此，模型可以从全局的角度学习到细粒度的图片文本特征对齐。

步骤S4，如图1中的语义级对比学习模块所示，考虑正确选项文本在语义级的反事实样本，构建语义级的对比学习，使模型建模跨模态语义关系；

所述步骤S4进一步包括以下步骤：

步骤S4.1：构建语义级的对比学习：利用反事实思想将原始文本中的名词进行随机替换，生成k(假设原始文本有k个名词)个负样本

原始文本作为正样本G₊。

步骤S4.2：将S4.1中得到的文本正负样本和图像特征，输入到S1.1中创建的基本的跨模态检索模型中，使用得到的特征中[CLS]标志位的特征向量作为最终的特征向量T_sem+和

以及T来训练模型使其更注意对视觉词语的理解，进而建立不同模态间的关系并促进对语言表达的理解，具体的对比损失函数如下：

这里的s exp(n)＝eⁿ、，V是图片特征，τ＝0.1为温度参数。正样本的相似度与负样本的相似度相比，更接近于原始样本的相似度。因此，正样本的相似度应比负样本的结果更高。基于以上推论，基于正负样本对应的对比损失，提高模型对文本中的视觉词语的识别能力。通过优化上述损失，具有相似语义的图片特征V和原始文本特征T_sem+被指引靠近，而具有不相似语义的特征

被指引互相远离。因此，语义级的对比损失促进模型对语言表达的理解，并捕捉复杂的跨模态关系。

步骤S5，通过将上述所有损失整合为一个统一框架，设计损失函数

来进行视觉跨模态检索模型的整体训练：

这里λ₁＝0.2，λ₂＝0.2，λ₃＝0.2，λ₄＝0.4，是平衡化参数。

基于反事实推理的跨模态检索模型的跨模态检索方法，具体过程如下：

模型在训练集充分训练之后，对任意一张待测图像，输入到模型中得到最终输出的[CLS]标志位的特征向量，经过公式(6)计算改图像于测试库中所有文本之间的相似度，检索出其相似度最大的文本作为检索结果；给定一段待测文本，输入到模型中得到最终输出的[CLS]标志位的特征向量，经过公式(6)计算该文本于测试库中所有图像之间的相似度，检索出其相似度最大的图像作为检索结果。

本发明的一种计算机设备，所述计算机设备内置所述基于反事实推理的跨模态检索模型的执行程序代码或存储程序代码、或者所述的跨模态检索方法的执行程序代码或存储程序代码。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于反事实推理的跨模态检索模型，其特征在于，该模型由以下步骤得到：

S1、分别提取原始的图片特征和文本特征，将得到的图片特征和文本特征独立映射到同一维度之后，各自用四层transformer构成的图片特征编码器和文本特征编码器得到特征向量，将得到的图片特征向量和文本特征向量使用一个两层Transformer进行高层次语义对齐，使得图片特征向量和文本特征向量映射到同一个公共空间，通过计算损失来优化；

然后将图片特征和原始文本使用反事实推理方法进行处理，使用识别到的图像区域标签，与从原始文本中提取到的名词进行比较，为后续三种对比学习(实例级、图像级、语义级)提供构造正负样本的系数矩阵；

S2、使用反事实推理构建实例级的正负样本，使模型能够关注视觉图片中物体的细节信息；

S3，利用反事实生成图像级的正负样本，使模型能够关注图片全局场景信息；

S4，使用反事实生成文本在语义级的反事实样本，构建语义级的对比学习，使模型能够跨模态语义关系；

S5，融合上述过程，得到基于反事实推理的跨模态检索模型。

2.根据权利要求1所述的一种基于反事实推理的跨模态检索模型，其特征在于，所述S1的具体实现包括：

S1.1：对训练数据中的每一张图片I以及其对应的文本表述E，提取其文本特征

图像特征

位置特征

以及图片的对象区域标签

这里D_q，D_v代表文本特征和图像特征的维度，D_s代表图片标注出来的标签区域数量，即这张图片所有被识别出来的对象的轮廓区域(不一定是矩形)。D_n代表从图像中提取到的局部区域数量，D_p表示为局部区域的位置特征维度，D_l代表句子的长度；

其中x₁，y₁，x₂，y₂分别是区域左上角坐标和区域右下角坐标，W，H分别表示图片的宽度和高度；

文本特征T通过BERT提取，得到768维文本特征(即D_q＝768)，

T_F＝FC^t(Bert(T))#(3)

FC^v和FC^t表示两个独立的全连接层、Bert表示Bert模型、

表示将前后两个值在相同维度上连接起来，

D_e＝1024；

构建一个包含各自用四层Transformer构成的图片特征编码器和文本特征编码器、用来进行高级语义特征对齐的两层参数共享的Transformer结构的基本的跨模态检索模型；

将图像特征和文本特征经过式(2)(3)处理之后得到的V_F和T_F输入创建的基本跨模态检索模型中，将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量，建立三元组损失函数作为图像和文本对齐的损失函数：

其中t，x表示为正样本对，t^-，x^-表示为负样本，即同一批次的其他文本特征和图像特征，α为超参数，[a]⁺＝max(a，0)，

S1.2：提取图像区域标签S，与从原始文本中提取到的名词进行对齐，之后和需要进行掩盖的对象轮廓进行比对，将图像的所有局部特征区域形成的方框长宽各均匀分为14份，取交叉点共计196个点，然后通过统计落在对象轮廓内部的点的数量除以196来计算该图像区域特征对文本的重要系数，再将所有值连接起来构成系数矩阵

如式(5)所示，其中Fⁱ值越小表示区域特征Vⁱ越重要。

Pⁱ表示区域i的位置特征，

表示图片的对象区域标签，E表示原始文本。mask(Pⁱ，Iⁱ，E)表示统计区域i落在重要区域内部的点的数量，Fⁱ表示

的第i行的值。

3.根据权利要求2所述的一种基于反事实推理的跨模态检索模型，其特征在于，所述S2的具体实现包括：

S2.1：构建实例级的对比学习：利用S1.2中得到的矩阵

来判断图像局部特征Vⁱi∈D_n对当前文本特征的重要程度，将重要区域的特征(即在

中对应的值不为1)连接起来构建正样本O_ins+，将不重要区域的特征(即在

中对应的值为1)连接起来作为反事实样本，即负样本

k表示实例级负样本个数；

S2.2：将步骤S2.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的基本跨模态检索模型中，然后将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量V_ins+和

以及T，使得模型感知图像中的视觉物体并学习细粒度的图片文本局部特征对齐，设计InfoNCE对比损失函数，具体表示如下：

这里的exp(n)＝eⁿ、T是原始文本特征，τ＝0.15，为温度参数。

4.根据权利要求2所述的一种基于反事实推理的跨模态检索模型，其特征在于，所述S3的具体实现包括：

步骤S3.1：构建图像级的对比学习：利用S1.2中得到的

来判断图像局部特征Vⁱi∈D_n对当前文本特征的重要程度，随机掩盖20％不重要的局部特征(在

m表示图像级负样本的个数；

步骤S3.2：将步骤S3.1中得到的正负样本以及对应的文本特征输入到S1.1中创建的跨模态检索模型中，然后将得到的特征中对应[CLS]标志位的特征向量作为最终的特征向量V_img+和

以及T，使得跨模态检索模型学习细粒度的图片文本全局特征对齐，设计InfoNCE对比损失函数，具体表示如下：

这里的exp(n)＝eⁿ、T是原始文本特征、τ＝0.15为温度参数。

5.根据权利要求1所述的一种基于反事实推理的跨模态检索模型，其特征在于，所述S4的具体实现包括：

S4.1：构建语义级的对比学习：利用反事实思想将原始文本中的名词进行随机替换，生成k(假设原始文本有k个名词)个负样本

原始文本作为正样本G₊；

S4.2：将S4.1中得到的文本正负样本和图像特征，输入到S1.1中创建的基本的跨模态检索模型中，使用得到的特征中[CLS]标志位的特征向量作为最终的特征向量T_sem+和

这里exp(n)＝eⁿ，V是原始图片特征，τ＝0.1为温度参数。

6.根据权利要求1所述的一种基于反事实推理的跨模态检索模型，其特征在于，所述S5的融合方法采用如下：

设计损失函数

进行跨模态检索模型的整体训练：

这里λ₁＝0.2，λ₂＝0.2，λ₃＝0.2，λ₄＝0.4是平衡化参数。

7.根据权利要求1-6任一项所述的一种基于反事实推理的跨模态检索模型的跨模态检索方法，其特征在于，对任意一张待测图像，输入至权利要求1-6任一项所述的模型，计算该图像与模型测试库中所有文本之间的整体相似度，检索出其相似度最大的文本作为检索结果；对任意一个段待测文本，计算该文本与测试库中所有图像之间的相似度，检索出与其相似度最大的图像作为检索结果。

8.一种计算机设备，其特征在于，所述计算机设备内置权利要求1-6任一项所述基于反事实推理的跨模态检索模型的执行程序代码或存储程序代码、或者权利要求7所述的跨模态检索方法的执行程序代码或存储程序代码。