CN114117104A

CN114117104A - 一种基于多关系感知推理的图像文本匹配方法

Info

Publication number: CN114117104A
Application number: CN202010891854.9A
Authority: CN
Inventors: 何小海; 张津; 刘露平; 卿粼波; 罗晓东; 陈洪刚; 吴小强
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2022-03-01
Anticipated expiration: 2040-08-28
Also published as: CN114117104B

Abstract

针对图像文本匹配任务，本发明设计了一种基于多关系感知推理的图像文本匹配方法，涉及计算机视觉和自然语言处理两个领域。充分挖掘视觉和文本模态的特征，并将不同模态的特征进行对齐是攻克图像文本匹配任务难点的关键。合理利用图卷积神经网络有利于提升模型的性能表现，本发明基于图卷积神经网络，设计了针对图像的多关系感知推理模块，关注图像的语义关系和空间位置关系，提取了更加丰富的视觉特征表示，实现了与文本语义信息更好的对齐；再结合基于BERT‑GRU的文本编码器，能够全面地表达句子的深层语义信息，实现与图像视觉表征的良好对齐。本发明在自动图文互检索、儿童益智教育和辅助视觉障碍人士等实际应用方面具有一定的意义。

Description

一种基于多关系感知推理的图像文本匹配方法

技术领域

本发明涉及计算机视觉与自然语言处理两个领域，具体涉及利用多关系感知推理模块关注图像区域之间的空间位置关系和语义关系，同时利用基于BERT的文本编码器关注包含上下文语义信息的文本表征。

背景技术

图像文本匹配任务(Image-text matching)旨在在跨模态嵌入空间中度量一幅图像和一段文本的相似性。该任务涉及到视觉和文本两种模态的学习，是联合计算机视觉和自然语言处理的桥梁。

早期的图像文本匹配模型，主要使用标准的双分支嵌入架构来提取图像和文本的特征，并将它们映射到嵌入空间中进行匹配。这种方法已经被证明是有用的，却只关注图像的视觉特征，而忽略了图像区域之间的相对空间位置信息。除了语义信息，空间位置也很重要。例如，“White-haired man in a straw hat sitting on a bench under a tree”句子描述中的“in”、“on”和“under”需要图像中的位置信息。也就是说，不仅要捕捉对象本身，还要理解对象间的空间信息，甚至是将它们联系在一起的抽象关系。在文本表示方面，现有的方法大多使用word2vec或随机初始化来嵌入单词。由于句子语义的丰富性和结构的多样性，这些方法对每个词都使用一个固定的向量，无法解决多义词的问题。例如，给定两句话：“A woman takes pictures by the bank of the river.”和“A woman is standing inthe bank.”，“bank”在两句话中有不同的含义。针对于此，基于多关系感知推理的图像编码器和基于BERT的文本编码器分别被提出，并取得不错的表现。通过图像编码器学习到丰富的图像表征，通过文本编码器学习到包含上下文语义信息的文本表征，从而实现更好的跨模态匹配。

发明内容

本发明为解决上述问题提供了一种基于多关系感知推理的图像文本匹配研究方法。基于图神经网络，设计了多关系感知推理模块，关注图像的语义信息和空间关系信息，同时联同基于BERT的文本编码器共同构成图像文本匹配模型中的特征提取模块。

本发明通过以下技术方案来实现上述目的：

一种基于多关系感知推理的图像文本匹配研究方法，包括以下步骤：

步骤一：图像表征，首先使用目标检测网络提取图像中区域的视觉特征和空间位置坐标特征作为中间特征。将图像的中间特征构建为图结构的数据，分别经过空间关系编码器、语义关系编码器和全局推理，输出最终的图像全局特征；

步骤二：文本表征，将文本按顺序输入到BERT中，得到每个单词的表征，再将每个单词输入到GRU中，用最后一个时刻的隐藏层状态作为整个句子的文本语义表示；

步骤三：将提取出的图像视觉特征和文本语义特征映射到一个共同的跨模态嵌入空间中，并进行对齐，得到图像和文本的匹配分数。

作为优选的技术方案，步骤一的图像特征提取模块，其说明如下：

(1)输入图像先经过目标检测网络Faster RCNN提取一系列图像区域中间特征，区域数量取值为36。视觉注意方式采取自底向上(bottom-up)。

(2)多关系感知推理包括空间关系感知推理以及语义关系感知推理两个模块。

(3)空间关系感知推理的输入为图结构数据。首先，构建双向空间图，充分挖掘图像中每两个区域之间的空间关系。空间关系是一个三元组，表示给定两个对象区域的相对几何位置。边和相应的标签由并集的交点(IoU)、相对距离和角度决定。位置关系有11类。然后空间图经过带有多头注意力机制的GCN进行推理，输出具有空间关系感知的区域级图像特征。输入输出过程如下所示：

(4)语义关系感知推理的输入为全连接图。首先，将每个区域特征作为一个节点，构造一个全连接图，通过基于GCN的语义关系编码器，输出具有空间和语义关系的区域级图像特征。然后将区域级特征依次输入GRU中进行全局推理，输出最终的图像表征I。输入输出过程如下所示：

I＝GRU(V^*) (4)

作为步骤二中文本的特征提取说明如下：

对于输入的文本描述，先将文本分割成为独立的单词，每个单词通过预训练的BERT转换为对应的词向量，再利用单层的GRU网络获得文本特征，用最后一个时刻的隐藏层状态作为整个句子的文本语义表示。每个文本描述的特征维度为2048。

作为步骤三中的多模态特征匹配，其说明如下：

优化函数为生成部分损失和匹配部分损失的总和。针对生成部分，步骤二中得到的图像特征通过图像描述模块，根据图像特征生成对应的句子描述，生成的描述与标签描述进行匹配，不断优化，通过标签描述监督图像特征的提取，使得提取到更加丰富的图像特征。针对匹配部分，使用hinge-based triplet ranking loss来约束，使得在公共嵌入空间中，匹配的图像文本对的相似度分数大于未匹配的图像文本对的相似度分数。

本发明的主要内容在于提出了基于多关系感知推理的图像文本匹配研究方法。本发明提出的多关系感知推理模块能有效地提取丰富的图像表征，提出的基于BERT的文本编码器能有效地提取具有上下文内容的文本表征，对图像和文本的匹配起正向促进作用。对自动图文互检索、儿童益智教育和辅助视觉障碍人士等方面都具有较大的意义。

附图说明

图1是本发明多关系感知推理模块原理图。

图2是本发明基于多关系感知推理的图像文本匹配模型结构图。

具体实施方式

下面结合附图对本发明作进一步说明：

图1是本发明提出的多关系感知推理模块原理图。该模块由空间关系推理和语义关系推理构成，用于捕获图像区域之间的空间位置关系和对象间的语义关系。这些视觉关系特征可以在图像中表征更细粒度的内容，反过来提供了一个完整的场景解释，从而促进与复杂文本语义表示的匹配。为验证本发明所提出的多关系感知推理模块的合理性，对单关系推理和多关系推理进行了实验验证，其结果如表一所示：

表一

图2是本发明提出的基于多模态多关系感知推理的图像文本匹配模型结构图。由图可知，整个模型结构包括三部分，分别为：图像编码器模块、文本编码器模块、目标函数模块。为了有效地推理空间关系，将图像视为一个场景图，每个节点表示一个对象，每个有向边表示两个对象之间的空间标签。采用具有注意机制的图神经网络，通过其部分关系本质邻域动态地丰富对象表示。另外，在文本嵌入中应用了BERT来学习丰富的文本表示。

(1)取数据集Flickr30K中训练集参与训练。将所有参与训练的图像输入到目标检测网络Faster RCNN中，每幅图像输出大小为36*2048的特征矩阵和36*4的空间位置矩阵。然后，经过多关系编码器得到大小为36*2048的区域级图像特征；最后，经过一个单层的GRU得到大小为1*2048的图像表征。

(2)对于文本描述，先将句子通过预训练好的BERT，完成单词切分和词嵌，每个单词转换为固定维度的向量表示形式，在BERT-base中，每个单词都表示为一个768维的向量，再通过一个单层的隐藏层个数为2048的GRU，用最后一个时刻的隐藏层状态作为整个句子的文本语义表示，大小为1*2048。

(3)将文本描述和图像特征在公共嵌入空间进行对齐。图像表征通过图像描述模块，生成对应的文本描述，真实的文本描述对生成的文本描述进行约束，使得提取的图像特征更有利于图像文本的匹配；在公共嵌入空间中，通过将图像表征和文本表征进行点积，得到相似度，并进行排序。损失函数采用hinge-based triplet ranking loss，通过损失函数计算两者之间的损失，再通过训练时网络的反向传播对网络参数进行调整，使得匹配的图像文本对距离小，而不匹配的图像文本对距离大。

为验证本发明所提方法的有效性，选取多个跨模态图像文本匹配模型与本发明所提出的方法进行比较，其在测试集上的结果表现如表二所示：

表二

从表二可以看出，本发明提出的方法较其他模型在文本检索图像和图像检索文本两方面都有很大的优势。因此，验证了本发明所提方法的有效性。

Claims

1.一种基于多关系感知推理的图像文本匹配方法，其特征在于包括以下步骤：

步骤一：图像表征，首先使用目标检测网络提取图像中区域的视觉特征和空间位置坐标特征作为中间特征；将图像的中间特征构建为图，经过多关系感知推理模块和全局推理模块，输出最终的图像全局特征；

2.根据权利要求1所述的一种基于多关系感知推理的图像文本匹配方法，其特征在于：

步骤一中图像特征提取采用目标检测网络Faster RCNN，以自底向上的注意方式提取一系列图像区域特征和对应区域的位置坐标；多关系推理模块可分解为空间关系编码和语义关系编码两个部分，其中，空间关系编码将图像区域特征和位置坐标构建成为一个空间图，节点为区域特征，边为两个区域的空间位置关系，然后经过一层有注意力机制的图卷积神经网络，得到有空间感知的区域级特征，再进一步构建语义图，经过两层图卷积神经网络，得到最终的区域级图像特征，最后经过全局推理模块，得到图像全局表征。

3.根据权利要求1所述的一种基于多关系感知推理的图像文本匹配方法，其特征在于：

步骤二中对文本语义特征的提取，先将文本描述句子划分为单词，再通过BERT词嵌将每个单词转化为词向量，最后通过单层的GRU获得句子特征。

4.根据权利要求1所述的一种基于多关系感知推理的图像文本匹配方法，其特征在于：

步骤三中图像视觉特征和文本语义特征的对齐，分别将图像表征和文本表征映射到跨模态嵌入空间中，然后使用余弦距离来度量特征之间的相似度。