CN112101358A

CN112101358A - 一种基于解耦和干预的图网络对齐短语和图片区域的方法

Info

Publication number: CN112101358A
Application number: CN202011217929.1A
Authority: CN
Inventors: 庄越挺; 汤斯亮; 肖俊; 慕宗燊; 郁强; 蒋忆
Original assignee: Zhejiang University ZJU; CCI China Co Ltd
Current assignee: Zhejiang University ZJU; CCI China Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2020-12-18
Anticipated expiration: 2040-11-04
Also published as: CN112101358B

Abstract

本发明公开了一种基于解耦和干预的图网络对齐短语和图片区域的方法，属于图像数据处理领域。该方法先提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征，并利用视觉场景图和语法解析树分别得到视觉和文本语义图结构；然后将视觉和文本图结构通过基于解耦和干预的图神经网络后得到包含图结构中邻居关系的视觉候选区域和文本短语特征；最后通过跨模态的自注意力机制进行对齐映射，并根据对齐后的内积判断指定短语和视觉区域的对齐结果。本发明结合解耦和干预的图神经网络方法，能够学习到更加可解释和鲁棒的视觉和文本特征，从而利用包含图结构环境关系的特征实现跨模态对齐，完成短语到图片区域的定位。

Description

一种基于解耦和干预的图网络对齐短语和图片区域的方法

技术领域

本发明属于图像数据处理领域，尤其涉及计算机视觉中的一种对齐短语和图片区域的方法。

背景技术

视觉语言(Vision and Language)是一门计算机视觉与自然语言处理为一体的交叉学科。对齐图片描述中名词短语和图片区域(Phrase Grounding)是视觉语言中一项基本任务，给定一组图片和对应文本描述，将文本句子中的名词性短语定位到与之对应视觉图片的候选区域，完成跨模态对齐。该任务可以连接视觉和文本知识，能够服务于视觉问答、视觉导航、常识推理等诸多跨模态任务。

对于给定的一组图片和对应描述句子，文本句子一般不能够全面的反应图片中视觉信息，因此一种通用的解决方法是共同学习图片中视觉物体和它周围的环境信息，然后将集成了环境信息的视觉物体表征和文本短语特征进行匹配，完成对齐。传统的方法要么是每个短语单独地定位到对应图片区域，要么是利用文本中短语的顺序序列化地定位图片中视觉区域，这些方法忽略了视觉或文本中环境信息从而造成错误的结果。随着图神经网络在深度学习领域地成功实践，最近的方法建立文本的图结构（结点表示短语，边表示短语之间的潜在关系）或视觉的图结构（结点表示物体，边表示物体之间的潜在关系），利用图神经网络学习短语和图片区域的表征，最后计算它们之间的相似度完成对齐。

但是上述基于图神经网络的方法在建立文本和视觉图结构的时候采用的是全连接图结构，忽略了结点之间是否真实存在语义关系，保留的噪音关系对模型造成了错误信息的传递；此外在上述图神经网络方法中，对图中结点不同邻居关系统一对待，最后自我结点学习到的表征是包含所有邻居结点关系信息的混合，这种包含混合关系的特征不能很好地提供跨模态对齐的解释；在大数据时代海量数据驱动神经网络的训练，数据中难免存在噪音和偏执，如果混合特征中某类关系经常出现，模型就忽视了不常见的关系模式，导致通用性和鲁棒性的下降。

发明内容

本发明的目的是为了实现跨模态的对齐，提出一种基于解耦和干预的图网络对齐短语和图片区域的方法，预期在给定一组图片和对应文本描述的条件下，将句子中名词性短语标的到视觉图片候选区域中。

为了实现上述发明目的，本发明具体采用如下技术方案：

一种基于解耦和干预的图网络对齐短语和图片区域的方法，其包括如下步骤：

S1：提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征，并分别利用视觉场景图和语法分析树得到以图片候选区域为结点的视觉语义图结构和以句子中名词性短语为结点的文本语义图结构；

S2：将视觉语义图结构和文本语义图结构分别通过基于解耦和干预的图神经网络，得到包含图结构中分类邻居关系的解耦视觉特征和解耦文本特征；

S3：通过跨模态的自注意力机制，将解耦视觉特征和解耦文本特征映射到同一子空间进行对齐；针对目标名词性短语，计算该名词性短语对齐后的解耦文本特征与图片中每个候选区域对齐后解耦文本特征之间的内积，以内积代表定位概率得到目标名词性短语和图片区域的对齐结果。

作为优选，所述S1的具体步骤如下：

S11：使用特征提取模型提取图片中候选区域的视觉特征；

S12：使用预训练的语言模型从图片的文本描述句子中提取名词性短语的文本特征；

S13：将图片候选区域输入场景图生成模型中得到视觉场景图，图中结点表示候选区域特征，结点之间的边表示候选区域间存在的视觉语义关系；

S14：将图片描述句子输入语法分析器中得到文本场景图，图中结点表示名词性短语特征，结点之间的边表示短语间存在的文本语法关系。

进一步的，所述特征提取模型为Faster R-CNN模型。

进一步的，所述语言模型为Bert模型。

更进一步的，所述S2的具体步骤如下：

S21：对于视觉场景图，利用解耦图神经网络将每个候选区域视觉特征作为原始结点先分块为K个子部份，再将K个子部份一一对应初始化映射到K个子空间，其中第k个子空间初始化后的视觉特征为：

其中：k=1,…,K，W _k和b _k分别表示映射到第k个子空间的权重和偏置，||•||₂表示L2正则化，v _i,k表示第i个原始结点v _i映射到第k个子空间中的特征表示，σ(•)表示激活函数；

S22：将初始化映射到K个子空间中的视觉特征，分别在各自的空间下进行解耦图神经网络的聚合和更新操作，其中聚合时首先分别计算自我结点周围的一度邻居结点在K个子空间下的重要程度，然后在每个子空间下按照重要程度聚合一度邻居结点的解耦分块特征，并将聚合特征作为包含邻居关系的环境信息更新到自我结点的解耦分块特征中并输出；

S23：堆叠解耦图神经网络的每一层输出，将第i个结点第k个子部分在每层网络中得到的解耦分块特征相加，得到第i个结点第k个子部分包含邻居关系的解耦结点特征

；再把 K个子部分的解耦结点特征拼接起来获得第i个结点包含K类邻居关系的解耦视觉特征

：

S24：对于文本场景图，利用与视觉场景图相同的方法通过解耦图神经网络得到解耦文本特征

；

其中，用于视觉场景图的解耦图神经网络在训练过程中加入干预机制，其训练样本中含有经过边干扰或者特征干扰的负例；而用于文本场景图的解耦图神经网络在训练过程中不加入干预机制。

更进一步的，所述的边干扰是将原始结点之间的边关系打乱，生成用于学习邻居关系的干扰负例。

更进一步的，所述的特征干扰是将不同原始结点的解耦分块特征进行相互对调，生成干扰负例。

更进一步的，所述S22中，所述解耦图神经网络为一层的解耦图神经网络，其在对初始化映射到K个子空间中的视觉特征进行聚合时，第i个自我结点的第j个一度邻居结点在K个子空间下的重要程度

为：

更新聚合特征后输出的自我结点的解耦分块特征

为：

其中W _ek和W _nk分别表示自我结点和邻居结点更新参数，

为第i个自我节点的一度邻居结点集合。

更进一步的，所述S3的具体步骤如下：

S31：将S2中解耦和干预后的视觉和文本特征送入跨模态的多头注意力机制中，使包含不同邻居关系的解耦视觉特征和解耦文本特征对齐至同一子空间；

S32：计算对齐后的解耦视觉特征和解耦文本特征的内积，得到候选区域和名词短语的相似度，用于表示描述中该名词性短语正确定位到对应图片区域的概率；

S33：针对图片描述句子中的待对齐的目标名词性短语，选择图片中所述概率最大的一个候选区域作为其最终定位区域。

更进一步的，所述K=1或2或4。

本发明从文本和视觉图结构的构建、图神经网络算法和模型鲁棒性三点出发，提出了一种基于解耦和干预的图神经网络对齐图片描述中名词短语和图片区域的方法。与现有技术相比，本发明的有益效果如下：

1）本发明采用基于解耦的图神经网络方法，与基于简单图神经网络的短语标的方法相比，具有更好的解释性，可以将表示不同邻居关系的环境信息聚合到不同的分块特征中，通过调整解耦特征分块的个数控制邻居关系的种类。

2）本发明采用基于干预的特征学习方式，与普通的基于大数据训练方法相比，提供了更鲁棒的特征。众所周知，人工标注的数据集存在偏差使模型学习到无关的规律偏置，而本发明通过在解耦图神经网络上的结点和边干预，能够使模型抗扰动和泛化能力提升。

附图说明

图1为基于解耦和干预的图网络对齐短语和图片区域的方法的整体流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步阐述。

本发明用于视觉语言中一项基本任务，即对齐图片描述中名词短语和图片区域(Phrase Grounding)。在该任务中，当给定一组图片和对应文本描述后，需要将文本句子中的名词性短语按照其语义定位到与之对应视觉图片的候选区域，完成跨模态对齐。下面对本发明的具体实现过程进行详细阐述。

参见图1所示，在本发明的一个较佳实施例中，提供了一种基于解耦和干预的图网络对齐短语和图片区域的方法，其基本步骤如下：

S1：提取图片候选区域的视觉特征和图片描述句子中名词性短语的文本特征，并分别利用视觉场景图和语法分析树得到以图片候选区域为结点的视觉语义图结构和以句子中名词性短语为结点的文本语义图结构。

S2：将视觉语义图结构和文本语义图结构分别通过基于解耦和干预的图神经网络，得到包含图结构中分类邻居关系（即周围的环境信息）的解耦视觉特征和解耦文本特征。

在上述方法实现过程中，其核心是利用解耦的图神经网络，将表示不同邻居关系的环境信息聚合到不同的分块特征中，同时在用于视觉的解耦图神经网络训练过程中引入对结点和边的干预负例，以此来提高模型抗扰动和泛化的能力。上述S1~S3可以有多种具体实现形式，下面描述其在本实施例中的具体实现过程。

在本实施例中，实现S1的具体子步骤如下：

S11：一张图片中存在多个候选区域，因此先使用特征提取模型Faster R-CNN提取图片中候选区域的视觉特征，记为v。

S12：使用预训练的Bert语言模型从图片的文本描述句子中提取名词性短语的文本特征，记为t。

为了便于区分叙述，后续以V代表视觉类别，以T代表文本类别。

S13：将图片候选区域输入场景图生成模型中得到视觉场景图，视觉语义图结构表示为

，图中结点

表示候选区域特征，结点之间的边

表示候选区域间存在的视觉语义关系。

S14：将图片描述句子输入语法分析器中得到文本场景图，文本语义图结构表示为

，图中结点

表示名词性短语特征，结点之间的边

表示短语间存在的文本语法关系。

由此，经过上述S11~S14步骤，获得了以图片候选区域特征为结点的视觉场景图和以句子中名词性短语文本特征为结点的文本场景图，两者可以用于后续的解耦图神经网络中进行进一步的信息抽取。

在本实施例中，实现S2的具体子步骤如下：

S21：对于视觉场景图

，利用解耦图神经网络将每个候选区域视觉特征作为原始结点先分块为K个子部份，再将K个子部份一一对应初始化映射到K个子空间。其中，第

个子空间初始化后的视觉特征为：

其中：k=1,…,K，W _k和b _k分别表示映射到第k个子空间的权重和偏置，||•||₂表示L2正则化，v _i,k表示第i个原始结点v _i映射到第k个子空间中的特征表示（即尚未进行初始化的特征），σ(•)表示激活函数。

：

S24：对于文本场景图

，利用与视觉场景图相同的方法，进行分块、初始化映射后，通过解耦图神经网络得到解耦文本特征

。

上述用于输入视觉场景图和文本场景图的解耦图神经网络结构是一致的，其区别仅在于输入数据和网络内部训练后的网络参数不同。S21~S24构成了本步骤的框架，该框架在实际使用前需要进行训练，训练过程中两个网络存在不同点，其中：用于视觉场景图的解耦图神经网络在训练过程中加入干预机制，其训练样本中需要含有经过边干扰或者特征干扰的负例；而用于文本场景图的解耦图神经网络在训练过程中不加入干预机制，直接采用正常的样本数据训练即可。其中边干扰是将原始结点之间的边关系打乱，生成用于学习邻居关系的干扰负例；而特征干扰是将不同原始结点的解耦分块特征进行相互对调，生成干扰负例。

向视觉的解耦图神经网络中加入干预机制训练的目的是为了解决数据集存在的偏置。由于人工标注的数据集存在偏差使模型学习到无关的规律偏置，模型对K类论据关系学习的时候只侧重某几类，导致学习到解耦不稳定和脆弱的特征，因此本发明在解耦图神经网络训练中加入干扰负例的机制，不同于从原始数据层面干扰的方法，本发明基于视觉和文本图结构进行解耦图神经网络训练的时候，将原始的边关系打乱进行邻居关系的学习（边干扰）和将原始解耦后分块特征加入随机扰动（特征干扰）得到两种干扰训练方式，通过两种干扰负例生成，模型得到更加鲁棒的视觉和文本特征。

边干预可以通过以下方法实现：

假设存在一个图结构，a的邻居结点为b、c，d的邻居结点为e、f。那么在一层解耦图神经网络的时候，a和d结点分别聚合自己的一度邻居结点b、c和e、f。采用边干预方法也就是打乱现有的图结构边关系，以上述例子作为说明，每次打乱自我结点周围的一个邻居结点，随机的将a结点的邻居结点交换为b、e，d结点的邻居结点交换为c、f，构建得到负样本（负例）进行学习。

特征干预可以通过以下方法实现：

同样以边干预中的例子作为说明，经过一层解耦图神经网络之后，a和d结点分别在K个子空间下学习到了K个分块特征，采用特征干预方法将a解耦后K个分块特征和d解耦后K个分块特征进行随机对调，每次随机选择a结点的K个分块特征中的一块加入d结点的K个分块特征中，构建为两个新的负样本（负例）进行学习。

另外，在对视觉场景图和文本场景图进行分块时，其具体的分块数K可以根据实际进行优化调整，通过调整解耦特征分块的个数进而控制邻居关系的种类。一般而言，分块数K=1或2或4。本实施例中，设置最优的分块数K=4。

需要注意的是，本发明中所用的解耦图神经网络可以是一层的解耦图神经网络，也可以是多层的解耦图神经网络。当采用多层的解耦图神经网络时，每一层均会输出相应的结果，最终需要将多层解耦图神经网络堆叠后，各层的解耦分块特征相加才能得到包含某类邻居关系的结点特征。

但在本实施例中，解耦图神经网络最终采用一层的解耦图神经网络，由此上述S22中的解耦图神经网络也可以表达如下：

在对初始化映射到K个子空间中的视觉特征进行聚合时，第i个自我结点（即邻居结点的中心结点）的第j个一度邻居结点在K个子空间下的重要程度

为：

更新聚合特征后输出的自我结点的解耦分块特征

为：

其中W _ek和W _nk分别表示自我结点和邻居结点更新参数，

为第i个自我节点的一度邻居结点集合。

由此，经过上述S21~S24步骤，使得表示不同邻居关系的环境信息被聚合到不同的分块特征中，得到了经过解耦和干预后的视觉特征和文本特征。这些解耦视觉特征和解耦文本特征即可用于进行下一步的对齐。

在本实施例中，实现S3的具体子步骤如下：

S31：将S2中解耦和干预后的解耦视觉特征和解耦文本特征送入跨模态的多头注意力机制中，使包含不同邻居关系的解耦视觉特征和解耦文本特征对齐至同一子空间。多头注意力机制MultiHead的对齐过程可以表示为：

c ^V=MultiHead(W _Q h ^V ,W _K h ^T ,W _V h ^T )

c ^T=MultiHead(W _Q h ^T ,W _K h ^V ,W _V h ^V )

其中W _Q、W _K和W _V表示跨模态多头注意力机制中的Q、K、V三部分参数，c ^V和c ^T表示对齐后的解耦视觉特征和解耦文本特征。

S32：计算对齐后的解耦视觉特征和解耦文本特征的内积sim，以内积代表候选区域和名词短语的相似度，用于表示描述中该名词性短语正确定位到对应图片区域的概率，概率值越大该区域为正确定位区域的可能性越大。内积sim(t,v)的计算公式可以表示如下：

sim(t,v)= c ^V ∙ c ^T

S33：针对图片描述句子中的待对齐的目标名词性短语，选择图片中内积为代表的概率最大的一个候选区域作为其最终定位区域。

由此，上述S1~S3构成了一种基于解耦和干预的图网络对齐短语和图片区域的方法框架。该框架真正用于进行对齐任务时，需要进行相应的训练优化，具体的优化目标可以根据实际需要进行调整。在本实施例中，其优化目标包含两类，第一类希望解耦视觉特征的各分块独立互不影响，因此视觉损失

设置为：

D表示方差，Cov表示协方差。

同样的，文本解耦特征的优化目标同视觉优化目标类似也希望个分块互不影响，因此文本损失

的形式与视觉损失相同：

第二类是希望模型能够区分一组短语和候选区域是否对齐，对齐和未对齐的差距尽可能大，其损失为：

上述式中：n表示训练的样本个数；

表示温度参数，本实施例设置取值为0.2；M为负例个数。

由此，本实施例训练过程中设置的总的优化目标如下：

本实施例中，结合S1~S3给出的解耦和干预的图神经网络方法，能够学习到更加可解释和鲁棒的视觉和文本特征，从而利用包含图结构环境关系的特征实现跨模态对齐从而完成短语到图片区域的定位。为了进一步展示其技术效果，下面将其应用与两个具体数据集中，以便于本领域技术人员更好地理解。

本实施例使用Flickr30K和ReferIt数据集验证本发明的效果，使用准确度衡量句子中名词性短语对齐图片区域的实验结果。在众多样例中，给定一组图片和描述中名词性短语对齐两个模态，本发明提供了更好的解释和结果。下标为准确率的测试结果：

	Flickr30K	ReferIt
			现有模型	76.74(LCMCG)	62.76(MultiGrounding)
本发明	78.73	65.15

其中参与对比的两种现有方法具体如下：

LCMCG 方法参见Liu, Y.; Wan, B.; Zhu, X.; and He, X. 2020. Learning Cross-Modal Context Graph for Visual Grounding. In AAAI, 11645–11652.

MultiGrounding 方法参见Akbari, H.; Karaman, S.; Bhargava, S.; Chen, B.;Vondrick, C.; and Chang, S.-F. 2019. Multi-level multimodal common semanticspace for image-phrase grounding. In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, 12476–12486.

从表中可见，本发明的方法由于基于解耦和干预的图神经网络，其对齐准确率明显优于现有方法。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。