CN111783457A

CN111783457A - 一种基于多模态图卷积网络的语义视觉定位方法及装置

Info

Publication number: CN111783457A
Application number: CN202010736128.XA
Authority: CN
Inventors: 俞益洲; 史业民; 杨思蓓; 吴子丰
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-10-16
Anticipated expiration: 2040-07-28
Also published as: CN111783457B

Abstract

本发明提供了一种基于多模态图卷积网络的语义视觉定位方法及装置，其中方法包括：获取输入图片以及语料描述；用卷积神经网络提取输入图片的多尺度视觉特征，编码嵌入空间坐标信息，得到空间感知视觉特征；解析语料描述构建语义结构图，对语义结构图中的每个节点词向量编码，通过多层感知机学习图节点语义特征；融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征；通过图卷积网络传播语义结构图中节点的关系信息，在语义关系的指导下学习视觉语义联系；进行语义视觉位置推理，获得语义信息的视觉位置。本发明在处理歧义或者二义性语义元素时结合了上下文语义信息，能够利用语义关系信息指导视觉定位。

Description

一种基于多模态图卷积网络的语义视觉定位方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种基于多模态图卷积网络的语义视觉定位方法及装置。

背景技术

在现实世界中实现人类与机器之间的交流，让机器能够理解自然语言所描述的视觉场景，是人工智能领域的一个基本但十分有挑战性的问题。这一问题的基础是让机器能够在视觉场景中定位语义元素，即给定一个视觉场景的自然语言描述，机器要能够在视觉场景中定位对应的语义元素位置。近年来，语义视觉定位任务受到了广泛的关注，得到了快速发展，取得了优异的性能。然而，现有的解决方案在图片中逐个定位名词短语，没有建模名词短语之间的语义关系，或者仅仅粗略地利用了上下文信息。这些方法没有充分发掘语料中语义的上下文关系，例如，针对语料『A man in bread playing a violin while nextto another man playing a banjo.』，算法往往可以精确定位到没有歧义或者没有二义性的语义元素『violin』，而对『man』这个语义元素则需要结合『man-in-bread』、『next-to-another-man』和『another-man-playing- a-banjo』等语义关系信息进行定位。总体来说，缺乏名词短语之间语义关系建模的方法在处理具有歧义或者二义性的语义元素时往往难以获得理想的视觉定位，需要研究精细的名词短语语义关系建模方法，使得能够在语义结构信息指导下进行语义视觉定位。

现有的解决方案主要关注视觉特征和语料特征的融合、从语料对应的视觉区域重构语料或者粗略地结合语义上下文信息，缺少了对语料中名词短语间的语义关系信息的发掘，因此受限于需要结合上下文以及语义关系等信息进行视觉位置推理的语义元素。

发明内容

本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于多模态图卷积网络的语义视觉定位方法及装置。

为达到上述目的，本发明的技术方案具体是这样实现的：

本发明的一个方面提供了基于多模态图卷积网络的语义视觉定位方法，包括：获取输入图片以及语料描述；用卷积神经网络提取输入图片的多尺度视觉特征，编码嵌入空间坐标信息，得到空间感知视觉特征；解析语料描述构建语义结构图，对语义结构图中的每个节点词向量编码，通过多层感知机学习图节点语义特征；融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征；通过图卷积网络传播语义结构图中节点的关系信息，在语义关系的指导下学习视觉语义联系；进行语义视觉位置推理，获得语义信息的视觉位置。

其中，解析语料描述构建语义结构图，对语义结构图中的每个节点词向量编码，通过多层感知机学习图节点语义特征包括：给定一个自然语言描述语料，以及自然语言描述语料中的名词短语集合；使用场景图解析器自然语言描述语料，提取初始场景图；按照自然语言描述语料中的原始顺序对每一个节点进行重排序，得到重排序后的名词短语集合；基于单词的最大重叠数进行名词短语匹配，并用给定的名词短语替换场景图中与之匹配的名词短语；对每一条边基于与之相连的替换后的名词短语增加或删除单词；输出语义结构图，其中，语义结构图中的每个节点表征一个名词短语，语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。

其中，融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征包括：为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征；融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。

其中，进行语义视觉位置推理，获得语义信息的视觉位置包括：为语义结构图的每个空间位置匹配三个锚框，选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框，根据预测的回归偏移量调整候选框，得到语义信息的视觉位置。

其中，用卷积神经网络提取输入图片的多尺度视觉特征，编码嵌入空间坐标信息，得到空间感知视觉特征包括：使用YOLOv3作为基础模型框架，采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络，提取特征金字塔网络的不同空间分辨率输出作为视觉特征，将空间坐标信息嵌入视觉特征获得空间感知视觉特征。

本发明另一方面提供了一种基于多模态图卷积网络的语义视觉定位装置，包括：获取模块，用于获取输入图片以及语料描述；图片表征模块，用于用卷积神经网络提取输入图片的多尺度视觉特征，编码嵌入空间坐标信息，得到空间感知视觉特征；语料表征模块，用于解析语料描述构建语义结构图，对语义结构图中的每个节点词向量编码，通过多层感知机学习图节点语义特征；多模态特征融合模块，用于融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征；关系信息图传播模块，用于通过图卷积网络传播语义结构图中节点的关系信息，在语义关系的指导下学习视觉语义联系；视觉位置推理模块，用于进行语义视觉位置推理，获得语义信息的视觉位置。

其中，语料表征模块通过如下方式解析语料描述构建语义结构图，对语义结构图中的每个节点词向量编码，通过多层感知机学习图节点语义特征：语料表征模块，具体用于给定一个自然语言描述语料，以及自然语言描述语料中的名词短语集合；使用场景图解析器自然语言描述语料，提取初始场景图；按照自然语言描述语料中的原始顺序对每一个节点进行重排序，得到重排序后的名词短语集合；基于单词的最大重叠数进行名词短语匹配，并用给定的名词短语替换场景图中与之匹配的名词短语；对每一条边基于与之相连的替换后的名词短语增加或删除单词；输出语义结构图，其中，语义结构图中的每个节点表征一个名词短语，语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。

其中，多模态特征融合模块通过如下方式融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征：多模态特征融合模块，具体用于为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征；融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。

其中，视觉位置推理模块通过如下方式进行语义视觉位置推理，获得语义信息的视觉位置：视觉位置推理模块，具体用于为语义结构图的每个空间位置匹配三个锚框，选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框，根据预测的回归偏移量调整候选框，得到语义信息的视觉位置。

其中，图片表征模块通过如下方式用卷积神经网络提取输入图片的多尺度视觉特征，编码嵌入空间坐标信息，得到空间感知视觉特征：图片表征模块，具体用于使用YOLOv3作为基础模型框架，采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络，提取特征金字塔网络的不同空间分辨率输出作为视觉特征，将空间坐标信息嵌入视觉特征获得空间感知视觉特征。

由此可见，通过本发明提供的基于多模态图卷积网络的语义视觉定位方法及装置，将语料通过解析构建语义结构图，在语义信息指导下学习提取多模态特征，提升语义视觉定位任务性能；通过解析语料输入，构建基于语义信息的语义结构图，使用结合视觉特征、空间坐标信息以及语义特征的多模态特征，通过图卷积网络传播语义结构图中节点的关系信息，在语义关系的指导下学习视觉语义联系，从而缓解歧义或者二义性语义元素带来的影响，更精准的获取语义视觉位置。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法的流程图；

图2为本发明实施例提供的图片和语料表征示意图；

图3为本发明实施例提供的图结构示意图；

图4为本发明实施例提供的关系信息图传播示意图；

图5为本发明实施例提供的语义视觉位置推理示意图；

图6为本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明的核心在于：提出将语料通过解析构建语义结构图，在语义信息指导下学习提取多模态特征，提升语义视觉定位任务性能。本方法通过解析语料输入，构建基于语义信息的语义结构图，使用结合视觉特征、空间坐标信息以及语义特征的多模态特征，通过图卷积网络传播语义结构图中节点的关系信息，在语义关系的指导下学习视觉语义联系，从而缓解歧义或者二义性语义元素带来的影响，更精准的获取语义视觉位置。

本发明可划分为三个主要步骤：图片和语料表征(图1步骤S1-S3)、关系信息图传播 (图1步骤S4-S5)和语义视觉位置推理(图1步骤S6)。以下，通过图1对本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法进行具体说明，参见图1，本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法，包括：

S1，获取输入图片以及语料描述。

具体地，输入图片以及语料描述可以在同时获取，也可以不同时获取，只要可以获取到，则均应属于本发明的保护范围。

本发明中，将输入的图片和自然语言描述分别表征为空间感知特征和语义图。图片的空间感知特征在通过卷积神经网络提取视觉特征的基础上融合了空间坐标信息，捕捉了图片全局上下文信息。语义图则编码了语料描述的语义结构，引导联系信息在名词短语间传播。具体表征图片和语料的方法如下述步骤S2和S3，值得说明的是，以下步骤S2和S3的执行顺序可以先执行S2后执行S3，也可以先执行S3后执行S2，还可以同时执行，这在本发明中并不做具体限制。以下，结合图1和图2对图片和语料表征的具体方式进行说明。

S2，用卷积神经网络提取输入图片的多尺度视觉特征，编码嵌入空间坐标信息，得到空间感知视觉特征。

作为本发明实施例的一个可选实施方式，用卷积神经网络提取输入图片的多尺度视觉特征，编码嵌入空间坐标信息，得到空间感知视觉特征包括：使用YOLOv3作为基础模型框架，采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络，提取特征金字塔网络的不同空间分辨率输出作为视觉特征，将空间坐标信息嵌入视觉特征获得空间感知视觉特征。

具体地，图片编码获取空间感知特征过程如下：

使用YOLOv3作为基础模型框架，采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络。例如给定输入图片I，首先使用零填充将图片调整为256×256大小，并保持其长宽比。提取特征金字塔网络的不同空间分辨率输出作为视觉特征，具体包含 8×8×1024、16×16×512和32×32×256等三种分辨率。为了方便表述，以下采用V 表示提取的大小为W×H×D_v的视觉特征。

考虑到一个名词短语有时不仅描述目标的外形信息，也会描述目标的位置信息，因此，本发明将空间坐标信息嵌入视觉特征获得图片的空间感知特征。

具体地，定义空间图P，P与相关联的视觉特征有相同的空间分辨率，即P的大小为W×H，其中每一个位置(x,y)∈{(0,0),(0,1),...,(W-1,H-1)}的定义如下：

其中R_x，y∈R⁸编码了对应位置(x，y)处网格的左上、中心、右下、宽度和高度的标准化坐标。然后，融合视觉特征V和空间图P来获得空间感知特征

F＝[L2Norm(Conv₀(V))；P]

其中，Conv₀(·)卷积核为1×1的卷积层，L2Norm(·)是在特征通道维度上的L2正则化，符号[；]表示拼接操作。

S3，解析语料描述构建语义结构图，对语义结构图中的每个节点词向量编码，通过多层感知机学习图节点语义特征。

具体地，语料解析构建语义图过程如下：

本发明将自然语言描述编码为语义图，图中的每个节点表征一个名词短语，图中的边表征语料描述中提到的名词短语之间的语义关系，诸如介词或动词短语。

首先解析语料描述构建一个初始的场景图，然后再基于给定的名词短语提炼获得最终的语义图。

作为本发明实施例的一个可选实施方式，解析语料描述构建语义结构图，对语义结构图中的每个节点词向量编码，通过多层感知机学习图节点语义特征包括：给定一个自然语言描述语料，以及自然语言描述语料中的名词短语集合；使用场景图解析器自然语言描述语料，提取初始场景图；按照自然语言描述语料中的原始顺序对每一个节点进行重排序，得到重排序后的名词短语集合；基于单词的最大重叠数进行名词短语匹配，并用给定的名词短语替换场景图中与之匹配的名词短语；对每一条边基于与之相连的替换后的名词短语增加或删除单词；输出语义结构图，其中，语义结构图中的每个节点表征一个名词短语，语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。

具体过程如下：

1、输入：给定一个自然语言描述语料L，以及L中的名词短语集合P_g；

2、首先使用现有的场景图解析器解析语料L，提取一个初始的场景图。具体地，场景图解析器通过将语料描述解析为一棵依赖树，然后依据一些列手工规则将依赖树转化为图结构，以此获得初始场景图。图中的节点为具有修饰的名词，边为名词间的语义联系。例如，短语『a-man-in-beard』通过解析生成图中的两个节点(『a man』-『in』-『beard』)，他们之间的边编码了名词节点间的关系。(详细例子如图3所示)。

3、然后按照语料库L中的原始顺序对每一个节点进行重排序，重排序后的名词短语记为 P_r集合。

4、然而有时候，给定的语料L中的名词短语集合P_g和提取的到的场景图中的名词短语集合P_r不能完全匹配。因此，本发明基于单词的最大重叠数进行名词短语匹配，并用给定的名词短语替换场景图中与之匹配的名词短语。

5、最后，对每一条边基于与之相连的替换后的名词短语增加或删除单词。在调整完场景图中节点和边之后，获得语义图G。

6、输出：语义图G。

为了方便表述，本发明可以采用如下符号定义语义图G。语义图G表示为G＝(v，ε)，其中，

表示节点集合，

表示边集合。具体地，每个节点v_n对应于由语料L中若干个单词组成的名词短语L_n；每条边e_k是一个三元组

在边对应的三元组中，

和

分别表示主语节点和宾语节点，与

对应的语料L中的介词或者动词短语E_k则是节点

和

间的语义联系。此外，本发明可以采用

表示宾语是v_n的节点集合，用

表示主语是v_n的节点集合，用de_n表示节点v_n的度数。

以下，结合图1和图4对关系信息图传播的具体方式进行说明。

S4，融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征。

具体地，在本发明中，通过解析语料构建基于语义关系的图，将名词短语间的关系信息编码嵌入图结构中。使用图卷积进行图中的信息传播，从而在语义结构信息的指导下学习结合视觉特征、空间坐标信息和语义联系的多模态特征，用于语义视觉位置推理。

作为本发明实施例的一个可选实施方式，融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征包括：为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征；融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。

具实施过程中，首先，为图G中的每个节点V提取结合视觉特征、空间坐标信息和语义联系的多模态特征。具体地，对每个节点的短语采用词向量编码，每个节点的初始短语编码为节点包含单词的词向量的均值。对由名词短语L_n构成的节点v_n有初始词编码

通过一个非线性变化学习节点的词编码如下：

w'_n＝L2Norm(MLP₀(w_n))

其中MLP₀(·)为带有RELU激活函数的多层感知机，L2Norm(·)为L2正则化。然后融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征M_n如下：

M_n＝L2Norm(Conv₁([F；Tile(w'_n)]))

其中，F为之前提取的空间感知特征，Tile(·)将词编码w′_n按分辨率W×H对应的每个空间位置堆叠，Conv₁(·)为一系列连接着BatchNorm层和ReLU层的卷积层。

S5，通过图卷积网络传播语义结构图中节点的关系信息，在语义关系的指导下学习视觉语义联系。

具体地，提取多模态特征

后，通过图卷积发掘短语间的语义联系。在图中的信息传播过程中，每个节点都直接收到邻居节点且间接受到更远节点的影响而改变自己的状态，从而将名词短语间的关联信息嵌入到模型提取的特征中，语义的视觉位置推理在语义的指导下获得更为精确的位置预测。具体地，对图中节点的多模态特征M经过若干层图卷积提取得到M′，其中每一层实现如下：

其中，

为第l层输出的图卷积特征，A为图G的邻接矩阵，D为图G节点的度矩阵。通过引入图自身度矩阵解决自传递问题，即节点的更新信息也参考自身上一个状态的信息；通过对邻接矩阵的归一化操作，缓解了邻居节点较多的节点影响较大的问题。

以下，结合图1和图5对语义视觉位置推理的具体方式进行说明。

S6，进行语义视觉位置推理，获得语义信息的视觉位置。

作为本发明实施例的一个可选实施方式，进行语义视觉位置推理，获得语义信息的视觉位置包括：为语义结构图的每个空间位置匹配三个锚框，选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框，根据预测的回归偏移量调整候选框，得到语义信息的视觉位置。

具体地，语义的视觉位置推理过程与检测任务类似，本发明可以为特征图的每个空间位置匹配三个锚框(anchor box)，选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框，在根据预测的回归偏移量调整候选框得到最终的语义视觉位置。对图G中的每个节点v_n预测回归偏移量和置信分数用

表示，对于 W×H空间分辨率大小的每一个位置计算三个锚框的pred_n如下：

pred_n＝Conv_pred(M_n)

其中，Conv_pred(·)为一系列卷积层。训练过程中，计算候选框分类的交叉熵损失函数以及预测回归偏移量的L1回归损失函数。即整体损失函数可以写为：

Loss＝Loss_conf+λLoss_reg

其中，λ为分类损失和回归损失的权重参数，Loss_conf是在不同尺度特征图中所有锚框中分类与真实值IoU最大的框的交叉熵损失函数，Loss_reg是预测的回归偏移量与真实值的 L1损失函数。具体地，定义回归偏移

如下：

t_x＝(g_x-r_x)/r_w，t_y＝(g_y-r_y)/r_h

t_w＝log(g_x/r_w)，t_h＝log(g_h/r_h)

其中，

和

分别是真实值和候选框的值。

推理阶段，本发明基于分类获得的候选框r和回归预测的回归偏移量t’计算得到最终的语义视觉位置：

由此可见，通过本发明实施例提供的基于多模态图卷积网络的语义视觉定位方法，基于语料解析构建语义结构图的方法，从而将语料中语义元素间的关系信息编码到图结构中；提出结合了视觉特征、空间坐标信息以及图节点语义特征的多模态特征融合方法，使得图中每个节点包含信息更丰富的特征；提出使用图卷积进行图中的信息传播，从而在语义结构信息的指导下学习并提取多模态特征，用于语义视觉位置推理。从而能够高效的将语料中语义关系信息构建为图，可以进一步发掘语料中语义元素间的关系信息；融合了视觉特征和空间坐标信息，使得特征具有空间感知能力。同时结合图节点的语义特征，将空间感知特征和语义特征进行融合，联合学习；用图卷积学习图节点间的语义关系信息，可以在语义信息指导下获得更精确的语义视觉定位。

图6示出了本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置的结构示意图，该基于多模态图卷积网络的语义视觉定位装置应用上述方法，以下仅对基于多模态图卷积网络的语义视觉定位装置的结构进行简单说明，其他未尽事宜，请参照上述基于多模态图卷积网络的语义视觉定位方法中的相关描述，参见图6，本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置，包括：

获取模块，用于获取输入图片以及语料描述；

图片表征模块，用于用卷积神经网络提取输入图片的多尺度视觉特征，编码嵌入空间坐标信息，得到空间感知视觉特征；

语料表征模块，用于解析语料描述构建语义结构图，对语义结构图中的每个节点词向量编码，通过多层感知机学习图节点语义特征；

多模态特征融合模块，用于融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征；

关系信息图传播模块，用于通过图卷积网络传播语义结构图中节点的关系信息，在语义关系的指导下学习视觉语义联系；

视觉位置推理模块，用于进行语义视觉位置推理，获得语义信息的视觉位置。

作为本发明实施例的一个可选实施方式，图片表征模块通过如下方式用卷积神经网络提取输入图片的多尺度视觉特征，编码嵌入空间坐标信息，得到空间感知视觉特征：图片表征模块，具体用于使用YOLOv3作为基础模型框架，采用结合特征金字塔网络的Darknet- 53作为特征提取器的主干网络，提取特征金字塔网络的不同空间分辨率输出作为视觉特征，将空间坐标信息嵌入视觉特征获得空间感知视觉特征。

作为本发明实施例的一个可选实施方式，语料表征模块通过如下方式解析语料描述构建语义结构图，对语义结构图中的每个节点词向量编码，通过多层感知机学习图节点语义特征：语料表征模块，具体用于给定一个自然语言描述语料，以及自然语言描述语料中的名词短语集合；使用场景图解析器自然语言描述语料，提取初始场景图；按照自然语言描述语料中的原始顺序对每一个节点进行重排序，得到重排序后的名词短语集合；基于单词的最大重叠数进行名词短语匹配，并用给定的名词短语替换场景图中与之匹配的名词短语；对每一条边基于与之相连的替换后的名词短语增加或删除单词；输出语义结构图，其中，语义结构图中的每个节点表征一个名词短语，语义结构图中的边表征语料描述中提到的名词短语之间的语义关系。

作为本发明实施例的一个可选实施方式，多模态特征融合模块通过如下方式融合空间感知视觉特征和图节点语义特征得到语义结构图中每个节点的多模态特征：多模态特征融合模块，具体用于为语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征；融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。

作为本发明实施例的一个可选实施方式，视觉位置推理模块通过如下方式进行语义视觉位置推理，获得语义信息的视觉位置：视觉位置推理模块，具体用于为语义结构图的每个空间位置匹配三个锚框，选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框，根据预测的回归偏移量调整候选框，得到语义信息的视觉位置。

由此可见，通过本发明实施例提供的基于多模态图卷积网络的语义视觉定位装置，基于语料解析构建语义结构图的方法，从而将语料中语义元素间的关系信息编码到图结构中；提出结合了视觉特征、空间坐标信息以及图节点语义特征的多模态特征融合方法，使得图中每个节点包含信息更丰富的特征；提出使用图卷积进行图中的信息传播，从而在语义结构信息的指导下学习并提取多模态特征，用于语义视觉位置推理。从而能够高效的将语料中语义关系信息构建为图，可以进一步发掘语料中语义元素间的关系信息；融合了视觉特征和空间坐标信息，使得特征具有空间感知能力。同时结合图节点的语义特征，将空间感知特征和语义特征进行融合，联合学习；用图卷积学习图节点间的语义关系信息，可以在语义信息指导下获得更精确的语义视觉定位。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和 /或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于多模态图卷积网络的语义视觉定位方法，其特征在于，包括：

获取输入图片以及语料描述；

用卷积神经网络提取所述输入图片的多尺度视觉特征，编码嵌入空间坐标信息，得到空间感知视觉特征；

解析所述语料描述构建语义结构图，对所述语义结构图中的每个节点词向量编码，通过多层感知机学习图节点语义特征；

融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征；

通过图卷积网络传播所述语义结构图中节点的关系信息，在语义关系的指导下学习视觉语义联系；

进行语义视觉位置推理，获得语义信息的视觉位置。

2.根据权利要求1所述的方法，其特征在于，所述解析所述语料描述构建语义结构图，对所述语义结构图中的每个节点词向量编码，通过多层感知机学习图节点语义特征包括：

给定一个自然语言描述语料，以及所述自然语言描述语料中的名词短语集合；

使用场景图解析器所述自然语言描述语料，提取初始场景图；

按照所述自然语言描述语料中的原始顺序对每一个节点进行重排序，得到重排序后的名词短语集合；

基于单词的最大重叠数进行名词短语匹配，并用给定的名词短语替换场景图中与之匹配的名词短语；

对每一条边基于与之相连的替换后的名词短语增加或删除单词；

输出所述语义结构图，其中，所述语义结构图中的每个节点表征一个名词短语，所述语义结构图中的边表征所述语料描述中提到的名词短语之间的语义关系。

3.根据权利要求1所述的方法，其特征在于，所述融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征包括：

为所述语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征；

融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。

通过图卷积发掘短语间的语义联系，得到视觉语义联系。

4.根据权利要求1所述的方法，其特征在于，所述进行语义视觉位置推理，获得语义信息的视觉位置包括：

为所述语义结构图的每个空间位置匹配三个锚框，选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框，根据预测的回归偏移量调整候选框，得到所述语义信息的视觉位置。

5.根据权利要求1所述的方法，其特征在于，所述用卷积神经网络提取所述输入图片的多尺度视觉特征，编码嵌入空间坐标信息，得到空间感知视觉特征包括：

使用YOLOv3作为基础模型框架，采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络，提取所述特征金字塔网络的不同空间分辨率输出作为视觉特征，将所述空间坐标信息嵌入所述视觉特征获得所述空间感知视觉特征。

6.一种基于多模态图卷积网络的语义视觉定位装置，其特征在于，包括：

获取模块，用于获取输入图片以及语料描述；

图片表征模块，用于用卷积神经网络提取所述输入图片的多尺度视觉特征，编码嵌入空间坐标信息，得到空间感知视觉特征；

语料表征模块，用于解析所述语料描述构建语义结构图，对所述语义结构图中的每个节点词向量编码，通过多层感知机学习图节点语义特征；

多模态特征融合模块，用于融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征；

关系信息图传播模块，用于通过图卷积网络传播所述语义结构图中节点的关系信息，在语义关系的指导下学习视觉语义联系；

7.根据权利要求6所述的装置，其特征在于，所述语料表征模块通过如下方式解析所述语料描述构建语义结构图，对所述语义结构图中的每个节点词向量编码，通过多层感知机学习图节点语义特征：

语料表征模块，具体用于给定一个自然语言描述语料，以及所述自然语言描述语料中的名词短语集合；使用场景图解析器所述自然语言描述语料，提取初始场景图；按照所述自然语言描述语料中的原始顺序对每一个节点进行重排序，得到重排序后的名词短语集合；基于单词的最大重叠数进行名词短语匹配，并用给定的名词短语替换场景图中与之匹配的名词短语；对每一条边基于与之相连的替换后的名词短语增加或删除单词；输出所述语义结构图，其中，所述语义结构图中的每个节点表征一个名词短语，所述语义结构图中的边表征所述语料描述中提到的名词短语之间的语义关系。

8.根据权利要求6所述的装置，其特征在于，所述多模态特征融合模块通过如下方式融合所述空间感知视觉特征和所述图节点语义特征得到所述语义结构图中每个节点的多模态特征：

所述多模态特征融合模块，具体用于为所述语义结构图中的每个节点提取结合视觉特征、空间坐标信息和语义联系的多模态特征；融合词编码和空间感知特征获得编码了语义信息、视觉特征和空间坐标信息的多模态特征。

9.根据权利要求6所述的装置，其特征在于，所述视觉位置推理模块通过如下方式进行语义视觉位置推理，获得语义信息的视觉位置：

所述视觉位置推理模块，具体用于为所述语义结构图的每个空间位置匹配三个锚框，选取不同空间分辨率的三个特征图包含的所有锚框中有最大分数的锚框作为候选框，根据预测的回归偏移量调整候选框，得到所述语义信息的视觉位置。

10.根据权利要求6所述的装置，其特征在于，所述图片表征模块通过如下方式用卷积神经网络提取所述输入图片的多尺度视觉特征，编码嵌入空间坐标信息，得到空间感知视觉特征：

所述图片表征模块，具体用于使用YOLOv3作为基础模型框架，采用结合特征金字塔网络的Darknet-53作为特征提取器的主干网络，提取所述特征金字塔网络的不同空间分辨率输出作为视觉特征，将所述空间坐标信息嵌入所述视觉特征获得所述空间感知视觉特征。