CN111611367A

CN111611367A - 一种引入外部知识的视觉问答方法

Info

Publication number: CN111611367A
Application number: CN202010436987.7A
Authority: CN
Inventors: 王春辉; 胡勇
Original assignee: Polar Intelligence Technology Co ltd
Current assignee: Polar Intelligence Technology Co ltd
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-01
Anticipated expiration: 2040-05-21
Also published as: CN111611367B

Abstract

本发明公开一种引入外部知识的视觉问答方法。所述方法包括：构造视觉图；构造事实知识图；利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算，突出与问题相关的节点和边，然后使用图神经网络更新节点；在问题的引导下从视觉图中提取相对每个事实知识的互补信息，并将所述互补信息融合到事实知识图中，以可能是答案的概率最大的事实知识为问题的答案。本发明通过在问题的引导下从视觉图中提取相对每个事实知识的互补信息，并将所述互补信息融合到事实知识图中，避免了冗余的噪声，提高了答案的准确率。

Description

一种引入外部知识的视觉问答方法

技术领域

本发明属于自然语言理解技术领域，具体涉及一种引入外部知识的视觉问答方法。

背景技术

视觉问答涉及计算机视觉和自然语言处理技术，即给定一张图片和一个与该图片相关的自然语言问题，计算机产生一个正确的回答。大多数现有的视觉问答模型主要关心理解视觉对象，其中的问题与简单的计数、颜色和其它视觉检测任务有关，只需要直接分析问题和图像就可以获得答案，因此不需要太多的逻辑推理或与外部知识的关联。但是如果问题涉及到常识知识，这些模型往往会得出错误答案，而人类在面对涉及常识的视觉问题时，会综合关联图像和外部知识来回答。因此，为了补足和人类的差距从而实现更通用的人工智能，将外部知识引入视觉问答中是必不可少的环节。

有学者提出一个基于外部事实知识的视觉问答数据集FVQA以用基于查询映射的方法QQMapping。FVQA包含图片、问题、对应的答案以及一个从WebChild、DBPedia和ConceptNet中抽取得到的事实知识库。QQMapping首先根据图像中的视觉概念查询知识库，抽取出有关联的事实组成一个与当前图像相关的知识库。然后用LSTM对问题进行分类，得到一个查询语句，根据查询语句得到一系列候选的事实。然后根据关键词得到问题和事实的匹配程度，选择最相关的事实。最后根据问题预测答案的来源，选择一个实体当做最后的问题。但是如果出现同义词或同形异义词，QQMapping的效果就会下降。为此，有人提出一种基于学习的方法用于解决同义词和同形异义词的问题。首先分别通过CNN和LSTM得到图像和问题的嵌入表示，然后通过多层感知机将这两种模态融合起来得到图像-问题的联合表示。通过另一个LSTM预测对应事实的关系类型，然后根据关系抽取出相应的事实，使用GloVe得到事实的嵌入，计算其与图像-问题联合表示的内积，选取内积最大的作为事实。最后根据答案的来源选择一个实体作为最终答案。通过神经网络的自我学习能力，能够克服同义词和同形异义词引发的歧义。

图神经网络是一种将深度学习扩展到图数据的模型，可以有效利用图数据的复杂的拓扑结构学习每个节点的表示，从而提高下游任务的准确度。根据图像的视觉概念和对应的关系类型将抽取到的事实组成一个知识图谱，其中每个节点是一个实体，每条边表示实体之间的关系。节点的初始特征表示为“图像-问题-实体”的嵌入向量的拼接。然后使用图卷积网络学习到每个节点的表示，有效地捕获了知识图谱的邻居信息和拓扑结构信息。学习到的每个节点的表示通过一个多层感知机，最后一层只包括一个神经元，输出当前节点作为答案的概率。从所有节点中选择概率最大的作为最终的答案。

上述方法存在的问题是：编码图像时都使用了全部的视觉信息，但没有根据问题的不同自适应地选择需要的信息，会引入与问题无关的噪声；将回答问题所需的视觉信息和事实知识直接拼接，没有根据问题进行动态融合。

发明内容

为了解决现有技术中存在的上述问题，本发明提出一种基引入外部知识的视觉问答方法。

为实现上述目的，本发明采用如下技术方案：

一种引入外部知识的视觉问答方法，包括以下步骤：

步骤1，构造图像I的视觉图G^v＝(V^v,E^v)，V^v＝{v_i}为节点集，i∈[1,N_v]，N_v为节点个数，v_i为第i个节点，表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量，

为边集合，

为连接节点v_i和v_j的边，是表示第i个检测框和第j个检测框位置关系的向量，j∈[1,N_v]，j≠i；

步骤2，选取知识库中与问题最相关的N_f个事实知识构造事实知识图G^f＝(V^f,E^f)，V^f＝{f_i}为节点集，i∈[1,N_f]，f_i为第i个节点，表示第i个事实知识，

为边集合，

为连接节点f_i和f_j的边，表示第i个事实知识与第j个事实知识的关系，j∈[1,N_f]，j≠i；

步骤3，利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算，突出与问题相关的节点和边，然后使用图神经网络更新节点；

步骤4，在问题的引导下，从视觉图中提取相对每个事实知识的互补信息，并将所述互补信息融合到事实知识图中，可能是答案的概率最大的事实知识为问题的答案。

与现有技术相比，本发明具有以下有益效果：

本发明通过构造视觉图，构造事实知识图，利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算，突出与问题相关的节点和边，然后使用图神经网络更新节点，在问题的引导下从视觉图中提取相对每个事实知识的互补信息，并将所述互补信息融合到事实知识图中，以可能是答案的概率最大的事实知识为问题的答案。本发明通过在问题的引导下从视觉图中提取相对每个事实知识的互补信息，并将所述互补信息融合到事实知识图中，避免了冗余的噪声，提高了答案的准确率。

附图说明

图1为本发明实施例一种引入外部知识的视觉问答方法的流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明实施例一种引入外部知识的视觉问答方法，流程图如图1所示，所述方法包括：

S101、构造图像I的视觉图G^v＝(V^v,E^v)。V^v＝{v_i}为节点集，i∈[1,N_v]，N_v为节点个数，v_i为第i个节点，表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量，

为边集合，

S102、选取知识库中与问题最相关的N_f个事实知识构造事实知识图G^f＝(V^f,E^f)，V^f＝{f_i}为节点集，i∈[1,N_f]，f_i为第i个节点，表示第i个事实知识，

为边集合，

S103、利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算，突出与问题相关的节点和边，然后使用图神经网络更新节点；

S104、在问题的引导下，从视觉图中提取相对每个事实知识的互补信息，并将所述互补信息融合到事实知识图中，可能是答案的概率最大的事实知识为问题的答案。

在本实施例中，步骤S101用于构造图像I的视觉图。由于FVQA中的大多数问题都是基于视觉对象及其关系，因此本实施例构造了一个全连通的视觉图来表征表层的视觉信息。视觉图中的一个节点表示一个图像特征向量，是利用Faster-RCNN从图像I的一个检测框内提取的。Faster-RCNN是计算机视觉领域常用的一种目标检测模型。它可以自动地检测出图像中包含的物体并对物体进行分类。任意两个节点之间连接一条边，所述边表示两个节点对应的检测框的位置关系。

在本实施例中，步骤S102用于构造事实知识图。事实知识图的一个节点表示一个事实知识；任意两个节点之间连接一条边，表示两个节点表示的事实知识之间的关系。构造事实知识图的事实知识来自知识库。为了找到与问题最相关的事实，从知识库中选择一系列与问题相关的候选事实知识。首先，计算事实知识中每个单词的词嵌入a_i，S101中检测到的每个图像特征标签的词嵌入b_j，问题中每个单词的词嵌入c_k。计算每个a_i、b_j与c_k的余弦相似度，求这些余弦相似度的平均值，对候选事实知识按所述平均值从大到小排序，选出排在最前面的N个事实知识。然后，为了进一步提高候选事实知识的准确率，利用LSTM预测出问题对应的关系的类型，再从N个事实知识中筛选出属于所述类型的事实知识，得到与问题最相关事实知识用于构造事实知识图。

在本实施例中，步骤S103用于对视觉图和事实知识图进行突出与问题相关的节点和边的操作。利用注意力机制对两个图中的节点、边相对问题进行运算，可以突出与问题相关的节点和边。然后再使用图神经网络对节点进行更新。突出视觉图和事实知识图中与问题相关的节点和边后，有利于更有效地获取问题的答案。

在本实施例中，步骤S104用于从事实知识中获得问题的答案。为了正确回答问题，需要利用视觉和外部知识两种模态中的互补信息。由于问题的答案来自事实知识图中的一个事实知识，可通过从视觉图到事实知识图的跨模态卷积，从视觉图中收集互补信息融入到事实知识图，将融合后概率最大的事实知识作为问题的答案。本实施例通过针对不同的问题收集不同的互补信息，可避免冗余的噪声，提高答案的准确率。

作为一种可选实施例，

的计算公式为：

式中，x_i、y_i分别为第i个检测框左上角的横坐标和纵坐标，x_j、y_j分别为第j个检测框左上角的横坐标和纵坐标，w_i、h_i分别为第i个检测框的宽和高，w_j、h_j分别为第j个检测框的宽和高。

本实施例给出了视觉图的任意一条边

的表示方法。

的计算方法如公式(1)所示。利用Faster-RCNN提取第i个检测框的图像特征时，返回一个四维的位置向量B_i＝(x_i,y_i,w_i,h_i)，

就是根据位置向量B_i得到的。

作为一种可选实施例，所述S103具体包括以下步骤：

对于视觉图，计算每个节点v_i相对问题q的注意力权重α_i：

α_i＝softmax(w_atanh(w₁v_i+w₂q)) (2)

式中，w_a、w₁、w₂为学习参数，[·,·]表示向量拼接；

针对每个节点v_i，计算与其相连的所有边相对v_i和问题q的注意力权重β_ji：

β_ji＝softmax(w_btanh(w₃v′_j+w₄q′)) (3)

式中，

q′＝w₆[v_i,q]，w_b、w₃、w₄、w₅、w₆为学习参数；

利用图神经网络更新节点，即

用替换v_i：

式中，w₇为学习参数；

针对事实知识图，按照上述方法进行与视觉图相同完全相同的处理。

本实施例给出了步骤S103突出视觉图和事实知识图中与问题相关的节点和边的一种具体的技术方案。视觉图和事实知识图的处理方法完全相同，均是先计算每个节点相对问题的注意力权重，然后针对每个节点计算与其相连的所有边相对该节点和问题的注意力权重，最后利用图神经网络更新节点。

作为一种可选实施例，所述S104具体包括以下步骤：

计算在问题q的引导下，视觉图中的每个节点v_j对事实知识图中的每个节点f_i的注意力权重

式中，w_c、w₈、w₉为学习参数；

计算视觉图对于f_i的互补信息

利用gate机制自适应地对互补信息

和事实知识图中的f_i进行融合，得到融合后的信息

式中，σ为门函数，w₁₀、w₁₁为学习参数，[·,·]表示向量拼接，“ο”表示两个向量逐元素相乘；

将

反复与

进行多次融合，将融合后的事实知识图输入到一个多层感知机，得到每个事实知识可能是答案的概率，概率最高的事实知识即为问题的答案。

本实施例给出了步骤S104从事实知识中获得问题答案的一种具体的技术方案。首先，计算在问题的引导下视觉图中的每个节点对事实知识图中的每个节点的注意力权重；然后，计算视觉图对于事实知识图中每个节点的互补信息；最后，将每个节点的互补信息与所述节点反复融合，将融合后的事实知识图输入到一个多层感知机，得到每个事实知识可能是答案的概率，概率最高的事实知识即为问题的答案。

为了验证本发明实施例的效果，下面给出一组实验数据。

实验采用包含外部事实知识的FVQA数据集。如果预测答案的字符串匹配了相应的真实答案，则预测的答案是正确的。采用top-1、top-3两种准确率，top-1准确率指的是只有预测出的得分最高的答案是真实答案，那么这个样本才算预测正确；top-3准确率指的是只要预测出的前三高分数的答案中包括真实答案，那么这个样本就算预测正确。实验结果如表1所示，表中方法栏的LSTM-Question+Image+Pre-VQA是通过LSTM得到问题表示，用CNN得到图像表示，然后输入到预训练好的VQA模型中；Hie-Question+Image+Pre-VQA是先用层次化注意力机制处理问题表示和图像表示，然后再输入到VQA模型中；FVQA(QQmaping)将问题转换成一个查询语句，然后在知识库中寻找；Straight to the Facts将图像+问题的表示和事实的表示计算相似度，选择相似度最高的最为答案；Out of the Box将知识表示成一个图结构，其中每个节点的表示是固定形式的；Our model是本发明的模型；Our model(V-Fconcat)是去掉了Our model模型中的跨模态卷积，将所有的视觉特征求平均值，然后再和事实知识图中节点的表示拼接在一起。

表1实验结果

由表1可知，本发明模型的所有指标都超过了现有方法。Out of the Box是和本发明最相关的，它一视同仁地将相同的全局图像特征融入到不同的实体，没有收集不同模态中的互补信息来做推断，本发明的准确率相对这种模型获得了显著的提升。为了验证跨模态图卷积的有效性，将视觉到事实的跨模态卷积替换成视觉特征的平均值与事实知识的拼接，top-1和top-3准确率分别下降了1.35％和2.64％，结果证明了跨模态卷积在收集来自不同模态的互补信息方面的有效性。

上述仅对本发明中的几种具体实施例加以说明，但并不能作为本发明的保护范围，凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等，均应认为落入本发明的保护范围。