CN110110043A

CN110110043A - 一种多跳视觉问题推理模型及其推理方法

Info

Publication number: CN110110043A
Application number: CN201910290520.3A
Authority: CN
Inventors: 林倞; 李百林; 王青; 李冠彬
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2019-08-09
Anticipated expiration: 2039-04-11
Also published as: CN110110043B

Abstract

本发明公开了一种多跳视觉问题推理模型及其推理方法，所述模型包括：多跳视觉问题推理数据集建立单元，用于通过将场景图和知识库相融合成知识图，利用知识图构造包含多跳知识推理问答对的数据集；卷积神经网络，用于提取输入图像的图像特征；长短期记忆网络，用于提取问题特征；知识路由模块化网络，用于将问题解析为查询树，其中查询树是问题的推理过程的符号化表达，并结合查询树和知识库，在知识图中提取出正确的关系或实体，进行多跳推理以给出最终的回答。

Description

一种多跳视觉问题推理模型及其推理方法

技术领域

本发明涉及视觉问题回答、自然语言处理、图像识别和深度学习领域，特别是涉及一种多跳视觉问题推理模型及其推理方法。

背景技术

目前的视觉问答问题往往只要求回答问题的答案，而视觉问答的终极目标要求我们得到的是一个能够理解任何推理复杂度的问题(例如单跳推理或多跳推理)，同时给予可解释的诊断结果，以提高模型的可信度。一个理想的模型在回答“这个女孩手上拿的东西有什么用？”时，应该要能够理解问题中的内在实体关系，将实体与图像中视觉依据的关联起来，通过提取关键物体最可能需要的关系或属性来给出回答。

现有的自然图像场景视觉问答数据集通常包含相对简单的问题，且仅评估最终的答案预测的准确性，缺乏对中间推理结果的评估以及关于系统能力的可解释的理由。此外，人类标注的问题和答案之间往往有着很强的相关性，这使得端到端网络能够通过自然地利用数据集偏差而不是对图像和问题进行共同推理来实现高性能。最近有一些工作通过平衡问答对来解决这个问题，CLEVR提出了一个合成数据集，其中基于给定的组成布局生成图像和问答对，然而，在图像特征图和问题编码之间融合的常规神经网络仍然正确地回答了这些复杂和组合问题，仍然很难诊断出神经网络学到了什么以及如何获得正确的答案。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种多跳视觉问题推理模型及其推理方法，以实现对视觉问题进行多跳推理并作出回答和答题依据。

为达上述目的，本发明提出一种多跳视觉问题推理模型，包括：

多跳视觉问题推理数据集建立单元，用于通过将场景图和知识库相融合成知识图，利用知识图构造包含多跳知识推理问答对的数据集；

卷积神经网络，用于提取输入图像的图像特征；

长短期记忆网络，用于提取问题特征；

知识路由模块化网络，用于将问题解析为查询树，其中查询树是问题的推理过程的符号化表达，并结合查询树和知识库，在知识图中提取出正确的关系或实体，进行多跳推理以给出最终的回答。

优选地，所述数据集基于自然图像场景图和外部知识库提取到的一或两个事实三元组，构造复杂问题的问题-答案对。

优选地，所述多跳视觉问题推理数据集建立单元根据场景图标注和知识库，选取若干事实三元组，对问答模板填空，生成问题，并生成相应的答案及推理中间过程标注。

优选地，所述多跳视觉问题推理数据集建立单元通过问题对应的三元组来诊断模型的可解释性，并要求模型在给出问题的答案时，同时给出对应的依据，通过衡量三元组的准确率或召回率量化模型的可解释性。

优选地，所述知识路由模块化网络进一步包括：

查询树生成网络，用于将问题解析为查询树，用以指导树形神经模块化网络的拓扑结构；

树形模块化神经网络，由查询树指导生成，其根结点所对应的模块最后接入一个多层感知机，从图片和知识库中提取出视觉依据或知识，最后将这些提取到的信息整合下通过多跳推理得到最终答案；

多层感知机，用于获取所述树形模块化神经网络的输出，多层感知处理后得到整个问题的答案。

优选地，所述查询树生成网络为一个序列到序列的循环神经网络，由一个编码器循环神经网络和一个解码器循环神经网络构成，所述编码器每次读入问题的一个单词，取最后一步的循环神经网络输出作为问题向量编码，然后用一个解码器神经网络生成查询语句，每一步的输入都是问题向量编码，输出是查询语句的一个字符，最后再用一个移入-规约语法解析器将查询语句转化为查询树。

优选地，所述树形模块化神经网络由若干个模块化神经网络构成，每个模块化神经网络为视觉推理模块或知识推理模块。

优选地，所述视觉推理模块首先由实体注意力模块和视觉注意力模块串联，然后再接入视觉与问题的共注意力模块构成，所述知识推理模块是一个基于规则的简单知识提取模块。

为达到上述目的，本发明还提供一种多跳视觉问题推理模型的推理方法，包括如下步骤：

步骤S1，建立多跳视觉问题推理模型，构造由学习得到的查询树指导生成的神经网络模型；

步骤S2，提取输入图像的图像特征，并提取问题特征；

步骤S3，将问题解析为查询树，其中查询树是问题的推理过程的符号化表达，并结合查询树和知识库，在知识图中提取出正确的关系或实体，进行多跳推理以给出最终的回答。

优选地，于步骤S1中，还包括对所述视觉推理模型学习的步骤，对所述所述视觉推理模型学习使用反向传播算法，其步骤包括：

通过大量的文本数据来预训练查询树的拓扑结构；

通过大量的视觉问题推理数据，使用反向传播算法迭代训练卷积神经网络、长短期记忆网络层、树形模块化神经网络以及多层感知机的模型参数，直到收敛。

与现有技术相比，本发明一种多跳视觉问题推理模型及其推理方法首先通过查询树生成器将问题解析为查询树，用以指导树形神经模块化网络的拓扑结构，而模块化网络的每个模块将从图片和知识库中提取出视觉依据或知识，最后这些提取到的信息将在树形模块化网络的整合下推理得到最终答案，实现了对视觉问题进行多跳推理并作出回答和答题依据。

附图说明

图1为本发明一种多跳视觉问题推理模型的结构示意图；

图2为本发明具体实施例多跳视觉问题推理模型的结构示意图；

图3为本发明具体实施例多跳视觉推理数据集示意图；

图4为本发明一种多跳视觉问题推理模型的推理方法的步骤流程图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种多跳视觉问题推理模型的结构示意图，图2为本发明具体实施例多跳视觉问题推理模型的结构示意图。如图1及图2所示，本发明一种多跳视觉问题推理模型，包括：

多跳视觉问题推理数据集建立单元10，用于通过将场景图和知识库相融合成知识图，利用知识图构造包含多跳知识推理问答对的数据集。

本发明提出一种高阶的视觉推理数据集(HVQR)，以鼓励视觉推理模型学习如何识别图像中的视觉物体，再将其与知识库内最相关的知识结合起来，并给出可解释性的推理过程和回答，受到合成数据集CLEVR的启发，本发明的数据集基于自然图像场景图和外部知识库提取到的一或两个事实三元组，构造复杂问题的问题-答案对。此外，本发明还限制了知识库中三元组出现的频率以防止黑盒模型记住问答对与知识三元组的相关关系。因此，该数据集可以强迫模型在未见过的问题上进行多跳推理，评测推理中间过程，以鼓励泛化能力。对于给定的衣服图像，首先将其场景图和公共知识库融合，产生一个针对该图像的知识图，然后在知识图中提取一条路径，并用模板生成多跳推理问题。如图3所示为本发明具体实施例中数据集的问答对的例子示意图。

具体地，对于每张图片，多跳视觉问题推理数据集建立单元10首先将场景图和知识库相融合成知识图，然后在知识图中随机采样若干个相连的三元组如“(A,R1,B)-(B,R2,C)”并使用人为设定的模板将它们转换为文本问答对。考虑到生成的问答对的语义合理性以及答案的唯一性，利用特定的程序过滤掉一些无效的问答对，同时，为了增加问题的语言丰富性，对问题中的一些词则采用同义词进行随机替换。注意到随机采样可能会带来数据偏差，影响模型的泛化性，本发明给问题增加了更多的限制以提高数据集的挑战性。为了防止答案分布过于集中，限定每个答案最多出现不超过100次。为了防止模型简单记住知识库中的三元组，限定数据集中问题用到的三元组同一个不超过一次。该数据集同时提供一种类似SQL的结构化查询语句在自然图像上进行查询。一个元问题可以被映射成元查询，相应的，元问题的组合可以被映射成元查询的组合。在生成问题的同时，查询树将通过模板一并生成。异于以往的数据集，本发明可以通过问题对应的三元组来诊断模型的可解释性。本发明还提出了一种度量方式，要求模型在给出问题的答案时，同时给出对应的依据(支撑这个答案的三元组)，通过衡量三元组的准确率或召回率可以量化模型的可解释性。

卷积神经网络20，用于提取输入图像的图像特征。

长短期记忆网络30，用于提取问题特征q，例如对于问题“小男孩与图中1948年发明出来的东西之间是什么关系”提取问题特征。

知识路由模块化网络(KM-net)40，为一个能够显式地将多跳推理融合进端到端的神经网络，用于将问题解析为查询树，其中查询树是问题的推理过程的符号化表达，并结合查询树和知识库，在知识图中提取出正确的关系或实体，进行多跳推理以给出最终的回答。

具体地，知识路由模块化网络40进一步包括：

查询树生成网络401，用于将问题解析为查询树，用以指导树形神经模块化网络的拓扑结构。

在本发明具体实施例中，查询树生成网络401为查询生成器，其为一个序列到序列的循环神经网络，由一个编码器循环神经网络和一个解码器循环神经网络构成。编码器每次读入问题的一个单词，取最后一步的循环神经网络输出作为问题向量编码，然后用一个解码器神经网络生成查询语句，如(Q_{ab_I},男孩,(Q_{rb_K},发明年份,1948))，每一步的输入都是问题向量编码，输出是查询语句的一个字符，最后再用一个移入-规约语法解析器将查询语句转化为查询树。

树形模块化神经网络402，由查询树指导生成，其根结点所对应的模块最后接入一个多层感知机，从图片和知识库中提取出视觉依据或知识，最后将这些提取到的信息整合下通过多跳推理得到最终答案。

在本发明具体实施例中，树形模块化神经网络402由若干个模块神经网络构成，每个模块化网络，可以是视觉推理模块，也可以是知识推理模块。视觉推理模块首先由实体注意力模块和视觉注意力模块串联，然后再接入视觉与问题的共注意力模块构成。知识推理模块是一个基于规则的简单知识提取模块。

具体地，树形模块化神经网络402是一种由若干个小神经网络模块组合而成的神经网络，其拓扑结构由查询树指导生成，每个模块对应查询树中的一个查询结点，它读入两个输入向量e^left和e^right，并在提取图像或知识库中的信息，进行单步推理，每一步的输出将提供给父亲结点作为父亲结点的输入，进行下一步的推理，对于根结点的模块输出将会输入一个多层感知机，得到最终的答案分类，对于每个模块，它可以是视觉推理模块或知识推理模块，视觉推理模块首先由实体注意力模块和视觉注意力模块串联，然后再接入视觉与问题的共注意力模块构成，知识推理模块是一个基于规则的简单知识提取模块，具体由查询树上对应的结点来决定。

具体地，知识推理模块会读入两个来自子模块的输入向量e^left和e^right，首先在实体词典中查询，将其分别转化为对应的实体名s^left和s^right，然后在知识库中根据对应元查询规则提取答案向量e^out。

视觉推理模块，每次也是读入向量e^left和e^right，在图像中进行问题-图像的协同推理，具体过程如下(由于对e^left和e^right的处理是对称的，以下只介绍e^left示例)：

其中⊙代表逐元素乘法W^H和W^G都是可学习的转换矩阵，E代表该数据集的实体向量查询表，q是长短期记忆网络提取得到的问题特征，V是卷积神经网络提取得到的图像特征。那么，m^right也可以根据e^right用上述方式得到。最后，我们将m^left、m^right以及查询向量u并联起来输入一个两层的多层感知机得到输出向量e^out，作为模块的输出。

多层感知机403，用于获取树形模块化神经网络403的输出，多层感知处理后得到整个问题的答案。具体地，将树形模块化神经网络402根结点对应的模块输出，通过该多层感知机得到整个问题的答案。

图4为本发明一种多跳视觉问题推理模型的推理方法的步骤流程图。如图4所示，本发明一种多跳视觉问题推理模型的推理方法，包括如下步骤：

步骤S1，建立多跳视觉问题推理模型，构造由学习得到的查询树指导生成的神经网络模型。在本发明具体实施例中，所述多跳视觉问题推理模型由一个查询树生成网络、卷积神经网络、长短期记忆网络、一个树形模块化神经网络和一个多层感知机构成，其中树形模块化神经网络由查询树指导生成，其根结点所对应的模块最后接入一个多层感知机，查询树生成网络是一个序列到序列的循环神经网络，分为编码器和解码器两部分，编码器是一个长短期记忆网络，解码器是一个长短期记忆网络，树形模块化神经网络部分由若干个模块神经网络构成，每个模块化网络，可以是视觉推理模块，也可以是知识推理模块。视觉推理模块首先由实体注意力模块和视觉注意力模块串联，然后再接入视觉与问题的共注意力模块构成，知识推理模块是一个基于规则的简单知识提取模块。

步骤S2，提取输入图像的图像特征，并提取问题特征q。

具体地，步骤S3进一步包括：

步骤S300，利用查询树生成器将问题解析为查询树，用以指导树形神经模块化网络的拓扑结构。

在本发明具体实施例中，查询生成器为一个序列到序列的循环神经网络，由一个编码器循环神经网络和一个解码器循环神经网络构成。编码器每次读入问题的一个单词，取最后一步的循环神经网络输出作为问题向量编码，然后用一个解码器神经网络生成查询语句，每一步的输入都是问题向量编码，输出是查询语句的一个字符，最后再用一个移入-规约语法解析器将查询语句转化为查询树。

步骤S301，由查询树指导生成树形模块化神经网络，从图片和知识库中提取出视觉依据或知识，最后将这些提取到的信息整合下通过多跳推理得到最终答案。

在本发明具体实施例中，树形模块化神经网络由若干个模块神经网络构成，每个模块化网络，可以是视觉推理模块，也可以是知识推理模块。视觉推理模块首先由实体注意力模块和视觉注意力模块串联，然后再接入视觉与问题的共注意力模块构成。知识推理模块是一个基于规则的简单知识提取模块。

具体地，树形模块化神经网络是一种由若干个小神经网络模块组合而成的神经网络，其拓扑结构由查询树指导生成，每个模块对应查询树中的一个查询结点，它读入两个输入向量e^left和e^right，并在提取图像或知识库中的信息，进行单步推理，每一步的输出将提供给父亲结点作为父亲结点的输入，进行下一步的推理，对于根结点的模块输出将会输入一个多层感知机，得到最终的答案分类，对于每个模块，它可以是视觉推理模块或知识推理模块，视觉推理模块首先由实体注意力模块和视觉注意力模块串联，然后再接入视觉与问题的共注意力模块构成，知识推理模块是一个基于规则的简单知识提取模块，具体由查询树上对应的结点来决定。

步骤S302，将所述树形模块化神经网络根结点对应的模块输出，通过一多层感知机得到整个问题的答案。

较佳地，于步骤S1中，还包括对所述视觉推理模型学习的步骤，具体地，对所述所述视觉推理模型学习使用反向传播算法，其步骤包括：

通过大量的文本数据来预训练查询树的拓扑结构；

本发明在各种推理跳数的问题下进行了广泛的实验，并于现有的视觉问答数据集和目前最先进的视觉问答方法进行比较。实验表明，传统的端到端模型在需要外部只是进行推理的问题上往往表现较差，而本发明的知识路由模块化网络在所建立的数据集上优于所有目前最先进的视觉问答模型，同时，本发明运用可解释性的评价指标，证明了本发明提出的模型具有较强的显式推理能力。

综上所述，本发明一种多跳视觉问题推理模型及其推理方法首先通过查询树生成器将问题解析为查询树，用以指导树形神经模块化网络的拓扑结构，而模块化网络的每个模块将从图片和知识库中提取出视觉依据或知识，最后这些提取到的信息将在树形模块化网络的整合下推理得到最终答案，实现了对视觉问题进行多跳推理并作出回答和答题依据。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种多跳视觉问题推理模型，包括：

卷积神经网络，用于提取输入图像的图像特征；

长短期记忆网络，用于提取问题特征；

2.如权利要求1所述的一种多跳视觉问题推理模型，其特征在于：所述数据集基于自然图像场景图和外部知识库提取到的一或两个事实三元组，构造复杂问题的问题-答案对。

3.如权利要求2所述的一种多跳视觉问题推理模型，其特征在于：所述多跳视觉问题推理数据集建立单元根据场景图标注和知识库，选取若干事实三元组，对问答模板填空，生成问题，并生成相应的答案及推理中间过程标注。

4.如权利要求3所述的一种多跳视觉问题推理模型，其特征在于：所述多跳视觉问题推理数据集建立单元通过问题对应的三元组来诊断模型的可解释性，并要求模型在给出问题的答案时，同时给出对应的依据，通过衡量三元组的准确率或召回率量化模型的可解释性。

5.如权利要求4所述的一种多跳视觉问题推理模型，其特征在于：所述知识路由模块化网络进一步包括：

6.如权利要求5所述的一种多跳视觉问题推理模型，其特征在于：所述查询树生成网络为一个序列到序列的循环神经网络，由一个编码器循环神经网络和一个解码器循环神经网络构成，所述编码器每次读入问题的一个单词，取最后一步的循环神经网络输出作为问题向量编码，然后用一个解码器神经网络生成查询语句，每一步的输入都是问题向量编码，输出是查询语句的一个字符，最后再用一个移入-规约语法解析器将查询语句转化为查询树。

7.如权利要求6所述的一种多跳视觉问题推理模型，其特征在于：所述树形模块化神经网络由若干个模块化神经网络构成，每个模块化神经网络为视觉推理模块或知识推理模块。

8.如权利要求7所述的一种多跳视觉问题推理模型，其特征在于：所述视觉推理模块首先由实体注意力模块和视觉注意力模块串联，然后再接入视觉与问题的共注意力模块构成，所述知识推理模块是一个基于规则的简单知识提取模块。

9.一种多跳视觉问题推理模型的推理方法，包括如下步骤：

步骤S2，提取输入图像的图像特征，并提取问题特征；

10.如权利要求9所述的一种多跳视觉问题推理模型的推理方法，其特征在于，于步骤S1中，还包括对所述视觉推理模型学习的步骤，对所述所述视觉推理模型学习使用反向传播算法，其步骤包括：

通过大量的文本数据来预训练查询树的拓扑结构；