CN111475656B

CN111475656B - 基于外部知识聚合的视觉问答方法及系统

Info

Publication number: CN111475656B
Application number: CN202010176844.7A
Authority: CN
Inventors: 朱文武; 李国豪; 王鑫
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2023-06-30
Anticipated expiration: 2040-03-13
Also published as: CN111475656A

Abstract

本发明公开了一种基于外部知识聚合的视觉问答方法及系统，其中，该方法首先抽取情景相关的外部知识图谱子图，然后在知识子图上进行知识聚合得到知识实体表征，最后将该实体表征与传统的知识问答系统进行有机融合来最终得到问题答案。该方法在传统视觉问答系统上引入外部知识图谱，既可应用于传统视觉问题，也可以应用于需要外部知识的视觉问题，且在模型训练过程中不需要额外的强监督信息，具有较高的适用性，在多个基准数据集上可取得更优的视觉问题准确率。

Description

基于外部知识聚合的视觉问答方法及系统

技术领域

本发明涉及计算机视觉问答技术领域，特别涉及一种基于外部知识聚合的视觉问答方法及系统。

背景技术

如图1所示，视觉问答任务指的是：给定一张图片和其对应的自然语言描述的问题，如何利用图片中的信息，得到问题的正确答案。在实际场景中，除了图片信息以外，往往需要同时引入外部的常识知识来辅助回答视觉问题。

现有的视觉问答方法大部分仅仅依据图像和问题文本的内容本身，目前在视觉问答中引入外部知识图谱的相关工作较有限。依据外部知识图谱的融合程度划分，目前的研究中主要有三类相关方法：

(1)基于深度神经网络和联合嵌入的传统模型。这类方法使用深度神经网络得到图片表征和问题文本表征，并将两种表征进行联合嵌入以融合图片和问题文本。这类方法没有引入外部知识，难以适应需要外部知识的问答场景。

(2)在知识图谱上进行显式推理的视觉问答模型。这类方法将图片表达为符号化形式，损失了丰富的视觉信息，并且推理过程依赖于预先定义的模板，因此具有很大局限性。

(3)在知识图谱上进行信息检索的模型。这类方法使用信息检索的相关技术，仅适用于视觉问题和某一条外部知识明确相关的问答场景，在训练模型时除了正确答案的标注外，还需要提供候选的外部知识集合以及额外的强监督信息(例如某条明确相关的外部知识的标注)。

例如，相关技术Narasimhan M,Schwing A G.Straight to the facts:Learningknowledge base retrieval for factual visual question answering[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:451-468，该方法中使用的外部知识库是基于特定环境构造的，规模有限，不需要进行知识子图抽取；将外部知识库中的每一条知识单独考虑，没有利用图的结构特性进行知识聚合；是一个在知识图谱上进行信息检索的模型，无法和传统的视觉问答系统相结合，并且在训练时需要额外的监督信息。

综上可知，现有融合外部知识图谱的视觉问答方法适用性较差，难以应用在问题复杂多样的开放场景中。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于外部知识聚合的视觉问答方法，该方法不需要额外的强监督信息，具有较高的适用性，在多个基准数据集上可取得更优的视觉问题准确率。

本发明的另一个目的在于提出一种基于外部知识聚合的视觉问答系统。

为达到上述目的，本发明一方面实施例提出了基于外部知识聚合的视觉问答方法，包括以下步骤：在外部知识图谱中抽取预设问答情景的知识图谱子图；在所述知识图谱子图上进行知识聚合，得到知识实体表征；将所述知识实体表征与基于联合嵌入的视觉问答系统进行有机融合，输出问题答案。

本发明实施例的基于外部知识聚合的视觉问答方法，引入外部知识图谱，使得视觉问答系统具备利用外部知识回答视觉问题的能力，可应用于传统视觉问题，也可以应用于需要外部知识的视觉问题，且在模型训练过程中不需要额外的强监督信息，具有较高的适用性，且在多个基准数据集上取得了更优的视觉问答准确率。

另外，根据本发明上述实施例的基于外部知识聚合的视觉问答方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述外部知识图谱是以图结构表达的知识库，其中，所述知识图谱包括点和边，所述点为现实世界的事物实体，所述边表示事物实体之间的关系。

进一步地，在本发明的一个实施例中，采用图卷积模型，将所述知识图谱子图中的有效信息融入至知识实体中，形成高维向量的知识实体表征。

进一步地，在本发明的一个实施例中，所述知识实体表征包括情景相关实体表征，目标答案实体表征和情景-答案关联表征。

进一步地，在本发明的一个实施例中，所述将所述知识实体表征与基于联合嵌入的视觉问答系统进行有机融合，输出问题答案，包括：将所述知识实体表征作为所述基于联合嵌入的视觉问答系统中问题文本特征的补充，并有机融合至所述基于联合嵌入的视觉问答系统中得到融合表征；对所述融合表征进行分类，得到并输出所述问题答案。

为达到上述目的，本发明另一方面实施例提出了基于外部知识聚合的视觉问答系统，包括：抽取模块，用于在外部知识图谱中抽取预设问答情景的知识图谱子图；知识聚合模块，用于在所述知识图谱子图上进行知识聚合，得到知识实体表征；有机融合模块，用于将所述知识实体表征与基于联合嵌入的视觉问答系统进行有机融合，输出问题答案。

本发明实施例的基于外部知识聚合的视觉问答系统，引入外部知识图谱，使得视觉问答系统具备利用外部知识回答视觉问题的能力，可应用于传统视觉问题，也可以应用于需要外部知识的视觉问题，且在模型训练过程中不需要额外的强监督信息，具有较高的适用性，且在多个基准数据集上取得了更优的视觉问答准确率。

另外，根据本发明上述实施例的基于外部知识聚合的视觉问答系统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述知识融合模块中采用图卷积模型，将所述知识图谱子图中的有效信息融入至知识实体中，形成高维向量的知识实体表征。

进一步地，在本发明的一个实施例中，所述有机融合模块包括：

融合单元，用于将所述知识实体表征作为所述基于联合嵌入的视觉问答系统中问题文本特征的补充，并有机融合至所述视觉问答系统中得到融合表征；

分类单元，用于对所述融合表征进行分类，得到并输出所述问题答案。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为传统的视觉问答和需要外部知识的视觉问答的区别示意图；

图2为根据本发明一个实施例的基于外部知识聚合的视觉问答方法流程图；

图3为根据本发明一个实施例的知识图谱结构示意图；

图4为根据本发明一个具体示例的基于外部知识聚合的视觉问答方法执行流程图；

图5为根据本发明一个实施例的基于外部知识聚合的视觉问答系统结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于外部知识聚合的视觉问答方法及系统，首先将参照附图描述根据本发明实施例提出的基于外部知识聚合的视觉问答方法。

图2是本发明一个实施例的基于外部知识聚合的视觉问答方法流程图。

如图2所示，该基于外部知识聚合的视觉问答方法包括以下步骤：

在步骤S201中，在外部知识图谱中抽取预设问答情景的知识图谱子图。

需要说明的是，外部大规模知识图谱相对于视觉问答的情景上下文，数量大、噪声多。本发明实施例通过抽取上下文相关的知识子图，减小了两方面信息的不一致性。

也就是说，根据给定的问答情景(图片和问题文本)，从外部大规模知识图谱中抽取上下文相关的知识子图，初步提取有效知识。另外，本发明实施例还在所有的候选答案中抽取一个候选答案知识子图。

进一步地，如图3所示，知识图谱是以图结构表达的知识库，其中，知识图谱包括点和边，点为现实世界的事物实体，边表示事物实体之间的关系。

在步骤S202中，在知识图谱子图上进行知识聚合，得到知识实体表征。

进一步地，在本发明的一个实施例中，采用图卷积模型，将知识图谱子图中的有效信息融入至知识实体中，形成高维向量的知识实体表征。

其中，知识实体表征包括情景相关实体表征，目标答案实体表征和情景-答案关联表征。

可以理解的是，知识图谱采取显式的结构化表征，而视觉信号是隐式的连续表征，这两者难以兼容。故本发明实施例采用图卷积模型，依据给定的问答情景上下文，在知识子图上进行知识聚合，并学习如何将知识子图中的有效信息嵌入到知识实体中形成高维向量的实体表征，进一步从中提取有效知识，进而形成高维向量的实体表征，便于和视觉特征相融合。

并学习如何将知识子图中的有效信息嵌入到知识实体中形成高维向量的实体表征，进一步从中提取有效知识。

在步骤S203中，将知识实体表征与基于联合嵌入的视觉问答系统进行有机融合，输出问题答案。

进一步地，在本发明的一个实施例中，将知识实体表征与基于联合嵌入的视觉问答系统进行有机融合，输出问题答案，包括：

将知识实体表征作为基于联合嵌入的视觉问答系统中问题文本特征的补充，并有机融合至基于联合嵌入的视觉问答系统中得到融合表征；

对融合表征进行分类，得到并输出问题答案。

也就是说，通过联合考虑上下文实体和候选答案实体，把有效的外部知识集中到三个辅助特征(即情景相关实体表征，目标答案实体表征和情景-答案关联表征)上，并将其作为传统视觉问答系统中问题文本特征的补充，有机融合得到融合表征，进而分类融合表征得到问题答案。

可以理解的是，将外部知识融入视觉问答系统中，视觉问答系统可以使得人机交互更加自然，或者为视力受损者提供帮助；拥有常识甚至专业知识的视觉问答系统使得图像理解更加深入，更接近人类对视觉信息的语义认知方式。

下面结合具体示例对本发明的基于外部知识聚合的视觉问答方法做进一步说明。

如图4所示，给定一个图片和一个自然语言描述的问题，例如附图左下角问题：哪种牙齿是由图中的动物命名的？

步骤一，知识子图抽取。

从预设问答情景中提取关键的视觉实体(即图中dog)和问题文本中出现的关键短语(即图中tooth、animal)并关联到外部大规模知识图谱中，抽取一个上下文知识子图，即附图左侧的Context Entities Knowledge Subgraph。与此同时，也根据所有的候选答案抽取出一个候选答案知识子图，即附图右侧的Answer Entities Knowledge Subgraph。

步骤二，知识聚合与实体表征。

在上下文知识子图和候选答案知识子图上，采用图卷积模型进行知识聚合，将知识子图中的信息嵌入到知识实体中(例如tooth、dog、animal等上下文实体，以及候选答案实体)，形成高维向量的知识实体表征。在此过程中，显式表征的结构化知识图谱被嵌入到了隐式表征的语义空间中，每一个知识实体被表征为一个高维向量。

步骤三，知识实体表征与视觉问答系统的有机融合。

利用步骤二中得到知识实体表征，将外部知识集中到三个辅助特征(如附图中的彩色方块所示)，分别表示情景相关实体表征，目标答案实体表征，以及情景-答案关联表征。三个特征作为文本特征的补充，可以有机融合进传统的基于联合嵌入的视觉问答系统中，最后产生一个统一的融合表征。

步骤四，答案推断。

使用一个分类器，使用步骤三中融合表征在所有候选答案上进行分类，得到最终答案(canine犬齿)。

根据本发明实施例提出的基于外部知识聚合的视觉问答方法，引入外部知识图谱，使得视觉问答系统具备利用外部知识回答视觉问题的能力，可应用于传统视觉问题，也可以应用于需要外部知识的视觉问题，且在模型训练过程中不需要额外的强监督信息，具有较高的适用性，且在多个基准数据集上取得了更优的视觉问答准确率。

其次参照附图描述根据本发明实施例提出的基于外部知识聚合的视觉问答系统。

图5是本发明一个实施例的基于外部知识聚合的视觉问答系统结构示意图。

如图5所示，该装置10包括：抽取模块100、知识聚合模块200和有机融合模块300。

其中，抽取模块100用于在外部知识图谱中抽取预设问答情景的知识图谱子图。

进一步地，在本发明的一个实施例中，外部知识图谱是以图结构表达的知识库，其中，知识图谱包括点和边，点为现实世界的事物实体，边表示事物实体之间的关系。

知识聚合模块200用于在知识图谱子图上进行知识聚合，得到知识实体表征。

进一步地，在本发明的一个实施例中，知识融合模块中采用图卷积模型，将知识图谱子图中的有效信息融入至知识实体中，形成高维向量的知识实体表征。其中，知识实体表征包括情景相关实体表征，目标答案实体表征和情景-答案关联表征。

有机融合模块300用于将知识实体表征与基于联合嵌入的视觉问答系统进行有机融合，输出问题答案。

进一步地，在本发明的一个实施例中，有机融合模块包括：

融合单元，用于将知识实体表征作为基于联合嵌入的视觉问答系统中问题文本特征的补充，并有机融合至视觉问答系统中得到融合表征；

分类单元，用于对融合表征进行分类，得到并输出问题答案。

根据本发明实施例提出的基于外部知识聚合的视觉问答系统，引入外部知识图谱，使得视觉问答系统具备利用外部知识回答视觉问题的能力，可应用于传统视觉问题，也可以应用于需要外部知识的视觉问题，且在模型训练过程中不需要额外的强监督信息，具有较高的适用性，且在多个基准数据集上取得了更优的视觉问答准确率。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于外部知识聚合的视觉问答方法，其特征在于，包括以下步骤：

在外部知识图谱中通过抽取预设问答情景的上下文相关的知识图谱子图，以及在所有的候选答案中抽取一个候选答案的知识图谱子图；

在所述知识图谱子图上进行知识聚合，得到知识实体表征；

将所述知识实体表征与基于联合嵌入的视觉问答系统进行有机融合，输出问题答案；

所述外部知识图谱是以图结构表达的知识库，其中，所述知识图谱包括点和边，所述点为现实世界的事物实体，所述边表示事物实体之间的关系；

采用图卷积模型，将所述知识图谱子图中的有效信息融入至知识实体中，形成高维向量的知识实体表征；

所述知识实体表征包括情景相关实体表征，目标答案实体表征和情景-答案关联表征；

所述将所述知识实体表征与基于联合嵌入的视觉问答系统进行有机融合，输出问题答案，包括：

将所述知识实体表征作为所述基于联合嵌入的视觉问答系统中问题文本特征的补充，并有机融合至所述基于联合嵌入的视觉问答系统中得到融合表征；

对所述融合表征进行分类，得到并输出所述问题答案。

2.一种基于外部知识聚合的视觉问答系统，其特征在于，包括：

抽取模块，用于在外部知识图谱中通过抽取预设问答情景的上下文相关的知识图谱子图，以及在所有的候选答案中抽取一个候选答案的知识图谱子图；

知识聚合模块，用于在所述知识图谱子图上进行知识聚合，得到知识实体表征；

有机融合模块，用于将所述知识实体表征与基于联合嵌入的视觉问答系统进行有机融合，输出问题答案；

所述知识聚合模块中采用图卷积模型，将所述知识图谱子图中的有效信息融入至知识实体中，形成高维向量的知识实体表征；

所述有机融合模块包括：