CN108920587B

CN108920587B - 融合外部知识的开放域视觉问答方法及装置

Info

Publication number: CN108920587B
Application number: CN201810666767.6A
Authority: CN
Inventors: 朱文武; 李国豪; 苏航
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2021-09-24
Anticipated expiration: 2038-06-26
Also published as: CN108920587A

Abstract

本发明公开了一种融合外部知识的开放域视觉问答方法及装置，其中，方法包括：根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识，其中，视觉问题包括图像信息和问题文本；通过结构保持的知识嵌入将离散化外部知识嵌入隐式表征的语义空间，以得到高维连续空间向量；通过动态记忆网络和注意力机制对高维连续空间向量进行辅助推断知识表征提取，并融合图像特征得到视觉问题的答案。该方法保留深度神经网络模型优越性的同时，引入大量结构化的外部知识来辅助回答“开放域”视觉问题，并利用动态记忆网络和记忆力机制，得到有效辅助推断的知识表征，从而有效提高了视觉问答的可靠性和有效性。

Description

融合外部知识的开放域视觉问答方法及装置

技术领域

本发明涉及计算机视觉、视觉问答、多模态融合技术领域，特别涉及一种融合外部知识的开放域视觉问答方法及装置。

背景技术

目前，回答“开放域”视觉问题，除图片中的信息之外，往往需要大量外部知识来辅助推理。现有的视觉问答方法大部分仅仅依据图像和问题文本的内容本身，目前在视觉问答中引入外部知识的相关工作较有限。

相关技术中，基于深度神经网络的视觉问答模型，难以回答“开放域”视觉问题。在结构化知识图谱上进行显式推理的视觉问答模型；这种方式将图片内容表达为结构化形式，容易损失很多视觉信息，因此具有很大局限；简单引入非结构化外部知识的视觉问答模型，其同时引入了大量冗余信息，没有充分利用外部知识。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种融合外部知识的开放域视觉问答方法，该方法可以有效提高了视觉问答的可靠性和有效性。

本发明的另一个目的在于提出一种融合外部知识的开放域视觉问答装置。

为达到上述目的，本发明一方面实施例提出了一种融合外部知识的开放域视觉问答方法，包括以下步骤：根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识，其中，所述视觉问题包括图像信息和问题文本；通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间，以得到高维连续空间向量；通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取，并融合图像特征得到所述视觉问题的答案。

本发明实施例的融合外部知识的开放域视觉问答方法，通过融入结构化外部知识，使得视觉问答系统具备利用先验常识回答“开放域”视觉问题的能力，并通过结构保持的知识嵌入方法和动态记忆网络，提炼得到最有效辅助推断的知识表征，既保留了基于深度神经网络的传统视觉问答系统的优势，同时能够充分融合外部知识，从而有效提高了视觉问答的可靠性和有效性。

另外，根据本发明上述实施例的融合外部知识的开放域视觉问答方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识，进一步包括：根据所述图像信息中的关键实体和所述问题文本中的关键词从所述预设知识图谱中提取所述离散化外部知识，其中，所述离散化外部知识为符号化的三元组知识。

进一步地，在本发明的一个实施例中，所述隐式表征的语义空间为连续的空间向量。

进一步地，在本发明的一个实施例中，所述通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取，并融合图像特征得到所述视觉问题的答案，进一步包括：将所述高维连续空间向量输入到所述动态记忆网络中，所述动态记忆网络内部的记忆向量不断迭代更新，以在迭代结束时在所述记忆向量中生成所述辅助推断知识表征，并与所述图像特征进行拼接得到所述视觉问题的答案。

进一步地，在本发明的一个实施例中，所述注意力机制用于过滤所述高维连续空间向量中的无关信息和噪声数据。

为达到上述目的，本发明另一方面实施例提出了一种融合外部知识的开放域视觉问答装置，包括：提取模块，用于根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识，其中，所述视觉问题包括图像信息和问题文本；嵌入模块，用于通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间，以得到高维连续空间向量；推理模块，用于通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取，并融合图像特征得到所述视觉问题的答案。

本发明实施例的融合外部知识的开放域视觉问答装置，通过融入结构化外部知识，使得视觉问答系统具备利用先验常识回答“开放域”视觉问题的能力，并通过结构保持的知识嵌入方法和动态记忆网络，提炼得到最有效辅助推断的知识表征，既保留了基于深度神经网络的传统视觉问答系统的优势，同时能够充分融合外部知识，从而有效提高了视觉问答的可靠性和有效性。

另外，根据本发明上述实施例的融合外部知识的开放域视觉问答装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述提取模块进一步用于根据所述图像信息中的关键实体和所述问题文本中的关键词从所述预设知识图谱中提取所述离散化外部知识，其中，所述离散化外部知识为符号化的三元组知识。

进一步地，在本发明的一个实施例中，所述推理模块进一步用于将所述高维连续空间向量输入到所述动态记忆网络中，所述动态记忆网络内部的记忆向量不断迭代更新，以在迭代结束时在所述记忆向量中生成所述辅助推断知识表征，并与所述图像特征进行拼接得到所述视觉问题的答案。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的融合外部知识的开放域视觉问答方法的流程图；

图2为根据本发明一个实施例的融合外部知识的开放域视觉问答装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的融合外部知识的开放域视觉问答方法及装置，首先将参照附图描述根据本发明实施例提出的融合外部知识的开放域视觉问答方法。

图1是本发明一个实施例的融合外部知识的开放域视觉问答方法的流程图。

如图1所示，该融合外部知识的开放域视觉问答方法包括以下步骤：

在步骤S101中，根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识，其中，视觉问题包括图像信息和问题文本。

可以理解的是，预设知识图谱为已知的大规模知识图谱，本发明实施例从已知的大规模知识图谱中抽取和视觉问题相关的外部知识，即显式表征的离散化外部知识。

在本发明的一个实施例中，根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识，进一步包括：根据图像信息中的关键实体和问题文本中的关键词从预设知识图谱中提取离散化外部知识，其中，离散化外部知识为符号化的三元组知识。

可以理解的是，图像信息中的“关键实体”是指图像中出现的较显著的物体；“关键词”是指在问题文本中，排除掉停用词等，抽取得到的有特定含义的单词或短语。图像信息中的关键实体可以为图像信息中的图片物体，本发明实施例结合图像信息中的图片物体和问题文本中的关键词信息，以在预设知识图谱中提取得到与视觉问题相关的符号化的三元组知识。

在步骤S102中，通过结构保持的知识嵌入将离散化外部知识嵌入隐式表征的语义空间，以得到高维连续空间向量。

可以理解的是，显式是说数据表示为符号化的、可读的；与之相对的，隐式是说数据表示为不可读的形式，比如表征为一个高维向量。

在本发明的一个实施例中，隐式表征的语义空间为连续的空间向量。

可以理解的是，本发明实施例采用结构保持的知识嵌入可以将离散的符号化知识嵌入到连续的向量空间，从而在引入外部知识的同时，保留深度神经网络模型优越性。例如，结构保持的知识嵌入可以为预训练的词嵌入模型，通过使用预训练的词嵌入模型将离散化外部知识中的实体和关系映射到连续向量空间，并利用递归神经网络模型，将每一个三元组知识表征为高维连续空间的向量。

在步骤S103中，通过动态记忆网络和注意力机制对高维连续空间向量进行辅助推断知识表征提取，并融合图像特征得到视觉问题的答案。

可以理解的是，本发明实施例利用动态记忆网络和注意力机制提取有效辅助推断知识表征，并进一步和图像特征进行融合，从而推理产生视觉问题的问题答案。

其中，动态记忆网络属于一类称为记忆网络的神经网络模块，可以对其内部显式定义的记忆向量进行可微分的读写操作。动态记忆网络通过对大量的输入数据进行建模和计算，不断迭代式更新内部的记忆向量，最终的记忆向量中将保留有能够辅助推断的向量表征

在本发明一个实施例中，注意力机制用于过滤高维连续空间向量中的无关信息和噪声数据。

具体而言，注意力机制的核心思想是通过输入数据的内容和上下文信息，自动学习注意力权重，从而区别对待输入数据中的重要部分和次要部分，能够一定程度上过滤掉无关信息和噪声数据。

进一步地，在本发明一个实施例中，通过动态记忆网络和注意力机制对高维连续空间向量进行辅助推断知识表征提取，并融合图像特征得到视觉问题的答案，进一步包括：将高维连续空间向量输入到动态记忆网络中，动态记忆网络内部的记忆向量不断迭代更新，以在迭代结束时在记忆向量中生成辅助推断知识表征，并与图像特征进行拼接得到视觉问题的答案。

可以理解的是，本发明实施例将此前得到的高维连续空间向量嵌入输入到动态记忆网络中，其内部的记忆向量将不断迭代更新，在迭代结束时，记忆向量中将保留知识嵌入中的有效信息，成为能够辅助推断的知识表征。最终将知识表征与图像特征等进行拼接，预测该视觉问题的答案。其中，图像特征是指一个高维向量，是由深度学习方法得到的分布式图像表征，蕴含了图像中的语义信息。

综上，本发明实施例在视觉问答任务中引入外部结构化知识，并利用动态记忆网络和注意力机制提取有效知识表征，进一步和视觉特征进行融合，从而获得回答复杂的开放域视觉问题的能力。本发明实施例融入先验的外部知识的视觉问答系统，视觉问答系统可以使得人机交互更加自然，或者为视力受损者提供帮助；拥有常识甚至专业知识的视觉问答系统使得图像理解更加深入，更接近人类对视觉信息的语义认知方式。

根据本发明实施例提出的融合外部知识的开放域视觉问答方法，通过融入结构化外部知识，使得视觉问答系统具备利用先验常识回答“开放域”视觉问题的能力，并通过结构保持的知识嵌入方法和动态记忆网络，提炼得到最有效辅助推断的知识表征，既保留了基于深度神经网络的传统视觉问答系统的优势，同时能够充分融合外部知识，从而有效提高了视觉问答的可靠性和有效性。

其次参照附图描述根据本发明实施例提出的融合外部知识的开放域视觉问答装置。

图2是本发明一个实施例的融合外部知识的开放域视觉问答装置的结构示意图。

如图2所示，该融合外部知识的开放域视觉问答装置10包括：提取模块100、嵌入模块200和推理模块300。

其中，提取模块100用于根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识，其中，视觉问题包括图像信息和问题文本。嵌入模块200用于通过结构保持的知识嵌入将离散化外部知识嵌入隐式表征的语义空间，以得到高维连续空间向量。推理模块300用于通过动态记忆网络和注意力机制对高维连续空间向量进行辅助推断知识表征提取，并融合图像特征得到视觉问题的答案。本发明实施例的装置10保留深度神经网络模型优越性的同时，引入大量结构化的外部知识来辅助回答“开放域”视觉问题，并利用动态记忆网络和记忆力机制，得到有效辅助推断的知识表征，从而有效提高了视觉问答的可靠性和有效性。

进一步地，在本发明的一个实施例中，提取模块100进一步用于根据图像信息中的关键实体和问题文本中的关键词从预设知识图谱中提取离散化外部知识，其中，离散化外部知识为符号化的三元组知识。

进一步地，在本发明的一个实施例中，隐式表征的语义空间为连续的空间向量。

进一步地，在本发明的一个实施例中，推理模块300进一步用于将高维连续空间向量输入到动态记忆网络中，动态记忆网络内部的记忆向量不断迭代更新，以在迭代结束时在记忆向量中生成辅助推断知识表征，并与图像特征进行拼接得到视觉问题的答案。

进一步地，在本发明的一个实施例中，注意力机制用于过滤高维连续空间向量中的无关信息和噪声数据。

需要说明的是，前述对的融合外部知识的开放域视觉问答方法实施例的解释说明也适用于该实施例的的融合外部知识的开放域视觉问答装置，此处不再赘述。

根据本发明实施例提出的融合外部知识的开放域视觉问答装置，通过融入结构化外部知识，使得视觉问答系统具备利用先验常识回答“开放域”视觉问题的能力，并通过结构保持的知识嵌入方法和动态记忆网络，提炼得到最有效辅助推断的知识表征，既保留了基于深度神经网络的传统视觉问答系统的优势，同时能够充分融合外部知识，从而有效提高了视觉问答的可靠性和有效性。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种融合外部知识的开放域视觉问答方法，其特征在于，包括以下步骤：

根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识，其中，所述视觉问题包括图像信息和问题文本；

通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间，以得到高维连续空间向量；以及

通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取，并融合图像特征得到所述视觉问题的答案，所述动态记忆网络用于对其内部显式定义的记忆向量进行可微分的读写操作，通过对输入数据进行建模和计算，并不断迭代式更新内部的记忆向量，最终的记忆向量中将保留有能够辅助推断的向量表征；所述注意力机制用于过滤所述高维连续空间向量中的无关信息和噪声数据；具体地：将所述高维连续空间向量输入到所述动态记忆网络中，所述动态记忆网络内部的记忆向量不断迭代更新，以在迭代结束时在所述记忆向量中生成所述辅助推断知识表征，并与所述图像特征进行拼接得到所述视觉问题的答案；其中，所述图像特征为一个高维向量，是由深度学习方法得到的分布式图像表征，蕴含了图像中的语义信息；

所述根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识，进一步包括：根据所述图像信息中的关键实体和所述问题文本中的关键词从所述预设知识图谱中提取所述离散化外部知识，其中，所述离散化外部知识为符号化的三元组知识；

所述隐式表征的语义空间为连续的空间向量；

其中，所述结构保持的知识嵌入为预训练的词嵌入模型，以及所述通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间，包括：通过使用所述预训练的词嵌入模型将所述离散化外部知识中的实体和关系映射到连续向量空间，并利用递归神经网络模型，将每一个所述三元组知识表征为所述高维连续空间向量。

2.一种融合外部知识的开放域视觉问答装置，其特征在于，包括：

提取模块，用于根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识，其中，所述视觉问题包括图像信息和问题文本；

嵌入模块，用于通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间，以得到高维连续空间向量；以及

推理模块，用于通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取，并融合图像特征得到所述视觉问题的答案，所述动态记忆网络用于对其内部显式定义的记忆向量进行可微分的读写操作，通过对输入数据进行建模和计算，并不断迭代式更新内部的记忆向量，最终的记忆向量中将保留有能够辅助推断的向量表征；所述注意力机制用于过滤所述高维连续空间向量中的无关信息和噪声数据；所述推理模块进一步用于将所述高维连续空间向量输入到所述动态记忆网络中，所述动态记忆网络内部的记忆向量不断迭代更新，以在迭代结束时在所述记忆向量中生成所述辅助推断知识表征，并与所述图像特征进行拼接得到所述视觉问题的答案；其中，所述图像特征为一个高维向量，是由深度学习方法得到的分布式图像表征，蕴含了图像中的语义信息；

所述提取模块进一步用于根据所述图像信息中的关键实体和所述问题文本中的关键词从所述预设知识图谱中提取所述离散化外部知识，其中，所述离散化外部知识为符号化的三元组知识；

所述嵌入模块中隐式表征的语义空间为连续的空间向量；

其中，所述嵌入模块中结构保持的知识嵌入为预训练的词嵌入模型，以及所述嵌入模块，还用于：通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间，包括：通过使用所述预训练的词嵌入模型将所述离散化外部知识中的实体和关系映射到连续向量空间，并利用递归神经网络模型，将每一个所述三元组知识表征为所述高维连续空间向量。