CN108920587A - 融合外部知识的开放域视觉问答方法及装置 - Google Patents

融合外部知识的开放域视觉问答方法及装置 Download PDF

Info

Publication number
CN108920587A
CN108920587A CN201810666767.6A CN201810666767A CN108920587A CN 108920587 A CN108920587 A CN 108920587A CN 201810666767 A CN201810666767 A CN 201810666767A CN 108920587 A CN108920587 A CN 108920587A
Authority
CN
China
Prior art keywords
knowledge
external knowledge
open field
answer
discretization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810666767.6A
Other languages
English (en)
Other versions
CN108920587B (zh
Inventor
朱文武
李国豪
苏航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810666767.6A priority Critical patent/CN108920587B/zh
Publication of CN108920587A publication Critical patent/CN108920587A/zh
Application granted granted Critical
Publication of CN108920587B publication Critical patent/CN108920587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合外部知识的开放域视觉问答方法及装置,其中,方法包括:根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,视觉问题包括图像信息和问题文本;通过结构保持的知识嵌入将离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量;通过动态记忆网络和注意力机制对高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到视觉问题的答案。该方法保留深度神经网络模型优越性的同时,引入大量结构化的外部知识来辅助回答“开放域”视觉问题,并利用动态记忆网络和记忆力机制,得到有效辅助推断的知识表征,从而有效提高了视觉问答的可靠性和有效性。

Description

融合外部知识的开放域视觉问答方法及装置
技术领域
本发明涉及计算机视觉、视觉问答、多模态融合技术领域,特别涉及一种融合外部知识的开放域视觉问答方法及装置。
背景技术
目前,回答“开放域”视觉问题,除图片中的信息之外,往往需要大量外部知识来辅助推理。现有的视觉问答方法大部分仅仅依据图像和问题文本的内容本身,目前在视觉问答中引入外部知识的相关工作较有限。
相关技术中,基于深度神经网络的视觉问答模型,难以回答“开放域”视觉问题。在结构化知识图谱上进行显式推理的视觉问答模型;这种方式将图片内容表达为结构化形式,容易损失很多视觉信息,因此具有很大局限;简单引入非结构化外部知识的视觉问答模型,其同时引入了大量冗余信息,没有充分利用外部知识。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种融合外部知识的开放域视觉问答方法,该方法可以有效提高了视觉问答的可靠性和有效性。
本发明的另一个目的在于提出一种融合外部知识的开放域视觉问答装置。
为达到上述目的,本发明一方面实施例提出了一种融合外部知识的开放域视觉问答方法,包括以下步骤:根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,所述视觉问题包括图像信息和问题文本;通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量;通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到所述视觉问题的答案。
本发明实施例的融合外部知识的开放域视觉问答方法,通过融入结构化外部知识,使得视觉问答系统具备利用先验常识回答“开放域”视觉问题的能力,并通过结构保持的知识嵌入方法和动态记忆网络,提炼得到最有效辅助推断的知识表征,既保留了基于深度神经网络的传统视觉问答系统的优势,同时能够充分融合外部知识,从而有效提高了视觉问答的可靠性和有效性。
另外,根据本发明上述实施例的融合外部知识的开放域视觉问答方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,进一步包括:根据所述图像信息中的关键实体和所述问题文本中的关键词从所述预设知识图谱中提取所述离散化外部知识,其中,所述离散化外部知识为符号化的三元组知识。
进一步地,在本发明的一个实施例中,所述隐式表征的语义空间为连续的空间向量。
进一步地,在本发明的一个实施例中,所述通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到所述视觉问题的答案,进一步包括:将所述高维连续空间向量输入到所述动态记忆网络中,所述动态记忆网络内部的记忆向量不断迭代更新,以在迭代结束时在所述记忆向量中生成所述辅助推断知识表征,并与所述图像特征进行拼接得到所述视觉问题的答案。
进一步地,在本发明的一个实施例中,所述注意力机制用于过滤所述高维连续空间向量中的无关信息和噪声数据。
为达到上述目的,本发明另一方面实施例提出了一种融合外部知识的开放域视觉问答装置,包括:提取模块,用于根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,所述视觉问题包括图像信息和问题文本;嵌入模块,用于通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量;推理模块,用于通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到所述视觉问题的答案。
本发明实施例的融合外部知识的开放域视觉问答装置,通过融入结构化外部知识,使得视觉问答系统具备利用先验常识回答“开放域”视觉问题的能力,并通过结构保持的知识嵌入方法和动态记忆网络,提炼得到最有效辅助推断的知识表征,既保留了基于深度神经网络的传统视觉问答系统的优势,同时能够充分融合外部知识,从而有效提高了视觉问答的可靠性和有效性。
另外,根据本发明上述实施例的融合外部知识的开放域视觉问答装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述提取模块进一步用于根据所述图像信息中的关键实体和所述问题文本中的关键词从所述预设知识图谱中提取所述离散化外部知识,其中,所述离散化外部知识为符号化的三元组知识。
进一步地,在本发明的一个实施例中,所述隐式表征的语义空间为连续的空间向量。
进一步地,在本发明的一个实施例中,所述推理模块进一步用于将所述高维连续空间向量输入到所述动态记忆网络中,所述动态记忆网络内部的记忆向量不断迭代更新,以在迭代结束时在所述记忆向量中生成所述辅助推断知识表征,并与所述图像特征进行拼接得到所述视觉问题的答案。
进一步地,在本发明的一个实施例中,所述注意力机制用于过滤所述高维连续空间向量中的无关信息和噪声数据。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的融合外部知识的开放域视觉问答方法的流程图;
图2为根据本发明一个实施例的融合外部知识的开放域视觉问答装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的融合外部知识的开放域视觉问答方法及装置,首先将参照附图描述根据本发明实施例提出的融合外部知识的开放域视觉问答方法。
图1是本发明一个实施例的融合外部知识的开放域视觉问答方法的流程图。
如图1所示,该融合外部知识的开放域视觉问答方法包括以下步骤:
在步骤S101中,根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,视觉问题包括图像信息和问题文本。
可以理解的是,预设知识图谱为已知的大规模知识图谱,本发明实施例从已知的大规模知识图谱中抽取和视觉问题相关的外部知识,即显式表征的离散化外部知识。
在本发明的一个实施例中,根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,进一步包括:根据图像信息中的关键实体和问题文本中的关键词从预设知识图谱中提取离散化外部知识,其中,离散化外部知识为符号化的三元组知识。
可以理解的是,图像信息中的“关键实体”是指图像中出现的较显著的物体;“关键词”是指在问题文本中,排除掉停用词等,抽取得到的有特定含义的单词或短语。图像信息中的关键实体可以为图像信息中的图片物体,本发明实施例结合图像信息中的图片物体和问题文本中的关键词信息,以在预设知识图谱中提取得到与视觉问题相关的符号化的三元组知识。
在步骤S102中,通过结构保持的知识嵌入将离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量。
可以理解的是,显式是说数据表示为符号化的、可读的;与之相对的,隐式是说数据表示为不可读的形式,比如表征为一个高维向量。
在本发明的一个实施例中,隐式表征的语义空间为连续的空间向量。
可以理解的是,本发明实施例采用结构保持的知识嵌入可以将离散的符号化知识嵌入到连续的向量空间,从而在引入外部知识的同时,保留深度神经网络模型优越性。例如,结构保持的知识嵌入可以为预训练的词嵌入模型,通过使用预训练的词嵌入模型将离散化外部知识中的实体和关系映射到连续向量空间,并利用递归神经网络模型,将每一个三元组知识表征为高维连续空间的向量。
在步骤S103中,通过动态记忆网络和注意力机制对高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到视觉问题的答案。
可以理解的是,本发明实施例利用动态记忆网络和注意力机制提取有效辅助推断知识表征,并进一步和图像特征进行融合,从而推理产生视觉问题的问题答案。
其中,动态记忆网络属于一类称为记忆网络的神经网络模块,可以对其内部显式定义的记忆向量进行可微分的读写操作。动态记忆网络通过对大量的输入数据进行建模和计算,不断迭代式更新内部的记忆向量,最终的记忆向量中将保留有能够辅助推断的向量表征
在本发明一个实施例中,注意力机制用于过滤高维连续空间向量中的无关信息和噪声数据。
具体而言,注意力机制的核心思想是通过输入数据的内容和上下文信息,自动学习注意力权重,从而区别对待输入数据中的重要部分和次要部分,能够一定程度上过滤掉无关信息和噪声数据。
进一步地,在本发明一个实施例中,通过动态记忆网络和注意力机制对高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到视觉问题的答案,进一步包括:将高维连续空间向量输入到动态记忆网络中,动态记忆网络内部的记忆向量不断迭代更新,以在迭代结束时在记忆向量中生成辅助推断知识表征,并与图像特征进行拼接得到视觉问题的答案。
可以理解的是,本发明实施例将此前得到的高维连续空间向量嵌入输入到动态记忆网络中,其内部的记忆向量将不断迭代更新,在迭代结束时,记忆向量中将保留知识嵌入中的有效信息,成为能够辅助推断的知识表征。最终将知识表征与图像特征等进行拼接,预测该视觉问题的答案。其中,图像特征是指一个高维向量,是由深度学习方法得到的分布式图像表征,蕴含了图像中的语义信息。
综上,本发明实施例在视觉问答任务中引入外部结构化知识,并利用动态记忆网络和注意力机制提取有效知识表征,进一步和视觉特征进行融合,从而获得回答复杂的开放域视觉问题的能力。本发明实施例融入先验的外部知识的视觉问答系统,视觉问答系统可以使得人机交互更加自然,或者为视力受损者提供帮助;拥有常识甚至专业知识的视觉问答系统使得图像理解更加深入,更接近人类对视觉信息的语义认知方式。
根据本发明实施例提出的融合外部知识的开放域视觉问答方法,通过融入结构化外部知识,使得视觉问答系统具备利用先验常识回答“开放域”视觉问题的能力,并通过结构保持的知识嵌入方法和动态记忆网络,提炼得到最有效辅助推断的知识表征,既保留了基于深度神经网络的传统视觉问答系统的优势,同时能够充分融合外部知识,从而有效提高了视觉问答的可靠性和有效性。
其次参照附图描述根据本发明实施例提出的融合外部知识的开放域视觉问答装置。
图2是本发明一个实施例的融合外部知识的开放域视觉问答装置的结构示意图。
如图2所示,该融合外部知识的开放域视觉问答装置10包括:提取模块100、嵌入模块200和推理模块300。
其中,提取模块100用于根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,视觉问题包括图像信息和问题文本。嵌入模块200用于通过结构保持的知识嵌入将离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量。推理模块300用于通过动态记忆网络和注意力机制对高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到视觉问题的答案。本发明实施例的装置10保留深度神经网络模型优越性的同时,引入大量结构化的外部知识来辅助回答“开放域”视觉问题,并利用动态记忆网络和记忆力机制,得到有效辅助推断的知识表征,从而有效提高了视觉问答的可靠性和有效性。
进一步地,在本发明的一个实施例中,提取模块100进一步用于根据图像信息中的关键实体和问题文本中的关键词从预设知识图谱中提取离散化外部知识,其中,离散化外部知识为符号化的三元组知识。
进一步地,在本发明的一个实施例中,隐式表征的语义空间为连续的空间向量。
进一步地,在本发明的一个实施例中,推理模块300进一步用于将高维连续空间向量输入到动态记忆网络中,动态记忆网络内部的记忆向量不断迭代更新,以在迭代结束时在记忆向量中生成辅助推断知识表征,并与图像特征进行拼接得到视觉问题的答案。
进一步地,在本发明的一个实施例中,注意力机制用于过滤高维连续空间向量中的无关信息和噪声数据。
需要说明的是,前述对的融合外部知识的开放域视觉问答方法实施例的解释说明也适用于该实施例的的融合外部知识的开放域视觉问答装置,此处不再赘述。
根据本发明实施例提出的融合外部知识的开放域视觉问答装置,通过融入结构化外部知识,使得视觉问答系统具备利用先验常识回答“开放域”视觉问题的能力,并通过结构保持的知识嵌入方法和动态记忆网络,提炼得到最有效辅助推断的知识表征,既保留了基于深度神经网络的传统视觉问答系统的优势,同时能够充分融合外部知识,从而有效提高了视觉问答的可靠性和有效性。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种融合外部知识的开放域视觉问答方法,其特征在于,包括以下步骤:
根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,所述视觉问题包括图像信息和问题文本;
通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量;以及
通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到所述视觉问题的答案。
2.据权利要求1所述的融合外部知识的开放域视觉问答方法,其特征在于,所述根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,进一步包括:
根据所述图像信息中的关键实体和所述问题文本中的关键词从所述预设知识图谱中提取所述离散化外部知识,其中,所述离散化外部知识为符号化的三元组知识。
3.据权利要求1所述的融合外部知识的开放域视觉问答方法,其特征在于,所述隐式表征的语义空间为连续的空间向量。
4.据权利要求1所述的融合外部知识的开放域视觉问答方法,其特征在于,所述通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到所述视觉问题的答案,进一步包括:
将所述高维连续空间向量输入到所述动态记忆网络中,所述动态记忆网络内部的记忆向量不断迭代更新,以在迭代结束时在所述记忆向量中生成所述辅助推断知识表征,并与所述图像特征进行拼接得到所述视觉问题的答案。
5.据权利要求4所述的融合外部知识的开放域视觉问答方法,其特征在于,所述注意力机制用于过滤所述高维连续空间向量中的无关信息和噪声数据。
6.一种融合外部知识的开放域视觉问答装置,其特征在于,包括:
提取模块,用于根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,所述视觉问题包括图像信息和问题文本;
嵌入模块,用于通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量;以及
推理模块,用于通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到所述视觉问题的答案。
7.据权利要求1所述的融合外部知识的开放域视觉问答装置,其特征在于,所述提取模块进一步用于根据所述图像信息中的关键实体和所述问题文本中的关键词从所述预设知识图谱中提取所述离散化外部知识,其中,所述离散化外部知识为符号化的三元组知识。
8.据权利要求6所述的融合外部知识的开放域视觉问答装置,其特征在于,所述隐式表征的语义空间为连续的空间向量。
9.据权利要求6所述的融合外部知识的开放域视觉问答装置,其特征在于,所述推理模块进一步用于将所述高维连续空间向量输入到所述动态记忆网络中,所述动态记忆网络内部的记忆向量不断迭代更新,以在迭代结束时在所述记忆向量中生成所述辅助推断知识表征,并与所述图像特征进行拼接得到所述视觉问题的答案。
10.据权利要求9所述的融合外部知识的开放域视觉问答装置,其特征在于,所述注意力机制用于过滤所述高维连续空间向量中的无关信息和噪声数据。
CN201810666767.6A 2018-06-26 2018-06-26 融合外部知识的开放域视觉问答方法及装置 Active CN108920587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810666767.6A CN108920587B (zh) 2018-06-26 2018-06-26 融合外部知识的开放域视觉问答方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810666767.6A CN108920587B (zh) 2018-06-26 2018-06-26 融合外部知识的开放域视觉问答方法及装置

Publications (2)

Publication Number Publication Date
CN108920587A true CN108920587A (zh) 2018-11-30
CN108920587B CN108920587B (zh) 2021-09-24

Family

ID=64423038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810666767.6A Active CN108920587B (zh) 2018-06-26 2018-06-26 融合外部知识的开放域视觉问答方法及装置

Country Status (1)

Country Link
CN (1) CN108920587B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858555A (zh) * 2019-02-12 2019-06-07 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、设备及可读存储介质
CN110084296A (zh) * 2019-04-22 2019-08-02 中山大学 一种基于特定语义的图表示学习框架及其多标签分类方法
CN110134774A (zh) * 2019-04-29 2019-08-16 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN110414684A (zh) * 2019-07-23 2019-11-05 清华大学 基于知识感知的模块化视觉推理方法及装置
CN111475656A (zh) * 2020-03-13 2020-07-31 清华大学 基于外部知识聚合的视觉问答方法及系统
CN111611367A (zh) * 2020-05-21 2020-09-01 拾音智能科技有限公司 一种引入外部知识的视觉问答方法
CN111737458A (zh) * 2020-05-21 2020-10-02 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN111897939A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备
CN112527993A (zh) * 2020-12-17 2021-03-19 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
CN112818889A (zh) * 2021-02-09 2021-05-18 北京工业大学 基于动态注意力的超网络融合视觉问答答案准确性的方法
CN112926655A (zh) * 2021-02-25 2021-06-08 电子科技大学 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN113129234A (zh) * 2021-04-20 2021-07-16 河南科技学院 一种场内外特征融合的残缺图像精细修复方法
CN113239703A (zh) * 2021-05-24 2021-08-10 清华大学深圳国际研究生院 基于多元因素融合的深层逻辑推理金融文本分析方法及系统
CN113393084A (zh) * 2021-05-13 2021-09-14 上海湃道智能科技有限公司 作业票流程管理系统
CN115618045A (zh) * 2022-12-16 2023-01-17 华南理工大学 一种视觉问答方法、装置及存储介质
CN116401390A (zh) * 2023-05-19 2023-07-07 中国科学技术大学 一种视觉问答处理方法、系统、存储介质及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024645A1 (en) * 2015-06-01 2017-01-26 Salesforce.Com, Inc. Dynamic Memory Network
CN106409290A (zh) * 2016-09-29 2017-02-15 深圳市唯特视科技有限公司 一种基于图像分析的幼儿智能语音教育的方法
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN107066446A (zh) * 2017-04-13 2017-08-18 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN107391623A (zh) * 2017-07-07 2017-11-24 中国人民大学 一种融合多背景知识的知识图谱嵌入方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
US20180067923A1 (en) * 2016-09-07 2018-03-08 Microsoft Technology Licensing, Llc Knowledge-guided structural attention processing
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
CN108133038A (zh) * 2018-01-10 2018-06-08 重庆邮电大学 一种基于动态记忆网络的实体级别情感分类系统及方法
CN108170816A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于深度神经网络的智能视觉问答模型

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024645A1 (en) * 2015-06-01 2017-01-26 Salesforce.Com, Inc. Dynamic Memory Network
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
US20180067923A1 (en) * 2016-09-07 2018-03-08 Microsoft Technology Licensing, Llc Knowledge-guided structural attention processing
CN106409290A (zh) * 2016-09-29 2017-02-15 深圳市唯特视科技有限公司 一种基于图像分析的幼儿智能语音教育的方法
CN107066446A (zh) * 2017-04-13 2017-08-18 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN107391623A (zh) * 2017-07-07 2017-11-24 中国人民大学 一种融合多背景知识的知识图谱嵌入方法
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN107943847A (zh) * 2017-11-02 2018-04-20 平安科技(深圳)有限公司 企业关系提取方法、装置及存储介质
CN108170816A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于深度神经网络的智能视觉问答模型
CN108133038A (zh) * 2018-01-10 2018-06-08 重庆邮电大学 一种基于动态记忆网络的实体级别情感分类系统及方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
111.255.99.161等: "google知识图谱", 《中文维基百科》 *
DONG WU等: "Long Short-Term Memory With Quadratic Connections in Recursive Neural Networks for Representing Compositional Semantics", 《IEEE ACCESS》 *
刘康等: "基于表示学习的知识库问答研究进展与展望", 《自动化学报》 *
周博通: "基于知识库的自动问答关键技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
鲜光靖等: "基于神经网络的视觉问答技术研究综述", 《网络安全技术与应用》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858555A (zh) * 2019-02-12 2019-06-07 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、设备及可读存储介质
US11151406B2 (en) 2019-02-12 2021-10-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and readable storage medium for image-based data processing
CN110084296A (zh) * 2019-04-22 2019-08-02 中山大学 一种基于特定语义的图表示学习框架及其多标签分类方法
CN110134774B (zh) * 2019-04-29 2021-02-09 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110134774A (zh) * 2019-04-29 2019-08-16 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN110414684A (zh) * 2019-07-23 2019-11-05 清华大学 基于知识感知的模块化视觉推理方法及装置
CN111475656A (zh) * 2020-03-13 2020-07-31 清华大学 基于外部知识聚合的视觉问答方法及系统
CN111475656B (zh) * 2020-03-13 2023-06-30 清华大学 基于外部知识聚合的视觉问答方法及系统
CN111611367B (zh) * 2020-05-21 2023-04-28 拾音智能科技有限公司 一种引入外部知识的视觉问答方法
CN111737458A (zh) * 2020-05-21 2020-10-02 平安国际智慧城市科技股份有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN111737458B (zh) * 2020-05-21 2024-05-21 深圳赛安特技术服务有限公司 基于注意力机制的意图识别方法、装置、设备及存储介质
CN111611367A (zh) * 2020-05-21 2020-09-01 拾音智能科技有限公司 一种引入外部知识的视觉问答方法
CN111897939A (zh) * 2020-08-12 2020-11-06 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备
CN111897939B (zh) * 2020-08-12 2024-02-02 腾讯科技(深圳)有限公司 视觉对话方法、视觉对话模型的训练方法、装置及设备
CN112527993B (zh) * 2020-12-17 2022-08-05 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
CN112527993A (zh) * 2020-12-17 2021-03-19 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
CN112818889A (zh) * 2021-02-09 2021-05-18 北京工业大学 基于动态注意力的超网络融合视觉问答答案准确性的方法
CN112818889B (zh) * 2021-02-09 2024-05-28 北京工业大学 基于动态注意力的超网络融合视觉问答答案准确性的方法
CN112926655A (zh) * 2021-02-25 2021-06-08 电子科技大学 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN112926655B (zh) * 2021-02-25 2022-05-17 电子科技大学 一种图像内容理解与视觉问答vqa方法、存储介质和终端
CN113129234A (zh) * 2021-04-20 2021-07-16 河南科技学院 一种场内外特征融合的残缺图像精细修复方法
CN113129234B (zh) * 2021-04-20 2022-11-01 河南科技学院 一种场内外特征融合的残缺图像精细修复方法
CN113393084A (zh) * 2021-05-13 2021-09-14 上海湃道智能科技有限公司 作业票流程管理系统
CN113393084B (zh) * 2021-05-13 2024-06-11 上海湃道智能科技有限公司 作业票流程管理系统
CN113239703A (zh) * 2021-05-24 2021-08-10 清华大学深圳国际研究生院 基于多元因素融合的深层逻辑推理金融文本分析方法及系统
CN113239703B (zh) * 2021-05-24 2023-05-02 清华大学深圳国际研究生院 基于多元因素融合的深层逻辑推理金融文本分析方法及系统
CN115618045A (zh) * 2022-12-16 2023-01-17 华南理工大学 一种视觉问答方法、装置及存储介质
CN116401390B (zh) * 2023-05-19 2023-10-20 中国科学技术大学 一种视觉问答处理方法、系统、存储介质及电子设备
CN116401390A (zh) * 2023-05-19 2023-07-07 中国科学技术大学 一种视觉问答处理方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN108920587B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN108920587A (zh) 融合外部知识的开放域视觉问答方法及装置
Rajan Real and imagined women: Gender, culture and postcolonialism
McLean A frame analysis of favor seeking in the renaissance: Agency, networks, and political culture
Mayfield et al. Social history and its discontents: Gareth Stedman Jones and the politics of language
Fine Semantic relationism
CN108664615A (zh) 一种面向学科教育资源的知识图谱构建方法
Carter Paul and the Power of Sin: Redefining'beyond the Pale'
Baron et al. Developmental origins of social group preferences
Eng Analysis of Dis/agreement-with particular reference to Law and Legal Theory
Siegel How can perceptual experiences explain uncertainty?
Conrad Rhetorical/communication theory as an ontology for structuration research
Lahiri-Roy et al. ‘Walk like a Chameleon’: Gendered diasporic identities and settlement experiences
Molloy Max Weber and the religions of China: any way out of the maze?
Ricardo Stalking the paratext: Speculations on hypertext links as a second order text
Richens Anomalies in the WordNet verb hierarchy
Gusman To the nothingnesses themselves: Husserl’s influence on Sartre’s notion of nothingness
Ferrin et al. Contexts, co-texts and situations in fusion domain
Brand The fundamental question in action theory
Belica et al. An empiricist's view of the ontology of lexical-semantic relations
Frankel Berkeley and God in the Quad
Singh et al. Enhancing comprehension of web information for users with special linguistic needs
CN109766444A (zh) 知识图谱的应用数据库生成方法及其装置
Compes Ableism in academic knowledge production
Xu et al. Understanding the domain of driving distraction with knowledge graphs
O’Bryan et al. Evidence for the use of verb telicity in sentence comprehension

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant