CN108920587B - 融合外部知识的开放域视觉问答方法及装置 - Google Patents
融合外部知识的开放域视觉问答方法及装置 Download PDFInfo
- Publication number
- CN108920587B CN108920587B CN201810666767.6A CN201810666767A CN108920587B CN 108920587 B CN108920587 B CN 108920587B CN 201810666767 A CN201810666767 A CN 201810666767A CN 108920587 B CN108920587 B CN 108920587B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- vector
- embedding
- visual
- external
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 99
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 73
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 238000012423 maintenance Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 2
- 238000013507 mapping Methods 0.000 claims 2
- 238000004364 calculation method Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000007670 refining Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合外部知识的开放域视觉问答方法及装置,其中,方法包括:根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,视觉问题包括图像信息和问题文本;通过结构保持的知识嵌入将离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量;通过动态记忆网络和注意力机制对高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到视觉问题的答案。该方法保留深度神经网络模型优越性的同时,引入大量结构化的外部知识来辅助回答“开放域”视觉问题,并利用动态记忆网络和记忆力机制,得到有效辅助推断的知识表征,从而有效提高了视觉问答的可靠性和有效性。
Description
技术领域
本发明涉及计算机视觉、视觉问答、多模态融合技术领域,特别涉及一种融合外部知识的开放域视觉问答方法及装置。
背景技术
目前,回答“开放域”视觉问题,除图片中的信息之外,往往需要大量外部知识来辅助推理。现有的视觉问答方法大部分仅仅依据图像和问题文本的内容本身,目前在视觉问答中引入外部知识的相关工作较有限。
相关技术中,基于深度神经网络的视觉问答模型,难以回答“开放域”视觉问题。在结构化知识图谱上进行显式推理的视觉问答模型;这种方式将图片内容表达为结构化形式,容易损失很多视觉信息,因此具有很大局限;简单引入非结构化外部知识的视觉问答模型,其同时引入了大量冗余信息,没有充分利用外部知识。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种融合外部知识的开放域视觉问答方法,该方法可以有效提高了视觉问答的可靠性和有效性。
本发明的另一个目的在于提出一种融合外部知识的开放域视觉问答装置。
为达到上述目的,本发明一方面实施例提出了一种融合外部知识的开放域视觉问答方法,包括以下步骤:根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,所述视觉问题包括图像信息和问题文本;通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量;通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到所述视觉问题的答案。
本发明实施例的融合外部知识的开放域视觉问答方法,通过融入结构化外部知识,使得视觉问答系统具备利用先验常识回答“开放域”视觉问题的能力,并通过结构保持的知识嵌入方法和动态记忆网络,提炼得到最有效辅助推断的知识表征,既保留了基于深度神经网络的传统视觉问答系统的优势,同时能够充分融合外部知识,从而有效提高了视觉问答的可靠性和有效性。
另外,根据本发明上述实施例的融合外部知识的开放域视觉问答方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,进一步包括:根据所述图像信息中的关键实体和所述问题文本中的关键词从所述预设知识图谱中提取所述离散化外部知识,其中,所述离散化外部知识为符号化的三元组知识。
进一步地,在本发明的一个实施例中,所述隐式表征的语义空间为连续的空间向量。
进一步地,在本发明的一个实施例中,所述通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到所述视觉问题的答案,进一步包括:将所述高维连续空间向量输入到所述动态记忆网络中,所述动态记忆网络内部的记忆向量不断迭代更新,以在迭代结束时在所述记忆向量中生成所述辅助推断知识表征,并与所述图像特征进行拼接得到所述视觉问题的答案。
进一步地,在本发明的一个实施例中,所述注意力机制用于过滤所述高维连续空间向量中的无关信息和噪声数据。
为达到上述目的,本发明另一方面实施例提出了一种融合外部知识的开放域视觉问答装置,包括:提取模块,用于根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,所述视觉问题包括图像信息和问题文本;嵌入模块,用于通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量;推理模块,用于通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到所述视觉问题的答案。
本发明实施例的融合外部知识的开放域视觉问答装置,通过融入结构化外部知识,使得视觉问答系统具备利用先验常识回答“开放域”视觉问题的能力,并通过结构保持的知识嵌入方法和动态记忆网络,提炼得到最有效辅助推断的知识表征,既保留了基于深度神经网络的传统视觉问答系统的优势,同时能够充分融合外部知识,从而有效提高了视觉问答的可靠性和有效性。
另外,根据本发明上述实施例的融合外部知识的开放域视觉问答装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述提取模块进一步用于根据所述图像信息中的关键实体和所述问题文本中的关键词从所述预设知识图谱中提取所述离散化外部知识,其中,所述离散化外部知识为符号化的三元组知识。
进一步地,在本发明的一个实施例中,所述隐式表征的语义空间为连续的空间向量。
进一步地,在本发明的一个实施例中,所述推理模块进一步用于将所述高维连续空间向量输入到所述动态记忆网络中,所述动态记忆网络内部的记忆向量不断迭代更新,以在迭代结束时在所述记忆向量中生成所述辅助推断知识表征,并与所述图像特征进行拼接得到所述视觉问题的答案。
进一步地,在本发明的一个实施例中,所述注意力机制用于过滤所述高维连续空间向量中的无关信息和噪声数据。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的融合外部知识的开放域视觉问答方法的流程图;
图2为根据本发明一个实施例的融合外部知识的开放域视觉问答装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的融合外部知识的开放域视觉问答方法及装置,首先将参照附图描述根据本发明实施例提出的融合外部知识的开放域视觉问答方法。
图1是本发明一个实施例的融合外部知识的开放域视觉问答方法的流程图。
如图1所示,该融合外部知识的开放域视觉问答方法包括以下步骤:
在步骤S101中,根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,视觉问题包括图像信息和问题文本。
可以理解的是,预设知识图谱为已知的大规模知识图谱,本发明实施例从已知的大规模知识图谱中抽取和视觉问题相关的外部知识,即显式表征的离散化外部知识。
在本发明的一个实施例中,根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,进一步包括:根据图像信息中的关键实体和问题文本中的关键词从预设知识图谱中提取离散化外部知识,其中,离散化外部知识为符号化的三元组知识。
可以理解的是,图像信息中的“关键实体”是指图像中出现的较显著的物体;“关键词”是指在问题文本中,排除掉停用词等,抽取得到的有特定含义的单词或短语。图像信息中的关键实体可以为图像信息中的图片物体,本发明实施例结合图像信息中的图片物体和问题文本中的关键词信息,以在预设知识图谱中提取得到与视觉问题相关的符号化的三元组知识。
在步骤S102中,通过结构保持的知识嵌入将离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量。
可以理解的是,显式是说数据表示为符号化的、可读的;与之相对的,隐式是说数据表示为不可读的形式,比如表征为一个高维向量。
在本发明的一个实施例中,隐式表征的语义空间为连续的空间向量。
可以理解的是,本发明实施例采用结构保持的知识嵌入可以将离散的符号化知识嵌入到连续的向量空间,从而在引入外部知识的同时,保留深度神经网络模型优越性。例如,结构保持的知识嵌入可以为预训练的词嵌入模型,通过使用预训练的词嵌入模型将离散化外部知识中的实体和关系映射到连续向量空间,并利用递归神经网络模型,将每一个三元组知识表征为高维连续空间的向量。
在步骤S103中,通过动态记忆网络和注意力机制对高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到视觉问题的答案。
可以理解的是,本发明实施例利用动态记忆网络和注意力机制提取有效辅助推断知识表征,并进一步和图像特征进行融合,从而推理产生视觉问题的问题答案。
其中,动态记忆网络属于一类称为记忆网络的神经网络模块,可以对其内部显式定义的记忆向量进行可微分的读写操作。动态记忆网络通过对大量的输入数据进行建模和计算,不断迭代式更新内部的记忆向量,最终的记忆向量中将保留有能够辅助推断的向量表征
在本发明一个实施例中,注意力机制用于过滤高维连续空间向量中的无关信息和噪声数据。
具体而言,注意力机制的核心思想是通过输入数据的内容和上下文信息,自动学习注意力权重,从而区别对待输入数据中的重要部分和次要部分,能够一定程度上过滤掉无关信息和噪声数据。
进一步地,在本发明一个实施例中,通过动态记忆网络和注意力机制对高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到视觉问题的答案,进一步包括:将高维连续空间向量输入到动态记忆网络中,动态记忆网络内部的记忆向量不断迭代更新,以在迭代结束时在记忆向量中生成辅助推断知识表征,并与图像特征进行拼接得到视觉问题的答案。
可以理解的是,本发明实施例将此前得到的高维连续空间向量嵌入输入到动态记忆网络中,其内部的记忆向量将不断迭代更新,在迭代结束时,记忆向量中将保留知识嵌入中的有效信息,成为能够辅助推断的知识表征。最终将知识表征与图像特征等进行拼接,预测该视觉问题的答案。其中,图像特征是指一个高维向量,是由深度学习方法得到的分布式图像表征,蕴含了图像中的语义信息。
综上,本发明实施例在视觉问答任务中引入外部结构化知识,并利用动态记忆网络和注意力机制提取有效知识表征,进一步和视觉特征进行融合,从而获得回答复杂的开放域视觉问题的能力。本发明实施例融入先验的外部知识的视觉问答系统,视觉问答系统可以使得人机交互更加自然,或者为视力受损者提供帮助;拥有常识甚至专业知识的视觉问答系统使得图像理解更加深入,更接近人类对视觉信息的语义认知方式。
根据本发明实施例提出的融合外部知识的开放域视觉问答方法,通过融入结构化外部知识,使得视觉问答系统具备利用先验常识回答“开放域”视觉问题的能力,并通过结构保持的知识嵌入方法和动态记忆网络,提炼得到最有效辅助推断的知识表征,既保留了基于深度神经网络的传统视觉问答系统的优势,同时能够充分融合外部知识,从而有效提高了视觉问答的可靠性和有效性。
其次参照附图描述根据本发明实施例提出的融合外部知识的开放域视觉问答装置。
图2是本发明一个实施例的融合外部知识的开放域视觉问答装置的结构示意图。
如图2所示,该融合外部知识的开放域视觉问答装置10包括:提取模块100、嵌入模块200和推理模块300。
其中,提取模块100用于根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,视觉问题包括图像信息和问题文本。嵌入模块200用于通过结构保持的知识嵌入将离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量。推理模块300用于通过动态记忆网络和注意力机制对高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到视觉问题的答案。本发明实施例的装置10保留深度神经网络模型优越性的同时,引入大量结构化的外部知识来辅助回答“开放域”视觉问题,并利用动态记忆网络和记忆力机制,得到有效辅助推断的知识表征,从而有效提高了视觉问答的可靠性和有效性。
进一步地,在本发明的一个实施例中,提取模块100进一步用于根据图像信息中的关键实体和问题文本中的关键词从预设知识图谱中提取离散化外部知识,其中,离散化外部知识为符号化的三元组知识。
进一步地,在本发明的一个实施例中,隐式表征的语义空间为连续的空间向量。
进一步地,在本发明的一个实施例中,推理模块300进一步用于将高维连续空间向量输入到动态记忆网络中,动态记忆网络内部的记忆向量不断迭代更新,以在迭代结束时在记忆向量中生成辅助推断知识表征,并与图像特征进行拼接得到视觉问题的答案。
进一步地,在本发明的一个实施例中,注意力机制用于过滤高维连续空间向量中的无关信息和噪声数据。
需要说明的是,前述对的融合外部知识的开放域视觉问答方法实施例的解释说明也适用于该实施例的的融合外部知识的开放域视觉问答装置,此处不再赘述。
根据本发明实施例提出的融合外部知识的开放域视觉问答装置,通过融入结构化外部知识,使得视觉问答系统具备利用先验常识回答“开放域”视觉问题的能力,并通过结构保持的知识嵌入方法和动态记忆网络,提炼得到最有效辅助推断的知识表征,既保留了基于深度神经网络的传统视觉问答系统的优势,同时能够充分融合外部知识,从而有效提高了视觉问答的可靠性和有效性。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (2)
1.一种融合外部知识的开放域视觉问答方法,其特征在于,包括以下步骤:
根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,所述视觉问题包括图像信息和问题文本;
通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量;以及
通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到所述视觉问题的答案,所述动态记忆网络用于对其内部显式定义的记忆向量进行可微分的读写操作,通过对输入数据进行建模和计算,并不断迭代式更新内部的记忆向量,最终的记忆向量中将保留有能够辅助推断的向量表征;所述注意力机制用于过滤所述高维连续空间向量中的无关信息和噪声数据;具体地:将所述高维连续空间向量输入到所述动态记忆网络中,所述动态记忆网络内部的记忆向量不断迭代更新,以在迭代结束时在所述记忆向量中生成所述辅助推断知识表征,并与所述图像特征进行拼接得到所述视觉问题的答案;其中,所述图像特征为一个高维向量,是由深度学习方法得到的分布式图像表征,蕴含了图像中的语义信息;
所述根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,进一步包括:根据所述图像信息中的关键实体和所述问题文本中的关键词从所述预设知识图谱中提取所述离散化外部知识,其中,所述离散化外部知识为符号化的三元组知识;
所述隐式表征的语义空间为连续的空间向量;
其中,所述结构保持的知识嵌入为预训练的词嵌入模型,以及所述通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间,包括:通过使用所述预训练的词嵌入模型将所述离散化外部知识中的实体和关系映射到连续向量空间,并利用递归神经网络模型,将每一个所述三元组知识表征为所述高维连续空间向量。
2.一种融合外部知识的开放域视觉问答装置,其特征在于,包括:
提取模块,用于根据视觉问题从预设知识图谱中提取显式表征的离散化外部知识,其中,所述视觉问题包括图像信息和问题文本;
嵌入模块,用于通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间,以得到高维连续空间向量;以及
推理模块,用于通过动态记忆网络和注意力机制对所述高维连续空间向量进行辅助推断知识表征提取,并融合图像特征得到所述视觉问题的答案,所述动态记忆网络用于对其内部显式定义的记忆向量进行可微分的读写操作,通过对输入数据进行建模和计算,并不断迭代式更新内部的记忆向量,最终的记忆向量中将保留有能够辅助推断的向量表征;所述注意力机制用于过滤所述高维连续空间向量中的无关信息和噪声数据;所述推理模块进一步用于将所述高维连续空间向量输入到所述动态记忆网络中,所述动态记忆网络内部的记忆向量不断迭代更新,以在迭代结束时在所述记忆向量中生成所述辅助推断知识表征,并与所述图像特征进行拼接得到所述视觉问题的答案;其中,所述图像特征为一个高维向量,是由深度学习方法得到的分布式图像表征,蕴含了图像中的语义信息;
所述提取模块进一步用于根据所述图像信息中的关键实体和所述问题文本中的关键词从所述预设知识图谱中提取所述离散化外部知识,其中,所述离散化外部知识为符号化的三元组知识;
所述嵌入模块中隐式表征的语义空间为连续的空间向量;
其中,所述嵌入模块中结构保持的知识嵌入为预训练的词嵌入模型,以及所述嵌入模块,还用于:通过结构保持的知识嵌入将所述离散化外部知识嵌入隐式表征的语义空间,包括:通过使用所述预训练的词嵌入模型将所述离散化外部知识中的实体和关系映射到连续向量空间,并利用递归神经网络模型,将每一个所述三元组知识表征为所述高维连续空间向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810666767.6A CN108920587B (zh) | 2018-06-26 | 2018-06-26 | 融合外部知识的开放域视觉问答方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810666767.6A CN108920587B (zh) | 2018-06-26 | 2018-06-26 | 融合外部知识的开放域视觉问答方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108920587A CN108920587A (zh) | 2018-11-30 |
CN108920587B true CN108920587B (zh) | 2021-09-24 |
Family
ID=64423038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810666767.6A Active CN108920587B (zh) | 2018-06-26 | 2018-06-26 | 融合外部知识的开放域视觉问答方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108920587B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858555B (zh) * | 2019-02-12 | 2022-05-17 | 北京百度网讯科技有限公司 | 基于图像的数据处理方法、装置、设备及可读存储介质 |
CN110084296B (zh) * | 2019-04-22 | 2023-07-21 | 中山大学 | 一种基于特定语义的图表示学习框架及其多标签分类方法 |
CN110134774B (zh) * | 2019-04-29 | 2021-02-09 | 华中科技大学 | 一种基于注意力决策的图像视觉问答模型、方法和系统 |
CN110163299B (zh) * | 2019-05-31 | 2022-09-06 | 合肥工业大学 | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 |
CN110414684A (zh) * | 2019-07-23 | 2019-11-05 | 清华大学 | 基于知识感知的模块化视觉推理方法及装置 |
CN111475656B (zh) * | 2020-03-13 | 2023-06-30 | 清华大学 | 基于外部知识聚合的视觉问答方法及系统 |
CN111737458B (zh) * | 2020-05-21 | 2024-05-21 | 深圳赛安特技术服务有限公司 | 基于注意力机制的意图识别方法、装置、设备及存储介质 |
CN111611367B (zh) * | 2020-05-21 | 2023-04-28 | 拾音智能科技有限公司 | 一种引入外部知识的视觉问答方法 |
CN111897939B (zh) * | 2020-08-12 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 视觉对话方法、视觉对话模型的训练方法、装置及设备 |
CN112527993B (zh) * | 2020-12-17 | 2022-08-05 | 浙江财经大学东方学院 | 一种跨媒体层次化深度视频问答推理框架 |
CN112818889B (zh) * | 2021-02-09 | 2024-05-28 | 北京工业大学 | 基于动态注意力的超网络融合视觉问答答案准确性的方法 |
CN112926655B (zh) * | 2021-02-25 | 2022-05-17 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN113129234B (zh) * | 2021-04-20 | 2022-11-01 | 河南科技学院 | 一种场内外特征融合的残缺图像精细修复方法 |
CN113393084B (zh) * | 2021-05-13 | 2024-06-11 | 上海湃道智能科技有限公司 | 作业票流程管理系统 |
CN113239703B (zh) * | 2021-05-24 | 2023-05-02 | 清华大学深圳国际研究生院 | 基于多元因素融合的深层逻辑推理金融文本分析方法及系统 |
CN115618045B (zh) * | 2022-12-16 | 2023-03-14 | 华南理工大学 | 一种视觉问答方法、装置及存储介质 |
CN116401390B (zh) * | 2023-05-19 | 2023-10-20 | 中国科学技术大学 | 一种视觉问答处理方法、系统、存储介质及电子设备 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11113598B2 (en) * | 2015-06-01 | 2021-09-07 | Salesforce.Com, Inc. | Dynamic memory network |
US9965705B2 (en) * | 2015-11-03 | 2018-05-08 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering |
US10366163B2 (en) * | 2016-09-07 | 2019-07-30 | Microsoft Technology Licensing, Llc | Knowledge-guided structural attention processing |
CN106409290B (zh) * | 2016-09-29 | 2019-06-25 | 深圳市唯特视科技有限公司 | 一种基于图像分析的幼儿智能语音教育的方法 |
CN107066446B (zh) * | 2017-04-13 | 2020-04-10 | 广东工业大学 | 一种嵌入逻辑规则的循环神经网络文本情感分析方法 |
CN107391623B (zh) * | 2017-07-07 | 2020-03-31 | 中国人民大学 | 一种融合多背景知识的知识图谱嵌入方法 |
CN107748757B (zh) * | 2017-09-21 | 2021-05-07 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN107943847B (zh) * | 2017-11-02 | 2019-05-17 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
CN108170816B (zh) * | 2017-12-31 | 2020-12-08 | 厦门大学 | 一种基于深度神经网络的智能视觉问答方法 |
CN108133038B (zh) * | 2018-01-10 | 2022-03-22 | 重庆邮电大学 | 一种基于动态记忆网络的实体级别情感分类系统及方法 |
-
2018
- 2018-06-26 CN CN201810666767.6A patent/CN108920587B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108920587A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920587B (zh) | 融合外部知识的开放域视觉问答方法及装置 | |
Martín | Looking toward the future of cognitive translation studies | |
Machery | Concept empiricism: A methodological critique | |
Arrigo et al. | Revolution in penology: Rethinking the society of captives | |
CN115618045B (zh) | 一种视觉问答方法、装置及存储介质 | |
CN108345647A (zh) | 基于Web的领域知识图谱构建系统及方法 | |
CN107590131A (zh) | 一种规范文书处理方法、装置及系统 | |
CN111475656B (zh) | 基于外部知识聚合的视觉问答方法及系统 | |
CN106649739B (zh) | 多轮交互信息继承识别方法、装置以及交互系统 | |
CN117648429B (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN112632253B (zh) | 基于图卷积网络的答案抽取方法、装置及相关组件 | |
DE102015121509A1 (de) | Methodik und Vorrichtung zur Konsistenzprüfung durch Vergleich von Ontologiemodellen | |
CN117632098B (zh) | 一种基于aigc的建筑智能设计系统 | |
Galitsky | Artificial intelligence for customer relationship management | |
Beuls et al. | Diagnostics and repairs in fluid construction grammar | |
CN113283488A (zh) | 一种基于学习行为的认知诊断方法及系统 | |
Barzamini et al. | CADE: The missing benchmark in evaluating dataset requirements of AI-enabled software | |
CN113987124A (zh) | 深度知识追踪方法、系统及可存储介质 | |
Sivakumar et al. | Prompting GPT–4 to support automatic safety case generation | |
CN110941962B (zh) | 基于图网络的答案句选择方法及装置 | |
WO2019070310A1 (en) | SYSTEM AND METHOD FOR KNOWLEDGE MANAGEMENT | |
Valentine | Why we do what we do: A theoretical evaluation of the integrated practice model for forensic nursing science | |
CN116701590A (zh) | 基于知识图谱构建答案语义空间的视觉问答方法 | |
CN116541507A (zh) | 一种基于动态语义图神经网络的视觉问答方法及系统 | |
CN115985510A (zh) | 疾病预测方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |