CN111611367A - 一种引入外部知识的视觉问答方法 - Google Patents
一种引入外部知识的视觉问答方法 Download PDFInfo
- Publication number
- CN111611367A CN111611367A CN202010436987.7A CN202010436987A CN111611367A CN 111611367 A CN111611367 A CN 111611367A CN 202010436987 A CN202010436987 A CN 202010436987A CN 111611367 A CN111611367 A CN 111611367A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- visual
- fact
- question
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种引入外部知识的视觉问答方法。所述方法包括:构造视觉图;构造事实知识图;利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,以可能是答案的概率最大的事实知识为问题的答案。本发明通过在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,避免了冗余的噪声,提高了答案的准确率。
Description
技术领域
本发明属于自然语言理解技术领域,具体涉及一种引入外部知识的视觉问答方法。
背景技术
视觉问答涉及计算机视觉和自然语言处理技术,即给定一张图片和一个与该图片相关的自然语言问题,计算机产生一个正确的回答。大多数现有的视觉问答模型主要关心理解视觉对象,其中的问题与简单的计数、颜色和其它视觉检测任务有关,只需要直接分析问题和图像就可以获得答案,因此不需要太多的逻辑推理或与外部知识的关联。但是如果问题涉及到常识知识,这些模型往往会得出错误答案,而人类在面对涉及常识的视觉问题时,会综合关联图像和外部知识来回答。因此,为了补足和人类的差距从而实现更通用的人工智能,将外部知识引入视觉问答中是必不可少的环节。
有学者提出一个基于外部事实知识的视觉问答数据集FVQA以用基于查询映射的方法QQMapping。FVQA包含图片、问题、对应的答案以及一个从WebChild、DBPedia和ConceptNet中抽取得到的事实知识库。QQMapping首先根据图像中的视觉概念查询知识库,抽取出有关联的事实组成一个与当前图像相关的知识库。然后用LSTM对问题进行分类,得到一个查询语句,根据查询语句得到一系列候选的事实。然后根据关键词得到问题和事实的匹配程度,选择最相关的事实。最后根据问题预测答案的来源,选择一个实体当做最后的问题。但是如果出现同义词或同形异义词,QQMapping的效果就会下降。为此,有人提出一种基于学习的方法用于解决同义词和同形异义词的问题。首先分别通过CNN和LSTM得到图像和问题的嵌入表示,然后通过多层感知机将这两种模态融合起来得到图像-问题的联合表示。通过另一个LSTM预测对应事实的关系类型,然后根据关系抽取出相应的事实,使用GloVe得到事实的嵌入,计算其与图像-问题联合表示的内积,选取内积最大的作为事实。最后根据答案的来源选择一个实体作为最终答案。通过神经网络的自我学习能力,能够克服同义词和同形异义词引发的歧义。
图神经网络是一种将深度学习扩展到图数据的模型,可以有效利用图数据的复杂的拓扑结构学习每个节点的表示,从而提高下游任务的准确度。根据图像的视觉概念和对应的关系类型将抽取到的事实组成一个知识图谱,其中每个节点是一个实体,每条边表示实体之间的关系。节点的初始特征表示为“图像-问题-实体”的嵌入向量的拼接。然后使用图卷积网络学习到每个节点的表示,有效地捕获了知识图谱的邻居信息和拓扑结构信息。学习到的每个节点的表示通过一个多层感知机,最后一层只包括一个神经元,输出当前节点作为答案的概率。从所有节点中选择概率最大的作为最终的答案。
上述方法存在的问题是:编码图像时都使用了全部的视觉信息,但没有根据问题的不同自适应地选择需要的信息,会引入与问题无关的噪声;将回答问题所需的视觉信息和事实知识直接拼接,没有根据问题进行动态融合。
发明内容
为了解决现有技术中存在的上述问题,本发明提出一种基引入外部知识的视觉问答方法。
为实现上述目的,本发明采用如下技术方案:
一种引入外部知识的视觉问答方法,包括以下步骤:
步骤1,构造图像I的视觉图Gv=(Vv,Ev),Vv={vi}为节点集,i∈[1,Nv],Nv为节点个数,vi为第i个节点,表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量,为边集合,为连接节点vi和vj的边,是表示第i个检测框和第j个检测框位置关系的向量,j∈[1,Nv],j≠i;
步骤2,选取知识库中与问题最相关的Nf个事实知识构造事实知识图Gf=(Vf,Ef),Vf={fi}为节点集,i∈[1,Nf],fi为第i个节点,表示第i个事实知识,为边集合,为连接节点fi和fj的边,表示第i个事实知识与第j个事实知识的关系,j∈[1,Nf],j≠i;
步骤3,利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;
步骤4,在问题的引导下,从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,可能是答案的概率最大的事实知识为问题的答案。
与现有技术相比,本发明具有以下有益效果:
本发明通过构造视觉图,构造事实知识图,利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点,在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,以可能是答案的概率最大的事实知识为问题的答案。本发明通过在问题的引导下从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,避免了冗余的噪声,提高了答案的准确率。
附图说明
图1为本发明实施例一种引入外部知识的视觉问答方法的流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明实施例一种引入外部知识的视觉问答方法,流程图如图1所示,所述方法包括:
S101、构造图像I的视觉图Gv=(Vv,Ev)。Vv={vi}为节点集,i∈[1,Nv],Nv为节点个数,vi为第i个节点,表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量,为边集合,为连接节点vi和vj的边,是表示第i个检测框和第j个检测框位置关系的向量,j∈[1,Nv],j≠i;
S102、选取知识库中与问题最相关的Nf个事实知识构造事实知识图Gf=(Vf,Ef),Vf={fi}为节点集,i∈[1,Nf],fi为第i个节点,表示第i个事实知识,为边集合,为连接节点fi和fj的边,表示第i个事实知识与第j个事实知识的关系,j∈[1,Nf],j≠i;
S103、利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;
S104、在问题的引导下,从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,可能是答案的概率最大的事实知识为问题的答案。
在本实施例中,步骤S101用于构造图像I的视觉图。由于FVQA中的大多数问题都是基于视觉对象及其关系,因此本实施例构造了一个全连通的视觉图来表征表层的视觉信息。视觉图中的一个节点表示一个图像特征向量,是利用Faster-RCNN从图像I的一个检测框内提取的。Faster-RCNN是计算机视觉领域常用的一种目标检测模型。它可以自动地检测出图像中包含的物体并对物体进行分类。任意两个节点之间连接一条边,所述边表示两个节点对应的检测框的位置关系。
在本实施例中,步骤S102用于构造事实知识图。事实知识图的一个节点表示一个事实知识;任意两个节点之间连接一条边,表示两个节点表示的事实知识之间的关系。构造事实知识图的事实知识来自知识库。为了找到与问题最相关的事实,从知识库中选择一系列与问题相关的候选事实知识。首先,计算事实知识中每个单词的词嵌入ai,S101中检测到的每个图像特征标签的词嵌入bj,问题中每个单词的词嵌入ck。计算每个ai、bj与ck的余弦相似度,求这些余弦相似度的平均值,对候选事实知识按所述平均值从大到小排序,选出排在最前面的N个事实知识。然后,为了进一步提高候选事实知识的准确率,利用LSTM预测出问题对应的关系的类型,再从N个事实知识中筛选出属于所述类型的事实知识,得到与问题最相关事实知识用于构造事实知识图。
在本实施例中,步骤S103用于对视觉图和事实知识图进行突出与问题相关的节点和边的操作。利用注意力机制对两个图中的节点、边相对问题进行运算,可以突出与问题相关的节点和边。然后再使用图神经网络对节点进行更新。突出视觉图和事实知识图中与问题相关的节点和边后,有利于更有效地获取问题的答案。
在本实施例中,步骤S104用于从事实知识中获得问题的答案。为了正确回答问题,需要利用视觉和外部知识两种模态中的互补信息。由于问题的答案来自事实知识图中的一个事实知识,可通过从视觉图到事实知识图的跨模态卷积,从视觉图中收集互补信息融入到事实知识图,将融合后概率最大的事实知识作为问题的答案。本实施例通过针对不同的问题收集不同的互补信息,可避免冗余的噪声,提高答案的准确率。
式中,xi、yi分别为第i个检测框左上角的横坐标和纵坐标,xj、yj分别为第j个检测框左上角的横坐标和纵坐标,wi、hi分别为第i个检测框的宽和高,wj、hj分别为第j个检测框的宽和高。
本实施例给出了视觉图的任意一条边的表示方法。的计算方法如公式(1)所示。利用Faster-RCNN提取第i个检测框的图像特征时,返回一个四维的位置向量Bi=(xi,yi,wi,hi),就是根据位置向量Bi得到的。
作为一种可选实施例,所述S103具体包括以下步骤:
对于视觉图,计算每个节点vi相对问题q的注意力权重αi:
αi=softmax(watanh(w1vi+w2q)) (2)
式中,wa、w1、w2为学习参数,[·,·]表示向量拼接;
针对每个节点vi,计算与其相连的所有边相对vi和问题q的注意力权重βji:
βji=softmax(wbtanh(w3v′j+w4q′)) (3)
式中,w7为学习参数;
针对事实知识图,按照上述方法进行与视觉图相同完全相同的处理。
本实施例给出了步骤S103突出视觉图和事实知识图中与问题相关的节点和边的一种具体的技术方案。视觉图和事实知识图的处理方法完全相同,均是先计算每个节点相对问题的注意力权重,然后针对每个节点计算与其相连的所有边相对该节点和问题的注意力权重,最后利用图神经网络更新节点。
作为一种可选实施例,所述S104具体包括以下步骤:
式中,wc、w8、w9为学习参数;
式中,σ为门函数,w10、w11为学习参数,[·,·]表示向量拼接,“ο”表示两个向量逐元素相乘;
本实施例给出了步骤S104从事实知识中获得问题答案的一种具体的技术方案。首先,计算在问题的引导下视觉图中的每个节点对事实知识图中的每个节点的注意力权重;然后,计算视觉图对于事实知识图中每个节点的互补信息;最后,将每个节点的互补信息与所述节点反复融合,将融合后的事实知识图输入到一个多层感知机,得到每个事实知识可能是答案的概率,概率最高的事实知识即为问题的答案。
为了验证本发明实施例的效果,下面给出一组实验数据。
实验采用包含外部事实知识的FVQA数据集。如果预测答案的字符串匹配了相应的真实答案,则预测的答案是正确的。采用top-1、top-3两种准确率,top-1准确率指的是只有预测出的得分最高的答案是真实答案,那么这个样本才算预测正确;top-3准确率指的是只要预测出的前三高分数的答案中包括真实答案,那么这个样本就算预测正确。实验结果如表1所示,表中方法栏的LSTM-Question+Image+Pre-VQA是通过LSTM得到问题表示,用CNN得到图像表示,然后输入到预训练好的VQA模型中;Hie-Question+Image+Pre-VQA是先用层次化注意力机制处理问题表示和图像表示,然后再输入到VQA模型中;FVQA(QQmaping)将问题转换成一个查询语句,然后在知识库中寻找;Straight to the Facts将图像+问题的表示和事实的表示计算相似度,选择相似度最高的最为答案;Out of the Box将知识表示成一个图结构,其中每个节点的表示是固定形式的;Our model是本发明的模型;Our model(V-Fconcat)是去掉了Our model模型中的跨模态卷积,将所有的视觉特征求平均值,然后再和事实知识图中节点的表示拼接在一起。
表1实验结果
由表1可知,本发明模型的所有指标都超过了现有方法。Out of the Box是和本发明最相关的,它一视同仁地将相同的全局图像特征融入到不同的实体,没有收集不同模态中的互补信息来做推断,本发明的准确率相对这种模型获得了显著的提升。为了验证跨模态图卷积的有效性,将视觉到事实的跨模态卷积替换成视觉特征的平均值与事实知识的拼接,top-1和top-3准确率分别下降了1.35%和2.64%,结果证明了跨模态卷积在收集来自不同模态的互补信息方面的有效性。
上述仅对本发明中的几种具体实施例加以说明,但并不能作为本发明的保护范围,凡是依据本发明中的设计精神所做出的等效变化或修饰或等比例放大或缩小等,均应认为落入本发明的保护范围。
Claims (4)
1.一种引入外部知识的视觉问答方法,其特征在于,包括以下步骤:
步骤1,构造图像I的视觉图Gv=(Vv,Ev),Vv={vi}为节点集,i∈[1,Nv],Nv为节点个数,vi为第i个节点,表示利用Faster-RCNN从图像I中提取的第i个检测框内的特征向量,为边集合,为连接节点vi和vj的边,是表示第i个检测框和第j个检测框位置关系的向量,j∈[1,Nv],j≠i;
步骤2,选取知识库中与问题最相关的Nf个事实知识构造事实知识图Gf=(Vf,Ef),Vf={fi}为节点集,i∈[1,Nf],fi为第i个节点,表示第i个事实知识,为边集合,为连接节点fi和fj的边,表示第i个事实知识与第j个事实知识的关系,j∈[1,Nf],j≠i;
步骤3,利用注意力机制对视觉图和事实知识图的节点、边相对问题进行运算,突出与问题相关的节点和边,然后使用图神经网络更新节点;
步骤4,在问题的引导下,从视觉图中提取相对每个事实知识的互补信息,并将所述互补信息融合到事实知识图中,可能是答案的概率最大的事实知识为问题的答案。
3.根据权利要求1所述的引入外部知识的视觉问答方法,其特征在于,所述步骤3具体包括以下步骤:
对于视觉图,计算每个节点vi相对问题q的注意力权重αi:
αi=softmax(watanh(w1vi+w2q)) (2)
式中,wa、w1、w2为学习参数,[·,·]表示向量拼接;
针对每个节点vi,计算与其相连的所有边相对vi和问题q的注意力权重βji:
βji=softmax(wbtanh(w3v′j+w4q′)) (3)
式中,w7为学习参数;
针对事实知识图,按照上述方法进行与视觉图相同完全相同的处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436987.7A CN111611367B (zh) | 2020-05-21 | 2020-05-21 | 一种引入外部知识的视觉问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436987.7A CN111611367B (zh) | 2020-05-21 | 2020-05-21 | 一种引入外部知识的视觉问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611367A true CN111611367A (zh) | 2020-09-01 |
CN111611367B CN111611367B (zh) | 2023-04-28 |
Family
ID=72199893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010436987.7A Active CN111611367B (zh) | 2020-05-21 | 2020-05-21 | 一种引入外部知识的视觉问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611367B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905762A (zh) * | 2021-02-05 | 2021-06-04 | 南京航空航天大学 | 一种基于同等注意力图网络的视觉问答方法 |
CN113240046A (zh) * | 2021-06-02 | 2021-08-10 | 哈尔滨工程大学 | 一种基于知识的视觉问答任务下的多模态信息融合方法 |
CN113255918A (zh) * | 2021-04-13 | 2021-08-13 | 国家计算机网络与信息安全管理中心 | 强化聚合知识指导的生成常识推理方法 |
CN114842368A (zh) * | 2022-05-07 | 2022-08-02 | 中国电信股份有限公司 | 基于场景的视觉辅助信息确定方法、系统、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180246952A1 (en) * | 2015-08-19 | 2018-08-30 | Alibaba Group Holding Limited | Method and device for generating online question paths from existing question banks using a knowledge graph |
CN108920587A (zh) * | 2018-06-26 | 2018-11-30 | 清华大学 | 融合外部知识的开放域视觉问答方法及装置 |
US20190057297A1 (en) * | 2017-08-17 | 2019-02-21 | Microsoft Technology Licensing, Llc | Leveraging knowledge base of groups in mining organizational data |
WO2019148315A1 (en) * | 2018-01-30 | 2019-08-08 | Intel Corporation | Visual question answering using visual knowledge bases |
CN110110043A (zh) * | 2019-04-11 | 2019-08-09 | 中山大学 | 一种多跳视觉问题推理模型及其推理方法 |
US20190287006A1 (en) * | 2018-03-16 | 2019-09-19 | Accenture Global Solutions Limited | Integrated monitoring and communications system using knowledge graph based explanatory equipment management |
CN110263912A (zh) * | 2019-05-14 | 2019-09-20 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN110399518A (zh) * | 2019-06-17 | 2019-11-01 | 杭州电子科技大学 | 一种基于图卷积的视觉问答增强方法 |
CN110704601A (zh) * | 2019-10-11 | 2020-01-17 | 浙江大学 | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 |
CN110717024A (zh) * | 2019-10-08 | 2020-01-21 | 苏州派维斯信息科技有限公司 | 基于图像视觉到文本转换的视觉问答问题解决方法 |
-
2020
- 2020-05-21 CN CN202010436987.7A patent/CN111611367B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180246952A1 (en) * | 2015-08-19 | 2018-08-30 | Alibaba Group Holding Limited | Method and device for generating online question paths from existing question banks using a knowledge graph |
US20190057297A1 (en) * | 2017-08-17 | 2019-02-21 | Microsoft Technology Licensing, Llc | Leveraging knowledge base of groups in mining organizational data |
WO2019148315A1 (en) * | 2018-01-30 | 2019-08-08 | Intel Corporation | Visual question answering using visual knowledge bases |
US20190287006A1 (en) * | 2018-03-16 | 2019-09-19 | Accenture Global Solutions Limited | Integrated monitoring and communications system using knowledge graph based explanatory equipment management |
CN108920587A (zh) * | 2018-06-26 | 2018-11-30 | 清华大学 | 融合外部知识的开放域视觉问答方法及装置 |
CN110110043A (zh) * | 2019-04-11 | 2019-08-09 | 中山大学 | 一种多跳视觉问题推理模型及其推理方法 |
CN110263912A (zh) * | 2019-05-14 | 2019-09-20 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN110399518A (zh) * | 2019-06-17 | 2019-11-01 | 杭州电子科技大学 | 一种基于图卷积的视觉问答增强方法 |
CN110717024A (zh) * | 2019-10-08 | 2020-01-21 | 苏州派维斯信息科技有限公司 | 基于图像视觉到文本转换的视觉问答问题解决方法 |
CN110704601A (zh) * | 2019-10-11 | 2020-01-17 | 浙江大学 | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 |
Non-Patent Citations (6)
Title |
---|
MEDHINI NARASIMHAN 等: "Out of the box: reasoning with graph convolution nets for factual visual question answering", 《ACM》 * |
WEIKE JIN 等: "Video Question Answering via Knowledge-based Progressive Spatial-Temporal Attention Network" * |
俞俊;汪亮;余宙;: "视觉问答技术研究" * |
俞俊等: "视觉问答技术研究", 《计算机研究与发展》 * |
闫茹玉;刘学亮;: "结合自底向上注意力机制和记忆网络的视觉问答模型" * |
鲜光靖等: "基于神经网络的视觉问答技术研究综述", 《网络安全技术与应用》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112905762A (zh) * | 2021-02-05 | 2021-06-04 | 南京航空航天大学 | 一种基于同等注意力图网络的视觉问答方法 |
CN112905762B (zh) * | 2021-02-05 | 2024-07-26 | 南京航空航天大学 | 一种基于同等注意力图网络的视觉问答方法 |
CN113255918A (zh) * | 2021-04-13 | 2021-08-13 | 国家计算机网络与信息安全管理中心 | 强化聚合知识指导的生成常识推理方法 |
CN113240046A (zh) * | 2021-06-02 | 2021-08-10 | 哈尔滨工程大学 | 一种基于知识的视觉问答任务下的多模态信息融合方法 |
CN113240046B (zh) * | 2021-06-02 | 2023-01-03 | 哈尔滨工程大学 | 一种基于知识的视觉问答任务下的多模态信息融合方法 |
CN114842368A (zh) * | 2022-05-07 | 2022-08-02 | 中国电信股份有限公司 | 基于场景的视觉辅助信息确定方法、系统、设备及存储介质 |
CN114842368B (zh) * | 2022-05-07 | 2023-10-03 | 中国电信股份有限公司 | 基于场景的视觉辅助信息确定方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111611367B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611367B (zh) | 一种引入外部知识的视觉问答方法 | |
CN111488734B (zh) | 基于全局交互和句法依赖的情感特征表示学习系统及方法 | |
CN110163299B (zh) | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 | |
US11481585B2 (en) | Segmentation of data | |
CN113961718A (zh) | 一种基于工业机械故障诊断知识图谱的知识推理方法 | |
CN110659723B (zh) | 基于人工智能的数据处理方法、装置、介质及电子设备 | |
Sharma et al. | A survey of methods, datasets and evaluation metrics for visual question answering | |
CN112036276B (zh) | 一种人工智能视频问答方法 | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN110838368A (zh) | 一种基于中医临床知识图谱的机器人主动问诊方法 | |
EP3920048A1 (en) | Method and system for automated visual question answering | |
CN112200266B (zh) | 基于图结构数据的网络训练方法、装置以及节点分类方法 | |
CN112801762B (zh) | 基于商品感知的多模态视频高光检测方法及其系统 | |
CN113673244B (zh) | 医疗文本处理方法、装置、计算机设备和存储介质 | |
CN108985298B (zh) | 一种基于语义一致性的人体衣物分割方法 | |
CN111242197A (zh) | 基于双视域语义推理网络的图像文匹配方法 | |
CN116737911A (zh) | 基于深度学习的高血压问答方法及系统 | |
CN112801138A (zh) | 基于人体拓扑结构对齐的多人姿态估计方法 | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
CN113822183B (zh) | 基于au-emo关联与图神经网络的零样本表情识别方法及系统 | |
Liu et al. | Learning from interaction-enhanced scene graph for pedestrian collision risk assessment | |
Yin et al. | Msa-gcn: Multiscale adaptive graph convolution network for gait emotion recognition | |
CN117497178A (zh) | 一种基于知识图谱的常见病辅助决策方法 | |
CN116701590A (zh) | 基于知识图谱构建答案语义空间的视觉问答方法 | |
Zheng et al. | Modular graph attention network for complex visual relational reasoning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |