CN111475656A - 基于外部知识聚合的视觉问答方法及系统 - Google Patents

基于外部知识聚合的视觉问答方法及系统 Download PDF

Info

Publication number
CN111475656A
CN111475656A CN202010176844.7A CN202010176844A CN111475656A CN 111475656 A CN111475656 A CN 111475656A CN 202010176844 A CN202010176844 A CN 202010176844A CN 111475656 A CN111475656 A CN 111475656A
Authority
CN
China
Prior art keywords
knowledge
question
visual
graph
external
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010176844.7A
Other languages
English (en)
Other versions
CN111475656B (zh
Inventor
朱文武
李国豪
王鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010176844.7A priority Critical patent/CN111475656B/zh
Publication of CN111475656A publication Critical patent/CN111475656A/zh
Application granted granted Critical
Publication of CN111475656B publication Critical patent/CN111475656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于外部知识聚合的视觉问答方法及系统,其中,该方法首先抽取情景相关的外部知识图谱子图,然后在知识子图上进行知识聚合得到知识实体表征,最后将该实体表征与传统的知识问答系统进行有机融合来最终得到问题答案。该方法在传统视觉问答系统上引入外部知识图谱,既可应用于传统视觉问题,也可以应用于需要外部知识的视觉问题,且在模型训练过程中不需要额外的强监督信息,具有较高的适用性,在多个基准数据集上可取得更优的视觉问题准确率。

Description

基于外部知识聚合的视觉问答方法及系统
技术领域
本发明涉及计算机视觉问答技术领域,特别涉及一种基于外部知识聚合的视觉问答方法及系统。
背景技术
如图1所示,视觉问答任务指的是:给定一张图片和其对应的自然语言描述的问题,如何利用图片中的信息,得到问题的正确答案。在实际场景中,除了图片信息以外,往往需要同时引入外部的常识知识来辅助回答视觉问题。
现有的视觉问答方法大部分仅仅依据图像和问题文本的内容本身,目前在视觉问答中引入外部知识图谱的相关工作较有限。依据外部知识图谱的融合程度划分,目前的研究中主要有三类相关方法:
(1)基于深度神经网络和联合嵌入的传统模型。这类方法使用深度神经网络得到图片表征和问题文本表征,并将两种表征进行联合嵌入以融合图片和问题文本。这类方法没有引入外部知识,难以适应需要外部知识的问答场景。
(2)在知识图谱上进行显式推理的视觉问答模型。这类方法将图片表达为符号化形式,损失了丰富的视觉信息,并且推理过程依赖于预先定义的模板,因此具有很大局限性。
(3)在知识图谱上进行信息检索的模型。这类方法使用信息检索的相关技术,仅适用于视觉问题和某一条外部知识明确相关的问答场景,在训练模型时除了正确答案的标注外,还需要提供候选的外部知识集合以及额外的强监督信息(例如某条明确相关的外部知识的标注)。
例如,相关技术Narasimhan M,Schwing A G.Straight to the facts:Learningknowledge base retrieval for factual visual question answering[C]//Proceedings of the European Conference on Computer Vision(ECCV).2018:451-468,该方法中使用的外部知识库是基于特定环境构造的,规模有限,不需要进行知识子图抽取;将外部知识库中的每一条知识单独考虑,没有利用图的结构特性进行知识聚合;是一个在知识图谱上进行信息检索的模型,无法和传统的视觉问答系统相结合,并且在训练时需要额外的监督信息。
综上可知,现有融合外部知识图谱的视觉问答方法适用性较差,难以应用在问题复杂多样的开放场景中。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于外部知识聚合的视觉问答方法,该方法不需要额外的强监督信息,具有较高的适用性,在多个基准数据集上可取得更优的视觉问题准确率。
本发明的另一个目的在于提出一种基于外部知识聚合的视觉问答系统。
为达到上述目的,本发明一方面实施例提出了基于外部知识聚合的视觉问答方法,包括以下步骤:在外部知识图谱中抽取预设问答情景的知识图谱子图;在所述知识图谱子图上进行知识聚合,得到知识实体表征;将所述知识实体表征与基于联合嵌入的视觉问答系统进行有机融合,输出问题答案。
本发明实施例的基于外部知识聚合的视觉问答方法,引入外部知识图谱,使得视觉问答系统具备利用外部知识回答视觉问题的能力,可应用于传统视觉问题,也可以应用于需要外部知识的视觉问题,且在模型训练过程中不需要额外的强监督信息,具有较高的适用性,且在多个基准数据集上取得了更优的视觉问答准确率。
另外,根据本发明上述实施例的基于外部知识聚合的视觉问答方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述外部知识图谱是以图结构表达的知识库,其中,所述知识图谱包括点和边,所述点为现实世界的事物实体,所述边表示事物实体之间的关系。
进一步地,在本发明的一个实施例中,采用图卷积模型,将所述知识图谱子图中的有效信息融入至知识实体中,形成高维向量的知识实体表征。
进一步地,在本发明的一个实施例中,所述知识实体表征包括情景相关实体表征,目标答案实体表征和情景-答案关联表征。
进一步地,在本发明的一个实施例中,所述将所述知识实体表征与基于联合嵌入的视觉问答系统进行有机融合,输出问题答案,包括:将所述知识实体表征作为所述基于联合嵌入的视觉问答系统中问题文本特征的补充,并有机融合至所述基于联合嵌入的视觉问答系统中得到融合表征;对所述融合表征进行分类,得到并输出所述问题答案。
为达到上述目的,本发明另一方面实施例提出了基于外部知识聚合的视觉问答系统,包括:抽取模块,用于在外部知识图谱中抽取预设问答情景的知识图谱子图;知识聚合模块,用于在所述知识图谱子图上进行知识聚合,得到知识实体表征;有机融合模块,用于将所述知识实体表征与基于联合嵌入的视觉问答系统进行有机融合,输出问题答案。
本发明实施例的基于外部知识聚合的视觉问答系统,引入外部知识图谱,使得视觉问答系统具备利用外部知识回答视觉问题的能力,可应用于传统视觉问题,也可以应用于需要外部知识的视觉问题,且在模型训练过程中不需要额外的强监督信息,具有较高的适用性,且在多个基准数据集上取得了更优的视觉问答准确率。
另外,根据本发明上述实施例的基于外部知识聚合的视觉问答系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述外部知识图谱是以图结构表达的知识库,其中,所述知识图谱包括点和边,所述点为现实世界的事物实体,所述边表示事物实体之间的关系。
进一步地,在本发明的一个实施例中,所述知识融合模块中采用图卷积模型,将所述知识图谱子图中的有效信息融入至知识实体中,形成高维向量的知识实体表征。
进一步地,在本发明的一个实施例中,所述知识实体表征包括情景相关实体表征,目标答案实体表征和情景-答案关联表征。
进一步地,在本发明的一个实施例中,所述有机融合模块包括:
融合单元,用于将所述知识实体表征作为所述基于联合嵌入的视觉问答系统中问题文本特征的补充,并有机融合至所述视觉问答系统中得到融合表征;
分类单元,用于对所述融合表征进行分类,得到并输出所述问题答案。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为传统的视觉问答和需要外部知识的视觉问答的区别示意图;
图2为根据本发明一个实施例的基于外部知识聚合的视觉问答方法流程图;
图3为根据本发明一个实施例的知识图谱结构示意图;
图4为根据本发明一个具体示例的基于外部知识聚合的视觉问答方法执行流程图;
图5为根据本发明一个实施例的基于外部知识聚合的视觉问答系统结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于外部知识聚合的视觉问答方法及系统,首先将参照附图描述根据本发明实施例提出的基于外部知识聚合的视觉问答方法。
图2是本发明一个实施例的基于外部知识聚合的视觉问答方法流程图。
如图2所示,该基于外部知识聚合的视觉问答方法包括以下步骤:
在步骤S201中,在外部知识图谱中抽取预设问答情景的知识图谱子图。
需要说明的是,外部大规模知识图谱相对于视觉问答的情景上下文,数量大、噪声多。本发明实施例通过抽取上下文相关的知识子图,减小了两方面信息的不一致性。
也就是说,根据给定的问答情景(图片和问题文本),从外部大规模知识图谱中抽取上下文相关的知识子图,初步提取有效知识。另外,本发明实施例还在所有的候选答案中抽取一个候选答案知识子图。
进一步地,如图3所示,知识图谱是以图结构表达的知识库,其中,知识图谱包括点和边,点为现实世界的事物实体,边表示事物实体之间的关系。
在步骤S202中,在知识图谱子图上进行知识聚合,得到知识实体表征。
进一步地,在本发明的一个实施例中,采用图卷积模型,将知识图谱子图中的有效信息融入至知识实体中,形成高维向量的知识实体表征。
其中,知识实体表征包括情景相关实体表征,目标答案实体表征和情景-答案关联表征。
可以理解的是,知识图谱采取显式的结构化表征,而视觉信号是隐式的连续表征,这两者难以兼容。故本发明实施例采用图卷积模型,依据给定的问答情景上下文,在知识子图上进行知识聚合,并学习如何将知识子图中的有效信息嵌入到知识实体中形成高维向量的实体表征,进一步从中提取有效知识,进而形成高维向量的实体表征,便于和视觉特征相融合。
并学习如何将知识子图中的有效信息嵌入到知识实体中形成高维向量的实体表征,进一步从中提取有效知识。
在步骤S203中,将知识实体表征与基于联合嵌入的视觉问答系统进行有机融合,输出问题答案。
进一步地,在本发明的一个实施例中,将知识实体表征与基于联合嵌入的视觉问答系统进行有机融合,输出问题答案,包括:
将知识实体表征作为基于联合嵌入的视觉问答系统中问题文本特征的补充,并有机融合至基于联合嵌入的视觉问答系统中得到融合表征;
对融合表征进行分类,得到并输出问题答案。
也就是说,通过联合考虑上下文实体和候选答案实体,把有效的外部知识集中到三个辅助特征(即情景相关实体表征,目标答案实体表征和情景-答案关联表征)上,并将其作为传统视觉问答系统中问题文本特征的补充,有机融合得到融合表征,进而分类融合表征得到问题答案。
可以理解的是,将外部知识融入视觉问答系统中,视觉问答系统可以使得人机交互更加自然,或者为视力受损者提供帮助;拥有常识甚至专业知识的视觉问答系统使得图像理解更加深入,更接近人类对视觉信息的语义认知方式。
下面结合具体示例对本发明的基于外部知识聚合的视觉问答方法做进一步说明。
如图4所示,给定一个图片和一个自然语言描述的问题,例如附图左下角问题:哪种牙齿是由图中的动物命名的?
步骤一,知识子图抽取。
从预设问答情景中提取关键的视觉实体(即图中dog)和问题文本中出现的关键短语(即图中tooth、animal)并关联到外部大规模知识图谱中,抽取一个上下文知识子图,即附图左侧的Context Entities Knowledge Subgraph。与此同时,也根据所有的候选答案抽取出一个候选答案知识子图,即附图右侧的Answer Entities Knowledge Subgraph。
步骤二,知识聚合与实体表征。
在上下文知识子图和候选答案知识子图上,采用图卷积模型进行知识聚合,将知识子图中的信息嵌入到知识实体中(例如tooth、dog、animal等上下文实体,以及候选答案实体),形成高维向量的知识实体表征。在此过程中,显式表征的结构化知识图谱被嵌入到了隐式表征的语义空间中,每一个知识实体被表征为一个高维向量。
步骤三,知识实体表征与视觉问答系统的有机融合。
利用步骤二中得到知识实体表征,将外部知识集中到三个辅助特征(如附图中的彩色方块所示),分别表示情景相关实体表征,目标答案实体表征,以及情景-答案关联表征。三个特征作为文本特征的补充,可以有机融合进传统的基于联合嵌入的视觉问答系统中,最后产生一个统一的融合表征。
步骤四,答案推断。
使用一个分类器,使用步骤三中融合表征在所有候选答案上进行分类,得到最终答案(canine犬齿)。
根据本发明实施例提出的基于外部知识聚合的视觉问答方法,引入外部知识图谱,使得视觉问答系统具备利用外部知识回答视觉问题的能力,可应用于传统视觉问题,也可以应用于需要外部知识的视觉问题,且在模型训练过程中不需要额外的强监督信息,具有较高的适用性,且在多个基准数据集上取得了更优的视觉问答准确率。
其次参照附图描述根据本发明实施例提出的基于外部知识聚合的视觉问答系统。
图5是本发明一个实施例的基于外部知识聚合的视觉问答系统结构示意图。
如图5所示,该装置10包括:抽取模块100、知识聚合模块200和有机融合模块300。
其中,抽取模块100用于在外部知识图谱中抽取预设问答情景的知识图谱子图。
进一步地,在本发明的一个实施例中,外部知识图谱是以图结构表达的知识库,其中,知识图谱包括点和边,点为现实世界的事物实体,边表示事物实体之间的关系。
知识聚合模块200用于在知识图谱子图上进行知识聚合,得到知识实体表征。
进一步地,在本发明的一个实施例中,知识融合模块中采用图卷积模型,将知识图谱子图中的有效信息融入至知识实体中,形成高维向量的知识实体表征。其中,知识实体表征包括情景相关实体表征,目标答案实体表征和情景-答案关联表征。
有机融合模块300用于将知识实体表征与基于联合嵌入的视觉问答系统进行有机融合,输出问题答案。
进一步地,在本发明的一个实施例中,有机融合模块包括:
融合单元,用于将知识实体表征作为基于联合嵌入的视觉问答系统中问题文本特征的补充,并有机融合至视觉问答系统中得到融合表征;
分类单元,用于对融合表征进行分类,得到并输出问题答案。
根据本发明实施例提出的基于外部知识聚合的视觉问答系统,引入外部知识图谱,使得视觉问答系统具备利用外部知识回答视觉问题的能力,可应用于传统视觉问题,也可以应用于需要外部知识的视觉问题,且在模型训练过程中不需要额外的强监督信息,具有较高的适用性,且在多个基准数据集上取得了更优的视觉问答准确率。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于外部知识聚合的视觉问答方法,其特征在于,包括以下步骤:
在外部知识图谱中抽取预设问答情景的知识图谱子图;
在所述知识图谱子图上进行知识聚合,得到知识实体表征;
将所述知识实体表征与基于联合嵌入的视觉问答系统进行有机融合,输出问题答案。
2.根据权利要求1中所述的基于外部知识聚合的视觉问答方法,其特征在于,所述外部知识图谱是以图结构表达的知识库,其中,所述知识图谱包括点和边,所述点为现实世界的事物实体,所述边表示事物实体之间的关系。
3.根据权利要求1中所述的基于外部知识聚合的视觉问答方法,其特征在于,采用图卷积模型,将所述知识图谱子图中的有效信息融入至知识实体中,形成高维向量的知识实体表征。
4.根据权利要求3中所述的基于外部知识聚合的视觉问答方法,其特征在于,所述知识实体表征包括情景相关实体表征,目标答案实体表征和情景-答案关联表征。
5.根据权利要求1中所述的基于外部知识聚合的视觉问答方法,其特征在于,所述将所述知识实体表征与基于联合嵌入的视觉问答系统进行有机融合,输出问题答案,包括:
将所述知识实体表征作为所述基于联合嵌入的视觉问答系统中问题文本特征的补充,并有机融合至所述基于联合嵌入的视觉问答系统中得到融合表征;
对所述融合表征进行分类,得到并输出所述问题答案。
6.一种基于外部知识聚合的视觉问答系统,其特征在于,包括:
抽取模块,用于在外部知识图谱中抽取预设问答情景的知识图谱子图;
知识聚合模块,用于在所述知识图谱子图上进行知识聚合,得到知识实体表征;
有机融合模块,用于将所述知识实体表征与基于联合嵌入的视觉问答系统进行有机融合,输出问题答案。
7.根据权利要求6中所述的基于外部知识聚合的视觉问答系统,其特征在于,所述外部知识图谱是以图结构表达的知识库,其中,所述知识图谱包括点和边,所述点为现实世界的事物实体,所述边表示事物实体之间的关系。
8.根据权利要求6中所述的基于外部知识聚合的视觉问答系统,其特征在于,所述知识融合模块中采用图卷积模型,将所述知识图谱子图中的有效信息融入至知识实体中,形成高维向量的知识实体表征。
9.根据权利要求8中所述的基于外部知识聚合的视觉问答系统,其特征在于,所述知识实体表征包括情景相关实体表征,目标答案实体表征和情景-答案关联表征。
10.根据权利要求6中所述的基于外部知识聚合的视觉问答系统,其特征在于,所述有机融合模块包括:
融合单元,用于将所述知识实体表征作为所述基于联合嵌入的视觉问答系统中问题文本特征的补充,并有机融合至所述视觉问答系统中得到融合表征;
分类单元,用于对所述融合表征进行分类,得到并输出所述问题答案。
CN202010176844.7A 2020-03-13 2020-03-13 基于外部知识聚合的视觉问答方法及系统 Active CN111475656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010176844.7A CN111475656B (zh) 2020-03-13 2020-03-13 基于外部知识聚合的视觉问答方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010176844.7A CN111475656B (zh) 2020-03-13 2020-03-13 基于外部知识聚合的视觉问答方法及系统

Publications (2)

Publication Number Publication Date
CN111475656A true CN111475656A (zh) 2020-07-31
CN111475656B CN111475656B (zh) 2023-06-30

Family

ID=71748194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010176844.7A Active CN111475656B (zh) 2020-03-13 2020-03-13 基于外部知识聚合的视觉问答方法及系统

Country Status (1)

Country Link
CN (1) CN111475656B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069325A (zh) * 2020-09-01 2020-12-11 张富平 基于区块链离线支付的大数据处理方法及云服务推送平台
CN113240046A (zh) * 2021-06-02 2021-08-10 哈尔滨工程大学 一种基于知识的视觉问答任务下的多模态信息融合方法
CN113297360A (zh) * 2021-04-29 2021-08-24 天津汇智星源信息技术有限公司 基于弱监督学习和联合学习机制的法律问答方法及设备
CN113779434A (zh) * 2021-09-16 2021-12-10 北京搜狗科技发展有限公司 一种搜索结果展示方法、装置和用于搜索结果展示的装置
CN115618045A (zh) * 2022-12-16 2023-01-17 华南理工大学 一种视觉问答方法、装置及存储介质
CN116401390A (zh) * 2023-05-19 2023-07-07 中国科学技术大学 一种视觉问答处理方法、系统、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920587A (zh) * 2018-06-26 2018-11-30 清华大学 融合外部知识的开放域视觉问答方法及装置
CN110163299A (zh) * 2019-05-31 2019-08-23 合肥工业大学 一种基于自底向上注意力机制和记忆网络的视觉问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MEDHINI NARASIMHAN等: ""Out of the Box: Reasoning with Graph Convolution Nets for Factual Visual Question Answering"", 《32ND CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069325A (zh) * 2020-09-01 2020-12-11 张富平 基于区块链离线支付的大数据处理方法及云服务推送平台
CN112069325B (zh) * 2020-09-01 2021-03-23 云账户技术(天津)有限公司 基于区块链离线支付的大数据处理方法及云服务推送平台
CN113297360A (zh) * 2021-04-29 2021-08-24 天津汇智星源信息技术有限公司 基于弱监督学习和联合学习机制的法律问答方法及设备
CN113240046A (zh) * 2021-06-02 2021-08-10 哈尔滨工程大学 一种基于知识的视觉问答任务下的多模态信息融合方法
CN113779434A (zh) * 2021-09-16 2021-12-10 北京搜狗科技发展有限公司 一种搜索结果展示方法、装置和用于搜索结果展示的装置
CN115618045A (zh) * 2022-12-16 2023-01-17 华南理工大学 一种视觉问答方法、装置及存储介质
CN116401390A (zh) * 2023-05-19 2023-07-07 中国科学技术大学 一种视觉问答处理方法、系统、存储介质及电子设备
CN116401390B (zh) * 2023-05-19 2023-10-20 中国科学技术大学 一种视觉问答处理方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN111475656B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN111475656A (zh) 基于外部知识聚合的视觉问答方法及系统
CN112016476B (zh) 由目标检测引导的复杂交通视觉显著性预测方法及系统
CN110111236B (zh) 基于渐进式对抗生成网络的多目标草图生成图像的方法
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN102436583B (zh) 基于对标注图像学习的图像分割方法
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN110598573A (zh) 一种基于多域异质图引导的视觉问题常识推理模型及方法
CN112036276B (zh) 一种人工智能视频问答方法
CN109849576B (zh) 一种参考灰度图辅助绘画的方法
CN111967272A (zh) 基于语义对齐的视觉对话生成系统
CN117196042B (zh) 一种教育元宇宙中学习目标的语义推理方法及终端
CN115131753A (zh) 一种自动驾驶场景下的异构多任务协同系统
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
Khurram et al. Dense-captionnet: a sentence generation architecture for fine-grained description of image semantics
CN118379755A (zh) 多模态数据异常识别方法、装置、电子设备及存储介质
CN115131801A (zh) 基于多模态的文档识别方法、装置、设备和存储介质
CN117636326A (zh) 车牌检测方法、装置、存储介质和电子设备
CN117152777A (zh) 一种图像生成方法、装置、电子设备及存储介质
CN116939288A (zh) 视频生成方法及其装置、计算机设备
CN111008295A (zh) 书页检索方法、装置、电子设备和存储介质
CN116485943A (zh) 图像生成方法、电子设备及存储介质
CN115661830A (zh) 基于结构化多模态融合网络的文本指导图像分割方法
CN116524207A (zh) 基于边缘检测辅助的弱监督rgbd图像显著性检测方法
CN114238587A (zh) 阅读理解方法、装置、存储介质及计算机设备
CN113761109A (zh) 一种问答库构建方法以及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant