CN110110043A - 一种多跳视觉问题推理模型及其推理方法 - Google Patents

一种多跳视觉问题推理模型及其推理方法 Download PDF

Info

Publication number
CN110110043A
CN110110043A CN201910290520.3A CN201910290520A CN110110043A CN 110110043 A CN110110043 A CN 110110043A CN 201910290520 A CN201910290520 A CN 201910290520A CN 110110043 A CN110110043 A CN 110110043A
Authority
CN
China
Prior art keywords
hop
knowledge
reasoning
tree
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910290520.3A
Other languages
English (en)
Other versions
CN110110043B (zh
Inventor
林倞
李百林
王青
李冠彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201910290520.3A priority Critical patent/CN110110043B/zh
Publication of CN110110043A publication Critical patent/CN110110043A/zh
Application granted granted Critical
Publication of CN110110043B publication Critical patent/CN110110043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多跳视觉问题推理模型及其推理方法,所述模型包括:多跳视觉问题推理数据集建立单元,用于通过将场景图和知识库相融合成知识图,利用知识图构造包含多跳知识推理问答对的数据集;卷积神经网络,用于提取输入图像的图像特征;长短期记忆网络,用于提取问题特征;知识路由模块化网络,用于将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。

Description

一种多跳视觉问题推理模型及其推理方法
技术领域
本发明涉及视觉问题回答、自然语言处理、图像识别和深度学习领域,特别是涉及一种多跳视觉问题推理模型及其推理方法。
背景技术
目前的视觉问答问题往往只要求回答问题的答案,而视觉问答的终极目标要求我们得到的是一个能够理解任何推理复杂度的问题(例如单跳推理或多跳推理),同时给予可解释的诊断结果,以提高模型的可信度。一个理想的模型在回答“这个女孩手上拿的东西有什么用?”时,应该要能够理解问题中的内在实体关系,将实体与图像中视觉依据的关联起来,通过提取关键物体最可能需要的关系或属性来给出回答。
现有的自然图像场景视觉问答数据集通常包含相对简单的问题,且仅评估最终的答案预测的准确性,缺乏对中间推理结果的评估以及关于系统能力的可解释的理由。此外,人类标注的问题和答案之间往往有着很强的相关性,这使得端到端网络能够通过自然地利用数据集偏差而不是对图像和问题进行共同推理来实现高性能。最近有一些工作通过平衡问答对来解决这个问题,CLEVR提出了一个合成数据集,其中基于给定的组成布局生成图像和问答对,然而,在图像特征图和问题编码之间融合的常规神经网络仍然正确地回答了这些复杂和组合问题,仍然很难诊断出神经网络学到了什么以及如何获得正确的答案。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种多跳视觉问题推理模型及其推理方法,以实现对视觉问题进行多跳推理并作出回答和答题依据。
为达上述目的,本发明提出一种多跳视觉问题推理模型,包括:
多跳视觉问题推理数据集建立单元,用于通过将场景图和知识库相融合成知识图,利用知识图构造包含多跳知识推理问答对的数据集;
卷积神经网络,用于提取输入图像的图像特征;
长短期记忆网络,用于提取问题特征;
知识路由模块化网络,用于将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。
优选地,所述数据集基于自然图像场景图和外部知识库提取到的一或两个事实三元组,构造复杂问题的问题-答案对。
优选地,所述多跳视觉问题推理数据集建立单元根据场景图标注和知识库,选取若干事实三元组,对问答模板填空,生成问题,并生成相应的答案及推理中间过程标注。
优选地,所述多跳视觉问题推理数据集建立单元通过问题对应的三元组来诊断模型的可解释性,并要求模型在给出问题的答案时,同时给出对应的依据,通过衡量三元组的准确率或召回率量化模型的可解释性。
优选地,所述知识路由模块化网络进一步包括:
查询树生成网络,用于将问题解析为查询树,用以指导树形神经模块化网络的拓扑结构;
树形模块化神经网络,由查询树指导生成,其根结点所对应的模块最后接入一个多层感知机,从图片和知识库中提取出视觉依据或知识,最后将这些提取到的信息整合下通过多跳推理得到最终答案;
多层感知机,用于获取所述树形模块化神经网络的输出,多层感知处理后得到整个问题的答案。
优选地,所述查询树生成网络为一个序列到序列的循环神经网络,由一个编码器循环神经网络和一个解码器循环神经网络构成,所述编码器每次读入问题的一个单词,取最后一步的循环神经网络输出作为问题向量编码,然后用一个解码器神经网络生成查询语句,每一步的输入都是问题向量编码,输出是查询语句的一个字符,最后再用一个移入-规约语法解析器将查询语句转化为查询树。
优选地,所述树形模块化神经网络由若干个模块化神经网络构成,每个模块化神经网络为视觉推理模块或知识推理模块。
优选地,所述视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成,所述知识推理模块是一个基于规则的简单知识提取模块。
为达到上述目的,本发明还提供一种多跳视觉问题推理模型的推理方法,包括如下步骤:
步骤S1,建立多跳视觉问题推理模型,构造由学习得到的查询树指导生成的神经网络模型;
步骤S2,提取输入图像的图像特征,并提取问题特征;
步骤S3,将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。
优选地,于步骤S1中,还包括对所述视觉推理模型学习的步骤,对所述所述视觉推理模型学习使用反向传播算法,其步骤包括:
通过大量的文本数据来预训练查询树的拓扑结构;
通过大量的视觉问题推理数据,使用反向传播算法迭代训练卷积神经网络、长短期记忆网络层、树形模块化神经网络以及多层感知机的模型参数,直到收敛。
与现有技术相比,本发明一种多跳视觉问题推理模型及其推理方法首先通过查询树生成器将问题解析为查询树,用以指导树形神经模块化网络的拓扑结构,而模块化网络的每个模块将从图片和知识库中提取出视觉依据或知识,最后这些提取到的信息将在树形模块化网络的整合下推理得到最终答案,实现了对视觉问题进行多跳推理并作出回答和答题依据。
附图说明
图1为本发明一种多跳视觉问题推理模型的结构示意图;
图2为本发明具体实施例多跳视觉问题推理模型的结构示意图;
图3为本发明具体实施例多跳视觉推理数据集示意图;
图4为本发明一种多跳视觉问题推理模型的推理方法的步骤流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种多跳视觉问题推理模型的结构示意图,图2为本发明具体实施例多跳视觉问题推理模型的结构示意图。如图1及图2所示,本发明一种多跳视觉问题推理模型,包括:
多跳视觉问题推理数据集建立单元10,用于通过将场景图和知识库相融合成知识图,利用知识图构造包含多跳知识推理问答对的数据集。
本发明提出一种高阶的视觉推理数据集(HVQR),以鼓励视觉推理模型学习如何识别图像中的视觉物体,再将其与知识库内最相关的知识结合起来,并给出可解释性的推理过程和回答,受到合成数据集CLEVR的启发,本发明的数据集基于自然图像场景图和外部知识库提取到的一或两个事实三元组,构造复杂问题的问题-答案对。此外,本发明还限制了知识库中三元组出现的频率以防止黑盒模型记住问答对与知识三元组的相关关系。因此,该数据集可以强迫模型在未见过的问题上进行多跳推理,评测推理中间过程,以鼓励泛化能力。对于给定的衣服图像,首先将其场景图和公共知识库融合,产生一个针对该图像的知识图,然后在知识图中提取一条路径,并用模板生成多跳推理问题。如图3所示为本发明具体实施例中数据集的问答对的例子示意图。
具体地,对于每张图片,多跳视觉问题推理数据集建立单元10首先将场景图和知识库相融合成知识图,然后在知识图中随机采样若干个相连的三元组如“(A,R1,B)-(B,R2,C)”并使用人为设定的模板将它们转换为文本问答对。考虑到生成的问答对的语义合理性以及答案的唯一性,利用特定的程序过滤掉一些无效的问答对,同时,为了增加问题的语言丰富性,对问题中的一些词则采用同义词进行随机替换。注意到随机采样可能会带来数据偏差,影响模型的泛化性,本发明给问题增加了更多的限制以提高数据集的挑战性。为了防止答案分布过于集中,限定每个答案最多出现不超过100次。为了防止模型简单记住知识库中的三元组,限定数据集中问题用到的三元组同一个不超过一次。该数据集同时提供一种类似SQL的结构化查询语句在自然图像上进行查询。一个元问题可以被映射成元查询,相应的,元问题的组合可以被映射成元查询的组合。在生成问题的同时,查询树将通过模板一并生成。异于以往的数据集,本发明可以通过问题对应的三元组来诊断模型的可解释性。本发明还提出了一种度量方式,要求模型在给出问题的答案时,同时给出对应的依据(支撑这个答案的三元组),通过衡量三元组的准确率或召回率可以量化模型的可解释性。
卷积神经网络20,用于提取输入图像的图像特征。
长短期记忆网络30,用于提取问题特征q,例如对于问题“小男孩与图中1948年发明出来的东西之间是什么关系”提取问题特征。
知识路由模块化网络(KM-net)40,为一个能够显式地将多跳推理融合进端到端的神经网络,用于将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。
具体地,知识路由模块化网络40进一步包括:
查询树生成网络401,用于将问题解析为查询树,用以指导树形神经模块化网络的拓扑结构。
在本发明具体实施例中,查询树生成网络401为查询生成器,其为一个序列到序列的循环神经网络,由一个编码器循环神经网络和一个解码器循环神经网络构成。编码器每次读入问题的一个单词,取最后一步的循环神经网络输出作为问题向量编码,然后用一个解码器神经网络生成查询语句,如(Qab_I,男孩,(Qrb_K,发明年份,1948)),每一步的输入都是问题向量编码,输出是查询语句的一个字符,最后再用一个移入-规约语法解析器将查询语句转化为查询树。
树形模块化神经网络402,由查询树指导生成,其根结点所对应的模块最后接入一个多层感知机,从图片和知识库中提取出视觉依据或知识,最后将这些提取到的信息整合下通过多跳推理得到最终答案。
在本发明具体实施例中,树形模块化神经网络402由若干个模块神经网络构成,每个模块化网络,可以是视觉推理模块,也可以是知识推理模块。视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成。知识推理模块是一个基于规则的简单知识提取模块。
具体地,树形模块化神经网络402是一种由若干个小神经网络模块组合而成的神经网络,其拓扑结构由查询树指导生成,每个模块对应查询树中的一个查询结点,它读入两个输入向量eleft和eright,并在提取图像或知识库中的信息,进行单步推理,每一步的输出将提供给父亲结点作为父亲结点的输入,进行下一步的推理,对于根结点的模块输出将会输入一个多层感知机,得到最终的答案分类,对于每个模块,它可以是视觉推理模块或知识推理模块,视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成,知识推理模块是一个基于规则的简单知识提取模块,具体由查询树上对应的结点来决定。
具体地,知识推理模块会读入两个来自子模块的输入向量eleft和eright,首先在实体词典中查询,将其分别转化为对应的实体名sleft和sright,然后在知识库中根据对应元查询规则提取答案向量eout
视觉推理模块,每次也是读入向量eleft和eright,在图像中进行问题-图像的协同推理,具体过程如下(由于对eleft和eright的处理是对称的,以下只介绍eleft示例):
其中⊙代表逐元素乘法WH和WG都是可学习的转换矩阵,E代表该数据集的实体向量查询表,q是长短期记忆网络提取得到的问题特征,V是卷积神经网络提取得到的图像特征。那么,mright也可以根据eright用上述方式得到。最后,我们将mleft、mright以及查询向量u并联起来输入一个两层的多层感知机得到输出向量eout,作为模块的输出。
多层感知机403,用于获取树形模块化神经网络403的输出,多层感知处理后得到整个问题的答案。具体地,将树形模块化神经网络402根结点对应的模块输出,通过该多层感知机得到整个问题的答案。
图4为本发明一种多跳视觉问题推理模型的推理方法的步骤流程图。如图4所示,本发明一种多跳视觉问题推理模型的推理方法,包括如下步骤:
步骤S1,建立多跳视觉问题推理模型,构造由学习得到的查询树指导生成的神经网络模型。在本发明具体实施例中,所述多跳视觉问题推理模型由一个查询树生成网络、卷积神经网络、长短期记忆网络、一个树形模块化神经网络和一个多层感知机构成,其中树形模块化神经网络由查询树指导生成,其根结点所对应的模块最后接入一个多层感知机,查询树生成网络是一个序列到序列的循环神经网络,分为编码器和解码器两部分,编码器是一个长短期记忆网络,解码器是一个长短期记忆网络,树形模块化神经网络部分由若干个模块神经网络构成,每个模块化网络,可以是视觉推理模块,也可以是知识推理模块。视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成,知识推理模块是一个基于规则的简单知识提取模块。
步骤S2,提取输入图像的图像特征,并提取问题特征q。
步骤S3,将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。
具体地,步骤S3进一步包括:
步骤S300,利用查询树生成器将问题解析为查询树,用以指导树形神经模块化网络的拓扑结构。
在本发明具体实施例中,查询生成器为一个序列到序列的循环神经网络,由一个编码器循环神经网络和一个解码器循环神经网络构成。编码器每次读入问题的一个单词,取最后一步的循环神经网络输出作为问题向量编码,然后用一个解码器神经网络生成查询语句,每一步的输入都是问题向量编码,输出是查询语句的一个字符,最后再用一个移入-规约语法解析器将查询语句转化为查询树。
步骤S301,由查询树指导生成树形模块化神经网络,从图片和知识库中提取出视觉依据或知识,最后将这些提取到的信息整合下通过多跳推理得到最终答案。
在本发明具体实施例中,树形模块化神经网络由若干个模块神经网络构成,每个模块化网络,可以是视觉推理模块,也可以是知识推理模块。视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成。知识推理模块是一个基于规则的简单知识提取模块。
具体地,树形模块化神经网络是一种由若干个小神经网络模块组合而成的神经网络,其拓扑结构由查询树指导生成,每个模块对应查询树中的一个查询结点,它读入两个输入向量eleft和eright,并在提取图像或知识库中的信息,进行单步推理,每一步的输出将提供给父亲结点作为父亲结点的输入,进行下一步的推理,对于根结点的模块输出将会输入一个多层感知机,得到最终的答案分类,对于每个模块,它可以是视觉推理模块或知识推理模块,视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成,知识推理模块是一个基于规则的简单知识提取模块,具体由查询树上对应的结点来决定。
具体地,知识推理模块会读入两个来自子模块的输入向量eleft和eright,首先在实体词典中查询,将其分别转化为对应的实体名sleft和sright,然后在知识库中根据对应元查询规则提取答案向量eout
视觉推理模块,每次也是读入向量eleft和eright,在图像中进行问题-图像的协同推理,具体过程如下(由于对eleft和eright的处理是对称的,以下只介绍eleft示例):
其中⊙代表逐元素乘法WH和WG都是可学习的转换矩阵,E代表该数据集的实体向量查询表,q是长短期记忆网络提取得到的问题特征,V是卷积神经网络提取得到的图像特征。那么,mright也可以根据eright用上述方式得到。最后,我们将mleft、mright以及查询向量u并联起来输入一个两层的多层感知机得到输出向量eout,作为模块的输出。
步骤S302,将所述树形模块化神经网络根结点对应的模块输出,通过一多层感知机得到整个问题的答案。
较佳地,于步骤S1中,还包括对所述视觉推理模型学习的步骤,具体地,对所述所述视觉推理模型学习使用反向传播算法,其步骤包括:
通过大量的文本数据来预训练查询树的拓扑结构;
通过大量的视觉问题推理数据,使用反向传播算法迭代训练卷积神经网络、长短期记忆网络层、树形模块化神经网络以及多层感知机的模型参数,直到收敛。
本发明在各种推理跳数的问题下进行了广泛的实验,并于现有的视觉问答数据集和目前最先进的视觉问答方法进行比较。实验表明,传统的端到端模型在需要外部只是进行推理的问题上往往表现较差,而本发明的知识路由模块化网络在所建立的数据集上优于所有目前最先进的视觉问答模型,同时,本发明运用可解释性的评价指标,证明了本发明提出的模型具有较强的显式推理能力。
综上所述,本发明一种多跳视觉问题推理模型及其推理方法首先通过查询树生成器将问题解析为查询树,用以指导树形神经模块化网络的拓扑结构,而模块化网络的每个模块将从图片和知识库中提取出视觉依据或知识,最后这些提取到的信息将在树形模块化网络的整合下推理得到最终答案,实现了对视觉问题进行多跳推理并作出回答和答题依据。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种多跳视觉问题推理模型,包括:
多跳视觉问题推理数据集建立单元,用于通过将场景图和知识库相融合成知识图,利用知识图构造包含多跳知识推理问答对的数据集;
卷积神经网络,用于提取输入图像的图像特征;
长短期记忆网络,用于提取问题特征;
知识路由模块化网络,用于将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。
2.如权利要求1所述的一种多跳视觉问题推理模型,其特征在于:所述数据集基于自然图像场景图和外部知识库提取到的一或两个事实三元组,构造复杂问题的问题-答案对。
3.如权利要求2所述的一种多跳视觉问题推理模型,其特征在于:所述多跳视觉问题推理数据集建立单元根据场景图标注和知识库,选取若干事实三元组,对问答模板填空,生成问题,并生成相应的答案及推理中间过程标注。
4.如权利要求3所述的一种多跳视觉问题推理模型,其特征在于:所述多跳视觉问题推理数据集建立单元通过问题对应的三元组来诊断模型的可解释性,并要求模型在给出问题的答案时,同时给出对应的依据,通过衡量三元组的准确率或召回率量化模型的可解释性。
5.如权利要求4所述的一种多跳视觉问题推理模型,其特征在于:所述知识路由模块化网络进一步包括:
查询树生成网络,用于将问题解析为查询树,用以指导树形神经模块化网络的拓扑结构;
树形模块化神经网络,由查询树指导生成,其根结点所对应的模块最后接入一个多层感知机,从图片和知识库中提取出视觉依据或知识,最后将这些提取到的信息整合下通过多跳推理得到最终答案;
多层感知机,用于获取所述树形模块化神经网络的输出,多层感知处理后得到整个问题的答案。
6.如权利要求5所述的一种多跳视觉问题推理模型,其特征在于:所述查询树生成网络为一个序列到序列的循环神经网络,由一个编码器循环神经网络和一个解码器循环神经网络构成,所述编码器每次读入问题的一个单词,取最后一步的循环神经网络输出作为问题向量编码,然后用一个解码器神经网络生成查询语句,每一步的输入都是问题向量编码,输出是查询语句的一个字符,最后再用一个移入-规约语法解析器将查询语句转化为查询树。
7.如权利要求6所述的一种多跳视觉问题推理模型,其特征在于:所述树形模块化神经网络由若干个模块化神经网络构成,每个模块化神经网络为视觉推理模块或知识推理模块。
8.如权利要求7所述的一种多跳视觉问题推理模型,其特征在于:所述视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成,所述知识推理模块是一个基于规则的简单知识提取模块。
9.一种多跳视觉问题推理模型的推理方法,包括如下步骤:
步骤S1,建立多跳视觉问题推理模型,构造由学习得到的查询树指导生成的神经网络模型;
步骤S2,提取输入图像的图像特征,并提取问题特征;
步骤S3,将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。
10.如权利要求9所述的一种多跳视觉问题推理模型的推理方法,其特征在于,于步骤S1中,还包括对所述视觉推理模型学习的步骤,对所述所述视觉推理模型学习使用反向传播算法,其步骤包括:
通过大量的文本数据来预训练查询树的拓扑结构;
通过大量的视觉问题推理数据,使用反向传播算法迭代训练卷积神经网络、长短期记忆网络层、树形模块化神经网络以及多层感知机的模型参数,直到收敛。
CN201910290520.3A 2019-04-11 2019-04-11 一种多跳视觉问题推理模型及其推理方法 Active CN110110043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910290520.3A CN110110043B (zh) 2019-04-11 2019-04-11 一种多跳视觉问题推理模型及其推理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910290520.3A CN110110043B (zh) 2019-04-11 2019-04-11 一种多跳视觉问题推理模型及其推理方法

Publications (2)

Publication Number Publication Date
CN110110043A true CN110110043A (zh) 2019-08-09
CN110110043B CN110110043B (zh) 2023-04-11

Family

ID=67484141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910290520.3A Active CN110110043B (zh) 2019-04-11 2019-04-11 一种多跳视觉问题推理模型及其推理方法

Country Status (1)

Country Link
CN (1) CN110110043B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516791A (zh) * 2019-08-20 2019-11-29 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
CN111126610A (zh) * 2019-12-12 2020-05-08 科大讯飞股份有限公司 题目分析方法、装置、电子设备和存储介质
CN111325347A (zh) * 2020-02-19 2020-06-23 山东大学 基于可解释视觉推理模型的危险预警描述自动生成方法
CN111475636A (zh) * 2020-06-24 2020-07-31 北京金山数字娱乐科技有限公司 信息提取方法和装置、设备及存储介质
CN111611367A (zh) * 2020-05-21 2020-09-01 拾音智能科技有限公司 一种引入外部知识的视觉问答方法
CN111666395A (zh) * 2020-05-18 2020-09-15 扬州大学 面向软件缺陷的可解释问答方法、装置、计算机设备和存储介质
CN111814982A (zh) * 2020-07-15 2020-10-23 四川大学 面向多跳问答的动态推理网络及方法
CN112052953A (zh) * 2020-07-21 2020-12-08 清华大学 用于神经推理系统的可嵌入级连逻辑系统及其推理方法
WO2021056733A1 (zh) * 2019-09-23 2021-04-01 苏州车付通信息科技有限公司 智能逻辑分析系统
WO2021113467A1 (en) * 2019-12-06 2021-06-10 Nec Laboratories America, Inc. Generating followup questions for interpretable recursive multi-hop question answering
CN113076743A (zh) * 2021-03-30 2021-07-06 太原理工大学 一种基于网络结构和表示学习的知识图多跳推理方法
CN113223018A (zh) * 2021-05-21 2021-08-06 信雅达科技股份有限公司 细粒度图像分析处理方法
CN113282720A (zh) * 2020-02-20 2021-08-20 清华大学 视觉推理方法和装置
CN113360624A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 训练方法、应答方法、装置、电子设备以及存储介质
CN113590782A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 推理模型的训练方法、推理方法及装置
EP3920048A1 (en) * 2020-06-02 2021-12-08 Siemens Aktiengesellschaft Method and system for automated visual question answering
CN113779220A (zh) * 2021-09-13 2021-12-10 内蒙古工业大学 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
JP7466760B2 (ja) 2020-09-28 2024-04-12 エヌイーシー ラボラトリーズ アメリカ インク 時空間推論および位置特定のためのマルチホップトランスフォーマー
CN117892140A (zh) * 2024-03-15 2024-04-16 浪潮电子信息产业股份有限公司 视觉问答及其模型训练方法、装置、电子设备、存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050001720A1 (en) * 2002-07-02 2005-01-06 Charles Mason Emergency response personnel automated accountability system
WO2011133209A2 (en) * 2010-04-23 2011-10-27 Thomson Licensing Method and system for providing recommendations in a social network
US20140337306A1 (en) * 2012-01-05 2014-11-13 Ruggero Gramatica Information network with linked information nodes
CN106686685A (zh) * 2016-12-21 2017-05-17 中国电子科技集团公司第三十研究所 多跳移动无线自组织网络拓扑快速发现方法
CN106816054A (zh) * 2017-03-29 2017-06-09 北京光年无限科技有限公司 用于智能机器人的交互教学方法及终端
CN108763567A (zh) * 2018-06-05 2018-11-06 北京玄科技有限公司 应用于智能机器人交互的知识推理方法及装置
CN109063100A (zh) * 2018-07-27 2018-12-21 联想(北京)有限公司 一种数据处理方法、服务器及电子设备
CN109086892A (zh) * 2018-06-15 2018-12-25 中山大学 一种基于一般依赖树的视觉问题推理模型及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050001720A1 (en) * 2002-07-02 2005-01-06 Charles Mason Emergency response personnel automated accountability system
WO2011133209A2 (en) * 2010-04-23 2011-10-27 Thomson Licensing Method and system for providing recommendations in a social network
US20140337306A1 (en) * 2012-01-05 2014-11-13 Ruggero Gramatica Information network with linked information nodes
CN106686685A (zh) * 2016-12-21 2017-05-17 中国电子科技集团公司第三十研究所 多跳移动无线自组织网络拓扑快速发现方法
CN106816054A (zh) * 2017-03-29 2017-06-09 北京光年无限科技有限公司 用于智能机器人的交互教学方法及终端
CN108763567A (zh) * 2018-06-05 2018-11-06 北京玄科技有限公司 应用于智能机器人交互的知识推理方法及装置
CN109086892A (zh) * 2018-06-15 2018-12-25 中山大学 一种基于一般依赖树的视觉问题推理模型及系统
CN109063100A (zh) * 2018-07-27 2018-12-21 联想(北京)有限公司 一种数据处理方法、服务器及电子设备

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516791A (zh) * 2019-08-20 2019-11-29 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
WO2021056733A1 (zh) * 2019-09-23 2021-04-01 苏州车付通信息科技有限公司 智能逻辑分析系统
WO2021113467A1 (en) * 2019-12-06 2021-06-10 Nec Laboratories America, Inc. Generating followup questions for interpretable recursive multi-hop question answering
CN111126610A (zh) * 2019-12-12 2020-05-08 科大讯飞股份有限公司 题目分析方法、装置、电子设备和存储介质
CN111126610B (zh) * 2019-12-12 2023-12-01 科大讯飞股份有限公司 题目分析方法、装置、电子设备和存储介质
CN111325347A (zh) * 2020-02-19 2020-06-23 山东大学 基于可解释视觉推理模型的危险预警描述自动生成方法
CN111325347B (zh) * 2020-02-19 2023-04-11 山东大学 基于可解释视觉推理模型的危险预警描述自动生成方法
CN113282720A (zh) * 2020-02-20 2021-08-20 清华大学 视觉推理方法和装置
CN111666395A (zh) * 2020-05-18 2020-09-15 扬州大学 面向软件缺陷的可解释问答方法、装置、计算机设备和存储介质
CN111611367A (zh) * 2020-05-21 2020-09-01 拾音智能科技有限公司 一种引入外部知识的视觉问答方法
CN111611367B (zh) * 2020-05-21 2023-04-28 拾音智能科技有限公司 一种引入外部知识的视觉问答方法
EP3920048A1 (en) * 2020-06-02 2021-12-08 Siemens Aktiengesellschaft Method and system for automated visual question answering
CN111475636A (zh) * 2020-06-24 2020-07-31 北京金山数字娱乐科技有限公司 信息提取方法和装置、设备及存储介质
CN111814982B (zh) * 2020-07-15 2021-03-16 四川大学 面向多跳问答的动态推理网络系统及方法
CN111814982A (zh) * 2020-07-15 2020-10-23 四川大学 面向多跳问答的动态推理网络及方法
CN112052953A (zh) * 2020-07-21 2020-12-08 清华大学 用于神经推理系统的可嵌入级连逻辑系统及其推理方法
CN112052953B (zh) * 2020-07-21 2022-09-09 清华大学 用于神经推理系统的可嵌入级连逻辑系统及其推理方法
JP7466760B2 (ja) 2020-09-28 2024-04-12 エヌイーシー ラボラトリーズ アメリカ インク 時空間推論および位置特定のためのマルチホップトランスフォーマー
CN113076743A (zh) * 2021-03-30 2021-07-06 太原理工大学 一种基于网络结构和表示学习的知识图多跳推理方法
CN113223018A (zh) * 2021-05-21 2021-08-06 信雅达科技股份有限公司 细粒度图像分析处理方法
CN113360624B (zh) * 2021-06-30 2022-06-21 北京百度网讯科技有限公司 训练方法、应答方法、装置、电子设备以及存储介质
CN113360624A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 训练方法、应答方法、装置、电子设备以及存储介质
CN113590782A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 推理模型的训练方法、推理方法及装置
CN113590782B (zh) * 2021-07-28 2024-02-09 北京百度网讯科技有限公司 推理模型的训练方法、推理方法及装置
CN113779220A (zh) * 2021-09-13 2021-12-10 内蒙古工业大学 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法
CN117892140A (zh) * 2024-03-15 2024-04-16 浪潮电子信息产业股份有限公司 视觉问答及其模型训练方法、装置、电子设备、存储介质
CN117892140B (zh) * 2024-03-15 2024-05-31 浪潮电子信息产业股份有限公司 视觉问答及其模型训练方法、装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN110110043B (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
CN110110043A (zh) 一种多跳视觉问题推理模型及其推理方法
Wu et al. Proactive human-machine conversation with explicit conversation goals
Zhong et al. Knowledge graph augmented network towards multiview representation learning for aspect-based sentiment analysis
CN109408627A (zh) 一种融合卷积神经网络和循环神经网络的问答方法及系统
CN108509519A (zh) 基于深度学习的通用知识图谱增强问答交互系统及方法
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN109669994A (zh) 一种健康知识图谱的构建方法及系统
CN107451230A (zh) 一种问答方法以及问答系统
CN105528437A (zh) 一种基于结构化文本知识提取的问答系统构建方法
Nkambou Modeling the domain: An introduction to the expert module
CN111639254A (zh) 一种医疗领域的sparql查询语句的生成系统和方法
CN110379475A (zh) 基于电子病历完善临床指南的方法、装置及存储介质
CN114238645A (zh) 一种基于bert孪生注意力网络与融合图嵌入特征的关系选择方法
Matveev et al. A virtual dialogue assistant for conducting remote exams
Bench-Capon et al. A dialogue game for dialectical interaction with expert systems
Wang et al. Process and existence in mathematics
Mohammed et al. Intelligent database interface techniques using semantic coordination
Jiang et al. An affective chatbot with controlled specific emotion expression
Cantù An argumentative approach to ideal elements in mathematics
Fumanal-Idocin et al. Quantifying external information in social network analysis: An application to comparative mythology
Xie et al. Match matrix aggregation enhanced transition-based neural network for sql parsing
Liu et al. Enhancing Large Language Models with Pseudo-and Multisource-Knowledge Graphs for Open-ended Question Answering
Zhang et al. Integrating deep learning with first order logic for solving kinematic problems
Laruccia Little Red Riding Hood's Metacommentary: Paradoxical Injunction, Semiotics & Behavior
Habibi Development of a Theory for Objective Assignment of Prior Probabilities within the Context of a Decision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant