CN110110043A - 一种多跳视觉问题推理模型及其推理方法 - Google Patents
一种多跳视觉问题推理模型及其推理方法 Download PDFInfo
- Publication number
- CN110110043A CN110110043A CN201910290520.3A CN201910290520A CN110110043A CN 110110043 A CN110110043 A CN 110110043A CN 201910290520 A CN201910290520 A CN 201910290520A CN 110110043 A CN110110043 A CN 110110043A
- Authority
- CN
- China
- Prior art keywords
- hop
- knowledge
- reasoning
- tree
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 28
- 239000000203 mixture Substances 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000013480 data collection Methods 0.000 claims abstract description 11
- 238000010276 construction Methods 0.000 claims abstract description 9
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 9
- 230000007787 long-term memory Effects 0.000 claims abstract description 9
- 238000009472 formulation Methods 0.000 claims abstract description 6
- 238000013528 artificial neural network Methods 0.000 claims description 51
- 239000000284 extract Substances 0.000 claims description 19
- 230000008447 perception Effects 0.000 claims description 18
- 230000000306 recurrent effect Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 8
- 230000001537 neural effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 210000005036 nerve Anatomy 0.000 claims description 3
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 210000004218 nerve net Anatomy 0.000 claims description 2
- 230000007774 longterm Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 230000010354 integration Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 235000000332 black box Nutrition 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多跳视觉问题推理模型及其推理方法,所述模型包括:多跳视觉问题推理数据集建立单元,用于通过将场景图和知识库相融合成知识图,利用知识图构造包含多跳知识推理问答对的数据集;卷积神经网络,用于提取输入图像的图像特征;长短期记忆网络,用于提取问题特征;知识路由模块化网络,用于将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。
Description
技术领域
本发明涉及视觉问题回答、自然语言处理、图像识别和深度学习领域,特别是涉及一种多跳视觉问题推理模型及其推理方法。
背景技术
目前的视觉问答问题往往只要求回答问题的答案,而视觉问答的终极目标要求我们得到的是一个能够理解任何推理复杂度的问题(例如单跳推理或多跳推理),同时给予可解释的诊断结果,以提高模型的可信度。一个理想的模型在回答“这个女孩手上拿的东西有什么用?”时,应该要能够理解问题中的内在实体关系,将实体与图像中视觉依据的关联起来,通过提取关键物体最可能需要的关系或属性来给出回答。
现有的自然图像场景视觉问答数据集通常包含相对简单的问题,且仅评估最终的答案预测的准确性,缺乏对中间推理结果的评估以及关于系统能力的可解释的理由。此外,人类标注的问题和答案之间往往有着很强的相关性,这使得端到端网络能够通过自然地利用数据集偏差而不是对图像和问题进行共同推理来实现高性能。最近有一些工作通过平衡问答对来解决这个问题,CLEVR提出了一个合成数据集,其中基于给定的组成布局生成图像和问答对,然而,在图像特征图和问题编码之间融合的常规神经网络仍然正确地回答了这些复杂和组合问题,仍然很难诊断出神经网络学到了什么以及如何获得正确的答案。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种多跳视觉问题推理模型及其推理方法,以实现对视觉问题进行多跳推理并作出回答和答题依据。
为达上述目的,本发明提出一种多跳视觉问题推理模型,包括:
多跳视觉问题推理数据集建立单元,用于通过将场景图和知识库相融合成知识图,利用知识图构造包含多跳知识推理问答对的数据集;
卷积神经网络,用于提取输入图像的图像特征;
长短期记忆网络,用于提取问题特征;
知识路由模块化网络,用于将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。
优选地,所述数据集基于自然图像场景图和外部知识库提取到的一或两个事实三元组,构造复杂问题的问题-答案对。
优选地,所述多跳视觉问题推理数据集建立单元根据场景图标注和知识库,选取若干事实三元组,对问答模板填空,生成问题,并生成相应的答案及推理中间过程标注。
优选地,所述多跳视觉问题推理数据集建立单元通过问题对应的三元组来诊断模型的可解释性,并要求模型在给出问题的答案时,同时给出对应的依据,通过衡量三元组的准确率或召回率量化模型的可解释性。
优选地,所述知识路由模块化网络进一步包括:
查询树生成网络,用于将问题解析为查询树,用以指导树形神经模块化网络的拓扑结构;
树形模块化神经网络,由查询树指导生成,其根结点所对应的模块最后接入一个多层感知机,从图片和知识库中提取出视觉依据或知识,最后将这些提取到的信息整合下通过多跳推理得到最终答案;
多层感知机,用于获取所述树形模块化神经网络的输出,多层感知处理后得到整个问题的答案。
优选地,所述查询树生成网络为一个序列到序列的循环神经网络,由一个编码器循环神经网络和一个解码器循环神经网络构成,所述编码器每次读入问题的一个单词,取最后一步的循环神经网络输出作为问题向量编码,然后用一个解码器神经网络生成查询语句,每一步的输入都是问题向量编码,输出是查询语句的一个字符,最后再用一个移入-规约语法解析器将查询语句转化为查询树。
优选地,所述树形模块化神经网络由若干个模块化神经网络构成,每个模块化神经网络为视觉推理模块或知识推理模块。
优选地,所述视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成,所述知识推理模块是一个基于规则的简单知识提取模块。
为达到上述目的,本发明还提供一种多跳视觉问题推理模型的推理方法,包括如下步骤:
步骤S1,建立多跳视觉问题推理模型,构造由学习得到的查询树指导生成的神经网络模型;
步骤S2,提取输入图像的图像特征,并提取问题特征;
步骤S3,将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。
优选地,于步骤S1中,还包括对所述视觉推理模型学习的步骤,对所述所述视觉推理模型学习使用反向传播算法,其步骤包括:
通过大量的文本数据来预训练查询树的拓扑结构;
通过大量的视觉问题推理数据,使用反向传播算法迭代训练卷积神经网络、长短期记忆网络层、树形模块化神经网络以及多层感知机的模型参数,直到收敛。
与现有技术相比,本发明一种多跳视觉问题推理模型及其推理方法首先通过查询树生成器将问题解析为查询树,用以指导树形神经模块化网络的拓扑结构,而模块化网络的每个模块将从图片和知识库中提取出视觉依据或知识,最后这些提取到的信息将在树形模块化网络的整合下推理得到最终答案,实现了对视觉问题进行多跳推理并作出回答和答题依据。
附图说明
图1为本发明一种多跳视觉问题推理模型的结构示意图;
图2为本发明具体实施例多跳视觉问题推理模型的结构示意图;
图3为本发明具体实施例多跳视觉推理数据集示意图;
图4为本发明一种多跳视觉问题推理模型的推理方法的步骤流程图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种多跳视觉问题推理模型的结构示意图,图2为本发明具体实施例多跳视觉问题推理模型的结构示意图。如图1及图2所示,本发明一种多跳视觉问题推理模型,包括:
多跳视觉问题推理数据集建立单元10,用于通过将场景图和知识库相融合成知识图,利用知识图构造包含多跳知识推理问答对的数据集。
本发明提出一种高阶的视觉推理数据集(HVQR),以鼓励视觉推理模型学习如何识别图像中的视觉物体,再将其与知识库内最相关的知识结合起来,并给出可解释性的推理过程和回答,受到合成数据集CLEVR的启发,本发明的数据集基于自然图像场景图和外部知识库提取到的一或两个事实三元组,构造复杂问题的问题-答案对。此外,本发明还限制了知识库中三元组出现的频率以防止黑盒模型记住问答对与知识三元组的相关关系。因此,该数据集可以强迫模型在未见过的问题上进行多跳推理,评测推理中间过程,以鼓励泛化能力。对于给定的衣服图像,首先将其场景图和公共知识库融合,产生一个针对该图像的知识图,然后在知识图中提取一条路径,并用模板生成多跳推理问题。如图3所示为本发明具体实施例中数据集的问答对的例子示意图。
具体地,对于每张图片,多跳视觉问题推理数据集建立单元10首先将场景图和知识库相融合成知识图,然后在知识图中随机采样若干个相连的三元组如“(A,R1,B)-(B,R2,C)”并使用人为设定的模板将它们转换为文本问答对。考虑到生成的问答对的语义合理性以及答案的唯一性,利用特定的程序过滤掉一些无效的问答对,同时,为了增加问题的语言丰富性,对问题中的一些词则采用同义词进行随机替换。注意到随机采样可能会带来数据偏差,影响模型的泛化性,本发明给问题增加了更多的限制以提高数据集的挑战性。为了防止答案分布过于集中,限定每个答案最多出现不超过100次。为了防止模型简单记住知识库中的三元组,限定数据集中问题用到的三元组同一个不超过一次。该数据集同时提供一种类似SQL的结构化查询语句在自然图像上进行查询。一个元问题可以被映射成元查询,相应的,元问题的组合可以被映射成元查询的组合。在生成问题的同时,查询树将通过模板一并生成。异于以往的数据集,本发明可以通过问题对应的三元组来诊断模型的可解释性。本发明还提出了一种度量方式,要求模型在给出问题的答案时,同时给出对应的依据(支撑这个答案的三元组),通过衡量三元组的准确率或召回率可以量化模型的可解释性。
卷积神经网络20,用于提取输入图像的图像特征。
长短期记忆网络30,用于提取问题特征q,例如对于问题“小男孩与图中1948年发明出来的东西之间是什么关系”提取问题特征。
知识路由模块化网络(KM-net)40,为一个能够显式地将多跳推理融合进端到端的神经网络,用于将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。
具体地,知识路由模块化网络40进一步包括:
查询树生成网络401,用于将问题解析为查询树,用以指导树形神经模块化网络的拓扑结构。
在本发明具体实施例中,查询树生成网络401为查询生成器,其为一个序列到序列的循环神经网络,由一个编码器循环神经网络和一个解码器循环神经网络构成。编码器每次读入问题的一个单词,取最后一步的循环神经网络输出作为问题向量编码,然后用一个解码器神经网络生成查询语句,如(Qab_I,男孩,(Qrb_K,发明年份,1948)),每一步的输入都是问题向量编码,输出是查询语句的一个字符,最后再用一个移入-规约语法解析器将查询语句转化为查询树。
树形模块化神经网络402,由查询树指导生成,其根结点所对应的模块最后接入一个多层感知机,从图片和知识库中提取出视觉依据或知识,最后将这些提取到的信息整合下通过多跳推理得到最终答案。
在本发明具体实施例中,树形模块化神经网络402由若干个模块神经网络构成,每个模块化网络,可以是视觉推理模块,也可以是知识推理模块。视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成。知识推理模块是一个基于规则的简单知识提取模块。
具体地,树形模块化神经网络402是一种由若干个小神经网络模块组合而成的神经网络,其拓扑结构由查询树指导生成,每个模块对应查询树中的一个查询结点,它读入两个输入向量eleft和eright,并在提取图像或知识库中的信息,进行单步推理,每一步的输出将提供给父亲结点作为父亲结点的输入,进行下一步的推理,对于根结点的模块输出将会输入一个多层感知机,得到最终的答案分类,对于每个模块,它可以是视觉推理模块或知识推理模块,视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成,知识推理模块是一个基于规则的简单知识提取模块,具体由查询树上对应的结点来决定。
具体地,知识推理模块会读入两个来自子模块的输入向量eleft和eright,首先在实体词典中查询,将其分别转化为对应的实体名sleft和sright,然后在知识库中根据对应元查询规则提取答案向量eout。
视觉推理模块,每次也是读入向量eleft和eright,在图像中进行问题-图像的协同推理,具体过程如下(由于对eleft和eright的处理是对称的,以下只介绍eleft示例):
其中⊙代表逐元素乘法WH和WG都是可学习的转换矩阵,E代表该数据集的实体向量查询表,q是长短期记忆网络提取得到的问题特征,V是卷积神经网络提取得到的图像特征。那么,mright也可以根据eright用上述方式得到。最后,我们将mleft、mright以及查询向量u并联起来输入一个两层的多层感知机得到输出向量eout,作为模块的输出。
多层感知机403,用于获取树形模块化神经网络403的输出,多层感知处理后得到整个问题的答案。具体地,将树形模块化神经网络402根结点对应的模块输出,通过该多层感知机得到整个问题的答案。
图4为本发明一种多跳视觉问题推理模型的推理方法的步骤流程图。如图4所示,本发明一种多跳视觉问题推理模型的推理方法,包括如下步骤:
步骤S1,建立多跳视觉问题推理模型,构造由学习得到的查询树指导生成的神经网络模型。在本发明具体实施例中,所述多跳视觉问题推理模型由一个查询树生成网络、卷积神经网络、长短期记忆网络、一个树形模块化神经网络和一个多层感知机构成,其中树形模块化神经网络由查询树指导生成,其根结点所对应的模块最后接入一个多层感知机,查询树生成网络是一个序列到序列的循环神经网络,分为编码器和解码器两部分,编码器是一个长短期记忆网络,解码器是一个长短期记忆网络,树形模块化神经网络部分由若干个模块神经网络构成,每个模块化网络,可以是视觉推理模块,也可以是知识推理模块。视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成,知识推理模块是一个基于规则的简单知识提取模块。
步骤S2,提取输入图像的图像特征,并提取问题特征q。
步骤S3,将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。
具体地,步骤S3进一步包括:
步骤S300,利用查询树生成器将问题解析为查询树,用以指导树形神经模块化网络的拓扑结构。
在本发明具体实施例中,查询生成器为一个序列到序列的循环神经网络,由一个编码器循环神经网络和一个解码器循环神经网络构成。编码器每次读入问题的一个单词,取最后一步的循环神经网络输出作为问题向量编码,然后用一个解码器神经网络生成查询语句,每一步的输入都是问题向量编码,输出是查询语句的一个字符,最后再用一个移入-规约语法解析器将查询语句转化为查询树。
步骤S301,由查询树指导生成树形模块化神经网络,从图片和知识库中提取出视觉依据或知识,最后将这些提取到的信息整合下通过多跳推理得到最终答案。
在本发明具体实施例中,树形模块化神经网络由若干个模块神经网络构成,每个模块化网络,可以是视觉推理模块,也可以是知识推理模块。视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成。知识推理模块是一个基于规则的简单知识提取模块。
具体地,树形模块化神经网络是一种由若干个小神经网络模块组合而成的神经网络,其拓扑结构由查询树指导生成,每个模块对应查询树中的一个查询结点,它读入两个输入向量eleft和eright,并在提取图像或知识库中的信息,进行单步推理,每一步的输出将提供给父亲结点作为父亲结点的输入,进行下一步的推理,对于根结点的模块输出将会输入一个多层感知机,得到最终的答案分类,对于每个模块,它可以是视觉推理模块或知识推理模块,视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成,知识推理模块是一个基于规则的简单知识提取模块,具体由查询树上对应的结点来决定。
具体地,知识推理模块会读入两个来自子模块的输入向量eleft和eright,首先在实体词典中查询,将其分别转化为对应的实体名sleft和sright,然后在知识库中根据对应元查询规则提取答案向量eout。
视觉推理模块,每次也是读入向量eleft和eright,在图像中进行问题-图像的协同推理,具体过程如下(由于对eleft和eright的处理是对称的,以下只介绍eleft示例):
其中⊙代表逐元素乘法WH和WG都是可学习的转换矩阵,E代表该数据集的实体向量查询表,q是长短期记忆网络提取得到的问题特征,V是卷积神经网络提取得到的图像特征。那么,mright也可以根据eright用上述方式得到。最后,我们将mleft、mright以及查询向量u并联起来输入一个两层的多层感知机得到输出向量eout,作为模块的输出。
步骤S302,将所述树形模块化神经网络根结点对应的模块输出,通过一多层感知机得到整个问题的答案。
较佳地,于步骤S1中,还包括对所述视觉推理模型学习的步骤,具体地,对所述所述视觉推理模型学习使用反向传播算法,其步骤包括:
通过大量的文本数据来预训练查询树的拓扑结构;
通过大量的视觉问题推理数据,使用反向传播算法迭代训练卷积神经网络、长短期记忆网络层、树形模块化神经网络以及多层感知机的模型参数,直到收敛。
本发明在各种推理跳数的问题下进行了广泛的实验,并于现有的视觉问答数据集和目前最先进的视觉问答方法进行比较。实验表明,传统的端到端模型在需要外部只是进行推理的问题上往往表现较差,而本发明的知识路由模块化网络在所建立的数据集上优于所有目前最先进的视觉问答模型,同时,本发明运用可解释性的评价指标,证明了本发明提出的模型具有较强的显式推理能力。
综上所述,本发明一种多跳视觉问题推理模型及其推理方法首先通过查询树生成器将问题解析为查询树,用以指导树形神经模块化网络的拓扑结构,而模块化网络的每个模块将从图片和知识库中提取出视觉依据或知识,最后这些提取到的信息将在树形模块化网络的整合下推理得到最终答案,实现了对视觉问题进行多跳推理并作出回答和答题依据。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种多跳视觉问题推理模型,包括:
多跳视觉问题推理数据集建立单元,用于通过将场景图和知识库相融合成知识图,利用知识图构造包含多跳知识推理问答对的数据集;
卷积神经网络,用于提取输入图像的图像特征;
长短期记忆网络,用于提取问题特征;
知识路由模块化网络,用于将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。
2.如权利要求1所述的一种多跳视觉问题推理模型,其特征在于:所述数据集基于自然图像场景图和外部知识库提取到的一或两个事实三元组,构造复杂问题的问题-答案对。
3.如权利要求2所述的一种多跳视觉问题推理模型,其特征在于:所述多跳视觉问题推理数据集建立单元根据场景图标注和知识库,选取若干事实三元组,对问答模板填空,生成问题,并生成相应的答案及推理中间过程标注。
4.如权利要求3所述的一种多跳视觉问题推理模型,其特征在于:所述多跳视觉问题推理数据集建立单元通过问题对应的三元组来诊断模型的可解释性,并要求模型在给出问题的答案时,同时给出对应的依据,通过衡量三元组的准确率或召回率量化模型的可解释性。
5.如权利要求4所述的一种多跳视觉问题推理模型,其特征在于:所述知识路由模块化网络进一步包括:
查询树生成网络,用于将问题解析为查询树,用以指导树形神经模块化网络的拓扑结构;
树形模块化神经网络,由查询树指导生成,其根结点所对应的模块最后接入一个多层感知机,从图片和知识库中提取出视觉依据或知识,最后将这些提取到的信息整合下通过多跳推理得到最终答案;
多层感知机,用于获取所述树形模块化神经网络的输出,多层感知处理后得到整个问题的答案。
6.如权利要求5所述的一种多跳视觉问题推理模型,其特征在于:所述查询树生成网络为一个序列到序列的循环神经网络,由一个编码器循环神经网络和一个解码器循环神经网络构成,所述编码器每次读入问题的一个单词,取最后一步的循环神经网络输出作为问题向量编码,然后用一个解码器神经网络生成查询语句,每一步的输入都是问题向量编码,输出是查询语句的一个字符,最后再用一个移入-规约语法解析器将查询语句转化为查询树。
7.如权利要求6所述的一种多跳视觉问题推理模型,其特征在于:所述树形模块化神经网络由若干个模块化神经网络构成,每个模块化神经网络为视觉推理模块或知识推理模块。
8.如权利要求7所述的一种多跳视觉问题推理模型,其特征在于:所述视觉推理模块首先由实体注意力模块和视觉注意力模块串联,然后再接入视觉与问题的共注意力模块构成,所述知识推理模块是一个基于规则的简单知识提取模块。
9.一种多跳视觉问题推理模型的推理方法,包括如下步骤:
步骤S1,建立多跳视觉问题推理模型,构造由学习得到的查询树指导生成的神经网络模型;
步骤S2,提取输入图像的图像特征,并提取问题特征;
步骤S3,将问题解析为查询树,其中查询树是问题的推理过程的符号化表达,并结合查询树和知识库,在知识图中提取出正确的关系或实体,进行多跳推理以给出最终的回答。
10.如权利要求9所述的一种多跳视觉问题推理模型的推理方法,其特征在于,于步骤S1中,还包括对所述视觉推理模型学习的步骤,对所述所述视觉推理模型学习使用反向传播算法,其步骤包括:
通过大量的文本数据来预训练查询树的拓扑结构;
通过大量的视觉问题推理数据,使用反向传播算法迭代训练卷积神经网络、长短期记忆网络层、树形模块化神经网络以及多层感知机的模型参数,直到收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910290520.3A CN110110043B (zh) | 2019-04-11 | 2019-04-11 | 一种多跳视觉问题推理模型及其推理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910290520.3A CN110110043B (zh) | 2019-04-11 | 2019-04-11 | 一种多跳视觉问题推理模型及其推理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110110043A true CN110110043A (zh) | 2019-08-09 |
CN110110043B CN110110043B (zh) | 2023-04-11 |
Family
ID=67484141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910290520.3A Active CN110110043B (zh) | 2019-04-11 | 2019-04-11 | 一种多跳视觉问题推理模型及其推理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110043B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516791A (zh) * | 2019-08-20 | 2019-11-29 | 北京影谱科技股份有限公司 | 一种基于多重注意力的视觉问答方法及系统 |
CN111126610A (zh) * | 2019-12-12 | 2020-05-08 | 科大讯飞股份有限公司 | 题目分析方法、装置、电子设备和存储介质 |
CN111325347A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 基于可解释视觉推理模型的危险预警描述自动生成方法 |
CN111475636A (zh) * | 2020-06-24 | 2020-07-31 | 北京金山数字娱乐科技有限公司 | 信息提取方法和装置、设备及存储介质 |
CN111611367A (zh) * | 2020-05-21 | 2020-09-01 | 拾音智能科技有限公司 | 一种引入外部知识的视觉问答方法 |
CN111666395A (zh) * | 2020-05-18 | 2020-09-15 | 扬州大学 | 面向软件缺陷的可解释问答方法、装置、计算机设备和存储介质 |
CN111814982A (zh) * | 2020-07-15 | 2020-10-23 | 四川大学 | 面向多跳问答的动态推理网络及方法 |
CN112052953A (zh) * | 2020-07-21 | 2020-12-08 | 清华大学 | 用于神经推理系统的可嵌入级连逻辑系统及其推理方法 |
WO2021056733A1 (zh) * | 2019-09-23 | 2021-04-01 | 苏州车付通信息科技有限公司 | 智能逻辑分析系统 |
WO2021113467A1 (en) * | 2019-12-06 | 2021-06-10 | Nec Laboratories America, Inc. | Generating followup questions for interpretable recursive multi-hop question answering |
CN113076743A (zh) * | 2021-03-30 | 2021-07-06 | 太原理工大学 | 一种基于网络结构和表示学习的知识图多跳推理方法 |
CN113223018A (zh) * | 2021-05-21 | 2021-08-06 | 信雅达科技股份有限公司 | 细粒度图像分析处理方法 |
CN113282720A (zh) * | 2020-02-20 | 2021-08-20 | 清华大学 | 视觉推理方法和装置 |
CN113360624A (zh) * | 2021-06-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 训练方法、应答方法、装置、电子设备以及存储介质 |
CN113590782A (zh) * | 2021-07-28 | 2021-11-02 | 北京百度网讯科技有限公司 | 推理模型的训练方法、推理方法及装置 |
EP3920048A1 (en) * | 2020-06-02 | 2021-12-08 | Siemens Aktiengesellschaft | Method and system for automated visual question answering |
CN113779220A (zh) * | 2021-09-13 | 2021-12-10 | 内蒙古工业大学 | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 |
JP7466760B2 (ja) | 2020-09-28 | 2024-04-12 | エヌイーシー ラボラトリーズ アメリカ インク | 時空間推論および位置特定のためのマルチホップトランスフォーマー |
CN117892140A (zh) * | 2024-03-15 | 2024-04-16 | 浪潮电子信息产业股份有限公司 | 视觉问答及其模型训练方法、装置、电子设备、存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050001720A1 (en) * | 2002-07-02 | 2005-01-06 | Charles Mason | Emergency response personnel automated accountability system |
WO2011133209A2 (en) * | 2010-04-23 | 2011-10-27 | Thomson Licensing | Method and system for providing recommendations in a social network |
US20140337306A1 (en) * | 2012-01-05 | 2014-11-13 | Ruggero Gramatica | Information network with linked information nodes |
CN106686685A (zh) * | 2016-12-21 | 2017-05-17 | 中国电子科技集团公司第三十研究所 | 多跳移动无线自组织网络拓扑快速发现方法 |
CN106816054A (zh) * | 2017-03-29 | 2017-06-09 | 北京光年无限科技有限公司 | 用于智能机器人的交互教学方法及终端 |
CN108763567A (zh) * | 2018-06-05 | 2018-11-06 | 北京玄科技有限公司 | 应用于智能机器人交互的知识推理方法及装置 |
CN109063100A (zh) * | 2018-07-27 | 2018-12-21 | 联想(北京)有限公司 | 一种数据处理方法、服务器及电子设备 |
CN109086892A (zh) * | 2018-06-15 | 2018-12-25 | 中山大学 | 一种基于一般依赖树的视觉问题推理模型及系统 |
-
2019
- 2019-04-11 CN CN201910290520.3A patent/CN110110043B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050001720A1 (en) * | 2002-07-02 | 2005-01-06 | Charles Mason | Emergency response personnel automated accountability system |
WO2011133209A2 (en) * | 2010-04-23 | 2011-10-27 | Thomson Licensing | Method and system for providing recommendations in a social network |
US20140337306A1 (en) * | 2012-01-05 | 2014-11-13 | Ruggero Gramatica | Information network with linked information nodes |
CN106686685A (zh) * | 2016-12-21 | 2017-05-17 | 中国电子科技集团公司第三十研究所 | 多跳移动无线自组织网络拓扑快速发现方法 |
CN106816054A (zh) * | 2017-03-29 | 2017-06-09 | 北京光年无限科技有限公司 | 用于智能机器人的交互教学方法及终端 |
CN108763567A (zh) * | 2018-06-05 | 2018-11-06 | 北京玄科技有限公司 | 应用于智能机器人交互的知识推理方法及装置 |
CN109086892A (zh) * | 2018-06-15 | 2018-12-25 | 中山大学 | 一种基于一般依赖树的视觉问题推理模型及系统 |
CN109063100A (zh) * | 2018-07-27 | 2018-12-21 | 联想(北京)有限公司 | 一种数据处理方法、服务器及电子设备 |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516791A (zh) * | 2019-08-20 | 2019-11-29 | 北京影谱科技股份有限公司 | 一种基于多重注意力的视觉问答方法及系统 |
WO2021056733A1 (zh) * | 2019-09-23 | 2021-04-01 | 苏州车付通信息科技有限公司 | 智能逻辑分析系统 |
WO2021113467A1 (en) * | 2019-12-06 | 2021-06-10 | Nec Laboratories America, Inc. | Generating followup questions for interpretable recursive multi-hop question answering |
CN111126610A (zh) * | 2019-12-12 | 2020-05-08 | 科大讯飞股份有限公司 | 题目分析方法、装置、电子设备和存储介质 |
CN111126610B (zh) * | 2019-12-12 | 2023-12-01 | 科大讯飞股份有限公司 | 题目分析方法、装置、电子设备和存储介质 |
CN111325347A (zh) * | 2020-02-19 | 2020-06-23 | 山东大学 | 基于可解释视觉推理模型的危险预警描述自动生成方法 |
CN111325347B (zh) * | 2020-02-19 | 2023-04-11 | 山东大学 | 基于可解释视觉推理模型的危险预警描述自动生成方法 |
CN113282720A (zh) * | 2020-02-20 | 2021-08-20 | 清华大学 | 视觉推理方法和装置 |
CN111666395A (zh) * | 2020-05-18 | 2020-09-15 | 扬州大学 | 面向软件缺陷的可解释问答方法、装置、计算机设备和存储介质 |
CN111611367A (zh) * | 2020-05-21 | 2020-09-01 | 拾音智能科技有限公司 | 一种引入外部知识的视觉问答方法 |
CN111611367B (zh) * | 2020-05-21 | 2023-04-28 | 拾音智能科技有限公司 | 一种引入外部知识的视觉问答方法 |
EP3920048A1 (en) * | 2020-06-02 | 2021-12-08 | Siemens Aktiengesellschaft | Method and system for automated visual question answering |
CN111475636A (zh) * | 2020-06-24 | 2020-07-31 | 北京金山数字娱乐科技有限公司 | 信息提取方法和装置、设备及存储介质 |
CN111814982B (zh) * | 2020-07-15 | 2021-03-16 | 四川大学 | 面向多跳问答的动态推理网络系统及方法 |
CN111814982A (zh) * | 2020-07-15 | 2020-10-23 | 四川大学 | 面向多跳问答的动态推理网络及方法 |
CN112052953A (zh) * | 2020-07-21 | 2020-12-08 | 清华大学 | 用于神经推理系统的可嵌入级连逻辑系统及其推理方法 |
CN112052953B (zh) * | 2020-07-21 | 2022-09-09 | 清华大学 | 用于神经推理系统的可嵌入级连逻辑系统及其推理方法 |
JP7466760B2 (ja) | 2020-09-28 | 2024-04-12 | エヌイーシー ラボラトリーズ アメリカ インク | 時空間推論および位置特定のためのマルチホップトランスフォーマー |
CN113076743A (zh) * | 2021-03-30 | 2021-07-06 | 太原理工大学 | 一种基于网络结构和表示学习的知识图多跳推理方法 |
CN113223018A (zh) * | 2021-05-21 | 2021-08-06 | 信雅达科技股份有限公司 | 细粒度图像分析处理方法 |
CN113360624B (zh) * | 2021-06-30 | 2022-06-21 | 北京百度网讯科技有限公司 | 训练方法、应答方法、装置、电子设备以及存储介质 |
CN113360624A (zh) * | 2021-06-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 训练方法、应答方法、装置、电子设备以及存储介质 |
CN113590782A (zh) * | 2021-07-28 | 2021-11-02 | 北京百度网讯科技有限公司 | 推理模型的训练方法、推理方法及装置 |
CN113590782B (zh) * | 2021-07-28 | 2024-02-09 | 北京百度网讯科技有限公司 | 推理模型的训练方法、推理方法及装置 |
CN113779220A (zh) * | 2021-09-13 | 2021-12-10 | 内蒙古工业大学 | 一种基于三通道认知图谱和图注意力网络的蒙语多跳问答方法 |
CN117892140A (zh) * | 2024-03-15 | 2024-04-16 | 浪潮电子信息产业股份有限公司 | 视觉问答及其模型训练方法、装置、电子设备、存储介质 |
CN117892140B (zh) * | 2024-03-15 | 2024-05-31 | 浪潮电子信息产业股份有限公司 | 视觉问答及其模型训练方法、装置、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110110043B (zh) | 2023-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110043A (zh) | 一种多跳视觉问题推理模型及其推理方法 | |
Wu et al. | Proactive human-machine conversation with explicit conversation goals | |
CN109408627A (zh) | 一种融合卷积神经网络和循环神经网络的问答方法及系统 | |
CN108509519A (zh) | 基于深度学习的通用知识图谱增强问答交互系统及方法 | |
CN109669994A (zh) | 一种健康知识图谱的构建方法及系统 | |
CN109918644A (zh) | 一种基于迁移学习的中医健康咨询文本命名实体识别方法 | |
CN107491655A (zh) | 基于机器学习的肝脏疾病信息智能咨询方法及系统 | |
CN112667799A (zh) | 一种基于语言模型和实体匹配的医疗问答系统构建方法 | |
CN105206284A (zh) | 疏导青少年心理压力的虚拟聊天方法与系统 | |
Somodevilla García et al. | An overview of ontology learning tasks | |
CN115062052A (zh) | 一种基于图谱的从自然语言问题到sql的翻译方法 | |
Sha et al. | Designing Online Psychological Consultation Expert System Using Human‐Computer Interaction | |
CN114238645A (zh) | 一种基于bert孪生注意力网络与融合图嵌入特征的关系选择方法 | |
Bench-Capon et al. | A dialogue game for dialectical interaction with expert systems | |
Diao et al. | Precise modeling of learning process based on multiple behavioral features for knowledge tracing | |
Wang et al. | Process and existence in mathematics | |
Fumanal-Idocin et al. | Quantifying external information in social network analysis: An application to comparative mythology | |
Liu et al. | Enhancing Large Language Models with Pseudo-and Multisource-Knowledge Graphs for Open-ended Question Answering | |
Cantù | An argumentative approach to ideal elements in mathematics | |
Jiang et al. | An affective chatbot with controlled specific emotion expression | |
Xie et al. | Match matrix aggregation enhanced transition-based neural network for sql parsing | |
Pal et al. | Weakly supervised context-based interview question generation | |
Zhang et al. | Integrating deep learning with first order logic for solving kinematic problems | |
Wang | Systems intuition: Oriental systems thinking style | |
Ghosal et al. | Generating Intermediate Steps for NLI with Next-Step Supervision |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |