CN110598573A - 一种基于多域异质图引导的视觉问题常识推理模型及方法 - Google Patents

一种基于多域异质图引导的视觉问题常识推理模型及方法 Download PDF

Info

Publication number
CN110598573A
CN110598573A CN201910772828.1A CN201910772828A CN110598573A CN 110598573 A CN110598573 A CN 110598573A CN 201910772828 A CN201910772828 A CN 201910772828A CN 110598573 A CN110598573 A CN 110598573A
Authority
CN
China
Prior art keywords
visual
features
domain
feature
heterogeneous graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910772828.1A
Other languages
English (en)
Other versions
CN110598573B (zh
Inventor
王青
周静文
余伟江
梁小丹
林倞
肖侬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN201910772828.1A priority Critical patent/CN110598573B/zh
Publication of CN110598573A publication Critical patent/CN110598573A/zh
Application granted granted Critical
Publication of CN110598573B publication Critical patent/CN110598573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多域异质图引导的视觉问题常识推理模型及方法,所述模型包括:预训练模型初始化单元,利用预训练模型对基础骨架网络和分类器参数进行初始化;视觉信息提取单元,用于利用检测器来提取输入图像的视觉信息的初始特征;上下文投票单元,用于提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中;语言特征提取单元,用于利用自然语言预训练模型提取语言部分问题和答案的特征表示;多域特征推理融合单元,用于构造多域异质图,将视觉信息特征和语言信息特征利用多域异质图进行多域特征推理融合获得最终特征表示;分类单元,用于利用分类器对获得的特征处理后进行打分,选取得分高的选项为答案。

Description

一种基于多域异质图引导的视觉问题常识推理模型及方法
技术领域
本发明涉及自然语言处理、图像识别和深度学习等技术领域,特别是涉及一种基于多域异质图引导的视觉问题常识推理模型及方法。
背景技术
视觉问题常识推理任务是对给定的图像和文本问题以及相应的选项进行学习,选出对应问题的正确选项同时能推理出选择这一答案的原因,实现认知推理的关键之一是模型要能够分析出场景中各个物体之间的内在关联。视觉问题常识推理任务的核心内容是从认知的层面去提升视觉问题,即对于输入的有标注图片,根据提出的视觉问题预测出问题的答案同时要预测出选择这一答案的原因,其中包含一条完整的推理路径。这项任务的推理基础是要能在多模态输入的视觉领域和语言(问题和答案)领域进行联合推理得到正确答案选项,同时,也要能给出选择这一选项的推理过程。
然而,现存的大部分推理模型要么基于黑盒子一样的端到端神经网络,而不能提供具有说服力的推理步骤,而是过度依赖过拟合数据偏差来实现准确性的提升,这样的模型不能给模型及其做出的选择充分的可解释性;要么是仅仅考虑类内关系建立图神经网络模型,这样就忽视了跨域融合视觉信息和语言信息同时对齐两种语义信息的可能。但是对于认知领域的问题而言,能够对齐视觉领域和语言领域是能够进行类间关系挖掘的关键,因为对于同域知识信息而言,一般会只使用同质图的关系表征方式,基于同质图的推理会产生信息隔离区。例如,“中倒液体到中”,在这里存在功能性的动词“倒入”,它和其他词所能表征的视觉信息是不同的,其中 都是能再视觉图像中找到相应的对照位置的视觉实体。在这里如果仅仅使用域内同质图就会阻碍两种信息的对齐融合,也就大大限制了模型的正确预测能力。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于多域异质图引导的视觉问题常识推理模型及方法,通过基于异质图学习网络结构(HGL),对基于语言领域和视觉领域分别建立动态异质图,最终将建好的两个异质图对齐融合形成一个整体特征空间,并基于此特征空间进行常识推理,能够打破语言领域和视觉领域的壁垒,完整融合并对齐任务中涉及到的多种模态信息,高效执行推理流程。
为达上述目的,本发明提出一种基于多域异质图引导的视觉问题常识推理模型,包括:
预训练模型初始化单元,利用预训练模型对基础骨架网络和分类器参数进行初始化;
视觉信息提取单元,用于利用检测器来提取输入图像的视觉信息的初始特征;
上下文投票单元,用于提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中;
语言特征提取单元,用于利用自然语言预训练模型提取语言部分问题和答案的特征表示;
多域特征推理融合单元,用于构造多域异质图,将视觉信息特征和语言信息特征利用多域异质图进行多域特征推理融合获得最终特征表示;
分类单元,用于利用分类器对获得的特征处理后进行打分,选取得分高的选项为答案。
优选地,所述视觉信息提取单元进一步包括:
图片获取模块,用于获取有标注信息的图片;
视觉特征提取模块,用于提取所述基础骨架网络的conv4特征层,将已知候选框和特征层输入所述检测器,提取图片中各个候选区域的视觉特征;
优选地,所述上下文投票单元基于全局视角对上下文相关信息进行再提取并补充到局部语义信息当中。
优选地,所述上下文投票单元进行逐像素点投票获得与其相关的像素点并累加相关像素点的特征,以此来强化局部视觉信息。
优选地,所述上下文投票单元通过级联的三次投票选择机制融合上下文中相关位置上的信息对初始视觉特征的局部特征进行增强。
优选地,所述语言特征提取单元进一步包括:
初始语言特征提取模块,用于使用自然语言预训练模型BERT初步提取语言特征;
编码器模块,用于利用双向长短期记忆网络将初步语言特征编码为与视觉特征最低维维度数相等的特征矩阵。
优选地,所述多域特征推理融合单元利用异质图处理多模态特征的能力将视觉特征表示迁移到语言模态并融合答案的特征表示,同时利用异质图将问题和答案的语义特征进行对齐,在分别进行相应的引导机制之后再融合视觉-答案特征和问题-答案特征得到最终的多域推理融合特征。
优选地,所述多域特征推理融合单元进一步包括:
视觉-答案跨域异质图构建模块,用于对所述上下文投票单元和语言特征提取单元获得的视觉特征和答案特征构建视觉-答案跨域异质图,分别将视觉物体特征和答案中的单词特征作为异质图的两种类型节点构建异质图,通过异质图邻接矩阵学习图片中每个物体和答案每个单词之间存在的关联,同时将视觉特征迁移到语言特征,在此过程中,两个领域的特征融合生成提升版的视觉表征Yo
第一引导机制模块,用于将视觉-答案跨域异质图构建模块获得的两领域融合特征Yo通过特定引导机制来生成最终的视觉信息特征Yv
问题-答案同域对齐异质图构建模块,用于对所述语言特征提取单元104获得的问题特征和答案特征构建问题-答案同域对齐异质图,分别将问题中的单词特征和答案中的单词特征作为异质图的两种类型节点构建异质图,通过异质图邻接矩阵问题中每个物体和答案每个单词之间存在的关联,同时将问题中的单词特征和答案中的单词特征对齐,在此过程中,两种类型的语言特征对齐融合生成提升版的问题表征Yq
第二引导机制模块,用于将所述问题-答案同域对齐异质图构建模块获得的两领域融合特征Yq通过特定引导机制来生成最终的问题信息特征Yq
异质图解析器模块,用于将所述第一引导机制模块和第二引导机制模块得到的视觉特征Yv和问题特征Yq通过解析器进行解析融合。
优选地,所述分类单元进一步包括:
特征映射模块,用于将得到的多域推理融合特征通过全连接层映射成一个四维特征向量;
归一化模块,用于将所诉四维特征向量经过一个softmax将得分值压缩到[0,1]之间来归一化得到四个选项的得分值,选取得分最高的选项组为模型的选择结果。
为达到上述目的,本发明还提供一种基于多域异质图引导的视觉问题常识推理方法,包括如下步骤:
步骤S1,利用预训练模型对基础骨架网络和分类器参数进行初始化;
步骤S2,利用检测器提取输入图像的视觉部分信息的初始特征;
步骤S3,利用上下文投票单元提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中;
步骤S4,利用自然语言预训练模型提取语言部分问题和答案的特征表示;
步骤S5,构造多域异质图,将视觉信息和语言信息利用多域异质图进行多域特征推理融合获得最终特征表示;
步骤S6,利用分类器对获得的特征处理后进行打分,选取得分高的选项为答案。
与现有技术相比,本发明一种基于多域异质图引导的视觉问题常识推理模型及方法实现了可解释的视觉问题常识推理系统,其遵循由异质图结构引导语言领域和视觉领域知识的无缝融合同时包含一个上下文投票模块来拓宽全局推理的感知区域,增强了上下文信息理解;本发明通过视觉-语言跨域异质图模块和问题-答案同域对齐异质图模块来分别对视觉领域和语言领域进行语义对齐操作,再利用异质图推理和综合特征引导机制分别对两个模块进行联合推理,最后,把联合推理得到的融合特征进行加权融合,从而得到最终的增强特征。
附图说明
图1为本发明一种基于多域异质图引导的视觉问题常识推理模型的系统架构图;
图2为本发明具体实施例中基于异质图引导的视觉问题常识推理模型的整体网络框架示意图;
图3为本发明一种基于多域异质图引导的视觉问题常识推理方法的步骤流程图;
图4为本发明具体实施例中基于异质图引导的视觉问题常识推理模型的上下文投票模块(CVM)效果说明图。
图5为本发明具体实施例中基于异质图引导的视觉问题常识推理模型的异质图网络结构图。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于多域异质图引导的视觉问题常识推理模型的系统架构图,图2为本发明具体实施例中基于异质图引导的视觉问题常识推理模型的整体网络框架示意图。如图1及图2所示,本发明一种基于多域异质图引导的视觉问题常识推理模型,包括:
预训练模型初始化单元101,利用预训练模型对基础骨架网络和分类器参数进行初始化。
具体地,预训练模型初始化单元101使用的基础骨架网络选用残差网络ResNet-50,利用大型数据集ImageNet上预训练的卷积神经网络模型参数来进行初始化。
在本发明中,模型的基础骨架网络F的输入由三部分组成,分别是关于图像I的物体区域集合问题单词集合答案单词集合根据已知特征构建的异质图节点定义分别为其中,可以代表独立存在的d维物体特征向量,问题单词特征向量和答案单词特征向量,N,M,B则分别表示图片中物体数量,问题句子中单词数量和答案句子中单词数量,将它们分别进行级联表示成矩阵形式就分别成为了本发明网络模型的三种特征输入Xo∈RN×d,Xq∈RM×d,Xa∈RB×d,最终模型输出一个对4个备选答案各自的打分的四维向量Ya∈R4,最终选择得分最高的选项作为答案。
视觉信息提取单元102,用于利用基于传统检测模型(Fast-RCNN)的检测器来提取输入图像的视觉部分信息的初始特征。
具体地,视觉信息提取单元102进一步包括:
图片获取模块,用于获取有标注信息的图片。也就是说,将原始图像以及其对应的标注信息一起输入网络当中。
视觉特征提取模块,提取骨架网络的conv4特征层,将已知候选框和特征层输入检测模块,提取图片中各个候选区域的视觉特征。进一步地,将检测模块的输出经过一个ROI对齐操作,对齐初始视觉特征。
上下文投票单元103,用于提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中。
为了更好的获得局部区域的上下文信息,例如,“下雨”,“下雪”,“湿”这种在形态上很不固定,且一般不会被标注出来的特殊存在物体也会出现在语句当中,为了使模型能够很好的处理这种情况,本发明引入了上下文投票单元(CVM)来获得并融合上下文中的相关部分特征来增强局部特征的表征能力,提升模型对未标注部分的敏感程度。
在本发明中上下文投票单元103的作用是以全局视角来补充信息到局部信息当中,以弥补形态不固定背景的未标注情况,其具体实施过程可表示为:
其中分别是第l层卷积层的输入和输出,代表j位置上和相关位置上的图像内容,对于任意位置i都会针对全局学习相关关系同时选择最为相关的位置特征进行融合,其中Wa,都是可训练更新矩阵,函数f,g,都是1×1卷积操作。
具体地说,上下文投票单元103,进一步包括:
局部相关特征选取模块,用于在全局视角下,利用投票机制来选取得分最高也就是最相关部分像素点的特征。
局部特征增强模块,用于利用将得分最高的特征融合到局部特征上,这样,局部特征融合了全局特征。
优选地,上下文投票单元103通过级联的三次投票选择机制融合上下文中相关位置上的信息对局部特征进行增强,即利用连续3层上下文投票操作对邻近像素点打分并融合得分最高的邻近像素点特征信息以结合全局信息,增强局部特征表征能力。
语言特征提取单元104,利用自然语言预训练模型提取语言部分问题和答案的特征表示,在本发明具体实施例中,语言特征提取单元104使用BERT预训练模型提取语言部分问题和答案的特征表示
具体地,语言特征提取单元104进一步包括:
初始语言特征提取模块,用于使用现有的自然语言预训练模型BERT初步提取语言特征,具体地,将原始问题和答案选项输入BERT预训练模型得到提取的初始语言特征,输入嵌入表示之后的问题和答案选项,得到问题和答案的特征表示集合其中M,B分别表示问题句子和答案句子中单词的个数,并将集合中的特征级联表示为:Xq∈RM×d,Xa∈RB×d
编码器模块,在经过BERT模型提取特征后将初始语言特征再输入一个双向长短期记忆网络得到词编码向量Q,A。具体来说,问题中的每个单词首先被编码成一个768维向量,进一步地,将问题单词向量逐个输入到双向长短期记忆网络中被处理成和O向量维度相同的d=512的单词向量,本发明中,统一了视觉和语言的特征表示长度。
多域特征推理融合单元105,用于构造多域异质图,将视觉信息和语言信息利用多域异质图进行多域特征推理融合获得最终特征表示。在本发明具体实施例中,多域特征推理融合单元105利用异质图处理多模态特征的能力将视觉特征表示迁移到语言模态并融合答案的特征表示,同时利用异质图将问题和答案的语义特征进行对齐,在分别进行相应的引导机制之后再融合视觉-答案特征和问题-答案特征得到最终的多域推理融合特征。
也就是说,本发明将两个领域的三种信息输入多域特征推理融合单元105,分别是将视觉特征、语言特征中的问题特征与答案选项特征结合构建视觉-回答跨域异质图和问题-答案同域对齐异质图,并将两个异质图通过引导机制进行协作推理并融合,就得到最终需要的全体异质图,基于全体异质图执行全局推理:1)提问到回答部分(Q->A):输入图像和问题以及问题的答案;2)回答到推理部分(QA->R):输入图像和正确答案以及对应的四个推理原因选项。最终本发明在任务给定的选择空间中动态建立并更新异质图网络结构,然后通过推理异质图选择出一个从答案到选择原因的合理推理路径。值得注意的是,与以前的方法相比,本发明旨在建立一个通用且可解释的有效结合对齐视觉领域和语言领域的视觉常识推理框架,它不需要任何复杂的手工规则或实况注释来获得特定的布局
具体地,多域特征推理融合单元105进一步包括:
视觉-答案跨域异质图构建模块,用于对上下文投票单元103和语言特征提取单元104获得的视觉特征和答案特征构建视觉-答案跨域异质图,分别将视觉物体特征和答案中的单词特征作为异质图的两种类型节点构建异质图,通过异质图邻接矩阵学习图片中每个物体和答案每个单词之间存在的关联,同时将视觉特征迁移到语言特征,在这个过程中,两个领域的特征融合生成提升版的视觉表征Yo
第一引导机制模块,用于将视觉-答案跨域异质图构建模块获得的两领域融合特征Yo通过特定引导机制来生成最终的视觉信息特征Yv
问题-答案同域对齐异质图构建模块,对语言特征提取单元104获得的问题特征和答案特征构建问题-答案同域对齐异质图,分别将问题中的单词特征和答案中的单词特征作为异质图的两种类型节点构建异质图,通过异质图邻接矩阵问题中每个物体和答案每个单词之间存在的关联,同时将问题中的单词特征和答案中的单词特征对齐,在这个过程中,两种类型的语言特征对齐融合生成提升版的问题表征Yq
第二引导机制模块,用于将问题-答案同域对齐异质图构建模块获得的两领域融合特征Yq通过特定引导机制来生成最终的问题信息特征Yq
异质图解析器模块,用于将第一引导机制模块和第二引导机制模块得到的视觉特征Yv和问题特征Yq通过解析器进行解析融合,在这里解析器组成为二者矩阵加后再接一个全连接层操作,得到的特征也就是最终的融合推理特征。
分类单元106,用于分类备选答案,做出模型选择。在本发明具体实施例中,分类单元106通过对获得的特征处理后进行打分,选取得分高的选项为答案。
具体来说,分类单元106进一步包括:
特征映射模块,用于将得到的多域推理融合特征通过全连接层映射成一个四维特征向量。
归一化模块,用于将四维特征向量经过一个softmax将得分值压缩到[0,1]之间来归一化得到四个选项的得分值,选取得分最高的选项组为模型的选择。
优选地,本发明使用多类交叉熵损失函数对于分类的损失(loss)反向传播来更新模型参数,由于利用损失函数更新模型参数为常用技术手段,因此具体的更新过程在此不予赘述。
图3为本发明一种基于多域异质图引导的视觉问题常识推理方法的步骤流程图。如图3所示,本发明一种基于多域异质图引导的视觉问题常识推理方法,包括如下步骤:
步骤S1,利用预训练模型对基础骨架网络和分类器参数进行初始化。
具体地,使用在大型数据集ImageNet上预先训练的卷积神经网络模型参数来初始化本发明的基础骨架网络参数,本发明使用的基础骨架网络选用残差网络ResNet-50。
步骤S2,利用基于传统检测模型(Fast-RCNN)的检测器提取输入图像的视觉部分信息的初始特征。
具体地,步骤S2进一步包括:
步骤S200,获取有标注信息的图片。也就是说,将原始图像以及其对应的标注信息一起输入网络当中。
步骤S201,提取经过骨架网络后的conv4层特征,将图片对应的标注信息,例如候选框及分类标注,物体分割标注输入检测模块,提取图片的初始视觉特征。进一步地,对检测模块的输出经过一个ROI对齐操作后,提取初始视觉特征。
步骤S3,利用上下文投票单元提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中。
具体地,在网络基础骨架卷积神经网络读取初始视觉特征之后接上下文投票单元,以下简称CVM,来增强视觉特征。为了更好的融合上下文视觉信息,在这里进行逐像素点的上下文特征捕捉,这样做可以强化值得关注区域同时弱化不重要部分有助于模型关注到重要的未标注背景信息,例如“下雪”,“湿”这类形态不固定信息,且一般不会被标注出来的特殊存在物体也会出现在语句当中,为了使模型能够很好的处理这种情况,本发明引入了上下文投票单元(CVM)来获得并融合上下文中的相关部分特征来增强局部特征的表征能力,提升模型对未标注部分的敏感程度。如图4所示,箭头指向的部位可视化出了模型中关注的未标注出的全局语义信息,通过可视化图可以发现,与baseline可视化效果相比,CVM单元将值得注意的部分特征更加突出,而不算重要的部分进行了弱化。这对于接下来的视觉和语言部分信息的融合具有积极作用。
步骤S4,利用自然语言预训练模型提取语言部分问题和答案的特征表示,在本发明具体实施例中,使用BERT预训练模型提取语言部分问题和答案的特征表示
具体地,步骤S4进一步包括:
步骤S400,使用现有的自然语言预训练模型BERT初步提取语言特征,具体地,将原始问题和答案选项输入BERT预训练模型得到提取的初始语言特征,输入嵌入表示之后的问题和答案选项,得到问题和答案的特征表示集合其中M,B分别表示问题句子和答案句子中单词的个数,并将集合中的特征级联表示为:Xq∈RM×d,Xa∈RB×d
步骤S401,在经过BERT模型提取特征后将初始语言特征再输入一个双向长短期记忆网络得到词编码向量Q,A。具体来说,问题中的每个单词首先被编码成一个768维向量,进一步地,将问题单词向量逐个输入到双向长短期记忆网络中被处理成和O向量维度相同的d=512的单词向量,本发明中,统一了视觉和语言的特征表示长度。
步骤S5,构造多域异质图,将视觉信息和语言信息利用多域异质图进行多域特征推理融合获得最终特征表示。在本发明具体实施例中,利用异质图处理多模态特征的能力将视觉特征表示迁移到语言模态并融合答案的特征表示,同时利用异质图将问题和答案的语义特征进行对齐,在分别进行相应的引导机制之后再融合视觉-答案特征和问题-答案特征得到最终的多域推理融合特征。
具体地,步骤S5进一步包括:
步骤S500,对步骤S3和步骤S4获得的视觉特征和答案特征构建视觉-答案跨域异质图,分别将视觉物体特征和答案中的单词特征作为异质图的两种类型节点构建异质图,通过异质图邻接矩阵学习图片中每个物体和答案每个单词之间存在的关联,同时将视觉特征迁移到语言特征,在这个过程中,两个领域的特征融合生成提升版的视觉表征Yo
步骤S501,将步骤S500获得的两领域融合特征Yo通过特定引导机制来生成最终的视觉信息特征Yv
步骤S502,对步骤S4获得的问题特征和答案特征构建问题-答案同域对齐异质图,分别将问题中的单词特征和答案中的单词特征作为异质图的两种类型节点构建异质图,通过异质图邻接矩阵问题中每个物体和答案每个单词之间存在的关联,同时将问题中的单词特征和答案中的单词特征对齐,在这个过程中,两种类型的语言特征对齐融合生成提升版的问题表征Yq
步骤S503,将步骤S502获得的两领域融合特征Yq通过特定引导机制来生成最终的问题信息特征Yq
步骤S504,将步骤S502和步骤S503得到的视觉特征Yv和问题特征Yq通过解析器进行解析融合,在这里解析器组成为二者矩阵加后再接一个全连接层操作,得到的特征也就是最终的融合推理特征。
步骤S6,对获得的特征处理后进行打分,选取得分高的选项为答案。
具体来说,步骤S6进一步包括:
步骤S600,将得到的多域推理融合特征通过全连接层映射成一个四维特征向量。
步骤S601,将四维特征向量经过一个softmax将得分值压缩到[0,1]之间来归一化得到四个选项的得分值,选取得分最高的选项组为模型的选择。
实施例:
以下将配合图5通过具体实施的网络结构变化来说明本发明:在本发明具体实施例中,通过构建并更新融合两个异质图来最终融合视觉领域和语言领域信息得到最终的融合特征。具体过程如下:
在进行异质图构建的介绍之前,使用上下文投票模块(CVM)增强视觉信息:
(1)上下文投票单元(CVM)(即图2中的(a)部分)
具体来说,根据视觉特征和语言特征分别建视觉-答案跨域异质图和问题-答案同域对齐异质图,通过异质图推理模块和相应的引导机制融合特征后进行分类获得最终的推理结果。
本单元的作用是以全局视角来补充信息到局部信息当中,弥补形态不固定背景的未标注情况,具体实施过程可表示为:
其中分别是第l层卷积层的输入和输出,代表j位置上和相关位置上的图像内容。对于任意位置i都会针对全局学习相关关系同时选择最为相关的位置特征进行融合。其中Wa,都是可训练更新矩阵,函数f,g,都是1×1卷积操作。
然后,则进行异质图的构建,本发明要建立两个异质图,分别是视觉-答案跨域异质图和问题-答案同域对齐异质图。
(2)视觉-答案跨域异质图(VAHG)的构建与更新(图5上半部分虚线框内)
具体而言,视觉-答案跨域异质图构建模块中,主要进行的是对视觉信息进行处理对齐到基于答案的语言特征当中,主要使用的是基于异质图神经网络的学习方法,首先会经过异质图推理,而后在特定引导机制的指导下生成对齐后的视觉特征。
异质图推理具体如下:
Yo=δ(ATXoWo) (4)
即,对于输入的初始视觉特征Xo,利用异质图邻接矩阵A联结传播不同的异质图节点信息,此时得到提升版的视觉表征Yo
第一引导机制模块:
具体而言,引导机制中会通过两个步骤来生成最终的视觉信息特征Yv。主要对得到的提升版视觉表征Yo进行处理与答案的语言特征表示Xa相结合。引导机制主要分两步进行:
第一步,利用单词级别的注意力值生成一个中间级别的单词特征表示Xmiddle,具体过程为:
Xa'=F(Xa) (6)
Xmiddle=f([Xm,Yo]) (8)
其中,F是视觉引导函数MLP对语言特征Xa进行编码,an是单词级别的带权注意力值,在这里xa'∈Xa',最终得到的xm组成Xm。将Xm与YO进行级联再经过一个MLP的f函数,这样就得到了注意力值强化后的视觉-答案中间特征信息Xmiddle
第二步,将第一步生成的基于注意力强化后的Xmiddle与视觉特征Yo通过多种映射矩阵来更好的结合Xmiddle和Yo,具体流程如下:
Yv=ψ(φ(YoWo'+XmiddleWa)W) (9)
其中Wo',Wa都是可学习的特征对齐矩阵,将语言领域和视觉领域的特征更好的融合。ψ,φ均为视觉引导函数(例如MLP),融合之后的特征再乘上一个W矩阵,将特征维度映射到目标值。至此,就获得了视觉到答案的引导后特征Yv
(3)问题-答案同域对齐异质图(QAHG)的构建与更新(图5下半部分虚线框内)
问题-答案同域对齐异质图构建如图5所示,与视觉-答案跨域异质图的处理方法大致相同,都要经过异质图推理和相应的引导机制,在这里会获得Yq
具体而言,在问题-答案同域对齐异质图中,与视觉-答案跨域异质图使用的构建流程相似,不同在于,在这里基于语言领域对问题特征和答案特征进行域内对齐操作。模块的输入是问题Xq和侯选答案Xa。处理过程中的邻接矩阵替换成问题和答案对应的关系矩阵。最终获得问题到答案的引导后特征Yq
(4)异质图解析器模块(图5中两虚线框之后的操作)
进一步地,在构建好两种类型异质图之后,会得到基于答案特征生成的两种引导后的特征引导后视觉特征Yv和引导后文体特征Yq。紧接着需要将两种特征进行解析融合得到需要的Ya来进一步进行分类,解析器形式如下:
Ya=F(woYv+wqYq) (10)
其中,Wo,Wq是根据原始输入的视觉和问题特征得到的重要性矩阵,使用点乘的形式将重要性叠加到获得的Yv和Yv之上,有助于更好的注意到重要的特征位置。
然后,经过一个线性映射模块F(例如全连接层)将维度映射到四维,再通过softmax将得到的四维向量归一化,就得到了本发明最终需要的待分类Ya得分,本发明会选取得分最高的选项作为模型选择。具体地,本发明会使用多类交叉熵损失函数来更新网络参数权重。
可见,本发明一种基于多域异质图引导的视觉问题常识推理模型及方法实现了可解释的视觉问题常识推理系统,其遵循由异质图结构引导语言领域和视觉领域知识的无缝融合同时包含一个上下文投票模块来拓宽全局推理的感知区域,增强了上下文信息理解;本发明通过视觉-语言跨域异质图模块和问题-答案同域对齐异质图模块来分别对视觉领域和语言领域进行语义对齐操作,再利用异质图推理和综合特征引导机制分别对两个模块进行联合推理,最后,把联合推理得到的融合特征进行加权融合,从而得到最终的增强特征,本发明能够打破语言领域和视觉领域的壁垒,完整融合并对齐任务中涉及到的多种模态信息,高效执行推理流程,而不是像之前的工作那样受限于同质图内推理或者对两种领域的信息进行简单级联没有考虑到信息的对齐过程,本发明对基于语言领域和视觉领域分别建立动态异质图,最终将建好的两个异质图对齐融合形成一个整体特征空间,并基于此特征空间进行实现常识推理,本发明的推理过程可进行可视化,具有很强的可解释性。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (10)

1.一种基于多域异质图引导的视觉问题常识推理模型,包括:
预训练模型初始化单元,利用预训练模型对基础骨架网络和分类器参数进行初始化;
视觉信息提取单元,用于利用检测器来提取输入图像的视觉信息的初始特征;
上下文投票单元,用于提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中;
语言特征提取单元,用于利用自然语言预训练模型提取语言部分问题和答案的特征表示;
多域特征推理融合单元,用于构造多域异质图,将视觉信息特征和语言信息特征利用多域异质图进行多域特征推理融合获得最终特征表示;
分类单元,用于利用分类器对获得的特征处理后进行打分,选取得分高的选项为答案。
2.如权利要求1所述的一种基于多域异质图引导的视觉问题常识推理模型,其特征在于,所述视觉信息提取单元进一步包括:
图片获取模块,用于获取有标注信息的图片;
视觉特征提取模块,用于提取所述基础骨架网络的conv4特征层,将已知候选框和特征层输入所述检测器,提取图片中各个候选区域的视觉特征。
3.如权利要求1所述的一种基于多域异质图引导的视觉问题常识推理模型,其特征在于:所述上下文投票单元基于全局视角对上下文相关信息进行再提取并补充到局部语义信息当中。
4.如权利要求3所述的一种基于多域异质图引导的视觉问题常识推理模型,其特征在于:所述上下文投票单元进行逐像素点投票获得与其相关的像素点并累加相关像素点的特征,以此来强化局部视觉信息。
5.如权利要求4所述的一种基于多域异质图引导的视觉问题常识推理模型,其特征在于:所述上下文投票单元通过级联的三次投票选择机制融合上下文中相关位置上的信息对初始视觉特征的局部特征进行增强。
6.如权利要求1所述的一种基于多域异质图引导的视觉问题常识推理模型,其特征在于,所述语言特征提取单元进一步包括:
初始语言特征提取模块,用于使用自然语言预训练模型BERT初步提取初始语言特征;
编码器模块,用于利用双向长短期记忆网络将初始语言特征编码为与视觉特征最低维维度数相等的特征矩阵。
7.如权利要求1所述的一种基于多域异质图引导的视觉问题常识推理模型,其特征在于:所述多域特征推理融合单元利用异质图处理多模态特征的能力将视觉特征表示迁移到语言模态并融合答案的特征表示,同时利用异质图将问题和答案的语义特征进行对齐,在分别进行相应的引导机制之后再融合视觉-答案特征和问题-答案特征得到最终的多域推理融合特征。
8.如权利要求7所述的一种基于多域异质图引导的视觉问题常识推理模型,其特征在于,所述多域特征推理融合单元进一步包括:
视觉-答案跨域异质图构建模块,用于对所述上下文投票单元和语言特征提取单元获得的视觉特征和答案特征构建视觉-答案跨域异质图,分别将视觉物体特征和答案中的单词特征作为异质图的两种类型节点构建异质图,通过异质图邻接矩阵学习图片中每个物体和答案每个单词之间存在的关联,同时将视觉特征迁移到语言特征,在此过程中,两个领域的特征融合生成提升版的视觉表征Yo
第一引导机制模块,用于将视觉-答案跨域异质图构建模块获得的两领域融合特征Yo通过特定引导机制来生成最终的视觉信息特征Yv
问题-答案同域对齐异质图构建模块,用于对所述语言特征提取单元104获得的问题特征和答案特征构建问题-答案同域对齐异质图,分别将问题中的单词特征和答案中的单词特征作为异质图的两种类型节点构建异质图,通过异质图邻接矩阵问题中每个物体和答案每个单词之间存在的关联,同时将问题中的单词特征和答案中的单词特征对齐,在此过程中,两种类型的语言特征对齐融合生成提升版的问题表征Yq
第二引导机制模块,用于将所述问题-答案同域对齐异质图构建模块获得的两领域融合特征Yq通过特定引导机制来生成最终的问题信息特征Yq
异质图解析器模块,用于将所述第一引导机制模块和第二引导机制模块得到的视觉特征Yv和问题特征Yq通过解析器进行解析融合。
9.如权利要求1所述的一种基于多域异质图引导的视觉问题常识推理模型,其特征在于,所述分类单元进一步包括:
特征映射模块,用于将得到的多域推理融合特征通过全连接层映射成一个四维特征向量;
归一化模块,用于将所诉四维特征向量经过一个softmax将得分值压缩到[0,1]之间来归一化得到四个选项的得分值,选取得分最高的选项组为模型的选择结果。
10.一种基于多域异质图引导的视觉问题常识推理方法,包括如下步骤:
步骤S1,利用预训练模型对基础骨架网络和分类器参数进行初始化;
步骤S2,利用检测器提取输入图像的视觉部分信息的初始特征;
步骤S3,利用上下文投票单元提取全局视觉信息中未被标注的视觉隐含信息结合到视觉信息的局部特征之中;
步骤S4,利用自然语言预训练模型提取语言部分问题和答案的特征表示;
步骤S5,构造多域异质图,将视觉信息和语言信息利用多域异质图进行多域特征推理融合获得最终特征表示;
步骤S6,利用分类器对获得的特征处理后进行打分,选取得分高的选项为答案。
CN201910772828.1A 2019-08-21 2019-08-21 一种基于多域异质图引导的视觉问题常识推理模型及方法 Active CN110598573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910772828.1A CN110598573B (zh) 2019-08-21 2019-08-21 一种基于多域异质图引导的视觉问题常识推理模型及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910772828.1A CN110598573B (zh) 2019-08-21 2019-08-21 一种基于多域异质图引导的视觉问题常识推理模型及方法

Publications (2)

Publication Number Publication Date
CN110598573A true CN110598573A (zh) 2019-12-20
CN110598573B CN110598573B (zh) 2022-11-25

Family

ID=68854898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910772828.1A Active CN110598573B (zh) 2019-08-21 2019-08-21 一种基于多域异质图引导的视觉问题常识推理模型及方法

Country Status (1)

Country Link
CN (1) CN110598573B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539292A (zh) * 2020-04-17 2020-08-14 中山大学 一种用于具现化场景问答任务的动作决策模型及方法
CN111860457A (zh) * 2020-08-04 2020-10-30 广州市微智联科技有限公司 一种斗殴行为识别预警方法及其识别预警系统
CN112733789A (zh) * 2021-01-20 2021-04-30 清华大学 一种基于动态时空图的视频推理方法、装置、设备及介质
CN112948609A (zh) * 2021-02-01 2021-06-11 湖南大学 一种视觉问答预测方法、系统及存储介质
CN113220911A (zh) * 2021-05-25 2021-08-06 中国农业科学院农业信息研究所 一种农业多源异构数据的分析与挖掘方法及其应用
CN113344053A (zh) * 2021-05-29 2021-09-03 华中师范大学 一种基于试题异构图表征与学习者嵌入的知识追踪方法
CN113420833A (zh) * 2021-07-21 2021-09-21 南京大学 一种基于问题语义映射的视觉问答方法及装置
CN113435399A (zh) * 2021-07-14 2021-09-24 电子科技大学 一种基于多层次排序学习的多轮视觉对话方法
CN113515886A (zh) * 2021-04-28 2021-10-19 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质
CN113553418A (zh) * 2021-07-27 2021-10-26 天津大学 一种基于多模态学习的视觉对话生成方法及装置
CN113792120A (zh) * 2021-04-08 2021-12-14 北京金山数字娱乐科技有限公司 图网络的构建方法及装置、阅读理解方法及装置
CN113887535A (zh) * 2021-12-03 2022-01-04 北京世纪好未来教育科技有限公司 模型训练方法、文本识别方法、装置、设备和介质
CN115310611A (zh) * 2022-10-12 2022-11-08 苏州浪潮智能科技有限公司 一种人物意图推理方法及相关装置
CN115905591A (zh) * 2023-02-22 2023-04-04 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399951A (zh) * 2013-08-19 2013-11-20 山东大学 一种基于异构图具有自反馈特性的半监督图像重排序方法
CN103995804A (zh) * 2013-05-20 2014-08-20 中国科学院计算技术研究所 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
CN108170816A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于深度神经网络的智能视觉问答模型
CN109086892A (zh) * 2018-06-15 2018-12-25 中山大学 一种基于一般依赖树的视觉问题推理模型及系统
CN109583569A (zh) * 2018-11-30 2019-04-05 中控智慧科技股份有限公司 一种基于卷积神经网络的多模态特征融合方法及装置
CN109657717A (zh) * 2018-12-17 2019-04-19 罗世彬 一种基于多尺度密集结构特征提取的异源图像匹配方法
WO2019122701A1 (fr) * 2017-12-19 2019-06-27 Tchek Systeme d'aide a la detection d'un defaut de surface
CN110134774A (zh) * 2019-04-29 2019-08-16 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995804A (zh) * 2013-05-20 2014-08-20 中国科学院计算技术研究所 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置
CN103399951A (zh) * 2013-08-19 2013-11-20 山东大学 一种基于异构图具有自反馈特性的半监督图像重排序方法
CN107688821A (zh) * 2017-07-11 2018-02-13 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
WO2019122701A1 (fr) * 2017-12-19 2019-06-27 Tchek Systeme d'aide a la detection d'un defaut de surface
CN108170816A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于深度神经网络的智能视觉问答模型
CN109086892A (zh) * 2018-06-15 2018-12-25 中山大学 一种基于一般依赖树的视觉问题推理模型及系统
CN109583569A (zh) * 2018-11-30 2019-04-05 中控智慧科技股份有限公司 一种基于卷积神经网络的多模态特征融合方法及装置
CN109657717A (zh) * 2018-12-17 2019-04-19 罗世彬 一种基于多尺度密集结构特征提取的异源图像匹配方法
CN110134774A (zh) * 2019-04-29 2019-08-16 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王青等: ""基于深度卷积神经网络的跨年龄人脸识别"", 《北京邮电大学学报》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539292B (zh) * 2020-04-17 2023-07-07 中山大学 一种用于具现化场景问答任务的动作决策模型及方法
CN111539292A (zh) * 2020-04-17 2020-08-14 中山大学 一种用于具现化场景问答任务的动作决策模型及方法
CN111860457A (zh) * 2020-08-04 2020-10-30 广州市微智联科技有限公司 一种斗殴行为识别预警方法及其识别预警系统
CN112733789A (zh) * 2021-01-20 2021-04-30 清华大学 一种基于动态时空图的视频推理方法、装置、设备及介质
CN112948609A (zh) * 2021-02-01 2021-06-11 湖南大学 一种视觉问答预测方法、系统及存储介质
CN113792120B (zh) * 2021-04-08 2023-09-15 北京金山数字娱乐科技有限公司 图网络的构建方法及装置、阅读理解方法及装置
CN113792120A (zh) * 2021-04-08 2021-12-14 北京金山数字娱乐科技有限公司 图网络的构建方法及装置、阅读理解方法及装置
CN113515886A (zh) * 2021-04-28 2021-10-19 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质
CN113515886B (zh) * 2021-04-28 2023-11-24 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质
CN113220911A (zh) * 2021-05-25 2021-08-06 中国农业科学院农业信息研究所 一种农业多源异构数据的分析与挖掘方法及其应用
CN113220911B (zh) * 2021-05-25 2024-02-02 中国农业科学院农业信息研究所 一种农业多源异构数据的分析与挖掘方法及其应用
CN113344053A (zh) * 2021-05-29 2021-09-03 华中师范大学 一种基于试题异构图表征与学习者嵌入的知识追踪方法
CN113435399A (zh) * 2021-07-14 2021-09-24 电子科技大学 一种基于多层次排序学习的多轮视觉对话方法
CN113420833A (zh) * 2021-07-21 2021-09-21 南京大学 一种基于问题语义映射的视觉问答方法及装置
CN113420833B (zh) * 2021-07-21 2023-12-26 南京大学 一种基于问题语义映射的视觉问答方法及装置
CN113553418A (zh) * 2021-07-27 2021-10-26 天津大学 一种基于多模态学习的视觉对话生成方法及装置
CN113887535A (zh) * 2021-12-03 2022-01-04 北京世纪好未来教育科技有限公司 模型训练方法、文本识别方法、装置、设备和介质
CN115310611A (zh) * 2022-10-12 2022-11-08 苏州浪潮智能科技有限公司 一种人物意图推理方法及相关装置
WO2024077891A1 (zh) * 2022-10-12 2024-04-18 苏州元脑智能科技有限公司 一种人物意图推理方法及相关装置
CN115905591A (zh) * 2023-02-22 2023-04-04 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质

Also Published As

Publication number Publication date
CN110598573B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN110598573B (zh) 一种基于多域异质图引导的视觉问题常识推理模型及方法
CN110377710B (zh) 一种基于多模态融合的视觉问答融合增强方法
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
Arevalo et al. Gated multimodal networks
CN111026842A (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
Yu et al. Heterogeneous graph learning for visual commonsense reasoning
CN112966127A (zh) 一种基于多层语义对齐的跨模态检索方法
CN109726718B (zh) 一种基于关系正则化的视觉场景图生成系统及方法
CN111598183B (zh) 一种多特征融合图像描述方法
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN111598118A (zh) 一种视觉问答任务实现方法及系统
EP4302234A1 (en) Cross-modal processing for vision and language
CN111741236B (zh) 基于共识图表征推理的定位自然图像字幕生成方法和装置
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
Lee et al. Deep-learning and graph-based approach to table structure recognition
CN111985525A (zh) 基于多模态信息融合处理的文本识别方法
CN116402066A (zh) 多网络特征融合的属性级文本情感联合抽取方法及系统
CN115099234A (zh) 一种基于图神经网络的中文多模态细粒度情感分析方法
CN113312912B (zh) 一种用于交通基础设施检测文本的机器阅读理解方法
CN115131801A (zh) 基于多模态的文档识别方法、装置、设备和存储介质
Bashmal et al. Visual question generation from remote sensing images
Yang et al. Research on AI-assisted grading of math questions based on deep learning
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
CN114821188A (zh) 图像处理方法、场景图生成模型的训练方法以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230331

Address after: 510220 courtyard, No. 135, Xingang West Road, Haizhu District, Guangzhou City, Guangdong Province

Patentee after: SUN YAT-SEN University

Patentee after: National University of Defense Technology

Address before: 510275, No. 135, Xingang West Road, Guangzhou, Guangdong, Haizhuqu District

Patentee before: SUN YAT-SEN University