CN111598118B - 一种视觉问答任务实现方法及系统 - Google Patents

一种视觉问答任务实现方法及系统 Download PDF

Info

Publication number
CN111598118B
CN111598118B CN201911261467.0A CN201911261467A CN111598118B CN 111598118 B CN111598118 B CN 111598118B CN 201911261467 A CN201911261467 A CN 201911261467A CN 111598118 B CN111598118 B CN 111598118B
Authority
CN
China
Prior art keywords
visual
answer
features
feature
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911261467.0A
Other languages
English (en)
Other versions
CN111598118A (zh
Inventor
余伟江
梁小丹
林倞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201911261467.0A priority Critical patent/CN111598118B/zh
Publication of CN111598118A publication Critical patent/CN111598118A/zh
Application granted granted Critical
Publication of CN111598118B publication Critical patent/CN111598118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视觉问答任务实现方法及系统,该方法包括:步骤S1,对输入图片提取视觉特征Xo,对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc;步骤S2,基于视觉因果关系推理更新每一个视觉特征,得到更新后的视觉实体特征Xg;步骤S3,将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征XV;步骤S4,将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL;步骤S5,将步骤S3和步骤S4产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答。

Description

一种视觉问答任务实现方法及系统
技术领域
本发明涉及计算机视觉、模式识别技术领域,特别是涉及一种利用语言领域特有的问答因果关系来赋予视觉实体间关系的因果性,辅助视觉常识问答推理任务的视觉问答任务实现方法及系统。
背景技术
基于视觉问答的任务是人工智能领域的一个基础问题,在计算机视觉和自然语言处理的交叉领域中得到了日益增加的关注。近年来,视觉问答任务作为视觉和语言的交叉领域的子问题,对人工智能领域的视觉导航、智能询问助手、家政辅导、情感对话机器人等应用的辅助研究引起了热点关注。因为深度卷积神经网络的发展,该类问题得到了很大的进步。现有的方法大多数是利用端到端的深度卷积神经网络的方法来直接融合视觉和语言的特征来预测最终的回答,然而,该类方法缺少对网络的可解释性,同时也缺乏对问答推理中的常识性场景进行视觉常识关系解析。相比而言,利用语言领域特有的问答因果关系嵌入到视觉实体间关系,采用视觉因果关系推理的方法对视觉实体特征进行因果推理,同时利用推理更新后的视觉特征结合语言特征来综合预测最终的基于常识的答案结果,可增强网络在因果推理方面的认知能力,同时提升网络的总体性能。
目前在视觉问答方面的研究主要有以下两种方法:一种是简单利用端到端的深度卷积神经网络的方法去直接融合视觉和语言的特征来预测回答,该类方法缺乏对网络的可解释性,对单纯视觉数据敏感,同时也缺乏对问答推理中的常识性场景进行解析建模;另外一种是单纯利用视觉实体间的属性相似性或类别相似性作为视觉实体间关系进行关系建模,比如“人”这个视觉实体之间的相似性就很高,或者利用句子语义词和具体的视觉实体建立语义对齐,比如句子中的“person”单词和视觉中的“人”的特征进行对齐,如图6的(a)和(b)。然而,上述方法并没有对视觉常识关系进行有效建模的方法,让问答语句中的因果关系无法有效地和视觉实体关系进行无缝衔接,从而无法达到赋予视觉关系因果性来提升视觉常识问答推理任务的准确性。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种视觉问答任务实现方法及系统,以实现一种将语言领域的因果关系引入到视觉领域进行视觉因果关系推理的机制,拥有更高的预测精度和可解释性。
为达上述及其它目的,本发明提出一种视觉问答任务实现方法,包括如下步骤:
步骤S1,对输入图片提取视觉特征Xo,对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc
步骤S2,基于视觉因果关系推理更新每一个视觉特征,得到更新后的视觉实体特征Xg
步骤S3,将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征XV
步骤S4,将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL
步骤S5,将步骤S3和步骤S4产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答。
优选地,步骤S2进一步包括:
步骤S200,初步构建视觉特征间的语义关联关系;
步骤S201,基于视觉特征Xo、已知语言特征Xq和候选答案特征Xc,利用语言层面的问答因果关系生成视觉因果关系;
步骤S202,根据生成的视觉因果关系,采用视觉因果关系推理来更新每一个视觉特征。
优选地,于步骤S200中,利用矩阵內积的方法初步构建视觉特征间的语义关联关系。
优选地,步骤S201进一步包括:
将已知语言特征Xq和候选答案特征Xc进行串联,通过长短期记忆网络对语言问答特征间的因果关系进行建模,得到初步的问答因果关系表征Xqc
利用该问答因果关系表征Xqc嵌入到视觉特征Xo,构建每一个视觉实体和对应问答因果关系间的关联Xoqc,搭建起视觉实体和语言因果关系的桥梁;
利用自注意力机制的操作结合矩阵乘法的操作,进一步生成视觉因果关系 Ag
优选地,于步骤S202中,采用图卷积的操作,利用步骤S201得到的视觉因果关系,对视觉特征实施视觉因果关系推理,得到更新后的视觉实体特征Xg
优选地,步骤S3进一步包括:
融合更新后的视觉实体特征Xg和候选答案特征Xc,得到一个中间特征Xgc
利用归一化表征进行投票学习得到和候选答案相关性强的若干视觉实体表征的关系X
利用该关系X作用于更新后的视觉实体特征Xg得到最终的视觉敏感的回答特征XV
优选地,于步骤S4中,在已知语言特征Xq的引导下,利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征,作为所述语言敏感的回答特征XL
优选地,于步骤S5中,利用步骤S4和步骤S3的输出特征,应用一个全连接的操作结合串联操作,来预测出最后的问题答案表示。
优选地,步骤S1进一步包括:
步骤S100,利用物体检测器作为视觉特征提取网络,对输入图片I进行特征提取得到视觉特征Xo
步骤S101,采用一个共享权重的特征提取器分别对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语句的语义特征表示Xq以及候选答案的语义特征表示Xc
为达到上述目的,本发明还提供一种视觉回答任务实现系统,包括:
基础视觉特征提取模块,用于对输入图片提取视觉特征Xo
语言特征提取模块,用于对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc
因果关系引导模块,用于基于视觉因果关系推理更新每一个视觉特征,得到更新后的视觉实体特征Xg
视觉引导模块,用于将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征XV
语言引导模块,用于将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL
融合模块,用于将所述视觉引导模块和语言引导模块产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答。
与现有技术相比,本发明一种视觉问答任务实现方法通过提出视觉因果关系推理,并将其应用到通用的常识问答任务中,使得问答语句中的因果关系可以有效地和视觉实体关系进行无缝衔接,从而达到赋予视觉关系因果性来提升视觉常识问答推理任务的准确性的目的。本发明相比于近期的基于多种注意力机制预测、基于视觉实体间关系预测以及利用语义词和具体视觉实体进行语义对齐的问答推理方法本发明不仅拥有更高的预测精度和可解释性,而且提供了一种将语言领域的因果关系引入到视觉领域进行视觉因果关系推理的机制。
附图说明
图1为本发明一种视觉问答任务实现方法的步骤流程图;
图2为本发明一种视觉回答任务实现系统的系统架构图;
图3为本发明具体实施例中因果关系引导模块的细部结构图;
图4为本发明具体实施例之视觉回答任务实现系统的系统框架图;
图5为本发明实施例中因果关系引导模块、语言引导模块以及视觉引导模块的示意图;
图6示出本发明视觉因果关系推理与现有技术的区别。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种视觉问答任务实现方法的步骤流程图。如图1所示,本发明一种视觉问答任务实现方法,包括如下步骤:
步骤S1,对输入图片提取视觉特征Xo,对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc
具体地,步骤S1进一步包括:
步骤S100,利用目前已有的物体检测器(CNN)作为视觉特征提取网络,得到视觉特征Xo
在本发明具体实施例中,对于输入图片
Figure RE-GDA0002465961930000051
具体操作如下:
Figure RE-GDA0002465961930000052
步骤S101,对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc。在本发明具体实施例中,采用一个共享权重的特征提取器(BERT)分别对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语句的语义特征表示Xq以及候选答案的语义特征表示Xc,对于输入的已知语句Q以及输入的候选回答语句
Figure RE-GDA0002465961930000061
具体操作如下:
Figure RE-GDA0002465961930000062
Figure RE-GDA0002465961930000063
步骤S2,通过构建视觉实体间的关系、利用语言层面的问答因果关系来生成视觉因果关系以及采用视觉因果关系推理来更新每一个视觉特征Xg
在本发明具体实施例中,步骤S2进一步包括:
步骤S200,构建初步的视觉实体间关系。
在本发明具体实施例中,利用矩阵內积的方法初步构建视觉间的语义关联关系。
步骤S201,利用语言层面的问答因果关系来生成视觉因果关系。
具体地,首先将已知语义特征和候选语义特征进行串联起来,通过长短期记忆网络(LSTM,Long Short-Term Memory)对语言问答特征间的因果关系进行建模,得到初步的问答因果关系表征
Figure RE-GDA0002465961930000064
然后利用该问答因果关系表征Xqc嵌入到视觉实体特征Xo,来构建每一个视觉实体和对应问答因果关系间的关联/>
Figure RE-GDA0002465961930000065
搭建起视觉实体和语言因果关系的桥梁;最后利用自注意力机制(self-attention)的操作结合矩阵乘法的操作,来进一步生成视觉因果关系/>
Figure RE-GDA0002465961930000066
视觉因果关系生成模块2032搭建起了视觉实体关系和语言因果关系这两种关系间的桥梁。
步骤S202,采用视觉因果关系推理来更新每一个视觉实体特征。
在本发明具体实施例中,采用图卷积的操作,利用步骤S201得到的视觉因果关系,对视觉特征实施视觉因果关系推理,得到更新后的视觉特征
Figure RE-GDA0002465961930000067
这里的其他数学符号表示带权重w的多层感知机MLP。
步骤S3,将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征。
具体地说,首先融合视觉和候选语言特征,得到一个中间特征
Figure RE-GDA0002465961930000071
然后利用归一化表征进行投票学习得到和候选答案相关性比较强的几个视觉实体表征的关系X;最后利用该关系作用于视觉实体特征来得到最终的视觉敏感的回答特征XV
步骤S4,将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL
于步骤S4中,对两个语言特征间构建问答的关联,在已知语言特征的引导下,利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征,作为本模块的输出特征表示,即语言敏感的回答特征XL
步骤S5,将步骤S3和步骤S4产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答。
在本发明具体实施例中,步骤S5利用步骤S4和步骤S3的输出特征,应用一个全连接的操作结合串联操作,来预测出最后的问题答案表示。
图2为本发明一种视觉回答任务实现系统的系统架构图。如图2所示,本发明一种视觉回答任务实现系统,包括:
基础视觉特征提取模块201,用于对输入图片提取视觉特征Xo。在本发明具体实施例中,基础视觉特征提取模块201利用目前已有的物体检测器(CNN) 作为视觉特征提取网络,得到视觉特征Xo,对于输入图片
Figure RE-GDA0002465961930000072
具体操作如下:
Figure RE-GDA0002465961930000073
语言特征提取模块202,用于对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc。在本发明具体实施例中,语言特征提取模块202采用一个共享权重的特征提取器(BERT)分别对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语句的语义特征表示Xq以及候选答案的语义特征表示Xc,对于输入的已知语句
Figure RE-GDA0002465961930000081
以及输入的候选回答语句/>
Figure RE-GDA0002465961930000082
具体操作如下:
Figure RE-GDA0002465961930000083
Figure RE-GDA0002465961930000084
因果关系引导模块203,用于通过构建视觉实体间的关系、利用语言层面的问答因果关系来生成视觉因果关系以及采用视觉因果关系推理来更新每一个视觉特征Xg
在本发明具体实施例中,如图3所示,因果关系引导模块203进一步包括:
视觉实体间关系构建模块2031,用于构建初步的视觉实体间关系。
在本发明具体实施例中,视觉实体间关系构建模块2031利用矩阵內积的方法初步构建视觉间的语义关联关系。
才,用于利用语言层面的问答因果关系来生成视觉因果关系。
具体地,视觉因果关系生成模块2032首先将已知语义特征和候选语义特征进行串联起来,通过长短期记忆网络(LSTM,Long Short-Term Memory)对语言问答特征间的因果关系进行建模,得到初步的问答因果关系表征
Figure RE-GDA0002465961930000085
然后利用该问答因果关系表征Xqc嵌入到视觉实体特征Xo,来构建每一个视觉实体和对应问答因果关系间的关联
Figure RE-GDA0002465961930000086
搭建起视觉实体和语言因果关系的桥梁;最后利用自注意力机制(self-attention)的操作结合矩阵乘法的操作,来进一步生成视觉因果关系/>
Figure RE-GDA0002465961930000087
视觉因果关系生成模块 2032搭建起了视觉实体关系和语言因果关系这两种关系间的桥梁。
视觉特征更新模块2033,用于采用视觉因果关系推理来更新每一个视觉实体特征。
在本发明具体实施例中,视觉特征更新模块2033采用图卷积的操作,利用视觉因果关系生成模块2032得到的视觉因果关系,对视觉特征实施视觉因果关系推理,得到更新后的视觉特征
Figure RE-GDA0002465961930000091
这里的其他数学符号表示带权重w 的多层感知机MLP。
视觉引导模块204,用于将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征。
具体地说,视觉引导模块204首先融合视觉和候选语言特征,得到一个中间特征
Figure RE-GDA0002465961930000092
然后利用归一化表征进行投票学习得到和候选答案相关性比较强的几个视觉实体表征的关系X;最后利用该关系作用于视觉实体特征来得到最终的视觉敏感的回答特征XV
语言引导模块205,用于将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL
语言引导模块205和视觉引导模块204是一个类似对称的模块。语言引导模块205在于对两张语言特征间构建问答的关联,在已知语言特征的引导下,利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征,作为本模块的输出特征表示,即语言敏感的回答特征XL
融合模块206,用于将视觉引导模块204和语言引导模块205产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答。
在本发明具体实施例中,融合模块206利用语言引导模块205和视觉引导模块204的输出特征,应用一个全连接的操作结合串联操作,来预测出最后的问题答案表示。
实施例
图4为本发明具体实施例之视觉回答任务实现系统的系统框架图,图5为本发明实施例中因果关系引导模块、语言引导模块以及视觉引导模块的示意图。
如图4所示,定义知识图谱
Figure RE-GDA0002465961930000093
其中/>
Figure RE-GDA0002465961930000094
表示节点集合,ε表示节点边集合。模型整体神经网络的输入由三部分组成,分别是关于图像/>
Figure RE-GDA0002465961930000095
的物体区域集合/>
Figure RE-GDA0002465961930000096
已知语句单词集合/>
Figure RE-GDA0002465961930000097
候选答案单词集合/>
Figure RE-GDA0002465961930000098
根据提取得到的特征构建的图节点定义分别为/>
Figure RE-GDA0002465961930000101
其中,/>
Figure RE-GDA0002465961930000102
可以代表独立存在的d维物体特征向量,问题单词特征向量和答案单词特征向量,N,M,kB则分别表示一张图片中物体数量,一个问题句子中单词数量和k个候选答案句子中单词数量,在视觉常识问答推理中,k=4。将它们分别进行级联表示成矩阵形式就分别成为了本发明系统网络模型的三种特征输入/>
Figure RE-GDA0002465961930000103
最终模型输出一个对4个备选答案各自的打分的四维向量Y∈R4,则选择得分最高的选项作为答案。
基础视觉和语言的特征提取:输入图片
Figure RE-GDA0002465961930000104
基础视觉特征提取模块和语言特征提取模块采用目前已有的物体检测器作为视觉特征提取网络,得到视觉特征Xo,已知语言特征Xq和候选答案特征Xc。具体操作如下:
Figure RE-GDA0002465961930000105
Figure RE-GDA0002465961930000106
Figure RE-GDA0002465961930000107
其中语言特征提取模块对语言部分的特征提取采用一个共享权重的特征提取器(BERT),基础视觉特征提取模块采用CNN卷积神经网络进行视觉特征提取。
因果关系引导模块:在完成上述的基础视觉特征和语言特征提取后,本发明利用因果关系引导模块,具体地,包含如下三步操作:
第一步,构建初步的视觉实体间关系,具体操作如下:
A=fw1(Xo)fw2(Xo T)
其中,本实施例利用矩阵內积的方法初步构建视觉间的语义关联关系,用 A表示,其中的f均为可学习的权重参数。
第二步,利用语言层面的问答因果关系来生成视觉因果关系。具体操作如下:
Xqc=LSTM([Xq,Xc])
Xoqc=XoW0Xqc T
A1=AXoqc
A2=AXoqc
Figure RE-GDA0002465961930000111
具体地,首先将已知语义特征和候选语义特征进行串联起来,通过LSTM 对语言问答特征间的因果关系进行建模,得到初步的问答因果关系表征
Figure RE-GDA0002465961930000112
然后利用该问答因果关系表征嵌入到视觉实体特征,来构建每一个视觉实体和对应问答因果关系间的关联/>
Figure RE-GDA0002465961930000113
搭建起视觉实体和语言因果关系的桥梁。最后利用self-attention的操作结合矩阵乘法的操作,来进一步生成视觉因果关系/>
Figure RE-GDA0002465961930000114
这一步是搭建起了视觉实体关系和语言因果关系这两种关系间的桥梁。本步骤中的W和其他数学符号表示可学习的权重和对应的非线性函数。
第三步,采用视觉因果关系推理来更新每一个视觉实体特征。具体操作如下:
Xg=σw(AgXo)
具体地,采用图卷积的操作,利用第二步骤得到视觉因果关系,对视觉特征实施视觉因果关系推理,得到更新后的视觉特征
Figure RE-GDA0002465961930000115
本步骤的其他数学符号表示带权重w的多层感知机MLP。
视觉引导模块。将更新后的视觉实体特征
Figure RE-GDA0002465961930000116
作为引导特征,对候选的语言回答特征Xc进行引导,选择出视觉敏感的回答特征XV。具体操作如下:
Xgc=XgXc TWV1
Figure RE-GDA0002465961930000117
Figure RE-GDA0002465961930000118
Figure RE-GDA0002465961930000119
Figure RE-GDA00024659619300001110
具体地,首先融合视觉和候选语言特征,得到一个中间特征
Figure RE-GDA00024659619300001111
然后利用归一化表征进行投票学习得到和候选答案相关性比较强的几个视觉实体表征的关系X,然后利用该关系作用于视觉实体特征来得到最终的视觉敏感回答特征。
语言引导模块:将已知语言特征作为引导特征,对候选的语言回答特征进行引导选择出语言敏感的回答特征,如图5所示,本模块和视觉引导模块是一个类似对称的模块。本模块在于对两张语言特征间构建问答的关联,在已知语言特征的引导下,利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征,作为本模块的输出特征表示----语言敏感的回答特征。
融合模块:利用语言引导模块和视觉引导模块的输出特征,应用一个全连接的操作结合串联操作,来预测出最后的问题答案表示,具体操作如下:
Y=FC([XV,XL])
其中FC是表示带可学习权重的全连接操作,[]表示串联操作,Y是表示最终预测出的回答。
在本实施例中,利用交叉熵函数作为本发明框架协同训练的目标函数,以 Adam为优化函数,权重衰减系数是0.0001,初始学习率为0.0002,每完整训练两次,学习率调整为原来的一半,利用随机梯度下降算法进行整体端到端的训练。
图6示出本发明视觉因果关系推理与现有技术的区别。图6中(a)和(b) 为现有技术,(c)为本发明的视觉因果关系推理结果,可见,通过本发明的视觉因果关系推理,问答语句中的因果关系可以有效地和视觉实体关系进行无缝衔接,从而达到赋予视觉关系因果性来提升视觉常识问答推理任务的准确性的目的。
综上所述,本发明一种视觉问答任务实现方法通过提出视觉因果关系推理,并将其应用到通用的常识问答任务中,使得问答语句中的因果关系可以有效地和视觉实体关系进行无缝衔接,从而达到赋予视觉关系因果性来提升视觉常识问答推理任务的准确性的目的。本发明相比于近期的基于多种注意力机制预测、基于视觉实体间关系预测以及利用语义词和具体视觉实体进行语义对齐的问答推理方法本发明不仅拥有更高的预测精度和可解释性,而且提供了一种将语言领域的因果关系引入到视觉领域进行视觉因果关系推理的机制。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。

Claims (7)

1.一种视觉问答任务实现方法,包括如下步骤:
步骤S1,对输入图片提取视觉特征Xo,对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc
步骤S2,基于视觉因果关系推理更新每一个视觉特征,得到更新后的视觉实体特征Xg
步骤S3,将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征XV
步骤S4,将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL
步骤S5,将步骤S3和步骤S4产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答;
步骤S2进一步包括:
步骤S200,初步构建视觉特征间的语义关联关系;
步骤S201,基于视觉特征Xo、已知语言特征Xq和候选答案特征Xc,利用语言层面的问答因果关系生成视觉因果关系;
步骤S202,根据生成的视觉因果关系,采用视觉因果关系推理来更新每一个视觉特征;
步骤S201进一步包括:
将已知语言特征Xq和候选答案特征Xc进行串联,通过长短期记忆网络对语言问答特征间的因果关系进行建模,得到初步的问答因果关系表征Xqc
利用该问答因果关系表征Xqc嵌入到视觉特征Xo,构建每一个视觉实体和对应问答因果关系间的关联Xoqc,搭建起视觉实体和语言因果关系的桥梁;
利用自注意力机制的操作结合矩阵乘法的操作,进一步生成视觉因果关系Ag
步骤S3进一步包括:
融合更新后的视觉实体特征Xg和候选答案特征Xc,得到一个中间特征Xgc
利用归一化表征进行投票学习得到和候选答案相关性强的若干视觉实体表征的关系X
利用该关系X作用于更新后的视觉实体特征Xg得到最终的视觉敏感的回答特征XV
2.如权利要求1所述的一种视觉问答任务实现方法,其特征在于:于步骤S200中,利用矩阵內积的方法初步构建视觉特征间的语义关联关系。
3.如权利要求1所述的一种视觉问答任务实现方法,其特征在于:于步步骤S202中,采用图卷积的操作,利用步骤S201得到的视觉因果关系,对视觉特征实施视觉因果关系推理,得到更新后的视觉实体特征Xg
4.如权利要求1所述的一种视觉问答任务实现方法,其特征在于:于步骤S4中,在已知语言特征Xq的引导下,利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征,作为所述语言敏感的回答特征XL
5.如权利要求4所述的一种视觉问答任务实现方法,其特征在于:于步骤S5中,利用步骤S4和步骤S3的输出特征,应用一个全连接的操作结合串联操作,来预测出最后的问题答案表示。
6.如权利要求1所述的一种视觉问答任务实现方法,其特征在于,步骤S1进一步包括:
步骤S100,利用物体检测器作为视觉特征提取网络,对输入图片
Figure FDA0004102637900000021
进行特征提取得到视觉特征Xo
步骤S101,采用一个共享权重的特征提取器分别对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语句的语义特征表示Xq以及候选答案的语义特征表示Xc
7.一种基于权利要求1至6所述的视觉问答任务实现方法的视觉回答任务实现系统,包括:
基础视觉特征提取模块,用于对输入图片提取视觉特征Xo
语言特征提取模块,用于对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc
因果关系引导模块,用于基于视觉因果关系推理更新每一个视觉特征,得到更新后的视觉实体特征Xg
视觉引导模块,用于将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征XV
语言引导模块,用于将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL
融合模块,用于将所述视觉引导模块和语言引导模块产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答。
CN201911261467.0A 2019-12-10 2019-12-10 一种视觉问答任务实现方法及系统 Active CN111598118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911261467.0A CN111598118B (zh) 2019-12-10 2019-12-10 一种视觉问答任务实现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911261467.0A CN111598118B (zh) 2019-12-10 2019-12-10 一种视觉问答任务实现方法及系统

Publications (2)

Publication Number Publication Date
CN111598118A CN111598118A (zh) 2020-08-28
CN111598118B true CN111598118B (zh) 2023-07-07

Family

ID=72188856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911261467.0A Active CN111598118B (zh) 2019-12-10 2019-12-10 一种视觉问答任务实现方法及系统

Country Status (1)

Country Link
CN (1) CN111598118B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380326B (zh) * 2020-10-10 2022-07-08 中国科学院信息工程研究所 一种基于多层感知的问题答案抽取方法及电子装置
CN112417120B (zh) * 2020-11-20 2022-10-04 中山大学 一种基于强化学习的生成式医疗问答方法及系统
CN113010656B (zh) * 2021-03-18 2022-12-20 广东工业大学 一种基于多模态融合和结构性控制的视觉问答方法
CN113033209B (zh) * 2021-05-25 2021-09-17 腾讯科技(深圳)有限公司 文本关系抽取方法、装置、存储介质及计算机设备
CN114398471A (zh) * 2021-12-24 2022-04-26 哈尔滨工程大学 一种基于深层推理注意力机制的视觉问答方法
CN116051155B (zh) * 2023-03-29 2023-07-14 北京嘀嘀无限科技发展有限公司 用户识别方法、装置、设备、存储介质和程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的系统和方法
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法
CN110263912A (zh) * 2019-05-14 2019-09-20 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110309850A (zh) * 2019-05-15 2019-10-08 山东省计算中心(国家超级计算济南中心) 基于语言先验问题识别和缓解的视觉问答预测方法及系统
CN110348462A (zh) * 2019-07-09 2019-10-18 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的系统和方法
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法
CN110263912A (zh) * 2019-05-14 2019-09-20 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110309850A (zh) * 2019-05-15 2019-10-08 山东省计算中心(国家超级计算济南中心) 基于语言先验问题识别和缓解的视觉问答预测方法及系统
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110348462A (zh) * 2019-07-09 2019-10-18 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Weijiang Yu et al..Heterogeneous Graph Learning for Visual Commonsense Reasoning.《arXiv:1910.11475v1》.2019,第1-2页. *

Also Published As

Publication number Publication date
CN111598118A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111598118B (zh) 一种视觉问答任务实现方法及系统
CN111897941B (zh) 对话生成方法、网络训练方法、装置、存储介质及设备
Chen et al. Knowedu: A system to construct knowledge graph for education
Ribeiro et al. Anchors: High-precision model-agnostic explanations
CN111078836B (zh) 基于外部知识增强的机器阅读理解方法、系统、装置
CN110390397B (zh) 一种文本蕴含识别方法及装置
CN111985245A (zh) 基于注意力循环门控图卷积网络的关系提取方法及系统
CA3006826A1 (en) Methods and systems for generating and traversing discourse graphs using artificial neural networks
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN110851760B (zh) 在web3D环境融入视觉问答的人机交互系统
CN111428015A (zh) 一种信息生成方法、装置、设备及存储介质
CN111563146B (zh) 一种基于推理的难度可控问题生成方法
Yuan et al. 3G structure for image caption generation
CN113505924B (zh) 一种基于级联时空特征的信息传播预测方法及系统
CN112115687A (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
Cabada et al. Mining of educational opinions with deep learning
CN114254127A (zh) 学生能力画像方法、学习资源推荐方法及装置
Dai et al. A survey on dialog management: Recent advances and challenges
CN113779310A (zh) 一种基于层级表征网络的视频理解文本生成方法
Chempavathy et al. AI based Chatbots using deep neural networks in education
CN113283488B (zh) 一种基于学习行为的认知诊断方法及系统
Karimi et al. Relevant question answering in community based networks using deep lstm neural networks
Wang et al. Dynamic dual graph networks for textbook question answering
CN111046157B (zh) 一种基于平衡分布的通用英文人机对话生成方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Yu Weijiang

Inventor after: Liang Xiaodan

Inventor after: Lin Jing

Inventor before: Yu Weijiang

Inventor before: Liang Xiaodan

Inventor before: Xiao Nong

Inventor before: Lin Jing

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant