CN111598118A - 一种视觉问答任务实现方法及系统 - Google Patents
一种视觉问答任务实现方法及系统 Download PDFInfo
- Publication number
- CN111598118A CN111598118A CN201911261467.0A CN201911261467A CN111598118A CN 111598118 A CN111598118 A CN 111598118A CN 201911261467 A CN201911261467 A CN 201911261467A CN 111598118 A CN111598118 A CN 111598118A
- Authority
- CN
- China
- Prior art keywords
- visual
- feature
- answer
- features
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 219
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000001364 causal effect Effects 0.000 claims abstract description 92
- 230000004438 eyesight Effects 0.000 claims abstract description 25
- 238000000605 extraction Methods 0.000 claims description 20
- 230000007246 mechanism Effects 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 5
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种视觉问答任务实现方法及系统,该方法包括:步骤S1,对输入图片提取视觉特征Xo,对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc;步骤S2,基于视觉因果关系推理更新每一个视觉特征,得到更新后的视觉实体特征Xg;步骤S3,将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征XV;步骤S4,将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL;步骤S5,将步骤S3和步骤S4产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答。
Description
技术领域
本发明涉及计算机视觉、模式识别技术领域,特别是涉及一种利用语言领域特有的问答因果关系来赋予视觉实体间关系的因果性,辅助视觉常识问答推理任务的视觉问答任务实现方法及系统。
背景技术
基于视觉问答的任务是人工智能领域的一个基础问题,在计算机视觉和自然语言处理的交叉领域中得到了日益增加的关注。近年来,视觉问答任务作为视觉和语言的交叉领域的子问题,对人工智能领域的视觉导航、智能询问助手、家政辅导、情感对话机器人等应用的辅助研究引起了热点关注。因为深度卷积神经网络的发展,该类问题得到了很大的进步。现有的方法大多数是利用端到端的深度卷积神经网络的方法来直接融合视觉和语言的特征来预测最终的回答,然而,该类方法缺少对网络的可解释性,同时也缺乏对问答推理中的常识性场景进行视觉常识关系解析。相比而言,利用语言领域特有的问答因果关系嵌入到视觉实体间关系,采用视觉因果关系推理的方法对视觉实体特征进行因果推理,同时利用推理更新后的视觉特征结合语言特征来综合预测最终的基于常识的答案结果,可增强网络在因果推理方面的认知能力,同时提升网络的总体性能。
目前在视觉问答方面的研究主要有以下两种方法:一种是简单利用端到端的深度卷积神经网络的方法去直接融合视觉和语言的特征来预测回答,该类方法缺乏对网络的可解释性,对单纯视觉数据敏感,同时也缺乏对问答推理中的常识性场景进行解析建模;另外一种是单纯利用视觉实体间的属性相似性或类别相似性作为视觉实体间关系进行关系建模,比如“人”这个视觉实体之间的相似性就很高,或者利用句子语义词和具体的视觉实体建立语义对齐,比如句子中的“person”单词和视觉中的“人”的特征进行对齐,如图6的(a)和(b)。然而,上述方法并没有对视觉常识关系进行有效建模的方法,让问答语句中的因果关系无法有效地和视觉实体关系进行无缝衔接,从而无法达到赋予视觉关系因果性来提升视觉常识问答推理任务的准确性。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种视觉问答任务实现方法及系统,以实现一种将语言领域的因果关系引入到视觉领域进行视觉因果关系推理的机制,拥有更高的预测精度和可解释性。
为达上述及其它目的,本发明提出一种视觉问答任务实现方法,包括如下步骤:
步骤S1,对输入图片提取视觉特征Xo,对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc;
步骤S2,基于视觉因果关系推理更新每一个视觉特征,得到更新后的视觉实体特征Xg;
步骤S3,将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征XV;
步骤S4,将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL;
步骤S5,将步骤S3和步骤S4产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答。
优选地,步骤S2进一步包括:
步骤S200,初步构建视觉特征间的语义关联关系;
步骤S201,基于视觉特征Xo、已知语言特征Xq和候选答案特征Xc,利用语言层面的问答因果关系生成视觉因果关系;
步骤S202,根据生成的视觉因果关系,采用视觉因果关系推理来更新每一个视觉特征。
优选地,于步骤S200中,利用矩阵內积的方法初步构建视觉特征间的语义关联关系。
优选地,步骤S201进一步包括:
将已知语言特征Xq和候选答案特征Xc进行串联,通过长短期记忆网络对语言问答特征间的因果关系进行建模,得到初步的问答因果关系表征Xqc;
利用该问答因果关系表征Xqc嵌入到视觉特征Xo,构建每一个视觉实体和对应问答因果关系间的关联Xoqc,搭建起视觉实体和语言因果关系的桥梁;
利用自注意力机制的操作结合矩阵乘法的操作,进一步生成视觉因果关系 Ag。
优选地,于步骤S202中,采用图卷积的操作,利用步骤S201得到的视觉因果关系,对视觉特征实施视觉因果关系推理,得到更新后的视觉实体特征Xg。
优选地,步骤S3进一步包括:
融合更新后的视觉实体特征Xg和候选答案特征Xc,得到一个中间特征Xgc;
利用归一化表征进行投票学习得到和候选答案相关性强的若干视觉实体表征的关系XVα;
利用该关系XVα作用于更新后的视觉实体特征Xg得到最终的视觉敏感的回答特征XV。
优选地,于步骤S4中,在已知语言特征Xq的引导下,利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征,作为所述语言敏感的回答特征XL。
优选地,于步骤S5中,利用步骤S4和步骤S3的输出特征,应用一个全连接的操作结合串联操作,来预测出最后的问题答案表示。
优选地,步骤S1进一步包括:
步骤S100,利用物体检测器作为视觉特征提取网络,对输入图片I进行特征提取得到视觉特征Xo;
步骤S101,采用一个共享权重的特征提取器分别对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语句的语义特征表示Xq以及候选答案的语义特征表示Xc。
为达到上述目的,本发明还提供一种视觉回答任务实现系统,包括:
基础视觉特征提取模块,用于对输入图片提取视觉特征Xo;
语言特征提取模块,用于对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc;
因果关系引导模块,用于基于视觉因果关系推理更新每一个视觉特征,得到更新后的视觉实体特征Xg;
视觉引导模块,用于将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征XV;
语言引导模块,用于将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL;
融合模块,用于将所述视觉引导模块和语言引导模块产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答。
与现有技术相比,本发明一种视觉问答任务实现方法通过提出视觉因果关系推理,并将其应用到通用的常识问答任务中,使得问答语句中的因果关系可以有效地和视觉实体关系进行无缝衔接,从而达到赋予视觉关系因果性来提升视觉常识问答推理任务的准确性的目的。本发明相比于近期的基于多种注意力机制预测、基于视觉实体间关系预测以及利用语义词和具体视觉实体进行语义对齐的问答推理方法本发明不仅拥有更高的预测精度和可解释性,而且提供了一种将语言领域的因果关系引入到视觉领域进行视觉因果关系推理的机制。
附图说明
图1为本发明一种视觉问答任务实现方法的步骤流程图;
图2为本发明一种视觉回答任务实现系统的系统架构图;
图3为本发明具体实施例中因果关系引导模块的细部结构图;
图4为本发明具体实施例之视觉回答任务实现系统的系统框架图;
图5为本发明实施例中因果关系引导模块、语言引导模块以及视觉引导模块的示意图;
图6示出本发明视觉因果关系推理与现有技术的区别。
具体实施方式
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种视觉问答任务实现方法的步骤流程图。如图1所示,本发明一种视觉问答任务实现方法,包括如下步骤:
步骤S1,对输入图片提取视觉特征Xo,对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc。
具体地,步骤S1进一步包括:
步骤S100,利用目前已有的物体检测器(CNN)作为视觉特征提取网络,得到视觉特征Xo。
步骤S101,对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc。在本发明具体实施例中,采用一个共享权重的特征提取器(BERT)分别对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语句的语义特征表示Xq以及候选答案的语义特征表示Xc,对于输入的已知语句Q以及输入的候选回答语句具体操作如下:
步骤S2,通过构建视觉实体间的关系、利用语言层面的问答因果关系来生成视觉因果关系以及采用视觉因果关系推理来更新每一个视觉特征Xg。
在本发明具体实施例中,步骤S2进一步包括:
步骤S200,构建初步的视觉实体间关系。
在本发明具体实施例中,利用矩阵內积的方法初步构建视觉间的语义关联关系。
步骤S201,利用语言层面的问答因果关系来生成视觉因果关系。
具体地,首先将已知语义特征和候选语义特征进行串联起来,通过长短期记忆网络(LSTM,Long Short-Term Memory)对语言问答特征间的因果关系进行建模,得到初步的问答因果关系表征然后利用该问答因果关系表征Xqc嵌入到视觉实体特征Xo,来构建每一个视觉实体和对应问答因果关系间的关联搭建起视觉实体和语言因果关系的桥梁;最后利用自注意力机制(self-attention)的操作结合矩阵乘法的操作,来进一步生成视觉因果关系视觉因果关系生成模块2032搭建起了视觉实体关系和语言因果关系这两种关系间的桥梁。
步骤S202,采用视觉因果关系推理来更新每一个视觉实体特征。
步骤S3,将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征。
具体地说,首先融合视觉和候选语言特征,得到一个中间特征然后利用归一化表征进行投票学习得到和候选答案相关性比较强的几个视觉实体表征的关系XVα;最后利用该关系作用于视觉实体特征来得到最终的视觉敏感的回答特征XV。
步骤S4,将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL。
于步骤S4中,对两个语言特征间构建问答的关联,在已知语言特征的引导下,利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征,作为本模块的输出特征表示,即语言敏感的回答特征XL。
步骤S5,将步骤S3和步骤S4产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答。
在本发明具体实施例中,步骤S5利用步骤S4和步骤S3的输出特征,应用一个全连接的操作结合串联操作,来预测出最后的问题答案表示。
图2为本发明一种视觉回答任务实现系统的系统架构图。如图2所示,本发明一种视觉回答任务实现系统,包括:
基础视觉特征提取模块201,用于对输入图片提取视觉特征Xo。在本发明具体实施例中,基础视觉特征提取模块201利用目前已有的物体检测器(CNN) 作为视觉特征提取网络,得到视觉特征Xo,对于输入图片具体操作如下:
语言特征提取模块202,用于对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc。在本发明具体实施例中,语言特征提取模块202采用一个共享权重的特征提取器(BERT)分别对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语句的语义特征表示Xq以及候选答案的语义特征表示Xc,对于输入的已知语句以及输入的候选回答语句具体操作如下:
因果关系引导模块203,用于通过构建视觉实体间的关系、利用语言层面的问答因果关系来生成视觉因果关系以及采用视觉因果关系推理来更新每一个视觉特征Xg。
在本发明具体实施例中,如图3所示,因果关系引导模块203进一步包括:
视觉实体间关系构建模块2031,用于构建初步的视觉实体间关系。
在本发明具体实施例中,视觉实体间关系构建模块2031利用矩阵內积的方法初步构建视觉间的语义关联关系。
才,用于利用语言层面的问答因果关系来生成视觉因果关系。
具体地,视觉因果关系生成模块2032首先将已知语义特征和候选语义特征进行串联起来,通过长短期记忆网络(LSTM,Long Short-Term Memory)对语言问答特征间的因果关系进行建模,得到初步的问答因果关系表征然后利用该问答因果关系表征Xqc嵌入到视觉实体特征Xo,来构建每一个视觉实体和对应问答因果关系间的关联搭建起视觉实体和语言因果关系的桥梁;最后利用自注意力机制(self-attention)的操作结合矩阵乘法的操作,来进一步生成视觉因果关系视觉因果关系生成模块 2032搭建起了视觉实体关系和语言因果关系这两种关系间的桥梁。
视觉特征更新模块2033,用于采用视觉因果关系推理来更新每一个视觉实体特征。
在本发明具体实施例中,视觉特征更新模块2033采用图卷积的操作,利用视觉因果关系生成模块2032得到的视觉因果关系,对视觉特征实施视觉因果关系推理,得到更新后的视觉特征这里的其他数学符号表示带权重w 的多层感知机MLP。
视觉引导模块204,用于将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征。
具体地说,视觉引导模块204首先融合视觉和候选语言特征,得到一个中间特征然后利用归一化表征进行投票学习得到和候选答案相关性比较强的几个视觉实体表征的关系XVα;最后利用该关系作用于视觉实体特征来得到最终的视觉敏感的回答特征XV。
语言引导模块205,用于将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL。
语言引导模块205和视觉引导模块204是一个类似对称的模块。语言引导模块205在于对两张语言特征间构建问答的关联,在已知语言特征的引导下,利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征,作为本模块的输出特征表示,即语言敏感的回答特征XL。
融合模块206,用于将视觉引导模块204和语言引导模块205产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答。
在本发明具体实施例中,融合模块206利用语言引导模块205和视觉引导模块204的输出特征,应用一个全连接的操作结合串联操作,来预测出最后的问题答案表示。
实施例
图4为本发明具体实施例之视觉回答任务实现系统的系统框架图,图5为本发明实施例中因果关系引导模块、语言引导模块以及视觉引导模块的示意图。
如图4所示,定义知识图谱其中表示节点集合,ε表示节点边集合。模型整体神经网络的输入由三部分组成,分别是关于图像的物体区域集合已知语句单词集合候选答案单词集合根据提取得到的特征构建的图节点定义分别为其中,可以代表独立存在的d维物体特征向量,问题单词特征向量和答案单词特征向量,N,M,kB则分别表示一张图片中物体数量,一个问题句子中单词数量和k个候选答案句子中单词数量,在视觉常识问答推理中,k=4。将它们分别进行级联表示成矩阵形式就分别成为了本发明系统网络模型的三种特征输入最终模型输出一个对4个备选答案各自的打分的四维向量Y∈R4,则选择得分最高的选项作为答案。
其中语言特征提取模块对语言部分的特征提取采用一个共享权重的特征提取器(BERT),基础视觉特征提取模块采用CNN卷积神经网络进行视觉特征提取。
因果关系引导模块:在完成上述的基础视觉特征和语言特征提取后,本发明利用因果关系引导模块,具体地,包含如下三步操作:
第一步,构建初步的视觉实体间关系,具体操作如下:
A=fw1(Xo)fw2(Xo T)
其中,本实施例利用矩阵內积的方法初步构建视觉间的语义关联关系,用 A表示,其中的f均为可学习的权重参数。
第二步,利用语言层面的问答因果关系来生成视觉因果关系。具体操作如下:
Xqc=LSTM([Xq,Xc])
Xoqc=XoW0Xqc T
A1=AXoqc
A2=AXoqc
具体地,首先将已知语义特征和候选语义特征进行串联起来,通过LSTM 对语言问答特征间的因果关系进行建模,得到初步的问答因果关系表征然后利用该问答因果关系表征嵌入到视觉实体特征,来构建每一个视觉实体和对应问答因果关系间的关联搭建起视觉实体和语言因果关系的桥梁。最后利用self-attention的操作结合矩阵乘法的操作,来进一步生成视觉因果关系这一步是搭建起了视觉实体关系和语言因果关系这两种关系间的桥梁。本步骤中的W和其他数学符号表示可学习的权重和对应的非线性函数。
第三步,采用视觉因果关系推理来更新每一个视觉实体特征。具体操作如下:
Xg=σw(AgXo)
Xgc=XgXc TWV1
具体地,首先融合视觉和候选语言特征,得到一个中间特征然后利用归一化表征进行投票学习得到和候选答案相关性比较强的几个视觉实体表征的关系XVα,然后利用该关系作用于视觉实体特征来得到最终的视觉敏感回答特征。
语言引导模块:将已知语言特征作为引导特征,对候选的语言回答特征进行引导选择出语言敏感的回答特征,如图5所示,本模块和视觉引导模块是一个类似对称的模块。本模块在于对两张语言特征间构建问答的关联,在已知语言特征的引导下,利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征,作为本模块的输出特征表示----语言敏感的回答特征。
融合模块:利用语言引导模块和视觉引导模块的输出特征,应用一个全连接的操作结合串联操作,来预测出最后的问题答案表示,具体操作如下:
Y=FC([XV,XL])
其中FC是表示带可学习权重的全连接操作,[]表示串联操作,Y是表示最终预测出的回答。
在本实施例中,利用交叉熵函数作为本发明框架协同训练的目标函数,以 Adam为优化函数,权重衰减系数是0.0001,初始学习率为0.0002,每完整训练两次,学习率调整为原来的一半,利用随机梯度下降算法进行整体端到端的训练。
图6示出本发明视觉因果关系推理与现有技术的区别。图6中(a)和(b) 为现有技术,(c)为本发明的视觉因果关系推理结果,可见,通过本发明的视觉因果关系推理,问答语句中的因果关系可以有效地和视觉实体关系进行无缝衔接,从而达到赋予视觉关系因果性来提升视觉常识问答推理任务的准确性的目的。
综上所述,本发明一种视觉问答任务实现方法通过提出视觉因果关系推理,并将其应用到通用的常识问答任务中,使得问答语句中的因果关系可以有效地和视觉实体关系进行无缝衔接,从而达到赋予视觉关系因果性来提升视觉常识问答推理任务的准确性的目的。本发明相比于近期的基于多种注意力机制预测、基于视觉实体间关系预测以及利用语义词和具体视觉实体进行语义对齐的问答推理方法本发明不仅拥有更高的预测精度和可解释性,而且提供了一种将语言领域的因果关系引入到视觉领域进行视觉因果关系推理的机制。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。因此,本发明的权利保护范围,应如权利要求书所列。
Claims (10)
1.一种视觉问答任务实现方法,包括如下步骤:
步骤S1,对输入图片提取视觉特征Xo,对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc;
步骤S2,基于视觉因果关系推理更新每一个视觉特征,得到更新后的视觉实体特征Xg;
步骤S3,将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征XV;
步骤S4,将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL;
步骤S5,将步骤S3和步骤S4产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答。
2.如权利要求1所述的一种视觉问答任务实现方法,其特征在于,步骤S2进一步包括:
步骤S200,初步构建视觉特征间的语义关联关系;
步骤S201,基于视觉特征Xo、已知语言特征Xq和候选答案特征Xc,利用语言层面的问答因果关系生成视觉因果关系;
步骤S202,根据生成的视觉因果关系,采用视觉因果关系推理来更新每一个视觉特征。
3.如权利要求2所述的一种视觉问答任务实现方法,其特征在于:于步骤S200中,利用矩阵內积的方法初步构建视觉特征间的语义关联关系。
4.如权利要求2所述的一种视觉问答任务实现方法,其特征在于,步骤S201进一步包括:
将已知语言特征Xq和候选答案特征Xc进行串联,通过长短期记忆网络对语言问答特征间的因果关系进行建模,得到初步的问答因果关系表征Xqc;
利用该问答因果关系表征Xqc嵌入到视觉特征Xo,构建每一个视觉实体和对应问答因果关系间的关联Xoqc,搭建起视觉实体和语言因果关系的桥梁;
利用自注意力机制的操作结合矩阵乘法的操作,进一步生成视觉因果关系Ag。
5.如权利要求2所述的一种视觉问答任务实现方法,其特征在于:于步步骤S202中,采用图卷积的操作,利用步骤S201得到的视觉因果关系,对视觉特征实施视觉因果关系推理,得到更新后的视觉实体特征Xg。
6.如权利要求2所述的一种视觉问答任务实现方法,其特征在于,步骤S3进一步包括:
融合更新后的视觉实体特征Xg和候选答案特征Xc,得到一个中间特征Xgc;
利用归一化表征进行投票学习得到和候选答案相关性强的若干视觉实体表征的关系XVα;
利用该关系XVα作用于更新后的视觉实体特征Xg得到最终的视觉敏感的回答特征XV。
7.如权利要求6所述的一种视觉问答任务实现方法,其特征在于:于步骤S4中,在已知语言特征Xq的引导下,利用注意力机制在候选语言中找到和已知语言的语义最相关的回答特征,作为所述语言敏感的回答特征XL。
8.如权利要求7所述的一种视觉问答任务实现方法,其特征在于:于步骤S5中,利用步骤S4和步骤S3的输出特征,应用一个全连接的操作结合串联操作,来预测出最后的问题答案表示。
9.如权利要求1所述的一种视觉问答任务实现方法,其特征在于,步骤S1进一步包括:
步骤S100,利用物体检测器作为视觉特征提取网络,对输入图片I进行特征提取得到视觉特征Xo;
步骤S101,采用一个共享权重的特征提取器分别对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语句的语义特征表示Xq以及候选答案的语义特征表示Xc。
10.一种视觉回答任务实现系统,包括:
基础视觉特征提取模块,用于对输入图片提取视觉特征Xo;
语言特征提取模块,用于对输入的已知语句以及输入的候选回答语句进行特征提取,得到已知语言特征Xq和候选答案特征Xc;
因果关系引导模块,用于基于视觉因果关系推理更新每一个视觉特征,得到更新后的视觉实体特征Xg;
视觉引导模块,用于将更新后的视觉实体特征Xg作为引导特征,对候选的候选答案特征Xc进行引导选择出视觉敏感的回答特征XV;
语言引导模块,用于将已知语言特征Xq作为引导特征,对候选答案特征Xc进行引导选择出语言敏感的回答特征XL;
融合模块,用于将所述视觉引导模块和语言引导模块产生的两种特征进行融合,进而预测最后的模型结果,输出正确的回答。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911261467.0A CN111598118B (zh) | 2019-12-10 | 2019-12-10 | 一种视觉问答任务实现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911261467.0A CN111598118B (zh) | 2019-12-10 | 2019-12-10 | 一种视觉问答任务实现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111598118A true CN111598118A (zh) | 2020-08-28 |
CN111598118B CN111598118B (zh) | 2023-07-07 |
Family
ID=72188856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911261467.0A Active CN111598118B (zh) | 2019-12-10 | 2019-12-10 | 一种视觉问答任务实现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598118B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380326A (zh) * | 2020-10-10 | 2021-02-19 | 中国科学院信息工程研究所 | 一种基于多层感知的问题答案抽取方法及电子装置 |
CN112417120A (zh) * | 2020-11-20 | 2021-02-26 | 中山大学 | 一种基于强化学习的生成式医疗问答方法及系统 |
CN113010656A (zh) * | 2021-03-18 | 2021-06-22 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113033209A (zh) * | 2021-05-25 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 文本关系抽取方法、装置、存储介质及计算机设备 |
CN114398471A (zh) * | 2021-12-24 | 2022-04-26 | 哈尔滨工程大学 | 一种基于深层推理注意力机制的视觉问答方法 |
CN116051155A (zh) * | 2023-03-29 | 2023-05-02 | 北京嘀嘀无限科技发展有限公司 | 用户识别方法、装置、设备、存储介质和程序产品 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649542A (zh) * | 2015-11-03 | 2017-05-10 | 百度(美国)有限责任公司 | 用于视觉问答的系统和方法 |
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
CN110263912A (zh) * | 2019-05-14 | 2019-09-20 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN110309850A (zh) * | 2019-05-15 | 2019-10-08 | 山东省计算中心(国家超级计算济南中心) | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 |
CN110348462A (zh) * | 2019-07-09 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种图像特征确定、视觉问答方法、装置、设备及介质 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
-
2019
- 2019-12-10 CN CN201911261467.0A patent/CN111598118B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649542A (zh) * | 2015-11-03 | 2017-05-10 | 百度(美国)有限责任公司 | 用于视觉问答的系统和方法 |
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
CN110263912A (zh) * | 2019-05-14 | 2019-09-20 | 杭州电子科技大学 | 一种基于多目标关联深度推理的图像问答方法 |
CN110309850A (zh) * | 2019-05-15 | 2019-10-08 | 山东省计算中心(国家超级计算济南中心) | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110348462A (zh) * | 2019-07-09 | 2019-10-18 | 北京金山数字娱乐科技有限公司 | 一种图像特征确定、视觉问答方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
WEIJIANG YU ET AL.: "Heterogeneous Graph Learning for Visual Commonsense Reasoning" * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380326A (zh) * | 2020-10-10 | 2021-02-19 | 中国科学院信息工程研究所 | 一种基于多层感知的问题答案抽取方法及电子装置 |
CN112380326B (zh) * | 2020-10-10 | 2022-07-08 | 中国科学院信息工程研究所 | 一种基于多层感知的问题答案抽取方法及电子装置 |
CN112417120A (zh) * | 2020-11-20 | 2021-02-26 | 中山大学 | 一种基于强化学习的生成式医疗问答方法及系统 |
CN113010656A (zh) * | 2021-03-18 | 2021-06-22 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113010656B (zh) * | 2021-03-18 | 2022-12-20 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113033209A (zh) * | 2021-05-25 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 文本关系抽取方法、装置、存储介质及计算机设备 |
CN113033209B (zh) * | 2021-05-25 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 文本关系抽取方法、装置、存储介质及计算机设备 |
CN114398471A (zh) * | 2021-12-24 | 2022-04-26 | 哈尔滨工程大学 | 一种基于深层推理注意力机制的视觉问答方法 |
CN116051155A (zh) * | 2023-03-29 | 2023-05-02 | 北京嘀嘀无限科技发展有限公司 | 用户识别方法、装置、设备、存储介质和程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111598118B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598118B (zh) | 一种视觉问答任务实现方法及系统 | |
CN110377710B (zh) | 一种基于多模态融合的视觉问答融合增强方法 | |
CN111597830A (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
US11593672B2 (en) | Conversation history within conversational machine reading comprehension | |
CN109214006B (zh) | 图像增强的层次化语义表示的自然语言推理方法 | |
CN117521675A (zh) | 基于大语言模型的信息处理方法、装置、设备及存储介质 | |
CN109214001A (zh) | 一种中文语义匹配系统及方法 | |
JP2020061173A (ja) | 回答学習装置、回答学習方法、回答生成装置、回答生成方法、及びプログラム | |
Zhang et al. | Hybrid photonic deep convolutional residual spiking neural networks for text classification | |
CN112115687A (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
CN110795944A (zh) | 推荐内容处理方法及装置、情感属性确定方法及装置 | |
Parikh et al. | Eliminet: A model for eliminating options for reading comprehension with multiple choice questions | |
CN113283488B (zh) | 一种基于学习行为的认知诊断方法及系统 | |
Zhang et al. | A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews | |
CN115510814B (zh) | 一种基于双重规划的篇章级复杂问题生成方法 | |
CN114254127A (zh) | 学生能力画像方法、学习资源推荐方法及装置 | |
CN116385937B (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
CN115330142B (zh) | 联合能力模型的训练方法、能力需求匹配方法和装置 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN111597816A (zh) | 一种自注意力命名实体识别方法、装置、设备及存储介质 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN111339256A (zh) | 用于文本处理的方法和装置 | |
Karimi et al. | Relevant question answering in community based networks using deep lstm neural networks | |
CN116541507A (zh) | 一种基于动态语义图神经网络的视觉问答方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Yu Weijiang Inventor after: Liang Xiaodan Inventor after: Lin Jing Inventor before: Yu Weijiang Inventor before: Liang Xiaodan Inventor before: Xiao Nong Inventor before: Lin Jing |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |