CN113010712A - 一种基于多图融合的视觉问答方法 - Google Patents

一种基于多图融合的视觉问答方法 Download PDF

Info

Publication number
CN113010712A
CN113010712A CN202110241850.0A CN202110241850A CN113010712A CN 113010712 A CN113010712 A CN 113010712A CN 202110241850 A CN202110241850 A CN 202110241850A CN 113010712 A CN113010712 A CN 113010712A
Authority
CN
China
Prior art keywords
graph
graph network
network
model
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110241850.0A
Other languages
English (en)
Other versions
CN113010712B (zh
Inventor
张晔华
张鹏
骆克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110241850.0A priority Critical patent/CN113010712B/zh
Publication of CN113010712A publication Critical patent/CN113010712A/zh
Application granted granted Critical
Publication of CN113010712B publication Critical patent/CN113010712B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于多图融合的视觉问答方法,该方法采用了一个图网络融合(MGI)模型,MGI模型包括基于图网络传播模块、图网络融合模块和类别预测模块。图网络传播模块通过注意力机制分别对物体特征和文本特征进行前向传播,从而提取和捕获数据的局部信息;图网络融合模块通过CIN网络使得两个图网络进行交互,从而获取数据的全局信息,给答案分类时增加足够的特征;最后通过类别预测模块融合模型学习到的特征信息,得到更加准确的答案分类标签。本发明克服从视觉问答模型难以提取局部和全局信息的现状。

Description

一种基于多图融合的视觉问答方法
技术领域
本发明涉及视觉问答和图网络技术领域,特别涉及针对某一图片和其对应的问题判断其答案类别的方法。
背景技术
视觉问答已成为自然语言处理和人工智能领域的热门研究课题。视觉问答在现实生活中具有许多应用场景,例如机器人导航,交互式购物和图像搜索。视觉问答旨在根据给定的视觉图像回答自然语言问题,由于难以发现复杂的视觉内容与问题之间的关系,因此这是一项有挑战性的任务。对着网络高速发展,互联网上的图片与问题数据越来越多,基于图片的文本问答越来越重要,同时处理的难度也在加大。随着神经网络的兴起,视觉问答技术有了突破的发展,目前大多数基于注意力机制获取图片物体间的关系,实现端到端训练,比如CNN-RNN[1]、SANs[2]、Co-Attention[3]、Bottom-Up[4]、Multi-grained Attention[5]等。CNN-RNN使用整个图片的特征作为视觉特征,并且通过LSTM获得文本特征,并使用注意力机制机型分类;SANs使用问题的语义表示作为查询来搜索图像中与答案相关的区域;Co-Attention提出了一种新颖的VQA联合注意模型,该模型联合了图像和问题的注意力机制;Bottom-UP提出了一种自下而上和自上而下的组合注意力机制,可以在对象和其他显着图像区域上计算注意力;Multi-grained Attention提出了一种多增益注意力方法,该方法可以通过与句子-图像联想互补的两种类型的词级注意力学习显式的词-物对应关系。但是,获取图像中不同实体特征的方法会忽略不同实体之间的关系信息,从而使模型无法使用实体之间的关系信息进行推理,这限制了模型选择正确答案的能力。这依旧有待改进。
为了实现效果更好的视觉问答模型,目前的主要挑战是:视觉问答该任务需要对于图片和问题共同建模,并且从建模出的特征得出答案。答案的选取往往不仅关注局部特征也需要关注全局综合的特征,这就需要模型对图片和文本提取局部和全局语义,才能更好地回答问题。所以如何建模数据的局部和全局信息,是视觉问答模型的要解决的问题。
参考文献:
[1]Antol,S.,Agrawal,A.,Lu,J.,Mitchell,M.,Batra,D.,Zitnick,C.L.,&Parikh,D.(2015).Vqa:Visual question answering.In Proceedings of the IEEEinternational conference on computer vision(pp.2425-2433).
[2]Yang,Z.,He,X.,Gao,J.,Deng,L.,&Smola,A.(2016).Stacked attentionnetworks for image question answering.In Proceedings of the IEEE conferenceon computer vision and pattern recognition(pp.21-29).
[3]Lu,Jiasen,et al."Hierarchical question-image co-attention forvisual question answering."arXiv preprint arXiv:1606.00061(2016).
[4]Anderson,Peter,et al."Bottom-up and top-down attention for imagecaptioning and visual question answering."Proceedings of the IEEE conferenceon computer vision and pattern recognition.2018.
[5]Huang,Pingping,et al."Multi-grained attention with object-levelgrounding for visual question answering."Proceedings of the 57th AnnualMeeting of the Association for Computational Linguistics.2019.
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于多图融合的视觉问答方法,本发明克服了从视觉问答模型难以提取局部和全局信息的现状;利用图网络抽取不同数据结点的局部信息,结合CIN网络融合所有图网络的特征信息从而捕获全局信息,最终进行答案分类预测,并利用反向传播、随机梯度下降优化方法训练网络模型得到最优模型在测试集上预测结果,最终得到更加准确的视觉问答分类结果。
本发明的目的是通过以下技术方案实现的:
一种基于多图融合的视觉问答方法,基于图网络融合(MGI)模型,MGI模型采用CIN网络建模两个图网络,从而提取不同的图网络特征表示;所述MGI模型包括图网络传播模块、图网络融合模块和类别预测模块;
所述图网络传播模块用于提取图的局部语义信息,获取图结点的浅层特征;图网络传播模块包括物体表征图网络、文本表征图网络;物体表征图网络是通过Faster R-CNN提取图片物体特征,每个物体都是由一维稠密向量表示,并使用注意力机制进行前向传播;文本表征图网络是通过图片对应的问题文本单词,并使用glove词向量工具学习每个单词在word2vec模型中的嵌入表示,每个单词都是由一维稠密向量表示,并使用注意力机制进行前向传播;两个图网络使用的注意力机制均使用了结点向量进行内积操作,得到结点与结点之间的相似度得分,再利用相似度得分和结点向量表示对应位置加权求和获取结点的邻居信息;最后物体表征图网络、文本表征图网络分别提取了不同的局部信息;
图网络融合模块用于融合物体表征图网络和文本表征图网络的结点特征表示,从而建模两个图网络的整体表示,提高分类结果;图网络融合模块利用CIN网络融合两个图网络的信息;图网络融合模型分为了外积层和卷积层;首先把两个图网络的输出按0维度进行拼接产生新的特征矩阵,外积层对特征矩阵每一列进行外积操作,并产生一个三阶张量;卷积层通过卷积参数压缩三阶张量的每一个矩阵,产生交互后的特征矩阵;MGI模型训练时先随机初始化,之后通过神经网络的端到端过程实现自动学习;
类别预测模块用于预测问题和图片对应的答案分类类别,和目标值对比然后计算loss,然后利用反向传播算法多次更新和优化MGI模型的参数;类别预测模块的输入为图网络融合模块产生的组合后的特征矩阵;使用注意力机制将特征矩阵压缩成一个一维向量,然后通过一个线性变换层和softmax层输出答案的预测类别。
与现有技术相比,本发明的技术方案所带来的有益效果是:
1.本发明提出的多图融合的视觉问答模型(MGI)构造了两个图网络,分别是物体表征图网络和文本表征图网络,并利用图网络传播技术编码各个图网络的图结点特征获取局部信息。
2.一般的图网络模型利用结点间的信息传递,具有较强的局部特征建模能力;而不同图的图网络,学习了数据的全局语义信息。MGI模型通过图网络传播模块和图网络融合模块可以同时学习视觉问答数据中的局部信息和全局语义,融合两种特征表示,从而提高视觉问答的准确率,增加神经网络模型的表达能力。
3.该方法在GQA视觉问答数据集上相比其他方法有了一定的提升。视觉问答中有大量图片,图片中大量的物体,物体之间有不同的关系,并且GQA的问题往往较为复杂,不是简单地把图片和文本进行匹配。所以本发明通过引入图网络传播模块和图网络融合模块来建模局部和全局信息,使得模型在回答问题时能全面考虑数据特征,从而提升效果。
附图说明
图1为本发明的方法流程图;
图2为基于多图融合的视觉问答方法模型图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于多图融合的视觉问答模型方法,基于图网络融合(MGI)模型,MGI模型采用CIN网络建模两个图网络,从而提取不同的图网络特征表示,使模型可从局部语义进而交互全局信息从而提高视觉问答分类结果。MGI模型包括图网络传播模块、图网络融合模块和类别预测模块。
图网络传播模块通过抽取数据集的局部信息,数据的输入包括视觉特征和文本特征。视觉特征由物体表征图网络进行编码,文本特征由文本表征图网络进行编码,两个图网络均通过对应位置加权求和的方法获取结点与其邻居结点的交互语义。首先确定两个图网络的参数设置(主要包括迭代次数、权重矩阵的输入维度和输出维度,多层的权重矩阵是否共享)。之后把视觉特征和文本特征分别输入到物体表征图网络和文本表征图网络,根据设定好的迭代次数分别进行前向传播。
图网络融合模块:首先把图网络传播模块的两个图网络所输出的两个矩阵进行拼接成一个矩阵,并初始化CIN网络的参数(卷积核个数),通过二重循环把矩阵的任意两列作外积操作,从而生成一个三阶张量,并通过初始化好的卷积核参数,将其压缩。
类别预测模块:图网络融合模块将产生新的特征矩阵,类别预测模块将该矩阵通过线性变换和注意力机制后压缩成一个维向量,最后经过线性层和softmax层,就可以得到答案预测类别。
见图1显示了本方法提出的视觉问答方法的流程;图2显示了本实施例设计的神经网络视觉问答模型。本发明方法的具体操作步骤如下:
(1)遍历数据集的所有问题,确定数据集的固定句子长度n(一般为数据集中的最大句子长度),填充数据集中的所有句子,缺失的地方补0,保证所有句子定长,便于神经网络和自注意力计算。
(2)运用glove工具得到每个单词的300维词向量wi,构建词向量矩阵E=[w1,…,wn],矩阵每一个列表示一个单词,MGI模型初始化阶段直接使用外部训练好的向量加载该矩阵,并使其设定为可训练,在该模型训练过程中该词向量矩阵将会被优化。
(3)使用预训练好的Faster R-CNN网络,提取每个问题对应的图片特征向量,每张图片生成对应的k×2048的矩阵,k对应图片的物体特征个数,2048代表对应每个物体的特征向量的长度。
(3)使用物体表征图网络传播图片特征向量,运用方法如下:
(301)初始化一个2048×Din的权重矩阵,并把k×2048通过该权重矩阵转化为大小为k×Din的矩阵。
(302)初始化一个物体表征图网络,该网络有3个权重矩阵,每个权重矩阵的大小为Din×Dout,3个权重矩阵分别作用于k×Din矩阵,然后使用注意力机制实现对应位置加权求和从而进行前向传播。公式形式如下:
Figure BDA0002962505740000051
cij=f1(vi)Tf2(vj)
Figure BDA0002962505740000052
其中exp是softmax函数的计算方式,αij是结点i和结点j的注意力权重。f1,f2,f3均是权重矩阵,vj
Figure BDA0002962505740000053
分别是输入向量和输出向量。通过上述形式进行多次迭代,可以将k×2048转化为k×Dout
(4)使用文本表征图网络传播单词特征向量,运用方法如下:
(401)初始化一个300×Din的权重矩阵,并把n×300通过该权重矩阵转化为大小为n×Din的矩阵。
(402)初始化一个文本表征图网络,该网络有3个权重矩阵,每个权重矩阵的大小为Din×Dout,3个权重矩阵分别作用于n×Din矩阵,然后使用注意力机制实现对应位置加权求和从而进行前向传播。公式形式如下:
Figure BDA0002962505740000054
cij=f4(wi)Tf5(wj)
Figure BDA0002962505740000055
其中exp是softmax函数的计算方式,αij是结点i和结点j的注意力权重。f4,f5,f6均是权重矩阵,wj
Figure BDA0002962505740000056
分别是输入向量和输出向量。通过上述形式进行多次迭代,可以将n×300转化为n×Dout
(5)按照0维度拼接步骤(3)和(4)的输出,具体如下:
X=concat(V,W)
其中
Figure BDA0002962505740000057
V是物体表征图网络的输出,W是文本表征图网络的输出,concat是拼接操作,X是拼接后的输出。
(6)使用CIN网络对该矩阵进行编码,从而捕获全局信息,对上述X矩阵的每一列进行外积操作,从而生成一个三阶张量,并把该三阶张量使用卷积参数压缩成一个矩阵,该矩阵作为CIN网络的输出,代表编码了全局数据特征的矩阵,具体如下:
Figure BDA0002962505740000061
其中
Figure BDA0002962505740000062
为可训练的参数,Xi,*和Xi,*均为步骤(5)X的向量。
(7)最后使用上述矩阵H输入到分类层,并使用注意力机制进行学习相互的关系并压缩矩阵,具体如下:
αi=softmax(f7(hi))
Figure BDA0002962505740000063
其中f7和f8是权重矩阵,αi是hi经过线性变化和softmax得到的系数,q是经过循环神经网络编码后的问题特征向量,然后通过对应位置加权求和得到预测向量y。
(8)最后在GQA数据集上进行训练和测试,测试的指标为MGI模型分类的准确率(百分比)。如表1所示。GQA数据集以探索视觉对象之间的关系的数据集。该数据集的图片由由1,703个非独立的目标对象,618个对象属性(形容词)和311个对象之间的关系(相对位置和运动)组成,数据集图片往往拥有较为复杂的属性和关系,所以需要模型更好地抽取数据间的语义关系。
表1各模型在GQA数据集上的对比结果
Figure BDA0002962505740000064
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

Claims (1)

1.一种基于多图融合的视觉问答方法,其特征在于,基于图网络融合(MGI)模型,MGI模型采用CIN网络建模两个图网络,从而提取不同的图网络特征表示;所述MGI模型包括图网络传播模块、图网络融合模块和类别预测模块;
所述图网络传播模块用于提取图的局部语义信息,获取图结点的浅层特征;图网络传播模块包括物体表征图网络、文本表征图网络;物体表征图网络是通过Faster R-CNN提取图片物体特征,每个物体都是由一维稠密向量表示,并使用注意力机制进行前向传播;文本表征图网络是通过图片对应的问题文本单词,并使用glove词向量工具学习每个单词在word2vec模型中的嵌入表示,每个单词都是由一维稠密向量表示,并使用注意力机制进行前向传播;两个图网络使用的注意力机制均使用了结点向量进行内积操作,得到结点与结点之间的相似度得分,再利用相似度得分和结点向量表示对应位置加权求和获取结点的邻居信息;最后物体表征图网络、文本表征图网络分别提取了不同的局部信息;
图网络融合模块用于融合物体表征图网络和文本表征图网络的结点特征表示,从而建模两个图网络的整体表示,提高分类结果;图网络融合模块利用CIN网络融合两个图网络的信息;图网络融合模型分为了外积层和卷积层;首先把两个图网络的输出按0维度进行拼接产生新的特征矩阵,外积层对特征矩阵每一列进行外积操作,并产生一个三阶张量;卷积层通过卷积参数压缩三阶张量的每一个矩阵,产生交互后的特征矩阵;MGI模型训练时先随机初始化,之后通过神经网络的端到端过程实现自动学习;
类别预测模块用于预测问题和图片对应的答案分类类别,和目标值对比然后计算loss,然后利用反向传播算法多次更新和优化MGI模型的参数;类别预测模块的输入为图网络融合模块产生的组合后的特征矩阵;使用注意力机制将特征矩阵压缩成一个一维向量,然后通过一个线性变换层和softmax层输出答案的预测类别。
CN202110241850.0A 2021-03-04 2021-03-04 一种基于多图融合的视觉问答方法 Active CN113010712B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110241850.0A CN113010712B (zh) 2021-03-04 2021-03-04 一种基于多图融合的视觉问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110241850.0A CN113010712B (zh) 2021-03-04 2021-03-04 一种基于多图融合的视觉问答方法

Publications (2)

Publication Number Publication Date
CN113010712A true CN113010712A (zh) 2021-06-22
CN113010712B CN113010712B (zh) 2022-12-02

Family

ID=76405732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110241850.0A Active CN113010712B (zh) 2021-03-04 2021-03-04 一种基于多图融合的视觉问答方法

Country Status (1)

Country Link
CN (1) CN113010712B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911930A (zh) * 2022-04-15 2022-08-16 中山大学 一种全局与局部互补的双向注意的视频问答方法与系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
CN110263912A (zh) * 2019-05-14 2019-09-20 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110516791A (zh) * 2019-08-20 2019-11-29 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
CN110647612A (zh) * 2019-09-18 2020-01-03 合肥工业大学 一种基于双视觉注意力网络的视觉对话生成方法
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170124432A1 (en) * 2015-11-03 2017-05-04 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
CN111008293A (zh) * 2018-10-06 2020-04-14 上海交通大学 基于结构化语义表示的视觉问答方法
CN110263912A (zh) * 2019-05-14 2019-09-20 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110377710A (zh) * 2019-06-17 2019-10-25 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110516791A (zh) * 2019-08-20 2019-11-29 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
CN110647612A (zh) * 2019-09-18 2020-01-03 合肥工业大学 一种基于双视觉注意力网络的视觉对话生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHAO YAN: "Co-Attention Network With Question Type for Visual Question Answering", 《IEEE ACCESS》 *
王嫱: "基于视觉语义表示的视觉对话方法研究", 《万方数据知识服务平台》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114911930A (zh) * 2022-04-15 2022-08-16 中山大学 一种全局与局部互补的双向注意的视频问答方法与系统
CN114911930B (zh) * 2022-04-15 2024-09-13 中山大学 一种全局与局部互补的双向注意的视频问答方法与系统

Also Published As

Publication number Publication date
CN113010712B (zh) 2022-12-02

Similar Documents

Publication Publication Date Title
CN111554268B (zh) 基于语言模型的语言识别方法、文本分类方法和装置
CN110163299B (zh) 一种基于自底向上注意力机制和记忆网络的视觉问答方法
CN109783666B (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN112200317A (zh) 多模态知识图谱构建方法
CN110399518B (zh) 一种基于图卷积的视觉问答增强方法
CN109299341A (zh) 一种基于字典学习的对抗跨模态检索方法和系统
CN107516110A (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
CN112036276B (zh) 一种人工智能视频问答方法
CN113761153B (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN111598183A (zh) 一种多特征融合图像描述方法
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN117094395B (zh) 对知识图谱进行补全的方法、装置和计算机存储介质
CN117437317A (zh) 图像生成方法、装置、电子设备、存储介质和程序产品
CN117034185A (zh) 一种融合语法树的多关系感知异构图视觉问答方法
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN113010712B (zh) 一种基于多图融合的视觉问答方法
CN114332288A (zh) 基于短语驱动生成对抗网络的文本生成图像的方法及网络
CN118171231A (zh) 一种融合多维特征的动态图神经认知诊断方法
CN115186072A (zh) 一种基于双过程认知理论的知识图谱视觉问答方法
CN117911208A (zh) 一种基于双重感知图的学习个性化推荐方法、装置及介质
CN114168769B (zh) 基于gat关系推理的视觉问答方法
CN116010578A (zh) 一种基于弱监督双流视觉语言交互的答案定位方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant