CN110377710B - 一种基于多模态融合的视觉问答融合增强方法 - Google Patents
一种基于多模态融合的视觉问答融合增强方法 Download PDFInfo
- Publication number
- CN110377710B CN110377710B CN201910520138.7A CN201910520138A CN110377710B CN 110377710 B CN110377710 B CN 110377710B CN 201910520138 A CN201910520138 A CN 201910520138A CN 110377710 B CN110377710 B CN 110377710B
- Authority
- CN
- China
- Prior art keywords
- answer
- question
- fusion
- information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Abstract
本发明公开了一种基于多模态融合的视觉问答融合增强方法。本发明步骤如下:1、利用GRU结构构建时序模型,获得问题的特征表示学习、利用从Faster R‑CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示;2、基于注意力模型Transformer进行多模态推理,引入注意力模型对图片‑问题‑答案这个三元组进行多模态融合,建立推理关系;3、针对不同的隐含关系有不同的推理过程和结果输出,再根据这些结果输出来进行标签分布回归学习,来确定答案。本发明基于特定的图片和问题得到答案直接应用于服务于盲人的应用中,能够帮助盲人或者视觉障碍者更好地感知周围环境,也应用于图片检索系统,提高图片检索的准确性和多样性。
Description
技术领域
本发明属于计算机视觉、自然语言技术领域,特别地,本发明涉及一种基于多模态融合的视觉问答融合增强方法。
背景技术
视觉问答(Visual QuestionAnswer,简称VQA)是一个结合计算机视觉领域和计算机自然语言领域的一个任务,其需要解决的就是对特定的一张图片提出一个特定的问题,推理出其答案。VQA有许多潜在的应用场景,最直接的就是那些帮助盲人和视觉受损用户的应用,可以为盲人或者视觉受损用户理解周围环境,通过交互式的程序,能够感知互联网以及现实生活中的场景;另一个明显的应用是将VQA集成到图像检索系统中,通过自然语言来影响图像的检索,对社交或者商务产生巨大影响。
VQAtask主要解决下面三个问题:
1.对图像和问题的细粒度特征表示;
2.多模态特征融合,能够捕捉多模态特征之间的复杂交互关系;
3.考虑同一个问题的多个答案之间的语义关联。
基于深度学习的相关技术已经在计算机视觉领域取得了相当大的成功,比如图像分割,物体检测,图像分类等任务,从一开始的深度卷积神经网络,到AlexNet,之后又有VGGNet,GoogLenet等网络结构,尤其是基于残差的深度卷积神经网络ResNet,这些网络的发展对图像的细粒度特征表示这一任务打下了坚实的基础。对于问题的细粒度特征表示这一任务,传统的方法主要是先提取文本特征,再利用如支持向量机等算法进行学习,随着深度学习的发展,基于时序的递归神经网络以及基于长短期记忆的神经网络能够在句子语义的建模和理解上有很好的效果,很大程度上改善了有关自然语言的任务,比如机器翻译等的性能。
目前针对第二个任务,多模态特征融合,主要可以分为两类:
第一类是直接将图片特征和问题特征融合起来,比如点乘,拼接,双线性池化等;
第二类是基于注意力机制的特征融合,先把图片特征和问题特征融合得到注意力分值,再对图片特征进行注意力分配,比如最早期提出的双线性模型,MLB,MUTAN,MFH,MFB等方法。
缺点:这些方法几乎都只考虑了问题和图像之间的关系,但是忽略了图像-问题-答案这个三元组之间的隐藏关系,我们可以这样想象,当你知道具体答案的时候,你也可能有能力去推测问题,因此答案的作用在推理的过程中可能扮演了一个很重要的角色但是这些方法却忽略了这个重要的信息,当然也有工作考虑到了这一关系,尝试通过将图像特征表示、问题特征表示、答案特征表示进行简单的拼接,或者把图像和问题进行融合之后再映射到答案特征上面去,但是这两种方法很难将三元组之间的关系全面得表示出来。
综合上述技术,不难看出目前视觉问答主要还是基于图像特征和问题特征的融合,而答案特征并没有起到应该有的作用,答案特征有时甚至能够使得任务准确性有很大提升,且图像-问题-答案之间的复杂关系无法全面地被表达出来,且存在如下缺点:
1.没有有效利用答案信息,无法发挥答案信息的巨大作用;
2.在问题特征和图片特征进行多模态融合的时候,无法简洁有效地利用注意力机制来获取最值得关注地区域。
发明内容
本发明的目的是为了解决目前是视觉问答任务对答案利用率不高,甚至没有利用答案信息的问题,并且同时完善图片特征和问题特征之间的多模态融合方案。其输入有三个:视频特征、问题特征以及答案的嵌入式表示。
本发明提出的一种基于多模态融合的视觉问答融合增强方法,其过程包括以下步骤:
步骤1、利用GRU(Gated Recurrent Unit)结构构建时序模型,获得问题的特征表示学习、利用从Faster R-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示;
步骤2、基于注意力模型Transformer进行多模态推理方法,在这一步引入注意力模型对图片-问题-答案这个三元组进行多模态融合,并且来建立推理关系;
步骤3、根据步骤2,多种不同的图像-问句-答案隐含关系被涵盖了,且针对不同的隐含关系有不同的推理过程和结果输出,再根据这些结果输出来进行标签分布回归学习,来确定答案。
本发明的特点及有益效果:
本发明实现了一种基于多模态融合的视觉问答融合增强方法,对视觉任务有较大意义。本发明中的方法利用利用GRU获得问题的特征表示学习、利用从Faster R-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示使得模型的输入特征能够更好地表达任务所需要的信息,在源头上提高模型的准确率,之后引入的注意力模型能够使得网络的注意力能够像人一样关注在值得关注的地方,最后,利用标签分布学习和KL散度损失函数和softmax回归方法来拟合真实答案分布情况,在开放型的数据集中更好地提高准确率。该方法的视觉问答结果,即基于特定的图片和问题得到答案可以直接应用于服务于盲人的应用中,能够帮助盲人或者视觉障碍者更好地感知周围环境,也可以应用于图片检索系统,提高图片检索的准确性和多样性。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明提出的基于多模态融合的视觉问答融合增强方法,如图1-4所示,包括以下三个步骤:
步骤1、利用GRU(Gated Recurrent Unit)结构构建时序模型,获得问题的特征表示学习、利用从Faster R-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示。本发明将句子中的每个单词都按照顺序时刻依次输入到GRU模型中,句子的最后一个单词的GRU输出可以表示整个句子。
如图1所示,GRU中有两个门,一个是重置门rt,另一个是更新门zt,令句子q={x1,x2,…,xn},其中xi代表了第i个单词,重置门和更新门的公式如下所示:
rt=σ(Wrxt+Urht-l)
zt=σ(Wzxt+Uzht-1)
然后计算候选隐含层ht':
ht'=tanh(Wxt+rtUht-1)
ht'表示的是输入第t个单词之后得到的更新后的信息,rt则能控制保留多少前t个单词的相关记忆,如果rt=0,那么ht'就只有包含当前词xt的信息。
更新门控制需要从前t-1个单词中遗忘的信息,输入第t个单词之后,能够得到前t个词中的所有过滤好的信息:
问句s的特征表示为vq=hn{x1,x2,…,xn}。
步骤2、基于注意力模型Transformer进行多模态推理,引入注意力模型对图片-问题-答案这个三元组进行多模态融合,并建立推理关系。
在视觉问答任务中,注意力机制是一个很重要的部分,他能够使得我们在基于问题的基础上能够关注到图片中和问题更匹配的区域,比如问题是骑在自行车上的人穿什么颜色的衣服,那么基于注意力机制的模型就会将图片上的骑自行车的人的区域给予高度的关注,Google提出的transformer模型的主要思路就是只要依靠注意力,模型能学习到很好的信息,Google的一般化Attention思路也是一个编码序列的方案,因此我们也可以认为它跟RNN、CNN一样,都是一个序列编码的层,如图2所示:
这是一般化的框架的描述,其attention的定义如下:
事实上Q,K,V分别是query,key,value的简写,K,V是一一对应的,它们就像是key-value的关系,那么上式的意思就是通过Q这个query,通过与K内积,并softmax的方式,来得到Q与各个V的相似度,然后加权求和,得到一个向量。其中因子起到调节作用,使得内积不至于太大。
Multi-HeadAttention是Google提出的新概念,是Attention机制的完善。
MultiHead(Q,K,V)=Concat(headi,...headh)
不过从图中可以看到,它很简单,就是把Q,K,V通过参数矩阵映射一下,然后再做Attention,把这个过程重复做h次,结果拼接起来就行了。所谓“多头”(Multi-Head),就是只多做几次同样的事情(参数不共享),然后把结果拼接。
Attention层的好处是能够一步到位捕捉到全局的联系,因为它直接把序列两两比较,代价是计算量变为相比之下,RNN需要一步步递推才能捕捉到,不能并行运行,而CNN则需要通过层叠来扩大感受野,这是Attention层的明显优势,能在比较小的代价下学习到比较精炼和有用的信息。Google的论文结果表明将纯注意力机制用在机器翻译中,能取得目前最好的效果,这也反应了transformer的强性能。
因此将transformer引入到我们的视觉问答中来,能够使得基于问题学习到更好的和为问题有关的图片信息。
传统的视觉问答方法几乎都只考虑了问题和图像之间的关系,但是忽略了图像-问题-答案这个三元组之间的隐藏关系,但是答案在推理的过程中可能扮演了一个很重要的角色,当然也有一些的前人工作考虑到了答案的重要性,尝试通过将图像特征表示、问题特征表示、答案特征表示进行简单的拼接,或者把图像和问题进行融合之后再映射到答案特征上面去,但图像-问题-答案之间的复杂关系无法全面地被表达出来。因此我们将答案信息通过嵌入式表达之后,引入视觉问答任务。
图4是本发明提出的视觉问答系统整体框架图,可以看到问题-图片对经过transformer模块生成的向量与answer embedding又进行了一次融合,最后得到了带有答案信息的特征和只有图片-问题信息的特征,这两部分进行结合之后,能够得到整个视觉任务的信息特征,再将这些信息送入带有线性变换和softmax模块的分类系统,最后我们可以看到,答案是大象的得分是最高的,也是我们最后需要的答案。
步骤3、利用标签分布学习和KL散度损失函数和softmax回归方法来拟合真实答案分布情况。
在生活中,当你对着一个图像提出一个问题的时候,正确的答案可能只有一个,但是也可能有多个相似的答案,比如当你问yes/no类型的问题时,只能回答yes或者no,但是当你问关于颜色的问题时,因为物体可能不全是同一种颜色,大部分红色夹杂着一点点的白色时,答案是红色或者红色和白色都是可以的。在像视觉问答常用的数据集VQA和VQA-2.0中,每一对图像-问题都是由很多人使用多个答案进行标注的。每个图像-问题样本的答案可以被表示为一个与该样本对应的答案的概率分布向量其中yi∈[0,1]表示候选答案中第i个问题在该样本的人工标注的答案中出现的频率。由于视觉问答模型的输出是每个答案的得分,一个直接的做法是使用基于边界的损失函数(marginbased lossfunction)来最大化正确答案与其他错误答案之间的距离,代替传统的softmax+cross-entropy的损失方式,有效提高不同关系类别之间的区分性。基于边界的损失函数为:
对于答案是开放型的视觉问答任务来说,一个问题-图像对往往有数量庞大的候选答案,如果采用基于边界的损失函数,那么要考虑的负样本空间很大,对于难样本的选择要求较高,且训练、和采样的复杂度会很高。而且基于边界的损失函数通常只能考虑少量的负样本,这样对于视觉问答模型来说,增加了很多随机性,而且也会使模型在训练的时候需要更多的迭代次数。
因此本发明将基于负样本采样的边界损失学习问题转变为面向所有候选答案分布y的标签分布学习(label distribution learning,简称LDL)问题。对于图像-问题样本的每一个与之对应的候选答案ai都计算出一个相关度得分satt(q,I,ai)。然后用softmax回归方法来拟合真实答案分布的情况:
最后使用KL散度损失函数(KL-divergence loss function)来对错误的答案预测进行惩罚,KL距离是两个随机分布间距离的度量。记为DKL(p||q)。它度量当真实分布为p时,假设分布q的无效性,其公式为:
当p=q的时候,散度为0。
我们通过最小化如下损失函数的方式进行模型训练:
其中N是所有被用来训练的图像-问题对的数量。测试的时候,只需要将所有候选答案的特征表示输入模块,然后选择三元组相关度最高的答案satt(q,I,ai)最为最终预测的答案即可。
Claims (2)
1.一种基于多模态融合的视觉问答融合增强方法,其特征在于包括以下步骤:
步骤1、利用GRU结构构建时序模型,获得问题的特征表示学习、利用从Faster R-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示,具体将句子中的每个单词都按照顺序时刻依次输入到GRU模型中,句子的最后一个单词的GRU输出表示整个句子;
步骤2、基于注意力模型Transformer进行多模态推理,同时引入注意力模型对图片-问题-答案这个三元组进行多模态融合,从而建立推理关系;
步骤3、由于多种不同的图像-问句-答案隐含关系被涵盖,且针对不同的隐含关系有不同的推理过程和结果输出,利用标签分布学习和KL散度损失函数和softmax回归方法来拟合真实答案分布情况;
所述的GRU中有两个门,一个是重置门rt,另一个是更新门zt,令句子q={x1,x2,...,xn},其中xi代表了第i个单词,重置门和更新门的公式如下所示:
rt=σ(Wrxt+Urht-1)
zt=σ(WZxt+Uzht-1)
然后计算候选隐含层ht′:
ht′=tanh(Wxt+rtUht-1)
ht′表示的是输入第t个单词之后得到的更新后的信息,rt则能控制保留多少前t个单词的相关记忆,如果rt=0,那么ht′就只有包含当前词xt的信息;
更新门控制需要从前t-1个单词中遗忘的信息,输入第t个单词之后,能够得到前t个词中的所有过滤好的信息:
问句s的特征表示为vq=hn{x1,x2,...,xn};
步骤2所述的注意力模型,其attention的定义如下:
其中,Q,K,V分别是query、key、value的简写,K,V是一一对应的,它们就像是key-value的关系,那么上式的意思就是通过Q这个query,通过与K内积,并softmax的方式,来得到Q与各个V的相似度,然后加权求和,得到一个向量;其中因子起到调节作用;
Multi-Head Attention是Google提出的新概念,是Attention机制的完善:
MultiHead(Q,K,V)=Concat(head1,...headh)
将Q,K,V通过参数矩阵映射,然后再做Attention,将该过程重复做h次,并将结果拼接起来就行了;
将答案信息通过嵌入式表达之后,引入视觉问答任务;问题-图片对经过transformer模块生成的向量与answer embedding又进行了一次融合,最后得到了带有答案信息的特征和只有图片-问题信息的特征,这两部分进行结合之后,能够得到整个视觉任务的信息特征,再将这些信息送入带有线性变换和softmax模块的分类系统,从而最后需要的答案。
2.根据权利要求1所述的一种基于多模态融合的视觉问答融合增强方法,其特征在于步骤3具体实现如下:
在像视觉问答常用的数据集VQA和VQA-2.0中,每一对图像-问题都是由很多人使用多个答案进行标注的;每个图像-问题样本的答案可以被表示为一个与该样本对应的答案的概率分布向量其中yi∈[0,1]表示候选答案中第i个问题在该样本的人工标注的答案中出现的频率;由于视觉问答模型的输出是每个答案的得分,一个直接的做法是使用基于边界的损失函数来最大化正确答案与其他错误答案之间的距离,代替传统的softmax+cross-entropy的损失方式,基于边界的损失函数为:
将基于负样本采样的边界损失学习问题转变为面向所有候选答案分布y的标签分布学习问题;对于图像-问题样本的每一个与之对应的候选答案ai都计算出一个相关度得分satt(q,I,ai);然后用softmax回归方法来拟合真实答案分布的情况:
最后使用KL散度损失函数来对错误的答案预测进行惩罚,KL距离是两个随机分布间距离的度量;记为DKL(p||q);它度量当真实分布为p时,假设分布q的无效性,其公式为:
当p=q的时候,散度为0;
通过最小化如下损失函数的方式进行模型训练:
其中N是所有被用来训练的图像-问题对的数量;测试的时候,只需要将所有候选答案的特征表示输入模块,然后选择三元组相关度最高的答案satt(q,I,ai)最为最终预测的答案即可。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910520138.7A CN110377710B (zh) | 2019-06-17 | 2019-06-17 | 一种基于多模态融合的视觉问答融合增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910520138.7A CN110377710B (zh) | 2019-06-17 | 2019-06-17 | 一种基于多模态融合的视觉问答融合增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377710A CN110377710A (zh) | 2019-10-25 |
CN110377710B true CN110377710B (zh) | 2022-04-01 |
Family
ID=68248895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910520138.7A Active CN110377710B (zh) | 2019-06-17 | 2019-06-17 | 一种基于多模态融合的视觉问答融合增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377710B (zh) |
Families Citing this family (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781663B (zh) * | 2019-10-28 | 2023-08-29 | 北京金山数字娱乐科技有限公司 | 文本分析模型的训练方法及装置、文本分析方法及装置 |
CN110851760B (zh) * | 2019-11-12 | 2022-12-27 | 电子科技大学 | 在web3D环境融入视觉问答的人机交互系统 |
WO2021095213A1 (ja) * | 2019-11-14 | 2021-05-20 | 富士通株式会社 | 学習方法、学習プログラム、および学習装置 |
CN110811558B (zh) * | 2019-11-18 | 2022-07-05 | 郑州大学 | 基于深度学习的睡眠觉醒分析方法 |
CN110990630B (zh) * | 2019-11-29 | 2022-06-24 | 清华大学 | 一种基于图建模视觉信息的利用问题指导的视频问答方法 |
CN111598118B (zh) * | 2019-12-10 | 2023-07-07 | 中山大学 | 一种视觉问答任务实现方法及系统 |
CN111274800B (zh) * | 2020-01-19 | 2022-03-18 | 浙江大学 | 基于关系图卷积网络的推理型阅读理解方法 |
CN111325243B (zh) * | 2020-02-03 | 2023-06-16 | 天津大学 | 一种基于区域注意力学习机制的视觉关系检测方法 |
CN111460121B (zh) * | 2020-03-31 | 2022-07-08 | 思必驰科技股份有限公司 | 视觉语义对话方法及系统 |
CN111552817A (zh) * | 2020-04-14 | 2020-08-18 | 国网内蒙古东部电力有限公司 | 一种电力科技成果知识图谱补全方法 |
CN113837212B (zh) * | 2020-06-24 | 2023-09-26 | 四川大学 | 一种基于多模态双向导向注意力的视觉问答方法 |
CN111797811B (zh) * | 2020-07-20 | 2023-09-12 | 广东工业大学 | 一种基于图像理解的盲人导航系统 |
CN111984772B (zh) * | 2020-07-23 | 2024-04-02 | 中山大学 | 一种基于深度学习的医疗影像问答方法及系统 |
CN113177147B (zh) * | 2020-08-13 | 2022-05-17 | 阿里巴巴集团控股有限公司 | 对象、机器模型处理方法、装置、设备和存储介质 |
CN112559698B (zh) * | 2020-11-02 | 2022-12-09 | 山东师范大学 | 基于多模态融合模型的提高视频问答精度方法及系统 |
CN112287159B (zh) * | 2020-12-18 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 检索方法、电子设备及计算机可读介质 |
CN112800191B (zh) * | 2020-12-31 | 2023-01-17 | 科大讯飞股份有限公司 | 一种基于图片的问答方法、设备及计算机可读存储介质 |
CN112905819B (zh) * | 2021-01-06 | 2022-09-23 | 中国石油大学(华东) | 基于复合注意力的原始特征注入网络的视觉问答方法 |
CN112926655B (zh) * | 2021-02-25 | 2022-05-17 | 电子科技大学 | 一种图像内容理解与视觉问答vqa方法、存储介质和终端 |
CN113010712B (zh) * | 2021-03-04 | 2022-12-02 | 天津大学 | 一种基于多图融合的视觉问答方法 |
CN112905777B (zh) * | 2021-03-19 | 2023-10-17 | 北京百度网讯科技有限公司 | 一种扩展问推荐方法、装置、电子设备及存储介质 |
CN113052661B (zh) * | 2021-04-14 | 2024-04-09 | 京东科技控股股份有限公司 | 属性信息的获取方法和装置、电子设备和存储介质 |
CN113157889A (zh) * | 2021-04-21 | 2021-07-23 | 韶鼎人工智能科技有限公司 | 一种基于主题损失的视觉问答模型构建方法 |
CN113177112B (zh) * | 2021-04-25 | 2022-07-01 | 天津大学 | 基于kr积融合多模态信息的神经网络视觉对话装置及方法 |
CN113177393B (zh) * | 2021-04-29 | 2023-12-26 | 思必驰科技股份有限公司 | 改进针对网页结构理解的预训练语言模型的方法和装置 |
CN113239214B (zh) * | 2021-05-19 | 2022-10-28 | 中国科学院自动化研究所 | 基于有监督对比的跨模态检索方法、系统及设备 |
CN113240046B (zh) * | 2021-06-02 | 2023-01-03 | 哈尔滨工程大学 | 一种基于知识的视觉问答任务下的多模态信息融合方法 |
CN113360621A (zh) * | 2021-06-22 | 2021-09-07 | 辽宁工程技术大学 | 一种基于模态推理图神经网络的场景文本视觉问答方法 |
CN114116994A (zh) * | 2021-06-30 | 2022-03-01 | 同济人工智能研究院(苏州)有限公司 | 一种迎宾机器人对话方法 |
CN113378989B (zh) * | 2021-07-06 | 2022-05-17 | 武汉大学 | 基于复式协同结构特征重组网络的多模态数据融合方法 |
CN113515615A (zh) * | 2021-07-09 | 2021-10-19 | 天津大学 | 一种基于胶囊自-导协同注意力机制的视觉问答方法 |
CN113590918A (zh) * | 2021-07-12 | 2021-11-02 | 电子科技大学 | 基于课程式学习的社交媒体舆情热度监测的框架构建方法 |
CN113420833B (zh) * | 2021-07-21 | 2023-12-26 | 南京大学 | 一种基于问题语义映射的视觉问答方法及装置 |
CN113656570A (zh) * | 2021-08-25 | 2021-11-16 | 平安科技(深圳)有限公司 | 基于深度学习模型的视觉问答方法及装置、介质、设备 |
CN114399628B (zh) * | 2021-12-21 | 2024-03-08 | 四川大学 | 复杂空间环境下的绝缘子高效检测系统 |
CN114398471A (zh) * | 2021-12-24 | 2022-04-26 | 哈尔滨工程大学 | 一种基于深层推理注意力机制的视觉问答方法 |
CN114691847B (zh) * | 2022-03-10 | 2024-04-26 | 华中科技大学 | 基于深度感知与语义引导的关系注意力网络视觉问答方法 |
CN116401390B (zh) * | 2023-05-19 | 2023-10-20 | 中国科学技术大学 | 一种视觉问答处理方法、系统、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649542A (zh) * | 2015-11-03 | 2017-05-10 | 百度(美国)有限责任公司 | 用于视觉问答的系统和方法 |
CN106951473A (zh) * | 2017-03-06 | 2017-07-14 | 浙江大学 | 面向视觉障碍人士的深度视觉问答系统的构建方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108154235A (zh) * | 2017-12-04 | 2018-06-12 | 盈盛资讯科技有限公司 | 一种图像问答推理方法、系统及装置 |
-
2019
- 2019-06-17 CN CN201910520138.7A patent/CN110377710B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649542A (zh) * | 2015-11-03 | 2017-05-10 | 百度(美国)有限责任公司 | 用于视觉问答的系统和方法 |
CN106951473A (zh) * | 2017-03-06 | 2017-07-14 | 浙江大学 | 面向视觉障碍人士的深度视觉问答系统的构建方法 |
CN107038221A (zh) * | 2017-03-22 | 2017-08-11 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
CN108154235A (zh) * | 2017-12-04 | 2018-06-12 | 盈盛资讯科技有限公司 | 一种图像问答推理方法、系统及装置 |
Non-Patent Citations (4)
Title |
---|
Attention is all you need;Vaswani A等;《Advances in neural information processing systems》;20171231;正文第1-15页 * |
Deep attention neural tensor network for visual question answering;Yalong Bai等;《Proceedings of the European Conference on computer vision》;20181231;正文第1-15页 * |
Yalong Bai等.Deep attention neural tensor network for visual question answering.《Proceedings of the European Conference on computer vision》.2018, * |
基于attention-based C-GRU模型的文本分类研究;杨东等;《中国优秀硕士学位论文全文数据库》;20180615;正文第31页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110377710A (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377710B (zh) | 一种基于多模态融合的视觉问答融合增强方法 | |
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
Tan et al. | KT-GAN: Knowledge-transfer generative adversarial network for text-to-image synthesis | |
US11531876B2 (en) | Deep learning for characterizing unseen categories | |
CN111709409A (zh) | 人脸活体检测方法、装置、设备及介质 | |
JP2017091525A (ja) | 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 | |
CN110851760B (zh) | 在web3D环境融入视觉问答的人机交互系统 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
Dai et al. | Tunneling neural perception and logic reasoning through abductive learning | |
CN114398961A (zh) | 一种基于多模态深度特征融合的视觉问答方法及其模型 | |
CN111598118A (zh) | 一种视觉问答任务实现方法及系统 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
WO2022187063A1 (en) | Cross-modal processing for vision and language | |
CN113792177A (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN117218498B (zh) | 基于多模态编码器的多模态大语言模型训练方法及系统 | |
Sun et al. | Local relation network with multilevel attention for visual question answering | |
CN113283488A (zh) | 一种基于学习行为的认知诊断方法及系统 | |
CN116662591A (zh) | 一种基于对比学习的鲁棒视觉问答模型训练方法 | |
CN116244474A (zh) | 一种基于多模态情感特征融合的学习者学习状态获取方法 | |
CN115512191A (zh) | 一种联合问答的图像自然语言描述方法 | |
CN115759262A (zh) | 基于知识感知注意力网络的视觉常识推理方法及系统 | |
CN112036546B (zh) | 序列处理方法及相关设备 | |
CN114639132A (zh) | 人脸识别场景下的特征提取模型处理方法、装置、设备 | |
CN116151226B (zh) | 一种基于机器学习的聋哑人手语纠错方法、设备和介质 | |
CN117711001B (zh) | 图像处理方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |