CN113297370A - 基于多交互注意力的端到端多模态问答方法及系统 - Google Patents
基于多交互注意力的端到端多模态问答方法及系统 Download PDFInfo
- Publication number
- CN113297370A CN113297370A CN202110848497.2A CN202110848497A CN113297370A CN 113297370 A CN113297370 A CN 113297370A CN 202110848497 A CN202110848497 A CN 202110848497A CN 113297370 A CN113297370 A CN 113297370A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- background knowledge
- attention
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于多交互注意力的端到端多模态问答方法及系统,包括:(1)接收问题和背景知识;(2)从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识;(3)对筛选出的文本背景知识进行编码,获得文本背景知识中各段落的特征表示;(4)将筛选出的图像背景知识解析为图像特征表示,并构建可微场景图;(5)融合特征表示和可微场景图,获得背景知识的融合特征表示;(6)将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层,计算各候选答案的预测概率,输出预测概率最高的候选答案。本发明可有效利用多模态信息,提升多模态语义理解的准确度和全面性,从而提升多模态问答系统的准确率。
Description
技术领域
本发明属于计算机视觉、自然语言处理和多模态问答技术领域,更具体地说,涉及基于多交互注意力的端到端多模态问答方法及系统。
背景技术
问答系统(Question Answer,简称QA)能自动满足用户的查询需求,帮助人们进行信息获取,它已显示出应用于现实世界问题的巨大潜力。但纯粹的文本难以描述人类面临的真实场景,实际生活中知识是多模态的,信息通过文本、图像和视频等传播。一个能够回答实际生活中问题的系统必须学会理解这些多模态信息,多模态问答是更贴近真实场景的任务。
近年来计算机视觉和自然语言处理技术都取得了巨大进展,促进了多模态任务的实际应用。教科书问答(Textbook Question Answer,简称TQA)任务是通过结合多模态信息(包含大量文本文档和图表)来描述现实世界中相当复杂的现象。因此,要回答课程问题,可能涉及较长的教科书课程中的多模态背景知识的理解。所以教科书问答相比于一般的文本问答、视觉问答等单模态问答任务更加复杂,对多模态数据的要求更高,也面临着更大的挑战。
基于深度学习的相关技术为多模态数据的表示任务打下了坚实的基础,在对文本和图像的建模和理解上取得了很好的效果。而在多模态问答领域,现有方法主要分为两类:一类是直接将全局图像特征和文本特征融合,比如拼接、双线性池化模型等;另一类是基于结构图的对齐融合,比如将文本解析为语法依赖树,将图像解析为无标签图。然而,一方面,这些方法都只考虑了图像内容和文本内容的浅层融合,忽略了单个模型数据中的自我影响以及跨模态数据之间的交互影响,难以有效联合多模态数据的信息进行语义理解;另一方面,图像解析模块、文本解析模块与语义理解模块分离,即两个模块单独训练,最终导致解析模块的误差直接影响语义理解模块,且该损失难以通过误差反向传播对解析模块修正。
综上所述,不难看出目前多模态问答技术难以对多模态数据的语义信息进行有效利用,浅层粗融合和解析后融合的方法都不可避免地产生语义损失,有效地多模态方法仍有待改善。
发明内容
本发明的目的在于克服现有技术的不足,提供基于多交互注意力的端到端多模态问答方法及系统,本发明可有效利用多模态信息,提升多模态语义理解的准确度和全面性,从而提升多模态问答系统的准确率。
本发明实施例提供的基于多交互注意力的端到端多模态问答方法,包括:
(1)接收问题和背景知识,所述背景知识包括文本背景知识和图像背景知识;
(2)从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识;
(3)对筛选出的文本背景知识进行编码,获得文本背景知识中各段落的特征表示;
(4)将筛选出的图像背景知识解析为图像特征表示,并构建可微场景图;
(5)融合步骤(3)和(4)所获段落的特征表示和可微场景图,获得背景知识的融合特征表示;本步骤具体包括:
利用注意力机制,从段落的特征表示中抽取与问题相关的文本重要特征;
利用注意力机制,从可微场景图中抽取与问题相关的图像重要特征;
将文本重要特征和图像重要特征输入多交互注意力模块进行融合,获得融合特征表示;
(6)将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层,计算各候选答案的预测概率,输出预测概率最高的候选答案。
可选的,在一些实施例中,步骤(2)中采用tf-idf法进行文本背景知识的筛选,具体为:
采用词频-逆文档频率法分别计算文本问题与文本背景知识中各段落之间的关联得分,选取关联得分大于预设得分阈值的段落或关联得分最高的d个段落作为问题相关的文本背景知识,得分阈值和d均为经验值。
可选的,在一些实施例中,所述采用词频-逆文档频率法分别计算文本问题与文本背景知识中各段落之间的关联得分,包括:
分别抽取文本问题与段落的词条;
计算各词条与段落的TF-IDF分数,文本问题中词条的TF-IDF分数构成文本问题的TF-IDF分数向量,段落中词条的TF-IDF分数构成段落的TF-IDF分数向量;
计算文本问题和段落的TF-IDF分数向量间的余弦相似度,即文本问题与段落间的关联得分;
其中,词条与段落的TF-IDF分数的计算方法如下:
计算词条在各段落中出现的频率,记为词频;计算词条的逆向文件频率;将词条的词频和逆向文件频率相乘得词条与段落间的TF-IDF分数。
可选的,在一些实施例中,步骤(2)中筛选出与问题相关的图像背景知识,包括:
将问题与图像背景知识中各图像分别进行编码,获得对应的特征表示;
基于特征表示分别计算各图像与问题的相似度,相似度最高的图像即问题相关的图像。
可选的,在一些实施例中,所述对筛选出的文本背景知识进行编码,包括:
利用GloVe模型将各段落中每个词条进行特征表示,将词条的特征表示输入双向GRU时序模型,输出段落的特征表示。
可选的,在一些实施例中,所述将筛选出的图像背景知识解析为可微场景图,包括:
提取图像背景知识中各图像的物体框集合以及物体之间的关系框集合;
取置信度超过预设值的物体框和关系框,再取并集获得候选的边界框集合;
提取候选的边界框集合中各边界框的图像特征表示;
基于候选的边界框集合以及相应的图像特征表示获得可微场景图。
可选的,在一些实施例中,步骤(5)中,所述从段落的特征表示中抽取与问题相关的文本重要特征,包括:
利用非线性模型获取问题与各段落之间的关联评分;
利用关联评分计算问题与各段落间的注意力权重;
利用注意力权重对各段落的特征表示进行加权求和,得文本重要特征。
可选的,在一些实施例中,步骤(5)中,所述从可微场景图中抽取与问题相关的图像重要特征,包括:
利用非线性模型获取问题与可微场景图的各候选边界框之间的关联评分;
利用关联评分计算问题与各候选边界框间的注意力权重;
利用注意力权重对各候选边界框的特征表示进行加权求和,得图像重要特征。
可选的,在一些实施例中,步骤(5)中,所述将文本重要特征和图像重要特征输入多交互注意力模块进行融合,包括:
所述多交互注意力模块包括T层记忆网络,按如下方法迭代更新T次:
在第t层文本记忆网络中,执行如下:
在第t层图像记忆网络中,执行如下:
(3)上述迭代完毕,将第T层文本记忆网络输出的文本注意特征和第T层图像记忆网络输出的图像注意特征输入深层神经网络解码器进行融合,获取背景知识的融合特征表示。
可选的,在一些实施例中,将步骤(4)构建可微场景图的损失与步骤(6)预测候选答案的损失联合,用来进行模型训练。
相应的,本发明实施例提供的一种基于多交互注意力的端到端多模态问答系统,包括:
接收模块,用来接收问题和背景知识,所述背景知识包括文本背景知识和图像背景知识;
筛选模块,用来从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识;
编码模块,用来对筛选出的文本背景知识进行编码,获得文本背景知识中各段落的特征表示;
解析模块,用来将筛选出的图像背景知识解析为图像特征表示,并获得可微场景图;
融合模块,用来融合编码模块和解析模块所获段落的特征表示和可微场景图,获得背景知识的融合特征表示;
所述融合模块包括:
第一子模块,用来利用注意力机制,从段落的特征表示中抽取与问题相关的文本重要特征;
第二子模块,用来利用注意力机制,从可微场景图中抽取与问题相关的图像重要特征;
融合子模块,用来将文本重要特征和图像重要特征输入多交互注意力模块进行融合,获得融合特征表示;
问答模块,用来将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层,计算各候选答案的预测概率,输出预测概率最高的候选答案。
和现有技术相比,本发明具有如下优点和有益效果:
(1)本发明可有效利用多模态信息,提升多模态语义理解的准确度和全面性,从而提升多模态问答系统的准确率,对多模态问答任务具有较大意义。
(2)本发明使用两个记忆网络分别对文本和图像数据进行建模,基于多交互注意力抽取不同层次的交互信息,并将交互信息进行非线性组合以学习跨模态数据间的多层次交互信息,实现多模态数据的有效融合。
(3)本发明基于记忆网络学习单模态数据中的自我影响,将解析过程和语义理解过程想统一,进行端到端地联立训练,实现全局损失共享,对两个模块同时训练,相互影响。
附图说明
图1为本发明实施例的流程示意图;
图2为本发明实施例的系统架构示意图。
具体实施方式
下面将结合附图对本发明的具体实施方式做详细说明。显然,所描述的具体实施方式仅仅是本发明的一部分实施例,而不是全部的实施例。基于所描述的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式,都属于本发明保护的范围。
参见图1,所示为本发明实施例的流程示意图,具体包括:
一、背景知识过滤。
背景知识过滤的目的在于筛选出与问题相关的背景知识。本发明中所输入背景知识包括文本背景知识和图像背景知识,所输入问题同样包括文本问题和图像问题。在本实施例中,背景知识为课文背景知识,问题为课文问题。首先输入课文问题和课文背景知识,然后对课文背景知识中的文本背景知识和图像背景知识分别进行过滤,去除问题不相关的文本背景知识和图像背景知识,保留与问题相关的文本背景知识和图像背景知识。
下面将详细描述本实施例如何对文本背景知识和图像背景知识进行过滤。
(1)文本背景知识的筛选。
本步骤中采用tf-idf法进行文本背景知识筛选。对于文本背景知识中多个文本段落p,基于tf-idf方法计算文本问题与各段落p之间的关联得分,选取出文本问题相关的段落,即所筛选的文本背景知识。本实施例中,根据预设规则筛选问题相关的段落,规则可以为:将关联得分大于预设得分阈值的段落作为问题相关段落;也可以为:将关联得分最高的d个段落作为问题相关段落,d值一般在3~6范围取值。本发明中得分阈值以及d值均为经验值,可通过多次试验寻求最优值。
TF-IDF全称:Term Frequency-Inverse Document Frequency,即词频-逆文档频率法,可用于评估某个词条对文档集中某文档的重要程度。主要评估思路为:判断某个词条在不同文档中出现的频率,当该词条在有的文档中出现频率高,而在其他文档中出现频率低,则认为该词条具有很好的类别区分能力。
TF-IDF法中,计算给定词条w在段落中出现的频率,即词频TF w ,如下:
式(2)中,段落总数指文本背景知识中的段落总数。
某一特定段落内的高词语频率,以及该词语在整个段落集合中的低文档频率,可以产生出高权重的TF-IDF,即词条w与段落的TF-IDF分数TF-IDF w :
TF-IDF w =TF w ×IDF w (3)
再基于各词条的TF-IDF w 计算文本问题和段落间的关联得分,过程如下:
首先,分别抽取文本问题与段落的词条,即关键词;然后,采用前述方法计算各关键词与段落的TF-IDF分数,文本问题中所有词条的TF-IDF分数构成文本问题的TF-IDF分数向量,段落中词条的TF-IDF分数构成段落的TF-IDF分数向量。最后,计算文本问题的TF-IDF分数向量与段落的TF-IDF分数向量之间的余弦相似度,即该文本问题与段落之间的关联得分。
(2)图像背景知识的筛选。
本实施例采用余弦相似度来度量问题与图像背景知识中各图像之间的相似度,从而对图像进行筛选。具体的,对图像背景知识中多个图像v,使用预训练的ResNet-101对各图像v分别进行全局编码,获取1024维的特征表示。利用预训练语义模型Bert获取问题的1024维特征表示,利用余弦相似度分别计算图像背景知识中各图像与问题之间的相似度,选取相似度最高的图像,即问题相关的图像,也就是筛选出的图像背景知识。
二,对前一步筛选出的文本背景知识和图像背景知识进行解析,将文本背景知识进行编码,将图像背景知识解析为可微场景图。
解析的目的是为了后续将文本和图像进行融合。下面将详细描述本实施例如何对文本和图像进行解析。
(1)文本背景知识的编码,获得文本背景知识中段落的特征表示。
本实施例中,利用GloVe模型初始化筛选出的文本背景知识中词层次的表示,将文本段落p中每个词条表示为300维,然后将词条表示输入双向GRU时序模型,获得文本段落p的特征表示,记为f p 。
(2)图像背景知识的解析,获得可微场景图。
本实施例中,将筛选出的图像背景知识按比例缩小到最小边600像素,最长边裁剪到1000像素,得到预处理的图像。利用预训练的Faster R-CNN网络,提取图像中的物体框集合B={b i }, 以及物体之间的关系框R={r j }。其中,b i 为集合B中第i个物体框,物体框表示为一个四维向量(x, y, w, h)的边界框,(x, y)表示物体框中心点的坐标,w、h分别表示物体框的宽和高。r j 为集合R中第j个关系框,其是合并两个有关系的物体框获取的最大公共边界框。Faster R-CNN网络提取的物体框和关系框都带有一个置信度confidence,设置预定义阈值为0.5,选取置信度超过阈值0.5的若干边界框作为候选的物体框和关系框,所选取边界框数量范围为[10, 256]。
将候选的物体框和关系框取并集获得候选的边界框集合,利用Faster R-CNN网络获取候选边界框集合中各边界框的图像特征f x ={f xk },f xk 是x k 的特征表示,本实施例中,特征表示f xk 为1024维特征表示;x k 是候选边界框集合中的第k个候选边界框。基于候选物体框、候选关系框、以及其相应特征表示可以得到可微场景图。
三、利用多交互注意力,将第二步所获段落特征表示和可微场景图进行文本和图像的融合。
本步骤分别在文本域和图像域,对文本和图像的语义分别进行多层次交互,获取多层次融合语义。下面将详细描述本实施例的具体实施步骤。
3.1a利用非线性模型获取问题q与第l个段落p l 之间的关联评分h l :
3.2a利用非线性模型获取问题q与第k个候选边界框x k 之间的关联评分h k :
式(7)中,W img 和b img 是非线性模型中的可训练参数,tanh表示非线性激活函数,f xk 是第二步获取的第k个候选边界框的特征表示。
四、答案预测。
将融合特征,问题q的特征表示、候选答案a u 的特征表示输入一个非线性层,再经过softmax函数得到预测概率pred u ,即候选答案a u 作为该问题q正确答案的概率,概率最高的候选答案即作为最终答案输出。
本发明中候选答案预先输入,例如对于选择题型的问题,输入问题即输入了若干候选答案。
五、端到端模型训练,解析模块与问答模块的损失联合。
本步骤为优选方案,可以进一步优化模型,提高问答精确度。
本实施例中,将第二步构建可微场景图的损失与第四步问答模块预测答案的损失进行联合,从而使得可微场景图与答案预测之间的损失共享。通过同时指导可微场景图的构建和问答任务,可以生成更适合于问答的可微场景图及其对应表示,并进一步优化问答模块的问答效果,提高整体的精确度。两个模块损失都使用交叉熵,使得两个模块损失共同对模型训练产生影响,实现端到端的模型训练构成。
交叉熵L CE 的计算公式如下:
整体损失L定义为:
本发明实施例中,利用Faster R-CNN网络对图像理解的损失加入到模型训练中,利用Faster R-CNN生成的可微场景图,实现端到端的问答系统,避免了解析模块损失导致的整体问答效果不佳,减少了该过程的语义损失。利用多交互注意力,捕捉深层次的跨模态交互信息,同时基于网络学习单模态上的信息,实现对背景知识语义更好地理解。最终在TQA基准数据集上可以更好地提高精确度。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人 员可以理解的其他实施方式。
Claims (10)
1.基于多交互注意力的端到端多模态问答方法,其特征是,包括:
(1)接收问题和背景知识,所述背景知识包括文本背景知识和图像背景知识;
(2)从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识;
(3)对筛选出的文本背景知识进行编码,获得文本背景知识中各段落的特征表示;
(4)将筛选出的图像背景知识解析为图像特征表示,并构建可微场景图;
(5)融合步骤(3)和(4)所获段落的特征表示和可微场景图,获得背景知识的融合特征表示;本步骤具体包括:
利用注意力机制,从段落的特征表示中抽取与问题相关的文本重要特征;
利用注意力机制,从可微场景图中抽取与问题相关的图像重要特征;
将文本重要特征和图像重要特征输入多交互注意力模块进行融合,获得融合特征表示;
(6)将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层,计算各候选答案的预测概率,输出预测概率最高的候选答案。
2.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
步骤(2)中采用tf-idf法进行文本背景知识的筛选,具体为:
采用词频-逆文档频率法分别计算文本问题与文本背景知识中各段落之间的关联得分,选取关联得分大于预设得分阈值的段落或关联得分最高的d个段落作为问题相关的文本背景知识,得分阈值和d均为经验值。
3.如权利要求2所述的基于多交互注意力的端到端多模态问答方法,其特征是:
所述采用词频-逆文档频率法分别计算文本问题与文本背景知识中各段落之间的关联得分,包括:
分别抽取文本问题与段落的词条;
计算各词条与段落的TF-IDF分数,文本问题中词条的TF-IDF分数构成文本问题的TF- IDF分数向量,段落中词条的TF-IDF分数构成段落的TF-IDF分数向量;
计算文本问题和段落的TF-IDF分数向量间的余弦相似度,即文本问题与段落间的关联得分;
其中,词条与段落的TF-IDF分数的计算方法如下:
计算词条在各段落中出现的频率,记为词频;计算词条的逆向文件频率;将词条的词频和逆向文件频率相乘得词条与段落间的TF-IDF分数。
4.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
步骤(2)中筛选出与问题相关的图像背景知识,包括:
将问题与图像背景知识中各图像分别进行编码,获得对应的特征表示;
基于特征表示分别计算各图像与问题的相似度,相似度最高的图像即问题相关的图像。
5.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
所述将筛选出的图像背景知识解析为可微场景图,包括:
提取图像背景知识中各图像的物体框集合以及物体之间的关系框集合;
取置信度超过预设值的物体框和关系框,再取并集获得候选的边界框集合;
提取候选的边界框集合中各边界框的图像特征表示;
基于候选的边界框集合以及相应的图像特征表示获得可微场景图。
6.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
步骤(5)中,所述从段落的特征表示中抽取与问题相关的文本重要特征,包括:
利用非线性模型获取问题与各段落之间的关联评分;
利用关联评分计算问题与各段落间的注意力权重;
利用注意力权重对各段落的特征表示进行加权求和,得文本重要特征。
7.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
步骤(5)中,所述从可微场景图中抽取与问题相关的图像重要特征,包括:
利用非线性模型获取问题与可微场景图的各候选边界框之间的关联评分;
利用关联评分计算问题与各候选边界框间的注意力权重;
利用注意力权重对各候选边界框的特征表示进行加权求和,得图像重要特征。
8.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
步骤(5)中,所述将文本重要特征和图像重要特征输入多交互注意力模块进行融合,包括:
所述多交互注意力模块包括T层记忆网络,按如下方法迭代更新T次:
在第t层文本记忆网络中,执行如下:
在第t层图像记忆网络中,执行如下:
(3)步骤(1a)- (1c)以及步骤(2a)- (2c)进行完T次迭代后,将第T层文本记忆网络输出的文本注意特征和第T层图像记忆网络输出的图像注意特征输入深层神经网络解码器进行融合,获取背景知识的融合特征表示。
9.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
将步骤(4)构建可微场景图的损失与步骤(6)预测候选答案的损失联合,用来进行模型训练。
10.基于多交互注意力的端到端多模态问答系统,其特征是,包括:
接收模块,用来接收问题和背景知识,所述背景知识包括文本背景知识和图像背景知识;
筛选模块,用来从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识;
编码模块,用来对筛选出的文本背景知识进行编码,获得文本背景知识中各段落的特征表示;
解析模块,用来将筛选出的图像背景知识解析为图像特征表示,并获得可微场景图;
融合模块,用来融合编码模块和解析模块所获段落的特征表示和可微场景图,获得背景知识的融合特征表示;
所述融合模块包括:
第一子模块,用来利用注意力机制,从段落的特征表示中抽取与问题相关的文本重要特征;
第二子模块,用来利用注意力机制,从可微场景图中抽取与问题相关的图像重要特征;
融合子模块,用来将文本重要特征和图像重要特征输入多交互注意力模块进行融合,获得融合特征表示;
问答模块,用来将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层,计算各候选答案的预测概率,输出预测概率最高的候选答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110848497.2A CN113297370B (zh) | 2021-07-27 | 2021-07-27 | 基于多交互注意力的端到端多模态问答方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110848497.2A CN113297370B (zh) | 2021-07-27 | 2021-07-27 | 基于多交互注意力的端到端多模态问答方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113297370A true CN113297370A (zh) | 2021-08-24 |
CN113297370B CN113297370B (zh) | 2021-11-16 |
Family
ID=77331101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110848497.2A Active CN113297370B (zh) | 2021-07-27 | 2021-07-27 | 基于多交互注意力的端到端多模态问答方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297370B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398961A (zh) * | 2021-12-28 | 2022-04-26 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN114443822A (zh) * | 2021-12-24 | 2022-05-06 | 科大讯飞(苏州)科技有限公司 | 用于建筑领域的多模态问答的方法、系统和计算设备 |
CN114972944A (zh) * | 2022-06-16 | 2022-08-30 | 中国电信股份有限公司 | 视觉问答模型的训练方法及装置、问答方法、介质、设备 |
WO2023035610A1 (zh) * | 2021-09-09 | 2023-03-16 | 中山大学 | 基于关键词感知的多模态注意力视频问答方法与系统 |
CN116431793A (zh) * | 2023-06-14 | 2023-07-14 | 华南理工大学 | 一种基于知识生成的视觉问答方法、装置及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
CN111666376A (zh) * | 2020-05-21 | 2020-09-15 | 武汉大学 | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 |
US20200356829A1 (en) * | 2019-05-08 | 2020-11-12 | Accenture Global Solutions Limited | Multi-modal visual question answering system |
US20210109956A1 (en) * | 2018-01-30 | 2021-04-15 | Intel Corporation | Visual question answering using visual knowledge bases |
CN112905762A (zh) * | 2021-02-05 | 2021-06-04 | 南京航空航天大学 | 一种基于同等注意力图网络的视觉问答方法 |
CN113010656A (zh) * | 2021-03-18 | 2021-06-22 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113095331A (zh) * | 2021-04-22 | 2021-07-09 | 合肥工业大学 | 一种电力设备外观缺陷的视觉问答方法、系统、设备及其存储介质 |
-
2021
- 2021-07-27 CN CN202110848497.2A patent/CN113297370B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
US20210109956A1 (en) * | 2018-01-30 | 2021-04-15 | Intel Corporation | Visual question answering using visual knowledge bases |
US20200356829A1 (en) * | 2019-05-08 | 2020-11-12 | Accenture Global Solutions Limited | Multi-modal visual question answering system |
CN111666376A (zh) * | 2020-05-21 | 2020-09-15 | 武汉大学 | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 |
CN112905762A (zh) * | 2021-02-05 | 2021-06-04 | 南京航空航天大学 | 一种基于同等注意力图网络的视觉问答方法 |
CN113010656A (zh) * | 2021-03-18 | 2021-06-22 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113095331A (zh) * | 2021-04-22 | 2021-07-09 | 合肥工业大学 | 一种电力设备外观缺陷的视觉问答方法、系统、设备及其存储介质 |
Non-Patent Citations (4)
Title |
---|
SAURABH SAHU 等: "Cross-modal Non-linear Guided Attention and Temporal Coherence in Multi-modal Deep Video Models", 《PROCEEDINGS OF THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
ZHOU YU等: "Deep Modular Co-Attention Networks for Visual Question Answerin", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
江邹 等: "利用文本特征增强与注意力机制提高图像问答准确率", 《计算机科学与应用》 * |
邓一娇 等: "面向跨模态检索的协同注意力网络模型", 《计算机科学》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023035610A1 (zh) * | 2021-09-09 | 2023-03-16 | 中山大学 | 基于关键词感知的多模态注意力视频问答方法与系统 |
CN114443822A (zh) * | 2021-12-24 | 2022-05-06 | 科大讯飞(苏州)科技有限公司 | 用于建筑领域的多模态问答的方法、系统和计算设备 |
CN114398961A (zh) * | 2021-12-28 | 2022-04-26 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN114398961B (zh) * | 2021-12-28 | 2023-05-05 | 西南交通大学 | 一种基于多模态深度特征融合的视觉问答方法及其模型 |
CN114972944A (zh) * | 2022-06-16 | 2022-08-30 | 中国电信股份有限公司 | 视觉问答模型的训练方法及装置、问答方法、介质、设备 |
CN114972944B (zh) * | 2022-06-16 | 2023-10-27 | 中国电信股份有限公司 | 视觉问答模型的训练方法及装置、问答方法、介质、设备 |
CN116431793A (zh) * | 2023-06-14 | 2023-07-14 | 华南理工大学 | 一种基于知识生成的视觉问答方法、装置及存储介质 |
CN116431793B (zh) * | 2023-06-14 | 2023-08-22 | 华南理工大学 | 一种基于知识生成的视觉问答方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113297370B (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113297370B (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN112163165B (zh) | 信息推荐方法、装置、设备及计算机可读存储介质 | |
CN108959396B (zh) | 机器阅读模型训练方法及装置、问答方法及装置 | |
CN111897913B (zh) | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 | |
CN110737801A (zh) | 内容分类方法、装置、计算机设备和存储介质 | |
KR20210095208A (ko) | 비디오 캡션 생성 방법, 디바이스 및 장치, 그리고 저장 매체 | |
CN109874053A (zh) | 基于视频内容理解和用户动态兴趣的短视频推荐方法 | |
CN111046275B (zh) | 基于人工智能的用户标签确定方法及装置、存储介质 | |
CN110083729B (zh) | 一种图像搜索的方法及系统 | |
CN112287170B (zh) | 一种基于多模态联合学习的短视频分类方法及装置 | |
CN112527993B (zh) | 一种跨媒体层次化深度视频问答推理框架 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN113792177A (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN113761153A (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
CN112800292A (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN115964560B (zh) | 基于多模态预训练模型的资讯推荐方法及设备 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN114418032A (zh) | 一种基于自协调对比学习的五模态商品预训练方法及检索系统 | |
CN112668638A (zh) | 一种图像美学质量评估和语义识别联合分类方法及系统 | |
CN112131345A (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN116049557A (zh) | 一种基于多模态预训练模型的教育资源推荐方法 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN116977701A (zh) | 视频分类模型训练的方法、视频分类的方法和装置 | |
CN115982652A (zh) | 一种基于注意力网络的跨模态情感分析方法 | |
CN113177112B (zh) | 基于kr积融合多模态信息的神经网络视觉对话装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |