CN113297370A - 基于多交互注意力的端到端多模态问答方法及系统 - Google Patents

基于多交互注意力的端到端多模态问答方法及系统 Download PDF

Info

Publication number
CN113297370A
CN113297370A CN202110848497.2A CN202110848497A CN113297370A CN 113297370 A CN113297370 A CN 113297370A CN 202110848497 A CN202110848497 A CN 202110848497A CN 113297370 A CN113297370 A CN 113297370A
Authority
CN
China
Prior art keywords
text
image
background knowledge
attention
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110848497.2A
Other languages
English (en)
Other versions
CN113297370B (zh
Inventor
张宾
孙喜民
高亚斌
贾江凯
郑斌
王帅
李慧超
孙博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid E Commerce Co Ltd
State Grid E Commerce Technology Co Ltd
Original Assignee
State Grid E Commerce Co Ltd
State Grid E Commerce Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid E Commerce Co Ltd, State Grid E Commerce Technology Co Ltd filed Critical State Grid E Commerce Co Ltd
Priority to CN202110848497.2A priority Critical patent/CN113297370B/zh
Publication of CN113297370A publication Critical patent/CN113297370A/zh
Application granted granted Critical
Publication of CN113297370B publication Critical patent/CN113297370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于多交互注意力的端到端多模态问答方法及系统,包括:(1)接收问题和背景知识;(2)从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识;(3)对筛选出的文本背景知识进行编码,获得文本背景知识中各段落的特征表示;(4)将筛选出的图像背景知识解析为图像特征表示,并构建可微场景图;(5)融合特征表示和可微场景图,获得背景知识的融合特征表示;(6)将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层,计算各候选答案的预测概率,输出预测概率最高的候选答案。本发明可有效利用多模态信息,提升多模态语义理解的准确度和全面性,从而提升多模态问答系统的准确率。

Description

基于多交互注意力的端到端多模态问答方法及系统
技术领域
本发明属于计算机视觉、自然语言处理和多模态问答技术领域,更具体地说,涉及基于多交互注意力的端到端多模态问答方法及系统。
背景技术
问答系统(Question Answer,简称QA)能自动满足用户的查询需求,帮助人们进行信息获取,它已显示出应用于现实世界问题的巨大潜力。但纯粹的文本难以描述人类面临的真实场景,实际生活中知识是多模态的,信息通过文本、图像和视频等传播。一个能够回答实际生活中问题的系统必须学会理解这些多模态信息,多模态问答是更贴近真实场景的任务。
近年来计算机视觉和自然语言处理技术都取得了巨大进展,促进了多模态任务的实际应用。教科书问答(Textbook Question Answer,简称TQA)任务是通过结合多模态信息(包含大量文本文档和图表)来描述现实世界中相当复杂的现象。因此,要回答课程问题,可能涉及较长的教科书课程中的多模态背景知识的理解。所以教科书问答相比于一般的文本问答、视觉问答等单模态问答任务更加复杂,对多模态数据的要求更高,也面临着更大的挑战。
基于深度学习的相关技术为多模态数据的表示任务打下了坚实的基础,在对文本和图像的建模和理解上取得了很好的效果。而在多模态问答领域,现有方法主要分为两类:一类是直接将全局图像特征和文本特征融合,比如拼接、双线性池化模型等;另一类是基于结构图的对齐融合,比如将文本解析为语法依赖树,将图像解析为无标签图。然而,一方面,这些方法都只考虑了图像内容和文本内容的浅层融合,忽略了单个模型数据中的自我影响以及跨模态数据之间的交互影响,难以有效联合多模态数据的信息进行语义理解;另一方面,图像解析模块、文本解析模块与语义理解模块分离,即两个模块单独训练,最终导致解析模块的误差直接影响语义理解模块,且该损失难以通过误差反向传播对解析模块修正。
综上所述,不难看出目前多模态问答技术难以对多模态数据的语义信息进行有效利用,浅层粗融合和解析后融合的方法都不可避免地产生语义损失,有效地多模态方法仍有待改善。
发明内容
本发明的目的在于克服现有技术的不足,提供基于多交互注意力的端到端多模态问答方法及系统,本发明可有效利用多模态信息,提升多模态语义理解的准确度和全面性,从而提升多模态问答系统的准确率。
本发明实施例提供的基于多交互注意力的端到端多模态问答方法,包括:
(1)接收问题和背景知识,所述背景知识包括文本背景知识和图像背景知识;
(2)从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识;
(3)对筛选出的文本背景知识进行编码,获得文本背景知识中各段落的特征表示;
(4)将筛选出的图像背景知识解析为图像特征表示,并构建可微场景图;
(5)融合步骤(3)和(4)所获段落的特征表示和可微场景图,获得背景知识的融合特征表示;本步骤具体包括:
利用注意力机制,从段落的特征表示中抽取与问题相关的文本重要特征;
利用注意力机制,从可微场景图中抽取与问题相关的图像重要特征;
将文本重要特征和图像重要特征输入多交互注意力模块进行融合,获得融合特征表示;
(6)将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层,计算各候选答案的预测概率,输出预测概率最高的候选答案。
可选的,在一些实施例中,步骤(2)中采用tf-idf法进行文本背景知识的筛选,具体为:
采用词频-逆文档频率法分别计算文本问题与文本背景知识中各段落之间的关联得分,选取关联得分大于预设得分阈值的段落或关联得分最高的d个段落作为问题相关的文本背景知识,得分阈值和d均为经验值。
可选的,在一些实施例中,所述采用词频-逆文档频率法分别计算文本问题与文本背景知识中各段落之间的关联得分,包括:
分别抽取文本问题与段落的词条;
计算各词条与段落的TF-IDF分数,文本问题中词条的TF-IDF分数构成文本问题的TF-IDF分数向量,段落中词条的TF-IDF分数构成段落的TF-IDF分数向量;
计算文本问题和段落的TF-IDF分数向量间的余弦相似度,即文本问题与段落间的关联得分;
其中,词条与段落的TF-IDF分数的计算方法如下:
计算词条在各段落中出现的频率,记为词频;计算词条的逆向文件频率;将词条的词频和逆向文件频率相乘得词条与段落间的TF-IDF分数。
可选的,在一些实施例中,步骤(2)中筛选出与问题相关的图像背景知识,包括:
将问题与图像背景知识中各图像分别进行编码,获得对应的特征表示;
基于特征表示分别计算各图像与问题的相似度,相似度最高的图像即问题相关的图像。
可选的,在一些实施例中,所述对筛选出的文本背景知识进行编码,包括:
利用GloVe模型将各段落中每个词条进行特征表示,将词条的特征表示输入双向GRU时序模型,输出段落的特征表示。
可选的,在一些实施例中,所述将筛选出的图像背景知识解析为可微场景图,包括:
提取图像背景知识中各图像的物体框集合以及物体之间的关系框集合;
取置信度超过预设值的物体框和关系框,再取并集获得候选的边界框集合;
提取候选的边界框集合中各边界框的图像特征表示;
基于候选的边界框集合以及相应的图像特征表示获得可微场景图。
可选的,在一些实施例中,步骤(5)中,所述从段落的特征表示中抽取与问题相关的文本重要特征,包括:
利用非线性模型获取问题与各段落之间的关联评分;
利用关联评分计算问题与各段落间的注意力权重;
利用注意力权重对各段落的特征表示进行加权求和,得文本重要特征。
可选的,在一些实施例中,步骤(5)中,所述从可微场景图中抽取与问题相关的图像重要特征,包括:
利用非线性模型获取问题与可微场景图的各候选边界框之间的关联评分;
利用关联评分计算问题与各候选边界框间的注意力权重;
利用注意力权重对各候选边界框的特征表示进行加权求和,得图像重要特征。
可选的,在一些实施例中,步骤(5)中,所述将文本重要特征和图像重要特征输入多交互注意力模块进行融合,包括:
所述多交互注意力模块包括T层记忆网络,按如下方法迭代更新T次:
在第t层文本记忆网络中,执行如下:
(1a)利用上一层文本记忆网络输出的文本注意特征和步骤(3)获得的段落的特征表示,生成文本模态的注意力特征
Figure 739861DEST_PATH_IMAGE001
;第1层文本记忆网络初始的文本注意特征采用文本重要特征;
(1b)利用上一层图像记忆网络输出的图像注意特征和步骤(3)获得的段落的特征表示,生成跨模态的注意力特征
Figure 892625DEST_PATH_IMAGE002
;第1层图像记忆网络初始的图像注意特征采用图像重要特征;
(1c)将
Figure 388329DEST_PATH_IMAGE001
Figure 651951DEST_PATH_IMAGE002
输入平均池化层,获得第t层文本记忆网络输出的文本注意特征;
在第t层图像记忆网络中,执行如下:
(2a)利用上一层图像记忆网络输出的图像注意特征和步骤(4)获得的图像特征表示,生成视觉模态的注意力特征
Figure 877396DEST_PATH_IMAGE003
(2b)利用上一层文本记忆网络输出的文本注意特征和步骤(4)获得的图像特征表示,生成跨模态的注意力特征
Figure 669902DEST_PATH_IMAGE002
(2c)将
Figure 511957DEST_PATH_IMAGE003
Figure 313690DEST_PATH_IMAGE002
输入平均池化层,获得第t层图像记忆网络输出的图像注意特征;
(3)上述迭代完毕,将第T层文本记忆网络输出的文本注意特征和第T层图像记忆网络输出的图像注意特征输入深层神经网络解码器进行融合,获取背景知识的融合特征表示。
可选的,在一些实施例中,将步骤(4)构建可微场景图的损失与步骤(6)预测候选答案的损失联合,用来进行模型训练。
相应的,本发明实施例提供的一种基于多交互注意力的端到端多模态问答系统,包括:
接收模块,用来接收问题和背景知识,所述背景知识包括文本背景知识和图像背景知识;
筛选模块,用来从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识;
编码模块,用来对筛选出的文本背景知识进行编码,获得文本背景知识中各段落的特征表示;
解析模块,用来将筛选出的图像背景知识解析为图像特征表示,并获得可微场景图;
融合模块,用来融合编码模块和解析模块所获段落的特征表示和可微场景图,获得背景知识的融合特征表示;
所述融合模块包括:
第一子模块,用来利用注意力机制,从段落的特征表示中抽取与问题相关的文本重要特征;
第二子模块,用来利用注意力机制,从可微场景图中抽取与问题相关的图像重要特征;
融合子模块,用来将文本重要特征和图像重要特征输入多交互注意力模块进行融合,获得融合特征表示;
问答模块,用来将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层,计算各候选答案的预测概率,输出预测概率最高的候选答案。
和现有技术相比,本发明具有如下优点和有益效果:
(1)本发明可有效利用多模态信息,提升多模态语义理解的准确度和全面性,从而提升多模态问答系统的准确率,对多模态问答任务具有较大意义。
(2)本发明使用两个记忆网络分别对文本和图像数据进行建模,基于多交互注意力抽取不同层次的交互信息,并将交互信息进行非线性组合以学习跨模态数据间的多层次交互信息,实现多模态数据的有效融合。
(3)本发明基于记忆网络学习单模态数据中的自我影响,将解析过程和语义理解过程想统一,进行端到端地联立训练,实现全局损失共享,对两个模块同时训练,相互影响。
附图说明
图1为本发明实施例的流程示意图;
图2为本发明实施例的系统架构示意图。
具体实施方式
下面将结合附图对本发明的具体实施方式做详细说明。显然,所描述的具体实施方式仅仅是本发明的一部分实施例,而不是全部的实施例。基于所描述的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式,都属于本发明保护的范围。
参见图1,所示为本发明实施例的流程示意图,具体包括:
一、背景知识过滤。
背景知识过滤的目的在于筛选出与问题相关的背景知识。本发明中所输入背景知识包括文本背景知识和图像背景知识,所输入问题同样包括文本问题和图像问题。在本实施例中,背景知识为课文背景知识,问题为课文问题。首先输入课文问题和课文背景知识,然后对课文背景知识中的文本背景知识和图像背景知识分别进行过滤,去除问题不相关的文本背景知识和图像背景知识,保留与问题相关的文本背景知识和图像背景知识。
下面将详细描述本实施例如何对文本背景知识和图像背景知识进行过滤。
(1)文本背景知识的筛选。
本步骤中采用tf-idf法进行文本背景知识筛选。对于文本背景知识中多个文本段落p,基于tf-idf方法计算文本问题与各段落p之间的关联得分,选取出文本问题相关的段落,即所筛选的文本背景知识。本实施例中,根据预设规则筛选问题相关的段落,规则可以为:将关联得分大于预设得分阈值的段落作为问题相关段落;也可以为:将关联得分最高的d个段落作为问题相关段落,d值一般在3~6范围取值。本发明中得分阈值以及d值均为经验值,可通过多次试验寻求最优值。
TF-IDF全称:Term Frequency-Inverse Document Frequency,即词频-逆文档频率法,可用于评估某个词条对文档集中某文档的重要程度。主要评估思路为:判断某个词条在不同文档中出现的频率,当该词条在有的文档中出现频率高,而在其他文档中出现频率低,则认为该词条具有很好的类别区分能力。
TF-IDF法中,计算给定词条w在段落中出现的频率,即词频TF w ,如下:
Figure 393642DEST_PATH_IMAGE004
(1)
TF-IDF法中,
Figure 622629DEST_PATH_IMAGE005
是给定词条w的逆向文件频率,其为词条普遍重要性的度量,计算如下:
Figure 420821DEST_PATH_IMAGE006
(2)
式(2)中,段落总数指文本背景知识中的段落总数。
某一特定段落内的高词语频率,以及该词语在整个段落集合中的低文档频率,可以产生出高权重的TF-IDF,即词条w与段落的TF-IDF分数TF-IDF w
TF-IDF w =TF w ×IDF w (3)
再基于各词条的TF-IDF w 计算文本问题和段落间的关联得分,过程如下:
首先,分别抽取文本问题与段落的词条,即关键词;然后,采用前述方法计算各关键词与段落的TF-IDF分数,文本问题中所有词条的TF-IDF分数构成文本问题的TF-IDF分数向量,段落中词条的TF-IDF分数构成段落的TF-IDF分数向量。最后,计算文本问题的TF-IDF分数向量与段落的TF-IDF分数向量之间的余弦相似度,即该文本问题与段落之间的关联得分。
(2)图像背景知识的筛选。
本实施例采用余弦相似度来度量问题与图像背景知识中各图像之间的相似度,从而对图像进行筛选。具体的,对图像背景知识中多个图像v,使用预训练的ResNet-101对各图像v分别进行全局编码,获取1024维的特征表示。利用预训练语义模型Bert获取问题的1024维特征表示
Figure 26246DEST_PATH_IMAGE007
,利用余弦相似度分别计算图像背景知识中各图像与问题之间的相似度,选取相似度最高的图像,即问题相关的图像,也就是筛选出的图像背景知识。
二,对前一步筛选出的文本背景知识和图像背景知识进行解析,将文本背景知识进行编码,将图像背景知识解析为可微场景图。
解析的目的是为了后续将文本和图像进行融合。下面将详细描述本实施例如何对文本和图像进行解析。
(1)文本背景知识的编码,获得文本背景知识中段落的特征表示。
本实施例中,利用GloVe模型初始化筛选出的文本背景知识中词层次的表示,将文本段落p中每个词条表示为300维,然后将词条表示输入双向GRU时序模型,获得文本段落p的特征表示,记为f p
(2)图像背景知识的解析,获得可微场景图。
本实施例中,将筛选出的图像背景知识按比例缩小到最小边600像素,最长边裁剪到1000像素,得到预处理的图像。利用预训练的Faster R-CNN网络,提取图像中的物体框集合B={b i }, 以及物体之间的关系框R={r j }。其中,b i 为集合B中第i个物体框,物体框表示为一个四维向量(x, y, w, h)的边界框,(x, y)表示物体框中心点的坐标,w、h分别表示物体框的宽和高。r j 为集合R中第j个关系框,其是合并两个有关系的物体框获取的最大公共边界框。Faster R-CNN网络提取的物体框和关系框都带有一个置信度confidence,设置预定义阈值为0.5,选取置信度超过阈值0.5的若干边界框作为候选的物体框和关系框,所选取边界框数量范围为[10, 256]。
将候选的物体框和关系框取并集获得候选的边界框集合,利用Faster R-CNN网络获取候选边界框集合中各边界框的图像特征f x ={f xk },f xk x k 的特征表示,本实施例中,特征表示f xk 为1024维特征表示;x k 是候选边界框集合中的第k个候选边界框。基于候选物体框、候选关系框、以及其相应特征表示可以得到可微场景图。
三、利用多交互注意力,将第二步所获段落特征表示和可微场景图进行文本和图像的融合。
本步骤分别在文本域和图像域,对文本和图像的语义分别进行多层次交互,获取多层次融合语义。下面将详细描述本实施例的具体实施步骤。
3.1利用基于问题引导的注意力机制,从段落的特征表示中抽取与问题相关的文本重要特征信息
Figure 960704DEST_PATH_IMAGE008
,具体过程如下:
3.1a利用非线性模型获取问题q与第l个段落p l 之间的关联评分h l
Figure 422909DEST_PATH_IMAGE009
(4)
式(4)中,W text b text 是非线性模型中的可训练参数,tanh表示非线性激活函数;
Figure 583763DEST_PATH_IMAGE010
是段落p l 的特征表示,即第二步编码后获得的特征表示;
Figure 851933DEST_PATH_IMAGE007
是问题q的特征表示。
3.1b 利用关联评分h l 计算问题q与段落p l 间的注意力权重
Figure 781843DEST_PATH_IMAGE011
Figure 946108DEST_PATH_IMAGE012
(5)
式(5)中,
Figure 453313DEST_PATH_IMAGE013
表示以自然常数e为底的指数函数,l表示段落p l 的编号,L表示段落的总数,
Figure 400540DEST_PATH_IMAGE014
表示问题q与第
Figure 575170DEST_PATH_IMAGE015
个段落间的关联评分。
3.1c 对L个段落信息汇总,得到初始时刻下与问题q相关的文本重要特征信息
Figure 582440DEST_PATH_IMAGE008
Figure 842520DEST_PATH_IMAGE016
(6)
3.2 从图像的特征表示中抽取与问题相关的图像重要特征信息
Figure 327859DEST_PATH_IMAGE017
,且在该过程中尽可能去除噪声。具体过程如下:
3.2a利用非线性模型获取问题q与第k个候选边界框x k 之间的关联评分h k
Figure 560257DEST_PATH_IMAGE018
(7)
式(7)中,W img b img 是非线性模型中的可训练参数,tanh表示非线性激活函数,f xk 是第二步获取的第k个候选边界框的特征表示。
3.2b 利用关联评分h k 计算问题q与候选边界框x k 之间的注意力权重
Figure DEST_PATH_IMAGE019
Figure 15727DEST_PATH_IMAGE020
(8)
式(8)中,
Figure 763103DEST_PATH_IMAGE013
表示以自然常数e为底的指数函数,
Figure DEST_PATH_IMAGE021
表示x k 的编号,K表示候选边界框总数,
Figure 848871DEST_PATH_IMAGE022
表示问题q与第
Figure 607879DEST_PATH_IMAGE021
个候选边界框之间的关联评分。
3.2c 对K个候选边界框信息汇总,得到初始时刻下与问题相关的图像重要特征信息
Figure 284848DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE023
(9)
3.3 将文本重要特征信息
Figure 660466DEST_PATH_IMAGE008
和图像重要特征信息
Figure 877821DEST_PATH_IMAGE017
输入多交互注意力模块,获取深层次交互信息。
本实施例采用的多交互注意力模块包含T层的记忆网络,不断迭代更新特征表示,即重复T次以下迭代过程,计算不同迭代次数t时的文本特征表示
Figure 756915DEST_PATH_IMAGE001
和视觉特征表示
Figure 135944DEST_PATH_IMAGE002
3.3a 在第t层文本记忆网络中,利用第二步所获的段落特征表示
Figure 795595DEST_PATH_IMAGE024
生成文本模态的注意力特征
Figure 426428DEST_PATH_IMAGE001
,用来捕捉文本模态自身影响:
Figure DEST_PATH_IMAGE025
(11)
式(10)中,t表示记忆网络当前层数,Att表示自注意力层网络,
Figure 691187DEST_PATH_IMAGE026
t-1层文本记忆网络输出的文本注意特征,
Figure 772276DEST_PATH_IMAGE001
表示t层文本域下文本与文本交互获取的交互信息表示。
3.3b 利用图像特征查询文本记忆
Figure 591327DEST_PATH_IMAGE024
,生成跨模态的注意力特征
Figure 884905DEST_PATH_IMAGE002
,即跨模态的交互信息:
Figure DEST_PATH_IMAGE027
(12)
式(11)中,
Figure 207433DEST_PATH_IMAGE028
t-1层图像记忆网络输出的图像注意特征,
Figure 193844DEST_PATH_IMAGE002
表示t层文本域下文本与图像交互获取的交互信息表示。
3.3c 将
Figure 500191DEST_PATH_IMAGE001
Figure 597460DEST_PATH_IMAGE002
输入平均池化层,获得文本注意特征
Figure DEST_PATH_IMAGE029
Figure 774495DEST_PATH_IMAGE030
(13)
3.3d 同时,在第t层图像记忆网络中,利用步骤二所获得的图像特征表示f xk ,生成视觉模态的注意力特征
Figure 135069DEST_PATH_IMAGE003
,即t层图像域下图像与图像交互获取的交互信息表示。
3.3e 利用文本特征查询视觉记忆
Figure DEST_PATH_IMAGE031
生成跨模态的注意力特征
Figure 459871DEST_PATH_IMAGE032
,即t层图像域下图像与文本交互获取的交互信息表示。
3.3f 将
Figure 970618DEST_PATH_IMAGE003
Figure 657951DEST_PATH_IMAGE032
输入平均池化层,获得图像注意特征
Figure DEST_PATH_IMAGE033
3.4 利用深层神经网络作为解码器,将文本注意特征
Figure 392689DEST_PATH_IMAGE029
和视觉注意特征
Figure 408050DEST_PATH_IMAGE033
输入解码器,获取融合的背景知识表示
Figure 378280DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
(14)
式(13)中,DNN表示深层神经网络,用于融合最终获取的T层文本注意特征
Figure 326644DEST_PATH_IMAGE036
和视觉注意特征
Figure 701125DEST_PATH_IMAGE037
Figure 531678DEST_PATH_IMAGE034
即融合后的特征表示。
四、答案预测。
将融合特征
Figure 508861DEST_PATH_IMAGE034
,问题q的特征表示、候选答案a u 的特征表示输入一个非线性层,再经过softmax函数得到预测概率pred u ,即候选答案a u 作为该问题q正确答案的概率,概率最高的候选答案即作为最终答案输出。
Figure 46153DEST_PATH_IMAGE039
(15)
式(15)中,a u 表示第u个候选答案,
Figure 716168DEST_PATH_IMAGE040
是的a u 的特征表示,
Figure 706121DEST_PATH_IMAGE041
是候选答案的个数,F表示一个前向神经网络层,用于预测最终答案。
本发明中候选答案预先输入,例如对于选择题型的问题,输入问题即输入了若干候选答案。
五、端到端模型训练,解析模块与问答模块的损失联合。
本步骤为优选方案,可以进一步优化模型,提高问答精确度。
本实施例中,将第二步构建可微场景图的损失与第四步问答模块预测答案的损失进行联合,从而使得可微场景图与答案预测之间的损失共享。通过同时指导可微场景图的构建和问答任务,可以生成更适合于问答的可微场景图及其对应表示,并进一步优化问答模块的问答效果,提高整体的精确度。两个模块损失都使用交叉熵,使得两个模块损失共同对模型训练产生影响,实现端到端的模型训练构成。
交叉熵L CE 的计算公式如下:
Figure 486995DEST_PATH_IMAGE042
(16)
式(16)中,
Figure 144373DEST_PATH_IMAGE043
表示第m条数据的预测概率(如问答模块对候选答案的预测结果),
Figure 985290DEST_PATH_IMAGE044
表示第m条数据的实际值(如问题的实际答案),M表示训练数据的总数量。
整体损失L定义为:
Figure 462539DEST_PATH_IMAGE045
(17)
式(17)中,
Figure 47104DEST_PATH_IMAGE046
是构建可微场景图的解析模块的交叉熵损失,
Figure 293408DEST_PATH_IMAGE047
是预测候选答案的问答模块的交叉熵损失。
本发明实施例中,利用Faster R-CNN网络对图像理解的损失加入到模型训练中,利用Faster R-CNN生成的可微场景图,实现端到端的问答系统,避免了解析模块损失导致的整体问答效果不佳,减少了该过程的语义损失。利用多交互注意力,捕捉深层次的跨模态交互信息,同时基于网络学习单模态上的信息,实现对背景知识语义更好地理解。最终在TQA基准数据集上可以更好地提高精确度。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人 员可以理解的其他实施方式。

Claims (10)

1.基于多交互注意力的端到端多模态问答方法,其特征是,包括:
(1)接收问题和背景知识,所述背景知识包括文本背景知识和图像背景知识;
(2)从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识;
(3)对筛选出的文本背景知识进行编码,获得文本背景知识中各段落的特征表示;
(4)将筛选出的图像背景知识解析为图像特征表示,并构建可微场景图;
(5)融合步骤(3)和(4)所获段落的特征表示和可微场景图,获得背景知识的融合特征表示;本步骤具体包括:
利用注意力机制,从段落的特征表示中抽取与问题相关的文本重要特征;
利用注意力机制,从可微场景图中抽取与问题相关的图像重要特征;
将文本重要特征和图像重要特征输入多交互注意力模块进行融合,获得融合特征表示;
(6)将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层,计算各候选答案的预测概率,输出预测概率最高的候选答案。
2.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
步骤(2)中采用tf-idf法进行文本背景知识的筛选,具体为:
采用词频-逆文档频率法分别计算文本问题与文本背景知识中各段落之间的关联得分,选取关联得分大于预设得分阈值的段落或关联得分最高的d个段落作为问题相关的文本背景知识,得分阈值和d均为经验值。
3.如权利要求2所述的基于多交互注意力的端到端多模态问答方法,其特征是:
所述采用词频-逆文档频率法分别计算文本问题与文本背景知识中各段落之间的关联得分,包括:
分别抽取文本问题与段落的词条;
计算各词条与段落的TF-IDF分数,文本问题中词条的TF-IDF分数构成文本问题的TF- IDF分数向量,段落中词条的TF-IDF分数构成段落的TF-IDF分数向量;
计算文本问题和段落的TF-IDF分数向量间的余弦相似度,即文本问题与段落间的关联得分;
其中,词条与段落的TF-IDF分数的计算方法如下:
计算词条在各段落中出现的频率,记为词频;计算词条的逆向文件频率;将词条的词频和逆向文件频率相乘得词条与段落间的TF-IDF分数。
4.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
步骤(2)中筛选出与问题相关的图像背景知识,包括:
将问题与图像背景知识中各图像分别进行编码,获得对应的特征表示;
基于特征表示分别计算各图像与问题的相似度,相似度最高的图像即问题相关的图像。
5.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
所述将筛选出的图像背景知识解析为可微场景图,包括:
提取图像背景知识中各图像的物体框集合以及物体之间的关系框集合;
取置信度超过预设值的物体框和关系框,再取并集获得候选的边界框集合;
提取候选的边界框集合中各边界框的图像特征表示;
基于候选的边界框集合以及相应的图像特征表示获得可微场景图。
6.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
步骤(5)中,所述从段落的特征表示中抽取与问题相关的文本重要特征,包括:
利用非线性模型获取问题与各段落之间的关联评分;
利用关联评分计算问题与各段落间的注意力权重;
利用注意力权重对各段落的特征表示进行加权求和,得文本重要特征。
7.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
步骤(5)中,所述从可微场景图中抽取与问题相关的图像重要特征,包括:
利用非线性模型获取问题与可微场景图的各候选边界框之间的关联评分;
利用关联评分计算问题与各候选边界框间的注意力权重;
利用注意力权重对各候选边界框的特征表示进行加权求和,得图像重要特征。
8.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
步骤(5)中,所述将文本重要特征和图像重要特征输入多交互注意力模块进行融合,包括:
所述多交互注意力模块包括T层记忆网络,按如下方法迭代更新T次:
在第t层文本记忆网络中,执行如下:
(1a)利用上一层文本记忆网络输出的文本注意特征和步骤(3)获得的段落的特征表示,生成文本模态的注意力特征
Figure 693142DEST_PATH_IMAGE001
;第1层文本记忆网络初始的文本注意特征采用文本重要特征;
(1b)利用上一层图像记忆网络输出的图像注意特征和步骤(3)获得的段落的特征表示,生成跨模态的注意力特征
Figure 16807DEST_PATH_IMAGE002
;第1层图像记忆网络初始的图像注意特征采用图像重要特征;
(1c)将
Figure 327703DEST_PATH_IMAGE001
Figure 457333DEST_PATH_IMAGE002
输入平均池化层,获得第t层文本记忆网络输出的文本注意特征;
在第t层图像记忆网络中,执行如下:
(2a)利用上一层图像记忆网络输出的图像注意特征和步骤(4)获得的图像特征表示,生成视觉模态的注意力特征
Figure 678230DEST_PATH_IMAGE003
(2b)利用上一层文本记忆网络输出的文本注意特征和步骤(4)获得的图像特征表示,生成跨模态的注意力特征
Figure 297430DEST_PATH_IMAGE002
(2c)将
Figure 970988DEST_PATH_IMAGE003
Figure 701046DEST_PATH_IMAGE002
输入平均池化层,获得第t层图像记忆网络输出的图像注意特征;
(3)步骤(1a)- (1c)以及步骤(2a)- (2c)进行完T次迭代后,将第T层文本记忆网络输出的文本注意特征和第T层图像记忆网络输出的图像注意特征输入深层神经网络解码器进行融合,获取背景知识的融合特征表示。
9.如权利要求1所述的基于多交互注意力的端到端多模态问答方法,其特征是:
将步骤(4)构建可微场景图的损失与步骤(6)预测候选答案的损失联合,用来进行模型训练。
10.基于多交互注意力的端到端多模态问答系统,其特征是,包括:
接收模块,用来接收问题和背景知识,所述背景知识包括文本背景知识和图像背景知识;
筛选模块,用来从接收的背景知识中筛选出与问题相关的文本背景知识和图像背景知识;
编码模块,用来对筛选出的文本背景知识进行编码,获得文本背景知识中各段落的特征表示;
解析模块,用来将筛选出的图像背景知识解析为图像特征表示,并获得可微场景图;
融合模块,用来融合编码模块和解析模块所获段落的特征表示和可微场景图,获得背景知识的融合特征表示;
所述融合模块包括:
第一子模块,用来利用注意力机制,从段落的特征表示中抽取与问题相关的文本重要特征;
第二子模块,用来利用注意力机制,从可微场景图中抽取与问题相关的图像重要特征;
融合子模块,用来将文本重要特征和图像重要特征输入多交互注意力模块进行融合,获得融合特征表示;
问答模块,用来将融合特征表示、问题的特征表示、候选答案的特征表示输入非线性层,计算各候选答案的预测概率,输出预测概率最高的候选答案。
CN202110848497.2A 2021-07-27 2021-07-27 基于多交互注意力的端到端多模态问答方法及系统 Active CN113297370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110848497.2A CN113297370B (zh) 2021-07-27 2021-07-27 基于多交互注意力的端到端多模态问答方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110848497.2A CN113297370B (zh) 2021-07-27 2021-07-27 基于多交互注意力的端到端多模态问答方法及系统

Publications (2)

Publication Number Publication Date
CN113297370A true CN113297370A (zh) 2021-08-24
CN113297370B CN113297370B (zh) 2021-11-16

Family

ID=77331101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110848497.2A Active CN113297370B (zh) 2021-07-27 2021-07-27 基于多交互注意力的端到端多模态问答方法及系统

Country Status (1)

Country Link
CN (1) CN113297370B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114398961A (zh) * 2021-12-28 2022-04-26 西南交通大学 一种基于多模态深度特征融合的视觉问答方法及其模型
CN114443822A (zh) * 2021-12-24 2022-05-06 科大讯飞(苏州)科技有限公司 用于建筑领域的多模态问答的方法、系统和计算设备
CN114972944A (zh) * 2022-06-16 2022-08-30 中国电信股份有限公司 视觉问答模型的训练方法及装置、问答方法、介质、设备
WO2023035610A1 (zh) * 2021-09-09 2023-03-16 中山大学 基于关键词感知的多模态注意力视频问答方法与系统
CN116431793A (zh) * 2023-06-14 2023-07-14 华南理工大学 一种基于知识生成的视觉问答方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170816A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于深度神经网络的智能视觉问答模型
CN111666376A (zh) * 2020-05-21 2020-09-15 武汉大学 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
US20200356829A1 (en) * 2019-05-08 2020-11-12 Accenture Global Solutions Limited Multi-modal visual question answering system
US20210109956A1 (en) * 2018-01-30 2021-04-15 Intel Corporation Visual question answering using visual knowledge bases
CN112905762A (zh) * 2021-02-05 2021-06-04 南京航空航天大学 一种基于同等注意力图网络的视觉问答方法
CN113010656A (zh) * 2021-03-18 2021-06-22 广东工业大学 一种基于多模态融合和结构性控制的视觉问答方法
CN113095331A (zh) * 2021-04-22 2021-07-09 合肥工业大学 一种电力设备外观缺陷的视觉问答方法、系统、设备及其存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170816A (zh) * 2017-12-31 2018-06-15 厦门大学 一种基于深度神经网络的智能视觉问答模型
US20210109956A1 (en) * 2018-01-30 2021-04-15 Intel Corporation Visual question answering using visual knowledge bases
US20200356829A1 (en) * 2019-05-08 2020-11-12 Accenture Global Solutions Limited Multi-modal visual question answering system
CN111666376A (zh) * 2020-05-21 2020-09-15 武汉大学 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置
CN112905762A (zh) * 2021-02-05 2021-06-04 南京航空航天大学 一种基于同等注意力图网络的视觉问答方法
CN113010656A (zh) * 2021-03-18 2021-06-22 广东工业大学 一种基于多模态融合和结构性控制的视觉问答方法
CN113095331A (zh) * 2021-04-22 2021-07-09 合肥工业大学 一种电力设备外观缺陷的视觉问答方法、系统、设备及其存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SAURABH SAHU 等: "Cross-modal Non-linear Guided Attention and Temporal Coherence in Multi-modal Deep Video Models", 《PROCEEDINGS OF THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
ZHOU YU等: "Deep Modular Co-Attention Networks for Visual Question Answerin", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
江邹 等: "利用文本特征增强与注意力机制提高图像问答准确率", 《计算机科学与应用》 *
邓一娇 等: "面向跨模态检索的协同注意力网络模型", 《计算机科学》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023035610A1 (zh) * 2021-09-09 2023-03-16 中山大学 基于关键词感知的多模态注意力视频问答方法与系统
CN114443822A (zh) * 2021-12-24 2022-05-06 科大讯飞(苏州)科技有限公司 用于建筑领域的多模态问答的方法、系统和计算设备
CN114398961A (zh) * 2021-12-28 2022-04-26 西南交通大学 一种基于多模态深度特征融合的视觉问答方法及其模型
CN114398961B (zh) * 2021-12-28 2023-05-05 西南交通大学 一种基于多模态深度特征融合的视觉问答方法及其模型
CN114972944A (zh) * 2022-06-16 2022-08-30 中国电信股份有限公司 视觉问答模型的训练方法及装置、问答方法、介质、设备
CN114972944B (zh) * 2022-06-16 2023-10-27 中国电信股份有限公司 视觉问答模型的训练方法及装置、问答方法、介质、设备
CN116431793A (zh) * 2023-06-14 2023-07-14 华南理工大学 一种基于知识生成的视觉问答方法、装置及存储介质
CN116431793B (zh) * 2023-06-14 2023-08-22 华南理工大学 一种基于知识生成的视觉问答方法、装置及存储介质

Also Published As

Publication number Publication date
CN113297370B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN112163165B (zh) 信息推荐方法、装置、设备及计算机可读存储介质
CN108959396B (zh) 机器阅读模型训练方法及装置、问答方法及装置
CN111897913B (zh) 基于语义树增强的复杂文本查询到视频的跨模态检索方法
CN110737801A (zh) 内容分类方法、装置、计算机设备和存储介质
KR20210095208A (ko) 비디오 캡션 생성 방법, 디바이스 및 장치, 그리고 저장 매체
CN109874053A (zh) 基于视频内容理解和用户动态兴趣的短视频推荐方法
CN111046275B (zh) 基于人工智能的用户标签确定方法及装置、存储介质
CN110083729B (zh) 一种图像搜索的方法及系统
CN112287170B (zh) 一种基于多模态联合学习的短视频分类方法及装置
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN113792177A (zh) 基于知识引导深度注意力网络的场景文字视觉问答方法
CN113761153A (zh) 基于图片的问答处理方法、装置、可读介质及电子设备
CN112800292A (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN115964560B (zh) 基于多模态预训练模型的资讯推荐方法及设备
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN114418032A (zh) 一种基于自协调对比学习的五模态商品预训练方法及检索系统
CN112668638A (zh) 一种图像美学质量评估和语义识别联合分类方法及系统
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
CN116049557A (zh) 一种基于多模态预训练模型的教育资源推荐方法
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN115982652A (zh) 一种基于注意力网络的跨模态情感分析方法
CN113177112B (zh) 基于kr积融合多模态信息的神经网络视觉对话装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant