CN110309850A - 基于语言先验问题识别和缓解的视觉问答预测方法及系统 - Google Patents
基于语言先验问题识别和缓解的视觉问答预测方法及系统 Download PDFInfo
- Publication number
- CN110309850A CN110309850A CN201910407218.1A CN201910407218A CN110309850A CN 110309850 A CN110309850 A CN 110309850A CN 201910407218 A CN201910407218 A CN 201910407218A CN 110309850 A CN110309850 A CN 110309850A
- Authority
- CN
- China
- Prior art keywords
- language
- answer
- model
- priori
- vision question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/36—Preventing errors by testing or debugging software
- G06F11/3668—Software testing
- G06F11/3672—Test management
- G06F11/3688—Test management for test execution, e.g. scheduling of test suites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Image Analysis (AREA)
Abstract
本公开公开了基于语言先验问题识别和缓解的视觉问答预测方法及系统,包括:测试步骤:将测试集的测试图像、测试语言问题和测试语言答案,均输入到初步训练好的视觉问答模型中,对初步训练好的视觉问答模型进行测试;在测试的过程中,根据模型输出的语言答案的准确率计算语言先验得分;如果语言先验得分超过设定阈值,表示当前模型存在语言先验问题,则重新对视觉问答模型进行训练;如果语言先验得分低于设定阈值,表示当前模型不存在语言先验问题,即当前模型即为训练好的视觉问答模型;预测步骤:将待预测的图像和语言问题,输入到训练好的视觉问答模型中,输出最终的预测语言答案。
Description
技术领域
本公开涉及视觉问答技术领域,特别是涉及基于语言先验问题识别和缓解 的视觉问答预测方法及系统。
背景技术
本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有 技术。
受益于计算机视觉,自然语言处理和信息检索技术的进步,旨在回答关于 图像或视频的问题的视觉问题回答在过去几年中受到了很多关注。虽然到目前 为止取得了一些进展,但一些研究指出,目前的视觉问答模型受到语言先验问 题的严重影响。
在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:
问答一直被认为是一项具有挑战性的信息检索任务。一开始,它只关注文 本域。随着自然语言处理,计算机视觉和信息检索的巨大进步,一种新的“人工 智能完成”任务,即视觉问答,已经成为一个新兴的跨学科研究领域。过去几年。 视觉问答旨在准确回答有关给定图像或视频的自然语言问题,为各种应用带来 光明前景,包括医疗援助和人机交互。最近,已经构建了几个基准数据集来促 进这项任务,接着是许多设计的深度模型。
尽管这些方法在目前显示出了优秀的性能,但许多研究指出,当今的视觉 问答模型仍然受到训练数据中问题和答案之间依赖关系的严重驱动。并且,根 据实验证明,精心设计的视觉问答模型实际上是根据问题中的前几个单词提供 答案,并且常常能有不差的性能。以视觉问答1.0提供的训练集为例,其中答 案为2的问题个数占整个数据集的31%。这导致视觉问答模型在测试时遇到“...... 有多少”的问题时,常常并没有真正理解给定的图像而作答。于此,关于模型所 预测的答案是由训练集中相同问题类型的答案集所强烈驱动的情况,称之为视 觉问答中的语言先验问题。
不难理解语言先验问题的原因,但是,这个问题不容易处理。其中一个原 因是在强先验的情况下处于独立且相同分布的训练、测试集的性质所导致的。 因此,很难判断一个表现良好的模型是由在图像理解方面取得进展所导致的, 还是仅依赖于语言先验。此外,在不降低模型性能的情况下解决语言先验问题 也是另一个挑战。
随着视觉问答中语言先验问题的发现,研究者已经投入了大量精力来解决 或以某种方式推断问题,并开发了一套方法。该方法可大致分为两个方向:1) 使数据集偏差变小;2)通过增强对图像内容的分析使模型回答问题。在第一个 方向,研究者旨在通过添加补充数据来平衡现有的数据集。更具体地说,对于 数据集中每个<图像,问题,答案>三元组,收集具有相似的图像但答案不同的 一个三元组以提升图像在视觉问答中的作用。然而,即使有这种平衡,增强后 的视觉问答2.0数据集仍然存在显著的偏差。例如,对于“......有多少”的问题, 答案为2的问题数目仍然占该问题总数的27%。另外,还有研究者设计了一个 诊断3D形状的数据集,通过对相关问题簇内进行拒绝采样来控制基于问题所造 成的偏差。由于他们皆从数据集的角度处理问题,以试图避免传统数据集所固 有的缺陷,因此先前方法的语言先验问题仍然未解决。
相比之下,第二方向的研究人员从改进机制着手,使视觉问答模型避免语言先 验问题。基于这个方向的方法可以直接用在具有偏差的数据集中,因此更加通 用。例如,Aishwarya所提出的方法明确地解除了对于给定问题的答案预测中图 像中存在的视觉概念的识别。最近,Ramakrishnan等人,将训练视为视觉问答 模型和问答模型之间的对抗性游戏,以减少语言先验所造成的影响。这两种方 法都建立在广泛使用的视觉问答模型Stacked Attention Networks(SAN)之上。 然而,与视觉问答模型SAN相比,两种方法都造成了性能下降。
另一个重要问题是缺乏适当的评估指标来衡量视觉问答模型语言先验效应 的程度。尽管以前的各种研究已经指出语言先验问题。当前,已提出了许多方 法来处理这个问题,但是很少有人致力于如何数字化量化语言先验的影响。如 上所述,在回答问题之前很难区分模型是否真正理解问题和图像内容,或者只 是简单地发现问题单词和答案之间的某些关联。此外,还很难评估新设计的模 型在解决语言先验问题方面的表现。
发明内容
为了解决现有技术的不足,本公开提供了基于语言先验问题识别和缓解的 视觉问答预测方法及系统;
第一方面,本公开提供了基于语言先验问题识别和缓解的视觉问答预测方 法;
基于语言先验问题识别和缓解的视觉问答预测方法,包括:
测试步骤:将测试集的测试图像、测试语言问题和测试语言答案,均输入 到初步训练好的视觉问答模型中,对初步训练好的视觉问答模型进行测试;在 测试的过程中,根据模型输出的语言答案的准确率计算语言先验得分;如果语 言先验得分超过设定阈值,表示当前模型存在语言先验问题,则重新对视觉问 答模型进行训练;如果语言先验得分低于设定阈值,表示当前模型不存在语言 先验问题,即当前模型即为训练好的视觉问答模型;
预测步骤:将待预测的图像和语言问题,输入到训练好的视觉问答模型中, 输出最终的预测语言答案。
进一步地,重新对视觉问答模型进行训练的过程中,基于正则化方法构造 新的损失函数,新的损失函数等于原损失函数与分数限制损失函数的求和;当 新的损失函数取得最小值时所对应的视觉问答模型即为训练好的视觉问答模型。
进一步地,所述分数限制损失函数,等于0与设定差值二者中的最大值,所 述设定差值等于输出值Svqa与输出值Sqa的差值;
所述输出值Svqa是将第二图像特征向量和语言答案特征向量融合后的特征 向量输入到第四个多层感知机得到的;
所述输出值Sqa是将语言问题特征向量和语言答案特征向量融合后输入到 第五个多层感知机得到的;
所述语言问题特征向量是将语言问题特征输入到第三个多层感知机得到的。
第二方面,本公开还提供了基于语言先验问题识别和缓解的视觉问答预测 系统;
基于语言先验问题识别和缓解的视觉问答预测系统,包括:
测试模块,其被配置为将测试集的测试图像、测试语言问题和测试语言答 案,均输入到初步训练好的视觉问答模型中,对初步训练好的视觉问答模型进 行测试;在测试的过程中,根据模型输出的语言答案的准确率计算语言先验得 分;如果语言先验得分超过设定阈值,表示当前模型存在语言先验问题,则重 新对视觉问答模型进行训练;如果语言先验得分低于设定阈值,表示当前模型 不存在语言先验问题,即当前模型即为训练好的视觉问答模型;
预测模块,其被配置为将待预测的图像和语言问题,输入到训练好的视觉 问答模型中,输出最终的预测语言答案。
进一步地,训练模块重新训练的过程中,基于正则化方法构造新的损失函 数,新的损失函数等于原损失函数与分数限制损失函数的求和;当新的损失函 数取得最小值时所对应的视觉问答模型即为训练好的视觉问答模型。
进一步地,所述分数限制损失函数,等于0与设定差值二者中的最大值,所 述设定差值等于输出值Svqa与输出值Sqa的差值;
所述输出值Svqa是将第二图像特征向量和语言答案特征向量融合后的特征 向量输入到第四个多层感知机得到的;
所述输出值Sqa是将语言问题特征向量和语言答案特征向量融合后输入到 第五个多层感知机得到的;
所述语言问题特征向量是将语言问题特征输入到第三个多层感知机得到的。
第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储 在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时, 完成第一方面所述方法的步骤。
第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指 令,所述计算机指令被处理器执行时,完成第一方面所述方法的步骤。
与现有技术相比,本公开的有益效果是:
因为在测试的过程中,根据模型输出的语言答案的准确率计算语言先验得 分,根据语言先验得分来识别视觉问答模型是否存在语言先验问题,以及根据 语言先验得分判断语言先验问题的严重性;
因为当前模型存在语言先验问题,则重新对视觉问答模型进行训练,可以 有效缓解语言先验问题对视觉问答结果来带的影响,使预测步骤视觉问答的答 案更加准确。
因为重新对视觉问答模型进行训练的过程中,基于正则化方法构造新的损 失函数,新的损失函数等于原损失函数与分数限制损失函数的求和;分数限制 损失函数考虑了将第二图像特征、语言问题特征和语言答案特征融合后输入到 第二个多层感知机得到的输出值Svqa大于将语言问题特征和语言答案特征融合 后输入到第三个多层感知机的输出值Sqa的差值;所以让视觉问答模型更多地考 虑图像特征,进而视觉问答模型输出的答案更贴合实际图像,而不是依赖训练 集的答案。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申 请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本公开的嵌入得分正则化模块的模型示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。 除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的 普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图 限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确 指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说 明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、 组件和/或它们的组合。
实施例一,本实施例提供了基于语言先验问题识别和缓解的视觉问答预测 方法;
如图1所示,基于语言先验问题识别和缓解的视觉问答预测方法,包括:
测试步骤:将测试集的测试图像、测试语言问题和测试语言答案,均输入 到初步训练好的视觉问答模型中,对初步训练好的视觉问答模型进行测试;在 测试的过程中,根据模型输出的语言答案的准确率计算语言先验得分;如果语 言先验得分超过设定阈值,表示当前模型存在语言先验问题,则重新对视觉问 答模型进行训练;如果语言先验得分低于设定阈值,表示当前模型不存在语言 先验问题,即当前模型即为训练好的视觉问答模型;
预测步骤:将待预测的图像和语言问题,输入到训练好的视觉问答模型中, 输出最终的预测语言答案。
作为一个或多个实施例,所述方法的测试步骤之前,还包括:训练步骤: 将训练集的训练图像、训练语言问题和训练语言答案,均输入到视觉问答模型 中,对视觉问答模型进行训练,得到初步训练好的视觉问答模型。
作为一个或多个实施例,所述方法的训练步骤之前,还包括:视觉问答模 型构建步骤:构建视觉问答模型,所述视觉问答模型,包括:卷积神经网络、 循环神经网络、第一个多层感知机MLP(MLP,Multilayer Perceptron)和第二个 多层感知机MLP,所述卷积神经网络用于对图像进行特征提取,提取第一图像 特征;
所述循环神经网络对输入的语言问题进行特征提取,提取语言问题特征;
将提取的第一图像特征和语言问题特征同时输入到注意力模型中再次进行 特征提取,提取第二图像特征;
将第二图像特征输入到第一个多层感知机MLP中,输出第二图像特征向量;
将第二图像特征向量输入到第二个多层感知机MLP中,输出语言答案。
应理解的,所述第一图像特征,包括以下特征的一种或多种:颜色特征、 纹理特征、形状特征或空间关系特征。
应理解的,所述第二图像特征,包括以下特征的一种或多种:颜色特征、 纹理特征、形状特征或空间关系特征。
应理解的,所述注意力模型是Convolutional Block Attention Module(CBAM)。
应理解的,语言问题为纯文字的语言表达的问题,例如“图中有几个人”、“图 中左下角的物品是什么”。
应理解的,语言答案为纯文字的语言表达的答案,例如“三个人”、“打印机”。
应理解的,所述语言问题特征,包括以下特征的一种或多种:主体特征、 动作特征或关系特征,例如:问题为“这个男孩在椅子旁边吃什么?”,其特征则 包含主体特征(男孩),动作特征(吃),关系特征(在椅子旁边)等。
作为一个或多个实施例,根据输出的语言答案的准确率计算语言先验得分 的具体步骤为:
其中,LP表示语言先验得分,|QT|表示所有问题类型的问题集的问题类型的个数;如{‘多少个?’,‘在吗?’},则问题类型个数为2,|Aj|表示问题类型qtj下 答案集合中不重复的答案的个数,表示问题类型qtj下的预测答案ai的语言先 验得分;QT表示所有问题类型的集合;Aj表示问题类型qtj下答案集;j表示 QT中第j个元素的索引,j表示第j个问题类型;i表示Aj中第i个元素的索引,i表 示第i个答案;表示问题类型为qtj下预测的答案为ai的精度;表示对于 某个问题类型qtj,其所有的答案中为ai的答案所占比例;表示在集合中答 案为ai的数量;表示答案集合中所有答案的个数;σ(·)指的是sigmoid函数; 表示正确答案的数量,即预测答案ai与问题类型qtj下的正确答案相同;表 示错误答案的数量,即,预测答案ai与问题类型qtj下的正确答案不一致。
应理解的,在这里表示问题类型为“多少个”的问题的答案可重复集合, 而Aj代表答案不可重复的集合。比如说:表示问题类型为‘多少个’的答案集合 {2,3,4,5,2,2},而Aj则表示{2,3,4,5}(它不包含重复的答案)。
应理解的,所述问题类型,是指如‘多少个苹果’、‘多少个蛋糕’这样的问题, 都属于多少个xx’这样的问题类型。
作为一个或多个实施例,重新对视觉问答模型进行训练的过程中,基于正 则化方法构造新的损失函数,新的损失函数等于原损失函数与分数限制损失函 数的求和;当新的损失函数取得最小值时所对应的视觉问答模型即为训练好的 视觉问答模型。
进一步地,新的损失函数L:
L=Lanswer+β*Lscore;
其中,L表示新的损失函数,Lanswer表示原损失函数;β表示是平衡Lanswer和 Lscore这两个损失函数的超参数,Lscore表示分数限制损失函数。
其中,表示第二图像特征,h表示语言问题特征,softmax为归一化指数函 数;agt表示每个问题下正确答案的概率分布;如‘多少个苹果?’,其答案分布 为{“3个”:0.3,“2个”:0.7}(这里0.3表示答案为“3个”所对应的正确率,0.7 类似)。
作为一个或多个实施例,所述分数限制损失函数,等于0与设定差值二者中 的最大值(即:若设定差值为0.1,则0.1>0,那么损失函数的值为0.1;反之若设 定差值为-0.1,则0>-0.1,最后损失函数的值为0),所述设定差值等于输出值Svqa与 输出值Sqa的差值;
所述输出值Svqa是将第二图像特征向量和语言答案特征向量融合后的特征 向量输入到第四个多层感知机得到的;
所述输出值Sqa是将语言问题特征向量和语言答案特征向量融合后输入到 第五个多层感知机得到的;
所述语言问题特征向量是将语言问题特征输入到第三个多层感知机得到的。
Lscore=max(0,Svqa-Sqa+γ);
Svqa=MLP(Ovqa);
Sqa=MLP(Oqa);
其中,γ表示设定的边界值;Ovqa表示第二图像特征、语言问题特征和语言 答案特征融合的特征,Oqa表示语言问题特征和语言答案特征融合后的特征, MLP表示多层感知机。所述特征融合,可以选择串联融合或并联融合。
(1)语言先验得分(LP得分)
下面我们将详细说明本公开中所提出的指标——语言先验得分(称为LP得 分)。我们首先列出指标中所使用的主要符号。
主要符号:设表示训练集中所有答案的可重复性集合,QT表示问题类型。 对于问题类型qtj,表示相应的答案的可重复性集合,它是的子集;Aj表示相 应的答案集,其中包含中的非冗余元素。而是在答案为ai的数量。例如, 让我们假设只有一个问题类型,qtj为“……有多少?”,且是{0,0,1,2,2,2,3,4}。 那么应该与相同,且Aj应为{0,1,2,3,4}。如果ai是2,那么应该是3。
每个问题种类的答案精度:在验证集中评估模型之后,我们可以计算每个 问题类型的答案精度。我们忽略了当前答案集合Aj(即)未包含答案ai的 情况。否则我们计算它是问题类型qtj下预测的答案ai的精度,计算公式如 下:
其中表示正确答案的数量,即预测答案ai与问题类型qtj下的正确答案相 同。并且表示错误答案的数量,即,预测答案ai与问题类型qtj下的正确答案 不一致。例如,如果测试问题属于问题类型qtj并且预测答案是ai,然后如果正 确答案是ai则否则显然,越大表示此种类型的问题回答 正确的数目越多,反之亦然。
语言先验得分计算:让表示问题类型qtj下的预测答案ai的语言先验得分, 即LP分数。形式上,它被定义为:
其中σ(·)指的是非线性函数(这里采用sigmoid函数),表示的大小。表示测试时模型的缺陷。在极端情况下,如果模型在预测中表现最佳, 则应接近1。因此,应接近于0。表示在整个训练集中对于某 个问题类型qtj,其正确答案为ai所占比例。我们使用σ(·)来平滑这一项的原因 是不同答案的比例变化很大,我们希望稀疏答案以促成这个指标。我们可以看 到,只有在以下两种情况时,才会获得较大的
1)验证集(或测试集)中的更多问题的答案被错误地预测为ai时
2)ai在训练集中是大多数问题的正确答案。
因此,该指标考虑了训练数据集中的原始偏差和模型的缺陷——导致语言 先验问题的两个关键因素。最后,整个验证集上的LP得分的计算方法如下:
这里|QT|是整个问题类型集的大小,|Aj|是qtj问题类型下答案集的大小。我 们可以很容易地得出结论LP∈[0,1]。并且LP得分越大,语言先验的影响越大。
(2)得分正则化模块
如图1所示,得分正则化模块有两个流输入:Ovqa和Oqa。前者表示图像、 问题和答案的整合表示,而后者表示问题和答案的整合。代表预先训练好的 正确答案的词向量,它可以与其他元素(例如,<图像,问题>特征或仅问题特 征)融合以获得Ovqa和Oqa。融合方法包括逐元素加法,乘法和连接。
在此步骤之后,<image,question,answer>和<question,answer>的融合特 征用于预测Svqa和Sqa,
Svqa=MLP(Ovqa)
Sqa=MLP(Oqa)
其中MLP是多层感知器,我们利用MLP来实施我们的得分正则化模块。
为了实现图像问题比仅仅用于答案预测的问题更好,这里采用成对学习方 法,
Lscore=max(0,Svqa-Sqa+γ)
其中,γ是设定的边界值。通过这种方式,视觉问答模型被迫考虑用于回答 问题的图像内容,而不是仅仅基于问题单词和答案之间的频繁模式。
利用上面所提出的正则化方法,视觉问答模型的最终损失函数是答案预测 损失和分数限制损失的组合。
L=Lanswer+β*Lscore
其中β是平衡这两个损失函数的超参数。这使我们能够在端到端多任务学 习方案中使用我们的正则化方法训练视觉问答模型。视觉问答模型的默认优化 方法保持不变,以优化最终损失函数。
在本公开中,我们为解决上述问题做出了两方面设计。首先,我们设计一 个度量来定量测量视觉问答模型的语言先验效应。已经证明建议的度量标准在 我们的研究中是有效的。其次,我们提出了一种正则化方法,通过减轻语言先 验问题以及提高视觉问答模型性能来增强当前的视觉问答模型。所提出的得分 正则化模块采用成对学习策略,这使得视觉问答模型基于图像的推理(在此问 题上)回答问题而不是基于在偏见训练集中观察到的问答模式。另外,该正则 化模块可灵活地集成到各种视觉问答模型中。
为了对语言先验所造成的影响进行评估,在本公开中,我们设计了一个正 式的量化指标来衡量语言先验效应的程度(称为LP得分),并设计了一个广义 的正则化方法以缓解视觉问答中的语言先验问题。一方面,我们提出的LP得分 通过考虑训练数据集的偏差和模型缺陷来评估语言先验效应。采用这种方式, LP得分可以定量地测量语言先验效应,并指导进一步研究如何减轻语言先验问 题。另一方面,我们提出的正则化方法利用得分正则化模块来强制模型在预测 答案之前更好地理解图像内容。更具体地来讲,在最终答案预测之前,我们会 将得分正则化模块添加到主模型中。这是为了保证视觉问答模型通过理解问题 和相应的图像内容来回答问题,而不是简单地分析问题关键词(例如,多少) 和答案(例如,2)的共现模式。为了实现这一目标,正则化模块的输入来自两 个流:其一是融合了问题、图像与真实答案的特征,其二是问题特征以及真实 答案的融合特征。然后得分正则化模块分别计算两个流的得分并采用成对学习 方案进行训练。其与以往研究者所采用的多步学习不同,我们在端到端多任务 学习方案中使用视觉问答模型训练所提出的正则化器。此外,我们提出的正则 化方法可以应用于数据集上的大多数现有视觉问答模型。
实施例二,本实施例提供了基于语言先验问题识别和缓解的视觉问答预测 系统;
基于语言先验问题识别和缓解的视觉问答预测系统,包括:
测试模块,其被配置为将测试集的测试图像、测试语言问题和测试语言答 案,均输入到初步训练好的视觉问答模型中,对初步训练好的视觉问答模型进 行测试;在测试的过程中,根据模型输出的语言答案的准确率计算语言先验得 分;如果语言先验得分超过设定阈值,表示当前模型存在语言先验问题,则重 新对视觉问答模型进行训练;如果语言先验得分低于设定阈值,表示当前模型 不存在语言先验问题,即当前模型即为训练好的视觉问答模型;
预测模块,其被配置为将待预测的图像和语言问题,输入到训练好的视觉 问答模型中,输出最终的预测语言答案。
作为一个或多个实施例,所述方法的测试模块之前,还包括:训练模块, 其被配置为将训练集的训练图像、训练语言问题和训练语言答案,均输入到视 觉问答模型中,对视觉问答模型进行训练,得到初步训练好的视觉问答模型。
作为一个或多个实施例,所述方法的训练模块之前,还包括:视觉问答模 型构建模块,其被配置为构建视觉问答模型,所述视觉问答模型,包括:卷积 神经网络、循环神经网络和第一个多层感知机MLP(MLP,Multilayer Perceptron), 所述卷积神经网络用于对图像进行特征提取,提取第一图像特征;
所述循环神经网络对输入的语言问题进行特征提取,提取语言问题特征;
将提取的第一图像特征和语言问题特征同时输入到注意力模型中再次进行 特征提取,提取第二图像特征;
将第二图像特征输入到第一个多层感知机MLP中,输出第二图像特征向量;
将第二图像特征向量输入到第二个多层感知机MLP中,输出语言答案。
作为一个或多个实施例,训练模块重新训练的过程中,基于正则化方法构 造新的损失函数,新的损失函数等于原损失函数与分数限制损失函数的求和; 当新的损失函数取得最小值时所对应的视觉问答模型即为训练好的视觉问答模 型。
作为一个或多个实施例,所述分数限制损失函数,等于0与设定差值二者中 的最大值(即:若设定差值为0.1,则0.1>0,那么损失函数的值为0.1;反之若设 定差值为-0.1,则0>-0.1,最后损失函数的值为0),所述设定差值等于输出值Svqa与 输出值Sqa的差值;
所述输出值Svqa是将第二图像特征向量和语言答案特征向量融合后的特征 向量输入到第四个多层感知机得到的;
所述输出值Sqa是将语言问题特征向量和语言答案特征向量融合后输入到 第五个多层感知机得到的;
所述语言问题特征向量是将语言问题特征输入到第三个多层感知机得到的。
实施例三:本实施例还提供了一种电子设备,包括存储器和处理器以及存 储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行 时,完成方法中的各个操作,为了简洁,在此不再赘述。
所述电子设备可以是移动终端以及非移动终端,非移动终端包括台式计算 机,移动终端包括智能手机(Smart Phone,如Android手机、IOS手机等)、智 能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以 进行无线通信的移动互联网设备。
应理解,在本公开中,该处理器可以是中央处理单元CPU,该处理器还算 可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编 程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立 硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处 理器等。
该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和 数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以 存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电 路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为 硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件 模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦 写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器, 处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复, 这里不再详细描述。本领域普通技术人员可以意识到,结合本文中所公开的实 施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子 硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不 同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述 的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程, 在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方 法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性 的,例如,所述单元的划分,仅仅为一种逻辑功能的划分,实际实现时可以有 另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统, 或一些特征可以忽略,或不执行。另外一点,所显示或讨论的相互之间的耦合 或者直接耦合或者通信连接可以是通过一些接口,装置或单元的间接耦合或通 信连接,可以是电性、机械或其它的形式。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时, 可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案 本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产 品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令 用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行 本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、 移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领 域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则 之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之 内。
Claims (10)
1.基于语言先验问题识别和缓解的视觉问答预测方法,其特征是,包括:
测试步骤:将测试集的测试图像、测试语言问题和测试语言答案,均输入到初步训练好的视觉问答模型中,对初步训练好的视觉问答模型进行测试;在测试的过程中,根据模型输出的语言答案的准确率计算语言先验得分;如果语言先验得分超过设定阈值,表示当前模型存在语言先验问题,则重新对视觉问答模型进行训练;如果语言先验得分低于设定阈值,表示当前模型不存在语言先验问题,即当前模型即为训练好的视觉问答模型;
预测步骤:将待预测的图像和语言问题,输入到训练好的视觉问答模型中,输出最终的预测语言答案。
2.如权利要求1所述的方法,其特征是,所述方法的测试步骤之前,还包括:训练步骤:将训练集的训练图像、训练语言问题和训练语言答案,均输入到视觉问答模型中,对视觉问答模型进行训练,得到初步训练好的视觉问答模型。
3.如权利要求2所述的方法,其特征是,所述方法的训练步骤之前,还包括:视觉问答模型构建步骤:构建视觉问答模型,所述视觉问答模型,包括:卷积神经网络、循环神经网络、第一个多层感知机MLP和第二个多层感知机MLP,所述卷积神经网络用于对图像进行特征提取,提取第一图像特征;
所述循环神经网络对输入的语言问题进行特征提取,提取语言问题特征;
将提取的第一图像特征和语言问题特征同时输入到注意力模型中再次进行特征提取,提取第二图像特征;
将第二图像特征输入到第一个多层感知机MLP中,输出第二图像特征向量;
将第二图像特征向量输入到第二个多层感知机MLP中,输出语言答案。
4.如权利要求1所述的方法,其特征是,重新对视觉问答模型进行训练的过程中,基于正则化方法构造新的损失函数,新的损失函数等于原损失函数与分数限制损失函数的求和;当新的损失函数取得最小值时所对应的视觉问答模型即为训练好的视觉问答模型。
5.如权利要求4所述的方法,其特征是,所述分数限制损失函数,等于0与设定差值二者中的最大值,所述设定差值等于输出值Svqa与输出值Sqa的差值;
所述输出值Svqa是将第二图像特征向量和语言答案特征向量融合后的特征向量输入到第四个多层感知机得到的;
所述输出值Sqa是将语言问题特征向量和语言答案特征向量融合后输入到第五个多层感知机得到的;
所述语言问题特征向量是将语言问题特征输入到第三个多层感知机得到的。
6.基于语言先验问题识别和缓解的视觉问答预测系统,其特征是,包括:
测试模块,其被配置为将测试集的测试图像、测试语言问题和测试语言答案,均输入到初步训练好的视觉问答模型中,对初步训练好的视觉问答模型进行测试;在测试的过程中,根据模型输出的语言答案的准确率计算语言先验得分;如果语言先验得分超过设定阈值,表示当前模型存在语言先验问题,则重新对视觉问答模型进行训练;如果语言先验得分低于设定阈值,表示当前模型不存在语言先验问题,即当前模型即为训练好的视觉问答模型;
预测模块,其被配置为将待预测的图像和语言问题,输入到训练好的视觉问答模型中,输出最终的预测语言答案。
7.如权利要求6所述的系统,其特征是,训练模块重新训练的过程中,基于正则化方法构造新的损失函数,新的损失函数等于原损失函数与分数限制损失函数的求和;当新的损失函数取得最小值时所对应的视觉问答模型即为训练好的视觉问答模型。
8.如权利要求7所述的方法,其特征是,所述分数限制损失函数,等于0与设定差值二者中的最大值,所述设定差值等于输出值Svqa与输出值Sqa的差值;
所述输出值Svqa是将第二图像特征向量和语言答案特征向量融合后的特征向量输入到第四个多层感知机得到的;
所述输出值Sqa是将语言问题特征向量和语言答案特征向量融合后输入到第五个多层感知机得到的;
所述语言问题特征向量是将语言问题特征输入到第三个多层感知机得到的。
9.一种电子设备,其特征是,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-5任一项方法所述的步骤。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-5任一项方法所述的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910407218.1A CN110309850A (zh) | 2019-05-15 | 2019-05-15 | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910407218.1A CN110309850A (zh) | 2019-05-15 | 2019-05-15 | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110309850A true CN110309850A (zh) | 2019-10-08 |
Family
ID=68075416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910407218.1A Pending CN110309850A (zh) | 2019-05-15 | 2019-05-15 | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309850A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851760A (zh) * | 2019-11-12 | 2020-02-28 | 电子科技大学 | 在web3D环境融入视觉问答的人机交互系统 |
CN111598118A (zh) * | 2019-12-10 | 2020-08-28 | 中山大学 | 一种视觉问答任务实现方法及系统 |
CN112579759A (zh) * | 2020-12-28 | 2021-03-30 | 北京邮电大学 | 模型训练方法及任务型视觉对话问题的生成方法和装置 |
CN112651403A (zh) * | 2020-12-02 | 2021-04-13 | 浙江大学 | 基于语义嵌入的零样本视觉问答方法 |
CN112948609A (zh) * | 2021-02-01 | 2021-06-11 | 湖南大学 | 一种视觉问答预测方法、系统及存储介质 |
CN113032535A (zh) * | 2019-12-24 | 2021-06-25 | 中国移动通信集团浙江有限公司 | 辅助视障人士视觉问答方法、装置、计算设备及存储介质 |
CN113407794B (zh) * | 2021-06-01 | 2023-10-31 | 中国科学院计算技术研究所 | 一种抑制语言偏差的视觉问答方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108771A (zh) * | 2018-01-03 | 2018-06-01 | 华南理工大学 | 基于多尺度深度学习的图像问答方法 |
CN109740012A (zh) * | 2018-12-14 | 2019-05-10 | 南京理工大学 | 基于深度神经网络对图像语义进行理解和问答的方法 |
-
2019
- 2019-05-15 CN CN201910407218.1A patent/CN110309850A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108771A (zh) * | 2018-01-03 | 2018-06-01 | 华南理工大学 | 基于多尺度深度学习的图像问答方法 |
CN109740012A (zh) * | 2018-12-14 | 2019-05-10 | 南京理工大学 | 基于深度神经网络对图像语义进行理解和问答的方法 |
Non-Patent Citations (4)
Title |
---|
AISHWARYA AGRAWAL等: "《Dont Just Assume Look and Answer: Overcoming Priors for Visual Question Answering》", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
DONGFEI YU等: "《Multi-level Attention Networks for Visual Question Answering》", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
YANGYANG GUO等: "《Quantifying and Alleviating the Language Prior Problem in Visual Question Answering》", 《ARXIV》 * |
高昆: "《时空注意力模型下的视频问答》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851760A (zh) * | 2019-11-12 | 2020-02-28 | 电子科技大学 | 在web3D环境融入视觉问答的人机交互系统 |
CN110851760B (zh) * | 2019-11-12 | 2022-12-27 | 电子科技大学 | 在web3D环境融入视觉问答的人机交互系统 |
CN111598118A (zh) * | 2019-12-10 | 2020-08-28 | 中山大学 | 一种视觉问答任务实现方法及系统 |
CN111598118B (zh) * | 2019-12-10 | 2023-07-07 | 中山大学 | 一种视觉问答任务实现方法及系统 |
CN113032535A (zh) * | 2019-12-24 | 2021-06-25 | 中国移动通信集团浙江有限公司 | 辅助视障人士视觉问答方法、装置、计算设备及存储介质 |
CN112651403A (zh) * | 2020-12-02 | 2021-04-13 | 浙江大学 | 基于语义嵌入的零样本视觉问答方法 |
CN112651403B (zh) * | 2020-12-02 | 2022-09-06 | 浙江大学 | 基于语义嵌入的零样本视觉问答方法 |
CN112579759A (zh) * | 2020-12-28 | 2021-03-30 | 北京邮电大学 | 模型训练方法及任务型视觉对话问题的生成方法和装置 |
CN112948609A (zh) * | 2021-02-01 | 2021-06-11 | 湖南大学 | 一种视觉问答预测方法、系统及存储介质 |
CN113407794B (zh) * | 2021-06-01 | 2023-10-31 | 中国科学院计算技术研究所 | 一种抑制语言偏差的视觉问答方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309850A (zh) | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 | |
CN112784092B (zh) | 一种混合融合模型的跨模态图像文本检索方法 | |
Xie et al. | Scut-fbp: A benchmark dataset for facial beauty perception | |
CN110188272B (zh) | 一种基于用户背景的社区问答网站标签推荐方法 | |
CN109902912B (zh) | 一种基于性格特征的个性化图像美学评价方法 | |
CN110515456A (zh) | 基于注意力机制的脑电信号情感判别方法及装置 | |
CN108804677A (zh) | 结合多层级注意力机制的深度学习问题分类方法及系统 | |
CN109739995B (zh) | 一种信息处理方法及装置 | |
Moreira et al. | Evolutionary radial basis function network for gestational diabetes data analytics | |
CN112632351B (zh) | 分类模型的训练方法、分类方法、装置及设备 | |
CN110689523A (zh) | 基于元学习个性化图像信息评价方法、信息数据处理终端 | |
CN106127634A (zh) | 一种基于朴素贝叶斯模型的学生学业成绩预测方法及系统 | |
AU2019101138A4 (en) | Voice interaction system for race games | |
Cheuque Cerda et al. | Bitcoin price prediction through opinion mining | |
CN112668486A (zh) | 一种预激活残差深度可分离卷积网络面部表情识别方法、装置和载体 | |
Mei et al. | Dense contour-imbalance aware framework for colon gland instance segmentation | |
CN112069329A (zh) | 文本语料的处理方法、装置、设备及存储介质 | |
Abu-Jamie et al. | Classification of sign-language using MobileNet-deep learning | |
Kalaiselvi et al. | E-Tanh: a novel activation function for image processing neural network models | |
CN110825903A (zh) | 一种改进哈希融合机制的视觉问答方法 | |
CN115512422A (zh) | 基于注意力机制的卷积神经网络面部情绪识别方法及系统 | |
CN113705715B (zh) | 一种基于lstm和多尺度fcn的时间序列分类方法 | |
Dhurkari | MCGL: a new reference dependent MCDM method | |
CN114463671A (zh) | 一种基于视频数据的用户人格识别方法 | |
Vibhute et al. | Color image processing approach for nitrogen estimation of vineyard |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191008 |