CN112948609A - 一种视觉问答预测方法、系统及存储介质 - Google Patents

一种视觉问答预测方法、系统及存储介质 Download PDF

Info

Publication number
CN112948609A
CN112948609A CN202110136865.0A CN202110136865A CN112948609A CN 112948609 A CN112948609 A CN 112948609A CN 202110136865 A CN202110136865 A CN 202110136865A CN 112948609 A CN112948609 A CN 112948609A
Authority
CN
China
Prior art keywords
question
answer
visual
model
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110136865.0A
Other languages
English (en)
Inventor
杨超
冯溯
蒋斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110136865.0A priority Critical patent/CN112948609A/zh
Publication of CN112948609A publication Critical patent/CN112948609A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种视觉问答预测方法、系统及存储介质,利用语言偏差构建一个联合损失函数去优化内容模块,上下文模块和最终的答案预测。这个联合损失函数包含内容损失,上下文损失和预测损失。内容损失用于优化内容模块的预测,以减少语言偏差带来的统计先验;上下文损失用于优化上下文模块的预测,以保留语言偏差带来的上下文先验;预测损失用于优化两个模块共同决定的预测答案分布。在这三个损失的联合作用下,模型能够在消除语言偏差和获取先验知识间取得一个平衡,具有更好的鲁棒性。

Description

一种视觉问答预测方法、系统及存储介质
技术领域
本发明涉及人机交互技术领域,特别是一种视觉问答预测方法、系统及存储介质。
背景技术
随着互联网的发展,图像,文本,视频,音频等多模态数据以惊人的速度增长和累积,同时深度学习在计算机视觉,自然语言处理,语音识别等领域的成功,加速了传统人工智能向跨模态人工智能的转变。在这样的背景下,研究体现人类对多模态信息理解的问答系统具有重要意义。问答系统一直以来都是体现人工智能的一种通用方法,同时由于视觉信息占据了人脑数据处理的绝大部分,图像处理技术的发展也日趋成熟,基于图像和文本的视觉问答系统得到了很多的关注和研究。
视觉问答[1]的概念在2014年被提出,该任务通过对一幅图像提出问题并让机器来回答的方式,旨在检验机器对图像和问题的理解能力。具体地,将视觉问答任务定义为一种算法,该算法的输入是一幅图像和关于该图像的自然语言问题,输出是关于这个问题的自然语言答案。视觉问答任务非常具有挑战性,模型需要对图像和文本两种模态数据进行感知,识别和理解,并通过多模态交互,融合,推理得到答案。
最近研究表明,视觉问答模型的早期结果使人们高估了它们的性能,大多数现有模型对图片信息的利用不足,过度依赖于数据集中的语言偏差[2],使得模型无需利用图像就能正确回答问题。这种偏差一部分可以概括为“语言先验”[3],即模型利用问题与答案之间强烈的相关性,而忽视图片的相应内容,得到结果;另一部分可以概括为“视觉启动偏差”[4],即模型利用提问者根据图片内容进行提问的倾向性,仅根据问题的一部分,就得到结果。这严重限制了视觉问答的实际应用,因为现实世界中问题与答案间的统计分布与数据集中的分布是存在明显差异的。
现存的应对语言偏差的方法,大致可以分为两种:基于额外数据的方法和非基于额外数据的方法。基于额外数据的方法通常寄希望于构建更平衡的数据集,或者通过额外的注释和视觉监督去减少模型对语言偏差的依赖。但这样往往意味着需要额外的数据标注成本和训练代价。而非基于额外数据的方法往往通过特定的学习策略,减少语言偏差对模型的影响,但这样会使得模型的预测准确率有明显的下降。因为语言偏差对模型并不全是坏的影响,它也能帮助模型学习到一些上下文先验,以过滤掉不必要的答案候选。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种视觉问答预测方法、系统及存储介质,避免模型仅根据片面的信息作出错误的预测。
为解决上述技术问题,本发明所采用的技术方案是:一种视觉问答预测方法,其特征在于,包括以下步骤:
S1、获取待提问的图像v,对图像进行特征提取,获得区域视觉特征fv(v);获取关于图像的自然语言问题,对所述自然语言问题q进行特征提取,获得问题特征fq(q);
S2、构建偏差模型,以所述自然语言问题q为偏差模型的输入,捕获语言偏差b;
S3、利用所述区域视觉特征fv(v)、问题特征fq(q)、语言偏差b,标准的视觉问答模型
Figure BDA0002927295430000021
获取第一预测内容
Figure BDA0002927295430000022
Figure BDA0002927295430000023
Figure BDA0002927295430000024
利用所述区域视觉特征fv(v)、问题特征fq(q)获取第二预测内容
Figure BDA0002927295430000025
Figure BDA0002927295430000026
其中,
Figure BDA0002927295430000027
nnb是线性神经网络,输出一个权重值;⊙表示逐元素相乘;Ccx(nnq(fq(q))⊙nnv(fv(v)))表示使用两个线性神经网络
Figure BDA0002927295430000028
分别映射dq维的问题特征向量和dv维的区域视觉特征向量到一个公共空间
Figure BDA0002927295430000029
然后将映射成相同维度的两种模态特征向量的逐元素乘积馈入到分类器Ccx
Figure BDA00029272954300000210
为以图像v和问题q为输入,模型获得的预测答案分布;
S4、利用下式获取最终的预测答案
Figure BDA00029272954300000211
Figure BDA00029272954300000212
本发明通过构建内容模块和上下文模块,使得模型在回答问题的时候,既关注到了图像和问题中的局部关键信息,同时又不会忽视其中的全局有效信息,从而避免模型仅根据片面的信息作出错误的预测。
本发明的方法还包括:
S5、将所述最终的预测答案代入损失函数
Figure BDA00029272954300000213
当所述损失函数收敛时,固化所述内容模块和上下文模块的参数,并将此时得到的预测答案表达式作为最终的预测模型。
本发明通过构建联合损失函数,训练模型不需要单独对内容和上下文模块进行预训练,只需要端到端的馈以模型数据,就能完成最终的训练,从而避免了多模块训练的误差累积,增强了训练的稳定性,减少了工程复杂度。
所述损失函数
Figure BDA0002927295430000031
的表达式为:
Figure BDA0002927295430000032
其中,
Figure BDA0002927295430000033
Figure BDA0002927295430000034
Figure BDA0002927295430000035
其中i表示视觉问答数据集中第i个样本,vi,qi,bi分别表示第i个样本的图像、问题和语言偏差;
Figure BDA0002927295430000036
表示第i个样本对应的最终的预测答案;yi表示第i个图像与问题所对应的答案标签值,
Figure BDA0002927295430000037
表示一个取值为0到1之间的,维数为
Figure BDA0002927295430000038
向量的维数等于视觉问答数据集中不同答案的数量; r是超参数,N表示样本总数,σ(·)表示sigmoid函数;B(·)是将第i个图像与问题所对应的语言偏差bi转化为标签的函数,
Figure BDA0002927295430000039
本发明在内容损失和上下文损失中,引入语言偏差,有助于在内容模块中,减少语言偏差对模型坏的影响——统计先验;同时在上下文模块中,保留语言偏差对模型好的影响——上下文先验,从而使得模型具有利用语言偏差获取有用信息的能力。
本发明还提供了一种视觉问答预测系统包括:
区域视觉特征提取网络,用于对待提问的图像v进行特征提取,获得区域视觉特征fv(v);
循环神经网络,用于获取关于图像的自然语言问题q,对所述自然语言问题进行特征提取,获得问题特征fq(q);
偏差模型,以所述自然语言问题为偏差模型的输入,捕获语言偏差b;
标准的视觉问答模型,以图像和自然语言问题为输入,输出预测答案分布
Figure BDA0002927295430000041
内容模块,用于利用所述区域视觉特征fv(v)、问题特征fq(q)、语言偏差b、标准的视觉问答模型
Figure BDA0002927295430000042
获取第一预测内容
Figure BDA0002927295430000043
Figure BDA0002927295430000044
其中,
Figure BDA0002927295430000045
Figure BDA0002927295430000046
nnb是线性神经网络,输出一个权重值;⊙表示逐元素相乘;表示;
上下文模块,用于利用所述区域视觉特征fv(v)、问题特征fq(q)获取第二预测内容
Figure BDA0002927295430000047
其中,Ccx(nnq(fq(q))⊙nnv(fv(v)))表示使用两个线性神经网络
Figure BDA0002927295430000048
映射多模态特征分别映射问题特征向量和区域视觉特征向量到一个公共空间
Figure BDA0002927295430000049
然后将映射成相同维度的两种模态特征向量的逐元素乘积馈入到分类器Ccx
联合预测模块,用于融合所述内容模块和上下文模块的输出,获得预测模型。
本发明的系统还包括:优化模块,用于将所述最终的预测答案代入损失函数
Figure BDA00029272954300000410
当所述损失函数收敛时,固化所述内容模块和上下文模块的参数,并将此时得到的预测答案表达式作为最终的预测模型。
作为一个发明构思,本发明还提供了一种计算机可读存储介质,其存储有程序,所述程序被配置为用于执行本发明上述方法的步骤。
与现有技术相比,本发明所具有的有益效果为:本发明
1.本发明在一般的视觉问答模型的基础上,构建内容模块和上下文模块,引导模型去结合图像与问题中决定性内容信息和非决定性的上下文信息去预测答案。内容模块关注图片和问题中的局部关键信息,上下文模块关注图像和问题中的全局有效信息,在两个模块的联合影响下,模型产生一个预测答案分布,从而避免模型仅仅依赖于图像或者问题就得到最后的答案。
2.本发明利用语言偏差构建一个联合损失函数去优化内容模块,上下文模块和最终的答案预测。这个联合损失函数包含内容损失,上下文损失和预测损失。内容损失用于优化内容模块的预测,以减少语言偏差带来的统计先验;上下文损失用于优化上下文模块的预测,以保留语言偏差带来的上下文先验;预测损失用于优化两个模块共同决定的预测答案分布。在这三个损失的联合作用下,模型能够在消除语言偏差和获取先验知识间取得一个平衡,具有更好的鲁棒性。
附图说明
图1为本发明实施例系统结构框图。
具体实施方式
如图1所示,本发明实施例1实现方法具体包括以下步骤:
1.获取待提问的图像,对图像进行特征提取,获得区域视觉特征。
使用预训练的FasterRCNN网络[5]作为图像编码器fv,对图像v进行特征提取,得到区域视觉特征fv(v)。
一幅图片幅图片提取个2048维向量(即对于一幅图片,提取图片中36个显著性区域的视觉特征)。
2.获取关于图像的自然语言问题,对问题进行特征提取,获得问题特征。
对于问题q,首先进行分词,然后使用预训练的GloVe词嵌入模型[6]将每个词编码为词向量,接着通过以GRU为基本单元的循环神经网络来捕获整个句子中词语的关联,取最终状态为整个句子的特征,这一个过程可以简单概括为通过文本编码器fq,获取问题特征fq(q)。
一个问题—个问题—特个300维向量(少于14,补全零向量)—补全循环神经网络(隐藏维数512)——2个512维向量
3.构建偏差模型,仅以问题为输入,捕获语言偏差
为了捕获语言偏差b,我们根据数据集所划分的64个问题类型,以及出现过的总计2274 个答案,对数据集进行统计,得到不同问题类型qtype与答案
Figure BDA0002927295430000051
的统计相关性。
Figure BDA0002927295430000052
P()表示条件概率。
其中qtype∈{1,2,...,64},每一种问题类型对应一种语言偏差统计分布(一个2274维的向量,每个维度值表示:某种问题类型所对应某个答案出现次数/属于该问题类型的问题总数)。
4.构建CCB模型,其包含内容(content)和上下文(context)模块,两个模块均以多个区域视觉特征,问题特征与语言偏差为输入。
5.内容模块聚焦于图片和问题中局部的关键信息,并有选择地结合语言偏差,作出基于图像和文本内容的预测。
具体地,我们使用经典的视觉问答模型Bottom-Up andTop-Down[5],去聚焦局部关键信息,获取答案预测概率分布
Figure BDA0002927295430000061
(一个2274维向量,每个维度值表示某个答案的预测分数)。接着通过典型的集成方法E(·)[7]去减少语言偏差对模型预测的影响,以得到最终的内容预测
Figure BDA0002927295430000062
这一过程可以被概括为:
Figure BDA0002927295430000063
6.上下文模块聚焦于图片和问题中全局的有效信息,得到基于图像和文本上下文的预测在上下文模块中,我们尝试去使用全局信息去产生一个均匀的预测分布
Figure BDA0002927295430000064
以助于模型去学习一个好的上下文先验去过滤掉不必要的答案候选。这一过程可以被描述为:
Figure BDA0002927295430000065
其中⊙表示逐元素乘。具体地,
Figure BDA0002927295430000066
使用两个线性神经网络(全连接层)
Figure BDA0002927295430000067
(将512维的问题特征向量通过全连接层映射为1024维的向量)
Figure BDA0002927295430000068
(将2048 维的视觉特征向量通过全连接层映射为1024维的向量)去分别映射问题和视觉特征到一个公共空间
Figure BDA0002927295430000069
然后它们的逐元素乘积被馈入到分类器Ccx
Figure BDA00029272954300000610
(1024 的逐元素乘积)
7.接着,将基于内容和上下文的两个预测进行结合,以得到最终的答案预测
Figure BDA00029272954300000611
具体地,我们直接将两个模块的预测逐元素相乘,以获取最终的答案预测分布,输出概率最大的答案预测
Figure BDA0002927295430000071
8.构建一个联合损失函数,包含内容损失,上下文损失和预测损失。CCB模型通过该联合损失函数计算损失值,根据损失值求得模型梯度,反向传播,更新模型参数,联合优化两个模块和最终的答案预测。当损失函数收敛后,完成对CCB模型的训练。
Figure BDA0002927295430000072
9.在计算内容损失时,使用语言偏差对内容预测和答案的二值交叉熵进行重加权,来减少偏差样本对模型梯度的影响,从而避免语言偏差对模型获取内容信息产生影响对于第i个样本,内容损失被定义如下:
Figure BDA0002927295430000073
其中yi表示第i个样本所对应的标签值,
Figure BDA0002927295430000074
r是一个超参数,N表示样本总数,σ(·)表示sigmoid函数。
本实施例中,超参数r=1。
10.在计算上下文损失时,通过将语言偏差进行二值化处理,得到上下文标签,来计算与上下文预测的二值交叉熵,从而保留语言偏差对模型获取上下文信息的影响。
为了从语言偏差中获取上下文先验,我们转化bi为一个二值向量B(bi)作为计算
Figure BDA0002927295430000075
的标签,定义如下:
Figure BDA0002927295430000076
其中B(·)是将bi转化为标签的函数,被定义为:
Figure BDA0002927295430000077
11.最终的预测损失则直接使用二值交叉熵损失函数,以使得预测分布与真实答案分布尽可能接近
Figure BDA0002927295430000081
本发明实施例2提供了一种对应上述方法的系统,该系统包括:
区域视觉特征提取网络(具体可以采用预训练的FasterRCNN网络[5]),用于对待提问的图像进行特征提取,获得区域视觉特征fv(v);
循环神经网络(具体可以采用LSTM),用于获取关于图像的自然语言问题,对所述自然语言问题进行特征提取,获得问题特征fq(q);
偏差模型(即问题类型与答案间的概率分布模型),以所述自然语言问题为偏差模型的输入,捕获语言偏差b;
内容模块,用于利用所述区域视觉特征fv(v)、问题特征fq(q)、语言偏差b获取第一预测内容
Figure BDA0002927295430000082
其中,E(·)表示集成方法;⊙表示逐元素相乘;
上下文模块,用于利用所述区域视觉特征fv(v)、问题特征fq(q)、语言偏差b获取第二预测内容
Figure BDA0002927295430000083
其中, Ccx(nnq(fq(q))⊙nnv(fv(v)))表示使用两个线性神经网络
Figure BDA0002927295430000084
Figure BDA0002927295430000085
去分别映射问题特征和视觉特征到一个公共空间
Figure BDA0002927295430000086
然后将映射成相同维度的两种模态特征向量的逐元素乘积被馈入到分类器Ccx
联合预测模块,用于融合所述内容模块和上下文模块的输出,获得预测模型;
优化模块,用于将所述最终的预测答案代入损失函数
Figure BDA0002927295430000087
当所述损失函数收敛时,固化所述内容模块和上下文模块的参数,并将此时得到的预测答案表达式作为最终的预测模型。
本发明实施例仿真实验中,按照标准的VQA评价指标[1],在VQAv2数据集[4]和VQA-CP数据集[2]上,评估本发明的预测模型。为了公平的比较,本发明使用和 Up-Down[5]相同的方法提取图片和问题特征,使用和LMH[7]模型相同的集成方法,减少语言偏差对整个模型的影响。
表1本发明方法与其余方法比较结果
Figure BDA0002927295430000091
上表1证明了本发明的方法在总体准确率,是/否,数字,和其他问题类型上明显优于其他方法。没有使用额外的数据,本发明将LMH的性能从52.05%提升到 57.99%。从表格的最后一列,可以看到在这两个数据集上,大多数方法的总体准确率有一个明显的差距。值得注意的是,本发明的方法有效地减少了这个模型在两个数据集上的性能差距,达到了2.74%,提升了模型的鲁棒性。
表2本发明方法消融实验
Figure BDA0002927295430000092
上表2证明了本发明的方法各部分的有效性。基线模型选取Bottom-Up and Top-Down[5],LMH[7]为典型的集成方法。为了验证CCB模型设置内容模块和上下文模块的有效性,在第三列的实验中,我们不使用语言偏差b来辅助计算内容损失和上下文损失。具体地,通过设置超参数r为0,使得内容损失的计算忽略b的影响;同时不使用通过b生成的上下文标签,而继续沿用数据集的标签来计算上下文损失。从上表可以看到,我们的方法即便不使用额外设计的损失函数,依然能将准确率从52.05%提升到55.06%。在第四列和第五列实验中,我们别验证了内容损失(r=1,w/o)和上下文损失(r=0,w)的有效性,准确率分别为55.70%和56.76%。最后,我们还验证了不同的r对模型结果的影响,当r=1时,模型准确率最高,一个大的r可能影响模型对偏差样本的学习能力,而一个小的r可能使得模型不能完全摆脱对语言偏差的过度依赖。
参考文献
1.Antol,Stanislaw,et al."Vqa:Visual question answering."Proceedingsofthe IEEE international conference on computer vision.2015.
2.Agrawal,Aishwarya,et al."Don'tjust assume;look and answer:Overcoming priors for visual question answering."Proceedings ofthe IEEEConference on Computer Vision and Pattern Recognition.2018.
3.Niu,Yulei,et al."Counterfactual VQA:ACause-Effect Look at LanguageBias."arXiv preprint arXiv:2006.04315(2020).
4.Goyal,Yash,et al."Making the V in VQAmatter:Elevating the roleofimage understanding in Visual QuestionAnswering."Proceedings ofthe IEEEConference on Computer Vision and Pattern Recognition.2017.
5.Anderson,Peter,et al."Bottom-up and top-down attention for imagecaptioning and visual question answering."Proceedings ofthe IEEE conferenceon computer vision andpattern recognition.2018.
6.Pennington,Jeffrey,Richard Socher,and Christopher D.Manning."Glove:Global vectors for word representation."Proceedings ofthe 2014conference onempirical methods in natural language processing(EMNLP).2014.
7.Clark,Christopher,MarkYatskar,and Luke Zettlemoyer."Don't Take theEasy Way Out: Ensemble Based Methods forAvoiding Known Dataset Biases."arXivpreprint arXiv:1909.03683(2019).
8.Wu,Jialin,and Raymond Mooney."Self-critical reasoning for robustvisual question answering."Advances in Neural Information ProcessingSystems.2019.
9.Jing,Chenchen,et al."Overcoming Language Priors in VQAviaDecomposed Linguistic Representations."Proceedings ofthe AAAI ConferenceonArtificial Intelligence 34.7(2020):11181-11188.
10.Ramakrishnan,Sainandan,AishwaryaAgrawal,and Stefan Lee."Overcominglanguage priors in visual question answering with adversarialregularization."Advances in Neural Information Processing Systems.2018.
11.Cadene,Remi,et al."Rubi:Reducing unimodal biases for visualquestion answering."Advances in neural information processing systems.2019。

Claims (7)

1.一种视觉问答预测方法,其特征在于,包括以下步骤:
S1、获取待提问的图像v,对图像进行特征提取,获得区域视觉特征fv(v);获取关于图像的自然语言问题q,对所述自然语言问题进行特征提取,获得问题特征fq(q);
S2、构建偏差模型,以所述自然语言问题q为偏差模型的输入,捕获语言偏差b;
S3、利用所述区域视觉特征fv(v)、问题特征fq(q)、语言偏差b、标准的视觉问答模型
Figure FDA0002927295420000011
获取第一预测内容
Figure FDA0002927295420000012
Figure FDA0002927295420000013
Figure FDA0002927295420000014
利用所述区域视觉特征fv(v)、问题特征fq(q)获取第二预测内容
Figure FDA0002927295420000015
Figure FDA0002927295420000016
其中,集成方法
Figure FDA0002927295420000017
Figure FDA0002927295420000018
nnb是线性神经网络,输出一个权重值;⊙表示逐元素相乘;Ccx(nnq(fq(q))⊙nnv(fv(v)))表示使用两个线性神经网络
Figure FDA0002927295420000019
Figure FDA00029272954200000110
分别映射dq维的问题特征向量和dv维的区域视觉特征向量到一个公共空间
Figure FDA00029272954200000111
然后将映射成相同维度的两种模态特征向量的逐元素乘积馈入到分类器Ccx
Figure FDA00029272954200000112
为以图像v和问题q为输入,模型获得的预测答案分布;
S4、利用下式获取最终的预测答案
Figure FDA00029272954200000113
Figure FDA00029272954200000114
2.根据权利要求1所述的视觉问答预测方法,其特征在于,还包括:
S5、将所述最终的预测答案代入损失函数
Figure FDA00029272954200000115
当所述损失函数收敛时,固化所述内容模块和上下文模块的参数,并将此时得到的预测答案表达式作为最终的预测模型。
3.根据权利要求2所述的视觉问答预测方法,其特征在于,所述损失函数
Figure FDA00029272954200000116
的表达式为:
Figure FDA00029272954200000117
其中,
Figure FDA0002927295420000021
Figure FDA0002927295420000022
Figure FDA0002927295420000023
Figure FDA0002927295420000024
其中i表示视觉问答数据集中第i个样本,vi,qi,bi分别表示第i个样本的图像、问题和语言偏差;
Figure FDA0002927295420000025
表示第i个样本对应的最终的预测答案;yi表示第i个图像与问题所对应的答案标签值,
Figure FDA0002927295420000026
Figure FDA0002927295420000027
表示一个取值为0到1之间的,维数为
Figure FDA0002927295420000028
的向量,该向量维数与视觉问答数据集中不同答案的数量相等;r是超参数,N表示样本总数,σ(·)表示sigmoid函数;B(·)是将第i个图像与问题所对应的语言偏差bi转化为标签的函数,
Figure FDA0002927295420000029
4.一种视觉问答预测系统,其特征在于,包括:
区域视觉特征提取网络,用于对待提问的图像v进行特征提取,获得区域视觉特征fv(v);
循环神经网络,用于获取关于图像q的自然语言问题,对所述自然语言问题进行特征提取,获得问题特征fq(q);
偏差模型,以所述自然语言问题q为偏差模型的输入,捕获语言偏差b;
标准的视觉问答模型,以图像和自然语言问题为输入,输出预测答案分布
Figure FDA00029272954200000210
内容模块,用于利用所述区域视觉特征fv(v)、问题特征fq(q)、语言偏差b、标准的视觉问答模型
Figure FDA00029272954200000211
获取第一预测内容
Figure FDA00029272954200000212
Figure FDA00029272954200000213
Figure FDA00029272954200000214
其中,
Figure FDA00029272954200000215
Figure FDA00029272954200000216
nnb是线性神经网络,输出一个权重值;⊙表示逐元素相乘;
上下文模块,用于利用所述区域视觉特征fv(v)、问题特征fq(q)获取第二预测内容
Figure FDA00029272954200000217
Figure FDA00029272954200000218
其中,Ccx(nnq(fq(q))⊙nnv(fv(v)))表示使用两个线性神经网络
Figure FDA00029272954200000219
Figure FDA0002927295420000031
分别映射问题特征向量和区域视觉特征向量到一个公共空间
Figure FDA0002927295420000032
然后将映射成相同维度的两种模态特征向量的逐元素乘积馈入到分类器Ccx
联合预测模块,用于融合所述内容模块和上下文模块的输出,获得预测模型。
5.根据权利要求4所述的视觉问答预测系统,其特征在于,还包括:
优化模块,用于将所述最终的预测答案代入损失函数
Figure FDA0002927295420000033
当所述损失函数收敛时,固化所述内容模块和上下文模块的参数,并将此时得到的预测答案表达式作为最终的预测模型。
6.根据权利要求4所述的视觉问答预测系统,其特征在于,所述损失函数
Figure FDA0002927295420000034
的表达式为:
Figure FDA0002927295420000035
其中,
Figure FDA0002927295420000036
Figure FDA0002927295420000037
Figure FDA0002927295420000038
Figure FDA0002927295420000039
yi表示第i个图像与问题对应的标签值,
Figure FDA00029272954200000310
Figure FDA00029272954200000311
表示一个取值为0到1之间的,维数为
Figure FDA00029272954200000312
的向量,该向量维数与视觉问答数据集中不同答案的数量相等;
r是超参数,N表示样本总数,σ(·)表示sigmoid函数;B(·)是将第i个图像与问题所对应的语言偏差bi转化为标签的函数,
Figure FDA00029272954200000313
7.一种计算机可读存储介质,其存储有程序,其特征在于,所述程序被配置为用于执行权利要求1~3之一所述方法的步骤。
CN202110136865.0A 2021-02-01 2021-02-01 一种视觉问答预测方法、系统及存储介质 Pending CN112948609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110136865.0A CN112948609A (zh) 2021-02-01 2021-02-01 一种视觉问答预测方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110136865.0A CN112948609A (zh) 2021-02-01 2021-02-01 一种视觉问答预测方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN112948609A true CN112948609A (zh) 2021-06-11

Family

ID=76240840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110136865.0A Pending CN112948609A (zh) 2021-02-01 2021-02-01 一种视觉问答预测方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112948609A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309850A (zh) * 2019-05-15 2019-10-08 山东省计算中心(国家超级计算济南中心) 基于语言先验问题识别和缓解的视觉问答预测方法及系统
CN110598573A (zh) * 2019-08-21 2019-12-20 中山大学 一种基于多域异质图引导的视觉问题常识推理模型及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309850A (zh) * 2019-05-15 2019-10-08 山东省计算中心(国家超级计算济南中心) 基于语言先验问题识别和缓解的视觉问答预测方法及系统
CN110598573A (zh) * 2019-08-21 2019-12-20 中山大学 一种基于多域异质图引导的视觉问题常识推理模型及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHAO YANG等: "LEARNING CONTENT AND CONTEXT WITH LANGUAGE BIAS FOR VISUAL QUESTION ANSWERING", 《ARXIV.ORG》 *

Similar Documents

Publication Publication Date Title
Zhu et al. Simple is not easy: A simple strong baseline for textvqa and textcaps
CN112100351A (zh) 一种通过问题生成数据集构建智能问答系统的方法及设备
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
CN113254782B (zh) 问答社区专家推荐方法及系统
CN113076905B (zh) 一种基于上下文交互关系的情绪识别方法
Jha et al. A novel approach on visual question answering by parameter prediction using faster region based convolutional neural network
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN115719510A (zh) 基于多模态融合及隐式交互关系学习的群组行为识别方法
CN115223020A (zh) 图像处理方法、装置、电子设备以及可读存储介质
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
Onita et al. From image to text in sentiment analysis via regression and deep learning
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN114254645A (zh) 一种人工智能辅助写作系统
Mou et al. Multimodal dialogue state tracking by qa approach with data augmentation
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法
Mazaheri et al. Video fill in the blank using lr/rl lstms with spatial-temporal attentions
Chharia et al. Deep recurrent architecture based scene description generator for visually impaired
CN115797952B (zh) 基于深度学习的手写英文行识别方法及系统
Wu et al. Question-driven multiple attention (dqma) model for visual question answer
CN114821802A (zh) 基于多线索相互蒸馏和自蒸馏的连续手语识别方法
CN112948609A (zh) 一种视觉问答预测方法、系统及存储介质
Wang et al. RETRACTED ARTICLE: Human behaviour recognition and monitoring based on deep convolutional neural networks
CN114117159A (zh) 一种多阶图像特征与问题交互的图像问答方法
CN114492450A (zh) 文本匹配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210611

RJ01 Rejection of invention patent application after publication