CN112948609A - 一种视觉问答预测方法、系统及存储介质 - Google Patents
一种视觉问答预测方法、系统及存储介质 Download PDFInfo
- Publication number
- CN112948609A CN112948609A CN202110136865.0A CN202110136865A CN112948609A CN 112948609 A CN112948609 A CN 112948609A CN 202110136865 A CN202110136865 A CN 202110136865A CN 112948609 A CN112948609 A CN 112948609A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- visual
- model
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000006870 function Effects 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 30
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 10
- 230000010354 integration Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 5
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009471 action Effects 0.000 abstract description 2
- 230000008030 elimination Effects 0.000 abstract description 2
- 238000003379 elimination reaction Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/532—Query formulation, e.g. graphical querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种视觉问答预测方法、系统及存储介质,利用语言偏差构建一个联合损失函数去优化内容模块,上下文模块和最终的答案预测。这个联合损失函数包含内容损失,上下文损失和预测损失。内容损失用于优化内容模块的预测,以减少语言偏差带来的统计先验;上下文损失用于优化上下文模块的预测,以保留语言偏差带来的上下文先验;预测损失用于优化两个模块共同决定的预测答案分布。在这三个损失的联合作用下,模型能够在消除语言偏差和获取先验知识间取得一个平衡,具有更好的鲁棒性。
Description
技术领域
本发明涉及人机交互技术领域,特别是一种视觉问答预测方法、系统及存储介质。
背景技术
随着互联网的发展,图像,文本,视频,音频等多模态数据以惊人的速度增长和累积,同时深度学习在计算机视觉,自然语言处理,语音识别等领域的成功,加速了传统人工智能向跨模态人工智能的转变。在这样的背景下,研究体现人类对多模态信息理解的问答系统具有重要意义。问答系统一直以来都是体现人工智能的一种通用方法,同时由于视觉信息占据了人脑数据处理的绝大部分,图像处理技术的发展也日趋成熟,基于图像和文本的视觉问答系统得到了很多的关注和研究。
视觉问答[1]的概念在2014年被提出,该任务通过对一幅图像提出问题并让机器来回答的方式,旨在检验机器对图像和问题的理解能力。具体地,将视觉问答任务定义为一种算法,该算法的输入是一幅图像和关于该图像的自然语言问题,输出是关于这个问题的自然语言答案。视觉问答任务非常具有挑战性,模型需要对图像和文本两种模态数据进行感知,识别和理解,并通过多模态交互,融合,推理得到答案。
最近研究表明,视觉问答模型的早期结果使人们高估了它们的性能,大多数现有模型对图片信息的利用不足,过度依赖于数据集中的语言偏差[2],使得模型无需利用图像就能正确回答问题。这种偏差一部分可以概括为“语言先验”[3],即模型利用问题与答案之间强烈的相关性,而忽视图片的相应内容,得到结果;另一部分可以概括为“视觉启动偏差”[4],即模型利用提问者根据图片内容进行提问的倾向性,仅根据问题的一部分,就得到结果。这严重限制了视觉问答的实际应用,因为现实世界中问题与答案间的统计分布与数据集中的分布是存在明显差异的。
现存的应对语言偏差的方法,大致可以分为两种:基于额外数据的方法和非基于额外数据的方法。基于额外数据的方法通常寄希望于构建更平衡的数据集,或者通过额外的注释和视觉监督去减少模型对语言偏差的依赖。但这样往往意味着需要额外的数据标注成本和训练代价。而非基于额外数据的方法往往通过特定的学习策略,减少语言偏差对模型的影响,但这样会使得模型的预测准确率有明显的下降。因为语言偏差对模型并不全是坏的影响,它也能帮助模型学习到一些上下文先验,以过滤掉不必要的答案候选。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种视觉问答预测方法、系统及存储介质,避免模型仅根据片面的信息作出错误的预测。
为解决上述技术问题,本发明所采用的技术方案是:一种视觉问答预测方法,其特征在于,包括以下步骤:
S1、获取待提问的图像v,对图像进行特征提取,获得区域视觉特征fv(v);获取关于图像的自然语言问题,对所述自然语言问题q进行特征提取,获得问题特征fq(q);
S2、构建偏差模型,以所述自然语言问题q为偏差模型的输入,捕获语言偏差b;
S3、利用所述区域视觉特征fv(v)、问题特征fq(q)、语言偏差b,标准的视觉问答模型获取第一预测内容 利用所述区域视觉特征fv(v)、问题特征fq(q)获取第二预测内容 其中,nnb是线性神经网络,输出一个权重值;⊙表示逐元素相乘;Ccx(nnq(fq(q))⊙nnv(fv(v)))表示使用两个线性神经网络分别映射dq维的问题特征向量和dv维的区域视觉特征向量到一个公共空间然后将映射成相同维度的两种模态特征向量的逐元素乘积馈入到分类器Ccx;为以图像v和问题q为输入,模型获得的预测答案分布;
本发明通过构建内容模块和上下文模块,使得模型在回答问题的时候,既关注到了图像和问题中的局部关键信息,同时又不会忽视其中的全局有效信息,从而避免模型仅根据片面的信息作出错误的预测。
本发明的方法还包括:
本发明通过构建联合损失函数,训练模型不需要单独对内容和上下文模块进行预训练,只需要端到端的馈以模型数据,就能完成最终的训练,从而避免了多模块训练的误差累积,增强了训练的稳定性,减少了工程复杂度。
其中, 其中i表示视觉问答数据集中第i个样本,vi,qi,bi分别表示第i个样本的图像、问题和语言偏差;表示第i个样本对应的最终的预测答案;yi表示第i个图像与问题所对应的答案标签值,表示一个取值为0到1之间的,维数为向量的维数等于视觉问答数据集中不同答案的数量; r是超参数,N表示样本总数,σ(·)表示sigmoid函数;B(·)是将第i个图像与问题所对应的语言偏差bi转化为标签的函数,
本发明在内容损失和上下文损失中,引入语言偏差,有助于在内容模块中,减少语言偏差对模型坏的影响——统计先验;同时在上下文模块中,保留语言偏差对模型好的影响——上下文先验,从而使得模型具有利用语言偏差获取有用信息的能力。
本发明还提供了一种视觉问答预测系统包括:
区域视觉特征提取网络,用于对待提问的图像v进行特征提取,获得区域视觉特征fv(v);
循环神经网络,用于获取关于图像的自然语言问题q,对所述自然语言问题进行特征提取,获得问题特征fq(q);
偏差模型,以所述自然语言问题为偏差模型的输入,捕获语言偏差b;
上下文模块,用于利用所述区域视觉特征fv(v)、问题特征fq(q)获取第二预测内容其中,Ccx(nnq(fq(q))⊙nnv(fv(v)))表示使用两个线性神经网络映射多模态特征分别映射问题特征向量和区域视觉特征向量到一个公共空间然后将映射成相同维度的两种模态特征向量的逐元素乘积馈入到分类器Ccx;
联合预测模块,用于融合所述内容模块和上下文模块的输出,获得预测模型。
作为一个发明构思,本发明还提供了一种计算机可读存储介质,其存储有程序,所述程序被配置为用于执行本发明上述方法的步骤。
与现有技术相比,本发明所具有的有益效果为:本发明
1.本发明在一般的视觉问答模型的基础上,构建内容模块和上下文模块,引导模型去结合图像与问题中决定性内容信息和非决定性的上下文信息去预测答案。内容模块关注图片和问题中的局部关键信息,上下文模块关注图像和问题中的全局有效信息,在两个模块的联合影响下,模型产生一个预测答案分布,从而避免模型仅仅依赖于图像或者问题就得到最后的答案。
2.本发明利用语言偏差构建一个联合损失函数去优化内容模块,上下文模块和最终的答案预测。这个联合损失函数包含内容损失,上下文损失和预测损失。内容损失用于优化内容模块的预测,以减少语言偏差带来的统计先验;上下文损失用于优化上下文模块的预测,以保留语言偏差带来的上下文先验;预测损失用于优化两个模块共同决定的预测答案分布。在这三个损失的联合作用下,模型能够在消除语言偏差和获取先验知识间取得一个平衡,具有更好的鲁棒性。
附图说明
图1为本发明实施例系统结构框图。
具体实施方式
如图1所示,本发明实施例1实现方法具体包括以下步骤:
1.获取待提问的图像,对图像进行特征提取,获得区域视觉特征。
使用预训练的FasterRCNN网络[5]作为图像编码器fv,对图像v进行特征提取,得到区域视觉特征fv(v)。
一幅图片幅图片提取个2048维向量(即对于一幅图片,提取图片中36个显著性区域的视觉特征)。
2.获取关于图像的自然语言问题,对问题进行特征提取,获得问题特征。
对于问题q,首先进行分词,然后使用预训练的GloVe词嵌入模型[6]将每个词编码为词向量,接着通过以GRU为基本单元的循环神经网络来捕获整个句子中词语的关联,取最终状态为整个句子的特征,这一个过程可以简单概括为通过文本编码器fq,获取问题特征fq(q)。
一个问题—个问题—特个300维向量(少于14,补全零向量)—补全循环神经网络(隐藏维数512)——2个512维向量
3.构建偏差模型,仅以问题为输入,捕获语言偏差
其中qtype∈{1,2,...,64},每一种问题类型对应一种语言偏差统计分布(一个2274维的向量,每个维度值表示:某种问题类型所对应某个答案出现次数/属于该问题类型的问题总数)。
4.构建CCB模型,其包含内容(content)和上下文(context)模块,两个模块均以多个区域视觉特征,问题特征与语言偏差为输入。
5.内容模块聚焦于图片和问题中局部的关键信息,并有选择地结合语言偏差,作出基于图像和文本内容的预测。
具体地,我们使用经典的视觉问答模型Bottom-Up andTop-Down[5],去聚焦局部关键信息,获取答案预测概率分布(一个2274维向量,每个维度值表示某个答案的预测分数)。接着通过典型的集成方法E(·)[7]去减少语言偏差对模型预测的影响,以得到最终的内容预测这一过程可以被概括为:
6.上下文模块聚焦于图片和问题中全局的有效信息,得到基于图像和文本上下文的预测在上下文模块中,我们尝试去使用全局信息去产生一个均匀的预测分布以助于模型去学习一个好的上下文先验去过滤掉不必要的答案候选。这一过程可以被描述为:
其中⊙表示逐元素乘。具体地,使用两个线性神经网络(全连接层) (将512维的问题特征向量通过全连接层映射为1024维的向量)(将2048 维的视觉特征向量通过全连接层映射为1024维的向量)去分别映射问题和视觉特征到一个公共空间然后它们的逐元素乘积被馈入到分类器Ccx,(1024 的逐元素乘积)
8.构建一个联合损失函数,包含内容损失,上下文损失和预测损失。CCB模型通过该联合损失函数计算损失值,根据损失值求得模型梯度,反向传播,更新模型参数,联合优化两个模块和最终的答案预测。当损失函数收敛后,完成对CCB模型的训练。
9.在计算内容损失时,使用语言偏差对内容预测和答案的二值交叉熵进行重加权,来减少偏差样本对模型梯度的影响,从而避免语言偏差对模型获取内容信息产生影响对于第i个样本,内容损失被定义如下:
本实施例中,超参数r=1。
10.在计算上下文损失时,通过将语言偏差进行二值化处理,得到上下文标签,来计算与上下文预测的二值交叉熵,从而保留语言偏差对模型获取上下文信息的影响。
其中B(·)是将bi转化为标签的函数,被定义为:
11.最终的预测损失则直接使用二值交叉熵损失函数,以使得预测分布与真实答案分布尽可能接近
本发明实施例2提供了一种对应上述方法的系统,该系统包括:
区域视觉特征提取网络(具体可以采用预训练的FasterRCNN网络[5]),用于对待提问的图像进行特征提取,获得区域视觉特征fv(v);
循环神经网络(具体可以采用LSTM),用于获取关于图像的自然语言问题,对所述自然语言问题进行特征提取,获得问题特征fq(q);
偏差模型(即问题类型与答案间的概率分布模型),以所述自然语言问题为偏差模型的输入,捕获语言偏差b;
上下文模块,用于利用所述区域视觉特征fv(v)、问题特征fq(q)、语言偏差b获取第二预测内容其中, Ccx(nnq(fq(q))⊙nnv(fv(v)))表示使用两个线性神经网络 去分别映射问题特征和视觉特征到一个公共空间然后将映射成相同维度的两种模态特征向量的逐元素乘积被馈入到分类器Ccx;
联合预测模块,用于融合所述内容模块和上下文模块的输出,获得预测模型;
本发明实施例仿真实验中,按照标准的VQA评价指标[1],在VQAv2数据集[4]和VQA-CP数据集[2]上,评估本发明的预测模型。为了公平的比较,本发明使用和 Up-Down[5]相同的方法提取图片和问题特征,使用和LMH[7]模型相同的集成方法,减少语言偏差对整个模型的影响。
表1本发明方法与其余方法比较结果
上表1证明了本发明的方法在总体准确率,是/否,数字,和其他问题类型上明显优于其他方法。没有使用额外的数据,本发明将LMH的性能从52.05%提升到 57.99%。从表格的最后一列,可以看到在这两个数据集上,大多数方法的总体准确率有一个明显的差距。值得注意的是,本发明的方法有效地减少了这个模型在两个数据集上的性能差距,达到了2.74%,提升了模型的鲁棒性。
表2本发明方法消融实验
上表2证明了本发明的方法各部分的有效性。基线模型选取Bottom-Up and Top-Down[5],LMH[7]为典型的集成方法。为了验证CCB模型设置内容模块和上下文模块的有效性,在第三列的实验中,我们不使用语言偏差b来辅助计算内容损失和上下文损失。具体地,通过设置超参数r为0,使得内容损失的计算忽略b的影响;同时不使用通过b生成的上下文标签,而继续沿用数据集的标签来计算上下文损失。从上表可以看到,我们的方法即便不使用额外设计的损失函数,依然能将准确率从52.05%提升到55.06%。在第四列和第五列实验中,我们别验证了内容损失(r=1,w/o)和上下文损失(r=0,w)的有效性,准确率分别为55.70%和56.76%。最后,我们还验证了不同的r对模型结果的影响,当r=1时,模型准确率最高,一个大的r可能影响模型对偏差样本的学习能力,而一个小的r可能使得模型不能完全摆脱对语言偏差的过度依赖。
参考文献
1.Antol,Stanislaw,et al."Vqa:Visual question answering."Proceedingsofthe IEEE international conference on computer vision.2015.
2.Agrawal,Aishwarya,et al."Don'tjust assume;look and answer:Overcoming priors for visual question answering."Proceedings ofthe IEEEConference on Computer Vision and Pattern Recognition.2018.
3.Niu,Yulei,et al."Counterfactual VQA:ACause-Effect Look at LanguageBias."arXiv preprint arXiv:2006.04315(2020).
4.Goyal,Yash,et al."Making the V in VQAmatter:Elevating the roleofimage understanding in Visual QuestionAnswering."Proceedings ofthe IEEEConference on Computer Vision and Pattern Recognition.2017.
5.Anderson,Peter,et al."Bottom-up and top-down attention for imagecaptioning and visual question answering."Proceedings ofthe IEEE conferenceon computer vision andpattern recognition.2018.
6.Pennington,Jeffrey,Richard Socher,and Christopher D.Manning."Glove:Global vectors for word representation."Proceedings ofthe 2014conference onempirical methods in natural language processing(EMNLP).2014.
7.Clark,Christopher,MarkYatskar,and Luke Zettlemoyer."Don't Take theEasy Way Out: Ensemble Based Methods forAvoiding Known Dataset Biases."arXivpreprint arXiv:1909.03683(2019).
8.Wu,Jialin,and Raymond Mooney."Self-critical reasoning for robustvisual question answering."Advances in Neural Information ProcessingSystems.2019.
9.Jing,Chenchen,et al."Overcoming Language Priors in VQAviaDecomposed Linguistic Representations."Proceedings ofthe AAAI ConferenceonArtificial Intelligence 34.7(2020):11181-11188.
10.Ramakrishnan,Sainandan,AishwaryaAgrawal,and Stefan Lee."Overcominglanguage priors in visual question answering with adversarialregularization."Advances in Neural Information Processing Systems.2018.
11.Cadene,Remi,et al."Rubi:Reducing unimodal biases for visualquestion answering."Advances in neural information processing systems.2019。
Claims (7)
1.一种视觉问答预测方法,其特征在于,包括以下步骤:
S1、获取待提问的图像v,对图像进行特征提取,获得区域视觉特征fv(v);获取关于图像的自然语言问题q,对所述自然语言问题进行特征提取,获得问题特征fq(q);
S2、构建偏差模型,以所述自然语言问题q为偏差模型的输入,捕获语言偏差b;
S3、利用所述区域视觉特征fv(v)、问题特征fq(q)、语言偏差b、标准的视觉问答模型获取第一预测内容 利用所述区域视觉特征fv(v)、问题特征fq(q)获取第二预测内容 其中,集成方法 nnb是线性神经网络,输出一个权重值;⊙表示逐元素相乘;Ccx(nnq(fq(q))⊙nnv(fv(v)))表示使用两个线性神经网络 分别映射dq维的问题特征向量和dv维的区域视觉特征向量到一个公共空间然后将映射成相同维度的两种模态特征向量的逐元素乘积馈入到分类器Ccx;为以图像v和问题q为输入,模型获得的预测答案分布;
4.一种视觉问答预测系统,其特征在于,包括:
区域视觉特征提取网络,用于对待提问的图像v进行特征提取,获得区域视觉特征fv(v);
循环神经网络,用于获取关于图像q的自然语言问题,对所述自然语言问题进行特征提取,获得问题特征fq(q);
偏差模型,以所述自然语言问题q为偏差模型的输入,捕获语言偏差b;
标准的视觉问答模型,以图像和自然语言问题为输入,输出预测答案分布内容模块,用于利用所述区域视觉特征fv(v)、问题特征fq(q)、语言偏差b、标准的视觉问答模型获取第一预测内容 其中, nnb是线性神经网络,输出一个权重值;⊙表示逐元素相乘;
上下文模块,用于利用所述区域视觉特征fv(v)、问题特征fq(q)获取第二预测内容 其中,Ccx(nnq(fq(q))⊙nnv(fv(v)))表示使用两个线性神经网络 分别映射问题特征向量和区域视觉特征向量到一个公共空间然后将映射成相同维度的两种模态特征向量的逐元素乘积馈入到分类器Ccx;
联合预测模块,用于融合所述内容模块和上下文模块的输出,获得预测模型。
7.一种计算机可读存储介质,其存储有程序,其特征在于,所述程序被配置为用于执行权利要求1~3之一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110136865.0A CN112948609A (zh) | 2021-02-01 | 2021-02-01 | 一种视觉问答预测方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110136865.0A CN112948609A (zh) | 2021-02-01 | 2021-02-01 | 一种视觉问答预测方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112948609A true CN112948609A (zh) | 2021-06-11 |
Family
ID=76240840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110136865.0A Pending CN112948609A (zh) | 2021-02-01 | 2021-02-01 | 一种视觉问答预测方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112948609A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309850A (zh) * | 2019-05-15 | 2019-10-08 | 山东省计算中心(国家超级计算济南中心) | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 |
CN110598573A (zh) * | 2019-08-21 | 2019-12-20 | 中山大学 | 一种基于多域异质图引导的视觉问题常识推理模型及方法 |
-
2021
- 2021-02-01 CN CN202110136865.0A patent/CN112948609A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309850A (zh) * | 2019-05-15 | 2019-10-08 | 山东省计算中心(国家超级计算济南中心) | 基于语言先验问题识别和缓解的视觉问答预测方法及系统 |
CN110598573A (zh) * | 2019-08-21 | 2019-12-20 | 中山大学 | 一种基于多域异质图引导的视觉问题常识推理模型及方法 |
Non-Patent Citations (1)
Title |
---|
CHAO YANG等: "LEARNING CONTENT AND CONTEXT WITH LANGUAGE BIAS FOR VISUAL QUESTION ANSWERING", 《ARXIV.ORG》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhu et al. | Simple is not easy: A simple strong baseline for textvqa and textcaps | |
CN112100351A (zh) | 一种通过问题生成数据集构建智能问答系统的方法及设备 | |
Sharma et al. | A survey of methods, datasets and evaluation metrics for visual question answering | |
CN113254782B (zh) | 问答社区专家推荐方法及系统 | |
CN113076905B (zh) | 一种基于上下文交互关系的情绪识别方法 | |
Jha et al. | A novel approach on visual question answering by parameter prediction using faster region based convolutional neural network | |
CN111738169A (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN115719510A (zh) | 基于多模态融合及隐式交互关系学习的群组行为识别方法 | |
CN115223020A (zh) | 图像处理方法、装置、电子设备以及可读存储介质 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
Onita et al. | From image to text in sentiment analysis via regression and deep learning | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
CN115775349A (zh) | 基于多模态融合的假新闻检测方法和装置 | |
CN114254645A (zh) | 一种人工智能辅助写作系统 | |
Mou et al. | Multimodal dialogue state tracking by qa approach with data augmentation | |
CN113159071B (zh) | 一种跨模态图像-文本关联异常检测方法 | |
Mazaheri et al. | Video fill in the blank using lr/rl lstms with spatial-temporal attentions | |
Chharia et al. | Deep recurrent architecture based scene description generator for visually impaired | |
CN115797952B (zh) | 基于深度学习的手写英文行识别方法及系统 | |
Wu et al. | Question-driven multiple attention (dqma) model for visual question answer | |
CN114821802A (zh) | 基于多线索相互蒸馏和自蒸馏的连续手语识别方法 | |
CN112948609A (zh) | 一种视觉问答预测方法、系统及存储介质 | |
Wang et al. | RETRACTED ARTICLE: Human behaviour recognition and monitoring based on deep convolutional neural networks | |
CN114117159A (zh) | 一种多阶图像特征与问题交互的图像问答方法 | |
CN114492450A (zh) | 文本匹配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210611 |
|
RJ01 | Rejection of invention patent application after publication |