CN113420833A - 一种基于问题语义映射的视觉问答方法及装置 - Google Patents
一种基于问题语义映射的视觉问答方法及装置 Download PDFInfo
- Publication number
- CN113420833A CN113420833A CN202110825773.3A CN202110825773A CN113420833A CN 113420833 A CN113420833 A CN 113420833A CN 202110825773 A CN202110825773 A CN 202110825773A CN 113420833 A CN113420833 A CN 113420833A
- Authority
- CN
- China
- Prior art keywords
- answer
- question
- features
- visual
- range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 41
- 230000000007 visual effect Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 230000000694 effects Effects 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000009849 deactivation Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 7
- 238000000605 extraction Methods 0.000 description 24
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000009795 derivation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于问题语义映射的视觉问答方法及装置,其中方法包括:提取训练集中图像的视觉特征和问题中的问题特征;对提取的视觉特征和问题特征进行特征融合;对训练集中的问题进行分类,统计训练集中不同问题类型的答案范围;提取答案范围中答案的答案特征;建立问题特征与答案特征之间的映射关系,获得答案范围概率分布;根据特征融合后的融合特征及答案范围概率分布进行推理,得到最终答案。本发明通过门控循环单元提取出问题特征,再利用嵌入学习提取出问题与答案的一致性语义,并将该语义映射到答案,通过问题导向的区域注意力机制和关系提取得到图像高层语义信息;将图像高层语义信息与答案范围映射结果融合,生成最后的答案。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于问题语义映射的视觉问答方法及装置。
背景技术
视觉问答是计算机视觉领域的热门研究方向,视觉问答是通过输入一张图像和一个与图像相关的问题,模型要对图像和问题进行理解,然后输出该问题的答案。因此,同一个问题在不同的图像上有不同的答案,同一张图片在不同的问题语境下也有不同的理解重点。这意味着视觉问答可以根据不同的问题语境以不同的方式理解图像的内容,并对涉及的主体间位置、大小关系等图像中无法直接得出的信息进行必要推理,得到最终的答案。目前基于深度学习的视觉问答模型大多包含三个模块:(1)视觉特征提取模块:用于提取图像特征,一般采用卷积神经网络,例如ResNet,VGG等。(2)问题特征提取模块:用于提取问题的语义特征,一般采用循环神经网络,例如长短期记忆网络、门控循环单元等。(3)特征融合模块:用于将不同模态的特征融合,一般采用注意力机制、双线性模型等,在特征融合之后再通过融合后的特征得到最后的答案。
在视觉问答任务中,两个输入都非常重要,图像中问题的相关信息和区域是必不可少的,目前也有问题导向的注意力机制等方法对图像中不同的区域或特征赋予不同的权重,提取出重要信息。另外,问题本身的信息也非常重要,问题的类型往往也指示着答案的范围,对答案的推导有着重要导向作用。
现有的方法多数都通过注意力机制等方式提取出图像中的相关特征,将两个不同模态的信息融合,然而目前的方法尚且存在一些不足。大多数方法都忽视了问题本身对答案的推导有着重要的作用,问题的类型和问法决定着答案的范围,现阶段的方法往往都忽视了问题与答案范围的映射关系。
发明内容
本发明所要解决的技术问题是提供了一种基于问题语义映射的视觉问答方法,用于提高答案的准确率和稳定性。
为解决上述技术问题,本发明采用的技术方案是:
一种基于问题语义映射的视觉问答方法,其特征在于,包括:
提取训练集中图像的视觉特征和问题中的问题特征;
对提取的视觉特征和问题特征进行特征融合;
对训练集中的问题进行分类,统计训练集中问题的答案范围;
提取答案范围中答案的答案特征;
建立问题特征与答案特征之间的映射关系,获得答案范围概率分布;
根据特征融合后的融合特征及答案范围概率分布进行推理,得到最终答案。
本发明的技术方案主要是通过门控循环单元提取出问题特征,再利用嵌入学习提取出问题与答案的一致性语义,并将该语义映射到答案,得到该问题类型的答案范围,辅助答案的推导;此外,利用基于ResNet的Faster R-CNN网络提取出图像中的区域特征,并通过问题导向的区域注意力机制和关系提取得到图像高层语义信息;最终将图像高层语义信息与答案范围映射结果融合,生成最后的答案。
与现有技术相比,本发明的有益效果是:
本发明基于问题语义映射的视觉问答方法及装置,构建了问题与答案范围的语义映射,首先,对于不同的问题按照问题的首两个单词进行了分类,并构建了问题类型与答案范围的映射关系,能够直接通过问题类型的识别获得该问题类型的答案范围;其次,答案范围映射模块中,采用了多种损失函数,将问题与答案映射到同一隐空间,进一步利用隐空间映射问题的答案范围,可通过问题表述预测该问题的答案范围,利用获得的答案范围辅助推导问题的答案;最后,将预测的答案范围与特征融合模块的答案预测结果融合,利用答案范围的预测结果指导最终答案的推导。该方法在视觉特征信息提取的基础上,将问题对应的答案范围纳入答案推导的过程,以答案范围的预测结果来调整结果的概率分布,减小答案范围外的错误结果的概率,进而提高答案预测的稳定性和准确率。
附图说明
图1为本发明基于问题语义映射的视觉问答方法的流程图;
图2为本发明基于问题语义映射的视觉问答模型的示意图;
图3为本发明实施例中视觉问题的图像。
具体实施方式
下面将结合附图对本公开技术方案进行详细说明。在本发明的描述中,需要理解地是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,仅用来区分不同的组成部分。
图1为本发明基于问题语义映射的视觉问答方法的流程图,本发明方法具体包括:
S1.对训练集中的图像进行特征提取。通过预训练的基于Faster R-CNN的ResNet网络提取出图像区域特征,对训练集中的每个图像得到多个不同的区域特征向量V。
具体地,ResNet采用预训练的ResNet-101网络,基于Faster R-CNN框架提取出图像的RoI特征图(36个),并通过平均池化将其转换为固定2048维的特征向量。
S2.对训练集中的问题进行分类,并统计答案范围。按照问题的前两个单词进行分类,统计所有问题的答案分布,将所有可能的答案归纳为该类的答案范围。
具体地,将所有问题按照前两个单词分类,前两个单词相同即为同一个问题类别,将该问题的正确答案加入到该问题类别的答案范围中,即在该问题类别上将正确答案的位置设为1,非答案范围内的设为0。
S3.将训练集数据输入视觉问答模型得到结果。包括:从训练集中选择n个图像和问题答案对,获得图像在S1步骤中提取出的区域特征;将问题输入问题特征提取模块获得问题的语义嵌入;将答案进行词嵌入,获得答案的语义嵌入;将语义嵌入和答案嵌入分别输入答案范围映射模块,获得答案范围概率分布,比较与S2步骤中统计出的答案范围计算损失函数,并通过两个不同输入在模块中间的输出计算距离损失函数,更新该模块网络的参数;将问题语义嵌入和图像特征输入区域注意力模块,对图像区域特征进行加权,并获得问题相关区域;将加权后的区域特征输入关系提取模块,在问题语境下以不同的尺度获得主体间的关系信息,并将各个关系信息融合;将关系信息、语义嵌入信息和答案范围概率分布结果相乘,获得最终答案的概率分布。
具体地,如图2所示,本发明方法所采用的神经网络模型分为5个模块:视觉特征提取模块,问题特征提取模块,特征融合模块,答案范围映射模块,答案推理模块,具体如下:
第一,视觉特征提取模块,采用基于Faster R-CNN框架的ResNet网络,用于提取出图片中的关键区域的视觉特征V,作为后续的特征融合模块的输入。
第二,问题特征提取模块,将问题Q的单词嵌入后,采用门控循环单元(GRU)提取出整个问题的语义嵌入q,作为区域注意力模块和问题语义映射模块的输入。
具体地,首先利用GloVe(Global Vectors for Word Representation)词嵌入将每个单词转换为300维的词向量,将问题通过循环门控单元得到2048维的问题语义嵌入。
第三,特征融合模块,分为区域注意力与关系提取两部分,区域注意力通过图像区域特征和问题特征,对提取出的图像区域特征加权,并决策出问题高相关性区域,作为关系提取模块的输入。关系提取分为局部多尺度关系提取和全局关系提取,局部多尺度关系提取针对问题高相关性区域多尺度提取出不同区域组合的关系信息,全局关系提取针对加权后的所有关键区域提取关系信息,最后将局部和全局信息融合。
具体地,区域注意力机制分为软注意力和硬注意力,软注意力的输入为区域特征V和问题特征q,输出为对每个区域特征向量赋予一个权重,其过程如下:
vl=ReLU(WN(FC6(V)))
ql=ReLU(WN(FC7(q)))
j=vl*ql
as=WN(FC8(j))
其中,as是软注意力的结果,每个区域都有一个权重,该权重会直接乘在对应的区域特征向量上,获得加权后的区域特征向量在此之后,硬注意力机制会根据软注意力的权重大小排序,选取出其中的权重最高的10个区域作为高相关度区域。
接着,会在问题语境下对这些区域进行关系提取,关系提取分两部分,一是局部关系提取,二是全局关系提取。
全局关系提取过程如下:
多尺度局部关系提取在高相关度区域以不同的区域数量尺度随机选取区域的组合获得其中的关系信息,其过程如下:
ri1=ReLU(FCi(o1,o2,…,oi,q))
Ri=ri1+ri2+…+rim
其中,s是尺度个数,m是每个尺度随机区域组合的个数,FCi是尺度为i的关系提取对应的全连接网络,(o1,o2,…,oi)为在高相关度区域中随机选取的i个区域特征向量,ri1,ri2,…,rim是m个不同的区域组合进行尺度为i的关系提取。是s个不同尺度关系提取的结果,Rlocal为局部多尺度关系提取的结果。
第四,答案范围映射模块,用于将问题语义嵌入q嵌入到答案范围语义隐空间,得到问题类型(答案范围)隐含特征向量u,再通过解码器得到问题对应的答案范围,指导最后答案的推导。该模块将答案的单词嵌入后,得到问题相应答案范围的语义嵌入。然后将答案与问题的语义嵌入通过共同的嵌入网络嵌入到一致性语义隐空间,得到答案范围的隐空间嵌入,再将该嵌入映射出答案的范围。
具体地,答案范围语义提取部分所述的语义特征u由如下方式获得:
ul=ReLU(WN(FC1(q)))
u=ReLU(WN(FC2(ul)))
ul是网络的中间输出,FC为全连接层,WN为权重归一化,ReLU()为激活函数。u的维度与真实答案的语义嵌入a相同。获得u之后,将u和a输入答案空间映射部分,获得Cu和Ca。
Cu和Ca通过相同参数的同一个网络由以下方式获得:
Cu=ReLU(WN(FC3(u)))
Ca=ReLU(WN(FC3(a)))
u和a通过同一个网络获得各自的答案空间映射Cu和Ca,并比较两者之间的距离差异,通过损失函数减小两者之间的距离,取得两者之间的共同特征,即对答案范围、答案类型的映射语义。
两者距离差异通过以下损失函数Lc来衡量:
yi表示Cu在位置i上上的值,xi表示Ca在位置i上上的值,n表示Cu和Ca的维度。在此之后,将两者分别通过答案推理部分,获得答案范围分布。
概率分布pu和pa由如下方式获得:
Logitul=DropOut(ReLU(WN(FC4(Cu))))
Logitu=WN(FC5(Logitul))
pu=Sigmoid(Logitu)
Logital=DropOut(ReLU(WN(FC4(Ca))))
Logita=WN(FC5(Logital))
pa=Sigmoid(Logita)
DropOut是随机失活函数,Logitul和Logital是网络中间输出,Logitu和Logita是网络的输出值,pu、pa是每个答案属于答案范围的概率。
第五,答案推理模块,将融合后的关系信息和问题特征融合后,输出答案概率结果pf,将该概率结果与问题语义映射模块的答案范围组合,输出最终答案概率分布结果P。
其中,pf由以下方式获得,
Rall=Rglobal+Rlocal
Fu=Rall*ReLU(WN(FC10(q)))
pf=Softmax(WN(FC12(ReLU(WN(FC11(Fu)))))
pa用于与S2步骤中统计的答案范围的多标签损失函数,pu用于与特征融合后预测的答案概率相乘,得到答案最终的概率分布P。概率P由以下方式获得:
P=pf*pu
S4.获得答案的概率P分布后,根据模型输出结果与正确答案的结果对模型参数进行更新。与标注的正确答案比较,将标注的答案与模型输出答案比较,得到模型输出答案在正确答案中出现的次数,将次数除以3,为最终得分,得分最高为1。
S5.通过验证集对模型效果进行验证,将验证集数据输入模型得到结果,并将结果与标注的答案进行比较,验证模型的效果。与训练时的区别在于,验证时无法预先知道答案,因此答案范围映射模块仅输入问题语义嵌入。
S6.重复步骤S3、S4、S5直至得到在验证集上效果最好的视觉问答模型。
S7.将测试集中的图像问题对输入模型,获得模型关于该图像问题的答案的概率分布,选取最大概率位置对应的答案作为最终的答案。与训练时的区别在于,测试时无法预先知道答案,因此答案范围映射模块仅输入问题语义嵌入。
具体的预测结果的形式如下:
以图3为例,输入的问题:What are the bears standing on?
输出答案为:Snow。
Claims (8)
1.一种基于问题语义映射的视觉问答方法,其特征在于,包括:
提取训练集中图像的视觉特征和问题中的问题特征;
对提取的视觉特征和问题特征进行特征融合;
对训练集中的问题进行分类,统计训练集中不同问题类型的答案范围;
提取答案范围中答案的答案特征;
建立问题特征与答案特征之间的映射关系,获得答案范围概率分布;
根据特征融合后的融合特征及答案范围概率分布进行推理,得到最终答案。
2.根据权利要求1所述的视觉问答方法,其特征在于,
提取训练集中图像的视觉特征为图像区域特征;问题中的问题特征为问题的语义嵌入;提取的答案特征为答案的语义嵌入。
3.根据权利要求2所述的视觉问答方法,其特征在于,对提取的视觉特征和问题特征进行特征融合的方法,包括:
通过图像区域特征和问题特征,对提取出的图像区域特征加权,决策出问题高相关性区域;
针对问题高相关性区域多尺度提取出不同区域组合的局部关系信息;
针对加权后的所有区域提取全局关系信息,最后将局部关系信息和全局信息关系信息融合。
4.根据权利要求2所述的视觉问答方法,其特征在于,建立问题特征与答案特征之间的映射关系,获得答案范围概率分布的方法包括:
将问题的语义嵌入q嵌入到答案范围语义隐空间,得到答案范围隐含特征向量u,通过解码获得答案单词的词嵌入a;
将答案单词的词嵌入a与问题的语义嵌入q通过共同的嵌入网络嵌入到一致性语义隐空间,得到答案范围的隐空间嵌入,再将该嵌入映射出答案的范围。
5.根据权利要求4所述的视觉问答方法,其特征在于,所述的答案范围隐含特征向量u由如下方式获得:
ul=ReLU(WN(FC1(q)))
u=ReLU(WN(FC2(ul)))
式中,ul是网络的中间输出;FC为全连接层,下标1和2用以区分不同的网络,不同的数字表明是相同结构但不同数值的网络,相同的数字表明是同一个网络;WN()为权重归一化,ReLU()为激活函数;
获得特征向量u之后,根据特征向量u和答案单词的词嵌入a获得Cu和Ca:
Cu=ReLU(WN(FC3(u)))
Ca=ReLU(WN(FC3(a)))
式中,Cu和Ca分别为特征向量u和答案单词的词嵌入a通过同一个网络获得的答案空间映射;
比较答案空间映射Cu和Ca之间的距离差异,通过损失函数减小两者之间的距离,取得两者之间的共同特征作为答案范围、答案类型的映射语义;
根据答案空间映射Cu和Ca,获得答案范围分布:
Logitul=DropOut(ReLU(WN(FC4(Cu))))
Logitu=WN(FC5(Logitul))
pu=Sigmoid(Logitu)
Logital=DropOut(ReLU(WN(FC4(Ca))))
Logita=WN(FC5(Logital))
pa=Sigmoid(Logita)
式中,pu、pa是每个答案属于答案范围的概率,DropOut()是随机失活函数,Logitul和Logital是网络中间输出,Logitu和Logita是网络的输出值。
7.根据权利要求4所述的视觉问答方法,其特征在于,根据特征融合后的融合特征及答案范围概率分布进行推理得到最终答案的方法,包括:
将融合后的关系信息和问题特征融合后,输出答案概率结果pf,将该概率结果与问题语义映射模块的答案范围组合,输出最终答案概率分布结果P:
P=pf*pu
获得答案的概率P分布后,根据模型输出结果与正确答案的结果对模型的超参数进行调整;
通过验证集对模型效果进行验证,将验证集数据输入模型得到结果,并将结果与标注的答案进行比较,验证模型的效果,直至得到在验证集上效果最好的视觉问答模型;
将测试集中的图像问题对输入模型,获得模型关于该图像问题的答案的概率分布,选取最大概率位置对应的答案作为最终的答案。
8.一种基于问题语义映射的视觉问答装置,其特征在于:包括处理器和存储器;所述存储器中存储有程序或指令,所述程序或指令由所述处理器加载并执行以实现如权利要求1至7任一所述视觉问答方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110825773.3A CN113420833B (zh) | 2021-07-21 | 2021-07-21 | 一种基于问题语义映射的视觉问答方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110825773.3A CN113420833B (zh) | 2021-07-21 | 2021-07-21 | 一种基于问题语义映射的视觉问答方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420833A true CN113420833A (zh) | 2021-09-21 |
CN113420833B CN113420833B (zh) | 2023-12-26 |
Family
ID=77717998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110825773.3A Active CN113420833B (zh) | 2021-07-21 | 2021-07-21 | 一种基于问题语义映射的视觉问答方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420833B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114417044A (zh) * | 2022-01-19 | 2022-04-29 | 中国科学院空天信息创新研究院 | 图像问答的方法及装置 |
CN117592567A (zh) * | 2023-11-21 | 2024-02-23 | 广州方舟信息科技有限公司 | 药品问答模型训练方法、装置、电子设备和存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110093361A1 (en) * | 2009-10-20 | 2011-04-21 | Lisa Morales | Method and System for Online Shopping and Searching For Groups Of Items |
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
CN110134774A (zh) * | 2019-04-29 | 2019-08-16 | 华中科技大学 | 一种基于注意力决策的图像视觉问答模型、方法和系统 |
US20190266234A1 (en) * | 2018-02-27 | 2019-08-29 | American Institutes For Research | Neural network learning engine |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110598573A (zh) * | 2019-08-21 | 2019-12-20 | 中山大学 | 一种基于多域异质图引导的视觉问题常识推理模型及方法 |
CN111897939A (zh) * | 2020-08-12 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 视觉对话方法、视觉对话模型的训练方法、装置及设备 |
CN111949824A (zh) * | 2020-07-08 | 2020-11-17 | 合肥工业大学 | 基于语义对齐的视觉问答方法和系统、存储介质 |
CN112100346A (zh) * | 2020-08-28 | 2020-12-18 | 西北工业大学 | 基于细粒度图像特征和外部知识相融合的视觉问答方法 |
KR102245774B1 (ko) * | 2019-11-06 | 2021-04-27 | 연세대학교 산학협력단 | 공정성 분류 네트워크를 이용한 시각 질의 응답 방법 및 장치 |
CN113010656A (zh) * | 2021-03-18 | 2021-06-22 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113094484A (zh) * | 2021-04-07 | 2021-07-09 | 西北工业大学 | 基于异质图神经网络的文本视觉问答实现方法 |
-
2021
- 2021-07-21 CN CN202110825773.3A patent/CN113420833B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110093361A1 (en) * | 2009-10-20 | 2011-04-21 | Lisa Morales | Method and System for Online Shopping and Searching For Groups Of Items |
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
CN108170816A (zh) * | 2017-12-31 | 2018-06-15 | 厦门大学 | 一种基于深度神经网络的智能视觉问答模型 |
CN108415977A (zh) * | 2018-02-09 | 2018-08-17 | 华南理工大学 | 一个基于深度神经网络及强化学习的生成式机器阅读理解方法 |
US20190266234A1 (en) * | 2018-02-27 | 2019-08-29 | American Institutes For Research | Neural network learning engine |
CN110134774A (zh) * | 2019-04-29 | 2019-08-16 | 华中科技大学 | 一种基于注意力决策的图像视觉问答模型、方法和系统 |
CN110377710A (zh) * | 2019-06-17 | 2019-10-25 | 杭州电子科技大学 | 一种基于多模态融合的视觉问答融合增强方法 |
CN110598573A (zh) * | 2019-08-21 | 2019-12-20 | 中山大学 | 一种基于多域异质图引导的视觉问题常识推理模型及方法 |
KR102245774B1 (ko) * | 2019-11-06 | 2021-04-27 | 연세대학교 산학협력단 | 공정성 분류 네트워크를 이용한 시각 질의 응답 방법 및 장치 |
CN111949824A (zh) * | 2020-07-08 | 2020-11-17 | 合肥工业大学 | 基于语义对齐的视觉问答方法和系统、存储介质 |
CN111897939A (zh) * | 2020-08-12 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 视觉对话方法、视觉对话模型的训练方法、装置及设备 |
CN112100346A (zh) * | 2020-08-28 | 2020-12-18 | 西北工业大学 | 基于细粒度图像特征和外部知识相融合的视觉问答方法 |
CN113010656A (zh) * | 2021-03-18 | 2021-06-22 | 广东工业大学 | 一种基于多模态融合和结构性控制的视觉问答方法 |
CN113094484A (zh) * | 2021-04-07 | 2021-07-09 | 西北工业大学 | 基于异质图神经网络的文本视觉问答实现方法 |
Non-Patent Citations (1)
Title |
---|
闫茹玉;刘学亮;: "结合自底向上注意力机制和记忆网络的视觉问答模型", 中国图象图形学报, no. 05 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114417044A (zh) * | 2022-01-19 | 2022-04-29 | 中国科学院空天信息创新研究院 | 图像问答的方法及装置 |
CN117592567A (zh) * | 2023-11-21 | 2024-02-23 | 广州方舟信息科技有限公司 | 药品问答模型训练方法、装置、电子设备和存储介质 |
CN117592567B (zh) * | 2023-11-21 | 2024-05-28 | 广州方舟信息科技有限公司 | 药品问答模型训练方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113420833B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259930B (zh) | 自适应注意力指导机制的一般性目标检测方法 | |
WO2021134871A1 (zh) | 基于局部二值模式和深度学习的合成人脸图像取证方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN111260740B (zh) | 一种基于生成对抗网络的文本到图像生成方法 | |
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
CN107506761B (zh) | 基于显著性学习卷积神经网络的脑部图像分割方法及系统 | |
CN105975573B (zh) | 一种基于knn的文本分类方法 | |
CN111881262B (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN111476294A (zh) | 一种基于生成对抗网络的零样本图像识别方法及系统 | |
CN106650789A (zh) | 一种基于深度lstm网络的图像描述生成方法 | |
CN114758288B (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN111598183B (zh) | 一种多特征融合图像描述方法 | |
CN110287873A (zh) | 基于深度神经网络的非合作目标位姿测量方法、系统及终端设备 | |
CN111126482A (zh) | 一种基于多分类器级联模型的遥感影像自动分类方法 | |
CN111340034B (zh) | 一种针对自然场景的文本检测与识别方法及系统 | |
CN113642621A (zh) | 基于生成对抗网络的零样本图像分类方法 | |
CN113420833B (zh) | 一种基于问题语义映射的视觉问答方法及装置 | |
CN113886626B (zh) | 基于多重注意力机制的动态记忆网络模型的视觉问答方法 | |
CN108345833A (zh) | 数学公式的识别方法及系统和计算机设备 | |
CN107341440A (zh) | 基于多任务度量多核学习的室内rgb‑d场景图像识别方法 | |
CN107491729A (zh) | 基于余弦相似度激活的卷积神经网络的手写数字识别方法 | |
CN116226785A (zh) | 目标对象识别方法、多模态识别模型的训练方法和装置 | |
CN115270752A (zh) | 一种基于多层次对比学习的模板句评估方法 | |
CN104978569A (zh) | 一种基于稀疏表示的增量人脸识别方法 | |
CN116303929A (zh) | 机器阅读理解方法及其装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |