CN110287814A - 一种基于图像目标特征和多层注意力机制的视觉问答方法 - Google Patents
一种基于图像目标特征和多层注意力机制的视觉问答方法 Download PDFInfo
- Publication number
- CN110287814A CN110287814A CN201910482831.XA CN201910482831A CN110287814A CN 110287814 A CN110287814 A CN 110287814A CN 201910482831 A CN201910482831 A CN 201910482831A CN 110287814 A CN110287814 A CN 110287814A
- Authority
- CN
- China
- Prior art keywords
- image
- attention mechanism
- vector
- model
- multilayer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000000007 visual effect Effects 0.000 title claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 8
- 238000011156 evaluation Methods 0.000 abstract description 8
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000008901 benefit Effects 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 19
- 239000002356 single layer Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 241000234295 Musa Species 0.000 description 2
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像目标特征和多层注意力机制的视觉问答方法,包括图像特征处理、问题模型处理和多层注意力机制;所述图像特征处理是经过卷积神经网络进行特征提取;所述图像特征处理需要先进行初始化,将图像特征的维度转换成与问题向量相同大小;所述问题模型处理使用了LSTM网络来处理问题语句;所述注意力机制将图像特征表示和问题特征表示联系在一起。本发明中使用目标检测算法提取到目标区域图像特征来替代全局图像特征在视觉问答任务中是有效果的,它提高了模型在评价指标上的表现,同时,使用多层注意力机制也在一定程度上提高了模型在评价指标上的分数。
Description
技术领域
本发明涉及基于计算机的视觉问答技术领域,具体是一种基于图像目标特征和多层注 意力机制的视觉问答方法。
背景技术
视觉问答(Visual Question Answering,VQA)是关于视觉图像的自然语言问答,它 在出处论文中的定义被归结为如下:A VQA system takes as input an image and afree-form,open-ended,natural-language question about the image and produces anatural-language answer as the output。用中文表述,就是一个视觉问答系统,输入 是一张图片和一个关于这张图片的自由形式的、开放式的自然语言问题,输出是一条自然 语言答案。该定义很好地诠释了什么是视觉问答,通俗地讲,VQA就是按照图片进行相关 问答。
让机器读懂图片和问题语句,然后进行答案的输出对于人来说比较容易,但是对于没 有思想的机器来说就比较困难了,如何让机器具有人的“思想”,读懂图像和问题语句所 包含的信息,成为近年来视觉问答发明者的着重解决的问题,因为这需要多方面的人工智 能的技术,比如物体识别、目标检测、细粒度识别、行为识别和自然语言处理中的文本理解。随着国内外发明人员的不断探索,视觉问答技术可以分为以下几类:
1、非深度学习方法
(1)对于答案类型的预测方法。Kafle和Kanan在2016提出了一种视觉问答的贝叶斯模型,该方法的思想是把图像特征以及问题共同出现的统计数据建模成一种推断问题和图像之间的关系的方法。作者利用问题的特征和答案的类型,对图像特征的概率进行建模,同时作者还介绍了几种简单的基线方法,比如只将问题特征或者答案特征送到逻辑回归模型,或者将这两种特征同时送入逻辑回归等等,他们的工作在视觉问答数据集上进行了评估。
(2)多元世界问答模型(Multi-World QA)。该模型从问题语句中进行分析,得到语义分析树,然后从原始图像或者图像分割块中得到附加特征,最后使用确定性评价函数来评估概率函数,再使用简单的对数线性模型得到基于问题的隐藏变量的概率。针对模型存在分割和分类标签的不确定性,作者又将模型进一步拓展到多元的世界的场景。
2、基于深度学习的方法
基于深度学习的方法的视觉问答模型大多都是使用卷积神经网络(CNN)对图像进行 处理并获得图像特征,使用RNN以及一些变体(比如LSTM、GRU)来对问题语句进行处理从而获得问题特征,之后再以不同方式结合图像特征和问题特征,经过处理之后获得答案。由于注意力机制在机器翻译中的成功,也被众多发明者应该用到图像标注(Imagecaption) 和视觉问答中来,注意力机制可以将注意重点放在图像或者问题的重要部分,从而能够使 模型在提取特征时更注重这些部分,有利于实验准确性的提高。Shih等人提出了称为Where to look(WTL)的基于注意力机制的模型。作者使用VGG网络对图像进行编码,问题特征 由问题中词向量求平均得到,在图像特征上计算得到注意力向量决定图像中哪个位置的特 征更重要,最后将注意力向量加权到图像特征上连接到问题嵌入向量送入dense+softmax 层得到答案。
3、其他模型。
还存在一些其他的模型,比如Andreas等人提出的神经网块模型、Wu等人提出的AMA (Ask me anything)模型,都是使用了更多的思想,组合了更多的技术,而不仅仅是在图像特征或者问题特征的注意力值的问题上。
根据调研,得出的结论是只使用卷积神经网络提取图像特征,使用循环神经网络提取 问题语句的特征,之后将两者联合嵌入的方法在视觉问答实验效果并不理想,根据最近发 明表明,图像目标特征能够很好地替代整张图像所要表达的信息,并且能够达到更好的效 果,所以本发明提出使用图像目标特征作为图像信息表示;由于注意力机制能提高为视觉 问答模型的准确性,而单层注意力机制对模型的提升效果有限,本文使用多层注意力机制 改进单层注意力机制对模型效果提升能力不足的问题。
发明内容
本发明的目的在于提供一种基于图像目标特征和多层注意力机制的视觉问答方法,以 解决上述背景技术中提出的问题。
为实现上述目的,本发明首先使用Faster RCNN提取目标特征作为整个图像的特征表 示,其次,本发明使用多层注意力机制提高模型准确性,并且进行了端到端的训练;具体 技术方案如下:
一种基于图像目标特征和多层注意力机制的视觉问答方法,包括图像特征处理、问题 模型处理和多层注意力机制;所述图像特征处理是经过卷积神经网络(CNN)进行特征提 取,使用了残差网络作为基础特征提取网络,这里提取到的特征表示为K x 2048的矩阵, 每个向量大小是2048维,每张图像有K个向量表示,K表示图像中的不同的位置;所述图像特征处理需要先进行初始化,将图像特征的维度转换成与问题向量相同大小;所述问题模型处理使用了LSTM网络来处理问题语句;所述注意力机制将图像特征表示和问题特征表示联系在一起。
作为本发明的进一步方案:所述LSTM中起作用最大的是遗忘门、输入门和输出门;在每一个时间步骤中,LSTM会接受一个输入向量xt,这个输入向量就是词向量,然后会更新记忆单元ct的值,之后会输出一个隐层状态ht,在LSTM中信息的更新过程就是用门机 制控制,遗忘门ft控制了上一时刻的ct-1中的信息有多少将会保留下来;输入门it控制了 当前输入Xt中有多少信息被更新到记忆单元中去;输出门ot则控制了记忆单元中的多少 信息被送入隐层状态中,用于后续输出
作为本发明的再进一步方案:所述多层注意力机制,是一个迭代的结果,每一层注意 力机制都会提取更细粒度的视觉信息用于答案的生成。
与现有技术相比,本发明中使用目标检测算法提取到目标区域图像特征来替代全局图 像特征在视觉问答任务中是有效果的,它提高了模型在评价指标上的表现,同时,使用多 层注意力机制也在一定程度上提高了模型在评价指标上的分数;本发明方法可应用于帮助 盲人和视觉受损的用户理解视觉信息,也可在网络或者社交媒体上为用户提供所需图像信 息,最重要的应用是将视觉问答系统集成到图像检索系统中,为社交媒体和电子商务带来 巨大利润。
附图说明
图1为卷积神经网络提取特征图。
图2为问题语句处理模型图。
图3为单层注意力机制关注区域示意图。
图4为多层注意力机制关注区域示意图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
请参阅图1-4,一种基于图像目标特征和多层注意力机制的视觉问答方法,包括图像 特征处理、问题模型处理和多层注意力机制。
所述图像特征处理首先要经过卷积神经网络(CNN)进行特征提取,常用的图像特征 提取网络有VGG系列、Inception系列、ResNet系列等,为了能够获取到高质量的图像特征,本发明使用了残差网络作为基础特征提取网络,这里提取到的特征表示为Kx2048 的矩阵,每个向量大小是2048维,每张图像有K个向量表示,K表示图像中的不同的位置, 图1所示的即为卷积神经网络提取特征图。
使用ResNet网络进行图像的特征提取,然后利用Faster R-CNN框架进行图像目标位 置的选取,最后的结果在ResNet生成的特征上映射出top-K个目标的特征图;为了后续工作便利,本发明把K固定为36个,也就是说每张图像选取36个目标区域作为最后的图 像特征,每个目标是一个2048维的向量。
为了训练模型更加方便,也是为了能够更方便地和问题特征进行联合使用,本发明首 先对图像特征进行初始化,目的是把图像特征的维度转换成与问题向量相同大小。
vI=tanh(WIfI+bI) (1)
这里的vI是一个矩阵,它的每一列都是一个目标区域i的视觉特征向量,fI是每张图 片的图像特征表示,W和b是相关参数。
本发明为了能够更好地获取问题语句的特征,使问题语句特征在生成答案时发挥出更 好地作用,使用了LSTM网络来处理问题语句,LSTM能够记住长期的信息,主要解决了RNN 中存在的长期依赖的问题。
LSTM结构中记住长期信息的部分称为记忆单元,用ct表示,这也是整个结构中最关 键的一部分,因为它类似一条传送带,很少与网络中的其他部分进行线性交互,所以上面 的信息能够保持不变,从而使得信息的保存变得很容易。
LSTM中起作用最大的是遗忘门、输入门和输出门,正是这种特殊的门结构,决定了如 何选择信息和传递信息;在每一个时间步骤中,LSTM会接受一个输入向量xt,这个输入向 量就是词向量,然后会更新记忆单元ct的值,之后会输出一个隐层状态ht,在LSTM中信息的更新过程就是用门机制控制,遗忘门ft控制了上一时刻的ct-1中的信息有多少将会保留下来;输入门it控制了当前输入Xt中有多少信息被更新到记忆单元中去;输出门ot则 控制了记忆单元中的多少信息被送入隐层状态中,用于后续输出。
LSTM中信息更新过程如下公式所示:
ht=ottanh(ct) (6)
这里的i,f,o,c分别代表了输入门、遗忘门、输出门和记忆单元,权重矩阵W和 偏置参数b都是LSTM在训练中学习到的参数,更好的训练有利于参数的矫正,进而提高 模型准确性。
给定一个问题语句q=[q1,q2,......qT],这里的qT代表单词的独热码,本发明中利用一个 嵌入矩阵将单词嵌入到一个向量空间去,嵌入过程可以表示为xt=Weqt,然后在每一个时 间步骤,本发明可以将单词逐一送入LSTM结构中:
xt=Weqt,t∈{1,2,……T} (7)
ht=LSTM(xt),t∈{1,2,……T} (8)
如图2所示,问题语句what is the boy eating正在被送入LSTM,最后一个隐层向量作为这个问题的表示向量;通过LSTM,可以将问题表示成向量vQ,进而能够为后来的发明做准备。
所述注意力机制将图像特征表示和问题特征表示联系在一起,由上面的图像特征处 理、问题模型处理内容可以得到图像的特征表示矩阵称为vI,也可以得到问题的特征表示 向量称为vQ,本发明为了进一步缩小模型所关注的图像相关区域的范围,使用了多层注意 力机制,也就是在第一层注意力机制的基础上再使用一层注意力机制,很好地达到了确定 目标范围的目的。
在很多情况下,单层注意力机制并不能够很好地确定图像关注的区域,比如图3中, 男孩在吃香蕉,单层注意力机制会确定图中浅色模糊区域的范围,但这扩大了模型实际需 要的范围,如果图像中存在很多目标,那就有可能会带来错误的结果,所以为了提高模型 准确性,本发明使用了多层注意力机制,在单层注意力机制的基础上,再使用一层注意力 机制,就可以准确定位关注区域,如图4所示,这样模型逐渐消除噪声,最后定位的区域 与生成的答案具有高度相关性,模型准确性更高。
已知图像特征表示vI和问题语句特征表示vQ,首先可以利用一个单层神经网络,然后 利用一个softmax函数去生成第一个图像区域的注意力分布,也就是第一层注意力机制, 相关公式如下表示:
PI=softmax(WPhA+bP) (10)
上述公式中vI∈Rd×m,这里的d是图像特征表示的维度,而m指的是每张图像中的区域数量,vQ∈Rd是一个d维的向量;这里的WT,A,WQ,A∈Rk×d,WP∈R1×k;而PI∈Rm是一 个m维的向量,它对应的是给定图像特征表示vQ中每个区域的注意力概率;本发明通过符 号⊕来在矩阵上添加向量;由于WI,AvI∈Rk×m,而且WQ,AvQ和bA都是向量,矩阵和向量之 间的加和是需要对矩阵的每一列都进行操作。
得到了图像区域的注意力分布,需要计算每个区域的图像向量的加权和,用符号表 示,求和公式见公式11;然后需要将与问题向量vQ联合起来形成一个查询向量,这里用 u表示,过程见公式12,向量u可以看成是一个精炼的查询向量,因为它将视觉信息和问题信息编码,这个编码与潜在的答案有着密切的联系。
注意力机制的优势在于,与单纯的将问题向量与图像全局特征结合相比,使用注意力 机制时,与问题更相关的视觉区域被赋予了更高的权重,这样u就包含了更丰富的信息, 从而有利于模型生成更准确的答案。然而单层注意力机制可能不足以定位图像中正确的区 域,因此,本发明使用多层注意力机制,实际是一个迭代的结果,每一层注意力机制都会 提取更细粒度的视觉信息用于答案的生成,多层注意力机制的公式如下,这里的k表示第 k层注意力机制:
这里的u0在初始化时用的是vQ,然后将聚合后的图像特征向量加到之前的一个查询向 量中,形成了一个新的查询向量,也就完成了查询向量的更新,更新公式如下所示:
从上述公式中可以看到,在每一个注意力机制层,本发明使用联合问题和图像特征向 量uk-1作为查询向量去查询图像,在选择图像区域之后,再更新得到新的查询向量,是由 公式来更新的,理论上可以更新这个过程K次,然后用最后的向量uk来推断 最终的答案,推断公式如下:
Panswer=softmax(WuuK+bu) (17)
图3和图4中,可以看到,在第一层注意力机制之后,模型能够大致推断出需要选择的区域,但是还不精确,经过第二层注意力机制,模型更加清晰地聚焦到了与答案香蕉相对应的区域,从而获得正确答案
通过实验验证,本发明中使用目标检测算法提取到目标区域图像特征来替代全局图像 特征在视觉问答任务中是有效果的,它提高了模型在评价指标上的表现,同时,使用多层 注意力机制也在一定程度上提高了模型在评价指标上的分数,但是注意力机制超过三层, 并不能给模型带来较为明显的提升,还加大了参数数量,增加了计算负担,所以使用两层 注意力机制不仅可以提升模型效果,模型也能够正常训练,不会使计算机超负荷运行;综 上所述,本发明改进了视觉问答模型在评价指标的得分。
表1不同方法效果对比表
本发明方法可应用于帮助盲人和视觉受损的用户理解视觉信息,也可在网络或者社交 媒体上为用户提供所需图像信息,最重要的应用是将视觉问答系统集成到图像检索系统 中,为社交媒体和电子商务带来巨大利润。
上面对本专利的较佳实施方式作了详细说明,但是本专利并不限于上述实施方式,在 本领域的普通技术人员所具备的知识范围内,还可以在不脱离本专利宗旨的前提下作出各 种变化。
Claims (3)
1.一种基于图像目标特征和多层注意力机制的视觉问答方法,其特征在于,包括图像特征处理、问题模型处理和多层注意力机制;所述图像特征处理是经过卷积神经网络(CNN)进行特征提取,使用了残差网络作为基础特征提取网络,这里提取到的特征表示为Kx2048的矩阵,每个向量大小是2048维,每张图像有K个向量表示,K表示图像中的不同的位置;所述图像特征处理需要先进行初始化,将图像特征的维度转换成与问题向量相同大小;所述问题模型处理使用了LSTM网络来处理问题语句;所述注意力机制将图像特征表示和问题特征表示联系在一起。
2.根据权利要求1所述的一种基于图像目标特征和多层注意力机制的视觉问答方法,其特征在于,所述LSTM中起作用最大的是遗忘门、输入门和输出门;在每一个时间步骤中,LSTM会接受一个输入向量xt,这个输入向量就是词向量,然后会更新记忆单元ct的值,之后会输出一个隐层状态ht,在LSTM中信息的更新过程就是用门机制控制,遗忘门ft控制了上一时刻的ct-1中的信息有多少将会保留下来;输入门it控制了当前输入Xt中有多少信息被更新到记忆单元中去;输出门ot则控制了记忆单元中的多少信息被送入隐层状态中,用于后续输出。
3.根据权利要求1所述的一种基于图像目标特征和多层注意力机制的视觉问答方法,其特征在于,所述多层注意力机制,是一个迭代的结果,每一层注意力机制都会提取更细粒度的视觉信息用于答案的生成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910482831.XA CN110287814A (zh) | 2019-06-04 | 2019-06-04 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910482831.XA CN110287814A (zh) | 2019-06-04 | 2019-06-04 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110287814A true CN110287814A (zh) | 2019-09-27 |
Family
ID=68003311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910482831.XA Pending CN110287814A (zh) | 2019-06-04 | 2019-06-04 | 一种基于图像目标特征和多层注意力机制的视觉问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287814A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929013A (zh) * | 2019-12-04 | 2020-03-27 | 成都中科云集信息技术有限公司 | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
CN111259768A (zh) * | 2020-01-13 | 2020-06-09 | 清华大学 | 基于注意力机制的结合自然语言的图像目标定位方法 |
CN111598844A (zh) * | 2020-04-24 | 2020-08-28 | 理光软件研究所(北京)有限公司 | 一种图像分割方法、装置、电子设备和可读存储介质 |
CN112287159A (zh) * | 2020-12-18 | 2021-01-29 | 北京世纪好未来教育科技有限公司 | 检索方法、电子设备及计算机可读介质 |
CN112488111A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
CN112905762A (zh) * | 2021-02-05 | 2021-06-04 | 南京航空航天大学 | 一种基于同等注意力图网络的视觉问答方法 |
CN113032535A (zh) * | 2019-12-24 | 2021-06-25 | 中国移动通信集团浙江有限公司 | 辅助视障人士视觉问答方法、装置、计算设备及存储介质 |
CN113128229A (zh) * | 2021-04-14 | 2021-07-16 | 河海大学 | 一种中文实体关系联合抽取方法 |
CN113590770A (zh) * | 2020-04-30 | 2021-11-02 | 北京京东乾石科技有限公司 | 一种基于点云数据的应答方法、装置、设备及存储介质 |
CN115761273A (zh) * | 2023-01-10 | 2023-03-07 | 苏州浪潮智能科技有限公司 | 视觉常识推理方法和装置、存储介质及电子设备 |
WO2023246264A1 (zh) * | 2022-06-21 | 2023-12-28 | 腾讯科技(深圳)有限公司 | 基于注意力模块的信息识别方法和相关装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766447A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CN108228703A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像问答方法、装置、系统和存储介质 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN109543699A (zh) * | 2018-11-28 | 2019-03-29 | 北方工业大学 | 一种基于目标检测的图像摘要生成方法 |
CN109712108A (zh) * | 2018-11-05 | 2019-05-03 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
-
2019
- 2019-06-04 CN CN201910482831.XA patent/CN110287814A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766447A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN108228703A (zh) * | 2017-10-31 | 2018-06-29 | 北京市商汤科技开发有限公司 | 图像问答方法、装置、系统和存储介质 |
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN109712108A (zh) * | 2018-11-05 | 2019-05-03 | 杭州电子科技大学 | 一种基于多样鉴别性候选框生成网络的针对视觉定位方法 |
CN109543699A (zh) * | 2018-11-28 | 2019-03-29 | 北方工业大学 | 一种基于目标检测的图像摘要生成方法 |
Non-Patent Citations (2)
Title |
---|
KAN CHEN,ET AL: "《ABC-CNN: An Attention Based Convolutional Neural Network for Visual Question Answering》", 《ARXIV:1511.05960V2》 * |
张天: "《用于图像问答的深层注意力网络结构研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929013A (zh) * | 2019-12-04 | 2020-03-27 | 成都中科云集信息技术有限公司 | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
CN113032535A (zh) * | 2019-12-24 | 2021-06-25 | 中国移动通信集团浙江有限公司 | 辅助视障人士视觉问答方法、装置、计算设备及存储介质 |
CN111259768A (zh) * | 2020-01-13 | 2020-06-09 | 清华大学 | 基于注意力机制的结合自然语言的图像目标定位方法 |
CN111598844A (zh) * | 2020-04-24 | 2020-08-28 | 理光软件研究所(北京)有限公司 | 一种图像分割方法、装置、电子设备和可读存储介质 |
CN111598844B (zh) * | 2020-04-24 | 2024-05-07 | 理光软件研究所(北京)有限公司 | 一种图像分割方法、装置、电子设备和可读存储介质 |
CN113590770B (zh) * | 2020-04-30 | 2024-03-08 | 北京京东乾石科技有限公司 | 一种基于点云数据的应答方法、装置、设备及存储介质 |
CN113590770A (zh) * | 2020-04-30 | 2021-11-02 | 北京京东乾石科技有限公司 | 一种基于点云数据的应答方法、装置、设备及存储介质 |
CN112287159A (zh) * | 2020-12-18 | 2021-01-29 | 北京世纪好未来教育科技有限公司 | 检索方法、电子设备及计算机可读介质 |
CN112488111A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
CN112287159B (zh) * | 2020-12-18 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 检索方法、电子设备及计算机可读介质 |
CN112488111B (zh) * | 2020-12-18 | 2022-06-14 | 贵州大学 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
CN112905762A (zh) * | 2021-02-05 | 2021-06-04 | 南京航空航天大学 | 一种基于同等注意力图网络的视觉问答方法 |
CN113128229A (zh) * | 2021-04-14 | 2021-07-16 | 河海大学 | 一种中文实体关系联合抽取方法 |
CN113128229B (zh) * | 2021-04-14 | 2023-07-18 | 河海大学 | 一种中文实体关系联合抽取方法 |
WO2023246264A1 (zh) * | 2022-06-21 | 2023-12-28 | 腾讯科技(深圳)有限公司 | 基于注意力模块的信息识别方法和相关装置 |
CN115761273B (zh) * | 2023-01-10 | 2023-04-25 | 苏州浪潮智能科技有限公司 | 视觉常识推理方法和装置、存储介质及电子设备 |
CN115761273A (zh) * | 2023-01-10 | 2023-03-07 | 苏州浪潮智能科技有限公司 | 视觉常识推理方法和装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287814A (zh) | 一种基于图像目标特征和多层注意力机制的视觉问答方法 | |
CN110163299B (zh) | 一种基于自底向上注意力机制和记忆网络的视觉问答方法 | |
CN110188358B (zh) | 自然语言处理模型的训练方法及装置 | |
CN110647619B (zh) | 一种基于问题生成和卷积神经网络的常识问答方法 | |
CN111444343B (zh) | 基于知识表示的跨境民族文化文本分类方法 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及系统 | |
CN110377710A (zh) | 一种基于多模态融合的视觉问答融合增强方法 | |
CN109947912A (zh) | 一种基于段落内部推理和联合问题答案匹配的模型方法 | |
CN108536754A (zh) | 基于blstm和注意力机制的电子病历实体关系抽取方法 | |
CN108416065A (zh) | 基于层级神经网络的图像-句子描述生成系统及方法 | |
CN107967318A (zh) | 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统 | |
Sonkar et al. | qdkt: Question-centric deep knowledge tracing | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN107145484A (zh) | 一种基于隐多粒度局部特征的中文分词方法 | |
McClelland et al. | Extending machine language models toward human-level language understanding | |
CN111984772A (zh) | 一种基于深度学习的医疗影像问答方法及系统 | |
CN110379418A (zh) | 一种语音对抗样本生成方法 | |
CN112883714A (zh) | 基于依赖图卷积和迁移学习的absc任务句法约束方法 | |
CN113360621A (zh) | 一种基于模态推理图神经网络的场景文本视觉问答方法 | |
Narayanan et al. | Yoga pose detection using deep learning techniques | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
AlKhuraym et al. | Arabic sign language recognition using lightweight cnn-based architecture | |
CN115223021A (zh) | 一种基于视觉问答的果树全生长期农事作业决策方法 | |
CN114898219A (zh) | 一种基于svm的机械手触觉数据表示识别方法 | |
CN111598252A (zh) | 基于深度学习的大学计算机基础知识解题方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190927 |
|
WD01 | Invention patent application deemed withdrawn after publication |