CN110472642A - 基于多级注意力的细粒度图像描述方法及系统 - Google Patents
基于多级注意力的细粒度图像描述方法及系统 Download PDFInfo
- Publication number
- CN110472642A CN110472642A CN201910764055.2A CN201910764055A CN110472642A CN 110472642 A CN110472642 A CN 110472642A CN 201910764055 A CN201910764055 A CN 201910764055A CN 110472642 A CN110472642 A CN 110472642A
- Authority
- CN
- China
- Prior art keywords
- image
- attention
- fine
- description
- grained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000004927 fusion Effects 0.000 claims abstract description 33
- 230000000007 visual effect Effects 0.000 claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000009826 distribution Methods 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 8
- 238000002156 mixing Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 29
- 239000010410 layer Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004873 anchoring Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种基于多级注意力的细粒度图像描述方法及系统。其中,基于多级注意力的细粒度图像描述方法包括:利用视觉注意力机制融合图像的全局特征和局部细粒度特征,得到图像的第一融合特征;将融合特征输入至多标签分类网络中,生成所有标签的分布,得到图像标签的视觉注意信息和语义注意信息;利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合,生成图像特定区域的文本描述;将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型,输出细粒度的图像描述。
Description
技术领域
本公开属于图像处理领域,尤其涉及一种基于多级注意力的细粒度图像描述方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
深度学习近年来在图像和自然语言处理任务上的表现,使图像描述生成领域的研究越来越深入。编码器-解码器框架对文本描述进行端到端的训练,往往具有很好的效果。
发明人发现,编码器-解码器框架对文本描述能产生通顺的描述语句,但往往描述不够具体,内容宽泛。生成的描述虽然能基本概括图像展现的情景内容,但却忽略了对象特征和对象之间的关系;以往提取图像特征时,关注点比较单一,提取的图像特征利用不充分,进而使得图像描述不完整。
发明内容
为了解决上述问题,本公开提供一种基于多级注意力的细粒度图像描述方法及系统,其考虑了对象特征和对象之间的关系,能够得到图像的完整描述。
为了实现上述目的,本公开采用如下技术方案:
本公开的第一个方面提供一种基于多级注意力的细粒度图像描述方法,其包括:
利用视觉注意力机制融合图像的全局特征和局部细粒度特征,得到图像的第一融合特征;
将融合特征输入至多标签分类网络中,生成所有标签的分布,得到图像标签的视觉注意信息和语义注意信息;
利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合,生成图像特定区域的文本描述;
将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型,输出细粒度的图像描述。
本公开的第二个方面提供一种基于多级注意力的细粒度图像描述系统。
一种基于多级注意力的细粒度图像描述系统,包括:
特征融合模块,其用于利用视觉注意力机制融合图像的全局特征和局部细粒度特征,得到图像的第一融合特征;
标签信息生成模块,其用于将融合特征输入至多标签分类网络中,生成所有标签的分布,得到图像标签的视觉注意信息和语义注意信息;
文本描述生成模块,其用于利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合,生成图像特定区域的文本描述;
细粒度图像描述生成模块,其用于将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型,输出细粒度的图像描述。
本公开的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述的基于多级注意力的细粒度图像描述方法中的步骤。
本公开的第四个方面提供一种计算机终端,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述的基于多级注意力的细粒度图像描述方法中的步骤。
本公开的有益效果是:
本公开采用了三级注意力机制,考虑了特征对象与对象之间的关系,对图像的细粒度进行描述,实现了图像标签的预测和细粒度的文本描述,得到了包含各种不同形式的信息包括细粒度信息和标标签的完整图像描述。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是本公开实施例的一种基于多级注意力的细粒度图像描述方法流程图。
图2是本公开实施例的一种基于多级注意力的细粒度图像描述系统结构示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例1
如图1所示,本实施例提供了一种基于多级注意力的细粒度图像描述方法,其包括:
S101:利用视觉注意力机制融合图像的全局特征和局部细粒度特征,得到图像的第一融合特征。
图像特征的融合对于图像表示非常重要。全局特性通常包含对象周围的上下文信息;局部图像包含对象的细粒度信息。得益于深度残差网络Inception-resnet在图像分类和深度网络RetinaNet在图像目标识别的强大能力,本实施例利用深度残差网络Inception-resnet提取图像的全局图像特征,使用残差结构的RetinaNet网络提取图像的局部特征。通过视觉注意力将两者进行融合,生成丰富的图像特征表示。
对于图像的全局特征Hi,c(x),本实施例采用Inception-resnet的网络模型。Inception-resnet网络是由多个卷积模组堆叠成的深度模型。本实施例提取最后一个池化层的1792*1*1维的特征向量,经过一个特征变换转换为1024×1×1维的特征向量:Hi,c(x)={x1,x2,...,xL},xi∈RD。其中L表示特征向量的个数,D表示特征向量的维数。此输出将与RetinaNet网络的输出在视觉注意力模块进行特征融合。
对于局部图像特征Ibox,采用RetinaNet网络提取候选区域的局部图像特征。RetinaNet是残差网络ResNet和金字塔网络FPN的结合。在提高准确率的同时能更好地检测小目标,能成更高质量的特征图。本实施例选取池化层前一层1024*1*1维的局部图像特征为嵌入向量:Ibox={Ibox1,Ibox2,...,Iboxn}。其中boxn表示局部图像特征向量的个数。
本实施例采用视觉注意力机制来融合这两种特征:
其中表示第i个局部图像特征在时间t的注意力权重,表示全局图像特征在时间t的注意力权重;且
这种注意力机制通过给每个特征分配一个权重动态地进行加权。通过这种方式,本实施例在不同的时间选择性地集中在不同的对象上,并能同时考虑它们的上下文信息。注意权重测量每个局部图像特征在时间t时的重要程度以及每个特征与先前信息的相关性。
基于先前的信息和每个特征Vi∈{Hi,c(x),Ibox1,Ibox2,...,Iboxn}采用下面的公式来计算权重:
其中,表示特征Vi与先前生成的单词的关联评分。权重是通过用SoftMax回归对进行归一化得到的。是隐藏状态输出。Wt、Wh、b、W0是由模型学习,且在所有时间步骤中由所有特征共享的参数。Tanh是激活函数;n表示特征个数。
S102:将融合特征输入至多标签分类网络中,生成所有标签的分布,得到图像标签的视觉注意信息和语义注意信息。
本实施例将标签预测任务看作是一个多标签分类任务。具体来说,将上一个任务提取的融合特征输入到多标签分类网络MLC,生成所有标记L的分布:
其中l表示标签向量,li=0/1分别表示第i个标签缺失或存在。MLCi表示MLC网络的第i个输出,N为标签个数。
其中,多标签分类网络是一个训练好的通用的一个神经网络模型,其结构为现有结构。多标签是指一个样本同时属于多个类,也就是有多个标签。
最后,选取M个可能性最大的标记转换为字嵌入向量被用为下一步的语义向量,即得到图像标签的视觉注意信息和语义注意信息。
S103:利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合,生成图像特定区域的文本描述。
视觉注意力本身就能很好地定位和辅助字幕生成。然而,视觉注意力没有提供足够的高级语义信息。相反,标签总是可以提供所需的高级别信息。为此,本实施例提出了一种可以同时关注视觉和语义模式的联合注意机制。
在时间步s,联合上下文特征向量zt由联合注意力网络生成。其中是联合注意力网络在时间步s-1的隐藏状态。联合注意网络Natt使用单层前馈网络计算输入图像特征和标签的视觉注意信息和语义注意信息:
其中Wvatt,Wv,Wv,h是视觉注意网络参数。Waatt,Wa,Wa,h是语义注意网络参数。
视觉和语义上下文向量计算如下:
本实施例将这两个向量串接在一起然后转换为联合上下文向量:
S104:将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型,输出细粒度的图像描述。
将上下文特征向量通过特征转换,作为语言生成模型即基于注意力的长短期记忆网络的512*1维的部分输入,经实验证明,分层连入图像视觉特征的基于注意力Attention结构的LSTM网络可以高效地将语言和图像特征相融合:
ct=ft×ct-1+it×gt (10)
ht=ot×tanh(ct) (11)
其中Ps,t表示一个矩阵的变换,it,ft,ot,gt,ht分别表示LSTM的输入、遗忘、记忆、输出和隐藏状态。向量Jt∈RD是联合向量,捕获与特定输入对象相关的视觉信息,E是嵌入矩阵,σ和×表示激活函数和矩阵的点乘。
基于注意力的LSTM语言模型的输入包含三部分:St,Jt, 表示上一时刻第n层LSTM的输出状态,t表示当前时刻,t-1表示前一时刻,St表示语言生成模型生成的单词,初始值是人为给定的;一般情况下是一个句子的第一个词;向量Jt∈RD是联合向量,将以上三者联合输入到注意力LSTM语言模型结构中。其中,整个模型的是个训练过程,初始的是人为给定的。
简单来说,联合向量Jt捕获与特定输入图像相关对象相关的动态信息。使用φ从上下文向量zt计算联合向量Jt。zt对应于图像不同对象提取的特征。对于每一个对象,该模型生成一个权重αt。权重αt可以理解为目标对象生成的下一个单词的概率,或者是对于混合的上下文向量zt中对象的相对重要性。那么,一个上下文向量的权重用基于先前隐藏状态ht-1的下式进行计算。我们发现隐藏状态随着ALSTM在其输出序列中的进展而发生变化:
初始权重完全由上下文向量zt决定。参数Wva、Wha为待学习的参数。上式得到每一个联合向量Jt的注意力权重αt。那么联合向量Jt为:
LSTM的初始隐藏状态是通过输入的上下文向量的平均值来预测的:
在最终层LSTM模型后连接Softmax层,选取每一时刻的输出中概率最大的词连接成描述句子,作为模型的最终输出结果。给定LSTM的隐藏状态,联合向量和上一个的输出单词,输出词的概率计算如下:
其中W0,Wh,Wj,E是随机初始化的学习参数;表示语言生成模型生成的上一个的输出单词。
利用动量为0.9的随机梯度下降对整个训练集的目标函数进行了优化。学习率最初设置为0.01,然后逐步降低。对于句子生成,有两种策略可以对给定图像的句子进行采样。第一种方法本质上是一种贪婪的方法,用最大概率从每个时间步骤的概率分布中抽取下一个单词,直到取样结束符号字为止。另一种方法是波束搜索法,它在每一步选择最优的句子,然后在前面的top-k语句的基础上生成新的最佳top-k句子。本实施例分别用这两种语句生成方法对本公开的方法进行了评价。特别是,当k的值设置为3时,可以获得最佳运行结果。
每一次的训练样本都是一组(I,l,S)。其中,I表示图像,l表示真实标签,S表示句子描述的个数。给定训练样本(I,l,S),模型生成预测标签的分布pl,pred。通过归一化,得到真实的标签分布pl=l/||l||。这一标签训练步骤在pl,pred和pl之间存在交叉熵损失Ll。单词生成训练存在交叉熵损失Lw。所以,整体的句子描述生成训练损失L为:
L=γlLl+∑Lw (17)
其中,γl为交叉熵损失的常系数。
全局图像特征、局部图像特征和图像特征与标签特征融合的对比试验:
图像的全局特征和局部细粒度特征对图像描述生成都具有重要作用。这一过程主要包括以下几个部分:
只使用Inception-resnet网络提取的全局图像特征Hi,c(x);
只使用RetinaNet网络提取的局部细粒度图像特征Ibox={Ibox1,Ibox2,...,Iboxn};
使用图像全局与局部的融合特征Vt;
使用图像融合特征与标签特征。
从表1中,发现基于融合图像特征的评分效果比仅仅基于全局或者局部图像特征的效果好。通常注重图像中重要的对象,但是细小对象也许是不能忽视的。发现融合图像特征和标签特征的方法可以获得最佳性能。
表1全局特征、局部特征以及与标签融合的比较试验结果。
与目前先进的图像描述方法的比较在数据集MSCOCO中,本实施例的模型主要与以下先进模型结果性能做了对比,如表2。从表中可以看出,基于多级注意力的细粒度图像描述方法有着较好的性能,得分为72.3,56.9,43.2,32.4,26.1,;与Google NIC相比,本实施例的模型得分提高了5.7,11.8,12.9,5.8。在每一项指标上的得分都达到了最高。性能提升较高的原因是由于本文模型使用了深度残差网络在提取图像底层和高层的语义信息的优越性。该方法灵活地结合图像的融合特征和标签特征。
表2不同模型在MSCOCO数据集上的性能指标对比
在数据集Flickr30K中,本实施例模型主要与以下模型进行了对比,如表3。从中可以看出,本实施例所提模型的得分分别为71.6,56.6,43.3,32.3,25.8;与Google NIC相比,实施例的模型得分提高了5.3,14.3,14.8,12.0。与其他模型相比有较大的提升,在每一项指标上的得分都达到了最高。
表3不同模型在Flick30K数据集上的性能指标
在数据集Oxford-102上,本实施例的模型主要与DCC,Source Pre-trained以及Show-Adapt-tell模型进行了比较,如下表所示。
表4不同模型在Oxford-102数据集上的性能指标
通过上面比较,可以看出每个模型之间都有一些异同点。相同点就是这些模型都采用了编码器-解码器的深度学习模型架构。不同点就是在编码器和解码器的使用方法上略有差别。在编码器上的不同,主要是体现在图像特征提取的网络模型不同;在解码器上的不同主要体现在注意力机制上的不同。本实施例的模型既聚集了图像特征提取和语言生成的端到端的特点,还融合了图像的全局、局部和多标签特征。所以,和现有模型相比,本实施例的模型更具独特的特征,具有更好的图像描述性能。
本实施例能够更有针对性的描述如交通标志和医疗图像的识别描述。将描述锚定到给定的图像属性和位置,对用户指定的问题或任务做出及时地响应,并通过应用程序发现更高层次的目标(如机器人)来进行评估。
实施例2
如图2所示,本实施例提供一种基于多级注意力的细粒度图像描述系统,包括:
(1)特征融合模块,其用于利用视觉注意力机制融合图像的全局特征和局部细粒度特征,得到图像的第一融合特征;
其中,在所述特征融合模块中,使用深度残差网络Inception-resnet模型提取图像的全局特征。
在所述特征融合模块中,采用深度网络RetinaNet提取图像的局部特征。
(2)标签信息生成模块,其用于将融合特征输入至多标签分类网络中,生成所有标签的分布,得到图像标签的视觉注意信息和语义注意信息;
(3)文本描述生成模块,其用于利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合,生成图像特定区域的文本描述;
(4)细粒度图像描述生成模块,其用于将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型,输出细粒度的图像描述。
基于注意力的LSTM语言生成模型包括LSTM网络,LSTM网络包含注意力机制;LSTM网络的最后一层输出端与Softmax层相连,Softmax层用于选取LSTM网络每一时刻的输出结果中概率最大的词并连接成描述句子,作为基于注意力的LSTM语言生成模型的最终输出结果。
实施例3
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所示的基于多级注意力的细粒度图像描述方法中的步骤。
实施例4
本实施例提供一种计算机终端,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如图1所示的基于多级注意力的细粒度图像描述方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种基于多级注意力的细粒度图像描述方法,其特征在于,包括:
利用视觉注意力机制融合图像的全局特征和局部细粒度特征,得到图像的第一融合特征;
将融合特征输入至多标签分类网络中,生成所有标签的分布,得到图像标签的视觉注意信息和语义注意信息;
利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合,生成图像特定区域的文本描述;
将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型,输出细粒度的图像描述。
2.如权利要求1所述的基于多级注意力的细粒度图像描述方法,其特征在于,使用深度残差网络Inception-resnet模型提取图像的全局特征。
3.如权利要求1所述的基于多级注意力的细粒度图像描述方法,其特征在于,采用深度网络RetinaNet提取图像的局部特征。
4.如权利要求1所述的基于多级注意力的细粒度图像描述方法,其特征在于,基于注意力的LSTM语言生成模型包括LSTM网络,LSTM网络包含注意力机制;LSTM网络的最后一层输出端与Softmax层相连,Softmax层用于选取LSTM网络每一时刻的输出结果中概率最大的词并连接成描述句子,作为基于注意力的LSTM语言生成模型的最终输出结果。
5.一种基于多级注意力的细粒度图像描述系统,其特征在于,包括:
特征融合模块,其用于利用视觉注意力机制融合图像的全局特征和局部细粒度特征,得到图像的第一融合特征;
标签信息生成模块,其用于将融合特征输入至多标签分类网络中,生成所有标签的分布,得到图像标签的视觉注意信息和语义注意信息;
文本描述生成模块,其用于利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合,生成图像特定区域的文本描述;
细粒度图像描述生成模块,其用于将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型,输出细粒度的图像描述。
6.如权利要求5所述的基于多级注意力的细粒度图像描述系统,其特征在于,在所述特征融合模块中,使用深度残差网络Inception-resnet模型提取图像的全局特征。
7.如权利要求5所述的基于多级注意力的细粒度图像描述系统,其特征在于,在所述特征融合模块中,采用深度网络RetinaNet提取图像的局部特征。
8.如权利要求5所述的基于多级注意力的细粒度图像描述系统,其特征在于,基于注意力的LSTM语言生成模型包括LSTM网络,LSTM网络包含注意力机制;LSTM网络的最后一层输出端与Softmax层相连,Softmax层用于选取LSTM网络每一时刻的输出结果中概率最大的词并连接成描述句子,作为基于注意力的LSTM语言生成模型的最终输出结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的基于多级注意力的细粒度图像描述方法中的步骤。
10.一种计算机终端,其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一项所述的基于多级注意力的细粒度图像描述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764055.2A CN110472642B (zh) | 2019-08-19 | 2019-08-19 | 基于多级注意力的细粒度图像描述方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764055.2A CN110472642B (zh) | 2019-08-19 | 2019-08-19 | 基于多级注意力的细粒度图像描述方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472642A true CN110472642A (zh) | 2019-11-19 |
CN110472642B CN110472642B (zh) | 2022-02-01 |
Family
ID=68511140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910764055.2A Active CN110472642B (zh) | 2019-08-19 | 2019-08-19 | 基于多级注意力的细粒度图像描述方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472642B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382781A (zh) * | 2020-02-21 | 2020-07-07 | 华为技术有限公司 | 获取图像标签的方法、训练图像识别模型的方法和装置 |
CN111414962A (zh) * | 2020-03-19 | 2020-07-14 | 创新奇智(重庆)科技有限公司 | 一种引入物体关系的图像分类方法 |
CN111444367A (zh) * | 2020-03-24 | 2020-07-24 | 哈尔滨工程大学 | 一种基于全局与局部注意力机制的图像标题生成方法 |
CN111611420A (zh) * | 2020-05-26 | 2020-09-01 | 北京字节跳动网络技术有限公司 | 用于生成图像描述信息的方法和装置 |
CN111639240A (zh) * | 2020-05-14 | 2020-09-08 | 山东大学 | 一种基于注意力感知机制的跨模态哈希检索方法及系统 |
CN112016493A (zh) * | 2020-09-03 | 2020-12-01 | 科大讯飞股份有限公司 | 图像描述方法、装置、电子设备及存储介质 |
CN112347290A (zh) * | 2020-10-12 | 2021-02-09 | 北京有竹居网络技术有限公司 | 识别标签的方法、装置、设备以及介质 |
CN112348911A (zh) * | 2020-10-28 | 2021-02-09 | 山东师范大学 | 基于语义约束的堆叠文本生成细粒度图像方法及系统 |
CN112488111A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
CN112528989A (zh) * | 2020-12-01 | 2021-03-19 | 重庆邮电大学 | 一种图像语义细粒度的描述生成方法 |
CN113076956A (zh) * | 2021-04-15 | 2021-07-06 | 齐鲁工业大学 | 一种图像描述生成方法、系统、介质及电子设备 |
CN113095405A (zh) * | 2021-04-13 | 2021-07-09 | 沈阳雅译网络技术有限公司 | 基于预训练及双层注意力的图像描述生成系统的构建方法 |
CN113128583A (zh) * | 2021-04-15 | 2021-07-16 | 重庆邮电大学 | 基于多尺度机制和残差注意力的医学图像融合方法及介质 |
CN113220915A (zh) * | 2021-04-29 | 2021-08-06 | 华中科技大学 | 一种基于残差注意力的遥感图像检索方法及装置 |
CN113569068A (zh) * | 2021-01-19 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 描述内容生成方法、视觉内容的编码、解码方法、装置 |
CN113836298A (zh) * | 2021-08-05 | 2021-12-24 | 合肥工业大学 | 基于视觉增强的文本分类方法和系统 |
CN114118127A (zh) * | 2021-10-15 | 2022-03-01 | 北京工业大学 | 一种视觉场景标志检测与识别方法及装置 |
WO2022161298A1 (zh) * | 2021-01-29 | 2022-08-04 | 腾讯科技(深圳)有限公司 | 信息生成方法、装置、设备、存储介质及程序产品 |
JP2022549418A (ja) * | 2020-03-27 | 2022-11-25 | 北京京▲東▼尚科信息技▲術▼有限公司 | 画像記述生成方法、装置、システム、媒体及び電子機器 |
CN116152623A (zh) * | 2023-04-04 | 2023-05-23 | 江西财经大学 | 基于多粒度特征融合的全景图像描述方法与系统 |
WO2023179308A1 (zh) * | 2022-03-21 | 2023-09-28 | 北京有竹居网络技术有限公司 | 一种图像描述生成方法、装置、设备、介质及产品 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
GB2546360A (en) * | 2016-01-13 | 2017-07-19 | Adobe Systems Inc | Image captioning with weak supervision |
US20170220907A1 (en) * | 2016-01-28 | 2017-08-03 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for obtaining semantic label of digital image |
CN107563498A (zh) * | 2017-09-08 | 2018-01-09 | 中国石油大学(华东) | 基于视觉与语义注意力相结合策略的图像描述方法及系统 |
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
CN108133233A (zh) * | 2017-12-18 | 2018-06-08 | 中山大学 | 一种多标签图像识别方法及装置 |
WO2019018063A1 (en) * | 2017-07-19 | 2019-01-24 | Microsoft Technology Licensing, Llc | FINAL GRAIN IMAGE RECOGNITION |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109447115A (zh) * | 2018-09-25 | 2019-03-08 | 天津大学 | 基于多层语义监督式注意力模型的细粒度零样本分类方法 |
CN109543820A (zh) * | 2018-11-23 | 2019-03-29 | 中山大学 | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110033008A (zh) * | 2019-04-29 | 2019-07-19 | 同济大学 | 一种基于模态变换与文本归纳的图像描述生成方法 |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
-
2019
- 2019-08-19 CN CN201910764055.2A patent/CN110472642B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124432A1 (en) * | 2015-11-03 | 2017-05-04 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (abc-cnn) for visual question answering |
GB2546360A (en) * | 2016-01-13 | 2017-07-19 | Adobe Systems Inc | Image captioning with weak supervision |
US20170220907A1 (en) * | 2016-01-28 | 2017-08-03 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for obtaining semantic label of digital image |
CN107918782A (zh) * | 2016-12-29 | 2018-04-17 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
WO2019018063A1 (en) * | 2017-07-19 | 2019-01-24 | Microsoft Technology Licensing, Llc | FINAL GRAIN IMAGE RECOGNITION |
CN107563498A (zh) * | 2017-09-08 | 2018-01-09 | 中国石油大学(华东) | 基于视觉与语义注意力相结合策略的图像描述方法及系统 |
CN107608943A (zh) * | 2017-09-08 | 2018-01-19 | 中国石油大学(华东) | 融合视觉注意力和语义注意力的图像字幕生成方法及系统 |
CN108133233A (zh) * | 2017-12-18 | 2018-06-08 | 中山大学 | 一种多标签图像识别方法及装置 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109447115A (zh) * | 2018-09-25 | 2019-03-08 | 天津大学 | 基于多层语义监督式注意力模型的细粒度零样本分类方法 |
CN109543820A (zh) * | 2018-11-23 | 2019-03-29 | 中山大学 | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 |
CN109902145A (zh) * | 2019-01-18 | 2019-06-18 | 中国科学院信息工程研究所 | 一种基于注意力机制的实体关系联合抽取方法和系统 |
CN110111399A (zh) * | 2019-04-24 | 2019-08-09 | 上海理工大学 | 一种基于视觉注意力的图像文本生成方法 |
CN110033008A (zh) * | 2019-04-29 | 2019-07-19 | 同济大学 | 一种基于模态变换与文本归纳的图像描述生成方法 |
Non-Patent Citations (5)
Title |
---|
DONGFEI YU: "Multi-level Attention Networks for Visual Question Answering", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
ORIOL VINYALS: "Show and tell: A neural image caption generator", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
XINLEI CHEN: "Mind"s eye:A recurrent visual representation for image caption generation", 《2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
刘泽宇: "基于多模态神经网络的图像中文摘要生成方法", 《万方数据知识服务平台》 * |
陈龙杰: "基于多注意力多尺度特征融合的图像描述生成算法", 《计算机应用》 * |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382781A (zh) * | 2020-02-21 | 2020-07-07 | 华为技术有限公司 | 获取图像标签的方法、训练图像识别模型的方法和装置 |
CN111382781B (zh) * | 2020-02-21 | 2023-09-12 | 华为云计算技术有限公司 | 获取图像标签的方法、训练图像识别模型的方法和装置 |
CN111414962A (zh) * | 2020-03-19 | 2020-07-14 | 创新奇智(重庆)科技有限公司 | 一种引入物体关系的图像分类方法 |
CN111414962B (zh) * | 2020-03-19 | 2023-06-23 | 创新奇智(重庆)科技有限公司 | 一种引入物体关系的图像分类方法 |
CN111444367B (zh) * | 2020-03-24 | 2022-10-14 | 哈尔滨工程大学 | 一种基于全局与局部注意力机制的图像标题生成方法 |
CN111444367A (zh) * | 2020-03-24 | 2020-07-24 | 哈尔滨工程大学 | 一种基于全局与局部注意力机制的图像标题生成方法 |
JP7383801B2 (ja) | 2020-03-27 | 2023-11-20 | 北京京▲東▼尚科信息技▲術▼有限公司 | 画像記述生成方法、装置、システム、媒体及び電子機器 |
US12073639B2 (en) | 2020-03-27 | 2024-08-27 | Beijing Jingdong Shangke Information Technology Co., Ltd. | Image description generation method, apparatus and system, and medium and electronic device |
JP2022549418A (ja) * | 2020-03-27 | 2022-11-25 | 北京京▲東▼尚科信息技▲術▼有限公司 | 画像記述生成方法、装置、システム、媒体及び電子機器 |
CN111639240A (zh) * | 2020-05-14 | 2020-09-08 | 山东大学 | 一种基于注意力感知机制的跨模态哈希检索方法及系统 |
CN111611420B (zh) * | 2020-05-26 | 2024-01-23 | 北京字节跳动网络技术有限公司 | 用于生成图像描述信息的方法和装置 |
CN111611420A (zh) * | 2020-05-26 | 2020-09-01 | 北京字节跳动网络技术有限公司 | 用于生成图像描述信息的方法和装置 |
CN112016493A (zh) * | 2020-09-03 | 2020-12-01 | 科大讯飞股份有限公司 | 图像描述方法、装置、电子设备及存储介质 |
CN112347290B (zh) * | 2020-10-12 | 2024-04-23 | 北京有竹居网络技术有限公司 | 识别标签的方法、装置、设备以及介质 |
CN112347290A (zh) * | 2020-10-12 | 2021-02-09 | 北京有竹居网络技术有限公司 | 识别标签的方法、装置、设备以及介质 |
WO2022078125A1 (zh) * | 2020-10-12 | 2022-04-21 | 北京有竹居网络技术有限公司 | 识别标签的方法、装置、设备以及介质 |
CN112348911A (zh) * | 2020-10-28 | 2021-02-09 | 山东师范大学 | 基于语义约束的堆叠文本生成细粒度图像方法及系统 |
CN112348911B (zh) * | 2020-10-28 | 2023-04-18 | 山东师范大学 | 基于语义约束的堆叠文本生成细粒度图像方法及系统 |
CN112528989A (zh) * | 2020-12-01 | 2021-03-19 | 重庆邮电大学 | 一种图像语义细粒度的描述生成方法 |
CN112488111B (zh) * | 2020-12-18 | 2022-06-14 | 贵州大学 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
CN112488111A (zh) * | 2020-12-18 | 2021-03-12 | 贵州大学 | 一种基于多层级表达引导注意力网络的指示表达理解方法 |
CN113569068A (zh) * | 2021-01-19 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 描述内容生成方法、视觉内容的编码、解码方法、装置 |
CN113569068B (zh) * | 2021-01-19 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 描述内容生成方法、视觉内容的编码、解码方法、装置 |
JP7537060B2 (ja) | 2021-01-29 | 2024-08-21 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 情報生成方法、装置、コンピュータ機器、記憶媒体及びコンピュータプログラム |
WO2022161298A1 (zh) * | 2021-01-29 | 2022-08-04 | 腾讯科技(深圳)有限公司 | 信息生成方法、装置、设备、存储介质及程序产品 |
CN113095405B (zh) * | 2021-04-13 | 2024-04-30 | 沈阳雅译网络技术有限公司 | 基于预训练及双层注意力的图像描述生成系统的构建方法 |
CN113095405A (zh) * | 2021-04-13 | 2021-07-09 | 沈阳雅译网络技术有限公司 | 基于预训练及双层注意力的图像描述生成系统的构建方法 |
CN113128583A (zh) * | 2021-04-15 | 2021-07-16 | 重庆邮电大学 | 基于多尺度机制和残差注意力的医学图像融合方法及介质 |
CN113076956A (zh) * | 2021-04-15 | 2021-07-06 | 齐鲁工业大学 | 一种图像描述生成方法、系统、介质及电子设备 |
CN113076956B (zh) * | 2021-04-15 | 2023-02-24 | 齐鲁工业大学 | 一种图像描述生成方法、系统、介质及电子设备 |
CN113220915A (zh) * | 2021-04-29 | 2021-08-06 | 华中科技大学 | 一种基于残差注意力的遥感图像检索方法及装置 |
CN113836298A (zh) * | 2021-08-05 | 2021-12-24 | 合肥工业大学 | 基于视觉增强的文本分类方法和系统 |
CN113836298B (zh) * | 2021-08-05 | 2024-08-20 | 合肥工业大学 | 基于视觉增强的文本分类方法和系统 |
CN114118127B (zh) * | 2021-10-15 | 2024-05-21 | 北京工业大学 | 一种视觉场景标志检测与识别方法及装置 |
CN114118127A (zh) * | 2021-10-15 | 2022-03-01 | 北京工业大学 | 一种视觉场景标志检测与识别方法及装置 |
WO2023179308A1 (zh) * | 2022-03-21 | 2023-09-28 | 北京有竹居网络技术有限公司 | 一种图像描述生成方法、装置、设备、介质及产品 |
CN116152623A (zh) * | 2023-04-04 | 2023-05-23 | 江西财经大学 | 基于多粒度特征融合的全景图像描述方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110472642B (zh) | 2022-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472642B (zh) | 基于多级注意力的细粒度图像描述方法及系统 | |
Richard et al. | Weakly supervised action learning with rnn based fine-to-coarse modeling | |
CN108765383B (zh) | 基于深度迁移学习的视频描述方法 | |
CN108733837A (zh) | 一种病历文本的自然语言结构化方法及装置 | |
CN113035311B (zh) | 一种基于多模态注意力机制的医学图像报告自动生成方法 | |
Wang et al. | Afan: Augmented feature alignment network for cross-domain object detection | |
CN113536922A (zh) | 一种加权融合多种图像任务的视频行为识别方法 | |
CN115861995B (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN114821271B (zh) | 模型训练方法、图像描述生成方法、装置及存储介质 | |
Kuang et al. | Visual information extraction in the wild: practical dataset and end-to-end solution | |
Long et al. | Learning to localize actions from moments | |
CN113032601A (zh) | 一种基于判别性提升的零样本草图检索方法 | |
US20220358658A1 (en) | Semi Supervised Training from Coarse Labels of Image Segmentation | |
CN117934803A (zh) | 一种基于多模态特征对齐的视觉定位方法 | |
CN116127060A (zh) | 一种基于提示词的文本分类方法及系统 | |
CN114692624A (zh) | 一种基于多任务迁移的信息抽取方法、装置及电子设备 | |
Sun et al. | Video understanding: from video classification to captioning | |
Sun et al. | A Metaverse text recognition model based on character-level contrastive learning | |
CN110222737A (zh) | 一种基于长短时记忆网络的搜索引擎用户满意度评估方法 | |
Kaddoura | A Primer on Generative Adversarial Networks | |
CN116704196B (zh) | 一种训练图像语义分割模型的方法 | |
Pandey et al. | A language-guided benchmark for weakly supervised open vocabulary semantic segmentation | |
Zhou et al. | Online object tracking based on cnn with metropolis-hasting re-sampling | |
Aryal et al. | Using pre-trained models as feature extractor to classify video styles used in MOOC videos | |
CN115357712A (zh) | 方面级情感分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501 Patentee after: Qilu University of Technology (Shandong Academy of Sciences) Country or region after: China Address before: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501 Patentee before: Qilu University of Technology Country or region before: China |