CN110472642A

CN110472642A - 基于多级注意力的细粒度图像描述方法及系统

Info

Publication number: CN110472642A
Application number: CN201910764055.2A
Authority: CN
Inventors: 杨振宇; 张姣
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-08-19
Filing date: 2019-08-19
Publication date: 2019-11-19
Anticipated expiration: 2039-08-19
Also published as: CN110472642B

Abstract

本公开提供了一种基于多级注意力的细粒度图像描述方法及系统。其中，基于多级注意力的细粒度图像描述方法包括：利用视觉注意力机制融合图像的全局特征和局部细粒度特征，得到图像的第一融合特征；将融合特征输入至多标签分类网络中，生成所有标签的分布，得到图像标签的视觉注意信息和语义注意信息；利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合，生成图像特定区域的文本描述；将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型，输出细粒度的图像描述。

Description

基于多级注意力的细粒度图像描述方法及系统

技术领域

本公开属于图像处理领域，尤其涉及一种基于多级注意力的细粒度图像描述方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

深度学习近年来在图像和自然语言处理任务上的表现，使图像描述生成领域的研究越来越深入。编码器-解码器框架对文本描述进行端到端的训练,往往具有很好的效果。

发明人发现，编码器-解码器框架对文本描述能产生通顺的描述语句，但往往描述不够具体，内容宽泛。生成的描述虽然能基本概括图像展现的情景内容，但却忽略了对象特征和对象之间的关系；以往提取图像特征时，关注点比较单一，提取的图像特征利用不充分，进而使得图像描述不完整。

发明内容

为了解决上述问题，本公开提供一种基于多级注意力的细粒度图像描述方法及系统，其考虑了对象特征和对象之间的关系，能够得到图像的完整描述。

为了实现上述目的，本公开采用如下技术方案：

本公开的第一个方面提供一种基于多级注意力的细粒度图像描述方法，其包括：

利用视觉注意力机制融合图像的全局特征和局部细粒度特征，得到图像的第一融合特征；

将融合特征输入至多标签分类网络中，生成所有标签的分布，得到图像标签的视觉注意信息和语义注意信息；

利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合，生成图像特定区域的文本描述；

将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型，输出细粒度的图像描述。

本公开的第二个方面提供一种基于多级注意力的细粒度图像描述系统。

一种基于多级注意力的细粒度图像描述系统，包括：

特征融合模块，其用于利用视觉注意力机制融合图像的全局特征和局部细粒度特征，得到图像的第一融合特征；

标签信息生成模块，其用于将融合特征输入至多标签分类网络中，生成所有标签的分布，得到图像标签的视觉注意信息和语义注意信息；

文本描述生成模块，其用于利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合，生成图像特定区域的文本描述；

细粒度图像描述生成模块，其用于将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型，输出细粒度的图像描述。

本公开的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述的基于多级注意力的细粒度图像描述方法中的步骤。

本公开的第四个方面提供一种计算机终端，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述所述的基于多级注意力的细粒度图像描述方法中的步骤。

本公开的有益效果是：

本公开采用了三级注意力机制，考虑了特征对象与对象之间的关系，对图像的细粒度进行描述，实现了图像标签的预测和细粒度的文本描述，得到了包含各种不同形式的信息包括细粒度信息和标标签的完整图像描述。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例的一种基于多级注意力的细粒度图像描述方法流程图。

图2是本公开实施例的一种基于多级注意力的细粒度图像描述系统结构示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

如图1所示，本实施例提供了一种基于多级注意力的细粒度图像描述方法，其包括：

S101：利用视觉注意力机制融合图像的全局特征和局部细粒度特征，得到图像的第一融合特征。

图像特征的融合对于图像表示非常重要。全局特性通常包含对象周围的上下文信息；局部图像包含对象的细粒度信息。得益于深度残差网络Inception-resnet在图像分类和深度网络RetinaNet在图像目标识别的强大能力，本实施例利用深度残差网络Inception-resnet提取图像的全局图像特征，使用残差结构的RetinaNet网络提取图像的局部特征。通过视觉注意力将两者进行融合，生成丰富的图像特征表示。

对于图像的全局特征H_i,c(x)，本实施例采用Inception-resnet的网络模型。Inception-resnet网络是由多个卷积模组堆叠成的深度模型。本实施例提取最后一个池化层的1792*1*1维的特征向量，经过一个特征变换转换为1024×1×1维的特征向量：H_i,c(x)＝{x₁,x₂,...,x_L}，x_i∈R^D。其中L表示特征向量的个数，D表示特征向量的维数。此输出将与RetinaNet网络的输出在视觉注意力模块进行特征融合。

对于局部图像特征I_box,采用RetinaNet网络提取候选区域的局部图像特征。RetinaNet是残差网络ResNet和金字塔网络FPN的结合。在提高准确率的同时能更好地检测小目标，能成更高质量的特征图。本实施例选取池化层前一层1024*1*1维的局部图像特征为嵌入向量：I_box＝{I_box1,I_box2,...,I_boxn}。其中boxn表示局部图像特征向量的个数。

本实施例采用视觉注意力机制来融合这两种特征：

其中表示第i个局部图像特征在时间t的注意力权重，表示全局图像特征在时间t的注意力权重；且

这种注意力机制通过给每个特征分配一个权重动态地进行加权。通过这种方式，本实施例在不同的时间选择性地集中在不同的对象上，并能同时考虑它们的上下文信息。注意权重测量每个局部图像特征在时间t时的重要程度以及每个特征与先前信息的相关性。

基于先前的信息和每个特征V_i∈{H_i,c(x),I_box1,I_box2,...,I_boxn}采用下面的公式来计算权重：

其中，表示特征V_i与先前生成的单词的关联评分。权重是通过用SoftMax回归对进行归一化得到的。是隐藏状态输出。W^t、W_h、b、W₀是由模型学习,且在所有时间步骤中由所有特征共享的参数。Tanh是激活函数；n表示特征个数。

S102：将融合特征输入至多标签分类网络中，生成所有标签的分布，得到图像标签的视觉注意信息和语义注意信息。

本实施例将标签预测任务看作是一个多标签分类任务。具体来说，将上一个任务提取的融合特征输入到多标签分类网络MLC，生成所有标记L的分布：

其中l表示标签向量，l_i＝0/1分别表示第i个标签缺失或存在。MLC_i表示MLC网络的第i个输出，N为标签个数。

其中，多标签分类网络是一个训练好的通用的一个神经网络模型，其结构为现有结构。多标签是指一个样本同时属于多个类，也就是有多个标签。

最后，选取M个可能性最大的标记转换为字嵌入向量被用为下一步的语义向量，即得到图像标签的视觉注意信息和语义注意信息。

S103：利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合，生成图像特定区域的文本描述。

视觉注意力本身就能很好地定位和辅助字幕生成。然而，视觉注意力没有提供足够的高级语义信息。相反，标签总是可以提供所需的高级别信息。为此，本实施例提出了一种可以同时关注视觉和语义模式的联合注意机制。

在时间步s，联合上下文特征向量z_t由联合注意力网络生成。其中是联合注意力网络在时间步s-1的隐藏状态。联合注意网络N_att使用单层前馈网络计算输入图像特征和标签的视觉注意信息和语义注意信息：

其中W_vatt，W_v，W_v,h是视觉注意网络参数。W_aatt，W_a，W_a,h是语义注意网络参数。

视觉和语义上下文向量计算如下：

本实施例将这两个向量串接在一起然后转换为联合上下文向量：

S104：将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型，输出细粒度的图像描述。

将上下文特征向量通过特征转换，作为语言生成模型即基于注意力的长短期记忆网络的512*1维的部分输入，经实验证明，分层连入图像视觉特征的基于注意力Attention结构的LSTM网络可以高效地将语言和图像特征相融合：

c_t＝f_t×c_t-1+i_t×g_t (10)

h_t＝o_t×tanh(c_t) (11)

其中P_s,t表示一个矩阵的变换，i_t，f_t，o_t，g_t，h_t分别表示LSTM的输入、遗忘、记忆、输出和隐藏状态。向量J_t∈R^D是联合向量，捕获与特定输入对象相关的视觉信息，E是嵌入矩阵，σ和×表示激活函数和矩阵的点乘。

基于注意力的LSTM语言模型的输入包含三部分：S_t，J_t，表示上一时刻第n层LSTM的输出状态，t表示当前时刻，t-1表示前一时刻，S_t表示语言生成模型生成的单词，初始值是人为给定的；一般情况下是一个句子的第一个词；向量J_t∈R^D是联合向量，将以上三者联合输入到注意力LSTM语言模型结构中。其中，整个模型的是个训练过程，初始的是人为给定的。

简单来说，联合向量J_t捕获与特定输入图像相关对象相关的动态信息。使用φ从上下文向量z_t计算联合向量J_t。z_t对应于图像不同对象提取的特征。对于每一个对象，该模型生成一个权重α_t。权重α_t可以理解为目标对象生成的下一个单词的概率，或者是对于混合的上下文向量z_t中对象的相对重要性。那么，一个上下文向量的权重用基于先前隐藏状态h_t-1的下式进行计算。我们发现隐藏状态随着ALSTM在其输出序列中的进展而发生变化：

初始权重完全由上下文向量z_t决定。参数W_va、W_ha为待学习的参数。上式得到每一个联合向量J_t的注意力权重α_t。那么联合向量J_t为：

LSTM的初始隐藏状态是通过输入的上下文向量的平均值来预测的：

在最终层LSTM模型后连接Softmax层，选取每一时刻的输出中概率最大的词连接成描述句子，作为模型的最终输出结果。给定LSTM的隐藏状态，联合向量和上一个的输出单词，输出词的概率计算如下：

其中W₀,W_h,W_j,E是随机初始化的学习参数；表示语言生成模型生成的上一个的输出单词。

利用动量为0.9的随机梯度下降对整个训练集的目标函数进行了优化。学习率最初设置为0.01，然后逐步降低。对于句子生成，有两种策略可以对给定图像的句子进行采样。第一种方法本质上是一种贪婪的方法，用最大概率从每个时间步骤的概率分布中抽取下一个单词，直到取样结束符号字为止。另一种方法是波束搜索法，它在每一步选择最优的句子，然后在前面的top-k语句的基础上生成新的最佳top-k句子。本实施例分别用这两种语句生成方法对本公开的方法进行了评价。特别是，当k的值设置为3时，可以获得最佳运行结果。

每一次的训练样本都是一组(I,l,S)。其中，I表示图像，l表示真实标签，S表示句子描述的个数。给定训练样本(I,l,S)，模型生成预测标签的分布p_l,pred。通过归一化，得到真实的标签分布p_l＝l/||l||。这一标签训练步骤在p_l,pred和p_l之间存在交叉熵损失L_l。单词生成训练存在交叉熵损失L_w。所以，整体的句子描述生成训练损失L为：

L＝γ_lL_l+∑L_w (17)

其中，γ_l为交叉熵损失的常系数。

全局图像特征、局部图像特征和图像特征与标签特征融合的对比试验：

图像的全局特征和局部细粒度特征对图像描述生成都具有重要作用。这一过程主要包括以下几个部分：

只使用Inception-resnet网络提取的全局图像特征H_i,c(x)；

只使用RetinaNet网络提取的局部细粒度图像特征I_box＝{I_box1,I_box2,...,I_boxn}；

使用图像全局与局部的融合特征V^t；

使用图像融合特征与标签特征。

从表1中，发现基于融合图像特征的评分效果比仅仅基于全局或者局部图像特征的效果好。通常注重图像中重要的对象，但是细小对象也许是不能忽视的。发现融合图像特征和标签特征的方法可以获得最佳性能。

表1全局特征、局部特征以及与标签融合的比较试验结果。

与目前先进的图像描述方法的比较在数据集MSCOCO中，本实施例的模型主要与以下先进模型结果性能做了对比，如表2。从表中可以看出，基于多级注意力的细粒度图像描述方法有着较好的性能，得分为72.3，56.9,43.2,32.4,26.1,；与Google NIC相比，本实施例的模型得分提高了5.7,11.8,12.9,5.8。在每一项指标上的得分都达到了最高。性能提升较高的原因是由于本文模型使用了深度残差网络在提取图像底层和高层的语义信息的优越性。该方法灵活地结合图像的融合特征和标签特征。

表2不同模型在MSCOCO数据集上的性能指标对比

在数据集Flickr30K中，本实施例模型主要与以下模型进行了对比，如表3。从中可以看出，本实施例所提模型的得分分别为71.6,56.6,43.3,32.3,25.8；与Google NIC相比，实施例的模型得分提高了5.3,14.3,14.8,12.0。与其他模型相比有较大的提升，在每一项指标上的得分都达到了最高。

表3不同模型在Flick30K数据集上的性能指标

在数据集Oxford-102上，本实施例的模型主要与DCC,Source Pre-trained以及Show-Adapt-tell模型进行了比较，如下表所示。

表4不同模型在Oxford-102数据集上的性能指标

通过上面比较，可以看出每个模型之间都有一些异同点。相同点就是这些模型都采用了编码器-解码器的深度学习模型架构。不同点就是在编码器和解码器的使用方法上略有差别。在编码器上的不同，主要是体现在图像特征提取的网络模型不同；在解码器上的不同主要体现在注意力机制上的不同。本实施例的模型既聚集了图像特征提取和语言生成的端到端的特点，还融合了图像的全局、局部和多标签特征。所以，和现有模型相比，本实施例的模型更具独特的特征，具有更好的图像描述性能。

本实施例能够更有针对性的描述如交通标志和医疗图像的识别描述。将描述锚定到给定的图像属性和位置，对用户指定的问题或任务做出及时地响应，并通过应用程序发现更高层次的目标(如机器人)来进行评估。

实施例2

如图2所示，本实施例提供一种基于多级注意力的细粒度图像描述系统，包括：

(1)特征融合模块，其用于利用视觉注意力机制融合图像的全局特征和局部细粒度特征，得到图像的第一融合特征；

其中，在所述特征融合模块中，使用深度残差网络Inception-resnet模型提取图像的全局特征。

在所述特征融合模块中，采用深度网络RetinaNet提取图像的局部特征。

(2)标签信息生成模块，其用于将融合特征输入至多标签分类网络中，生成所有标签的分布，得到图像标签的视觉注意信息和语义注意信息；

(3)文本描述生成模块，其用于利用注意力机制将图像的第一融合特征和图像标签的视觉注意信息和语义注意信息融合，生成图像特定区域的文本描述；

(4)细粒度图像描述生成模块，其用于将图像特定区域的文本描述进行编号后输入至基于注意力的LSTM语言生成模型，输出细粒度的图像描述。

基于注意力的LSTM语言生成模型包括LSTM网络，LSTM网络包含注意力机制；LSTM网络的最后一层输出端与Softmax层相连，Softmax层用于选取LSTM网络每一时刻的输出结果中概率最大的词并连接成描述句子，作为基于注意力的LSTM语言生成模型的最终输出结果。

实施例3

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如图1所示的基于多级注意力的细粒度图像描述方法中的步骤。

实施例4

本实施例提供一种计算机终端，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如图1所示的基于多级注意力的细粒度图像描述方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于多级注意力的细粒度图像描述方法，其特征在于，包括：

2.如权利要求1所述的基于多级注意力的细粒度图像描述方法，其特征在于，使用深度残差网络Inception-resnet模型提取图像的全局特征。

3.如权利要求1所述的基于多级注意力的细粒度图像描述方法，其特征在于，采用深度网络RetinaNet提取图像的局部特征。

4.如权利要求1所述的基于多级注意力的细粒度图像描述方法，其特征在于，基于注意力的LSTM语言生成模型包括LSTM网络，LSTM网络包含注意力机制；LSTM网络的最后一层输出端与Softmax层相连，Softmax层用于选取LSTM网络每一时刻的输出结果中概率最大的词并连接成描述句子，作为基于注意力的LSTM语言生成模型的最终输出结果。

5.一种基于多级注意力的细粒度图像描述系统，其特征在于，包括：

6.如权利要求5所述的基于多级注意力的细粒度图像描述系统，其特征在于，在所述特征融合模块中，使用深度残差网络Inception-resnet模型提取图像的全局特征。

7.如权利要求5所述的基于多级注意力的细粒度图像描述系统，其特征在于，在所述特征融合模块中，采用深度网络RetinaNet提取图像的局部特征。

8.如权利要求5所述的基于多级注意力的细粒度图像描述系统，其特征在于，基于注意力的LSTM语言生成模型包括LSTM网络，LSTM网络包含注意力机制；LSTM网络的最后一层输出端与Softmax层相连，Softmax层用于选取LSTM网络每一时刻的输出结果中概率最大的词并连接成描述句子，作为基于注意力的LSTM语言生成模型的最终输出结果。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的基于多级注意力的细粒度图像描述方法中的步骤。

10.一种计算机终端，其包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的基于多级注意力的细粒度图像描述方法中的步骤。