CN107563498B

CN107563498B - 基于视觉与语义注意力相结合策略的图像描述方法及系统

Info

Publication number: CN107563498B
Application number: CN201710806029.2A
Authority: CN
Inventors: 王雷全; 褚晓亮; 魏燚伟; 吴春雷; 崔学荣
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2020-07-14
Anticipated expiration: 2037-09-08
Also published as: CN107563498A

Abstract

本发明公开了基于视觉与语义注意力相结合策略的图像描述方法及系统，步骤：利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征；利用图像的视觉注意力模型对图像特征进行处理，将视觉注意力模型处理过的图像特征送入第一LSTM网络产生单词，然后利用语义注意力模型对产生的单词和预定义的标签进行处理得到语义信息，然后利用第二LSTM网络对语义进行处理得到语义注意力模型生成的单词，重复上述步骤，最后将所有得到的单词进行串联组合，产生图像描述；本发明的方法不仅利用了输入图像的概述，而且还丰富了视觉语义方面的信息，让生成的句子更能够真实的反应图像的内容。

Description

基于视觉与语义注意力相结合策略的图像描述方法及系统

技术领域

本发明涉计算机视觉技术和自然语言处理技术，特别是涉及基于视觉与语义注意力相结合策略的图像描述方法及系统。

背景技术

关于图像描述的研究在机器学习和计算机视觉领域备受关注，这项研究之所以意义重大不仅仅是因为它具有重要的实际应用，最重要的是它还是计算机视觉领域中关于图像理解的一项巨大的挑战。生成对图像有意义的语言描述需要计算机对图像具有一定的理解能力，这远比图像分类和对象检测的任务要复杂的多，图像描述成功的将人工智能领域的两个主要技术自然语言处理和计算机视觉相结合在一起。

现有的图像描述方法有两种:自上而下，自下而上。自上而下是从图像的“要点”开始，并将其转化为单词。自下而上则是先从图像入手提取关于图像的单词，然后利用提取的单词来生成描述。语言模型在两种模式中被使用来形成连贯的句子。当前效果比较好的是自上而下的方法，它是基于循环神经网络的一种从图像到句子的端到端的描述，并且这种方法可以从训练数据中学习循环神经网络的所有参数。自上而下的方法的局限性在于它很难看到在图像描述方面很重要的细节问题。自下而上的方法则不会受到此问题的影响。

视觉注意力是人类视觉系统中的重要机制，这是一个反馈的过程，它可以将视觉皮层的早期阶段的表示选择性地映射到场景中特定区域这种选择性映射允许大脑在低级图像属性的指导下将计算资源聚焦在对象上。视觉注意机制也在偏向语义的图像的自然语言描述中起着重要的作用。由于在生成句子的过程中当前时刻生成的单词对于上一时刻生成的词的依赖性比较大，当上一时刻生成的单词不准确时，会影响到整个句子的结构与准确性。

发明内容

为了解决现有技术的不足，本发明提供了基于视觉与语义注意力相结合策略的图像描述方法，提出了新的注意力模型，将自上而下与自下而上的方法有效的串联在一起，具体来讲，本发明首先利用图像的视觉注意力模型产生语义，然后将生成的语义与利用图像及对应的描述检测语义概念或属性作为语义注意模型的候选者，最后通过语义模型来预测新词。

基于视觉与语义注意力相结合策略的图像描述方法，包括：

步骤(1)：利用卷积神经网络CNN从待生成图像描述的图像中提取图像特征V；

步骤(2)：建立视觉注意力模型，判断是否是首次执行，若是，则将步骤(1)的图像特征V输入到视觉注意力模型中，得到经过视觉注意力模型处理后的图像特征V_att；若不是，则将步骤(1)的图像特征V和t-1时刻语义注意力模型生成的单词W_t-1输入到视觉注意力模型中，得到经过视觉注意力模型处理后的图像特征V_att；

步骤(3)：建立第一个LSTM网络，称之为LSTM₁网络，LSTM₁网络是指供视觉注意力模型使用的LSTM网络；将LSTM₁网络的t-1时刻的隐藏层状态

和经过视觉注意力模型处理以后的图像特征V_att送入LSTM₁网络，得到视觉注意力模型在t时刻产生的单词W_t'；

步骤(4)：建立语义注意力模型，将视觉注意力模型在t时刻产生的单词W_t'与预定义的标签A一起输入到语义注意力模型中；得到语义注意力模型在t时刻生成的语义信息E_t；

步骤(5)：建立第二个LSTM网络，称之为LSTM₂网络，LSTM₂网络是指供语义注意力模型使用的LSTM网络；将LSTM₂网络在t-1时刻的隐藏层的状态

和语义注意力模型在t时刻生成的语义信息E_t输入到LSTM₂网络中，得到语义注意力模型在t时刻生成的单词W_t；

步骤(6)：判断是否检测到停止标识，若是，则将得到的所有单词进行串联组合，产生图像描述；若不是，则用步骤(5)得到的单词W_t更新步骤(2)中的W_t-1；同时返回步骤(2)，继续执行步骤(2)-(5)，直至检测到停止标识。

所述步骤(2)的公式：

V_att＝f_vatt(V),t＝0； (1-1)

V_att＝f_vatt(V,W_t-1),t≥1； (1-2)

其中，f_vatt(·)表示视觉注意力处理函数，t为整数；

所述步骤(2)视觉注意力处理函数：

使用卷积神经网络提取的图像特征V是一个L x D维的向量，即将图像划分为L个区域，每个区域用D维的向量表示：

V＝{v1,...,vL},vi∈R^D

其中，R^D表示属于D维度；vi表示第i个图像区域；

对于图像的每个区域，视觉注意力分配函数e_vatt根据图像特征V和语义注意力模型在t-1时刻的生成的单词W_t-1产生一个权重

归一化处理：

其中，

表示视觉注意力模型中第i个图像区域在t时刻的权重；

表示视觉注意力模型中第k个图像区域在t时刻的权重；

经过视觉注意力模型处理以后的图像特征V_att：

所述步骤(3)的公式为：

所述标签是指预先从训练集每幅图像对应的描述图像内容的句子中根据需要提取出的若干个关键词；所述关键词为图像对应的语义信息，所述关键词包括名词和动词；

所述步骤(4)的公式为：

E_t＝f_satt(W_t',A)； (3)

其中，f_satt(·)表示语义注意力处理函数。

所述步骤(4)语义注意力处理函数：

对视觉注意力模型在t时刻产生的单词W_t'和语义辅助的标签A进行权重β的分配：

其中，(W_t',A)表示将W_t'与A连接为一个矩阵；

表示语义注意力模型中第i个词在t时刻的权重；

对β进行归一化处理：

表示语义注意力模型中第k个词在t时刻的权重，z表示标签里的词的个数；

生成对当前句子语义的状态E_t：

所述步骤(5)的公式为：

语义注意力模型更加注重于生成的句子的语义结构，因为对于句子的分析单凭视觉概念往往导致语义存在偏差，因此将视觉注意力模型在t时刻产生的单词W_t'与标签A一起传入语义模型中进行语义的完善。对于视觉注意力模型在t时刻产生的单词W_t'与标签A及生成的句子中的单词W_t，本发明采用维度为K的one-hot向量来表示：

视觉注意力模型在t时刻产生的单词W_t'的向量的维度为1x K。标签用维度为Z xK的向量A来表示：

A＝{A₁,..,A_Z},A_i∈R^K

其中K表示词典的大小，Z表示标签的长度，所述标签的长度是固定值。

图像生成的句子用维度为C*K的向量W来表示:

W＝{w₁,...,w_c},w_i∈R^K

其中K表示词典的大小，C表示产生的句子的长度。

为了解决现有技术的不足，本发明还提供了基于视觉与语义注意力相结合策略的图像描述系统，针对每一时刻生成的词，减小对上一次时刻词的依赖，达到更准确的描述图像的效果。

基于视觉与语义注意力相结合策略的图像描述系统，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令在处理器上运行时完成以下步骤：

一种计算机存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时完成以下步骤：

与现有技术相比，本发明的有益效果是：

针对每一时刻生成的词，减小对上一次时刻词的依赖，达到更准确的描述图像的效果。

与以前的工作不同，本发明的方法结合了视觉注意力和语义注意力的结合，从图像中提取更丰富的信息，并将其可以有选择地参与从图像检测到的丰富语义属性的LSTM相结合。因此，本发明的方法不仅利用了输入图像的概述，而且还丰富了视觉语义方面的信息，让生成的句子更能够真实的反应图像的内容。本发明的模型的真正实力在于它能够参与这些方面，将视觉与语义充分的互补与结合从而达到较优的实验结果。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明的整体流程图；

图2为整个模型的设计图；

图3为LSTM网络结构图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

此发明的目的在于针对每一时刻生成的词，减小对上一次时刻词的依赖，已达到更准确的描述图像的效果。实验方案如下：

本发明首先采用卷积神经网络(Convolutional Neural Network,CNN)提取由v表示的图像特征此外，本发明在图像及其对应的描述中提取最有可能在图像中出现的相关标签A，在t时刻，将经过视觉注意力处理后的图像特征V_att与上一时刻生成词X_t-1传入LSTM₁,利用视觉注意力模型产生当前时刻的视觉单词W_t',然后将W_t'与标签A传入LSTM₂,再进行语义注意力模型生成当前时刻的单词W_t,，W_t将被反馈到LSTM₁中与图像特征V作为下一步的网络输入。整个模型的架构如图1所示，与之前的图像描述不同，本发明将视觉信息的注意力模型与标签对应的语义注意力模型串联在一起，具体来说，本发明模型的主要工作流程由以下公式决定：

V_att＝f_vatt(V,W_t-1),t≥1 (1-2)

E_t＝f_satt(W_t',A)(3)

公式(1-2)用视觉注意力模型来对图像特征V进行注意力的权重分配得到处理后的特征V_att,公式(2)将V_att与t-1时刻生成的单词W_t-1一起传入LSTM₁得到W_t',公式(3)将W_t'和图像的标签A经过语义注意力模型分配权重得到E_t，公式(4)将E_t传入LSTM₂生成t时刻的单词W_t。实验过程如图1所示。

LSTM网络：

LSTM网络又称为长短时记忆网络，如图3所示，是循环神经网的特殊形式，它成功解决了循环神经网络的梯度消失和梯度爆炸问题，LSTM的核心是它在每个步骤中的存储单元Cell,每个存储单元由三个Gate(输入门、遗忘门,输出门)和一个cell单元组成。Gate使用一个sigmoid激活函数，而input和cell state通常会使用tanh来转换。

LSTM的cell可以使用下列的等式来定义：

Gates:

i_t＝g(W_xix_t+W_hih_t-1+b_i)

f_t＝g(W_xfx_t+W_hfh_t-1+b_f)

o_t＝g(W_x0x_t+W_h0h_t-1+b_o)

输入变换：

c_in_t＝tanh(W_xcx_t+W_hch_t-1+b_{v_in})

状态更新：

C_t＝f_t·c_t-1+i_t·c_in_t

h_t＝o_t·tanh(c_t)

W代表训练的参数矩阵，这三个门很好的解决了梯度的消失和爆炸问题。使用图像描述如图2所示。

数据集及实验结果：

本发明选择流行的Flickr30k和MS-COCO评估本发明的模型的性能Flickr30k共有31,783张图像。MS-COCO更具挑战性，其中有123,278幅图像。每个图像至少由不同的AMT工作人员提供五个字幕。

实验结果如：表1

实验分析：

在这项工作中，本发明提出了一种新的方法来完成图像描述。在各种普及的标准基准上表现出了较好的效果。与以前的工作不同，本发明的方法结合了视觉注意力和语义注意力的结合，从图像中提取更丰富的信息，并将其可以有选择地参与从图像检测到的丰富语义属性的LSTM相结合。因此，本发明的方法不仅利用了输入图像的概述，而且还丰富了视觉语义方面的信息，让生成的句子更能够真实的反应图像的内容。本发明的模型的真正实力在于它能够参与这些方面，将视觉与语义充分的互补与结合从而达到较优的实验结果。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于视觉与语义注意力相结合策略的图像描述方法，其特征是，包括：

步骤(4)：建立语义注意力模型，将视觉注意力模型在t时刻产生的单词W_t'与预定义的标签A一起输入到语义注意力模型中；得到语义注意力模型在t时刻生成的语义信息E_t；所述标签是指预先从训练集每幅图像对应的描述图像内容的句子中根据需要提取出的若干个关键词；所述关键词为图像对应的语义信息，所述关键词包括名词和动词；