CN108959512B

CN108959512B - 一种基于属性增强注意力模型的图像描述网络及技术

Info

Publication number: CN108959512B
Application number: CN201810684426.1A
Authority: CN
Inventors: 丁贵广; 陈辉
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2022-04-29
Anticipated expiration: 2038-06-28
Also published as: CN108959512A

Abstract

本发明提供了一种基于属性增强注意力模型的图像描述网络及技术，通过对属性词之间的相关关系和共生关系进行建模，使模型在预测属性时，不仅能利用图像的信息预测属性词，而且还能通过理解属性词之间的关系进行预测；同时在属性预测的基础上，引入相对于属性的图像信息特征，解决了目前注意力模型中存在的图像特征冗余以及存在和图像内容信息不相关特征的问题，提高了模型预测属性及图像描述的能力。

Description

一种基于属性增强注意力模型的图像描述网络及技术

技术领域

本发明属于神经网络技术领域，尤其涉及一种基于属性增强注意力模型的图像描述网络及技术。

背景技术

基于属性和基于注意力模型是现有的图像描述方法中的两种重要的方法。基于属性的图像描述方法首先识别出图像中的一些关键信息，比如人物，地点，特征等等信息，然后编码成一个向量，输入给由循环神经网络构成的解码器中进行解码，得到最终的描述性语句。这种方法可以让解码器感知图像的关键信息，但是十分依赖属性词的预测模型，如果属性词提取不够准确，会误导解码器进行句子生成。基于视觉注意力模型的图像描述方法从视觉信息的角度解决句子生成过程中视觉特征自适应的问题，其原理受人在描述真实场景情况的启发。人类在观察一个场景的时候，并不是只观察这个整体，而是会在不同的区域进行观察，最后用一句话来描述，因此将视觉注意力模型引入到图像描述方法中，可以提高了句子描述的质量。

目前的基于属性的描述方法中，属性的预测模型通常用一个卷积神经网络完成，只考虑了属性词和图像之间的关系，并没有考虑属性词和属性词之间的相关性和共生关系。但是这种属性词之间的关系是有助于帮助句子描述模型生成更好的句子的。比如，汽车只能在陆地上行驶，不可能在海里行驶，轮船则反过来。这种相关关系和共生关系可以让句子生成模型生成更加合适的句子。

其次，由于卷积神经网络只能提取网格状区域的特征这个局限性，目前的基于注意力模型的图像描述方法还具有提升的空间。卷积神经网络的特征图中的每个特征只和固定区域内的图像信息有关，并没有考虑到这个区域里是否有关键信息，同时由于固定感受野的限制，区域的特征是有冗余的，导致注意力模型中权重分散的问题。如果能够打破视觉特征固定区域化的限制，就可以提高图像描述的能力。

发明内容

为了解决上述技术问题，本发明提供一种基于属性增强注意力模型的图像描述网络，包括：

属性预测模型：用于使用注意力技术将图像特征作为输入，得到属性词的预测结果；所述图像特征为使用卷积神经网络抽取的图像的网格区域特征；

句子生成模型：用于通过注意力技术将属性预测模型的预测结果作为输入，生成句子；所述属性预测模型的预测结果包括属性词分布信息以及每个属性词对应的视觉特征。

进一步的，在属性预测模型中，使用循环神经网络捕捉属性词之间的关联关系和共生关系，使用卷积神经网络获取图像的网格区域特征，并使用编码器-解码器架构，进行模型的训练和使用。

进一步的，对于每个图像的属性词，根据属性词出现的频次大小进行排序，得到属性序列；同时使用交叉熵损失函数对属性预测模型进行训练，损失函数如下所示：

上述公式中，V是使用卷积神经网络抽取到的网格区域特征，s_t(t＝0，...，T)表示属性词，T是图片所对应的属性词序列长度。

进一步的，在句子生成模型中，将属性预测模型当作编码器，用于提取图像的属性分布信息和属性词对应的视觉特征来表征图片信息，并利用注意力技术，使得在句子生成的过程中能够自适应地根据不同方面的特征生成词，最终生成句子。

进一步的，句子生成模型使用交叉熵损失函数进行训练，损失函数如下：

上述公式中，C是属性预测模型输出的属性词视觉特征集合，y_t(t＝0，...，T)表示句子的每个单词，T是句子的长度。

进一步的，在使用训练得到的图像描述网络对待描述图像进行描述时，将待描述图像输入到属性预测模型中，使用贪心策略生成属性词分布，以及得到属性词对应的视觉特征；然后将得到的属性词分布信息和属性词对应的视觉特征通过注意力的方式输入到句子生成模型中，使用束搜索的方式生成句子。

本发明还提供一种基于属性增强注意力模型的图像描述技术，，包括：

S1.获取用于图像描述的数据集并对数据集进行数据预处理；所述数据集包括图像和用于描述图像的句子；所述数据预处理包括对图像进行属性词的抽取以及对句子进行预处理；

S2.利用卷积神经网络和循环神经网络，构建基于属性增强注意力模型的图像描述网络，所述图像描述网络包括属性预测模型以及句子生成模型；

S3.首先使用注意力技术将图像信息和属性词信息输入到属性预测模型进行训练，最大化属性词的似然概率，得到属性预测模型的预测结果，预测结果包括图像的属性词分布信息以及每个属性词对应的视觉特征；然后使用注意力技术将属性预测模型的预测结果和句子信息输入句子生成模型中进行训练；

S4.使用训练得到的图像描述网络对待描述图像进行描述。

进一步的，使用交叉熵损失函数对属性预测模型进行训练，损失函数如下所示：

进一步的，使用交叉熵损失函数对句子生成模型进行训练，损失函数如下：

进一步的，所述步骤S4包括：将待描述图像输入到属性预测模型中，使用贪心策略生成属性词分布，以及得到属性词对应的视觉特征；然后将得到的属性词分布信息和属性词对应的视觉特征通过注意力的方式输入到句子生成模型中，使用束搜索的方式生成句子。

与现有技术相比，本发明的有益效果在于：

本发明通过对属性词之间的相关关系和共生关系进行建模，使模型在预测属性时，不仅能利用图像的信息预测属性词，而且还能通过理解属性词之间的关系进行预测；同时在属性预测的基础上，引入相对于属性的图像信息特征，解决了目前注意力模型中存在的图像特征冗余以及存在和图像内容信息不相关特征的问题，提高了模型预测属性及图像描述的能力。

附图说明

图1为本发明的基于属性增强注意力模型的图像描述技术的原理图。

具体实施方式

实施例1

一种基于属性增强注意力模型的图像描述网络，包括：

在本实施例提供的图像描述网络中，在构建和训练图像描述网络之前，先要获取可以用于图像描述的数据集并对数据集进行数据预处理。数据集包括图像和用于描述图像的句子。数据预处理包括对图像进行预处理以及对句子进行预处理。

对图像进行预处理包括：对数据集中的图像进行属性词的抽取，具体的做法是将数据集中的单词去掉a，the，an等单词之后，按照频次选取最频繁出现的前1000个单词作为属性词表，然后为每一张图像根据所对应的句子进行属性词的抽取，并对于每张图像的属性词列表，根据其频次大小进行排序，得到属性词序列，频次越大越靠前。

对句子进行预处理首先将所有的单词都小写化，然后根据单词出现的频次对单词进行Id化，即对不同的单词赋予不同的数字，这个过程中会将出现次数小于5词的词替换为同一个的单词UNK。

在本实施例中，在属性预测模型中，使用循环神经网络捕捉属性词之间的关联关系和共生关系，使用卷积神经网络获取图像的网格区域特征，并使用编码器-解码器架构，进行模型的训练和使用。

在本实施例中，使用交叉熵损失函数对属性预测模型进行训练，损失函数如下所示：

在本实施例中，在句子生成模型中，将属性预测模型当作编码器，用于提取图像的属性分布信息和属性词对应的视觉特征来表征图片信息，并利用注意力技术，使得在句子生成的过程中能够自适应地根据不同方面的特征生成词，最终生成句子。

在本实施例中，句子生成模型使用交叉熵损失函数进行训练，损失函数如下：

上述公式中，C是属性预测模型输出的属性词视觉特征集合，y_t(t＝0，...，T)表示句子的每个单词，T是句子的长度，即句子中单词的个数。

在本实施例中，在使用训练得到的图像描述网络对待描述图像进行描述时，将待描述图像输入到属性预测模型中，使用贪心策略生成属性词分布，以及得到属性词对应的视觉特征；然后将得到的属性词分布信息和属性词对应的视觉特征通过注意力的方式输入到句子生成模型中，使用束搜索的方式生成句子。

实施例2

一种基于属性增强注意力模型的图像描述技术，包括：

S1.获取用于图像描述的数据集并对数据集进行数据预处理；数据集包括图像和用于描述图像的句子；数据预处理包括对图像进行属性词的抽取以及对句子进行预处理；

S2.利用卷积神经网络和循环神经网络，构建如实施例1所述的基于属性增强注意力模型的图像描述网络，图像描述网络包括属性预测模型以及句子生成模型；

S3.首先使用注意力技术将图像信息和属性词信息输入到属性预测模型，通过如下所示的交叉熵损失函数对属性预测模型进行训练，

上述公式中，V是使用卷积神经网络抽取到的网格区域特征，s_t(t＝0，...，T)表示属性词，T是图片所对应的属性词序列长度；

通过训练最大化属性词的似然概率，得到属性预测模型的预测结果，预测结果包括图像的属性词分布信息以及每个属性词对应的视觉特征；

然后使用注意力技术将属性预测模型的预测结果和句子信息输入句子生成模型中，通过如下所示的交叉熵损失函数对句子生成模型进行训练，

上述公式中，C是属性预测模型输出的属性词视觉特征集合，y_t(t＝0，...，T)表示句子的每个单词，T是句子的长度，即句子中单词的个数；

S4.使用训练得到的图像描述网络对待描述图像进行描述，具体包括：将待描述图像输入到属性预测模型中，使用贪心策略生成属性词分布，以及得到属性词对应的视觉特征；然后将得到的属性词分布信息和属性词对应的视觉特征通过注意力的方式输入到句子生成模型中，使用束搜索的方式生成句子。

下面以图像描述公开数据集MS COCO作为训练和测试的数据集对本实施例提供的基于属性增强注意力模型的图像描述技术进行详细说明。

COCO数据集有82783张图像用于训练，40504张图像用于测试，每张图像都至少有5个人工标记的英文句子。将数据集重新划分，用其中的5000张图像做模型验证，5000张图像做模型测试，剩余的图像全部用来训练模型。

(1)对数据集进行数据预处理，主要包括以下两个数据预处理过程：

第一是针对数据集中的图像进行属性词的抽取，便于后面对属性预测模型进行训练。具体的做法是将训练集中的单词去掉a、the、an等词之后，按照频次选取最频繁出现的前1000个词作为属性词表，然后为每一张图片根据所对应的句子进行属性词的抽取，并对于每张图片的属性词列表，根据其频次大小进行排序，得到属性词序列，频次越大越靠前。

第二是针对数据集中的句子进行预处理，首先将所有的单词都小写化，然后根据单词出现的频次对单词进行Id化，即对于不同的词赋予不同的数字，这个过程中会将出现次数小于5词的词替换为同一个的单词UNK。

(2)构建包括属性预测模型和句子生成模型的基于属性增强注意力模型的图像描述网络。

本发明提供的图像描述网络采用编码器-解码器架构作为属性预测模型以及句子生成模型的基础架构，并在此基础上嵌入注意力技术，具体如图1所示。

具体来说，给定图像信息I以及一段序列X＝{x₀，x₁，x₂，...，x_T}，编码器需要能够根据已知的图像信息I和已经生成的序列片段{x₀，x₁，x₂，...，x_t}，预测出下一个词x_t+1。本发明采用resent101卷积神经网络(CNN)作为编码器，将图像信息编码成一个向量或是一组向量，用I表示，然后采用长短时记忆网络(LSTM，一种循环神经网络)作为解码器，从图像信息I中解码出序列。训练时，模型要优化的损失函数是交叉熵损失函数，如下所示：

其中，T是句子的长度，θ是要学习的模型参数，θ^*是取得损失函数最小的模型参数。

上式中的条件概率项由循环神经网络得到：

logp(x_t+1|Ix₀，x₁，...，x_t)＝f(z_t，x_t，h_t-1，m_t-1)

其中，f_O表示循环神经网络函数，z_t和x_t表示t时刻输入到循环神经网络的数据，而h_t-1和m_t-1是上一个时刻(t-1)循环神经网络更新后的隐藏状态向量(hidden statevector)和细胞状态向量(cell state vector)。

此处采用长短时记忆网络来构造f_O:

i_t＝σ(W_izz_t+W_ixx_t+W_ihh_t-1+b_i)

f_t＝σ(W_fzz_t+W_fxx_t+W_fhh_t-1+b_f)

o_t＝σ(W_ozz_t+W_oxx_t+W_ohh_t-1+b_o)

c_t＝i_t⊙σ(W_czz_t+W_cxx_t+W_chh_t-1+b_c)+f_t⊙c_t-1

h_t＝o_t⊙tanh(c_t)

P_t＝softmax(W_lhh_t+b_l)

其中，W是要学习的参数，i_t，f_t，o_t分别表示长短时记忆网络中输入门、遗忘门、输出门，c_t和h_t是更新之后的隐藏状态向量和细胞状态向量，p_t是当前时刻的词的概率分布。

在属性预测模型中，首先通过数据驱动的方式，从图像和属性以及属性和属性之间两种不同的角度利用循环神经网络进行建模，使得预测的属性之间更加相关；然后将属性预测的结果，即属性词信息以及和属性词对应的视觉信息通过注意力模块应用到句子生成模型中，得到最终的图像描述性语句，实现了属性增强的图像描述技术。具体如下：

1)属性预测模型对图像和属性之间以及属性和属性之间的关系建立模型，从而提高属性词预测的准确度。为了捕捉属性词之间的共生关系，采用长短时记忆网络来建模。同时结合视觉注意力技术，使得属性预测模型能够根据模型学到的知识自适应地关注下一个属性词所关联的视觉特征。利用resent101卷积神经网络的卷积特性，将图像分割成网格状区域，并提取了最后一个卷积层的输出当作图像区域的视觉特征，用V＝{v_i|i＝0，1，2，...，k，v_i∈R^D}表示，k表示区域的数量。将图像信息编码成V后，我们用长短时记忆网络来解码生成属性，具体如下式所示：

其中s_t是t时刻输入长短时记忆网络的属性词，用于生成下一个属性词，h_t-1和m_t-1表示隐藏状态向量和记忆状态向量，

是由视觉注意力模型产生的图像信息，由下式决定：

α_t＝softmax(W_atanh(W_avV+(W_ahh_t-1)1^T))

首先，根据当前的隐藏向量的状态信息h_t-1，在每个区域特征上面产生一个权重值，形成t时刻注意点在区域上的一个权重分布α_t，然后根据权重分布，对区域特征进行加权求和，并经过非线性变换σ形成最终的自适应图像特征。

隐藏状态向量和细胞状态向量的更新如下：

属性词的预测函数根据更新后的隐藏状态向量构造属性词的概率分布：

2)句子生成模型利用属性增强的注意力技术，通过感知句子中词和词之间的跳转关系逐词生成句子。首先把集合了视觉注意力模型的属性预测模型当作编码器，产生属性级别的图像特征，包括两个方面的特征，一是属性词的信息，用二值0-1向量I_s表示，0表示该属性词和图像无关，1表示该属性词和图像有关；二是和属性词关联的视觉特征，用C＝{c₀，c₁，...，c_l}表示，l是预测的属性词的个数，其中

的计算与属性预测模型中相同。选用另一个长短时记忆网络作为解码器，生成句子。这个过程可以用

表示，其中y_t是t时刻输入给长短时记忆网络的词，用于生成下一个词，

和

表示隐藏状态向量和记忆状态向量，

是由视觉注意力模型产生的图像信息，由下式决定：

首先，根据当前的隐藏向量的状态信息

在每个属性词的视觉特征上面产生一个权重值，形成t时刻注意点在区域上的一个权重分布β_t，然后根据权重分布，对属性视觉特征进行加权求和，并经过非线性变换σ形成最终的自适应图像特征。

隐藏状态向量和细胞状态向量的更新如下：

(3)对图像描述网络进行训练，包括以下两个阶段：

第一个阶段是对属性预测模型进行训练，具体步骤如下：首先使用resent101卷积神经网络抽取图像的网格区域特征，过程中没有对图像进行裁剪或者放缩；对于经resent101抽取得到的特征图，使用空间平均池化技术，使得特征图的大小为14×14×2048(2048是特征的维度)；然后使用注意力技术将图像信息和属性词的信息输入到长短时记忆网络中去最大化属性词的似然概率。

属性预测模型的训练过程中，优化的交叉熵损失函数如下：

训练过程中，t+1时刻输入给长短时记忆网络的词是图像的真实属性词，经过最小化上述损失函数，网络学习到了属性词和属性词之间的共生关系，使得从t时刻得到的属性词的概率分布中采样得到的词尽可能是和图像相关的真实属性词。在属性生成的过程中，模型将根据t时刻属性词的概率分布中选取最大概率的词输入到网络中，从而达到预测下一个属性词的目的。

第二个阶段是对句子生成模型进行训练，具体步骤如下：使用注意力技术将属性预测模型训练得到图像的属性词分布信息和每个属性词对应的视觉特征以及句子的信息输入到另一个长短时记忆网络中，并通过交叉熵的损失函数进行训练，具体如下所示：

在句子生成的过程中，模型将根据t时刻属性词的概率分布中采样出一个词输入到网络中，从而达到预测下一个属性词的目的。同时为了提高句子生成的质量，通常使用束搜索(Beam search)进行生成句子。

在训练属性预测模型和句子生成模型的过程中的两种循环神经网络的隐藏向量的维度、词向量的维度以及注意力技术中的潜藏空间特征维度都固定为1000。

属性预测模型训练阶段和句子生成模型训练阶段都使用Adam算法进行更新梯度，初始学习率设置为5×10e-4，每完整训练两次数据集，学习率降低为原来的0.9，整个训练过程持续30轮结束。

(4)对训练得到的图像描述网络进行测试。在测试过程中，对属性预测模型使用贪心策略生成属性词分布；对于句子生成模型采用大小为3的束搜索方式生成句子。

本发明提供的基于属性增强注意力模型的图像描述技术结合了目前基于属性和基于视觉注意力的两大类算法，提高了图像描述算法生成的句子质量。本发明提供的图像描述技术在目前主流的图像描述公开数据集MS COCO获得了性能上的提升。相比于对比的模型，本发明提供的图像描述技术可以达到104.4％的CIDEr值，提高了4.2％。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于属性增强注意力模型的图像描述网络装置，其特征在于，包括：

属性预测模型：用于使用循环神经网络捕捉属性词之间的关联关系和共生关系，使用卷积神经网络获取图像的网格区域特征，并使用编码器-解码器架构，进行模型的训练和使用，将图像特征作为输入，得到属性词的预测结果；所述图像特征为使用卷积神经网络抽取的图像的网格区域特征；

输入图像特征为

公式表示如下：

a_t＝soft max(W_atanh(W_avV+(W_ahh_t-1)1^T))；

其中，V为图像信息编码；V＝{v_i|i＝0,1,2....,k,v_i∈R^D}，k表示区域的数量；

句子生成模型：用于通过感知句子中词和词之间的跳转关系逐词生成句子；首先把集合了视觉注意力模型的属性预测模型当作编码器，产生属性级别的图像特征，包括两个方面的特征，一是属性词的信息，用二值0-1向量I_s表示，0表示该属性词和图像无关，1表示该属性词和图像有关；二是和属性词关联的视觉特征，用C＝{c₀,c₁,.....,c₁}表示，l是预测的属性词的个数，其中

的计算与属性预测模型中相同；选用另一个长短时记忆网络作为解码器，生成句子；所述属性预测模型的预测结果包括属性词分布信息以及每个属性词对应的视觉特征；

预测结果为：

由下式决定：

C为属性词关联的视觉特征；用c＝{c₀,c₁,...,c₁}表示，σ为非线性变换。

2.根据权利要求1所述的图像描述网络装置，其特征在于，对于每个图像的属性词，根据属性词出现的频次大小进行排序，得到属性序列；同时使用交叉熵损失函数对属性预测模型进行训练，损失函数如下所示：

上述公式中，V是使用卷积神经网络抽取到的网格区域特征，s_t＝(t＝0,....,T)表示属性词，T是图片所对应的属性词序列长度。

3.根据权利要求2所述的图像描述网络装置，其特征在于，句子生成模型使用交叉熵损失函数进行训练，损失函数如下：

上述公式中，C是属性预测模型输出的属性词视觉特征集合，y_t＝(t＝0,....,T)表示句子的每个单词，T是句子的长度。

4.根据权利要求1和3中任一所述的图像描述网络装置，其特征在于，在使用训练得到的图像描述网络装置对待描述图像进行描述时，将待描述图像输入到属性预测模型中，使用贪心策略生成属性词分布，以及得到属性词对应的视觉特征；然后将得到的属性词分布信息和属性词对应的视觉特征通过注意力的方式输入到句子生成模型中，使用束搜索的方式生成句子。

5.一种基于属性增强注意力模型的图像描述方法，其特征在于，包括：

S2.利用卷积神经网络和循环神经网络，构建如权利要求1-4任一所述的基于属性增强注意力模型的图像描述网络装置，所述图像描述网络装置包括属性预测模型以及句子生成模型；

S4.使用训练得到的图像描述网络装置对待描述图像进行描述。

6.根据权利要求5所述的图像描述方法，其特征在于，使用交叉熵损失函数对属性预测模型进行训练，损失函数如下所示：

7.根据权利要求5或6所述的图像描述方法，其特征在于，使用交叉熵损失函数对句子生成模型进行训练，损失函数如下：

8.根据权利要求7所述的图像描述方法，其特征在于，所述步骤S4包括：将待描述图像输入到属性预测模型中，使用贪心策略生成属性词分布，以及得到属性词对应的视觉特征；然后将得到的属性词分布信息和属性词对应的视觉特征通过注意力的方式输入到句子生成模型中，使用束搜索的方式生成句子。