CN109948691A

CN109948691A - 基于深度残差网络及注意力的图像描述生成方法和装置

Info

Publication number: CN109948691A
Application number: CN201910194384.8A
Authority: CN
Inventors: 杨振宇; 张姣
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2019-06-28
Anticipated expiration: 2039-03-14
Also published as: CN109948691B

Abstract

本发明公开了一种基于深度残差网络及注意力的图像描述生成方法和装置，解决了深度神经网络精准度下降的问题，利用深度残差网络学习图像从底层到高层的图像特征，产生丰富的输入图像表示，然后结合注意力的循环长短期记忆网络来产生自然通顺的描述句子。该方法包括以下步骤：获取大量的图像样本数据，并对其进行预处理；提取预处理后的图像样本数据的图像特征；利用残差神经网络模型对提取的图像特征进行处理，产生图像表示；将图像表示映射到基于注意力的循环长短期记忆网络语言模型的输入端，利用基于注意力的循环长短期记忆网络语言模型预测图像的词向量，产生图像的描述句子。

Description

基于深度残差网络及注意力的图像描述生成方法和装置

技术领域

本公开涉及图像处理领域，具体涉及一种基于深度残差网络及注意力的图像描述生成方法和装置。

背景技术

图像描述生成技术与图像语义分析、图像标注和图像高级语义提取等技术紧密相关。深度学习近年来在图像和自然语言处理任务上都表现出了良好的性能。

近年来，在图像分类和图像识别上深度卷积网络取得了一系列突破。深度网络通过叠加层的深度，使得特征变得更加丰富。许多重大的视觉识别任务也都从深度模型中获益。但是随着网络深度的增加，精准度开始饱和，然后迅速下降，出现模型退化问题。发明人在研发过程中发现，精准度的下降并不是由过度拟合造成的，而是在深度模型中增加更多的层数造成了更高的训练误差。残差网络应用的经典实例表明，一个更深的残差网络特征提取模型不会产生比浅层模型更高的训练误差。

虽然深度神经网络在图像描述生成上表现出了很强大的处理能力，但仍然存在一些问题没有解决：随着网络深度的增加，模型训练效果并没有出现最佳状态，反而准确率会出现趋于饱和并下降的现象,但是残差网络可以有效解决这一退化现象；提取图像特征时，关注点比较单一，提取的图像特征利用不充分，注意力机制可以很好地处理图像特征关注点的选取。

发明人在研发过程中发现，现有技术中对于随着网络深度的增加，模型训练效果并没有出现最佳状态，反而准确率会出现趋于饱和并下降的现象；提取图像特征时，关注点比较单一，提取的图像特征利用不充分。

发明内容

为了克服上述现有技术的不足，本公开提供了一种基于深度残差网络及注意力的图像描述生成方法和装置，解决了深度神经网络精准度下降的问题，利用深度残差网络学习图像从底层到高层的图像特征，通过将输入图像嵌入到一个固定的矢量中来产生丰富的输入图像表示，然后结合注意力的循环长短期记忆网络来产生自然通顺的描述句子。

本公开所采用的技术方案是：

一种基于深度残差网络及注意力的图像描述生成方法，该方法包括以下步骤：

获取大量的图像样本数据，并对其进行预处理；

提取预处理后的图像样本数据的图像特征；

利用残差神经网络模型对提取的图像特征进行处理，产生图像表示；

将图像表示映射到基于注意力的循环长短期记忆网络语言模型的输入端，利用基于注意力的循环长短期记忆网络语言模型预测图像的词向量，产生图像的描述句子。

进一步的，所述获取大量的图像样本数据，并对其进行预处理的步骤包括：

获取大量的图像样本数据，构建训练集；

从训练集中随机抽取一定数量的图像样本数据，并对这些图像样本数据进行除噪、放大缩小，亮度、对比度、饱和度调整、标准化以及图像的色彩空间转化处理。

进一步的，所述提取预处理后的图像样本数据的图像特征的步骤包括：

将预处理后的图像样本数据输入至深度残差网络模型的每个堆叠层中；

每一个堆叠层的主干部分对输入图像样本数据进行卷积神经网络学习，输出第一特征图；每一个堆叠层的分支部分通过恒等映射输出与第一特征图维度一致的第二特征图，将每一个堆叠层输出的第一特征图和第二特征图相结合，得到每一个堆叠层最终输出的特征图；

通过全连接层将所有堆叠层最终输出的特征图进行叠加，得到深度残差网络模型最终输出的特征图。

进一步的，所述利用残差神经网络模型对提取的图像特征进行处理的步骤包括：

将图像特征嵌入到一个固定的矢量中，并对图像特征进行线性变换，得到图像表示，并将产生的图像表示映射到基于注意力的循环长短期记忆网络语言模型的输入端。

进一步的，所述基于注意力的循环长短期记忆网络语言模型为：

x_-1＝Inception-resnet(I)；

x_t＝W_eS_t,t＝0…N-1；

p_t+1＝BiLSTM(x_t)。

其中，Inception-resnet(I)为图像I的图像表示，x_-1为循环长短期记忆网络模型的第一个输入；S_t表示单词t的|V|×1维的独热向量；W_e是一个512×|V|的字嵌入矩阵；x_t为t时刻循环长短期记忆网络语言模型输出的词向量；p_t+1为t+1时刻循环长短期记忆网络语言模型预测的词向量。

进一步的，所述利用基于注意力的循环长短期记忆网络语言模型预测图像的词向量，产生图像的描述句子的步骤包括：

初始化基于注意力的循环长短期记忆网络语言模型；

将图像表示输入基于注意力的循环长短期记忆网络语言模型，并输入句子标记的特殊开始单词和上一时刻基于注意力的循环长短期记忆网络语言模型预测的单词；

将每个单词嵌入到向量集中，对整个向量集中单词进行独热编码，得到独热编码后的词向量；

将经过独热编码后的词向量、提取的图像特征以及上一时刻基于注意力的循环长短期记忆网络语言模型的输出状态联合输入到基于注意力的循环长短期记忆网络语言模型中，得到每一个图像特征的注意力权重；

将每一个图像特征的注意力权重与该图像特征的乘积相求和，得到当前时刻基于注意力的循环长短期记忆网络语言模型预测的词向量；

将基于注意力的循环长短期记忆网络模型当前时刻预测的词向量作为下一时刻的循环长短期记忆网络语言模型的词向量，重复上述步骤，直至得到所有时刻基于注意力的循环长短期记忆网络语言模型预测的词向量；

选取每一时刻基于注意力的循环长短期记忆网络语言模型预测的词向量中概率最大的词连接成图像的描述句子。

进一步的，所述图像特征的注意力权重计算方法为：

α_t＝softmax(a_t)

其中，x_i为提取的图像特征x_i决定，参数W_vα、W_hα为待学习的参数,α_t为图像特征x_i的注意力权重。

一种基于深度残差网络及注意力的图像描述生成装置，该装置包括：

样本数据获取模块，用于获取大量的图像样本数据，并对其进行预处理；

图像特征提取模块，用于提取预处理后的图像样本数据的图像特征；

图像表示产生模块，用于利用残差神经网络模型对提取的图像特征进行处理，产生图像表示；

描述句子产生模块，用于将图像表示映射到基于注意力的循环长短期记忆网络语言模型的输入端，利用基于注意力的循环长短期记忆网络语言模型预测图像的词向量，产生图像的描述句子。

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行如上所述的一种基于深度残差网络及注意力的图像描述生成方法。

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行如上所述的一种基于深度残差网络及注意力的图像描述生成方法。

通过上述技术方案，本公开的有益效果是：

(1)本公开采用深度残差网络模型对预处理后的图像样本数据进行特征提取，得到图像的多层特征表达，不同层次的信息越多，不同层次间的组合也就越多，对图像的识别和分类就越有效；不同层次的特征提取不仅解决了性能处理的退化问题，也解决了梯度问题。

(2)本公开采用残差神经网络模型将输入图像特征嵌入到一个固定的矢量中来产生丰富的输入图像表示，不仅充分利用了不同层次的图像特征，而且加快了图片识别和分类的速度和效果；对接下来的句子生成部分起着至关重要的作用，图像的识别和分类越准确，句子的生成部分越满足语法要求。

(3)本公开采用结合注意力的循环长短期记忆网络语言模型来产生图像的自然通顺的描述句子，充分学习句子中预测单词过去和未来的背景信息，不仅能学习长时间的依赖关系，还能使用内部神经记忆单元的存储信息。解决了梯度爆炸和梯度消失问题；

(4)本公开采用残差网络可以有效解决训练结果准确率会出现趋于饱和并下降的现象；采用注意力机制可以很好地处理图像特征关注点的选取的问题。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本申请，并不构成对本公开的不当限定。

图1是根据一种或多种实施方式的基于深度残差网络及注意力的图像描述生成方法流程图；

图2是根据一种或多种实施方式的图像特征提取的网络模型整体结构图；

图3是根据一种或多种实施方式的深度残差网络模块结构图；

图4是根据一种或多种实施方式的基于注意力的Bi-LSTM语言模型结构图；

图5是根据一种或多种实施方式的图像描述生成方法在不同数据集上的特征提取示例图；

图6是根据一种或多种实施方式的MSCOCO数据集上的图像描述示例图；

图7是根据一种或多种实施方式的Flick30K数据集上的图像描述示例图；

图8是根据一种或多种实施方式的Oxford-102数据集上的图像描述示例图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

名词解释：

(1)卷积神经网络，Convolutional Neural Networks,CNN。

(2)深度残差网络，Deep Residual Network。

(3)ResNet，Residual Network，残差网络。

(4)循环长短期记忆网络，Bi-Direction Attention Long Short-Term MemoryNetworks，Bi-LSTM。

(5)Inception-resnet，卷积神经网络模型。

一种或多种实施例提供一种基于深度残差网络及注意力的图像描述生成方法，以加强图像特征提取到图像描述映射为研究内容，结合不同视觉注意力进行端到端的训练，有效提高模型的学习能力。

请参阅附图1，该方法包括以下步骤：

S101，获取大量的图像样本数据，并对其进行预处理。

具体的，所述步骤101中，获取大量的图像样本数据，并构建训练集，从训练集中随机抽取一定数量的图像样本数据，并对这些图像样本数据进行除噪、放大缩小，亮度、对比度、饱和度调整，图像的标准化以及图像的色彩空间转化等处理。

S102，提取预处理后的图像样本数据的图像特征。

在本实施例中，采用深度残差网络模型对预处理后的图像样本数据进行特征提取，选取不同大小的卷积核对输入图像进行卷积池化操作，最后通过一个全连接层得到最终的图像特征表示。

上述的深度残差网络模型是将残差网络(Residual Network)和卷积神经网络(Inception Network)的结构相结合，卷积神经网络(Inception Network)用于对输入的数据进行预处理，残差网络(Residual Network)用于降低特征图的尺寸，是卷积层和池化层的联结。

在本实施例中，采用深度残差网络模型对大量的图像样本数据进行训练，使得网络的隐含层学习图像的多层特征表达。请参阅附图2，深度残差网络模型中每一个堆叠层都采用残差网络学习，每个堆叠层包含两个部分，分别为：主干(trunk branch)和分支(maskbranch)，其中，主干可以是现有的任何一种卷积神经网络模型，是基本的卷积网络的结构，输入图像通过可训练的滤波器和可加偏置进行卷积，产生特征映射图，然后对特征映射图中的像素进行求和、加权值、加偏置，通过sigmoid函数得到新的特征映射图，再通过滤波，以此类推，最终这些像素被连接成一个向量输入到传统神经网络得到输出特征图；分支通过恒等映射输出维度一致的特征图(Identity Feature Map)；然后将主干和分支的特征图组合在一起，输出最终的特征图。

假如，主干输出特征图为A_i,c(x)，分支的输出特征图为B_i,c(x)。那么，最终堆叠层的输出特征图为：H_i,c(x)＝A(x)+B_i,c(x)，其中，i表示图像空间位置，c∈{1,…,C}表示通道的索引。

主干输出特征图A_i,c(x)，也就是一个深层的卷积神经网络学习的输入与输出之间的残差结果，通过不断地叠加每个堆叠层的输出结果可以逐渐提升网络的表达能力。越是深层，该模型越会关注对图像描述有帮助的目标上。最终基于深度残差网络模型的图像特征提取特征图为：H_i,c(x)＝{x₁,x₂,…x_L},x_i∈R^D，其中L表示特征向量的个数，D表示特征向量的维数。

具体的，所述步骤102中，提取预处理后的图像样本数据的特征，采用如下方式实现：

S102-1，输入预处理后的图像样本数据至深度残差网络模型的每个堆叠层中。

S102-2，每一个堆叠层的主干对输入图像样本数据进行卷积神经网络学习，输出第一特征图；每一个堆叠层的分支通过恒等映射输出维度一致的第二特征图，将每一个堆叠层输出的第一特征图和第二特征图相结合，得到每一个堆叠层最终输出的特征图。

S102-3，将所有堆叠层最终输出的特征图进行叠加，得到深度残差网络模型最终输出的特征图。

在本实施例中，通过一个全连接层将所有堆叠层最终输出的特征图进行叠加，得到深度残差网络模型最终输出的特征图。

本实施例采用深度残差网络模型对预处理后的图像样本数据进行特征提取，得到图像的多层特征表达，不同层次的信息越多，不同层次间的组合也就越多，对图像的识别和分类就越有效；不同层次的特征提取不仅解决了性能处理的退化问题，也解决了梯度问题。

S103，采用残差神经网络模型对步骤102的图像特征进行处理，产生丰富的图像表示。

具体的，所述步骤103中，输入图像特征至残差神经网络模型，采用残差神经网络模型(Inception-resnet网络模型)的1792×1最后一层来表示图像I的特征向量x(I)，对特征向量x(I)进行线性变换，得到图像表示，并将其映射到循环长短期记忆网络模型所期望的512×1输入端，请参阅附图3。

残差神经网络模型产生的图像表示为：

Inception-resnet(I)＝W^Ix(I)+b^I

式中，W为权重向量；x(I)为图像I的特征向量；b为偏置。

具体的，所述步骤103中，采用残差神经网络模型对图像特征进行处理，产生图像表示，具体实现方式如下：

S103-1，将输入的图像特征嵌入到一个固定的矢量中；

S103-2，对图像特征进行线性变换，得到图像表示，并将该图像表示映射到循环长短期记忆网络语言模型(Bi-LSTM)的输入端。

本实施例采用残差神经网络模型将输入图像特征嵌入到一个固定的矢量中来产生丰富的输入图像表示，不仅充分利用了不同层次的图像特征，而且加快了图片识别和分类的速度和效果，对接下来的句子生成部分起着至关重要的作用，图像的识别和分类越准确，句子的生成部分越满足语法要求。

S104，采用基于注意力的循环长短期记忆网络模型来产生图像的描述句子。

具体的，所述步骤104中，将输入图像表示映射到基于注意力的循环长短期记忆网络语言模型(Bi-LSTM)的输入端，产生图像的自然通顺的描述句子。循环长短期记忆网络可以高效地将语言和图像特征相融合，将上下文的每个单词进行编码，请参阅附图4。

初始化一个初始状态等于零的基于注意力的循环长短期记忆网络语言模型，将图像表示:Inception-resnet(I)作为基于注意力的循环长短期记忆网络语言模型的第一个输入，如x_-1＝Inception-resnet(I)。后继输入是句子标记的开头和句子中的所有单词，记为x_t＝W_eS_t,t＝0…N-1，其中，S_t表示单词t的|V|×1维的独热向量，S₀和S_n表示句子的特殊开始和结束的一个独热向量，W_e是一个512×|V|的字嵌入矩阵。

基于注意力循环长短期记忆网络语言模型(以下简称基于注意力的Bi-LSTM语言模型)的每一个隐藏状态都发出对句子中下一个单词的预测，记为p_t+1＝BiLSTM(x_t)，该Bi-LSTM语言模型由下列方程组描述：

x_-1＝Inception-resnet(I)；

x_t＝W_eS_t,t＝0…N-1；

p_t+1＝BiLSTM(x_t)。

最后，利用预测的交叉熵损失函数，在每次迭代时对循环长短期记忆网络语言模型参数进行评估。因此，损失函数最小化如下：

其中，I表示图像，S表示生成句子，P_t(S_t|S_1:t-1)表示模型输出单词S_t的概率，N表示训练集中图像句子对的数目。

具体的，所述步骤104中，采用基于注意力的循环长短期记忆网络语言模型来产生图像的描述句子，其具体实现方式如下：

S104-1，初始化初始状态等于零的基于注意力的Bi-LSTM语言模型。

S104-2，将图像表示:Inception-resnet(I)输入基于注意力的Bi-LSTM语言模型，并输入句子标记的特殊开始单词S₀和上一时刻预测的单词S_i-1。

S104-3，将每个单词嵌入到向量集中，对整个向量集中单词进行独热编码。

在本实施例中，采用一个独热嵌入矩阵将每个单词u_t嵌入到向量集e_t中，然后使用基于注意力的Bi-LSTM语言模型对整个向量集中每个单词进行编码，得到独热编码后的词向量。

每个单词的最后隐藏表示是隐藏向量在两个方向上的级联：

s_t＝embedding(u_t)

上下文向量捕获与特定输入位置相关的视觉信息，embedding是嵌入矩阵，s_t表示经过独热编码后的词向量，x_i表示提取的图像特征向量，表示上一时刻Bi-LSTM模型的输出状态，t表示当前时刻，t-1表示前一时刻。

S104-4，将经过独热编码后的词向量、提取的图像特征向量以及上一时刻Bi-LSTM模型的输出状态联合输入到基于注意力的Bi-LSTM语言模型结构中，得到每一个图像特征的注意力权重，将每一个图像特征的注意力权重与该图像特征向量的乘积相求和，得到当前时刻Bi-LSTM语言模型结构的输出词向量。

在本实施例中，基于注意力的Bi-LSTM语言模型的输入包含三部分：其中，表示上一时刻基于注意力的Bi-LSTM语言模型的输出状态，t表示当前时刻，t-1表示前一时刻，s_t表示经过独热编码后的词向量，x_i表示提取的图像特征向量。

将上述的融合输入到基于注意力的Bi-LSTM语言模型结构中，得到图像特征的注意力权重为：

α_t＝softmax(a_t)

注意力权重完全由图像特征x_i决定，参数W_vα、W_hα为待学习的参数,得到每一个图像特征x_i的注意力权重α_t，则基于注意力的Bi-LSTM语言模型结构最后的输出为z_t＝∑_iα_tx_i。

S104-5，将基于注意力的Bi-LSTM语言模型结构当前时刻的输出词向量作为下一时刻的输入基于注意力的Bi-LSTM语言模型结构的词向量，重复步骤上述步骤，直至得到所有时刻Bi-LSTM语言模型结构的输出词向量。

在本实施例中，将上一时刻的输出z_t和h_t作为下一层的输入，如下式所示：s_t＝[z_t,h_t]，其中s_t为在t时刻的输入。Bi-LSTM的初始隐藏状态是通过输入的注释向量的平均值来预测的：

S104-6，选取基于注意力的Bi-LSTM语言模型结构每一时刻输出的词向量中概率最大的词连接成描述句子，作为基于注意力的Bi-LSTM语言模型的最终输出结果。

在本实施例中，在基于注意力的Bi-LSTM语言模型最终层后连接全连接层，选取每一时刻的输出中概率最大的单词连接成图像的描述句子，作为模型的最终输出结果：

其中，W₀,W_h,W_z和E是随机初始化的学习参数。

本实施例采用结合注意力的循环长短期记忆网络模型来产生图像的自然通顺的描述句子，充分学习句子中预测单词过去和未来的背景信息。不仅能学习长时间的依赖关系，还能使用内部神经记忆单元的存储信息。解决了梯度爆炸和梯度消失问题。

一种或多种实施方式还提供了对上述的图像描述生成方法的性能评估。

在本实施例中，针对图像特征提取，利用不同的网络模型进行特征提取；采用深度残差网络模型(Inception-resnet模型)代替原来的Inception模型，以证明深度残差网络模型在参数效率和最终性能上都超越了原始网络。

在本实施例中，采用大量的数据集，这些数据集包括图片以及由英语组成的句子。这些数据集的统计信息如表1所示。

表1数据集统计信息

在本实施例中，基于TensorFlow-GPU的图像字幕模型，这是广泛采用的深度学习框架之一。具体来说，图像特征提取采用了相同的权值初始化方法，残差缩放因子采用0.0451，采用RMSProp的优化方法，自动调节学习速率。初始学习率为2.0，ε设为1.0，训练批次大小设为256，并经过80000次停止迭代。图像语言生成采用的是循环长短期记忆网络Bi-LSTM，设置输入维度n＝512，非线性激活函数σ使用tanh，使用300维的Glove特征表示作为词嵌入，通过减少频率小于5的单词来修剪词汇量，在所有的实验中都使用相同的词汇。

为了对本实施例提出的图像描述生成方法进行评估，本实施例中采用了以下几个个指标：BLEU@N，METEOR和CIDEr-D。所有的衡量标准都是使用COCO评估服务器发布的代码来计算的。

在MSCOCO数据集、Flickr30数据集和Oxford-102数据集上,分别进行了VGG_16模型、VGG_19模型和Inception-resnet模型对图像的特征提取的对比试验，如图5所示。图5中展示了不同模型对示例图像特征抽取的能力。实验过程中，深度残差网络模型在训练和测试速度上都优于其他模型。

本实施例在语言模型方面也做了不同的模型测试。在数据集MSCOCO上,对于用深度残差网络模型提取的图像特征，输入到基于注意机制的语言模型和没添加注意机制的语言模型中，评价得分如表2所示。

表2 LSTM和ALSTM模型在不同数据集上的表现

模型	数据集	B@1	B@2	B@3	B@4	Meteor
							LSTM	MSCOCO	68.4	56.1	42.3	31.3	24.3
Bi-LSTM	MSCOCO	71.1	56.5	43.0	32.1	25.2
							LSTM	Flickr30K	69.7	55.3	41.3	30.7	23.6
Bi-LSTM	Flickr30K	71.1	56.2	42.5	32.3	25.1

在数据集MSCOCO中，本实施例的图像描述生成方法主要与以下模型结果性能做了对比，如表3所示。从表3中可以看出，基于深度残差网络的图像描述方法有着较好的性能.

表3不同模型在MSCOCO数据集上的性能指标

模型	B@1	B@2	B@3	B@4	Meteor
						Google NIC	66.6	45.1	30.4	20.3	--
LRCN	62.8	44.2	30.4	21	--
						Att-CNN+LSTM	74.0	56.0	42.0	31.0	26.0
Deep-Vis	62.5	45.0	32.1	23.0	19.5
						ATT-FCN	70.9	53.7	40.2	30.4	24.3
Show attend and tell	71.8	50.4	35.7	25.0	23.04
						图像描述生成方法	71.1	56.5	43.0	32.1	25.2

在数据集Flickr30K中，本实施例的图像描述生成方法主要与以下模型进行了对比，如表4所示。

表4不同模型在Flick30K数据集上的性能指标

在数据集Oxford-102上，本实施例的图像描述生成方法主要与DCC,Source Pre-trained以及Show-Adapt-tell模型进行了比较，如表5所示。

表5不同模型在Oxford-102数据集上的性能指标

模型	B@1	B@2	B@3	B@4	Meteor
						DCC	51	33.8	24.1	16.7	21.5
Source Pre-trained	48.3	21.6	6.2	1.3	10.5
						Show-Adapt-tell	85.6	76.9	67.4	60.5	36.4
Model of this paper	85.8	77.2	67.5	61.1	36.7

虽然以往的图像描述模型也能合理地生成相关的句子，但是本实施例的图像描述生成方法可以生成更具体更详细的描述句子。图6展示的是本实施例的图像描述生成方法与Google NIC模型对某一图像内容的描述语句，图中Google NIC模型用“a group ofpeople”描述“people”这个概念很宽泛，不够具体明确。而本实施例不仅用了“Four”具体量化了“people”这一概念，而且还准确地描述了“bags on their bags”这一特征。图中的Google NIC模型很明显在句子的特征和表达上有明显不足。本实施例的图像描述生成方法将人身上的“black hat”和“red coat”的特征都描述了出来，尤其是将场景“in thecrowd”也描述了出来。本事死华丽采用残差网络对图像特征进行深度提取识别，极大地提高了图像描述的准确度。其他在数据集Flickr和数据集Oxford-102的描述示例如图7、8所示。

一种或多种实施方式还提供了一种基于深度残差网络及注意力的图像描述生成装置，该装置包括：

一种或多种实施方式还提供了一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行如上所述的一种基于深度残差网络及注意力的图像描述生成方法。

一种或多种实施方式还提供了一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行如上所述的一种基于深度残差网络及注意力的图像描述生成方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种基于深度残差网络及注意力的图像描述生成方法，其特征是，该方法包括以下步骤：

获取大量的图像样本数据，并对其进行预处理；

提取预处理后的图像样本数据的图像特征；

2.根据权利要求1所述的基于深度残差网络及注意力的图像描述生成方法，其特征是，所述获取大量的图像样本数据，并对其进行预处理的步骤包括：

获取大量的图像样本数据，构建训练集；

3.根据权利要求1所述的基于深度残差网络及注意力的图像描述生成方法，其特征是，所述提取预处理后的图像样本数据的图像特征的步骤包括：

4.根据权利要求1所述的基于深度残差网络及注意力的图像描述生成方法，其特征是，所述利用残差神经网络模型对提取的图像特征进行处理的步骤包括：

5.根据权利要求1所述的基于深度残差网络及注意力的图像描述生成方法，其特征是，所述基于注意力的循环长短期记忆网络语言模型为：

x_-1＝Inception-resnet(I)；

x_t＝W_eS_t,t＝0…N-1；

p_t+1＝BiLSTM(x_t)

6.根据权利要求1所述的基于深度残差网络及注意力的图像描述生成方法，其特征是，所述利用基于注意力的循环长短期记忆网络语言模型预测图像的词向量，产生图像的描述句子的步骤包括：

初始化基于注意力的循环长短期记忆网络语言模型；

7.根据权利要求6所述的基于深度残差网络及注意力的图像描述生成方法，其特征是，所述图像特征的注意力权重计算方法为：

α_t＝softmax(a_t)

8.一种基于深度残差网络及注意力的图像描述生成装置，其特征是，包括：

9.一种计算机可读存储介质，其中存储有多条指令，其特征是，所述指令适于由终端设备的处理器加载并执行如权利要求1至7中任一项所述的一种基于深度残差网络及注意力的图像描述生成方法。

10.一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征是，所述指令适于由处理器加载并执行如权利要求1至7中任一项所述的一种基于深度残差网络及注意力的图像描述生成方法。