CN108665055B

CN108665055B - 一种图说生成方法及装置

Info

Publication number: CN108665055B
Application number: CN201710283696.7A
Authority: CN
Inventors: 黄欢; 赵刚
Original assignee: Shenzhen Jinghong Technology Co ltd
Current assignee: Shenzhen Jinghong Technology Co., Ltd
Priority date: 2017-03-28
Filing date: 2017-04-26
Publication date: 2020-10-23
Anticipated expiration: 2037-04-26
Also published as: CN108665055A

Abstract

本发明提供了一种图说生成方法及装置。该方法包括：采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特征；对图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；将训练集的图像的全局特征和局部特征以及描述语句特征输入至递归神经网络，对递归神经网络进行训练；根据递归神经网络的输出构建损失函数，根据损失函数对递归神经网络的参数进行优化；采用预先训练的卷积神经网络提取目标图像的全局特征和局部特征，将目标图像的全局特征和局部特征输入至递归神经网络，生成与目标图像对应的描述语句。本发明实施例充分考虑图像的全局特征和局部特征，提高了图说生成的精度。

Description

一种图说生成方法及装置

技术领域

本发明涉及多模态融合技术领域，具体涉及一种图说生成方法及装置。

背景技术

随着人工智能从概念到逐渐进入人类的生活，并逐渐成为人类生活中的一部分，计算机视觉同语音、自然语言等其他模态的信息融合技术广泛的被研究和应用。随着深度学习在计算机视觉、自然语言处理以及语音信息处理等领域取得巨大的突破，为了实现根据图像自动生成描述语句(描述语句中包括多个单词)，研究设计了图说生成方法。

现有的图说生成方法分为两大类，一类是基于检索的图说生成方法，另一类是基于深度神经网络的图说生成方法。

现有的一种基于检索的图说生成方法中，给定一张待描述的图像，在图文数据库中检索出相似的图像，然后根据对应的描述语句生成新的语句来描述该图像。该方法产生的语句缺乏变化，而且描述语句和图像之间存在较大的偏差，图说生成的精度较低。

现有的一种基于神经网络的图说生成方法中，利用卷积神经网络提取图像全局特征，利用递归神经网络对图像特征和描述语句特征进行融合，最后生成图说。该方法根据图像全局特征和描述语句特征生成图说，这样并不能挖掘出描述语句中每一个单词和图像的局部区域的映射关系，导致图说生成的精度较低。另外，该方法中用的递归神经网络是传统的递归神经网络，传统的递归神经网络在训练时容易产生梯度爆炸和梯度消失，导致训练困难。

发明内容

本发明实施例提供一种图说生成方法及装置，用于解决现有的图说生成方法精度较低的问题。

本发明实施例提供了一种图说生成方法，包括:

采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特征；

对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；

将所述训练集的图像的全局特征和局部特征以及所述描述语句特征输入至递归神经网络，对所述递归神经网络进行训练；

根据所述递归神经网络的输出构建损失函数，根据所述损失函数对所述递归神经网络的参数进行优化；

采用所述预先训练的卷积神经网络提取目标图像的全局特征和局部特征，将所述目标图像的全局特征和局部特征输入至所述递归神经网络，生成与所述目标图像对应的描述语句。

可选地，所述采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特征，包括：

根据如下公式提取图文数据库中训练集的图像的全局特征：

v＝W_I·[Fc(I)]+b_I

其中，v表示图像I的全局特征；W_I表示权重矩阵，b_I表示偏置；Fc(I)表示所述卷积神经网络对所述图像I处理后全连接层的输出；

根据如下公式提取图文数据库中训练集的图像的局部特征：

v_l＝{v_l1,v_l2,…,v_lC}＝flatten(Conv(I))

其中，v_l表示所述图像I的局部特征的集合；v_li表示所述图像I的局部特征；C代表所述图像I的局部特征的个数；Conv(I)表示所述卷积神经网络对所述图像I处理后卷积层的输出，flatten()表示扁平化操作。

可选地，对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征，包括：

根据如下公式获取描述语句特征：

s_t＝W_s·w_t,t∈{1,2,…,T}

其中，s_t表示图像I的描述语句特征；W_s表示权重矩阵；所述图像I的描述语句S＝(w₁,w₂,…,w_T)，T为描述语句中单词的个数；

表示该描述语句的第i个单词，N₀为所述图文数据库中的单词总数；w_i为单词one-hot向量。

可选地，所述递归神经网络为长短时记忆递归神经网络LSTM。

可选地，所述长短时记忆递归神经网络LSTM为加门反馈长短时记忆递归神经网络GF-LSTM。

可选地，所述将所述训练集的图像的全局特征和局部特征以及所述描述语句特征输入至递归神经网络，包括：

采用门控机制将所述训练集的图像的全局特征输入至递归神经网络，根据如下公式获取每个时刻输入至所述递归神经网络的全局特征：

v_t＝g_tv

其中，所述v_t表示t时刻输入至所述递归神经网络的全局特征；g_t表示t时刻的门，0＜g_t＜1；v表示图像I的全局特征；

采用注意力机制将所述训练集的图像的局部特征输入至递归神经网络，根据如下公式获取每个时刻输入至所述递归神经网络的局部特征：

其中，

表示t时刻输入至所述递归神经网络的局部特征；v_l表示图像I的局部特征的集合；α_ti表示t时刻关注所述图像I的i区域的概率，v_li表示所述图像I的局部特征。

可选地，所述长短时记忆递归神经网络LSTM为两层的加门反馈长短时记忆递归神经网络GF-LSTM；具体地，

其中，

表示t-1时刻第二层加门反馈长短时记忆递归神经网络GF-LSTM的隐层状态，

表示权重向量，b_g表示偏置；

其中，

和U_a表示权重向量；softmax()表示归一操作。

可选地，所述根据所述递归神经网络的输出构建损失函数，包括：

对所述递归神经网络的输出进行归一操作；

根据归一操作结果构建损失函数；

所述损失函数的公式为：

其中，P(S|I)表示针对图像I产生描述语句S的条件概率，λ_θ||θ||²是对所述递归神经网络所有参数θ的正则约束，

是对所述注意力机制的概率和为1的约束。

可选地，所述根据所述损失函数对所述递归神经网络的参数进行优化，包括：

根据所述损失函数采用反时传播BPTT算法对所述递归神经网络的参数进行优化。

可选地，所述方法还包括：

获取生成的目标图像对应的描述语句与参考描述语句的相关性。

本发明实施例提供一种图说生成装置，包括：

图像特征提取单元，用于采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特征；

描述语句特征获取单元，用于对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；

递归神经网络训练单元，用于将所述训练集的图像的全局特征和局部特征以及所述描述语句特征输入至递归神经网络，对所述递归神经网络进行训练；

参数优化单元，用于根据所述递归神经网络的输出构建损失函数，根据所述损失函数对所述递归神经网络的参数进行优化；

描述语句生成单元，用于采用所述预先训练的卷积神经网络提取目标图像的全局特征和局部特征，将所述目标图像的全局特征和局部特征输入至所述递归神经网络，生成与所述目标图像对应的描述语句。

可选地，所述图像特征提取单元进一步用于：

根据如下公式提取图文数据库中训练集的图像的全局特征：

v＝W_I·[Fc(I)]+b_I

根据如下公式提取图文数据库中训练集的图像的局部特征：

v_l＝{v_l1,v_l2,…,v_lC}＝flatten(Conv(I))

可选地，所述描述语句特征获取单元进一步用于：

根据如下公式获取描述语句特征：

s_t＝W_s·w_t,t∈{1,2,…,T}

可选地，所述递归神经网络为长短时记忆递归神经网络LSTM。

可选地，所述递归神经网络训练单元包括：

全局特征输入模块，所述全局特征输入模块用于采用门控机制将所述训练集的图像的全局特征输入至递归神经网络，根据如下公式获取每个时刻输入至所述递归神经网络的全局特征：

v_t＝g_tv

局部特征输入模块，所述局部特征输入模块用于采用注意力机制将所述训练集的图像的局部特征输入至递归神经网络，根据如下公式获取每个时刻输入至所述递归神经网络的局部特征：

其中，

其中，

表示权重向量，b_g表示偏置；

其中，

和U_a表示权重向量；softmax()表示归一操作。

可选地，所述参数优化单元进一步用于：

对所述递归神经网络的输出进行归一操作；

根据归一操作结果构建损失函数；

所述损失函数的公式为：

是对所述注意力机制的概率和为1的约束.

可选地，所述参数优化单元进一步用于：

可选地，还包括：

相关性获取单元，用于获取生成的目标图像对应的描述语句与参考描述语句的相关性。

本发明实施例提供一种电子设备，包括：处理器、存储器和总线；其中，

处理器和存储器通过总线完成相互间的通信；

处理器用于调用存储器中的程序指令，以执行上述的方法。

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述的方法。

本发明实施例提供的图说生成方法及装置，采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特征；对图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；将训练集的图像的全局特征和局部特征以及描述语句特征输入至递归神经网络，对递归神经网络进行训练；根据递归神经网络的输出构建损失函数，根据损失函数对递归神经网络的参数进行优化；采用预先训练的卷积神经网络提取目标图像的全局特征和局部特征，将目标图像的全局特征和局部特征输入至递归神经网络，生成与目标图像对应的描述语句。本发明实施例在训练递归神经网络和生成与目标图像对应的描述语句时，充分考虑图像的全局特征和局部特征，避免了现有技术中只考虑图像全局特征忽视单词与图像局部特征的映射关系导致图说生成精度较低的缺陷，提高了图说生成的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的图说生成方法的流程示意图；

图2是本发明一个实施例的图说生成方法的原理图；

图3a和图3b是本发明一个实施例的递归神经网络的示意图；

图4是本发明一个实施例的参考图说示意图；

图5是本发明一个实施例的图说生成装置的结构示意图；

图6是本发明一个实施例的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例的图说生成方法的流程示意图。如图1所示，该实施例的方法包括：

S11：采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特征；

在实际应用中，本发明实施例采用ImageNet数据库对卷积神经网络进行训练，ImageNet是目前最大的计算机视觉系统识别数据库，通过ImageNet数据库中的大量数据对卷积神经网络进行训练，解决卷积神经网络训练过程中的过拟合问题。

需要说明的是，本发明实施例中的图文数据库中包括训练集和测试集；训练集中包括多个图说，即图像与图像对应的描述语句。本发明实施例通过训练好的卷积神经网络提取图像中的全局特征和局部特征。

S12：对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；

需要说明的是，本发明并不限定步骤S11和步骤S12的执行顺序，可以先执行步骤S11、再执行步骤S12，或者先执行步骤S12、再执行步骤S11，二者还可以并行执行。

S13：将所述训练集的图像的全局特征和局部特征以及所述描述语句特征输入至递归神经网络，对所述递归神经网络进行训练；

S14：根据所述递归神经网络的输出构建损失函数，根据所述损失函数对所述递归神经网络的参数进行优化；

S15：采用所述预先训练的卷积神经网络提取目标图像的全局特征和局部特征，将所述目标图像的全局特征和局部特征输入至所述递归神经网络，生成与所述目标图像对应的描述语句。

在实际应用中，本发明实施例的目标图像为图文数据库中测试集中的一幅图像。

本发明实施例提供的图说生成方法，在训练递归神经网络和生成与目标图像对应的描述语句时，充分考虑图像的全局特征和局部特征，避免了现有技术中只考虑图像全局特征忽视单词与图像局部特征的映射关系导致图说生成精度较低的缺陷，提高了图说生成的精度。

在本发明实施例的一种可选的实施方式中，所述采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特征，包括：

根据如下公式提取图文数据库中训练集的图像的全局特征：

v＝W_I·[Fc(I)]+b_I

根据如下公式提取图文数据库中训练集的图像的局部特征：

v_l＝{v_l1,v_l2,…,v_lC}＝flatten(Conv(I))

在实际应用中，将卷积神经网络VGG-19在ImageNet上预训练好，将卷积神经网络VGG-19的全连接层fc-7输出向量作为全局特征。图像经过VGG-19得到4096维的特征向量，Fc(I)表示图像I经过VGG-19后全连接层fc-7的输出。

在实际应用中，将卷积神经网络VGG-19的卷积层conv5-4输出向量作为局部特征。图像经过VGG-19得到Conv5-4的输出feature map，然后经过flatten()操作，Conv(I)是三维向量，其维度是14×14×512，经过flatten()操作后变为196个512维的向量v_li。

根据如下公式获取描述语句特征：

s_t＝W_s·w_t,t∈{1,2,…,T}

w_i是一个one-hot向量，即w_i这个单词在词汇表的位置处取值为1，其他维数的值均为0，然后通过嵌入矩阵对这些单词进行编码，投影到多模态空间中。

为避免传统递归神经网络(如图3a所示)在训练时存在梯度消失和梯度爆炸，导致递归神经网络训练困难的缺陷，本发明实施例的递归神经网络为长短时记忆递归神经网络LSTM。

进一步地，为了更好的探索图像和描述语句之间的对应关系，所述长短时记忆递归神经网络LSTM为加门反馈长短时记忆递归神经网络GF-LSTM，如图3b所示，通过加门反馈连接加深递归神经网络的深度，使生成的描述语句更加符合人类的表达方式。

进一步地，所述将所述训练集的图像的全局特征和局部特征以及所述描述语句特征输入至递归神经网络(如图2所示)，包括：

v_t＝g_tv

其中，

需要说明的是，图像全局特征v在每一个时间步都会输入到多模态神经网络中，但是会经过门的控制，克服现有技术中不能控制何时将全局特征输入到递归神经网络的缺陷，有效地提高了对图说生成方法中特征选择的鲁棒性，可用于人机交互、虚拟现实等领域。

可理解的是，本发明实施例通过注意力机制选取每一步输入图像的哪一部分的局部特征。

优选地，所述长短时记忆递归神经网络LSTM为两层的加门反馈长短时记忆递归神经网络GF-LSTM；具体地，

其中，

表示权重向量，b_g表示偏置；

其中，

和U_a表示权重向量；softmax()表示归一操作。

需要说明的是，一层的长短时记忆递归神经网络LSTM表达性比二层差，但三层及以上网络参数太多，需要更多的训练数据，因此本发明实施例使用两层的加门反馈长短时记忆递归神经网络GF-LSTM。

具体地，加门反馈长短时记忆递归神经网络GF-LSTM的输入门、遗忘门和输出门的计算公式为：

记忆单元的计算公式为：

隐层状态计算公式为：

则，加门反馈长短时记忆递归神经网络GF-LSTM的输出为：

上述GF-LSTM的公式中，

和

表示权重矩阵，

表示偏置，上标i＝1,2表示第i层GF-LSTM，下标x＝i,f,w,c分别表示输入门、遗忘门、输出门和记忆单元。

具体地，所述根据所述递归神经网络的输出构建损失函数，包括：

对所述递归神经网络的输出进行归一操作；

根据归一操作结果构建损失函数；

所述损失函数的公式为：

是对所述注意力机制的概率和为1的约束。

本发明实施例模仿语言概率模型，使产生的描述语句概率达到最大，因此对每一步GF-LSTM的输出进行概率化，即：

p_t+1＝softmax(y_t)

p_t+1表示t时刻预测生成描述语句的概率。

P(S|I)＝P(w₁,...,w_T|I)

＝P(w₁|I)P(w₂|I,w₁)...P(w_T|I,w₁,w₂,...w_T-1)

＝p₁·p₂·...·p_T

进一步地，所述根据所述损失函数对所述递归神经网络的参数进行优化，包括：

需要说明的是，本发明实施例中的递归神经网络的参数包括权重矩阵和偏置；本发明实施例还根据损失函数对投影矩阵(包括权重矩阵W_I和偏置b_I以及权重矩阵W_s进行优化)。

进一步地，所述方法还包括：

如图4所示，为权威的图说示意图，图中右侧包括描述图像的参考描述语句。在实际应用中，本发明实施例计算生成的描述语句与参考描述GroundTruth语句的相关指标。

图5是本发明一个实施例的图说生成装置的结构示意图。如图5所示，本发明实施例的装置包括图像特征提取单元51、描述语句特征获取单元52、递归神经网络训练单元53、参数优化单元54和描述语句生成单元55，具体地：

图像特征提取单元51，用于采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特征；

描述语句特征获取单元52，用于对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征；

递归神经网络训练单元53，用于将所述训练集的图像的全局特征和局部特征以及所述描述语句特征输入至递归神经网络，对所述递归神经网络进行训练；

参数优化单元54，用于根据所述递归神经网络的输出构建损失函数，根据所述损失函数对所述递归神经网络的参数进行优化；

描述语句生成单元55，用于采用所述预先训练的卷积神经网络提取目标图像的全局特征和局部特征，将所述目标图像的全局特征和局部特征输入至所述递归神经网络，生成与所述目标图像对应的描述语句。

本发明实施例提供的图说生成装置，在训练递归神经网络和生成与目标图像对应的描述语句时，充分考虑图像的全局特征和局部特征，避免了现有技术中只考虑图像全局特征忽视单词与图像局部特征的映射关系导致图说生成精度较低的缺陷，提高了图说生成的精度。

在本发明实施例的一种可选的实施方式中，图像特征提取单元51进一步用于：

根据如下公式提取图文数据库中训练集的图像的全局特征：

v＝W_I·[Fc(I)]+b_I

根据如下公式提取图文数据库中训练集的图像的局部特征：

v_l＝{v_l1,v_l2,…,v_lC}＝flatten(Conv(I))

描述语句特征获取单元52进一步用于：

根据如下公式获取描述语句特征：

s_t＝W_s·w_t,t∈{1,2,…,T}

可选地，所述递归神经网络为长短时记忆递归神经网络LSTM。

具体地，递归神经网络训练单元53包括：

v_t＝g_tv

其中，

其中，

表示权重向量，b_g表示偏置；

其中，

和U_a表示权重向量；softmax()表示归一操作。

参数优化单元54进一步用于：

对所述递归神经网络的输出进行归一操作；

根据归一操作结果构建损失函数；

所述损失函数的公式为：

是对所述注意力机制的概率和为1的约束。

参数优化单元54进一步用于：

该图说生成装置还包括：

本发明实施例的图说生成装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

图6是本发明一个实施例的电子设备的结构示意图。

参照图6，电子设备包括：处理器(processor)61、存储器(memory)62和总线63；其中，

处理器61和存储器62通过总线63完成相互间的通信；

处理器61用于调用存储器62中的程序指令，以执行上述各方法实施例所提供的方法。

此外，上述的存储器62中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

本发明实施例提供的图说生成方法及装置，在训练递归神经网络和生成与目标图像对应的描述语句时，充分考虑图像的全局特征和局部特征，避免了现有技术中只考虑图像全局特征忽视单词与图像局部特征的映射关系导致图说生成精度较低的缺陷，提高了图说生成的精度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

需要说明的是术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图说生成方法，其特征在于，包括:

采用所述预先训练的卷积神经网络提取目标图像的全局特征和局部特征，将所述目标图像的全局特征和局部特征输入至所述递归神经网络，生成与所述目标图像对应的描述语句；

所述采用预先训练的卷积神经网络提取图文数据库中训练集的图像的全局特征和局部特征，包括：

根据如下公式提取图文数据库中训练集的图像的全局特征：

v＝W_I·[Fc(I)]+b_I

根据如下公式提取图文数据库中训练集的图像的局部特征：

v_l＝{v_l1,v_l2,…,v_lC}＝flatten(Conv(I))

2.根据权利要求1所述的方法，其特征在于，对所述图文数据库中训练集的图像对应的描述语句进行编码得到描述语句特征，包括：

根据如下公式获取描述语句特征：

s_t＝W_s·w_t,t∈{1,2,…,T}

3.根据权利要求1所述的方法，其特征在于，所述递归神经网络为长短时记忆递归神经网络LSTM。

4.根据权利要求3所述的方法，其特征在于，所述长短时记忆递归神经网络LSTM为加门反馈长短时记忆递归神经网络GF-LSTM。

5.根据权利要求4所述的方法，其特征在于，所述将所述训练集的图像的全局特征和局部特征以及所述描述语句特征输入至递归神经网络，包括：

v_t＝g_tv

其中，

表示t时刻输入至所述递归神经网络的局部特征；v_l表示图像I的局部特征的集合；α_ti表示t时刻关注所述图像I的i区域的概率，v_li表示所述图像I的局部特征，C代表所述图像I的局部特征的个数。

6.根据权利要求5所述的方法，其特征在于，所述长短时记忆递归神经网络LSTM为两层的加门反馈长短时记忆递归神经网络GF-LSTM；具体地，

其中，

表示权重向量，b_g表示偏置；

其中，

和U_a表示权重向量；softmax()表示归一操作。

7.根据权利要求5所述的方法，其特征在于，所述根据所述递归神经网络的输出构建损失函数，包括：

对所述递归神经网络的输出进行归一操作；

根据归一操作结果构建损失函数；

所述损失函数的公式为：

是对所述注意力机制的概率和为1的约束。

8.根据权利要求1所述的方法，其特征在于，所述根据所述损失函数对所述递归神经网络的参数进行优化，包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种图说生成装置，其特征在于，包括：

描述语句生成单元，用于采用所述预先训练的卷积神经网络提取目标图像的全局特征和局部特征，将所述目标图像的全局特征和局部特征输入至所述递归神经网络，生成与所述目标图像对应的描述语句；

所述图像特征提取单元进一步用于：

根据如下公式提取图文数据库中训练集的图像的全局特征：

v＝W_I·[Fc(I)]+b_I

根据如下公式提取图文数据库中训练集的图像的局部特征：

v_l＝{v_l1,v_l2,…,v_lC}＝flatten(Conv(I))

11.根据权利要求10所述的装置，其特征在于，所述描述语句特征获取单元进一步用于：

根据如下公式获取描述语句特征：

s_t＝W_s·w_t,t∈{1,2,…,T}

12.根据权利要求10所述的装置，其特征在于，所述递归神经网络为长短时记忆递归神经网络LSTM。

13.根据权利要求12所述的装置，其特征在于，所述长短时记忆递归神经网络LSTM为加门反馈长短时记忆递归神经网络GF-LSTM。

14.根据权利要求13所述的装置，其特征在于，所述递归神经网络训练单元包括：

v_t＝g_tv

其中，

15.根据权利要求14所述的装置，其特征在于，所述长短时记忆递归神经网络LSTM为两层的加门反馈长短时记忆递归神经网络GF-LSTM；具体地，

其中，

表示权重向量，b_g表示偏置；

其中，

和U_a表示权重向量；softmax()表示归一操作。

16.根据权利要求14所述的装置，其特征在于，所述参数优化单元进一步用于：

对所述递归神经网络的输出进行归一操作；

根据归一操作结果构建损失函数；

所述损失函数的公式为：

是对所述注意力机制的概率和为1的约束。

17.根据权利要求10所述的装置，其特征在于，所述参数优化单元进一步用于：

18.根据权利要求10所述的装置，其特征在于，还包括：

19.一种电子设备，其特征在于，包括：处理器、存储器和总线；其中，

处理器和存储器通过总线完成相互间的通信；

处理器用于调用存储器中的程序指令，以执行权利要求1-9任一项所述的图说生成方法。

20.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行权利要求1-9任一项所述的图说生成方法。