CN108985370B

CN108985370B - 图像标注语句自动生成方法

Info

Publication number: CN108985370B
Application number: CN201810748973.1A
Authority: CN
Inventors: 白亮; 刘爽; 王昊冉; 郭金林; 郭延明
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-07-10
Filing date: 2018-07-10
Publication date: 2021-04-16
Anticipated expiration: 2038-07-10
Also published as: CN108985370A

Abstract

本发明实施例公开了一种图像标注语句自动生成方法，包括：对给定图像进行特征提取得到图像局部特征和图像全局特征；在训练数据集中找到最近邻的多个训练图像；获取多个标注语句；对最大的所述平均相似度对应的所述标注语句进行转换处理以得到参考标注语句向量；初始化前一时间步的隐藏层状态；以及循环生成包括多个图像标注词语的图像标注语句。本发明实施例有效的提高了自动生成的图像标注语句的质量，生成的图像标注语句更符合人类说话的标准。

Description

图像标注语句自动生成方法

技术领域

本发明涉及计算机视觉和自然语言处理的一个典型结合应用——图像标注自动生成技术领域，尤其涉及一种图像标注语句自动生成方法。

背景技术

图像标注语句(又称图像文本或图像字幕)自动生成(Image captioning)面临的挑战是如何设计一个好的模型，这个模型能够充分利用图像信息并生成更多类似人类语言的丰富图像描述。生成有意义的描述，不仅需要算法识别图像中的对象，还要算法识别对象的属性和活动之间的关系，然后通过自然语言描述得到语义信息。

随着可拍照移动智能终端的广泛使用和互联网的快速发展，融合视觉和标注信息的多模态数据在急剧增加，例如，带文本标注的照片、报纸文章中的图文对照内容、带标题的视频以及社交媒体出现的多模态交互数据。多模态机器学习为机器提供了处理多模态数据的能力，多模态学习的长远目标是使机器充分感知环境，更智能地和环境进行交互。当前多模态处理包括图像/视频的文本描述、基于视觉的问答和看图讲故事等任务。对于图像标注自动生成任务，人类可以根据具体需要，轻松理解图像内容并以自然语言句子的形式表达；然而，对于计算机而言，完成图像标注语句自动生成任务则需要综合运用图像处理、计算机视觉、自然语言处理等主要领域的研究成果。目前还不清楚大脑如何理解图像并将视觉信息组织成语言。图像标注语句自动生成技术涉及到让计算机如何更好的理解人类，并通过这种方式以减轻人类的劳动力，因此这是一项涉及计算机视觉和自然语言处理技术的高级且复杂的任务。

尽管面临这些挑战，但通过深度神经网络的推进，这个问题在过去几年取得了显着的进步。图像视觉内容与相应描述之间的语义鸿沟已被广泛研究，例如文献“H.Fang,S.Gupta,F.N.Iandola,R.K.Srivastava,L.Deng,P.Dollar,J.Gao,X.He,M.Mitchell,J.C.Platt,C.L.Zitnick,′and G.Zweig.From captions to visual concepts andback.In IEEE Conference on Computer Vision and Pattern Recognition,CVPR 2015,Boston,MA,USA,June 7-12,2015,pages 1473–1482,2015”和文献“O.Vinyals,A.Toshev,S.Bengio,and D.Erhan.Show and tell:A neural image caption generator.In IEEEConference on Computer Vision and Pattern Recognition,CVPR 2015,Boston,MA,USA,June 7-12,2015,pages 3156–3164,2015”。图像标注的经典框架是文献“O.Vinyals,A.Toshev,S.Bengio,and D.Erhan.Show and tell:A neural image captiongenerator.In IEEE Conference on Computer Vision and Pattern Recognition,CVPR2015,Boston,MA,USA,June 7-12,2015,pages 3156–3164,2015”提出的基于CNN(Convolutional Neural Networks，卷积神经网络)图像编码器和RNN(Recurrent NeuralNetworks循环神经网络)句子解码器过程。与机器翻译的过程不同，这是两种语言之间的转换，图像标注的目标是将图像翻译成句子。从CNN编码器-RNN解码器的基本形式开始，已经有很多尝试来改进图像标注自动生成系统。受到机器翻译领域改进的启发，长期短期记忆(Longshort-term Memory,LSTM)网络已被用于解码器过程中，例如文献“O.Vinyals,A.Toshev,S.Bengio,and D.Erhan.Show and tell:A neural image captiongenerator.In IEEE Conference on Computer Vision and Pattern Recognition,CVPR2015,Boston,MA,USA,June 7-12,2015,pages 3156–3164,2015”，因为它能够记忆通过存储器单元的长期相关性。这些方法使用CNN网络的全局图像表示作为LSTM网络的输入特征。还有一些人增加了一种注意机制，例如文献“K.Xu,J.Ba,R.Kiros,K.Cho,A.C.Courville,R.Salakhutdinov,R.S.Zemel,and Y.Bengio.Show,attend and tell:Neural imagecaption generation with visual attention.In Proceedings of the 32ndInternational Conference on Machine Learning,ICML 2015,Lille,France,6-11July2015,pages 2048–2057,2015”，可以自动处理图像的某些部分进行单词预测。它旨在帮助标注语句生成模型在进行单独预测时自动关注图像某些集中区域。注意机制在计算机视觉领域已被证明是有效和重要的。在接下来的工作中，许多研究工作一直致力于这个领域。例如在文献“L.Chen,H.Zhang,J.Xiao,L.Nie,J.Shao,W.Liu,and T.Chua.SCA-CNN:spatialand channel-wise attention in convolutional networks for image captioning.In2017IEEE Conference on Computer Vision and Pattern Recognition,CVPR 2017,Honolulu,HI,USA,July 21-26,2017,pages 6298–6306,2017”中，还有一些人提出了在CNN中纳入空间和通道注意的(Spatial and Channel Attention-Convolutional NeuralNetworks)SCA-CNN方法。又一些人引入了一种自适应注意编码器-解码器框架，它可以自动决定何时依赖视觉信号以及何时只依赖语言模型。深度神经网络在测试精度上表现强大的学习能力。

然而，现有的模型往往是根据一定的权重来选择图像所集中注意的区域，而这些权重的获得往往仅仅是根据解码器部分的神经网络的隐藏层状态、图像局部和全局信息进行指引，生成的图像标注语句往往不自然、不丰富。因此，急需提出一种能够解决以上问题的图像标注语句自动生成方法。

发明内容

本发明的实施例提供一种图像标注语句自动生成方法，本发明通过对现有的图像编码器-句子解码器模型进行重新设计，采用利用标注语句增强图像标注语句自动生成方法中的自适应注意力机制，使得在图像标注语句自动生成的过程中，在不同的时间步，能够根据标注语句给出的提示，指引图像生成最符合当前时间步的图像标注语句，有效的提高了生成的图像标注语句的质量，生成的图像标注语句更符合人类说话的标准。

本发明实施例提供的一种图像标注语句自动生成方法，包括步骤：对给定图像进行特征提取得到图像局部特征和图像全局特征；通过给定特征映射网络对所述给定图像以及给定训练数据集中的每个训练图像进行特征映射分别得到对应所述给定图像的目标给定图像特征向量以及对应所述训练图像的目标训练图像特征向量；计算所述目标给定图像特征向量与每个所述目标训练图像特征向量的余弦相似度；将最大的多个所述余弦相似度对应的多个所述训练图像作为所述给定图像的最近邻的多个训练图像；获取所述最近邻的多个训练图像对应的多个标注语句；在所述多个标注语句中随机选择部分标注语句；计算所述部分标注语句中的每个标注语句与所述多个标注语句中除所述部分标注语句之外的剩余标注语句的平均相似度；通过Skip-Thoughts模型对最大的所述平均相似度对应的所述标注语句进行转换处理以得到参考标注语句向量；初始化前一时间步的隐藏层状态；以及循环执行如下步骤以生成包括多个图像标注词语的图像标注语句：将所述前一时间步的隐藏层状态、当前时间步输入的词语向量输入到长期短期记忆网络中以生成当前时间步的视觉哨兵向量和当前时间步的隐藏层状态、并将所述前一时间步的隐藏层状态更新为所述当前时间步的隐藏层状态；根据注意机制将所述参考标注语句向量、所述当前时间步的视觉哨兵向量和所述当前时间步的隐藏层状态作用于所述图像全局特征以生成所述图像局部特征的权重向量；以及根据所述权重向量和所述图像局部特征通过多层神经网络预测得到当前时间步输出的所述图像标注词语。

在本发明的一个实施例中，所述对给定图像进行特征提取得到图像局部特征和图像全局特征的步骤为：通过卷积神经网络对所述给定图像进行特征提取得到所述图像局部特征和所述图像全局特征。

在本发明的一个实施例中，所述给定训练数据集包括：所述训练图像以及所述训练图像对应的所述标注语句。

在本发明的一个实施例中，所述给定训练数据集为MSCOCO数据集。

在本发明的一个实施例中，所述给定特征映射网络为VGG网络。

在本发明的一个实施例中，所述初始化前一时间步的隐藏层状态为将前一时间步的隐藏层状态初始化为0。

上述技术方案可以具有如下一个或多个优点：本发明实施例通过对给定图像进行特征提取得到图像局部特征和图像全局特征，通过在给定训练数据集中找到与给定图像最近邻的多个训练图像并获取对应的多个标注语句，将平均相似度最大的标注语句作为参考标注语句，根据参考标注语句对应的参考标注语句向量、隐藏层状态、视觉哨兵向量、图像全局特征得到图像局部特征的权重向量，最终得到每一时间步要输出的图像标注词语最终生成包括所述图像标注词语的图像标注语句，整个过程充分利用了给定训练数据集中的参考标注语句信息，并将参考标注语句信息应用到自适应变化的注意机制中，从而每一时间步图像关注的区域取决于三部分：图像信息、隐藏层状态以及参考标注语句信息，也即不仅仅是将图像信息利用在注意机制中，同时关注到了给定训练数据集中的标注语句信息。将标注语句信息用于注意机制中，保证不同时间步生成的图像标注词语关注图像的区域不仅由图像所牵引，还有先验的标注语句信息作为指导，使得通过本发明实施例提供的图像标注语句自动生成方法生成的图像标注语句更符合人类说话的标准。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例的一种图像标注语句自动生成方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明一个实施例提供的一种图像标注语句自动生成方法100，主要包括：

步骤S110：对给定图像进行特征提取得到图像局部特征和图像全局特征。具体地，例如通过CNN(卷积神经网络)对所述给定图像进行特征提取得到所述图像局部特征和所述图像全局特征。

步骤S120：通过给定特征映射网络对所述给定图像以及给定训练数据集中的每个训练图像进行特征映射分别得到对应所述给定图像的目标给定图像特征向量以及对应所述训练图像的目标训练图像特征向量。具体地，所述给定训练数据集例如包括：所述训练图像以及所述训练图像对应的所述标注语句。所述给定训练数据集例如为MSCOCO数据集。所述给定特征映射网络例如为VGG网络。

步骤S130：计算所述目标给定图像特征向量与每个所述目标训练图像特征向量的余弦相似度、并将最大的多个所述余弦相似度对应的多个所述训练图像作为所述给定图像的最近邻的多个训练图像。

步骤S140：获取所述最近邻的多个训练图像对应的多个标注语句。

步骤S150：在所述多个标注语句中随机选择部分标注语句并计算所述部分标注语句中的每个标注语句与所述多个标注语句中除所述部分标注语句之外的剩余标注语句的平均相似度。

步骤S160：通过Skip-Thoughts模型对最大的所述平均相似度对应的所述标注语句进行转换处理以得到参考标注语句向量。

步骤S170：初始化前一时间步的隐藏层状态。所述初始化前一时间步的隐藏层状态为将前一时间步的隐藏层状态初始化为0。以及

步骤S180：循环执行步骤S181、步骤S183和步骤S185以生成包括多个图像标注词语的图像标注语句。

具体地，步骤S181：将所述前一时间步的隐藏层状态、当前时间步输入的词语向量输入到长期短期记忆网络中以生成当前时间步的视觉哨兵向量和当前时间步的隐藏层状态、并将所述前一时间步的隐藏层状态更新为所述当前时间步的隐藏层状态。

步骤S183：根据注意机制将所述参考标注语句向量、所述当前时间步的视觉哨兵向量和所述当前时间步的隐藏层状态作用于所述图像全局特征以生成所述图像局部特征的权重向量。

步骤S185：根据所述权重向量和所述图像局部特征通过多层神经网络预测得到当前时间步输出的所述图像标注词语。

下面详细描述本发明实施例的图像标注语句自动生成方法100的部分实施细节。

首先，通过CNN获取给定图像的k个网格位置中的每一个网格位置的空间CNN特征也即给定图像的k个图像局部特征，例如使用A＝{a₁,……,a_k},a_i∈R²⁰⁴⁸来表示k个图像局部特征，全局图像特征a^g可以通过公式(1)获得。具体获取细节可参考文献“K.He,X.Zhang,S.Ren,and J.Sun.Deep residual learning for image recognition.In 2016IEEEConference on Computer Vision and Pattern Recognition,CVPR 2016,Las Vegas,NV,USA,June 27-30,2016,pages 770–778,2016”中的描述，在此不再赘述。

此外，为了减少参数，例如使用具有RELU激活函数的单层感知器将全局图像特征和局部图像特征转换成固定维度的新向量，转换公式如下：

v_i＝ReLU(W_aa_i) (2)

v^g＝ReLU(W_ba^g) (3)

其中，(2)和(3)式中的W_a和W_b是权重参数。变换后的空间图像特征形式为V＝[v₁,……,v_k]。

真值标注(ground truth captions)作为注意机制的引导是理想的，但在图像标注语句自动生成推断期间不可用。因此，本发明实施例使用基于范例的方法来获取参考标注语句，为注意机制提供有用的信息。为了获取参考标注语句，首要任务就是基于余弦相似度为给定图像寻找到例如最近邻的k个训练图像。具体的寻找过程可以参考文献“J.Devlin,S.Gupta,R.B.Girshick,M.Mitchell,and C.L.Zitnick.Exploring nearestneighbor approaches for image captioning.CoRR,abs/1505.04467,2015和K.Simonyanand A.Zisserman.Very deep convolutional networks for large-scale imagerecognition.CoRR,abs/1409.1556,2014”，在此不再详述，在本发明实施例中仅对其中某些细节进行描述，在本发明实施例中先通过VGG网络对给定图像以及给定训练数据集中的每个训练图像进行特征映射分别得到对应给定图像的目标给定图像特征向量以及对应训练图像的目标训练图像特征向量，之后使用VGG16Net的fc7层作为查找最近邻的k个训练图像的任务的图像特征。在本发明实施例中对图像字幕任务的VGG16Net进行了微调，即使用ImageNet任务对其权重进行初始化，并且对图像标注语句自动生成中给定训练数据集中1000个最常出现的词语进行分类的任务对权重进行了微调任务。针对给定训练数据集中的每个训练图像计算图像特征得到对应训练图像的目标训练图像特征向量。之后通过详尽地计算给定图像对应的目标给定图像特征向量和训练图像对应的目标训练图像特征向量之间的余弦相似度来找到最近邻的k个训练图像。

对于每个给定图像，从给定训练数据集中获取最近邻的k个训练图像对应的标注语句组成标注语句集合C。例如每个给定图像在MS COCO数据集中有五个标注语句，所以标注语句集合C中的标注语句的数目n＝5k。每个给定图像随机选择标注语句集合C中的m个标注语句组成子集M，其中数字m小于n。定义共识标注语句作为与C中其他标注语句具有最高平均相似度的那个。共识标注语句的得分定义为c^*，由公式(4)获得。

式(4)中，Sim(c,c')是使用BLEU相似度函数的两个标注语句c和c'之间的相似度得分，可以计算c^*。本发明实施例例如使用从BLEU-1到BLEU-4的平均得分，也即每个得分的权重因子都是0.25。

但是拿到最能够代表图像的共识标注语句是不够的，在实际操作中需要将语句信息转换为向量，才能更好地应用到模型中，因此，在本发明实施例中，使用Skip-Thoughts模型将共识标注语句也即字符串转换为固定维向量也即参考标注语句向量。具体转换细节可参考文献“R.Kiros,Y.Zhu,R.Salakhutdinov,R.S.Zemel,R.Urtasun,A.Torralba,andS.Fidler.Skip-thought vectors.In Advances in Neural Information ProcessingSystems 28:Annual Conference on Neural Information Processing Systems 2015,December 7-12,2015,Montreal,Quebec,Canada,pages 3294–3302,2015”的记载，在此不再赘述。

本发明实施例还引入注意机制，具体细节可参考文献“J.Lu,C.Xiong,D.Parikh,and R.Socher.Knowing when to look:Adaptive attention via A visual sentinelfor image captioning.CoRR,abs/1612.01887,2016”的记载，在此不再赘述。注意机制f_att(h_t,c_t)是神经编码器-解码器框架中的一个重要因素，它为图像标注语句自动生成提供了视觉证据。在实际操作时，会在每个时间步输入一个词语，然后将这个词语嵌入向量得到对应的词语向量，例如输入的词为w_t，会将w_t这个词改变为w_t和全局图像特征向量v^g，得到当前时间步输入的词语向量x_t＝[w_t；v^g]。

首先，使用视觉哨兵模型来计算上下文向量c_t，其定义如公式(5)。

c_t＝g(V,h_t) (5)

其中g是注意力函数，V＝[v₁,……,v_k],v_i∈R^d是局部图像特征。在本发明实施例中采用LSTM而不是原始的RNN。当前时间步的隐藏层状态h_t被建模为：

h_t＝LSTM(x_t,h_t-1,m_t-1) (6)

使用视觉哨兵决定是否关注给定图像的信息或参考标注语句的信息。通过LSTM获取视觉哨兵矢量s_t，具体公式如下：

g_t＝σ(W_xx_t+W_hh_t-1) (7)

s_t＝g_t e tanh(m_t) (8)

其中W_x和W_h是要学习的权重参数，x_t是在当前时间步t处LSTM网络输入的词语向量，g_t是施加在存储单元m_t上的门。e代表元素方面的产品，σ是logistic S形激活。

基于视觉哨兵，假设一个自适应注意模型来计算上下文向量。

在式(9)这个混合模型中，β_t是当前时间步t的新的哨兵门。β_t的范围为[0,1]，β_t的值越大意味着在生成下一个单词时更加关注参考标注语句的信息。

与文献“J.Lu,C.Xiong,D.Parikh,and R.Socher.Knowing when to look:Adaptive attention via A visual sentinel for image captioning.CoRR,abs/1612.01887,2016”所提供的常规注意机制有所不同旳是，本发明实施例的注意机制还利用了参考标注语句向量r所提供的文本信息。本发明实施例的注意机制使用简单的前馈神经网络计算参考标注语句向量r和局部图像特征v_i的注意力。随后是利用softmax函数以生成给定图像的k个网格位置上的关注分布，计算公式如下：

式(10)和(11)中，1∈R^k是所有元素都设为1的向量。W_v,W_g∈R^k×d,W_r∈R^k×s,w_h∈R^k是要学习的权重参数。α∈R^k是关于V中的各个局部图像特征的注意权重。[·；·]表示连接操作。W_s和W_g是权重参数。

的前k个维度是α_ti,i∈[1,2,···k]的值，将

的最后一个元素解释为门值：β_t＝α_t[k+1]。

之后，通过公式(14)将c_t和h_t结合起来预测下一个词语y_t+1。

在当前的时间步t的可能词汇词汇表上的概率向量可以被计算为：

p_t＝softmax(W_p(c_t+h_t)) (12)

其中，W_p是要学习的权重参数。概率向量p_t中数值最大的元素所对应的可能词汇表中的词汇就是预测得到的下一个词语y_t+1。

在本发明实施例中的图像标注语句自动生成方法100中，使用递归神经网络(RNN)的编码器-解码器框架，优化问题被建模为：

式(13)中包括相加的两项，其中第一项是整体能量损失，c_t是从给定图像I中提取的当前时间步t处的视觉上下文向量。第二项也即最后一项是所有权重参数的L2正则化值。在注意机制和LSTM中，分别鼓励注意力的权重是一致的，并且惩罚对某个区域的过度关注。在训练期间，注意机制从统一关注开始逐渐学习感兴趣的区域。

综上所述，本发明实施例的图像标注语句自动生成方法100充分利用给定训练数据集中的多个训练图像的标注语句和给定图像的图像局部特征和图像全局特征，从给定训练数据集中的多个训练图像的标注语句中选择用于注意机制的参考标注语句，之后在每个时间步自适应地生成视觉哨兵向量，然后根据参考标注语句、给定图像的全局图像特征以及视觉哨兵向量应用到注意机制中得到局部图像特征的权重向量，然后通过多层神经网络预测当前时刻要输出的图像标注词语，最终生成所有时间步的图像标注词语以组成图像标注语句，本发明实施例的图像标注自动生成方法100充分利用了给定训练数据集中的参考标注语句的信息，并将参考标注语句的信息应用到自适应的注意机制中，从而每一时间步关注的区域取决于三部分：给定图像的信息、隐藏层状态以及参考标注语句的信息，也即不仅仅是将给定图像的信息利用在注意机制中，同时关注到了给定训练数据集中的参考标注语句的信息。将参考标注语句的信息用于注意机制中，保证不同时间步生成的图像标注词语所关注的图像的区域不仅由给定图像的信息所牵引，还有先验的参考标注语句的信息作为指导，使得通过本发明实施例提供的图像标注语句自动生成方法生成的图像标注语句更符合人类说话的标准，质量更好。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和/或方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元/模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多路单元或模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元/模块可以是或者也可以不是物理上分开的，作为单元/模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多路网络单元上。可以根据实际的需要选择其中的部分或者全部单元/模块来实现本实施例方案目的。

另外，在本发明各个实施例中的各功能单元/模块可以集成在一个处理单元/模块中，也可以是各个单元/模块单独物理存在，也可以两个或两个以上单元/模块集成在一个单元/模块中。上述集成的单元/模块既可以采用硬件的形式实现，也可以采用硬件加软件功能单元/模块的形式实现。

上述以软件功能单元/模块的形式实现的集成的单元/模块，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)的一个或多个处理器执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像标注语句自动生成方法，其特征在于，包括步骤：

对给定图像进行特征提取得到图像局部特征和图像全局特征；

通过给定特征映射网络对所述给定图像以及给定训练数据集中的每个训练图像进行特征映射分别得到对应所述给定图像的目标给定图像特征向量以及对应所述训练图像的目标训练图像特征向量；

计算所述目标给定图像特征向量与每个所述目标训练图像特征向量的余弦相似度、并将最大的多个所述余弦相似度对应的多个所述训练图像作为所述给定图像的最近邻的多个训练图像；

获取所述最近邻的多个训练图像对应的多个标注语句；

在所述多个标注语句中随机选择部分标注语句并计算所述部分标注语句中的每个标注语句与所述多个标注语句中除所述部分标注语句之外的剩余标注语句的平均相似度；

通过Skip-Thoughts模型对最大的所述平均相似度对应的所述标注语句进行转换处理以得到参考标注语句向量；

初始化前一时间步的隐藏层状态；以及

循环执行如下步骤以生成包括多个图像标注词语的图像标注语句：

将所述前一时间步的隐藏层状态、当前时间步输入的词语向量输入到长期短期记忆网络中以生成当前时间步的视觉哨兵向量和当前时间步的隐藏层状态、并将所述前一时间步的隐藏层状态更新为所述当前时间步的隐藏层状态；

根据注意机制将所述参考标注语句向量、所述当前时间步的视觉哨兵向量和所述当前时间步的隐藏层状态作用于所述图像全局特征以生成所述图像局部特征的权重向量；以及

根据所述权重向量和所述图像局部特征通过多层神经网络预测得到当前时间步输出的所述图像标注词语。

2.如权利要求1所述的图像标注语句自动生成方法，其特征在于，所述对给定图像进行特征提取得到图像局部特征和图像全局特征的步骤为：通过卷积神经网络对所述给定图像进行特征提取得到所述图像局部特征和所述图像全局特征。

3.如权利要求1所述的图像标注语句自动生成方法，其特征在于，所述给定训练数据集包括：所述训练图像以及所述训练图像对应的所述标注语句。

4.如权利要求1所述的图像标注语句自动生成方法，其特征在于，所述给定训练数据集为MSCOCO数据集。

5.如权利要求1所述的图像标注语句自动生成方法，其特征在于，所述给定特征映射网络为VGG网络。

6.如权利要求1所述的图像标注语句自动生成方法，其特征在于，所述初始化前一时间步的隐藏层状态为将前一时间步的隐藏层状态初始化为0。