CN112052906A

CN112052906A - 一种基于指针网络的图像描述优化方法

Info

Publication number: CN112052906A
Application number: CN202010958311.4A
Authority: CN
Inventors: 周宇杰; 商琳
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2020-12-08
Anticipated expiration: 2040-09-14
Also published as: CN112052906B

Abstract

本发明提供了一种基于指针网络的图像描述优化方法，包括：(1)利用卷积神经网络提取输入图片的视觉特征向量，并将视觉特征输入到由两层长短期记忆网络组成的描述语句生成模块。(2)利用注意力机制，挑选出每一时刻关注的图片区域，并对图像特征基于区域做加权融合。(3)结合挑选得到的区域特征和当前句子的生成状况，利用指针网络运算机制，从预先检测到的图片属性词语中选取最恰当的词语，填充到该时刻的单词生成位置，如果无法从备选属性词语中找到合适的词语，则模型将基于当前句子生成状况，自行判断该时刻生成哪一个单词。(4)重复上述步骤，依次生成句子中的每一个单词，最终得到更加贴近图片内容的描述语句。

Description

一种基于指针网络的图像描述优化方法

技术领域

本发明涉及一种基于指针网络的图像描述优化方法。

背景技术

Image Caption图像描述，旨在利用机器对一张图片生成一段通顺、流畅且贴切的描述语句。该领域在近年来吸引了大量研究者，因其同时涉及计算机视觉和自然语言处理两大领域，故优化和改进的空间较大，各种做法也各具意义和代表性。其中基于注意力机制的改进对提升Image Caption性能起到了重要作用，其出发点在于模仿人类对一张图片内容的观察理解过程。最初的Soft/Hard Attention算法在每个时刻会计算对图片不同区域分配的注意力权重，实现了一种注意力动态转移的效果。此后又逐渐发展出了1)Spatialand Channel Attention，将注意力从空间维度拓展到卷积核Channel维度；2)AdaptiveAttention，模型不需要每个时刻都从图片内容中寻找依据，有些时刻可以根据语言习惯生成词语；3)Bottom-up Top-down Attention，用一个两层LSTM结构将attention的计算分层细化；此外还有各类Attention算法，主旨都在于让模型动态关注不同的图片内容。

除了Attention机制外，另一大类Image Caption改进方法就是利用预训练的属性词检测器，场景分类器，目标检测器等，提前提取到图片中的视觉要素，从而将问题解耦，让Caption生成模型只需要将主要精力放在提升句子质量上，而将捕获图片视觉信息的任务交给子模块实现，其中目标检测类方法虽然检测效果较好，但存在模型结构庞大，训练开销较大的缺点，而视觉属性词语的检测，往往会转化为多标签图像识别(Multi-label ImageClassification)任务，较为容易实现，但精度一般，一般会采用全卷积网络(FullyConvolutional Networks,FCN)来训练。

指针网络(Pointer Network)是一种常用于文本摘要的算法，其核心思想在于，在对一段文字进行摘要时，有时可以直接从原文中摘抄一些词语，既可以提高摘要的准确性，又能降低有些生僻词语的生成难度。Image Caption生成语句的过程中，也会有一些难以识别的属性词语，如果能够提前得到这些词语，在生成的时候将其作为指针网络的待选词，则能够实现对生成语句质量的提高。

发明内容

发明目的：本发明的目的在于提出一种将Attention注意力机制和视觉属性词语(Visual Attributes)检测相结合的方法，提升Image Caption描述语句的生成效果。单纯的Attention机制由于缺乏额外的语义信息，其能够捕获到的图像特征信息对生成描述语句的质量提升有限，本发明希望实现一种“视觉图像—语义属性词”对齐的做法，模型首先决定观察图片的哪一个区域，其次基于该区域的图像特征，借助指针网络运算机制，从检测到的属性词语中找到最合适的描述词，如果没有属性词能够描述该区域，模型同样能够自行生成出更恰当的词语，这也同时保证了模型的鲁棒性：既能够在视觉属性词检测准确的情况下，有效利用检测到的语义信息来丰富句子，又能够在视觉词语检测精度一般的情况下，基于语言模型和视觉特征来生成正确的单词。

发明步骤：本算法的步骤主要分为三大部分：1)提取图片视觉特征；2)基于视觉注意力机制，计算每个时刻关注的视觉特征；3)基于每个时刻的视觉特征，判断当前是否从属性词中挑选合适的词，还是另外再找寻合适的单词，在当前时刻进行预测输出。具体的步骤如下：

步骤1：提取输入图片的视觉特征：通过在ImageNet图片数据集上预训练过的卷积神经网络(Convolutional Neural Network，CNN)，提取得到输入图片的特征向量，并将特征向量输入到由两层长短时记忆网络LSTM(Long Short-Term Memory，LSTM)组成的描述语句生成模型；

步骤2，基于自适应注意力机制(Adaptive Attention)，在每一个时刻计算出描述语句生成模型对图片不同区域的注意力权重，并基于注意力权重，对图片特征向量进行加权，得到该时刻关注的图像特征；

步骤3，描述语句生成模型基于当前的语句生成状况及关注到的图像特征，利用指针网络(Pointer Network)运算机制，从预先检测到的视觉属性词语中，挑选最合适的词语，作为该时刻的生成单词，如果没有找到合适的词语，则基于LSTM网络的隐含层状态参量生成单词。

步骤4，重复步骤1～步骤3，依次完成对句子中每一个单词的生成。

步骤1包括以下步骤：

步骤1-1，对原始输入图片I进行预处理，得到图像特征图；

步骤1-2，将图像特征图展开成二维矩阵；

步骤1-3，将特征向量输入描述语句生成模型，得到输出结果。

其中，步骤1-1包括：将原始输入图片I放缩到H×W的大小，输入到在ImageNet图像数据集上预先训练过的卷积神经网络中，并删去原始网络结构中最后的全连接层，保留最后一个卷积层的输出特征图feature map，其尺寸大小h×w×d_v，其中，H、W分别表示原始输入图片I的高和宽，h、w分别表示输出特征图feature map的高和宽，d_v表示特征向量的维度；

步骤1-2包括：将图像特征图展开并整理成二维矩阵的形式：

其中CNN(I)表示经过CNN网络提取得到的图片特征图，flatten操作将原本h×w×d_v的三维张量特征图展开成k×d_v的二维形式，并在转置后重新整理为d_v×k的形式，k＝h×w，

表示了图片上k个不同区域中，第i个区域的图片特征向量，对上述k个图片特征向量求均值，记为

其中R表示实数空间。

步骤1-3包括：描述语句生成模型由两层LSTM网络构成，低层为LSTM_TopDown，高层为LSTM_language。在第t时刻，将不同区域图片特征向量的均值

当前时刻对应单词的词嵌入向量Ey_t，以及t-1时刻LSTM_language的状态参量

进行拼接(concatenate)，并将拼接得到的结果输入到第一层LSTM网络，即LSTM_TopDown中，得到LSTM_TopDown运算后的状态参量

具体流程如下式，所有参量的右下角标t代表当前时刻的取值：

其中

表示LSTM_language前一时刻的隐含层状态参量，y_t表示第t个时刻对应的正确单词的one-hot编码向量，将其与待学习的词嵌入矩阵E进行相乘运算得到词嵌入向量Ey_t，三者拼接后得到待输入进LSTM_TopDown的向量

d_h和d_E分别是隐含层状态向量的维度及词嵌入向量的维度。

步骤2包括以下步骤：

步骤2-1，基于步骤1-3得到的

借鉴Lu等人在《Knowing When to Look:Adaptive Attention via A Visual Sentinel for Image Captioning》一文中提出的自适应注意力机制，计算出名为visual sentinel视觉哨兵变量的值

用于帮助描述语句生成模型判断当前时刻是否应当从图片中获取信息，还是直接基于LSTM网络的隐含层状态参量生成下一个单词，计算公式如下：

其中gate_t是一个保存中间计算结果的变量，W_xg和W_hg均为待学习参数，⊙代表按元素位置一一相乘，σ表示sigmoid函数；

步骤2-2，将步骤1-2所得的矩阵V嵌入到d_h维度，使其与LSTM网络的状态参量维度一致，得到低维空间下的图像特征矩阵V_embed＝W_veV，

其中W_ve为待学习参量，再将V_embed与步骤2-1计算得到的

进行拼接，将其定义为此时的上下文向量(contextfeature)，记为

步骤2-3，利用注意力计算方法，得到当前时刻LSTM_TopDown的隐含层状态参量

对上下文信息特征向量的注意力分配权重，并由此得到加权后的context feature，记为

其中w_a、W_C和

均为待学习参数；

表示当前时刻即t时刻，对第i个上下文信息特征向量分配的注意力权重；

φ表示softmax计算，将注意力权重归一化到0到1之间；

tanh表示激活函数，

代表将两个维度不同的矩阵拓展到相同维度后的相加操作。

步骤3包括以下步骤：

步骤3-1，将步骤2-3最终所得加权特征向量

与步骤1-3所得LSTM_TopDown的隐含层状态参量

拼接为LSTM_language的输入，记为

并将其输入到LSTM_language网络中，计算得到LSTM_language在当前时刻的隐含层状态参量

该参量将直接指导当前时刻单词的生成，具体计算步骤如下：

步骤3-2，基于预先训练的属性检测器，例如利用全卷积网络(FullyConvolutional Networks，FCN)实现的图片属性检测器，得到每张图片包含的前m个属性词，并加载这些属性词对应的GloVe词向量，组成属性词语矩阵

其中d_G表示GloVe词向量的维度；

步骤3-3，将属性词语矩阵嵌入到d_h维度，使其与LSTM网络的状态参量维度一致，及确保各个模态的信息被嵌入到统一的语义空间，得到该语义空间下的词向量矩阵

其中W_ae为待学习的参数矩阵；

步骤3-4，再次利用与步骤2-3中相同的注意力计算方法，计算步骤3-1得到的

对各个属性词的注意力权重向量

其中，w_b、W_A和

均为待学习参量；

步骤3-5，根据注意力权重向量β_t，得到当前时刻描述语句生成模型挑选每个属性词作为最终输出的单词的概率P_attr(y_t)；

步骤3-6，当备选属性词列表中没有适合的词语时，描述语句生成模型基于当前的语句生成情况和自身隐含层状况，决定生成单词；

步骤3-7，得到最终结果。

步骤3-5包括：根据注意力权重向量β_t，得到当前时刻模型挑选每个属性词作为最终输出的单词的概率P_attr(y_t)，表示为：

其中y_t代表字典中的某一个单词，Vocab表示英文单词词汇表，Attr_topM表示的是预先检测出来的m个视觉属性词语构成的词汇表，对于步骤3-2中检测到的m个属性词以外的词语，P_attr均判定挑选概率为0；这一设定为了之后的计算方便。

步骤3-6包括：除了步骤3-5中所述的基于前m个属性词作为生成单词外，描述语句生成模型能够仅基于当前的语句生成情况和自身隐含层状况，决定生成哪一个单词，具体定义为：

其中W_voc、W_ctx、b_voc和b_ctx均为待学习参量，P_vocab(y_t)即为生成单词y_t的概率；

步骤3-7包括：描述语句生成模型借鉴指针网络(Pointer-Network)运算机制，决定每个时刻究竟从属性词挑选单词，还是不从属性词中挑选，定义一个参量p，该参量p决定了分别从P_attr和P_vocab挑选词语的概率权重，起到一种类似“开关”(switch)的效果，最终的生成单词预测结果为，从属性词列表中挑选出单词y_t的概率P_attr(y_t)，以及不从属性词列表而是整个词汇表中挑选出单词y_t的概率P_vocab(y_t)，两者基于参量p的加权结果，计算过程如下：

其中w_ph,w_attr,w_em,b_ptr均为待学习参量，最终得到的P_vocab(y_t)表示了当前时刻生成单词y_t的最终概率，在训练阶段基于交叉熵损失对其进行训练，测试阶段往往选择概率最大的单词，作为该时刻生成的单词。

有益效果：本发明方法能够更好地将视觉属性词语的检测和图像描述语句的生成两部分工作相结合，利用自然语言处理领域的先进指针网络算法，把检测到的属性词语以“拷贝粘贴”的形式添加到待生成的描述语句中，使得生成的描述句子内容更加丰富贴切，涵盖尽可能多的视觉属性词语。同时算法中加入的注意力计算机制，也能够实现视觉特征和属性词向量的语义对齐，让描述语句生成模型能够真正理解一张图片“何处为何物”。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明的总体框架图。

图2则是本发明方法框架的细节图。

图3对比了本发明相比于未加入之前的模型，生成句子的效果提升示意图。

图4是基于指针网络的模型生成句子过程中的中间结果示意图。

具体实施方式

如图1、图2所示，本发明包含了两个模块，分别是视觉定位模块和属性词挑选模块，前者包含一个由两层LSTM网络(LSTM_TopDown和LSTM_language)组成的语言生成模块以及图像注意力计算模块，后者主要利用Pointer-Network指针网络，来对每个时刻具体生成哪个单词做进一步选择。接下来结合步骤做具体说明：

步骤1：提取输入图片的视觉特征：通过在ImageNet上预训练过的卷积神经网络(Convolutional Neural Network，CNN)，提取得到输入图片的特征向量，并将特征向量输入到由两层LSTM网络组成的描述语句生成模型；

步骤2，基于注意力机制，在每一个时刻计算出描述语句生成模型对图片不同区域的注意力权重，并基于注意力权重，对图片特征向量进行加权，得到该时刻关注的图像特征；

步骤3，描述语句生成模型基于当前的语句生成状况及关注到的图像特征，利用指针网络运算机制，从预先检测到的视觉属性词语中，挑选最合适的词语，作为该时刻的生成单词，如果没有找到合适的词语，则基于LSTM隐含层状态参量生成单词。

步骤1包括以下步骤：

步骤1-1，对原始输入图片I进行预处理，得到图像特征图；

步骤1-2，将图像特征图展开成二维矩阵；

其中，步骤1-1包括：将原始输入图片I放缩到H×W的大小，输入到在ImageNet上预训练过的卷积神经网络中，并删去原始网络结构中最后的全连接层，保留最后一个卷积层的输出特征图feature map，其尺寸大小h×w×d_v，其中，H、W分别表示原始输入图片I的高和宽，h、w分别表示输出特征图feature map的高和宽，d_v表示特征向量的维度；

步骤1-2包括：将图像特征图展开并整理成二维矩阵的形式：

步骤1-3包括：描述语句生成模块由两层LSTM网络构成，低层为LSTM_TopDown，高层为LSTM_language。在第t时刻，将不同区域图片特征向量的均值

进行拼接(concatenate)，并将拼接得到的结果输入到第一层LSTM网络LSTM_TopDown中，得到LSTM_TopDown运算后的状态参量

其中

是LSTM_language前一时刻的隐含层状态参量，

为图片不同区域特征向量的均值，y_t表示第t个时刻对应的正确单词的one-hot编码向量，将其与待学习的词嵌入矩阵E进行相乘运算得到词嵌入向量Ey_t，三者拼接后得到待输入进LSTM_TopDown的向量

d_h和d_E分别是隐含层状态向量的维度及词嵌入向量的维度。

步骤2包括以下步骤：

步骤2-1，基于步骤1-3得到的

借鉴Lu等人在《Knowing When to Look:Adaptive Attention via A Visual Sentinel for Image Captioning》一文中提出的自适应注意力机制，计算出名为“visual sentinel”(视觉哨兵)变量的值

其中W_ve为待学习参量，再将V_embed与步骤2-1计算得到的

进行拼接，将其定义为此时的上下文向量(contextfeature)，记为

其中w_a、W_C和

均为待学习参数；

φ表示softmax计算，将注意力权重归一化到0到1之间；

tanh表示激活函数，

代表将两个维度不同的矩阵拓展到相同维度后的相加操作。

步骤3包括以下步骤：

步骤3-1，将步骤2-3最终所得加权特征向量

与步骤1-3所得LSTM_TopDown的隐含层状态参量

拼接为LSTM_language的输入，记为

并将其输入到LSTM_language中，计算得到LSTM_language在当前时刻的隐含层状态参量

步骤3-2，基于预先训练的属性检测器，例如采用基于全卷积网络训练的属性检测器，得到每张图片包含的前m个属性词，并加载这些属性词对应的GloVe词向量，组成属性词语矩阵

其中d_G表示GloVe词向量的维度；

其中W_ae为待学习的参数矩阵；

步骤3-4，再次利用注意力计算方法，计算步骤3-1得到的

对各个属性词的注意力权重向量

其中，w_b、W_A和

均为待学习参量；

步骤3-5，根据注意力权重向量β_t，得到当前时刻模型挑选每个属性词作为最终输出的单词的概率P_attr(y_t)；

步骤3-6，描述语句生成模型基于当前的语句生成情况和自身隐含层状况，决定生成单词；

步骤3-7，得到最终预测结果。

步骤3-7包括：语句生成模型借鉴指针网络(Pointer-Network)运算机制，决定每个时刻究竟从属性词挑选单词，还是不从属性词中挑选，定义一个参量p，该参量p决定分别了从P_attr和P_vocab挑选词语的概率权重，起到一种类似“开关”(switch)的效果，最终的生成单词预测结果为，从属性词列表中挑选出单词y_t的概率P_attr(y_t)，以及不从属性词列表而是整个词汇表中挑选出单词y_t的概率P_vocab(y_t)，两者基于参量p的加权结果，计算过程如下：

基于上述步骤进行序列式的生成，最终可以得到一个完整的生成语句，同时模型的中间结果，例如每个时刻的注意力权重向量也可以保存，供此后可视化。

实施例

本发明可以用于日常生活中的图片记录摘要，使用者拍摄的任意图片都可以借助经过本发明训练后的模型进行摘要语句的生成，例如生活中抓拍的很多照片，加入摘要语句之后，能够方便日后的查看翻阅，这也符合大数据时代人们对于图片快速检索分类的需求。

为了验证本发明的有效性，将本发明在Microsoft COCO 2014数据集上进行了训练和测试该数据集一共有123287张图片，每张图片有4～5句人工提供的标注语句。依据Karpathy Split划分原则，用113287张图片作为训练图片(train集)，5000张图片用于验证(val集)，5000张图片用于测试(test集)。本发明利用一块GTX 1080Ti显卡进行训练加速，采用Adam学习器，学习率设置为2e-4。

模型的一些参数设置如下，采用预训练的ResNet-101网络作为提取图像特征的CNN，采用300维的GloVe词向量，作为属性词语的特征向量，语言模型LSTM的隐含层状态维度采用512维，与图像及词向量的嵌入维度保持统一。

本实施例分别从定量和定性的角度给出了本发明的实验结果，并与一些State ofArt的做法进行了分数上的对比(表1)：

表1

可以发现本发明在分数上具有较强的竞争力，一方面本发明对属性检测模块并未进行刻意训练和调试，仅仅采用简单的FCN网络，对COCO数据集上的top1000个词语做了检测，另一方面由于没有利用目标检测模块，故和最高的模型分数比还稍有差距，但是从图3中可以发现，本发明能够有效提升属性检测词语的利用率，证明了本发明的有效性。图3通过对比本发明方法加入前后生成句子质量的变化，体现了加入本发明方法后，模型能够有效利用检测到的属性词语，其中Model-B代表Baseline模型，没有加入本发明提出的方法，Model-P代表Pointer模型，加入了本发明设计的方法。而图4具体展示用本发明对任意一张生活场景图片生成描述语句的过程，通过P_attr和P_vocab的值的对比，可以发现，当属性词语中有恰当的词语时，模型会优先考虑直接拷贝该词语(如图4中women,couch)，而当属性词语没有涵盖需要的单词时，P_attr值会较小，从而让模型自行根据语言模型以及当前句子的生成状态，判断该生成哪个单词(如图4中on,a等非视觉词语，往往可以根据语言习惯就正确预测出)。同时可以发现模型的视觉注意力部分也能够正确找寻到合适的图片内容对应区域。

本发明提供了一种基于指针网络的图像描述优化方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于指针网络的图像描述优化方法，其特征在于，包括如下步骤：

步骤1，提取输入图片的视觉特征：通过在ImageNet图像数据集上预先训练过的卷积神经网络CNN，提取得到输入图片的特征向量，并将特征向量输入到由两层长短时记忆网络LSTM组成的描述语句生成模型；

步骤2，基于自适应注意力机制，在每一个时刻计算出描述语句生成模型对图片不同区域的注意力权重，并基于注意力权重，对图片特征向量进行加权，得到该时刻关注的图像特征；

步骤3，描述语句生成模型基于当前的语句生成状况及关注到的图像特征，利用指针网络运算机制，从预先检测到的视觉属性词语中，挑选最合适的词语，作为该时刻的生成单词，如果没有找到合适的词语，则基于LSTM网络的隐含层状态参量生成单词；

2.根据权利要求1所述的方法，其特征在于，步骤1包括以下步骤：

步骤1-1，对原始输入图片I进行预处理，得到图像特征图；

步骤1-2，将图像特征图展开成二维矩阵；

3.根据权利要求2所述的方法，其特征在于，步骤1-1包括：将原始输入图片I放缩到H×W的大小，输入到在ImageNet图片数据集上预先训练过的卷积神经网络中，并删去原始网络结构中最后的全连接层，保留最后一个卷积层的输出特征图feature map，其尺寸大小h×w×d_v，其中，H、W分别表示原始输入图片I的高和宽，h、w分别表示输出特征图feature map的高和宽，d_v表示特征向量的维度。

4.根据权利要求3所述的方法，其特征在于，步骤1-2包括：将图像特征图展开并整理成二维矩阵V的形式：

其中CNN(I)表示经过CNN网络提取得到的图片特征图，flatten操作将原本h×w×d_v的三维张量特征图展开成k×d_v的二维形式，并在转置后重新整理为d_v×k的形式，k＝h×w；

其中R表示实数空间。

5.根据权利要求4所述的方法，其特征在于，步骤1-3包括：描述语句生成模型由两层LSTM网络构成，低层为LSTM_TopDown，高层为LSTM_language，在第t个时刻，将不同区域图片特征向量的均值

进行拼接，并将拼接得到的结果输入到第一层LSTM网络，即LSTM_TopDown中，得到LSTM_TopDown运算后的状态参量

其中

d_h和d_E分别是隐含层状态向量的维度及词嵌入向量的维度。

6.根据权利要求5所述的方法，其特征在于，步骤2包括以下步骤：

步骤2-1，基于步骤1-3得到的

采用自适应注意力机制，计算出名为visualsentinel视觉哨兵变量的值

用于帮助描述语句生成模型判断当前时刻是否应当从图片中获取信息，还是直接基于LSTM网络的隐含层状况参量生成下一个单词，计算公式如下：

其中gate_t是一个保存中间计算结果的变量，W_xg和W_hg均为待学习参数，⊙代表按元素位置一一相乘，σ代表sigmoid函数；

其中W_ve为待学习参量，再将V_embed与步骤2-1计算得到的

进行拼接，将其定义为此时的上下文信息，记为

其中w_a、W_C和

均为待学习参数；

表示当前时刻对第i个上下文信息特征向量分配的注意力权重；

φ表示softmax计算，将注意力权重归一化到0到1之间；

tanh表示激活函数，

代表将两个维度不同的矩阵拓展到相同维度后的相加操作。

7.根据权利要求6所述的方法，其特征在于，步骤3包括以下步骤：

步骤3-1，将步骤2-3最终所得加权特征向量

与步骤1-3所得LSTM_TopDown的隐含层状态参量

拼接为LSTM_language的输入，记为

具体计算步骤如下：

步骤3-2，基于预先训练的属性检测器，如利用全卷积网络(Fully ConvolutionalNetworks，FCN)实现的图片属性检测器，得到每张图片包含的前m个视觉属性词，并加载这些属性词对应的GloVe词向量，组成属性词语矩阵

其中d_G表示GloVe词向量的维度；

步骤3-3，将属性词语矩阵嵌入到d_h维度，使其与LSTM网络的状态参量维度一致，得到该语义空间下的属性词矩阵

其中W_ae为待学习的参数矩阵；

步骤3-4，再次利用注意力计算方法，计算步骤3-1得到的

对各个属性词的注意力权重向量

其中，w_b、W_A和

均为待学习参量；

步骤3-7，得到最终结果。

8.根据权利要求7所述的方法，其特征在于，步骤3-5包括：根据注意力权重向量β_t，得到当前时刻模型挑选每个属性词作为最终输出的单词的概率P_attr(y_t)，表示为：

其中y_t代表字典中的一个单词，Vocab表示英文单词词汇表，Attr_topM表示的是预先检测出来的m个视觉属性词语构成的词汇表，对于步骤3-2中检测到的m个属性词以外的词语，P_attr均判定挑选概率为0。

9.根据权利要求8所述的方法，其特征在于，步骤3-6包括：除了步骤3-5中所述的基于前m个属性词作为生成单词外，描述语句生成模型能够仅基于当前的语句生成情况和自身隐含层状况，决定生成哪一个单词，具体定义为：

其中W_voc、W_ctx、b_voc和b_ctx均为待学习参量，P_vocab(y_t)即为生成单词y_t的概率。

10.根据权利要求9所述的方法，其特征在于，步骤3-7包括：描述语句生成模型借鉴指针网络运算机制，决定每个时刻究竟是从属性词列表挑选单词，还是不从属性词中挑选，定义一个参量p，该参量p决定了分别从P_attr和P_vocab挑选词语的概率权重，最终的生成单词预测结果为，从属性词列表中挑选出单词y_t的概率P_attr(y_t)，以及不从属性词列表而是整个词汇表中挑选出单词y_t的概率P_vocab(y_t)，两者基于参量p的加权结果，计算过程如下：

P_vocab(y_t)＝P_vocab(y_t)×p+P_attr(y_t)×(1-p)，