CN109447242A

CN109447242A - 基于迭代学习的图像描述重生成系统及方法

Info

Publication number: CN109447242A
Application number: CN201811176057.1A
Authority: CN
Inventors: 张玥杰; 周练; 田勇; 张涛
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2019-03-08
Anticipated expiration: 2038-10-10
Also published as: CN109447242B

Abstract

本发明为基于迭代学习的图像描述重生成系统及方法，包括：深度卷积网络、第一轮循环神经网络、知识抽取模块以及第二轮循环神经网络。深度卷积网络对图像进行细粒度的编码。第一轮循环神经网络为图像生成初步的句子描述以及视觉注意力图序列。知识抽取模块根据注意力图，利用显著性区域检测算法来生成显著性区域掩码。此外，知识抽取模块从初步生成的句子描述中提取名词序列作为图像的主题词。第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入第二轮训练，即基于显著性区域掩码的全局图像视觉表示精炼，基于主题词的多模态图像表示优化以及基于主题词的多模态注意力机制。基于上述机制，第二轮循环神经网络可生成精炼的图像描述。

Description

基于迭代学习的图像描述重生成系统及方法

技术领域

本发明属于跨媒体生成技术领域，具体涉及基于迭代学习的图像描述重生成系统及方法。

背景技术

图像描述生成(Image Captioning)是一项非常重要的视觉任务，即为图像生成一句描述其视觉内容的自然语言。图像描述生成任务可以实现从视觉到文本的映射，具有非常广阔的应用前景，例如，跨媒体检索、盲人辅助等。图像描述生成任务非常具有挑战性，模型不仅需要准确地识别出图像中的显著性对象、对象的属性以及对象之间的交互关系，还要将这些识别出来的信息进行整合，最终生成一句有意义的自然语言描述。目前，实现图像描述生成的方法可以大致分为三类，即基于检索的方法、基于模板的方法以及基于序列学习的方法。前两种方法有比较明显的缺点，效果上不如基于序列学习的方法。所以，基于序列学习的方法是目前用于实现图像描述生成的主流方法。基于序列学习的方法是在深度神经网络快速发展的背景下提出的。具体来说，基于序列学习的方法从神经机器翻译领域的编码器-解码器框架获得启发，使用深度卷积网络CNN(Convolutional Neural Network)作为图像编码器，将图像编码成高维向量表示，然后利用循环神经网络RNN(RecurrentNeural Network)作为解码器，对图像的高维向量表示进行解码，最终生成图像的视觉描述。

目前，已经有实验证明视觉和语义的显著性广泛存在于图像描述任务中。但是，大部分基于单轮学习的图像描述生成模型无法利用视觉和语义上的显著性信息来增强模型的学习。所以，基于单轮学习的图像描述生成模型面临着两个问题。第一，粗糙的全局图像特征表示。许多模型利用深度卷积网络卷积层输出的特征图来编码图像，也就是将图像划分成小区域，每个区域表示成一个特征向量。在第一轮学习的初始时刻，由于无法判断哪些区域是显著区域，所以模型只能将这些区域特征向量进行简单的平均来得到一个图像的全局表示，然后基于该表示进行解码。因为人在描述图像的视觉内容时往往只描述图像的显著性区域，所以通过简单地将各个区域的特征向量进行平均得到的图像表示无法很好地编码图像的显著性视觉信息，从而损害最终生成的图像描述的质量。第二，语义信息的缺失。每个图像的视觉内容都对应一定的主题(例如“汽车”，“鲜花”等)，所以主题词将有助于模型更好地理解图像的语义内容，从而提高所生成图像描述的质量。但是，对于只进行一轮学习的模型来说，模型无法获取测试集图像的主题词信息。为了解决以上问题，前期已经有一些工作提出利用人眼焦点数据集来学习一个图像显著性区域预测器，用于生成图像的显著性区域掩码，并利用显著性区域掩码来精炼图像的视觉表示。此外，还有工作利用检索、多实例学习、多标签分类等技术来学习图像语义预测器，从而为图像描述生成模型提供更多关于图像的显著性语义信息。但是，当我们的目标只是为图像生成描述时，上述方法引入了额外的负担。更好的方法应该是让图像描述生成模型自己去识别图像的显著性区域以及获取与显著性区域相对应的显著性语义信息。随着深度神经网络的发展，当前的图像描述生成模型已经可以学习到足够准确的图像视觉和语义显著性信息。但是由于单轮学习以及缺乏显著性信息提取和融合的机制，当前的模型无法很好地利用学习到的有益信息。基于上述考虑，本发明采用迭代学习的方式，通过视觉显著性检测以及主题词机制从第一轮模型中提取有益的显著性信息，并通过相应的显著性融合机制将显著性信息融入到第二轮的学习中，从而让图像描述生成模型能够更加充分地利用自己学习到的知识来提高模型的性能。

发明内容

为了解决传统模型在单轮学习过程中存在的全局图像特征表示比较粗糙以及缺乏主题语义信息这两个问题，本发明提出了一种基于迭代学习的图像描述重生成系统及方法，以提高所生成图像描述的质量。

本发明基于“CNN+LSTM”图像描述生成模型架构，提出迭代学习范式，从而让模型能够利用更多有益的信息来提高所生成图像描述的质量。基于迭代学习的图像描述重生成系统包括：深度卷积网络、第一轮循环神经网络、知识抽取模块以及第二轮循环神经网络。所述深度卷积网络用于对图像进行细粒度的编码，即计算图像区域的特征向量表示，并将图像的特征向量表示输出到第一轮循环神经网络和第二轮循环神经网络；所述第一轮循环神经网络根据图像的特征向量表示得到粗糙的全局图像视觉表示，然后生成初步的图像描述以及与句子中每个词语对应的视觉注意力图序列，并将这些信息输出到知识抽取模块；所述知识抽取模块根据视觉注意力图，利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域，并生成显著性区域掩码。此外，所述知识抽取模块从初步生成的句子描述中提取名词序列，作为图像的主题词。所述知识抽取模块将显著性区域掩码和主题词作为图像的额外知识输出到第二轮循环神经网络；所述第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入到第二轮训练当中，即利用显著性区域掩码来计算精炼的全局图像视觉表示，利用主题词来计算初始时刻多模态图像表示以及利用主题词来执行多模态注意力机制。通过上述机制，第二轮循环神经网络最终生成精炼的图像描述。

具体的，所述深度卷积网络将卷积层输出的特征图作为图像的细粒度特征表示，具体可表示为：

其中，v^*表示卷积层输出的原始特征图，即一个形状为n×n×D的实值张量；表示实数空间；n表示特征图的大小，即图像总共被分割成n²个区域，可见，图像的每个区域和对应的特征向量均可通过一组下标来定位；D表示每个区域特征向量v_i,j(1≤i,j≤n)的维度；ReLU表示线性整流函数。

具体的，所述第一轮循环神经网络采用带有视觉注意力机制的LSTM来生成初步的图像描述Y＝(y₁,…,y_d)以及对应的视觉注意力图(α¹,…,α^d)；其中，y_t表示LSTM在第t个时刻生成的词语，其对应的视觉注意力图为：

表示第一轮LSTM在第t个时刻对每个图像区域的关注程度。

具体的，所述知识抽取模块从第一轮循环神经网络的输出中抽取有益的视觉和语义信息来精炼用于第二轮学习的图像特征表示；在视觉方面，首先根据句子中词语的词性(例如，名词、动词和形容词)从学习到的视觉注意力图序列中选择一个子集，并将选出的注意力图进行累加得到全局的视觉注意力图，即：

α^c＝g(∑_qα^q),q∈{q₁,…,q_k},1≤q_i≤d,1≤i≤k，

其中，g是L₁归一化函数；现在，α^c是一个在图像区域上的概率分布，表示每个区域对于最终生成的图像描述的重要性；也就是说，概率密度越高，表示对应区域越重要；基于这一特点，可以通过检测α^c的局部特征来找到图像的显著性区域。

本发明使用基于滑动窗口的显著性区域检测算法来识别出显著的区域，并输出与注意力图尺度一样的显著性区域掩码M；在M中，1表示对应区域被认定为显著性区域，而0表示对应区域为背景区域。

在语义方面，本发明从第一轮学习到的图像描述中提取名词集合作为图像的主题词，即：

其中，是每个主题词的索引向量，该向量在词语所对应编号的维度上为1，在其他维度上为0。

具体的，所述第二轮循环神经网络是一个与第一轮循环神经网络完全一样的LSTM；为了提高所生成图像描述的质量，第二轮循环神经网络对图像的特征表示进行优化。

在视觉方面，主要的优化是精炼图像的全局视觉表示，这可根据M和v计算得到；具体分为三步：

第一步，计算显著性区域的特征表示：

其中，α^s＝M/Q为对应的显著性区域系数矩阵，Q为显著性区域的个数；

第二步，计算背景区域的特征表示：

其中，α^b＝(I-M)/(n²-Q)为背景区域系数矩阵，I是大小为n×n且元素全为1的矩阵；

第三步，计算精炼的图像视觉表示：

其中，β是一个用于权衡显著性区域表示和背景区域表示的系数，取值范围是[0.5,1.0]，表明模型倾向于关注显著的区域。

在语义方面，主要的优化是多模态图像表示和多模态注意力机制；在多模态图像表示方面，通过将语义信息与图像纯视觉表示进行融合来增加图像视觉表示的判别性；具体的，给定一张图像的主题词集合T，通过一个词嵌入矩阵W_e可将每个主题词映射到一个实值向量最终，通过将图像的视觉表示与主题词进行融合可得到多模态图像特征表示即：

其中，v₀是图像的纯视觉表示。

在多模态注意力机制方面，通过让模型在生成描述的过程中同时关注视觉和语义信息来使模型能够获取更多关于图像的语义信息，具体体现为多模态上下文向量的计算，即：

其中，是每个主题词的注意力权重，而为每个视觉特征向量的注意力权重。

本发明还提供采用所述的基于迭代学习的图像描述重生成系统的图像描述重生成方法，包括：

步骤一、所述深度卷积网络用于对图像进行细粒度的编码，即计算图像区域的特征向量表示，并将图像的特征向量表示输出到第一轮循环神经网络和第二轮循环神经网络；

步骤二、所述第一轮循环神经网络根据图像的特征表示生成初步的图像描述以及与句子中每个词对应的注意力图，并将这些信息输出到知识抽取模块；

步骤三、所述知识抽取模块根据注意力图，利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域，并生成显著性区域掩码；同时，从初步生成的句子描述中提取名词序列，作为图像的主题词；最后，知识抽取模块将显著性区域掩码和主题词输出到第二轮循环神经网络；

步骤四、所述第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入到第二轮训练当中，即利用显著性区域掩码来计算精炼的全局图像视觉表示，利用主题词来计算初始时刻多模态图像表示，利用主题词来执行多模态注意力机制；通过上述三种机制，第二轮循环神经网络最终生成精炼的图像描述。

本发明的优点：

首先，本发明采用迭代学习的策略来生成图像描述，可以克服单轮模型存在的全局图像表示比较粗糙以及语义信息缺失这两个问题，其生成过程更符合人类描述图像视觉信息的过程；

其次，本发明利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域，并将图像表示成显著性区域和背景区域的加权和；通过赋予显著性区域更大的权重，从而得到更好的图像视觉表示；

最后，本发明通过多模态图像表示和多模态注意力机制将语义信息融入第二轮学习当中，让模型能够获得更多关于图像的语义信息。

附图说明

图1是本发明的框架图。

图2是基于滑动窗口的显著性区域检测算法的示意图。其中，左：输入图像；中：α^c；右：显著性区域掩码M。

具体实施方式

由技术背景可知，现有的图像描述生成模型大都只进行一轮的学习，存在全局图像表示比较粗糙、语义信息缺失等问题。申请人针对上述问题进行研究，在本发明中提供一种基于迭代学习的图像描述重生成系统及方法，通过迭代学习利用第一轮模型来学习与图像有关的视觉和语义知识，并输出到第二轮模型来缓解上述存在的两个问题。本发明通过两轮LSTM的学习来生成最终的图像描述，其中第一轮LSTM用来学习图像的视觉和语义信息，而第二轮LSTM用于生成精炼后的句子描述，而这两轮LSTM通过一个知识抽取模块进行联系。本发明的一个重要特点是通过引入基于滑动窗口的图像显著性区域检测算法和主题词机制，从第一轮LSTM中抽取有益的知识，并通过全局图像视觉表示精炼、多模态图像表示以及多模态注意力机制将所学习到的知识融入到第二轮LSTM的学习中，从而提高所生成句子描述的质量。

下文将结合附图和实施例对本发明的精神和实质做进一步阐述。

如图1所示，本发明实施例提供的基于迭代学习的图像描述生成系统包括：深度卷积网络01、第一轮循环神经网络02、知识抽取模块03以及第二轮循环神经网络04。所述深度卷积网络用于对图像进行细粒度的编码，即计算图像区域的特征向量表示，并将图像的特征向量表示输出到第一轮循环神经网络和第二轮循环神经网络；所述第一轮循环神经网络根据图像的特征向量表示得到粗糙的全局图像视觉表示，然后生成初步的图像描述以及与句子中每个词语对应的视觉注意力图，并将这些信息输出到知识抽取模块；所述知识抽取模块根据视觉注意力图，利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域，并生成显著性区域掩码。此外，所述知识抽取模块从初步生成的句子描述中提取名词序列，作为图像的主题词。所述知识抽取模块将显著性区域掩码和主题词作为图像的额外知识输出到第二轮循环神经网络；所述第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入到第二轮训练当中，即利用显著性区域掩码来计算精炼的全局图像视觉表示，利用主题词来计算初始时刻多模态图像表示以及利用主题词来执行多模态注意力机制。通过上述机制，第二轮循环神经网络最终生成精炼的图像描述。

所述深度卷积网络将卷积层输出的特征图作为图像的细粒度特征表示。广泛使用的卷积网络包括VGG，ResNet等。则图像的视觉特征可表示如下：

所述第一轮循环神经网络采用带有视觉注意力机制的LSTM来生成初步的图像描述以及对应的视觉注意力图。假设生成的句子描述为Y＝(y₀,y₁,…,y_d)，其中y₀表示句子开始标志，y_t表示在时刻t所生成词语的索引向量，即该向量在词语所对应编号的维度上为1，在其他维度上均为0。通过词嵌入技术可以将索引向量映射成一个实值向量，如等式(2)所示。其中，是词嵌入矩阵，m是词嵌入向量的维度，K是词汇表的大小。

x_t＝W_ey_t,1≤t≤d (2)

LSTM在时刻t的状态转换如下所示：

c_t＝f_t⊙c_t-1+i_t⊙g_t (4)

h_t＝o_t⊙tanh(c_t) (5)

其中，i_t，f_t，o_t，c_t和h_t分别是LSTM的输入门、遗忘门、输出门、记忆单元和隐藏层在时刻t的状态；σ，tanh和⊙分别是sigmoid激活函数、双曲正切激活函数和逐元素乘法操作；z_t是在时刻t关于图像的一个上下文向量，由视觉注意力机制计算得到，如下所示：

其中，f_att是一个使用感知机实现的注意力函数，用于计算在时刻t模型对某一个图像区域的关注程度，即能量值通过将所有区域的能量值进行归一化，可得到一个关于图像区域的注意力分布α^t。利用α^t将所有图像区域的特征向量进行加权平均，则可得到一个上下文向量z_t，即图像在时刻t的一个动态表示。α⁰被定义为初始时刻的注意力图，用于计算初始时刻的全局图像表示v₀。根据v₀，可以利用两个感知机来计算LSTM初始时刻隐藏层和记忆单元的初始值。需要注意的是，v₀只用于初始化LSTM。每个时刻所生成词语的概率值可以通过x_t-1、h_t和z_t计算得到，如下所示：

其中，u为LSTM记忆单元的个数。本发明通过最小化负对数似然来训练LSTM，如下所示：

所述知识抽取模块从第一轮循环神经网络的输出中抽取有益的视觉和语义信息来精炼用于第二轮学习的图像特征表示。在视觉方面，主要是学习图像区域上的显著性掩码。具体的，给定一个由第一轮LSTM生成的句子Y＝(y₁,…,y_d)和对应的视觉注意力图序列(α¹,…,α^d)，考虑到视觉注意力机制可以学习图像区域和词语之间的对齐关系，本发明首先根据词性选出与名词、动词和形容词对应的视觉注意力图，并将这些注意力图进行逐位置累加和归一化，即α^c＝g(∑_qα^q),q∈{q₁,…,q_k},1≤q_i≤d,1≤i≤k，其中g是L₁归一化函数。现在，α^c是一个图像区域上的概率分布，表示每个区域对于最终生成的图像描述的重要性。基于这一特点，本发明利用滑动窗口检测α^c的局部特征来找到图像的显著性区域，具体算法如下所示：

算法1：基于滑动窗口的图像显著性区域检测

输入：α^c，分辨率h:w，单位长度e(1≤e≤n,e*max(h,w)≤n)，步长s，区域个数阈值δ∈[0.0,1.0]。

输出：显著性区域掩码M。

1、初始化P＝[]，WIN＝[]，REG＝[]，M＝[0]_n×n；

2、根据α^c，滑动窗口(h*e,w*e)以及s将所有合法的滑动窗口位置(r,c)加入到列表P；

3、对于P中的每一个位置(r,c)，按顺序执行：

1)获取对应窗口所包含区域的注意力权重集合

2)计算窗口的平均显著性分数：

3)将((r,c),score)元组加入到WIN列表中；

4、根据分数对WIN列表中的元组进行降序排序；

5、对于WIN中的每个元组((r,c),score)，按顺序执行：

1)获取窗口所包含区域R＝[(r,c),…,(r+h*e-1,c+w*e-1)]；

2)对R中的区域根据其注意力权重进行降序排序；

3)对于R中的每个区域(r′,c′)，按顺序执行：

如果REG包含的元素个数不小于则终止，执行步骤6；

如果(r′,c′)不在REG中，则将(r′,c′)加入到REG；

6、将REG中所包含区域在M中对应的值设置为1；

7、返回M。

在算法1中，一个滑动窗口的位置被定义为窗口中左上角区域的坐标。滑动窗口的尺寸为h*w*e²。可见，尺寸大于1的滑动窗口会考虑区域之间的几何位置关系，即将紧邻的区域看作一个整体，这有助于将同属于一个显著性对象的区域识别为显著性区域，尽管这些区域中有些区域对应的注意力权重并非很高。平均显著性程度被用来度量每个窗口的显著性。算法1倾向于将平均显著性分数高的窗口所包含的区域以及注意力权重高的区域当做显著性区域。在M中，1表示对应区域被认定为显著性区域，而0表示对应区域为背景区域。图2是对算法1的一个概念性说明，对应的参数为h:w＝1:1,e＝2,s＝2,δ＝0.8。在语义方面，本发明从第一轮学习到的图像描述中抽取名词集合作为图像的主题词，其中是主题词的索引向量，即该向量在该词所对应编号的维度上为1，其他维度均为0。

所述第二轮循环神经网络是一个带有视觉注意力机制的LSTM。第二轮循环神经网络根据知识抽取模块输出的M和T来优化第二轮学习。本发明采用三种优化方式，包括全局图像视觉表示精炼、多模态图像表示以及多模态注意力机制。在全局图像视觉表示优化上，根据M和v可以得到精炼的图像表示，如下所示：

α^s＝M/Q,Q＞0 (14)

α^b＝(I-M)/(n²-Q),n²＞Q (15)

具体的，首先计算显著性区域的特征表示。通过M可计算得到显著性区域的系数矩阵，即α^s＝M/Q，其中Q为显著性区域的个数。则显著性区域的特征表示为同样的，通过M可计算得到背景区域的系数矩阵α^b＝(I-M)/(n²-Q)，其中I是大小为n×n且元素全为1的矩阵。则背景区域的特征表示为最终经过精炼的全局图像视觉表示为其中β是一个用于权衡显著性区域表示和背景区域表示的系数。为了突出显著性区域表示，β的取值范围被设定为[0.5,1.0]。在多模态图像表示方面，其计算过程如下：

通过将图像的视觉表示与主题词表示进行融合得到多模态图像表示，即其中v₀是图像的纯视觉表示。在给定如等式(17)所示的图像主题词集合T后，第二轮循环神经网络可以将纯视觉注意力机制扩展成多模态注意力机制，即在生成图像描述的过程中同时关注视觉和语义信息，计算过程如下：

其中，是每个主题词的注意力权重，而为每个视觉特征向量的注意力权重。在每个时刻可以计算得到一个多模态上下文向量表示，即总体来说，相较于第一轮学习，本发明在第二轮学习中依据知识抽取模块提供的显著性区域掩码M以及主题词T进行的优化包括和这些优化可以让图像的表示更具判别性，从而可以让第二轮循环神经网络更好地理解图像的内容，从而生成更优的图像描述。

综上所述，本发明提出了一种新颖的基于迭代学习的图像描述重生成系统和方法。本发明用卷积神经网络对图像内容进行细粒度的编码；第一轮循环神经网络根据图像的特征向量表示生成初步的图像描述以及与句子中每个词对应的注意力图；知识抽取模块根据注意力图，利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域，并生成显著性区域掩码。同时，从初步生成的句子描述中提取名词序列，作为图像的主题词；所述第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入到第二轮训练当中，即利用显著性区域掩码来计算精炼的全局图像视觉表示，利用主题词来计算初始时刻多模态图像表示，利用主题词来执行多模态注意力机制。基于上述三种机制，第二轮循环神经网络最终生成精炼的图像描述。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种基于迭代学习的图像描述重生成系统，其组件包括：深度卷积网络、第一轮循环神经网络、知识抽取模块以及第二轮循环神经网络；其中，所述深度卷积网络用于对图像进行细粒度的编码，即计算图像区域的特征向量表示，并将图像的特征向量表示输出到第一轮循环神经网络和第二轮循环神经网络；

所述第一轮循环神经网络利用均匀的区域权重对图像的区域特征向量进行加权平均，得到粗糙的全局图像视觉表示，然后生成初步的图像描述以及与句子中每个词语对应的视觉注意力图，并将这些信息输出到知识抽取模块；

所述知识抽取模块根据视觉注意力图，利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域，并生成显著性区域掩码；此外，所述知识抽取模块根据词性从初步生成的句子描述中提取名词序列，作为图像的主题词；所述知识抽取模块将显著性区域掩码和主题词作为图像的额外知识输出到第二轮循环神经网络；

所述第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入到第二轮训练当中，即利用显著性区域掩码来计算精炼的全局图像视觉表示，利用主题词来计算初始时刻多模态图像表示以及利用主题词来执行多模态注意力机制；基于上述三种机制，第二轮循环神经网络最终生成精炼的图像描述。

2.根据权利要求1所述的基于迭代学习的图像描述重生成系统，其特征在于，所述深度卷积网络将卷积层输出的特征图(feature map)作为图像的细粒度特征表示：

其中，v^*表示卷积层输出的原始特征图，即一个形状为n×n×D的实值张量；表示实数空间；n表示特征图的大小，即图像总共被分割成n²个区域，可见，图像的每个区域和对应的特征向量均可通过一组下标来定位；D表示每个区域特征向量v_i,j(1≤i,j≤n)的维度；ReLU表示线性整流函数(Rectified Linear Unit)。

3.根据权利要求1所述的基于迭代学习的图像描述重生成系统，其特征在于，所述第一轮循环神经网络采用带有视觉注意力机制(Visual Attention)的LSTM，即长短时记忆神经网络(Long Short-Term Memory Neural Network)来生成初步的图像描述Y＝(y₁,…,y_d)以及对应的视觉注意力图(Attention Map)序列(α¹,…,α^d)；其中，d表示句子的长度，y_t(1≤t≤d)表示LSTM在第t个时刻生成的词语，其对应的视觉注意力图为：

表示第一轮LSTM在第t个时刻对每个图像区域的关注程度。

4.根据权利要求1所述的基于迭代学习的图像描述重生成系统，其特征在于，所述知识抽取模块从第一轮循环神经网络输出的视觉注意力图中抽取有益的视觉显著性信息，即通过逐位置累加句子描述Y对应的视觉注意力图序列来得到全局的视觉注意力图，即：

α^c＝g(∑_qα^q),q∈{q₁,…,q_k},1≤q_i≤d,1≤i≤k，

其中，g是L₁归一化函数；α^c是一个在图像区域上的概率分布，表示每个区域对于最终生成的图像描述的重要性；知识抽取模块利用基于滑动窗口的显著性区域检测算法来检测α^c的局部特征，从而识别出视觉上显著的区域，并输出与注意力图尺度一样的显著性区域掩码M；在M中，1表示对应区域被认定为显著性区域，0表示对应区域为背景区域。

5.根据权利要求1所述的基于迭代学习的图像描述重生成系统，其特征在于，所述知识抽取模块从第一轮循环神经网络输出的图像句子描述中抽取有益的语义信息，即从第一轮学习到的图像描述中提取名词集合作为图像的主题词：

T＝{y_qi|y_qi∈Y,1≤q_i≤d,1≤i≤k}

其中，y_qi表示每个主题词的索引向量，该向量在词语所对应编号的维度上为1，在其他维度上为0。

6.根据权利要求1所述的基于迭代学习的图像描述重生成系统，其特征在于，所述第二轮循环神经网络采用一个与第一轮循环神经网络完全一样的LSTM；为了提高所生成图像描述的质量，第二轮循环神经网络利用三种机制将知识抽取模块所提取的图像知识融入到第二轮训练中；在视觉方面，可以根据M和v得到精炼的全局图像视觉表示，具体分为三步：

第一步，计算显著性区域的特征表示：

其中，α^s＝M/Q为显著性区域对应的系数矩阵，Q为显著性区域的个数；

第二步，计算背景区域的特征表示：

其中，α^b＝(I-M)/(n²-Q)为背景区域对应的系数矩阵，I是大小为n×n且元素全为1的矩阵；(n²-Q)为背景区域的个数；

第三步，计算精炼的全局图像视觉表示

其中，β是一个用于权衡显著性区域表示和背景区域表示的系数，取值范围是[0.5,1.0]，表明模型倾向于关注显著的区域；

在语义方面，通过多模态图像表示和多模态注意力机制可将图像的主题词融入到第二轮训练中；在多模态图像表示方面，通过将语义信息与图像纯视觉表示进行融合来增强图像视觉表示的判别性；给定一张图像的主题词集合T，通过一个词嵌入矩阵W_e将每个主题词映射到一个实值向量x_qi＝ReLU(W_ey_qi)；最终，通过将图像的视觉表示与主题词进行融合得到多模态图像表示

其中，v₀是图像的纯视觉表示；

在多模态注意力机制方面，通过让模型在生成描述的过程中同时关注视觉和语义信息使模型能够获取更多关于图像的语义信息，具体体现为多模态上下文向量的计算，即：

7.一种基于权利要求1-6之一所述图像描述重生成系统的图像描述重生成方法，其特征包括：

步骤一、用所述深度卷积网络对图像进行细粒度的编码，即计算图像区域的特征向量表示，并将图像的特征向量表示输出到第一轮循环神经网络和第二轮循环神经网络；

步骤二、由第一轮循环神经网络根据图像的视觉特征表示生成初步的图像描述以及与句子中每个词对应的注意力图，并将这些信息输出到知识抽取模块；

步骤三、由所述知识抽取模块根据注意力图，利用基于滑动窗口的显著性区域检测算法来识别图像的显著性区域，并生成显著性区域掩码；同时，从初步生成的句子描述中提取名词序列，作为图像的主题词；最后，知识抽取模块将显著性区域掩码和主题词输出到第二轮循环神经网络；

步骤四、由所述第二轮循环神经网络通过三种机制将显著性区域掩码和主题词融入到第二轮训练当中，即利用显著性区域掩码来计算精炼的全局图像视觉表示，利用主题词来计算初始时刻多模态图像表示，利用主题词来执行多模态注意力机制；基于上述机制，第二轮循环神经网络最终生成精炼的图像描述。