CN113569932B

CN113569932B - 一种基于文本层级结构的图像描述生成方法

Info

Publication number: CN113569932B
Application number: CN202110810083.0A
Authority: CN
Inventors: 靳华中; 袁福祥; 包志熙; 黎林; 姚颖
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2021-07-18
Filing date: 2021-07-18
Publication date: 2023-07-18
Anticipated expiration: 2041-07-18
Also published as: CN113569932A

Abstract

本发明公开了一种基于文本层级结构的图像描述生成方法。本发明构建双层LSTM解码器，引入视觉和语言信息选择机制，利用图像全局特征和词嵌入，引导注意力机制在图像特征和语言信息之间进行有效选择，解码生成语义信息更准确的描述句子。针对传统语言模型在语义特征提取能力不足的缺陷，本发明在解码阶段引入FARIMA滤波器改进的有序长短时记忆网络，通过编码句子的层级结构来保留不同文本层级的语义信息，利用图像空间信息与内容语义对齐，提高了解码器在图像特征和语义特征对齐的跨模态表征能力，并增加了网络的长时依赖。根据本发明提取出的方法语义关系更加丰富，更加符合自然语言习惯。

Description

一种基于文本层级结构的图像描述生成方法

技术领域

本发明涉及计算机视觉和自然语言处理领域，具体涉及一种基于文本层级结构的图像描述生成方法。

背景技术

图像描述生成被称为是计算机视觉领域和自然语言处理领域，交叉部分最重要的综合性课题之一。图像描述的主要任务就是，向机器输入一张图像，然后使得机器能够识别和理解图像中的物体、物体属性及其关系，并用人类的自然语言自动生成一段语义和语法正确的具有描述性质的文字。

图像描述生成不仅要求模型识别出图像中的目标，还需要识别其他的视觉元素，如目标的动作和属性，理解目标之间的相互关系，并生成人类可读的、符合自然语言习惯的描述句子。

近年来，基于“编码器-解码器”框架的深度学习在图像描述生成方面取得了较大的进展，但是现有模型在语义信息的挖掘和有效利用方面还存在许多不足之处。Yang Y等人提出了一种句子生成策略，通过预测构成核心句子结构的最可能的名词、动词、场景和介词来描述图像。基于模板的方法通常能够保证语法的准确性，但是该方法生成的句子结构单一，语言不够灵活，不够丰富；

Kiros在2014年首次在图像描述生成上应用了神经网络，句子上应用了循环神经网络的组合模型生成图像描述。Vinyals等推出了NIC模型，该模型用LSTM代替了RNN，并且使用了预先训练好的CNN模型提取图像特征。Bahdanau等提出了深度神经网络中的注意力机制，而后Xu等将注意力机制应用到了图像描述生成中，提出了soft attention与hardattention两种注意力模型，该模型在生成单词时可以自动筛选出对当前单词更有价值的图像区域，很好地考虑了局部重视。与传统方法比较，这些方法能够生成更加准确和有意义的句子。

然而此类方法未对非视觉词汇进行区分，来自非视觉词的梯度可能会误导并降低视觉信号在指导文本描述生成过程中的整体有效性，没有对语义信息进行充分利用，存在语义特征提取能力不足的缺陷，使得生成描述不够生动，不能符合自然语言习惯。并且现有注意力机制下的图像描述生成模型通常只关注图像局部信息，没有关注图像全局信息。由于它只描述图像局部目标之间的关系，缺少对目标与场景之间关系的描述，会造成模型生成的句子难以包含图像的整体信息。现有模型生成图像描述的句子，其语义较为片面、整体性较弱，与视觉直观认知有一定程度的偏差。

发明内容

针对现有模型所存在的不足之处，提出一种基于文本层级编码的结合自适应注意力机制和FARIMA滤波器改进的双层LSTM图像描述模型。本发明目的是进一步改善编码器-解码器框架现有的注意力机制，从而更准确地描述图像对象之间的语义关系，合理挖掘整个图像的细节信息和场景信息，使得生成的自然语言更准确，更完整，更有意义。

本发明内容：编码器部分，使用VGG网络提取图像的局部特征和全局特征，将其作为输入送进图像描述模型的解码器，解码器部分应用了双层改进的LSTM网络，通过足够的深度和非线性变换来实现所需要的映射，并将自适应注意力机制引入其中。第一层LSTM作为视觉和语言信息选择，与自适应注意力机制相结合，帮助模型决定当前时刻是应该关注图像区域信息，还是关注语言信息。第二层LSTM作为语言模型，使用FARIMA滤波器改进的ON-LSTM接收来自适应注意力模块的特征向量，解码生成图像的描述语句。

一种基于文本层级结构的图像描述生成方法，在图像编码阶段，使用VGG网络模型对图像提取局部特征和全局特征，在解码阶段使用双层改进的LSTM结构和自适应注意力机制对图像特征进行解码，将图像特征翻译成自然语言。所述方法包括如下步骤：

(1)编码器部分，利用VGG网络提取图像的局部特征和全局特征；

(2)解码器部分应用双层改进的LSTM网络，其中全局特征输入到第一层的视觉选择LSTM中，局部特征和第一层的LSTM输出一起输入到自适应注意力模块中，该模块输出一个自适应上下文向量；

(3)第二层LSTM作为语言模型，使用FARIMA滤波器改进的ON-LSTM接收自适应注意力模块的特征向量，解码生成图像的描述语句，即将自适应上下文向量输入到第二层LSTM中，计算得到词汇表中的单词，完成图像描述的生成。

进一步的，步骤(1)的具体实现过程包括；

通过VGG16卷积网络的最后一层卷积层得到512个特征图，用f表示局部特征，则有：

f＝{f₁，f₂，...,f_k},f_k∈R^1*r

其中{f₁,f₂,...,f_k}表示k个局部特征，f_k∈R^1*r表示每个图像区域的特征维度为1*r；局部特征通过全局平均池化后计算得到一个全局特征：

其中为全局特征的维度是1*d，最后将图像全局特征和局部特征馈入解码器。

进一步的，步骤(2)中第一层的视觉选择LSTM的具体实现过程包括；

第一层的视觉选择LSTM在记忆细胞状态上增加选择门控机制，通过两个待学习的权重矩阵来构造门控向量g_t，再对记忆细胞状态m_t进行点积操作得到最后的标记向量s_t，从而对LSTM进行扩展，计算公式为：

g_t＝σ(W_xx_t+W_hh_t-1)

s_t＝g_t⊙tanh(m_t)

其中W_x和W_h是要学习的权重参数，h_t-1是在上一时间步t-1时刻视觉选择LSTM隐藏层的输出，x_t是时间步t时LSTM的输入数据，g_t是应用在LSTM的记忆细胞状态m_t上的一个门控单元，⊙代表按元素进行乘积，σ是sigmoid激活函数；计算出在当前时间步t下的标记向量s_t；

在每个时间步t中，视觉选择LSTM的输入向量，是由第二层的语言LSTM的上一时间步隐藏状态平均池化图像特征即全局特征/>以及先前生成的单词的编码W_e∏_t联接而成：

其中，f_i表示第i个局部特征；k表示局部特征的个数，W_e是单词的映射矩阵，是在不预先训练的情况下从随机初始化中学习的；∏_t是在时间步t时输入单词的one-hot向量，这些输入为视觉选择LSTM提供了丰富的上下文信息，分别包括语言LSTM的状态、图像内容和当前时间步生成的部分文本输出。

进一步的，步骤(2)中自适应注意力模块的具体实现过程包括：

自适应注意力模块对某一区域的关注度用α^<w，t′>表示，其中w表示生成第w个单词，t′表示图像的第t′个区域，显然有：

其中，T表示图像局部区域的数量；

在上述公式中，f^t′表示图像的第t′个区域的局部特征，由该公式可以计算得到上下文信息c_t，在公式中α^<w，t′>由一个简单的神经网络计算得出，α_t＝α^<w,t′>的计算方式为：

z_t＝tanh(W_ff+W_gh_t-1)

α_t＝soft max(z_t)

其中W_f，W_g是需要学习的参数，f是局部特征，tanh是神经网络的激活函数可以理解为在当前t时刻，要生成的单词所需要关注的图像区域由α_t来决定；

自适应注意力计算公式如下：

其中β_t是时刻t的选择向量，β_t是[0，1]范围内的标量，值为1时表示生成下一个单词时仅使用非视觉词汇信息，值为0时表示仅使用空间图像信息，即β_t为一个权衡系数，权衡标记向量s_t和上下文向量c_t得到新的自适应上下文向量为了计算β_t，添加了一个额外的元素，这个元素表示网络对非视觉词汇的关注程度，通过将上述公式转换为以下公式得到：

其中[.；.]表示联合拼接，W_s和W_g是权重参数；h_t是当前时刻t时的隐藏层输出，/>是在空间图像特征以及视觉标记向量上的注意力分布，这个向量的最后一个元素即为选择向量/>k是[0，T]范围内的一个值。

进一步的，步骤(4)的具体实现过程包括；

构建第二层的语言LSTM，即ON-LSTM，使用FARIMA模型代替ON-LSTM的遗忘门以此改进ON-LSTM，具体步骤如下：

第一步，使用FARIMA模型代替ON-LSTM中的遗忘门，记为d_t；

第二步，改进的ON-LSTM的输入为自适应注意力模块处理后的自适应上下文向量第一层视觉选择LSTM的隐藏层状态h_t，两向量连接为当前输入x_t；文本层级结构的具体机制在于，根据向量索引值区分当前信息x_t和历史信息/>层级，分区间更新第二层ON-LSTM单元状态/>在单元状态进行分层，促进每个神经元内部存储的信息生命周期的区分：单元状态/>较高维度将存储长期信息，这些信息包含了生成描述的高层语义信息，而排名较低的维度将存储可以迅速被忘记的短期信息；/>和/>分别记为主遗忘门和主输入门，计算公式为；

其中cusum为累和函数，以主动分配维度来存储长期或短期信息，避免在高级维度和低级维度之间进行严格划分；和/>表示上一时刻t-1时主遗忘门中的权重参数，/>表示主遗忘门中上一时刻t-1的偏移量；/>和/>表示当前时刻t时主输出门中的权重参数，/>表示当前时刻t时主输出门中的偏移量；

通过主遗忘门和主输入门/>对单元状态分区间更新，强制更新神经元的顺序，使每个神经元的门都依赖于其他神经元，将树状结构显式编码语言描述生成阶段，使图像特征语义信息和语言模型句法结构融合交互，进一步增强了解码器的语言解码能力，基于文本层级结构的门控单元状态更新规则为：

其中，i_t，f_t，o_t分别是第一层视觉选择LSTM在t时刻的输入状态、遗忘状态、输出状态；b_d表示偏移量，和/>分别表示新的遗忘状态和新的输入状态；ω_t是已习得的权重参数，σ是sigmoid函数，输出区间[0，1]的概率值，B表示FARIMA模型中的滞后算子，(1-B)表示差分算子，⊙代表元素相乘，tanh是双曲正切激活函数；/>表示第二层ON-LSTM单元状态；/>表示第二层ON-LSTM在t时刻通过自适应注意力模块计算得到的自适应上下文向量；

通过门控单元，获得语言模型LSTM的隐藏层状态语言模型LSTM隐藏层/>通过softmax层，输出对应词汇表中单词的概率分布，其词向量维度与词汇表向量大小相同，取其中最大概率值的索引，该索引值返回词汇表中搜索单词，即为模型在时刻t所输出的单词，则在生成第t个单词计算公式为：

其中，y_t指的是当前时刻第二层ON-LSTM的输出即单词，该单词就是模型在时刻t所输出的单词，W_p是权重参数，b_p是偏移量，将所有时刻单词按照时间顺序输出，即为该图像的语言描述。

与现有技术相比，本发明的有益效果是：本发明通过采用编码器-解码器的框架，编码器主要是由预先训练好的卷积神经网络来提取图像的特征，利用VGG16网络提取图像的局部特征和全局特征，形成对图像编码后结果。解码器是带有自适应注意力机制和双层改进的LSTM语言生成模型，用到了FARIMA滤波器改进的ON-LSTM网络，第一层的LSTM将提取到得全局特征和局部特征经过自适应注意力机制进行连接，使模型生成图像描述时能自动选择关注图像的局部特征还是关注图像的全局特征。最后根据第二层改进的ON-LSTM网络来生成自然语言。该模型可以充分利用图像的两种不同尺度的图像特征，生成的自然语言更加丰富准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中编码器-解码器总体结构。

图2为编码器结构。

图3为VGG16模型示意图。

图4为自适应注意力机制结构图。

图5为解码器结构。

图6为融合FARIMA模型的改进ON-LSTM结构。

图7为实验结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出的基于文本层级结构的图像描述生成方法，在图像编码阶段，使用VGG网络模型对图像提取局部特征和全局特征，在解码阶段使用双层改进的LSTM结构和自适应注意力机制对图像特征进行解码，将图像特征翻译成自然语言，如图1所示。所述方法包括如下步骤：

(1)编码器部分，利用VGG16网络提取图像的局部特征和全局特征。

(2)解码器部分应用双层改进的LSTM网络，其中全局特征输入到第一层的视觉选择LSTM中，局部特征和第一层的LSTM输出一起输入到自适应注意力模块中，该模块输出一个上下文信息。

(3)第二层LSTM作为语言模型，使用FARIMA滤波器改进的ON-LSTM接收来自自适应注意力模块的特征向量，解码生成图像的描述语句，即将上下文信息输入到第二层融合了FARIMA模型的改进ON-LSTM中，计算得到词汇表中的单词，完成图像描述的生成。

下面结合对本发明详细步骤进行说明。

(1)利用VGG16模型提取图像的局部特征和全局特征

编码器的主要作用是提取图像特征，编码器结构如图2所示，其中使用VGG16网络提取输入图像的局部特征和全局特征。VGG16是一种常用的卷积神经网络，其模型结构图如图3所示。VGG模型使用了更小的卷积核，更深的网络层次结构，获得了非常优秀的性能。本方法通过VGG16卷积网络得到512个特征图，在本方法中用f表示局部特征，则有：

f＝{f₁,f₂,...,f_k},f_k∈R^1*r

其中{f₁,f₂，...,f_k}表示k个局部特征，f_k∈R^1*r表示每个图像区域的特征维度为1*r。局部特征通过全局平均池化后计算得到一个全局特征：

上述分析可知，通过对VGG模型对图像进行特征提取，得到图像特征的特征向量，包含了图像中的所有特征，将其作为局部特征，通过将局部特征全局平均池化后得到图像的全局特征。

(2)全局特征输入到第一层的视觉选择LSTM中，局部特征和第一层的LSTM输出一起输入到自适应注意力机制中，该机制输出一个自适应上下文向量。

自适应注意力模块对某一区域的关注度用α^<w,t′>表示，其中w表示生成第w个单词，t′表示图像的第t′个区域，显然有：

其中，T表示图像局部区域的数量；

在上述公式中，f^t′表示图像的第t′个区域的局部特征，由该公式可以计算得到上下文信息c_t，在公式中α^<w,t′>由一个简单的神经网络计算得出，α_t＝α^<w,t′>的计算方式为：

z_t＝tanh(W_ff+W_gh_t-1)

α_t＝softmax(z_t)

基于结合视觉和语言信息选择的LSTM中的标记向量，在图4的结构中，新的自适应上下文向量定义为将网络从图像中获取的新信息与在解码器内存中已有的语言信息进行权衡。自适应注意力计算公式如下：

其中β_t是时刻t的选择向量。在本方法中，β_t是[0，1]范围内的标量。值为1时表示生成下一个单词时仅使用非视觉词汇信息，值为0时表示仅使用空间图像信息。即β_t为一个权衡系数，权衡标记向量s_t和上下文向量c_t得到新的自适应上下文向量为了计算β_t，添加了一个额外的元素，这个元素表示网络对非视觉词汇的关注程度，新的区域关注度可以由下述公式得到：

其中[.；.]表示联合拼接，W_s和W_g是权重参数。是在空间图像特征以及视觉标记向量上的注意力分布，这个向量的最后一个元素即为选择向量/>

在自适应注意力机制中引入视觉和语言信息选择机制，使得训练后的图像描述模型能够很好地平衡同一网络中同时存在视觉注意模型和语言结构模型。但原始的引入自适应注意力机制的单层LSTM解码器结构非常简单，仅将一个带有单隐层的多层感知机放在解码器的顶部，这种端到端的LSTM方法，LSTM的输入是与前一时刻的输出、注意力机制的输出以及词表先关联，可能丢失图像的全局信息，使得生成的描述物体关联性减小。

因此，本方法将解码器结构更改为双层LSTM网络结构，如图5所示，将视觉和语言信息选择LSTM模型和改进的ON-LSTM模型结合在一起，增强了语言解码能力，使得模型能够区分视觉信息和语言信息。基于外部图像区域的特征向量和句子内部的语法结构进行建模，为调整视觉和语言交互提供更多的自由，以便得到更符合人类描述的贴切的文本输出。

具体过程：在每个时间步，通过综合图像全局特征和生成的单词的语义信息，来更新视觉和语言信息选择的ON-LSTM隐藏状态和标记向量。视觉和语言信息选择的LSTM的输出与图像局部特征一起输入到自适应注意模型中，然后更新注意力模块的输出。最后，语言生成模块ON-LSTM根据自适应注意力模块的输出和隐藏状态来预测下一个单词。

第一层的视觉选择LSTM采用标准的LSTM结构，在标准LSTM中，记忆细胞状态m_t保留视觉和语言信息。因而，视觉选择机制在记忆细胞状态上增加选择门控机制，通过两个待学习的权重矩阵来构造门控向量g_t，再对记忆细胞状态m_t进行点积操作得到最后的标记向量s_t，从而对LSTM进行扩展。计算公式为：

g_t＝σ(W_xx_t+W_hh_t-1)

s_t＝g_t·tanh(m_t)

其中，f_i表示第i个局部特征；k表示局部特征的个数，W_e是单词的映射矩阵，是在不预先训练的情况下从随机初始化中学习的；∏_t是在时间步t时输入单词的one-hot向量，这些输入为视觉选择LSTM提供了丰富的上下文信息，分别包括语言LSTM的状态、图像内容和当前时间步生成的部分文本。与标准LSTM网络不同，本方法将语言LSTM的上一时刻输出的隐藏状态作为视觉选择LSTM的输入，该操作可以有效地增强视觉特征区域和语言结构之间的交互，使模型能够进行灵活选择图像特征和语言信息，从而生成更加贴切的文本描述。

(3)将自适应上下文向量输入到第二层结合FARIMA模型的改进ON-LSTM中，计算得到词汇表中的单词，完成图像描述的生成。

标准的ON-LSTM网络在训练过程中编码句子的层级结构从而增强语言模型表达能力。分形自回归整合滑动平均模型(Fractal Auto-Regressive Integrated MovingAverage,FARIMA)，称为分数差分自回归滑动平均过程，是ARMA模型的自然扩展，模型可实现近似分数微分效应(这是一种长记忆效应)的能力，并保留了神经网络的灵活性和可表达性。本方法结合有序长短时记忆网络，提出融合FARIMA模型改进的ON-LSTM算法。如图6所示。

第二层的语言LSTM为改进的ON-LSTM结构，使用FARIMA模型代替ON-LSTM中的遗忘门，记为d_t，其输入为：自适应注意力模块处理后的自适应上下文向量第一层视觉选择LSTM的隐藏层状态h_t，两向量连接为当前输入x_t。文本层级结构的具体机制在于，根据向量索引值区分当前信息x_t和历史信息/>层级，分区间更新第二层ON-LSTM单元状态/>在单元状态进行分层，促进每个神经元内部存储的信息生命周期的区分：单元状态/>较高维度将存储长期信息，这些信息包含了生成描述的高层语义信息。而排名较低的维度将存储可以迅速被忘记的短期信息。分别记为主遗忘门/>和主输入门/>计算公式为

其中cusum为累和函数，以主动分配维度来存储长期或短期信息，避免在高级维度和低级维度之间进行严格划分。和/>表示上一时刻t-1时主遗忘门中的权重参数，/>表示主遗忘门中上一时刻t-1的偏移量；/>和/>表示当前时刻t时主输出门中的权重参数，/>表示当前时刻t时主输出门中的偏移量；

将单元状态的维度动态地重新分配给每个节点，迫使神经元在不同的时间尺度上代表信息。给定任意序列[y₁，y₂，...,y_n]，cusum计算公式如下：

cusum([y₁,y₂,...,y_n])＝[y₁,y₁+y₂,...，y₁+y₂+...y_n]

其中，i_t，f_t，o_t分别是第一层视觉选择LSTM在t时刻的输入状态、遗忘状态、输出状态；b_d表示偏移量，和/>分别表示新的遗忘状态和新的输入状态；ω_t是已习得的权重参数，σ是sigmoid函数，输出区间[0，1]的概率值，B表示FARIMA模型中的滞后算子，(1-B)表示差分算子，⊙代表元素相乘，tanh是双曲正切激活函数；/>表示第二层ON-LSTM单元状态；/>表示新的第二层ON-LSTM在t时刻通过自适应注意力模块计算得到的自适应上下文向量；

通过门控单元，获得语言模型LSTM的隐藏层状态语言模型LSTM隐藏层/>通过softmax层，输出对应词汇表中单词的概率分布，其词向量维度与词汇表向量大小相同，取其中最大概率值的索引，该索引值返回词汇表中搜索单词，即为模型在时刻t所输出的单词。则在生成第t个单词计算公式为：

实验结果与分析

本方法数据集采用MSCOCO 2014数据集。数据集中包含了图像中所包含物体的类别、物体的轮廓坐标、边界框坐标以及对该图像内容的描述，其中每张图像的描述均至少有5种。训练集、验证集、测试集，分别包含82783、40504和40775张图像。

实验环境为Win10环境下安装TensorFlow 1.60深度学习框架，配置32G内存AMDRyzen 5 2600X Six-Core Processor 3.6GHz CPU，NVIDIA2070 GPU，NVIDIACUDA9.0和cuDNN7.5深度学习库加速模型训练和测试，Python环境为Python3.7。

本方法模型采用小批量梯度下降法对损失函数进行优化，可以提高模型的收敛速度，加快训练。实验中学习率为0.001，迭代次数epoch大小设置为90，batch大小为128。

(1)模型预测结果对比图

从图7的模型生成的图像描述可以看到，与传统方法对比，自适应模型性能更加优秀，生成的句子更加准确，内容也更加丰富。

(2)按评价标准对比

本发明提出的基于文本层级的图像描述方法，能够较好的避免传统方法无法灵活选取图像全局或局部信息，导致错误预测人物姿态，场景信息或物体细节的缺陷。按评价标准对比如下表1所示。

表1 MSCOCO数据集实验对比

实验结果证明，本方法模型在BLUE、METEOR和CIDEr评价指标上要优于NIC、mRNN、Log BIliner和Soft-Attend模型。

由上表可知，各项评价指标上都领先于传统模型。本发明所提出的改进方法具有更优秀的性能

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于文本层级结构的图像描述生成方法，其特征在于：采用编码器-解码器的神经网络模型框架生成图像描述，在构建双层LSTM解码器的基础上，提出了基于文本层级结构的图像描述生成方法，所述方法包括如下步骤：

(3)第二层LSTM作为语言模型，使用FARIMA滤波器改进的ON-LSTM接收来自自适应注意力模块的特征向量，利用文本的层级结构特征，解码生成图像的描述语句，即将自适应上下文向量输入到第二层LSTM中，计算得到词汇表中的单词，完成图像描述的生成；

步骤(3)的具体实现过程包括；

第一步，使用FARIMA模型代替ON-LSTM中的遗忘门，记为d_t；

第二步，改进的ON-LSTM的输入为自适应注意力模块处理后的自适应上下文向量第一层视觉选择LSTM的隐藏层状态h_t，两向量连接为当前输入x_t；文本层级结构的具体机制在于，根据向量索引值区分当前信息x_t和历史信息/>层级，分区间更新第二层ON-LSTM单元状态/>在单元状态进行分层，促进每个神经元内部存储的信息生命周期的区分：单元状态较高维度将存储长期信息，这些信息包含了生成描述的高层语义信息，而排名较低的维度将存储可以迅速被忘记的短期信息；/>和/>分别记为主遗忘门和主输入门，计算公式为；

2.根据权利要求1所述的基于文本层级结构的图像描述生成方法，其特征在于：步骤(1)的具体实现过程包括；

f＝{f₁，f₂，…，f_k}，f_k∈R^1*r

其中为全局特征，维度是1*d，最后将图像全局特征和局部特征馈入解码器。

3.根据权利要求1所述的基于文本层级结构的图像描述生成方法，其特征在于：步骤(2)中第一层的视觉选择LSTM的具体实现过程包括；

g_t＝σ(W_xx_t+W_hh_t-1)

s_t＝g_t⊙tanh(m_t)

4.根据权利要求1所述的基于文本层级结构的图像描述生成方法，其特征在于：步骤(2)中自适应注意力模块的具体实现过程包括；

其中，T表示图像局部区域的数量；

在上述公式中，f^t′表示图像的第t′个区域的局部特征，由该公式可以计算得到上下文信息c_t，在公式中α^<w,t′>由一个简单的神经网络计算得出，α_t＝α^<w,t>的计算方式为：

z_t＝tanh(W_ff+W_gh_t-1)

α_t＝softmax(z_t)

其中W_f，W_g是需要学习的参数，f是局部特征，tanh是神经网络的激活函数，可以理解为在当前t时刻，要生成的单词所需要关注的图像区域由α_t来决定；

自适应注意力计算公式如下：

其中[.；.]表示联合拼接，W_s和W_g是权重参数；h_t是当前时刻t时的隐藏层输出，是在空间图像特征以及视觉标记向量上的注意力分布，/>的最后一个元素即为选择向量/>k是[0，T]范围内的一个值。