CN111695574A

CN111695574A - 可生成依存树的图像描述生成方法和装置

Info

Publication number: CN111695574A
Application number: CN202010433735.9A
Authority: CN
Inventors: 马志明; 袁春
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2020-09-22

Abstract

一种可生成依存树的图像描述生成方法，所述方法包括对图像描述文本的依存树的三叉树进行建模，从输入的图像中提取出图像特征，然后基于所述图像特征生成所述三叉树的根节点，再生成所述根节点的三个孩子节点，以此类推，递归地生成每一个节点的三个孩子节点，由此生成三叉树，再将生成的三叉树转化成图像描述文本的依存树；较佳地，通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。本发明中，节点生成的依赖路径较序列模型更短，且在生成过程中可优先生成重要的单词，生成模式与人类更为接近，达到了高于基准模型的表现。

Description

可生成依存树的图像描述生成方法和装置

技术领域

本发明涉及人工智能领域，特别是涉及一种可生成依存树的图像描述生成方法和装置。

背景技术

根据给定的图像自动生成描述该图像内容的自然语言文本是人工智能领域的一个基本任务。现有的基于深度学习的方法将文本当成单词序列来逐一生成，没有考虑到自然语言文本内在的层次结构，仅能生成序列状的文本。

以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

本发明的主要目的在于克服上述技术缺陷，提供一种可生成依存树的图像描述生成方法和装置。

为实现上述目的，本发明采用以下技术方案：

一种可生成依存树的图像描述生成方法，所述方法包括对图像描述文本的依存树的三叉树进行建模，从输入的图像中提取出图像特征，然后基于所述图像特征生成所述三叉树的根节点，再生成所述根节点的三个孩子节点，以此类推，递归地生成每一个节点的三个孩子节点，由此生成三叉树，再将生成的三叉树转化成图像描述文本的依存树；优选地，通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。

进一步地：

所述建模基于树状解码器，其中采用卷积神经网络CNN提取出图像的全局特征

和局部特征

k为局部特征的数量，将图像全局特征v₀定义为所述三叉树的根节点的父节点，并采用MD-LSTM处理所述三叉树中的所述父节点和三个孩子节点之间的关系。

生成三叉树的方法包括：

设不同节点的孩子节点在给定它们的祖先节点时条件独立，而同一父节点的不同孩子节点相互关联的，根据条件概率

其中A(t)和L(t)分别表示节点t的祖先节点和左兄弟节点；对于没有左兄弟节点的节点，其生成仅依靠其父节点；而三叉树的根节点的生成则依靠全局图像特征v₀；父节点和左兄弟节点的条件信息用两个固定长度的隐状态向量h_a和h_l分别表示；节点的隐状态由其父节点和左兄弟节点的输入x_a、x_l及它们的隐状态h_a、h_l通过非线性函数f得到

h_i＝f(h_a，h_l，x_a，x_l) (2)

其中i表示节点生成的序号；采用维度为2的MD-LSTM对f进行建模；

每个节点的预测使用其父节点和左兄弟节点的信息，向三叉树中每个节点到其孩子节点之间添加一条有向边，向每个节点到其右兄弟节点之间添加一条有向边，以由此得到的有向图拓扑排序作为节点的生成顺序。

所述拓扑排序通过深度优先搜索DFS或广度优先搜索BFS得到。

所述三叉树的训练过程展开根据如下公式：

x_-1＝W_vv₀ (4)

x_i＝W_eS_i (6)

h_i＝f(h_a(i)，h_l(i)，x_a(i)，x_l(i)) (7)

p_i＝softmax(W_hh_i) (8)

其中下标i表示该节点在拓扑排序中的序号，a(i)和l(i)分别表示节点t_i的父节点和左兄弟节点的序号；优选地，定义三叉树根节点的父节点的序号为-1，如果t_i没有左兄弟节点，定义l(i)＝-2；

表示t_i节点单词的独热向量，v为单词表；

和

分别为可学习词嵌入矩阵和图像嵌入矩阵，

为可学习矩阵，通过h_i预测单词表中每个单词的概率p_i，d_h为隐状态维度。

使用的损失函数L为每一步的正确单词的负对数似然之和，如下

采用维度为2的MD-LSTM对f进行建模，具体包括：

MD-LSTM通过门控函数对节点信息的继承与节点状态的更新，具体方式如下：

i＝σ(W_ixax_a+W_ihah_a+W_ixlx_l+W_ihlh_l) (10)

o＝σ(W_oxax_a+W_ohah_a+W_oxlx_l+W_ohlh_l) (11)

g＝tanh(W_gxax_a+W_ghah_a+W_gxlx_l+W_ghlh_l) (12)

f_a＝σ(W_fxax_a+W_fhah_a) (13)

f_l＝σ(W_fxlx_l+W_fhlh_l) (14)

c＝f_a⊙c_a+f_l⊙c_l+i⊙g (15)

h＝o⊙c (16)

其中i、o、g分别为输入门、输出门和单元门，c_a、c_l、h_a和h_l分别父节点和左兄弟节点的记忆状态和隐状态，f_a和f_l为对应的遗忘门，⊙表示按元素乘，σ(·)和tanh(·)分别表示非线性函数sigmoid函数和双曲正切函数tanh，W表示可学习矩阵，节点的记忆状态和隐状态分别由两个向量c和h表示。

所述注意力模块通过动态计算不同局部图像特征的权重可以有效地提升模型的表现，在生成节点时，同时考虑其父节点和左兄弟节点的隐状态h_a和h_l，

e_j＝W_atanh(W_avv_j+W_aah_a+W_alh_l) (17)

α_j＝softmax(e_j+b_α) (18)

其中W为可学习矩阵，v_j表示第j个局部图像特征，α_j表示其权重，j＝1...k，b_α为可学习偏置；

将得到各个局部图像的加权平均值z整合到MD-LSTM中单元门g的更新式(12)当中

g＝tanh(W_gxax_a+W_ghah_a+W_gxlx_l+W_ghlh_l+W_gzz) (20)。

其中，以给定节点生成其三个孩子节点为三叉树的一个生成步骤，在一个生成步骤中，依次生成该节点的左孩子、中孩子和右孩子节点，可通过父节点生成左孩子节点，然后通过父节点和左孩子节点生成中孩子节点，最后再通过父节点和中孩子节点生成右孩子节点；

在生成整棵树时，先通过输入图像的特征生成根节点，然后对根节点执行生成步骤，得到根节点的三个孩子节点，此时这三个孩子节点均为叶子节点，然后递归地对于树中的每个非#EOB#的叶子节点执行所述生成步骤，直到这棵树中所有的叶子节点均为#EOB#节点或节点数量已达到设定的最大值。

优选地，预测当前节点生成每个单词的概率p_i，以如下两种采样方式之一从中选择出合适的单词：

贪婪搜索，从预测的p_i中选择概率最大的单词；

集束搜索，维持全局集束规模的k_g个当前概率最大的候选三叉树，仅对这些候选三叉树进行向后扩展；扩展时对候选树所有非#EOB#叶子节点执行生成步骤，采用序列的集束搜索方式进行，从而得到以该节点为根的局部集束规模k_l个概率最大的子树；对于候选树的不同非#EOB#叶子节点的扩展子树，选择不同的组合方式放入备选集合；当所有候选执行都扩展过一轮之后，从备选中再次选择概率最大的前k_g个三叉树放入候选集合，进行下一轮扩展。

一种可生成依存树的图像描述生成装置，包括计算机可读存储介质和处理器，所述计算机可读存储介质存储有可执行程序，其特征在于，所述可执行程序由所述处理器执行时，实现所述的图像描述生成方法。

本发明具有如下有益效果：

本发明提出了一种可生成依存树的图像描述生成方法和装置，该方法是一种基于树状解码器的图像描述生成方法(下文简称ITT)，可通过给定的图像直接生成描述文本的依存树。ITT对图像描述文本的依存树的三叉树进行建模。ITT首先使用CNN提取出图像的特征，然后基于该图像特征生成三叉树的根节点，由此生成根节点的三个孩子节点，以此类推，递归地生成每一个节点的三个孩子节点。最后再将生成的三叉树转化成依存树。ITT中节点生成的依赖路径较序列模型更短，且在生成过程中可优先生成重要的单词，生成模式与人类更为接近，最终达到了高于基准模型的表现。

本发明的ITT方法相较FK-2K方法在各项指标上都有提升(FC-2K模型采用了和ITT同样的图像特征提取方式，是ITT的基准模型)。除此以外，ITT可以获得比基于CNN的解码器的模型更好的效果。

相较于序列的方法，本发明的ITT生成节点拥有更短的依赖路径。基于序列的方法，每个单词的生成都依赖于前面生成的每一个单词，其依赖路径为句子的长度。而在ITT中，每个节点的生成依赖于其祖先节点和兄弟节点，依赖路径为树的深度，小于句子的长度。因此通过三叉树的方式生成文本的依存树，可有效地缓解序列生成依赖路径过长的问题。

在依存树当中处于深度小的节点往往是句子中比较重要的单词，本发明采用树状解码器的方法在生成描述文本时，可优先生成这些比较重要的单词，完成句子的主干部分，然后丰富文本的细节。这是一个粗粒度到细粒度的过程。

此外，本发明的树状句子的生成过程与人类构建句子的方式更加一致。

附图说明

图1a至图1b是本发明的图像描述生成方法生成的第一个三叉树实例。

图2a至图2b是本发明的图像描述生成方法生成的第二个三叉树实例。

图3a至图3b是本发明的图像描述生成方法生成的第三个三叉树实例。

具体实施方式

以下对本发明的实施方式做详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

本发明实施例提供一种可生成依存树的图像描述生成方法，所述方法包括对图像描述文本的依存树的三叉树进行建模，从输入的图像中提取出图像特征，然后基于所述图像特征生成所述三叉树的根节点，再生成所述根节点的三个孩子节点，以此类推，递归地生成每一个节点的三个孩子节点，由此生成三叉树，再将生成的三叉树转化成图像描述文本的依存树；优选地，通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。

本发明实施例的图像描述生成方法是一种基于树状解码器的图像描述生成方法(下文简称ITT)，可通过给定的图像直接生成描述文本的依存树。已经证明依存树可以转化为与之等价的三叉树，考虑到三叉树的拓扑结构相较于依存树更为固定，ITT对图像描述文本的依存树的三叉树进行建模。ITT首先使用CNN提取出图像的特征，然后基于该图像特征生成三叉树的根节点，由此生成根节点的三个孩子节点，以此类推，递归地生成每一个节点的三个孩子节点。最后再将生成的三叉树转化成依存树。ITT中节点生成的依赖路径较序列模型更短，且在生成过程中可优先生成重要的单词，生成模式与人类更为接近，最终达到了高于基准模型的表现。

具体实施例的基于树状解码器的图像描述生成模型，缩写为ITT，可直接生成描述文本的依存树。ITT首先采用CNN编码器提取出图像的全局特征

和局部特征V＝{v₁，...，v_k}，

k为局部特征的数量。将图像全局特征v₀定义为三叉树根节点的父节点，采用MD-LSTM处理三叉树中父节点和三个孩子节点之间的关系。与此同时我们还设计了针对树状解码器的注意力模块，在生成每个节点时动态地为每个局部图像特征分配权重。各个模块具体运行方式如下：

图像特征提取

图像特征的提取方式可采用图像描述生成模型惯用的图像提取方法，例如(1)基于卷积神经网络(CNN)编码器：将图像输入至经ImageNet等大型分类任务上预训练的ResNet-101网络中，取最后一层卷积层的输出，将其做平均池化操作后得到的2048维特征作为全局图像特征，将其做自适应平均池化操作后得到的大小固定为14×14×2048的张量按照网格切分，即可得到196个表示不同感受野的局部图像特征。(2)基于检测模型的编码器：利用Faster R-CNN预测出图像中的目标或显著区域的候选框，使用一个交并比(IoU)阈值为每个类别的候选框进行非极大值抑制，然后选定那些概率超过某个阈值的候选框作为输出候选框，取它们的特征作为局部图像特征，将这些局部图像特的均值作为全局图像特征。

三叉树生成方法

对于三叉树的生成，我们假设不同节点的孩子节点在给定它们的祖先节点时条件独立，而同一父节点的不同孩子节点则是相互关联的。这意味者，我们仅凭借其父节点和与其同一个父节点的其他兄弟节点生成该节点，由于T是一棵三叉树，每个节点至多有两个兄弟节点，我们假设生成方式是由左至右依次生成，那么该节点的生成仅依靠其父节点和左兄弟节点。因此我们得到条件概率如下

其中A(t)和L(t)分别表示节点t的祖先节点和左兄弟节点。对于那些没有左兄弟节点的节点，如左孩子节点，其生成仅依靠其父节点。而三叉树的根节点的生成则依靠全局图像特征v₀。在该建模过程中，父节点和左兄弟节点的条件信息可以用两个固定长度的隐状态向量h_a和h_l分别表示。节点的隐状态由其父节点和左兄弟节点的输入x_a、x_l及它们的隐状态h_a、h_l通过非线性函数f得到

h_i＝f(h_a，h_l，x_a，x_l) (2)

其中i表示节点生成的序号。ITT采用维度为2的MD-LSTM对f进行建模。

根据条件概率p(t|I，A(t)，L(t))得知，每个节点的预测需要其父节点和左兄弟节点的信息，ITT向三叉树中每个节点到其孩子节点之间添加一条有向边，向每个节点到其右兄弟节点之间添加一条有向边，以由此得到的有向图拓扑排序作为节点的生成顺序。而拓扑排序可通过深度优先搜索(DFS)或广度优先搜索(BFS)得到。通过这种方式可以确保当一个节点生成时，其父节点和左兄弟节点已经生成。整个训练过程展开如下

x_-1＝W_vv₀ (4)

x_i＝W_eS_i (6)

h_i＝f(h_a(i)，h_l(i)，x_a(i)，x_l(i)) (7)

p_i＝softmax(W_hh_i) (8)

其中下标i表示该节点在拓扑排序中的序号，a(i)和l(i)分别表示节点t_i的父节点和左兄弟节点的序号。特别地，我们定义三叉树根节点的父节点的序号为-1，如果t_i没有左兄弟节点，定义l(i)＝-2。

表示t_i节点单词的独热向量，v为单词表。

和

分别为可学习词嵌入矩阵和图像嵌入矩阵，

ITT的损失函数为每一步的正确单词的负对数似然之和，如下如所示

由于三叉树中的每一个节点都用一个特殊节点#EOB#表示，而#EOB#表示三叉树当前分支生成过程的结束。因此，上述损失函数某种程度上也涵盖了树的形状的约束。

MD-LSTM

ITT采用维度为2的MD-LSTM对f进行建模。与LSTM相似，MD-LSTM通过各种门控函数对节点信息的继承与节点状态的更新，具体方式如下

i＝σ(W_ixax_a+W_ihah_a+W_ixlx_l+W_ihlh_l) (10)

o＝σ(W_oxax_a+W_ohah_a+W_oxlx_l+W_ohlh_l) (11)

g＝tanh(W_gxax_a+W_ghah_a+W_gxlx_l+W_ghlh_l) (12)

f_a＝σ(W_fxax_a+W_fhah_a) (13)

f_l＝σ(W_fxlx_l+W_fhlh_l) (14)

c＝f_a⊙c_a+f_l⊙c_l+i⊙g (15)

h＝o⊙c (16)

其中i、o、g分别为输入门、输出门和单元门，c_a、c_l、h_a和h_l分别父节点和左兄弟节点的记忆状态和隐状态，f_a和f_l为对应的遗忘门，⊙表示按元素乘。σ(·)和tanh(·)分别表示非线性函数sigmoid函数和双曲正切函数tanh。W表示可学习矩阵。节点的记忆状态和隐状态分别由两个向量c和h表示。

注意力模块

在ITT模型的基础上，新增注意力模块通过动态计算不同局部图像特征的权重可以有效地提升模型的表现。在生成节点时，同时考虑其父节点和左兄弟节点的隐状态h_a和h_l，

e_j＝W_atanh(W_avv_j+W_aah_a+W_alh_l) (17)

α_j＝softmax(e_j+b_α) (18)

其中各种W为可学习矩阵，v_j表示第j个局部图像特征，α_j表示其权重，j＝1...k，b_α为可学习偏置，ITT将得到各个局部图像的加权平均值z整合到MD-LSTM中单元门g的更新式(12)当中

g＝tanh(W_gxax_a+W_ghah_a+W_gxlx_l+W_ghlh_l+W_gzz) (20)

推断过程

为方便下文叙述，定义对于给定节点生成其三个孩子节点为三叉树的一个生成步骤。在一个生成过程，ITT依次生成该节点的左孩子、中孩子和右孩子节点，与训练过程一致，可通过父节点生成左孩子节点，然后通过父节点和左孩子生成中孩子，最后再通过父节点和中孩子生成右孩子。在生成整棵树时，先通过输入图像的特征生成根节点，然后对根节点执行生成步骤，得到根节点的三个孩子节点——此时这三个孩子节点均为叶子节点。然后递归地对于树中的每个非#EOE#的叶子节点执行生成步骤，直到这棵树中所有的叶子节点均为#EOB#节点或节点数量已达到设定的最大值。

通过p_i可预测当前节点生成每个单词的概率，这里有两种采样方式从中选择出合适的单词：贪婪搜索和集束搜索。贪婪搜索，即从p_i中选择概率最大的单词。但是贪婪搜索单步最大化的做法无法保证生成的三叉树的概率是最大的，可通过集束搜索缓解这个问题。集束搜索会维持k_g(全局集束规模)个当前概率最大的候选三叉树，仅对这些候选三叉树进行向后扩展。扩展时对候选树所有非#EOB#叶子节点执行生成步骤，由于执行生成步骤的过程中三个孩子节点的生成顺序是固定的，可采用序列的集束搜索方式进行，从而得到以该节点为根的k_l(局部集束规模)个概率最大的子树。对于候选树的不同非#EOB#叶子节点的扩展子树，选择不同的组合方式放入备选集合。当所有候选执行都扩展过一轮之后，从备选中再次选择概率最大的前k_g个三叉树放入候选集合，进行下一轮扩展。

实验效果

定量效果

下表是ITT在MS-COCO数据集上的各个评价指标的得分以及与其他方法的比较。其中

表示该模型对数据集采用了不同的划分方式。所有得分以百分比(％)的形式表示。

其中FC-2K模型采用了和ITT同样的图像特征提取方式，是ITT的基准模型。可以看到ITT相较FK-2K在各项指标上都有提升。除此以外，ITT可以获得比基于CNN的解码器的模型更好的效果。

定性效果

ITT的创新点在于可以根据图片内容直接生成描述文本的依存树，而在上述评测过程中，需将生成的三叉树压平成序列文本与参考文本进行相似度计算。这里用生成的三叉树实例说明ITT在MS-COCO测试集上的表现，如图1a至图3b所示。图1a至图1b是本发明的图像描述生成方法生成的第一个三叉树实例，根据图1a的图片生成了英文文字描述“a manflying through the air while riding a skateboard”。图2a至图2b是本发明的图像描述生成方法生成的第二个三叉树实例，根据图2a的图片生成了英文文字描述“a baseballplayer swinging a bat at a ball”。图3a至图3b是本发明的图像描述生成方法生成的第三个三叉树实例，根据图3a的图片生成了英文文字描述“a man sitting on a curbtalking on a cell phone”。

优势分析

相较于序列的方法，ITT生成节点拥有更短的依赖路径。基于序列的方法，每个单词的生成都依赖于前面生成的每一个单词，其依赖路径为句子的长度。而在ITT中，每个节点的生成依赖于其祖先节点和兄弟节点，依赖路径为树的深度，小于句子的长度。因此通过三叉树的方式生成文本的依存树，可有效地缓解序列生成依赖路径过长的问题。

在依存树当中处于深度小的节点往往是句子中比较重要的单词，采用树状解码器的方法在生成描述文本时，可优先生成这些比较重要的单词，完成句子的主干部分，然后丰富文本的细节。这是一个粗粒度到细粒度的过程。

树状句子的生成过程与人类构建句子的方式更加一致。尽管人类是按顺序讲一个句子，但是在添加更具描述性的形容词和副词以生成完成句子之前，他们可能需记住一些关键字，如动词和名词。因此从这个过程来讲，人类是先生成了这些动词和名词再生成描述性单词。

本发明的背景部分可以包含关于本发明的问题或环境的背景信息，而不一定是描述现有技术。因此，在背景技术部分中包含的内容并不是申请人对现有技术的承认。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中，参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点，但应当理解，在不脱离专利申请的保护范围的情况下，可以在本文中进行各种改变、替换和变更。

Claims

1.一种可生成依存树的图像描述生成方法，其特征在于，所述方法包括对图像描述文本的依存树的三叉树进行建模，从输入的图像中提取出图像特征，然后基于所述图像特征生成所述三叉树的根节点，再生成所述根节点的三个孩子节点，以此类推，递归地生成每一个节点的三个孩子节点，由此生成三叉树，再将生成的三叉树转化成图像描述文本的依存树；优选地，通过注意力模块在生成每个节点时动态地为每个局部图像特征分配权重。

2.如权利要求1所述的图像描述生成方法，其特征在于，所述建模基于树状解码器，其中采用卷积神经网络CNN提取出图像的全局特征

和局部特征V＝{v₁，…，v_k}，

3.如权利要求1至2任一项所述的图像描述生成方法，其特征在于，生成三叉树的方法包括：

h_i＝f(h_a，h_l，x_a，x_l) (2)

4.如权利要求3所述的图像描述生成方法，其特征在于，所述拓扑排序通过深度优先搜索DFS或广度优先搜索BFS得到。

5.如权利要求3或4所述的图像描述生成方法，其特征在于，所述三叉树的训练过程展开根据如下公式：

x_-1＝W_vv₀ (4)

x_i＝W_eS_i (6)

h_i＝f(h_a(i)，h_l(i)，x_a(i)，x_l(i)) (7)

p_i＝softmax(W_hh_i) (8)

表示t_i节点单词的独热向量，

为单词表；

和

分别为可学习词嵌入矩阵和图像嵌入矩阵，

6.如权利要求3至5任一项所述的图像描述生成方法，其特征在于，使用的损失函数L为每一步的正确单词的负对数似然之和，如下

7.如权利要求3至6任一项所述的图像描述生成方法，其特征在于，采用维度为2的MD-LSTM对f进行建模，具体包括：

i＝σ(W_ixax_a+W_ihah_a+W_ixlx_l+W_ihlh_l) (10)

o＝σ(W_oxax_a+W_ohah_a+W_oxlx_l+W_ohlh_l) (11)

g＝tanh(W_gxax_a+W_ghah_a+W_gxlx_l+W_ghlh_l) (12)

f_a＝σ(W_fxax_a+W_fhah_a) (13)

f_l＝σ(W_fxlx_l+W_fhlh_l) (14)

c＝f_a⊙c_a+f_l⊙c_l+i⊙g (15)

h＝o⊙c (16)

8.如权利要求7所述的图像描述生成方法，其特征在于，所述注意力模块通过动态计算不同局部图像特征的权重可以有效地提升模型的表现，在生成节点时，同时考虑其父节点和左兄弟节点的隐状态h_a和h_l，

e_j＝W_atanh(W_avv_j+W_aah_a+W_alh_l) (17)

α_j＝softmax(e_j+b_α) (18)

g＝tanh(W_gxax_a+W_ghah_a+W_gxlx_l+W_ghlh_l+W_gzz) (20)。

9.如权利要求1至8任一项所述的图像描述生成方法，其特征在于，以给定节点生成其三个孩子节点为三叉树的一个生成步骤，在一个生成步骤中，依次生成该节点的左孩子、中孩子和右孩子节点，可通过父节点生成左孩子节点，然后通过父节点和左孩子节点生成中孩子节点，最后再通过父节点和中孩子节点生成右孩子节点；

在生成整棵树时，先通过输入图像的特征生成根节点，然后对根节点执行生成步骤，得到根节点的三个孩子节点，此时这三个孩子节点均为叶子节点，然后递归地对于树中的每个非#EOB#的叶子节点执行所述生成步骤，直到这棵树中所有的叶子节点均为#EOB#节点或节点数量已达到设定的最大值；其中，#EOB#表示三叉树当前分支生成过程的结束的节点；

贪婪搜索，从预测的p_i中选择概率最大的单词；

10.一种可生成依存树的图像描述生成装置，包括计算机可读存储介质和处理器，所述计算机可读存储介质存储有可执行程序，其特征在于，所述可执行程序由所述处理器执行时，实现如权利要求1至9任一项所述的图像描述生成方法。