CN111832501A

CN111832501A - 一种面向卫星在轨应用的遥感影像文本智能描述方法

Info

Publication number: CN111832501A
Application number: CN202010698092.0A
Authority: CN
Inventors: 夏鲁瑞; 董正宏; 林郁; 李森; 王俊锋; 薛武; 杨帆
Original assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Current assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-10-27
Anticipated expiration: 2040-07-20
Also published as: CN111832501B

Abstract

本发明公开了一种面向卫星在轨应用的遥感影像文本智能描述方法，包括以下步骤：S100、数据缩放裁剪：获取用于测试的遥感图像，并对遥感图像进行缩放裁剪；S200、输入Encoder模型处理：导入训练好的模型参数，重用模型以保证其有效性，经过多层卷积神经网络后输出特征图；S300、输入Decoder模型处理：在基于LSTM模型的Decoder模型中，通过LSTM模型实现图像的特征映射和词嵌入；S400、生成文本描述：在注意力机制及强化学习中自临界序列训练法的约束下生成遥感图像语义文本描述结果；S500、输出遥感图像文本描述结果。本发明引入残差网络结构、两层LSTM模型、自下而上和自上而下相结合的注意力机制及强化学习中自临界序列训练方法，针对遥感图像可迅速准确生成文本语义描述。

Description

一种面向卫星在轨应用的遥感影像文本智能描述方法

技术领域

本发明属于遥感技术领域，具体涉及一种面向卫星在轨应用的遥感影像文本智能描述方法。

背景技术

遥感技术的飞速发展为地球表面信息获取提供了大量的数据积累，同时促进了以此为基础的遥感图像分析与处理、高分辨率数据集的建立、空间数据分析以及网络共享等相关技术的快速进步。此前，针对高分辨率遥感图像解译领域的处理方法基本完成了从面向像元分类到面向对象分类方法的转变，但解译层次尚停留在地物类别层，没有对场景进行推理和理解，无法解决分类结果和高层场景语义之间的“语义鸿沟”问题。因此，如何针对大量数据，从不同层次、不同角度对高分辨率遥感图像进行智能化解译已成为遥感领域最具挑战性的科学前沿之一。

随着深度学习中神经网络和自然语言处理理论和技术的不断成熟，对于多模态、时序性目标的处理提供了新思路，尤其是最近几年image caption(图像描述)技术的日益完善，在自然场景领域取得了比传统方式更理想的结果。因此，深度学习作为可能跨越低层语义和高层语义之间“语义鸿沟”的重要技术，成为解决该问题的首选方法之一。

发明内容

本发明的目的在于避免现有技术中的不足而提供一种面向卫星在轨应用的遥感影像文本智能描述方法，能够在不额外输入文本信息的情况下，针对遥感影像中的典型目标，快速准确地生成目标和场景之间的文本语义描述。

本发明的目的通过以下技术方案实现：提供一种面向卫星在轨应用的遥感影像文本智能描述方法，包括以下步骤：

S100、数据缩放裁剪：获取用于测试的遥感图像，并对遥感图像进行缩放裁剪；

S200、输入Encoder模型处理：导入训练好的模型参数，重用模型以保证其有效性，经过多层卷积神经网络后输出特征图；

S300、输入Decoder模型处理：在基于LSTM模型的Decoder模型中，通过LSTM模型实现图像的特征映射和词嵌入；

S400、生成文本描述：在注意力机制及强化学习中自临界序列训练法的约束下生成遥感图像语义文本描述结果；

S500、输出遥感图像文本描述结果。

作为进一步的改进，所述步骤S200中模型参数的训练过程如下：

S201、数据预处理：输入遥感图像训练数据集并进行缩放，将训练数据集中每幅图像对应的多个文本描述标签转化为序列号，且将该序列号与图像建立映射关系，完成图像和序列的匹配；

S202、构建Encoder模型：所述Encoder模型以VGG网络为框架，加入残差网络结构优化模型性能，通过加载预训练的VGG网络，并通过定义函数实现网络的重用，将VGG网络的输出作为原始图片的特征图表示；

S203、构建Decoder模型：以LSTM模型为基础，在初始化权重、定义超参数和输出占位符后，经过LSTM模型的遗忘阶段、选择记忆阶段和输出阶段，实现词嵌入与特征映射；

S204、模型训练：引入注意力机制，并通过强化学习中自临界序列训练法进行优化训练，促使参数向期望值收敛；

S205、输出训练好的模型参数。

作为进一步的改进，所述VGG网络使用五组卷积层和三组全连接层，且其卷积核的大小为3*3和1*1。

作为进一步的改进，所述LSTM模型包括存储单元C、遗忘门f、输入门i和输出门o：存储单元C用于对每个时间步骤的数据编码，其运行取决于门控单元，如果门的值为1，代表保留门控层中的值，如果门的值为0，则舍弃门控层中的值；遗忘门f决定是否忘记当前单元格值；输入门i决定是否应该读取其输入；输出门o决定是否输出新的单元格值；且门控单元的更新和输出遵循下列公式：

i_t＝σ(W_ix x_t+W_im m_t-1) (1)

f_t＝σ(W_fx x_t+W_fm m_t-1) (2)

o_t＝σ(W_ox x_t+W_om m_t-1) (3)

式中，i_t表示输入门参数，σ代表非线性函数Sigmoid，x_t表示t时刻数据的输入，m_t-1表示t-1时刻反馈给SoftMax损失函数的值，W_ix矩阵表示输入门的训练参数，W_im矩阵表示输入门对应m值的训练参数，f_t表示遗忘门参数，W_fx矩阵表示遗忘门的训练参数，W_fm矩阵表示遗忘门对应m值的训练参数，o_t表示输出门参数，W_ox矩阵表示输出门的训练矩阵，W_om矩阵表示输出门对应m值的训练参数；

单元格值的更新和输出遵循如下公式：

c_t＝f_t⊙c_t-1+i_t⊙h(W_cxx_t+W_cmm_t-1) (4)

m_t＝o_t⊙c_t (5)

p_t+1＝Softmax(m_t) (6)

式中，c_t表示一个LSTM存储单元t时刻的值，c_t-1表示该单元t-1时刻的值，⊙表示具有门值的乘积，W_cx矩阵表示一个LSTM存储单元的训练参数，W_cm矩阵表示一个LSTM存储单元对应m值的训练参数，m_t表示t时刻反馈给SoftMax损失函数的值，h代表双曲正切tanh函数，p_t+1表示将m_t通过SoftMax损失函数生成概率分布p_t。

作为进一步的改进，所述注意力机制选用自下而上和自上而下相结合的注意力机制：自下而上的注意力机制用于获得一组具有显著性的图像区域，每个区域由汇集的卷积特征向量表示；自上而下的注意力机制使用基于任务的上下文来预测图像区域上的注意力分布，然后将附属特征向量计算为所有区域上的图像特征的加权平均，从而更好地提取出并使用特征图的特征信息。

作为进一步的改进，所述自下而上的注意力机制，针对遥感图像的卷积神经网络，在提取特征图的特征信息过程中，具体表现为：

第一步、通过卷积核在图像上滑动，在每个空间位置预测出类别，对多种比例目标的边界框进行细化，并使用交并比阈值对每个对象类别执行非极大值抑制；

第二步、将提取出的显著区域合并进行批量处理，输入至卷积神经网络最后一层，并且将每个选择的区域的卷积特征与真实特征串联，馈送到定义类别属性的SoftMax层中，最终获得了更为精准的预选区域。

作为进一步的改进，所述自上而下的视觉注意力机制具有两层的LSTM模型，第一层用于实现自上而下的注意力，第二层用于实现语言模型，且所述自上而下的视觉注意力机制遵循以下公式：

h_t＝LSTM(x_t，h_t-1) (7)

式中，x_t和h_t分别是LSTM的输入向量和输出向量，h_t-1表示上一时刻LSTM的输出向量，则第一层LSTM模型公式如下：

a_t＝softmax(a_t) (10)

式中，

表示第一层LSTM的输入向量，根据LSTM模型、特征图向量和词嵌入计算得到，

表示特征图的平均池化卷积特征值，W_e是词嵌入矩阵，Π_t是时间t内输入词的one-hot编码，a_i,t是特征图中的关注度权重，W_va、W_ha、

分别表示学习参数，v_i表示第i个区域特征图的池化卷积特征值，α_t表示v_i对应注意力权重经SoftMax损失函数计算输出的值，

表示第一层LSTM模型t时刻输入到第二层LSTM模型的池化卷积特征值，第一层的输出和图像特征共同组成了第二层的输出：

式中，

表示t时刻第二层LSTM模型即语言生成模型LSTM模块的输入向量，

表示t时刻第一层LSTM模型的输出向量，y_1:T指代单词序列(y₁,...,y_t)，p(y_t|y_1:t-1)指代每个时间步骤t可能输出的条件分布，p(y_1:T)指完整的条件分布，W_p和b_p分别是学习的权重和偏差。

作为进一步的改进，所述步骤S204中通过强化学习中自临界序列训练法进行优化训练，促使参数向期望值收敛具体表现为：生成序列的LSTM看作一个智能体，单词和图像特征看作环境，网络参数θ定义为策略p_θ，推测动作则是预测的下一个单词，每经历一个动作，智能体更新内部状态，每正确生成一个单词序列区块链，智能体得到一个正向激励，并且通过greedy decoding得到奖励的基线，从而提高模型的训练效果，促使参数向期望值收敛。

本发明在Encoder模型中以VGG网络为框架，引入残差网络结构来提高特征图质量；在Decoder模型中以LSTM模型为基础，加入自下而上和自上而下相结合的注意力机制以提高目标描述的准确性，同时为提高训练质量，引入强化学习中自临界序列训练方法，有效加速了训练模型参数的收敛速度，针对遥感图像可迅速确定典型目标，进而生成准确的文本语义描述。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是本发明一种面向卫星在轨应用的遥感影像文本智能描述方法的流程图。

图2是本发明模型参数训练过程的流程图。

图3是本发明LSTM模型的网络结构图。

图4是本发明自上而下的视觉注意力机制的网络结构图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合附图和具体实施例对本发明作进一步详细的描述，需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

如图1所示，本发明实施例提供的一种面向卫星在轨应用的遥感影像文本智能描述方法，包括以下步骤：

S200、输入Encoder(编码器)模型处理：导入训练好的模型参数，重用模型以保证其有效性，经过多层卷积神经网络后输出特征图；

S300、输入Decoder(解码器)模型处理：在基于LSTM(长短期记忆，Long Short-Term Memory)模型的Decoder模型中，通过LSTM模型实现图像的特征映射和词嵌入；

S400、生成文本描述：在注意力机制及强化学习中自临界序列训练法(SCST)的约束下生成遥感图像语义文本描述结果；需要说明的是，该过程依次通过调用损失函数、引入注意力机制和经优化器计算实现；

S500、输出遥感图像文本描述结果。

参见图2，作为进一步优选的实施方式，步骤S200中模型参数的训练过程具体如下：

S201、数据预处理

在数据预处理部分，首先输入遥感图像训练数据集，并以图像中心为基准进行缩放，此步目的是将图像转化为统一大小，便于后续批量卷积操作和特征图提取；其次，获取标签中的所有单词，加入具有序列性的特殊词构成模型训练所需的单词库；接着，由于训练集中每幅图像对应了多个文本描述标签，这些标签分别以图像中不同物体作为主体进行描述，为便于训练，将标签转化为序列号并与图像建立映射关系，完成图像和序列的匹配。理论上图像对应的标签越丰富，训练的效果就越好，但实际情况中受限于模型框架，每幅图像对应的标签约有5条，每个标签不超过25个单词，因为标签内容过于丰富将超过模型的匹配能力，导致生成的描述质量下降。最后将匹配完毕的图像和标签序列输入至Encoder模型中。

S202、构建Encoder模型

Encoder模型的主要功能是通过卷积神经网络(CNN)提取图像的特征图，本发明中Encoder模型以VGG网络为框架，加入残差网络结构优化模型性能，通过加载预训练的VGG网络，并通过定义函数实现网络的重用，将VGG网络的输出作为原始图片的特征图表示；需要说明的是，上述VGG网络优选使用五组卷积层和三组全连接层，且其卷积核的大小为3*3和1*1。通过该设置，VGG网络结构清晰工整，便于优化改进，且使得模型拥有更多非线性变换，增加特征学习能力并降低计算量，同时，VGG网络具有预训练模型，在此基础上继续训练能够加快收敛速度。

鉴于卷积神经网络中网络层数越多，能够提取到的特征越丰富，且提取出的特征更具有语义信息，但是如果简单地增加深度，会导致梯度弥散或梯度爆炸现象，传统解决方法是加入正则初始化或正则化层，但是不可避免的会出现模型退化现象，究其原因，是求解器难以利用多层网络来拟合参数，故此，为防止出现上述问题，本发明采用了残差网络结构的思想，残差网络结构的模型参照现有技术，此处不以一一展开论述。

此处，Encoder模型以VGG网络为框架，加入残差网络结构，构成本发明Encoder部分的残差神经网络，预处理后的图像经过该网络，能够输出充分表示原始图像的特征图，作为Decoder模型的输入生成文本描述。

S203、构建Decoder模型

Decoder模型以LSTM模型为基础，在初始化权重、定义超参数和输出占位符后，经过LSTM模型的遗忘阶段、选择记忆阶段和输出阶段，实现词嵌入与特征映射。需要说明的是，初始化权重、定义超参数和输出占位符参照LSTM模型在人工智能自然语言处理领域的基本处理方法实现。LSTM模型的网络结构图参见图3，该LSTM模型包括存储单元C、遗忘门f、输入门i和输出门o，存储单元C是模型的核心，它可以对每个时间步骤的数据编码，其运行取决于门控单元，如果门的值为1，代表保留门控层中的值，如果门的值为0，则舍弃门控层中的值；遗忘门f决定是否忘记当前单元格值；输入门i决定是否应该读取其输入；输出门o决定是否输出新的单元格值；且门控单元的更新和输出遵循下列公式：

i_t＝σ(W_ix x_t+W_im m_t-1) (1)

ft＝σ(W_fxx_t+W_fmm_t-1) (2)

o_t＝σ(W_oxx_t+W_omm_t-1) (3)

单元格值的更新和输出遵循如下公式：

c_t＝f_t⊙c_t-1+it⊙h(W_cxx_t+W_cmm_t-1) (4)

m_t＝o_t⊙c_t (5)

p_t+1＝Softmax(m_t) (6)

S204、模型训练

鉴于现有遥感影像处理中存在干扰噪声多、目标背景复杂和目标特点不丰富等问题，本发明引入注意力机制和强化学习中自临界序列训练法，该注意力机制选用自下而上和自上而下相结合的注意力机制：自下而上的注意力机制用于获得一组具有显著性的图像区域，每个区域由汇集的卷积特征向量表示；自上而下的注意力机制使用基于任务的上下文来预测图像区域上的注意力分布，然后将附属特征向量计算为所有区域上的图像特征的加权平均，从而更好地提取出并使用特征图的特征信息。

对于给定的图像，本发明可以将图像特征变成特征集合作为输入，使得每个图像特征表征图像的显著区域。通过采用的自下而上的注意力机制，针对遥感图像的卷积神经网络，在提取特征图的过程中，第一步通过卷积核在图像上滑动，在每个空间位置预测出类别，对多种比例目标的边界框进行细化，并使用交并比(IOU，Intersection Over Union)阈值对每个对象类别执行非极大值抑制；第二步将提取出的显著区域合并进行批量处理，输入至卷积神经网络最后一层，并且将每个选择的区域的卷积特征与真实特征串联，馈送到定义类别属性的SoftMax层中，最终获得了更为精准的预选区域。

本发明自上而下的视觉注意力机制具有两层的LSTM模型，第一层用于实现自上而下的注意力，第二层用于实现语言模型，网络结构参见图4所示，该自上而下的视觉注意力机制遵循以下公式：

h_t＝LSTM(x_t，h_t-1) (7)

α_t＝softmax(a_t) (10)

式中，

表示特征图的平均池化卷积特征值，W_e是词嵌入矩阵，Π_t是时间t内输入词的one-hot编码(一位有效编码)，a_i，t是特征图中的关注度权重，W_va、W_ha、

式中，

通过该设置，基于自下而上的视觉注意力机制获取到图像感兴趣区域并提取图像实现特征编码，基于自上而下的视觉注意力机制用于学习调整特征权重，实现对图像目标的准确关注。

进一步地，本发明采用强化学习中自临界序列训练法进行优化训练，促使参数向期望值收敛，具体内容如下：

生成序列的LSTM看作一个智能体(人工智能术语，agent)，单词和图像特征看作环境，网络参数θ定义为策略p_θ，推测动作则是预测的下一个单词，每经历一个动作，agent更新内部状态，每正确生成一个单词序列区块链(EOS，Enterprise Operation System)，agent得到一个正向激励，并且通过greedy decoding(贪婪解码，强化学习在自然语言处理领域中求基线的一种处理方法)得到奖励的基线，从而提高模型的训练效果，促使参数向期望值收敛：

式中，L(θ)表示强化学习在序列生成问题中的期望值，此处的训练目标是最小化负奖励期望，

表示t时刻从模型采样的单词，r(w^s)表示t时刻采样单词的奖励值，

表示在策略p_θ下对t时刻采样单词的奖励值求期望值，实际应用中，

L(θ)≈-r(w^s)，w^s～p_θ (16)

使用强化算法计算上述目标函数的梯度，则有：

式中，

表示以强化算法对目标函数求梯度，p_θ(w^s)表示t时刻从模型采样的单词对应模型参数θ的策略值。

在实践中，期望梯度可以通过使用单个蒙特卡洛抽样从p_θ中抽样w^s近似，对于minibatch(迷你批处理)中每个训练样例：

强化算法给出的策略可以推广计算每个动作值对于参考值或基线b的奖励：

这里的基线b可以是不依赖于动作w^s的任意函数，因为在这种情况下，基线b不改变期望梯度，同时可以减少梯度估计的方差。对于每个训练样例，采用单个采样w^s～p_θ近似估计期望梯度：

根据链式法则和编码过程中注意力参数模型p_θ，

其中，s_t是注意力模型中SoftMax损失函数的输入，使用带有基线b的强化算法，

式中，p_θ(w_t|h_t)表示参数模型在内部表示(h_t)下的近似表示，

是单词的one-hot向量表示；

SCST的思想是用当前模型在测试阶段生成词的奖励作为基线b，这样梯度可以改写为：

其中，

即在测试阶段使用greedy decoding取概率最大的词来生成句子。使用此方法，在生成句子过程中，比基线b好的句子能够获得正向权重，反之则会被抑制，从而提高模型的训练效果，促使参数向期望值收敛。

S205、输出训练好的模型参数。

通过上述过程，本发明在自然场景图像标题生成技术image caption的基础上，对Encoder和Decoder做出优化调整，通过在Encoder特征提取网络中引入残差网络结果来提高特征图质量，在Decoder中加入注意力机制以提高目标描述的准确性，同时为提高训练质量，引入强化学习中自临界序列训练方法，有效加速了训练模型参数的收敛速度。

综上所述本发明具有如下优点：

1)本发明充分考虑遥感图像目标复杂、种类繁多的特征，以VGG模型为基础，引入残差网络结构，用于高分辨率遥感影像的特征图提取；根据特征图设计编码器(Encoder)和解码器(Decoder)，构建两层LSTM模型实现对影像的描述，该方法充分考虑了遥感影像地物信息丰富，场景复杂多样的特点，能够快速准确地生成目标和场景之间的文本语义描述。

2)本发明采用自下而上和自上而下相结合的注意力机制：在典型目标和其他显著图像区域的基础上进行计算，由自下而上的注意力机制获得一组具有显著性的图像区域，由汇集的卷积特征向量进行表示，将卷积特征与真实特征串联实现特征编码，能够获得更为准确的预选区域；自上而下的注意力机制使用基于任务的上下文来预测图像区域上的注意力分布，然后将附属特征向量计算为所有区域上的图像特征，能够更好地提取并使用目标的特征信息，生成更准确的描述。

3)本发明所采用的自上而下视觉注意模型中包括两层LSTM模型：第一层通过计算特征编码和词嵌入矩阵实现自上而下的注意力，第二层结合第一层的输出和图像特征实现语言模型，进而快速准确的生成文本语义描述。

4)采用强化学习中自临界序列训练法SCST加速模型收敛：将生成序列的LSTM看作一个智能体agent，每生成一个正确的单词描述赋予网络一个正向权重，并且通过greedydecoding得到奖励的基线，避免了单独对强化学习模型进行训练，因此可以在不额外增加大量网络参数的条件下，加速网络的收敛，进而提高生成描述的质量。

上面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，不能理解为对本发明保护范围的限制。

总之，本发明虽然列举了上述优选实施方式，但是应该说明，虽然本领域的技术人员可以进行各种变化和改型，除非这样的变化和改型偏离了本发明的范围，否则都应该包括在本发明的保护范围内。

Claims

1.一种面向卫星在轨应用的遥感影像文本智能描述方法，其特征在于，包括以下步骤：

S500、输出遥感图像文本描述结果。

2.根据权利要求1所述的面向卫星在轨应用的遥感影像文本智能描述方法，其特征在于，所述步骤S200中模型参数的训练过程如下：

S205、输出训练好的模型参数。

3.根据权利要求2所述的面向卫星在轨应用的遥感影像文本智能描述方法，其特征在于，所述VGG网络使用五组卷积层和三组全连接层，且其卷积核的大小为3*3和1*1。

4.根据权利要求3所述的面向卫星在轨应用的遥感影像文本智能描述方法，其特征在于，所述LSTM模型包括存储单元C、遗忘门f、输入门i和输出门o：存储单元C用于对每个时间步骤的数据编码，其运行取决于门控单元，如果门的值为1，代表保留门控层中的值，如果门的值为0，则舍弃门控层中的值；遗忘门f决定是否忘记当前单元格值；输入门i决定是否应该读取其输入；输出门o决定是否输出新的单元格值；且门控单元的更新和输出遵循下列公式：

i_t＝σ(W_ixx_t+W_imm_t-1) (1)

f_t＝σ(W_fxx_t+W_fmm_t-1) (2)

o_t＝σ(W_oxx_t+W_omm_t-1) (3)

单元格值的更新和输出遵循如下公式：

c_t＝f_t⊙c_t-1+i_t⊙h(W_cxx_t+W_cmm_t-1) (4)

m_t＝o_t⊙c_t (5)

p_t+1＝Softmax(m_t) (6)

5.根据权利要求4所述的面向卫星在轨应用的遥感影像文本智能描述方法，其特征在于，所述注意力机制选用自下而上和自上而下相结合的注意力机制：自下而上的注意力机制用于获得一组具有显著性的图像区域，每个区域由汇集的卷积特征向量表示；自上而下的注意力机制使用基于任务的上下文来预测图像区域上的注意力分布，然后将附属特征向量计算为所有区域上的图像特征的加权平均，从而更好地提取出并使用特征图的特征信息。

6.根据权利要求5所述的面向卫星在轨应用的遥感影像文本智能描述方法，其特征在于，所述自下而上的注意力机制，针对遥感图像的卷积神经网络，在提取特征图的特征信息过程中，具体表现为：

7.根据权利要求6所述的面向卫星在轨应用的遥感影像文本智能描述方法，其特征在于，所述自上而下的视觉注意力机制具有两层的LSTM模型，第一层用于实现自上而下的注意力，第二层用于实现语言模型，且所述自上而下的视觉注意力机制遵循以下公式：

h_t＝LSTM(x_t，h_t-1) (7)

α_t＝softmax(a_t) (10)

式中，

表示特征图的平均池化卷积特征值，W_e是词嵌入矩阵，Π_t是时间t内输入词的one-hot编码，a_i，t是特征图中的关注度权重，W_va、W_ha、

式中，

表示t时刻第一层LSTM模型的输出向量，y_1：T指代单词序列(y₁，...，y_t)，p(y_t|y_1：t-1)指代每个时间步骤t可能输出的条件分布，p(y_1：T)指完整的条件分布，W_p和b_p分别是学习的权重和偏差。

8.根据权利要求7所述的面向卫星在轨应用的遥感影像文本智能描述方法，其特征在于，所述步骤S204中通过强化学习中自临界序列训练法进行优化训练，促使参数向期望值收敛具体表现为：生成序列的LSTM看作一个智能体，单词和图像特征看作环境，网络参数θ定义为策略p_θ，推测动作则是预测的下一个单词，每经历一个动作，智能体更新内部状态，每正确生成一个单词序列区块链，智能体得到一个正向激励，并且通过greedy decoding得到奖励的基线，从而提高模型的训练效果，促使参数向期望值收敛。