CN113312925B

CN113312925B - 一种基于自强化学习的遥感影像文本生成及优化方法

Info

Publication number: CN113312925B
Application number: CN202110713496.7A
Authority: CN
Inventors: 夏鲁瑞; 林郁; 李森; 陈雪旗; 张占月; 王鹏; 任昊利
Original assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Current assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2022-10-28
Anticipated expiration: 2041-06-25
Also published as: CN113312925A

Abstract

本发明提供了一种基于自强化学习的遥感影像文本生成及优化方法。所述的一种基于自强化学习的遥感影像文本生成及优化方法包括如下步骤：步骤S1、遥感影像语义理解特征提取；步骤S2、获取训练集，对文本生成模型进行预训练，提取文本生成模型参数；步骤S3、将提取的特征向量、先验文本库、预训练后的文本生成模型参数以及用户的任务需求，输入到遥感影像文本生成网络，通过深度学习自然语言处理技术，将提取的特征向量表示的图像特征信息还原为文本描述。本发明采用基于策略梯度算法的自强化学习遥感影像文本生成算法生成文本，提高遥感影像生成模型的训练效果，促使参数向期望值收敛，提高生成描述的准确性。

Description

一种基于自强化学习的遥感影像文本生成及优化方法

技术领域

本发明涉及遥感影像文本生成技术领域，特别涉及一种基于自强化学习的遥感影像文本生成及优化方法。

背景技术

现代航天遥感技术的高速进步，使得遥感卫星日趋成熟、遥感数据获取量成倍增长。然而，目前人们对航天遥感影像的推理与理解以检测和分类为主，其结果与高层信息之间仍存在较大差距。因此，面对如此海量的遥感影像数据，亟需具备与遥感影像获取速度相匹配的解译能力，如何在浩瀚的遥感影像中挖掘提取出高价值信息成为遥感领域进一步探索研究的方向。

航天遥感影像语义理解技术主要是指通过特征提取模型对遥感影像的低层特征进一步抽象，挖掘能够体现其本质属性的信息作为特征，利用更高层次的特征信息对遥感影像进行描述和表达，以便于对遥感影像进行准确理解和分析，同时避免冗余信息对实际应用造成不良影响，进而准确高效地完成影像分类、目标识别和检测等任务的方法。在上述基于影像智能化解译的空间信息智能一体化处理技术中，航天遥感影像语义理解技术的主要目的是通过挖掘遥感影像特征信息，生成可供遥感影像文本生成的特征向量，是航天遥感影像语义理解与文本生成技术的重要基础。

遥感影像语义理解与文本生成技术虽然取得了一定突破，但是图像描述领域存在几个关键问题悬而未决，始终制约着该技术进一步发展。主要的问题如下：

(1)遥感影像文本生成技术在训练阶段和验证阶段使用的评价指标不匹配。在训练阶段常用交叉熵损失作为损失函数训练模型参数，但是验证阶段使用的是BLEU(Bilingual Evaluation Understudy，双语评价方法)、ROUGE(Recall-OrientedUnderstudy for Gisting Evaluation，基于召回率的相似性度量方法)、CIDEr(Consensus-based Image Description Evaluation，一致性图像描述评估)、SPICE(Semantic Propositional Image Caption Evaluation，语义命题图像字幕评价)等评价指标，导致模型生成的描述性语句与训练样本在语义结构上可能存在差异，从而造成训练时损失值较低的语句在测试时难以取得相应效果。

(2)遥感影像文本生成模型无法进行误差修正。在训练阶段，每个时间步长的输入都源于训练文本中真实的描述，而生成描述语句的时候，每个生成的单词依赖于先前生成的单词，如果某个单词生成的质量较差，存在误差积累现象(Exposure bias)。

针对上述问题，解决思路是在训练时也采用相同的评价指标，即以CIDEr、SPICE的值作为训练阶段的损失函数，之所以不用BLEU和ROUGE作为损失函数是因为这两个指标更适用于机器翻译，在图像描述领域以CIDEr和SPICE作为主要评价指标更能代表模型的性能。通过最大化评价指标使得训练阶段和验证阶段相匹配。

计划采样法是一种经典的解决序列生成任务中训练和测试时输入数据分布不一致问题的方法，然而，由于生成文本描述的动作是不可微的，因此难以直接通过反向传播(Backpropagation)算法对损失函数进行优化。强化学习(Reinforcement Learning)能够直接用来优化不可微分的评价标准，因而可以较为理想地解决上述问题。

策略梯度(Policy Gradient)法是强化学习领域的经典算法。然而其模型容易收敛到局部最小值，收敛耗时更久，尤其对于遥感影像，因其特征不明显导致模型更容易陷入局部最优，生成的描述质量欠佳。

发明内容

本发明提供了一种基于自强化学习的遥感影像文本生成及优化方法，该方法对遥感影像语义理解与文本生成模型进行优化。

为了达到上述目的，本发明提供的一种基于自强化学习的遥感影像文本生成及优化方法，包括如下步骤：

步骤S1、遥感影像语义理解特征提取：将经过星上数据预处理及切片处理的航天遥感影像输入特征提取网络，提取对遥感影像进行语义理解的特征向量；

步骤S2、通过遥感影像获取训练集，对由所述遥感影像文本生成网络构成的文本生成模型进行预训练，提取文本生成模型参数；

步骤S3、将提取的特征向量、先验文本库、预训练后的文本生成模型参数以及用户的任务需求，输入到遥感影像文本生成网络，通过深度学习自然语言处理技术，将提取的特征向量表示的图像特征信息还原为文本描述；

所述先验文本库为训练集中附带的对应遥感影像的文本描述；

所述预训练后的文本生成模型参数为预训练特征提取模型参数；

所述遥感影像文本生成网络将图像特征信息还原为文本描述包括如下步骤：

步骤S31、通过遥感影像文本生成网络将将图像特征信息还原为单词；

步骤S32、通过自强化模块对生成的单词进行优化，采用基于策略梯度算法的自强化学习遥感影像文本生成算法生成文本：在由所述遥感影像文本生成网络构成的文本生成模型中，通过文本生成的过程中，将所述先验文本库中采样的单词不断地与文本生成模型中生成的单词进行比较，奖励描述准确的单词，抑制描述不准确及错误的单词，以提高训练过程的收敛速度，并优化文本生成描述的质量。

优选地，所述步骤S32中的采用所述基于策略梯度算法的自强化学习遥感影像文本生成算法生成文本，具体步骤为：

步骤S321、初始化参数，并根据策略采样；

文本生成模型定义为智能体agent，先验文本中的描述词和遥感影像特征定义为“环境”，模型参数θ看作策略p_θ，生成单词的评价指标看作奖励值R_t，执行的动作看作预测的下一个单词；每经历一个动作，agent更新内部状态，每正确生成一个单词序列，agent得到一个正向激励；

步骤S322、计算期望函数；

期望函数表示为：

L(θ)＝-E_W-p[R(W)]

其中，W＝(W₁,W₂,...,W_t)，W_t表示t时刻从文本生成模型采样的单词，R(W)表示生成单词的评价指标，也即强化学习中的奖励值，训练的目标是最小化负期望函数；

步骤S323、引入策略梯度算法计算期望梯度：

式中，p_θ(W)表示表示单词采样过程中的模型参数,

表示表示对θ计算期望梯度；

对于minibatch中每个训练样例有：

步骤S324、计算基线减小方差；

在策略梯度算法中引入基线来减小方差，得到每个动作对于基线的奖励：

由于基线b可以是不依赖于动作W_t的任意函数，期望梯度

不受基线b影响，并且能够减小梯度估计的方差；

对于每个训练样例，采用单个采样W～p_θ近似估计期望梯度：

根据链式法则和模型参数p_θ可得：

其中，S_t是经过GRU注意力机制后文本生成模型的输入，则有：

上式计算了期望函数关于输入的梯度值，其中W_t ¹是单词的one-hot向量表示，H_t代表t时刻的隐状态；

步骤S325、计算奖励值R_t并更新模型参数θ；

为了在不额外增加大量参数的前提下提升模型性能，自强化学习通过采用遥感影像文本生成过程中生成单词的奖励值作为基线；当生成单词优于基线时，该单词得到正向激励，否则，该单词得到抑制，以此更新模型参数；

步骤S326、当达到最大迭代次数时，输出模型参数；否则返回步骤S321。

优选地，所述步骤S325具体为通过束搜索计算概率最大单词的奖励值作为基线，具体为：

梯度方程表示为：

其中，R(W')代表基于束搜索算法获得的生成单词的奖励；

计算奖励值的方法为束搜索法，具体为：

定义超参数束宽，设为k，在每个时间步长上计算概率最大的k个单词并计算其奖励值，计算公式为：

式中，

表示使得p_θ取得最大值所对应的变量点x或x的集合，W_t ²表示t时刻从模型采样的2个单词，W_t ^k表示t时刻从模型采样的k个单词；

当束宽k取2时，束搜索虽未必能够获得全局最优值，但是相较于贪婪搜索扩大了搜索空间，且计算量远小于穷举搜索，此时梯度方程为：

优选地，所述步骤S2中对由所述遥感影像文本生成网络构成的文本生成模型进行预训练具体为：采用交叉熵函数作为基于GRU注意力机制的包括GRU注意力网络模型的文本生成模型的损失函数，对模型进行初步训练，使遥感影像文本生成算法评价指标初步收敛。

优选地，所述步骤S31包括如下步骤：

步骤S311、建立GRU注意力网络模型；

步骤S312、通过GRU注意力网络模型获取注意力值，并将其作为LSTM语言网络的权重；

步骤S313、将所述GRU注意力网络模型获得的注意力值输入到所述LSTM语言网络对特征解码，输出单词和状态；

步骤S314、单词和状态经过Softmax函数，用SoftMax函数计算每个单词在(0，1)区间的映射，取值最大的作为输出，生成每个单词。

本发明能够取得下列有益效果：

本发明在遥感影像文本生成过程中，采用自强化学习模型梯度计算，使用此方法，生成单词若优于通过束搜索计算的基线，模型会获得正向激励，反之模型会被抑制。通过该算法提高遥感影像生成模型的训练效果，促使参数向期望值收敛，提高生成描述的准确性。

在基于策略梯度算法的自强化学习算法的基础上，引入基于自强化学习的遥感影像文本生成算法对模型进行训练优化。考虑到模型训练初期，生成的单词准确度低，用来作为基线效果较差，因此考虑先以交叉熵函数作为模型的损失函数，对模型进行初步训练，当算法评价指标基本收敛时，再通过束搜索计算概率最大单词的奖励值作为基线，进一步提升模型的性能和评价指标。

附图说明

图1为本发明的一种基于自强化学习的遥感影像文本生成及优化方法的航天遥感影像文本生成技术的流程图；

图2为本发明的一种基于自强化学习的遥感影像文本生成及优化方法的获得遥感影像文本生成模型的特征向量的流程图；

图3为本发明的一种基于自强化学习的遥感影像文本生成及优化方法的流程图；

图4为本发明的一种基于自强化学习的遥感影像文本生成及优化方法的基于RSICD数据集的评价指标变化曲线的对比图；

图5为本发明的一种基于自强化学习的遥感影像文本生成及优化方法的基于UCM数据集的评价指标变化曲线的对比图；

图6为本发明的一种基于自强化学习的遥感影像文本生成及优化方法的基于Sydney数据集的评价指标变化曲线的对比图；

图7为本发明的一种基于自强化学习的遥感影像文本生成及优化方法的基于自强化学习算法生成的描述语句与基于GRU注意力机制的算法生成的描述语句进行对比的示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的问题，提供了一种基于自强化学习的遥感影像文本生成及优化方法。

遥感影像文本生成的流程是：通过特征提取模型提取遥感影像的特征图，将提取出的特征图和训练集中的描述信息共同输入到文本生成模型中进行训练，得到文本生成结果。为了提升文本生成结果，在文本生成模型的基础上，加入基于策略梯度法的自强化学习技术，通过在文本生成的过程中，将所述先验文本库中采样的单词不断地和与生成的单词进行比较，奖励描述准确的单词，抑制描述不准确及错误的单词，以提高训练过程的收敛速度，并优化生成描述的质量。

如图1、图2及图3所示，本发明的一种基于自强化学习的遥感影像文本生成及优化方法包括如下步骤：

步骤S1、遥感影像语义理解特征提取：将经过星上数据预处理及切片处理的航天遥感影像输入特征提取网络，提取对遥感影像进行语义理解的特征向量。

生成可供遥感影像文本生成的特征向量，是航天遥感影像语义理解与文本生成技术的重要基础。其主要特点体现在：经过星上数据预处理及切片后的遥感影像无需经过其他预处理方法，直接输入遥感影像语义理解模型，通过特征提取网络获取遥感影像高级语义特征，直接输出可供遥感影像文本生成模型使用的特征信息。获得遥感影像文本生成模型的特征向量的流程图如图2所示。

步骤S3、将提取的特征向量、先验文本库、预训练后的文本生成模型参数以及用户的任务需求，输入到遥感影像文本生成网络，通过深度学习自然语言处理技术，将提取的特征向量表示的图像特征信息还原为文本描述。

所述预训练后的文本生成模型参数为预训练特征提取模型参数。

航天遥感影像文本生成技术主要指利用语义理解模型获得的遥感影像特征向量和先验文本库信息，通过深度学习自然语言处理技术，将特征信息还原为文本描述，进而快速准确地完成在轨产品智能生成与分发，能够实现在轨任务的智能执行与信息智能处理，输出高质高效服务产品，可直接供用户使用，是计算机理解和处理遥感影像的高级处理方式。其主要特点体现在：卫星可以通过语义理解技术获取的特征信息，结合先验知识，独立生成可供用户直接使用的情报产品，这些产品可以是处理后的遥感影像、文本信息甚至声音，根据用户的不同需求产生对应的信息。因为无需下传地面经由判读员人工处理获得的产品，信息的时效性极大提高。航天遥感影像文本生成技术流程图如图1所示。

所述步骤S32中的所述基于策略梯度算法的自强化学习遥感影像文本生成算法生成文本，具体步骤为：

步骤S321、初始化参数，并根据策略采样；

步骤S322、计算期望函数；

期望函数可表示为：

L(θ)＝-E_W-p[R(W)]

步骤S323、引入策略梯度算法计算期望梯度：

式中，p_θ(W)表示表示单词采样过程中的模型参数,

表示表示对θ计算期望梯度；

实际应用中，可通过单个蒙特卡洛抽样从p_θ中抽样W_t近似以获得期望梯度；

对于minibatch(mini-batch,小批量,从训练数据中选出一批数据)中每个训练样例有：

步骤S324、计算基线减小方差；

在策略梯度算法中引入基线(baseline)来减小方差，得到每个动作对于基线的奖励：

由于基线b可以是不依赖于动作W_t的任意函数，期望梯度

不受基线b影响，并且能够减小梯度估计的方差；

根据链式法则和模型参数p_θ可得：

步骤S325、计算奖励值R_t并更新模型参数θ；

所述步骤S325中，计算奖励值有几种常用方法，如穷举搜索(ExhaustiveSearch)、贪婪搜索(Greedy Search)和束搜索(Beam search)。其中穷举搜索表示穷举所有可能的输出单词，并从中找出输出条件概率最大的单词。这种方法虽然可以保证全局最优，但是随着单词丰富程度增加，模型计算复杂度激增，不适用于遥感影像文本生成领域。

贪婪搜索法在测试阶段生成每个单词的时候，使用贪婪解码获取概率最大的单词来生成句子，计算公式如下：

使用贪婪搜索算法作为基线能够在增加模型参数最少的条件下，对模型进行优化，大大提高了模型训练的效率，在自然场景图像描述领域具有较好的效果。但是该算法本质上没有从全局最优的角度生成文本描述，对于场景复杂的遥感影像，难以从宏观角度生成准确的描述语句。

束搜索算法是贪婪搜索的改进，为通过束搜索计算概率最大单词的奖励值作为基线，具体为：

梯度方程表示为：

其中，R(W')代表基于束搜索算法获得的生成单词的奖励；

计算奖励值的方法为束搜索(Beam search)法，具体为：

定义超参数束宽(Beam size)，设为k，在每个时间步长上计算概率最大的k个单词并计算其奖励值，计算公式为：

式中，

表示使得p_θ取得最大值所对应的变量点x或x的集合，W_t ²表示t时刻从模型采样的2个单词，W_t ^k表示t时刻从模型采样的k个单词；Wt表示t时刻从模型采样的单词，因为这里设定取时间步长上k个单词计算概率最大的那个，所以上标1,2…,k依次表示时间步长上的k个单词。

本发明提供的一种基于所述的一种基于自强化学习的遥感影像文本生成及优化方法的优化方法，对于输入的遥感影像，首先通过基于深层残差网络的特征提取技术生成特征图，并且与训练数据集中的文本库共同输入至文本生成网络；在文本生成网络中，根据GRU注意力机制计算区域的注意力值，作为LSTM语言网络的权重；当模型训练到一定程度后，引入自强化学习对参数进一步优化，通过束搜索法计算奖励值作为策略梯度中的基线，生成准确单词时模型得到正向激励，生成不准确或错误单词时模型被抑制，以此更新模型参数，提高描述的准确性和评价指标分数。

所述遥感影像文本生成网络步骤S31中对由所述遥感影像文本生成网络构成的文本生成模型进行预训练具体为：采用交叉熵函数作为基于GRU注意力机制的包括GRU注意力网络模型的文本生成模型的损失函数，对模型进行初步训练，使遥感影像文本生成算法评价指标初步收敛。

GRU注意力机制的文本生成模型由GRU注意力网络和LSTM文本生成网络组成。LSTM语言网络对输入的遥感影像会输出不同的单词。

所述步骤S31包括如下步骤：

步骤S311、建立GRU注意力网络模型；

步骤S312、通过GRU注意力网络模型获取注意力值，并将其作为LSTM网络的权重；

步骤S314、单词和状态经过Softmax(归一化指数函数)函数，用SoftMax函数计算每个单词在(0，1)区间的映射，取值最大的作为输出，生成每个单词。

其中，所述GRU注意力网络对输入的特征图和特征图中文本信息的单词计算权重系数，增加对重点区域的选择和关注度，并将所述GRU注意力网络获得的注意力值及隐状态输入到所述LSTM语言网络，输出单词和状态；

所述GRU注意力网络遵循以下公式：

所述LSTM语言网络遵循以下公式：

其中，

和

分别代表GRU注意力网络t时刻的输入和隐状态，

表示GRU注意力网络t-1时刻的隐状态，

和

分别代表LSTM语言网络t时刻的输入和隐状态，

表示LSTM语言网络t-1时刻的隐状态，隐状态是用于控制LSTM网络每层输出的值；

GRU注意力网络满足以下公式：

该式表示，GRU注意力网络的输入

由三部分组成，分别是：(t-1)时刻LSTM语言网络的隐状态

输入特征图的平均池化特征

和已生成单词的编码W_dΠ_t。

所述GRU注意力网络中对特征图的权重计算公式为：

α_i,t＝Softmax(m_i,t)

其中，α_i,t为特征图中的关注度权重，

为t时刻遥感影像特征图的动态表示，i表示输入遥感影像的第i个区域，K代表特征图的个数，用于计算平均池化特征，m_i,t表示t时刻第i个区域的特征图，W_fm，W_Hm和

均是网络参数，f为特征图的平均池化特征，m表示特征图表；

GRU注意力网络输出的状态值和图像特征图构成了LSTM语言网络的输入，状态值为经过GRU网络权重系数计算后的输出值，图像特征图为数据集的图像特征图：

表示GRU注意力网络t时刻的隐状态，

表示t时刻平均池化了的特征图；

t时刻GRU注意力网络和LSTM语言网络输出的任一单词的概率分布为：

其中，Y_1:T指代单词序列(Y₁,Y₂,...Y_t...Y_T)，p(Y_t|Y_1:t-1)代表每个time step的条件分布，p(Y_1:T)指完整的条件分布，W_p和b_p分别是GRU注意力网络和LSTM文本生成网络构成的模型的权重和偏差；偏差指的是每层网络计算过程中的偏置b；

以交叉熵函数作为GRU注意力网络和LSTM文本生成网络构成的模型优化的损失函数：

所述GRU注意力网络的计算单元中，通过计算重置门R_t和候选状态

之间的关系，以及更新门Z_t和当前状态H_t之间的关系来控制该计算单元的输出；计算单元指的是GRU网络每一层中的计算节点；

重置门R_t的计算如下：

R_t＝σ(W_RX_t+U_RH_t-1+b_R)

此时候选状态

如下：

其中，X_t代表t时刻的输入，H_t-1代表历史状态，W_R和U_R为重置门的参数矩阵，b_R和b_H为偏置，W_H和U_H表示表示候选状态的计算矩阵，R_t表示表示重置门计算后的值；

更新门Z_t和当前状态H_t的关系如下：

Z_t＝σ(W_ZX_t+U_ZH_t-1+b_Z)

式中，σ表示sigmoid激活函数，W_Z和U_Z表示更新门的参数矩阵，，b_Z表示更新门计算时的偏置；

更新门Z_t用来控制当前状态H_t需要从历史状态(t-1)时刻的H_t-1中保留的信息以及从候选状态

中接收新信息；

此时的状态H_t计算如下：

上式表示了GRU注意力网络的当前状态；

将GRU注意力网络的当前状态整理，当前状态H_t和历史状态(t-1)时刻的H_t-1之间同时存在线性和非线性关系，能够在一定程度上缓解梯度弥散现象；

H_t＝Z_t⊙H_t-1+(1-Z_t)⊙tanh(W_HX_t+U_H(R_t⊙H_t-1)+b_H)

此时，GRU注意力网络的输出Y_t表示如下：

Y_t＝σ(W·H_t)

式中，W表示GRU网络的参数矩阵，是对更新门和重置门参数矩阵的宏观表示。

在每个文本生成单元，前一时刻LSTM语言网络的隐状态，输入特征图的平均池化特征，前一个文本生成单元生成单词的编码共同作为GRU注意力网络的输入，GRU注意力网络经过计算获得每个预选区域的权重，再经过LSTM语言网络对特征解码，经过Softmax函数后生成每个单词，并将该单词和状态作为下一个GRU注意力网络的输入；循环往复，直到生成最后一个单词。本发明能够取得下列有益效果：

本发明针对遥感影像文本生成算法模型测试阶段存在的误差累积、评价指标不对应以及难以直接通过反向传播优化参数的问题，改进了基于自强化学习的遥感影像文本生成优化方法。创新点包括：

(1)提出一种基于强化学习的遥感影像文本生成优化方法

在强化学习策略梯度算法的基础上，引入束搜索算法计算遥感影像文本生成算法中已生成单词的评价指标，并将其作为模型基线与生成单词对比以获得奖励值，生成准确单词时模型得到正向激励，生成不准确或错误单词时模型被抑制，从而优化参数提高模型性能。

(2)基于自强化学习优化方法设计并实现了遥感影像文本生成算法

基于自强化学习优化方法，设计并实现了遥感影像文本生成算法，以深层残差网络提取遥感影像特征图，以基于GRU注意力机制的区域关注算法作为文本解码器，结合基于自强化学习的优化方法，充分挖掘遥感影像包含的信息，将输入的遥感影像输出为准确详实的文本描述。

为评估本发明提出的基于自强化学习的遥感影像文本生成算法的效果，进行如下实验：以深层残差网络作为图像编码器，以引入GRU注意力机制的LSTM语言网络作为文本解码器，先通过监督学习基于交叉熵损失函数以2e-5的学习率对模型预训练50轮，使模型达到一个较为稳定的状态，再通过自强化学习算法优化评价指标进一步优化模型参数，学习率大小设为1e-5再训练30轮，并把验证集上评价指标最高的模型作为最终测试模型，最后将该模型的评价指标与未加入自强化学习的遥感影像文本生成模型的评价指标进行对比。实验所用遥感影像数据集为RSICD、UCM Captions和Sydney，采用的评价指标为BLEU、ROUGE、CIDEr和SPICE。

数据集包括RSICD(Remote Sensing Image Captioning Dataset，遥感影像语义理解数据集)，UCM-Caption(University of California，Merced Dataset，加州大学默塞德分校制作的数据集)数据集，Sydney数据集。

RSICD数据集从谷歌地球，百度地图，MapABC，天地图(Tianditu)收集了10921幅遥感影像，每幅影像有5条描述语句。该数据集包含30个类别。其中遥感影像尺寸固定为224*224像素。这个数据集是目前遥感影像描述任务中最大的数据集，数据集中的样本图像具有较高的类内多样性和较低的类间差异性。

UCM-Caption数据集是基于UCM_Merced大学的土地利用数据集，影像来源于美国地质调查局的国家地图城市区域。共包含2100幅遥感影像，数据集中含有21个类别。每幅遥感的分辨率为256*256像素，每幅影像同样有5条描述语句。

评价指标包括BLEU、ROUGE、CIDEr、SPICE。

Sydney数据集全称是Sydney-Captions数据集。该数据集基于Sydney数据集，共有613幅遥感影像，包含7个类别。每幅影像分辨率为500*500像素，并且同样采用5条不同的语句描述。所有影像都是从谷歌地球中澳大利亚悉尼的18000*14000像素的遥感影像中制作的。

BLEU是机器翻译领域最常用的评价指标之一，于2002由IBM公司年提出，为评价翻译语句和参考语句之间的关联性。

ROUGE能够用来反映获得描述的准确程度，通过计算n-gram在对照描述和待评价描述中的共现概率获得。

CIDEr是专门设计评价图像描述问题的指标，它通过Term Frequency InverseDocument Frequency(TF-IDF)计算每个n-gram的权重，用于评价描述的一致性。

SPICE也是专门设计用于评价图像描述问题，不同于前面三种基于n元组的指标，SPICE使用图的语义表示编码描述中的目标，属性和关系。

实验结果如表1、表2、表3所示：

表1 RSICD实验结果

表2 UCM_Captions实验结果

表3 Sydney_Captions实验结果

可以发现，在三个数据集中，使用本发明提出的基于自强化学习算法对遥感影像文本生成模型进行优化训练后，评价指标均有大幅增长，其中CIDEr值显著提高。这是因为束搜索计算奖励值时以CIDEr值为基准，因此可以直接优化该指标，其他指标也因此有相应提升，证明了本发明提出的基于自强化学习的遥感影像文本生成算法效果显著。

为观察基于自强化学习的遥感影像语义理解与文本生成算法评价指标随训练过程的变化趋势，因为共训练了80轮，故每训练8轮计算一次评价指标，分别绘制三个数据集遥感影像语义理解与文本生成技术的评价指标变化曲线：

图4、图5及图6展示了基于自强化学习的遥感影像语义理解与文本生成算法的评价指标变化曲线，横坐标表示训练率，纵坐标表示各项评价指标的值，用不同颜色的曲线表示不同评价指标。可以发现，随着训练次数增加，各项指标在初始阶段快速上升，当训练率到达50％左右时，模型基本收敛，此时预训练模型训练完毕，增加训练次数也难以有较大提升。而当训练率达到60％以后，采用自强化学习算法对模型进行优化，此时模型评价指标再次获得大幅上涨，以CIDEr曲线的涨幅最为显著，虽然对于不同数据集涨幅和涨势略有不同，但是整体趋势足以说明基于自强化学习的算法能够在原有模型基础上，大幅提升算法性能。

为直观展示本发明提出的自强化学习算法的实际效果，将基于自强化学习算法生成的描述语句与基于GRU注意力机制的算法生成的描述语句进行对比，部分结果如图7所示。

图7中共六幅图，上左图采用GRU注意力机制的描述为“在路边有一些绿矮丛和白色建筑的草地”，而采用本发明的自强化学习算法的文字描述为“有一些绿矮丛和白色沙坑的草地，一些道路穿过这片草地。

上中图采用GRU注意力机制的描述为“路边的公园里有一些绿色树木和一个池塘”，而采用本发明的自强化学习算法的文字描述为“路边和河边的公园周围有一些建筑和绿色树木”。

上右图采用GRU注意力机制的描述为“在操场周围有一些绿色树木和建筑”，而采用本发明的自强化学习算法的文字描述为“在有一个足球场的操场周围有一些绿色树木和建筑”。

下左图采用GRU注意力机制的描述为“飞机场里停有一些飞机”，而采用本发明的自强化学习算法的文字描述为“飞机场的航站楼里停有一些飞机”。

下中图采用GRU注意力机制的描述为“四个网球场被一些植被包围着”，而采用本发明的自强化学习算法的文字描述为“两个网球场整齐地布置着，且被一些植被及建筑包围着”。

下右图采用GRU注意力机制的描述为“这是一个密集的居住区，一栋栋的房子整齐地布置着”，而采用本发明的自强化学习算法的文字描述为“这是一个密集的居住区，一栋栋的房子整齐地布置着在两条道路旁”。

可以发现，基于GRU注意力机制的遥感影像文本生成算法虽然已经能够准确识别出目标并给出目标和场景之间的位置关系，但是只能给出较为普通的场景描述，难以进一步给出更精准的描述；而该模型经过本发明提出的基于自强化学习的强化学习算法进一步优化训练后，对于目标和场景间的位置关系有了更准确的表达能力，尤其是寻找多个目标之间的联系时取得了更好的效果，从客观和主观角度证明了算法的优越性。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于自强化学习的遥感影像文本生成及优化方法，其特征在于，包括如下步骤：

步骤S2、通过遥感影像获取训练集，对由遥感影像文本生成网络构成的文本生成模型进行预训练，提取文本生成模型参数；

步骤S31、通过遥感影像文本生成网络将图像特征信息还原为单词；

2.根据权利要求1所述的一种基于自强化学习的遥感影像文本生成及优化方法，其特征在于，所述步骤S32中的采用所述基于策略梯度算法的自强化学习遥感影像文本生成算法生成文本，具体步骤为：

步骤S321、初始化参数，并根据策略采样；

步骤S322、计算期望函数；

期望函数表示为：

L(θ)＝-E_W-p[R(W)]

步骤S323、引入策略梯度算法计算期望梯度：

式中，p_θ(W)表示表示单词采样过程中的模型参数,

表示表示对θ计算期望梯度；

对于minibatch中每个训练样例有：

步骤S324、计算基线减小方差；

由于基线b可以是不依赖于动作W_t的任意函数，期望梯度

不受基线b影响，并且能够减小梯度估计的方差；

根据链式法则和模型参数p_θ可得：

步骤S325、计算奖励值R_t并更新模型参数θ；

3.根据权利要求2所述的一种基于自强化学习的遥感影像文本生成及优化方法，其特征在于，所述步骤S325具体为通过束搜索计算概率最大单词的奖励值作为基线，具体为：

梯度方程表示为：

其中，R(W')代表基于束搜索算法获得的生成单词的奖励；

计算奖励值的方法为束搜索法，具体为：

式中，

4.根据权利要求1所述的一种基于自强化学习的遥感影像文本生成及优化方法，其特征在于，所述步骤S2中对由所述遥感影像文本生成网络构成的文本生成模型进行预训练具体为：采用交叉熵函数作为基于GRU注意力机制的包括GRU注意力网络模型的文本生成模型的损失函数，对模型进行初步训练，使遥感影像文本生成算法评价指标初步收敛。

5.根据权利要求1所述的一种基于自强化学习的遥感影像文本生成及优化方法，其特征在于，所述步骤S31包括如下步骤：

步骤S311、建立GRU注意力网络模型；