CN113420680B

CN113420680B - 一种基于gru注意力的遥感影像区域关注与文本生成方法

Info

Publication number: CN113420680B
Application number: CN202110714794.8A
Authority: CN
Inventors: 夏鲁瑞; 林郁; 李森; 陈雪旗; 张占月; 王鹏; 薛武
Original assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Current assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2022-10-28
Anticipated expiration: 2041-06-25
Also published as: CN113420680A

Abstract

本发明提供了一种基于GRU注意力的遥感影像区域关注与文本生成方法包括如下步骤：步骤S1、在编码器部分提取遥感影像特征信息，输出特征图；步骤S2、特征图和训练集中的文本信息共同作为解码器的输入；所述解码器中，包括GRU注意力网络及LSTM语言网络，所述GRU注意力网络在输入的特征图的单词生成前，对特征图的特征向量和特征图生成文本信息的单词计算权重系数，增加对重点区域的选择和关注度，并将所述GRU注意力网络获得的注意力值及隐状态输入到所述LSTM语言网络，输出单词和状态。本发明能够更为准确地在到遥感影像的预选区域中判断出重点区域，以生成更为准确的描述。

Description

一种基于GRU注意力的遥感影像区域关注与文本生成方法

技术领域

本发明涉及遥感影像文本生成技术领域，特别涉及一种基于GRU(门控循环单元，Gated Recurrent Unit)注意力的遥感影像区域关注与文本生成方法。

背景技术

现代航天遥感技术的高速进步，使得遥感卫星日趋成熟、遥感数据获取量成倍增长。然而，目前人们对航天遥感影像的推理与理解以检测和分类为主，其结果与高层信息之间仍存在较大差距。因此，面对如此海量的遥感影像数据，亟需具备与遥感影像获取速度相匹配的解译能力，如何在浩瀚的遥感影像中挖掘提取出高价值信息成为遥感领域进一步探索研究的方向。

航天遥感影像文本生成技术指对于输入的遥感影像，通过计算机自动生成影像中目标和场景文本描述的语义信息，是遥感影像智能处理的最终目标之一。航天遥感影像文本生成技术源于自然场景图像描述技术，处理流程是：首先利用卷积神经网络(Convolutional Neural Network，CNN)构成的特征编码器提取输入遥感影像的特征信息，生成便于计算机理解的特征图；接着将特征图输入由循环神经网络(Recurrent NeuralNetworks，RNN)构成的文本解码器，结合先验文本库，将特征图转换为文本描述，如图1所示。航天遥感影像文本生成技术能够充分利用海量的遥感影像，自主理解影像内容并获得影像中目标的特征和目标与目标、目标与场景间的关系，并从语义层面对遥感影像进行描述。该技术在民用和军事领域均具有极其重要的作用，是解决遥感数据增长量和人工判读效率有限这一矛盾的主要解决方法之一，具有重要的研究意义。

为提高自然场景中语义描述和视觉问答算法的准确性和相关性，近几年注意力机制(Attention Mechanism)得到广泛应用，获得了较好的效果。但是遥感影像文本生成过程中存在干扰噪声多、目标背景复杂和目标特点不丰富等问题，直接影响了遥感影像特征提取的准确率和场景信息的关注度，从而影响遥感影像语义文本生成的结果，即使采用注意力机制对场景加以关注，也难以获得较好的效果。

注意力机制本质上属于一种对资源进行重新划分和调整的机制，原本平均分配的资源，在注意力机制的作用下，根据对象的重要程度进行重新分配，重要对象所占资源的权重增大，反之不重要的对象占据资源的比例就相对减弱，以此来实现对重点目标和区域的准确关注。注意力可概况为两类：一是有主观意识的自顶而下的注意力，即聚焦式注意力。聚焦式注意力是指有特定目标且建立在某个任务上的注意力。二是非主观的自下而上的注意力，即基于显著性的注意力。基于显著性的注意力在外界影响下被动出现，无需主动干涉。此外，根据任务的不同，注意力机制还存在其他变体，目前应用最广泛的是神经机器翻译和图像描述生成领域。

近些年，随着深度学习的发展，注意力机制在机器翻译、自然语言处理和图像描述领域也具有广泛的应用。在图像描述领域，可将注意力机制理解为关注图像局部区域信息的方法，因为随着任务的变化，关注区域和对象也随之发生变化，通过注意力机制准确定位有价值区域，筛除无关信息，对于图像和文本的处理有显著的改进效果。遥感领域典型注意力机制包含SOFT(一种利用全局计算获得每个Key(关键点)的权重概率，确保所有Key具有对应权重的注意力机制，该注意力机制对于高关注区域，在权重的作用下，关注度保持原始值；对于低关注区域或目标，在权重作用下，关注度接近0，从而实现对目标和场景的关注，进而生成更具针对性的描述。)注意力机制和HARD(一种通过计算概率来采样输入端的隐状态获得，通过蒙特卡洛采样法来估算梯度值，从而反向传播梯度的注意力机制，该注意力机制能够使用梯度下降进行训练，使每次生成单词时所用的特征图趋向于效果更好的方向)注意力机制两种。

但是在遥感影像语义理解与文本生成领域存在两个较为严重的问题：

(1)SOFT注意力机制在处理过程中，将全部信息压缩到长度固定的隐向量z上，忽略了输入x的长度，因此当输入x长度超过一定阈值，比如长度超过遥感影像数据集中的描述长度时，遥感影像文本生成模型的性能会急剧下降。

(2)虽然SOFT注意力机制通过确定性参数化计算解决了模型参数不可微分，难以通过反向传播算法直接训练的问题，但是遥感影像相较于自然场景，包含的信息更为丰富，背景也更加复杂，难以直接通过注意力机制划分出目标和周围场景，因此使用上述注意力机制无法取得理想的效果。

HARD注意力机制的处理方式是直接精准定位到某个key，此时这个key的概率等效为1，其余key的概率全部是0。虽然这种方式能够获得比SOFT注意力机制更好的目标区域划分和提取效果，但是该方法对于对齐方式要求很高，如果没有正确对齐，效果反而会更差；并且对于遥感影像，仅通过选取部分key作为注意力目标，难以准确表达场景中包含的所有信息，在训练过程中可能出现目标特征丢失的问题。

因此，SOFT注意力机制与HARD注意力机制在遥感影像语义理解与文本描述领域都有一定的局限性。

发明内容

本发明提供了一种基于GRU注意力的遥感影像区域关注与文本生成方法，针对传统注意力机制在遥感领域难以准确关注目标和场景并提取其位置关系的不足，继而导致生成描述不准确的问题，提出了基于门控循环单元注意力机制的遥感影像区域关注算法。

为了达到上述目的，本发明提供的一种基于GRU注意力的遥感影像区域关注及文本生成方法，在每个单词生成前，通过GRU注意力网络对输入的特征向量和单词计算权重系数，增加对重点区域的关注度，进而获得更为准确的描述。

本发明提供的一种基于GRU注意力的遥感影像区域关注及文本生成方法，包括如下步骤：

步骤S1、将获取的遥感影像输入编码器，在编码器部分提取遥感影像特征信息，输出特征图；

步骤S2、将部分遥感影像作为数据集，将部分遥感影像及对应的文本信息作为训练集，将数据集的特征图和训练集中的文本信息共同作为解码器的输入；

所述解码器中，包括GRU注意力网络及LSTM语言网络，所述GRU注意力网络在输入的特征图的单词生成前，对特征图的特征向量和特征图生成文本信息的单词计算权重系数，增加对重点区域的选择和关注度，并将所述GRU注意力网络获得的注意力值及隐状态输入到所述LSTM语言网络，输出单词和状态；

其中，计算权重系数时，在遥感影像的预选区域中根据权重系数判断出重点区域，增加对重点区域的选择和关注度，所述注意力值即为权重系数，隐状态是用于控制LSTM语言网络每层输出的值。

优选地，所述GRU注意力网络遵循以下公式：

所述LSTM语言网络遵循以下公式：

其中，

和

分别代表GRU注意力网络t时刻的输入和隐状态，

表示GRU注意力网络t-1时刻的隐状态，

和

分别代表LSTM语言网络t时刻的输入和隐状态，

表示LSTM语言网络t-1时刻的隐状态；

GRU注意力网络满足以下公式：

该式表示，GRU注意力网络的输入

由三部分组成，分别是：(t-1)时刻LSTM语言网络的隐状态

输入特征图的平均池化特征

和已生成单词的编码W_dΠ_t。

优选地，所述GRU注意力网络中对特征图的权重计算公式为：

α_i,t＝Softmax(m_i,t)

其中，α_i,t为特征图中的关注度权重，

为t时刻遥感影像特征图的动态表示，i表示输入遥感影像的第i个区域，K代表特征图的个数，用于计算平均池化特征，m_i,t表示t时刻第i个区域的特征图，W_fm，W_Hm和

均是网络参数，f_i为第i个区域的特征图的平均池化特征，m表示特征图表；

GRU注意力网络输出的状态值和图像特征图构成了LSTM语言网络的输入，状态值为经过GRU注意力网络权重系数计算后的输出值，图像特征图为数据集的图像特征图：

表示GRU注意力网络t时刻的隐状态，

表示t时刻平均池化了的特征图；

t时刻GRU注意力网络和LSTM语言网络输出的任一单词的概率分布为：

其中，Y_1:T指代单词序列(Y₁,Y₂,...Y_t...Y_T)，p(Y_t|Y_1:t-1)代表每个time step的条件分布，p(Y_1:T)指完整的条件分布，W_p和b_p分别是GRU注意力网络和LSTM语言网络构成的模型的权重和偏差；偏差指的是每层网络计算过程中的偏置b；

以交叉熵函数作为GRU注意力网络和LSTM语言网络构成的模型优化的损失函数：

式中，p_θ表示单词采样过程中的模型参数，

指损失函数中的条件分布，其中的

和

均指代本模型中输入数据集描述的单词序列。

优选地，所述GRU注意力网络的计算单元中，通过计算重置门R_t和候选状态

之间的关系，以及更新门Z_t和当前状态H_t之间的关系来控制该计算单元的输出；计算单元指的是GRU网络每一层中的计算节点；

重置门R_t的计算如下：

R_t＝σ(W_RX_t+U_RH_t-1+b_R)

此时候选状态

如下：

其中，X_t代表t时刻的输入，H_t-1代表历史状态，W_R和U_R为重置门的参数矩阵，b_R和b_H为偏置，W_H和U_H表示候选状态的计算矩阵，R_t表示重置门计算后的值；

更新门Z_t和当前状态H_t的关系如下：

Z_t＝σ(W_ZX_t+U_ZH_t-1+b_Z)

式中，σ表示sigmoid激活函数，W_Z和U_Z表示更新门的参数矩阵，b_Z表示更新门计算时的偏置；

更新门Z_t用来控制当前状态H_t需要从历史状态(t-1)时刻的H_t-1中保留的信息以及从候选状态

中接收新信息；

此时的状态H_t计算如下：

上式表示了GRU注意力网络的当前状态；

将GRU注意力网络的当前状态整理，当前状态H_t和历史状态(t-1)时刻的H_t-1之间同时存在线性和非线性关系，能够在一定程度上缓解梯度弥散现象；

H_t＝Z_t⊙H_t-1+(1-Z_t)⊙tanh(W_HX_t+U_H(R_t⊙H_t-1)+b_H)

此时，GRU注意力网络的输出Y_t表示如下：

Y_t＝σ(W·H_t)

式中，W表示GRU网络的参数矩阵，是对更新门和重置门参数矩阵的宏观表示。

优选地，解码器中每个GRU注意力网络和LSTM语言网络构成一个文本生成单元，在每个文本生成单元，前一时刻LSTM语言网络的隐状态，输入特征图的平均池化特征，前一个文本生成单元生成单词的编码共同作为GRU注意力网络的输入，GRU注意力网络经过计算获得每个预选区域的权重，再经过LSTM语言网络对特征解码，经过Softmax函数后生成每个单词，并将该单词和用于决定文本描述起始和终止的状态作为下一个GRU注意力网络的输入；循环往复，直到生成最后一个单词。

本发明提供的一种基于GRU注意力的遥感影像区域关注及文本生成方法，在每个文本生成单元，前一时刻LSTM语言网络的隐状态，k个特征图的平均池化特征，前面生成单词的编码共同作为GRU注意力网络的输入，注意力网络经过计算获得每个预选区域的权重，再经过LSTM语言网络对特征解码，经过Softmax(归一化指数函数)函数后生成每个单词，并将该单词和状态作为下一个GRU注意力网络的输入；循环往复，直到生成最后一个单词。

本发明能够取得下列有益效果：

通过研究SOFT注意力机制和HARD注意力机制的基本原理，针对其在遥感影像区域关注领域的局限性，提出基于门控循环单元注意力机制的遥感影像区域关注算法，通过GRU注意力网络计算输入特征向量的权重系数，增加对目标和重点区域的关注度。

构建了基于门控循环单元注意力机制的遥感影像区域关注与文本生成模型，在基于LSTM的遥感影像文本生成模型中引入GRU注意力网络，以GRU作为注意力网络计算输入特征的注意力值，将注意力值和输入的隐状态共同作为LSTM语言网络的输入，提高了描述的准确性。

附图说明

图1为本发明的一种基于GRU注意力的遥感影像区域关注及文本生成方法的航天遥感影像文本生成技术流程图；

图2为本发明的一种基于GRU注意力的遥感影像区域关注及文本生成方法的基于GRU注意力机制的区域关注单元的流程图；

图3为本发明的一种基于GRU注意力的遥感影像区域关注及文本生成方法的GRU注意力网络的单元结构图；

图4为本发明的一种基于GRU注意力的遥感影像区域关注与文本生成方法的流程图；

图5为本发明的一种基于GRU注意力的遥感影像区域关注与文本生成方法的基于RSICD数据集的评价指标变化曲线图；

图6为本发明的一种基于GRU注意力的遥感影像区域关注与文本生成方法的基于UCM数据集的评价指标变化曲线图；

图7为本发明的一种基于GRU注意力的遥感影像区域关注与文本生成方法的基于Sydney数据集的评价指标变化曲线图；

图8(a)为本发明的一种基于GRU注意力的遥感影像区域关注与文本生成方法的机场结果展示图；图8(b)为本发明的一种基于GRU注意力的遥感影像区域关注与文本生成方法的棒球场结果展示图；图8(c)为本发明的一种基于GRU注意力的遥感影像区域关注与文本生成方法的桥梁结果展示图；图8(d)为本发明的一种基于GRU注意力的遥感影像区域关注与文本生成方法的教堂结果展示图；图8(e)为本发明的一种基于GRU注意力的遥感影像区域关注与文本生成方法的篮球场结果展示图；图8(f)为本发明的一种基于GRU注意力的遥感影像区域关注与文本生成方法的停车场结果展示图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的问题，提供了一种基于GRU注意力的遥感影像区域关注与文本生成方法，如图1、图2及图3所示，本发明的一种基于GRU注意力的遥感影像区域关注及文本生成方法，包括如下步骤：

步骤S1、将获取的遥感影像输入编码器，在编码器部分提取遥感影像特征信息，输出特征图；遥感影像一般指的是预处理后的图像；

本实施例中使用的训练数据集主要包含以下三个：RSICD数据集、UCM_Captions数据集以及Sydney_Captions数据集，对上述三种数据集分别随机排序，将每个数据集的80％设为训练集，10％设为验证集，10％设为测试集。

所述解码器中，包括GRU注意力网络及LSTM语言网络，所述GRU注意力网络在输入的特征图的单词生成前，对特征图的特征向量和特征图生成文本信息的单词计算权重系数(上述三种数据集中包含图像和文本描述，每条描述中包含一定数量的单词，能够和特征图形成对应关系)，增加对重点区域的选择和关注度，并将所述GRU注意力网络获得的注意力值及隐状态输入到所述LSTM语言网络，输出单词和状态；

特征图经过GRU网络计算后得到权重系数，系数大的默认为重点区域，在后续处理中主要考虑，系数小的为非重点区域，在后续处理中占得比重较小。

所述GRU注意力网络遵循以下公式：

所述LSTM语言网络遵循以下公式：

其中，

和

分别代表GRU注意力网络t时刻的输入和隐状态，

表示GRU注意力网络t-1时刻的隐状态，

和

分别代表LSTM语言网络t时刻的输入和隐状态，

表示LSTM语言网络t-1时刻的隐状态；输入指的是数据集中的特征图以及包含的文本信息，共同作为LSTM网络后续计算的输入；在LSTM网络中，由于每步都会产生一个输出值，隐状态可以理解为控制每层网络的参数。

GRU注意力网络满足以下公式：

该式表示，GRU注意力网络的输入

由三部分组成，分别是：(t-1)时刻LSTM语言网络的隐状态

输入特征图的平均池化特征

和已生成单词的编码W_dΠ_t。

所述GRU注意力网络中对特征图的权重计算公式为：

α_i,t＝Softmax(m_i,t)

其中，α_i,t为特征图中的关注度权重，

表示GRU注意力网络t时刻的隐状态，

表示t时刻平均池化了的特征图；

其中，Y_1:T指代单词序列(Y₁,Y₂,...Y_t...Y_T)，p(Y_t|Y_1:t-1)代表每个time step(时间步长)的条件分布，p(Y_1:T)指完整的条件分布，W_p和b_p分别是GRU注意力网络和LSTM语言网络构成的模型的权重和偏差；偏差指的是每层网络计算过程中的偏置b；

式中，p_θ表示单词采样过程中的模型参数，

指损失函数中的条件分布，其中的

和

均指代本模型中输入数据集描述的单词序列。

通过上述模型，基于GRU注意力机制的区域关注模型能够获取遥感影像重点区域并提取影像特征实现特征编码，通过反向传播算法学习模型参数，进而调整特征权重，实现对遥感影像目标的准确关注。

GRU注意力网络统属于循环神经网络，是长短时记忆网络的衍生模型。相较于LSTM网络，GRU注意力网络有两点改进：

(1)舍弃输入门、输出门与遗忘门的控制模式，合并输入门与遗忘门，将其命名为更新门Z_t，并将另一个门命名为重置门R_t。

(2)舍弃内部状态C，建立当前状态H_t和历史状态H_t-1间的线性依赖关系。

所述GRU注意力网络的计算单元中，通过计算重置门R_t和候选状态

重置门R_t的计算如下：

R_t＝σ(W_RX_t+U_RH_t-1+b_R)

此时候选状态

如下：

更新门Z_t和当前状态H_t的关系如下：

Z_t＝σ(W_ZX_t+U_ZH_t-1+b_Z)

式中，σ表示sigmoid激活函数，W_Z和U_Z表示更新门的参数矩阵，b_Z表示更新门计算时的偏置；可参考图3。

中接收新信息；

此时的状态H_t计算如下：

上式表示了GRU注意力网络的当前状态；

H_t＝Z_t⊙H_t-1+(1-Z_t)⊙tanh(W_HX_t+U_H(R_t⊙H_t-1)+b_H)

此时，GRU注意力网络的输出Y_t表示如下：

Y_t＝σ(W·H_t)

GRU注意力网络和LSTM语言网络具有各自的特点，GRU注意力网络的优势在于参数更少，训练速度稍快，并且泛化所需的数据更少；LSTM语言网络虽然因为多了一个门控单元，模型相对复杂，但如果具有充足的数据，LSTM强大表达能力能够产生更好的结果。

基于门控循环单元注意力机制的遥感影像文本生成模型仍然采用编码器-解码器结构，编码器部分采用基于深层残差网络的遥感影像特征提取模型，解码器部分采用基于LSTM的文本生成模型，同时引入基于GRU的注意力机制对重点区域和目标加以关注，生成准确丰富的文本描述。遥感影像文本生成模型整体结构如图4所示。

解码器中每个GRU注意力网络和LSTM语言网络构成一个文本生成单元，在每个文本生成单元，前一时刻LSTM语言网络的隐状态，输入特征图的平均池化特征，前一个文本生成单元生成单词的编码共同作为GRU注意力网络的输入，GRU注意力网络经过计算获得每个预选区域的权重，再经过LSTM语言网络对特征解码，经过Softmax函数后生成每个单词，并将该单词和用于决定文本描述起始和终止的状态作为下一个GRU注意力网络的输入；循环往复，直到生成最后一个单词。

由图4可知，解码器中每个GRU网络和LSTM网络构成一个文本单元，多个文本单元叠加构成文本生成网络。这里“前一个文本生成单元“的含义是后一个文本单元的输入由前一个文本单元的输出决定。

本发明能够取得下列有益效果：

通过研究SOFT注意力机制和HARD注意力机制的基本原理，针对其在遥感影像区域关注领域的局限性，提出基于门控循环单元注意力机制的遥感影像区域关注算法，通过GRU注意力网络计算输入特征向量的权重系数，增加对目标和重点区域的关注度。基于GRU注意力网络的区域关注技术能够更为准确地在遥感影像的预选区域中判断出重点区域，并生成更为准确的描述。

为评估基于GRU注意力区域关注和文本生成算法的效果，进行如下实验：由于注意力模型的输入是特征提取网络获得的特征，因此本实验以基于深层残差网络的特征提取模型为基础，分别引入SOFT注意力、HARD注意力及GRU注意力，通过计算评价指标判断模型质量。

实验参数设置如下：batchsize设定为10，学习率learningrate设定为2e-5，epoch设为50轮，将80％的数据集划分为训练集，10％数据集划分为验证集，10％数据集划分为测试集。数据集包括RSICD(Remote Sensing Image Captioning Dataset，遥感影像语义理解数据集)，UCM-Caption(University of California，Merced Dataset，加州大学默塞德分校制作的数据集)数据集，Sydney数据集。

RSICD数据集从谷歌地球，百度地图，MapABC，天地图(Tianditu)收集了10921幅遥感影像，每幅影像有5条描述语句。该数据集包含30个类别。其中遥感影像尺寸固定为224*224像素。这个数据集是目前遥感影像描述任务中最大的数据集，数据集中的样本图像具有较高的类内多样性和较低的类间差异性。

UCM-Caption数据集是基于UCM_Merced大学的土地利用数据集，影像来源于美国地质调查局的国家地图城市区域。共包含2100幅遥感影像，数据集中含有21个类别。每幅遥感的分辨率为256*256像素，每幅影像同样有5条描述语句。

Sydney数据集全称是Sydney-Captions数据集。该数据集基于Sydney数据集，共有613幅遥感影像，包含7个类别。每幅影像分辨率为500*500像素，并且同样采用5条不同的语句描述。所有影像都是从谷歌地球中澳大利亚悉尼的18000*14000像素的遥感影像中制作的。

实验所用遥感影像数据集和评价指标均保持不变，实验结果如表1、表2、表3所示：

表1 RSICD数据集实验结果

表2 UCM_Captions数据集实验结果

表3 Sydney数据集实验结果

评价指标包括BLEU(Bilingual Evaluation Understudy，双语评价方法)、ROUGE(Recall-Oriented Understudy for Gisting Evaluation，基于召回率的相似性度量方法)、CIDEr(Consensus-based Image Description Evaluation，一致性图像描述评估)、SPICE(Semantic Propositional Image Caption Evaluation，语义命题图像字幕评价)。

BLEU是机器翻译领域最常用的评价指标之一，于2002由IBM公司年提出，为评价翻译语句和参考语句之间的关联性。

ROUGE能够用来反映获得描述的准确程度，通过计算n-gram在对照描述和待评价描述中的共现概率获得。

CIDEr是专门设计评价图像描述问题的指标，它通过Term Frequency InverseDocument Frequency(TF-IDF)计算每个n-gram的权重，用于评价描述的一致性。

SPICE也是专门设计用于评价图像描述问题，不同于前面三种基于n元组的指标，SPICE使用图的语义表示编码描述中的目标，属性和关系。

由于BLEU、ROUGE、CIDEr、SPICE等评价指标的数值越大表明生成描述的质量越高。可以发现，基于HARD注意力机制的遥感影像文本生成算法的效果略微优于基于SOFT注意力机制的遥感影像文本生成算法，但是引入注意力机制后，算法的性能反而比原指标有所下降，这是因为传统注意力机制更适用于场景较小，目标显著的自然场景图像，对于尺寸大、覆盖区域广、背景复杂、目标众多的遥感影像，强行让算法去聚焦目标反而会起到反作用。而本章提出的基于GRU注意力机制的遥感影像文本生成算法，因GRU注意力网络具有记忆功能，能够传递遥感影像中包含的时序信息，且训练所需的参数相对较少，以GRU注意力网络计算每个单词目标的权重，可获得更为准确的预选区域，提高描述的丰富性和准确性。

为观察基于GRU注意力机制的遥感影像语义理解与文本生成算法评价指标随训练过程的变化趋势，每训练5轮计算一次评价指标，分别绘制三个数据集遥感影像语义理解与文本生成算法的评价指标变化曲线，如图5、图6、图7所示。

图5、图6、图7展示了基于GRU注意力机制的遥感影像语义理解与文本生成算法的评价指标变化曲线，横坐标代表训练率，纵坐标代表各项评价指标的值，不同指标以不同颜色的曲线表示。不难发现，随着训练次数的逐渐增加，各项评价指标整体呈上升趋势，训练率达到50％后，评价指标基本达到稳定，但部分指标，如CIDEr值呈波动上升状态，说明基于GRU的注意力机制能够在一定程度上提高算法性能，但是对于不同的影像，注意力机制的选择和表达能力也略有不同。

为直观展示GRU注意力机制的实际效果，从测试集中随机选取部分生成结果，如图8所示：

图8(a)-(f)展示了基于GRU注意力机制的遥感影像语义理解与文本生成算法的部分结果，英文描述为文本生成的结果。可以发现，引入GRU注意力机制后，算法能够在准确获取目标信息的基础上，进一步关注到目标和场景之间的位置关系，在图8(a)机场、图8(c)桥梁、图8(b)棒球场等类型的遥感影像中均有较好表现。但是也不乏一些描述不够充分的影像，如图8(d)和图8(f)，只生成了教堂、停车场两个典型目标和区域的描述，并未对相对位置关系以及周边物体进行详细描述。此外还有个别结果因为目标特征不显著，导致算法生成了错误的描述，如图8(e)所示，因该建筑特征不够显著，错把篮球场识别为操场。

为进一步评价注意力机制对目标和场景之间是否建立了充分的描述，除客观评价指标外，通过人工判读测试集中每张遥感影像和对应的描述语句，在主观标准上对生成的语句进行评价，按照三个层次对每个数据集进行评判：能够准确找出目标并建立与场景之间的关系记为Great；能够找出目标，但无法充分表达目标和场景之间的关系记为Normal；目标识别错误或者建立了错误的关系记为Poor，主观评价结果如表4所示：

表4 主观评价结果

可以发现，本算法能够对约70％的遥感影像生成准确详细的描述，约20％的影像虽然能够准确识别出目标，但是无法建立目标和场景之间的关系，约10％的影像目标识别结果有误。主观评价虽然整体上能够表明算法的效果，但是由于数据集中不同类别的场景评价标准无法完全统一，因此该评价结果对不同的判读人会略有出入。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于GRU注意力的遥感影像区域关注及文本生成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于GRU注意力的遥感影像区域关注及文本生成方法，其特征在于，所述GRU注意力网络遵循以下公式：

所述LSTM语言网络遵循以下公式：

其中，

和

分别代表GRU注意力网络t时刻的输入和隐状态，

表示GRU注意力网络t-1时刻的隐状态，

和

分别代表LSTM语言网络t时刻的输入和隐状态，

表示LSTM语言网络t-1时刻的隐状态；

GRU注意力网络满足以下公式：

该式表示，GRU注意力网络的输入

由三部分组成，分别是：(t-1)时刻LSTM语言网络的隐状态

输入特征图的平均池化特征

和已生成单词的编码W_dΠ_t。

3.根据权利要求2所述的一种基于GRU注意力的遥感影像区域关注及文本生成方法，其特征在于，所述GRU注意力网络中对特征图的权重计算公式为：

α_i,t＝Softmax(m_i,t)

其中，α_i，t为特征图中的关注度权重，

表示GRU注意力网络t时刻的隐状态，

表示t时刻平均池化了的特征图；

式中，p_θ表示单词采样过程中的模型参数，

指损失函数中的条件分布，其中的

和

均指代本模型中输入数据集描述的单词序列。

4.根据权利要求3所述的一种基于GRU注意力的遥感影像区域关注及文本生成方法，其特征在于，所述GRU注意力网络的计算单元中，通过计算重置门R_t和候选状态

重置门R_t的计算如下：

R_t＝σ(W_RX_t+U_RH_t-1+b_R)

此时候选状态

如下：

更新门Z_t和当前状态H_t的关系如下：

Z_t＝σ(W_ZX_t+U_ZH_t-1+b_Z)

中接收新信息；

此时的状态H_t计算如下：

上式表示了GRU注意力网络的当前状态；

H_t＝Z_t⊙H_t-1+(1-Z_t)⊙tanh(W_HX_t+U_H(R_t⊙H_t-1)+b_H)

此时，GRU注意力网络的输出Y_t表示如下：

Y_t＝σ(W·H_t)

5.根据权利要求1所述的一种基于GRU注意力的遥感影像区域关注及文本生成方法，其特征在于，解码器中每个GRU注意力网络和LSTM语言网络构成一个文本生成单元，在每个文本生成单元，前一时刻LSTM语言网络的隐状态，输入特征图的平均池化特征，前一个文本生成单元生成单词的编码共同作为GRU注意力网络的输入，GRU注意力网络经过计算获得每个预选区域的权重，再经过LSTM语言网络对特征解码，经过函数后生成每个单词，并将该单词和用于决定文本描述起始和终止的状态作为下一个GRU注意力网络的输入；循环往复，直到生成最后一个单词。