CN111126282A

CN111126282A - 一种基于变分自注意力强化学习的遥感图像内容描述方法

Info

Publication number: CN111126282A
Application number: CN201911352556.6A
Authority: CN
Inventors: 周勇; 沈祥清; 赵佳琦; 夏士雄; 马丁; 姚睿; 刘兵; 杜文亮
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08
Anticipated expiration: 2039-12-25
Also published as: CN111126282B

Abstract

本发明公开了一种基于变分自注意力强化学习的遥感图像内容描述方法，属于计算机视觉和自然语言处理的交叉领域；包括：使用遥感图像分类数据集，预训练融合变分自编码器的卷积神经网络；使用预训练的卷积神经网络提取遥感图像的空间特征和语义特征；使用自注意力使空间特征融合上下文信息；使用遥感图像内容描述数据集，使用Transformer解码空间特征和语义特征，融合特征，输出遥感图像内容的文本描述；使用强化学习提升文本描述质量。本发明利用遥感图像分类数据集，融合变分自编码器进行卷积神经网络预训练，使用自注意力机制，特征融合，强化学习，优化了遥感图像内容描述文本的质量。

Description

一种基于变分自注意力强化学习的遥感图像内容描述方法

技术领域

本发明涉及遥感图像处理技术和自然语言生成技术领域，尤其涉及一种基于变分自注意力强化学习的遥感图像内容描述方法。

背景技术

遥感是一种非接触、远距离的探测技术。一般来说，它是用来探测和识别目标物体本身通过传感器发射或反射的电磁波、红外线和可见光。随着遥感技术的飞速发展，特别是近年来高分辨率遥感影像的出现，这项技术已成为及时进行全球或区域地球观测的重要手段。遥感影像的规模也在逐步扩大，影像内容提供的信息也越来越丰富。

图像内容描述的目标是生成给定图像内容的文本描述，在机器理解图像内容上有很重要的地位。传统的图像内容描述模型由编码器和解码器组成。编码器选择卷积神经网络提取图像的特征，解码器选择长短期记忆网络生成图像内容的文本描述。遥感图像内容描述作为图像内容描述的重要组成部分，可以利用机器提升遥感图像的效率，目前已经越来越受到人们的重视。

传统的图像内容描述方法应用在遥感图像上仍存在问题。现有的模型大多关注于遥感图像本身的特征提取，忽视了卷积神经网络更高层的语义信息以及语义信息所表示的空间信息中各个物体之间的联系，而这对遥感图像内容的理解是至关重要的。遥感图像有独特的特点，相比于自然图像内容描述，遥感图像独有的上帝视角使得图像本身容易失去焦点，在文本内容的生成阶段更加困难。

目前很多模型采用的长短期记忆网络有很大的局限性。在建模长文本的文本特征时，由于长短期记忆网络本身架构的局限性，很容易造成长文本前方的信息损失。引入门机制和注意力机制只能减缓此问题。另外，长短期记忆网络处理下一阶段的输出依赖上一阶段的结果，这导致长短期记忆网络无法并行训练，影响了训练效率。

文本生成任务上损失函数通常基于语言模型构建，选择交叉熵函数。而在评价模型性能时，选择的是人们手动设计的各种评判标准。这就导致了训练阶段和测试阶段的不匹配问题，训练时的性能并不能完全反映测试时的性能。

针对上述问题，有研究者们给出了改进。Transformer作为一个被最新提出的架构，已经被证明在多项任务上可以取代长短期记忆网络获得更好的文本特征建模性能。与此同时，Transformer独特的自注意力机制减缓了长文本建模的信息衰减问题，完全避免了长短期记忆网络无法并行训练的问题。也有研究者将强化学习引入到文本生成，使用文本生成的评价标准作为奖励函数，在传统的训练阶段完成过后使用强化学习提高模型生成的文本的质量。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于变分自注意力强化学习的遥感图像内容描述方法，在遥感图像分类数据集上预训练编码器，编码器采用卷积神经网络，并且添加了变分自编码器提升了卷积神经网络的性能。使用训练之后的卷积神经网络提取语义特征和空间特征，执行自注意力机制之后，输入到解码器中。解码器采用微调网络结构的Transformer，输出原始的遥感图像描述内容之后使用自评判序列训练提升生成文本的质量。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：

一种基于变分自注意力强化学习的遥感图像内容描述方法，包括如下步骤：

步骤一，融合变分自编码器和卷积神经网络，构建遥感图像内容描述编码器；构建遥感图像分类数据集，并使用该数据集预训练遥感图像内容描述编码器；

步骤二，构建遥感图像内容描述解码器，输入遥感图像内容描述编码器编码得到的特征至解码器，融合解码器解码的特征，输出遥感图像内容描述文本；

步骤三，使用基于强化学习的自评判序列训练(Self-Critical SequenceTraining)作为解码器参数更新策略，使用选定的语言质量评价指标(默认为CIDEr)作为奖励，提升文本描述质量，得到优化后的遥感图像内容描述网络；

步骤四，使用优化后的遥感图像内容描述网络，输出遥感图像内容描述文本。

进一步，所述步骤一，构建遥感图像内容描述编码器，具体包括如下步骤：

1-1，使用在ImageNet上预训练的卷积神经网络作为内容描述编码器的骨架网络；构建遥感图像分类数据集，包含遥感图像和对应的类别；根据构建的数据集的类别数目，修改卷积神经网络的全连接层，使其输出的维度适应遥感图像分类数据集的类别数目；

1-2，获得卷积神经网络的自适应池化层输出，在自适应池化层之后对称于自适应池化层之前的网络层结构添加变分自编码器；

1-3，使用遥感图像分类数据集预训练融合变分自编码器的卷积神经网络，得到训练后的卷积神经网络；

1-4，使用训练好的卷积神经网络获得遥感图像的语义特征和空间特征，在空间特征上执行自注意力机制，使空间特征融合上下文信息，将语义特征和融合上下文信息的空间特征输入到解码器。

进一步，所述步骤1-1，具体包括：删除骨架卷积神经网络结构中适应于ImageNet分类标准的全连接层；添加适应于已构建的遥感图像分类数据集分类标准的全连接层和柔性最大值层。

进一步，所述步骤1-2，变分自编码器网络包含反卷积层、堆正则化、激活函数，其架构为卷积神经网络自适应池化层之前全部网络层的镜像架构。

进一步，所述步骤1-3，具体包括如下：

1-3-1，将构建好的遥感图像分类数据集以一定的比例分割为训练集和验证集；将训练集作为融合变分自编码器的卷积神经网络的输入，网络的输出包含当前输入遥感图像的分类类别和变分自编码器对当前输入遥感图像进行还原的图像；

1-3-2，使用交叉熵损失、均方误差和KL散度的加和作为损失函数，均方误差和KL散度的系数作为超参数(默认为0.1)；交叉熵损失描述预测标签和真实标签的误差，均方误差描述变分自编码器还原的遥感图像和输入遥感图像的误差，KL散度描述变分自编码器中间特征概率分布和输入遥感图像特征概率分布的误差；

1-3-3，使用亚当优化器优化融合变分自编码器的卷积神经网络的参数，得到训练后的卷积神经网络。

进一步，所述步骤1-3-3，网络的训练策略如下：每在训练集上训练一个周期，在验证集上计算当前网络的遥感图像分类精度和分类损失；分类精度为当前网络在验证集上进行遥感图像分类的准确率，分类损失为当前网络在验证集上的损失函数的数值；

在分类损失停止下降的周期超过预先设定的阈值时(默认为2)，降低亚当优化器的学习率，继续训练；在分类精度停止上升的周期超过预先设定的阈值时(默认为5)，停止训练，并保存融合变分自编码器的卷积神经网络的参数。

进一步，所述步骤1-4，具体包括如下：

1-4-1，构建遥感图像内容描述数据集，包含遥感图像和对应的遥感图像内容描述；

1-4-2，利用步骤1-3得到的融合变分自编码器的卷积神经网络，加载网络参数，删除网络的变分自编码器部分，只保留卷积神经网络部分；

1-4-3，使用遥感图像内容描述数据集中的遥感图像作为输入，使用卷积神经网络中不包含最后一层的任意一层全连接层作为输入遥感图像的语义特征，使用卷积神经网络的自适应池化层作为输入遥感图像的空间特征；

1-4-4，在步骤1-4-3获得的遥感图像的空间特征上执行自注意力机制，使空间特征中的每一个子空间融合其余子空间的特征信息，获得融合上下文信息的空间特征表示；

1-4-5，将语义特征和融合了上下文信息的空间特征输入至解码器。

进一步，所述步骤二，构建遥感图像内容描述解码器，输出遥感图像内容描述文本，包括如下步骤：

2-1，使用Transformer作为遥感图像内容描述解码器，Transformer子模块的数量可以任意指定(默认为6)；

2-2，调整Transformer的网络结构，添加Dropout，缓解在遥感图像内容描述数据集规模达不到预期的情况下的过拟合问题；添加残差连接，缓解深度神经网络的梯度消失问题并且加速模型的收敛；

2-3，在Transformer输出的文本特征上做自适应的特征融合；

2-4，使用Transformer解码融合之后的文本特征，采用交叉熵损失函数，训练Transformer，输出原始的遥感图像内容的文本描述。

进一步，所述步骤2-2，具体为：在Transformer的子模块的每一层之后添加Dropout；在Transformer的相邻的子模块之间添加残差连接。

进一步，所述步骤2-3，具体为：获得Transformer的每一个子模块的输出；在Transfomer中的每一个子模块的输出之前设定权重，限制所有子模块的权重之和为1，将此权重作为Transfomer的训练参数；使用训练结束得到的权重计算Transformer全部子模块输出的加权线性输出，作为最终输出的文本特征。

进一步，所述步骤三，具体包括如下：

3-1，删除步骤2-4所述原始的交叉熵损失函数，使用基于强化学习的自评判序列训练作为新的参数更新策略，强化学习的奖励值为自评判序列训练输出的遥感图像内容描述的文本质量评价指标(默认为CIDEr)；

3-2，自评判序列训练的更新策略为最小化负期望奖励值，负期望奖励值表示如下：

其中θ为调整网络结构之后的Transformer的训练参数，W^s为当前生成文本，s和p_θ表示对于当前生成文本中的每一个单词，选择当前最佳单词的概率并非100％，而是以概率p_θ在词表中随机采样，r(*)为当前生成文本的CIDEr评价标准；

3-3，输出自评判序列训练优化后的遥感图像内容描述。

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：

本发明提供的基于变分自注意力强化学习的遥感图像内容描述方法，可以有效利用变分自编码器提高卷积神经网络的特征提取功能，得到更有助于生成文本描述内容的图像表示。将卷积神经网络编码得到的空间特征信息作自注意力操作，帮助每一个空间融合其周围空间的上下文信息，得到更加优化的空间特征信息表示。将优化后的空间特征和语义特征输入到以Transformer为基础架构的解码器中。在Transformer中添加了额外的残差连接，Dropout和特征融合，可以提升生成文本的质量，更好的减缓生成文本过程中的信息损失。最后采用的自评判序列训练可以进一步有效提升输出的文本描述内容的质量，优化了本网络的性能。

附图说明

图1是本发明的网络结构图；

图2是本发明的方法步骤图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明所述的一种基于变分自注意力强化学习的遥感图像内容描述方法，如图1和图2所示，具体步骤如下：

步骤一、构建遥感图像内容描述编码器

(11)使用在ImageNet上预训练的卷积神经网络作为内容描述编码器的骨架网络；构建遥感图像分类数据集，包含遥感图像和对应的类别；根据构建的数据集的类别数目，修改卷积神经网络的全连接层，使其输出的维度适应遥感图像分类数据集的类别数目；具体包括：

(111)删除骨架卷积神经网络结构中适应于ImageNet分类标准的全连接层；

(112)添加适应于已构建的遥感图像分类数据集分类标准的全连接层和柔性最大值层。

(12)获得卷积神经网络的自适应池化层输出，在自适应池化层之后对称于自适应池化层之前的网络层结构添加变分自编码器；

所述变分自编码器网络包含反卷积层、堆正则、激活函数，其架构为卷积神经网络自适应池化层之前全部网络层的镜像架构。

(13)使用遥感图像分类数据集预训练融合变分自编码器的卷积神经网络，得到训练后的卷积神经网络；具体包括：

(131)将构建好的遥感图像分类数据集以一定的比例分割为训练集和验证集；将训练集作为融合变分自编码器的卷积神经网络的输入，网络的输出包含当前输入遥感图像的分类类别和变分自编码器对当前输入遥感图像进行还原的图像；

(132)使用交叉熵损失、均方误差和KL散度的加和作为损失函数，均方误差和KL散度的系数作为超参数；交叉熵损失描述预测标签和真实标签的误差，均方误差描述变分自编码器还原的遥感图像和输入遥感图像的误差，KL散度描述变分自编码器中间特征概率分布和输入遥感图像特征概率分布的误差；

(133)使用亚当优化器优化融合变分自编码器的卷积神经网络的参数，得到训练后的卷积神经网络。网络的训练策略如下：每在训练集上训练一个周期，在验证集上计算当前网络的遥感图像分类精度和分类损失；分类精度为当前网络在验证集上进行遥感图像分类的准确率，分类损失为当前网络在验证集上的损失函数的数值；

在分类损失停止下降的周期超过预先设定的阈值时，降低亚当优化器的学习率，继续训练；在分类精度停止上升的周期超过预先设定的阈值时，停止训练，并保存融合变分自编码器的卷积神经网络的参数。

(14)使用训练好的卷积神经网络获得遥感图像的语义特征和空间特征，在空间特征上执行自注意力机制，使空间特征融合上下文信息，将语义特征和融合上下文信息的空间特征输入到解码器。

(141)构建遥感图像内容描述数据集，包含遥感图像和对应的遥感图像内容描述；

(142)利用步骤(13)得到的卷积神经网络，加载网络参数，删除网络的变分自编码器部分，只保留卷积神经网络部分；

(143)使用遥感图像内容描述数据集中的遥感图像作为输入，使用卷积神经网络中不包含最后一层的任意一层全连接层作为输入遥感图像的语义特征，使用卷积神经网络的自适应池化层作为输入遥感图像的空间特征；

(144)在步骤(143)获得的遥感图像的空间特征上执行自注意力机制，使空间特征中的每一个子空间融合其余子空间的特征信息，获得融合上下文信息的空间特征表示；

(145)将语义特征和融合了上下文信息的空间特征输入至解码器。

步骤二、构建遥感图像内容描述解码器

(21)使用Transformer作为遥感图像内容描述解码器，Transformer子模块的数量可以任意指定；

(22)调整Transformer的网络结构，在Transformer的子模块的每一层之后添加Dropout，缓解在遥感图像内容描述数据集规模达不到预期的情况下的过拟合问题；在Transformer的相邻的子模块之间添加残差连接，缓解深度神经网络的梯度消失问题并且加速模型的收敛；

(23)在Transformer输出的文本特征上做自适应的特征融合；具体为：获得Transformer的每一个子模块的输出；在Transfomer中的每一个子模块的输出之前设定权重，限制所有子模块的权重之和为1，将此权重作为Transfomer的训练参数；使用训练结束得到的权重计算Transformer全部子模块输出的加权线性输出，作为最终输出的文本特征；

(24)使用Transformer解码融合之后的文本特征，采用交叉熵损失函数，训练Transformer，输出原始的遥感图像内容的文本描述。

步骤三、使用自评判序列训练(Self-Critical Sequence Training)提升文本描述质量

(31)删除步骤(24)所述原始的交叉熵损失函数，使用基于强化学习的自评判序列训练作为新的参数更新策略，强化学习的奖励值为自评判序列训练输出的遥感图像内容描述的文本质量评价指标，本实施例中，使用生成文本的CIDEr评价标准作为奖赏值；

(32)自评判序列训练的更新策略为最小化负期望奖励值，负期望奖励值表示如下：

(33)输出自评判序列训练优化后的遥感图像内容描述。

步骤四、使用优化后的遥感图像内容描述网络，输出遥感图像内容描述文本

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于变分自注意力强化学习的遥感图像内容描述方法，其特征在于：该方法包括如下步骤：

步骤三，使用基于强化学习的自评判序列训练作为解码器参数更新策略，使用选定的语言质量评价指标作为奖励，提升文本描述质量，得到优化的遥感图像内容描述网络；

2.根据权利要求1所述的基于变分自注意力强化学习的遥感图像内容描述方法，其特征在于：所述步骤一，具体包括如下步骤：

3.根据权利要求2所述的基于变分自注意力强化学习的遥感图像内容描述方法，其特征在于：所述步骤1-1，具体包括：删除骨架卷积神经网络结构中适应于ImageNet分类标准的全连接层；添加适应于已构建的遥感图像分类数据集分类标准的全连接层和柔性最大值层。

4.根据权利要求2所述的基于变分自注意力强化学习的遥感图像内容描述方法，其特征在于：所述步骤1-2，变分自编码器网络包含反卷积层、堆正则化、激活函数，其架构为卷积神经网络自适应池化层之前全部网络层的镜像架构。

5.根据权利要求2所述的基于变分自注意力强化学习的遥感图像内容描述方法，其特征在于：所述步骤1-3，具体包括如下：

1-3-2，使用交叉熵损失、均方误差和KL散度的加和作为损失函数，均方误差和KL散度的系数作为超参数；交叉熵损失描述预测标签和真实标签的误差，均方误差描述变分自编码器还原的遥感图像和输入遥感图像的误差，KL散度描述变分自编码器中间特征概率分布和输入遥感图像特征概率分布的误差；

6.根据权利要求5所述的基于变分自注意力强化学习的遥感图像内容描述方法，其特征在于：所述步骤1-3-3，网络的训练策略如下：每在训练集上训练一个周期，在验证集上计算当前网络的遥感图像分类精度和分类损失；分类精度为当前网络在验证集上进行遥感图像分类的准确率，分类损失为当前网络在验证集上的损失函数的数值；

7.根据权利要求2所述的基于变分自注意力强化学习的遥感图像内容描述方法，其特征在于：所述步骤1-4，具体包括如下：

8.根据权利要求1-7任一所述的基于变分自注意力强化学习的遥感图像内容描述方法，其特征在于：所述步骤二，构建遥感图像内容描述解码器，输出遥感图像内容描述文本，包括如下步骤：

2-1，使用Transformer作为遥感图像内容描述解码器，Transformer子模块的数量可以任意指定；

2-3，在Transformer输出的文本特征上做自适应的特征融合；

9.根据权利要求8所述的基于变分自注意力强化学习的遥感图像内容描述方法，其特征在于：所述步骤2-2，具体为：在Transformer的子模块的每一层之后添加Dropout；在Transformer的相邻的子模块之间添加残差连接；

所述步骤2-3，具体为：获得Transformer的每一个子模块的输出；在Transfomer中的每一个子模块的输出之前设定权重，限制所有子模块的权重之和为1，将此权重作为Transfomer的训练参数；使用训练结束得到的权重计算Transformer全部子模块输出的加权线性输出，作为最终输出的文本特征。

10.根据权利要求8所述的基于变分自注意力强化学习的遥感图像内容描述方法，其特征在于：所述步骤三，具体包括如下：

3-1，删除步骤2-4所述交叉熵损失函数，使用基于强化学习的自评判序列训练作为新的解码器参数更新策略，强化学习的奖励值为自评判序列训练输出的遥感图像内容描述的文本质量评价指标；

其中θ为调整网络结构之后的Transformer的训练参数，W^s为当前生成文本，s和p_θ表示对于当前生成文本中的每一个单词，以概率p_θ在词表中随机采样，r(*)为当前生成文本的CIDEr评价标准；

3-3，输出自评判序列训练优化后的遥感图像内容描述。