CN110347857B

CN110347857B - 基于强化学习的遥感影像的语义标注方法

Info

Publication number: CN110347857B
Application number: CN201910491117.7A
Authority: CN
Inventors: 崔巍; 姚勐; 何新; 王梓溦; 郝元洁; 赵慧琳; 杨卓琳; 陈先锋; 殷子健; 汤敏
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2020-12-01
Anticipated expiration: 2039-06-06
Also published as: CN110347857A

Abstract

本发明提供一种基于强化学习的遥感影像语义标注方法，包括如下几个步骤：数据获取；数据预处理；切割影像数据；制作样本集标注；构建强化学习网络模型；设置训练参数；选取训练集、验证集；使用训练集训练视觉语义嵌入网络；使用训练集训练value网络；使用训练集训练policy网络；使用训练集联合训练policy、value网络；使用验证集进一步优化网络参数；验证模型效果。本发明的目的就是将计算机视觉领域与遥感领域相结合，以强化学习的理念为基础对传统的VGG接GRU模型进行改进，进而解决传统方法的大样本量、训练周期长的问题，同时利用强化学习中实时反馈的机制可以减少目前遥感中难以解决的“同物异谱”、“异物同谱”问题对精度的影响。

Description

基于强化学习的遥感影像的语义标注方法

技术领域

本发明涉及到图像分类及图像标注领域，具体而言是在高分辨率遥感影像中，对于影像中对象的空间关系识别以及语义描述。

背景技术

图像标注近年来成为了计算机视觉领域的研究热门。同时，能够实现精确的图像分类也是提升图像标注精度的关键。在深度学习领域，对于自然场景下的图像分类任务和图像标注任务也都有了较为完善的算法。在众多算法模型中，VGG16作为图像分类中较为经典的模型一般运用于目标对象特征提取中，同时GRU网络也是图像语义标注中常用的网络。将VGG16与GRU相结合的思路是图像分类及语义标注的常用模型。

本次研究主要是基于高分辨率遥感影像的语义标注任务，与常规图像标注任务不同的是遥感影像中存在着更为复杂的对象以及对象空间关系，由于其本身的复杂性，使用常规的VGG16接GRU模型存在着以下的问题：

其一，遥感影像中存在着复杂的对象，一张影像图片中会存在同类地物有多个对象且这些对象与周围的空间关系也不同，确定区分影像中的对象是遥感影像语义标注的关键。而传统的模型适用于自然影像，影像中对象较少，影像复杂度远不如遥感影像。因此将传统模型用于遥感影像语义标注效果达不到要求。

其二，传统的VGG16接GRU模型每次的训练迭代需要是整个网络输出最后时刻单词生成完整句子时才能开始参数调整的操作。因此，模型训练的动态调整参数的性能不高，使得模型训练需要更多的迭代次数，更长的时间。

其三，传统VGG16接GRU的模型需要大量的样本。制作样本的过程中需要对影像手动添加标签，遥感影像本身较其他图片更为复杂，因此在添加标签时需要耗费更多的时间。

其四，遥感影像中存在着“异物同谱”现象，不同对象可能存在着形状纹理特征近似的现象，使得其图像特征差异性很小，不利于对对象进行分类，使用传统的VGG16接GRU模型不能减少该问题带来的误差。

发明内容

本发明的目的是在基于强化学习模型的基础上对传统的VGG16接GRU的图像语义标注模型进行改进，结合图像分类算法实现其对多对象、关系复杂的高分遥感影像进行语义标注的任务。高分遥感影像与一般的影像不同，存在着对象多、关系复杂的现象，同时影像中也存在着不同类别之间特征差异小的现象，使得图像分类的难度提高。目前，将传统的自然场景下图像分类以及语义标注模型运用于遥感影像很少有人涉猎，更不用提传统模型运用于遥感影像的优化算法了。因此，将传统VGG16接GRU模型直接运用的效果并不理想。此外，遥感影像本身的复杂性，网络训练需要更多的样本，使得制作样本的压力增大。在深度学习领域，强化学习方法也是研究的热点。强化学习的优势在于可以通过输入与样本之间产生的反馈数值动态调整参数，学习了反馈机制就可以用于网络训练，代替了传统的给样本贴标签的方法，从而能够减少样本量。于是，本次发明就是在计算机视觉领域图像语义标注技术的基础上，使用强化学习方法与传统的遥感影像分类方法相结合的模式，可以减少模型训练中所需的样本数量，完成遥感影像的自动标注任务，将计算机视觉与遥感影像分类方法跨学科结合，将语义标注从自然场景的简单对象扩展到复杂的遥感影像中。

为了实现上述目的，本发明将预处理的高分辨率遥感影像作为输入数据，进行基于强化学习的高分辨率遥感影像语义标注方法的研究，具体的研究过程如下：

步骤S1，数据获取：获取研究地段的高分辨率遥感影像；

步骤S2，数据预处理：对已经获取的高分辨率遥感数据进行预处理，包括几何校正、大气校正、裁剪处理；

步骤S3，切割影像数据：通过对原始影像的分析，确定影像切割的尺度，即单个样本数据的大小，用掩膜提取的方法将数据从原始影像中切割出来，将切割出来的样本以ID加影像格式后缀名的形式保存，所有切割完的样本成为一个样本集；

步骤S4，制作样本集的标注：按照样本ID添加标注，即为描述样本内容的句子；

步骤S5，构建强化学习网络模型：构建的网络模型包括policy网络、value网络、嵌入网络三个网络；其中policy网络用于在每个时刻输出下一时刻出词的候选列表以及列表中各词的概率；嵌入网络用来训练样本影像对应样本标注语句的reward；value网络用于输出一个候选列表以及列表中各词的value值(表示词汇与图像的关联性)；

步骤S6，设置训练参数：设置VGG16网络的batch_size、学习率、迭代次数、词汇表大小、保存路径；对于GRU网络而言，参数初始化采用随机初始化方法；

步骤S7，选取训练集、验证集：将样本集按比例分为训练集和验证集；

步骤S8，使用训练集训练嵌入网络：输入样本影像及对应的标注语句，训练句子与图像的reward值，当嵌入网络训练完成后输入标注语句与样本影像得到的reward值最高(即生成句子越接近标注语句，reward值越大)，此时嵌入网络可以最大程度上判断句子与图像的相似度，训练完成嵌入网络加以保存；

步骤S9，使用训练集训练value网络：将影像样本及对应的标注语句输入value网络，最后输出value值，与嵌入网络输出reward值的误差进行参数优化，训练完成value网络加以保存；

步骤S10，使用训练集训练policy网络：将样本影像及其对应的标注语句输入policy网络，通过优化输出值与标签值的loss函数优化参数，训练完成policy网络加以保存；

步骤S11，使用训练集联合训练policy、value网络：导入步骤S9、S10训练完成的value与policy网络参数，输入样本影像，联合policy网络输出的概率值以及value网络输出的value值，将整个出词的过程视为部分可观测马尔可夫决策，使用强化学习的方式联合训练policy和value网络，使用策略梯度函数调整两个网络的参数，更新并保存最终训练完的模型；

步骤S12，使用验证集进一步优化网络参数：读取训练完成的policy、value网络，输入样本数据，调整输出结果与标签数据之间的误差，并更新网络参数进行下次训练，迭代至误差曲线稳定时模型训练完成，保存训练模型。

进一步的，步骤S5中的嵌入网络为VGG16接GRU的模式，输出影像对应标签的reward；policy网络为VGG16加上GRU的模式；value网络为VGG16、GRU、3层MLP相结合的结构。

进一步的，步骤S8中使用训练集训练嵌入网络的具体实现方式为，

首先是VGG16部分，使用训练集样本影像进行训练，将样本影像经过5个卷积层、5个降采样层，提取出影像特征，特征经过全连接层输出特征向量；然后是GRU部分，将前面提取出的影像特征输入GRU网络，将网络生成的句子与标注语句通过误差函数计算误差，从而调整参数；训练完成后，输入影像，将GRU网络的输出与VGG16全连接层的输出进行cosine相似度计算，从而得到reward值。

进一步的，步骤S9中使用训练集训练value网络的具体实现方式为，

首先样本影像经过5个卷积层、5个降采样层，提取出影像特征，特征经过全连接层输出特征向量；然后将前面提取出的影像特征输入GRU网络，输出隐藏层状态(向量)，与全连接层输出的特征向量进行连接，输入MLP，将MLP输出值与影像对应的reward值(嵌入网络输出)通过误差函数计算误差，从而调整参数；完成训练后，输入影像，网络每一时刻GRU的隐藏状态都会经过MLP输出value值。

首先将样本影像经过5个卷积层、5个降采样层，提取出影像特征，然后将提取出的影像特征输入GRU网络，将GRU网络生成的句子与标注语句进行对比，通过误差函数计算误差，从而调整参数；完成训练后，输入影像，网络每一时刻都会输出该时刻对应单词在词汇表中的分布概率。

与现有技术相比，本发明的优点和有益效果：

1、本发明将传统VGG16接GRU模型与强化学习方法相结合，可以用于特征复杂的遥感影像；

2、与传统方法在模型生成完整句子后开始调整参数不同，强化学习的方法可以在生成句子的过程中每一时刻生成单词都可以进行参数调整，从而提升了模型运行效率；

3、视觉语义嵌入网络通过训练影像和标注语句相似度，可以将输入影像转化为reward值，可以减少样本制作的压力，解决传统网络在样本制作上的高耗时的问题；

4、结合传统方法提取影像特征解译的模式与强化学习训练时动态调整参数的方法，使网络可以更精确的提取特征，从而减少“异物同谱”带来的影响；

附图说明

图1为本发明实施例流程图。

图2为本发明实施例中网络模型结构图。

图3为本发明实施例中VGG16网络结构图。

图4为本发明实施例中GRU结构图。

图5为本发明实施例中3层MLP结构图。

图6为本发明实施例中嵌入层网络结构图。

图7为本发明实施例中value网络结构图。

图8为本发明实施例中policy网络结构图。

图9为本发明实施例中视觉语义嵌入层网络的训练流程图。

图10为本发明实施例中value网络的训练流程图。

图11为本发明实施例中policy网络的训练流程图。

图12为本发明实施例中联合训练policy、value网络的流程图。

图13为本发明实施例中输出结果示例。

具体实施过程

下面结合具体的实例和附图对本发明进行进一步地说明。

如图1所示，一种基于强化学习的遥感影像的语义标注方法，包括如下步骤：

步骤S1，数据获取：获取本方法中的高分辨率遥感影像，选用的是2009年武汉市光谷区域分辨率为0.6m的QuickBird遥感影像。

步骤S2，数据预处理：对已经获取的遥感影像进行预处理，具体操作包括几何校正、大气校正、裁剪处理等。

步骤S3，切割影像数据：结合遥感影像的分辨率以及影像分类的需求，确定样本框选择的大小为224*224，选择影像中的样本区域进行切割提取。在ArcMap中创建工具，导入python样本切割脚本文件，用掩膜提取的方式将样本数据从原始影像中提取出来，将切割出来的样本以ID加影像格式后缀名的形式保存，所有切割完的样本成为一个样本集。

步骤S4，制作样本集的标注：在Excel表格中，按照样本ID添加标注(即为描述样本内容的句子)，每个样本对应3个标注语句，3个句子要求尽量不同能够完整地描述图像内容。

步骤S5，构建强化学习网络模型：网络模型包括policy网络、value网络、嵌入网络三个网络，具体结构如图2所示。嵌入网络为VGG16接GRU的模式，输出图像对应标签的reward；policy网络为VGG16加上GRU的模式；value网络分为VGG、GRU、3层MLP三部分，需要用训练完成的嵌入网络进行辅助训练。最终，联合policy与value两部分确定下一时刻出词。现有的网络VGG16、GRU、MLP的结构分别如图3、4、5所示，VGG16的网络结构如表1所示。

表1 VGG16网络结构表

步骤S6，设置训练参数：模型中的VGG16网络可以直接调用预训练的vgg16.npy文件直接加载网络的各层参数，在solver.py文件中设置batch_size、学习率、迭代次数、词汇表大小、预训练模型保存路径等参数值。batch_size大小设定为40，学习率设定为1*10^-4，迭代次数设定为360次，词汇表大小设置为21(11个类别词及10个介词和连词)。对于GRU网络而言，参数初始化采用模型中自带的随机初始化方法。

步骤S7，选取训练集、验证集：将样本以3：1的比例随机划分为训练集和验证集，每个ID对应匹配这图片和句子，本次样本集中有800个样本，包括训练集中600个和验证集中200个。

步骤S8，使用训练集训练嵌入网络：输入样本影像及对应的标注语句，训练句子与图像的reward值，当嵌入网络训练完成后输入标注语句与图像得到的reward值最高(即生成句子越接近标注语句，reward值越大)，此时嵌入网络可以最大程度上判断句子与图像的相似度，训练完成网络加以保存。训练过程如图9所示，首先是VGG部分，使用训练集样本进行训练，将样本影像经过5个卷积层、5个降采样层，提取出影像特征，特征经过全连接层输出特征向量。然后是GRU部分，将前面提取出的影像特征输入GRU网络，将网络生成的句子与标注语句通过误差函数计算误差，从而调整参数。训练完成后，输入影像，将GRU网络的输出与VGG全连接层的输出进行cosine相似度计算，从而得到reward值。

步骤S9，使用训练集训练value网络：在训练value网络之前需要先完成嵌入网络的训练，然后读取训练完成的嵌入网络模型。将影像样本输入vgg16网络提取特征，将特征及影像对应的标注语句输入GRU，每一时刻输出隐藏层状态与特征连接后输入MLP输出value值，与嵌入网络输出reward值的进行最小均方差计算loss，进而优化参数，训练完成网络加以保存。Value网络如图7所示，训练过程如图10所示，首先将影像经过5个卷积层、5个降采样层，提取出影像特征，通过特征映射进行转为向量。然后将前面提取出的影像特征输入GRU网络，输出隐藏层状态(向量)，与上一步特征映射向量进行连接，输入MLP，将MLP输出值与影像对应的reward值(嵌入网络输出)通过误差函数计算误差，从而调整参数。完成训练后，输入影像，网络每一时刻GRU的隐藏状态都会经过MLP输出value值。

步骤S10，使用训练集训练policy网络：将样本影像及其对应的标注语句输入网络，与传统的VGG+LSTM网络一样，网络输出的是下一时刻出词对应词汇表中单词的概率分布表，通过优化输出值与标签值(即标注语句转化为多维数组后的值)进行交叉熵loss的计算，进而调整参数，训练完成网络加以保存。Policy网络结构如图8所示所示，训练过程如图11所示，首先将样本影像经过5个卷积层、5个降采样层，提取出影像特征。然后将前面提取出的影像特征输入GRU网络，将GRU网络生成的句子与标注语句进行对比，通过误差函数计算误差，从而调整参数。完成训练后，输入影像，网络每一时刻都会输出该时刻对应单词在词汇表中的分布概率。

步骤S11，使用训练集联合训练policy、value网络：导入步骤S9、S10训练完成的value与policy网络参数，输入样本影像，每一时刻的出词时需要联合policy网络输出的概率值以及value网络输出的value值，将整个出词的过程视为部分可观测马尔可夫决策，使用强化学习的方式联合训练policy和value网络，使用策略梯度函数结合了概率值和value值的同时调整两个网络的参数，更新并保存最终训练完的模型，如图12所示。

步骤S12，使用验证集进一步优化网络参数：读取训练完成的policy、value网络模型文件，输入样本数据，调整输出结果与标签数据之间的误差，并更新网络参数进行下次训练，迭代至误差曲线稳定时模型训练完成，保存训练模型。

步骤S13，验证模型效果：使用训练好的模型对训练集的数据进行输入，此时不用输入样本的标签数据，对模型输出的结果进行指标计算，对最终指标值进行统计，同时对比模型训练的输出与对应样本的标签语句(GT)进行对比，验证模型的有效性。

基于训练好的模型在验证集上的运行，最终根据所有样本最终计算的bleu1的平均值为0.563，进一步分析原始遥感影像和生成的描述语句之间的关系，发现大部分的描述语句能够较完整地描述影像信息，而传统的VGG接GRU网络模型对遥感影像标注时的bleu1值仅为0.4435，因此本发明方法在精度有了明显的提高。输出结果如图13所示，左边的影像为样本数据，Gt为人工给样本添加的描述语句，Our为模型的输出语句，结合影像与GT，可以看出该模型可以较好地描述影像中的类别对象以及空间关系。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.基于强化学习的遥感影像的语义标注方法，其特征在于，包括如下步骤：

步骤S1，数据获取：获取研究地段的高分辨率遥感影像；

步骤S5，构建强化学习网络模型：构建的网络模型包括policy网络、value网络、嵌入网络三个网络；其中policy网络用于在每个时刻输出下一时刻出词的候选列表以及列表中各词的概率；嵌入网络用来训练样本影像对应样本标注语句的reward；value网络用于输出一个候选列表以及列表中各词的value值；

步骤S5中的嵌入网络为VGG16接GRU的模式，输出影像对应标签的reward；policy网络为VGG16加上GRU的模式；value网络为VGG16、GRU、3层MLP相结合的结构；

步骤S8，使用训练集训练嵌入网络：输入样本影像及对应的标注语句，训练句子与图像的reward值，当嵌入网络训练完成后输入标注语句与样本影像得到的reward值最高，此时嵌入网络可以最大程度上判断句子与图像的相似度，训练完成嵌入网络加以保存；

2.如权利要求1所述基于强化学习的遥感影像的语义标注方法，其特征在于：步骤S8中使用训练集训练嵌入网络的具体实现方式为，

3.如权利要求2所述基于强化学习的遥感影像的语义标注方法，其特征在于：步骤S9中使用训练集训练value网络的具体实现方式为，

首先样本影像经过5个卷积层、5个降采样层，提取出影像特征，特征经过全连接层输出特征向量；然后将前面提取出的影像特征输入GRU网络，输出隐藏层状态与全连接层输出的特征向量进行连接，输入MLP，将MLP输出值与影像对应的reward值通过误差函数计算误差，从而调整参数；完成训练后，输入影像，网络每一时刻GRU的隐藏状态都会经过MLP输出value值。

4.如权利要求3所述基于强化学习的遥感影像的语义标注方法，其特征在于：步骤S10中使用训练集训练policy网络的具体实现方式为，