CN110334724A

CN110334724A - 基于lstm的遥感对象自然语言描述及多尺度矫正方法

Info

Publication number: CN110334724A
Application number: CN201910305182.6A
Authority: CN
Inventors: 崔巍; 张东友; 何新; 徐旭祥; 王飞; 姚勐; 詹云军; 黄解军; 陈先锋
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-04-16
Filing date: 2019-04-16
Publication date: 2019-10-15
Anticipated expiration: 2039-04-16
Also published as: CN110334724B

Abstract

本发明提供一种基于LSTM的遥感对象自然语言描述及多尺度矫正方法，对地物之间具备异物同谱特征的对象进行切割提取和尺度处理，划分两个样本集，分别做类别和图像内容的标注；构建LSTM的网络模型，由VGG网络模型和LSTM网络模型组成，在LSTM网络模型中加入语义机制；先使用随机样本训练集对VGG网络模型进行训练，然后用参数优化的VGG网络模型对均衡样本训练集进行训练，最后利用均衡样本验证集进行验证并将分类结果的误差矩阵输出加以保存，再用均衡样本训练集在LSTM网络模型上加以训练，在LSTM网络模型中迭代一定次数之后选取最为理想的LSTM网络模型加以保存。本发明能实现在遥感影像上的对具备异物同谱特征的影像对象进行对象分类和影像标注任务的多任务处理。

Description

基于LSTM的遥感对象自然语言描述及多尺度矫正方法

技术领域

本发明属于图像分类及图像标注领域，具体涉及一种基于LSTM的遥感对象自然语言描述及多尺度矫正方法。

背景技术

图像分类和图像标注都是计算机视觉领域目前开展的较为广泛与深入的两个研究范畴。同时，针对自然场景下的图像分类任务和图像标注任务也都有了很多较为成熟的算法。在众多的算法中，VGG19作为常规分类任务中较为经典的模型，同时LSTM网络被广泛用于图像标注任务。

由于遥感影像本身的复杂性及其特殊性，如果用传统的VGG19后接LSTM网络的模型结构来解决遥感影像分类及标注任务，必然存在常规自然场景下进行影像分类及影像标注所不存在的一些问题：

其一，在常规自然场景中进行对象分类时，由于目标彼此本身间差异大相似度小，因此利用分类模型进行分类时，对模型考验较小，分类结果较为理想，当前较为成熟的包括VGG19 在内的很多分类模型都可以解决这种自然场景的分类任务。然而在高分遥感影像中，不同的地物对象可能存在着相似的纹理特征，其影像特征相似度大差异性小，对于这种异物同谱的对象如何采用有效的方法进行分类是一个不同以往的难题。

其二，对于遥感影像来说，除了上述的存在对象间差异性小的异物同谱的问题之外，还存在一种特殊的空间尺度关系。在常规自然场景中，进行对象分类及图像标注任务时一般对单独的对象及单独的图像进行研究，但是对于遥感影像来说，对象的空间划分决定了其具备的不仅仅有类别特征还有大小尺度之间的语义信息特征，如大尺度的工业区和住宅区的信息肯定对于小尺度的单个对象分类存在一定的影像，如何将这种影响纳入网路模型中作为判别信息是另一个值得思索和解决之处。

其三，传统的图像标注任务一般采取的是使用VGG网络后接LSTM网络的模型结构，即从VGG19之后输出图像特征，然后将VGG19中第5个卷积层和图像label一起送入LSTM 网络。但是这样只能解决单一的图像标注的问题，而不能同时解决图像的分类问题，更无法将两个任务有机的统一并进行合理的分类结果校正和图像标注信息校正。

发明内容

本发明要解决的技术问题是：提供一种基于LSTM的遥感对象自然语言描述及多尺度矫正方法，能够实现在实际高分遥感影像上的对具备异物同谱特征的影像对象进行对象分类和影像标注任务的多任务处理过程。

本发明为解决上述技术问题所采取的技术方案为：一种基于LSTM的遥感对象自然语言描述及多尺度矫正方法，其特征在于：它包括以下步骤：

S1、数据获取：

获取研究地段分辨率大于或等于0.6m的遥感影像数据；

S2、数据预处理：

对获取的遥感影像数据进行预处理，包括几何校正、大气校正和裁剪处理；

S3、数据切割：

根据研究需求，对符合研究需求的地物之间具备异物同谱特征的对象进行切割提取，得到切割后的影像；

S4、数据尺度统一化：

根据VGG网络对输入图像的尺度要求，将切割后的影像进行尺度处理；

S5、样本集的标注制作：

对尺度处理后的影像，按照尺度大小划分到两个样本集，同时对两个样本集中的影像分别做类别标注和图像内容的标注；

S6、LSTM网络模型的构建：

在TensorFlow中构建LSTM的网络模型，LSTM网络模型整体由两个部分组成：VGG网络模型和LSTM网络模型，在LSTM网络模型中加入语义机制，语义机制中的语义信息为各个类的尺度类别标签；

S7、设定训练参数：

对于VGG网络模型，先使用VGG模型中原始的vgg19.npy模型文件来加载预训练的各个网络层的参数，然后设定学习率、迭代次数、batch_size大小；

对于LSTM网络模型，初始网络参数使用LSTM网络模型中的方法随机初始化，然后在训练之前设定网络学习率、迭代次数、batch_size大小；

S8、选取训练集和验证集：将S5得到的两个样本集的总样本个数按照一定的比例划分为训练集和验证集，由于实验中有对网络参数进行预训练和优化，因此对样本集第一次划分的时候是采用随机函数划分，得到随机样本训练集和随机样本验证集；对样本集第二次划分的时候，以相同的比例按照样本集本身的特征在整个样本集中顺序抽取均衡样本训练集和均衡样本验证集；同时对所述的标注也按照图像的训练集和验证集的划分对应划分为训练和验证；

S9、训练：

先使用所述的随机样本训练集对VGG网络模型进行训练，得到一套参数优化的VGG网络模型，然后用参数优化的VGG网络模型对均衡样本训练集进行训练，将训练后的VGG网络模型加以保存，对保存的训练后的VGG网络模型利用均衡样本验证集进行验证并将分类结果的误差矩阵输出加以保存，同时用样本集第二次划分的均衡样本训练集在S6步骤中构建的含有语义机制的LSTM网络模型上加以训练，将所述的分类结果的分类误差矩阵中的类别精度与对应类别向量相乘作为语义信息，然后加上样本图像对应的人工标注语句一起送进有语义机制的LSTM网络模型中进行训练，语义机制中的语义信息即是各个类的大尺度类别向量与其对应类别的精度相乘所得的结果，在LSTM网络模型中迭代一定次数之后选取其中最为理想的LSTM网络模型加以保存。

按上述方法，所述的S3，具体利用Arcmap工具结合手动添加的脚本文件将符合研究需求的影像从原始影像里面用掩膜提取的方式切割出来，切割按照研究需求用两种不同尺度的矢量框进行，切割后的影像以ID加影像格式后缀名来命名。

按上述方法，所述的S5中，所述的标注写在Excel表中。

按上述方法，所述的S8中，一定比例为训练集样本个数:验证集样本个数＝3:1。

本发明的有益效果为：以传统的LSTM算法模型为基础，以遥感科学的现实问题作为导向，将发明中对于实际问题所提出的解决算法用模型优化和改造的方式融入到原始的VGG 和LSTM网络中，以达到可以在同一个模型中实现对具备模糊特征的异物同谱对象的分类和语义标注任务，同时实现遥感对象中特有的尺度信息校正机制，引导遥感应用领域的影像分类和识别工作向更高的台阶迈步。

附图说明

图1为本发明一实施例的方法流程图。

图2为本发明整体网络模型图，S-LSTM为含有语义机制的LSTM网络。

具体实施方式

下面结合具体实例和附图对本发明做进一步说明。

S1、数据获取：

获取研究地段高分辨率(一般指分辨率大于或等于0.6m)的遥感影像数据；本实施例研究地段包括武汉市光谷地区、郑州市区以及杭州市区。其中武汉市光谷地区使用的是2009年 10月拍摄的武汉市光谷区域60cm分辨率的QuickBird遥感影像，而杭州市区和郑州市区则是采用的是Worldview-II遥感影像，其包含精度0.5米全色图像和精度为1.8米的多光谱图像。

S2、数据预处理：

对获取的遥感影像数据进行预处理，包括几何校正、大气校正和裁剪处理。

S3、数据切割：

根据研究需求，对符合研究需求的地物之间具备异物同谱特征的对象进行切割提取，得到切割后的影像；具体利用Arcmap工具结合手动添加的脚本文件将符合研究需求的影像从原始影像里面用掩膜提取的方式切割出来，切割按照研究需求用两种不同尺度的矢量框进行，切割后的影像以ID加影像格式后缀名来命名如：“0001.tif”来命名，最终将所有切割之后的影像作为两个大小尺度的样本集。

S4、数据尺度统一化：

根据VGG网络对输入图像的尺度要求，将切割后的影像进行尺度处理；利用python中用于图像处理的方法将切割后的影像进行尺度统一处理，每一张影像处理为224*224(224*224 个像素)的大小。

S5、样本集的标注制作：

对尺度处理后的影像，按照尺度大小划分到两个样本集，同时对两个样本集中的影像分别做类别标注和图像内容的标注，两种标注都是写在Excel表中，写样本标注时每一行第一列是单独每一张的图像名称，后面是用于VGG网络输入的类别label和用于LSTM输入的 caption。

S6、LSTM网络模型的构建：

在TensorFlow中构建LSTM的网络模型，LSTM网络模型整体由两个部分组成：VGG网络模型和LSTM网络模型，在LSTM网络模型中加入语义机制，语义机制中的语义信息为各个类的尺度类别标签；同时对VGG网络模型进行改造。

语义机制类似LSTM的记忆单元机制，语义机制将大尺度的类别信息作为语义信息加入到LSTM的输入中去，语义机制的实现思路如图2所示。同时对一个VGG19网络结构进行改造，即在VGG网络原始的19层后面加一层自定义的全连接层，完成对样本集的分类任务，改变后的VGG19网络模型和结构如图2和表1所示：

表1 VGG19网络结构图

S7、设定训练参数：

对于VGG网络模型，先使用VGG模型中原始的vgg19.npy模型文件来加载预训练的各个网络层的参数，然后设定学习率、迭代次数、batch_size大小；在跑训练用的均衡样本集前先使用随机样本集训练一下模型得到优化的参数，用于后续训练均衡样本集。

对于LSTM网络模型，初始网络参数使用LSTM网络模型中的方法随机初始化，然后在训练之前设定网络学习率、迭代次数、batch_size大小。

对于LSTM而言，设定为1*10^-4，迭代次数设定为60次，batch_size大小设定为40。对于学习率和batch_size在实验最开始并不是确定的这组值，而是经过多次实验调参选取出来在当前这组参数下模型的精度更高效果更好故取之。

S8、选取训练集和验证集：将S5得到的两个样本集的总样本个数按照一定的比例(3:1) 划分为训练集和验证集，由于实验中有对网络参数进行预训练和优化，因此对样本集第一次划分的时候是采用随机函数划分，得到(3/4的)随机样本训练集和(1/4的)随机样本验证集；本次样本集中包括了2400个总样本上，选取1800个样本作为训练集，600个样本作为验证集。对样本集第二次划分的时候，以相同的比例(3:1)按照样本集本身的特征在整个样本集中顺序抽取(3/4的)均衡样本训练集和(1/4的)均衡样本验证集；同时对Excel文件中的标注也按照图像的训练集和验证集的划分对应划分为训练和验证。即在Excel中单独加一列用以区分训练和验证，训练集样本即加train标签，验证集样本则加validate标签。

S9、训练：

下面采用两组参照训练，与本发明训练结果进行比较。

对训练集进行第一次参照训练：直接用均衡样本训练集的样本在原始的不做任何修改的 LSTM网络上进行训练，在迭代一定次数之后(例如80次)选取其中较为理想的模型加以保存。

对训练集进行第二次参照训练：先使用随机样本训练集对VGG网络模型进行训练，得到一套优化的VGG网络模型进行保存，然后用保存的VGG网络模型文件来对所述的均衡样本训练集进行训练，再利用均衡样本验证集进行验证，并将分类结果的误差矩阵输出加以保存，同时用均衡样本中的训练集的样本在修改后的含有语义机制的优化LSTM网络上加以训练，将分类结果的分类误差矩阵中的类别精度与对应类别向量相乘作为语义信息，然后加上样本图像对应的人工标注语句一起送进LSTM网络，语义机制中的语义信息即是各个类的大尺度类别标签，在LSTM网络迭代一定次数之后选取其中较为理想的模型加以保存。

在上述学习率、迭代次数和batch_size下在含有语义机制的LSTM网络迭代80次之后选取其中较为理想的模型加以保存，在迭代360轮之后得到的实验各个类的分类精度如表2所示。

表2第二次训练后验证集上VGG分类精度表

验证LSTM网络校正模型的效果：对上述三次LSTM训练中所得到的保存下来较理想的模型，用均衡样本集中的验证集样本进行验证，运行名为test.py的文件验证其在验证集上输出的句子及分类结果如下表所示：

表3 LSTM句子分类结果

表中每个数字即对应类别中验证集输出的句子与GT所贴的标签一致的数量，第一次参照训练用传统的LSTM网络模型进行训练后所得到的句子与大类标签吻合的结果，第二次参照训练用加了语义信息这一路的新的LSTM网络模型训练后所得到的结果，但是这个时候 LSTM输入语义信息为各个类的类别标签，本发明训练用加了语义信息这一路的新的LSTM 网络模型训练后所得到的结果，但是这个时候LSTM的语义信息是每个类的类别都与其对应精度相乘所得到的结果作为输入，分析实验结果可以得知，增加语义信息之后，每个类别分对的数量都有所增加，表明本发明中语义机制对于优化LSTM生成标注是有效的，同时后两次实验中增加的分对的句子也主要是service、school、forest这几个类，这点表明VGG得分概率对lstm生成句子是存在一定影响的，表示VGG的精度在后续LSTM出词中有作用。因为在验证集存在的residence、service、school、forest、greenland这5个类中，service的分类精度是最高的school、forest的精度次之，而greenland则是最低，在本发明中其精度也稍微有下降趋势。总之，上述结果表明本次研究方法是科学有效的。

高分遥感影像中存在影像对象间差异性小相似度大以及对象间的尺度推演关系等多种复杂情形和特殊尺度特征，使得针对这种遥感影像所开展的关于对象分类和图像标注的问题的研究变得复杂且艰难。传统的针对自然场景下的对象分类和图像标注在计算机视觉领域以及相关比赛中所提出的模型和算法较多，但是针对上述遥感领域中的所存在一系列不同类别的地物却具备异物同谱特征的地物对象所存在的分类及图像标注问题却鲜少有人涉猎，而至于更深层次的对问题的解决及算法实现更无从提起。本次发明的初衷就是将当下计算机视觉领域的前沿进展与遥感科学领域的经典问题相结合，以传统的LSTM算法模型为基础，以遥感科学的现实问题作为导向，将发明中对于实际问题所提出的解决算法用模型优化和改造的方式融入到原始的VGG和LSTM网络中，以达到可以在同一个模型中实现对具备模糊特征的异物同谱对象的分类和语义标注任务，同时实现遥感对象中特有的尺度信息校正机制，引导遥感应用领域的影像分类和识别工作向更高的台阶迈步。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于LSTM的遥感对象自然语言描述及多尺度矫正方法，其特征在于：它包括以下步骤：

S1、数据获取：

获取研究地段分辨率为0.6m以上的遥感影像数据；

S2、数据预处理：

S3、数据切割：

S4、数据尺度统一化：

S5、样本集的标注制作：

S6、LSTM网络模型的构建：

在TensorFlow中构建LSTM的网络模型，LSTM网络模型整体由两个部分组成：VGG网络模型和LSTM网络模型；

S7、设定训练参数：

S9、训练：

2.根据权利要求1所述的基于LSTM的遥感对象自然语言描述及多尺度矫正方法，其特征在于：所述的S3，具体利用Arcmap工具结合手动添加的脚本文件将符合研究需求的影像从原始影像里面用掩膜提取的方式切割出来，切割按照研究需求用两种不同尺度的矢量框进行，切割后的影像以ID加影像格式后缀名来命名。

3.根据权利要求1所述的基于LSTM的遥感对象自然语言描述及多尺度矫正方法，其特征在于：所述的S5中，所述的标注写在Excel表中。

4.根据权利要求1所述的基于LSTM的遥感对象自然语言描述及多尺度矫正方法，其特征在于：所述的S8中，一定比例为训练集样本个数:验证集样本个数=3:1。