CN111695436B

CN111695436B - 一种基于目标增强的高空间分辨率遥感图像场景分类方法

Info

Publication number: CN111695436B
Application number: CN202010426582.5A
Authority: CN
Inventors: 谷延锋; 白洋; 高国明
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-05-19
Filing date: 2020-05-19
Publication date: 2022-05-13
Anticipated expiration: 2040-05-19
Also published as: CN111695436A

Abstract

一种基于目标增强的高空间分辨率遥感图像场景分类方法，它属于遥感图像场景分类技术领域。本发明解决了高空间分辨率遥感图像中地物形式多样、空间分布复杂，导致对图像场景分类精度低，以及采用手工分类方法效率低的问题。本发明利用计算机视觉中的显著性机制，对高分辨率遥感图像进行显著性增强处理。提出一种反复注意结构，并在此基础上构建一个有效的基于目标增强的高空间分辨率遥感图像场景分类方法。本发明方法受到人类视觉系统注意机制的启发，通过迭代图像特征的方式对图像显著特征进行增强，再不断学习进而专注于图像关键区域，这样可以有效提高分类精度，也可以加快收敛速度，提高学习效率。本发明可以应用于遥感图像场景分类。

Description

一种基于目标增强的高空间分辨率遥感图像场景分类方法

技术领域

本发明属于遥感图像场景分类技术领域，具体涉及一种基于目标增强的高空间分辨率遥感图像场景分类方法。

背景技术

现阶段，随着遥感探测手段的迅速发展，一系列商用高分辨率遥感卫星如Quickbird、Worldview系列、GeoEye系列，国产GF-1等相继发射，获取高空间分辨率遥感图像变得越来越容易，而且高空间分辨率的遥感图像的应用正变得越来越普及。作为遥感技术的重要组成部分，遥感图像的场景分类被广泛应用于国土安全监控、土地覆盖/土地利用分类、城市规划、环境监测等军事、民用领域。随着遥感技术的不断发展，遥感图像空间分辨率的不断提高，所提供的地物信息越来越丰富，空间分布越来越复杂，传统的遥感图像场景分类方法难以得到更高的分类精度。而且高空间分辨率遥感图像通常是一片大区域的俯视视图，这导致图像包含许多类型的目标和特征。那么如何对高空间分辨率遥感图像进行场景分类，使得其涵盖信息更加完整且鉴别性更强就成为了现今热门的问题。

遥感图像中的场景类别是人为对场景的命名方式定义的，包含语义一致性等特性，不仅能够表示人类对图像的全局认识，还包含了判别图像信息所依据的前后文信息。针对场景分类，手工分类是最基本的分类方法，其就是按照人们平常的先验知识来进行猜测，比如对于城市可以划分为：中型城市、大型城市、乡村等等，其中乡村又可以细分为村庄、乡镇、农田等等。但是现阶段，数字图像领域中存在着巨量的高空间分辨率遥感图像，而手工分类方法的效率又比较低，因此完全依靠手工对这些数字图像进行标注的传统方法已经不可行，在这种情况下需要提出更加有效的场景分类方法。

发明内容

本发明的目的是为解决由于高空间分辨率遥感图像中的地物形式多样、空间分布复杂，导致对遥感图像场景分类的分类精度低，以及采用手工分类方法的效率低的问题，而提出了一种基于目标增强的高空间分辨率遥感图像场景分类方法。

本发明为解决上述技术问题采取的技术方案是：

一种基于目标增强的高空间分辨率遥感图像场景分类方法，其具体包括以下步骤：

步骤一、采集一组高空间分辨率遥感图像X₁，所述高空间分辨率遥感图像X₁中包含的场景类别的标签向量为Y；

步骤二、对采集的高空间分辨率遥感图像X₁中的各张图像分别进行高斯滤波处理，获得各张图像对应的高斯滤波后图像；

再将各张高斯滤波后图像分别转换成Lab图像，对于任意一张Lab图像，分别计算出Lab图像中全部像素点在各通道上元素的均值，将Lab图像中全部像素点在各通道上元素的均值表示成向量I_μ的形式：I_μ＝[L_μ,a_μ,b_μ]^-1，其中，L_μ代表全部像素点在L通道上元素的均值，a_μ代表全部像素点在a通道上元素的均值，b_μ代表全部像素点在b通道上元素的均值；

计算出向量I_μ与对应的Lab图像中每个像素点的欧式距离，将Lab图像中的像素点(x,y)对应的欧式距离赋值给图像S(x,y)中的像素点(x,y)，当将整张Lab图像中全部像素点对应的欧式距离全部赋值到图像S(x,y)中后，获得Lab图像对应的图像S(x,y)；

将获得的各张S(x,y)图像输入ResNet-50网络，利用ResNet-50网络提取出采集的每张高空间分辨率遥感图像对应的特征信息块F；

步骤三、分别对步骤二获得的每个特征信息块F进行加权处理，获得各特征信息块F所对应的一次增强后的特征信息块F₁以及输入长短时记忆网络的初始权重值x₁；

步骤四、利用长短时记忆网络对一次增强后的特征信息块F₁进行重新调整，再依次获得二次增强后的特征信息块F₂，三次增强后的特征信息块F₃，…，T次增强后的特征信息块F_T；

步骤五、利用特征信息块F₁，F₂，…，F_T以及高空间分辨率遥感图像X₁中包含的场景类别的标签向量Y对softmax分类模型进行训练，直至达到设置的最大训练次数时终止训练，获得训练好的softmax分类模型；

将采集的待进行场景分类的高空间分辨率遥感图像进行步骤二至步骤四的处理后，将处理结果输入训练好的softmax分类模型，通过softmax分类模型输出场景分类结果。

本发明的有益效果是：本发明提出了一种基于目标增强的高空间分辨率遥感图像场景分类方法，本发明利用计算机视觉中的显著性机制，对高空间分辨率遥感图像进行显著性增强处理。提出了一种反复注意结构，并在此基础上构建了一个有效的基于目标增强的高空间分辨率遥感图像场景分类方法。本发明方法受到人类视觉系统注意机制的启发，通过迭代图像特征的方式对图像显著特征进行增强，再不断学习进而专注于图像关键区域，这样不仅有助于提高分类的精度，也可以大大加快收敛速度，提高学习效率。

同时，采用本发明的智能化的场景分类方法，可以克服手工分类方法的不足，提高分类效率。

为了验证本发明所提出的方法的性能，针对一组高空间分辨率数据进行验证，UCMerced Land-Use数据集包含21个典型场景类别，每类由100个图像组成，大小为256×256像素，分辨率为0.3m。实验结果验证了本发明提出的基于目标增强的高空间分辨率遥感图像场景分类算法的有效性。在数据中各类均使用80％作为训练集的情况下，本发明的分类精度为0.975左右。

附图说明

图1是本发明的实现流程示意图；

图2a是显著性增强FT算法流程图；

图2b是原始图像与显著性增强后图像的对比图；

图3a是原始图像与一次目标增强后的图像特征信息块的对比图；

图3b是目标增强结构的示意图；

图3c是原始图像与经过两次目标增强后的图像特征信息块的对比图；

图4a为实验数据集中的农田场景图像的示意图；

图4b为实验数据集中的棒球场场景图像的示意图；

图4c为实验数据集中的沙滩海岸场景图像的示意图；

图4d为实验数据集中的森林场景图像的示意图；

图4e为实验数据集中的交叉路口场景图像的示意图；

图4f为实验数据集中的港口场景图像的示意图；

实验使用数据集共有21类地物，分别为：农田、棒球场、沙滩海岸、森林、交叉路口、港口等，共有标签样本数据为2100个；

图5是采用80％数据用作训练样本条件下对目标图像分类的10次实验中混淆矩阵的平均值的示意图。

具体实施方式

具体实施方式一：结合图1说明本实施方式。本实施方式所述的一种基于目标增强的高空间分辨率遥感图像场景分类方法，所述方法具体包括以下步骤：

步骤一、采集一组高空间分辨率遥感图像X₁(一般5m以上分辨率可以认为是高空间分辨率图像)，所述高空间分辨率遥感图像X₁中包含的场景类别的标签向量为Y；

再将各张高斯滤波后图像分别转换成Lab图像(色彩空间图像)，对于任意一张Lab图像，分别计算出Lab图像中全部像素点在各通道上元素的均值，将Lab图像中全部像素点在各通道上元素的均值表示成向量I_μ的形式：I_μ＝[L_μ,a_μ,b_μ]^-1，其中，L_μ代表全部像素点在L通道上元素的均值，a_μ代表全部像素点在a通道上元素的均值，b_μ代表全部像素点在b通道上元素的均值；

本发明以场景增强和特征增强为基础，从深度学习以及图像显著性的角度出发，构建目标增强学习网络，对遥感图像进行场景分类，与之前针对对象的分类方式不同，基于卷积神经网络的场景分类方法没有显而易见的特征提取过程，而是通过构建深度网络进行不断学习来完善所提取出来的特征，这样就能够使得提取出来的特征具有更强的描述能力。

具体实施方式二：结合图2a和图2b说明本实施方式。本实施方式与具体实施方式一不同的是：所述步骤二的具体过程为：

步骤二一、分别对高空间分辨率遥感图像X₁中的每张图像进行高斯滤波处理，得到高斯滤波处理后的图像；

经过高斯滤波处理后的图像去掉了图像中的高频信息，使得图像具有更多的低维空间信息，也就是使图像变得更加平滑。

所述高斯滤波处理后的图像为RGB图像，将每张RGB图像均转换成对应的Lab图像，转换的公式如下：

式中，R，G，B分别为RGB图像在三个波段上的元素，L，a，b分别为Lab图像在三个通道上的元素，X、Y、Z、L′、M′和S′均为中间变量；

对于获得的任意一张Lab图像，分别求出该张Lab图像中全部像素点在L通道上元素的均值L_μ、在a通道上元素的均值a_μ以及在b通道上元素的均值b_μ；

令向量I_μ＝[L_μ,a_μ,b_μ]^-1，分别计算出向量I_μ与对应的Lab图像中各像素点之间的欧氏距离，将Lab图像中的像素点(x,y)对应的欧式距离赋值给图像S(x,y)中的像素点(x,y)，当将整张Lab图像中全部像素点对应的欧式距离全部赋值到图像S(x,y)中后，获得Lab图像对应的图像S(x,y)；图像S(x,y)中的像素点个数与Lab图像中的像素点个数相同，且采取一一对应的赋值方式；

S(x,y)＝||I_μ-I_ωhc(x,y)||

其中，I_ωhc(x,y)＝[L_ωhc,a_ωhc,b_ωhc]^-1，L_ωhc，a_ωhc，b_ωhc分别为Lab图像中的像素点(x,y)在L,a,b三个通道上的元素值；

同理，获得每张Lab图像所对应的S(x,y)图像；

Lab图像中的亮度通道(L通道)专门负责图像的明暗程度，简单的说就是整幅图的灰度图。a通道和b通道只负责具体颜色的多少，a通道表示从洋红色(通道里的白色)至深绿色(通道里的黑色)的范围；b表示从焦黄色(通道里的白色)至袅蓝色(通道里的黑色)的范围；a、b通道里的50％中性灰色表示没有颜色，所以越接近灰色说明颜色越少。之后，对图像中Lab三个通道的数据分别取均值，得到I_μ＝[L_μ,a_μ,b_μ]-¹。最后，求Lab图像I_ωhc(x,y)和均值I_μ之间的距离S(x,y)，此处的距离为欧氏距离，计算公示如下：

S(x,y)＝||I_μ-I_ωhc(x,y)||

步骤二二、将步骤二一中获得的S(x,y)图像输入到ResNet-50网络中，所述ResNet-50网络包括5层卷积层，其中，后面的4层卷积层是4层残差块(ResidualBlock)，通过最后一层卷积层来输出采集的每张高空间分辨率遥感图像对应的特征信息块F，其具体计算公式如下：

其中，l代表ResNet-50网络的卷积层层数，

是ResNet-50网络的第l层卷积层输出的图像中第j个像素的值，

是输入第l层卷积层的图像中第j个像素的值，

为

在第l层卷积层所使用卷积核中的位置i处的加权值，i代表卷积核中的位置，M_j代表卷积核中的位置的集合，

为输入第l层卷积层的图像中第j个像素的偏置值，f(·)代表激活函数，让神经网络具有更多非线性成分；*代表做乘法运算；

实际上，

为第l层卷积层使用的卷积核中第i个数的值；

其中，

是第5层卷积层输出的图像中第j个像素的值，P×P代表第5层卷积层输出的图像中包含的像素总数，f_j为特征信息块F中的元素，F＝{f₁，f₂，…，f_P×P}。分别将采集的每张高空间分辨率遥感图像对应的S(x,y)图像输入ResNet-50网络中，即可得到采集的每张图像对应的特征信息块F。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：结合图3a说明本实施方式。本实施方式与具体实施方式二不同的是：所述步骤三的具体过程为：

使用注意掩模矩阵作为注意权重，通过特征信息块F和初始化的注意掩模矩阵a₁计算输入长短时记忆网络(LSTM)中的初始权重值x₁和一次增强后的特征信息块F₁；

其中初始化的注意掩模矩阵a₁的值是随机产生的；

具体计算公式如下：

a₁＝{a_1,1,a_1,2,…,a_1,P×P}

f_1,j＝a_1,j×f_j,a_1,j∈a₁,f_j∈F,f_1,j∈F₁,j∈1,2,…,P×P

其中，a₁是初始化的注意掩模矩阵，a_1,j为初始化的注意掩模矩阵中的第j个元素，f_1,j是一次增强后的特征信息块F₁中的第j个元素，x₁是输入长短时记忆网络处理的初始权重值。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：结合图3b、图3c说明本实施方式。本实施方式与具体实施方式三不同的是：所述步骤四的具体过程为：

步骤四一、利用长短时记忆网络处理不同时刻的图像特征权重值x_t，此网络中各个参数计算方式如下：

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)

c_t＝σ(W_xcx_t+W_hch_t-1+b_c)

h_t＝o_ttanh(c_t)

其中，t为长短时记忆网络的第t层，x_t是输入长短时记忆网络处理的第t层的权重值，o是输出门，o_t是第t层输出门的输出结果，b_o是输出o_t的偏置，c是存储器单元激活矢量，c_t是第t层存储器单元激活矢量的输出结果，b_c是输出c_t的偏置，c_t-1为第t-1层存储器单元激活矢量的输出结果，σ是逻辑sigmoid函数，产生一个介于0到1的值，来决定是否允许上一时刻学习到的知识通过，h_t-1为长短时记忆网络第t-1层的输出结果，h_t为长短时记忆网络第t层的输出结果，tanh(·)为激活函数，W_xo是x_t在输出o_t时的权重，W_ho是h_t-1在输出o_t时的权重，W_co是c_t-1在输出o_t时的权重，W_xc是x_t在输出c_t时的权重，W_hc是h_t-1在输出c_t时的权重；

i是输入门，f是遗忘门，对输入门和遗忘门的相关参数的定义同上；

步骤四二、通过t次增强后的特征信息块F_t和注意掩模矩阵a_t计算输入长短时记忆网络处理的第t+1层的权重值x_t+1，计算公式如下：

a_t＝{a_t,1,a_t,2,…,a_t,P×P},t∈1…T

a_t+1＝softmax(h_t),t∈1…T

f_t,j＝a_t,j×f_t-1,j,a_t,j∈a_t,f_t-1,j∈F_t-1,f_t,j∈F_t,j∈1,2,…,P×P,t∈1…T

其中，a_t是输入长短时记忆网络第t层的注意掩模矩阵，t∈1…T，T是长短时记忆网络的总层数，a_t,1,a_t,2,…,a_t,P×P是a_t中的元素，注意掩模矩阵a_t的大小是P×P，f_t,j是t次增强后的特征信息块F_t中的第j个元素，其具有与F_t相同的维度，x_t+1是输入长短时记忆网络处理的第t+1层的权重值，a_t+1是输入长短时记忆网络第t+1层的注意掩模矩阵，softmax(·)是归一化函数，f_t-1,j是t-1次增强后的特征信息块F_t-1中的第j个元素；

当t的取值达到T时，即依次获得了t次增强后的特征信息块F_t，t∈1…T。

本实施方式中，当t＝1时，{f_0,1，f_0,2，…，f_0,P×P}＝F。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：所述步骤五的具体过程是：

利用softmax函数将高空间分辨率遥感图像X₁中包含的场景类别的标签向量Y映射到(0,1)之间后，获得标签向量Y′；将特征信息块F₁，F₂，…，F_T作为softmax分类模型的训练样本，将标签向量Y′作为训练样本的标签，利用训练样本对softmax分类模型进行训练，直至达到设置的最大训练次数时终止训练，获得训练好的softmax分类模型；

将采集的待进行场景分类的高空间分辨率遥感图像进行步骤二至步骤四的处理后，获得待进行场景分类的高空间分辨率遥感图像对应的特征信息块，将获得的特征信息块输入训练好的softmax分类模型，选取最大预测概率值所对应的类别作为待进行场景分类的高空间分辨率遥感图像的场景分类结果；

其中，S_i′为采集的待进行场景分类的高空间分辨率遥感图像属于第i′个类别的概率，e^i′代表第i′个类别的预测结果，i′＝1,2，…，C，C代表类别的总个数，e是自然对数。

其它步骤及参数与具体实施方式一至四之一相同。

实施例一：

本实施例一种基于目标增强的高空间分辨率遥感图像场景分类算法具体是按照以下步骤制备的：

实验所用数据是UC Merced Land-Use数据集，其中每个图像尺寸为256x256像素。这些图像都是从各地市区图像中手动提取的，数据包含3个光谱波段(R、G、B)，像素分辨率为0.3m。图4a至图4f分别为此数据集中几类场景图像示例。利用图4a至图4f中具有的类别标签的数据对网络进行训练，然后利用测试数据的分类标签结果判定我们所提出的分类效果。

为了确认本发明方法的有效性，图5为利用本发明方法在UCM数据集上的混淆矩阵图。表1为在不同的训练样本数目的条件下，六种分类算法对此数据集的分类结果。

表1

从图5可以看到，在密集住宅区类别中，所构建的方法具有更好的结果，这证实了由于引入反复增强结构，本发明方法非常擅长处理具有较多信息的场景图像。从表1可以看出，当使用80％标记的图像进行训练时，与其他遥感场景分类方法相比，ATENet在正确率和稳定性方面都有较大的提升。当使用50％标记的图像进行训练时，此方法也是最优的。因此实验验证了此算法的有效性。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于目标增强的高空间分辨率遥感图像场景分类方法，其特征在于，所述方法具体包括以下步骤：

2.根据权利要求1所述的一种基于目标增强的高空间分辨率遥感图像场景分类方法，其特征在于，所述步骤二的具体过程为：

令向量I_μ＝[L_μ,a_μ,b_μ]-¹，分别计算出向量I_μ与对应的Lab图像中各像素点之间的欧氏距离，将Lab图像中的像素点(x,y)对应的欧式距离赋值给图像S(x,y)中的像素点(x,y)，当将整张Lab图像中全部像素点对应的欧式距离全部赋值到图像S(x,y)中后，获得Lab图像对应的图像S(x,y)；

S(x,y)＝||I_μ-I_ωhc(x,y)||

同理，获得每张Lab图像所对应的S(x,y)图像；

步骤二二、将步骤二一中获得的S(x,y)图像输入到ResNet-50网络中，所述ResNet-50网络包括5层卷积层，其中，后面的4层卷积层是4层残差块，通过最后一层卷积层来输出采集的每张高空间分辨率遥感图像对应的特征信息块F，其具体计算公式如下：

其中，l代表ResNet-50网络的卷积层层数，

是ResNet-50网络的第l层卷积层输出的图像中第j个像素的值，

是输入第l层卷积层的图像中第j个像素的值，

为

为输入第l层卷积层的图像中第j个像素的偏置值，f(·)代表激活函数；

其中，

是第5层卷积层输出的图像中第j个像素的值，P×P代表第5层卷积层输出的图像中包含的像素总数，f_j为特征信息块F中的元素，F＝{f₁，f₂，…，f_P×P}。

3.根据权利要求2所述的一种基于目标增强的高空间分辨率遥感图像场景分类方法，其特征在于，所述步骤三的具体过程为：

使用注意掩模矩阵作为注意权重，通过特征信息块F和初始化的注意掩模矩阵a₁计算输入长短时记忆网络中的初始权重值x₁和一次增强后的特征信息块F₁；

具体计算公式如下：

a₁＝{a_1,1,a_1,2,···,a_1,P×P}

f_1,j＝a_1,j×f_j,a_1,j∈a₁,f_j∈F,f_1,j∈F₁,j∈1,2,···,P×P

4.根据权利要求3所述的一种基于目标增强的高空间分辨率遥感图像场景分类方法，其特征在于，所述步骤四的具体过程为：

步骤四一、利用长短时记忆网络处理不同时刻的权重值x_t：

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o)

c_t＝σ(W_xcx_t+W_hch_t-1+b_c)

h_t＝o_t tanh(c_t)

其中，t为长短时记忆网络的第t层，x_t是输入长短时记忆网络处理的第t层的权重值，o是输出门，o_t是第t层输出门的输出结果，b_o是输出o_t的偏置，c是存储器单元激活矢量，c_t是第t层存储器单元激活矢量的输出结果，b_c是输出c_t的偏置，c_t-1为第t-1层存储器单元激活矢量的输出结果，σ是逻辑sigmoid函数，h_t-1为长短时记忆网络第t-1层的输出结果，h_t为长短时记忆网络第t层的输出结果，tanh(·)为激活函数，W_xo是x_t在输出o_t时的权重，W_ho是h_t-1在输出o_t时的权重，W_co是c_t-1在输出o_t时的权重，W_xc是x_t在输出c_t时的权重，W_hc是h_t-1在输出c_t时的权重；

a_t＝{a_t,1,a_t,2,···,a_t,P×P},t∈1···T

a_t+1＝softmax(h_t),t∈1···T

f_t,j＝a_t,j×f_t-1,j,a_t,j∈a_t,f_t-1,j∈F_t-1,f_t,j∈F_t,j∈1,2,···,P×P,t∈1···T

其中，a_t是输入长短时记忆网络第t层的注意掩模矩阵，t∈1···T，T是长短时记忆网络的总层数，a_t,1,a_t,2,···,a_t,P×P是a_t中的元素，注意掩模矩阵a_t的大小是P×P，f_t,j是t次增强后的特征信息块F_t中的第j个元素，x_t+1是输入长短时记忆网络处理的第t+1层的权重值，a_t+1是输入长短时记忆网络第t+1层的注意掩模矩阵，softmax(·)是归一化函数，f_t-1,j是t-1次增强后的特征信息块F_t-1中的第j个元素；

当t的取值达到T时，即依次获得了t次增强后的特征信息块F_t，t∈1···T。

5.根据权利要求4所述的一种基于目标增强的高空间分辨率遥感图像场景分类方法，其特征在于，所述步骤五的具体过程是：

将高空间分辨率遥感图像X₁中包含的场景类别的标签向量Y映射到(0,1)之间后，获得标签向量Y′；将特征信息块F₁，F₂，…，F_T作为softmax分类模型的训练样本，将标签向量Y′作为训练样本的标签，利用训练样本对softmax分类模型进行训练，直至达到设置的最大训练次数时终止训练，获得训练好的softmax分类模型；