CN111291826A

CN111291826A - 基于相关性融合网络的多源遥感图像的逐像素分类方法

Info

Publication number: CN111291826A
Application number: CN202010117270.6A
Authority: CN
Inventors: 马文萍; 周晓波; 朱浩; 李龙伟; 武越
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2020-06-16
Anticipated expiration: 2040-02-25
Also published as: CN111291826B

Abstract

本发明公开了一种基于相关性融合网络的多源遥感图像的逐像素分类方法，从数据集中读入多光谱影像，包括已配准后的PAN和MS图像数据，以及对应只有部分区域的类标ground truth图；标记边缘样本；分别对PAN和MS图像进行预处理，选取训练集和测试集；构造多源遥感图像逐像素分类的融合网络模型；构造网络损失函数；用训练数据集对分类模型进行训练，得到训练好的分类模型；利用训练好的分类模型对测试数据集进行分类，得到测试数据集中每个像素点的类别。本发明提升了分类性能，改进的损失函数策略提升了遥感图像的逐像素分类性能。

Description

基于相关性融合网络的多源遥感图像的逐像素分类方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于相关性融合网络的多源遥感图像的逐像素分类方法，可用于环境监测、土地覆盖、城市建设等遥感图像地物分类相关领域中。

背景技术

如今，随着地球空间信息技术的发展和先进设备技术的支持，可以同时获取同一场景中的高分辨率与多光谱信息。但由于技术限制，单个传感器无法实现该目标，因此借助当前的多个传感器可获得多光谱(MS)图像和具有较高空间分辨率的全色(PAN)图像。具体MS图包含RGB以及近红外光谱信息，而PAN图虽然为单通道图像，但分辨率是MS图的四倍。所以相比于使用单一较多的光谱信息MS图用于遥感图像分类，结合PAN图中丰富的空间信息的方法更有利于分类任务，因为PAN图中的高分辨率信息对于准确描述图像中物体形状与结构非常有用。

目前，基于PAN和MS图像的多源遥感图像分类主要有两种：一是利用PAN锐化技术将PAN中的高分辨率信息融合到MS图，再将PAN锐化后的MS图进行分类。虽然PAN锐化技术已非常成熟，但在处理过程中仍会损失PAN中含有的光谱信息，并在MS图放大过程中引入噪声。二是首先从MS和PAN图像分别提取特征，然后再分类。现有基于该方法的深度分类网络是将MS和PAN图像分别经过不同的特征提取网络，最后通过级联、全连接层输出分类结果。但该方法在特征提取阶段未关联另一支路的特征，即没有考虑MS和PAN图像中提取的特征的差异与冗余，最后级联的方式过于“暴力”。三是将MS和PAN图像联合提取特征，然后分类。即将MS和PAN图像在网络的输入就直接通过通道维度进行合并，但是该方法会造成有利于分类的独有特征被MS和PAN图像共有的特征所覆盖。

针对多源遥感图像中的逐像素分类，通常截取以预测像素点为中心的图像块作为网络的输入，即预测像素点类别时结合其周围的邻域信息。虽然中心像素的真实标签为一确定的一类，但当该像素位于该类别的边缘时，截取的区域就会包含其他类别的信息。尤其在PAN和MS图像中，各类别的所占的比例非常不均匀且分散于整幅图像的各个区域，所以截取后的样本中，有一大部分为边缘样本。当这些样本也进入网络训练时，区域块中包含的其他类别信息会干扰网络的正常训练，网络会将这些信息也学入该类别而造成混乱。除去明显的边缘样本外，样本内部也会因为光照、噪声等影响，造成部分样本存在较大差异，而某些类别样本内部不可避免包含其他类别样本的信息，比如建筑群中包含部分绿地信息等。而传统的交叉熵损失中真实标签类概率为1，在训练中会造成过拟合。现有的标签平滑策略改变了每个样本的真实类别概率分布，即降低了真实标签的概率，将剩余概率均分给其他类别，以应对过拟合。但对于PAN、MS图逐像素分类任务，每个样本包含其他样本的比例不仅无法确定，而且每个样本包含其他类别的比例大多不同。所以，标签平滑策略并不合适。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于相关性融合网络的多源遥感图像的逐像素分类方法，即在MS和PAN图像在提取特征阶段中，保留自身的独有特征的同时，并关注对方中相关性较强的特征，以达到MS和PAN图像渐进融合的目的。同时针对边缘样本处理与损失函数进行了改进。

本发明采用以下技术方案：

一种基于相关性融合网络的多源遥感图像的逐像素分类方法，包括以下步骤：

S1、从数据集中读入多光谱影像，包括已配准后的PAN和MS图像数据，以及对应只有部分区域的类标ground truth图；

S2、标记边缘样本；

S3、分别对PAN和MS图像进行预处理，选取训练集和测试集；

S4、构造多源遥感图像逐像素分类的融合网络模型；

S5、构造网络损失函数；

S6、用训练数据集对分类模型进行训练，得到训练好的分类模型；

S7、利用训练好的分类模型对测试数据集进行分类，得到测试数据集中每个像素点的类别。

具体的，步骤S2具体为：

S201、使用超像素经典算法SLIC对MS图的RGB三通道进行区域分割；

S202、计算每个区域内像素的Lab均值向量，并根据该均值向量进行K均值聚类；

S203、逐像素截取MS图像块，大小为16*16，计算该图像块中属于的中心像素所属的簇的比例，并设定阈值0.6，当比例小于该值时判定该中心像素为边缘像素，并作标记。

具体的，步骤S3具体为：

S301、分别对PAN和MS图像矩阵中所有像素点的值归一化到[0，1]之间；

S302、选取训练集和测试集，在归一化后的图像中找到有对应类标的像素点，以每个像素为中心取PAN图邻域64*64的区域，MS图邻域16*16作为样本块对，每个块的邻域为中心点的分类所服务，然后取每类的百分之十样本作为训练集，其余作为测试集。

具体的，步骤S4具体为：

S401、由于PAN图是MS图的四倍，所以PAN图先经过一层步长为2的5*5卷积与步长为2的最大池化，而MS经过一层3*3卷积与最大池化操作，但步长为1。此时两者的特征块的尺寸与通道数将相同，以便后续的特征融合；

S402、特征融合与进一步提取模块，PAN与MS两支路上分别包括三个残差块，每个残差块由残差和直接映射两支路组成，每个残差块的直接映射部分由一层均值池化与一层1*1卷积组成，均值池化用于匹配残差部分输出的尺寸，1*1卷积用于匹配残差部分输出的通道数；

S403、将MS与PAN的特征提取支路的输出拉成一维向量并合并，再经过三层全连接层与一层softmax分类层。

进一步的，步骤S402中，假设对于MS支路的第一个残差块的输入为

先经过一层1*1卷积降维得到

然后分别经过步长为2的3*3的传统卷积与3*3的自适应卷积；将两个卷积输出进行通道维度上的合并，再经过一层1*1卷积进行特征融合与升维得到残差支路的输出。

更进一步的，自适应卷积核来自对方PAN支路相对应的第一个残差块输入

的部分输入，具体为：

先计算

与

的通道相关性矩阵R^MS*PAN如下：

其中，matirx()表示对图像特征块的每一通道拉成一行向量，形成具有C行的矩阵，C为图像特征块具有的通道总数；

然后比较得到

的每一个通道与

的各个通道的相关性的最大值；再取最大值中k个值所对应的

的通道索引，k设置为

的一半通道数，将

通道上特征图全部置零得到

即

只融合与自身相关性较高的

特征；然后将

通过自适应池化为3*3尺寸，再通过1*1卷积降维得到

最后将其作为卷积核与待卷积的图像

进行分组卷积。

进一步的，步骤S403中，PAN图支路参数：第一层：5*5卷积层，步长为2，输入通道数1，输出通道数64；第二层：3*3最大池化层，步长为2；

残差块一参数：直接映射支路：均值池化层，步长为2；1*1卷积层，步长为1，输入通道数64，输出通道数128；

残差支路：1*1卷积层，步长为1，输入通道数64，输出通道数32；3*3卷积层，步长为2，输入通道数32，输出通道数32；3*3自适应卷积层，步长为2，输入通道数32，输出通道数32；3*3卷积层与3*3自适应卷积层通道维合并；1*1卷积层，步长为1，输入通道数64，输出通道数128；

残差块二参数：直接映射支路：均值池化层，步长为2；1*1卷积层，步长为1，输入通道数128，输出通道数256；残差支路：1*1卷积层，步长为1，输入通道数128，输出通道数64；3*3卷积层，步长为2，输入通道数64，输出通道数64；3*3自适应卷积层，步长为2，输入通道数64，输出通道数64；3*3卷积层与3*3自适应卷积层通道维合并；1*1卷积层，步长为1，输入通道数128，输出通道数256；

残差支路：1*1卷积层，步长为1，输入通道数256，输出通道数128；3*3卷积层，步长为2，输入通道数128，输出通道数128；3*3自适应卷积层，步长为2，输入通道数128，输出通道数128；3*3卷积层与3*3自适应卷积层通道维合并；1*1卷积层，步长为1，输入通道数256，输出通道数512；

MS图支路参数：第一层：3*3卷积层，步长为1，输入通道数4，输出通道数64；第二层：3*3最大池化层，步长为1；三个残差块参数与PAN支路相同；全连接层一：输入4096节点，输出512节点；全连接层二：输入512节点，输出128节点；全连接层三：输入128节点，输出样本类别数节点。

具体的，步骤S5具体为：

S501、在网络训练时，使用交叉熵损失，修改边缘像素样本损失值；

S502、对于简单样本，当损失小于阈值-logp^simple，简单样本的损失值loss^simple将强制为零。

进一步的，步骤S501中，修改后的边缘像素样本损失值loss^edge为：

其中，yⁱ为样本的真实标签的one-hot编码，k为类别数，

为样本经过softmax后的预测值编码，logp^edge为设定阈值。

进一步的，步骤S502中，简单样本的损失值loss^simple为：

其中，yⁱ为样本的真实标签的one-hot编码，k为类别数，

为样本经过softmax后的预测值编码。

与现有技术相比，本发明至少具有以下有益效果：

本发明一种基于相关性融合网络的多源遥感图像的逐像素分类方法，针对逐像素分类任务中的边缘样本，以及遥感图像中样本之间存在信息重叠，改变传统的交叉熵损失函数，对于样本的损失分别进行调整，有利于防止训练时的过拟合以及边缘样本使网络的测试精度下降，通过采用相关性融合网络，在提取多源遥感数据的特征的同时进行支路间的特征交互，有利于提升网络的分类性能。

进一步的，步骤S2采用超像素与聚类相结合的方式来获取边缘样本，有效地利用了空间与像素值的相似信息，得到的边缘更加准确。

进一步的，步骤S3将MS与PAN图分别进行归一化处理，以克服多源数据分布范围差异较大。

进一步的，步骤S4构造多源遥感图像逐像素分类的融合网络模型，采用了残差网络作为主干网络，有利于网络优化与防止梯度弥散或梯度爆炸。

进一步的，步骤S402通过相关性矩阵与自适应卷积，来达到MS与PAN图在网络中渐近融合的目的。

进一步的，步骤S403通过特征级联方式，达到两支路特征进行合并分类的目的。

进一步的，步骤S5构造的损失函数，降低了边缘样本的损失，有利于网络学习中心样本的特征。并且将简单样本的损失强制置零，有利于网络学习分类较难的样本，从而提高网络的整体分类性能。

综上所述，本发明构造了多源遥感图像逐像素分类的融合网络与损失函数，提升了多源遥感图像分类性能。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明流程图；

图2为本发明对待分类图像的分类结果图。

具体实施方式

本发明提供了一种基于相关性融合网络的多源遥感图像的逐像素分类方法，从数据集中读入MS和PAN图像；根据超像素与聚类算法标记边缘样本；对图像进行归一化处理，构建训练集与测试集；构造多源遥感图像逐像素分类的融合网络模型；根据边缘样本标记以及损失值大小重新构造网络的损失函数；训练模型，并利用训练好的分类模型对测试数据集分类。本发明引入MS与PAN图像支路的特征交互融合模块与逐像素分类的损失函数的构造，提高了分类性能，可用于多源图像的分类以及逐像素分类任务。

请参阅图1，本发明一种基于相关性融合网络的多源遥感图像的逐像素分类方法，包括以下步骤：

S1、从数据集中读入多光谱影像，其中包括西安已配准后的PAN和MS图像数据以及对应的只有部分区域的类标ground truth图；

S2、标记边缘样本；

S203、逐像素截取MS图像块，大小为16*16，计算该图像块中属于的中心像素所属的簇的比例，并设定阈值0.6，当比例小于该值时判定该中心像素为边缘像素，并作标记；

S3、PAN和MS图像预处理；

S301、数据归一化，分别对PAN和MS图像矩阵中所有像素点的值归一化到[0，1]之间；

采用min-max标准化公式进行计算，图像中的任一像素值p_i为：

其中，p_min为图像中的最小像素值，p_max为图像中的最大像素值。

由于MS与PAN图来自不同的传感器，数据的分布范围差异较大，因此对这两种图像分别进行归一化处理。

S302、选取训练集和测试集，在归一化后的图像中找到有对应类标的像素点，以每个像素为中心取PAN图邻域64*64的区域，MS图邻域16*16作为样本块对，每个块的邻域为中心点的分类所服务，然后取每类的百分之十样本作为训练集，其余作为测试集；

S4、构造多源遥感图像逐像素分类的融合网络模型；

S402、特征融合与进一步提取模块，PAN与MS两支路上分别包括三个残差块，每个残差块由残差和直接映射两支路组成；每个残差块的直接映射部分由一层均值池化与一层1*1卷积组成，均值池化用于匹配残差部分输出的尺寸，1*1卷积用于匹配残差部分输出的通道数。

对于残差支路，只对MS支路的第一个残差支路做具体说明，其他残差支路构造类似。

假设对于MS支路的第一个残差块的输入为

先经过一层1*1卷积降维得到

自适应卷积核来自对方PAN支路相对应的第一个残差块输入

的部分输入。

先计算

与

的通道相关性矩阵R^MS*PAN，计算如下：

其中，matirx()表示对图像特征块的每一通道拉成一行向量，形成具有C行的矩阵，C为图像特征块具有的通道总数。

然后比较得到

的每一个通道与

的各个通道的相关性的最大值，即取相关性矩阵中每列的最大值。

再取最大值中最小的k个值所对应的

的通道，将这些通道上特征图全部置零得到

k设置为

的一半通道数，即通过相关性矩阵找到

的每个通道与

最大相关性值，然后比较这些相关性值，将其中较小的

通道上信息置零。然后将

通过自适应池化为3*3尺寸，再通过1*1卷积降维得到

最后将其作为卷积核与待卷积的图像

进行分组卷积。

不同于传统的卷积核初始为随机数并随着网络训练而固定，自适应卷积的参数会因为输入图像的改变而改变，对于图像具有自适应性，而且只需要一层1*1的卷积层参数即可达到3*3的卷积操作。

S403、将MS与PAN的特征提取支路的输出拉成一维向量并合并，再经过三层全连接层与一层softmax分类层；

各层的参数如下：

PAN图支路：

第一层：5*5卷积层，步长为2，输入通道数1，输出通道数64；

第二层：3*3最大池化层，步长为2；

残差块一

直接映射支路：

均值池化层，步长为2；

1*1卷积层，步长为1，输入通道数64，输出通道数128；

残差支路：

1*1卷积层，步长为1，输入通道数64，输出通道数32；

3*3卷积层，步长为2，输入通道数32，输出通道数32；

3*3自适应卷积层，步长为2，输入通道数32，输出通道数32(卷积核为对方相对应残差块的输入经过相关性部分置零后，经过3*3自适应池化与1*1卷积层，步长为1，输入通道数64，输出通道数32)；

3*3卷积层与3*3自适应卷积层通道维合并；

1*1卷积层，步长为1，输入通道数64，输出通道数128；

残差块二

直接映射支路：

均值池化层，步长为2；

1*1卷积层，步长为1，输入通道数128，输出通道数256；

残差支路：

1*1卷积层，步长为1，输入通道数128，输出通道数64；

3*3卷积层，步长为2，输入通道数64，输出通道数64；

3*3自适应卷积层，步长为2，输入通道数64，输出通道数64(卷积核为对方相对应残差块的输入经过相关性部分置零后，经过3*3自适应池化与1*1卷积层，步长为1，输入通道数128，输出通道数64)；

3*3卷积层与3*3自适应卷积层通道维合并；

1*1卷积层，步长为1，输入通道数128，输出通道数256；

残差支路：

1*1卷积层，步长为1，输入通道数256，输出通道数128；

3*3卷积层，步长为2，输入通道数128，输出通道数128；

3*3自适应卷积层，步长为2，输入通道数128，输出通道数128(卷积核为对方相对应残差块的输入经过相关性部分置零后，经过3*3自适应池化与1*1卷积层，步长为1，输入通道数256，输出通道数128)；

3*3卷积层与3*3自适应卷积层通道维合并；

1*1卷积层，步长为1，输入通道数256，输出通道数512；

MS图支路：

第一层：3*3卷积层，步长为1，输入通道数4，输出通道数64；

第二层：3*3最大池化层，步长为1；

三个残差块参数与PAN支路相同；

全连接层一：输入4096节点，输出512节点；

全连接层二：输入512节点，输出128节点；

全连接层三：输入128节点，输出样本类别数节点。

S5、构造网络的损失函数；

S501、在网络训练时，使用交叉熵损失，但对于边缘像素样本修改其损失值loss^edge为：

其中，yⁱ为样本的真实标签的one-hot编码，k为类别数，

为样本经过softmax后的预测值编码，logp^edge为一设定阈值，此处设置为一常数-0.22，即降低较低边缘样本的损失。

S502、对于简单样本，当分类性能较高时，即损失小于阈值-logp^simple，类似改变真实标签分布的方法来提早结束训练，让网络去关注较难样本，简单样本的损失值loss^simple将强制为零：

将训练数据集的样本块对作为分类器的输入，其中MS和PAN图相对应的一对同时输入两个网络的两个支路，训练数据集中每个像素点的类别作为分类模型的输出，通过求解上述类别与地面实况图上所对应的真实类别之间的误差并对误差进行反向传播，来优化分类模型的网络参数，得到训练好的分类模型。

S7、利用训练好的分类模型对测试数据集进行分类。

将测试数据集的样本块作为训练好的分类模型的输入，训练好的分类模型的输出为测试数据集中每个像素点进行分类得到的分类类别。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的效果可以通过以下仿真实验进一步说明：

1、仿真条件：

硬件平台为：HP-Z840工作站，TITAN-X-12GB-GPU，64GB RAM。

软件平台为：Python，PyTorch深度学习框架。

2、仿真内容与结果：

本发明仿真实验的图像是西安市区遥感图像。其中PAN图像由3200*3320像素组成，MS图像由800*830*4像素组成，如图2所示。带标签的分类场景有建筑、道路、树木、土壤、平地、水和阴影共七类。

表1是分别使用传统方法(在特征提取阶段无融合方法)，本发明(使用多源遥感图像逐像素分类的融合网络模型，但使用传统损失函数)，本发明三种方法进行测试。并统计了各个类别的预测准确率，整个测试集的准确率，各个类别的平均准确率以及Kappa系数。

表1本发明与传统方法的性能比较

从表1中可以看出，用本发明方法相比于传统方法，在特征提取阶段进行特征间的交互融合确实有助于分类性能的提升，而且改进的损失函数策略也确实能进一步地提升遥感图像的逐像素分类性能。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。