CN111967516B

CN111967516B - 一种逐像素分类方法、存储介质及分类设备

Info

Publication number: CN111967516B
Application number: CN202010819496.0A
Authority: CN
Inventors: 马文萍; 马梦茹; 朱浩; 武越; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2024-02-06
Anticipated expiration: 2040-08-14
Also published as: CN111967516A

Abstract

本发明公开了一种逐像素分类方法、存储介质及分类设备，从数据集中读入多光谱影像，包括已配准后的PAN图像数据和MS图像数据以及对应的类标ground truth图；将共有特征融合得到MSHPAN图像数据；确定训练集和测试集；进行预处理，设计基于自适应感受野网络模块A和自适应通道的谱段信息提取的B模块的渐进融合网络；训练得到分类模型，对测试集进行分类，得到测试数据集中每个像素点的类别。本发明自适应的将提取出空间信息和谱段信息，进而将其逐渐的进行融合。

Description

一种逐像素分类方法、存储介质及分类设备

技术领域

本发明属于计算机视觉图像处理技术领域，具体涉及一种基于自适应感受野和自适应通道的渐进融合的逐像素分类方法、存储介质及分类设备，可用于环境监测、土地覆盖、城市建设等遥感图像地物分类相关领域中。

背景技术

近年来，在先进装备技术的支持下，许多地球观测卫星可以在相同的覆盖范围内，获取空间分辨率比较高的全色图(PAN)和光谱信息比较丰富的多光谱图像(MS)。因此，PAN数据和MS数据之间的这种特征互补性为遥感领域的融合分类提供了重要的发展潜力。

特征互补的多分辨率数据融合已经被应用于遥感、医疗等多种领域。这种数据融合的方式首先需要分别将互补的图像分解成低频分量和不同尺度或方向的高频分量。然后根据分量的特征对对应的部分进行有选择的融合，主要负责融合图像的互补信息。最后再对融合后的分量进行逆变换，得到融合后的图像。常用的多分辨融合方法主要有拉普拉斯金字塔变换、小波变换、IHS变换、曲线变换、第二代曲线变换和主成分变换PCT。多分辨率数据融合在分解的过程中，可以获得各种各样的详细信息，然后根据个人以及目标的要求，将其部分分量进行融合，加强分量的特有特征，提高融合应用的准确率。在实际的操作过程中，大部分多源多分辨率融合都是为了特有特征的加强而进行的，从而获得更好的融合结果，使其更好的解释语义信息。大部分由于不同传感器获取的不同分辨率的数据具有很大的差异，因此，需要对源数据进行融合。

除了上述传统的数据融合方法，随着深度学习的发展，信息互补的图像通常采用双支路的特征提取来学习有区别和不变的特性，进而进行融合分类。深度学习的方法相比于传统的机器学习方法在很多领域都取得了不错的效果。近几年来，许多深度学习的模型都被应用于多源遥感数据的融合分类。虽然深度学习的方法在融合分类中取得了很大的进步，但是融合的方式却是非常的简单而粗暴的，提高了对分类网络的要求，因此，特征融合分类的网络还有待发掘。

低分辨率的多光谱图像和高分辨率的全色图像之间的融合属于多传感器图像融合的一个重要分支，在航空航天和遥感卫星应用中占据重要的位置。虽然深度的双支路特征融合网络在特征提取方面取得了一定的进展，但仍然存在一些值得去关注的问题：PAN和MS表征的是同一地物，不同模态的数据差异很大，分别输入双支路的网络会加大特征提取的压力；在提取特征的最后，简单的通过叠加或者拼接的技术直接将两个不同源数据的特征进行融合，这种方式简单粗暴；随着遥感技术的不断发展，获取到的遥感图像的分辨率都比较高，且里面包含了大小不同的目标，同时，对于一个特定的目标而言，每个通道信息或每一个空间信息对图像语义的表征能力各不相同。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于自适应感受野和自适应通道的渐进融合的逐像素分类方法、存储介质及分类设备，通过自适应空间和自适应谱段选择的渐进融合网络，解决目前现有技术的融合方式简单粗暴和分类精度低的问题。

本发明采用以下技术方案：

一种逐像素分类方法，包括以下步骤：

S1、从数据集中读入多光谱影像，包括已配准后的PAN图像数据和MS图像数据以及对应的类标ground truth图；

S2、将步骤S1得到的PAN图像数据和MS图像数据的共有特征进行融合得到MSHPAN图像数据；

S3、对步骤S1的PAN图像数据、MS图像数据和步骤S2的MSHPAN图像数据进行归一化处理，确定训练集和测试集；

S4、分别对步骤S1的PAN图像数据、MS图像数据和步骤S2的MSHPAN图像数据进行预处理，使PAN图像数据、MSHPAN图像数据和MS图像数据的特征块尺寸与通道数相同；

S5、设计自适应感受野网络模块A；

S6、设计自适应通道的谱段信息提取的B模块；

S7、利用步骤S4预处理后的PAN图像数据、MSHPAN图像数据和MS图像数据，设计基于步骤S5自适应感受野网络模块A和步骤S6自适应通道的谱段信息提取的B模块的渐进融合网络；

S8、构造步骤S7渐进融合网络的损失函数；

S9、对步骤S7渐进融合网络进行超参数调整；

S10、用步骤S3训练集的样本块对作为分类器的输入，MS图像数据、MSHPAN图像数据、PAN图像数据相对应的一对同时输入进融合网络的三个支路，将训练集中每个像素点的类别作为分类模型的输出，优化分类模块的网络参数，得到训练好的分类模型；

S11、利用步骤S10训练好的分类模型对步骤S3的测试集进行分类，得到测试数据集中每个像素点的类别。

具体的，步骤S3具体为：

S301、数据归一化，分别对PAN、MSHPAN和MS图像矩阵中所有像素点的值归一化到[0，1]之间；

S302、选取训练集和测试集，在归一化后的图像中找到有对应类标的像素点，以每个像素为中心取PAN图和MSHPAN图邻域64*64的区域，MS图邻域16*16作为样本块对，每个块的邻域为中心点的分类所服务；然后取每类的百分之十样本作为训练集，其余作为测试集。

具体的，步骤S5具体为：

S501、通过不同的卷积核输入进行卷积操作，分别得到F₁、F₂、F₃，保留输入F₀，将输入全连接的神经网络，最后通过sigmoid函数，将其约束在[0,1]之间，得到其掩膜α₀、α₁、α₂、α₃；

其中，c表示通道数；

S502、最后将掩膜与其对应的输入相乘得到

S503、通过其每个掩膜的均值选出两个影响最大的感受野获取到的特征(S₁、S₂)进行拼接得到S，这样可以自适应多视点的提取特征，提高空间信息的提取效率，进而提高分类的精度；S＝S₁+S₂

S504、然后通过将S输入到sigmoid激活函数中得到自适应感受野的输出S_F；

S_F＝σ(S)

其中，σ为sigmoid激活函数。

具体的，步骤S6具体为：

S601、将于自适应感受野网络模块A的输出S_F作为自适应通道的谱段信息提取的B模块的输入，将S_F的维度均分成两份，然后通过全局平均池化压缩S_F的空间信息，保留通道谱段信息得到V_F；

其中，H和W为高和宽，F_gp为全局平均池化，(i,j)为特征S_F的逐像素位置；

S602、通过softmax激活函数得到掩膜α和β，将得到的掩膜与其输入分别相乘得到和/>将其拼接作为自适应通道的谱段信息提取的B模块的输出O；

α+β＝1

其中，为乘上权重α的特征，/>为乘上权重β的特征，α为S₁的掩膜，β为为S₂的掩膜。

具体的，步骤S7具体为：

S701、分别设计第一个提取模块FEBlock1、中间提取模块FEBlock2和深层提取模块FEBlock3；

第一个提取模块FEBlock1提取浅层信息，不进行融合；

中间提取模块FEBlock2将自适应感受野网络模块A之后提取的空间信息加到PAN支路的FEBlock2的输出，将中间支路FEBlock2自适应通道B模块之后提取的谱段信息加到MS支路的FEBlock2的输出；

深层提取模块FEBlock3用于对内核信息进行全融合；

S702、将PAN、MSHPAN、MS的特征提取支路的深层提取模块输出拼接且拉成一维向量并合并，再经过三层全连接层与一层softmax分类层。

进一步的，步骤S702中，各层的参数如下：

PAN图支路：

第一层：5*5卷积层，步长为1，最大池化层步长为2，输入通道数1，输出通道数8；

第二层：3*3卷积层，步长为1，最大池化层步长为2，输出通道数16；

第三层：3*3卷积层，步长为1，最大池化层步长为2，输出通道数32；

自适应感受野网络模块A：直接映射支路：

1*1卷积层，步长为1，填充为0，输入通道数32，输出通道数16；

1*1卷积层，步长为1，填充为0，输入通道数16，输出通道数16；

3*3卷积层，步长为1，填充为1，输入通道数16，输出通道数16；

5*5卷积层，步长为1，填充为2，输入通道数16，输出通道数16；

自适应通道的谱段信息提取的B模块：直接映射支路：

1*1卷积层，步长为1，输入通道数32，输出通道数8；

1*1卷积层，步长为1，输入通道数8，输出通道数32；

MSHPAN支路：和PAN支路的参数相同；

MS图支路：第一层：3*3卷积层，步长为1，输入通道数4，输出通道数16；

第二层：3*3卷积层，步长为1，最大池化层步长为2，输入通道数16，输出通道数32；

全连接层一：输入8092节点，输出512节点；

全连接层二：输入512节点，输出128节点；

全连接层三：输入128节点，输出样本类别数节点。

具体的，步骤S8中，交叉熵损失函数为：

其中，p(x)为分类的真实概率分布，q(x)为分类的预测概率分布。

具体的，步骤S9中，超参数的调整具体为：

训练样本数：总数据集的10％；初始的学习率：0.0001；迭代的总次数：60000；每次输入的样本数：1200。

本发明的另一个技术方案是，一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据所述的方法中的任一方法。

本发明的另一个技术方案是，一种计算设备，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。

与现有技术相比，本发明至少具有以下有益效果：

一种逐像素分类方法，对感受野进行自适应的选择，对于大目标可以采用较大的感受野，而小的目标采用较小的感受野，进而增强空间信息，提高特征提取的针对性，有利于目标的语义分析；对通道的自适应选择，由于每个信号都可以被分解成核函数上的分量，产生的新的通道对于关键信息的贡献肯定有多有少。因此我们给每个通道上的信号都增加一个权重来代表该通道与关键信息的相关度，这个权重越大，则表示相关度越高，也就是我们越需要去注意的通道。进而增强多光谱图像的谱段信息，提高分类的精度；采用了渐进的融合网络，在提取多源遥感数据的特征的同时进行支路间的特征交互融合，且随着网络的加深，融合的信息也越来越全面，有利于提升网络的分类性能。

进一步的，通过步骤S3统一数据的格式，划分训练集和测试集。

进一步的，通过步骤S5自适应的根据输入图像选择合适的感受野。

进一步的，通过步骤S6建模通道之间的依赖关系。

进一步的，通过步骤S7逐渐融合不断提取的特征。

进一步的，确定各层的参数，将卷积层的输出输入全连接的特征分类网络。

进一步的，通过步骤S8训练神经网络，使其损失不断减小。

进一步的，通过步骤S9准确训练神经网络，使其尽快而又不损失误差的情况下完成训练。

综上所述，本发明能够自适应的将提取出空间信息和谱段信息，进而将其逐渐的进行融合。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的模块A自适应感受野的选择的流程以及模块B自适应通道的谱段信息提取的流程；

图2为本发明的整个渐进融合网络的框架流程图。

具体实施方式

本发明提供了一种逐像素分类方法、存储介质及分类设备，从数据集中读入相对应的MS和PAN的对应图像块；对读入的图像进行归一化处理，构建训练集与测试集；构造三支路的渐进融合网络；训练模型，并利用训练好的分类模型对测试数据集分类。本文引入了自适应感受野的选择、自适应通道信息的提取、特有特征的加强以及渐近融合的思想，提高了融合分类的精度，可用于异源多分辨率的图像的融合分类。

请参阅图2，本发明一种基于自适应感受野和自适应通道的渐进融合的逐像素分类方法，包括以下步骤：

S1、从数据集中读入多光谱影像，其中包括西安已配准后的PAN图像数据和MS图像数据以及对应的只有部分区域的类标ground truth图像数据；

S2、PAN图像数据和MS图像数据共有特征的融合；

S201、由于H代表了谱段信息，因此使用IHS变化得到MS的H分量；

S202、使用Haar离散小波变换对PAN和MS数据的H分量进行融合，将其融合后的数据称为MSHPAN图像数据；

S3、PAN图像数据、MSHPAN图像数据和MS图像预处理；

S302、选取训练集和测试集，在归一化后的图像中找到有对应类标的像素点，以每个像素为中心取PAN图和MSHPAN图邻域64*64的区域，MS图邻域16*16作为样本块对，每个块的邻域为中心点的分类所服务。然后取每类的百分之十样本作为训练集，其余作为测试集；

S4、预处理，由于PAN和MSHPAN图是MS图的四倍，所以PAN和MSHPAN图先经过一层步长为1的5*5卷积与步长为2的最大池化和两层步长为1的3*3卷积与步长为2的最大池化。而MS经过一层3*3卷积，步长为2的最大池化操作。此时三者的特征块的尺寸与通道数将相同，以便后续的特征融合；

S5、自适应感受野网络模块A的设计，如图1所示；

S501、通过不同的卷积核(1*1、3*3、5*5)对其输入进行卷积操作，分别得到F₁、F₂、F₃，同时为了不丢失浅层的信息，我们保留其输入F₀，将其输入全连接的神经网络，最后通过sigmoid函数，将其约束在[0,1]之间，得到其掩膜α₀、α₁、α₂、α₃；

其中，c表示通道数。

S502、最后将掩膜与其对应的输入相乘得到

S_F＝σ(S)

S6、设计自适应通道信息提取的B网络；

S601、将A的输出S_F作为B的输入，首先将S_F的维度均分成两份，然后通过全局平均池化压缩S_F的空间信息，保留其通道谱段信息得到V_F；

其中，H和W为高和宽。

S602、通过softmax激活函数得到掩膜α和β，将得到的掩膜与其输入分别相乘得到和/>将其拼接作为B模块的输出；

α+β＝1

S7、设计基于自适应感受野网络模块A和B网络通道选择的渐进融合网络；

S701、在此网络设计过程中，设计三个提取模块，FEBlock1，FEBlock2，FEBlock3；

第一个提取模块(FEBlock1)提取的是浅层信息，不进行融合；

随着层数的增加，中层模块(FEBlock2)提取的是相对FEBlock1的特征，此时将共有和特有特征之间分别进行融合，将中间支路FEBlock2自适应感受野模块A之后提取的空间信息加到上面PAN支路的FEBlock2的输出，加强空间信息的提取，同时将中间支路FEBlock2自适应通道B模块之后提取的谱段信息加到下面MS支路的FEBlock2的输出，加强谱段信息的提取。深层(FEBlock3)提取的是内核信息，因而对其进行全融合；

S702、将PAN、MSHPAN、MS的特征提取支路的FEBlock3输出拼接且拉成一维向量并合并，再经过三层全连接层与一层softmax分类层；

各层的参数如下：

PAN图支路：第一层：5*5卷积层，步长为1，最大池化层步长为2，输入通道数1，输出通道数8；

模块A：直接映射支路：

5*5卷积层，步长为1，填充为2，输入通道数16，输出通道数16

模块B：直接映射支路：

1*1卷积层，步长为1，输入通道数32，输出通道数8；

1*1卷积层，步长为1，输入通道数8，输出通道数32；

MSHPAN支路：和PAN支路的参数相同；

全连接层一：输入8092节点，输出512节点；

全连接层二：输入512节点，输出128节点；

全连接层三：输入128节点，输出样本类别数节点。

S8、构造网络的损失函数。

在网络训练时，使用交叉熵损失：

其中，p(x)为分类的真实概率分布，q(x)为分类的预测概率分布；

S9、超参数的调整；

S901、训练样本数：总数据集的10％；

S902、初始的学习率：0.0001；

S903、迭代的总次数：60000；

S904、每次输入的样本数：1200。

S10、用训练数据集对分类模型进行训练，得到训练好的分类模型。

将训练集的样本块对作为分类器的输入，其中MS、MSHPAN、PAN图相对应的一对同时输入网络的三个支路，训练数据集中每个像素点的类别作为分类模型的输出，通过求解上述类别与地面实况图上所对应的真实类别之间的误差并对误差进行反向传播，不断地来优化分类模型的网络参数，得到训练好的分类模型。

S11、利用训练好的模型对测试数据集进行分类，得到测试数据集中每个像素点的类别。

将测试数据集的样本块作为训练好的分类模型的输入，训练好的分类模型的输出为测试数据集中每个像素点进行分类得到的分类类别。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的效果可以通过以下仿真实验进一步说明：

1.仿真条件：

硬件平台为：HP-Z840工作站，TITAN-X-12GB-GPU,64GB RAM。

软件平台为：Python，PyTorch深度学习框架。

2.仿真内容与结果：

本发明仿真实验的图像是西安市区遥感图像。其中PAN图像由3200*3320像素组成，MS图像由800*830*4像素组成。带标签的分类场景有建筑、道路、树木、土壤、平地、水和阴影共七类。经过训练之后，我们的方法的OA为0.97，AA为0.96，Kappa系数为0.9679。在特征提取阶段进行特征间的交互融合确实有助于分类性能的提升，而且提出的自适应感受野和自适应通道的选择也确实能进一步地提升遥感图像的逐像素分类性能。

综上所述，本发明一种逐像素分类方法、存储介质及分类设备，解决目前现有技术的融合方式简单粗暴和分类精度低的问题，可用于异源多分辨率的图像的融合分类。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种逐像素分类方法，其特征在于，包括以下步骤：

S5、设计自适应感受野网络模块A，步骤S5具体为：

其中，c表示通道数；

S502、最后将掩膜与其对应的输入相乘得到

S_F＝σ(S)

其中，σ为sigmoid激活函数；

S6、设计自适应通道的谱段信息提取的B模块，具体为：

S602、通过softmax激活函数得到掩膜α和β，将得到的掩膜与其输入分别相乘得到和将其拼接作为自适应通道的谱段信息提取的B模块的输出O；

α+β＝1

其中，为乘上权重α的特征，/>为乘上权重β的特征，α为S₁的掩膜，β为为S₂的掩膜；

S7、利用步骤S4预处理后的PAN图像数据、MSHPAN图像数据和MS图像数据，设计基于步骤S5自适应感受野网络模块A和步骤S6自适应通道的谱段信息提取的B模块的渐进融合网络，具体为：

第一个提取模块FEBlock1提取浅层信息，不进行融合；

深层提取模块FEBlock3用于对内核信息进行全融合；

S702、将PAN、MSHPAN、MS的特征提取支路的深层提取模块输出拼接且拉成一维向量并合并，再经过三层全连接层与一层softmax分类层；

S8、构造步骤S7渐进融合网络的损失函数，交叉熵损失函数为：

S9、对步骤S7渐进融合网络进行超参数调整，超参数的调整具体为：

训练样本数：总数据集的10％；初始的学习率：0.0001；迭代的总次数：60000；每次输入的样本数：1200；

2.根据权利要求1所述的方法，其特征在于，步骤S3具体为：

3.根据权利要求1所述的方法，其特征在于，步骤S702中，各层的参数如下：

PAN图支路：

自适应感受野网络模块A：直接映射支路：

自适应通道的谱段信息提取的B模块：直接映射支路：

1*1卷积层，步长为1，输入通道数32，输出通道数8；

1*1卷积层，步长为1，输入通道数8，输出通道数32；

MSHPAN支路：和PAN支路的参数相同；

全连接层一：输入8092节点，输出512节点；

全连接层二：输入512节点，输出128节点；

全连接层三：输入128节点，输出样本类别数节点。

4.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1或2或3所述的方法中的任一方法。

5.一种计算设备，其特征在于，包括：

一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1或2或3所述的方法中的任一方法的指令。