CN112308860A

CN112308860A - 基于自监督学习的对地观测图像语义分割方法

Info

Publication number: CN112308860A
Application number: CN202011177523.5A
Authority: CN
Inventors: 冉令燕; 冀程; 李政; 张艳宁
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-02-02
Anticipated expiration: 2040-10-28
Also published as: CN112308860B

Abstract

本发明提供了一种基于自监督学习的对地观测图像语义分割方法。采用语义图像修复任务作为自监督学习的辅助任务对编解码图像修复网络进行预训练，并引入显著性检测和注意力机制，以提高网络的区域特征提取能力；随后，将预训练的网络经过微调用于语义分割任务，实现对仅有少量标签的对地观测图像数据集的语义分割。本发明能够解决标注数据不足的情况下现有语义分割方法难以从对地观测图像中提取特征和分割精度不足的问题，具有更高的语义分割精度。

Description

基于自监督学习的对地观测图像语义分割方法

技术领域

本发明属计算机视觉、语义分割技术领域，具体涉及一种基于自监督学习的对地观测图像语义分割方法。

背景技术

语义分割是计算机视觉领域中一个重要而富有挑战性的任务，它的目标是把图像以像素级分割成不同语义类别的区域块，并给出每个像素的类别标签。对地观测图像是由成像卫星、无人机等捕获的高空图像，近年来对对地观测图像进行语义分割任务得到学者的普遍关注，并在作物产量预测、路网提取、场景解析和植被覆盖等许多应用中有着重要的应用前景。目前，对地观测图像的语义分割存在以下问题：(1)类间实例的相似性和类内物体的差异性问题，并且背景较为复杂难以区分；(2)图片的多样性强、标注难度大，需要领域专家进行标注，难以获得大规模的像素级别标注的数据集。

随着深度学习的发展，语义分割架构通常使用编码器和解码器，主要采用的是卷积神经网络结构，其在图像特征提取方面的优异表现得益于大量带标签的训练数据。然而，手工标注的难度大且时间代价高昂，这一问题在要求像素级别标签的语义分割方面尤为突出。因此，仅使用少量的带有像素级别标签的数据进行训练，或者采用相对容易的标注方式如图片分类标签进行标注的弱监督学习方法受到越来越多的关注。近年来，许多研究者致力于采用自监督学习技术进行模型的预训练，利用辅助任务从无标签数据中自行学习，无需任何标注数据。文献“Pathak D,Krahenbuhl P,Donahue J,et al.Context Encoders:Feature Learning by Inpainting[C]//2016IEEE Conference on Computer Vision andPattern Recognition(CVPR).IEEE,2016.”提出了基于上下文像素预测的无监督视觉特征学习算法，主要思路是结合编解码网络结构和对抗生成网络实现语义图像的修复，其上下文编码器使用卷积神经网络的结构，可以有效地对周围环境信息进行特征提取从而实现图像修复的任务。文献“Hung W C,Tsai Y H,Liou Y T,et al.Adversarial Learning forSemi-Supervised Semantic Segmentation[J].2018.”采用对抗训练的方式，利用未标记图像来增强语义分割模型，提高了半监督学习语义分割的精度。文献“Singh S,Batra A,Pang G,et al.Self-Supervised Feature Learning for Semantic Segmentation ofOverhead Imagery[C]//BMVC,2018.2018.”将语义图像修复任务作为辅助任务进行自监督学习，通过利用无标签的数据对上下文编码器进行训练，随后将与训练好的网络应用于其他视觉任务中，但是由于采用对抗训练收敛性差，分割效果不够理想。

发明内容

为了克服现有技术的不足，本发明提供一种基于自监督学习的对地观测图像语义分割方法。采用语义图像修复任务作为自监督学习的辅助任务对编解码网络进行预训练，并引入显著性检测和注意力机制，以提高网络的区域特征提取能力；随后，将预训练的网络经过微调用于语义分割任务，实现对仅有少量标签的对地观测图像数据集的语义分割。本发明能够解决标注数据不足的情况下现有语义分割方法难以从对地观测图像中提取特征和分割精度不足的问题，具有更高的语义分割精度。

一种基于自监督学习的对地观测图像语义分割方法，其特征在于步骤如下：

步骤1：将待处理对地观测图像数据集按照8:2的比例划分为训练集和测试集两部分，其中，训练集中10％的图像带标签、其余图像不带标签，并对每幅图像进行数据增广操作；

步骤2：分别将训练集和测试集中的每一幅图像按以下过程进行处理：

步骤a：对图像进行显著性检测；

步骤b：对显著性检测结果进行二值化处理，得到与原图像对应的掩膜；

步骤c：利用掩膜对原图像进行覆盖处理，得到损坏图像；

步骤3：将步骤2处理后的训练集和测试集中的图像输入到编解码图像修复网络中进行训练，设定网络的损失函数为引入注意力机制的MSE均方误差损失，并训练400epoch，得到训练好的模型；所述的编解码图像修复网络以ResNet18网络为基础，剔除其全连接层并增加五组反卷积层和像素级回归层得到，网络输出图像与输入图像具有相同尺寸；

然后，去掉训练好的编解码图像修复网络中的像素级回归层，采用跳跃连接的特征融合方式，并加入像素级分类层，得到用于语义分割的网络模型；

步骤4：以平均交并比mIoU作为语义分割精度的评价指标，将训练集中带标签的图像输入到步骤3得到的语义分割网络模型中训练200epoch，再将测试集中的图像输入到训练后的模型中，模型输出每个像素点的预测类别，按照不同颜色对不同类别像素进行渲染，得到与原图像尺寸相同的分割结果图像。

进一步，步骤2中的步骤a所述的显著性检测的具体处理过程如下：

首先，采用基于图的图像分割技术将图像分割为互不重叠的若干区域，并按照下式计算得到每两个区域之间的颜色距离函数值：

其中，D_c(r₁,r₂)表示区域r₁和区域r₂之间的颜色距离函数值，n₁表示区域r₁中包含的像素颜色总数，n₂表示区域r₂中包含的像素颜色总数，p₁(i)表示区域r₁中第i种像素颜色出现的概率，p₂(j)表示区域r₂中第j种像素颜色出现的概率，i和j分别为区域r₁和区域r₂中的像素颜色序号；c_i表示区域r₁中的第i个像素颜色，c_j表示区域r₂中的第j个像素颜色，D(c_i,c_j)表示L*a*b色彩空间中两个像素颜色c_i和c_j之间的色差；D_c(r_k,r_l)表示区域r_k和区域r_l之间的颜色距离函数值；

然后，按照下式计算得到每个区域的显著性值：

其中，S(r_k)表示区域r_k的显著性值，r_k表示第k个区域，r_l表示第l个区域，k,l＝1,2,…,K，且k≠l，K为区域总数，D_S(r_k,r_l)表示两个区域r_k和r_l之间的欧氏距离，σ_S为空间距离控制权值，取值范围为[0.4,0.5]，ω(r_l)表示区域r_l包含的像素数量；

将图像中的像素值置为其所属区域的显著性值，得到显著性检测结果图像。

进一步，步骤2中的步骤b的具体处理过程为：以显著性检测结果图像的平均灰度值作为阈值，将显著性检测结果图像中像素灰度值大于等于阈值的像素值置为0，将显著性检测结果图像中像素灰度值小于阈值的像素值置为1，并统计值置为0的像素个数占图像像素总数的比例α，如果α<0.25，则随机将显著性检测结果图像20％的像素块中的像素值置为0，如果α>0.5，则随机将显著性检测结果图像20％的像素块中的像素值置为1，此时得到的图像即为与原图像对应的掩膜；所述的像素块是将图像进行均匀切分得到的像素区域，共切分成16×16个像素块。

进一步，步骤2中的步骤c的具体处理过程为：按照下式计算得到损坏图像：

其中，

表示掩膜覆盖后的损坏图像，x表示原图像，M表示图像x对应的掩膜，⊙表示像素点积计算。

进一步，步骤3所述的引入注意力机制的MSE均方误差损失函数的计算表达式如下：

L_inpainting＝w_resL_res+w_conL_con (4)

其中，L_inpainting表示网络的总损失函数，L_res为重建损失，L_con为上下文损失，w_res为重建损失加权系数，本发明中w_res＝0.95，w_con为上下文损失加权系数，本发明中w_con＝0.05；

重建损失L_res和上下文损失L_con的计算公式分别为：

其中，

表示掩膜覆盖后的损坏图像，x表示原图像，M表示图像x对应的掩膜，M¹表示大小与M相同、元素值均为1的矩阵，i,j分别表示矩阵的行号和列号，图像大小为n×n，M_i,j表示图像M中位置为第i行j列的像素值，M¹ _i,j表示矩阵M¹中第i行j列元素值，

表示输入损坏图像

后网络的输出图像，F((M¹-M)⊙x)表示输入(M¹-M)⊙x后网络的输出，W_c表示待增强的任一类别c的权重矩阵，其计算公式如下：

W_c＝(1+βM_c) (7)

其中，β表示权值系数，本发明中β＝0.01，M_c表示类激活图，其每个像素值按照下式计算得到：

其中，(i,j)表示像素坐标，i,j＝1,2,…,n，M_c(i,j)表示位置(i,j)处的像素类激活值，k表示网络模型中最后一层卷积层中的节点序号，取值范围为1,2,…,K，K为模型中最后一层卷积层包含的节点总数，f_k(i,j)表示位置(i,j)处的第k个节点的激活值，

是节点k对图像中类别c的权重，本发明中取值为全局平均池化层在节点k的梯度。

进一步，步骤3所述的训练过程为：首先，将处理后的训练集中的所有图像输入到图像修复网络进行一次训练，得到初步训练的网络模型；然后，将处理后的测试集中的所有图像输入到初步训练后的网络，并计算网络损失函数值，记为L_test，如果L_test>L_min则进入下一轮训练，L_min为最小损失函数值；否则，按照L_min＝L_test更新最小损失函数值，并保存当前模型参数，进入下一轮训练，重复前述过程，直至完成设定的训练epoch数，得到训练好的网络；其中，最小损失函数值L_min初始时设置为10⁵。

进一步，步骤4所述的平均交并比mIoU按照下式计算得到：

其中，n表示数据集中图像的标签类别数，c为类别序号，IoU_c表示类别c的交并比，按照下式计算得到：

其中，TP_c表示标签为类别c且被预测为类别c的像素数目，FP_c表示标签不是类别c但被预测为类别c的像素数目，FN_c表示标签为类别c但被预测为其他类别的像素数目。

本发明的有益效果是：(1)由于采用自监督学习技术在仅有少量标签的数据集上实现了对地观测图像的语义分割任务，能够利用语义图像修复作为辅助任务对编解码网络进行预训练，充分使用无标签的对地观测图像，提高编解码网络在待分割数据集上的特征提取能力，从而提高语义分割的精度；(2)由于采用显著性检测生成有语义意义的掩膜，在自监督阶段增加修复任务的难度，使得编解码网络能够更好地学习修复较为困难的复杂区域特征；(3)由于引入注意力机制的MSE均方误差损失函数，对分类有帮助的区别性图像区域能够得到更高的损失，可以更有针对性地提高部分类别的特征提取能力。

附图说明

图1是本发明的基于自监督学习的对地观测图像语义分割方法流程图；

图2是本发明的基于自监督学习的对地观测图像语义分割方法示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种基于自监督学习的对地观测图像语义分割方法，其具体实现过程如下：

1、数据集预处理

将待处理对地观测图像数据集(如ISPRS Potsdam数据集)按照8:2的比例划分为训练集和测试集两部分，其中，训练集中只有少量，即10％的图像带标签，其余图像不带标签。对数据集中图像进行了切割之后，再进行翻转变换、随机旋转变换、上下左右平移变换、随机裁切、大小缩放变换等增广操作。整个训练集是图像修复模型的输入以训练模型参数，带标签数据为语义分割任务的输入，测试集分别用于编解码网络特征提取性能和最终语义分割精度的测试评价。

2、对数据进行显著性检测并生成掩膜

对训练集和测试集中的每一幅图像计算空间加权的区域对比度，得到与输入图像相同尺寸的显著性检测图像。

其中，D_c(r₁,r₂)表示区域r₁和区域r₂之间的颜色距离函数值，n₁表示区域r₁中包含的像素颜色总数，n₂表示区域r₂中包含的像素颜色总数，p₁(i)表示区域r₁中第i种像素颜色出现的概率，p₂(j)表示区域r₂中第j种像素颜色出现的概率，i和j分别为区域r₁和区域r₂中的像素颜色序号；c_i表示区域r₁中的第i个像素颜色，c_j表示区域r₂中的第j个像素颜色，D(c_i,c_j)表示L*a*b色彩空间中两个像素颜色c_i和c_j之间的色差。

然后，在全局范围内进行加权计算区域对比度，按照下式计算得到每个区域的显著性值：

其中，S(r_k)表示区域r_k的显著性值，r_k表示第k个区域，r_l表示第l个区域，k,l＝1,2,…,K，且k≠l，K为区域总数，D_S(r_k,r_l)表示两个区域r_k和r_l之间的欧氏距离，σ_S为空间距离控制权值，取值范围为[0.4,0.5]，其数值越大权值影响越小。ω(r_l)表示区域r_l包含的像素数量。D_c(r_k,r_l)为利用公式(11)计算的区域r_k和区域r_l之间的颜色距离函数值。

计算显著性图像的均值将其设定为阈值，若像素的灰度值大于阈值则设置为0，小于则设置为1，同时计算当前擦除比例(0像素的占比)α，由于的图片中显著性区域在图片中的占比差异较大，若α<0.25，则随机擦除部分区域，即将显著性检测结果图像20％的像素块中的像素值置为0，若α>0.5，则随机删减部分显著性检测区域，即将显著性检测结果图像20％的像素块中的像素值置为1，得到最终掩膜。其中，像素块是将图像进行均匀切分得到的像素区域，共切分成16×16个像素块。

3、生成语义图像修复任务的输入数据

将步骤2得到的掩膜覆盖在对应图像上，其中对于每幅图像的掩膜M，掩膜值为0的像素从图像中擦除，为1的像素保持不变，即按照下式计算得到覆盖掩膜之后的损坏图像：

其中，

4、设计引入注意力机制的损失函数

按照下式计算得到类别c的类激活图M_c：

类激活图M_c用来表示激活空间位置(i,j)对于类别c的分类重要性。

采用引入注意力机制的损失函数在语义图像修复任务中进行训练，让类激活图中数值较大的区域(即更容易被注意到的区域)拥有更高的损失，按照下式计算得到重建损失L_res和上下文损失L_con：

其中，

表示输入损坏图像

后网络的输出图像，F((M¹-M)⊙x)表示输入(M¹-M)⊙x后网络的输出，W_c表示待增强的类别c的权重矩阵，其计算公式如下：

W_c＝(1+βM_c) (17)

其中，β表示权值系数，本发明中β＝0.01。

按照下式计算得到最终语义图像修复使用的损失函数，即引入注意力机制的MSE均方误差损失函数，其计算表达式如下：

L_inpainting＝w_resL_res+w_conL_con (18)

其中，L_inpainting表示网络的总损失函数，L_res为重建损失，L_con为上下文损失，w_res为重建损失加权系数，本发明中w_res＝0.95，w_con为上下文损失加权系数，本发明中w_con＝0.05。

5、训练得到语义图像修复模型

设定最小损失函数值L_min初始时为10⁵，将步骤3处理后的训练集中的所有图像输入到编解码图像修复网络中进行训练，得到训练好的网络。其中，编解码图像修复网络是以ResNet18网络为基础，剔除其全连接层并增加五组反卷积层和像素级回归层得到，网络输出图像与输入图像具有相同尺寸，使用公式(18)的引入注意力机制的MSE均方误差损失函数作为编解码图像修复网络的损失函数，并设定共训练400epoch。具体训练过程为：首先，将处理后的训练集中的所有图像输入到图像修复网络进行一次训练，得到初步训练的网络模型；随后在初步训练后的网络中输入经过处理的所有测试集数据，并计算网络损失函数值，记为L_test，如果L_test>L_min则进入下一轮训练，L_min为最小损失函数值；否则，按照L_min＝L_test更新最小损失函数值，并保存当前模型参数，进入下一轮训练；重复这一步骤直至完成设定的训练epoch数。

将训练好的编解码网络结构进行微调，即：去掉网络中的像素级回归层，采用跳跃连接的特征融合方式，并加入像素级分类层，得到用于语义分割的网络模型，以实现精确的像素级预测。

6、语义分割

以平均交并比mIoU作为语义分割精度的评价指标，将训练集中带标签的图像输入到语义分割网络模型中进行训练，训练200epoch，得到训练好的模型。平均交并比mIoU按照下式计算得到：

然后，将测试集中的图像输入到训练好的模型中，模型输出每个像素点的预测类别，按照不同颜色对不同类别像素进行渲染，以实现可视化，得到与原图像尺寸相同的分割结果图像。

本发明通过一种语义图像修复任务作为自监督学习的辅助任务在仅有少量标签的对地观测图像数据集上实现语义分割，采用自监督学习的方式充分利用无标签的对地观测图像数据，提高编解码网络在待分割数据集上的特征提取能力，并将训练好的编解码网络应用到语义分割任务中，显著提高语义分割精度。本发明通过引入显著性检测生成带有语义意义的掩膜，在自监督学习阶段增加修复任务的难度，训练出能够提取修复较为困难的复杂区域特征的模型。由于采用注意力机制增强了语义图像修复任务的损失函数，有针对性地提高对分类有帮助的区别性图像区域的特征提取能力，有效解决图片多样性强、类间目标相似性强导致分割精度低的难题。将训练好的编解码网络经过微调应用到语义分割任务中，能够有效地提高对地观测图像数据集的语义分割精度。

Claims

1.一种基于自监督学习的对地观测图像语义分割方法，其特征在于步骤如下：

步骤a：对图像进行显著性检测；

步骤c：利用掩膜对原图像进行覆盖处理，得到损坏图像；

2.如权利要求1所述的一种基于自监督学习的对地观测图像语义分割方法，其特征在于：步骤2中的步骤a所述的显著性检测的具体处理过程如下：

其中，D_c(r₁,r₂)表示区域r₁和区域r₂之间的颜色距离函数值，n₁表示区域r₁中包含的像素颜色总数，n₂表示区域r₂中包含的像素颜色总数，p₁(i)表示区域r₁中第i种像素颜色出现的概率，p₂(j)表示区域r₂中第j种像素颜色出现的概率，i和j分别为区域r₁和区域r₂中的像素颜色序号；c_i表示区域r₁中的第i个像素颜色，c_j表示区域r₂中的第j个像素颜色，D(c_i,c_j)表示L*a*b色彩空间中两个像素颜色c_i和c_j之间的色差；

然后，按照下式计算得到每个区域的显著性值：

其中，S(r_k)表示区域r_k的显著性值，r_k表示第k个区域，r_l表示第l个区域，k,l＝1,2,…,K，且k≠l，K为区域总数，D_S(r_k,r_l)表示两个区域r_k和r_l之间的欧氏距离，σ_S为空间距离控制权值，取值范围为[0.4,0.5]，ω(r_l)表示区域r_l包含的像素数量；D_c(r_k,r_l)表示区域r_k和区域r_l之间的颜色距离函数值；

3.如权利要求1或2所述的一种基于自监督学习的对地观测图像语义分割方法，其特征在于：步骤2中的步骤b的具体处理过程为：以显著性检测结果图像的平均灰度值作为阈值，将显著性检测结果图像中像素灰度值大于等于阈值的像素值置为0，将显著性检测结果图像中像素灰度值小于阈值的像素值置为1，并统计值置为0的像素个数占图像像素总数的比例α，如果α<0.25，则随机将显著性检测结果图像20％的像素块中的像素值置为0，如果α>0.5，则随机将显著性检测结果图像20％的像素块中的像素值置为1，此时得到的图像即为与原图像对应的掩膜；所述的像素块是将图像进行均匀切分得到的像素区域，共切分成16×16个像素块。

4.如权利要求1、2或3所述的一种基于自监督学习的对地观测图像语义分割方法，其特征在于：步骤2中的步骤c的具体处理过程为：按照下式计算得到损坏图像：

其中，

5.如权利要求1、2、3或4所述的一种基于自监督学习的对地观测图像语义分割方法，其特征在于：步骤3所述的引入注意力机制的MSE均方误差损失函数的计算表达式如下：

L_inpainting＝w_resL_res+w_conL_con (4)

重建损失L_res和上下文损失L_con的计算公式分别为：

其中，

表示输入损坏图像

W_c＝(1+βM_c) (7)

6.如权利要求1、2、3、4或5所述的一种基于自监督学习的对地观测图像语义分割方法，其特征在于：步骤3所述的训练过程为：首先，将处理后的训练集中的所有图像输入到图像修复网络进行一次训练，得到初步训练的网络模型；然后，将处理后的测试集中的所有图像输入到初步训练后的网络，并计算网络损失函数值，记为L_test，如果L_test>L_min则进入下一轮训练，L_min为最小损失函数值；否则，按照L_min＝L_test更新最小损失函数值，并保存当前模型参数，进入下一轮训练；重复前述过程，直至完成设定的训练epoch数，得到训练好的网络；其中，最小损失函数值L_min初始时设置为10⁵。

7.如权利要求1、2、3、4、5或6所述的一种基于自监督学习的对地观测图像语义分割方法，其特征在于：步骤4所述的平均交并比mIoU按照下式计算得到：