CN114283162A

CN114283162A - 基于对比自监督学习的现实场景图像分割方法

Info

Publication number: CN114283162A
Application number: CN202111607559.7A
Authority: CN
Inventors: 刘坤; 孟蕊; 石肖松; 杨晓松
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-05

Abstract

本发明为一种基于对比自监督学习的现实场景图像分割方法，包括设计对比自监督学习分割模型和损失函数；对比自监督学习分割模型包括上、下两个分支，每个分支均包括依次连接的编码器、解码器、特征投影模块和预测器；输入图像被随机裁剪为两个存在重叠区域的图像补丁，两个图像补丁分别经过对比自监督学习分割模型的两个分支进行处理；设计的损失函数包含图像级损失和像素级上下文对齐损失，图像级损失主要用于计算特征投影模块的输出特征图与预测器得到的预测图之间的损失，像素级上下文对齐损失主要通过最大化两个图像补丁重叠区域的相似度以及最小化非重叠区域对特征提取的干扰程度，构建图像像素之间的空间上下文关系。

Description

基于对比自监督学习的现实场景图像分割方法

技术领域

本发明涉及机器视觉技术领域，具体提供一种基于对比自监督学习的现实场景图像分割方法。

背景技术

随着汽车技术的智能化发展，无人驾驶已经成为研究热点。无人驾驶车辆通常需要配制各种传感器，在行驶过程中通过采集现实场景图像对驾驶环境进行分析，进而引导无人驾驶车辆安全行驶。而在无人驾驶系统设计过程中，图像分析和场景理解是十分重要的环节，图像分析的关键是现实场景图像的分割。

虽然基于深度学习的图像分割已经取得了良好效果，但是需要依赖于大量的人工标注数据，成本高昂且费时费力。自监督学习是深度无监督学习的一个代表分支，其利用图像本身的信息构造伪标签训练模型，无需数据标注，因此国内外众多学者广泛应用自监督学习技术对现实场景图像进行分割，例如Roh B等人根据几何平移和缩放操作来产生随机裁剪的局部区域，使用ROIAlign层生成局部区域的池化特征，使模型学习连续的空间特征表示。但是在图像分割中，模型不知道应该在图像中生成多少个有意义的区域，即未考虑空间连续性损失，具体参见文献《Roh B,Shin W,Kim I,et al.Spatially consistentrepresentation learning[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2021:1144-1153.》。

此外，现有的自监督学习技术通常聚焦于生成图像级的全局不变表征，忽略了图像内部像素上下文之间的关系，因而限制了模型对图像分割的泛化能力，导致分割效果不理想。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提供一种基于对比自监督学习的现实场景图像分割方法。

为实现上述目的，本发明采用的技术方案是：

一种基于对比自监督学习的现实场景图像分割方法，其特征在于，该方法包括设计对比自监督学习分割模型和损失函数；其中，对比自监督学习分割模型包括上、下两个结构相同的分支，每个分支均包括依次连接的编码器、解码器、特征投影模块和预测器；输入图像被随机裁剪为两个存在重叠区域的图像补丁，两个图像补丁分别经过对比自监督学习分割模型的两个分支进行处理；

编码器包括深度卷积神经网络和融合空洞卷积的空间金字塔池化模块；首先，利用深度卷积神经网络对图像补丁进行特征提取，得到浅层特征图；然后，利用融合空洞卷积的空间金字塔池化模块对浅层特征图进行优化，得到深度特征图；

解码器包含两个二维卷积层和两个上采样层；深度特征图首先经过二维卷积层改变通道数，然后经过解码器的第一个上采样层后再与浅层特征图经过解码器的第一个二维卷积层处理后的特征图进行融合，融合后的特征图依次经过第二个二维卷积层和第二个上采样层后，得到解码器的输出特征图；

特征投影模块包含全连接层和ReLU层，解码器的输出特征图依次经过全连接层、ReLU层和全连接层后，得到特征投影模块的输出特征图；

预测器由一维卷积模块、批归一化和分类器组成。

进一步的，对比自监督学习分割模型的处理过程如下：

首先，假定两个图像补丁为x₁和x₂，重叠区域为x_o；两个图像补丁分别经过对应的编码器和解码器映射为特征图f₁和f₂；特征图f₁和f₂分别经过对应的特征投影模块映射为特征图φ₁和φ₂，特征图φ₁和φ₂中的重叠区域分别用φ_o1和φ_o2表示；

其次，假定特征图φ₁的通道数为p，特征图φ₁经过预测器的一维卷积模块，获得响应映射图

响应映射图

包含p个通道响应映射图r_n，

表示通道响应映射图r_n中的第n个像素点，N表示通道响应映射图r_n中的像素点总数，

表示一维卷积模块的参数矩阵；

然后，对所有的通道响应映射图r_n进行批归一化处理，得到归一化响应图

r′_n表示归一化响应图中的第n个像素点；

最后，分类器通过argmax函数将归一化响应图

中的所有像素点聚类为q个集群，得到聚类标签

c_n表示第n个像素点的聚类标签，c_n＝1,2,…,q。

进一步的，所设计的损失函数为：

L＝L_s+L_ca (2)

其中，L_s、L_ca分别表示图像级损失和像素级上下文对齐损失；

图像级损失的表达式如下：

L_s＝L_sim({r′_n,c_n})+μL_con({r′_n}) (3)

其中，L_sim({r′_n,c_n})、L_con({r′_n})分别表示特征相似性损失和空间连续性损失，μ表示平衡两个约束的权重；

聚类标签c_n被进一步用作伪标签，通过式(4)计算归一化响应图

和聚类标签

之间的交叉熵损失，即特征相似性损失；

其中，

空间连续性损失的表达式为：

其中，W和H分别表示归一化响应图的宽度和高度，r′_ξ,η、r′_ξ+1,η和r′_ξ,η+1分别表示归一化响应图中像素点(ξ,η)、(ξ+1,η)、(ξ,η+1)处的像素值；|| ||₁表示L1范数；

令训练批次的批尺寸为B，则像素级上下文对齐损失L_ca为：

第b个输入图像的像素级上下文对齐损失

为：

其中，

分别表示从图像补丁x₁到x₂的上下文对齐损失以及从图像补丁x₂到x₁的上下文对齐损失；r(·)表示两个像素点之间相似度的指数函数，

分别表示重叠区域φ_o1和φ_o2中的像素点；M表示一个训练批次内重叠区域的个数，

表示重叠区域φ_o1的负样本，

表示同一训练批次内不同输入图像的图像补丁构成的负样本集；

表示二进制掩码。

进一步的，在模型训练过程中，随机选择正、负样本作为对比自监督学习分割模型的输入；其中，将属于同一输入图像的两个图像补丁中的重叠区域和视为正样本对，将图像补丁的非重叠区域视为负样本和属于不同输入图像的两个图像补丁视为负样本对。

进一步的，该方法还包括设置参数，训练对比自监督学习分割模型，将训练后的对比自监督学习分割模型移植到分割程序中，实际应用时将采集的现实场景图像输入到训练后的对比自监督学习分割模型中，对现实场景图像进行分割。

与现有技术相比，本发明的有益效果是：

1.本发明将对比自监督学习应用于自动驾驶等现实场景的图像分割中，构建对比自监督学习分割模型，借助自监督学习模型优异的特征提取能力缓解深度学习对标签数据的依赖性，在保证识别准确性及实时性的前提下，不需要对输入图像进行标注，大大减少了人力成本，训练后的对比自监督分割模型对现实场景图像有更好的泛化能力，分割性能远远优于传统机器视觉和一般的无监督方法。

2.从无标注的输入图像中随机裁剪得到两个图像补丁，分别通过对比自监督学习分割模型的上、下分支对两个图像补丁进行特征提取；在模型训练过程中，将属于同一输入图像的两个图像补丁中的重叠区域视为正样本对，将图像补丁的非重叠区域视为负样本和属于不同输入图像的两个图像补丁视为负样本对，通过拉近正样本对之间的距离和使重叠区域与其他区域的特征远离来构建两个图像补丁之间的空间上下文关系，同时充分利用了图像像素级上下文之间的关系。即使输入图像的真实标签未知，在不同环境下对比自监督分割模型提取的特征的一致性仍然可以保持，因为两个图像补丁的重叠区域存在像素级的一一对应关系。

3.设计的损失函数包含图像级损失以及像素级上下文对齐损失，图像级损失主要用于计算特征投影模块的输出特征图与预测器得到的预测图之间的损失，图像级损失主要考虑特征相似性约束和空间连续性约束，空间连续性约束主要用于增强当前像素点以及相邻像素点的聚类标签的一致性，使得相同类别的像素点的聚类标签更加密集且具有唯一性，在空间上有效整合了图像像素，提高图像分割精度；像素级上下文对齐损失主要通过最大化两个图像补丁重叠区域的相似度以及最小化非重叠区域对特征提取的干扰程度，构建图像像素之间的空间上下文关系。

附图说明

图1为本发明的对比自监督学习分割模型的结构图；

图2为本发明的对比自监督学习分割模型其中一个分支的结构图；

图3为本发明的流程图。

具体实施方式

下面将结合附图和具体实施例对本发明的技术方案进行详细描述，但并不以此限定本申请的保护范围。

本发明为一种基于对比自监督学习的现实场景图像分割方法，该方法包括以下内容：

一、设计对比自监督分割模块：

对比自监督学习分割模型包括上、下两个结构相同的分支，每个分支均包括依次连接的编码器、解码器、特征投影模块和预测器；输入图像被随机裁剪为两个存在重叠区域的图像补丁，两个图像补丁分别经过对比自监督学习分割模型的两个分支进行处理；

编码器包括深度卷积神经网络和融合空洞卷积的空间金字塔池化模块；首先，利用深度卷积神经网络(Deep convolution neural network,DCNN)对图像补丁进行特征提取，得到浅层特征图；然后，利用融合空洞卷积的空间金字塔池化模块(Atrous spatialpyramid pooling,ASPP)对浅层特征图进行优化，得到深度特征图；

解码器包含两个二维卷积层和两个上采样层；深度特征图首先经过卷积核为1×1的二维卷积层改变通道数，然后经过解码器的第一个上采样层后再与DCNN提取的浅层特征图经过解码器的第一个二维卷积层处理后的特征图进行融合，利用浅层特征图对上采样不能恢复的位置信息进行优化；融合后的特征图依次经过第二个二维卷积层和第二个上采样层后，得到解码器的输出特征图；第一个二维卷积层的卷积核大小为1×1，用于改变浅层特征图的通道数，以便进行融合；第二个二维卷积层的卷积核大小为3×3；两个上采样层的步长均为4；

特征投影模块包含全连接层和ReLU层，解码器的输出特征图依次经过全连接层、ReLU层和全连接层后，得到特征投影模块的输出特征图；特征投影模块有助于识别图像补丁中的不变特征，并最大限度地提高对比自监督学习分割模型识别经过不同变换后的同一图像的能力；

预测器由一维卷积模块、批归一化和分类器组成；预测器用于潜在空间中特征的重新表达，分类器图像中像素点的聚类。

对比自监督学习分割模型的处理过程如下：

首先，输入图像x被随机裁剪为两个图像补丁x₁和x₂，两个图像补丁存在重叠区域x_o；图像补丁x₁和x₂经颜色失真、高斯模糊等进行数据增强处理，数据增强后的两个图像补丁分别经过对应的编码器和解码器映射为特征图f₁和f₂；编码器和解码器均采用DeepLabv3+网络结构，该网络结构以ResNet-101模型为基础；特征图f₁和f₂分别经过对应的特征投影模块Φ映射为特征图φ₁＝Φ(f₁)和φ₂＝Φ(f₂)，即特征投影模块的输出特征图，特征图φ₁和φ₂中的重叠区域分别用φ_o1和φ_o2表示；

其次，特征图φ₁、φ₂分别通过对应的预测器进行处理，以特征图φ₁为例对预测器的处理过程进行说明；特征图φ₁的通道数为p，特征图φ₁经过预测器的一维卷积模块，获得响应映射图

也就是将特征图φ₁的像素点映射到聚类空间坐标系中，用于空间连续性的衡量与对齐；响应映射图

包含p个通道响应映射图r_n，

表示一维卷积模块的参数矩阵；

然后，对所有的通道响应映射图r_n进行批归一化处理，即对每个通道响应映射图进行轴内归一化，得到归一化响应图

使得归一化响应图

在每个坐标轴上的均值和单位方差均为零，r_n′表示归一化响应图中的第n个像素点；

最后，分类器通过argmax函数将归一化响应图

中的所有像素点聚类为q个集群，即q个聚类标签，得到聚类标签

c_n表示第n个像素点的聚类标签，c_n＝1,2,…,q；归一化响应图

中的第i个集群可以写为：

其中，r′_n,i、r′_n,j分别表示归一化响应图

中属于第i和j个聚类标签的像素点，相当于将每个像素点分配给q维聚类空间中位于各自坐标轴上无穷远的q个代表点中最近的一个点；

表示任意j的取值；值得注意的是，C_i可以是空集，表示唯一聚类标签的数量可以在1到q之间任意变化；

在预测过程中，分类器应该对属于相同集群的像素分配相同的聚类标签，因此需要满足以下三个条件：(a)相似特征的像素应分配相同的聚类标签；(b)空间连续的像素应分配相同的聚类标签；(c)聚类标签具有密集唯一性，即模型不知道应该在图像中生成多少个区域；因此，唯一聚类标签的数量应该与图像内容相适应；在模型训练过程中模型每次迭代更新，分类器将归一化响应图中的所有像素点分类为q(1≤q≤Q)个集群，其中Q是q可取的最大值；较大的q值表示过度分割，而较小的q值表示欠分割；q的初始值为Q，在迭代过程中集群数量逐渐减少，最终得到q个集群；如果仅仅满足上述条件(a)和(b)仅有助于像素点的分组，可能会导致q＝1的简单解决方案；为了防止这种欠分割，引入条件(c)，即倾向于选取较大的q；通过批归一化处理，使每个像素点r′_n,i均有可能成为像素点r′_n跨轴的最大值；尽管批归一化处理并不能保证每个集群索引的像素点都达到像素点总数N，但是能够使大部分集群索引的像素点无限接近像素点总数N。

二、设计损失函数：

在模型训练过程中，利用式(2)的损失函数L计算对比自监督学习分割模型的总损失：

L＝L_s+L_ca (2)

图像级损失L_s主要用于计算特征投影模块的输出特征图与预测器得到的预测图之间的损失，图像级损失主要考虑特征相似性约束和空间连续性约束，其表达式如下：

L_s＝L_sim({r′_n,c_n})+μL_con({r′_n}) (3)

和聚类标签

之间的交叉熵损失，即特征相似性损失；

其中，

特征相似性约束的目的是增强相似特征的相似性，一旦图像像素根据特征进行聚类，同一集群中的特征应该是相似的，不同集群的特征应该是不同的；在模型训练过程中，通过最小化特征相似性约束，更新对比自监督学习分割模型的权重，以促进对比自监督学习分割模型提取更有效的特征；

图像像素聚类的基本思路是将相似的像素分组为集群，在图像分割中，集群最好在空间上是连续的，因此本文将归一化响应图的宽度和高度差异的L1范数作为空间连续性约束，使得当前像素点的聚类标签与相邻像素点的聚类标签相同，利用空间连续性损失可以抑制由于复杂图案或纹理而导致的过多聚类类别；空间连续性损失的表达式为：

像素级上下文对齐损失L_ca主要通过最大化两个图像补丁重叠区域的相似度以及最小化非重叠区域对特征提取的干扰程度，构建图像像素之间的空间上下文关系；

将属于同一输入图像的两个图像补丁中的重叠区域φ_o1和φ_o2视为正样本对，将图像补丁的非重叠区域视为负样本和属于不同输入图像的两个图像补丁视为负样本对；由于输入图像中很多不同的像素有可能属于同一类别，尤其是当背景占比较大时，如天空、海面等，因此选择正、负样本作为对比自监督学习分割模型的输入，选到假负样本以及无效正样本的概率非常大，会影响模型学习图像表征的能力；本方法将伪标签作为启发来消除极有可能的假负样本，具体来说，在选择负样本时，将特征图f_k(k＝1,2)输入到分类器中，计算特征图f_k中每个像素点属于每个类别的概率值，将最大概率值作为每个聚类结果的置信度，概率值最高的像素点对应的类别作为argmax聚类的类索引

计算公式如下：

其中，

表示分类器；

将重叠区域对应的类索引

作为伪标签，所选的负样本应与重叠区域的伪标签不同，即

为负样本对应的伪标签；

如果上述的概率值计算不够准确，伪标签的选取则会出现较大偏差，从而提供错误的监督信号，影响训练过程；为了避免这种情况，将概率值作为类索引对应的置信度，设置置信度阈值γ，通过式(7)将正样本转换为0和1构成的二进制掩码

当

中的元素全为0时，该正样本则被过滤掉，不纳入训练过程，以此过滤置信度较低的正样本；

其中，

分别表示重叠区域φ_o1和φ_o2中所有像素点的伪标签；

通过像素级上下文对齐损失实现对比自监督学习分割模型在像素级别上的对比监督学习，不仅迫使正样本具有同一类别的特征，同样也使得属于潜在同一类别的负样本更接近，以此将属于其他类别的负样本分开；而且，将最大概率值作为聚类结果的置信度，由于高置信度的预测通常更准确，因此使两个图像补丁中低置信度的预测向较高置信度的预测对齐，这有效地防止了高置信度聚类结果向较低置信度转变；

此外，不仅从当前输入图像中选择负样本，还从当前训练批次的所有输入图像中选择负样本，以此平衡正、负样本，使对比自监督学习分割模型获得更好的分割性能；具体地，第b个输入图像的像素级上下文对齐损失

可定义为：

其中，

表示重叠区域φ_o1的负样本，

令训练批次的批尺寸为B，则像素级上下文对齐损失L_ca为：

该方法还包括：

1)数据准备：本实施例采用Cityscapes数据集，包含3975张现实场景图像以及精细的像素级标注；

2)模型训练：

输入图像被随机裁剪成两个图像补丁，分别输入对比自监督分割模型的两个分支进行前向传播，对模型进行训练，通过式(2)计算模型训练的总损失，直到损失函数收敛；对比自监督分割模型的上分支结构进行反向传播，使得模型损失达到最小，下分支结构的模型参数由上分支反向传播的慢速移动平均向量进行更新；设置参数为：输入图像大小为1914×1052像素，训练小批量(batch size)大小为16，循环训练周期为12000，每个训练周期200个批量，学习率0.0001；

训练中参数的设置与具体数据集有关，比如循环训练周期是根据损失函数的收敛程度决定的，收敛早且快，那么循环训练周期可以适当调小，反之调大，模型训练时根据经验设置较大的循环训练周期，保证在循环训练周期内损失函数能够收敛；训练小批量的大小，不宜过小；

模型训练完毕后保存模型参数，将训练后的对比自监督分割模型移植到分割程序中，实际应用时将采集的现实场景图像输入到训练后的对比自监督分割模型中，对现实场景图像进行分割。

本实施例对公路、人行道、建筑物、墙壁、篱笆、行人、汽车等19种城市街景进行了实验，其中对公路、建筑物、汽车的mIoU识别准确率分别为69.92％、77.57％、85.05％，其他现实场景的识别率均在40％以上，并且在现实场景中的目标分类准确率均在85％以上，能够满足现实场景的分割需求，同时缓解了深度学习对标签数据的依赖性，训练后的对比自监督学习分割模型对真实场景下图像具有更好的泛化能力。

本发明未述及之处适用于现有技术。

Claims

1.一种基于对比自监督学习的现实场景图像分割方法，其特征在于，该方法包括设计对比自监督学习分割模型和损失函数；其中，对比自监督学习分割模型包括上、下两个结构相同的分支，每个分支均包括依次连接的编码器、解码器、特征投影模块和预测器；输入图像被随机裁剪为两个存在重叠区域的图像补丁，两个图像补丁分别经过对比自监督学习分割模型的两个分支进行处理；

预测器由一维卷积模块、批归一化和分类器组成。

2.根据权利要求1所述的基于对比自监督学习的现实场景图像分割方法，其特征在于，对比自监督学习分割模型的处理过程如下：