CN114283162A - 基于对比自监督学习的现实场景图像分割方法 - Google Patents

基于对比自监督学习的现实场景图像分割方法 Download PDF

Info

Publication number
CN114283162A
CN114283162A CN202111607559.7A CN202111607559A CN114283162A CN 114283162 A CN114283162 A CN 114283162A CN 202111607559 A CN202111607559 A CN 202111607559A CN 114283162 A CN114283162 A CN 114283162A
Authority
CN
China
Prior art keywords
image
loss
self
supervision learning
phi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111607559.7A
Other languages
English (en)
Inventor
刘坤
孟蕊
石肖松
杨晓松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN202111607559.7A priority Critical patent/CN114283162A/zh
Publication of CN114283162A publication Critical patent/CN114283162A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明为一种基于对比自监督学习的现实场景图像分割方法,包括设计对比自监督学习分割模型和损失函数;对比自监督学习分割模型包括上、下两个分支,每个分支均包括依次连接的编码器、解码器、特征投影模块和预测器;输入图像被随机裁剪为两个存在重叠区域的图像补丁,两个图像补丁分别经过对比自监督学习分割模型的两个分支进行处理;设计的损失函数包含图像级损失和像素级上下文对齐损失,图像级损失主要用于计算特征投影模块的输出特征图与预测器得到的预测图之间的损失,像素级上下文对齐损失主要通过最大化两个图像补丁重叠区域的相似度以及最小化非重叠区域对特征提取的干扰程度,构建图像像素之间的空间上下文关系。

Description

基于对比自监督学习的现实场景图像分割方法
技术领域
本发明涉及机器视觉技术领域,具体提供一种基于对比自监督学习的现实场景图像分割方法。
背景技术
随着汽车技术的智能化发展,无人驾驶已经成为研究热点。无人驾驶车辆通常需要配制各种传感器,在行驶过程中通过采集现实场景图像对驾驶环境进行分析,进而引导无人驾驶车辆安全行驶。而在无人驾驶系统设计过程中,图像分析和场景理解是十分重要的环节,图像分析的关键是现实场景图像的分割。
虽然基于深度学习的图像分割已经取得了良好效果,但是需要依赖于大量的人工标注数据,成本高昂且费时费力。自监督学习是深度无监督学习的一个代表分支,其利用图像本身的信息构造伪标签训练模型,无需数据标注,因此国内外众多学者广泛应用自监督学习技术对现实场景图像进行分割,例如Roh B等人根据几何平移和缩放操作来产生随机裁剪的局部区域,使用ROIAlign层生成局部区域的池化特征,使模型学习连续的空间特征表示。但是在图像分割中,模型不知道应该在图像中生成多少个有意义的区域,即未考虑空间连续性损失,具体参见文献《Roh B,Shin W,Kim I,et al.Spatially consistentrepresentation learning[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition.2021:1144-1153.》。
此外,现有的自监督学习技术通常聚焦于生成图像级的全局不变表征,忽略了图像内部像素上下文之间的关系,因而限制了模型对图像分割的泛化能力,导致分割效果不理想。
发明内容
针对现有技术的不足,本发明拟解决的技术问题是,提供一种基于对比自监督学习的现实场景图像分割方法。
为实现上述目的,本发明采用的技术方案是:
一种基于对比自监督学习的现实场景图像分割方法,其特征在于,该方法包括设计对比自监督学习分割模型和损失函数;其中,对比自监督学习分割模型包括上、下两个结构相同的分支,每个分支均包括依次连接的编码器、解码器、特征投影模块和预测器;输入图像被随机裁剪为两个存在重叠区域的图像补丁,两个图像补丁分别经过对比自监督学习分割模型的两个分支进行处理;
编码器包括深度卷积神经网络和融合空洞卷积的空间金字塔池化模块;首先,利用深度卷积神经网络对图像补丁进行特征提取,得到浅层特征图;然后,利用融合空洞卷积的空间金字塔池化模块对浅层特征图进行优化,得到深度特征图;
解码器包含两个二维卷积层和两个上采样层;深度特征图首先经过二维卷积层改变通道数,然后经过解码器的第一个上采样层后再与浅层特征图经过解码器的第一个二维卷积层处理后的特征图进行融合,融合后的特征图依次经过第二个二维卷积层和第二个上采样层后,得到解码器的输出特征图;
特征投影模块包含全连接层和ReLU层,解码器的输出特征图依次经过全连接层、ReLU层和全连接层后,得到特征投影模块的输出特征图;
预测器由一维卷积模块、批归一化和分类器组成。
进一步的,对比自监督学习分割模型的处理过程如下:
首先,假定两个图像补丁为x1和x2,重叠区域为xo;两个图像补丁分别经过对应的编码器和解码器映射为特征图f1和f2;特征图f1和f2分别经过对应的特征投影模块映射为特征图φ1和φ2,特征图φ1和φ2中的重叠区域分别用φo1和φo2表示;
其次,假定特征图φ1的通道数为p,特征图φ1经过预测器的一维卷积模块,获得响应映射图
Figure BDA0003434445390000021
响应映射图
Figure BDA0003434445390000022
包含p个通道响应映射图rn
Figure BDA0003434445390000023
表示通道响应映射图rn中的第n个像素点,N表示通道响应映射图rn中的像素点总数,
Figure BDA0003434445390000024
表示一维卷积模块的参数矩阵;
然后,对所有的通道响应映射图rn进行批归一化处理,得到归一化响应图
Figure BDA0003434445390000025
r′n表示归一化响应图中的第n个像素点;
最后,分类器通过argmax函数将归一化响应图
Figure BDA0003434445390000026
中的所有像素点聚类为q个集群,得到聚类标签
Figure BDA0003434445390000027
cn表示第n个像素点的聚类标签,cn=1,2,…,q。
进一步的,所设计的损失函数为:
L=Ls+Lca (2)
其中,Ls、Lca分别表示图像级损失和像素级上下文对齐损失;
图像级损失的表达式如下:
Ls=Lsim({r′n,cn})+μLcon({r′n}) (3)
其中,Lsim({r′n,cn})、Lcon({r′n})分别表示特征相似性损失和空间连续性损失,μ表示平衡两个约束的权重;
聚类标签cn被进一步用作伪标签,通过式(4)计算归一化响应图
Figure BDA0003434445390000028
和聚类标签
Figure BDA0003434445390000029
之间的交叉熵损失,即特征相似性损失;
Figure BDA00034344453900000210
其中,
Figure BDA00034344453900000211
空间连续性损失的表达式为:
Figure BDA00034344453900000212
其中,W和H分别表示归一化响应图的宽度和高度,r′ξ,η、r′ξ+1,η和r′ξ,η+1分别表示归一化响应图中像素点(ξ,η)、(ξ+1,η)、(ξ,η+1)处的像素值;|| ||1表示L1范数;
令训练批次的批尺寸为B,则像素级上下文对齐损失Lca为:
Figure BDA0003434445390000031
第b个输入图像的像素级上下文对齐损失
Figure BDA0003434445390000032
为:
Figure BDA0003434445390000033
Figure BDA0003434445390000034
其中,
Figure BDA0003434445390000035
分别表示从图像补丁x1到x2的上下文对齐损失以及从图像补丁x2到x1的上下文对齐损失;r(·)表示两个像素点之间相似度的指数函数,
Figure BDA0003434445390000036
分别表示重叠区域φo1和φo2中的像素点;M表示一个训练批次内重叠区域的个数,
Figure BDA0003434445390000037
表示重叠区域φo1的负样本,
Figure BDA0003434445390000038
表示同一训练批次内不同输入图像的图像补丁构成的负样本集;
Figure BDA0003434445390000039
表示二进制掩码。
进一步的,在模型训练过程中,随机选择正、负样本作为对比自监督学习分割模型的输入;其中,将属于同一输入图像的两个图像补丁中的重叠区域和视为正样本对,将图像补丁的非重叠区域视为负样本和属于不同输入图像的两个图像补丁视为负样本对。
进一步的,该方法还包括设置参数,训练对比自监督学习分割模型,将训练后的对比自监督学习分割模型移植到分割程序中,实际应用时将采集的现实场景图像输入到训练后的对比自监督学习分割模型中,对现实场景图像进行分割。
与现有技术相比,本发明的有益效果是:
1.本发明将对比自监督学习应用于自动驾驶等现实场景的图像分割中,构建对比自监督学习分割模型,借助自监督学习模型优异的特征提取能力缓解深度学习对标签数据的依赖性,在保证识别准确性及实时性的前提下,不需要对输入图像进行标注,大大减少了人力成本,训练后的对比自监督分割模型对现实场景图像有更好的泛化能力,分割性能远远优于传统机器视觉和一般的无监督方法。
2.从无标注的输入图像中随机裁剪得到两个图像补丁,分别通过对比自监督学习分割模型的上、下分支对两个图像补丁进行特征提取;在模型训练过程中,将属于同一输入图像的两个图像补丁中的重叠区域视为正样本对,将图像补丁的非重叠区域视为负样本和属于不同输入图像的两个图像补丁视为负样本对,通过拉近正样本对之间的距离和使重叠区域与其他区域的特征远离来构建两个图像补丁之间的空间上下文关系,同时充分利用了图像像素级上下文之间的关系。即使输入图像的真实标签未知,在不同环境下对比自监督分割模型提取的特征的一致性仍然可以保持,因为两个图像补丁的重叠区域存在像素级的一一对应关系。
3.设计的损失函数包含图像级损失以及像素级上下文对齐损失,图像级损失主要用于计算特征投影模块的输出特征图与预测器得到的预测图之间的损失,图像级损失主要考虑特征相似性约束和空间连续性约束,空间连续性约束主要用于增强当前像素点以及相邻像素点的聚类标签的一致性,使得相同类别的像素点的聚类标签更加密集且具有唯一性,在空间上有效整合了图像像素,提高图像分割精度;像素级上下文对齐损失主要通过最大化两个图像补丁重叠区域的相似度以及最小化非重叠区域对特征提取的干扰程度,构建图像像素之间的空间上下文关系。
附图说明
图1为本发明的对比自监督学习分割模型的结构图;
图2为本发明的对比自监督学习分割模型其中一个分支的结构图;
图3为本发明的流程图。
具体实施方式
下面将结合附图和具体实施例对本发明的技术方案进行详细描述,但并不以此限定本申请的保护范围。
本发明为一种基于对比自监督学习的现实场景图像分割方法,该方法包括以下内容:
一、设计对比自监督分割模块:
对比自监督学习分割模型包括上、下两个结构相同的分支,每个分支均包括依次连接的编码器、解码器、特征投影模块和预测器;输入图像被随机裁剪为两个存在重叠区域的图像补丁,两个图像补丁分别经过对比自监督学习分割模型的两个分支进行处理;
编码器包括深度卷积神经网络和融合空洞卷积的空间金字塔池化模块;首先,利用深度卷积神经网络(Deep convolution neural network,DCNN)对图像补丁进行特征提取,得到浅层特征图;然后,利用融合空洞卷积的空间金字塔池化模块(Atrous spatialpyramid pooling,ASPP)对浅层特征图进行优化,得到深度特征图;
解码器包含两个二维卷积层和两个上采样层;深度特征图首先经过卷积核为1×1的二维卷积层改变通道数,然后经过解码器的第一个上采样层后再与DCNN提取的浅层特征图经过解码器的第一个二维卷积层处理后的特征图进行融合,利用浅层特征图对上采样不能恢复的位置信息进行优化;融合后的特征图依次经过第二个二维卷积层和第二个上采样层后,得到解码器的输出特征图;第一个二维卷积层的卷积核大小为1×1,用于改变浅层特征图的通道数,以便进行融合;第二个二维卷积层的卷积核大小为3×3;两个上采样层的步长均为4;
特征投影模块包含全连接层和ReLU层,解码器的输出特征图依次经过全连接层、ReLU层和全连接层后,得到特征投影模块的输出特征图;特征投影模块有助于识别图像补丁中的不变特征,并最大限度地提高对比自监督学习分割模型识别经过不同变换后的同一图像的能力;
预测器由一维卷积模块、批归一化和分类器组成;预测器用于潜在空间中特征的重新表达,分类器图像中像素点的聚类。
对比自监督学习分割模型的处理过程如下:
首先,输入图像x被随机裁剪为两个图像补丁x1和x2,两个图像补丁存在重叠区域xo;图像补丁x1和x2经颜色失真、高斯模糊等进行数据增强处理,数据增强后的两个图像补丁分别经过对应的编码器和解码器映射为特征图f1和f2;编码器和解码器均采用DeepLabv3+网络结构,该网络结构以ResNet-101模型为基础;特征图f1和f2分别经过对应的特征投影模块Φ映射为特征图φ1=Φ(f1)和φ2=Φ(f2),即特征投影模块的输出特征图,特征图φ1和φ2中的重叠区域分别用φo1和φo2表示;
其次,特征图φ1、φ2分别通过对应的预测器进行处理,以特征图φ1为例对预测器的处理过程进行说明;特征图φ1的通道数为p,特征图φ1经过预测器的一维卷积模块,获得响应映射图
Figure BDA0003434445390000051
也就是将特征图φ1的像素点映射到聚类空间坐标系中,用于空间连续性的衡量与对齐;响应映射图
Figure BDA0003434445390000052
包含p个通道响应映射图rn
Figure BDA0003434445390000053
表示通道响应映射图rn中的第n个像素点,N表示通道响应映射图rn中的像素点总数,
Figure BDA0003434445390000054
表示一维卷积模块的参数矩阵;
然后,对所有的通道响应映射图rn进行批归一化处理,即对每个通道响应映射图进行轴内归一化,得到归一化响应图
Figure BDA0003434445390000055
使得归一化响应图
Figure BDA0003434445390000056
在每个坐标轴上的均值和单位方差均为零,rn′表示归一化响应图中的第n个像素点;
最后,分类器通过argmax函数将归一化响应图
Figure BDA0003434445390000057
中的所有像素点聚类为q个集群,即q个聚类标签,得到聚类标签
Figure BDA0003434445390000058
cn表示第n个像素点的聚类标签,cn=1,2,…,q;归一化响应图
Figure BDA0003434445390000059
中的第i个集群可以写为:
Figure BDA00034344453900000510
其中,r′n,i、r′n,j分别表示归一化响应图
Figure BDA00034344453900000511
中属于第i和j个聚类标签的像素点,相当于将每个像素点分配给q维聚类空间中位于各自坐标轴上无穷远的q个代表点中最近的一个点;
Figure BDA00034344453900000512
表示任意j的取值;值得注意的是,Ci可以是空集,表示唯一聚类标签的数量可以在1到q之间任意变化;
在预测过程中,分类器应该对属于相同集群的像素分配相同的聚类标签,因此需要满足以下三个条件:(a)相似特征的像素应分配相同的聚类标签;(b)空间连续的像素应分配相同的聚类标签;(c)聚类标签具有密集唯一性,即模型不知道应该在图像中生成多少个区域;因此,唯一聚类标签的数量应该与图像内容相适应;在模型训练过程中模型每次迭代更新,分类器将归一化响应图中的所有像素点分类为q(1≤q≤Q)个集群,其中Q是q可取的最大值;较大的q值表示过度分割,而较小的q值表示欠分割;q的初始值为Q,在迭代过程中集群数量逐渐减少,最终得到q个集群;如果仅仅满足上述条件(a)和(b)仅有助于像素点的分组,可能会导致q=1的简单解决方案;为了防止这种欠分割,引入条件(c),即倾向于选取较大的q;通过批归一化处理,使每个像素点r′n,i均有可能成为像素点r′n跨轴的最大值;尽管批归一化处理并不能保证每个集群索引的像素点都达到像素点总数N,但是能够使大部分集群索引的像素点无限接近像素点总数N。
二、设计损失函数:
在模型训练过程中,利用式(2)的损失函数L计算对比自监督学习分割模型的总损失:
L=Ls+Lca (2)
其中,Ls、Lca分别表示图像级损失和像素级上下文对齐损失;
图像级损失Ls主要用于计算特征投影模块的输出特征图与预测器得到的预测图之间的损失,图像级损失主要考虑特征相似性约束和空间连续性约束,其表达式如下:
Ls=Lsim({r′n,cn})+μLcon({r′n}) (3)
其中,Lsim({r′n,cn})、Lcon({r′n})分别表示特征相似性损失和空间连续性损失,μ表示平衡两个约束的权重;
聚类标签cn被进一步用作伪标签,通过式(4)计算归一化响应图
Figure BDA0003434445390000061
和聚类标签
Figure BDA0003434445390000062
之间的交叉熵损失,即特征相似性损失;
Figure BDA0003434445390000063
其中,
Figure BDA0003434445390000064
特征相似性约束的目的是增强相似特征的相似性,一旦图像像素根据特征进行聚类,同一集群中的特征应该是相似的,不同集群的特征应该是不同的;在模型训练过程中,通过最小化特征相似性约束,更新对比自监督学习分割模型的权重,以促进对比自监督学习分割模型提取更有效的特征;
图像像素聚类的基本思路是将相似的像素分组为集群,在图像分割中,集群最好在空间上是连续的,因此本文将归一化响应图的宽度和高度差异的L1范数作为空间连续性约束,使得当前像素点的聚类标签与相邻像素点的聚类标签相同,利用空间连续性损失可以抑制由于复杂图案或纹理而导致的过多聚类类别;空间连续性损失的表达式为:
Figure BDA0003434445390000065
其中,W和H分别表示归一化响应图的宽度和高度,r′ξ,η、r′ξ+1,η和r′ξ,η+1分别表示归一化响应图中像素点(ξ,η)、(ξ+1,η)、(ξ,η+1)处的像素值;|| ||1表示L1范数;
像素级上下文对齐损失Lca主要通过最大化两个图像补丁重叠区域的相似度以及最小化非重叠区域对特征提取的干扰程度,构建图像像素之间的空间上下文关系;
将属于同一输入图像的两个图像补丁中的重叠区域φo1和φo2视为正样本对,将图像补丁的非重叠区域视为负样本和属于不同输入图像的两个图像补丁视为负样本对;由于输入图像中很多不同的像素有可能属于同一类别,尤其是当背景占比较大时,如天空、海面等,因此选择正、负样本作为对比自监督学习分割模型的输入,选到假负样本以及无效正样本的概率非常大,会影响模型学习图像表征的能力;本方法将伪标签作为启发来消除极有可能的假负样本,具体来说,在选择负样本时,将特征图fk(k=1,2)输入到分类器中,计算特征图fk中每个像素点属于每个类别的概率值,将最大概率值作为每个聚类结果的置信度,概率值最高的像素点对应的类别作为argmax聚类的类索引
Figure BDA0003434445390000071
计算公式如下:
Figure BDA0003434445390000072
其中,
Figure BDA0003434445390000073
表示分类器;
将重叠区域对应的类索引
Figure BDA0003434445390000074
作为伪标签,所选的负样本应与重叠区域的伪标签不同,即
Figure BDA0003434445390000075
为负样本对应的伪标签;
如果上述的概率值计算不够准确,伪标签的选取则会出现较大偏差,从而提供错误的监督信号,影响训练过程;为了避免这种情况,将概率值作为类索引对应的置信度,设置置信度阈值γ,通过式(7)将正样本转换为0和1构成的二进制掩码
Figure BDA0003434445390000076
Figure BDA0003434445390000077
中的元素全为0时,该正样本则被过滤掉,不纳入训练过程,以此过滤置信度较低的正样本;
Figure BDA0003434445390000078
其中,
Figure BDA0003434445390000079
分别表示重叠区域φo1和φo2中所有像素点的伪标签;
通过像素级上下文对齐损失实现对比自监督学习分割模型在像素级别上的对比监督学习,不仅迫使正样本具有同一类别的特征,同样也使得属于潜在同一类别的负样本更接近,以此将属于其他类别的负样本分开;而且,将最大概率值作为聚类结果的置信度,由于高置信度的预测通常更准确,因此使两个图像补丁中低置信度的预测向较高置信度的预测对齐,这有效地防止了高置信度聚类结果向较低置信度转变;
此外,不仅从当前输入图像中选择负样本,还从当前训练批次的所有输入图像中选择负样本,以此平衡正、负样本,使对比自监督学习分割模型获得更好的分割性能;具体地,第b个输入图像的像素级上下文对齐损失
Figure BDA00034344453900000710
可定义为:
Figure BDA00034344453900000711
Figure BDA00034344453900000712
其中,
Figure BDA00034344453900000713
分别表示从图像补丁x1到x2的上下文对齐损失以及从图像补丁x2到x1的上下文对齐损失;r(·)表示两个像素点之间相似度的指数函数,
Figure BDA00034344453900000714
分别表示重叠区域φo1和φo2中的像素点;M表示一个训练批次内重叠区域的个数,
Figure BDA00034344453900000715
表示重叠区域φo1的负样本,
Figure BDA00034344453900000716
表示同一训练批次内不同输入图像的图像补丁构成的负样本集;
令训练批次的批尺寸为B,则像素级上下文对齐损失Lca为:
Figure BDA00034344453900000717
该方法还包括:
1)数据准备:本实施例采用Cityscapes数据集,包含3975张现实场景图像以及精细的像素级标注;
2)模型训练:
输入图像被随机裁剪成两个图像补丁,分别输入对比自监督分割模型的两个分支进行前向传播,对模型进行训练,通过式(2)计算模型训练的总损失,直到损失函数收敛;对比自监督分割模型的上分支结构进行反向传播,使得模型损失达到最小,下分支结构的模型参数由上分支反向传播的慢速移动平均向量进行更新;设置参数为:输入图像大小为1914×1052像素,训练小批量(batch size)大小为16,循环训练周期为12000,每个训练周期200个批量,学习率0.0001;
训练中参数的设置与具体数据集有关,比如循环训练周期是根据损失函数的收敛程度决定的,收敛早且快,那么循环训练周期可以适当调小,反之调大,模型训练时根据经验设置较大的循环训练周期,保证在循环训练周期内损失函数能够收敛;训练小批量的大小,不宜过小;
模型训练完毕后保存模型参数,将训练后的对比自监督分割模型移植到分割程序中,实际应用时将采集的现实场景图像输入到训练后的对比自监督分割模型中,对现实场景图像进行分割。
本实施例对公路、人行道、建筑物、墙壁、篱笆、行人、汽车等19种城市街景进行了实验,其中对公路、建筑物、汽车的mIoU识别准确率分别为69.92%、77.57%、85.05%,其他现实场景的识别率均在40%以上,并且在现实场景中的目标分类准确率均在85%以上,能够满足现实场景的分割需求,同时缓解了深度学习对标签数据的依赖性,训练后的对比自监督学习分割模型对真实场景下图像具有更好的泛化能力。
本发明未述及之处适用于现有技术。

Claims (5)

1.一种基于对比自监督学习的现实场景图像分割方法,其特征在于,该方法包括设计对比自监督学习分割模型和损失函数;其中,对比自监督学习分割模型包括上、下两个结构相同的分支,每个分支均包括依次连接的编码器、解码器、特征投影模块和预测器;输入图像被随机裁剪为两个存在重叠区域的图像补丁,两个图像补丁分别经过对比自监督学习分割模型的两个分支进行处理;
编码器包括深度卷积神经网络和融合空洞卷积的空间金字塔池化模块;首先,利用深度卷积神经网络对图像补丁进行特征提取,得到浅层特征图;然后,利用融合空洞卷积的空间金字塔池化模块对浅层特征图进行优化,得到深度特征图;
解码器包含两个二维卷积层和两个上采样层;深度特征图首先经过二维卷积层改变通道数,然后经过解码器的第一个上采样层后再与浅层特征图经过解码器的第一个二维卷积层处理后的特征图进行融合,融合后的特征图依次经过第二个二维卷积层和第二个上采样层后,得到解码器的输出特征图;
特征投影模块包含全连接层和ReLU层,解码器的输出特征图依次经过全连接层、ReLU层和全连接层后,得到特征投影模块的输出特征图;
预测器由一维卷积模块、批归一化和分类器组成。
2.根据权利要求1所述的基于对比自监督学习的现实场景图像分割方法,其特征在于,对比自监督学习分割模型的处理过程如下:
首先,假定两个图像补丁为x1和x2,重叠区域为xo;两个图像补丁分别经过对应的编码器和解码器映射为特征图f1和f2;特征图f1和f2分别经过对应的特征投影模块映射为特征图φ1和φ2,特征图φ1和φ2中的重叠区域分别用φo1和φo2表示;
其次,假定特征图φ1的通道数为p,特征图φ1经过预测器的一维卷积模块,获得响应映射图
Figure FDA0003434445380000011
响应映射图
Figure FDA0003434445380000012
包含p个通道响应映射图rn
Figure FDA0003434445380000013
表示通道响应映射图rn中的第n个像素点,N表示通道响应映射图rn中的像素点总数,
Figure FDA0003434445380000014
表示一维卷积模块的参数矩阵;
然后,对所有的通道响应映射图rn进行批归一化处理,得到归一化响应图
Figure FDA0003434445380000015
rn′表示归一化响应图中的第n个像素点;
最后,分类器通过argmax函数将归一化响应图
Figure FDA0003434445380000016
中的所有像素点聚类为q个集群,得到聚类标签
Figure FDA0003434445380000017
cn表示第n个像素点的聚类标签,cn=1,2,…,q。
3.根据权利要求2所述的基于对比自监督学习的现实场景图像分割方法,其特征在于,所设计的损失函数为:
L=Ls+Lca (2)
其中,Ls、Lca分别表示图像级损失和像素级上下文对齐损失;
图像级损失的表达式如下:
Ls=Lsim({r′n,cn})+μLcon({r′n}) (3)
其中,Lsim({r′n,cn})、Lcon({r′n})分别表示特征相似性损失和空间连续性损失,μ表示平衡两个约束的权重;
聚类标签cn被进一步用作伪标签,通过式(4)计算归一化响应图
Figure FDA0003434445380000021
和聚类标签
Figure FDA0003434445380000022
之间的交叉熵损失,即特征相似性损失;
Figure FDA0003434445380000023
其中,
Figure FDA0003434445380000024
空间连续性损失的表达式为:
Figure FDA0003434445380000025
其中,W和H分别表示归一化响应图的宽度和高度,r′ξ,η、r′ξ+1,η和r′ξ,η+1分别表示归一化响应图中像素点(ξ,η)、(ξ+1,η)、(ξ,η+1)处的像素值;||||1表示L1范数;
令训练批次的批尺寸为B,则像素级上下文对齐损失Lca为:
Figure FDA0003434445380000026
第b个输入图像的像素级上下文对齐损失
Figure FDA0003434445380000027
为:
Figure FDA0003434445380000028
Figure FDA0003434445380000029
其中,
Figure FDA00034344453800000210
分别表示从图像补丁x1到x2的上下文对齐损失以及从图像补丁x2到x1的上下文对齐损失;r(·)表示两个像素点之间相似度的指数函数,
Figure FDA00034344453800000211
分别表示重叠区域φo1和φo2中的像素点;M表示一个训练批次内重叠区域的个数,
Figure FDA00034344453800000212
表示重叠区域φo1的负样本,
Figure FDA00034344453800000213
表示同一训练批次内不同输入图像的图像补丁构成的负样本集;
Figure FDA00034344453800000214
表示二进制掩码。
4.根据权利要求3所述的基于对比自监督学习的现实场景图像分割方法,其特征在于,在模型训练过程中,随机选择正、负样本作为对比自监督学习分割模型的输入;其中,将属于同一输入图像的两个图像补丁中的重叠区域和视为正样本对,将图像补丁的非重叠区域视为负样本和属于不同输入图像的两个图像补丁视为负样本对。
5.根据权利要求1-4任一所述的基于对比自监督学习的现实场景图像分割方法,其特征在于,该方法还包括设置参数,训练对比自监督学习分割模型,将训练后的对比自监督学习分割模型移植到分割程序中,实际应用时将采集的现实场景图像输入到训练后的对比自监督学习分割模型中,对现实场景图像进行分割。
CN202111607559.7A 2021-12-27 2021-12-27 基于对比自监督学习的现实场景图像分割方法 Pending CN114283162A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111607559.7A CN114283162A (zh) 2021-12-27 2021-12-27 基于对比自监督学习的现实场景图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111607559.7A CN114283162A (zh) 2021-12-27 2021-12-27 基于对比自监督学习的现实场景图像分割方法

Publications (1)

Publication Number Publication Date
CN114283162A true CN114283162A (zh) 2022-04-05

Family

ID=80875711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111607559.7A Pending CN114283162A (zh) 2021-12-27 2021-12-27 基于对比自监督学习的现实场景图像分割方法

Country Status (1)

Country Link
CN (1) CN114283162A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661460A (zh) * 2022-11-03 2023-01-31 广东工业大学 一种具有对比机制的相似度感知框架的医学图像分割方法
CN116664845A (zh) * 2023-07-28 2023-08-29 山东建筑大学 基于块间对比注意力机制的智慧工地图像分割方法及系统
CN117079061A (zh) * 2023-10-17 2023-11-17 四川迪晟新达类脑智能技术有限公司 基于注意力机制和Yolov5的目标检测方法及装置
CN117496130A (zh) * 2023-11-22 2024-02-02 中国科学院空天信息创新研究院 基于上下文感知自训练的基础模型弱监督目标检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115661460A (zh) * 2022-11-03 2023-01-31 广东工业大学 一种具有对比机制的相似度感知框架的医学图像分割方法
CN115661460B (zh) * 2022-11-03 2023-07-14 广东工业大学 一种具有对比机制的相似度感知框架的医学图像分割方法
CN116664845A (zh) * 2023-07-28 2023-08-29 山东建筑大学 基于块间对比注意力机制的智慧工地图像分割方法及系统
CN116664845B (zh) * 2023-07-28 2023-10-13 山东建筑大学 基于块间对比注意力机制的智慧工地图像分割方法及系统
CN117079061A (zh) * 2023-10-17 2023-11-17 四川迪晟新达类脑智能技术有限公司 基于注意力机制和Yolov5的目标检测方法及装置
CN117496130A (zh) * 2023-11-22 2024-02-02 中国科学院空天信息创新研究院 基于上下文感知自训练的基础模型弱监督目标检测方法

Similar Documents

Publication Publication Date Title
CN108648233B (zh) 一种基于深度学习的目标识别与抓取定位方法
CN109635744B (zh) 一种基于深度分割网络的车道线检测方法
CN107564025B (zh) 一种基于深度神经网络的电力设备红外图像语义分割方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN114283162A (zh) 基于对比自监督学习的现实场景图像分割方法
CN106909902B (zh) 一种基于改进的层次化显著模型的遥感目标检测方法
CN111259936B (zh) 一种基于单一像素标注的图像语义分割方法及系统
CN109410238B (zh) 一种基于PointNet++网络的枸杞识别计数方法
CN112347970B (zh) 一种基于图卷积神经网络的遥感影像地物识别方法
CN111652892A (zh) 一种基于深度学习的遥感影像建筑物矢量提取及优化方法
CN111079847B (zh) 一种基于深度学习的遥感影像自动标注方法
CN110399840B (zh) 一种快速的草坪语义分割及边界检测方法
CN110222767B (zh) 基于嵌套神经网络和栅格地图的三维点云分类方法
CN109635726B (zh) 一种基于对称式深度网络结合多尺度池化的滑坡识别方法
CN110853070A (zh) 基于显著性与Grabcut的水下海参图像分割方法
CN113988147B (zh) 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置
CN113011288A (zh) 一种基于Mask RCNN算法的遥感建筑物检测方法
CN112950780A (zh) 一种基于遥感影像的网络地图智能生成方法及系统
CN114120125A (zh) 基于双流深度网络的农田识别方法、装置及存储介质
CN114492619A (zh) 一种基于统计和凹凸性的点云数据集构建方法及装置
CN110634142B (zh) 一种复杂车路图像边界优化方法
CN113421210B (zh) 一种基于双目立体视觉的表面点云重建方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN116883650A (zh) 一种基于注意力和局部拼接的图像级弱监督语义分割方法
CN115830322A (zh) 一种基于弱监督网络的建筑物语义分割标签扩充方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination