CN113221826B

CN113221826B - 一种基于自监督学习显著性估计像素嵌入的道路检测方法

Info

Publication number: CN113221826B
Application number: CN202110600086.1A
Authority: CN
Inventors: 徐照程; 田彦
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2023-05-02
Anticipated expiration: 2041-05-31
Also published as: CN113221826A

Abstract

本发明公开了一种基于自监督学习显著性估计像素嵌入的道路检测方法，该方法首先构建道路检测模型，道路检测模型由用于生成目标初始掩码的显著性估计模块、进一步改善道路分割掩码的像素嵌入学习模块复合而成；本发明方法基于图像级损失、应用全连接的条件随机场的空域一致性更新掩码预测图，利用时域融合结果更新监督信息用于迭代训练全卷积网络，使用结构感知的四元损失函数，使得属于同一类别像素间的嵌入空间距离小于属于不同类别像素间的嵌入空间距离。本发明方法能够灵活扩展自监督方法到复杂的交通场景中，并能够有效提高无像素级标注情况下的道路检测的准确率。

Description

一种基于自监督学习显著性估计像素嵌入的道路检测方法

技术领域

本发明涉及道路检测技术领域，具体涉及一种基于自监督学习显著性估计像素嵌入的道路检测方法。

背景技术

道路检测能够自动识别图像中的道路区域，同时完成道路的分类和定位任务。而且道路检测是自动驾驶，交通监控，场景理解和图像检索等任务的基本模块，因此，道路检测在过去的十年中一直是活跃的研究领域。

近年来，深度学习特别是深度卷积神经网络(deep convolutional neuralnetworks,DCNNs)的发展，在道路检测任务中得到了成功应用，而有监督学习使得模型能够高效理解道路特征，从而准确定位正确的道路及位置，使得道路检测取得长足发展。然而，有监督学习需要大量繁琐的劳动密集型的像素级标注过程。另外，当前方法均从以目标为中心的图像中学习表征，这在复杂的交通场景中会产生模棱两可的结果。针对这个问题，一些现有方法利用自监督方法学习与最终任务相关的前置任务，但因为没有明确地学习语义像素嵌入，且大多数方法都依赖于图像级标注，并不能保证预测结果可以将道路区域与复杂环境中的其他目标区域分开，因而并不利于道路检测。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于自监督学习显著性估计像素嵌入的道路检测方法，该方法能够灵活有效地将当前的自监督方法扩展到复杂的交通场景，并设计一种新的方法来适当地探索像素空间中的结构信息以增强判别能力，从而提升道路检测的准确率。

本发明的目的是通过以下技术方案来实现的：一种基于自监督学习显著性估计像素嵌入的道路检测方法，该方法包括以下步骤：

(1)构建道路检测模型，包括用于生成目标初始掩码的自监督学习显著性估计模块、进一步改善道路分割掩码的像素嵌入学习模块；

所述自监督学习显著性估计模块的构建方法如下：

输入原始图像x，通过手工方法生成图像的初始显著性预测图，将初始显著性预测图二值化为伪标签；全卷积网络通过伪标签和图像级损失进行学习；

在全卷积网络的学习过程中，利用空域一致性和时域融合结果更新监督信息用于迭代训练全卷积网络，实现自监督学习，具体为：不同epoch下的显著性预测图，应用全连接的条件随机场的空域一致性更新掩码预测图；利用训练过程中每个epoch的CRF更新结果融合历史显著性预测图；将融合后的历史显著性预测图作为监督信息，微调全卷积网络；

所述像素嵌入学习模块的构建方法如下：

将原始图像x作为基于编码器-解码器结构的嵌入网络的输入，在嵌入网络的学习过程中，将原始图像x的全部像素映射到嵌入空间，通过自监督学习显著性估计模块得到的历史显著性预测图量化得到初始道路区域，将原始图像x中初始道路区域之外的像素通过k-means聚类算法分成C类区域，每个类别区域的像素嵌入取平均值，得到该类别的平均嵌入，通过优化代价函数使得原始图像空间中外观相似的像素在嵌入空间中相互靠近，外观不相似的像素在嵌入空间中相互远离，从而使得属于同一类别像素间的嵌入空间距离小于属于不同类别像素间的嵌入空间距离；

(2)得到检测结果：利用训练集训练所述道路检测模型；测试时将待检测图像输入道路检测模型，得到图像中每个像素在嵌入空间的映射结果，映射结果与道路类别平均嵌入做差，并与门限比较，从而判断道路区域。

进一步地，所述自监督学习显著性估计模块中，将通过手工方法生成的初始显著性预测图的每个像素M(x；p)与固定阈值ε比较生成伪标签L(x；p)，1表示前景像素，0表示背景像素，所述固定阈值ε通过网格搜索获取使得分割结果的mIoU(mean intersection overUnion)准确率最高的数值确定。

进一步地，所述自监督学习显著性估计模块中，图像级损失

其中β为可控参数，当β＝1时，L_β为F1度量函数，P为准确率，R为召回率。

进一步地，所述全卷积网络的学习过程具体为：

(1)对第k个epoch的显著性预测图

应用全连接的条件随机场得到相同分辨率的掩码预测图

(2)将第k-1个epoch的历史显著性预测图h(x,k-1)和第k个

进行线性融合，得到第k个epoch的历史显著性预测图h(x,k)；线性融合公式如下：

其中，α为当前显著性预测图与历史显著性预测图的平衡因子；

(3)当epoch数达到总迭代次数K时，得到的历史显著性预测图h(x,K)作为新的监督信息，通过监督信息微调全卷积网络；重复该过程，直到相邻循环得到的历史显著性预测图处于相对稳定状态为止。

进一步地，所述像素嵌入学习模块中，所述代价函数为结构感知的四元损失函数；

假设索引为i的像素p_i经过嵌入网络得到像素嵌入z_i＝φ_θ(p_i)，θ为嵌入网络的权值；初始道路区域由自监督学习显著性估计模块输出的历史显著性预测图确定，初始道路区域之外的像素由k-means聚类算法分为C类区域；像素p_i的类别为c_i∈{1,2,…,C+1}，第C+1类为道路类，同一类别c的所有像素将构成掩码M_c；类别c的平均像素嵌入

其中|·|为当前类别的像素总数目；

根据显著性预测和聚类算法，将初始道路区域的像素p_i作为正类记为c₊，对应的平均像素嵌入为

其他类别作为负类记为c_-∈{1,2,…,C}，类别c_-的平均像素嵌入为

；

是由像素p_i获得的嵌入z_i与同类别的平均像素嵌入

之间的距离；δ_neg1＝d(z_i,z_c1-)是像素嵌入z_i与类别c1_-的平均像素嵌入

之间的距离；δ_neg2＝d(z_i,z_c2-)是像素嵌入z_i与类别c2_-的平均像素嵌入

之间的距离；

为了增强负类的多样性，通过难例像素挖掘获得类别c1_-，通过下式，最小化当前像素嵌入与类别c2_-的平均像素嵌入的距离、类别c1_-的平均像素嵌入与类别c2_-的平均像素嵌入之间的距离，从而获得类别c2_-：

其中，

表示类别c1_-和c2_-之间的平均像素嵌入距离，λ为权重平衡因子；

接着，利用结构感知的四元损失函数L_quadru优化嵌入网络，如下式所示：

L_quadru＝max{γ+δ_pos-δ_neg1,0}+max{δ+δ_pos-δ_neg2,0}

其中，常系数γ，δ基于实验结果进行调整。

进一步地，所述道路检测模型采用端到端End-to-End学习模式。

进一步地，所述道路检测模型训练阶段采用GPU进行计算。

进一步地，所述道路检测模型相关参数ε，α，γ，δ和λ通过网格搜索确定，可以按如下值配置但不限于此：ε＝0.5，α＝0.1，γ＝100，δ＝100和λ＝0.1，实验结果表明，当前参数配置优于其他配置。

进一步地，采用KITTI数据集或Tian交通数据集作为道路检测模型的训练集。KITTI数据集包含由五个不同的日期收集的289张训练图像和290张测试图像，分辨率为375×1242，道路检测任务中只包含道路类和其它类，两个类别；因为交通密度相对较低，道路区域通常可见；Tian交通数据集由16,000张训练图像和3,000张验证图像及测试图像组成，分辨率为1080×720；图像分为道路区域和其它区域，收集位置包括桥梁，隧道，高速公路和城市环境，收集时间包括日落，白天和夜晚。评估标准包括最大F1度量函数，准确率(precision)，召回率(recall)和平均精度(average precision,AP)。

相比于现有技术，本发明具有的有益效果为：

(1)提出自监督学习显著性估计模块，生成目标初始掩码，基于图像级损失、应用全连接的条件随机场的空域一致性更新掩码预测图，利用空域一致性和时域融合结果更新监督信息用于迭代训练全卷积网络。

(2)采用集成学习，并利用空域一致性和时域融合结果提升模型鲁棒性。

(3)提出像素嵌入学习模块，使用结构感知的四元损失函数，使得属于同一类别像素间的嵌入空间距离小于属于不同类别像素间的嵌入空间距离，改善各像素分配情况，其多样性在训练阶段能够隐式加速收敛。

(4)在KITTI数据集和Tian交通数据集上的实验结果表明，与其他先进检测方法相比，本发明方法具有可观的竞争力。

附图说明

图1是本发明实施例提供的道路检测模型的框架示意图；

图2是本发明实施例提供的显著性估计流程示意图；

图3是本发明实施例提供的结构感知的四元损失函数示意图；

图4是本发明实施例在KITTI数据集上的结果实例图。

图5是本发明实施例在Tian交通数据集上的结果实例图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

本发明实施例提出的一种基于自监督学习显著性估计像素嵌入的道路检测方法，该方法基于图像级损失、应用全连接的条件随机场的空域一致性更新掩码预测图，利用空域一致性和时域融合结果更新监督信息用于迭代训练全卷积网络，使用结构感知的四元损失函数，使得属于同一类别像素间的嵌入空间距离小于属于不同类别像素间的嵌入空间距离。该方法具体包括以下步骤：

步骤1：构建道路检测模型，包括用于生成目标初始掩码的自监督学习显著性估计模块、进一步改善道路分割掩码的像素嵌入学习模块；

所述自监督学习显著性估计模块的构建方法如下：

输入原始图像x，通过手工方法生成的初始显著性预测图的每个像素M(x；p)与固定阈值ε比较生成伪标签L(x；p)，1表示前景像素，0表示背景像素，所述固定阈值ε通过网格搜索获取使得分割结果的mIoU(mean intersection over Union)准确率最高的数值确定；全卷积网络通过伪标签L(x；p)和图像级损失

进行学习，其中β为可控参数，当β＝1时，L_β为F1度量函数，P为准确率，R为召回率；

在全卷积网络的学习过程中，利用空域一致性和时域融合结果更新监督信息用于迭代训练全卷积网络，实现自监督学习，具体为：

(1)对第k个epoch的显著性预测图

应用全连接的条件随机场得到相同分辨率的掩码预测图

(2)将第k-1个epoch的历史显著性预测图h(x,k-1)和第k个epoch的

所述像素嵌入学习模块的构建方法如下：

将原始图像x作为基于编码器-解码器结构的嵌入网络的输入，在嵌入网络的学习过程中，将原始图像x的全部像素映射到嵌入空间，得到像素嵌入z_i＝φ_θ(p_i)，θ为嵌入网络的权值；通过自监督学习显著性估计模块得到的历史显著性预测图量化得到初始道路区域，初始道路区域之外的像素由k-means聚类算法分为C类区域，本实施例中C＝9；像素p_i的类别为c_i∈{1,2,…,C+1}，第C+1类为道路类，同一类别c的所有像素将构成掩码M_c；每个类别区域的像素嵌入取平均值，得到类别c的平均像素嵌入

其中|·|为当前类别的像素总数目；

其他类别作为负类记为c-∈{1,2,…,C}，类别c_-的平均像素嵌入为

；

是由像素p_i获得的嵌入z_i与同类别的平均像素嵌入

之间的距离；

是像素嵌入z_i与类别c1_-的平均像素嵌入

之间的距离；

是像素嵌入z_i与类别c2_-的平均像素嵌入

之间的距离；

为了增强负类的多样性，通过难例像素挖掘获得类别c1_-，并最小化当前像素嵌入与类别c2_-的平均像素嵌入的距离、类别c1_-的平均像素嵌入与类别c2_-的平均像素嵌入之间的距离，从而获得类别c2_-：

其中，

接着，利用结构感知的四元损失函数L_quadru优化嵌入网络，使得原始图像空间中外观相似的像素在嵌入空间中相互靠近，外观不相似的像素在嵌入空间中相互远离，从而使得属于同一类别像素间的嵌入空间距离小于属于不同类别像素间的嵌入空间距离；

结构感知的四元损失函数L_quadru：

L_quadru＝max{γ+δ_pos-δ_neg1,0}+max{δ+δ_pos-δ_neg2,0}

其中，常系数γ，δ基于实验结果进行调整。

步骤2：得到检测结果：利用训练集训练所述道路检测模型；测试时将待检测图像输入道路检测模型，得到图像中每个像素在嵌入空间的映射结果，映射结果与道路类别平均嵌入做差，并与门限比较，从而判断道路区域。

本实施例提供的道路检测方法可以预测道路区域的位置，并给出对应掩码，且能够应用到道路检测的其他方面。采用本实施方式对图像中的道路进行检测的过程包括训练和测试两个部分。下面结合附图介绍本实施例所采用的道路检测模型。

图1是本发明实施例提供的道路检测模型的框架示意图，该模型由用于生成目标初始掩码的自监督学习显著性估计模块、进一步改善道路分割掩码的像素嵌入学习模块复合而成；

在自监督学习显著性估计模块中，数据增强部分使用水平和垂直翻转。显著性估计模块的基线遵循DeepUSPS，最初是在包含有限的复杂场景的MSRA数据集上训练的。本发明采用n＝2个手工方法，分别为：[W.Zhu,S.Liang,Y.Wei,and J.Sun,“Saliencyoptimization from robustbackground detection,”in CVPR,2014,pp.2814–2821.]以及[W.Zou and N.Komodakis,“Harf:Hierarchy-associated rich featuresfor salientobject detection,”in ICCV,2015,pp.406–414.]。训练初始学习率为0.005；然后，学习率在20个epoch时减少20倍，并在30个epoch停止，每个批次有16张图像。在像素嵌入学习模块中，整个网络使用rmsprop优化器进行训练，每个批次中有16张图像。前30个epoch，学习率设置为0.0055，然后在接下来的30个epoch中降低0.7倍。

本实施例中测试方法具体为：给定测试图像，将训练得到的道路检测模型执行一次前向传播得到基于本实施例提出的道路检测模型的测试结果。

图2是本发明实施例提供的显著性估计流程示意图，手工方法用于生成图像的初始显著性预测图，条件随机场与时序均值用于探索时空信息。

图3是本发明实施例提供的结构感知的四元损失函数示意图，(a)三元损失，(b)四元损失，(c)结构感知的四元损失；“A”表示当前像素，“P”表示正类像素，“N”表示负类像素。

图4是本发明实施例在KITTI数据集上的结果实例图，第一行为输入图像，第二行和第三行分别展示了动量对比方法(momentum contrast,MOCO)和本文方法的输出结果，最后一行为对应的真实标签。

图5是本发明实施例在Tian交通数据集上的结果实例图，第一行为输入图像，第二行和第三行分别展示了动量对比方法和本文方法的输出结果，最后一行为对应的真实标签。

结果表明，本实施例提出的方法与其他先进的检测方法相比更具有竞争力。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自监督学习显著性估计像素嵌入的道路检测方法，其特征在于，包括以下步骤：

所述自监督学习显著性估计模块的构建方法如下：

所述像素嵌入学习模块的构建方法如下：

2.如权利要求1所述的基于自监督学习显著性估计像素嵌入的道路检测方法，其特征在于，所述自监督学习显著性估计模块中，将通过手工方法生成的初始显著性预测图的每个像素M(x；p)与固定阈值ε比较生成伪标签L(x；p)，所述固定阈值ε通过网格搜索获取使得分割结果的mIoU准确率最高的数值确定。

3.如权利要求1所述的基于自监督学习显著性估计像素嵌入的道路检测方法，其特征在于，所述自监督学习显著性估计模块中，图像级损失

4.如权利要求1所述的基于自监督学习显著性估计像素嵌入的道路检测方法，其特征在于，所述全卷积网络的学习过程具体为：

(1)对第k个epoch的显著性预测图

应用全连接的条件随机场得到相同分辨率的掩码预测图

(2)将第k-1个epoch的历史显著性预测图h(x,k-1)和第k个epoch的

5.如权利要求1所述的基于自监督学习显著性估计像素嵌入的道路检测方法，其特征在于，所述像素嵌入学习模块中，所述代价函数为结构感知的四元损失函数；

索引为i的像素p_i经过嵌入网络得到像素嵌入z_i＝φ_θ(p_i)，θ为嵌入网络的权值；初始道路区域由自监督学习显著性估计模块输出的历史显著性预测图确定，初始道路区域之外的像素由k-means聚类算法分为C类区域；像素p_i的类别为c_i∈{1,2,…,C+1}，第C+1类为道路类，同一类别c的所有像素将构成掩码M_c；类别c的平均像素嵌入