CN112465836A

CN112465836A - 基于轮廓信息的热红外语义分割无监督领域自适应方法

Info

Publication number: CN112465836A
Application number: CN202011426430.1A
Authority: CN
Inventors: 白相志; 刘子超
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-03-09
Anticipated expiration: 2040-12-09
Also published as: CN112465836B

Abstract

本发明公开一种基于轮廓信息的热红外语义分割无监督领域自适应方法：一、利用可见光带标注语义分割数据集训练语义分割模型以获得像素级语义分割的能力；二、利用可见光领域训练的语义轮廓模型提取热红外图像语义轮廓，通过轮廓构建起可见光图像语义与热红外图像语义的桥梁；三、对各个类别进行显著性检测，融合各类别显著性检测结果，并利用形态学操作与全连接条件随机场得到语义分割伪标签；四、利用热红外图像语义分割伪标签数据集对第一部分的语义分割模型进行再训练。本发明利用易于获取易于标注可见光图像语义分割数据与无标注的热红外图像数据，获得对热红外图像进行语义分割的模型，能被广泛应用于智能驾驶、安保安防等领域中。

Description

基于轮廓信息的热红外语义分割无监督领域自适应方法

【技术领域】

本发明涉及一种基于轮廓信息的热红外语义分割无监督领域自适应方法，语义分割和无监督领域自适应技术在图像应用领域具有广泛应用，隶属于计算机视觉领域。

【背景技术】

语义分割是以图像特征信息为依据，将图像分为若干具有特性且互不重叠区域并赋予语义类别的图像处理技术。语义分割简化了图像，提炼了图像的信息，便于场景理解与高层视觉任务。语义分割是计算机视觉领域和图像识别的重要处理技术。因此，研究快速、鲁棒以及准确的语义分割方法具有重要意义。

与可见光图像不同，热红外图像针对波长在7.5微米至13微米的电磁波辐射成像。任何温度在绝对零度以上的物体都会发射辐射。依据普朗克定律以及维恩位移定律，地表上大部分物体的辐射峰值都在热红外波段中。因此，热红外成像不需要其他外部光源，所以热红外图像在全天时成像方面具有优势，这使得其在具有全天时需求的应用例如安保国防上被广泛使用。因为热红外图像传感器的限制，热红外图像分辨率有限，同时，大气传输过程中的辐射衰减也导致热红外图像对比度低，轮廓模糊，纹理大面积缺失。因此，热红外图像处理一直具有较高的难度。大部分对热红外图像的技术研究仍然停留在基于灰度的目标分割等较为底层的数字图像处理阶段。基于热红外图像的语义分割仍是一个鲜有探索与研究的领域。

深度学习是一种近年来飞速发展的机器学习思想，受启发于神经科学的观点，其运用多层次结构去学习多层次组合。通过组合大量简单结构，其成功构建起了能够学习较为复杂映射的学习器。这些多层次结构被称为深度神经网络。通过监督训练，深度神经网络能够提取数字图像中深层次特征，其表现往往超越人工设计的特征。深度神经网络的监督训练需要大量带标签的数据，而这增加了深度神经网络的应用与新领域拓展难度。对于图像语义分割，这个问题尤为严重，因为其数据的标注需要远大于其他任务的人力。对于热红外图像语义分割，建立足够用于深度神经网络监督训练的标注数据集具有额外的困难。原因之一是热红外图像的许多应用场景缺少数据，二是因为热红外图像是基于热红外辐射成像，与人眼习惯的可见光波段图像不同，对于语义理解及标注存在困难。

通过将可见光图像语义分割迁移至热红外图像语义分割的领域自适应是解决该数据短缺问题的方式之一。作为迁移学习子领域，领域自适应用相关领域的带标注数据去解决缺乏标注数据的目标领域任务。随着深度学习的出现，许多针对深度学习的领域自适应方法被提出。一个被广泛应用的深度领域自适应策略是缩小两个领域的差异(参见文献：龙等人.基于残差迁移网络的无监督领域自适应.神经信息处理系统的研究进展.737–752,1999.(M.Long,H.Zhu,J.Wang,and M.I.Jordan,“Unsupervised domain adaptation withresidual transfer networks,”in Advances in Neural Information ProcessingSystems,2016,pp.136–144.))。使用该策略的方法通过缩小某种衡量两个领域数据分布差距的度量，以缩小两个领域之间的差异，并获得在目标域上较好的效果。虽然被证实在图像分类上有效，但是因为该类方法需要将特征转换成向量，而转换成向量的特征失去了图像语义分割所需要的空间结构化的信息，所以该类方法难以被应用于图像语义分割领域。另一个广泛使用的策略是对抗判别学习策略(参见文献：陈等人.不再有区别：跨城市的道路场景分割自适应.电气和电子工程师协会国际计算机视觉大会.1992–2001,2017.(Y.Chen,W.Chen,Y.Chen,B.Tsai,Y.Frank Wang,and M.Sun,“No more discrimination:Crosscity adaptation of road scene segmenters,”in IEEE International Conference onComputer Vision,2017,pp.1992–2001.))。对抗学习策略让特征提取器与判别器进行对抗，以让特征提取器从两个领域的数据中提取领域不变的关键特征。除此以外，一些生成策略的方法被提出(参见文献：波斯马里斯等人.使用生成对抗网络的无监督像素级领域自适应.电气和电子工程师协会国际计算机视觉与模式识别会议.3722–3731,2017.(K.Bousmalis,N.Silberman,D.Dohan,D.Erhan,and D.Krishnan,“Unsupervised pixel-level domain adaptation with generative adversarial networks,”in IEEEConference on Computer Vision and Pattern Recognition,2017,pp.3722–3731.))。基于生成的方法例如生成对抗网络将图像进行风格转换，然后使用语义分割模型进行语义分割。基于自训练的方法是另一种被广泛使用的策略(参见文献：邹等人.置信度规范化的自学习.电气和电子工程师协会国际计算机视觉大会.5982–5991,2019.(Y.Zou,Z.Yu,X.Liu,B.Kumar,and J.Wang,“Confidence regularized self-training,”in IEEEInternational Conference on Computer Vision,2019,pp.5982–5991.))。该类方法交替进行语义分割结果预测与基于预测结果生成伪标签的过程。以上大部分方法都假设源域与目标域之间存在一个可以变换得到的领域不变的特征空间，但是这个假设并不是对所有的源域与目标域成立。基于教程学习的方法避免了这个假设，作为替代，该类方法使用附加的任务去引导目标域的目标任务。例如张等人利用预训练的图像分类模型去引导图像语义分割任务(参见文献：张等人.一种用于城市场景语义分割的教程领域自适应方法.电气和电子工程师协会模式分析与机器智能汇刊.2019.(Y.Zhang,P.David,H.Foroosh,andB.Gong,“A curriculum domain adaptation approach to the semantic segmentationof urban scenes,”IEEE Transactions on Pattern Analysis and MachineIntelligence,2019.))。

以上方法的主要应用场景是不同城市的城市场景语义分割迁移以及计算机合成图像与真实可见光图像的语义分割迁移。因为没有针对可见光图像与热红外图像之间的语义分割进行设计，方法效果仍然有局限性。针对上述问题，为了能在没有热红外图像语义分割标注的情况下，对热红外图像进行语义分割，本发明提出一种基于轮廓信息的热红外语义分割无监督领域自适应方法。

【发明内容】

1、目的：因为成像模态的不同，热红外图像与可见光波段图像存在巨大的差异。虽然应用于计算及合成图像语义分割迁移至真实可见光图像语义分割的方法能够一定程度地减小可见光图像语义分割与热红外图像语义分割的差异，但由于这些方法没有针对可见光图像与热红外图像的共性进行分析与应用，所以效果有限。

针对可见光图像及其语义分割和热红外图像及其语义分割特点，本发明提出基于轮廓信息的热红外语义分割无监督教程领域自适应方法，将可见光图像语义分割迁移至热红外图像语义分割。该方法基于教程学习的策略，通过轮廓构建可见光图形语义分割与热红外图像语义分割的迁移途径。具体来说，该方法首先利用可见光图像及其语义分割标签预训练一个语义分割模型；然后使用在可见光图像领域训练的语义轮廓提取模型提取热红外图像语义轮廓；然后利用配对热红外图像及其语义轮廓，通过逐类别显著性区域分割以及全连接条件随机场，获得热红外图像的语义分割伪标签；然后利用热红外图像及其语义分割伪标签，训练在可见光图像领域预训练的语义分割模型，得到用于热红外图像语义分割模型。

2、技术方案：为了实现将可见光图像语义分割迁移至热红外图像语义分割的目的，本发明具体技术方案如下。

第一步：语义分割模型预训练：

输入可见光图像语义分割数据集{(x_i,y_i)|i＝1,...,N_S}(其中x_i表示第i幅可见光图像，y_i表示其对应的语义分割标签，N_S表示可见光图像数量)，语义类别数C；以及一个语义分割模型h，给定训练的损失函数。将可见光图像x_i送入语义分割模型作为输入，得到语义分割预测结果

计算语义分割标签y_i与语义分割预测结果

的损失函数

以衡量预测结果与标签差异程度。利用梯度反向传播算法将损失函数对语义分割模型各层参数θ偏导求出。然后使用小批量随机梯度下降算法按学习率更新各个参数以求减小损失函数。

第二步：语义轮廓提取：输入可见光图像语义分割数据集{(x_i,y_i)|i＝1,...,N_S}，输入语义轮廓提取模型h(θ_SC)。具体如下：

通过对可见光图像的语义分割标签进行处理，将语义分割标签y_i转换为语义轮廓的标签s_i。处理完成得到可见光语义轮廓数据集{(x_i,s_i)|i＝1,...,N_S}。运用该可见光语义轮廓数据集训练语义轮廓提取模型以提取热红外图像的语义轮廓。与语义分割模型相似，所述的语义轮廓提取模型是近似拟合一个映射，将其记为h(θ_SC)。经过训练，语义轮廓提取模型能够提取热红外图像的语义轮廓，因此可以得到热红外图像与其对应的热红外图像语义轮廓数据集{(x_j,s_j)|j＝1,...,N_T}，其中x_j表示第j幅热红外图像，s_j表示其对应的语义轮廓，N_T表示热红外图像数量。

第三步：使用逐类别语义显著性区域分割，从语义轮廓生成语义分割伪标签

逐类别的语义显著性分割总览如图2所示。逐类别的语义显著性分割表示为

其中f为从{(x_j,s_j)|j＝1,...,N_T}到

的映射。首先对热红外图像x_j进行超像素分割，对于热红外图像中的每个超像素r，计算其各个类别的语义轮廓强度平均

对每个类别c，基于各个超像素与其强度值构建一个无向图G_c＝(V_c,E_c)，其中V_c是图的节点，E_c为图的边。语义类别c超像素r的显著性强度由计算该无向图上超像素r到该类别的背景节点集B的最短测地线距离得到，表示为

其中，背景节点集由具体的语义类别决定。对于属于前景的语义类别(例如行人，骑手)，背景节点集包含图像四个边界上的超像素集合。对于属于背景的语义类别(例如天空，道路)，其背景节点集包含离该超像素更远的图像水平边界上的超像素集合。显著性检测后，对各个类别的显著性热图进行组合，即取各类别中显著性强度更高类别的作为组合后结果的类别，对于每个语义类别的显著性强度都为0的超像素，将其作为不感兴趣的类别。然后对各类别显著性区域进行二值腐蚀，并利用全连接条件随机场将较为粗糙的热红外语义伪标签进行细化，得到数据集

(其中

表示热红外图像x_j对应伪标签)。

第四步：运用第三步得到的热红外图像语义分割伪标签数据集

训练利用可见光图像语义分割数据预训练的语义分割模型h(θ_VS)，将其转化为h(θ_TIR)。将热红外图像x_j作为模型输入，经过语义分割模型的前馈计算，得到输出的语义分割预测概率热图，对预测概率热图取最大化的操作，得到对应的语义分割预测结果

然后计算热红外图像对应的语义分割伪标签

与语义分割预测结果

的损失函数

以衡量预测结果与标签的差异程度。然后利用梯度反向传播算法计算语义分割模型的参数更新值，并利用随机梯度下降算法更新语义分割模型参数值θ。经过再训练，语义分割模型具有了对热红外图像进行语义分割的能力。

3、优点及功效：热红外图像因为语义分割标注困难，而在缺少语义分割标注情况下，监督训练方法无法直接作用于热红外图像语义分割。本发明提出的基于轮廓信息的热红外语义分割无监督领域自适应方法通过语义轮廓提取，逐类别显著性区域分割以及全连接条件随机场获取热红外图像语义分割伪标签，然后利用热红外图像及其伪标签训练在可见光图像领域预训练的语义分割模型。本发明利用轮廓在可见光图像与热红外图像中的共性构建可见光图像语义分割向热红外图像语义分割迁移途径，可以充分利用易于获取与语义标注的可见光图像，提升了热红外图像语义分割的可行性，为热红外图像应用于全天时智能驾驶以及机器人视觉理解等领域提供了助力，具有广阔的市场前景与应用价值。

【附图说明】

图1为本发明原理框图。

图2是本发明中逐语义类别显著性区域分割部分原理图。

图3a是热红外图像原图。

图3b是各类别的图例。

图3c是运用本发明前的模型语义分割结果图。

图3d是运用本发明后的得到的语义分割结果图。

图3e是该热红外图像对应的语义分割标签图。

【具体实施方式】

为了更好地理解本发明的技术方案，以下结合附图对本发明的实施方式作进一步描述。

本发明的原理框图如图1所示，本发明的具体实施步骤如下：

第一步：输入可见光图像语义分割数据集{(x_i,y_i)|i＝1,...,N_S}，本方法使用的是Cityscapes可见光城市场景语义分割数据集(参见文献：科尔德等人.用于语义城市场景理解的城市场景数据集.电气和电子工程师协会国际计算机视觉与模式识别会议.3213–3223,2016.(M.Cordts,M.Omran,S.Ramos,T.Rehfeld,M.Enzweiler,R.Benenson,U.Franke,S.Roth,and B.Schiele,“The cityscapes dataset for semantic urbanscene understanding,”in IEEE Conference on Computer Vision and PatternRecognition,2016,pp.3213–3223.))；语义类别数C，本方法因为热红外语义分割测试集的类别数为8所以设置为8；以及一个语义分割模型h，本文使用UPerNet；给定训练的损失函数，本方法使用的是交叉熵损失函数，其表达式如下：

L_(x,y)(y^#,y)＝E_(x,y)[ylog(softmax(y^#))] (2)

其中softmax(y^#)的表达式为：

利用可见光语义分割数据集监督训练语义分割模型h(θ_VS)。该语义分割模型的输入为可见光图像x_i及其语义分割标签y_i。具体来说，可见光图像送入语义分割模型作为输入，然后基于参数θ的语义分割模型输出一个对应的语义分割预测概率，将其预测概率最大化后得到对应的语义分割预测结果

然后计算热红外图像对应的语义分割伪标签

与语义分割预测结果

的损失函数

以衡量预测结果与标签的差异程度。为了减小差异程度，利用梯度反向传播算法将损失函数对语义分割模型各层参数θ偏导求出。然后使用小批量随机梯度下降算法按学习率更新各个参数以求减小损失函数。本方法使用的学习率为0.01，使用的批量大小为8。本方法使用的训练流程为最大迭代纪元为80，如果10个纪元没有在验证集上有效果提升，则提前终止训练，初始学习率为0.01。

第二步：输入可见光图像语义分割数据集{(x_i,y_i)|i＝1,...,N_S}，输入语义轮廓提取模型h(θ_SC)，本方法使用的是CASENet(参见文献：于等人.基于深度注意类别的语义边缘检测.电气和电子工程师协会国际计算机视觉与模式识别大会.5964–5973,2017.(Z.Yu,C.Feng,M.Liu,and S.Ramalingam,“Casenet:Deep category-aware semantic edgedetection,”in IEEE Conference on Computer Vision and Pattern Recognition,2017,pp.5964–5973.))。通过对可见光图像的语义分割标签进行处理，将语义分割标签y_i转换为语义轮廓的标签s_i。处理完成得到可见光语义轮廓数据集{(x_i,s_i)|i＝1,...,N_S}。利用语义轮廓提取模型提取热红外图像的语义轮廓，利用语义轮廓及其对应的热红外图像得到热红外图像语义轮廓数据集{(x_j,s_j)|j＝1,...,N_T}。

第三步：输入热红外图像语义轮廓数据集{(x_j,s_j)|j＝1,...,N_T}，使用超像素分割算法对热红外图像进行超像素分割，本方法使用的是SLIC(参见文献：阿骞塔等人.SLIC超像素与其他现金超像素方法的比较.电气和电子工程师协会模式分析与机器智能汇刊.2274–2282,2012.(R.Achanta,A.Shaji,K.Smith,A.Lucchi,P.Fua,and S.S¨usstrunk,“Slic superpixels compared to state-of-the-art superpixel methods,”IEEETransactions on Pattern Analysis and Machine Intelligence,vol.34,no.11,pp.2274–2282,2012.))。对于热红外图像中的每个超像素r，计算其各个类别的语义轮廓强度平均

(由该超像素所包含的像素空间上对应的各个语义类别的语义轮廓强度的平均值得到)。对每个类别c，基于各个超像素与其强度值构建一个无向图G_c＝(V_c,E_c)，V_c是图的节点，实际上为超像素，E_c为图的边。在构建好无向图G_c之后，对于语义类别c超像素r的显著性强度是由计算超像素r到该类别的背景节点集B的最短测地线距离得到的，表示为

其中，背景节点集由具体的语义类别决定。对于属于前景的语义类别(例如行人，骑手)，背景节点集包含图像四个边界上的超像素集合。对于属于背景的语义类别(例如天空，道路)，其背景节点集包含离该超像素更远的图像水平边界上的超像素集合。在显著性检测之后，对各个类别的显著性热图进行组合，即取各类别中显著性强度更高类别的作为组合后结果的类别，对于每个语义类别的显著性强度都为0的超像素，将其作为不感兴趣的类别。这样就得到了较为粗糙的热红外语义伪标签。然后对各类别显著性区域进行二值腐蚀，并利用全连接条件随机场将较为粗糙的热红外语义伪标签进行细化。得到热红外图像语义分割伪标签数据集

第四步：输入热红外图像语义分割伪标签数据集

与预训练的语义分割模型h(θ_VS)，给定训练流程与损失函数。将热红外图像x_j输入所述的语义分割模型，经过逐层计算，得到输出结果

计算该结果与伪标签之间的损失函数

通过反向传播算法与小批量随机梯度下降算法更新模型的参数θ。本方法使用的训练流程为最大迭代纪元为80，如果10个纪元没有在验证集上有效果提升，则提前终止训练，初始学习率为0.01。本方法使用的批量大小为8。该步骤得到模型h(θ_TIR)。

将热红外图像输入训练完成的模型h(θ_TIR)，经过模型计算得到热红外图像语义分割预测结果。

为展示本发明的效果，图3a-e给出热红外图像、迁移前语义分割结果图像和迁移后语义分割结果图像。由结果看出，本发明成功迁移可见光图像语义分割至热红外图像语义分割并得到较精确的分割结果。其中，图3a是热红外图像原图，图3b是各类别的图例。图3c是运用本发明前的模型语义分割结果图。图3d是运用本发明后的得到的语义分割结果图。图3e是该热红外图像对应的语义分割标签图。从图3a看出，可见光图像与热红外图像存在较大特征差异，没有经过迁移的语义分割模型通常不能得到较好的结果。本发明提出的方法使用轮廓构建可见光图像语义分割迁移至热红外图像语义分割的教程，利用语义轮廓提取与显著性区域分割，能够较好地生成热红外图像的语义分割伪标签，达到了迁移可见光图像语义分割至热红外图像语义分割的目的，提升了热红外图像语义分割的可行性。

Claims

1.一种基于轮廓信息的热红外语义分割无监督领域自适应方法，其特征在于：该方法首先利用可见光图像及其语义分割标签预训练一个语义分割模型；使用在可见光图像领域训练的语义轮廓提取模型提取热红外图像语义轮廓；然后利用配对热红外图像及其语义轮廓，通过逐类别显著性区域分割以及全连接条件随机场，获得热红外图像的语义分割伪标签；最后利用热红外图像及其语义分割伪标签，训练所述的在可见光图像领域预训练的语义分割模型，得到用于热红外图像语义分割模型。

2.根据权利要求1所述的基于轮廓信息的热红外语义分割无监督领域自适应方法，其特征在于：该方法的具体实现过程为：

第一步：语义分割模型预训练：

输入可见光图像语义分割数据集{(x_i,y_i)|i＝1,...,N_S}，其中x_i表示第i幅可见光图像，y_i表示其对应的语义分割标签，N_S表示可见光图像数量；语义类别数C；以及一个语义分割模型h，给定训练的损失函数；将可见光图像x_i送入语义分割模型作为输入，得到语义分割预测结果

计算语义分割标签y_i与语义分割预测结果

的损失函数

以衡量预测结果与标签差异程度；利用梯度反向传播算法将损失函数对语义分割模型各层参数θ偏导求出；然后使用小批量随机梯度下降算法按学习率更新各个参数以求减小损失函数；

第二步：语义轮廓提取：输入可见光图像语义分割数据集{(x_i,y_i)|i＝1,...,N_S}，输入语义轮廓提取模型h(θ_SC)；具体如下：

通过对可见光图像的语义分割标签进行处理，将语义分割标签y_i转换为语义轮廓的标签s_i；处理完成得到可见光语义轮廓数据集{(x_i,s_i)|i＝1,...,N_S}；运用该可见光语义轮廓数据集训练语义轮廓提取模型以提取热红外图像的语义轮廓；与语义分割模型相似，所述的语义轮廓提取模型是近似拟合一个映射，将其记为h(θ_SC)；经过训练，语义轮廓提取模型能够提取热红外图像的语义轮廓，因此可以得到热红外图像与其对应的热红外图像语义轮廓数据集{(x_j,s_j)|j＝1,...,N_T}，其中x_j表示第j幅热红外图像，s_j表示其对应的语义轮廓，N_T表示热红外图像数量；

逐类别的语义显著性分割表示为

其中f为从{(x_j,s_j)|j＝1,...,N_T}到

的映射；首先对热红外图像x_j进行超像素分割，对于热红外图像中的每个超像素r，计算其各个类别的语义轮廓强度平均

对每个类别c，基于各个超像素与其强度值构建一个无向图G_c＝(V_c,E_c)，其中V_c是图的节点，E_c为图的边；语义类别c超像素r的显著性强度由计算该无向图上超像素r到该类别的背景节点集B的最短测地线距离得到，表示为

显著性检测后，对各个类别的显著性热图进行组合，即取各类别中显著性强度更高类别的作为组合后结果的类别，对于每个语义类别的显著性强度都为0的超像素，将其作为不感兴趣的类别；然后对各类别显著性区域进行二值腐蚀，并利用全连接条件随机场将较为粗糙的热红外语义伪标签进行细化，得到数据集

其中

表示热红外图像x_j对应伪标签；

训练利用可见光图像语义分割数据预训练的语义分割模型h(θ_VS)，将其转化为h(θ_TIR)；将热红外图像x_j作为模型输入，经过语义分割模型的前馈计算，得到输出的语义分割预测概率热图，对预测概率热图取最大化的操作，得到对应的语义分割预测结果

然后计算热红外图像对应的语义分割伪标签

与语义分割预测结果

的损失函数

以衡量预测结果与标签的差异程度；然后利用梯度反向传播算法计算语义分割模型的参数更新值，并利用随机梯度下降算法更新语义分割模型参数值θ；经过再训练，语义分割模型具有了对热红外图像进行语义分割的能力。

3.根据权利要求2所述的基于轮廓信息的热红外语义分割无监督领域自适应方法，其特征在于：第三步所述的背景节点集，对于属于前景的语义类别，背景节点集包含图像四个边界上的超像素集合；对于属于背景的语义类别，其背景节点集包含离该超像素更远的图像水平边界上的超像素集合。