CN111598914A

CN111598914A - 一种基于不确定性引导的自适应图像分割方法

Info

Publication number: CN111598914A
Application number: CN202010395785.2A
Authority: CN
Inventors: 蔡敏捷
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2020-08-28
Anticipated expiration: 2040-05-12
Also published as: CN111598914B

Abstract

本发明公开了一种基于不确定性引导的自适应图像分割方法，步骤1：图像分割模型的预训练；步骤2：针对目标域数据的随机前向预测；步骤3：计算图像分割平均概率图

和不确定性图U；步骤4：计算图像分割掩码；步骤5：不确定性引导的模型自训练；步骤6：模型收敛判别。计算本次迭代的不确定性图的平均值

并计算与上次迭代的不确定性平均值的差值

若满足条件

则判定模型收敛并终止迭代；否则返回执行步骤2。该基于不确定性引导的自适应图像分割方法能自动从图像的所有像素中区分出感兴趣的物体区域。

Description

一种基于不确定性引导的自适应图像分割方法

技术领域

本发明属于图像处理以及图像分割技术领域，涉及一种基于不确定性引导的自适应图像分割方法。

背景技术

近年来，随着深度学习技术的兴起，基于全卷积神经网络的图像分割模型大大提高了图像分割的性能，但是模型的通用性能-即应用到陌生环境的性能仍然有待提高。当前，无监督领域自适应(unsupervised domain adaptation)技术是提高模型通用性能的主要技术手段。常见的基于对抗学习的领域自适应方法通过学习不同环境的共通的特征来减少领域间的差别，但是这类方法的应用过程依赖于源域数据，不利于模型的灵活部署。近两年，基于自训练(self-training)的方法被提出，它提供了一种通用简便的技术框架，通过从目标场景中筛选可靠的预测结果作为伪标签来直接对模型进行自训练，能够便捷地将模型应用到新的目标场景中。但是这类方法在筛选伪标签的过程中没有考虑模型本身的不确定性，使得部分不可靠的预测结果也被当成了伪标签参与模型的自训练，从而影响了模型的通用性能。

因此，有必要设计一种新的自适应图像分割方法。

发明内容

本发明所要解决的技术问题是提供一种基于不确定性引导的自适应图像分割方法，该基于不确定性引导的自适应图像分割方法能够极大地提高图像分割模型的通用性能。

发明的技术解决方案如下：

一种基于不确定性引导的自适应图像分割方法，其特征在于，包括以下步骤：

步骤1：图像分割模型的预训练；

使用带标签的源域的训练数据来对图像分割模型进行预训练；

图像分割模型为带有丢弃正则化(Dropout正则化)的全卷积神经网络；

步骤2：针对目标域数据的随机前向预测；

使用图像分割模型对无标签的目标域数据进行多次(即T次)随机前向预测，所谓随机前向预测即在模型预测时开启dropout功能(开启dropout功能：相当于随机关闭一些神经元的作用)，使得每次预测使用不同的模型参数(模型参数通过dropout自动采样得到，不需要人为干预)，从而得到不同的预测结果；

模型的直接预测结果是图像分割的概率图P；

对概率图加个阈值进行处理就得到了预测掩码。

步骤3：计算图像分割平均概率图

和不确定性图U；

基于步骤2得到的多次预测结果(即概率图P_i)，利用下式计算图像分割平均概率图

和不确定性图U；

T代表步骤2中的随机前向预测的次数，i是次数的索引；

其中，P_i＝H(I，ω_i)表示在一次随机向前传递之后获得的概率图，公式中的平方算子是逐元素的；

和U与输入图像具有相同的空间尺寸；T是次数索引，不是像素索引，公式里面的求和相当于不同图像的相同位置的像素的叠加，结果还是一个图像；

基于某个阈值对

进行二值化，可以得到预测的图像分割掩码M；阈值设置为0.5；

并且U的估计本质上等于计算每个像素处的概率的方差。

步骤4：计算图像分割掩码；

对于步骤3得到的图像分割平均概率图使用阈值进行二值化，得到图像分割掩码

作为下一步模型自训练的伪标签；

步骤5：不确定性引导的模型自训练；

基于步骤3和步骤4得到的图像分割平均概率图

不确定性图U和伪标签

利用公式1和公式2对模型进行自训练，从而达到更新模型参数的目的，使得模型更加适用于目标域的数据；

单次迭代自训练的损失函数：

其中k表示迭代索引，i表示样本索引，

和

分别表示目标域的图像分割概率图和不确定性图，

表示通过将分割概率的阈值设置为0.5获得的图像分割掩码；n_t表示目标域的样本数；

不确定性导引的图像分割损失：

m表示图像的像素索引；

步骤6：模型收敛判别。

计算本次迭代的不确定性图的平均值

并计算与上次迭代的不确定性平均值的差值

若满足条件

则判定模型收敛并终止迭代(到这一步，模型在目标域的自适应就完成了，就可以用于目标域的实际图像处理了)；否则返回执行步骤2。

图像分割模型为RefineNet全卷积神经网络模型，使用的损失函数是二进制交叉熵函数；

二进制交叉熵函数

其中，P是模型预测概率图，S是图像标签，即人工提供的掩码，m是像素索引；

公式中，对数的底数是2；

需要注意的是，步骤1在本发明中只需要执行一次，而步骤2-6是一个迭代过程，直到满足步骤6的模型收敛判别条件为止。

有益效果：

本发明的基于不确定性引导的自适应图像分割方法，基于领域自适应方法中的自训练的思想，与现有技术不同的是本发明明确考虑了模型的不确定性，提出了一种基于模型不确定性来引导模型自训练的新方法。基于本发明提出的方法，能够极大地提高图像分割模型的通用性能。

附图说明

图1为基于不确定性引导的自适应图像分割方法的总体流程示意图；

图2为应用本发明方法进行迭代的定性结果示意图(其中最左列的图为来自YHG数据库中的3个样本的原图和手部掩码图，第2，3，4列分别表示1，2，3次迭代(分别对应iter-0，iter-1和iter-2)后的结果)；

具体实施方式

以下将结合附图和具体实施例对本发明做进一步详细说明：

实施例1：

任务定义

假设有一个图像分割模型H(I，θ_s)，其参数θ_s是通过使用来自源域

的训练数据学习的，其中I_i表示RGB图像，M_i表示一个图像分割标签，它本身是一个二进制目标物体掩码图。虽然只要测试数据与训练数据D_s具有相似的分布，预训练的模型就可以得到很好的预测性能，但它难以有效应用到具有不同分布的数据。本发明的任务是使预训练的模型适应新的目标域

而无需新注释的分割掩码图。

1.不确定性引导的模型自训练

本发明提出的方法采用了无监督领域自适应中的模型自训练的思想。尽管目标域缺乏图像分割标签，但是通过利用模型在目标域的预测结果生成伪标签，可以更新模型使其适应目标域的数据。然而，现有的方法直接使用确定性CNN模型得到伪标签，并没有考虑模型本身的预测不确定性，因而无法保证生成的伪标签的可靠性，影响了模型自适应的性能。与以往方法不同的是，本方法将对模型预测的不确定性进行估计，并基于估计得到的不确定性来生成可靠的伪标签，指导模型的自适应过程。

本方法具体而言是一个迭代的自训练过程，每次迭代会使用前一次迭代中从模型获得的伪标签(布尔掩码图)和不确定性图来训练当前模型。对于目标域的所有数据，单次迭代自训练的损失函数H(I，θ_t)可以定义为：

其中k表示迭代索引，i表示样本索引，

和

分别表示目标域的图像分割概率图和不确定性图，

表示通过将分割概率的阈值设置为0.5获得的图像分割掩码。n_t表示目标域的样本数。

表示不确定性导引的图像分割损失，具体定义为：

其中，为简单起见，公式省略了迭代索引和样本索引，m表示图像的像素索引。值得注意的是，本发明使用置信度(1和不确定度的差值)作为损失函数的权重。换句话说，具有高置信度的像素对模型自适应的贡献更大，反之亦然。在使用之前，不确定性图U的值被归一化为[0，1]的范围。

除了用于计算损失函数的权重，模型的不确定性也被用来控制迭代的进程，以避免过拟合。具体来说，当前后两次迭代的不确定性平均值的减小幅度小于10％时，迭代终止。

需要强调的是，本发明的主要创新点在于将模型的不确定性引入图像分割的领域自适应，以及如何基于不确定性对模型自训练过程进行引导和控制的算法。本发明对于模型不确定性的估计过程不做限定，任何现有的不确定性估计方法皆可用于本方法。下一节将对本发明推荐的一类不确定性估计方法进行介绍。

2.基于贝叶斯神经网络的不确定性估计方法

在贝叶斯神经网络中，模型的参数被视为随机变量，参数ω的后验分布p(ω|D)通过贝叶斯定理来定义。作为贝叶斯深度学习研究的活跃领域，变分推断[7]通过最小化两个分布之间的Kullback-Leibler(KL)散度，以近似的变分分布q(ω)来近似复杂的后验分布p(ω|D)。在测试阶段，可以使用从q(ω)采样的网络参数并通过多次随机前向传递，得到新的输入x下输出y的预测分布：

其中T是模型运行的次数，每次运行都会采样不同的参数，而ω_i表示基于q(ω)对模型参数的一次采样；ω_i是神经网络的模型参数的一次采样结果，数学上可以认为是一个向量，向量长度取决于具体的神经网络模型。在实践中，采用文献[Y.Gal andZ.Ghahramani.Dropout as a bayesian approxi-mation：Representing modeluncertainty in deep learning.In international conference on machine learning，pages 1050-1059，2016.]中的贝叶斯逼近方法，该方法使用已被广泛用作深度学习中的正则化工具的dropout来近似模型参数的采样。这种近似的好处在于，现有的用dropout训练的CNN模型可以在不改变原始模型的情况下转换为贝叶斯模型。p(y|x，ω)在本发明中表示神经网络的概率化输出，由于神经网络的复杂性，无法直接通过公式来表示。q(ω)表示通过神经网络的dropout操作来实现的参数采样过程，服从伯努利分布。

现在，描述如何基于贝叶斯深度学习技术估计用于图像分割模型的不确定性。假设已经训练了分割模型H(I，ω)，该模型在给定输入图像I的情况下输出每个像素从属于目标物体的概率图P。图像分割的平均概率图

和不确定性图U的计算公式为：

其中，P_i＝H(I，ω_i)表示在一次随机向前传递之后获得的概率图，公式(3)中的平方算子是逐元素的。注意，

和U与输入图像具有相同的空间尺寸，并且U的估计本质上等于计算每个像素处的概率的方差。基于某个阈值对

进行二值化，可以得到预测的图像分割掩码M。阈值设置为0.5

具体实施步骤如下：

步骤1：图像分割模型的预训练。

首先使用带标签的源域的训练数据(训练数据是公开数据集上面的数据)(只有源域数据有标签，目标域数据没有标签；标签就是人工提供的图像分割的掩码，用来训练分割模型。但是标签要耗费大量人工来手动生成，对于新的目标场景不一定有标签，而没有标签重新训练模型，模型在目标域的性能就会大大降低。所以本发明的主要作用就是将在源域训练好的模型自适应到没有标签的目标域数据中)来对图像分割模型进行预训练。这里的图像模型可以是任意带有Dropout正则化(即Dropout Regularization，丢弃正则化)的全卷积神经网络。训练模型使用的损失函数是二进制交叉熵函数(BinaryCrossEntropy)。具体采用的模型是一个称为RefineNet的全卷积神经网络模型，在表1里面有对应的引用论文；二进制交叉熵函数写在下面的公式里了，具体P是模型预测概率图，S是图像标签-人工提供的掩码，m是像素索引；

二进制交叉熵函数

对数log的底数是2。

步骤2：针对目标域数据的随机前向预测。

使用图像分割模型对无标签的目标域数据进行多次随机前向预测，所谓随机前向预测即在模型预测时开启dropout功能(开启dropout功能：相当于随机关闭一些神经元的作用)，使得每次预测使用不同的模型参数(模型参数通过dropout自动采样得到，不需要人为干预)，从而得到不同的预测结果。

模型的直接预测结果是图像分割的概率图P，概率图通过阈值处理就得到预测掩码。

步骤3：计算图像分割平均概率图

和不确定性图U。

基于步骤2得到的多次预测结果，利用公式(3)计算图像分割平均概率图

和不确定性图U。

进行二值化，可以得到预测的图像分割掩码M。阈值设置为0.5

步骤4：计算图像分割掩码。

对于步骤3得到的图像分割平均概率图使用阈值0.5进行二值化，得到图像分割掩码

作为下一步模型自训练的伪标签。

步骤5：不确定性引导的模型自训练。

基于步骤3，4得到的图像分割平均概率图

不确定性图U和伪标签

利用公式(1)和公式(2)对模型进行自训练，从而达到更新模型参数的目的，使得模型更加适用于目标域的数据。

步骤6：模型收敛判别。

计算本次迭代的不确定性图的平均值

并计算与上次迭代的不确定性平均值的差值

若满足条件

则判定模型收敛并终止迭代(到这一步，模型在目标域的自适应即完成，可以用于目标域的实际图像处理)；否则继续执行步骤2.

实验结果

1.数据集

为了评估本方法的有效性，下面基于多个手部分割的数据集来测试方法在不同数据集之间的泛化性能。

EGTEA数据集：Extended GeorgianTech Egocentric Activity(EGTEA)数据集包含29个小时的第一人称视频，分辨率为1280×960。这些视频记录了32位受试者在自然厨房环境中准备饭菜的过程。在数据集中，用手部掩模标记了13847张图像。使用该数据集来训练初始手部分割网络。参见文献：Y.Li，M.Liu，and J.M.Rehg.In the eye of beholder：Joint learning of gaze and actions in first person video.In Pro-ceedings ofthe European Conference on Computer Vision(ECCV)，pages 619-635，2018。

GTEA数据集：该数据集包含28个分辨率为720×405录制的第一人称视频，记录了4位受试者执行的7项日常活动。663张图像带有手部掩模。采用文献C.Li andK.Kitani.Pixel-level hand detection in ego-centric videos.In IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR)，pages 3570-3577.IEEE，2013.中的数据拆分方法，将来自对象1、3、4的图像用作训练集，其余图像用作测试集。参见文献：A.Fathi，A.Farhadi，and J.Rehg.Understanding egocentric activities.In IEEEInternational Conference on Computer Vision(ICCV)，pages 407-414.IEEE，2011。

EDSH数据集：该数据集包含3个第一人称视频(EDSH1，EDSH2和EDSH-Kitchen)，在室内和室外环境下记录的分辨率均为1280×720。采用与文献C.Li and K.Kitani.Pixel-level hand detection in ego-centric videos.In IEEE Conference on ComputerVision and Pattern Recognition(CVPR)，pages 3570-3577.IEEE，2013.中相同的数据拆分方法。来自EDSH1的442个标记图像用作训练集，来自EDSH2的104个带标签的图像和来自EDSH-Kitchen的197个带标签的图像用作两个独立的测试集。参见：C.Li andK.Kitani.Pixel-level hand detection in ego-centric videos.1n IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR)，pages3570-3577.IEEE，2013.

UTG数据集：University of Tokyo Grasping(UTG)数据集包含50个分辨率为1920×1080的第一人称视频。该数据集捕获了由5个受试者执行的17种不同类型的手部抓握。为了便于研究，对872张图像进行手工标注，并将其随机分为训练和测试集，其比例分别为75％和25％。参见：M.Cai，K.Kitani，and Y.Sato.An ego-vision system for hand graspanalysis.IEEE Transactions on Human-Machine Systems，47(4)：524-535，2017.

YHG数据集：Yale Human Grasping(YHG)数据集可每天观察非结构化环境中人类的抓握行为。它包含27.7个小时的第一人称视频，由两名机械师和两名管家在日常工作中录制，分辨率为640×480。对488张图像进行手工标注，并将其随机分为训练集和测试集，其比例分别为75％和25％。参见文献：I.M.Bullock，T.Feix，and A.M.Dollar.The yalehuman grasping dataset：Grasp，object，and task data in household and machineshop environments.The International Journal of Robotics Research，34(3)：251-255，2015.

Egohands数据集：该数据集由48个分辨率为1280×720的第一人称视频组成，该视频记录了室内和室外环境中两个人之间的社交互动。4800个随机采样的图像用手部掩模标记。按照[S.Bambach，S.Lee，D.J.Crandall，and C.Yu.Lending a hand：Detecting handsand recognizing activities in complex egocentric interactions.In Proceedingsof the IEEE Inter-national Conference on Computer Vision，pages 1949-1957，2015.]和[A.Urooj and A.Borji.Analysis of hand segmentation in the wild.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition，pages 4710-4719，2018.]，将数据分为训练、验证和测试集，比例分别为75％、8％和17％。

以上数据集中，EGTEA数据集作为源域数据，其它数据集作为目标域数据。仅使用EGTEA数据集的训练集的手部掩码标签来得到初始的手部分割模型，而其他数据集中的标签仅用于评估评估模型的泛化性能。

2.性能比较

将跨数据集的手部分割性能与最先进的手部分割方法和无监督领域自适应的语义分割方法进行比较。

RefineNet方法[A.Urooj and A.Borji.Analysis 0f hand segmentation inthe wild.In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition，pages 4710-4719，2018.]：一种使用RefineNet[G.Lin，A.Milan，C.Shen，andI.D.Reid.Refinenet：Multi-path refinementnetworks for high-resolutionsemantic seg-mentation.In IEEE Conference on Computer Vision and Pat-ternRecognition(CVPR)，pages 1925-1934，2017.]作为网络架构的最先进的手部分割模型。在消融研究中也将其用作baseline模型。

CBST[Y.Zou，Z.Yu，B.Vi jaya Kumar，and J.Wang.Unsu-pervised domainadaptation for semantic segmentation via class-balanced elf-training.InProceedings of the European Conference on Computer Vision(ECCV)，pages 289-305，2018]：一种用于语义分割的自训练方法。它基于softmax输出生成用于模型自适应的伪标签，并利用空间先验信息进一步提高性能。

BDL[Y.Li，L.Yuan，and N.Vasconcelos.Bidirectional learning fordomainadaptationofsemanticsegmentation.InProceed-ings of the IEEE Conference onComputer Vision and Pattern Recognition，pages 6936-6945，2019.]：一种用于语义分割的无监督域自适应的最先进的方法。它将[42]中的自训练和对抗学习相结合，以缩小领域差距。

以上方法中，CBST和BDL最初是用于分割的无监督域自适应而提出的，并在此处进行比较以说明最先进的领域自适应方法如何帮助提高手部分割的泛化性能。本发明采用了他们的方法来解决手部分割任务。为了提供更好的比较，本发明将其原始分割网络替换为RefineNet。

表1.不同方法的跨数据集的分割性能。交并比(IoU)作为评价指标。

不同方法的定量结果如上表所示。本发明的方法在所有目标数据集上均达到最佳性能，并且在不进行领域自适应的情况下，其性能明显优于现有技术中最先进的手部分割方法即RefineNet方法。本发明的方法在CBST和BDL上的优越性能，验证了所提出的方法对手部分割的泛化效果。