CN111598914B - 一种基于不确定性引导的自适应图像分割方法 - Google Patents

一种基于不确定性引导的自适应图像分割方法 Download PDF

Info

Publication number
CN111598914B
CN111598914B CN202010395785.2A CN202010395785A CN111598914B CN 111598914 B CN111598914 B CN 111598914B CN 202010395785 A CN202010395785 A CN 202010395785A CN 111598914 B CN111598914 B CN 111598914B
Authority
CN
China
Prior art keywords
model
image segmentation
uncertainty
training
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010395785.2A
Other languages
English (en)
Other versions
CN111598914A (zh
Inventor
蔡敏捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202010395785.2A priority Critical patent/CN111598914B/zh
Publication of CN111598914A publication Critical patent/CN111598914A/zh
Application granted granted Critical
Publication of CN111598914B publication Critical patent/CN111598914B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于不确定性引导的自适应图像分割方法,步骤1:图像分割模型的预训练;步骤2:针对目标域数据的随机前向预测;步骤3:计算图像分割平均概率图
Figure DDA0002488719690000011
和不确定性图U;步骤4:计算图像分割掩码;步骤5:不确定性引导的模型自训练;步骤6:模型收敛判别。计算本次迭代的不确定性图的平均值
Figure DDA0002488719690000012
并计算与上次迭代的不确定性平均值的差值
Figure DDA0002488719690000013
若满足条件
Figure DDA0002488719690000014
则判定模型收敛并终止迭代;否则返回执行步骤2。该基于不确定性引导的自适应图像分割方法能自动从图像的所有像素中区分出感兴趣的物体区域。

Description

一种基于不确定性引导的自适应图像分割方法
技术领域
本发明属于图像处理以及图像分割技术领域,涉及一种基于不确定性引导的自适应图像分割方法。
背景技术
近年来,随着深度学习技术的兴起,基于全卷积神经网络的图像分割模型大大提高了图像分割的性能,但是模型的通用性能-即应用到陌生环境的性能仍然有待提高。当前,无监督领域自适应(unsupervised domain adaptation)技术是提高模型通用性能的主要技术手段。常见的基于对抗学习的领域自适应方法通过学习不同环境的共通的特征来减少领域间的差别,但是这类方法的应用过程依赖于源域数据,不利于模型的灵活部署。近两年,基于自训练(self-training)的方法被提出,它提供了一种通用简便的技术框架,通过从目标场景中筛选可靠的预测结果作为伪标签来直接对模型进行自训练,能够便捷地将模型应用到新的目标场景中。但是这类方法在筛选伪标签的过程中没有考虑模型本身的不确定性,使得部分不可靠的预测结果也被当成了伪标签参与模型的自训练,从而影响了模型的通用性能。
因此,有必要设计一种新的自适应图像分割方法。
发明内容
本发明所要解决的技术问题是提供一种基于不确定性引导的自适应图像分割方法,该基于不确定性引导的自适应图像分割方法能够极大地提高图像分割模型的通用性能。
发明的技术解决方案如下:
一种基于不确定性引导的自适应图像分割方法,其特征在于,包括以下步骤:
步骤1:图像分割模型的预训练;
使用带标签的源域的训练数据来对图像分割模型进行预训练;
图像分割模型为带有丢弃正则化(Dropout正则化)的全卷积神经网络;
步骤2:针对目标域数据的随机前向预测;
使用图像分割模型对无标签的目标域数据进行多次(即T次)随机前向预测,所谓随机前向预测即在模型预测时开启dropout功能(开启dropout功能:相当于随机关闭一些神经元的作用),使得每次预测使用不同的模型参数(模型参数通过dropout自动采样得到,不需要人为干预),从而得到不同的预测结果;
模型的直接预测结果是图像分割的概率图P;
对概率图加个阈值进行处理就得到了预测掩码。
步骤3:计算图像分割平均概率图
Figure BDA00024887196700000212
和不确定性图U;
基于步骤2得到的多次预测结果(即概率图Pi),利用下式计算图像分割平均概率图
Figure BDA00024887196700000213
和不确定性图U;
Figure BDA0002488719670000021
T代表步骤2中的随机前向预测的次数,i是次数的索引;
其中,Pi=H(I,ωi)表示在一次随机向前传递之后获得的概率图,公式中的平方算子是逐元素的;
Figure BDA0002488719670000022
和U与输入图像具有相同的空间尺寸;T是次数索引,不是像素索引,公式里面的求和相当于不同图像的相同位置的像素的叠加,结果还是一个图像;
基于某个阈值对
Figure BDA0002488719670000023
进行二值化,可以得到预测的图像分割掩码M;阈值设置为0.5;
并且U的估计本质上等于计算每个像素处的概率的方差。
步骤4:计算图像分割掩码;
对于步骤3得到的图像分割平均概率图使用阈值进行二值化,得到图像分割掩码
Figure BDA0002488719670000024
作为下一步模型自训练的伪标签;
步骤5:不确定性引导的模型自训练;
基于步骤3和步骤4得到的图像分割平均概率图
Figure BDA0002488719670000025
不确定性图U和伪标签
Figure BDA0002488719670000026
利用公式1和公式2对模型进行自训练,从而达到更新模型参数的目的,使得模型更加适用于目标域的数据;
单次迭代自训练的损失函数:
Figure BDA0002488719670000027
其中k表示迭代索引,i表示样本索引,
Figure BDA0002488719670000028
Figure BDA0002488719670000029
分别表示目标域的图像分割概率图和不确定性图,
Figure BDA00024887196700000210
表示通过将分割概率的阈值设置为0.5获得的图像分割掩码;nt表示目标域的样本数;
不确定性导引的图像分割损失:
Figure BDA00024887196700000211
m表示图像的像素索引;
步骤6:模型收敛判别。
计算本次迭代的不确定性图的平均值
Figure BDA0002488719670000031
并计算与上次迭代的不确定性平均值的差值
Figure BDA0002488719670000032
若满足条件
Figure BDA0002488719670000033
则判定模型收敛并终止迭代(到这一步,模型在目标域的自适应就完成了,就可以用于目标域的实际图像处理了);否则返回执行步骤2。
图像分割模型为RefineNet全卷积神经网络模型,使用的损失函数是二进制交叉熵函数;
二进制交叉熵函数
Figure BDA0002488719670000034
其中,P是模型预测概率图,S是图像标签,即人工提供的掩码,m是像素索引;
公式中,对数的底数是2;
需要注意的是,步骤1在本发明中只需要执行一次,而步骤2-6是一个迭代过程,直到满足步骤6的模型收敛判别条件为止。
有益效果:
本发明的基于不确定性引导的自适应图像分割方法,基于领域自适应方法中的自训练的思想,与现有技术不同的是本发明明确考虑了模型的不确定性,提出了一种基于模型不确定性来引导模型自训练的新方法。基于本发明提出的方法,能够极大地提高图像分割模型的通用性能。
附图说明
图1为基于不确定性引导的自适应图像分割方法的总体流程示意图;
图2为应用本发明方法进行迭代的定性结果示意图(其中最左列的图为来自YHG数据库中的3个样本的原图和手部掩码图,第2,3,4列分别表示1,2,3次迭代(分别对应iter-0,iter-1和iter-2)后的结果);
具体实施方式
以下将结合附图和具体实施例对本发明做进一步详细说明:
实施例1:
任务定义
假设有一个图像分割模型H(I,θs),其参数θs是通过使用来自源域
Figure BDA0002488719670000035
的训练数据学习的,其中Ii表示RGB图像,Mi表示一个图像分割标签,它本身是一个二进制目标物体掩码图。虽然只要测试数据与训练数据Ds具有相似的分布,预训练的模型就可以得到很好的预测性能,但它难以有效应用到具有不同分布的数据。本发明的任务是使预训练的模型适应新的目标域
Figure BDA0002488719670000041
而无需新注释的分割掩码图。
1.不确定性引导的模型自训练
本发明提出的方法采用了无监督领域自适应中的模型自训练的思想。尽管目标域缺乏图像分割标签,但是通过利用模型在目标域的预测结果生成伪标签,可以更新模型使其适应目标域的数据。然而,现有的方法直接使用确定性CNN模型得到伪标签,并没有考虑模型本身的预测不确定性,因而无法保证生成的伪标签的可靠性,影响了模型自适应的性能。与以往方法不同的是,本方法将对模型预测的不确定性进行估计,并基于估计得到的不确定性来生成可靠的伪标签,指导模型的自适应过程。
本方法具体而言是一个迭代的自训练过程,每次迭代会使用前一次迭代中从模型获得的伪标签(布尔掩码图)和不确定性图来训练当前模型。对于目标域的所有数据,单次迭代自训练的损失函数H(I,θt)可以定义为:
Figure BDA0002488719670000042
其中k表示迭代索引,i表示样本索引,
Figure BDA0002488719670000043
Figure BDA0002488719670000044
分别表示目标域的图像分割概率图和不确定性图,
Figure BDA0002488719670000045
表示通过将分割概率的阈值设置为0.5获得的图像分割掩码。nt表示目标域的样本数。
Figure BDA0002488719670000046
表示不确定性导引的图像分割损失,具体定义为:
Figure BDA0002488719670000047
其中,为简单起见,公式省略了迭代索引和样本索引,m表示图像的像素索引。值得注意的是,本发明使用置信度(1和不确定度的差值)作为损失函数的权重。换句话说,具有高置信度的像素对模型自适应的贡献更大,反之亦然。在使用之前,不确定性图U的值被归一化为[0,1]的范围。
除了用于计算损失函数的权重,模型的不确定性也被用来控制迭代的进程,以避免过拟合。具体来说,当前后两次迭代的不确定性平均值的减小幅度小于10%时,迭代终止。
需要强调的是,本发明的主要创新点在于将模型的不确定性引入图像分割的领域自适应,以及如何基于不确定性对模型自训练过程进行引导和控制的算法。本发明对于模型不确定性的估计过程不做限定,任何现有的不确定性估计方法皆可用于本方法。下一节将对本发明推荐的一类不确定性估计方法进行介绍。
2.基于贝叶斯神经网络的不确定性估计方法
在贝叶斯神经网络中,模型的参数被视为随机变量,参数ω的后验分布p(ω|D)通过贝叶斯定理来定义。作为贝叶斯深度学习研究的活跃领域,变分推断[7]通过最小化两个分布之间的Kullback-Leibler(KL)散度,以近似的变分分布q(ω)来近似复杂的后验分布p(ω|D)。在测试阶段,可以使用从q(ω)采样的网络参数并通过多次随机前向传递,得到新的输入x下输出y的预测分布:
Figure BDA0002488719670000051
其中T是模型运行的次数,每次运行都会采样不同的参数,而ωi表示基于q(ω)对模型参数的一次采样;ωi是神经网络的模型参数的一次采样结果,数学上可以认为是一个向量,向量长度取决于具体的神经网络模型。在实践中,采用文献[Y.Gal andZ.Ghahramani.Dropout as a bayesian approxi-mation:Representing modeluncertainty in deep learning.In international conference on machine learning,pages 1050-1059,2016.]中的贝叶斯逼近方法,该方法使用已被广泛用作深度学习中的正则化工具的dropout来近似模型参数的采样。这种近似的好处在于,现有的用dropout训练的CNN模型可以在不改变原始模型的情况下转换为贝叶斯模型。p(y|x,ω)在本发明中表示神经网络的概率化输出,由于神经网络的复杂性,无法直接通过公式来表示。q(ω)表示通过神经网络的dropout操作来实现的参数采样过程,服从伯努利分布。
现在,描述如何基于贝叶斯深度学习技术估计用于图像分割模型的不确定性。假设已经训练了分割模型H(I,ω),该模型在给定输入图像I的情况下输出每个像素从属于目标物体的概率图P。图像分割的平均概率图
Figure BDA0002488719670000053
和不确定性图U的计算公式为:
Figure BDA0002488719670000052
其中,Pi=H(I,ωi)表示在一次随机向前传递之后获得的概率图,公式(3)中的平方算子是逐元素的。注意,
Figure BDA0002488719670000061
和U与输入图像具有相同的空间尺寸,并且U的估计本质上等于计算每个像素处的概率的方差。基于某个阈值对
Figure BDA0002488719670000062
进行二值化,可以得到预测的图像分割掩码M。阈值设置为0.5
具体实施步骤如下:
步骤1:图像分割模型的预训练。
首先使用带标签的源域的训练数据(训练数据是公开数据集上面的数据)(只有源域数据有标签,目标域数据没有标签;标签就是人工提供的图像分割的掩码,用来训练分割模型。但是标签要耗费大量人工来手动生成,对于新的目标场景不一定有标签,而没有标签重新训练模型,模型在目标域的性能就会大大降低。所以本发明的主要作用就是将在源域训练好的模型自适应到没有标签的目标域数据中)来对图像分割模型进行预训练。这里的图像模型可以是任意带有Dropout正则化(即Dropout Regularization,丢弃正则化)的全卷积神经网络。训练模型使用的损失函数是二进制交叉熵函数(BinaryCrossEntropy)。具体采用的模型是一个称为RefineNet的全卷积神经网络模型,在表1里面有对应的引用论文;二进制交叉熵函数写在下面的公式里了,具体P是模型预测概率图,S是图像标签-人工提供的掩码,m是像素索引;
二进制交叉熵函数
Figure BDA0002488719670000063
对数log的底数是2。
需要注意的是,步骤1在本发明中只需要执行一次,而步骤2-6是一个迭代过程,直到满足步骤6的模型收敛判别条件为止。
步骤2:针对目标域数据的随机前向预测。
使用图像分割模型对无标签的目标域数据进行多次随机前向预测,所谓随机前向预测即在模型预测时开启dropout功能(开启dropout功能:相当于随机关闭一些神经元的作用),使得每次预测使用不同的模型参数(模型参数通过dropout自动采样得到,不需要人为干预),从而得到不同的预测结果。
模型的直接预测结果是图像分割的概率图P,概率图通过阈值处理就得到预测掩码。
步骤3:计算图像分割平均概率图
Figure BDA0002488719670000067
和不确定性图U。
基于步骤2得到的多次预测结果,利用公式(3)计算图像分割平均概率图
Figure BDA0002488719670000064
和不确定性图U。
Figure BDA0002488719670000065
其中,Pi=H(I,ωi)表示在一次随机向前传递之后获得的概率图,公式(3)中的平方算子是逐元素的。注意,
Figure BDA0002488719670000066
和U与输入图像具有相同的空间尺寸,并且U的估计本质上等于计算每个像素处的概率的方差。基于某个阈值对
Figure BDA0002488719670000071
进行二值化,可以得到预测的图像分割掩码M。阈值设置为0.5
步骤4:计算图像分割掩码。
对于步骤3得到的图像分割平均概率图使用阈值0.5进行二值化,得到图像分割掩码
Figure BDA0002488719670000072
作为下一步模型自训练的伪标签。
步骤5:不确定性引导的模型自训练。
基于步骤3,4得到的图像分割平均概率图
Figure BDA0002488719670000073
不确定性图U和伪标签
Figure BDA0002488719670000074
利用公式(1)和公式(2)对模型进行自训练,从而达到更新模型参数的目的,使得模型更加适用于目标域的数据。
步骤6:模型收敛判别。
计算本次迭代的不确定性图的平均值
Figure BDA0002488719670000075
并计算与上次迭代的不确定性平均值的差值
Figure BDA0002488719670000076
若满足条件
Figure BDA0002488719670000077
则判定模型收敛并终止迭代(到这一步,模型在目标域的自适应即完成,可以用于目标域的实际图像处理);否则继续执行步骤2.
实验结果
1.数据集
为了评估本方法的有效性,下面基于多个手部分割的数据集来测试方法在不同数据集之间的泛化性能。
EGTEA数据集:Extended GeorgianTech Egocentric Activity(EGTEA)数据集包含29个小时的第一人称视频,分辨率为1280×960。这些视频记录了32位受试者在自然厨房环境中准备饭菜的过程。在数据集中,用手部掩模标记了13847张图像。使用该数据集来训练初始手部分割网络。参见文献:Y.Li,M.Liu,and J.M.Rehg.In the eye of beholder:Joint learning of gaze and actions in first person video.In Pro-ceedings ofthe European Conference on Computer Vision(ECCV),pages 619-635,2018。
GTEA数据集:该数据集包含28个分辨率为720×405录制的第一人称视频,记录了4位受试者执行的7项日常活动。663张图像带有手部掩模。采用文献C.Li andK.Kitani.Pixel-level hand detection in ego-centric videos.In IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),pages 3570-3577.IEEE,2013.中的数据拆分方法,将来自对象1、3、4的图像用作训练集,其余图像用作测试集。参见文献:A.Fathi,A.Farhadi,and J.Rehg.Understanding egocentric activities.In IEEEInternational Conference on Computer Vision(ICCV),pages 407-414.IEEE,2011。
EDSH数据集:该数据集包含3个第一人称视频(EDSH1,EDSH2和EDSH-Kitchen),在室内和室外环境下记录的分辨率均为1280×720。采用与文献C.Li and K.Kitani.Pixel-level hand detection in ego-centric videos.In IEEE Conference on ComputerVision and Pattern Recognition(CVPR),pages 3570-3577.IEEE,2013.中相同的数据拆分方法。来自EDSH1的442个标记图像用作训练集,来自EDSH2的104个带标签的图像和来自EDSH-Kitchen的197个带标签的图像用作两个独立的测试集。参见:C.Li andK.Kitani.Pixel-level hand detection in ego-centric videos.1n IEEE Conferenceon Computer Vision and Pattern Recognition(CVPR),pages3570-3577.IEEE,2013.
UTG数据集:University of Tokyo Grasping(UTG)数据集包含50个分辨率为1920×1080的第一人称视频。该数据集捕获了由5个受试者执行的17种不同类型的手部抓握。为了便于研究,对872张图像进行手工标注,并将其随机分为训练和测试集,其比例分别为75%和25%。参见:M.Cai,K.Kitani,and Y.Sato.An ego-vision system for hand graspanalysis.IEEE Transactions on Human-Machine Systems,47(4):524-535,2017.
YHG数据集:Yale Human Grasping(YHG)数据集可每天观察非结构化环境中人类的抓握行为。它包含27.7个小时的第一人称视频,由两名机械师和两名管家在日常工作中录制,分辨率为640×480。对488张图像进行手工标注,并将其随机分为训练集和测试集,其比例分别为75%和25%。参见文献:I.M.Bullock,T.Feix,and A.M.Dollar.The yalehuman grasping dataset:Grasp,object,and task data in household and machineshop environments.The International Journal of Robotics Research,34(3):251-255,2015.
Egohands数据集:该数据集由48个分辨率为1280×720的第一人称视频组成,该视频记录了室内和室外环境中两个人之间的社交互动。4800个随机采样的图像用手部掩模标记。按照[S.Bambach,S.Lee,D.J.Crandall,and C.Yu.Lending a hand:Detecting handsand recognizing activities in complex egocentric interactions.In Proceedingsof the IEEE Inter-national Conference on Computer Vision,pages 1949-1957,2015.]和[A.Urooj and A.Borji.Analysis of hand segmentation in the wild.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,pages 4710-4719,2018.],将数据分为训练、验证和测试集,比例分别为75%、8%和17%。
以上数据集中,EGTEA数据集作为源域数据,其它数据集作为目标域数据。仅使用EGTEA数据集的训练集的手部掩码标签来得到初始的手部分割模型,而其他数据集中的标签仅用于评估评估模型的泛化性能。
2.性能比较
将跨数据集的手部分割性能与最先进的手部分割方法和无监督领域自适应的语义分割方法进行比较。
RefineNet方法[A.Urooj and A.Borji.Analysis 0f hand segmentation inthe wild.In Proceedings of the IEEE Conference on Computer Vision and PatternRecognition,pages 4710-4719,2018.]:一种使用RefineNet[G.Lin,A.Milan,C.Shen,andI.D.Reid.Refinenet:Multi-path refinementnetworks for high-resolutionsemantic seg-mentation.In IEEE Conference on Computer Vision and Pat-ternRecognition(CVPR),pages 1925-1934,2017.]作为网络架构的最先进的手部分割模型。在消融研究中也将其用作baseline模型。
CBST[Y.Zou,Z.Yu,B.Vi jaya Kumar,and J.Wang.Unsu-pervised domainadaptation for semantic segmentation via class-balanced elf-training.InProceedings of the European Conference on Computer Vision(ECCV),pages 289-305,2018]:一种用于语义分割的自训练方法。它基于softmax输出生成用于模型自适应的伪标签,并利用空间先验信息进一步提高性能。
BDL[Y.Li,L.Yuan,and N.Vasconcelos.Bidirectional learning fordomainadaptationofsemanticsegmentation.InProceed-ings of the IEEE Conference onComputer Vision and Pattern Recognition,pages 6936-6945,2019.]:一种用于语义分割的无监督域自适应的最先进的方法。它将[42]中的自训练和对抗学习相结合,以缩小领域差距。
以上方法中,CBST和BDL最初是用于分割的无监督域自适应而提出的,并在此处进行比较以说明最先进的领域自适应方法如何帮助提高手部分割的泛化性能。本发明采用了他们的方法来解决手部分割任务。为了提供更好的比较,本发明将其原始分割网络替换为RefineNet。
表1.不同方法的跨数据集的分割性能。交并比(IoU)作为评价指标。
Figure BDA0002488719670000091
不同方法的定量结果如上表所示。本发明的方法在所有目标数据集上均达到最佳性能,并且在不进行领域自适应的情况下,其性能明显优于现有技术中最先进的手部分割方法即RefineNet方法。本发明的方法在CBST和BDL上的优越性能,验证了所提出的方法对手部分割的泛化效果。

Claims (2)

1.一种基于不确定性引导的自适应图像分割方法,其特征在于,包括以下步骤:
步骤1:图像分割模型的预训练;
使用带标签的源域的训练数据来对图像分割模型进行预训练;
图像分割模型为带有丢弃正则化的全卷积神经网络;
步骤2:针对目标域数据的随机前向预测;
使用图像分割模型对无标签的目标域数据进行多次随机前向预测,所谓随机前向预测即在模型预测时开启dropout功能,使得每次预测使用不同的模型参数,从而得到不同的预测结果;
模型的直接预测结果是图像分割的概率图P;
步骤3:计算图像分割平均概率图
Figure FDA0003571674000000011
和不确定性图U;
基于步骤2得到的多次预测结果,利用下式计算图像分割平均概率图
Figure FDA0003571674000000012
和不确定性图U;
Figure FDA0003571674000000013
T代表步骤2中的随机前向预测的次数,i是次数的索引;
其中,Pi=H(I,ωi)表示在一次随机向前传递之后获得的概率图,公式中的平方算子是逐元素的;
Figure FDA0003571674000000014
和U与输入图像具有相同的空间尺寸;
基于某个阈值对
Figure FDA0003571674000000015
进行二值化,可以得到预测的图像分割掩码M;阈值设置为0.5;
步骤4:计算图像分割掩码;
对于步骤3得到的图像分割平均概率图使用阈值进行二值化,得到图像分割掩码
Figure FDA0003571674000000016
作为下一步模型自训练的伪标签;
步骤5:不确定性引导的模型自训练;
基于步骤3和步骤4得到的图像分割平均概率图
Figure FDA0003571674000000017
不确定性图U和伪标签
Figure FDA0003571674000000018
利用公式1和公式2对模型进行自训练,从而达到更新模型参数的目的,使得模型更加适用于目标域的数据;
单次迭代自训练的损失函数:
Figure FDA0003571674000000019
其中k表示迭代索引,i表示样本索引,
Figure FDA00035716740000000110
Figure FDA00035716740000000111
分别表示目标域的图像分割概率图和不确定性图,
Figure FDA00035716740000000112
表示通过将分割概率的阈值设置为0.5获得的图像分割掩码;nt表示目标域的样本数;
不确定性导引的图像分割损失:
Figure FDA0003571674000000021
公式2;
m表示图像的像素索引;
步骤6:模型收敛判别;
计算本次迭代的不确定性图的平均值
Figure FDA0003571674000000022
并计算与上次迭代的不确定性平均值的差值
Figure FDA0003571674000000023
若满足条件
Figure FDA0003571674000000024
则判定模型收敛并终止迭代;否则返回执行步骤2。
2.根据权利要求1所述的基于不确定性引导的自适应图像分割方法,其特征在于,图像分割模型为RefineNet全卷积神经网络模型,使用的损失函数是二进制交叉熵函数;
二进制交叉熵函数
Figure FDA0003571674000000025
其中,P是模型预测概率图,S是图像标签,即人工提供的掩码,m是像素索引。
CN202010395785.2A 2020-05-12 2020-05-12 一种基于不确定性引导的自适应图像分割方法 Active CN111598914B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010395785.2A CN111598914B (zh) 2020-05-12 2020-05-12 一种基于不确定性引导的自适应图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010395785.2A CN111598914B (zh) 2020-05-12 2020-05-12 一种基于不确定性引导的自适应图像分割方法

Publications (2)

Publication Number Publication Date
CN111598914A CN111598914A (zh) 2020-08-28
CN111598914B true CN111598914B (zh) 2022-05-06

Family

ID=72183642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010395785.2A Active CN111598914B (zh) 2020-05-12 2020-05-12 一种基于不确定性引导的自适应图像分割方法

Country Status (1)

Country Link
CN (1) CN111598914B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112686817B (zh) * 2020-12-25 2023-04-07 天津中科智能识别产业技术研究院有限公司 一种基于不确定性估计的图像补全方法
CN113392933B (zh) * 2021-07-06 2022-04-15 湖南大学 一种基于不确定性引导的自适应跨域目标检测方法
CN114399640B (zh) * 2022-03-24 2022-07-15 之江实验室 一种不确定区域发现与模型改进的道路分割方法及装置
CN115471662B (zh) * 2022-11-03 2023-05-02 深圳比特微电子科技有限公司 语义分割模型的训练方法、识别方法、装置和存储介质
CN117291845B (zh) * 2023-11-27 2024-03-19 成都理工大学 一种点云地面滤波方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210486A (zh) * 2019-05-15 2019-09-06 西安电子科技大学 一种基于素描标注信息的生成对抗迁移学习方法
CN110458844A (zh) * 2019-07-22 2019-11-15 大连理工大学 一种低光照场景的语义分割方法
CN110674866A (zh) * 2019-09-23 2020-01-10 兰州理工大学 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法
CN110753934A (zh) * 2017-06-14 2020-02-04 图森有限公司 主动选择和标记图像以进行语义分割的系统和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110753934A (zh) * 2017-06-14 2020-02-04 图森有限公司 主动选择和标记图像以进行语义分割的系统和方法
CN110210486A (zh) * 2019-05-15 2019-09-06 西安电子科技大学 一种基于素描标注信息的生成对抗迁移学习方法
CN110458844A (zh) * 2019-07-22 2019-11-15 大连理工大学 一种低光照场景的语义分割方法
CN110674866A (zh) * 2019-09-23 2020-01-10 兰州理工大学 迁移学习特征金字塔网络对X-ray乳腺病灶图像检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Guided Curriculum Model Adaptation and Uncertainty-Aware Evalution for Semantic Nighttime Image Segmentation;Christos Sakaridis 等;《CvF》;20191231;全文 *
Uncertainty-Aware Consistency Regularization for Cross-Domain Semantic Segmentation;Qianyu Zhou 等;《arXiv:2004.08878v1》;20200419;全文 *

Also Published As

Publication number Publication date
CN111598914A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN111598914B (zh) 一种基于不确定性引导的自适应图像分割方法
CN108399406B (zh) 基于深度学习的弱监督显著性物体检测的方法及系统
Sindagi et al. Prior-based domain adaptive object detection for hazy and rainy conditions
WO2022037233A1 (zh) 一种基于自监督知识迁移的小样本视觉目标识别方法
CN111274921B (zh) 一种利用姿态掩模进行人体行为识别的方法
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
Chen et al. Learning linear regression via single-convolutional layer for visual object tracking
CN107590432A (zh) 一种基于循环三维卷积神经网络的手势识别方法
CN112085055B (zh) 一种基于迁移模型雅克比阵特征向量扰动的黑盒攻击方法
Sajanraj et al. Indian sign language numeral recognition using region of interest convolutional neural network
CN107945210B (zh) 基于深度学习和环境自适应的目标跟踪方法
Kishore et al. Visual-verbal machine interpreter for sign language recognition under versatile video backgrounds
Lin et al. Face gender recognition based on face recognition feature vectors
CN113591978B (zh) 一种基于置信惩罚正则化的自我知识蒸馏的图像分类方法、设备及存储介质
Liao et al. Face recognition based on dictionary learning and subspace learning
CN113392933B (zh) 一种基于不确定性引导的自适应跨域目标检测方法
CN112115796A (zh) 一种基于注意力机制的三维卷积微表情识别算法
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN116740384B (zh) 洗地机的智能控制方法及系统
Chung et al. Federated unsupervised clustering with generative models
CN115563327A (zh) 基于Transformer网络选择性蒸馏的零样本跨模态检索方法
Ayral et al. Temporal stochastic softmax for 3d cnns: An application in facial expression recognition
Hu et al. Semi-supervised learning based on GAN with mean and variance feature matching
CN116434311A (zh) 一种基于混合域一致性约束的面部表情识别方法及系统
CN116152554A (zh) 基于知识引导的小样本图像识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant