CN110322446B - 一种基于相似性空间对齐的域自适应语义分割方法 - Google Patents
一种基于相似性空间对齐的域自适应语义分割方法 Download PDFInfo
- Publication number
- CN110322446B CN110322446B CN201910585717.XA CN201910585717A CN110322446B CN 110322446 B CN110322446 B CN 110322446B CN 201910585717 A CN201910585717 A CN 201910585717A CN 110322446 B CN110322446 B CN 110322446B
- Authority
- CN
- China
- Prior art keywords
- domain
- loss function
- training
- similarity space
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于相似性空间对齐的域自适应语义分割方法,将源域和目标域的分割输出分别变换到相似性空间,并对齐源域和目标域两者的相似性空间分布来减小域间差异,即可得到在无监督的目标域上有较好分割效果的语义分割模型。该方法在跨域语义分割任务中引入了相似性空间的概念,更好地编码了分割场景中类别间的相关性,利用判别器对不同域的相似性空间进行判别,使得分割网络更加关注图像的结构、类别共存性等信息,且整个网络可以端到端训练。本方法提出的基于相似性空间对齐的无监督域自适应语义分割方法在现有的技术思路上进行了创新,融入了分割场景中类别的相关性空间信息,分割性能更好,有着很强的实际应用价值。
Description
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于相似性空间对齐的域自适应语义分割方法。
背景技术
在计算机视觉领域中,语义分割是最根本最重要的任务之一。语义分割是很多高新应用如自动驾驶、机器人导航、智慧医疗的技术基础。随着卷积神经网络在计算机视觉中的广泛应用,近几年来,各种新的语义分割网络在强监督条件下的语义分割任务取得了巨大的进展。然而,当前强监督的分割网络需要大量的标注数据,加之标注密集的语义分割数据集需要耗费大量的时间和人力。为了解决标注分割数据带来的分割性能瓶颈,研究者相继提出了一些弱监督和半监督的解决方案。近期,利用合成数据和无标注的真实数据训练得到在真实数据上分割性能表现良好的无监督域自适应语义分割方法吸引了研究者的关注。
近几年来,随着无监督自适应语义分割技术的发展,各种新颖的域间对齐方法例如在图像层面上进行风格转换、使用生成对抗网络在特征或分割输出层面上进行对齐都取得了一定的成就。然而,获得在目标域上高分割性能的语义分割模型仍然具有一定的挑战。由于语义分割结果类别间存在着极强的类别相关性和共存性,例如“天空”类别总是出现在“建筑”类别的上方、“骑行者”类别总是伴随“自行车”或者“摩托车”类别,真实图片和合成图片在类别相关性和类别共存性上具有一致性,当前的方法都忽视了这种一特性。
我们提出了一种全新的跨域对齐方法,以一种简单有效的方法来突破了以前理论的局限。在对齐的对象上进行创新,在对齐对象上引入了相似性空间概念,编码了图像中类别的相关性和共存性,使得分割网络更加关注图像的结构信息,在使用生成对抗网络进行对抗训练后,获得了在真实图像上领先的分割结果。
发明内容
本发明的目的在于提供一种基于相似性空间对齐的域自适应语义分割方法,该分割方法计算分割预测结果的相似性空间,并利用对抗训练的方法对齐相似性空间,处理语义分割中的数据域间差异,提高分割结果。
为实现上述目的,本发明从一个相似性空间对齐的角度来解决语义分割中存在域间差异的问题,提供了一种基于相似性空间对齐的域自适应语义分割方法,包括下述步骤:
(1)训练基于相似性空间对齐的域自适应图像语义分割模型,包括如下子步骤:
(1.1)对数据集中的源域数据集和目标域数据集中所有图片进行统一的数据归一化,将源域数据集中标签转换为训练标签,得到带语义分割标注的源域数据集和无语义分割标注的目标域数据集;
(1.2)定义基于相似性空间对齐的域自适应图像语义分割网络模型,所述域自适应图像语义分割网络由一个分割器模块和一个判别器模块组成,根据(1.1)中得到的标准训练数据集,设计损失函数,使用对抗性训练方法训练该域自适应语义分割网络,由此得到基于相似性空间对齐的域自适应图像语义分割网络模型;具体包括如下子步骤:
(1.2.1)构建基于相似性空间对齐的域自适应图像语义分割网络模型:所述图像语义分割网络模型由分割器模块、相似性空间计算模块和判别器模块组成;所述分割器模块由修改后的Deeplab-V2语义分割模型组成,它以ResNet-101为基础网络架构,丢弃Deeplab-V2模型中多尺度融合策略,修改卷积神经网络中主干网络模块的最后两个卷积层的步长为1和空洞扩张率为{2,4},接着在最后一层利用具有空洞扩张率为{6,12,18,24}的空洞空间卷积池化金字塔模块(ASPP)结合图像中多尺度信息,对图像特征每个像素进行类别预测,得到一个具有类别数目(C)个通道的分割概率分布特征,对应类别通道特征中值越大,表示像素为该类的可能性越大,用于得到图像语义分割结果;对于相似性空间计算模块,它基于KL散度计算像素和其周围N=8个邻居的输出分割预测概率向量的相似性,表示像素间的相似性,将图像分割预测概率分布输入相似性空间计算模块可计算得到图像数据的相似性空间,用于输入判别器进行判别训练;对于判别器模块,它由五个卷积核大小为4步长为2的卷积层组成,五层卷积层的通道数分别为{64,128,256,512,1},将除最后一个卷积层之外的每个卷积层之后都接上一个负数区域激活值为0.2的泄露修正线性单元LeakyReLU激活函数,将图像数据的相似性空间输入判别器预测该相似性空间是来自的源域的“真相似空间”的概率。
(1.2.2)将源域图像数据输入分割器模块预测得到源域图像的分割预测概率分布,基于交叉熵损失函数设计源域分割损失函数训练分割器模块:
对于分割器模块,首先将带标注的源域数据Xs输入分割器中,通过分割网络,预测出源域数据Xs的分割概率分布Ps。根据源域数据集的标注数据Ys,利用交叉熵损失函数作为分割损失函数,先计算源域图像数据每个像素预测分割概率分布的对数值与真实目标分割标签Ys的乘积作为预测误差,再对所有像素的预测误差求均值,以此定义分割器源域分割损失函数Lseg(Xs)。损失函数公式如下:
其中,Xs表示源域图像,Ys为源域图片对应的分割训练标签,h,w为图像的高度和宽度,C为数据集的所有类别。根据源域图像数据的预测的分割概率分布和标签计算交叉熵损失函数,通过反向传导,优化分割器模块参数。
(1.2.3)将分割器输出的源域数据和目标域数据的分割概率分布输入相似性空间计算模块,获取源域和目标域的相似性空间,将相似性空间输入判别器,根据判别器预测得分和判别器训练标签,基于二值化交叉熵损失函数,设计判别器训练损失函数:
对于相似性空间计算模块,将源域和目标域图像数据通过分割器预测的分割概率分布输入该模块,通过计算得到像素间局部相似性,获得源域和目标域的相似性空间;所述局部相似性由图像像素与其相邻像素的分割概率分布的KL散度值计算得到,对于图像中像素点x和它的相邻像素点n,通过分割器得到分割概率分布,得到像素点x的分割预测向量 其中,表示像素x被预测为第c类的概率。像素点x的相邻点n的分割预测向量为据此构建每一类的相似性空间其中为图像像素点x和其相邻像素点n的第c类的预测值的KL散度值,计算公式如下:
据此,得到图像的相似度空间A=(A1,A2,...,AN),尺度为H×W×NC,H为高度,W为宽度,NC为通道数,存储着图像像素间的上下文关系。
对于判别器模块,将相似性空间计算模块计算得到的源域相似性空间As作为“真相似性空间”,训练标签为zAs=1,目标域相似性空间At作为“假相似性空间”,训练标签为zAt=0,分别输入判别器中,判别相似性空间的“真假性”,根据预测得分与训练标签基于二值化交叉熵损失函数设计判别器训练损失函数,公式如下:
Ld(A)=-∑((1-z)log(D(A)(h,w,0))+zlog(D(A)(h,w,1))
其中,z为训练标签,z=0表示当前数据来自于目标域,z=1表示当前数据来自于源域,D(A)表示相似性空间通过判别器D预测为“真相似性空间”的得分,通过训练,判别器具有判别当前输入数据是“真相似性空间”还是“假相似性空间”的能力。
(1.2.4)固定判别器参数,以目标域数据的相似性空间作为训练数据,设置“真相似性空间”对应的标签作为训练标签,输入判别器,根据判别器输出分值和训练标签基于二值化交叉熵损失函数设计对抗损失函数训练分割器模块:
对于目标域数据,将目标域数据的相似性空间At,输入判别器D通过控制判别器的训练标签与“真相似性空间”相同,即zAt=1,设计对抗损失函数Ladv(At),公式如下:
其中,D(At)(h,w,1)表示目标域相似性空间通过判别器D的预测得分,根据设计的损失函数通过反向传播算法,使得目标域数据通过分割器模块预测的分割概率分布计算的相似性空间被判别器识别为“真相似性空间”,致使分割器模块输出的目标域分割预测概率分布和源域分割预测概率分布在分布上相似,判别器无法判别相似空间的真假性,实现对抗性训练。
(1.2.5)以整合源域分割损失函数Lseg(Xs)、对抗损失函数Ladv(At)、目标域分割损失函数Lseg(Xt)的分割器整体损失函数作为分割器目标损失函数;以判别器损失函数Ld(A)作为判别器目标损失函数;通过反向传播算法,优化基于相似性空间对齐的域自适应图像语义分割网络模型:
首先,对于分割器模块,以源域真实标签Ys为分割器模块期望输出,以源域分割预测概率分布Ps为预测输出,根据(1.2.2)所述,设计源域分割损失函数Lseg(Xs)作为分割器对源域图片的优化目标函数;其次,以目标域作为训练数据,以“真相似性空间”对应训练标签z=1为判别器的期望输出,以判别器的预测得分为预测输出,根据(1.2.4)描述方法,设计对抗损失函数Ladv(At)作为分割器对目标域的优化目标函数;根据上述损失函数得到,分割器优化目标函数为:
LASA(Xs,Xt)=Lseg(Xs)+λadvLadv(At)
其中,ASA为设计算法简称,Lseg(Xs)为源域分割损失函数,Ladv(At)为目标域判别损失函数,λadv为损失函数Ladv(At)的权重系数。
对于判别器模块,以真实标签z为判别器期望输出,以判别器输出为预测输出,根据(1.2.3)所述设计判别器损失函数,作为判别器优化目标函数,至此,包括分割器目标损失函数和判别器目标损失函数构成了网络整体目标损失函数,对网络进行优化。
(1.2.6)将目标域数据输入源域数据训练的分割器模块得到目标域分割预测概率分布,根据设定的阈值生成目标域训练伪标签,根据目标域数据和训练伪标签,基于交叉熵损失函数设计目标域分割损失函数,对分割器模块进行继续优化;
所述目标域伪标签,由目标域数据和分割器生成,首先将目标域数据输入分割器得到目标域预测分割概率,设定阈值为0.9,将概率中值大于0.9的设置为1,小于0.9的设置为忽略标签,即可生成训练伪标签,根据目标域数据和生成的训练伪标签,基于交叉熵损失函数设计目标域分割损失函数,并且在训练过程中,不计算忽略标签的损失,损失函数公式如下:
pt (h,w,c)为目标域分割预测概率分布,h,w表示图像尺寸,c表示类别。
利用上述训练好的基于相似性空间对齐的域自适应图像语义分割网络模型对待分割真实图像进行语义分割,包括如下子步骤:
(2.1)将目标域测试图像数据输入分割器,得到分割预测概率分布,针对图像每个像素,选择预测分值最大的那个类别为预测类别,从而得到最终的语义分割结果。
通过本发明所构思的以上技术方案,与现有技术相比,本发明具有以下技术效果:
(1)准确度高:该发明针对与域适应语义分割问题,创新性地利用相似性空间进行对抗训练减小域间差异,更精确地实现跨域无监督语义分割。
(2)速度快:该发明提出的域自适应图像语义分割模型在保证语义分割准确度的同时,训练速度较快。
(3)通用性强:该发明提出的域自适应图像语义分割模型不仅适用域自适应语义分割任务,还适用于半监督的语义分割任务和跨模态医疗影像分割任务。
附图说明
图1是本发明实施例中一种基于相似性空间对齐的域自适应语义分割方法的流程图,其中,实线箭头表示训练,虚线箭头表示测试;
图2是本发明实施例中一种基于相似性空间对齐的域自适应图像语义分割网络模型图;
图3是本发明实施例中一种基于相似性空间对齐的域自适应图像语义分割模型中分割器模块的网络结构示意图;
图4是本发明实施例中一种基于相似性空间对齐的域自适应图像语义分割模型中分割器的空洞空间卷积池化金字塔模块示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
以下首先就本发明的技术术语进行解释和说明:
ResNet-101:一种可用于分类的卷积神经网络,该网络主要由101层卷积层、池化层、shortcut连接层组成。卷积层用于提取图片特征;池化层的作用是降低卷积层输出的特征向量的维度,减少过拟合;shortcut连接层用于传递梯度解决消失和爆炸梯度问题。网络参数可以通过反向传导算法,进行更新;
Deeplab-V2:一种可用于语义分割的卷积神经网络模型,在一般的全卷积语义分割模型的基础上采用空洞卷积代替上采样方式,增加空洞空间卷积池化金字塔使得输入图片可以具有任意尺度,并使用全连接条件随机场利用低层的细节信息对分割的局部特征进行优化,改善分割边界,Deeplab-V2是一种经典的语义分割模型。
KL散度:一种可以用来衡量两个分布的差异的熵,全称Kullback-Leiblerdivergence,也称为相对熵,信息增益,在概率学和统计学上,我们经常会使用一种更简单的、近似的分布来替代观察数据或太复杂的分布。K-L散度能帮助度量使用一个分布来近似另一个分布时所损失的信息量,这里使用KL散度衡量两个分布的相似性。
如图1所示,本发明基于相似性空间对齐的域自适应语义分割方法包括以下步骤:
(1)训练基于相似性空间对齐的域自适应图像语义分割模型,包括如下子步骤:
(1.1)对数据集中的源域数据集和目标域数据集中所有图片进行统一的数据归一化,将源域数据集中标签转换为训练标签,得到带语义分割标注的源域数据集和无语义分割标注的目标域数据集;
(1.2)定义基于相似性空间对齐的域自适应图像语义分割网络模型,所述域自适应图像语义分割网络由一个分割器模块和一个判别器模块组成,根据(1.1)中得到的标准训练数据集,设计损失函数,使用对抗性训练方法训练该域自适应语义分割网络,由此得到基于相似性空间对齐的域自适应图像语义分割网络模型;具体包括如下子步骤:
(1.2.1)构建基于相似性空间对齐的域自适应图像语义分割网络模型:所述图像语义分割网络模型如图2所示,由分割器模块、相似性空间计算模块和判别器模块组成;所述分割器模块网络结构图如图3所示,分割器模块由修改后的Deeplab-V2语义分割模型组成,它以ResNet-101为基础网络架构,丢弃Deeplab-V2模型中多尺度融合策略,修改卷积神经网络中主干网络模块的最后两个卷积层的步长为1和空洞扩张率为{2,4},接着在最后一层利用具有空洞扩张率为{6,12,18,24}的空洞空间卷积池化金字塔模块(ASPP)结合图像中多尺度信息,其结构图如图4所示,对图像特征每个像素进行类别预测,得到一个具有类别数目(C)个通道的分割概率分布特征,对应类别通道特征中值越大,表示像素为该类的可能性越大,用于得到图像语义分割结果;对于相似性空间计算模块,它基于KL散度计算像素和其周围N=8个邻居的输出分割预测概率向量的相似性,表示像素间的相似性,将图像分割预测概率分布输入相似性空间计算模块可计算得到图像数据的相似性空间,用于输入判别器进行判别训练;对于判别器模块,它由五个卷积核大小为4步长为2的卷积层组成,五层卷积层的通道数分别为{64,128,256,512,1},将除最后一个卷积层之外的每个卷积层之后都接上一个负数区域激活值为0.2的泄露修正线性单元LeakyReLU激活函数,将图像数据的相似性空间输入判别器预测该相似性空间是来自的源域的“真相似空间”的概率。
(1.2.2)将源域图像数据输入分割器模块预测得到源域图像的分割预测概率分布,基于交叉熵损失函数设计源域分割损失函数训练分割器模块:
对于分割器模块,首先将带标注的源域数据Xs输入分割器中,通过分割网络,预测出源域数据Xs的分割概率分布Ps。根据源域数据集的标注数据Ys,利用交叉熵损失函数作为分割损失函数,先计算源域图像数据每个像素预测分割概率分布的对数值与真实目标分割标签Ys的乘积作为预测误差,再对所有像素的预测误差求均值,以此定义分割器源域分割损失函数Lseg(Xs)。损失函数公式如下:
其中,Xs表示源域图像,Ys为源域图片对应的正确分割训练标签,h,w为图像的尺寸,C为数据集的所有类别。根据源域图像数据的预测的分割概率分布和真实标签计算交叉熵损失函数,通过反向传导,优化分割器模块参数。
(1.2.3)将分割器输出的源域数据和目标域数据的分割概率分布输入相似性空间计算模块,获取源域和目标域的相似性空间,将相似性空间输入判别器,根据判别器预测得分和判别器训练标签,基于二值化交叉熵损失函数,设计判别器训练损失函数:
对于相似性空间计算模块,将源域和目标域图像数据通过分割器预测的分割概率分布输入该模块,通过计算得到像素间局部相似性,获得源域和目标域的相似性空间;所述局部相似性由图像像素与其相邻像素的分割概率分布的KL散度值计算得到,对于图像中像素点x和它的相邻像素点n,通过分割器预测再经过softmax操作之后,得到像素点x的分割预测向量 其中,表示像素x被预测为c类的概率。像素点x的相邻点n的分割预测向量为据此构建每一类的相似性空间其中为图像像素点x和其相邻像素点n的第i类的预测值的KL散度值,计算公式如下:
据此,得到图像的相似度空间A=(A1,A2,...,AN),尺度为H×W×NC,H为高度,W为宽度,NC为通道数,存储着图像像素间的上下文关系。
对于判别器模块,将相似性空间计算模块计算得到的源域相似性空间As作为“真相似性空间”,训练标签为zAs=1,目标域相似性空间At作为“假相似性空间”,训练标签为zAt=0,分别输入判别器中,判别相似性空间的“真假性”,根据预测得分与训练标签基于二值化交叉熵损失函数设计判别器训练损失函数,公式如下:
Ld(A)=-∑((1-z)log(D(A)(h,w,0))+zlog(D(A)(h,w,1))
其中,z为训练标签,z=0表示当前数据来自于目标域,z=1表示当前数据来自于源域,D(A)表示相似性空间通过判别器D预测为“真相似性空间”的得分,通过训练,判别器具有判别当前输入数据是“真相似性空间”还是“假相似性空间”的能力。
(1.2.4)固定判别器参数,以目标域数据的相似性空间作为训练数据,设置“真相似性空间”对应的标签作为训练标签,输入判别器,根据判别器输出分值和训练标签基于二值化交叉熵损失函数设计对抗损失函数训练分割器模块:
对于目标域数据,将目标域数据的相似性空间At,输入判别器D通过控制判别器的训练标签与“真相似性空间”相同,即zAt=1,设计对抗损失函数Ladv(At),公式如下:
其中,D(At)(h,w,1)表示目标域相似性空间通过判别器D的预测得分,根据设计的损失函数通过反向传播算法,使得目标域数据通过分割器模块预测的分割概率分布计算的相似性空间被判别器识别为“真相似性空间”,致使分割器模块输出的目标域分割预测概率分布和源域分割预测概率分布在分布上相似,判别器无法判别相似空间的真假性,实现对抗性训练。
(1.2.5)以整合源域分割损失函数Lseg(Xs)、对抗损失函数Ladv(At)、目标域分割损失函数Lseg(Xt)的分割器整体损失函数作为分割器目标损失函数;以判别器损失函数Ld(A)作为判别器目标损失函数;通过反向传播算法,优化基于相似性空间对齐的域自适应图像语义分割网络模型:
首先,对于分割器模块,以源域真实标签Ys为分割器模块期望输出,以源域分割预测概率分布Ps为预测输出,根据(1.2.2)所述,设计源域分割损失函数Lseg(Xs)作为分割器对源域图片的优化目标函数;其次,以目标域作为训练数据,以“真相似性空间”对应训练标签z=1为判别器的期望输出,以判别器的预测得分为预测输出,根据(1.2.4)描述方法设计对抗损失函数Ladv(At);根据上述损失函数得到,分割器优化目标函数为:
LASA(Xs,Xt)=Lseg(Xs)+λadvLadv(At)
其中,ASA为设计算法简称,Lseg(Xs)为源域分割损失函数,Ladv(At)为目标域判别损失函数,λadv、为损失函数Ladv(At)的权重系数。
对于判别器模块,以真实标签z为判别器期望输出,以判别器输出为预测输出,根据(1.2.3)所述设计判别器损失函数,作为判别器优化目标函数,至此,包括分割器目标损失函数和判别器目标损失函数构成了网络整体目标损失函数,对网络进行优化。
根据设计的整体目标损失函数,利用反向传播算法对模型进行迭代训练,最小化整体目标损失函数,实现最优网络模型。
(1.2.6)将目标域训练集数据输入(1.2.5)训练的分割器模块得到目标域分割预测概率分布,根据设定的阈值生成目标域训练训练集伪标签,根据目标域数据和对应的伪标签,基于交叉熵损失函数设计目标域分割损失函数,对分割器模块进行重新优化;
所述目标域伪标签,由目标域数据和分割器生成,首先将目标域数据输入分割器得到目标域预测分割概率分布,再通过softmax操作,得到像素预测为每一类的概率,设定阈值为0.9,将概率中值大于0.9的设置为1,小于0.9的设置为忽略标签,即可生成训练伪标签,根据目标域数据和生成的训练伪标签,基于交叉熵损失函数设计目标域分割损失函数,并且在训练过程中,不计算忽略标签的损失,损失函数公式如下:
(2)利用上述训练好的基于相似性空间对齐的域自适应图像语义分割网络模型对待分割真实图像进行语义分割,包括:将目标域测试图像数据输入分割器,得到分割预测概率分布,通过softmax生成分割预测分值,针对图像每个像素,选择预测分值最大的那个类别为预测类别,从而得到最终的语义分割结果。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于相似性空间对齐的域自适应语义分割方法,其特征在于,所述方法包括下述步骤:
(1)训练基于相似性空间对齐的域自适应图像语义分割模型,包括如下子步骤:
(1.1)对数据集中的源域数据集和目标域数据集中所有图片进行统一的数据归一化,将源域数据集中标签转换为训练标签,得到带语义分割标注的源域数据集和无语义分割标注的目标域数据集;
(1.2)定义基于相似性空间对齐的域自适应图像语义分割网络模型,域自适应图像语义分割网络由一个分割器模块和一个判别器模块组成,根据(1.1)中得到的标准训练数据集,设计损失函数,使用对抗性训练方法训练该域自适应语义分割网络,得到基于相似性空间对齐的域自适应图像语义分割网络模型;包括:
(1.2.1)构建基于相似性空间对齐的域自适应图像语义分割网络模型,所述图像语义分割网络模型由分割器模块、相似性空间计算模块和判别器模块组成;
(1.2.2)将源域图像数据输入分割器模块预测得到源域图像的分割预测概率分布,基于交叉熵损失函数设计源域分割损失函数训练分割器模块;
(1.2.3)将分割器输出的源域数据和目标域数据的分割预测概率分布输入相似性空间计算模块,获取源域和目标域的相似性空间,将相似性空间输入判别器,根据判别器预测得分和判别器训练标签,基于二值化交叉熵损失函数,设计判别器训练损失函数;
(1.2.4)固定判别器参数,以目标域数据的相似性空间作为训练数据,设置“真相似性空间”对应的标签作为训练标签,输入判别器,根据判别器输出分值和训练标签基于二值化交叉熵损失函数设计对抗损失函数训练分割器模块;
(1.2.5)以整合源域分割损失函数Lseg(Xs)、对抗损失函数Ladv(At)、目标域分割损失函数Lseg(Xt)的分割器整体损失函数作为分割器目标损失函数;以判别器损失函数Ld(A)作为判别器目标损失函数;通过反向传播算法,优化基于相似性空间对齐的域自适应图像语义分割网络模型;
(1.2.6)将目标域训练集数据输入(1.2.5)训练的分割器模块得到目标域分割预测概率分布,根据设定的阈值生成目标域训练集伪标签,根据目标域数据和对应的伪标签,基于交叉熵损失函数设计目标域分割损失函数,对分割器模块进行重新优化;
(2)利用上述训练好的基于相似性空间对齐的域自适应图像语义分割网络模型对待分割真实图像进行语义分割:将目标域测试图像数据输入分割器,得到分割预测概率分布,通过softmax生成分割预测分值,针对图像每个像素,选择预测分值最大的那个类别为预测类别,从而得到最终的语义分割结果。
2.根据权利要求1所述的基于相似性空间对齐的域自适应语义分割方法,其特征在于,所述步骤(1.2.1)中的语义分割网络模型具体为:
所述域自适应图像语义分割网络模型,由分割器模块、相似性空间计算模块和判别器模块组成;分割器模块由Deeplab-V2语义分割网络修改得到,它以ResNet-101为基础网络架构,去除Deeplab-V2原生网络中多尺度融合策略,并将主干网络ResNet-101最后两层的步长修改为1和空洞扩张率分别修改为2和4,接着在ResNet-101特征输出后面添加空洞扩张率为{6,12,18,24}的空洞空间卷积池化金字塔模块来捕捉图像特征中多尺度信息,对图像特征每个像素进行类别预测,得到一个具有类别数目C个通道的分割概率分布特征,对应类别通道得分越高,表示像素为该类的可能性越大,得分最高的类别作为图像语义分割结果;对于相似性空间计算模块,它基于KL散度计算像素和其周围N=8个邻居的分割预测概率向量的相似性,将图像分割预测概率分布输入相似性空间计算模块可计算得到图像数据的相似性空间,作为下一步判别器的输入进行对抗训练;对于判别器模块,它由五个卷积核大小为4、步长为2的卷积层组成,五层卷积层的通道数分别为{64,128,256,512,1},将除最后一个卷积层之外的每个卷积层之后都接上一个负数区域激活值为0.2的泄露修正线性单元LeakyReLU激活函数,将上一步得到的相似性空间输入判别器,预测该相似性空间是来自的源域的“真相似空间”的概率。
3.根据权利要求1或2所述的基于相似性空间对齐的域自适应语义分割方法,其特征在于,所述步骤(1.2.2)具体为:
对于分割器模块,首先将带标注的源域数据Xs输入分割器中,通过分割网络,预测出源域数据Xs的分割概率分布Ps,根据源域数据集的标注数据Ys,利用交叉熵损失函数作为分割损失函数,先计算源域图像数据每个像素预测分割概率分布的对数值与真实目标分割标签Ys的乘积作为预测误差,再对所有像素的预测误差求均值,以此定义分割器源域分割损失函数Lseg(Xs),损失函数公式如下:
其中,Xs表示源域图像,Ys为源域图片对应的分割训练标签,h,w为图像的高度和宽度,C为数据集的所有类别,根据源域图像数据的预测的分割概率分布和标签计算交叉熵损失函数,通过反向传导,优化分割器模块参数。
4.根据权利要求1或2所述的基于相似性空间对齐的域自适应语义分割方法,其特征在于,所述步骤(1.2.3)具体为:
对于相似性空间计算模块,将源域和目标域图像数据通过分割器预测的分割概率分布输入该模块,通过计算得到像素间局部相似性,获得源域和目标域的相似性空间;所述局部相似性由图像像素与其相邻像素的分割概率分布的KL散度值计算得到,对于图像中像素点x和它的相邻像素点n,通过分割器得到分割概率分布,得到像素点x的分割预测向量 其中,表示像素x被预测为第i类的概率,像素点x的相邻点n的分割预测向量为据此构建每一类的相似性空间其中为图像像素点x和其相邻像素点n的第i类的预测值的KL散度值,计算公式如下:
据此,得到图像的相似度空间A=(A1,A2,…,AN),尺度为H×W×NC,H为高度,W为宽度,NC为通道数,存储着图像像素间的上下文关系;
对于判别器模块,将相似性空间计算模块计算得到的源域相似性空间As作为“真相似性空间”,训练标签为zAs=1,目标域相似性空间At作为“假相似性空间”,训练标签为zAt=0,分别输入判别器中,判别相似性空间的“真假性”,根据预测得分与训练标签基于二值化交叉熵损失函数设计判别器训练损失函数,公式如下:
Ld(A)=-∑((1-z)log(D(A)(h,w,0))+zlog(D(A)(h,w,1))
其中,z为训练标签,z=0表示当前数据来自于目标域,z=1表示当前数据来自于源域,D(A)表示相似性空间通过判别器D预测为“真相似性空间”的得分,通过训练,判别器具有判别当前输入数据是“真相似性空间”还是“假相似性空间”的能力。
5.根据权利要求1或2所述的基于相似性空间对齐的域自适应语义分割方法,其特征在于,所述步骤(1.2.4)具体为:
对于目标域数据,将目标域数据的相似性空间At,输入判别器D通过控制判别器的训练标签与“真相似性空间”相同,即zAt=1,设计对抗损失函数Ladv(At),公式如下:
其中,D(At)(h,w,1)表示目标域相似性空间通过判别器D的预测得分,根据设计的损失函数通过反向传播算法,使得目标域数据通过分割器模块预测的分割概率分布计算的相似性空间被判别器识别为“真相似性空间”,致使分割器模块输出的目标域分割预测概率分布和源域分割预测概率分布在分布上相似,判别器无法判别相似空间的真假性,实现对抗性训练。
6.根据权利要求1或2所述的基于相似性空间对齐的域自适应语义分割方法,其特征在于,所述步骤(1.2.5)具体为:
首先,对于分割器模块,以源域真实标签Ys为分割器模块期望输出,以源域分割预测概率分布Ps为预测输出,设计源域分割损失函数Lseg(Xs)作为分割器对源域图片的优化目标函数;其次,以目标域作为训练数据,以“真相似性空间”对应训练标签z=1为判别器的期望输出,以判别器的预测得分为预测输出,根据(1.2.4)描述方法,设计对抗损失函数Ladv(At),作为分割器对目标域图片的优化目标函数;根据上述损失函数得到,分割器总优化目标函数为:
LASA(Xs,Xt)=Lseg(Xs)+λadvLadv(At)
其中,ASA为设计算法简称,Lseg(Xs)为源域分割损失函数,Ladv(At)为目标域判别损失函数,λadv为损失函数Ladv(At)的权重系数;
对于判别器模块,以真实标签z为判别器期望输出,以判别器输出为预测输出,根据(1.2.3)所述设计判别器损失函数,作为判别器优化目标函数,至此,包括分割器目标损失函数和判别器目标损失函数构成了网络整体目标损失函数,对网络进行优化;
根据设计的整体目标损失函数,利用反向传播算法对模型进行迭代训练,最小化整体目标损失函数,实现最优网络模型。
7.根据权利要求1或2所述的基于相似性空间对齐的域自适应语义分割方法,其特征在于,所述步骤(1.2.6)具体为:
所述目标域训练集伪标签,由目标域数据和(1.2.5)中得到的分割器来生成,首先将目标域数据输入到(1.2.5)步骤训练好的分割器中得到目标域预测分割概率得分分布,概率中值大于预设阈值的设置为1,小于预设阈值的设置为忽略标签,即可生成训练伪标签,根据目标域数据和生成的训练伪标签,基于交叉熵损失函数设计目标域分割损失函数,并且在训练过程中,不计算忽略标签的损失,损失函数公式如下:
8.根据权利要求7所述的基于相似性空间对齐的域自适应语义分割方法,其特征在于,所述预设阈值为0.9。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910585717.XA CN110322446B (zh) | 2019-07-01 | 2019-07-01 | 一种基于相似性空间对齐的域自适应语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910585717.XA CN110322446B (zh) | 2019-07-01 | 2019-07-01 | 一种基于相似性空间对齐的域自适应语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110322446A CN110322446A (zh) | 2019-10-11 |
CN110322446B true CN110322446B (zh) | 2021-02-19 |
Family
ID=68122218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910585717.XA Active CN110322446B (zh) | 2019-07-01 | 2019-07-01 | 一种基于相似性空间对齐的域自适应语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110322446B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728328B (zh) * | 2019-10-22 | 2022-03-01 | 支付宝(杭州)信息技术有限公司 | 分类模型的训练方法和装置 |
CN110889816B (zh) * | 2019-11-07 | 2022-12-16 | 拜耳股份有限公司 | 一种图像分割方法与装置 |
CN111062951B (zh) * | 2019-12-11 | 2022-03-25 | 华中科技大学 | 一种基于语义分割类内特征差异性的知识蒸馏方法 |
CN111179277B (zh) * | 2019-12-11 | 2023-05-02 | 中国科学院深圳先进技术研究院 | 一种无监督自适应乳腺病变分割方法 |
CN111091550A (zh) * | 2019-12-12 | 2020-05-01 | 创新奇智(北京)科技有限公司 | 多尺寸自适应的pcb锡膏区域检测系统及检测方法 |
CN111275092B (zh) * | 2020-01-17 | 2022-05-13 | 电子科技大学 | 一种基于无监督域适应的图像分类方法 |
CN111340819B (zh) * | 2020-02-10 | 2023-09-12 | 腾讯科技(深圳)有限公司 | 图像分割方法、装置和存储介质 |
CN111199550B (zh) * | 2020-04-09 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 图像分割网络的训练方法、分割方法、装置和存储介质 |
CN111539439B (zh) * | 2020-04-30 | 2021-01-05 | 宜宾电子科技大学研究院 | 一种图像语义分割方法 |
CN111597946B (zh) * | 2020-05-11 | 2022-04-08 | 腾讯医疗健康(深圳)有限公司 | 图像生成器的处理方法、图像生成方法及装置 |
CN111539222B (zh) * | 2020-05-20 | 2023-05-23 | 北京百度网讯科技有限公司 | 语义相似度任务模型的训练方法、装置、设备及存储介质 |
CN112308862A (zh) * | 2020-06-04 | 2021-02-02 | 北京京东尚科信息技术有限公司 | 图像语义分割模型训练、分割方法、装置以及存储介质 |
CN111815593B (zh) * | 2020-06-29 | 2024-03-01 | 郑州大学 | 基于对抗学习的肺结节域适应分割方法、装置及存储介质 |
CN111951220A (zh) * | 2020-07-10 | 2020-11-17 | 北京工业大学 | 一种基于多层面领域自适应技术的无监督脑出血分割方法 |
CN111932553B (zh) * | 2020-07-27 | 2022-09-06 | 北京航空航天大学 | 基于区域描述自注意力机制的遥感图像语义分割方法 |
CN112149547B (zh) * | 2020-09-17 | 2023-06-02 | 南京信息工程大学 | 基于图像金字塔引导和像素对匹配的遥感影像水体识别方法 |
CN112613515A (zh) * | 2020-11-23 | 2021-04-06 | 上海眼控科技股份有限公司 | 语义分割方法、装置、计算机设备和存储介质 |
CN112699892A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 一种无监督领域自适应语义分割方法 |
CN113033803A (zh) * | 2021-03-25 | 2021-06-25 | 天津大学 | 一种基于对抗神经网络的跨平台社交机器人检测方法 |
CN113222997A (zh) * | 2021-03-31 | 2021-08-06 | 上海商汤智能科技有限公司 | 神经网络的生成、图像处理方法、装置、电子设备及介质 |
CN113096137B (zh) * | 2021-04-08 | 2022-04-12 | 济南大学 | 一种oct视网膜图像领域适应分割方法及系统 |
CN113205096B (zh) | 2021-04-26 | 2022-04-15 | 武汉大学 | 一种基于注意力的联合图像与特征自适应的语义分割方法 |
CN113378906B (zh) * | 2021-06-04 | 2022-05-13 | 武汉大学 | 一种特征自适应对齐的无监督域适应遥感图像语义分割方法 |
CN113610807B (zh) * | 2021-08-09 | 2024-02-09 | 西安电子科技大学 | 基于弱监督多任务学习的新冠肺炎分割方法 |
CN113807420B (zh) * | 2021-09-06 | 2024-03-19 | 湖南大学 | 一种考虑类别语义匹配的域自适应目标检测方法及系统 |
CN114529878B (zh) * | 2022-01-21 | 2023-04-25 | 四川大学 | 一种基于语义感知的跨域道路场景语义分割方法 |
CN114239753B (zh) * | 2022-02-23 | 2022-07-22 | 山东力聚机器人科技股份有限公司 | 可迁移的图像识别方法及装置 |
CN114463332B (zh) * | 2022-04-13 | 2022-06-10 | 北京航空航天大学 | 用于跨数据源医学图像分割的无监督域适应方法及系统 |
CN115222940B (zh) * | 2022-07-07 | 2023-06-09 | 北京邮电大学 | 一种语义分割方法、系统、设备和存储介质 |
CN115393725B (zh) * | 2022-10-26 | 2023-03-07 | 西南科技大学 | 一种特征增强和语义分割的桥梁裂缝识别方法 |
CN115640418B (zh) * | 2022-12-26 | 2023-04-07 | 天津师范大学 | 基于残差语义一致性跨域多视角目标网站检索方法及装置 |
CN116758286B (zh) * | 2023-06-25 | 2024-02-06 | 中国人民解放军总医院 | 医学影像分割方法、系统、装置、存储介质及产品 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833224A (zh) * | 2017-10-09 | 2018-03-23 | 西南交通大学 | 一种基于多层次区域合成的图像分割方法 |
CN108550151A (zh) * | 2018-04-17 | 2018-09-18 | 深圳市唯特视科技有限公司 | 一种基于对抗训练的反向域自适应方法 |
CN108665463A (zh) * | 2018-03-30 | 2018-10-16 | 哈尔滨理工大学 | 一种基于对抗式生成网络的宫颈细胞图像分割方法 |
CN108875935A (zh) * | 2018-06-11 | 2018-11-23 | 兰州理工大学 | 基于生成对抗网络的自然图像目标材质视觉特征映射方法 |
CN109190707A (zh) * | 2018-09-12 | 2019-01-11 | 深圳市唯特视科技有限公司 | 一种基于对抗学习的域自适应图像语义分割方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480726A (zh) * | 2017-08-25 | 2017-12-15 | 电子科技大学 | 一种基于全卷积和长短期记忆单元的场景语义分割方法 |
CN109145939B (zh) * | 2018-07-02 | 2021-11-02 | 南京师范大学 | 一种小目标敏感的双通道卷积神经网络语义分割方法 |
CN109166126B (zh) * | 2018-08-13 | 2022-02-18 | 苏州比格威医疗科技有限公司 | 一种基于条件生成式对抗网络在icga图像上分割漆裂纹的方法 |
CN109800629B (zh) * | 2018-12-05 | 2023-04-07 | 天津大学 | 一种基于卷积神经网络的遥感图像目标检测方法 |
-
2019
- 2019-07-01 CN CN201910585717.XA patent/CN110322446B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107833224A (zh) * | 2017-10-09 | 2018-03-23 | 西南交通大学 | 一种基于多层次区域合成的图像分割方法 |
CN108665463A (zh) * | 2018-03-30 | 2018-10-16 | 哈尔滨理工大学 | 一种基于对抗式生成网络的宫颈细胞图像分割方法 |
CN108550151A (zh) * | 2018-04-17 | 2018-09-18 | 深圳市唯特视科技有限公司 | 一种基于对抗训练的反向域自适应方法 |
CN108875935A (zh) * | 2018-06-11 | 2018-11-23 | 兰州理工大学 | 基于生成对抗网络的自然图像目标材质视觉特征映射方法 |
CN109190707A (zh) * | 2018-09-12 | 2019-01-11 | 深圳市唯特视科技有限公司 | 一种基于对抗学习的域自适应图像语义分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110322446A (zh) | 2019-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110322446B (zh) | 一种基于相似性空间对齐的域自适应语义分割方法 | |
Pal et al. | Deep learning in multi-object detection and tracking: state of the art | |
CN109472232B (zh) | 基于多模态融合机制的视频语义表征方法、系统及介质 | |
Dai et al. | Human action recognition using two-stream attention based LSTM networks | |
Wang et al. | A joint convolutional neural networks and context transfer for street scenes labeling | |
CN109389091B (zh) | 基于神经网络和注意力机制结合的文字识别系统及方法 | |
Chen et al. | Fast vehicle detection algorithm in traffic scene based on improved SSD | |
CN110837836B (zh) | 基于最大化置信度的半监督语义分割方法 | |
CN109711463B (zh) | 基于注意力的重要对象检测方法 | |
Liu et al. | A hierarchical visual model for video object summarization | |
CN113011329A (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
CN113628244B (zh) | 基于无标注视频训练的目标跟踪方法、系统、终端及介质 | |
CN115019039B (zh) | 一种结合自监督和全局信息增强的实例分割方法及系统 | |
Li et al. | Learning hierarchical video representation for action recognition | |
He et al. | Temporal-adaptive sparse feature aggregation for video object detection | |
CN113807176A (zh) | 一种基于多知识融合的小样本视频行为识别方法 | |
Pang et al. | Predicting skeleton trajectories using a Skeleton-Transformer for video anomaly detection | |
Tao et al. | An adaptive frame selection network with enhanced dilated convolution for video smoke recognition | |
WO2023173552A1 (zh) | 目标检测模型的建立方法、应用方法、设备、装置及介质 | |
CN115035599A (zh) | 一种融合装备与行为特征的武装人员识别方法和系统 | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity | |
Chen et al. | Video summarization with u-shaped transformer | |
Aldhaheri et al. | MACC Net: Multi-task attention crowd counting network | |
Jiang et al. | Cross-level reinforced attention network for person re-identification | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |