CN114612658A - 基于双重类别级对抗网络的图像语义分割方法 - Google Patents

基于双重类别级对抗网络的图像语义分割方法 Download PDF

Info

Publication number
CN114612658A
CN114612658A CN202210172502.7A CN202210172502A CN114612658A CN 114612658 A CN114612658 A CN 114612658A CN 202210172502 A CN202210172502 A CN 202210172502A CN 114612658 A CN114612658 A CN 114612658A
Authority
CN
China
Prior art keywords
domain
image
training
inter
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210172502.7A
Other languages
English (en)
Inventor
琚艳
刘斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN202210172502.7A priority Critical patent/CN114612658A/zh
Publication of CN114612658A publication Critical patent/CN114612658A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于双重类别级对抗网络的图像语义分割方法,属于深度学习技术领域。包括以下步骤:首先,利用类别级对抗网络基于局部语义类别一致性的思想,兼顾源域和目标域的边缘分布对齐和条件分布对齐,使得源域和目标域进行协同训练,根据不同的对齐效果来调整相应对抗损失的权重;其次,通过计算目标预测的信息熵值确定目标图像的置信水平,依据熵值大小将目标域划分为集合一和集合二;最后,利用集合一及其预测图作为伪标签,再次使用CLAN模型训练集合二图像,以减少域内差异,从而有效提升不同数据集间的自适应水平,提高算法的泛化性能。本发明基于多个数据集进行实验,验证了该方法的可行性,能够有效提高语义分割效率。

Description

基于双重类别级对抗网络的图像语义分割方法
技术领域
本发明属于深度学习领域,涉及一种基于双重类别级对抗网络的图像语义分割方法。
背景技术
图像语义分割是指对图像中的每一个像素点进行分类,并通过整合得到了包含语义信息的分割结果,即根据图像的语义对图形进行分割,这里语义是指图像的内容或信息细节。语义分割是图像理解的基础,广泛应用于医学影像分析、自动驾驶、地理信息系统等领域。最初的图像语义分割方法主要基于RDF等机器学习方法和概率图模型,语义分割的结果一般为图中物体的类别。全卷积神经网络(Fully Convolutional Network,FCN)的出现使得深度学习技术开始广泛应用于图像语义分割,此时语义分割可以识别图像中所包含的个体。近年来,基于深度学习的图像语义分割技术得到长足的发展,例如,DeepLab系列模型结合了深度卷积神经网络(DCNNs)和概率图模型,其中Deeplab-v2引用了不同特征层的多分辨率信息,采用了多孔空间金字塔池化结构(ASPP),有效地学习不同尺度目标的相关信息,进一步提高目标的分割精度;DeepLab-v3+采用可任意控制编-解码器来提高特征的分辨率并恢复原始像素信息,同时采用空洞卷积方法平衡语义分割精度和效率。
图像语义分割一般采用监督学习方法,训练样本需要像素级标注信息,人工标注成本较大,一种解决方案是采用合成图像构成的训练集。通常将合成图像数据集称为源域(Source Domain),真实场景的数据集称为目标域(Target Domain)。源域和目标域之间往往不可避免地存在着很大的视觉差异,即域偏移(Domain Shift),如纹理、光照、视角差异等等,这些差异会导致通过源域训练得到的深度学习模型对目标域的分割精度不理想,容易出现过拟合现象,难以泛化到目标域数据集上。域自适应(Domain Adaptation)是迁移学习在计算机视觉领域中重要技术之一,主要解决当源域和目标域之间的数据分布存在偏差时,如何利用源域数据训练出适应目标域数据的模型。其中,源域中都是带有标注信息的样本,而目标域没有或者只有少数数据有标注信息。现有的域自适应方法,大多采用原图或高层次抽象特征图进行跨域训练,往往会产生语义不一致或类别错分问题。
发明内容
发明目的:本专利提出一种基于双重类别级对抗网络的域自适应分割方法,通过提升不同数据集间的自适应水平,有效实现对无标注数据集的语义分割,提高算法的泛化性能。
技术方案:本发明提出一种基于双重类别级对抗网络的图像语义分割方法,所述方法包括以下步骤:
步骤一:获取图像数据集,获取用于源域的合成图像数据集GTA5,即视频游戏数据集,以及虚拟城市数据集SYNTHIA,获取用于目标域的真实图像数据集Cityscapes,即城市景观数据集,该数据集由训练集和测试集两部分组成,其中训练集用来训练模型,测试集则用来评估模型的泛化能力;
步骤二:构建域间类别级对抗网络,所述域间类别级对抗网络由域间生成器和域间鉴别器组成,其中,域间生成器由特征提取器和两个互斥分类器构成,将步骤一中源域和目标域图像输入域间类别级对抗网络进行协同训练,计算源域和目标域之间的差异;
步骤三:计算网络的对抗损失函数并进行两域间的自适应网络的训练:输入图像进行步骤二的操作后,通过两个互斥分类器得到两个预测张量,计算两个张量之间的距离差异由此调整对抗损失大小,使用对抗损失函数训练源域和目标域之间的类别级对抗网络;
步骤四:划分目标域图像,利用步骤三中训练好的网络输出目标预测图,计算预测图的信息熵值,根据熵值大小排序,并依据简单比率λE将目标域划分为集合一和集合二两部分,集合一的熵值较小且集合一占总目标域的比例为λE
步骤五:目标域内的自适应训练,将步骤四中的集合一看作源域,其预测图作为伪标签,并将集合二看作目标域,二次利用类别级对抗网络进行域内自适应训练;
步骤六:训练总体模型并获得分割结果,将Cityscapes中的测试集图像输入步骤五训练好的网络中,以实现对测试集图像的语义分割。
其中,步骤一中所述的获取图像数据集包括以下步骤:
步骤一:所述的源域数据集GTA5和SYNTHIA都是合成的虚拟数据,数据集中包含图片信息和逐像素的语义信息作为分割标签;
步骤二:所述的目标域数据集Cityscapes是现实场景的真实数据,数据集中包含2975幅图像的训练集和500幅图像的测试集,目标域数据不含有任何标签信息。
其中,步骤二中,通过以下步骤构建域间类别级对抗网络:
步骤1:如图2所示,域间生成器由特征提取器和两个互斥分类器组成,使用残差网络ResNet-101在ImageNet数据集上的预训练框架作为域间生成器网络的主干部分,即框架的前半部分为特征提取器,进入步骤2;
步骤2:复制框架中最后一个分类模块的两个副本,并行排列在特征提取器后作为两个互斥分类器,进入步骤3;
步骤3:将源域和目标域图像输入网络中进行协同训练,并进行分割损失计算:
Figure BDA0003518898630000031
其中,样本Xs∈RH×W×3是来自源域的图像,Ys是其相应的像素标签,C为语义分割的类别数,Ps (h,w,c)为C类语义在像素(h,w)上的离散分布;Ys (h,w,c)为C类语义在像素(h,w)上的正确标注概率,如果像素(h,w)属于C类,Ys (h,w,c)=1,否则Ys (h,w,c)=0。
其中,步骤三中,计算网络的对抗损失函数并进行两域间的自适应网络的训练包括以下步骤:
步骤1:训练过程中,两个互斥分类器对输入图像进行逐像素的语义分类,两个分类器C1和C2具有不同的参数,采用最小化两个分类器的余弦相似度来增强它们的卷积层的权值散度,有以下权重差异损失:
Figure BDA0003518898630000032
其中,
Figure BDA0003518898630000033
Figure BDA0003518898630000034
是分别将C1和C2的卷积滤波器的权值进行扁平化和串联后得到的向量;
步骤2:输入图像进入互斥分类器会输出两个预测张量P(1)和P(2),计算两个预测张量的距离差异,将距离差异作为对抗损失的权重,使得分割图上的每个像素都能有不同的权重来调整对抗损失,进入步骤三;
步骤三:采用自适应对抗损失函数进行训练:
Figure BDA0003518898630000035
其中,P(1)和P(2)分别为C1和C2的预测张量,M(·,·)为余弦距离,参数λlocal控制对抗损失的自适应权值,ε为一个参数,G1为域间生成器,D1为域间鉴别器,Xs为源域图像,Xt为目标域图像。
其中,步骤四中,划分目标域图像包括以下步骤:
步骤一:将目标域图像输入上述步骤训练好的类别级对抗网络中,并得到目标域图像的预测图;
步骤二:计算目标域预测图中每个像素点的信息熵值:
Figure BDA0003518898630000041
其中,域间生成器G1以目标图像Xt作为输入,生成像素级的分割预测值Pt (h,w,c),对其进行熵映射计算;
步骤三:在步骤二的基础上,求出每幅图的熵映射值,并将该值从小到大排列:
Figure BDA0003518898630000042
其中,R(Xt)是熵图It的平均值,当域间适应网络模型达到最优时,根据域间生成器G1产生的预测分割图计算每个像素为C类语义概率的熵值
Figure BDA0003518898630000044
并且求该熵图的平均值R(Xt),按照从低到高的次序将目标域熵图进行排序,然后将目标域熵图与原目标域图像一一对应;
步骤四:引入超参数λE作为目标域集合一占总目标域的比率,将目标域分为两部分,即集合一的熵图平均值较低为低熵,分割效果较好,而集合二的熵图平均值较高为高熵,分割效果较差,需要对集合二图像进行进一步训练。令Xte和Xth分别表示分配给集合一和集合二的目标图像,λE定义如下:
Figure BDA0003518898630000043
其中,|Xte|是集合一的基数,|Xt|是整个目标域的基数。
其中,步骤五中,目标域内的自适应训练包括以下步骤:
步骤一:将上述步骤中划分的目标域集合一看作源域数据集,集合一的预测图作为伪标签进行辅助训练,将集合二看作目标域数据集,同时利用集合一和集合二进行第二次域间类别级对抗网络模型的训练。
其中,步骤六中,训练总体模型并获得分割结果包括以下步骤:
步骤一:设置域间自适应和域内自适应的总体损失函数L如下形式:
Figure BDA0003518898630000051
根据以下公式学习目标模型:
Figure BDA0003518898630000052
由于使用了双重类别级对抗网络,其包括有域间和域内两部分参数,分别用i=1和i=2来表示,即L1是域间自适应的总体损失函数,L2则是域内自适应的总体损失函数,G1是域间生成器,G2则是域内生成器,D1是域间鉴别器,D2则是域内鉴别器,
Figure BDA0003518898630000053
Figure BDA0003518898630000054
分别为域间自适应的分割损失、权重差异损失和对抗损失函数,
Figure BDA0003518898630000055
Figure BDA0003518898630000056
则分别为域内自适应的分割损失、权重差异损失和对抗损失函数,
Figure BDA0003518898630000057
分别为域间自适应中控制权重差异损失和对抗损失的超参数,
Figure BDA0003518898630000058
分别为域内自适应中控制权重差异损失和对抗损失的超参数;
步骤二:首先,对模型进行域间自适应训练,以优化模型的G1和D1,其次,基于R(Xt)对目标图像进行排序,并利用G1生成目标域伪标签,训练域内自适应模型优化G2和D2
步骤三:对跨域适应G1模型进行了70,000次迭代训练后,使用G1生成Cityscapes训练集的2975幅图像的分割图和熵图,利用R(Xt)得到所有目标域图像的分割难易程度系数,R(Xt)值大则说明分割困难,反之则说明分割容易,利用排序算法将所有图像的R(Xt)值从小到大排序,并结合λE将目标域划分为两个子集合,即集合一的R(Xt)值较小且集合一占总目标域的比例为λE,集合二的R(Xt)值较大且集合二占总目标域的比例为1-λE
步骤四:用SGD优化器训练G1和G2,动量为0.9,初始学习率设置为2.5×10-4,权重衰减设为10-4,用Adam优化器训练D1和D2,初始学习率为10-4,且在训练期间保持不变,训练时使用512×1024大小的图片,将预测图上采样2倍,进行分割结果评估;
步骤五:实验采用检测评价函数:
Figure BDA0003518898630000061
对每个类别进行语义分割性能评估,其中TP、FP和FN分别为真正、假正和假负像素的个数,k为类别数。
附图说明
图1是本发明所述的一种基于双重类别级对抗网络的图像语义分割方法的整体框架图;
图2是本发明中类别级对抗网络的结构示意图。
具体实施方法
请参阅图1所示,本发明的一种基于双重类别级对抗网络的图像语义分割方法,所述方法包括以下步骤:
步骤一:获取图像数据集,获取用于源域的合成图像数据集GTA5,即视频游戏数据集,以及虚拟城市数据集SYNTHIA,获取用于目标域的真实图像数据集Cityscapes,即城市景观数据集,该数据集由训练集和测试集两部分组成,其中训练集用来训练模型,测试集则用来评估模型的泛化能力;
步骤二:构建域间类别级对抗网络,所述域间类别级对抗网络由域间生成器和域间鉴别器组成,其中,域间生成器由特征提取器和两个互斥分类器构成,将步骤一中源域和目标域图像输入域间类别级对抗网络进行协同训练,计算源域和目标域之间的差异;
步骤三:计算网络的对抗损失函数并进行两域间的自适应网络的训练:输入图像进行步骤二的操作后,通过两个互斥分类器得到两个预测张量,计算两个张量之间的距离差异由此调整对抗损失大小,使用对抗损失函数训练源域和目标域之间的类别级对抗网络;
步骤四:划分目标域图像,利用步骤三中训练好的网络输出目标预测图,计算预测图的信息熵值,根据熵值大小排序,并依据简单比率λE将目标域划分为集合一和集合二两部分,集合一的熵值较小且集合一占总目标域的比例为λE
步骤五:目标域内的自适应训练,将步骤四中的集合一看作源域,其预测图作为伪标签,并将集合二看作目标域,二次利用类别级对抗网络进行域内自适应训练;
步骤六:训练总体模型并获得分割结果,将Cityscapes中的测试集图像输入步骤五训练好的网络中,以实现对测试集图像的语义分割。
其中,步骤一中所述的获取图像数据集包括以下步骤:
步骤一:所述的源域数据集GTA5和SYNTHIA都是合成的虚拟数据,数据集中包含图片信息和逐像素的语义信息作为分割标签;
步骤二:所述的目标域数据集Cityscapes是现实场景的真实数据,数据集中包含2975幅图像的训练集和500幅图像的测试集,目标域数据不含有任何标签信息。
其中,步骤二中,通过以下步骤构建域间类别级对抗网络:
步骤1:如图2所示,域间生成器由特征提取器和两个互斥分类器组成,使用残差网络ResNet-101在ImageNet数据集上的预训练框架作为域间生成器网络的主干部分,即框架的前半部分为特征提取器,进入步骤2;
步骤2:复制框架中最后一个分类模块的两个副本,并行排列在特征提取器后作为两个互斥分类器,进入步骤3;
步骤3:将源域和目标域图像输入网络中进行协同训练,并进行分割损失计算:
Figure BDA0003518898630000071
其中,样本Xs∈RH×W×3是来自源域的图像,Ys是其相应的像素标签,C为语义分割的类别数,Ps (h,w,c)为C类语义在像素(h,w)上的离散分布;Ys (h,w,c)为C类语义在像素(h,w)上的正确标注概率,如果像素(h,w)属于C类,Ys (h,w,c)=1,否则Ys (h,w,c)=0。
其中,步骤三中,计算网络的对抗损失函数并进行两域间的自适应网络的训练包括以下步骤:
步骤1:训练过程中,两个互斥分类器对输入图像进行逐像素的语义分类,两个分类器C1和C2具有不同的参数,采用最小化两个分类器的余弦相似度来增强它们的卷积层的权值散度,有以下权重差异损失:
Figure BDA0003518898630000081
其中,
Figure BDA0003518898630000082
Figure BDA0003518898630000083
是分别将C1和C2的卷积滤波器的权值进行扁平化和串联后得到的向量;
步骤2:输入图像进入互斥分类器会输出两个预测张量P(1)和P(2),计算两个预测张量的距离差异,将距离差异作为对抗损失的权重,使得分割图上的每个像素都能有不同的权重来调整对抗损失,进入步骤三;
步骤三:采用自适应对抗损失函数进行训练:
Figure BDA0003518898630000084
其中,P(1)和P(2)分别为C1和C2的预测张量,M(·,·)为余弦距离,参数λlocal控制对抗损失的自适应权值,ε为一个参数,G1为域间生成器,D1为域间鉴别器,Xs为源域图像,Xt为目标域图像。
其中,步骤四中,划分目标域图像包括以下步骤:
步骤一:将目标域图像输入上述步骤训练好的类别级对抗网络中,并得到目标域图像的预测图;
步骤二:计算目标域预测图中每个像素点的信息熵值:
Figure BDA0003518898630000085
其中,域间生成器G1以目标图像Xt作为输入,生成像素级的分割预测值Pt (h,w,c),对其进行熵映射计算;
步骤三:在步骤二的基础上,求出每幅图的熵映射值,并将该值从小到大排列:
Figure BDA0003518898630000086
其中,R(Xt)是熵图It的平均值,当域间适应网络模型达到最优时,根据域间生成器G1产生的预测分割图计算每个像素为C类语义概率的熵值
Figure BDA0003518898630000087
并且求该熵图的平均值R(Xt),按照从低到高的次序将目标域熵图进行排序,然后将目标域熵图与原目标域图像一一对应;
步骤四:引入超参数λE作为目标域集合一占总目标域的比率,将目标域分为两部分,即集合一的熵图平均值较低为低熵,分割效果较好,而集合二的熵图平均值较高为高熵,分割效果较差,需要对集合二图像进行进一步训练。令Xte和Xth分别表示分配给集合一和集合二的目标图像,λE定义如下:
Figure BDA0003518898630000091
其中,|Xte|是集合一的基数,|Xt|是整个目标域的基数。
其中,步骤五中,目标域内的自适应训练包括以下步骤:
步骤一:将上述步骤中划分的目标域集合一看作源域数据集,集合一的预测图作为伪标签进行辅助训练,将集合二看作目标域数据集,同时利用集合一和集合二进行第二次域间类别级对抗网络模型的训练。
其中,步骤六中,训练总体模型并获得分割结果包括以下步骤:
步骤一:设置域间自适应和域内自适应的总体损失函数L如下形式:
Figure BDA0003518898630000092
根据以下公式学习目标模型:
Figure BDA0003518898630000093
由于使用了双重类别级对抗网络,其包括有域间和域内两部分参数,分别用i=1和i=2来表示,即L1是域间自适应的总体损失函数,L2则是域内自适应的总体损失函数,G1是域间生成器,G2则是域内生成器,D1是域间鉴别器,D2则是域内鉴别器,
Figure BDA0003518898630000094
Figure BDA0003518898630000095
分别为域间自适应的分割损失、权重差异损失和对抗损失函数,
Figure BDA0003518898630000096
Figure BDA0003518898630000097
则分别为域内自适应的分割损失、权重差异损失和对抗损失函数,
Figure BDA0003518898630000098
分别为域间自适应中控制权重差异损失和对抗损失的超参数,
Figure BDA0003518898630000099
分别为域内自适应中控制权重差异损失和对抗损失的超参数;
步骤二:首先,对模型进行域间自适应训练,以优化模型的G1和D1,其次,基于R(Xt)对目标图像进行排序,并利用G1生成目标域伪标签,训练域内自适应模型优化G2和D2
步骤三:对跨域适应G1模型进行了70,000次迭代训练后,使用G1生成Cityscapes训练集的2975幅图像的分割图和熵图,利用R(Xt)得到所有目标域图像的分割难易程度系数,R(Xt)值大则说明分割困难,反之则说明分割容易,利用排序算法将所有图像的R(Xt)值从小到大排序,并结合λE将目标域划分为两个子集合,即集合一的R(Xt)值较小且集合一占总目标域的比例为λE,集合二的R(Xt)值较大且集合二占总目标域的比例为1-λE
步骤四:用SGD优化器训练G1和G2,动量为0.9,初始学习率设置为2.5×10-4,权重衰减设为10-4,用Adam优化器训练D1和D2,初始学习率为10-4,且在训练期间保持不变,训练时使用512×1024大小的图片,将预测图上采样2倍,进行分割结果评估;
步骤五:实验采用检测评价函数:
Figure BDA0003518898630000101
对每个类别进行语义分割性能评估,其中TP、FP和FN分别为真正、假正和假负像素的个数,k为类别数。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所做的等效结构或等流程变换,或直接或间接运用在相关技术领域,均同理包括在本发明的专利保护范围。

Claims (7)

1.一种基于双重类别级对抗网络的图像语义分割方法,其特征在于,所述方法包括以下步骤:
步骤一:获取图像数据集,获取用于源域的合成图像数据集GTA5,即视频游戏数据集,以及虚拟城市数据集SYNTHIA,获取用于目标域的真实图像数据集Cityscapes,即城市景观数据集,该数据集由训练集和测试集两部分组成,其中训练集用来训练模型,测试集则用来评估模型的泛化能力;
步骤二:构建域间类别级对抗网络,所述域间类别级对抗网络由域间生成器和域间鉴别器组成,其中,域间生成器由特征提取器和两个互斥分类器构成,将步骤一中源域和目标域图像输入域间类别级对抗网络进行协同训练,计算源域和目标域之间的差异;
步骤三:计算网络的对抗损失函数并进行两域间的自适应网络的训练:输入图像进行步骤二的操作后,通过两个互斥分类器得到两个预测张量,计算两个张量之间的距离差异由此调整对抗损失大小,使用对抗损失函数训练源域和目标域之间的类别级对抗网络;
步骤四:划分目标域图像,利用步骤三中训练好的网络输出目标预测图,计算预测图的信息熵值,根据熵值大小排序,并依据简单比率λE将目标域划分为集合一和集合二两部分,集合一的熵值较小且集合一占总目标域的比例为λE
步骤五:目标域内的自适应训练,将步骤四中的集合一看作源域,其预测图作为伪标签,并将集合二看作目标域,二次利用类别级对抗网络进行域内自适应训练;
步骤六:训练总体模型并获得分割结果,将Cityscapes中的测试集图像输入步骤五训练好的网络中,以实现对测试集图像的语义分割。
2.根据权利要求1所述的一种基于双重类别级对抗网络的图像语义分割方法,其特征在于,步骤一中所述的获取图像数据集包括以下步骤:
步骤一:所述的源域数据集GTA5和SYNTHIA都是合成的虚拟数据,数据集中包含图片信息和逐像素的语义信息作为分割标签;
步骤二:所述的目标域数据集Cityscapes是现实场景的真实数据,数据集中包含2975幅图像的训练集和500幅图像的测试集,目标域数据不含有任何标签信息。
3.根据权利要求1所述的一种基于双重类别级对抗网络的图像语义分割方法,其特征在于,步骤二中,通过以下步骤构建域间类别级对抗网络:
步骤1:域间生成器由特征提取器和两个互斥分类器组成,使用残差网络ResNet-101在ImageNet数据集上的预训练框架作为域间生成器网络的主干部分,即框架的前半部分为特征提取器,进入步骤2;
步骤2:复制框架中最后一个分类模块的两个副本,并行排列在特征提取器后作为两个互斥分类器,进入步骤3;
步骤3:将源域和目标域图像输入网络中进行协同训练,并进行分割损失计算:
Figure FDA0003518898620000021
其中,样本Xs∈RH×W×3是来自源域的图像,Ys是其相应的像素标签,C为语义分割的类别数,Ps (h,w,c)为C类语义在像素(h,w)上的离散分布;Ys (h,w,c)为C类语义在像素(h,w)上的正确标注概率,如果像素(h,w)属于C类,Ys (h,w,c)=1,否则Ys (h,w,c)=0。
4.根据权利要求1所述的一种基于双重类别级对抗网络的图像语义分割方法,其特征在于,步骤三中,计算网络的对抗损失函数并进行两域间的自适应网络的训练包括以下步骤:
步骤1:训练过程中,两个互斥分类器对输入图像进行逐像素的语义分类,两个分类器C1和C2具有不同的参数,采用最小化两个分类器的余弦相似度增强它们的卷积层的权值散度,权重差异损失如下:
Figure FDA0003518898620000022
其中,
Figure FDA0003518898620000023
Figure FDA0003518898620000024
是分别将C1和C2的卷积滤波器的权值进行扁平化和串联后得到的向量;
步骤2:输入图像进入互斥分类器会输出两个预测张量P(1)和P(2),计算两个预测张量的距离差异,将距离差异作为对抗损失的权重,使得分割图上的每个像素都能有不同的权重来调整对抗损失,进入步骤三;
步骤三:采用自适应对抗损失函数进行训练:
Figure FDA0003518898620000025
其中,P(1)和P(2)分别为C1和C2的预测张量,M(·,·)为余弦距离,参数λlocal控制对抗损失的自适应权值,ε为一个参数,G1为域间生成器,D1为域间鉴别器,Xs为源域图像,Xt为目标域图像。
5.根据权利要求1所述的一种基于双重类别级对抗网络的图像语义分割方法,其特征在于,步骤四中,划分目标域图像包括以下步骤:
步骤一:将目标域图像输入上述步骤训练好的类别级对抗网络中,并得到目标域图像的预测图;
步骤二:计算目标域预测图中每个像素点的信息熵值:
Figure FDA0003518898620000031
其中,域间生成器G1以目标图像Xt作为输入,生成像素级的分割预测值Pt (h,w,c),对其进行熵映射计算;
步骤三:在步骤二的基础上,求出每幅图的熵映射值,并将该值从小到大排列:
Figure FDA0003518898620000032
其中,R(Xt)是熵图It的平均值,H和W为图像的高和宽,h和w为每个像素的高和宽值,当域间适应网络模型达到最优时,根据域间生成器G1产生的预测分割图计算每个像素为C类语义概率的熵值
Figure FDA0003518898620000033
并且求该熵图的平均值R(Xt),按照从低到高的次序将目标域熵图进行排序,然后将目标域熵图与原目标域图像一一对应;
步骤四:引入超参数λE作为目标域集合一占总目标域的比率,将目标域分为两部分,即集合一的熵图平均值较低为低熵,分割效果较好,而集合二的熵图平均值较高为高熵,分割效果较差,需要对集合二图像进行进一步训练,令Xte和Xth分别表示分配给集合一和集合二的目标图像,λE定义如下:
Figure FDA0003518898620000034
其中,|Xte|是集合一的基数,|Xt|是整个目标域的基数。
6.根据权利要求1所述的一种基于双重类别级对抗网络的图像语义分割方法,其特征在于,步骤五中,目标域内的自适应训练包括以下步骤:
步骤一:将上述步骤中划分的目标域集合一看作源域数据集,集合一的预测图作为伪标签进行辅助训练,将集合二看作目标域数据集,同时利用集合一和集合二进行第二次域间类别级对抗网络模型的训练。
7.根据权利要求1所述的基于双重类别级对抗网络的图像语义分割方法,其特征在于,步骤六中,训练总体模型并获得分割结果包括以下步骤:
步骤一:设置域间自适应和域内自适应的总体损失函数L如下形式:
Figure FDA0003518898620000041
根据以下公式学习目标模型:
Figure FDA0003518898620000042
由于使用了双重类别级对抗网络,其包括有域间和域内两部分参数,分别用i=1和i=2来表示,即L1是域间自适应的总体损失函数,L2则是域内自适应的总体损失函数,G1是域间生成器,G2则是域内生成器,D1是域间鉴别器,D2则是域内鉴别器,
Figure FDA0003518898620000043
Figure FDA0003518898620000044
分别为域间自适应的分割损失、权重差异损失和对抗损失函数,
Figure FDA0003518898620000045
Figure FDA0003518898620000046
则分别为域内自适应的分割损失、权重差异损失和对抗损失函数,λ1 weight、λ1 adv分别为域间自适应中控制权重差异损失和对抗损失的超参数,
Figure FDA0003518898620000047
分别为域内自适应中控制权重差异损失和对抗损失的超参数;
步骤二:首先,对模型进行域间自适应训练,以优化模型的G1和D1,其次,基于R(Xt)对目标图像进行排序,并利用G1生成目标域伪标签,训练域内自适应模型优化G2和D2
步骤三:对跨域适应G1模型进行了70,000次迭代训练后,使用G1生成Cityscapes训练集的2975幅图像的分割图和熵图,利用R(Xt)得到所有目标域图像的分割难易程度系数,R(Xt)值大则说明分割困难,反之则说明分割容易,利用排序算法将所有图像的R(Xt)值从小到大排序,并结合λE将目标域划分为两个子集合,即集合一的R(Xt)值较小且集合一占总目标域的比例为λE,集合二的R(Xt)值较大且集合二占总目标域的比例为1-λE
步骤四:用SGD优化器训练G1和G2,动量为0.9,初始学习率设置为2.5×10-4,权重衰减设为10-4,用Adam优化器训练D1和D2,初始学习率为10-4,且在训练期间保持不变,训练时使用512×1024大小的图片,将预测图上采样2倍,进行分割结果评估;
步骤五:实验采用检测评价函数:
Figure FDA0003518898620000051
对每个类别进行语义分割性能评估,其中TP、FP和FN分别为真正、假正和假负像素的个数,k为类别数。
CN202210172502.7A 2022-02-24 2022-02-24 基于双重类别级对抗网络的图像语义分割方法 Pending CN114612658A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210172502.7A CN114612658A (zh) 2022-02-24 2022-02-24 基于双重类别级对抗网络的图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210172502.7A CN114612658A (zh) 2022-02-24 2022-02-24 基于双重类别级对抗网络的图像语义分割方法

Publications (1)

Publication Number Publication Date
CN114612658A true CN114612658A (zh) 2022-06-10

Family

ID=81858883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210172502.7A Pending CN114612658A (zh) 2022-02-24 2022-02-24 基于双重类别级对抗网络的图像语义分割方法

Country Status (1)

Country Link
CN (1) CN114612658A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115222940A (zh) * 2022-07-07 2022-10-21 北京邮电大学 一种语义分割方法和系统
CN115249306A (zh) * 2022-09-13 2022-10-28 腾讯科技(深圳)有限公司 图像分割模型训练方法、图像处理方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190707A (zh) * 2018-09-12 2019-01-11 深圳市唯特视科技有限公司 一种基于对抗学习的域自适应图像语义分割方法
CN111832570A (zh) * 2020-07-02 2020-10-27 北京工业大学 一种图像语义分割模型训练方法及系统
AU2020103905A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning
US20210150281A1 (en) * 2019-11-14 2021-05-20 Nec Laboratories America, Inc. Domain adaptation for semantic segmentation via exploiting weak labels
CN113221903A (zh) * 2021-05-11 2021-08-06 中国科学院自动化研究所 跨域自适应语义分割方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190707A (zh) * 2018-09-12 2019-01-11 深圳市唯特视科技有限公司 一种基于对抗学习的域自适应图像语义分割方法
US20210150281A1 (en) * 2019-11-14 2021-05-20 Nec Laboratories America, Inc. Domain adaptation for semantic segmentation via exploiting weak labels
CN111832570A (zh) * 2020-07-02 2020-10-27 北京工业大学 一种图像语义分割模型训练方法及系统
AU2020103905A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Unsupervised cross-domain self-adaptive medical image segmentation method based on deep adversarial learning
CN113221903A (zh) * 2021-05-11 2021-08-06 中国科学院自动化研究所 跨域自适应语义分割方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LUO YAWEI, ETAL.: ""Taking a closer look at domain shift: Category-level adversaries for semantics consistent domain adaptation"", 《PROCEEDINGS OF THE IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, 20 June 2019 (2019-06-20), pages 2507 - 2516 *
张桂梅;潘国峰;刘建新;: "域自适应城市场景语义分割", 中国图象图形学报, no. 05, 16 May 2020 (2020-05-16), pages 913 - 925 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115222940A (zh) * 2022-07-07 2022-10-21 北京邮电大学 一种语义分割方法和系统
CN115222940B (zh) * 2022-07-07 2023-06-09 北京邮电大学 一种语义分割方法、系统、设备和存储介质
CN115249306A (zh) * 2022-09-13 2022-10-28 腾讯科技(深圳)有限公司 图像分割模型训练方法、图像处理方法、装置及存储介质
CN115249306B (zh) * 2022-09-13 2022-12-02 腾讯科技(深圳)有限公司 图像分割模型训练方法、图像处理方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN108399362B (zh) 一种快速行人检测方法及装置
CN108830285B (zh) 一种基于Faster-RCNN的加强学习的目标检测方法
CN112036447B (zh) 零样本目标检测系统及可学习语义和固定语义融合方法
CN111368769B (zh) 基于改进锚点框生成模型的船舶多目标检测方法
CN113486764B (zh) 一种基于改进的YOLOv3的坑洼检测方法
CN109635634B (zh) 一种基于随机线性插值的行人再识别数据增强方法
CN114612658A (zh) 基于双重类别级对抗网络的图像语义分割方法
CN111126278B (zh) 针对少类别场景的目标检测模型优化与加速的方法
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN112528862B (zh) 基于改进的交叉熵损失函数的遥感图像目标检测方法
CN111652864A (zh) 一种基于条件式生成对抗网络的铸件缺陷图像生成方法
CN108846416A (zh) 显著图像的提取处理方法及系统
CN108133235A (zh) 一种基于神经网络多尺度特征图的行人检测方法
CN110084284A (zh) 基于区域卷积神经网络的目标检测与二级分类算法及装置
CN113971764A (zh) 一种基于改进YOLOv3的遥感图像小目标检测方法
CN113205103A (zh) 一种轻量级的文身检测方法
CN110826411A (zh) 一种基于无人机图像的车辆目标快速识别方法
CN113554653A (zh) 基于互信息校准点云数据长尾分布的语义分割方法
CN114119966A (zh) 基于多视角学习与元学习的小样本目标检测方法
CN117372898A (zh) 一种基于改进yolov8的无人机航拍图像目标检测方法
CN112084897A (zh) 一种gs-ssd的交通大场景车辆目标快速检测方法
CN114821341A (zh) 基于fpn与pan网络的双重注意力的遥感小目标检测方法
CN114187506B (zh) 视点意识的动态路由胶囊网络的遥感图像场景分类方法
CN111507416A (zh) 一种基于深度学习的吸烟行为实时检测方法
CN117314837A (zh) 一种基于改进detr铸件表面缺陷检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination