CN115565019A - 基于深度自监督生成对抗的单通道高分辨sar图像地物分类方法 - Google Patents
基于深度自监督生成对抗的单通道高分辨sar图像地物分类方法 Download PDFInfo
- Publication number
- CN115565019A CN115565019A CN202211380456.6A CN202211380456A CN115565019A CN 115565019 A CN115565019 A CN 115565019A CN 202211380456 A CN202211380456 A CN 202211380456A CN 115565019 A CN115565019 A CN 115565019A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- classification
- loss
- source domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
一种基于深度自监督生成对抗的单通道高分辨SAR图像地物分类方法,上游自监督任务采用循环生成对抗网络进行多域图像风格转换任务,将不同属性的源域真实图像风格转换为目标属性的目标域生成图像;并使用对抗网络判别图像来自于源域还是目标域,同时提取图像的属性特征进行分类并对齐特征分布;在下游地物分类任务中,迁移上游训练良好的特征编码器作为预训练模型,使用少量有标记样本对分类模型进行微调;本发明通过上游自监督任务为下游地物分类任务提供训练良好且通用性好的特征编码器,缓解有监督训练样本缺乏、特征泛化性不足的缺陷,提升模型的分类性能。
Description
技术领域
本发明属于SAR图像智能解译技术领域,具体涉及一种基于深度自监督生成对抗的单通道高分辨SAR图像地物分类方法。
背景技术
合成孔径雷达(SAR)是一种全天候、全天时、具备一定穿透性的主动微波成像雷达,凭借这些特点,SAR图像应用范围覆盖从海洋学到考古学的各个领域。SAR图像地物分类是合成孔径雷达解译的基础性步骤,在环境保护、资源监测等众多应用场景具有重要作用。
有效和关键的特征学习是决定地物分类性能的关键,传统的特征提取技术包括灰度共生矩阵、Gabor变换、稀疏表示等。基于深度学习的特征提取技术使用大量训练样本,以端到端的方式训练网络,自动地进行特征学习。目前,基于深度学习的特征提取技术在SAR图像地物分类领域已经取得一定的成果,但现有依赖有监督标记的深度学习方法成本很高,面临着建模步骤繁琐、标记数据稀缺、图像标记难度大、不同成像参数下特征差异造成的通用性不足等问题。
现有方法通常采用自监督学习来缓解上述问题。自监督学习一般由上游的辅助任务和下游的目标任务组成,上游通过设计辅助任务,自动挖掘无标签数据自身的表征特征作为监督信息,训练模型以提高特征学习能力;下游任务通过迁移上游任务的特征编码器,在少量样本下训练目标任务模型,获得较好的分类性能。自监督学习根据上游任务可分为生成式自监督学习和判别式自监督学习。生成对抗网络(GAN)是生成式自监督学习的一类主流方法,它要求生成或重建输入图像的全部或者一部分,在此过程中模型能够学习图像语义特征,并包含部分像素级细节信息。基于重建输入图像全部或者一部分的生成式自监督学习受限于模型和计算量,其提取特征的通用性仍然不足。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供了一种基于深度自监督生成对抗的单通道高分辨SAR图像地物分类方法,采用多域图像风格转换任务作为上游辅助任务,来学习图像的特征表示;使用单一模型来实现多个场景、成像参数迥异的SAR图像之间的风格转换,极大简化了建模步骤,提升了模型对不同表现形式地物的特征学习,减少了下游地物分类任务对标记数据的需求。
为实现上述目的,本发明采取的技术方案为:
一种基于深度自监督生成对抗的单通道高分辨SAR图像地物分类方法,包括以下步骤:
步骤1,输入高分辨率SAR图像,对于输入SAR图像的每类场景和类别随机裁剪相同数量的图像块组成上游图像风格转换任务和下游地物分类任务训练数据;
步骤2,对上游风格转换任务训练数据进行数据预处理,包括SAR图像裁剪、归一化和伪标签的生成;
步骤3,将源域真实图像输入上游图像风格转换任务的编码器网络E,提取图像特征;同时将目标标签送入映射网络M生成目标域风格代码;最后将图像特征和目标域风格代码送入生成器网络G,获得目标域生成图像;
步骤4,将源域真实图像和目标域生成图像送入鉴别器网络D进行训练,并更新鉴别器网络参数;
步骤5,再次输入源域真实图像和目标标签,生成目标域生成图像,然后将目标域生成图像和源域标签输入编码器网络、映射网络和生成器网络,获得源域重构图像;
步骤6,使用源域重构图像与源域真实图像计算重构损失,同时将源域真实图像和目标域生成图像送入鉴别器网络D进行训练,然后计算对抗损失、分类损失、分布特征相似性损失和图像特征相似性损失,并更新编码器网络、映射网络和生成器网络参数;
步骤7,重复步骤3-步骤6直至达到最大训练次数;
步骤8,评估上游图像风格转换任务的性能;
步骤9,将评估后的上游图像风格转换任务的编码器网络E作为特征提取预训练模型迁移到下游地物分类网络,并进行微调分类网络;
步骤10,利用下游训练好的语义分割模型实现高分辨率SAR图像分类,得到预测结果图,计算分类指标。
本发明与现有SAR图像地物分类的技术相比具有以下优点:
作为一种基于自监督的深度学习方法,该技术能够在有监督数据样本不足的情况下,充分利用大量的无监督数据样本,缓解有监督方法在少样本情况下模型过拟合和精度低的问题;同时,作为一种多域图像风格转换任务,上游任务通过图像编码和风格化的方式生成对抗地学习不同成像参数和地区下不同地物类别特征的差异性,提升模型特征提取能力和泛化性。在上游任务中,图像的域风格信息由生成器控制生成,而与域风格无关的内容信息特征由特征编码器提取,因此,迁移到下游的特征编码器能够避免不同域的图像风格属性差异对模型分类性能的影响。这种多域图像风格转换的形式,使用目标标签来控制图像风格转换的目标域,使得单一模型就可以实现多个域的图像风格转换任务,大大提升了模型的建模效率。最后,作为一种生成式模型,该模型能够有效地生成目标属性的SAR图像,便于扩充某些样本稀少的数据集。本发明采用的是典型的生成器-判别器的对抗网络结构,其中生成器部分主要采用残差网络连接,能够有效扩充网络深度,增强网络的拟合能力;而对抗结构促使生成细节更丰富、逼真的图像,提升网络的特征提取能力;该方法也适用于图像的检测和识别任务。
附图说明
图1是本发明的流程图。
图2是上游图像风格转换任务Napoli地区的SAR图像。
图3是上游图像风格转换任务PoDelta地区的SAR图像。
图4是上游图像风格转换任务Rosenheim地区的SAR图像。
图5是上游图像风格转换任务JiuJiang地区的SAR图像。
图6是上游图像风格转换任务在四种类别地物上风格转换到不同地区下的图像,其中(a)、(b)、(c)和(d)分别表示水域、森林、建筑和农田四类地物类别转换到其它域后的生成图像;每个小图中的图像从左到右分别为源域真实图像、Napoli、PoDelta、Rosenheim和JiuJiang风格的目标域生成图像。
图7是下游地物分类任务中JiuJiang地区的标签图。
图8是下游地物分类任务中JiuJiang地区使用上游预训练模型的预测图。
图9是下游地物分类任务中JiuJiang地区不使用上游预训练模型的预测图。
具体实施方式
下面结合附图和实施例对本发明做详细描述。
参照图1,一种基于深度自监督生成对抗的单通道高分辨SAR图像地物分类方法,包括以下步骤:
步骤1,输入高分辨率SAR图像,对于输入SAR图像的每类场景和类别随机裁剪相同数量的图像块组成上游图像风格转换任务和下游地物分类任务训练数据;
本实施例输入Napoli、PoDelta、Rosenheim和JiuJiang四张不同地区、不同成像参数和不同传感器的高分辨率单通道SAR图像,并从水域、森林、建筑和农田四类中每类随机裁剪出400个样本,每个样本是200×200大小的图像块,组成上游图像风格转换任务训练数据集;从上游图像风格转换任务训练数据集中各类别地物随机挑选32个样本,组成下游地物分类任务训练数据集;
步骤2,对上游风格转换任务训练数据进行数据预处理,包括SAR图像裁剪、归一化和伪标签的生成;
本实施例对训练数据集的每个样本采用中心裁剪的方式,获得128*128大小的图像块;每个样本通过除以255将图像的动态范围压缩到0到1之间,同时再减去整个数据集图像的均值,除以整个数据集图像的标准差进行归一化处理;对于每一个样本,根据其图像块的类别、地区、分辨率、极化方式、卫星类别和波段,对每个样本打上属性标签,作为上游图像风格转换任务的伪标签;
步骤3,将源域真实图像输入上游图像风格转换任务的编码器网络E,提取图像特征;同时将目标标签送入映射网络M生成目标域风格代码;最后将图像特征和目标域风格代码送入生成器网络G,获得目标域生成图像;
本实施例上游图像风格转换任务中的编码器网络E由1个卷积层、4个带平均池化的下采样残差块和2个无平均池化的残差块组成;每个残差块包含两个卷积层、实例归一化层(IN)和LeakyReLU激活函数;编码器网络输入源域真实图像s,输出512*8*8大小的图像特征E(s);映射网络是一个8层的MLP网络,输入源域真实图像将要风格转换到的目标标签lt,输出64维的目标域风格代码M(lt);生成器网络G由1个卷积层、4个带自适应实例归一化(AdaIN)和上采样的残差块和2个无上采样的自适应实例归一化残差块组成,输入源域真实图像特征E(s),通过目标域风格代码M(lt)控制生成器网络中的自适应实例归一化输出指定风格的目标域生成图像s'=G(E(s),M(lt));
步骤4,将源域真实图像和目标域生成图像送入鉴别器网络D进行训练,并更新鉴别器网络参数;
本实施例鉴别器网络D由1个卷积层和5个带下采样无归一化的残差块组成,并连接3个卷积层作为3个输出分支;其中第一个分支采用PatchGANs的方法,输出一个特征块来鉴别输入的图像来自源域还是目标域;第二个分支输出图像各种属性各类的类别分数,通过对多域图像的各种属性进行分类,为生成器的优化提供更多的信息,有利于提高目标域生成图像的效果,也使得单个鉴别器能够更加灵活的控制不同的图像域;第三个分支输出图像的分布特征,便于模型能够在深层语义特征上对齐分布;考虑到GAN与传统的神经网络按照最小化目标函数的方向进行优化不同,GAN通过交替且朝着相反方向优化生成器和判别器,并形成对抗,在训练的效率和稳定性上都不好控制;为了稳定训练过程并生成更高质量的图像,本实施例中替换了传统GAN的目标函数,采用带有梯度惩罚的Wasserstein GAN的目标函数;因此鉴别器网络的损失函数由以下部分组成:
(1)源域真实图像和目标域生成图像的对抗损失:
其中s表示源域真实图像,lt表示目标标签,E、G和M分别代表编码器网络、生成器网络和映射网络,Dsrc表示鉴别器网络的对抗分支,EX表示数学期望;
对于鉴别器网络D来说,需要尽可能的区分源域真实图像和目标域生成图像,即最大化上述损失;而生成器网络G则需要尽可能的让鉴别器网络无法区分目标域生成图像,即最小化上述损失;
(2)源域真实图像的分类损失:
其中,n表示图像的属性类别个数,li表示图像第i个属性的类别,s表示源域真实图像,Dcls表示鉴别器网络的分类分支,EX表示数学期望;
(3)梯度惩罚:
(4)鉴别器网络D的目标函数LD表示如下:
其中Ladv、Lr cls和Lgp分别为对抗损失、源域真实图像分类损失和梯度惩罚,λcls和λgp分别表示源域真实图像分类损失项和梯度惩罚项的权重系数;
最终优化目标为最小化上述目标函数,并更新鉴别器网络D参数;
步骤5,再次输入源域真实图像和目标标签,生成目标域生成图像,然后将目标域生成图像和源域标签输入编码器网络、映射网络和生成器网络,获得源域重构图像;
由于上游使用的图像样本是非成对的,同时图像风格转换任务要求模型仅转化输入样本的风格相关信息,而保留输入样本内容特征信息,因此采用类似CycleGAN的方法,将源域真实图像生成的目标域生成图像s'再次通过编码器网络E获得目标域生成图像特征E(s'),同时使用源域标签ls生成风格代码M(ls),将目标域生成图像特征E(s')和风格代码M(ls)输入生成器网络G,得到源域重构图像G(E(s'),M(ls));
步骤6,使用源域重构图像与源域真实图像计算重构损失,同时将源域真实图像和目标域生成图像送入鉴别器网络D进行训练,然后计算对抗损失、分类损失、分布特征相似性损失和图像特征相似性损失,并更新编码器网络、映射网络和生成器网络参数;
相比鉴别器网络D,生成器网络G需要保证目标域生成图像的内容和源域真实图像的内容相似,保证多域图像之间的一一对应关系,因此生成器网络G的目标函数增加了图像重构损失和图像特征相似性损失;重构损失由步骤5中的源域重构图像与源域真实图像计算得到;同时将步骤5中的源域真实图像和目标域生成图像送入鉴别器网络D中进行训练,然后计算对抗损失、分类损失、分布特征相似性损失和图像特征相似性损失,并更新编码器网络、映射网络和生成器网络参数;其中编码器网络E、映射网络M和生成器网络G的目标函数的表达式如下:
(1)图像重构损失:
s′=G(E(s),M(lt))
其中s表示源域真实图像,s'表示目标域生成图像,G(E(s'),M(ls))表示由目标域生成图像生成得到的源域重构图像,lt为目标标签,ls为源域标签,G、E和M分别表示生成器网络、编码器网络和映射网络,EX表示数学期望,||*||1表示1范数;
(2)图像特征相似性损失Lsim表示如下:
其中,MSE(*)表示最小均方误差,lt表示目标标签,G、E和M分别表示生成器网络、编码器网络和映射网络,EX表示数学期望;
(3)源域真实图像和目标域生成图像的分布特征相似性损失:
Ldis=EXs,s′[kl(Ddis(s),Ddis(s′))]
其中,s表示源域真实图像,s'表示源域真实图像生成的目标域生成图像,kl(*)表示使用kl散度来衡量两个分布之间的相似性,Ddis为鉴别器网络的分布特征分支,EX表示数学期望;
(4)目标域生成图像的分类损失:
其中,s′表示目标域生成图像,Dcls表示鉴别器网络的分类分支,li表示图像第i个属性的类别,n表示图像的属性类别数,EX表示数学期望;
(5)编码器网络E、映射网络M和生成器网络G的目标函数:
其中Ladv、Ldis、Lrec和Lsim分别表示对抗损失、目标域生成图像的分类损失、分布特征相似性损失、重构损失和特征相似性损失;λcls、λdis、λrec和λsim分别表示目标域生成图像分类损失项、分布特征相似性损失项、重构损失项和特征相似性损失项的权重系数;
最终优化目标为最小化上述目标函数,并更新编码器网络E、映射网络M和生成器网络G的网络参数;实验中,取λcls=1,λdis=10,λrec=50,λsim=50,λgp=10,所有网络的学习率为0.001,β1为0.5,β2为0.999的Adam优化器;
步骤7,重复步骤3-步骤6直至达到最大训练次数;
在设定的最大训练次数范围内,观测训练情况,直至满足要求;本实施例中设置的最大训练次数为100000次;
步骤8,评估上游图像风格转换任务的性能;
在上游图像风格转换任务中,采用以下几种指标来衡量目标域生成图像的质量:
(1)均值μx表示如下:
其中H,W分别表示图像的高和宽,Ii,j表示图像在(i,j)点处图像的灰度值;
图像的均值用于描述图像整体的平均亮度,不同地区、成像参数下,目标的后向散射强度有所差异,造成图像的均值的差异;
(2)方差σ2 x表示如下:
其中H,W分别表示图像的高和宽,Ii,j表示图像在(i,j)点处图像的灰度值,μx表示为图像x的均值;图像的方差描述了图像像素值相对于均值的偏离程度,和风格转换图像的不均匀性,能够有效的表现图像的细节;
(3)动态范围DR表示如下:
其中Imax和Imin分别表示图像中的最大和最小灰度值;动态范围描述图像所有像素值中的最大值与最小值差异程度;对于地物要素表现丰富的图像,例如树木、建筑类别,其动态范围大;对于地物要素表现单一的图像,例如水域、农田,其动态范围较小;
(4)等效系数ENL表示如下:
其中μx为图像x的均值,σ2 x为图像x的方差;等效系数可以用来反映图像中斑点噪声的强弱程度,体现了图像里噪声强弱的对比;当等效系数比较大时,意味着其乘性噪声弱;
(5)亮度相似度l(x,y)和对比度相似度c(x,y)表示如下:
其中,x,y分别表示输入的图像,μx,μy分别表示图像x和y的均值,和分别表示图像x和y的方差;C1=(k1L)2和C2=(k2L)2是两个用于稳定计算的因子,这里L=255,k1=0.01,k2=0.03;
(6)1-NN分类器准确率:
基本想法是,计算真实数据和生成数据分布是否相等,若相等则证明生成模型是有效的,若差距比较大则说明模型是比较差的;具体地说,将源域真实图像和目标域生成图像以及它们对应的伪标签组合成新的样本集合,使用留一交叉验证的方法,将整个样本分成两份D1和D2,其中D2只有1个样本,D1有剩下所以的样本,使用D1训练1-NN二分类器,在D2中进行验证计算准确率;每次D2选择不同的样本,循环上述过程,最终计算总体的分类准确率,并将准确率作为1-NN分类器的评价指标;对于1-NN分类器,其准确率为0.5时,图像生成的效果最好;准确率为1时,说明模型只是一种简单的记忆,没有真正生成想要的图像;当准确率为0时,说明模型不能很好的完成图像生成任务;
步骤9,将评估后的上游图像风格转换任务的编码器网络E作为特征提取预训练模型迁移到下游地物分类网络,并进行微调分类网络;
根据步骤8中的指标,选择生成效果最好的模型的编码器网络E,作为下游分割网络的预训练特征提取模型;本实施例下游地物分类任务中,采用预训练编码器网络E后堆叠4层卷积层作为下游地物分类模型,进行SAR图像地物分类;并将步骤1中获得的下游地物分类任务训练数据进行归一化处理后,送入下游地物分类网络,用于微调分类网络;下游地物分类任务中采用200*200大小的图像块进行训练;下游地物分类任务实验设置训练轮数为500轮,学习率为0.001,β1为0.5,β2为0.999的Adam优化器;优化的目标为最小化模型输出的类别分数与真实类别做多分类交叉熵损失;
步骤10,利用下游训练好的语义分割模型实现高分辨率SAR图像分类,得到预测结果图,计算分类指标;
本实施例对测试的高分辨率SAR图像进行覆盖裁剪,得到200*200大小,四周重叠大小为86的图像块;重叠采样的目的是为了去除裁剪小图的预测边界对最终大图性能的影响;输入到训练后的地物分类模型获得预测结果,并拼接为完整大图。
本发明中计算指标Precision、Recall、F1ccore来评估单个类别的性能,计算指标OA、kappa、MIoU、FWIoU来评估整体的分类性能。
1、实验条件与方法:
硬件平台为:GTX 2080Ti 12G、256GB RAM;
软件平台为:Ubuntu18.04.6LTS、pytorch 1.7.1;
实验方法:分别为有监督CNN和本发明方法
2、仿真内容与结果:
图2-5分别是上游图像风格转换任务所使用的Napoli、PoDelta、Rosenheim和JiuJiang地区的SAR图像。图6是下游地物分类任务中各类别图像块风格转化到不同区域图像的结果图;图7是下游地物分类任务中JiuJiang地区的标签图;图8是下游地物分类任务中JiuJiang地区使用上游预训练模型的预测图;图9是下游地物分类任务中JiuJiang地区不使用上游预训练模型的预测图。
本发明仿真实验所使用的数据详细参数如下表1所示。
表1.本发明所使用数据的详细参数
地区 | 尺寸 | 分辨率 | 极化方式 | 卫星 | 波段 |
Napoli | 18332*16000 | 2.5m | HH | Cosmo-SkyMed | X波段 |
PoDelta | 18308*16716 | 2.5m | HH | Cosmo-SkyMed | X波段 |
Rosenheim | 7691*7224 | 1.75m | HH | TerraSAR-X | X波段 |
JiuJiang | 8000*8000 | 3m | DV | GF3 | C波段 |
随机裁剪表1中四个地区的水域、森林、建筑和农田四种类别的地物各400张,大小为200*200,组成上游图像风格转换任务数据集;下游地物分类任务选取选取JiuJiang地区的SAR图像进行仿真实验,将高分辨的SAR图像大图裁剪为若干张小的图像块,训练时使用无重叠的图像块,测试时使用带重叠部分的图像块。
各种评价指标的定义如下:
(1)查准率(Precision):每类正确预测为正占该类全部预测为正的比例,定义如下:
其中,pij表示真实类别为j类但预测为i类的样本数,C表示地物类别数;
(2)查全率(Recall):每类正确预测为正占该类全部正样本的比例,定义如下:
其中,pji表示真实类别为i类但预测为j类的样本数,C表示地物类别数;
(3)F1值:基于查全率和查准率的调和平均,定义如下:
其中P为查准率,R为查全率;
(4)总体精度(OA):标记正确的像素占总像素的比例,定义如下:
其中,pij表示真实类别为j类但预测为i类的样本数,C表示地物类别数;
(5)Kappa系数:惩罚模型的“偏向性”获得较为公正的模型,定义如下:
其中,OA表示总体精度,ai表示第i类真实样本个数,bi表示预测为第i类的样本个数,N为样本总数;
(6)平均交并比(MIoU):每一类预测结果和真实值的交集与并集比值的求和平均,定义如下:
其中,pij表示真实类别为j类但预测为i类的样本数,C表示地物类别数;
(7)频权交并比(FWIoU):为MIoU的改进,根据类别出现频率设置权重,定义如下:
其中,pij表示真实类别为j类但预测为i类的样本数,C表示地物类别数;
上游图像风格转换任务的仿真结果如图6所示,使用源域真实图像与目标域生成图像的均值、方差、动态范围、等效系数和1-NN准确率作为评价指标;其评价结果如表2所示,该表展示了Napoli地区四类地物的源域真实图像和目标域生成图像的评价指标,表中每类地物类别的第一行为源域真实图像的评价指标,第二行为目标域生成图像的评价指标。
表2.Napoli地区四类地物图像风格转换评价指标
下游图像分类任务的仿真结果如图8、9所示,其中Model_1为本发明的自监督方法,Model_2为有监督的方法,两种模型均使用128张场景级的SAR图像作为训练数据,相比像素级的训练数据,场景级的训练数据的标签信息量更少,以此来体现本发明在标签数据稀缺场景下的效果。
表3.JiuJiang地区图像地物分类仿真结果对照表
评价指标 | OA | Kappa | MIoU | FWIoU |
Model_1 | 0.7941 | 0.6981 | 0.5734 | 0.7242 |
Model_2 | 0.6782 | 0.5407 | 0.4351 | 0.6103 |
4、实验结果分析:
对于表2所示的上游图像风格转换任务来看,目标域生成图像与源域真实图像在图像均值、方差和等效系数比较接近,因此图像在图像空间中的风格相似度高。通过1-NN分类器的准确率可以看出,模型在建筑、农田整个类别的上的生成效果比较好。因此,上游图像风格转换任务的模型能够有效的学习到SAR图像中语义信息,并在不同的图像域之间进行转化。
对于表3中的指标来看,在下游地物分类任务中,使用上游特征提取预训练模型后,模型的总体精度OA、kappa系数、MIoU和FWIoU四个评价指标相比有监督的模型,均有超过10%的精度提升。对于JiuJiang地区来说,其水域的特征比较容易学习,在少量样本下,本发明方法与少样本的有监督方法都能很好地分类,但是JiuJiang地区建筑和森林类别错综复杂,对于少样本的有监督方法来说,其分类性能大大降低,而本发明方法在上游图像风格转换任务中学习了建筑和森林类别的特征表示,在下游地物分类任务中有一个良好的起点,在少样本下,相比有监督方法,有一个较大的分类性能提升,更直观的效果见图8、9。
综上所述本发明提出的基于深度自监督生成对抗的单通道高分辨SAR图像地物分类方法在样本标签稀少或不足的情况下,通过评估上游图像风格转换任务为下游地物分类任务提供良好的预训练模型,能够提升模型的特征提取能力,从而提高对SAR图像的分类性能。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现;当利用全部或部分地以计算机程序产品的形式实现,计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上所述,仅为本发明的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种基于深度自监督生成对抗的单通道高分辨SAR图像地物分类方法,其特征在于,包括以下步骤:
步骤1,输入高分辨率SAR图像,对于输入SAR图像的每类场景和类别随机裁剪相同数量的图像块组成上游图像风格转换任务和下游地物分类任务训练数据;
步骤2,对上游风格转换任务训练数据进行数据预处理,包括SAR图像裁剪、归一化和伪标签的生成;
步骤3,将源域真实图像输入上游图像风格转换任务的编码器网络E,提取图像特征;同时将目标标签送入映射网络M生成目标域风格代码;最后将图像特征和目标域风格代码送入生成器网络G,获得目标域生成图像;
步骤4,将源域真实图像和目标域生成图像送入鉴别器网络D进行训练,并更新鉴别器网络参数;
步骤5,再次输入源域真实图像和目标标签,生成目标域生成图像,然后将目标域生成图像和源域标签输入编码器、映射网络和生成器,获得源域重构图像;
步骤6,使用源域重构图像与源域真实图像计算重构损失,同时将源域真实图像和目标域生成图像送入鉴别器网络D进行训练,然后计算对抗损失、分类损失、分布特征相似性损失和图像特征相似性损失,并更新编码器网络、映射网络和生成器网络参数;
步骤7,重复步骤3-步骤6直至达到最大训练次数;
步骤8,评估上游图像风格转换任务的性能;
步骤9,将评估后的上游图像风格转换任务的编码器网络E作为特征提取预训练模型迁移到下游地物分类网络,并进行微调分类网络;
步骤10,利用下游训练好的语义分割模型实现高分辨率SAR图像分类,得到预测结果图,计算分类指标。
2.根据权利要求书1所述的方法,其特征在于,步骤1具体为:
输入不同地区、不同成像参数和不同传感器的高分辨率单通道SAR图像,并从水域、森林、建筑和农田四类中每类随机裁剪出400个样本,每个样本是200×200大小的图像块,组成上游图像风格转换任务训练数据集;从上游图像风格转换任务训练数据集中各类别地物随机挑选32个样本,组成下游地物分类任务训练数据集。
3.根据权利要求书1所述的方法,其特征在于,步骤2具体为:
对训练数据集的每张样本采用中心裁剪的方式,获得128*128大小的图像块;每张样本通过除以255将图像的动态范围压缩到0到1之间,同时再减去整个数据集图像的均值,除以整个数据集图像的标准差进行归一化处理;对于每一张样本,根据其图像块的类别、地区、分辨率、极化方式、卫星类别和波段,对每张样本打上属性标签,作为上游图像风格转换任务的伪标签。
4.根据权利要求书1所述的方法,其特征在于,步骤3具体为:
上游图像风格转换任务中的编码器网络E由1个卷积层、4个带平均池化的下采样残差块和2个无平均池化的残差块组成;每个残差块包含两个卷积层、实例归一化层(IN)和LeakyReLU激活函数;编码器网络输入源域真实图像s,输出512*8*8大小的图像特征E(s);映射网络是一个8层的MLP网络,输入源域真实图像将要风格转换到的目标标签lt,输出64维的目标域风格代码M(lt);生成器网络G由1个卷积层、4个带自适应实例归一化(AdaIN)和上采样的残差块和2个无上采样的自适应实例归一化残差块组成,输入源域真实图像特征E(s),通过目标域风格代码M(lt)控制生成器网络中的自适应实例归一化输出指定风格的目标域生成图像s'=G(E(s),M(lt))。
5.根据权利要求书1所述的方法,其特征在于,步骤4具体为:
鉴别器网络D由1个卷积层和5个带下采样无归一化的残差块组成,并连接3个卷积层作为3个输出分支;其中第一个分支采用PatchGANs的方法,输出一个特征块来鉴别输入的图像来自源域还是目标域;第二个分支输出图像各种属性各类的类别分数;第三个分支输出图像的分布特征;同时采用带有梯度惩罚的Wasserstein GAN的目标函数;鉴别器网络的损失函数由以下部分组成:
(1)源域真实图像和目标域生成图像的对抗损失:
其中s表示源域真实图像,lt表示目标标签,E、G和M分别代表编码器网络、生成器网络和映射网络,Dsrc表示鉴别器网络的对抗分支,EX表示数学期望;
对于鉴别器网络D来说,需要尽可能的区分源域真实图像和目标域生成图像,即最大化上述损失;而生成器网络G则需要尽可能的让鉴别器无法区分目标域生成图像,即最小化上述损失;
(2)源域真实图像的分类损失:
其中,n表示图像的属性类别个数,li表示图像第i个属性的类别,s表示源域真实图像,Dcls表示鉴别器网络的分类分支,EX表示数学期望;
(3)梯度惩罚:
(4)鉴别器网络D的目标函数LD表示如下:
其中Ladv、Lr cls和Lgp分别为对抗损失、源域真实图像分类损失和梯度惩罚,λcls和λgp分别表示源域真实图像分类损失项和梯度惩罚项的权重系数;
最终优化目标为最小化上述目标函数,并更新鉴别器网络D参数。
6.根据权利要求书1所述的方法,其特征在于,步骤5具体为:
将源域真实图像生成的目标域生成图像s'再次通过编码器网络E获得目标域生成图像特征E(s'),同时使用源域标签ls生成风格代码M(ls),将目标域生成图像特征E(s')和风格代码M(ls)输入生成器网络G,得到源域重构图像G(E(s'),M(ls))。
7.根据权利要求书1所述的方法,其特征在于,步骤6具体为:
由步骤5中的源域重构图像与源域真实图像计算得到重构损失;同时将步骤5中的源域真实图像和目标域生成图像送入鉴别器网络D中进行训练,然后计算对抗损失、分类损失、分布特征相似性损失和图像特征相似性损失,并更新编码器网络、映射网络和生成器网络参数;其中编码器网络E、映射网络M和生成器网络G的目标函数的表达式如下:
(1)图像重构损失:
s′=G(E(s),M(lt))
其中s表示源域真实图像,s'表示目标域生成图像,G(E(s'),M(ls))表示由目标域生成图像生成得到的源域重构图像,lt为目标标签,ls为源域标签,G、E和M分别表示生成器网络、编码器网络和映射网络,EX表示数学期望,||*||1表示1范数;
(2)图像特征相似性损失Lsim表示如下:
其中,MSE(*)表示最小均方误差,lt表示目标标签,G、E和M分别表示生成器网络、编码器网络和映射网络,EX表示数学期望;
(3)源域真实图像和目标域生成图像的分布特征相似性损失:
Ldis=EXs,s′[kl(Ddis(s),Ddis(s′))]
其中,s表示源域真实图像,s'表示源域真实图像生成的目标域生成图像,kl(*)表示使用kl散度来衡量两个分布之间的相似性,Ddis为鉴别器网络的分布特征分支,EX表示数学期望;
(4)目标域生成图像的分类损失:
其中,s′表示目标域生成图像,Dcls表示鉴别器网络的分类分支,li表示图像第i个属性的类别,n表示图像的属性类别数,EX表示数学期望;
(5)编码器网络E、映射网络M和生成器网络G的目标函数:
其中Ladv、Ldis、Lrec和Lsic分别表示对抗损失、目标域生成图像的分类损失、分布特征相似性损失、重构损失和特征相似性损失;λcls、λdis、λrec和λsim分别表示目标域生成图像分类损失项、分布特征相似性损失项、重构损失项和特征相似性损失项的权重系数;
最终优化目标为最小化上述目标函数,并更新编码器网络E、映射网络M和生成器网络G网络参数;取λcls=1,λdis=10,λrec=50,λsim=50,λgp=10,所有网络的学习率为0.001,β1为0.5,β2为0.999的Adam优化器。
8.根据权利要求书1所述的方法,其特征在于,步骤8具体为:
在上游图像风格转换任务中,采用以下几种指标来衡量目标域生成图像的质量:
(1)均值μx表示如下:
其中H,W分别表示图像的高和宽,Ii,j表示图像在(i,j)点处图像的灰度值;
(2)方差σ2 x表示如下:
其中H,W分别表示图像的高和宽,Ii,j表示图像在(i,j)点处图像的灰度值,μx表示为图像x的均值;
(3)动态范围DR表示如下:
其中Imax和Imin分别表示图像中的最大和最小灰度值;
(4)等效系数ENL表示如下:
其中μx为图像x的均值,σ2 x为图像x的方差;
(5)亮度相似度l(x,y)和对比度相似度c(x,y)表示如下:
9.根据权利要求书1所述的方法,其特征在于,步骤9具体为:
根据步骤8中的指标,选择生成效果最好的模型的编码器网络E,作为下游分割网络的预训练特征提取模型;下游地物分类任务中,采用预训练编码器网络E后堆叠4层卷积层作为下游地物分类模型,进行SAR图像地物分类;并将步骤1中获得的下游地物分类任务训练数据进行归一化处理后,送入下游地物分类网络,微调分类网络;下游地物分类任务中采用200*200大小的图像块进行训练;下游地物分类任务设置训练轮数为500轮,学习率为0.001,β1为0.5,β2为0.999的Adam优化器;优化的目标为最小化模型输出的类别分数与真实类别做多分类交叉熵损失。
10.一种计算机,其特征在于,用以实现权利要求1-9任一项所述的一种基于深度自监督生成对抗的单通道高分辨SAR图像地物分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211380456.6A CN115565019A (zh) | 2022-11-04 | 2022-11-04 | 基于深度自监督生成对抗的单通道高分辨sar图像地物分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211380456.6A CN115565019A (zh) | 2022-11-04 | 2022-11-04 | 基于深度自监督生成对抗的单通道高分辨sar图像地物分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115565019A true CN115565019A (zh) | 2023-01-03 |
Family
ID=84768934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211380456.6A Pending CN115565019A (zh) | 2022-11-04 | 2022-11-04 | 基于深度自监督生成对抗的单通道高分辨sar图像地物分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115565019A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612120A (zh) * | 2023-07-20 | 2023-08-18 | 山东高速工程检测有限公司 | 一种针对数据不平衡的两阶段式道路缺陷检测方法 |
CN117152622A (zh) * | 2023-10-30 | 2023-12-01 | 中国科学院空天信息创新研究院 | 边界优化模型训练、边界优化方法、装置、设备及介质 |
-
2022
- 2022-11-04 CN CN202211380456.6A patent/CN115565019A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612120A (zh) * | 2023-07-20 | 2023-08-18 | 山东高速工程检测有限公司 | 一种针对数据不平衡的两阶段式道路缺陷检测方法 |
CN116612120B (zh) * | 2023-07-20 | 2023-10-10 | 山东高速工程检测有限公司 | 一种针对数据不平衡的两阶段式道路缺陷检测方法 |
CN117152622A (zh) * | 2023-10-30 | 2023-12-01 | 中国科学院空天信息创新研究院 | 边界优化模型训练、边界优化方法、装置、设备及介质 |
CN117152622B (zh) * | 2023-10-30 | 2024-02-23 | 中国科学院空天信息创新研究院 | 边界优化模型训练、边界优化方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11402494B2 (en) | Method and apparatus for end-to-end SAR image recognition, and storage medium | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN109949255B (zh) | 图像重建方法及设备 | |
CN111583263B (zh) | 一种基于联合动态图卷积的点云分割方法 | |
CN111724478A (zh) | 一种基于深度学习的点云上采样方法 | |
CN115565019A (zh) | 基于深度自监督生成对抗的单通道高分辨sar图像地物分类方法 | |
CN107808138B (zh) | 一种基于FasterR-CNN的通信信号识别方法 | |
CN108052966A (zh) | 基于卷积神经网络的遥感图像场景自动提取和分类方法 | |
CN110555841B (zh) | 基于自注意图像融合和dec的sar图像变化检测方法 | |
CN108197669B (zh) | 卷积神经网络的特征训练方法及装置 | |
CN113033520A (zh) | 一种基于深度学习的树木线虫病害木识别方法及系统 | |
CN110633633B (zh) | 一种基于自适应阈值的遥感影像道路提取方法 | |
CN108805102A (zh) | 一种基于深度学习的视频字幕检测与识别方法及系统 | |
CN115049841A (zh) | 基于深度无监督多步对抗域自适应的高分辨sar图像地物要素提取方法 | |
CN114283285A (zh) | 交叉一致性自训练遥感图像语义分割网络训练方法及装置 | |
CN112950780A (zh) | 一种基于遥感影像的网络地图智能生成方法及系统 | |
CN112733693A (zh) | 一种全局感知高分辨率遥感影像多尺度残差道路提取方法 | |
Zhou et al. | MSAR‐DefogNet: Lightweight cloud removal network for high resolution remote sensing images based on multi scale convolution | |
Xiao et al. | Apple ripeness identification from digital images using transformers | |
CN111242028A (zh) | 基于U-Net的遥感图像地物分割方法 | |
CN112818818B (zh) | 一种基于affpn的新型超高清遥感图像变化检测方法 | |
CN109558803A (zh) | 基于卷积神经网络与np准则的sar目标鉴别方法 | |
Li et al. | A new algorithm of vehicle license plate location based on convolutional neural network | |
CN115147727A (zh) | 一种遥感影像不透水面提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |