CN111444955A - 一种基于类意识领域自适应的水下声纳图像无监督分类方法 - Google Patents

一种基于类意识领域自适应的水下声纳图像无监督分类方法 Download PDF

Info

Publication number
CN111444955A
CN111444955A CN202010216387.XA CN202010216387A CN111444955A CN 111444955 A CN111444955 A CN 111444955A CN 202010216387 A CN202010216387 A CN 202010216387A CN 111444955 A CN111444955 A CN 111444955A
Authority
CN
China
Prior art keywords
underwater sonar
domain
self
sonar image
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010216387.XA
Other languages
English (en)
Other versions
CN111444955B (zh
Inventor
王兴梅
孙博轩
王坤华
徐义超
孟稼祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010216387.XA priority Critical patent/CN111444955B/zh
Publication of CN111444955A publication Critical patent/CN111444955A/zh
Application granted granted Critical
Publication of CN111444955B publication Critical patent/CN111444955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于类意识领域自适应的水下声纳图像无监督分类方法,包括:(1)利用生成对抗网络构建生成数据集;(2)提出基于对抗自编码器的改进方法构建领域自适应的源域;(3)提出基于对抗学习方法构建领域自适应的目标域;(4)训练目标域,在均衡和非均衡两种原生数据集上完成水下声纳图像无监督分类。本发明提出使用CGAN和DCGAN两种GANs来生成图像以构建水下声纳图像生成数据集,并根据标签缺失的情况,将无监督领域自适应方法引入到水下声纳图像的无监督分类中。同时构建均衡和非均衡两种水下声纳图像原生数据集上以验证本发明所提方法的适应性。

Description

一种基于类意识领域自适应的水下声纳图像无监督分类方法
技术领域
本发明涉及一种水下声纳图像(underwater image)的无监督分类方法,尤其涉及一种基于类意识领域自适应的水下声纳图像无监督分类方法,属于水下声纳图像分类领域。
背景技术
自国家提出发展海洋强国战略以来,对海洋探索、资源利用和海洋科技装备等都提出了新的要求。如何更精准的发现海洋资源是海洋探索与利用的前提,而其中由于海洋资源主要以天然气、海洋生物和船只遗骸等为主,相关的水下检测和识别技术就成为了海洋探索与利用的关键技术。掌握和创新水下资源分类技术是检测和识别的前提,因此,水下目标分类是重中之重。水下声纳图像是水下目标信息的主要形式之一,也是技术发展相对完善的水下目标分类数据之一。其由三部分组成,分别是目标、目标产生的阴影区域和背景区域。阴影是由声纳设备探测到其他物体所产生的回波所造成的,在一定程度上会粘连、遮挡目标,极大影响了目标的完整性和清晰度。背景区域是海洋自有的,不同于陆上光学,所产生的带有众多噪音、斑点的区域,在图像上更表现为噪音众多、纹理弱化、边缘模糊等特点,极大影响了水下声纳图像的清晰度和分类精度。
水下声纳图像较光学图像在质量上较差,因此水下声纳图像的分类不同于光学图像分类。水下声纳图像的特征因阴影区和海底背景的影响而难以提取,换而言之,常用的光学图像特征提取方法在水下声纳图像特征提取中效果并不好。最后的分类精度也因相关特征质量的降低而降低。另一方面,由于不同声纳设备所形成的水下声纳图像类型不同,相应的不同成像环境和不同成像设备都形成了不同的图像,加之水下声纳图像本身具有的复杂性,学界因此提出了针对不同类型声纳图像的不同特征提取方法。这也极大影响了水下声纳图像的分类研究。
无监督学习情况下的水下声纳图像分类成果极少,国内外学者主要对水下声纳图像有监督分类进行了深入研究,并取得了重要的成果。其中在已有的文献中最著名和效果最好的分类方法主要包括:1.基于灰度共生矩阵的水下声纳图像分类方法:赵永祯,唐劲松,钟何平.基于声纳图像纹理特征的海底底质分类方法研究.海洋测绘.2015,35(3):60-63.通过分析声纳图像纹理特征的差异,提取了声纳图像的灰度共生矩阵,并作为主要特征进行训练,提出自组织迭代(ISODATA)分类算法进行分类;2.基于极限学习机的水下声纳图像分类方法:Sha Qixin,Song Yan,Guo Jia,Feng Chen,Li Guangliang.Classificationand mosaicking of side scan sonar image.OCEANS.IEEE,2017:1-4.使用基于核方法的极限学习机对侧扫声纳图像进行分类,利用极限学习机的快速和较好的分类、回归性能,结合核方法消除其随机性,实验数据采用拼接方式,结果表明所提出的分类方法效果良好;3.基于神经网络的水下声纳图像分类方法:Anitha U,Malarkkan S.Underwater objectidentification and recognition with sonar images using soft computingtechniques.Indian Journal of Geo-Marine Sciences,2018(47):665-673.提出基于神经网络的变化检测及神经模糊推理系统(ANFIS)用于声纳图像分类,较前馈网络方法和模式识别网络监测方法的准确率较高,同时有效应对了声纳图像的复杂性;4.基于自适应深度卷积神经网络的水下声纳图像分类方法:Wang Xingmei,Jiao Jia,Yin Jingwei,ZhaoWensheng,Han Xiao,Sun Boxuan.Underwater sonar image classification usingadaptive weights convolutional neural network.Applied Acoustics,2019,146:145-154.通过结合深度学习,利用深度卷积神经网络提取水下声纳图像特征,并且提出自适应权重加快收敛和提高识别精度,取得了良好的分类精度。可见,随着深度学习的特征能力不断为学界所认可,水下声纳图像的分类研究也不断转向深度学习。就无监督深度学习而言,迁移学习和深度聚类方法是现有比较显著的成果,主要包括:1.基于微调的深度迁移学习方法:Yosinski Jason,Clune Jeff,Bengio Yoshua,Lipson Hod.How transferable arefeatures in deep neural networks?.Advances in neural information processingsystems.2014:3320-3328.提出深度学习模型提取的特征是具有层次的,通过微调分类部分可以保留其特征提取的能力有助于同种类型图像的分类任务;2.基于深度聚类网络(DeepCluster)的聚类方法:Caron Mathilde,Bojanowski Piotr,Joulin Armand,DouzeMatthijs.Deep clustering for unsupervised learning of visualfeatures.Proceedings of the European Conference on Computer Vision.2018:132-149.提出基于深度卷积神经网络,并且通过与K均值聚类方法结合,利用伪标签技术从而实现的无监督聚类。
无监督领域自适应是迁移学习的子领域,目的在于通过对其他丰富信息的数据集进行学习以直接利用在相似数据集上,契合了水下声纳图像无监督分类的情况。国内外学者对无监督领域自适应进行了深入研究,并取得了重要的成果。其中在已有的文献中最著名和效果最好的分类方法主要包括:1.基于深度自适应网络的领域自适应方法:LongMingsheng,Cao Yue,Wang Jianming,Michael I Jordan.Learning TransferableFeatures with Deep Adaptation Networks.International Conference on MachineLearning.2015:97-1052.在原有的深度域混淆网络基础上自适应层进一步分解,增加为三层自适应层,并配合三个多核MMD距离来衡量特征层之间的距离,证明了深度网络的良好可迁移特征;2.基于LSCDA网络的领域自适应方法:Hou Chengan,Tsai Yao-Huang Hubert,Yeh Yiren,Frank Wang Yuchiang.Unsupervised domain adaptation with label andstructural consistency.IEEE Transactions on Image Processing,2016,25(12):5552-5562.提出利用标签和结构连贯性对域间分布进行缩减,将标签信息从源域中提出,结合目标域的结构信息进行无监督领域自适应;3.基于联合几何和统计信息对齐网络的领域自适应方法:Zhang Jing,Li Wanqing,Ogunbona Philip.Joint geometrical andstatistical alignment for visual domain adaptation.Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2017:1859-1867.提出利用联合几何和统计信息对域进行对齐,将几何差异和分布差异同时减小,最后以投影子空间的方法完成目标函数的闭包形式。4.基于循环生成对抗网络的领域自适应方法:HoffmanJudy,Tzeng Eric,Park Taesung,Zhu Junyan,Isola Phillip,Saenk Kate,EfrosAlexei,Darrell Trevor.CyCADA:Cycle-Consistent Adversarial DomainAdaptation.Proceedings of the 35th International Conference on MachineLearning,2018(80):1989-1998.同时对边缘分布和条件分布进行了趋近,保留了高级语义信息和结构信息,取得了良好的效果;5.基于CADA网络的领域自适应方法:Kurmi VinodKurmi,Kumar Shanu,Namboodiri Vinay P Namboodiri.Attending to DiscriminativeCertainty for Domain Adaptation.Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2019:491-500.提取区域自适应并利用贝叶斯框架,加以注意力机制提取鲁棒性特征。6.基于图卷积对抗网络的领域自适应方法:MaXinhong,Zhang Tianzhu,Xu Changsheng.GCAN:Graph Convolutional AdversarialNetwork for Unsupervised Domain Adaptation.Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition.2019:8266-8276.提出图卷积对抗网络,利用结构化信息进行域对齐,提出类中心损失增大类间差距。
发明内容
本发明的目的在于提供一种基于类意识领域自适应的具有较好精度的水下声纳图像无监督分类方法。
本发明的目的是这样实现的:步骤如下:
步骤(1)利用CGAN和DCGAN生成水下声纳图像以构建生成数据集,并构建均衡和非均衡两种水下声纳图像原生数据集;
步骤(2)基于AAE的改进方法构建领域自适应的源域:
①提取特征并进行语义分割;
②在水下声纳图像生成数据集上利用伪标签技术训练源域模型;
③将伪标签转为热编码格式后输入改进的AAE模型以提取源域特征;
步骤(3)基于对抗学习的方法构建领域自适应的目标域:使用源域模型参数初始化目标域模型,提取目标域特征,利用对抗学习对齐隐藏空间;
步骤(4)训练目标域,在均衡和非均衡数据集上实现水下声纳图像分类。
本发明还包括这样一些结构特征:
1.在步骤(1)中在每类图像中预选出原生照片带有人为标签,随后利用CGAN和DCGAN生成水下声纳图像并将标签数据写入生成数据集中。
2.所述步骤(1)中利用CGAN和DCGAN生成水下声纳图像以构建源域的水下声纳图像生成数据集,并且构建水下声纳图像原生均衡和非均衡数据集。
3.在步骤(2)中提取特征并进行语义分割。
4.所述步骤(2)中设置阈值,利用伪标签技术生成部分样本的标签,并采用以下策略进行伪标签:
Figure BDA0002424597410000041
其中x为输入,f(·)表示源域的分类函数,T为实验所设阈值;所得伪标签用于源域的半监督训练,从而提取源域数据集的特征。
5.所述步骤(2)中将所得的标签转为热编码格式再嵌入到改进的AAE生成器中,完成源域的训练。
6.在步骤(3)中使用源域的已训练模型参数初始化目标域的参数,并利用判别器来对齐隐藏空间。
7.在步骤(4)中,根据AAE的半监督训练方式训练目标域,使得目标域模型具有类意识,并采用Softmax回归算法作为损失函数
Figure BDA0002424597410000042
1{·}表示的是标示函数,y为数据标签,ω为权重,m为样本数量,当y(i)=d为真时,返回1,否则返回0;并在非均衡和均衡数据集上实现水下声纳图像无监督分类。
与现有技术相比,本发明的有益效果是:a.水下声纳图像数据量少且类别不均衡,同时标签信息缺失情况严重,无法应用于有监督学习,本发明提出使用CGAN和DCGAN两种GANs来生成图像以构建水下声纳图像生成数据集,并根据标签缺失的情况,将无监督领域自适应方法引入到水下声纳图像的无监督分类中。同时构建均衡和非均衡两种水下声纳图像原生数据集上以验证本发明所提方法的适应性。b.在标签信息丢失的情况下,为了提高无监督分类的精度,本发明提出使用伪标签方法对水下声纳图像生成数据集进行部分有监督学习,增强对水下声纳图像的特征提取能力。同时,水下声纳图像的分类重点在于图像特征的提取,因此本发明利用基于卷积的改进AAE源域训练模型对水下声纳图像进行特征提取,利用其强大的特征提取能力提取出有效的图像特征。另一方面,无监督分类容易产生类混淆,相似的图像类别会被错分,因此本发明提出基于AAE的改进方法即基于类意识的方法,将标签信息转为热编码信息嵌入至解码器中,再经反向传播至分类器,使得目标域具有类意识,达到增加类间距离的目标,从而提升无监督分类的精度。c.无监督领域自适应中,源域和目标域的空间对齐是能否成功迁移的关键,因此,本发明提出在利用源域初始化目标域模型参数的基础上,使用对抗学习的方法将两者的特征空间对齐,降低域间差异,提高迁移能力和效果。d.模型训练的好坏与最终分类精度有直接关系,多种组件的配合训练顺序等对最终的结果影响很大,因此本发明提出使用AAE的半监督学习训练方式,以分类损失为主,重构损失和对齐空间的对抗损失为辅,经过交替训练从而完成目标域模型的无监督分类,最后在均衡和非均衡两种水下声纳图像原生数据集上验证。
附图说明
图1是本发明方法的流程图;
图2是DCGAN的生成器结构图;
图3(a)是水下声纳原生图像,图3(b)是DCGAN生成的图像,图3(c)是CGAN生成的图像;
图4(a)是CGAN的生成器结构图;图4(b)是CGAN的判别器结构图;
图5是AAE网络结构图;
图6是本发明的网络结构图;
图7(a)是水下声纳图像原生均衡数据集上的混淆矩阵图,图7(b)是水下声纳图像原生非均衡数据集上的混淆矩阵图;
图8(a)是水下声纳图像原生均衡数据集上的混淆矩阵图,图8(b)是水下声纳图像原生非均衡数据集上的混淆矩阵图;
图9(a)是水下声纳图像原生均衡数据集上的混淆矩阵图,图9(b)是水下声纳图像原生非均衡数据集上的混淆矩阵图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述。
本发明在实现过程中包括如下步骤:
(1)利用CGAN和DCGAN生成水下声纳图像以构建生成数据集,并构建均衡和非均衡两种水下声纳图像原生数据集;
(2)提出基于AAE的改进方法构建领域自适应的源域:①提取特征并进行语义分割;②在水下声纳图像生成数据集上利用伪标签技术训练源域模型;③将伪标签转为热编码格式后输入改进的AAE模型以提取源域特征;
(3)提出基于对抗学习的方法构建领域自适应的目标域:使用源域模型参数初始化目标域模型,提取目标域特征,利用对抗学习对齐隐藏空间;
(4)训练目标域,在均衡和非均衡数据集上实现水下声纳图像分类。
本发明还可以包括:
1、在步骤(1)中在每类图像中预选出原生照片带有人为标签,随后利用CGAN和DCGAN生成水下声纳图像并将标签数据写入生成数据集中。
2、所述步骤(1)中利用CGAN和DCGAN生成水下声纳图像以构建源域的水下声纳图像生成数据集,并且构建水下声纳图像原生均衡和非均衡数据集。
3、在步骤(2)中提取特征并进行语义分割。
4、所述步骤(2)中设置阈值,利用伪标签技术生成部分样本的标签,并采用以下策略进行伪标签:
Figure BDA0002424597410000061
其中x为输入,f(·)表示源域的分类函数,T为实验所设阈值。所得伪标签用于源域的半监督训练,从而提取源域数据集(生成数据集)的特征。
5、所述步骤(2)中将所得的标签转为热编码格式再嵌入到改进的AAE生成器中,完成源域的训练。
6、在步骤(3)中使用源域的已训练模型参数初始化目标域的参数,并利用判别器来对齐隐藏空间。
7、在步骤(4)中,根据AAE的半监督训练方式训练目标域,使得目标域模型具有类意识,并采用Softmax回归算法作为损失函数
Figure BDA0002424597410000062
1{·}表示的是标示函数,y为数据标签,ω为权重,m为样本数量,当y(i)=d为真时,返回1,否则返回0。并在非均衡和均衡数据集上实现水下声纳图像无监督分类。
结合图1,本发明的具体步骤如下:
(1)利用GANs构建生成数据集
GANs是利用博弈论的方式通过解码器令标准正态噪声生成判别器难以分辨的图像,本发明采用DCGAN和CGAN两种对抗生成网络,其中DCGAN将深度卷积神经网络引入,卷积操作所得特征输出如下公式所示:
Figure BDA0002424597410000063
式中:M为卷积输入,conv为输出卷积特征图,K为卷积核,式中:
Figure BDA0002424597410000064
Figure BDA0002424597410000065
Figure BDA0002424597410000066
为相应卷积张量内的元素,其中c1表示输入通道数,c2表示输出通道数,m,n表示通道坐标。
卷积增强了GANs的提取图像特征的能力,DCGAN的最小化的目标函数为:
Figure BDA0002424597410000071
式中:D表示解码器,G表示生成器,x为样本数据,z为噪声,pdata(x)为数据分布,pz(z)为噪声先验分布。以博弈的训练方式完成网络的参数更新,其中生成器和辨别器的结构进行了调整,如图2所示。水下声纳原生图像如图3(a)所示,DCGAN所生成图像如图3(b)所示,CGAN所生成图像如图3(c)所示。其中CGAN将标签信息融入到解码中,提高条件生成能力,从而进一步增加生成图像的多样性,其最小化的目标函数为:
Figure BDA0002424597410000072
式中:x,y分别为样本的数据和标签。以博弈的训练方式完成网络的参数更新,其主要网络结构如图4所示,图4(a)为CGAN生成器结构图,图4(b)为CGAN判别器图。
本发明采用三种数据集,分别为水下声纳图像原生均衡数据集,水下声纳图像原生非均衡数据集以及水下声纳图像生成数据集。前者为不同类别之间数量差异较小,而非均衡数据集则之间数量差异较大,水下声纳图像生成数据集是用于领域自适应的训练数据集。生成数据集利用人为选择的部分图像先行确定部分20张图像的标签,再加以GANs进行图像生成。本发明所采用的三个数据集可以有效验证算法的准确率、处理均衡和非均衡数据集的能力以及相应的泛化能力。三种水下声纳图像数据集的具体情况如表1所示。
表1三种水下声纳数据集
数据集 飞机 沙纹 石头 总计
均衡数据集 213 222 201 219 855
非均衡数据集 342 111 201 219 873
生成数据集 1000 1000 1000 1000 4000
其中非均衡数据集中主要是船和飞机的数量不均衡,达到了三倍的数量差。生成数据集总量大约是其余两种数据集的5倍,作为源域的数据集全部作为训练数据集使用,同时在均衡和非均衡数据集上实验按照4:1的比例分割训练集和测试集。
(2)提出基于AAE的改进方法构建领域自适应的源域
①提取特征并进行语义分割
本发明受风格迁移所启发,将内容和风格分割,以保证域不变性特征完好的提取出来,并且可以单纯地仅将内容部分分布对齐。在图像风格迁移的观点中,将内容视为图像的表现形式,是主要内容,风格则是背景或者说是噪音,通过两者的分离可以将图像的高级语义信息剥离出来。
②在水下声纳图像生成数据集上利用伪标签技术训练源域模型
AAE的网络结构如图5所示,本发明提出的改进AAE方法采用卷积操作以及内容判别器进一步改进一般AAE的特征提取能力和判别能力,其网络结构如图6所示。通过对隐藏编码加以先验约束,再经过对抗训练实现类别信息的嵌入。通过将聚合后验分布匹配隐藏编码的先验分布而实现类间距离的改变,聚合后延分布定义如下:
q(z)=∫q(z|x)pd(x)dx
式中:pd(x)为数据分布,q(z|x)为隐藏编码的条件分布。AAE的目标就是通过对抗训练使后验分布q(z)匹配先验p(z),同时确保重建部分能够生成质量较好的图像。首先通过步骤(1)所形成的部分有标签数据集,完成基本AAE的有监督训练,提升分类器的精度,随后采用AAE的有监督学习形式训练源域模型,并采用以下策略进行伪标签:
Figure BDA0002424597410000081
式中:x为输入,f(·)表示源域的分类函数,T为实验所设阈值。
③将伪标签转为热编码格式后输入改进的AAE模型以提取源域特征再将上文所得的伪标签转为热编码,代码的ith表示为标签索引即类别,并采用AAE的监督学习训练算法来更新参数
(3)提出基于对抗学习方法构建领域自适应的目标域
图6所示,本发明的网络包括域间不变特征学习和类别信息嵌入。前者包括两个基于编码器的判别器(灰色上半部分)。后者由源域的重构网络(黄色下半部分)和目标域网络的重构网络(蓝色中间部分)组成。编码器产生的所有隐藏编码都分为内容部分和样式部分。并且源域的网络结构比目标域额外多一个分类损失。中间部分是对抗学习的两个判别器。左边的一个用于内容的对齐,右边的一个用于隐藏空间的对齐。所有分类结果均来自使用交叉熵损失的Softmax分类器的内容。
在本发明中标签信息被合并到隐藏编码中以增加类意识。正如图6所示,有标签的数据不仅是编码器的输入,还是解码器的输入。与隐藏编码结合后,来自类别分布p(y)的标签将参与重构部分。在源域中,提供了标签信息,以便将标签编码为热编码。另一方面,在目标域中没有标签的情况下,通过将源域模型的参数传至目标域中,目标域网络参数初始化将推高拟合速度,避免梯度弥散。另一方面,源域已训练模型具有良好的特征提取能力,通过参数初始化的方式迁移至目标域中,使得对水下声纳图像特征提取能力有所保持。同时,源域的分类器被重新使用以生成用于重构部分的热编码向量。
本发明中,特征空间对齐是基于对抗学习的方式。本发明中使用两个对抗部分。第一个是将设定好的分布与先验分布进行匹配,这将使数据集群更加分散,并使类间差异更大。第二个是将标签信息用作热编码向量,并将类别分布与标签表示分布相对抗。因此,在重建阶段,标签信息将确保类内差异更大和域不变特征。在图像风格迁移的观点中,将内容视为图像的表现形式,是主要内容,风格则是背景或者说是噪音,通过两者的分离即语义分割可以将图像的高级语义信息剥离出来。本文即是受风格迁移所启发,进行语义分割,以保证域不变性特征完好的提取出来,并且可以单纯地仅将图像内容信息的分布对齐。
(4)训练目标域,在均衡和非均衡数据集上实现水下声纳图像分类
本发明通过AAE监督学习的方式,将标签信息嵌入至解码器中,经过水下声纳图像生成数据集的训练,使得解码器学习到类别信息;另一方面,再通过目标域的训练,即对平衡或非平衡水下声纳图像数据集的重构使得标签信息得以传递,增强了目标域的类意识。所有的分布逼近都是通过对抗学习的方式实现,源域上的重构损失与分类损失保证提取到域不变特征,对抗损失保证内容信息与风格信息差异最大化,同时令标签信息较好得嵌入解码器,最终使得目标域能够具有类意识,从而实现较高的无监督分类。
分类器采用Softmax函数
Figure BDA0002424597410000091
进行分类。如果其中一幅图像的xi的值大过其他的x,那这个映射的分量就逼近于1,其他就逼近于0。采用Softmax回归算法作为损失函数
Figure BDA0002424597410000092
1{·}表示的是标示函数,y为数据标签,ω为权重,m为样本数量,当y(i)=d为真时,返回1,否则返回0。
为了验证本发明提出的一种基于类意识领域自适应的水下声纳图像无监督分类方法的有效性,给出四类水下声纳图像,以及水下声纳图像生成数据集和均衡与非均衡两种水下声纳图像原生数据集的实验。表2给出了基于迁移学习,DeepCluster与本发明所提出的基于类意识方法的实验的分类正确率。
表2分类正确率
Figure BDA0002424597410000093
Figure BDA0002424597410000101
图7(a)给出了基于迁移学习方法在均衡水下声纳图像数据集上实验结果的混淆矩阵,由图7(a)可知,基于ResNet-50的迁移学习在经过伪标签微调后,其无监督分类的精度相对较好。图7(b)给出了于迁移学习方法在非均衡水下声纳图像数据集上实验结果的混淆矩阵,同时将图7(a)和图7(b)进行对比,可以得知数据集的均衡与否,对每类样本的分类精度影响很低,每类的准确率几乎不变,结合表2,可以得出分类准确率几乎保持了一致,在0.2%内波动,几乎不受数据集均衡性的影响。同时由于易被分类的沉船数量的增加,根据分子同比例增多原则,分类正确率反而有约0.1%的增长。图8(a)给出了DeepCluster方法在均衡水下声纳图像数据集上实验结果的混淆矩阵,由图8(a)可知,DeepCluster利用K-means的聚类和卷积的特征提取能力,在均衡水下声纳图像数据上进行训练,各类都得到了良好的分类准确率。图8(b)给出了DeepCluster方法在非均衡水下声纳图像数据集上实验结果的混淆矩阵,将图8(a)对比图8(b)对比可得知,对于非均衡数据集而言,DeepCluster因为是在非均衡的情况下训练,因此不可避免的导致样本数量较少的分类正确率急剧下降了48%。结合表2的综合分类正确率,DeepCluster在非均衡数据集上表现远远差于均衡数据集,降低了10.6%,可以进一步推进DeepCluster在均衡数据集上的训练是过拟合的。
本发明中提出的基于类意识领域自适应方法,通过将类别信息嵌入到解码器,同时增加类间距离,以无监督形式完成分类。为验证本发明所提方法的有效性,图9(a)给出了ACUDA在均衡水下声纳图像数据集上实验结果的混淆矩阵,由图9(a)可知,ACUDA的在均衡水下声纳图像数据集上分类精度较高,进一步降低了沉船和飞机的误分率。图9(b)给出了ACUDA在非均衡水下声纳图像数据集上实验结果的混淆矩阵。与图9(a)对比,ACUDA在非均衡数据集上的表现出了一定的抗性,小样本类别没有被大量的误分。根据表2的对比实验数据,ACUDA在均衡数据集上表现最好,较DeepCluster大约提升了3%,在非均衡数据集上,也仅较均衡情况下降低了4.5%,显示出了处理非均衡数据集上,从迁移学习借鉴的方法具有良好的表现。因此,本发明提出的基于类意识领域自适应的水下声纳图像无监督方法对无标签水下声纳图像具有较好的分类精度,并且在非均衡数据集上仍具有一定的适应性。
综上,本发明提供的是一种基于类意识领域自适应的水下声纳图像无监督分类方法。包括如下步骤:(1)利用生成对抗网络(Generative Adversarial Networks,GANs)构建生成数据集;(2)提出基于对抗自编码器(Adversarial Auto-Encoder,AAE)的改进方法构建领域自适应的源域;(3)提出基于对抗学习方法构建领域自适应的目标域;(4)训练目标域,在均衡和非均衡两种原生数据集上完成水下声纳图像无监督分类。本发明为了能够实现水下声纳图像无监督分类的高识别效果,提出基于类意识领域自适应的水下声纳图像无监督分类方法(Adversarial Auto-encoder with Class-Consensus for UnsupervisedDomain Adaptation,ACUDA)。即利用条件生成对抗网络(Conditional Generativenetwork,CGAN)和深度卷积生成对抗网络(Deep Convolutional Generative Network,DCGAN)两种GANs生成水下声纳图像,构建源域的水下声纳图像生成数据集,以及目标域的水下声纳图像原生均衡数据集和水下声纳图像原生非均衡数据集;提出基于AAE的改进方法构建源域,并进行语义分割,同时利用伪标签技术将源域的部分数据变为有标签数据进行有监督训练,并将训练后的源域知识迁移至目标域;提出基于改进的AAE进行类别信息嵌入和基于对抗学习的域间分布对齐,使得目标域模型具有类意识,在此基础上完成目标域上的水下声纳图像的无监督分类。在目标域的水下声纳图像原生均衡和非均衡数据集上进行实验结果分析,验证所提出的基于类意识领域自适应的水下声纳图像无监督分类方法对无标签水下声纳图像具有较好的分类精度,并且在非均衡数据集上仍具有一定的适应性。

Claims (9)

1.一种基于类意识领域自适应的水下声纳图像无监督分类方法,其特征在于:步骤如下:
步骤(1)利用CGAN和DCGAN生成水下声纳图像以构建生成数据集,并构建均衡和非均衡两种水下声纳图像原生数据集;
步骤(2)基于AAE的改进方法构建领域自适应的源域:
①提取特征并进行语义分割;
②在水下声纳图像生成数据集上利用伪标签技术训练源域模型;
③将伪标签转为热编码格式后输入改进的AAE模型以提取源域特征;
步骤(3)基于对抗学习的方法构建领域自适应的目标域:使用源域模型参数初始化目标域模型,提取目标域特征,利用对抗学习对齐隐藏空间;
步骤(4)训练目标域,在均衡和非均衡数据集上实现水下声纳图像分类。
2.根据权利要求1所述的一种基于类意识领域自适应的水下声纳图像无监督分类方法,其特征是:在步骤(1)中在每类图像中预选出原生照片带有人为标签,随后利用CGAN和DCGAN生成水下声纳图像并将标签数据写入生成数据集中。
3.根据权利要求1或2所述的一种基于类意识领域自适应的水下声纳图像无监督分类方法,其特征是:所述步骤(1)中利用CGAN和DCGAN生成水下声纳图像以构建源域的水下声纳图像生成数据集,并且构建水下声纳图像原生均衡和非均衡数据集。
4.根据权利要求3所述的一种基于类意识领域自适应的水下声纳图像无监督分类方法,其特征是:在步骤(2)中提取特征并进行语义分割。
5.根据权利要求1或4所述的一种基于类意识领域自适应的水下声纳图像无监督分类方法,其特征是:所述步骤(2)中设置阈值,利用伪标签技术生成部分样本的标签,并采用以下策略进行伪标签:
Figure FDA0002424597400000011
其中x为输入,f(·)表示源域的分类函数,T为实验所设阈值;所得伪标签用于源域的半监督训练,从而提取源域数据集的特征。
6.根据权利要求5所述的一种基于类意识领域自适应的水下声纳图像无监督分类方法,其特征是:所述步骤(2)中将所得的标签转为热编码格式再嵌入到改进的AAE生成器中,完成源域的训练。
7.根据权利的要求1或6所述的一种基于类意识领域自适应的水下声纳图像无监督分类方法,其特征是:在步骤(3)中使用源域的已训练模型参数初始化目标域的参数,并利用判别器来对齐隐藏空间。
8.根据权利的要求1所述的一种基于类意识领域自适应的水下声纳图像无监督分类方法,其特征是:在步骤(4)中,根据AAE的半监督训练方式训练目标域,使得目标域模型具有类意识,并采用Softmax回归算法作为损失函数
Figure FDA0002424597400000021
1{·}表示的是标示函数,y为数据标签,ω为权重,m为样本数量,当y(i)=d为真时,返回1,否则返回0;并在非均衡和均衡数据集上实现水下声纳图像无监督分类。
9.根据权利的要求7所述的一种基于类意识领域自适应的水下声纳图像无监督分类方法,其特征是:在步骤(4)中,根据AAE的半监督训练方式训练目标域,使得目标域模型具有类意识,并采用Softmax回归算法作为损失函数
Figure FDA0002424597400000022
1{·}表示的是标示函数,y为数据标签,ω为权重,m为样本数量,当y(i)=d为真时,返回1,否则返回0;并在非均衡和均衡数据集上实现水下声纳图像无监督分类。
CN202010216387.XA 2020-03-25 2020-03-25 一种基于类意识领域自适应的水下声纳图像无监督分类方法 Active CN111444955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010216387.XA CN111444955B (zh) 2020-03-25 2020-03-25 一种基于类意识领域自适应的水下声纳图像无监督分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010216387.XA CN111444955B (zh) 2020-03-25 2020-03-25 一种基于类意识领域自适应的水下声纳图像无监督分类方法

Publications (2)

Publication Number Publication Date
CN111444955A true CN111444955A (zh) 2020-07-24
CN111444955B CN111444955B (zh) 2022-08-02

Family

ID=71629575

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010216387.XA Active CN111444955B (zh) 2020-03-25 2020-03-25 一种基于类意识领域自适应的水下声纳图像无监督分类方法

Country Status (1)

Country Link
CN (1) CN111444955B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115916A (zh) * 2020-09-29 2020-12-22 西安电子科技大学 域适应Faster R-CNN半监督SAR检测方法
CN112149755A (zh) * 2020-10-12 2020-12-29 自然资源部第二海洋研究所 基于深度学习的小样本海底水声图像底质分类方法
CN112149689A (zh) * 2020-09-28 2020-12-29 上海交通大学 基于目标领域自监督学习的无监督领域适应方法和系统
CN112148906A (zh) * 2020-09-18 2020-12-29 南京航空航天大学 基于修正的CycleGAN模型的声纳图像库构建方法
CN112215275A (zh) * 2020-09-30 2021-01-12 佛山科学技术学院 一种适于K-means算法的图像处理系统和方法,及记录介质
CN112560603A (zh) * 2020-12-04 2021-03-26 中国船舶重工集团公司第七一五研究所 一种基于小波图像的水声数据集扩充方法
CN112633071A (zh) * 2020-11-30 2021-04-09 之江实验室 基于数据风格解耦内容迁移的行人重识别数据域适应方法
CN112733859A (zh) * 2021-01-25 2021-04-30 重庆大学 一种组织病理学图像的深度迁移半监督域自适应分类方法
CN116229080A (zh) * 2023-05-08 2023-06-06 中国科学技术大学 半监督域适应图像语义分割方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563422A (zh) * 2017-08-23 2018-01-09 西安电子科技大学 一种基于半监督卷积神经网络的极化sar分类方法
US20180114101A1 (en) * 2016-10-24 2018-04-26 International Business Machines Corporation Edge-based adaptive machine learning for object recognition
CN109753992A (zh) * 2018-12-10 2019-05-14 南京师范大学 基于条件生成对抗网络的无监督域适应图像分类方法
CN110263845A (zh) * 2019-06-18 2019-09-20 西安电子科技大学 基于半监督对抗深度网络的sar图像变化检测方法
WO2019245706A1 (en) * 2018-06-22 2019-12-26 Insilico Medicine, Inc. Mutual information adversarial autoencoder

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180114101A1 (en) * 2016-10-24 2018-04-26 International Business Machines Corporation Edge-based adaptive machine learning for object recognition
CN107563422A (zh) * 2017-08-23 2018-01-09 西安电子科技大学 一种基于半监督卷积神经网络的极化sar分类方法
WO2019245706A1 (en) * 2018-06-22 2019-12-26 Insilico Medicine, Inc. Mutual information adversarial autoencoder
CN109753992A (zh) * 2018-12-10 2019-05-14 南京师范大学 基于条件生成对抗网络的无监督域适应图像分类方法
CN110263845A (zh) * 2019-06-18 2019-09-20 西安电子科技大学 基于半监督对抗深度网络的sar图像变化检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANG XINGMEI ET AL: "Underwater sonar image classification using adaptive weights convolutional neural network", 《APPLIED ACOUSTICS》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148906A (zh) * 2020-09-18 2020-12-29 南京航空航天大学 基于修正的CycleGAN模型的声纳图像库构建方法
CN112149689A (zh) * 2020-09-28 2020-12-29 上海交通大学 基于目标领域自监督学习的无监督领域适应方法和系统
CN112149689B (zh) * 2020-09-28 2022-12-09 上海交通大学 基于目标领域自监督学习的无监督领域适应方法和系统
CN112115916B (zh) * 2020-09-29 2023-05-02 西安电子科技大学 域适应Faster R-CNN半监督SAR检测方法
CN112115916A (zh) * 2020-09-29 2020-12-22 西安电子科技大学 域适应Faster R-CNN半监督SAR检测方法
CN112215275A (zh) * 2020-09-30 2021-01-12 佛山科学技术学院 一种适于K-means算法的图像处理系统和方法,及记录介质
CN112149755B (zh) * 2020-10-12 2022-07-05 自然资源部第二海洋研究所 基于深度学习的小样本海底水声图像底质分类方法
CN112149755A (zh) * 2020-10-12 2020-12-29 自然资源部第二海洋研究所 基于深度学习的小样本海底水声图像底质分类方法
CN112633071A (zh) * 2020-11-30 2021-04-09 之江实验室 基于数据风格解耦内容迁移的行人重识别数据域适应方法
CN112560603B (zh) * 2020-12-04 2022-11-22 中国船舶重工集团公司第七一五研究所 一种基于小波图像的水声数据集扩充方法
CN112560603A (zh) * 2020-12-04 2021-03-26 中国船舶重工集团公司第七一五研究所 一种基于小波图像的水声数据集扩充方法
CN112733859A (zh) * 2021-01-25 2021-04-30 重庆大学 一种组织病理学图像的深度迁移半监督域自适应分类方法
CN112733859B (zh) * 2021-01-25 2023-12-19 重庆大学 一种组织病理学图像的深度迁移半监督域自适应分类方法
CN116229080A (zh) * 2023-05-08 2023-06-06 中国科学技术大学 半监督域适应图像语义分割方法、系统、设备及存储介质
CN116229080B (zh) * 2023-05-08 2023-08-29 中国科学技术大学 半监督域适应图像语义分割方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN111444955B (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN111444955B (zh) 一种基于类意识领域自适应的水下声纳图像无监督分类方法
Hu et al. Duplex generative adversarial network for unsupervised domain adaptation
CN109492662B (zh) 一种基于对抗自编码器模型的零样本图像分类方法
CN111444343B (zh) 基于知识表示的跨境民族文化文本分类方法
Mao et al. Explain images with multimodal recurrent neural networks
Li et al. Siamese contrastive embedding network for compositional zero-shot learning
CN112215280B (zh) 一种基于元骨干网络的小样本图像分类方法
CN111861945B (zh) 一种文本引导的图像修复方法和系统
CN105184298A (zh) 一种快速局部约束低秩编码的图像分类方法
CN110598759A (zh) 一种基于多模态融合的生成对抗网络的零样本分类方法
Akhtar et al. Attack to fool and explain deep networks
CN112017255A (zh) 一种根据食谱生成食物图像的方法
Peng et al. Adaptive memorization with group labels for unsupervised person re-identification
CN117095196A (zh) 基于特征细化自监督学习的广义零样本图像分类方法
CN110570484A (zh) 一种图像解耦表征下的文本指导图像上色方法
Lin et al. Deep LSAC for fine-grained recognition
Wu et al. Image hallucination from attribute pairs
CN111382871A (zh) 基于数据扩充一致性的领域泛化和领域自适应学习方法
Chen et al. Make segment anything model perfect on shadow detection
CN112215282B (zh) 一种基于小样本图像分类的元泛化网络系统
Sun et al. Swapping semantic contents for mixing images
Wang et al. Earf-YOLO: An Efficient Attention Receptive Field Model for Recognizing Symbols of Zhuang Minority Patterns
Shao et al. Data-free Black-box Attack based on Diffusion Model
Pejhan et al. Multi-Sentence Hierarchical Generative Adversarial Network GAN (MSH-GAN) for Automatic Text-to-Image Generation
Chen et al. SketchTrans: Disentangled Prototype Learning with Transformer for Sketch-Photo Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant