CN116579918A - 基于风格无关判别器的注意力机制多尺度图像转换方法 - Google Patents

基于风格无关判别器的注意力机制多尺度图像转换方法 Download PDF

Info

Publication number
CN116579918A
CN116579918A CN202310567199.5A CN202310567199A CN116579918A CN 116579918 A CN116579918 A CN 116579918A CN 202310567199 A CN202310567199 A CN 202310567199A CN 116579918 A CN116579918 A CN 116579918A
Authority
CN
China
Prior art keywords
image
scale
attention mechanism
image conversion
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310567199.5A
Other languages
English (en)
Other versions
CN116579918B (zh
Inventor
王兴梅
李孟昊
杨东梅
张天姿
陈伟京
张越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202310567199.5A priority Critical patent/CN116579918B/zh
Publication of CN116579918A publication Critical patent/CN116579918A/zh
Application granted granted Critical
Publication of CN116579918B publication Critical patent/CN116579918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及基于风格无关判别器的注意力机制多尺度图像转换方法,包括:构建基线的多尺度图像转换模型,在基线的多尺度图像转换模型中引入注意力机制,构建基于注意力机制的多尺度图像转换模型;基于注意力机制的多尺度图像转换模型,结合风格无关判别器,构建基于风格无关判别器的注意力机制多尺度图像转换模型;获取水下图像,将水下图像输入基于风格无关判别器的注意力机制多尺度图像转换模型中,输出转换后的水下图像,完成水下图像的转换。本发明提出的基于风格无关判别器的注意力机制多尺度图像转换方法,能生成细节更丰富的水下图像,具有很好的转换效果。

Description

基于风格无关判别器的注意力机制多尺度图像转换方法
技术领域
本发明涉及图像处理技术领域,特别是涉及基于风格无关判别器的注意力机制多尺度图像转换方法。
背景技术
近年来,图像作为深度学习中计算机视觉的重要研究载体,变得越来越重要。水下目标图像信息的有效利用无论在军事上还是民用上都有重要的意义,但一些类别的水下目标图像由于无法大量拍摄或是获取难度较大,影响其后续的处理和应用,如潜艇图像、沉船图像以及坠机图像等。无监督的图像转换任务旨在将图像从源域映射到目标域,保留主要内容并传输目标的样式,训练的模型通常使用没有配对的数据。近几年的无监督图像转换方法取得了显著的成功,因此研究高效可靠的图像转换算法都具有重要的理论价值和实际意义。
国内外学者对图像转换进行了深入研究,并取得了重要的成果。其中在已有的文献中最著名和效果最好的图像转换方法主要包括:1.基于生成对抗的无监督图像转换方法:2017年,Jun-Yan Zhu,Taesung Park,Phillip Isola,et al.Unpaired image-to-image translation using cycle-consistent adversarial networks.Proceedings ofthe IEEE international conference on computer vision.Venice,Italy,2017:2223-2232.提出一种基于循环语义一致性的无监督图像转换方法,利用循环一致性和语义一致性的约束完成图像转换中内容不变的要求。2.基于条件生成对抗网络的图像转换方法:2017年,Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,et al.Image-to-imagetranslation with conditional adversarial networks.Proceedings of the IEEEconference on computer vision and pattern recognition.Honolulu,Hawaii,TheUnited States of America,2017:1125-1134.提出一种通过附加条件指导图像生成的模型,模型中的输入条件是图像来学习从输入图像到输出图像之间的映射,得到最终的输出。3.基于生成对抗网络的多域图像转换:2018年,Choi,Yunjey,Min-Je Choi,etal.StarGAN:Unified Generative Adversarial Networks for Multi-domain Image-to-Image Translation.”2018IEEE/CVF Conference on Computer Vision and PatternRecognition,2017:8789-8797.提出了一种解决多个域之间的图像转换模型。4.基于条件生成对抗网络的高分辨率图像转换:2018年,Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,et al.High-resolution image synthesis and semantic manipulation withconditional gans.Proceedings of the IEEE conference on computer vision andpattern recognition.Salt Lake City,Utah,The United States of America,2018:8798-8807.提出了一种通过多阶段的图像转换过程,使得pix2pix可以生成高分辨率图像的模型,模型使用多分尺度下的生成和判别模型,低尺度的生成器由于尺度的感受野大可以学习全局的连续性,高尺度下的生成器会学习到精细的特征。5.基于无监督多模态的图像转换:2018年,X.Huang,M.Liu,S.Belongie,J.Kautz.Multimodal unsupervised image-to-image translation.In European Conference on Computer Vision(ECCV),2018:172-189.模型假设样本中提取的两种信息内容和样式。内容信息在不同域的实例之间共享,主要控制图像的一般特征,样式信息控制域的特定细节。6.基于两个未配对图像学习通用的图像转换方法:2020年,Lin J,Pang Y,Xia Y,et al.TuiGAN:Learning VersatileImage-to-Image Translation with Two Unpaired Images.European Conference onComputer Vision.arXiv preprint arXiv:2004.04634,2020:1-20.提出了一种基于金字塔式结构训练的多尺度生成器和判别器模型,实现由低尺度到高尺度的方式转换图像。7.基于记忆引导的无监督图像转换模型:2021年,Jeong S,Kim Y,Lee E,et al.Memory-guided Unsupervised Image-to-image Translation.2021IEEE/CVF Conference onComputer Vision and Pattern Recognition(CVPR),2021:6554-6563.提出了一种用类似哈希的结构存储了和传播实例级别的样式信息的图像转换方法,键存储用于分配与域无关的内容表示,而值是对特定于域的样式进行编码,模型中提出了一个特征对比损失来提高记忆项目的辨别力。
发明内容
本发明的目的是提供一种能够保留更多图像细节信息,生成更丰富图像的基于风格无关判别器的注意力机制多尺度图像转换方法。
为实现上述目的,本发明提供了如下方案:
基于风格无关判别器的注意力机制多尺度图像转换方法,包括:
构建基线的多尺度图像转换模型,在所述基线的多尺度图像转换模型中引入注意力机制,构建基于注意力机制的多尺度图像转换模型;
基于所述注意力机制的多尺度图像转换模型,结合风格无关判别器,构建基于风格无关判别器的注意力机制多尺度图像转换模型;
获取水下图像,将所述水下图像输入所述基于风格无关判别器的注意力机制多尺度图像转换模型中,输出转换后的水下图像,完成所述水下图像的转换。
进一步地,构建所述基线的多尺度图像转换模型包括:
构建单尺度的图像转换模型,对所述单尺度的图像转换模型进行延伸,构建多尺度的图像转换模型,在所述多尺度的图像转换模型中构建对抗损失、梯度惩罚损失、循环一致性损失和语义一致性损失,优化所述多尺度的图像转换模型,获取最终多尺度的图像转换模型。
进一步地,所述单尺度的图像转换模型采用的转换方式为:IXY=GXY(IX),IYX=GYX(IY),其中,GXY表示域X→Y的生成器,GYX表示域Y→X的生成器,IX表示域X的图像,IY表示域Y的图像,IXY和IYX分别表示两个域中某一个域图像通过生成器生成另外一个域的图像。
进一步地,对所述单尺度的图像转换模型进行延伸,构建所述多尺度的图像转换模型包括:
将所述单尺度的图像转换模型中的IX和IY分别降采样到N个不同的尺度,获取真实图像集所述真实图像集中的每一项分别为IX和IY基于比例因子(1/r)n的降采样结果,进而得到不同尺度的生成器以及不同尺度的判别器构成所述多尺度的图像转换模型。
进一步地,所述多尺度的图像转换模型的转换方法包括:
采用渐进式地逐级转换方法,从尺度最低的图像逐步向尺度较高的图像进行转换,获取最终输出
进一步地,在所述基线的多尺度图像转换模型中引入注意力机制,构建所述基于注意力机制的多尺度图像转换模型包括:
在所述多尺度的图像转换模型的判别器中引入卷积块注意力机制,在所述多尺度的图像转换模型的生成器中引入通道注意力机制,构建所述基于注意力机制的多尺度图像转换模型,其中,所述基于注意力机制的多尺度图像转换模型中的生成器共享相同的体系结构。
进一步地,基于所述注意力机制的多尺度图像转换模型,结合风格无关判别器,构建所述基于风格无关判别器的注意力机制多尺度图像转换模型包括:
通过在所述基于注意力机制的多尺度图像转换模型中引入实例级风格无关判别器、向量级风格无关判别器以及全变分损失,构建所述基于风格无关判别器的注意力机制多尺度图像转换模型。
进一步地,所述实例级风格无关判别器的构建方法包括:
将源域图像和目标域图像作为生成器的输入,生成第一图像;将所述第一图像和所述源域图像进行像素间的线性组合,生成第二图像;将所述第二图像和所述源域图像作为判别器的输入,所述判别器拉近对所述第二图像和所述源域图像的输出;
所述实例级风格无关判别器用公式表示为:
其中,0<α≤1,α表示线性插值的权重,α随着尺度的变化而逐渐变小,表示当前尺度的源域图像,表示上一尺度的源域图像上采样结果,表示当前尺度目标域风格信息,表示当前尺度源域内容信息,表示当前尺度最后生成的图像,G(·)表示用源域图像的内容信息和目标域图像的风格信息作为生成器的输入,Lcon使用L1范式表示实例级风格无关的损失,D(·)表示判别器对图像的输出。
进一步地,所述全变分损失用于对所述第二图像进行处理,将处理后的第二图像输入判别器,生成更加平滑的图像;
所述全变分损失表示为:
其中,0≤n≤N,表示此尺度下的TV损失,Ltv(·)表示TV损失的映射函数,x表示对称的两个多尺度模型各自生成的图像x[i,j]表示第i行和第j列对应图像的像素值。
进一步地,所述向量级风格无关判别器的构建方法包括:
将源域图像和目标域图像通过编码器编码生成向量,并将所述向量进行混合,将混合后的向量放入解码器中生成图像,将源域的图像域生成图像放入判别器中;
所述向量级风格无关判别器用公式表示为:
其中,0<α≤1,α表示线性插值的权重,α随着尺度的变化而逐渐变小,表示当前尺度下的源域图像,表示当前尺度下的目标域图像,表示当前尺度最后生成的图像,表示上一尺度最后生成的图像上采样结果,Encoder(·)表示VGG 19编码器,Decoder(·)表示与VGG 19对称的解码器,Lcon使用L1范式表示向量级风格无关的损失,D(·)表示判别器对图像的输出。
本发明的有益效果为:
本发明与现有技术相比的优点在于:a.传统的图像转换方法通常使用的源域和目标域数据集较大,但是水下图像由于获取难度较大,样本数量较小,在完成这种图像转换任务时,使用传统的无监督图像转换方法无法充分地提取图像的特征,为了让水下图像的转换具有较好的效果,并且能够很好地保留更多源域和目标域图像的细节,本发明提出基于风格无关判别器的注意力机制多尺度图像转换方法;b.为了提升图像转换模型训练时的稳定性,本发明在将源域图像放入生成器之前加入随机高斯噪声并在损失函数中加入梯度惩罚损失来实现这一目的,模型还使用两组对称的多尺度转换网络构建循环一致性损失和语义一致性损失;c.为了使得模型能够更好地提取到图像的特征,本发明通过使用基于注意力机制的多尺度图像转换模型改善网络特征提取能力,在生成器中加入通道注意力机制能够将拼接后的多通道特征图的重要信息放大,在判别器中加入卷积块注意力机制能够提升判别器的判别能力;d.由于模型的重建能力强导致生成图像的丰富性较差,本发明提出基于风格无关判别器的图像转换机制,在不改变特征提取能力的情况下生成细节更丰富的图像,使用结合全变分损失的实例级风格无关判别器以及向量级风格无关判别器进一步提升判别器的判别能力,间接地提升生成器性能,最终生成视觉效果更好的水下图像。
本发明提出的基于风格无关判别器的注意力机制多尺度图像转换方法,对水下图像转换具有很好的转换效果,模型能够很好的保留源域和目标域图像的细节信息,生成和判别能力更强,生成图像细节更加丰富,具有一定的有效性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的基于风格无关判别器的注意力机制多尺度图像转换方法流程图;
图2为本发明实施例的源域水下图像以及添加随机高斯噪声后的源域水下图像;
图3为本发明实施例的源域到目标域的单尺度下的图像转换结构示意图;
图4为本发明实施例的源域到目标域的多尺度下的图像转换结构示意图;
图5为本发明实施例的多尺度图像转换基线模型在不同类别数据集下的生成图像结果图,其中,图5(a)为生成沉船的水下声呐图像,图5(b)为生成沉船的水下光学图像,图5(c)为生成坠机的水下声呐图像,图5(d)为生成坠机的水下光学图像,图5(e)为生成潜艇的水下声呐图像,图5(f)为生成潜艇的水下光学图像;
图6为本发明实施例的多尺度图像转换模型结合CBAM结构示意图;
图7为本发明实施例的基于注意力机制的单一尺度图像转换模型结构图;
图8为本发明实施例的基线模型结合注意力机制在不同类别数据集下的生成图像结果图,其中,图8(a)为生成沉船的水下声呐图像,图8(b)为生成沉船的水下光学图像,图8(c)为生成坠机的水下声呐图像,图8(d)为生成坠机的水下光学图像,图8(e)为生成潜艇的水下声呐图像,图8(f)为生成潜艇的水下光学图像;
图9为本发明实施例的定义的图像的内容和风格差别示意图;
图10为本发明实施例的引入风格无关判别器后的单尺度图像转换模型示意图;
图11为本发明实施例的单尺度实例级风格无关的判别器示意图;
图12为本发明实施例的多尺度实例级风格无关的判别器的示意图;
图13为本发明实施例的单尺度下向量级风格无关判别器的示意图;
图14为本发明实施例的多尺度下向量级风格无关判别器的示意图;
图15为本发明实施例的基线模型结合风格无关判别器在不同类别数据集下的生成图像结果图,其中,图15(a)为生成沉船的水下声呐图像,图15(b)为生成沉船的水下光学图像,图15(c)为生成坠机的水下声呐图像,图15(d)为生成坠机的水下光学图像,图15(e)为生成潜艇的水下声呐图像,图15(f)为生成潜艇的水下光学图像;
图16为本发明实施例的多尺度图像转换整体模型在不同类别数据集下的生成图像结果图,其中,图16(a)为生成沉船的水下声呐图像,图16(b)为生成沉船的水下光学图像,图16(c)为生成坠机的水下声呐图像,图16(d)为生成坠机的水下光学图像,图16(e)为生成潜艇的水下声呐图像,图16(f)为生成潜艇的水下光学图像;
图17为本发明实施例的基于风格无关判别器的注意力机制多尺度图像转换方法在六类源域到目标域与其他方法的生成图像对比结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本实施例提供了基于风格无关判别器的注意力机制多尺度图像转换方法,如图1所示,包括:
S1.构建基线的多尺度图像转换模型,将水下图像从源域转换到目标域
采用水下图像数据集,对水下图像数据集中的每个水下图像添加高斯噪声,图2中每对图像中前一副表示水下图像的源域图像,后一副表示添加高斯噪声后的源域图像。每个尺度都使用添加高斯噪声后的源域图像作为后续该尺度图像转换模型的输入。
构建基线的多尺度图像转换模型的具体方法如下:
构建两个单尺度图像转换模型,使用两对映射函数,生成器GXY:X→Y以及生成器GYX:Y→X,具体使用方式为:
IXY=GXY(IX),IYX=GYX(IY)
上述公式旨在学习到IX和IY两个图像域内部的分布变化,由于两个域的水下图像有限,采用两个域转换生成模型GXY和GYX,GXY表示域X→Y的生成器,GYX表示域Y→X的生成器,IX表示域X的图像,IY表示域Y的图像,IXY和IYX分别表示两个域中某一个域水下图像通过生成器生成另外一个域的水下图像。将水下图像从低尺度到高尺度逐步转换,这样就可以在不同分辨率的尺度上多次充分地使用源域图像。
将IX和IY分别降采样到N个不同的尺度,获取真实图像集以及真实图像集中的每一项分别降采样来自IX和IY以及比例因子(1/r)n
图3展示了每层的水下图像转换模型,生成器实现了的转换。实验结果图中的生成图像是由输入源域图像和目标域图像在生成器中生成的。将最终的输出放入判别器中得到判别结果用于训练,其中0≤n≤N。
多尺度的图像转换模型是由单个尺度图像转换模型引申而来。图4展示了多尺度的图像转换模型示意图。除了图4中给出的水下图像域X→Y的多尺度图像转换模型之外,本实施例还使用了Y→X的多尺度转换模型,其整体结构与上图类似,不同点在于Y作为源域,X作为目标域。
整体的框架是由两组对称的水下图像转换模型组成:IX→IXY的GXY以及IY→IYX的GYX,其中的生成器GXY由一系列生成器组成,生成器GYX由一系列生成器组成,用于实现相同尺度下的水下图像转换。相应地,判别器DY和DX也分别由组成,用于验证输入图像是否属于相应域中的图像。
渐进式地逐级转换从尺度最低的水下图像开始,逐步向尺度较高的水下图像进行转换。首先将映射到相应的目标域,映射公式如下所示:
式中,对于尺度n<N的水下图像,生成器有两个输入,以及上一个尺度生成的图像同样,也有两个输入,以及上一尺度生成的图像映射公式如下所示:
式中,↑意味着使用上采样将水下图像按照比例因子r调整大小,利用 可以用更多的细节来细化之前的输出,而且还能为当前分辨率提供目标图像的全局结构。通过多次使用上面的公式,直到获得最终的输出
构建循环一致性和语义一致性的损失函数,对于任意的0≤n≤N,整体的损失公式为:
式中,表示的是对抗损失,表示的是循环一致性的损失,表示的是语义一致性损失。λcyc和λidt为超参数,用来平衡各个损失项之间的权重。在每一个尺度上,生成器的最小目标是最小化损失而判别器的目标则是最大化损失这与传统GAN模型的训练方式不尽相同。
使用梯度惩罚损失解决原始GAN训练中模式崩溃以及没有指标可以判断模型的收敛情况的问题,通过权值裁剪和梯度惩罚,可以有效提高对抗训练的稳定性,对抗损失表示为:
式中,α~U(0,1),λ表示梯度惩罚的系数。
使用循环一致性可以约束模型来保留平移后输入图像的固有属性。实验结果图中的重建图像是遵照循环一致性原理将源域图像转换到目标域图像,再转换到源域图像生成的。循环一致性的损失能够解决CGAN训练问题中的模式崩溃问题,即无论是用什么样的输入,生成器都会产生一个合理的输出,其中0≤n≤N,循环一致性的损失可以表示为:
仅依靠上面两种损失进行水下图像转换很容易导致颜色和纹理错位的结果。为了解决上述的问题,模型在每个尺度上引入语义一致性损失该损失可以用以下的公式来表示,其中0≤n≤N:
图5是多尺度图像转换基线模型在不同类别数据集下的生成图像结果图,模型包含6个尺度,每个尺度下训练4000轮。图5(a)是生成沉船的水下声呐图像,图5(b)是生成沉船的水下光学图像,图5(c)是生成坠机的水下声呐图像,图5(d)是生成坠机的水下光学图像,图5(e)是生成潜艇的水下声呐图像,图5(f)是生成潜艇的水下光学图像。
本实施例还使用数值型指标结合图像的视觉效果。使用峰值信噪比(PeakSignal-to-Noise Ratio,PNSR)和结构相似性(Structural Similarity,SSIM)来对比重建图像的效果进而得出模型的生成和判别能力。使用信息熵(Information Entropy)来判断生成图像的丰富程度即多样性。如表1所示,给出对应图5生成结果的三类评价指标。
表1
表1的实验结果还会在后面对该基线模型的改进作对比,这样能直观地看出改进后模型的效果。
S2.在基线的多尺度图像转换模型中引入注意力机制,构建基于注意力机制的多尺度图像转换模型,改善网络特征提取能力
如图6所示,CBAM由通道注意力机制和空间注意力机制两个模块组成,卷积操作产生的特征映射可以将每个通道都作为一个特征检测器。CBAM中的通道注意力机制的过程可以用下面的公式表示:
式中,F为输入的特征映射,σ(·)为ReLU激活函数,MLP为卷积共享网络,分别对进行通道维度的特征提取,随后将两者相加,通过激活函数最后得到通道注意力特征权重W0与W1卷积共享网络的卷积层权重,为不同背景特征侧重的深层特征图。
CBAM的空间注意力机制更集中关注特征图的空间信息,目的是形成与通道注意力的互补。空间注意力机制的过程可以用下面的公式表示:
式中,F′为输入的特征映射,σ(·)为Sigmoid激活函数,f7×7为卷积核尺寸为7×7的卷积操作,为不同背景特征侧重的深层特征图。
图7展示了添加注意力机制后的单一尺度下的图像转换模型,生成器实现了的转换。输入图像域X的图像首先简单处理通过CBAM卷积块和卷积操作得到然后使用这个图像输入以及上一尺度的生成图像在通道的方向进行拼接,然后通过一个通道注意力模型得到掩码Xn,最后使用Xn以及通过线性的组合得到最终的输出将最终的输入放入判别器中得到判别结果用于训练。
共享相同的体系结构,但是具有不同的权重。由两个完全卷积的网络组成,的工作原理可以用以下的公式表示:
式中,表示像素级的乘法。首先使用编解码器对预处理为作为初始的图像转换。然后,模型使用了注意力机制An生成了掩码Xn,该掩码模拟了图像区域和多尺度的依赖关系。最后通过线性组合得到输出同理,在多个尺度上的转换IY→IYX的实现如下:
通过这种方式,生成器可以专注于图像中负责合成当前规模细节的区域,并保持之前学习到的全局结构不受影响。图8给出基线模型和结合注意力模型生成图像,将其与基线模型对比,对比结果如表2所示:
表2
表2中PNSR表示峰值信噪比,SSIM表示结构相似性,Entropy表示信息熵。1表示的是基线模型,2表示的添加注意力机制后的模型。通过对比结果可以看出,添加了注意力机制后的模型整体来看能缩小重建图像和原始图像之间的距离。但是就像上节最后提到的,重建能力的增强意味着整体模型会牺牲生成图像的多样性,这点从表2中最后两列能明显看出,引入注意力机制后的模型生成图像的信息熵不如原始模型。
S3.在基于注意力机制的多尺度图像转换模型中引入风格无关判别器,构建风格无关判别器的注意力机制多尺度图像转换模型,在不改变特征提取能力的情况下生成细节更丰富的图像
图9可以看出前两幅图像的内容信息是相同的,而后两幅图像的风格信息是相同的。理想的判别器对于相同内容不同风格的图像判别,就是图中的风格差别,训练判别器希望这个距离越小越好。因为判别器没有对图像相对距离的计算,所以通过定义实例级和向量级的损失来训练出风格无关的判别器。
图9中sx和sy分别表示源域图像和目标域图像的风格信息,cx和cy分别表示了源域图像和目标域图像的内容信息,G(s,c)表示s作为风格c作为内容生成的图像,D(G(s,c))表示判别器对该图像的打分。
图10给出了整体的单尺度的图像转换模型,除了上面介绍的引入CBAM卷积块和通道注意力机制之外,还加入了风格无关的判别器。最后,判别器的训练还需要两类图像的支持,包括实例级混合风格图像以及特征向量级混合风格图像
图11给出单尺度实例级风格无关的判别器示意图,在多个尺度上逐步提高生成的风格图像在最终需要判别图像的占比,并且鼓励判别器拉近原始图像和最后的混合图像之间的距离。
在GAN的训练中,风格迁移使得图像脱离原始数据的分布,最终会改变判别器的预期输出。因为这个改进的目的就是为了让判别器对于风格的变化不那么敏感,所以实际的做法不是单单将图像增强后送入到判别器中,而是惩罚增强后图像引起的判别器的输出差异。图12给出多尺度实例级风格无关的判别器的示意图。图12中的过程可以用下面的公式表示为:
式中,0<α≤1,表示当前尺度的源域图像,表示上一尺度的源域图像上采样结果,表示当前尺度目标域风格信息,表示当前尺度源域内容信息,表示当前尺度最后生成的图像,G(·)表示用源域图像的内容信息和目标域图像的风格信息作为生成器的输入,Lcon使用L1范式表示实例级风格无关的损失,D(·)表示判别器对图像的输出。α是源域和目标域特征向量的权重系数,α随着尺度的变化而逐渐变小,这样对于判别器来说可以渐进式地训练。
在输入判别器之前,使用全变分损失处理生成的图像使得图像更加平滑。下面给出模型中使用的全变分损失的公式:
式中,0≤n≤N,表示这个尺度下的TV损失,Ltv(·)表示TV损失的映射函数,x表示对称的两个多尺度模型各自生成的图像x[i,j]表示第i行和第j列对应图像的像素值。
图13展示了单尺度下向量级风格无关判别器。将源域图像和目标域图像通过编码器编码后的向量进行混合,将混合后的向量放入解码器中生成图像,最后将源域的图像域生成图像放入判别器中实现向量级风格无关判别器的训练过程。
图14给出了多尺度下向量级风格无关判别器。图14中的过程可以用下面的公式表示为:
式中,0<α≤1,表示当前尺度下的源域图像,表示当前尺度下的目标域图像,表示当前尺度最后生成的图像,表示上一尺度最后生成的图像上采样结果,Encoder(·)表示VGG 19编码器,Decoder(·)表示与VGG 19对称的解码器。Lcon使用L1范式表示向量级风格无关的损失,D(·)表示判别器对图像的输出。α的使用与上面一致。
S4.基于风格无关判别器的注意力机制多尺度图像转换模型生成转换后的水下图像
将添加高斯噪声后的水下图像的域源图像和目标域图像输入构建的基于风格无关判别器的图像转换模型中,输出转换后的水下图像。
图15给出了本发明提出的基线模型结合风格无关判别器在不同类别数据集下的生成图像结果图,将其与基线模型对比,对比结果如表3所示:
表3
表3中1表示的是基线模型,2表示的结合多尺度风格无关判别器后的模型。通过对比结果可以看出,结合多尺度风格无关判别器后的模型在每类水下数据集中重建效果更好,具体表现在重建图像和原始图像之间的距离更小。由于使用了全变分损失提升生成图像的平滑度,使得更强的重建能力没有完全牺牲生成图像的多样性。
图16是本发明提出的多尺度图像转换整体模型在不同类别数据集下的生成图像结果图,将其与基线模型对比,对比结果如表4所示:
表4
表4中PNSR表示峰值信噪比,SSIM表示结构相似性,Entropy表示信息熵。1表示的是基线模型,2表示的注意力机制结合多尺度风格无关判别器后的模型。通过对比结果可以看出,总的改进模型在每类水下数据集中重建效果更好,具体表现在重建图像和原始图像之间的距离更小。从表4中最后两列能明显看出,引入注意力机制后的模型生成图像的信息熵整体更强于原始模型。
图17给出了基于风格无关判别器的注意力机制多尺度图像转换模型与其它模型生成图像的对比结果。通过视觉效果对比,本实施例模型能够很好地学习到目标域图像的风格,并保留源域图像的内容。生成图像相邻像素之间差异较小,图像的平滑度较高,而CycleGAN并没有很好的平滑度,放大之后看相邻像素之间的差异很明显。对比FUNIT模型和AdaIN模型能够明显发现,本实施例的模型能够更好地学习到目标域的纹理和颜色,而这两个模型的生成效果较差,且没有很好地保留源域图像的内容。
通过对比试验可以总结,本实施例的模型能够比另外三种模型更好地应对水下目标图像转换任务,总体模型生成图像的效果在内容和风格方面更接近原始图像。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (10)

1.基于风格无关判别器的注意力机制多尺度图像转换方法,其特征在于,包括:
构建基线的多尺度图像转换模型,在所述基线的多尺度图像转换模型中引入注意力机制,构建基于注意力机制的多尺度图像转换模型;
基于所述注意力机制的多尺度图像转换模型,结合风格无关判别器,构建基于风格无关判别器的注意力机制多尺度图像转换模型;
获取水下图像,将所述水下图像输入所述基于风格无关判别器的注意力机制多尺度图像转换模型中,输出转换后的水下图像,完成所述水下图像的转换。
2.根据权利要求1所述的基于风格无关判别器的注意力机制多尺度图像转换方法,其特征在于,构建所述基线的多尺度图像转换模型包括:
构建单尺度的图像转换模型,对所述单尺度的图像转换模型进行延伸,构建多尺度的图像转换模型,在所述多尺度的图像转换模型中构建对抗损失、梯度惩罚损失、循环一致性损失和语义一致性损失,优化所述多尺度的图像转换模型,获取最终多尺度的图像转换模型。
3.根据权利要求2所述的基于风格无关判别器的注意力机制多尺度图像转换方法,其特征在于,所述单尺度的图像转换模型采用的转换方式为:IXY=GXY(IX),IYX=GYX(IY),其中,GXY表示域X→Y的生成器,GYX表示域Y→X的生成器,IX表示域X的图像,IY表示域Y的图像,IXY和IYX分别表示两个域中某一个域图像通过生成器生成另外一个域的图像。
4.根据权利要求3所述的基于风格无关判别器的注意力机制多尺度图像转换方法,其特征在于,对所述单尺度的图像转换模型进行延伸,构建所述多尺度的图像转换模型包括:
将所述单尺度的图像转换模型中的IX和IY分别降采样到N个不同的尺度,获取真实图像集所述真实图像集中的每一项分别为IX和IY基于比例因子(1/r)n的降采样结果,进而得到不同尺度的生成器以及不同尺度的判别器构成所述多尺度的图像转换模型。
5.根据权利要求4所述的基于风格无关判别器的注意力机制多尺度图像转换方法,其特征在于,所述多尺度的图像转换模型的转换方法包括:
采用渐进式地逐级转换方法,从尺度最低的图像逐步向尺度较高的图像进行转换,获取最终输出
6.根据权利要求1所述的基于风格无关判别器的注意力机制多尺度图像转换方法,其特征在于,在所述基线的多尺度图像转换模型中引入注意力机制,构建所述基于注意力机制的多尺度图像转换模型包括:
在所述多尺度的图像转换模型的判别器中引入卷积块注意力机制,在所述多尺度的图像转换模型的生成器中引入通道注意力机制,构建所述基于注意力机制的多尺度图像转换模型,其中,所述基于注意力机制的多尺度图像转换模型中的生成器共享相同的体系结构。
7.根据权利要求1所述的基于风格无关判别器的注意力机制多尺度图像转换方法,其特征在于,基于所述注意力机制的多尺度图像转换模型,结合风格无关判别器,构建所述基于风格无关判别器的注意力机制多尺度图像转换模型包括:
通过在所述基于注意力机制的多尺度图像转换模型中引入实例级风格无关判别器、向量级风格无关判别器以及全变分损失,构建所述基于风格无关判别器的注意力机制多尺度图像转换模型。
8.根据权利要求7所述的基于风格无关判别器的注意力机制多尺度图像转换方法,其特征在于,所述实例级风格无关判别器的构建方法包括:
将源域图像和目标域图像作为生成器的输入,生成第一图像;将所述第一图像和所述源域图像进行像素间的线性组合,生成第二图像;将所述第二图像和所述源域图像作为判别器的输入,所述判别器拉近对所述第二图像和所述源域图像的输出;
所述实例级风格无关判别器用公式表示为:
其中,0<α≤1,α表示线性插值的权重,α随着尺度的变化而逐渐变小,表示当前尺度的源域图像,表示上一尺度的源域图像上采样结果,表示当前尺度目标域风格信息,表示当前尺度源域内容信息,表示当前尺度最后生成的图像,G(·)表示用源域图像的内容信息和目标域图像的风格信息作为生成器的输入,Lcon使用L1范式表示实例级风格无关的损失,D(·)表示判别器对图像的输出。
9.根据权利要求8所述的基于风格无关判别器的注意力机制多尺度图像转换方法,其特征在于,所述全变分损失用于对所述第二图像进行处理,将处理后的第二图像输入判别器,生成更加平滑的图像;
所述全变分损失表示为:
其中,0≤n≤N,表示此尺度下的TV损失,Ltv(·)表示TV损失的映射函数,x表示对称的两个多尺度模型各自生成的图像x[i,j]表示第i行和第j列对应图像的像素值。
10.根据权利要求7所述的基于风格无关判别器的注意力机制多尺度图像转换方法,其特征在于,所述向量级风格无关判别器的构建方法包括:
将源域图像和目标域图像通过编码器编码生成向量,并将所述向量进行混合,将混合后的向量放入解码器中生成图像,将源域的图像域生成图像放入判别器中;
所述向量级风格无关判别器用公式表示为:
其中,0<α≤1,α表示线性插值的权重,α随着尺度的变化而逐渐变小,表示当前尺度下的源域图像,表示当前尺度下的目标域图像,表示当前尺度最后生成的图像,表示上一尺度最后生成的图像上采样结果,Encoder(·)表示VGG 19编码器,Decoder(·)表示与VGG 19对称的解码器,Lcon使用L1范式表示向量级风格无关的损失,D(·)表示判别器对图像的输出。
CN202310567199.5A 2023-05-19 2023-05-19 基于风格无关判别器的注意力机制多尺度图像转换方法 Active CN116579918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310567199.5A CN116579918B (zh) 2023-05-19 2023-05-19 基于风格无关判别器的注意力机制多尺度图像转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310567199.5A CN116579918B (zh) 2023-05-19 2023-05-19 基于风格无关判别器的注意力机制多尺度图像转换方法

Publications (2)

Publication Number Publication Date
CN116579918A true CN116579918A (zh) 2023-08-11
CN116579918B CN116579918B (zh) 2023-12-26

Family

ID=87542832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310567199.5A Active CN116579918B (zh) 2023-05-19 2023-05-19 基于风格无关判别器的注意力机制多尺度图像转换方法

Country Status (1)

Country Link
CN (1) CN116579918B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200234402A1 (en) * 2019-01-18 2020-07-23 Ramot At Tel-Aviv University Ltd. Method and system for end-to-end image processing
CN111739077A (zh) * 2020-06-15 2020-10-02 大连理工大学 基于深度神经网络单目水下图像深度估计和颜色矫正方法
CN113160032A (zh) * 2021-03-29 2021-07-23 浙江工业大学 一种基于生成对抗网络的无监督多模态图像转换方法
KR102289045B1 (ko) * 2020-03-23 2021-08-11 주식회사 픽스트리 멀티 스케일 객체 이미지 복원 방법 및 장치
CN114092964A (zh) * 2021-10-19 2022-02-25 杭州电子科技大学 基于注意力引导和多尺度标签生成的跨域行人重识别方法
CN114565806A (zh) * 2022-02-24 2022-05-31 哈尔滨工程大学 一种基于表征增强的特征域优化小样本图像转换方法
CN114820395A (zh) * 2022-06-30 2022-07-29 浙江工业大学 一种基于多领域信息融合的水下图像增强方法
CN114972107A (zh) * 2022-06-14 2022-08-30 福州大学 基于多尺度堆叠式注意力网络的低照度图像增强方法
WO2022255523A1 (ko) * 2021-06-04 2022-12-08 주식회사 픽스트리 멀티 스케일 객체 이미지 복원 방법 및 장치
CN115713469A (zh) * 2022-11-08 2023-02-24 大连海事大学 基于通道注意力和形变生成对抗网络的水下图像增强方法
CN115861094A (zh) * 2022-11-22 2023-03-28 大连大学 一种融合注意力机制的轻量级gan水下图像增强模型

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200234402A1 (en) * 2019-01-18 2020-07-23 Ramot At Tel-Aviv University Ltd. Method and system for end-to-end image processing
KR102289045B1 (ko) * 2020-03-23 2021-08-11 주식회사 픽스트리 멀티 스케일 객체 이미지 복원 방법 및 장치
CN111739077A (zh) * 2020-06-15 2020-10-02 大连理工大学 基于深度神经网络单目水下图像深度估计和颜色矫正方法
CN113160032A (zh) * 2021-03-29 2021-07-23 浙江工业大学 一种基于生成对抗网络的无监督多模态图像转换方法
WO2022255523A1 (ko) * 2021-06-04 2022-12-08 주식회사 픽스트리 멀티 스케일 객체 이미지 복원 방법 및 장치
CN114092964A (zh) * 2021-10-19 2022-02-25 杭州电子科技大学 基于注意力引导和多尺度标签生成的跨域行人重识别方法
CN114565806A (zh) * 2022-02-24 2022-05-31 哈尔滨工程大学 一种基于表征增强的特征域优化小样本图像转换方法
CN114972107A (zh) * 2022-06-14 2022-08-30 福州大学 基于多尺度堆叠式注意力网络的低照度图像增强方法
CN114820395A (zh) * 2022-06-30 2022-07-29 浙江工业大学 一种基于多领域信息融合的水下图像增强方法
CN115713469A (zh) * 2022-11-08 2023-02-24 大连海事大学 基于通道注意力和形变生成对抗网络的水下图像增强方法
CN115861094A (zh) * 2022-11-22 2023-03-28 大连大学 一种融合注意力机制的轻量级gan水下图像增强模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
董欣;: "基于注意机制的水下目标检测方法", 计算机与现代化, no. 05 *

Also Published As

Publication number Publication date
CN116579918B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
Wang et al. Towards accurate post-training network quantization via bit-split and stitching
CN111489405B (zh) 基于条件增强生成对抗网络的人脸草图合成系统
CN112967178B (zh) 一种图像转换方法、装置、设备及存储介质
CN110222837A (zh) 一种基于CycleGAN的图片训练的网络结构ArcGAN及方法
CN115880158A (zh) 一种基于变分自编码的盲图像超分辨率重建方法及系统
Feng et al. U²-Former: Nested U-Shaped Transformer for Image Restoration via Multi-View Contrastive Learning
CN114022582A (zh) 一种文本生成图像方法
CN116664435A (zh) 一种基于多尺度人脸解析图融入的人脸复原方法
CN113610732A (zh) 基于交互对抗学习的全聚焦图像生成方法
CN111414988A (zh) 基于多尺度特征自适应融合网络的遥感影像超分辨率方法
Lei et al. MHANet: A multiscale hierarchical pansharpening method with adaptive optimization
CN116579918B (zh) 基于风格无关判别器的注意力机制多尺度图像转换方法
CN113379606A (zh) 一种基于预训练生成模型的人脸超分辨方法
Sun et al. ESinGAN: Enhanced single-image GAN using pixel attention mechanism for image super-resolution
CN117058392A (zh) 一种基于卷积局部增强的多尺度Transformer图像语义分割方法
CN117036171A (zh) 单幅图像的蓝图可分离残差平衡蒸馏超分辨率重建模型及方法
CN116977822A (zh) 一种融合CNN与Transformer模型的图像识别网络
Khan et al. Face recognition via multi-level 3D-GAN colorization
CN113298154B (zh) 一种rgb-d图像显著目标检测方法
CN114565806A (zh) 一种基于表征增强的特征域优化小样本图像转换方法
Liu et al. Second-order attention network for magnification-arbitrary single image super-resolution
Liu et al. A UNet-Like Hybrid Transformer for Efficient Semantic Segmentation of Remote Sensing Images
Zhoua et al. Research on Image Style Convolution Neural Network Migration Based on Deep Hybrid Generation Model
Hu A Review of Super-Resolution Reconstruction Based on Supervised Learning
Özgen et al. Text-to-Painting on a Large Variance Dataset with Sequential Generative Adversarial Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant