CN116862803A - 逆转图像重建方法、装置、设备及可读存储介质 - Google Patents
逆转图像重建方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN116862803A CN116862803A CN202310864682.XA CN202310864682A CN116862803A CN 116862803 A CN116862803 A CN 116862803A CN 202310864682 A CN202310864682 A CN 202310864682A CN 116862803 A CN116862803 A CN 116862803A
- Authority
- CN
- China
- Prior art keywords
- image
- reversed
- quality
- inverted
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013507 mapping Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 abstract description 21
- 230000000694 effects Effects 0.000 abstract description 12
- 230000006870 function Effects 0.000 description 25
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000013519 translation Methods 0.000 description 5
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 101100075995 Schizosaccharomyces pombe (strain 972 / ATCC 24843) fma2 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Processing (AREA)
Abstract
本公开涉及一种逆转图像重建方法、装置、设备及可读存储介质。本公开通过获取待逆转图像,所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像,对所述待逆转图像进行逆转处理,得到逆转图像。由于对所述待逆转图像进行逆转处理,得到逆转图像,进而可以对逆转图像的隐空间特征进行约束,使逆转得到的隐空间特征的分布更符合GAN隐空间中原始隐空间编码的分布,在图像编辑中减少图像伪影的出现,从而提高真实图像的图像编辑的效果。并且,本公开实施例可以适用于高质量图像以及低质量图像,提高了逆转方法的泛化性能,提升了低质量图像逆转的重建效果,保证了GAN逆转方法对图像质量的稳定性。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及一种逆转图像重建方法、装置、设备及可读存储介质。
背景技术
图像重建是低层次视觉中的一项基本任务,存在着较高的商业价值。近年来,基于预训练的生成对抗网络(Generative adversarial networks,GAN)的图像处理一直是一个活跃的研究课题,因为它可以生成种类繁多的高质量样本,被广泛用于各种计算机视觉应用,包括虚拟现实、图像增强、医疗影像分析、视频生成和修复等。
随着近年来深度学习技术的蓬勃发展,越来越多的生成对抗网络的模型出现,例如PGGAN,StyleGAN等,这些模型可以生成高分辨率、视觉效果优异的图像。为了更好的将这些生成模型应用于真实的图像处理场景,研究者们提出了基于图像在GAN隐空间编码特征来实现图像编辑的方法。由于要基于GAN隐空间编码特征进行图像编辑,使得这种编辑方法只能局限于GAN生成的图像,而对真实图像的编辑能力较弱。为了解决这种局限,出现了GAN逆转方法。GAN逆转方法可以架起真实图像和GAN生成的图像之间的桥梁,GAN逆转方法将真实图像映射到预训练GAN模型的生成器隐空间中,基于映射得到的隐空间特征能够重建出逆转图像,逆转图像是GAN生成的图像,进而可以实现对真实图像进行图像编辑。
但是,现有的GAN逆转方法都是在像素空间中进行的,使得GAN逆转方法得到的真实图像的隐空间特征与GAN隐空间编码特征存在较大语义上的差异,使得预训练的GAN模型难以应用于真实图像的图像编辑中。其次,大部分GAN逆转方法对输入图像质量做出了要求,图像质量需要与GAN训练时的高质量数据集相近,而忽略了真实场景中更广泛存在的低质量图像。
发明内容
为了解决上述技术问题,本公开提供了一种逆转图像重建方法、装置、设备及可读存储介质。
第一方面,本公开实施例提供一种逆转图像重建方法,包括:
获取待逆转图像,所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像;
对所述待逆转图像进行逆转处理,得到逆转图像。
在一些实施例中,所述获取待逆转图像,包括:
获取待处理图像;
对所述待处理图像进行预处理,得到待逆转图像。
在一些实施例中,所述低质量图像是通过如下步骤得到的:
对高质量图像数据集进行降采样处理,得到所述低质量图像;
其中,所述降采样处理的方法包括随机遮挡、雨雾层、下采样中的一种或多种。
在一些实施例中,所述对所述待逆转图像进行逆转处理,得到逆转图像,包括:
将所述待逆转图像输入到训练好的逆转模型中,通过所述逆转模型输出逆转图像。
在一些实施例中,所述将所述待逆转图像输入到训练好的逆转模型中,通过所述逆转模型输出逆转图像,包括:
将所述待逆转图像输入所述逆转模型的编码器中,通过所述编码器得到所述待逆转图像的隐空间编码特征;
将所述隐空间编码特征输入所述逆转模型的生成器中,通过所述生成器得到逆转图像。
在一些实施例中,所述编码器由多个卷积层和残差模块组成的特征提取器连接而成;所述生成器由一个多层级的深度网络组成,每个层级用于重建待逆转图像的多个图像特征,所述图像特征包括粗糙度、颜色和纹理。
在一些实施例中,所述将所述待逆转图像输入所述逆转模型的编码器中,通过所述编码器得到所述待逆转图像的隐空间编码特征,包括:
利用卷积编码器提取所述待逆转图像的浅层特征;
将所述浅层特征输入深层特征编码器中,基于所述深层特征编码器提取所述待逆转图像的深层特征;
对所述待逆转图像的深层特征进行编码,得到所述待逆转图像的隐空间编码特征。
在一些实施例中,所述将所述隐空间编码特征输入所述逆转模型的生成器中,通过所述生成器得到逆转图像,包括:
基于生成器对所述隐空间编码特征进行解码处理,得到所述待逆转图像的高维图像特征;
将所述待逆转图像的高维图像特征映射到红绿蓝图像空间,得到逆转图像。
第二方面,本公开实施例提供一种逆转图像重建装置,包括:
获取模块,用于获取待逆转图像,所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像;
得到模块,用于对所述待逆转图像进行逆转处理,得到逆转图像。
第三方面,本公开实施例提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
第五方面,本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上所述的逆转图像重建方法。
本公开实施例提供的逆转图像重建方法、装置、设备及可读存储介质,通过获取待逆转图像,所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像,对所述待逆转图像进行逆转处理,得到逆转图像。由于对所述待逆转图像进行逆转处理,得到逆转图像,进而可以对逆转图像的隐空间特征进行约束,使逆转得到的隐空间特征的分布更符合GAN隐空间中原始隐空间编码的分布,在图像编辑中减少图像伪影的出现,从而提高真实图像的图像编辑的效果。并且,本公开实施例可以适用于高质量图像以及低质量图像,提高了逆转方法的泛化性能,提升了低质量图像逆转的重建效果,保证了GAN逆转方法对图像质量的稳定性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的逆转图像重建方法流程图;
图2为本公开实施例提供的逆转模型的训练流程示意图;
图3为本公开另一实施例提供的逆转图像重建方法流程图;
图4为本公开实施例提供的逆转图像重建装置的结构示意图;
图5为本公开实施例提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
针对现有的GAN逆转方法都是在像素空间中进行的,使得GAN逆转方法得到的真实图像的隐空间特征与GAN隐空间编码特征存在较大语义上的差异,使得预训练的GAN模型难以应用于真实图像的图像编辑中。其次,大部分GAN逆转方法对输入图像质量做出了要求,图像质量需要与GAN训练时的高质量数据集相近,而忽略了真实场景中更广泛存在的低质量图像的问题,本公开实施例提供了一种逆转图像重建方法,下面结合具体的实施例对该方法进行介绍。
生成对抗网络(Generative adversarial networks,GAN):GAN是一种深度学习模型,由生成器和判别器两个网络组成,通过对抗学习的方式,让生成器生成逼真的数据样本,而判别器则用于区分生成器生成的样本和真实样本。通过不断迭代,生成器可以生成更逼真的样本,从而达到生成逼真数据的目的。
GAN逆转(GAN Inversion):GAN Inversion是指使用预训练的生成对抗网络(GAN)对一个给定的真实图像进行反向推导。GAN的生成器是通过一个随机噪声向量作为输入,经过生成器网络生成一个逼真的图像。GAN Inversion找到一个随机噪声向量,使得生成器生成的图像尽可能接近给定的真实图像,从而得到该图像的潜在表征,进一步控制生成器生成与原始图像类似的图像,实现图像编辑等任务。
图1为本公开实施例提供的逆转图像重建方法流程图。该方法的执行主体为电子设备。电子设备可以为智能手机、平板电脑、笔记本电脑、车载导航设备、智能运动装备等便携移动设备;也可以为个人计算机、智能家电、服务器等固定式设备,其中,服务器可以是单个服务器,可以是服务器集群,服务器集群可以是分布式集群,也可以是集中式集群。该方法可以应用于对逆转图像进行重建的场景。可以理解的是,本公开实施例提供的逆转图像重建方法还可以应用在其他场景中。
下面对图1所示的逆转图像重建方法进行介绍,该方法包括的具体步骤如下:
S101、获取待逆转图像,所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像。
本步骤中,电子设备获取待逆转图像。可选的,待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像。待逆转图像可以是预先存储在电子设备中的,也可以是用户导入的,不做具体限定。
在一些实施例中,所述获取待逆转图像,包括:获取待处理图像;对所述待处理图像进行预处理,得到待逆转图像。
电子设备获取待处理图像,进一步对所述待处理图像进行预处理,得到待逆转图像。可选的,预处理包括但不限于将待处理图像进行红绿蓝(RGB)通道均值归一化。
在一些实施例中,所述低质量图像是通过如下步骤得到的:对高质量图像数据集进行降采样处理,得到所述低质量图像;其中,所述降采样处理的方法包括随机遮挡、雨雾层、下采样中的一种或多种。
S102、对所述待逆转图像进行逆转处理,得到逆转图像。
获取到待逆转图像之后,电子设备对所述待逆转图像进行逆转处理,得到逆转图像。本公开实施例可以适用于高质量图像以及低质量图像,提高了逆转方法的泛化性能,提升了低质量图像逆转的重建效果,保证了GAN逆转方法对图像质量的稳定性。
在一些实施例中,所述对所述待逆转图像进行逆转处理,得到逆转图像,包括:将所述待逆转图像输入到训练好的逆转模型中,通过所述逆转模型输出逆转图像。
本实施例中,电子设备将所述待逆转图像输入到训练好的逆转模型中,通过所述逆转模型输出逆转图像。可以将高质量图像看作源域,低质量图像看作目标域。两域包含的语义信息相似,因此可以采用领域自适应的方式,用源域的隐空间编码分布来近似目标域的隐空间编码分布。基于领域自适应,可以在没有监督的情况下自发学习源域中高质量图像的建设性表示,并将其迁移到目标域中的低质量图像中,实现知识迁移,提升模型的鲁棒性。
在一些可选的实施方式中,所述将所述待逆转图像输入到训练好的逆转模型中,通过所述逆转模型输出逆转图像,包括:将所述待逆转图像输入所述逆转模型的编码器中,通过所述编码器得到所述待逆转图像的隐空间编码特征;将所述隐空间编码特征输入所述逆转模型的生成器中,通过所述生成器得到逆转图像。
可选的,所述编码器由多个卷积层和残差模块组成的特征提取器连接而成,并连接一条支路跳层;所述生成器由一个多层级的深度网络(例如,StyleGAN)组成,每个层级用于重建待逆转图像的多个图像特征,所述图像特征包括粗糙度、颜色和纹理。具体的,生成器由一系列卷积层、下采样层、AdaIN模块组成;所述层级中,在每个分辨率层级中加上尺度化的噪声。噪声是由高斯噪声组成的单通道图像,将一个噪声图像提供给合成网络的一个特征图。在卷积层之后、AdaIN模块之前将高斯噪声加入生成器网络中;所述AdaIN模块,用于将每个特征图独立进行归一化,同时学习一个仿射变换得到平移因子和缩放因子,基于缩放因子和平移因子对每个特征图进行尺度缩放和平移变换。
在一些优选实施方案中,所述编码器的参数可以通过对高质量图像进行自监督,对低质量图像进行无监督训练的方式更新。在一些优选实施方案中,所述生成器的参数在训练过程中固定。
本公开实施例通过获取待逆转图像,所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像,对所述待逆转图像进行逆转处理,得到逆转图像。由于对所述待逆转图像进行逆转处理,得到逆转图像,进而可以对逆转图像的隐空间特征进行约束,使逆转得到的隐空间特征的分布更符合GAN隐空间中原始隐空间编码的分布,在图像编辑中减少图像伪影的出现,从而提高真实图像的图像编辑的效果。并且,本公开实施例可以适用于高质量图像以及低质量图像,提高了逆转方法的泛化性能,提升了低质量图像逆转的重建效果,保证了GAN逆转方法对图像质量的稳定性。
在一些实施例中,生成器StyleGAN网络包含两个子网络:映射网络和合成网络。
1)映射网络
映射网络的主要功能是将随机采样的噪声数据投影到高维图像空间,由多个全连接层组成,通过一系列仿射变换,由输入的随机采样的噪声数据z得到高维图像特征w。
2)合成网络
合成网络的作用是生成图像。整个模型的分辨率采取渐进式的结构,每个分辨率都有两个卷积层。高维图像特征w通过每个卷积层的AdaIN输入到生成器的每一层中,A表示一个可学习的仿射变换。AdaIN的计算方法如下:首先每个特征图xi独立进行归一化,即特征图中的每个值减去该特征图的均值然后除以方差;一个可学习的仿射变换A将高维图像特征w转化为AdaIN中的平移和缩放因子y=(ys,yb);将每个特征图分别使用学习到的平移和缩放因子进行尺度和平移变换。
3)利用预训练的StyleGAN进行GAN逆转
进行GAN逆转时,隐空间选择通过映射网络得到的高维图像空间。对待逆转图像x,在高维图像空间中寻找能够重建待逆转图像x的最优的隐空间编码特征z。
在一些实施例中,如图2所示,逆转模型通过如下过程训练得到:
将高质量的输入图像视为源域样本,低质量的输入图像视为目标域样本;
根据领域自适应理论的泛化上界理论,算法在目标域的损失函数数值受算法在源域的损失函数和两个域分布之间的散度控制;
其中,所述泛化上界的定义为:
所述l:Y×Y→R+是从标签空间Y的笛卡尔积出发的映射,用来衡量两个标签函数的不同;
所述为衡量标签函数f和假设函数h之间差异的损失函数;
所述为衡量源域分布Ps和目标域分布Pt的散度,不同的散度对应不同的凸函数φ:R+→R:
所述为最优的假设函数h*在源域和目标域的错误率。当最优假设函数的表达能力足够强时,λ*为一个相当小的数值。
所以GAN逆转在目标域的低质量图像上的重建误差被算法在源域上的误差和两个域之间概率分布的距离这两项所控制。本公开通过最小化其上界:算法在源域上的重建误差和两个域概率分布之间的距离,来降低算法在目标域上的错误率,即
其中,G表示预训练GAN模型的生成器(Generator),E表示GAN逆转中的编码器(Encoder),分别表示源域、目标域样本在GAN的隐空间中的分布,°表示函数的复合。源域样本提供了监督信息,目标域样本没有提供监督信息。
(1)源域上的损失函数
其中,损失函数的第一项由均方误差损失、感知损失、身份损失、对抗损失四项组成;
所述均方误差损失的计算过程如下:
所述感知损失(LPIPS,Learned Perceptual Image Patch Similarity)的计算过程如下:
其中H为AlexNet特征提取器;
所述身份损失的计算过程如下:
其中R是代表人脸识别网络的特征提取器;
所述对抗损失的计算过程如下:
其中判别器D的初始化参数来自预训练的GAN中的判别器;
其中D的参数更新过程依赖真实图像与GAN逆转得到的源域隐码重建图像之间的对抗损失,计算过程如下:
即源域上的损失函数计算过程如下:
(2)两域之间的分布差异函数
两个分布之间散度的下界的计算过程如下:
其中h,h′都是假设空间U的假设函数;φ*是散度的凸函数φ对应的共轭函数;用于衡量两个函数的距离。
对任意的假设函数,若满足如下条件:
则优化h′来最大化其下界所得到的值即为相应的散度值,计算过程如下:
其中,下界的具体计算过程如下:
即将逆转后的图像投影到计算感知损失的特征空间中计算两个域的KL散度。
本实施例提供的逆转模型可以在未知低质量图像样本(目标域样本)的监督信息的情况下,通过减小低质量图像样本与高质量图像样本(源域样本)在GAN隐空间分布的差异来进行无监督训练,提高逆转模型对低质量图像的适用性能。通过迁移学习的方式将GAN逆转中在源域高质量图像学习到的隐空间编码特征自然地迁移到目标域低质量图像的逆转中,提升了目标域低质量图像逆转的重建效果,保证了GAN逆转方法对图像质量的稳定性。
图3为本公开另一实施例提供的逆转图像重建方法流程图,如图3所示,该方法包括如下几个步骤:
S301、获取待逆转图像,所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像。
具体的,S301和S101的实现过程和原理一致,此处不再赘述。
可选的,低质量图像是从高质量图像数据集中降采样得到的,训练集中的高质量、低质量数据集并不成对,不会针对低质量图像的监督信息产生。
S302、利用卷积编码器提取所述待逆转图像的浅层特征。
获取待逆转图像之后。电子设备利用卷积编码器提取所述待逆转图像的浅层特征。
S303、将所述浅层特征输入深层特征编码器中,基于所述深层特征编码器提取所述待逆转图像的深层特征。
在电子设备提取所述待逆转图像的浅层特征之后,进而将所述浅层特征输入深层特征编码器中,基于所述深层特征编码器提取所述待逆转图像的深层特征。
在一些实施例中,所述深层特征编码器,包含了若干残差网络模块,组成标准的三层金字塔状特征提取网络。对于一个隐空间编码所包含的18个向量,每个向量是经各自的map2style从特定的特征图中提取得到。第1-2个向量从特征提取网络的第三层,最小的特征图中学习得到,第3-6个向量从特征提取网络的第二层特征图中学习得到,第7-18个向量从特征提取网络的最浅层特征图中学习得到。
其中,所述map2style是一个小的卷积网络,采用采样间隔为2的卷积层和LeakyReLu激活层逐渐地减小特征图的空间尺寸。每个经其生成的512维向量送入StyleGAN生成器中相应的仿射变换中去。
S304、对所述待逆转图像的深层特征进行编码,得到所述待逆转图像的隐空间编码特征。
进一步,电子设备对所述待逆转图像的深层特征进行编码,得到所述待逆转图像的隐空间编码特征。通过对逆转图像的隐空间特征进行约束,使逆转得到的隐空间特征的分布更符合GAN隐空间中原始隐空间编码的分布,在图像编辑中减少图像伪影的出现,从而提高真实图像的图像编辑的效果。
S305、基于生成器对所述隐空间编码特征进行解码处理,得到所述待逆转图像的高维图像特征。
在电子设备得到所述待逆转图像的隐空间编码特征之后,进而通过生成器对所述隐空间编码特征进行解码处理,得到所述待逆转图像的高维图像特征。具体的,将所述待逆转图像的隐空间编码特征通过组成生成器的逐层网络G进行解码,得到所述待逆转图像的高维图像特征。
S306、将所述待逆转图像的高维图像特征映射到红绿蓝图像空间,得到逆转图像。
电子设备将高维图像特征映射回RGB图像空间,输出对待逆转图像进行重建得到的逆转图像。
本公开实施例通过获取待逆转图像,所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像,利用卷积编码器提取所述待逆转图像的浅层特征。进一步,将所述浅层特征输入深层特征编码器中,基于所述深层特征编码器提取所述待逆转图像的深层特征,对所述待逆转图像的深层特征进行编码,得到所述待逆转图像的隐空间编码特征。进而基于生成器对所述隐空间编码特征进行解码处理,得到所述待逆转图像的高维图像特征,将所述待逆转图像的高维图像特征映射到红绿蓝图像空间,得到逆转图像。本公开实施例可以适用于高质量图像以及低质量图像,提高了逆转方法的泛化性能,提升了低质量图像逆转的重建效果,保证了GAN逆转方法对图像质量的稳定性。由于对逆转图像的隐空间特征进行约束,使逆转得到的隐空间特征的分布更符合GAN隐空间中原始隐空间编码的分布,在图像编辑中减少图像伪影的出现,从而提高真实图像的图像编辑的效果。
图4为本公开实施例提供的逆转图像重建装置的结构示意图。该逆转图像重建装置可以是如上实施例的电子设备,或者该逆转图像重建装置可以该电子设备中的部件或组件。本公开实施例提供的逆转图像重建装置可以执行逆转图像重建方法实施例提供的处理流程,如图4所示,逆转图像重建装置40包括:获取模块41、得到模块42;其中,获取模块41用于获取待逆转图像,所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像;得到模块42用于对所述待逆转图像进行逆转处理,得到逆转图像。
可选的,所述获取模块41获取待逆转图像时,具体用于:获取待处理图像;对所述待处理图像进行预处理,得到待逆转图像。
可选的,所述低质量图像是通过如下步骤得到的:对高质量图像数据集进行降采样处理,得到所述低质量图像;其中,所述降采样处理的方法包括随机遮挡、雨雾层、下采样中的一种或多种。
可选的,所述得到模块42对所述待逆转图像进行逆转处理,得到逆转图像时,具体用于:将所述待逆转图像输入到训练好的逆转模型中,通过所述逆转模型输出逆转图像。
可选的,所述得到模块42将所述待逆转图像输入到训练好的逆转模型中,通过所述逆转模型输出逆转图像时,具体用于:将所述待逆转图像输入所述逆转模型的编码器中,通过所述编码器得到所述待逆转图像的隐空间编码特征;将所述隐空间编码特征输入所述逆转模型的生成器中,通过所述生成器得到逆转图像。
可选的,所述得到模块42将所述待逆转图像输入所述逆转模型的编码器中,通过所述编码器得到所述待逆转图像的隐空间编码特征时,具体用于:利用卷积编码器提取所述待逆转图像的浅层特征;将所述浅层特征输入深层特征编码器中,基于所述深层特征编码器提取所述待逆转图像的深层特征;对所述待逆转图像的深层特征进行编码,得到所述待逆转图像的隐空间编码特征。
可选的,所述得到模块42将所述隐空间编码特征输入所述逆转模型的生成器中,通过所述生成器得到逆转图像时,具体用于:基于生成器对所述隐空间编码特征进行解码处理,得到所述待逆转图像的高维图像特征;将所述待逆转图像的高维图像特征映射到红绿蓝图像空间,得到逆转图像。
图4所示实施例的逆转图像重建装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图5为本公开实施例提供的电子设备的结构示意图。该电子设备可以是如上实施例所述的电子设备。本公开实施例提供的电子设备可以执行逆转图像重建方法实施例提供的处理流程,如图5所示,电子设备50包括:存储器51、处理器52、计算机程序和通讯接口53;其中,计算机程序存储在存储器51中,并被配置为由处理器52执行如上所述的逆转图像重建方法。
另外,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的逆转图像重建方法。
此外,本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上所述的逆转图像重建方法。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:
获取待逆转图像,所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像;
对所述待逆转图像进行逆转处理,得到逆转图像。
另外,该电子设备还可以执行如上所述的逆转图像重建方法中的其他步骤。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种逆转图像重建方法,其特征在于,所述方法包括:
获取待逆转图像,所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像;
对所述待逆转图像进行逆转处理,得到逆转图像。
2.根据权利要求1所述的方法,其特征在于,所述获取待逆转图像,包括:
获取待处理图像;
对所述待处理图像进行预处理,得到待逆转图像。
3.根据权利要求1所述的方法,其特征在于,所述低质量图像是通过如下步骤得到的:
对高质量图像数据集进行降采样处理,得到所述低质量图像;
其中,所述降采样处理的方法包括随机遮挡、雨雾层、下采样中的一种或多种。
4.根据权利要求1所述的方法,其特征在于,所述对所述待逆转图像进行逆转处理,得到逆转图像,包括:
将所述待逆转图像输入到训练好的逆转模型中,通过所述逆转模型输出逆转图像。
5.根据权利要求4所述的方法,其特征在于,所述将所述待逆转图像输入到训练好的逆转模型中,通过所述逆转模型输出逆转图像,包括:
将所述待逆转图像输入所述逆转模型的编码器中,通过所述编码器得到所述待逆转图像的隐空间编码特征;
将所述隐空间编码特征输入所述逆转模型的生成器中,通过所述生成器得到逆转图像。
6.根据权利要求5所述的方法,其特征在于,所述将所述待逆转图像输入所述逆转模型的编码器中,通过所述编码器得到所述待逆转图像的隐空间编码特征,包括:
利用卷积编码器提取所述待逆转图像的浅层特征;
将所述浅层特征输入深层特征编码器中,基于所述深层特征编码器提取所述待逆转图像的深层特征;
对所述待逆转图像的深层特征进行编码,得到所述待逆转图像的隐空间编码特征。
7.根据权利要求5所述的方法,其特征在于,所述将所述隐空间编码特征输入所述逆转模型的生成器中,通过所述生成器得到逆转图像,包括:
基于生成器对所述隐空间编码特征进行解码处理,得到所述待逆转图像的高维图像特征;
将所述待逆转图像的高维图像特征映射到红绿蓝图像空间,得到逆转图像。
8.一种逆转图像重建装置,其特征在于,包括:
获取模块,用于获取待逆转图像,所述待逆转图像包括待逆转的高质量图像和/或待逆转的低质量图像;
得到模块,用于对所述待逆转图像进行逆转处理,得到逆转图像。
9.一种电子设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310864682.XA CN116862803B (zh) | 2023-07-13 | 2023-07-13 | 逆转图像重建方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310864682.XA CN116862803B (zh) | 2023-07-13 | 2023-07-13 | 逆转图像重建方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116862803A true CN116862803A (zh) | 2023-10-10 |
CN116862803B CN116862803B (zh) | 2024-05-24 |
Family
ID=88223115
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310864682.XA Active CN116862803B (zh) | 2023-07-13 | 2023-07-13 | 逆转图像重建方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116862803B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
CN113012052A (zh) * | 2019-12-19 | 2021-06-22 | 浙江商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN113034517A (zh) * | 2021-03-31 | 2021-06-25 | 华南理工大学 | 基于生成对抗模型的全自动抠图方法及装置、介质和设备 |
CN113393544A (zh) * | 2020-09-30 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备及介质 |
CN114612289A (zh) * | 2022-03-03 | 2022-06-10 | 广州虎牙科技有限公司 | 风格化图像生成方法、装置及图像处理设备 |
-
2023
- 2023-07-13 CN CN202310864682.XA patent/CN116862803B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180075581A1 (en) * | 2016-09-15 | 2018-03-15 | Twitter, Inc. | Super resolution using a generative adversarial network |
CN113012052A (zh) * | 2019-12-19 | 2021-06-22 | 浙江商汤科技开发有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN113393544A (zh) * | 2020-09-30 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 一种图像处理方法、装置、设备及介质 |
CN113034517A (zh) * | 2021-03-31 | 2021-06-25 | 华南理工大学 | 基于生成对抗模型的全自动抠图方法及装置、介质和设备 |
CN114612289A (zh) * | 2022-03-03 | 2022-06-10 | 广州虎牙科技有限公司 | 风格化图像生成方法、装置及图像处理设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116862803B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084734B (zh) | 一种基于物体局部生成对抗网络的大数据权属保护方法 | |
CN111275784A (zh) | 生成图像的方法和装置 | |
CN111724400A (zh) | 视频自动抠像方法及系统 | |
CN115187706B (zh) | 一种人脸风格迁移的轻量化方法、系统、存储介质和电子设备 | |
CN113066034A (zh) | 人脸图像的修复方法与装置、修复模型、介质和设备 | |
CN112861825B (zh) | 模型训练方法、行人再识别方法、装置和电子设备 | |
CN111932458B (zh) | 一种基于区域间注意力机制的图像信息提取与生成方法 | |
JP2023001926A (ja) | 画像融合方法及び装置、画像融合モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN116012255A (zh) | 一种基于循环一致性生成对抗网络的低光图像增强方法 | |
CN116862803B (zh) | 逆转图像重建方法、装置、设备及可读存储介质 | |
CN117197268A (zh) | 图像生成方法、装置及存储介质 | |
CN116977169A (zh) | 数据处理方法、装置、设备、可读存储介质及程序产品 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
CN116486009A (zh) | 单目三维人体重建方法、装置以及电子设备 | |
CN112950501B (zh) | 基于噪声场的图像降噪方法、装置、设备及存储介质 | |
CN114418835A (zh) | 图像处理方法、装置、设备及介质 | |
CN116310615A (zh) | 图像处理方法、装置、设备及介质 | |
CN116704588B (zh) | 面部图像的替换方法、装置、设备及存储介质 | |
CN117252787B (zh) | 图像重新照明方法、模型训练方法、装置、设备及介质 | |
Qiao et al. | Dual‐route synthetic‐to‐real adaption for single image dehazing | |
US20240070956A1 (en) | Method, electronic device, and computer program product for video processing | |
CN115937338B (zh) | 图像处理方法、装置、设备及介质 | |
CN115482162B (zh) | 一种基于随机重排和无标签模型的隐式图像盲去噪方法 | |
US20240169701A1 (en) | Affordance-based reposing of an object in a scene | |
CN118155270A (zh) | 模型训练方法、人脸识别方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |