CN113177891B - 图像处理方法、装置、电子设备及存储介质 - Google Patents
图像处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113177891B CN113177891B CN202110469180.8A CN202110469180A CN113177891B CN 113177891 B CN113177891 B CN 113177891B CN 202110469180 A CN202110469180 A CN 202110469180A CN 113177891 B CN113177891 B CN 113177891B
- Authority
- CN
- China
- Prior art keywords
- image
- hidden variable
- difference
- region
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 238000013519 translation Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000008439 repair process Effects 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 8
- 230000008878 coupling Effects 0.000 abstract description 7
- 238000010168 coupling process Methods 0.000 abstract description 7
- 238000005859 coupling reaction Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 18
- 230000004927 fusion Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008485 antagonism Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 3
- 208000004350 Strabismus Diseases 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 210000000744 eyelid Anatomy 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本公开关于图像处理方法、装置、电子设备及存储介质,涉及计算机视觉技术领域,该图像处理方法包括:获取生成图像,生成图像是对原始图像执行图像翻译任务后得到的图像;确定生成图像中的待修复区域,以及原始图像中的目标区域;将随机隐变量输入到生成对抗网络中得到中间图像;确定中间图像中第一区域与目标区域之间的差异为第一差异;确定中间图像中第二区域与非待修复区域之间的差异为第二差异;根据第一差异和第二差异,迭代更新随机隐变量,得到目标隐变量;将目标隐变量输入生成式对抗网络,得到目标图像,以解决现有技术中图像翻译中带来的耦合问题,实现局部编辑的功能。
Description
技术领域
本公开涉及计算机视觉技术领域,尤其涉及图像处理方法、装置、电子设备及存储介质。
背景技术
图像翻译是生成式对抗网络(Generative adversarial network,GAN)在学术界和工业界应用的领域之一。图像翻译是指在不改变图像内容的前提下,将一种类型的图像转换为另一种类型的图像。例如:人脸图像与动漫图像之间的转换、人脸图像中人脸年龄的变化、人脸风格化等。
在图像翻译的应用场景中,由于受到训练数据分布的影响,GAN容易发生属性耦合现象,这样会降低图像翻译的生成图像的真实性。比如,在将没有笑脸的人脸图像转换到有笑脸的人脸图像的过程中,容易引发鼻子变大的问题。
为了解决上述问题,现有技术提供了对图像翻译的生成图像进行液化操作(即识别人脸关键点,并根据识别出的关键点拉伸生成图像中的待修复区域)或者融合处理(即将原始图像中与待修复区域对应的区域和生成图像中的非待修复区域融合,以调整生成图像中待修复区域表征的内容)的技术方案。但是,上述技术方案对待修复区域的识别准确性要求较高。一旦出现待修复区域的识别不够准确的情况,融合后的生成图像的真实性依旧较差。
发明内容
本公开提供一种图像处理方法、装置、电子设备及存储介质,以至少解决相关技术中对待调整区域的准确性要求高的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种图像处理方法,包括:获取生成图像,生成图像是对原始图像执行图像翻译任务后得到的图像;确定生成图像中的待修复区域,以及原始图像中的目标区域;目标区域在原始图像中的位置与待修复区域在生成图像中的位置对应;将随机隐变量输入到生成式对抗网络中得到中间图像;确定中间图像中第一区域与目标区域之间的差异为第一差异;第一区域在中间图像中的位置与目标区域在原始图像中的位置对应;确定中间图像中第二区域与非待修复区域之间的差异为第二差异;第二区域在中间图像中的位置与非待修复区域在生成图像中的位置对应;非待修复区域是生成图像中待修复区域以外的区域;根据第一差异和第二差异,迭代更新随机隐变量,得到目标隐变量;将目标隐变量输入生成式对抗网络,得到目标图像。
在一种可能的实现方式中,迭代更新随机隐变量,得到目标隐变量,包括:将更新的随机隐变量输入到生成式对抗网络中得到更新的中间图像;确定更新的第一差异和更新的第二差异;根据更新的第一差异和更新的第二差异更新随机隐变量;迭代执行上述步骤直到确定更新的随机隐变量收敛,并将已收敛的随机隐变量作为目标隐变量。
在另一种可能的实现方式中,确定更新的随机隐变量收敛,包括:在本轮迭代得到的随机隐变量和上轮迭代得到的随机隐变量之间的差值小于预设阈值的情况下,确定更新的随机隐变量收敛。
在另一种可能的实现方式中,根据第一差异和第二差异,迭代更新随机隐变量,包括:根据第一差异确定第一损失值;根据第二差异确定第二损失值;根据第一损失值和第二损失值,更新随机隐变量。
在另一种可能的实现方式中,根据第一损失值和第二损失值,更新随机隐变量,包括:确定第三损失值;第三损失值为第一损失值和第二损失值之和;基于第三损失值,通过反向传播算法更新随机隐变量。
根据本公开实施例的第二方面,提供一种图像处理装置,包括:获取模块,被配置为执行获取生成图像,生成图像是对原始图像执行图像翻译任务后得到的图像;确定模块,被配置为执行确定生成图像中的待修复区域,以及原始图像中的目标区域;目标区域在原始图像中的位置与待修复区域在生成图像中的位置对应;隐变量模块,被配置为执行将随机隐变量输入到生成式对抗网络中得到中间图像;确定模块,还被配置为执行确定中间图像中第一区域与目标区域之间的差异为第一差异;第一区域在中间图像中的位置与目标区域在原始图像中的位置对应;确定模块,还被配置为执行确定中间图像中第二区域与非待修复区域之间的差异为第二差异;第二区域在中间图像中的位置与非待修复区域在生成图像中的位置对应;非待修复区域是生成图像中待修复区域以外的区域;更新模块,被配置为执行根据第一差异和第二差异,迭代更新随机隐变量,得到目标隐变量;生成模块,被配置为执行将目标隐变量输入生成式对抗网络,得到目标图像。
在一种可能的实现方式中,更新模块具体被配置为执行:将更新的随机隐变量输入到生成式对抗网络中得到更新的中间图像;确定更新的第一差异和更新的第二差异;根据更新的第一差异和更新的第二差异更新随机隐变量;迭代执行上述步骤直到确定更新的随机隐变量收敛,并将已收敛的随机隐变量作为目标隐变量。
在另一种可能的实现方式中,更新模块具体被配置为执行:在本轮迭代得到的隐变量和上轮迭代得到的隐变量之间的差值小于预设阈值的情况下,确定更新的随机隐变量收敛。
在另一种可能的实现方式中,更新模块具体被配置为执行:根据第一差异确定第一损失值;根据第二差异确定第二损失值;根据第一损失值和第二损失值,更新随机隐变量。
在另一种可能的实现方式中,更新模块具体被配置为执行:确定第三损失值;第三损失值为第一损失值和第二损失值之和;基于第三损失值,通过反向传播算法更新随机隐变量。
根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现本公开实施例的第一方面中任一图像处理方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例的第一方面中任一图像处理方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,计算机程序产品包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行本公开实施例的第一方面中任一图像处理方法。
本公开实施例所提供的上述技术方案中,通过生成图像中的待修复区域、原始图像中的目标区域和生成式对抗网络对随机隐变量进行迭代更新,从而得到能够表征目标区域的特征和非待修复区域的特征的目标隐变量,进而通过目标隐变量和生成式对抗网络得到目标图像,实现了在生成图像的待修复区域识别不准确的情况下,依然能够得到真实性高的目标图像。进一步地,由于通过目标隐变量和生成式对抗网络生成目标图像,从而不必对生成图像的待修复区域进行拉伸处理,避免了拉伸明显导致的非待修复区域发生变形。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是现有技术中液化操作前的图像和液化操作后图像;
图2是现有技术中液化操作后的非待修复区域变形的图像;
图3是现有技术中液化操作前后的对比图像;
图4是现有技术中融合处理后的图像;
图5是根据一示例性实施例示出的一种图像处理方法的流程图;
图6是根据一示例性实施例示出的原始图像和生成图像;
图7是根据一示例性实施例示出的待修复区域图像;
图8是根据一示例性实施例示出的目标图像;
图9是根据又一示例性实施例示出的一种图像处理方法的流程图;
图10是根据又一示例性实施例示出的一种图像处理方法的流程图;
图11是根据又一示例性实施例示出的一种图像处理方法的流程图;
图12是根据一示例性实施例示出的一种图像处理装置的框图;
图13是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
还应当理解的是,术语“包括”指示所描述特征、整体、步骤、操作元素和/或组件的存在,但不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。
如背景技术中所描述,在图像翻译的应用场景中,由于受到训练数据分布的影响,GAN容易发生属性耦合现象。例如,在将没有笑脸的人脸图像转换到有笑脸的人脸图像的过程中,会引发鼻子变大的问题。现有技术中,通过对图像翻译的生成图像进行液化操作或融合处理,解决GAN在图像翻译过程中产生的属性耦合问题。
具体地,在对图像翻译的生成图像进行液化操作时,先识别生成图像中的人脸特征关键点,再通过人脸特征关键点拉伸待修复区域以实现对待修复区域的调整。以图1为例对前述液化操作进行说明,其中,图1中的(A)为原图经过图像翻译后的生成图像,与原图相比较,生成图像的鼻子区域发生了不合理变化。对图1中的(A)进行液化操作的步骤为,首先识别人脸特征关键点,然后人工选择待修复区域,即人工选择鼻子区域的特征关键点,再通过对鼻子区域的特征关键点进行拉伸处理,得到图1中的(B)所示的人脸图像。可以理解的是,图1中的(B)与图1中的(A)相比,鼻子区域实现了缩小。但是,在进行液化操作时,如果待修复区域拉伸明显,则会带来部位的形变,以图2为例进行说明,当生成图像中有手指停留在鼻子区域上时,如果对鼻子区域进行液化操作,则会使得手指也有拉伸痕迹,进而导致手指变形。此外,液化操作的待修复区域需要人工手动选择待修复区域,如果待修复区域的识别准确性低,则会导致非待修复区域因为被拉伸而发生变形,以图3为例进行说明,在对图3中的(A)进行液化操作时,由于鼻子区域的特征关键点识别不准确,图3中的(B)所示的图像,不仅鼻子区域发生了变化,鼻子区域以外的其他区域也发生了变形。
具体地,在对图像翻译的生成图像进行融合处理时,先对生成图像进行掩码处理,得到待修复区域的掩码图像,再使用如下融合公式进行融合:融合图像=原始图像*待修复区域的掩码图像+生成图像*(1–待修复区域的掩码图像),其中,(1–待修复区域的掩码图像)即生成图像中待修复区域以外的区域的掩码图像。以将没有笑脸的人脸图像转换到有笑脸的人脸图像为例进行说明,首先对生成图像进行掩码处理,得到生成图像的鼻子区域的掩码图像,再使用如下公式进行处理:融合图像(变笑且鼻子不大)=原始图像*鼻子区域的掩码图像+生成图像*(1–鼻子区域的掩码图像),其中,(1–鼻子区域的掩码图像)即生成图像中鼻子区域以外的区域的掩码图像。但是,在进行融合处理时,如果鼻子区域识别不准确,也即,待修复区域未能覆盖整个鼻子区域时,则会出现如图4所示的鼻子区域有重叠的问题。
基于此,本公开实施例提供一种图像处理方法,通过生成图像中的待修复区域、原始图像中的目标区域和生成式对抗网络对随机隐变量进行迭代更新,从而得到能够表征目标区域的特征和非待修复区域的特征的目标隐变量,进而通过目标隐变量和生成式对抗网络得到目标图像,实现了在生成图像中的待修复区域识别不准确的情况下,依然能够得到真实性高的目标图像。进一步地,由于通过目标隐变量和生成式对抗网络生成目标图像,从而不必对生成图像中的待修复区域进行拉伸处理,避免了拉伸明显导致的非待修复区域发生变形。
需要说明的是,本公开实施例提供的图像处理方法可以应用于电子设备。电子设备可以是终端设备或服务器。其中,终端设备可以是智能手机、平板电脑、掌上电脑、车载终端、台式电脑以及笔记本电脑等。服务器可以是任意一个服务器或服务器集群,本公开对此不做限定。
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
图5是根据一示例性实施例示出的一种图像处理方法的流程图。图5所示的图像处理方法可以应用于电子设备或服务器。图5所示的图像处理方法可以包括S501-S507。
在S501中,获取生成图像。
其中,生成图像是对原始图像执行图像翻译任务后得到的图像。
可选地,原始图像和生成图像可以是人脸图像。图像翻译任务可以是人脸风格变化。例如,人脸风格变化可以是人脸变为大笑、人脸变为单眼皮或人脸变为嘟嘴中的一种或多种。
示例性的,以图6为示例对图像翻译进行说明,其中,图6中的(A)对应原始图像,图6中的(B)对应生成图像。在对图6中的(A)所示的人脸执行大笑翻译后,得到图6中的(B)所示的人脸图像。相较于图6中的(A)而言,图6中的(B)所示的人脸不仅具有大笑属性,还具有鼻子变大属性。由于图6中的(B)所示的人脸图像出现鼻子变大属性,导致生成图像的真实性变差。
在S502中,确定生成图像中的待修复区域,以及原始图像中的目标区域。
其中,目标区域在原始图像中的位置与待修复区域在生成图像中的位置对应。
可选地,确定生成图像中的待修复区域,可以是根据用户选取的生成图像中的区域确定。例如,在对原始图像执行大笑的图像翻译任务后,得到生成图像。用户认为生成图像中的鼻子区域需要修复,在生成图像中选取鼻子区域,电子设备将生成图像中的鼻子区域确定为待修复区域。
可选地,还可以是根据图像翻译任务,确定生成图像中的待修复区域。其中,待修复区域表征的对象与图像翻译任务的翻译对象对应。
需要说明的是,在对原始图像执行图像翻译任务时,具有大笑属性与鼻子变大属性耦合、单眼皮属性与嘴巴变小属性耦合以及嘟嘴属性与眯眼属性耦合等特性。
在一个示例中,图像翻译任务是大笑时,由于大笑属性与鼻子变大属性耦合,因此,在对原始图像执行大笑的图像翻译任务后,电子设备将生成图像的鼻子区域确定为待修复区域。
在另一个示例中,图像翻译任务是单眼皮时,由于单眼皮属性与嘴巴变小属性耦合,因此,在对原始图像执行单眼皮的图像翻译任务后,电子设备将生成图像的嘴巴区域确定为待修复区域。
在另一个示例中,图像翻译任务是嘟嘴时,由于嘟嘴属性与眯眼属性耦合,因此,在对原始图像执行单眼皮的图像翻译任务后,电子设备将生成图像的眼睛区域确定为待修复区域。
示例性的,以图6和图7为示例对确定生成图像中的待修复区域进行说明。在对图6中的(A)所示的人脸执行大笑翻译后,得到图6中的(B)所示的人脸图像,由于大笑属性与鼻子变大属性耦合,将图6中的(B)中的鼻子区域确定为待修复区域。通过对图6中的(B)采用人脸关键点连线得到如图7所示的鼻子区域对应的掩码图像。
在S503中,将随机隐变量输入生成式对抗网络中得到中间图像。
其中,中间图像包括第一区域和第二区域。第二区域是中间图像中第一区域以外的区域。
可以理解的是,随机隐变量与中间图像具有一一对应关系。
在一个示例中,将随机隐变量输入生成式对抗网络前向传播,输出中间图像。
在另一个示例中,根据生成图像中的待修复区域或非待修复区域的位置信息,将中间图像划分为第一区域和第二区域,位置信息可以是待修复区域或非待修复区域在生成图像中坐标信息。其中,第一区域在中间图像中的位置与待修复区域在生成图像中的位置对应。第二区域在中间图像中的位置与非待修复区域在生成图像中的位置对应。
在S504中,确定中间图像中第一区域与目标区域之间的差异为第一差异。
其中,第一区域在中间图像中的位置与目标区域在原始图像中的位置对应。
通过确定中间图像中第一区域与目标区域之间的差异为第一差异,能够提高目标隐变量表征目标区域的特征的准确性,进而提高目标图像的合理性。
在S505中,确定中间图像中第二区域与非待修复区域之间的差异为第二差异。
其中,第二区域在中间图像中的位置与非待修复区域在生成图像中的位置对应。非待修复区域是生成图像中待修复区域以外的区域。
通过中间图像中第二区域与非待修复区域之间的差异为第二差异,能够提高目标隐变量表征非待修复区域的特征的准确性,进而提高目标图像的合理性。
在S506中,根据第一差异和第二差异,迭代更新随机隐变量,得到目标隐变量。
在一个示例中,生成式对抗网络的生成器和判别器通过待修复区域和目标区域对随机隐变量进行迭代优化,从而得到合理的目标隐变量。
通过根据第一差异和第二差异迭代更新随机隐变量得到目标隐变量,能够进一步的提高目标隐变量表征目标区域的特征和非待修复区域的特征的准确性,进而提高目标图像的真实性。
在S507中,将目标隐变量输入生成式对抗网络,得到目标图像。
其中,目标图像包括第三区域和第四区域,第四区域是目标图像中第三区域以外的区域。目标图像中的第三区域与原始图像的目标区域相同,且目标图像的第四区域与生成图像中非待修复区域相同。第三区域在目标图像中的位置与目标区域在原始图像中的位置对应,也即,第三区域在目标图像中的位置与待修复区域在生成图像中的位置对应。第四区域在目标图像中的位置与非待修复区域在生成图像中的位置对应。
在一个示例中,将目标隐变量输入生成式对抗网络,前向传播得到如图8所示的目标图像。该目标图像的鼻子区域与图6中(A)中的鼻子区域相同,该目标图像的鼻子区域以外的区域与图6中(B)中的鼻子区域以外的区域相同。
本公开实施例所提供的上述技术方案中,通过生成图像中的待修复区域、原始图像中的目标区域和生成式对抗网络对随机隐变量进行迭代更新,从而得到能够表征目标区域的特征和非待修复区域的特征的目标隐变量,进而通过目标隐变量和生成式对抗网络得到目标图像,实现了生成图像的待修复区域识别不准确的情况下,依然能够得到真实性高的目标图像。进一步地,由于通过目标隐变量生成目标图像,从而不必对生成图像的待修复区域进行拉伸处理,避免了拉伸明显导致的非待修复区域发生变形。
在一种可能的实现方式中,结合图5,如图9所示,S506包括S506a-S506c。
在S506a中,将更新的随机隐变量输入到生成式对抗网络中得到更新的中间图像。
需要说明的是,将更新的随机隐变量输入到生成式对抗网络中得到更新的中间图像,是对S503的迭代。
示例性的,在第一轮迭代中,根据第一差异和第二差异更新随机隐变量,得到第二轮迭代的随机隐变量,通过将第二轮迭代的随机隐变量输入到生成式对抗网络中得到第二轮迭代的中间图像,以便用于确定第二轮迭代的第一差异和第二差异。
在S506b中,确定更新的第一差异和更新的第二差异。
需要说明的是,确定更新的第一差异和更新的第二差异,是对S504和S505的迭代。
示例性的,确定第二轮迭代的中间图像中的第一区域与目标区域之间的差异为第二轮迭代的第一差异。
示例性的,确定第二迭代的中间图像中的第二区域与非待修复区域之间的差异为第二轮迭代的第二差异。
在S506c中,根据更新的第一差异和更新的第二差异更新随机隐变量。
迭代执行上述步骤直到确定更新的随机隐变量收敛,并将已收敛的随机隐变量作为目标隐变量。
需要说明的是,根据更新的第一差异和更新的第二差异更新随机隐变量,是对S506的迭代。
示例性的,根据第二轮迭代的第一差异和第二轮迭代的第二差异,更新第二轮迭代的随机隐变量,得到第三轮迭代的随机隐变量。
在一个示例中,根据更新的第一差异和更新的第二差异更新随机隐变量,包括:根据更新的第一差异确定更新的第一损失值,根据更新的第二差异确定更新的第二损失值,根据更新的第一损失值和更新的第二损失值更新随机隐变量。
在一个示例中,根据更新的第一损失值和更新的第二损失值更新随机隐变量,包括:确定更新的第三损失值,更新的第三损失值为更新的第一损失值和更新的第二损失值之和,基于更新的第三损失值,通过反向传播算法更新随机隐变量。
本公开实施例所提供的上述技术方案中,通过将更新的随机隐变量输入生成式对抗网络得到更新的中间图像,并通过更新的中间图像、目标区域、非待修复区域对更新后的随机隐变量进行再次更新,能够对随机隐变量的合理性进行纠正,从而得到合理的目标隐变量,使得目标隐变量能够更加准确的表征目标区域的特征和非待修复区域特征的目标隐变量,进而实现在待修复区域识别不准确的情况下,依然能够得到真实性高的目标图像。
在另一种可能的实现方式中,确定更新的随机隐变量收敛,包括:在本轮迭代得到的随机隐变量和上轮迭代得到的随机隐变量之间的差值小于预设阈值的情况下,确定更新的随机隐变量收敛。
本公开实施例所提供的上述技术方案中,通过将相邻两轮迭代得到的随机隐变量之间的差值小于预设阈值的情况下,确定随机隐变量已收敛,进而实现获得能够准确表征目标区域的特征和非待修复区域的特征的目标隐变量。
在另一种可能的实现方式中,结合图5,如图10所示,S506包括S506d-S506f。
在S506d中,根据第一差异确定第一损失值。
可选的,第一损失值通过中间图像中第一区域与目标区域之间的第一差异确定。
在一个示例中,确定第一损失值的步骤包括:计算中间图像中的第一区域与原始图像中的目标区域的第一损失函数的值。
示例性的,第一损失函数满足下述公式:Loss1=系数1*mask*||VGG(中间图像)–VGG(原始图像)||+系数2*mask*||中间图像–原始图像||。其中,Loss1为第一损失函数,mask为待修复区域的掩码图像,系数1为VGG模型在Loss1中的权重,系数2为(中间图像–原始图像)在Loss1中的权重。可以理解的是,在该示例中,第一损失函数是VGG感知loss和L1-loss进行约束。
可以理解的是,第一损失函数确定的值,为第一损失值。
在S506e中,根据第二差异确定第二损失值。
可选的,第二损失值通过中间图像中第二区域与非待修复区域之间的第二差异确定。
在一个示例中,确定第二损失值的步骤包括:计算中间图像中的第二区域与生成图像中的非待修复区域的第二损失函数的值。
示例性的,第二损失函数满足下述公式:Loss2=系数3*(1-mask)*||VGG(中间图像)–VGG(生成图像)||+系数4*(1-mask)*||中间图像–生成图像||。其中,Loss2为第二损失函数,(1-mask)为非待修复区域的掩码图像,系数3为VGG模型在Loss2中的权重,系数4为(中间图像–生成图像)在Loss2中的权重。可以理解的是,在该示例中,第二损失函数是VGG感知loss和L1-loss进行约束。
可以理解的是,第二损失函数确定的值,为第二损失值。
在S506f中,根据第一损失值和第二损失值,更新随机隐变量。
本公开实施例所提供的上述技术方案中,通过第一差异确定的第一损失值和第二差异确定的第二损失值,更新随机隐变量,使得目标隐变量能够表征目标区域的特征和非待修复区域的特征,进而使得目标隐变量生成的目标图像中的第三区域与原始图形中的目标区域相同,且目标图像中的第四区域与生成图像中的非待修复区域相同。
在另一种可能的实现方式中,结合图10,如图11所示,S506f包括:S506f1-S506f2。
在S506f1中,确定第三损失值。
其中,第三损失值为第一损失值和第二损失值之和。
在一个示例中,可以通过对第一损失值和第二损失值求和,得到第三损失值。
在另一个示例中,可以通过对第一损失函数和第二损失函数求和,得到第三损失函数,并将第三损失函数确定的值,作为第三损失值。
示例性的,第三损失函数满足下述公式:Loss=Loss1+Loss2,其中,Loss为第三损失函数。
在S506f2中,基于第三损失值,通过反向传播算法更新随机隐变量。
在一个示例中,通过将第三损失值输入生成式对抗网络进行反向传播,对随机隐变量进行更新,从而得到更新的随机隐变量。其中,生成式对抗网络在对第三损失值进行反向传播时,生成式对抗网络的参数固定不变,并且不参与梯度更新。
本公开实施例所提供的上述技术方案中,通过将第三损失值反向传播,更新随机隐变量,从而使得随机隐变量不断迭代更新,进而得到合理的目标隐变量。
图12是根据一示例性实施例示出的一种图像处理装置框图。参照图12,图像处理装置120包括获取模块1201,确定模块1202、隐变量模块1203、更新模块1204和生成模块1205。其中:
获取模块1201被配置为执行获取生成图像,生成图像是对原始图像执行图像翻译任务后得到的图像。例如,结合图5,获取模块1201可以用于执行S501。
确定模块1202被配置为执行确定生成图像中的待修复区域,以及原始图像中的目标区域;目标区域在原始图像中的位置与待修复区域在生成图像中的位置对应。例如,结合图5,确定模块1202可以用于执行S502。
隐变量模块1203被配置为执行将随机隐变量输入到生成式对抗网络中得到中间图像。例如,结合图5,隐变量模块1203可以用于执行S503。
确定模块1202还被配置为执行确定中间图像中第一区域与目标区域之间的差异为第一差异;第一区域在中间图像中的位置与目标区域在原始图像中的位置对应。例如,结合图5,确定模块1202还可以用于执行S504。
确定模块1202还被配置为执行确定中间图像中第二区域与非待修复区域之间的差异为第二差异;第二区域在中间图像中的位置与非待修复区域在生成图像中的位置对应;非待修复区域是生成图像中待修复区域以外的区域。例如,结合图5,确定模块1202可以用于执行S505。
更新模块1204被配置为执行根据第一差异和第二差异,迭代更新随机隐变量,得到目标隐变量。例如,结合图5,确定模块1202可以用于执行S506。
生成模块1205被配置为执行将目标隐变量输入生成式对抗网络,得到目标图像。例如,结合图5,图像生成模块1204可以用于执行S507。
在一种可能的实现方式中,更新模块1204具体被配置为执行:将更新的随机隐变量输入到生成式对抗网络中得到更新的中间图像;确定更新的第一差异和更新的第二差异;根据更新的第一差异和更新的第二差异更新随机隐变量;迭代执行上述步骤直到确定更新的随机隐变量收敛,并将已收敛的随机隐变量作为目标隐变量。例如,结合图9,更新模块1204具体可以用于执行S506a-S506c。
在另一种可能的实现方式中,更新模块1204具体被配置为执行:在本轮迭代得到的隐变量和上轮迭代得到的隐变量之间的差值小于预设阈值的情况下,确定更新的随机隐变量收敛。
在另一种可能的实现方式中,更新模块1204具体被配置为执行:根据第一差异确定第一损失值;根据第二差异确定第二损失值;根据第一损失值和第二损失值,更新随机隐变量。例如,结合图10,更新模块1204具体可以用于执行S506d-S506f。
在另一种可能的实现方式中,更新模块1204具体被配置为执行:确定第三损失值;第三损失值为第一损失值和第二损失值之和;基于第三损失值,通过反向传播算法更新随机隐变量。例如,结合图11,更新模块1204具体可以用于执行S506f1-S506f2。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图13是根据一示例性实施例示出的一种电子设备的框图。如图13所示,电子设备130包括但不限于:处理器1301和存储器1302。
其中,上述的存储器1302,用于存储上述处理器1301的可执行指令。可以理解的是,上述处理器1301被配置为执行指令,以实现上述实施例图5、图9、图10或图11中任一项所示的图像处理方法。
需要说明的是,本领域技术人员可以理解,图13中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图13所示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器1301是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器1302内的软件程序和/或模块,以及调用存储在存储器1302内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器1301可包括一个或多个处理单元;可选的,处理器1301可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1301中。
存储器1302可用于存储软件程序以及各种数据。存储器1302可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能模块所需的应用程序(比如图像获取模块、定位模块、隐变量获取模块或图像生成模块等)等。此外,存储器1302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器1302,上述指令可由电子设备130的处理器1301执行以实现上述实施例图5或图9所示的图像处理方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在一个示例中,参见图12,上述获取模块1201,确定模块1202、隐变量模块1203、更新模块1204和生成模块1205的处理功能均可以由图13中的处理器1301调用存储器1302中存储的计算机程序实现。
在示例性实施例中,本公开实施例还提供一种计算机程序产品,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行上述实施例图5、图9、图10或图11中任一项所示的图像处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (12)
1.一种图像处理方法,其特征在于,包括:
获取生成图像,所述生成图像是对原始图像执行图像翻译任务后得到的图像;
确定所述生成图像中的待修复区域,以及所述原始图像中的目标区域;所述目标区域在所述原始图像中的位置与所述待修复区域在所述生成图像中的位置对应;
将随机隐变量输入到生成式对抗网络中得到中间图像;
确定所述中间图像中第一区域与所述目标区域之间的差异为第一差异;所述第一区域在所述中间图像中的位置与所述目标区域在所述原始图像中的位置对应;
确定所述中间图像中第二区域与非待修复区域之间的差异为第二差异;所述第二区域在所述中间图像中的位置与所述非待修复区域在所述生成图像中的位置对应;所述非待修复区域是所述生成图像中待修复区域以外的区域;
根据所述第一差异和所述第二差异,迭代更新所述随机隐变量,得到目标隐变量;
将所述目标隐变量输入所述生成式对抗网络,得到目标图像。
2.根据权利要求1所述的图像处理方法,其特征在于,所述迭代更新所述随机隐变量,得到目标隐变量,包括:
将更新的随机隐变量输入到所述生成式对抗网络中得到更新的所述中间图像;
确定更新的所述第一差异和更新的所述第二差异;
根据更新的所述第一差异和更新的所述第二差异更新所述随机隐变量;
迭代执行上述步骤直到确定更新的所述随机隐变量收敛,并将已收敛的所述随机隐变量作为所述目标隐变量。
3.根据权利要求2所述的图像处理方法,其特征在于,所述确定更新的所述随机隐变量收敛,包括:
在本轮迭代得到的随机隐变量和上轮迭代得到的随机隐变量之间的差值小于预设阈值的情况下,确定更新的所述随机隐变量收敛。
4.根据权利要求1-3中任一项所述的图像处理方法,其特征在于,所述根据所述第一差异和所述第二差异,迭代更新所述随机隐变量,包括:
根据所述第一差异确定第一损失值;
根据所述第二差异确定第二损失值;
根据所述第一损失值和所述第二损失值,更新所述随机隐变量。
5.根据权利要求4所述的图像处理方法,其特征在于,所述根据所述第一损失值和所述第二损失值,更新所述随机隐变量,包括:
确定第三损失值;所述第三损失值为所述第一损失值和所述第二损失值之和;
基于所述第三损失值,通过反向传播算法更新所述随机隐变量。
6.一种图像处理装置,其特征在于,包括:
获取模块,被配置为执行获取生成图像,所述生成图像是对原始图像执行图像翻译任务后得到的图像;
确定模块,被配置为执行确定所述生成图像中的待修复区域,以及所述原始图像中的目标区域;所述目标区域在所述原始图像中的位置与所述待修复区域在所述生成图像中的位置对应;
隐变量模块,被配置为执行将随机隐变量输入到生成式对抗网络中得到中间图像;
所述确定模块,还被配置为执行确定所述中间图像中第一区域与所述目标区域之间的差异为第一差异;所述第一区域在所述中间图像中的位置与所述目标区域在所述原始图像中的位置对应;
所述确定模块,还被配置为执行确定所述中间图像中第二区域与非待修复区域之间的差异为第二差异;所述第二区域在所述中间图像中的位置与所述非待修复区域在所述生成图像中的位置对应;所述非待修复区域是所述生成图像中待修复区域以外的区域;
更新模块,被配置为执行根据所述第一差异和所述第二差异,迭代更新所述随机隐变量,得到目标隐变量;
生成模块,被配置为执行将所述目标隐变量输入所述生成式对抗网络,得到目标图像。
7.根据权利要求6所述的图像处理装置,其特征在于,所述更新模块具体被配置为执行:
将更新的随机隐变量输入到所述生成式对抗网络中得到更新的所述中间图像;
确定更新的所述第一差异和更新的所述第二差异;
根据更新的所述第一差异和更新的所述第二差异更新所述随机隐变量;
迭代执行上述步骤直到确定更新的所述随机隐变量收敛,并将已收敛的所述随机隐变量作为所述目标隐变量。
8.根据权利要求7所述的图像处理装置,其特征在于,所述更新模块具体被配置为执行:
在本轮迭代得到的隐变量和上轮迭代得到的隐变量之间的差值小于预设阈值的情况下,确定更新的所述随机隐变量收敛。
9.根据权利要求6-8中任一项所述的图像处理装置,其特征在于,所述更新模块具体被配置为执行:
根据所述第一差异确定第一损失值;
根据所述第二差异确定第二损失值;
根据所述第一损失值和所述第二损失值,更新所述随机隐变量。
10.根据权利要求9所述的图像处理装置,其特征在于,所述更新模块具体被配置为执行:
确定第三损失值;所述第三损失值为所述第一损失值和所述第二损失值之和;
基于所述第三损失值,通过反向传播算法更新所述随机隐变量。
11.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的图像处理方法。
12.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至5中任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110469180.8A CN113177891B (zh) | 2021-04-28 | 2021-04-28 | 图像处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110469180.8A CN113177891B (zh) | 2021-04-28 | 2021-04-28 | 图像处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113177891A CN113177891A (zh) | 2021-07-27 |
CN113177891B true CN113177891B (zh) | 2023-09-26 |
Family
ID=76925139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110469180.8A Active CN113177891B (zh) | 2021-04-28 | 2021-04-28 | 图像处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113177891B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114445302A (zh) * | 2022-01-30 | 2022-05-06 | 北京字跳网络技术有限公司 | 图像处理方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008817A (zh) * | 2019-01-29 | 2019-07-12 | 北京奇艺世纪科技有限公司 | 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质 |
CN110020996A (zh) * | 2019-03-18 | 2019-07-16 | 浙江传媒学院 | 一种基于先验知识约束的图像修复方法、系统以及计算机设备 |
CN110689500A (zh) * | 2019-09-29 | 2020-01-14 | 北京达佳互联信息技术有限公司 | 一种人脸图像的处理方法、装置、电子设备及存储介质 |
CN111047508A (zh) * | 2019-12-16 | 2020-04-21 | 北京奇艺世纪科技有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN112258381A (zh) * | 2020-09-29 | 2021-01-22 | 北京达佳互联信息技术有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
-
2021
- 2021-04-28 CN CN202110469180.8A patent/CN113177891B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008817A (zh) * | 2019-01-29 | 2019-07-12 | 北京奇艺世纪科技有限公司 | 模型训练、图像处理方法、装置、电子设备及计算机可读存储介质 |
CN110020996A (zh) * | 2019-03-18 | 2019-07-16 | 浙江传媒学院 | 一种基于先验知识约束的图像修复方法、系统以及计算机设备 |
CN110689500A (zh) * | 2019-09-29 | 2020-01-14 | 北京达佳互联信息技术有限公司 | 一种人脸图像的处理方法、装置、电子设备及存储介质 |
CN111047508A (zh) * | 2019-12-16 | 2020-04-21 | 北京奇艺世纪科技有限公司 | 图像处理方法、装置、计算机设备和存储介质 |
CN112258381A (zh) * | 2020-09-29 | 2021-01-22 | 北京达佳互联信息技术有限公司 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
AttentionGAN: Unpaired Image-to-Image Translation using Attention-Guided Generative Adversarial Networks;Hao Tang,et al.;《arXiv:1911.11897v4》;全文 * |
基于生成对抗网络的人脸图像翻译;吴华明,等.;《天津大学学报(自然科学与工程技术版)》;第52卷(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113177891A (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102410328B1 (ko) | 얼굴 융합 모델 트레이닝 방법, 장치 및 전자 기기 | |
US20220261968A1 (en) | Image optimization method and apparatus, computer storage medium, and electronic device | |
CN107507216B (zh) | 图像中局部区域的替换方法、装置及存储介质 | |
CN110223218B (zh) | 人脸图像处理方法、装置、电子设备及存储介质 | |
CN111339928B (zh) | 眼神调节方法、装置及存储介质 | |
KR102400609B1 (ko) | 딥러닝 네트워크를 이용한 배경 및 얼굴 합성 방법 및 장치 | |
CN111383232B (zh) | 抠图方法、装置、终端设备及计算机可读存储介质 | |
CN110909663B (zh) | 一种人体关键点识别方法、装置及电子设备 | |
CN112651389B (zh) | 非正视虹膜图像的矫正模型训练、矫正、识别方法及装置 | |
US20220284678A1 (en) | Method and apparatus for processing face information and electronic device and storage medium | |
CN111062426A (zh) | 一种建立训练集的方法、装置、电子设备以及介质 | |
CN113177891B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111598087A (zh) | 不规则文字的识别方法、装置、计算机设备及存储介质 | |
CN112417985A (zh) | 一种人脸特征点追踪方法、系统、电子设备和存储介质 | |
US20220292795A1 (en) | Face image processing method, electronic device, and storage medium | |
CN113658035A (zh) | 脸部变换方法、装置、设备、存储介质以及产品 | |
CN113327191A (zh) | 人脸图像合成方法及装置 | |
CN113962845B (zh) | 图像处理方法、图像处理装置、电子设备以及存储介质 | |
CN114708374A (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN110910512A (zh) | 虚拟物体自适应调整方法、装置、计算机设备和存储介质 | |
CN114049290A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112509154B (zh) | 图像生成模型的训练方法、图像生成方法及装置 | |
CN114926322B (zh) | 图像生成方法、装置、电子设备和存储介质 | |
CN113077379B (zh) | 特征潜码的提取方法及装置、设备及存储介质 | |
CN114926324A (zh) | 基于真实人物图像的虚拟试衣模型训练方法、虚拟试衣方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |