CN113487475B - 交互式图像编辑方法、系统、可读存储介质及电子设备 - Google Patents

交互式图像编辑方法、系统、可读存储介质及电子设备 Download PDF

Info

Publication number
CN113487475B
CN113487475B CN202111046793.7A CN202111046793A CN113487475B CN 113487475 B CN113487475 B CN 113487475B CN 202111046793 A CN202111046793 A CN 202111046793A CN 113487475 B CN113487475 B CN 113487475B
Authority
CN
China
Prior art keywords
image
edited
feature
attention
edited image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111046793.7A
Other languages
English (en)
Other versions
CN113487475A (zh
Inventor
李波
马小雪
何志芬
赵旭
刘奋成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Hangkong University
Lenovo New Vision Nanchang Artificial Intelligence Industrial Research Institute Co Ltd
Original Assignee
Nanchang Hangkong University
Lenovo New Vision Nanchang Artificial Intelligence Industrial Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Hangkong University, Lenovo New Vision Nanchang Artificial Intelligence Industrial Research Institute Co Ltd filed Critical Nanchang Hangkong University
Priority to CN202111046793.7A priority Critical patent/CN113487475B/zh
Publication of CN113487475A publication Critical patent/CN113487475A/zh
Application granted granted Critical
Publication of CN113487475B publication Critical patent/CN113487475B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • G06T3/04
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供一种交互式图像编辑方法、系统、可读存储介质及电子设备,方法包括:获得编辑图像,编辑图像中包含原始图像以及粘贴在原始图像的目标区域上的特征图像;将编辑图像输入至已训练的生成式对抗网络结构中的生成器中;利用生成器中的自适应空间注意力,对编辑图像中特征图像的区域进行优化,得到具有空间注意特征的编辑图像;利用生成器中的自适应通道注意力,对具有空间注意特征的编辑图像自动分配权重,得到具有通道注意特征的编辑图像;对具有通道注意特征的编辑图像进行训练,得到新的组合图像。

Description

交互式图像编辑方法、系统、可读存储介质及电子设备
技术领域
本发明涉及图像编辑技术领域,特别涉及一种交互式图像编辑方法、系统、可读存储介质及电子设备。
背景技术
交互式图像编辑是计算机图形学和计算机视觉的一个重要领域。社交媒体趋势和现代智能手机的高质量图像获取系统加速了网络上快速增长的图像编辑内容,增加了对灵活、高质量和易于使用的图像编辑应用的需求。然而,大多数应用的目标是相当具体的图像编辑操作,并且缺乏更通用的图像操作。另一方面,缺乏为经验不足的用户提供更复杂的编辑操作的工具,例如更改图像中的面部表情。
现有的图像编辑技术主要有两类:(1) 传统交互式图像编辑,以泊松图像编辑为例,它的核心观点是图像融合过程中,在图像梯度域中进行复制粘贴的技术,用色彩梯度代替色彩强度使其产生更真实的效果。它以源图像块内梯度场为指导,将融合边界上目标场景和源图像的差异平滑地扩散到融合图像中,以达到无缝连接。但是由于泊松图像编辑不能很好的估计图像颜色的连续性,所以只有待处理的区域背景色与其相对应的目标图像都没有颜色突变时,才可以取得理想的结果,若存在颜色突变,所得合成图像中不可避免的存在一定的拼接赝像。(2) 基于深度学习的交互式编辑。深度学习的最新进展启发了许多人利用深度神经网络解决图像编辑问题。许多最新技术利用生成对抗网络(GAN)对图像编辑任务进行训练,使用深度学习的方法,利用神经网络提取图像的特征。生成对抗网络(GAN)是目前图像生成领域中一种新的、有效的训练生成模型方法,是通过生成器与鉴别器的对抗来训练的。
目前基于交互式的图像编辑大都是先通过训练生成一个网络模型,但训练花费时间较长,且对图像的细节处理不够好,与传统的图像编辑不同,可能会有不适应的影响,比如修改一点,会对全局造成影响。
发明内容
基于此,本发明的目的是提供一种交互式图像编辑方法、系统、可读存储介质及电子设备,以至少解决上述相关技术中的不足。
本发明提出一种交互式图像编辑方法,包括:
获得编辑图像,所述编辑图像中包含原始图像以及粘贴在所述原始图像的目标区域上的特征图像;
将所述编辑图像输入至已训练的生成式对抗网络结构中的生成器中;
利用所述生成器中的自适应空间注意力,对所述编辑图像中所述特征图像的区域进行优化,得到具有空间注意特征的编辑图像;
利用所述生成器中的自适应通道注意力,对所述具有空间注意特征的编辑图像自动分配权重,得到具有通道注意特征的编辑图像;
对所述具有通道注意特征的编辑图像进行训练,得到新的组合图像。
进一步的,所述已训练的生成式对抗网络结构选择StyleGAN2网络结构,在所述将所述编辑图像输入至已训练的生成式对抗网络结构中的生成器中的步骤之前,所述方法还包括:
将所述StyleGAN2中的生成器划分为第一部分和第二部分;
在所述第一部分与所述第二部分之间依次引入自适应空间注意力和自适应通道注意力。
进一步的,所述利用所述生成器中的自适应空间注意力,对所述编辑图像中所述特征图像的区域进行优化,得到具有空间注意特征的编辑图像的步骤包括:
当所述编辑图像经过所述第一部分后,优化所述编辑图像中所述特征图像的区域的参数,基于所述特征图像的区域的参数,在卷积神经网络中学习到对应的空间结构信息;
基于空间结构信息,将优化范围控制到所述原始图像的目标区域大小,根据引入的所述自适应空间注意力
Figure 15060DEST_PATH_IMAGE001
,利用特征间的空间关系,生成具有空间注意特征的编辑图像
Figure 265913DEST_PATH_IMAGE002
,其中,
Figure 778934DEST_PATH_IMAGE001
的大小为所述特征图像的区域大小。
进一步的,所述具有空间注意特征的编辑图像
Figure 849658DEST_PATH_IMAGE003
的表达式为:
Figure 230961DEST_PATH_IMAGE004
其中,
Figure 336320DEST_PATH_IMAGE005
表示特征图像,
Figure 20242DEST_PATH_IMAGE006
表示原始图像的目标区域,
Figure 843842DEST_PATH_IMAGE007
表示逐元素相乘,
Figure 763256DEST_PATH_IMAGE008
表示逐元素相加。
进一步的,所述利用所述生成器中的自适应通道注意力,对所述具有空间注意特征的编辑图像自动分配权重,得到具有通道注意特征的编辑图像的步骤包括:
根据引入的所述自适应通道注意力
Figure 988701DEST_PATH_IMAGE009
,利用特征的通道间关系,对所述具有空间注意特征的编辑图像自动分配权重,生成具有通道注意特征的编辑图像
Figure 843525DEST_PATH_IMAGE010
将所述具有空间注意特征的编辑图像
Figure 888841DEST_PATH_IMAGE011
作为输入;自适应通道注意力的大小为
Figure 611946DEST_PATH_IMAGE012
Figure 691898DEST_PATH_IMAGE013
表示通道数;所述具有通道注意特征的编辑图像
Figure 717623DEST_PATH_IMAGE014
的表达式为:
Figure 250235DEST_PATH_IMAGE015
其中,
Figure 269707DEST_PATH_IMAGE007
表示逐元素相乘。
进一步的,所述对所述具有通道注意特征的编辑图像进行训练,得到新的组合图像的步骤包括:
对于所述原始图像的目标区域之外的部分使用逐像素重构误差对其进行限制,目标函数如下:
Figure 204165DEST_PATH_IMAGE016
其中,
Figure 400791DEST_PATH_IMAGE017
表示具有通道注意特征的编辑图像,
Figure 420700DEST_PATH_IMAGE018
表示原始图像,
Figure 751187DEST_PATH_IMAGE019
表示按元素乘积,m为原始图像的目标区域;
运用边缘检测方法获取所述特征图像的边界,得到对应的纹理信息,并使用均方差loss对所述边界进行约束,目标函数如下:
Figure 540152DEST_PATH_IMAGE020
其中,
Figure 907679DEST_PATH_IMAGE021
表示具有通道注意特征的编辑图像对其进行边缘提取,
Figure 414884DEST_PATH_IMAGE022
表示特征图像对其进行边缘提取,边缘提取采用高斯差分算法;
平衡所述特征图像与所述原始图像的色彩,校正所述特征图像与所述原始图像的颜色,使用均方差loss对所述特征图像与所述原始图像的颜色空间进行约束,形成所述新的组合图像,其中目标函数如下:
Figure 283483DEST_PATH_IMAGE023
其中,
Figure 926953DEST_PATH_IMAGE024
表示具有通道注意特征的编辑图像,
Figure 730961DEST_PATH_IMAGE025
表示特征图像,
Figure 194304DEST_PATH_IMAGE019
表示按元素乘积,m为原始图像的目标区域。
本发明还提出一种交互式图像编辑系统,包括:
获取模块,用于获得编辑图像,所述编辑图像中包含原始图像以及粘贴在所述原始图像的目标区域上的特征图像;
输入模块,用于将所述编辑图像输入至已训练的生成式对抗网络结构中的生成器中;
空间注意力模块,用于利用所述生成器中的自适应空间注意力,对所述编辑图像中所述特征图像的区域进行优化,得到具有空间注意特征的编辑图像;
通道注意力模块,用于利用所述生成器中的自适应通道注意力,对所述具有空间注意特征的编辑图像自动分配权重,得到具有通道注意特征的编辑图像;
训练模块,用于对所述具有通道注意特征的编辑图像进行训练,得到新的组合图像。
进一步的,所述已训练的生成式对抗网络结构选择StyleGAN2网络结构,所述系统还包括:
划分模块,用于将所述StyleGAN2中的生成器划分为第一部分和第二部分;
引入模块,用于在所述第一部分与所述第二部分之间依次引入自适应空间注意力和自适应通道注意力。
本发明还提出一种可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述的方法。
本发明还提出一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现上述的方法。
与现有技术相比,本发明的有益效果是:通过使用预训练好的网络进行操作,无需重新训练,不仅大大减少了花费时间,另外利用生成器中的自适应空间注意力及自适应通道注意力使原图像中的区域无缝自然混合到目标图像中,以产生逼真的复制粘贴结果(特别是纹理),解决了源图像和目标图像之间的阴影和几何不一致问题,具有速度快、实现效果好、用户工作量小和图像品质高等优点。
附图说明
图1为本发明第一实施例中的交互式图像编辑方法的流程图;
图2为本发明第一实施例中图像编辑效果质量的实验结果;
图3为本发明第二实施例中的交互式图像编辑系统的结构框图;
图4为本发明第三实施例中的电子设备的结构框图。
主要元件符号说明:
Figure 132173DEST_PATH_IMAGE026
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一
请参阅图1,所示为本发明第一实施例中的交互式图像编辑方法,所述方法具体包括步骤S101至S105:
S101,获得编辑图像,所述编辑图像中包含原始图像以及粘贴在所述原始图像的目标区域上的特征图像;
在具体实施时,获取原始图像以及特征图像,将特征图像粘贴在原始图像的目标区域位置,作为编辑图像。
需要说明的是,原始图像为FFHQ人脸数据集中的任意一张图片,用户可以自行选取,并且用户同样可以自行选取原始图像的目标区域(例如眼睛、头发),而特征图像可以为用户从任意一张图片中进行选取。
S102,将所述编辑图像输入至已训练的生成式对抗网络结构中的生成器中;
在具体实施时,所述生成式对抗网络结构选用StyleGAN2网络结构,整个StyleGAN2网络结构的优化算法采用ADAM优化算法,固定学习率为0.01,运行时间大约为6s。
将所述StyleGAN2中的生成器划分为16层,对于每一层网络来说,网络中每层不同的特征的重要性不同,特征层的选取也会影响本方法的性能,为了分析由于特征层的选取而对结果造成的影响,将本方法应用于StyleGAN2的生成器的各个层(即从1到16)中以比较图片生成质量;
因为重建着重于恢复低级像素值,并且GAN倾向于在低层中间层代表抽象语义,而在顶层代表内容细节,因此,使用的层越高,重构越好。此外,空间特征图包含更丰富的信息以供参考。由于并不是最高层效果最好,高层包含局部像素模式的信息,例如形状,边缘和颜色,而不是高级语义。而在较高的层中很难充分利用生成的网络的学习语义信息。因此,本方法选用第15层作为分界,将生成器的第1层至第15层划分为第一部分,第16层划分为第二部分,即
Figure 630150DEST_PATH_IMAGE027
Figure 401797DEST_PATH_IMAGE028
在第一部分与第二部分之间依次引入自适应空间注意力和自适应通道注意力。
S103,利用所述生成器中的自适应空间注意力,对所述编辑图像中所述特征图像的区域进行优化,得到具有空间注意特征的编辑图像;
需要说明的是,空间注意图的大小应符合第15层特征图长和宽的大小,且优化的参数只需是要编辑图像中特征图像的区域的参数,不是编辑图像中所有的区域对任务的贡献都是同样重要的,只有任务相关的区域才是需要关心的,表现在图像上就是对特征图上不同位置的关注程度不同,因此,使用掩膜来形成注意力机制,只关注编辑图像中特征图像的区域。
在具体实施时,当编辑图像经过第一部分后,优化所述编辑图像中所述特征图像的区域的参数,基于所述特征图像的区域的参数,在卷积神经网络中学习到所述特征图像对应的空间结构信息;并且基于空间信息的多样化,为了选择和控制需要的特征,因此将整个优化范围控制到原始图像的目标区域大小(即掩膜)大小,并根据引入自适应空间注意力
Figure 555698DEST_PATH_IMAGE029
,利用特征间的空间关系,生成具有空间注意特征的编辑图像
Figure 703783DEST_PATH_IMAGE030
,其中,
Figure 885627DEST_PATH_IMAGE029
的大小为所述特征图像的区域大小。
Figure 93755DEST_PATH_IMAGE031
其中,
Figure 734952DEST_PATH_IMAGE005
表示特征图像,
Figure 686727DEST_PATH_IMAGE006
表示原始图像的目标区域,
Figure 221614DEST_PATH_IMAGE007
表示逐元素相乘,
Figure 600643DEST_PATH_IMAGE008
表示逐元素相加。
S104,利用所述生成器中的自适应通道注意力,对所述具有空间注意特征的编辑图像自动分配权重,得到具有通道注意特征的编辑图像;
需要说明的是,在上述S103步骤之后,所引入的自适应通道注意力,其维度应符合第15层特征图的维度。
对于每一层网络,不同的通道特征对应着不同的属性。GAN中生成器的不同单位(即通道)负责生成不同的视觉特征,例如对象与纹理。因此引入的自适应通道注意力
Figure 729136DEST_PATH_IMAGE009
,在本申请中,
Figure 219023DEST_PATH_IMAGE032
是一个c维向量,c是GAN的第L层通道数(L指GAN中的某一层),将通道注意力映射相乘为自适应特征的输入特征映射,通过学习每个通道的权重,抑制无关特征提升卷积特征的表示性能,从而增强交互编辑的可控性。
在具体实施时,根据引入的所述自适应通道注意力
Figure 873995DEST_PATH_IMAGE009
,利用特征的通道间关系,对所述具有空间注意特征的编辑图像自动分配权重,生成具有通道注意特征的编辑图像
Figure 158346DEST_PATH_IMAGE033
将所述具有空间注意特征的编辑图像
Figure 774135DEST_PATH_IMAGE011
作为输入;自适应通道注意力的大小为
Figure 67713DEST_PATH_IMAGE012
Figure 577192DEST_PATH_IMAGE013
表示通道数;所述具有通道注意特征的编辑图像
Figure 298023DEST_PATH_IMAGE014
的表达式为:
Figure 135529DEST_PATH_IMAGE034
其中,
Figure 701640DEST_PATH_IMAGE007
表示逐元素相乘。在相乘过程中,注意值被广播,最终,利用特征的通道间关系,生成具有通道注意特征的编辑图像
Figure 268887DEST_PATH_IMAGE035
S105,对所述具有通道注意特征的编辑图像进行训练,得到新的组合图像。
具体实施时,对于所述原始图像的目标区域之外的部分(即非掩膜部分)使用逐像素重构误差对其进行限制,目标函数如下:
Figure 987051DEST_PATH_IMAGE036
其中,
Figure 311853DEST_PATH_IMAGE017
表示具有通道注意特征的编辑图像,
Figure 681655DEST_PATH_IMAGE018
表示原始图像,
Figure 103409DEST_PATH_IMAGE019
表示按元素乘积,m为原始图像的目标区域;
可以理解的,该步骤的目的是为了保证编辑图像的背景不变。
运用边缘检测方法获取所述特征图像的边界,得到对应的纹理信息,并使用均方差loss对所述边界进行约束,目标函数如下:
Figure 228360DEST_PATH_IMAGE037
其中,
Figure 102775DEST_PATH_IMAGE021
表示具有通道注意特征的编辑图像对其进行边缘提取,
Figure 213950DEST_PATH_IMAGE022
表示特征图像对其进行边缘提取,边缘提取采用高斯差分算法;
可以理解的,该步骤的目的是控制前景无缝自然混合到原始图像中。
平衡所述特征图像与所述原始图像的色彩,校正所述特征图像与所述原始图像的颜色,使用均方差loss对所述特征图像与所述原始图像的颜色空间进行约束,形成所述新的组合图像,其中目标函数如下:
Figure 490211DEST_PATH_IMAGE023
其中,
Figure 786063DEST_PATH_IMAGE024
表示具有通道注意特征的编辑图像,
Figure 147774DEST_PATH_IMAGE025
表示特征图像,
Figure 62640DEST_PATH_IMAGE019
表示按元素乘积,m为原始图像的目标区域。
对于需要编辑的部分,本方法还具有以下操作:
为了消除掩膜部分的噪点,我们对掩膜进行闭运算处理。
为了更好的处理掩膜部分的边缘,使得背景与前景更好的融合,对掩膜进行膨胀和腐蚀操作。
运用图像平滑以及高斯模糊,使图像亮度平缓渐变,减小突变梯度,改善图像质量。
请参阅图2,从视觉观测上来看,本发明的交互式图像编辑方法可以成功地重建目标图像的形状和纹理,且能很好的将原图像中的区域无缝自然混合到目标图像中。
综上,本发明上述实施例当中的交互式图像编辑方法,通过使用预训练好的网络进行操作,无需重新训练,不仅大大减少了花费时间,另外利用生成器中的自适应空间注意力及自适应通道注意力使原图像中的区域无缝自然混合到目标图像中,以产生逼真的复制粘贴结果(特别是纹理),解决了源图像和目标图像之间的阴影和几何不一致问题,具有速度快、实现效果好、用户工作量小和图像品质高等优点。
实施例二
本发明另一方面还提出一种交互式图像编辑系统,请查阅图3,所示为本发明第二实施例中的交互式图像编辑系统,所述系统包括:
获取模块11,用于获得编辑图像,所述编辑图像中包含原始图像以及粘贴在所述原始图像的目标区域上的特征图像;
输入模块14,用于将所述编辑图像输入至已训练的生成式对抗网络结构中的生成器中;
需要说明的是,在本申请中,所述已训练的生成式对抗网络结构选择StyleGAN2网络结构,在输入模块之前,所述系统还包括:
划分模块12,用于将所述StyleGAN2中的生成器划分为第一部分和第二部分;
引入模块13,用于在所述第一部分与所述第二部分之间依次引入自适应空间注意力和自适应通道注意力。
空间注意力模块15,用于利用所述生成器中的自适应空间注意力,对所述编辑图像中所述特征图像的区域进行优化,得到具有空间注意特征的编辑图像;
进一步的,所述空间注意力模块15具体用于:
当所述编辑图像经过所述第一部分后,优化所述编辑图像中所述特征图像的区域的参数,基于所述特征图像的区域的参数,在卷积神经网络中学习到对应的空间结构信息;
基于空间结构信息,将优化范围控制到所述原始图像的目标区域大小,根据引入的所述自适应空间注意力
Figure 193407DEST_PATH_IMAGE029
,利用特征间的空间关系,生成具有空间注意特征的编辑图像
Figure 660161DEST_PATH_IMAGE038
,其中,
Figure 243589DEST_PATH_IMAGE029
的大小为所述特征图像的区域大小,所述具有空间注意特征的编辑图像
Figure 24463DEST_PATH_IMAGE003
的表达式为:
Figure 947420DEST_PATH_IMAGE039
其中,
Figure 522758DEST_PATH_IMAGE005
表示特征图像,
Figure 422843DEST_PATH_IMAGE006
表示原始图像的目标区域,
Figure 741829DEST_PATH_IMAGE007
表示逐元素相乘,
Figure 784871DEST_PATH_IMAGE008
表示逐元素相加。
通道注意力模块16,用于利用所述生成器中的自适应通道注意力,对所述具有空间注意特征的编辑图像自动分配权重,得到具有通道注意特征的编辑图像;
进一步的,所述通道注意力模块16具体用于:
根据引入的所述自适应通道注意力
Figure 531110DEST_PATH_IMAGE009
,利用特征的通道间关系,对所述具有空间注意特征的编辑图像自动分配权重,生成具有通道注意特征的编辑图像
Figure 417027DEST_PATH_IMAGE014
将所述具有空间注意特征的编辑图像
Figure 274124DEST_PATH_IMAGE011
作为输入;自适应通道注意力的大小为
Figure 171673DEST_PATH_IMAGE012
Figure 354393DEST_PATH_IMAGE013
表示通道数;所述具有通道注意特征的编辑图像
Figure 462026DEST_PATH_IMAGE014
的表达式为:
Figure 122814DEST_PATH_IMAGE015
其中,
Figure 140449DEST_PATH_IMAGE007
表示逐元素相乘。
训练模块17,用于对所述具有通道注意特征的编辑图像进行训练,得到新的组合图像。
进一步的,所述训练模块17具体用于:
对于所述原始图像的目标区域之外的部分使用逐像素重构误差对其进行限制,目标函数如下:
Figure 228491DEST_PATH_IMAGE040
其中,
Figure 823420DEST_PATH_IMAGE017
表示具有通道注意特征的编辑图像,
Figure 22320DEST_PATH_IMAGE018
表示原始图像,
Figure 956778DEST_PATH_IMAGE019
表示按元素乘积,m为原始图像的目标区域;
运用边缘检测方法获取所述特征图像的边界,得到对应的纹理信息,并使用均方差loss对所述边界进行约束,目标函数如下:
Figure 153404DEST_PATH_IMAGE041
其中,
Figure 173313DEST_PATH_IMAGE021
表示具有通道注意特征的编辑图像对其进行边缘提取,
Figure 8195DEST_PATH_IMAGE022
表示特征图像对其进行边缘提取,边缘提取采用高斯差分算法;
平衡所述特征图像与所述原始图像的色彩,校正所述特征图像与所述原始图像的颜色,使用均方差loss对所述特征图像与所述原始图像的颜色空间进行约束,形成所述新的组合图像,其中目标函数如下:
Figure 734842DEST_PATH_IMAGE023
其中,
Figure 430266DEST_PATH_IMAGE024
表示具有通道注意特征的编辑图像,
Figure 999787DEST_PATH_IMAGE025
表示特征图像,
Figure 274911DEST_PATH_IMAGE019
表示按元素乘积,m为原始图像的目标区域。
上述各模块被执行时所实现的功能或操作步骤与上述方法实施例大体相同,在此不再赘述。
本发明实施例所提供的交互式图像编辑系统,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
综上,本发明上述实施例当中的交互式图像编辑系统,通过使用预训练好的网络进行操作,无需重新训练,不仅大大减少了花费时间,另外利用生成器中的自适应空间注意力及自适应通道注意力使原图像中的区域无缝自然混合到目标图像中,以产生逼真的复制粘贴结果(特别是纹理),解决了源图像和目标图像之间的阴影和几何不一致问题,具有速度快、实现效果好、用户工作量小和图像品质高等优点。
实施例三
本发明还提出一种电子设备,请参阅图4,所示为本发明第三实施例中的电子设备,包括存储器10、处理器20以及存储在存储器10上并可在处理器20上运行的程序30,所述处理器20执行所述程序30时实现上述的方法。
在具体实施时,所述处理器20获得编辑图像,所述编辑图像中包含原始图像以及粘贴在所述原始图像的目标区域上的特征图像;
所述处理器20将所述编辑图像输入至已训练的生成式对抗网络结构中的生成器中;
所述处理器20利用所述生成器中的自适应空间注意力,对所述编辑图像中所述特征图像的区域进行优化,得到具有空间注意特征的编辑图像;
所述处理器20利用所述生成器中的自适应通道注意力,对所述具有空间注意特征的编辑图像自动分配权重,得到具有通道注意特征的编辑图像;
所述处理器20对所述具有通道注意特征的编辑图像进行训练,得到新的组合图像。
需要指出的是,图4示出的结构并不构成对电子设备的限定,在其它实施例当中,该电子设备可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还提出一种可读存储介质,其上存储有程序,该程序被处理器执行时实现如上述的交互式图像编辑方法。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或装置取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或装置而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或装置或结合这些指令执行系统、装置或装置而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种交互式图像编辑方法,其特征在于,包括:
获得编辑图像,所述编辑图像中包含原始图像以及粘贴在所述原始图像的目标区域上的特征图像;
将已训练的生成式对抗网络结构中的生成器划分为第一部分和第二部分,所述已训练的生成式对抗网络结构选择StyleGAN2网络结构;
在所述第一部分与所述第二部分之间依次引入自适应空间注意力和自适应通道注意力;
将所述编辑图像输入至所述StyleGAN2网络结构中的生成器中;
利用所述生成器中的自适应空间注意力,对所述编辑图像中所述特征图像的区域进行优化,得到具有空间注意特征的编辑图像:
当所述编辑图像经过所述第一部分后,优化所述编辑图像中所述特征图像的区域的参数,基于所述特征图像的区域的参数,在卷积神经网络中学习到对应的空间结构信息;
基于空间结构信息,将优化范围控制到所述原始图像的目标区域大小,根据引入的所述自适应空间注意力
Figure 693950DEST_PATH_IMAGE001
,利用特征间的空间关系,生成具有空间注意特征的编辑图像
Figure 664180DEST_PATH_IMAGE002
,其中,
Figure 409282DEST_PATH_IMAGE001
的大小为所述特征图像的区域大小;
所述具有空间注意特征的编辑图像
Figure 173976DEST_PATH_IMAGE003
的表达式为:
Figure 4528DEST_PATH_IMAGE004
其中,
Figure 512870DEST_PATH_IMAGE005
表示特征图像,
Figure 112479DEST_PATH_IMAGE006
表示原始图像的目标区域,
Figure 48074DEST_PATH_IMAGE007
表示逐元素相乘,
Figure 365923DEST_PATH_IMAGE008
表示逐元素相加;
利用所述生成器中的自适应通道注意力,对所述具有空间注意特征的编辑图像自动分配权重,得到具有通道注意特征的编辑图像:
根据引入的所述自适应通道注意力
Figure 412376DEST_PATH_IMAGE009
,利用特征的通道间关系,对所述具有空间注意特征的编辑图像自动分配权重,生成具有通道注意特征的编辑图像
Figure 132070DEST_PATH_IMAGE010
将所述具有空间注意特征的编辑图像
Figure 238567DEST_PATH_IMAGE011
作为输入;自适应通道注意力的大小为
Figure 43711DEST_PATH_IMAGE012
Figure 893856DEST_PATH_IMAGE013
表示通道数;所述具有通道注意特征的编辑图像
Figure 468057DEST_PATH_IMAGE014
的表达式为:
Figure 739595DEST_PATH_IMAGE015
其中,
Figure 766457DEST_PATH_IMAGE007
表示逐元素相乘;
对所述具有通道注意特征的编辑图像进行训练,得到新的组合图像:
对于所述原始图像的目标区域之外的部分使用逐像素重构误差对其进行限制,目标函数如下:
Figure 420292DEST_PATH_IMAGE016
其中,
Figure 848999DEST_PATH_IMAGE017
表示具有通道注意特征的编辑图像,
Figure 297298DEST_PATH_IMAGE018
表示原始图像,m为原始图像的目标区域;
运用边缘检测方法获取所述特征图像的边界,得到对应的纹理信息,并使用均方差loss对所述边界进行约束,目标函数如下:
Figure 77035DEST_PATH_IMAGE019
平衡所述特征图像与所述原始图像的色彩,校正所述特征图像与所述原始图像的颜色,使用均方差loss对所述特征图像与所述原始图像的颜色空间进行约束,形成所述新的组合图像,其中目标函数如下:
Figure 268982DEST_PATH_IMAGE020
其中,
Figure 552196DEST_PATH_IMAGE021
表示具有通道注意特征的编辑图像,
Figure 436975DEST_PATH_IMAGE022
表示特征图像, m为原始图像的目标区域。
2.一种交互式图像编辑系统,其特征在于,包括:
获取模块,用于获得编辑图像,所述编辑图像中包含原始图像以及粘贴在所述原始图像的目标区域上的特征图像;
划分模块,用于将已训练的生成式对抗网络结构中的生成器划分为第一部分和第二部分,所述已训练的生成式对抗网络结构选择StyleGAN2网络结构;
引入模块,用于在所述第一部分与所述第二部分之间依次引入自适应空间注意力和自适应通道注意力;
输入模块,用于将所述编辑图像输入至所述StyleGAN2网络结构中的生成器中;
空间注意力模块,用于利用所述生成器中的自适应空间注意力,对所述编辑图像中所述特征图像的区域进行优化,得到具有空间注意特征的编辑图像;
通道注意力模块,用于利用所述生成器中的自适应通道注意力,对所述具有空间注意特征的编辑图像自动分配权重,得到具有通道注意特征的编辑图像;
训练模块,用于对所述具有通道注意特征的编辑图像进行训练,得到新的组合图像;
其中,所述空间注意力模块具体用于:
当所述编辑图像经过所述第一部分后,优化所述编辑图像中所述特征图像的区域的参数,基于所述特征图像的区域的参数,在卷积神经网络中学习到对应的空间结构信息;
基于空间结构信息,将优化范围控制到所述原始图像的目标区域大小,根据引入的所述自适应空间注意力
Figure 438429DEST_PATH_IMAGE001
,利用特征间的空间关系,生成具有空间注意特征的编辑图像
Figure 168488DEST_PATH_IMAGE023
,其中,
Figure 368525DEST_PATH_IMAGE001
的大小为所述特征图像的区域大小,所述具有空间注意特征的编辑图像
Figure 361889DEST_PATH_IMAGE024
的表达式为:
Figure 912956DEST_PATH_IMAGE004
其中,
Figure 384389DEST_PATH_IMAGE005
表示特征图像,
Figure 704512DEST_PATH_IMAGE006
表示原始图像的目标区域,
Figure 868777DEST_PATH_IMAGE007
表示逐元素相乘,
Figure 641561DEST_PATH_IMAGE008
表示逐元素相加;
所述通道注意力模块具体用于:
根据引入的所述自适应通道注意力
Figure 916684DEST_PATH_IMAGE009
,利用特征的通道间关系,对所述具有空间注意特征的编辑图像自动分配权重,生成具有通道注意特征的编辑图像
Figure 91314DEST_PATH_IMAGE014
将所述具有空间注意特征的编辑图像
Figure 223218DEST_PATH_IMAGE011
作为输入;自适应通道注意力的大小为
Figure 686560DEST_PATH_IMAGE012
Figure 562112DEST_PATH_IMAGE013
表示通道数;所述具有通道注意特征的编辑图像
Figure 794510DEST_PATH_IMAGE014
的表达式为:
Figure 97316DEST_PATH_IMAGE015
其中,
Figure 47954DEST_PATH_IMAGE007
表示逐元素相乘;
所述训练模块具体用于:
对于所述原始图像的目标区域之外的部分使用逐像素重构误差对其进行限制,目标函数如下:
Figure 727197DEST_PATH_IMAGE025
其中,
Figure 814102DEST_PATH_IMAGE017
表示具有通道注意特征的编辑图像,
Figure 553388DEST_PATH_IMAGE018
表示原始图像, m为原始图像的目标区域;
运用边缘检测方法获取所述特征图像的边界,得到对应的纹理信息,并使用均方差loss对所述边界进行约束,目标函数如下:
Figure 725743DEST_PATH_IMAGE026
平衡所述特征图像与所述原始图像的色彩,校正所述特征图像与所述原始图像的颜色,使用均方差loss对所述特征图像与所述原始图像的颜色空间进行约束,形成所述新的组合图像,其中目标函数如下:
Figure 943098DEST_PATH_IMAGE020
其中,
Figure 150088DEST_PATH_IMAGE021
表示具有通道注意特征的编辑图像,
Figure 794696DEST_PATH_IMAGE022
表示特征图像,m为原始图像的目标区域。
3.一种可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1所述的方法。
4.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1所述的方法。
CN202111046793.7A 2021-09-08 2021-09-08 交互式图像编辑方法、系统、可读存储介质及电子设备 Active CN113487475B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111046793.7A CN113487475B (zh) 2021-09-08 2021-09-08 交互式图像编辑方法、系统、可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111046793.7A CN113487475B (zh) 2021-09-08 2021-09-08 交互式图像编辑方法、系统、可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN113487475A CN113487475A (zh) 2021-10-08
CN113487475B true CN113487475B (zh) 2021-12-07

Family

ID=77946679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111046793.7A Active CN113487475B (zh) 2021-09-08 2021-09-08 交互式图像编辑方法、系统、可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN113487475B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439725B (zh) * 2022-11-03 2023-01-03 成都摹客科技有限公司 一种多人实时编辑的处理方法与装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184851A (zh) * 2020-10-26 2021-01-05 北京百度网讯科技有限公司 图像编辑方法、网络训练方法、相关装置及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101508977B1 (ko) * 2012-08-16 2015-04-08 네이버 주식회사 이미지 분석에 의한 이미지 자동 편집 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
CN111814566A (zh) * 2020-06-11 2020-10-23 北京三快在线科技有限公司 图像编辑方法、装置、电子设备及存储介质
CN112801901B (zh) * 2021-01-21 2023-08-18 北京交通大学 基于分块多尺度卷积神经网络的图像去模糊算法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184851A (zh) * 2020-10-26 2021-01-05 北京百度网讯科技有限公司 图像编辑方法、网络训练方法、相关装置及电子设备

Also Published As

Publication number Publication date
CN113487475A (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
Gooch et al. Artistic vision: painterly rendering using computer vision techniques
Tan et al. Michigan: multi-input-conditioned hair image generation for portrait editing
CN112889092A (zh) 有纹理的神经化身
CN111243051B (zh) 基于肖像照片的简笔画生成方法、系统及存储介质
US11521299B2 (en) Retouching digital images utilizing separate deep-learning neural networks
CN103914862A (zh) 基于边缘正切流的模拟铅笔素描画方法
Yang et al. A stylized approach for pencil drawing from photographs
CN113487475B (zh) 交互式图像编辑方法、系统、可读存储介质及电子设备
Ji et al. Geometry-aware single-image full-body human relighting
Zang et al. Artistic preprocessing for painterly rendering and image stylization
Gai et al. Artistic low poly rendering for images
CN113228111A (zh) 图像处理方法、图像处理系统和程序
CN113450282A (zh) 美化图像的方法和系统
CN114862729A (zh) 图像处理方法、装置、计算机设备和存储介质
CN116823596A (zh) 一种驾驶状态图像数据集的增广方法、增广装置
CN116342377A (zh) 一种降质场景下伪装目标图像自适应生成方法与系统
JP2017157014A (ja) 画像処理装置、画像処理方法、画像処理システムおよびプログラム
CN116168186A (zh) 一种服装长度可控的虚拟试衣图生成方法
CN114219742A (zh) 一种联合流形约束和fb-gan的人脸变形方法和系统
Cao et al. Automatic motion-guided video stylization and personalization
Lee et al. AutoCaCoNet: Automatic Cartoon Colorization Network Using Self-Attention GAN, Segmentation, and Color Correction
Rosin et al. Watercolour rendering of portraits
Park et al. StyleBoost: A Study of Personalizing Text-to-Image Generation in Any Style using DreamBooth
Rajatha et al. Cartoonizer: Convert Images and Videos to Cartoon-Style Images and Videos
Zhao et al. Regional Traditional Painting Generation Based on Controllable Disentanglement Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant