CN113487475B

CN113487475B - 交互式图像编辑方法、系统、可读存储介质及电子设备

Info

Publication number: CN113487475B
Application number: CN202111046793.7A
Authority: CN
Inventors: 李波; 马小雪; 何志芬; 赵旭; 刘奋成
Original assignee: Nanchang Hangkong University; Lenovo New Vision Nanchang Artificial Intelligence Industrial Research Institute Co Ltd
Current assignee: Nanchang Hangkong University; Lenovo New Vision Nanchang Artificial Intelligence Industrial Research Institute Co Ltd
Priority date: 2021-09-08
Filing date: 2021-09-08
Publication date: 2021-12-07
Anticipated expiration: 2041-09-08
Also published as: CN113487475A

Abstract

本发明提供一种交互式图像编辑方法、系统、可读存储介质及电子设备，方法包括：获得编辑图像，编辑图像中包含原始图像以及粘贴在原始图像的目标区域上的特征图像；将编辑图像输入至已训练的生成式对抗网络结构中的生成器中；利用生成器中的自适应空间注意力，对编辑图像中特征图像的区域进行优化，得到具有空间注意特征的编辑图像；利用生成器中的自适应通道注意力，对具有空间注意特征的编辑图像自动分配权重，得到具有通道注意特征的编辑图像；对具有通道注意特征的编辑图像进行训练，得到新的组合图像。

Description

交互式图像编辑方法、系统、可读存储介质及电子设备

技术领域

本发明涉及图像编辑技术领域，特别涉及一种交互式图像编辑方法、系统、可读存储介质及电子设备。

背景技术

交互式图像编辑是计算机图形学和计算机视觉的一个重要领域。社交媒体趋势和现代智能手机的高质量图像获取系统加速了网络上快速增长的图像编辑内容，增加了对灵活、高质量和易于使用的图像编辑应用的需求。然而，大多数应用的目标是相当具体的图像编辑操作，并且缺乏更通用的图像操作。另一方面，缺乏为经验不足的用户提供更复杂的编辑操作的工具，例如更改图像中的面部表情。

现有的图像编辑技术主要有两类：(1) 传统交互式图像编辑，以泊松图像编辑为例，它的核心观点是图像融合过程中，在图像梯度域中进行复制粘贴的技术，用色彩梯度代替色彩强度使其产生更真实的效果。它以源图像块内梯度场为指导，将融合边界上目标场景和源图像的差异平滑地扩散到融合图像中，以达到无缝连接。但是由于泊松图像编辑不能很好的估计图像颜色的连续性，所以只有待处理的区域背景色与其相对应的目标图像都没有颜色突变时，才可以取得理想的结果，若存在颜色突变，所得合成图像中不可避免的存在一定的拼接赝像。(2) 基于深度学习的交互式编辑。深度学习的最新进展启发了许多人利用深度神经网络解决图像编辑问题。许多最新技术利用生成对抗网络（GAN）对图像编辑任务进行训练，使用深度学习的方法,利用神经网络提取图像的特征。生成对抗网络（GAN）是目前图像生成领域中一种新的、有效的训练生成模型方法，是通过生成器与鉴别器的对抗来训练的。

目前基于交互式的图像编辑大都是先通过训练生成一个网络模型，但训练花费时间较长，且对图像的细节处理不够好，与传统的图像编辑不同，可能会有不适应的影响，比如修改一点，会对全局造成影响。

发明内容

基于此，本发明的目的是提供一种交互式图像编辑方法、系统、可读存储介质及电子设备，以至少解决上述相关技术中的不足。

本发明提出一种交互式图像编辑方法，包括：

获得编辑图像，所述编辑图像中包含原始图像以及粘贴在所述原始图像的目标区域上的特征图像；

将所述编辑图像输入至已训练的生成式对抗网络结构中的生成器中；

利用所述生成器中的自适应空间注意力，对所述编辑图像中所述特征图像的区域进行优化，得到具有空间注意特征的编辑图像；

利用所述生成器中的自适应通道注意力，对所述具有空间注意特征的编辑图像自动分配权重，得到具有通道注意特征的编辑图像；

对所述具有通道注意特征的编辑图像进行训练，得到新的组合图像。

进一步的，所述已训练的生成式对抗网络结构选择StyleGAN2网络结构，在所述将所述编辑图像输入至已训练的生成式对抗网络结构中的生成器中的步骤之前，所述方法还包括：

将所述StyleGAN2中的生成器划分为第一部分和第二部分；

在所述第一部分与所述第二部分之间依次引入自适应空间注意力和自适应通道注意力。

进一步的，所述利用所述生成器中的自适应空间注意力，对所述编辑图像中所述特征图像的区域进行优化，得到具有空间注意特征的编辑图像的步骤包括：

当所述编辑图像经过所述第一部分后，优化所述编辑图像中所述特征图像的区域的参数，基于所述特征图像的区域的参数，在卷积神经网络中学习到对应的空间结构信息；

基于空间结构信息，将优化范围控制到所述原始图像的目标区域大小，根据引入的所述自适应空间注意力

，利用特征间的空间关系，生成具有空间注意特征的编辑图像

，其中，

的大小为所述特征图像的区域大小。

进一步的，所述具有空间注意特征的编辑图像

的表达式为：

其中，

表示特征图像，

表示原始图像的目标区域，

表示逐元素相乘，

表示逐元素相加。

进一步的，所述利用所述生成器中的自适应通道注意力，对所述具有空间注意特征的编辑图像自动分配权重，得到具有通道注意特征的编辑图像的步骤包括：

根据引入的所述自适应通道注意力

，利用特征的通道间关系，对所述具有空间注意特征的编辑图像自动分配权重，生成具有通道注意特征的编辑图像

；

将所述具有空间注意特征的编辑图像

作为输入；自适应通道注意力的大小为

，

表示通道数；所述具有通道注意特征的编辑图像

的表达式为：

其中，

表示逐元素相乘。

进一步的，所述对所述具有通道注意特征的编辑图像进行训练，得到新的组合图像的步骤包括：

对于所述原始图像的目标区域之外的部分使用逐像素重构误差对其进行限制，目标函数如下：

其中，

表示具有通道注意特征的编辑图像，

表示原始图像，

表示按元素乘积，m为原始图像的目标区域；

运用边缘检测方法获取所述特征图像的边界，得到对应的纹理信息，并使用均方差loss对所述边界进行约束，目标函数如下：

其中，

表示具有通道注意特征的编辑图像对其进行边缘提取，

表示特征图像对其进行边缘提取，边缘提取采用高斯差分算法；

平衡所述特征图像与所述原始图像的色彩，校正所述特征图像与所述原始图像的颜色，使用均方差loss对所述特征图像与所述原始图像的颜色空间进行约束，形成所述新的组合图像，其中目标函数如下：

其中，

表示具有通道注意特征的编辑图像，

表示特征图像，

表示按元素乘积，m为原始图像的目标区域。

本发明还提出一种交互式图像编辑系统，包括：

获取模块，用于获得编辑图像，所述编辑图像中包含原始图像以及粘贴在所述原始图像的目标区域上的特征图像；

输入模块，用于将所述编辑图像输入至已训练的生成式对抗网络结构中的生成器中；

空间注意力模块，用于利用所述生成器中的自适应空间注意力，对所述编辑图像中所述特征图像的区域进行优化，得到具有空间注意特征的编辑图像；

通道注意力模块，用于利用所述生成器中的自适应通道注意力，对所述具有空间注意特征的编辑图像自动分配权重，得到具有通道注意特征的编辑图像；

训练模块，用于对所述具有通道注意特征的编辑图像进行训练，得到新的组合图像。

进一步的，所述已训练的生成式对抗网络结构选择StyleGAN2网络结构，所述系统还包括：

划分模块，用于将所述StyleGAN2中的生成器划分为第一部分和第二部分；

引入模块，用于在所述第一部分与所述第二部分之间依次引入自适应空间注意力和自适应通道注意力。

本发明还提出一种可读存储介质，其上存储有程序，所述程序被处理器执行时实现上述的方法。

本发明还提出一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现上述的方法。

与现有技术相比，本发明的有益效果是：通过使用预训练好的网络进行操作，无需重新训练，不仅大大减少了花费时间，另外利用生成器中的自适应空间注意力及自适应通道注意力使原图像中的区域无缝自然混合到目标图像中，以产生逼真的复制粘贴结果（特别是纹理），解决了源图像和目标图像之间的阴影和几何不一致问题，具有速度快、实现效果好、用户工作量小和图像品质高等优点。

附图说明

图1为本发明第一实施例中的交互式图像编辑方法的流程图；

图2为本发明第一实施例中图像编辑效果质量的实验结果；

图3为本发明第二实施例中的交互式图像编辑系统的结构框图；

图4为本发明第三实施例中的电子设备的结构框图。

主要元件符号说明：

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例一

请参阅图1，所示为本发明第一实施例中的交互式图像编辑方法，所述方法具体包括步骤S101至S105：

S101，获得编辑图像，所述编辑图像中包含原始图像以及粘贴在所述原始图像的目标区域上的特征图像；

在具体实施时，获取原始图像以及特征图像，将特征图像粘贴在原始图像的目标区域位置，作为编辑图像。

需要说明的是，原始图像为FFHQ人脸数据集中的任意一张图片，用户可以自行选取，并且用户同样可以自行选取原始图像的目标区域（例如眼睛、头发），而特征图像可以为用户从任意一张图片中进行选取。

S102，将所述编辑图像输入至已训练的生成式对抗网络结构中的生成器中；

在具体实施时，所述生成式对抗网络结构选用StyleGAN2网络结构，整个StyleGAN2网络结构的优化算法采用ADAM优化算法，固定学习率为0.01，运行时间大约为6s。

将所述StyleGAN2中的生成器划分为16层，对于每一层网络来说，网络中每层不同的特征的重要性不同，特征层的选取也会影响本方法的性能，为了分析由于特征层的选取而对结果造成的影响，将本方法应用于StyleGAN2的生成器的各个层（即从1到16）中以比较图片生成质量；

因为重建着重于恢复低级像素值，并且GAN倾向于在低层中间层代表抽象语义，而在顶层代表内容细节，因此，使用的层越高，重构越好。此外，空间特征图包含更丰富的信息以供参考。由于并不是最高层效果最好，高层包含局部像素模式的信息，例如形状，边缘和颜色，而不是高级语义。而在较高的层中很难充分利用生成的网络的学习语义信息。因此，本方法选用第15层作为分界，将生成器的第1层至第15层划分为第一部分，第16层划分为第二部分，即

与

。

在第一部分与第二部分之间依次引入自适应空间注意力和自适应通道注意力。

S103，利用所述生成器中的自适应空间注意力，对所述编辑图像中所述特征图像的区域进行优化，得到具有空间注意特征的编辑图像；

需要说明的是，空间注意图的大小应符合第15层特征图长和宽的大小，且优化的参数只需是要编辑图像中特征图像的区域的参数，不是编辑图像中所有的区域对任务的贡献都是同样重要的，只有任务相关的区域才是需要关心的，表现在图像上就是对特征图上不同位置的关注程度不同，因此，使用掩膜来形成注意力机制，只关注编辑图像中特征图像的区域。

在具体实施时，当编辑图像经过第一部分后，优化所述编辑图像中所述特征图像的区域的参数，基于所述特征图像的区域的参数，在卷积神经网络中学习到所述特征图像对应的空间结构信息；并且基于空间信息的多样化，为了选择和控制需要的特征，因此将整个优化范围控制到原始图像的目标区域大小（即掩膜）大小，并根据引入自适应空间注意力

，其中，

的大小为所述特征图像的区域大小。

其中，

表示特征图像，

表示原始图像的目标区域，

表示逐元素相乘，

表示逐元素相加。

S104，利用所述生成器中的自适应通道注意力，对所述具有空间注意特征的编辑图像自动分配权重，得到具有通道注意特征的编辑图像；

需要说明的是，在上述S103步骤之后，所引入的自适应通道注意力，其维度应符合第15层特征图的维度。

对于每一层网络，不同的通道特征对应着不同的属性。GAN中生成器的不同单位（即通道）负责生成不同的视觉特征，例如对象与纹理。因此引入的自适应通道注意力

，在本申请中，

是一个c维向量，c是GAN的第L层通道数（L指GAN中的某一层），将通道注意力映射相乘为自适应特征的输入特征映射，通过学习每个通道的权重，抑制无关特征提升卷积特征的表示性能，从而增强交互编辑的可控性。

在具体实施时，根据引入的所述自适应通道注意力

；

将所述具有空间注意特征的编辑图像

作为输入；自适应通道注意力的大小为

，

表示通道数；所述具有通道注意特征的编辑图像

的表达式为：

其中，

表示逐元素相乘。在相乘过程中，注意值被广播，最终，利用特征的通道间关系，生成具有通道注意特征的编辑图像

。

S105，对所述具有通道注意特征的编辑图像进行训练，得到新的组合图像。

具体实施时，对于所述原始图像的目标区域之外的部分（即非掩膜部分）使用逐像素重构误差对其进行限制，目标函数如下：

其中，

表示具有通道注意特征的编辑图像，

表示原始图像，

表示按元素乘积，m为原始图像的目标区域；

可以理解的，该步骤的目的是为了保证编辑图像的背景不变。

其中，

表示具有通道注意特征的编辑图像对其进行边缘提取，

可以理解的，该步骤的目的是控制前景无缝自然混合到原始图像中。

其中，

表示具有通道注意特征的编辑图像，

表示特征图像，

表示按元素乘积，m为原始图像的目标区域。

对于需要编辑的部分，本方法还具有以下操作：

为了消除掩膜部分的噪点，我们对掩膜进行闭运算处理。

为了更好的处理掩膜部分的边缘，使得背景与前景更好的融合，对掩膜进行膨胀和腐蚀操作。

运用图像平滑以及高斯模糊，使图像亮度平缓渐变，减小突变梯度，改善图像质量。

请参阅图2，从视觉观测上来看，本发明的交互式图像编辑方法可以成功地重建目标图像的形状和纹理，且能很好的将原图像中的区域无缝自然混合到目标图像中。

综上，本发明上述实施例当中的交互式图像编辑方法，通过使用预训练好的网络进行操作，无需重新训练，不仅大大减少了花费时间，另外利用生成器中的自适应空间注意力及自适应通道注意力使原图像中的区域无缝自然混合到目标图像中，以产生逼真的复制粘贴结果（特别是纹理），解决了源图像和目标图像之间的阴影和几何不一致问题，具有速度快、实现效果好、用户工作量小和图像品质高等优点。

实施例二

本发明另一方面还提出一种交互式图像编辑系统，请查阅图3，所示为本发明第二实施例中的交互式图像编辑系统，所述系统包括：

获取模块11，用于获得编辑图像，所述编辑图像中包含原始图像以及粘贴在所述原始图像的目标区域上的特征图像；

输入模块14，用于将所述编辑图像输入至已训练的生成式对抗网络结构中的生成器中；

需要说明的是，在本申请中，所述已训练的生成式对抗网络结构选择StyleGAN2网络结构，在输入模块之前，所述系统还包括：

划分模块12，用于将所述StyleGAN2中的生成器划分为第一部分和第二部分；

引入模块13，用于在所述第一部分与所述第二部分之间依次引入自适应空间注意力和自适应通道注意力。

空间注意力模块15，用于利用所述生成器中的自适应空间注意力，对所述编辑图像中所述特征图像的区域进行优化，得到具有空间注意特征的编辑图像；

进一步的，所述空间注意力模块15具体用于：

，其中，

的大小为所述特征图像的区域大小，所述具有空间注意特征的编辑图像

的表达式为：

其中，

表示特征图像，

表示原始图像的目标区域，

表示逐元素相乘，

表示逐元素相加。

通道注意力模块16，用于利用所述生成器中的自适应通道注意力，对所述具有空间注意特征的编辑图像自动分配权重，得到具有通道注意特征的编辑图像；

进一步的，所述通道注意力模块16具体用于：

根据引入的所述自适应通道注意力

；

将所述具有空间注意特征的编辑图像

作为输入；自适应通道注意力的大小为

，

表示通道数；所述具有通道注意特征的编辑图像

的表达式为：

其中，

表示逐元素相乘。

训练模块17，用于对所述具有通道注意特征的编辑图像进行训练，得到新的组合图像。

进一步的，所述训练模块17具体用于：

其中，

表示具有通道注意特征的编辑图像，

表示原始图像，

表示按元素乘积，m为原始图像的目标区域；

其中，

表示具有通道注意特征的编辑图像对其进行边缘提取，

其中，

表示具有通道注意特征的编辑图像，

表示特征图像，

表示按元素乘积，m为原始图像的目标区域。

上述各模块被执行时所实现的功能或操作步骤与上述方法实施例大体相同，在此不再赘述。

本发明实施例所提供的交互式图像编辑系统，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

综上，本发明上述实施例当中的交互式图像编辑系统，通过使用预训练好的网络进行操作，无需重新训练，不仅大大减少了花费时间，另外利用生成器中的自适应空间注意力及自适应通道注意力使原图像中的区域无缝自然混合到目标图像中，以产生逼真的复制粘贴结果（特别是纹理），解决了源图像和目标图像之间的阴影和几何不一致问题，具有速度快、实现效果好、用户工作量小和图像品质高等优点。

实施例三

本发明还提出一种电子设备，请参阅图4，所示为本发明第三实施例中的电子设备，包括存储器10、处理器20以及存储在存储器10上并可在处理器20上运行的程序30，所述处理器20执行所述程序30时实现上述的方法。

在具体实施时，所述处理器20获得编辑图像，所述编辑图像中包含原始图像以及粘贴在所述原始图像的目标区域上的特征图像；

所述处理器20将所述编辑图像输入至已训练的生成式对抗网络结构中的生成器中；

所述处理器20利用所述生成器中的自适应空间注意力，对所述编辑图像中所述特征图像的区域进行优化，得到具有空间注意特征的编辑图像；

所述处理器20利用所述生成器中的自适应通道注意力，对所述具有空间注意特征的编辑图像自动分配权重，得到具有通道注意特征的编辑图像；

所述处理器20对所述具有通道注意特征的编辑图像进行训练，得到新的组合图像。

需要指出的是，图4示出的结构并不构成对电子设备的限定，在其它实施例当中，该电子设备可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本发明实施例还提出一种可读存储介质，其上存储有程序，该程序被处理器执行时实现如上述的交互式图像编辑方法。

本领域技术人员可以理解，在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或装置取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或装置而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或装置或结合这些指令执行系统、装置或装置而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。