CN117152289A

CN117152289A - 图像编辑方法、装置、电子设备、存储介质和程序产品

Info

Publication number: CN117152289A
Application number: CN202311139417.1A
Authority: CN
Inventors: 张继丰
Original assignee: Baidu com Times Technology Beijing Co Ltd
Current assignee: Baidu com Times Technology Beijing Co Ltd
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-12-01

Abstract

本公开提供了图像编辑方法、装置、电子设备、存储介质和程序产品，涉及图像处理技术领域，具体涉及图像编辑技术领域，尤其涉及图像编辑方法、装置、电子设备、存储介质和程序产品。具体实现方案为：获取原始图像中被编辑的原始图像点的起始坐标和目标坐标；将原始图像输入生成对抗网络，得到原始图像的潜在特征图；根据起始坐标和目标坐标，调整潜在特征图中与原始图像点对应的潜在图像点的位置，直至调整后的潜在图像点的坐标数据与目标坐标匹配；以及基于调整后的潜在特征图输出目标图像。

Description

图像编辑方法、装置、电子设备、存储介质和程序产品

技术领域

本公开涉及图像处理技术领域，具体涉及图像编辑技术领域，尤其涉及图像编辑方法、装置、电子设备、存储介质和程序产品。

背景技术

随着图像处理技术的提高，用户对图像处理的需求越来越多。在图像处理领域，部分用户期望能够对图像进行编辑以调整图像中的物体的形状等属性。然而，编辑图像的空间属性(如物体的位置、形状等)一直是一个有难度的任务。

发明内容

本公开提供了一种图像编辑方法、装置、电子设备、存储介质和程序产品，能够实现对图像的编辑。

根据本公开的一方面，提供了一种交互式图像编辑方法，包括：获取原始图像中被编辑的原始图像点的起始坐标和目标坐标；将原始图像输入生成对抗网络，得到原始图像的潜在特征图；根据起始坐标和目标坐标，调整潜在特征图中与原始图像点对应的潜在图像点的位置，直至调整后的潜在图像点的坐标数据与目标坐标匹配；以及基于调整后的潜在特征图输出目标图像。

根据本公开的另一方面，提供了一种图像编辑装置，包括：获取模块，被配置为获取原始图像中被编辑的原始图像点的起始坐标和目标坐标；生成模块，被配置为将原始图像输入生成对抗网络，得到原始图像的潜在特征图；调整模块，被配置为根据起始坐标和目标坐标，调整潜在特征图中与原始图像点对应的潜在图像点的位置，直至调整后的潜在图像点的坐标数据与目标坐标匹配；以及输出模块，被配置为基于调整后的潜在特征图输出目标图像。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器和存储器。其中，存储器与至少一个处理器通信连接，并存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施例提及的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行实施例提及的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述实施例提及的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出了可以应用本公开的交互式图像编辑方法或图像编辑装置的示例性系统架构的示意性框图；

图2是根据本公开的第一实施例的交互式图像编辑方法的流程示意图；

图3是根据本公开的第二实施例的交互式图像编辑方法的流程示意图；

图4是本公开的第二实施例的原始图像中被编辑的像素点的像素起始位置和像素目标位置的示意图；

图5是根据本公开的第三实施例的交互式图像编辑方法的流程示意图；

图6是根据本公开的第四实施例的交互式图像编辑方法的流程示意图；

图7是根据本公开的第五实施例的图像编辑装置的示意性框图；

图8示出了可以用来实施本公开的实施例的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了可以应用本公开的交互式图像编辑方法或图像编辑装置的示例性系统架构的示意性框图。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如视频类应用、直播应用、即时通信工具、邮箱客户端、社交平台软件等。

这里的终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对接收到的原始图像、被编辑的原始图像点的起始坐标和目标坐标等数据进行分析等处理，并将处理结果(例如目标图像)反馈给终端设备。

需要说明的是，本公开实施例所提供的交互式图像编辑方法可以由服务器105或者终端设备101、102、103执行，相应地，图像编辑装置可以设置于服务器105或者终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，图2是根据本公开的第一实施例的交互式图像编辑方法的流程示意图。如图2所示，该交互式图像编辑方法200可包括以下步骤：

步骤201，获取原始图像中被编辑的原始图像点的起始坐标和目标坐标。

在本实施例中，原始图像可以是执行主体本地存储的图像，也可以是外部设备传输的图像，此处不做限制。

在本实施例中，被编辑的原始图像点的起始坐标和目标坐标可以由执行主体检测获得，也可由外部设备传输得到。例如，执行主体可例如为图1示例的终端设备，其配备有触控屏。终端设备可控制触控屏显示原始图像，以便用户通过触控屏在原始图像上选择或编辑原始图像点。终端设备可根据触控屏的触控信号确定用户希望编辑的原始图像点的起始坐标和期望该原始图像点移动到的目标位置的目标坐标。又如，执行主体可例如为图1示例的服务器。服务器从终端设备接收原始图像、原始图像点的起始坐标和期望的目标坐标。本公开对执行主体获取原始图像点的起始坐标和期望的目标坐标的方式不做限制。

步骤202，将原始图像输入生成对抗网络，得到原始图像的潜在特征图。

在本实施例中，执行主体可将原始图像输入生成对抗网络，通过生成对抗网络中的生成器生成潜在特征图，以获得与原始图像内容相关的特征表示。示例地，生成对抗网络包含一个生成器和一个判别器。其中，生成器可基于原始图像中的潜在代码映射得到多个体现不同级别属性的潜在特征图。通过调整潜在特征图，可改变原始图像的属性。例如，本实施例中可通过调整潜在特征图以改变位置属性、形状属性等。判别器可对生成对抗网络最终生成的图像的真假性进行判别。通过生成器和判别器的博弈以提高最终输出的图像的真实性。

步骤203，根据起始坐标和目标坐标，调整潜在特征图中与原始图像点对应的潜在图像点的位置，直至调整后的潜在图像点的坐标数据与目标坐标匹配。

在本实施例中，由于潜在特征图可体现原始图像点的位置属性、形状属性等，执行主体通过对潜在特征图中与原始图像点对应的潜在图像点进行调整，改变原始图像点的位置，从而实现图像内容移动效果。

作为一个示例，执行主体可通过运动监督损失函数迭代地调整潜在特征图中与原始图像点对应的潜在图像点的位置，直至调整后的潜在图像点的坐标数据与目标坐标匹配。其中，运动监督损失函数可用于控制潜在图像点逐步向目标坐标移动，每次可移动一定步长。步长的确切长度可根据需要设置，在调整不同的对象和不同部分的情况下，步长通常是不同的，此处不作限制。

值得一提的是，通过运动监督损失函数迭代地调整生成对抗网络学习的潜在特征图中的潜在图像点的位置，以实现对原始图像的编辑，无需依赖额外的神经网络模型，无需进行繁琐的参数设置，降低了图像编辑复杂度和时间成本。

应该理解的是，在未背离本公开教导的情况下，执行主体还可通过其他方式将潜在图像点调整至目标坐标。例如，基于潜在图像点的当前位置的坐标和目标坐标确定潜在图像点需要移动的方向和距离，以确定潜在图像点的运动向量，从而基于该运动向量将潜在图像点调整至目标坐标所指示的位置。本公开对调整潜在图像点的方式不作限制。

步骤204，基于调整后的潜在特征图输出目标图像。

在本实施例中，在完成潜在特征图的调整后，由于潜在特征图被更新，生成器基于调整后的潜在特征图产生新的图像，新的图像可作为目标图像输出。

根据本公开的第一实施例，执行主体将原始图像输入生成对抗网络，通过调整生成对抗网络学习的潜在特征图中的潜在图像点的位置，以实现对原始图像的编辑，无需依赖额外的神经网络模型，无需进行繁琐的参数设置，降低了图像编辑复杂度和时间成本。此外，由于这些操作是在生成对抗网络学习的图像流上进行的，其更倾向于产生逼真的输出，提高了输出的目标图像的图像质量。

继续参见图3，图3是根据本公开的第二实施例的交互式图像编辑方法的流程示意图。如图3所示，交互式图像编辑方法300可包括以下步骤：

步骤301，确定原始图像中被编辑的像素点的像素起始位置和像素目标位置。

在本实施例中，执行主体可允许用户直接输入的像素起始位置和像素目标位置，也可根据检测到的触控信号确定像素起始位置和像素目标位置，此处不做限制。

步骤302，将被编辑的像素点和被编辑的像素点周围区域的相邻像素点共同确定为原始图像点，并根据像素起始位置和像素目标位置分别确定起始坐标和目标坐标。

在本实施例中，被编辑的像素点周围区域的相邻像素点可例如为与被编辑的像素点的距离小于第一预设距离的像素点。其中，第一预设距离可根据期望达到的图像编辑精度等设置，此处不做限制。

例如，图4是本公开的第二实施例的原始图像中被编辑的像素点的像素起始位置p_i和像素目标位置t_i的示意图。在本实施例中，执行主体监督围绕p_i的一个小区域(即圆圈401)向t_i移动一小步，即到达圆圈402。可选择的，使用点集合Ω1(p_i，r₁)表示到pi距离小于第一预设距离(r₁)的像素点，点集合Ω1(p_i，r₁)即为原始图像点。可选择的，原始图像点的起始坐标可例如为p_i的坐标，目标坐标可例如为t_i的坐标。原始图像点的起始坐标也可例如为点集合Ω1(p_i，r₁)中每个像素点的坐标构成的集合，目标坐标可例如为与t_i距离小于r₁的像素点的坐标构成的集合。此处对起始坐标和目标坐标不做限制。

值得一提的是，执行主体可基于图像点而非像素点进行图像编辑，并将每个图像点的位置作为编辑参数，使得用户可以通过拖动点来改变图像的局部特征，例如表情、发型和妆容等。此外，通过图像点对原始图像进行调整，使得用户可以更加精细地控制图像的局部特征，例如改变眼睛的大小、改变嘴巴的形状等。

应当理解的是，在本公开的实施例中，用户可以点击任意数量的原始图像点，并通过拖动被编辑的原始图像点来实现对原始图像的编辑。本公开对被编辑的原始图像点的数量不做限制。

应当理解的是，在未背离本公开的教导的情况下，执行主体还可通过其他方式实现图像的点编辑。例如，执行主体将原始图像按照预设规则划分为多个图像点，根据开始编辑位置对应的图像点的左上角、中心、右下角等位置的像素点的坐标确定起始坐标，根据结束编辑位置对应的图像点的左上角、中心、右下角等位置的像素点的坐标确定目标坐标。本公开对确定用户编辑的图像点的方式不做限制。

步骤303，将原始图像输入生成对抗网络，得到原始图像的潜在特征图。

步骤304，根据起始坐标和所述目标坐标，调整潜在特征图中与原始图像点对应的潜在图像点的位置，直至调整后的潜在图像点的坐标数据与目标坐标匹配。

步骤305，基于调整后的潜在特征图输出目标图像。

其中，步骤303至步骤305分别与图2所示例的步骤202至步骤204大致相同，此处不再赘述。

根据本公开的第二实施例，执行主体将原始图像输入生成对抗网络，通过调整生成对抗网络学习的潜在特征图中的潜在图像点的位置，以实现对图像的点编辑，无需依赖额外的神经网络模型，无需进行繁琐的参数设置，降低了图像编辑复杂度和时间成本。此外，由于这些操作是在生成对抗网络学习的图像流上进行的，其更倾向于产生逼真的输出，提高了输出的目标图像的图像质量。此外，执行主体可基于图像点而非像素点进行图像编辑，并将每个图像点的位置作为编辑参数，使得用户可以通过拖动点来更加精细地改变图像的局部特征。

继续参考图5，图5是根据本公开的第三实施例的交互式图像编辑方法的流程示意图。如图5所示，交互式图像编辑方法500可包括以下步骤：

步骤501，获取原始图像中被编辑的原始图像点的起始坐标和目标坐标。

本步骤与图2所示例的步骤201大致相似，此处不再赘述。

步骤502，将原始图像输入StyleGAN的生成器，并基于StyleGAN的生成器的前N层的输出确定潜在特征图。其中，N为大于1的整数。

在本实施例中，生成对抗网络可包括StyleGAN。示例地，在StyleGAN架构中，512维的潜在代码z∈N(0，I)通过映射网络映射到中间的潜在代码w∈R⁵¹²。然后，w被发送到生成器以产生输出图像I＝G(w)，其中，G表示生成器。在这个过程中，w被复制多次并发送到生成器G的不同层，以控制不同级别的属性。因此，执行主体可通过StyleGAN得到体现原始图像的不同中间特征的潜在特征图。

在本公开的一些可选的实施例中，执行主体可将原始图像输入StyleGAN的生成器，并基于StyleGAN的生成器的前N层的输出确定潜在特征图。示例地，N可例如为大于等于6小于等于18的整数，例如，考虑到StyleGAN的第6层之前的潜在特征图F在分辨率和区别性之间的良好的权衡，使得第6层之前的中间特征在所有特征中表现更好，N可设置为6。对于由具有潜在代码w生成的任何图像I，执行主体可允许用户输入一些期望控制的原始图像点的起始坐标{p_i＝(x_p,i，y_p,i)|i＝1,2,...,n}以及它们对应的目标坐标{t_i＝(x_t,i，y_t,i)|i＝1,2,...,n}(即p_i的对应目标点是t_i)，其控制目标是移动原始图像中的对象，使其语义位置达到其对应的目标坐标。由于生成器的中间特征非常有区别性，以至于一个简单的损失就足以监督运动。因此，本公开的实施例中，可通过运动监督损失函数实现对原始图像点的运动监督。

值得一提的是，执行主体考虑StyleGAN的第6层之前(含第6层)的潜在特征图F来进行后续的图像调整，充分考虑了StyleGAN的第6层之前的潜在特征图F在分辨率和区别性之间的良好的权衡，使得第6层之前的中间特征在所有特征中表现更好，进而能够得到更好地调整效果。

应当理解的是，在未背离本公开教导的情况下，N可以选取其他数值，本公开对此不做限制。

应当理解的是，在未背离本公开教导的情况下，执行主体中部署的生成对抗网络也可选择其他架构的生成对抗网络，该生成对抗网络能够挖掘图像的潜在特征即可，本公开对此不做限制。

应当理解的是，在未背离本公开教导的情况下，执行主体还可对其他层输出的潜在特征图进行调整以达到不同的效果，此处不做限制。

在本公开的一些可选的实施例中，执行主体基于StyleGAN的生成器的前N层的输出确定潜在特征图的过程可包括：基于StyleGAN的生成器的前N层的输出确定中间图像；通过双线性插值方法调整中间图像的分辨率以得到潜在特征图。该实施例中，执行主体可通过双线性插值将潜在特征图F的分辨率调整为与最终图像相同，从而提高图像质量。此外，根据需要双线性插值到与图像相同的尺寸，有利于后续执行准确的跟踪。

应当理解的是，在未背离本公开教导的情况下，执行主体可通过其他方式对潜在特征图进行升采样以提高潜在特征图的分辨率，本公开对此不做限制。

应当理解的是，在未背离本公开的教导的情况下，执行主体可在同一时序不同线程分别对前N层输出的潜在特征图进行调整，也可依次对前N层输出的潜在特征图进行调整，本公开对此不做限制。

步骤503，根据起始坐标和目标坐标，通过运动监督损失函数迭代地调整潜在特征图中与原始图像点对应的潜在图像点的位置，直至调整后的潜在图像点的坐标数据与目标坐标匹配。

步骤504，基于调整后的潜在特征图输出目标图像。

步骤503和步骤504分别与图2所示例的步骤203和步骤204大致相同，此处不再赘述。

根据本公开的第三实施例，执行主体将原始图像输入生成对抗网络，通过调整生成对抗网络学习的潜在特征图中的潜在图像点的位置，以实现对图像的点编辑，无需依赖额外的神经网络模型，无需进行繁琐的参数设置，降低了图像编辑复杂度和时间成本。此外，由于这些操作是在生成对抗网络学习的图像流上进行的，其更倾向于产生逼真的输出，提高了输出的目标图像的图像质量。此外，执行主体考虑StyleGAN的第6层之前(含第6层)的潜在特征图F来进行后续的图像调整，充分考虑了StyleGAN的第6层之前的潜在特征图F在分辨率和区别性之间的良好的权衡，使得第6层之前的中间特征在所有特征中表现更好，进而能够得到更好地调整效果。

继续参考图6，图6是根据本公开的第四实施例的交互式图像编辑方法的流程示意图。如图6所示，交互式图像编辑方法600可包括以下步骤：

步骤601，获取原始图像中被编辑的原始图像点的起始坐标和目标坐标。

步骤602，将原始图像输入生成对抗网络，得到原始图像的潜在特征图。

步骤601和步骤602分别与图2所示的步骤201和步骤202大致相同，此处不再赘述。

步骤603，根据起始坐标确定需要调整的潜在图像点。

在本实施例中，执行主体可基于用户输入的原始图像点的起始坐标，确定潜在特征图中需要调整的潜在图像点，并对潜在图像点进行后续操作以达到图像编辑效果。

步骤604，通过运动监督损失函数调整潜在图像点在潜在特征图中的位置，并通过点跟踪算法确定调整后的潜在图像点的坐标数据。

在本公开的一些实施例中，执行主体在确定需要编辑的潜在图像点后，可基于期望的目标坐标，以优化方式进行图像编辑。每一个优化操作(即调整操作)中，可包括运动监督过程和点跟踪过程。在运动监督中，使用一种强制控制点向目标点移动的损失函数来优化潜在代码w。经过一个运动监督过程，执行主体可得到一个新的潜在代码w′新的潜在特征图F′和新的图像I′。潜在特征图的更新会导致图像中对象的轻微移动。因此，运动监督步骤可使每个潜在图像点朝其目标移动一小步。其中，潜在图像点移动的步长可以是相同的，也可以是不同的，此处不做限制。因此，执行主体需要更新潜在图像点的位置以跟踪对象上的相应点。在跟踪之后，执行主体可再次重复上述优化步骤。这个优化过程将持续进行，直到潜在图像点的位置与目标坐标匹配。

值得一提的是，执行主体在运动监督后通过点跟踪算法对潜在图像点进行跟踪，可减少不能准确跟踪潜在图像点而导致运动监督过程中监督错误的图像点，进而导致不良结果的情况。

为了便于理解，下面分别对运动监督过程和点跟踪过程进行示例性说明。

运动监督过程

在本公开的一些实施例中，执行主体可根据起始坐标和目标坐标确定起始坐标到目标坐标的归一化向量，并基于归一化向量构建运动监督损失函数。示例地，执行主体可在确定起始坐标和目标坐标后，确定起始坐标对应的图像点和目标坐标对应的图像点之间的特征差异，并构建运动监督损失函数。通过运动监督损失函数，调整生成对抗网络的生成器的潜在代码，使得起始坐标对应的图像点向目标坐标移动。

在本公开的一些实施例中，执行主体还可获取被编辑的原始图像点的移动区域信息，并根据移动区域信息构建运动监督损失函数。示例地，执行主体可允许用户选择性地绘制一个用于限制原始图像中的哪些区域可以移动的移动区域。执行主体可基于该移动区域信息构建运动监督损失函数。例如，执行主体可基于用户绘制的移动区域生成二进制掩码M(类似一个掩膜)，将二进制掩码M作为约束条件写入运动监督损失函数中。例如，基于该二进制掩码M构建的运动监督损失函数可例如为：

其中，L表示运动监督损失函数，n表示编辑的原始图像点的数量，Ω1(p_i，r₁)表示到p_i距离小于r₁的像素集合，q_i表示集合Ω1(p_i，r₁)中的像素，F(q_i)表示潜在特征图在像素q处的特征值，d_i表示从p_i指向t_i的归一化向量(如果t_i＝p_i，则d_i＝0)，F表示当前的潜在特征图，F₀表示对应于原始图像的潜在特征图，λ表示超参数，M表示基于用户绘制的移动区域生成二进制掩码。

值得一提的是，执行主体允许用户对允许的移动区域进行编辑，提高了用户可操作性，提高了用户使用体验。

通过上述内容可知，运动监督是通过在生成器的潜在特征图上应用平移的图像块损失来实现的。运动监督损失函数可用于优化原始图像的潜在代码w。本实施例中，考虑到原始图像的空间属性主要受到前6层的w的影响，而其余部分对外观影响更大。因此，执行主体可通过该运动监督损失函数更新前6层的w，同时固定其他层以保留外观。这种选择性优化可实现图像内容轻微移动的期望效果。

应当理解的是，在未背离本公开教导的情况下，运动监督损失函数还可考虑其他参数，本公开对此不做限制。

点跟踪过程

在本公开的一些实施例中，点跟踪算法可包括最近邻搜索算法。该实施例中，执行主体通过点跟踪算法跟踪调整后的潜在图像点的坐标数据可包括：获取调整前的潜在图像点的坐标数据；根据调整前的潜在图像点的坐标数据，确定潜在特征图中用于搜索的图像区域；通过最近邻搜索算法在调整后的潜在特征图的图像区域中搜索调整后的潜在图像点，并确定调整后的潜在图像点的坐标数据。示例地，在完成运动监督过程后，可产生一个新的潜在代码w′、新的潜在特征图F′和新的图像I′。由于运动监督步骤直接提供的新的潜在特征图F’中需要调整的潜在图像点的新位置准确性不高，执行主体可通过点跟踪算法获得更准确的潜在图像点的位置数据。

在一些示例中，点跟踪过程可通常通过光流估计模型来执行。

在另一些实施例中，点跟踪过程可使用最近邻搜索(nearest neighbor search)算法。示例地，考虑到通过光流估计模型等点跟踪方式将引入额外的模型，这可能会显著影响效率，并且可能会产生存在生成对抗网络的积累误差。因此，在本公开的一些实施例中，考虑到生成对抗网络的有区别性的特征很好地捕捉了稠密的对应关系，执行主体可通过最近邻搜索算法来有效地执行跟踪。具体来说，执行主体可将初始的潜在特征图中与原始图像点对应的潜在图像点的特征表示为f_i＝F₀(p_i)，将围绕p_i的图像块称为Ω2(p_i,r₂)＝{(x,y)||x-x_p,i|<r₂,|y-y_p,i|<r₂}。然后通过在Ω2(p_i,r₂)中搜索f_i的最近邻来获得更新的潜在特征图中后续需要调整的潜在图像点。通过这种方式，p_i被更新以跟踪对象。

值得一提的是，通过最近邻搜索算法进行跟踪，有利于实现图像中对象的精确跟踪，减少积累误差。

应当理解的是，在未背离本公开教导的情况下，执行主体可通过其他跟踪算法进行跟踪，本公开对此不做限制。

步骤605，判断调整后的潜在图像点的坐标数据与目标坐标是否匹配。

本实施例中，执行主体若确定判断结果为不匹配，继续执行下一次调整操作，即返回步骤604，若确定判断结果为匹配，执行步骤606。

应当理解的是，在未背离本公开教导的情况下，潜在图像点的坐标数据与目标坐标匹配可以是指潜在图像点的坐标数据和目标坐标相同，也可以是指潜在图像点的坐标数据和目标坐标满足预先设置的约束关系，例如，基于潜在图像点的坐标数据和目标坐标计算的距离小于预设的距离阈值，本公开对潜在图像点的坐标数据和目标坐标匹配的条件不做限制。

步骤606，基于调整后的潜在特征图输出目标图像。

本实施例中，当逐步完成优化调整后，执行主体可将生成对抗网络基于调整后的潜在特征图产生的新的图像作为目标图像输出。

应当理解的是，在未背离本公开教导的情况下，在本次编辑完成后，用户可以输入新的需要编辑的图像点和期望的目标坐标，并继续编辑，直到满意为止，本公开对编辑次数不做限制。

根据本公开的第四实施例，执行主体将原始图像输入生成对抗网络，通过运动监督损失函数迭代地调整生成对抗网络学习的潜在特征图中的潜在图像点的位置，以实现对图像的点编辑，无需依赖额外的神经网络模型，无需进行繁琐的参数设置，降低了图像编辑复杂度和时间成本。此外，由于这些操作是在生成对抗网络学习的图像流上进行的，因此即使在图像编辑存在挑战性的情况下，比如产生虚构的被遮挡内容和保持对象刚性的形状变形，其更倾向于产生逼真的输出，提高了输出的目标图像的图像质量。在此基础上，用户可对原始图像进行形变，例如，并对像素的移动位置进行精确控制，从而操纵不同类别(如动物、汽车、人物、风景等)的姿势、形状、表情和布局。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

继续参考图7，图7是根据本公开的第五实施例的图像编辑装置的示意性框图。如图7所示，图像编辑装置700可包括获取模块710、生成模块720、调整模块730和输出模块740。其中，获取模块710被配置为获取原始图像中被编辑的原始图像点的起始坐标和目标坐标。生成模块720被配置为将原始图像输入生成对抗网络，得到原始图像的潜在特征图。调整模块730被配置为根据起始坐标和目标坐标，调整潜在特征图中与原始图像点对应的潜在图像点的位置，直至调整后的潜在图像点的坐标数据与目标坐标匹配。输出模块740被配置为基于调整后的潜在特征图输出目标图像。

在本公开的一些可选实施例中，调整模块730进一步被配置为通过运动监督损失函数迭代地调整潜在特征图中与原始图像点对应的潜在图像点的位置，直至调整后的潜在图像点的坐标数据与目标坐标匹配。

在本公开的一些可选实施例中，调整模块730包括点确定子模块、调整子模块、跟踪子模块和判断子模块。其中，点确定子模块被配置为根据起始坐标确定需要调整的潜在图像点。在每次调整操作中，调整子模块被配置为通过运动监督损失函数调整潜在图像点在潜在特征图中的位置，并通过点跟踪算法确定调整后的潜在图像点的坐标数据。判断子模块被配置为判断调整后的潜在图像点的坐标数据与目标坐标是否匹配；若判断结果为不匹配，继续执行下一次调整操作，直至判断结果为匹配。

在本公开的一些可选实施例中，跟踪子模块包括获取单元、区域确定单元和搜索单元。获取单元被配置为获取调整前的潜在图像点的坐标数据；区域确定单元被配置为根据调整前的潜在图像点的坐标数据，确定潜在特征图中用于搜索的图像区域。搜索单元被配置为通过最近邻搜索算法在调整后的潜在特征图的图像区域中搜索调整后的潜在图像点，并确定调整后的潜在图像点的坐标数据。

在本公开的一些可选实施例中，图像编辑装置还包括函数构建模块，被配置为获取被编辑的原始图像点的移动区域信息，并根据移动区域信息构建运动监督损失函数。

在本公开的一些可选实施例中，图像编辑装置还包括函数构建模块，被配置为根据起始坐标和目标坐标，确定起始坐标到目标坐标的归一化向量，并基于归一化向量构建运动监督损失函数。

在本公开的一些可选实施例中，获取模块710包括位置确定子模块和图像点确定子模块。位置确定子模块被配置为确定原始图像中被编辑的像素点的像素起始位置和像素目标位置。图像点确定子模块被配置为将被编辑的像素点和被编辑的像素点周围区域的相邻像素点共同确定为原始图像点，并根据像素起始位置和像素目标位置分别确定起始坐标和目标坐标。

在本公开的一些可选实施例中，生成对抗网络包括基于风格的生成对抗网络(StyleGAN)。

在本公开的一些可选实施例中，生成模块720包括输入子模块和输出子模块。输入子模块被配置为将原始图像输入StyleGAN的生成器；以及输出子模块被配置为基于StyleGAN的生成器的前N层的输出确定潜在特征图，N为大于1的整数。

在本公开的一些可选实施例中，输出子模块包括潜在特征确定单元和调整单元。潜在特征确定单元被配置为基于StyleGAN的生成器的前N层的输出确定中间图像。调整单元被配置为通过双线性插值方法调整中间图像的分辨率以得到潜在特征图。

不难发现，本实施例为与上述方法实施例相对应的装置实施例，本实施例可与上述方法实施例互相配合实施。上述方法实施例中提到的相关技术细节在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在上述方法实施例中。

根据本公开的第六实施例，本公开还提供了一种电子设备，包括：至少一个处理器和存储器。其中，存储器与至少一个处理器通信连接，并存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上述实施例提及的方法。

根据本公开的第七实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述实施例提及的方法。

根据本公开的第八实施例，本公开还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述实施例提及的方法。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括处理器801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储器808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储器808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器801可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器801执行上文所描述的各个方法和处理，例如方法200/300/500/600。例如，在一些实施例中，方法200/300/500/600可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储器808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由处理器801执行时，可以执行上文描述的方法200/300/500/600的一个或多个步骤。备选地，在其他实施例中，处理器801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200/300/500/600。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种交互式图像编辑方法，包括：

获取原始图像中被编辑的原始图像点的起始坐标和目标坐标；

将所述原始图像输入生成对抗网络，得到所述原始图像的潜在特征图；

根据所述起始坐标和所述目标坐标，调整所述潜在特征图中与所述原始图像点对应的潜在图像点的位置，直至所述调整后的所述潜在图像点的坐标数据与所述目标坐标匹配；以及

基于调整后的所述潜在特征图输出目标图像。

2.根据权利要求1所述的方法，其中，所述调整所述潜在特征图中与所述原始图像点对应的潜在图像点的位置，直至所述调整后的所述潜在图像点的坐标数据与所述目标坐标匹配包括：

通过运动监督损失函数迭代地调整所述潜在特征图中与所述原始图像点对应的潜在图像点的位置，直至所述调整后的所述潜在图像点的坐标数据与所述目标坐标匹配。

3.根据权利要求2所述的方法，其中，所述通过运动监督损失函数迭代地调整所述潜在特征图中与所述原始图像点对应的潜在图像点的位置，直至所述调整后的所述潜在图像点的坐标数据与所述目标坐标匹配，包括：

根据所述起始坐标确定需要调整的所述潜在图像点；

在每次调整操作中，通过所述运动监督损失函数调整所述潜在图像点在所述潜在特征图中的位置，并通过点跟踪算法确定所述调整后的所述潜在图像点的坐标数据；

判断所述调整后的所述潜在图像点的坐标数据与所述目标坐标是否匹配；

若判断结果为不匹配，继续执行下一次调整操作，直至所述判断结果为匹配。

4.根据权利要求3所述的方法，其中，所述点跟踪算法包括最近邻搜索算法，所述通过点跟踪算法跟踪所述调整后的所述潜在图像点的坐标数据，包括：

获取调整前的所述潜在图像点的坐标数据；

根据所述调整前的所述潜在图像点的坐标数据，确定所述潜在特征图中用于搜索的图像区域；

通过最近邻搜索算法在调整后的所述潜在特征图的所述图像区域中搜索所述调整后的所述潜在图像点，并确定所述调整后的所述潜在图像点的坐标数据。

5.根据权利要求2至4中任一项所述的方法，还包括：

获取被编辑的所述原始图像点的移动区域信息；以及

根据所述移动区域信息构建所述运动监督损失函数。

6.根据权利要求2至4中任一项所述的方法，还包括：

根据所述起始坐标和所述目标坐标，确定所述起始坐标到所述目标坐标的归一化向量；以及

基于所述归一化向量构建所述运动监督损失函数。

7.根据权利要求1至6中任一项所述的方法，其中，所述获取原始图像中被编辑的原始图像点的起始坐标和目标坐标，包括：

确定所述原始图像中被编辑的像素点的像素起始位置和像素目标位置；以及

将所述被编辑的像素点和所述被编辑的像素点周围区域的相邻像素点共同确定为所述原始图像点，并根据所述像素起始位置和所述像素目标位置分别确定所述起始坐标和所述目标坐标。

8.根据权利要求1至7中任一项所述的方法，其中，所述生成对抗网络包括基于风格的生成对抗网络StyleGAN。

9.根据权利要求8所述的方法，其中，所述将所述原始图像输入生成对抗网络以得到所述原始图像的潜在特征图包括：

将所述原始图像输入StyleGAN的生成器，并基于StyleGAN的生成器的前N层的输出确定所述潜在特征图，N为大于1的整数。

10.根据权利要求9所述的方法，其中，所述基于StyleGAN的生成器的前N层的输出确定所述潜在特征图包括：

基于StyleGAN的生成器的前N层的输出确定中间图像；

通过双线性插值方法调整所述中间图像的分辨率以得到所述潜在特征图。

11.一种图像编辑装置，包括：

获取模块，被配置为获取原始图像中被编辑的原始图像点的起始坐标和目标坐标；

生成模块，被配置为将所述原始图像输入生成对抗网络，得到所述原始图像的潜在特征图；

调整模块，被配置为根据所述起始坐标和所述目标坐标，调整所述潜在特征图中与所述原始图像点对应的潜在图像点的位置，直至所述调整后的所述潜在图像点的坐标数据与所述目标坐标匹配；以及

输出模块，被配置为基于调整后的所述潜在特征图输出目标图像。

12.根据权利要求11所述的图像编辑装置，其中，所述调整模块进一步被配置为：

13.根据权利要求12所述的图像编辑装置，其中，所述调整模块包括点确定子模块、调整子模块、跟踪子模块和判断子模块；

所述点确定子模块，被配置为根据所述起始坐标确定需要调整的所述潜在图像点；

在每次调整操作中，所述调整子模块，被配置为通过所述运动监督损失函数调整所述潜在图像点在所述潜在特征图中的位置，并通过点跟踪算法确定所述调整后的所述潜在图像点的坐标数据；以及

所述判断子模块，被配置为判断所述调整后的所述潜在图像点的坐标数据与所述目标坐标是否匹配；若判断结果为不匹配，继续执行下一次调整操作，直至所述判断结果为匹配。

14.根据权利要求13所述的图像编辑装置，其中，所述跟踪子模块包括：

获取单元，被配置为获取调整前的所述潜在图像点的坐标数据；

区域确定单元，被配置为根据所述调整前的所述潜在图像点的坐标数据，确定所述潜在特征图中用于搜索的图像区域；以及

搜索单元，被配置为通过最近邻搜索算法在调整后的所述潜在特征图的所述图像区域中搜索所述调整后的所述潜在图像点，并确定所述调整后的所述潜在图像点的坐标数据。

15.根据权利要求12至14中任一项所述的图像编辑装置，还包括：

函数构建模块，被配置为获取被编辑的所述原始图像点的移动区域信息，并根据所述移动区域信息构建所述运动监督损失函数。

16.根据权利要求12至14中任一项所述的图像编辑装置，还包括：

函数构建模块，被配置为根据所述起始坐标和所述目标坐标，确定所述起始坐标到所述目标坐标的归一化向量，并基于所述归一化向量构建所述运动监督损失函数。

17.根据权利要求11至16中任一项所述的图像编辑装置，其中，所述获取模块包括：

位置确定子模块，被配置为确定所述原始图像中被编辑的像素点的像素起始位置和像素目标位置；以及

图像点确定子模块，被配置为将所述被编辑的像素点和所述被编辑的像素点周围区域的相邻像素点共同确定为所述原始图像点，并根据所述像素起始位置和所述像素目标位置分别确定所述起始坐标和所述目标坐标。

18.根据权利要求11至17中任一项所述的图像编辑装置，其中，所述生成对抗网络包括基于风格的生成对抗网络StyleGAN。

19.根据权利要求18所述的图像编辑装置，其中，所述生成模块包括：

输入子模块，被配置为将所述原始图像输入StyleGAN的生成器；以及

输出子模块，被配置为基于StyleGAN的生成器的前N层的输出确定所述潜在特征图，N为大于1的整数。

20.根据权利要求19所述的图像编辑装置，其中，所述输出子模块包括：

潜在特征确定单元，被配置为基于StyleGAN的生成器的前N层的输出确定中间图像；

调整单元，被配置为通过双线性插值方法调整所述中间图像的分辨率以得到所述潜在特征图。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至10中任一项所述的方法。

22.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至10中任一项所述的方法。