CN114239717A

CN114239717A - 模型训练方法、图像处理方法及装置、电子设备、介质

Info

Publication number: CN114239717A
Application number: CN202111538449.XA
Authority: CN
Inventors: 朱晓杰
Original assignee: Beijing Opper Communication Co ltd
Current assignee: Beijing Opper Communication Co ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-25

Abstract

本公开实施例是关于一种模型训练方法、图像处理方法及装置、电子设备、存储介质，涉及图像处理技术领域，该模型训练方法包括：根据样本图像对解码器进行训练，获取训练好的解码器；通过编码器提取所述样本图像的多个特征向量，并结合训练好的解码器的参考向量空间分布以及所述多个特征向量的空间分布对所述编码器进行训练，获取训练好的编码器；根据所述训练好的解码器、训练好的编码器以及属性编辑模型，获取用于对图像进行属性编辑的图像属性调节模型。本公开的技术方案能够提高模型的准确性。

Description

模型训练方法、图像处理方法及装置、电子设备、介质

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种模型训练方法、图像处理方法、模型训练装置、图像处理装置、电子设备以及计算机可读存储介质。

背景技术

在图像处理过程中，可以对人脸图像进行属性编辑处理，以满足各种应用场景的需求。

相关技术中，可以将重建人脸与输入人脸的相似度训练编码器，进而训练用于进行图像编辑的模型。上述方式中，只考虑了相似度进行模型训练，因此模型的准确性较低，导致得到的调整属性后的图像的质量较差，准确性较低。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种模型训练方法、图像处理方法及装置、电子设备、存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的模型准确性较低的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种模型训练方法，包括：根据样本图像对解码器进行训练，获取训练好的解码器；通过编码器提取所述样本图像的多个特征向量，并结合训练好的解码器的参考向量空间分布以及所述多个特征向量的空间分布对所述编码器进行训练，获取训练好的编码器；根据所述训练好的解码器、训练好的编码器以及属性编辑模型，获取用于对图像进行属性编辑的图像属性调节模型。

根据本公开的一个方面，提供一种图像处理方法，包括：获取待处理图像；根据图像属性调节模型提取所述待处理图像的特征向量，并对所述特征向量进行编辑操作得到编辑向量，以生成所述待处理图像对应的属性图像；所述图像属性调节模型根据上述任意一项所述的模型训练方法训练得到。

根据本公开的一个方面，提供一种模型训练装置，包括：解码器训练模块，用于根据样本图像对解码器进行训练，获取训练好的解码器；编码器训练模块，用于通过编码器提取所述样本图像的多个特征向量，并结合训练好的解码器的参考向量空间分布以及所述多个特征向量的空间分布对所述编码器进行训练，获取训练好的编码器；模型获取模块，用于根据所述训练好的解码器、训练好的编码器以及属性编辑模型，获取用于对图像进行属性编辑的图像属性调节模型。

根据本公开的一个方面，提供一种图像处理装置，包括：图像获取模块，用于获取待处理图像；图像生成模块，用于根据图像属性调节模型提取所述待处理图像的特征向量，并对所述特征向量进行编辑操作得到编辑向量，以生成所述待处理图像对应的属性图像；所述图像属性调节模型根据上述任意一项所述的模型训练方法训练得到。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的模型训练方法或上述任意一项所述的图像处理方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的模型训练方法或上述任意一项所述的图像处理方法。

本公开实施例中提供的模型训练方法、模型训练装置、图像处理方法、图像处理装置、电子设备以及计算机可读存储介质中，一方面，由于结合训练好的解码器的参考向量空间分布以及编码器输出的特征向量的空间分布对编码器进行训练，改进了编码器的训练过程，其中考虑了重建误差与可编辑性之间的平衡，能够使得编码器得到的特征向量处于解码器对应的空间分布内。由于只有得到的特征向量处于解码器的空间分布中，才可以进行人脸编辑，因此增强了人脸属性的可编辑性，提高了进行人脸编辑的准确性和操作范围。另一方面，能够结合多个维度对编码器进行训练，避免了只能根据一种目标进行模型训练的局限性，提高了编码器的准确率，进而提高了图像属性调节模型的准确性和稳定性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的模型训练方法或图像处理方法的系统架构的示意图。

图2示出了适于用来实现本公开实施例的电子设备的结构示意图。

图3示意性示出本公开实施例中一种模型训练方法的示意图。

图4示意性示出本公开实施例中训练编码器的示意图。

图5示意性示出本公开实施例中编码器训练的整体流程的示意图。

图6示意性示出本公开实施例中图像属性调节模型的示意图。

图7示意性示出本公开实施例中一种图像处理方法的流程示意图。

图8示意性示出本公开实施例中生成属性图像的流程示意图。

图9示意性示出本公开实施例中确定特征向量的流程示意图。

图10示意性示出本公开实施例中图像属性编辑的示意图。

图11示意性示出本公开实施例中一种模型训练装置的框图。

图12示意性示出本公开实施例中一种图像处理装置的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本公开实施例中提供了一种模型训练方法，可以应用于对人脸图像的属性进行部分编辑和调整的应用场景。

图1示出了可以应用本公开实施例的模型训练方法及装置或图像处理方法及装置的系统架构的示意图。

如图1所示，系统架构100可以包括客户端101、网络102、服务器103。其中，客户端可以为客户端，例如可以为智能手机、电脑、平板电脑智能音箱等终端。网络102用以在客户端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线通信链路、无线通信链路等等。在本公开实施例中，客户端101和服务器103之间的网络102可以是有线通信链路，例如可以通过串口连接线提供通信链路；也可以是无线通信链路，通过无线网络提供通信链路。服务器103可以是具有计算功能的服务器或者是客户端，例如便携式计算机、台式计算机、智能手机等具有计算功能的终端设备，用于对客户端发送的图像进行模型训练，并根据训练好的模型进行图像处理。

该模型训练方法可以应用于对图像进行编辑处理的模型的应用场景中。参考图1中所示，具体可以应用于使用客户端101将样本图像104发送至服务器103，服务器103对从客户端上获取到的样本图像进行特征提取从而训练模型的过程中。其中，客户端可以是各种类型的具有计算功能的设备，例如可以为智能手机、平板电脑、台式计算机、车载设备、可穿戴设备等等。样本图像可以为各种类型的图像，例如人脸图像。

服务器103可以利用客户端101发送的样本图像训练解码器，进一步结合训练好的解码器的参考向量空间分布训练编码器，并根据训练好的编码器、训练好的解码器以及属性编辑模型共同组成图像属性调节模型。

进一步地，当服务器103接收到由客户端101发送的待处理图像时，可以使用编码器、属性编辑模型以及解码器来对待处理图像进行图像处理，以得到对应的属性图像。并且服务器103可以将属性图像发送至客户端101，以进行显示和其他图像处理操作。

需要说明的是，本公开实施例所提供的模型训练方法以及图像处理方法可以完全由服务器来执行。相应地，模型训练装置和图像处理装置可设置于服务器中。

图2示出了适于用来实现本公开示例性实施方式的电子设备的示意图。本公开的终端可以被配置为如图2所示电子设备的形式，然而，需要说明的是，图2示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本公开的电子设备至少包括处理器和存储器，存储器用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得处理器可以实现本公开示例性实施方式的方法。

具体的，如图2所示，电子设备200可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus，USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber IdentificationModule，SIM)卡接口295等。其中传感器模块280可以包括深度传感器、压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器及骨传导传感器等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备200的具体限定。在本申请另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器、调制解调处理器、图形处理器、图像信号处理器、控制器、视频编解码器、数字信号处理器、基带处理器和/或神经网络处理器(Neural-etwork Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。另外，处理器210中还可以设置存储器，用于存储指令和数据。本示例性实施方式中的模型训练方法可以由应用处理器、图形处理器或图像信号处理器来执行，当方法涉及到神经网络相关的处理时，可以由NPU来执行。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备200的存储能力。

移动终端200的通信功能可以通过移动通信模块、天线1、无线通信模块、天线2、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块可以提供应用在移动终端200上2G、3G、4G、5G等移动通信解决方案。无线通信模块可以提供应用在移动终端200上的无线局域网、蓝牙、近场通信等无线通信解决方案。

显示屏用于实现显示功能，如显示用户界面、图像、视频等。摄像模块用于实现拍摄功能，如拍摄图像、视频等。音频模块用于实现音频功能，如播放音频，采集语音等。电源模块用于实现电源管理功能，如为电池充电、为设备供电、监测电池状态等。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

相关技术中，模型训练的具体过程包括：以原始人脸作为样本，训练用于复原人脸的人脸重构器，并对原始人脸训练表征人脸属性的隐向量；在隐向量所处的空间中，寻找表示编辑每种所述人脸属性的方向的法向量；沿法向量调整隐向量，以在人脸重构器中生成目标人脸数据。其中，模型的目标为重建人脸与原始人脸的相似度表示的单一目标，因此导致属性编辑后得到的人脸质量较差。

为了解决相关技术中的问题，本公开实施例中对编码器的训练过程进行了调整。接下来，参考图3对本公开实施例中的模型训练方法进行详细说明。

在步骤S310中，根据样本图像对解码器进行训练，获取训练好的解码器。

本公开实施例中，样本图像可以为人脸图像，也可以为风景等任何类型的图像，此处以样本图像为人脸图像为例进行说明。人脸图像可以为任何类型的人脸图像，例如彩色人脸图像或者是黑白人脸图像。人脸图像可以为多种应用场景下的人脸图像。多种应用场景可以包括但不限于不同人群、表情、姿态、光照以及所处环境。并且，人脸图像指的是真实人脸图像，即直接根据摄像头采集到的人脸或者是从网络、存储器或者是终端的相册等位置中获取到的未经过任何图像处理操作的人脸图像。

解码器可以为GAN(Generative Adversarial Networks，生成式对抗网络)，解码器是一种能够生成新内容的生成模型，可以用于生成合成训练数据、创建艺术、风格转换、图像到图像的翻译等应用场景。生成式对抗网络由2个网络组成，即用于生成样本的生成器和判别器。用于生成样本的生成器尝试生成假样本，并欺骗判别器相信生成的样本是真实样本。判别器用于从真样本和假样本中检测生成的样本。

本公开实施例中，解码器可以用于表示潜向量(特征向量)到人脸图像的映射。具体地，解码器可以为GAN(Generative Adversarial Network，生成对抗网络)，例如可以为styleGAN2模型，该模型中包括生成器和判别器两部分。解码器可以包括输入层、卷积层、池化层、全连接层、输出层等等。

为了得到准确的解码器，可以基于样本图像对解码器进行训练，得到训练后的解码器。其中，可以采用生成对抗方式对解码器进行训练。在进行解码器训练时，对所述样本图像进行特征提取，以确定所述样本图像的特征向量；通过生成式对抗网络中的生成器将样本图像的特征向量进行映射，获取预测样本图像；根据判别器对样本图像与预测样本图像进行判别操作以对解码器进行训练，得到训练好的解码器。具体地，通过所述生成式对抗网络中的判别器进行判别操作，以确定预测样本图像是否为真实图像即判断预测样本图像的真假。假如输入的是真样本，判别器输出就接近1；输入的是假样本，判别器输出接近0。进一步地，以样本图像和预测样本图像之间的差别最小为训练目标，使用生成器和判别器对模型参数进行调整，直到判别器分不出预测样本图像是真实图像的还是生成器生成的图像为止，完成整个解码器的训练过程。

基于此，可在真实人脸数据集上训练styleGAN2模型，也可使用开源的预训练好的styleGAN2模型。训练styleGAN2需要大量的真实人脸图像数据，基于对抗生成的方式对解码器进行训练，使得解码器能够生成人脸逼真的图像，提高解码器的准确性，并且提高解码器生成的图像的精准性。

在步骤S320中，通过编码器提取所述样本图像的多个特征向量，并结合训练好的解码器的参考向量空间分布以及所述多个特征向量的空间分布对编码器进行训练，获取训练好的编码器。

本公开实施例中，样本图像可以为真实人脸图像，例如真实人脸数据集中的人脸数据。编码器可以为残差网络结构。残差网络结构由多个残差块组成，且残差块分为直接映射部分和残差部分，残差部分一般由多个卷积操作构成。

在训练编码器时，可以结合训练好的解码器来进行编码器训练。其中，结合训练好的解码器进行编码器训练时，可以参考训练好的解码器的参数进行训练。参考训练好的解码器的参数指的是固定训练好的解码器的参数，使其在训练编码器的过程中保持不变。具体地，在编码器的训练过程中，将编码器与训练好的解码器进行连接，并且固定训练好的解码器的参数来对编码器进行训练。参考图4中所示，固定训练好的解码器403的参数，根据样本图像402对编码器401进行训练，得到训练好的编码器404。解码器可以位于编码器的下游，即编码器后接训练好的解码器。

基于此，可以根据训练目标以及训练好的解码器对编码器进行训练。为了解决相关技术中的技术问题，可以根据训练好的解码器以及编码器共同确定针对于编码器的训练目标。具体地，根据训练好的解码器的参考向量空间分布与编码器输出的特征向量的空间分布一致，以及最小化重构误差来共同构建训练目标。

其中，最小化重建误差为最小化人脸重构误差，用于表示将输入图像和输出图像的误差进行最小化。输入图像指的是输入至编码器的样本图像所代表的真实人脸图像。由于编码器与训练好的解码器连接，而解码器用于生成图像，因此输出图像指的是由训练好的解码器生成的与样本图像对应的人脸图像。该人脸图像可以与样本图像相同或者是不同，此处不作限定。具体处理过程包括：通过编码器对样本图像进行特征提取，以获取样本图像的特征向量；通过训练好的解码器对样本图像的特征向量进行解码，以实现样本图像的特征向量到人脸图像的映射，从而生成与样本图像对应的人脸图像。基于此，可以计算输出图像与输入图像之间的误差，并将该误差进行最小化。具体可以计算输出图像与输入图像之间的相似性来确定二者之间的误差。

在得到误差之后，可以根据最小化人脸重构误差以及特征向量的空间分布两个维度确定训练目标，并基于训练目标对编码器进行训练得到训练好的编码器。

本公开实施例中，特征向量的数量可以为N个。在通过编码器获取样本图像的特征向量时，可以先提取出一个主样本特征向量。与此同时，还可以在主样本特征向量的基础上获取多个偏移样本特征向量。多个偏移样本特征向量的数量可以为N-1个。主样本特征向量和多个偏移样本特征向量均可以为512维特征向量。具体地，可以对主样本特征向量的数值进行增加或减少以对主样本特征向量进行调整，从而得到N-1个偏移样本特征向量。N-1个偏移样本特征向量可以通过不同的方式获得，且多个偏移样本特征向量可以相同或不同。进一步地，可以将主样本特征向量以及偏移样本特征向量进行融合得到样本图像对应的多个特征向量。融合操作可以为加法操作，此处不作特殊限定。

相关技术中在对编码器进行训练时，训练目标可以通过重建损失来表示。重建损失用于使得编码器得到的特征向量能够表征输入的样本图像的特征，即特征向量通过解码器后能够还原输入的样本图像。但是仅仅基于重建损失来训练编码器，其输出的特征向量的空间分布与解码器的参考向量空间分布差距较大，从而影响特征向量的可编辑性。本公开实施例中为了解决上述问题，可将所述参考向量空间分布与所述多个特征向量的空间分布一致，以及最小化重建误差确定为训练目标，以从多个维度来构建训练目标。

在根据向量空间分布以及最小化重建误差确定训练目标的过程中，为了准确地确定训练目标，可以调整特征向量的空间分布。基于上述获取一个主样本特征向量以及偏移样本特征向量的特征提取方式，可使用最小化方差调整特征向量的空间分布。具体地，最小化方差通过对偏移项(偏移样本特征向量)的范数约束，实现对样本图像对应的多个特征向量的空间分布进行调整，使得多个特征向量的空间分布更紧凑。此处的范数可以为L2范数。L2范数指的是偏移样本特征向量的各元素平方和的平方根。除此之外，范数也可以为L0范数或者是L1范数等等，此处不作限定。最小化方差用于表示偏移样本特征向量对应的方差，且可以根据公式(1)进行计算：

其中，△表示N-1个偏移样本特征向量。

除此之外，还可以采用针对特征向量的判别器，通过对抗学习方式对编码器进行约束训练，以对特征向量的空间分布进行调整，使得所述特征向量的空间分布与所述参考向量空间分布一致。其中，判别器相当于分类器，用于对编码器得到的特征向量以及解码器需要的输入向量进行判别操作，以判断向量是来自解码器还是来自编码器。结合与特征向量对应的判别器对编码器进行约束训练的过程中，在判别器无法判断出编码器输出的特征向量和解码器的输入向量之间的差别时停止训练，以得到训练好的编码器，并且通过该训练好的编码器使得编码器输出的特征向量的分布空间与解码器的参考向量空间分布一致。其中输入向量可以从实际分布映射得到的实际向量采样得到。本公开实施例中，基于针对特征向量的判别器，通过对抗学习的方式对编码器进行约束训练，以使得特征向量的空间分布与解码器的参考向量空间分布一致，能够使编码器得到的特征向量处于解码器对应的参考向量空间分布内。

为了解决相关技术中的技术问题，可以确定训练目标对应的损失函数。具体地，可以根据最小化方差以及最小化偏移损失函数、重建损失函数共同确定损失函数。其中，最小化方差以及最小化偏移损失函数可以用于约束特征向量的空间分布的一致性。最小化偏移损失函数可以通过公式(2)进行计算：

其中，D_w为判别器，γ用于表示对应项的重要性。

除此之外，重建损失(L₂,L_LPIPS,L_sim)中，L₂表示范数；L_LPIPS是有权重的卷积神经网络得到的图像的特征，用于对特征进行约束使得特征相似；L_sim是结构相似性损失，使得两个图像从结构的层级上相似。

进一步地，可以通过增加最小化方差与最小化偏移损失函数作为损失函数，对编码器进行训练以实现对编码器输出的特征向量进行约束，使得多个特征向量的空间分布与参考向量空间分布保持一致，即相同。具体地，可以对最小化方差以及最小化偏移损失函数、重建损失函数进行加权求和操作得到损失函数，即确定每项对应的权重与每项的乘积，并将所有乘积进行加法操作。

在确定该训练目标对应的损失函数后，可以根据该损失函数，固定训练好的解码器的参数，对编码器进行训练以得到训练好的编码器。具体地，可以调整编码器的模型参数，直至损失函数最小时停止模型训练过程，以得到训练好的编码器。训练好的编码器为图像到向量的映射，能够获得表征人脸特征的潜向量，即特征向量；同时还可以考虑到重建误差与可编辑性之间的平衡。

图5中示意性示出了编码器训练的整体流程图，参考图5中所示，样本图像501输入至编码器502获取到一个主样本特征向量5021以及N-1个偏移样本特征向量5022，进一步将主样本特征向量5021以及N-1个偏移样本特征向量5022进行加法操作，得到N-1个特征向量5023，将主特征向量5021以及N-1个特征向量5023进行组合，得到N个特征向量5024。根据偏移样本特征向量确定最小化方差5025，并将判别器504添加至特征向量5024获取最小化偏移损失函数5026以对特征向量的空间分布进行调整。将特征向量5024输入至解码器503进行解码得到样本图像对应的输出图像505，并根据输出图像505确定重建损失，以对编码器进行训练。

需要补充的是，也可以用transformer来构建编码器及解码器，只要能够实现对应功能即可，此处不作限定。

继续参考图3中所示，在步骤S330中，根据所述训练好的解码器、训练好的编码器以及属性编辑模型，获取用于对图像进行属性编辑的图像属性调节模型。

本公开实施例中，属性编辑模型用于对图像的目标属性进行调节操作。对于属性编辑模型而言，其目的在于通过对特征向量的操作(朝特定方向移动)，然后经过解码器解码以获得目的人脸图像，也就是要找到特征向量空间中方向向量与生成图像属性间的映射关系。基于此，可以随机采样一批采样特征向量，然后由解码器对采样特征向量进行解码生成中间图像，对这些中间图像表示的人脸图像进行属性打标得到各种属性值，例如性别、年龄、表情等。针对每种属性，将该属性二值化以进行分类(如男女、老少、笑/不笑)得到标签，在采样特征向量和标签组成的(latents labels)数据对上使用线性二分类器确定该二值属性的分类超平面，以完成属性编辑模型的训练。即，可以根据采样特征向量以及解码器输出的中间图像确定每个属性的分类超平面，以训练属性编辑模型。其中，也可以对样本图像进行向量提取得到采样特征向量，也可以直接获取一批特征向量作为采样特征向量，此处不做限定。

在此基础上，可以将训练好的解码器、训练好的编码器以及属性编辑模型进行组合，获取用于对图像进行属性编辑的图像属性调节模型。参考图6中所示，对训练好的解码器601、属性编辑模型602以及训练好的解码器603进行组合得到图像属性调节模型600。

本公开实施例中，通过改进编码器模块的训练目标以及损失函数对编码器的结构进行调整，同时增加了针对特征向量的判别器对编码器的训练过程进行约束，得到训练好的编码器。由于其中考虑了重建误差与可编辑性之间的平衡，将编码器与解码器在特征向量的空间分布的一致性加入到编码器的训练目标中，能够使得编码器得到的特征向量处于解码器对应的空间分布内。由于只有得到的特征向量处于解码器的空间分布中，才可以进行人脸编辑，因此增强了人脸属性的可编辑性，提高了进行人脸编辑的准确性和操作范围。并且，能够结合多个维度对编码器进行训练，避免了只能根据一种目标进行模型训练的局限性，提高了编码器的准确率，进而提高了图像属性调节模型的准确性和稳定性。

本公开实施例中，还提供了一种图像处理方法，参考图7中所示，主要包括以下步骤：

在步骤S710中，获取待处理图像；

在步骤S720中，根据图像属性调节模型提取所述待处理图像的特征向量，并对所述特征向量进行编辑操作得到编辑向量，以生成所述待处理图像对应的属性图像。

本公开实施例中，待处理图像可以为任何类型的图像，具体可以为人脸图像或者是其他类型的图像等等。人脸图像可以为任何类型的人脸图像，例如彩色人脸图像或者是黑白人脸图像。人脸图像可以为多种应用场景下的人脸图像。基于此，待处理图像可以为真实人脸图像，即直接根据摄像头采集到的人脸或者是从网络、存储器或者是终端的相册等位置中获取到的未经过任何图像处理操作的人脸图像。待处理图像可以为一个图像或者是一批图像，此处不作限定。当待处理图像为一批图像时，可以基于图像属性调节模型进行批量处理，以提高图像处理效率。

接下来，可以使用图像属性调节模型对待处理图像进行属性调整，得到与待处理图像对应的属性图像。具体地，可以对待处理图像进行特征提取得到特征向量，进一步可以对特征向量进行属性调整，并根据属性调整后的编辑向量进行图像生成，获取属性图像。其中，可以使用训练好的编码器对待处理图像进行特征提取得到特征向量，进一步采用属性编辑模型对特征向量进行编辑操作得到编辑向量，再通过训练好的解码器对编辑向量进行图像生成，实现特征向量到人脸图像的映射操作，从而获取属性图像。

参考图8中所示的生成属性图像的流程图，待处理图像801例如人脸图像经过编码器802进行特征提取获取到特征向量；在属性编辑模块803通过对特征向量的编辑(朝特定方向移动)得到属性编辑后的编辑向量，然后将编辑向量输入解码器804即可得到改变目标属性后的人脸图像，即属性图像805。

训练好的编码器为图像到向量的映射，能够获得表征人脸特征的潜向量，即特征向量。图9中示意性示出了确定特征向量的流程图，参考图9中所示，主要包括以下步骤：

在步骤S910中，对所述待处理图像进行特征提取，获取一个主特征向量以及多个偏移特征向量；

在步骤S920中，将所述主特征向量以及所述多个偏移特征向量进行融合，得到所述特征向量。

本公开实施例中，特征向量的数量可以为N个，且每一个特征向量都是512维向量。在提取N个特征向量的过程中，可以先提取出一个512维的主特征向量。与此同时，还可以在主特征向量的基础上获取多个偏移特征向量。具体地，可以对主特征向量进行调整以得到多个偏移特征向量。调整方式可以为对主特征向量增加数值或减少数值，偏移特征向量的数量可以为特征向量的数量减去主特征向量的数量，例如可以为N-1个。

进一步地，可以将主特征向量以及偏移特征向量进行融合得到多个特征向量。具体地，可以对主特征向量和偏移特征向量进行加法操作得到N-1个偏移特征向量对应的特征向量，并将主特征向量与偏移特征向量对应的特征向量进行组合得到多个特征向量，即N个特征向量。

本公开实施例中，通过特征提取得到一个主特征向量，并对主特征向量进行调整得到多个偏移特征向量，进而根据主特征向量以及偏移特征向量进行融合获取到待处理图像的特征向量，能够提高特征向量的准确性和全面性，也能够提高获取特征向量的效率。

具体地，可响应于对所述特征向量沿法向量的移动操作调整多个属性中的目标属性，并根据所述目标属性生成所述属性图像。多个属性可以包括性别、年龄、表情等等。针对每种属性，将该属性二值化(如男女、老少、笑/不笑)得到标签labels，在特征向量和标签组成的数据对(latents labels)上使用线性二分类器(如线性SVM)找到该二值属性(如男女)的分类超平面与法向量。目标属性可以为多个属性中的任意一种属性，例如年龄。如果检测到特征向量沿着该法向量移动，即可根据特征向量的移动方向对待处理图像的目标属性进行调节，具体的调节数值可以根据移动操作而确定。例如，改变生成人脸的年龄属性(如变老)。

参考图10中所示，待处理图像1001输入至编码器1002获取到一个主特征向量1021以及N-1个偏移特征向量1022，进一步将主特征向量1021以及N-1个偏移特征向量1022进行加法操作，得到N-1个特征向量1023，将主特征向量1021以及N-1个特征向量1023进行组合，得到N个特征向量1024。在获取到特征向量1024之后，可以通过属性编辑模型1004对特征向量进行属性编辑得到编辑向量1025，将编辑向量1025输入至解码器1003，以使解码器1003实现潜向量到属性图像的映射，从而获取待处理图像对应的属性图像1005。例如图10中所示，对待处理图像的年龄属性进行调整，得到变老后的编辑图像。

本公开实施例中的技术方案，通过调整编码器的结构，在模型训练过程中考虑了编码器输出的特征向量的可编辑性，以及编码器和解码器在特征向量的空间分布的一致性，提高了生成的属性图像的真实性和自然感，能够提高编辑属性后的人脸质量和图像的准确性，而且提高了编辑强度，增加了图像编辑的灵活性和可操作性。

本公开实施例中提供了一种模型训练装置，参考图11中所示，该模型训练装置1100可以包括：

解码器训练模块1101，用于根据样本图像对解码器进行训练，获取训练好的解码器；

编码器训练模块1102，用于通过编码器提取所述样本图像的多个特征向量，并结合训练好的解码器的参考向量空间分布以及所述多个特征向量的空间分布对所述编码器进行训练，获取训练好的编码器；

模型获取模块1103，用于根据所述训练好的解码器、训练好的编码器以及属性编辑模型，获取用于对图像进行属性编辑的图像属性调节模型。

在本公开的一种示例性实施例中，解码器训练模块包括：对抗训练模块，用于采用对抗生成方式，基于所述样本图像对所述解码器进行训练，得到训练好的解码器。

在本公开的一种示例性实施例中，编码器训练模块包括：联合训练模块，用于将所述参考向量空间部分与所述多个特征向量的空间分布一致，以及最小化重建误差确定为训练目标，结合所述训练好的解码器对编码器进行训练，获取训练好的编码器。

在本公开的一种示例性实施例中，联合训练模块包括：损失函数确定模块，用于根据所述训练目标确定损失函数；参数固定模块，用于固定所述训练好的解码器的参数，根据所述训练目标对应的损失函数对编码器进行训练，获取训练好的编码器。

在本公开的一种示例性实施例中，损失函数确定模块包括：确定控制模块，用于根据最小化方差以及最小化偏移损失函数、重建损失函数确定损失函数。

在本公开的一种示例性实施例中，编码器训练模块包括：特征向量获取模块，用于获取所述样本图像对应的一个主样本特征向量和多个偏移样本特征向量，并对所述主样本特征向量和所述多个偏移样本特征向量进行融合获取多个特征向量。

在本公开的一种示例性实施例中，所述装置还包括：空间分布调整模块，用于通过最小化方差对所述偏移样本特征向量的范数进行约束，以调整所述多个样本特征向量的空间分布。

在本公开的一种示例性实施例中，所述装置还包括：训练约束模块，用于采用针对特征向量的判别器，通过对抗学习方式对编码器进行约束训练，以使所述特征向量的空间分布与所述参考向量空间分布一致。

本公开实施例中提供了一种图像处理装置，参考图12中所示，该图像处理装置1200可以包括：

图像获取模块1201，用于获取待处理图像；

图像生成模块1202，用于根据图像属性调节模型提取所述待处理图像的特征向量，并对所述特征向量进行编辑操作得到编辑向量，以生成所述待处理图像对应的属性图像；所述图像属性调节模型根据上述任意一项所述的模型训练方法训练得到。

在本公开的一种示例性实施例中，图像生成模块包括：属性调整模块，用于响应于对所述特征向量沿目标属性对应的法向量的移动操作，调整多个属性中的目标属性；生成控制模块，用于根据所述目标属性生成所述属性图像。

需要说明的是，上述模型训练装置以及上述图像处理装置中各模块的具体细节已经在对应的模型训练方法和图像处理方法中进行了详细描述，因此此处不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种模型训练方法，其特征在于，包括：

根据样本图像对解码器进行训练，获取训练好的解码器；

通过编码器提取所述样本图像的多个特征向量，并结合训练好的解码器的参考向量空间分布以及所述多个特征向量的空间分布对所述编码器进行训练，获取训练好的编码器；

根据所述训练好的解码器、训练好的编码器以及属性编辑模型，获取用于对图像进行属性编辑的图像属性调节模型。

2.根据权利要求1所述的模型训练方法，其特征在于，所述根据样本图像对解码器进行训练，获取训练好的解码器，包括：

采用对抗生成方式，基于所述样本图像对所述解码器进行训练，得到训练好的解码器。

3.根据权利要求1所述的模型训练方法，其特征在于，所述通过编码器提取所述样本图像的多个特征向量，并结合训练好的解码器的参考向量空间分布以及所述多个特征向量的空间分布对所述编码器进行训练，获取训练好的编码器，包括：

将所述参考向量空间部分与所述多个特征向量的空间分布一致，以及最小化重建误差确定为训练目标，结合所述训练好的解码器对编码器进行训练，获取训练好的编码器。

4.根据权利要求3所述的模型训练方法，其特征在于，所述结合所述训练好的解码器对编码器进行训练，获取训练好的编码器，包括：

根据所述训练目标确定损失函数；

固定所述训练好的解码器的参数，根据所述训练目标对应的损失函数对编码器进行训练，获取训练好的编码器。

5.根据权利要求4所述的模型训练方法，其特征在于，所述根据所述训练目标确定损失函数，包括：

根据最小化方差以及最小化偏移损失函数、重建损失函数确定损失函数。

6.根据权利要求1所述的模型训练方法，其特征在于，所述通过编码器提取所述样本图像的多个特征向量，包括：

获取所述样本图像对应的一个主样本特征向量和多个偏移样本特征向量，并对所述主样本特征向量和所述多个偏移样本特征向量进行融合获取多个特征向量。

7.根据权利要求6所述的模型训练方法，其特征在于，所述方法还包括：

通过最小化方差对所述偏移样本特征向量的范数进行约束，以调整所述多个样本特征向量的空间分布。

8.根据权利要求1所述的模型训练方法，其特征在于，所述方法还包括：

采用针对特征向量的判别器，通过对抗学习方式对编码器进行约束训练，以使所述特征向量的空间分布与所述参考向量空间分布一致。

9.一种图像处理方法，其特征在于，包括：

获取待处理图像；

根据图像属性调节模型提取所述待处理图像的特征向量，并对所述特征向量进行编辑操作得到编辑向量，以生成所述待处理图像对应的属性图像；所述图像属性调节模型根据权利要求1-8中任意一项所述的模型训练方法训练得到。

10.根据权利要求9所述的图像处理方法，其特征在于，所述对所述特征向量进行编辑操作得到编辑向量，以生成所述待处理图像对应的属性图像，包括：

响应于对所述特征向量沿目标属性对应的法向量的移动操作，调整多个属性中的目标属性；

根据所述目标属性生成所述属性图像。

11.一种模型训练装置，其特征在于，包括：

解码器训练模块，用于根据样本图像对解码器进行训练，获取训练好的解码器；

编码器训练模块，用于通过编码器提取所述样本图像的多个特征向量，并结合训练好的解码器的参考向量空间分布以及所述多个特征向量的空间分布对所述编码器进行训练，获取训练好的编码器；

模型获取模块，用于根据所述训练好的解码器、训练好的编码器以及属性编辑模型，获取用于对图像进行属性编辑的图像属性调节模型。

12.一种图像处理装置，其特征在于，包括：

图像获取模块，用于获取待处理图像；

图像生成模块，用于根据图像属性调节模型提取所述待处理图像的特征向量，并对所述特征向量进行编辑操作得到编辑向量，以生成所述待处理图像对应的属性图像；所述图像属性调节模型根据权利要求1-8中任意一项所述的模型训练方法训练得到。

13.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-8任意一项所述的模型训练方法或权利要求9-10任意一项所述的图像处理方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-8任意一项所述的模型训练方法或权利要求9-10任意一项所述的图像处理方法。