CN111127309A

CN111127309A - 肖像风格迁移模型训练方法、肖像风格迁移方法以及装置

Info

Publication number: CN111127309A
Application number: CN201911275041.0A
Authority: CN
Inventors: 王鼎; 谢衍涛; 梅启鹏; 陈继
Original assignee: Hangzhou Gexiang Technology Co ltd
Current assignee: Hangzhou Gexiang Technology Co ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-08
Anticipated expiration: 2039-12-12
Also published as: CN111127309B

Abstract

本发明公开了一种肖像风格迁移模型训练方法、肖像风格迁移方法以及装置。其中，模型训练方法包括：获取用户肖像图和绘画风格肖像图，一方面由用户肖像图和肖像风格迁移模型生成中间生成图；另一方面基于用户肖像图对绘画风格肖像图及其脸部掩码图进行配准变形；再综合用户肖像图、中间生成图、风格配准图和掩码配准图，计算作为训练目标的总损失对模型进行优化，重复上述过程直至训练完毕。本发明还相应提供了利用上述训练方法得到的模型进行肖像风格迁移处理的软硬件方案。本发明可以训练出补足了现有模型“考虑不周”之处的最佳肖像风格迁移模型，并由此优化后的模型可以生成大大减弱肖像瑕疵的绘画风格用户肖像图，进而改善用户使用体验。

Description

肖像风格迁移模型训练方法、肖像风格迁移方法以及装置

技术领域

本发明涉及图像成像技术领域，尤其涉及一种肖像风格迁移模型训练方法、肖像风格迁移方法以及装置。

背景技术

一方面，人物肖像常常是摄影及绘画作品的主题；另一方面，随着智能手机的发展，手机拍照的质量越来越高，用户对于肖像拍照需求也越来越多样化。基于上述，针对用户肖像的风格迁移技术应运而生，尤其在消费领域获得了很多的关注。该技术的至少一种常见应用场景是，用户通过终端拍摄了一张肖像照片，经过后台自动处理，这张用户肖像照片则转变为一张具有某个特定肖像画风格的用户肖像图片。

一般而言，肖像风格迁移的传统处理思路是在一张样例肖像绘画中搜索出风格纹理等，利用绘画风格纹理匹配、重建用户提供的照片图片，但经实践分析，此类传统的迁移成像方式不能获得稳定的结果，经常出现用户肖像与肖像绘画中的风格相似度不佳或者迁移后人脸结构不匹配等问题；基于此，本领域发展出了利用模型处理的方案构思，相对于传统方式，当前肖像风格迁移模型生成的肖像内容与用户图像较为相似，而绘画风格等细节与作为基准的绘画肖像图也较为相似，因而相对而言在稳定性上模型方案要优于传统的迁移方案。

但是，肖像图不同于风景图，人类的视觉系统对于肖像图中的人物面部细节、五官结构等尤为敏感。经分析发现，即便当前的模型处理方案在一定程度上改善了传统方式稳定性不佳的问题，然而在由当前已有模型迁移处理背后，生成的肖像中异常的、不规则的纹理、结构等细节表现，仍会带来较重的视觉瑕疵，从而导致用户使用体验不佳。

发明内容

本发明提供了一种肖像风格迁移模型训练方法、肖像风格迁移方法以及装置，本发明还相应提供了一种肖像风格迁移设备以及一种计算机程序产品，通过以上形式，能够明显消除最终生成的绘画风格用户肖像图的纹理细节、人脸结构等瑕疵。

关于上述本发明采用的技术方案具体如下：

第一方面，本发明提供了一种肖像风格迁移模型训练方法，包括：

获取用户肖像图以及绘画风格肖像图；

根据用户肖像图以及预先构建的相应于所述绘画风格肖像图的肖像风格迁移模型，获得中间生成图；

从用户肖像图中提取包含语义特征的人脸信息；

根据所述人脸信息，对所述绘画风格肖像图及其脸部掩码图进行变形，得到与所述用户肖像图中人脸信息一致的风格配准图和掩码配准图；

利用所述用户肖像图、所述中间生成图、所述风格配准图以及所述掩码配准图，计算训练目标总损失；

基于所述训练目标总损失，对肖像风格迁移模型中的参数进行更新；

重复获得中间生成图、计算总损失以及更新模型参数的过程，直至训练过程收敛。

在其中一种可能的实现方式中，所述根据所述人脸信息，对所述绘画风格肖像图及其脸部掩码图进行变形包括：

根据所述人脸信息，确定所述用户肖像图、所述绘画风格肖像图及其脸部掩码图中人脸的位置；

基于所述用户肖像图、所述绘画风格肖像图及其脸部掩码图中的人脸位置的对应关系，将所述绘画风格肖像图及其脸部掩码图向所述用户肖像图配准。

在其中一种可能的实现方式中，所述根据所述人脸信息，确定所述用户肖像图、所述绘画风格肖像图及其脸部掩码图中人脸的位置包括：

基于人脸信息，分别在所述用户肖像图、所述绘画风格肖像图及其脸部掩码图中确定人脸特征点的坐标；

根据各图像中的人脸特征点的坐标以及各图像的四个顶点，对所述用户肖像图、所述绘画风格肖像图及其脸部掩码图进行三角剖分处理。

在其中一种可能的实现方式中，所述利用所述用户肖像图、所述中间生成图、所述风格配准图以及所述掩码配准图，计算训练目标总损失包括：

根据所述用户肖像图以及所述中间生成图确定内容损失；

根据所述风格配准图以及所述中间生成图确定风格损失；

根据所述用户肖像图、所述中间生成图以及所述掩码配准图确定纹理细节损失；

根据所述中间生成图、所述风格配准图以及所述掩码配准图确定局部风格损失。

在其中一种可能的实现方式中，所述根据所述用户肖像图、所述中间生成图以及所述掩码配准图确定纹理细节损失包括：

分别在所述用户肖像图以及所述中间生成图中，且基于所述掩码配准图表征的人脸区域内，提取高频信息；

根据所述用户肖像图以及所述中间生成图的高频信息相似性，确定所述纹理细节损失。

在其中一种可能的实现方式中，所述根据所述中间生成图、所述风格配准图以及所述掩码配准图确定局部风格损失包括：

分别提取所述中间生成图以及所述风格配准图的浅层特征；

对所述掩码配准图进行降分辨率处理；

基于降分辨率后的所述掩码配准图表征的人脸区域，结合所述浅层特征，确定所述局部风格损失。

第二方面，本发明提供了一种肖像风格迁移方法，包括：

接收待处理用户肖像图；

将所述待处理用户肖像图输入至经由如上所述肖像风格迁移模型训练方法训练后得到的肖像风格迁移模型，进行肖像风格迁移处理；

输出经所述肖像风格迁移模型生成的绘画风格用户肖像图。

第三方面，本发明提供了一种肖像风格迁移装置，包括：

用户肖像接收模块，用于接收待处理用户肖像图；

风格迁移处理模块，用于将所述待处理用户肖像图输入至经由如上所述肖像风格迁移模型训练方法训练后得到的肖像风格迁移模型，进行肖像风格迁移处理；

最终图像输出模块，用于输出经所述肖像风格迁移模型生成的绘画风格用户肖像图。

第四方面，本发明提供了一种肖像风格迁移设备，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如上所述的肖像风格迁移方法。

第五方面，本发明还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使所述终端设备执行如上所述的肖像风格迁移方法。

在第五方面的一种可能的设计中，该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上，也可以部分或者全部存储在不与处理器封装在一起的存储介质上。

综上各方面，本发明的核心构思在于探寻到对当前肖像风格迁移模型(本领域也称其为图像生成网络)进行深度优化的原因和方向，并采取相应的实施手段予以实现。具体来说，所用技术手段是在肖像风格迁移模型的训练过程中，结合包含语义特征的人脸信息，获得结构细节更为精准的风格配准图和掩码配准图，并在此基础上再融合用户输入的用户肖像图以及中间生成图(也即是由更新前的肖像风格迁移模型输出的“初始”绘画风格用户肖像图，用于作为计算总损失的参考之一)等多个维度附带的信息计算总的损失(即总约束条件)，以此作为目标优化模型的参数，最后便可以训练出补足了现有模型“考虑不周”之处的最佳肖像风格迁移模型。

由此优化后的模型再进行肖像风格迁移处理，便可以得到大大减弱人物脸部瑕疵的最终的绘画风格用户肖像图，进而有效达到甚至超越用户对成像处理的预期。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的肖像风格迁移模型训练方法的实施例的流程图；

图2为本发明提供的绘画风格肖像图变形配准的实施例的流程图；

图3为本发明提供的脸部掩码图的实施例的示意图；

图4为本发明提供的人脸三角剖分的实施例的示意图；

图5为本发明提供的确定纹理细节损失方法的实施例的流程图；

图6为本发明提供的确定局部风格损失方法的实施例的流程图；

图7为本发明提供的计算总损失的实施例的结构示意图；

图8为本发明提供的肖像风格迁移装置的实施例的方框示意图；

图9为本发明提供的肖像风格迁移设备的实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

首先，作为本发明创造中涉及的技术实现手段及其具体实施示例的设计前提，这里还需对本发明所涉及的技术问题再做说明介绍。如前文所述，本领域中客观已知的是，现有风格迁移处理不能较好地解决肖像中人脸部位出现的令人不快的诸多瑕疵，本发明在设计初期深入探究了产生该现象的原因，以一般的基于深度卷积神经网络架构的肖像风格迁移模型(图像生成网络)的处理过程为例：预先利用一张肖像画构建一个用户生成风格图像的神经网络，用户输入一张肖像照片至该神经网络，处理之后输出一张肖像画风格的用户肖像图片，以此完成图像风格迁移任务。在图像风格迁移的工作中，神经网络的浅层特征被视为“风格”，深层特征被视为“内容”(一般认为深度卷积神经网络的浅层特征对应着图像的边缘、细节等纹理特征，而其深层特征对应着图像的语义特征)，该神经网络的学习目标即是要使最终生成图在内容上与用户照片相似，在呈现风格上则与绘画肖像图(肖像画)相似。

这个学习过程可以是，假设输入的用户肖像图为X，待学习的绘画风格肖像图为S，神经网络的输出效果图为Y，则可以确定该神经网络的学习目标损失函数是：

L_total(X,S,Y)＝α*L_content(X,Y)+β*L_style(S,Y) (1)

其中L_total(X,S,Y)表示当前模型的总的损失函数，L_content(X,Y)表示内容损失，L_style(S,Y)表示风格损失；α和β则分别为两种损失的权重(可由经验而定)，内容损失和风格损失则可采用如下方式得到：

利用特征提取工具(例如VGG-16网络)分别分解X，Y，S的特征，得到三幅图像的各层特征，由此，内容损失可定义为：

风格损失则可以基于各层图像特征的Gram矩阵

进行定义，其中N_l表示第l层特征的维度，将第l层特征按照特征维度向量化为

其中M_l表示该层特征的宽与高的乘积；对于第l层特征的Gram矩阵，矩阵元素为

其中M_l表示该层特征的宽与高的乘积，

表示向量化的l层特征第i个向量第k个元素。设YG和SG^l分别为Y与S第l层特征的Gram矩阵，YM_l和SM_l分别表示Y与S第l层特征的宽与高的乘积，由此，风格损失可以定义为：

上式中

分别表示三幅图片的第l层的i行j列特征。

在掌握了现有模型的上述学习“思路”的前提下，本发明便从内容损失和风格损失的定义上做进一步分析，由此才确定出本发明的解决方向，也即是目前生成的绘画风格用户肖像图中包含大量不规则细节结构等瑕疵的原因。

由内容损失式(2)可知，其定义的是Y图与X图之间的语义损失，语义损失属于神经网络的高层特征，其中已不包含属于低层特征的图像细节信息，从而在生成的Y图中会丢掉原始图所具有的图像细节信息。

由风格损失式(3)可知，虽然其使用的是Y图与S图的低层特征，但是，是将低层特征视为一种随机分布状态，换言之，风格损失计算的是两种图像随机分布的低层特征之间的整体相似程度，即统计的目标是特征分布的全局特性，而丢失了图像特征的局部信息，也就因此会产生符合全局约束的多种局部结构，这就导致生成的效果图在局部表现上出现随机性。

由上述分析，本发明明确了导致当前肖像风格迁移处理后，画中人脸部位存在大量令人不快的细节结构瑕疵的实质原因，即，推导出本发明创造的改进方向在于弥补现有模型丢失的、“考虑不周”的学习目标。

基于上述问题，本发明提供了能够使模型输出的生成图中肖像面部区域瑕疵大幅削减的肖像风格迁移模型训练方法，的，如图1示出的是该方法的至少一种实施例，可包括：

步骤S1、获取用户肖像图以及绘画风格肖像图。

用户肖像图可以来自用户提供的肖像集，并且不限于照片或视频等格式，只要可以清晰且突出地呈现目标人物(可以是用户本人，也可以是用户提供的其他人)的脸部特点即可作为前述X图。绘画风格肖像图可以是各种绘画风格的肖像画作或图片，只要该图像中的重点是人物肖像即可作为模型学习对象S图，例如但不限于诸如名画《戴珍珠耳环的少女》等。

步骤S2、根据用户肖像图以及预先构建的相应于绘画风格肖像图的肖像风格迁移模型，获得中间生成图。

该过程可参考前文说明，即是直接由X图和当前的肖像风格迁移模型生成绘画风格用户肖像图，但在本实施例中，本步骤的作用是在训练过程中生成用于作为后续步骤处理基础的“初始图”，因而此处称其为中间生成图。关于所述中间生成图，本领域技术人员可以理解的是，当模型参数尚未更新时，得到的中间生成图与前文内容描述的过程和结果相似，而当经由本实施例后续步骤对该模型参数进行更新后，得到的中间生成图则是指由X图和当前更新后的模型得到的用于下一轮后续计算处理的“初始图”，以此循环往复，而不应片面地进行字面含义理解。

而对于肖像风格迁移模型，则还可以进行如下说明：

其一、如前文提及的，肖像风格迁移模型是以一副绘画风格的肖像画作为样例预先构建的，因而在本实施例中其同样也可以是基于前述绘画风格肖像图预先构建的、具有特定风格迁移方向的模型。

其二、肖像风格迁移模型的模型架构本身并不是本发明的侧重点，但为了说明方便且为了与前文保持一致，同时也是考虑到当前技术发展状态对于实施本发明构思的操作因素，此处仍以神经网络举例，并且更为具体地可以采用但不限于深度卷积神经网络架构。

例如，该深度卷积神经网络架构的肖像风格迁移模型可采用编解码器(encoder-decoder)结构，先利用encoder对输入的用户肖像图进行特征分解得到低层纹理特征和高层的语义特征，然后融合低层和高层特征并经过decoder处理输出RGB图像。进一步地，该深度卷积神经网络中的卷积层可采用3X3大小的卷积加上ReLU激活函数，每一卷积层的卷积模板数(即输出通道数)可设置为64、128、256…等；该深度卷积神经网络中的下采样可使用2X2的Max Pooling层，且每次下采样输出长和宽减半；而该深度卷积神经网络中的上采样则可使用2X2的线性插值法，且每次上采样输出长和宽各增加一倍。

以上结构仅为一种示意性参考，对本领域技术人员而言，实际操作中具体采用何种肖像风格迁移模型的架构没有理解和实施难度。

步骤S3、从用户肖像图中提取包含语义特征的人脸信息；

随着深度学习的发展，利用但不限于神经网络方式提取人脸信息的精度已经很高，而且也出现了较多的具体特征处理算法，例如，在某些实施例中可采用深度卷积神经网络级联算法作为人脸信息的特征点检测器。利用该特征点检测器可检测到用户输入的用户肖像图中包括语义特征在内的多种人脸信息(还包括脸部外轮廓点，以及眉、眼、鼻、口等轮廓点)，而其中语义特征则可作为后续脸部配准步骤的主要参考依据，这个过程同时也是使更新后的肖像风格迁移模型输出的中间生成图或最终的绘画风格用户肖像图均不会丢失语义特征等人脸信息。

步骤S4、根据人脸信息，对绘画风格肖像图及其脸部掩码图进行变形，得到与用户肖像图中人脸信息一致的风格配准图和掩码配准图。

本步骤的主要目的之一是，经过变形配准操作使前述绘画风格肖像图实现与输入的用户肖像图脸部语义对应。基于此目标，在实施过程中可采用的操作手段则可以是多样的，例如根据提取到的人脸信息，分别确定出用户肖像图、所述绘画风格肖像图及其脸部掩码图中，人脸及其上各特征结构的位置所在，也即是分别对上述图像中的人脸语义进行定位。这里需说明的是，对于绘画风格肖像图的人脸语义定位，在本实施例中考虑的是分别从绘画风格肖像图本身，以及从绘画风格肖像图抽取出的脸部区域掩码图分别给予定位操作，这是考虑到后续步骤在计算总损失目标时，可以对计算范围进行限定，排除非必要信息的无谓干扰，从而可以精简有效的运算数据量，并且提升作为更新依据的总损失的精准度，具体将在后文再做说明。而对于获取脸部掩码图的方式则有多种现有手段可供选择，对此本实施例不做限定。

接着，基于所述用户肖像图、所述绘画风格肖像图及其脸部掩码图中的人脸位置的对应关系，再将所述绘画风格肖像图及其脸部掩码图向着所述用户肖像图进行变形、配准，从而得到包含了语义特征等人脸信息的风格配准图和掩码配准图。

这个过程即是指在上述定位操作完成后，将绘画风格肖像图及其脸部掩码图中的人脸作为被控对象，将用户肖像图中的人脸作为目标，对绘画风格肖像图及其脸部掩码图中的人物的脸部位置信息进行转换，例如可通过逐步拉伸、旋转、扭曲等手动操作，或者直接通过位置信息的差异进行自动调节，从而使得所述绘画风格肖像图及其脸部掩码图与用户肖像图建立了语义特征上的关联，也即是得到包含了用户肖像图语义特征等人脸信息的风格配准图和掩码配准图。

关于此过程，在本发明的某些实施例中可采用如图2所示的方式：

步骤S41、基于人脸信息，分别在用户肖像图、绘画风格肖像图及其脸部掩码图中确定人脸特征点的坐标；

步骤S42、根据各图像中的人脸特征点的坐标以及各图像的四个顶点，对用户肖像图、绘画风格肖像图及其脸部掩码图进行三角剖分处理。

具体来说，由于绘画风格肖像图和用户肖像图是已知的，可以预先标记出用户肖像图、绘画风格肖像图及其脸部掩码图M(参考图3示意)中的人物脸部的特征点位置(包含位置信息，如坐标值)，且三者的特征点个数和语义位置可以是一致的；然后基于各图中人脸特征点位置和该图像的四个顶点，进行针对特征点的三角剖分操作(参考图4示意)；由此，便构建出三者之间的三角剖分的对应关系。

步骤S43、利用三角剖分对应关系将绘画风格肖像图及其脸部掩码图向用户肖像图进行配准变形。

由此便可以分别得到变形后与输入的用户肖像图大小一致且语义特征一致的风格配准图Sw和掩码配准图Mw。其中所涉及的配准变形方式可采用三角插值法，这样，变形过程可以用式(4)表示：

Sw＝Warp(S),Mw＝Warp(M) (4)

上述变形技术本身为常规技术，此处不作赘述，但需要说明的是本发明的构思不是具体用了什么处理工具，各处理手段本身皆可源于本领域已实现的成熟技术，但是本发明的初衷在于提供一个步步相关、统一完整地解决前文分析出的技术问题的实施方案。

接续前文，步骤S5、利用用户肖像图、中间生成图、风格配准图以及掩码配准图，计算训练目标总损失。

经由前文分析可知，通常肖像风格迁移模型会考虑到一定的损失，但仍会丢失某些导致成像瑕疵的关键信息，因而本步骤的目的是借由多个维度的信息，补足乃至提供一个全面的总损失，机理是因为人眼对肖像中的脸部细节、结构等会格外敏感，因此可以基于多维信息对肖像中的面部像素进行训练约束，使其更符合人眼视觉习惯，即减少生成图中的面部瑕疵。而这些多维信息即是来自于用户肖像图、中间生成图、风格配准图以及掩码配准图的融合效果，而具体的融合组成方式则有多种选择，本实施例结合前文分析，提供了如下一种总损失构成的实施参考：

(一)由所述用户肖像图以及所述中间生成图确定的内容损失；

(二)由所述风格配准图以及所述中间生成图确定的风格损失；

上述两项具体实现过程可参考但不限于前文分析中的内容损失L_content(X,Y)，以及风格损失L_style(S,Y)，此处不作赘述。但需指出的是，由于S图，即绘画风格肖像图已经由前述步骤转化为风格配准图，因此，此处风格损失的定义方式虽与前文L_style(S,Y)相似，但实质已为L_style(Sw,Y)。

(三)由所述用户肖像图、所述中间生成图以及所述掩码配准图确定纹理细节损失；

关于此项，其实质是以掩码配准图作为计算范围控制，比较输出的中间生成图与输入的用户肖像图的特征成分的相关性，从而明确前述内容损失中具体丢失了哪些信息，进而予以补足。

实际操作流程可参考图5所示，包括：

步骤S51、分别在用户肖像图以及中间生成图中，且基于掩码配准图表征的人脸区域内，提取高频信息；

步骤S52、根据用户肖像图以及中间生成图的高频信息相似性，确定纹理细节损失。

具体来说，根据前文分析可知，内容损失缺乏了面部图像细节、纹理、结构等约束，因而，此过程的目标即是为内容损失弥补面部图像细节、纹理、结构等约束，本实施例中以“纹理细节损失”作为对此的统称代指。进一步地，在图像处理领域中普遍认为，图像中的细节、纹理、结构等均包含在图像的高频信息中，因而可以采用一些本领域常规手段拿到图像的高频信息：

HP(X)＝X-Gauss(X) (5)

一般可通过式(5)来提取图像的高频信息，其中Gauss(X)表示用高斯滤波来对图像进行平滑，之后可按下式定义内容中的细节、纹理、结构等损失。

L_texture(X,Y)＝∑_i,jMw_i,j*HX_i,j-HY_i,j)² (6)

其中，HX和HY分别表示用户肖像图X和中间生成图Y的高频成分，即HX＝HP(X)，HY＝HP(Y)；掩码配准图Mw中的非0值表示面部区域，0值区域的信息，例如细节、纹理、结构等损失对本发明训练目标没有贡献，据此可知，掩码配准图Mw在计算总损失的作用是限制一个精准的计算对象范围，排除无谓信息。

由此，将所述纹理细节损失作为总损失因素之一，即加入到目标函数之中可以使得在模型训练过程中，要求中间生成图(包括最终的成像)的面部纹理等与输入的用户肖像图尽可能的相似，从而便可以减少脸部区域的纹理瑕疵。

(四)由所述中间生成图、所述风格配准图以及所述掩码配准图确定局部风格损失。

关于此项，其实质是以掩码配准图作为计算范围控制，比较中间生成图和所述风格配准图中l层特征(例如，在具体实现中可以采用VGG-16中的relu1_2、relu2_2、relu3_3以及relu4_3层特征)的相似程度，以此明确风格损失中不曾考虑到的局部信息，从而将这些局部信息作为约束因素，对前述风格损失予以补足。

实际操作流程可参考图6所示，包括：

步骤S501、分别提取中间生成图以及风格配准图的浅层特征；

步骤S502、对掩码配准图进行降分辨率处理；

步骤S503、基于降分辨率后的掩码配准图表征的人脸区域，结合浅层特征，确定局部风格损失。

具体来说，根据前文分析可知，风格损失缺乏了局部约束，因而，此过程的目标即是为风格损失弥补上述损失中的缺陷。而加入局部约束的过程考虑到了风格配准图是附带了人脸信息后的变形结果，即风格配准图中的脸部表现已经与用户肖像图实现了语义对应，因此，可以分别基于中间生成图以及风格配准图中，脸部区域内(由掩码配准图约束)的浅层特征定义如下局部风格约束：

其中，由于每一层特征的分辨率皆是不一致的，因而为了与第l层数据尺寸一致，即需要掩码配准图Mw和每一层分辨率一致，因此在实施过程中将Mw降分辨率为

以便用于标识脸部区域。

步骤S6、基于训练目标总损失，对肖像风格迁移模型中的参数进行更新。

此步骤即可以是使用梯度下降法等常规方式，将总损失反向传播至待更新模型。结合前文各项实施方式，本步骤中提供了一种综合上述四种损失因素的总损失计算结构，如图7所示。并且，在本实施方式中，总损失L_total(X,S,Y)以函数形式可定义如下：

L_total(X,S,Y)＝

α*L_content(X,Y)+β*L_style(Sw,Y)+γ*L_texture(X,Y)+ω*L_feature(Sw,Y)(8)

在实际操作中，α，β，γ，ω的权值可分别依据经验设为但不限于1.0，0.1，0.02，0.1。

步骤S7、重复上述获得中间生成图、计算总损失以及更新模型参数的过程，直至训练过程收敛。

此过程无需赘述，本领域技术人员可以理解，即是经由迭代训练的过程，使肖像风格迁移模型收敛。

综上所述，本发明的核心构思之一，在于探寻到对当前肖像风格迁移模型(本领域也称其为图像生成网络)进行深度优化的原因和方向，并采取相应的实施手段予以实现。具体来说，所用技术手段是在肖像风格迁移模型的训练过程中，结合包含语义特征的人脸信息，获得结构细节更为精准的风格配准图和掩码配准图，并在此基础上再融合用户输入的用户肖像图以及中间生成图(也即是由更新前的肖像风格迁移模型输出的“初始”绘画风格用户肖像图，用于作为计算总损失的参考之一)等多个维度附带的信息计算总的损失(即总约束条件)，以此作为目标优化模型的参数，最后便可以训练出补足了现有模型“考虑不周”之处的最佳肖像风格迁移模型。

由此优化后的模型再进行肖像风格迁移处理，便可以得到大大减弱人物脸部瑕疵的最终的绘画风格用户肖像图，进而有效达到甚至超越用户对成像处理的预期。这里，本发明提供了一种肖像风格迁移方法的实施参考，包括如下步骤：

A、接收待处理用户肖像图；

B、将所述待处理用户肖像图输入至经由如上所述肖像风格迁移模型训练方法训练后得到的肖像风格迁移模型，进行肖像风格迁移处理；

C、输出经所述肖像风格迁移模型生成的绘画风格用户肖像图。

此过程本身并无特别之处，重点还是在于使用了前文充分介绍的肖像风格迁移模型训练方法得到的“成像工具”，该方法的领域优势和技术目的等均已在前文记载，此处不再赘述。

相应于上述方案，本发明还提供了一种肖像风格迁移装置的实施例，如图8所示，具体可以包括如下部件：

用户肖像接收模块1，用于接收待处理用户肖像图；

风格迁移处理模块2，用于将所述待处理用户肖像图输入至经由如上所述肖像风格迁移模型训练方法训练后得到的肖像风格迁移模型，进行肖像风格迁移处理；

最终图像输出模块3，用于输出经所述肖像风格迁移模型生成的绘画风格用户肖像图。

应理解以上图8所示的肖像风格迁移装置的各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。再如，这些部件可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，本发明适用于多种实施方式，本发明以下述载体作为示意性说明：

(1)一种肖像风格迁移设备，其可以包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述肖像风格迁移方法实施例或等效实施方式的步骤/功能。

图9为肖像风格迁移设备的至少一种实施例的结构示意图，其中，该设备可以是电子设备也可以是内置于上述电子设备的电路设备。上述电子设备可以为云服务器、移动终端(手机、穿戴设备、平板电脑)、智慧屏、智能教学设备等。本实施例对肖像风格迁移设备的具体形式不作限定。

具体如图9所示，肖像风格迁移设备900包括处理器910和存储器930。其中，处理器910和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。

除此之外，为了使得肖像风格迁移设备900的功能更加完善，该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。其中，显示单元970可以包括显示屏。

进一步地，上述肖像风格迁移设备900还可以包括电源950，用于给该设备900中的各种器件或电路提供电能。

应理解，图9所示的肖像风格迁移设备900能够实现前述实施例提供的方法的各个过程。该设备900中的各个部件的操作和/或功能，可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法、装置等实施例的描述，为避免重复，此处适当省略详细描述。

应理解，图9所示的肖像风格迁移设备900中的处理器910可以是片上系统SOC，该处理器910中可以包括中央处理器(Central Processing Unit；以下简称：CPU)，还可以进一步包括其他类型的处理器，例如：图像处理器(Graphics Processing Unit；以下简称：GPU)等，具体在下文中再作介绍。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。

(2)一种可读存储介质，在可读存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述肖像风格迁移方法实施例或等效实施方式的步骤/功能。

在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。

(3)一种计算机程序产品(该产品可以包括上述装置)，该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的肖像风格迁移方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述计算机程序产品可以包括但不限于是指APP；接续前文再做补充说明，上述设备/终端可以是一台计算机设备(例如手机、PC终端、云平台、服务器、服务器集群或者诸如媒体网关等网络通信设备等)。并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network ProcessUnits；以下简称：NPU)和图像信号处理器(Image Signal Processing；以下简称：ISP)，该处理器还可包括特定集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatilememory)，例如非可移动磁盘、U盘、移动硬盘、光盘等，以及只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)等。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以及，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。尤其，对于装置、设备等实施例而言，由于其基本相似于方法实施例，所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种肖像风格迁移模型训练方法，其特征在于，包括：

获取用户肖像图以及绘画风格肖像图；

从用户肖像图中提取包含语义特征的人脸信息；

2.根据权利要求1所述的肖像风格迁移模型训练方法，其特征在于，所述根据所述人脸信息，对所述绘画风格肖像图及其脸部掩码图进行变形包括：

3.根据权利要求2所述的肖像风格迁移模型训练方法，其特征在于，所述根据所述人脸信息，确定所述用户肖像图、所述绘画风格肖像图及其脸部掩码图中人脸的位置包括：

4.根据权利要求1所述的肖像风格迁移模型训练方法，其特征在于，所述利用所述用户肖像图、所述中间生成图、所述风格配准图以及所述掩码配准图，计算训练目标总损失包括：

根据所述用户肖像图以及所述中间生成图确定内容损失；

根据所述风格配准图以及所述中间生成图确定风格损失；

5.根据权利要求4所述的肖像风格迁移模型训练方法，其特征在于，所述根据所述用户肖像图、所述中间生成图以及所述掩码配准图确定纹理细节损失包括：

6.根据权利要求4所述的肖像风格迁移模型训练方法，其特征在于，所述根据所述中间生成图、所述风格配准图以及所述掩码配准图确定局部风格损失包括：

分别提取所述中间生成图以及所述风格配准图的浅层特征；

对所述掩码配准图进行降分辨率处理；

7.一种肖像风格迁移方法，其特征在于，包括：

接收待处理用户肖像图；

将所述待处理用户肖像图输入至经由权利要求1～6任一项所述肖像风格迁移模型训练方法训练后得到的肖像风格迁移模型，进行肖像风格迁移处理；

输出经所述肖像风格迁移模型生成的绘画风格用户肖像图。

8.一种肖像风格迁移装置，其特征在于，包括：

用户肖像接收模块，用于接收待处理用户肖像图；

风格迁移处理模块，用于将所述待处理用户肖像图输入至经由权利要求1～6任一项所述肖像风格迁移模型训练方法训练后得到的肖像风格迁移模型，进行肖像风格迁移处理；

9.一种肖像风格迁移设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行权利要求7所述的肖像风格迁移方法。

10.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使所述终端设备执行权利要求7所述的肖像风格迁移方法。