CN111401216A

CN111401216A - 图像处理、模型训练方法、装置、计算机设备和存储介质

Info

Publication number: CN111401216A
Application number: CN202010169373.7A
Authority: CN
Inventors: 曹赟; 倪辉; 陈旭; 朱俊伟; 邰颖; 葛彦昊; 汪铖杰; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2020-07-10
Anticipated expiration: 2040-03-12
Also published as: CN111401216B

Abstract

本申请涉及一种图像处理、模型训练方法、装置、计算机设备和存储介质。所述图像处理方法包括：获取初始面部图像和模板面部图像；分别对所述初始面部图像和所述模板面部图像进行编码，得到所述初始面部图像的面部身份特征和所述模板面部图像的属性特征；对所述初始面部图像和所述模板面部图像共同编码，得到所述初始面部图像和所述模板面部图像共同对应的共同编码特征；融合所述面部身份特征、所述属性特征和所述共同编码特征得到目标特征；解码所述目标特征，得到目标面部图像；所述目标面部图像与所述初始面部图像的面部身份特征匹配、且与所述模板面部图像的属性特征匹配。采用本方法能够提高图像处理效率。

Description

图像处理、模型训练方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种图像处理、模型训练方法、装置、计算机设备和存储介质。

背景技术

随着人工智能在图像处理技术上的不断发展，在计算机设备上对图像或者视频进行个性化处理，生成新的图像或者视频变得越来越普遍。例如，用户通过终端拍照后，对拍摄的照片进行等个性化处理，生成新的图像。

然而，目前这种图像处理方式需要用户手动操作，比如手动选择需要处理的图像区域或者手动选择美化图像的素材等。这种图像处理方式操作繁琐，而且对用户动手能力要求较高，导致图像处理的效率偏低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高图像处理效率的图像处理、模型训练方法、装置、计算机设备和存储介质。

一种图像处理方法，其特征在于，所述方法包括：

获取初始面部图像和模板面部图像；

分别对所述初始面部图像和所述模板面部图像进行编码，得到所述初始面部图像的面部身份特征和所述模板面部图像的属性特征；

对所述初始面部图像和所述模板面部图像共同编码，得到所述初始面部图像和所述模板面部图像共同对应的共同编码特征；

融合所述面部身份特征、所述属性特征和所述共同编码特征得到目标特征；

解码所述目标特征，得到目标面部图像；所述目标面部图像与所述初始面部图像的面部身份特征匹配、且与所述模板面部图像的属性特征匹配。

一种图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取初始面部图像和模板面部图像；

编码模块，用于分别对所述初始面部图像和所述模板面部图像进行编码，得到所述初始面部图像的面部身份特征和所述模板面部图像的属性特征；对所述初始面部图像和所述模板面部图像共同编码，得到所述初始面部图像和所述模板面部图像共同对应的共同编码特征；

融合模块，用于融合所述面部身份特征、所述属性特征和所述共同编码特征得到目标特征；

解码模块，用于解码所述目标特征，得到目标面部图像；所述目标面部图像与所述初始面部图像的面部身份特征匹配、且与所述模板面部图像的属性特征匹配。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取初始面部图像和模板面部图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取初始面部图像和模板面部图像；

上述图像处理方法、装置、计算机设备和存储介质，在获取到初始面部图像和模板面部图像后，一方面自动对初始面部图像和模板面部图像分别进行编码，得到初始面部图像的面部身份特征和模板面部图像的属性特征；另一方面自动对初始面部图像和模板面部图像共同编码，得到初始面部图像和模板面部图像共同对应的共同编码特征；此后融合面部身份特征、属性特征和共同编码特征得到目标特征，再解码目标特征即可得到目标面部图像，避免了人工处理的繁琐操作，极大地提高了图像处理的效率。而且，通过单独编码得到的面部身份特征和属性特征对共同编码特征进行增强，使得目标面部图像效果更好。

一种模型训练方法，其特征在于，所述方法包括：

获取生成网络、有监督图像样本和无监督图像样本；所述有监督图像样本和所述无监督图像样本均包括初始面部图像样本和模板面部图像样本；所述生成网络用于根据对所述初始面部图像样本编码得到的面部身份特征、对所述模板面部图像样本编码得到的属性特征、及对所述初始面部图像样本和所述模板面部图像样本共同编码得到的共同编码特征，得到目标面部图像；

根据所述有监督图像样本对所述生成网络进行有监督训练；

根据所述无监督图像样本对所述生成网络进行无监督训练；

继续进行所述无监督训练和所述有监督训练，以使所述无监督训练和所述有监督训练交迭进行，直至满足训练停止条件时结束训练。

一种模型训练装置，其特征在于，所述装置包括：

获取模块，用于获取生成网络、有监督图像样本和无监督图像样本；所述有监督图像样本和所述无监督图像样本均包括初始面部图像样本和模板面部图像样本；所述生成网络用于根据对所述初始面部图像样本编码得到的面部身份特征、对所述模板面部图像样本编码得到的属性特征、及对所述初始面部图像样本和所述模板面部图像样本共同编码得到的共同编码特征，得到目标面部图像；

训练模块，用于根据所述有监督图像样本对所述生成网络进行有监督训练；根据所述无监督图像样本对所述生成网络进行无监督训练；继续进行所述无监督训练和所述有监督训练，以使所述无监督训练和所述有监督训练交迭进行，直至满足训练停止条件时结束训练。

根据所述有监督图像样本对所述生成网络进行有监督训练；

根据所述无监督图像样本对所述生成网络进行无监督训练；

根据所述有监督图像样本对所述生成网络进行有监督训练；

根据所述无监督图像样本对所述生成网络进行无监督训练；

上述模型训练方法、装置、计算机设备和存储介质，在模型训练方式上进行了改进，采用有监督数据和无监督数据交迭进行模型训练，一方面利用有监督数据使得生成网络能够快速学习，可以加快网络收敛速度；另一方面引入无监督数据训练生成网络，可以大幅提高生成网络在各种情况下的稳定性，且训练得到的生成网络对输入图像无任何姿态限制，可以处理任意面部图像。这样在利用训练完成的生成网络进行图像处理时，可以极大地提高图像处理效率。

附图说明

图1为一个实施例中图像处理方法的应用环境图；

图2为一个实施例中应用图像处理方法进行图像处理的结果示意图；

图3为一个实施例中图像处理方法的流程示意图；

图4为一个实施例中图像处理方法所涉及面部图像的示意图；

图5为一个实施例中图像处理方法所涉及生成网络的结构示意图；

图6为一个实施例中模型训练方法的流程示意图；

图7为一个实施例中图像处理的流程框图；

图8为一个实施例中应用图像处理方法处理人脸图像的结果示意图；

图9为另一个实施例中应用图像处理方法处理人脸图像的结果示意图；

图10为一个实施例中图像处理装置的结构框图；

图11为一个实施例中模型训练装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的图像处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端102或者服务器104均可用于执行本申请提供的图像处理方法。在另外的实施例中，终端102可运行有图像处理应用，终端102则可通过该的图像处理应用执行本申请提供的图像处理方法。

需要说明的是，在本申请中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

需要说明的是，本申请提供的图像处理方法，旨在对两帧不同的面部图像(目标面部图像和模板面部图像)进行处理，生成新的面部图像(目标面部图像)，该新的面部图像保持了其中一帧面部图像(初始面部图像)的面部身份特征以及另一帧面部图像(模板面部图像)的属性特征。在具体的应用场景中，图像处理具体可为图像换脸，如图2所示，通过本申请提供的图像处理方法，可将一张场景A下的目标a的人脸图像迁移到任意提供的场景B下的模板人脸b上，得到一张B场景下的保留a的身份信息的人脸图像。其中，图2(a)为初始面部图像，图2(b)为模板面部图像，图2(c)为目标面部图像。由图2明显可以看出，生成的目标面部图像能够保持初始面部图像的人脸身份特征。同时又能与模板面部图像的人脸姿态、肤色、纹理以及光照等属性特征保持一致。比如，图2(a)的脸是朝左的露齿微笑的表情，图2(c)的姿态和图2(b)一样是正面的未露齿微笑的表情。再比如，图2(a)的面部皮肤纹理较清晰；图2(c)中皮肤纹理和图2(b)更一致。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的计算机视觉技术和机器学习等技术，具体通过下述的实施例进行说明。

在一个实施例中，如图3所示，提供了一种图像处理方法，以该方法应用于计算机设备为例来举例说明。该计算机设备具体可以是图1中的终端102或者服务器120。该图像处理方法包括以下步骤：

步骤302，获取初始面部图像和模板面部图像。

其中，初始面部图像和模板面部图像都是包括目标对象的面部的图像。目标对象可以是自然人、动物或者虚拟角色等。初始面部图像具体可以是初始人脸图像，模板面部图像具体可以是模板人脸图像。

需要说明的是，基于本申请提供的图像处理方法的目的，用于提供面部身份特征的图像为初始面部图像，用于提供属性特征的图像为模板面部图像。

具体地，初始面部图像可以是用户提供的图像，比如用户通过终端拍摄的人物照片等。模板面部图像可以是计算机设备提供给用户选择作为模板的图像，比如游戏角色图像或者公众人物图像等。当然，在另外的实施例中，初始面部图像和模板面部图像可以都是用户提供的图像。此时，用户则需要指定提供的图像中，作为初始面部图像的图像和作为模板面部图像的图像。

在一个具体的实施例中，终端上可运行有图像处理应用，终端可根据用户操作开启图像处理应用，图像处理应用则可获取用户拍摄并选定的照片作为初始面部图像，并获取用户从模板面部图像集中选中的模板面部图像。

在一个实施例中，包括面部的图像可直接作为初始面部图像或者模板面部图像。当然，包括面部的图像可也可以经过截取后再作为初始面部图像或者模板面部图像。举例说明，如图4所示，图4(a)和图4(b)都可以是初始面部图像或者模板面部图像，图4(b)是图4(a)经过截取后得到的图像。

步骤304，分别对初始面部图像和模板面部图像进行编码，得到初始面部图像的面部身份特征和模板面部图像的属性特征。

其中，编码是将信息从一种形式或格式转换为另一种形式或格式的过程。对初始面部图像进行编码，是对初始面部图像所包括的其中一种特征信息进行表达的过程。该特征信息具体可以是面部身份特征。对模板面部图像进行编码，是对模板面部图像所包括的另一种特征信息进行表达的过程。该特征信息具体可以是属性特征。面部身份特征和属性特征是相异的两种特征。

面部身份特征是面部中用于标识身份的特征。面部身份特征用于进行身份识别。面部身份特征可以是指通过数学计算或者神经网络训练得到的，能够用于区分不同对象的身份信息的数学特征。面部身份特征不因图像中面部的姿态、表情、肤色、光照或者纹理等数据的改变，而改变身份识别的结果。属性特征则是与身份识别无关的其他特征。属性特征可以包括姿态、表情、肤色、光照或者等特征中的至少一种。

具体地，计算机设备可选择传统的编码函数分别对初始面部图像和模板面部图像单独进行编码。传统的编码函数，如基于SIFT(Scale Invariant Feature Transform，尺度不变特征变换)算法或HOG(Histogram of Oriented Gradient，方向梯度直方图)算法的编码函数等。在另外的实施例中，计算机设备也可以选择基于机器学习的神经网络来对初始面部图像和模板面部图像进行编码。该用来编码的神经网络具体可以是基于卷积运算的编码模型等。本申请主要通过基于机器学习的神经网络来实现编码，具体实现过程可参考后续实施例的描述。

在一个实施例中，当模板面部图像是时间连续的视频帧序列时，计算机设备也可按照视频帧序列中各视频帧在时间上的先后顺序，依次对各视频帧进行编码，得到各视频帧各自对应的属性特征。

步骤306，对初始面部图像和模板面部图像共同编码，得到初始面部图像和模板面部图像共同对应的共同编码特征。

其中，共同编码特征是基于两帧图像共同编码所提取出的抽象特征。具体地，计算机设备可选择传统的编码函数对初始面部图像和模板面部图像共同编码。传统的编码函数，如基于SIFT(Scale Invariant Feature Transform，尺度不变特征变换)算法或HOG(Histogram of Oriented Gradient，方向梯度直方图)算法的编码函数等。在另外的实施例中，计算机设备也可以选择基于机器学习的神经网络来对初始面部图像和模板面部图像进行编码操作。该用来进行编码的神经网络具体可以是基于卷积运算的编码模型等。本申请主要通过基于机器学习的神经网络来实现编码，具体实现过程可参考后续实施例的描述。

步骤308，融合面部身份特征、属性特征和共同编码特征得到目标特征。

其中，融合是指通过一个数据表示多于一个数据，并包含这多于一个数据表达的信息。在本实施例中，将多于一个特征融合成一个特征，可以去除数据的离散性，便于后续的解码过程。

具体地，计算机设备可以对面部身份特征、属性特征和共同编码特征进行组合、拼接或者按权重加和等操作，或者进一步通过神经网络组合、拼接或者按权重加和等操作的结果进行运算，得到融合了三种特征信息的目标特征。

步骤310，解码目标特征，得到目标面部图像；目标面部图像与初始面部图像的面部身份特征匹配、且与模板面部图像的属性特征匹配。

其中，解码是编码的逆过程。解码将通过另一种形式进行表达的数据还原到原来的形式或者格式，重构出与原来图像的形式或格式相同的新图像。

具体地，计算机设备在得到目标特征后，对目标特征进行解码还原得到目标面部图像。由于目标特征融合了初始面部图像的面部身份特征，以及模板面部图像的属性特征，则目标面部图像在面部身份特征上与初始面部图像保持一致，在属性特征上与模板面部图像保持一致。其中，计算机设备可选择传统的解码函数对目标特征进行解码，也可以选择神经网络来对目标特征进行解码。

在一个实施例中，模板面部图像是时间连续的视频帧序列。该图像处理方法还包括：按照各模板面部图像在所述视频帧序列中的时序位置，拼接各模板面部图像所对应的目标面部图像，得到目标视频。

具体地，当模板面部图像是时间连续的视频帧序列时，计算机设备可依次对得到的各目标特征进行解码，得到各视频帧对应的目标面部图像。再按照各模板面部图像在所述视频帧序列中的时序位置，拼接各模板面部图像所对应的目标面部图像，得到目标视频。

在具体的应用场景中，本申请提供的图像处理方法可进行单帧图像的人脸融合，即实现用户提供单张人脸图像输入，即可生成该身份的任意姿态和场景下的目标人脸图像。生成的目标人脸图像能够保持输入的初始人脸图像的人脸身份，同时又能与模板人脸图像的属性特征保持一致。在模板人脸图像为同一个人的连续视频帧时，则能够得到连续稳定的保持身份信息的一整段视频。另外，本申请提供的图像处理方法还可以生成专属表情包。用户上传人脸图像后，可任意选择模板表情包，图像处理完成后，可得到用户输入的人脸图像中的人在表情包场景下的融合结果。

上述图像处理方法，在获取到初始面部图像和模板面部图像后，一方面自动对初始面部图像和模板面部图像分别进行编码，得到初始面部图像的面部身份特征和模板面部图像的属性特征；另一方面自动对初始面部图像和模板面部图像共同编码，得到初始面部图像和模板面部图像共同对应的共同编码特征；此后融合面部身份特征、属性特征和共同编码特征得到目标特征，再解码目标特征即可得到目标面部图像，避免了人工处理的繁琐操作，极大地提高了图像处理的效率。而且，通过单独编码得到的面部身份特征和属性特征对共同编码特征进行增强，使得目标面部图像效果更好。

本申请实施例提供的方案中涉及的编码以及解码过程，可通过基于机器学习的神经网络实现，具体通过下述的实施例进行说明。

在一个实施例中，步骤304包括：通过第一编码模型对初始面部图像单独进行编码，得到初始面部图像的面部身份特征；第一编码模型根据通用图像样本训练所得；通过异于第一编码模型的第二编码模型对模板面部图像单独进行编码，得到模板面部图像的属性特征；第二编码模型根据无监督图像样本和有监督图像样本交迭训练所得。

其中，编码模型是用于将低维数据映射到高维数据的机器学习模型。这里的低维数据的维度低于高维数据的维度，所以分别称为低维数据和高维数据。本实施例中的第一编码模型和第二编码模型都是编码模型，但两个编码模型不同，对图像进行编码得到的特征也不同。第一编码模型和第二编码模型可以是模型结构不同，也可以是模型结构相同但模型参数不同。

通用图像样本，是训练具有通用的面部身份特征编码能力的机器学习模型的训练样本。这种机器学习模型在各种人脸识别场景中应用十分广泛。通用的面部身份特征编码能力的机器学习模型所编码得到的面部身份特征，即符合本申请提供的图像处理方法对面部身份特征的需求，那么通用的面部身份特征编码能力的机器学习模型即可用作本申请提供的图像处理方法的第一编码模型。

无监督图像样本是没有训练标签的图像样本。无监督图像样本包括多于一组样本对，每组样本对包括初始面部图像样本和模板面部图像样本。有监督图像样本是有训练标签的图像样本。有监督图像样本包括多于一组样本对，每组样本对包括初始面部图像样本、模板面部图像样本和对应的目标面部图像样本，该目标面部图像样本为初始面部图像样本和模板面部图像样本的训练标签。

本申请提供的图像处理方法中，由于有监督数据训练更容易，便于网络快速学习，但是样本少，而无监督数据一方面数量无穷无尽，另一方面可以引入各种姿态，光照，妆容等样本，那么通过无监督图像样本和有监督图像样本交迭训练得到第二编码模型，可以大幅提高模型在各种情况下的稳定性。第二编码模型的具体训练过程可参考后续实施例中的详细描述。

在一个实施例中，通过第一编码模型对初始面部图像单独进行编码，得到初始面部图像的面部身份特征，包括：将初始面部图像的初始颜色通道特征矩阵输入第一编码模型；通过第一编码模型对初始颜色通道特征矩阵进行处理，输出初始面部图像的面部身份特征向量。通过异于第一编码模型的第二编码模型对模板面部图像单独进行编码，得到模板面部图像的属性特征，包括：将模板面部图像的模板颜色通道特征矩阵输入第二编码模型；通过第二编码模型对模板颜色通道特征矩阵进行处理，输出模板面部图像的属性特征向量；其中，第一编码模型与第二编码模型的模型参数相异。

其中，图像按颜色特征可分为灰度图像和彩色图像。图像的颜色通道特征矩阵可以是一个或者多个。灰度图像通常包括一个通道，那么灰度图像包括一个颜色通道特征矩阵，即为灰度图像中像素点的灰度值按像素位置排列形成的矩阵。彩色图像通常包括三个通道，即R、G、B三个通道。那么彩色图像通常包括三个颜色通道特征矩阵，即分别为彩色图像中像素点的每个通道值按像素位置排列形成的三个矩阵。初始颜色通道特征矩阵和模板颜色通道特征矩阵都是颜色通道特征矩阵，但是不同图像的颜色通道特征矩阵。

向量用于将其他形式的数据以数学形式进行表达。在本实施例中，向量具体用于将图像的特征信息以数学形式表达。面部身份特征向量是第一编码模型对初始颜色通道特征矩阵进行处理得到的数学结果，该数学结果在物理意义上表征了面部身份特征。属性特征向量是第二编码模型对模板颜色通道特征矩阵进行处理得到的数学结果，该数学结果在物理意义上表征了属性特征。

举例说明，参考图5，该图示出了一个实施例中图像处理方法所涉及模型的连接关系示意图。由图5可以看到，计算机设备将初始面部图像Source单独输入第一编码模型(也可称识别特征编码模块)，得到Source的面部身份特征向量Zid。计算机设备将模板面部图像Reference输入第二编码模型(也可称属性特征编码模块)，得到Reference的属性特征向量Zatt。

在本实施例中，通过编码模型单独对初始面部图像和模板面部图像进行编码，获得的面部身份特征和属性特征用于在后续过程中对编码特征进行增强，使得后续得到的目标特征更准确，解码得到的目标面部图像更准确。

在一个实施例中，对初始面部图像和模板面部图像共同编码，得到初始面部图像和模板面部图像共同对应的共同编码特征，包括：通过第三编码模型，对初始面部图像和模板面部图像共同进行编码，得到初始面部图像和模板面部图像共同对应的共同编码特征；其中，第三编码模型与第二编码模型，通过交迭使用无监督图像样本和有监督图像样本联合训练所得。

其中，第三编码器与前述实施例中的第一编码模型和第二编码模型都是编码模型，但是不同的编码模型，对图像进行编码得到的结果也不同。这三个编码模型可以是模型结构不同，也可以是模型结构相同但模型参数不同。第三编码模型与第二编码模型，可以通过交迭使用无监督图像样本和有监督图像样本联合训练得到。

具体地，计算机设备可将初始面部图像的初始颜色通道特征矩阵，以及模板面部图像的模板颜色通道特征矩阵，共同输入第三编码模型；通过第三编码模型，对初始颜色通道特征矩阵和模板颜色通道特征矩阵进行通道合并以及深度学习运算，得到初始面部图像和模板面部图像共同对应的共同编码特征向量。

其中，通道合并可以是将初始颜色通道特征矩阵和模板颜色通道特征矩阵按通道进行拼接。例如，初始颜色通道特征值矩阵包括RGB三通道，模板颜色通道特征值矩阵包括RGB三通道，那么通道合并的结果则包括六通道。深度学习运算包括卷积运算等神经网络的深度运算。

举例说明，继续参考图5，由该图可以看到，计算机设备可将初始面部图像Sourceda和模板面部图像Reference共同输入第三编码模型(也可称编码模块)，得到Source和Reference共同对应的共同编码特征向量Zen。

在一个实施例中，步骤308包括：通过特征融合模型对面部身份特征、属性特征和共同编码特征进行融合处理，得到目标特征。步骤310包括：通过解码模型对目标特征解码，得到目标面部图像；其中，特征融合模型、解码模型、第三编码模型与第二编码模型，通过交迭使用无监督图像样本和有监督图像样本联合训练所得。

具体地，特征融合模型也可以是编码模型，在将面部身份特征和属性特征插入共同编码特征后，对特征插入结果继续进行编码得到目标特征。目标特征是融合了三种信息的编码。

在一个实施例中，通过特征融合模型对面部身份特征、属性特征和共同编码特征进行融合处理，得到目标特征，包括：通过特征融合模型的第一隐层对面部身份特征、属性特征和共同编码特征进行特征通道合并；继续通过特征融合模型的第二隐层，对特征通道合并的结果进行深度学习运算，得到目标特征。

具体地，隐层是神经网络模型中的一种术语，是神经网络模型中的网络层。隐层中包括对神经网络模型训练得到的模型参数。可以将特征融合模型的网络层统称为隐层，也可以对这些网络层进行划分，即多层隐层。隐层可包括多层神经网络结构。每层神经网络结构可以包括一层或者多层神经网络层。

通道合并可以是将面部身份特征、属性特征和共同编码特征按特征通道进行拼接。例如，面部身份特征包括N个特征通道，属性特征包括M个特征通道，共同编码特征包括P个特征通道，那么通道合并的结果则包括N+M+P个特征通道。深度学习运算包括卷积运算等神经网络的深度运算。

举例说明，继续参考图5，由该图可以看到，第一编码模型、第二编码模型和第三编码模型的输出均输入至特征融合模型，特征融合模型对Source的面部身份特征向量Zid、Reference的属性特征向量Zatt、及Source和Reference共同对应的共同编码特征向量Zen进行融合处理，输出目标特征Zaim。

进一步地，计算机设备可通过解码模型对目标特征进行解码，得到目标面部图像。如图5所示，目标特征Zaim输入解码模型(也称解码模块)后，输出目标面部图像Result。

上述实施例中，通过深度学习的神经网络实现特征的编码与解码，利用神经网络强大的学习能力，根据从初始面部图像和模板面部图像中编码得到需要的有用特征，重建出保持了初始面部图像的面部身份特征以及模板面部图像的属性特征的模板面部图像。而且，特征融合模型、解码模型、第三编码模型与第二编码模型，通过交迭使用无监督图像样本和有监督图像样本联合训练所得，将无监督学习所学习到的鲁棒可泛化的表征能力与监督学习所学习到的区分能力在迭代中相互优化，使得训练得到的生成网络在图像生成时效果更佳，且模型训练过程只需要少量的有标注样本，成本大大降低。另外，用于编码得到面部身份特征的第一编码模型可直接使用通用的基于面部进行身份识别的模型，可以进一步降低成本。

在一个实施例中，如图6所示，提供了一种模型训练方法，以该方法应用于计算机设备为例来举例说明。该计算机设备具体可以是图1中的终端102或者服务器120。该模型训练方法包括以下步骤：

步骤602，获取生成网络、有监督图像样本和无监督图像样本；有监督图像样本和无监督图像样本均包括初始面部图像样本和模板面部图像样本；生成网络用于根据对初始面部图像样本编码得到的面部身份特征、对模板面部图像样本编码得到的属性特征、及对初始面部图像样本和模板面部图像样本共同编码得到的共同编码特征，得到目标面部图像。

其中，有监督图像样本包括第一初始面部图像样本、第一模板面部图像样本和标签图像；无监督图像样本包括第二初始面部图像样本和第二模板面部图像样本。标签图像是利用现有的图像处理方法得到的与第一初始面部图像样本的面部身份特征匹配、且与第一模板面部图像样本的属性特征匹配的图像。

在一个实施例中，生成网络包括第一编码模型、第二编码模型、第三编码模型、特征融合模型和解码模型；初始面部图像样本为第一编码模型和第三编码模型的输入；模板面部图像样本为第二编码模型和第三编码模型的输入；第一编码模型、第二编码模型和第三编码模型的输出共同为特征融合模型的输入，特征融合模型的输出为解码模型的输入。

具体地，第一编码模型用于对初始面部图像样本进行单独编码，得到初始面部图像样本的面部身份特征；第二编码模型用于对模板面部图像样本进行编码，得到模板面部图像样本的属性特征；第三编码模型用于对初始面部图像样本和模板面部图像样本进行共同编码，得到两者共同对应的共同编码特征；特征融合模型用于对面部身份特征、属性特征及共同编码特征进行特征融合，得到目标特征；解码模型用于对目标特征进行解码，得到与初始面部图像样本的面部身份特征匹配、且与模板面部图像样本的属性特征匹配的图像。这样，生成网络即可根据对初始面部图像样本编码得到的面部身份特征、对模板面部图像样本编码得到的属性特征、及对初始面部图像样本和模板面部图像样本共同编码得到的共同编码特征，得到目标面部图像。

在使用该生成网络中，第一编码模型的输入为初始面部图像、第二编码模型的输入为模板面部图像、第三编码模型的输入为初始面部图像和模板面部图像，第一编码模型、第二编码模型和第三编码模型的输出共同作为特征融合模型的输出，特征融合模型的输出输入解码模型，解码模型输出目标面部图像。

需要说明的是，有监督数据获取代价比较高，但无监督数据完全不需要经过生成，只需要保证图像的清晰度，因此取之不尽。而且传统方法中处理效果不好的图像也可以用作无监督数据，比如极端侧脸、俯仰姿态、异常光照、异常装扮或者存在面部遮挡的图像等都可以用作初始面部图像或者模板面部图像。因此，本申请的模型训练中选用了两种训练数据：无监督图像样本和有监督图像样本。通过无监督图像样本和有监督图像样本交迭地训练模型，将无监督学习所学习到的鲁棒可泛化的表征能力与监督学习所学习到的区分能力在迭代中相互优化，使得训练得到的生成网络在图像生成时效果更佳。

步骤604，根据有监督图像样本对生成网络进行有监督训练。

其中，有监督图像样本包括若干组有监督样本对，一组有监督样本对Supervised包括第一初始面部图像样本Source、第一模板面部图像样本Reference、以及作为训练标签的标签图像Target，即Supervised(Source，Reference，Target)。有监督图像样本用于进行有监督训练，有监督训练也可称为监督学习，是机器学习模型基于有标注的样本数据进行学习的方式。

在一个实施例中，步骤604包括：根据有监督图像样本对生成网络进行有监督训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数。

需要说明的是，通用的面部身份特征编码能力的机器学习模型所编码得到的面部身份特征，即符合本申请提供的图像处理方法对面部身份特征的需求，那么，通用的面部身份特征编码能力的机器学习模型即可用作本申请提供的图像处理方法的第一编码模型。本申请实施例中的第一编码模型可以预先单独进行训练，在后续训练过程中，则固定第一编码模型的模型参数，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数。

在一个实施例中，在一个实施例中，根据有监督图像样本对生成网络进行有监督训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数，包括：获取判别网络；通过生成网络，得到第一初始面部图像样本和第一模板面部图像样本共同对应的第一目标面部图像样本；将第一初始面部图像样本、第一模板面部图像样本和标签图像中的至少一种作为判别网络的正样本，将第一目标面部图像样本作为判别网络的负样本；构建联合训练判别网络和生成网络的有监督训练损失函数；有监督训练损失函数，与第一目标面部图像样本和标签图像之间像素的差异相关；根据有监督训练损失函数进行训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数。

需要说明的是，生成对抗网络(Generative Adversarial Network，简称GAN)通过让两个神经网络相互博弈的方式进行学习。由一个生成网络与一个判别网络组成。生成网络从潜在空间(latent space)中随机取样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终生成以假乱真的图像。故在本申请中通过训练生成对抗网络来训练生成网络。

具体地，计算机设备可获取通用的判别网络，有监督图像样本中的图像样本均可以认为是真实样本，可用作判别网络的正样本；而生成网络基于初始面部图像样本和模板面部图像样本生成的目标图像样本则是生成的图像，可用作判别网络的负样本，学习将生成网络的输出从真实样本中尽可能分辨出来。

在一个实施例中，构建联合训练判别网络和生成网络的有监督训练损失函数，包括：通过生成网络的第一编码模型，得到第一初始面部图像样本的面部身份特征，以及第一目标面部图像样本的面部身份特征；通过生成网络的第二编码模型，得到标签图像的属性特征，以及第一目标面部图像样本的属性特征；基于判别网络的判别损失、第一目标面部图像样本和标签图像之间像素的差异、第一初始面部图像样本与第一目标面部图像样本之间面部身份特征的差异、及标签图像与第一目标面部图像样本之间属性特征的差异，构建生成网络的有监督训练损失函数。

具体地，计算机设备可将第一初始面部图像样本Source输入生成网络的第一编码模型，得到第一初始面部图像样本Source的面部身份特征Zid；将第一模板面部图像样本Reference输入生成网络的第二编码模型，得到第一模板面部图像样本Reference的属性特征Zatt；将第一初始面部图像样本Source和第一模板面部图像样本Reference共同输入生成网络的第三编码模型，得到第一初始面部图像样本Source和第一模板面部图像样本Reference共同对应的共同编码特征Zen，面部身份特征、属性特征和共同编码特征共同依次经过生成网络的特征融合模型和解码模型后，得到第一目标面部图像样本Result。

进一步地，计算机设备在将第一目标面部图像样本Result输入分别输入生成网络的第一编码模型和第二编码模型，得到第一目标面部图像样本Result的面部身份特征Xid和属性特征Xatt。另外，计算机设备还可将标签图像Target输入生成网络的第二编码模型，得到标签图像Target的属性特征Yatt。

可以理解，通常在训练模型存在训练标签时，可根据模型的输出图像和标签图像的损失来构建模型的损失函数。即可根据第一目标面部图像样本Result和作为训练标签的标签图像Target之间的损失(Reconstruction Loss像素重建损失)，来构建生成网络的损失函数。但考虑到本申请中标签图像是通过现有的图像处理模型得到，精确率并不算高，而且在生成网络中还包括两个编码分支分别编码得到面部身份特征和属性特征来用于特征增强。那么，在构建生成网络的损失函数，还可以增加第一目标面部图像样本Result与第一初始面部图像样本Source的面部身份特征差(Xid和Zid之间的差异)的损失(IdentityLoss)，以及第一目标面部图像样本Result与标签图像Target的属性特征差(Xatt和Yatt之间的差异)的损失(Attribute Loss)。其中，考虑到标签图像与初始面部图像样本的面部相似度可能有限，因此不采用标签图像的面部识别特征加入计算。

这样，计算机设备则可以将判别损失(Discriminator Loss)、像素重建损失(Reconstruction Loss)、面部身份特征差(Xid和Zid之间的差异)的损失(Identity Loss)以及属性特征差(Xatt和Yatt之间的差异)的损失(Attribute Loss)加权求和后作为对抗训练生成网络和判别网络的有监督训练损失函数。其中，权重分布可根据损失对生成结果的重要程度，及实际图像处理的需求自定义设置。

步骤606，根据无监督图像样本对生成网络进行无监督训练。

其中，无监督图像样本包括若干组无监督样本对，一组无监督样本对Unsupervised包括第二初始面部图像样本Source和第二模板面部图像样本Reference，即Unsupervised(Source，Reference)。无监督图像样本用于进行无监督训练，无监督训练也可称为无监督学习，是机器学习模型基于没有标注的样本数据进行学习的方式。

在一个实施例中，步骤606包括：根据无监督图像样本对生成网络进行无监督训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数。

在一个实施例中，根据无监督图像样本对生成网络进行无监督训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数，包括：通过生成网络，得到第二初始面部图像样本和第二模板面部图像样本共同对应的第二目标面部图像样本；将第二初始面部图像样本和第二模板面部图像样本中的至少一种作为判别网络的正样本，将第二目标面部图像样本作为判别网络的负样本；构建联合训练判别网络和生成网络的无监督训练损失函数；无监督训练损失函数，与第二目标面部图像样本和第二模板面部图像样本之间像素的差异相关；根据无监督训练损失函数进行训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数。

具体地，计算机设备可采用无监督训练样本，构建无监督训练损失函数，训练前述同一个生成式对抗网络(生成网络+判别网络)。

在一个实施例中，构建联合训练判别网络和生成网络的无监督训练损失函数，包括：通过生成网络的第一编码模型，得到第二初始面部图像样本的面部身份特征，以及第二目标面部图像样本的面部身份特征；通过生成网络的第二编码模型，得到第二模板面部图像样本的属性特征，以及第二目标面部图像样本的属性特征；基于判别网络的判别损失、第二目标面部图像样本和第二模板面部图像样本之间像素的差异、第二初始面部图像样本与第二目标面部图像样本之间面部身份特征的差异、及第二模板面部图像样本与第二目标面部图像样本之间属性特征的差异，构建生成网络的有监督训练损失函数。

具体地，计算机设备可将第二初始面部图像样本Source输入生成网络的第一编码模型，得到第二初始面部图像样本Source的面部身份特征Zid；将第二模板面部图像样本Reference输入生成网络的第二编码模型，得到第二模板面部图像样本Reference的属性特征Zatt；将第二初始面部图像样本Source和第二模板面部图像样本Reference共同输入生成网络的第三编码模型，得到第二初始面部图像样本Source和第二模板面部图像样本Reference共同对应的共同编码特征Zen，面部身份特征、属性特征和共同编码特征共同依次经过生成网络的特征融合模型和解码模型后，得到第二目标面部图像样本Result。

进一步地，计算机设备在将第二目标面部图像样本Result输入分别输入生成网络的第一编码模型和第二编码模型，得到第二目标面部图像样本Result的面部身份特征Xid和属性特征Xatt。

可以理解，在训练生成网络不存在训练标签时，由于没有作为训练标签对比的标签图像，则可根据第二目标面部图像样本Result与第二模板面部图像样本Reference之间差异的损失(Weakened Reconstruction Loss弱化的像素重建损失)，来构建生成网络的损失函数。另外，由于在生成网络中还包括两个编码分支分别编码得到面部身份特征和属性特征来用于特征增强。那么，在构建生成网络的损失函数，还可以增加第二目标面部图像样本Result与第二初始面部图像样本Source的面部身份特征差(Xid和Zid之间的差异)的损失(Identity Loss)，以及第二目标面部图像样本Result与第二模板面部图像样本Reference的属性特征差(Xatt和Zatt之间的差异)的损失(Attribute Loss)。

这样，计算机设备可以将判别损失(Discriminator Loss)、弱化的像素重建损失(Weakened Reconstruction Loss)、面部身份特征差(Xid和Zid之间的差异)的损失(Identity Loss)以及属性特征差(Xatt和Zatt之间的差异)的损失(Attribute Loss)加权求和后作为对抗训练生成网络和判别网络的有监督训练损失函数。其中，权重分布可根据损失对生成结果的重要程度，及实际图像处理的需求自定义设置。

步骤608，继续进行无监督训练和有监督训练，以使无监督训练和有监督训练交迭进行，直至满足训练停止条件时结束训练。

具体地，计算机设备则交替使用有监督图像样本及无监督图像样本，训练同一个生成式对抗网络，以使有监督训练和无监督训练交迭地进行，直至生成效果稳定，并且输出的目标面部图像样本Result的面部身份特征显著接近初始面部图像样本Source的面部身份特征，以及目标面部图像样本Result属性特征显著接近模板面部图像样本Reference的属性特征。即从观感上生成网络能够生成身份(Identity)与初始面部图像样本Source一致，其他特征(姿态、表情、光照以及背景等)与面部图像样本Reference一致的换脸结果图。

上述实施例中，在模型结构上进行了改进，相较于传统的生成式对抗网络，增加了对初始面部图像和模板面部图像单独进行编码的分支，这样编码得到的明确且有效的特征可用于对共同编码结果进行补充和增强，有助于提高生成的图像的精度。而且，在模型训练方式上也进行了改进，采用有监督数据和无监督数据交迭进行模型训练，一方面利用有监督数据使得生成网络能够快速学习，加快网络收敛速度；另一方面引入各种姿态，光照，妆容等样本作为无监督数据训练生成网络，可以大幅提高生成网络在各种情况下的稳定性，且训练得到的生成网络对输入图像无任何姿态限制，可以处理任意面部图像。

在另外的实施例中，在训练生成网络时，可先从无监督图像样本或者有监督图像样本中选取姿态较正的初始面部图像进行前期训练，在训练后期则再加入其他姿态的初始面部图像进行训练。

在一个实施例中，步骤302包括：获取初始图像和模板图像；分别对初始图像和模板图像进行面部特征点对齐，定位初始图像和模板图像中的面部区域；按照初始图像中定位的面部区域截取初始面部图像，并按照模板图像中定位的面部区域截取模板面部图像。

其中，面部特征点是面部区域中具有表征能力的关键点。面部特征点可以是但不限于眼睛、鼻子、嘴巴、眉毛和脸部轮廓等的关键点。在一个具体的实施例中，面部特征点具体可以是五官特征点。

在本实施例中，初始图像区别于初始面部图像，初始面部图像是从初始图像中截取出的图像。模板图像区别于模板面部图像，模板面部图像是从模板图像中截取出的图像。可以理解，本申请所提供的图像处理方法主要是针对面部区域进行处理。通常情况下，图像中面部区域的占比较小(除面部特写的图像外)。那么，计算机设备可对图像进行前处理，即截取初始图像和模板图像中的面部区域，基于截取得到的面部图像进行后续的图像处理，这样可以减少图像处理过程中的计算量，提高图像处理效率。

通常情况下，初始图像可以是用户输入的图像，模板图像可以计算机设备提供的图像。具体地，计算机设备可在获取初始图像后可基于传统的特征点定位算法或者机器学习模型对初始图像进行面部特征点对齐，确定初始图像中的面部特征点，根据在初始图像中确定的面部特征点，定位初始图像中确定的面部区域，按照初始图像中定位的面部区域截取初始面部图像。

对于模板图像，计算机设备可按照与处理初始图像获取初始面部图像相同的方式获取模板面部图像。但对模板图像进行处理的时机可以是事先进行的，这样可提高图像处理效率；也可以是实时进行的，这样可减轻设备存储负担。

举例说明，参考图7，该图示出了一个实施例中图像处理的流程框图。计算机设备获取到初始图像和模板图像后，可对初始图像进行面部特征点对齐(即面部检测配准)，再根据确定的面部特征点确定面部区域截图(即根据配准点抠图)，得到初始面部图像(即姿态对齐的面部图像)。另外，计算机设备也可对模板图像进行面部特征点对齐(即面部检测配准)，再根据确定的面部特征点确定面部区域截图(即根据配准点抠图)，得到模板面部图像(即姿态对齐的面部图像)。例如图4所示，从图4(a)中截取图4(b)。

此后，计算机设备可将初始面部图像输入第一编码模型(即识别特征编码模块)，编码得到面部身份特征(即识别特征)；并将模板面部图像输入第二编码模型(即属性特征编码模块)，编码得到属性特征；以及将初始面部图像和模板面部图像共同输入第三编码模型(即通用编码模块)。第三编码模块的编码结果和面部身份特征与属性特征共同输入特征融合模型(特征融合模块)进行特征插入，再通过解码模型(解码模块)得到目标面部图像(即换脸结果图)。

在一个实施例中，该图像处理方法还包括：将目标面部图像反向回贴至模板图像中的面部区域，得到目标图像；目标图像保持了初始图像中面部区域的面部身份特征和模板图像中面部区域的属性特征。

可以理解的是，计算机设备原始获取的是初始图像和模板图像，在图像处理时，是处理的从初始图像和模板图像中截取出的面部图像，那么在得到目标面部图像后，也需要将目标面部图像进行反向回帖，还原图像尺寸和图像内容。

具体地，计算机设备可将目标面部图像反向回贴至模板图像中的面部区域，得到目标图像；这样得到的目标图像保持了初始图像中面部区域的面部身份特征和模板图像中面部区域的属性特征，且面部区域外的部分与模板图像一致。继续参考图7，可以看到计算机设备在得到目标面部图像后，可将目标面部图像反向回贴至模板图像，得到目标图像(即换脸图像)。

上述实施例中，在进行图像处理时，仅截取出面部区域进行图像处理，不仅减少了图像处理的数据量，提高了图像处理效率；也无需对面部区域外的区域进行处理的无用功，避免了浪费运算资源。

本申请还提供一种应用场景，该应用场景应用上述的图像处理方法和模型训练方法。具体地，该方法在该应用场景的应用如下：

面部图像具体为人脸图像，生成网络包括第一编码模型、第二编码模型、第三编码模型、特征融合模型和解码模型。服务器用于执行模型训练方法，生成网络训练完成后下发至终端，终端上运行的图像处理应用执行图像处理方法。

1.1，服务器获取生成网络、判别网络、有监督图像样本和无监督图像样本。有监督图像样本包括第一初始人脸图像样本、第一模板人脸图像样本和标签图像；无监督图像样本包括第二初始人脸图像样本和第二模板人脸图像样本。生成网络的第一编码模型可为通用的对人脸图像编码得到人脸身份特征的模型。

1.2.1，服务器通过生成网络，得到第一初始人脸图像样本和第一模板人脸图像样本共同对应的第一目标人脸图像样本，将第一初始人脸图像样本、第一模板人脸图像样本和标签图像中的至少一种作为判别网络的正样本，将第一目标人脸图像样本作为判别网络的负样本。

1.2.2，服务器通过生成网络的第一编码模型，得到第一初始人脸图像样本的人脸身份特征，以及第一目标人脸图像样本的人脸身份特征；通过生成网络的第二编码模型，得到标签图像的属性特征，以及第一目标人脸图像样本的属性特征；基于判别网络的判别损失、第一目标人脸图像样本和标签图像之间像素的差异、第一初始人脸图像样本与第一目标人脸图像样本之间人脸身份特征的差异、及标签图像与第一目标人脸图像样本之间属性特征的差异，构建生成网络的有监督训练损失函数；根据有监督训练损失函数进行训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数。

1.3.1，服务器通过生成网络，得到第二初始人脸图像样本和第二模板人脸图像样本共同对应的第二目标人脸图像样本；将第二初始人脸图像样本和第二模板人脸图像样本中的至少一种作为判别网络的正样本，将第二目标人脸图像样本作为判别网络的负样本。

1.3.2，服务器通过生成网络的第一编码模型，得到第二初始人脸图像样本的人脸身份特征，以及第二目标人脸图像样本的人脸身份特征；通过生成网络的第二编码模型，得到第二模板人脸图像样本的属性特征，以及第二目标人脸图像样本的属性特征；基于判别网络的判别损失、第二目标人脸图像样本和第二模板人脸图像样本之间像素的差异、第二初始人脸图像样本与第二目标人脸图像样本之间人脸身份特征的差异、及第二模板人脸图像样本与第二目标人脸图像样本之间属性特征的差异，构建生成网络的有监督训练损失函数；根据无监督训练损失函数进行训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数。

1.4，交替进行1.2.1-1.2.2和1.3.1-1.3.2，以使有监督训练和无监督训练交迭进行，直至生成网络的生成效果稳定，并且输出的目标人脸图像样本的人脸身份特征显著接近初始人脸图像样本的人脸身份特征，以及目标人脸图像样本属性特征显著接近模板人脸图像样本的属性特征。即从观感上生成网络能够生成身份(Identity)与初始人脸图像样本一致，其他特征(姿态、表情、光照以及背景等)与人脸图像样本一致的换脸结果图。

1.5，服务器将训练好的生成网络下发至终端。

2.1，终端根据用户操作运行图像处理应用后，图像处理应用可获取通过用户操作选择的初始图像和模板图像，分别对初始图像和模板图像进行人脸特征点对齐，定位初始图像和模板图像中的人脸区域；按照初始图像中定位的人脸区域截取初始人脸图像，并按照模板图像中定位的人脸区域截取模板人脸图像。

2.2，图像处理应用将初始人脸图像的初始颜色通道特征矩阵输入第一编码模型；通过第一编码模型对初始颜色通道特征矩阵进行处理，输出初始人脸图像的人脸身份特征向量。并行地通将模板人脸图像的模板颜色通道特征矩阵输入第二编码模型；通过第二编码模型对模板颜色通道特征矩阵进行处理，输出模板人脸图像的属性特征向量。以及并行地将初始人脸图像的初始颜色通道特征矩阵和模板人脸图像的模板颜色通道特征矩阵共同输入生成网络的第三编码模型，对初始颜色通道特征矩阵和模板颜色通道特征矩阵进行通道合并以及深度学习运算，得到初始人脸图像和模板人脸图像共同对应的共同编码特征向量。

2.3，图像处理应用再将人脸身份特征向量、属性特征向量和共同编码特征向量共同输入特征融合模型，通过特征融合模型的第一隐层对人脸身份特征向量、属性特征向量和共同编码特征向量进行特征通道合并；继续通过特征融合模型的第二隐层，对特征通道合并的结果进行深度学习运算，得到目标特征向量。

2.4，图像处理应用再将目标特征向量输入解码模型，得到目标人脸图像；目标人脸图像与初始人脸图像的人脸身份特征匹配、且与模板人脸图像的属性特征匹配。

2.5，图像处理应用再将目标人脸图像反向回贴至模板图像中的人脸区域，得到目标图像。该目标图像保持了初始图像中人脸区域的人脸身份特征和模板图像中人脸区域的属性特征，从而实现了单帧图像换脸的图像处理。

另外，当模板图像是时间连续的视频帧序列时，图像处理应用还可按照各模板图像在视频帧序列中的时序位置，拼接各模板图像所对应的目标图像，得到目标视频，从而实现视频换脸的图像处理。而且，模板图像还可以是模板表情包，从而实现生成专属表情包的图像处理。

通过本申请所提供的图像处理方法，通过一个生成网络解决任意输入人脸图像换任意模板人脸图像，即使是从来没训练的人脸，也仅需要一张图像即可实现换脸，并且较好地保持身份信息。而且只需要用户提供单张人脸图像输入，即可生成该人脸身份的任意姿态和场景下的新的人脸图像。生成的人脸图像能够保持输入图像的人脸身份，同时又能与模板图像的人脸姿态、光照及其他细节特征保持一致。而且在模板图像为连续视频帧时，还能够得到连续稳定的保持输入图像的身份信息的视频，且生成的视频的帧间稳定性好。另外，图像处理的效率、生成图像的清晰度及生成图像与用户输入图像的人脸识别相似度高。

举例说明，图8和图9为一个实施例中应用图像处理方法处理人脸图像的结果示意图。参考图8可以看到对于模板图像为自然人的面部图像的应用场景，生成的目标图像与模板图像除人脸身份信息不同外，其他特征几乎均保持一致；而且在面部身份特征上与初始图像的相似度也极高。参考图9可以看出对于模板图像为虚拟角色的面部图像的应用场景，生成的目标图像也能与模板图像除面部身份特征不同外，其他特征几乎均保持一致；而且在面部身份特征上与初始图像的相似度也极高。

应该理解的是，虽然前述实施例中流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，这些流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种图像处理装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块1001、编码模块1002、融合模块1003和解码模块1004，其中：

获取模块1001，用于获取初始面部图像和模板面部图像。

编码模块1002，用于分别对初始面部图像和模板面部图像进行编码，得到初始面部图像的面部身份特征和模板面部图像的属性特征；对初始面部图像和模板面部图像共同编码，得到初始面部图像和模板面部图像共同对应的共同编码特征。

融合模块1003，用于融合面部身份特征、属性特征和共同编码特征得到目标特征。

解码模块1004，用于解码目标特征，得到目标面部图像；目标面部图像与初始面部图像的面部身份特征匹配、且与模板面部图像的属性特征匹配。

在一个实施例中，获取模块1001还用于获取初始图像和模板图像；分别对初始图像和模板图像进行面部特征点对齐，定位初始图像和模板图像中的面部区域；按照初始图像中定位的面部区域截取初始面部图像，并按照模板图像中定位的面部区域截取模板面部图像。

在一个实施例中，图像处理装置还包括：处理模块，用于将目标面部图像反向回贴至模板图像中的面部区域，得到目标图像；目标图像保持了初始图像中面部区域的面部身份特征和模板图像中面部区域的属性特征。

在一个实施例中，编码模块1002还用于通过第一编码模型对初始面部图像单独进行编码，得到初始面部图像的面部身份特征；第一编码模型根据通用图像样本训练所得；通过异于第一编码模型的第二编码模型对模板面部图像单独进行编码，得到模板面部图像的属性特征；第二编码模型根据无监督图像样本和有监督图像样本交迭训练所得。

在一个实施例中，编码模块1002还用于将初始面部图像的初始颜色通道特征矩阵输入第一编码模型；通过第一编码模型对初始颜色通道特征矩阵进行处理，输出初始面部图像的面部身份特征向量。将模板面部图像的模板颜色通道特征矩阵输入第二编码模型；通过第二编码模型对模板颜色通道特征矩阵进行处理，输出模板面部图像的属性特征向量；其中，第一编码模型与第二编码模型的模型参数相异。

在一个实施例中，编码模块1002还用于通过第三编码模型，对初始面部图像和模板面部图像共同进行编码，得到初始面部图像和模板面部图像共同对应的共同编码特征；其中，第三编码模型与第二编码模型，通过交迭使用无监督图像样本和有监督图像样本联合训练所得。

在一个实施例中，融合模块1003还用于通过特征融合模型对面部身份特征、属性特征和共同编码特征进行融合处理，得到目标特征。解码模块1004还用于通过解码模型对目标特征解码，得到目标面部图像。其中，特征融合模型、解码模型、第三编码模型与第二编码模型，通过交迭使用无监督图像样本和有监督图像样本联合训练所得。

在一个实施例中，融合模块1003还用于通过特征融合模型的第一隐层对面部身份特征、属性特征和共同编码特征进行特征通道合并；继续通过特征融合模型的第二隐层，对特征通道合并的结果进行深度学习运算，得到目标特征。

在一个实施例中，第一编码模型、第二编码模型、第三编码模型、特征融合模型和解码模型包括于生成网络。图像处理模块还包括训练模块，用于获取无监督图像样本和有监督图像样本；有监督图像样本包括第一初始面部图像样本、第一模板面部图像样本和标签图像；无监督图像样本包括第二初始面部图像样本和第二模板面部图像样本；根据有监督图像样本对生成网络进行有监督训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数；根据无监督图像样本对生成网络进行无监督训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数；继续进行无监督训练和有监督训练，以使无监督训练和有监督训练交迭进行，直至满足训练停止条件时结束训练。

在一个实施例中，训练模块还用于获取判别网络；通过生成网络，得到第一初始面部图像样本和第一模板面部图像样本共同对应的第一目标面部图像样本；将第一初始面部图像样本、第一模板面部图像样本和标签图像中的至少一种作为判别网络的正样本，将第一目标面部图像样本作为判别网络的负样本；构建联合训练判别网络和生成网络的有监督训练损失函数；有监督训练损失函数，与第一目标面部图像样本和标签图像之间像素的差异相关；根据有监督训练损失函数进行训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数。

在一个实施例中，训练模块还用于通过生成网络的第一编码模型，得到第一初始面部图像样本的面部身份特征，以及第一目标面部图像样本的面部身份特征；通过生成网络的第二编码模型，得到标签图像的属性特征，以及第一目标面部图像样本的属性特征；基于判别网络的判别损失、第一目标面部图像样本和标签图像之间像素的差异、第一初始面部图像样本与第一目标面部图像样本之间面部身份特征的差异、及标签图像与第一目标面部图像样本之间属性特征的差异，构建生成网络的有监督训练损失函数。

在一个实施例中，训练模块还用于通过生成网络，得到第二初始面部图像样本和第二模板面部图像样本共同对应的第二目标面部图像样本；将第二初始面部图像样本和第二模板面部图像样本中的至少一种作为判别网络的正样本，将第二目标面部图像样本作为判别网络的负样本；构建联合训练判别网络和生成网络的无监督训练损失函数；无监督训练损失函数，与第二目标面部图像样本和第二模板面部图像样本之间像素的差异相关；根据无监督训练损失函数进行训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数。

在一个实施例中，训练模块还用于通过生成网络的第一编码模型，得到第二初始面部图像样本的面部身份特征，以及第二目标面部图像样本的面部身份特征；通过生成网络的第二编码模型，得到第二模板面部图像样本的属性特征，以及第二目标面部图像样本的属性特征；基于判别网络的判别损失、第二目标面部图像样本和第二模板面部图像样本之间像素的差异、第二初始面部图像样本与第二目标面部图像样本之间面部身份特征的差异、及第二模板面部图像样本与第二目标面部图像样本之间属性特征的差异，构建生成网络的有监督训练损失函数。

在一个实施例中，模板面部图像是时间连续的视频帧序列。处理模块还用于按照各模板面部图像在视频帧序列中的时序位置，拼接各模板面部图像所对应的目标面部图像，得到目标视频。

上述图像处理装置，在获取到初始面部图像和模板面部图像后，一方面自动对初始面部图像和模板面部图像分别进行编码，得到初始面部图像的面部身份特征和模板面部图像的属性特征；另一方面自动对初始面部图像和模板面部图像共同编码，得到初始面部图像和模板面部图像共同对应的共同编码特征；此后融合面部身份特征、属性特征和共同编码特征得到目标特征，再解码目标特征即可得到目标面部图像，避免了人工处理的繁琐操作，极大地提高了图像处理的效率。而且，通过单独编码得到的面部身份特征和属性特征对共同编码特征进行增强，使得目标面部图像效果更好。

在一个实施例中，如图11所示，提供了一种模型训练装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：获取模块1101和训练模块1102，其中：

获取模块1101，用于获取生成网络、有监督图像样本和无监督图像样本；有监督图像样本和无监督图像样本均包括初始面部图像样本和模板面部图像样本；生成网络用于根据对初始面部图像样本编码得到的面部身份特征、对模板面部图像样本编码得到的属性特征、及对初始面部图像样本和模板面部图像样本共同编码得到的共同编码特征，得到目标面部图像。

训练模块1102，用于根据有监督图像样本对生成网络进行有监督训练；根据无监督图像样本对生成网络进行无监督训练；继续进行无监督训练和有监督训练，以使无监督训练和有监督训练交迭进行，直至满足训练停止条件时结束训练。

在一个实施例中，生成网络包括第一编码模型、第二编码模型、第三编码模型、特征融合模型和解码模型；初始面部图像样本为第一编码模型和第三编码模型的输入；模板面部图像样本为第二编码模型和第三编码模型的输入；第一编码模型、第二编码模型和第三编码模型的输出共同为特征融合模型的输入，特征融合模型的输出为解码模型的输入。训练模块1102还用于根据有监督图像样本对生成网络进行有监督训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数。根据无监督图像样本对生成网络进行无监督训练，调整第二编码模型、第三编码模型、特征融合模型和解码模型的模型参数。

关于图像处理/模型训练装置的具体限定可以参见上文中对于图像处理/模型训练方法的限定，在此不再赘述。上述图像处理/模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器或终端，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像处理/模型训练方法。本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(RandomAccess Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取初始面部图像和模板面部图像；

2.根据权利要求1所述的方法，其特征在于，所述获取初始面部图像和模板面部图像，包括：

获取初始图像和模板图像；

分别对所述初始图像和所述模板图像进行面部特征点对齐，定位所述初始图像和所述模板图像中的面部区域；

按照所述初始图像中定位的面部区域截取初始面部图像，并按照所述模板图像中定位的面部区域截取模板面部图像。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

将所述目标面部图像反向回贴至所述模板图像中的面部区域，得到目标图像；所述目标图像保持了所述初始图像中面部区域的面部身份特征和所述模板图像中面部区域的属性特征。

4.根据权利要求1所述的方法，其特征在于，所述分别对所述初始面部图像和所述模板面部图像进行编码，得到所述初始面部图像的面部身份特征和所述模板面部图像的属性特征，包括：

通过第一编码模型对所述初始面部图像单独进行编码，得到所述初始面部图像的面部身份特征；所述第一编码模型根据通用图像样本训练所得；

通过异于所述第一编码模型的第二编码模型对所述模板面部图像单独进行编码，得到所述模板面部图像的属性特征；所述第二编码模型根据无监督图像样本和有监督图像样本交迭训练所得。

5.根据权利要求4所述的方法，其特征在于，所述通过第一编码模型对所述初始面部图像单独进行编码，得到所述初始面部图像的面部身份特征，包括：

将所述初始面部图像的初始颜色通道特征矩阵输入第一编码模型；

通过所述第一编码模型对所述初始颜色通道特征矩阵进行处理，输出所述初始面部图像的面部身份特征向量；

所述通过异于所述第一编码模型的第二编码模型对所述模板面部图像单独进行编码，得到所述模板面部图像的属性特征，包括：

将所述模板面部图像的模板颜色通道特征矩阵输入第二编码模型；

通过所述第二编码模型对所述模板颜色通道特征矩阵进行处理，输出所述模板面部图像的属性特征向量；

其中，所述第一编码模型与所述第二编码模型的模型参数相异。

6.根据权利要求4所述的方法，其特征在于，所述对所述初始面部图像和所述模板面部图像共同编码，得到所述初始面部图像和所述模板面部图像共同对应的共同编码特征，包括：

通过第三编码模型，对所述初始面部图像和所述模板面部图像共同进行编码，得到所述初始面部图像和所述模板面部图像共同对应的共同编码特征；

其中，所述第三编码模型与所述第二编码模型，通过交迭使用无监督图像样本和有监督图像样本联合训练所得。

7.根据权利要求6所述的方法，其特征在于，所述融合所述面部身份特征、所述属性特征和所述共同编码特征得到目标特征，包括：

通过特征融合模型对所述面部身份特征、所述属性特征和所述共同编码特征进行融合处理，得到目标特征；

所述解码所述目标特征，得到目标面部图像，包括：

通过解码模型对所述目标特征解码，得到目标面部图像；

其中，所述特征融合模型、所述解码模型、所述第三编码模型与所述第二编码模型，通过交迭使用无监督图像样本和有监督图像样本联合训练所得。

8.根据权利要求7所述的方法，其特征在于，所述通过特征融合模型对所述面部身份特征、所述属性特征和所述共同编码特征进行融合处理，得到目标特征，包括：

通过特征融合模型的第一隐层对所述面部身份特征、所述属性特征和所述共同编码特征进行特征通道合并；

继续通过所述特征融合模型的第二隐层，对特征通道合并的结果进行深度学习运算，得到目标特征。

9.根据权利要求7所述的方法，其特征在于，所述第一编码模型、所述第二编码模型、所述第三编码模型、所述特征融合模型和所述解码模型包括于生成网络；所述生成网络的训练步骤包括：

获取无监督图像样本和有监督图像样本；所述有监督图像样本包括第一初始面部图像样本、第一模板面部图像样本和标签图像；所述无监督图像样本包括第二初始面部图像样本和第二模板面部图像样本；

根据所述有监督图像样本对所述生成网络进行有监督训练，调整所述第二编码模型、所述第三编码模型、所述特征融合模型和所述解码模型的模型参数；

根据所述无监督图像样本对所述生成网络进行无监督训练，调整所述第二编码模型、所述第三编码模型、所述特征融合模型和所述解码模型的模型参数；

10.根据权利要求9所述的方法，其特征在于，所述根据所述有监督图像样本对所述生成网络进行有监督训练，调整所述第二编码模型、所述第三编码模型、所述特征融合模型和所述解码模型的模型参数，包括：

获取判别网络；

通过所述生成网络，得到所述第一初始面部图像样本和所述第一模板面部图像样本共同对应的第一目标面部图像样本；

将所述第一初始面部图像样本、所述第一模板面部图像样本和所述标签图像中的至少一种作为所述判别网络的正样本，将所述第一目标面部图像样本作为所述判别网络的负样本；

构建联合训练所述判别网络和所述生成网络的有监督训练损失函数；所述有监督训练损失函数，与所述第一目标面部图像样本和所述标签图像之间像素的差异相关；

根据所述有监督训练损失函数进行训练，调整所述第二编码模型、所述第三编码模型、所述特征融合模型和所述解码模型的模型参数。

11.根据权利要求10所述的方法，其特征在于，所述构建联合训练所述判别网络和所述生成网络的有监督训练损失函数，包括：

通过所述生成网络的第一编码模型，得到所述第一初始面部图像样本的面部身份特征，以及所述第一目标面部图像样本的面部身份特征；

通过所述生成网络的第二编码模型，得到所述标签图像的属性特征，以及所述第一目标面部图像样本的属性特征；

基于所述判别网络的判别损失、所述第一目标面部图像样本和所述标签图像之间像素的差异、所述第一初始面部图像样本与所述第一目标面部图像样本之间面部身份特征的差异、及所述标签图像与所述第一目标面部图像样本之间属性特征的差异，构建所述生成网络的有监督训练损失函数。

12.根据权利要求10所述的方法，其特征在于，所述根据所述无监督图像样本对所述生成网络进行无监督训练，调整所述第二编码模型、所述第三编码模型、所述特征融合模型和所述解码模型的模型参数，包括：

通过所述生成网络，得到所述第二初始面部图像样本和所述第二模板面部图像样本共同对应的第二目标面部图像样本；

将所述第二初始面部图像样本和所述第二模板面部图像样本中的至少一种作为所述判别网络的正样本，将所述第二目标面部图像样本作为所述判别网络的负样本；

构建联合训练所述判别网络和所述生成网络的无监督训练损失函数；所述无监督训练损失函数，与所述第二目标面部图像样本和所述第二模板面部图像样本之间像素的差异相关；

根据所述无监督训练损失函数进行训练，调整所述第二编码模型、所述第三编码模型、所述特征融合模型和所述解码模型的模型参数。

13.根据权利要求12所述的方法，其特征在于，所述构建联合训练所述判别网络和所述生成网络的无监督训练损失函数，包括：

通过所述生成网络的第一编码模型，得到所述第二初始面部图像样本的面部身份特征，以及所述第二目标面部图像样本的面部身份特征；

通过所述生成网络的第二编码模型，得到所述第二模板面部图像样本的属性特征，以及所述第二目标面部图像样本的属性特征；

基于所述判别网络的判别损失、所述第二目标面部图像样本和所述第二模板面部图像样本之间像素的差异、所述第二初始面部图像样本与所述第二目标面部图像样本之间面部身份特征的差异、及所述第二模板面部图像样本与所述第二目标面部图像样本之间属性特征的差异，构建所述生成网络的有监督训练损失函数。

14.根据权利要求1至13中任一项所述的方法，所述模板面部图像是时间连续的视频帧序列；所述方法还包括：

按照各模板面部图像在所述视频帧序列中的时序位置，拼接各模板面部图像所对应的目标面部图像，得到目标视频。

15.一种模型训练方法，其特征在于，所述方法包括：

根据所述有监督图像样本对所述生成网络进行有监督训练；

根据所述无监督图像样本对所述生成网络进行无监督训练；

16.根据权利要求15所述的方法，其特征在于，所述生成网络包括第一编码模型、第二编码模型、第三编码模型、特征融合模型和解码模型；所述初始面部图像样本为所述第一编码模型和所述第三编码模型的输入；所述模板面部图像样本为所述第二编码模型和所述第三编码模型的输入；所述第一编码模型、所述第二编码模型和所述第三编码模型的输出共同为所述特征融合模型的输入，所述特征融合模型的输出为所述解码模型的输入；

所述根据所述有监督图像样本对所述生成网络进行有监督训练，包括：

所述根据所述无监督图像样本对所述生成网络进行无监督训练，包括：

根据所述无监督图像样本对所述生成网络进行无监督训练，调整所述第二编码模型、所述第三编码模型、所述特征融合模型和所述解码模型的模型参数。

17.一种图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取初始面部图像和模板面部图像；

18.一种模型训练装置，其特征在于，所述装置包括：

19.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至16中任一项所述的方法的步骤。

20.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至16中任一项所述的方法的步骤。