CN110415166A

CN110415166A - 融合图像处理模型的训练方法、图像处理方法、装置及存储介质

Info

Publication number: CN110415166A
Application number: CN201910690935.XA
Authority: CN
Inventors: 陈法圣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2019-11-05
Anticipated expiration: 2039-07-29
Also published as: CN110415166B

Abstract

本发明提供了融合图像处理模型的训练方法，包括：根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和融合图像处理模型的解码器的参数。本发明还提供了融合图像处理模型的图像处理方法、装置及存储介质。本发明能够在保证融合图像处理模型的识别精度的情况下批量处理不同的图像，压缩融合图像处理模型所占用的存储资源。

Description

融合图像处理模型的训练方法、图像处理方法、装置及存储介质

技术领域

本发明涉及图像处理技术，尤其涉及融合图像处理模型的训练方法、图像处理方法、装置及存储介质。

背景技术

在电影特效和互联网社交等应用中，存在保持原始图像集(例如图片集或者视频帧集)中人物的脸部(也称为待替换脸部)的风格的情况下，批量的将待替换脸部替换为其他人物的脸部(也称为目标脸部)的需求。为此，人工智能技术(AI，ArtificialIntelligence)提供了训练适当的图像处理模型来支持上述应用的方案。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能，在图像处理领域中也就是通过利用数字计算机或者数字计算机控制的机器实现批量的将待替换脸部替换为其他人物的脸部的操作。

融合图像处理模型是基于特定的待替换脸部和目标脸部进行训练的，当不同待替换脸部发生更新时，需要对的单一图像处理模型中的参数进行全量的更新，训练单一图像处理模型的效率受到影响，进而影响了图像处理模型在生产环境中上线以实现上述应用的效率，同时，能够实现批量处理图像的图像处理模型在部署时存储复杂度较高，占用了大量的存储资源。

发明内容

有鉴于此，本发明实施例提供融合图像处理模型的训练方法、图像处理方法、装置及存储介质，能够保证图像处理模型的识别精度的情况下提升融合图像处理模型的训练效率，实现对图像的批量处理，训练完成的融合图像处理模型的复杂度低，节省存储资源。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种融合图像处理模型的训练方法，包括：

根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，以使，

所述单一图像处理模型的解码器能够基于所述单一待替换脸部的风格特征进行解码，且解码得到与所述单一待替换脸部具有相同风格的单一目标脸部；

在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和所述融合图像处理模型的解码器的参数，以使，

所述融合图像处理模型中的解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部。

上述方案中，

所述在保持所述单一图像处理模型的编码器的参数不变的情况下，根据单一目标图像中单一目标脸部的风格特征更新所述解码器的参数，包括：

将扭曲单一目标图像中单一目标脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数；

在保持所述损失函数中对应所述单一图像处理模型的编码器的参数不变的情况下，执行以下处理：确定所述损失函数满足收敛条件时对应所述解码器的参数；其中，所述扭曲单一目标图像是对所述单一目标图像进行扭曲处理得到。

上述方案中，

当根据原始图像集中的单一待替换脸部，更新所述单一图像处理模型中编码器的参数之前，所述方法还包括：

从样本图像集合的各个样本图像中截取包括所述单一待替换脸部的所述原始图像集；

将所截取的各个所述原始图像集基于单一待替换脸部的特征点进行对齐。

上述方案中，

爬取网络中的图像资源，并对所爬取的图像资源中的原始图像进行人脸特征定位与数据清洗；

对所述原始图像集进行随机增广处理；

将经过随机增广处理的原始图像集进行随机扭曲处理，得到扭曲的所述原始图像集；

截取扭曲的所述原始图像集中单一待替换脸部的五官图像，并对所述截取的五官图像进行缩放处理，以适配所述单一图像处理模型的编码器支持输入的分辨率。

上述方案中，

所述对所述原始图像集进行随机增广处理，包括：

基于所述原始图像集的中心进行随机旋转；

将随机旋转后的所述原始图像集进行随机缩放；

将随机缩放后所述原始图像集进行随机平移。

上述方案中，

所述将经过随机增广处理的原始图像集进行随机扭曲处理，包括：

在经过随机增广处理的原始图像集中插入噪声，所述噪声包括固定噪声和动态噪声中的至少一种。

上述方案中，

所述在经过随机增广处理的原始图像集中插入噪声，包括：

将所述经过随机增广处理的原始图像集进行网格化，并为网格中的至少部分节点分配坐标；

在所述至少部分节点中添加与所分配的坐标相对应的噪声。

本发明实施例还提供了一种融合图像处理模型的图像处理方法，包括：

通过融合图像处理模型的状态编码器，对原始图像集进行编码得到所述原始图像集中不同待替换脸部的风格特征；

通过融合图像处理模型的五官编码器，对不同目标脸部进行编码得到所述不同目标脸部所对应的不同目标脸部的五官特征；

将所述风格特征和所述五官特征输入所述融合图像处理模型的融合解码器；

在所述融合解码器中基于不同待替换脸部的风格特征和不同目标脸部的五官特征进行解码，得到与所述不同待替换脸部具有相同风格的不同目标脸部；

其中，所述融合图像处理模型的编码器和解码器的参数是在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述单一目标图像进行更新所得到的。

本发明实施例还提供了一种融合图像处理模型的训练装置，包括：

单一图像处理模型训练模块，用于根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，以使，

融合图像处理模型训练模块，用于在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和所述融合图像处理模型的解码器的参数，以使，

上述方案中，所述单一图像处理模型训练模块，包括：

单一编码器训练单元，用于根据原始图像集中的单一待替换脸部，更新单一图像处理模型中编码器的参数，以使所述单一图像处理模型的编码器能够对所述单一待替换脸部进行编码，且编码得到所述单一待替换脸部的风格特征；

单一解码器训练单元，用于根据所述原始图像集的单一待替换脸部，更新所述单一图像处理模型中解码器的参数，以使所述解码器能够基于所述单一待替换脸部的风格特征进行解码；

单一解码器训练单元，用于在保持所述单一图像处理模型的编码器的参数不变的情况下，根据单一目标图像中的单一目标脸部更新所述解码器的参数，以使所述解码器能够基于所述单一待替换脸部的风格特征进行解码，且解码得到与所述单一待替换脸部具有相同风格的单一目标脸部。

上述方案中，

所述单一编码器训练单元，用于将扭曲原始图像集中单一待替换脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述单一图像处理模型的编码器的参数，其中，所述扭曲原始图像集是对所述原始图像集进行扭曲处理得到。

上述方案中，

所述单一解码器训练单元，用于将扭曲原始图像集中单一待替换脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述解码器的参数，其中所述扭曲原始图像集是对所述原始图像集进行扭曲处理得到。

上述方案中，

所述单一解码器训练单元，用于将扭曲单一目标图像中单一目标脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数；

上述方案中，所述装置还包括：

数据获取模块，用于从样本图像集合的各个样本图像中截取包括所述单一待替换脸部的所述原始图像集；

上述方案中，所述装置还包括：

数据预处理模块，用于爬取网络中的图像资源，并对所爬取的图像资源中的原始图像进行人脸特征定位与数据清洗；

所述数据预处理模块，用于对所述原始图像集进行随机增广处理；

所述数据预处理模块，用于将经过随机增广处理的原始图像集进行随机扭曲处理，得到扭曲的所述原始图像集；

所述数据预处理模块，用于截取扭曲的所述原始图像集中单一待替换脸部的五官图像，并对所述截取的五官图像进行缩放处理，以适配所述单一图像处理模型的编码器支持输入的分辨率。

上述方案中，

所述数据预处理模块，用于基于所述原始图像集的中心进行随机旋转；

所述数据预处理模块，用于将随机旋转后的所述原始图像集进行随机缩放；

所述数据预处理模块，用于将随机缩放后所述原始图像集进行随机平移。

上述方案中，

所述数据预处理模块，用于在经过随机增广处理的原始图像集中插入噪声，所述噪声包括固定噪声和动态噪声中的至少一种。

上述方案中，

所述数据预处理模块，用于将所述经过随机增广处理的原始图像集进行网格化，并为网格中的至少部分节点分配坐标；

所述数据预处理模块，用于在所述至少部分节点中添加与所分配的坐标相对应的噪声。

上述方案中，所述融合图像处理模型训练模块，包括：

融合编码器训练单元，用于以所述单一图像处理模型的解码器的解码结果作为所述融合图像处理模型中的训练监督数据；

所述融合编码器训练单元，用于根据所述原始图像集中的不同待替换脸部，更新所述融合图像处理模型中状态编码器的参数，以使所述融合图像处理模型中的状态编码器能够对所述不同待替换脸部分别进行编码，且编码得到分别对应所述不同待替换脸部的状态特征；

所述融合编码器训练单元，用于根据所述不同目标脸部，更新所述融合图像处理模型中五官编码器的参数，以使所述融合图像处理模型中的五官编码器能够对所述不同目标脸部分别进行编码，且编码得到分别对应所述不同目标脸部的五官特征；

融合解码器训练单元，用于根据所述融合图像处理模型中的状态编码器的编码结果和五官编码器编码结果，更新所述融合图像处理模型中融合解码器的参数，以使所述融合图像处理模型中的融合解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部。

上述方案中，

所述融合编码器训练单元，用于将原始图像集中不同待替换脸部的状态特征，代入由所述融合图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述融合图像处理模型中状态编码器的参数。

上述方案中，

所述融合编码器训练单元，用于将不同目标脸部的五官特征，代入由所述融合图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述融合图像处理模型中五官编码器的参数。

上述方案中，

所述融合解码器训练单元，用于将所述原始图像集中不同待替换脸部的状态特征和不同目标脸部的五官特征，代入由所述融合图像处理模型的状态编码器、五官编码器和所述融合解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述融合解码器的参数。

本发明实施例还提供了一种图像处理装置，包括：

编码器模块，用于通过融合图像处理模型的状态编码器，对原始图像集进行编码得到所述原始图像集中不同待替换脸部的风格特征；

所述编码器模块，用于通过融合图像处理模型的五官编码器，对不同目标脸部进行编码得到所述不同目标脸部所对应的不同目标脸部的五官特征；

解码器模块，用于将所述风格特征和所述五官特征输入所述融合图像处理模型的融合解码器；

所述解码器模块，用于在所述融合解码器中基于不同待替换脸部的风格特征和不同目标脸部的五官特征进行解码，得到与所述不同待替换脸部具有相同风格的不同目标脸部；

本发明实施例提供了一种融合图像处理模型的训练装置，所述训练装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现本发明实施例提供的融合图像处理模型的训练方法。

本发明实施例提供了一种融合图像处理装置，所述融合图像处理装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现本发明实施例提供的融合图像处理模型的图像处理方法。

本发明实施例提供了一种计算机可读存储介质，存储有可执行指令，可执行指令被处理器执行时实现本发明实施例提供的融合图像处理模型的训练方法或融合图像处理方法。

本发明实施例具有以下有益效果：

通过原始图像集对单一图像处理模型编码器和解码器进行训练，并在在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和所述融合图像处理模型的解码器的参数，实现了对融合图像处理模型的解码器的训练与原始图像集的解耦，减少融合图像处理模型的复杂度低，节省存储资源的同时，经过训练的融合图像处理模型能够批量处理不同的原始图像，增强了融合图像处理模型的通用性。

附图说明

图1为本发明实施例提供的单一图像处理模型的结构示意图；

图2为本发明实施例提供的编码器的示例性结构图；

图3为本发明实施例提供的解码器的示例性结构图；

图4为本发明实施例提供的单一图像处理模型进行换脸的原理示意图；

图5为本发明实施例提供的图像处理模型进行换脸的原理示意图；

图6为本发明实施例提供的图像处理模型应用相关技术提供的训练方法的原理示意图；

图7为本发明实施例提供的融合图像处理模型的训练方法和应用方法的使用场景示意图；

图8为本发明实施例提供的用于训练融合图像处理模型的训练装置的结构示意图；

图9为本发明实施例提供的融合图像处理模型的训练方法一个可选的流程示意图；

图10为本发明实施例提供的用于交换人脸的单一图像处理模型的训练原理示意图；

图11A为本发明实施例提供的单一图像处理模型的训练方法的原理示意图；

图11B为本发明实施例提供的在人脸图像40中绘制网格50的示意图；

图12为本发明实施例提供的初始化编码器的原理示意图；

图13为本发明实施例对单一图像处理模型的解码器的训练原理示意图；

图14为本发明实施例单一图像处理模型进行换脸的原理示意图；

图15为本发明实施例所示的融合图像处理模型结构示意图；

图16为本发明实施例提供的用于训练融合图像处理模型的图像处理装置的结构示意图；

图17为本发明实施例提供的融合图像处理模型的训练方法一个可选的流程示意图；

图18为用户通过终端所输入的原始图像集中的不同待替换脸部和不同目标脸部示意图；

图19为对单一图像处理模型的训练和对融合图像处理模型训练的过程示意图；

图20为对单一图像处理模型的训练和对融合图像处理模型训练的过程示意图；

图21为第i个人的换脸模型的网络结构示意图；

图22为本发明中单一图像处理模型的损失函数结构示意图；

图23为本发明中融合图像处理模型的网络结构示意图；

图24为本发明中融合图像处理模型训练过程中的数据增广过程示意图；

图25为本发明中融合图像处理模型的损失函数结构示意图；

图26为本发明实施例提供的融合图像处理模型的使用方法一个可选的流程示意图；

图27为本发明实施例提供的融合图像处理模型的使用效果示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)原始图像集，也称为原始脸部图像，即包括待替换脸部的图像集合，例如图片集合或者视频的帧图像集合。

2)目标图像，也称为目标脸部图像，即包括用于替换“待替换脸部”的图像，例如图片或者视频中的帧图像。

3)编码器，用于从原始图像集中待替换脸部进行特征降维(即降低特征的维度，也称为编码或特征提取)的模型，输出用于表示待替换脸部的风格的特征。

4)风格特征，即基于编码器的中间层(隐藏层)从原始图像集的待替换脸部中提取表示待替换脸部在视觉上所表现出来的具有明显的辨识性的特征，可以包括表情、神态、光照、嘴型、视线方向、是否闭眼和肤色等。

5)解码器，与目标脸部一一对应的模型，用于从输入到解码器的风格特征还原(也称为解码或重构)具有相应风格特征的目标脸部的图像。

6)换脸，即将原始图像集中的待替换脸部替换为与待替换脸部具有相同风格特征的目标脸部。

7)单一图像处理模型，每次仅只能处理一张图像，如果需要处理不同的图像，则需要训练不同的单一图像处理模型。

8)融合图像处理模型，每次能够处理至少两张图像，可以根据用户的指令或预设的程序对原始图像集中的图像进行批量处理。

图1为本发明实施例提供的单一图像处理模型的结构示意图，单一图像处理模型包括编码器和解码器(解码器A和解码器B)。解码器是与用于替换“单一待替换脸部”的单一目标脸部是一一对应的(其中，原始图像集中包括待替换脸部A和待替换脸部B，将原始图像集中的待替换脸部替换为与待替换脸部具有相同风格特征的目标脸部，以实现待替换脸部A具有目标脸部C的风格特征的过程中，替换脸部A就是单一待替换脸部，同样的，将原始图像集中的待替换脸部替换为与待替换脸部具有相同风格特征的目标脸部，以实现待替换脸部B具有目标脸部C的风格特征的过程中，替换脸部B就是单一待替换脸部)，因此单一图像处理模型中解码器的数量取决于单一图像处理模型需要处理的不同单一目标脸部(例如不同人脸)的数量。例如当单一图像处理模型需要将视频中的单一待替换脸部替换为2个不同的目标人脸时，单一图像处理模型中需要对应2个不同的目标人脸设置解码器。

图2为本发明实施例提供的编码器的示例性结构图，如图2所示，包括4个卷基层、2个全连接层、1个重整形层和1个上采样层，各层的示例性参数如表1所示；当然，编码器中层类型和通道数进行各种变换，不局限于图1和表1所示。

表1

图3为本发明实施例提供的解码器的示例性结构图，如图3所示，包括3个上采样层和1个卷积层，解码器各层的示例性参数如表2所示，当然，解码器中的层类型和通道数进行各种变换，不局限于图3和表2所示。

表2

图4为本发明实施例提供的单一图像处理模型进行换脸的原理示意图，编码器和解码器被训练完成后，编码器从原始图像集的待替换人脸中提取风格特征(也就是对待替换人脸进行编码)，风格特征被输入解码器进行解码，这个解码的过程是一种人脸转换，形成新的换脸图像中包括目标人脸的五官和待替换人脸的风格，例如表情及神态。

图5为本发明实施例提供的单一图像处理模型进行换脸的原理示意图，x为输入的单一待替换脸部，则编码器针对x的编码函数可以表示为：f(h/x)，对应的编码结果为f(h/x)*x，从而将x编码为表示风格的隐性的特征h，特征h的维度低于x，因此也可以视为以一种压缩的方式来表达单一待替换脸部。解码器的解码函数可以表示为g(x/h)，根据输入的特征h进行解码，解码得到重构的单一待替换脸部r可以表示为g(x/h)*h。

当单一图像处理模型包括两个以上的解码器(图1中示例性示出了解码器A和解码器B)时，解码器共用同一个编码器。

例如，假设解码器A的单一目标脸部是对象A的脸部，解码器B的单一目标脸部是对象B的脸部，对于编码器针对同一个原始图像集(对象C)中的单一待替换脸部编码得到的风格特征的，解码器A可以基于风格特征进行解码，以重构得到具有相同风格特征的单一目标脸部A，而解码器B可以基于风格特征进行解码，以重构得到具有相同风格特征的单一目标脸部B。

上述的对象可以是任意具有五官的生物(包括人和动物)，以人脸为例，继续对本发明实施例提供的单一图像处理模型的处理过程进行说明。

图6为本发明实施例提供的单一图像处理模型应用相关技术提供的训练方法的原理示意图，以训练目标人脸为分别是人脸A和人脸B的解码器为例，编码器和解码器A组成自编码网络A，基于人脸A的不同样本图像(例如不同分辨率和不同风格)的扭曲图像，对自编码网络A进行无监督地训练，以更新编码器和解码器A的参数，直至解码器能够对人脸A进行编码得到人脸A的降维后的特征，解码器A用于基于人脸A的降维后的特征进行解码，以重构人脸A的图像。同理，基于人脸B的不同样本图像的扭曲图像，对自编码网络B进行无监督地训练，以更新编码器和解码器B的参数，直至解码器能够对人脸B进行编码得到人脸B的降维后的特征，解码器B用于基于人脸B的降维后的特征进行解码，以重构人脸B的图像。

可见，对于图1示出的单一图像处理模型的训练来说，应用相关技术提供的训练方法涉及到对自编码网络A和自编码网络B的训练，在每个自编码网络的训练过程中都需要分别对编码器和解码器的参数进行更新，下面进行说明。

对自编码网络A的训练过程中，自编码网络A的损失函数表示为：

loss_A＝∑(decoder_A(encoder(warp(x₁)))-x₁)²；其中，decoder_A为解码器A，warp为扭曲人脸的函数，x₁为人脸A，encoder为编码器。

在迭代训练的过程中，通过将人脸A代入自编码网络A的损失函数，求解损失函数按照梯度(例如最大梯度)下降时编码器和解码器A的参数，当损失函数收敛时，结束训练。

对自编码网络B的训练过程中，自编码网络B的损失函数表示为：loss_B＝∑(decoder_B(encoder(warp(x₂)))-x₂)²；其中，decoder_B为解码器B，warp为扭曲人脸的函数，x₂为人脸B，encoder为编码器。

在迭代训练的过程中，通过将人脸B代入自编码网络B的损失函数，求解损失函数按照梯度(例如最大梯度)下降时编码器和解码器B的参数；当损失函数收敛时，结束训练。

综合上述分析，应用相关技术对本发明实施例提供的单一图像处理模型训练存在以下问题：

1、单一图像处理模型的调整代价大

在形成针对目标人脸是人脸A、人脸B(目标人脸)的单一图像处理模型之后，如果还要使单一图像处理模型能够处理目标人脸是人脸C、人脸D进行换脸，就需要利用人脸C、人脸D的样本，对编码器分别和人脸C、人脸D构成的自编码网络的参数进行调整，由于编码器与解码器串联，梯度从解码器传播到编码器时会变得很小，因此需要进行多次迭代训练，消耗时间较多。

2、训练的数据量要求大，部署阶段占用存储资源较多

由于编码器的参数众多，需要在训练过程中为编码器的训练提供众多的训练样本，例如当需要把待替换人脸换为目标人脸时，需要采集目标人脸的大量的样本，包括不同角度、表情和光照等，往往难以获取如此丰富的样本，进而影响了单一图像处理模型换脸的效果，同时，由于图像处理模型仅能够对单一图像进行处理，用户需要同时处理多张不同的图像时，需要部署多个单一图像处理模型，其部署时存储复杂度较高，占用了大量的存储资源。

针对上述问题，本发明实施例提供了一种融合图像处理模型的训练方法和训练装置，以及融合图像处理模型的图像处理方法和图像处理装置。作为示例，图7为本发明实施例提供的融合图像处理模型的训练方法和应用方法的使用场景示意图；为实现支撑一个示例性应用，实现本发明实施例融合图像处理模型的训练装置30可以是服务器，实现本发明实施例的图像处理装置10可以是运行各种客户端的终端，两者通过网络40连接，其中网络40可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。图像处理装置10向训练装置30提交针对不同融合目标脸部的训练任务，由训练装置30训练相应的融合图像处理模型，以确定所述融合图像处理模型的参数，并由训练装置30下发融合图像处理模型的参数到图像处理装置10，以实现在图像处理装置10中部署完成训练的融合图像处理模型。

例如，图像处理装置10的图形界面中可以运行视频客户端，视频客户端能够根据用户在播放界面通过各种人机交互方式(例如手势、语音等)指示的待替换人脸120以及目标人脸110，向训练装置30提交对应的训练任务，由训练装置30完成融合图像处理模型的训练任务并向视频客户端下发对应的参数，视频客户端通过运行融合图像处理模型重构与待替换人脸120具有相同风格的目标人脸130，在解码后出现待替换人脸120的帧图像中，利用重构的目标人脸130替换视频中的待替换人脸120，以形成视频的换脸效果。

可以理解地，上述的视频解码的处理也可以迁移到服务器中，借助服务器的硬件资源对替换后的帧图像进行重新编码，形成具有换脸效果的视频。

继续目标附图描述实现本发明实施例的训练装置的硬件结构，实现本发明实施例的训练装置可以为服务器或各种类型的终端。参考图8，图8为本发明实施例提供的用于训练融合图像处理模型的训练装置30的结构示意图，结合图8示出的结构进行说明。

下面对本发明实施例的融合图像处理模型的训练装置的结构做详细说明，融合图像处理模型的训练装置可以各种形式来实施，如带有融合图像处理模型训练功能的专用终端，也可以为设置有融合图像处理模型训练功能的服务器，例如前序图7中的服务器800。图8为本发明实施例提供的融合图像处理模型的训练装置的组成结构示意图，可以理解，图8仅仅示出了融合图像处理模型的训练装置的示例性结构而非全部结构，根据需要可以实施图8示出的部分结构或全部结构。

本发明实施例提供的融合图像处理模型的训练装置包括：至少一个处理器801、存储器802、用户接口803和至少一个网络接口804。融合图像处理模型训练装置中的各个组件通过总线系统805耦合在一起。可以理解，总线系统805用于实现这些组件之间的连接通信。总线系统805除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8中将各种总线都标为总线系统805。

其中，用户接口803可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器802可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器802能够存储数据以支持图像处理装置10的操作。这些数据的示例包括：用于在图像处理装置10上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的融合图像处理模型的训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的融合图像处理模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的融合图像处理模型的训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的融合图像处理模型的训练装置采用软硬件结合实施的示例，本发明实施例所提供的融合图像处理模型的训练装置可以直接体现为由处理器801执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器802，处理器801读取存储器802中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器801以及连接到总线805的其他组件)完成本发明实施例提供的融合图像处理模型的训练方法。

作为示例，处理器801可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的融合图像处理模型的训练装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器801来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本发明实施例提供的融合图像处理模型的训练方法。

本发明实施例中的存储器802用于存储各种类型的数据以支持融合图像处理模型训练装置的操作。这些数据的示例包括：用于在融合图像处理模型训练装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从融合图像处理模型的训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的融合图像处理模型的训练装置可以采用软件方式实现，图8示出了存储在存储器802中的融合图像处理模型的训练装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器802中存储的程序的示例，可以包括融合图像处理模型的训练装置，融合图像处理模型的训练装置中包括以下的软件模块：单一图像处理模型训练模块8081，融合图像处理模型训练模块8082。当融合图像处理模型的训练装置中的软件模块被处理器801读取到RAM中并执行时，将实现本发明实施例提供的融合图像处理模型的训练方法，其中，融合图像处理模型的训练装置中各个软件模块的功能，包括：

单一图像处理模型训练模块8081，用于根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，以使，

融合图像处理模型训练模块8082，用于在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和所述融合图像处理模型的解码器的参数，以使，

结合图8示出的融合图像处理模型的训练装置说明本发明实施例提供的融合图像处理模型的训练方法，参见图9，图9为本发明实施例提供的融合图像处理模型的训练方法一个可选的流程示意图，可以理解地，图9所示的步骤可以由运行融合图像处理模型的训练装置的各种电子设备执行，例如可以是如带有融合图像处理模型的训练功能的专用终端、服务器或者服务器集群。下面针对图9示出的步骤进行说明。

步骤901：获取原始图像集。

其中，所获取的原始图像集中的图像可以作为单一图像处理模型和融合图像处理模型的训练样本。

在本发明的一些实施例中，当根据原始图像集中的单一待替换脸部，更新所述单一图像处理模型中编码器的参数之前，所述方法还包括：

从样本图像集合的各个样本图像中截取包括所述单一待替换脸部的所述原始图像集；将所截取的各个所述原始图像集基于单一待替换脸部的特征点进行对齐。

爬取网络中的图像资源，并对所爬取的图像资源中的原始图像进行人脸特征定位与数据清洗；对所述原始图像集进行随机增广处理；将经过随机增广处理的原始图像集进行随机扭曲处理，得到扭曲的所述原始图像集；截取扭曲的所述原始图像集中单一待替换脸部的五官图像，并对所述截取的五官图像进行缩放处理，以适配所述单一图像处理模型的编码器支持输入的分辨率。

在本发明的一些实施例中，对所述原始图像集进行随机增广处理，可以通过以下方式实现：

基于所述原始图像集的中心进行随机旋转；将随机旋转后的所述原始图像集进行随机缩放；将随机缩放后所述原始图像集进行随机平移。

在本发明的一些实施例中，将经过随机增广处理的原始图像集进行随机扭曲处理，可以通过以下方式实现：

在本发明的一些实施例中，在经过随机增广处理的原始图像集中插入噪声，可以通过以下方式实现：

将所述经过随机增广处理的原始图像集进行网格化，并为网格中的至少部分节点分配坐标；在所述至少部分节点中添加与所分配的坐标相对应的噪声。

步骤902：根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和单一图像处理模型的解码器的参数。

其中，通过新单一图像处理模型的编码器的参数和单一图像处理模型的解码器的参数，可以使得单一图像处理模型的解码器能够基于所述单一待替换脸部的风格特征进行解码，且解码得到与所述单一待替换脸部具有相同风格的单一目标脸部。

在本发明的一些实施例中，根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，可以通过以下方式实现：

根据原始图像集中的单一待替换脸部，更新单一图像处理模型中编码器的参数，以使单一图像处理模型的编码器能够对单一待替换脸部进行编码，且编码得到单一待替换脸部的风格特征；根据原始图像集的单一待替换脸部，更新单一图像处理模型中解码器的参数，以使所述解码器能够基于所述单一待替换脸部的风格特征进行解码；在保持所述单一图像处理模型的编码器的参数不变的情况下，根据单一目标图像中的单一目标脸部更新所述解码器的参数，以使所述解码器能够基于所述单一待替换脸部的风格特征进行解码，且解码得到与单一待替换脸部具有相同风格的单一目标脸部。

在本发明的一些实施例中，根据原始图像集中的单一待替换脸部，更新单一图像处理模型中编码器的参数，可以通过以下方式实现：

将扭曲原始图像集中单一待替换脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述单一图像处理模型的编码器的参数，其中，所述扭曲原始图像集是对所述原始图像集进行扭曲处理得到。

在本发明的一些实施例中，根据所述原始图像集的单一待替换脸部，更新所述单一图像处理模型中解码器的参数，可以通过以下方式实现：

将扭曲原始图像集中单一待替换脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述解码器的参数，其中所述扭曲原始图像集是对所述原始图像集进行扭曲处理得到。

在本发明的一些实施例中，在保持所述单一图像处理模型的编码器的参数不变的情况下，根据单一目标图像中单一目标脸部的风格特征更新所述解码器的参数，可以通过以下方式实现：

将扭曲单一目标图像中单一目标脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数；在保持所述损失函数中对应所述单一图像处理模型的编码器的参数不变的情况下，执行以下处理：确定所述损失函数满足收敛条件时对应所述解码器的参数；其中，所述扭曲单一目标图像是对所述单一目标图像进行扭曲处理得到。

下面对训练并应用交换人脸的单一图像处理模型(也可以称为换脸模型)的过程进行说明，其中，单一图像处理模型的解码器的输出结果可以作为融合图像处理模型训练的监督数据。

参见图10，图10为本发明实施例提供的用于交换人脸的单一图像处理模型的训练原理示意图。单一图像处理模型在未进行任何训练之前，其初始结构仅包括一个编码器和一个临时解码器。

训练时首先进行编码器的初始化。对于包括人脸的图像，通过人脸检测的方式来截取人脸图像，利用人脸图像作为样本，训练由编码器和临时解码器组成的自编码网络，使得自编码网络对人脸图像的样本编码(即特征提取/降维)后，能够利用编码得到的风格特征重构人脸图像。

在编码器初始化的过程中，临时解码器的参数也得以同步更新。在编码器初始化后，从人脸图像中识别出的不同人脸可以作为目标人脸以训练对应的解码器，不同目标人脸对应的解码器都是以编码器初始化后临时解码器的参数为基础训练得到。

以训练人脸i对应的解码器i为例(i为大于或等于1的整数)，通过保持编码器的参数不变，以人脸i图像作为样本，对编码器和临时解码器组成的自编码网络进行训练，以更新临时解码器的参数，训练完成后临时解码器的参数即作为解码器i的参数，也即得到解码器i。

下面再分别对编码器初始化、训练针对目标人脸的解码器以及相应的应用进行说明。

参考图11A，图11A为本发明实施例提供的单一图像处理模型的训练方法的原理示意图，结合图11A进行说明。

初始化编码器之前首先需要进行人脸图像数据的获取，可以采用如下方式：采用人脸检测算法，框选人脸位置；使用五官定位算法、标出人眼、嘴、鼻、等脸部的特征点；根据检测到的人脸位置截取人脸图像，并将截取的人脸图像基于特征点(例如人眼)进行对齐，人脸图像的示例性分辨率可以为512*512(像素)。

人脸图像在初始化编码器之前还进行各种初始化处理，包括随机增广、随机扭曲和五官截取，下面分别进行说明。

随机增广处理，包括：将人脸图像以图像中心为中心，做随机旋转，旋转的角度范围为α，例如α的取值范围为0°至30°；将旋转后的人脸图像的宽高进行随机拉伸，拉正的倍数在[1-β，1+β]之间，例如取值为0.01；随机平移，将人脸图像在竖直方向和水平方向对应随机平移θ1和θ2，例如θ1、θ2的值对应人脸图像的宽高的1％。

随机增广处理后的人脸图像还进行随机扭曲处理，可以采用如下方式：绘制网格；添加坐标噪声；图像重映射。下面分别进行说明。

绘制网格时，参见图11B，图11B为本发明实施例提供的在人脸图像40中绘制网格50的示意图，假设截取的人脸图像40为正方形图像，记为I，宽高均为W，在人脸图像40中绘制密度为N(表示网格中节点的整数)*N的均匀网格50，示例的网格的密度为5*5(即宽度方向5个节点，高度方向5个节点)，在图11B中示例性示出了节点51至节点55。

添加坐标噪声时，将每个节点分配坐标(x，y)，记第i行第j列(在图11B中，i和j的取值范围均在1至5之间)的坐标分别为(x_ij，y_ij)，x_ij＝i/N，y_ij＝j/N，则所有的x_ij(i＝0，…，4，j＝0，…，4)、y_ij(i＝0，…，4，j＝0，…，4)组成矩阵(X，Y)。将(X，Y)的每个元素分别加上独立分布的高斯噪声，高斯噪声的期望为0，方差为σ2，方差的示例性取值为0.02，将矩阵(X，Y)使用图像插值的方法(例如使用线性插值)，放大矩阵(X，Y)的宽高到W，得到新的图像(即矩阵)(X’、Y’)。构造宽高均为W的矩阵(X₂，Y₂)，其中矩阵X₂的元素x_2ij＝i/W，矩阵Y₂中元素y_2ij＝j/W，其中i＝0，…，W，j＝0，…，W。

图像重映射时，对添加坐标噪声的人脸图像进行插值得到扭曲后的人脸图像Z。记Z第a行第b列的像素为z_ab，查找矩阵X₂中比x_ab小的元素，记为x_2c，查找矩阵Y₂中比yij小的元素记为x2d，则可以构造如下四个点：A(x_2c，d，y_2c，d)，B(x_2c+1，d，y_2c+1，d)，C(x_2c，d+1，y_2c，d+11)，D(x_2c+1，d+1，y2c+1，d+1)。分别计算点(x_ab，y_ab)到A、B、C、D的距离dA、dB、dC和dD，根据这四个距离加权得到zab的值：z_ab＝dA/(dA+dB+dC+dD)×Ic，d+dB/(dA+dB+dC+dD)×Ic+1，d+dC/(dA+dB+dC+dD)×Ic，d+1+dD/(dA+dB+dC+dD)×Ic+1，d+1。

随机扭曲后的人脸图像需要进行五官图像截取才能初始化编码器，以截取扭曲的人脸图像中间固定位置的图像，截取的示例性的百分比为62.5％。之后将图像缩放到编码器支持输入的分辨率。以上述随机扭曲图像宽高为512*512为例，截取宽高行数在(48，208)内的五官图像，然后将得到的161*161的五官图像缩小到64*64的五官图像。

在初始化编码器的阶段，对于数据集中检测到的所有人脸图像进行上述随机增广、随机扭曲和五官截取的初始化处理以得到五官图像的样本，用来训练如图11A示出的自编码网络来初始化编码器，在图11A中编码器的示例性的结构如图2和表1所示，当然不限于此，例如可以对卷积层、全连接层和上采样层的通道以及数量进行灵活变化，。

自编码网络的训练目标是将输入的扭曲的五官图像的特征进行编码后，能够利用编码后的特征重构扭曲的五官图像。例如，编码器的网络的输出只有1024的神经元，而输入的扭曲人脸有12288个维度，通过训练，编码器能够尽可能保留输入的扭曲五官图像的特征，使得在之后训练换脸模型时，编码器的参数无需再进行微调。

记编码器为Encoder(x)，x为输入的扭曲的五官图像，临时解码器为Decoder_tmp(f)，f为x经编码器编码后得到的输出(即Encoder(x))，则损失函数Loss_init可以表示为：loss_init＝Σ(Decoder_tmp(Encoder(x))-x)2。

当loss_init再优化时不再有显著下降(即小于损失函数阈值)时，或者当迭代次数达到迭代次数阈值时，编码器初始化完成，编码器已经具有从输入的任意人脸图像中编码得到风格特征的能力，从而后续不需要进行参数的进一步调整。

参见图12，图12为本发明实施例提供的初始化编码器的原理示意图，人脸图像61、人脸图像63进行上述的初始化处理后，人脸图像61、人脸图像63的扭曲的五官图像被用于训练编码器和临时解码器组成的自编码网络，在训练完成后，临时解码器能够基于编码器编码得到的特征重构人脸图像62、和重构人脸图像64。

下面目标图13，图13为本发明实施例对单一图像处理模型的解码器的训练原理示意图，结合图12说明单一图像处理模型解码器的训练过程。

以训练针对用户i的解码器为例，首先获取用户i的人脸数据。可以采用算法自动，或者人工分类的方法，选取用户i的150张以上的人脸图像。根据上文所说明的初始化方案进行随机增广、随机扭曲和五官图像截取，得到扭曲的五官图像。

使用用户i的扭曲五官图像训练编码器与解码器i(解码器i的初始参数与临时解码器的参数相同)组成的自编码网络，在训练的过程中，由于无需再对编码器的参数进行更新。

记编码器为Encoder(x)，x为输入的扭曲的五官图像，解码器i为Decoder_i(f)，其中f为x经过编码器编码后得到的特征，使用如下的损失函数loss_i，更新编码器Decoder_i的参数：loss_i＝Σ(Decoder_i(Encoder(x))-x)2。

当loss_i不再有显著下降(即小于损失函数阈值)时，或者当迭代次数达到迭代次数阈值时，解码器i训练完成。

参见图14，图14为本发明实施例单一图像处理模型进行换脸的原理示意图，图像处理处理模型中包括针对用户A训练的解码器A以及针对用户B训练的解码器B。

当用户A的人脸图像71被输入到编码器时，编码器能够从中提取用户A的人脸在图像71中的风格特征，当风格特征被输入到解码器B时，由于解码器B已经通过训练得到了基于风格特征重构用户B的人脸图像的能力，因此解码器B能够基于风格特征重构具有相同风格特征的用户B的人脸图像74。同理，当用户B的图像73被输入到编码器时，编码器能够从中提取用户B在图像73中的风格特征，当风格特征被输入到解码器A时，由于解码器A已经通过训练得到了基于风格特征重构用户A的人脸图像的能力，解码器A能够基于风格特征重构具有相同风格特征的用户A的人脸图像72。

继续参见图7所示的应用场景，图像处理装置10可以运行于终端中，训练装置30可以运行于用以执行训练任务的服务器中。用户希望将终端的视频客户端中播放的视频中某一人物的脸部(即待替换人脸120)替换用户自己的脸部(即目标人脸110)，在视频客户端中播放具有换脸效果(即目标人脸130)的视频。

为此，用户已经向服务器上传了自己的脸部图像(即目标人脸)，并在一个视频中选定了角色，期望替换该角色的脸部(即待替换人脸)，服务器通过本发明实施例提供的单一图像处理模型(也即换脸模型)的训练方法训练了编码器以及对应目标对象的解码器。

至此，单一图像处理模型的训练完成，启动对融合图像处理模型的训练过程，其中，单一图像处理模型的解码器的输出结果可以作为融合图像处理模型训练的监督数据。

步骤903：在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和所述融合图像处理模型的解码器的参数。

其中，通过更新融合图像处理模型的编码器和所述融合图像处理模型的解码器的参数，可以使得融合图像处理模型中的解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部。

在本发明的一些实施例中，在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和所述融合图像处理模型的解码器的参数，可以通过以下方式实现：

以所述单一图像处理模型的解码器的解码结果作为所述融合图像处理模型中的训练监督数据；根据所述原始图像集中的不同待替换脸部，更新所述融合图像处理模型中状态编码器的参数，以使所述融合图像处理模型中的状态编码器能够对所述不同待替换脸部分别进行编码，且编码得到分别对应所述不同待替换脸部的状态特征；根据所述不同目标脸部，更新所述融合图像处理模型中五官编码器的参数，以使所述融合图像处理模型中的五官编码器能够对所述不同目标脸部分别进行编码，且编码得到分别对应所述不同目标脸部的五官特征；根据所述融合图像处理模型中的状态编码器的编码结果和五官编码器编码结果，更新所述融合图像处理模型中融合解码器的参数，以使所述融合图像处理模型中的融合解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部。

在本发明的一些实施例中，根据所述原始图像集中的不同待替换脸部，更新所述融合图像处理模型中状态编码器的参数，可以通过以下方式实现：

将原始图像集中不同待替换脸部的状态特征，代入由所述融合图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述融合图像处理模型中状态编码器的参数。

在本发明的一些实施例中，根据所述不同目标脸部，更新所述融合图像处理模型中五官编码器的参数，可以通过以下方式实现：

将不同目标脸部的五官特征，代入由所述融合图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述融合图像处理模型中五官编码器的参数。

在本发明的一些实施例中，根据所述融合图像处理模型中的状态编码器的编码结果和五官编码器编码结果，更新所述融合图像处理模型中融合解码器的参数，可以通过以下方式实现：

将所述原始图像集中不同待替换脸部的状态特征和不同目标脸部的五官特征，代入由所述融合图像处理模型的状态编码器、五官编码器和所述融合解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述融合解码器的参数。

下面对训练并应用交换人脸的融合图像处理模型(也可以称为融合换脸模型)的具体过程进行说明，其中，图15为本发明实施例所示的融合图像处理模型结构示意图，融合图像处理模型的结构如图15所示，包括：

状态编码器、五官编码器和融合解码器，其中，状态编码器用于提取待换人脸的状态特征——比如表情、姿态、光照情况等；而五官编码器的编码结果仅只保留目标人脸的五官特征，而去除状态特征。最后融合编码器根据状态特征与五官特征，解码得到与相应待替换脸部具有相同风格的不同目标脸部；新的目标脸部有着待换人脸的状态，和目标脸部的五官特征，实现批量的对不同目标脸部的换脸功能。通过输入不同的目标脸部，就能解码得到与相应待替换脸部具有相同风格的不同目标脸部。其中，图15所示的融合图像处理模型的状态编码器、五官编码器和融合解码器的参数如表3所示，

表3

至此，完成了对融合图像处理模型的训练，训练完成的融合图像处理模型可以部署于相应的服务器中，当然也可以部署于用户终端中(实现不联网状态下融合图像处理模型对不同图像的处理)，融合图像处理模型的具体部署位置本发明不做限制。

当通过前序实施例对融合图像处理模型训练完成后，需要将融合图像处理模型部署于相应的终端或服务器中，继续目标附图描述实现本发明实施例的图像处理装置的硬件结构，实现本发明实施例的图像处理装置可以为服务器或各种类型的终端。参考图16，图16为本发明实施例提供的用于训练融合图像处理模型的图像处理装置的结构示意图，结合图16示出的结构进行说明。

下面对本发明实施例的融合图像处理模型的图像处理装置的结构做详细说明，融合图像处理模型的图像处理装置可以各种形式来实施，如带有融合图像处理模型执行功能的专用终端，也可以为设置有融合图像处理模型的图像处理功能的服务器，例如前序图7中的相应服务器。图16为本发明实施例提供的用于训练融合图像处理模型的图像处理装置的组成结构示意图，可以理解，图16仅仅示出了用于训练融合图像处理模型的图像处理装置的示例性结构而非全部结构，根据需要可以实施图16示出的部分结构或全部结构。

本发明实施例提供的融合图像处理模型的图像处理装置包括：至少一个处理器1601、存储器1602、用户接口1603和至少一个网络接口1604。融合图像处理模型图像处理装置中的各个组件通过总线系统1605耦合在一起。可以理解，总线系统1605用于实现这些组件之间的连接通信。总线系统1605除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图16中将各种总线都标为总线系统1605。

其中，用户接口1603可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器1602可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器1602能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的融合图像处理模型的图像处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的融合图像处理模型图像处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的融合图像处理模型的训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex ProgrammableLogic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的融合图像处理模型的图像处理装置采用软硬件结合实施的示例，本发明实施例所提供的融合图像处理模型的图像处理装置可以直接体现为由处理器1601执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器1602，处理器1601读取存储器1602中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器1601以及连接到总线1605的其他组件)完成本发明实施例提供的融合图像处理模型的训练方法。

作为示例，处理器1601可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的融合图像处理模型的图像处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器1601来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本发明实施例提供的融合图像处理模型的训练方法。

本发明实施例中的存储器1602用于存储各种类型的数据以支持融合图像处理模型图像处理装置的操作。这些数据的示例包括：用于在融合图像处理模型图像处理装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从融合图像处理模型的训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的融合图像处理模型的图像处理装置可以采用软件方式实现，图16示出了存储在存储器1602中的融合图像处理模型的图像处理装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器1602中存储的程序的示例，可以包括融合图像处理模型的图像处理装置，融合图像处理模型的图像处理装置中包括以下的软件模块：编码器模块16081，解码器模块16082。当融合图像处理模型的图像处理装置中的软件模块被处理器1601读取到RAM中并执行时，将实现本发明实施例提供的融合图像处理模型的图像处理方法，其中，融合图像处理模型的图像处理装置中各个软件模块的功能，包括：

编码器模块16081，用于通过融合图像处理模型的状态编码器，对原始图像集进行编码得到所述原始图像集中不同待替换脸部的风格特征；

所述编码器模块16081，用于通过融合图像处理模型的五官编码器，对不同目标脸部进行编码得到所述不同目标脸部所对应的不同目标脸部的五官特征；

解码器模块16082，用于将所述风格特征和所述五官特征输入所述融合图像处理模型的融合解码器；

所述解码器模块16082，用于在所述融合解码器中基于不同待替换脸部的风格特征和不同目标脸部的五官特征进行解码，得到与所述不同待替换脸部具有相同风格的不同目标脸部；

结合图16示出的用于训练融合图像处理模型的图像处理装置说明本发明实施例提供的融合图像处理模型的训练方法，参见图17，图17为本发明实施例提供的形成具有换脸效果的视频的流程图，可以理解地，图17所示的步骤可以由运行融合图像处理模型的图像处理装置的各种电子设备执行，例如可以是如带有融合图像处理模型的图像处理功能的专用终端、服务器或者服务器集群。下面针对图17示出的步骤进行说明。

参见图17，图17为本发明实施例提供的融合图像处理模型的训练方法一个可选的流程示意图，结合示出的步骤说明服务器制作具有换脸效果的视频的过程。

步骤301：视频解码。

其中，通过步骤301视频会被解码得到一系列的帧图像，下面以选取n(n为大于或等于1的整数)帧图像为例说明。

步骤302：提取n帧图像。

其中，所提取的n帧图像为待替换人脸。

步骤303：对n帧图像进行人脸检测，如果有人脸，则执行步骤304；如果没有人脸，则返回提取n+1帧图像继续进行人脸检测。

步骤304：对n帧图像进行人脸识别，以判断是否包括待替换人脸，如果是则执行步骤305；否则跳转到步骤308。

步骤305：截取待替换人脸。

步骤306：调用融合换脸模型对n帧图像进行目标人脸重构。

融合换脸模型中状态编码器对待替换人脸进行编码得到待替换人脸的状态特征，五官编码器对目标脸部的进行编码得到目标脸部的五官特征，融合解码器利用待替换人脸的状态特征和目标脸部的五官特征进行解码，得到具有风格特征的目标人脸。

步骤307：将重构的目标人脸回贴n帧中的待替换人脸。

步骤308：编码视频。

当视频中的帧图像处理完成后，将各帧视频按照视频的原始格式进行编码，当然也可以编码为其他格式。

可以理解地，上述制作视频的处理也可以迁移到终端中，根据终端的硬件配置可以采取相适配的解码/编码参数。

下面对本发明实施例所提供的融合图像处理模型进行说明，其中，包括对单一图像处理模型的训练和对融合图像处理模型训练两部分，图18为用户通过终端所输入的原始图像集中的不同待替换脸部和不同目标脸部示意图。其中，原始图像集中的不同待替换脸部的数量和不同目标脸部的数量均可以通过用户终端进行调整。

下面介绍对图18所示的对不同待替换脸部和不同目标脸部的处理过程。

参考图19，图19为对单一图像处理模型的训练和对融合图像处理模型训练的过程示意图，其中，单一图像处理模型训练方法包括以下步骤：

步骤1901：图像数据集获取。

步骤1902：获得N组人脸数据集。

步骤1903：进行数据增广。

步骤1904：获得扭曲人脸和无扭曲人脸。

步骤1905：训练N个单一换脸模型。

步骤1906：得到训练完成的N个单一换脸模型。

步骤1907：调用单一换脸模型。

步骤1908：获得训练融个换脸模型的数据集。

步骤1909：对融合换脸数据集进行增广处理。

步骤1910：获得扭曲人脸和无扭曲人脸。

步骤1911：训练融合换脸模型。

步骤1912：完成融合换脸模型的训练。

其中，对于图像集中的每个人，采用如下的方法获取该人的图像数据集：记该目标人像的下标为i，具体可以通过爬取网络图片的方式获得相应的数据集，例如：从网上爬取第i人图片至少150张，(其中，图片无重复)；

参考图20，图20为对单一图像处理模型的训练和对融合图像处理模型训练的过程示意图，包括：

步骤2001：爬取不同的图片。

步骤2002：对所爬取的图片进行人脸识别和对齐处理。

步骤2003：对所爬取的图片进行数据清洗处理。

步骤2004：获得N组人脸数据集。

步骤2005：对N组人脸数据集进行随机变形。

步骤2006：对N组人脸数据集进行随机扭曲。

步骤2007：获得扭曲人脸。

步骤2008：获得无扭曲人脸。

步骤2009：训练N个单一换脸模型。

步骤2010：获得训练完成的N个单一换脸模型。

其中对所获取的人脸图像进行识别、对齐；对于所有爬取到的第i人的数据，采用如下方法筛选出人脸图片：

a)调用人脸检测算法，例如多任务级联卷积神经网络(MTCNN)，检测出上述爬取图片中的人脸；

b)调用人脸特征点检测算法，标出检测出人脸区域中，人眼、嘴巴的位置；

c)对人脸区域图片并放大、旋转，最后裁切，使得裁切后人眼能在固定位置，得到人脸图片；

进一步地，人工清洗数据，包括：对上述步骤裁切得到的第i人的人脸图片，进行人工筛查，去除掉错误识别的人脸、非该人的人脸，五官位置在图像上位置不正确的图片

经过前序处理或后，得到的第i人的所有人脸图片，组成了第i人的数据集

在本发明的一些实施例中，步骤1903进行数据增广主要通过两个部分来实现：随机变形与随机扭曲；

先把一张图片进行随机变形，得到无扭曲人脸，然后对无扭曲人脸进行随机扭曲，得到扭曲人脸，其中，随机变形的具体步骤如下：

1)、将输入的检测好的人脸以图像中心为中心，做随机旋转，旋转的角度范围为α，α的可选值为为30°

2)、将旋转后的人脸的宽高进行随机拉伸，拉正的倍数在[1-β，1+β]之间，β的可选值为0.01

3)、随机平移，将图像在数值和水平方向随机平移+θ1，+θ2，可选θ1、θ2的值为宽高的0.01

4)、五官图像截取：以截取图像中间固定位置的图像，可选截取的百分比为62.5％。之后将图像缩放到编码器输入的分辨率。

具体的，以512(像素)*512(像素)的人脸图像为例：截取宽高行数在(48，208)内的图像，后将得到的161*161图像缩放到128*128图像。

随机扭曲的方法包括：绘制网格、添加噪声坐标和图像重映射。其中，绘制网格包括：记截取的人脸图像为正方形图像，为I，宽高均为W，在输入图片上打上NxN的均匀网格(可选的网格的密度为5*5(宽5个节点，高5个节点))。

添加坐标噪声：将每个节点分配坐标x，y，记第i行第j列的坐标分别为x_ij、y_ij，x_ij＝i/N，y_ij＝j/N，则所有的x_ij(i＝0，…，4，j＝0，…，4)、y_ij(i＝0，…，4，j＝0，…，4)，组成矩阵X、Y。

将X，Y的每个元素分别加上独立分布的高斯噪声，高斯噪声的期望为0，方差为σ2，方差的可选值为0.02

将矩阵X，Y视为原始图像，使用图像插值的方法(可选使用线性插值)，放大矩阵X、Y，宽高到W，得到新的图像(即矩阵)X’、Y’。

构造宽高均为W的矩阵X₂、Y₂，其中矩阵X₂的中元素x_2ij＝i/W，矩阵Y₂中元素y_2ij＝j/W，其中i＝0，…，W，j＝0，…，W；

图像重映射：使用图像重映射的方法，插值得到扭曲后的人脸图像Z：

记Z第a行第b列的像素为z_ab，查找矩阵X₂中恰好比xab小的元素记为x_2c，查找矩阵Y₂中恰好比y_ij小的元素记为x_2d，则可以构造如下四个点：

点A(x_2c，d，y_2c，d)，B(x_2c+1，d，y_2c+1，d)，C(x_2c，d+1，y_2c，d+11)，D(x_2c+1，d+1，y_2c+1，d+1)

分别计算点(x_ab，y_ab)到A、B、C、D的距离dA、dB、dC、dD，根据这四个距离，加权得到z_ab的值：

z_ab＝dA/(dA+dB+dC+dD)×Ic，d+dB/(dA+dB+dC+dD)×Ic+1，d+dC/(dA+dB+dC+dD)×Ic，d+1+dD/(dA+dB+dC+dD)×Ic+1，d+1；

采用与随机变形中相同的方法，对扭曲得到的人脸进行裁切，最后，裁切的扭曲人脸与变形人脸形成相应的(扭曲人脸)(无扭曲人脸)数据对，与用于训练单一图像处理模型。

参考图21，单一图像处理模型的网络结构如图21的结构所示，可选的采用带有超分辨率功能的单一换脸模型结构，即在换脸的同时提高人脸的分辨率。需要提及的是，本发明不要求单一图像处理模型的结构必须入下，其可以是各种网络结构，本发明不做具体的限定。

图21为第i个人的换脸模型的网络结构示意图；其中每个人的换脸模型类似前述过程中类似，由编码器后串联一个解码器来实现，其中，所有的换脸模型共用一个编码器，而每个人的换脸模型有自己独立的编码器i。记共用的编码器为encoder，第i个人的编码器为decoderi，则第i个人的换脸模型的网络结构如图21所示，其中，网络各层的参数如下所表4所示：

表4

下面介绍对N个单一图像处理模型进行训练。

参考图22，图22为本发明中单一图像处理模型的损失函数结构示意图；

其中，首先按照图22所示定义的Loss(损失函数)，来同时训练N个单一图像处理模型，

具体的按照此Loss优化想的但以图像处理模型的编码器、解码器的步骤如下：

a)使用最优化方法(例如拟牛顿法)迭代一次，造成Loss下降；

b)重复步骤1指定次数(可选值为5w次)；

c)得到训练好的编码器，和解码器1，…，N的网络参数。

相比于相关技术中的损失函数的处理方式，本实施例所提供的损失函数具有以下优点：

1)能够避免Encoder的参数循环调整，使得每次迭代的效率更高，节省模型的训练时间(小时级)。

2)初始化编码器后再只训练解码器，能够让编码器根据所有的解码器进行微调，使得模型中的所有解码器换脸的平均效果更好，接近用户期望。

下面介绍本实施中融合图像处理模型的训练过程。

参考题23，其中图23为本发明中融合图像处理模型的网络结构示意图；

其中，在本发明的一些实施例中，融合图像处理模型的网络结构如图23所示，包括：融合人脸编码器、融合参考编码器、融合解码器构成。前序的融合图像处理模型，能够根据参考人像的正脸的长相，把待换人脸换成参考人的样子，并保持原有待换人脸的表情、姿态、光照等属性，输出目标人脸。由于正脸包含的信息多，能够比较好地描述想换成的人的五官长相，所以参考脸选用正脸即目标正脸。

状态编码器用于提取待换人脸的状态特征——比如表情、姿态、光照情况等；而五官编码器与状态编码器反过来，其只保留目标人脸的五官特征，而去除状态特征。最后融合编码器根据状态特征与五官特征，合成出一张新的人脸；新的人脸有着待换人脸的状态，和目标人脸的五官，实现换脸功能。通过输入不同的目标正脸，就能把代换人脸换成不同的人。

其中，融合图像处理模型的具体参数如表5所示，

表5

其中，融合图像处理模型的输出尺寸和单换脸模型的输出尺寸相同。

下面介绍融合图像处理模型对不同图像的训练过程。

参考图24，图24为本发明中融合图像处理模型训练过程中的数据增广过程示意图，包括以下步骤：

步骤2401：获取人脸数据集i。

步骤2402：进行数据增广处理。

步骤2403：获得扭曲人脸i。

步骤2404：获得待替换人脸i。

步骤2405：对人脸数据集i进行数据标注。

步骤2406：获得正脸数据集i。

步骤2407：获得无扭曲人脸i。

步骤2408：得到单一换脸模型j。

步骤2409：得到目标人脸j。

步骤2410：机型数据增广处理。

步骤2411：获得无扭曲正脸i。

步骤2412：得到单一换脸模型j。

步骤2413：得到目标正脸j。

其中，如图24所示，可以利用人脸数据集i、与单一图像处理模型j，构造把i人脸换成j人脸的训练数据。

具体步骤如下：

1)通过人工标注的方法，标出人脸数据集i中所有的正脸，构造正脸数据集i；

2)通过与前述步骤中相同的数据增广方法，利用人脸数据集i，构造扭曲人脸i与无扭曲人脸i；

3)通过前述步骤中相同的数据增广方法，利用正脸数据集i，构造无扭曲正脸i(舍弃同时得到的扭曲正脸i)；

4)通过前述步骤中得到的单一图像处理模型j，将无扭曲人脸变换为无扭曲人脸j、将无扭曲正脸i变为无扭曲正脸j；

5)扭曲人脸i即为待换人脸i；无扭曲人脸j即为目标人脸j；无扭曲正脸j即目标正脸j。

参考图25，图25为本发明中融合图像处理模型的损失函数结构示意图；

其中，在得到待换人脸、目标人脸、目标正脸的数据后，即可按照图25所示的步骤训练融合图像处理模型所使用的损失函数Loss_fuse。具体步骤包括：

步骤2501：调用融合数据增广模块ij。

步骤2502：调用待替换人脸i。

步骤2503：调用融合换脸模型。

步骤2504：输出人脸ij。

步骤2505：调用目标正脸j。

步骤2506：调用目标人脸j。

步骤2507：确定相应的平方误差，确定相应的Loss_fuse_ij。

其中，具体过程如下：

1)对i＝1，…，N，j＝1，…，N进行如下处理；

a)、将待换人脸i、与目标正脸j输入融合图像处理模型，得到输出人脸i，j；

b)、计算输出人脸I，j的与目标人脸ij的平方误差作为loss_fuse_i，j；

2)计算融合换脸的损失函数Loss_fuse，计算公式如下：

Loss_fuse＝Σ(Loss_fuse_i，j)，i＝1，…，N，j＝1，…，N

3)训练融合图像处理模型：

a)使用最优化方法(拟牛顿、随机梯度下降法等)，迭代融合图像处理模型的参数，使得Loss_fuse不断减少；

b)当步骤a迭代找过指定次数时(可选值为10万次)，得到融合图像处理模型的参数，训练完毕。

通过前序实施例的训练过程，训练完成的融合图像处理模型可以不属于服务器中，有效降低了后台部署、调用的复杂度，具体的，如表6所示，融合压缩后的模型仅占压缩前的37.92％，能有效减少后台部署、存储的复杂度，并给未来给在移动终端上部署提供了可能性：

表6

下面介绍当融合图像处理模型训练完成后，对融合图像处理模型的使用过程，如图26所示，当需要把视频里的某个换成i号人脸时，按照如下步骤处理：

2601：解析待处理视频。

2602：获得待处理的视频帧j。

2603：对待处理的视频帧j进行人脸检测。

2604：获得待替换的人脸。

2605：调用训练完成的融合换脸模型。

2606：将目标正脸输入融合换脸模型。

2607：得到新的目标人脸。

2608：编码待处理视频帧j。

2609：进行人脸融合处理。

2610：得到已处理视频帧j。

2611：对已处理视频帧进行编码。

2612：得到包括新的目标人脸的视频。

其中，具体过程如下：

a)进行人脸检测，若没有检测到待换人脸，则直接对处理帧j编码，结束对该帧的处理；否则进行步骤b)。

b)将检测到的待处理人脸、目标正脸i输入到融合图像处理模型中，得到已换人脸。

c)使用人脸融合的方法将已换人脸替换到待处理帧j中，得到已处理帧j。

d)对已处理帧j进行编码。

图27为本发明实施例提供的融合图像处理模型的使用效果示意图，通过本发明实施例提供的经过训练的融合图像处理模型，实现了对待替换图像的批量处理。

本发明具有以下有益技术效果：

1、融合图像处理模型的压缩效果明显，部署于相应的服务器中时，融合图像处理模型的体积减小到之前传统技术的37.92％，有效降低了其在终端上部署、调用的复杂度。

2、通过该本实施例训练得到的融合图像处理模型通用性更好，同一个模型能够对多个目标脸部图像进行交换。

3、使用更为简单，只需要输入目标人脸的正脸图片，即可把视频图像帧中的人脸换成目标人脸的人脸。

Claims

1.一种融合图像处理模型的训练方法，其特征在于，所述方法包括：

根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，以使所述单一图像处理模型的解码器能够基于所述单一待替换脸部的风格特征进行解码，且解码得到与所述单一待替换脸部具有相同风格的单一目标脸部；

在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和所述融合图像处理模型的解码器的参数，以使所述融合图像处理模型中的解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部。

2.根据权利要求1所述的方法，其特征在于，所述根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，包括：

根据原始图像集中的单一待替换脸部，更新单一图像处理模型中编码器的参数，以使所述单一图像处理模型的编码器能够对所述单一待替换脸部进行编码，且编码得到所述单一待替换脸部的风格特征；

根据所述原始图像集的单一待替换脸部，更新所述单一图像处理模型中解码器的参数，以使所述解码器能够基于所述单一待替换脸部的风格特征进行解码；

在保持所述单一图像处理模型的编码器的参数不变的情况下，根据单一目标图像中的单一目标脸部更新所述解码器的参数，以使所述解码器能够基于所述单一待替换脸部的风格特征进行解码，且解码得到与所述单一待替换脸部具有相同风格的单一目标脸部。

3.根据权利要求2所述的方法，其特征在于，

所述根据原始图像集中的单一待替换脸部，更新单一图像处理模型中编码器的参数，包括：

4.根据权利要求2所述的方法，其特征在于，

所述根据所述原始图像集的单一待替换脸部，更新所述单一图像处理模型中解码器的参数，包括：

5.根据权利要求2所述的方法，其特征在于，

6.根据权利要求1所述的方法，其特征在于，所述在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和所述融合图像处理模型的解码器的参数，包括：

以所述单一图像处理模型的解码器的解码结果作为所述融合图像处理模型中的训练监督数据；

根据所述原始图像集中的不同待替换脸部，更新所述融合图像处理模型中状态编码器的参数，以使所述融合图像处理模型中的状态编码器能够对所述不同待替换脸部分别进行编码，且编码得到分别对应所述不同待替换脸部的状态特征；

根据所述不同目标脸部，更新所述融合图像处理模型中五官编码器的参数，以使所述融合图像处理模型中的五官编码器能够对所述不同目标脸部分别进行编码，且编码得到分别对应所述不同目标脸部的五官特征；

根据所述融合图像处理模型中的状态编码器的编码结果和五官编码器编码结果，更新所述融合图像处理模型中融合解码器的参数，以使所述融合图像处理模型中的融合解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部。

7.根据权利要求6所述的方法，其特征在于，所述根据所述原始图像集中的不同待替换脸部，更新所述融合图像处理模型中状态编码器的参数，包括：

8.根据权利要求6所述的方法，其特征在于，所述根据所述不同目标脸部，更新所述融合图像处理模型中五官编码器的参数，包括：

9.根据权利要求6所述的方法，其特征在于，所述根据所述融合图像处理模型中的状态编码器的编码结果和五官编码器编码结果，更新所述融合图像处理模型中融合解码器的参数，包括：

10.一种融合图像处理模型的图像处理方法，其特征在于，所述方法包括：

11.一种融合图像处理模型的训练装置，其特征在于，所述训练装置包括：

12.一种图像处理装置，其特征在于，所述图像处理装置包括：

13.一种融合图像处理模型的训练装置，其特征在于，所述训练装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至9任一项所述的融合图像处理模型的训练方法。

14.一种融合图像处理装置，其特征在于，所述图像处理装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求10所述的融合图像处理模型的图像处理方法。

15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至9任一项所述的融合图像处理模型的训练方法，或者实现权利要求10所述的融合图像处理模型的图像处理方法。