CN110826593B

CN110826593B - 融合图像处理模型的训练方法、图像处理方法、装置

Info

Publication number: CN110826593B
Application number: CN201910935739.4A
Authority: CN
Inventors: 陈法圣
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2021-02-05
Anticipated expiration: 2039-09-29
Also published as: WO2021057426A1; US11526712B2; US20210166088A1; CN110826593A

Abstract

本发明提供了融合图像处理模型的训练方法，包括：获取图像集，并对所述图像集进行压缩处理，根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和解码器的参数。本发明还提供了融合图像处理模型的图像处理方法、装置及存储介质。本发明能够在保证融合图像处理模型的识别精度的情况下批量处理不同的图像，压缩融合图像处理模型所占用的存储资源。

Description

融合图像处理模型的训练方法、图像处理方法、装置

技术领域

本发明涉及图像处理技术，尤其涉及融合图像处理模型的训练方法、图像处理方法、装置及存储介质

背景技术

在电影特效和互联网社交等应用中，存在保持原始图像(例如图片或者视频帧)中人物的脸部(也称为待替换脸部)的风格的情况下，将待替换脸部替换为其他人物的脸部(也称为目标脸部)的需求。为此，人工智能技术提供了训练适当的图像处理模型来支持上述应用的方案。

图像处理模型是基于特定的待替换脸部和目标脸部进行训练的，当待替换脸部发生更新时，需要对图像处理模型中的参数进行全量的更新，训练图像处理模型的效率受到影响，进而影响了图像处理模型在生产环境中上线以实现上述应用的效率，同时，图像处理模型中的参数进行全量的更新的过程占用了大量的硬件资源，造成了硬件设备成本的提升，不利于图像处理模型的大范围部署。

发明内容

有鉴于此，本发明实施例提供融合图像处理模型的训练方法、图像处理方法、装置及存储介质，能够保证图像处理模型的识别精度的情况下提升融合图像处理模型的训练效率，实现对图像的批量处理，训练完成的融合图像处理模型的复杂度低，节省存储资源，实现了图像处理模型在生产环境中上线以提升应用的效率，同时，图像处理模型中的参数进行全量的更新的过程降低了硬件资源的占用，减少了硬件设备成本的提升，实现了图像处理模型的大范围部署。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种融合图像处理模型的训练方法，包括：

获取图像集，并对所述图像集进行压缩处理，以形成包括至少一组经过压缩的人脸图像的原始图像集；

根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，以使所述单一图像处理模型的解码器能够基于所述单一待替换脸部的风格特征进行解码，且解码得到与所述单一待替换脸部具有相同风格的单一目标脸部；

在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和解码器的参数，以使所述融合图像处理模型中的解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部。

上述方案中，所述根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，包括：

根据原始图像集中的单一待替换脸部，更新单一图像处理模型中编码器的参数，以使所述单一图像处理模型的编码器能够对所述单一待替换脸部进行编码，且编码得到所述单一待替换脸部的风格特征；

根据所述原始图像集的单一待替换脸部，更新所述单一图像处理模型中解码器的参数，以使所述解码器能够基于所述单一待替换脸部的风格特征进行解码；

在保持所述单一图像处理模型的编码器的参数不变的情况下，根据单一目标图像中的单一目标脸部更新所述解码器的参数。

上述方案中，

所述根据原始图像集中的单一待替换脸部，更新单一图像处理模型中编码器的参数，包括：

将扭曲原始图像集中单一待替换脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述单一图像处理模型的编码器的参数，其中，所述扭曲原始图像集是对所述原始图像集进行扭曲处理得到。

上述方案中，

所述根据所述原始图像集的单一待替换脸部，更新所述单一图像处理模型中解码器的参数，包括：

将扭曲原始图像集中单一待替换脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述解码器的参数，其中所述扭曲原始图像集是对所述原始图像集进行扭曲处理得到。

上述方案中，

所述在保持所述单一图像处理模型的编码器的参数不变的情况下，根据单一目标图像中单一目标脸部的风格特征更新所述解码器的参数，包括：

将扭曲单一目标图像中单一目标脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数；

在保持所述损失函数中对应所述单一图像处理模型的编码器的参数不变的情况下，执行以下处理：确定所述损失函数满足收敛条件时对应所述解码器的参数；其中，所述扭曲单一目标图像是对所述单一目标图像进行扭曲处理得到。

上述方案中，所述方法还包括：

根据所述编码器的参数和所述解码器的参数，迭代更新与所述单一图像处理模型对应的单一图像处理模型集合中的所有单一图像处理模型的编码器的参数和解码器的参数，直至所述单一图像处理模型集合中的所有单一图像处理模型的编码器的参数和解码器的参数的损失函数满足各自对应的收敛条件，其中，所述单一图像处理模型集合中的单一图像处理模型数量与所述单一图像处理模型的使用环境相适配。

上述方案中，

当根据原始图像集中的单一待替换脸部，更新所述单一图像处理模型中编码器的参数之前，所述方法还包括：

从样本图像集合的各个样本图像中截取包括所述单一待替换脸部的所述原始图像集；

将所截取的各个所述原始图像集基于单一待替换脸部的特征点进行对齐。

上述方案中，

所述获取图像集，并对所述图像集进行压缩处理，以形成包括至少一组经过压缩的人脸图像的原始图像集，包括：

爬取网络中的图像资源，并对所爬取的图像资源中的原始图像进行人脸特征定位与数据清洗；

对所述原始图像集进行随机增广处理；

将经过随机增广处理的原始图像集进行随机扭曲处理，得到扭曲的所述原始图像集；

截取扭曲的所述原始图像集中单一待替换脸部的五官图像，并对所述截取的五官图像进行缩放处理，以适配所述单一图像处理模型的编码器支持输入的分辨率；

对经过缩放处理的所述五官图像进行压缩，触发形成与所述五官图像的格式相对应的未解压状态的人脸图像的二进制数据，以作为包括至少一组经过压缩的人脸图像的原始图像集。

上述方案中，所述对所述原始图像集进行随机增广处理，包括：

基于所述原始图像集的中心进行随机旋转；

将随机旋转后的所述原始图像集进行随机缩放；

将随机缩放后所述原始图像集进行随机平移。

上述方案中，所述将经过随机增广处理的原始图像集进行随机扭曲处理，包括：

在经过随机增广处理的原始图像集中插入噪声，所述噪声包括固定噪声和动态噪声中的至少一种。

上述方案中，所述在经过随机增广处理的原始图像集中插入噪声，包括：

将所述经过随机增广处理的原始图像集进行网格化，并为网格中的至少部分节点分配坐标；

在所述至少部分节点中添加与所分配的坐标相对应的噪声。

上述方案中，所述在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和解码器的参数，包括：

以所述单一图像处理模型的解码器的解码结果作为所述融合图像处理模型中的训练监督数据；

根据所述原始图像集中的不同待替换脸部，更新所述融合图像处理模型中状态编码器的参数，以使所述融合图像处理模型中的状态编码器能够对所述不同待替换脸部分别进行编码，且编码得到分别对应所述不同待替换脸部的状态特征；

根据所述不同目标脸部，更新所述融合图像处理模型中五官编码器的参数，以使所述融合图像处理模型中的五官编码器能够对所述不同目标脸部分别进行编码，且编码得到分别对应所述不同目标脸部的五官特征；

根据所述融合图像处理模型中的状态编码器的编码结果和五官编码器编码结果，更新所述融合图像处理模型中融合解码器的参数。

上述方案中，所述根据所述原始图像集中的不同待替换脸部，更新所述融合图像处理模型中状态编码器的参数，包括：

将原始图像集中不同待替换脸部的状态特征，代入由所述融合图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述融合图像处理模型中状态编码器的参数。

上述方案中，所述根据所述不同目标脸部，更新所述融合图像处理模型中五官编码器的参数，包括：

将不同目标脸部的五官特征，代入由所述融合图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述融合图像处理模型中五官编码器的参数。

上述方案中，所述根据所述融合图像处理模型中的状态编码器的编码结果和五官编码器编码结果，更新所述融合图像处理模型中融合解码器的参数，包括：

将所述原始图像集中不同待替换脸部的状态特征和不同目标脸部的五官特征，代入由所述融合图像处理模型的状态编码器、五官编码器和所述融合解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述融合解码器的参数。

上述方案中，所述方法还包括：

根据所述融合图像处理模型的使用环境，抽取所述原始图像集中的第一数量的人脸图像作为第一训练集合；

抽取所述原始图像集中的第二数量的人脸图像作为第二训练集合，其中，所述第二训练集合中的人脸图像为待替换脸部的正脸图像；

响应于所述第一训练集合和所述第二训练集合，加载与所述第一训练集合和所述第二训练集合分别对应的未解压状态的人脸图像的二进制数据，以及相应数量的单一换脸模型，以完成所述融合换脸模型的训练初始化。

本发明实施例还提供了一种融合图像处理模型的图像处理方法，所述方法包括：

通过融合图像处理模型的状态编码器，对原始图像集进行编码得到所述原始图像集中不同待替换脸部的风格特征；

通过融合图像处理模型的五官编码器，对不同目标脸部进行编码得到所述不同目标脸部所对应的不同目标脸部的五官特征；

将所述风格特征和所述五官特征输入所述融合图像处理模型的融合解码器；

在所述融合解码器中基于不同待替换脸部的风格特征和不同目标脸部的五官特征进行解码，得到与所述不同待替换脸部具有相同风格的不同目标脸部；

其中，所述融合图像处理模型的编码器和解码器的参数是在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述单一目标图像进行更新所得到的。

本发明实施例还提供了一种融合图像处理模型的训练装置，所述训练装置包括：

图像处理模块，用于获取图像集，并对所述图像集进行压缩处理，以形成包括至少一组经过压缩的人脸图像的原始图像集；

单一图像处理模型训练模块，用于根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，以使，

所述单一图像处理模型的解码器能够基于所述单一待替换脸部的风格特征进行解码，且解码得到与所述单一待替换脸部具有相同风格的单一目标脸部；

融合图像处理模型训练模块，用于在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和解码器的参数，以使，

所述融合图像处理模型中的解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部。

上述方案中，所述单一图像处理模型训练模块，包括：

单一编码器训练单元，用于根据原始图像集中的单一待替换脸部，更新单一图像处理模型中编码器的参数，以使所述单一图像处理模型的编码器能够对所述单一待替换脸部进行编码，且编码得到所述单一待替换脸部的风格特征；

单一解码器训练单元，用于根据所述原始图像集的单一待替换脸部，更新所述单一图像处理模型中解码器的参数，以使所述解码器能够基于所述单一待替换脸部的风格特征进行解码；

单一解码器训练单元，用于在保持所述单一图像处理模型的编码器的参数不变的情况下，根据单一目标图像中的单一目标脸部更新所述解码器的参数，以使所述解码器能够基于所述单一待替换脸部的风格特征进行解码，且解码得到与所述单一待替换脸部具有相同风格的单一目标脸部。

上述方案中，

所述单一编码器训练单元，用于将扭曲原始图像集中单一待替换脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述单一图像处理模型的编码器的参数，其中，所述扭曲原始图像集是对所述原始图像集进行扭曲处理得到。

上述方案中，

所述单一解码器训练单元，用于将扭曲原始图像集中单一待替换脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述解码器的参数，其中所述扭曲原始图像集是对所述原始图像集进行扭曲处理得到。

上述方案中，

所述单一解码器训练单元，用于将扭曲单一目标图像中单一目标脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数；

上述方案中，

所述单一解码器训练单元，用于根据所述编码器的参数和所述解码器的参数，迭代更新与所述单一图像处理模型对应的单一图像处理模型集合中的所有单一图像处理模型的编码器的参数和解码器的参数，直至所述单一图像处理模型集合中的所有单一图像处理模型的编码器的参数和解码器的参数的损失函数满足各自对应的收敛条件，其中，所述单一图像处理模型集合中的单一图像处理模型数量与所述单一图像处理模型的使用环境相适配。

上述方案中，所述装置还包括：

数据获取模块，用于从样本图像集合的各个样本图像中截取包括所述单一待替换脸部的所述原始图像集；

上述方案中，所述装置还包括：

数据预处理模块，用于爬取网络中的图像资源，并对所爬取的图像资源中的原始图像进行人脸特征定位与数据清洗；

所述数据预处理模块，用于对所述原始图像集进行随机增广处理；

所述数据预处理模块，用于将经过随机增广处理的原始图像集进行随机扭曲处理，得到扭曲的所述原始图像集；

所述数据预处理模块，用于截取扭曲的所述原始图像集中单一待替换脸部的五官图像，并对所述截取的五官图像进行缩放处理，以适配所述单一图像处理模型的编码器支持输入的分辨率；

所述数据预处理模块，用于对经过缩放处理的所述五官图像进行压缩，触发形成与所述五官图像的格式相对应的未解压状态的人脸图像的二进制数据，以作为包括至少一组经过压缩的人脸图像的原始图像集。

上述方案中，

所述数据预处理模块，用于基于所述原始图像集的中心进行随机旋转；

所述数据预处理模块，用于将随机旋转后的所述原始图像集进行随机缩放；

所述数据预处理模块，用于将随机缩放后所述原始图像集进行随机平移。

上述方案中，

所述数据预处理模块，用于在经过随机增广处理的原始图像集中插入噪声，所述噪声包括固定噪声和动态噪声中的至少一种。

上述方案中，

所述数据预处理模块，用于将所述经过随机增广处理的原始图像集进行网格化，并为网格中的至少部分节点分配坐标；

所述数据预处理模块，用于在所述至少部分节点中添加与所分配的坐标相对应的噪声。

上述方案中，所述融合图像处理模型训练模块，包括：

融合编码器训练单元，用于以所述单一图像处理模型的解码器的解码结果作为所述融合图像处理模型中的训练监督数据；

所述融合编码器训练单元，用于根据所述原始图像集中的不同待替换脸部，更新所述融合图像处理模型中状态编码器的参数，以使所述融合图像处理模型中的状态编码器能够对所述不同待替换脸部分别进行编码，且编码得到分别对应所述不同待替换脸部的状态特征；

所述融合编码器训练单元，用于根据所述不同目标脸部，更新所述融合图像处理模型中五官编码器的参数，以使所述融合图像处理模型中的五官编码器能够对所述不同目标脸部分别进行编码，且编码得到分别对应所述不同目标脸部的五官特征；

融合解码器训练单元，用于根据所述融合图像处理模型中的状态编码器的编码结果和五官编码器编码结果，更新所述融合图像处理模型中融合解码器的参数，以使所述融合图像处理模型中的融合解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部。

上述方案中，

所述融合编码器训练单元，用于将原始图像集中不同待替换脸部的状态特征，代入由所述融合图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述融合图像处理模型中状态编码器的参数。

上述方案中，

所述融合编码器训练单元，用于将不同目标脸部的五官特征，代入由所述融合图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述融合图像处理模型中五官编码器的参数。

上述方案中，

所述融合解码器训练单元，用于将所述原始图像集中不同待替换脸部的状态特征和不同目标脸部的五官特征，代入由所述融合图像处理模型的状态编码器、五官编码器和所述融合解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述融合解码器的参数。

上述方案中，所述装置还包括：

初始化模块，用于根据所述融合图像处理模型的使用环境，抽取所述原始图像集中的第一数量的人脸图像作为第一训练集合；

所述初始化模块，用于抽取所述原始图像集中的第二数量的人脸图像作为第二训练集合，其中，所述第二训练集合中的人脸图像为待替换脸部的正脸图像；

所述初始化模块，用于响应于所述第一训练集合和所述第二训练集合，加载与所述第一训练集合和所述第二训练集合分别对应的未解压状态的人脸图像的二进制数据，以及相应数量的单一换脸模型，以完成所述融合换脸模型的训练初始化。

本发明实施例还提供了一种图像处理装置，所述图像处理装置包括：

编码器模块，用于通过融合图像处理模型的状态编码器，对原始图像集进行编码得到所述原始图像集中不同待替换脸部的风格特征；

所述编码器模块，用于通过融合图像处理模型的五官编码器，对不同目标脸部进行编码得到所述不同目标脸部所对应的不同目标脸部的五官特征；

解码器模块，用于将所述风格特征和所述五官特征输入所述融合图像处理模型的融合解码器；

所述解码器模块，用于在所述融合解码器中基于不同待替换脸部的风格特征和不同目标脸部的五官特征进行解码，得到与所述不同待替换脸部具有相同风格的不同目标脸部；

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的融合图像处理模型的训练方法。

本发明实施例还提供了一种融合图像处理装置，所述图像处理装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的图像处理方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前序的融合图像处理模型的训练方法，或者实现前序的图像处理方法。

本发明实施例具有以下有益效果：

通过获取图像集，并对所述图像集进行压缩处理，以形成包括至少一组经过压缩的人脸图像的原始图像集；根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，以使所述单一图像处理模型的解码器能够基于所述单一待替换脸部的风格特征进行解码，且解码得到与所述单一待替换脸部具有相同风格的单一目标脸部；在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和解码器的参数，以使所述融合图像处理模型中的解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部，由此，实现了对融合图像处理模型的解码器的训练与原始图像集的解耦，减少融合图像处理模型的复杂度低，节省硬件存储资源的同时，经过训练的融合图像处理模型能够批量处理不同的原始图像，增强了融合图像处理模型的通用性，同时，图像处理模型中的参数进行全量的更新的过程降低了硬件资源的占用，减少了硬件设备成本的提升，实现了图像处理模型的大范围部署。

附图说明

图1为本发明实施例提供的图像处理模型的结构示意图；

图2为本发明实施例提供的编码器的示例性结构图；

图3为本发明实施例提供的解码器的示例性结构图；

图4为本发明实施例提供的图像处理模型进行换脸的原理示意图；

图5为本发明实施例提供的图像处理模型进行换脸的原理示意图；

图6为本发明实施例提供的图像处理模型应用相关技术提供的训练方法的原理示意图；

图7为本发明实施例提供的融合图像处理模型的训练方法和应用方法的使用场景示意图；

图8为本发明实施例提供的用于训练融合图像处理模型的训练装置的结构示意图；

图9为本发明实施例提供的融合图像处理模型的训练方法一个可选的流程示意图；

图10为本发明实施例提供的用于交换人脸的单一图像处理模型的训练原理示意图；

图11A为本发明实施例提供的单一图像处理模型的训练方法的原理示意图；

图11B为本发明实施例提供的在人脸图像40中绘制网格50的示意图；

图12为本发明实施例提供的初始化编码器的原理示意图；

图13为本发明实施例对单一图像处理模型的解码器的训练原理示意图；

图14为本发明实施例单一图像处理模型进行换脸的原理示意图；

图15为本发明实施例所示的融合图像处理模型结构示意图；

图16为本发明实施例提供的用于训练融合图像处理模型的图像处理装置的结构示意图；

图17为本发明实施例提供的融合图像处理模型的训练方法一个可选的流程示意图；

图18A为用户通过终端所输入的原始图像集中的不同待替换脸部和不同目标脸部示意图；

图18B为用户通过终端所输入的原始图像集中的不同待替换脸部和不同目标脸部示意图；

图19为对单一图像处理模型的训练和对融合图像处理模型训练的过程示意图；

图20为本发明实施例提供的编码器的示例性结构图；

图21为本发明实施例提供的解码器的示例性结构图；

图23为本发明中数据集获取示意图；

图24为本发明中数据集压缩处理过程示意图；

图25本发明实施例提供的融合图像处理方法一个可选的训练流程示意图；

图26为本发明实施例中单一换脸模型的网络结构示意图；

图27为本发明实施例中图像增广示意图；

图28为本发明实施例中随机扭曲的方法的处理过程示意图；

图29A为本发明实施例提供的融合图像处理方法一个可选的训练流程示意图；

图29B为本发明实施例提供的融合图像处理方法数据结构示意图；

图30为本发明实施例提供的融合图像处理方法一个可选的使用流程示意图；

图31是本发明实施例提供的融合图像处理模型的图像处理100的架构示意图；

图32是本发明实施例提供的区块链网络200中区块链的结构示意图；

图33是本发明实施例提供的区块链网络200的功能架构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)原始图像集，也称为原始脸部图像，即包括待替换脸部的图像集合，例如图片集合或者视频的帧图像集合。

2)目标图像，也称为目标脸部图像，即包括用于替换“待替换脸部”的图像，例如图片或者视频中的帧图像。

3)编码器，用于从原始图像集中待替换脸部进行特征降维(即降低特征的维度，也称为编码或特征提取)的模型，输出用于表示待替换脸部的风格的特征。

4)风格特征，即基于编码器的中间层(隐藏层)从原始图像集的待替换脸部中提取表示待替换脸部在视觉上所表现出来的具有明显的辨识性的特征，可以包括表情、神态、光照、嘴型、视线方向、是否闭眼和肤色等。

5)解码器，与目标脸部一一对应的模型，用于从输入到解码器的风格特征还原(也称为解码或重构)具有相应风格特征的目标脸部的图像。

6)换脸，即将原始图像集中的待替换脸部替换为与待替换脸部具有相同风格特征的目标脸部。

7)单一图像处理模型，每次仅只能处理一张图像，如果需要处理不同的图像，则需要训练不同的单一图像处理模型。

8)融合图像处理模型，每次能够处理至少两张图像，可以根据用户的指令或预设的程序对原始图像集中的图像进行批量处理。

9)交易(Transaction)，等同于计算机术语“事务”，交易包括了需要提交到区块链网络执行的操作，并非单指商业语境中的交易，鉴于在区块链技术中约定俗成地使用了“交易”这一术语，本发明实施例遵循了这一习惯。

10)区块链(Blockchain)，是由区块(Block)形成的加密的、链式的交易的存储结构。

11)区块链网络(Blockchain Network)，通过共识的方式将新区块纳入区块链的一系列的节点的集合。

12)账本(Ledger)，是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。

13)智能合约(Smart Contracts)，也称为链码(Chaincode)或应用代码，部署在区块链网络的节点中的程序，节点执行接收的交易中所调用的智能合约，来对状态数据库的键值对数据进行更新或查询的操作。

14)共识(Consensus)，是区块链网络中的一个过程，用于在涉及的多个节点之间对区块中的交易达成一致，达成一致的区块将被追加到区块链的尾部，实现共识的机制包括工作量证明(PoW，Proof of Work)、权益证明(PoS，Proof of Stake)、股份授权证明(DPoS，Delegated Proof-of-Stake)、消逝时间量证明(PoET，Proof of Elapsed Time)等。

图1为本发明实施例提供的单一图像处理模型的结构示意图，单一图像处理模型包括编码器和解码器。解码器是与用于替换“单一待替换脸部”(其中，单一待替换脸部可以理解为：原始图像集中的待替换脸部A，目标脸部B，将原始图像集中的待替换脸部替换为与待替换脸部具有相同风格特征的目标脸部，以实现待替换脸部A具有目标脸部B的风格特征)的单一目标脸部是一一对应的，因此单一图像处理模型中解码器的数量取决于单一图像处理模型需要处理的不同单一目标脸部(例如不同人脸)的数量。例如当单一图像处理模型需要将视频中的单一待替换脸部替换为2个不同的目标人脸时，单一图像处理模型中需要对应2个不同的目标人脸设置解码器。

图2为本发明实施例提供的编码器的示例性结构图，如图2所示，包括4个卷积层、2个全连接层、1个重整形层和1个上采样层，各层的示例性参数如表1所示；当然，编码器中层类型和通道数进行各种变换，不局限于图1和表1所示。

表1

图3为本发明实施例提供的解码器的示例性结构图，如图3所示，包括3个上采样层和1个卷积层，解码器各层的示例性参数如表2所示，当然，解码器中的层类型和通道数进行各种变换，不局限于图3和表2所示。

表2

图4为本发明实施例提供的单一图像处理模型进行换脸的原理示意图，编码器和解码器被训练完成后，编码器从原始图像集的待替换人脸中提取风格特征(也就是对待替换人脸进行编码)，风格特征被输入解码器进行解码，这个解码的过程是一种人脸转换，形成新的换脸图像中包括目标人脸的五官和待替换人脸的风格，例如表情及神态。

图5为本发明实施例提供的单一图像处理模型进行换脸的原理示意图，x为输入的单一待替换脸部，则编码器针对x的编码函数可以表示为：f(h/x)，对应的编码结果为f(h/x)*x，从而将x编码为表示风格的隐性的特征h，特征h的维度低于x，因此也可以视为以一种压缩的方式来表达单一待替换脸部。解码器的解码函数可以表示为g(x/h)，根据输入的特征h进行解码，解码得到重构的单一待替换脸部r可以表示为g(x/h)*h。

当单一图像处理模型包括两个以上的解码器(图1中示例性示出了解码器A和解码器B)时，解码器共用同一个编码器。

例如，假设解码器A的单一目标脸部是对象A的脸部，解码器B的单一目标脸部是对象B的脸部，对于编码器针对同一个原始图像集(对象C)中的单一待替换脸部编码得到的风格特征的，解码器A可以基于风格特征进行解码，以重构得到具有相同风格特征的单一目标脸部A，而解码器B可以基于风格特征进行解码，以重构得到具有相同风格特征的单一目标脸部B。

上述的对象可以是任意具有五官的生物(包括人和动物)，以人脸为例，继续对本发明实施例提供的单一图像处理模型的处理过程进行说明。

图6为本发明实施例提供的单一图像处理模型应用相关技术提供的训练方法的原理示意图，以训练目标人脸为分别是人脸A和人脸B的解码器为例，编码器和解码器A组成自编码网络A，基于人脸A的不同样本图像(例如不同分辨率和不同风格)的扭曲图像，对自编码网络A进行无监督地训练，以更新编码器和解码器A的参数，直至解码器能够对人脸A进行编码得到人脸A的降维后的特征，解码器A用于基于人脸A的降维后的特征进行解码，以重构人脸A的图像。同理，基于人脸B的不同样本图像的扭曲图像，对自编码网络B进行无监督地训练，以更新编码器和解码器B的参数，直至解码器能够对人脸B进行编码得到人脸B的降维后的特征，解码器B用于基于人脸B的降维后的特征进行解码，以重构人脸B的图像。

可见，对于图1示出的单一图像处理模型的训练来说，应用相关技术提供的训练方法涉及到对自编码网络A和自编码网络B的训练，在每个自编码网络的训练过程中都需要分别对编码器和解码器的参数进行更新，下面进行说明。

对自编码网络A的训练过程中，自编码网络A的损失函数表示为：

loss_A＝∑(decoder_A(encoder(warp(x₁)))-x₁)²；其中，decoder_A为解码器A，warp为扭曲人脸的函数，x₁为人脸A，encoder为编码器。

在迭代训练的过程中，通过将人脸A代入自编码网络A的损失函数，求解损失函数按照梯度(例如最大梯度)下降时编码器和解码器A的参数，当损失函数收敛时，结束训练。

对自编码网络B的训练过程中，自编码网络B的损失函数表示为：loss_B＝∑(decoder_B(encoder(warp(x₂)))-x₂)²；其中，decoder_B为解码器B，warp为扭曲人脸的函数，x₂为人脸B，encoder为编码器。

在迭代训练的过程中，通过将人脸B代入自编码网络B的损失函数，求解损失函数按照梯度(例如最大梯度)下降时编码器和解码器B的参数；当损失函数收敛时，结束训练。

综合上述分析，应用相关技术对本发明实施例提供的单一图像处理模型训练存在以下问题：

1、单一图像处理模型的调整代价大

在形成针对目标人脸是人脸A、人脸B(目标人脸)的单一图像处理模型之后，如果还要使单一图像处理模型能够处理目标人脸是人脸C、人脸D进行换脸，就需要利用人脸C、人脸D的样本，对编码器分别和人脸C、人脸D构成的自编码网络的参数进行调整，由于编码器与解码器串联，梯度从解码器传播到编码器时会变得很小，因此需要进行多次迭代训练，消耗时间较多。

2、训练的数据量要求大，部署阶段占用存储资源较多

由于编码器的参数众多，需要在训练过程中为编码器的训练提供众多的训练样本，例如当需要把待替换人脸换为目标人脸时，需要采集目标人脸的大量的样本，包括不同角度、表情和光照等，往往难以获取如此丰富的样本，进而影响了单一图像处理模型换脸的效果，同时，由于图像处理模型仅能够对单一图像进行处理，用户需要同时处理多张不同的图像时，需要部署多个单一图像处理模型，其部署时存储复杂度较高，占用了大量的存储资源。

3、传统的换脸模型仅支持对单人换脸的处理，如果需要换到新的人脸就需要重新训练新的模型，耗时且麻烦，而且每个模型都需要占用自己的存储空间，过程繁琐，增加整个换脸处理流程的耗时，影响用户的使用体验。同时，训练一个单一换脸模型需要100张以上的图片(人脸图像)作为训练样本，而换脸模型的使用者(用户)往往出于隐私的原因，并不会提供自身人脸图像作为训练样本，影响了训练样本图像的离散度。

针对上述问题，本发明实施例提供了一种融合图像处理模型的训练方法和训练装置，以及融合图像处理模型的图像处理方法和图像处理装置。作为示例，图7为本发明实施例提供的融合图像处理模型的训练方法和应用方法的使用场景示意图；为实现支撑一个示例性应用，实现本发明实施例融合图像处理模型的训练装置30可以是服务器，实现本发明实施例的图像处理装置10可以是运行各种客户端的终端，两者通过网络40连接，其中网络40可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。图像处理装置10提交针对不同融合目标脸部的训练任务，由训练装置30训练相应的融合图像处理模型，并相应的服务器下发融合图像处理模型的参数到训练装置30。

例如，图像处理装置10的图形界面中可以运行视频客户端，视频客户端能够根据用户在播放界面通过各种人机交互方式(例如手势、语音等)指示的待替换人脸120以及目标人脸110，向训练装置30提交对应的训练任务，由训练装置30完成融合图像处理模型的训练任务并向视频客户端下发对应的参数，视频客户端通过运行融合图像处理模型重构与待替换人脸120具有相同风格的目标人脸130，在解码后出现待替换人脸120的帧图像中，利用重构的目标人脸130替换视频中的待替换人脸120，以形成视频的换脸效果。

可以理解地，上述的视频解码的处理也可以迁移到服务器中，借助服务器的硬件资源对替换后的帧图像进行重新编码，形成具有换脸效果的视频。

继续目标附图描述实现本发明实施例的训练装置的硬件结构，实现本发明实施例的训练装置可以为服务器或各种类型的终端。参考图8，图8为本发明实施例提供的用于训练融合图像处理模型的训练装置30的结构示意图，结合图8示出的结构进行说明。

下面对本发明实施例的融合图像处理模型的训练装置的结构做详细说明，融合图像处理模型的训练装置可以各种形式来实施，如带有融合图像处理模型训练装置的终端，也可以为设置有融合图像处理模型训练功能的服务器，其中，带有融合图像处理模型训练装置的终端，可以为前序所示的实施例中带有融合图像处理模型训练装置的电子设备。例如前序图7中的服务器；图8为本发明实施例提供的融合图像处理模型的训练装置的组成结构示意图，可以理解，图8仅仅示出了融合图像处理模型的训练装置的示例性结构而非全部结构，根据需要可以实施图8示出的部分结构或全部结构。

本发明实施例提供的融图1处理模型的训练装置包括：至少一个处理器801、存储器802、用户接口803和至少一个网络接口804。融合图像处理模型训练装置中的各个组件通过总线系统805耦合在一起。可以理解，总线系统805用于实现这些组件之间的连接通信。总线系统805除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8中将各种总线都标为总线系统805。

其中，用户接口803可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器802可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器802能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的融合图像处理模型的训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的融合图像处理模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的融合图像处理模型的训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的融合图像处理模型的训练装置采用软硬件结合实施的示例，本发明实施例所提供的融合图像处理模型的训练装置可以直接体现为由处理器801执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器802，处理器801读取存储器802中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器801以及连接到总线805的其他组件)完成本发明实施例提供的融合图像处理模型的训练方法。

作为示例，处理器801可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的融合图像处理模型的训练装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器801来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本发明实施例提供的融合图像处理模型的训练方法。

本发明实施例中的存储器802用于存储各种类型的数据以支持融合图像处理模型训练装置的操作。这些数据的示例包括：用于在融合图像处理模型训练装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从融合图像处理模型的训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的融合图像处理模型的训练装置可以采用软件方式实现，图8示出了存储在存储器802中的融合图像处理模型的训练装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器802中存储的程序的示例，可以包括融合图像处理模型的训练装置，融合图像处理模型的训练装置中包括以下的软件模块：单一图像处理模型训练模块8081，融合图像处理模型训练模块8082。当融合图像处理模型的训练装置中的软件模块被处理器801读取到RAM中并执行时，将实现本发明实施例提供的融合图像处理模型的训练方法，其中，融合图像处理模型的训练装置中各个软件模块的功能，包括：

图像处理模块8081，用于获取图像集，并对所述图像集进行压缩处理，以形成包括至少一组经过压缩的人脸图像的原始图像集。

单一图像处理模型训练模块8082，用于根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，以使，

融合图像处理模型训练模块8083，用于在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和解码器的参数，以使，

结合图8示出的电子设备80说明本发明实施例提供的融合图像处理模型的训练方法，参见图9，图9为本发明实施例提供的融合图像处理模型的训练方法一个可选的流程示意图，可以理解地，图9所示的步骤可以由运行融合图像处理模型的训练装置的各种电子设备执行，例如可以是如带有融合图像处理模型的训练功能的终端、服务器或者服务器集群。下面针对图9示出的步骤进行说明，具体包括：

步骤901：服务器获取图像集。

其中，所获取的原始图像集中的图像可以作为单一图像处理模型和融合图像处理模型的训练样本。

步骤902：对所述图像集进行压缩处理，以形成包括至少一组经过压缩的人脸图像的原始图像集。

在本发明的一些实施例中，当根据原始图像集中的单一待替换脸部，更新所述单一图像处理模型中编码器的参数之前，所述方法还包括：

从样本图像集合的各个样本图像中截取包括所述单一待替换脸部的所述原始图像集；将所截取的各个所述原始图像集基于单一待替换脸部的特征点进行对齐。

在本发明的一些实施例中，获取图像集，并对所述图像集进行压缩处理，以形成包括至少一组经过压缩的人脸图像的原始图像集，可以通过以下方式实现：

爬取网络中的图像资源，并对所爬取的图像资源中的原始图像进行人脸特征定位与数据清洗；对所述原始图像集进行随机增广处理；将经过随机增广处理的原始图像集进行随机扭曲处理，得到扭曲的所述原始图像集；截取扭曲的所述原始图像集中单一待替换脸部的五官图像，并对所述截取的五官图像进行缩放处理，以适配所述单一图像处理模型的编码器支持输入的分辨率；对经过缩放处理的所述五官图像进行压缩，触发形成与所述五官图像的格式相对应的未解压状态的人脸图像的二进制数据，以作为包括至少一组经过压缩的人脸图像的原始图像集。其中，形成与所述五官图像的格式相对应的未解压状态的人脸图像的二进制数据，使得单一换脸模型和融合换脸模型在训练过程中无需加载全部图像数据，仅在训练的初始化阶段加载与自身训练过程相匹配的图像的二进制数据即可完成相应训练，有效减少了由于训练图像众多所造成的硬件资源成本的上升。

在本发明的一些实施例中，对所述原始图像集进行随机增广处理，可以通过以下方式实现：

基于所述原始图像集的中心进行随机旋转；将随机旋转后的所述原始图像集进行随机缩放；将随机缩放后所述原始图像集进行随机平移。

在本发明的一些实施例中，将经过随机增广处理的原始图像集进行随机扭曲处理，可以通过以下方式实现：

在经过随机增广处理的原始图像集中插入噪声，所述噪声包括固定噪声和动态噪声中的至少一种。其中，通过在经过随机增广处理的原始图像集中插入噪声可以有效提升训练样本的离散度，避免由于训练样本的离散度过低影响单一换脸模型和融合换脸模型的参数失真。

在本发明的一些实施例中，在经过随机增广处理的原始图像集中插入噪声，可以通过以下方式实现：

将所述经过随机增广处理的原始图像集进行网格化，并为网格中的至少部分节点分配坐标；在所述至少部分节点中添加与所分配的坐标相对应的噪声。

步骤903：根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数。

由此，可以使所述单一图像处理模型的解码器能够基于所述单一待替换脸部的风格特征进行解码，且解码得到与所述单一待替换脸部具有相同风格的单一目标脸部。

在本发明的一些实施例中，根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，可以通过以下方式实现：

根据原始图像集中的单一待替换脸部，更新单一图像处理模型中编码器的参数，以使单一图像处理模型的编码器能够对单一待替换脸部进行编码，且编码得到单一待替换脸部的风格特征；根据原始图像集的单一待替换脸部，更新单一图像处理模型中解码器的参数，以使所述解码器能够基于所述单一待替换脸部的风格特征进行解码；在保持所述单一图像处理模型的编码器的参数不变的情况下，根据单一目标图像中的单一目标脸部更新所述解码器的参数，以使所述解码器能够基于所述单一待替换脸部的风格特征进行解码，且解码得到与单一待替换脸部具有相同风格的单一目标脸部。

在本发明的一些实施例中，根据原始图像集中的单一待替换脸部，更新单一图像处理模型中编码器的参数，可以通过以下方式实现：

在本发明的一些实施例中，根据所述原始图像集的单一待替换脸部，更新所述单一图像处理模型中解码器的参数，可以通过以下方式实现：

在本发明的一些实施例中，在保持所述单一图像处理模型的编码器的参数不变的情况下，根据单一目标图像中单一目标脸部的风格特征更新所述解码器的参数，可以通过以下方式实现：

将扭曲单一目标图像中单一目标脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数；在保持所述损失函数中对应所述单一图像处理模型的编码器的参数不变的情况下，执行以下处理：确定所述损失函数满足收敛条件时对应所述解码器的参数；其中，所述扭曲单一目标图像是对所述单一目标图像进行扭曲处理得到。

下面对训练并应用交换人脸的单一图像处理模型(也可以称为换脸模型)的过程进行说明，其中，单一图像处理模型的解码器的输出结果可以作为融合图像处理模型训练的监督数据。

参见图10，图10为本发明实施例提供的用于交换人脸的单一图像处理模型的训练原理示意图。单一图像处理模型在未进行任何训练之前，其初始结构仅包括一个编码器和一个临时解码器。

训练时首先进行编码器的初始化。对于包括人脸的图像，通过人脸检测的方式来截取人脸图像，利用人脸图像作为样本，训练由编码器和临时解码器组成的自编码网络，使得自编码网络对人脸图像的样本编码(即特征提取/降维)后，能够利用编码得到的风格特征重构人脸图像。

在编码器初始化的过程中，临时解码器的参数也得以同步更新。在编码器初始化后，从人脸图像中识别出的不同人脸可以作为目标人脸以训练对应的解码器，不同目标人脸对应的解码器都是以编码器初始化后临时解码器的参数为基础训练得到。

以训练人脸i对应的解码器i为例(i为大于或等于1的整数)，通过保持编码器的参数不变，以人脸i图像作为样本，对编码器和临时解码器组成的自编码网络进行训练，以更新临时解码器的参数，训练完成后临时解码器的参数即作为解码器i的参数，也即得到解码器i。

下面再分别对编码器初始化、训练针对目标人脸的解码器以及相应的应用进行说明。

参考图11A，图11A为本发明实施例提供的单一图像处理模型的训练方法的原理示意图，结合图11A进行说明。

初始化编码器之前首先需要进行人脸图像数据的获取，可以采用如下方式：采用人脸检测算法，框选人脸位置；使用五官定位算法、标出人眼、嘴、鼻、等脸部的特征点；根据检测到的人脸位置截取人脸图像，并将截取的人脸图像基于特征点(例如人眼)进行对齐，人脸图像的示例性分辨率可以为512*512(像素)。

人脸图像在初始化编码器之前还进行各种初始化处理，包括随机增广、随机扭曲和五官截取，下面分别进行说明。

随机增广处理，包括：将人脸图像以图像中心为中心，做随机旋转，旋转的角度范围为α，例如α的取值范围为0°至30°；将旋转后的人脸图像的宽高进行随机拉伸，拉正的倍数在[1-β，1+β]之间，例如取值为0.01；随机平移，将人脸图像在竖直方向和水平方向对应随机平移θ1和θ2，例如θ1、θ2的值对应人脸图像的宽高的1％。

随机增广处理后的人脸图像还进行随机扭曲处理，可以采用如下方式：绘制网格；添加坐标噪声；图像重映射。下面分别进行说明。

绘制网格时，参见图11B，图11B为本发明实施例提供的在人脸图像40中绘制网格50的示意图，假设截取的人脸图像40为正方形图像，记为I，宽高均为W，在人脸图像40中绘制密度为N(表示网格中节点的整数)*N的均匀网格50，示例的网格的密度为5*5(即宽度方向5个节点，高度方向5个节点)，在图11B中示例性示出了节点51至节点55。

添加坐标噪声时，将每个节点分配坐标(x，y)，记第i行第j列(在图11B中，i和j的取值范围均在1至5之间)的坐标分别为(xij，yij)，xij＝i/N，yij＝j/N，则所有的xij(i＝0，…，4，j＝0，…，4)、yij(i＝0，…，4，j＝0，…，4)组成矩阵(X，Y)。将(X，Y)的每个元素分别加上独立分布的高斯噪声，高斯噪声的期望为0，方差为σ2，方差的示例性取值为0.02，将矩阵(X，Y)使用图像插值的方法(例如使用线性插值)，放大矩阵(X，Y)的宽高到W，得到新的图像(即矩阵)(X’、Y’)。构造宽高均为W的矩阵(X2，Y2)，其中矩阵X2的元素x2ij＝i/W，矩阵Y2中元素y2ij＝j/W，其中i＝0，…，W，j＝0，…，W。

图像重映射时，对添加坐标噪声的人脸图像进行插值得到扭曲后的人脸图像Z。记Z第a行第b列的像素为zab，查找矩阵X2中比xab小的元素，记为x2c，查找矩阵Y2中比yij小的元素记为x2d，则可以构造如下四个点：A(x2c，d，y2c，d)，B(x2c+1，d，y2c+1，d)，C(x2c，d+1，y2c，d+11)，D(x2c+1，d+1，y2c+1，d+1)。分别计算点(xab，yab)到A、B、C、D的距离dA、dB、dC和dD，根据这四个距离加权得到zab的值：zab＝dA/(dA+dB+dC+dD)×Ic，d+dB/(dA+dB+dC+dD)×Ic+1，d+dC/(dA+dB+dC+dD)×Ic，d+1+dD/(dA+dB+dC+dD)×Ic+1，d+1。

随机扭曲后的人脸图像需要进行五官图像截取才能初始化编码器，以截取扭曲的人脸图像中间固定位置的图像，截取的示例性的百分比为62.5％。之后将图像缩放到编码器支持输入的分辨率。以上述随机扭曲图像宽高为512*512为例，截取宽高行数在(48，208)内的五官图像，然后将得到的161*161的五官图像缩小到64*64的五官图像。

在初始化编码器的阶段，对于数据集中检测到的所有人脸图像进行上述随机增广、随机扭曲和五官截取的初始化处理以得到五官图像的样本，用来训练如图11A示出的自编码网络来初始化编码器，在图11A中编码器的示例性的结构如图2和表1所示，当然不限于此，例如可以对卷积层、全连接层和上采样层的通道以及数量进行灵活变化。

自编码网络的训练目标是将输入的扭曲的五官图像的特征进行编码后，能够利用编码后的特征重构扭曲的五官图像。例如，编码器的网络的输出只有1024的神经元，而输入的扭曲人脸有12288个维度，通过训练，编码器能够尽可能保留输入的扭曲五官图像的特征，使得在之后训练换脸模型时，编码器的参数无需再进行微调。

记编码器为Encoder(x)，x为输入的扭曲的五官图像，临时解码器为Decoder_tmp(f)，f为x经编码器编码后得到的输出(即Encoder(x))，则损失函数Loss_init可以表示为：loss_init＝Σ(Decoder_tmp(Encoder(x))-x)2。

当loss_init再优化时不再有显著下降(即小于损失函数阈值)时，或者当迭代次数达到迭代次数阈值时，编码器初始化完成，编码器已经具有从输入的任意人脸图像中编码得到风格特征的能力，从而后续不需要进行参数的进一步调整。

参见图12，图12为本发明实施例提供的初始化编码器的原理示意图，人脸图像61、人脸图像63进行上述的初始化处理后，人脸图像61、人脸图像63的扭曲的五官图像被用于训练编码器和临时解码器组成的自编码网络，在训练完成后，临时解码器能够基于编码器编码得到的特征重构人脸图像61、人脸图像63中被扭曲的五官图像。

下面目标图13，图13为本发明实施例对单一图像处理模型的解码器的训练原理示意图，结合图12说明单一图像处理模型解码器的训练过程。

以训练针对用户i的解码器为例，首先获取用户i的人脸数据。可以采用算法自动，或者人工分类的方法，选取用户i的150张以上的人脸图像。根据上文所说明的初始化方案进行随机增广、随机扭曲和五官图像截取，得到扭曲的五官图像。

使用用户i的扭曲五官图像训练编码器与解码器i(解码器i的初始参数与临时解码器的参数相同)组成的自编码网络，在训练的过程中，由于无需再对编码器的参数进行更新。

记编码器为Encoder(x)，x为输入的扭曲的五官图像，解码器i为Decoder_i(f)，其中f为x经过编码器编码后得到的特征，使用如下的损失函数loss_i，更新编码器Decoder_i的参数：loss_i＝Σ(Decoder_i(Encoder(x))-x)2。

当loss_i不再有显著下降(即小于损失函数阈值)时，或者当迭代次数达到迭代次数阈值时，解码器i训练完成。

参见图14，图14为本发明实施例单一图像处理模型进行换脸的原理示意图，图像处理处理模型中包括针对用户A训练的解码器A以及针对用户B训练的解码器B。

当用户A的人脸图像71被输入到编码器时，编码器能够从中提取用户A的人脸在图像71中的风格特征，当风格特征被输入到解码器B时，由于解码器B已经通过训练得到了基于风格特征重构用户B的人脸图像的能力，因此解码器B能够基于风格特征重构具有相同风格特征的用户B的人脸图像74。同理，当用户B的图像73被输入到编码器时，编码器能够从中提取用户B在图像73中的风格特征，当风格特征被输入到解码器A时，由于解码器A已经通过训练得到了基于风格特征重构用户A的人脸图像的能力，解码器A能够基于风格特征重构具有相同风格特征的用户A的人脸图像72。

继续参见图7所示的应用场景，图像处理装置10可以运行于终端中，训练装置30可以运行于用以执行训练任务的服务器中。用户希望将终端的视频客户端中播放的视频中某一人物的脸部(即待替换人脸120)替换用户自己的脸部(即目标人脸110)，在视频客户端中播放具有换脸效果(即目标人脸130)的视频。

为此，用户已经向服务器上传了自己的脸部图像(即目标人脸)，并在一个视频中选定了角色，期望替换该角色的脸部(即待替换人脸)，服务器通过本发明实施例提供的单一图像处理模型(也即换脸模型)的训练方法训练了编码器以及对应目标对象的解码器。

至此，单一图像处理模型的训练完成，启动对融合图像处理模型的训练过程，其中，单一图像处理模型的解码器的输出结果可以作为融合图像处理模型训练的监督数据。

在本发明的一些实施例中，所述方法还包括：

根据所述编码器的参数和所述解码器的参数，迭代更新与所述单一图像处理模型对应的单一图像处理模型集合中的所有单一图像处理模型的编码器的参数和解码器的参数，直至所述单一图像处理模型集合中的所有单一图像处理模型的编码器的参数和解码器的参数的损失函数满足各自对应的收敛条件，其中，所述单一图像处理模型集合中的单一图像处理模型数量与所述单一图像处理模型的使用环境相适配。其中，由于融合换脸模型可以部署在不同的使用环境中，例如：融合换脸模型可以部署于短视频运营商的服务器中，或者用户的终端中(包括联网环境和离线环境)，其对于融合图像处理模型的训练能力并不相同，根据所述编码器的参数和所述解码器的参数，迭代更新与所述单一图像处理模型对应的单一图像处理模型集合中的所有单一图像处理模型的编码器的参数和解码器的参数，直至所述单一图像处理模型集合中的所有单一图像处理模型的编码器的参数和解码器的参数的损失函数满足各自对应的收敛条件，可以减低硬件资源的占用，减少了硬件设备成本的提升，实现了融合图像处理模型的大范围部署，提升用户的使用体验。

步骤904：在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和解码器的参数。

由此，可以使所述融合图像处理模型中的解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部。

在本发明的一些实施例中，当根据所述原始图像集中的不同待替换脸部，更新所述融合图像处理模型中状态编码器的参数之前，所述方法还包括：

根据所述融合图像处理模型的使用环境，抽取所述原始图像集中的第一数量的人脸图像作为第一训练集合；抽取所述原始图像集中的第二数量的人脸图像作为第二训练集合，其中，所述第二训练集合中的人脸图像为待替换脸部的正脸图像；响应于所述第一训练集合和所述第二训练集合，加载与所述第一训练集合和所述第二训练集合分别对应的未解压状态的人脸图像的二进制数据，以及相应数量的单一换脸模型，以完成所述融合换脸模型的训练初始化。其中，由于融合图像处理模型的部署使用环境并不相同，即可以不属于相应软件运营商的服务器中，也可以部署于用户的终端中，不同的使用环境对于融合图像处理模型的处理能力(训练和使用)并不相同，根据所述融合图像处理模型的使用环境，抽取所述原始图像集中的第一数量的人脸图像作为第一训练集合；抽取所述原始图像集中的第二数量的人脸图像作为第二训练集合，可以实现融合图像处理模型的大范围部署，提升用户的使用体验。

在本发明的一些实施例中，在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和解码器的参数，可以通过以下方式实现：

以所述单一图像处理模型的解码器的解码结果作为所述融合图像处理模型中的训练监督数据；根据所述原始图像集中的不同待替换脸部，更新所述融合图像处理模型中状态编码器的参数，以使所述融合图像处理模型中的状态编码器能够对所述不同待替换脸部分别进行编码，且编码得到分别对应所述不同待替换脸部的状态特征；根据所述不同目标脸部，更新所述融合图像处理模型中五官编码器的参数，以使所述融合图像处理模型中的五官编码器能够对所述不同目标脸部分别进行编码，且编码得到分别对应所述不同目标脸部的五官特征；根据所述融合图像处理模型中的状态编码器的编码结果和五官编码器编码结果，更新所述融合图像处理模型中融合解码器的参数，以使所述融合图像处理模型中的融合解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部。

在本发明的一些实施例中，根据所述原始图像集中的不同待替换脸部，更新所述融合图像处理模型中状态编码器的参数，可以通过以下方式实现：

在本发明的一些实施例中，根据所述不同目标脸部，更新所述融合图像处理模型中五官编码器的参数，可以通过以下方式实现：

在本发明的一些实施例中，根据所述融合图像处理模型中的状态编码器的编码结果和五官编码器编码结果，更新所述融合图像处理模型中融合解码器的参数，可以通过以下方式实现：

下面对训练并应用交换人脸的融合图像处理模型(也可以称为融合换脸模型)的具体过程进行说明，其中，图15为本发明实施例所示的融合图像处理模型结构示意图，融合图像处理模型的结构如图15所示，包括：

状态编码器、五官编码器和融合解码器，其中，状态编码器用于提取待换人脸的状态特征——比如表情、姿态、光照情况等；而五官编码器的编码结果仅只保留目标人脸的五官特征，而去除状态特征。最后融合编码器根据状态特征与五官特征，解码得到与相应待替换脸部具有相同风格的不同目标脸部；新的目标脸部有着待换人脸的状态，和目标脸部的五官特征，实现批量的对不同目标脸部的换脸功能。通过输入不同的目标脸部，就能解码得到与相应待替换脸部具有相同风格的不同目标脸部。其中，图15所示的融合图像处理模型的状态编码器、五官编码器和融合解码器的参数如表3所示，

表3

至此，完成了对融合图像处理模型的训练，训练完成的融合图像处理模型可以部署于相应的服务器中，当然也可以部署于用户终端中(实现不联网状态下融合图像处理模型对不同图像的处理)，融合图像处理模型的具体部署位置本发明不做限制。

当通过前序实施例对融合图像处理模型训练完成后，需要将融合图像处理模型部署于相应的终端或服务器中，继续目标附图描述实现本发明实施例的图像处理装置的硬件结构，实现本发明实施例的图像处理装置可以为服务器或各种类型的终端。参考图16，图16为本发明实施例提供的用于训练融合图像处理模型的图像处理装置的结构示意图，结合图16示出的结构进行说明。

下面对本发明实施例的融合图像处理模型的图像处理装置的结构做详细说明，融合图像处理模型的图像处理装置可以各种形式来实施，如带有融合图像处理模型执行功能的终端，也可以为设置有融合图像处理模型的图像处理功能的服务器，例如前序图7中的相应服务器。图16为本发明实施例提供的融合图像处理模型的图像处理装置的组成结构示意图，可以理解，图16仅仅示出了融合图像处理模型的图像处理装置的示例性结构而非全部结构，根据需要可以实施图16示出的部分结构或全部结构。

本发明实施例提供的融合图像处理模型的图像处理装置包括：至少一个处理器1601、存储器1602、用户接口1603和至少一个网络接口1604。融合图像处理模型图像处理装置中的各个组件通过总线系统1605耦合在一起。可以理解，总线系统1605用于实现这些组件之间的连接通信。总线系统1605除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图16中将各种总线都标为总线系统1605。

其中，用户接口1603可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器1602可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器1602能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的融合图像处理模型的图像处理装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的融合图像处理模型图像处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的融合图像处理模型的训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex ProgrammableLogic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的融合图像处理模型的图像处理装置采用软硬件结合实施的示例，本发明实施例所提供的融合图像处理模型的图像处理装置可以直接体现为由处理器1601执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器1602，处理器1601读取存储器1602中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器1601以及连接到总线1605的其他组件)完成本发明实施例提供的融合图像处理模型的训练方法。

作为示例，处理器1601可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的融合图像处理模型的图像处理装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器1601来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件执行实现本发明实施例提供的融合图像处理模型的训练方法。

本发明实施例中的存储器1602用于存储各种类型的数据以支持融合图像处理模型图像处理装置的操作。这些数据的示例包括：用于在融合图像处理模型图像处理装置上操作的任何可执行指令，如可执行指令，实现本发明实施例的从融合图像处理模型的训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的融合图像处理模型的图像处理装置可以采用软件方式实现，图16示出了存储在存储器1602中的融合图像处理模型的图像处理装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器1602中存储的程序的示例，可以包括融合图像处理模型的图像处理装置，融合图像处理模型的图像处理装置中包括以下的软件模块：编码器模块16081，解码器模块16082。当融合图像处理模型的图像处理装置中的软件模块被处理器1601读取到RAM中并执行时，将实现本发明实施例提供的融合图像处理模型的图像处理方法，其中，融合图像处理模型的图像处理装置中各个软件模块的功能，包括：

编码器模块16081，用于通过融合图像处理模型的状态编码器，对原始图像集进行编码得到所述原始图像集中不同待替换脸部的风格特征；

所述编码器模块16081，用于通过融合图像处理模型的五官编码器，对不同目标脸部进行编码得到所述不同目标脸部所对应的不同目标脸部的五官特征；

解码器模块16082，用于将所述风格特征和所述五官特征输入所述融合图像处理模型的融合解码器；

所述解码器模块16082，用于在所述融合解码器中基于不同待替换脸部的风格特征和不同目标脸部的五官特征进行解码，得到与所述不同待替换脸部具有相同风格的不同目标脸部；

结合图16示出的电子设备160说明本发明实施例提供的融合图像处理模型的训练方法，参见图17，图17为本发明实施例提供的形成具有换脸效果的视频的流程图，可以理解地，图17所示的步骤可以由运行融合图像处理模型的图像处理装置的各种电子设备执行，例如可以是如带有融合图像处理模型的图像处理功能的终端、服务器或者服务器集群。下面针对图17示出的步骤进行说明。

参见图17，图17为本发明实施例提供的形成具有换脸效果的视频的流程图，结合示出的步骤说明服务器制作具有换脸效果的视频的过程。

步骤1701：视频解码。

其中，通过步骤1701视频会被解码得到一系列的帧图像，下面以选取n(n为大于或等于1的整数)帧图像为例说明。

步骤1702：提取n帧图像。

其中，所提取的n帧图像为待替换人脸。

步骤1703：对n帧图像进行人脸检测，如果有人脸，则执行步骤1704；如果没有人脸，则返回提取n+1帧图像继续进行人脸检测。

步骤1704：对n帧图像进行人脸识别，以判断是否包括待替换人脸，如果是则执行步骤1705；否则跳转到步骤1708。

步骤1705：截取待替换人脸。

步骤1706：调用融合换脸模型对n帧图像进行目标人脸重构。

融合换脸模型中状态编码器对待替换人脸进行编码得到待替换人脸的状态特征，五官编码器对目标脸部的进行编码得到目标脸部的五官特征，融合解码器利用待替换人脸的状态特征和目标脸部的五官特征进行解码，得到具有风格特征的目标人脸。

步骤1707：将重构的目标人脸回贴n帧中的待替换人脸。

步骤1708：编码视频。

当视频中的帧图像处理完成后，将各帧视频按照视频的原始格式进行编码，当然也可以编码为其他格式。

可以理解地，上述制作视频的处理也可以迁移到终端中，根据终端的硬件配置可以采取相适配的解码/编码参数。

下面对本发明实施例所提供的融合图像处理模型进行说明，其中，包括对单一图像处理模型的训练和对融合图像处理模型训练两部分，图18A为用户通过终端所输入的原始图像集中的不同待替换脸部和不同目标脸部示意图。其中，原始图像集中的不同待替换脸部的数量和不同目标脸部的数量均可以通过用户终端进行调整。图18B为用户通过终端所输入的原始图像集中的不同待替换脸部和不同目标脸部示意图。其中，原始图像集中的不同待替换脸部的数量和不同目标脸部的数量均可以通过用户终端进行调整，以实现M*N组的待替换脸部和不同目标脸部的处理，其中，M和N的取值可以根据不同的需求进行调整。

下面介绍对图18A和18B所示的对不同待替换脸部和不同目标脸部的处理过程。

首先对现有技术中的换脸模型的工作原理进行说明，其中，参考图19，图19为对单一图像处理模型的训练和对融合图像处理模型训练的过程示意图，其中，单一图像处理模型训练方法包括每个自编码分别尝试恢复输入人脸中的扭曲，把各种扭曲的人脸、还原到对应人的正常的人脸。两个自编码器共用一个编码器，使得两个人脸经过编码器编码后，能够映射到同一函数空间中——使得解码器B能够解码自编码器A中编码器编码出的A脸的特征(例如光照、表情、视线方向等)，以实现相应的换脸的处理效果。

其中，在使用换脸模型的时候，如果需要把B的脸换到A的脸，把B的脸输入到自编码器A中，即可得到换脸后的脸；同理如果要把A的脸换到B，则把A的脸输入到自编码器B中。

模型的具体结构中编码器如图20所示，解码器的结构如图21所示，图20为本发明实施例提供的编码器的示例性结构图，如图20所示，包括4个卷积层、2个全连接层、1个重整形层和1个上采样层，各层的示例性参数如表4所示；当然，编码器中层类型和通道数进行各种变换，不局限于图20和表4所示。

表4

图21为本发明实施例提供的解码器的示例性结构图，如图21所示，包括3个上采样层和1个卷积层，解码器各层的示例性参数如表5所示，当然，解码器中的层类型和通道数进行各种变换，不局限于图21和表5所示。

表2

前序所示的换脸模型的训练方法如下：

1、记编码器为Encoder，解码器A为decoder_A，编码器B为decoder_B，扭曲人脸的函数为warp，使用A人脸的数据x1与如下损失函数优化一次编码器与解码器A的值：

loss_A＝∑(decoder_A(encoder(warp(x₁)))-x₁)²

2、使用B人脸的数据x2与如下损失函数优化一次编码器与解码器B的值：

loss_B＝∑(decoder_B(encoder(warp(x₂)))-x₂)²

3、重复步骤1、2直到loss_A、loss_B的和的下降值小于设定阈值ε。

前序传统换脸模型的共工作过程中，所产生的缺陷包括：

1)传统的换脸模型仅支持对单人换脸的处理，如果需要换到新的人脸就需要重新训练新的模型，耗时且麻烦，而且每个模型都需要占用自己的存储空间，过程繁琐，增加整个换脸处理流程的耗时，影响用户的使用体验。

2)训练一个单一换脸模型需要100张以上的图片(人脸图像)作为训练样本，而换脸模型的使用者(用户)往往出于隐私的原因，并不会提供自身人脸图像作为训练样本，影响了训练样本图像的离散度。

为克服上述缺陷，本发明实施例提供了一种融合图像处理方法，其中，图22为本发明实施例提供的融合图像处理方法一个可选的处理流程，可以理解地，图22所示的步骤可以由运行融合图像处理模型的图像处理装置的各种电子设备执行，例如可以是如带有融合图像处理模型的图像处理功能的终端、服务器或者服务器集群。下面针对图22示出的步骤进行说明，包括以下步骤：

步骤2201：获取N组数据集。

其中，N为大于等于1的正整数，N的取值可以根据不同的需求进行调整，以适配相应的运行融合图像处理模型的图像处理装置的各种电子设备。

步骤2202：压缩N组数据集。

步骤2203：低内存占用的单一换脸模型的训练。

步骤2204：低内存占用的融合换脸模型训练。

下面，对图22所示的步骤进行分别介绍，其中，图23为本发明中数据集获取示意图，具体包括以下步骤：

1)通过网络爬取、下载明星库图片等途径，收集包含要训练的单一换脸模型的人的图片文件，每人至少100张；

2)调用人脸检测算法(这里采用的MTCNN人脸检测算法，其他的方法也可行)，找到人脸的大致位置。

3)调用人脸对齐算法，以人眼为中心，修正人脸框选的位置，让框选的人脸位置更加精准，保证在框出的图像上人眼都处于固定位置。

4)按照自动框选的结果，截取人脸图片，放缩到固定尺寸(优选为256*256)并保存，作为人脸原始图像集合。

5)人工筛查步骤4)得到的集合，筛除错误识别的人脸数据。

6)对于每个人，分别执行前序的步骤1)-5)，生成每个目标人物所对应的人脸图像数据集

图24为本发明中数据集压缩处理过程示意图，具体包括以下步骤：

1)使用有损jpg格式保存所有人脸图像数据集i。

2)直接将数据集中所有jpg文件载入到内存中，并不解码图像得到RGB矩阵

3)前序内存中，第i个人的未解码人脸图片数据，构成了压缩后人脸数据集i

由此，在后续训练的过程中，实时解码出随机抽中的人脸图片，使得不需要把所有的人脸图片都解码出来，以保证低内存占用；而通过巧妙的利用jpg格式的压缩率，实现数据集的压缩，且这种压缩的方式，能够保证每次进行数据增广的时候，无需从硬盘载入数据；对于需要使用的人脸数据，在内存中解码得到RGB矩阵是非常快的，这总压缩方法导致的解压耗时是用户可以接受的。

图25本发明实施例提供的融合图像处理方法一个可选的训练流程示意图，可以理解地，图25所示的步骤可以由运行融合图像处理模型的图像处理装置的各种电子设备执行，例如可以是如带有融合图像处理模型的图像处理功能的终端、服务器或者服务器集群。下面针对图25示出的步骤进行说明，包括以下步骤：

步骤2501：初始化M个临时单一换脸模型。

其中，M为大于等于1的正整数，M的取值可以根据不同的需求进行调整，以适配相应的运行融合图像处理模型的图像处理装置的各种电子设备。

步骤2502：随机出M组下标。

步骤2503：对于每个下标，分别执行如下操作:

记第i个下标为Xi，取出第Xi个单一换脸模型的网络参数、以及训练时需要用到的参数，配置到第i个临时换脸模型中。

步骤2504：按照定义的loss，优化所有的M个临时单一换脸模型。

步骤2505：对于每个临时单一换脸模型，执行如下操作：

取出第i个临时单一换脸模型参数、训练时用到的参数，分别保存到第Xi个临时换脸模型、第Xi个临时换脸模型训练时所用的参数中。

步骤2506：重复步骤2502至2505(优选次数为五万次)，得到训练出的N组单一换脸模型的参数。

其中，硬件设备能够同时处理的最大单一换脸模型数量为M，需要同时训练的单一换脸模型数量为N。

下面对图25所示的步骤依次进行说明，

其中，图26为本发明实施例中单一换脸模型的网络结构示意图，其中，所有的单一换脸模型，共用同一个编码器，图26为第i个人的换脸模型的网络结构示意图；其中每个人的换脸模型类似前述过程中类似，由编码器后串联一个解码器来实现，其中，所有的换脸模型共用一个编码器，而每个人的换脸模型有自己独立的编码器i。记共用的编码器为encoder，第i个人的编码器为decoderi，则第i个人的换脸模型的网络结构如图26所示，其中，网络各层的参数如下所表6所示：

表6

下面对图25所示的带解压的数据增广算法进行说明，参考图27，图27为本发明实施例中图像增广示意图；

其中，每次增广处理时，增广出Y组数据，记录每次随机增广的时候，增广出Y组扭曲人脸、无扭曲人脸用于训练，带解压的数据增广算法的具体流程包括以下步骤：

步骤2701：从压缩后人脸数据集i中，随机抽取Y个未解码人脸图片。

步骤2702：随机变形，生成无扭曲人脸。

步骤2703：在随机变形的基础上，进行随机扭曲，得到扭曲人脸。

其中，随机变形的具体步骤如下：

1)将输入的检测好的人脸以图像中心为中心，做随机旋转，旋转的角度范围为α，α的优选值为为30°。

2)将旋转后的人脸的宽高进行随机拉伸，拉正的倍数在[1-β，1+β]之间，β的优选值为0.01。

3)随机平移，将图像在数值和水平方向随机平移+θ1，+θ2，优选θ1、θ2的值为宽高的0.01。

4)五官图像截取：以截取图像中间固定位置的图像，优选截取的百分比为62.5％。之后将图像缩放到编码器输入的分辨率。

以512×512的人脸图像为例：

截取宽高行数在(48，208)内的图像，后将得到的161x161图像缩放到128x128图像。

其中，随机扭曲的方法的处理过程参考图28，图28为本发明实施例中随机扭曲的方法的处理过程示意图，包括：

绘制网格：记截取的人脸图像为正方形图像，为I，宽高均为W，如下图所示在输入图片上打上NxN的均匀网格(优选的网格的密度为5x5(宽5个节点，高5个节点))。

添加坐标噪声：将每个节点分配坐标x，y，记第i行第j列的坐标分别为x_ij、y_ij，x_ij＝i/N，y_ij＝j/N，则所有的x_ij(i＝0，…，4，j＝0，…，4)、y_ij(i＝0，…，4，j＝0，…，4)，组成矩阵X、Y。

将X，Y的每个元素分别加上独立分布的高斯噪声，高斯噪声的期望为0，方差为σ2，方差的优选值为0.02。

将矩阵X，Y视为图像，使用图像插值的方法(优选使用线性插值)，放大矩阵X、Y，宽高到W，得到新的图像(即矩阵)X’、Y’

构造宽高均为W的矩阵X2、Y2，其中矩阵X2的中元素x2_ij＝i/W，矩阵Y2中元素y2_ij＝j/W，其中i＝0，…，W，j＝0，…，W

图像重映射：使用图像重映射的方法，插值得到扭曲后的人脸图像Z：

记Z第a行第b列的像素为zab，查找矩阵X2中恰好比xab小的元素记为x2c，查找矩阵Y2中恰好比y_ij小的元素记为x2d，则可以构造如下四个点

点A(x2_c，_d，y2_c，_d)，B(x2_c+1，d，y2_c+1，_d)，C(x2_c，_d+1，y2c，d+11)，D(x2_c+1，_d+1，y2_c+1，_d+1)

分别计算点(x_ab，y_ab)到A、B、C、D的距离dA、dB、dC、dD，根据这四个距离，加权得到zab的值；

z_ab＝dA/(dA+dB+dC+dD)×I_c，d+dB/(dA+dB+dC+dD)×I_c+1，d+dC/(dA+dB+dC+dD)×I_c，d+1+dD/(dA+dB+dC+dD)×I_c+1，d+1

采用与随机变形中相同的方法，对扭曲得到的人脸进行裁切，最后，裁切的扭曲人脸与变形人脸形成<扭曲人脸><无扭曲人脸>数据对，与用于训练单换脸模型。

下面对本发明所涉及的低内存占用的融合换脸模型训练进行介绍，其中，利用单一换脸模型，生成用于训练融合换脸模型的数据，具体的处理策略包括：

1)不载入所有的人脸数据集，仅使用部分人脸数据集与正脸数据集，使得内存占用减少：选用的人脸数据集，由从全部人脸数据集中随机取出，取出的比例为20％。而正脸数据集由人工，从随机抽取的人脸数据集中筛选得到。需要提及的是，这种不使用所有数据的方法，也大大减少了人工标注的量，提高构建融合换脸模型的整个过程。

2)同时只处理固定数量的临时换脸模型用于构造训练融合换脸模型的数据：记M为机器能够同时处理的单一换脸模型的数量，N为所有单一换脸模型的数量，构造M个临时单一换脸模型与步骤1中的人脸、正脸，进行实时解压&增广出训练用数据。

其处理过程参考图29A和图29B，图29A为本发明实施例提供的融合图像处理方法一个可选的训练流程示意图；图29B为本发明实施例提供的融合图像处理方法数据结构示意图；可以理解地，图29A所示的步骤可以由运行融合图像处理模型的图像处理装置的各种电子设备执行，例如可以是如带有融合图像处理模型的图像处理功能的终端、服务器或者服务器集群。下面针对图29A示出的步骤进行说明，包括以下步骤：

步骤2901：从所有的人脸数据集中，随机抽取至少20％的数据构造人脸数据集。

步骤2902：在所有人脸数据集中，随机抽取并人工标记，标出至少5％数据集总量的正脸图片，组成人脸数据集。

步骤2903：将人脸数据集、正脸数据集图片转为jpg格式，并载入到计算机内存中且不解码。

步骤2904：初始化M个临时单一换脸模型，其中M为机器能够处理的单一换脸模型的数量。

步骤2905：载入所有N个单一换脸模型的参数到内存中。

步骤2906：初始化融合换脸模型。

步骤2907：重复循环步骤10万次，以完成训练融合换脸模型。

其中，循环步骤包括：

a)从N个单一换脸模型中，随机抽取M个下标，对于每个下标进行如下操作：

i)对于第i下标Xi，将第Xi个单一换脸模型参数输入到临时单一换脸模型i中。

ii)从人脸数据集中随机抽取Y个，进行与前述相同数据增广，得到扭曲人脸图像。

iii)从正脸数据集中随机抽取Y个，进行与前述相同数据增广，得到无扭曲正脸图像。

iii)将扭曲人脸图像，输入到临时换脸模型i中，得到临时无扭曲人脸i。

iv)将无扭曲正脸输入到临时换脸模型i中，得到临时无扭曲正脸i。

v)将扭曲人脸图像、临时无扭曲正脸X，带入到融合换脸模型中，得到换脸输出。

vi)计算换脸输出、与临时无扭曲人脸i的平方误差，得到Loss_fuse_i。

b)对所有Loss_fuse_i求和，其中i＝1，…，M，得到Loss_fuse。

c)根据Loss_fuse，优化一次融合换脸模型的参数。

下面，融合图像处理方法可以继续参考图30A和30B，其中，图30A为本发明实施例提供的融合图像处理方法一个可选的使用流程示意图，图30B为本发明实施例提供的融合图像处理方法数据结构示意图；可以理解地，图30A所示的步骤可以由运行融合图像处理模型的图像处理装置的各种电子设备执行，例如可以是如带有融合图像处理模型的图像处理功能的终端、服务器或者服务器集群。下面针对图30A示出的步骤进行说明，

对本发明融合换脸模型的使用方法进行说明，包括以下步骤：

步骤3001：解码视频。

步骤3002：对每一帧进行如下a)到d)的处理，记未处理的帧为待处理帧j。

a)进行人脸检测，若没有检测到待换人脸，则直接对处理帧j编码，结束对该帧的处理；否则进行步骤b)。

b)将检测到的待处理人脸、参考正脸i输入到融合换脸模型中，得到已换人脸。

c)使用人脸融合的方法将已换人脸替换到待处理帧j中，得到已处理帧j。

d)对已处理帧j进行编码。

步骤3003：得到已处理视频。

参见图31，图31是本发明实施例提供的融合图像处理模型的图像处理100的架构示意图，包括区块链网络200(示例性示出了共识节点210-1至共识节点210-3)、认证中心300、业务主体400和业务主体500，下面分别进行说明。

区块链网络200的类型是灵活多样的，例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例，任何业务主体的电子设备例如用户终端和服务器，都可以在不需要授权的情况下接入区块链网络200；以联盟链为例，业务主体在获得授权后其下辖的电子设备(例如终端/服务器)可以接入区块链网络200，此时，成为区块链网络200中的客户端节点。

在一些实施例中，客户端节点可以只作为区块链网络200的观察者，即提供支持业务主体发起交易(例如，用于上链存储数据或查询链上数据)功能，对于区块链网络200的共识节点210的功能，例如排序功能、共识服务和账本功能等，客户端节点可以缺省或者有选择性(例如，取决于业务主体的具体业务需求)地实施。从而，可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络200中，通过区块链网络200实现数据和业务处理过程的可信和可追溯。

区块链网络200中的共识节点接收来自不同业务主体(例如图1中示出的业务主体400和业务主体500)的客户端节点(例如，图1中示出的归属于业务主体400的客户端节点410、以及归属于数据库运营商系统500的客户端节点510)提交的交易，执行交易以更新账本或者查询账本，执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。

例如，客户端节点410/510可以订阅区块链网络200中感兴趣的事件，例如区块链网络200中特定的组织/通道中发生的交易，由共识节点210推送相应的交易通知到客户端节点410/510，从而触发客户端节点410/510中相应的业务逻辑。

下面以多个业务主体接入区块链网络以实现同目标脸部和相应不同待替换脸部的管理为例，说明区块链网络的示例性应用。

参见图31，管理环节涉及的多个业务主体，如业务主体400可以是基于人工智能的融合图像处理模型的图像处理，业务主体500可以是带有不同待替换脸部处理功能的显示系统，从认证中心300进行登记注册获得各自的数字证书，数字证书中包括业务主体的公钥、以及认证中心300对业务主体的公钥和身份信息签署的数字签名，用来与业务主体针对交易的数字签名一起附加到交易中，并被发送到区块链网络，以供区块链网络从交易中取出数字证书和签名，验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息，区块链网络会根据身份进行验证，例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运行的客户端都可以向区块链网络200请求接入而成为客户端节点。

业务主体400的客户端节点410用于通过融合图像处理模型的状态编码器，对原始图像集进行编码得到所述原始图像集中不同待替换脸部的风格特征；

通过融合图像处理模型的五官编码器，对不同目标脸部进行编码得到所述不同目标脸部所对应的不同目标脸部的五官特征；将所述风格特征和所述五官特征输入所述融合图像处理模型的融合解码器；在所述融合解码器中基于不同待替换脸部的风格特征和不同目标脸部的五官特征进行解码，得到与所述不同待替换脸部具有相同风格的不同目标脸部；其中，所述融合图像处理模型的编码器和解码器的参数是在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述单一目标图像进行更新所得到的；并将融合图像处理模型所对应的与不同待替换脸部具有相同风格的不同目标脸部以及相应的目标脸部发送至区块链网络200。

其中，将融合图像处理模型所对应的与不同待替换脸部具有相同风格的不同目标脸部以及相应的目标脸部发送至区块链网络200，可以预先在客户端节点410设置业务逻辑，当形成与不同待替换脸部具有相同风格的不同目标脸部时，客户端节点410将将融合图像处理模型所对应的与不同待替换脸部具有相同风格的不同目标脸部以及相应的目标脸部发送至区块链网络200，也可以由业务主体400的业务人员在客户端节点410中登录，手动打包将融合图像处理模型所对应的与不同待替换脸部具有相同风格的不同目标脸部以及相应的目标脸部发送至区块链网络200。在发送时，客户端节点410根据待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息生成对应更新操作的交易，在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点410的数字证书、签署的数字签名(例如，使用客户端节点410的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络200中的共识节点210。

区块链网络200中的共识节点210中接收到交易时，对交易携带的数字证书和数字签名进行验证，验证成功后，根据交易中携带的业务主体400的身份，确认业务主体400是否是具有交易权限，数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署节点210自己的数字签名(例如，使用节点210-1的私钥对交易的摘要进行加密得到)，并继续在区块链网络200中广播。

区块链网络200中的共识节点210接收到验证成功的交易后，将交易填充到新的区块中，并进行广播。区块链网络200中的共识节点210广播的新区块时，会对新区块进行共识过程，如果共识成功，则将新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交更新待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息的交易，在状态数据库中添加包括待处理的目标文本及对应的与所触发的与所述目标文本的类型相匹配的业务进程信息的键值对。

业务主体500的业务人员在客户端节点510中登录，输入同目标脸部或者不同待替换脸部查询请求，客户端节点510根据同目标脸部或者不同待替换脸部查询请求生成对应更新操作/查询操作的交易，在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数，交易还携带了客户端节点510的数字证书、签署的数字签名(例如，使用客户端节点510的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络200中的共识节点210。

区块链网络200中的共识节点210中接收到交易，对交易进行验证、区块填充及共识一致后，将填充的新区块追加到自身所存储的区块链的尾部，并根据交易的结果更新状态数据库，执行新区块中的交易：对于提交的更新某一同目标脸部对应的人工识别结果的交易，根据人工识别结果更新状态数据库中该同目标脸部对应的键值对；对于提交的查询某个与不同待替换脸部具有相同风格的不同目标脸部以及相应的目标脸部，从状态数据库中查询同目标脸部对应的键值对，并返回交易结果。

值得说明的是，在图31中示例性地示出了将融合图像处理模型所对应的与不同待替换脸部具有相同风格的不同目标脸部以及相应的目标脸部直接上链的过程，但在另一些实施例中，对于不同目标脸部的数据量较大的情况，客户端节点410可同目标脸部同目标脸部的哈希以及相应的不同待替换脸部的哈希成对上链，将原始的同目标脸部以及相应的不同待替换脸部存储于分布式文件系统或数据库。客户端节点510从分布式文件系统或数据库获取到同目标脸部以及相应的不同待替换脸部后，可结合区块链网络200中对应的哈希进行校验，从而减少上链操作的工作量。

作为区块链的示例，参见图32，图32是本发明实施例提供的区块链网络200中区块链的结构示意图，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个区块中所有交易的哈希值，新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后，会被追加到区块链的尾部从而形成链式的增长，区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。

下面说明本发明实施例提供的区块链网络的示例性的功能架构，参见图33，图33是本发明实施例提供的区块链网络200的功能架构示意图，包括应用层201、共识层202、网络层203、数据层204和资源层205，下面分别进行说明。

资源层205封装了实现区块链网路200中的各个节点210的计算资源、存储资源和通信资源。

数据层204封装了实现账本的各种数据结构，包括以文件系统中的文件实现的区块链，键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。

网络层203封装了点对点(P2P，Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。

其中，P2P网络协议实现区块链网络200中节点210之间的通信，数据传播机制保证了交易在区块链网络200中的传播，数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现节点210之间传输数据的可靠性；接入认证机制用于根据实际的业务场景对加入区块链网络200的业务主体的身份进行认证，并在认证通过时赋予业务主体接入区块链网络200的权限；业务主体身份管理用于存储允许接入区块链网络200的业务主体的身份、以及权限(例如能够发起的交易的类型)。

共识层202封装了区块链网络200中的节点210对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法，支持共识算法的可插拔。

交易管理用于验证节点210接收到的交易中携带的数字签名，验证业务主体的身份信息，并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息)；对于获得接入区块链网络200的授权的业务主体而言，均拥有认证中心颁发的数字证书，业务主体利用自己的数字证书中的私钥对提交的交易进行签名，从而声明自己的合法身份。

账本管理用于维护区块链和状态数据库。对于取得共识的区块，追加到区块链的尾部；执行取得共识的区块中的交易，当交易包括更新操作时更新状态数据库中的键值对，当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作，包括：根据区块向量号(例如交易的哈希值)查询区块；根据区块哈希值查询区块；根据交易向量号查询区块；根据交易向量号查询交易；根据业务主体的账号(向量号)查询业务主体的账号数据；根据通道名称查询通道中的区块链。

应用层201封装了区块链网络能够实现的各种业务，包括交易的溯源、存证和验证等。

本发明具有以下有益技术效果：

1、融合图像处理模型的压缩效果明显，部署于相应的服务器中时，融合图像处理模型的体积减小到之前传统技术的37.92％，有效降低了其在终端上部署、调用的复杂度。

2、实现技术条件下(部署于相应的服务器中)，523个单一换脸模型的融合压缩，由压缩前1个编码器、523解码器，模型共占用存储空间31GB；而经过本发明所提供的融合图像处理模型训练方法所生成的融合换脸模型，仅占用硬件资源738MB，压缩率达到了2.32％，并且随着硬件设备的能力提升可以实现更多数量的单一图像处理模型的融合。

2、通过该本实施例训练得到的融合图像处理模型通用性更好，同一个模型能够对多个目标脸部图像进行交换。

3、使用更为简单，只需要输入目标人脸的正脸图片，即可把视频图像帧中的人脸换成目标人脸的人脸，无需提前训练，便有在用户终端(处理能力弱的电子设备)中部署，实现了图像处理模型的大范围部署。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合图像处理模型的训练方法，其特征在于，所述方法包括：

在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和解码器的参数，以使所述融合图像处理模型中的解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部，其中，所述单一图像处理模型的解码器的解码结果作为所述融合图像处理模型中的训练监督数据。

2.根据权利要求1所述的方法，其特征在于，所述根据原始图像集中的单一待替换脸部，更新单一图像处理模型的编码器的参数和所述单一图像处理模型的解码器的参数，包括：

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求2所述的方法，其特征在于，

将扭曲原始图像集中单一待替换脸部的五官图像，代入由所述单一图像处理模型的编码器和所述解码器构成的自编码网络对应的损失函数，确定所述损失函数满足收敛条件时对应所述单一图像处理模型的解码器的参数，其中所述扭曲原始图像集是对所述原始图像集进行扭曲处理得到。

5.根据权利要求2所述的方法，其特征在于，

6.根据权利要求2-5任一项所述的方法，其特征在于，所述方法还包括：

根据所述单一图像处理模型编码器的参数和所述单一图像处理模型解码器的参数，迭代更新与所述单一图像处理模型对应的单一图像处理模型集合中的所有单一图像处理模型的编码器的参数和解码器的参数，直至所述单一图像处理模型集合中的所有单一图像处理模型的编码器的参数和解码器的参数的损失函数满足各自对应的收敛条件，其中，所述单一图像处理模型集合中的单一图像处理模型数量与所述单一图像处理模型的使用环境相适配。

7.根据权利要求1所述的方法，其特征在于，所述在保持所述单一图像处理模型的编码器和解码器的参数不变的情况下，根据所述原始图像集中的不同待替换脸部和不同目标脸部更新融合图像处理模型的编码器和解码器的参数，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述不同目标脸部，更新所述融合图像处理模型中五官编码器的参数，包括：

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

10.一种融合图像处理模型的图像处理方法，其特征在于，所述方法包括：

其中，所述融合图像处理模型的编码器和解码器的参数是在保持单一图像处理模型的编码器和解码器的参数不变的情况下，根据单一目标图像进行更新所得到的，其中，所述单一图像处理模型的解码器的解码结果作为所述融合图像处理模型中的训练监督数据。

11.一种融合图像处理模型的训练装置，其特征在于，所述训练装置包括：

所述融合图像处理模型中的解码器能够基于不同待替换脸部的风格特征进行解码，且解码得到与相应待替换脸部具有相同风格的不同目标脸部，其中，所述单一图像处理模型的解码器的解码结果作为所述融合图像处理模型中的训练监督数据。

12.一种图像处理装置，其特征在于，所述图像处理装置包括：

13.一种融合图像处理模型的训练装置，其特征在于，所述训练装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至9任一项所述的融合图像处理模型的训练方法。

14.一种融合图像处理装置，其特征在于，所述图像处理装置包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求10所述的融合图像处理模型的图像处理方法。

15.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至9任一项所述的融合图像处理模型的训练方法，或者实现权利要求10所述的融合图像处理模型的图像处理方法。