CN117011665A

CN117011665A - 一种图像处理模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN117011665A
Application number: CN202211397807.4A
Authority: CN
Inventors: 贺珂珂; 朱俊伟; 邰颖; 汪铖杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-11-07
Also published as: WO2024099004A1

Abstract

本发明提供了一种图像处理模型训练方法，包括：获取第一训练样本集合；通过第一图像处理模型对第一训练样本集合进行处理，得到第一换脸图像；获取与第一图像处理模型相对应的第二图像处理模型；根据所述第二图像处理模型和所述第一换脸图像，计算所述第一图像处理模型的融合损失函数；根据所述融合损失函数，对所述第一图像处理模型进行训练，当达到所述第一图像处理模型的收敛条件时，确定所述第一图像处理模型的模型参数。本发明还提供了图像处理装置及存储介质。本发明能够提升图像处理模型训练精度与训练速度，使得图像处理模型能够适应移动终端的使用需求。

Description

一种图像处理模型训练方法、装置、电子设备及存储介质

技术领域

本发明涉及机器学习技术，尤其涉及一种图像处理模型训练方法、装置、电子设备及存储介质。

背景技术

现有技术中，深度神经网络在许多计算机视觉任务中获得了非常好的性能。一般而言，网络的参数量和计算量越大，网络的性能越好。然而在资源受限的嵌入式系统上部署这类规模较大的网络却非常困难，而直接训练规模较小的网络得到的网络的性能要远低于规模较大的网络的性能。因此需要在不增加训练数据的情况下，提升规模较小的网络的性能，才能够实现将图像处理模型部署于移动终端中。

发明内容

有鉴于此，本发明实施例提供一种图像处理模型训练方法、装置、电子设备及存储介质，能够通过知识蒸馏的方式实现对规模较小的图像处理模型训练兼顾了训练精确性的同时，便于将图像处理模型部署于移动终端中。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种图像处理模型训练方法，所述方法包括：

获取第一训练样本集合，其中所述第一训练样本集合包括至少一个三元组训练样本，所述三元组训练样本包括：源图像、模板图像和真值；

通过第一图像处理模型对所述第一训练样本集合进行处理，得到第一换脸图像，其中，所述第一图像处理模型为重参数化结构；

获取与所述第一图像处理模型相对应的第二图像处理模型，其中，所述第二图像处理模型为经过预训练的图像处理模型，所述第二图像处理模型的模型参数固定不变；

根据所述第二图像处理模型和所述第一换脸图像，计算所述第一图像处理模型的融合损失函数；

根据所述融合损失函数，对所述第一图像处理模型进行训练，当达到所述第一图像处理模型的收敛条件时，确定所述第一图像处理模型的模型参数。

本发明实施例还提供了一种图像处理模型训练装置，所述训练装置包括：

数据传输模块，用于获取第一训练样本集合，其中所述第一训练样本集合包括至少一个三元组训练样本，所述三元组训练样本包括：源图像、模板图像和真值；

图像处理模型训练模块，用于通过第一图像处理模型对所述第一训练样本集合进行处理，得到第一换脸图像，其中，所述第一图像处理模型为重参数化结构；

所述图像处理模型训练模块，用于获取与所述第一图像处理模型相对应的第二图像处理模型，其中，所述第二图像处理模型为经过预训练的图像处理模型，所述第二图像处理模型的模型参数固定不变；

所述图像处理模型训练模块，用于根据所述第二图像处理模型和所述第一换脸图像，计算所述第一图像处理模型的融合损失函数；

所述图像处理模型训练模块，用于根据所述融合损失函数，对所述第一图像处理模型进行训练，当达到所述第一图像处理模型的收敛条件时，确定所述第一图像处理模型的模型参数。

上述方案中，

所述图像处理模型训练模块，用于确定与所述第一图像处理模型的使用环境相匹配的动态噪声阈值；

所述图像处理模型训练模块，用于根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合；或者，

所述图像处理模型训练模块，用于确定与所述第二图像处理模型相对应的固定噪声阈值，并根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

上述方案中，

所述图像处理模型训练模块，用于获取所述第一图像处理模型的使用环境中的终端所采集的人脸图像；

所述图像处理模型训练模块，用于对所述人脸图像进行图像增广处理；

所述图像处理模型训练模块，用于基于图像增广的处理结果，通过人脸检测算法确定相应的人脸位置，并截取包括背景图像的人脸图像；

所述图像处理模型训练模块，用于通过所述图像处理模型的深度处理网络对所述包括背景图像的人脸图像进行裁剪处理，得到所述源图像。

上述方案中，

所述图像处理模型训练模块，用于获取所述第二图像处理模型输出的第二换脸图像，利用所述第一换脸图像和所述第二换脸图像计算所述第一图像处理模型的重构损失函数；

所述图像处理模型训练模块，用于计算所述第一图像处理模型的特征损失函数；

所述图像处理模型训练模块，用于计算所述第一图像处理模型的估计损失函数；

所述图像处理模型训练模块，用于计算所述第一图像处理模型的对抗损失函数；

所述图像处理模型训练模块，用于计算所述重构损失函数、所述特征损失函数、所述估计损失函数以及所述对抗损失函数的加和，得到所述第一图像处理模型的融合损失函数。

上述方案中，

所述图像处理模型训练模块，用于计算所述第一换脸图像和所述第二换脸图像的像素级差值；

所述图像处理模型训练模块，用于根据所述像素级差值，确定所述第一图像处理模型的重构损失函数。

上述方案中，

所述图像处理模型训练模块，用于通过预训练的特征提取网络，对所述第一换脸图像进行特征提取，得到所述第一换脸图像的不同层级特征；

所述图像处理模型训练模块，用于通过预训练的特征提取网络，对所述第二换脸图像进行特征提取，得到所述第二换脸图像的不同层级特征；

所述图像处理模型训练模块，用于计算所述第一换脸图像的不同层级特征和所述第二换脸图像的不同层级特征的差值，得到所述第一图像处理模型的特征损失函数。

上述方案中，

所述图像处理模型训练模块，用于提取所述第一换脸图像的特征，得到第一换脸图像特征向量；

所述图像处理模型训练模块，用于提取所述源图像的特征，得到源图像特征向量；

所述图像处理模型训练模块，用于利用所述第一换脸图像特征向量和所述源图像特征向量的相似度，计算所述第一图像处理模型的估计损失函数。

上述方案中，

所述图像处理模型训练模块，用于当所述第一图像处理模型训练完成，并部署在移动终端中时，获取目标人脸图像和待替换人脸图像；

所述图像处理模型训练模块，用于通过所述第一图像处理模型的编码器网络，对所述目标人脸图像和所述待替换人脸图像进行编码，得到人脸图像向量；

通过所述第一图像处理模型的解码器网络，对所述人脸图像向量进行解码，得到第三换脸图像。

本发明实施例还提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现前序的图像处理模型训练方法。

本发明实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现前序的图像处理模型训练方法。

本发明实施例具有以下有益效果：

本发明通过获取第一训练样本集合，其中第一训练样本集合包括至少一个三元组训练样本，三元组训练样本包括：源图像、模板图像和真值；通过第一图像处理模型对第一训练样本集合进行处理，得到第一换脸图像，其中，第一图像处理模型为重参数化结构；获取与第一图像处理模型相对应的第二图像处理模型，其中，第二图像处理模型为经过预训练的图像处理模型，第二图像处理模型的模型参数固定不变；根据第二图像处理模型和第一换脸图像，计算第一图像处理模型的融合损失函数；根据融合损失函数，对第一图像处理模型进行训练，当达到第一图像处理模型的收敛条件时，确定第一图像处理模型的模型参数。因此，由于第一图像处理模型为重参数化结构，使得第一图像处理模型训练的时候结构是复杂的，这样第一图像处理模型的处理能力强，能够学习复杂的数据，而测试的时候结构是简单的，能够减低测试时的耗时，并且减少浮点运算量，方便移动端的部署。此外，利用第二图像处理模型进行训练指导，能够在不增加训练样本总量和无需重新训练的前提下，稳定提高规模较小的图像处理模型的准确率，且对于大部分神经网络模型和数据普遍适用，通过知识蒸馏的方式实现对规模较小的第一图像处理模型训练兼顾了训练精确性的同时，减轻神经网络模型的过拟合，增强神经网络模型的泛化能力，便于将经过训练的图像处理模型部署于移动终端中，实现图像处理模型的大规模应用。

附图说明

图1是本发明实施例提供的一种图像处理模型训练方法的使用环境示意图；

图2为本发明实施例提供的图像处理模型训练装置的组成结构示意图；

图3为相关方案中生成图像处理结果的示意图；

图4为本发明实施例提供的图像处理模型训练方法一个可选的流程示意图；

图5为本发明实施例中脸部图像的采集过程的示意图；

图6为本发明实施例中脸部图像的采集过程的示意图；

图7为本发明实施例中第一图像处理模型的一个可选的模型结构示意图；

图8为本发明实施例中第一图像处理模型的测试过程示意图；

图9为本发明实施例中经过训练的图像处理模型的工作过程示意图；

图10为本发明实施例中换脸效果示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)视频换脸：换脸的定义是将输入的源图(即source)换到模板人脸中(即template)上，并使输出人脸(fake)保持模板人脸的表情、角度、背景等信息。

2)人工神经网络：简称神经网络(Neural Network，NN)，在机器学习和认知科学领域，是一种模仿生物神经网络结构和功能的数学模型或计算模型，用于对函数进行估计或近似。

3)模型参数：是使用通用变量来建立函数和变量之间关系的一个数量。在人工神经网络中，模型参数通常是实数矩阵。

4)知识迁移(Knowledge Transfer)：在深度神经网络中，知识迁移是指利用训练样本数据在老师图像处理模型的中间网络层或最终网络层的输出数据，辅助训练速度较快但性能较差的学生图像处理模型，从而将性能优良的老师图像处理模型迁移到学生图像处理模型上。

5)知识提取(Knowledge Distill)：在深度神经网络中，知识提取是指在分类问题中利用老师图像处理模型输出的平滑类别后验概率训练学生图像处理模型的技术。

6)老师图像处理模型(Teacher Network)：知识迁移过程中用以为学生图像处理模型提供更加准确的监督信息的高性能神经网络。

7)学生图像处理模型(Student Network)：计算速度快但性能较差的适合部署到对实时性要求较高的实际应用场景中的单个神经网络，学生图像处理模型相比于老师图像处理模型，具有更大的运算吞吐量和更少的模型参数。

8)下采样处理，对于一个样值序列间隔几个样值取样一次，这样得到新序列就是原序列的下采样，例如：对于一幅图像I尺寸为M*N，对其进行s倍下采样，即得到(M/s)*(N/s)尺寸的得分辨率图像，其中s应该是M和N的公约数

9)生成对抗网络(Generative Adversarial Networks，GAN)，即生成式对抗网络，是一种深度学习模型。模型通过框架中至少两个模块：生成模型G(Generative Model)和判别模型D(Discriminative Model)的互相博弈学习产生相当好的输出。比如：G是制作高分图像(本文中也称为重构图像)的模型，D是检测是否为原始自然图像的模型。G的目标是使D判断不出G生成的高分图像是否为非自然图像，D则要尽可能的分辨出输入的图像是原始自然图像还是G生成的非自然图像，通过G和D的参数不断的迭代更新，直到生成对抗网络满足收敛条件。

10)生成器网络，用于通过低分辨率的图像生成高分辨率图像。生成器可为基于深度学习的卷积神经网络。

11)判别器网络，判断输入的图像x是生成器生成的非自然图像，还是自然图像。判别器输出一个0-1区间的概率值D1(x)，当D1(x)为0时，表示判别输入的图像x是自然图像，当D1(x)为1时，表示判别输入的图像x是非自然图像。

12)RGB，三原色编码方法，又可以称作RGB色彩模式，是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是目前运用最广的颜色系统之一。

13)换脸，利用待处理图像中对象的目标部位替换其他图像的不同对象中与该目标部位相对应的部位，简称相应部位。

图1为本发明实施例提供的图像处理模型训练方法的使用场景示意图，参考图1，终端(包括终端10-1和终端10-2)上设置有图像处理软件的客户端，用户通过所设置的图像处理软件客户端可以输入相应的待处理图像，图像处理客户端也可以接收相应的图像处理结果，并将所接收的图像处理结果向用户进行展示；终端通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

作为一个示例，服务器200用于布设图像处理模型并对图像处理模型进行训练，以对图像处理模型的生成器参数和判别器参数进行迭代更新，以实现将通过图像处理模型中的生成器网络生成针对目标待处理图像的图像处理结果，并通过终端(终端10-1和/或终端10-2)展示图像处理模型所生成的与待处理图像相对应的图像处理结果。

其中，本申请实施例所提供的图像处理模型训练方法可以基于人工智能实现，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、测试与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如，可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition，ASR)，其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。

例如可以涉及机器学习(Machine learning，ML)，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术，深度学习包括人工神经网络(artificial neural network)，例如卷积神经网络(ConvolutionalNeural Network，CNN)、循环神经网络(Recurrent Neural Network，RNN)、深度神经网络(Deep neural network，DNN)等。

当然在通过图像处理模型对目标待处理图像进行处理以生成相应的图像处理结果之前，还需要对图像处理模型进行训练，当确定图像处理模型的参数之后，部署在移动终端中供用户使用，也可以保存在云服务器网络中等待用户的下载使用。

下面对本发明实施例的图像处理模型训练装置的结构做详细说明，图像处理模型训练装置可以各种形式来实施，如带有图像处理模型训练功能的专用终端，也可以为设置有图像处理模型训练功能的服务器，例如前序图1中的服务器200。图2为本发明实施例提供的图像处理模型训练装置的组成结构示意图，可以理解，图2仅仅示出了图像处理模型训练装置的示例性结构而非全部结构，根据需要可以实施图2示出的部分结构或全部结构。

本发明实施例提供的图像处理模型训练装置包括：至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。图像处理模型训练装置20中的各个组件通过总线系统205耦合在一起。可以理解，总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统205。

其中，用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。

可以理解，存储器202可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括：用于在终端(如10-1)上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

在一些实施例中，本发明实施例提供的图像处理模型训练装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的图像处理模型训练装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的图像处理模型训练方法。例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

作为本发明实施例提供的图像处理模型训练装置采用软硬件结合实施的示例，本发明实施例所提供的图像处理模型训练装置可以直接体现为由处理器201执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器202，处理器201读取存储器202中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的图像处理模型训练方法。

作为示例，处理器201可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

作为本发明实施例提供的图像处理模型训练装置采用硬件实施的示例，本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成，例如，被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的图像处理模型训练方法。

本发明实施例中的存储器202用于存储各种类型的数据以支持图像处理模型训练装置20的操作。这些数据的示例包括：用于在图像处理模型训练装置20上操作的任何可执行指令，如可执行指令，实现本发明实施例的从图像处理模型训练方法的程序可以包含在可执行指令中。

在另一些实施例中，本发明实施例提供的图像处理模型训练装置可以采用软件方式实现，图2示出了存储在存储器202中的图像处理模型训练装置，其可以是程序和插件等形式的软件，并包括一系列的模块，作为存储器202中存储的程序的示例，可以包括图像处理模型训练装置，图像处理模型训练装置中包括以下的软件模块：数据传输模块2081和图像处理模型训练模块2082。当图像处理模型训练装置中的软件模块被处理器201读取到RAM中并执行时，将实现本发明实施例提供的图像处理模型训练方法，下面介绍本发明实施例中图像处理模型训练装置中各个软件模块的功能，其中，

数据传输模块2081，用于获取第一训练样本集合，其中第一训练样本集合包括至少一个三元组训练样本，三元组训练样本包括：源图像、模板图像和真值。

图像处理模型训练模块2082，用于通过第一图像处理模型对第一训练样本集合进行处理，得到第一换脸图像，其中，第一图像处理模型为重参数化结构。

图像处理模型训练模块2082，用于获取与第一图像处理模型相对应的第二图像处理模型，其中，第二图像处理模型为经过预训练的图像处理模型，第二图像处理模型的模型参数固定不变。

图像处理模型训练模块2082，用于根据第二图像处理模型和第一换脸图像，计算第一图像处理模型的融合损失函数。

图像处理模型训练模块2082，用于根据融合损失函数，对第一图像处理模型进行训练，当达到第一图像处理模型的收敛条件时，确定第一图像处理模型的模型参数。

结合图2示出的图像处理模型训练装置20说明本发明实施例提供的图像处理模型训练方法，在介绍本发明实施例提供的图像处理模型训练方法之前，首先介绍本发明中图像处理模型根据待处理图像生成相应图像处理结果的过程中，图3为相关方案中生成图像处理结果的示意图，其中，图1是相关技术基于超分生成对抗网络对图像进行超分处理的示意图，超分生成对抗网络SRGAN(SRGAN，Super Resolution Generative AdversarialNetwork)的结构如图1所示，包括有生成器网络301和判别器网络302。生成器网络301和判别器网络302为深度神经网络模型。高清图片被作为训练样本图像并进行下采样处理，形成低分辨率(相对于高清图片而言)的训练样本图像，通过SRGAN模型中的生成器网络301对低分辨率的训练样本图像进行图像重构，形成重构图像；SRGAN模型中的判别器网络302对重构图像进行鉴别，根据相应的鉴别结果调整生成器网络301和/或判别器网络302的参数，直至生成器网络301和判别器网络302能够达到纳什平衡(Nash equilibrium)，完成对SRGAN模型的训练，从而SRGAN模型能够对所输入的分辨率较低的图像进行重构，形成分辨率较高的图像。

相关技术的上述方案存在的问题包括：生成高分辨率的图像需要模型拥有非常大参数量，比如Pix2PixHD大约有100millions的参数。但是这种规模较大的模型缺点在于测试速度慢，难以部署在移动设备，因此需要对图像处理模型进行压缩。

为解决这一相关技术中的缺陷，参见图4，图4为本发明实施例提供的图像处理模型训练方法一个可选的流程示意图，可以理解地，图4所示的步骤可以由运行图像处理模型训练装置的各种电子设备执行，例如可以是如带有人脸图像检测与调整功能的小程序运行终端、或者是带有图像处理模型训练功能的终端。下面针对图4示出的步骤进行说明。

步骤401：图像处理模型训练装置获取第一训练样本集合，其中第一训练样本集合包括至少一个三元组训练样本。

其中，三元组训练样本包括：源图像、模板图像和真值。

在本发明的一些实施例中，在配置第一训练样本集合时，可以采集移动终端所处环境中的人脸图像作为源图像，并计算相应的的真值(GT，Ground truth)，组成三元组结构。

参考图5，图5为本发明实施例中脸部图像的采集过程的示意图，当图像采集设备的拍摄环境光线较暗时，可以对脸部图像中进行暗通道去雾处理，形成增强图像，所形成的增强图像可以包括人脸特征和/或肢体特征，具体步骤包括：

确定脸部图像的暗通道值，脸部图像的灰度值，去雾调节值；基于脸部图像的暗通道值、去雾调节值和灰度值确定脸部图像的大气光值；根据脸部图像的大气光值和光线调节值对脸部图像进行处理，以形成增强图像。其中，暗通道是指在对脸部图像进行采集时，所获取的脸部图像的RGB三个通道中取最小值组成灰度图，并对最小值组成灰度图进行最小值滤波处理所得到的，通过对移动终端所采集的脸部图像的图像参数进行分析，可以获得去雾调节值；将所采集的脸部图像转换为灰度图后，可以得到脸部图像的灰度值以及暗通道值。记暗通道值为Dark_channel，脸部图像的灰度值为Mean_H和Mean_V，脸部图像的大气光值为AirLight；去雾调节值为P，光线调节值为A，待增强的脸部图像为Input，其取相反数的结果为IR，对于任意一幅输入图像，取输入图像的暗通道图像灰度值最大的M％个的像素点，确定M％个的像素点对应于每个通道的灰度值的平均值，其中M的取值范围为0.1-0.3，从而计算出每个通道的大气光值，即大气光值AirLight是一个三元素向量，每一个元素对应于每一个颜色通道。因此，在本发明的一些实施例中，对脸部图像进行采集时，可以确定脸部图像的每个像素点三个通道中的最小值；将去雾图像的每个像素点三个通道中的最小值赋值给暗通道的图像中对应的像素点，其中，通过公式：Dark_channel＝min(Input_R，Input_G，Input_B)；可以确定脸部图像的暗通道值，并通过大气光值和光线调节值对所采集的脸部图像进行调整，以此获得更加清晰的脸部图像采集结果。

在本发明的一些实施例中，当进行人脸图像采集时，可以通过移动终端获取第一图像处理模型的使用环境中的终端所采集的人脸图像；对人脸图像进行图像增广处理；基于图像增广的处理结果，通过人脸检测算法确定相应的人脸位置，并截取包括背景图像的人脸图像；通过图像处理模型的深度处理网络对包括背景图像的人脸图像进行裁剪处理，得到源图像。

参考图6，图6为本发明实施例中脸部图像的采集过程的示意图，由于图像采集设备的位置固定，目标对象的高矮不同，所采集的人脸图像的全面性也不同(可能出现目标对象身高过低或者过高均不能采集准确人脸图像的缺陷)，为了实现获得更加全面的人脸图像，可以对所采集的人脸图像进行图像增广处理；基于图像增广的处理结果，通过人脸检测算法确定相应的人脸位置，并截取包括背景图像的人脸图像；对包括背景图像的人脸图像进行背景清除处理，形成相应的目标用户的人脸图像。得到通过支付电子设备所采集的用户图像后，可以首先通过脸部检测的技术来框定用户脸部所在区域，并以此区域为中心扩大2倍，如图6所示由检测框601的检测区域调整至检测框602的检测区域，得到更多的背景内容，并对包括背景内容的脸部图像进行裁剪；例如：可以采用如下方式：采用人脸检测算法，框选目标对象的人脸位置；使用五官定位算法、标出人眼、嘴、鼻、等脸部的特征点；根据检测到的人脸位置截取包括背景内容的脸部图像。

在获取包括背景图像的人脸图像后，可以触发经过预训练的深度处理网络，深度处理网络可以包括但不限于：LeNet，AlexNet，VGG，Inception系列网络，ResNet网络；通过提取人脸图像的特征(例如提取均值，方差等基于灰度的特征和基于分布直方图的特征，GLCM和GLRLM等基于相关矩阵的特征或基于图像傅里叶变换之后的信号特征)，并基于所提取的特征进行背景清除处理，得到通过深度处理网络裁剪出来的真人人脸计算得到脸部对应的深度图，其中，在本发明的实施例中，通过真人人脸计算得到脸部图像包括深度图，而采用攻击图片(例如人脸照片)对应的深度图则是黑色的底图，通过对深度图的还原可以得到目标对象的人脸图像，所得到的目标对象的人脸图像并不包括背景图像，能够使得图像处理模型的换脸功能处理结果更加准确。

步骤402：图像处理模型训练装置通过第一图像处理模型对第一训练样本集合进行处理，得到第一换脸图像，其中，第一图像处理模型为重参数化结构。

在本发明的一些实施例中，由于从移动终端的环境中所采集的人脸图像可能会出现噪声，因此，在利用第一训练样本集合进行图像处理模型的训练之前，可以对第一训练样本集合进行除噪，以节省第一图像处理模型的训练时间，并提高第一图像处理模型的训练精度，具体来说，经过训练的第一图像处理模型可选的应用环境包括：

(1)影视制作。在影视制作中，一些专业的动作镜头由专业人员完成，后期可以通过换脸图像自动将演员替换进去；具体来说，可以获取动作镜头视频片段中包含专业人员的图像帧，将包含替换演员的图像作为源图像，将每张包含专业人员的图像帧作为模板图像分别与源图像输入训练好的第一图像处理模型中，输出对应的换脸图像，输出的换脸图像将模板图像中专业人员的身份置换为替换演员的身份。可见，通过换脸图像，使得影视制作更加便利，避免重复拍摄，节约影视制作的成本。

(2)游戏形象制作。在游戏形象制作中，可以将包含人物对象的图像作为源图像，将包含游戏形象的图像作为模板图像，将源图像与模板图像输入训练好的第一图像处理模型中，输出对应的换脸图像，输出的换脸图像将模板图像中游戏形象的身份置换为源图像中人物对象的身份。可见，通过换脸图像，可以为人物设计专属的游戏形象。

(3)直播虚拟形象制作。在直播场景中，可以将包含虚拟形象的图像作为源图像，将直播视频中每张包含人物对象的图像帧作为模板图像分别与源图像输入训练好的第一图像处理模型中，输出对应的换脸图像，输出的换脸图像将模板图像中人物对象的身份置换为虚拟形象。可见，可以在直播场景中利用虚拟形象进行身份置换，提升直播场景的趣味性。

(4)证件照制作。在证件照的制作过程中，可以将需要制作证件照的对象的图像作为源图像，将源图像与证件照模板图像输入训练好的第一图像处理模型中，输出对应的换脸图像，输出的换脸图像将证件照模板图像中模板对象的身份置换为需要制作证件照的对象。可见，通过换脸图像，需要制作证件照的对象提供一张图像便可以直接制作证件照，不需要拍摄，大大降低了证件照的制作成本。

上述四种场景中，影视制作和游戏形象制作由于噪声不固定，因此可以确定与第一图像处理模型的使用环境相匹配的动态噪声阈值；根据动态噪声阈值对第一训练样本集合进行去噪处理，以形成与动态噪声阈值相匹配的第二训练样本集合，保证图像处理模型的训练精度。

对于直播虚拟形象制作和证件照制作来说，由于噪声不固定，确定与第二图像处理模型相对应的固定噪声阈值，并根据固定噪声阈值对第一训练样本集合进行去噪处理，以形成与固定噪声阈值相匹配的第二训练样本集合，可以进一步地压缩图像处理模型的训练时间。

步骤403：图像处理模型训练装置获取与第一图像处理模型相对应的第二图像处理模型，其中，第二图像处理模型为经过预训练的图像处理模型，第二图像处理模型的模型参数固定不变。

在本发明的一些实施例中，第二图像处理模型可以为训练好的神经网络，并且第二图像处理模型可以为规模较大的神经网络，例如：第二图像处理模型的网络参数的数量大于某一数值，但本发明实施例对此不作限定。可选地，第二图像处理模型可以为卷积神经网络(CNN ConvolutionalNeural Network)、深度神经网络(DNN Deep Neural Network)或循环神经网络(RNN Recurrent Neural Network)等，本发明实施例对第二图像处理模型的类型不作限定。第二图像处理模型可以为适用于不同的计算机视觉任务的神经网络，例如：目标识别任务、目标分类任务、目标检测任务或姿态估计任务等。第二图像处理模型也可以为适用于不同的应用场景的神经网络，例如：安防检测场景、人脸解锁场景、智能驾驶或遥感场景等，本发明实施例对第一图像处理模型的适用范围不作限定。可选地，第二图像处理模型的网络结构可以根据计算机视觉任务设计，或者，第二图像处理模型的网络结构可以采用现有的网络结构的至少一部分，例如：深度残差网络或者，视觉几何组网络(VGGNetVisual GeometryGroup Network)等。

第一图像处理模型可以为待训练的神经网络，并且第一图像处理模型可以为规模较小的神经网络，以便于通过低浮点运算量的优势部署在移动终端中，例如：第一图像处理模型的网络参数的数量小于某一数值，但本公开实施例对此不作限定。第二图像处理模型的网络规模大于第一图像处理模型的网络规模，第二图像处理模型可以为教师网络(teacher network)，第一图像处理模型可以为学生网络(student network)，利用教师网络来训练学生网络，能够提高训练得到的学生网络的性能。在本发明的一些实施例中，可以利用知识蒸馏方法或其他方法来进行对第一图像处理模型的训练，本发明实施例对此不作限定。

图7为本发明实施例中第一图像处理模型的一个可选的模型结构示意图，其中，第一图像处理模型的模型中编码器和解码器的结构为重参数化结构RepVGG(VisualGeometry Group)，如图7所示，图7中的A表示的是原始的ResNet网络，该网络中包含着Conv1*1的残差结构和Identity的残差结构，这些残差结构的存在解决了深层网路中的梯度消失问题，使得网络更加易于收敛。图7中的B表示的是训练阶段的RepVGG网络架构，整个网络的主体中包含残差结构，同时，RepVGG网络中的残差块并没有跨层，并且整个网络包含2种残差结构。由于残差结构具有多个分支，就相当于给网络增加了多条梯度流动的路径，第一图像处理模型使用图7所示的结构，其实类似于训练了多个网络，并将多个网络融合在一个网络中，训练效率更高。图7中的C表示的是测试阶段的RepVGG网络，该网络的结构非常简单，整个网络均是由Conv3*3+Relu堆叠而成，易于模型的测试和加速。

图8为本发明实施例中第一图像处理模型的测试过程示意图，其中，当前大多数移动设备中的测试引擎都对Conv3*3做了特定的加速，假如整个网络中的每一个Conv3*3都能节省3ms，如果一个网络中包含30个卷积层，那么整个网络就可以节省3*30＝90ms的时间。对于残差节点而言，需要当所有的残差分支都计算出对应的结果之后，才能获得最终的结果，这些残差分支的中间结果都会保存在设备的内存中，这样会对移动终端的内存具有较大的要求，来回的内存操作会降低整个网络的测试速度。而测试阶段首先在线下将模型转换为单分支结构，在移动终端测试阶段就能更好的提升设备的内存利用率，从而提升模型的测试速度

步骤404：图像处理模型训练装置根据第二图像处理模型和第一换脸图像，计算第一图像处理模型的融合损失函数。

在本发明的一些实施例中，第一图像处理模型的融合损失函数有不同的损失函数组合而成，获取第二图像处理模型输出的第二换脸图像，利用第一换脸图像和第二换脸图像计算第一图像处理模型的重构损失函数；计算第一图像处理模型的特征损失函数；计算第一图像处理模型的估计损失函数；计算第一图像处理模型的对抗损失函数；计算重构损失函数、特征损失函数、估计损失函数以及对抗损失函数的加和，得到第一图像处理模型的融合损失函数；具体来说，融合损失函数loss的计算参考公式1：

loss＝Reconstruction_loss+LPIPS_loss+ID_loss+D_loss+G_loss公式1

其中，Reconstruction_loss为重构损失函数；LPIPS_loss为特征损失函数；ID_loss为估计损失函数；D_loss为判别器损失；G_loss为生成器损失，(D_loss+G_loss)构成了对抗损失函数。

下面对公式1中的每一个维度的损失函数分别进行介绍：

1)对于作为教师网络的第二图像处理模型(BigModel)来说，第二图像处理模型所计算得到的第二换脸图像可以表示为BigModel_fake，第一图像处理模型所计算得到的第一换脸图像可以表示为fake；那么重构损失函数Reconstruction_loss的计算参考公式2：

BigModel_fake＝BigModel_swap(source，template)

Reconstruction_loss＝|BigModel_fake–fake|公式2

需要说明的的是，fake图和BigModel_fake的像素级差异越小，说明第二图像处理模型对第一图像处理模型训练指导的效果越好，使得第一图像处理模型继承了第二图像处理模型的精确度。

2)特征损失函数的计算：通过预训练的特征提取网络，对第一换脸图像进行特征提取，得到第一换脸图像的不同层级特征；通过预训练的特征提取网络，对第二换脸图像进行特征提取，得到第二换脸图像的不同层级特征；计算第一换脸图像的不同层级特征和第二换脸图像的不同层级特征的差值，得到第一图像处理模型的特征损失函数。其中，特征损失函数的计算参考公式3：

LPIPS_loss＝|result_fea1-result_fea1|+|result_fea2-gt_img_fea2|+

|result_fea3-gt_img_fea3|+|result_fea4-gt_img_fea4|公式3上述公式3中，(result_fea1，result_fea2，result_fea3，result_fea4)＝alexnet_feature(fake)；

(gt_img_fea1，gt_img_fea2，gt_img_fea3，gt_img_fea4)＝alexnet_feature(BigModel_fake)，其中，特征提取网络Alexnet由5个卷积层、3个池化Pooling层，以及3个全连接层构成。特征提取网络Alexnet的输出结果中，alexnet_feature(fake)表示将解码人脸图像(fake)输入到alexnet网络模型中并输出fake在alexnet网络模型的四个特征提取层所输出的特征，result_fea1、result_fea2、result_fea3以及result_fea4分别为四个特征提取层中的各个特征提取层所输出的解码人脸图像的解码人脸特征。alexnet_feature(gt_img)表示将标准人脸图像gt_img输入到alexnet网络模型中并输出gt_img在alexnet网络模型的四个特征提取层所输出的特征，gt_img_fea1、gt_img_fea2、gt_img_fea3以及gt_img_fea4分别为四个特征提取层中的各个特征提取层所输出的标准人脸图像gt_img的标准人脸特征。

3)估计损失函数的计算：提取第一换脸图像的特征，得到第一换脸图像特征向量fake_id_features；提取源图像的特征，得到源图像特征向量socre_id_features；利用第一换脸图像特征向量和源图像特征向量的相似度，计算第一图像处理模型的估计损失函数，其中，参考公式4：

ID_loss ＝ 1 – cosine_similarity(fake_id_features，socre_id_features)公式4

4)对抗损失函数的计算：生成器网络，可称为G，判别器网络，可称为D，用于区分输入的图片是否为生成器网络所生成，输入一张高分辨率图像x，输出一个0-1区间的数D(x)，D(x)用于判断输入图是否为生成器生成的，其中，0表示不是，1表示是。其中，D_loss为判别器损失，G_loss为生成器损失，(D_loss+G_loss)构成了对抗损失函数loss，对抗损失函数的计算参考公式5：

步骤405：图像处理模型训练装置根据融合损失函数，对第一图像处理模型进行训练，当达到第一图像处理模型的收敛条件时，确定第一图像处理模型的模型参数。

至此，通过步骤401-步骤405完成了对第一图像处理模型的训练，确定了第一图像处理模型的参数，经过训练的第一图像处理模型可以部署在移动终端中，执行换脸功能，此时第一图像处理模型的浮点运算量FLOPs优化至544M，同比第二图像处理模型的9373M的FLOPs，减少了94％的计算量。最终部署到安卓手机的中的每秒传输帧数(FPS Frames PerSecond)在17-20间，使得换脸功能的耗时满足移动终端实时性要求。

为了更好的说明本申请提供的图像处理模型的工作过程，参考图9，图9为本发明实施例中经过训练的图像处理模型的工作过程示意图，具体包括以下步骤：

步骤901：当图像处理模型训练完成，并部署在移动终端中时，获取目标人脸图像和待替换人脸图像。

步骤902：通过图像处理模型的编码器网络，对目标人脸图像和待替换人脸图像进行编码，得到人脸图像向量。

步骤903：通过图像处理模型的解码器网络，对人脸图像向量进行解码，得到换脸图像。

其中，如图9所示，生成器为了采用非对称输入输出。由于移动终端的屏幕较小，因此解码器为网络输出分辨率从512像素降级到256像素，并且将输入的分辨率设计为128像素，以满足移动终端的使用。

编码器网络通过卷积计算将输入不断减半，通道逐渐增加。具体地，输入从128*128*6(目标人脸图像和待替换人脸图像，每张图的RGB通道数为3)，逐步编码为64*64*32，32*32*64，16*16*128，以此类推。

解码器网络通过反卷积运算，将分辨率逐渐增倍，解码为32*32*64，64*64*32，128*128*16，256*256*3，最终得到换脸结果。

其中，图10为本发明实施例中换脸效果示意图，目标源面部图像例如可以是图10中的人脸图像(a)，目标模板面部图像例如可以是图10中的人脸图像(b)，面部更换图像例如可以是图4中的人脸图像(c)，人脸图像(c)是通过将人脸图像(a)中的人脸替换为人脸图像(b)中得到的，从人脸图像(c)可以看出，人脸图像(c)与人脸图像(b)的身份以及附加形象一致，即人脸图像(c)与人脸图像(b)是同一个人的人脸，并且人脸图像(c)中包括了与人脸图像(b)相同的眼镜，人脸图像(c)与人脸图像(a)的属性一致，例如从人脸图像(c)可以看出，人脸图像(c)与人脸图像(a)的发型一致，并且人脸图像(c)嘴巴张开的角度比人脸图像(b)大，从而符合了人脸图像(a)的嘴巴张开的角度，达到用户所需要的换脸处理效果。

本发明具有以下有益技术效果：

1)本发明通过获取第一训练样本集合，其中第一训练样本集合包括至少一个三元组训练样本，三元组训练样本包括：源图像、模板图像和真值；通过第一图像处理模型对第一训练样本集合进行处理，得到第一换脸图像，其中，第一图像处理模型为重参数化结构，获取与第一图像处理模型相对应的第二图像处理模型，其中，第二图像处理模型为经过预训练的图像处理模型，第二图像处理模型的模型参数固定不变；根据第二图像处理模型和第一换脸图像，计算第一图像处理模型的融合损失函数；根据融合损失函数，对第一图像处理模型进行训练，当达到第一图像处理模型的收敛条件时，确定第一图像处理模型的模型参数。因此，由于第一图像处理模型为重参数化结构，使得第一图像处理模型训练的时候结构是复杂的，这样第一图像处理模型的处理能力强，能够学习复杂的数据，而测试的时候结构是简单的，能够减低测试时的耗时，并且减少浮点运算量，方便移动端的部署。此外，利用第二图像处理模型进行训练指导，能够在不增加训练样本总量和无需重新训练的前提下，稳定提高规模较小的图像处理模型的准确率，且对于大部分神经网络模型和数据普遍适用，通过知识蒸馏的方式实现对规模较小的图像处理模型训练兼顾了训练精确性的同时，减轻神经网络模型的过拟合，增强神经网络模型的泛化能力，便于将图像处理模型部署于移动终端中，实现图像处理模型的大规模应用。

2)通过对第一训练样本集合除噪，可以实现针对影视人像制作、游戏人物设计、虚拟形象、隐私保护等不同的换脸场景进行设计，使得对不同换脸场景的处理更加灵活，使得用户在实现换脸功能时灵活地选择训练样本。

以上，仅为本发明的实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图像处理模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定与所述第一图像处理模型的使用环境相匹配的动态噪声阈值；

根据所述动态噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述动态噪声阈值相匹配的第二训练样本集合；或者，

确定与所述第二图像处理模型相对应的固定噪声阈值，并根据所述固定噪声阈值对所述第一训练样本集合进行去噪处理，以形成与所述固定噪声阈值相匹配的第二训练样本集合。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述第一图像处理模型的使用环境中的终端所采集的人脸图像；

对所述人脸图像进行图像增广处理；

基于图像增广的处理结果，通过人脸检测算法确定相应的人脸位置，并截取包括背景图像的人脸图像；

通过所述图像处理模型的深度处理网络对所述包括背景图像的人脸图像进行裁剪处理，得到所述源图像。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第二图像处理模型和所述第一换脸图像，计算所述第一图像处理模型的融合损失函数，包括：

获取所述第二图像处理模型输出的第二换脸图像，利用所述第一换脸图像和所述第二换脸图像计算所述第一图像处理模型的重构损失函数；

计算所述第一图像处理模型的特征损失函数；

计算所述第一图像处理模型的估计损失函数；

计算所述第一图像处理模型的对抗损失函数；

计算所述重构损失函数、所述特征损失函数、所述估计损失函数以及所述对抗损失函数的加和，得到所述第一图像处理模型的融合损失函数。

5.根据权利要求4所述的方法，其特征在于，所述利用所述第一换脸图像和所述第二换脸图像计算所述第一图像处理模型的重构损失函数，包括：

计算所述第一换脸图像和所述第二换脸图像的像素级差值；

根据所述像素级差值，确定所述第一图像处理模型的重构损失函数。

6.根据权利要求4所述的方法，其特征在于，所述计算所述第一图像处理模型的特征损失函数，包括：

通过预训练的特征提取网络，对所述第一换脸图像进行特征提取，得到所述第一换脸图像的不同层级特征；

通过预训练的特征提取网络，对所述第二换脸图像进行特征提取，得到所述第二换脸图像的不同层级特征；

计算所述第一换脸图像的不同层级特征和所述第二换脸图像的不同层级特征的差值，得到所述第一图像处理模型的特征损失函数。

7.根据权利要求4所述的方法，其特征在于，所述计算所述第一图像处理模型的估计损失函数，包括：

提取所述第一换脸图像的特征，得到第一换脸图像特征向量；

提取所述源图像的特征，得到源图像特征向量；

利用所述第一换脸图像特征向量和所述源图像特征向量的相似度，计算所述第一图像处理模型的估计损失函数。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述第一图像处理模型训练完成，并部署在移动终端中时，获取目标人脸图像和待替换人脸图像；

通过所述第一图像处理模型的编码器网络，对所述目标人脸图像和所述待替换人脸图像进行编码，得到人脸图像向量；

9.一种图像处理模型训练装置，其特征在于，所述训练装置包括：

10.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于运行所述存储器存储的可执行指令时，实现权利要求1至8任一项所述的图像处理模型训练方法。

11.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时，实现权利要求1至8任一项所述的图像处理模型训练方法。

12.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至8任一项所述的图像处理模型训练方法。