CN115708120A

CN115708120A - 脸部图像处理方法、装置、设备以及存储介质

Info

Publication number: CN115708120A
Application number: CN202110913421.3A
Authority: CN
Inventors: 朱飞达; 朱俊伟; 曹赟; 邰颖; 汪铖杰; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2023-02-21
Also published as: WO2023016137A1; US20230281833A1

Abstract

本申请公开了一种脸部图像处理方法、装置、设备以及存储介质，属于计算机技术领域。通过本申请实施例提供的技术方案，基于对第一脸部样本图像和第二脸部样本图像中关键点，来确定该能够表示脸部图像中像素点偏移的光流信息，从而基于该光流信息以及输入的样本图像等，来实现对抗训练，从而使得图像处理模型能够学习到基于视频中的脸部图像的表情，来驱动脸部图像进行表情变化的目的，所生成视频的真实性强，且该图像处理模型可以用于驱动任一脸部，达到了图像处理效果多样化的目的。

Description

脸部图像处理方法、装置、设备以及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种脸部图像处理方法、装置、设备以及存储介质。

背景技术

目前，出于娱乐的需要，互联网应用会提供例如换脸的玩法，为了实现换脸的目的，通常需要训练一个图像处理模型，该图像处理模型通常采用大量目标人脸和原人脸的脸部图像数据进行训练，而训练好的模型，可以用于将某一图像中的该原人脸替换为目标人脸。然而，由于图像处理模型只能针对特定的两个人脸进行替换，而无法提供其他的处理效果，处理效果单一，因此，亟需一种效果更加多样化的且效果真实的脸部图像处理方法。

发明内容

本申请实施例提供了一种脸部图像处理方法、装置、设备以及存储介质，通过本申请实施例提供的技术方案，所生成的视频真实性强且图像处理模型的图像处理效果多样化。所述技术方案如下：

一方面，提供了一种脸部图像处理方法，该方法包括：

获取同一目标对象的第一脸部样本图像和第二脸部样本图像，获取第一光流信息，该第一光流信息用于表示多个关键点在该第一脸部样本图像和该第二脸部样本图像中的偏移；

通过该图像处理模型的光流信息预测模型，基于该第一光流信息，获取第二光流信息，该第二光流信息用于表示该第一脸部样本图像中多个像素点和该第二脸部样本图像中多个像素点之间的偏移；

基于该第一脸部样本图像和该第二光流信息，通过该图像处理模型的生成器，生成该第一脸部样本图像的预测图像；

通过该图像处理模型的该判别器，对该预测图像和该第二脸部样本图像进行判别，得到第一判别结果以及第二判别结果，该第一判别结果用于指示该预测图像是否为真实图像；该第二判别结果用于指示该第二脸部样本图像是否为真实图像；

基于该第一判别结果、第二判别结果、该预测图像、该第二脸部样本图像、该第一光流信息和该第二光流信息，对该图像处理模型进行训练，该图像处理模型用于对输入图像进行处理。

一方面，提供了一种脸部图像处理方法，该方法包括：

获取脸部图像和第一视频，该脸部图像为第一对象的脸部图像，该第一视频包括第二对象的多个脸部图像，且该多个脸部图像之间具有表情变化；

通过图像处理模型对该脸部图像和该第一视频进行处理，得到第二视频，该第二视频包括该第一对象的多个脸部图像，且该第一对象的多个脸部图像的表情变化与该第一视频中多个脸部图像的表情变化相同；

其中，该图像处理模型通过同一目标对象的第一脸部样本图像、第二脸部样本图像以及第二光流信息进行对抗训练得到，其中该第二光流信息用于表示该第一脸部样本图像中多个像素点和该第二脸部样本图像中多个像素点之间的偏移，且该第二光流信息基于第一光流信息确定，该第一光流信息用于表示多个关键点在该第一脸部样本图像和该第二脸部样本图像中的偏移。

一方面，提供了一种脸部图像处理装置，该装置包括：

第一光流获取模块，用于获取同一目标对象的第一脸部样本图像和第二脸部样本图像，获取第一光流信息，该第一光流信息用于表示多个关键点在该第一脸部样本图像和该第二脸部样本图像中的偏移；

第二光流获取模块，用于通过该图像处理模型的光流信息预测模型，基于该第一光流信息，获取第二光流信息，该第二光流信息用于表示该第一脸部样本图像中多个像素点和该第二脸部样本图像中多个像素点之间的偏移；

生成模块，用于通过该图像处理模型的生成器，基于该第一脸部样本图像和该第二光流信息，生成该第一脸部样本图像的预测图像；

判别模块，用于通过该图像处理模型的该判别器，对该预测图像和该第二脸部样本图像进行判别，得到第一判别结果以及第二判别结果，该第一判别结果用于指示该预测图像是否为真实图像；该第二判别结果用于指示该第二脸部样本图像是否为真实图像；

模型训练模块，用于基于该第一判别结果、第二判别结果、该预测图像、该第二脸部样本图像、该第一光流信息和该第二光流信息，对该图像处理模型进行训练，该图像处理模型用于对输入图像进行处理。

在一种可能的实施方式中，该缩放单元，用于：

按照该第一中间特征图和该第一脸部样本图像之间的尺度差异，对该第二光流信息进行尺度缩小，得到该第三光流信息。

在一种可能实施方式中，该第二处理单元，用于：

按照该第一中间特征图和该第一脸部样本图像之间的尺度差异，对该第二光流信息进行尺度缩小，将尺度缩小后的第二光流信息中各个像素点的偏移量进行缩小。

一方面，提供了一种脸部图像处理装置，该装置包括：

获取模块，用于获取脸部图像和第一视频，该脸部图像为第一对象的脸部图像，该第一视频包括第二对象的多个脸部图像，且该多个脸部图像之间具有表情变化；

图像处理模块，用于通过图像处理模型对该脸部图像和该第一视频进行处理，得到第二视频，该第二视频包括该第一对象的多个脸部图像，且该第一对象的多个脸部图像的表情变化与该第一视频中多个脸部图像的表情变化相同；

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条计算机程序，该计算机程序由该一个或多个处理器加载并执行以实现该脸部图像处理方法。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条计算机程序，该计算机程序由处理器加载并执行以实现该脸部图像处理方法。

一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述脸部图像处理方法。

通过本申请实施例提供的技术方案，基于对第一脸部样本图像和第二脸部样本图像中关键点，来确定该能够表示脸部图像中像素点偏移的光流信息，从而基于该光流信息以及输入的样本图像等，来实现对抗训练，从而使得图像处理模型能够学习到基于视频中的脸部图像的表情，来驱动脸部图像进行表情变化的目的，所生成视频的真实性强，且该图像处理模型可以用于驱动任一脸部，达到了图像处理效果多样化的目的。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种脸部图像处理方法的实施环境示意图；

图2是本申请实施例提供的一种脸部图像处理模型的训练结构示意图；

图3是本申请实施例提供的一种脸部图像处理方法的流程图；

图4是本申请实施例提供的一种脸部图像处理方法的流程图；

图5是本申请实施例提供的一种脸部图像处理方法的流程图；

图6是本申请实施例提供的一种脸部图像处理方法的流程图；

图7是本申请实施例提供的一种获取第二光流信息过程的示意图；

图8是本申请实施例提供的一种第二中间特征图的生成过程示意图；

图9是本申请实施例提供的一种脸部图像的生成结果示意图；

图10是本申请实施例提供的一种脸部图像处理装置结构示意图；

图11是本申请实施例提供的一种脸部图像处理装置结构示意图；

图12是本申请实施例提供的一种终端的结构示意图；

图13是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

本申请中术语“至少一个”是指一个或多个，“多个”的含义是指两个或两个以上，例如，多个人脸图像是指两个或两个以上的人脸图像。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容、行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Block Chain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

人像驱动：给定一张待驱动脸部图像和一段驱动视频(Driving Video)，驱动视频包含一系列表情姿态，人像驱动的目的是生成一段视频，使待驱动脸部图像中的脸部做出驱动视频中的表情。

生成器(Generator)：通过生成对抗网络(Generative Adversarial Network，GAN)进行训练，生成对抗网络由一个生成器与一个判别器(Discriminator)组成。判别网络的输入则为真实样本或生成器的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终使得生成器能够生成以假乱真的图片。

图1是本申请实施例提供的一种脸部图像处理方法的实施环境示意图，参见图1，该实施环境中可以包括终端110和服务器120。

可选地，终端110为平板电脑、笔记本电脑、台式计算机等，但并不局限于此。该终端110上运行有支持图像处理的应用程序，用以对用户所输入的图像或者所拍摄的图像进行处理。

可选地，服务器120是独立的物理服务器，或者是多个物理服务器构成的服务器集群或者分布式系统，或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

该终端110能够与服务器120进行通信，从而使用服务器120所提供的图像处理功能，例如，终端110可以向服务器120上传图像，以通过服务器120对图像进行处理，并向终端110返回图像处理结果。需要说明的是，本申请实施例提供的脸部图像处理方法既能够由终端执行，也能够由服务器执行，本申请实施例对此不做限定。

可选地，上述终端110以及服务器120能够作为区块链系统上的节点，用以存储图像处理的相关数据。

在介绍完本申请实施例的实施环境之后，下面将结合上述实施环境，对本申请实施例的应用场景进行介绍。需要说明的是，在下述说明过程中，本申请实施例提供的脸部图像处理方法能够应用于人脸驱动的场景下，也即是通过本申请实施例提供的脸部图像处理方法，当终端110获取到一张待驱动的人脸图像和一段驱动视频时，经过上述脸部图像处理过程，能够生成一段新的视频，该新的视频中的人脸为原人脸图像中的人脸，而该人脸的表情随着驱动视频中的人脸表情的变化而发生变化。例如，某平台可以提供一些明星脸部图像，用户可以在平台上传自己拍摄的表情视频，该平台通过该明星脸部图像和表情视频，来生成该明星脸部的动态视频。

另外，本申请实施例提供的脸部图像处理方法也能够应用在其他脸部图像处理的场景下，比如应用在动画制作的场景下，本申请实施例对此不做限定。

在本申请实施例中，计算机设备可以通过图像处理模型来实现本申请提供的脸部图像处理方法，下面结合图2，对图像处理模型的训练结构进行简要说明。

参见图2，该图2示出了图像处理模型的一种训练结构，该图像处理模型包括：生成器201、关键点检测器202、光流信息预测模型203、判别器204以及损失计算单元205，关键点检测器202用于检测第一脸部样本图像F₁和第二脸部样本图像F₁的关键点，计算机设备基于所检测到关键点，获取第一脸部样本图像F₁和第二脸部样本图像F₂之间的第一光流信息，光流信息预测模型203用于根据第一光流信息进行预测，得到第二光流信息，生成器201用于根据第二光流信息对获取的第一脸部样本图像F₁进行处理，得到预测图像F₃，判别器204用于判别输入的图像是生成器生成的图像还是真实图像，损失计算单元205用于基于判别器204的判别结果、该预测图像F₃、该第二脸部样本图像F₂、该第一光流信息和该第二光流信息，计算损失函数的函数值，基于该损失函数的函数值，对该图像处理模型的网络参数进行更新，进行下一次训练。训练完成后，可以将包括有生成器201、关键点检测器202以及光流信息预测模型203的图像处理模型作为训练完成后的图像处理模型进行发布。

下面对总训练流程进行介绍，该训练流程包括下述至少两个部分：对判别器的训练和对生成器以及光流信息预测模型的训练。在对判别器进行训练时，保持生成器和光流信息预测模型的网络参数不变，基于样本图像以及模型处理结果，对判别器的网络参数进行调整，在调整至满足条件后，则保持判别器的网络参数不变，基于样本图像以及模型处理结果，对生成器和光流信息预测模型的网络参数进行调整，在调整至满足条件后，再训练判别器，如此交替训练，使得图像处理模型能够学习到基于输入视频对输入图像进行驱动的能力。图3是本申请实施例提供的一种脸部图像处理方法的流程图，以执行主体为计算机设备为例，参见图3，该方法包括：

301、计算机设备获取同一目标对象的第一脸部样本图像和第二脸部样本图像，获取第一光流信息，该第一光流信息用于表示多个关键点在该第一脸部样本图像和该第二脸部样本图像中的偏移。

其中，第一脸部样本图像和第二脸部样本图像为同一个视频中同一目标对象的两个脸部样本图像。该目标对象可以为某个人、某种动物或者某个虚拟形象等。

在任一次迭代过程中，计算机设备从样本图像集合中获取一对样本图像，也即是，获取第一脸部样本图像和第二脸部样本图像。在一些实施例中，该第一脸部样本图像在驱动视频中的出现顺序位于该第二脸部样本图像之前。

在一些实施例中，上述样本图像集合的获取过程包括：计算机设备获取驱动视频，该驱动视频为目标对象的动态视频，该驱动视频中的图像包含该目标对象的脸部，且，该驱动视频中多帧图像中的该目标对象的脸部表情不同，例如，该驱动视频中的目标对象的脸部表情随时间发生变化。在获取到驱动视频后，计算机设备从驱动视频中抽取多帧图像，将所抽取到的多帧图像添加至样本图像集合来进行模型训练。

302、计算机设备通过图像处理模型的光流信息预测模型，基于该第一光流信息，获取第二光流信息，该第二光流信息用于表示该第一脸部样本图像中多个像素点和该第二脸部样本图像中多个像素点之间的偏移。

其中，该第一光流信息为脸部样本图像的关键点的光流信息，该第二光流信息为经过预测所得到的脸部样本图像所有像素点的光流信息，该光流信息预测模型能够根据较少的像素点来预测脸部样本图像中多个像素点的光流信息，也即是，多个像素点的偏移。

303、计算机设备基于该第一脸部样本图像和该第二光流信息，通过该图像处理模型的生成器，生成该第一脸部样本图像的预测图像。

由于第二光流信息为第一脸部样本图像中所有像素点的偏移，因此，基于该第二光流信息，能够预测出第一脸部样本图像中的像素点在经过偏移后的图像，该生成器的训练目标是使得所生成的预测图像和第二脸部样本图像的表情相同。

304、计算机设备通过图像处理模型的判别器，对该预测图像和该第二脸部样本图像进行判别，得到第一判别结果以及第二判别结果，该第一判别结果用于指示该预测图像是否为真实图像，该第二判别结果用于指示该第二脸部样本图像是否为真实图像。

305、基于该第一判别结果、第二判别结果、该预测图像、该第二脸部样本图像、该第一光流信息和该第二光流信息，计算机设备对该图像处理模型进行训练，该图像处理模型用于对输入图像进行处理。

在本申请实施例中，通过损失计算单元进行总损失函数的函数值的计算，基于该总损失函数的函数值更新图像处理模型的网络参数，对更新后的图像处理模型进行下一次的迭代训练。

训练过程包括多次迭代过程，下面，仅以该训练过程中的一次迭代过程为例，对该脸部图像处理方法进行说明，图4是本申请实施例提供的一种脸部图像处理方法的流程图，以执行主体为计算机设备为例，参见图4，方法包括：

401、在第i次迭代过程中，计算机设备获取同一目标对象的第一脸部样本图像和第二脸部样本图像，执行步骤402和步骤403，该第一脸部样本图像和该第二脸部样本图像包括的脸部，i为正整数。

该步骤401与步骤301同理，在此不做赘述。

402、计算机设备将该第一脸部样本图像输入图像处理模型的生成器，该生成器对该第一脸部样本图像进行特征提取，得到第一中间特征图，执行步骤407。

在本申请实施例中，生成器包括至少一个卷积层，生成器通过该至少一个卷积层对该第一脸部样本图像进行卷积，若生成器包括一个卷积层，则通过该卷积层对该第一脸部样本图像进行卷积，得到第一中间特征图。若生成器包括两个以上的卷积层，对于任一个卷积层，该卷积层对输入的图像或特征图进行卷积，并将卷积结果输入到下一级卷积层中，以此类推，由最后一个卷积层输出第一中间特征图。在一些实施例中，该生成器还包括池化层，用以对卷积层所输出的特征图进行池化，以得到第一中间特征图。

403、计算机设备将该第一脸部样本图像和该第二脸部样本图像输入关键点检测器，通过该关键点检测器对输入的该第一脸部样本图像和该第二脸部样本图像进行检测，得到多个关键点在该第一脸部样本图像中的第一位置和第二脸部样本图像中的第二位置。

在一些实施例中，该关键点检测器对脸部样本图像中关键点的位置进行检测。关键点检测器预先存储有多个关键点的语义特征，基于该多个关键点的语义特征，在第一脸部样本图像和第二脸部样本图像中，分别确定该多个关键点的位置，也即是，第一位置和第二位置。其中，该语义特征用于表示该关键点的特性，例如，是哪个五官的关键点，大概的位置区域在哪里，与周围像素点之间的关系等等。

下面以一个关键点的检测过程为例进行说明。该关键点的语义特征是灰度值明显高于周围像素点，该周围像素点是指以该关键点为中心的3×3的矩阵区域内的像素点。该脸部样本图像的灰度值矩阵为

基于该关键点的语义特征，对该灰度值矩阵进行遍历，以找到该语义特征最匹配的像素点，在上述示例中，灰度值矩阵中第2行第2列对应的像素点，即为该关键点。该过程仅为检测关键点的一个示例，本申请实施例对此不作限定。

404、计算机设备根据该第一位置和该第二位置，生成第一光流信息，该第一光流信息用于表示多个关键点在该第一脸部样本图像和该第二脸部样本图像中的偏移。

对于上述第一脸部样本图像中的每个关键点，确定该关键点在第二脸部样本图像中的第二位置，将该关键点的第二位置与该关键点的第一位置相减，得到该关键点的偏移，该偏移用于指示偏移方向和偏移量。其中，第一位置和第二位置采用相同坐标系内的坐标表示，该偏移采用向量形式表示。

在一些实施例中，该第一光流信息采用矩阵表达，在偏移以向量形式表示的情况下，该矩阵包括多个向量(也可以看作是坐标)，每个向量对应于一个关键点，该向量用于表示该关键点的偏移方向和偏移量。

405、计算机设备将该第一光流信息输入光流信息预测模型，通过该光流信息预测模型，基于该第一光流信息，获取第二光流信息，该第二光流信息用于表示该第一脸部样本图像中多个像素点和该第二脸部样本图像中多个像素点之间的偏移。

在本申请实施例中，通过该光流信息预测模型，基于该第一光流信息，获取第二光流信息包括：通过该图像处理模型的该光流信息预测模型对该第一光流信息进行处理，得到第二光流信息，该第二光流信息的尺度与该第一脸部样本图像的尺度相同。

下面根据图7，对生成该第二光流信息的过程进行说明：图7中包括第一脸部样本图像F₁、第二脸部样本图像F₂、第一光流信息701、光流信息预测模型203以及第二光流信息702，该第一光流信息701中的各个箭头用于表示各个关键点的偏移，将该第一光流信息701输入光流信息预测模型203，该光流信息预测模型203基于该第一光流信息701，输出第二光流信息702，该第一光流信息701中的各个箭头用于表示各个像素点的偏移。通过观察可知，第二光流信息702中的像素点个数明显多于第一光流信息701中像素点个数，也即是，该过程可以理解为稠密运行场的估计过程。

406、计算机设备对该第二光流信息进行缩放，得到与该第一中间特征图尺度相同的第三光流信息。

其中，第二光流信息包括该第一脸部样本图像中所有像素点的光流信息，因此，该第二光流信息与该第一脸部样本图像的尺度相同，而该第一中间特征图是通过对第一脸部样本图像进行特征提取得到的，因此，该第一中间特征图的尺度与第一脸部样本图像的尺度是不同的，所以应先对该第二光流信息进行处理，得到与该第一中间特征图尺度相同的第三光流信息，再基于该第三光流信息对该第一中间特征图进行处理。

在一些实施例中，对该第二光流信息进行处理，得到该第三光流信息包括：按照该第一中间特征图和该第一脸部样本图像之间的尺度差异，对该第二光流信息进行尺度缩小，得到该第三光流信息。在一些实施例中，计算机设备确定该第一中间特征图和该第一脸部样本图像之间的尺度差异，例如确定尺度比例，基于该尺度差异，对该第二光流信息进行等比例缩小，该等比例缩小是指将第二光流信息中各个像素点的偏移量进行等比例缩小，得到该第三光流信息。在上述尺度缩小的过程中，像素点的偏移方向不变。

举例来说，若第二光流信息为6×6的矩阵，第一中间特征图为3×3的矩阵，则对于第二光流信息中一个偏移为(-6，10)的像素点，其尺度比例为2，则在进行等比例缩小后，该像素点的偏移为(-3，5)。

407、计算机设备将该第三光流信息输入该生成器，通过该生成器基于该第三光流信息对该第一中间特征图中的像素点进行偏移，得到第二中间特征图，对该第二中间特征图进行上采样，得到该第一脸部样本图像的预测图像。

在一些实施例中，以第一中间特征图中的一个像素点P_i为例，基于该第三光流信息，该第一中间特征图中的像素点进行偏移的过程包括：该像素点P_i在该第一中间特征图的位置坐标为(x_i，y_i)，该像素点的偏移为(m_i，n_i)，对像素点P_i进行偏移，偏移后的像素点的位置为(x_i+m_i，y_i+n_i)，将该第一中间特征图的所有像素点都进行上述偏移，得到该第二中间特征图。

图8为上述以第一中间特征图中的一个像素点P_i为例，基于该第三光流信息，该第一中间特征图中的像素点进行偏移的过程示意图。

在一些实施例中，生成器至少包含一个转置卷积层，相应地，对该第二中间特征图进行上采样，得到该第一脸部样本图像的预测图像包括：生成器通过该至少一个转置卷积层，对该第一脸部样本图像进行转置卷积，得到该第一脸部样本图像的预测图像。若生成器包括一个转置卷积层，则通过该转置卷积层对该第二中间特征图进行转置卷积，得到预测图像。若生成器包括两个以上的转置卷积层，对于任一个转置卷积层，该转置卷积层对输入的特征图进行转置卷积，并将转置卷积结果输入到下一级转置卷积层中，以此类推，由最后一个转置卷积层输出预测图像。在一些实施例中，该转置卷积层还可以是插值层，也即是，通过对第二中间特征图像进行双线性插值，以得到预测图像。在一些实施例中，该生成器还包括特征拼接层和卷积层，特征拼接层用以对转置卷积层输出的结果进行特征拼接，将特征拼接结果输入到卷积层，卷积层对输入的特征拼接结果进行卷积，得到预测图像。

在一些实施例中，该生成器采用U型网络架构(U-Net架构)，其中，该U型网络架构分为编码器(Encoder)和解码器(Decoder)两部分，其中，编码器部分用于获取第二中间特征图，解码器部分用于获取预测图像。

下面将以一个采用U型网络架构的生成器为例，对该生成器的图像处理流程进行说明：第一脸部样本图像输入到生成器，经过生成器的编码器对该第一脸部样本图像进行卷积，得到第一中间特征图，基于第三光流信息和该第一中间特征图，生成第二中间特征图，然后，基于解码器对该第二中间特征图进行转置卷积、裁剪、特征拼接等操作，输出预测图像。

408、计算机设备通过图像处理模型的判别器，对该预测图像和该第二脸部样本图像进行判别，得到第一判别结果和第二判别结果，该第一判别结果用于指示该预测图像是否为真实图像，该第二判别结果用于指示该第二脸部样本图像是否为真实图像。

在本申请实施例中，该判别器用于判别输入图像是生成器生成的图像还是真实图像。

在一些实施例中，该判别器所输出的判别结果采用分数表示，该分数的取值范围为(0，1)，且该分数越高，表示所输入的图像越真实，该分数越低，表示所输入的图像越不真实，也即是，越可能是由生成器生成的图像。其中，该真实图像是指计算机设备未经过生成器处理的图像。

409、计算机设备基于该第一判别结果和该第二判别结果，获取该总损失函数中第一分支函数的第一函数值，该第一分支函数用于表示判别器对于输入图像的判别准确性。

在对抗训练中，判别器用于检测生成器生成的图像真实程度，以使得生成器具备生成与真实图像相似的图像的能力。基于判别器对预测图像的判别准确性、对参考图像的判别准确性以及生成器的生成准确性，来构建该第一分支函数。

在本申请实施例中，第一分支函数采用下述公式(1)表达：

其中，L_GAN表示该第一分支函数的第一函数值，F_i表示该第一脸部样本图像，F_j表示该第二脸部样本图像，G(F_i)表示该预测图像，D(G(F_i))表示该第一判别结果，D(F_j)表示该第二判别结果，log表示计算判别结果的对数函数，E表示计算判别结果的期望，该期望能够反映判别结果的平均取值的大小，

表示生成对抗网络的训练过程中，先训练判别器，后训练生成器，且，训练该判别器的目标是使该第一函数值取最大值，该第一函数值越大，表示判别器对输入结果的判别准确性越高，即判别图像是真实图像还是生成器生成的图像的能力越强。训练生成器的目标是使该第一函数值取最小值，该第一函数值越小，表示生成器生成的图像与真实图像更接近。

410、计算机设备基于该预测图像和该第二脸部样本图像，获取该总损失函数中第二分支函数的第二函数值，该第二分支函数用于表示该预测图像和该第二脸部样本图像之间的差异。

为了获知生成器生成的预测图像的准确性，基于该预测图像与作为参考图像的第二脸部样本图像的差异，构建该第二分支函数。该第二分支函数的第二函数值越小，则该预测图像和该第二脸部样本图像的差异越小，即生成器生成与真实图像相似的图像的能力越强。

在本申请实施例中，第二分支函数采用下述公式(2)表达：

L_LPIPS＝[LPIPS(G(F_i))-LPIPS(F_j)]² (2)

其中，LPIPS(F_j)表示该第二脸部样本计算图像感知相似度的结果，LPIPS(G(F_i))表示该预测图像的计算图像感知相似度的结果。

411、计算机设备基于该第一光流信息和该第二光流信息，确定该总损失函数中第三分支函数的第三函数值，该第三分支函数用于表示该多个关键点的预测准确性。

光流信息预测模型基于该第一光流信息预测出第一脸部样本图像的多个像素点的光流信息，即第二光流信息，因为该第二光流信息中包含该多个关键点的光流信息，所以判断该多个关键点在第二光流信息中与第一光流信息中的差异大小，即可判断该光流信息预测模型的预测结果是否准确，因此，基于第一光流信息和该第二光流信息，构建该第三分支函数。该第三函数值越小，表示该预测结果与第一光流信息的差异越小，即该光流信息预测模型的预测能力越强。

在本申请实施例中，第三分支函数采用下述公式(3)表达：

其中，n表示该第一光流信息中的关键点的个数，n为正整数，P_i表示关键点的位置，i为小于n的正整数，M_pi表示该第一光流信息中第i个关键点的光流信息，M_pi表示该第二光流信息中第i个关键点的光流信息。

412、计算机设备对该第一函数值、该第二函数值和该第三函数值进行加权求和，得到该总损失函数的函数值。

该图像处理模型的训练过程包含对生成器、判别器以及光流信息预测模型的训练，总损失函数的三个分支函数可以反映出上述三个部分的训练情况，基于该总损失函数，对图像处理模型的网络参数进行更新。

在本申请实施例中，该总损失函数采用下述公式(4)表达：

L＝L_GAN+α*L_LPIPS+β*L_motion (4)

其中，α表示该第二分支函数的权重，β表示该第三分支函数的权重。在一些实施例中，二者的具体取值为α＝50，β＝100。

413、在该第i次迭代的总损失函数值或本次迭代满足训练停止条件的情况下，则停止训练，计算机设备将第i次迭代所采用的图像处理模型确定为训练完成的图像处理模型。

其中，该停止训练条件包括：该总损失函数值收敛或者迭代次数达到次数阈值，本申请实施例对此不作限定。

414、在该第i次迭代的总损失函数的函数值或本次迭代不满足停止训练条件的情况下，则更新该图像处理模型的网络参数，基于更新后的图像处理模型进行第i+1次迭代训练。

在上述训练过程，以当前第i+1次迭代是在训练判别器为例进行说明，在该第i次迭代的总损失函数的函数值或本次迭代不满足停止训练条件，且，该第一分支函数的第一函数值不满足第一条件的情况下，保持该生成器和该光流信息预测模型的网络参数不变，更新该图像处理模型中该判别器的网络参数。基于更新后的判别器的网络参数，进行第i+1次迭代训练，直到第j次迭代训练所得到的第一分支函数的第一函数值满足第一条件的情况下，则切换训练对象，从j+1次迭代训练开始，保持判别器的网络参数不变，更新该生成器和该光流信息预测模型的网络参数，若第j+1次迭代训练所得到的第一分支函数的第一函数值不满足第二条件，则继续对该生成器和该光流信息预测模型进行训练，在第k次迭代训练所得到的第一分支函数的第一函数值满足该第二条件的情况下，则再次切换训练对象，从第k+1次迭代训练开始，继续训练判别器，如此同理进行多次训练对象的切换，以达到对抗训练的目的，直到总损失函数的函数值或当前迭代满足训练停止条件，则停止训练。其中，i、j和k为正整数，且，i<j<k。

在一些实施例中，该图像处理模型还包括图像增强模型，计算机设备将该预测图像输入到图像增强模型，通过图像增强模型，对该预测图像进行处理，得到分辨率高于预测图像的增强图像，计算机设备可以基于该增强图像和预测图像，获取总损失函数的第二分支函数的第二函数值，基于该第二函数值、第一函数值和第三函数值，得到总损失函数值，基于该总损失函数值，对该图像处理模型进行训练。通过基于图像增强模型进行增强处理后的图像来进行训练，可以使得图像处理模型能够输出高质量的图像，例如高清晰度的图像等，提高了图像处理模型的处理能力。

图5是本申请实施例提供的一种脸部图像处理方法的流程图，以执行主体为计算机设备为例，参见图5，该方法包括：

501、计算机设备获取脸部图像和第一视频，该脸部图像为第一对象的脸部图像，该第一视频包括第二对象的多个脸部图像，且该多个脸部图像之间具有表情变化。

其中，该第一视频为驱动视频，该第一视频用于驱动该脸部图像。

502、计算机设备通过图像处理模型对该脸部图像和该第一视频进行处理，得到第二视频，该第二视频包括该第一对象的多个脸部图像，且该第一对象的多个脸部图像的表情变化与该第一视频中多个脸部图像的表情变化相同。

该图像处理模型对该脸部图像进行处理的过程包括：基于该脸部图像从第一视频中获取第一脸部图像，基于该第一脸部图像获取第二脸部图像，该图像处理模型的关键点检测器，获取该第一脸部图像和该第二脸部图像的多个关键点，基于该多个关键点获取第一光流信息，该图像处理模型的光流信息预测模型基于该第一光流信息获取第二光流信息，基于该第二光流信息和该脸部图像，该图像处理模型的生成器生成预测图像。

上述计算机设备基于该第一视频中的多个脸部图像分别对该待处理的脸部图像进行处理，以得到多个预测图像，基于该多个预测图像，生成第二视频。

在一些实施例中，将所得到的多个预测图像进行图像增强，基于图像增强后的预测图像来生成第二视频。

上述图像处理模型的处理过程与上述实施例中关键点检测器、光流信息预测模型以及生成器的处理过程同理，在此不做赘述。

在介绍完图像处理的简要过程之后，下面将以一次图像处理过程为例，对该脸部图像处理方法进行说明，图6是本申请实施例提供的一种脸部图像处理方法的流程图，以执行主体为计算机设备为例，参见图6，方法包括：

601、计算机设备获取脸部图像和第一视频，执行步骤602和步骤603。

602、计算机设备将该脸部图像输入图像处理模型的生成器，该生成器对该脸部图像进行特征提取，生成中间特征图，执行步骤609。

该步骤602与步骤402同理，在此不做赘述。

603、计算机设备基于该脸部图像，确定该第一视频中的第一脸部图像，该第一脸部图像中的脸部表情与该脸部图像中的脸部表情匹配。

在一些实施例中，通过关键点检测器对该脸部图像和第一视频中的多个图像进行关键点检测，得到脸部图像和第一视频中多个图像的关键点，基于该脸部图像的关键点，与第一视频中的多个图像的关键点进行逐一匹配，寻找到第一视频中与该脸部图像的关键点相似度最高的一帧图像，作为与脸部图像匹配的第一脸部图像。

604、计算机设备基于该第一视频中的第一脸部图像，从该第一视频中获取第二脸部图像，该第二脸部图像位于该第一脸部图像之后且对应于同一目标对象。

在本申请实施例中，以第一脸部图像的时间戳或图像编号为基准，在第一视频中获取时间戳或图像编号位于该第一脸部图像之后的第二脸部图像。

605、计算机设备将该第一脸部图像和该第二脸部图像输入关键点检测器，该关键点检测器对输入的该第一脸部图像和该第二脸部图像进行检测，得到该第一脸部图像多个关键点的第一位置和第二脸部样本图像多个关键点的第二位置。

该步骤605与步骤403同理，在此不做赘述。需要说明的是，在一些实施例中，已经获取了该第一脸部图像的关键点，因此关键点检测器可以仅对该第二脸部图像进行检测。

606、计算机设备根据该第一位置和该第二位置，生成第一光流信息，该第一光流信息用于表示多个关键点在该第一脸部图像和该第二脸部图像中的偏移。

该步骤606与步骤404同理，在此不做赘述。

607、计算机设备将该第一光流信息输入光流信息预测模型，通过该光流信息预测模型，基于该第一光流信息，获取第二光流信息，该第二光流信息用于表示该第一脸部图像中多个像素点和该第二脸部图像中多个像素点之间的偏移。

该步骤607与步骤405同理，在此不做赘述。

608、计算机设备对该第二光流信息进行缩放，得到与该第一中间特征图尺度相同的第三光流信息。

该步骤608与步骤406同理，在此不做赘述。

609、计算机设备将该第三光流信息输入该生成器，通过该生成器基于该第三光流信息，对该中间特征图中的像素点进行偏移，对偏移后的中间特征图进行上采样，得到该脸部图像的预测图像。

该步骤609与步骤407同理，在此不做赘述。

610、若该第二脸部图像为第一视频的最后一帧，则计算机设备基于已生成的预测图像，生成第二视频。

在一些实施例中，计算机设备在获取到任一个预测图像后，对该预测图像进行图像增强，在生成第二视频时，采用图像增强后的多个预测图像来进行生成，以提高视频质量。

通过上述基于图像处理模型来对脸部图像进行驱动，以使得脸部图像能够体现出与驱动图像一致的且动态的表情变化，从而达到了图像处理效果的多样化目的，且，脸部表情的效果更加真实。

参见图9，图9展示了该脸部图像的生成效果，假设该第一视频共包含4帧图像，以图901作为该第一脸部图像，以图902、903和904依次作为第二脸部图像，对图905进行驱动，对应得到图906、907和908，其中，图906、907和908的表情分别与图902、903和904一致，基于图906、907和908所生成的第二视频中所体现的表情变化，也与图902、903和904中的表情变化一致。

611、若该第二脸部图像不是该第一视频的最后一帧，则计算机设备更新该第二脸部图像，重复进行上述步骤603至609。

图10是本申请实施例提供的一种脸部图像处理装置结构示意图，参见图10，装置包括：第一光流获取模块1001、第二光流获取模块1002、生成模块1003、判别模块1004以及模型训练模块1005。

第一光流获取模块1001，用于获取同一目标对象的第一脸部样本图像和第二脸部样本图像，获取第一光流信息，该第一光流信息用于表示多个关键点在该第一脸部样本图像和该第二脸部样本图像中的偏移；

第二光流获取模块1002，用于通过该图像处理模型的光流信息预测模型，基于该第一光流信息，获取第二光流信息，该第二光流信息用于表示该第一脸部样本图像中多个像素点和该第二脸部样本图像中多个像素点之间的偏移；

生成模块1003，用于通过该图像处理模型的生成器，基于该第一脸部样本图像和该第二光流信息，生成该第一脸部样本图像的预测图像；

判别模块1004，用于通过该图像处理模型的该判别器，对该预测图像和该第二脸部样本图像进行判别，得到第一判别结果以及第二判别结果，该第一判别结果用于指示该预测图像是否为真实图像；该第二判别结果用于指示该第二脸部样本图像是否为真实图像；

模型训练模块1005，用于基于该第一判别结果、第二判别结果、该预测图像、该第二脸部样本图像、该第一光流信息和该第二光流信息，对该图像处理模型进行训练，该图像处理模型用于对输入图像进行处理。

在一种可能的实施方式中，该生成模块1003，包括：

缩放单元，用于对该第二光流信息进行缩放，得到与该第一中间特征图尺度相同的第三光流信息；

预测图像生成单元，用于通过该生成器对该第一脸部样本图像进行特征提取，得到第一中间特征图，基于该第三光流信息，对该第一中间特征图中的像素点进行偏移，得到第二中间特征图，对该第二中间特征图进行上采样，得到该第一脸部样本图像的预测图像。

在一种可能的实施方式中，该缩放单元，用于：

在一种可能的实施方式中，该模型训练模块1005，包括：

第一确定单元，用于基于该第一判别结果、第二判别结果、该预测图像、该第二脸部样本图像、该第一光流信息和该第二光流信息，确定总损失函数的函数值；

更新单元，用于在该函数值或本次迭代不满足训练停止条件的情况下，更新该图像处理模型的网络参数，基于更新后的图像处理模型进行下一次迭代训练；

第二确定单元，用于在该函数值或本次迭代满足该训练停止条件的情况下，将本次迭代过程对应的图像处理模型确定为训练完成的图像处理模型。

在一种可能实施方式中，该第二处理单元，用于：

在一种可能的实施方式中，该第一确定单元，用于：

基于该第一判别结果和该第二判别结果，获取该总损失函数中第一分支函数的第一函数值，该第一分支函数用于表示判别器对于输入图像的判别准确性；

基于该预测图像和该第二脸部样本图像，获取该总损失函数中第二分支函数的第二函数值，该第二分支函数用于表示该预测图像和该第二脸部样本图像之间的差异；

基于该第一光流信息和该第二光流信息，确定该总损失函数中第三分支函数的第三函数值，该第三分支函数用于表示该多个关键点的预测准确性；

对该第一函数值、该第二函数值和该第三函数值进行加权求和，得到该总损失函数的函数值。

在一种可能的实施方式中，该更新单元，用于：

在该第一分支函数的第一函数值不满足第一条件的情况下，保持该生成器和该光流信息预测模型的网络参数不变，更新该图像处理模型中该判别器的网络参数，基于更新后的判别器进行下一次迭代训练；

在该第一分支函数的第一函数值满足该第一条件的情况下，保持该判别器的网络参数不变，更新该图像处理模型中该生成器和该光流信息预测模型的网络参数，基于更新后的该生成器和该光流信息预测模型进行下一次迭代训练。

需要说明的是：上述实施例提供的脸部图像处理装置在对脸部图像处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的脸部图像处理装置与脸部图像处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图11是本申请实施例提供的一种脸部图像处理装置结构示意图，参见图11，装置包括：获取模块1101和图像处理模块1102。

获取模块1101，用于获取脸部图像和第一视频，该脸部图像为第一对象的脸部图像，该第一视频包括第二对象的多个脸部图像，且该多个脸部图像之间具有表情变化；

图像处理模块1102，用于通过图像处理模型对该脸部图像和该第一视频进行处理，得到第二视频，该第二视频包括该第一对象的多个脸部图像，且该第一对象的多个脸部图像的表情变化与该第一视频中多个脸部图像的表情变化相同。

其中，该图像处理模型通过同一目标对象的第一脸部样本图像、第二脸部样本图像和脸部样本图像之间的第二光流信息进行对抗训练得到，其中该第二光流信息用于表示该第一脸部样本图像中多个像素点和该第二脸部样本图像中多个像素点之间的偏移，且该第二光流信息基于第一光流信息确定，该第一光流信息用于表示多个关键点在该第一脸部样本图像和该第二脸部样本图像中的偏移。

本申请实施例提供了一种计算机设备，用于执行上述方法，该计算机设备可以实现为终端或者服务器，下面先对终端的结构进行介绍：

图12是本申请实施例提供的一种终端的结构示意图。该终端1200可以是：平板电脑、笔记本电脑或台式电脑。终端1200还可能被称为终端、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1200包括有：一个或多个处理器1201和一个或多个存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(CentralProcessing Unit，CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以在集成有图像处理器(Graphics Processing Unit，GPU)GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器1201所执行以实现本申请中方法实施例提供的脸部图像处理方法。

在一些实施例中，终端1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

外围设备接口1203可被用于将输入/输出(Input/Output，I/O)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射射频(Radio Frequency，RF)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。

显示屏1205用于显示用户界面(User Interface，UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。

摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。

定位组件1208用于定位终端1200的当前地理位置，以实现导航或基于位置的服务(Location Based Service，LBS)。

电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。

在一些实施例中，终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。

陀螺仪传感器1212可以终端1200的机体方向及转动角度，陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端1200的3D动作。

压力传感器1213可以设置在终端1200的侧边框和/或显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时，可以检测用户对终端1200的握持信号，由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在显示屏1205的下层时，由处理器1201根据用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。

指纹传感器1214用于采集用户的指纹，由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份，或者，由指纹传感器1214根据采集到的指纹识别用户的身份。

光学传感器1215用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1215采集的环境光强度，控制显示屏1205的显示亮度。

接近传感器1216用于采集用户与终端1200的正面之间的距离。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述计算机设备还可以实现为服务器，下面对服务器的结构进行介绍：

图13是本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器1301和一个或多个的存储器1302，其中，该一个或多个存储器1302中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器1301加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1300还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1300还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，上述计算机程序可由处理器执行以完成上述实施例中的脸部图像处理方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序代码，该程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该计算机设备执行上述脸部图像处理方法。

在一些实施例中，本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种脸部图像处理方法，其特征在于，所述方法包括：

获取同一目标对象的第一脸部样本图像和第二脸部样本图像，获取第一光流信息，所述第一光流信息用于表示多个关键点在所述第一脸部样本图像和所述第二脸部样本图像中的偏移；

通过图像处理模型的光流信息预测模型，基于所述第一光流信息，获取第二光流信息，所述第二光流信息用于表示所述第一脸部样本图像中多个像素点和所述第二脸部样本图像中多个像素点之间的偏移；

基于所述第一脸部样本图像和所述第二光流信息，通过所述图像处理模型的生成器，生成所述第一脸部样本图像的预测图像；

通过所述图像处理模型的所述判别器，对所述预测图像和所述第二脸部样本图像进行判别，得到第一判别结果以及第二判别结果，所述第一判别结果用于指示所述预测图像是否为真实图像，所述第二判别结果用于指示所述第二脸部样本图像是否为真实图像；

基于所述第一判别结果、第二判别结果、所述预测图像、所述第二脸部样本图像、所述第一光流信息和所述第二光流信息，对所述图像处理模型进行训练，所述图像处理模型用于对输入图像进行处理。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一脸部样本图像和所述第二光流信息，通过所述图像处理模型的生成器，生成所述第一脸部样本图像的预测图像包括：

对所述第二光流信息进行缩放，得到与所述第一中间特征图尺度相同的第三光流信息；

通过所述生成器对所述第一脸部样本图像进行特征提取，得到第一中间特征图，基于所述第三光流信息，对所述第一中间特征图中的像素点进行偏移，得到第二中间特征图，对所述第二中间特征图进行上采样，得到所述第一脸部样本图像的预测图像。

3.根据权利要求2所述的方法，其特征在于，所述对所述第二光流信息进行缩放，得到与所述第一中间特征图尺度相同的第三光流信息包括：

按照所述第一中间特征图和所述第一脸部样本图像之间的尺度差异，对所述第二光流信息进行尺度缩小，得到所述第三光流信息。

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一判别结果、第二判别结果、所述预测图像、所述第二脸部样本图像、所述第一光流信息和所述第二光流信息，对所述图像处理模型进行训练，所述图像处理模型用于对输入图像进行处理包括：

基于所述第一判别结果、第二判别结果、所述预测图像、所述第二脸部样本图像、所述第一光流信息和所述第二光流信息，确定总损失函数的函数值；

在所述函数值或本次迭代不满足训练停止条件的情况下，更新所述图像处理模型的网络参数，基于更新后的图像处理模型进行下一次迭代训练；

在所述函数值或本次迭代满足所述训练停止条件的情况下，将本次迭代过程对应的图像处理模型确定为训练完成的图像处理模型。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一判别结果、第二判别结果、所述预测图像、所述第二脸部样本图像、所述第一光流信息和所述第二光流信息，确定总损失函数的函数值包括：

基于所述第一判别结果和所述第二判别结果，获取所述总损失函数中第一分支函数的第一函数值，所述第一分支函数用于表示判别器对于输入图像的判别准确性；

基于所述预测图像和所述第二脸部样本图像，获取所述总损失函数中第二分支函数的第二函数值，所述第二分支函数用于表示所述预测图像和所述第二脸部样本图像之间的差异；

基于所述第一光流信息和所述第二光流信息，确定所述总损失函数中第三分支函数的第三函数值，所述第三分支函数用于表示所述多个关键点的预测准确性；

对所述第一函数值、所述第二函数值和所述第三函数值进行加权求和，得到所述总损失函数的函数值。

6.根据权利要求5所述的方法，其特征在于，所述在所述函数值或本次迭代不满足训练停止条件的情况下，更新所述图像处理模型的网络参数，基于更新后的图像处理模型进行下一次迭代训练包括：

在所述第一分支函数的第一函数值不满足第一条件的情况下，保持所述生成器和所述光流信息预测模型的网络参数不变，更新所述图像处理模型中所述判别器的网络参数，基于更新后的判别器进行下一次迭代训练；

在所述第一分支函数的第一函数值满足所述第一条件的情况下，保持所述判别器的网络参数不变，更新所述图像处理模型中所述生成器和所述光流信息预测模型的网络参数，基于更新后的所述生成器和所述光流信息预测模型进行下一次迭代训练。

7.一种脸部图像处理方法，其特征在于，所述方法包括：

获取脸部图像和第一视频，所述脸部图像为第一对象的脸部图像，所述第一视频包括第二对象的多个脸部图像，且所述多个脸部图像之间具有表情变化；

通过图像处理模型对所述脸部图像和所述第一视频进行处理，得到第二视频，所述第二视频包括所述第一对象的多个脸部图像，且所述第一对象的多个脸部图像的表情变化与所述第一视频中多个脸部图像的表情变化相同；

其中，所述图像处理模型通过同一目标对象的第一脸部样本图像、第二脸部样本图像以及第二光流信息进行对抗训练得到，其中所述第二光流信息用于表示所述第一脸部样本图像中多个像素点和所述第二脸部样本图像中多个像素点之间的偏移，且所述第二光流信息基于第一光流信息确定，所述第一光流信息用于表示多个关键点在所述第一脸部样本图像和所述第二脸部样本图像中的偏移。

8.一种脸部图像处理装置，其特征在于，所述装置包括：

第一光流获取模块，用于获取同一目标对象的第一脸部样本图像和第二脸部样本图像，获取第一光流信息，所述第一光流信息用于表示多个关键点在所述第一脸部样本图像和所述第二脸部样本图像中的偏移；

第二光流获取模块，用于通过所述图像处理模型的光流信息预测模型，基于所述第一光流信息，获取第二光流信息，所述第二光流信息用于表示所述第一脸部样本图像中多个像素点和所述第二脸部样本图像中多个像素点之间的偏移；

生成模块，用于基于所述第一脸部样本图像和所述第二光流信息，通过所述图像处理模型的生成器，生成所述第一脸部样本图像的预测图像；

判别模块，用于通过所述图像处理模型的所述判别器，对所述预测图像和所述第二脸部样本图像进行判别，得到第一判别结果以及第二判别结果，所述第一判别结果用于指示所述预测图像是否为真实图像；所述第二判别结果用于指示所述第二脸部样本图像是否为真实图像；

模型训练模块，用于基于所述第一判别结果、第二判别结果、所述预测图像、所述第二脸部样本图像、所述第一光流信息和所述第二光流信息，对所述图像处理模型进行训练，所述图像处理模型用于对输入图像进行处理。

9.根据权利要求8所述的装置，其特征在于，所述生成模块，包括：

缩放单元，用于对所述第二光流信息进行缩放，得到与所述第一中间特征图尺度相同的第三光流信息；

预测图像生成单元，用于通过所述生成器对所述第一脸部样本图像进行特征提取，得到第一中间特征图，基于所述第三光流信息，对所述第一中间特征图中的像素点进行偏移，得到第二中间特征图，对所述第二中间特征图进行上采样，得到所述第一脸部样本图像的预测图像。

10.根据权利要求9所述的装置，其特征在于，所述模型训练模块包括：

第一确定单元，用于基于所述第一判别结果、第二判别结果、所述预测图像、所述第二脸部样本图像、所述第一光流信息和所述第二光流信息，确定总损失函数的函数值；

更新单元，用于在所述函数值或本次迭代不满足训练停止条件的情况下，更新所述图像处理模型的网络参数，基于更新后的图像处理模型进行下一次迭代训练；

第二确定单元，用于在所述函数值或本次迭代满足所述训练停止条件的情况下，将本次迭代过程对应的图像处理模型确定为训练完成的图像处理模型。

11.根据权利要求10所述的装置，其特征在于，所述第一确定单元，用于：

12.根据权利要求11所述的装置，其特征在于，所述更新单元，用于：

13.一种脸部图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取脸部图像和第一视频，所述脸部图像为第一对象的脸部图像，所述第一视频包括第二对象的多个脸部图像，且所述多个脸部图像之间具有表情变化；

图像处理模块，用于通过图像处理模型对所述脸部图像和所述第一视频进行处理，得到第二视频，所述第二视频包括所述第一对象的多个脸部图像，且所述第一对象的多个脸部图像的表情变化与所述第一视频中多个脸部图像的表情变化相同；

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条计算机程序，所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的脸部图像处理方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的脸部图像处理方法。