CN115526772A

CN115526772A - 视频处理方法、装置、设备和存储介质

Info

Publication number: CN115526772A
Application number: CN202210741166.3A
Authority: CN
Inventors: 不公告发明人
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Shengshu Technology Co ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-12-27
Anticipated expiration: 2042-06-28
Also published as: CN115526772B

Abstract

本申请涉及视频处理方法、装置、设备和存储介质。该视频处理方法包括：获取待处理视频，其中，待处理视频包括至少一个目标对象的多张第一人脸图像，待处理视频为利用预设音频驱动初始视频得到；对所述待处理视频中的至少一张所述第一人脸图像中的目标人脸依次进行特征提取及解码处理，生成目标视频，其中，目标视频包括目标对象的多张第二人脸图像，第二人脸图像的质量优于第一人脸图像。本申请的技术方案可以获取包含虚拟对象的高质量图像。

Description

视频处理方法、装置、设备和存储介质

技术领域

本申请涉及人工智能领域，尤其涉及视频处理方法、装置、设备和存储介质。

背景技术

作为人工智能（Artificial Intelligence，AI）技术的分支，一种称为数字人的技术开始应用于短视频平台、直播带货、网上教育等场景。所谓数字人，是指一种利用AI技术对人体在不同水平的形态和功能进行虚拟仿真得到的虚拟人物。随着AI和图像处理技术的快速发展，数字人的生成技术越来越成熟。以数字人应用于视频技术为例，其可以通过诸如深度学习构建一个虚假的对象影像，同时使用语音驱动这个虚拟对象的脸部表情，以模拟真人说话。尽管这种方式可以做到唇形和语音的高度同步，然而，无论是通过换脸方式还是其他方式得到的虚拟对象，其嘴部及其周围区域的细节部分（例如，牙齿、嘴角皱纹等）不够清晰，尤其是在对整个虚拟对象放大后，上述缺陷更加无法容忍。

发明内容

为解决或部分解决相关技术中存在的问题，本申请提供一种视频处理方法、装置、设备和存储介质，可以获取包含虚拟对象的高质量图像。

本申请第一方面提供一种视频处理方法，包括：

获取待处理视频，所述待处理视频包括至少一个目标对象的多张第一人脸图像，所述待处理视频为利用预设音频驱动初始视频得到；

对所述待处理视频中的至少一张所述第一人脸图像中的目标人脸依次进行特征提取及解码处理，生成目标视频，所述目标视频包括所述目标对象的多张第二人脸图像，所述第二人脸图像的质量优于所述第一人脸图像。

本申请第二方面提供一种视频处理装置，包括：

获取模块，用于获取待处理视频，所述待处理视频包括至少一个目标对象的多张第一人脸图像，所述待处理视频为利用预设音频驱动初始视频得到；

处理模块，用于对所述待处理视频中的至少一张所述第一人脸图像中的目标人脸依次进行特征提取及解码处理，生成目标视频，所述目标视频包括所述目标对象的多张第二人脸图像，所述第二人脸图像的质量优于所述第一人脸图像。

可选地，所述装置基于图像处理模型实现，所述图像处理模型包括编码器和第一解码器；

所述编码器，用于对所述第一人脸图像进行特征提取，得到所述目标对象的初始面部特征，将所述初始面部特征输入所述第一解码器；

所述第一解码器，用于对所述初始面部特征进行解码，得到所述第二人脸图像，所述第二人脸图像的清晰度高于所述第一人脸图像的清晰度。

可选地，若待处理视频为包含至少两个不同目标对象的视频帧，则分别调用对应的图像处理模型去得到对应第二人脸图像。

可选地，所述图像处理模型还包括第二解码器、第一鉴别器和第二鉴别器，所述装置还包括：

训练模块，用于使用第一训练图像集训练所述编码器、第一解码器和第一鉴别器以及使用第二训练图像集训练所述编码器、第二解码器和第二鉴别器，直至第一损失函数值为第一预设损失阈值以及第二损失函数值为第二预设损失阈值，所述第一损失函数值为第一网络的损失函数的值，所述第二损失函数值为第二网络的损失函数的值；

调整模块，用于根据所述第一损失函数值和所述第二损失函数值，调整所述第一网络和第二网络的参数，直至所述第一网络输出的训练结果与所述第一训练图像集的质量之差不超过第一预设质量阈值以及所述第二网络输出的训练结果与所述第二训练图像集的质量之差不超过第二预设质量阈值。

可选地，所述训练模块包括：

编码器，用于对输入的第一训练图像集进行特征提取，得到目标对象的第一面部特征，所述第一面部特征是所述第一训练图像集中图像包含的目标对象的面部特征；

第一解码器，用于对所述第一面部特征进行解码，得到第一目标图像；

第一鉴别器，用于根据所述第一目标图像和所述第一训练图像集，判断所述第一目标图像的置信度；

第一计算单元，用于根据所述第一目标图像的置信度对所述第一网络的损失函数进行计算，得到所述第一损失函数值；

第一参数调整单元，用于将所述第一损失函数值作为反向传播量，调整所述第一网络的模型参数以训练所述第一网络，直至所述第一损失函数值为第一预设损失阈值。

可选地，所述训练模块包括：

编码器，用于对输入的第二训练图像集进行特征提取，得到目标对象的第二面部特征，所述第二面部特征是所述第二训练图像集中包含的目标对象的面部特征；

第二解码器，用于对第二面部特征进行解码，得到第二目标图像；

第二鉴别器，用于根据所述第二目标图像和所述第二训练图像集，判断所述第二目标图像的置信度；

第二计算单元，用于根据所述第二目标图像的置信度对所述第二网络的损失函数进行计算，得到所述第二损失函数值；

第二参数调整单元，用于将所述第二损失函数值作为反向传播量，调整所述第二网络的模型参数以训练所述第二网络，直至所述第二损失函数值为第一预设损失阈值。

可选地，所述第二训练图像集来源于利用语音驱动模型生成的视频，且所述第二训练图像集中图像的质量劣于所述第一训练图像集中图像的质量，训练图像中的人脸图像与当前的目标用户是同一个人。

本申请第三方面提供一种电子设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请第四方面提供一种存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

本申请提供的技术方案可以包括以下有益效果：对待处理视频中的至少一张第一人脸图像中的目标人脸依次进行特征提取及解码处理，生成目标视频时，可以生成质量优于第一人脸图像的第二人脸图像。一方面，即便当前待处理视频中第一人脸图像的图像质量较低（例如清晰度较低），由于先对该第一人脸图像中的面部特征进行提取，通过提取能够将该第一人脸图像中影响待处理视频的播放效果的较低清晰度的面部特征进行有针对性的重点处理，并且通过对该提取的面部特征进行解码处理能够实现对该第一人脸图像中较低清晰度的面部特征的替换，即能够通过重构该第一人脸图像中的面部特征来得到高清晰度面部特征的第二人脸图像，从而消除短视频平台、直播、网上教育等应用场景下虚拟对象面部特定位置的细节不清晰等缺陷所导致的用户观看体验较差的问题；另一方面，通过对第一人脸图像中的目标人脸依次进行特征提取及解码处理即可快速得到质量较高的第二人脸图像，可见本申请实施例能够有效提高获取高质量目标视频的效率，进一步提高展示虚拟形象的目标视频的上线速度以及用户观看效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细地描述，本申请的上述以及其它目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请实施例提供的视频处理方法的应用场景示意图；

图2a是本申请实施例提供的图像处理模型的结构示意图；

图2b是本申请另一实施例提供的图像处理模型的结构示意图；

图3是本申请实施例提供的图像处理模型的训练流程示意图；

图4a是本申请实施例提供的训练阶段的图像处理模型的结构示意图；

图4b是本申请实施例示出的应用已训练图像处理模型对第一人脸图像处理的示意图；

图5是本申请实施例示出的视频处理方法的流程示意图；

图6是本申请实施例示出的将第一人脸图像输入图像处理模型生成第二人脸图像的效果对比示意图；

图7是本申请实施例示出的待处理视频为包含至少两个不同目标对象的视频帧时分别调用对应的图像处理模型去得到对应第二人脸图像的示意图；

图8是本申请实施例示出的视频处理装置的结构示意图；

图9是本申请实施例示出的电子设备的结构示意图；

图10是本申请另一实施例示出的视频处理装置的结构示意图；

图11是本申请实施例示出的服务器结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本申请实施例提供一种视频处理方法、装置、设备和存储介质，可以获取包含虚拟对象的高质量图像，可用于服务器或者终端设备，具体来说，可用于对包括至少一个目标对象的多张第一人脸图像进行特征提取及解码处理，从而生成质量优于第一人脸图像的第二人脸图像。

一些实施方式中，本方案应用于如图1所示的一种应用环境时，该应用环境可包括服务器、数据库和终端，其中，数据库既可以是独立于服务器的数据库，又可以是集成于服务器的数据库，终端可以是个人电脑等，通过其中的神经网络，利用预设音频驱动初始视频得到待处理视频，或者，该终端可以是带有拍摄功能的智能终端（例如，智能手机）或诸如相机之类的图像采集设备，对着真实人类拍摄一段待处理视频。当基于如图1所示的应用环境实施上述视频处理方法时，终端获取到待处理视频后上传至数据库，服务器从数据库获取待处理视频后，运行其中已训练图像处理模型，对该待处理视频中的至少一张第一人脸图像中的目标人脸依次进行特征提取及解码处理，生成目标视频。

本申请实施例的方案可基于人工智能(Artificial Intelligence，AI)、自然语言处理（Nature Language Processing， NLP ）、机器学习（Machine Learning， ML ）等技术实现，具体通过如下实施例进行说明:

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

针对人工智能领域的音视频处理，本申请实施例可以采用人工智能技术来弥补语音驱动视频中人物细节的缺陷。

其中，需要特别说明的是，本申请实施例涉及的服务器（例如上述图像处理装置）可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例涉及的图像处理装置可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、个人数字助理等，但并不局限于此。图像处理装置以及服务端可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

作为AI技术的重要分支，一种称为数字人的技术开始应用于短视频平台、直播带货、网上教育等场景。所谓数字人，是指一种利用AI技术对人体在不同水平的形态和功能进行虚拟仿真得到的虚拟人物。随着AI和图像处理技术的快速发展，数字人的生成技术越来越成熟。以数字人应用于视频技术为例，其可以通过诸如深度学习构建一个虚假的对象影像，同时使用语音驱动这个虚拟对象的脸部表情，以模拟真人说话。尽管这种方式可以做到唇形和语音的高度同步，然而，无论是通过换脸方式还是其他方式得到的虚拟对象，其嘴部及其周围区域的细节部分（例如，牙齿、嘴角皱纹等）不够清晰，尤其是在对整个虚拟对象放大后，上述缺陷更加无法容忍。

针对上述问题，对此本申请实施例主要采用下述技术方案：获取待处理视频；对该待处理视频中的至少一张第一人脸图像中的目标人脸依次进行特征提取及解码处理，生成目标视频，其中，待处理视频包括至少一个目标对象的多张第一人脸图像，待处理视频为利用预设音频驱动初始视频得到，而目标视频包括目标对象的多张第二人脸图像，第二人脸图像的质量优于第一人脸图像。

以下结合附图2a至图9详细描述本申请实施例的技术方案。

由于本申请实施例的人脸图像处理方法可以基于预先训练好的图像处理模型对人脸图像进行处理，所以在介绍人脸图像处理方法之前，先介绍该图像处理模型的训练过程。为实现对待处理视频中的第一人脸图像的替换，以提高待处理视频中目标对象的清晰度，本申请实施例中的图像处理模型采用两种图像质量的训练图像集对初始模型分两路进行训练，使得该图像处理模型能够对两种不同质量的图像分别进行训练。

一些实施方式中，如图2a所示的一种图像处理模型的结构示意图，该图像处理模型包括编码器、第一解码器、第一鉴别器、第二解码器和第二鉴别器，本申请实施例不对实施人脸图像处理方法的图像处理模型的结构作限定。上述图像处理模型中，第一训练图像集和第二训练图像集共用一个编码器，但不同的训练图像集使用不同的解码器和鉴别器，其中，第一训练图像集输入图像处理模型后，处理路径是编码器

第一解码器

第一鉴别器，如图2a的粗实线所示，第二训练图像集输入图像处理模型后，处理路径是编码器

第二解码器

第二鉴别器，如图2a的粗虚线所示。对于存在至少两个虚拟形象的待处理视频的情形，上述图像处理模型可以单独为各虚拟形象设置一个分两路进行训练的图像处理子模型（实质上等同于图2a所示的图像处理模型结构），例如图2b所示的一种模型结构示意图。本申请实施例中，可以将针对单个虚拟形象所属的图像处理模型单独部署，也可以将至少两个虚拟形象各自所属的图像处理子模型进行集成部署，本申请实施例不对此作限定。

本申请实施例的编码器本质上是通过将信号（如比特流）或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备，作用在于提取待处理视频中第一人脸图像的面部特征。解码器是一种能将数字视音频数据流解码还原成模拟视音频信号的硬件/软件设备，作用在于对从第二人脸图像提取的面部特征进行解码生成第二人脸图像。

图3为对图2a所示的图像处理模型的一种训练流程示意图，以针对一个虚拟形象的图像处理场景进行训练为例，该训练流程包括步骤S301至步骤S302：

S301：使用第一训练图像集训练编码器、第一解码器和第一鉴别器以及使用第二训练图像集训练编码器、第二解码器和第二鉴别器，直至第一损失函数值为第一预设损失阈值以及第二损失函数值为第二预设损失阈值。

上述第一损失函数值为编码器、第一解码器和第一鉴别器组成的第一网络的损失函数的值，第二损失函数值为编码器、第二解码器和第二鉴别器组成的第二网络的损失函数的值，第一训练图像集中图像的质量优于第二训练图像集中图像的质量。此处需要说明的是，在本申请实施例中，第一训练图像集和第二训练图像集包含同一个标识所表示或指代的目标对象，或者，第一训练图像集和第二训练图像集包含的内容即目标对象相同，不同之处在于这些图像的风格或质量。从模型的训练成本或效率上考虑，理想情况下是向图像处理模型输入两种在内容、风格等方面高度相似并且质量较高的样本。然而，在工程实践中，要么获取两种内容相同但风格相似的样本的可能性较低，要么获取质量较高的样本的成本偏高，尤其是在样本为图像类数据时，这种可能性偏低或成本偏高更为明显。例如，拍摄内容相同的图像作为训练用图像容易，对相同目标对象拍摄出两种不同风格的图像作为训练用图像却并不容易，对某个目标对象拍摄出一般或低质量的图像容易实现，但对该某个目标对象拍摄出高质量的图像却并不容易。

为了通过降低图像的获取成本来降低图像转换模型的整体训练成本，在本申请实施例中，除了第一训练图像集和第二训练图像集应当包含具有相同标识的目标对象之外，并不要求第一训练图像集和第二训练图像集中图像具有相同的质量，只需要第一训练图像集中图像的质量能够明显高于第二训练图像集中图像的质量即可。例如，就清晰度而言，第一训练图像集中图像的清晰度明显比第二训练图像集中图像的清晰度高，和/或在细节表示等方面，第一训练图像集中图像明显比第二训练图像集中图像不仅更清晰，而且更为丰富。以数字人为例，尽管第一训练图像集中数字人与第二训练图像集中数字人为同一个数字人，作为视频内容时，两个数字人的口型与音频内容也完全匹配。然而，第一训练图像集中数字人整体上比第二训练图像集中数字人更加清晰，而且第一训练图像集中数字人的口唇形状、牙齿、嘴角皱纹和下巴等细节都能够清晰、正常地展示出来，但第二训练图像集中数字人的口唇形状、牙齿、嘴角皱纹和下巴等细节可能是模糊或扭曲的。

至于第一训练图像集和第二训练图像集的具体获取方式，可以是通过拍摄方式获取，例如，使用相机等图像采集设备对准同一个人的面部进行拍摄。一些实施方式中，从成本上考虑，由于对第二训练图像集中图像的质量要求不高，第二训练图像集也可以通过合成方式得到。具体来说，第二训练图像集可来源于利用语音驱动模型生成的视频，且第二训练图像集中图像的质量劣于第一训练图像集中图像的质量。例如，第二训练图像集中图像的清晰度要低于第一训练图像集中图像的清晰度。同时，对于第一训练图像集而言，可以使用成像质量较高的图像采集设备（例如，用于专业拍摄的单反相机等）对准真实人类的面部等目标对象进行拍摄得到。至于利用语音驱动模型生成的视频，其实现与前述实施例使用预设音频驱动初始视频得到待处理视频的技术方案相同，可参阅前述使用预设音频驱动初始视频得到待处理视频的实施例的相关描述，此处不作赘述。

S302：根据第一损失函数值和第二损失函数值，调整第一网络和第二网络的参数，直至第一网络输出的训练结果与第一训练图像集的质量之差不超过第一预设质量阈值以及第二网络输出的训练结果与第二训练图像集的质量之差不超过第二预设质量阈值。

下面分别介绍如何使用第一训练图像集训练编码器、第一解码器和第一鉴别器，以及如何使用第二训练图像集训练编码器、第二解码器和第二鉴别器。

（1）使用第一训练图像集训练编码器、第一解码器和第一鉴别器

作为本申请一个实施例，上述使用第一训练图像集训练编码器、第一解码器和第一鉴别器可以是：编码器对输入的第一训练图像集进行特征提取，分别得到目标对象的第一面部特征；第一解码器对第一面部特征进行解码，得到第一目标图像；第一鉴别器根据第一目标图像和第一训练用图像，判断第一目标图像的置信度；根据第一目标图像的置信度对第一网络的损失函数进行计算，得到第一损失函数值；将第一损失函数值作为反向传播量，调整第一网络的模型参数以训练第一网络，直至第一损失函数值为第一预设损失阈值，其中，第一面部特征是第一训练图像集中图像包含的目标对象的面部特征。

为了进一步说明上述技术方案，此处将图2a示例的图像处理模型的编码器和第一解码器抽象为以

表示的第一生成器，将编码器和第二解码器抽象为以

表示的第二生成器，第一鉴别器使用

表示，第二鉴别器使用

表示，抽象之后的图像处理模型如图4a所示。在图4a示例的图像处理模型中，第一生成器

的输入

可以表示上述实施例第一训练图像集，输出

可以表示第一训练图像集

输入第一生成器

后重构的第一目标图像；可将

和

输入第一鉴别器使用

。训练第一生成器

的目标是使得输入

，生成与

高度相似的

，以至于

无法鉴别出输入其中的

究竟是来自第一生成器

输出的数据还是来自于

，表现为

的一种“欺骗能力”，而训练

的目标是通过向其中“投喂”大量的

或者与

具有相同特征的数据

，使其不断学习

的特征，以能够鉴别出输入其中的

究竟是来自第一生成器

输出的数据还是来自于

，表现为

的一种“明鉴能力”。

需要说明的是，上述对

和

的训练并非同步或同时进行的，即，可以先训练

，使其输出

，

通过鉴别

，输出鉴定结果，该鉴定结果以概率值表示，即鉴定

来自于

的概率；若该概率值太大，超过预设阈值，则表示

的鉴别能力没有达到预期，于是调整

的参数，对

进行训练；反之，若该概率值太小，远小于预设阈值，则表示

生成的

与

（或

）的相似性太低，以至于能够使

轻易鉴别出来

是由

生成而非来自于

或

，于是调整

的参数，对

开始新的一轮训练；新的一轮对

的训练过程与前述上一轮对

的训练过程类似。从上述对

和

的描述可知，

希望

输出的鉴定结果即概率值越大越好，因概率值越大，表示

的鉴定结果错得越离谱。理论上，

输出的鉴定结果是1时为理想值或是

的最佳预期，然而，这将带来其他的问题。因此，训练

和

到较佳的状态应该是

的“欺骗能力”和

的“明鉴能力”达到均衡，具体表现为

输出的概率值为0.5，即

既不能确定

是由

生成，又不能确定是来自于

或

，或者，

只能认为输入其中的

具有50%的概率是由

生成，50%的概率是来自于

或

。

由于通常情况下，认为第一训练图像集是训练

和

时的真实样本，因此，上述实施例中，第一鉴别器根据第一目标图像和第一训练用图像，判断第一目标图像的置信度实际就是判断第一目标图像与第一训练用图像的相似度，两者的相似度越高，则第一目标图像的置信度越高。至于第一损失函数值，其实际与

的“欺骗能力”和

的“明鉴能力”对应，当两者达到均衡，即

输出的概率值为0.5时，可以认为此时对应的第一损失函数值达到第一预设损失阈值，第一损失函数收敛，于是结束对

和

的训练。

从上述描述可知，通过对的

和

训练，使

的“欺骗能力”和

的“明鉴能力”达到均衡，后续将任意一个低质量人脸图像（该人脸与第一训练图像集中的人脸对应同一用户）输入由

和

组成的网络后，通过在训练阶段学习到高质量图像的特征，

可以生成一个高质量的人脸图像。

（2）使用第二训练图像集训练编码器、第二解码器和第二鉴别器

作为本申请一个实施例，上述使用第二训练图像集训练编码器、第二解码器和第二鉴别器可以是：第二解码器对第二面部特征进行解码，得到第二目标图像；第二鉴别器根据第二目标图像和第二训练图像集，判断第二目标图像的置信度；根据第二目标图像的置信度对第二网络的损失函数进行计算，得到第二损失函数值；将第二损失函数值作为反向传播量，调整第二网络的模型参数以训练第二网络，直至第二损失函数值为第一预设损失阈值；其中，第二面部特征是第二训练图像集中图像包含的目标对象的面部特征。对编码器、第二解码器和第二鉴别器训练更为具体的过程，与对编码器、第一解码器和第一鉴别器训练类似，可参阅前述实施例的相关说明，此处不再赘述。

从上述描述可知，通过对图4a的

和

训练，使

的“欺骗能力”和

的“明鉴能力”达到均衡。当需要重构一个低质量人脸图像时，后续只需要将任意一个低质量人脸图像（该人脸与第二训练图像集中的人脸对应同一用户）输入由

和

组成的网络后，通过在训练阶段学习到低质量图像的特征，

可以生成一个低质量的人脸图像。

由此可见，本申请实施例中，通过上述实施例分两路使用第一训练图像集、第二训练图像集对图像处理模型进行训练后，能够使得该图像处理模型具备将任意一个低质量人脸图像（该人脸与第一训练图像集中的人脸对应同一用户）中的面部特征替换为高质量的面部特征（即上述第一训练图像集中所提供的高质量面部特征）的功能，即能够通过对输入的人脸图像进行细节的修饰或分别率的提升，得到高质量面部特征的人脸图像。

如上述实施例所述，在通过模型训练得到上述图像处理模型后，即可基于该图像处理模型对待处理视频中需要对人脸特征的细节进行优化的人脸图像进行处理，以得到质量较高（例如人脸特征所属像素区域的分辨率为高清）的人脸图像。具体来说，参见图5，是本申请实施例示出的视频处理方法的流程示意图，该人脸图像处理方法基于无监督学习的图像处理模型实施。以对虚拟主播视频中的人脸进行处理为例，该方法可由业务服务器侧执行，该业务服务器可为培训平台、社交平台、政务平台、短视频平台等需要基于虚拟形象（例如虚拟人物、虚拟动物、卡通动物等）进行交互的平台，本申请实施例不对此作限定。本申请实施例主要包括图5示例的步骤S501至步骤S502，说明如下：

步骤S501：获取待处理视频。

其中，待处理视频包括至少一个目标对象的多张第一人脸图像，待处理视频为利用预设音频驱动初始视频得到。例如，利用预设音频驱动一段视频，代替真人进行新闻虚拟主持、代替游戏主播进行游戏虚拟解说，等等。

在本申请实施例中，待处理视频包括至少一个目标对象的多张第一人脸图像，而目标对象可以是人或其他动物，本申请实施例仅以目标对象为人的虚拟形象为例，非人的虚拟形象可参考针对虚拟人物的实施例，不再赘述。一些实施方式中，第一人脸图像可以通过合成方式得到，例如，使用预设音频驱动初始视频得到待处理视频，该待处理视频中的任意具有人脸的视频帧可以作为第一人脸图像。可使用预设音频驱动初始视频得到待处理视频，一种方法是：获得音频分片和至少两个视频分片，根据至少两个视频分片得到目标分片，确定上述音频分片的第i×N个音频帧至第（N×（i+1）-1）个音频帧与目标分片的第i个视频帧的对应关系，根据该对应关系，利用音频帧驱动与音频帧对应的各个视频帧，得到待处理视频。在该待处理视频中，目标对象的唇形与语音同步。

步骤S502：对待处理视频中的至少一张第一人脸图像中的目标人脸依次进行特征提取及解码处理，生成目标视频。

其中，目标视频包括目标对象的多张第二人脸图像，第二人脸图像的质量优于第一人脸图像。例如，第二人脸图像的人脸特征所属像素区域的分辨率为高清，而第一人脸图像的人脸特征所属像素区域的分辨率为低清，或者，第二人脸图像的人脸部分的纹理、表情等属性比第一人脸图像的人脸部分的纹理、表情等属性更为细腻、逼真。

一些实施方式中，本申请实施例基于神经网络模型实现时，可基于图2a所对应的实施例中训练得到的图像处理模型生成该目标视频：

编码器对第一人脸图像进行特征提取，得到目标对象的初始面部特征；编码器将初始面部特征输入第一解码器；第一解码器对初始面部特征进行解码，得到第二人脸图像，其中，第二人脸图像的清晰度高于第一人脸图像的清晰度。

上述实施例的面部特征可以是指面部信息中的语义特征，而语义特征是指图像中融合有时空信息的事物抽象特征，包括颜色、纹理、形状和属性特征等等。本申请实施例的编码器本质上是通过将信号(如比特流)或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备，作用在于提取第一人脸图像的面部特征，而解码器是一种能将数字视音频数据流解码还原成模拟视音频信号的硬件/软件设备，作用在于对面部特征进行解码生成第二人脸图像。此处需要说明的是，与在图像处理模型训练阶段使用编码器和第二解码器处理低质量的图像（如前述实施例提及的第二训练图像集）不同，在应用已训练好的图像处理模型阶段，第一人脸图像的质量较低（例如清晰度低于第一阈值），所以为了要得到质量优于第一人脸图像的第二人脸图像，可使用编码器和第一解码器来重构第一人脸图像中的面部特征。具体来说，当将第一人脸图像依次输入编码器和第一解码器的过程中，第一解码器可对通过编码器从第一人脸图像提取的人脸特征进行解码处理，以生成质量优于第一人脸图像的第二人脸图像，例如第一人脸图像的清晰度高于第二阈值，第一阈值小于第二阈值（本申请实施例不对二者之间的差值作限定），由此可见，第一人脸图像的清晰度要低于第二人脸图像的清晰度。

如图4b所示，第一人脸图像输入已训练好的图像处理模型时，是由编码器和第一解码器组成的第一生成器

对其进行处理，而不是由编码器和第二解码器组成的第二生成器

对其进行处理。由于第一生成器

已训练好，因此，无需第一鉴别器

再对第一生成器

生成的第二人脸图像进行鉴别，直接使用第一生成器

生成的第二人脸图像即可。

参阅图6，第一人脸图像是利用预设音频驱动初始视频得到的待处理视频中包括的至少一个目标对象的人脸图像。该人脸图像整体上是不清晰的，尤其是嘴部等特定区域，其细节在放大时更加模糊（参看图6中第一人脸图像的左上角对嘴部特定区域的放大部分）。第一人脸图像输入已训练图像处理模型时，已训练图像处理模型的编码器对第一人脸图像进行特征提取，得到其中人脸的初始面部特征。由于已训练图像处理模型的第一解码器已经学习到高清人脸图像的特征，因此，第一解码器对人脸的初始面部特征进行解码，重构出第二人脸图像。参看图6中第二人脸图像的左上角对嘴部特定区域的放大部分可知，相比于第一人脸图像，第二人脸图像在清晰度、特定区域的细节表示等方面明显优于第二人脸图像。

从上述对图像处理模型的训练可知，一个图像处理模型是使用包含某个特定目标对象的图像训练集训练得到，这意味着目标对象和图像处理模型具有对应关系。因此，上述实施例中，若待处理视频为包含至少两个不同目标对象的视频帧，则分别调用对应的图像处理模型去得到对应第二人脸图像。例如，若待处理视频为包含目标对象O1和目标对象O2的视频帧，则需要调用目标对象O1对应的图像处理模型M1（即，使用包含目标对象O1的图像训练集训练得到的图像处理模型）生成对应的第二人脸图像M2，以及需要调用目标对象O2对应的图像处理模型M2（即，使用包含目标对象O2的图像训练集训练得到的图像处理模型）生成对应的第二人脸图像M ’2，如图7所示。

上述实施例在对第一人脸图像处理时，相当于是对第一人脸图像包含的目标对象的整个面部信息都进行了处理，其处理的范围比较大，客观上会影响图像处理模型的训练效率。考虑到相关技术在生成数字人时，主要是嘴部及其周围等特定区域的细节部分（例如，牙齿、嘴角皱纹等）处理不好，换言之，目标对象的嘴部及其周围等特定区域应当是图像处理时的重点关注区域。为了提升图像处理模型的训练效率以及减小图像处理时的范围，还可以向已训练图像处理模型增加特征增强器和特征转换器，相应地，本申请实施例还包括步骤a和步骤b：

a、特征增强器对目标对象的面部特征中关注区域进行特征增强，得到增强特征。

一些实施方式中，该关注区域可以是目标对象的嘴部及其周围等特定区域的细节部分（例如，牙齿、嘴角皱纹等）。

b、特征转换器将增强特征映射至具有第二人脸图像中图像特征及其分布，得到转换后的面部特征。

需要说明的是，与前述实施例的编码器、第一解码器、第二解码器、第一鉴别器和第二鉴别器类似，特征增强器和特征转换器也需要经过训练。通过训练，使得特征增强器学会对面部特征中关注区域的信息做增强、对其余部分的信息做抑制。

可见，本实施例中，由于在基于语音驱动虚拟形象视频的场景下，虚拟形象的面部动作是非常关键的，通常为观看视频的观众的焦点区域，因此该待处理视频中的各第一人脸图像中面部特征的关注区域是嘴部及其周围等面部特定范围，所以通过对面部特征的关注区域进行增强处理，能够使得增强处理后的面部特征在映射到第二人脸图像中图像特征及其分布后，既能够提升图像处理模型的训练效率，又能够提升人脸图像关注区域的纹理清晰度和细节表达的丰富度。

从上述图2a至图7示例的视频处理方法可知，对待处理视频中的至少一张第一人脸图像中的目标人脸依次进行特征提取及解码处理，生成目标视频时，可以生成质量优于第一人脸图像的第二人脸图像。一方面，即便当前待处理视频中第一人脸图像的图像质量较低（例如清晰度较低），由于先对该第一人脸图像中的面部特征进行提取，通过提取能够将该第一人脸图像中影响待处理视频的播放效果的较低清晰度的面部特征进行有针对性的重点处理，并且通过对该提取的面部特征进行解码处理能够实现对该第一人脸图像中较低清晰度的面部特征的替换，即能够通过重构该第一人脸图像中的面部特征来得到高清晰度面部特征的第二人脸图像，从而消除短视频平台、直播、网上教育等应用场景下虚拟对象面部特定位置的细节不清晰等缺陷所导致的用户观看体验较差的问题；另一方面，通过对第一人脸图像中的目标人脸依次进行特征提取及解码处理即可快速得到质量较高的第二人脸图像，可见本申请实施例能够有效提高获取高质量目标视频的效率，进一步提高展示虚拟形象的目标视频的上线速度以及用户观看效果。

图1至图7中任一项所对应的实施例中所提及的任一技术特征也同样适用于本申请实施例中的图8至图11所对应的实施例，后续类似之处不再赘述。

以上对本申请实施例中一种人脸图像处理方法进行说明，以下对执行上述人脸图像处理方法的图像处理装置进行介绍。

参阅图8，如图8所示的一种视频处理装置80的结构示意图，其可应用于对包括至少一个目标对象的多张第一人脸图像的待处理视频进行处理，从而使得基于神经网络模型的搜索引擎从网络爬取特定用户的人脸图像（例如从业务服务器爬取目标用户历史发布过的人脸图像），并对人脸图像进行预处理后，也无法直接识别出匹配特定用户的目标人脸图像。本申请实施例中的视频处理装置80能够实现对应于上述图1至图6任一所对应的实施例中由视频处理装置80所执行的人脸图像处理方法中的步骤。视频处理装置80实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，这些模块可以是软件和/或硬件。视频处理装置80可包括获取模块801和处理模块802。获取模块801和处理模块802的功能实现可参考图1至图6任一所对应的实施例中所执行的操作，此处不作赘述。

一些实施方式中，获取模块801可用于获取待处理视频，其中，待处理视频包括至少一个目标对象的多张第一人脸图像，待处理视频为利用预设音频驱动初始视频得到；

处理模块802可用于对获取模块801获取的待处理视频中的至少一张第一人脸图像中的目标人脸依次进行特征提取及解码处理，生成目标视频，其中，目标视频包括目标对象的多张第二人脸图像，第二人脸图像的质量优于第一人脸图像。

可选地，上述视频处理装置80基于图像处理模型实现，其中，图像处理模型包括编码器和第一解码器；

编码器，用于对第一人脸图像进行特征提取，得到目标对象的初始面部特征，将初始面部特征输入第一解码器；

第一解码器，用于对初始面部特征进行解码，得到第二人脸图像，其中，第二人脸图像的清晰度高于第一人脸图像的清晰度。

可选地，图像处理模型还包括第二解码器、第一鉴别器和第二鉴别器，上述视频处理装置80还可以包括：

训练模块，用于使用第一训练图像集训练编码器、第一解码器和第一鉴别器以及使用第二训练图像集训练编码器、第二解码器和第二鉴别器，直至第一损失函数值为第一预设损失阈值以及第二损失函数值为第二预设损失阈值，其中，第一损失函数值为第一网络的损失函数的值，第二损失函数值为第二网络的损失函数的值；

调整模块，用于根据第一损失函数值和第二损失函数值，调整第一网络和第二网络的参数，直至第一网络输出的训练结果与第一训练图像集的质量之差不超过第一预设质量阈值以及第二网络输出的训练结果与第二训练图像集的质量之差不超过第二预设质量阈值。

可选地，训练模块包括：

编码器，用于对输入的第一训练图像集进行特征提取，得到目标对象的第一面部特征，其中，第一面部特征是第一训练图像集中图像包含的目标对象的面部特征；

第一解码器，用于对第一面部特征进行解码，得到第一目标图像；

第一鉴别器，用于根据第一目标图像和第一训练图像集，判断第一目标图像的置信度；

第一计算单元，用于根据第一目标图像的置信度对第一网络的损失函数进行计算，得到第一损失函数值；

第一参数调整单元，用于将第一损失函数值作为反向传播量，调整第一网络的模型参数以训练第一网络，直至第一损失函数值为第一预设损失阈值。

可选地，训练模块包括：

编码器，用于对输入的第二训练图像集进行特征提取，得到目标对象的第二面部特征，其中，第二面部特征是第二训练图像集中包含的目标对象的面部特征；

第二鉴别器，用于根据第二目标图像和第二训练图像集，判断第二目标图像的置信度；

第二计算单元，用于根据第二目标图像的置信度对第二网络的损失函数进行计算，得到第二损失函数值；

第二参数调整单元，用于将第二损失函数值作为反向传播量，调整第二网络的模型参数以训练第二网络，直至第二损失函数值为第一预设损失阈值。

可选地，第二训练图像集来源于利用语音驱动模型生成的视频，且第二训练图像集中图像的质量劣于第一训练图像集中图像的质量，训练图像中的人脸图像与当前的目标用户是同一个人。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

从上述图8示例的视频处理装置可知，对待处理视频中的至少一张第一人脸图像中的目标人脸依次进行特征提取及解码处理，生成目标视频时，可以生成质量优于第一人脸图像的第二人脸图像。一方面，即便当前待处理视频中第一人脸图像的图像质量较低（例如清晰度较低），由于先对该第一人脸图像中的面部特征进行提取，通过提取能够将该第一人脸图像中影响待处理视频的播放效果的较低清晰度的面部特征进行有针对性的重点处理，并且通过对该提取的面部特征进行解码处理能够实现对该第一人脸图像中较低清晰度的面部特征的替换，即能够通过重构该第一人脸图像中的面部特征来得到高清晰度面部特征的第二人脸图像，从而消除短视频平台、直播、网上教育等应用场景下虚拟对象面部特定位置的细节不清晰等缺陷所导致的用户观看体验较差的问题；另一方面，通过对第一人脸图像中的目标人脸依次进行特征提取及解码处理即可快速得到质量较高的第二人脸图像，可见本申请实施例能够有效提高获取高质量目标视频的效率，进一步提高展示虚拟形象的目标视频的上线速度以及用户观看效果。

上面从模块化功能实体的角度对本申请实施例中的执行人脸图像处理方法的视频处理装置80进行了描述，下面从硬件处理的角度分别对本申请实施例中的执行人脸图像处理方法的视频处理装置80进行描述。需要说明的是，在本申请实施例图8所示的实施例中的获取模块801对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输出接口等，处理模块802对应的实体设备可以为处理器。图8所示的视频处理装置80可以具有如图9所示的电子设备900的结构，当图8所示的视频处理装置80具有如图9所示的电子设备900的结构时，图9中的存储器910和处理器920能够实现前述对应该视频处理装置80的装置实施例提供的获取模块801和处理模块802相同或相似的功能，图9中的存储器910存储处理器920执行上述人脸图像处理方法时需要调用的计算机程序。

本申请实施例还提供了另一种视频处理装置，如图10所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该视频处理装置可以为包括手机、平板电脑、个人数字助理（英文全称：Personal DigitalAssistant，英文简称：PDA）、销售图像处理装置（英文全称：Point of Sales，英文简称：POS）、车载电脑等任意图像处理装置，以图像处理装置为手机为例：

图10示出的是与本申请实施例提供的视频处理装置相关的手机的部分结构的框图。参考图10，手机包括：射频（英文全称：Radio Frequency，英文简称：RF）电路710、存储器720、输入单元730、显示单元740、传感器780、音频电路760、无线保真（英文全称：wireless-fidelity，英文简称：Wi-Fi）模块7100、处理器780、以及电源790等部件。本领域技术人员可以理解，图10中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图10对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（英文全称：LowNoise Amplifier，英文简称：LNA）、双工器等。此外，RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（英文全称：Global System of Mobile communication，英文简称：GSM）、通用分组无线服务（英文全称：General Packet Radio Service，英文简称：GPRS）、码分多址（英文全称：Code Division Multiple Access，英文简称：CDMA）、宽带码分多址（英文全称：Wideband Code Division Multiple Access, 英文简称：WCDMA）、长期演进（英文全称：Long Term Evolution，英文简称：LTE）、电子邮件、短消息服务（英文全称：ShortMessaging Service，英文简称：SMS）等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741，可选的，可以采用液晶显示器（英文全称：LiquidCrystal Display，英文简称：LCD）、有机发光二极管（英文全称：Organic Light-EmittingDiode, 英文简称：OLED）等形式来配置显示面板741。进一步的，触控面板731可覆盖显示面板741，当触控面板731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图10中，触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器780，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等; 至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一手机，或者将音频数据输出至存储器720以便进一步处理。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块7100可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图10示出了Wi-Fi模块7100，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器780可包括一个或多个处理单元；优选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790（比如电池），电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器780还具有控制执行以上由图10所示的图像处理装置40执行的方法流程。上述实施例中由图像处理装置所执行的步骤可以基于该图10所示的手机结构。例如，处理器722通过调用存储器732中的指令，执行以下操作：

通过输入单元730获取待处理的目标人脸图像；

将输入单元730获取的目标人脸图像输入至目标模型，得到目标对抗样本，其中，目标模型为基于无监督学习进行无监督学习得到，目标对抗样本与目标人脸图像的相似度低于预设阈值；

通过输入单元730发布处理模块得到的目标对抗样本，或处理模块将目标人脸图像更新为目标对抗样本。

本申请实施例还提供了另一种实施上述人脸图像处理方法的人脸图像处理装置、或实施上述人脸图像获取方法的搜索装置，如图11所示，图11是本申请实施例提供的一种服务器结构示意图，该服务器100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（英文全称：central processing units，英文简称：CPU）1022（例如，一个或一个以上处理器）和存储器1032，一个或一个以上存储应用程序1042或数据1044的存储介质1030（例如一个或一个以上海量存储设备）。其中，存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1022可以设置为与存储介质1030通信，在服务器100上执行存储介质1030中的一系列指令操作。

服务器100还可以包括一个或一个以上电源1026，一个或一个以上有线或无线网络接口1050，一个或一个以上输入输出接口1058，和/或，一个或一个以上操作系统1041，例如Windows Server，Mac OS X，Unix, Linux，FreeBSD等等。

上述实施例中由业务服务器（例如图8所示的视频处理装置80）所执行的步骤可以基于该图11所示的服务器100的结构。例如上述实施例中由图8所示的视频处理装置80所执行的步骤可以基于该图11所示的服务器结构。例如，处理器1022通过调用存储器1032中的指令，执行以下操作：

通过输入输出接口1058获取待处理视频，其中，待处理视频包括至少一个目标对象的多张第一人脸图像，待处理视频为利用预设音频驱动初始视频得到；

对通过输入输出接口1058获取的待处理视频中的至少一张第一人脸图像中的目标人脸依次进行特征提取及解码处理，生成目标视频，其中，目标视频包括目标对象的多张第二人脸图像，第二人脸图像的质量优于所述第一人脸图像。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中，或者从一个存储介质向另一存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质（例如固态硬盘Solid State Disk(SSD)）等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的视频处理方法，其特征在于，所述方法基于图像处理模型实现，所述图像处理模型包括编码器和第一解码器，所述对所述待处理视频中的至少一张所述第一人脸图像依次进行特征提取及解码处理，生成目标视频，包括：

所述编码器对所述第一人脸图像进行特征提取，得到所述目标对象的初始面部特征；

所述编码器将所述初始面部特征输入所述第一解码器；

所述第一解码器对所述初始面部特征进行解码，得到所述第二人脸图像，所述第二人脸图像的清晰度高于所述第一人脸图像的清晰度。

3.根据权利要求2所述的视频处理方法，其特征在于，若待处理视频为包含至少两个不同目标对象的视频帧，则分别调用对应的图像处理模型去得到对应第二人脸图像。

4.根据权利要求2所述的视频处理方法，其特征在于，所述图像处理模型还包括第二解码器、第一鉴别器和第二鉴别器，所述方法还包括：

使用第一训练图像集训练所述编码器、第一解码器和第一鉴别器以及使用第二训练图像集训练所述编码器、第二解码器和第二鉴别器，直至第一损失函数值为第一预设损失阈值以及第二损失函数值为第二预设损失阈值，所述第一损失函数值为第一网络的损失函数的值，所述第二损失函数值为第二网络的损失函数的值；

根据所述第一损失函数值和所述第二损失函数值，调整所述第一网络和第二网络的参数，直至所述第一网络输出的训练结果与所述第一训练图像集的质量之差不超过第一预设质量阈值以及所述第二网络输出的训练结果与所述第二训练图像集的质量之差不超过第二预设质量阈值。

5.根据权利要求4所述的视频处理方法，其特征在于，所述使用第一训练图像集训练所述编码器、第一解码器和第一鉴别器，包括：

所述编码器对输入的第一训练图像集进行特征提取，得到目标对象的第一面部特征，所述第一面部特征是所述第一训练图像集中图像包含的目标对象的面部特征；

所述第一解码器对所述第一面部特征进行解码，得到第一目标图像；

所述第一鉴别器根据所述第一目标图像和所述第一训练图像集，判断所述第一目标图像的置信度；

根据所述第一目标图像的置信度对所述第一网络的损失函数进行计算，得到所述第一损失函数值；

将所述第一损失函数值作为反向传播量，调整所述第一网络的模型参数以训练所述第一网络，直至所述第一损失函数值为第一预设损失阈值。

6.根据权利要求4所述的视频处理方法，其特征在于，所述使用所述第二训练图像集训练所述编码器、第二解码器和第二鉴别器，包括：

所述编码器对输入的第二训练图像集进行特征提取，得到目标对象的第二面部特征，所述第二面部特征是所述第二训练图像集中包含的目标对象的面部特征；

所述第二解码器对第二面部特征进行解码，得到第二目标图像；

所述第二鉴别器根据所述第二目标图像和所述第二训练图像集，判断所述第二目标图像的置信度；

根据所述第二目标图像的置信度对所述第二网络的损失函数进行计算，得到所述第二损失函数值；

将所述第二损失函数值作为反向传播量，调整所述第二网络的模型参数以训练所述第二网络，直至所述第二损失函数值为第一预设损失阈值。

7.根据权利要求4所述的视频处理方法，其特征在于，所述第二训练图像集来源于利用语音驱动模型生成的视频，且所述第二训练图像集中图像的质量劣于所述第一训练图像集中图像的质量；训练图像中的人脸图像与当前的目标用户是同一个人。

8.一种视频处理装置，其特征在于，所述视频处理装置包括：

处理模块，用于对所述获取模块获取的所述待处理视频中的至少一张所述第一人脸图像中的目标人脸依次进行特征提取及解码处理，生成目标视频，所述目标视频包括所述目标对象的多张第二人脸图像，所述第二人脸图像的质量优于所述第一人脸图像。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至7中任意一项所述的方法。

10.一种存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至7中任意一项所述的方法。