CN116708918B

CN116708918B - 一种视频换脸的处理方法、相关装置及存储介质

Info

Publication number: CN116708918B
Application number: CN202210517699.3A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Shengshu Technology Co ltd
Current assignee: Beijing Shengshu Technology Co ltd
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2024-01-23
Anticipated expiration: 2042-05-12
Also published as: CN116708918A

Abstract

本申请实施例涉及图像处理技术领域，并提供一种视频换脸的处理方法、装置及存储介质，该方法包括：获取第一视频素材和第二视频素材；将相似度高于预设相似度的素材属性信息的第一帧图片和第二帧图片输入至预设模型，得到替换视频；该替换视频存在拼接缺陷时，调整第一帧图片和第二帧图片的数量，并将调整后的图片输入至预设模型，直至预设模型输出的替换视频不存在拼接缺陷，将不存在缺陷时的第一帧图片的数量和第二帧图片的数量的比例作为目标配比；获取包含所述被替换者的待替换视频文件；将待替换视频文件输入至预设模型，根据目标配比输出包含所述替换者脸部的目标视频。本申请能够提高人侧脸替换后的视觉效果。

Description

一种视频换脸的处理方法、相关装置及存储介质

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种视频换脸的处理方法、相关装置及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)换脸技术的应用场景之一是将虚拟人物的面部替换到影视剧中真人的面部区域，替换结果要求脸部表情自然、效果逼真。整个过程只需要通过一张照片即可完成替换，例如，用户a可采用AI技术在换脸软件上使用用户a自己的照片即可替视影视剧或者小视频中的人物，从而生成以用户a自己为主角的视频。

在对现有技术的研究和实践过程中，本申请实施例的发明人发现在替换模特侧脸的时候，会出现拼接缺陷的现象，例如原图中的瞳距和内眼角与侧眼角的角度倾斜不同使得模特脸部更换出现瞳距过大、眼睛向斜上方上挑等问题，使得视频中出现人侧脸替换时，存在较为明显的替换缺陷。

由于后期需要进行整段视频的脸部替换，所以需要在前期对拼接缺陷的现象进行优化，目前的优化方法是对原始图片进行调整，修改眼睛的形状和距离，对于视频中的原始图片修改而言，工作量太大，使得修改效率较低。

发明内容

本申请实施例提供了一种视频换脸的处理方法、相关装置及存储介质，能够提高人侧脸被替换后的视觉效果。

第一方面中，介绍本申请实施例提供的一种视频换脸的处理方法，该方法包括：

获取第一视频素材和第二视频素材，所述第一视频素材包含被替换者侧脸的第一帧图片，所述第二视频素材包含替换者侧脸的第二帧图片，所述第一帧图片和所述第二帧图片均预先标记有至少一种素材属性信息；

将相似度高于预设相似度的素材属性信息的所述第一帧图片和所述第二帧图片分别输入至预设模型，输出人脸替换后的替换视频；

当所述替换视频存在拼接缺陷时，调整所述第一帧图片的数量和所述第二帧图片的数量，并将调整后的第一帧图片和第二帧图片输入至所述预设模型，直至所述预设模型输出的替换视频不存在拼接缺陷，将不存在缺陷时的第一帧图片的数量和第二帧图片的数量的比例作为目标配比；

获取包含所述被替换者的待替换视频文件；

将所述待替换视频文件输入至所述预设模型，根据所述目标配比输出包含所述替换者脸部的目标视频。

第二方面中，本申请实施例提供一种视频换脸的处理装置，具有实现对应于上述第一方面提供的视频换脸的处理方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

一种可能的设计中，所述视频换脸的处理装置包括：

输入输出模块，用于获取第一视频素材和第二视频素材，将相似度高于预设相似度的素材属性信息的所述第一帧图片和所述第二帧图片分别输入至预设模型，输出人脸替换后的替换视频；其中，所述第一视频素材包含被替换者侧脸的第一帧图片，所述第二视频素材包含替换者侧脸的第二帧图片，所述第一帧图片和所述第二帧图片均预先标记有至少一种素材属性信息；

处理模块，用于当所述替换视频存在拼接缺陷时，调整所述第一帧图片的数量和所述第二帧图片的数量，并将调整后的第一帧图片和第二帧图片输入至所述预设模型，直至所述预设模型输出的替换视频不存在拼接缺陷，将不存在缺陷时的第一帧图片的数量和第二帧图片的数量的比例作为目标配比；

通过所述输入输出模块获取包含所述被替换者的待替换视频文件；

所述处理模块还用于将所述待替换视频文件输入至所述预设模型，根据所述目标配比输出包含所述替换者脸部的目标视频。

本申请实施例又一方面提供了一种视频换脸的装置，其包括至少一个连接的处理器、存储器和输入输出单元，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中的计算机程序来执行上述第一方面中提供的视频换脸的处理方法。

本申请实施例又一方面提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行上述第一方面中提供的视频换脸的处理方法。

相较于现有技术，本申请实施例提供的方案中，通过获取包含被替换者的第一视频素材以及包含替换者的第二视频素材，由于第一视频素材及该第二视频素材中均包括有预先标记有至少一种素材属性及所述素材属性的取值的第一帧图片和第二帧图片，且该素材属性包括人脸姿态，该素材属性的取值包括人脸姿态为侧脸，使得在侧脸替换的训练场景中可以通过丰富的训练素材对训练过程做支撑，在循环的过程中根据预设模型的输出结果，不断调节第一帧图片与第二帧图片的配比以使其达到最优，从而使得被替换者的视频素材帧图片与替换者的视频素材帧图片在通过这种目标配比并利用预设模型替换输出的过程中产出的替换视频没有瑕疵，最后再通过调节好的被替换者的视频素材帧图片与替换者的视频素材帧图片的目标配比，并利用预设模型对实际需要替换的包含被替换者的待替换视频文件进行输出，以确保替换后输出的人脸拼接处，尤其是人侧脸的拼接处没有拼接痕迹以及拼接模糊等缺陷。

附图说明

图1为本申请实施例提供的一种网络架构示意图；

图2为本申请实施例中视频换脸的处理方法的一种流程示意图；

图3为本申请实施例的视频换脸的处理方法中获取第二视频素材的流程示意图；

图4为根据本申请实施例的一应用场景示意图；

图5为本申请实施例中视频换脸的处理装置的框图；

图6为本申请实施例中计算机设备的一种结构示意图；

图7为本申请实施例中实施视频换脸的处理方法的手机的一种结构示意图；

图8为本申请实施例中实施视频换脸的处理方法的实体装置的一种结构示意图。

具体实施方式

本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如本申请实施例中的第一视频素材、第二视频素材分别表示不同的视频素材)，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请实施例中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行，另外，所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，模块之间的间接耦合或通信连接可以是电性或其他类似的形式，本申请实施例中均不作限定。并且，作为分离部件说明的模块或子模块可以是也可以不是物理上的分离，可以是也可以不是物理模块，或者可以分布到多个电路模块中，可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。

本申请实施例供了一种视频换脸的处理方法、相关装置及存储介质，该方法可以应用于视频换脸的场景中，例如用户需要将影视剧中的某个角色的人脸替换为自己的人脸或某虚拟人物的人脸时，可以通过本申请实施例提出的视频换脸的处理方法来实现。

本申请实施例提供的方案涉及人工智能(Artificial Intelligence，AI)、自然语言处理(Nature Language processing，NLP)、机器学习(Machine Learning，ML)等技术，具体通过如下实施例进行说明:

其中，AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

针对人工智能领域的人脸识别方向，本申请可以利用人脸图像集生成攻击鲁棒性较高的通用扰动，并通过在人脸图像集的人脸图像中添加通用扰动，使图像分类模型无法对添加扰动后的人脸图像进行准确识别，从而实现对图像分类模型的攻击。

图1为本申请实施例中实施上述视频换脸的处理方法的一种网络架构示意图，该视频换脸的处理方法可由视频换脸的处理装置执行，该视频换脸的处理装置可部署于如图1中所示的计算机设备中，该计算机设备可以是终端也可以是服务器，该计算机设备可以与不同的服务器通过网络进行通信，一些实施方式中，例如该计算机设备通过分别与服务器1、服务器2和服务器3进行网络连接，使得该计算机设备可以分别从服务器1、服务器2和服务器3中获取包含被替换者的第一视频素材和包含替换者的第二视频素材，以便于根据该第一视频素材和第二视频素材对第一帧图片的数量和第二帧图片的数量的比例进行优化。

其中，需要特别说明的是，本申请实施例涉及的终端，可以是指向用户提供语音和/或数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。例如，个人通信业务(英文全称：Personal Communication Service，英文简称：PCS)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(英文全称：Wireless LocalLoop，英文简称：WLL)站、个人数字助理(英文全称：Personal Digital Assistant，英文简称：PDA)等设备。

服务器(例如上述服务器1、服务器2、服务器3)可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

由于在替换模特侧脸的时候，会出现拼接模糊，出现明显拼接痕迹的现象，例如原图中的瞳距和内眼角与侧眼角的角度倾斜不同使得模特脸部更换出现瞳距过大、眼睛向斜上方上挑等问题，使得视频中出现人侧脸替换时，存在较为明显的替换缺陷。为解决上述技术问题，本申请实施例主要提供以下技术方案：

利用预设模型对输入的第一帧图片和第二帧图片中的人脸区域进行替换，根据替换的效果不断调节第一帧图片和第二帧图片的数量比例，直到替换效果无缺陷时得到目标配比，最后将具有目标配比的智能换脸模型投入实际应用，用于对视频中的人脸区域进行无缺陷替换。

图2为本申请实施例中视频换脸的处理方法的一种流程示意图，本申请实施例提供的视频换脸的处理方法，包括S101至S105。

S101、获取第一视频素材和第二视频素材。

其中，所述第一视频素材包含被替换者侧脸的第一帧图片，所述第二视频素材包含替换者侧脸的第二帧图片，所述第一帧图片和所述第二帧图片均预先标记有至少一种素材属性信息。

在其中一个实施例中，该被替换者为所述第一视频素材中的真人，该素材属性信息包括但不限于面部表情标签、人脸姿态以及人脸大小。

对于被替换者的素材：可以选用影视剧中包含真人的视频片段，该视频素材中的各帧图片包括至少以下三种素材属性信息：

1、被替换者的人脸的面部表情标签，该人脸的面部表情标签例如喜怒哀乐悲恐惊等；

2、人脸姿态，该素材属性信息包括人脸姿态为侧脸或者正脸；

3、人脸大小，该素材属性信息中人脸大小优选为在60～300PX之间。

进一步地，可以将该人脸大小的取值划分为多个区间范围，例如将60～300PX划分为60～140PX、141～220PX、221～300PX，将属于同一区间范围内的帧图片划分为一类。便于后期在将相同素材属性信息的第一帧图片和第二帧图片分别输入至预设模型时，能够以此为依据将人脸大小属于同一区间范围的第一帧图片和第二帧图片同时输入，便于该预设模型能够输出更好的替换结果。可以理解的是，对该优选的人脸大小的区间划分可以根据视频素材的实际情况做不同的区间划分，在此不做限定。

另外，需要人工对被替换者素材中视频帧图片中的人脸表情、人脸姿态进行标记，具体地，需要标记该视频帧图片中的人脸表情为笑、还是为哭等，同时标记人脸的姿态是为正脸还是侧脸。

下面分别介绍如何获取第一视频素材、第二视频素材：

(1)获取第一视频素材

一些实施方式中，从影视剧中截取或从网络平台下载包含所述被替换者的视频片段，将包含所述被替换者的视频片段作为上述第一视频素材。

可以理解的是，该被替换者为影视剧或短视频中的真人，该第一视频素材例如可以是包含某明星人脸的电视剧或喜剧视频。

一些实施方式中，在所述从影视剧中截取或从网络平台下载包含所述被替换者的视频片段之后，该视频换脸的处理方法还包括：

若所述视频片段中存在所述被替换者的人脸区域以外的目标人脸区域，则捕捉所述目标人脸区域；

将所述目标人脸区域填充预设的颜色。

作为可选地，该预设的颜色可以选用黑色，也可以选用白色等其它颜色。

可见，将其他人脸区域填充预设的颜色可以避免当被替换的视频片段中还包括其他人物的人脸区域时，后期人脸替换时出现错误，能够避免将替换者的人脸替换到其他的人脸上，有利于后期预设模型对人脸特征进行识别和替换，提高换脸的成功率。

(2)获取第二视频素材

一些实施方式中，第二视频素材的获取途径可包括下述a、b、c三种：

a、从影视剧中截取包含所述替换者的视频片段，或从网络平台下载包含所述替换者的视频片段，将包含所述替换者的视频片段作为上述第二视频素材。

可见，由于从影视剧、网络平台上找到的包含虚拟人物的视频素材是预先进行动画效果处理好的人物动画，即该视频素材中的虚拟人物已经进行过骨骼绑定，那么，可以将视频片段(例如从影视剧中截取包含所述替换者的视频片段，或从网络平台下载的包含所述替换者的视频片段)当做该第二视频素材选取其中包含替换者侧脸的第二帧图片，并将该第二帧图片输入至预设模型用于人脸替换。

b、通过计算机动画技术生成包含所述替换者的视频片段，将生成的该视频片段作为上述第二视频素材。

可见，通过计算机动画技术生成的虚拟人物则需要先制作出虚拟人物的外观，再对该虚拟的人物外观进行骨骼绑定使其能够做出相应的动作，然后对绑定后的虚拟人物进行CG渲染，最后得到可以当做该第二视频素材，选取其中包含替换者侧脸的第二帧图片，并将该第二帧图片输入至预设模型用于人脸替换。

具体来说，参考图3所示的视频换脸的处理方法中获取第二视频素材的流程，其中，该替换者为虚拟人物，通过下述流程生成包含所述替换者的第二视频素材：

S320、通过3D建模生成所述虚拟人物的外表；

S321、对所述虚拟人物的外表进行骨骼绑定，得到所述虚拟人物；

S322、通过动画制作对所述虚拟人物进行处理，得到包含所述替换者的所述第二视频素材。

可以理解的是，生成虚拟人物(替换者)包括：首先需要通过3D建模生成虚拟人物的外表，然后对该外表进行骨骼绑定，使其可以做相应的动作，最后通过CG渲染该虚拟人物的颜色、光线等场景，使得生成的虚拟人物更为逼真；通过动画制作来得到替换者的素材，具体可以通过动画师来做，也可以通过真人面部制作。

c、通过图像动画的一阶运动模型生成数字人表情，将所述数字人表情作为所述第二视频素材中的第二帧图片。

可见，该实施例通过一阶运动模型FOMM(英文全称：First Order Motion Model，英文简称FOMM)技术生成的数字人表情为2D数字人表情，其作用在于进一步支撑第二视频素材的多样性，提高预设模型的替换效果。

本申请实施例中，对于能成为第二视频素材中替换者的素材，当替换者为虚拟人物时，替换者的素材的来源包括但不限于以下三种方式：

方式一、从影视剧、抖音、快手、网上找到的包含虚拟人物(替换者)的视频素材。其中，从影视剧、抖音、快手、网上下载的包含虚拟人物的视频素材已经进行过骨骼绑定，是可以直接使用的视频素材；

方式二、通过CG(ComputerGraphics，计算机动画)技术生成的虚拟人物。

方式三、通过图像动画的一阶运动模型FOMM生成2D数字人表情。

可以理解的是，替换者中的虚拟人物也应包括：人物表情，例如喜怒哀乐悲恐惊等；人脸的姿态，例如为正脸还是为侧脸；以及不同像素大小的虚拟人脸。

本申请实施例中，通过上面方式一和方式二得到的第二视频素材为3D类型的视频素材，通过上述方式三得到的视频素材为2D类型的视频素材，可见，通过上述三种方式能够得到类型丰富的第二视频素材，以为后续实施例基于类型丰富的第二视频素材对预设模型进行训练提供丰富、全面、较好的数据支撑。具体来说，通过输入多种类型及多种素材属性信息的替换者侧脸的第二帧图片供预设模型学习，使得该预设模型能够输出视觉效果更好的替换视频，从而能够比较好的解决侧脸换脸缺陷的问题。通过上述方式获取到的替换者素材包括3D类型的样本，可以解决现有的3D样本少导致后期训练数据量不够、替换效果差的缺陷。

S102、将相似度高于预设相似度的素材属性信息的所述第一帧图片和所述第二帧图片分别输入至预设模型，输出人脸替换后的替换视频。

其中，该预设模型例如DeepFaceLab换脸模型，训练该DeepFaceLab换脸模型的过程即调整被替换者素材以及替换者素材目标配比的过程，使得输入该DeepFaceLab模型中被替换者的视频帧图片中素材的三种素材属性信息与替换者的视频素材的相应素材属性信息的图片数量达成某一数量的配比时，通过该DeepFaceLab模型输出的替换后的结果最优，其中，可以通过机器结合人工共同判断输出的替换结果是否没有瑕疵。

其中，在将被替换者素材以及替换者素材输入至该DeepFaceLab模型时，需要被替换者素材以及替换者素材具有相同的素材属性信息，例如均为笑的正脸，或均为怒的侧脸。

现有方案在通过换脸工具对视频中的人脸进行替换时，由于前期对输入换脸工具的素材样本混杂，没有对视频素材中的人脸表情进行明确的分类，使得换脸工具输出的换脸视频存在拼接痕迹、拼接处模糊等拼接缺陷，故需要针对输入换脸工具的素材样本混杂的问题提出以下第(1)种解决方案。

下面分别从所述素材属性信息包括不同类型的多个面部表情标签、不同的多个人脸姿态、人脸大小中的至少一项来介绍预设模型基于所述第一帧图片和所述第二帧图片进行人脸替换的过程：

(1)所述素材属性信息包括不同类型的多个面部表情标签时

一些实施例中，所述将相似度高于预设相似度的素材属性信息的所述第一帧图片和所述第二帧图片分别输入至预设模型，包括：

获取类型相同的面部表情标签；

将具有类型相同的面部表情标签对应的第一帧图片和第二帧图片分别输入所述预设模型。

其中，该面部表情的标签的类型包括单不限于喜、怒、哀、乐、悲、恐、惊等。可以理解的是，“喜”这一类型包括的面部表情标签例如微笑、大笑、狂笑、撇嘴笑等。以面部表情标签为喜为例，将具有类型相同的面部表情标签对应的第一帧图片和第二帧图片分别输入该预设模型时，即将面部表情标签为微笑、大笑、狂笑、撇嘴笑等的第一帧图片和第二帧图片均输入该预设模型。

可以理解的是，将具有类型相同的面部表情标签对应的第一帧图片和第二帧图片分别输入预设模型，有利于预设模型对人物的该类型的面部表情进行学习，从而输出更好的视频中人脸替换的视觉效果。

现有方案在通过换脸工具对视频中的人脸进行替换时，由于前期没有对视频素材中的人脸姿态进行区分，使得换脸工具输出的换脸视频时容易将人正脸的五官特征拼接到人侧脸区域，使得拼接痕迹明显，故需要针对这一拼接痕迹明显的问题提出以下第(2)种解决方案。

(2)所述素材属性信息包括不同的多个人脸姿态时

获取相同的人脸姿态；

将具有相同的人脸姿态对应的第一帧图片和第二帧图片分别输入所述预设模型。

其中，该人脸姿态包括但不限于正脸、侧脸、抬头、低头等。以获取的人脸姿态都为侧脸为了，该将具有相同的人脸姿态对应的第一帧图片和第二帧图片分别输入所述预设模型，即将具有侧脸素材属性信息的第一帧图片和第二帧图片分别输入所述预设模型，以利于该预设模型对同一人脸姿态的面部拼接过程进行学习。

当通过该DeepFaceLab模型输出的替换后的结果存在拼接模糊、拼接痕迹等缺陷时，可以人为调整被替换者素材中各素材属性信息图片的数量以及替换者素材中各素材属性信息图片的数量，最终使得通过该DeepFaceLab模型输出的替换后的结果没有瑕疵。

(3)所述素材属性信息包括人脸大小时

一些实施例中，可根据将具有相同或相似的素材属性信息的帧图片分为一类，进一步将属于同一类的第一帧图片和所述第二帧图进行配对，以便于预设模型能够依据相同或相似的素材属性信息的帧图片进行学习和人脸替换。

具体来说，该将相似度高于预设相似度的素材属性信息的所述第一帧图片和所述第二帧图片分别输入至预设模型，包括：

分别将第一配对图片、第二配对图片和第三配对图片输入至预设模型。

其中，所述第一配对图片包括面部表情标签的类型相同的第一表情图片和第二表情图片；

所述第二配对图片包括素材属性信息中人脸姿态相同的第一人脸姿态图片和第二人脸姿态图片；

所述第三配对图片包括素材属性信息中人脸大小在同一范围的第一人脸大小图片和第二人脸大小图片。

本申请实施例中，可以将该人脸大小的取值划分为多个区间范围，将属于同一区间范围内的帧图片划分为一类。那么，在对该预设模型进行输入时，按照人脸大小在同一范围的配对后的帧图片依次输入，使得后期在将相同素材属性信息的第一帧图片和第二帧图片分别输入至预设模型时，便于该预设模型更好的捕捉和提取人脸特征，能够输出更好的人脸替换结果。

S103、当所述替换视频存在拼接缺陷时，调整所述第一帧图片的数量和所述第二帧图片的数量，并将调整后的第一帧图片和第二帧图片输入至所述预设模型，直至所述预设模型输出的替换视频不存在拼接缺陷，将不存在缺陷时的第一帧图片的数量和第二帧图片的数量的比例作为目标配比。

其中，所述拼接缺陷包括存在拼接痕迹，或拼接处存在对比度小于预设对比度的区域。

在其中一个实施例中，可以通过人眼判断是否存在拼接处模糊、拼接痕迹等缺陷。让用户可以通过人眼判断存在拼接处模糊、拼接痕迹等缺陷时，可以根据经验人工调节取值相同的各素材属性信息中所述第一帧图片的数量和所述第二帧图片的数量，以得到新的所述第一帧图片与所述第二帧图片的配比，反复执行数量调节、对调节后的素材输入该预设模型、通过该预设模型进行输出，最终得到替换成功、没有瑕疵的替换视频时，素材属性信息相同的所述第一帧图片的数量和所述第二帧图片的数量的比例，即为该第一帧图片与该第二帧图片的目标配比。

S104、获取包含所述被替换者的待替换视频文件。

作为可选地，该步骤S104与上述步骤S101至S103可以在同一计算机设备上执行，也可以在不同的计算机设备上执行。

该待替换视频文件可以从影视剧中截取或从网络平台下载包含所述被替换者的视频片段。该网络平台包括但不限于抖音、快手、新浪等网络平台。

S105、将所述待替换视频文件输入至所述预设模型，根据所述目标配比输出包含所述替换者脸部的目标视频。

作为可选地，该步骤S105和该步骤S104与上述步骤S101至S103可以在同一计算机设备上执行，也可以在不同的计算机设备上执行。

可以理解的是，每一次训练好的被替换者素材以及替换者素材目标配比与该替换者相对应，如果需要更换替换者，则需要重新执行上述步骤S101至S105。即训练得到的第一帧图片与第二帧图片的目标配比与相应的替换者和被替换者的人脸特征相对应。

在其中一个实施例中，上述实施例中步骤S104和步骤S105还可以在手机、平板电脑、个人数字助理、销售终端、车载电脑等任意终端运行，相应的，上述实施例图5中的输入输出模块还可以部署在手机、平板电脑、个人数字助理、销售终端、车载电脑等任意终端上，当该步骤S104和步骤S105在手机上运行时，该输入输出模块同理可以部署在手机端，可以获取存储在本地的包含所述被替换者的待替换视频文件，也可以通过网络从其他设备端获取包含所述被替换者的待替换视频文件。然后通过网络将该待替换视频文件发送至该预设模型，该预设模型根据所述目标配比输出包含所述替换者脸部的目标视频，然后将该目标视频发送至本端手机屏幕进行显示。

图4为根据本申请实施例的一应用场景示意图，图4中从左向右依次为替换前的被替换者人脸、替换前的替换者的人脸以及替换后的人脸。

通过以上技术方案，由于第一视频素材及该第二视频素材中均包括有预先标记有至少一种素材属性及所述素材属性的取值的第一帧图片和第二帧图片，且该素材属性包括人脸姿态，该素材属性的取值包括人脸姿态为侧脸，使得在侧脸替换的训练场景中可以通过丰富的训练素材对训练过程做支撑，在循环的过程中根据预设模型的输出结果，不断调节第一帧图片与第二帧图片的配比以使其达到最优，从而使得被替换者的视频素材帧图片与替换者的视频素材帧图片在通过这种目标配比并利用预设模型替换输出的过程中产出的替换视频没有瑕疵，最后再通过调节好的被替换者的视频素材帧图片与替换者的视频素材帧图片的目标配比，并利用预设模型对实际需要替换的包含被替换者的待替换视频文件进行输出，以确保替换后输出的人脸拼接处，尤其是确保人侧脸的拼接处没有拼接痕迹以及拼接模糊等缺陷。

需要说明的是，本申请实施例中，对于第一视频素材的来源以及第二视频素材的来源具体不作限定。

以上对本申请实施例中一种视频换脸的处理方法进行说明，以下对执行上述视频换脸的处理方法的虚拟装置、实体装置及存储介质进行介绍。

参阅图5，如图5所示的本申请实施例中视频换脸的处理装置的框图，其可应用于终端、服务器等计算机设备。本申请实施例中的视频换脸的处理装置能够实现对应于上述图2所对应的实施例中所执行的视频换脸的处理方法的步骤。视频换脸的处理装置实现的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块，所述模块可以是软件和/或硬件。

如图5所示，本申请实施例提出的视频换脸的处理装置100包括输入输出模块11和处理模块12，具体地：

输入输出模块11，用于获取第一视频素材和第二视频素材，将相似度高于预设相似度的素材属性信息的所述第一帧图片和所述第二帧图片分别输入至预设模型，输出人脸替换后的替换视频；其中，所述第一视频素材包含被替换者侧脸的第一帧图片，所述第二视频素材包含替换者侧脸的第二帧图片，所述第一帧图片和所述第二帧图片均预先标记有至少一种素材属性信息。

在其中一个实施例中，该被替换者为所述第一视频素材中的真人，该素材属性包括面部表情、人脸姿态以及人脸大小。

在其中一个实施例中，该素材属性信息包括不同类型的多个面部表情标签，该输入输出模块具体用于：

获取类型相同的面部表情标签；

在其中一个实施例中，所述素材属性信息包括不同的多个人脸姿态，该输入输出模块11还包括：

人脸姿态获取单元，用于获取相同的人脸姿态；

第二图片输入单元，用于将具有相同的人脸姿态对应的第一帧图片和第二帧图片分别输入所述预设模型。

处理模块12，用于当所述替换视频存在拼接缺陷时，调整所述第一帧图片的数量和所述第二帧图片的数量，并将调整后的第一帧图片和第二帧图片输入至所述预设模型，直至所述预设模型输出的替换视频不存在拼接缺陷，将不存在缺陷时的第一帧图片的数量和第二帧图片的数量的比例作为目标配比。

在其中一个实施例中，该被替换者为第一视频素材中的真人，所述素材属性信息包括面部表情标签、人脸姿态以及人脸大小。

进一步地，该输入输出模块11具体包括：

第一输入单元，用于分别将第一配对图片、第二配对图片和第三配对图片输入至预设模型；

在其中一个实施例中，该输入输出模块11包括：

视频片段获取单元，用于从影视剧中截取或从网络平台下载包含所述被替换者的视频片段。

进一步作为可选地，该视频换脸的处理装置100还包括：

捕捉模块，用于若所述视频片段中存在所述被替换者的人脸区域以外的目标人脸区域，则捕捉所述目标人脸区域；

填充模块，用于将所述目标人脸区域填充预设的颜色。

将其他人脸区域填充预设的颜色有利于后期预设模型对人脸特征进行识别和替换，提高换脸的成功率。

在其中一个实施例中，该拼接缺陷包括存在拼接痕迹，或拼接处存在对比度小于预设对比度的区域。

进一步地，该输入输出模块11还包括以下至少其中一种：

第一获取单元，用于从影视剧中截取或从网络平台下载包含所述替换者的视频片段；

第二获取单元，用于通过计算机动画技术生成包含所述替换者的视频片段；

第三获取单元，用于通过图像动画的一阶运动模型生成数字人表情，将所述数字人表情作为所述第二视频素材中的第二帧图片。

进一步作为可选地，该替换者为虚拟人物，该输入输出模块11进一步包括：

外表生成单元，用于通过3D建模生成所述虚拟人物的外表；

骨骼绑定单元，用于对所述虚拟人物的外表进行骨骼绑定，得到所述虚拟人物；

动画制作单元，用于通过动画制作对所述虚拟人物进行处理，得到包含所述替换者的所述第二视频素材。

本实施例提出的视频换脸的处理装置通过上述输入输出模块获取包含被替换者的第一视频素材以及包含替换者的第二视频素材，由于第一视频素材及该第二视频素材中均包括有预先标记有至少一种素材属性及所述素材属性的取值的第一帧图片和第二帧图片，且该素材属性包括人脸姿态，该素材属性的取值包括人脸姿态为侧脸，使得在侧脸替换的训练场景中可以通过丰富的训练素材对训练过程做支撑，在循环的过程中通过该处理模块根据预设模型的输出结果，不断调节第一帧图片与第二帧图片的配比以使其达到最优，从而使得被替换者的视频素材帧图片与替换者的视频素材帧图片在通过这种目标配比并利用预设模型替换输出的过程中产出的替换视频没有瑕疵，最后再通过调节好的被替换者的视频素材帧图片与替换者的视频素材帧图片的目标配比，并通过该输入输出模块利用预设模型对实际需要替换的包含被替换者的待替换视频文件进行输出，以确保替换后输出的人脸拼接处，尤其是人侧脸的拼接处没有拼接痕迹以及拼接模糊等缺陷。

上面从模块化功能实体的角度对本申请实施例中的服务器和终端进行了描述，下面从硬件处理的角度分别对本申请实施例中的服务器和终端进行描述。

需要说明的是，在本申请各实施例(包括图5以及图5所示的各实施例)中对应的所有的输入输出模块对应的实体设备可以为发射器和接收器，该处理模块、捕捉模块和填充模块对应的实体设备可以为处理器。图8为本申请实施例中实施视频换脸的处理方法的实体装置的一种结构示意图，图5以及图5中对应的各装置均可以具有如图8所示的结构，当其中一种装置具有如图8所示的结构时，图8中的处理器、输入输出接口实现前述对应该装置的装置实施例提供的处理模块、捕捉模块、填充模块、输入输出模块和所有单元相同或相似的功能，图8中的存储器存储处理器执行上述视频换脸的处理方法时需要调用的计算机程序。

图6为本申请实施例中计算机设备的一种结构示意图，该计算机设备可以是服务器，图5所示的视频换脸的处理装置可以具有如图6所示的结构，当图5所示的装置具有如图6所示的结构时，图6中的处理器、输入装置和网络接口能够实现前述对应该装置的装置实施例提供的处理模块、捕捉模块、填充模块、输入输出模块和所有单元相同或相似的功能，图6中的存储器存储处理器执行上述视频换脸的处理方法时需要调用的计算机程序。在本申请实施例图5所示的实施例中的输入输出模块所对应的实体设备可以为输入输出接口，处理模块对应的实体设备可以为处理器。

图5所示的装置可以具有如图7所示的结构，当图5所示的装置具有如图7所示的结构时，图7中的处理器和RF电路能够实现前述对应该装置的装置实施例提供的处理模块、捕捉模块、填充模块、输入输出模块和所有单元相同或相似的功能，图7中的存储器存储处理器执行上述视频换脸的处理方法时需要调用的计算机程序。

作为可选地，上述实施例图2中步骤S104和步骤S105还可以在手机、平板电脑、个人数字助理(英文全称：Personal Digital Assistant，英文简称：PDA)、销售终端(英文全称：Point of Sales，英文简称：POS)、车载电脑等任意终端上运行，当该步骤S104和步骤S105在手机上运行时，可以获取存储在本地的包含所述被替换者的待替换视频文件，也可以通过网络从其他设备端获取包含所述被替换者的待替换视频文件。然后通过网络将该待替换视频文件发送至该预设模型，该预设模型根据所述目标配比输出包含所述替换者脸部的目标视频，然后将该目标视频发送至本端手机屏幕进行显示。

本申请实施例还提供了另一种终端，如图7所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理、销售终端、车载电脑等任意终端，以终端为手机为例：

图7为本申请实施例中实施视频换脸的处理方法的手机的一种结构示意图。参考图7，手机包括：射频(英文全称：Radio Frequency，英文简称：RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文全称：wirelessfidelity，英文简称：Wi-Fi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图7中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文简称：LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文简称：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，英文简称：GPRS)、码分多址(英文全称：Code Division Multiple Access，英文简称：CDMA)、宽带码分多址(英文全称：Wideband Code Division Multiple Access,英文简称：WCDMA)、长期演进(英文全称：LongTerm Evolution，英文简称：LTE)、电子邮件、短消息服务(英文全称：Short MessagingService，英文简称：SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(英文全称：Liquid Crystal Display，英文简称：LCD)、有机发光二极管(英文全称：Organic Light-Emitting Diode,英文简称：OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图7中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

Wi-Fi属于短距离无线传输技术，手机通过Wi-Fi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了Wi-Fi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的处理器1080还具有控制执行以上由图8所示的装置110执行的方法流程。

图8是本申请实施例提供的一种服务器结构示意图，该服务器110可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(英文全称：centralprocessing units，英文简称：CPU)1122(例如，一个或一个以上处理器)和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器110上执行存储介质1130中的一系列指令操作。

服务器110还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows Server，Mac OS X，Unix,Linux，FreeBSD等等。

上述实施例中由服务器所执行的步骤可以基于该图8所示的服务器110的结构。例如上述实施例中由图5所示的视频换脸的处理装置100所执行的步骤可以基于该图8所示的服务器结构。例如：所述处理器1122通过调用存储器1132中的指令，执行以下操作：

通过输入输出接口1158获取第一视频素材和第二视频素材，所述第一视频素材包含被替换者侧脸的第一帧图片，所述第二视频素材包含替换者侧脸的第二帧图片，所述第一帧图片和所述第二帧图片均预先标记有至少一种素材属性信息；

获取包含所述被替换者的待替换视频文件；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

以上对本申请实施例所提供的技术方案进行了详细介绍，本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请实施例的限制。

Claims

1.一种视频换脸的处理方法，其特征在于，所述方法包括：

获取第一视频素材和第二视频素材，所述第一视频素材包含被替换者侧脸的第一帧图片，所述第二视频素材包含替换者侧脸的第二帧图片，所述第一帧图片和所述第二帧图片均预先标记有至少一种素材属性信息；所述素材属性信息包括不同类型的多个面部表情标签、不同的多个人脸姿态、人脸大小；

获取包含所述被替换者的待替换视频文件；

2.根据权利要求1所述的视频换脸的处理方法，其特征在于，所述素材属性信息包括不同类型的多个面部表情标签，所述将相似度高于预设相似度的素材属性信息的所述第一帧图片和所述第二帧图片分别输入至预设模型，包括：

获取类型相同的面部表情标签；

3.根据权利要求1所述的视频换脸的处理方法，其特征在于，所述素材属性信息包括不同的多个人脸姿态，所述将相似度高于预设相似度的素材属性信息的所述第一帧图片和所述第二帧图片分别输入至预设模型，包括：

获取相同的人脸姿态；

4.根据权利要求2所述的视频换脸的处理方法，其特征在于，所述将相似度高于预设相似度的素材属性信息的所述第一帧图片和所述第二帧图片分别输入至预设模型，包括：

分别将第一配对图片、第二配对图片和第三配对图片输入至预设模型；

5.根据权利要求4所述的视频换脸的处理方法，其特征在于，所述第一视频素材包括从影视剧中截取或从网络平台下载的包含所述被替换者的视频片段，在所述从影视剧中截取或从网络平台下载包含所述被替换者的视频片段之后，所述方法还包括：

将所述目标人脸区域填充预设的颜色。

6.根据权利要求1所述的视频换脸的处理方法，其特征在于，所述拼接缺陷包括存在拼接痕迹，或拼接处存在对比度小于预设对比度的区域。

7.根据权利要求1所述的视频换脸的处理方法，其特征在于，所述替换者为虚拟人物，所述获取包含替换者的第二视频素材，包括：

通过3D建模生成所述虚拟人物的外表；

对所述虚拟人物的外表进行骨骼绑定，得到所述虚拟人物；

通过动画制作对所述虚拟人物进行处理，得到包含所述替换者的所述第二视频素材。

8.一种视频换脸的处理装置，其特征在于，所述装置包括：

输入输出模块，用于获取第一视频素材和第二视频素材，将相似度高于预设相似度的素材属性信息的第一帧图片和第二帧图片分别输入至预设模型，输出人脸替换后的替换视频；其中，所述第一视频素材包含被替换者侧脸的第一帧图片，所述第二视频素材包含替换者侧脸的第二帧图片，所述第一帧图片和所述第二帧图片均预先标记有至少一种素材属性信息；所述素材属性信息包括不同类型的多个面部表情标签、不同的多个人脸姿态、人脸大小；

9.一种视频换脸的装置，其特征在于，所述装置包括：

至少一个处理器、存储器和输入输出单元；

其中，所述存储器用于存储计算机程序，所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1-7中任一项所述的视频换脸的处理方法。

10.一种计算机可读存储介质，其特征在于，其包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7中任一项所述的视频换脸的处理方法。