CN111028144A

CN111028144A - 视频换脸方法及装置、存储介质

Info

Publication number: CN111028144A
Application number: CN201911248814.6A
Authority: CN
Inventors: 赖师悦
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2020-04-17
Anticipated expiration: 2039-12-09
Also published as: CN111028144B

Abstract

本申请公开一种视频换脸方法及装置、存储介质，属于图像处理领域。该方法包括：获取换脸视频帧和融合视频帧，换脸视频帧是采用模板人脸图像替换目标视频帧中的目标人脸图像得到的，换脸视频帧包括模板人脸图像和目标人脸图像的背景图像，融合视频帧是将换脸视频帧中的模板人脸图像与背景图像融合得到的；对换脸视频帧进行三角剖分，得到至少一个换脸特征区域；对融合视频帧进行三角剖分，得到至少一个融合特征区域，该至少一个融合特征区域与该至少一个换脸特征区域一一对应；根据每个换脸特征区域在换脸视频帧中的位置，校正该每个换脸特征区域对应的融合特征区域在融合视频帧中的位置，得到换脸融合视频帧。本申请有助于改善视频换脸效果。

Description

视频换脸方法及装置、存储介质

技术领域

本申请涉及图像处理领域，特别涉及一种视频换脸方法及装置、存储介质。

背景技术

视频换脸是指通过图像处理算法，采用模板人脸替换视频图像中的目标人脸，并使模板人脸与视频图像融合的过程。

目前，在进行视频换脸时，对于视频图像中的目标人脸图像，首先根据预先训练好的网络模型生成模板人脸图像，然后使用该模板人脸图像替换视频图像中的目标人脸图像，并将模板人脸图像与视频图像进行柏松融合，得到换脸后的视频图像。

但是，上述方案进行视频换脸后，换脸后的视频图像存在一定的人脸抖动(例如人脸的五官发生偏移)，因此，上述视频换脸方案的视频换脸效果较差。

发明内容

本申请提供一种视频换脸方法及装置、存储介质，有助于解决换脸后的视频图像的人脸抖动问题，改善视频换脸效果。所述技术方案如下：

一方面，提供一种视频换脸方法，所述方法包括：

获取换脸视频帧和融合视频帧，所述换脸视频帧是采用模板人脸图像替换目标视频帧中的目标人脸图像得到的，所述换脸视频帧包括所述模板人脸图像和所述目标人脸图像的背景图像，所述融合视频帧是将所述换脸视频帧中的所述模板人脸图像与所述背景图像融合得到的；

对所述换脸视频帧进行三角剖分，得到至少一个换脸特征区域；

对所述融合视频帧进行三角剖分，得到至少一个融合特征区域，所述至少一个融合特征区域与所述至少一个换脸特征区域一一对应；

对于所述至少一个换脸特征区域中的每个换脸特征区域，根据所述每个换脸特征区域在所述换脸视频帧中的位置，校正所述每个换脸特征区域对应的所述融合特征区域在所述融合视频帧中的位置，得到换脸融合视频帧。

可选地，所述对所述换脸视频帧进行三角剖分，得到至少一个换脸特征区域，包括：

对所述换脸视频帧进行人脸对齐，确定出所述换脸视频帧中的多个换脸特征点；

根据所述多个换脸特征点对所述换脸视频帧进行三角剖分，得到所述至少一个换脸特征区域；

所述对所述融合视频帧进行三角剖分，得到至少一个融合特征区域，包括：

对所述融合视频帧进行人脸对齐，确定出所述融合视频帧中的多个融合特征点；

根据所述多个融合特征点对所述融合视频帧进行三角剖分，得到所述至少一个融合特征区域。

可选地，在得到所述换脸融合视频帧之后，所述方法还包括：

获取位于所述目标视频帧之前的n个第一视频帧和位于所述目标视频帧之后的m个第二视频帧，所述m和所述n均为大于或等于1的整数；

根据所述n个第一视频帧、所述换脸融合视频帧和所述m个第二视频帧，对所述换脸融合视频帧进行光影抖动处理，得到光影视频帧。

可选地，所述根据所述n个第一视频帧、所述换脸融合视频帧和所述m个第二视频帧，对所述换脸融合视频帧进行光影抖动处理，得到光影视频帧，包括：

从所述换脸融合视频帧中确定至少一个换脸融合特征区域；

从每个所述第一视频帧中确定至少一个第一光影融合区域，每个所述第一视频帧中的所述至少一个第一光影融合区域与所述至少一个换脸融合特征区域一一对应；

从每个所述第二视频帧中确定至少一个第二光影融合区域，每个所述第二视频帧中的所述至少一个第二光影融合区域与所述至少一个换脸融合特征区域一一对应；

对于所述至少一个换脸融合特征区域中的每个换脸融合特征区域，根据所述每个换脸融合特征区域的像素值，与所述每个换脸融合特征区域对应的n个第一光影融合区域的像素值，以及，与所述每个换脸融合特征区域对应的m个第二光影融合区域的像素值，确定所述每个换脸融合特征区域的光影像素值；

对于所述至少一个换脸融合特征区域中的每个换脸融合特征区域，根据所述每个换脸融合特征区域的光影像素值，对所述每个换脸融合特征区域进行光影抖动处理，得到所述光影视频帧。

可选地，在从所述换脸融合视频帧中确定至少一个换脸融合特征区域之前，所述方法还包括：对所述换脸融合视频帧进行滤波处理。

可选地，所述从所述换脸融合视频帧中确定至少一个换脸融合特征区域，包括：将所述换脸融合视频帧中的校正位置后的所述至少一个融合特征区域，确定为所述至少一个换脸融合特征区域。

可选地，m＝n＝2。

可选地，在获取换脸视频帧和融合视频帧之前，所述方法还包括：

获取所述目标视频帧和所述模板人脸图像，所述目标视频帧包括所述目标人脸图像和所述背景图像；

所述获取换脸视频帧和融合视频帧，包括：

采用所述模板人脸图像替换所述目标视频帧中的所述目标人脸图像，得到所述换脸视频帧；

将所述换脸视频帧中的所述模板人脸图像与所述背景图像融合，得到所述融合视频帧。

另一方面，提供一种视频换脸装置，所述装置包括：

第一获取模块，用于获取换脸视频帧和融合视频帧，所述换脸视频帧是采用模板人脸图像替换目标视频帧中的目标人脸图像得到的，所述换脸视频帧包括所述模板人脸图像和所述目标人脸图像的背景图像，所述融合视频帧是将所述换脸视频帧中的所述模板人脸图像与所述背景图像融合得到的；

第一剖分模块，用于对所述换脸视频帧进行三角剖分，得到至少一个换脸特征区域；

第二剖分模块，用于对所述融合视频帧进行三角剖分，得到至少一个融合特征区域，所述至少一个融合特征区域与所述至少一个换脸特征区域一一对应；

位置校正模块，用于对于所述至少一个换脸特征区域中的每个换脸特征区域，根据所述每个换脸特征区域在所述换脸视频帧中的位置，校正所述每个换脸特征区域对应的所述融合特征区域在所述融合视频帧中的位置，得到换脸融合视频帧。

可选地，所述第一剖分模块，用于：

所述第二剖分模块，用于：

可选地，所述装置还包括：

第二获取模块，用于获取位于所述目标视频帧之前的n个第一视频帧和位于所述目标视频帧之后的m个第二视频帧，所述m和所述n均为大于或等于1的整数；

抖动处理模块，用于根据所述n个第一视频帧、所述换脸融合视频帧和所述m个第二视频帧，对所述换脸融合视频帧进行光影抖动处理，得到光影视频帧。

可选地，所述抖动处理模块，用于：

从所述换脸融合视频帧中确定至少一个换脸融合特征区域；

可选地，所述装置还包括：滤波处理模块，用于在从所述换脸融合视频帧中确定至少一个换脸融合特征区域之前，对所述换脸融合视频帧进行滤波处理。

可选地，所述抖动处理模块，用于将所述换脸融合视频帧中的校正位置后的所述至少一个融合特征区域，确定为所述至少一个换脸融合特征区域。

可选地，m＝n＝2。

可选地，所述装置还包括：

第三获取模块，用于获取所述目标视频帧和所述模板人脸图像，所述目标视频帧包括所述目标人脸图像和所述背景图像；

所述第一获取模块，用于：

再一方面，提供一种视频换脸装置，包括：处理器和存储器，

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述存储器上所存储的计算机程序，实现如上述一方面或一方面的任一可选方式所述的视频换脸方法。

又一方面，提供一种存储介质，当所述存储介质中的程序由处理器执行时，能够实现如上述一方面或一方面的任一可选方式所述的视频换脸方法。

本申请提供的技术方案带来的有益效果是：

本申请提供的视频换脸方法及装置、存储介质，在获取换脸视频帧和融合视频帧后，对换脸视频帧进行三角剖分得到至少一个换脸特征区域，对融合视频帧进行三角剖分得到至少一个融合特征区域，该至少一个融合特征区域与该至少一个换脸特征区域一一对应，根据每个换脸特征区域在换脸视频帧中的位置，校正相应的融合特征区域在融合视频帧中的位置，得到换脸融合视频帧，该换脸视频帧是采用模板人脸图像替换目标视频帧中的目标人脸图像得到的，该换脸视频帧包括模板人脸图像和目标人脸图像的背景图像，该融合视频帧是将换脸视频帧中的模板人脸图像与背景图像融合得到的。由于在进行换脸融合之后，根据换脸特征区域在换脸视频帧中的位置，校正相应的融合特征区域在融合视频帧中的位置，因此有助于解决换脸融合视频帧中的人脸抖动问题，改善视频换脸效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频换脸方法的方法流程图；

图2是本申请实施例提供的另一种视频换脸方法的方法流程图；

图3是本申请实施例提供的一种从换脸视频帧中确定换脸特征区域的方法流程图；

图4是本申请实施例提供的一种换脸视频帧中的换脸特征点的示意图；

图5是本申请实施例提供的一种根据多个换脸特征点对换脸视频帧进行三角剖分的示意图；

图6是本申请实施例提供的一种从融合视频帧中确定融合特征区域的方法流程图；

图7是本申请实施例提供的一种对换脸融合视频帧进行光影抖动处理的方法流程图；

图8是本申请实施例提供的一种视频换脸装置的框图；

图9是本申请实施例提供的另一种视频换脸装置的框图；

图10是本申请实施例提供的一种视频换脸装置的结构示意图。

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

具体实施方式

为了使本申请的原理、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

本申请实施例提供的视频换脸方法可以由终端执行，该终端可以是智能手机、平板电脑、智能电视、智能手表、动态影像专家压缩标准音频层面5(英文：Moving PictureExperts Group Audio Layer V；简称：MP5)播放器、膝上型便携计算机或台式计算机等等。可选地，该终端中可以安装有视频换脸应用程序(英文：Application；简称：APP)，该视频换脸APP例如可以是人工智能(英文：Artificial Intelligence；简称：AI)换脸等任何能够实现换脸的APP。

请参考图1，其示出了本申请实施例提供的一种视频换脸方法的方法流程图，该视频换脸方法可以由终端执行。参见图1，该方法可以包括如下步骤：

步骤101、获取换脸视频帧和融合视频帧。

其中，该换脸视频帧是采用模板人脸图像替换目标视频帧中的目标人脸图像得到的，该换脸视频帧包括模板人脸图像和目标人脸图像的背景图像，该融合视频帧是将该换脸视频帧中的模板人脸图像与背景图像融合得到的。

步骤102、对换脸视频帧进行三角剖分，得到至少一个换脸特征区域。

步骤103、对融合视频帧进行三角剖分，得到至少一个融合特征区域，该至少一个融合特征区域与该至少一个换脸特征区域一一对应。

步骤104、对于该至少一个换脸特征区域中的每个换脸特征区域，根据该每个换脸特征区域在换脸视频帧中的位置，校正该每个换脸特征区域对应的融合特征区域在融合视频帧中的位置，得到换脸融合视频帧。

综上所述，本申请实施例提供的视频换脸方法，在获取换脸视频帧和融合视频帧后，对换脸视频帧进行三角剖分得到至少一个换脸特征区域，对融合视频帧进行三角剖分得到至少一个融合特征区域，该至少一个融合特征区域与该至少一个换脸特征区域一一对应，根据每个换脸特征区域在换脸视频帧中的位置，校正相应的融合特征区域在融合视频帧中的位置，得到换脸融合视频帧。由于在进行换脸融合之后，根据换脸特征区域在换脸视频帧中的位置，校正相应的融合特征区域在融合视频帧中的位置，因此有助于解决换脸融合视频帧中的人脸抖动问题，改善视频换脸效果。

请参考图2，其示出了本申请实施例提供的另一种视频换脸方法的方法流程图，该视频换脸方法可以由终端执行。参见图2，该方法可以包括如下步骤：

步骤201、获取目标视频帧和模板人脸图像，该目标视频帧包括目标人脸图像和该目标人脸图像的背景图像。

其中，目标视频帧可以是待处理视频中的任一视频帧，该目标视频帧可以包括目标人脸图像和该目标人脸图像的背景图像，该背景图像可以是该目标视频帧中除该目标人脸图像之外的图像。

在本申请实施例中，终端可以从待处理视频中获取该目标视频帧，并根据该目标视频帧获取模板人脸图像。可选地，终端根据该目标视频帧中的目标人脸图像，使用模板人脸网络模型生成模板人脸图像，或者，终端根据该目标视频帧中的目标人脸图像，从模板人脸库中获取模板人脸图像，或者，终端选择任意一张人脸图像作为该模板人脸图像，当然，终端还可以通过其他方式获取模板人脸图像，本申请实施例对此不作限定。

步骤202、采用该模板人脸图像替换该目标视频帧中的目标人脸图像，得到换脸视频帧。

可选地，终端可以从模板人脸图像中确定至少一个模板特征区域(模板特征区域指的是模板人脸图像中的特征区域)，并从目标视频帧的目标人脸图像中确定与该至少一个模板特征区域一一对应的至少一个目标特征区域(目标特征区域指的是目标人脸图像中的特征区域)，然后将该至少一个模板特征区域一一对应映射到该至少一个目标特征区域中，从而采用模板人脸图像替换该目标视频帧中的目标人脸图像，得到换脸视频帧。其中，终端将至少一个模板特征区域一一对应映射到该至少一个目标特征区域中可以包括：终端根据每个模板特征区域的像素值配置相应的目标特征区域的像素值，使每个目标特征区域的像素值与相应的模板特征区域的像素值相等。

可选地，对于模板人脸图像，终端可以通过人脸检测技术对该模板人脸图像进行人脸检测，确定出该模板人脸图像中的人脸区域，然后对检测出的人脸区域进行人脸对齐，以从该模板人脸图像中确定出多个模板特征点(模板特征点指的是模板人脸图像中的特征点)，根据该多个模板特征点对该目标人脸图像进行三角剖分，得到至少一个模板特征区域。对于目标视频帧，终端可以通过人脸检测技术对该目标视频帧进行人脸检测，确定出该目标视频帧的目标人脸图像中的人脸区域，然后对检测出的人脸区域进行人脸对齐，以从该目标视频帧的目标人脸图像中确定出多个目标特征点(目标特征点指的是目标人脸图像中的特征点)，根据该多个目标特征点对该目标人脸图像进行三角剖分，得到至少一个目标特征区域。其中，特征点可以是五官特征点，例如，鼻子特征点、嘴巴特征点、眼睛特征点、眉毛特征点或脸部轮廓特征点中的至少一种，当然，该特征点还可以是脸部的其他特征点，本申请实施例对此不做限定。

需要说明的是，该步骤202所描述的采用模板人脸图像替换目标人脸图像的过程仅仅示例性的，实际应用中，可以采用任何能够实现人脸替换的方案采用模板人脸图像替换目标人脸图像，本申请实施例在此不再赘述。

步骤203、将该换脸视频帧中的该模板人脸图像与该背景图像融合，得到融合视频帧。

可选地，终端可以通过泊松融合或Alpha(阿尔法)融合等融合技术，将该换脸视频帧中的该模板人脸图像与该背景图像融合，得到融合视频帧。其中，将模板人脸图像与背景图像融合，可以使模板人脸图像与背景图像的色彩、亮度等更协调，融合视频帧更为自然。

步骤204、对该换脸视频帧进行三角剖分，得到至少一个换脸特征区域。

可选地，请参考图3，其示出了本申请实施例提供的一种从换脸视频帧中确定换脸特征区域的方法流程图，参见图3，该方法可以包括如下几个子步骤：

子步骤2041、对换脸视频帧进行人脸对齐，确定出该换脸视频帧中的多个换脸特征点。

可选地，终端可以通过人脸检测技术对该换脸视频帧进行人脸检测，确定出该换脸视频帧中的人脸区域，之后对该换脸视频帧中的人脸区域进行人脸对齐，确定出该换脸视频帧中的多个换脸特征点。例如，可以确定出该换脸视频帧中的106个换脸特征点。其中，该换脸特征点指的是换脸视频帧中的特征点，该特征点可以是五官特征点，例如，鼻子特征点、嘴巴特征点、眼睛特征点、眉毛特征点或脸部轮廓特征点中的至少一种，当然，该特征点还可以是脸部的其他特征点，本申请实施例对此不做限定。

示例地，请参考图4，其示出了本申请实施例提供的一种换脸视频帧中的换脸特征点的示意图，如图4所示，该换脸视频帧中包括多个换脸特征点，该多个换脸特征点包括脸部轮廓特征点A11～A26，嘴巴特征点B11～B16，左眼特征点C11～C16，右眼特征点D11～D16，左眉毛特征点E11～E15，右眉毛特征点F11～F15，鼻子特征点G11～G17，以及其他的特征点。终端可以对该图4所示的该换脸视频帧中的人脸区域进行人脸对齐，确定出该多个换脸特征点。

需要说明的是，在确定出该换脸视频帧中的多个换脸特征点后，终端可以得到该多个换脸特征点在该换脸视频帧中的位置，并且终端可以记录多个换脸特征点在该换脸视频帧中的位置。示例地，终端确定出的106个换脸特征点在该换脸视频帧中的位置可以是P_i ^c，i＝1,2,3,...106。

子步骤2042、根据该多个换脸特征点对该换脸视频帧进行三角剖分，得到至少一个换脸特征区域。

其中，三角剖分的定义是：假设二维实数域上的有限点集V，边w是由该有限点集V中的点作为端点构成的封闭线段，集合W为边w的集合，那么有限点集V的一个三角剖分T＝(V，W)是一个平面图M，该平面图M满足条件：

1、除了端点，平面图M中的边不包含点集V中的任何点；

2、没有相交边；

3、平面图M中所有的面都是三角面，且所有三角面的合集是有限点集V的凸包。

在本申请实施例中，对该换脸视频帧进行三角剖分也即是，根据子步骤2041从换脸视频帧中确定出的多个换脸特征点，将换脸视频帧分割成一个个小的三角形，三角形围成的区域也即是换脸特征区域。可选地，可以采用delaunay三角剖分法或德洛内三角剖分法对该换脸视频帧进行三角剖分，当然，也可以采用其他三角剖分法该换脸视频帧进行三角剖分，本申请实施例对此不做限定。

示例地，请参考图5，其示出了本申请实施例提供的一种根据换脸视频帧中的多个换脸特征点对该换脸视频帧进行三角剖分的示意图，如图5所示，从换脸视频帧中确定出的多个换脸特征点构成有限点集V，该换脸视频帧中包括多个三角形的换脸特征区域，三角形区域的顶点为换脸特征点，除了三角形的顶点，该换脸视频帧中的边不包含点集V中的任何点，且换脸视频帧中的多个三角形没有相交边，该换脸视频帧中所有的面都是三角面，所有三角面的合集是有限点集V的凸包。

步骤205、对该融合视频帧进行三角剖分，得到至少一个融合特征区域，该至少一个融合特征区域与该至少一个换脸特征区域一一对应。

可选地，请参考图6，其示出了本申请实施例提供的一种从融合视频帧中确定融合特征区域的方法流程图，参见图6，该方法可以包括如下几个子步骤：

子步骤2051、对融合视频帧进行人脸对齐，确定出该融合视频帧中的多个融合特征点。

子步骤2052、根据该多个融合特征点对该融合视频帧进行三角剖分，得到至少一个融合特征区域。

该图6所示实施例的实现过程可以参考图3所示实施例，本申请实施例在此不再赘述。但是需要说明的是，在该子步骤2051中，终端可以确定出该融合视频帧中的106个融合特征点，并记录该106个融合特征点在该融合视频帧中的位置，该106个融合特征点在该融合视频帧中的位置可以是P_i ^b，i＝1,2,3,...106。该106个融合特征点与上述图3所示实施例中的106个换脸特征点可以一一对应，对于相应的融合特征点和换脸特征点，二者的位置可能存在偏移。

步骤206、对于该至少一个换脸特征区域中的每个换脸特征区域，根据该每个换脸特征区域在该换脸视频帧中的位置，校正该每个换脸特征区域对应的融合特征区域在该融合视频帧中的位置，得到换脸融合视频帧。

终端确定至少一个换脸特征区域和与该至少一个换脸特征区域一一对应的至少一个融合特征区域后，对于该至少一个换脸特征区域中的每个换脸特征区域，终端根据该每个换脸特征区域在该换脸视频帧中的位置，调整相应的融合特征区域在该融合视频帧中的位置，从而对该每个换脸特征区域对应的融合特征区域在该融合视频帧中的位置进行校正，使该融合特征区域在该融合视频帧中的位置与相应的换脸特征区域在该换脸视频帧中的位置相同，得到换脸融合视频帧。其中，该换脸特征区域可以是进行三角剖分得到的，该换脸特征区域可以为三角形区域时，在一些场景中，终端根据每个换脸特征区域在该换脸视频帧中的位置，调整相应的融合特征区域在该融合视频帧中的位置也称为终端根据每个换脸特征区域在该换脸视频帧中的位置对相应的融合特征区域进行三角自贴。

可选地，终端根据每个换脸特征区域在该换脸视频帧中的位置，调整相应的融合特征区域在该融合视频帧中的位置可以包括：终端根据该每个换脸特征区域在该换脸视频帧中的位置和像素值，配置融合视频帧中，相应位置的像素值，使该相应位置的像素值与该换脸特征区域的像素值相等，从而将该融合特征区域调整至融合视频帧中与该换脸特征区域相同的位置。

需要说明的是，经过上述步骤201至步骤206，本申请实施例在采用模板人脸图像替换目标视频帧中的目标人脸图像得到换脸视频帧，以及，将模板人脸图像与目标视频帧的背景图像融合得到融合视频帧之后，对该换脸视频帧和该融合视频帧分别进行人脸检测，并根据该换脸视频帧中的换脸特征区域对该融合视频帧中的融合特征区域进行调整，得到最终的换脸融合视频帧，改善了换脸后的视频图像的人脸五官抖动的问题。然而，在实际换脸过程中，换脸后的视频图像还会存在光影抖动问题，本申请实施例提供的技术方案还可以改善换脸后的视频图像的光影抖动问题，其实现过程可以参考下述步骤207至步骤208。

步骤207、获取位于目标视频帧之前的n个第一视频帧和位于该目标视频帧之后的m个第二视频帧。

在本申请实施例中，终端可以从待处理视频中获取该n个第一视频帧和该m个视频帧。可选地，该n个第一视频帧可以是位于目标视频帧之前且距离与目标视频帧最近的n个视频帧，该m个第二视频帧可以是位于目标视频帧之后且距离与目标视频帧最近的m个视频帧。其中，m和n均为大于或等于1的整数，m和n的取值可以根据实际情况确定，例如，m＝n＝2。

步骤208、根据该n个第一视频帧、该换脸融合视频帧和该m个第二视频帧，对该换脸融合视频帧进行光影抖动处理，得到光影视频帧。

可选地，请参考图7，其示出了本申请实施例提供的一种对换脸融合视频帧进行光影抖动处理的方法流程图，参见图7，该方法可以包括如下几个子步骤：

子步骤2081、对换脸融合视频帧进行滤波处理。

可选地，终端可以通过人脸检测技术对换脸融合视频帧进行人脸检测，确定出该换脸融合视频帧中的人脸区域，然后对该换脸融合视频帧中的人脸区域进行滤波处理，例如，终端对该换脸融合视频帧中的人脸区域进行高频滤波处理。其中，对换脸融合视频帧中的人脸区域进行滤波处理，可以实现对该脸部区域的磨皮效果，使该人脸区域的亮度更均匀。

子步骤2082、从该换脸融合视频帧中确定至少一个换脸融合特征区域。

根据上述描述容易理解，换脸融合视频帧是根据换脸视频帧中的换脸特征区域的位置，校正融合视频帧中相应的融合特征区域的位置得到的，在该子步骤2081中，终端可以将换脸融合视频帧中的校正位置后的至少一个融合特征区域，确定为至少一个该换脸融合特征区域。

子步骤2083、从每个第一视频帧中确定至少一个第一光影融合区域，每个第一视频帧中的至少一个第一光影融合区域与该至少一个换脸融合特征区域一一对应。

可选地，对于每个第一视频帧，终端可以通过人脸检测技术对该第一视频帧进行人脸检测，确定出该第一视频帧中的人脸区域，对该第一视频帧中的人脸区域进行人脸对齐，确定出该第一视频帧中的多个特征点，根据该多个特征点对该第一视频帧进行三角剖分，得到至少一个第一光影融合区域，该至少一个第一光影融合区域与子步骤2082中的至少一个换脸融合特征区域一一对应。其中，该子步骤2083的实现过程可以参考图3所示实施例，在此不再赘述。

子步骤2084、从每个第二视频帧中确定至少一个第二光影融合区域，每个第二视频帧中的至少一个第二光影融合区域与该至少一个换脸融合特征区域一一对应。

可选地，对于每个第二视频帧，终端可以通过人脸检测技术对该第二视频帧进行人脸检测，确定出该第二视频帧中的人脸区域，对该第二视频帧中的人脸区域进行人脸对齐，确定出该第二视频帧中的多个特征点，根据该多个特征点对该第二视频帧进行三角剖分，得到至少一个第二光影融合区域，该至少一个第二光影融合区域与子步骤2082中的至少一个换脸融合特征区域一一对应。其中，该子步骤2084的实现过程可以参考图3所示实施例，在此不再赘述。

子步骤2085、对于该至少一个换脸融合特征区域中的每个换脸融合特征区域，根据该每个换脸融合特征区域的像素值，与该每个换脸融合特征区域对应的n个第一光影融合区域的像素值，以及，与该每个换脸融合特征区域对应的m个第二光影融合区域的像素值，确定该每个换脸融合特征区域的光影像素值。

可选地，终端可以确定每个换脸融合特征区域的像素值、每个第一光影融合区域的像素值以及每个第二光影融合区域的像素值，对于每个换脸融合特征区域，终端确定该每个换脸融合特征区域的像素值，与该每个换脸融合特征区域对应的n个第一光影融合区域的像素值，以及，与该每个换脸融合特征区域对应的m个第二光影融合区域的像素值的平均值，将该平均值确定为该每个换脸融合特征区域的光影像素值。

示例地，假设至少一个换脸融合特征区域包括换脸融合特征区域Q1，该换脸融合特征区域Q1的像素值为X1，与该换脸融合特征区域Q1对应的n个第一光影融合区域的像素值为X11、X12、X13...X1n，与该换脸融合特征区域Q1对应的m个第二光影融合区域的像素值为X21、X22、X23...X2m，则终端将X1，X11、X12、X13...X1n，以及，X21、X22、X23...X2m这n+1+m个像素值的平均值确定为该换脸融合特征区域Q1的光影像素值，也即是终端将(X11+X12+X13+...+X1n+X1+X21+X22+X23+...+X2m)/(n+1+m)确定为该换脸融合特征区域Q1的光影像素值。

子步骤2086、对于该至少一个换脸融合特征区域中的每个换脸融合特征区域，根据该每个换脸融合特征区域的光影像素值，对该每个换脸融合特征区域进行光影抖动处理，得到光影视频帧。

可选地，对于每个换脸融合特征区域，终端可以将该换脸融合特征区域的像素值设置为光影像素值(也即是终端设置该换脸融合特征区域的像素值等于该光影像素值)，从而对该换脸融合特征区域进行光影抖动处理，进而实现对脸融合视频帧的光影抖动处理，得到光影视频帧。

在本申请实施例中，对换脸融合视频帧进行光影抖动处理，可以使处理得到的光影视频帧的光照平缓变换，改善光影抖动问题，光影抖动人眼不可感知。此外，容易理解，由于在对换脸融合视频帧进行光影抖动处理时使用到了目标视频帧的前n个第一视频帧和后m个第二视频帧，因此待处理视频的最前n个视频帧和最后m个视频帧可以不做光影抖动处理，当然，还可以借助其他方法对待处理视频的最前n个视频帧和最后m个视频帧进行光影抖动处理，本申请实施例对此不做限定。

需要说明的是，本申请实施例提供的视频换脸方法步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本申请的保护范围之内，因此不再赘述。

综上所述，本申请实施例提供的视频换脸方法，在获取换脸视频帧和融合视频帧后，对换脸视频帧进行三角剖分得到至少一个换脸特征区域，对融合视频帧进行三角剖分得到至少一个融合特征区域，该至少一个融合特征区域与该至少一个换脸特征区域一一对应，根据每个换脸特征区域在换脸视频帧中的位置，校正相应的融合特征区域在融合视频帧中的位置，得到换脸融合视频帧。由于在进行换脸融合之后，根据换脸特征区域在换脸视频帧中的位置，校正相应的融合特征区域在融合视频帧中的位置，因此有助于解决换脸融合视频帧中的人脸抖动问题，改善视频换脸效果。本申请实施例提供的技术方案，能够很好的改善换脸后的视频图像的人脸五官抖动以及光影抖动问题。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图8，其示出了本申请实施例提供的一种视频换脸装置800的框图，该视频换脸装置800可以为终端中的程序组件。参见图8，该视频换脸装置800可以包括但不限于：

第一获取模块810，用于获取换脸视频帧和融合视频帧，该换脸视频帧是采用模板人脸图像替换目标视频帧中的目标人脸图像得到的，该换脸视频帧包括该模板人脸图像和目标人脸图像的背景图像，该融合视频帧是将该换脸视频帧中的模板人脸图像与该背景图像融合得到的；

第一剖分模块820，用于对该换脸视频帧进行三角剖分得到，得到至少一个换脸特征区域；

第二剖分模块830，用于对该融合视频帧进行三角剖分得到，得到至少一个融合特征区域，该至少一个融合特征区域与该至少一个换脸特征区域一一对应；

位置校正模块840，用于对于该至少一个换脸特征区域中的每个换脸特征区域，根据该每个换脸特征区域在换脸视频帧中的位置，校正该每个换脸特征区域对应的融合特征区域在融合视频帧中的位置，得到换脸融合视频帧。

综上所述，本申请实施例提供的视频换脸装置，第一获取模块获取换脸视频帧和融合视频帧后，第一剖分模块对换脸视频帧进行三角剖分得到至少一个换脸特征区域，第二剖分模块对融合视频帧进行三角剖分得到至少一个融合特征区域，该至少一个融合特征区域与该至少一个换脸特征区域一一对应，位置校正模块根据每个换脸特征区域在换脸视频帧中的位置，校正相应的融合特征区域在融合视频帧中的位置，得到换脸融合视频帧。由于在进行换脸融合之后，根据换脸特征区域在换脸视频帧中的位置，校正相应的融合特征区域在融合视频帧中的位置，因此有助于解决换脸融合视频帧中的人脸抖动问题，改善视频换脸效果。

可选地，第一剖分模块820，用于：

对换脸视频帧进行人脸对齐，确定出该换脸视频帧中的多个换脸特征点；

根据该多个换脸特征点对该换脸视频帧进行三角剖分，得到至少一个换脸特征区域；

第二剖分模块830，用于：

对融合视频帧进行人脸对齐，确定出该融合视频帧中的多个融合特征点；

根据该多个融合特征点对该融合视频帧进行三角剖分，得到至少一个融合特征区域。

可选地，请参考图9，其示出了本申请实施例提供的另一种视频换脸装置800的框图，参见图9，在图8的基础上，该视频换脸装置800还包括：

第二获取模块850，用于获取位于目标视频帧之前的n个第一视频帧和位于目标视频帧之后的m个第二视频帧，m和n均为大于或等于1的整数；

抖动处理模块860，用于根据该n个第一视频帧、该换脸融合视频帧和该m个第二视频帧，对该换脸融合视频帧进行光影抖动处理，得到光影视频帧。

可选地，抖动处理模块860，用于：

从换脸融合视频帧中确定至少一个换脸融合特征区域；

从每个第一视频帧中确定至少一个第一光影融合区域，每个第一视频帧中的至少一个第一光影融合区域与该至少一个换脸融合特征区域一一对应；

从每个第二视频帧中确定至少一个第二光影融合区域，每个第二视频帧中的至少一个第二光影融合区域与该至少一个换脸融合特征区域一一对应；

对于该至少一个换脸融合特征区域中的每个换脸融合特征区域，根据该每个换脸融合特征区域的像素值，与该每个换脸融合特征区域对应的n个第一光影融合区域的像素值，以及，与该每个换脸融合特征区域对应的m个第二光影融合区域的像素值，确定该每个换脸融合特征区域的光影像素值；

对于该至少一个换脸融合特征区域中的每个换脸融合特征区域，根据该每个换脸融合特征区域的光影像素值，对该每个换脸融合特征区域进行光影抖动处理，得到光影视频帧。

可选地，请继续参考图9，该视频换脸装置800还包括：滤波处理模块870，用于在从换脸融合视频帧中确定至少一个换脸融合特征区域之前，对该换脸融合视频帧进行滤波处理。

可选地，抖动处理模块860，用于将该换脸融合视频帧中的校正位置后的至少一个融合特征区域，确定为该至少一个换脸融合特征区域。

可选地，m＝n＝2。

可选地，请继续参考图9，该视频换脸装置800还包括：

第三获取模块880，用于获取目标视频帧和模板人脸图像，该目标视频帧包括目标人脸图像和背景图像；

第一获取模块810，用于：

采用模板人脸图像替换该目标视频帧中的目标人脸图像，得到换脸视频帧；

将该换脸视频帧中的模板人脸图像与背景图像融合，得到融合视频帧。

本申请实施例提供了一种视频换脸装置，包括：处理器和存储器，

该存储器，用于存储计算机程序。

该处理器，用于执行该存储器上所存储的计算机程序，实现上述实施例提供的视频换脸方法。

请参考图10，其示出了本申请实施例提供的一种视频换脸装置1000的结构示意图。该装置1000可以是便携式移动终端，比如：智能手机、平板电脑、动态影像专家压缩标准音频层面4(英文：Moving Picture Experts Group Audio Layer IV；简称：MP4)播放器、笔记本电脑或台式电脑。装置1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，装置1000包括有：处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1001可以采用数字信号处理(英文：Digital Signal Processing；简称：DSP)、现场可编程门阵列(英文：Field-Programmable Gate Array；简称：FPGA)、可编程逻辑阵列(英文：Programmable Logic Array；简称：PLA)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器(英文：Central Processing Unit；简称：CPU)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1001可以在集成有图像处理器(英文：Graphics Processing Unit；简称：GPU)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1001还可以包括AI处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1001所执行以实现本申请实施例提供的视频换脸方法。

在一些实施例中，装置1000还可选包括有：外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地，外围设备包括：射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008或电源1009中的至少一种。

外围设备接口1003可被用于将输入/输出(英文：Input/Output；简称：I/O)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中，处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上；在一些其他实施例中，处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1004用于接收和发射射频(英文：Radio Frequency；简称：RF)信号，也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1004包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或无线保真(英文：Wireless Fidelity；简称：WiFi)网络。在一些实施例中，射频电路1004还可以包括近距离无线通信(英文：Near FieldCommunication；简称：NFC)有关的电路，本申请对此不加以限定。

显示屏1005用于显示用户界面(英文：User Interface；简称：UI)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时，显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时，显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1005可以为一个，设置在装置1000的前面板；在另一些实施例中，显示屏1005可以为至少两个，分别设置在装置1000的不同表面或呈折叠设计；在再一些实施例中，显示屏1005可以是柔性显示屏，设置在装置1000的弯曲表面上或折叠面上。甚至，显示屏1005还可以设置成非矩形的不规则图形，也即异形屏。显示屏1005可以为有机发光二极管(英文：Organic Light-Emitting Diode；简称：OLED)显示屏。

摄像头组件1006用于采集图像或视频。可选地，摄像头组件1006包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实(英文：Virtual Reality；简称：VR)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1001进行处理，或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在装置1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1007还可以包括耳机插孔。

定位组件1008用于定位装置1000的当前地理位置，以实现导航或基于位置的服务(英文：Location Based Service；简称：LBS)。定位组件1008可以是基于美国的全球定位系统(英文：Global Positioning System；简称：GPS)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1009用于为装置1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，装置1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于：加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以装置1000建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号，控制触摸显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测装置1000的机体方向及转动角度，陀螺仪传感器1012可以与加速度传感器1011协同采集用户对装置1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在装置1000的侧边框和/或触摸显示屏1005的下层。当压力传感器1013设置在装置1000的侧边框时，可以检测用户对装置1000的握持信号，由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在触摸显示屏1005的下层时，由处理器1001根据用户对触摸显示屏1005的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹，由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份，或者，由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1001授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置装置1000的正面、背面或侧面。当装置1000上设置有物理按键或厂商Logo时，指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中，处理器1001可以根据光学传感器1015采集的环境光强度，控制触摸显示屏1005的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1005的显示亮度；当环境光强度较低时，调低触摸显示屏1005的显示亮度。在另一个实施例中，处理器1001还可以根据光学传感器1015采集的环境光强度，动态调整摄像头组件1006的拍摄参数。

接近传感器1016，也称距离传感器，通常设置在装置1000的前面板。接近传感器1016用于采集用户与装置1000的正面之间的距离。在一个实施例中，当接近传感器1016检测到用户与装置1000的正面之间的距离逐渐变小时，由处理器1001控制触摸显示屏1005从亮屏状态切换为息屏状态；当接近传感器1016检测到用户与装置1000的正面之间的距离逐渐变大时，由处理器1001控制触摸显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图10中示出的结构并不构成对装置1000的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例提供了一种存储介质，当该存储介质中的程序由处理器执行时，能够实现上述实施例提供的视频换脸方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频换脸方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

所述对所述换脸视频帧进行三角剖分，得到至少一个换脸特征区域，包括：

3.根据权利要求1所述的方法，其特征在于，

在得到所述换脸融合视频帧之后，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，

所述根据所述n个第一视频帧、所述换脸融合视频帧和所述m个第二视频帧，对所述换脸融合视频帧进行光影抖动处理，得到光影视频帧，包括：

从所述换脸融合视频帧中确定至少一个换脸融合特征区域；

5.根据权利要求4所述的方法，其特征在于，在从所述换脸融合视频帧中确定至少一个换脸融合特征区域之前，所述方法还包括：

对所述换脸融合视频帧进行滤波处理。

6.根据权利要求4所述的方法，其特征在于，

所述从所述换脸融合视频帧中确定至少一个换脸融合特征区域，包括：

将所述换脸融合视频帧中的校正位置后的所述至少一个融合特征区域，确定为所述至少一个换脸融合特征区域。

7.根据权利要求4所述的方法，其特征在于，m＝n＝2。

8.根据权利要求1至7任一所述的方法，其特征在于，

在获取换脸视频帧和融合视频帧之前，所述方法还包括：

所述获取换脸视频帧和融合视频帧，包括：

9.一种视频换脸装置，其特征在于，包括用于执行权利要求1至8任一所述的方法的各个模块。

10.一种视频换脸装置，其特征在于，包括：处理器和存储器，

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述存储器上所存储的计算机程序，实现如权利要求1至8任一所述的视频换脸方法。

11.一种存储介质，其特征在于，当所述存储介质中的程序由处理器执行时，能够实现如权利要求1至8任一所述的视频换脸方法。