CN110264396A

CN110264396A - 视频人脸替换方法、系统及计算机可读存储介质

Info

Publication number: CN110264396A
Application number: CN201910570614.6A
Authority: CN
Inventors: 杨骥
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-09-20
Anticipated expiration: 2039-06-27
Also published as: CN110264396B

Abstract

本发明公开一种视频人脸替换方法、系统及计算机可读存储介质，该视频人脸替换方法包括：提取源角色帧图的脸框方形图A和目标角色帧图的脸框方形图B，缩放得到脸框方形图A1和脸框方形图B1；获取二值掩码图片a1和二值掩码图片b1；将脸框方形图A1扭转至一预设位置，得到脸框方形图A2，脸框方形图B1扭转至同一预设位置，得到脸框方形图B2；将脸框方形图A2和脸框方形图B2进行融合，得到融合图片C；进行校色修复得到图片C3；进行逆向扭转复位并修复，得到图片C8，进行缩放至与目标角色帧图的脸框方形图B同一尺寸，得到图片C9；将图片C9填充至目标角色帧图脸框方形图B的对应位置。本发明使视频的人脸交换融合的更自然。

Description

视频人脸替换方法、系统及计算机可读存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频人脸替换方法、系统及计算机可读存储介质。

背景技术

随着计算机图像处理技术的进步，对图片或视频中人脸进行交换的技术发展越来越迅速。目前，一个现有技术有德国纽伦堡大学的教授Justus Thies团队做的一个能实时进行面部转换的叫Face2Face模型，Face2Face先使用特定的算法重构目标角色和源角色的脸型特征，当算法运行时，它会通过摄像头追踪源角色的面部数据信息，并同时追踪目标和源角色的脸上的表情。然后用一种变形函数在套用源角色的变化模型后重新渲染目标角色的脸的形状和光照，最终与背景进行复合。同之前的视频中人脸处理技术相比，Face2Face的主要进步在变形各种算法，包括RGB追踪算法、传输函数以及嘴部模型建立上的改进。

另外一种现有技术为Deepfake模型，其基本原理就是用监督学习训练一个神经网络将人物A的扭曲处理过的脸还原成原始脸，并且期望这个网络具备将任意人脸还原成人物A脸的能力。Deepfake的整个流程包括三步，一是提取数据，二是训练，三是转换。其中第一和第三步都需要用到数据预处理，从视频中提取大量的两个需要交换人脸的人物人脸图片，第三步还用到了图片融合技术，采用了括直接覆盖，遮罩覆盖，还有就是泊松克隆等多种方法。

Deepfake模型基本公式：

X'＝Decoder(Encoder(XW))

Loss＝L1Loss(X'-X)

这里的XW是经过扭曲处理过的人脸图片，通过一个自编码网络模型得到X'即生成的人脸图片，通过计算两张人脸图片的L1loss并以此为反馈训练整个模型。为达到两张人脸交换的目的，使用以下公式：

A'＝Decoder_A(Encoder(AW))

B'＝Decoder_B(Encoder(BW))

为提高生成图片的人脸稳定性，Encoder网络是共享的，Deocder网络是分开的。

还有一种现有技术方案是Satya Mallick博士提出来，这种方案是对两张图片中人脸实现单向交换融合。该方案的流程大体上是检测脸部特征点坐标，找到“特征点环”，对图片进行狄洛尼三角剖分，调整扭曲三角，最后是嵌入融合。这里特征点检测应用的是dlib的处理方法，并通过面颊和眉毛特征点首尾连接行成“特征点环”，取到面部核心区域，通过每三个特征点将面部核心区域切分成若干小三角形区域，校准源人脸和目标人脸对应的三角形，将源人脸的三角形区域仿射变换到目标人脸对应区域。最后通过泊淞克隆将仿射变换后的脸部核心区域融合进入目标人脸。

其中，第一种方案可以做到实时处理但是仅能实现通过源脸面部变化控制目标脸的面部变化，并不能将源脸的特征转移到目标脸上。第二种方案应用了深度神经网络模型相关技术，在模型训练的过程中需要消耗大量的计算资源，而且训练耗时较长，可以做到生成和目标脸对应的源脸特征，但是视频面部融合不自然。第三种方案整体的算法流程较为简单，可以做到实时处理，单对图片换脸的质量很好，但是由于在仿射变换处理环节使用的对切分的三角形逐个仿射，这样在对视频中连续帧做相同处理，仿射后帧间偏移较大，造成变换后视频面部扭曲严重，效果较差。

发明内容

本发明的主要目的是提供一种视频人脸替换方法，旨在使视频的人脸交换融合的更自然。

为实现上述目的，本发明提出一种视频人脸替换方法，该视频人脸替换方法包括以下步骤：

S10：提取源角色帧图的脸框方形图A和对应的目标角色帧图的脸框方形图B；

S20：将源角色帧图的脸框方形图A和目标角色帧图的脸框方形图B缩放至同一尺寸，得到源角色帧图的脸框方形图A1和目标角色帧图的脸框方形图B1；

S30：获取脸框方形图A1的人脸核心区域的二值掩码图片a1和脸框方形图B1的人脸核心区域的二值掩码图片b1；

S40：将脸框方形图A1扭转至一预设位置，得到脸框方形图A2，脸框方形图B1扭转至同一预设位置，得到脸框方形图B2；

S60：将脸框方形图A2和脸框方形图B2进行融合，得到一张扭转的融合图片C；

S70：将扭转的融合图片C进行校色，得到图片C1；

S80：将融合图片C1的融合处进行修复，得到图片C3；

S90：将图片C3进行逆向扭转复位，并对逆向扭转复位后的融合处进行再次修复，得到图片C8，

S100：将图片C8进行缩放至与目标角色帧图的脸框方形图B同一尺寸，得到图片C9；

S110：将图片C9填充至目标角色帧图的脸框方形图B的对应位置；

S120：对目标角色视频的每一张目标角色帧图和源角色视频的对应的源角色帧图进行重复执行上述步骤S10至S110。

优选地，S20具体包括以下步骤：

S21：通过dlib的68个特征点检测器对脸框方形图A和脸框方形图B中的人脸特征点进行定位，人脸特征点包括面颊特征点和眉毛特征点；

S22：沿着脸框方形图A的面颊特征点和眉毛特征点的外边沿形成矩形框M，沿着脸框方形图B的面颊特征点和眉毛特征点的外边沿形成矩形框N，

S23：将矩形框M以其中心扩大一个预设值倍数，得到矩形框M1，将矩形框N以其中心扩大同一个预设值倍数，得到矩形框N1，

S24：通过矩形框M1截取初始的源角色帧图的脸框方形图上对应的区域，形成脸框方形图M2，通过矩形框N1截取初始的源角色帧图的脸框方形图上对应的区域，形成脸框方形图N2，

S25：将脸框方形图M2缩放至一预设值尺寸，得到源角色帧图的脸框方形图A1，将脸框方形图N2缩放至同一预设值尺寸，得到目标角色帧图的脸框方形图B1。

优选地，S30具体包括以下步骤：

S31：通过dlib的68个特征点检测器分别对脸框方形图A1和脸框方形图B1中的人脸特征点进行定位，

S32：根据脸框方形图A1中的面颊特征点和眉毛特征点的坐标绘制轮廓线，以轮廓线为分界线获取脸框方形图A1的人脸核心区域的二值掩码图片a1，根据脸框方形图B1中的面颊特征点和眉毛特征点的坐标绘制轮廓线，以轮廓线为分界线获取脸框方形图B1的人脸核心区域的二值掩码图片b1。

优选地，S40之后，S60之前还包括以下步骤：

S50：通过迭代法计算出脸框方形图A2的人脸特征点的坐标到脸框方形图B2的对应的人脸特征点的坐标普氏距离最小的仿射矩阵，将脸框方形图A2进行仿射变换。

优选地，S60具体包括以下步骤：

S61：获取脸框方形图A2的人脸核心区域的二值掩码图片a2和脸框方形图B2的人脸核心区域的二值掩码图片b2；

S62：将二值掩码图片a2与二值掩码图片b2进行交集合并，再进行高斯模糊处理，得到一张二值掩码图片ab；

S63：通过二值掩码图片ab获取脸框方形图A2的人脸核心区域的图片A3，及获取脸框方形图B2的非人脸核心区域的图片B3；

S64：将图片A3和图片B3进行融合，得到一张扭转的融合图片C。

优选地，S70将扭转的融合图片C进行校色，得到图片C1具体包括以下步骤：

S71：将图片C的高斯模糊参数除以脸框方形图B2的高斯模糊参数的结果，再与图片C的颜色参数相乘。

优选地，S80具体包括以下步骤：

S81：将二值掩码图片ab进行缩小2px至10px，再进行高斯模糊处理，得到二值掩码图片ab1，

S82：通过二值掩码图片ab1获取图片C1的人脸核心区域的图片C2；

S83：通过二值掩码图片ab1获取脸框方形图B2的非人脸核心区域的图片B4，

S84：将人脸核心区域的图片C2与非人脸核心区域的图片B4进行融合，得到一张融合的图片C3。

优选地，S90具体包括以下步骤：

S91：将二值掩码图片ab进行逆向扭转复位，得到二值掩码图片ab2，将图片C3进行逆向扭转复位，得到图片C4；

S92：将二值掩码图片ab2和二值掩码图片b1进行交集合并，得到二值掩码图片ab3；

S93：通过二值掩码图片ab3获取图片C4的人脸核心区域的图片C5；

S94：通过二值掩码图片ab3获取脸框方形图B1的非人脸核心区域的图片B5；

S95：将图片C5和图片B5进行融合，得到图片C6；

S96：将二值掩码图片ab3进行缩小2-10px，再进行高斯模糊处理，得到二值掩码图片ab4；

S97：通过二值掩码图片ab4获取图片C6的人脸核心区域的图片C7；

S98：通过二值掩码图片ab4获取脸框方形图B1的非人脸核心区域的图片B6；

S99：将图片C7和图片B6进行融合，得到图片C8。

本发明还提出一种视频人脸替换系统，所述视频人脸替换系统包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频人脸替换程序，其中：

所述视频人脸替换程序被所述处理器执行时实现上述任一所述的视频人脸替换方法的步骤。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有视频人脸替换程序，所述视频人脸替换程序被处理器执行时实现上述任一所述的视频人脸替换方法的步骤。

本发明技术方案通过S10：提取源角色帧图的脸框方形图A和对应的目标角色帧图的脸框方形图B；S20：将源角色帧图的脸框方形图A和目标角色帧图的脸框方形图B缩放至同一尺寸，得到源角色帧图的脸框方形图A1和目标角色帧图的脸框方形图B1；S30：获取脸框方形图A1的人脸核心区域的二值掩码图片a1和脸框方形图B1的人脸核心区域的二值掩码图片b1；S40：将脸框方形图A1扭转至一预设位置，得到脸框方形图A2，脸框方形图B1扭转至同一预设位置，得到脸框方形图B2；S60：将脸框方形图A2和脸框方形图B2进行融合，得到一张扭转的融合图片C；S70：将扭转的融合图片C进行校色，得到图片C1；S80：将融合图片C1的融合处进行修复，得到图片C3；S90：将图片C3进行逆向扭转复位，并对逆向扭转复位后的融合处进行再次修复，得到图片C8，S100：将图片C8进行缩放至与目标角色帧图的脸框方形图B同一尺寸，得到图片C9；S110：将图片C9填充至目标角色帧图的脸框方形图B的对应位置；S120：对目标角色视频的每一张目标角色帧图和源角色视频的对应的源角色帧图进行重复执行上述步骤S10至S110。以此通过可使目标角色视频上的源角色替换为目标角色时，降低融合后的面部抖动，增强融合边缘的平滑度和自然度，使融合更自然。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明视频人脸替换方法一实施例的流程结构示意图；

图2为本发明视频人脸替换方法另一实施例的流程结构示意图；

图3为本发明图1和图2的步骤S20的细化流程结构示意图；

图4为本发明图1和图2的的步骤S30的细化流程结构示意图；

图5为本发明图1和图2的的步骤S60的细化流程结构示意图；

图6为本发明图1和图2的的步骤S70的细化流程结构示意图；

图7为本发明图1和图2的的步骤S80的细化流程结构示意图；

图8为本发明图1和图2的的步骤S90的细化流程结构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

在本发明中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明提出一种视频人脸替换系统。所述视频人脸替换系统可以是移动电话、智能电话、笔记本电脑、PAD(平板电脑)等可移动设备，以及诸如台式计算机、服务器等固定终端。所述视频人脸替换系统包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频人脸替换程序。

其中，所述存储器至少包括一种计算机可读存储介质，用于存储安装于所述视频人脸替换系统的操作系统和各类应用软件，例如视频人脸替换程序的程序代码等。此外，所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述视频人脸替换系统的总体操作。本实施例中，所述处理器用于运行所述存储器中存储的程序代码或者处理数据，例如运行所述视频人脸替换程序等。

参照图1，所述视频人脸替换程序被所述处理器执行时，实现如下步骤：

S70：将扭转的融合图片C进行校色，得到图片C1；

S80：将融合图片C1的融合处进行修复，得到图片C3；

S100：将图片C8进行缩放至与目标角色帧图的脸框方形图B同一尺寸，得到图片C9；优选地，通过使用opencv的resize方法进行缩放处理，其中使用opencv的resize方法进行缩放处理为现有技术，具体缩放方法在此不再赘述。

以此可使目标角色视频上的源角色替换为目标角色时，降低融合后的面部抖动，增强融合边缘的平滑度和自然度，使融合更自然。

其中的源角色视频由多个源角色帧图形成，所述目标角色的视频由多个目标角色帧图形成，源角色帧图和目标角色帧图一种为纯背景图，一种为背景与人物结合的图，将具有人物的脸部的源角色帧图和目标角色帧图作为提取目标，S10具体可通过处理器中存储的MTCNN人脸检测模型提取源角色帧图的脸框方形图A和初始的目标角色帧图的脸框方形图B，使其使用更方便，提取的方形图更精准。其中的脸框方形图A由源角色的人脸的核心区域和去除人脸核心区域剩下的非核心区域组成，其中的脸框方形图B由目标角色的人脸的核心区域和去除人脸核心区域剩下的非核心区域组成，其中的MTCNN人脸检测模型为现有技术，具体不再赘述。

进一步地，在步骤S10之前，可通过将源角色的视频的时长与目标角色的视频的时长设置等同时长，使源角色视频中的源角色帧图与目标角色视频中的目标角色帧图进行相同时长的内容替换。

参照图3，上述的步骤S20的一具体实施例包括以下步骤：

其中的dlib的68个特征点检测器为现有技术，在此不再赘述，dlib的68个特征点检测器与处理器电性连接，通过dlib的68个特征点检测器使脸框方形图A和脸框方形图B中的人脸特征点定位的更精准，便于形成的的矩形框M和矩形框N的大小也更精准。其中将矩形框M和矩形框N以其中心扩大一个预设值倍数，该预设值倍数可为其边长的1倍至2倍，优选为1.5倍，当放大后的矩形框M或矩形框N的边缘超出对应的脸框方形图A或脸框方形图B时，对超出部分的各通道的像素值填充为0。接着再执行步骤S25，其中的预设值尺寸，可为100px*100px的尺寸至的300px*300px的尺寸，具体可为使用opencv中的resize方法或者PIL中的resize方法将其放大或缩小至200px*200px的尺寸，其中的opencv中的resize方法和PIL中的resize方法均为现有技术，在此不再赘述。以此防止人脸的边沿由于提取或缩放操作造成的边沿模糊，并使提取的源脸的方形框A和目标脸的方形框B包含有人脸核心区域的部分的尺寸相同，以便于后续处理。

参照图4，上述的步骤S30一具体实施例包括以下步骤：

通过获取二值掩码图片a1和二值掩码图片b1，以便于对后续进行处理，其中的二值掩码图片为每个像素不是黑就是白，其灰度值没有中间过渡的图像，便于进行后续的图像分割。

上述的步骤S40的一具体实施例为：通过使用scikit-image team提出的umeyama方法，分别将上一步骤中得到的脸框方形图A1和脸框方形图B1中的68个特征点中眼睛、鼻子和嘴巴的坐标，变换到设定好的目标点位，即通过计算出一仿射矩阵，将源脸的脸框方形图A1和目标脸的脸框方形图B1的特征点中对应的坐标依据此矩阵仿射变换，从而使其扭正到同一预设位置。如将脸框方形图A1和脸框方形图B1中的脸部都扭正，形成一个正面的角度，以便于后续进行更精准和便捷的处理，使融合更自然。其中的scikit-image team提出的umeyama方法为现有技术，在此不再赘述。

参照图5，上述的步骤S60一具体实施例包括以下步骤：

上述的步骤S61为根据步骤S30等同的方式进行获取扭转后的框方形图A2的人脸核心区域的二值掩码图片a2和脸框方形图B2的人脸核心区域的二值掩码图片b2，用于后续图像分割，具体不再赘述；步骤S62将二值掩码图片a2与二值掩码图片b2进行交集合并，可理解为将二值掩码图片a2与二值掩码图片b2进行重叠后，取其共有的部分，在进行高斯模糊处理，高斯核参数可为(69,69)，得到二值掩码图片ab，使得到的二值掩码图片ab的边沿轮廓线光滑，便于后续分割图片的边沿也更加光滑，使图片融合也更加自然。

其中的步骤S63为通过二值掩码图片ab进行分割脸框方形图A2和脸框方形图B2，保留脸框方形图A2的人脸核心区域的图片A3和脸框方形图B2的非人脸核心区域的图片B3，最后在通过步骤S64，将图片A3和图片B3相互进行融合，得到融合图片C。通过numpy array计算的公式为融合图片C＝脸框方形图A2×二值掩码图片ab+脸框方形图B2×(1-二值掩码图片ab)。

参照图2，进一步地，上述的步骤S40之后，S60之前还包括以下步骤：

S50：通过迭代法计算出脸框方形图A2的人脸特征点的坐标到脸框方形图B2的对应的人脸特征点的坐标普氏距离最小的仿射矩阵，将脸框方形图A2进行仿射变换。上述的迭代法为现有技术，具体算法在此不再赘述，通过上述的步骤S50可使源脸的脸框方形图A1和目标脸的脸框方形图B1扭转统一预设位置更精准统一。

更进一步地，S50之后，S60之前还包括并对源脸的脸框方形图A1进行自适应的实例正则化处理，使其颜色特征在均值和方差上尽量与目标脸的脸框方形图B1相似，其中的进行自适应的实例正则化处理的技术为现有技术，具体处理计算不再赘述，以便于步骤S60的图片融合的更自然。

参照图6，上述的步骤S70一具体实施例包括以下步骤：

S71：将图片C的高斯模糊参数除以脸框方形图B2的高斯模糊参数的结果，再与图片C的颜色参数相乘。以此通过对图片C处理进行校色，使图片C融合的更自然。

参照图7，上述的步骤S80一具体实施例包括以下步骤：

S81：将二值掩码图片ab进行缩小2px至10px，优选缩小因子为4xp,再进行高斯模糊处理，优选的高斯核参数(69，69)，得到二值掩码图片ab1，

通过上述操作，可得到去除一层边沿的融合的图片C3，以增强得到扭转后融合的图片C3的融合边缘的平滑度，降低融合后的面部抖动，使融合更自然。

参照图8，上述的步骤S90一具体实施例包括以下步骤：

S95：将图片C5和图片B5进行融合，得到图片C6；

S96：将二值掩码图片ab3进行缩小2-10px，优选缩小因子为4xp,再进行高斯模糊处理，优选的高斯核参数(69，69)，得到二值掩码图片ab4；

S99：将图片C7和图片B6进行融合，得到图片C8。

由于将图片C3进行逆向扭转复位，得到图片C4后，图片C4的边缘可能会造成部分损坏，通过上述步骤对边沿损坏的部分进行修复，使最终逆向扭转复位的图片C8的边沿更光滑，降低融合后的面部抖动，增强融合边缘的平滑度和自然度，使融合更自然。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种视频人脸替换方法，其特征在于，包括以下步骤：

S70：将扭转的融合图片C进行校色，得到图片C1；

S80：将融合图片C1的融合处进行修复，得到图片C3；

2.如权利要求1所述的视频人脸替换方法，其特征在于，S20具体包括以下步骤：

3.如权利要求1所述的视频人脸替换方法，其特征在于，S30具体包括以下步骤：

4.如权利要求1所述的视频人脸替换方法，其特征在于，S40之后，S60之前还包括以下步骤：

5.如权利要求1所述的视频人脸替换方法，其特征在于，S60具体包括以下步骤：

6.如权利要求1所述的视频人脸替换方法，其特征在于，S70将扭转的融合图片C进行校色，得到图片C1具体包括以下步骤：

7.如权利要求1所述的视频人脸替换方法，其特征在于，S80具体包括以下步骤：

8.如权利要求1所述的视频人脸替换方法，其特征在于，S90具体包括以下步骤：

S95：将图片C5和图片B5进行融合，得到图片C6；

S99：将图片C7和图片B6进行融合，得到图片C8。

9.一种视频人脸替换系统，其特征在于，所述视频人脸替换系统包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频人脸替换程序，其中：

所述视频人脸替换程序被所述处理器执行时实现如权利要求1至8中任一项所述的视频人脸替换方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频人脸替换程序，所述视频人脸替换程序被处理器执行时实现如权利要求1至8中任一项所述的视频人脸替换方法的步骤。