CN112132743A

CN112132743A - 可自适应光照的视频换脸方法

Info

Publication number: CN112132743A
Application number: CN202011030579.8A
Authority: CN
Inventors: 张启煊; 虞晶怡; 王有佳
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2020-12-25
Anticipated expiration: 2040-09-27
Also published as: CN112132743B

Abstract

本发明要解决的技术问题是：现有的视频换脸无法主动去适配目标人脸所处的环境光线，对模版人脸做相应的调整，导致换脸效果在一些复杂光线环境下不佳，无法达到影视级。为了解决上述技术问题，本发明的技术方案是提供了一种可自适应光照的视频换脸方法。本发明提供了一种以模版人脸反射函数序列作为输入实现带重打光效果的视频换脸方法。本发明在换脸的同时对模版人脸进行了重打光以适应特定环境，使换脸结果更加真实；依据目标人脸还原球谐光照图，无需去现场采集；全自动换脸、全程无需人工调整。

Description

可自适应光照的视频换脸方法

技术领域

本发明涉及一种视频换脸方法，用于实现带重打光的影视级视频换脸，属于计算机视觉、光场、深度学习、影视特效等领域。

背景技术

光场通常被定义为表征在场景中的不同点处的来自不同方向的光的4D函数。与光射线的方向分布有关的信息通常被称为光场数据或4D数据。由于信息提供4个参数(二维位置信息和二维角度信息)，因此方向分布与四维(4D)函数相对应。光场可以被解释为场景的2D图像的二维集合。

反射函数是用于描述物体的表面在接受到不同角度光照后与所反射出来的光线的映射关系的函数。反射函数可以被解释为场景的2D图像的二维集合。物体的反射函数可以在如Light Stage一样的设施中采集。

基于图像的渲染(IBR)是一种以全光函数为基础的图形绘制技术。与传统的图形学基于多边形进行渲染不同，基于图像的渲染技术以采集的图像为基础，来合成最终的输出对象。它可以同时提高渲染速度和真实感，具有传统图形表示和渲染方法所不可替代的优势。

GPU英文全称Graphic Processing Unit，中文翻译为“图形处理器”。GPU加速是指设计算法使其匹配GPU的并行结构来起到程序加速的作用。

视频换脸是指通过图像处理算法，采用模板人脸替换视频图像中的目标人脸，并使模板人脸与视频图像融合的过程。目前，在进行视频换脸时，对于视频图像中的目标人脸图像，首先根据预先训练好的网络模型生成模板人脸图像，然后使用该模板人脸图像替换视频图像中的目标人脸图像，并将模板人脸图像与视频图像进行柏松融合，得到换脸后的视频图像。目前现有的技术方案已经能够解决人脸抖动(例如人脸的五官发生偏移)问题，但都无法主动去适配目标人脸所处的环境光线，对模版人脸做相应的调整，导致换脸效果在一些复杂光线环境下不佳，无法达到影视级。

球谐光照(Spherical Harmonic Lighting)就是基于球面调和(SH，SphericalHarmonics)这个数学工具的一种光照/着色算法。

人像光照还原是指根据单张人像利用深度学习技术还原出该对象所处的大致光照环境。

发明内容

本发明要解决的技术问题是：现有的视频换脸无法主动去适配目标人脸所处的环境光线，对模版人脸做相应的调整，导致换脸效果在一些复杂光线环境下不佳，无法达到影视级。

为了解决上述技术问题，本发明的技术方案是提供了一种可自适应光照的视频换脸方法，其特征在于，包括以下步骤：

步骤1、获取目标人脸视频，将目标人脸视频分割为若干场景；

步骤2、利用人脸识别技术在步骤1获得的每个场景中寻找完整的高分辨率人脸；

步骤3、利用步骤1获得的每个场景所对应的场景图像获得每个场景的球谐光照图，包括以下步骤：

步骤301、将场景图像输入到深度学习网络后估计出n个方位的球谐系数，将第i个方位的球谐系数定义为c_i，则有：

式(1)中，N表示场景图像所包含的采样点的数量；x_j表示场景图像的第j个采样点；L(x_j)表示第j个采样点x_j的光照函数，表示球坐标系下的光照强度值；Y_i(x_j)表示第j个采样点第i个方位的球谐基函数的分量；

步骤302、利用正态分布均匀采样得到的单位方向向量计算出球谐基与球谐系数进行球谐光照图的还原：

式(2)中，L′(s)表示还原后的球谐光照图；s是场景图象球坐标系下的采样点；n表示球谐函数的阶数，n²为球谐系数的个数，即球谐系数的方位数量；

步骤4、利用每个场景的球谐光照图为事先采集的模版人脸进行重打光，从而为每个场景合成对应的模版人脸；

步骤5、将每个场景的模版人脸与通过步骤2检测到的当前场景的目标人脸换脸进行匹配，并替换当前场景的目标人脸换脸，生成每个场景的换脸视频；

步骤6、将所有场景的换脸视频合并后输出，得到总体换脸视频。

优选地，步骤1中，将所述目标人脸视频分割为若干场景包括以下步骤：

根据不同的光照条件将场景定义为若干类别，不同类别的场景具有不同的光照条件；将目标人脸视频输入语义分割网络，对目标人脸视频抽取的每一帧图像读取得到帧特征向量，再用弱监督学习方法对帧特征向量进行特征融合进而得到视频特征向量，最后经过分类层输出相应的预测结果，从而将目标人脸视频分割为若干场景。

优选地，步骤4中，采用image-based rendering方法对模版人脸进行重打光。

本发明提供了一种以模版人脸反射函数序列作为输入实现带重打光效果的视频换脸方法。与现有技术相比，本发明具有如下有益效果：

1)换脸的同时对模版人脸进行了重打光以适应特定环境，使换脸结果更加真实；

2)依据目标人脸还原球谐光照图，无需去现场采集；

3)全自动换脸、全程无需人工调整。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种可自适应光照的视频换脸方法总体采用以下技术方案：

1)利用深度学习技术对目标人脸所处的环境的光照信息进行还原，生成相应的球谐光照图。

2)对视频的每个场景生成对应的球谐光照图，通过事先采集的模版人脸反射函数序列实现对模版人脸的重打光，以对应的视频场景为单位生成模版人脸库。

3)以场景为单位将模版人脸与目标人脸进行匹配，实现模版与目标光照统一的换脸。

4)利用基于深度学习的语义分割将目标人脸视频分为若干场景，利用人脸识别在每个场景中寻找完整的高分辨率人脸用于还原球谐光照图。

具体而言，本发明包括以下步骤：

步骤1、获取目标人脸视频，将目标人脸视频分割为若干场景，具体包括以下步骤：

步骤301、将场景图像输入到深度学习网络后估计出第i个方位的球谐系数c_i，则有：

步骤4、采用image-based rendering方法利用每个场景的球谐光照图为事先采集的模版人脸进行重打光，从而为每个场景合成对应的模版人脸；

Claims

1.一种可自适应光照的视频换脸方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种可自适应光照的视频换脸方法，其特征在于，步骤1中，将所述目标人脸视频分割为若干场景包括以下步骤：

3.如权利要求1所述的一种可自适应光照的视频换脸方法，其特征在于，步骤4中，采用image-based rendering方法对模版人脸进行重打光。