CN113033442A

CN113033442A - 基于StyleGAN的高自由度人脸驱动方法和装置

Info

Publication number: CN113033442A
Application number: CN202110350947.5A
Authority: CN
Inventors: 刘烨斌; 王立祯; 于涛; 戴琼海
Original assignee: Tsinghua University
Current assignee: Hangzhou Xinchangyuan Technology Co ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-06-25
Anticipated expiration: 2041-03-31
Also published as: CN113033442B

Abstract

本发明提出一种基于StyleGAN的高自由度人脸驱动方法和装置，其中，方法包括：通过单摄像头采集第一人脸的第一人脸视频；利用预训练的人脸生成网络StyleGAN2将第一人脸视频映射到隐变量空间，获取人脸向量；对人脸向量进行主元分析，获取主元成分矩阵和平均向量；获取第二人脸的第二人脸视频，对第二人脸视频进行关键点检测生成目标关键点序列；提取目标关键点序列中的主元参数，并根据主元参数、主元成分矩阵和平均向量更新第二人脸视频的姿态参数和表情参数，使得第二人脸视频中的第二人脸替换为第一人脸。由此，可以利用单摄像头拍摄的人脸视频，实现该人脸的高自由度表情和姿态驱动。

Description

基于StyleGAN的高自由度人脸驱动方法和装置

技术领域

本发明涉及计算机视觉中的人脸驱动技术领域，尤其涉及一种基于StyleGAN的高自由度人脸驱动方法和装置。

背景技术

随着计算机视觉领域中的人脸识别和生成等相关人脸技术的不断发展，利用人脸驱动的相关技术也不断产生。人脸驱动技术可为现代社会中的新闻播报、娱乐直播、远程通讯等提供更为新颖的表现方式。以新闻播报为例，人脸驱动技术结合其他相关技术可以生成24小时准确无间断的人工智能播音员，在降低人力成本的同时也会为人们的生活提供极大的便利。

在算法方面，人脸驱动算法可大体分为三维重建和二维驱动算法两类。三维重建算法往往需要高精度的采集设备和复杂的采集条件，且由于人脸的面部高光、复杂拓扑等特殊问题导致目前的动态人脸重建算法的重建质量有限。此外，渲染算法往往难以产生高真实感的人脸图片。当下流行的最先进的二维人脸驱动算法避免了渲染带来的真实感确实问题，但往往难以解决高自由度的人脸运动和表情变化。对采集环境和处理设备的高要求限制了三维算法的实际应用的场景，同时目前的维算法难以满足高自由度姿态和表情变化的需求。高真实感和高自由度的人脸驱动还没有切实可行的解决方案。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于StyleGAN的高自由度人脸驱动方法，以实现可以利用单摄像头拍摄的人脸视频，实现该人脸的高自由度表情和姿态驱动。

本发明的第二个目的在于提出一种基于StyleGAN的高自由度人脸驱动装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于StyleGAN的高自由度人脸驱动方法，包括：通过单摄像头采集第一人脸的第一人脸视频；

利用预训练的人脸生成网络StyleGAN2将所述第一人脸视频映射到隐变量空间，获取人脸向量；

对所述人脸向量进行主元分析，获取主元成分矩阵和平均向量；

获取第二人脸的第二人脸视频，对所述第二人脸视频进行关键点检测生成目标关键点序列；

提取所述目标关键点序列中的主元参数，并根据所述主元参数、所述主元成分矩阵和平均向量更新所述第二人脸视频的姿态参数和表情参数，使得所述第二人脸视频中的第二人脸替换为所述第一人脸。

为达上述目的，本发明第二方面实施例提出了一种基于StyleGAN的高自由度人脸驱动装置，包括：采集模块，用于通过单摄像头采集第一人脸的第一人脸视频；

映射模块，用于利用预训练的人脸生成网络StyleGAN2将所述第一人脸视频映射到隐变量空间，获取人脸向量；

主元分析模块，用于对所述人脸向量进行主元分析，获取主元成分矩阵和平均向量；

关键点检测模块，用于获取第二人脸的第二人脸视频，对所述第二人脸视频进行关键点检测生成目标关键点序列；

视频处理模块，用于提取所述目标关键点序列中的主元参数，并根据所述主元参数、所述主元成分矩阵和平均向量更新所述第二人脸视频的姿态参数和表情参数，使得所述第二人脸视频中的第二人脸替换为所述第一人脸。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述第一方面实施例所述的基于StyleGAN的高自由度人脸驱动方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面实施例所述的基于StyleGAN的高自由度人脸驱动方法。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上述第一方面实施例所述的基于StyleGAN的高自由度人脸驱动方法。

本发明的实施例，至少具有如下的技术效果：

基于StyleGAN的高自由度人脸驱动，包括步骤：利用单摄像头采集一段人脸的视频，包含头部姿态的自由运动和表情变化，利用预训练的人脸生成网络StyleGAN2将上述视频中的人脸映射到StyleGAN2的隐变量空间中，得到一系列能够表征该人脸信息的向量，对上述向量的集合进行主元分析，从而在隐变量空间中求得能够表征该人脸自由变化和插值的子空间，利用另一段人脸的视频，检测其脸部关键点，归一化后得到目标关键点序列，进而，利用损失函数约束主元参数收敛，使得StyleGAN2可以生成具有一个人脸在另一个人脸的姿态和表情下的视频。由此，可以利用单摄像头拍摄的人脸视频，实现该人脸的高自由度表情和姿态驱动。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于StyleGAN的高自由度人脸驱动方法的流程示意图；

图2是根据本发明一个实施例的单摄像头采集视频及处理流程示意图；

图3是根据本发明一个实施例的拟合目标视频的处理流程示意图；

图4是根据本发明一个实施例的测试结果图；以及

图5是根据本发明实施例所提供的一种基于StyleGAN的高自由度人脸驱动的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于StyleGAN的高自由度人脸驱动方法和装置。

图1为本发明实施例所提供的一种基于StyleGAN的高自由度人脸驱动方法的流程示意图。

如图1所示，该基于StyleGAN的高自由度人脸驱动方法包括以下步骤：

步骤101，通过单摄像头采集第一人脸的第一人脸视频。

本实施例中，单摄像头如手机、单反相机等。

在本实施例中，利用单摄像头采集一段人脸A(第一人脸)的第一人脸视频，其内容包含该人头姿态的自由运动和各个姿态下的表情变化，采集时长约2～3分钟，总帧数为N。

步骤102，利用预训练的人脸生成网络StyleGAN2将第一人脸视频映射到隐变量空间，获取人脸向量。

在本实施例中，利用在FFHQ人脸数据集上进行预训练的人脸生成网络StyleGAN2，通过Image2StyleGAN算法将上述视频中的人脸映射到StyleGAN2的隐变量空间中，得到一系列能够表征该人脸信息的向量，其维度为(N，16，512)。

步骤103，对人脸向量进行主元分析，获取主元成分矩阵和平均向量。

在本实施例中，对上述维度为(N，16，512)的向量集合进行主元分析，得到维度为(100，16*512)的主元成分矩阵P和维度为(1，16*512)的平均向量M，从而在隐变量空间中求得能够表征该人脸自由变化和插值的子空间。

步骤104，获取第二人脸的第二人脸视频，对第二人脸视频进行关键点检测生成目标关键点序列。

在本实施例中，利用另一段人脸B(第二人脸)的视频作为目标序列，检测其脸部关键点，归一化后得到目标关键点序列，并从中提取表情参数和姿态参数。

步骤105，提取目标关键点序列中的主元参数，并根据主元参数、主元成分矩阵和平均向量更新第二人脸视频的姿态参数和表情参数，使得第二人脸视频中的第二人脸替换为第一人脸。

在本实施例中，生成维度为(1，100)的主元参数V为输入，利用主元成分矩阵P和平均向量M，更新L＝V*P+M，变更维度为(16，512)后作为新的隐变量，输入至StyleGAN2，生成人脸A的图片，建立能量函数，在上述步骤的框架中，利用梯度回传对输入参数V进行更新迭代，收敛后即可得到输入人脸A在目标人脸B的姿态和表情下的图片。

进而，对第二人脸视频中的每一帧第二人脸图像进行上述步骤的处理后，通过时域平滑算法进行后处理，最终得到输入人脸A对应于目标人脸视频B中表情和姿态的视频，即最终的高自由度驱动结果。

对基于StyleGAN的高自由度人脸驱动的一个实施例的说明如下：

步骤S101，将手机固定于人脸同高度处，面对相机采集一段视频，保证背景相对简单，视频中包含人头部各种常见的运动姿态，且在不同姿态下进行一定程度的表情变化。

步骤S102，将上述视频数据利用如附图2所示的处理流程，投影至预训练好的StyleGAN2的隐空间中，并进行主元分析。

步骤S103，找到另一端人脸清晰可见的目标视频，根据附图3中所示的处理流程，逐帧求解包含输入视频人脸特征和目标视频表情姿态的人脸图片对应的输入主元参数V。

步骤S104，对上述主元参数V的集合进行时域平滑的后处理后，通过图3的正向流程生成驱动后的人脸视频，至此便实现了高自由度和真实感的人脸驱动。

这一实施例的的测试结果可见图4，下排图片保留了输入人脸图片的基本特征，同时具备目标人脸图片的表情和姿态。

其中，在本发明的一个实施例中，生成维度为(1，100)的主元参数V为输入，利用主元成分矩阵P和平均向量M，更新L＝V*P+M，变更维度为(16，512)后作为新的隐变量，输入至StyleGAN2，生成人脸A的图片时，利用了主元分析算法对StyleGAN隐空间进行了约束，使得生成图片能基本维持人脸A的面部特征，在初始化主元参数V的过程中，首先对输入视频A的表情和姿态进行了匹配，利用最接近的表情和姿态辅助初始化，降低了后续算法的收敛难度。

在本发明的一个实施例中，在利用梯度回传对输入参数V进行更新迭代时的能量函数，如图3所示，含了基本的对人脸表情和姿态的约束项L_pose和L_expression，利用StyleGAN2的判别器对人脸进行正则项约束L_regulation，

利用人脸关键点检测器和人脸识别检测器在生成图片能够维持人脸A的面部特征的前提下，进行表情变化的驱动。

综上，本发明实施例的基于StyleGAN的高自由度人脸驱动方法，通过单摄像头采集第一人脸的第一人脸视频，利用预训练的人脸生成网络StyleGAN2将所述第一人脸视频映射到隐变量空间，获取人脸向量，对所述人脸向量进行主元分析，获取主元成分矩阵和平均向量，获取第二人脸的第二人脸视频，对所述第二人脸视频进行关键点检测生成目标关键点序列，提取所述目标关键点序列中的主元参数，并根据所述主元参数、所述主元成分矩阵和平均向量更新所述第二人脸视频的姿态参数和表情参数，使得所述第二人脸视频中的第二人脸替换为所述第一人脸。由此，通过常见的单摄像头采集设备，采集人脸视频后即可实现高真实感、高自由度的二维人脸驱动视频效果。

为了实现上述实施例，本发明还提出一种基于StyleGAN的高自由度人脸驱动装置。

图5为本发明实施例提供的一种基于StyleGAN的高自由度人脸驱动装置的结构示意图。

如图5所示，该基于StyleGAN的高自由度人脸驱动装置包括：采集模块510、映射模块520、主元分析模块530、关键点检测模块540、视频处理模块550。

其中，采集模块510，用于通过单摄像头采集第一人脸的第一人脸视频；

映射模块520，用于利用预训练的人脸生成网络StyleGAN2将所述第一人脸视频映射到隐变量空间，获取人脸向量；

主元分析模块530，用于对所述人脸向量进行主元分析，获取主元成分矩阵和平均向量；

关键点检测模块540，用于获取第二人脸的第二人脸视频，对所述第二人脸视频进行关键点检测生成目标关键点序列；

视频处理模块550，用于提取所述目标关键点序列中的主元参数，并根据所述主元参数、所述主元成分矩阵和平均向量更新所述第二人脸视频的姿态参数和表情参数，使得所述第二人脸视频中的第二人脸替换为所述第一人脸。

需要说明的是，前述对基于StyleGAN的高自由度人脸驱动方法实施例的解释说明也适用于该实施例的基于StyleGAN的高自由度人脸驱动装置，此处不再赘述。

为了实现上述实施例，本发明还提出一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述实施例所描述的基于StyleGAN的高自由度人脸驱动方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例所描述的基于StyleGAN的高自由度人脸驱动方法。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如上述实施例所描述的基于StyleGAN的高自由度人脸驱动方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于StyleGAN的高自由度人脸驱动方法，其特征在于，包括：

通过单摄像头采集第一人脸的第一人脸视频；

2.如权利要求1所述的方法，其特征在于，所述利用预训练的人脸生成网络StyleGAN2将所述第一人脸视频映射到隐变量空间，获取人脸向量，包括：

利用在FFHQ人脸数据集上进行预训练的人脸生成网络StyleGAN2；

通过Image2StyleGAN算法将所说第一人脸视频中的人脸图像映射到StyleGAN2的隐变量空间，获取人脸向量。

3.如权利要求1所述的方法，其特征在于，所述提取所述目标关键点序列中的主元参数，并根据所述主元参数、所述主元成分矩阵和平均向量更新所述第二人脸视频的姿态参数和表情参数，包括：

计算所述主元成分矩阵和所述主元参数的乘积值，计算所述乘积值和所述平均向量之和，以获取所述第二人脸视频中人脸图像新的隐变量；

将所述新的隐变量输入所述人脸生成网络StyleGAN2，得到所述第一人脸的人脸图像。

4.如权利要求3所述的方法，其特征在于，还包括：

利用梯度回传对所述主元参数更新迭代。

5.如权利要求3所述的方法，其特征在于，在所述计算所述主元成分矩阵和所述主元参数的乘积值之前，还包括：

获取所述第二人脸视频中的每张第二人脸图像的表情参数和姿态参数；

获取所述第一人脸视频中的每张第一人脸图像的表情参数和姿态参数；

将所述第二人脸图像和所述第一人脸图像的表情参数和姿态参数匹配，根据匹配度确定与每张第二人脸图像匹配度最高的第一人脸图像；

获取每张第二人脸图像匹配度最高的第一人脸图像的主元成分矩阵和平均向量。

6.一种基于StyleGAN的高自由度人脸驱动装置，其特征在于，包括：

采集模块，用于通过单摄像头采集第一人脸的第一人脸视频；

7.如权利要求6所述的装置，其特征在于，所述映射模块，具体用于：

利用在FFHQ人脸数据集上进行预训练的人脸生成网络StyleGAN2；

8.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-5中任一所述的方法。

9.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品中的指令由处理器执行时，实现如权利要求1-5中任一所述的方法。