CN113436302B

CN113436302B - 一种人脸动画合成方法及系统

Info

Publication number: CN113436302B
Application number: CN202110638770.9A
Authority: CN
Inventors: 于灵云; 谢洪涛; 张勇东
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2024-02-13
Anticipated expiration: 2041-06-08
Also published as: CN113436302A

Abstract

本发明公开了一种人脸动画合成方法及系统，属于人工智能技术领域，包括：获取人脸草图序列和上一帧人脸图像；对上一帧人脸图像和人脸草图序列分别进行特征提取，并将提取到的特征进行融合，得到融合特征图；基于融合特征图，预测得到中间图像、视频帧间的光流以及掩码；基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像，合成人脸视频帧。本发明采用局部‑全局面部协同的人脸动画合成方法，实现高真实感人脸动画合成。

Description

一种人脸动画合成方法及系统

技术领域

本发明涉及人工智能技术领域，特别涉及一种人脸动画合成方法及系统。

背景技术

随着人工智能的爆发式发展，高真实感人脸动画合成作为新兴的研究热点问题，开启了虚拟人智能化的新模式，广泛应用于影视、娱乐、教育、医疗、社交、电商、内容营销、艺术创作、科研等诸多领域，其重要的学术价值和应用前景吸引了学术界和产业界的广泛关注。但是，合成高真实感的人脸动画具有极大的挑战性，需要保证唇部运动与语音/文本输入的同步性、人脸区域的全局运动的协同性以及人脸不同部位的局部运动协同性。

然而，现有的合成方法往往将此任务当成单张图像的合成问题而忽略了相邻帧间的全局形变，或者仅关注唇音同步而忽略了面部不同区域间的局部协同性，而导致合成的人脸动画时间不连贯，存在明显的视频抖动问题，以及导致非协同的、面部僵硬的纹理合成。

发明内容

本发明的目的在于克服现有技术存在的缺陷，实现运动协同的高真实感人脸动画合成。

为实现以上目的，一方面，本发明采用一种人脸动画合成方法，包括如下步骤：

获取人脸草图序列和上一帧人脸图像；

对上一帧人脸图像和人脸草图序列分别进行特征提取，并将提取到的特征进行融合，得到融合特征图；

基于融合特征图，预测得到中间图像、视频帧间的光流以及掩码；

基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像，合成人脸视频帧。

进一步地，所述对上一帧人脸图像和人脸草图序列分别进行特征提取，并将提取到的特征进行融合，得到融合特征图，包括：

对所述人脸草图序列进行运动特征和面部结构特征提取，得到包含人脸结构信息和运动信息的特征图；

对所述上一帧人脸图像进行纹理特征提取，得到纹理特征图；

对所述上一帧人脸图像进行面部不同局部区域相关性的特征提取，得到面部局部相关性特征图；

对包含人脸结构信息和运动信息的特征图、纹理特征图和面部局部相关性特征图进行特征融合，得到所述融合特征图。

进一步地，所述对所述上一帧人脸图像进行面部不同局部区域相关性的特征提取，得到面部局部相关性特征图，包括：

对所述上一帧人脸图像进行人脸解析，得到代表人脸不同面部区域的掩码；

利用所述上一帧人脸图像与不同面部区域的掩码，得到人脸不同区域；

采用面部编码器对人脸不同区域进行纹理特征提取，得到人脸不同区域的纹理特征；

将所述人脸不同区域的纹理特征输入动态局部相关性图卷积网络中，对面部局部相关性特征进行建模，得到所述面部局部相关性特征图。

进一步地，所述将所述人脸不同区域的纹理特征输入动态局部相关性图卷积网络中，对面部不同局部相关性特征进行建模，得到所述面部局部相关性特征图，包括：

基于所述纹理特征，获取人脸全局粗糙区域相关性特征H的公式为：

H＝L Re LU(A_sVW_s)

其中，H＝[H₁,H₂,...,H_C]，L Re LU(·)表示LeakyReLU激活函数，A_s表示相关矩阵，W_s表示状态更新权重，V表示纹理特征；

基于人脸全局粗糙区域相关性特征H，获取所述面部局部相关性特征图的公式为：

Z＝L Re LU(A_dHW_d)

其中，δ(.)表示Sigmoid函数，W_d表示状态更新权重，W_a表示卷积层的权重，gap(·)表示全局平均池化操作，conv(·)表示卷积操作，A_d表示相关矩阵，其根据所述相关性特征H动态构建得到，H′表示通过H所提取的特征，⊕表示相加，Z表示人脸不同区域相关性特征。

进一步地，所述基于融合特征图，预测得到中间图像、视频帧间的光流以及掩码，包括：

对所述融合特征图进行反卷积操作，得到所述中间图像；

对所述融合特征图，预测得到所述视频帧间的光流和掩码。

进一步地，所述基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像，合成人脸视频帧，包括：

利用所述视频帧间的光流、所述掩码和所述上一帧人脸图像，得到warped图像；

根据所述warped图像和所述中间图像，合成所述人脸视频帧。

进一步地，所述基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像，合成人脸视频帧，通过下式实现：

其中，表示人脸草图序列，t＝1,...,T，/>分别表示真实图像和生成图像序列，/>表示视频帧/>与/>之间的光流，/>表示遮挡掩码，表示合成的中间图像，L表示过去时间参数，⊙表示点乘。

另一方面，采用一种人脸动画合成系统，包括图像获取模块、特征提取融合模块、预测模块和视频帧合成模块，其中：

图像获取模块用于获取人脸草图序列和上一帧人脸图像；

特征提取融合模块用于对上一帧人脸图像和人脸草图序列分别进行特征提取，并将提取到的特征进行融合，得到融合特征图；

预测模块用于基于融合特征图，预测得到中间图像、视频帧间的光流以及掩码；

视频帧合成模块用于基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像，合成人脸视频帧。

进一步地，所述特征提取融合模块包括第一特征提取单元、第二特征提取单元、第三特征提取单元和特征融合单元，其中：

第一特征提取单元用于对所述人脸草图序列进行运动特征和面部结构特征提取，得到包含人脸结构信息和运动信息的特征图；

第二特征提取单元用于对所述上一帧人脸图像进行纹理特征提取，得到纹理特征图；

第三特征提取单元用于对所述上一帧人脸图像进行面部不同局部区域相关性的特征提取，得到面部局部相关性特征图，具体为：

H＝L Re LU(A_sVW_s)

Z＝L Re LU(A_dHW_d)

其中，δ(.)表示Sigmoid函数，W_d表示状态更新权重，W_a表示卷积层的权重，gap(·)表示全局平均池化操作，conv(·)表示卷积操作，A_d表示相关矩阵，其根据所述相关性特征H动态构建得到，H′表示通过H所提取的特征，⊕表示相加，Z表示人脸不同区域相关性特征；

特征融合单元用于对包含人脸结构信息和运动信息的特征图、纹理特征图和面部局部相关性特征图进行特征融合，得到所述融合特征图。

进一步地，所述视频帧合成模块通过下式实现：

其中，表示人脸草图序列，t＝1,...,T，/>分别表示真实图像和生成图像序列，/>表示视频帧/>与/>之间的光流，/>表示遮挡掩码，/>表示合成的中间图像，L表示过去时间参数，⊙表示点乘。

与现有技术相比，本发明存在以下技术效果：本发明通过动态地对人脸的不同区域的相关性进行建模，保证面部运动的系统性；从人脸全局的面部协同角度，采用光流信息表征视频帧间的全局运动形变，提高合成视频的平滑性，缓解人脸视频抖动问题，实现高真实感人脸动画合成。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是人脸动画合成方法的流程示意图；

图2是人脸动画合成的整体框架图；

图3是步骤S2的细分步骤流程示意图；

图4是步骤S3的细分步骤流程示意图；

图5是步骤S4的细分步骤流程示意图；

图6是人脸动画合成系统的结构示意图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1至图2所示，本实施例公开了一种人脸动画合成方法，可以用于娱乐行业，如电影制作，视频配音，游戏制作等；也可以用于语言教学，或是语言障碍者的医学辅助治疗等，具体包括如下步骤S1至S4：

S1、获取人脸草图序列和上一帧人脸图像；

S2、对上一帧人脸图像和人脸草图序列分别进行特征提取，并将提取到的特征进行融合，得到融合特征图；

需要说明的是，所述提取到的特征包括面部纹理特征、面部结构信息以及面部局部相关性特征。

S3、基于融合特征图，预测得到中间图像、视频帧间的光流以及掩码；

S4、基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像，合成人脸视频帧。

作为进一步优选的技术方案，如图3所示，上述步骤S2：对上一帧人脸图像和人脸草图序列分别进行特征提取，并将提取到的特征进行融合，得到融合特征图，包括如下细分步骤S21至S24：

S21、对所述人脸草图序列进行运动特征和面部结构特征提取，得到包含人脸结构信息和运动信息的特征图；

S22、对所述上一帧人脸图像进行纹理特征提取，得到纹理特征图；

S23、对所述上一帧人脸图像进行面部不同局部区域相关性的特征提取，得到面部局部相关性特征图；

S24、对包含人脸结构信息和运动信息的特征图、纹理特征图和面部局部相关性特征图进行特征融合，得到所述融合特征图。

具体来说，如图2所示，本实施例中利用编码器Encoder_1对人脸草图序列进行运动特征和面部结构特征提取，得到包含有人脸结构信息和运动信息的特征图；利用编码器Encoder_2对上一帧人脸图像进行纹理特征提取，得到纹理特征图。

并采用动态局部相关性图卷积网络(Dynamic Local-Correlation GraphNetwork)实现人脸不同局部区域相关性的建模，具体为：

需要说明的是，本实施例利用现有的人脸解析方法从人脸图像中获得具有C个通道的热力图/>C＝7。每一个通道/>分别代表人脸的不同面部区域(面部、左眉毛、右眉毛、左眼、右眼、鼻子、嘴部)的掩码，i＝1,...,7，特征图尺寸通过高×宽×通道数(H×W×C)来表示。

需要说明的是，利用人脸图像与不同面部区域掩码/>即可获得人脸不同区域该过程表示为：

需要说明的是，利用采用面部编码器T_enc(·)提取不同面部区域的纹理特征获得/>该过程表示为：

将所述人脸不同区域的纹理特征输入动态局部相关性图卷积网络中，进行面部不同局部区域相关性的特征提取，得到所述面部局部相关性特征图。

所述动态局部相关性图卷积网络包括两层图神经网络GCN，第一层GCN用于获取人脸全局粗糙区域相关性特征H，公式表示为：

H＝L Re LU(A_sVW_s)

其中，H＝[H₁,H₂,...,H_C]，L Re LU(·)表示LeakyReLU激活函数，A_s表示相关矩阵，W_s表示状态更新权重，相关矩阵A_s与状态更新权重W_s随机初始化并且在训练过程中采用梯度下降的方法进行学习，V表示纹理特征。

第二层GCN用于动态捕捉人脸不同区域的相关性特征图，公式表示为：

Z＝L Re LU(A_dHW_d)

其中，δ(.)表示Sigmoid函数，W_d表示状态更新权重，W_a表示卷积层的权重，gap(·)表示全局平均池化(global average pooling)操作，conv(·)表示卷积操作，A_d表示相关矩阵，H′表示通过H所提取的特征，⊕表示相加，Z表示人脸不同区域相关性特征。

需要说明的是，本实施例中的相关矩阵A_d是根据所述相关性特征H动态构建得到，可以动态的对人脸的不同区域的相关性进行建模。

作为进一步优选的技术方案，如图4所示，上述步骤S3：基于融合特征图，预测得到中间图像、视频帧间的光流以及掩码，包括如下细分步骤S31至S32：

S31、对所述融合特征图进行反卷积操作，得到所述中间图像；

S32、对所述融合特征图，预测得到所述视频帧间的光流和掩码。

作为进一步优选的技术方案，如图5所示，上述步骤S4：基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像，合成人脸视频帧，包括如下细分步骤S41至S42：

S41、利用所述视频帧间的光流、所述掩码和所述上一帧人脸图像，得到warped图像；

S42、根据所述warped图像和所述中间图像，合成所述人脸视频帧。

作为进一步优选的技术方案，所述基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像，合成人脸视频帧，通过下式实现：

如图6所示，本实施例公开了一种人脸动画合成系统，包括图像获取模块10、特征提取融合模块20、预测模块30和视频帧合成模块40，其中：

图像获取模块10用于获取人脸草图序列和上一帧人脸图像；

特征提取融合模块20用于对上一帧人脸图像和人脸草图序列分别进行特征提取，并将提取到的特征进行融合，得到融合特征图；

预测模块30用于基于融合特征图，预测得到中间图像、视频帧间的光流以及掩码；

视频帧合成模块40用于基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像，合成人脸视频帧。

作为进一步优选的技术方案，所述特征提取融合模块20包括第一特征提取单元、第二特征提取单元、第三特征提取单元和特征融合单元，其中：

H＝L Re LU(A_sVW_s)

Z＝L Re LU(A_dHW_d)

作为进一步优选的技术方案，所述视频帧合成模块40合成人脸视频帧通过下式实现：

与现有技术相比，本发明采用了局部-全局面部协同的人脸动画合成方法，实现高真实感人脸动画合成。从人脸全局的面部协同角度，采用光流信息表征视频帧间的全局运动形变，提高合成视频的平滑性，缓解人脸视频抖动问题。从人脸局部的面部协同角度，提出了一种动态局部相关性图卷积网络，动态地对人脸的不同区域的相关性进行建模，保证面部运动的协同性，提高人脸动画的真实感。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人脸动画合成方法，其特征在于，包括：

S1、获取人脸草图序列和上一帧人脸图像；

S21：对所述人脸草图序列进行运动特征和面部结构特征提取，得到包含人脸结构信息和运动信息的特征图；

S22：对所述上一帧人脸图像进行纹理特征提取，得到纹理特征图；

S23：对所述上一帧人脸图像进行面部不同局部区域相关性的特征提取，得到面部局部相关性特征图；

S231：对所述上一帧人脸图像进行人脸解析，得到代表人脸不同面部区域的掩码；

S232：利用所述上一帧人脸图像与不同面部区域的掩码，得到人脸不同区域；

S233：采用面部编码器对人脸不同区域进行纹理特征提取，得到人脸不同区域的纹理特征；

S234：将所述人脸不同区域的纹理特征输入动态局部相关性图卷积网络中，对面部不同局部相关性特征进行建模，得到所述面部局部相关性特征图；

H＝LReLU(A_sVW_s)

其中，H＝[H₁,H₂,...,H_C]，LReLU(·)表示LeakyReLU激活函数，A_s表示相关矩阵，W_s表示状态更新权重，V表示纹理特征；

Z＝LReLU(A_dHW_d)

A_d＝δ(W_aH′),

其中，δ(.)表示Sigmoid函数，W_d表示状态更新权重，W_a表示卷积层的权重，gap(·)表示全局平均池化操作，conv(·)表示卷积操作，A_d表示相关矩阵，其根据所述相关性特征H动态构建得到，H′表示通过H所提取的特征，表示相加，Z表示人脸不同区域相关性特征；

S24：对包含人脸结构信息和运动信息的特征图、纹理特征图和面部局部相关性特征图进行特征融合，得到所述融合特征图；

2.如权利要求1所述的人脸动画合成方法，其特征在于，所述基于融合特征图，预测得到中间图像、视频帧间的光流以及掩码，包括：

对所述融合特征图进行反卷积操作，得到所述中间图像；

对所述融合特征图，预测得到所述视频帧间的光流和掩码。

3.如权利要求1所述的人脸动画合成方法，其特征在于，所述基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像，合成人脸视频帧，包括：

根据所述warped图像和所述中间图像，合成所述人脸视频帧。

4.如权利要求1-3任一项所述的人脸动画合成方法，其特征在于，所述基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像，合成人脸视频帧，通过下式实现：

5.一种人脸动画合成系统，其特征在于，包括图像获取模块、特征提取融合模块、预测模块和视频帧合成模块，所述特征提取融合模块包括第一特征提取单元、第二特征提取单元、第三特征提取单元和特征融合单元，其中：

图像获取模块用于获取人脸草图序列和上一帧人脸图像；

视频帧合成模块用于基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像，合成人脸视频帧；

H＝LReLU(A_sVW_s)

Z＝LReLU(A_dHW_d)

A_d＝δ(W_aH′),

6.如权利要求5所述的人脸动画合成系统，其特征在于，所述视频帧合成模块合成人脸视频帧通过下式实现：