CN113436302B - 一种人脸动画合成方法及系统 - Google Patents
一种人脸动画合成方法及系统 Download PDFInfo
- Publication number
- CN113436302B CN113436302B CN202110638770.9A CN202110638770A CN113436302B CN 113436302 B CN113436302 B CN 113436302B CN 202110638770 A CN202110638770 A CN 202110638770A CN 113436302 B CN113436302 B CN 113436302B
- Authority
- CN
- China
- Prior art keywords
- face
- representing
- image
- features
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims abstract description 13
- 230000001815 facial effect Effects 0.000 claims abstract description 45
- 230000004927 fusion Effects 0.000 claims abstract description 43
- 230000003287 optical effect Effects 0.000 claims abstract description 37
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 24
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000002194 synthesizing effect Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 6
- 238000005096 rolling process Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Abstract
本发明公开了一种人脸动画合成方法及系统,属于人工智能技术领域,包括:获取人脸草图序列和上一帧人脸图像;对上一帧人脸图像和人脸草图序列分别进行特征提取,并将提取到的特征进行融合,得到融合特征图;基于融合特征图,预测得到中间图像、视频帧间的光流以及掩码;基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像,合成人脸视频帧。本发明采用局部‑全局面部协同的人脸动画合成方法,实现高真实感人脸动画合成。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种人脸动画合成方法及系统。
背景技术
随着人工智能的爆发式发展,高真实感人脸动画合成作为新兴的研究热点问题,开启了虚拟人智能化的新模式,广泛应用于影视、娱乐、教育、医疗、社交、电商、内容营销、艺术创作、科研等诸多领域,其重要的学术价值和应用前景吸引了学术界和产业界的广泛关注。但是,合成高真实感的人脸动画具有极大的挑战性,需要保证唇部运动与语音/文本输入的同步性、人脸区域的全局运动的协同性以及人脸不同部位的局部运动协同性。
然而,现有的合成方法往往将此任务当成单张图像的合成问题而忽略了相邻帧间的全局形变,或者仅关注唇音同步而忽略了面部不同区域间的局部协同性,而导致合成的人脸动画时间不连贯,存在明显的视频抖动问题,以及导致非协同的、面部僵硬的纹理合成。
发明内容
本发明的目的在于克服现有技术存在的缺陷,实现运动协同的高真实感人脸动画合成。
为实现以上目的,一方面,本发明采用一种人脸动画合成方法,包括如下步骤:
获取人脸草图序列和上一帧人脸图像;
对上一帧人脸图像和人脸草图序列分别进行特征提取,并将提取到的特征进行融合,得到融合特征图;
基于融合特征图,预测得到中间图像、视频帧间的光流以及掩码;
基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像,合成人脸视频帧。
进一步地,所述对上一帧人脸图像和人脸草图序列分别进行特征提取,并将提取到的特征进行融合,得到融合特征图,包括:
对所述人脸草图序列进行运动特征和面部结构特征提取,得到包含人脸结构信息和运动信息的特征图;
对所述上一帧人脸图像进行纹理特征提取,得到纹理特征图;
对所述上一帧人脸图像进行面部不同局部区域相关性的特征提取,得到面部局部相关性特征图;
对包含人脸结构信息和运动信息的特征图、纹理特征图和面部局部相关性特征图进行特征融合,得到所述融合特征图。
进一步地,所述对所述上一帧人脸图像进行面部不同局部区域相关性的特征提取,得到面部局部相关性特征图,包括:
对所述上一帧人脸图像进行人脸解析,得到代表人脸不同面部区域的掩码;
利用所述上一帧人脸图像与不同面部区域的掩码,得到人脸不同区域;
采用面部编码器对人脸不同区域进行纹理特征提取,得到人脸不同区域的纹理特征;
将所述人脸不同区域的纹理特征输入动态局部相关性图卷积网络中,对面部局部相关性特征进行建模,得到所述面部局部相关性特征图。
进一步地,所述将所述人脸不同区域的纹理特征输入动态局部相关性图卷积网络中,对面部不同局部相关性特征进行建模,得到所述面部局部相关性特征图,包括:
基于所述纹理特征,获取人脸全局粗糙区域相关性特征H的公式为:
H=L Re LU(AsVWs)
其中,H=[H1,H2,...,HC],L Re LU(·)表示LeakyReLU激活函数,As表示相关矩阵,Ws表示状态更新权重,V表示纹理特征;
基于人脸全局粗糙区域相关性特征H,获取所述面部局部相关性特征图的公式为:
Z=L Re LU(AdHWd)
其中,δ(.)表示Sigmoid函数,Wd表示状态更新权重,Wa表示卷积层的权重,gap(·)表示全局平均池化操作,conv(·)表示卷积操作,Ad表示相关矩阵,其根据所述相关性特征H动态构建得到,H′表示通过H所提取的特征,⊕表示相加,Z表示人脸不同区域相关性特征。
进一步地,所述基于融合特征图,预测得到中间图像、视频帧间的光流以及掩码,包括:
对所述融合特征图进行反卷积操作,得到所述中间图像;
对所述融合特征图,预测得到所述视频帧间的光流和掩码。
进一步地,所述基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像,合成人脸视频帧,包括:
利用所述视频帧间的光流、所述掩码和所述上一帧人脸图像,得到warped图像;
根据所述warped图像和所述中间图像,合成所述人脸视频帧。
进一步地,所述基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像,合成人脸视频帧,通过下式实现:
其中,表示人脸草图序列,t=1,...,T,/>分别表示真实图像和生成图像序列,/>表示视频帧/>与/>之间的光流,/>表示遮挡掩码,表示合成的中间图像,L表示过去时间参数,⊙表示点乘。
另一方面,采用一种人脸动画合成系统,包括图像获取模块、特征提取融合模块、预测模块和视频帧合成模块,其中:
图像获取模块用于获取人脸草图序列和上一帧人脸图像;
特征提取融合模块用于对上一帧人脸图像和人脸草图序列分别进行特征提取,并将提取到的特征进行融合,得到融合特征图;
预测模块用于基于融合特征图,预测得到中间图像、视频帧间的光流以及掩码;
视频帧合成模块用于基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像,合成人脸视频帧。
进一步地,所述特征提取融合模块包括第一特征提取单元、第二特征提取单元、第三特征提取单元和特征融合单元,其中:
第一特征提取单元用于对所述人脸草图序列进行运动特征和面部结构特征提取,得到包含人脸结构信息和运动信息的特征图;
第二特征提取单元用于对所述上一帧人脸图像进行纹理特征提取,得到纹理特征图;
第三特征提取单元用于对所述上一帧人脸图像进行面部不同局部区域相关性的特征提取,得到面部局部相关性特征图,具体为:
对所述上一帧人脸图像进行人脸解析,得到代表人脸不同面部区域的掩码;
利用所述上一帧人脸图像与不同面部区域的掩码,得到人脸不同区域;
采用面部编码器对人脸不同区域进行纹理特征提取,得到人脸不同区域的纹理特征;
基于所述纹理特征,获取人脸全局粗糙区域相关性特征H的公式为:
H=L Re LU(AsVWs)
其中,H=[H1,H2,...,HC],L Re LU(·)表示LeakyReLU激活函数,As表示相关矩阵,Ws表示状态更新权重,V表示纹理特征;
基于人脸全局粗糙区域相关性特征H,获取所述面部局部相关性特征图的公式为:
Z=L Re LU(AdHWd)
其中,δ(.)表示Sigmoid函数,Wd表示状态更新权重,Wa表示卷积层的权重,gap(·)表示全局平均池化操作,conv(·)表示卷积操作,Ad表示相关矩阵,其根据所述相关性特征H动态构建得到,H′表示通过H所提取的特征,⊕表示相加,Z表示人脸不同区域相关性特征;
特征融合单元用于对包含人脸结构信息和运动信息的特征图、纹理特征图和面部局部相关性特征图进行特征融合,得到所述融合特征图。
进一步地,所述视频帧合成模块通过下式实现:
其中,表示人脸草图序列,t=1,...,T,/>分别表示真实图像和生成图像序列,/>表示视频帧/>与/>之间的光流,/>表示遮挡掩码,/>表示合成的中间图像,L表示过去时间参数,⊙表示点乘。
与现有技术相比,本发明存在以下技术效果:本发明通过动态地对人脸的不同区域的相关性进行建模,保证面部运动的系统性;从人脸全局的面部协同角度,采用光流信息表征视频帧间的全局运动形变,提高合成视频的平滑性,缓解人脸视频抖动问题,实现高真实感人脸动画合成。
附图说明
下面结合附图,对本发明的具体实施方式进行详细描述:
图1是人脸动画合成方法的流程示意图;
图2是人脸动画合成的整体框架图;
图3是步骤S2的细分步骤流程示意图;
图4是步骤S3的细分步骤流程示意图;
图5是步骤S4的细分步骤流程示意图;
图6是人脸动画合成系统的结构示意图。
具体实施方式
为了更进一步说明本发明的特征,请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1至图2所示,本实施例公开了一种人脸动画合成方法,可以用于娱乐行业,如电影制作,视频配音,游戏制作等;也可以用于语言教学,或是语言障碍者的医学辅助治疗等,具体包括如下步骤S1至S4:
S1、获取人脸草图序列和上一帧人脸图像;
S2、对上一帧人脸图像和人脸草图序列分别进行特征提取,并将提取到的特征进行融合,得到融合特征图;
需要说明的是,所述提取到的特征包括面部纹理特征、面部结构信息以及面部局部相关性特征。
S3、基于融合特征图,预测得到中间图像、视频帧间的光流以及掩码;
S4、基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像,合成人脸视频帧。
作为进一步优选的技术方案,如图3所示,上述步骤S2:对上一帧人脸图像和人脸草图序列分别进行特征提取,并将提取到的特征进行融合,得到融合特征图,包括如下细分步骤S21至S24:
S21、对所述人脸草图序列进行运动特征和面部结构特征提取,得到包含人脸结构信息和运动信息的特征图;
S22、对所述上一帧人脸图像进行纹理特征提取,得到纹理特征图;
S23、对所述上一帧人脸图像进行面部不同局部区域相关性的特征提取,得到面部局部相关性特征图;
S24、对包含人脸结构信息和运动信息的特征图、纹理特征图和面部局部相关性特征图进行特征融合,得到所述融合特征图。
具体来说,如图2所示,本实施例中利用编码器Encoder_1对人脸草图序列进行运动特征和面部结构特征提取,得到包含有人脸结构信息和运动信息的特征图;利用编码器Encoder_2对上一帧人脸图像进行纹理特征提取,得到纹理特征图。
并采用动态局部相关性图卷积网络(Dynamic Local-Correlation GraphNetwork)实现人脸不同局部区域相关性的建模,具体为:
对所述上一帧人脸图像进行人脸解析,得到代表人脸不同面部区域的掩码;
需要说明的是,本实施例利用现有的人脸解析方法从人脸图像中获得具有C个通道的热力图/>C=7。每一个通道/>分别代表人脸的不同面部区域(面部、左眉毛、右眉毛、左眼、右眼、鼻子、嘴部)的掩码,i=1,...,7,特征图尺寸通过高×宽×通道数(H×W×C)来表示。
利用所述上一帧人脸图像与不同面部区域的掩码,得到人脸不同区域;
需要说明的是,利用人脸图像与不同面部区域掩码/>即可获得人脸不同区域该过程表示为:
采用面部编码器对人脸不同区域进行纹理特征提取,得到人脸不同区域的纹理特征;
需要说明的是,利用采用面部编码器Tenc(·)提取不同面部区域的纹理特征获得/>该过程表示为:
将所述人脸不同区域的纹理特征输入动态局部相关性图卷积网络中,进行面部不同局部区域相关性的特征提取,得到所述面部局部相关性特征图。
所述动态局部相关性图卷积网络包括两层图神经网络GCN,第一层GCN用于获取人脸全局粗糙区域相关性特征H,公式表示为:
H=L Re LU(AsVWs)
其中,H=[H1,H2,...,HC],L Re LU(·)表示LeakyReLU激活函数,As表示相关矩阵,Ws表示状态更新权重,相关矩阵As与状态更新权重Ws随机初始化并且在训练过程中采用梯度下降的方法进行学习,V表示纹理特征。
第二层GCN用于动态捕捉人脸不同区域的相关性特征图,公式表示为:
Z=L Re LU(AdHWd)
其中,δ(.)表示Sigmoid函数,Wd表示状态更新权重,Wa表示卷积层的权重,gap(·)表示全局平均池化(global average pooling)操作,conv(·)表示卷积操作,Ad表示相关矩阵,H′表示通过H所提取的特征,⊕表示相加,Z表示人脸不同区域相关性特征。
需要说明的是,本实施例中的相关矩阵Ad是根据所述相关性特征H动态构建得到,可以动态的对人脸的不同区域的相关性进行建模。
作为进一步优选的技术方案,如图4所示,上述步骤S3:基于融合特征图,预测得到中间图像、视频帧间的光流以及掩码,包括如下细分步骤S31至S32:
S31、对所述融合特征图进行反卷积操作,得到所述中间图像;
S32、对所述融合特征图,预测得到所述视频帧间的光流和掩码。
作为进一步优选的技术方案,如图5所示,上述步骤S4:基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像,合成人脸视频帧,包括如下细分步骤S41至S42:
S41、利用所述视频帧间的光流、所述掩码和所述上一帧人脸图像,得到warped图像;
S42、根据所述warped图像和所述中间图像,合成所述人脸视频帧。
作为进一步优选的技术方案,所述基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像,合成人脸视频帧,通过下式实现:
其中,表示人脸草图序列,t=1,...,T,/>分别表示真实图像和生成图像序列,/>表示视频帧/>与/>之间的光流,/>表示遮挡掩码,/>表示合成的中间图像,L表示过去时间参数,⊙表示点乘。
如图6所示,本实施例公开了一种人脸动画合成系统,包括图像获取模块10、特征提取融合模块20、预测模块30和视频帧合成模块40,其中:
图像获取模块10用于获取人脸草图序列和上一帧人脸图像;
特征提取融合模块20用于对上一帧人脸图像和人脸草图序列分别进行特征提取,并将提取到的特征进行融合,得到融合特征图;
预测模块30用于基于融合特征图,预测得到中间图像、视频帧间的光流以及掩码;
视频帧合成模块40用于基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像,合成人脸视频帧。
作为进一步优选的技术方案,所述特征提取融合模块20包括第一特征提取单元、第二特征提取单元、第三特征提取单元和特征融合单元,其中:
第一特征提取单元用于对所述人脸草图序列进行运动特征和面部结构特征提取,得到包含人脸结构信息和运动信息的特征图;
第二特征提取单元用于对所述上一帧人脸图像进行纹理特征提取,得到纹理特征图;
第三特征提取单元用于对所述上一帧人脸图像进行面部不同局部区域相关性的特征提取,得到面部局部相关性特征图,具体为:
对所述上一帧人脸图像进行人脸解析,得到代表人脸不同面部区域的掩码;
利用所述上一帧人脸图像与不同面部区域的掩码,得到人脸不同区域;
采用面部编码器对人脸不同区域进行纹理特征提取,得到人脸不同区域的纹理特征;
基于所述纹理特征,获取人脸全局粗糙区域相关性特征H的公式为:
H=L Re LU(AsVWs)
其中,H=[H1,H2,...,HC],L Re LU(·)表示LeakyReLU激活函数,As表示相关矩阵,Ws表示状态更新权重,V表示纹理特征;
基于人脸全局粗糙区域相关性特征H,获取所述面部局部相关性特征图的公式为:
Z=L Re LU(AdHWd)
其中,δ(.)表示Sigmoid函数,Wd表示状态更新权重,Wa表示卷积层的权重,gap(·)表示全局平均池化操作,conv(·)表示卷积操作,Ad表示相关矩阵,其根据所述相关性特征H动态构建得到,H′表示通过H所提取的特征,⊕表示相加,Z表示人脸不同区域相关性特征;
特征融合单元用于对包含人脸结构信息和运动信息的特征图、纹理特征图和面部局部相关性特征图进行特征融合,得到所述融合特征图。
作为进一步优选的技术方案,所述视频帧合成模块40合成人脸视频帧通过下式实现:
其中,表示人脸草图序列,t=1,...,T,/>分别表示真实图像和生成图像序列,/>表示视频帧/>与/>之间的光流,/>表示遮挡掩码,/>表示合成的中间图像,L表示过去时间参数,⊙表示点乘。
与现有技术相比,本发明采用了局部-全局面部协同的人脸动画合成方法,实现高真实感人脸动画合成。从人脸全局的面部协同角度,采用光流信息表征视频帧间的全局运动形变,提高合成视频的平滑性,缓解人脸视频抖动问题。从人脸局部的面部协同角度,提出了一种动态局部相关性图卷积网络,动态地对人脸的不同区域的相关性进行建模,保证面部运动的协同性,提高人脸动画的真实感。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种人脸动画合成方法,其特征在于,包括:
S1、获取人脸草图序列和上一帧人脸图像;
S2、对上一帧人脸图像和人脸草图序列分别进行特征提取,并将提取到的特征进行融合,得到融合特征图;
S21:对所述人脸草图序列进行运动特征和面部结构特征提取,得到包含人脸结构信息和运动信息的特征图;
S22:对所述上一帧人脸图像进行纹理特征提取,得到纹理特征图;
S23:对所述上一帧人脸图像进行面部不同局部区域相关性的特征提取,得到面部局部相关性特征图;
S231:对所述上一帧人脸图像进行人脸解析,得到代表人脸不同面部区域的掩码;
S232:利用所述上一帧人脸图像与不同面部区域的掩码,得到人脸不同区域;
S233:采用面部编码器对人脸不同区域进行纹理特征提取,得到人脸不同区域的纹理特征;
S234:将所述人脸不同区域的纹理特征输入动态局部相关性图卷积网络中,对面部不同局部相关性特征进行建模,得到所述面部局部相关性特征图;
基于所述纹理特征,获取人脸全局粗糙区域相关性特征H的公式为:
H=LReLU(AsVWs)
其中,H=[H1,H2,...,HC],LReLU(·)表示LeakyReLU激活函数,As表示相关矩阵,Ws表示状态更新权重,V表示纹理特征;
基于人脸全局粗糙区域相关性特征H,获取所述面部局部相关性特征图的公式为:
Z=LReLU(AdHWd)
Ad=δ(WaH′),
其中,δ(.)表示Sigmoid函数,Wd表示状态更新权重,Wa表示卷积层的权重,gap(·)表示全局平均池化操作,conv(·)表示卷积操作,Ad表示相关矩阵,其根据所述相关性特征H动态构建得到,H′表示通过H所提取的特征,表示相加,Z表示人脸不同区域相关性特征;
S24:对包含人脸结构信息和运动信息的特征图、纹理特征图和面部局部相关性特征图进行特征融合,得到所述融合特征图;
S3、基于融合特征图,预测得到中间图像、视频帧间的光流以及掩码;
S4、基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像,合成人脸视频帧。
2.如权利要求1所述的人脸动画合成方法,其特征在于,所述基于融合特征图,预测得到中间图像、视频帧间的光流以及掩码,包括:
对所述融合特征图进行反卷积操作,得到所述中间图像;
对所述融合特征图,预测得到所述视频帧间的光流和掩码。
3.如权利要求1所述的人脸动画合成方法,其特征在于,所述基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像,合成人脸视频帧,包括:
利用所述视频帧间的光流、所述掩码和所述上一帧人脸图像,得到warped图像;
根据所述warped图像和所述中间图像,合成所述人脸视频帧。
4.如权利要求1-3任一项所述的人脸动画合成方法,其特征在于,所述基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像,合成人脸视频帧,通过下式实现:
其中,表示人脸草图序列,t=1,...,T,/>分别表示真实图像和生成图像序列,/>表示视频帧/>与/>之间的光流,/>表示遮挡掩码,/>表示合成的中间图像,L表示过去时间参数,⊙表示点乘。
5.一种人脸动画合成系统,其特征在于,包括图像获取模块、特征提取融合模块、预测模块和视频帧合成模块,所述特征提取融合模块包括第一特征提取单元、第二特征提取单元、第三特征提取单元和特征融合单元,其中:
图像获取模块用于获取人脸草图序列和上一帧人脸图像;
特征提取融合模块用于对上一帧人脸图像和人脸草图序列分别进行特征提取,并将提取到的特征进行融合,得到融合特征图;
预测模块用于基于融合特征图,预测得到中间图像、视频帧间的光流以及掩码;
视频帧合成模块用于基于中间图像、视频帧间的光流、掩码以及上一帧人脸图像,合成人脸视频帧;
第一特征提取单元用于对所述人脸草图序列进行运动特征和面部结构特征提取,得到包含人脸结构信息和运动信息的特征图;
第二特征提取单元用于对所述上一帧人脸图像进行纹理特征提取,得到纹理特征图;
第三特征提取单元用于对所述上一帧人脸图像进行面部不同局部区域相关性的特征提取,得到面部局部相关性特征图,具体为:
对所述上一帧人脸图像进行人脸解析,得到代表人脸不同面部区域的掩码;
利用所述上一帧人脸图像与不同面部区域的掩码,得到人脸不同区域;
采用面部编码器对人脸不同区域进行纹理特征提取,得到人脸不同区域的纹理特征;
基于所述纹理特征,获取人脸全局粗糙区域相关性特征H的公式为:
H=LReLU(AsVWs)
其中,H=[H1,H2,...,HC],LReLU(·)表示LeakyReLU激活函数,As表示相关矩阵,Ws表示状态更新权重,V表示纹理特征;
基于人脸全局粗糙区域相关性特征H,获取所述面部局部相关性特征图的公式为:
Z=LReLU(AdHWd)
Ad=δ(WaH′),
其中,δ(.)表示Sigmoid函数,Wd表示状态更新权重,Wa表示卷积层的权重,gap(·)表示全局平均池化操作,conv(·)表示卷积操作,Ad表示相关矩阵,其根据所述相关性特征H动态构建得到,H′表示通过H所提取的特征,表示相加,Z表示人脸不同区域相关性特征;
特征融合单元用于对包含人脸结构信息和运动信息的特征图、纹理特征图和面部局部相关性特征图进行特征融合,得到所述融合特征图。
6.如权利要求5所述的人脸动画合成系统,其特征在于,所述视频帧合成模块合成人脸视频帧通过下式实现:
其中,表示人脸草图序列,t=1,...,T,/>分别表示真实图像和生成图像序列,/>表示视频帧/>与/>之间的光流,/>表示遮挡掩码,/>表示合成的中间图像,L表示过去时间参数,⊙表示点乘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110638770.9A CN113436302B (zh) | 2021-06-08 | 2021-06-08 | 一种人脸动画合成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110638770.9A CN113436302B (zh) | 2021-06-08 | 2021-06-08 | 一种人脸动画合成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113436302A CN113436302A (zh) | 2021-09-24 |
CN113436302B true CN113436302B (zh) | 2024-02-13 |
Family
ID=77755410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110638770.9A Active CN113436302B (zh) | 2021-06-08 | 2021-06-08 | 一种人脸动画合成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113436302B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591807B (zh) * | 2021-09-28 | 2021-12-17 | 山东天河科技股份有限公司 | 一种精确的人员识别装置及使用方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1254904A (zh) * | 1998-11-18 | 2000-05-31 | 株式会社新太吉 | 用于拍摄/识别脸孔的方法和装置 |
EP1031945A2 (en) * | 1999-02-26 | 2000-08-30 | Kabushiki Kaisha Toshiba | Animation creation apparatus and method |
JP2007299300A (ja) * | 2006-05-02 | 2007-11-15 | Advanced Telecommunication Research Institute International | アニメーション作成装置 |
KR100896762B1 (ko) * | 2007-12-18 | 2009-05-11 | 중앙대학교 산학협력단 | 회화적 애니메이션 장치 및 방법 |
CN101854465A (zh) * | 2010-02-01 | 2010-10-06 | 杭州海康威视软件有限公司 | 基于光流算法的图像处理方法及装置 |
CN102254336A (zh) * | 2011-07-14 | 2011-11-23 | 清华大学 | 人脸视频合成方法及装置 |
WO2012065872A1 (en) * | 2010-11-18 | 2012-05-24 | Bae Systems Plc | Change detection in video data |
KR20120130627A (ko) * | 2011-05-23 | 2012-12-03 | 한국전자통신연구원 | 아바타를 이용한 애니메이션 생성 장치 및 방법 |
KR101227524B1 (ko) * | 2011-08-10 | 2013-01-31 | 엘지전자 주식회사 | 영상 처리방법 및 영상 처리장치 |
WO2017206005A1 (zh) * | 2016-05-30 | 2017-12-07 | 中国石油大学(华东) | 一种基于光流检测和身体部分模型的多人姿态识别系统 |
WO2019002602A1 (en) * | 2017-06-30 | 2019-01-03 | Norwegian University Of Science And Technology (Ntnu) | DETECTION OF MANIPULATED IMAGES |
WO2019119449A1 (zh) * | 2017-12-22 | 2019-06-27 | 深圳中兴力维技术有限公司 | 人脸图像特征融合处理方法、装置及设备、存储介质 |
CN111083479A (zh) * | 2019-12-31 | 2020-04-28 | 合肥图鸭信息科技有限公司 | 一种视频帧预测方法、装置及终端设备 |
KR102119136B1 (ko) * | 2018-12-26 | 2020-06-05 | 인천대학교 산학협력단 | 지능형 이미지 분류 방법 |
CN112785671A (zh) * | 2021-01-07 | 2021-05-11 | 中国科学技术大学 | 虚假人脸动画合成方法 |
-
2021
- 2021-06-08 CN CN202110638770.9A patent/CN113436302B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1254904A (zh) * | 1998-11-18 | 2000-05-31 | 株式会社新太吉 | 用于拍摄/识别脸孔的方法和装置 |
EP1031945A2 (en) * | 1999-02-26 | 2000-08-30 | Kabushiki Kaisha Toshiba | Animation creation apparatus and method |
JP2007299300A (ja) * | 2006-05-02 | 2007-11-15 | Advanced Telecommunication Research Institute International | アニメーション作成装置 |
KR100896762B1 (ko) * | 2007-12-18 | 2009-05-11 | 중앙대학교 산학협력단 | 회화적 애니메이션 장치 및 방법 |
CN101854465A (zh) * | 2010-02-01 | 2010-10-06 | 杭州海康威视软件有限公司 | 基于光流算法的图像处理方法及装置 |
WO2012065872A1 (en) * | 2010-11-18 | 2012-05-24 | Bae Systems Plc | Change detection in video data |
KR20120130627A (ko) * | 2011-05-23 | 2012-12-03 | 한국전자통신연구원 | 아바타를 이용한 애니메이션 생성 장치 및 방법 |
CN102254336A (zh) * | 2011-07-14 | 2011-11-23 | 清华大学 | 人脸视频合成方法及装置 |
KR101227524B1 (ko) * | 2011-08-10 | 2013-01-31 | 엘지전자 주식회사 | 영상 처리방법 및 영상 처리장치 |
WO2017206005A1 (zh) * | 2016-05-30 | 2017-12-07 | 中国石油大学(华东) | 一种基于光流检测和身体部分模型的多人姿态识别系统 |
WO2019002602A1 (en) * | 2017-06-30 | 2019-01-03 | Norwegian University Of Science And Technology (Ntnu) | DETECTION OF MANIPULATED IMAGES |
WO2019119449A1 (zh) * | 2017-12-22 | 2019-06-27 | 深圳中兴力维技术有限公司 | 人脸图像特征融合处理方法、装置及设备、存储介质 |
KR102119136B1 (ko) * | 2018-12-26 | 2020-06-05 | 인천대학교 산학협력단 | 지능형 이미지 분류 방법 |
CN111083479A (zh) * | 2019-12-31 | 2020-04-28 | 合肥图鸭信息科技有限公司 | 一种视频帧预测方法、装置及终端设备 |
CN112785671A (zh) * | 2021-01-07 | 2021-05-11 | 中国科学技术大学 | 虚假人脸动画合成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113436302A (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Ad-nerf: Audio driven neural radiance fields for talking head synthesis | |
Olszewski et al. | High-fidelity facial and speech animation for VR HMDs | |
Chuang et al. | Mood swings: expressive speech animation | |
CN110599573B (zh) | 一种基于单目相机的人脸实时交互动画的实现方法 | |
Liu et al. | Synthesizing talking faces from text and audio: an autoencoder and sequence-to-sequence convolutional neural network | |
CN113436302B (zh) | 一种人脸动画合成方法及系统 | |
CN110910479A (zh) | 视频处理方法、装置、电子设备及可读存储介质 | |
Krishna et al. | Gan based indian sign language synthesis | |
CN116980697A (zh) | 一种说话人脸视频生成方法、装置、设备及存储介质 | |
Usman et al. | Skeleton-based motion prediction: A survey | |
CN116385606A (zh) | 一种语音信号驱动的个性化三维人脸动画生成方法及其应用 | |
Fratarcangeli et al. | Facial motion cloning with radial basis functions in MPEG-4 FBA | |
RU2720361C1 (ru) | Обучение по нескольким кадрам реалистичных нейронных моделей голов говорящих персон | |
Kaspersen et al. | Generative Choreographies: The Performance Dramaturgy of the Machine. | |
Feng et al. | Acting the part: The role of gesture on avatar identity | |
CN113076918A (zh) | 基于视频的人脸表情克隆方法 | |
Chuang | Analysis, synthesis, and retargeting of facial expressions | |
Seyedarabi et al. | Facial expressions animation and lip tracking using facial characteristic points and deformable model | |
CN113542759A (zh) | 生成对抗神经网络辅助的视频重建 | |
Tze et al. | Cartoonized Anonymization of Sign Language Videos | |
Sun et al. | Generation of virtual digital human for customer service industry | |
Chen et al. | 3D Facial Priors Guided Local-Global Motion Collaboration Transforms for One-shot Talking-Head Video Synthesis | |
US20230260185A1 (en) | Method and apparatus for creating deep learning-based synthetic video content | |
Quan et al. | Facial Animation Using CycleGAN | |
Johnson | A Survey of Computer Graphics Facial Animation Methods: Comparing Traditional Approaches to Machine Learning Methods |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |