CN114049678A - 一种基于深度学习的面部动作捕捉方法及系统 - Google Patents

一种基于深度学习的面部动作捕捉方法及系统 Download PDF

Info

Publication number
CN114049678A
CN114049678A CN202210023895.5A CN202210023895A CN114049678A CN 114049678 A CN114049678 A CN 114049678A CN 202210023895 A CN202210023895 A CN 202210023895A CN 114049678 A CN114049678 A CN 114049678A
Authority
CN
China
Prior art keywords
face
facial
facial motion
video
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210023895.5A
Other languages
English (en)
Other versions
CN114049678B (zh
Inventor
刘逸颖
李太豪
阮玉平
马诗洁
郑书凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210023895.5A priority Critical patent/CN114049678B/zh
Publication of CN114049678A publication Critical patent/CN114049678A/zh
Application granted granted Critical
Publication of CN114049678B publication Critical patent/CN114049678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的面部动作捕捉方法及系统,包括以下步骤:S1:使用深度相机采集人脸的视频数据和对应的深度数据,构建数据集;S2:构建面部动作识别网络,使用所述数据集进行面部动作识别网络训练;S3:将任意视频序列输入训练后的面部动作识别网络,预测混合形状系数;S4:将所述预测混合形状系数应用于任意的虚拟形象上,驱动虚拟形象的面部动作。系统包括视频采集模块,网络训练模块,面部动作预测模块,虚拟形象动画展示模块。本发明的算法运行速率高,只在训练时使用了深度信息进行训练,在预测阶段只需要输入单相机拍摄的视频就可以完成动作捕捉,无需额外的深度采集设备,可实时的进行面部动作捕捉。

Description

一种基于深度学习的面部动作捕捉方法及系统
技术领域
本发明涉及一种计算机视觉、计算机图形学技术领域,尤其涉及一种基于深度学习的面部动作捕捉方法及系统。
背景技术
面部动作捕捉是动作捕捉技术的一部分,指使用机械装置、相机等设备记录人类面部表情和动作,将之转换为一系列参数数据的过程。与人为制作的动画角色表情相比,通过捕捉真人面部动作生成的角色会更具真实感,还能大大的降低人工建模的成本。现如今动作捕捉技术已经是影视动画制作、游戏开发、虚拟现实等领域中必不可少的生产工具。
现在主流的方式可分为:基于二维数据和基于三维数据。前者采用光学镜头,通过算法理解人的面部表情及动作,如 Faceware 的头盔式单相机面部动作捕捉系统,这种方式的优点是成本低、易获取、使用方便,缺点是捕捉精度与其他方法相比较低;后者通过光学镜头获得二维数据,同时通过额外的手段或设备获得深度信息,如多目相机、结构光等,如苹果的Animoji在前置摄像头旁安装了红外相机以采集深度信息,这种方式的处理速度快,精度高,但需要额外的深度采集设备。
为了,我们设计了一种基于深度学习的面部动作捕捉方法及系统以此解决上述技术问题。
发明内容
本发明的目的在于提供一种基于深度学习的面部动作捕捉方法及系统,对于输入的任意包含人脸的视频,本方法采用深度学习网络识别通用的混合形状模型的权重系数,该识别结果可应用于任意的虚拟形象上,从而驱动虚拟形象的面部动作。
本发明采用的技术方案如下:
一种基于深度学习的面部动作捕捉方法,包括以下步骤:
S1:使用深度相机采集人脸的视频数据和对应的深度数据,构建数据集;
S2:构建面部动作识别网络,使用所述数据集进行面部动作识别网络训练;
S3:将任意视频序列输入训练后的面部动作识别网络,预测混合形状系数;
S4:将所述预测混合形状系数应用于任意的虚拟形象上,驱动虚拟形象的面部动作。
进一步地,所述S1中所述构建数据集包括以下子步骤:
S11:构建每个所述人脸的视频数据中人脸的混合模型:根据深度图重建中性表情下的3D人脸模型,并利用网格形变迁移算法得到混合形状模型,其中混合形状模型包含了一个中性表情B0和n个表情基(B1,…,Bn);
S12:检测所述人脸的视频数据中每一帧的人脸关键点,并根据所述深度数据获得所述人脸关键点的三维坐标;
S13:根据所述人脸关键点的三维坐标和所述混合形状模型上的对应的顶点,计算所述混合形状模型与相机坐标系下人脸的旋转平移矩阵。
进一步地,所述S3所述面部动作识别网络的输入为任意视频序列,输出为视频每一帧对应的预测混合形状系数。
进一步地,所述S2所述面部动作识别网络包括特征提取网络、Transformer和全连接网络串联。
进一步地,所述特征提取网络为卷积神经网络结构,所述特征提取网络对任意视频序列的每帧图像进行特征提取,并编码为一个特征向量,所述特征向量与任意视频序列的视频帧位置编码进行连接作为所述Transformer的输入,用于构建人脸表情在时序上的关联性,全连接层使用Sigmoid作为激活函数,输出预测混合形状系数。
进一步地,所述S2中面部动作识别网络训练过程中包括拟合当前帧的3D人脸,公式为:
Figure 246431DEST_PATH_IMAGE001
其中,
Figure 620780DEST_PATH_IMAGE002
为混合形状系数,
Figure 137212DEST_PATH_IMAGE003
Figure 10753DEST_PATH_IMAGE004
为最终生成的对应于输入人脸的视频数据的3D人脸,
Figure 612635DEST_PATH_IMAGE005
是中性表情人脸模型,
Figure 728359DEST_PATH_IMAGE006
-
Figure 833718DEST_PATH_IMAGE007
是人脸模型的不同表情基,
Figure 845537DEST_PATH_IMAGE008
表示不同表情和中性表情之间的顶点偏移量,将拟合当前帧的3D人脸与当前帧中的人脸在空间上对齐,得到变换后的3D人脸,公式为:
Figure 669136DEST_PATH_IMAGE009
其中,R为3×3的旋转矩阵,T为1×3的平移矩阵。
进一步地,所述S2中面部动作识别网络训练的过程中,由拟合损失和时间连续性损失构成的损失函数进行反向传播,学习网络参数,表达式为:
Figure 555927DEST_PATH_IMAGE010
其中,
Figure 781372DEST_PATH_IMAGE011
为拟合损失,
Figure 964092DEST_PATH_IMAGE012
为时间连续性损失,
Figure 540567DEST_PATH_IMAGE013
衡量了
Figure 263672DEST_PATH_IMAGE014
的比重。
进一步地,所述拟合损失
Figure 343624DEST_PATH_IMAGE015
为所述变换后的3D人脸上的关键点与所述深度数据获得所述人脸关键点的三维坐标之间的欧式距离:
Figure 962824DEST_PATH_IMAGE016
其中,
Figure 262480DEST_PATH_IMAGE017
大小为k×3,为拟合当前帧的3D人脸
Figure 523697DEST_PATH_IMAGE018
上的关键点的三维坐标,
Figure 458155DEST_PATH_IMAGE019
大小为k×3,为当前帧由深度数据获得所述人脸关键点的三维坐标,k为关键点的数量。
进一步地,所述时间连续性损失
Figure 248257DEST_PATH_IMAGE012
为相邻帧之间的平滑误差,表达式为:
Figure 533745DEST_PATH_IMAGE020
其中,
Figure 536336DEST_PATH_IMAGE021
为网络预测的当前帧的网络输出,
Figure 590879DEST_PATH_IMAGE022
为网络预测的前1帧的网络输出,
Figure 847155DEST_PATH_IMAGE023
为网络预测的前2帧的网络输出。
本发明还提供一种基于深度学习的面部动作捕捉系统,包括以下模块:
视频采集模块,用于采集人脸的视频数据和对应的深度数据,构建数据集;
网络训练模块,用于使用数据集进行面部动作识别网络训练;
面部动作预测模块,用于将任意视频序列输入训练后的网络训练模块,预测混合形状系数;
虚拟形象动画展示模块,用于将所述预测混合形状系数应用于虚拟形象,实时展示视频中人脸的面部表情。
本发明的有益效果是:
1.本发明提出的动作捕捉方法,只在训练时使用了深度信息进行训练,在预测阶段只需要输入单相机拍摄的视频就可以完成动作捕捉,无需额外的深度采集设备,因此成本低,可以更灵活的应用于各个场景。
2. 本发明提出的面部动作识别网络在训练过程中,不需要使用市面上昂贵的面部动作捕捉设备获取每一帧的混合形状系数作为真值,而是通过将网络输出计算3D人脸,并计算其与由深度相机采集的面部关键点的距离误差进行间接的学习,减小了训练集的制作成本。
3.本发明提出的面部动作识别网络由卷积、transformer等基本网络结构构成,其中卷积网络在图像的特征提取上有着优越的性能,而transformer能够在时间上联合考虑相邻帧之间的信息,因此算法精度高。此外卷积和transformer都能够进行高效的并行计算,因此本发明的算法运行速率高,可实时的进行面部动作捕捉。
附图说明
图1为本发明的面部动作捕捉方法的流程示意图;
图2为本发明构建的混合模型形状的表情示意图;
图3为本发明检测的面部关键点示意图;
图4为本发明的面部动作识别网络结构示意图;
图5为本发明的一种基于深度学习的面部动作捕捉系统示意图;
图6为本发明一种基于深度学习的面部动作捕捉装置的结构图。
具体实施方式
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
见图1,一种基于深度学习的面部动作捕捉方法,包括以下步骤:
S1:使用深度相机采集人脸的视频数据和对应的深度数据,构建数据集;
在本实施例中,使用RealSense L515采集原始的视频和深度图,构建数据集包括以下方面:
S11:构建每个所述人脸的视频数据中人脸的混合模型:根据深度图重建中性表情下的3D人脸模型,并利用网格形变迁移算法得到混合形状模型,混合形状模型包含中性表情
Figure 88780DEST_PATH_IMAGE024
和n个表情基(
Figure 160642DEST_PATH_IMAGE025
),如张口、微笑、皱眉、闭眼等。
可选地,混合形状模型的构建的方法为:
1)准备一个包含不同表情基的人脸模板;
2)从深度图中恢复点云,并裁剪出人脸部分的点云,利用Nonrigid ICP算法,对中性表情的人脸模板进行变形,使其与采集的点云形状一致,得到目标人脸。见图2中的(a),根据采集的深度图重建的3D人脸。
3)利用网格形变迁移算法,将人脸模板的不同表情迁移到目标人脸,得到目标人脸的不同表情的集合。见图2中的(b)-图2中的(f)列举了得到的一些表情的示例。本实施例共使用了52个表情基,共同构成了目标人脸的混合形状模型。
S12:检测所述人脸的视频数据中每一帧的人脸关键点,并根据所述深度数据获得所述人脸关键点的三维坐标;
见图3,本实施例使用了Dlib提供的人脸检测算法,检测人脸的68个关键点。由于编号为1-17的面部轮廓点的界定较模糊,不同角度拍摄的人脸检测的位置区别很大,因此本实施例筛选了其中的编号为18-68的关键对作为后续损失函数计算的关键点。
S13:根据所述人脸关键点的三维坐标和所述混合形状模型上的对应的顶点,计算所述混合形状模型与相机坐标系下人脸的旋转平移矩阵。
本实施例点云之间的旋转平移矩阵的计算方式可根据需要选择现有任意的旋转平移矩阵计算方式。考虑到面部的非刚性运动可能会对姿态解算带来噪声,选取了图3中编号为37、40、43、46、31、34的几个点构成点云进行计算,这些点代表了左眼内外眼角、右眼内外眼角、鼻尖、人中几个关键区域,它们在人脸做表情时为相对固定点。
S2:构建面部动作识别网络,使用所述数据集进行面部动作识别网络训练;
面部动作识别网络训练过程中包括拟合当前帧的3D人脸,公式为:
Figure 335271DEST_PATH_IMAGE026
其中,
Figure 201596DEST_PATH_IMAGE027
为混合形状系数
Figure 461676DEST_PATH_IMAGE028
Figure 104272DEST_PATH_IMAGE029
为最终生成的对应于输入人脸的视频数据的3D人脸,
Figure 930146DEST_PATH_IMAGE030
是中性表情人脸模型,
Figure 967372DEST_PATH_IMAGE031
-
Figure 714748DEST_PATH_IMAGE032
是人脸模型的不同表情基,
Figure 128412DEST_PATH_IMAGE033
表示不同表情和中性表情之间的顶点偏移量,将拟合当前帧的3D人脸与当前帧中的人脸在空间上对齐,得到变换后的3D人脸,公式为:
Figure 12054DEST_PATH_IMAGE034
其中,R为3×3的旋转矩阵,T为1×3的平移矩阵。
所述S2中面部动作识别网络训练的过程中,由拟合损失和时间连续性损失构成的损失函数进行反向传播,学习网络参数,表达式为:
Figure 689023DEST_PATH_IMAGE010
其中,
Figure 658116DEST_PATH_IMAGE035
为拟合损失,
Figure 905164DEST_PATH_IMAGE036
为时间连续性损失,
Figure 908893DEST_PATH_IMAGE013
衡量了
Figure 287921DEST_PATH_IMAGE037
的比重。
所述拟合损失
Figure 744310DEST_PATH_IMAGE035
为所述变换后的3D人脸上的关键点与所述深度数据获得所述人脸关键点的三维坐标之间的欧式距离:
Figure 30935DEST_PATH_IMAGE038
式中,
Figure 623591DEST_PATH_IMAGE039
大小为k×3,为拟合当前帧的3D人脸
Figure 940565DEST_PATH_IMAGE040
上的关键点的三维坐标,
Figure 680988DEST_PATH_IMAGE041
大小为k×3,为当前帧由深度数据获得所述人脸关键点的三维坐标,k为关键点的数量。
所述时间连续性损失
Figure 974566DEST_PATH_IMAGE042
为相邻帧之间的平滑误差,表达式为:
Figure 687307DEST_PATH_IMAGE043
其中,
Figure 408138DEST_PATH_IMAGE044
为网络预测的当前帧的网络输出,
Figure 370278DEST_PATH_IMAGE045
为网络预测的前1帧的网络输出,
Figure 762820DEST_PATH_IMAGE046
为网络预测的前2帧的网络输出。
S3:将任意视频序列输入训练后的面部动作识别网络,预测混合形状系数;预测阶段只需输入二维的视频序列,而无需深度数据,即预测混合形状系数:
见图4,为本发明的面部动作识别网络,它的输入为任意视频序列,输出为视频每一帧对应的预测混合形状系数,该预测混合形状系数可用于3D人脸动作的驱动。面部动作识别网络由特征提取网络、Transformer和全连接网络串联构成;其中,所述特征提取网络为卷积神经网络结构,所述特征提取网络对任意视频序列的每帧图像进行特征提取,并编码为一个特征向量,所述特征向量与任意视频的视频帧位置编码进行连接作为所述Transformer的输入,用于构建人脸表情在时序上的关联性,全连接层使用Sigmoid作为激活函数,输出预测混合形状系数。
本实施例中,使用了Resnet34的预训练模型作为特征提取网络。由于Transformer模型本身不具备像RNN那样的学习次序信息的能力,需要主动将次序信息喂给模型,因此除了特征提取网络的输出外,还使用Embeding对输入的视频帧进行位置编码,并将二者进行连接作为Transformer模型的输入。
S4:将所述预测混合形状系数应用于任意的虚拟形象上,驱动虚拟形象的面部动作。
所述虚拟形象也应包含与训练使用的混合形状模型相同的表情基。
本发明实施例的基于深度学习的面部动作捕捉方法,只在训练时使用了深度信息进行训练,在预测阶段只需要输入单相机拍摄的视频就可以完成动作捕捉,无需额外的深度采集设备,因此成本低,可以更灵活的应用于各个场景。
进一步地,本发明实施例提出的面部动作识别网络在训练过程中,不需要使用市面上昂贵的面部动作捕捉设备获取每一帧的混合形状系数作为真值,而是通过将网络输出计算3D人脸,并计算其与由深度相机采集的面部关键点的距离误差进行间接的学习,减小了训练集的制作成本。
进一步地,本发明实施例提出的面部动作识别网络由卷积、transformer等基本网络结构构成,其中卷积网络在图像的特征提取上有着优越的性能,而transformer能够在时间上联合考虑相邻帧之间的信息,因此算法精度高。此外卷积和transformer都能够进行高效的并行计算,因此本发明的算法运行速率高,可实时的进行面部动作浦捉。
见图5,一种基于深度学习的面部动作捕捉系统,包括以下模块:
视频采集模块,用于采集人脸的视频数据和对应的深度数据,构建数据集;
网络训练模块,用于使用数据集进行面部动作识别网络训练;
面部动作预测模块,用于将任意视频序列输入训练后的网络训练模块,预测混合形状系数;
虚拟形象动画展示模块,用于将所述预测混合形状系数应用于虚拟形象,实时展示视频中人脸的面部表情。
与前述基于深度学习的面部动作捕捉方法的实施例相对应,本发明还提供了基于深度学习的面部动作捕捉装置的实施例。
参见图6,本发明实施例提供的一种基于深度学习的面部动作捕捉装置,包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的基于深度学习的面部动作捕捉方法。
本发明基于深度学习的面部动作捕捉装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明基于深度学习的面部动作捕捉装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于深度学习的面部动作捕捉方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的面部动作捕捉方法,其特征在于,包括以下步骤:
S1:使用深度相机采集人脸的视频数据和对应的深度数据,构建数据集;
S2:构建面部动作识别网络,使用所述数据集进行面部动作识别网络训练;
S3:将任意视频序列输入训练后的面部动作识别网络,预测混合形状系数;
S4:将所述预测混合形状系数应用于任意的虚拟形象上,驱动虚拟形象的面部动作。
2.如权利要求1所述的一种基于深度学习的面部动作捕捉方法,其特征在于,所述S1中所述构建数据集包括以下子步骤:
S11:构建每个所述人脸的视频数据中人脸的混合模型:根据深度图重建中性表情下的3D人脸模型,并利用网格形变迁移算法得到混合形状模型,其中混合形状模型包含了一个中性表情B0和n个表情基(B1,…,Bn);
S12:检测所述人脸的视频数据中每一帧的人脸关键点,并根据所述深度数据获得所述人脸关键点的三维坐标;
S13:根据所述人脸关键点的三维坐标和所述混合形状模型上的对应的顶点,计算所述混合形状模型与相机坐标系下人脸的旋转平移矩阵。
3.如权利要求1所述的一种基于深度学习的面部动作捕捉方法,其特征在于,所述S3所述面部动作识别网络的输入为任意视频序列,输出为视频每一帧对应的预测混合形状系数。
4.如权利要求1所述的一种基于深度学习的面部动作捕捉方法,其特征在于,所述S2所述面部动作识别网络包括特征提取网络、Transformer和全连接网络串联。
5.如权利要求4所述的一种基于深度学习的面部动作捕捉方法,其特征在于,所述特征提取网络为卷积神经网络结构,所述特征提取网络对任意视频序列的每帧图像进行特征提取,并编码为一个特征向量,所述特征向量与任意视频序列的视频帧位置编码进行连接作为所述Transformer的输入,用于构建人脸表情在时序上的关联性,全连接层使用Sigmoid作为激活函数,输出预测混合形状系数。
6.如权利要求2所述的一种基于深度学习的面部动作捕捉方法,其特征在于,所述S2中面部动作识别网络训练过程中包括拟合当前帧的3D人脸,公式为:
Figure 285885DEST_PATH_IMAGE001
其中,
Figure 858818DEST_PATH_IMAGE002
为混合形状系数,
Figure 936757DEST_PATH_IMAGE003
Figure 128704DEST_PATH_IMAGE004
为最终生成的对应于输入人脸的视频数据的3D人脸,
Figure 739814DEST_PATH_IMAGE005
是中性表情人脸模型,
Figure 985113DEST_PATH_IMAGE006
是人脸模型的不同表情基,
Figure 48884DEST_PATH_IMAGE007
表示不同表情和中性表情之间的顶点偏移量,将拟合当前帧的3D人脸与当前帧中的人脸在空间上对齐,得到变换后的3D人脸,公式为:
Figure 310101DEST_PATH_IMAGE008
其中,R为3×3的旋转矩阵,T为1×3的平移矩阵。
7.如权利要求6所述的一种基于深度学习的面部动作捕捉方法,其特征在于,所述S2中面部动作识别网络训练的过程中,由拟合损失和时间连续性损失构成的损失函数进行反向传播,学习网络参数,表达式为:
Figure 510138DEST_PATH_IMAGE009
其中,
Figure 902901DEST_PATH_IMAGE010
为拟合损失,
Figure 719547DEST_PATH_IMAGE011
为时间连续性损失,
Figure 253297DEST_PATH_IMAGE012
衡量了
Figure 340464DEST_PATH_IMAGE013
的比重。
8.如权利要求7所述的一种基于深度学习的面部动作捕捉方法,其特征在于,所述拟合损失
Figure 567046DEST_PATH_IMAGE014
为所述变换后的3D人脸上的关键点与所述深度数据获得所述人脸关键点的三维坐标之间的欧式距离:
Figure 870988DEST_PATH_IMAGE015
其中,
Figure 942849DEST_PATH_IMAGE016
大小为k×3,为拟合当前帧的3D人脸
Figure 150102DEST_PATH_IMAGE017
上的关键点的三维坐标,
Figure 547585DEST_PATH_IMAGE018
大小为k×3,为当前帧由深度数据获得所述人脸关键点的三维坐标,k为关键点的数量。
9.如权利要求7所述的一种基于深度学习的面部动作捕捉方法,其特征在于,所述时间连续性损失
Figure 197878DEST_PATH_IMAGE019
为相邻帧之间的平滑误差,表达式为:
Figure 574895DEST_PATH_IMAGE020
其中,
Figure 869610DEST_PATH_IMAGE021
为网络预测的当前帧的网络输出,
Figure 703574DEST_PATH_IMAGE022
为网络预测的前1帧的网络输出,
Figure 450950DEST_PATH_IMAGE023
为网络预测的前2帧的网络输出。
10.一种基于深度学习的面部动作捕捉系统,其特征在于,包括以下模块:
视频采集模块,用于采集人脸的视频数据和对应的深度数据,构建数据集;
网络训练模块,用于使用数据集进行面部动作识别网络训练;
面部动作预测模块,用于将任意视频序列输入训练后的网络训练模块,预测混合形状系数;
虚拟形象动画展示模块,用于将所述预测混合形状系数应用于虚拟形象,实时展示视频中人脸的面部表情。
CN202210023895.5A 2022-01-11 2022-01-11 一种基于深度学习的面部动作捕捉方法及系统 Active CN114049678B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210023895.5A CN114049678B (zh) 2022-01-11 2022-01-11 一种基于深度学习的面部动作捕捉方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210023895.5A CN114049678B (zh) 2022-01-11 2022-01-11 一种基于深度学习的面部动作捕捉方法及系统

Publications (2)

Publication Number Publication Date
CN114049678A true CN114049678A (zh) 2022-02-15
CN114049678B CN114049678B (zh) 2022-04-12

Family

ID=80213506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210023895.5A Active CN114049678B (zh) 2022-01-11 2022-01-11 一种基于深度学习的面部动作捕捉方法及系统

Country Status (1)

Country Link
CN (1) CN114049678B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861592A (zh) * 2023-02-16 2023-03-28 之江实验室 基于神经网络的动作捕捉系统的速度精度优化方法及系统

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739712A (zh) * 2010-01-25 2010-06-16 四川大学 基于视频的3d人脸表情动画驱动方法
CN105678216A (zh) * 2015-12-21 2016-06-15 中国石油大学(华东) 基于深度学习的时空数据流视频行为识别方法
CN106600667A (zh) * 2016-12-12 2017-04-26 南京大学 一种基于卷积神经网络的视频驱动人脸动画方法
CN107924579A (zh) * 2015-08-14 2018-04-17 麦特尔有限公司 生成个性化3d头部模型或3d身体模型的方法
CN108875633A (zh) * 2018-06-19 2018-11-23 北京旷视科技有限公司 表情检测与表情驱动方法、装置和系统及存储介质
CN110033505A (zh) * 2019-04-16 2019-07-19 西安电子科技大学 一种基于深度学习的人体动作捕捉与虚拟动画生成方法
CN110223368A (zh) * 2019-05-15 2019-09-10 武汉奥贝赛维数码科技有限公司 一种基于深度学习的面部无标记运动捕捉方法
CN110876024A (zh) * 2018-08-31 2020-03-10 百度在线网络技术(北京)有限公司 确定虚拟形象唇部动作的方法和装置
CN111985268A (zh) * 2019-05-21 2020-11-24 搜狗(杭州)智能科技有限公司 一种人脸驱动动画的方法和装置
CN113254711A (zh) * 2021-06-29 2021-08-13 腾讯科技(深圳)有限公司 一种互动图像的显示方法、装置、计算机设备和存储介质
CN113255457A (zh) * 2021-04-28 2021-08-13 上海交通大学 基于人脸表情识别的动画角色面部表情生成方法及系统
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113379831A (zh) * 2021-06-22 2021-09-10 北京航空航天大学青岛研究院 一种基于双目摄像头和人形机器人的增强现实方法
CN113470170A (zh) * 2021-07-02 2021-10-01 厦门大学 一种利用语音信息的实时视频人脸区域时空一致合成方法
CN113537056A (zh) * 2021-07-15 2021-10-22 广州虎牙科技有限公司 虚拟形象驱动方法、装置、设备和介质
CN113591774A (zh) * 2021-08-10 2021-11-02 南京工业大学 基于Transformer的行为识别算法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739712A (zh) * 2010-01-25 2010-06-16 四川大学 基于视频的3d人脸表情动画驱动方法
CN107924579A (zh) * 2015-08-14 2018-04-17 麦特尔有限公司 生成个性化3d头部模型或3d身体模型的方法
CN105678216A (zh) * 2015-12-21 2016-06-15 中国石油大学(华东) 基于深度学习的时空数据流视频行为识别方法
CN106600667A (zh) * 2016-12-12 2017-04-26 南京大学 一种基于卷积神经网络的视频驱动人脸动画方法
CN108875633A (zh) * 2018-06-19 2018-11-23 北京旷视科技有限公司 表情检测与表情驱动方法、装置和系统及存储介质
CN110876024A (zh) * 2018-08-31 2020-03-10 百度在线网络技术(北京)有限公司 确定虚拟形象唇部动作的方法和装置
CN110033505A (zh) * 2019-04-16 2019-07-19 西安电子科技大学 一种基于深度学习的人体动作捕捉与虚拟动画生成方法
CN110223368A (zh) * 2019-05-15 2019-09-10 武汉奥贝赛维数码科技有限公司 一种基于深度学习的面部无标记运动捕捉方法
CN111985268A (zh) * 2019-05-21 2020-11-24 搜狗(杭州)智能科技有限公司 一种人脸驱动动画的方法和装置
CN113255457A (zh) * 2021-04-28 2021-08-13 上海交通大学 基于人脸表情识别的动画角色面部表情生成方法及系统
CN113269872A (zh) * 2021-06-01 2021-08-17 广东工业大学 基于三维人脸重构和视频关键帧优化的合成视频生成方法
CN113379831A (zh) * 2021-06-22 2021-09-10 北京航空航天大学青岛研究院 一种基于双目摄像头和人形机器人的增强现实方法
CN113254711A (zh) * 2021-06-29 2021-08-13 腾讯科技(深圳)有限公司 一种互动图像的显示方法、装置、计算机设备和存储介质
CN113470170A (zh) * 2021-07-02 2021-10-01 厦门大学 一种利用语音信息的实时视频人脸区域时空一致合成方法
CN113537056A (zh) * 2021-07-15 2021-10-22 广州虎牙科技有限公司 虚拟形象驱动方法、装置、设备和介质
CN113591774A (zh) * 2021-08-10 2021-11-02 南京工业大学 基于Transformer的行为识别算法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHEN CAO等: "《FaceWarehouse: A 3D Facial Expression Database for Visual Computing》", 《IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS》 *
PICHAO WANG等: "《Action Recognition From Depth Maps Using Deep Convolutional Neural Networks》", 《IEEE TRANSACTIONS ON HUMAN-MACHINE SYSTEMS》 *
闫衍芙等: "《基于深度学习和表情AU参数的人脸动画方法》", 《计算机辅助设计与图形学学报》 *
陈松等: "《动态人脸表情合成的模型特征驱动算法综述》", 《计算机与现代化》 *
黄晴晴等: "《基于视频的人体动作识别算法综述》", 《计算机应用研究》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861592A (zh) * 2023-02-16 2023-03-28 之江实验室 基于神经网络的动作捕捉系统的速度精度优化方法及系统
CN115861592B (zh) * 2023-02-16 2023-05-26 之江实验室 基于神经网络的动作捕捉系统的速度精度优化方法及系统

Also Published As

Publication number Publication date
CN114049678B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
Zielonka et al. Towards metrical reconstruction of human faces
Feng et al. Joint 3d face reconstruction and dense alignment with position map regression network
US10679046B1 (en) Machine learning systems and methods of estimating body shape from images
CN111028330B (zh) 三维表情基的生成方法、装置、设备及存储介质
CN109636831B (zh) 一种估计三维人体姿态及手部信息的方法
CN109003325B (zh) 一种三维重建的方法、介质、装置和计算设备
CN108154550B (zh) 基于rgbd相机的人脸实时三维重建方法
EP2843621A1 (en) Human pose calculation from optical flow data
CN111710036B (zh) 三维人脸模型的构建方法、装置、设备及存储介质
CN113706699B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
US20220301295A1 (en) Recurrent multi-task convolutional neural network architecture
CN113034652A (zh) 虚拟形象驱动方法、装置、设备及存储介质
US11928778B2 (en) Method for human body model reconstruction and reconstruction system
CN111240476A (zh) 基于增强现实的交互方法、装置、存储介质和计算机设备
Tu et al. Consistent 3d hand reconstruction in video via self-supervised learning
CN116977522A (zh) 三维模型的渲染方法、装置、计算机设备和存储介质
US11961266B2 (en) Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture
CN114581571A (zh) 基于imu和前向变形场的单目人体重建方法及装置
CN114049678B (zh) 一种基于深度学习的面部动作捕捉方法及系统
Jeon et al. Struct-MDC: Mesh-refined unsupervised depth completion leveraging structural regularities from visual SLAM
Martinez-Gonzalez et al. Unrealrox+: An improved tool for acquiring synthetic data from virtual 3d environments
JP2024510230A (ja) 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測
CN116917949A (zh) 根据单目相机输出来对对象进行建模
CN116385667B (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
Maxim et al. A survey on the current state of the art on deep learning 3D reconstruction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant