CN117422801A

CN117422801A - 一种3d动画的制作方法及系统

Info

Publication number: CN117422801A
Application number: CN202311449211.9A
Authority: CN
Inventors: 蒋晨红; 魏荣梅; 孙素宁
Original assignee: Nanjing Fengshang Lai Technology Co ltd
Current assignee: Nanjing Fengshang Lai Technology Co ltd
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-01-19

Abstract

本发明公开了一种3D动画的制作方法及系统，其中，一种3D动画的制作方法包括：获取人物图像；对人物图像进行特征提取，输出图像特征；利用图像特征训练人脸识模型，人脸识别模型包括第一神经网络和第二神经网络；将人物图像输入至训练完成的人脸识别模型，输出人脸特征点二维坐标；将人脸特征点二维坐标转换为相机坐标系下的三维坐标；将三维坐标与3D动画模型中的特征点的坐标进行匹配，生成3D动画；本发明基于神经网络技术实现人脸特征点的实时提取，而后根据提取到的人脸特征点与动画模型进行匹配，满足用户使用个性化3D动画的需求，同时降低了制作成本。

Description

一种3D动画的制作方法及系统

技术领域

本发明涉及动画制作的技术领域，尤其涉及一种3D动画的制作方法及系统。

背景技术

对人体进行动作捕捉并在此基础上实现人物动画生成，是计算机图形学领域的重要研究内容，现有的快速生产3D人物动画系统，如Mixamo，其是一个3D人物动画演示的网站，用户能够直接使用网站自带的多个模型来制作3D人物动画，也可以通过导入自己的模型，让自己的模型动起来。但是其只能选择已有动作，无法根据用户视频生成所需的动画，无法满足用户使用个性化3D动画的需求。

发明内容

为了克服上述现有技术中的缺陷，本发明提供了一种3D动画的制作方法，包括：获取人物图像；对所述人物图像进行特征提取，输出图像特征；利用所述图像特征训练人脸识模型，所述人脸识别模型包括第一神经网络和第二神经网络；将人物图像输入至训练完成的人脸识别模型，输出人脸特征点二维坐标；将人脸特征点二维坐标转换为相机坐标系下的三维坐标；将三维坐标与3D动画模型中的特征点的坐标进行匹配，生成3D动画；其中，通过Adam优化器对所述人脸识模型进行优化训练，将学习率设置为0.001，当训练迭代次数大于500且人脸识模型的精度大于预设值时停止训练。

作为本发明所述的3D动画的制作方法的一种优选方案，其中：所述特征提取包括：分解所述人物图像，获得低通子图像和带通子图像；对所述低通子图像进行上采样处理和低通滤波处理，获得第一子带图像，对所述带通子图像进行DFB滤波处理，获得第二子带图像；将所述第一子带图像和第二子带图像进行融合，而后通过弱分类器从中随机选取t个像素，每两个像素之间灰度值的差值作为一个图像特征，生成t(t-1)/2个图像特征。

作为本发明所述的3D动画的制作方法的一种优选方案，其中：所述人脸识别模型包括：通过第一神经网络进行人脸区域识别，若所述人物图像存在人脸，则通过第二神经网络进行人脸特征点检测，输出所述人脸特征点二维坐标。

作为本发明所述的3D动画的制作方法的一种优选方案，其中：所述第一神经网络包括：所述第一神经网络包括至少一个分配网络和多个预测网络，通过分配网络将所述人物图像分配给对应的预测网络进行处理，将所有处理结果进行加权融合，输出人脸识别结果。

作为本发明所述的3D动画的制作方法的一种优选方案，其中：所述第二神经网络包括第一层级网络、第二层级网络和第三层级网络，其中，所述第一层级网络用于对输入人物图像先后进行卷积、池化操作，预测生成第一候选框；所述第二层级网络用于对所述第一候选框进行校正，去除重合的候选框和错误的候选框，生成第二候选框；所述第三层级网络用于对所述第二候选框进行校正、分类和回归操作，生成多个候选框的坐标和人脸特征点二维坐标。

作为本发明所述的3D动画的制作方法的一种优选方案，其中：所述将人脸特征点二维坐标转换为相机坐标系下的三维坐标包括：根据下式，将人脸特征点二维坐标(u，v)转换为相机坐标系下的三维坐标(x，y，z)：

x＝(u-a)z/f；

y＝(v-b)z/f；

z＝d；

式中，a为x轴方向的畸变，b为y轴方向的畸变，f为焦距，d为人脸特征点的深度信息。

作为本发明所述的3D动画的制作系统的一种优选方案，其中：包括：图像采集模块，被配置为执行获取人物图像；特征提取模块，被配置为执行对所述人物图像进行特征提取，输出图像特征；模型训练模块，被配置为执行利用所述图像特征训练人脸识模型，所述人脸识别模型包括第一神经网络和第二神经网络；识别模块，被配置为执行将人物图像输入至训练完成的人脸识别模型，输出人脸特征点二维坐标；坐标转换模块，被配置为执行根据相机参数将人脸特征点二维坐标转换为相机坐标系下的三维坐标；3D动画生成模块，被配置为执行将三维坐标与3D动画模型中的特征点的坐标进行匹配，生成3D动画；其中，通过Adam优化器对所述人脸识模型进行优化训练，将学习率设置为0.001，当训练迭代次数大于500且人脸识模型的精度大于预设值时停止训练。

作为本发明所述的3D动画的制作系统的一种优选方案，其中：所述特征提取模块，具体被配置为执行分解所述人物图像，获得低通子图像和带通子图像；对所述低通子图像进行上采样处理和低通滤波处理，获得第一子带图像，对所述带通子图像进行DFB滤波处理，获得第二子带图像；将所述第一子带图像和第二子带图像进行融合，而后通过弱分类器从中随机选取t个像素，每两个像素之间灰度值的差值作为一个图像特征，生成t(t-1)/2个图像特征。

作为本发明所述的3D动画的制作系统的一种优选方案，其中：所述识别模块，具体被配置为执行通过第一神经网络进行人脸区域识别，若所述人物图像存在人脸，则通过第二神经网络进行人脸特征点检测，输出所述人脸特征点二维坐标；其中，所述第一神经网络包括至少一个分配网络和多个预测网络，通过分配网络将所述人物图像分配给对应的预测网络进行处理，将所有处理结果进行加权融合，输出人脸识别结果；其中，第二神经网络包括第一层级网络、第二层级网络和第三层级网络，其中，所述第一层级网络用于对输入人物图像先后进行卷积、池化操作，预测生成第一候选框；所述第二层级网络用于对所述第一候选框进行校正，去除重合的候选框和错误的候选框，生成第二候选框；所述第三层级网络用于对所述第二候选框进行校正、分类和回归操作，生成多个候选框的坐标和人脸特征点二维坐标。

作为本发明所述的3D动画的制作系统的一种优选方案，其中：所述坐标转换模块，具体被配置为执行根据下式，将人脸特征点二维坐标(u，v)转换为相机坐标系下的三维坐标(x，y，z)：

x＝(u-a)z/f；

y＝(v-b)z/f；

z＝d；

本发明的有益效果：本发明基于神经网络技术实现人脸特征点的实时提取，而后根据提取到的人脸特征点与动画模型进行匹配，满足用户使用个性化3D动画的需求，同时降低了制作成本。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明第一个实施例所述的3D动画的制作方法的流程示意图。

图2为本发明第一个实施例所述的人脸识别模型的工作流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1～图2，为本发明的第一个实施例，该实施例提供了一种3D动画的制作方法，包括：

S1：获取人物图像。

本发明采用普通的摄像头获取人物图像，摄像头可以包括深度摄像头、双目摄像头和/或单目摄像头。

S2：对人物图像进行特征提取，输出图像特征。

分解人物图像，获得低通子图像和带通子图像；

采用低通滤波器对低通子图像进行上采样处理和低通滤波处理，获得第一子带图像，采用DFB方向滤波器对带通子图像进行DFB滤波处理，获得第二子带图像；

将第一子带图像和第二子带图像进行融合，而后通过弱分类器从中随机选取t个像素，每两个像素之间灰度值的差值作为一个图像特征，生成t(t-1)/2个图像特征，其中，弱分类器为决策树，t取值为2。

较佳的是，根据人物图像的高低频分量进行不同的处理和变换，从而获得多方向性、多分辨率和各向异性的图像特征，且计算量较少。

S3：利用图像特征训练人脸识模型，人脸识别模型包括第一神经网络和第二神经网络。

为确保准确获得人脸特征点，提高人脸与3D动画的匹配度，本发明分别设计第一神经网络和第二神经网络，参照图2，首先通过第一神经网络进行初步的人脸检测，即通过第一神经网络进行人脸区域识别，若识别到输入的人物图像存在人脸，则激活第二神经网络，通过第二神经网络进行人脸特征点检测，输出人脸特征点二维坐标；若不存在，则结束操作，返回步骤S1重新获取人物图像。

具体的，第一神经网络包括至少一个分配网络和多个预测网络，通过分配网络将人物图像分配给对应的预测网络进行处理，接着将所有预测网络的输出进行加权融合，输出人脸识别结果。分配网络负责根据输入的特征，动态地将人物图像分配给空闲的预测网络进行处理，从而提高识别速度。

第二神经网络包括第一层级网络、第二层级网络和第三层级网络，其中，第一层级网络用于对输入人物图像先后进行卷积、池化操作，预测生成第一候选框，第一层级网络为全卷积网络(Fully Convolutional Networks，FCN)，FCN将传统的卷积神经网络后面的全连接层换成了卷积层，同时，为解决卷积和池化导致图像尺寸的变小，使用上采样方式对图像尺寸进行恢复，不含全连接层的全卷积网络，可适应任意尺寸输入，反卷积层增大图像尺寸，输出精细结果，结合不同深度层结果的跳级结构，确保鲁棒性和精确性。

第二层级网络用于对第一候选框进行校正，去除重合的候选框和错误的候选框(即大量的非人脸框)，生成第二候选框，第二层级网络包括全卷积网络和金字塔池化层，金字塔池化层与全卷积网络层的输入层连接。

第三层级网络用于对第二候选框进行校正、分类和回归操作，生成多个候选框的坐标和人脸特征点二维坐标，第三层级网络包括全卷积网络、金字塔池化层和卷积层，金字塔池化层与全卷积网络层的输入层连接，卷积层与金字塔池化层连接，第三层级网络相对于第二层级网络新增卷积层，使得处理结果更加精细。

其中，通过Adam优化器对人脸识模型(即第一神经网络和第二神经网络)进行优化训练，将学习率设置为0.001，当训练迭代次数大于500且人脸识模型的精度大于预设值时停止训练。

S4：将人物图像输入至训练完成的人脸识别模型，输出人脸特征点二维坐标。

S5：将人脸特征点二维坐标转换为相机坐标系下的三维坐标。

将人脸特征点二维坐标转换为相机坐标系下的三维坐标包括：

根据下式，将人脸特征点二维坐标(u，v)转换为相机坐标系下的三维坐标(x，y，z)：

x＝(u-a)z/f；

y＝(v-b)z/f；

z＝d；

式中，a为x轴方向的畸变，b为y轴方向的畸变，f为焦距，d为人脸特征点的深度信息，深度信息表示在获取人物图像时，人脸特征点与摄像头之间的距离。

S6：将三维坐标与3D动画模型中的特征点的坐标进行匹配，生成3D动画。

其中需要说明的是，3D动画模型指的是3D动画的模型图，且3D动画模型上的特征点在模型坐标系下的3D坐标以及模型坐标系的参数已知，模型坐标系由建模人员确定或由建模软件默认确定，模型坐标系的参数是已知的，例如x、y、z轴都是已知的。

实施例2

本实施例不同于第一个实施例的是，提供了一种3D动画的制作系统，包括，

图像采集模块，被配置为执行通过动态捕捉设备、摄像头以及体感设备获取人物图像。

特征提取模块，被配置为执行对人物图像进行特征提取，输出图像特征。特征提取模块具体被配置为执行分解人物图像，获得低通子图像和带通子图像；采用低通滤波器对低通子图像进行上采样处理和低通滤波处理，获得第一子带图像，采用DFB方向滤波器对带通子图像进行DFB滤波处理，获得第二子带图像；将第一子带图像和第二子带图像进行融合，而后通过弱分类器从中随机选取t个像素，每两个像素之间灰度值的差值作为一个图像特征，生成t(t-1)/2个图像特征，其中，弱分类器为决策树，t取值为2。

模型训练模块，被配置为执行利用图像特征训练人脸识模型，人脸识别模型包括第一神经网络和第二神经网络。具体的，通过Adam优化器对人脸识模型进行优化训练，将学习率设置为0.001，当训练迭代次数大于500且人脸识模型的精度大于预设值时停止训练。

识别模块，被配置为执行将人物图像输入至训练完成的人脸识别模型，输出人脸特征点二维坐标。具体被配置为执行通过第一神经网络进行人脸区域识别，若人物图像存在人脸，则通过第二神经网络进行人脸特征点检测，输出人脸特征点二维坐标；

具体的，第一神经网络包括至少一个分配网络和多个预测网络，通过分配网络将人物图像分配给对应的预测网络进行处理，输出人脸识别结果。分配网络负责根据输入的特征，动态地将人物图像分配给空闲的预测网络进行处理，从而提高识别速度。

坐标转换模块，被配置为执行根据相机参数将人脸特征点二维坐标转换为相机坐标系下的三维坐标。具体被配置为执行根据下式，将人脸特征点二维坐标(u，v)转换为相机坐标系下的三维坐标(x，y，z)：

x＝(u-a)z/f；

y＝(v-b)z/f；

z＝d；

3D动画生成模块，被配置为执行将三维坐标与3D动画模型中的特征点的坐标进行匹配，生成3D动画。3D动画模型指的是3D动画的模型图，且3D动画模型上的特征点在模型坐标系下的3D坐标以及模型坐标系的参数已知，模型坐标系由建模人员确定或由建模软件默认确定，模型坐标系的参数是已知的，例如x、y、z轴都是已知的。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

如在本申请所使用的，术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体，该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如，组件可以是，但不限于是：在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例，在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中，并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外，这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如，来自一个组件的数据，该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号，以本地和/或远程过程的方式进行通信。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种3D动画的制作方法，其特征在于，包括：

获取人物图像；

对所述人物图像进行特征提取，输出图像特征；

利用所述图像特征训练人脸识模型，所述人脸识别模型包括第一神经网络和第二神经网络；

将人物图像输入至训练完成的人脸识别模型，输出人脸特征点二维坐标；

将人脸特征点二维坐标转换为相机坐标系下的三维坐标；

将三维坐标与3D动画模型中的特征点的坐标进行匹配，生成3D动画；

其中，通过Adam优化器对所述人脸识模型进行优化训练，将学习率设置为0.001，当训练迭代次数大于500且人脸识模型的精度大于预设值时停止训练。

2.如权利要求1所述的3D动画的制作方法，其特征在于，所述特征提取包括：

分解所述人物图像，获得低通子图像和带通子图像；

对所述低通子图像进行上采样处理和低通滤波处理，获得第一子带图像，对所述带通子图像进行DFB滤波处理，获得第二子带图像；

将所述第一子带图像和第二子带图像进行融合，而后通过弱分类器从中随机选取t个像素，每两个像素之间灰度值的差值作为一个图像特征，生成t(t-1)/2个图像特征。

3.如权利要求2所述的3D动画的制作方法，其特征在于，所述人脸识别模型包括：

通过第一神经网络进行人脸区域识别，若所述人物图像存在人脸，则通过第二神经网络进行人脸特征点检测，输出所述人脸特征点二维坐标。

4.如权利要求3所述的3D动画的制作方法，其特征在于，所述第一神经网络包括：

所述第一神经网络包括至少一个分配网络和多个预测网络，通过分配网络将所述人物图像分配给对应的预测网络进行处理，将所有处理结果进行加权融合，输出人脸识别结果。

5.如权利要求4所述的3D动画的制作方法，其特征在于，所述第二神经网络包括第一层级网络、第二层级网络和第三层级网络，其中，

所述第一层级网络用于对输入人物图像先后进行卷积、池化操作，预测生成第一候选框；

所述第二层级网络用于对所述第一候选框进行校正，去除重合的候选框和错误的候选框，生成第二候选框；

所述第三层级网络用于对所述第二候选框进行校正、分类和回归操作，生成多个候选框的坐标和人脸特征点二维坐标。

6.如权利要求5所述的3D动画的制作方法，其特征在于，所述将人脸特征点二维坐标转换为相机坐标系下的三维坐标包括：

x＝(u-a)z/f；

y＝(v-b)z/f；

z＝d；

7.一种3D动画的制作系统，其特征在于，包括：

图像采集模块，被配置为执行获取人物图像；

特征提取模块，被配置为执行对所述人物图像进行特征提取，输出图像特征；

模型训练模块，被配置为执行利用所述图像特征训练人脸识模型，所述人脸识别模型包括第一神经网络和第二神经网络；

识别模块，被配置为执行将人物图像输入至训练完成的人脸识别模型，输出人脸特征点二维坐标；

坐标转换模块，被配置为执行根据相机参数将人脸特征点二维坐标转换为相机坐标系下的三维坐标；

3D动画生成模块，被配置为执行将三维坐标与3D动画模型中的特征点的坐标进行匹配，生成3D动画；

8.如权利要求7所述的3D动画的制作系统，其特征在于，所述特征提取模块，具体被配置为执行分解所述人物图像，获得低通子图像和带通子图像；对所述低通子图像进行上采样处理和低通滤波处理，获得第一子带图像，对所述带通子图像进行DFB滤波处理，获得第二子带图像；将所述第一子带图像和第二子带图像进行融合，而后通过弱分类器从中随机选取t个像素，每两个像素之间灰度值的差值作为一个图像特征，生成t(t-1)/2个图像特征。

9.如权利要求8所述的3D动画的制作系统，其特征在于，所述识别模块，具体被配置为执行通过第一神经网络进行人脸区域识别，若所述人物图像存在人脸，则通过第二神经网络进行人脸特征点检测，输出所述人脸特征点二维坐标；

其中，所述第一神经网络包括至少一个分配网络和多个预测网络，通过分配网络将所述人物图像分配给对应的预测网络进行处理，将所有处理结果进行加权融合，输出人脸识别结果；

其中，第二神经网络包括第一层级网络、第二层级网络和第三层级网络，其中，所述第一层级网络用于对输入人物图像先后进行卷积、池化操作，预测生成第一候选框；所述第二层级网络用于对所述第一候选框进行校正，去除重合的候选框和错误的候选框，生成第二候选框；所述第三层级网络用于对所述第二候选框进行校正、分类和回归操作，生成多个候选框的坐标和人脸特征点二维坐标。

10.如权利要求9所述的3D动画的制作系统，其特征在于，所述坐标转换模块，具体被配置为执行根据下式，将人脸特征点二维坐标(u，v)转换为相机坐标系下的三维坐标(x，y，z)：

x＝(u-a)z/f；

y＝(v-b)z/f；

z＝d；