CN115914660A

CN115914660A - 一种元宇宙和直播中数字人的动作和面部表情的控制方法

Info

Publication number: CN115914660A
Application number: CN202211019427.7A
Authority: CN
Inventors: 刘新; 郭宁; 王鑫
Original assignee: Beijing Yimu Vision Technology Co ltd
Current assignee: Beijing Yimu Vision Technology Co ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2023-04-04

Abstract

本发明提供了一种元宇宙和直播中数字人的动作和面部表情的控制方法，包括两部分组成，第一部分是动作捕捉和人脸捕捉系统，第二部分是数据传输系统及解析展现系统，其中所述动作捕捉系统得到每个个体的每帧相对于根节点的姿态估计，然后应用运动骨架拟合并有设置关节点角度限制项、时序平滑项来完成算法的改进，最终得到3D数据，所述人脸捕捉系统模拟面部肌肉群的联合激活效应，再通过LiveLink，将Iphone和UE5连接，UE5用C++编写服务器并且集成到应用，通过Socket接收上述3D姿势数据,利用C++和蓝图根据传入的姿态信息控制UE5中的数字人的位置和姿态；本发明降低了动作捕捉的成本，对环境无苛刻的要求，不用花费时间成本搭建场地，即可实现动作捕捉。

Description

一种元宇宙和直播中数字人的动作和面部表情的控制方法

技术领域

本发明涉及网络直播技术领域，具体地说是一种元宇宙和直播中数字人的动作和面部表情的控制方法。

背景技术

随着移动互联网的不断发展，网络直播技术也得到了飞速提升。在目前众多直播模式中都使用真人直播，而利用数字人直播成为了一种较为流行的直播模式，现有的数字人直播一般是基于另一种实时渲染引擎Unity来实现的。一般只能对肢体的动作捕捉，细节的地方包括面部的动作表情的捕捉没有完善，且不够精准，和动作配合有违和感，还需要后期合成；Unity对于人物在大场景，多灯光等渲染复杂界面的能力没有UE5强劲，当有大场景多人物的出现在虚拟世界时，虚拟世界粗糙，人物不够精细；且技术对硬件要求高，如使用动作捕捉设备，摄像采集系统等等，这将带来成本的提升，不仅如此，还有较高的环境要求，需要单独搭建真实场地，并且利用绿幕捕捉才能实现数字人直播。

发明内容

本发明的目的在于提出一种元宇宙和直播中数字人的动作和面部表情的控制方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供以下技术方案：

如图1所示，一种元宇宙和直播中数字人的动作和面部表情的控制方法，包括动作捕捉和面部捕捉，再使用最新的UE5作为渲染的载体，用C++编写服务器并且集成到应用，通过Socket接收上述3D姿势及动作数据,利用C++和蓝图根据传入的姿态信息控制UE5中的数字人的位置和姿态，既全身各个部位所在于三维空间中的位置，再制作动画蓝图，融合肢体动作和面部表情，其中3D姿势及动作数据是指通过摄像头及视频获取的2D数据转化后的3D数据。

所述动作捕捉具体包括：

①手机，摄像头，或者视频流通过Opencv拆分成单帧，其中Opencv是一个开源的计算机视觉和机器学习的软件库，然后通过SelecSLS网络架构，对每帧局部(每个身体关节)和全局(所有身体关节)的身体关节，进行2D位姿预测和数字人的相关可控部位关联，推断2D姿态和中间3D姿态编码，其中数字人的相关可控部位包括但不限于手臂、肩膀等；每个关节的三维位姿编码仅考虑运动序列中的局部上下文；其中三维姿态编码，可以理解为按时间顺序的一套动作的序列化编码，通过此可以了解动作的顺序和三维位置等信息；局部上下文是指独立可控的数字人的某个部位为局部，由于是序列化数据，因此有上下文关联关系，这个关系中有逻辑必然性，可以通过不合理的关联排除动作错误；

②利用上下文为每个被检测到的人重建完整的3D姿势；当成功的提取了2D姿态和3D姿态编码，使用

对每一个被检测到的个体进行检测；当有不同程度的遮挡时，进行每个关节j监督，X_j，Y_j，Z_j只编码关节；j相对于其在运动链中直接连接的关节的三维位姿信息，j为一个系数，为了调整获取的三维坐标J的偏移量，默认值为1，J表示身体关节的根(骨盆)相对三维坐标；通过监督可以模拟出关节的权重，计算出当前被遮挡的姿态；

③通过步骤①和步骤②两个阶段后，得到每个个体的每帧相对于根节点的姿态估计，根节点可以理解为数字人的每个部位和其它部位的关联节点，然后应用运动骨架拟合并有设置关节点角度限制项、时序平滑项来完成算法的改进；

④通过上述步骤得到3D数据。

所述步骤③中，姿态估计、运动骨架拟合、关节点角度限制和时序平滑具体包括：

姿态估计：给定一个尺寸为w×h图像I，w和h分别为图像I的宽和高,估计3D姿态,

其中K表示识别出的场景中人的个数，k表示偏移量，默认值为1；

其中p是指被识别到的一群人中的一个，R代表被识别的到的骨骼，3×J是代表3轴数值，表示J身体关节的根(骨盆)相对三维坐标；

运动骨架拟合：通过二维和三维关节位置预测，对在视场被识别出的全部人的数组K[t]的骨骼姿态

进行优化，其中K[t]中K表示识别出的场景中人的个数，t为某个被识别的个体数组下标，

中D＝29表示骨骼中自由度的数量，R表示被识别出的骨骼，k表示偏移量；在骨架拟合之前，每帧2D和3D的姿态估计都要经过时序过滤；θ_k∈R^D描述了一个人的姿态，其中θ表示平面中顶点的角，根据固定骨架的关节角度加上全局根位置；通过联合拟合了2D和根相关的3D预测结果，保持合理和稳健的3D关节信息；通过能量函数估计θ_k[t]：

ε(θ₁[t]，…，θ_K[t])＝w_3DE_3D+w_2DE_2D+w_limE_lim+w_tempE_temp+w_depthE_depth

通过梯度下降法来进行最小化求解函数，为了平衡各项因子的影响，将w_3D＝9e-1，w_2D＝1e-5，w_lim＝5e-1，w_temp＝1e-7，w_depth＝8e-6，按经验设置为固定值，其中e代表单位循环模；此外，使用平滑项E_depth＝||θ_k，2[t]_z-θ_k，2[t-1]_z||更强地惩罚了约束较少的深度方向的变化，其中θ_k，2是根位置既两个关联部位之间的关连节点z分量的自由度；根位置主要描述根节点的相对于整个姿态所处于的平面或者空间位置坐标；

关节点角度限制项：在关节旋转极限θ^min和θ^max解剖结构的基础上，对关节角度的旋转量进行了软限制；写成公式为：

公式中提到的θ_k，j[t]中多处的参数j代表整体动作中关联点(关节)，这里主要是对关节进行合理度控制，细化合理性限制，上文中提到的θ_k[t]是对整体全部姿态的初步完整分析和数据获取；

从j＝7开始，因为没有对全局位置和旋转参数的限制；E_lim针对每个识别到的人物的关节旋转量进行最大范围和最小范围之间的限制运算，获取合理数据，确保了得到的结果在生物力学上的合理性；

时序平滑项：由于神经网络在每帧的基础上估计姿态，结果可能显示时间抖动；通过下面公式让估计的姿态的时间稳定性得到了改进

其中参数值的变化率

是用后向差来近似的。

所述人脸捕捉具体包括：

采用的模型规则是苹果公司提出的一套开发工具ArKit，其中包含52个动作单元(即，n＝52)，模拟面部肌肉群的联合激活效应；用公式表示为：

DFCN(I)＝(e，S)其中，I表示输入的图像，S表示2d面部形状，e是表情协方差,e＝[e0,e1,...en]；

面部姿势与52个单独的面部姿势进行比较，每个姿势都针对面部的特定部分，如左眼，右眼，嘴角等；当用户面部的某一部分接近某个姿势的形状是，该姿势的值介于0.0和1.0之间，该姿势将从0.0混合到1.0；最后通过苹果移动端应用LiveLink，将苹果手机Iphone和UE5连接。

所述UE5用C++编写服务器并且集成到应用，通过Socket接收上述3D姿势数据,利用C++和动画蓝图根据传入的姿态信息控制UE5中的数字人的位置和姿态。

所述动画蓝图的制作方法具体包括：

①添加头部力度head Pitch/滚动捕捉Roll/侧滑角Yaw曲线以控制头部骨骼Rotation；

②所有导入进来的变形材质目标Morph Target转换为动画曲线Anim Curve以供动画蓝图使用；

③通过姿态数据Pose驱动眼球旋转，口腔开合；

④用骨骼混合层Layer Blend Per Bone节点结合动作捕捉和面部捕捉的动作：

⑤如果想要在序列Sequencer定序器中结合动作捕捉和面部捕捉的动作的话，需要添加Slot；

这样，就可以通过外部数据将动作捕捉和面部捕捉结合。

与现有技术相比，本发明有益效果如下：

本发明在元宇宙或者直播等虚拟场景中，操控数字人完成真人与数字人的交互，由于可以使用现有的设备手机，摄像头，甚至视频的都可以和数字人做交互，所以节省了硬件设备的成本。通过精准的对动作和表情的捕捉，使得人物的协调性完整，结合UE5 Nanite和Lumen等新功能，实现了模型的精细化，大场景的精细化，使得视觉效果大大提高。对环境无苛刻的要求，不用花费时间成本搭建场地，即可实现动作捕捉和面部表情的精准捕捉。

本发明对整体的人物的动作和脸部的表情同时捕捉，通过动画蓝图对肢体动作和面部表情进行融合，使肢体和面部表情配合精准，不需要额外的延时捕捉脸部动画合成，可以使用UE5 C++编程，相较于Unity的C#算法更好，效率更高。

本发明使用最新的UE5作为渲染的载体，相对于Unity,通过UE5中的Nanite和Lumen等新功能,实现高效的软件光线追踪，可在各种显示器上运行和观察，同时支持高品质视觉效果的硬件光线追踪，并且可以直接导入并复制由数百万甚至数千万个多边形组成的任何网格体，同时保持实时帧速率，无任何明显失真；其中Nanite主要是利用一种新的材质算法解决大场景中模型数量和三角面过多的问题，Lumen是一种新的全局动态光照算法。

附图说明

图1为本发明整体流程图；

图2为本发明添加head Pitch/Roll/Yaw曲线以控制头部骨骼Rotation示意图；

图3为本发明导入进来的Morph Target转换为Anim Curve以供动画蓝图使用示意图；

图4为本发明通过数据Pose驱动眼球旋转、口腔开合示意图；

图5为本发明用Layer Blend Per Bone节点结合动作捕捉和面部捕捉的动作示意图；

图6为本发明在Sequencer定序器中结合动作捕捉和面部捕捉的动作时添加Slot示意图。

具体实施方式

为阐明技术问题、技术方案、实施过程及性能展示，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释。本发明，并不用于限定本发明。以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

实施例1

一种元宇宙和直播中数字人的动作和面部表情的控制方法，包括动作捕捉和面部捕捉，再使用最新的UE5作为渲染的载体，用C++编写服务器并且集成到应用，通过Socket接收上述3D姿势及动作数据,利用C++和蓝图根据传入的姿态信息控制UE5中的数字人的位置和姿态，既全身各个部位所在于三维空间中的位置，再制作动画蓝图，融合肢体动作和面部表情，其中3D姿势及动作数据是指通过摄像头及视频获取的2D数据转化后的3D数据。

所述动作捕捉具体包括：

④通过上述步骤得到3D数据。

其中参数值的变化率

是用后向差来近似的。

所述人脸捕捉具体包括：

所述动画蓝图的制作方法具体包括：

①如图2所示，添加头部力度head Pitch/滚动捕捉Roll/侧滑角Yaw曲线以控制头部骨骼Rotation；

②如图3所示，所有导入进来的变形材质目标Morph Target转换为动画曲线AnimCurve以供动画蓝图使用；

③如图4所示，通过姿态数据Pose驱动眼球旋转，口腔开合；

④如图5所示，用骨骼混合层Layer Blend Per Bone节点结合动作捕捉和面部捕捉的动作：

⑤如图6所示，如果想要在序列Sequencer定序器中结合动作捕捉和面部捕捉的动作的话，需要添加Slot；

这样，就可以通过外部数据将动作捕捉和面部捕捉结合。

同时，UE5的Nanite功能和全新的虚拟阴影贴图系统，可以创建具有海量的模型细节，可以将高模应用与关节动画，因此Mesh的面不会被拉伸和挤压变形，动作捕捉映射到数字人的时候更加逼真。另外，Lumen系统不再需要编辑光照贴图的UV并等待光照贴图的烘焙，也无需放置反射采集，就可以直接在编辑器内看到与主机上相同的效果，实现了烘焙之后才能有的光照效果，让画面更加精致。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种元宇宙和直播中数字人的动作和面部表情的控制方法，其特征在于，包括动作捕捉和面部捕捉，再使用最新的UE5作为渲染的载体，用C++编写服务器并且集成到应用，通过Socket接收上述3D姿势及动作数据,利用C++和蓝图根据传入的姿态信息控制UE5中的数字人的位置和姿态，既全身各个部位所在于三维空间中的位置，再制作动画蓝图，融合肢体动作和面部表情，其中3D姿势及动作数据是指通过摄像头及视频获取的2D数据转化后的3D数据。

2.根据权利要求1所述的一种元宇宙和直播中数字人的动作和面部表情的控制方法，其特征在于，所述动作捕捉具体包括：

对每一个被检测到的个体进行检测；当有不同程度的遮挡时，进行每个关节j监督，X_j，Y_j，Z_j只编码关节；j相对于其在运动链中直接连接的关节的三维位姿信息，j为一个系数，为了调整获取的三维坐标J的偏移量，默认值为1，J表示身体关节的根(骨盆)相对三维坐标，；通过监督可以模拟出关节的权重，计算出当前被遮挡的姿态；

④通过上述步骤得到3D数据。

3.根据权利要求2所述的一种元宇宙和直播中数字人的动作和面部表情的控制方法，其特征在于，所述步骤③中，姿态估计、运动骨架拟合、关节点角度限制和时序平滑具体包括：

通过梯度下阵法来进行最小化求解函数，为了平衡各项因子的影响，将w_3D＝9e-1，w_2D＝1e-5，w_lim＝5e-1，w_temp＝1e-7，w_depth＝8e-6，按经验设置为固定值，其中e代表单位循环模；此外，使用平滑项E_depth＝||θ_k，2[t]_z-θ_k，2[t-1]_z||更强地惩罚了约束较少的深度方向的变化，其中θ_k，2是根位置既两个关联部位之间的关连节点z分量的自由度；根位置主要描述根节点的相对于整个姿态所处于的平面或者空间位置坐标；

关节点角度限制项：在关节旋转极限θ^min和θ^max解剖结构的基础上，对关节角度的旋转量讲行了软限制；写成公式为：

时序平滑项：由于神经网络在每帧的基础上估计姿态，结果可能显示时间抖动；通过下面公式让估计的姿态的时间稳定性得到了改讲

其中参数值的变化率

是用后向差来近似的。

4.根据权利要求1所述的一种元宇宙和直播中数字人的动作和面部表情的控制方法，其特征在于，所述人脸捕捉具体包括：

DFCN(I)＝(e，S)

其中，I表示输入的图像，S表示2d面部形状，e是表情协方差，e＝[e0，e1，...en]；

5.根据权利要求1所述的一种元宇宙和直播中数字人的动作和面部表情的控制方法，其特征在于，所述UE5用C++编写服务器并且集成到应用，通过Socket接收上述3D姿势数据，利用C++和动画蓝图根据传入的姿态信息控制UE5中的数字人的位置和姿态。

6.根据权利要求5所述的一种元宇宙和直播中数字人的动作和面部表情的控制方法，其特征在于，所述动画蓝图的制作方法具体包括：

③通过姿态数据Pose驱动眼球旋转，口腔开合；

这样，就可以通过外部数据将动作捕捉和面部捕捉结合。