CN116363275A

CN116363275A - 一种面向手语数字人的动作编排方法

Info

Publication number: CN116363275A
Application number: CN202310294170.4A
Authority: CN
Inventors: 耿卫东; 吴思雨; 周洲; 厉向东; 梁秀波
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-06-30

Abstract

本发明公开了一种面向手语数字人的动作编排方法，立足于填补手语数字人动作编排研究的空白，构建中文手语动作数据集。采用直接通过用户输入从动作数据库中进行检索，移除动作图构建过程；其次，引入了在线智能化动作重定向模型，通过将多角色骨架到统一骨架的相互转换，实现支持多角色的动作编排；最后，采用过渡动作生成模型，解决传统方法中过渡动作生成的不足，保证过渡动作生成的真实感。

Description

一种面向手语数字人的动作编排方法

技术领域

本发明属于动画制作技术领域，具体涉及一种面向手语数字人的动作编排方法。

背景技术

计算机人物动画制作方法主要分为两类：一类是基于物理模拟与角色控制方法，一类是基于骨骼动画的驱动方法。物理模拟是对客观物理现象的仿真，角色控制是一种主观运动信号，两者的融合构成了支持环境交互的数字人驱动技术。基于骨骼动画的驱动方法则是通过对数字人各关节的旋转进行实时更新数字人姿态，该方法的好处是可以进行低维度的控制，使得动作可以呈现出不同的风格，如迪斯尼这类具有夸张艺术的风格；但基于骨骼动画的方法屏蔽了与物理世界的交互，导致其无法处理穿模、滑步等问题。

骨骼动画的驱动的动画制作方法主要分为关键帧插值、动作捕捉、动作图和基于深度学习的方法。基于关键帧插值的方法主要依赖于动画师对关键帧动作的手工制作，随后通过线性插值等方法生成过渡帧动作但该方法在较短过渡帧数时生成结果不够平滑，较长过渡帧数时缺乏真实感。基于动作捕捉的方法则是采用动作捕捉技术对真实人物动作进行捕捉，然后使用动作重定向技术将捕捉到的动作重定向到数字人上。然而此方法成本高且易收到物理空间的限制。而动作图法又极易因为动作库扩充后，需要重新生成动作图，随着动作库的数据越来越庞大时，动作图节点的差异度计算量也会呈指数级增长，这将导致动作图的生成速度变慢，甚至无法生成。

目前常见的基于深度学习的过渡动作生成方法主要有三种技术流派：基于循环神经网络(RNN，Recurrent Neural Network)的方法、基于卷积神经网络(CNN，ConvolutionalNeural Network)的方法和基于Transformer的方法。基于RNN的方法虽然支持不定长度的输入和输出，但训练和推理时效率相对低下。基于CNN方法虽然没有RNN难以并行化计算的缺陷，但在处理长期时序数据时仍然受限于感受野的大小。基于Transformer的方法可以很好地解决上述两个技术流派存在的问题，Transformer中的全局注意力机制也更佳适合处理长期依赖关系，因此在人物动作合成领域得到了广泛的应用，但仍然受限于输入输出大小固定的问题。

此外，由于动作编排中会涉及到多套骨架标准，而过渡动作生成任务需要给定统一的骨架标准数据，因此需要借助动作重定向技术将多套骨架标准数据重定向至统一的骨架标准。动作重定向定义为对不同拓扑结构骨架的动作迁移或相同拓扑结构但骨骼长度不一致的两个骨架之间的动作迁移。而基准的重定向方法可能会由于骨骼结构差异导致在应用动作时出现扭曲或拉伸的情况，从而影响动画的真实感和流畅度。

发明内容

鉴于上述，本发明的目的是提供一种面向手语数字人的动作编排方法，在构建动作库的基础上，通过基于神经网络的动作重定向和过渡动作生成来提升动作编排的准确性和效率。

为实现上述发明目的，实施例提供的一种面向手语数字人的动作编排方法，包括以下步骤：

构建初始数字人骨架下的中文手语动作数据集；

获取编排动作需求的中文手语词目、过渡帧数以及目标数字人；

从中文手语动作数据集中检索获得中文手语词目对应的动作序列，并对动作序列解析和预处理得到处理后动作序列；

将预处理后动作序列拆分为初始数字人骨架下的手部旋转序列和躯干动作序列，对手部旋转序列进行球面线性插值生成满足过渡帧数的手部过渡动作序列；

利用基于生成式对抗网络构建的第一动作重定向模型依据初始数字人骨架下的躯干动作序列、躯干动作序列所对应的初始骨架信息以及中间骨架信息生成中间骨架下的躯干动作序列；

利用基于Transformer编码器构建的过渡动作生成模型依据从中间骨架下的躯干动作序列中提取的关键帧生成满足过渡帧数的躯干过渡动作序列；

利用基于生成式对抗网络构建的第二动作重定向模型将中间骨架下的躯干动作序列和躯干过渡动作序列、中间骨架信息以及目标数字人骨架信息生成目标数字人骨架下的躯干动作序列；

对手部旋转序列、手部过渡动作序列以及目标数字人骨架下的躯干动作序列进行骨架融合得到动作编排结果。

优选地，所述第一动作重定向模型和第二动作重定向模型基于生成式对抗网络构建，其中，生成式对抗网络框架，包括skel^A骨架编码器、M^A动作编码器、M ^B动作编码器、skel^B骨架编码器、M^A动作解码器、M ^B动作解码器、判别器A和判别器B，A骨架信息skel^A经过skel^A骨架编码器编码得到的skel^A编码结果分别输入至M^A动作编码器和M^A动作解码器，A骨架下的动作序列M^A和skel^A编码结果经过M^A动作编码器编码得到A骨架对应的动作编码结果Z^A，该动作编码结果Z^A与skel^A编码结果在M^A动作解码器中经过解码得到A骨架对应的动作解码结果

B骨架信息skel_B经过skel^B骨架编码器得到skel^B编码结果并输入至M ^B动作解码器，动作编码结果Z^A和skel^B编码结果在M ^B动作解码器中解码得到B骨架对应的动作解码结果/>

该动作解码结果/>

在M ^B动作编码器中经过编码得到B骨架对应的动作编码结果Z^B，判别器A用于判断M^A与skel^A的真伪，以及/>

与skel^A的真伪，判别器A用于判断M ^B与的skel^B真伪，以及/>

与的skel^B真伪。

优选地，基于生成式对抗网络框架，在构建第一动作重定向模型时，将初始数字人骨架下的躯干动作序列作为M^A、躯干动作序列所对应的初始骨架信息作为skel^A，将中间骨架(例如SMPL)下的躯干动作序列作为M^B，将中间骨架信息作为skel_B，并利用上述损失函数L优化生成式对抗网络框架参数，参数优化结束后，采用skel^A骨架编码器、M^A动作编码器、skel^B骨架编码器以及M ^B动作解码器构成第一动作重定向模型。

优选地，，在利用第一动作重定向模型依据初始数字人骨架下的躯干动作序列、躯干动作序列所对应的初始骨架信息以及中间骨架信息生成中间骨架下的躯干动作序列时，具体包括：将躯干动作序列所对应的初始骨架信息输入至skel^A骨架编码器得到编码结果并输入至M^A动作编码器，初始数字人骨架下的躯干动作序列输入至M^A动作编码器，M^A动作编码器对两个输入编码得到初始数字人骨架下的编码向量Z^A，中间骨架信息输入至skel^B骨架编码器得到编码结果并输入M ^B动作解码器，同时编码向量Z^A也输入至M ^B动作解码器，M ^B动作解码器对两个输入进行解码得到中间骨架下的躯干动作序列

优选地，基于生成式对抗网络框架，在构建第二动作重定向模型时，将中间骨架下的躯干动作序列作为M^A、躯干动作序列所对应的中间骨架信息作为skel^A，将目标数字人骨架下的躯干动作序列作为M^B，将目标数字人骨架信息作为skel_B，并利用上述损失函数L优化生成式对抗网络框架参数，参数优化结束后，采用skel^A骨架编码器、M^A动作编码器、skel^B骨架编码器以及M ^B动作解码器构成第二动作重定向模型。

优选地，在利用第二动作重定向模型依据将中间骨架下的躯干动作序列和躯干过渡动作序列、中间骨架信息以及目标数字人骨架信息生成目标数字人骨架下的躯干动作序列时，具体包括：将躯干动作序列所对应的中间骨架信息输入至skel^A骨架编码器得到编码结果并输入至M^A动作编码器，中间骨架下的躯干动作序列输入至M^A动作编码器，M^A动作编码器对两个输入编码得到中间骨架下的编码向量Z^A，目标数字人骨架信息输入至skel^B骨架编码器得到编码结果并输入M ^B动作解码器，同时编码向量Z^A也输入至M ^B动作解码器，M ^B动作解码器对两个输入进行解码得到中间骨架下的躯干动作序列

优选地，所述基于Transformer编码器构建的过渡动作生成模型包括两个分支，两个分支均包括第一线性层、Transformer Encoder、第二线性层，对关键帧动作进行球面线性插值得到插值帧动作，关键帧时序索引与需要的过渡帧数经过初始编码和线性映射后，与关键帧动作与参考帧动作之差进行拼接，拼接结果经过第一分支的第一线性层经过线性映射后，第一线性映射结果分别作为注意力机制的K、Q、V三个通道输入至TransformerEncoder得到第一分支编码结果，该第一分支编码结果经过充当解码器的第二线性层映射得到第一分支解码结果，该第一分支解码结果与参考帧动作相加得到重建关键帧动作，过渡帧时序索引与需要的过渡帧数经过初始编码和线性映射后输入至第二分支，经过第二分支的第一线性层线性映射得到第二映射结果，该第二映射结果作为注意力机制的Q通道，同时将第一分支编码结果作为注意力机制的K、V通道，输入至Transformer Encoder得到第二分支编码结果，该第二分支编码结果经过充当解码器的第二线性层映射得到第二解码结果，该第二解码结果与插值帧动作相加得到预测的过渡动作其中，两个分支的TransformerEncoder权重共享。

优选地，渡动作生成模型输出的预测过渡动作序列和重建关键帧动作序列均包括全局三维坐标序列与全局四元数序列两部分，运用L₁损失函数分别计算两部分损失并相加作为最终模型损失L_total。

与现有技术相比，本发明具有的有益效果至少包括：

立足于填补手语数字人动作编排研究的空白，构建中文手语动作数据集。采用直接通过用户输入从动作数据库中进行检索，移除动作图构建过程；其次，引入了在线智能化动作重定向模型，通过将多角色骨架到统一骨架的相互转换，实现支持多角色的动作编排；最后，采用过渡动作生成模型，解决传统方法中过渡动作生成的不足，保证过渡动作生成的真实感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的面向手语数字人的动作编排方法的流程图；

图2是实施例提供的中文手语数据集构建流程图；

图3是实施例提供的面向手语数字人的动作编排的流程框图；

图4是实施例提供的动作重定向框架示意图；

图5是实施例提供的关节点精简对比图；

图6是实施例提供的调整后的骨骼池化算子示例图；

图7是实施例提供的调用第一动作重定向模型的流程图；

图8是实施例提供的过渡动作生成模型生成过渡动作示意图；

图9是实施例提供的手语数字人动作编排示例图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1是实施例提供的面向手语数字人的动作编排方法的流程图。如图1所述，实施例提供的面向手语数字人的动作编排方法，包括以下步骤：

步骤1，构建初始数字人骨架下的中文手语动作数据集。

实施例中，以《国家通用手语词典》为依据，将其中涉及到的8609个中文手语词目作为语料库标准。如图2所示，采用动作捕捉系统以120FPS的帧率完成6664条中文手语词目动作的采集，其中包括青瞳Avatar动作捕捉系统和手套Feeler采集软件。数据采集时需要注意以下事项：1)软硬件启动，打开青瞳Avatar动作捕捉系统和手套Feeler采集软件，打开手套接收器开关，待手套指示灯常亮；2)装置检查，确定Avatar系统加载的相机个数是否正确，检查12台动作捕捉相机和1台RGB相机与动作捕捉软件的连接状态，排查接线异常或相机异常；3)清场，保证场景中没有人员存在并且没有反光物体，打开Avatar系统屏蔽环境光源以祛除环境光的干扰；4)相机校准，使用标定棍棒在整个动作捕捉场景中挥动以对相机进行校准；放置柔性标定板在场景内，用于设置世界坐标系原点；5)服装穿戴，请手语老师穿戴好除手套以外的动作捕捉服装并进行检查；6)手套校准，将手套静置在水平桌面上，自然平铺，进行静态校准；请手语老师穿戴手套，保证穿戴贴合后，双手翻八字进行动态校准；请手语老师双手平伸，大拇指与四根手指垂直，手指伸直，进行7字校准，校准完毕后验证正确性；7)动作捕捉贴点校验，请手语老师走入动作捕捉场地，手臂自然挣开成t-pose，确认全身53个贴点位置端正、齐全；8)角色创建，建立稀疏贴点与骨骼的对应关系，创建完毕后，将创建的角色骨骼绑定至数字人上，验证骨骼各关节旋转正确性。

基于以上采集注意事项，数据采集流程包括：1)采集人员切换PPT页面，屏幕上显示当前需要采集的手语词目文本；2)采集人员举起左手示意手语老师准备；3)采集人员点击开始录制后放下左手，手语老师根据屏幕上的文本进行手语表演；4)待手语老师表演完毕后，采集人员点击结束录制按钮，保存手语动作捕捉数据，准备下一个手语词目的采集。

采集结束后，对采集数据进行清洗和修复，具体包括以下流程：1)动作数据检查，由采集人员对已采集数据进行检查，检查是否存在动作不自然、动作扭曲等情况并进行记录，对采集导致的动作不正确数据重新采集；2)动作重定向，将采集数据重定向到初始数字人骨架下，例如初始数字人骨架为MetaHuman数字人骨架，即由美术人员使用MotionBuilder三维软件对已采集手语动作捕捉数据从青瞳系统中创建的角色重定向至MetaHuman数字人骨架上；3)动作精修，对于需要提升真实感的动作数据，由美术人员使用MotionBuilder三维软件对已采集手语动作捕捉数据进行精修；4)骨架精简，由于MetaHuman数字人骨架包含1157个关节点，面部关节点828个，占据总关节点个数约71.6％，并且存在大量用于表示人体胖瘦的关节点；而数字人驱动仅需使用61个关节点；因此需要进一步对动作数据的骨架进行精简，仅保留用于驱动的关节点；5)下半身固定，手语动作中不包含下半身动作，因此需要固定根部的全局三维坐标和下半身各关节点的局部欧拉角，以排除下半身出现的抖动问题。

实施例中，还设计了基于经验式的自动化标注工具，分别对起势动作的结束帧和收势动作的开始帧进行标注，用于后续手语词目间过渡动作生成之前的动作处理阶段。具体地，首先裁切掉开始10帧和结束10帧的动作数据，防止手臂从T-Pose状态到放松状态的过程对后续自动化标注带来误判，然后通过计算前向运动学(Forward Kinematics，FK)获取各关节点的全局三维坐标，从“Spine1”关节点在Z轴上分量“切开”一个平面；从开始帧往后遍历，当两只手腕关节中的任意一个关节运动至平面上时，则将当前帧作为起势动作的结束帧；同理，从结束帧往前遍历，当两只手腕关节中的任意一个关节运动至平面上时，则将当前帧作为收势动作的开始帧。

步骤2，获取编排动作需求的中文手语词目、过渡帧数以及数字人。

实施例中，获取用户输入的编排动作需求文本，通过对该文本进行拆分得到中文手语词目，同时还获取指定的过渡帧数以及呈现动作的数字人，这些信息用作指导动作编排的生成。

例如，输入“今天天气不错”文本，通过分词算法和词库中的标准手语词对应处理文本得到中文手语词目序列为“今天天气好”。

步骤3，从中文手语动作数据集中检索获得中文手语词目对应的动作序列，并对动作序列解析和预处理得到处理后动作序列。

实施例中，从中文手语动作数据集中检索获得中文手语词目对应的动作序列，该动作序列以BVH文件存储，简称为BVH动作序列，例如检索获得手语词目序列中“今天”，“天气”，“好”三个手语词目对应的BVH动作序列。通过对BVH动作序列进行解析来提取各关节相对于父关节的坐标和旋转信息，并将旋转信息转换为所需要的6D旋转表示，得到处理后动作序列。

步骤4，将预处理后动作序列拆分为初始数字人骨架下的手部旋转序列和躯干动作序列，对手部旋转序列进行球面线性插值生成满足过渡帧数的手部过渡动作序列。

实施例中，如图3所示，将步骤3得到的预处理后动作序列拆分为手部旋转序列和躯干动作序列，针对手部旋转序列，根据指定的过渡帧数调用球面线性插值方法进行过渡动作生成，得到满足过渡帧数的手部过渡动作序列。

步骤5，利用基于生成式对抗网络构建的第一动作重定向模型依据初始数字人骨架下的躯干动作序列、躯干动作序列所对应的初始骨架信息以及中间骨架信息生成中间骨架下的躯干动作序列。

实施例中，采用CycleGAN思想同一动作在通用骨架隐空间中的特征应当足够相似或距离足够接近，从而强迫不同骨架的编码器学到相似的特征，提高编码器的归纳能力，可以节省大量的时间和计算资源，同时保证后续在线动作重定向的效果，进一步保证基于关键帧的过渡动作生成输入动作质量。

动作重定向定义为：给定A骨架下的动作序列M^A、A骨架信息skel^A、目标B骨架信息skel_B，使用动作重定向方法将A骨架下的动作序列M^A重定向到B骨架下的动作序列M^B，保证重定向后动作语义不变且动作自然。

其中，A骨架信息定义为skel^A＝{O^A,E^A}，

其中O^A为A骨架下各关节点的偏移量，E^A为A骨架下各关节点的父关节点索引，J^A为A骨架下关节点个数；同理，B骨架信息定义为skel^B＝O^B，/>

A骨架下的动作序列定义为M^A＝{P^A,R^A}，其中P^A∈R^t*3，为人体骨架根部关节点在全局坐标系下的三维坐标序列，

为所有关节点的旋转信息；t表示该动作序列的长度；

重定向到目标B骨架下的动作序列定义为

其中，D_rot表示旋转信息的维度，若使用四元数表示，则D_rot＝4，四元数是一种用于描述旋转的复数扩展，它由一个实部和三个虚部组成，四元数可以用于进行旋转和插值运算。若使用6D旋转表示，则D_rot＝6，6D旋转表示指的是在六维空间中对旋转进行表示的方法，包括：旋转矩阵、欧拉角、四元数、旋转向量、旋转群、Lie代数。

其中，旋转矩阵是一个6*6的矩阵，用于描述旋转的变换。旋转矩阵必须满足正交性和行列式为1的条件。欧拉角是一种描述旋转的方法，它由三个角度组成，分别表示绕三个坐标轴的旋转角度。旋转向量是一个三维向量，它描述了绕一个轴旋转的角度和方向。在6D旋转表示中，旋转向量被扩展为一个六维向量，描述了绕任意一个平面旋转的角度和方向。旋转群是一组具有特定代数结构的旋转变换。在6D空间中，最常用的旋转群是SO(6)群，它由所有满足正交性和行列式为1的6*6矩阵组成。Lie代数是用于描述Lie群的代数结构，它包含了群元素之间的变换关系。在6D旋转表示中，SO(6)群的Lie代数是一个由6*6的反对称矩阵组成的向量空间，它描述了旋转变换的生成元素。

如图4所示，实施例提供了实现上述动作重定向定义的生成式对抗网络框架，包括skel^A骨架编码器、M^A动作编码器、M ^B动作编码器、skel^B骨架编码器、M^A动作解码器、M ^B动作解码器、判别器A和判别器B，A骨架信息skel^A经过skel^A骨架编码器编码得到的skel^A编码结果分别输入至M^A动作编码器和M^A动作解码器，A骨架下的动作序列M^A和skel^A编码结果经过M^A动作编码器编码得到A骨架对应的动作编码结果Z^A，该动作编码结果Z^A与skel^A编码结果在M^A动作解码器中经过解码得到A骨架对应的动作解码结果

该动作解码结果/>

与skel^A的真伪，判别器B用于判断M ^B与的skel^B真伪，以及/>

与的skel^B真伪。

上述生成式对抗网络框架的损失函数L包括根据M^A和

构建的M^A重建损失L_rec、根据Z^A和Z^B构建的循环损失L_cycle、基于M^A和/>

构建的末端节点损失L_ee、以及判别器损失L_adv，用公式表示为：

L＝w_rec*L_rec+w_cycle*L_cycle+w_ee*L_ee+L_adv

其中，w_rec、w_cycle和w_ee为损失函数权重，其取值分别为5、2.5和50，重建损失L_rec、末端节点损失L_ee采用MSE损失，MSE损失如下：

其中，p_t为第t帧的各关节的全局三维坐标，

为预测的第t帧各关节的全局三维坐标，D为评估样本集合，T为动作帧数，h为角色身高。

实施例中，末端节点可以选择肩膀关节，额外对肩膀关节做完FK后，根据前后帧的全局坐标差和角色的身高，求得归一化后的肩膀关节点速度，对其求MSE，作为两套骨架的肩膀关节点之间的距离进行惩罚，使重定向后的肩膀距离尽可能接近，解决溜肩现象。

循环损失函数L_cycle使用L1损失。

判别器损失

其中，

其中，i和j表示帧号，T_fake表示生成样本帧数，T_real表示真实样本帧数，D_A和D_B表示判别器A和判别器B，s表示评估样本，

表示判别器A待评估的生成样本集合，/>

表示判别器A待评估的真实样本集合，Skel^A,s表示判别器A的评估样本骨架信息，/>

表示判别器A输入的生成样本的第i帧动作信息，/>

表示判别器A输入的真实样本的第j帧动作信息，/>

表示判别器B待评估的生成样本集合，/>

表示判别器B待评估的真实样本集合，Skel^B,s表示判别器B的评估样本骨架信息，/>

表示判别器B输入的生成样本的第i帧动作信息，/>

表示判别器B输入的真实样本的第j帧动作信息。

实施例中，弥补SMPL骨架的AMASS数据集和中文手语数据集间动作分布不一致问题，通过三维软件对AMASS数据重定向到后者以对中文手语数据集进行数据扩充，并且解决不配对动作数据集无法量化评估的问题。

实施例中，为了提重定向的准确性，该进行骨架归一化调整和骨骼池化算子调整。骨架的归一化是腿部末端节点至头部末端节点的距离作为归一化系数；而在上身数据集中，归一化系数调整为根部关节点至头部末端节点的距离，依据归一化系数对每个节点进行归一化处理，归一化的结果如图5所示。

原始骨骼池化算子在具体实现时是从根部做深度优先搜索(DFS)，依次遍历从根部到各末端关节点的关节链(Kinematic Chain)，判断各关节链上是否存在度数为2的点，若存在，则将与其连接的两条边进行合并；若遍历到末端关节点则结束，从而得到池化后的骨架；而仅保留了上半身关节点SMPL和MetaHuman骨架中，根部关节点属于末端关节点；无法正常进行池化处理；因此，本发明对此骨骼池化算子进行调整，从度数最大的脊椎点作为中心点出发做DFS，依次遍历各关节链，判断各关节链上是否存在度数为2的点，若存在，则将与其连接的两条边进行合并；若遍历到末端关节点则结束，从而得到池化后的骨架，调整后的骨骼池化算子在上身骨架上池化示例图如图6所示。

基于上述生成式对抗网络框架，在构建第一动作重定向模型时，将初始数字人骨架下的躯干动作序列作为M^A、躯干动作序列所对应的初始骨架信息作为skel^A，将中间骨架(例如SMPL)下的躯干动作序列作为M^B，将中间骨架信息作为skel_B，并利用上述损失函数L优化生成式对抗网络框架参数，参数优化结束后，采用skel^A骨架编码器、M^A动作编码器、skel^B骨架编码器以及M ^B动作解码器构成第一动作重定向模型。为了保证重定向后动作的平滑性和真实感，输入生成式对抗网络框架的数据由6D旋转表示。

如图7所示，基于上述第一动作重定向模型的流程为：将初始数字人骨架下的躯干动作序列通过BVH解析得到欧拉角，并依据欧拉角进行旋转转换得到6D旋转表示，并对6D旋转表示归一化后，在加载第一动作重定向模型时，进行模型推理得到推理结果，并将推理结果进行逆归一化得到6D旋转表示，将6D旋转表示经过旋转转换得到欧拉角，根据欧拉角保存得到中间骨架下的躯干动作序列。

在利用第一动作重定向模型依据初始数字人骨架下的躯干动作序列、躯干动作序列所对应的初始骨架信息以及中间骨架信息生成中间骨架下的躯干动作序列时，具体包括：将躯干动作序列所对应的初始骨架信息输入至skel^A骨架编码器得到编码结果并输入至M^A动作编码器，初始数字人骨架下的躯干动作序列输入至M^A动作编码器，M^A动作编码器对两个输入编码得到初始数字人骨架下的编码向量Z^A，中间骨架信息输入至skel^B骨架编码器得到编码结果并输入M ^B动作解码器，同时编码向量Z^A也输入至M ^B动作解码器，M ^B动作解码器对两个输入进行解码得到中间骨架下的躯干动作序列

步骤6，利用基于Transformer编码器构建的过渡动作生成模型依据从中间骨架下的躯干动作序列中提取的关键帧生成满足过渡帧数的躯干过渡动作序列。

实施例中，基于Transformer编码器构建的过渡动作生成模型如图8所示，包括两个分支，两个分支均包括第一线性层(Linear)、Transformer Encoder、第二线性层(Linear)，对关键帧动作进行球面线性插值(SLERP&LERP)得到插值帧动作，关键帧时序索引与需要的过渡帧数经过初始编码和线性映射后，与关键帧动作与参考帧动作之差进行拼接，拼接结果经过第一分支的第一线性层(Linear)经过线性映射后，第一线性映射结果分别作为注意力机制的K、Q、V三个通道输入至Transformer Encoder得到第一分支编码结果，该第一分支编码结果经过充当解码器的第二线性层映射得到第一分支解码结果，该第一分支解码结果与参考帧动作相加得到重建关键帧动作，过渡帧时序索引与需要的过渡帧数经过初始编码和线性映射后输入至第二分支，经过第二分支的第一线性层(Linear)线性映射得到第二映射结果，该第二映射结果作为注意力机制的Q通道，同时将第一分支编码结果作为注意力机制的K、V通道，输入至Transformer Encoder得到第二分支编码结果，该第二分支编码结果经过充当解码器的第二线性层映射得到第二解码结果，该第二解码结果与插值帧动作相加得到预测的过渡动作。需要说明的是，两个分支的Transformer Encoder权重共享。

该过渡动作生成模型在被应用之前需要经过参数优化，参数优化时，采用扩充的LaFAN1数据集和AMASS数据集，通过对LaFAN1数据集中数据进行左右翻转以扩充数据集；为了缩小AMASS数据集和中文手语数据集在动作分布上的差异，借助MotionBuilder三维角色动画软件对中文手语数据集进行数据集增强，帮助模型更好的建立SMPL骨架数据和MetaHuman骨架数据动作隐空间上的映射。即通过三维软件对AMASS数据重定向到后者以对中文手语数据集进行数据扩充。在扩充后的LaFAN1和AMASS数据集上参数优化过渡动作生成模型时，手语动作只包含上半身动作并且不存在位移，所以在数据扩充的基础上删除人体下半身关节点的偏移量的同时，移除对应关节点的旋转信息，并将根部关节点固定在世界坐标系原点。模型输出的预测过渡动作序列和重建关键帧动作序列均包括全局三维坐标序列与全局四元数序列两部分，运用L₁损失函数分别计算两部分损失并相加作为最终模型损失L_total，表示为：

L_total＝L_position+L_rotation

其中，L_position表示基于全局三维坐标序列构建的损失函数，L_rotation表示基于全局四元数序列构建的损失函数，p_t和

分别表示Ground Truth中各关节点的全局三维坐标和生成结果中各关节点的全局三维坐标，q_t和/>

分别表示Ground Truth中各关节点的全局四元数和生成结果中各关节点的全局四元数。

实施例中，从中间骨架下的躯干动作序列中提取关键帧动作，关键帧时序索引、过渡帧时序索引以及过渡帧数均为已知的。

步骤7，利用基于生成式对抗网络构建的第二动作重定向模型将中间骨架下的躯干动作序列和躯干过渡动作序列、中间骨架信息以及目标数字人骨架信息生成目标数字人骨架下的躯干动作序列。

实施例中，基于上述生成式对抗网络框架，在构建第二动作重定向模型时，将中间骨架下的躯干动作序列作为M^A、躯干动作序列所对应的中间骨架信息作为skel^A，将目标数字人骨架下的躯干动作序列作为M^B，将目标数字人骨架信息作为skel_B，并利用上述损失函数L优化生成式对抗网络框架参数，参数优化结束后，采用skel^A骨架编码器、M^A动作编码器、skel^B骨架编码器以及M^B动作解码器构成第二动作重定向模型。为了保证重定向后动作的平滑性和真实感，输入生成式对抗网络框架的数据由6D旋转表示。

在利用第二动作重定向模型依据将中间骨架下的躯干动作序列和躯干过渡动作序列、中间骨架信息以及目标数字人骨架信息生成目标数字人骨架下的躯干动作序列时，具体包括：将躯干动作序列所对应的中间骨架信息输入至skel^A骨架编码器得到编码结果并输入至M^A动作编码器，中间骨架下的躯干动作序列输入至M^A动作编码器，M^A动作编码器对两个输入编码得到中间骨架下的编码向量Z^A，目标数字人骨架信息输入至skel^B骨架编码器得到编码结果并输入M ^B动作解码器，同时编码向量Z^A也输入至M ^B动作解码器，M ^B动作解码器对两个输入进行解码得到中间骨架下的躯干动作序列

步骤8，对手部旋转序列、手部过渡动作序列以及目标数字人骨架下的躯干动作序列进行骨架融合得到动作编排结果。

实施例中，在获得手部旋转序列、手部过渡动作序列以及目标数字人骨架下的躯干动作序列后，对得到的所有序列进行骨架融合，然后进行将整体手语动作生成结果保存为BVH动作序列或视频数据格式导出。如图9所示的“今天天气不错”的动作编排结果。

实施例中，为了满足手语动画生成的需要，还测评各方案在上身动作和全身动作上的表现，针对不同的应用场景采用不同的过渡动作生成策略，从而提升了动作编排技术过渡动作的连贯性和自然性。其次，实现了面向手语数字人的智能化动作重定向解决方案。从旋转表示和肩部关节点损失等多个方面对基准模型进行改进，通过上身动作的约束和对中文手语数据集的扩充，实现了SMPL骨架和MetaHuman手语数字人骨架间更高质量的动作重定向方法，实现支持多角色的动作编排，最后，为了实现中文手语动画生成应用，构建了中文手语动作库。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种面向手语数字人的动作编排方法，其特征在于，包括以下步骤：

构建初始数字人骨架下的中文手语动作数据集；

2.根据权利要求1所述的面向手语数字人的动作编排方法，其特征在于，所述第一动作重定向模型和第二动作重定向模型基于生成式对抗网络构建，其中，生成式对抗网络框架，包括skel^A骨架编码器、M^A动作编码器、M ^B动作编码器、skel^B骨架编码器、M^A动作解码器、M ^B动作解码器、判别器A和判别器B，A骨架信息skel^A经过skel^A骨架编码器编码得到的skel^A编码结果分别输入至M^A动作编码器和M^A动作解码器，A骨架下的动作序列M^A和skel^A编码结果经过M^A动作编码器编码得到A骨架对应的动作编码结果Z^A，该动作编码结果Z^A与skel^A编码结果在M^A动作解码器中经过解码得到A骨架对应的动作解码结果

该动作解码结果/>

在M^B动作编码器中经过编码得到B骨架对应的动作编码结果Z^B，判别器A用于判断M^A与skel^A的真伪，以及/>

与skel^A的真伪，判别器A用于判断M ^B与的skel^B真伪，以及/>

与的skel^B真伪。

3.根据权利要求2所述的面向手语数字人的动作编排方法，其特征在于，所述生成式对抗网络的损失函数L包括根据M^A和

L＝w_rec*L_rec+w_cycle*L_cycle+w_ee*L_ee+L_adv

其中，w_rec、w_cycle和w_ee为损失函数权重，重建损失L_rec、末端节点损失L_ee采用MSE损失，循环损失函数L_cycle使用L1损失；

判别器损失

其中，

表示判别器A待评估的生成样本集合，/>

表示判别器A输入的生成样本的第i帧动作信息，/>

表示判别器A输入的真实样本的第j帧动作信息，

表示判别器B待评估的生成样本集合，/>

表示判别器B输入的生成样本的第i帧动作信息，/>

表示判别器B输入的真实样本的第j帧动作信息。

4.根据权利要求3所述的面向手语数字人的动作编排方法，其特征在于，基于生成式对抗网络框架，在构建第一动作重定向模型时，将初始数字人骨架下的躯干动作序列作为M^A、躯干动作序列所对应的初始骨架信息作为skel^A，将中间骨架下的躯干动作序列作为M^B，将中间骨架信息作为skel_B，并利用上述损失函数L优化生成式对抗网络框架参数，参数优化结束后，采用skel^A骨架编码器、M^A动作编码器、skel^B骨架编码器以及M ^B动作解码器构成第一动作重定向模型。

5.根据权利要求4所述的面向手语数字人的动作编排方法，其特征在于，在利用第一动作重定向模型依据初始数字人骨架下的躯干动作序列、躯干动作序列所对应的初始骨架信息以及中间骨架信息生成中间骨架下的躯干动作序列时，具体包括：将躯干动作序列所对应的初始骨架信息输入至skel^A骨架编码器得到编码结果并输入至M^A动作编码器，初始数字人骨架下的躯干动作序列输入至M^A动作编码器，M^A动作编码器对两个输入编码得到初始数字人骨架下的编码向量Z^A，中间骨架信息输入至skel^B骨架编码器得到编码结果并输入M ^B动作解码器，同时编码向量Z^A也输入至M ^B动作解码器，M ^B动作解码器对两个输入进行解码得到中间骨架下的躯干动作序列

6.根据权利要求3所述的面向手语数字人的动作编排方法，其特征在于，基于生成式对抗网络框架，在构建第二动作重定向模型时，将中间骨架下的躯干动作序列作为M^A、躯干动作序列所对应的中间骨架信息作为skel^A，将目标数字人骨架下的躯干动作序列作为M^B，将目标数字人骨架信息作为skel_B，并利用上述损失函数L优化生成式对抗网络框架参数，参数优化结束后，采用skel^A骨架编码器、M^A动作编码器、skel^B骨架编码器以及M ^B动作解码器构成第二动作重定向模型。

7.根据权利要求6所述的面向手语数字人的动作编排方法，其特征在于，在利用第二动作重定向模型依据将中间骨架下的躯干动作序列和躯干过渡动作序列、中间骨架信息以及目标数字人骨架信息生成目标数字人骨架下的躯干动作序列时，具体包括：将躯干动作序列所对应的中间骨架信息输入至skel^A骨架编码器得到编码结果并输入至M^A动作编码器，中间骨架下的躯干动作序列输入至M^A动作编码器，M^A动作编码器对两个输入编码得到中间骨架下的编码向量Z^A，目标数字人骨架信息输入至skel^B骨架编码器得到编码结果并输入M ^B动作解码器，同时编码向量Z^A也输入至M ^B动作解码器，M ^B动作解码器对两个输入进行解码得到中间骨架下的躯干动作序列

8.根据权利要求1所述的面向手语数字人的动作编排方法，其特征在于，所述基于Transformer编码器构建的过渡动作生成模型包括两个分支，两个分支均包括第一线性层、Transformer Encoder、第二线性层，对关键帧动作进行球面线性插值得到插值帧动作，关键帧时序索引与需要的过渡帧数经过初始编码和线性映射后，与关键帧动作与参考帧动作之差进行拼接，拼接结果经过第一分支的第一线性层经过线性映射后，第一线性映射结果分别作为注意力机制的K、Q、V三个通道输入至Transformer Encoder得到第一分支编码结果，该第一分支编码结果经过充当解码器的第二线性层映射得到第一分支解码结果，该第一分支解码结果与参考帧动作相加得到重建关键帧动作，过渡帧时序索引与需要的过渡帧数经过初始编码和线性映射后输入至第二分支，经过第二分支的第一线性层线性映射得到第二映射结果，该第二映射结果作为注意力机制的Q通道，同时将第一分支编码结果作为注意力机制的K、V通道，输入至Transformer Encoder得到第二分支编码结果，该第二分支编码结果经过充当解码器的第二线性层映射得到第二解码结果，该第二解码结果与插值帧动作相加得到预测的过渡动作其中，两个分支的Transformer Encoder权重共享。

9.根据权利要求8所述的面向手语数字人的动作编排方法，其特征在于，渡动作生成模型输出的预测过渡动作序列和重建关键帧动作序列均包括全局三维坐标序列与全局四元数序列两部分，运用L₁损失函数分别计算两部分损失并相加作为最终模型损失L_total。