CN116129016A

CN116129016A - 一种姿态运动的数字同步方法、装置、设备及存储介质

Info

Publication number: CN116129016A
Application number: CN202310403184.5A
Authority: CN
Inventors: 张顺四; 庞国良; 徐列; 张强
Original assignee: Guangzhou Quwan Network Technology Co Ltd
Current assignee: Guangzhou Quwan Network Technology Co Ltd
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-05-16
Anticipated expiration: 2043-04-17
Also published as: CN116129016B

Abstract

本申请公开了一种姿态运动的数字同步方法、装置、设备及存储介质，方法包括：获取视频流，并将所有图像帧按照时间顺序逐一输入至姿态评估模型，输出3D旋转角信息及形态信息，将每一图像帧中目标对象的3D旋转角信息转换为骨骼点旋转信息，基于目标对象的形态信息，构建虚拟对象，按照时间顺序，根据各图像帧对应的骨骼点旋转信息，驱动虚拟对象中的各骨骼点旋转。可见，姿态评估模型能够按照时序对每一图像的3D信息进行分析，所输出的每一图像帧的3D旋转角信息及形态信息考虑到了该图像帧的时序信息，因此所输出的3D旋转角信息及形态信息更合理性和更高准确率，从而实现高精度同步对象的姿态运动。

Description

一种姿态运动的数字同步方法、装置、设备及存储介质

技术领域

本申请涉及数字人肢体驱动技术领域，更具体的说，是涉及一种姿态运动的数字同步方法、装置、设备及存储介质。

背景技术

随着虚拟数字人技术的快速发展，目前已有多个虚拟数字人形象在各大媒体和平台展示。在虚拟数字人技术实现上，整个虚拟数字人的内容场景的呈现需要多个方面的技术支持，如与真人之间的交互，捕捉真人的动作，以保证用户对数字同步的沉浸式体验。如今捕捉真人动作的动捕系统具备高精度的传感器，高精度捕获用户对象的动作细节，并通过虚拟数字人形象高精度还原用户的动作。但动捕系统设备昂贵且搭建流程复杂，不具备环境普适性，对此有研究人员通过训练得到的姿态评估模型对真人的动作姿态进行评估。

然而，目前的姿态评估模型对用户动作姿态的视频数据的评估是逐帧图像地评估，输出结果仅针对于当前帧本身的输入信息，因此在输出的各个结果组合并渲染的视频数据中，用户的动作姿态中呈现较多不合理性且准确率低下，不能准确同步用户对象的姿态运动。

发明内容

鉴于上述问题，提出了本申请以便提供一种姿态运动的数字同步方法、装置、设备及存储介质，以通过姿态评估模型高精度同步对象的姿态运动。

为了实现上述目的，现提出具体方案如下：

一种姿态运动的数字同步方法，包括：

获取包含目标对象的信息的视频流；

将所述视频流中的所有图像帧，按照时间顺序逐一输入至已训练好的姿态评估模型，输出每一图像帧中所述目标对象的3D旋转角信息及形态信息；

将每一图像帧中所述目标对象的3D旋转角信息转换为骨骼点旋转信息；

基于各所述图像帧对应的所述目标对象的形态信息，构建虚拟对象，所述虚拟对象包含与每一所述骨骼点旋转信息对应的骨骼点；

按照各所述图像帧的时间顺序，根据各所述图像帧对应的所述骨骼点旋转信息，驱动所述虚拟对象中的各骨骼点旋转，以模拟所述目标对象在所述视频流中的姿态运动。

可选的，所述姿态评估模型的建立过程，包括：

通过摄像的方式获取具备时序的图像帧序列，所述图像帧序列包括若干样本图像；

计算每一样本图像的损失权重系数；

根据每一样本图像的损失权重系数，计算该样本图像的总损失函数；

以所述图像帧序列作为训练样本，在各所述样本图像的总损失函数的约束下，对预先建立的3D旋转角识别模型进行训练，得到姿态评估模型。

可选的，所述计算每一样本图像的损失权重系数，包括：

按照所述图像帧序列的时序，选取各样本图像的对应位置的像素，组建像素时序列，并对每一像素时序列进行快速傅里叶变换，得到频谱图；

确定每一像素时序列的频谱图中的高频谱段；

针对每一高频谱段，对所述高频谱段进行反傅里叶变换，得到若干高频像素，并确定每一样本图像中的高频像素；

根据每一样本图像中的各高频像素，确定该样本图像的损失权重系数。

可选的，所述根据每一样本图像的损失权重系数，计算该样本图像的总损失函数，包括：

通过预先建立的3D旋转角识别模型对每一样本图像进行识别，得到该样本图像的识别结果；

基于每一样本图像的识别结果，确定该样本图像的对象形状损失函数、3D旋转角损失函数、摄像损失函数、对象投影损失函数以及3D骨骼点损失函数；

根据每一样本图像的对象形状损失函数、3D旋转角损失函数、摄像损失函数、对象投影损失函数、3D骨骼点损失函数以及所述损失权重系数，确定该样本图像的总损失函数。

可选的，所述通过预先建立的3D旋转角识别模型对每一样本图像进行识别，得到该样本图像的识别结果，包括：

通过预先建立的3D旋转角识别模型识别每一样本图像，得到该样本图像中的对象相对于预设标准对象的对象形态参数，以及该样本图像中的对象相对于所述预设标准对象的3D旋转角参数，以及拍摄该样本图像的摄像参数。

可选的，每一样本图像的识别结果为该样本图像中的对象相对于预设标准对象的对象形态参数；

所述基于每一样本图像的识别结果，确定该样本图像的对象形状损失函数，包括：

根据每一所述样本图像的所述对象形态参数，与该样本图像的对象形状标注值之间的差异关系，确定对象形状损失函数。

可选的，每一样本图像的识别结果为该样本图像中的对象相对于所述预设标准对象的3D旋转角参数；

所述基于每一样本图像的识别结果，确定该样本图像的3D旋转角损失函数，包括：

根据每一所述样本图像的所述3D旋转角参数，与该样本图像的3D旋转角参数标注值之间的差异关系，确定3D旋转角参数损失函数。

可选的，每一样本图像的识别结果为拍摄该样本图像的摄像参数；

所述基于每一样本图像的识别结果，确定该样本图像的摄像损失函数，包括：

根据每一所述样本图像的所述摄像参数，与该样本图像的摄像标注值之间的差异关系，确定摄像损失函数。

可选的，每一样本图像的识别结果为该样本图像中的对象相对于预设标准对象的对象形态参数，以及该样本图像中的对象相对于所述预设标准对象的3D旋转角参数，以及拍摄该样本图像的摄像参数；

所述基于每一样本图像的识别结果，确定该样本图像的对象投影损失函数，包括：

针对每一样本图像，根据所述样本图像的所述对象形态参数、所述样本图像的所述3D旋转角参数，以及所述样本图像的所述摄像参数，对预先建立的对象基础模型进行线性蒙皮渲染，得到渲染结果；

将每一样本图像对应的渲染结果进行2D投影，得到投影结果；

根据每一样本图像对应的投影结果中的对象区域，与该样本图像中预先标注的对象区域之间的差异关系，确定对象投影损失函数。

可选的，所述基于每一样本图像的识别结果，确定该样本图像的3D骨骼点损失函数，包括：

根据每一样本图像对应的投影结果中的3D骨骼点投影位置，与该样本图像中预先标注的2D骨骼点位置之间的差异关系，确定3D骨骼点损失函数。

可选的，所述3D旋转角识别模型包括2.5D关键点检测模型和2.5D转3D旋转角模型；

所述通过预先建立的3D旋转角识别模型识别每一所述样本图像，得到该样本图像中的对象相对于预设标准对象的对象形态参数，该样本图像中的对象相对于所述预设标准对象的3D旋转角参数以及拍摄该样本图像的摄像参数，包括：

将每一所述样本图像输入至所述2.5D关键点检测模型，输出得到该样本图像的关键点的2.5D坐标、该关键点的热图，以及该关键点的深度图；

针对每一所述样本图像，将该样本图像的对应的关键点的2.5D坐标、该关键点的热图、该关键点的深度图，以及所述图像帧序列中排序于该样本图像的时序之前的各样本图像的关键点的2.5D坐标，输入至预先建立的2.5D转3D旋转角模型，输出得到该样本图像中的对象相对于所述预设标准对象的对象形态参数、3D旋转角参数以及拍摄该样本图像的摄像参数。

可选的，在所述将每一样本图像输入至所述2.5D关键点检测模型，输出得到该样本图像的关键点的2.5D坐标之后，还包括：

将每一样本图像的关键点的2.5D坐标缓存。

可选的，所述按照各所述图像帧的时间顺序，根据各所述图像帧对应的所述骨骼点旋转信息，驱动所述虚拟对象中的各骨骼点旋转，包括：

按照各所述图像帧的时间顺序以及所述虚拟对象中的各骨骼点的旋转顺序，根据各所述图像帧对应的所述骨骼点旋转信息，驱动所述虚拟对象中的各骨骼点旋转，其中，所述旋转顺序为所述各骨骼点中，父节点比子节点优先旋转，躯干骨骼点比四肢骨骼点优先旋转，躯干骨骼点比头部骨骼点优先旋转，的顺序。

可选的，在将所述视频流中的所有图像帧，按照时间顺序逐一图像帧输入至姿态评估模型，输出每一图像帧中所述目标对象的3D旋转角信息及形态信息之前，还包括：

确定所述视频流中待对象检测的图像帧；

对每一待对象检测的图像帧进行对象检测，得到提取对象区域的图像帧，并将所述视频流中的每一待对象检测的图像帧，更新为与该待对象检测的图像帧对应的提取对象区域的图像帧。

一种姿态运动的数字同步装置，包括：

视频流获取单元，用于获取包含目标对象的信息的视频流；

姿态评估单元，用于将所述视频流中的所有图像帧，按照时间顺序逐一输入至已训练好的姿态评估模型，输出每一图像帧中所述目标对象的3D旋转角信息及形态信息；

骨骼点转换单元，用于将每一图像帧中所述目标对象的3D旋转角信息转换为骨骼点旋转信息；

虚拟对象构建单元，用于基于各所述图像帧对应的所述目标对象的形态信息，构建虚拟对象，所述虚拟对象包含与每一所述骨骼点旋转信息对应的骨骼点；

虚拟对象驱动单元，用于按照各所述图像帧的时间顺序，根据各所述图像帧对应的所述骨骼点旋转信息，驱动所述虚拟对象中的各骨骼点旋转，以模拟所述目标对象在所述视频流中的姿态运动。

可选的，该装置还包括：

样本采集单元，用于通过摄像的方式获取具备时序的图像帧序列，所述图像帧序列包括若干样本图像；

损失权重系数计算单元，用于计算每一样本图像的损失权重系数；

总损失函数计算单元，用于根据每一样本图像的损失权重系数，计算该样本图像的总损失函数；

模型训练单元，用于以所述图像帧序列作为训练样本，在各所述样本图像的总损失函数的约束下，对预先建立的3D旋转角识别模型进行训练，得到姿态评估模型。

可选的，所述损失权重系数计算单元，包括：

时频变换单元，用于按照所述图像帧序列的时序，选取各样本图像的对应位置的像素，组建像素时序列，并对每一像素时序列进行快速傅里叶变换，得到频谱图；

高频谱段确定单元，用于确定每一像素时序列的频谱图中的高频谱段；

时频反变换单元，用于针对每一高频谱段，对所述高频谱段进行反傅里叶变换，得到若干高频像素，并确定每一样本图像中的高频像素；

权重系数确定单元，用于根据每一样本图像中的各高频像素，确定该样本图像的损失权重系数。

可选的，所述总损失函数计算单元，包括：

图像识别单元，用于通过预先建立的3D旋转角识别模型对每一样本图像进行识别，得到该样本图像的识别结果；

对象形状损失函数计算单元，用于基于每一样本图像的识别结果，确定该样本图像的对象形状损失函数；

3D旋转角损失函数计算单元，用于基于每一样本图像的识别结果，确定该样本图像的3D旋转角损失函数；

摄像损失函数计算单元，用于基于每一样本图像的识别结果，确定该样本图像的摄像损失函数；

对象投影损失函数计算单元，用于基于每一样本图像的识别结果，确定该样本图像的对象投影损失函数；

3D骨骼点损失函数计算单元，用于基于每一样本图像的识别结果，确定该样本图像的3D骨骼点损失函数；

总损失函数确定单元，用于根据每一样本图像的对象形状损失函数、3D旋转角损失函数、摄像损失函数、对象投影损失函数、3D骨骼点损失函数以及所述损失权重系数，确定该样本图像的总损失函数。

可选的，所述图像识别单元，包括：

识别参数获取单元，用于通过预先建立的3D旋转角识别模型识别每一样本图像，得到该样本图像中的对象相对于预设标准对象的对象形态参数，以及该样本图像中的对象相对于所述预设标准对象的3D旋转角参数，以及拍摄该样本图像的摄像参数

所述对象形状损失函数计算单元，包括：

对象形状损失函数计算子单元，用于根据每一所述样本图像的所述对象形态参数，与该样本图像的对象形状标注值之间的差异关系，确定对象形状损失函数。

所述3D旋转角损失函数计算单元，包括：

3D旋转角损失函数计算子单元，用于根据每一所述样本图像的所述3D旋转角参数，与该样本图像的3D旋转角参数标注值之间的差异关系，确定3D旋转角参数损失函数。

所述摄像损失函数计算单元，包括：

摄像损失函数计算子单元，用于根据每一所述样本图像的所述摄像参数，与该样本图像的摄像标注值之间的差异关系，确定摄像损失函数。

所述对象投影损失函数计算单元，包括：

蒙皮渲染单元，用于针对每一样本图像，根据所述样本图像的所述对象形态参数、所述样本图像的所述3D旋转角参数，以及所述样本图像的所述摄像参数，对预先建立的对象基础模型进行线性蒙皮渲染，得到渲染结果；

投影单元，用于将每一样本图像对应的渲染结果进行2D投影，得到投影结果；

差异关系确定单元，用于根据每一样本图像对应的投影结果中的对象区域，与该样本图像中预先标注的对象区域之间的差异关系，确定对象投影损失函数。

可选的，所述3D骨骼点损失函数计算单元，包括

3D骨骼点损失函数计算子单元，用于根据每一样本图像对应的投影结果中的3D骨骼点投影位置，与该样本图像中预先标注的2D骨骼点位置之间的差异关系，确定3D骨骼点损失函数。

可选的，所述3D旋转角识别模型包括已训练好的2.5D关键点检测模型和已训练好的2.5D转3D旋转角模型；

所述识别参数获取单元，包括：

第一识别参数获取子单元，用于将每一所述样本图像输入至所述2.5D关键点检测模型，输出得到该样本图像的关键点的2.5D坐标、该关键点的热图，以及该关键点的深度图；

第二识别参数获取子单元，用于针对每一所述样本图像，将该样本图像的对应的关键点的2.5D坐标、该关键点的热图、该关键点的深度图，以及所述图像帧序列中排序于该样本图像的时序之前的各样本图像的关键点的2.5D坐标，输入至所述2.5D转3D旋转角模型，输出得到该样本图像中的对象相对于所述预设标准对象的对象形态参数、3D旋转角参数以及拍摄该样本图像的摄像参数。

可选的，该装置还包括：

坐标缓存单元，用于在所述将每一样本图像输入至所述2.5D关键点检测模型，输出得到该样本图像的关键点的2.5D坐标之后，将每一样本图像的关键点的2.5D坐标缓存。

可选的，所述虚拟对象驱动单元，包括：

顺序驱动单元，用于按照各所述图像帧的时间顺序以及所述虚拟对象中的各骨骼点的旋转顺序，根据各所述图像帧对应的所述骨骼点旋转信息，驱动所述虚拟对象中的各骨骼点旋转，其中，所述旋转顺序为所述各骨骼点中，父节点比子节点优先旋转，躯干骨骼点比四肢骨骼点优先旋转，躯干骨骼点比头部骨骼点优先旋转，的顺序。

可选的，该装置还包括：

待检测图像帧确定单元，用于在将所述视频流中的所有图像帧，按照时间顺序逐一图像帧输入至姿态评估模型，输出每一图像帧中所述目标对象的3D旋转角信息及形态信息之前，确定所述视频流中待对象检测的图像帧；

图像帧更新单元，用于对每一待对象检测的图像帧进行对象检测，得到提取对象区域的图像帧，并将所述视频流中的每一待对象检测的图像帧，更新为与该待对象检测的图像帧对应的提取对象区域的图像帧。

一种姿态运动的数字同步设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的姿态运动的数字同步方法的各个步骤。

一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的姿态运动的数字同步方法的各个步骤。

借由上述技术方案，本申请通过获取包含目标对象的信息的视频流，将所述视频流中的所有图像帧，按照时间顺序逐一输入至已训练好的姿态评估模型，输出每一图像帧中所述目标对象的3D旋转角信息及形态信息，将每一图像帧中目标对象的3D旋转角信息转换为骨骼点旋转信息，基于各图像帧对应的目标对象的形态信息，构建虚拟对象，虚拟对象包含与每一骨骼点旋转信息对应的骨骼点，按照各图像帧的时间顺序，根据各图像帧对应的骨骼点旋转信息，驱动虚拟对象中的各骨骼点旋转，以模拟目标对象在视频流中的姿态运动。由此可见，针对同一视频流中的所有图像帧，按照时间顺序输入至姿态评估模型，以至于姿态评估模型能够按照时序对每一图像的3D信息进行分析，所输出的每一图像帧的3D旋转角信息及形态信息考虑到了该图像帧的时序信息，因此所输出的3D旋转角信息及形态信息更合理性和更高准确率，从而实现高精度同步对象的姿态运动。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的一种姿态运动的数字同步的流程示意图；

图2为本申请实施例提供的一种建立姿态评估模型的流程示意图；

图3为本申请实施例提供的一种姿态运动的数字同步的装置结构示意图；

图4为本申请实施例提供的一种姿态运动的数字同步的设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请方案可以基于具备数据处理能力的终端实现，该终端可以是电脑、服务器、云端等。

接下来，结合图1所述，本申请的姿态运动的数字同步方法可以包括以下步骤：

步骤S110、获取包含目标对象的信息的视频流。

具体的，视频流可以由单目摄像头采集得到的RGB视频。

其中，视频流可以由多张连续的、具有时序的图像帧组成，每张图像帧的内容中包含目标对象，同一视频流的各张图像帧的内容均可以包含同一目标对象。

步骤S120、将视频流中的所有图像帧，按照时间顺序逐一输入至已训练好的姿态评估模型，输出每一图像帧中目标对象的3D旋转角信息及形态信息。

具体的，3D旋转角信息可以表示在三维世界坐标中，图像帧中的目标对象相对于参考对象的旋转角度。形态信息可以表示图像帧中的目标对象在视频流中的运动/移动行为，以及该目标对象的个体信息（如个体结构、肤色、纹理、材质、服饰等）。已训练好的姿态评估模型可以是深度学习模型，可以接受单张图像的输入，所输出的信息为与该张图像对应的3D旋转角信息及形态信息。

其中，姿态评估模型在分析单张图像时，可以结合与该张图像同一视频流，且时序在该张图像之前的各张图像，的3D旋转角信息及形态信息。

示例如，某一视频流中包含按照时序排列的A、B和C图像帧，将A输入姿态评估模型，姿态评估模型分析图像帧A的内容并输出与A对应的3D旋转角信息及形态信息。然后，将B输入姿态评估模型，姿态评估模型分析图像帧B的内容以及分析图像帧A对应的3D旋转角信息及形态信息，输出与B对应的3D旋转角信息及形态信息。然后，将C输入姿态评估模型，姿态评估模型分析图像帧C的内容以及分析图像帧A对应的3D旋转角信息及形态信息，以及分析图像帧B对应的3D旋转角信息及形态信息，输出与C对应的3D旋转角信息及形态信息。

步骤S130、将每一图像帧中目标对象的3D旋转角信息转换为骨骼点旋转信息。

其中，骨骼点旋转信息可以表示与目标对象同步的虚拟数字人的各个骨骼点的旋转参数。

具体的，在姿态评估模型分析每一图像帧，并得到每一图像帧对应3D旋转角信息后，可以将3D旋转角信息转换为用于驱动数字人移动的骨骼点旋转信息。

步骤S140、基于各图像帧对应的目标对象的形态信息，构建虚拟对象。

其中，虚拟对象包含与每一骨骼点旋转信息对应的骨骼点。

具体的，可以通过maya，3dmax等软件将目标对象的个体信息，以及在视频流中的运动/移动行为，以三维网格模型的形式绘制虚拟对象，并对虚拟对象以三维网格模型的顶点进行区域划分，再根据骨骼点旋转信息对虚拟对象的各个骨骼点进行绑定。

步骤S150、按照各图像帧的时间顺序，根据各图像帧对应的骨骼点旋转信息，驱动虚拟对象中的各骨骼点旋转，以模拟目标对象在视频流中的姿态运动。

可以理解的是，每一骨骼点旋转信息有其对应的图像帧，各图像帧之间具有时序关联，因此各骨骼点旋转信息可以按照该时序构成时序信息序列，使得虚拟对象可以按照该时序信息序列运动/移动。

本实施例提供的姿态运动的数字同步方法，通过获取包含目标对象的信息的视频流，将视频流中的所有图像帧，按照时间顺序逐一输入至已训练好的姿态评估模型，输出每一图像帧中目标对象的3D旋转角信息及形态信息，将每一图像帧中目标对象的3D旋转角信息转换为骨骼点旋转信息，基于各图像帧对应的目标对象的形态信息，构建虚拟对象，虚拟对象包含与每一骨骼点旋转信息对应的骨骼点，按照各图像帧的时间顺序，根据各图像帧对应的骨骼点旋转信息，驱动虚拟对象中的各骨骼点旋转，以模拟目标对象在视频流中的姿态运动。由此可见，针对同一视频流中的所有图像帧，按照时间顺序输入至姿态评估模型，以至于姿态评估模型能够按照时序对每一图像的3D信息进行分析，所输出的每一图像帧的3D旋转角信息及形态信息考虑到了该图像帧的时序信息，因此所输出的3D旋转角信息及形态信息更合理性和更高准确率，从而实现高精度同步对象的姿态运动。

本申请的一些实施例中，对上述实施例提到的姿态评估模型的建立过程进行介绍，结合图2所述，该过程可以包括：

步骤S210、通过摄像的方式获取具备时序的图像帧序列。

其中，所述图像帧序列可以包括若干样本图像。

具体的，可以通过单目摄像头采集得到的RGB图像帧序列。

步骤S220、计算每一样本图像的损失权重系数。

可以理解的是，由于姿态评估模型分析每一样本图像时，均需结合与该张样本图像同一视频流的，且时序在该张图像之前的各张样本图像，的3D旋转角信息及形态信息，也即不同样本图像的所需分析的对象参数均不同，因此针对每一样本图像，需要确定与之对应的损失权重系数。

步骤S230、根据每一样本图像的损失权重系数，计算该样本图像的总损失函数。

具体的，每一样本图像的总损失函数可以与模型所识别的对象形态、3D旋转角、拍摄该样本图像的摄像参数、以及识别结果后的蒙皮渲染结果及其2D投影结果均相关。

步骤S240、以图像帧序列作为训练样本，在各样本图像的总损失函数的约束下，对预先建立的3D旋转角识别模型进行训练，得到姿态评估模型。

可以理解的是，训练3D旋转角识别模型所需利用到的是样本图像以及3D旋转角信息及形态信息，而3D旋转角信息及形态信息与图像帧序列中的各样本图像相关，因此训练样本的基本单位为图像帧序列，也即在训练3D旋转角识别模型时可以通过采集多组图像帧序列进行训练。

本实施例提供的姿态运动的数字同步方法，通过摄像的方式获取具备时序的图像帧序列，计算每一样本图像的损失权重系数，根据每一样本图像的损失权重系数，计算该样本图像的总损失函数，并以图像帧序列作为训练样本，在各样本图像的总损失函数的约束下，对预先建立的3D旋转角识别模型进行训练，得到姿态评估模型，所使用的训练样本为通过摄像得到的具备时序信息的图像帧序列，训练得到能够高精度评估用户对象姿态的姿态评估模型。

本申请的一些实施例中，对上述步骤S220、计算每一样本图像的损失权重系数的过程进行介绍，该过程可以包括：

S1、按照图像帧序列的时序，选取各样本图像的对应位置的像素，组建像素时序列，并对每一像素时序列进行快速傅里叶变换，得到频谱图。

可以理解的是，考虑到姿态动作的快慢会影响拍摄得到的图像质量，当对象做出快速的动作/移动时，肢体部位会变得模糊，对此损失函数的计算值不应过大。因此可以使用逐像素的时间维度快速傅里叶变换来过滤掉低频信息，得到时间维度上高频变换的区域，形成时序快慢因子调整损失函数大小。

示例如，图像帧序列包含按时序排列的10张样本图像，每张样本图像均具备100*100像素。选取每张样本图像中第1个像素（在1*1的位置），那么10张样本图像中第1个像素组建像素时序列，选取每张样本图像中第2个像素（在1*2的位置），那么10张样本图像中第2个像素组建像素时序列，如此类推，共有100*100=10000个像素时序列，并对这10000个像素时序列进行快速傅里叶变换，得到10000个频谱图。

S2、确定每一像素时序列的频谱图中的高频谱段。

可以理解的是，在频域中，能够通过频率阈值滤出高频谱段，这些高频谱段与时域中用于计算损失权重系数的像素所对应。

S3、针对每一高频谱段，对高频谱段进行反傅里叶变换，得到若干高频像素，并确定每一样本图像中的高频像素。

示例如，在一个像素时序列中（如10张样本图像的第2*2像素），进行快速傅里叶变换后的高频谱段，跟时域中的第2、3和4张样本图像的第2*2像素对应，那么在对高频谱段反傅里叶变换后，所得到的高频像素为第2、3和4张样本图像的第2*2像素，于是可以确定第2、3和4张样本图像的第2*2像素为高频像素，与此同时，第1、5、6、7、8、9和10张样本图像的第2*2像素为非高频像素。

S4、根据每一样本图像中的各高频像素，确定该样本图像的损失权重系数。

可以理解的是，在对多个像素时序列进行傅里叶变换及对多个高频谱段反傅里叶变换后，可以确定每一样本图像中的多个高频像素。

具体的，可以根据每一样本图像中的各高频像素，在各样本图像的总高频像素中的数量比例，确定为该样本图像的损失权重系数，也可以计算每一样本图像中的各高频像素的均值，作为该样本图像的损失权重系数。

本申请的一些实施例中，对上述步骤S230、根据每一样本图像的损失权重系数，计算该样本图像的总损失函数的过程进行介绍，该过程可以包括：

S1、通过预先建立的3D旋转角识别模型对每一样本图像进行识别，得到该样本图像的识别结果。

具体的，可以通过预先建立的3D旋转角识别模型识别每一样本图像，得到该样本图像中的对象相对于预设标准对象的对象形态参数，以及该样本图像中的对象相对于所述预设标准对象的3D旋转角参数，以及拍摄该样本图像的摄像参数。

其中，对象形态参数可以表示所识别的样本图像中的对象形态，相对于预设标准对象的形态的改变量。3D旋转角参数可以表示所识别的样本图像中的三维姿态角度，相对于预设标准对象的姿态角度的改变量。摄像参数可以表示拍摄所识别的样本图像的设备参数，如单目摄像头采集样本图像时的参数。

S2、基于每一样本图像的识别结果，确定该样本图像的对象形状损失函数、3D旋转角损失函数、摄像损失函数、对象投影损失函数以及3D骨骼点损失函数。

其中，摄像损失函数可以表示拍摄该样本图像的拍摄设备的设备参数所对应的损失函数。拍摄设备可以是相机、图像采集仪等。

具体的，在评估样本图像的对象形状损失函数、3D旋转角损失函数、摄像损失函数、对象投影损失函数以及3D骨骼点损失函数的过程中，均可以将识别结果与各损失项的标注值进行比较，并根据样本图像的损失项跟识别结果的差异关系，确定与损失项对应的损失函数。

S3、根据每一样本图像的对象形状损失函数、3D旋转角损失函数、摄像损失函数、对象投影损失函数、3D骨骼点损失函数以及损失权重系数，确定该样本图像的总损失函数。

具体的，可以将每一样本图像的对象形状损失函数、3D旋转角损失函数、摄像损失函数、对象投影损失函数与3D骨骼点损失函数进行相加，得到相加结果，并将相加结果乘以损失权重系数，得到该样本图像的总损失函数。

本实施例提供的姿态运动的数字同步方法，通过预先建立的3D旋转角识别模型对每一样本图像进行识别，得到该样本图像的识别结果，基于每一样本图像的识别结果，确定该样本图像的对象形状损失函数、3D旋转角损失函数、摄像损失函数、对象投影损失函数以及3D骨骼点损失函数，最终结合损失权重系数确定该样本图像的总损失函数，从而辅助姿态评估模型的监督训练。

考虑到训练过程中的3D旋转角识别模型所输出的结果，为分析样本图像本身的内容，以及该样本图像之前的各样本图像，的3D旋转角信息及形态信息所得到的，基于此，本申请的一些实施例中，对上述实施例提到的3D旋转角识别模型的组成部分进行介绍，具体的，3D旋转角识别模型可以包括已训练好的2.5D关键点检测模型和已训练好的2.5D转3D旋转角模型。

其中，2.5D关键点检测模型可以通过采集大量带有2D点标注的图片，并利用带有3D点标注的开源数据结合只有2D点标注的数据，联合训练得到的，该模型能够在2D对象关键点上额外输出其相应的热图和深度图，能够描述骨骼关键点像素位置的2D坐标值，以及多个骨骼点到参考骨骼点的深度值。

可以理解的是，由于3D点标注数据量少，直接用输入图片输出3D旋转角的训练方法泛化性太低。如果只输入普通的2D点输出3D旋转角的方案则会因为2D投影的歧义性，即一个2D姿态可以对应多个3D姿态，导致2.5D坐标转3D旋转角模型无法估计姿态的深度，比如手朝着相机前后摆动的动作评估结果将会是不变的。但是2.5D关键点检测模型能够提供大量可靠的2.5D人体关键点及其相应的热图和深度图来提供大量的输入信息，则能很好地解决深度缺失的问题。2.5D转3D旋转角模型在执行2.5D转3D的过程中，让原图和深度图同时输入能降低2D投影的歧义性。

在此基础上，对上述实施例提到的、通过预先建立的3D旋转角识别模型识别每一样本图像，得到该样本图像中的对象相对于预设标准对象的对象形态参数，以及该样本图像中的对象相对于所述预设标准对象的3D旋转角参数，以及拍摄该样本图像的摄像参数的过程进行介绍，该过程可以包括：

S1、将每一样本图像输入至2.5D关键点检测模型，输出得到该样本图像的关键点的2.5D坐标、该关键点的热图，以及该关键点的深度图。

其中，每一样本图像的关键点的2.5D坐标可以表示由该样本图像所在的图片坐标系中的2D像素坐标，以及该关键点相对于骨骼根节点的相对深度值。

S2、针对每一样本图像，将该样本图像的对应的关键点的2.5D坐标、该关键点的热图、该关键点的深度图，以及图像帧序列中排序于该样本图像的时序之前的各样本图像的关键点的2.5D坐标，输入至2.5D转3D旋转角模型，输出得到该样本图像中的对象相对于预设标准对象的对象形态参数、3D旋转角参数以及拍摄该样本图像的摄像参数。

本申请的一些实施例中，考虑到2.5D关键点检测模型每识别一张样本图像则会得到与该样本图像对应的2.5D坐标，因此在上述实施例提到的、将每一样本图像输入至2.5D关键点检测模型，输出得到该样本图像的关键点的2.5D坐标之后，还可以将将每一样本图像的关键点的2.5D坐标缓存，以供在识别下一张样本图像时，一同将当前样本图像的2.5D坐标输入至2.5D转3D旋转角模型。

本申请的一些实施例中，在识别样本图像所得到的识别结果，为该样本图像中的对象相对于预设标准对象的对象形态参数的情况下，对上述实施例提到的、基于每一样本图像的识别结果，确定该样本图像的对象形状损失函数的过程进行介绍，该过程可以包括：

根据每一样本图像的对象形态参数，与该样本图像的对象形状标注值之间的差异关系，确定对象形状损失函数。

具体的，每一样本图像的对象形态参数，与该样本图像的对象形状标注值之间的差异值，为该样本图像关于对象形状损失函数的损失值。

本申请的一些实施例中，在识别样本图像所得到的识别结果，为该样本图像中的对象相对于预设标准对象的3D旋转角参数的情况下，对上述实施例提到的、基于每一样本图像的识别结果，确定该样本图像的对象形状损失函数的过程进行介绍，该过程可以包括：

根据每一样本图像的3D旋转角参数，与该样本图像的3D旋转角参数标注值之间的差异关系，确定3D旋转角参数损失函数。

具体的，每一样本图像的3D旋转角参数，与该样本图像的3D旋转角参数标注值之间的差异值，为该样本图像关于3D旋转角参数损失函数的损失值。

本申请的一些实施例中，在识别样本图像所得到的识别结果，为拍摄该样本图像的摄像参数的情况下，对上述实施例提到的、基于每一样本图像的识别结果，确定该样本图像的对象形状损失函数的过程进行介绍，该过程可以包括：

根据每一样本图像的摄像参数，与该样本图像的摄像标注值之间的差异关系，确定摄像损失函数。

具体的，每一样本图像的摄像参数，与该样本图像的摄像标注值之间的差异值，为该样本图像关于摄像损失函数的损失值。

本申请的一些实施例中，在识别样本图像所得到的识别结果，为该样本图像中的对象相对于预设标准对象的对象形态参数，以及该样本图像中的对象相对于预设标准对象的3D旋转角参数，以及拍摄该样本图像的摄像参数的情况下，对上述实施例提到的、基于每一样本图像的识别结果，确定该样本图像的对象形状损失函数的过程进行介绍，该过程可以包括：

S1、针对每一样本图像，根据样本图像的对象形态参数、样本图像的所述3D旋转角参数，以及样本图像的摄像参数，对预先建立的对象基础模型进行线性蒙皮渲染，得到渲染结果。

S2、将每一样本图像对应的渲染结果进行2D投影，得到投影结果。

S3、根据每一样本图像对应的投影结果中的对象区域，与该样本图像中预先标注的对象区域之间的差异关系，确定对象投影损失函数。

具体的，样本图像对应的投影结果中的对象区域与预先标注的对象区域的重合程度，为样本图像的对象投影损失函数的损失值。

进一步的，还可以根据每一样本图像对应的投影结果中的3D骨骼点投影位置，与该样本图像中预先标注的2D骨骼点位置之间的差异关系，确定3D骨骼点损失函数。

具体的，样本图像对应的投影结果中的3D骨骼点投影位置，与预先标注的2D骨骼点位置的差异距离值，为样本图像的3D骨骼点损失函数的损失值。

本申请的一些实施例中，对上述步骤S150、按照各图像帧的时间顺序，根据各图像帧对应的骨骼点旋转信息，驱动虚拟对象中的各骨骼点旋转，以模拟目标对象在视频流中的姿态运动的过程进行介绍，该过程可以包括：

按照各图像帧的时间顺序以及虚拟对象中的各骨骼点的旋转顺序，根据各图像帧对应的所述骨骼点旋转信息，驱动虚拟对象中的各骨骼点旋转。

可以理解的是，考虑到姿态运动的协调性以及用户对肢体运动的正常理解，因此旋转顺序可以为各骨骼点中，父节点比子节点优先旋转，躯干骨骼点比四肢骨骼点优先旋转，躯干骨骼点比头部骨骼点优先旋转，的顺序，使得数字人的姿态运动更逼真，提高用户对数字人同步的沉浸式体验。

考虑到视频流中并非所有图像帧都符合姿态评估模型的检测要求，比如视频流中部分图像帧的目标对象不明显、不清晰等，这些图像帧若直接输入至姿态评估模型，则会降低姿态评估模型对姿态评估的准确率，因此可以先对视频流中的图像帧进行预处理，以使视频流中的所有图像帧均符合姿态评估模型的检测要求，具体的，在上述步骤S120、将视频流中的所有图像帧，按照时间顺序逐一输入至已训练好的姿态评估模型，输出每一图像帧中目标对象的3D旋转角信息及形态信息之前，可以执行以下过程：

S1、确定视频流中待对象检测的图像帧。

具体的，待对象检测的图像帧可以表示视频流中目标对象不明显/不清晰的图像帧，这些图像帧需要进行对象检测并提取。

S2、对每一待对象检测的图像帧进行对象检测，得到提取对象区域的图像帧，并将视频流中的每一待对象检测的图像帧，更新为与该待对象检测的图像帧对应的提取对象区域的图像帧。

具体的，针对每一待对象检测的图像帧，可以将图像帧输入预先建立好的对象检测模型中，通过对象检测模型对待对象检测的图像帧进行对象检测，输出提取对象区域的图像帧。

其中，提取对象区域的图像帧可以表示对象在图像帧中显示清楚/清晰，符合姿态评估模型的检测要求。

本实施例提供的姿态运动的数字同步方法，通过确定视频流中待对象检测的图像帧，并对每一待对象检测的图像帧进行对象检测，得到提取对象区域的图像帧，并将视频流中的每一待对象检测的图像帧，更新为与该待对象检测的图像帧对应的提取对象区域的图像帧，能够保证视频流中的各图像帧均符合姿态评估模型的检测要求，保证姿态评估模型对姿态评估的准确率。

下面对本申请实施例提供的实现姿态运动的数字同步的装置进行描述，下文描述的实现姿态运动的数字同步的装置与上文描述的实现姿态运动的数字同步方法可相互对应参照。

参见图3，图3为本申请实施例公开的一种实现姿态运动的数字同步的装置结构示意图。

如图3所示，该装置可以包括：

视频流获取单元11，用于获取包含目标对象的信息的视频流；

姿态评估单元12，用于将所述视频流中的所有图像帧，按照时间顺序逐一输入至已训练好的姿态评估模型，输出每一图像帧中所述目标对象的3D旋转角信息及形态信息；

骨骼点转换单元13，用于将每一图像帧中所述目标对象的3D旋转角信息转换为骨骼点旋转信息；

虚拟对象构建单元14，用于基于各所述图像帧对应的所述目标对象的形态信息，构建虚拟对象，所述虚拟对象包含与每一所述骨骼点旋转信息对应的骨骼点；

虚拟对象驱动单元15，用于按照各所述图像帧的时间顺序，根据各所述图像帧对应的所述骨骼点旋转信息，驱动所述虚拟对象中的各骨骼点旋转，以模拟所述目标对象在所述视频流中的姿态运动。

可选的，该装置还包括：

可选的，所述损失权重系数计算单元，包括：

可选的，所述总损失函数计算单元，包括：

可选的，所述图像识别单元，包括：

所述对象形状损失函数计算单元，包括：

所述3D旋转角损失函数计算单元，包括：

所述摄像损失函数计算单元，包括：

所述对象投影损失函数计算单元，包括：

可选的，所述3D骨骼点损失函数计算单元，包括

所述识别参数获取单元，包括：

可选的，该装置还包括：

可选的，所述虚拟对象驱动单元，包括：

可选的，该装置还包括：

本申请实施例提供的姿态运动的数字同步的装置可应用于姿态运动的数字同步的设备，如终端：手机、电脑等。可选的，图4示出了姿态运动的数字同步的设备的硬件结构框图，参照图4，姿态运动的数字同步的设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatilememory）等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取包含目标对象的信息的视频流；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

获取包含目标对象的信息的视频流；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种姿态运动的数字同步方法，其特征在于，包括：

获取包含目标对象的信息的视频流；

2.根据权利要求1所述的方法，其特征在于，所述姿态评估模型的建立过程，包括：

计算每一样本图像的损失权重系数；

3.根据权利要求2所述的方法，其特征在于，所述计算每一样本图像的损失权重系数，包括：

确定每一像素时序列的频谱图中的高频谱段；

4.根据权利要求2所述的方法，其特征在于，所述根据每一样本图像的损失权重系数，计算该样本图像的总损失函数，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过预先建立的3D旋转角识别模型对每一样本图像进行识别，得到该样本图像的识别结果，包括：

6.根据权利要求4所述的方法，其特征在于，每一样本图像的识别结果为该样本图像中的对象相对于预设标准对象的对象形态参数；

7.根据权利要求4所述的方法，其特征在于，每一样本图像的识别结果为该样本图像中的对象相对于所述预设标准对象的3D旋转角参数；

8.根据权利要求4所述的方法，其特征在于，每一样本图像的识别结果为拍摄该样本图像的摄像参数；

9.根据权利要求4所述的方法，其特征在于，每一样本图像的识别结果为该样本图像中的对象相对于预设标准对象的对象形态参数，以及该样本图像中的对象相对于所述预设标准对象的3D旋转角参数，以及拍摄该样本图像的摄像参数；

10.根据权利要求9所述的方法，其特征在于，所述基于每一样本图像的识别结果，确定该样本图像的3D骨骼点损失函数，包括：

11.根据权利要求5所述的方法，其特征在于，所述3D旋转角识别模型包括已训练好的2.5D关键点检测模型和已训练好的2.5D转3D旋转角模型；

针对每一所述样本图像，将该样本图像的对应的关键点的2.5D坐标、该关键点的热图、该关键点的深度图，以及所述图像帧序列中排序于该样本图像的时序之前的各样本图像的关键点的2.5D坐标，输入至所述2.5D转3D旋转角模型，输出得到该样本图像中的对象相对于所述预设标准对象的对象形态参数、3D旋转角参数以及拍摄该样本图像的摄像参数。

12.根据权利要求11所述的方法，其特征在于，在所述将每一样本图像输入至所述2.5D关键点检测模型，输出得到该样本图像的关键点的2.5D坐标之后，还包括：

将每一样本图像的关键点的2.5D坐标缓存。

13.根据权利要求1所述的方法，其特征在于，所述按照各所述图像帧的时间顺序，根据各所述图像帧对应的所述骨骼点旋转信息，驱动所述虚拟对象中的各骨骼点旋转，包括：

14.根据权利要求1-13任一项所述的方法，其特征在于，在将所述视频流中的所有图像帧，按照时间顺序逐一图像帧输入至姿态评估模型，输出每一图像帧中所述目标对象的3D旋转角信息及形态信息之前，还包括：

确定所述视频流中待对象检测的图像帧；

15.一种姿态运动的数字同步装置，其特征在于，包括：

视频流获取单元，用于获取包含目标对象的信息的视频流；

16.一种姿态运动的数字同步设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-14任一项的姿态运动的数字同步方法的各个步骤。

17.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-14任一项的姿态运动的数字同步方法的各个步骤。