CN113706699B

CN113706699B - 数据处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113706699B
Application number: CN202111256971.9A
Authority: CN
Inventors: 章泽军
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-02-08
Anticipated expiration: 2041-10-27
Also published as: WO2023071964A1; EP4307233A1; JP2024519940A; CN113706699A

Abstract

本申请实施例提供了一种数据处理方法、装置、电子设备及计算机可读存储介质，涉及人工智能、计算机视觉技术、云计算技术领域。该方法通过根据第二关节点的位移偏差，对可以控制虚拟对象整体位置的第一关节点的第一三维坐标进行修正，根据第一关节点的目标三维坐标、历史三维坐标、以及各目标关节点在该帧图像中的三维姿态角，确定虚拟对象对应于该帧图像的三维姿态，避免了由于目标对象的误移动导致虚拟对象在移动时依然出现脚步浮空以及滑动的问题，导致行为不够真实自然的问题，提升了虚拟对象的执行行为的真实感，驱动虚拟对象还原目标对象的真实移动轨迹，使得虚拟对象的动作更加精确。

Description

数据处理方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及人工智能、计算机视觉技术、云计算技术领域，具体而言，本申请涉及一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

随着科学技术的发展，如何通过真实人物的姿态确定虚拟人物的姿态已经成为了现代产业发展的重要组成部分，例如智慧工厂、电影和游戏视觉效果应用等，对于真实感、沉浸式虚拟和增强现实、临场感以及自由视点三维视频都有着不可估量的价值。

目前主要基于穿戴式传感器，在红外光源前执行预设动作，从而根据穿戴式传感器上的反光标记点反射的红外光，计算每个反光标记点的三维空间坐标，从而基于每个反光标记点的三维空间坐标确定虚拟人物的姿态。

但由于该方法依赖穿戴式传感器，会导致穿戴该穿戴式传感器的生物体行动不便，影响执行动作的精度。

发明内容

本申请实施例提供了一种能够有效提升虚拟对象姿态准确性的数据处理的方法、装置、电子设备、计算机可读存储介质及计算机程序产品。本申请实施例提供的技术方案如下：

根据本申请实施例的一个方面，提供了一种数据处理方法，该方法包括：

获取目标对象的目标视频，目标视频包括至少一帧图像；

基于目标视频的每帧图像，确定目标对象的各目标关节点在该帧图像中的三维姿态角、第一关节点和第二关节点在第一坐标系下的第一三维坐标，其中，第一关节点和第二关节点为各目标关节点中的指定关节点，第一坐标系是虚拟对象对应的坐标系，第一关节点为各目标关节点中的根节点；

根据第二关节点对应于该帧图像的第一三维坐标和历史三维坐标，确定第二关节点的位移偏差，历史三维坐标是指第二关节点对应于该帧图像的前一帧图像的三维坐标；

若位移偏差小于或等于设定值，则根据第二关节点对应于该帧图像的第一三维坐标和历史三维坐标，对第一关节点的第一三维坐标进行修正，得到第一关节点的目标三维坐标；

根据第一关节点的目标三维坐标、以及各目标关节点在该帧图像中的三维姿态角，确定虚拟对象对应于该帧图像的三维姿态。

另一方面，本申请实施例提供了一种数据处理装置，该装置包括：

视频获取模块，用于获取目标对象的目标视频，目标视频包括至少一帧图像；

姿态确定模块，用于执行以下操作：

根据第二关节点对应于该帧图像的第一三维坐标和历史三维坐标，确定第二关节点的位移偏差，历史三维坐标是指第二关节点对应于该帧图像的前一帧图像的第一三维坐标；

可选地，姿态确定模块还用于：在位移偏差大于设定值时，将第一关节点的第一三维坐标作为目标三维坐标。

可选地，姿态确定模块在确定虚拟对象对应于该帧图像的三维姿态时，可以用于：

根据第一关节点的目标三维坐标以及其他关节点的三维姿态角，确定该帧图像中其他关节点在第一坐标系下的目标三维坐标，其中，其他关节点为各目标关节点中除第一关节点以及第二关节点之外的关节点；

根据该帧图像中各目标关节点的目标三维坐标以及各目标关节点在该帧图像中的三维姿态角，确定虚拟对象对应于该帧图像的三维姿态；

其中，若第一关节点的目标三维坐标为第一关节点的第一三维坐标，第二关节点的目标三维坐标为第二关节点的历史三维坐标；若第一关节点的目标三维坐标为第一关节点的目标第一三维坐标，第二关节点的目标三维坐标为第二关节点的第一三维坐标。

可选地，姿态确定模块在对第一关节点的第一三维坐标进行修正时，可以用于：

确定第二关节点的第一三维坐标和历史三维坐标之间在每个维度上的差值；

基于每个维度对应的差值对第一关节点的第一三维坐标中每个维度的坐标进行修正，得到第一关节点的目标三维坐标。

可选地，该装置还包括滤波模块，该滤波模块用于：

获取目标视频的帧率；

根据目标视频的帧率，确定关节点的姿态角的滤波滑窗宽度；

根据滤波滑窗宽度对每个目标关节点的每个维度的姿态角序列进行滤波处理，得到滤波后的姿态角序列，其中，一个目标关节点的一个维度的姿态角序列包括该目标关节点在目标视频的各帧图像中该维度的姿态角；

在该实现方式中，姿态确定模块在确定虚拟对象对应于该帧图像的三维姿态时，可以用于：

根据第一关节点的目标三维坐标、以及各目标关节点在该帧图像的滤波后的三维姿态角，确定虚拟对象对应于该帧图像的三维姿态。

可选地，滤波模块在根据目标视频的帧率，确定关节点的姿态角的滤波滑窗宽度时，可以用于：

根据帧率，确定滑窗宽度的调整系数；

基于帧率和调整系数的乘积，确定第一滑窗宽度；

将第一滑窗宽度和预设的第二滑窗宽度中的较大值，确定为滤波滑窗宽度。

可选地，姿态确定模块在基于该帧图像，确定目标对象的各目标关节点在该帧图像中的三维姿态角、第一关节点和第二关节点在第一坐标系下的第一三维坐标时，可以用于：

基于该帧图像，通过三维姿态模型确定各目标关节点在该帧图像中的三维姿态角；

确定第一关节点在第二坐标系中的第二三维坐标，其中，第二坐标系为目标视频对应的图像坐标系；

根据第一关节点的第二三维坐标和坐标转换关系，确定第一关节点的第一三维坐标，坐标转换关系为第一坐标系和第二坐标系的转换关系；

根据第一关节点的第一三维坐标、以及各目标关节点的三维姿态角中与第二关节点关联的三维姿态角，确定第二关节点的第一三维坐标。

可选的，姿态确定模块在确定第一关节点在第二坐标系中的第二三维坐标时，可以执行以下至少一项：

根据第一关节点在该帧图像中的三维姿态角，确定第一关节点的第二三维坐标；

根据第一关节点在该帧图像中的图像位置，确定第一关节点在第二坐标系中的二维坐标；根据该帧图像和该帧图像的相关图像，估计第一关节点的深度方向上的坐标；基于二维坐标和深度方向上的坐标，确定第一关节点的第二三维坐标；

其中，目标视频是通过单目图像采集设备采集的视频，相关图像为该帧图像的前一帧图像，或者目标视频是通过双目图像采集设备采集的两个视频中的一个视频，相关图像为两个视频的另一个视频中与该帧图像对应的图像。

可选的，姿态确定模块在根据第一关节点的第二三维坐标和坐标转换关系，确定第一关节点的第一三维坐标时，可以用于：

确定两个关联关节点的第二三维坐标；

根据两个关联关节点的第二三维坐标，确定两个关联关节点的第一距离，其中，两个关联关节点为各目标关节点中具有父子关系的两个指定关节点；

获取两个关联关节点在第一坐标系下的参考距离；

根据第一距离与参考距离，确定坐标转换关系；

根据第一关节点的第二三维坐标和坐标转换关系，确定第一关节点的第一三维坐标。

可选的，视频获取模块在获取目标对象的目标视频时，可以用于：

获取通过至少两个采集视角的图像采集设备采集得到的至少两个视频，至少两个视角包括一个第一视角和至少一个第二视角，目标视频是对应于第一视角的视频；

在该实现方式中，姿态确定模块在基于该帧图像，确定目标对象的各目标关节点在该帧图像中的三维姿态角时，可以用于：

基于目标视频的该帧图像，检测目标对象在该帧图像中的各初始关节点，各目标关节点包括各初始关节点；

基于目标视频的该帧图像，确定各目标关节点在该帧图像中的初始三维姿态角；

若不存在缺失关节点，则将各目标关节点在该帧图像中的初始三维姿态角，确定为各目标关节点在该帧图像中的三维姿态角；其中，缺失关节点为各目标关节点中除各初始关节点之外的关节点；

若存在缺失关节点，则根据非目标视频中与该帧图像对应的关联图像，确定缺失关节点的三维姿态角，非目标视频为至少两个视频中除目标视频之外的至少一个视频；

将确定出的缺失关节点的三维姿态角、以及各初始关节点的初始三维姿态角，确定为各目标关节点在该帧图像中的三维姿态角。

可选的，该装置还可以包括视频补帧模块，该视频补帧模块用于：对于目标视频中的各相邻帧，确定相邻帧之间目标对象的光流信息；

根据光流信息，在相邻帧之间进行补帧处理，得到相邻帧之间的至少一帧补帧图像；

基于目标视频以及各相邻帧之间补帧图像，得到补帧后的目标视频。

在该实现方式中，姿态确定模块在基于目标视频的每帧图像，确定目标对象的各目标关节点在该帧图像中的三维姿态角、第一关节点和第二关节点在第一坐标系下的第一三维坐标时，具体用于：

基于补帧后的目标视频的每帧图像，确定目标对象的各目标关节点在该帧图像中的三维姿态角、第一关节点和第二关节点在第一坐标系下的第一三维坐标。

另一方面，本申请提供了一种数据处理系统，该数据处理系统包括图像采集装置和数据处理设备；

图像采集装置，用于采集目标对象的目标视频，目标视频包括至少一帧图像；

数据处理设备，用于基于图像采集装置采集的目标视频，通过执行上述数据处理方法，得到与目标对象关联的虚拟对象对应于目标视频的各帧图像的三维姿态，以基于得到的三维姿态驱动虚拟对象。

可选地，图像采集装置包括三个对应于不同采集视角的图像采集设备，三个图像采集设备环绕目标对象并在目标对象的周向均布摆放，其中，三个图像采集设备包括一个第一视角的第一设备和两个第二视角的第二设备，目标视频为第一设备采集的视频；

对于目标视频的每帧图像，数据处理设备通过执行以下操作来确定目标对象的各目标关节点在该帧图像中的三维姿态角：

若存在缺失关节点，则根据非目标视频中与该帧图像对应的关联图像，确定缺失关节点的三维姿态角，非目标视频包括至少一个第二设备采集的视频；

另一方面，本申请提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行计算机程序以实现上述数据处理方法的步骤。

另一方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述数据处理方法的步骤。

另一方面，本申请提供了一种计算机程序产品，该产品包括计算机程序，该计算机程序被处理器执行时实现上述数据处理方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例提供的方案，在基于目标对象的动作确定与该目标对象关联的虚拟对象的三维姿态时，可以基于图像采集设备采集的目标视频来实现虚拟对象三维姿态的确定，实现简单，可以无需目标对象佩戴复杂、沉重的可穿戴设备，能够更好的满足实际应用需求。

进一步的，本申请实施例提供的方案，对于各目标关节点中的根节点的目标三维坐标的确定，可以通过指定第二关节点对应于相邻两帧图像的位移偏差的大小，判断是否需要基于该位移偏差对根节点对应于当前帧的第一三维坐标进行修正，可选的，第二关节点可以是指定的与第一坐标系中的地面的相对位置关系固定的目标关节点，比如，脚尖关节点。采用该方案，可以有效避免由于目标对象的误移动导致虚拟对象在移动时出现脚步浮空或者滑动等，而导致行为不够真实自然的问题。基于本申请实施例的方案，可以基于目标对象的视频，更精确地确定虚拟对象的三维姿态，提升虚拟对象的执行行为的真实感，有效驱动虚拟对象还原目标对象的移动轨迹，使得虚拟对象的动作更加精确，移动更加自然顺畅。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种数据处理方法的流程图。

图2示出了本申请一示例中的目标视频中的一帧图像的示意图。

图3a示出了本申请实施例的目标对象的姿态的示意图。

图3b示出了本申请实施例的虚拟对象的姿态的示意图。

图4a示出了本申请实施例提供的一种未基于第二关节点的位移偏差对第一关节点的第一三维坐标进行修正时确定出的虚拟对象的姿态的示意图。

图4b示出了本申请实施例提供的一种基于第二关节点的位移偏差对第一关节点的第一三维坐标进行修正时确定出的虚拟对象的姿态的示意图。

图5示出本申请实施例提供的对一帧图像进行三维姿态估计的示意图。

图6示出了本申请实施例提供的一种图像采集装置的示意图。

图7a示出了本申请实施例的根据确定各目标关节点在该帧图像中的三维姿态角的示意图。

图7b示出了本申请实施例提供的一种模拟的缺失关节点所在区域的示意图。

图7c示出了本申请实施例提供的一种进行姿态矫正后的三维姿态角的示意图。

图8示出了根据本申请实施例的一个目标关节点的一个维度的姿态角序列在进行滤波处理前后的对比示意图。

图9a示出了根据本申请实施例的一帧图像中目标对象的三维姿态角在进行滤波处理前的示意图。

图9b示出根据本申请实施例的一帧图像中目标对象的三维姿态角在进行滤波处理后的示意图。

图10示出了本申请所适用的一种数据处理系统的结构示意图。

图11示出了本申请的一种场景实施例的数据处理方法的流程图。

图12为本申请实施例提供的一种数据处理装置的结构示意图。

图13为本申请实施例提供的一种数据处理系统的结构示意图。

图14为本申请实施例提供的一种用于数据处理的电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或 “耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”指示实现为“A”，或者实现为“A”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的数据处理方法，可以基于人工智能(ArtificialIntelligence，AI)技术实现。比如，对于目标视频的每帧图像，可以通过调用三维姿态模型（即三维姿态估计模型），得到目标对象的各目标关节点在该帧图像中的三维姿态角。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。随着人工智能技术研究和进步，人工智能技术已经在多个领域广泛展开研究和应用，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

其中，上述三维姿态模型可以是基于计算机视觉技术(Computer Vision, CV)的神经网络模型。计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

可选的，本申请实施例所涉及的数据处理方法可以基于云技术（Cloudtechnology）实现，比如，在对神经网络模型进行训练得到上述三维姿态模型时，可以采用云技术，训练过程中所涉及的数据计算可以采用云计算(Cloud computing)方式。云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。云计算则是指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

为了更好的说明和理解本申请实施例提供的方案，首先对本申请实施例中所涉及的一些相关的技术用语进行介绍：

动作捕捉（Mocap）：又称为动态捕捉，简称“动捕”，是指记录并处理人或其他物体动作的技术，主要应用于动画/电影制作、大型游戏或者虚拟现实。动捕设备根据工作原理不同可分为机械、声学、光学、电磁、惯性等多个类别，但是目前业界常用基于光学动捕的方式，需要以执行动作的演员穿戴贴有若干标示点（marker）的穿戴式传感器，通过密集的摄像机阵列捕捉这些marker的位置，再将这些marker位置还原并渲染至虚拟对象身上，最终实现真实演员动作表演到骨骼动画的映射。

三维姿态估计：是指基于深度神经网络，从一张包含人体姿态的图像中，预测出该人体在三维空间中各个关节点的坐标，以此来还原人体的实际姿态。

视频补帧：是指通过生成一段视频中连续两帧之间的过渡帧，在不改变视频总时长的前提下，增加视频的总帧数，从而提升视频帧率的一种技术。

单目深度估计：是指利用单张图像预测图像中的每个像素点相对于摄像头的距离的一种深度学习方法。

飞机姿态角：是指由机体坐标系与地理坐标系之间的关系确定的，用航向角、俯仰角和横滚角三个欧拉角表示。机体不同的旋转顺序会形成不同的坐标变换矩阵，通常按航向角、俯仰角和横滚角的顺序来表示机体坐标系相对于地理坐标系的空间转动。基于同样的原理，在三维人体姿态估计中，也通常用飞机姿态角来表示人体的每个关节的转动姿态，下文也称为关节点的三维姿态角。

Savitzky-Golay滤波器：是指一种在时域内基于局域多项式最小二乘法来拟合多项式数据的滤波器，常用于平滑带噪数据。该滤波器在滤除噪声的同时可以确保信号的形状、宽度不变。

SMPL-X模型（Skinned Multi-Person LineareXpressive model，蒙皮多人线性表达模型）或SMPL模型（Skinned Multi-Person Linearmodel，蒙皮多人线性模型）：是指一种从单帧RGB图像计算身体姿态、手部姿态和面部表情的3D模型，通常使用三种参数来分别控制身体关节姿态、体型以及面部表情。

对于动作捕捉而言，现有常用的方法都需要表演者佩戴指定的穿戴式设备，如各种传感器，由于需要依赖穿戴式传感器，会导致表演者行动不便，影响表演者执行预设动作的精度，且对采集场地的需求较高、实现成本也较高还需要受过专业训练的技术人员才能熟练使用，导致动捕系统的使用门槛较高。且该方法需要采集表演者所佩戴的穿戴式传感器上的多个marker的信息，才能实现最终的动作捕捉，确定表演者对应的虚拟对象的姿态。所以，该动作捕捉方式比较麻烦，确定的虚拟对象的姿态的准确性也很低，不能够很好的满足实际应用需求。

对此，本申请实施例提出了一种数据处理方法，通过对可以控制虚拟对象整体位置的第一关节点的第一三维坐标进行修正，可以避免由于目标对象的误移动导致虚拟对象在移动时依然出现脚步浮空以及滑动的问题，导致行为不够真实自然的问题。进而可以根据第一关节点的目标三维坐标、历史三维坐标、以及各目标关节点在该帧图像中的三维姿态角，更精确地确定虚拟对象对应于该帧图像的三维姿态，提升了虚拟对象的执行行为的真实感，有效驱动虚拟对象还原目标对象的真实移动轨迹，使得虚拟对象的动作更加精确，移动更加自然顺畅。

本申请实施例提供的方法可以应用任何需要基于目标对象的三维姿态（即三维姿态角、三维坐标）来控制虚拟对象的三维姿态的应用场景中。比如，该方法可以应用于各种游戏中的驱动游戏人物运动、根据现实中的演员所执行的动作制作虚幻电影/电视剧/动画、虚拟现实等。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

图1为本申请实施例提供的一种数据处理方法的流程图。该数据处理方法的执行主体可以是数据处理装置。在一种可能的实现方式中，该数据处理装置可以包括但不限于终端设备或服务器，可选地，该服务器可以是云服务器。其中，终端设备可以是用户设备（User Equipment，UE）、移动设备、蜂窝电话、无绳电话、个人数字助理（Personal DigitalAssistant，PDA）、手持设备、计算设备或者可穿戴设备等。其中，该数据处理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。可选地，该数据方法可以由用户终端执行，比如用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、电子设备、AR/VR设备、虚拟机器人等。

如图1所示，该数据处理方法可以包括步骤S11至步骤S12，可以由任一电子设备执行。

步骤S11：获取目标对象的目标视频，其中，目标视频包括至少一帧图像。

可选地，目标对象可以为任意可运动的对象。例如，自身可以自动运动的人、动物等。在本申请中，可以将自身自动运动的人作为目标对象，对该数据处理方法进行说明。

对于本申请实施例中目标视频的获取方式不做限制，例如，目标视频可以是直接根据图像采集设备获取的初始视频，也可以是为了减少数据处理量，提高数据处理效率，通过预配置的抽帧策略对初始视频进行抽帧处理得到的处理后的视频。其中，图像采集设备可以包括但不限于摄像头、摄像机、照相机或者其他具有图像采集功能的设备（如手机、平板电脑等设备）等。其中，图像采集设备可以为单目图像采集设备，也可以为双目图像采集设备，可选地，图像采集设备可以是RGB图像采集设备。

可选地，目标视频可以是按照预设时间间隔对初始视频进行抽帧处理，得到处理后的视频，其中，预设时间间隔可以根据初始视频的总时长或初始视频所包含的图像的数量确定，本申请对此不做限制。例如，预设时间间隔可以跟初始视频的总时长或初始视频所包含的图像的数量成正相关。例如，在初始视频的总时长为1小时的情况下，可以设置预设时间间隔为1分钟，在初始视频的总时长为15分钟的情况下，可以设置预设时间间隔为5秒。当然，不同的目标视频对应的预设时间间隔也可以相同，不同应用场景下的抽帧策略可以不同。

在实际应用中，为了完成目标对象的动作捕捉，目标对象可以按照实际应用需求执行预设动作，还可以移动，目标视频可以为通过图像采集设备所采集得到的该目标对象执行预设动作的视频。其中，预设动作具体是什么动作，本申请对此不做限制，是由实际应用需求确定的。

步骤S12：对于目标视频的每帧图像分别执行以下步骤S121至步骤S124，得到与目标对象关联的虚拟对象对应于每帧图像的三维姿态。

步骤S121：基于该帧图像，确定目标对象的各目标关节点在该帧图像中的三维姿态角、第一关节点和第二关节点在第一坐标系下的第一三维坐标；

其中，第一关节点和第二关节点为多个目标关节点中的指定关节点，第一坐标系是虚拟对象对应的坐标系，第一关节点为各目标关节点中的根节点（也可以称为中心根节点，根节点）。

其中，由于每个目标关节点都与其他目标关节点之间存在父子关系，而各目标关节点中的腰部关节点与其他目标关节点之间的父子关系的复杂度的较低，为了减少进行数据处理的处理量，提高数据处理的效率，可以选取腰部关节点作为第一关节点。

第二关节点也可以称为基准关节点，是指与基准平面的相对位置关系固定的目标关节点，可以与第一关节点相同，也可以与第一关节点不同。例如，第二关节点可以是落在该基准平面上的点，该基准平面可以是地面。比如，在实际应用中，虚拟对象的第二关节点在第一坐标系下的指定方向上相对固定，由于虚拟对象在行走过程中，通常总会有一只脚与地面贴合（该与地面贴合的脚也可以被称为起到重力支撑作用的脚，简称重力支撑脚），因此，该第二关节点可以是脚尖关节点。

图2示出了本申请一示例中的目标视频中的一帧图像的示意图。如图2所示，第一关节点A可以为目标对象的腰部关节点，第二关节点B可以为目标对象的脚尖关节点。

在该实现方式中，目标对象的各目标关节点可以目标对象的全部关节点或者根据应用需要选取的部分关节点，比如，目标对象是人，目标关节点可以是人的全部关节点，也可以是在人的所有关节点中选取特定的部分关节点。具体采用多少个以及具体哪些目标关节点可以根据实际需求配置。例如，目标对象是人，可以配置目标关节点的数量为33个，这33个关节点包括躯干上的目标关节点（可以称为躯干关节点）、双手的手部关节点和双脚的脚部关节点。

由于通常情况下，利用各手部关节点的三维姿态角形成的动作相对比较精细，而利用各脚部关节点的三维姿态角形成的动作相对比较粗糙，且脚部关节点的位置关系相对于躯干关节点的位置关系比较固定，因此，躯干关节点可以包括双脚的脚部关节点，即在确认躯干关节点和手部关节点情况下，就可以得到目标关节点。可选的，躯干关节点和手部关节点可以存在部分重叠的关节点（当然，也可以不存在重叠），比如，躯干关节点可以包括左手手腕关节点和右手手腕关节点，左手关节点也可以包括左手手腕关节点，右手关节点也可以包括右手手腕关节点。作为一个示例，上述33个关节点中躯干上的目标关节点的数量为23个，左手关节点的数量为6个，右手关节点的数量为6个。

对于每帧图像，确定目标对象的各目标关节点在该帧图像中的三维姿态角，以及第一关节点和第二关节点在第一坐标系下的第一三维坐标的具体方式，本申请不做限定。

可选的，对于第一关节点和第二关节点在第一坐标系下的第一三维坐标的确定，可以根据以下步骤实现：

确定第一关节点在第二坐标系中的第二三维坐标，第二坐标系为目标对象在目标视频中的图像坐标系；

根据第一关节点的第二三维坐标和坐标转换关系，确定第一关节点的第一三维坐标，其中，坐标转换关系为第一坐标系和第二坐标系的转换关系。

根据第一关节点的第一三维坐标、以及与各目标关节点中的三维姿态角中与第二关节点关联的三维姿态角，确定第二关节点的第一三维坐标。

可选地，可以将第一关节点的第一三维坐标确定为虚拟对象的第一关节点的三维坐标。

其中，与第二关节点关联的三维姿态角可以为根据各目标关节点的父子关系，从第一关节点追溯至第二关节点所需的目标关节点的三维姿态角。

步骤S122：根据第二关节点对应于该帧图像的第一三维坐标和历史三维坐标，确定第二关节点的位移偏差，其中，历史三维坐标是指第二关节点对应于该帧图像的前一帧图像的第一三维坐标。

可选地，位移偏差可以为第二关节点对应于该帧图像的第一三维坐标和历史坐标之间的欧式距离。通过确定位移偏差，可以确定目标对象的第二关节点在该帧图像与该帧图像的前一帧图像之间的移动距离。

步骤S123：若该位移偏差小于或等于设定值，则根据第二关节点对应于该帧图像的第一三维坐标和历史三维坐标，对第一关节点的第一三维坐标进行修正，得到第一关节点的目标三维坐标。

可选地，该方法还可以包括：若该位移偏差大于设定值，则将第一关节点的第一三维坐标作为第一关节点的目标三维坐标。

可选地，设定值可以为预设的固定值，也可以根据目标对象所执行的相邻的预设动作之间的幅度确定，本申请对此不做限制。例如，可以设置设定值为2-3厘米。

在一种可能的实现方式中，在步骤S123中，可以包括确定第二关节点的第一三维坐标和历史三维坐标之间在每个维度上的差值；

可选地，可以在第一关节点的第一三维坐标中每个维度的坐标的基础上，减去每个维度对应的差值，得到第一关节点的目标三维坐标。也可以根据每个维度对应的差值之间的关系，确定每个维度对应的权值，从而根据每个维度对应的权值，对第一关节点的第一三维坐标中每个维度的坐标进行加权处理，得到第一关节点的目标三维坐标，使得一个维度对应的差值相对越大，第一关节点的第一三维坐标中该维度上的坐标值被调整的力度越大。

步骤S124：根据第一关节点的目标三维坐标、以及各目标关节点在该帧图像中的三维姿态角，确定虚拟对象对应于该帧图像的三维姿态。

可选地，根据第一关节点的目标三维坐标以及其他关节点的三维姿态角，确定该帧图像中其他关节点在第一坐标系下的目标三维坐标，其中，其他关节点为各目标关节点中除第一关节点以及第二关节点之外的关节点；

根据该帧图像中各目标关节点的目标三维坐标以及各目标关节点在该帧图像中的三维姿态角，确定虚拟对象对应于该帧图像的三维姿态。

在基于目标对象的动作确定与该目标对象关联的虚拟对象的三维姿态时，可以基于图像采集设备采集的目标视频来实现虚拟对象三维姿态的确定，实现简单，可以无需目标对象佩戴复杂、沉重的可穿戴设备，能够更好的满足实际应用需求。

图3a示出了本申请实施例的目标对象的姿态的示意图。图3b示出了本申请实施例的虚拟对象的姿态的示意图。如图3a所示，图3a是通过将各目标关节点的三维姿态角输入至SMPL-X模型得到的目标对象的人体模型。如图3b所示，可以准确地根据目标对象在该帧图像中的姿态确定出虚拟对象对应于该帧图像的三维姿态。显然，通过本申请实施例中的数据处理方法，可以有效驱动虚拟对象还原目标对象的三维姿态。

图4a示出了本申请实施例提供的一种未基于第二关节点的位移偏差对第一关节点的第一三维坐标进行修正时确定出的虚拟对象的姿态的示意图。图4b示出了本申请实施例提供的一种基于第二关节点的位移偏差对第一关节点的第一三维坐标进行修正时确定出的虚拟对象的姿态的示意图。如图4a所示，可以在位移偏差小于设定值时，若不进行修正，而是根据第一关节点的第一三维坐标以及各目标关节点在该帧图像中的三维姿态角确定的虚拟对象的姿态，则会出现虚拟人物的脚陷入了地面的现象。如图4b所示，通过对第一关节点的第一三维坐标进行修正，将修正后的三维坐标作为第一关节点的目标三维坐标，进而根据该帧图像中第一关节点的目标三维坐标以及各目标关节点在该帧图像中的三维姿态角，确定虚拟对象对应于该帧图像的三维姿态，可以将虚拟人物的脚移出地面，从地面以下“拔”出来。

可选的，在确定各目标关节点在该帧图像中的三维姿态角时，可以首先确定出图像中的躯干区域图像和手部区域（左手区域、右区域）图像，可以通过调用三维姿态模型确定躯干区域图像中的躯干关节点的三维姿态角，以及手部区域图像中的手部关节点的三维姿态角。

可选的，确定该帧图像中的躯干区域图像和手部区域图像时，可以基于二维关节点检测模型的检测结果实现，具体的，可以通过二维关节点检测模型检测出该帧图像中的目标关节点，从而根据该帧图像中的目标关节点的位置对该帧图像进行截取，截取出躯干区域图像和手部区域图像。

其中，二维关节点检测模型可以是基于包含大量训练样本的训练数据集对神经网络模型进行训练得到的。其中，本申请实施例对二维关节点检测模型的具体网络结构不做限定，可以根据实际需求进行配置。可选地，三维姿态模型可以是基于卷积神经网络的模型，例如，三维姿态估计模型可以为包括但不限于基于ResNet（残差网络），InceptionNet（一种深度学习神经网络），DenseNet（浓密神经网络），VggNet（一种深度卷积神经网络），SENet（Squeeze-and-Excitation Networks，挤压与激活网络）等模型结构的神经网络模型。其中，模型的输入为一帧图像或者是将该帧图像进行向量化处理后的图像数据，模型的输出为该帧图像中的关节点树或者多个关节点各自的标识，其中，模型的输出还可以为该帧图像中各关节点的二维坐标。其中，标识可以为数字、字母等，本申请对此不做限制。

可选的，二维关节点检测模型可以是基于ResNet的神经网络模型，可以采用大量人体关节点检测数据集对该神经网络模型进行训练，得到满足训练结束条件（如模型的损失函数收敛、检测准确度满足需求等）的二维关键点检测模型。

图5示出本申请实施例提供的对一帧图像进行三维姿态估计的示意图。如图5所示，可以确定各目标关节点所形成的最小外接矩形的第一矩形区域（图5所示虚线框所指示的区域），并截取该帧图像中与该第一矩形区域对应的第一图像，将第一图像作为目标对象在该帧图像中的躯干区域的图像。

可选地，可以以该帧图像中目标对象的双手手腕关节点为中心，确定预设倍数的最小外接矩形的至少一个第二矩形区域（图5所示实线框所指示的区域），并截取该帧图像中与该至少一个第二矩形区域对应的至少一个第二图像，将至少一个第二图像作为目标对象在该帧图像中的手部区域的图像。

在一种可能的实现方式中，对于目标视频的每帧图像，可以通过调用三维姿态模型，得到目标对象的各目标关节点在该帧图像中的三维姿态角。

可选地，在得到目标对象的各目标关节点在该帧图像中的三维姿态角之后，可以将各目标关节点在该帧图像中的三维姿态角输入至SMPL模型中，得到该目标对象的人体模型，如图3a所示的目标对象的人体模型。

其中，三维姿态模型可以是基于包含大量训练样本的训练数据集对神经网络模型进行训练得到的。其中，本申请实施例对三维姿态模型的具体网络结构不做限定，可以根据实际需求进行配置。可选地，三维姿态模型可以是基于卷积神经网络的模型，例如，三维姿态模型可以为包括但不限于基于ResNet，InceptionNet，DenseNet，VggNet，SENet等模型结构的神经网络模型。其中，模型的输入为一帧图像或者是将该帧图像进行向量化处理后的图像数据，模型的输出为该帧图像中的关节点的三维姿态角或者三维坐标。

在本申请的可选实施例中，三维姿态模型可以是基于Human 3.6M等多个三维姿态数据集，以ResNet为基础神经网络，采用Frankmocap算法训练得到的。其中，Human3.6M三维姿态数据集是3D人体姿势估计的最大数据集，由360万个姿势和相应的视频帧组成，这些视频帧包含11个演员从4个摄像机视角执行15项日常活动的过程。

如图5所示，以该三维姿态模型的输入为目标视频中的当前帧的图像为例，在将上文确定的第一图像（与图5所示虚线框所指示的区域对应的图像）和至少一个第二图像（与图5所示实线框所指示的区域对应的图像）输入至该三维姿态模型之后，可以通过第一图像与躯干三维姿态估计模型确定目标对象的躯干上的目标关节点在该帧图像中的三维姿态角，通过至少一个第二图像与手部三维姿态估计模型确定目标对象的双手的目标关节点在该帧图像中的三维姿态角。在得到目标对象的躯干上的目标关节点在该帧图像中的三维姿态角以及目标对象的双手的目标关节点在该帧图像中的三维姿态角之后，可以通过部件整合模型，分别根据躯干三维姿态估计模型以及手部三维姿态估计模型确定的双手手腕关节点（也即，上述左手手腕关节点和右手手腕关节点）的三维姿态角，对目标对象的躯干上的目标关节点在该帧图像中的三维姿态角以及双手的目标关节点在该帧图像中的三维姿态角进行处理，得到目标对象的各目标关节点在该帧图像中的三维姿态角。

由于单个视角的目标视频中可能会存在目标对象的部分区域被遮挡的问题，也即无法准确获取部分目标关节点（也即，缺失关节点）的三维姿态角或三维坐标，导致所确定的虚拟对象的姿态的准确性下降。因此，可以根据与该目标视频关联的非目标视频确定缺失关节点的三维姿态角或三维坐标，完成对目标视频确定的各目标关节点的初始三维姿态角的矫正。

在一种可能的实现方式中，可以获取通过至少两个采集视角的图像采集设备采集得到的至少两个视频，其中，至少两个视角包括一个第一视角和至少一个第二视角，目标视频是对应于第一视角的视频。

其中，可以设置各图像采集设备同时对目标对象进行图像采集，也可以设置各图像采集设备在不同时间段内对目标对象进行图像采集，本公开对此不做限制。

图6示出了本申请实施例提供的一种图像采集装置的示意图。如图6所示，可以通过三个具有相同型号的图像采集设备同时对目标对象进行图像采集，其中，每个图像采集设备的采集视角为120°，每个图像采集设备围绕目标对象设置，每个图像采集设备相对于目标对象的距离相等，每个图像采集设备相对地面的距离也相等，以使目标对象保持在所有图像采集设备的采集视角之内。

具体地，在该实现方式中，上述步骤S121，即基于该帧图像，确定目标对象的各目标关节点在该帧图像中的三维姿态角、第一关节点和第二关节点在第一坐标系下的第一三维坐标，可以通过以下操作实现。

基于目标视频的该帧图像，确定目标对象在该帧图像中的各初始关节点。其中，各目标关节点包括各初始关节点。

基于目标视频的该帧图像，确定各目标关节点在该帧图像中的初始三维姿态角。

若不存在缺失关节点，则将各目标关节点在该帧图像中的初始三维姿态角，确定为各目标关节点在该帧图像中的三维姿态角。其中，缺失关节点为各目标关节点中除各初始关节点之外的关节点。

若存在缺失关节点，则根据非目标视频中与该帧图像对应的关联图像，确定缺失关节点的三维姿态角，其中，非目标视频为至少两个视频中除目标视频之外的至少一个视频。

其中，对于目标视频的每帧图像，初始关节点为可以根据该帧图像确定的目标关节点。可以在通过调用上述二维关节点检测模型，确定目标视频的每帧图像中的初始关节点之后，确定初始关节点的数量。并根据初始关节点的数量与各目标关节点的总数量之间的关系，确定是否存在缺失关节点。在初始关节点的数量小于各目标关节点的总数量的情况下，确定存在缺失关节点。在初始关节点的数量等于各目标关节点的总数量的情况下，确定不存在缺失关节点。

可选地，关联图像可以为非目标视频中与该帧图像对应的时间戳相同的图像。在确定存在缺失关节点的情况下，可以通过调用上述三维姿态估计模型，分别确定各目标关节点在该帧图像中的初始三维姿态角以及各目标关节点在该关联图像中的三维姿态角。并根据各目标关节点在该帧图像中的初始三维姿态角，确定初始关节点的三维姿态角。根据各目标关节点在该关联图像中的三维姿态角，确定缺失关节点的三维姿态角。从而，将初始关节点的三维姿态角以及缺失关节点的三维姿态角，确定为各目标关节点在该帧图像中的三维姿态角。

图7a示出了本申请实施例的根据确定各目标关节点在该帧图像中的三维姿态角的示意图。图7b示出了本申请实施例提供的一种模拟的缺失关节点所在区域的示意图。图7c示出了本申请实施例提供的一种进行姿态矫正后的三维姿态角的示意图。如图7a所示，由于目标视频的一帧图像中目标对象的左臂被身体的其他部分遮挡了，因此，在通过该帧图像进行二维关节点检测时，无法检测到该目标对象的左臂区域中的目标关节点。显然，即便可以根据三维姿态模型进行预测，得到所有目标关节点的初始三维姿态角，并通过SMPL-X模型还原出目标对象的人体模型，但仍无法准确地确定目标对象的左臂区域的目标关节点的三维姿态角。为了更清楚的表示缺失关节点，本申请根据图7a进行模拟，得到图7b所示的图像。如图7b所示，可以看出根据该帧图像无法确定的该目标对象被遮挡的左臂区域，也即，无法根据该帧图像检测到该目标对象的左臂区域的目标关节点。通过对关联图像进行二维关节点检测，可以准确确定缺失关节点的三维姿态角，进而得到目标对象各目标关节点的三维姿态角，并通过SMPL-X模型对还原出目标对象的人体模型，即图7c。

通过根据不同视角的图像采集设备采集目标对象的视频，从而将根据目标视频确定的目标关节点的初始三维姿态角中的缺失关节点的初始三维姿态角替换为根据非目标视频确定的缺失关节点的三维姿态角，可以完成对目标视频确定的各目标关节点的初始三维姿态角的矫正，进而更精确地控制虚拟对象的姿态。且在本申请所提供的数据处理方法中，可以通过至少两个图像采集设备就可以实现，也无需依赖穿戴式传感器，操作简单、成本低廉。

可选地，确定第一关节点在第二坐标系中的第二三维坐标包括以下至少一项：

其中，可以通过将第一关节点在该帧图像中的三维姿态角输入至上文的SMPL-X模型中，确定该第一关节点的第二三维坐标。其中，SMPL-X模型可以根据输入的各目标关节点的三维姿态角，输出与各目标关节点的三维姿态角对应的动作的人体模型以及各目标关节点的第二三维坐标。

为了更精确地确定第一关节点的第二三维坐标，可以根据第一关节点在该帧图像中的图像位置，确定该第一关节点在第二坐标系中的二维坐标，并可以通过估计该帧图像中目标对象的第一关节点的深度信息，得到该第一关节点的深度方向上的坐标，从而基于上述二维坐标和该深度方向的坐标，得到该帧图像中该第一关节点的第二三维坐标。

可选地，在上文的图像采集设备为单目图像采集设备的情况下，可以基于单目深度估计算法，根据图像采集设备采集的当前时刻对应的图像（即当前帧图像）以及当前时刻的前一时刻对应的图像（当前帧图像的前一帧图像），估计当前帧图像中目标对象的深度信息，其中，单目深度估计算法可以为基于编码解码器的单目深度估计算法，即可以采用训练好的神经网络模型实现。在上文的图像采集设备为双目图像采集设备的情况下，可以基于双目深度估计算法，根据该图像采集设备采集的当前时刻两张图像，确定当前帧图像中目标对象的深度信息。

如图2所示，假设上文的图像采集设备为单目图像采集设备，可以根据第一关节点A的二维坐标（x，y）以及估计出的目标对象的上述深度信息z，确定第一关节点的第二三维坐标

。

在一种可能的实现方式中，根据第一关节点的第二三维坐标和坐标转换关系，确定第一关节点的第一三维坐标，可以通过以下步骤实现。

确定两个关联关节点的第二三维坐标；

根据两个关联关节点的第二三维坐标，确定两个关联关节点的第一距离，其中，这两个关联关节点为各目标关节点中具有父子关系的两个指定关节点；

获取这两个关联关节点在第一坐标系下的参考距离；

根据第一距离与参考距离，确定坐标转换关系；

可选地，可以将各目标关节点中任意两个具有父子关系的两个关节点作为上文的两个关联关节点。为了减少数据处理的数据量，提高数据处理的效率，两个关联关节点可以为两个具有直接父子关系的两个关节点，例如，两个关联关节点可以为膝盖关节点和脚踝关节点。

可选地，可以根据上文确定第一关节点的第二三维坐标的方式分别确定两个关联关节点的第二三维坐标，从而根据每个关联关节点的第二三维坐标，确定第一距离h₁。

可选地，可以通过任意可以编程的图像构建模型构建虚拟对象，例如，可以通过虚幻引擎构建虚拟对象。在构建虚拟对象之后，可以将虚拟对象的根节点与该第一坐标系的原点重合，并确定两个关联关节点在第一坐标系下的参考距离h₀，从而可以确定坐标转换关系为

。

基于上述，可以根据以下公式（1）确定第一关节点的第一三维坐标：

公式（1）

其中，

表示第一关节点的第一三维坐标，

表示第一关节点的第二三维坐标，

表示坐标转换关系。

在获取目标视频的过程中，由于光学摄像头成像误差等，导致最终生成的目标视频有明显噪声。在根据该有噪声的目标视频确定虚拟对象的姿态时，可能会使得虚拟对象出现不自然或异常的肢体动作，导致虚拟对象的目标关节点存在震荡晃动以及异常转动等。

针对于此，该方法还可以根据以下步骤对每个目标关节点的每个维度的姿态角序列进行滤波处理，具体地：

获取目标视频的帧率；

根据目标视频的帧率，确定关节点的姿态角的滤波滑窗宽度。

在该实现方式中，根据目标视频的帧率，确定关节点的姿态角的滤波滑窗宽度，包括：

根据帧率，确定滑窗宽度的调整系数；

基于帧率和调整系数的乘积，确定第一滑窗宽度；

其中，可以根据视频的帧率与非线性系数（也即，滑窗宽度的调整系数）的乘积，确定初始滑窗宽度（也即，第一滑窗宽度），将初始滑窗宽度与预设的最小滑窗宽度（也即，预设的第二滑窗宽度）之间的最大值确定为最终的滑窗宽度。例如，可以通过以下公式（2）计算滑窗宽度：

公式（2）

其中，

表示目标视频的滤波滑窗宽度，

表示目标视频的帧率，

表示非线性系数，

表示预设的最小滑窗宽度，可以根据实际需求配置（比如可以是经验值或实验值），本申请对此不做限制。例如，可以设置

为30。

根据滤波滑窗宽度对每个目标关节点的每个维度的姿态角序列进行滤波处理，得到滤波后的姿态角序列，其中，一个目标关节点的一个维度的姿态角序列包括该目标关节点在目标视频的各帧图像中该维度的姿态角。

图8示出了根据本申请实施例的一个目标关节点的一个维度的姿态角序列在进行滤波处理前后的对比示意图。如图8所示，横轴表示帧数索引（frame_idx），也即该视频共有多少帧图像。纵轴表示姿态角（sita），单位为角度。虚线部分表示该目标关节点的一个维度的姿态角序列在进行滤波处理前的曲线，实线部分表示该目标关节点的一个维度的姿态角序列在进行滤波处理后的曲线。如图8中虚线部分所示，由于该噪声的存在，会使得每个目标关节点的每个维度的姿态角序列形成的平滑曲线上反复出现毛刺，相比于滤波处理后的姿态角序列形成的曲线，滤波处理后的姿态角序列形成的曲线几乎不存在毛刺，可以有效地去除毛刺。

在该实现方式中，根据第一关节点的目标三维坐标、以及各目标关节点在该帧图像中的三维姿态角，确定虚拟对象对应于该帧图像的三维姿态，还可以包括：根据第一关节点的目标三维坐标、以及各目标关节点在该帧图像的滤波后的三维姿态角，确定虚拟对象对应于该帧图像的三维姿态。

图9a示出了根据本申请实施例的一帧图像中目标对象的三维姿态角在进行滤波处理前的示意图。图9b示出根据本申请实施例的一帧图像中目标对象的三维姿态角在进行滤波处理后的示意图。如图9a方框中所展示的内容，可以看出右手腕出现了异常的转动姿态，左手手腕反转了。经过对每个目标关节点的每个维度的姿态角序列进行滤波处理后，得到了图9b中的方框中所展示的内容，可以看出右手腕恢复了正常的转动。

通过对每个目标关节点的每个维度的姿态角序列进行滤波处理，可以对各目标关节点的三维姿态角进行矫正，且能够在去除毛刺噪声的同时保留各关节点原有的转动幅度，进而可以根据目标关节点，控制虚拟对象的姿态。

在一种可能的实现方式中，该数据处理方法还可以包括：

对于目标视频中的各相邻帧，确定相邻帧之间目标对象的光流信息；

在该实现方式中，对于目标视频的每帧图像分别执行以下步骤S121至步骤S124，可以包括：对补帧后的目标视频中的每帧图像执行上述步骤S121（即基于该帧图像，确定目标对象的各目标关节点在该帧图像中的三维姿态角、第一关节点和第二关节点在第一坐标系下的第一三维坐标）至步骤S124（根据第一关节点的目标三维坐标、以及各目标关节点在该帧图像中的三维姿态角，确定虚拟对象对应于该帧图像的三维姿态）。

可选地，目标对象的光流信息可以包括目标对象的光流轨迹和光流方向。可以基于光流的视频补帧算法，计算目标视频中目标对象在相邻两帧图像之间的光流轨迹和方向，以预测目标对象在这两帧图像之间的中间光流轨迹以及方向，从而得到这两帧图像之间的中间帧，进而得到补帧后的目标视频。也即，在不改变目标视频原有时长的前提下，有效增加目标视频的总帧数，从而提升目标视频的帧率，提高目标对象在相邻两帧图像之间姿态的连贯性，有效解决每个目标关节点的每个维度的姿态角序列出现的明显卡顿、由于目标对象的目标关节点高频转动导致目标关节点的三维姿态角误平滑的问题。

可选地，在确定存在缺失关节点的情况下，还需要对非目标视频进行上述补帧操作，得到补帧后的非目标视频，从而根据补帧后的非目标视频中与该帧图像对应的关联图像，确定缺失关节点的三维姿态角。

通过对目标视频进行补帧，并基于补帧后的目标视频的每帧图像，确定第一关节点的目标三维坐标、以及各目标关节点在该帧图像中的三维姿态角，进而确定虚拟对象对应于该帧图像的三维姿态，能够提升虚拟对象相邻帧图像之间的连贯性。

为了更好的说明本申请实施例方案的实用性，下面结合该数据处理方法的具体应用场景对本申请实施例的方案进行说明。该应用场景是各种游戏、虚幻电影/电视剧的制作过程等，在该场景中，可以在演员（也即上文的目标对象）进行表演时，利用三个摄像头拍摄该演员的动作视频，根据演员的表演动作驱动游戏中的虚拟人物运动。具体地：

图10示出了本申请所适用的一种数据处理系统的结构示意图。如图10所示，该系统可以包括图像采集设备10、服务器20和终端设备30，图像采集设备10可以为任意一个可以进行图像采集的电子设备、终端设备30中可以安装可以进行VR转换的应用程序，用户可以通过该应用程序可以实现控制虚拟对象的姿态等。终端设备30通过网络40与服务器20连接，服务器20侧配置有数据库，数据库中存储有大量的目标关节点的三维姿态角和三维坐标。下面结合该系统对本申请方案可选实施例进行说明，图11示出了本申请的一种场景实施例的数据处理方法的流程图，如图11所示，该方法可以包括步骤S901至步骤S915。

步骤S901：通过三个具有相同型号的图像采集设备同时对演员进行图像采集，获取通过每个图像采集设备采集得到的视频，其中，至少两个视角包括一个第一视角和至少一个第二视角，将第一视角确定为主视角，第二视角确定为辅视角，将对应于第一视角的视频确定为目标视频，将对应于第二视角的视频确定为非目标视频。

步骤S902：每个图像采集设备采集到的视频进行补帧，得到补帧后的目标视频和补帧后的非目标视频。

对于补帧后的目标视频的每帧图像，执行以下步骤S903至步骤S915。

步骤S903：将该帧图像输入至二维关节点检测模型中，检测该帧图像中的初始关节点。其中，假定各目标关节点的总数量为24个。

步骤S904：将该帧图像输入至三维姿态模型中，确定各目标关节点在该帧图像中的初始三维姿态角。

步骤S905：确定初始关节点的数量是否小于24。

步骤S906：若初始关节点的数量小于24，确定存在缺失关节点。并将补帧后的非目标视频中的与该帧图像的时间戳相同的关联图像输入至三维姿态模型中，确定各目标关节点在该关联图像中的三维姿态角。根据各目标关节点在该关联图像中的三维姿态角确定缺失关节点的三维姿态角，进而将初始关节点的初始三维姿态角和缺失关节点的三维姿态角确定为各目标关节点的三维姿态角。

步骤S907：若初始关节点的数量等于24，确定不存在缺失关节点，将各目标关节点在该帧图像中的初始三维姿态角确定为各目标关节点的三维姿态角。

步骤S908：根据上述公式（2）对每个目标关节点的每个维度的姿态角序列进行滤波处理，得到滤波后的姿态角序列。

步骤S909：分别将膝盖关节点的三维姿态角和脚踝关节点的三维姿态角输入至SMPL-X模型中，确定膝盖关节点在该帧图像对应的第二坐标系下的第二三维坐标，以及脚踝关节点在第二坐标系下的第二三维坐标，并计算膝盖关节点的第二三维坐标与脚踝关节点的第二三维坐标之间的第一距离h1。

步骤S910：通过虚幻引擎构建虚拟对象，将虚拟对象的腰部关节点与该虚拟对象所在的第一坐标系的原点重合，并确定该虚拟对象中的膝盖关节点和脚踝关节点之间的距离h0，从而确定坐标转换关系为

。

步骤S911：计算根节点在第二坐标下的第二二维坐标（x，y），根据单目深度估计算法计算用于采集目标视频的图像采集设备与现实的人之间的距离z，从而确定根节点的第二二维坐标

，并根据公式（1）确定根节点的第一三维坐标

。

步骤S912：将根节点的第一三维坐标以及各目标关节点的滤波后的三维姿态角输入至虚幻引擎中，确定脚尖关节点对应于该帧图像的第一三维坐标。

其中，可以将每个关节点对应于每帧图像的第一三维坐标存储至虚幻引擎中，本申请对具体的存储方式不做限制。

步骤S913：根据脚尖关节点对应于该帧图像的第一三维坐标以及历史三维坐标，确定二者之间的欧式距离（也即，上述位移偏差）以及二者在每个维度上的差值，并确定二者之间的距离是否小于2cm。其中，历史三维坐标为脚尖关节点对应于该帧图像的前一帧图像的第一三维坐标。

步骤S914：若二者之间的距离小于或等于2cm，则将每个维度对应的差值与根节点的第一三维坐标中每个维度的坐标进行相加，得到根节点的目标三维坐标，将根节点的目标三维坐标确定为虚拟对象的根节点的三维坐标，并重新驱动虚拟引擎，以使得虚拟引擎根据其他关节点的三维姿态角，确定其他关节点的目标三维坐标，进而根据根节点的目标三维坐标、第二关节点的历史三维坐标、其他关节点的目标三维坐标以及各目标关节点在该帧图像中的三维姿态角，确定虚拟对象对应于该帧图像的三维姿态。其中，其他关节点为各目标关节点中除根节点以及脚尖关节点之外的关节点。

步骤S915：若二者之间的距离大于2cm，则直接将根节点的第一三维坐标确定为虚拟对象的根节点的目标三维坐标，并重新驱动虚拟引擎，以使得虚拟引擎根据根节点的第一三维坐标以及其他关节点的三维姿态角，确定其他关节点的目标三维坐标，进而根据各目标关节点的目标三维坐标、以及各目标关节点在该帧图像中的三维姿态角，确定虚拟对象对应于该帧图像的三维姿态。

基于与本申请实施例提供的数据处理方法相同的原理，本申请实施例还提供了一种数据处理装置。图12为本申请实施例提供的一种数据处理装置的结构示意图。如图12所示，该数据处理装置50包括视频获取模块510和姿态确定模块520。

视频获取模块510，用于获取目标对象的目标视频，其中，目标视频包括至少一帧图像。

姿态确定模块520，用于执行以下操作：

根据第二关节点对应于该帧图像的第一三维坐标和历史三维坐标，确定第二关节的位移偏差，其中，历史三维坐标是指第二关节点对应于该帧图像的前一帧图像的第一三维坐标；

可选地，姿态确定模块520还用于：在位移偏差大于设定值时，将第一关节点的第一三维坐标作为目标三维坐标。

可选地，姿态确定模块520在确定虚拟对象对应于该帧图像的三维姿态时，可以用于：

可选地，姿态确定模块520在对第一关节点的第一三维坐标进行修正时，可以用于：

可选地，该装置50还包括滤波模块，该滤波模块用于执行以下操作：

获取目标视频的帧率；

在该实现方式中，姿态确定模块520在确定虚拟对象对应于该帧图像的三维姿态时，可以用于：

根据帧率，确定滑窗宽度的调整系数；

基于帧率和调整系数的乘积，确定第一滑窗宽度；

可选地，姿态确定模块520在基于该帧图像，确定目标对象的各目标关节点在该帧图像中的三维姿态角、第一关节点和第二关节点在第一坐标系下的第一三维坐标时，可以用于：

确定两个关联关节点的第二三维坐标；

获取两个关联关节点在第一坐标系下的参考距离；

根据第一距离与参考距离，确定坐标转换关系；

可选地，视频获取模块510可以用于：

在该实现方式中，姿态确定模块在基于该帧图像，确定目标对象的各目标关节点在该帧图像中的三维姿态角时可以用于：

可选的，该装置50还可以包括视频补帧模块，该视频补帧模块用于：对于目标视频中的各相邻帧，确定相邻帧之间目标对象的光流信息；

在该实现方式中，姿态确定模块520在基于目标视频的每帧图像，确定目标对象的各目标关节点在该帧图像中的三维姿态角、第一关节点和第二关节点在第一坐标系下的第一三维坐标时，具体用于：

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

图13为本申请实施例提供的一种数据处理系统的结构示意图。如图13所示，该数据处理系统60包括图像采集装置610和数据处理设备620；

图像采集装置610，用于采集目标对象的目标视频，目标视频包括至少一帧图像；

数据处理设备620，用于基于图像采集装置采集的目标视频，通过执行上述数据处理方法，得到与目标对象关联的虚拟对象对应于目标视频的各帧图像的三维姿态，以基于得到的三维姿态驱动虚拟对象。

可选地，图像采集装置610包括三个对应于不同采集视角的图像采集设备，三个图像采集设备环绕目标对象并在目标对象的周向均布摆放，其中，三个图像采集设备包括一个第一视角的第一设备和两个第二视角的第二设备，目标视频为第一设备采集的视频；

对于目标视频的每帧图像，数据处理设备620通过执行以下操作来确定目标对象的各目标关节点在该帧图像中的三维姿态角：

可选地，可以通过上文中所描述的利用三个具有相同型号的、采集视角为120°图像采集设备同时对目标对象进行图像采集，其中，每个图像采集设备围绕目标对象设置，每个图像采集设备相对于目标对象的距离相等，每个图像采集设备相对地面的距离也相等，以使目标对象保持在所有图像采集设备的采集视角之内，从而实现三个图像采集设备环绕目标对象并在目标对象的周向均布摆放。

本申请实施例还提供了一种电子设备。该电子设备包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行该计算机程序以实现上述数据处理方法的步骤。

图14为本申请实施例提供的一种用于数据处理的电子设备的结构示意图。在一个可选实施例中提供了一种电子设备，如图14所示，图14所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图14中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器4003用于存储执行本申请实施例的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述方法实施例所示的步骤。

本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述数据处理方法的步骤。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述数据处理方法的步骤。

基于与本申请实施例提供的方法相同的原理，本申请实施例还提供了一种本计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述本申请任一可选实施例中提供的方法。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取目标对象的目标视频，所述目标视频包括至少一帧图像；

基于所述目标视频的每帧图像，确定所述目标对象的各目标关节点在该帧图像中的三维姿态角、第一关节点和第二关节点在第一坐标系下的第一三维坐标，其中，所述第一关节点和所述第二关节点为所述各目标关节点中的指定关节点，所述第一坐标系是虚拟对象对应的坐标系，所述第一关节点为所述各目标关节点中的根节点；

根据所述第二关节点对应于该帧图像的第一三维坐标和历史三维坐标，确定所述第二关节点的位移偏差，所述历史三维坐标是指所述第二关节点对应于该帧图像的前一帧图像的第一三维坐标；

若所述位移偏差小于或等于设定值，则根据所述第二关节点对应于该帧图像的第一三维坐标和所述历史三维坐标，对所述第一关节点的第一三维坐标进行修正，得到所述第一关节点的目标三维坐标；

根据所述第一关节点的目标三维坐标、以及所述各目标关节点在该帧图像中的三维姿态角，确定所述虚拟对象对应于该帧图像的三维姿态。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一关节点的目标三维坐标、以及所述各目标关节点在该帧图像中的三维姿态角，确定所述虚拟对象对应于该帧图像的三维姿态，包括：

根据所述第一关节点的目标三维坐标以及其他关节点的三维姿态角，确定该帧图像中其他关节点在第一坐标系下的目标三维坐标，所述其他关节点为所述各目标关节点中除所述第一关节点以及所述第二关节点之外的关节点；

根据该帧图像中所述各目标关节点的目标三维坐标以及各目标关节点在该帧图像中的三维姿态角，确定所述虚拟对象对应于该帧图像的三维姿态；

其中，若所述第一关节点的目标三维坐标为第一关节点的第一三维坐标，所述第二关节点的目标三维坐标为所述第二关节点的历史三维坐标；若所述第一关节点的目标三维坐标为第一关节点的目标第一三维坐标，所述第二关节点的目标三维坐标为所述第二关节点的第一三维坐标。

3.根据权利要求1所述的方法，其特征在于，所述根据所述第二关节点对应于该帧图像的第一三维坐标和所述历史三维坐标，对所述第一关节点的第一三维坐标进行修正，包括：

确定所述第二关节点的第一三维坐标和所述历史三维坐标之间在每个维度上的差值；

基于每个维度对应的差值对所述第一关节点的第一三维坐标中每个维度的坐标进行修正，得到所述第一关节点的目标三维坐标。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述目标视频的帧率；

根据所述目标视频的帧率，确定关节点的姿态角的滤波滑窗宽度；

根据所述滤波滑窗宽度对每个目标关节点的每个维度的姿态角序列进行滤波处理，得到滤波后的姿态角序列，其中，一个目标关节点的一个维度的姿态角序列包括该目标关节点在所述目标视频的各帧图像中该维度的姿态角；

所述根据所述第一关节点的目标三维坐标、以及所述各目标关节点在该帧图像中的三维姿态角，确定所述虚拟对象对应于该帧图像的三维姿态，包括：

根据所述第一关节点的目标三维坐标、以及所述各目标关节点在该帧图像的滤波后的三维姿态角，确定所述虚拟对象对应于该帧图像的三维姿态。

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标视频的帧率，确定关节点的姿态角的滤波滑窗宽度，包括：

根据所述帧率，确定滑窗宽度的调整系数；

基于所述帧率和所述调整系数的乘积，确定第一滑窗宽度；

将所述第一滑窗宽度和预设的第二滑窗宽度中的较大值，确定为所述滤波滑窗宽度。

6.根据权利要求1所述的方法，其特征在于，所述基于该帧图像，确定所述目标对象的各目标关节点在该帧图像中的三维姿态角、第一关节点和第二关节点在第一坐标系下的第一三维坐标，包括：

基于该帧图像，通过三维姿态模型确定所述各目标关节点在该帧图像中的三维姿态角；

确定所述第一关节点在第二坐标系中的第二三维坐标，所述第二坐标系为所述目标视频对应的图像坐标系；

根据所述第一关节点的第二三维坐标和坐标转换关系，确定所述第一关节点的第一三维坐标，所述坐标转换关系为所述第一坐标系和所述第二坐标系的转换关系；

根据所述第一关节点的第一三维坐标、以及所述各目标关节点的三维姿态角中与第二关节点关联的三维姿态角，确定所述第二关节点的第一三维坐标。

7.根据权利要求6所述的方法，其特征在于，所述确定所述第一关节点在第二坐标系中的第二三维坐标，包括以下至少一项：

根据所述第一关节点在该帧图像中的三维姿态角，确定所述第一关节点的第二三维坐标；

根据所述第一关节点在该帧图像中的图像位置，确定所述第一关节点在第二坐标系中的二维坐标；根据该帧图像和该帧图像的相关图像，估计所述第一关节点的深度方向上的坐标；基于所述二维坐标和所述深度方向上的坐标，确定所述第一关节点的第二三维坐标；

其中，所述目标视频是通过单目图像采集设备采集的视频，所述相关图像为该帧图像的前一帧图像，或者所述目标视频是通过双目图像采集设备采集的两个视频中的一个视频，所述相关图像为两个视频的另一个视频中与该帧图像对应的图像。

8.根据权利要求6所述的方法，其特征在于，所述根据所述第一关节点的第二三维坐标和坐标转换关系，确定所述第一关节点的第一三维坐标，包括：

确定两个关联关节点的第二三维坐标；

根据两个关联关节点的第二三维坐标，确定两个关联关节点的第一距离，其中，所述两个关联关节点为所述各目标关节点中具有父子关系的两个指定关节点；

获取所述两个关联关节点在所述第一坐标系下的参考距离；

根据所述第一距离与所述参考距离，确定所述坐标转换关系；

根据所述第一关节点的第二三维坐标和所述坐标转换关系，确定所述第一关节点的第一三维坐标。

9.根据权利要求1所述的方法，其特征在于，所述获取目标对象的目标视频，包括：

获取通过至少两个采集视角的图像采集设备采集得到的至少两个视频，所述至少两个采集视角包括一个第一视角和至少一个第二视角，所述目标视频是对应于所述第一视角的视频；

所述基于该帧图像，确定所述目标对象的各目标关节点在该帧图像中的三维姿态角，包括：

基于目标视频的该帧图像，检测所述目标对象在该帧图像中的各初始关节点，所述各目标关节点包括所述各初始关节点；

基于目标视频的该帧图像，确定所述各目标关节点在该帧图像中的初始三维姿态角；

若不存在缺失关节点，则将所述各目标关节点在该帧图像中的初始三维姿态角，确定为所述各目标关节点在该帧图像中的三维姿态角；其中，所述缺失关节点为所述各目标关节点中除所述各初始关节点之外的关节点；

若存在缺失关节点，则根据非目标视频中与该帧图像对应的关联图像，确定所述缺失关节点的三维姿态角，所述非目标视频为所述至少两个视频中除所述目标视频之外的至少一个视频；

将确定出的所述缺失关节点的三维姿态角、以及所述各初始关节点的初始三维姿态角，确定为所述各目标关节点在该帧图像中的三维姿态角。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对于所述目标视频中的各相邻帧，确定所述相邻帧之间所述目标对象的光流信息；

根据所述光流信息，在所述相邻帧之间进行补帧处理，得到所述相邻帧之间的至少一帧补帧图像；

基于所述目标视频以及各所述相邻帧之间补帧图像，得到补帧后的目标视频；

所述基于所述目标视频的每帧图像，确定所述目标对象的各目标关节点在该帧图像中的三维姿态角、第一关节点和第二关节点在第一坐标系下的第一三维坐标，包括：

基于所述补帧后的目标视频的每帧图像，确定所述目标对象的各目标关节点在该帧图像中的三维姿态角、第一关节点和第二关节点在第一坐标系下的第一三维坐标。

11.一种数据处理装置，其特征在于，所述装置包括：

视频获取模块，用于获取目标对象的目标视频，所述目标视频包括至少一帧图像；

姿态确定模块，用于执行以下操作：

根据所述第二关节点对应于该帧图像的第一三维坐标和历史三维坐标，确定所述第二关节点的位移偏差，所述历史三维坐标是指所述第二关节点对应于该帧图像的前一帧图像的三维坐标；

12.一种数据处理系统，其特征在于，所述数据处理系统包括图像采集装置和数据处理设备；

所述图像采集装置，用于采集目标对象的目标视频，所述目标视频包括至少一帧图像；

所述数据处理设备，用于基于所述图像采集装置采集的目标视频，通过执行权利要求1至10中任一项所述的方法，得到与所述目标对象关联的虚拟对象对应于所述目标视频的各帧图像的三维姿态，以基于得到的三维姿态驱动所述虚拟对象。

13.根据权利要求12所述的系统，其特征在于，所述图像采集装置包括三个对应于不同采集视角的图像采集设备，三个图像采集设备环绕所述目标对象并在所述目标对象的周向均布摆放，其中，所述三个图像采集设备包括一个第一视角的第一设备和两个第二视角的第二设备，所述目标视频为所述第一设备采集的视频；

对于所述目标视频的每帧图像，所述数据处理设备通过执行以下操作来确定所述目标对象的各目标关节点在该帧图像中的三维姿态角：

基于所述目标视频的该帧图像，检测所述目标对象在该帧图像中的各初始关节点，所述各目标关节点包括所述各初始关节点；

基于所述目标视频的该帧图像，确定所述各目标关节点在该帧图像中的初始三维姿态角；

若存在所述缺失关节点，则根据非目标视频中与该帧图像对应的关联图像，确定所述缺失关节点的三维姿态角，所述非目标视频包括至少一个所述第二设备采集的视频；

14.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-10任一项所述的数据处理方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-10任一项所述的数据处理方法的步骤。