CN114638921B

CN114638921B - 动作捕捉方法、终端设备及存储介质

Info

Publication number: CN114638921B
Application number: CN202210541792.8A
Authority: CN
Inventors: 江功发; 李文瑞; 黄浩智
Original assignee: Shenzhen Yuanxiang Information Technology Co ltd
Current assignee: Shenzhen Yuanxiang Information Technology Co ltd
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-09-27
Anticipated expiration: 2042-05-19
Also published as: CN114638921A

Abstract

本申请提供了一种动作捕捉方法、终端设备及存储介质，其中，所述动作捕捉方法包括：获取目标对象的原始视频数据，并将所述原始视频数据拆分成多个视频帧；确定所述目标对象的第一关键部位及第二关键部位并进行二维特征提取获取相应的第一关键二维特征及第二关键二维特征；确定所述第一关键部位对应的第一骨骼旋转信息，及所述第二关键部位对应的第二骨骼旋转信息；根据所述第一关键二维特征调整所述第一骨骼旋转信息，以获取所述第一关键部位对应的第一骨骼动画；根据所述第二关键二维特征调整所述第二骨骼旋转信息，以获取所述第二关键部位对应的第二骨骼动画；根据所述第一骨骼动画和所述第二骨骼动画输出所述目标对象的骨骼动画。

Description

动作捕捉方法、终端设备及存储介质

技术领域

本申请涉及动作捕捉技术领域，特别是涉及一种动作捕捉方法、终端设备及存储介质。

背景技术

动作捕捉是指通过对物体在三维空间中的运动进行记录，并将其运动轨迹模拟到数字模型中。例如，通过检测、记录表演者的肢体在三维空间的运动轨迹，捕获表演者的姿态动作，将捕获的姿态动作转换为数字化的抽象动作，以控制软件应用中的虚拟模型做出和表演者相同的动作，生成动画序列。近年来，动作捕捉技术被广泛应用于虚拟现实、三维游戏、人体生物工程学等很多领域。

动作捕捉技术主要包括基于设备的动作捕捉技术和基于视频的动作捕捉，其中，基于视频的动作捕捉技术，主要采用单视角或多视角拍摄的目标对象运动视频，利用深度学习技术从视频中预测目标对象关节点的运动参数。

然而，现有基于视频的动作捕捉技术中存在所获取的目标对象的动作准确性不高的，使得目标对象输出动作不自然，甚至失真。

因此，如何准确获取视频或图像中目标对象的动作，是本领域技术人员亟待解决的技术问题。

发明内容

本申请的主要目的在于提供一种动作捕捉方法、终端设备及存储介质，旨在准确获取视频或图像中目标对象的动作。

第一方面，本申请提供一种动作捕捉方法，包括：

获取目标对象的原始视频数据，并将原始视频数据拆分成多个视频帧；

确定视频帧中目标对象的第一关键部位及第二关键部位；

对第一关键部位及第二关键部位进行二维特征提取，以获取第一关键部位对应的第一关键二维特征及第二关键部位对应的第二关键二维特征；

对第一关键部位及第二关键部位进行三维特征提取，以获取第一关键部位对应的第一骨骼旋转信息、三维位置信息，及第二关键部位对应的第二骨骼旋转信息；根据第一关键二维特征调整第一骨骼旋转信息及三维位置信息，以获取第一关键部位对应的第一骨骼动画；

根据第二关键二维特征调整第二骨骼旋转信息，以获取第二关键部位对应的第二骨骼动画；

根据第一骨骼动画和第二骨骼动画输出目标对象的骨骼动画。

第二方面，本申请提供一种终端设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现如前述的动作捕捉方法。

第三方面，本申请提供一种存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时实现如前述的动作捕捉方法。

本申请提供了一种动作捕捉方法、终端设备及存储介质，其中，动作捕捉方法包括：获取目标对象的原始视频数据，并将原始视频数据拆分成多个视频帧；确定视频帧中目标对象的第一关键部位及第二关键部位；对第一关键部位及第二关键部位进行二维特征提取，以获取第一关键部位对应的第一关键二维特征及第二关键部位对应的第二关键二维特征；对第一关键部位及第二关键部位进行三维特征提取，以获取第一关键部位对应的第一骨骼旋转信息、三维位置信息，及第二关键部位对应的第二骨骼旋转信息；根据第一关键二维特征调整第一骨骼旋转信息及三维位置信息，以获取第一关键部位对应的第一骨骼动画；根据第二关键二维特征调整第二骨骼旋转信息，以获取第二关键部位对应的第二骨骼动画；根据第一骨骼动画和第二骨骼动画输出目标对象的骨骼动画。通过该动作捕捉方法，可实现去噪声和消除偏差，以使得到的骨骼动画更加自然。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例涉及的一种动作捕捉方法的步骤流程图；

图2为本申请实施例涉及的目标对象关键部位示意图；

图3为本申请实施例涉及的提取的目标对象的姿态示意图；

图4为本申请实施例涉及的S13步骤的流程示意图；

图5为本申请实施例涉及的S131步骤的流程示意图；

图6为本申请实施例涉及的第一投影二维关键特征调整前和调整后的状态变化示意图；

图7为本申请实施例涉及的调整初始骨骼动画前和调整初始骨骼动画后的状态示意图；

图8为本申请实施例涉及的终端设备的结构示意框图。

具体实施方式

下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

下面结合附图，对本申请的一些实施方式作详细说明，在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

请参阅图1，图1为本申请实施例提供的一种动作捕捉方法，包括步骤S10至步骤S15。

步骤S10：获取目标对象的原始视频数据，并将原始视频数据拆分成多个视频帧。

获取一段目标对象的原始视频数据，并将原始视频数据拆分成多个视频帧，基于多个视频帧来对目标对象进行动作捕捉。

步骤S11：确定视频帧中目标对象的第一关键部位及第二关键部位。在本申请中实施例中，目标对象为人体，以人体的手部为第二关键部位及人体除了手部之外的身体部位为第一关键部位为例进行说明。

步骤S12：对第一关键部位及第二关键部位进行二维特征提取，以获取第一关键部位对应的第一关键二维特征及第二关键部位对应的第二关键二维特征。

具体地，根据视频帧确定视频帧中目标对象的第一关键部位，并对第一关键部位进行二维特征提取以获取第一关键二维特征。

示例性地，如图2所示，目标对象为人体，目标对象的第一关键部位为人体除手部之外的身体部分，即如图2中所示的人体除B区域之外的身体部分，例如人体的胳膊、双腿、双脚等部位。第二关键部位为图2中B区域所示为人体的手部。

在一些实施方式中，对第一关键部位及第二关键部位进行二维特征提取，以获取第一关键部位对应的第一关键二维特征及第二关键部位对应的第二关键二维特征，包括：

根据第一预设算法对第一关键部位进行二维特征提取，以获取第一关键部位对应的第一关键二维特征及第一关键二维特征的置信度；

根据第二预设算法对第二关键部位进行二维特征提取，以获取第二关键部位对应的第二关键二维特征；

判断第一关键二维特征的置信度是否符合预设条件，若置信度不符合预设条件，则根据第二预设算法对第一关键部位进行二维特征提取，以获取第一关键部位对应的替补二维特征，并利用替补二维特征置换置信度不符合预设条件的第一关键二维特征。

示例性地，第一预设算法为自下而上（Bottom-Up）算法，第二预设算法为自上而下（Top-Down）算法。自下而上算法为先检测视频帧中所有能看见的关键点的位置，再把关键点组合成一个体的骨架，关键点位置比较准确，缺点是当出现运动模糊或者自遮挡等情况时，关键点可见性很低则检测不到。自上而下算法是先检测出视频帧中个体的位置，再根据个体的整体布局预测全身的关键点位置，对运动和遮挡比较鲁棒，但关键点相对不精准。

根据自下而上算法对身体部位进行二维特征提取，获取身体部位对应的第一关键二维特征，即身体部分的二维关键点信息，该二维关键点信息包括二维关键点坐标信息及二维关键点坐标信息对应的置信度。根据自上而下算法对手部进行二维特征提取，获取第二关键二维特征，即手部二维关键点信息。考虑到自遮挡情况下不同的关键点可信度是不一致的，根据获取的置信度与预设的置信度阈值进行判断，如果获取的身体部分的二维关键点的置信度低于预设阈值，则根据自上而下算法身体部位进行二维特征提取，从而得到置信度低于预设阈值的二维关键点的替补二维特征，即该二维关键点的替补二维坐标信息及对应的置信度，并利用替补二维坐标信息置换置信度低于预设阈值的二维关键点的二维关键点坐标信息。如果获取的身体部分的二维关键点的置信度不低于预设阈值，则不利用替补二维坐标信息置换二维关键点的二维关键点坐标信息。

例如，根据自下而上算法对身体部位进行二维特征提取，获取身体部位对应的第一关键二维特征的数据群A1、A2、A3……，其中，若A3对应的置信度低于预设阈值，则根据自上而下算法获取身体部位对应的第一关键二维特征的数据群A1’、A2’、A3’……中与A3对应的A3’置换第一关键二维特征的数据群中的A3，置换后的第一关键二维特征的数据群为A1、A2、A3’……。

置信度用于表征二维关键点的是否可见以及可靠度，其取值范围在0至1之间。通过采用自上而下和自下而上两种算法的结合对身体部位进行二维特征提取，在自遮挡等复杂情况下可以提高特征提取的准确性。由于人体的手部相对身体部分较小，采用自上而下算法提取二维关键点以使手部的二维关键点鲁棒性高、不容易出错。步骤S13：对第一关键部位及第二关键部位进行三维特征提取，以获取第一关键部位对应的第一骨骼旋转信息、三维位置信息，及第二关键部位对应的第二骨骼旋转信息；根据第一关键二维特征调整第一骨骼旋转信息及三维位置信息，以获取第一关键部位对应的第一骨骼动画。

具体地，利用第一神经网络模型来提取每一视频帧中人体的身体部位的第一骨骼旋转信息，第一骨骼旋转信息可以基于正运动学函数映射为三维位置信息，即三维关键点的坐标信息。三维关键点与关键二维特征是具有对应关系的，这里的对应关系不仅仅是数量上的对应关系，还包括性质上的对应关系。例如，三维骨骼模型中有两个三维关键点代表前脚掌，对视频帧图像进行二维特征提取后同样有两个二维关键点代表前脚掌。

其中，第一神经网络模型基于大量的图片和对应的光学动捕的骨骼动画作为数据集训练得到。根据第一神经神经网络模型获取的第一骨骼旋转信息表征身体部位的姿态，以三维骨骼模型体现。例如图3中所示，根据不同的第一骨骼旋转信息，图中人体三维骨骼模型的姿态可呈现出左边的骨骼模型姿态和右边的骨骼模型姿态等多种姿态。通过对每一视频帧进行第一神经网络模型提取身体部位的骨骼旋转信息，集合输出即为原始视频帧对应的目标对象身体部位的骨骼动画。

利用第二神经网络模型来提取每一视频帧中人体的手部的第二骨骼旋转信息，其中，第二神经网络模型基于大量的图片和对应的光学动捕的骨骼动画作为数据集训练得到。根据第二神经神经网络模型获取的第二骨骼旋转信息表征手部的姿态，以三维骨骼模型体现，通过对每一视频帧进行第二神经网络模型提取手部的骨骼旋转信息，集合输出即为原始视频帧对应的目标对象手部的骨骼动画。

在一些实施方式中，第一关键部位包括目标关键部位，根据第一关键二维特征调整第一骨骼旋转信息及三维位置信息，以获取第一关键部位对应的第一骨骼动画，包括步骤S131至步骤134，如图4所示。

在本申请的实施例中，如图2所示，第一关键部位为人体的身体部分，即为图2中所示的人体除B区域之外的身体部分。目标关键部位为图2中A区域所示的脚部位，包括左脚前脚掌、左脚后脚跟、右脚前脚掌及右脚后脚跟。

步骤S131：根据第一关键二维特征调整第一骨骼旋转信息、及三维位置信息，得到初始骨骼动画。

在一些实施方式中，根据第一关键二维特征调整第一骨骼旋转信息、及三维位置信息，得到初始骨骼动画，包括步骤S1311至步骤S1314，如图5所示。

步骤S1311：对视频帧进行摄像机标定，以建立三维空间到二维图像的投影关系。

示例性地，利用预设网络神经模型对摄像机进行标定，以建立一透视投影相机模型，从而确定从三维空间坐标系到二维图像坐标系的投影关系。对摄像机进行标定，即为预测相机内参及相机外参。三维位置信息到第一投影二维关键特征的转换，可以通过相机内参及相机外参经过一系列矩阵变换得到。

步骤S1312：根据投影关系及三维位置信息，投影得到第一关键部位的第一投影二维关键特征。

根据投影关系及三维位置信息，投影得到第一投影二维关键特征，例如图6中左边图像所示。

示例性地，第一投影二维关键特征，是指将三维位置信息投影到视频帧所在坐标系后得到的二维关键点，其可以是视频帧对应的相机内参和相机坐标系下的三维关键点的乘积，相机坐标系下的三维关键点基于初始三维关键点和初始变换矩阵得到，其中，初始变换矩阵包括初始三维关键点所在坐标系到视频帧所对应的相机坐标系的旋转变换的初始值以及平移变换的初始值，即摄像机标定得到的相机外参。

步骤S1313：根据第一投影二维关键特征及第一关键二维特征，构建重投影误差。

示例性地，根据投影至二维图像得到的二维关键点坐标与第一二维关键点坐标，计算两关键点之间的欧氏距离为重投影误差。

步骤S1314：对重投影误差进行迭代优化，调整第一骨骼旋转信息以使重投影误差符合预设误差条件，得到初始骨骼动画。

示例性地，可使用重投影误差来构造代价函数，在迭代优化该代价函数的过程中对第一骨骼旋转信息进行调整。重投影误差可以是第一投影二维关键特征与第一关键二维特征之间的欧氏距离，表征第一投影二位关键特征与第一关键二维特征之间的误差。利用重投影误差，可以很好地估计第一骨骼旋转信息表征的姿态的精确程度，重投影误差越小，所调整得到的目标第一骨骼旋转信息表征的姿态越能够准确地描述视频帧中展示的姿态。调整前的第一投影二维关键特征例如图6中左边图像所示，调整后的第一投影二维关键特征例如图6中右边图像所示，相较于图6中左边图像所示的第一投影二维特征，调整后的第一投影二维特征更贴合图像中的姿态。

步骤S132：根据第一关键二维特征判断对应视频帧中目标对象对应的目标关键部位是否处于预设状态。

在步骤S131根据第一关键二维特征调整第一骨骼旋转信息、及三维位置信息，得到初始骨骼动画后，目标对象即人体的脚部可能存在浮空或沉入地面等不自然现象，例如图7中左边图像所示，需要对此类现象进行调整，将目标对象的脚部由图7中左边图像所示的状态调整为图7中右边图像所示的正常状态。

在一些实施方式中，根据第一关键二维特征判断对应视频帧中目标对象对应的目标关键部位是否处于预设状态，包括：

从多个视频帧中确定目标视频帧，判断目标视频帧中目标对象的目标关键部位是否处于预设状态，及判断与目标视频帧相邻的相邻视频帧中目标对象的目标关键部位是否处于预设状态；

当目标视频帧及与目标视频帧相邻的相邻视频帧中目标对象的目标关键部位均处于预设状态时，判断目标视频帧中目标对象的目标关键部位处于预设状态。

示例性地，原始视频数据被拆分为多个视频帧，从多个视频帧中确定目标视频帧，利用脚触底预测模型判断目标视频帧中人体的身体部分的脚部位是否处于地面，及判断与目标视频帧相邻的相邻视频帧中人体的身体部分的脚部位是否处于地面。当目标视频帧及与目标视频帧相邻的相邻视频帧中人体的身体部分的脚部位均处于地面时，判断目标视频帧中人体的身体部分的脚部位处于地面。当目标视频帧及与目标视频帧相邻的相邻视频帧中人体的身体部分的脚部位不处于地面，判断目标视频帧中人体的身体部分的脚部位不处于地面。

脚触底预测模型根据目标视频帧及与目标视频帧相邻的相邻视频帧对应的关键二维特征为输入，结合目标对象即人体的姿态及运动信息，对目标视频帧的脚部的左脚及右脚的前脚掌和后脚跟共四部位进行状态预测，状态预测即预测该部分是否处于地面。对每一视频帧均完成状态预测后，确定人体的身体部分的脚部位处于地面的目标视频帧及脚部位处于地面的相邻视频帧，组成一视频帧序列。例如，经脚触底预测模型进行状态预测后，视频帧1、视频帧2、及视频帧3中的左脚前脚掌部位均处于地面，且视频帧1、视频帧2、及视频帧3为连续的三个视频帧，即可组成一左脚前脚掌部位处于地面的视频帧序列。

步骤S133：当对应视频帧中目标对象对应的目标关键部位是处于预设状态时，根据第一关键部位对应的三维位置信息确定目标对象的目标关键部位的基准调整面。

在一些实施方式中，根据第一关键部位对应的三维位置信息确定目标对象的目标关键部位的基准调整面，包括：

设置一初始基准面；

根据初始基准面、目标视频帧中目标对象的目标关键部位对应的三维位置信息、及相邻视频帧中目标对象的目标关键部位对应的三维位置信息构建初始基准面和目标关键部位之间的第一误差；

对第一误差进行迭代优化直至第一误差小于预设误差值，得到目标误差；

根据目标误差调整初始基准面以得到基准调整面。

示例性地，假定地面为一平坦地面，该地面的高度信息未知，因此设置一初始基准面为地面。根据前述视频帧1、视频帧2、及视频帧3对应左脚前脚掌的三维位置信息及初始基准面构建第一误差，对第一误差进行迭代优化直至第一误差小于预设误差值，得到目标误差。根据目标误差调整初始基准面的高度信息，以得到基准调整面。

在一些实施方式中，第一误差由目标视频帧中目标对象的目标关键部位的三维位置信息与初始基准面的第一欧氏距离、及相邻视频帧中目标对象的目标关键部位的三维位置信息与初始基准面的第二欧氏距离构建。

以前述视频帧1、视频帧2、及视频帧3组成的视频帧序列为例，可根据视频帧1确定对应的前脚掌的三维位置信息与初始基准面确定第一欧氏距离，根据视频帧2和视频帧3对应的前脚掌的三维位置信息与初始基准面确定第二欧氏距离，将第一欧氏距离与第二欧氏距离相加构建第一误差。对该第一误差利用梯度下降法进行最小化，迭代确定初始基准面的高度信息。此时的初始基准面即为基准调整面，该基准调整面为前脚掌均处于该平面或者与该平面距离小于预设阈值的一地面。

步骤S134：根据基准调整面调整初始骨骼动画，以得到第一关键部位对应的第一骨骼动画。

在一些实施方式中，根据基准调整面调整初始骨骼动画，以得到第一关键部位对应的第一骨骼动画，包括：

根据目标视频帧中目标对象的目标关键部位的三维位置信息、及相邻视频帧中目标对象的目标关键部位的三维位置信息计算得到目标关键部位的平均三维位置信息；

根据基准调整面，对平均三维位置信息进行调整，以调整初始骨骼动画得到第一骨骼动画。

以前述视频帧1、视频帧2、及视频帧3组成的视频帧序列为例，该视频帧序列为一左脚前脚掌部位处于地面的视频帧序列。根据视频帧中前脚掌的三维位置信息计算得到平均三维位置信息，并将该平均三维位置信息的高度信息替换为基准调整面的高度信息。并利用反向动力学将左脚前脚掌部位固定于该平均三维位置，以确保在三维空间中该视频帧序列中每一视频帧对应的三维骨骼模型的脚部的左脚前脚掌均处于地面，消除脚部浮空及沉入地面等不自然现象。

步骤S14：根据第二关键二维特征调整第二骨骼旋转信息，以获取第二关键部位对应的第二骨骼动画。

根据第二关键特征调整第二骨骼旋转信息以获取第二关键部位对应的第二骨骼动画与根据第一关键特征调整第一骨骼旋转信息以获取第一关键部位对应的第一骨骼动画类似，包括以下步骤：

对视频帧进行摄像机标定，以建立三维空间到二维图像的投影关系；

根据投影关系及根据第二骨骼旋转信息确定的三维位置信息，投影得到第二关键部位的第二投影二维关键特征；

根据第二投影二维关键特征及第二关键二维特征，构建重投影误差；

对重投影误差进行迭代优化，调整第二骨骼旋转信息以使重投影误差符合预设误差条件，得到第二骨骼动画。

具体实施方式可参考前述根据第一关键特征调整第一骨骼旋转信息以获取第一关键部位对应的第一骨骼动画的具体步骤，在此不再赘述。

步骤S15：根据第一骨骼动画和第二骨骼动画输出目标对象的骨骼动画。

示例性地，在分别对目标对象即人体的身体部位和手部进行姿态提取之后，根据第一骨骼旋转信息及第二骨骼旋转信息相应调整得到调整后的身体骨骼动画及手部骨骼动画，通过将身体骨骼动画和手部骨骼动画进行结合，输出目标对象的整体骨骼动画。

请参阅图8，图8为本申请实施例提供的一种终端设备的结构示意性框图。

如图8所示，该终端设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括存储介质和内存储器。

存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种动作捕捉方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种动作捕捉方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元 (Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路 (Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

确定视频帧中目标对象的第一关键部位及第二关键部位；

在一个实施例中，处理器在实现第一关键部位包括目标关键部位，根据第一关键二维特征调整第一骨骼旋转信息及三维位置信息，以获取第一关键部位对应的第一骨骼动画时，用于实现：

根据第一关键二维特征调整第一骨骼旋转信息、及三维位置信息，得到初始骨骼动画；

根据第一关键二维特征判断对应视频帧中目标对象对应的目标关键部位是否处于预设状态；

当对应视频帧中目标对象对应的目标关键部位是处于预设状态时，根据第一关键部位对应的三维位置信息确定目标对象的目标关键部位的基准调整面；

根据基准调整面调整初始骨骼动画，以得到第一关键部位对应的第一骨骼动画。

在一个实施例中，处理器在实现根据第一关键二维特征判断对应视频帧中目标对象对应的目标关键部位是否处于预设状态时，用于实现：

在一个实施例中，处理器在实现根据第一关键部位对应的三维位置信息确定目标对象的目标关键部位的基准调整面时，用于实现：

设置一初始基准面；

根据目标误差调整初始基准面以得到基准调整面。

在一个实施例中，处理器在实现根据基准调整面调整初始骨骼动画，以得到第一关键部位对应的第一骨骼动画时，用于实现：

在一个实施例中，处理器在实现对第一关键部位及第二关键部位进行二维特征提取，以获取第一关键部位对应的第一关键二维特征及第二关键部位对应的第二关键二维特征时，用于实现：

在一个实施例中，处理器在实现根据第一关键二维特征调整第一骨骼旋转信息、及三维位置信息，得到初始骨骼动画时，用于实现：

根据投影关系及三维位置信息，投影得到第一关键部位的第一投影二维关键特征；

根据第一投影二维关键特征及第一关键二维特征，构建重投影误差；

对重投影误差进行迭代优化，调整第一骨骼旋转信息以使重投影误差符合预设误差条件，得到初始骨骼动画。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述动作捕捉方法的具体过程，可以参考前述动作捕捉方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序中包括程序指令，该程序指令被执行时所实现的方法可参照本申请动作捕捉方法的各个实施例。

其中，该计算机可读存储介质可以是前述实施例的计算机设备的内部存储单元，例如计算机设备的硬盘或内存。计算机可读存储介质也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅是本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种动作捕捉方法，其特征在于，包括：

获取目标对象的原始视频数据，并将所述原始视频数据拆分成多个视频帧；

确定所述视频帧中所述目标对象的第一关键部位及第二关键部位，所述第一关键部位包括目标关键部位；

对所述第一关键部位及所述第二关键部位进行二维特征提取，以获取所述第一关键部位对应的第一关键二维特征及所述第二关键部位对应的第二关键二维特征；

对所述第一关键部位及所述第二关键部位进行三维特征提取，以获取所述第一关键部位对应的第一骨骼旋转信息、三维位置信息，及所述第二关键部位对应的第二骨骼旋转信息；

根据所述第一关键二维特征调整所述第一骨骼旋转信息、及所述三维位置信息，得到初始骨骼动画；根据所述第一关键二维特征判断对应所述视频帧中所述目标对象对应的所述目标关键部位是否处于预设状态；当对应所述视频帧中所述目标对象对应的所述目标关键部位是处于预设状态时，根据所述第一关键部位对应的三维位置信息确定所述目标对象的所述目标关键部位的基准调整面；根据所述基准调整面调整所述初始骨骼动画，以得到所述第一关键部位对应的第一骨骼动画；

根据所述第二关键二维特征调整所述第二骨骼旋转信息，以获取所述第二关键部位对应的第二骨骼动画；

根据所述第一骨骼动画和所述第二骨骼动画输出所述目标对象的骨骼动画。

2.根据权利要求1所述的动作捕捉方法，其特征在于，所述根据所述第一关键二维特征判断对应所述视频帧中所述目标对象对应的所述目标关键部位是否处于预设状态，包括：

从多个所述视频帧中确定目标视频帧，判断所述目标视频帧中所述目标对象的所述目标关键部位是否处于预设状态，及判断与所述目标视频帧相邻的相邻视频帧中所述目标对象的所述目标关键部位是否处于预设状态；

当所述目标视频帧及与所述目标视频帧相邻的相邻视频帧中所述目标对象的所述目标关键部位均处于预设状态时，判断所述目标视频帧中所述目标对象的所述目标关键部位处于预设状态。

3.根据权利要求2所述的动作捕捉方法，其特征在于，所述根据所述第一关键部位对应的三维位置信息确定所述目标对象的所述目标关键部位的基准调整面，包括：

设置一初始基准面；

根据所述初始基准面、所述目标视频帧中所述目标对象的所述目标关键部位对应的三维位置信息、及所述相邻视频帧中所述目标对象的所述目标关键部位对应的三维位置信息构建所述初始基准面和所述目标关键部位之间的第一误差；

对所述第一误差进行迭代优化直至所述第一误差小于预设误差值，得到目标误差；

根据所述目标误差调整所述初始基准面以得到基准调整面。

4.根据权利要求3所述的动作捕捉方法，其特征在于，所述第一误差由所述目标视频帧中所述目标对象的所述目标关键部位的三维位置信息与所述初始基准面的第一欧氏距离、及所述相邻视频帧中所述目标对象的所述目标关键部位的三维位置信息与所述初始基准面的第二欧氏距离构建。

5.根据权利要求3所述的动作捕捉方法，其特征在于，所述根据所述基准调整面调整所述初始骨骼动画，以得到所述第一关键部位对应的第一骨骼动画，包括：

根据所述目标视频帧中所述目标对象的所述目标关键部位的三维位置信息、及所述相邻视频帧中所述目标对象的所述目标关键部位的三维位置信息计算得到所述目标关键部位的平均三维位置信息；

根据所述基准调整面，对所述平均三维位置信息进行调整，以调整所述初始骨骼动画得到所述第一关键部位对应的第一骨骼动画。

6.根据权利要求1-5任一项所述的动作捕捉方法，其特征在于，所述对所述第一关键部位及所述第二关键部位进行二维特征提取，以获取所述第一关键部位对应的第一关键二维特征及所述第二关键部位对应的第二关键二维特征，包括：

根据第一预设算法对所述第一关键部位进行二维特征提取，以获取所述第一关键部位对应的第一关键二维特征及所述第一关键二维特征的置信度；

根据第二预设算法对所述第二关键部位进行二维特征提取，以获取所述第二关键部位对应的第二关键二维特征；

判断所述第一关键二维特征的所述置信度是否符合预设条件，若所述置信度不符合所述预设条件，则根据所述第二预设算法对所述第一关键部位进行二维特征提取，以获取所述第一关键部位对应的替补二维特征，并利用所述替补二维特征置换所述置信度不符合所述预设条件的所述第一关键二维特征。

7.根据权利要求1-5任一项所述的动作捕捉方法，其特征在于，所述根据所述第一关键二维特征调整所述第一骨骼旋转信息、及所述三维位置信息，得到初始骨骼动画，包括：

对所述视频帧进行摄像机标定，以建立三维空间到二维图像的投影关系；

根据所述投影关系及所述三维位置信息，投影得到所述第一关键部位的第一投影二维关键特征；

根据所述第一投影二维关键特征及所述第一关键二维特征，构建重投影误差；

对所述重投影误差进行迭代优化，调整所述第一骨骼旋转信息以使所述重投影误差符合预设误差条件，得到初始骨骼动画。

8.一种终端设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可被所述处理器执行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的动作捕捉方法。

9.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的动作捕捉方法。