CN115359210A

CN115359210A - 一种基于多视角深度相机和深度学习的无需穿戴传感器的高精度360度全身追踪的方法

Info

Publication number: CN115359210A
Application number: CN202210977331.5A
Authority: CN
Inventors: 李昊燃
Original assignee: Nanjing Yuanyuan Yuedong Technology Co ltd
Current assignee: Nanjing Yuanyuan Yuedong Technology Co ltd
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-11-18

Abstract

本发明属于计算机视觉三维视觉领域，VR、AR体感游戏、全身交互、全身追踪领域，具体为一种基于多视角深度相机和深度学习的无需穿戴传感器的高精度360度全身追踪的方法；本发明具有独特的目标检测及判断模块、可选的深度学习的目标检测算法等特征；本发明具有无需穿戴传感器即可实现高精度360度全身追踪的优点。

Description

一种基于多视角深度相机和深度学习的无需穿戴传感器的高精度360度全身追踪的方法

技术领域

本发明属于计算机视觉三维视觉领域，VR、AR体感游戏、全身交互、全身追踪领域，具体为一种基于多视角深度相机和深度学习的无需穿戴传感器的高精度360度全身追踪的方法。

背景技术

随着机器视觉的发展，基于二维机器视觉的姿态识别方案逐渐普及，目前有着大量基于二维相机的开源算法如MediaPipe、BlazePose、MoveNet、PoseNet等可以实现姿态识别，但这样的方法由于相机无法获取深度信息，或只能预测出极不准确的深度信息，其用于全身追踪的精度很低。

除上述方案，在全身追踪领域还有基于惯性传感器实现360度的全身追踪的方案，这种方案可追踪的骨骼点数量等于穿戴的传感器数量，故需要穿戴大量传感器，该技术方案使用流程繁琐，过于专业，不利于在VR、AR体感游戏、全身交互、全身追踪领域的普及；但由于惯性传感器属于间接测量的，故这种技术方案会产生累计漂移，精度很低。

除上述方案，在全身追踪领域还有基于选择扫描光束激光定位系统的空间定位技术，如发明专利CN201610638771.2所示，通过在身上穿戴多个激光扫描光束接收传感器，即时接收到来自两个及其以上的光塔信号，通过接收到的光塔激光的时间差，可以判断出本身在空间中所处的位置，其可以实现高精度360度的全身追踪，但是这种方案可追踪的骨骼点数量等于穿戴的传感器数量，故需要穿戴大量传感器，该技术方案使用流程繁琐，过于专业，不利于在VR、AR体感游戏、全身交互、全身追踪领域的普及。

除上述方案，传统机器视觉领域有着光学动捕使用6个及以上的高刷IR相机+Marker点的技术方案，其可以实现360度的全身追踪，但是该技术方案使用成本高，使用流程繁琐，过于专业，不利于在VR、AR体感游戏、全身交互、全身追踪领域的普及。

除上述方案，还有的基于单深度相机的全身追踪方案，其由于可以测出准确的深度信息，可以做到高精度的全身追踪；但现有的技术方案往往只使用单个深度相机的数据，如Kinect Body Tracking；该技术的缺陷是，单个深度相机只支持正面180度的全身追踪，但是在现实应用场景中，如AR、VR体感游戏领域，用户稍一转身或者肢体放到身后即会丢失捕捉，难以满足实际应用场景的需求，无法实现360度全身追踪。

为此，需要一种能够无需穿戴任何传感器就可以实现高精度360度全身追踪的方法。

发明内容

本发明主要提供了一种无需穿戴任何传感器就可以实现高精度360度全身追踪这一问题，具体为一种基于多视角深度相机和深度学习的无需穿戴传感器的高精度360度全身追踪的方法，为了方便读者更好的理解本发明，以下为本发明详细技术原理。

为了实现上述目的，第一方面，本发明提供了一种无标定物的360度全身追踪的方法，如说明书附图8所示，该方法适用于任意的深度相机；例如双目深度相机、结构光+RGB相机、TOF+RGB相机、纯深度相机等；有无标定物两种方法的单独和符合使用可以根据本领域熟练技术人员的实际需求决定；通过使用多视角深度相机，可以使单个深度相机在某一肢体部位进入盲区时，切换并使用其他相机获取的该肢体部位的骨骼数据，从而达到360度获取骨骼数据的目的，这种方法中，由于无需穿戴标定物，可以更加方便的实现高精度360度全身追踪。

需要说明的是，上述的无标定物的360度全身追踪的方法中，步骤802提取骨骼的步骤中使用的骨骼提取算法需要能获取每个骨骼点的置信度。

第二方面，本发明提供了一种使用标定物的360度全身追踪的方法，该方法适用于的深度相机要求能同时获取到深度图像和IR图像或获取到深度图像和RGB图像任意一种类型的深度相机；例如单TOF相机、双目深度相机、结构光+RGB相机、TOF+RGB相机；标定物可以为带区别于环境色彩的RGB彩色标定物，也可以为区别于环境的高IR反射率的标定物，优选的，还可以为不同形状和数量的上述两种标定物；具体视本领域熟练技术人员的实际需求决定；通过使用多视角深度相机，可以使单个深度相机在某一肢体部位进入盲区时，切换并使用其他相机获取的该肢体部位的骨骼数据，从而达到360度获取骨骼数据的目的；同时通过使用深度学习识别标定物的方法，可以优化骨骼数据切换的时机，使切换的时机更准确，提高骨骼数据切换的准确度，进而进一步提高骨骼数据的精度，达到高精度360度全身追踪的目的。

需要说明的是，上述的使用标定物的360度全身追踪的方法中，包含了判断及检测标定物模块，用于判断标定物属于何部位，以及判断标定物是否分别存在于各深度相机的视角内；该模块包含了三种判断及其检测的方法中，其中说明书附图7中步骤7031、步骤7032的方法中中提到的深度学习的目标检测算法可以是任意目标检测算法如YOLO 系列、RCNN、Fast R-CNN、Faster RCNN等，通过对标定物进行深度学习的目标检测算法进行训练，可以根据形状、有别于环境的色彩或IR反射率来进行训练；可以根据本领域熟练技术人员的实际需求决定。

需要说明的是，上述的第二种方法中，包含了判断及检测标定物模块，用于判断标定物属于何部位，以及判断标定物是否分别存在于各深度相机的视角内；该模块包含了三种判断及其检测的方法中，其中步骤7033的方法使用了另一种根据标定物IR反射率+是否在骨骼中对应位置出现来判断及检测标定物的方法，为了增加判断准确度，其需要将高IR反射标定物最可能出现的位置进行图像截取；图像截取步骤具体操作为：将对应的骨骼点映射到内参矫正后的IR图像中，截取中心为对应骨骼点映射的IR图坐标值，其截取半径由该骨骼点离相机的远近决定，离相机越远半径越小，离相机越近半径越大，这种优化的方法适用于标定物1和标定物2外观和形状没有任何区别的情况下的判定和检测，其可以增加截取的鲁棒性和抗干扰性。

需要说明的是，上述的两种有无标定物的360度全身追踪的方法中，其步骤708、806：骨骼拼接的步骤中需要提前根据外部参数，将多视图深度相机捕获到的骨骼数据，根据外部参数拟合在同一空间坐标系中，以此来作为骨骼拼接的基础。

需要说明的是，上述的两种有无标定物的360度全身追踪的方法中，其多视角深度相机骨骼提取算法可以为任意基于深度图像或基于点云的骨骼提取算法，如著名的KinectBody Tracking SDK等，也可以为基于RGB图像的骨骼提取算法，如Media Pipe、Blaze Pose等。

需要说明的是，上述的两种有无标定物的360度全身追踪的方法，也可以根据关节点置信度和判断及检测模块返回的结果联合使用，进一步提高该方法的鲁棒性和抗干扰性。

附图说明

如图，图1是深度相机1拍摄的RGB图像数据，其中绑的标定物1为带有特殊色彩的手环，在RGB图像中可以有明显别于环境。

如图，图2是深度相机1拍摄的IR图像数据，其中绑的标定物1为高IR反射率手环，在IR图像中有可以有明显别于环境。

如图，图3是深度相机1提取的骨骼数据。

如图，图4是深度相机2拍摄的RGB图像数据，其中绑的标定物2为带有特殊色彩的手环，在RGB图像中可以有明显别于环境，且形状有别于标定物1。

如图，图5是深度相机2拍摄的IR图像数据，其中绑的标定物2为有高IR反射率手环，在IR图像中有可以有明显别于环境，且形状有别于标定物1。

如图，图6是深度相机2提取的骨骼数据。

如图，图7是本发明的一种实施例流程图，具体为一种添加了标定物的360度全身追踪的方法，该方法的判断及检测标定物模块中，有三种判断及检测标定物的方法。

如图，图8是本发明的一种实施例的流程图，具体为一种无标定物的深度相机360度全身追踪的方法。

如图，图9是对7033方法中判断及检测标定物模块的图示解释，其截取中心为对应骨骼点映射的IR图，其截取半径由该骨骼点离相机的远近决定，离相机越远半径越小。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

图8是本发明的一个实施例，该实施例演示了一种使用2台深度相机和未使用标定物的360度全身追踪的情况，通过使用多视角深度相机，可以使单个深度相机在某一肢体部位进入盲区时，切换并使用其他相机获取的该肢体部位的骨骼数据，从而达到360度获取骨骼数据的目的，这种方法中，由于无需穿戴标定物，可以更加方便的实现高精度360度全身追踪，为了方便读者更好的理解本发明，以下给出详细步骤。

步骤801，数据采集，使用两台深度相机各自取得一帧的深度图像或RGB图像。

步骤802，骨骼提取，根据步骤801，深度相机1深度相机2分别采集到的数据，分别提取骨骼1，骨骼2。

步骤803，根据骨骼数据中各关节的置信度δ判断使用骨骼1或骨骼2的数据。

步骤804，当关节点δ1>δ2的时候，该关节点使用骨骼1数据。

步骤805，当关节点δ2>δ1的时候，该关节点使用骨骼2数据，当某一帧δ1=δ2的时候，该帧不切换骨骼数据，如当前帧是第一帧，取骨骼1的数据。

步骤806，根据外部参数，和步骤804、步骤805返回的数据的值，将骨骼1、骨骼2进行拼接。

步骤807，输出拼接后的一帧的骨骼数据。

图7是本发明的另一个实施例，该实施例演示了一种使用2台深度相机和使用标定物的360度全身追踪的情况，通过使用多视角深度相机，可以使单个深度相机在某一肢体部位进入盲区时，切换并使用其他相机获取的该肢体部位的骨骼数据，从而达到360度获取骨骼数据的目的；同时通过使用深度学习识别标定物的方法，可以优化骨骼数据切换的时机，使切换的时机更准确，提高骨骼数据切换的准确度，进而提高骨骼数据的精度，达到高精度360度全身追踪的目的，为了方便读者更好的理解本发明，以下给出详细步骤。

步骤701，数据采集，使用2台深度相机各自采集，取得一帧的深度图像和IR图像或者深度图像和RGB图像。其中使用的深度相机可以额外采集IR图像还是采集RGB图像决定了步骤703中所使用的方法。

步骤702，骨骼提取，根据2台深度相机获得的深度信息提取2副骨骼数据，分别为骨骼1、骨骼2。

步骤703，判断及检测模块，用于判断标定物属于何部位，以及判断两台深度相机视野范围内是否出现了该标定物。其中根据步骤701中深度相机采集到的数据类型，和本领域熟练技术人员的使用需求，有方法7031、7032、7033三种方法可供使用，以下是详细操解释：

步骤7031：根据标定物色彩和形状任意一种特征，使用预先训练后的目标检测算法进行识别，如通过左右手绑不同颜色的丝带，或贴同种颜色但是不同形状的贴纸，或两种特征复合使用；使用Yolo V5目标检测算法预先训练标定物，用以判断及检测标定物，如该判断及检测标定物步骤返回了该相机视野范围内出现了该标定物，则进行骨骼数据的切换，可以使用该相机获取到的对应该标定物的骨骼数据作为最终拼接；

步骤7032：根据标定物IR反射率和形状特征，使用预先训练后的目标检测算法进行特征识别，如左右手分别贴不同形状的高IR反射率贴纸；使用Yolo V5目标检测算法预先训练标定物，用以判断及检测标定物，如该判断及检测标定物步骤返回了该相机视野范围内出现了该标定物，则进行骨骼数据的切换，可以使用该相机获取到的对应该标定物的骨骼数据作为最终拼接；

步骤7033：根据标定物IR反射率和是否在对应位置出现，其需要将高IR反射标定物最可能出现的位置进行图像截取，将702中获取的骨骼数据中对应的骨骼点映射到内参矫正后的IR图像中，截取中心为对应骨骼点映射的IR图坐标值，其截取半径由该骨骼点离相机的远近决定，离相机越远半径越小，离相机越近半径越大。如截取半径内出现明显区别于环境的高IR反射率点，则判断及检测标定物步骤返回该相机视野范围内出现了该标定物，则进行骨骼数据的切换，可以使用该相机获取到的对应该标定物的骨骼数据作为最终拼接。

步骤704，对照各相机返回的数据判断检测结果，下接步骤705、706、707。

步骤705，判断及检测标定物模块返回的判断结果的其中一种情况，如果该标定物同时出现在相机1和相机2，则使用相机1生成的骨骼1的标定物对应的骨骼部位数据作为最终拼接数据。

步骤706，骨骼各部位对应的标定物判断结果的其中一种情况，如果该标定物仅出现在相机1，则使用相机1生成的骨骼1的标定物对应的骨骼部位数据作为最终拼接数据。

步骤707，骨骼各部位对应的标定物判断结果的其中一种情况，如果该标定物仅出现在相机2，则使用相机2生成的骨骼2的标定物对应的骨骼部位数据作为最终拼接数据。

步骤708，骨骼拼接，根据外参数据，将骨骼数据进行拼接。

步骤709，输出拼接后的一帧骨骼数据。

上面结合附图及其实时例描述了本发明的几种实施方式，只是为了使本发明的目的、优点更加清楚明白，实施例的给出仅用于解释本发明，并不构成对本发明的限制，例如本发明提供的两种实施例中只使用了2台深度相机，但本发明的方法可以支持理论无上限数量的深度相机，本领域的熟练技术人员可根据需要做出调整，在所属权利要求的范围内做出的各种变形或修改均在保护范围内。

需要说明的是，在本发明中涉及“第一”、“第二”、步骤的名称如：“根据标定物色彩+形状”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括少一个该特征。另外，各个实施例之间的技术本实施例可以相互结合，但是必须是以本领域熟练技术人员能够实现为基础，当技术本实施例的结合出现相互矛盾或无法实现时应当认为这种技术本实施例的结合不存在，也不在本发明要求的保护范围之内。

Claims

1.一种基于多视角深度相机和深度学习的无需穿戴传感器的高精度360度全身追踪的方法，其特征在于，包括：使用至少两台及以上的深度相机，且组合角度覆盖360度，使用骨骼提取算法根据为每套深度相机获取到的图像数据单独提取出一套骨骼数据，根据外参将所有骨骼数据拟合在同一坐标系中，然后根据判断及检测标定物模块判断返回的结果，进行多副骨骼数据对应关节点的切换。

2.根据权利要求1所述的骨骼提取算法，其特征在于，可以为基于RGB图像、基于深度图像、或基于点云的骨骼提取算法中的任意一种或几种的组合。

3.根据权利要求1所述的深度相机，其特征在于，所述的深度相机为双目深度相机、TOF深度相机、结构光深度相机、基于深度学习的单目相机中任意一种或几种的组合。

4.根据权利要求1所述的标定物，其特征在于，放置在对应骨骼数据关节点的标定物，标定物需至少需要具有高IR反射率或鲜艳RGB色彩或不同的形状中一种或几种特征的组合。

5.根据权利要求1所述的方法，其特征在于，可以不存在判断及检测标定物的模块，但需要提取的骨骼数据需要有置信度，并可以根据骨骼数据各关节的置信度来做骨骼数据切换。

6.根据权利要求1所述的判断及检测模块，其特征在于，包括：根据标定物色彩和形状中至少一种特征，使用预先训练后的基于深度学习的目标检测算法进行识别来返回判断及检测结果。

7.根据权利要求1所述的判断及检测模块，其特征在于，包括：根据标定物IR反射率和形状中至少一种特征，使用预先训练后的基于深度学习的目标检测算法进行特征识别来返回判断及检测结果。

8.根据权利要求1所述的判断及检测模块，其特征在于，包括：根据标定物IR反射率和是否在对应位置出现，其需要将高IR反射标定物最可能出现的位置进行图像截取，将为每套深度相机获取到的图像数据单独提取出一套骨骼数据中对应的骨骼点映射到内参矫正后的IR图像中，截取中心为对应骨骼点映射的IR图坐标值，其截取半径由该骨骼点离相机的远近决定，离相机越远半径越小，离相机越近半径越大，根据截取半径内是否出现明显区别于环境的高IR反射率点来返回判断及检测结果。

9.根据权利要求6-7所述的目标检测算法，其可以替换为任意基于深度学习的目标检测算法。