CN117315092B

CN117315092B - 一种自动标注方法及数据处理设备

Info

Publication number: CN117315092B
Application number: CN202311292690.8A
Authority: CN
Inventors: 肖锐; 冯辉; 胡群威
Original assignee: Play Out Dreams Shanghai Technology Co ltd
Current assignee: Play Out Dreams Shanghai Technology Co ltd
Priority date: 2023-10-08
Filing date: 2023-10-08
Publication date: 2024-05-14
Anticipated expiration: 2043-10-08
Also published as: CN117315092A

Abstract

本发明提供了一种自动标注方法，自动标注方法包括数据采集步骤、点云信息获取步骤、形状参数获取步骤以及骨骼位姿获取步骤。自动标注方法能够高效并准确地获取人体手部的各种标注信息。

Description

一种自动标注方法及数据处理设备

技术领域

本发明涉及计算机视觉领域，特别涉及一种自动标注方法。

背景技术

随着虚拟现实(Virtual Reality简称VR)技术的迅速发展，虚拟现实一体机(即VR眼镜)使用计算机视觉算法实现虚拟现实技术。传统的VR设备通过手柄来完成人与机器的交互，但随着深度学习的技术逐步成熟，基于深度学习的裸手交互将是未来的趋势，现有技术中的交互算法很难高效并准确地获取人体手部的各种标注信息。

现有的数据标注方法大部分使用手工标注，使用手工标注方法不仅效率低而且由于人体手部的遮挡问题导致标注错误多。现有的自动标注方法都是使用一个通用人体手部的模板，无法兼顾不同用户手部的个性化的差异，从而导致标注结果不准确。

现有技术中缺乏通用的深度相机结合多目灰度相机进行数据采集和标注的方法。在深度相机结合多目灰度相机进行数据采集和标注的方法中，由于完全硬件同步难度较大，不同传感器的GPIO频率不一致会导致同步帧率大幅下降。

发明内容

本发明提供了一种自动标注方法，以解决现有的交互算法很难高效并准确地获取人体手部的各种标注信息的技术问题。

进一步地，所述自动标注方法包括数据采集步骤、点云信息获取步骤以及形状参数获取步骤。所述数据采集步骤包括灰度图像获取步骤以及深度图像获取步骤；灰度图像获取步骤，通过多个灰度相机获取所述目标物的多目灰度图像；深度图像获取步骤，通过深度相机获取所述目标物的深度图像，并将所述目标物的深度图像与所述目标物的RGB图像进行深度数据对齐，获取所述目标物的RGBD图像。点云信息获取步骤，获取所述目标物的三维点云信息；所述形状参数获取步骤具体包括模型建立步骤、损失计算步骤以及优化步骤。模型建立步骤，将一个参数化模型与所述目标物的三维点云信息配准，使用神经渲染器对所述目标物的三维点云信息和参数化模型进行多个视角的相机投影，使用所述参数化模型中的参数来表达所述目标物的形状、尺寸以及位姿；损失计算步骤，计算所述参数化模型与所述目标物的三维点云信息配准时的误差；优化步骤，利用所述目标物的轮廓图以及深度图监督优化所述参数化模型中的参数。

进一步地，所述自动标注方法在所述损失计算步骤中，损失L的计算公式如下：

其中，L_silh _ouettes表示所述目标物的轮廓图与真值的欧氏距离，

silh ouettes_i为所述参数化模型网络投影后的轮廓图，其中物体的轮廓为1，非物体轮廓为0，为所述目标物的三维点云渲染图；

L_depth表示所述目标物的深度图与真值的欧氏距离，

depth_i为所述参数化模型网络渲染的深度图，为所述目标物的三维点云投影后的深度图；

表示所述参数化模型形状大小的多维参数的正则化，

β为所述参数化模型网络的参数，用多个参数来表示所述参数化模型的形状大小；

表示所述参数化模型位姿的多维参数的正则化；

θ为所述参数化模型网络的参数，用多个参数来表示所述参数化模型的位姿；

w1、w2、w3以及w4为各项损失的权重。

进一步地，所述自动标注方法在所述灰度图像获取步骤中，使用一个飞线发射信号同步激发每一个灰度相机，使得所述多目灰度图彼此时间戳一致。

进一步地，所述自动标注方法在所述形状参数获取步骤后，还包括骨骼位姿获取步骤，以获取所述目标物的骨骼位姿，所述骨骼位姿获取步骤具体包括骨骼点数据获取步骤、初始位姿获取步骤、点云数据获取步骤、配准步骤、配准损失计算步骤以及配准优化步骤。骨骼点数据获取步骤，使用一个骨骼点预测模型获取所述目标物的RGB图像中的骨骼点数据；初始位姿获取步骤，使用所述骨骼点数据做监督，通过反向运动学，计算所述目标物的参数化模型的初始位姿；点云数据获取步骤，根据所述目标物的深度图像还原所述目标物的点云信息，并根据所述参数化模型的初始位姿来描绘出所述目标物的点云数据；

配准步骤，使用所述参数化模型和所述目标物的点云数据进行ICP配准；配准损失计算步骤，计算所述ICP配准中的误差；配准优化步骤，使用最优化算法减小误差。

进一步地，在所述配准损失计算步骤中，损失E的计算公式如下：

其中，

v_i代表所述参数化模型上的顶点i，代表所述目标物的点云上离顶点i最近的点；

函数将所述参数化模型的位姿下的第i个3D骨骼点投影到第j号相机的图像，/>是第j号相机图像上的2D骨骼点的监督信息；

E_temporal＝||θ_t-θ_t-1||²

w1、w2、w3以及w4为各项损失的权重。

进一步地，所述自动标注方法在所述骨骼位姿获取步骤后，还包括数据对齐步骤，所述数据对齐步骤具体包括如下步骤：位姿轨迹获取步骤，使用一个标定板作为灰度相机以及深度相机的对象，旋转所述标定板，以获取所述标定板在所述灰度相机的位姿轨迹poseD_i(i＝1,2,3..N)，以及在所述深度相机的位姿轨迹poseC_j(j＝1,2,3..M)；以及

时间差计算步骤，假设所述灰度相机中的第m个位姿和所述深度相机中的第n个位姿对齐，那么时间差delay的计算公式如下：

delay＝t(poseD_m)-t(poseC_n)

t()为当前位姿的时间戳。

进一步地，所述自动标注方法在所述数据对齐步骤后，还包括投影步骤，对于每一帧，将该帧前后N帧中的多个深度图像的插值结果投影至该帧中的每一目灰度图像中，从而获取标注数据；其中，N能够取多个值，对于每一个N，对应存在一个投影结果，在多个投影结果中选取最优结果，从而确立N的数值。

进一步地，在所述投影步骤中，插值的计算公式如下：

其中，n为最靠近当前灰度图的第n帧深度图，w为插值权重，插值权重w的计算公式如下：

w＝dist_pq/max(dist_pq)

dist_pq为第p帧深度图距离第q帧灰度图的时间戳的差值，max(dist_pq)为最靠近灰度图的N帧深度图的最大差值。

本发明还提供一种数据处理设备，所述数据处理设备包括存储器以及处理器。存储器用以存储可执行程序代码；处理器用以读取所述可执行程序代码，以运行与所述可执行程序代码对应的计算机程序，以执行上述自动标注方法中的至少一步骤。

进一步地，所述数据处理设备包括多目灰度相机，电连接至所述处理器。所述数据处理设备还包括深度相机，电连接至所述处理器。

本发明的优点在于，提供一种自动标注方法，自动标注方法使用了参数化模型获取了人体手部的形状参数，使用多维参数表达人体手部的形状大小以及手部位姿。自动标注方法还将参数化模型与人体手部的点云数据进行ICP配准，以获取人体手部的骨骼位姿。本发明所述自动标注方法使用深度学习优化算法优化参数化模型，能够高效并准确地获取人体手部的各种标注信息。自动标注方法还通过位姿轨迹对齐，计算深度相机图像以及灰度相机图像的时间差，实现深度相机以及灰度相机之间的同步。本发明所述自动标注方法中的投影步骤使用了插值对齐方案，缓解了由于时间延迟以及未做硬件同步带来的标注误差。

附图说明

图1为本发明实施例中自动标注方法的流程图；

图2为本发明实施例中数据采集步骤的流程图；

图3为本发明实施例中数据采集系统的架构图；

图4为本发明实施例中形状参数获取步骤的流程图；

图5为本发明实施例中骨骼位姿获取步骤的流程图；

图6为本发明实施例中数据对齐步骤的流程图。

具体实施例

以下参考说明书附图介绍本发明的优选实施例，用以举例证明本发明可以实施，这些实施例可以向本领域中的技术人员完整介绍本发明的技术内容，使得本发明的技术内容更加清楚和便于理解。然而本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

实施例1

如图1所示，本实施例提供一种自动标注方法，包括步骤S1～步骤S4。

步骤S1：数据采集步骤，利用探测设备采集人体手部的图像。

如图2所示，数据采集步骤具体包括步骤S11～步骤S12。

步骤S11：灰度图像获取步骤，通过多个灰度相机获取人体手部的多目灰度图像。灰度图像使用8bit来存储每一个像素的值，其范围在0～255之间。灰度图像共有256个灰度值。

为了使得多个灰度相机获取的多目灰度图彼此之间时间戳是一致的。本实施例使用一个飞线发射信号同步激发每一个灰度相机，使得多个灰度相机实现硬同步，使得多目灰度图彼此时间戳一致。

配置多个灰度相机的帧率时，需要使得多个灰度相机的帧率相同，且使用固定帧率，方便后续步骤中的对齐操作。

如图3所示，图3为本实施例图像采集步骤的具体流程图，虚线框内为灰度摄像头，采取硬同步的方式，通过飞线发射信号同步激发。

步骤S12：深度图像获取步骤，通过深度相机获取人体手部的深度图像，深度图像中的每一个像素值表示场景中某点与深度相机的距离。并将人体手部的深度图像与人体手部的RGB图像进行深度数据对齐，获取人体手部的RGBD图像。RGBD图像由RGB图像以及深度图像组合而成，包含色彩信息以及深度信息，方便后续步骤中深度信息的标注。

步骤S2：点云信息获取步骤，获取人体手部的三维点云信息。三维点云为表达实时环境图像的空间分布与表面光谱性的点集合。利用特定算法可以将各种物体在虚拟现实设备所处空间内的位置坐标化，每个物体都是三维点云的组合，每个三维点云包括大量的点。在三维点云采集步骤中，实时环境图像中的人体手部信息将被转化为三维点云的形式，使得实时环境图像中的人体手部信息转化为一种计算机可读的信息。

步骤S3：形状参数获取步骤，将人体手部的三维点云信息与一个模型相互匹配，以获取人体手部的形状参数，并使用pytorch来实现。本实施例具体使用参数化的3D手部模型MANO来配准手部点云信息，MANO在2D图片转化为3D手部位姿中间添加了一个过渡表示，从而能够使得神经网络可以直接预测遮挡、低分辨率以及噪声影响下的图像的手部姿态。

如图4所示，形状参数获取步骤具体包括步骤S31～步骤S33。

步骤S31：模型建立步骤，使用参数化模型来配准手部的三维点云信息，使用神经渲染器对人体手部的三维点云信息和参数化模型进行多个视角的相机投影，使用参数化模型中的参数来表达人体手部的形状大小以及位姿。参数化模型网络具体使用10维参数来表达人体手部的形状大小，使用51维参数来表达人体手部的位姿。本实施例中虚拟相机个数为8，投影后图片大小256x256，单位为像素点。

步骤S32：损失计算步骤，计算使用参数化模型来配准手部的三维点云信息时的误差，损失L的计算公式如下：

其中，L_silh _ouettes表示人体手部的轮廓图与真值的欧氏距离，

silh ouettes_i为参数化模型网络投影后的轮廓图，其中物体的轮廓为1，非物体轮廓为0，为人体手部的三维点云渲染图；L_depth表示人体手部的深度图与真值的欧氏距离，

depth_i为参数化模型网络渲染的深度图，为人体手部的三维点云投影后的深度图；/>表示参数化模型形状大小的10维参数的正则化，

β为参数化模型网络的参数，用10个参数来表示参数化模型的形状大小；表示参数化模型位姿的51维参数的正则化；

θ为参数化模型网络的参数，用51个参数来表示参数化模型的位姿；w1、w2、w3以及w4为各项损失的权重，在本实施例中，w1＝10、w2＝1、w3＝100、w4＝100。

步骤S33：优化步骤，利用人体手部的轮廓图以及深度图监督来优化参数化模型中的参数，优化器使用Adam，学习率为1e-3,迭代次数为5000。

步骤S4：骨骼位姿获取步骤，将人体手部的参数化模型进行配准，具体使用了基于ICP算法的点云匹配技术，从而获取每一帧图像中人体手部的骨骼位姿。

如图5所示，骨骼位姿获取步骤具体包括步骤S41～步骤S46。

步骤S41：骨骼点数据获取步骤，使用成熟的2D骨骼点预测模型Mediapipe获取人体手部的RGB图像中的骨骼点数据，Mediapipe使用大量的手部图像数据进行训练，以构建一个手部位姿估计模型。然后加载训练好的模型，并将输入的图像传递给模型。模型会检测图像中的手部区域，并定位手部关键点的位置。一旦检测到手部关键点的位置，则利用计算机视觉技术对这些关键点进行跟踪。然后，根据手部关键点的位置和动作，可以将手势分为不同的类别。

步骤S42：初始位姿获取步骤，使用骨骼点数据做监督，通过反向运动学，计算人体手部的参数化模型的初始位姿。具体是由多个骨骼点数据中的位置信息以及位姿信息，去反推人体手部的初始位姿。获取人体手部的初始位姿时，推导出的初始位姿结果可能与人体真实的初始位姿存在误差，误差公式为：

∏_j(p_i(θ))函数将参数化模型的位姿下的第i个3D骨骼点投影到第j号相机的图像，是第j号相机图像上的2D骨骼点的监督信息。

步骤S43：点云数据获取步骤，根据人体手部的深度图像还原人体手部的点云信息，并根据参数化模型的初始位姿来描绘出人体手部的点云数据。

步骤S44：配准步骤，使用参数化模型和人体手部的点云数据进行ICP配准。ICP配准本质上是基于最小二乘法的最优配准方法。该算法重复进行选择对应关系点对，计算最优刚体变换，直到满足正确配准的收敛精度要求。ICP算法的目的是要找到待配准点云数据与参考云数据之间的旋转参数R和平移参数T，使得两点数据之间满足某种度量准则下的最优匹配。

步骤S45：配准损失计算步骤，计算ICP配准中的误差，损失E的计算公式如下：

其中，

v_i代表参数化模型上的顶点i，代表人体手部的点云上离顶点i最近的点；

函数将参数化模型的位姿下的第i个3D骨骼点投影到第j号相机的图像，/>是第j号相机图像上的2D骨骼点的监督信息；

E_temporal＝||θ_t-θ_t-1||²

θ为参数化模型网络的参数，用多个参数来表示参数化模型的位姿；w1、w2、w3以及w4为各项损失的权重，在本实施例中，w1＝1、w2＝10、w3＝100、w4＝100。

步骤S46：配准优化步骤，使用最优化算法减小误差，在本实施例中，具体使用了Levenberg-Marquardt方法进行优化。该算法关键是用模型函数对待估参数向量在其邻域内做线性近似，忽略掉二阶以上的导数项，从而转化为线性最小二乘问题，它具有收敛速度快等优点。在该算法，存在如果目标函数值增大，则调整某系数再继续求解，且如果目标函数值减小，则调整某系数再继续求解的迭代过程。

本实施例的优点在于，提供一种自动标注方法，自动标注方法使用了参数化模型获取了人体手部的形状参数，使用多维参数表达人体手部的形状大小以及手部位姿。自动标注方法还将参数化模型与人体手部的点云数据进行ICP配准，以获取人体手部的骨骼位姿。自动标注方法使用深度学习优化算法优化参数化模型，能够高效并准确地获取人体手部的各种标注信息。

实施例2

如图1所示，本实施例中的自动标注方法包括权利要求1中的全部方法，在骨骼位姿获取步骤S4之后，还包括步骤S5至步骤S6.

步骤S5：数据对齐步骤，由于多目灰度相机彼此之间通过硬件进行同步，获取的多目灰度图像时间戳是一致的，因此只需要对齐任意一目灰度图像和深度图像即可。灰度图像和深度图像并非同步开启，存在开启时间的差异delay，delay可通过位姿轨迹对齐来获取。

如图6所示，数据对齐步骤具体包括步骤S51～步骤S52。

步骤S51：位姿轨迹获取步骤，使用一个标定板作为灰度相机以及深度相机的对象。在本实施例中，灰度相机具体为深度相机，深度相机具体为灰度相机。本实施例的数据对齐步骤还可以适用于任意探测设备，不局限于相机。接着旋转标定板，以获取标定板在深度相机的位姿轨迹poseD_i(i＝1,2,3..N)，以及在灰度相机的位姿轨迹poseC_j(j＝1,2,3..M)。

步骤S52：时间差计算步骤，假设深度相机中的第m个位姿和灰度相机中的第n个位姿对齐,那么时间差delay的计算公式如下：

delay＝t(poseD_m)-t(poseC_n)

t()为当前位姿的时间戳。

得知时间差delay后，可以使深度相机每一帧图像减去时间差delay，使得任意一目灰度图像和深度图像实现同步。

步骤S6：投影步骤，对于每一帧，将该帧前后N帧中的多个深度图的插值结果投影至该帧中的每一目灰度图中，从而获取标注数据，缓解了由于时间延迟以及未做硬件同步带来的标注误差。其中，N能够取多个值，对于每一个N，对应存在一个投影结果，在多个投影结果中选取最优结果，从而确立N的数值。

在投影步骤中，插值的计算公式如下：

w＝dist_pq/max(dist_pq)

本实施例优点在于，通过位姿轨迹对齐，计算深度相机图像以及灰度相机图像的时间差，实现深度相机以及灰度相机之间的同步。自动标注方法中的投影步骤使用了插值对齐方案，缓解了由于时间延迟以及未做硬件同步带来的标注误差。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种自动标注方法，其特征在于，具体包括如下步骤：

数据采集步骤，所述数据采集步骤包括灰度图像获取步骤以及深度图像获取步骤；

灰度图像获取步骤，通过多个灰度相机获取目标物的多目灰度图像；

深度图像获取步骤，通过深度相机获取所述目标物的深度图像，并将所述目标物的深度图像与所述目标物的RGB图像进行深度数据对齐，获取所述目标物的RGBD图像；

点云信息获取步骤，获取所述目标物的三维点云信息；

形状参数获取步骤，所述形状参数获取步骤具体包括如下步骤：

模型建立步骤，将一个参数化模型与所述目标物的三维点云信息配准，使用神经渲染器对所述目标物的三维点云信息和参数化模型进行多个视角的相机投影，使用所述参数化模型中的参数来表达所述目标物的形状、尺寸以及位姿；

损失计算步骤，计算所述参数化模型与所述目标物的三维点云信息配准时的误差；以及

优化步骤，利用所述目标物的轮廓图以及深度图监督优化所述参数化模型中的参数；

在所述损失计算步骤中，损失L的计算公式如下：

其中，L_{silh ouettes}表示所述目标物的轮廓图与真值的欧氏距离，

L_depth表示所述目标物的深度图与真值的欧氏距离，

表示所述参数化模型形状大小的多维参数的正则化，

表示所述参数化模型位姿的多维参数的正则化；

w1、w2、w3以及w4为各项损失的权重。

2.如权利要求1所述的自动标注方法，其特征在于，在所述灰度图像获取步骤中，使用一个飞线发射信号同步激发每一个灰度相机，使得所述多目灰度图彼此时间戳一致。

3.如权利要求1所述的自动标注方法，其特征在于，所述自动标注方法在所述形状参数获取步骤后，还包括骨骼位姿获取步骤，以获取所述目标物的骨骼位姿，所述骨骼位姿获取步骤具体包括如下步骤：

骨骼点数据获取步骤，使用一个骨骼点预测模型获取所述目标物的RGB图像中的骨骼点数据；

初始位姿获取步骤，使用所述骨骼点数据做监督，通过反向运动学，计算所述目标物的参数化模型的初始位姿；

点云数据获取步骤，根据所述目标物的深度图像还原所述目标物的点云信息，并根据所述参数化模型的初始位姿来描绘出所述目标物的点云数据；

配准步骤，使用所述参数化模型和所述目标物的点云数据进行ICP配准；

配准损失计算步骤，计算所述ICP配准中的误差；以及

配准优化步骤，使用最优化算法减小误差。

4.如权利要求3所述的自动标注方法，其特征在于，在所述配准损失计算步骤中，损失E的计算公式如下：

其中，

函数将所述参数化模型的位姿下的第i个3D骨骼点投影到第j号相机的图像，是第j号相机图像上的2D骨骼点的监督信息；

E_temporal＝||θ_t-θ_t-1||²

w1、w2、w3以及w4为各项损失的权重。

5.如权利要求3所述的自动标注方法，其特征在于，

在所述骨骼位姿获取步骤后，所述自动标注方法还包括

数据对齐步骤，所述数据对齐步骤具体包括如下步骤：

位姿轨迹获取步骤，使用一个标定板作为灰度相机以及深度相机的对象，旋转所述标定板，以获取所述标定板在所述灰度相机的位姿轨迹poseD_i，i=1，2，3..N，以及在所述深度相机的位姿轨迹poseC_j，j＝1，2，3..M；以及

delay＝t(poseD_m)-t(poseC_n)

t()为当前位姿的时间戳。

6.如权利要求5所述的自动标注方法，其特征在于，在所述数据对齐步骤后，所述自动标注方法还包括

投影步骤，对于每一帧，将该帧前后N帧中的多个深度图像的插值结果投影至该帧中的每一目灰度图像中，从而获取标注数据；

其中，N能够取多个值，对于每一个N，对应存在一个投影结果，在多个投影结果中选取最优结果，从而确立N的数值。

7.如权利要求6所述的自动标注方法，其特征在于，在所述投影步骤中，插值的计算公式如下：

w＝dist_pq/max(dist_pq)

8.一种数据处理设备，其特征在于，包括：

存储器，用以存储可执行程序代码；以及

处理器，用以读取所述可执行程序代码，以运行与所述可执行程序代码对应的计算机程序，以执行权利要求1-7中任一项所述的自动标注方法中的步骤。

9.如权利要求8所述的数据处理设备，其特征在于，还包括：

多目灰度相机，电连接至所述处理器；

深度相机，电连接至所述处理器。