CN111583134B

CN111583134B - 带标注的手与物体复杂交互真实彩色数据生成方法及装置

Info

Publication number: CN111583134B
Application number: CN202010313003.6A
Authority: CN
Inventors: 徐枫; 张�浩; 杨东
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2022-08-12
Anticipated expiration: 2040-04-20
Also published as: CN111583134A

Abstract

本发明公开了一种带标注的手与物体复杂交互真实彩色数据生成方法及装置，该方法包括：通过使用两台相对放置的RGBD相机采集人手与物体交互过程，获得两组彩色‑深度数据对序列，使用深度数据对交互过程进行重建，获得人手姿态、物体几何和物体姿态，并将其转换到彩色相机坐标系下，建立单目RGB和人手姿态、物体几何和物体姿态的数据集。该方法在深度序列上分割人手与物体交互部分并重建人手姿态、物体几何和姿态，不会破坏彩色数据。

Description

带标注的手与物体复杂交互真实彩色数据生成方法及装置

技术领域

本发明涉及神经网络技术领域，特别涉及一种带标注的手与物体复杂交互真实彩色数据生成方法及装置。

背景技术

人使用手与物体进行交互是日常生活中非常常见的场景，手与物体交互过程包含了丰富的信息。对人手与物体的交互过程进行重建是计算机视觉的重要研究领域，对于AR/VR，HCI以及智能机器人等产业都具有非常重要的应用价值。在计算机视觉领域和与视觉相关的产业中，彩色相机是应用最为广泛的视觉传感器。随着人工智能的发展，使用神经网络处理单目彩色图片序列对人手与物体交互过程进行重建是目前研究的热点问题也是最有应用前景的方案。为了训练能够通过处理单目彩色图像序列重建手与物体交互过程的神经网络，如何获得训练数据成为了最重要的问题。然而，目前少有成熟的，且不破坏视觉信息的真实彩色数据生成方案。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种带标注的手与物体复杂交互真实彩色数据生成方法，该方法在深度序列上分割人手与物体交互部分并重建人手姿态、物体几何和姿态，算法中不需要对彩色数据的特殊要求，不会破坏彩色数据。

本发明的另一个目的在于提出一种带标注的手与物体复杂交互真实彩色数据生成装置。

为达到上述目的，本发明一方面实施例提出了一种带标注的手与物体复杂交互真实彩色数据生成方法，包括：

S1，通过两台相对放置的RGBD相机采集人手与物体交互场景的彩色图片序列和深度图片序列；

S2，通过截取网络对所述深度图片序列进行截取，将截取的人手与物体交互部分的数据送入双视角人手与物体交互重建系统中进行重建，得到完整的物体几何以及逐帧的人手姿态和物体姿态；

S3，在所述彩色图片序列和所述深度图片序列中，利用深度阈值截取前景深度数据，将所述前景深度数据投影到彩色图像中作为模板得到前景的彩色图像，将所述逐帧的人手姿态和物体姿态变换到彩色相机坐标系下，得到所述彩色图片序列对应的人手姿态和物体姿态；

S4，将所述前景的彩色图像、所述彩色图片序列对应的人手姿态和物体姿态以及物体几何作为带标注的人手与物体交互过程前景数据集。

本发明实施例的带标注的手与物体复杂交互真实彩色数据生成方法，通过使用两台相对放置的RGBD相机采集人手与物体交互过程，获得两组彩色(RGB)-深度(D)数据对序列，使用深度数据对交互过程进行重建，获得人手姿态、物体几何和物体姿态，并将其转换到彩色相机坐标系下，建立单目RGB和人手姿态、物体几何和物体姿态的数据集。为了对数据进行增强，可采集不同场景的彩色-深度数据作为背景，然后将人体与物体部分作为前景根据深度融合到不同的背景中，即可得到增强的数据集。由此，在深度序列上分割人手与物体交互部分并重建人手姿态、物体几何和姿态，算法中不需要对彩色数据的特殊要求，不会破坏彩色数据。

另外，根据本发明上述实施例的带标注的手与物体复杂交互真实彩色数据生成方法还可以具有以下附加的技术特征：

在本发明的一个实施例中，在所述S1之前还包括：

S0，在人手上佩戴特殊颜色的护腕，通过RGBD相机采集人手与物体交互的彩色-深度图片序列，通过护腕对人手和物体交互部分的深度图片序列进行截取，构建深度图片序列上的截取训练数据集进行训练得到截取网络。

在本发明的一个实施例中，所述S0具体包括：

S01，使人手佩戴特殊颜色的护腕与物体在RGBD相机前进行交互；

S02，使用单台RGBD相机采集交互的彩色图片序列和深度图片序列；

S03，利用特殊颜色的护腕的彩色信息截取人手和物体的数据，获得截取框；

S04，构建深度图片序列与人手和物体有效信息截取框的数据集；

S05，训练输入为交互的深度信息，输出为人手与物体信息截取框的截取网络。

在本发明的一个实施例中，所述将截取的人手与物体交互部分的数据送入双视角人手与物体交互重建系统中进行重建，包括：

通过两轮求解策略进行重建，在第一轮求解中，初始状态下没有物体几何，物体模型融合模块开启，通过第一轮求解获得逐帧的人手姿态、物体姿态和所述完整的物体几何；

在第二轮求解中，将第一轮获得的所述完整物体几何作为物体的已知模型，关闭所述物体模型融合模块，以第一轮得到的逐帧的人手姿态和物体姿态作为初始值，求解交互的逐帧人手姿态和物体姿态。

在本发明的一个实施例中，在所述S4之后还包括：

S5，利用RGBD相机采集不同场景的彩色图片序列和深度图片序列作为背景，将所述前景的彩色图像与所述不同场景的背景进行深度检测融合，得到具有不同背景的带标注的人手与物体交互过程的增强数据集。

在本发明的一个实施例中，所述S5具体包括：

S51，将背景深度数据中像素值为0的像素赋值为预设值；

S52，逐像素比较前景深度图和背景深度图，记录前景深度大于背景深度的像素数；

S53，计算前景深度大于背景深度的像素数与有效前景像素数的比值；

S54，在比值小于深度阈值时，将前景的有效彩色数据覆盖到背景彩色数据上，生成增强数据集。

在本发明的一个实施例中，在所述S1中，将两台RGBD相机采集的彩色图片序列和深度图片序列进行时间对齐和空间位置标定

为达到上述目的，本发明另一方面实施例提出了一种带标注的手与物体复杂交互真实彩色数据生成装置，包括：

采集模块，用于通过两台相对放置的RGBD相机采集人手与物体交互场景的彩色图片序列和深度图片序列；

重建模块，用于通过截取网络对所述深度图片序列进行截取，将截取的人手与物体交互部分的数据送入双视角人手与物体交互重建系统中进行重建，得到完整的物体几何以及逐帧的人手姿态和物体姿态；

变换模块，用于在所述彩色图片序列和所述深度图片序列中，利用深度阈值截取前景深度数据，将所述前景深度数据投影到彩色图像中作为模板得到前景的彩色图像，将所述逐帧的人手姿态和物体姿态变换到彩色相机坐标系下，得到所述彩色图片序列对应的人手姿态和物体姿态；

生成模块，用于将所述前景的彩色图像、所述彩色图片序列对应的人手姿态和物体姿态以及物体几何作为带标注的人手与物体交互过程前景数据集。

本发明实施例的带标注的手与物体复杂交互真实彩色数据生成装置，通过使用两台相对放置的RGBD相机采集人手与物体交互过程，获得两组彩色(RGB)-深度(D)数据对序列，使用深度数据对交互过程进行重建，获得人手姿态、物体几何和物体姿态，并将其转换到彩色相机坐标系下，建立单目RGB和人手姿态、物体几何和物体姿态的数据集。为了对数据进行增强，可采集不同场景的彩色-深度数据作为背景，然后将人体与物体部分作为前景根据深度融合到不同的背景中，即可得到增强的数据集。由此，在深度序列上分割人手与物体交互部分并重建人手姿态、物体几何和姿态，算法中不需要对彩色数据的特殊要求，不会破坏彩色数据。

另外，根据本发明上述实施例的带标注的手与物体复杂交互真实彩色数据生成装置还可以具有以下附加的技术特征：

在本发明的一个实施例中，还包括：训练模块，用于在人手上佩戴特殊颜色的护腕，通过RGBD相机采集人手与物体交互的彩色-深度图片序列，通过护腕对人手和物体交互部分的深度图片序列进行截取，构建深度图片序列上的截取训练数据集进行训练得到截取网络。

在本发明的一个实施例中，还包括：增强模块，用于利用RGBD相机采集不同场景的彩色图片序列和深度图片序列作为背景，将所述前景的彩色图像与所述不同场景的背景进行深度检测融合，得到具有不同背景的带标注的人手与物体交互过程的增强数据集。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的带标注的手与物体复杂交互真实彩色数据生成方法流程图；

图2为根据本发明一个实施例的截取网络训练流程图；

图3为根据本发明一个实施例的前景彩色图与背景彩色图的深度检测融合流程图；

图4为根据本发明一个实施例的带标注的手与物体复杂交互真实彩色数据生成装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的带标注的手与物体复杂交互真实彩色数据生成方法及装置。

首先将参照附图描述根据本发明实施例提出的带标注的手与物体复杂交互真实彩色数据生成方法。

图1为根据本发明一个实施例的带标注的手与物体复杂交互真实彩色数据生成方法流程图。

如图1所示，该带标注的手与物体复杂交互真实彩色数据生成方法包括以下步骤：

步骤S1，通过两台相对放置的RGBD相机采集人手与物体交互场景的彩色图片序列和深度图片序列。

RGBD相机可以为Realsense SR300相机，以Realsense SR300相机采集的RGBD图像为例来进行阐述。

具体地，利用两台相对放置的Realsense SR300相机采集手与物体交互场景的RGBD图片序列，在此类序列中，手腕上不带护腕。来源于两台相机的RGB图片序列和深度图片序列需要进行时间对齐和空间位置标定。

具体地，在步骤S1之前，包括训练截取网络。步骤S0，在人手上佩戴特殊颜色的护腕，通过RGBD相机采集人手与物体交互的彩色-深度图片序列，通过护腕对人手和物体交互部分的深度图片序列进行截取，构建深度图片序列上的截取训练数据集进行训练得到截取网络。

可以理解的是，使用一台Realsense SR300相机采集手与物体交互的RGBD序列，该类序列中，手腕上须带上特殊颜色的护腕，可通过特殊颜色的护腕对人手和物体交互部分的数据进行截取，构建深度数据上的截取训练数据集训练截取网络，其流程如图2所示。

如图2所示，S0进一步包括：

可以理解的是，利用深度神经网络的方法，训练能截取人手物体交互数据部分的截取网络。人手物体交互数据部分是指手腕、手掌、手指的数据以及物体的数据部分，不包含手的前臂、后臂。通过神经网络的方法在深度数据上截取人手和物体交互数据，一方面可以排除不需要的数据造成的干扰，另一方面，避免因为根据颜色的数据截取方法对彩色数据有特殊要求从而对彩色数据造成破坏。

步骤S2，通过截取网络对深度图片序列进行截取，将截取的人手与物体交互部分的数据送入双视角人手与物体交互重建系统中进行重建，得到完整的物体几何以及逐帧的人手姿态和物体姿态。

通过步骤S0训练好的截取网络应用于步骤S1采集的深度图片序列，截取人手与物体交互部分的数据后送入到双视角人手与物体交互重建系统中进行重建。重建使用两轮(two-round)求解策略。在第一轮求解中，初始状态下没有物体几何，故物体模型融合模块开启。随着求解的进行，可获得逐帧的人手姿态、物体姿态和逐渐完整的物体几何，记录逐帧的人手姿态、物体姿态作为第二轮求解的初始值。在第二轮求解中，将第一轮获得的完整物体几何作为物体的已知模型，关闭物体模型融合模块，以第一轮获得的逐帧人手姿态和物体姿态作为初始值，求解更准确的交互的逐帧人手姿态和物体姿态。

可以理解的是，通过使用双视角深度图像序列鲁棒地获得人手姿态、物体几何以及物体姿态的序列。利用双视角深度图像序列可在保证使用尽可能少的深度相机获得尽可能完整的数据，从而克服由于手与物体相互遮挡导致的数据缺失。需要说明的是，之前已经有使用双视角深度图像序列对手与物体交互过程进行重建的方法，本发明与之不同之处在于，本发明为了保证能够获得每帧的物体完整几何和更准确的人手和物体姿态，采用两轮(two-round)求解策略。

步骤S3，在彩色图片序列和深度图片序列中，利用深度阈值截取前景深度数据，将前景深度数据投影到彩色图像中作为模板得到前景的彩色图像，将逐帧的人手姿态和物体姿态变换到彩色相机坐标系下，得到彩色图片序列对应的人手姿态和物体姿态。

S4，将前景的彩色图像、彩色图片序列对应的人手姿态和物体姿态以及物体几何作为带标注的人手与物体交互过程前景数据集。

具体地，对步骤S1中采集的双相机RGBD序列进行处理，使用深度阈值截取前景深度数据。其中，前景为人和交互的物体的数据。将深度数据投影到彩色图像中作为模板可以获得前景的彩色图像。将求解得到的人手和物体姿态通过变换到彩色相机坐标系下，即可得到RGB图片序列对应的人手和物体姿态。前景彩色图像和人手姿态、物体姿态和物体几何就构成了带标注的手与物体交互过程前景数据集。

进一步地，在步骤S4之后还包括：

步骤S5，利用RGBD相机采集不同场景的彩色图片序列和深度图片序列作为背景，将前景的彩色图像与不同场景的背景进行深度检测融合，得到具有不同背景的带标注的人手与物体交互过程的增强数据集。

具体地，使用SR300相机采集不同场景的RGBD序列作为背景。将标注的手与物体交互过程前景数据与不同场景的背景进行深度检测融合，得到具有不同背景的带标注的手与物体交互过程增强数据集，其流程如图3。

如图3所示，步骤S5具体包括：

S51，将背景深度数据中像素值为0的像素赋值为预设值，该预设值为一个较大值；

可以理解的是，使用人体与物体部分作为前景，使用采集的多种场景的序列作为背景，通过前景与背景的深度融合获得增强的带标注信息的真实彩色数据。在深度数据上使用阈值获得前景的深度数据，将深度数据投影到彩色图中，获得彩色前景信息，该彩色前景信息有对应的人手姿态、物体几何和姿态的标注信息。将彩色前景通过深度融合到采集的背景彩色图片上，即可得到增强的带标定数据的彩色数据集。

根据本发明实施例提出的带标注的手与物体复杂交互真实彩色数据生成方法，通过使用两台相对放置的RGBD相机采集人手与物体交互过程，获得两组彩色(RGB)-深度(D)数据对序列，使用深度数据对交互过程进行重建，获得人手姿态、物体几何和物体姿态，并将其转换到彩色相机坐标系下，建立单目RGB和人手姿态、物体几何和物体姿态的数据集。为了对数据进行增强，可采集不同场景的彩色-深度数据作为背景，然后将人体与物体部分作为前景根据深度融合到不同的背景中，即可得到增强的数据集。由此，在深度序列上分割人手与物体交互部分并重建人手姿态、物体几何和姿态，算法中不需要对彩色数据的特殊要求，不会破坏彩色数据。

其次参照附图描述根据本发明实施例提出的带标注的手与物体复杂交互真实彩色数据生成装置。

如图4所示，该带标注的手与物体复杂交互真实彩色数据生成装置包括：采集模块100、重建模块200、变换模块300和生成模块400。

其中，采集模块100，用于通过两台相对放置的RGBD相机采集人手与物体交互场景的彩色图片序列和深度图片序列。

重建模块200，用于通过截取网络对深度图片序列进行截取，将截取的人手与物体交互部分的数据送入双视角人手与物体交互重建系统中进行重建，得到完整的物体几何以及逐帧的人手姿态和物体姿态。

变换模块300，用于在彩色图片序列和深度图片序列中，利用深度阈值截取前景深度数据，将前景深度数据投影到彩色图像中作为模板得到前景的彩色图像，将逐帧的人手姿态和物体姿态变换到彩色相机坐标系下，得到彩色图片序列对应的人手姿态和物体姿态。

生成模块400，用于将前景的彩色图像、彩色图片序列对应的人手姿态和物体姿态以及物体几何作为带标注的人手与物体交互过程前景数据集。

该装置使用双目RGBD相机采集真实交互场景彩色-深度序列，获取人手姿态，物体几何以及物体姿态，并生成包含标注信息的单目彩色数据的人手与物体交互过程训练数据。

进一步地，在本发明的一个实施例中，还包括：训练模块500，用于在人手上佩戴特殊颜色的护腕，通过RGBD相机采集人手与物体交互的彩色-深度图片序列，通过护腕对人手和物体交互部分的深度图片序列进行截取，构建深度图片序列上的截取训练数据集进行训练得到截取网络。

进一步地，在本发明的一个实施例中，还包括：增强模块600，用于利用RGBD相机采集不同场景的彩色图片序列和深度图片序列作为背景，将前景的彩色图像与不同场景的背景进行深度检测融合，得到具有不同背景的带标注的人手与物体交互过程的增强数据集。

需要说明的是，前述对带标注的手与物体复杂交互真实彩色数据生成方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的带标注的手与物体复杂交互真实彩色数据生成装置，通过使用两台相对放置的RGBD相机采集人手与物体交互过程，获得两组彩色(RGB)-深度(D)数据对序列，使用深度数据对交互过程进行重建，获得人手姿态、物体几何和物体姿态，并将其转换到彩色相机坐标系下，建立单目RGB和人手姿态、物体几何和物体姿态的数据集。为了对数据进行增强，可采集不同场景的彩色-深度数据作为背景，然后将人体与物体部分作为前景根据深度融合到不同的背景中，即可得到增强的数据集。由此，在深度序列上分割人手与物体交互部分并重建人手姿态、物体几何和姿态，算法中不需要对彩色数据的特殊要求，不会破坏彩色数据。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种带标注的手与物体复杂交互真实彩色数据生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的带标注的手与物体复杂交互真实彩色数据生成方法，其特征在于，在所述S1之前还包括：

3.根据权利要求2所述的带标注的手与物体复杂交互真实彩色数据生成方法，其特征在于，所述S0具体包括：

4.根据权利要求1所述的带标注的手与物体复杂交互真实彩色数据生成方法，其特征在于，所述将截取的人手与物体交互部分的数据送入双视角人手与物体交互重建系统中进行重建，包括：

5.根据权利要求1所述的带标注的手与物体复杂交互真实彩色数据生成方法，其特征在于，在所述S4之后还包括：

6.根据权利要求5所述的带标注的手与物体复杂交互真实彩色数据生成方法，其特征在于，所述S5具体包括：

S51，将背景深度数据中像素值为0的像素赋值为预设值；

7.根据权利要求1所述的带标注的手与物体复杂交互真实彩色数据生成方法，其特征在于，在所述S1中，将两台RGBD相机采集的彩色图片序列和深度图片序列进行时间对齐和空间位置标定。

8.一种带标注的手与物体复杂交互真实彩色数据生成装置，其特征在于，包括：

9.根据权利要求8所述的带标注的手与物体复杂交互真实彩色数据生成装置，其特征在于，还包括：

训练模块，用于在人手上佩戴特殊颜色的护腕，通过RGBD相机采集人手与物体交互的彩色-深度图片序列，通过护腕对人手和物体交互部分的深度图片序列进行截取，构建深度图片序列上的截取训练数据集进行训练得到截取网络。

10.根据权利要求8所述的带标注的手与物体复杂交互真实彩色数据生成装置，其特征在于，还包括：

增强模块，用于利用RGBD相机采集不同场景的彩色图片序列和深度图片序列作为背景，将所述前景的彩色图像与所述不同场景的背景进行深度检测融合，得到具有不同背景的带标注的人手与物体交互过程的增强数据集。