CN113450408B

CN113450408B - 一种基于深度相机的非规则物体位姿估计方法及装置

Info

Publication number: CN113450408B
Application number: CN202110697067.5A
Authority: CN
Inventors: 廖洪波; 孙野; 李田林; 梁小冬; 李华康
Original assignee: 63653 Troops of PLA
Current assignee: 63653 Troops of PLA
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2022-10-25
Anticipated expiration: 2041-06-23
Also published as: CN113450408A

Abstract

本发明公开了一种基于深度相机的非规则物体位姿估计方法和装置，包括：1)获取场景的二维RGB图像和对应的深度图；2)基于获取到的二维RGB图像，识别后得到第一目标点云模型；3)构建全局点云，并提取到第二目标点云模型；4)将第一目标点云模型和第二目标点云模型进行质量评估和加权融合，得到融合点云模型；5)将融合点云模型从相机坐标系转换到视锥坐标系下；6)对融合点云模型进行语义分割，并转换到掩模坐标系下，形成3D点云模型；7)对3D点云模型中的目标进行3D位姿的预测。采用本发明的技术方案能够在三维空间中准确地估计出目标的位姿，进而获取高质量抓取部位，保证抓取的精确度。

Description

一种基于深度相机的非规则物体位姿估计方法及装置

技术领域

本发明涉及一种图像处理技术，尤其涉及一种基于深度相机的非规则物体位姿估计方法及装置。

背景技术

机器人技术是具有前瞻性、战略性的高技术领域。其技术的发展水平成为衡量一个国家高科技水平和工业自动化程度的重要标志。机器人飞速发展的今天，工业机器人在各行各业的应用也越来越广泛，其中在危险作业领域，机器人技术有着重要的实际意义。机器人的视觉系统作为机器人系统的重要组成部分，首先需要识别目标对象及位置，然后才能完成路径规划和控制等过程。因此，机器人对目标对象识别的准确性以及定位的准确性，能够优化机器人抓取路径并改善抓取任务系统的整体性能。同时机器人能够实时处理视觉信息，机器人系统的工作效率将会被极大提高，人机交互能力也将会增强。

过去主要的工作是使用三维建模复原来找到好的抓取点，虽然这些基于三维模型的方法在受控情况下表现良好，但它们依赖于构建复杂且准确的三维模型。随着卷积神经网络算法在计算机视觉领域的快速发展，2D目标检测算法也随之快速发展，已经成功应用于字符识别和物体表面检测等领域。对应的机器人抓取方法采用RGB图像生成目标矩形区域，但是这种方法缺少了三维空间下的目标抓取部位位置，导致抓取精度较低。在这十年之间，低成本深度摄像机的引入以及计算框架的出现，改进了抓取识别的新方法。我们可以利用深度相机，利用算法重建出高质量的物体点云模型，估计出物体的位姿，得到精确的3D空间位置信息，提高目标抓取的准确度。

现有的实现方案主要包括以下三种：1)双目视觉定位：使用两个相机在不同位置采集图像，对采集的图像进行模板匹配，再根据视差和三角测距原理计算出目标物体的位置；2)标记物识别：在目标物体上贴提前准备好的标记物(如二维码)，通过摄像头识别标记物信息，进行定位得到目标位置信息；3)深度学习识别定位：通过深度学习框架和数据集训练神经网络模型，再用训练好的模型识别图像中的目标物体位置。

现有技术缺点：基于模板匹配的方法计算量大，且不适用于复杂的实际场景；利用标记物识别的方法无法适用于实际应用场景，不可能在每个待抓取物体上贴好标记物；单一的深度学习识别定位方法仅能确定目标的大致位置，无法获得三维空间下物体抓取部位的表征。

发明内容

本发明意在提供一种基于深度相机的非规则物体位姿估计方法及装置，能够在三维空间中准确地估计出目标的位姿，进而获取高质量抓取部位，保证抓取的精确度。

为达到上述目的，本发明提供如下技术方案：

一种基于深度相机的非规则物体位姿估计方法，包括：

S1：利用深度相机采集户外三维场景，获取场景的二维RGB图像和对应的深度图；

S2：基于获取到的二维RGB图像，利用深层的特征提取网络提取图像信息，识别出图像中的目标候选区域，得到对应检测框；将检测框映射到深度图中并选取其中的深度信息，将识别后的深度图转换成三维点云，得到第一目标点云模型，对检测结果评估后得到置信度α；

S3：基于深度信息构建全局点云，将全局点云转化成高纬度的特征图并传入检测模块，检测和回归3D边框并获得相对应置信度β，用3D边框在全局点云中提取第二目标点云模型；

S4：将第一目标点云模型和第二目标点云模型进行质量评估和加权融合，得到融合点云模型；

S5：视锥提取，将融合点云模型从相机坐标系转换到视锥坐标系下；

S6：3D实例分割，利用3D实例分割网络对S6中视锥坐标系下的融合点云模型进行语义分割，得到融合点云模型所属类别的评估分数；结合评估分数，将视锥坐标系下的融合点云模型转换到掩模坐标系下，形成3D点云模型；

S7：以掩模坐标系下的3D点云模型为输入，对3D点云模型中的目标进行3D位姿的预测。

优选地，S8：根据损失函数，计算S5～S7中在训练时产生的总体模型损失。

优选地，S4中的质量评估判定若α小于特定阈值，则舍弃第一目标点云模型，若β小于特定阈值，则舍弃第二目标点云模型，否则对第一目标点云模型和第二目标点云模型进行加权融合。

优选地，S6中在进行坐标系转换前，需结合评估份数，将视锥坐标系下的融合点云模型中的背景点云或者其他杂乱的点云剔除。

优选地，所述S6中掩模坐标系以融合点云模型的质心为原点，因此在转换时，融合点云模型中的所有目标点云需减去质心的坐标，从而形成掩模坐标系下的3D点云模型。

优选地，所述S7中3D位姿预测包括质心回归模块和非模态3D位姿评估模块；

所述质心回归模块用于将3D点云模型中的所有云点数据移动到以真实的质心为原点的坐标系下；

所述非模态3D位姿评估模块用于输出经非模态3D位姿评估模块网络处理过后的3D位姿评估的所有参数信息，该参数信息包括3D目标的质心坐标、边界框的长宽高、边界框长宽高的残差、航向角和航向角残差。

一种基于深度相机的非规则物体位姿估计装置，包括图像采集模块、二维目标检测模块、点云目标检测模块、质量评估和加权融合模块、视锥提取模块、3D实例分隔模块和3D边界框评估模块；

所述图像采集模块用于采集户外三维场景，获取户外场景的二维RGB图像和对应的深度图；

所述二维目标检测模块用于将识别出的二维RGB图像中转换为三维点云并得到第一目标点云模型，评估之后得到置信度α；

所述点云目标检测模块用于将基于深度图构建的全局点云转化为一个高纬度的特征图并将其传入检测模块，检测和回归3D边框和获得置信度β，并在全局点云中通过3D边框提取第二目标点云模型；

所述质量评估和加权融合模块用于判断置信度α和β是否小于特定阈值来对第一目标点云模型和第二目标点云模型进行质量评估和加权融合，得到更好精度的融合点云模型；

所述视锥提取模块用于将融合点云模型的相机坐标系转换成视锥坐标系；

所述3D实例分隔模块用于将视锥坐标系下的融合点云模型使用3D实力分割网络进行语义分割，并通过掩模操作将融合点云模型转成掩模坐标系下的3D点云模型；

所述3D边界框评估模块用于对3D点云模型进行质心回归操作，得到真实质心和原点坐标下的3D点云模型，并经过非模态3D位姿评估网络处理，输出3D位姿评估的所有参数信息。

优选地，所述图像采集模块采用双目立体相机传感器。

优选地，所述3D实例分隔模块中需剔除非目标点云之后再进行掩模操作。

与现有技术相比，本技术方案的优点是：

(1)本发明具备对非规则物体的探测、识别以及位姿信息估算能力，识别正确率不低于90％，识别精度优于cm级。

(2)本发明采用的双目立体相机传感器在两米距离内的测距精度均优于2cm，经过算法融合，识别精度能进一步提升，在三维空间中准确地检测出目标的高质量抓取部位，保证抓取的精确度和安全性。

(3)本发明关于获取二维图像中的目标匹配区域方法除了深度学习方法中的二维目标检测方法，还可采用模板匹配方法；3D实例分割网络可由多种深度学习或机器学习中的点云处理网络替代；基于点云数据的目标检测方法可由多种深度学习或机器学习中的3D目标检测算法(比如PointPillars)替代。

附图说明

图1为本发明提供的总体实施框架图；

图2为本发明实施例1提供的二维目标检测模块图；

图3为本发明实施例1提供的目标精检测与位姿估计模块框架图；

图4为本发明实施例1提供的点云坐标系转换示意图；

图5为本发明实施例1提供的实例分割模型架构图；

图6为本发明实施例1提供的质心回归模型架构图；

图7为本发明实施例1提供的非模态边界框评估模型架构图；

图8为本发明实施例1提供的总体模型损失函数。

具体实施方式

下面结合附图和实施方式对本发明作进一步的详细说明：

实施例1：

如图1所述，本实施例提供一种基于深度相机的非规则物体位姿估计方法，该方法提出了一种高精度高效率的三维目标检测算法，将双目深度相机获取的RGB-D图像进行双通道并行处理，进行质量评估和加权融合；通过融合后的点云数据，使用基于学习的方法进行进一步的处理从而估计出非规则物体的高精度位姿；该方法包括：

S1：利用图像采集模块对于户外三维场景，拟采用双目立体相机传感器作为目标采集设备，获取场景的二维RGB图像和对应的深度图像；

S2：如图2所示，使用二维目标检测模块，基于获取到的二维RGB图像，使用多尺度训练方法，利用深层的特征提取网络提取图像信息，在保证运行速度的同时也提高了一定的检测精度，最终识别出二维图像中的目标候选区域，得到对应检测框；将检测框映射到生成的深度图中，选取二维目标检测框中的深度信息，将识别后的深度图转换为三维点云，得到第一目标点云模型；同时，依据目标检测算法、深度相机参数以及深度图等相关信息，对检测结果进行评估，得到此方法对应的置信度α。

S3：使用点云目标检测模块，基于深度信息构建全局点云，将全局点云转化成高纬度的特征图并传入检测模块，检测和回归3D边框并获得相对应置信度β，用3D边框在全局点云中提取第二目标点云模型；

基于S2中的深度信息构建全局点云，利用特征编码网络，将全局点云转化为便于网络运算的特定形式，利用多层深度特征提取网络将转化后的全局点云处理成一个高纬度的特征图，最后将获取的特征图传入检测模块，检测和回归3D边框并且获得对应的目标置信度β，之后在全局点云中通过3D边框提取第二目标点云模型。

通过S2和S3中的两种方法得到的目标点云模型以及对应的置信度系数，经质量评估和加权融合模块对目标点云模型进行加权融合，获取更高精度的融合点云模型；

若α小于特定阈值，则舍弃基于图像目标检测得到的第一目标点云模型，并将第一目标点云模型作为融合点云模型；

若β小于特定阈值，则舍弃基于点云目标检测得到的第二目标点云模型，并将第二目标点云模型作为融合点云模型；

否则对第一目标点云模型和第二目标点云模型进行加权融合，并将加权融合后的点云模型作为融合点云模型。

如图3和图4所示，图3中n为经过视锥提取模块提取出的视锥点云的点云数量，m为实例分割后目标点云的点云数量，c为点云的通道数；因为融合点云模型中，每个提取出的目标点云在相机坐标系下拥有不同的方向，为了便于对点云数据进行处理，需要使用视锥提取模块对点云的坐标系进行转换，从相机坐标系转换到视锥坐标系下；把如图4(a)所示的相机坐标系中的视锥点云中心线旋转至与图像平面正交的位置，此时的点云坐标转换为图4(b)所示的视锥坐标系下。

如图4和图5所示，图5中n为视锥点云的点云个数，k为目标的类别数，mlp(Multi-Layer Perceptron)为多层感知器；3D实例分割模块主要由3D实例分割网络组成，实现视锥点云的语义分割；视锥提取模块提取出的视锥点云数据作为3D实例分割网络的输入；3D实例分割模块也结合了目标检测模块生成的多分类标签向量，实现视锥点云数据的语义分割，并输出3D点云所属类别的评估分数，其中3D实例分割网络输出的评估分数是对检测的目标点云和其他非目标点云生成二分类分数；掩模操作就是结合评估分数，剔除输入的视锥3D点云数据中的背景点云或者其他杂乱的点云，提取目标实例的点云，之后，对提取出的目标点云进行坐标系的转换，由视锥坐标系(图4(b))转为掩模坐标系(图4(c))，掩模坐标系以目标点云质心为原点，因此进行坐标系转换时，需对所有的目标点云减去目标点云质心的坐标，从而形成在掩模坐标系下的点云数据。

如图4、图6和图7所示，图6中FCs表示全连接层，其中的数字表示全连接层输出通道数；3D边界框评估模块以掩模坐标系下的目标点云数据为输入，对3D点云中的目标进行3D位姿的预测；3D实例分割模块得到的掩模坐标系下的目标质心并不是真实目标的质心，需要借助轻量级的质心回归网络进行质心位置的调整，目标点云数据经过深度网络处理，同时结合多分类标签向量生成的全局向量后由全连接层生成与质心调整相关的残差数据。之后，所有的点云数据减去残差数据得到以真实目标质心为原点的局部坐标系(图4(d))下的点云数据；

在通过质心回归网络进行质心和目标点云的移动之后，所有点云都转换到预测的真实目标质心为原点的坐标系下，再经过非模态3D位姿评估网络(如图7)处理，经过多层感知机处理，全连接层最后输出的是3D位姿评估的所有参数信息，该参数信息包括3D目标的质心坐标、边界框的长宽高、边界框长宽高的残差、航向角和航向角残差。

S8：根据损失函数，计算S5～S7中在训练时产生的总体模型损失。

整个模型架构使用了多个网络模块对3D点云数据进行训练，包括3D实例分割模块的3D实例分割网络，以及非模态3D边界框评估模块中质心回归网络和非模态3D边界框评估网络，这些结构在训练时产生的损失需要综合起来计算总体模型的损失，总体模型的损失函数如图8所示。

该损失函数中，L为整个网络的损失，L_seg为3D实例分割网络产生的语义分割损失，L_c1-reg为质心回归网络产生的质心回归损失，L_c2-reg为非模态3D位姿估计网络的质心回归损失，L_h-cls和L_h-seg分别为网络模型产生的航向角分类损失和航向角语义分割损失。L_s-cls和L_s-seg分别为网络模型预测3D边界框产生的边界框大小的分类损失和语义分割损失，α、β为模型参数，L_corner为预测的3D边界框8个角的损失之和。

实施例2：

如图1所示，本实施例提供一种基于深度相机的非规则物体位姿估计装置，目标识别装置为双目深度相机，获取目标的RGB-D图像，利用深度卷积网络识别出目标物体在二维图像中的位置，进而剪裁出物体的点云模型，同时根据深度图生成全局点云模型，进行点云目标检测，将获取到的两者的点云模型进行质量评估和加权融合。基于融合后的点云数据模型，计算出非规则物体最后的精确位姿，获取高质量的抓取部位位置，提高抓取的准确率和安全性；

该装置包括：图像采集模块、二维目标检测模块、点云目标检测模块、质量评估和加权融合模块、视锥提取模块、3D实例分隔模块和3D边界框评估模块；

所述图像采集模块采用双目立体相机传感器，用于采集户外三维场景，获取户外场景的二维RGB图像和对应的深度图；

所述3D边界框评估模块用于对3D点云模型进行进行质心回归操作，得到真实质心和原点坐标下的3D点云模型，并经过非模态3D位姿评估网络处理，输出3D位姿评估的所有参数信息。

本发明具备对非规则物体的探测、识别以及位姿信息估算能力，识别正确率不低于90％，识别精度优于cm级，采用的双目立体相机传感器在两米距离内的测距精度均优于2cm，经过算法融合，识别精度能进一步提升，在三维空间中准确地检测出目标的高质量抓取部位，保证抓取的精确度和安全性。

以上所述的仅是本发明的实施例，方案中公知的具体技术方案和/或特性等常识在此未作过多描述。应当指出，对于本领域的技术人员来说，在不脱离本发明技术方案的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种基于深度相机的非规则物体位姿估计方法，其特征在于：包括：

2.根据权利要求1所述的基于深度相机的非规则物体位姿估计方法，其特征在于：还包括：

3.根据权利要求1所述的基于深度相机的非规则物体位姿估计方法，其特征在于：S4中的质量评估判定若α小于特定阈值，则舍弃第一目标点云模型，若β小于特定阈值，则舍弃第二目标点云模型，否则对第一目标点云模型和第二目标点云模型进行加权融合。

4.根据权利要求1所述的基于深度相机的非规则物体位姿估计方法，其特征在于：S6中在进行坐标系转换前，需结合评估份数，将视锥坐标系下的融合点云模型中的背景点云或者其他杂乱的点云剔除。

5.根据权利要求1所述的基于深度相机的非规则物体位姿估计方法，其特征在于：所述S6中掩模坐标系以融合点云模型的质心为原点，因此在转换时，融合点云模型中的所有目标点云需减去质心的坐标，从而形成掩模坐标系下的3D点云模型。

6.根据权利要求1所述的基于深度相机的非规则物体位姿估计方法，其特征在于：所述S7中3D位姿预测包括质心回归模块和非模态3D位姿评估模块；

7.一种基于深度相机的非规则物体位姿估计装置，其特征在于：包括图像采集模块、二维目标检测模块、点云目标检测模块、质量评估和加权融合模块、视锥提取模块、3D实例分隔模块和3D边界框评估模块；

8.根据权利要求7所述的基于深度相机的非规则物体位姿估计装置，其特征在于：所述图像采集模块采用双目立体相机传感器。

9.根据权利要求7所述的基于深度相机的非规则物体位姿估计装置，其特征在于：所述3D实例分隔模块中需剔除非目标点云之后再进行掩模操作。