CN113221953B

CN113221953B - 基于实例分割和双目深度估计的目标姿态识别系统与方法

Info

Publication number: CN113221953B
Application number: CN202110397545.0A
Authority: CN
Inventors: 叶赵君; 王成光; 郭逸; 杨根科; 褚健; 王宏武
Original assignee: Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Current assignee: Ningbo Institute Of Artificial Intelligence Shanghai Jiaotong University
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2023-01-31
Anticipated expiration: 2041-04-14
Also published as: CN113221953A

Abstract

本发明公开了一种基于实例分割和双目深度估计的目标姿态识别系统与方法，涉及物体6D姿态估计领域，所述系统包括：双目相机摄像机模块，所述双目相机摄像机模块包括一个设置于试验台上特定位置的双目相机，通过所述双目相机摄像机模块得到包含目标物体的两幅存在差异的场景图像；数据预处理模块，所述数据预处理模块对所述两幅场景图像进行预处理，所述预处理包括降噪；实例分割模块，所述实例分割模块接收经过预处理的所述两幅场景图像，使用实例分割模型进行实例分割，得到所述目标物体的两幅掩码图；物体5D位姿估计模块，所述物体5D位姿估计模块获得所述目标物体的5D位姿估计。

Description

基于实例分割和双目深度估计的目标姿态识别系统与方法

技术领域

本发明涉及物体6D姿态估计领域，尤其涉及一种基于深度学习实例分割和双目深度估计的目标姿态识别系统与方法。

背景技术

机器人的环境感知技术与定位技术是机器人领域的研究热点。近几年来，由于计算机视觉和深度学习技术的发展，视觉技术得到了巨大的提升，将视觉与神经网络结合成为机器人领域的一种主流方法。机器人通过摄像机采集周围环境的图像信息，通过建立好的模型，可以精准地得到相关信息并传递给机器人，完成相应的操作。在机器人抓取任务中，这种方式的定位显得尤为常见，目标的图片信息通过神经网络处理后，便能得到高精度的目标位置信息，为机器人抓取提供了有力的技术支持。

公开号为CN110470228A的专利申请文件提供了一种利用姿态角估计的双目视觉测距方法，其方法具体为：在实例分割后得到目标的轮廓信息后，需要结合物体先验的几何信息，计算出物体与双目摄像机间的距离。但是该方法需要建立物体先验几何信息库，建立的库的准确性和种类数量会直接影响最终的结果。

公开号为CN110322512A的专利申请文件提供了一种结合小样本实例分割和三维匹配的物体位姿估计方法，其方法具体为：为了解决现有六自由度物体位姿估计方法对背景杂乱、前景物体遮挡鲁棒性差，从而需要训练样本数量大的问题，该发明提出了一种结合小样本实例分割和三维匹配的物体位姿估计方法。但是该方法需要借助目标物体的深度图像点云，数据集制作过程复杂、计算量大、耗时长。

因此，本领域的技术人员致力于开发一种基于深度学习实例分割和双目深度估计的目标姿态识别系统与方法，解决现有技术中存在的需要事前准备物体先验几何信息库导致的信息不准确不完备，或者制作深度图像点云所导致的计算复杂和耗时等问题。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是在不准备物体先验几何信息库也不制作深度图像点云的前提情况下完成目标姿态识别。

为实现上述目的，本发明提供了一种基于深度学习实例分割和双目深度估计的目标姿态识别的系统与方法，通过双目相机得到包含目标物体的两幅RGB图像，经由训练得到的模型对图像进行实例分割，得到两幅实例分割后的掩码图像，再对两幅掩码图像运用数字图像处理知识进行处理后，得到目标物体较精确的位姿信息。

本发明提供了一种基于实例分割和双目深度估计的目标姿态识别系统，包括：双目相机摄像机模块，所述双目相机摄像机模块包括一个设置于试验台上特定位置的双目相机，通过所述双目相机摄像机模块得到包含目标物体的两幅存在差异的场景图像；

数据预处理模块，所述数据预处理模块对所述两幅场景图像进行预处理，所述预处理包括降噪；

实例分割模块，所述实例分割模块接收经过预处理的所述两幅场景图像，使用实例分割模型进行实例分割，得到所述目标物体的两幅掩码图；

物体5D位姿估计模块，所述物体5D位姿估计模块获得所述目标物体的5D位姿估计，所述5D位姿估计包括所述目标物体在x轴、y轴方向上的角度信息、深度信息以及在x轴、y轴上的位置信息。

进一步地，所述实例分割模型为基于神经网络的模型。

进一步地，所述目标物体在x轴、y轴方向上的所述角度信息是根据所述目标物体存在于所述两幅掩码图中的掩码信息获得，所述目标物体的所述深度信息是根据所述两幅场景图像存在的差异得到，所述目标物体在x轴、y轴上的所述位置信息是根据所述双目相机的参数得到。

进一步地，还包括位姿信息传输模块，所述位姿信息传输模块将得到的所述目标物体的所述5D位姿估计传递给机械臂，用于帮助所述机械臂抓取所述目标物体。

进一步地，通过TCP/IP通信和ROS平台向所述机械臂传送所述目标物体的所述5D位姿信息。

本发明还提供了一种基于实例分割和双目深度估计的目标姿态识别方法，所述方法包括以下步骤：

步骤1、将机械臂和双目相机固定设置在试验台上，并对所述双目相机进行标定，得到所述双目相机的参数，并测量得到所述双目相机的坐标系和所述机械臂的坐标系之间的转换参数；

步骤2、用所述双目相机拍摄得到包含目标物体的两幅存在差异的场景图像，并将所述两幅场景图像进行预处理；

步骤3、将经过预处理后的所述两幅场景图像进行实例分割，得到所述目标物体的两幅掩码图；

步骤4、根据所述两幅掩码图的差异得到所述目标物体在x轴、y轴方向上的角度信息、根据所述两幅场景图像存在的差异得到所述目标物体的深度信息、根据所述双目相机的所述参数得到所述目标物体在x轴、y轴上的位置信息；在x轴、y轴方向上的所述角度信息、所述深度信息、在x轴、y轴上的所述位置信息组成所述目标问题的5D位姿估计。

进一步地，在所述步骤4中根据所述两幅场景图像存在的差异得到所述目标物体的所述深度信息的具体过程为：

x,x′分别表示所述目标物体上的一点在像素平面上与像素平面中心点的距离，x-x′为视差disparity，B表示两个相机之间的距离，f表示相机的焦距，利用相似三角形的知识，得到所述目标物体上的所述一点距离所述双目相机平面的距离Z，Z即为所述目标物体上的所述一点的深度信息，如式(1)所示：

其中，B和f都为已知；

根据所述目标物体的所述两幅掩码图计算所述视差，通过将所述两幅掩码图划分为多个小区域，对应的所述小区域可以看作是所述目标物体上某个区域在所述双目相机所成所述两幅场景图像上的对应区域，通过计算两个所述对应区域的像素位置信息，得到所述对应区域的所述视差。

进一步地，通过求解所述目标物体上的一点的周围领域的平均深度来代替所述一点的深度值，采用8领域深度值来近似中心点的深度，如式(2)所示：

其中，P为所述目标物体上的一点。

进一步地，设P为所述目标物体上的一点，在计算所述P点的深度值时，以所述P点为中心，读取所述P点周围8Х8的像素区域内所有的点，并且剔除深度异常的点，将剩下的点集合记为D，将得到的所述点集合D中的点的平均深度作为所述点P的深度值，得到计算所述P点的深度值，如式(3)所示：

通过所述式(3)，可以得到所述目标物体上每个点的深度信息。

进一步地，在开始所述步骤1之前预先建立实例分割的基于神经网络的模型。

本发明提供的一种基于深度学习实例分割和双目深度估计的目标姿态识别的系统与方法至少具有以下技术效果：

传统的借助点云获得物体完整位姿信息或者借助大量模板进行模板匹配获得物体完整位姿的方法，计算量大、模板的建立复杂、处理的时间长，且对有遮挡的情况鲁棒性差，不够稳定。本发明提出的基于深度学习实例分割和双目深度估计的目标姿态识别方法，能够自主识别目标物体并进行实例分割，得到物体的掩码信息，并通过图像技术估计物体的精确5D位姿信息，用于机械臂抓取目标物体，克服了现有方法的弊端，不需要事前准备相应的模板库，来对实例分割后的图像进行匹配，也不需要得到点云图像，大大减少了运算量，提高了运算速度，且得到可靠精准的结果。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是双目相机得到目标物体深度信息的示意图；

图2是实例分割的效果示意图；

图3是目标物体成像视差解析图；

图4是传统相机针孔模型示意图；

图5是目标物体y轴角度的示意图；

图6是目标物体x轴角度的示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

本发明基于深度学习实例分割和双目深度估计，提出了一种目标物体的姿态识别系统与方法。通过双目相机，可以得到包含目标物体的两幅RGB图像，经由训练得到的模型，可以对图像进行实例分割，得到两幅实例分割后的掩码图像，对两幅掩码图像运用数字图像处理知识处理后，便可得到目标物体较精确的位姿信息。本方法克服了现有方法的弊端，不需要事前准备相应的模板库，来对实例分割后的图像进行匹配，也不需要得到点云图像，大大减少了运算量，提高了运算速度，且得到可靠精准的结果。

本发明提供的一种基于实例分割和双目深度估计的目标姿态识别系统，包括：双目相机摄像机模块，双目相机摄像机模块包括一个设置于试验台上特定位置的双目相机，通过双目相机摄像机模块得到包含目标物体的两幅存在差异的场景图像。当双目相机摆放好后，需要对相机标定，得到相机的参数以及相机坐标系和机械臂坐标系之间的变换关系。通过该模块，得到两幅场景图像，并且通过双目相机所成两幅场景图像的差异，得到目标物体的信息。

数据预处理模块，数据预处理模块对两幅场景图像进行预处理，预处理包括降噪。由于得到的场景图像往往受到噪声干扰，所以在使用图像信息之前，需要对图像进行降噪等预处理。

实例分割模块，实例分割模块接收经过预处理的两幅场景图像，使用实例分割模型进行实例分割，得到目标物体的两幅掩码图。该模块使用神经网络，对制作的数据集进行训练，得到相应的实例分割模型，用以对实验过程中输入的场景图像实例分割，得到物体的两幅轮廓信息图，即掩码图。

物体5D位姿估计模块，物体5D位姿估计模块获得目标物体的5D位姿估计，5D位姿估计包括目标物体在x轴、y轴方向上的角度信息、深度信息以及在x轴、y轴上的位置信息。在机器人抓取中，物体的6D位姿获得是一项关键技术。由于在本发明中，目标物体大致对称，因此目标物体在z轴方向的角度信息对抓取质量的影响小，本发明致力于获得目标物体的5D信息。由双目相机所成两幅场景图像的差异可以得到目标物体的深度信息，由相机的参数可以得到目标物体的位置信息。而物体5D位姿估计可以根据目标物体的掩码信息，可以获得目标物体在x、y轴方向上的角度信息。综上，物体5D位姿估计模块用以获得目标物体的5D信息，为机器人抓取目标物体提供位姿信息。

还包括位姿信息传输模块，位姿信息传输模块将得到的目标物体的5D位姿估计传递给机械臂，用于帮助机械臂抓取目标物体。可以通过类似于TCP/IP通信和ROS平台(但不限于)向机械臂传送目标物体的5D位姿信息，实现机械臂抓取目标物体。

本发明所提供的一种基于实例分割和双目深度估计的目标姿态识别方法的技术方案具体如下：

1、对双目摄像机进行标定；

2、进行图像采集；

3、将采集到的图像进行实例分割，得到物体的轮廓；

4、对实例分割后的物体进行数字图像处理，得到其位姿。

双目相机会采集到同一物体的两幅不完全一样的图像，根据这两幅图像之间的差异，可以得到物体上某一点的深度信息。得到深度过程的关键在于如何得到视差，得到视差需要将双目相机得到的两幅图片进行匹配，即找到物体上同一点在两幅图像上的对应点，从而计算出视差。为了减少计算量，考虑将目标物体从图像中分离出来，即得到目标物体的轮廓信息，只对目标物体计算视差，便可以运用实例分割技术来获得目标物体的轮廓。关于物体的完整位置信息，需要根据相机的成像原理以及相机内外参数，进行坐标变换得到。可以建立起世界坐标系下点的坐标和像素坐标的关系，再结合前面求解深度信息的方法，便可以得到目标物体上任意一点的世界坐标位置信息。接着，利用上述求解的位置信息，对目标物体的姿态信息求解。通过以上的方式，本发明提供的技术方案可以快速且准确地计算出目标物体的5D姿态，从而极大地提高整个抓取过程的速度和精度。

具体来说，本发明还提供了一种基于实例分割和双目深度估计的目标姿态识别方法包括以下步骤：

步骤1、将机械臂和双目相机固定设置在试验台上，并对双目相机进行标定，得到双目相机的参数，并测量得到双目相机的坐标系和机械臂的坐标系之间的转换参数；

步骤2、用双目相机拍摄得到包含目标物体的两幅存在差异的场景图像，并将两幅场景图像进行预处理；

步骤3、将经过预处理后的两幅场景图像进行实例分割，得到目标物体的两幅掩码图；

步骤4、根据两幅掩码图的差异得到目标物体在x轴、y轴方向上的角度信息、根据两幅场景图像存在的差异得到目标物体的深度信息、根据双目相机的参数得到目标物体在x轴、y轴上的位置信息；在x轴、y轴方向上的角度信息、深度信息、在x轴、y轴上的位置信息组成目标问题的5D位姿估计。

为了得到目标物体上某一点的深度信息，利用双目相机成像的差异性来求解。如图1所示，在步骤4中根据两幅场景图像存在的差异得到目标物体的深度信息的具体过程为：

x,x′分别表示目标物体上的一点在像素平面上与像素平面中心点的距离，x-x′为视差disparity。视差x-x′的得到是双目相机得到物体深度信息的关键，虽然是最难的部分，但是也是相对成熟的部分。

B表示两个相机之间的距离，f表示相机的焦距，利用相似三角形的知识，得到目标物体上的一点距离双目相机平面的距离Z，Z即为目标物体上的一点的深度信息，如式(1)所示：

其中，B和f都为已知。

目标物体上的一点的深度信息可以运用数字图像处理知识实现，并且可以通过求解某个点周围小领域的平均深度来代替该点的深度值，比如采用8领域深度值来近似中心点的深度，如采用下式(2)，

这样可以很好地减小误差，比直接从深度图像里读取深度的鲁棒性好。

为了提高精度，尽可能地减少噪声等带来的误差，可以采用多种方式，如在估计P点的深度时，我们以P点为中心，读取P点周围8Х8的像素区域，并且剔除深度异常的点(去除深度最大和深度最小的点，不妨将剩下的点记为D)，得到的平均深度作为P点的深度值，最终，我们可以得到计算P点的深度值如式(3)，

通过式(3)，我们可以很准确地得到物体上每个点的深度。

上述过程的关键在于如何得到视差，得到视差需要将双目相机得到的两幅图片进行匹配，即找到物体上同一点在两幅图像上的对应点，从而计算出视差。所以，为了减少计算量，将目标物体从图像中分离出来，即得到目标物体的轮廓信息，只对目标物体计算视差，便可以运用实例分割技术来获得目标物体的轮廓，如图2所示。

根据目标物体的两幅掩码图计算视差，通过将两幅掩码图划分为多个小区域，对应的小区域可以看作是目标物体上某个区域在双目相机所成两幅场景图像上的对应区域，通过计算两个对应区域的像素位置信息，得到对应区域的视差，用于计算物体上某个区域的深度。在图2中，o,o′分别是同一组轮廓图的像素中心，A,A′是两幅轮廓图中对应的两个小区域(区域很小，可以用区域中心坐标代替区域的坐标)，中心像素坐标分别为(u_A,v_A),(u_A′,v_A′)，双目相机可视为放置在同一水平线上，所以v_A＝v_A′，视差为u_A-u_A′(假设前者大于后者)。

目标物体的5D位姿信息估计模块完整计算目标物体的位置信息，需要根据相机的成像原理以及相机内外参数，进行坐标变换得到。如图3所示，为相机成像的针孔模型。

设P在坐标系O-x-y-z下的坐标为[X,Y,Z]^T，P′在坐标系O′-x′-y′-z′下的坐标为[X′,Y′,Z′]^T，由相似三角形原理可得式：

整理可得下式(4)：

式(4)描述了点P和它的像之间的空间关系。不过在双目相机中，最终获得的是一个个像素，需要在成像平面上对像素进行采样和量化。设在物理成像平面上固定着一个像素平面o-u-v。在像素平面得到了P′的像素坐标：[u,v]^T。像素坐标系与成像平面之间，相差了一个缩放和一个原点的平移。设像素坐标在u轴上缩放了α倍，在v轴上缩放了β倍。同时，原点平移了[c_x,c_y]^T。所以，P′的坐标与像素坐标[u,v]^T的关系为：

代入式(4)，并把αf合并为f_x，把βf合并为f_y，得式(5)：

写成矩阵形式为：

在式(6)中，K被称为相机的内参数矩阵，可以由相机生产商或者人为标定得到。

除了内参之外，还要考虑相机外参，即考虑相机坐标系与世界坐标系的转换，也是由旋转矩阵R和平移向量t描述，如式(7)所示：

由式(7)便可以建立起世界坐标系下点的坐标和像素坐标的关系，再结合前面求解深度信息的方法，便可以得到目标物体上任意一点的世界坐标位置信息。

接着，利用上述求解的位置信息，对目标物体的姿态信息求解。因为在本抓取任务中，物体z方向的旋转角对抓取质量的影响几乎没有，所以只考虑x和y方向上的角度。可以按照以下方式求解(包含但不限于)，其中，求解y轴方向角度的示意图如图4所示，将实例分割后的目标物体轮廓按行划分为若干行。在每一行里面，随机划分出若干列，便可以得到很多个规格不一样的小区域A_i，通过计算每一列上下两个像素点的完整位置信息，得到深度差和高度差，便可以得到该小区域内的角度信息，不妨将两个点设为P_T,P_B，那么在该小区域A_P中的角度信息按式(8)计算：

x轴的角度计算原理如附图5所示，y轴的角度计算原理如附图6所示。通过数字图像处理知识，将得到的目标物体轮廓用一个包含它的最小矩形拟合，通过拟合的矩形可以求得x轴方向上的角度。

通过相应的通信方式，将获得的目标物体5D位姿传递给机械臂，实现机械臂对目标物体的抓取。

在开始步骤1之前需要预先建立实例分割的基于神经网络的模型。具体为明确实验抓取对象的种类，并制作相应的数据集，放入选好的实例分割网络进行训练，得到用于实例分割的模型，并在后续的实验中使用，用于对场景图像中要抓取的目标物体进行实例分割，得到目标物体的轮廓信息；

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于实例分割和双目深度估计的目标姿态识别系统，其特征在于，包括：

双目相机摄像机模块，所述双目相机摄像机模块包括一个设置于试验台上特定位置的双目相机，通过所述双目相机摄像机模块得到包含目标物体的两幅存在差异的场景图像；

物体5D位姿估计模块，所述物体5D位姿估计模块获得所述目标物体的5D位姿估计，所述5D位姿估计包括所述目标物体在x轴、y轴方向上的角度信息、深度信息以及在x轴、y轴上的位置信息；

所述目标物体的所述深度信息是根据所述两幅场景图像存在的差异得到，所述目标物体在x轴、y轴上的所述位置信息是根据所述双目相机的参数得到；

所述目标物体在y轴方向上的角度信息是将实例分割后的所述目标物体的轮廓按行划分为若干行；在每一行里面，随机划分出若干列，得到很多个规格不一样的小区域A_i，通过计算每一列上下两个像素点的位置信息和深度信息，得到高度差和深度差，便可以得到所述小区域A_i的角度信息；

在小区域A_P中有两个点为P_T,P_B，则所述小区域A_P的角度信息计算如式(8)所示：

其中，θ_y为所述小区域A_P的角度信息，

为点P_T的位置信息，

为点P_B的位置信息，

为所述高度差，

为点P_T的深度信息，

为点P_B的深度信息，

为所述深度差；

将得到的所述目标物体的轮廓用最小矩形拟合，通过拟合的所述最小矩形可以求得所述目标物体在x轴方向上的角度信息。

2.如权利要求1所述的基于实例分割和双目深度估计的目标姿态识别系统，其特征在于，所述实例分割模型为基于神经网络的模型。

3.如权利要求1所述的基于实例分割和双目深度估计的目标姿态识别系统，其特征在于，还包括位姿信息传输模块，所述位姿信息传输模块将得到的所述目标物体的所述5D位姿估计传递给机械臂，用于帮助所述机械臂抓取所述目标物体。

4.如权利要求1所述的基于实例分割和双目深度估计的目标姿态识别系统，其特征在于，通过TCP/IP通信和ROS平台向机械臂传送所述目标物体的所述5D位姿信息。

5.一种基于实例分割和双目深度估计的目标姿态识别方法，其特征在于，所述方法包括以下步骤：

步骤4、进行物体5D位姿估计，所述5D位姿估计包括所述目标物体在x轴、y轴方向上的角度信息、深度信息以及在x轴、y轴上的位置信息；

其中，θ_y为所述小区域A_P的角度信息，

为点P_T的位置信息，

为点P_B的位置信息，

为所述高度差，

为点P_T的深度信息，

为点P_B的深度信息，

为所述深度差；

6.如权利要求5所述的基于实例分割和双目深度估计的目标姿态识别方法，其特征在于，在所述步骤4中根据所述两幅场景图像存在的差异得到所述目标物体的所述深度信息的具体过程为：

x和x′表示所述目标物体上的一点在双目相机图像上的两个横坐标，x-x′为视差disparity，B表示两个相机之间的距离，f表示相机的焦距，利用相似三角形的知识，得到所述目标物体上的所述一点与所述双目相机平面的距离Z，Z即为所述目标物体上的所述一点的深度信息，如式(1)所示：

其中，B和f都为已知；

7.如权利要求6所述的基于实例分割和双目深度估计的目标姿态识别方法，其特征在于，通过求解所述目标物体上的一点的周围领域的平均深度来代替所述一点的深度值，采用8领域深度值来近似中心点的深度Z_P，如式(2)所示：

其中，P为所述目标物体上的一点，N₈(P)表示点P的8领域，p′表示8领域中的一个点，B表示两个相机之间的距离，f表示相机的焦距，x_p′和x′_p′表示所述目标物体上的一点p′在双目相机上的两个横坐标，x_P′-x′_p′为视差。

8.如权利要求6所述的基于实例分割和双目深度估计的目标姿态识别方法，其特征在于，设P为所述目标物体上的一点，在计算所述P点的深度值时，以所述P点为中心，读取所述P点周围8Х8的像素区域内所有的点，并且剔除深度异常的点，将剩下的点集合记为D，将得到的所述点集合D中的点的平均深度作为所述点P的深度值，得到计算所述P点的深度值Z_P，如式(3)所示：

其中，P为所述目标物体上的一点，p′表示集合D的一个点，B表示两个相机之间的距离，f表示相机的焦距，x_p′和x′_p′表示所述目标物体上的一点p′在双目相机上的两个横坐标，x_p′-x′_p′为视差；通过所述式(3)，可以得到所述目标物体上每个点的深度信息。

9.如权利要求5所述的基于实例分割和双目深度估计的目标姿态识别方法，其特征在于，在开始所述步骤1之前预先建立实例分割的基于神经网络的模型。