CN112085804A

CN112085804A - 一种基于神经网络的物体位姿识别方法

Info

Publication number: CN112085804A
Application number: CN202010847309.XA
Authority: CN
Inventors: 谷依田; 莫凌飞
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-12-15
Anticipated expiration: 2040-08-21
Also published as: CN112085804B

Abstract

本发明公开了一种基于神经网络的物体位姿识别方法，该方法包括步骤：用户预先根据物体放置在方桌或者圆桌上，在初始化界面上进行动态/静态识别模式的选择；摄像机拍摄图片并绘制出桌面坐标系；得到相对于空间坐标系的变换矩阵；然后运行YOLO6D神经网络，识别到桌面上放置的物品，并得到物品的边框，进而求出静态识别模式的角度或动态识别模式下与圆桌中心的距离，再实现识别结果的可视化，然后将物品坐标数据缓存，求出缓存的各个坐标的加权平均值，作为最终的识别结果，并将数据缓存；将缓存的数据写入文本文件中，保存结果，结束识别。该方法能够通过单张照片识别出桌面上的物品并估计物品的位置和朝向。

Description

一种基于神经网络的物体位姿识别方法

技术领域

本发明涉及物体位姿识别领域，尤其涉及一种基于神经网络的物体位姿识别方法。

背景技术

在物流技术得到越来越广泛的应用的背景下，物流中心的分拣工作十分繁重，传统的人力分拣费事费力，如果将实时目标检测技术应用于桌面上生活物品的识别和检测，准确识别出桌面上物品并且判断出其位姿，就能够实现机械臂抓取。实时目标检测与物品6D位姿估计对增强现实技术，虚拟现实技术和机器人技术至关重要。在桌面上识别出物品并得到其6D位姿，是机器人抓取物品的前提条件。

传统神经网络进行物品位姿识别检测往往使用了深度信息，得到了良好的识别效果，但是深度相机耗电量较大，不适用于有大量需求的场景。Bugra等人提出了一种在RGB图像中同时检测目标并预测其6D姿态的单次拍摄方法，它不需要多个阶段或检查多个假设，无需经过额外处理就可以实现使用单张2D图片预测物品6D姿态。

发明内容

发明目的：针对上述问题，本发明提供一种基于神经网络的物体位姿识别方法。能够通过单张照片识别出桌面上的物品并估计物品的位置和朝向，将识别结果通过GUI界面告知用户，同时在图片中绘制出bounding box，实现识别结果的可视化。

为实现上述目的，本发明采用如下方案：

一种基于神经网络的物体位姿识别方法，该方法包括如下步骤：

S1. 用户预先根据物体放置在方桌或者圆桌上，在初始化界面上进行动态/静态识别模式的选择：如果物体放在方桌上，使用静态识别；如果放在圆桌上，使用动态识别；

S2. 摄像机拍摄图片并根据步骤S1中用户在初始化界面的选择确定静态/动态识别模式绘制出桌面坐标系；

S3. 利用步骤S2中得到的桌面坐标系得到相对于空间坐标系的变换矩阵；

S4. 在步骤S2所拍摄的图片上运行YOLO6D神经网络，识别到桌面上放置的物品，并得到物品的边框，使用YOLO6D网络进行识别能够得到预测9个特征点的坐标，所述特征点是指网络预测出的3Dbounding box，其中心点和上下表面的8个角点；

S5. 根据步骤S3中得到的桌面坐标系得到相对于空间坐标系的变换矩阵和第四步得到的物品边框，使用PNP算法可以得到9个特征点在桌面坐标系中的坐标，进而求出静态识别模式的角度或动态识别模式下与圆桌中心的距离；

S6. 将步骤S4中得到的物品边框和步骤S5中静态识别模式下求出的物品角度或动态识别模式下求出的物品与圆桌中心的距离显示在用户界面上，作为输出信息，使用OpenCV在所拍摄到的图片中依据特征点绘制出bounding box，实现识别结果的可视化，然后将物品坐标数据缓存；

S7. 判断用户是否在软件界面点击结束识别，如果否，则返回第二步；如果是，则进行下一步；

S8. 求出步骤S6中缓存的各个坐标的加权平均值，作为最终的识别结果，并将数据缓存；

S9. 将步骤S8中缓存的数据写入文本文件中，保存结果，结束识别。

所述的基于神经网络的物体位姿识别方法，步骤S2的具体方法为：

对于静态识别，利用方桌二值化阈值对拍摄到的图像进行二值化，使用Canny边缘检测法提取出图像中的边缘线，然后使用霍夫直线拟合提取方形桌面的边缘，然后对检测到的直线进行聚类处理，得到上下两组分类，对各组直线的斜率和截距求平均值，就可以得到方桌四条边缘的拟合直线，利用四条桌面边缘线能够求出桌面四个桌角的坐标估计值，从而实现方桌边角的识别；又已知方桌的尺寸，取方桌左上角为坐标原点建立坐标系，利用四个顶点的照片坐标和理论上方桌俯视图中四个对应顶点的坐标进行透视变换，从而得到方桌坐标轴的标度，透视变换实现了将相机拍摄到的桌面图片变换到俯视图下，以便绘制出桌面坐标系；

对于动态识别，利用圆桌二值化的阈值对拍摄到的图像进行二值化，利用Canny边缘检测法提取出图像中的边缘线，然后使用椭圆检测识别图像中的椭圆，根据椭圆的面积滤除图像中的干扰图案，得到圆形桌面的边缘线，基于深度信息，采用以下的算法：首先根据摄像机拍到的RGB图像找到圆桌轮廓，在RGB图像上拟合椭圆，找到长短轴和上下左右四个点，利用pyrealsense库函数进行RGB与深度图像对齐，得到在RGB图上指定点所对应的深度，进而计算出该点在以相机为原点的三维坐标系下的坐标，根据几何关系，空间中的三个不共线的点可以确定唯一圆，将三维坐标带入空间圆周的参数方程确定系数，能够找到圆心的坐标，因此得到椭圆上下左右点的三维坐标后，首先找到三维坐标确定圆桌圆环方程和圆心在相机坐标系下的坐标，连接下端点和圆心作为基础向量，在空间圆环上遍历，找到与基础向量垂直的点坐标，即为实际圆环的左右两端点，将左右两端点在RGB图上找到对应坐标，就能获得透视变换矩阵，利用透视变换，将相机拍摄的圆桌图片变换到俯视图下，以便绘制出圆桌坐标系。

所述的基于神经网络的物体位姿识别方法，所述方形桌面坐标系是指以桌面俯视图左上角为原点，向右为x正方向，向下为y轴正方向建立的三维左手坐标系，所述朝向角度为物品平放在桌面时，指定的正方向与x轴所夹锐角，物品指定正方向是指对于所拍摄物品，事先人为指定正面，则正面的法方向为正方向；所述动态识别模式下，桌面旋转速度为5s/转至180s/转，软件根据拍摄到的图片确定物品至圆盘中心的距离。

所述的基于神经网络的物体位姿识别方法，在所述YOLO6D网络识别物品并估计特征点坐标的过程中，每一个物品都需要使用一个预先训练好的权重文件通过网络在所拍摄到的2D图像中进行匹配，为了提高软件运行速度，对于一张图片的识别，同时使用多个线程利用不同物品的权重文件运行网络，即可同时识别出不同的物品并分别得到各自的特征点坐标。

有益效果：

现有物体位姿识别技术一般采用YOLO-v3神经网络，虽然能够根据单张照片中物体的颜色信息对物体朝向和距离进行估计，却无法识别出物体的bounding box，因此一方面无法在用户界面显示出3D框选效果，另一方面无法准确的得到物体的边角点信息，不利于机械臂的抓取。本发明使用的YOLO6D网络首先估计出物体的8个角点和中心点这9个特征点在图片中的坐标，然后根据坐标变换原理得到这9个特征点在桌面坐标系下的3维坐标，从而实现物体位姿识别，因此在得到物体整体朝向的位置的同时，也得到了物体边角的坐标，从而更加适用于机械臂抓取的场景。

附图说明

图1是本发明的工作示意图。

图2是本发明的流程图。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步详细地说明。

如图1所示，被测物体被放置在桌面上，带有支架的摄像机放置在桌面前，摄像机通过USB连接到电脑。启动软件时，软件自动完成桌面坐标系的建立和运行神经网络识别待测物品的种类和边角信息，并完成坐标转换得到桌面坐标系下物品的坐标。

本发明在Ubuntu 16.04操作系统上基于Python3，PyQt，PyTorch进行开发。软件界面负责输出实物物体的相关信息，直观展示结果。按照所给参考界面，制作出可视化的人机界面，输出实物物体的相关信息，直观展示结果。界面左侧为实物的2D图像显示，右侧为识别结果输出区，输出识别目标数、目标中心的x坐标、y坐标、目标偏移朝向角度值，目标底部几何中心到旋转圆盘圆心的距离。点击下方的RectSTART，相机开始检测识别。点击下方的RectCLOSE，识别结束。

本发明使用了IntelRealSense™ 深度相机，在使用前首先需要安装IntelRealSense™ SDK 2.0驱动，通过USB3.0连接至电脑。

图2示出了本发明的方法流程图，如图2所示，本发明的基于神经网络的物体位姿识别方法，该方法包括如下步骤：

S1. 用户预先根据物体放置在方桌或者圆桌上，在初始化界面上进行动态/静态识别模式的选择：如果物体放在方桌上，使用静态识别；如果放在圆桌上，使用动态识别；静态识别用于物体放置在静止的方形桌面上，可以得到物体在桌面上的坐标和朝向角度；动态识别模式用于在物体放置在旋转中的圆形桌面上，得到物体与桌面圆心的距离。

对于静态识别，利用方桌二值化阈值对拍摄到的图像进行二值化，使用Canny边缘检测法提取出图像中的边缘线，然后使用霍夫直线拟合提取方形桌面的边缘，然后对检测到的直线进行聚类处理，得到上下两组分类，对各组直线的斜率和截距求平均值，就可以得到方桌四条边缘的拟合直线，利用四条桌面边缘线能够求出桌面四个桌角的坐标估计值，从而实现方桌边角的识别；又已知方桌的尺寸，取方桌左上角为坐标原点建立坐标系，利用四个顶点的照片坐标和理论上方桌俯视图中四个对应顶点的坐标进行透视变换，从而得到方桌坐标轴的标度，透视变换实现了将相机拍摄到的桌面图片变换到俯视图下，以便绘制出桌面坐标系；本实施例中的方桌坐标系，以方形桌面左上角为坐标原点，向右侧为x轴正方向，向下为y轴正向。在方桌坐标系测量模式下，能够得到物品的坐标值和朝向角度。所述朝向角度为，桌面上边沿所在直线与实物X轴所在直线的顺时针夹角，即桌面上边沿所在直线顺时针旋转到与X轴所在直线重合的最小角度，单位为°，范围为[0°~+180°），保留一位小数。

对于动态识别，利用圆桌二值化的阈值对拍摄到的图像进行二值化，利用Canny边缘检测法提取出图像中的边缘线，然后使用椭圆检测识别图像中的椭圆，根据椭圆的面积滤除图像中的干扰图案，得到圆形桌面的边缘线，基于深度信息，采用以下的算法：首先根据摄像机拍到的RGB图像找到圆桌轮廓，在RGB图像上拟合椭圆，找到长短轴和上下左右四个点，利用pyrealsense库函数进行RGB与深度图像对齐，得到在RGB图上指定点所对应的深度，进而计算出该点在以相机为原点的三维坐标系下的坐标，根据几何关系，空间中的三个不共线的点可以确定唯一圆，将三维坐标带入空间圆周的参数方程确定系数，能够找到圆心的坐标，因此得到椭圆上下左右点的三维坐标后，首先找到三维坐标确定圆桌圆环方程和圆心在相机坐标系下的坐标，连接下端点和圆心作为基础向量，在空间圆环上遍历，找到与基础向量垂直的点坐标，即为实际圆环的左右两端点，将左右两端点在RGB图上找到对应坐标，就能获得透视变换矩阵，利用透视变换，将相机拍摄的圆桌图片变换到俯视图下，以便绘制出圆桌坐标系。本实施例中的圆桌坐标系，以圆形桌面中心为坐标原点。在圆桌坐标系下，不给出物品的角度信息，仅仅得到距离圆桌中心的距离，即实物目标底部几何中心到旋转圆盘圆心的距离，单位为cm，保留一位小数。

上面对本发明的较佳实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域的普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于神经网络的物体位姿识别方法，其特征在于，该方法包括如下步骤：

S6. 将步骤S4中得到的物品边框和步骤S5中得到的静态识别模式的角度或动态识别模式下与圆桌中心的距离显示在用户界面上，作为输出信息，使用OpenCV在所拍摄到的图片中依据特征点绘制出bounding box，实现识别结果的可视化，然后将物品坐标数据缓存；

2.根据权利要求1所述的基于神经网络的物体位姿识别方法，其特征在于，步骤S2的具体方法为：

3.根据权利要求2所述的基于神经网络的物体位姿识别方法，其特征在于，所述方形桌面坐标系是指以桌面俯视图左上角为原点，向右为x正方向，向下为y轴正方向建立的三维左手坐标系，所述朝向角度为物品平放在桌面时，指定的正方向与x轴所夹锐角，物品指定正方向是指对于所拍摄物品，事先人为指定正面，则正面的法方向为正方向；所述动态识别模式下，桌面旋转速度为5s/转至180s/转，软件根据拍摄到的图片确定物品至圆盘中心的距离。

4.根据权利要求1所述的基于神经网络的物体位姿识别方法，其特征在于，在所述YOLO6D网络识别物品并估计特征点坐标的过程中，每一个物品都需要使用一个预先训练好的权重文件通过网络在所拍摄到的2D图像中进行匹配，为了提高软件运行速度，对于一张图片的识别，同时使用多个线程利用不同物品的权重文件运行网络，即可同时识别出不同的物品并分别得到各自的特征点坐标。