CN111275758B

CN111275758B - 混合型3d视觉定位方法、装置、计算机设备及存储介质

Info

Publication number: CN111275758B
Application number: CN202010041480.1A
Authority: CN
Inventors: 褚英昊; 吴延庆; 韩飞; 王永乐; 秦诗玮; 王树燚; 段立武; 李政峰; 赵紫州
Original assignee: Shenzhen Weiai Intelligent Technology Co ltd
Current assignee: Shenzhen Weiai Intelligent Technology Co ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2024-02-09
Anticipated expiration: 2040-01-15
Also published as: CN111275758A

Abstract

本发明实施例公开了一种混合型3D视觉定位方法、装置、计算机设备及存储介质。所述方法包括：若接收到待测3D图像，对所述待测3D图像进行实例分割，以获取所述待测3D图像的实例；通过预设的端到端深度学习空间目标检测网络预测所述实例的6D位姿；将所述实例的6D位姿作为点云匹配的初始位姿，并通过预设的点云处理算法对所述实例进行定位。通过将所述实例的6D位姿作为点云匹配的初始位姿，并通过预设的点云处理算法对所述实例进行定位，从而能够极大地提高定位精度，满足实际生产中的高精度定位要求，提高产品的良率。

Description

混合型3D视觉定位方法、装置、计算机设备及存储介质

技术领域

本发明涉及视觉定位技术领域，尤其涉及一种混合型3D视觉定位方法、装置、计算机设备及存储介质。

背景技术

机器视觉是当前工业领域一项重要的革新技术。提高工业生产的无人化和自动化是一项非常有价值的任务，尤其是对于不适合人工作业的危险或者对健康有害的工业制造业场景中(比如焊接)。在常规有人作业中，人会通过基本感知特别是视觉方面的感知来根据实际作业特点和工件差异进行作业的灵活调整。对于缺乏视觉指引的机器臂或者自动化设备，无法有效应对实际作业中各种复杂的状况，会导致大量的不良品产生。因此，在大批量重复性程度高的生产过程中，用机器视觉来引导机器设备可以大大提高生产的效率、准确度和自动化程度，降低不良产品率。

机器视觉在工业应用中，基于机器臂的抓取一个重要方向，主要包括上下料，分拣，装配等。机械臂要成功抓取，需要同时识别出目标的三维空间位置及姿态共计6维姿态信息。传统的2D识别方法难以获取目标的空间及姿态信息，因此无法有效指引机器臂进行作业，这时候采用3d设备进行引导作业变的尤为关键。常见的成熟3D成像技术有双目，结构光DLP，TOF，线扫激光等。这些视觉技术会对目标区域进行3维重构生成相应的点云图或者深度图。如何利用这些空间数据，从中找到目标物体并提取关键位姿信息是实现正确作业引导的关键。

目前，基于3D相机拍摄到的点云信息或RGBD图进行物体6D姿态识别已有很多成功方法，例如机器学习法、模版匹配法、点对特征法、3D局部特征法以及端到端深度学习方法等。以上方法的预测结果总会有2-5像素级别的偏差，对应到实际现场可能误差会有0.5-1mm，这对于焊接等要求精准的场景来说会带来降低良品率的风险。

发明内容

本发明实施例提供了一种混合型3D视觉定位方法、装置、计算机设备及存储介质，旨在解决现有3D视觉定位误差大的问题。

第一方面，本发明实施例提供了一种混合型3D视觉定位方法，其包括：

若接收到待测3D图像，对所述待测3D图像进行实例分割，以获取所述待测3D图像的实例；

通过预设的端到端深度学习空间目标检测网络预测所述实例的6D位姿；

将所述实例的6D位姿作为点云匹配的初始位姿，并通过预设的点云处理算法对所述实例进行定位。

第二方面，本发明实施例还提供了一种混合型3D视觉定位装置，其包括用于执行上述方法的单元。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现上述方法。

本发明实施例的技术方案，通过将所述实例的6D位姿作为点云匹配的初始位姿，并通过预设的点云处理算法对所述实例进行定位，从而能够极大地提高定位精度，满足实际生产中的高精度定位要求，提高产品的良率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种混合型3D视觉定位方法的流程示意图；

图2为本发明实施例提供的家具层架生产的实景图；

图3为本发明提供的混合型3D视觉定位方法在杆头定位中生成的3D点云图上进行定位的效果图；

图4为本发明提供的混合型3D视觉定位方法在杆头定位中生成的3D点云图上进行定位的另一效果图；

图5为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

请参阅图1，图1是本发明实施例提供的混合型3D视觉定位方法的流程示意图。如图所示，该方法包括以下步骤S1-S3。

S1，若接收到待测3D图像，对所述待测3D图像进行实例分割，以获取所述待测3D图像的实例。

具体实施中，若接收到待测3D图像，对所述待测3D图像进行实例分割，以获取所述待测3D图像的实例。每一实例对应3D图像中的一物体。

实例分割是计算机视觉的也重要研究方向，其不仅需要对物体进行像素级别的分类，还要在此基础上将同一类别不同个体分出来，即做到每个实例的分割。通过实例分割，可以获得图片中的每个物体包含的像素，从而实现像素水平的将每个物体从图片中分离开，有助于降低背景的干扰，提高算法的准确性。

在一实施例中，步骤S1，包括：通过预设的端到端深度学习实例分割算法对所述待测3D图像进行实例分割。

具体实施中，本实施例中，端到端深度学习实例分割算法为YOLACT(You OnlyLook At CoefficienTs)算法。采用YOLACT算法对所述待测3D图像进行实例分割。YOLACT是目前最快的实例分割深度学习算法，其将实例分割分为两个并行任务：针对每个图像首先生成一些列原型掩膜；然后针对每个实例预测原型掩膜系数。最后其通过基本的矩阵乘法配合sigmoid函数来处理两分支的输出，从而合成每个实例最终的分割结果。YOLACT算法在速度和精度上，达到了较好的平衡，是一个比较理想的实例分割算法。

需要说明的是，本领域技术人员也可以采用其它端到端深度学习实例分割算法，本发明不作具体限定。

在使用YOLACT算法进行实例分割之前，需要对所述YOLACT算法进行训练。

训练YOLACT算法需要手工对图像进行标注，标注采用开源标注工具labelme进行标注，利用标注好的数据集训练YOLACT算法，算法训练好后，利用YOLACT对分割出测试场景下的目标物体。

S2，通过预设的端到端深度学习空间目标检测网络预测所述实例的6D位姿

在本实施例中，所述端到端深度学习空间目标检测网络为DenseFusion网络。具体为，通过预设的DenseFusion网络预测所述实例的6D位姿。

需要说明的是，DenseFusion是由斯坦福大学李飞飞团队联合上海交通大学，于2019年提出的最新的6D位姿识别算法。

或者，本领域技术人员也可以采用其他端到端深度学习空间目标检测网络，本发明对此不做具体限定。

在一实施例中，所述端到端深度学习空间目标检测网络为DenseFusion网络时，以上步骤S2具体包括：

S21，通过预设的全卷积神经网络提取所述实例的彩色图信息。

S22，通过预设的点云数据深度学习模型提取所述实例的深度图信息。

S23，根据所述实例的彩色图信息以及深度图信息预测所述实例的待调整6D位姿。

S24，通过预设的全连接网络，对所述实例的待调整6D位姿进行微调以得到所述实例的6D位姿。

需要说明的是，在步骤S22中，所述点云数据深度学习模型为PointNet或者PointNet++。

PointNet是一种新型的处理点云数据的深度学习模型，已经在多种点云处理的任务上如分类、语义分割和目标识别等获得了验证。点云数据由无序数据点构成的一个集合来表示。PointNet的网络结构能够拟合任意的连续集合函数，具有很强的表征能力。本发明中PointNet也可以替换成PointNet++或其他可以直接处理点云的深度学习算法模型。

在一实施例中，步骤S2之前还包括：对所述DenseFusion网络进行训练。

训练过程包括如下步骤：

(1)收集训练数据集：深度学习算法训练依赖于大量的训练数据集，首先收集约1000张左右的算法训练数据。

(2)训练DenseFusion网络：使用训练数据集训练DenseFusion网络。

(3)使用DenseFusion进行初步定位：采用训练好的DenseFusion进行初步的定位。

(4)使用点云匹配算法进行高精度定位：将DenseFusion的初步定位结果，作为点云匹配的初始位姿，进行高精度的定位。

需要说明的是，在训练过程中将标注的训练数据集按照8:2的比例进行切分，80％用于网络训练，20％作为结果验证，以网络在验证集的损失作为算法评价标准，使用验证集损失最小的保存点作为最终使用的算法。

S3，将所述实例的6D位姿作为点云匹配的初始位姿，并通过预设的点云处理算法对所述实例进行定位。

具体实施中，将所述实例的6D位姿作为点云匹配的初始位姿，并通过预设的点云处理算法对所述实例进行定位。

本实施例中，点云处理算法为点云匹配算法。本领域技术人员也可以选用其他点云处理算法，本发明对此不作具体限定。

可选地，步骤S3之前还包括：将所述实例所在的区域从所述3D图像中裁剪出来，并合成点云。裁剪出实例所在的区域可去除掉背景，有效减少了背景的干扰。

需要说明的是，点云匹配算法的具体原理是求源点云(source cloud)和目标点云(target cloud)的旋转平移矩阵并将前者变化到后者相同的坐标系下，用公式表示如下：p_t＝Rp_s+T，其中，p_t为目标点云，p_s为原始点云，R为旋转矩阵，T为平移向量。

点云匹配主要使用ICP算法，主要过程如下：

用初始的旋转平移矩阵对源点云进行变换，得到的一个变换后的点云。然后将这个变换后的点云与目标点云进行比较，只要两个点云中存在距离小于预设的ICP的阈值阈值，我们就认为这两个点就是对应点。获得对应点后点云匹配会对R和T中的6个自由度进行优化(最小二乘等方法求解最优的旋转平移矩阵)。该优化会计算出一个新的R与T，会导致一些点的位置和对应点关系变化，因此，将源点云变换到目标点云的坐标系下，估计变换后源点云与目标点云的误差函数，若误差函数值大于阀值，则迭代进行上述运算直到满足给定的误差要求，比如R、T的变化量小于预设值或者邻近点对不再变化等。

在一具体的家具层架生产的实例中，需要将细杆杆头和锥套焊接到一起，具体如图2所示(方框内为焊接位置)。

参见图3-图4，图3为本发明提供的混合型3D视觉定位方法在杆头定位中生成的3D点云图上进行定位的效果图；图4为本发明提供的混合型3D视觉定位方法在杆头定位中生成的3D点云图上进行定位的另一效果图。由图可知，本发明在该场景下，准确率达到了100％，对比传统的算法具有较大的优势。

对应于以上混合型3D视觉定位方法，本发明还提供一种混合型3D视觉定位装置。该混合型3D视觉定位装置包括用于执行上述混合型3D视觉定位方法的单元，该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地，该混合型3D视觉定位装置包括分割单元、初始定位单元以及精度定位单元。

分割单元，若接收到待测3D图像，对所述待测3D图像进行实例分割，以获取所述待测3D图像的实例。

初始定位单元，通过预设的端到端深度学习空间目标检测网络预测所述实例的6D位姿。

精度定位单元，将所述实例的6D位姿作为点云匹配的初始位姿，并通过预设的点云处理算法对所述实例进行定位。

在一实施例中，所述端到端深度学习空间目标检测网络为DenseFusion网络，所述初始定位单元包括：

第一提取单元，用于通过预设的全卷积神经网络提取所述实例的彩色图信息；

第二提取单元，用于通过预设的点云数据深度学习模型提取所述实例的深度图信息；

预测单元，用于根据所述实例的彩色图信息以及深度图信息预测所述实例的待调整6D位姿；

微调单元，用于通过预设的全连接网络，对所述实例的待调整6D位姿进行微调以得到所述实例的6D位姿。

在一实施例中，所述分割单元包括：

计算单元，用于通过预设的端到端深度学习实例分割算法对所述待测3D图像进行实例分割。

在一实施例中，所述混合型3D视觉定位装置，还包括：

第一训练单元，用于对所述DenseFusion网络进行训练。

裁剪单元，用于将所述实例所在的区域从所述3D图像中裁剪出来，并合成点云。

第二训练单元，用于对所述YOLACT算法进行训练。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述混合型3D视觉定位装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述混合型3D视觉定位装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图5，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行一种混合型3D视觉定位方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种混合型3D视觉定位方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

在一实施例中，所述端到端深度学习空间目标检测网络为DenseFusion网络，处理器502在实现所述通过预设的端到端深度学习空间目标检测网络预测所述实例的6D位姿步骤时，具体实现如下步骤：

通过预设的全卷积神经网络提取所述实例的彩色图信息；

通过预设的点云数据深度学习模型提取所述实例的深度图信息；

根据所述实例的彩色图信息以及深度图信息预测所述实例的待调整6D位姿；

通过预设的全连接网络，对所述实例的待调整6D位姿进行微调以得到所述实例的6D位姿。

在一实施例中，处理器502在实现所述对所述待测3D图像进行实例分割步骤时，具体实现如下步骤：

通过预设的端到端深度学习实例分割算法对所述待测3D图像进行实例分割。

在一实施例中，处理器502在实现所述通过预设的端到端深度学习空间目标检测网络预测所述实例的6D位姿步骤之前，还实现如下步骤：

对所述DenseFusion网络进行训练。

在一实施例中，处理器502在实现所述将所述实例的6D位姿作为点云匹配的初始位姿，并通过预设的点云处理算法对所述实例进行定位步骤之前，还实现如下步骤：

将所述实例所在的区域从所述3D图像中裁剪出来，并合成点云。

在一实施例中，处理器502在实现所述通过预设的端到端深度学习实例分割算法对所述待测3D图像进行实例分割步骤之前，还实现如下步骤：

对所述YOLACT算法进行训练。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述端到端深度学习空间目标检测网络为DenseFusion网络，所述处理器在执行所述计算机程序而实现所述通过预设的端到端深度学习空间目标检测网络预测所述实例的6D位姿步骤时，具体实现如下步骤：

通过预设的全卷积神经网络提取所述实例的彩色图信息；

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述待测3D图像进行实例分割步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述通过预设的端到端深度学习空间目标检测网络预测所述实例的6D位姿步骤之前，还实现如下步骤：

对所述DenseFusion网络进行训练。

在一实施例中，所述处理器在执行所述计算机程序而实现所述通过预设的端到端深度学习实例分割算法对所述待测3D图像进行实例分割步骤之前，还实现如下步骤：

对所述YOLACT算法进行训练。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种混合型3D视觉定位方法，其特征在于，包括：

将所述实例的6D位姿作为点云匹配的初始位姿，并通过预设的点云处理算法对所述实例进行定位；

其中，所述端到端深度学习空间目标检测网络为DenseFusion网络，所述通过预设的端到端深度学习空间目标检测网络预测所述实例的6D位姿，包括：

通过预设的全卷积神经网络提取所述实例的彩色图信息；

2.根据权利要求1所述的混合型3D视觉定位方法，其特征在于，所述对所述待测3D图像进行实例分割，包括：

3.根据权利要求1所述的混合型3D视觉定位方法，其特征在于，所述通过预设的端到端深度学习空间目标检测网络预测所述实例的6D位姿之前，所述方法还包括：

对所述DenseFusion网络进行训练。

4.根据权利要求1所述的混合型3D视觉定位方法，其特征在于，所述将所述实例的6D位姿作为点云匹配的初始位姿，并通过预设的点云处理算法对所述实例进行定位之前，所述方法还包括：

5.根据权利要求2所述的混合型3D视觉定位方法，其特征在于，所述点云数据深度学习模型为PointNet或者PointNet++，所述点云处理算法为点云匹配算法，所述端到端深度学习实例分割算法为YOLACT算法。

6.根据权利要求5所述的混合型3D视觉定位方法，其特征在于，所述通过预设的端到端深度学习实例分割算法对所述待测3D图像进行实例分割之前，所述方法还包括：

对所述YOLACT算法进行训练。

7.一种混合型3D视觉定位装置，其特征在于，包括：

分割单元，若接收到待测3D图像，对所述待测3D图像进行实例分割，以获取所述待测3D图像的实例；

初始定位单元，通过预设的端到端深度学习空间目标检测网络预测所述实例的6D位姿；

精度定位单元，将所述实例的6D位姿作为点云匹配的初始位姿，并通过预设的点云处理算法对所述实例进行定位；

通过预设的全卷积神经网络提取所述实例的彩色图信息；

8.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现如权利要求1-6中任一项所述的方法。