CN115384971A

CN115384971A - 透明对象料箱拾取

Info

Publication number: CN115384971A
Application number: CN202210488483.9A
Authority: CN
Inventors: 汤特; 加藤哲朗
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2021-05-25
Filing date: 2022-05-06
Publication date: 2022-11-25
Also published as: US20220379475A1; DE102022107311A1; JP2022181173A

Abstract

一种识别待由机器人从对象的料箱中拾取的诸如透明对象的对象的系统和方法。该方法包括使用3D相机获得多个对象的2D红‑绿‑蓝(RGB)彩色图像和2D深度图图像，其中深度图图像中的像素被分配识别从相机到该多个对象的距离的值。该方法使用深度学习掩码R‑CNN(卷积神经网络)生成该多个对象的分割图像，深度学习掩码R‑CNN执行图像分割过程，图像分割过程从RGB图像中提取特征并向像素分配标签，使得分割图像中的每个对象具有相同的标签。然后该方法使用分割图像和深度图图像识别用于拾取对象的位置。

Description

透明对象料箱拾取

技术领域

本公开一般地涉及用于识别待由机器人从多个对象的料箱中拾取的对象的系统和方法，并且更具体地涉及用于识别待由机器人从多个对象的料箱中拾取的诸如透明对象之类的对象的系统和方法，其中所述方法采用将标签分配至料箱的图像中的每个像素的图像分割过程。

背景技术

机器人执行包括拾取和放置操作的多个任务，其中机器人从例如料箱之类的一个位置拾取和移动对象至诸如传送机之类的另一位置。为了识别待从料箱中拾取的对象，一些机器人系统使用产生料箱的2D红-绿-蓝(RGB)彩色图像和料箱的2D灰度深度图图像的3D相机，其中在深度图图像中的每个像素具有限定从相机到具体对象的距离的值，即越靠近对象的像素其值越低。深度图图像识别到相机视场中点云中的点的距离测量值，其中点云是由某个坐标系限定的数据点的集合，每个点都有x、y和z值。

为此目的，有两种常规类型的点云分析，即无模型点云分析和基于模型的点云分析。无模型点云分析包括识别点云中自相机的法线方向的点簇并相对于彼此分割这些簇，其中每个点云段都被识别为一个对象。基于模型的点云分析包括从对象的CAD模型创建模板，然后在点云中搜索该模板。然而，如果正被机器人拾取的对象是透明的，则光会穿过对象传播并且不会从对象的表面有效地反射。因此，相机生成的点云并不是对象的有效表示，并且深度图图像也不可靠，因此不能正确识别对象以进行拾取。

发明内容

以下讨论公开并描述了用于识别待由机器人从多个对象的料箱中拾取的对象的系统和方法。该方法包括使用3D相机获得该多个对象的2D红-绿-蓝(RGB)彩色图像和2D深度图图像，其中深度图图像中的各个像素被分配识别从相机到该多个对象的距离的值。该方法使用深度学习掩码R-CNN(卷积神经网络)生成该多个对象的分割图像，该深度学习掩码R-CNN执行图像分割过程，图像分割过程从RGB图像中提取特征并向该各个像素分配标签，使得分割图像中的每个对象具有相同的标签。然后，该方法使用分割图像和深度图图像识别用于拾取对象的位置，其中每次机器人从该多个对象的组中拾取对象时，执行获取彩色图像、获取深度图图像、生成分割图像和识别用于拾取对象的位置。

本发明的附加特征将结合附图从以下描述和所附权利要求中变得显而易见。

附图说明

图1是包括从料箱中拾取出对象的机器人的机器人系统的图示；

图2是图1示出的机器人系统中的从料箱中拾取对象的料箱拾取系统的示意性框图；以及

图3是与图2示出的系统分离的分割模块的示意性框图。

具体实施方式

对本公开实施例的对涉及用于识别待由机器人从多个对象的料箱中拾取的对象的系统和方法的以下讨论，其中该方法采用将标签分配给料箱的图像中的每个像素的图像分割过程，本质上仅仅是示例性的，并且决不旨在限制本发明或其应用或用途。例如，该系统和方法具有用于识别待被机器人拾取的透明对象的应用。然而，该系统和方法可以具有其它应用。

图1是包括机器人12的机器人系统10的图示，该机器人12具有末端执行器14，该末端执行器14被示为从料箱18拾取例如为透明瓶子的多个对象16。系统10旨在表示可以从这里的讨论中受益的任何类型的机器人系统，其中机器人12可以是适用于该目的的任何机器人。3D相机20被定位以拍摄料箱18的自上而下的图像并将它们提供给控制机器人12的运动的机器人控制器22。因为该多个对象16可以是透明的，所以控制器22不能依赖于由相机20提供的深度图图像来识别该多个对象16在料箱18中的位置。

如以下将详细讨论的，机器人控制器22采用允许机器人12拾取该多个对象16而不必依赖准确的深度图图像的算法。更具体地说，该算法使用来自3D相机20的RGB图像中的像素的不同颜色来执行图像分割过程。图像分割是将标签分配给图像中的每个像素以使得具有相同标签的像素共享某些特征的过程。因此，分割过程预测哪个像素属于该多个对象16中的哪个。

现代图像分割技术可以采用深度学习技术。深度学习是一种特殊类型的机器学习，它通过将某个现实世界环境表示为不断增加的复杂概念的层次结构来提供更好的学习性能。深度学习通常采用一种软件结构，该软件结构包括执行非线性处理的几层神经网络，其中每个连续层接收来自上一层的输出。通常，这些层包括从传感器接收原始数据的输入层、从数据中提取抽象特征的多个隐藏层，以及基于来自隐藏层的特征提取来识别特定事物的输出层。神经网络包括神经元或节点，每个神经元或节点都有一个“权重”，该“权重”乘以节点的输入，以获得某事是否正确的概率。更具体地说，每个节点都有一个权重，该权重是一个浮点数，其与该节点的输入相乘以生成该节点的输出，该输出占输入的某个比例。通过使神经网络在监督处理下分析一组已知数据并通过最小化成本函数以允许网络获得正确输出的最高概率来初始“训练”或设置权重。

图2是料箱拾取系统30的示意性框图，该系统是机器人系统10中的控制器22的一部分，该系统操作以从料箱18中拾取该多个对象16。系统30从相机20接收料箱18的顶视图的2D RGB图像32和料箱18的顶视图的2D深度图图像34，其中深度图图像34可能不可靠，因为该多个对象16能够是透明的。图像32被提供给执行图像分割过程的分割模块36，其中图像32中的每个像素被分配特定标签并且其中与相同对象16相关联的像素具有相同标签。

图3是与系统30分离的模块36的示意框图。RGB图像32被提供给特征提取模块42，其执行从图像32中提取特征的滤波过程。例如，模块42可以包括基于学习的神经网络，其从图像32中提取梯度、边缘、轮廓、基本形状等，并以已知的方式提供RGB图像32的提取特征图像44。特征图像44被提供给区域提议模块50，其使用神经网络分析RGB图像32中的识别的特征并提议或识别边界框图像54中的多个边界框52，这些边界框52识别该多个对象16中的一个存在于图像54中边界框52的位置处的概率。边界框图像54被提供给二元分割模块56，其使用神经网络评估像素是否属于该多个边界框52中的一个。像素被分配用于特定对象16的值，从而生成2D分割图像58，其通过诸如颜色的不同标记来识别该多个对象16。因此，所描述的图像分割过程是深度学习掩码R-CNN(卷积神经网络)的改进形式。

然后将具有x-y像素坐标的2D分割图像58提供给中心像素模块60，其确定在图像58中该多个对象16的一个的中心像素的x-y坐标，其中初步提供对象16被拾取的次序的预安排过程。选定对象16的所识别的中心像素与计算该对象16的中心像素的x-y-z笛卡尔坐标的深度图图像34一起被提供给笛卡尔坐标模块62，其中深度图图像34评估或预测每个像素在现实世界中的位置，尽管该预测不是很可靠。该对象16的中心像素的x-y-z坐标然后用于在抓取位置模块64中识别用于定位末端执行器14的x-y-z抓取位置。选定对象16的中心像素的x-y坐标也被发送到抓取定向模块66，其使用例如为本领域技术人员所熟知的针孔相机模型基于从相机24到对象16的中心像素的射线方向确定机器人12的抓取定向，即滚动、俯仰和偏航，其中末端执行器14在其正在拾取对象16时的运动将沿着射线方向移动并与射线方向对齐。因为深度图图像34不能提供相机24和对象16之间的准确距离，所以需要确定自相机24的射线方向。

末端执行器14的抓取位置和末端执行器14的抓取定向在抓取姿势模块68中组合以提供末端执行器14的抓取姿势，其中抓取姿势包括末端执行器14的x-y-z坐标以及偏航、俯仰和滚动位置，以提供末端执行器14沿射线方向到对象16的接近方向。碰撞检查模块70确定抓取姿势是否将导致末端执行器14沿计算的射线方向与料箱18的底部发生碰撞，其中到料箱18底部的距离是已知的。如果抓取姿势会导致沿射线方向与料箱18发生碰撞，则在安全缓冲区模块72中创建安全缓冲区以限制机器人12沿射线方向的运动。

当末端执行器14沿射线方向移动时，它最终会接触到被拾取的对象16，其中，在这个实施例中，末端执行器14使用真空吸盘(未示出)来拾取对象16。接触检测模块74通过检测真空中的压力差来检测真空吸盘已经与对象16接触。机器人12停止其运动并在拾取模块76处拾取对象16或到达缓冲距离，在此它将不会拾取对象16。一旦对象16被机器人12拾取并移动，相机20将拍摄料箱18的新图像以拾取下一个对象16。这个过程一直持续到该多个对象16的全部都已经被拾取。

如本领域技术人员将充分理解的，这里讨论的用于描述本公开的若干和各种步骤和处理可以指由计算机、处理器或其它电子计算设备使用电现象操纵和/或转换数据来执行的操作。那些计算机和电子设备可以使用各种易失性和/或非易失性存储器，其包括具有存储在其上的可执行程序的非瞬态计算机可读介质，该可执行程序包括能够由计算机或处理器执行的各种代码或可执行指令，其中存储器和/或计算机可读介质可以包括所有形式和类型的存储器和其它计算机可读介质。

前述讨论仅公开和描述了本公开的示例性实施例。本领域的技术人员将从这样的讨论以及从附图和权利要求中容易地认识到，可以在其中做出各种改变、修改和变化而不背离如在所附权利要求中限定的本发明的精神和范围。

Claims

1.一种用于从多个对象的组中拾取对象的方法，所述方法包括：

使用3D相机获取所述多个对象的2D红-绿-蓝(RGB)彩色图像；

使用所述3D相机获取所述多个对象的2D深度图图像，其中在所述深度图图像中的各个像素被分配识别从所述相机到所述多个对象的距离的值；

通过执行图像分割过程来生成所述多个对象的分割图像，所述图像分割过程从所述RGB图像中提取特征并且将标签分配给所述分割图像中的各个像素，使得所述分割图像中的每个对象具有相同的标签；以及

使用所述分割图像和所述深度图图像来识别用于拾取所述对象的位置。

2.根据权利要求1所述的方法，其中，生成分割图像包括使用深度学习掩码R-CNN(卷积神经网络)。

3.根据权利要求1所述的方法，其中，生成分割图像包括根据所提取的特征来生成多个边界框，所述多个边界框识别所述多个对象中的一个存在于特定位置的概率。

4.根据权利要求3所述的方法，其中，生成多个边界框包括使用区域提议过程。

5.根据权利要求3所述的方法，其中，生成分割图像包括提供二元分割，其确定哪些图像像素属于哪个边界框。

6.根据权利要求1所述的方法，其中，识别用于拾取所述对象的位置包括识别在所述分割图像中所述对象的中心像素以及使用所述分割图像和所述深度图图像来计算所述中心像素的x-y-z坐标。

7.根据权利要求6所述的方法，其中，识别用于拾取所述对象的位置包括确定用于拾取所述对象的x-y-z抓取位置。

8.根据权利要求7所述的方法，其中，识别用于拾取所述对象的位置包括识别用于拾取所述对象的抓取定向，所述抓取定向由从所述相机到所述中心像素的射线方向限定。

9.根据权利要求8所述的方法，其中，所述射线方向由针孔相机模型确定。

10.根据权利要求8所述的方法，其中，识别用于拾取所述对象的位置包括使用所述抓取位置和所述抓取定向来确定用于拾取所述对象的抓取姿势。

11.根据权利要求10所述的方法，其中，所述对象被机器人拾取并且所述抓取姿势确定机器人末端执行器的姿势。

12.根据权利要求11所述的方法，还包括为所述末端执行器提供碰撞限制。

13.根据权利要求1所述的方法，其中，每次从所述多个对象的组中拾取对象时执行获取彩色图像、获取深度图图像和生成分割图像。

14.根据权利要求1所述的方法，其中，所述多个对象是透明的。

15.根据权利要求1所述的方法，其中，所述多个对象具有多于一个形状。

16.一种用于使用机器人从多个透明对象的组中拾取透明对象的方法，所述方法包括：

使用3D相机获得所述多个对象的2D红-绿-蓝(RGB)彩色图像；

使用3D相机获得所述多个对象的2D深度图图像，其中在所述深度图图像中的各个像素被分配识别从所述相机到所述多个对象的距离的值；

使用深度学习掩码R-CNN(卷积神经网络)通过执行图像分割过程来生成所述多个对象的分割图像，，所述图像分割过程从所述RGB图像中提取特征并向所述分割图像中的各个像素分配标签，使得所述分割图像中的每个对象具有相同的标签；和

使用所述分割图像和所述深度图图像来识别用于拾取所述对象的位置，其中，每次由所述机器人从所述多个对象的组中拾取对象时执行获取彩色图像、获取深度图图像、生成分割图像和识别用于拾取所述对象的位置。

17.根据权利要求16所述的方法，其中，生成分割图像包括使用区域提议过程根据所提取的特征生成多个边界框，以及提供确定哪些图像像素属于哪个边界框的二元分割，所述多个边界框识别所述多个对象中的一个存在于特定位置的概率。

18.根据权利要求16所述的方法，其中，识别用于拾取所述对象的位置包括识别在所述分割图像中所述对象的中心像素，使用所述分割图像和所述深度图图像计算所述中心像素的x-y-z坐标，确定所述机器人的用于拾取所述对象的x-y-z抓取位置，使用针孔相机模型来识别所述机器人的用于拾取所述对象的抓取定向，并使用所述抓取位置和所述抓取定向来确定所述机器人的用于拾取所述对象的抓取姿势，所述抓取定向由从所述相机到所述中心像素的射线方向限定。

19.一种用于使用机器人从多个对象的组中拾取对象的机器人系统，所述系统包括：

3D相机，其提供所述多个对象的2D红-绿-蓝(RGB)彩色图像和2D深度图图像；

深度学习掩码R-CNN(卷积神经网络)，其通过执行图像分割过程生成所述多个对象的分割图像，所述图像分割过程从所述RGB图像中提取特征并向所述分割图像中的各个像素分配标签，使得所述分割图像中的每个对象具有相同的标签；和

用于使用所述分割图像和所述深度图图像识别用于拾取所述对象的位置的装置，其中每次所述机器人从所述多个对象的组中拾取对象时执行获取彩色图像、获取深度图图像、生成分割图像和识别用于拾取所述对象的位置。

20.根据权利要求19所述的系统，其中，所述用于识别用于拾取所述对象的位置的装置识别在所述分割图像中所述对象的中心像素，使用所述分割图像和所述深度图图像计算所述中心像素的x-y-z坐标，确定所述机器人的用于拾取所述对象的x-y-z抓取位置，使用针孔相机模型来识别所述机器人的用于拾取所述对象的抓取定向，并使用所述抓取位置和所述抓取定向来确定所述机器人的用于拾取所述对象的抓取姿势，所述抓取定向由从所述相机到所述中心像素的射线方向限定。