CN113001552B

CN113001552B - 面向杂质性目标的机器人操作协同抓取方法、系统及设备

Info

Publication number: CN113001552B
Application number: CN202110290232.5A
Authority: CN
Inventors: 鲁涛; 卢宁; 蔡莹皓; 王硕
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2022-07-15
Anticipated expiration: 2041-03-16
Also published as: CN113001552A

Abstract

本发明属于机器人领域，具体涉及了一种面向杂质性目标的机器人操作协同抓取方法、系统及设备，旨在解决现有杂质目标抓取过程中难以适应动态环境的问题。本发明包括：根据视觉传感器获得工作区域的初始彩色图像和初始深度图像，分别提取第一图像、第二图像；所述第一图像为目标可见情况下的局部掩膜图像，所述第二图像为目标不可见情况下最大物体聚集区域的局部全一掩膜图像；利用所述第一图像或所述第二图像，采用操作动作协调机制，利用预构建的操作动作原语策略网络获取输出动作；机器人基于所述输出动作转化的控制指令进行动作。本发明可实现密集杂乱环境下杂质性目标的鲁棒抓取，并且不需要庞大的训练数据，能够适应动态环境。

Description

面向杂质性目标的机器人操作协同抓取方法、系统及设备

技术领域

本发明属于机器人领域，具体涉及了一种面向杂质性目标的机器人操作协同抓取方法、系统及设备。

背景技术

机器人抓取操作在工业生产、家庭服务、医疗健康、太空探索等领域有广泛的应用。然而受到物体形态、材质、环境动态性等复杂因素的影响，如何进行智能化地抓取仍是机器人领域面临的一个具有挑战性的问题。

目前机器人抓取操作技术研究可以分为单一技能抓取操作技术和多技能协同抓取操作技术两大类。机器人单一技能抓取操作，即传统的直接抓取操作，是指通过对抓取目标或抓取场景的分析，控制机械臂末端机械手完成对物体的抓取。但在密集场景下，物体之间间隙很小且相互遮挡，抓取动作由于受到周边物体的影响而难以实施。机器人多技能协同抓取操作是指机器人通过多种操作动作(包括抓取、推动、滑动、吸取等)的组合实现抓取目的。该方式通过多种动作技能的组合改变杂乱密集场景中物体的分布，为更有效率的抓取提供条件，可大大提高机器人抓取操作的成功率以及对环境的适应能力。

在工业生产领域，杂质物体的挑拣一直由人工完成，费时费力且难以获得满意的效果。现有的机器人抓取操作虽然可以针对目标开展抓取，但存在训练数据庞大、难以适应动态环境等问题。

发明内容

为了解决现有技术中的上述问题，即为了解决现有杂质目标抓取过程中难以适应动态环境的问题，本发明提供了一种面向杂质性目标的机器人操作协同抓取方法，该方法包括：

步骤S100，根据视觉传感器获得工作区域的初始彩色图像和初始深度图像，分别提取第一图像、第二图像；所述第一图像为目标可见情况下的局部掩膜图像，所述第二图像为目标不可见情况下最大物体聚集区域的局部全一掩膜图像；

步骤S200，利用所述第一图像或所述第二图像，采用操作动作协调机制，利用预构建的操作动作原语策略网络获取输出动作；

步骤S300，机器人基于所述输出动作转化的控制指令进行动作。

在一些优选的实施方式中，所述第一图像，其提取方法为：

基于所述彩色图像，采用显著性检测算法，获取图像中显著性数值大于或等于设定阈值的区域，输出以最大区域为中心的局部掩膜图像。

在一些优选的实施方式中，所述第二图像，其提取方法为：

基于所述深度图像，采用密度估计算法，检测工作平面中的物体聚集区域的设定类别的几何信息大于或等于设定阈值的区域，输出以最大区域为中心的局部全一掩膜图像。

在一些优选的实施方式中，所述设定类别的几何信息包括面积和高度；

设定类别的几何信息大于或等于设定阈值的区域，为面积大于或等于面积阈值且最大高度大于或等于高度阈值的区域。

在一些优选的实施方式中，所述操作动作原语策略网络采用全卷积神经网络架构；输入为第三图像、第四图像，所述第三图像、第四图像分别为同等大小的彩色图像、深度图像；输出为相同尺寸的Q值表；操作动作原语策略网络的训练采用深度强化学习算法DQN进行，当动作执行成功率超过设定阈值时，策略网络学习停止。

在一些优选的实施方式中，所述操作动作原语策略网络为多个，包括推动动作原语策略网络和抓取动作原语策略网络。

在一些优选的实施方式中，若成功提取所述第二图像，所述操作动作原语策略网络，其输入的第三图像为I_ccd图像，第四图像为I_cc图像；

所述I_ccd图像为第五图像和第六图像与操作后的图像；所述第五图像、所述第六图像分别为基于所述局部全一掩膜图像对所述初始彩色图像和所述初始深度图像的裁剪图片；

所述I_cc图像为所述局部全一掩膜图像和所述I_ccd与操作后的图像。

在一些优选的实施方式中，若成功提取所述第一图像，所述操作动作原语策略网络，其输入的第三图像为I_tcd图像，第四图像为I_ct图像；

所述I_tcd图像为第七图像和第八图像与操作后的图像；所述第七图像、所述第八图像分别为基于所述局部掩膜图像对所述初始彩色图像和所述初始深度图像的裁剪图片；

所述I_ct图像为所述局部掩膜图像和所述I_tcd与操作后的图像。

本发明的第二方面，提出了一种面向杂质性目标的机器人操作协同抓取系统，该系统包括第一单元、第二单元、第三单元；

所述第一单元，配置为根据视觉传感器获得工作区域的初始彩色图像和初始深度图像，分别提取第一图像、第二图像；所述第一图像为目标可见情况下的局部掩膜图像，所述第二图像为目标不可见情况下最大物体聚集区域的局部全一掩膜图像；

所述第二单元，配置为利用所述第一图像或所述第二图像，采用操作动作协调机制，利用预构建的操作动作原语策略网络获取输出动作；

所述第三单元，配置为机器人基于所述输出动作转化的控制指令进行动作。

本发明的第三方面，提出了一种设备，其特征在于，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的面向杂质性目标的机器人操作协同抓取方法。

本发明的第四方面，提出了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的面向杂质性目标的机器人操作协同抓取方法。

本发明的有益效果：

本发明以视觉传感信息作为输入，可实现密集杂乱环境下杂质性目标的鲁棒抓取，并可通过多种动作协同，主动寻找目标，不需要庞大的训练数据，能够适应动态环境。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明实施例中的操作协同抓取系统组成示意图；

图2是本发明实施例面向杂质性目标的机器人操作协同抓取方法流程第一示意图；

图3是本发明实施例面向杂质性目标的机器人操作协同抓取方法流程第二示意图；

图4是本发明实施例中目标显著性检测示例图；

图5是本发明实施例中遮挡区域推理示例图；

图6是本发明实施例中遮挡区域推理停止条件示意图；

图7是本发明实施例中图片与操作示意图；

图8是本发明实施例中以目标为中心的分情况示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供一种面向杂质性目标的机器人操作协同抓取方法，该方法包括：

为了更清晰地对本发明进行说明，下面结合附图对本发明实施例中各步骤展开详述。

在进行本实施例的面向杂质性目标的机器人操作协同抓取方法的技术方案阐述之前，先对应用本实施例方法的抓取系统进行描述。图1示例性示出了本实施例中面向杂质性目标的操作协同抓取系统组成。如图1所示，机械臂工作平面1为44.8*44.8平方厘米正方形区域，包含木色物体以及少量的彩色杂质性目标；视觉传感器2为华硕彩色深度相机Xtion PRO 2，安装在工作平面1正上方，可获取场景的RGB-D图像(同一场景的彩色图像、深度图像对)；视觉传感器2通过网络3将图像传递给控制计算机4，控制计算机4依据视觉图像输出最终执行的动作，并通过网络3将动作命令传递给机械臂控制箱5；机械臂控制箱5控制UR5机械臂6和Robotiq_85两指夹手7执行操作。Robotiq_85夹手打开两指间最大距离为8.5厘米。

在本实施例中，定义了两个动作原语：推动和抓取。动作原语参数化为向量(x,y,z,ψ)，其中(x,y,z)表示夹手的中间位置，ψ∈[0,2π]表示夹手的旋转角度。在执行抓取动作时，移动机器人夹手到坐标点(x,y,z)上方3厘米处并旋转ψ，然后下降到坐标点(x,y,z)并合上手指。在执行推动动作时，闭合夹手并移动至坐标点(x,y,z)后，沿方向ψ进行10厘米的线性移动。

图2、图3示出了本发明实施例中面向杂质性目标的机器人操作协同抓取流程。本实施例协同抓取流程如下：从固定安装的深度彩色相机获得224*224像素的场景RGB-D图像(可以是目标可见场景，还可以是目标不可见场景)，然后将其输入到注意力机制模块，该模块包括图像显著性检测子模块、遮挡区域推理子模块，其中，目标显著性检测子模块用于获得显著性图，检测场景中包含杂质性目标物体的高显著性区域，遮挡区域推理子模块获得聚类图后基于密度估计预测目标可能被遮挡的区域。当目标显著性检测子模块没有发现目标时，注意力机制模块将以密度最高的位置为中心输出112*112像素的局部区域掩膜图像，并结合场景全局图像输入到推动策略网络，获取动作原语输出，并基于推动Q值表选取最佳推动动作分散指定的物体密集区域。当场景中物体密度趋于均匀时，意味着目标被遮挡的概率很低，机器人将停止推动。当场景中有目标时，注意力机制模块将输出显著性最高位置为中心的112*112像素的局部掩膜图像，并结合场景图像同时输入到推动策略网络和抓取策略网络，基于抓取Q值表和推动Q值表，通过最大Q值选择机制输出最佳动作。系统重复上述过程，直到环境中所有目标物体被抓起。图2中是否存在目标的判断，具体为图像显著性检测子模块检测的可见目标、以及遮挡区域推理子模块判断的不可见目标。

对本发明实施例的面向杂质性目标的机器人操作协同抓取方法进行详细展开，包括步骤S100-步骤S300。在下述描述中目标为被抓取对象，即杂质性目标。

步骤S100，根据视觉传感器获得工作区域的初始彩色图像和初始深度图像，分别提取第一图像、第二图像；所述第一图像为目标可见情况下的局部掩膜图像，所述第二图像为目标不可见情况下最大物体聚集区域的局部全一掩膜图像。

本实施例中利用注意力机制模块分别提取第一图像、第二图像，注意力机制模块包括图像显著性检测子模块、遮挡区域推理子模块，通过图像显著性检测子模块提取第一图像，通过遮挡区域推理子模块提取第二图像。

图像显著性检测子模块，基于彩色图像信息，采用显著性检测算法，检测图像中显著性数值大于或等于阈值的区域，并输出以其为中心的局部掩膜图像(第一图像)。若存在多个显著性数值大于或等于阈值的区域，则输出以最大区域为中心的局部掩膜图像。

图4示例性示出了本实施例中目标显著性检测实例。采用VOCUS2方法(Visualobject detection with a computational attention system 2，改进的基于计算注意系统的视觉目标检测)计算图像中物体的显著性。从初始彩色图像I_c中得到一个显著性映射M，若M存在多个显著区域m₀,m₁,……,m_k，从显著性数值大于或等于阈值的区域选取最高显著区域m_t为的中心为中心的112*112像素的局部掩膜图像I_m。VOCUS2方法在已有论文中已有详细描述，此处不再展开详述，出处论文为：S.Frintrop,T.Werner,and G.M.Garc′1a,“Traditional saliency reloaded:A good old model in new shape,”in 2015IEEEConference on Computer Vision and Pattern Recognition(CVPR),Jun.2015,pp.82–90,doi:10.1109/CVPR.2015.7298603.

遮挡区域推理子模块，基于深度图像信息，采用密度估计算法，检测工作平面中的物体聚集区域的设定类别的几何信息大于或等于设定阈值的区域，并输出以其中心为中心的局部全一掩膜图像(第二图像)。若存在多个满足上述条件的区域，则输出以最大区域为中心的局部全一掩膜图像。设定类别的几何信息大于或等于设定阈值的区域，为面积大于或等于面积阈值且最大高度大于或等于高度阈值的区域。

图5示例性示出了本实施例中遮挡区域推理实例。采用具有噪声的基于密度的空间聚类方法(Density-Based Spatial Clustering of Application with Noise，DBSCAN)评估场景中物体的密度分布。通过DBSCAN可以获得初始深度图像I_d中的物体聚集区域集合C，其中，最大的聚集区域c_t将被选为首先要探索的地方。遮挡区域推理模块将输出以c_t的中心为中心的112*112像素的局部全一掩膜图像I_dm。掩膜图像本来应该由0、1组成，0代表不是目标，1代表是目标。此处无法看见目标，于是输出一张全部是1的局部图像，即本实施例中的全一掩膜图像。

步骤S200，利用所述第一图像或所述第二图像，采用操作动作协调机制，利用预构建的操作动作原语策略网络获取输出动作。

操作动作原语策略网络采用全卷积神经网络架构；输入为第三图像、第四图像，所述第三图像、第四图像分别为同等大小的彩色图像、深度图像；输出为相同尺寸的Q值表；操作动作原语策略网络的训练采用深度强化学习算法DQN进行，当动作执行成功率超过设定阈值时，策略网络学习停止。

本实施例中，在动作原语策略框架构建方面，采用全卷积动作值函数方法。策略以两张RGB-D(彩色-深度)图像作为输入，对操作动作Q值进行逐像素预测。首先，将输入的彩色高度图旋转16个角度，只考虑旋转后图像的水平推(向右)和水平抓取；然后将高度图像的颜色通道(RGB)与克隆深度通道(DDD)分别作为两个DenseNet网络的输入，并依次进入通道连接、带非线性激活函数(ReLU)和空间批处理规范化的1×1卷积层和双线性上采样；最后，输出推动动作和抓取动作在各个像素位置和方向上对应的Q值。Q值最高的动作代表该操作原语的最佳动作。

操作动作原语策略网络为多个，本实施例包括推动动作原语策略网络和抓取动作原语策略网络。

若成功提取所述第二图像(即存在被遮挡目标，目标不可见)，所述操作动作原语策略网络输入的第三图像为I_ccd图像，第四图像为I_cc图像；I_ccd图像为第五图像和第六图像与操作后的图像；第五图像、第六图像分别为基于所述局部全一掩膜图像对初始彩色图像I_c和初始深度图像I_d的裁剪图片，以图像I_dm中心点为中心、与图像I_dm大小相同；I_cc图像为局部全一掩膜图像I_dm和所述I_ccd与操作后的图像。

若成功提取所述第一图像(即目标可见)，所述操作动作原语策略网络输入的第三图像为I_tcd图像，第四图像为I_ct图像；I_tcd图像为第七图像和第八图像与操作后的图像；第七图像、第八图像分别为基于局部掩膜图像I_m对初始彩色图像I_c和初始深度图像I_d的裁剪图片，以图像I_m中心点为中心、与图像I_m的大小相同；I_ct图像为局部掩膜图像I_m和所述I_tcd与操作后的图像。

图7中(a)为不可见情况下，存在被遮挡目标的聚集区域的图片的与操作，(b)为可见情况下的被抓去目标图片的与操作。

策略网络训练中奖励函数包括以目标为中心的分散度奖励函数以及抓取奖励函数。

以目标为中心的分散度奖励函数，计算目标与周围物体在局部场景中的距离，当目标与周围物体之间的距离大于打开夹手张开距离η时，目标物体的抓取不会受到影响。物体之间的分散距离d(p_i,p_j)定义为：

其中，p_t、p_j分别表示目标物体t和其他物体j的中心坐标。在局部场景中所有物体的数目为k的情况下，以目标为中心的分散度α_t被定义为：

α_t越大，目标物体t与其他物体的分离程度越高。

定义分散度奖励函数R_p如下：

抓取动作策略网络训练的奖励函数R_g如下：

图8示例性示出了本实施例中以目标为中心的分散度，其中(a)为密集场景下的目标物体在圆形的局部场景中与周围物体的分散情况示意图，(b)独立的目标物体分散情况示意图。首先计算目标与周围物体在局部场景中的距离，当目标与周围物体之间的距离大于打开夹手张开距离8.5厘米时，目标物体的抓取不会受到影响。因此，物体之间的分散距离d(p_i,p_j)为：

以局部场景中所有物体的数目为k为例，以目标为中心的分散度α_t为：

在本实施例中，推动动作的目标是希望目标物体与其他物体分散开来。因此，如果推动动作前后场景的以目标为中心的分散度差值α_t-α_t-1大于阈值δ，则认为推动动作成功，否则，推动动作被视为失败。为了减少噪声干扰，可以设置δ＝0.005。

推动动作策略网络训练的奖励函数R_p如下：

本实施例中，在通过操作动作原语策略网络进行动作获取前，需要进行是否存在目标的判断(包括可见目标和被遮挡目标)，在获取可见目标时，通过抓取动作原语策略网络和推动动作原语策略网络，利用推动动作和抓取动作之间的协同作用，进行杂质目标的抓取(基于抓取Q值表和推动Q值表，通过最大Q值选择机制输出最佳动作)；在判断存在遮挡目标时，通过推动动作原语策略网络获取推动动作，将聚集区域的多个物体分散，以使被遮挡目标显露出来。使聚集区域分散的推动动作可能一次达不到效果，这样就需要多次推动操作，每次推动前都需要进行遮挡区域推理，对遮挡区域推理停止条件如图6所示，图6中的(a)为场景侧面图，图6中的(b)为被分散后的场景图，当场景中的最大聚集区域高度低于高度阈值5厘米或聚集区域面积S小于指定的面积阈值25平方厘米时，认为场景中不再存在目标。

如果只有一个机械臂的情况下，每次只能抓取一个目标，则优选对可见目标进行抓取，然后再对存在被遮挡目标的最大聚集区域通过推动动作进行分散，并对显露出来的目标进行抓取，然后再对下一个存在被遮挡目标的最大聚集区域进行同样的操作，直至不存在被遮挡目标时结束，即所有被判定为存在被遮挡目标的聚集区域均被分散，工作平面中物体分布均匀，且无目标时结束。

本发明第二实施例的面向杂质性目标的机器人操作协同抓取系统，包括第一单元、第二单元、第三单元；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的面向杂质性目标的机器人操作协同抓取系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

本发明第四实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的面向杂质性目标的机器人操作协同抓取方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种面向杂质性目标的机器人操作协同抓取方法，其特征在于，该方法包括：

所述操作动作原语策略网络采用全卷积神经网络架构；输入为第三图像或第四图像，所述第三图像、第四图像分别为同等大小的彩色图像、深度图像；输出为相同尺寸的Q值表；操作动作原语策略网络的训练采用深度强化学习算法DQN进行，当动作执行成功率超过设定阈值时，策略网络学习停止；

操作动作原语策略网络输入为第三图像或第四图像，具体为：

若利用第一图像采用操作动作协调机制，利用预构建的操作动作原语策略网络获取输出动作，设置所述操作动作原语策略网络的输入的第三图像为I_tcd图像，第四图像为I_ct图像；

所述I_tcd图像为第七图像和第八图像进行与操作后获得的图像；所述第七图像、所述第八图像分别为基于所述局部掩膜图像对所述初始彩色图像和所述初始深度图像的裁剪图片；

所述I_ct图像为所述局部掩膜图像和所述I_tcd进行与操作后获得的图像；

若利用第二图像采用操作动作协调机制，利用预构建的操作动作原语策略网络获取输出动作，设置操作动作原语策略网络的输入的第三图像为I_ccd图像，第四图像为I_cc图像；

所述I_ccd图像为第五图像和第六图像进行与操作后获得的图像；所述第五图像、所述第六图像分别为基于所述局部全一掩膜图像对所述初始彩色图像和所述初始深度图像的裁剪图片；

所述I_cc图像为所述局部全一掩膜图像和所述I_ccd进行与操作后获得的图像；

2.根据权利要求1所述的面向杂质性目标的机器人操作协同抓取方法，其特征在于，所述第一图像，其提取方法为：

3.根据权利要求1所述的面向杂质性目标的机器人操作协同抓取方法，其特征在于，所述第二图像，其提取方法为：

4.根据权利要求3所述的面向杂质性目标的机器人操作协同抓取方法，其特征在于，所述设定类别的几何信息包括面积和高度；

5.根据权利要求1所述的面向杂质性目标的机器人操作协同抓取方法，其特征在于，所述操作动作原语策略网络为多个，包括推动动作原语策略网络和抓取动作原语策略网络。

6.一种面向杂质性目标的机器人操作协同抓取系统，其特征在于，该系统包括第一单元、第二单元、第三单元；

7.一种设备，其特征在于，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求1-5任一项所述的面向杂质性目标的机器人操作协同抓取方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求1-5任一项所述的面向杂质性目标的机器人操作协同抓取方法。