CN116664843A

CN116664843A - 一种基于rgbd图像和语义分割的残差拟合抓取检测网络

Info

Publication number: CN116664843A
Application number: CN202310654572.0A
Authority: CN
Inventors: 张向燕; 张勤俭; 李海源; 沈勇; 王柯涵; 王勇
Original assignee: Beijing University of Posts and Telecommunications; Beijing Information Science and Technology University; Peking University School of Stomatology
Current assignee: Beijing University of Posts and Telecommunications; Beijing Information Science and Technology University; Peking University School of Stomatology
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-08-29
Anticipated expiration: 2043-06-05
Also published as: CN116664843B

Abstract

本发明公开了一种基于RGBD图像和语义分割的残差拟合抓取检测网络，包括物体语义检测模块、物体姿态拟合模块和空间抓取生成模块，将深度相机采集的RGB图像经数据处理后输入经过数据集训练的物体语义检测模块得到物体语义分割热图；将预测得到的物体语义分割热图输入物体姿态拟合模块，通过最小外接有向矩形拟合出物体形态，计算得到物体的姿态；将计算得到的物体姿态以及深度相机采集的深度图像输入空间抓取生成模块，生成可行的六自由度抓取姿态；根据生成的抓取姿态，抓取系统的执行机构完成对场景中物体的抓取。本发明采用上述的一种基于RGBD图像和语义分割的残差拟合抓取检测网络，在提高检测效果和效率的同时增强了对数据集的包容性。

Description

一种基于RGBD图像和语义分割的残差拟合抓取检测网络

技术领域

本发明涉及深度学习、图像处理及机器人自动化抓取技术领域，尤其是涉及一种基于RGBD图像和语义分割的残差拟合抓取检测网络。

背景技术

抓取是机器人与环境发生交互的重要方式，广泛应用于物流分拣、医疗服务、汽车生产、水果采摘等领域，具有广泛的研究价值和应用潜力。抓取检测是机器人实现自动抓取的前提，是决定抓取成功与否的关键。

传统的抓取分析方法，分析计算量大，且需要提前已知抓取物体的参数、抓取工具的属性，不利于推广至新的物体。随着机器视觉、传感技术及人工智能的快速发展，数据驱动的抓取检测方法得到广泛的研究和应用。典型的抓取检测方法有二维平面抓取检测方法和六自由度抓取检测方法。二维平面抓取检测方法通过向网络输入图像得到由抓取矩形表示的二维平面抓取，这种方法目前已经取得了良好的评估结果，然而，二维平面抓取只能实现平面内的抓取，抓取姿态受限不灵活，此外，大部分二维平面抓取检测研究以仅包含一个物体的数据图像训练网络，其训练后的网络将不适用于多物体的杂乱场景的抓取检测。六自由度抓取检测方法能够实现三维空间的抓取，抓取方式灵活，适用于杂乱复杂的抓取场景。然而，六自由度抓取检测方法通常以三维点云作为输入，点云的稳定性低，且极易受到光照的影响，此外点云忽略了物体的颜色信息，因而六自由度抓取检测方法的鲁棒性较低，且运行效率通常低于二维平面抓取。因此，开发一种以图像作为输入，并且能够预测出灵活的抓取姿态的抓取检测方法至关重要。

此外，现有的数据驱动的抓取检测方法通常依赖于数据集中标注的抓取标签。而现有的抓取检测数据集，通常存在场景中抓取物品数量少、背景纯净、不针对于特定的应用情境，因此用这些数据集训练得到的检测网络通常并不能够应用于实际的抓取环境。而重新构建抓取数据集时，抓取参数的标注将是非常耗时且高成本的工作，因此，开发一种不依赖于标注了抓取标签的数据集的数据驱动抓取检测方法将成为一种迫切需求。

发明内容

本发明的目的是提供一种基于RGBD图像和语义分割的残差拟合抓取检测网络，在提高检测效果和效率的同时增强了对数据集的包容性。

为实现上述目的，本发明提供了一种基于RGBD图像和语义分割的残差拟合抓取检测网络，包括物体语义检测模块、物体姿态拟合模块和空间抓取生成模块。

所述网络的应用方法包括以下步骤：

步骤1、对GraspNet-1Billion数据集中的RGB图像进行预处理；

步骤2、搭建残差拟合抓取检测网络；

步骤3、使用处理后的图像数据训练残差拟合抓取检测网络的物体语义检测模块；

步骤4、搭建包括深度相机、抓取场景及抓取执行器的抓取系统；

步骤5、将抓取系统中深度相机采集的RGB图像输入完成训练的物体语义检测模块，得到物体语义分割热图；

步骤6、将预测得到的物体语义分割热图输入残差拟合抓取检测网络的物体姿态拟合模块，得到物体的位姿；

步骤7、将拟合计算得到物体的位姿及深度相机采集的深度图像输入空间抓取生成模块，得到六自由度抓取位姿；

步骤8、根据生成的六自由度抓取位姿，指导抓取系统中的执行机构抓取场景中的物体。

优选的，所述物体语义检测模块是基于U-Net网络进行改进的具有编码解码结构的语义分割网络，包括：

下采样模块，由2层卷积核为3×3的卷积层、一层ReLU激活层、一层批标准化层和一层池化核为2×2的池化层组成；

上采样模块，由2层卷积核为3×3的卷积层、一层ReLU激活层、一层批标准化层和一层卷积核为2×2的反卷积层组成；

递归残差卷积模块，为具有残差结构的分支结构，主路包含两个并联的包含卷积层和激活层的递归模块，支路是一条跳连线，能够避免梯度消失，增强特征提取能力，其表达式为：

其中，t表示时间步，k表示第k个递归残差卷积模块，是第t个时间步的网络输出，/>表示卷积层输出结果和递归卷积层的输出结果，/>表示卷积层和递归卷积层的权重系数，x_k,x_k+1表示当前递归残差卷积模块的输入和下一个递归残差卷积模块的输入，b_i是偏置项；

递归残差上采样卷积模块，在递归残差卷积模块的基础上将卷积层替换为了反卷积层。

优选的，所述物体姿态拟合模块是利用OpenCV中的minAreaRect函数实现用最小外接有向矩形框包络物体，进而计算得出最小外接有向矩形框的二维中心坐标值、边长及其长边与水平方向的夹角，并将最小外接有向矩形框作为包络物体的近似位姿，由[u,v,w,h,θ]五维参数表示，其中(u,v)表示物体的二维中心点坐标，w,h表示物体的宽度和长度，θ表示物体的旋转角度。

优选的，所述空间抓取生成模块是指在已知物体的位姿和给定场景深度图的情形下，自动生成可行的六自由度抓取姿态，抓取姿态用[P,R,w_G]表示，其中是三维空间的位置坐标，/>是三维空间的旋转矩阵，w_G是指夹持器的开口宽度；

将过物体中心点且平行于物体长边的中轴线称为物体的长边，将过物体中心点且平行于物体短边的中轴线称为物体的短边，抓取姿态的生成策略由下式表示：

首先，生成一系列二维抓取点：

其中k₁,k₂是指沿着物体的长边和短边方向分别生成的抓取的数量，是指第i个沿着物体长边生成的抓取，/>是指第j个沿着物体短边生成的抓取，Threshold是物体的长边和短边的差值的阈值；

然后，通过深度图像的深度信息及相机的内参，将二维抓取点转化为三维抓取点：

其中，z_depth是二维抓取点(x,y)对应于深度图中的深度值，(c_x,c_y,f_x,f_y)是相机的内参参数；

接着，通过物体的旋转角度及随机旋转角度噪声，生成与抓取点对应的三维空间下的旋转矩阵：

φ＝arctan(-cot(θ))

其中，是第i个沿着物体长边的旋转矩阵和第j个沿着物体短边的旋转矩阵，α,β,γ是绕着空间坐标轴的X、Y、Z轴的随机旋转角度，分别在10度，20度和20度范围内随机取值，/>为沿着物体短边的旋转角度，可根据物体的旋转角度θ计算得到；

最后，根据物体的宽度和长度，生成对应的夹持器的开口宽度，其中λ是物体尺寸与夹持器开口宽度之间的缩放因子：

所生成的抓取参数，构成姿态灵活的六自由度抓取位姿。

优选的，所述步骤1包括以下步骤：

步骤1.1、加载公开数据集GraspNet-1Billion中的RGB图像和掩膜图像路径，并进行匹配的随机乱序处理，接着将乱序后的图像路径数组按照6：2：2的比例划分为训练数据、验证数据和测试数据的图像路径；

步骤1.2、构造数据生成器，通过所述图像数据的路径，加载RGB图像和掩膜图像数据；

步骤1.3、将加载得到的RGB图像和掩膜图像数据，按照邻近点采样方式缩小为尺寸大小为224×224像素的RGB图像和掩膜图像；

步骤1.4、对缩小尺寸的RGB图像和掩膜图像进行90度旋转、270度旋转、水平翻转和垂直翻转的数据增强操作，对所述缩小尺寸的RGB图像进行调整亮度、调整对比度的数据增强操作；

步骤1.5、对数据增强后的RGB图像进行归一化操作。

优选的，所述步骤3中，训练过程的损失函数采用多分类交叉熵损失函数。

优选的，所述步骤8中，将生成的六自由度抓取位姿通过抓取系统中深度相机的外参矩阵，转化为基座坐标系下的抓取位姿，再将基座坐标系下的抓取位姿通过逆运动学计算转化为关节坐标，并通过路径规划和碰撞检测规划出一条可行的路径，驱动执行机构按照规划的路径，到达预测的抓取位姿，闭合夹持器，以抓取场景中的物品。

因此，本发明采用上述一种基于RGBD图像和语义分割的残差拟合抓取检测网络，其技术效果如下：

(1)以图像作为输入，抓取检测鲁棒性高且具有良好的抓取检测效率；

(2)空间抓取生成模块能够生成大量自由灵活的六自由度抓取姿态，解决了二维平面抓取检测的抓取姿态的局限性；

(3)以RGB图像和语义分割标签训练网络，过程不涉及抓取标签，因此对数据集包容性更强，更利于在不同领域和场景的推广应用。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明一种基于RGBD图像和语义分割的残差拟合抓取检测网络的抓取检测流程示意图；

图2为本发明一种基于RGBD图像和语义分割的残差拟合抓取检测网络示意图；

图3为将一种基于RGBD图像和语义分割的残差拟合抓取检测网络应用于抓取系统的过程示意图；

图4为本发明一种基于RGBD图像和语义分割的残差拟合抓取检测网络中的物体姿态拟合模块拟合并计算得到的物体姿态示意图；

图5为本发明一种基于RGBD图像和语义分割的残差拟合抓取检测网络中的空间抓取生成模块的生成原理示意图；

图6为实施例的抓取检测结果可视化示意图。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的主旨或基本特征的情况下，能够以其它的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其它实施方式。这些其它实施方式也涵盖在本发明的保护范围内。

还应当理解，以上所述的具体实施例仅用于解释本发明，本发明的保护范围并不限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明/发明的保护范围之内。

对于相关领域普通技术人员已知的技术、方法和设备可能不作为详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

本发明说明书中引用的现有技术文献所公开的内容整体均通过引用并入本发明中，并且因此是本发明公开内容的一部分。

实施例一

如图2所示，本发明实例中的一种基于RGBD图像和语义分割的残差拟合抓取检测网络，网络整体包括三个部分：物体语义检测模块、物体姿态拟合模块和空间抓取生成模块。这三个模块相互协作，实现给定RGBD图像检测得到大量六自由度抓取姿态的效果。

在图2中，在本实施例中物体语义检测模块的结构被详细展示，该模块是基于U-Net网络进行改进的具有编码解码结构的语义分割网络。该模块的功能是输入RGB图像得到物体的语义分割图像。网络包括编码器和解码器结构，为了提高网络的特征提取能力和分割效果，在网络中采用了递归残差卷积模块(RRCNN-Block)。网络的输入图像尺寸是224×224，网络包括5个下采样的环节，用于提取图像的特征信息，该过程生成一系列特征通道增加分辨率减小的热图，接着通过5个上采样的环节，热图逐渐还原为输入图形的分辨率，在上采样阶段，通过特征拼接操作，将编码器中的与解码器具有相同分辨率的热图进行特征拼接，以逐渐还原图像的关键信息。

网络中的结构按照模块划分，可进一步分为：下采样模块、上采样模块、递归残差卷积模块(RRCNN-Block)、递归残差卷积模块。

下采样模块，由2层卷积核为3×3的卷积层、一层ReLU激活层、一层批标准化层和一层池化核为2×2的池化层组成。

上采样模块，由2层卷积核为3×3的卷积层、一层ReLU激活层、一层批标准化层和一层卷积核为2×2的反卷积层组成。

递归残差卷积模块(RRCNN-Block)，它是具有残差结构的分支结构，主路包含两个并联的包含卷积层和激活层的递归模块，支路是一条跳连线，能够避免梯度消失，增强特征提取能力，其表达式为：

递归残差上采样卷积模块(RRUCNN-Block)，与递归残差卷积模块结构近似，仅是模块中的卷积层替换为了反卷积层。

参考图2及图4，理解本实施例中基于RGBD图像和语义分割的残差拟合抓取检测网络中的物体姿态拟合模块。物体姿态拟合模块实现的功能是通过物体语义检测模块输出的物体语义分割热图，得到场景中物体的姿态。利用OpenCV中的minAreaRect函数实现用最小外接有向矩形框包络物体，进而计算得出最小外接矩形框的二维中心坐标值、边长及其长边与水平方向的夹角，并将其作为包络物体的近似位姿，由[u,v,w,h,θ]五维参数表示，如图4所示。其中(u,v)表示物体的二维中心点坐标，w,h表示物体的宽度和长度，θ表示物体的旋转角度。

参考图2及图5，理解本实施例中基于RGBD图像和语义分割的残差拟合抓取检测网络中的空间抓取生成模块。为了生成灵活多样、数量丰富的抓取，设计了空间抓取生成模块，该模块的功能是通过给定场景中物体的姿态、场景的深度图像以及相机的内参，得到一系列包围物体的可行的抓取姿态，抓取姿态用[P,R,w_G]表示，其中是三维空间的位置坐标，/>是三维空间的旋转矩阵，w_G是指夹持器的开口宽度。其基本思路是沿着过物体中心的长中轴线方向均匀生成指定数量的一系列垂直于物体长中轴线的抓取，如图5所示。此外若物体的长边的长度在夹持器的开口范围内，则沿着物体的短中轴线也均匀生成一系列新的指定数量的一系列垂直与物体短中轴线的抓取，为了增加抓取的灵活性和多样性，将生成的抓取绕坐标系的各个轴旋转一个随机的小角度值，即可生成如参考图2中的杂乱多样且包围物体的抓取。将过物体中心点且平行于物体长边的中轴线称为物体的长边，将过物体中心点且平行于物体短边的中轴线称为物体的短边。抓取姿态的生成策略由下式表示：

首先，生成一系列二维抓取点：

其中k₁,k₂是指沿着物体的长边和短边方向分别生成的抓取的数量，是指第i个沿着物体长边生成的抓取，/>是指第j个沿着物体短边生成的抓取，Threshold是物体的长边和短边的差值的阈值。设置该阈值是为了将抓取宽度控制在夹持器的开口宽度范围内，当物体的长边与短边的差值大于阈值，则不沿着短边生成抓取。

Z＝z_depth

其中，z_depth是二维抓取点(x,y)对应于深度图中的深度值，(c_x,c_y,f_x,f_y)是相机的内参参数。

接着，通过物体的旋转角度及随机旋转角度噪声，生成一系列与抓取点对应的三维空间下的旋转矩阵：

φ＝arctan(-cot(θ))

其中，是第i个沿着物体长边的旋转矩阵和第j个沿着物体短边的旋转矩阵，α,β,γ是绕着空间坐标轴的X、Y、Z轴的随机旋转角度，它们分别在10度，20度和20度范围内随机取值。

最后，根据物体的宽度和长度，生成一系列对应的夹持器的开口宽度，其中λ是物体尺寸与夹持器开口宽度之间的缩放因子：

通过以上运算，得到了一系列抓取的位置和对应的姿态以及夹持器的开口宽度，构成一系列姿态灵活的六自由度抓取位姿。

实施例二

在实施例一的基础上，如图1所示，本发明实施例所采用的基于RGBD图像和语义分割的残差拟合抓取检测网络的应用方法包括以下步骤：

步骤1、对GraspNet-1Billion数据集中的RGB图像进行预处理；

步骤2、搭建残差拟合抓取检测网络；

步骤7、将拟合计算得到物体的位姿及深度相机采集的深度图像输入空间抓取生成模块，得到大量六自由度抓取位姿；

其中，步骤1包括以下步骤：

步骤1.1、加载公开数据集GraspNet-1Billion中的RGB图像和掩膜图像路径，并进行匹配的随机乱序处理。接着将乱序后的图像路径数组按照6：2：2的比例划分为训练数据、验证数据和测试数据的图像路径；

步骤1.3、将所述加载得到的RGB图像和掩膜图像数据，按照邻近点采样方式缩小为尺寸大小为224×224像素的RGB图像和掩膜图像；

步骤1.4、对所述缩小尺寸的RGB图像和掩膜图像进行90度旋转、270度旋转、水平翻转和垂直翻转的数据增强操作，对所述缩小尺寸的RGB图像进行调整亮度、调整对比度的数据增强操作；

步骤1.5、对所述数据增强后的RGB图像进行归一化操作。

其中，步骤3所述训练过程的损失函数采用多分类交叉熵损失函数。训练过程中使用的数据来源于公共数据集GraspNet-1Billion六自由度抓取检测数据集中的RGB图像和掩膜图像。将数据集中的数据经过步骤1所述的步骤进行预处理，送入步骤2搭建的基于RGBD图像和语义分割的残差拟合抓取检测网络的物体语义检测模块，采用Adam优化器训练该模块，一次加载6组数据，共训练1000个周期，初始学习率设定为5^-4，每经过200个周期，学习率衰减5倍。

完成训练的物体语义检测模块可用于测试新的数据。随机从GraspNet-1Billion数据集的测试集中选择RGB图像数据送入完成训练的物体语义检测模块，预测得到场景中物体的掩膜图像，接着将预测得到的掩膜图像送入物体姿态拟合模块，经过图4展示的过程拟合计算得到物体的位姿，并将物体的位姿、RGB图像对应的深度图像及相机的内参输入空间抓取生成模块，即可生成大量可行的六自由度抓取。为了便于可视化显示抓取检测效果，用测试使用的RGB图像及其对应的深度图像生成三维场景点云，并构建夹持器模型的三角面片模型，并将检测得到的抓取姿态通过创建的夹持器模型显示在三维点云中。图6展示了测试的大量可视化场景，从结果可看出所设计的方法能够检测出大量合理可行且姿态灵活的抓取。

为了将所发明的基于RGBD图像和语义分割的残差拟合抓取检测网络应用于实际场景，根据步骤4，搭建包括深度相机、抓取物品和抓取执行器在内的抓取系统。其中抓取执行器用于执行抓取动作，包括6自由度协作臂机器人和配置在其末端的两指夹持器。深度相机用于采集抓取场景中的图像，以将图像传送给计算机，实现基于RGBD图像和语义分割的残差拟合抓取检测网络的抓取检测。

根据步骤5-步骤7，通过抓取系统中深度相机采集的场景中的RGBD图像，检测出实际场景中的一系列可行抓取，最终通过步骤8将生成的六自由度抓取位姿通过抓取系统中深度相机的外参矩阵，转化为基座坐标系下的抓取位姿，再将基座坐标系下的抓取位姿通过逆运动学计算转化为关节坐标，并通过路径规划和碰撞检测规划出一条可行的路径，驱动执行机构按照规划的路径，到达预测的抓取位姿，闭合夹持器，以抓取场景中的物品。整个抓取过程如图3所示，执行机构的末端夹持器抓取到物品并且在移动至放置点前物体不发生掉落，则视为成功抓取，用抓取成功率评价抓取的效果。

因此，本发明采用上述一种基于RGBD图像和语义分割的残差拟合抓取检测网络，以图像作为输入，抓取检测鲁棒性高且具有良好的抓取检测效率；空间抓取生成模块能够生成大量自由灵活的六自由度抓取姿态，解决了二维平面抓取检测的抓取姿态的局限性；以RGB图像和语义分割标签训练网络，过程不涉及抓取标签，因此对数据集包容性更强，更利于在不同领域和场景的推广应用。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于RGBD图像和语义分割的残差拟合抓取检测网络，其特征在于，包括物体语义检测模块、物体姿态拟合模块和空间抓取生成模块。

所述网络的应用方法包括以下步骤：

步骤1、对GraspNet-1Billion数据集中的RGB图像进行预处理；

步骤2、搭建残差拟合抓取检测网络；

2.根据权利要求1所述的一种基于RGBD图像和语义分割的残差拟合抓取检测网络，其特征在于，所述物体语义检测模块是基于U-Net网络进行改进的具有编码解码结构的语义分割网络，包括：

其中，t表示时间步，k表示第k个递归残差卷积模块，是第t个时间步的网络输出，表示卷积层的输出结果和递归卷积层的输出结果，/>表示卷积层和递归卷积层的权重系数，x_k,x_k+1表示当前递归残差卷积模块的输入和下一个递归残差卷积模块的输入，b_i是偏置项；

3.根据权利要求1所述的一种基于RGBD图像和语义分割的残差拟合抓取检测网络，其特征在于，所述物体姿态拟合模块是利用OpenCV中的minAreaRect函数实现用最小外接有向矩形框包络物体，进而计算得出最小外接有向矩形框的二维中心坐标值、边长及其长边与水平方向的夹角，并将最小外接有向矩形框作为包络物体的近似位姿，由[u,v,w,h,θ]五维参数表示，其中(u,v)表示物体的二维中心点坐标，w,h表示物体的宽度和长度，θ表示物体的旋转角度。

4.根据权利要求1所述的一种基于RGBD图像和语义分割的残差拟合抓取检测网络，其特征在于，所述空间抓取生成模块是指在已知物体的位姿和给定场景深度图的情形下，自动生成可行的六自由度抓取姿态，抓取姿态用[P,R,w_G]表示，其中是三维空间的位置坐标，/>是三维空间的旋转矩阵，w_G是指夹持器的开口宽度；

首先，生成一系列二维抓取点：

所生成的抓取参数，构成姿态灵活的六自由度抓取位姿。

5.根据权利要求1所述的一种基于RGBD图像和语义分割的残差拟合抓取检测网络，其特征在于，所述步骤1包括以下步骤：

步骤1.5、对数据增强后的RGB图像进行归一化操作。

6.根据权利要求1所述的基于RGBD图像和语义分割的残差拟合抓取检测网络，其特征在于，所述步骤3中，训练过程的损失函数采用多分类交叉熵损失函数。

7.根据权利要求1所述的基于RGBD图像和语义分割的残差拟合抓取检测网络，其特征在于，所述步骤8中，将生成的六自由度抓取位姿通过抓取系统中深度相机的外参矩阵，转化为基座坐标系下的抓取位姿，再将基座坐标系下的抓取位姿通过逆运动学计算转化为关节坐标，并通过路径规划和碰撞检测规划出一条可行的路径，驱动执行机构按照规划的路径，到达预测的抓取位姿，闭合夹持器，以抓取场景中的物品。