CN117086862A

CN117086862A - 基于双智能体强化学习的机械臂六自由度灵活抓取方法

Info

Publication number: CN117086862A
Application number: CN202310703681.7A
Authority: CN
Inventors: 李俊; 侯言旭
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-11-21

Abstract

本发明提出一种基于双智能体强化学习的机械臂六自由度灵活抓取方法，该方法首先用双智能体强化学习方法训练抓取位置和抓取方向智能体学习六自由度灵活抓取，然后采用考虑抓取质量的增强型反馈作为双智能体强化学习方法的奖励，训练平面示力图网络、球面示力图网络和混合网络；利用RGB‑D相机捕获抓取工作场景中的彩色图像I_c和深度信息I_d，然后将其转换为彩色俯视图I_hc和深度俯视图I_hd并输入平面示力图网络和球面示力图网络，生成平面抓取示力图和球面抓取示力图，选取平面抓取示力图和球面抓取示力图中的最大值作为最优抓取动作g；机械臂规划轨迹执行最优抓取动作g；本发明能够在各种各样的杂乱场景中执行灵活的6‑DoF抓取。

Description

基于双智能体强化学习的机械臂六自由度灵活抓取方法

技术领域

本发明涉及一种基于双智能体强化学习的机械臂六自由度灵活抓取方法，属于机器人应用技术领域。

背景技术

机器人通过自主学习实现类人的灵巧抓取是机器人领域的长期挑战和研究热点之一。与此同时，随着机器人抓取不断拓展至非结构化的新兴应用场景，例如，物流中心、家庭服务机器人、工业流水线。这些场景对机器人抓取的灵巧性提出了更高的要求。

传统依据力封闭和形封闭准则的抓取规划方法能够在结构化的场景中成功的抓取已知的物体。此外，这些方法还必须依赖于物体和末端执行器的模型以及一些关于物理属性的强假设，比如简化的接触模型、库伦摩擦力、以及刚体模型建模方法。这类方法基本无法抓取未知模型的物体或者只能抓取与模板物体相似的物体，对杂乱集聚场景适应性尤其差。因此，传统的解析法难以在杂乱环境中灵巧地抓取多种多样的物体。

受益于深度学习的迅猛发展，基于学习的抓取方法相比解析法大幅度地提升了机器人在复杂环境下抓取各式各样物体的能力。这些方法通常将抓取规划转化为回归或者分类任务。他们以场景的RGB-D信息作为输入，输出与抓取动作一一对应的抓取表征，例如，抓取示力图、抓取矩形框、以及抓取点线等，之后从所有抓取表征中筛选出最优抓取。近年来，基于强化学习的抓取方法通过设定奖励函数来激励抓取策略展现出理想的抓取特性。他被视为达到类人抓取的最有前景的方法之一，相比抓取检测方法无需显式地估计待抓取物体的形状和位姿，也无需大量的人工标注样本，具有明显的优势。这类方法被逐渐被广泛的用于各类抓取应用。

然而，由于抓取表征的局限性，现有的抓取学习方法不得不在抓取灵巧性方面作出一定的牺牲。他们简化了抓取空间，仅能实现自项而下的平面抓取，难以做到六自由度的抓取。除此之外，尽管现有自监督抓取学习方法能取得不错的抓取成功率，但抓取动作仍然是不稳定的，甚至是不可靠的，这可能导致较大程度范围地破坏物体周边环境或者挤压、碰撞物体。这是因为抓取学习的反馈信号蕴含的信息量过少，仅仅包含了抓取成功与否的信息，没法反映抓取动作的质量。这严重损害了抓取灵巧性。

总体来说，现有的机器人抓取技术难以满足在各种各样场景中现实需求，因此，需要在提高抓取的灵活性和可靠性。

发明内容

针对现有大多数机器人抓取仅能实现平面抓取且不够灵活，无法应用到非结构化环境，尤其是混杂物体的场景。本发明提出了一种基于双智能体强化学习的机械臂6-DoF灵活抓取的方法，使机器人从不断的试错中学习到6-DoF灵活抓取。本发明采用抓取位置智能体和抓取方向智能体来预测抓取位置和抓取方向的预测，并采用一种考虑抓取质量的增强型反馈作为双智能体的奖励。增强型反馈是通过量化抓取物体前的场景图像和再将物体原路方位原位置的场景的图像差异得到。本发明能够实现机器人6-DoF灵活的抓取，尤其是提升机器人在非结构化环境中抓取能力，有望应用于垃圾分类、混堆工件拣选、家居服务等场景。

本发明通过下述技术方案实现：

一种基于双智能体强化学习的机械臂六自由度灵活抓取方法，包括以下步骤：

步骤S1：采用双智能体强化学习方法训练抓取位置智能体和抓取方向智能体学习六自由度灵活抓取，采用平面抓取示力图来表征抓取位置智能体的动作空间，采用球面抓取示力图来抓取方向智能体的动作空间，采用平面示力图网络来预测平面抓取示力图，采用球面示力图网络来预测球面抓取示力图，采用混合网络来促进抓取位置智能体和抓取方向智能体的协作；

步骤S2：采用一种考虑抓取质量的增强型反馈作为双智能体强化学习方法的奖励，训练平面示力图网络、球面示力图网络和混合网络，使抓取位置智能体和抓取方向智能体实现六自由度灵活抓取；

步骤S3：利用RGB-D相机捕获抓取工作场景中的彩色图像I_c和深度信息I_d，然后根据相机外参矩阵将彩色图像I_c和深度信息I_d转换为彩色俯视图I_hc和深度俯视图I_hd；

步骤S4：将深度俯视图I_hc和彩色俯视图I_hd输入平面示力图网络和球面示力图网络，生成平面抓取示力图和球面抓取示力图；

步骤S5：选取步骤S4生成的平面抓取示力图和球面抓取示力图中的最大值作为最优抓取动作g；

步骤S6：将最优抓取动作g由服务器发送给机器人控制器，机械臂规划轨迹执行最优抓取动作。

进一步地，步骤S1所述的采用双智能体强化学习方法训练抓取位置智能体和抓取方向智能体，具体包括以下步骤：

步骤1-1：搭建平面示力图网络Q_p，平面示力图网络由编码模块、融合模块、解码模块组成；编码模块采用残差卷积网络提取视觉特征，融合模块采用多个卷积层和非线性激活层将彩色图像信息和深度信息融合成潜在特征，解码模块采用多个反卷积层、非线性激活层、上采样层来扩大潜在特征的尺寸；平面示力图网络的输入是彩色俯视图I_hc和深度俯视图I_hd，输出是平面抓取示力图；平面抓取示力图是一个在像素级表征抓取位置潜在成功率的热力图，他与输入的彩色俯视图I_hc和深度俯视图I_hd尺寸相同；

步骤1-2：搭建球面示力图网络Q_φ，球面示力图网络由编码模块、融合模块、解码模块组成；编码模块采用残差卷积网络提取彩色图像信息和深度信息的特征，融合模块采用多个卷积层和非线性激活层将彩色图像特征和深度信息特征融合成潜在特征，解码模块采用多个反卷积层、非线性激活层、上采样层来扩大潜在特征的尺寸；球面示力图网络的输入是彩色俯视图I_hc和深度俯视图I_hd，输出是球面抓取示力图；球面抓取示力图是以目标抓取点x，y，z作为球心，l为球半径，沿垂直于工作平面向上的方向生成个虚拟的球面，其中每个球面被平均分割为/>个网格；球面抓取示力图表征/>个角度；球面抓取示力图中第i，j，k个网格的值表征手爪以方向/>成功抓取物体的潜力，其中/>分别表示球面抓取示力图中第i，j，k个网格表征的抓取角度；分别限制手抓在沿x，y，z轴转动方向的可行角度范围为[-B_Rx，B_Rx]、[-B_Ry，B_Ry]、[0，2π]，则沿x，y，z轴转动方向的旋转角度增量为/>球面抓取示力图中第i，j，k个网格表征的抓取角度为

其中，

此处，[R_x0，R_y0，R_z0]是垂直于工作平面向下的初始角度；

步骤1-3：搭建混合网络M：混合网络由两个权重生成网络和/>以及两个偏置生成网络/>和/>组成；权重生成网络/>和/>以彩色俯视图I_hc和深度俯视图I_hd作为输入，分别输出权重矩阵W₁和W₂；偏置生成网络/>和/>以彩色俯视图I_hc和深度俯视图I_hd作为输入，分别输出偏置b₁和b₂；权重生成网络/>和/>由残差卷积、多个卷积层、激活层构成；权重生成网络/>和/>的最后一层使用包括2个神经元的线性层和非负激活层生成权重W₁和W₂；偏置生成网络/>和/>由残差卷积网络和多个卷积层和激活层构成；偏置生成网络/>和/>的最后一层使用包括2个神经元的线性层生成偏置b₁和b₂；混合网络M将平面示力图和球面示力图中的最优动作价值输入以W₁和b₁以及W₂和b₂构建的线性层，最终输出联合动作价值Q_tot；

步骤1-4：捕获抓取工作场景中的图像信息I＝(I_c，I_d)，其中I_c表示彩色图像和I_d表示深度信息，并根据相机的外参矩阵将彩色图像I_c和深度信息I_d转换为彩色俯视图I_hc和深度俯视图I_hd；

步骤1-5：将深度俯视图I_hc和彩色俯视图I_hd输入平面示力图网络和球面示力图网络输出平面抓取示力图和球面抓取示力图；

步骤1-6：在平面抓取示力图和球面抓取示力图中分别选取像素值最大点所对应的抓取动作作为最优抓取位置和最优抓取方向，从而组成抓取动作g(p，φ)，其中p是手爪三维位置(x，y，z)，φ是手爪的抓取方向(r_x，r_y，r_z)。

进一步地，步骤S2的采用考虑抓取质量的反馈作为双智能体强化学习方法的奖励的特征在于具体包括以下步骤：

步骤2-1：给定彩色俯视图I^hc和深度俯视图I^hd，平面示力图网络和球面示力图网络生成抓取动作g，机器人根据抓取动作g执行复原采样操作；复原采样操作的执行过程如下：1)手爪先运行到g^s(p^s，φ)，其中g^s(p^s，φ)表示手爪在球面上的姿态；p^s坐标由以下变换得到

2)再以直线轨迹移动到g(p，φ)并闭合手爪；依据手爪闭合情况判定是否成功抓取物体，如果抓取成功则3)手爪夹着物体移动到g^s(p^s，φ)；如果手爪在返回到g^s(p^s，φ)过程中物体没有掉落，则令f_g＝1，之后4)手爪移动回g(p，φ)放回物体；此时，采集当前环境的彩色图像和深度信息，并根据相机外参得到彩色俯视图I_hc+和深度俯视图I_hd+；若抓取失败或手爪在返回到g^s(p^s，φ)过程中物体掉落，则判定抓取失败，记f_g＝0；最后，5)手爪再次执行g(p，φ)并6)将物体移到目标放置位置；

步骤2-2：根据I_hd、I_hd+和f_g计算步骤S1中的增强型反馈；增强型反馈由下式计算得到

式中，r₀表示基础奖励，

其中是OSTU二值化操作，k是log函数的底数，H和W分别是I_hd的长和宽；

步骤2-3：采用值分解方法的强化学习方法训练平面示力图网络、球面示力图网络、以及混合网络；Q_tot的动作值函数更新如下式：

Q_tot(I，g)←Q_tot(I，g)+α[r+γmax Q_tot(I′，g′)-Q_tot(I，g)] (6)

其中I′，g′表示下一时刻的输入图像和抓取动作；收集样本并存入经验池D；之后，从D中采样样本并根据下式端到端地更新平面示力图网络、球面示力图网络、以及混合网络

其中，θ_tot＝{θ_M，θ_PA，θ_SA}，θ_M，θ_PA，θ_SA分别是混合网络、平面示力图网络和球面示力图网络的参数，y_tot是强化学习更新中的目标值，学习率是损失函数，包括但不限于采用均方根损失函数

其中，B是更新的批处理大小，

其中，是Q_tot(I，g；θ_tot)的目标网络，I′_i和g_i′分别表示I_i和g_i的下一个状态和动作；每隔τ次更新，我们用θ_tot更新/>中的/>

步骤2-4：判断是否达到最大迭代步数，如果未达到则回到步骤2-1，如果达到则输出训练完成的混合网络、平面示力图网络和球面示力图网；

进一步地，其步骤S3将深度和彩色图像转换到深度和彩色俯视图的特征在于包括以下步骤：

步骤3-1：通过手眼标定获取固定位置相机的内外参矩阵；

步骤3-2：相机采集图像时应将深度图像配准到彩色图像上；

步骤3-3：先利用相机内外参矩阵将深度图像转换为3D点云图像，通过投影的方法得到工作空间内部的深度俯视图和彩色俯视图。

进一步地，其步骤S4生成平面抓取示力图和球面抓取示力图的特征在于具体包括以下步骤：

步骤4-1：根据步骤S3得到深度俯视图I_hc和彩色俯视图I_hd；

步骤4-2：将深度俯视图I_hc和彩色俯视图I_hd输入步骤2训练好的平面示力图网络和球面示力图网络，生成平面抓取示力图和球面抓取示力图

进一步地，步骤S5选取平面抓取示力图和球面抓取示力图中的最大值作为抓取动作特征在于具体包括以下步骤：

步骤5-1：选取平面抓取示力图中值最大的位置索引；

步骤5-2：根据深度信息和步骤5-1中的位置索引得到抓取位置；

步骤5-3：选取球面抓取示力图中值最大的角度索引，并根据公式(1)得到抓取角度。

进一步地，步骤S6机械臂规划轨迹执行最优抓取动作g的特征在于具体包括以下步骤：

步骤6-1：运算服务器与机械臂控制器之间建立通信；

步骤6-2：依据当前机械臂位姿和最优抓取动作g在关节空间中规划轨迹生成抓取物体轨迹，如果抓取成功，则规划轨迹将物体放置到目标位置；如果抓取失败，则机械臂规划轨迹回到初始位置。

有益效果：本发明能够在各种非结构化环境下实现6-DoF灵活抓取，并且兼具可靠性和灵巧性。利用双智能体强化学习方法训练机器人执行6-DoF抓取，无需待抓取目标和机器人末端执行器的模型。在各类非结构化抓取场景，尤其是杂乱堆放的抓取场景，能够提升机器人抓取物体的成功率并能够避免抓取动作对环境的大范围破坏，提高机器人抓取的可靠性和鲁棒性。

附图说明

图1是本发明提出的球面抓取示力图。

具体实施方式

步骤S1：采用双智能体强化学习方法训练抓取位置和抓取方向智能体学习六自由度灵活抓取；采用平面抓取示力图和球面抓取示力图来分别表征抓取位置和抓取方向智能体的动作空间，采用平面示力图网络和球面示力图网络来分别预测平面抓取示力图和球面抓取示力图，采用混合网络来促进抓取位置和抓取方向智能体的协作；

步骤S2：采用一种考虑抓取质量的增强型反馈作为双智能体强化学习方法的奖励，训练平面示力图网络、球面示力图网络和混合网络，使抓取位置和抓取方向智能体实现六自由度灵活抓取；

步骤S4：将深度俯视图I_hc和彩色俯视图I_hd输入平面示力图网络和球面示力图网络，生成平面抓取示力图和球面抓取示力图。

步骤S5：选取步骤S4生成的平面抓取示力图和球面抓取示力图中的最大值作为抓取动作g；

步骤S6：将最优抓取动作g由服务器发送给机器人控制器，机械臂规划轨迹执行抓取动作g；

本实施例中步骤S1所述的采用双智能体强化学习方法训练抓取位置和抓取方向智能体，具体包括以下步骤：

步骤1-1：搭建平面示力图网络Q_p，本实施例中，平面示力图网络由编码模块、融合模块、解码模块组成；编码模块采用残差卷积网络提取视觉特征，融合模块采用多个卷积层和非线性激活层的残差卷积网络将彩色图像信息和深度信息融合成潜在特征，解码模块采用多个反卷积层、非线性激活层、上采样层来扩大潜在特征的尺寸；平面示力图网络的输入是彩色俯视图I_hc和深度俯视图I_hd，输出是平面抓取示力图；平面抓取示力图是一个在像素级表征抓取位置潜在成功率的热力图，他与输入的彩色俯视图I_hc和深度俯视图I_hd尺寸相同；本实施例中，平面示力图网络可由PyTorch深度学习库实现。

步骤1-2：搭建球面示力图网络Q_φ，本实施例中，球面示力图网络由编码模块、融合模块、解码模块组成；编码模块采用残差卷积网络ResNet-50提取彩色图像信息和深度信息的特征，融合模块采用多个卷积层和非线性激活层将彩色图像特征和深度信息特征融合成潜在特征，解码模块采用多个反卷积层、非线性激活层、上采样层来扩大潜在特征的尺寸。

本实施例中，平面示力图网络可由PyTorch深度学习库实现。球面示力图网络的输入是彩色俯视图I_hc和深度俯视图I_hd，输出是球面抓取示力图。球面抓取示力图是以目标抓取点x，y，z作为球心，l为球半径，沿垂直于工作平面向上的方向生成个虚拟的球面，其中每个球面被平均分割为/>个网格。球面抓取示力图可表征/> 个角度。球面抓取示力图中第i，j，k个网格的值表征手爪以方向/>成功抓取物体的潜力。分别限制手抓在沿x，y，z轴转动方向的可行角度范围为[-B_Rx，B_Rx]、[-B_Ry，B_Ry]、[0，2π]，则沿x，y，z轴转动方向的旋转角度增量为/>球面抓取示力图中第i，j，k个网格表征抓取角度为

其中，

此处，[R_x0，R_y0，R_z0]是垂直于工作平面向下的初始角度。

步骤1-3：搭建混合网络M；混合网络由两个权重生成网络和/>以及两个偏置生成网络/>和/>组成，权重生成网络/>和/>以彩色俯视图I_hc和深度俯视图I_hd作为输入，分别输出权重矩阵W₁和W₂，偏置生成网络/>和/>以彩色俯视图I_hc和深度俯视图I_hd作为输入，分别输出偏置b₁和b₂。

本实施例中，权重生成网络和/>由残差卷积网络ResNet-50、多个卷积层、激活层构成。权重生成网络/>和/>的最后一层使用包括2个神经元的线性层和非负激活层生成权重W₁和W₂。本实施例中，偏置生成网络/>和/>由残差卷积网络ResNet-50和多个卷积层和激活层构成。偏置生成网络/>和/>的最后一层使用包括2个神经元的线性层生成偏置b₁和b₂。混合网络M将平面示力图和球面示力图中的最优动作价值输入以W₁和b₁以及W₂和b₂构建的线性层，最终输出联合动作价值Q_tot。本实施例中，平面示力图网络可由PyTorch深度学习库实现。

本实施例中步骤S2的采用考虑抓取质量的反馈作为双智能体强化学习方法的奖励包括以下步骤：

步骤2-1：给定彩色俯视图I^hc和深度俯视图I^hd，平面示力图网络和球面示力图网络生成抓取动作g，机器人根据抓取动作g执行复原采样操作。复原采样操作的执行过程如下：1)手爪先运行到g^s(p^s，φ)，其中g^s(p^s，φ)表示手爪在球面上的姿态。p^s坐标由以下变换得到

2)再以直线轨迹移动到g(p，φ)并闭合手爪。依据手爪闭合情况判定是否成功抓取物体，如果抓取成功则3)手爪夹着物体移动到g^s(p^s，φ)。如果手爪在返回到g^s(p^s，φ)过程中物体没有掉落，则令f_g＝1，之后4)手爪移动回g(p，φ)放回物体。此时，采集当前环境的彩色图像和深度信息，并根据相机外参得到彩色俯视图I_hc+和深度俯视图I_hd+。若抓取失败或手爪在返回到g^s(p^s，φ)过程中物体掉落，则判定抓取失败，记f_g＝0。最后，5)手爪再次执行g(p，φ)并6)将物体移到目标初始放置位置。

步骤2-2：根据I_hd、I_hd+和f_g计算步骤S1中的增强型反馈。在本实施例中，增强型反馈由下式计算得到

式中，r₀表示基础奖励，

其中是OSTU二值化操作，k是log函数的底数，H和W分别是I_hd的长和宽。在本实施例中，基础奖励r₀＝1，k＝10，H＝W＝224。

步骤2-3：采用值分解方法的强化学习方法训练平面示力图网络、球面示力图网络、以及混合网络。在本实施例中，Q_tot的动作值函数更新如下式：

Q_tot(I，g)←Q_tot(I，g)+α[r+γmax Q_tot(I′，g′)-Q_tot(I，g)] (6)

其中I′，g′表示下一时刻的输入图像和抓取动作。收集样本并存入经验池D。之后，从D中采样样本并根据下式端到端地更新平面示力图网络、球面示力图网络、以及混合网络

其中，θ_tot＝{θ_M，θ_PA，θ_SA}，θ_M，θ_PA，θ_SA分别是混合网络、平面示力图网络和球面示力图网络的参数。y_tot是强化学习更新中的目标值，学习率是损失函数，包括但不限于采用均方根损失函数

其中，B是更新的批处理大小。

其中，是Q_tot(I，g；θ_tot)的目标网络，I′_i和g_i′分别表示I_i和g_i的下一个状态和动作。每隔τ次更新，我们用θ_tot更新/>中的/>在本实施例中，τ＝3，B＝16。

步骤2-4：判断是否达到最大迭代步数，如果未达到则回到步骤2-1，如果达到则输出训练完成的混合网络、平面示力图网络和球面示力图网络。

本实施例中步骤S3所述的将深度和彩色图像转换到深度和彩色俯视图包括以下步骤：

步骤3-1：通过手眼标定获取固定位置相机的内外参矩阵；

步骤3-2：相机采集图像时应将深度图像配准到彩色图像上；

本实施例中步骤S4生成平面抓取示力图和球面抓取示力图的特征在于具体包括以下步骤：

步骤4-1：根据步骤S3得到深度俯视图I_hc和彩色俯视图I_hd；

步骤4-2：将深度俯视图I_hc和彩色俯视图I_hd输入步骤2训练好的平面示力图网络和球面示力图网络，生成平面抓取示力图和球面抓取示力图。

本实施例中步骤S5选取平面抓取示力图和球面抓取示力图中的最大值作为抓取动作包括以下步骤：

步骤5-1：选取平面抓取示力图中值最大的位置索引；

本实施例中步骤S6机械臂规划轨迹执行最优抓取动作g的，具体包括以下步骤：

步骤6-1：运算服务器与机械臂控制器之间建立通信；

本实例中采用系统为Ubuntu 18.04，配备了Intel Xeon CPU E5-2620v3@2.4Ghz和NVIDIARTX 3090的服务器。本实例采用机器人控制内部的运动学正逆解求解器来规划机械臂的动作。本实例机械臂的初始位置应使机器人不出现在相机的视野范围内。

搭建了机器人分拣系统来证明本发明的有效性。在真实场景中做了广泛的实验测试了本文提出的方法。采用12种日常物体和20种金属工件两大类物体作为实验对象。实验系统采用RealSense 435固定相机捕获场景内的图像和配备二指夹爪的UR3作为执行器，机器人采用直线运动轨迹。我们设计了三个不同散乱程度的场景，1)孤立的物体，2)多个散乱物体，以及3)混杂场景来评估本文提出方法的效果。针对两类物体，我们分别测试了在仅有日常物体或金属工件的情况以及混合两类物体的场景。我们在三类不同的场景中分别测试了抓取成功率和平均抓取质量评分，每次实验尝试抓取30次，得到表1。表1中的抓取成功率根据下式得到

其中M是N次抓取尝试中成功抓取的次数。

平均抓取质量

其中，d_i为第i次抓取质量评分，AGQ得分越高表明抓取动作对环境的影响越小，也间接地反映出抓取更加稳定。

在单个场景、散乱物体以及混杂物体场景中抓取时，本文方法的抓取成功率以及平均抓取质量大多优于方法1和方法2，尤其是平均抓取质量指标，本发明在所有场景都优于方法1和方法2。这表明本发明在取得较高的抓取成功率的情况下，能够更加可靠、稳定的抓取物体。相比之下，方法1和方法2可能不可靠和不稳定抓取物体，导致抓取对环境的干扰更大。

最后应当说明的是：以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制，尽管参照上述实施例对本申请进行了详细的说明，所属领域的普通技术人员应当理解：本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种基于双智能体强化学习的机械臂六自由度灵活抓取方法，其特征在于，包括以下步骤：

步骤S1:采用双智能体强化学习方法训练抓取位置智能体和抓取方向智能体学习六自由度灵活抓取，采用平面抓取示力图来表征抓取位置智能体的动作空间，采用球面抓取示力图来抓取方向智能体的动作空间，采用平面示力图网络来预测平面抓取示力图，采用球面示力图网络来预测球面抓取示力图，采用混合网络来促进抓取位置智能体和抓取方向智能体的协作；

步骤S2:采用一种考虑抓取质量的增强型反馈作为双智能体强化学习方法的奖励，训练平面示力图网络、球面示力图网络和混合网络，使抓取位置智能体和抓取方向智能体实现六自由度灵活抓取；

步骤S4：将深度俯视图I_hc和彩色俯视图I_hd输入步骤2训练好的平面示力图网络和球面示力图网络，生成平面抓取示力图和球面抓取示力图；

2.根据权利要求1所述的一种基于双智能体强化学习的机械臂六自由度灵活抓取方法，其特征在于，步骤S1所述的采用双智能体强化学习方法训练抓取位置智能体和抓取方向智能体，具体包括以下步骤：

步骤1-2：搭建球面示力图网络Q_φ：球面示力图网络由编码模块、融合模块、解码模块组成；编码模块采用残差卷积网络提取彩色图像信息和深度信息的特征，融合模块采用多个卷积层和非线性激活层将彩色图像特征和深度信息特征融合成潜在特征，解码模块采用多个反卷积层、非线性激活层、上采样层来扩大潜在特征的尺寸；球面示力图网络的输入是彩色俯视图I_hc和深度俯视图I_hd，输出是球面抓取示力图；球面抓取示力图是以目标抓取点x，y，z作为球心，l为球半径，沿垂直于工作平面向上的方向生成个虚拟的球面，其中每个球面被平均分割为/>个网格；球面抓取示力图表征/>个角度；球面抓取示力图中第i，j，k个网格的值表征手爪以方向/>成功抓取物体的潜力，其中/>分别表示球面抓取示力图中第i，j，k个网格表征的抓取角度；分别限制手抓在沿x，y，z轴转动方向的可行角度范围为[-B_Rx，B_Rx]、[-B_Ry，B_Ry]、[0，2π]，则沿x，y，z轴转动方向的旋转角度增量为/>球面抓取示力图中第i，j，k个网格表征的抓取角度为

其中，

此处，[R_x0，R_y0，R_z0]是垂直于工作平面向下的初始角度；

3.根据权利要求1所述的一种基于双智能体强化学习的机械臂六自由度灵活抓取方法，其特征在于，步骤S2所述的采用考虑抓取质量的增强型反馈作为双智能体强化学习方法的奖励，具体包括以下步骤：

步骤2-1：给定彩色俯视图I_hc和深度俯视图I_hd，平面示力图网络和球面示力图网络生成抓取动作g，机器人根据抓取动作g执行复原采样操作，复原采样操作的执行过程如下：1)手爪先运行到g^s(p^s，φ)，其中g^s(p^s，φ)表示手爪在球面上的姿态，p^s坐标由以下变换得到

2)再以直线轨迹移动到g(p，φ)并闭合手爪，依据手爪闭合情况判定是否成功抓取物体，如果抓取成功则3)手爪夹着物体移动到g^s(p^s，φ)；如果手爪在返回到g^s(p^s，φ)过程中物体没有掉落，则令抓取成功标志位f_g＝1，之后4)手爪移动回g(p，φ)放回物体；此时，采集当前环境的彩色图像和深度信息，并根据相机外参得到彩色俯视图I_hc+和深度俯视图I_hd+；若抓取失败或手爪在返回到g^s(p^s，φ)过程中物体掉落，则判定抓取失败，记f_g＝0；最后，5)手爪再次执行g(p，φ)并6)将物体移到目标放置位置；

步骤2-2：根据深度俯视图I_hd、抓取放回后的深度俯视图I_hd+和抓取成功标志位f_g计算步骤S1中的增强型反馈，增强型反馈由下式计算得到

式中，r₀表示基础奖励，表示增强型反馈，d(I_hd，I_hd+)表示抓取对环境的扰动，且

步骤2-3：采用值分解方法的强化学习方法训练平面示力图网络、球面示力图网络、以及混合网络，Q_tot的动作值函数更新如下式：

Q_tot(I，g)←Q_tot(I，g)+α[r+γmaxQ_tot(I′，g′)-Q_tot(I，g)] (6)

其中I′，g′表示下一时刻的输入图像和抓取动作，收集样本并存入经验池D，之后，从D中采样样本并根据下式端到端地更新平面示力图网络、球面示力图网络、以及混合网络

其中，B是更新的批处理大小；

其中，是Q_tot(I，g；θ_tot)的目标网络，I_i′和g_i′分别表示I_i和g_i的下一个状态和动作，γ表示折扣因子，每隔τ次更新，我们用θ_tot更新/>中的/>

4.根据权利要求1所述的一种基于双智能体强化学习的机械臂六自由度灵活抓取方法，其特征在于，步骤S3所述将彩色图像I_c和深度信息I_d转换为彩色俯视图I_hc和深度俯视图I_hd，包括以下步骤：

步骤3-1：通过手眼标定获取固定位置相机的内外参矩阵；

步骤3-2：相机采集图像时应将深度图像配准到彩色图像上；

5.根据权利要求1所述的一种基于双智能体强化学习的机械臂六自由度灵活抓取方法，其步骤S4生成平面抓取示力图和球面抓取示力图的特征在于具体包括以下步骤：

步骤4-1：根据步骤S3得到深度俯视图I_hc和彩色俯视图I_hd；

6.根据权利要求1所述的一种基于双智能体强化学习的机械臂6-DoF灵活抓取，其特征在于，步骤S5选取平面抓取示力图和球面抓取示力图中的最大值作为最优抓取动作，具体包括以下步骤：

步骤5-1：选取平面抓取示力图中值最大的位置索引；

7.根据权利要求1所述的一种基于双智能体强化学习的机械臂6-DoF灵活抓取，其特征在于，步骤S6机械臂规划轨迹执行最优抓取动作g的，具体包括以下步骤：

步骤6-1：运算服务器与机械臂控制器之间建立通信；