CN117086862A - 基于双智能体强化学习的机械臂六自由度灵活抓取方法 - Google Patents

基于双智能体强化学习的机械臂六自由度灵活抓取方法 Download PDF

Info

Publication number
CN117086862A
CN117086862A CN202310703681.7A CN202310703681A CN117086862A CN 117086862 A CN117086862 A CN 117086862A CN 202310703681 A CN202310703681 A CN 202310703681A CN 117086862 A CN117086862 A CN 117086862A
Authority
CN
China
Prior art keywords
grabbing
network
diagram
spherical
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310703681.7A
Other languages
English (en)
Inventor
李俊
侯言旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202310703681.7A priority Critical patent/CN117086862A/zh
Publication of CN117086862A publication Critical patent/CN117086862A/zh
Pending legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于双智能体强化学习的机械臂六自由度灵活抓取方法,该方法首先用双智能体强化学习方法训练抓取位置和抓取方向智能体学习六自由度灵活抓取,然后采用考虑抓取质量的增强型反馈作为双智能体强化学习方法的奖励,训练平面示力图网络、球面示力图网络和混合网络;利用RGB‑D相机捕获抓取工作场景中的彩色图像Ic和深度信息Id,然后将其转换为彩色俯视图Ihc和深度俯视图Ihd并输入平面示力图网络和球面示力图网络,生成平面抓取示力图和球面抓取示力图,选取平面抓取示力图和球面抓取示力图中的最大值作为最优抓取动作g;机械臂规划轨迹执行最优抓取动作g;本发明能够在各种各样的杂乱场景中执行灵活的6‑DoF抓取。

Description

基于双智能体强化学习的机械臂六自由度灵活抓取方法
技术领域
本发明涉及一种基于双智能体强化学习的机械臂六自由度灵活抓取方法,属于机器人应用技术领域。
背景技术
机器人通过自主学习实现类人的灵巧抓取是机器人领域的长期挑战和研究热点之一。与此同时,随着机器人抓取不断拓展至非结构化的新兴应用场景,例如,物流中心、家庭服务机器人、工业流水线。这些场景对机器人抓取的灵巧性提出了更高的要求。
传统依据力封闭和形封闭准则的抓取规划方法能够在结构化的场景中成功的抓取已知的物体。此外,这些方法还必须依赖于物体和末端执行器的模型以及一些关于物理属性的强假设,比如简化的接触模型、库伦摩擦力、以及刚体模型建模方法。这类方法基本无法抓取未知模型的物体或者只能抓取与模板物体相似的物体,对杂乱集聚场景适应性尤其差。因此,传统的解析法难以在杂乱环境中灵巧地抓取多种多样的物体。
受益于深度学习的迅猛发展,基于学习的抓取方法相比解析法大幅度地提升了机器人在复杂环境下抓取各式各样物体的能力。这些方法通常将抓取规划转化为回归或者分类任务。他们以场景的RGB-D信息作为输入,输出与抓取动作一一对应的抓取表征,例如,抓取示力图、抓取矩形框、以及抓取点线等,之后从所有抓取表征中筛选出最优抓取。近年来,基于强化学习的抓取方法通过设定奖励函数来激励抓取策略展现出理想的抓取特性。他被视为达到类人抓取的最有前景的方法之一,相比抓取检测方法无需显式地估计待抓取物体的形状和位姿,也无需大量的人工标注样本,具有明显的优势。这类方法被逐渐被广泛的用于各类抓取应用。
然而,由于抓取表征的局限性,现有的抓取学习方法不得不在抓取灵巧性方面作出一定的牺牲。他们简化了抓取空间,仅能实现自项而下的平面抓取,难以做到六自由度的抓取。除此之外,尽管现有自监督抓取学习方法能取得不错的抓取成功率,但抓取动作仍然是不稳定的,甚至是不可靠的,这可能导致较大程度范围地破坏物体周边环境或者挤压、碰撞物体。这是因为抓取学习的反馈信号蕴含的信息量过少,仅仅包含了抓取成功与否的信息,没法反映抓取动作的质量。这严重损害了抓取灵巧性。
总体来说,现有的机器人抓取技术难以满足在各种各样场景中现实需求,因此,需要在提高抓取的灵活性和可靠性。
发明内容
针对现有大多数机器人抓取仅能实现平面抓取且不够灵活,无法应用到非结构化环境,尤其是混杂物体的场景。本发明提出了一种基于双智能体强化学习的机械臂6-DoF灵活抓取的方法,使机器人从不断的试错中学习到6-DoF灵活抓取。本发明采用抓取位置智能体和抓取方向智能体来预测抓取位置和抓取方向的预测,并采用一种考虑抓取质量的增强型反馈作为双智能体的奖励。增强型反馈是通过量化抓取物体前的场景图像和再将物体原路方位原位置的场景的图像差异得到。本发明能够实现机器人6-DoF灵活的抓取,尤其是提升机器人在非结构化环境中抓取能力,有望应用于垃圾分类、混堆工件拣选、家居服务等场景。
本发明通过下述技术方案实现:
一种基于双智能体强化学习的机械臂六自由度灵活抓取方法,包括以下步骤:
步骤S1:采用双智能体强化学习方法训练抓取位置智能体和抓取方向智能体学习六自由度灵活抓取,采用平面抓取示力图来表征抓取位置智能体的动作空间,采用球面抓取示力图来抓取方向智能体的动作空间,采用平面示力图网络来预测平面抓取示力图,采用球面示力图网络来预测球面抓取示力图,采用混合网络来促进抓取位置智能体和抓取方向智能体的协作;
步骤S2:采用一种考虑抓取质量的增强型反馈作为双智能体强化学习方法的奖励,训练平面示力图网络、球面示力图网络和混合网络,使抓取位置智能体和抓取方向智能体实现六自由度灵活抓取;
步骤S3:利用RGB-D相机捕获抓取工作场景中的彩色图像Ic和深度信息Id,然后根据相机外参矩阵将彩色图像Ic和深度信息Id转换为彩色俯视图Ihc和深度俯视图Ihd
步骤S4:将深度俯视图Ihc和彩色俯视图Ihd输入平面示力图网络和球面示力图网络,生成平面抓取示力图和球面抓取示力图;
步骤S5:选取步骤S4生成的平面抓取示力图和球面抓取示力图中的最大值作为最优抓取动作g;
步骤S6:将最优抓取动作g由服务器发送给机器人控制器,机械臂规划轨迹执行最优抓取动作。
进一步地,步骤S1所述的采用双智能体强化学习方法训练抓取位置智能体和抓取方向智能体,具体包括以下步骤:
步骤1-1:搭建平面示力图网络Qp,平面示力图网络由编码模块、融合模块、解码模块组成;编码模块采用残差卷积网络提取视觉特征,融合模块采用多个卷积层和非线性激活层将彩色图像信息和深度信息融合成潜在特征,解码模块采用多个反卷积层、非线性激活层、上采样层来扩大潜在特征的尺寸;平面示力图网络的输入是彩色俯视图Ihc和深度俯视图Ihd,输出是平面抓取示力图;平面抓取示力图是一个在像素级表征抓取位置潜在成功率的热力图,他与输入的彩色俯视图Ihc和深度俯视图Ihd尺寸相同;
步骤1-2:搭建球面示力图网络Qφ,球面示力图网络由编码模块、融合模块、解码模块组成;编码模块采用残差卷积网络提取彩色图像信息和深度信息的特征,融合模块采用多个卷积层和非线性激活层将彩色图像特征和深度信息特征融合成潜在特征,解码模块采用多个反卷积层、非线性激活层、上采样层来扩大潜在特征的尺寸;球面示力图网络的输入是彩色俯视图Ihc和深度俯视图Ihd,输出是球面抓取示力图;球面抓取示力图是以目标抓取点x,y,z作为球心,l为球半径,沿垂直于工作平面向上的方向生成个虚拟的球面,其中每个球面被平均分割为/>个网格;球面抓取示力图表征/>个角度;球面抓取示力图中第i,j,k个网格的值表征手爪以方向/>成功抓取物体的潜力,其中/>分别表示球面抓取示力图中第i,j,k个网格表征的抓取角度;分别限制手抓在沿x,y,z轴转动方向的可行角度范围为[-BRx,BRx]、[-BRy,BRy]、[0,2π],则沿x,y,z轴转动方向的旋转角度增量为/>球面抓取示力图中第i,j,k个网格表征的抓取角度为
其中,
此处,[Rx0,Ry0,Rz0]是垂直于工作平面向下的初始角度;
步骤1-3:搭建混合网络M:混合网络由两个权重生成网络和/>以及两个偏置生成网络/>和/>组成;权重生成网络/>和/>以彩色俯视图Ihc和深度俯视图Ihd作为输入,分别输出权重矩阵W1和W2;偏置生成网络/>和/>以彩色俯视图Ihc和深度俯视图Ihd作为输入,分别输出偏置b1和b2;权重生成网络/>和/>由残差卷积、多个卷积层、激活层构成;权重生成网络/>和/>的最后一层使用包括2个神经元的线性层和非负激活层生成权重W1和W2;偏置生成网络/>和/>由残差卷积网络和多个卷积层和激活层构成;偏置生成网络/>和/>的最后一层使用包括2个神经元的线性层生成偏置b1和b2;混合网络M将平面示力图和球面示力图中的最优动作价值输入以W1和b1以及W2和b2构建的线性层,最终输出联合动作价值Qtot
步骤1-4:捕获抓取工作场景中的图像信息I=(Ic,Id),其中Ic表示彩色图像和Id表示深度信息,并根据相机的外参矩阵将彩色图像Ic和深度信息Id转换为彩色俯视图Ihc和深度俯视图Ihd
步骤1-5:将深度俯视图Ihc和彩色俯视图Ihd输入平面示力图网络和球面示力图网络输出平面抓取示力图和球面抓取示力图;
步骤1-6:在平面抓取示力图和球面抓取示力图中分别选取像素值最大点所对应的抓取动作作为最优抓取位置和最优抓取方向,从而组成抓取动作g(p,φ),其中p是手爪三维位置(x,y,z),φ是手爪的抓取方向(rx,ry,rz)。
进一步地,步骤S2的采用考虑抓取质量的反馈作为双智能体强化学习方法的奖励的特征在于具体包括以下步骤:
步骤2-1:给定彩色俯视图Ihc和深度俯视图Ihd,平面示力图网络和球面示力图网络生成抓取动作g,机器人根据抓取动作g执行复原采样操作;复原采样操作的执行过程如下:1)手爪先运行到gs(ps,φ),其中gs(ps,φ)表示手爪在球面上的姿态;ps坐标由以下变换得到
2)再以直线轨迹移动到g(p,φ)并闭合手爪;依据手爪闭合情况判定是否成功抓取物体,如果抓取成功则3)手爪夹着物体移动到gs(ps,φ);如果手爪在返回到gs(ps,φ)过程中物体没有掉落,则令fg=1,之后4)手爪移动回g(p,φ)放回物体;此时,采集当前环境的彩色图像和深度信息,并根据相机外参得到彩色俯视图Ihc+和深度俯视图Ihd+;若抓取失败或手爪在返回到gs(ps,φ)过程中物体掉落,则判定抓取失败,记fg=0;最后,5)手爪再次执行g(p,φ)并6)将物体移到目标放置位置;
步骤2-2:根据Ihd、Ihd+和fg计算步骤S1中的增强型反馈;增强型反馈由下式计算得到
式中,r0表示基础奖励,
其中是OSTU二值化操作,k是log函数的底数,H和W分别是Ihd的长和宽;
步骤2-3:采用值分解方法的强化学习方法训练平面示力图网络、球面示力图网络、以及混合网络;Qtot的动作值函数更新如下式:
Qtot(I,g)←Qtot(I,g)+α[r+γmax Qtot(I′,g′)-Qtot(I,g)] (6)
其中I′,g′表示下一时刻的输入图像和抓取动作;收集样本并存入经验池D;之后,从D中采样样本并根据下式端到端地更新平面示力图网络、球面示力图网络、以及混合网络
其中,θtot={θM,θPA,θSA},θM,θPA,θSA分别是混合网络、平面示力图网络和球面示力图网络的参数,ytot是强化学习更新中的目标值,学习率 是损失函数,包括但不限于采用均方根损失函数
其中,B是更新的批处理大小,
其中,是Qtot(I,g;θtot)的目标网络,I′i和gi′分别表示Ii和gi的下一个状态和动作;每隔τ次更新,我们用θtot更新/>中的/>
步骤2-4:判断是否达到最大迭代步数,如果未达到则回到步骤2-1,如果达到则输出训练完成的混合网络、平面示力图网络和球面示力图网;
进一步地,其步骤S3将深度和彩色图像转换到深度和彩色俯视图的特征在于包括以下步骤:
步骤3-1:通过手眼标定获取固定位置相机的内外参矩阵;
步骤3-2:相机采集图像时应将深度图像配准到彩色图像上;
步骤3-3:先利用相机内外参矩阵将深度图像转换为3D点云图像,通过投影的方法得到工作空间内部的深度俯视图和彩色俯视图。
进一步地,其步骤S4生成平面抓取示力图和球面抓取示力图的特征在于具体包括以下步骤:
步骤4-1:根据步骤S3得到深度俯视图Ihc和彩色俯视图Ihd
步骤4-2:将深度俯视图Ihc和彩色俯视图Ihd输入步骤2训练好的平面示力图网络和球面示力图网络,生成平面抓取示力图和球面抓取示力图
进一步地,步骤S5选取平面抓取示力图和球面抓取示力图中的最大值作为抓取动作特征在于具体包括以下步骤:
步骤5-1:选取平面抓取示力图中值最大的位置索引;
步骤5-2:根据深度信息和步骤5-1中的位置索引得到抓取位置;
步骤5-3:选取球面抓取示力图中值最大的角度索引,并根据公式(1)得到抓取角度。
进一步地,步骤S6机械臂规划轨迹执行最优抓取动作g的特征在于具体包括以下步骤:
步骤6-1:运算服务器与机械臂控制器之间建立通信;
步骤6-2:依据当前机械臂位姿和最优抓取动作g在关节空间中规划轨迹生成抓取物体轨迹,如果抓取成功,则规划轨迹将物体放置到目标位置;如果抓取失败,则机械臂规划轨迹回到初始位置。
有益效果:本发明能够在各种非结构化环境下实现6-DoF灵活抓取,并且兼具可靠性和灵巧性。利用双智能体强化学习方法训练机器人执行6-DoF抓取,无需待抓取目标和机器人末端执行器的模型。在各类非结构化抓取场景,尤其是杂乱堆放的抓取场景,能够提升机器人抓取物体的成功率并能够避免抓取动作对环境的大范围破坏,提高机器人抓取的可靠性和鲁棒性。
附图说明
图1是本发明提出的球面抓取示力图。
具体实施方式
一种基于双智能体强化学习的机械臂六自由度灵活抓取方法,包括以下步骤:
步骤S1:采用双智能体强化学习方法训练抓取位置和抓取方向智能体学习六自由度灵活抓取;采用平面抓取示力图和球面抓取示力图来分别表征抓取位置和抓取方向智能体的动作空间,采用平面示力图网络和球面示力图网络来分别预测平面抓取示力图和球面抓取示力图,采用混合网络来促进抓取位置和抓取方向智能体的协作;
步骤S2:采用一种考虑抓取质量的增强型反馈作为双智能体强化学习方法的奖励,训练平面示力图网络、球面示力图网络和混合网络,使抓取位置和抓取方向智能体实现六自由度灵活抓取;
步骤S3:利用RGB-D相机捕获抓取工作场景中的彩色图像Ic和深度信息Id,然后根据相机外参矩阵将彩色图像Ic和深度信息Id转换为彩色俯视图Ihc和深度俯视图Ihd
步骤S4:将深度俯视图Ihc和彩色俯视图Ihd输入平面示力图网络和球面示力图网络,生成平面抓取示力图和球面抓取示力图。
步骤S5:选取步骤S4生成的平面抓取示力图和球面抓取示力图中的最大值作为抓取动作g;
步骤S6:将最优抓取动作g由服务器发送给机器人控制器,机械臂规划轨迹执行抓取动作g;
本实施例中步骤S1所述的采用双智能体强化学习方法训练抓取位置和抓取方向智能体,具体包括以下步骤:
步骤1-1:搭建平面示力图网络Qp,本实施例中,平面示力图网络由编码模块、融合模块、解码模块组成;编码模块采用残差卷积网络提取视觉特征,融合模块采用多个卷积层和非线性激活层的残差卷积网络将彩色图像信息和深度信息融合成潜在特征,解码模块采用多个反卷积层、非线性激活层、上采样层来扩大潜在特征的尺寸;平面示力图网络的输入是彩色俯视图Ihc和深度俯视图Ihd,输出是平面抓取示力图;平面抓取示力图是一个在像素级表征抓取位置潜在成功率的热力图,他与输入的彩色俯视图Ihc和深度俯视图Ihd尺寸相同;本实施例中,平面示力图网络可由PyTorch深度学习库实现。
步骤1-2:搭建球面示力图网络Qφ,本实施例中,球面示力图网络由编码模块、融合模块、解码模块组成;编码模块采用残差卷积网络ResNet-50提取彩色图像信息和深度信息的特征,融合模块采用多个卷积层和非线性激活层将彩色图像特征和深度信息特征融合成潜在特征,解码模块采用多个反卷积层、非线性激活层、上采样层来扩大潜在特征的尺寸。
本实施例中,平面示力图网络可由PyTorch深度学习库实现。球面示力图网络的输入是彩色俯视图Ihc和深度俯视图Ihd,输出是球面抓取示力图。球面抓取示力图是以目标抓取点x,y,z作为球心,l为球半径,沿垂直于工作平面向上的方向生成个虚拟的球面,其中每个球面被平均分割为/>个网格。球面抓取示力图可表征/> 个角度。球面抓取示力图中第i,j,k个网格的值表征手爪以方向/>成功抓取物体的潜力。分别限制手抓在沿x,y,z轴转动方向的可行角度范围为[-BRx,BRx]、[-BRy,BRy]、[0,2π],则沿x,y,z轴转动方向的旋转角度增量为/>球面抓取示力图中第i,j,k个网格表征抓取角度为
其中,
此处,[Rx0,Ry0,Rz0]是垂直于工作平面向下的初始角度。
步骤1-3:搭建混合网络M;混合网络由两个权重生成网络和/>以及两个偏置生成网络/>和/>组成,权重生成网络/>和/>以彩色俯视图Ihc和深度俯视图Ihd作为输入,分别输出权重矩阵W1和W2,偏置生成网络/>和/>以彩色俯视图Ihc和深度俯视图Ihd作为输入,分别输出偏置b1和b2
本实施例中,权重生成网络和/>由残差卷积网络ResNet-50、多个卷积层、激活层构成。权重生成网络/>和/>的最后一层使用包括2个神经元的线性层和非负激活层生成权重W1和W2。本实施例中,偏置生成网络/>和/>由残差卷积网络ResNet-50和多个卷积层和激活层构成。偏置生成网络/>和/>的最后一层使用包括2个神经元的线性层生成偏置b1和b2。混合网络M将平面示力图和球面示力图中的最优动作价值输入以W1和b1以及W2和b2构建的线性层,最终输出联合动作价值Qtot。本实施例中,平面示力图网络可由PyTorch深度学习库实现。
步骤1-4:捕获抓取工作场景中的图像信息I=(Ic,Id),其中Ic表示彩色图像和Id表示深度信息,并根据相机的外参矩阵将彩色图像Ic和深度信息Id转换为彩色俯视图Ihc和深度俯视图Ihd
步骤1-5:将深度俯视图Ihc和彩色俯视图Ihd输入平面示力图网络和球面示力图网络输出平面抓取示力图和球面抓取示力图;
步骤1-6:在平面抓取示力图和球面抓取示力图中分别选取像素值最大点所对应的抓取动作作为最优抓取位置和最优抓取方向,从而组成抓取动作g(p,φ),其中p是手爪三维位置(x,y,z),φ是手爪的抓取方向(rx,ry,rz)。
本实施例中步骤S2的采用考虑抓取质量的反馈作为双智能体强化学习方法的奖励包括以下步骤:
步骤2-1:给定彩色俯视图Ihc和深度俯视图Ihd,平面示力图网络和球面示力图网络生成抓取动作g,机器人根据抓取动作g执行复原采样操作。复原采样操作的执行过程如下:1)手爪先运行到gs(ps,φ),其中gs(ps,φ)表示手爪在球面上的姿态。ps坐标由以下变换得到
2)再以直线轨迹移动到g(p,φ)并闭合手爪。依据手爪闭合情况判定是否成功抓取物体,如果抓取成功则3)手爪夹着物体移动到gs(ps,φ)。如果手爪在返回到gs(ps,φ)过程中物体没有掉落,则令fg=1,之后4)手爪移动回g(p,φ)放回物体。此时,采集当前环境的彩色图像和深度信息,并根据相机外参得到彩色俯视图Ihc+和深度俯视图Ihd+。若抓取失败或手爪在返回到gs(ps,φ)过程中物体掉落,则判定抓取失败,记fg=0。最后,5)手爪再次执行g(p,φ)并6)将物体移到目标初始放置位置。
步骤2-2:根据Ihd、Ihd+和fg计算步骤S1中的增强型反馈。在本实施例中,增强型反馈由下式计算得到
式中,r0表示基础奖励,
其中是OSTU二值化操作,k是log函数的底数,H和W分别是Ihd的长和宽。在本实施例中,基础奖励r0=1,k=10,H=W=224。
步骤2-3:采用值分解方法的强化学习方法训练平面示力图网络、球面示力图网络、以及混合网络。在本实施例中,Qtot的动作值函数更新如下式:
Qtot(I,g)←Qtot(I,g)+α[r+γmax Qtot(I′,g′)-Qtot(I,g)] (6)
其中I′,g′表示下一时刻的输入图像和抓取动作。收集样本并存入经验池D。之后,从D中采样样本并根据下式端到端地更新平面示力图网络、球面示力图网络、以及混合网络
其中,θtot={θM,θPA,θSA},θM,θPA,θSA分别是混合网络、平面示力图网络和球面示力图网络的参数。ytot是强化学习更新中的目标值,学习率 是损失函数,包括但不限于采用均方根损失函数
其中,B是更新的批处理大小。
其中,是Qtot(I,g;θtot)的目标网络,I′i和gi′分别表示Ii和gi的下一个状态和动作。每隔τ次更新,我们用θtot更新/>中的/>在本实施例中,τ=3,B=16。
步骤2-4:判断是否达到最大迭代步数,如果未达到则回到步骤2-1,如果达到则输出训练完成的混合网络、平面示力图网络和球面示力图网络。
本实施例中步骤S3所述的将深度和彩色图像转换到深度和彩色俯视图包括以下步骤:
步骤3-1:通过手眼标定获取固定位置相机的内外参矩阵;
步骤3-2:相机采集图像时应将深度图像配准到彩色图像上;
步骤3-3:先利用相机内外参矩阵将深度图像转换为3D点云图像,通过投影的方法得到工作空间内部的深度俯视图和彩色俯视图。
本实施例中步骤S4生成平面抓取示力图和球面抓取示力图的特征在于具体包括以下步骤:
步骤4-1:根据步骤S3得到深度俯视图Ihc和彩色俯视图Ihd
步骤4-2:将深度俯视图Ihc和彩色俯视图Ihd输入步骤2训练好的平面示力图网络和球面示力图网络,生成平面抓取示力图和球面抓取示力图。
本实施例中步骤S5选取平面抓取示力图和球面抓取示力图中的最大值作为抓取动作包括以下步骤:
步骤5-1:选取平面抓取示力图中值最大的位置索引;
步骤5-2:根据深度信息和步骤5-1中的位置索引得到抓取位置;
步骤5-3:选取球面抓取示力图中值最大的角度索引,并根据公式(1)得到抓取角度。
本实施例中步骤S6机械臂规划轨迹执行最优抓取动作g的,具体包括以下步骤:
步骤6-1:运算服务器与机械臂控制器之间建立通信;
步骤6-2:依据当前机械臂位姿和最优抓取动作g在关节空间中规划轨迹生成抓取物体轨迹,如果抓取成功,则规划轨迹将物体放置到目标位置;如果抓取失败,则机械臂规划轨迹回到初始位置。
本实例中采用系统为Ubuntu 18.04,配备了Intel Xeon CPU E5-2620v3@2.4Ghz和NVIDIARTX 3090的服务器。本实例采用机器人控制内部的运动学正逆解求解器来规划机械臂的动作。本实例机械臂的初始位置应使机器人不出现在相机的视野范围内。
搭建了机器人分拣系统来证明本发明的有效性。在真实场景中做了广泛的实验测试了本文提出的方法。采用12种日常物体和20种金属工件两大类物体作为实验对象。实验系统采用RealSense 435固定相机捕获场景内的图像和配备二指夹爪的UR3作为执行器,机器人采用直线运动轨迹。我们设计了三个不同散乱程度的场景,1)孤立的物体,2)多个散乱物体,以及3)混杂场景来评估本文提出方法的效果。针对两类物体,我们分别测试了在仅有日常物体或金属工件的情况以及混合两类物体的场景。我们在三类不同的场景中分别测试了抓取成功率和平均抓取质量评分,每次实验尝试抓取30次,得到表1。表1中的抓取成功率根据下式得到
其中M是N次抓取尝试中成功抓取的次数。
平均抓取质量
其中,di为第i次抓取质量评分,AGQ得分越高表明抓取动作对环境的影响越小,也间接地反映出抓取更加稳定。
在单个场景、散乱物体以及混杂物体场景中抓取时,本文方法的抓取成功率以及平均抓取质量大多优于方法1和方法2,尤其是平均抓取质量指标,本发明在所有场景都优于方法1和方法2。这表明本发明在取得较高的抓取成功率的情况下,能够更加可靠、稳定的抓取物体。相比之下,方法1和方法2可能不可靠和不稳定抓取物体,导致抓取对环境的干扰更大。
最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。

Claims (7)

1.一种基于双智能体强化学习的机械臂六自由度灵活抓取方法,其特征在于,包括以下步骤:
步骤S1:采用双智能体强化学习方法训练抓取位置智能体和抓取方向智能体学习六自由度灵活抓取,采用平面抓取示力图来表征抓取位置智能体的动作空间,采用球面抓取示力图来抓取方向智能体的动作空间,采用平面示力图网络来预测平面抓取示力图,采用球面示力图网络来预测球面抓取示力图,采用混合网络来促进抓取位置智能体和抓取方向智能体的协作;
步骤S2:采用一种考虑抓取质量的增强型反馈作为双智能体强化学习方法的奖励,训练平面示力图网络、球面示力图网络和混合网络,使抓取位置智能体和抓取方向智能体实现六自由度灵活抓取;
步骤S3:利用RGB-D相机捕获抓取工作场景中的彩色图像Ic和深度信息Id,然后根据相机外参矩阵将彩色图像Ic和深度信息Id转换为彩色俯视图Ihc和深度俯视图Ihd
步骤S4:将深度俯视图Ihc和彩色俯视图Ihd输入步骤2训练好的平面示力图网络和球面示力图网络,生成平面抓取示力图和球面抓取示力图;
步骤S5:选取步骤S4生成的平面抓取示力图和球面抓取示力图中的最大值作为最优抓取动作g;
步骤S6:将最优抓取动作g由服务器发送给机器人控制器,机械臂规划轨迹执行最优抓取动作。
2.根据权利要求1所述的一种基于双智能体强化学习的机械臂六自由度灵活抓取方法,其特征在于,步骤S1所述的采用双智能体强化学习方法训练抓取位置智能体和抓取方向智能体,具体包括以下步骤:
步骤1-1:搭建平面示力图网络Qp,平面示力图网络由编码模块、融合模块、解码模块组成;编码模块采用残差卷积网络提取视觉特征,融合模块采用多个卷积层和非线性激活层将彩色图像信息和深度信息融合成潜在特征,解码模块采用多个反卷积层、非线性激活层、上采样层来扩大潜在特征的尺寸;平面示力图网络的输入是彩色俯视图Ihc和深度俯视图Ihd,输出是平面抓取示力图;平面抓取示力图是一个在像素级表征抓取位置潜在成功率的热力图,他与输入的彩色俯视图Ihc和深度俯视图Ihd尺寸相同;
步骤1-2:搭建球面示力图网络Qφ:球面示力图网络由编码模块、融合模块、解码模块组成;编码模块采用残差卷积网络提取彩色图像信息和深度信息的特征,融合模块采用多个卷积层和非线性激活层将彩色图像特征和深度信息特征融合成潜在特征,解码模块采用多个反卷积层、非线性激活层、上采样层来扩大潜在特征的尺寸;球面示力图网络的输入是彩色俯视图Ihc和深度俯视图Ihd,输出是球面抓取示力图;球面抓取示力图是以目标抓取点x,y,z作为球心,l为球半径,沿垂直于工作平面向上的方向生成个虚拟的球面,其中每个球面被平均分割为/>个网格;球面抓取示力图表征/>个角度;球面抓取示力图中第i,j,k个网格的值表征手爪以方向/>成功抓取物体的潜力,其中/>分别表示球面抓取示力图中第i,j,k个网格表征的抓取角度;分别限制手抓在沿x,y,z轴转动方向的可行角度范围为[-BRx,BRx]、[-BRy,BRy]、[0,2π],则沿x,y,z轴转动方向的旋转角度增量为/>球面抓取示力图中第i,j,k个网格表征的抓取角度为
其中,
此处,[Rx0,Ry0,Rz0]是垂直于工作平面向下的初始角度;
步骤1-3:搭建混合网络M:混合网络由两个权重生成网络和/>以及两个偏置生成网络/>和/>组成;权重生成网络/>和/>以彩色俯视图Ihc和深度俯视图Ihd作为输入,分别输出权重矩阵W1和W2;偏置生成网络/>和/>以彩色俯视图Ihc和深度俯视图Ihd作为输入,分别输出偏置b1和b2;权重生成网络/>和/>由残差卷积、多个卷积层、激活层构成;权重生成网络/>和/>的最后一层使用包括2个神经元的线性层和非负激活层生成权重W1和W2;偏置生成网络/>和/>由残差卷积网络和多个卷积层和激活层构成;偏置生成网络/>和/>的最后一层使用包括2个神经元的线性层生成偏置b1和b2;混合网络M将平面示力图和球面示力图中的最优动作价值输入以W1和b1以及W2和b2构建的线性层,最终输出联合动作价值Qtot
步骤1-4:捕获抓取工作场景中的图像信息I=(Ic,Id),其中Ic表示彩色图像和Id表示深度信息,并根据相机的外参矩阵将彩色图像Ic和深度信息Id转换为彩色俯视图Ihc和深度俯视图Ihd
步骤1-5:将深度俯视图Ihc和彩色俯视图Ihd输入平面示力图网络和球面示力图网络输出平面抓取示力图和球面抓取示力图;
步骤1-6:在平面抓取示力图和球面抓取示力图中分别选取像素值最大点所对应的抓取动作作为最优抓取位置和最优抓取方向,从而组成抓取动作g(p,φ),其中p是手爪三维位置(x,y,z),φ是手爪的抓取方向(rx,ry,rz)。
3.根据权利要求1所述的一种基于双智能体强化学习的机械臂六自由度灵活抓取方法,其特征在于,步骤S2所述的采用考虑抓取质量的增强型反馈作为双智能体强化学习方法的奖励,具体包括以下步骤:
步骤2-1:给定彩色俯视图Ihc和深度俯视图Ihd,平面示力图网络和球面示力图网络生成抓取动作g,机器人根据抓取动作g执行复原采样操作,复原采样操作的执行过程如下:1)手爪先运行到gs(ps,φ),其中gs(ps,φ)表示手爪在球面上的姿态,ps坐标由以下变换得到
2)再以直线轨迹移动到g(p,φ)并闭合手爪,依据手爪闭合情况判定是否成功抓取物体,如果抓取成功则3)手爪夹着物体移动到gs(ps,φ);如果手爪在返回到gs(ps,φ)过程中物体没有掉落,则令抓取成功标志位fg=1,之后4)手爪移动回g(p,φ)放回物体;此时,采集当前环境的彩色图像和深度信息,并根据相机外参得到彩色俯视图Ihc+和深度俯视图Ihd+;若抓取失败或手爪在返回到gs(ps,φ)过程中物体掉落,则判定抓取失败,记fg=0;最后,5)手爪再次执行g(p,φ)并6)将物体移到目标放置位置;
步骤2-2:根据深度俯视图Ihd、抓取放回后的深度俯视图Ihd+和抓取成功标志位fg计算步骤S1中的增强型反馈,增强型反馈由下式计算得到
式中,r0表示基础奖励,表示增强型反馈,d(Ihd,Ihd+)表示抓取对环境的扰动,且
其中是OSTU二值化操作,k是log函数的底数,H和W分别是Ihd的长和宽;
步骤2-3:采用值分解方法的强化学习方法训练平面示力图网络、球面示力图网络、以及混合网络,Qtot的动作值函数更新如下式:
Qtot(I,g)←Qtot(I,g)+α[r+γmaxQtot(I′,g′)-Qtot(I,g)] (6)
其中I′,g′表示下一时刻的输入图像和抓取动作,收集样本并存入经验池D,之后,从D中采样样本并根据下式端到端地更新平面示力图网络、球面示力图网络、以及混合网络
其中,θtot={θM,θPA,θSA},θM,θPA,θSA分别是混合网络、平面示力图网络和球面示力图网络的参数,ytot是强化学习更新中的目标值,学习率 是损失函数,包括但不限于采用均方根损失函数
其中,B是更新的批处理大小;
其中,是Qtot(I,g;θtot)的目标网络,Ii′和gi′分别表示Ii和gi的下一个状态和动作,γ表示折扣因子,每隔τ次更新,我们用θtot更新/>中的/>
步骤2-4:判断是否达到最大迭代步数,如果未达到则回到步骤2-1,如果达到则输出训练完成的混合网络、平面示力图网络和球面示力图网络。
4.根据权利要求1所述的一种基于双智能体强化学习的机械臂六自由度灵活抓取方法,其特征在于,步骤S3所述将彩色图像Ic和深度信息Id转换为彩色俯视图Ihc和深度俯视图Ihd,包括以下步骤:
步骤3-1:通过手眼标定获取固定位置相机的内外参矩阵;
步骤3-2:相机采集图像时应将深度图像配准到彩色图像上;
步骤3-3:先利用相机内外参矩阵将深度图像转换为3D点云图像,通过投影的方法得到工作空间内部的深度俯视图和彩色俯视图。
5.根据权利要求1所述的一种基于双智能体强化学习的机械臂六自由度灵活抓取方法,其步骤S4生成平面抓取示力图和球面抓取示力图的特征在于具体包括以下步骤:
步骤4-1:根据步骤S3得到深度俯视图Ihc和彩色俯视图Ihd
步骤4-2:将深度俯视图Ihc和彩色俯视图Ihd输入步骤2训练好的平面示力图网络和球面示力图网络,生成平面抓取示力图和球面抓取示力图。
6.根据权利要求1所述的一种基于双智能体强化学习的机械臂6-DoF灵活抓取,其特征在于,步骤S5选取平面抓取示力图和球面抓取示力图中的最大值作为最优抓取动作,具体包括以下步骤:
步骤5-1:选取平面抓取示力图中值最大的位置索引;
步骤5-2:根据深度信息和步骤5-1中的位置索引得到抓取位置;
步骤5-3:选取球面抓取示力图中值最大的角度索引,并根据公式(1)得到抓取角度。
7.根据权利要求1所述的一种基于双智能体强化学习的机械臂6-DoF灵活抓取,其特征在于,步骤S6机械臂规划轨迹执行最优抓取动作g的,具体包括以下步骤:
步骤6-1:运算服务器与机械臂控制器之间建立通信;
步骤6-2:依据当前机械臂位姿和最优抓取动作g在关节空间中规划轨迹生成抓取物体轨迹,如果抓取成功,则规划轨迹将物体放置到目标位置;如果抓取失败,则机械臂规划轨迹回到初始位置。
CN202310703681.7A 2023-06-14 2023-06-14 基于双智能体强化学习的机械臂六自由度灵活抓取方法 Pending CN117086862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310703681.7A CN117086862A (zh) 2023-06-14 2023-06-14 基于双智能体强化学习的机械臂六自由度灵活抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310703681.7A CN117086862A (zh) 2023-06-14 2023-06-14 基于双智能体强化学习的机械臂六自由度灵活抓取方法

Publications (1)

Publication Number Publication Date
CN117086862A true CN117086862A (zh) 2023-11-21

Family

ID=88774196

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310703681.7A Pending CN117086862A (zh) 2023-06-14 2023-06-14 基于双智能体强化学习的机械臂六自由度灵活抓取方法

Country Status (1)

Country Link
CN (1) CN117086862A (zh)

Similar Documents

Publication Publication Date Title
Gualtieri et al. Pick and place without geometric object models
US9095978B2 (en) Planning a grasp approach, position, and pre-grasp pose for a robotic grasper based on object, grasper, and environmental constraint data
CN112297013B (zh) 一种基于数字孪生和深度神经网络的机器人智能抓取方法
Adjigble et al. Model-free and learning-free grasping by local contact moment matching
CN111331607B (zh) 一种基于机械臂的自主抓取与码垛方法及系统
Tang et al. Learning collaborative pushing and grasping policies in dense clutter
CN112207835B (zh) 一种基于示教学习实现双臂协同作业任务的方法
Li et al. Motion planning of six-dof arm robot based on improved DDPG algorithm
Mohammed et al. Pick and place objects in a cluttered scene using deep reinforcement learning
CN114131603A (zh) 基于感知增强和场景迁移的深度强化学习机器人抓取方法
Xu et al. Efficient object manipulation to an arbitrary goal pose: Learning-based anytime prioritized planning
Ren et al. Fast-learning grasping and pre-grasping via clutter quantization and Q-map masking
CN117086862A (zh) 基于双智能体强化学习的机械臂六自由度灵活抓取方法
CN114700949B (zh) 基于体素抓取网络的机械臂灵巧抓取规划方法
Rolinat et al. Human initiated grasp space exploration algorithm for an underactuated robot gripper using variational autoencoder
Li et al. Learning Target-Oriented Push-Grasping Synergy in Clutter With Action Space Decoupling
CN115194774A (zh) 一种基于多目视觉的双机械臂抓握系统控制方法
CN114820802A (zh) 高自由度灵巧手抓取规划方法、装置和计算机设备
CN114800511A (zh) 一种基于复用结构的双阶段机械臂抓取规划方法和系统
Fang et al. A pick-and-throw method for enhancing robotic sorting ability via deep reinforcement learning
Patzelt et al. Conditional stylegan for grasp generation
Liu et al. Grasp pose detection based on point cloud shape simplification
Kumra et al. Learning multi-step robotic manipulation policies from visual observation of scene and q-value predictions of previous action
De Coninck et al. Learning to Grasp Arbitrary Household Objects from a Single Demonstration
CN114986519A (zh) 一种基于深度强化学习的混杂场景机械臂精细抓取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination