CN112405543B - 一种基于深度强化学习的机械臂密集物体温度优先抓取方法 - Google Patents

一种基于深度强化学习的机械臂密集物体温度优先抓取方法 Download PDF

Info

Publication number
CN112405543B
CN112405543B CN202011316646.2A CN202011316646A CN112405543B CN 112405543 B CN112405543 B CN 112405543B CN 202011316646 A CN202011316646 A CN 202011316646A CN 112405543 B CN112405543 B CN 112405543B
Authority
CN
China
Prior art keywords
mechanical arm
action
network
grabbing
temperature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011316646.2A
Other languages
English (en)
Other versions
CN112405543A (zh
Inventor
陈满
李茂军
李宜伟
赖志强
李俊日
熊凯飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN202011316646.2A priority Critical patent/CN112405543B/zh
Publication of CN112405543A publication Critical patent/CN112405543A/zh
Application granted granted Critical
Publication of CN112405543B publication Critical patent/CN112405543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

本发明公开一种基于深度强化学习的机械臂密集物体温度优先抓取方法,包括以下步骤:步骤S1、构建机械臂工作空间,并构建实时状态;步骤S2、对状态信息进行预处理;步骤S3、将预处理后的信息经过Q网络进行前向传递,得到对应Q值;步骤S4、依据Q值和ε‑贪婪策略指导机械臂动作,并通过奖励函数获得奖励;步骤S5、不断通过目标Q网络更新权重,实现Q网络的训练;步骤S6、记录训练过程中相关数据和最后训练完成的模型,得到机械臂最优的抓取策略。本发明具有针对形状不规则、密集堆叠、需要优先考虑温度因素的抓取场景;依据深度强化学习算法设计机械臂动作,提高机械臂的抓取性能,并引入红外图像,使机械臂具有优先抓取温度较高物体的能力的特点。

Description

一种基于深度强化学习的机械臂密集物体温度优先抓取方法
技术领域
本发明涉及一种基于深度强化学习的机械臂密集物体温度优先抓取方法,将深度强化学习应用于机械臂抓取任务中,把推动和抓取放在一个强化学习框架内联合动作,以推动促进抓取,并设置温度奖励,使机械臂对密集物体的抓取效果更好,并具有优先抓取高温物体的能力。
背景技术
目前,机械臂在应用和功能上日趋完善;随着机械臂技术的迅速发展,机械臂已经广泛应用于搬运、码垛、切割、焊接等工业任务当中,不仅解放了人力,还提高了工业生产的效率和质量;其中,机械臂的抓取任务是许多任务的基础,在工业中有着十分重要的作用。
然而,相比于普通的抓取场景,机械臂的抓取在冶金、钢铁和原子能等工业的抓取场景常具有以下特性:形状不规则和位置随机,例如:冶金和钢铁等工业中的固体燃料和不规则半成品等;高危险性,钢铁和原子能等工业生产过程中常伴随着高温、强辐射等危害条件,因此抓取对象的危险性通常较高,有时还需优先考虑温度、辐射等特性(即:在抓取过程中最大程度地优先抓取高温、强辐射的物体,以降低对设备与环境的危害);密集堆叠性,工业过程涉及大规模的密集生产,因此抓取对象常具有密集堆叠等特性。
以上抓取场景的特性为机械臂抓取工作带来了难度;基于模型的方法通常实际建模过程复杂,且难以应用于非结构化场景;普通的数据驱动方法对于部分非结构化场景下的抓取具有一定的作用,但是对于密集堆叠物体的抓取效果一般,并且不能优先考虑危害条件。
发明内容
本发明的目的是针对形状不规则、密集堆叠、需要优先考虑温度因素的抓取场景,提出一种基于深度强化学习的机械臂密集物体温度优先抓取方法;依据深度强化学习算法设计机械臂动作,以推动促进抓取,提高机械臂的抓取性能,并引入红外图像,使机械臂具有优先抓取温度较高物体的能力。
本发明的目的可以通过以下技术方案实现:
一种基于深度强化学习的机械臂密集物体温度优先抓取方法,包括以下步骤:
步骤S1、构建机械臂工作空间,通过视觉传感器提取待抓取物体的状态信息,并构建实时状态;
步骤S2、对环境信息进行预处理,便于机械臂完成抓取;
步骤S3、初始化深度强化学习算法的基本参数和机械臂工作空间,将预处理后的信息经过Q网络进行前向传递,得到对应Q值;
步骤S4、依据Q值和ε-贪婪策略指导机械臂动作,并通过奖励函数获得奖励;
步骤S5、不断通过目标Q网络更新权重,以获取最佳的期望奖励,并更新相关参数,实现Q网络的训练;
步骤S6、记录训练过程中相关数据和最后训练完成的模型,得到机械臂最优的抓取策略;
本发明技术方案进一步限定的技术方案为:在步骤S6中,所述最优的抓取策略π*为:
Figure GDA0003513509620000021
其中,s为状态;a为动作;γ是未来奖励的折扣系数,取值在[0,1)之间;
Figure GDA0003513509620000031
为状态转移矩阵,表示执行动作a,使状态从s转移到s′的概率;Qπ(s',a')为状态-动作值函数,表示在状态s′下依据策略π*执行动作a′的价值;r(s,a)为奖励函数,表示在状态s下选择动作a的奖励;
所述步骤S1包括以下步骤,
步骤S1.1、参考待抓取物体划定一定面积的机械臂工作区域,以工作区域为底,待抓取物体最高点为高,构建机械臂工作空间;
步骤S1.2、使用视觉传感器提取待抓取物体的状态信息,该状态信息包括RGB信息、深度信息、温度信息,RGB信息为RGB-D相机提取机械臂工作区域的RGB图像;深度信息为RGB-D相机提取机械臂工作区域的深度图;温度信息为红外热像仪提取机械臂工作区域的红外图像;
步骤S1.3、构建实时状态s,表示为:
s={sRGB,sD,sT}
其中,sRGB表示RGB信息,sD表示深度信息,sT表示温度信息;
所述步骤S2包括以下步骤:
步骤S2.1、将实时状态s经过3D点云匹配和重力方向上的投影,生成固定尺寸的高度图,其尺寸大小和机械臂工作区域的面积相同;
步骤S2.2、将高度图旋转16次,每隔22.5°旋转一次;
所述步骤S3中,具体包括以下步骤:
步骤S3.1、设置深度强化学习模型的基本参数,基本参数包括:未来奖励折扣γ、贪婪因子ε、学习率α、权重衰减ρ、动量m、目标Q网络权重参数更新周期C、记忆池的容量N;
步骤S3.2、初始化Q网络权重θ和目标Q网络权重θ',初始的Q网络和目标Q网络的结构和权重相同,其中Q网络和目标Q网络的结构包括以下部分:
其一、推动网络χp和抓取网络χg均为全卷积网络FCN,推动网络χp和抓取网络χg具有相同前向传递结构;
其二、FCN的DenseNet-121经过通道级联和两个1*1的卷积层,每层包括一个批量归一化BN层和一个非线性激活函数ReLU层;
其三、DenseNet-121由多个DenseBlock组成,每个DenseBlock由卷积池化层隔开,使用通道拼接操作连成整体;
步骤S3.3、将Q网络的推动网络χp和抓取网络χg的DenseNet-121分别在ImageNet上预训练;
步骤S3.4、初始化机械臂的工作空间,获取初始状态s0,并按步骤S2生成对应高度图;
步骤S3.5、将旋转后的高度图分别输入推动网络χp和抓取网络χg进行前向传递,得到对应的Q值;
所述步骤S4包括:
步骤S4.1、依据Q值和ε-贪婪策略对机械臂进行动作选择;贪婪因子ε为随机选择下一步动作的概率,表示机器人动作的探索性,动作选择包括以下两种情况:
其一、依据最大的Q值进行动作选择:
a=argmaxa'Qθ(s',a')
其中,Qθ为Q网络所对应的状态-动作值函数;
其二、执行随机动作;
步骤S4.2、对选择的动作确定具体要素,该具体要素包括动作类型ω、动作方向f、动作位置p,动作类型ω分为推动和抓取两种动作类型;动作方向f反映了机械臂末端执行器的旋转角度;动作位置p为机械臂末端执行器推动或抓取的像素点位置,对于推动动作,p就是机器人末端执行器推动的起始位置;对于抓取动作,p就是末端执行器闭合的中间位置;
步骤S4.3、获得动作a的总体描述:
a={ω,f,p};
步骤S4.4、执行动作a,过渡到新状态空间s';机械臂末端执行器在工作空间内垂直方向的动作位置随机;
步骤S4.5、获得各部分奖励,该奖励包括推动奖励rp(s,a)、抓取奖励rg(s,a)、温度奖励rg-T(s,a),其中,s为状态;a为动作;推动奖励rp(s,a)在检测到推动成功时获取,推动成功通过计算抓取动作后两个机械手指之间的距离判断;抓取奖励rg(s,a)在检测到成功抓取时获取,成功抓取通过推动动作后sRGB的变化情况判断,sRGB表示RGB信息;温度奖励rg-T(s,a)在检测到成功抓取时获取,旨在促进机器人优先抓取温度较高的物体;依据红外热像仪捕捉的红外图像sT生成的高度图,提取成功抓取的像素点的伪彩色值,依据该伪彩色值与物体温度的关系设置温度奖励;
伪彩色值与热值的关系式为:
Figure GDA0003513509620000051
其中,I为红外图像的热值,L为热像仪的热平,R为热像仪的热范围,X为伪彩色值;再利用红外图像的热值与绝对温度的关系,得出对应点的温度值为:
Io=I/τξ
Figure GDA0003513509620000052
其中,Io为实际的热值,τ为透射率,ξ为物体发射率,A、B为热像仪标定曲线常数,tp为温度值;
由上述公式,抓取点伪彩色值和温度的关系为非线性关系;
因此,温度奖励rg-T为:
Figure GDA0003513509620000061
其中,tmax是所有像素点的最大温度值,用作归一化处理,ρ是奖励因子;
步骤S4.6、综合以上三部分奖励,得奖励函数:
Figure GDA0003513509620000062
所述步骤S5包括以下步骤:
步骤S5.1、将s、a、r(s,a)和s′组成经验集<s,a,r(s,a),s'>存入记忆池中,如果记忆池中的经验集数量为N,则删除最早经验集;
步骤S5.2、更新经验集被采样的概率,使用优先经验重播方法从记忆池中抽取一个经验集j:<sj,aj,r(sj,aj),s'j>;优先经验重播方法依据时间差分对不同的经验集设置不同的采样权值,时间差分越大,则该经验集被选中概率越大,时间差分为:
σ=|r(s,a)+γmaxa'Qθ′(s',a')-Qθ(s,a)|
其中,Qθ′为目标Q网络所对应的状态-动作值函数;
步骤S5.3、依据目标Q网络和经验集j计算目标值yj,表示为:
Figure GDA0003513509620000063
步骤S5.4、使用目标值yj和动量梯度下降方法更新Q网络的权重参数θ,损失函数使用Huber损失函数:
Figure GDA0003513509620000071
其中,i为迭代次数,
Figure GDA0003513509620000072
为第i次迭代的目标值,θi表示第i次迭代Q网络的参数,θi'表示第i次迭代目标Q网络的参数;
步骤S5.5、隔C步更新一次目标Q网络权重参数,使θ'=θ;
步骤S5.6、更新贪婪因子ε;
步骤S5.7、重复训练步骤。
本发明提供了一种基于深度强化学习的机械臂密集物体温度优先抓取方法,具有针对形状不规则、密集堆叠、需要优先考虑温度因素的抓取场景;依据深度强化学习算法设计机械臂动作,以推动促进抓取,提高机械臂的抓取性能,并引入红外图像,使机械臂具有优先抓取温度较高物体的能力的特点。本发明的有益效果:与现有技术相比,本发明所提出的基于深度强化学习的机械臂密集物体温度优先抓取方法使用深度强化学习算法实现机械臂在抓取场景中合适的动作选择,并且训练机械臂完成相应的动作;本发明针对形状不规则、密集堆叠、需要优先考虑温度因素的抓取场景,依据深度强化学习算法设计机械臂动作,以推动促进抓取,提高机械臂的抓取性能,并引入红外图像,使机械臂具有优先抓取温度较高物体的能力。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明一种基于深度强化学习的机械臂密集物体温度优先抓取方法的深度Q网络训练过程流程示意图;
图2为实施例1提供的信息处理和动作决策整体流程图。
具体实施方式
本发明的目的可以通过以下技术方案实现:
一种基于深度强化学习的机械臂密集物体温度优先抓取方法,参见图1,包括以下步骤:
步骤S1、构建机械臂工作空间,通过视觉传感器提取待抓取物体的状态信息,并构建实时状态;
步骤S2、对环境信息进行预处理,便于机械臂完成抓取;
步骤S3、初始化深度强化学习算法的基本参数和机械臂工作空间,将预处理后的信息经过Q网络进行前向传递,得到对应Q值;
步骤S4、依据Q值和ε-贪婪策略指导机械臂动作,并通过奖励函数获得奖励;
步骤S5、不断通过目标Q网络更新权重,以获取最佳的期望奖励,并更新相关参数,实现Q网络的训练;
步骤S6、记录训练过程中相关数据和最后训练完成的模型,得到机械臂最优的抓取策略;
本发明技术方案进一步限定的技术方案为:在步骤S6中,所述最优的抓取策略π*为:
Figure GDA0003513509620000081
其中,s为状态;a为动作;γ是未来奖励的折扣系数,取值在[0,1)之间;
Figure GDA0003513509620000082
为状态转移矩阵,表示执行动作a,使状态从s转移到s′的概率;Qπ(s',a')为状态-动作值函数,表示在状态s′下依据策略π*执行动作a′的价值;r(s,a)为奖励函数,表示在状态s下选择动作a的奖励;
所述步骤S1包括以下步骤,
步骤S1.1、参考待抓取物体划定一定面积的机械臂工作区域,以工作区域为底,待抓取物体最高点为高,构建机械臂工作空间;
步骤S1.2、使用视觉传感器提取待抓取物体的状态信息,该状态信息包括RGB信息、深度信息、温度信息,RGB信息为RGB-D相机提取机械臂工作区域的RGB图像;深度信息为RGB-D相机提取机械臂工作区域的深度图;温度信息为红外热像仪提取机械臂工作区域的红外图像;
步骤S1.3、构建实时状态s,表示为:
s={sRGB,sD,sT}
其中,sRGB表示RGB信息,sD表示深度信息,sT表示温度信息;
所述步骤S2包括以下步骤:
步骤S2.1、将实时状态s经过3D点云匹配和重力方向上的投影,生成固定尺寸的高度图,其尺寸大小和机械臂工作区域的面积相同;
步骤S2.2、将高度图旋转16次,每隔22.5°旋转一次,使机械臂末端执行器能够充分进行动作方向选择,同时克服了直接建立高度图到旋转角度的映射较困难的缺点;
所述步骤S3中,具体包括以下步骤:
步骤S3.1、设置深度强化学习模型的基本参数,基本参数包括:未来奖励折扣γ、贪婪因子ε、学习率α、权重衰减ρ、动量m、目标Q网络权重参数更新周期C、记忆池的容量N;
步骤S3.2、初始化Q网络权重θ和目标Q网络权重θ',初始的Q网络和目标Q网络的结构和权重相同,其中Q网络和目标Q网络的结构包括以下部分:
其一、推动网络χp和抓取网络χg均为全卷积网络FCN,推动网络χp和抓取网络χg具有相同前向传递结构;
其二、FCN的DenseNet-121经过通道级联和两个1*1的卷积层,每层包括一个批量归一化BN层和一个非线性激活函数ReLU层;
其三、DenseNet-121由多个DenseBlock组成,每个DenseBlock由卷积池化层隔开,使用通道拼接操作连成整体;
步骤S3.3、将Q网络的推动网络χp和抓取网络χg的DenseNet-121分别在ImageNet上预训练;
步骤S3.4、初始化机械臂的工作空间,获取初始状态s0,并按步骤S2生成对应高度图;
步骤S3.5、将旋转后的高度图分别输入推动网络χp和抓取网络χg进行前向传递,得到对应的Q值;
所述步骤S4包括:
步骤S4.1、依据Q值和ε-贪婪策略对机械臂进行动作选择;贪婪因子ε为随机选择下一步动作的概率,表示机器人动作的探索性,动作选择包括以下两种情况:
其一、依据最大的Q值进行动作选择:
a=argmaxa'Qθ(s',a')
其中,Qθ为Q网络所对应的状态-动作值函数;
其二、执行随机动作;
步骤S4.2、对选择的动作确定具体要素,该具体要素包括动作类型ω、动作方向f、动作位置p,动作类型ω分为推动和抓取两种动作类型;动作方向f反映了机械臂末端执行器的旋转角度;动作位置p为机械臂末端执行器推动或抓取的像素点位置,对于推动动作,p就是机器人末端执行器推动的起始位置;对于抓取动作,p就是末端执行器闭合的中间位置;
步骤S4.3、获得动作a的总体描述:
a={ω,f,p};
步骤S4.4、执行动作a,过渡到新状态空间s';机械臂末端执行器在工作空间内垂直方向的动作位置随机;
步骤S4.5、获得各部分奖励,该奖励包括推动奖励rp(s,a)、抓取奖励rg(s,a)、温度奖励rg-T(s,a),其中,s为状态;a为动作;推动奖励rp(s,a)在检测到推动成功时获取,推动成功通过计算抓取动作后两个机械手指之间的距离判断;抓取奖励rg(s,a)在检测到成功抓取时获取,成功抓取通过推动动作后sRGB的变化情况判断,sRGB表示RGB信息;温度奖励rg-T(s,a)在检测到成功抓取时获取,旨在促进机器人优先抓取温度较高的物体;依据红外热像仪捕捉的红外图像sT生成的高度图,提取成功抓取的像素点的伪彩色值,依据该伪彩色值与物体温度的关系设置温度奖励;
伪彩色值与热值的关系式为:
Figure GDA0003513509620000111
其中,I为红外图像的热值,L为热像仪的热平,R为热像仪的热范围,X为伪彩色值;再利用红外图像的热值与绝对温度的关系,得出对应点的温度值为:
Io=I/τξ
Figure GDA0003513509620000112
其中,Io为实际的热值,τ为透射率,ξ为物体发射率,A、B为热像仪标定曲线常数,tp为温度值;
由上述公式,抓取点伪彩色值和温度的关系为非线性关系;
因此,温度奖励rg-T为:
Figure GDA0003513509620000121
其中,tmax是所有像素点的最大温度值,用作归一化处理,ρ是奖励因子;
步骤S4.6、综合以上三部分奖励,得奖励函数:
Figure GDA0003513509620000122
所述步骤S5包括以下步骤:
步骤S5.1、将s、a、r(s,a)和s′组成经验集<s,a,r(s,a),s'>存入记忆池中,如果记忆池中的经验集数量为N,则删除最早经验集;
步骤S5.2、更新经验集被采样的概率,使用优先经验重播方法从记忆池中抽取一个经验集j:<sj,aj,r(sj,aj),s'j>;优先经验重播方法依据时间差分对不同的经验集设置不同的采样权值,时间差分越大,则该经验集被选中概率越大,时间差分为:
σ=|r(s,a)+γmaxa'Qθ′(s',a')-Qθ(s,a)|
其中,Qθ′为目标Q网络所对应的状态-动作值函数;
步骤S5.3、依据目标Q网络和经验集j计算目标值yj,表示为:
Figure GDA0003513509620000123
步骤S5.4、使用目标值yj和动量梯度下降方法更新Q网络的权重参数θ,损失函数使用Huber损失函数:
Figure GDA0003513509620000124
其中,i为迭代次数,
Figure GDA0003513509620000125
为第i次迭代的目标值,θi表示第i次迭代Q网络的参数,θ'i表示第i次迭代目标Q网络的参数;
步骤S5.5、隔C步更新一次目标Q网络权重参数,使θ'=θ;
步骤S5.6、更新贪婪因子ε;
步骤S5.7、重复训练步骤。
实施例1
本发明利用深度强化学习算法使机械臂在训练下能更快地学习到最优的抓取策略,并具有优先抓取温度较高物体的能力;本发明使用UR5机械臂和RG2机械手为例进行详细阐述,其中,RG2机械手是机械臂末端执行器,在水平和竖直方向上进行移动;使用RGB-D相机与红外热像仪捕捉图像信息,通过OpenGl进行图像渲染;
本实施例设计的任务场景是使用机械臂抓取10个随机温度、颜色、形状的物体,这些物体均无规则密集堆叠放置,直到机械臂抓取完所有物体为止。
如图2所示,本实施例所述的基于深度强化学习的机械臂密集物体温度优先抓取方法,包括以下步骤:
步骤S1、构建机械臂工作空间,通过视觉传感器提取待抓取物体的状态信息,并构建实时状态;
步骤S1.1、参考待抓取物体划定一定面积的机械臂工作区域,以工作区域为底,待抓取物体最高点为高,构建机械臂工作空间;
步骤S1.2、使用视觉传感器提取待抓取物体的状态信息,该状态信息包括RGB信息、深度信息、温度信息,RGB信息为RGB-D相机提取机械臂工作区域的RGB图像;深度信息为RGB-D相机提取机械臂工作区域的深度图;温度信息为红外热像仪提取机械臂工作区域的红外图像;
步骤S1.3、构建实时状态s,表示为:
s={sRGB,sD,sT}
其中,sRGB表示RGB信息,sD表示深度信息,sT表示温度信息;
步骤S2、对环境信息进行预处理,便于机械臂完成抓取;
步骤S2.1、将实时状态s经过3D点云匹配和重力方向上的投影,生成固定尺寸的高度图,其尺寸大小和机械臂工作区域的面积相同;
步骤S2.2、将高度图旋转16次,每隔22.5°旋转一次,使机械臂末端执行器能够充分进行动作方向选择,同时克服了直接建立高度图到旋转角度的映射较困难的缺点;
步骤S3、初始化深度强化学习算法的基本参数和机械臂工作空间,将预处理后的信息经过Q网络进行前向传递,得到对应Q值;
步骤S3.1、设置深度强化学习模型的基本参数,基本参数包括:未来奖励折扣γ、贪婪因子ε、学习率α、权重衰减ρ、动量m、目标Q网络权重参数更新周期C、记忆池的容量N;
步骤S3.2、初始化Q网络权重θ和目标Q网络权重θ',初始的Q网络和目标Q网络的结构和权重相同,其中Q网络和目标Q网络的结构包括以下部分:
其一、推动网络χp和抓取网络χg均为全卷积网络FCN,推动网络χp和抓取网络χg具有相同前向传递结构;
其二、FCN的DenseNet-121经过通道级联和两个1*1的卷积层,每层包括一个批量归一化BN层和一个非线性激活函数ReLU层;
其三、DenseNet-121由多个Dense Block组成,每个Dense Block由卷积池化层隔开,使用通道拼接操作连成整体;
步骤S3.3、将Q网络的推动网络χp和抓取网络χg的DenseNet-121分别在ImageNet上预训练;
步骤S3.4、初始化机械臂的工作空间,获取初始状态s0,并按步骤S2生成对应高度图;
步骤S3.5、将旋转后的高度图分别输入推动网络χp和抓取网络χg进行前向传递,得到对应的Q值;
步骤S4、依据Q值和ε-贪婪策略指导机械臂动作,并通过奖励函数获得奖励;
步骤S4.1、依据Q值和ε-贪婪策略对机械臂进行动作选择;贪婪因子ε为随机选择下一步动作的概率,表示机器人动作的探索性,动作选择包括以下两种情况:
其一、依据最大的Q值进行动作选择:
a=argmaxa'Qθ(s',a')
其中,Qθ为Q网络所对应的状态-动作值函数;
其二、执行随机动作;
步骤S4.2、对选择的动作确定具体要素,该具体要素包括动作类型ω、动作方向f、动作位置p,动作类型ω分为推动和抓取两种动作类型;动作方向f反映了机械臂末端执行器的旋转角度;动作位置p为机械臂末端执行器推动或抓取的像素点位置,对于推动动作,p就是机器人末端执行器推动的起始位置;对于抓取动作,p就是末端执行器闭合的中间位置;
步骤S4.3、获得动作a的总体描述:
a={ω,f,p};
步骤S4.4、执行动作a,过渡到新状态空间s';机械臂末端执行器在工作空间内垂直方向的动作位置随机;
步骤S4.5、获得各部分奖励,该奖励包括推动奖励rp(s,a)、抓取奖励rg(s,a)、温度奖励rg-T(s,a),其中,s为状态;a为动作;推动奖励rp(s,a)在检测到推动成功时获取,推动成功通过计算抓取动作后两个机械手指之间的距离判断;抓取奖励rg(s,a)在检测到成功抓取时获取,成功抓取通过推动动作后sRGB的变化情况判断,sRGB表示RGB信息;温度奖励rg-T(s,a)在检测到成功抓取时获取,旨在促进机器人优先抓取温度较高的物体;依据红外热像仪捕捉的红外图像sT生成的高度图,提取成功抓取的像素点的伪彩色值,依据该伪彩色值与物体温度的关系设置温度奖励;
伪彩色值与热值的关系式为:
Figure GDA0003513509620000161
其中,I为红外图像的热值,L为热像仪的热平,R为热像仪的热范围,X为伪彩色值;再利用红外图像的热值与绝对温度的关系,得出对应点的温度值为:
Io=I/τξ
Figure GDA0003513509620000162
其中,Io为实际的热值,τ为透射率,ξ为物体发射率,A、B为热像仪标定曲线常数,tp为温度值;
由上述公式,抓取点伪彩色值和温度的关系为非线性关系;
因此,温度奖励rg-T为:
Figure GDA0003513509620000163
其中,tmax是所有像素点的最大温度值,用作归一化处理,ρ是奖励因子;
步骤S4.6、综合以上三部分奖励,得奖励函数:
Figure GDA0003513509620000171
步骤S5、不断通过目标Q网络更新权重,以获取最佳的期望奖励,并更新相关参数,实现Q网络的训练;
步骤S5.1、将s、a、r(s,a)和s′组成经验集<s,a,r(s,a),s'>存入记忆池中,如果记忆池中的经验集数量为N,则删除最早经验集;
步骤S5.2、更新经验集被采样的概率,使用优先经验重播方法从记忆池中抽取一个经验集j:<sj,aj,r(sj,aj),s'j>;优先经验重播方法依据时间差分对不同的经验集设置不同的采样权值,时间差分越大,则该经验集被选中概率越大,时间差分为:
σ=|r(s,a)+γmaxa'Qθ′(s',a')-Qθ(s,a)|
其中,Qθ′为目标Q网络所对应的状态-动作值函数;
步骤S5.3、依据目标Q网络和经验集j计算目标值yj,表示为:
Figure GDA0003513509620000172
步骤S5.4、使用目标值yj和动量梯度下降方法更新Q网络的权重参数θ,损失函数使用Huber损失函数:
Figure GDA0003513509620000173
其中,i为迭代次数,
Figure GDA0003513509620000174
为第i次迭代的目标值,θi表示第i次迭代Q网络的参数,θi'表示第i次迭代目标Q网络的参数;
步骤S5.5、隔C步更新一次目标Q网络权重参数,使θ'=θ;
步骤S5.6、更新贪婪因子ε;
步骤S5.7、重复训练步骤;
步骤S6、记录训练过程中相关数据和最后训练完成的模型,得到机械臂最优的抓取策略;
Figure GDA0003513509620000181
其中,s为状态;a为动作;γ是未来奖励的折扣系数,取值在[0,1)之间;
Figure GDA0003513509620000182
为状态转移矩阵,表示执行动作a,使状态从s转移到s′的概率;Qπ(s',a')为状态-动作值函数,表示在状态s′下依据策略π*执行动作a′的价值;r(s,a)为奖励函数,表示在状态s下选择动作a的奖励。
本发明提供了一种基于深度强化学习的机械臂密集物体温度优先抓取方法,具有针对形状不规则、密集堆叠、需要优先考虑温度因素的抓取场景;依据深度强化学习算法设计机械臂动作,以推动促进抓取,提高机械臂的抓取性能,并引入红外图像,使机械臂具有优先抓取温度较高物体的能力的特点。本发明的有益效果:与现有技术相比,本发明所提出的基于深度强化学习的机械臂密集物体温度优先抓取方法使用深度强化学习算法实现机械臂在抓取场景中合适的动作选择,并且训练机械臂完成相应的动作;本发明针对形状不规则、密集堆叠、需要优先考虑温度因素的抓取场景,依据深度强化学习算法设计机械臂动作,以推动促进抓取,提高机械臂的抓取性能,并引入红外图像,使机械臂具有优先抓取温度较高物体的能力。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (6)

1.一种基于深度强化学习的机械臂密集物体温度优先抓取方法,其特征在于,包括以下步骤:
步骤S1、构建机械臂工作空间,通过视觉传感器提取待抓取物体的状态信息,并构建实时状态;
步骤S2、对状态信息进行预处理,便于机械臂完成抓取;
步骤S3、初始化深度强化学习算法的基本参数和机械臂工作空间,将预处理后的信息经过Q网络进行前向传递,得到对应Q值;
步骤S4、依据Q值和ε-贪婪策略指导机械臂动作,并通过奖励函数获得奖励;
步骤S5、不断通过目标Q网络更新权重,以获取最佳的期望奖励,并更新相关参数,实现Q网络的训练;
步骤S6、记录训练过程中相关数据和最后训练完成的模型,得到机械臂最优的抓取策略;
所述步骤S4包括:
步骤S4.1、依据Q值和ε-贪婪策略对机械臂进行动作选择;贪婪因子ε为随机选择下一步动作的概率,表示机器人动作的探索性,动作选择包括以下两种情况:
其一、依据最大的Q值进行动作选择:
a=arg maxa'Qθ(s',a')
其中,Qθ为Q网络所对应的状态-动作值函数;
其二、执行随机动作;
步骤S4.2、对选择的动作确定具体要素,该具体要素包括动作类型ω、动作方向f、动作位置p,动作类型ω分为推动和抓取两种动作类型;动作方向f反映了机械臂末端执行器的旋转角度;动作位置p为机械臂末端执行器推动或抓取的像素点位置,对于推动动作,p就是机器人末端执行器推动的起始位置;对于抓取动作,p就是末端执行器闭合的中间位置;
步骤S4.3、获得动作a的总体描述:
a={ω,f,p};
步骤S4.4、执行动作a,过渡到新状态空间s';机械臂末端执行器在工作空间内垂直方向的动作位置随机;
步骤S4.5、获得各部分奖励,该奖励包括推动奖励rp(s,a)、抓取奖励rg(s,a)、温度奖励rg-T(s,a),其中,s为状态;a为动作;推动奖励rp(s,a)在检测到推动成功时获取,推动成功通过计算抓取动作后两个机械手指之间的距离判断;抓取奖励rg(s,a)在检测到成功抓取时获取,成功抓取通过推动动作后sRGB的变化情况判断,sRGB表示RGB信息;温度奖励rg-T(s,a)在检测到成功抓取时获取,旨在促进机器人优先抓取温度较高的物体;依据红外热像仪捕捉的红外图像sT生成的高度图,提取成功抓取的像素点的伪彩色值,依据该伪彩色值与物体温度的关系设置温度奖励;
伪彩色值与热值的关系式为:
Figure FDA0003513509610000021
其中,I为红外图像的热值,L为热像仪的热平,R为热像仪的热范围,X为伪彩色值;再利用红外图像的热值与绝对温度的关系,得出对应点的温度值为:
Io=I/τξ
Figure FDA0003513509610000031
其中,Io为实际的热值,τ为透射率,ξ为物体发射率,A、B为热像仪标定曲线常数,tp为温度值;
由上述公式,抓取点伪彩色值和温度的关系为非线性关系;
因此,温度奖励rg-T为:
Figure FDA0003513509610000032
其中,tmax是所有像素点的最大温度值,用作归一化处理,ρ是奖励因子;
步骤S4.6、综合以上三部分奖励,得奖励函数:
Figure FDA0003513509610000033
2.根据权利要求1所述的一种基于深度强化学习的机械臂密集物体温度优先抓取方法,其特征在于,所述步骤S6中最优的抓取策略π*为:
Figure FDA0003513509610000034
其中,s为状态;a为动作;γ是未来奖励的折扣系数,取值在[0,1)之间;
Figure FDA0003513509610000035
为状态转移矩阵,表示执行动作a,使状态从s转移到s′的概率;Qπ(s',a')为状态-动作值函数,表示在状态s′下依据策略π*执行动作a′的价值;r(s,a)为奖励函数,表示在状态s下选择动作a的奖励。
3.根据权利要求1所述的一种基于深度强化学习的机械臂密集物体温度优先抓取方法,其特征在于,所述步骤S1包括以下步骤:
步骤S1.1、参考待抓取物体划定一定面积的机械臂工作区域,以工作区域为底,待抓取物体最高点为高,构建机械臂工作空间;
步骤S1.2、使用视觉传感器提取待抓取物体的状态信息,该状态信息包括RGB信息、深度信息、温度信息,RGB信息为RGB-D相机提取机械臂工作区域的RGB图像;深度信息为RGB-D相机提取机械臂工作区域的深度图;温度信息为红外热像仪提取机械臂工作区域的红外图像;
步骤S1.3、构建实时状态s,表示为:
s={sRGB,sD,sT}
其中,sRGB表示RGB信息,sD表示深度信息,sT表示温度信息。
4.根据权利要求1所述的一种基于深度强化学习的机械臂密集物体温度优先抓取方法,其特征在于,所述步骤S2包括以下步骤:
步骤S2.1、将实时状态s经过3D点云匹配和重力方向上的投影,生成固定尺寸的高度图,其尺寸大小和机械臂工作区域的面积相同;
步骤S2.2、将高度图旋转16次,每隔22.5°旋转一次。
5.根据权利要求1所述的一种基于深度强化学习的机械臂密集物体温度优先抓取方法,其特征在于,所述步骤S3中,具体包括以下步骤:
步骤S3.1、设置深度强化学习模型的基本参数,基本参数包括:未来奖励折扣γ、贪婪因子ε、学习率α、权重衰减ρ、动量m、目标Q网络权重参数更新周期C、记忆池的容量N;
步骤S3.2、初始化Q网络权重θ和目标Q网络权重θ',初始的Q网络和目标Q网络的结构和权重相同,其中Q网络和目标Q网络的结构包括以下部分:
其一、推动网络χp和抓取网络χg均为全卷积网络FCN,推动网络χp和抓取网络χg具有相同前向传递结构;
其二、FCN的DenseNet-121经过通道级联和两个1*1的卷积层,每层包括一个批量归一化BN层和一个非线性激活函数ReLU层;
其三、DenseNet-121由多个Dense Block组成,每个Dense Block由卷积池化层隔开,使用通道拼接操作连成整体;
步骤S3.3、将Q网络的推动网络χp和抓取网络χg的DenseNet-121分别在ImageNet上预训练;
步骤S3.4、初始化机械臂的工作空间,获取初始状态s0,并按步骤S2生成对应高度图;
步骤S3.5、将旋转后的高度图分别输入推动网络χp和抓取网络χg进行前向传递,得到对应的Q值。
6.根据权利要求5所述的一种基于深度强化学习的机械臂密集物体温度优先抓取方法,其特征在于,所述步骤S5包括以下步骤:
步骤S5.1、将s、a、r(s,a)和s′组成经验集<s,a,r(s,a),s'>存入记忆池中,如果记忆池中的经验集数量为N,则删除最早经验集;
步骤S5.2、更新经验集被采样的概率,使用优先经验重播方法从记忆池中抽取一个经验集j:<sj,aj,r(sj,aj),s′j>;优先经验重播方法依据时间差分对不同的经验集设置不同的采样权值,时间差分越大,则该经验集被选中概率越大,时间差分为:
σ=|r(s,a)+γmaxa'Qθ′(s',a')-Qθ(s,a)|
其中,Qθ′为目标Q网络所对应的状态-动作值函数;
步骤S5.3、依据目标Q网络和经验集j计算目标值yj,表示为:
Figure FDA0003513509610000051
步骤S5.4、使用目标值yj和动量梯度下降方法更新Q网络的权重参数θ,损失函数使用Huber损失函数:
Figure FDA0003513509610000061
其中,i为迭代次数,
Figure FDA0003513509610000062
为第i次迭代的目标值,θi表示第i次迭代Q网络的参数,θ′i表示第i次迭代目标Q网络的参数;
步骤S5.5、隔C步更新一次目标Q网络权重参数,使θ'=θ;
步骤S5.6、更新贪婪因子ε;
步骤S5.7、重复训练步骤。
CN202011316646.2A 2020-11-23 2020-11-23 一种基于深度强化学习的机械臂密集物体温度优先抓取方法 Active CN112405543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011316646.2A CN112405543B (zh) 2020-11-23 2020-11-23 一种基于深度强化学习的机械臂密集物体温度优先抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011316646.2A CN112405543B (zh) 2020-11-23 2020-11-23 一种基于深度强化学习的机械臂密集物体温度优先抓取方法

Publications (2)

Publication Number Publication Date
CN112405543A CN112405543A (zh) 2021-02-26
CN112405543B true CN112405543B (zh) 2022-05-06

Family

ID=74777149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011316646.2A Active CN112405543B (zh) 2020-11-23 2020-11-23 一种基于深度强化学习的机械臂密集物体温度优先抓取方法

Country Status (1)

Country Link
CN (1) CN112405543B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113664825B (zh) * 2021-07-19 2022-11-25 清华大学深圳国际研究生院 一种基于强化学习的堆叠场景机械臂抓取方法与装置
CN113608867B (zh) * 2021-07-19 2024-05-14 南京中科逆熵科技有限公司 基于强化学习的多数据ssd中的闪存资源分配方法
CN113664828A (zh) * 2021-08-17 2021-11-19 东南大学 一种基于深度强化学习的机器人抓取-抛掷方法
CN115931359B (zh) * 2023-03-03 2023-07-14 西安航天动力研究所 一种涡轮泵轴承故障诊断方法及装置
CN117171508A (zh) * 2023-09-05 2023-12-05 石家庄铁道大学 基于贝叶斯优化的深度q学习轴承故障诊断方法
CN117817666B (zh) * 2024-01-25 2024-07-12 深圳市桃子自动化科技有限公司 一种基于人工智能的工业机器人智能夹持控制系统
CN118106976B (zh) * 2024-04-30 2024-06-28 深圳市博硕科技股份有限公司 一种注塑机用机械手的控制方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108109174A (zh) * 2017-12-13 2018-06-01 上海电气集团股份有限公司 一种用于散乱零件随机分拣的机器人单目引导方法和系统
CN108550162A (zh) * 2018-03-27 2018-09-18 清华大学 一种基于深度强化学习的物体检测方法
CN109693239A (zh) * 2018-12-29 2019-04-30 深圳市越疆科技有限公司 一种基于深度强化学习的机器人抓取方法
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6603257B2 (ja) * 2017-03-31 2019-11-06 ファナック株式会社 行動情報学習装置、管理装置、ロボット制御システム及び行動情報学習方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108109174A (zh) * 2017-12-13 2018-06-01 上海电气集团股份有限公司 一种用于散乱零件随机分拣的机器人单目引导方法和系统
CN108550162A (zh) * 2018-03-27 2018-09-18 清华大学 一种基于深度强化学习的物体检测方法
CN109693239A (zh) * 2018-12-29 2019-04-30 深圳市越疆科技有限公司 一种基于深度强化学习的机器人抓取方法
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周祺杰.基于深度强化学习的固体放射性废物抓取方法研究.《计算机应用研究》.2020,第37卷(第11期), *
基于深度强化学习的固体放射性废物抓取方法研究;周祺杰;《计算机应用研究》;20201105;第37卷(第11期);第3363-3367页 *

Also Published As

Publication number Publication date
CN112405543A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN112405543B (zh) 一种基于深度强化学习的机械臂密集物体温度优先抓取方法
CN110450153B (zh) 一种基于深度强化学习的机械臂物品主动拾取方法
CN110400345B (zh) 基于深度强化学习的放射性废物推抓协同分拣方法
CN109986560B (zh) 一种面向多目标种类的机械臂自适应抓取方法
CN112605983B (zh) 一种适用于密集环境下的机械臂推抓系统
CN107471218B (zh) 一种基于多目视觉的双臂机器人手眼协调方法
CN112643668B (zh) 一种适用于密集环境下的机械臂推抓协同方法
CN110238840B (zh) 一种基于视觉的机械臂自主抓取方法
CN113284109B (zh) 管道缺陷识别方法、装置、终端设备及存储介质
JP6671694B1 (ja) 機械学習装置、機械学習システム、データ処理システム及び機械学習方法
CN109782600A (zh) 一种通过虚拟环境建立自主移动机器人导航系统的方法
CN111360862B (zh) 一种基于卷积神经网络的生成最佳抓取位姿的方法
EP3793786A1 (en) Self-supervised robotic object interaction
CN113762159B (zh) 一种基于有向箭头模型的目标抓取检测方法及系统
Du et al. 3D measuring and segmentation method for hot heavy forging
EP4336385A1 (en) Method and apparatus for updating target detection model
CN113139432B (zh) 基于人体骨架和局部图像的工业包装行为识别方法
CN110009689A (zh) 一种用于协作机器人位姿估计的图像数据集快速构建方法
CN117549307A (zh) 一种非结构化环境下的机器人视觉抓取方法及系统
CN114131603B (zh) 基于感知增强和场景迁移的深度强化学习机器人抓取方法
CN109764876B (zh) 无人平台的多模态融合定位方法
CN110866548A (zh) 输电线路绝缘子红外智能匹配识别与测距定位方法及系统
CN118122642A (zh) 一种板簧压力分拣方法及分拣系统
CN110889460B (zh) 一种基于协同注意力机制的机械臂指定物体抓取方法
JP2019175144A (ja) 建造物管理システム、学習装置、位置判定装置、及び位置判定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant