CN110400345B - 基于深度强化学习的放射性废物推抓协同分拣方法 - Google Patents

基于深度强化学习的放射性废物推抓协同分拣方法 Download PDF

Info

Publication number
CN110400345B
CN110400345B CN201910673482.XA CN201910673482A CN110400345B CN 110400345 B CN110400345 B CN 110400345B CN 201910673482 A CN201910673482 A CN 201910673482A CN 110400345 B CN110400345 B CN 110400345B
Authority
CN
China
Prior art keywords
network
value
mechanical arm
pixel point
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910673482.XA
Other languages
English (en)
Other versions
CN110400345A (zh
Inventor
刘满禄
周祺杰
张华�
张静
李新茂
周建
王姮
张敦凤
胡莉
宋宇
蒋元陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN201910673482.XA priority Critical patent/CN110400345B/zh
Publication of CN110400345A publication Critical patent/CN110400345A/zh
Application granted granted Critical
Publication of CN110400345B publication Critical patent/CN110400345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0014Image feed-back for automatic industrial control, e.g. robot with camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Robotics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度强化学习的放射性废物推抓协同分拣方法,其包括采用RGB‑D相机和γ相机分别采集待分拣对象的图像信息,并将所有的图像信息分别转换为初始状态图;将每张初始状态图旋转16次得到若干旋转状态图;将旋转状态图中的彩色图像和深度图像输入已训练的抓取操作全卷积网络和已训练的推动操作全卷积网络中得到张像素点Q值图;获取所有像素点Q值图中Q值最大的像素点,根据Q值最大的像素点控制机械臂执行作业,根据作业结果给予作业奖励;根据作业奖励计算损失函数,并更新输出Q值最大的像素点对应的像素点Q值图网络的网络参数;判断待分拣对象是否分拣完成,若是,则结束分拣,否则返回步获取图像信息。

Description

基于深度强化学习的放射性废物推抓协同分拣方法
技术领域
本发明涉及物品的分拣技术,具体涉及一种基于深度强化学习的放射性废物推抓协同分拣方法。
背景技术
固体放射性废物处理是安全利用核能的重要环节之一,杂乱无序的固体废物按照放射性水平、材质、可压性、可燃性进行合理分拣,将有效推进其后期的处理。传统的放射性废物分拣方法主要采用人工、遥控设备等方式。由于放射性的存在,人工分拣危险大;目前逐步推广的采用遥控设备进行分拣的方法,效率低、操作难度大。
目前针对非辐射环境杂乱物品的分拣、抓取问题,国内外学者提出不同了的研究策略,在基于模型的抓取方面,有传统机器学习中的支持向量机、基于点云的三维特征匹配等方法,通常预先学习要抓取对象模型的抓取位姿,在抓取时使用点云匹配进行位姿估计。尽管研究者在基于模型训练的领域进行了很多工作,但是由于现实世界物体的估算和建模方面存在困难,目前这类方法很难完成具有挑战性的机器人分拣任务。
最近,基于深度强化学习(Deep Reinforcement Learning,DRL)算法的无模型抓取策略为分拣任务提供了广泛的前景,这种策略在抓取过程中并没有使用对象的特定特征(如对象的形状、姿态),拥有良好的环境适应性和自主学习能力。于是深度强化学习在机器人分拣领域有了丰富的发展。卡耐基梅隆大学的Lerrel Pinto等人提出了一种自我监督学习的框架用在机器人抓取方面,他们利用强化学习的思想,让机器人通过不断试错来训练CNN网络。Sergey Levine等人通过训练了卷积神经网络,预测机械臂的任务空间运动能抓取成功的概率,通过大量的训练完成分拣作业任务,但研究者使用深度强化学习完成任务的操作方式是单一的
目前出现的基于深度学习方面的分拣方法虽然能够实现部分典型环境、对象、状态的分拣、抓取作业,但是难以应用于固体放射性废物这类具有典型特征对象的分拣。
发明内容
针对现有技术中的上述不足,本发明提供的基于深度强化学习的放射性废物推抓协同分拣方法在进行网络参数更新时充分考虑了放射性物质,使得机械臂在抓取时会优先抓取放射性物质。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种基于深度强化学习的放射性废物推抓协同分拣方法,其包括:
S1、采用RGB-D相机和γ相机分别采集待分拣对象的图像信息,并将所有的图像信息分别转换为初始状态图;
S2、将每张初始状态图每次按设定角度旋转,直至旋转角度等于360°,得到若干张不同旋转角度的旋转状态图;
S3、将旋转状态图中的彩色图像和深度图像输入已训练的抓取操作全卷积网络和已训练的推动操作全卷积网络中,并输出若干张像素点Q值图;
S4、获取所有像素点Q值图中Q值最大的像素点,并根据其所在位置、对应旋转状态图的旋转角度及输出对应像素点Q值图的网络作为机械臂的操作位置、动作方向和动作状态;
S5、控制机械臂根据操作位置、动作方向和动作状态执行作业,当动作状态为抓取时,根据作业结果及对应旋转角度的γ相机状态图,给予相应作业奖励;当动作状态为推动时,根据作业结果给予作业奖励;
S6、根据作业奖励计算损失函数,并更新输出Q值最大的像素点对应的像素点Q值图网络的网络参数;以及
S7、判断待分拣对象是否分拣完成,若是,则结束分拣,否则返回步骤S1。
本发明的有益效果为:本方案采用已训练的全卷积网络建立输入端(图像信息)与输出端(机械臂操作位姿)之间的映射关系,使机械臂自主完成分拣作业,并且会优先抓取放射性区域内辐射强度高的物体;在抓取过程中,仍不断的更新神经网络的网络参数,以学习关节的推动和抓取操作,以达到提高抓取辐射强度高的物体的精准性。
附图说明
图1为基于深度强化学习的放射性废物推抓协同分拣方法的流程图。
图2为DenseNet-121卷积网络结构图。
图3为机械臂分拣作业环境与图像信息;其中,1、机械臂,2、夹具,3、RGB-D相机,4、γ相机,5、工作空间。
图4为Q值可视化图像(是像素点Q值图)。
图5为分拣策略中训练算法的结构图。
图6为机械臂1训练曲线图。
图7为随机放置物块的效果图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
参考图1,图1示出了基于深度强化学习的放射性废物推抓协同分拣方法的流程图;如图1所示,该方法S包括步骤S1至步骤S8。
在步骤S1中,采用RGB-D相机3和γ相机4分别采集待分拣对象的图像信息,并将所有的图像信息分别转换为初始状态图;机械臂1分拣作业环境与图像信息的示意图可以参考图3。
实施时,本方案优选将所有的图像信息分别转换为初始状态图进一步包括:
将RGB-D相机3获取的彩色图像、深度图像及γ相机4提取的放射性区域图像分别单独进行3D点云匹配;
采用匹配点云计算每个图像的转换矩阵,并进行正交变换,生成自上而下的俯视图,并将俯视图作为每个图像的初始状态图。
在步骤S2中,将每张初始状态图每次按设定角度旋转,直至旋转角度等于360°,得到若干张不同旋转角度的旋转状态图;优选设定角度
Figure BDA0002142470710000041
n∈{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16},旋转完成后,每张初始状态图形成16张旋转效果图。
在步骤S3中,将旋转状态图中的彩色图像和深度图像输入已训练的抓取操作全卷积网络和已训练的推动操作全卷积网络中,并输出若干张像素点Q值图,像素点Q值图的可视化图像参考图4。
抓取操作全卷积网络和推动操作全卷积网络的网络结构相同,均包括当前值函数网络和目标值函数网络,当前值函数网络和目标值函数网络均由两个DenseNet-121卷积网络组成,如图2所示,DenseNet-121由基本单元密集块(Dense Block)和转换层(Translation Layer)组成;旋转状态图中的彩色图像和深度图像分别输入一个DenseNet-121卷积网络后,两个DenseNet-121卷积网络的输出进行批量归一化,使其输出为一张像素点Q值图,当n=16时,推动操作与抓取操作共有32张图像输入到DenseNet-121卷积网络中,输出得到32张像素点Q值图,共有1605632(224×224×32)个Q值,在其中找到最大Q值的像素点,根据这个像素点所在的图判断进行推动还是抓取操作,像素点所在位置为操作位置,夹具2操作方向为这张图像旋转的方向k。
在本发明的一个实施例中,所述已训练的抓取操作全卷积网络和已训练的推动操作全卷积网络的训练方法A包括步骤A1至步骤A9。
在步骤A1中,初始化机械臂1,并对机械臂1与RGB-D相机3和γ相机4进行标定;实施时,本方案优选对机械臂1与RGB-D相机3和γ相机4进行标定的方法包括:
调整机械臂1,使固定在机械臂1末端的标定板移动到RGB-D相机3和γ相机4视野内;
机械臂1自动执行多次转轴非平行运动,得到十组标定观测数据;
采用十组标定观测数据构建方程组:AX=XB,其中A为标定板在机械臂1坐标系下的位姿,B为标定板在相机坐标系下的位姿,X为机械臂1坐标系与相机坐标系之间的转换矩阵;
求解方程组完成机械臂1与RGB-D相机3和γ相机4间的手眼标定。
在步骤A2中,采用RGB-D相机3和γ相机4分别采集待分拣对象的图像信息,并将所有的图像信息分别转换为初始状态图;本步骤和步骤S1中得到初始状态图的方法相同,此处就不在赘述。
在步骤A3中,将每张初始状态图每次按设定角度旋转,直至旋转角度等于360°,得到若干张不同旋转角度的旋转状态图;
在步骤A4中,将旋转状态图中的彩色图像和深度图像输入抓取操作全卷积网络和推动操作全卷积网络中,并输出若干张像素点Q值图;
在步骤A5中,获取所有像素点Q值图中Q值最大的像素点,并根据其所在位置、对应旋转状态图的旋转角度及输出对应像素点Q值图的网络作为机械臂1的操作位置、动作方向(动作方向指机械臂1的旋转角度,机械臂1的旋转角度等于对应旋转状态图的旋转角度)和动作状态;
在步骤A6中,控制机械臂1根据操作位置、动作方向和动作状态执行作业,当动作状态为抓取时,根据作业结果及对应旋转角度的γ相机4状态图,给予相应作业奖励;当动作状态为推动时,根据作业结果给予作业奖励;
在步骤A7中,根据作业奖励计算损失函数,并更新输出Q值最大的像素点对应的像素点Q值图网络的网络参数,之后将迭代次数累加一次;
在步骤A8中,判断待分拣对象是否分拣完成,若是,则将所有待分拣对象重新放入分拣区域,并进入步骤A9,否则返回步骤A2;
在步骤A9中,判断迭代次数是否大于预设迭代次数,若是,则完成抓取操作全卷积网络和推动操作全卷积网络的训练,否则,返回步骤A2。
如图5所示,全卷积网络训练过程,初始化经验回放单元D,利用随机权值θi初始化当前值函数,令
Figure BDA0002142470710000061
初始化目标值函数,当前状态为s得到在所有像素点动作对应的Q值输出,利用贪婪策略选择当前值函数最大的动作
Figure BDA0002142470710000062
执行动作a,观测作业奖励R以及下个状态s′,将(s,a,r,s′)储存在经验回放单元中,并将下一个状态的旋转状态图输入目标值函数。通过最小化当前值函数和目标值函数之间误差的绝对值来更新网络参数,DQN误差函数(损失函数)的计算公式为:
Figure BDA0002142470710000071
其中,L(θi)为当前值函数网络的网络参数为θi时的损失函数值;Q(s,a|θi)为当前值函数,θi为当前值函数网络在第i次迭代时的网络参数;
Figure BDA0002142470710000072
为目标值函数,s'为下一个状态;a′为当前状态下所有可能的动作;
Figure BDA0002142470710000073
为目标值函数网络的参数;Yi为当前值函数每次迭代时的优化目标;
采用梯度下降法更新当前值函数网络参数:
Figure BDA0002142470710000074
其中,
Figure BDA0002142470710000075
为损失函数对网络参数θi求偏导。
在训练和分拣操作中,每隔设定迭代次数采用当前值函数网络参数更新目标值函数网络的参数。
在步骤S4中,获取所有像素点Q值图中Q值最大的像素点,并根据其所在位置、对应旋转状态图的旋转角度及输出对应像素点Q值图的网络作为机械臂1的操作位置、动作方向和动作状态;
在步骤S5中,控制机械臂1根据操作位置、动作方向和动作状态执行作业,,之后并判断机械臂1执行作业是否成功,具体地,当动作状态为抓取时,根据作业结果及对应旋转角度的γ相机4状态图,给予相应作业奖励;当动作状态为推动时,根据作业结果给予作业奖励。
实施时,若动作状态为推动时,其每次推动的距离为固定值。
在步骤S6中,根据作业奖励计算损失函数,并更新输出Q值最大的像素点对应的像素点Q值图网络的网络参数;
在步骤S7中,判断待分拣对象是否分拣完成,若是,则结束分拣,否则返回步骤S1。本方案的分拣过程与全卷积网络训练过程中,步骤S1至步骤S6,与步骤A2至步骤A6完全相同。
实施时,本方案优选分拣过程与全卷积网络训练过程中作业结果为抓取/推动成功或失败;
抓取是否成功通过机械臂1的夹具2的两爪之间的距离是否等于零确定,若大于零,则抓取成功,否则抓取失败;
推动是否成功通过当前深度图像和上一张深度图像间的变化程度是否大于设定阈值确定,若大于,则推动成功,否则推动失败。
分拣过程与全卷积网络训练过程中作业奖励的计算方式为:
Figure BDA0002142470710000087
其中,R为当前状态s在进行动作a时,对于状态图上每个像素点p的奖励函数;
Figure BDA0002142470710000081
为抓取作业奖励,抓取成功时
Figure BDA0002142470710000082
抓取失败时
Figure BDA0002142470710000083
为对γ相机4提取的放射性区域内图像进行的阶梯奖励,λ为奖励系数,r为机械臂1动作位置与放射源的距离;
Figure BDA0002142470710000084
为推动作业奖励,推动成功时
Figure BDA0002142470710000085
推动失败时
Figure BDA0002142470710000086
下面结合具体的实例对本方案的训练过程及采用本方案方法进行分拣的效果进行说明:
训练过程将10个物块随机的放入大小为0.4482m的机械臂1的工作空间5中,状态图的像素分辨率为224×224,每个像素代表工作空间5中22mm的范围,机械臂1通过相机自动的获取工作空间5中的物块信息,通过不断的试错操作,直到工作空间5中没有物块可以进行操作。
在训练阶段,随机梯度下降法使用的学习率为10-4,权值衰减参数为2-4,梯度下降动量为0.9,探索策略为ε-greedy策略,初始设置ε值为0.5。权衡未来奖励影响的γ设置为0.5,回报奖励的参数设定为λ=12.5。
全卷积网络训练过程中,机械臂13000次训练曲线如图6所示,从图6可以明显看出通过训练,机械臂1抓取的成功率在逐渐上升,表明了此算法运用在分拣作业中的有效性。
全卷积网络训练完成后,设置了四个评估度量对抓取效果进行评估,对于n次测试过程,(1)机械臂1完成对所有物体抓取的平均次数;(2)具有高放射性活度物块被第几个抓起来,即被抓取时的次序;(3)机械臂1总抓取成功率;(4)推动后下一次进行抓取操作成功率。测试过程,20次随机放置物块,随机方式物块的效果图如图7所示,对于20次随机放置物块测试结果见表1所示。
表1随机放置物块测试结果
Figure BDA0002142470710000091
从表1可以看出推动抓取协同操作方式机械臂1单独抓取操作在平均抓取次数方面有明显的减少,而抓取成功率有明显的提升。同时,在对比有无R(Θ)的推动抓取协同操作测试结果,可以发现对于高放射性活度物块被抓取的次序有了明显的提升,被优先抓取的次序提升了1.24,说明在放射性区域加入额外的回报函数奖励R(Θ)有明显作用。
另外,在机械臂1使用推动操作以后的下一次抓取操作成功率也高于总的抓取成功率,明显表现出推动抓取协同操作的良好效果与推动操作在协同过程中的积极作用。

Claims (8)

1.基于深度强化学习的放射性废物推抓协同分拣方法,其特征在于,包括:
S1、采用RGB-D相机和γ相机分别采集待分拣对象的图像信息,并将所有的图像信息分别转换为初始状态图;
S2、将每张初始状态图每次按设定角度旋转,直至旋转角度等于360°,得到若干张不同旋转角度的旋转状态图;
S3、将旋转状态图中的彩色图像和深度图像输入已训练的抓取操作全卷积网络和已训练的推动操作全卷积网络中,并输出若干张像素点Q值图;
S4、获取所有像素点Q值图中Q值最大的像素点,并根据其所在位置、对应旋转状态图的旋转角度及输出对应像素点Q值图的网络作为机械臂的操作位置、动作方向和动作状态;
S5、控制机械臂根据操作位置、动作方向和动作状态执行作业,当动作状态为抓取时,根据作业结果及对应旋转角度的γ相机状态图,给予相应作业奖励;当动作状态为推动时,根据作业结果给予作业奖励;
所述作业奖励的计算方式为:
Figure FDA0002990080890000011
其中,R为当前状态s在进行动作a时,对于状态图上每个像素点p的奖励函数;
Figure FDA0002990080890000012
为抓取作业奖励,抓取成功时
Figure FDA0002990080890000013
抓取失败时
Figure FDA0002990080890000014
Figure FDA0002990080890000015
为对γ相机提取的放射性区域内图像进行的阶梯奖励,λ为奖励系数,r为机械臂动作位置与放射源的距离;
Figure FDA0002990080890000016
为推动作业奖励,推动成功时
Figure FDA0002990080890000017
推动失败时
Figure FDA0002990080890000018
S6、根据作业奖励计算损失函数,并更新输出Q值最大的像素点对应的像素点Q值图网络的网络参数;以及
S7、判断待分拣对象是否分拣完成,若是,则结束分拣,否则返回步骤S1。
2.根据权利要求1所述的基于深度强化学习的放射性废物推抓协同分拣方法,其特征在于,抓取操作全卷积网络和推动操作全卷积网络的网络结构相同,均包括当前值函数网络和目标值函数网络,当前值函数网络和目标值函数网络均由两个DenseNet-121卷积网络组成;旋转状态图中的彩色图像和深度图像分别输入一个DenseNet-121卷积网络后,两个DenseNet-121卷积网络的输出进行批量归一化,使其输出为一张像素点Q值图。
3.根据权利要求1所述的基于深度强化学习的放射性废物推抓协同分拣方法,其特征在于,所述作业结果为抓取/推动成功或失败;
抓取是否成功通过机械臂的夹具的两爪之间的距离是否等于零确定,若大于零,则抓取成功,否则抓取失败;
推动是否成功通过当前深度图像和上一张深度图像间的变化程度是否大于设定阈值确定,若大于,则推动成功,否则推动失败。
4.根据权利要求1所述的基于深度强化学习的放射性废物推抓协同分拣方法,其特征在于,所述损失函数的计算公式为:
Figure FDA0002990080890000021
其中,L(θi)为当前值函数网络的网络参数为θi时的损失函数值;Q(s,aθi)为当前值函数,θi为当前值函数网络在第i次迭代时的网络参数;
Figure FDA0002990080890000022
为目标值函数,s'为下一个状态;a′为当前状态下所有可能的动作;
Figure FDA0002990080890000031
为目标值函数网络的参数;Yi为当前值函数每次迭代时的优化目标;
采用梯度下降法更新当前值函数网络参数:
Figure FDA0002990080890000032
其中,
Figure FDA0002990080890000033
为损失函数对网络参数θi求偏导。
5.根据权利要求4所述的基于深度强化学习的放射性废物推抓协同分拣方法,其特征在于,每隔设定迭代次数采用当前值函数网络参数更新目标值函数网络的参数。
6.根据权利要求1-5任一所述的基于深度强化学习的放射性废物推抓协同分拣方法,其特征在于,所述已训练的抓取操作全卷积网络和已训练的推动操作全卷积网络的训练方法包括:
A1、初始化机械臂,并对机械臂与RGB-D相机和γ相机进行标定;
A2、采用RGB-D相机和γ相机分别采集待分拣对象的图像信息,并将所有的图像信息分别转换为初始状态图;
A3、将每张初始状态图每次按设定角度旋转,直至旋转角度等于360°,得到若干张不同旋转角度的旋转状态图;
A4、将旋转状态图中的彩色图像和深度图像输入抓取操作全卷积网络和推动操作全卷积网络中,并输出若干张像素点Q值图;
A5、获取所有像素点Q值图中Q值最大的像素点,并根据其所在位置、对应旋转状态图的旋转角度及输出对应像素点Q值图的网络作为机械臂的操作位置、动作方向和动作状态;
A6、控制机械臂根据操作位置、动作方向和动作状态执行作业,当动作状态为抓取时,根据作业结果及对应旋转角度的γ相机状态图,给予相应作业奖励;当动作状态为推动时,根据作业结果给予作业奖励;
A7、根据作业奖励计算损失函数,并更新输出Q值最大的像素点对应的像素点Q值图网络的网络参数,之后将迭代次数累加一次;
A8、判断待分拣对象是否分拣完成,若是,则将所有待分拣对象重新放入分拣区域,并进入步骤A9,否则返回步骤A2;
A9、判断迭代次数是否大于预设迭代次数,若是,则完成抓取操作全卷积网络和推动操作全卷积网络的训练,否则,返回步骤A2。
7.根据权利要求6所述的基于深度强化学习的放射性废物推抓协同分拣方法,其特征在于,对机械臂与RGB-D相机和γ相机进行标定的方法包括:
调整机械臂,使固定在机械臂末端的标定板移动到RGB-D相机和γ相机视野内;
机械臂自动执行多次转轴非平行运动,得到十组标定观测数据;
采用十组标定观测数据构建方程组:AX=XB,其中A为标定板在机械臂坐标系下的位姿,B为标定板在相机坐标系下的位姿,X为机械臂坐标系与相机坐标系之间的转换矩阵;
求解方程组完成机械臂与RGB-D相机和γ相机间的手眼标定。
8.根据权利要求1-5、7任一所述的基于深度强化学习的放射性废物推抓协同分拣方法,其特征在于,将所有的图像信息分别转换为初始状态图进一步包括:
将RGB-D相机获取的彩色图像、深度图像及γ相机提取的放射性区域图像分别单独进行3D点云匹配;
采用匹配点云计算每个图像的转换矩阵,并进行正交变换,生成自上而下的俯视图,并将俯视图作为每个图像的初始状态图。
CN201910673482.XA 2019-07-24 2019-07-24 基于深度强化学习的放射性废物推抓协同分拣方法 Active CN110400345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910673482.XA CN110400345B (zh) 2019-07-24 2019-07-24 基于深度强化学习的放射性废物推抓协同分拣方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910673482.XA CN110400345B (zh) 2019-07-24 2019-07-24 基于深度强化学习的放射性废物推抓协同分拣方法

Publications (2)

Publication Number Publication Date
CN110400345A CN110400345A (zh) 2019-11-01
CN110400345B true CN110400345B (zh) 2021-06-15

Family

ID=68325893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910673482.XA Active CN110400345B (zh) 2019-07-24 2019-07-24 基于深度强化学习的放射性废物推抓协同分拣方法

Country Status (1)

Country Link
CN (1) CN110400345B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111331607B (zh) * 2020-04-03 2021-04-23 山东大学 一种基于机械臂的自主抓取与码垛方法及系统
CN111618847B (zh) * 2020-04-22 2022-06-21 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN111644398A (zh) * 2020-05-28 2020-09-11 华中科技大学 一种基于双视角的推抓协同分拣网络及其分拣方法和系统
CN112295933B (zh) * 2020-09-17 2022-03-11 东南大学 一种机器人快速分拣货物的方法
CN112581519B (zh) * 2020-12-21 2022-03-22 中广核工程有限公司 一种放射性废物包识别定位方法与装置
CN113001552B (zh) * 2021-03-16 2022-07-15 中国科学院自动化研究所 面向杂质性目标的机器人操作协同抓取方法、系统及设备
CN113246130B (zh) * 2021-05-26 2022-03-22 中国科学院宁波材料技术与工程研究所 一种工件抓取和拨动干预方法及系统
CN113664825B (zh) * 2021-07-19 2022-11-25 清华大学深圳国际研究生院 一种基于强化学习的堆叠场景机械臂抓取方法与装置
CN113751365B (zh) * 2021-09-28 2023-03-17 西南科技大学 基于双光相机的核废物检测分拣系统及方法
CN114474060B (zh) * 2022-02-16 2023-06-16 华南理工大学 一种工业机器人的控制方法、装置和存储介质
CN116237935B (zh) * 2023-02-03 2023-09-15 兰州大学 一种机械臂协同抓取方法、系统、机械臂及存储介质
CN118322215A (zh) * 2024-05-20 2024-07-12 维宏感应(山东)科技有限公司 一种机器人视觉自动化抓取系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360376A (zh) * 2014-12-09 2015-02-18 西南科技大学 具有放射源核素识别功能的伽马相机及核素识别方法
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108171748A (zh) * 2018-01-23 2018-06-15 哈工大机器人(合肥)国际创新研究院 一种面向机器人智能抓取应用的视觉识别与定位方法
CN109213147A (zh) * 2018-08-01 2019-01-15 上海交通大学 一种基于深度学习的机器人避障轨迹规划方法及系统
CN109352648A (zh) * 2018-10-12 2019-02-19 北京地平线机器人技术研发有限公司 机械机构的控制方法、装置和电子设备
CN109693239A (zh) * 2018-12-29 2019-04-30 深圳市越疆科技有限公司 一种基于深度强化学习的机器人抓取方法
CN109886913A (zh) * 2017-12-05 2019-06-14 西门子保健有限责任公司 成像扫描中关键发现的标识

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109765916A (zh) * 2019-03-26 2019-05-17 武汉欣海远航科技研发有限公司 一种水面无人艇路径跟踪控制器设计方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360376A (zh) * 2014-12-09 2015-02-18 西南科技大学 具有放射源核素识别功能的伽马相机及核素识别方法
CN106094516A (zh) * 2016-06-08 2016-11-09 南京大学 一种基于深度强化学习的机器人自适应抓取方法
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
CN109886913A (zh) * 2017-12-05 2019-06-14 西门子保健有限责任公司 成像扫描中关键发现的标识
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108171748A (zh) * 2018-01-23 2018-06-15 哈工大机器人(合肥)国际创新研究院 一种面向机器人智能抓取应用的视觉识别与定位方法
CN109213147A (zh) * 2018-08-01 2019-01-15 上海交通大学 一种基于深度学习的机器人避障轨迹规划方法及系统
CN109352648A (zh) * 2018-10-12 2019-02-19 北京地平线机器人技术研发有限公司 机械机构的控制方法、装置和电子设备
CN109693239A (zh) * 2018-12-29 2019-04-30 深圳市越疆科技有限公司 一种基于深度强化学习的机器人抓取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Human-level control through deep reinforcement learning;Volodymyr Mnih 等;《nature》;20150226;第1-13页 *
Learning Synergies between Pushing and Grasping with Self-supervised Deep Reinforcement Learning;Andy Zeng 等;《2018 IEEE RSJ International Conference on Intelligent Robots and Systems》;20190107;第1-9页 *
Review of Deep Learning Methods in Robotic Grasp Detection;Shehan Caldera 等;《MDPI》;20180907;第1-24页 *
基于深度强化学习的机械臂视觉抓取控制优化方法;林邦 等;《人工智能与机器人研究》;20181129;第7卷(第4期);第200-206页 *
面向机器人抓取过程中目标位姿估计方法;李树春 等;《传感器与微系统》;20190626;第38卷(第7期);第32-34、38页 *

Also Published As

Publication number Publication date
CN110400345A (zh) 2019-11-01

Similar Documents

Publication Publication Date Title
CN110400345B (zh) 基于深度强化学习的放射性废物推抓协同分拣方法
CN111515961B (zh) 一种适用于移动机械臂的强化学习奖励方法
JP6810087B2 (ja) 機械学習装置、機械学習装置を用いたロボット制御装置及びロボットビジョンシステム、並びに機械学習方法
CN112605983B (zh) 一种适用于密集环境下的机械臂推抓系统
CN110842914A (zh) 基于差分进化算法的手眼标定参数辨识方法、系统及介质
JP6671694B1 (ja) 機械学習装置、機械学習システム、データ処理システム及び機械学習方法
DE202017106506U1 (de) Einrichtung für tiefes Maschinenlernen zum Robotergreifen
CN108415254B (zh) 基于深度q网络的废品回收机器人控制方法
CN110238840B (zh) 一种基于视觉的机械臂自主抓取方法
CN112347900B (zh) 基于距离估计的单目视觉水下目标自动抓取方法
CN110216671A (zh) 一种基于计算机仿真的机械抓手训练方法及系统
CN114851201A (zh) 一种基于tsdf三维重建的机械臂六自由度视觉闭环抓取方法
CN114367988B (zh) 一种煤矿自主巡检平台上的机械臂运动规划方法和装置
CN114131603B (zh) 基于感知增强和场景迁移的深度强化学习机器人抓取方法
CN116852353A (zh) 一种基于深度强化学习的密集场景机械臂抓取多目标物体的方法
Kumra et al. Learning robotic manipulation tasks via task progress based Gaussian reward and loss adjusted exploration
Thangeda et al. Learning and Autonomy for Extraterrestrial Terrain Sampling: An Experience Report from OWLAT Deployment
CN113524173A (zh) 一种端到端的地外探测样品智能抓取方法
CN116330283A (zh) 一种密集场景下机械臂抓取目标物体的方法
Qi et al. Reinforcement learning control for robot arm grasping based on improved DDPG
US11921492B2 (en) Transfer between tasks in different domains
Li et al. Grasping Detection Based on YOLOv3 Algorithm
CN110222697B (zh) 一种基于强化学习的行星表面地貌主动感知方法
CN118003339B (zh) 一种基于人工智能的机器人分拣控制算法
CN118700128A (zh) 一种基于强化学习的机器人自主抓推控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant