CN110400345B

CN110400345B - 基于深度强化学习的放射性废物推抓协同分拣方法

Info

Publication number: CN110400345B
Application number: CN201910673482.XA
Authority: CN
Inventors: 刘满禄; 周祺杰; 张华�; 张静; 李新茂; 周建; 王姮; 张敦凤; 胡莉; 宋宇; 蒋元陈
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2021-06-15
Anticipated expiration: 2039-07-24
Also published as: CN110400345A

Abstract

本发明公开了一种基于深度强化学习的放射性废物推抓协同分拣方法，其包括采用RGB‑D相机和γ相机分别采集待分拣对象的图像信息，并将所有的图像信息分别转换为初始状态图；将每张初始状态图旋转16次得到若干旋转状态图；将旋转状态图中的彩色图像和深度图像输入已训练的抓取操作全卷积网络和已训练的推动操作全卷积网络中得到张像素点Q值图；获取所有像素点Q值图中Q值最大的像素点，根据Q值最大的像素点控制机械臂执行作业，根据作业结果给予作业奖励；根据作业奖励计算损失函数，并更新输出Q值最大的像素点对应的像素点Q值图网络的网络参数；判断待分拣对象是否分拣完成，若是，则结束分拣，否则返回步获取图像信息。

Description

基于深度强化学习的放射性废物推抓协同分拣方法

技术领域

本发明涉及物品的分拣技术，具体涉及一种基于深度强化学习的放射性废物推抓协同分拣方法。

背景技术

固体放射性废物处理是安全利用核能的重要环节之一，杂乱无序的固体废物按照放射性水平、材质、可压性、可燃性进行合理分拣，将有效推进其后期的处理。传统的放射性废物分拣方法主要采用人工、遥控设备等方式。由于放射性的存在，人工分拣危险大；目前逐步推广的采用遥控设备进行分拣的方法，效率低、操作难度大。

目前针对非辐射环境杂乱物品的分拣、抓取问题，国内外学者提出不同了的研究策略，在基于模型的抓取方面，有传统机器学习中的支持向量机、基于点云的三维特征匹配等方法，通常预先学习要抓取对象模型的抓取位姿，在抓取时使用点云匹配进行位姿估计。尽管研究者在基于模型训练的领域进行了很多工作，但是由于现实世界物体的估算和建模方面存在困难，目前这类方法很难完成具有挑战性的机器人分拣任务。

最近，基于深度强化学习(Deep Reinforcement Learning，DRL)算法的无模型抓取策略为分拣任务提供了广泛的前景，这种策略在抓取过程中并没有使用对象的特定特征(如对象的形状、姿态)，拥有良好的环境适应性和自主学习能力。于是深度强化学习在机器人分拣领域有了丰富的发展。卡耐基梅隆大学的Lerrel Pinto等人提出了一种自我监督学习的框架用在机器人抓取方面，他们利用强化学习的思想，让机器人通过不断试错来训练CNN网络。Sergey Levine等人通过训练了卷积神经网络，预测机械臂的任务空间运动能抓取成功的概率，通过大量的训练完成分拣作业任务，但研究者使用深度强化学习完成任务的操作方式是单一的

目前出现的基于深度学习方面的分拣方法虽然能够实现部分典型环境、对象、状态的分拣、抓取作业，但是难以应用于固体放射性废物这类具有典型特征对象的分拣。

发明内容

针对现有技术中的上述不足，本发明提供的基于深度强化学习的放射性废物推抓协同分拣方法在进行网络参数更新时充分考虑了放射性物质，使得机械臂在抓取时会优先抓取放射性物质。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种基于深度强化学习的放射性废物推抓协同分拣方法，其包括：

S1、采用RGB-D相机和γ相机分别采集待分拣对象的图像信息，并将所有的图像信息分别转换为初始状态图；

S2、将每张初始状态图每次按设定角度旋转，直至旋转角度等于360°，得到若干张不同旋转角度的旋转状态图；

S3、将旋转状态图中的彩色图像和深度图像输入已训练的抓取操作全卷积网络和已训练的推动操作全卷积网络中，并输出若干张像素点Q值图；

S4、获取所有像素点Q值图中Q值最大的像素点，并根据其所在位置、对应旋转状态图的旋转角度及输出对应像素点Q值图的网络作为机械臂的操作位置、动作方向和动作状态；

S5、控制机械臂根据操作位置、动作方向和动作状态执行作业，当动作状态为抓取时，根据作业结果及对应旋转角度的γ相机状态图，给予相应作业奖励；当动作状态为推动时，根据作业结果给予作业奖励；

S6、根据作业奖励计算损失函数，并更新输出Q值最大的像素点对应的像素点Q值图网络的网络参数；以及

S7、判断待分拣对象是否分拣完成，若是，则结束分拣，否则返回步骤S1。

本发明的有益效果为：本方案采用已训练的全卷积网络建立输入端(图像信息)与输出端(机械臂操作位姿)之间的映射关系，使机械臂自主完成分拣作业，并且会优先抓取放射性区域内辐射强度高的物体；在抓取过程中，仍不断的更新神经网络的网络参数，以学习关节的推动和抓取操作，以达到提高抓取辐射强度高的物体的精准性。

附图说明

图1为基于深度强化学习的放射性废物推抓协同分拣方法的流程图。

图2为DenseNet-121卷积网络结构图。

图3为机械臂分拣作业环境与图像信息；其中，1、机械臂，2、夹具，3、RGB-D相机，4、γ相机，5、工作空间。

图4为Q值可视化图像(是像素点Q值图)。

图5为分拣策略中训练算法的结构图。

图6为机械臂1训练曲线图。

图7为随机放置物块的效果图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

参考图1，图1示出了基于深度强化学习的放射性废物推抓协同分拣方法的流程图；如图1所示，该方法S包括步骤S1至步骤S8。

在步骤S1中，采用RGB-D相机3和γ相机4分别采集待分拣对象的图像信息，并将所有的图像信息分别转换为初始状态图；机械臂1分拣作业环境与图像信息的示意图可以参考图3。

实施时，本方案优选将所有的图像信息分别转换为初始状态图进一步包括：

将RGB-D相机3获取的彩色图像、深度图像及γ相机4提取的放射性区域图像分别单独进行3D点云匹配；

采用匹配点云计算每个图像的转换矩阵，并进行正交变换，生成自上而下的俯视图，并将俯视图作为每个图像的初始状态图。

在步骤S2中，将每张初始状态图每次按设定角度旋转，直至旋转角度等于360°，得到若干张不同旋转角度的旋转状态图；优选设定角度

n∈{1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16}，旋转完成后，每张初始状态图形成16张旋转效果图。

在步骤S3中，将旋转状态图中的彩色图像和深度图像输入已训练的抓取操作全卷积网络和已训练的推动操作全卷积网络中，并输出若干张像素点Q值图，像素点Q值图的可视化图像参考图4。

抓取操作全卷积网络和推动操作全卷积网络的网络结构相同，均包括当前值函数网络和目标值函数网络，当前值函数网络和目标值函数网络均由两个DenseNet-121卷积网络组成，如图2所示，DenseNet-121由基本单元密集块(Dense Block)和转换层(Translation Layer)组成；旋转状态图中的彩色图像和深度图像分别输入一个DenseNet-121卷积网络后，两个DenseNet-121卷积网络的输出进行批量归一化，使其输出为一张像素点Q值图，当n＝16时，推动操作与抓取操作共有32张图像输入到DenseNet-121卷积网络中，输出得到32张像素点Q值图，共有1605632(224×224×32)个Q值，在其中找到最大Q值的像素点，根据这个像素点所在的图判断进行推动还是抓取操作，像素点所在位置为操作位置，夹具2操作方向为这张图像旋转的方向k。

在本发明的一个实施例中，所述已训练的抓取操作全卷积网络和已训练的推动操作全卷积网络的训练方法A包括步骤A1至步骤A9。

在步骤A1中，初始化机械臂1，并对机械臂1与RGB-D相机3和γ相机4进行标定；实施时，本方案优选对机械臂1与RGB-D相机3和γ相机4进行标定的方法包括：

调整机械臂1，使固定在机械臂1末端的标定板移动到RGB-D相机3和γ相机4视野内；

机械臂1自动执行多次转轴非平行运动，得到十组标定观测数据；

采用十组标定观测数据构建方程组：AX＝XB，其中A为标定板在机械臂1坐标系下的位姿，B为标定板在相机坐标系下的位姿，X为机械臂1坐标系与相机坐标系之间的转换矩阵；

求解方程组完成机械臂1与RGB-D相机3和γ相机4间的手眼标定。

在步骤A2中，采用RGB-D相机3和γ相机4分别采集待分拣对象的图像信息，并将所有的图像信息分别转换为初始状态图；本步骤和步骤S1中得到初始状态图的方法相同，此处就不在赘述。

在步骤A3中，将每张初始状态图每次按设定角度旋转，直至旋转角度等于360°，得到若干张不同旋转角度的旋转状态图；

在步骤A4中，将旋转状态图中的彩色图像和深度图像输入抓取操作全卷积网络和推动操作全卷积网络中，并输出若干张像素点Q值图；

在步骤A5中，获取所有像素点Q值图中Q值最大的像素点，并根据其所在位置、对应旋转状态图的旋转角度及输出对应像素点Q值图的网络作为机械臂1的操作位置、动作方向(动作方向指机械臂1的旋转角度，机械臂1的旋转角度等于对应旋转状态图的旋转角度)和动作状态；

在步骤A6中，控制机械臂1根据操作位置、动作方向和动作状态执行作业，当动作状态为抓取时，根据作业结果及对应旋转角度的γ相机4状态图，给予相应作业奖励；当动作状态为推动时，根据作业结果给予作业奖励；

在步骤A7中，根据作业奖励计算损失函数，并更新输出Q值最大的像素点对应的像素点Q值图网络的网络参数，之后将迭代次数累加一次；

在步骤A8中，判断待分拣对象是否分拣完成，若是，则将所有待分拣对象重新放入分拣区域，并进入步骤A9，否则返回步骤A2；

在步骤A9中，判断迭代次数是否大于预设迭代次数，若是，则完成抓取操作全卷积网络和推动操作全卷积网络的训练，否则，返回步骤A2。

如图5所示，全卷积网络训练过程，初始化经验回放单元D，利用随机权值θ_i初始化当前值函数，令

初始化目标值函数，当前状态为s得到在所有像素点动作对应的Q值输出，利用贪婪策略选择当前值函数最大的动作

执行动作a，观测作业奖励R以及下个状态s′，将(s,a,r,s′)储存在经验回放单元中，并将下一个状态的旋转状态图输入目标值函数。通过最小化当前值函数和目标值函数之间误差的绝对值来更新网络参数，DQN误差函数(损失函数)的计算公式为：

其中，L(θ_i)为当前值函数网络的网络参数为θ_i时的损失函数值；Q(s,a|θ_i)为当前值函数，θ_i为当前值函数网络在第i次迭代时的网络参数；

为目标值函数，s'为下一个状态；a′为当前状态下所有可能的动作；

为目标值函数网络的参数；Y_i为当前值函数每次迭代时的优化目标；

采用梯度下降法更新当前值函数网络参数：

其中，

为损失函数对网络参数θ_i求偏导。

在训练和分拣操作中，每隔设定迭代次数采用当前值函数网络参数更新目标值函数网络的参数。

在步骤S4中，获取所有像素点Q值图中Q值最大的像素点，并根据其所在位置、对应旋转状态图的旋转角度及输出对应像素点Q值图的网络作为机械臂1的操作位置、动作方向和动作状态；

在步骤S5中，控制机械臂1根据操作位置、动作方向和动作状态执行作业，，之后并判断机械臂1执行作业是否成功，具体地，当动作状态为抓取时，根据作业结果及对应旋转角度的γ相机4状态图，给予相应作业奖励；当动作状态为推动时，根据作业结果给予作业奖励。

实施时，若动作状态为推动时，其每次推动的距离为固定值。

在步骤S6中，根据作业奖励计算损失函数，并更新输出Q值最大的像素点对应的像素点Q值图网络的网络参数；

在步骤S7中，判断待分拣对象是否分拣完成，若是，则结束分拣，否则返回步骤S1。本方案的分拣过程与全卷积网络训练过程中，步骤S1至步骤S6，与步骤A2至步骤A6完全相同。

实施时，本方案优选分拣过程与全卷积网络训练过程中作业结果为抓取/推动成功或失败；

抓取是否成功通过机械臂1的夹具2的两爪之间的距离是否等于零确定，若大于零，则抓取成功，否则抓取失败；

推动是否成功通过当前深度图像和上一张深度图像间的变化程度是否大于设定阈值确定，若大于，则推动成功，否则推动失败。

分拣过程与全卷积网络训练过程中作业奖励的计算方式为：

其中，R为当前状态s在进行动作a时，对于状态图上每个像素点p的奖励函数；

为抓取作业奖励，抓取成功时

抓取失败时

为对γ相机4提取的放射性区域内图像进行的阶梯奖励，λ为奖励系数，r为机械臂1动作位置与放射源的距离；

为推动作业奖励，推动成功时

推动失败时

下面结合具体的实例对本方案的训练过程及采用本方案方法进行分拣的效果进行说明：

训练过程将10个物块随机的放入大小为0.448²m的机械臂1的工作空间5中，状态图的像素分辨率为224×224，每个像素代表工作空间5中2²mm的范围，机械臂1通过相机自动的获取工作空间5中的物块信息，通过不断的试错操作，直到工作空间5中没有物块可以进行操作。

在训练阶段，随机梯度下降法使用的学习率为10^-4，权值衰减参数为2^-4，梯度下降动量为0.9，探索策略为ε-greedy策略，初始设置ε值为0.5。权衡未来奖励影响的γ设置为0.5，回报奖励的参数设定为λ＝12.5。

全卷积网络训练过程中，机械臂13000次训练曲线如图6所示，从图6可以明显看出通过训练，机械臂1抓取的成功率在逐渐上升，表明了此算法运用在分拣作业中的有效性。

全卷积网络训练完成后，设置了四个评估度量对抓取效果进行评估，对于n次测试过程，(1)机械臂1完成对所有物体抓取的平均次数；(2)具有高放射性活度物块被第几个抓起来，即被抓取时的次序；(3)机械臂1总抓取成功率；(4)推动后下一次进行抓取操作成功率。测试过程，20次随机放置物块，随机方式物块的效果图如图7所示，对于20次随机放置物块测试结果见表1所示。

表1随机放置物块测试结果

从表1可以看出推动抓取协同操作方式机械臂1单独抓取操作在平均抓取次数方面有明显的减少，而抓取成功率有明显的提升。同时，在对比有无R(Θ)的推动抓取协同操作测试结果，可以发现对于高放射性活度物块被抓取的次序有了明显的提升，被优先抓取的次序提升了1.24，说明在放射性区域加入额外的回报函数奖励R(Θ)有明显作用。

另外，在机械臂1使用推动操作以后的下一次抓取操作成功率也高于总的抓取成功率，明显表现出推动抓取协同操作的良好效果与推动操作在协同过程中的积极作用。

Claims

1.基于深度强化学习的放射性废物推抓协同分拣方法，其特征在于，包括：

所述作业奖励的计算方式为：

为抓取作业奖励，抓取成功时

抓取失败时

为对γ相机提取的放射性区域内图像进行的阶梯奖励，λ为奖励系数，r为机械臂动作位置与放射源的距离；

为推动作业奖励，推动成功时

推动失败时

2.根据权利要求1所述的基于深度强化学习的放射性废物推抓协同分拣方法，其特征在于，抓取操作全卷积网络和推动操作全卷积网络的网络结构相同，均包括当前值函数网络和目标值函数网络，当前值函数网络和目标值函数网络均由两个DenseNet-121卷积网络组成；旋转状态图中的彩色图像和深度图像分别输入一个DenseNet-121卷积网络后，两个DenseNet-121卷积网络的输出进行批量归一化，使其输出为一张像素点Q值图。

3.根据权利要求1所述的基于深度强化学习的放射性废物推抓协同分拣方法，其特征在于，所述作业结果为抓取/推动成功或失败；

抓取是否成功通过机械臂的夹具的两爪之间的距离是否等于零确定，若大于零，则抓取成功，否则抓取失败；

4.根据权利要求1所述的基于深度强化学习的放射性废物推抓协同分拣方法，其特征在于，所述损失函数的计算公式为：