CN113829358A

CN113829358A - 一种基于深度强化学习的机器人抓取多目标物的训练方法

Info

Publication number: CN113829358A
Application number: CN202111281821.3A
Authority: CN
Inventors: 王三祥; 王欣; 王�锋; 刘洪顺; 朱锦华; 杨万昌; 张成国
Original assignee: Jiangsu Yubo Automation Equipment Co ltd
Current assignee: Jiangsu Yubo Automation Equipment Co ltd
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2021-12-24
Anticipated expiration: 2041-11-01
Also published as: CN113829358B

Abstract

本发明提供的一种基于深度强化学习的机器人抓取多目标物的训练方法，包括：预先构建机械臂抓取目标群体的多个虚拟场景；建立第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取，训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据；建立第二类深度强化学习网络对多个样本数据进行特征学习，将其中的相同特征传递正相关反馈至内部网络结构中，并根据网络结构的输出生成最终的多目标抓取规则模型。本发明提供一种基于深度强化学习的机器人抓取多目标物的训练方法，能够输出适用于各种不同抓取环境的多目标抓取规则模型。

Description

一种基于深度强化学习的机器人抓取多目标物的训练方法

技术领域

本发明涉及自动化控制领域，特别涉及一种基于深度强化学习的机器人抓取多目标物的训练方法。

背景技术

随着机器人技术的发展，现有机器人抓取技术应用场景不断扩展，以抓取成功率为网络训练目标的强化学习方法无法有效满足不同应用场景对机器人进行抓取的多指标差异化需求。机器人抓取行为的高效多目标优化，对提高机器人定制化工作能力，扩展机器人的应用场景具有重要的现实意义。

深度强化学习算法有明显的智能性与鲁棒性，基于环境的反馈，通过不断与环境交互、试错，最终完成特定目的。在应用于机器人抓取场景时，可以发挥其算法优势。在机器人抓取过程中，存在多种抓取评价指标，在追求高抓取成功率的同时对机器人执行时间、执行功耗等多目标进行协同优化，有利于综合提高机器人的高效性与智能性。

现有的机器人抓取多目标物体的深度强化学习方法，大都是通过多次对某一个固定应用场景的多目标物体进行抓取训练，以适应对工业生产中按固定位置进行工件的顺序抓取，而对于多种随机摆放的方式不具有普遍的适用性，使得机器人的应用场景较为狭窄，每一个工位上的机器人都具有自己特定的抓取规则，而每设置一个工位上的抓取机器人都需要重新进行一次训练非常麻烦，因此需要一种基于深度强化学习的机器人抓取多目标物的训练方法，能够输出适用于各种不同抓取环境的多目标抓取规则模型。

发明内容

本发明提供一种基于深度强化学习的机器人抓取多目标物的训练方法，用以输出适用于各种不同抓取环境的多目标抓取规则模型。

本发明提供的一种基于深度强化学习的机器人抓取多目标物的训练方法，其特征在于，包括：

步骤S1、预先构建机械臂抓取目标群体的多个虚拟场景；

步骤S2、建立第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取，训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据；

步骤S3、建立第二类深度强化学习网络对多个样本数据进行特征学习，将其中的相同特征传递正相关反馈至内部网络结构中，并根据网络结构的输出生成最终的多目标抓取规则模型。

优选的，所述预先构建机械臂抓取目标群体的多个虚拟场景包括：

步骤S100、获取机械臂的型号，并调取该型号机械臂的多项参数，其中，所述多项参数包括自由度数、最大工作半径、手臂最大中心高、手臂运动参数、手腕运动参数、手指夹持范围、定位精度；

步骤S101、建立空白虚拟场景，将该型号的机械臂对应预设的模型放置在所述空白虚拟场景中，并输入对应的多项参数；

步骤S102、通过三维扫描的方式将置物平台上目标群体的外形轮廓进行扫描，并将扫描所得的数据在虚拟场景中进行重现；

步骤S103、确定机械臂与置物平台之间的位置关系，根据所述位置关系将所述置物平台对应设置在所述空白虚拟场景中，构建出单个虚拟场景；

步骤S104、更改置物平台上目标群体的摆放状态，并重复步骤S101至步骤S103构建出多个虚拟场景。

优选的，所述确定机械臂与置物平台之间的位置关系包括：

步骤S1030、通过预设在所述机械臂上的摄像头对周围环境进行图像采集得到环境图像；

步骤S1031、通过特征匹配的方式确定所述置物平台在所述环境图像中的位置；

步骤S1032、根据置物平台在所述环境图像中的位置确定所述机械臂与所述置物平台之间的简单相对位置关系；

步骤S1033、基于所述简单相对位置关系驱动所述机械臂的末端到达所述置物平台上方，并通过摄像头向下拍摄所述置物平台的表面，得到表面图像；

步骤S1034、根据所述表面图像对机械臂的末端的位置进行细微调整，使得所拍摄的表面图像中置物平台的轮廓与预设的标准轮廓完全重合；

步骤S1035、记录此时机械臂的状态参数，并根据所述状态参数确定所述机械臂与所述置物平台之间的位置关系。

优选的，所述步骤S2由多台第一类计算机协同完成；其中，

每台第一类计算机各自构建出一个或多个虚拟场景，同时建立对应个数的第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取，训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据；

最终将得到的多个样本数据发送至同一台第二类计算机，并由所述第二类计算机执行步骤S3。

优选的，所述建立第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取，训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据包括：

建立由两个并行的DenseNet网络结构组成的第一类深度强化学习网络；

通过所述第一类深度强化学习网络重复执行预设次数的抓取某个虚拟场景中目标群体的抓取工作；其中，

在将所述目标群体中所有物体抓取完毕后，确定一次的抓取工作完成；

在每次抓取工作完成后，记录该次抓取工作中的过程数据，其中，所述过程数据包括每段手臂的位移数据、每个手腕的转动数据、每个手指的夹持力度及运动数据；

统计每次抓取工作中手臂位移总长度、手腕总转动角度、及手指的总运动幅度；其中，

以抓取工作中手臂位移总长度更短、手腕总转动角度更小及手指的总运动幅度更小作为工作效率更高的判断标准；

通过所述预设次数的抓取工作对所述第一类深度强化学习网络进行训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据。

优选的，所述两个并行的DenseNet网络结构，分别为Behavior网络和Target网络；

其中，Behavior网络输出的是预测估计的Q估计值，Target网络输出的是Q现实值；

通过Huber损失函数计算Behavior网络和Target网络在每次抓取时输出的Q值的误差，通过梯度下降法缩小该误差并更新Behavior网络的参数；

Target网络在预设时间内使用固定的参数值，每循环迭代预设次数后，Target网络的参数与Behavior网络同步一次。

优选的，包括：

在执行所述抓取任务执行过程中，采用真实物理引擎模拟目标群体中多个目标物体的运动状态；其中，

在对目标群体中多个目标物体的运动状态进行模拟之前，预先输入多个目标物体各自对应的材料参数。

优选的，在对现实的目标物体进行抓取的过程中，对机械臂的手指的抓力进行实时调整，调整步骤如下：

预先设定机械臂的手指在抓取物体时的标准力度；

预先在所述机械臂的每根手指上设置多个压力传感器，通过所述压力传感器实时采集手指的压力数据；

利用多个所述压力传感器在同一时刻采集的多个压力数据形成数据集；

将所述数据集中所存在的大于预设力度的压力数据确定为第一类压力数据；

将所述第一类压力数据中大于或等于所述标准力度的压力数据确定为第二类压力数据；

对所述第二类压力数据所对应的手指的抓取力度进行控制使其逐渐减小，直至该手指上设置的多个压力传感器所采集的压力数据均小于所述标准力度；

利用所述数据集中的第一类压力数据建立抓取力序列，对所述抓取力序列进行离散小波变换得到抓取力序列的高频细节系数；

当所述高频细节系数大于预设的系数阈值时，判断机械臂所抓取的物体有滑动趋势；

当机械臂所抓取的物体具有滑动趋势时，快速增加所有第二类压力数据所对应的多个手指的力度。

优选的，在输出生成最终的多目标抓取规则模型之后，对所述多目标抓取规则模型进行实用性判断，判断步骤如下：

预先在现实环境中搭建机械臂抓取目标群体的工作场景，包括一个机械臂和分处于两个不同位置的置物平台A和置物平台B，所述置物平台A上放置有目标群体；

将所述多目标抓取规则模型输入所述机械臂；

创建并执行验证工作任务，同时通过预先设置在所述机械臂上的多个传感器记录机械臂的工作过程数据；其中，

所述验证工作任务需要将目标群体从置物平台A到置物平台B之间来回进行预设次数的搬运，将一个置物平台上的所有物体全部从搬运到另一个置物平台视为一次抓取工作完成；

根据所述工作过程数据对每一次抓取工作中所述机械臂的工作效率进行平均计算得到第一工作效率；

通过预先设置在所述置物平台A和所述置物平台B上的三维扫描装置将每一次抓取工作完成后目标群体的外形轮廓进行扫描，并建立验证虚拟场景将扫描所得的数据在验证虚拟场景中进行重现；

建立所述第一类深度强化学习网络针对所述验证虚拟场景中的目标群体进行多次的重复抓取工作，并对每次重复抓取工作的工作效率进行平均计算得到第二工作效率；

对多次抓取工作中的所述第二工作效率求取平均值得到第三工作效率；

计算所述第一工作效率和所述第三工作效率的差值，当所述差值大于或等于预设的差值系数时，确定所述多目标抓取规则模型具有较强的实用性；

当所述差值小于预设的差值系数且大于零时，确定所述多目标抓取规则模型具有较小的实用性；

当所述差值等于或小于零时，确定所述多目标抓取规则模型不具备实用性。

优选的，所述验证工作任务步骤包括：

首先确定所述置物平台A和所述置物平台B相对于所述机械臂的实际位置关系；

基于所述实际位置关系，执行将目标群体从置物平台A抓取并摆放到置物平台B上的第一任务；

在第一任务执行完毕后，继续执行将目标群体从置物平台B抓取并摆放到置物平台A上的第二任务；

在重复执行预设次数的所述第一任务和所述第二任务后验证工作任务完成；

其中，每执行完一次所述第一任务或所述第二任务后需要更改一次摆放规则；

所述摆放规则为机械臂从一个置物平台抓取物体后向另个置物平台摆放时的摆放方式，预先设定多种的摆放规则。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于深度强化学习的机器人抓取多目标物的训练方法步骤流程图；

图2为本发明实施例中构建机械臂抓取目标群体的多个虚拟场景的步骤流程图；

图3为本发明实施例中确定机械臂与置物平台之间的位置关系的步骤流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

步骤S1、预先构建机械臂抓取目标群体的多个虚拟场景；

上述技术方案的工作原理和有益效果为：预先通过场景重现的方法将机械臂、目标群体的位置关系以及相关的属性参数等数据同步到虚拟场景中，通过建立第一类深度强化学习网络针，采用仿真学习的方式对单个虚拟场景中的目标群体进行多次抓取，将目标群体中的所有目标物体全部抓取并摆放到指定位置后，视为一次成功抓取，每次成功抓取后计算出此次抓取时机械臂的工作效率，如此仿真学习训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据。对于多个虚拟场景对应有目标群体的不同的摆放方式，利用多个虚拟场景对应得到的样本数据，建立第二类深度强化学习网络对多个样本数据进行特征学习，将其中的相同特征传递正相关反馈至内部网络结构中，并根据网络结构的输出生成最终的多目标抓取规则模型。将该多目标抓取规则模型写入机械臂的控制器后，能够让机械臂在通过扫描得到目标群体的摆放方式后采用更为高效的抓取顺序及抓取方式对目标群体进行抓取，从而提高机械臂在生产作业过程中的工作效率。

在一个优选实施例中，预先构建机械臂抓取目标群体的多个虚拟场景包括：

步骤S100、获取机械臂的型号，并调取该型号机械臂的多项参数，其中，多项参数包括自由度数、最大工作半径、手臂最大中心高、手臂运动参数、手腕运动参数、手指夹持范围、定位精度；

步骤S101、建立空白虚拟场景，将该型号的机械臂对应预设的模型放置在空白虚拟场景中，并输入对应的多项参数；

步骤S103、确定机械臂与置物平台之间的位置关系，根据位置关系将置物平台对应设置在空白虚拟场景中，构建出单个虚拟场景；

上述技术方案的工作原理和有益效果为：在构建机械臂抓取目标群体的虚拟场景时，需要先获取机械臂的型号，并调取该型号机械臂的多项参数，其中，多项参数包括自由度数、最大工作半径、手臂最大中心高、手臂运动参数、手腕运动参数、手指夹持范围、定位精度等，利用这些详细的参数能够让虚拟场景中的机械臂的仿真过程更贴合实际情况。随后建立空白虚拟场景，将该型号的机械臂对应预设的模型放置在空白虚拟场景中，并输入对应的多项参数，通过三维扫描的方式将置物平台上复杂堆砌的目标群体的外形轮廓进行扫描，并将扫描所得的数据在虚拟场景中进行重现，实现将目标群体到虚拟场景中的完美复刻，确定机械臂与置物平台之间的位置关系，根据位置关系将置物平台对应设置在空白虚拟场景中，构建出单个虚拟场景，在确定好位置关系后才能使机械臂抓取物体时能够更加精准，更改置物平台上目标群体的摆放状态，并重复步骤S101至步骤S103构建出多个虚拟场景，提供目标群体的不同摆放方式，方便学习过程中通过对不同摆放方式的目标群体的抓取训练得到一个适用于所有摆放方式的抓取规则模型。

在一个优选实施例中，确定机械臂与置物平台之间的位置关系包括：

步骤S1030、通过预设在机械臂上的摄像头对周围环境进行图像采集得到环境图像；

步骤S1031、通过特征匹配的方式确定置物平台在环境图像中的位置；

步骤S1032、根据置物平台在环境图像中的位置确定机械臂与置物平台之间的简单相对位置关系；

步骤S1033、基于简单相对位置关系驱动机械臂的末端到达置物平台上方，并通过摄像头向下拍摄置物平台的表面，得到表面图像；

步骤S1034、根据表面图像对机械臂的末端的位置进行细微调整，使得所拍摄的表面图像中置物平台的轮廓与预设的标准轮廓完全重合；

步骤S1035、记录此时机械臂的状态参数，并根据状态参数确定机械臂与置物平台之间的位置关系。

上述技术方案的工作原理和有益效果为：在确定机械臂与置物平台之间的位置关系过程中，先通过预设在机械臂上的摄像头对周围环境进行图像采集得到环境图像，然后通过特征匹配的方式确定置物平台在环境图像中的位置，对图像中的置物平台进行识别与位置跟踪，根据置物平台在环境图像中的位置确定机械臂与置物平台之间的简单相对位置关系，方便基于简单相对位置关系驱动机械臂的末端到达置物平台上方，并通过摄像头向下拍摄置物平台的表面，得到表面图像，然后根据表面图像对机械臂的末端的位置进行细微调整，使得所拍摄的表面图像中置物平台的轮廓与预设的标准轮廓完全重合，从而使机械臂末端位置与置物平台之间达到一个标准的相对位置关系，记录此时机械臂的状态参数，比如机械臂的臂展情况、电机旋转角度等等，并根据状态参数反推计算出机械臂与置物平台之间的位置关系。提供了一种快速定位的方式，过程简单高效。

在一个优选实施例中，步骤S2由多台第一类计算机协同完成；其中，

最终将得到的多个样本数据发送至同一台第二类计算机，并由第二类计算机执行步骤S3。

上述技术方案的工作原理和有益效果为：由于步骤S3所需要的只是用样本数据将其中的相同特征传递正相关反馈至内部网络结构中，并根据网络结构的输出生成最终的多目标抓取规则模型，所以只需要利用一个计算单位对其进行计算即可。而步骤S2的目的是构建许多种不同的虚拟场景进行仿真学习，最后输出抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据，所以可以利用多个计算单位同时进行计算，每个计算单位都对一个虚拟场景进行仿真学习，这样能够提高步骤S2的执行效率。

在一个优选实施例中，建立第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取，训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据包括：

通过第一类深度强化学习网络重复执行预设次数的抓取某个虚拟场景中目标群体的抓取工作；其中，

在将目标群体中所有物体抓取完毕后，确定一次的抓取工作完成；

在每次抓取工作完成后，记录该次抓取工作中的过程数据，其中，过程数据包括每段手臂的位移数据、每个手腕的转动数据、每个手指的夹持力度及运动数据；

通过预设次数的抓取工作对第一类深度强化学习网络进行训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据。

上述技术方案的工作原理和有益效果为：建立由两个并行的DenseNet网络结构组成的第一类深度强化学习网络，利用由两个行的DenseNet网络结构，一个对网络输出的Q值进行预测，另一个得到仿真结果的Q值，根据两个Q值的偏差通过梯度下降法缩小该误差来对用于预测的DenseNet网络结构进行更新，提高其预测能力从而提高第一类深度强化学习网络的学习能力。通过第一类深度强化学习网络重复执行预设次数的抓取某个虚拟场景中目标群体的抓取工作，通过多次抓取工作得到多个抓取的过程数据样本，从而为每次抓取工作过程的效率高低排名提供更为详细的参考数据，其中，在将目标群体中所有物体抓取完毕后，确定一次的抓取工作完成；在每次抓取工作完成后，记录该次抓取工作中的过程数据，其中，过程数据包括每段手臂的位移数据、每个手腕的转动数据、每个手指的夹持力度及运动数据，统计每次抓取工作中手臂位移总长度、手腕总转动角度、及手指的总运动幅度，其中，在完成抓取工作的前提下，若抓取工作中手臂位移总长度更短、手腕总转动角度更小及手指的总运动幅度更小则表示工作效率更高，通过预设次数的抓取工作对第一类深度强化学习网络进行训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据。

在一个优选实施例中，两个并行的DenseNet网络结构，分别为Behavior网络和Target网络；

上述技术方案的工作原理和有益效果为：建立由两个并行的DenseNet网络结构组成的第一类深度强化学习网络，利用由两个行的DenseNet网络结构，一个对网络输出的Q值进行预测，另一个得到仿真结果的Q值，根据两个Q值的偏差通过梯度下降法缩小该误差来对用于预测的DenseNet网络结构进行更新，提高其预测能力从而提高第一类深度强化学习网络的学习能力。Target网络在预设时间内使用固定的参数值，每循环迭代预设次数后，Target网络的参数与Behavior网络同步一次，从而根据Behavior网络对Target网络进行实时更新，提高两个网络结构的契合程度，进而提高仿真学习工作的效率。

在一个优选实施例中，包括：

在执行抓取任务执行过程中，采用真实物理引擎模拟目标群体中多个目标物体的运动状态；其中，

上述技术方案的工作原理和有益效果为：在仿真学习过程中，对于目标群体中的多个目标物体，为每一个目标物体分别对于输入该目标物体的材料参数，然后采用真实物理引擎模拟目标群体中多个目标物体的运动状态，从而能够仿真得到机械臂在抓取过程中用了多大的抓取力、做了多少功，使仿真学习过程中得到的数据与现实情况相符合。

在一个优选实施例中，在对现实的目标物体进行抓取的过程中，对机械臂的手指的抓力进行实时调整，调整步骤如下：

预先设定机械臂的手指在抓取物体时的标准力度；

预先在机械臂的每根手指上设置多个压力传感器，通过压力传感器实时采集手指的压力数据；

利用多个压力传感器在同一时刻采集的多个压力数据形成数据集；

将数据集中所存在的大于预设力度的压力数据确定为第一类压力数据；

将第一类压力数据中大于或等于标准力度的压力数据确定为第二类压力数据；

对第二类压力数据所对应的手指的抓取力度进行控制使其逐渐减小，直至该手指上设置的多个压力传感器所采集的压力数据均小于标准力度；

利用数据集中的第一类压力数据建立抓取力序列，对抓取力序列进行离散小波变换得到抓取力序列的高频细节系数；

当高频细节系数大于预设的系数阈值时，判断机械臂所抓取的物体有滑动趋势；

上述技术方案的工作原理和有益效果为：对目标物体进行抓取的过程中，对机械臂的手指的抓力进行实时调整，通过对压力传感器采集的数据进行分析，区分其中的第一类压力数据、第二类压力数据，其中的第一类压力数据代表机械臂手指与被抓取物体实际接触的点位的传感器所采集的数据，数据集中其他的数据则是机械臂手指与被抓取物体并未进行接触的点位的传感器所采集的数据，参考意义不大。其中的第二类压力数据则是抓取力度过高的点位上的传感器所采集的数据，为了防止机械臂手指抓取力度过大导致抓取目标被损坏，当出现这样的第二类压力数据后对第二类压力数据所对应的手指的抓取力度进行控制使其逐渐减小，直至该手指上设置的多个压力传感器所采集的压力数据均小于标准力度，以保证被抓取目标物体的完整性。利用数据集中的第一类压力数据建立抓取力序列，对抓取力序列进行离散小波变换得到抓取力序列的高频细节系数；当高频细节系数大于预设的系数阈值时，判断机械臂所抓取的物体有滑动趋势；当机械臂所抓取的物体具有滑动趋势时，快速增加所有第二类压力数据所对应的多个手指的力度，以防止被抓取的物体脱落。

在一个优选实施例中，利用数据集中的第一类压力数据建立抓取力序列，对抓取力序列进行离散小波变换得到抓取力序列的高频细节系数，包括：

预设采样周期T，在时刻t＝kT时，取(k-N+1)T～kT时间段的抓取力序列F[n]，其中n为1～N的整数，N为第一类压力数据总个数；

在时刻t，对抓取力序列F[n]进行离散小波变换得到抓取力序列的高频细节系数：

其中m为1～N/2的整数，h[]表示半带高频带通滤波器的冲击响应，，小波变换母小波为Haar小波、Moret、db6小波函数。

在一个优选实施例中，在输出生成最终的多目标抓取规则模型之后，对多目标抓取规则模型进行实用性判断，判断步骤如下：

预先在现实环境中搭建机械臂抓取目标群体的工作场景，包括一个机械臂和分处于两个不同位置的置物平台A和置物平台B，置物平台A上放置有目标群体；

将多目标抓取规则模型输入机械臂；

创建并执行验证工作任务，同时通过预先设置在机械臂上的多个传感器记录机械臂的工作过程数据；其中，

验证工作任务需要将目标群体从置物平台A到置物平台B之间来回进行预设次数的搬运，将一个置物平台上的所有物体全部从搬运到另一个置物平台视为一次抓取工作完成；

根据工作过程数据对每一次抓取工作中机械臂的工作效率进行平均计算得到第一工作效率；

通过预先设置在置物平台A和置物平台B上的三维扫描装置将每一次抓取工作完成后目标群体的外形轮廓进行扫描，并建立验证虚拟场景将扫描所得的数据在验证虚拟场景中进行重现；

建立第一类深度强化学习网络针对验证虚拟场景中的目标群体进行多次的重复抓取工作，并对每次重复抓取工作的工作效率进行平均计算得到第二工作效率；

对多次抓取工作中的第二工作效率求取平均值得到第三工作效率；

计算第一工作效率和第三工作效率的差值，当差值大于或等于预设的差值系数时，确定多目标抓取规则模型具有较强的实用性；

当差值小于预设的差值系数且大于零时，确定多目标抓取规则模型具有较小的实用性；

当差值等于或小于零时，确定多目标抓取规则模型不具备实用性。

上述技术方案的工作原理和有益效果为：在输出生成最终的多目标抓取规则模型之后，对多目标抓取规则模型进行实用性判断，在进行判断时，需要先将所得到的多目标抓取规则模型输入机械臂，然后使其在现实环境中搭建机械臂抓取目标群体的工作场景中执行验证工作任务，在过程中通过预先设置在机械臂上的多个传感器记录机械臂的工作过程数据，验证工作任务需要将目标群体从置物平台A到置物平台B之间来回进行预设次数的搬运，将一个置物平台上的所有物体全部从搬运到另一个置物平台视为一次抓取工作完成，比如将目标群体全部从置物平台A搬运到置物平台B算完成一次抓取工作，将目标群体全部从置物平台B搬运回置物平台A又算完成一次抓取工作，根据工作过程数据对每一次抓取工作中机械臂的工作效率进行平均计算得到第一工作效率，第一工作效率为多次抓取工作对应的工作效率的平均值，计算时根据工作过程数据中的手臂位移总长度、手腕总转动角度、及手指的总运动幅度等来进行计算，工作效率计算公式如下：

式中，V表示工作效率，o表示机械臂的手指总数，F_k表示第k根手指的总运动幅度，

表示预设的第k根手指的工作效率系数，m表示机械臂的臂杆总数，L_i表示第i根臂杆末端的位移总长度，σ_i表示预设的第i根臂杆的工作效率系数，n表示机械臂手腕总数，C_j表示机械臂第i个手腕的总转动角度，ρ_j表示预设的机械臂第i个手腕的工作效率系数；

通过预先设置在置物平台A和置物平台B上的三维扫描装置将每一次抓取工作完成后目标群体的外形轮廓进行扫描，并建立验证虚拟场景将扫描所得的数据在验证虚拟场景中进行重现；建立第一类深度强化学习网络针对验证虚拟场景中的目标群体进行多次的重复抓取工作，从而方便确定理论上对目标群体进行一次抓取工作时的工作效率，并根据仿真结果对每次重复抓取工作的工作效率进行平均计算得到第二工作效率，对多次抓取工作中的第二工作效率求取平均值得到第三工作效率；计算第一工作效率和第三工作效率的差值，当差值大于或等于预设的差值系数时，确定多目标抓取规则模型具有较强的实用性；当差值小于预设的差值系数且大于零时，确定多目标抓取规则模型具有较小的实用性；当差值等于或小于零时，确定多目标抓取规则模型不具备实用性，则需要对加大训练量，重新训练出新的多目标抓取规则模型。通过实用性检测，防止使用不实用的多目标抓取规则模型，导致生产过程中工作效率低下。

在一个优选实施例中，验证工作任务步骤包括：

首先确定置物平台A和置物平台B相对于机械臂的实际位置关系；

基于实际位置关系，执行将目标群体从置物平台A抓取并摆放到置物平台B上的第一任务；

在重复执行预设次数的第一任务和第二任务后验证工作任务完成；

其中，每执行完一次第一任务或第二任务后需要更改一次摆放规则；

摆放规则为机械臂从一个置物平台抓取物体后向另一个置物平台摆放时的摆放方式，预先设定多种的摆放规则。

上述技术方案的工作原理和有益效果为：在进行验证工作时，需要将目标群体从置物平台A到置物平台B之间来回进行预设次数的搬运，其中，每执行完一次第一任务或第二任务后需要更改一次摆放规则，更改摆放规则的目的是防止使用同一种摆放规则时，机械臂摆放出相同的目标群体的堆放样式，而搬运同一种目标群体的堆放样式的工作过程数据对工作效率的计算没有参考意义。摆放规则为机械臂从一个置物平台抓取物体后向另一个置物平台摆放时的摆放方式，预先设定多种的摆放规则，比如横向排列摆放方式、纵向排列摆放方式、锥形堆高摆放方式、入箱摆放方式等，如果采用同一种的摆放方式，则很可能摆放出一模一样的堆放样式。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度强化学习的机器人抓取多目标物的训练方法，其特征在于，包括：

步骤S1、预先构建机械臂抓取目标群体的多个虚拟场景；

2.根据权利要求1所述的一种基于深度强化学习的机器人抓取多目标物的训练方法，其特征在于，所述预先构建机械臂抓取目标群体的多个虚拟场景包括：

3.根据权利要求2所述的一种基于深度强化学习的机器人抓取多目标物的训练方法，其特征在于，所述确定机械臂与置物平台之间的位置关系包括：

4.根据权利要求1所述的一种基于深度强化学习的机器人抓取多目标物的训练方法，其特征在于，所述步骤S2由多台第一类计算机协同完成；其中，

最终将得到的多个样本数据发送至同一台第二类计算机，并由所述第二类计算机执行所述步骤S3。

5.根据权利要求1所述的一种基于深度强化学习的机器人抓取多目标物的训练方法，其特征在于，所述建立第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取，训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据包括：

6.根据权利要求5所述的一种基于深度强化学习的机器人抓取多目标物的训练方法，其特征在于，所述两个并行的DenseNet网络结构，分别为Behavior网络和Target网络；

7.根据权利要求5所述的一种基于深度强化学习的机器人抓取多目标物的训练方法，其特征在于，包括：

8.根据权利要求1所述的一种基于深度强化学习的机器人抓取多目标物的训练方法，其特征在于，在对现实的目标物体进行抓取的过程中，对机械臂的手指的抓力进行实时调整，调整步骤如下：

预先设定机械臂的手指在抓取物体时的标准力度；

9.根据权利要求1所述的一种基于深度强化学习的机器人抓取多目标物的训练方法，其特征在于，还包括在输出生成最终的多目标抓取规则模型之后，对所述多目标抓取规则模型进行实用性判断，判断步骤如下：

将所述多目标抓取规则模型输入所述机械臂；

10.根据权利要求9所述的一种基于深度强化学习的机器人抓取多目标物的训练方法，其特征在于，所述验证工作任务步骤包括：