CN110450153B

CN110450153B - 一种基于深度强化学习的机械臂物品主动拾取方法

Info

Publication number: CN110450153B
Application number: CN201910608017.8A
Authority: CN
Inventors: 刘华平; 方斌; 韦毅轩; 邓宇鸿; 陆恺; 郭晓峰; 郭迪; 孙富春
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-07-08
Filing date: 2019-07-08
Publication date: 2021-02-19
Anticipated expiration: 2039-07-08
Also published as: CN110450153A

Abstract

本发明提出一种基于深度强化学习的机械臂物品主动拾取方法，属于人工智能和机器人应用领域。该方法首先搭建机器臂和物品拾取场景的仿真环境；搭建一个基于多个并行的U‑Net的深度Q学习网络N_Q；在仿真环境中进行多次机器人抓取动作策略试验对N_Q进行训练，得到训练完毕的深度学习网络；实际拾取使用中，搭建物品拾取系统，利用训练完毕的深度学习网络，以深度彩色图像为输入，根据定义在置信图像上的度量来决定采用主动改变场景的动作策略或直接通过机械手进行物品拾取。本发明可以通过机械臂主动改变物品拾取环境，适应不同的拾取条件，实现较高成功率的拾取。

Description

一种基于深度强化学习的机械臂物品主动拾取方法

技术领域

本发明属于机器人应用技术领域，具体涉及一种基于深度强化学习的机械臂物品主动拾取方法。

背景技术

鲁棒高效物品拾取作为机器人学的主要研究内容之一，随着电子商务飞速发展，广泛应用于仓储管理、无人商店和工业生产流水线中。而当前的物品拾取方法大多基于被动方式，利用摄像机拍摄当前物品堆放场景的静态图像，进行物品分割分类和位姿估计，但在实际应用中，物品拾取场景复杂，难以进行准确且高效的物品分割分类和位姿估计，往往出现物品相互遮挡、物品位姿逼近极限角度等不利于拾取的现象。但在机器人应用中，机械臂可以通过对拾取场景的主动改变，降低场景复杂性，提高拾取成功率和效率。

MIT与Princeton的研究人员在2018年ICRA(国际机器人与自动化会议)上，发表题为Robotic Pick-and-Place of Novel Objects in Clutterwith Multi-AffordanceGrasping and Cross-Domain Image Matching(通过多置信图抓取和跨域图像匹配实现机器人在堆积场景下对陌生物品的拾放)的文章，该技术通过深度学习训练，提出suctionaffordance网络(吸取位置置信值网络)，输入拾取场景的彩色深度图像，输出像素级的suction affordance map(吸取位置置信图)，避免了复杂的物品分割与识别，直接得到备选拾取位置，但在复杂场景下，该网络容易输出错误值，导致拾取失败，已有方法无法有效地解决该问题。

强化学习，又称为增强学习，主要包括两类方法：基于值和基于概率的方法。基于值的方法是通过对已有经验的学习，优化对不同状态下动作价值的估计函数，从而获得最优动作控制策略，被广泛应用于不确定问题里的策略搜索；深度学习，特别是卷积神经网络，在计算机领域已经取得了显著的成果，包括物体定位、物体识别以及图像语义分割等。

发明内容

本发明的目的是为克服已有技术的不足之处，提出一种基于深度强化学习的机械臂物品主动拾取方法。本发明具有机械臂智能地改变拾取场景的特点，能有效地降低拾取场景复杂度，同时避免低效的物品识别与分割算法，从而在复杂场景下显著提高机械臂拾取物品的成功率和效率。

本发明提出一种基于深度强化学习的机械臂物品主动拾取方法，其特征在于，包括以下步骤：

1)利用虚拟机器人实验平台V-REP搭建机械臂拾取的仿真环境；具体步骤如下：

1-1)在V-REP内导入任意机械臂模型作为机械臂仿真，导入任意两指机械手模型作为机械手仿真；

1-2)在V-REP内导入拾取物品模型作为拾取物品仿真；

1-3)在V-REP内导入深度彩色相机模型作为深度彩色相机仿真；

2)构建深度Q学习网络N_Q，并在步骤1)中搭建的仿真环境对N_Q进行训练，得到训练完毕的N_Q；具体步骤如下：

2-1)搭建深度Q学习网络N_Q，其中N_Q包括预测子网络N_P和目标子网络N_T，两个子网络结构相同，每个子网络均包含8个并行微型U-Net网络；

2-2)初始化步骤2-1)建立的N_Q网络并作为当前神经网络，设置存储库M容量上限D和取样数量B；

2-3)令初始时刻t＝1；

2-4)在大小为S_m*S_n的范围内，随机初始化步骤1-3)的拾取物品模型的初始位置，构建一个拾取场景；

2-5)利用步骤1-2)的深度彩色相机相机模型获取步骤2-4)构建的拾取场景的t时刻的深度彩色图像I_t；

2-6)将I_t输入suction affordance吸取位置置信值网络，输出t时刻suctionaffordance map吸取位置置信值图Aff_t，取Aff_t中最大值对应的像素坐标为x_t：

x_t＝argmax_{x}(Aff_t)

在I_t上选定x_t周围128*128像素大小的图像I′_t，I′_t大小为128*128*4，对Af f_t进行与I′_t同一区域的裁剪，得到128*128*1大小的局部suction affordance map Aff′_t，将I_t′利用双三次插值方法在图像宽度和高度维度缩放至32*32*4的大小，得到I′_ts，将I′_ts作为t时刻的当前状态s_t；

2-7)将当前状态s_t同时输入N_Q中的预测子网络N_P与目标子网络N_T，两个子网络分别输出动作集{a_t}中各动作a_t的预测置信值

和目标置信值

2-8)机械臂模型根据当前状态s_t选择对应动作a_tc，动作选取准则如下：

在[0,1]范围内产生一随机数α并进行判定：若α小于动作选取阈值∈，则机械臂模型在动作集{a_t}中随机选取一个动作作为a_tc进行执行；否则，机械臂模型根据预测子网络的输出

选择置信值最大的动作作为a_tc进行执行，

所述动作选取阈值∈在训练中随t时刻增加而减小，计算表达式如下：

其中，∈_start为动作选取阈值初始值，∈_end为动作选取阈值终始值，t_end为动作选取阈值衰减总步数；

2-9)在仿真环境中利用机械臂模型和机械手模型，在t时刻执行动作a_tc，改变拾取环境，进入t+1时刻；

2-10)在t+1时刻，重复步骤2-6)，得到该时刻对应局部suction affordance mapAff′_t+1以及N_Q在t+1时刻当前状态s_t+1；

2-11)重复步骤2-7)，得到动作集{a_t+1}中各动作a_t+1的预测置信值

和目标置信值

2-12)对裁剪后的图像Aff′_t与Aff′_t+1，利用图像质量度量函数φ，分别计算t时刻裁剪后的图像质量的度量φ_t与t+1时刻裁剪后的图像质量的度量φ_t+1，其中φ_t＝φ(Aff′_t),φ_t+1＝φ(Aff′_t+1)，定义奖励函数R_t(s_t,s_t+1)如下：

如果φ_t+1>0.85，则t时刻结束状态变量E_t＝1；如果φ_t+1≤0.85，则t时刻结束状态变量E_t＝0；

2-13)将一条状态动作记录{s_t,a_t,s_t+1,R_t(s_t,s_t+1),E_t}放入存储库M中并对M进行判定：

如果M中的记录数量小于取样数量B，则进入步骤2-15)，对当前拾取场景结束状态变量E_t进行判定；如果M中的记录数量大于等于取样数量B，则进入步骤2-14)，利用M中的记录对当前神经网络进行训练；当M中的记录数到达容量上限D时，则最新增加的一条记录覆盖M中最早的一条记录；

2-14)对当前神经网络进行训练，具体步骤如下：

2-14-1)从存储库M中随机选取B条记录作为当前批次训练样本；

2-14-2)根据Bellman贝尔曼方程计算每条记录i的训练目标值

其中，γ为利用最大可能的目标置信值更新训练目标值的衰减系数；

误差

为：

根据Huber胡伯函数定义网络损失函数如下：

对当前批次所有训练样本的网络损失函数求和，计算当前神经网络的误差，作为优化目标值J_t：

2-14-3)对J_t进行判定：若J_t趋向于设定值，且波动范围符合设定范围时，则认为N_Q训练完成，得到训练完毕的网络记为

进入步骤3)；否则使用RMSProp前向均方根梯度下降算法优化器根据优化目标值J_t优化网络参数更新当前神经网络，然后进入步骤2-15)对当前拾取场景结束状态变量E_t进行判定；

2-15)令t＝t+1，判定当前拾取场景结束状态变量：如果E_t＝1，则认为当前拾取场景已经优化完成，重新返回步骤2-4)，重新随机初始化一个新的拾取场景进行训练；如果E_t＝0，则重新返回步骤2-5)，在当前拾取场景中获取t+1时刻彩色深度图像；

3)利用步骤2)训练完毕的网络进行物品拾取；具体步骤如下：

3-1)搭建物品拾取系统；

所述系统包括：一台机械臂，一款手爪与吸盘结合的复合抓取机械手，一台深度彩色相机，一个触觉传感器和一台笔记本电脑；所述机械臂的基座放置在平台上，深度彩色相机与机械臂的基座相对位置固定，待拾取物品随机摆放于拾取平台上并处于深度彩色相机镜头的正前方；所述机械手与机械臂末端连接，由机械臂连带机械手进行运动，触觉传感器装配于机械手手指末端表面，机械臂和机械手分别连接笔记本电脑；

利用棋盘格标定法获取深度彩色相机内参矩阵I_cam与深度彩色相机光心相对机械臂基座的外参矩阵E_cam，设机械臂初始位置为L_i；

3-2)假设当前时刻为t，利用深度彩色相机获取当前场景深度彩色图像信息

输入suction affordance网络计算得到suction affordance map

取

中最大值对应的像素坐标为

在

上选定

周围128*128像素大小的图像

大小为128*128*4，对

进行与

同一区域的裁剪，得到128*128*1大小的局部置信图像

计算对应度量

如果

则进入步骤3-3)，否则进入步骤3-4)；

3-3)将

坐标根据相机内参矩阵I_cam和外参矩阵E_cam转换至机械臂基座坐标系下的三维位置

其中深度值选择

中深度通道上

像素对应的深度值；选取

周围7*7像素大小区域深度信息生成点云，计算

法向信息，根据外参矩阵E_cam转换至机械臂基座坐标系下末端的法向

控制机械臂运动到

位置，并旋转末端至法向

机械手伸出吸盘获取物品，收回吸盘后闭合手爪，读取触觉传感器的压力值并进行判定：

如果压力值大于设定的压力阈值，则判断为当前拾取成功，将物品放置到固定位置后，机械臂回到初始位置L_i，令t＝t+1，重新返回步骤3-2)获取场景图片，直至所有物品拾取完毕；如果压力值小于等于设定的压力阈值，则判断为当前拾取失败，进入步骤3-4)；

3-4)将

用双三次插值方法在图像宽度和高度维度缩放至32*32*4的大小，作为当前状态

输入

中的预测子网络

输出各动作

的预测置信值

选择置信值最大的动作作为

将

转化为对应的动作起始点

和动作方向

动作运动长度为L＝32像素，计算得到动作终止点

其中

表示点

的x方向值，

表示点

的y方向值，

表示点

的x方向值，

表示点

的y方向值；

将

点根据相机内参矩阵I_cam和外参矩阵E_cam转换至机械臂基座坐标系下的三维位置

其中

深度值均选择

中深度通道上

点对应的深度值；闭合机械手手爪，控制机械臂运动到

位置，匀速运动到

位置后，回到机械臂初始位置L_i，令t＝t+1，重新返回步骤3-2)获取场景图片。

本发明的特点及有益效果在于：

本发明提出一种基于深度强化学习的机械臂物品主动拾取方法，通过使用深度神经网络，一方面能够利用卷积神经网络有效地提取图像特征，一方面能够得到像素级的强化学习动作空间，另一方面能够作为强化学习值函数的非线性估计；

本发明提出一种基于深度强化学习的机械臂物品主动拾取方法，使用强化学习方法对训练数据进行学习，能够使机械臂通过仅通过图像信息对当前拾取场景复杂性进行估计，从而选择合适动作优化拾取场景；

本发明提出一种基于深度强化学习的机械臂物品主动拾取方法，使用仿真软件生成训练数据进行深度强化学习网络参数训练，并将该网络迁移到实际场景中进行应用，一方面能够减少机械臂的使用损耗与成本，另一方面加快了训练速度。本发明提出一种基于深度强化学习的机械臂物品主动拾取方法，可以广泛地应用于无人仓储管理、高效物流分拣、智能工厂中流水线装配等领域，有利于显著提升机械臂在复杂场景下的物品拾取的鲁棒性和有效性，提高生产效率与自动化程度。

附图说明

图1是本发明方法的整体流程图。

图2是本发明方法中训练深度Q学习网络的流程图。

图3是本发明方法中利用训练完毕的网络进行物品拾取流程图。

图4是本发明实施例中物品拾取系统工作原理示意图。

图中，1-机械臂，2-机械手，3-相机，4-拾取物品，5-拾取平台，6-触觉传感器。

具体实施方式

本发明提出一种基于深度强化学习的机械臂物品主动拾取方法，下面结合附图和具体实施例对本发明进一步详细说明如下。

本发明提出一种基于深度强化学习的机械臂物品主动拾取方法，整体流程如图1所示，具体包括以下步骤：

1)搭建机械臂拾取的仿真环境，本实施例采用V-REP软件(Virtual RobotExperimentation Platform，虚拟机器人实验平台)；具体步骤如下：

1-1)在V-REP软件内导入任意一款可控制移动的机械臂模型(该机械臂模型与实际执行的机械臂可不同)作为机械臂仿真，本实施例采用UR5(UniversalRobots 5，优傲5)，导入任意一款可控制的两指机械手模型(该机械手模型与实际执行的机械手可不同)作为机械手仿真，本实施例采用OnRobotRG2(OnRobot公司RG2信号协作夹具)。

1-2)在V-REP软件内导入拾取物品模型作为拾取物品仿真(拾取物品模型尺寸与形状应与真实拾取物品相近，数量不限)，本实施例拾取物品模型为长方体，尺寸分别为90mm*60mm*25mm,160mm*50mm*50mm,50mm*35mm*35mm,120*65mm*30mm,55mm*55mm*20,140mm*90mm*25mm,100mm*50mm*50mm,80mm*50mm*20mm,86mm*55mm*20mm若干。在V-REP软件内随机设置上述拾取物品模型的位置，作为仿真拾取场景(仿真拾取场景复杂度应高于真实拾取场景)。

1-3)在V-REP软件内导入深度彩色相机模型作为深度彩色相机仿真，本实施例采用KinectV2(微软公司Kinect相机产品第二代)。利用KinectV2相机模型获取仿真拾取场景在t时刻的仿真深度彩色图像记为I_t；

2)构造基于8个并行的微型U-Net(U型网络)结构的DeepQNetwork(深度Q学习网络)N_Q，并在步骤1)中搭建的仿真环境对N_Q进行训练，输出机械臂主动改变拾取场景的理想动作得到训练完毕的N_Q；流程如图2所示，具体步骤如下：

2-1)搭建DeepQNetworkN_Q，其中N_Q包括预测子网络N_P和目标子网络N_T，两者网络结构相同，每个子网络均包含8个并行微型U-Net网络；

在t^*时刻，N_P和N_T以同一32*32大小的4通道彩色深度图像

作为输入，每个子网络输出为不同的18*18大小的8通道动作Q值(置信值)。

以预测网络N_P为例，N_P包含8个并行微型U-Net网络，各微型U-Net结构相同，其中单个微型U-Net网络结构如下：

定义Conv2d层为卷积核大小为3，步长为1，激活函数的relu函数，初始化函数为truncated_normal_initializer函数的图像二维卷积层。

定义Conv2dS层为卷积核大小为1，步长为1，激活函数的relu函数，初始化函数为truncated_normal_initializer函数的图像二维卷积层。

定义maxpool层为核大小为2，步长为2的maxpooling层。

定义DeConv2d层为卷积核大小为2，步长为2，激活函数为relu函数，初始化函数为truncated_normal_initializer函数的图像二维转置卷积层。

单个微型U-Net输入为32*32*4的彩色图像，通过两层Conv2d后得到28*28*256大小的l_down矩阵。将l_down经过一层maxpool和一层Conv2d后得到12*12*512大小的l_bottom矩阵。

将l_bottom经过一层DeConv2d后得到24*24*256大小的l_up矩阵。将l_down矩阵的中间24*24*256部分与l_up层在通道轴(矩阵第三个维度)上进行拼接，得到24*24*512大小的l_cat矩阵。将l_cat经过三层Conv2d和一层Conv2dS后得到18*18*1大小的输出。

在N_P中将8个并行的微型U-Net输出l_out通道轴(矩阵第三个维度)上进行拼接，得到18*18*8大小的最终输出l_out-a。每一个输出值对应机械臂t^*时刻每一个动作

价值的估计，设所有

的集合为

设

在N_P最终输出l_out-a中所处位置为(a_i,a_j,a_o)，本实施例中动作

定义为，机械手从

图像上(a_i,a_j)所对应的起始点，选择a_o所对应的方向a_o*45°，向该方向推动固定的像素距离L；

根据深度强化学习定义，将N_P与N_Q的彩色深度图像输入

作为深度强化学习当前时刻t^*的状态

N_P网络参数

代表当前动作策略学习情况，N_T网络参数

代表目标收敛的动作策略分布。将状态

输入N_P网络

得到该网络输出l_out-a为各动作

预测置信值

将状态

输入N_T网络

得到网络输出l′_out-a为各动作

目标置信值

将彩色深度图像

输入suction affordance网络(吸取位置置信值网络)，得到suction affordance map(吸取位置置信值图)输出

设

的局部裁剪图像为

定义关于

与

的度量

如下(度量方式相同，仅以

为例说明)：

设

上像素坐标(i,j)点的值为s_ij，

最大值

所在像素为

以阈值为ψ＝0.5对

做连通域分割，取

所在连通域

拟合最小外接矩形框，框长边大小为

宽边大小为

以该矩形框长边作为高斯分布0.95置信区间大小，以

为高斯分布最大值，拟合二维高斯分布图像

设

上像素坐标(i,j)点的值为

上像素坐标(i,j)点与

上像素坐标(i,j)点的误差e_ij为：

误差总和

定义分布置信值度量

设

上除

外，其他局部峰值个数为

每个局部峰值的坐标分别为

定义理想峰峰间距

为：

定义峰峰置信值度量

定义最大置信值度量

总度量为

其中λ_f,λ_d,λ_v为各项度量的权重系数，λ_f＝0.7,λ_d＝0.2,λ_v＝0.1,

2-2)初始化步骤2-1)建立的DeepQNetworkN_Q并作为当前神经网络，设置存储库M容量上限D为5000，取样数量B＝16；

2-3)令初始时刻t＝1；

2-4)在大小为S_m*S_n的范围内(本实施例中取S_m为700mm，S_n为600mm)，随机初始化步骤1-3)的拾取物品模型的初始位置(模型形状与数量应与真实拾取物品相近，或仿真拾取场景复杂度高于真实拾取场景)，构建一个仿真拾取场景；

2-6)将I_t输入suction affordance网络，输出t时刻suction affordancemapAff_t，取Aff_t中最大值对应的像素坐标为x_t：

x_t＝argmax_{x}(Aff_t)

在I_t上选定x_t周围128*128像素大小的图像I′_t，I′_t大小为128*128*4，含RGB和深度四个通道信息，对Aff_t进行与I_t同一区域的裁剪，得到128*128*1大小的局部suctionaffordance map Aff′_t，将I′_t利用双三次插值方法在图像宽度和高度维度缩放至32*32*4的大小，得到I′_ts，将I′_ts作为N_Q的在t时刻的当前状态s_t；

和目标置信值

2-8)在仿真环境中机械臂模型根据当前状态s_t选择对应动作a_tc，动作选取准则如下：

选择置信值最大的动作作为a_tc进行执行，

其中，∈_start为动作选取阈值初始值，∈_end为动作选取阈值终始值，t_end为动作选取阈值衰减总步数，本实施例设定∈_end＝0.2，∈_start＝1，t_end＝20000；

2-9)在仿真环境中利用机械臂模型和机械手模型，在t时刻执行动作a_tc，改变拾取环境，进入t+1时刻。

2-10)在t+1时刻，重复步骤2-6)，得到该时刻对应局部suction affordance mapAff′_t+1以及t+1时刻的当前状态s_t+1；

和目标置信值

如果φ_t+1>0.85，则认为当前拾取场景已经不需要改变，t时刻结束状态变量E_t＝1；如果φ_t+1≤0.85，则认为当前拾取场景仍然保持高度复杂性，t时刻结束状态变量E_t＝0；

2-13)将一条状态动作记录{s_t,a_t,s_t+1,R_t(s_t,s_t+1),E_t}以放入存储库M中并对M进行判定：

如果M中的记录数量小于取样数量B，则进入步骤2-15)，对当前拾取场景结束状态变量E_t进行判定；如果M中的记录数量大于等于取样数量B，则进入步骤2-14)，利用M中的记录对当前神经网络进行训练；当M中的记录数到达容量上限D时，则最新增加的一条记录会覆盖M中最早的一条记录。

2-14)对当前神经网络进行训练，具体步骤如下：

2-14-1)从存储库M中随机选取B条记录作为当前批次训练样本；

2-14-2)根据Bellman(贝尔曼)方程计算每条记录i的训练目标值

因此误差

为：

根据Huber(胡伯)函数定义网络损失函数如下：

2-14-3)对J_t进行判定：若J_t趋向于某一较小值，且波动范围较小时，则认为网络N_Q训练完成，得到训练完毕的网络记为

进入步骤3)；否则使用RMSProp(Root mean squarepropagation，前向均方根梯度下降算法)优化器根据优化目标值J_t优化网络参数更新当前神经网络，本实施例选用学习率为0.00025，动量为0.9，参数优化后进入步骤2-15)判断当前拾取场景的结束状态变量；

本实施例中，经过均值平滑处理之后在0.05附近，波动范围在0.02到0.1之间；

2-15)令t＝t+1，判定当前拾取场景结束状态变量，如果E_t＝1，则认为当前拾取场景已经优化完成，重新返回步骤2-4)，重新随机初始化一个新的拾取场景进行训练；如果E_t＝0，则重新返回步骤2-5)，在当前拾取场景之上获取t+1时刻彩色深度图像。3)利用步骤2)训练完毕的网络进行物品拾取，流程如图3所示，具体步骤如下：

3-1)搭建物品拾取系统；

该系统如图4所示，包括：一台机械臂1(本实施例为UniversalRobot 5)，一款手爪与吸盘结合的复合抓取机械手2(如CobotCohand212款)，一台深度彩色相机3(本实施例为KinectV2相机，相机与机械臂均可与仿真环境中模型不同)，一款触觉传感器6(可采用常规型号)，一台含有步骤2)中训练完毕的深度强化学习网络

与机械手和机械臂控制代码的笔记本电脑。

其中，机械臂的基座放置在平台上，KinectV2相机与UniversalRobot 5机械臂的基座相对位置固定，如图4所示(本实施例中z方向距离1.4米，x方向距离1.2米，y方向重合)，待拾取物品随机摆放于拾取平台5上并处于KinectV2相机镜头的正前方，距离1至2米；(本实施例放置于相机正前方1.5米处)；

所述机械手与机械臂末端连接，由机械臂连带机械手进行运动，触觉传感器装配于机械手手指末端表面，机械手内部控制器通过蓝牙与笔记本电脑连接，机械臂通过网线和局域网与笔记本电脑连接。

利用棋盘格标定法获取KinectV2相机内参矩阵I_cam与KinectV2相机光心相对机械臂基座的外参矩阵E_cam，设机械臂初始位置为L_i(本实施例要求机械臂本身在相机中不遮挡拾取场景即可)；

3-2)假设当前时刻为t，利用KinectV2相机获取当前场景深度彩色图像信息

输入suction affordance网络计算得到suction affordance map

取

中最大值对应的像素坐标为

在

上选定

周围128*128像素大小的图像

大小为128*128*4，含RGB和深度四个通道信息，对

进行与

同一区域的裁剪，得到128*128*1大小的局部置信图像

重复步骤2-1)计算对应度量

如果

则进入步骤3-3)，否则进入步骤3-4)。

3-3)将

其中深度值选择

中深度通道上

像素对应的深度值。选取

周围7*7像素大小区域深度信息生成点云，计算

控制机械臂运动到

位置，并旋转末端至法向

机械手伸出吸盘获取物品，收回吸盘后闭合手爪，读取手爪末端表面的触觉传感器判断压力反馈，如果压力足够(本实施例设置压力值大于传感器量程*10％)则判断为当前拾取成功，将物品放置到固定位置后，机械臂回到初始位置L_i，令t＝t+1，重新返回步骤3-2)获取场景图片，直至所有物品拾取完毕；如果压力不足，则判断为当前拾取失败，进入3-4)。

3-4)将

输入

中的预测子网络

输出各动作

的预测置信值

选择置信值最大的动作作为

根据2-1)步骤中的定义，将

转化为动作起始点

和动作方向

动作运动长度为L＝32像素，计算得到动作终止点

其中

表示点

的x方向值，

表示点

的y方向值，

表示点

的x方向值，

表示点

的y方向值。

将

其中

深度值均选择

中深度通道上

点对应的深度值。闭合机械手手爪，控制机械臂运动到

位置，匀速运动到

Claims

1.一种基于深度强化学习的机械臂物品主动拾取方法，其特征在于，包括以下步骤：

1-2)在V-REP内导入拾取物品模型作为拾取物品仿真；

1-3)在V-REP内导入深度彩色相机模型作为深度彩色相机仿真；

2-3)令初始时刻t＝1；

x_t＝argmax_{x}(Aff_t)

在I_t上选定x_t周围128*128像素大小的图像I′_t，I′_t大小为128*128*4，对Aff_t进行与I′_t同一区域的裁剪，得到128*128*1大小的局部suction affordance map Aff′_t，将I_t′利用双三次插值方法在图像宽度和高度维度缩放至32*32*4的大小，得到I′_ts，将I′_ts作为t时刻的当前状态s_t；