CN113341706A

CN113341706A - 基于深度强化学习的人机协作流水线系统

Info

Publication number: CN113341706A
Application number: CN202110490382.0A
Authority: CN
Inventors: 刘华山; 应丰糠; 江荣鑫; 李威豪; 黄家淬; 尹欣; 尹钰然; 吴琼宇; 曾嘉禹; 王慧颖; 李婷玉; 万卷; 李祥健; 夏玮; 蔡明军; 程新; 陈霖; 吴恩保
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-09-03
Anticipated expiration: 2041-05-06
Also published as: CN113341706B

Abstract

本发明提供的一种基于深度强化学习的人机协作流水线系统通过深度学习技术，借助RRBFNN实现了机械臂预测人类伙伴施加的接触力的意图，形成在线自整定参数的阻抗控制器，以该阻抗模型为轨迹规划器作为强化学习DDPG算法的actor网络，通过DDPG算法优化机械臂任务轨迹，实现效率优化的人机协作流水线系统。同时，采用SSD网络识别具有不同的外观特征的物体，采用Sobel算子和Canny算子形成完整的物体图像边缘，并提出一种融合算法将待定抓取姿态进行融合，形成最终的抓取姿态来指导机械臂抓取物体，实现了机械臂对于不同特征的物体自主调整抓取姿态的能力。

Description

基于深度强化学习的人机协作流水线系统

技术领域

本发明涉及人机共融与机器人视觉领域，具体涉及一种基于深度强化学习、接触意图识别与抓取姿态生成的人机协作与物品抓取流水线系统作业方法。

背景技术

随着工业自动化水平的不断提升，机器人在各个领域的应用也越来越普及。相比人力劳动而言，其优势主要体现在：不会产生疲倦，面对重复性的工作不会厌烦；动作精准，能执行更加精确的操作；工作效率更高，有效推进生产力的发展。正因如此，机械自动化车间快速进入了各个领域，替代了其中一部分人力劳动。

但是，机器人替代人类劳动往往局限在单一的、机械化的操作上，相比人类而言，他们不具备思考能力，无法针对不同的环境做出相应的决策和反应，这从很大局面上限制了它的进一步发展。因此，人工智能相关的研究得以展开，并且伴随着越来越多的技术从问世到成熟，机器人逐渐体现出一定程度的“智慧”。其中，强化学习、深度学习、机器人视觉等技术使得机器人的应用背景更加广阔。强化学习通过奖励与惩罚的机制对机器人做出的决策进行评估，选取获取累计奖励最大的决策作为最佳动作，从而优化机器人的效率。深度学习与机器人视觉结合，使得机器人能更好的采集周围环境信息，实现与环境更好的交互。同时，通过机器人视觉识别技术采集物体信息并提取特征，针对物体外观特征为机器人生成合适的抓取姿态也使得机器人能主动应对更多的工作对象。

在这些背景下，“人机协作”的话题也逐渐得以展开，其中为了实现机器与人之间更好的交互，人类动作意图推理的相关技术也得以问世，通过人与机器在交互过程中的接触力来识别人类伙伴的动作意图从而决定机器人的动作，使得二者实现良好的协作。

发明内容

本发明的目的是：提供一种基于深度强化学习接触意图识别与抓取姿态生成的人机协作与物品抓取流水线系统。

为了达到上述目的，本发明的技术方案是提供了一种基于深度强化学习的人机协作流水线系统，其特征在于，采用以下步骤搭建：

步骤一：搭建数字化流水线系统训练算法，采用搭建的数字化系统来获取数据集，数字化系统与实际流水线系统采取1:1还原。

步骤二：搭建基于神经网络的意图预测模型；

在数字化系统中，人类协作者接触机器人的机械臂，在其末端施加一个随时间t变化的外力f(t)，机械臂上的力传感器根据检测到的外力，产生机械臂各个关节的控制输入来驱动末端执行器抵达目标位置，机械臂运动学定义如下式(1) 所示：

式(1)中，x(t)、

及

分别表示笛卡尔空间机械臂末端的位置、速度、加速度；q＝q(t)、

分别表示关节空间下各关节的位置、速度、加速度；J(q)为雅可比矩阵；

表示雅可比矩阵的一阶微分；ψ(q)表示机械臂正运动学模型。

机械臂在关节空间下的动力学模型描述为下式(2)：

式(2)中，M(q)表示对称正定惯性矩阵；机器人学中，

整体表示科氏力和离心力；G(q)表示重力；τ表示控制输入的向量；

人机交互发生在末端执行器附近，将式(1)代入式(2)，得到机械臂在笛卡尔空间下的动力学模型如下式(3)所示：

式(3)中：

采用阻抗控制模式，通过检测人施加的外力，使得机械臂的控制顺应人施加的外力，则机械臂动力学受如式(5)所示的目标阻抗模型支配：

式(5)中，M_d、C_d、G_d分别表示期望的惯性、阻尼、刚性矩阵；x_d表示期望位置；

表示期望速度；

表示期望加速度；f表示交互力；x表示实际位置；

表示实际速度；

表示实际加速度；

根据式(5)所示的阻抗模型，机械臂实际位置x将根据交互力f得到改善；根据人类伙伴动作意图的预测来设计x_d提供自适应控制模式，使得机械臂动力学受式(5)描述的阻抗模型控制，并且不受未知的机械臂动力学影响；

构造由阻尼弹簧为主导成分的人类肢体模型来定义人类伙伴的动作意图，如下式(6)所示：

式(6)中，C_H、G_H分别表示人类肢体的阻尼矩阵和弹簧矩阵，为对角矩阵；x_Hd为人类伙伴中枢神经系统规划的轨迹，将其视为人类伙伴的动作意图；

于是，人类动作意图x_Hd由交互力f、实际位置x和实际速度

预测，表示为式(7)：

采用递归径向基函数神经网络预测人类动作意图x_Hd；

通过递归径向基函数神经网络，某时刻人类伙伴的动作意图x_Hd,p及其预测

分别表示为：

式(8)中，p表示输出矩阵Y(t)的第p个元素；

为递归径向基函数神经网络的第i个输入，f_i为第i个输入中的交互力，x_i为第i个输入中的实际位置x，

为第i个输入中的实际速度；ε是预测误差；

是理想权重w_j的预测值；θ_j(r_i)是输入为r_i时的第j个隐含层的输出；

采用反向传播算法获取

控制目标是使得机械臂主动地朝人类伙伴预期的位置移动，从而使得交互力f尽可能的小

将

作为目标阻抗模型中的期望位置代替x_d，则阻抗控制将部分考虑到动作意图的预测，通过在线调整

的值，有效降低人类伙伴消耗的能量；

步骤三：采用DDPG算法优化，由基于动作意图预测的自适应阻抗控制器生成任务轨迹；

DDPG网络采用了Actor-Critic形式，将基于动作意图预测的自适应阻抗控制器中的递归径向基函数神经网络作为DDPG算法的行动者网络；DDPG算法的训练基于离策略时序差分学习技术，对于每一个时间步t，机器人智能体从当前环境状态s_t通过选择的行为a_t与环境交互，测量出新的状态s_t+1，并且计算出奖励值r_t+1；将(s_t,a_t,r_t+1,s_t+1)这四个元素存储在回放缓存D中，经采样后用于训练参数化行动者网络π_θ和评估网络

同时，在动作的决策机制中引入 Ornstein-Uhlenbeck随机噪声使得agent可以更好地探索环境。；

行动者网络的学习目标函数L(θ)定义如下式(9)所示：

式(9)中，s表示从缓存D采样的状态；π_θ(s)表示自适应阻抗控制器的每一个动作；

表示在线评估网络；E[·]表示期望；θ表示在线行动者网络的网络参数。

式(9)中，对于从缓存D采样的状态s，函数L(θ)使得自适应阻抗控制器的每一个动作π_θ(s)的期望E最大化；行动者网络的学习目标取决于评估网络的 Q值估算，评估网络能估算精确的Q值；

在本套流水线系统中，机械臂的动作取决于与人类伙伴的交互力f，采用如下式(10)定义的奖励函数：

r＝f^TΛ_ff+c_i (10)

式(10)中，f＝[f_x,f_y,f_z]^T，f_x、f_y、f_z是力传感器测得的相对于X轴、 Y轴、Z轴的接触力；Λ_f是对角元素为λ_fx、λ_fy、λ_fz的3×3对角矩阵，对角元素λ_fx、λ_fy、λ_fz分别是与X轴、Y轴、Z轴的接触力关联的权重；常数c_i应设为一个足够大的正值，使得对于负值的Λ_f，奖励r能保证是正的；

步骤四：将基于递归径向基函数神经网络搭建的具备意图推理能力的轨迹规划器作为DDPG算法的行动者网络，其输入为当前位置x、速度

和力传感器测得的交互力f，由递归径向基函数神经网络预测人类伙伴的动作意图，输出

由x、

f作为阻抗控制器的输入控制机械臂运动；同时，机械臂当前的状态信息经DDPG算法反馈实现任务轨迹的优化；

步骤五：基于深度图生成不同待抓取物体的抓取位姿；

由SSD网络识别物体，SSD网络以VGG-16作为基础网络模型，将其后两层全连接层替换为卷积层；对每一层特征图采用3×3的卷积核计算每一个单元，其层数越深，感受野越大；

由于摄像机近景平面和远景平面之间的点的深度值被归一化到0～1范围内，造成高度不够的物体的深度值与背景较接近，难以区分；因此，选取工作台工作区域外一点，通过将该点在相机坐标系下的坐标转换成绝对坐标系下的坐标求出高度值，将所有点的高度值减去该值并将深度值转换到0～255之间；

将采集图像分为m×n个方形区域，对每个区域随机采用一个点并将落在物体上的点选为一个抓取中心点，从而使得抓取点能覆盖整个物体；采用Sobel 边缘算子计算像素点[i,j]沿X轴方向的梯度

及沿Y轴方向的梯度

式(11)中，f_i,j表示像素点[i,j]的灰度值。

默认夹爪始终以竖直向下的方式抓取物体，则抓取动作取决于抓取点位置 (x,y,z)及沿Z轴的转角θ，假设手爪接触面与物体边缘相切时为一个待定抓取姿态，则保留满足以下条件的边缘点：

Δθ＜ε或|Δθ-180°|＜ε (12)

式中(12)中，Δθ＝|θ_n-θ_l|，θ_n为法线方向，取0～2π，θ_l为随机点和某边缘点连线的方向，取0～2π；

选取了几个待定抓取姿态，最后将待定抓取姿态进行融合；将所有抓取方向转换到0°～120°方向，将该区间n等分，计算每个区间的角度平均值，将平均值小于60°/n的两个区间进行融合形成最终的抓取姿态来指导机械臂进行物体抓取。

优选地，步骤一中，借助V-REP搭建数字化流水线系统训练算法，包括工作台、第一机器人、第二机器人、水平导轨、传送带、红外传感器、机械手爪及收纳箱，其中：

工作台台面正上方有Kinect相机提供彩色图与深度图，并且台面上设有工作区域；

第一机器人位于传送带首端，第一机器人末端初始位姿处于工作台台面工作区域正上方，等待抓取物体；第一机器人各关节都装配有精确的力传感器；

第二机器人位于传送带末端，第二机器人末端初始位姿处于传送带正上方，等待抓取物体；

水平导轨位于第二机器人下方，用于拓宽第二机器人的工作空间；

传送带用于传送物体，传送带上安装有红外传感器，用于检测物品在传送带上的位置；

机械手爪用于抓取物体；

收纳箱位于第二机器人左侧，用于存放物体。

优选地，步骤二中，递归径向基函数神经网络结构表示如下：

输入层：

R(t)＝[r₁(t),r₂(t),...,r_i(t),...,r_n(t)] (13)

式(13)中，r_i(t)为t时刻的第i个输入，i＝1,2,...,n；R(t)表示输入矩阵。

隐含层输出：

式(14)中，u_j(t)、c_j和σ_j分别为第j个隐含层神经元的反馈权值、中心和宽度，j＝1,2,...,m，m为隐含层总数；y(t-1)是反馈量，是t-1时刻RRBFNN 的输出；θ_j(t)为第j个隐含层的输出。

输出层：

式(15)中，w_j(t)是第j个隐含层节点与输出层节点间的连接权重，写为矩阵形式：

Y(t)＝W(t)^TΘ(t) (16)

式(16)中，Y(t)表示神经网络输出层矩阵；W(t)表示神经网络权重系数矩阵；Θ(t)表示神经网络隐藏层矩阵。

优选地，步骤二中，根据如下定义的代价函数使得

以最速下降法进行在线自调整：

式(17)中，f(t)表示交互力，E(t)表示代价函数。

对应地，可以推导：

式(18)中，

表示神经网络在第k个时间步的权重值；E(k)表示神经网络在第k个时间步的代价函数；f(k)表示神经网络在第k个时间步的交互力；η_w是学习率。

优选地，步骤三中，通过训练使得Q值估算的时序差分误差最小化，评估网络的目标函数

由下式(19)给出：

式(19)中，γ是折扣因子；(s,a,r,s′)对应于缓存D中的(s_t,a_t,r_t+1,s_t+1)；

表示DDPG算法中在线评估网络的网络参数；

表示DDPG算法中目标评估网络的网络参数；

表示在线评估网络；

表示目标评估网络；θ' 为目标行动者网络的网络参数。

优选地，步骤五中，在训练SSD网络时，选用耶鲁大学提出的YCB Dataset，选取由Google Scanner重建的64K三维模型并导入V-REP中作为数据集，并选用如下式(20)所示的复合任务形式的损失函数L(x,c,l,g)：

式(20)中，L_conf(x,c)表示置信损失；L_loc(x,l,g)表示定位损失；α表示置信损失与定位损失间的权重；N表示匹配到default box的数量。

优选地，步骤五中，采用Canny算子提取图像边缘。首先通过高斯平滑处理，消除噪声干扰；随后采用非极大值抑制删去沿梯度方向梯度较小的像素点，减小边缘宽度；最后，由双阈值算法形成高阈值分割图像G1和低阈值分割图像 G2，通过比对低阈值分割图像G2修改高阈值分割图像G1中边缘存在的间断，最终形成完整的图像边缘。

本发明提出了一种基于深度强化学习、接触意图识别与抓取姿态生成的人机协作与物品抓取流水线系统，通过递归径向基函数神经网络预测协作过程中人接触机器人的意图，并结合DDPG强化学习算法规划机器人最优运动轨迹，通过SSD 网络识别不同的待抓取物体并基于深度图提取边缘特征，借助Sobel算子和 Canny算子生成抓取姿态。该方法采用深度学习方法实现对于多种不同物体寻找合适的抓取姿态；以在线自整定的方式更新神经网络权重，避免了离线训练中训练集难以获取的问题，提高了接触意图预测的精度；与强化学习结合提高了流水线的工作效率。

附图说明

图1为借助V-REP搭建的1:1还原的数字化流水线系统；

图2为基于动作意图预测的自适应阻抗控制模型；

图3为基于意图推理与DDPG算法的系统示意图；

图4为待定抓取姿态融合算法流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供的一种基于深度强化学习的人机协作流水线系统具体采用以下步骤搭建：

步骤一：由于存在算法训练所需数据集较大，且训练过程中机器人的动作未知，过于密集的动作消耗大量人力与时间且可能导致机器人损坏等问题，本发明采用虚拟环境来获取数据集。本实施例中，借助V-REP搭建如图1所示的数字化流水线系统训练算法，数字化系统与实际流水线系统采取1:1还原。

如图1所示的数字化流水线系统，包括工作台①、第一机器人②、第二机器人③、水平导轨④、传送带⑤、红外传感器⑥、机械手爪⑦及收纳箱⑧。

工作台①台面正上方有Kinect相机提供彩色图与深度图，并且台面上设有工作区域。

第一机器人②位于传送带⑤首端，第一机器人②末端初始位姿处于工作台① 台面工作区域正上方，等待抓取物体。第二机器人③位于传送带⑤末端，第二机器人③末端初始位姿处于传送带⑤正上方，等待抓取物体。本实施例中，第一机器人②选用KUKA LBRiiwa 7R800，该款机械臂各关节都装配有精确的力传感器，是协作机器人的典型代表之一，在本系统中将与人发生直接接触；第二机器人③选用KUKA KR6 R900 sixx。

水平导轨④位于第二机器人③下方，用于拓宽第二机器人③的工作空间。

传送带⑤用于传送物体，总长3.5m，传送带⑤上安装有红外传感器⑥，用于检测物品在传送带⑤上的位置。

机械手爪⑦用于抓取物体，本实施例中，机械手爪⑦采用BarrettHand手爪。

收纳箱⑧位于第二机器人③左侧，用于存放物体。

步骤二：搭建基于神经网络的意图预测模型。

在系统中，人类协作者接触第一机器人②的机械臂，在其末端施加一个随时间t变化的外力f(t)，机械臂上的力传感器根据检测到的外力，产生机械臂各个关节的控制输入来驱动末端执行器抵达目标位置，机械臂运动学定义如下式(1) 所示：

式(1)中，x(t)、

及

表示雅可比矩阵的一阶微分；ψ(q)表示机械臂正运动学模型。。

机械臂在关节空间下的动力学模型描述为下式(2)：

式(2)中，M(q)表示对称正定惯性矩阵；机器人学中，

整体表示科氏力和离心力；G(q)表示重力；τ表示控制输入的向量。

式(3)中：

(式(3)是将式(1)代入式(2)并合并同类项得到的计算结果，当中的M_R(q)，

G_R(q)具体的值在(4)式中给出，并没有特定的名称)。

在一般任务中，往往可以预先决定机械臂的运动轨迹，并可以用于控制设计，但在人机协作的过程当中，期望轨迹应结合人类伙伴的意图确定，而这往往是未知的。本发明中，采用阻抗控制模式，通过检测人施加的外力，使得机械臂的控制顺应人施加的外力，则机械臂动力学受如式(5)所示的目标阻抗模型支配：

表示期望速度；

表示期望加速度；f表示交互力；x表示实际位置；

表示实际速度；

表示实际加速度。

根据式(5)所示的阻抗模型，机械臂实际位置x将根据交互力f得到改善。若根据人类伙伴动作意图的预测来设计x_d，就可以开发一种自适应控制模式，使得机械臂动力学受式(5)描述的阻抗模型控制，并且不受未知的机械臂动力学影响。

本发明中，构造由阻尼弹簧为主导成分的人类肢体模型来定义人类伙伴的动作意图，如下式(6)所示：

式(6)中，C_H、G_H分别表示人类肢体的阻尼矩阵和弹簧矩阵，为对角矩阵；x_Hd为人类伙伴中枢神经系统规划的轨迹，将其视为人类伙伴的动作意图。

于是，人类动作意图x_Hd可由交互力f、实际位置x和实际速度

预测，表示为式(7)：

函数F(·)是未知的，并且是非线性时变的，而C_H和G_H也是不确定的。事实上，人类伙伴在与机械臂协作时很有可能改变自身肢体阻抗C_H和G_H。因此，采用一般方法预测x_Hd会有较大难度。而深度学习在处理参数和关系未知的问题上十分有效，本发明采用递归径向基函数神经网络(RRBFNN)预测人类动作意图x_Hd，其结构表示如下：

输入层：

R(t)＝[r₁(t),r₂(t),...,r_i(t),...,r_n(t)] (8)

式(8)中，r_i(t)为t时刻的第i个输入，i＝1,2,...,n；R(t)表示输入矩阵。

隐含层输出：

式(9)中，u_j(t)、c_j和σ_j分别为第j个隐含层神经元的反馈权值、中心和宽度，j＝1,2,...,m，m为隐含层总数；y(t-1)是反馈量，是t-1时刻RRBFNN 的输出；θ_j(t)为第j个隐含层的输出。

输出层：

式(10)中，w_j(t)是第j个隐含层节点与输出层节点间的连接权值，写为矩阵形式：

Y(t)＝W(t)^TΘ(t) (11)

式(11)中，Y(t)表示神经网络输出层矩阵；W(t)表示神经网络权重系数矩阵；Θ(t)表示神经网络隐藏层矩阵。

通过RRBFNN，某时刻人类伙伴的动作意图x_Hd,p及其预测

可分别表示为：

式(12)中，p表示输出矩阵Y(t)的第p个元素；

为RRBFNN 的第i个输入，f_i为第i个输入中的交互力，x_i为第i个输入中的实际位置x，

为第i个输入中的实际速度；ε是预测误差；

是理想权重w_j的预测值；θ_j(r_i)是输入为r_i时的第j个隐含层的输出。

采用反向传播算法获取

由于控制目标是使得机械臂主动地朝人类伙伴预期的位置移动，从而使得交互力f尽可能的小，本发明中根据如下定义的代价函数使得

以最速下降法进行在线自调整：

式(13)中，f(t)表示交互力，E(t)表示代价函数。

对应地，可以推导：

式(14)中，

在式(5)定义的目标阻抗模型中，由于x_d固定将使得实际位置与动作意图间的误差有可能很大，则人类伙伴需要施加很大的外力。本发明中，将

的值，有效降低人类伙伴消耗的能量。基于动作意图预测的自适应阻抗控制结构如图2所示，它将为机械臂生成运动轨迹。

步骤三：采用DDPG算法优化，由基于动作意图预测的自适应阻抗控制器生成任务轨迹。

DDPG网络整体采用了Actor-Critic形式，同时具备策略Policy神经网络和基于价值Value的神经网络，将基于动作意图预测的自适应阻抗控制器中的 RRBFNN作为DDPG算法的行动者(Actor)网络。DDPG算法的训练基于离策略(off-policy)时序差分学习技术，对于每一个时间步t，机器人智能体(agent) 从当前环境状态s_t(位置、速度、关节角等)通过选择的行为a_t与环境交互，测量出新的状态s_t+1，并且计算出奖励值r_t+1。将(s_t，a_t，r_t+1，s_t+1)这四个元素存储在回放缓存D中，经采样后用于训练参数化行动者(Actor)网络π_θ和评估(Critic) 网络

同时，在动作(action)的决策机制中引入Ornstein-Uhlenbeck(OU) 随机噪声使得agent可以更好地探索环境。

actor网络的学习目标函数L(θ)定义如下式(15)所示：

式(15)中，s表示从缓存D采样的状态；π_θ(s)表示自适应阻抗控制器的每一个动作；

式(15)中，对于从缓存D采样的状态s，函数L(θ)使得自适应阻抗控制器的每一个动作π_θ(s)的期望E最大化。由于actor网络的学习目标取决于critic 网络的Q值估算，因此critic网络要能估算精确的Q值，这就要求通过训练使得Q值估算的时序差分误差最小化。

本发明中，critic网络的目标函数

由下式(16)给出：

式(16)中，γ是折扣因子；(s,a,r,s′)对应于缓存D中的(s_t,a_t,r_t+1,s_t+1)；

表示DDPG算法中在线评估网络的网络参数；

表示DDPG算法中目标评估网络的网络参数；

表示在线评估网络；

表示目标评估网络；θ' 为目标行动者网络的网络参数。

在本套流水线系统中，机械臂的动作取决于与人类伙伴的交互力f，采用如下式(17)定义的奖励函数：

r＝f^TΛ_ff+c_i (17)

式(17)中，f＝[f_x,f_y,f_z]^T，f_x、f_y、f_z是力传感器测得的相对于X轴、 Y轴、Z轴的接触力；Λ_f是对角元素为λ_fx、λ_fy、λ_fz的3×3对角矩阵，对角元素λ_fx、λ_fy、λ_fz分别是与X轴、Y轴、Z轴的接触力关联的权重；常数c_i应设为一个足够大的正值，使得对于负值的Λ_f，奖励r能保证是正的。

步骤四：将基于RRBFNN搭建的具备意图推理能力的轨迹规划器作为 DDPG算法的actor网络，其输入为当前位置x、速度

和力传感器测得的交互力f，由RRBFNN预测人类伙伴的动作意图，输出

由x、

f作为阻抗控制器的输入控制机械臂运动；同时，机械臂当前的状态信息经DDPG算法反馈实现任务轨迹的优化。系统的结构如图3所示。

步骤五：基于深度图生成不同待抓取物体的抓取位姿。

由SSD网络识别物体，SSD网络以VGG-16作为基础网络模型，将其后两层全连接层替换为卷积层。对每一层特征图采用3×3的卷积核计算每一个单元，其层数越深，感受野越大。在训练时，选用耶鲁大学提出的YCB Dataset，选取由Google Scanner重建的64K三维模型并导入V-REP中作为数据集，并选用如下式(18)所示的复合任务形式的损失函数L(x,c,l,g)：

式(18)中，L_conf(x,c)表示置信损失；L_loc(x,l,g)表示定位损失；α表示置信损失与定位损失间的权重；N表示匹配到default box的数量。

由于摄像机近景平面和远景平面之间的点的深度值被归一化到0～1范围内，造成高度不够的物体的深度值与背景较接近，难以区分。因此，选取工作台工作区域外一点，通过将该点在相机坐标系下的坐标转换成绝对坐标系下的坐标求出高度值，将所有点的高度值减去该值并将深度值转换到0～255之间。

将采集图像分为m×n个方形区域，对每个区域随机采用一个点并将落在物体上的点选为一个抓取中心点，从而使得抓取点能覆盖整个物体。采用Sobel 边缘算子计算像素点[i,j]沿X轴方向的梯度

及沿Y轴方向的梯度

式(19)中，f_i,j表示像素点[i,j]的灰度值。

本发明中，采用Canny算子提取图像边缘。首先通过高斯平滑处理，消除噪声干扰；随后采用非极大值抑制删去沿梯度方向梯度较小的像素点，减小边缘宽度；最后，由双阈值算法形成高阈值分割图像G1和低阈值分割图像G2，通过比对低阈值分割图像G2修改高阈值分割图像G1中边缘存在的间断，最终形成完整的图像边缘。

Δθ＜ε或|Δθ-180°|＜ε (20)

式中(20)中，Δθ＝|θ_n-θ_l|，θ_n为法线方向，取0～2π，θ_l为随机点和某边缘点连线的方向，取0～2π。

通过上述方法选取了几个待定抓取姿态，最后将待定抓取姿态进行融合。对于三指手爪而言，仅考虑0°～120°方向即可覆盖所有的方向，且方向较接近的几个抓取姿态可视为同一种姿态，基于以上思想，将所有抓取方向转换到0°～120° 方向，将该区间n等分，计算每个区间的角度平均值，将平均值小于60°/n的两个区间进行融合形成最终的抓取姿态来指导机械臂进行物体抓取。该过程的算法流程如图4所示。

本发明融合了深度学习、强化学习等技术，实现了机械臂预测人类伙伴施加的接触力的意图，形成在线自整定参数的阻抗控制器，以该阻抗模型为轨迹规划器作为DDPG算法的actor网络，通过DDPG算法优化机械臂任务轨迹，实现效率优化的人机协作流水线系统。同时，采用SSD网络识别不同的外观特征的物体，采用Sobel算子和Canny算子形成完整的物体图像边缘，并提出一种融合算法将待定抓取姿态进行融合，形成最终的抓取姿态来指导机械臂抓取物体，实现了机械臂对于不同特征的物体自主调整抓取姿态的能力。

Claims

1.一种基于深度强化学习的人机协作流水线系统，其特征在于，采用以下步骤搭建：

步骤二：搭建基于神经网络的意图预测模型；

在数字化系统中，人类协作者接触机器人的机械臂，在其末端施加一个随时间t变化的外力f(t)，机械臂上的力传感器根据检测到的外力，产生机械臂各个关节的控制输入来驱动末端执行器抵达目标位置，机械臂运动学定义如下式(1)所示：

式(1)中，x(t)、

及

表示雅可比矩阵的一阶微分；ψ(q)表示机械臂正运动学模型；

机械臂在关节空间下的动力学模型描述为下式(2)：

式(2)中，M(q)表示对称正定惯性矩阵；G(q)表示重力；τ表示控制输入的向量；机器人学中，

整体表示科氏力和离心力；

式(3)中：

表示期望速度；

表示期望加速度；f表示交互力；x表示实际位置；

表示实际速度；

表示实际加速度；

于是，人类动作意图x_Hd由交互力f、实际位置x和实际速度

预测，表示为式(7)：

采用递归径向基函数神经网络预测人类动作意图x_Hd；

分别表示为：

式(8)中，p表示输出矩阵Y(t)的第p个元素；

为第i个输入中的实际速度；ε是预测误差；

采用反向传播算法获取

控制目标是使得机械臂主动地朝人类伙伴预期的位置移动，从而使得交互力f尽可能的小；

将

的值，有效降低人类伙伴消耗的能量；

同时，在动作的决策机制中引入Ornstein-Uhlenbeck随机噪声使得agent可以更好地探索环境。；

行动者网络的学习目标函数L(θ)定义如下式(9)所示：

式(9)中，对于从缓存D采样的状态s，函数L(θ)使得自适应阻抗控制器的每一个动作π_θ(s)的期望E最大化；行动者网络的学习目标取决于评估网络的Q值估算，评估网络能估算精确的Q值；

r＝f^TΛ_ff+c_i (10)

式(10)中，f＝[f_x,f_y,f_z]^T，f_x、f_y、f_z是力传感器测得的相对于X轴、Y轴、Z轴的接触力；Λ_f是对角元素为λ_fx、λ_fy、λ_fz的3×3对角矩阵，对角元素λ_fx、λ_fy、λ_fz分别是与X轴、Y轴、Z轴的接触力关联的权重；常数c_i应设为一个足够大的正值，使得对于负值的Λ_f，奖励r能保证是正的；

由x、

步骤五：基于深度图生成不同待抓取物体的抓取位姿；

将采集图像分为m×n个方形区域，对每个区域随机采用一个点并将落在物体上的点选为一个抓取中心点，从而使得抓取点能覆盖整个物体；采用Sobel边缘算子计算像素点[i,j]沿X轴方向的梯度

及沿Y轴方向的梯度

式(11)中，f_i,j表示像素点[i,j]的灰度值。

默认夹爪始终以竖直向下的方式抓取物体，则抓取动作取决于抓取点位置(x,y,z)及沿Z轴的转角θ，假设手爪接触面与物体边缘相切时为一个待定抓取姿态，则保留满足以下条件的边缘点：

Δθ＜ε或|Δθ-180°|＜ε (12)

2.如权利要求1所述的一种基于深度强化学习的人机协作流水线系统，其特征在于，步骤一中，借助V-REP搭建数字化流水线系统训练算法，包括工作台、第一机器人、第二机器人、水平导轨、传送带、红外传感器、机械手爪及收纳箱，其中：

机械手爪用于抓取物体；

收纳箱位于第二机器人左侧，用于存放物体。

3.如权利要求1所述的一种基于深度强化学习的人机协作流水线系统，其特征在于，步骤二中，递归径向基函数神经网络结构表示如下：

输入层：

R(t)＝[r₁(t),r₂(t),...,r_i(t),...,r_n(t)] (13)

隐含层输出：

式(14)中，u_j(t)、c_j和σ_j分别为第j个隐含层神经元的反馈权值、中心和宽度，j＝1,2,...,m，m为隐含层总数；y(t-1)是反馈量，是t-1时刻RRBFNN的输出；θ_j(t)为第j个隐含层的输出。

输出层：

式(15)中，w_j(t)是第j个隐含层节点与输出层节点间的连接权值，写为矩阵形式：

Y(t)＝W(t)^TΘ(t) (16)

4.如权利要求1所述的一种基于深度强化学习的人机协作流水线系统，其特征在于，步骤二中，根据如下定义的代价函数使得

以最速下降法进行在线自调整：

式(17)中，f(t)表示交互力，E(t)表示代价函数。

对应地，可以推导：

式(18)中，

5.如权利要求1所述的一种基于深度强化学习的人机协作流水线系统，其特征在于，步骤三中，通过训练使得Q值估算的时序差分误差最小化，评估网络的目标函数

由下式(19)给出：

表示DDPG算法中在线评估网络的网络参数；

表示DDPG算法中目标评估网络的网络参数；

表示在线评估网络；

表示目标评估网络；θ'为目标行动者网络的网络参数。

6.如权利要求1所述的一种基于深度强化学习的人机协作流水线系统，其特征在于，步骤五中，在训练SSD网络时，选用耶鲁大学提出的YCB Dataset，选取由Google Scanner重建的64K三维模型并导入V-REP中作为数据集，并选用如下式(20)所示的复合任务形式的损失函数L(x,c,l,g)：

7.如权利要求1所述的一种基于深度强化学习的人机协作流水线系统，其特征在于，步骤五中，采用Canny算子提取图像边缘。首先通过高斯平滑处理，消除噪声干扰；随后采用非极大值抑制删去沿梯度方向梯度较小的像素点，减小边缘宽度；最后，由双阈值算法形成高阈值分割图像G1和低阈值分割图像G2，通过比对低阈值分割图像G2修改高阈值分割图像G1中边缘存在的间断，最终形成完整的图像边缘。