CN113341706A - 基于深度强化学习的人机协作流水线系统 - Google Patents
基于深度强化学习的人机协作流水线系统 Download PDFInfo
- Publication number
- CN113341706A CN113341706A CN202110490382.0A CN202110490382A CN113341706A CN 113341706 A CN113341706 A CN 113341706A CN 202110490382 A CN202110490382 A CN 202110490382A CN 113341706 A CN113341706 A CN 113341706A
- Authority
- CN
- China
- Prior art keywords
- network
- formula
- robot
- mechanical arm
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Manipulator (AREA)
Abstract
本发明提供的一种基于深度强化学习的人机协作流水线系统通过深度学习技术,借助RRBFNN实现了机械臂预测人类伙伴施加的接触力的意图,形成在线自整定参数的阻抗控制器,以该阻抗模型为轨迹规划器作为强化学习DDPG算法的actor网络,通过DDPG算法优化机械臂任务轨迹,实现效率优化的人机协作流水线系统。同时,采用SSD网络识别具有不同的外观特征的物体,采用Sobel算子和Canny算子形成完整的物体图像边缘,并提出一种融合算法将待定抓取姿态进行融合,形成最终的抓取姿态来指导机械臂抓取物体,实现了机械臂对于不同特征的物体自主调整抓取姿态的能力。
Description
技术领域
本发明涉及人机共融与机器人视觉领域,具体涉及一种基于深度强化学习、 接触意图识别与抓取姿态生成的人机协作与物品抓取流水线系统作业方法。
背景技术
随着工业自动化水平的不断提升,机器人在各个领域的应用也越来越普及。 相比人力劳动而言,其优势主要体现在:不会产生疲倦,面对重复性的工作不会 厌烦;动作精准,能执行更加精确的操作;工作效率更高,有效推进生产力的发 展。正因如此,机械自动化车间快速进入了各个领域,替代了其中一部分人力劳 动。
但是,机器人替代人类劳动往往局限在单一的、机械化的操作上,相比人类 而言,他们不具备思考能力,无法针对不同的环境做出相应的决策和反应,这从 很大局面上限制了它的进一步发展。因此,人工智能相关的研究得以展开,并且 伴随着越来越多的技术从问世到成熟,机器人逐渐体现出一定程度的“智慧”。 其中,强化学习、深度学习、机器人视觉等技术使得机器人的应用背景更加广阔。 强化学习通过奖励与惩罚的机制对机器人做出的决策进行评估,选取获取累计奖 励最大的决策作为最佳动作,从而优化机器人的效率。深度学习与机器人视觉结 合,使得机器人能更好的采集周围环境信息,实现与环境更好的交互。同时,通 过机器人视觉识别技术采集物体信息并提取特征,针对物体外观特征为机器人生 成合适的抓取姿态也使得机器人能主动应对更多的工作对象。
在这些背景下,“人机协作”的话题也逐渐得以展开,其中为了实现机器与 人之间更好的交互,人类动作意图推理的相关技术也得以问世,通过人与机器在 交互过程中的接触力来识别人类伙伴的动作意图从而决定机器人的动作,使得二 者实现良好的协作。
发明内容
本发明的目的是:提供一种基于深度强化学习接触意图识别与抓取姿态生成 的人机协作与物品抓取流水线系统。
为了达到上述目的,本发明的技术方案是提供了一种基于深度强化学习的人 机协作流水线系统,其特征在于,采用以下步骤搭建:
步骤一:搭建数字化流水线系统训练算法,采用搭建的数字化系统来获取数 据集,数字化系统与实际流水线系统采取1:1还原。
步骤二:搭建基于神经网络的意图预测模型;
在数字化系统中,人类协作者接触机器人的机械臂,在其末端施加一个随时 间t变化的外力f(t),机械臂上的力传感器根据检测到的外力,产生机械臂各个 关节的控制输入来驱动末端执行器抵达目标位置,机械臂运动学定义如下式(1) 所示:
式(1)中,x(t)、及分别表示笛卡尔空间机械臂末端的位置、速度、 加速度;q=q(t)、分别表示关节空间下各关节的位置、速度、 加速度;J(q)为雅可比矩阵;表示雅可比矩阵的一阶微分;ψ(q)表示机械 臂正运动学模型。
机械臂在关节空间下的动力学模型描述为下式(2):
人机交互发生在末端执行器附近,将式(1)代入式(2),得到机械臂在笛 卡尔空间下的动力学模型如下式(3)所示:
式(3)中:
采用阻抗控制模式,通过检测人施加的外力,使得机械臂的控制顺应人施加 的外力,则机械臂动力学受如式(5)所示的目标阻抗模型支配:
根据式(5)所示的阻抗模型,机械臂实际位置x将根据交互力f得到改善; 根据人类伙伴动作意图的预测来设计xd提供自适应控制模式,使得机械臂动力 学受式(5)描述的阻抗模型控制,并且不受未知的机械臂动力学影响;
构造由阻尼弹簧为主导成分的人类肢体模型来定义人类伙伴的动作意图,如 下式(6)所示:
式(6)中,CH、GH分别表示人类肢体的阻尼矩阵和弹簧矩阵,为对角矩 阵;xHd为人类伙伴中枢神经系统规划的轨迹,将其视为人类伙伴的动作意图;
采用递归径向基函数神经网络预测人类动作意图xHd;
式(8)中,p表示输出矩阵Y(t)的第p个元素;为递归径 向基函数神经网络的第i个输入,fi为第i个输入中的交互力,xi为第i个输入中 的实际位置x,为第i个输入中的实际速度;ε是预测误差;是理想权重wj的预测值;θj(ri)是输入为ri时的第j个隐含层的输出;
步骤三:采用DDPG算法优化,由基于动作意图预测的自适应阻抗控制器 生成任务轨迹;
DDPG网络采用了Actor-Critic形式,将基于动作意图预测的自适应阻抗控 制器中的递归径向基函数神经网络作为DDPG算法的行动者网络;DDPG算法 的训练基于离策略时序差分学习技术,对于每一个时间步t,机器人智能体从当 前环境状态st通过选择的行为at与环境交互,测量出新的状态st+1,并且计算出 奖励值rt+1;将(st,at,rt+1,st+1)这四个元素存储在回放缓存D中,经采样后用于训 练参数化行动者网络πθ和评估网络同时,在动作的决策机制中引入 Ornstein-Uhlenbeck随机噪声使得agent可以更好地探索环境。;
行动者网络的学习目标函数L(θ)定义如下式(9)所示:
式(9)中,对于从缓存D采样的状态s,函数L(θ)使得自适应阻抗控制器 的每一个动作πθ(s)的期望E最大化;行动者网络的学习目标取决于评估网络的 Q值估算,评估网络能估算精确的Q值;
在本套流水线系统中,机械臂的动作取决于与人类伙伴的交互力f,采用如 下式(10)定义的奖励函数:
r=fTΛff+ci (10)
式(10)中,f=[fx,fy,fz]T,fx、fy、fz是力传感器测得的相对于X轴、 Y轴、Z轴的接触力;Λf是对角元素为λfx、λfy、λfz的3×3对角矩阵,对角元 素λfx、λfy、λfz分别是与X轴、Y轴、Z轴的接触力关联的权重;常数ci应设 为一个足够大的正值,使得对于负值的Λf,奖励r能保证是正的;
步骤四:将基于递归径向基函数神经网络搭建的具备意图推理能力的轨迹规 划器作为DDPG算法的行动者网络,其输入为当前位置x、速度和力传感器测 得的交互力f,由递归径向基函数神经网络预测人类伙伴的动作意图,输出由x、f作为阻抗控制器的输入控制机械臂运动;同时,机械臂当前的状态 信息经DDPG算法反馈实现任务轨迹的优化;
步骤五:基于深度图生成不同待抓取物体的抓取位姿;
由SSD网络识别物体,SSD网络以VGG-16作为基础网络模型,将其后两 层全连接层替换为卷积层;对每一层特征图采用3×3的卷积核计算每一个单元, 其层数越深,感受野越大;
由于摄像机近景平面和远景平面之间的点的深度值被归一化到0~1范围内, 造成高度不够的物体的深度值与背景较接近,难以区分;因此,选取工作台工作 区域外一点,通过将该点在相机坐标系下的坐标转换成绝对坐标系下的坐标求出 高度值,将所有点的高度值减去该值并将深度值转换到0~255之间;
将采集图像分为m×n个方形区域,对每个区域随机采用一个点并将落在物 体上的点选为一个抓取中心点,从而使得抓取点能覆盖整个物体;采用Sobel 边缘算子计算像素点[i,j]沿X轴方向的梯度及沿Y轴方向的梯度
式(11)中,fi,j表示像素点[i,j]的灰度值。
默认夹爪始终以竖直向下的方式抓取物体,则抓取动作取决于抓取点位置 (x,y,z)及沿Z轴的转角θ,假设手爪接触面与物体边缘相切时为一个待定抓取 姿态,则保留满足以下条件的边缘点:
Δθ<ε或|Δθ-180°|<ε (12)
式中(12)中,Δθ=|θn-θl|,θn为法线方向,取0~2π,θl为随机点和某 边缘点连线的方向,取0~2π;
选取了几个待定抓取姿态,最后将待定抓取姿态进行融合;将所有抓取方向 转换到0°~120°方向,将该区间n等分,计算每个区间的角度平均值,将平均值 小于60°/n的两个区间进行融合形成最终的抓取姿态来指导机械臂进行物体抓取。
优选地,步骤一中,借助V-REP搭建数字化流水线系统训练算法,包括工 作台、第一机器人、第二机器人、水平导轨、传送带、红外传感器、机械手爪及 收纳箱,其中:
工作台台面正上方有Kinect相机提供彩色图与深度图,并且台面上设有工 作区域;
第一机器人位于传送带首端,第一机器人末端初始位姿处于工作台台面工作 区域正上方,等待抓取物体;第一机器人各关节都装配有精确的力传感器;
第二机器人位于传送带末端,第二机器人末端初始位姿处于传送带正上方, 等待抓取物体;
水平导轨位于第二机器人下方,用于拓宽第二机器人的工作空间;
传送带用于传送物体,传送带上安装有红外传感器,用于检测物品在传送带 上的位置;
机械手爪用于抓取物体;
收纳箱位于第二机器人左侧,用于存放物体。
优选地,步骤二中,递归径向基函数神经网络结构表示如下:
输入层:
R(t)=[r1(t),r2(t),...,ri(t),...,rn(t)] (13)
式(13)中,ri(t)为t时刻的第i个输入,i=1,2,...,n;R(t)表示输入矩阵。
隐含层输出:
式(14)中,uj(t)、cj和σj分别为第j个隐含层神经元的反馈权值、中心 和宽度,j=1,2,...,m,m为隐含层总数;y(t-1)是反馈量,是t-1时刻RRBFNN 的输出;θj(t)为第j个隐含层的输出。
输出层:
式(15)中,wj(t)是第j个隐含层节点与输出层节点间的连接权重,写为 矩阵形式:
Y(t)=W(t)TΘ(t) (16)
式(16)中,Y(t)表示神经网络输出层矩阵;W(t)表示神经网络权重系数 矩阵;Θ(t)表示神经网络隐藏层矩阵。
式(17)中,f(t)表示交互力,E(t)表示代价函数。
对应地,可以推导:
式(19)中,γ是折扣因子;(s,a,r,s′)对应于缓存D中的(st,at,rt+1,st+1);表示DDPG算法中在线评估网络的网络参数;表示DDPG算法中目标评估网 络的网络参数;表示在线评估网络;表示目标评估网络;θ' 为目标行动者网络的网络参数。
优选地,步骤五中,在训练SSD网络时,选用耶鲁大学提出的YCB Dataset, 选取由Google Scanner重建的64K三维模型并导入V-REP中作为数据集,并选 用如下式(20)所示的复合任务形式的损失函数L(x,c,l,g):
式(20)中,Lconf(x,c)表示置信损失;Lloc(x,l,g)表示定位损失;α表示置 信损失与定位损失间的权重;N表示匹配到default box的数量。
优选地,步骤五中,采用Canny算子提取图像边缘。首先通过高斯平滑处 理,消除噪声干扰;随后采用非极大值抑制删去沿梯度方向梯度较小的像素点, 减小边缘宽度;最后,由双阈值算法形成高阈值分割图像G1和低阈值分割图像 G2,通过比对低阈值分割图像G2修改高阈值分割图像G1中边缘存在的间断, 最终形成完整的图像边缘。
本发明提出了一种基于深度强化学习、接触意图识别与抓取姿态生成的人机 协作与物品抓取流水线系统,通过递归径向基函数神经网络预测协作过程中人接 触机器人的意图,并结合DDPG强化学习算法规划机器人最优运动轨迹,通过SSD 网络识别不同的待抓取物体并基于深度图提取边缘特征,借助Sobel算子和 Canny算子生成抓取姿态。该方法采用深度学习方法实现对于多种不同物体寻找 合适的抓取姿态;以在线自整定的方式更新神经网络权重,避免了离线训练中训 练集难以获取的问题,提高了接触意图预测的精度;与强化学习结合提高了流水 线的工作效率。
附图说明
图1为借助V-REP搭建的1:1还原的数字化流水线系统;
图2为基于动作意图预测的自适应阻抗控制模型;
图3为基于意图推理与DDPG算法的系统示意图;
图4为待定抓取姿态融合算法流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明 本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之 后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本 申请所附权利要求书所限定的范围。
本发明提供的一种基于深度强化学习的人机协作流水线系统具体采用以下 步骤搭建:
步骤一:由于存在算法训练所需数据集较大,且训练过程中机器人的动作未 知,过于密集的动作消耗大量人力与时间且可能导致机器人损坏等问题,本发明 采用虚拟环境来获取数据集。本实施例中,借助V-REP搭建如图1所示的数字 化流水线系统训练算法,数字化系统与实际流水线系统采取1:1还原。
如图1所示的数字化流水线系统,包括工作台①、第一机器人②、第二机器 人③、水平导轨④、传送带⑤、红外传感器⑥、机械手爪⑦及收纳箱⑧。
工作台①台面正上方有Kinect相机提供彩色图与深度图,并且台面上设有 工作区域。
第一机器人②位于传送带⑤首端,第一机器人②末端初始位姿处于工作台① 台面工作区域正上方,等待抓取物体。第二机器人③位于传送带⑤末端,第二机 器人③末端初始位姿处于传送带⑤正上方,等待抓取物体。本实施例中,第一机 器人②选用KUKA LBRiiwa 7R800,该款机械臂各关节都装配有精确的力传感 器,是协作机器人的典型代表之一,在本系统中将与人发生直接接触;第二机器 人③选用KUKA KR6 R900 sixx。
水平导轨④位于第二机器人③下方,用于拓宽第二机器人③的工作空间。
传送带⑤用于传送物体,总长3.5m,传送带⑤上安装有红外传感器⑥,用 于检测物品在传送带⑤上的位置。
机械手爪⑦用于抓取物体,本实施例中,机械手爪⑦采用BarrettHand手爪。
收纳箱⑧位于第二机器人③左侧,用于存放物体。
步骤二:搭建基于神经网络的意图预测模型。
在系统中,人类协作者接触第一机器人②的机械臂,在其末端施加一个随时 间t变化的外力f(t),机械臂上的力传感器根据检测到的外力,产生机械臂各个 关节的控制输入来驱动末端执行器抵达目标位置,机械臂运动学定义如下式(1) 所示:
式(1)中,x(t)、及分别表示笛卡尔空间机械臂末端的位置、速度、 加速度;q=q(t)、分别表示关节空间下各关节的位置、速度、 加速度;J(q)为雅可比矩阵;表示雅可比矩阵的一阶微分;ψ(q)表示机械 臂正运动学模型。。
机械臂在关节空间下的动力学模型描述为下式(2):
人机交互发生在末端执行器附近,将式(1)代入式(2),得到机械臂在笛 卡尔空间下的动力学模型如下式(3)所示:
式(3)中:
在一般任务中,往往可以预先决定机械臂的运动轨迹,并可以用于控制设计, 但在人机协作的过程当中,期望轨迹应结合人类伙伴的意图确定,而这往往是未 知的。本发明中,采用阻抗控制模式,通过检测人施加的外力,使得机械臂的控 制顺应人施加的外力,则机械臂动力学受如式(5)所示的目标阻抗模型支配:
根据式(5)所示的阻抗模型,机械臂实际位置x将根据交互力f得到改善。 若根据人类伙伴动作意图的预测来设计xd,就可以开发一种自适应控制模式, 使得机械臂动力学受式(5)描述的阻抗模型控制,并且不受未知的机械臂动力 学影响。
本发明中,构造由阻尼弹簧为主导成分的人类肢体模型来定义人类伙伴的动 作意图,如下式(6)所示:
式(6)中,CH、GH分别表示人类肢体的阻尼矩阵和弹簧矩阵,为对角矩 阵;xHd为人类伙伴中枢神经系统规划的轨迹,将其视为人类伙伴的动作意图。
函数F(·)是未知的,并且是非线性时变的,而CH和GH也是不确定的。事实 上,人类伙伴在与机械臂协作时很有可能改变自身肢体阻抗CH和GH。因此,采 用一般方法预测xHd会有较大难度。而深度学习在处理参数和关系未知的问题上 十分有效,本发明采用递归径向基函数神经网络(RRBFNN)预测人类动作意 图xHd,其结构表示如下:
输入层:
R(t)=[r1(t),r2(t),...,ri(t),...,rn(t)] (8)
式(8)中,ri(t)为t时刻的第i个输入,i=1,2,...,n;R(t)表示输入矩阵。
隐含层输出:
式(9)中,uj(t)、cj和σj分别为第j个隐含层神经元的反馈权值、中心和 宽度,j=1,2,...,m,m为隐含层总数;y(t-1)是反馈量,是t-1时刻RRBFNN 的输出;θj(t)为第j个隐含层的输出。
输出层:
式(10)中,wj(t)是第j个隐含层节点与输出层节点间的连接权值,写为 矩阵形式:
Y(t)=W(t)TΘ(t) (11)
式(11)中,Y(t)表示神经网络输出层矩阵;W(t)表示神经网络权重系数 矩阵;Θ(t)表示神经网络隐藏层矩阵。
式(12)中,p表示输出矩阵Y(t)的第p个元素;为RRBFNN 的第i个输入,fi为第i个输入中的交互力,xi为第i个输入中的实际位置x,为第i个输入中的实际速度;ε是预测误差;是理想权重wj的预测值;θj(ri)是 输入为ri时的第j个隐含层的输出。
式(13)中,f(t)表示交互力,E(t)表示代价函数。
对应地,可以推导:
在式(5)定义的目标阻抗模型中,由于xd固定将使得实际位置与动作意图 间的误差有可能很大,则人类伙伴需要施加很大的外力。本发明中,将作 为目标阻抗模型中的期望位置代替xd,则阻抗控制将部分考虑到动作意图的预 测,通过在线调整的值,有效降低人类伙伴消耗的能量。基于动作意图预 测的自适应阻抗控制结构如图2所示,它将为机械臂生成运动轨迹。
步骤三:采用DDPG算法优化,由基于动作意图预测的自适应阻抗控制器 生成任务轨迹。
DDPG网络整体采用了Actor-Critic形式,同时具备策略Policy神经网络和 基于价值Value的神经网络,将基于动作意图预测的自适应阻抗控制器中的 RRBFNN作为DDPG算法的行动者(Actor)网络。DDPG算法的训练基于离策 略(off-policy)时序差分学习技术,对于每一个时间步t,机器人智能体(agent) 从当前环境状态st(位置、速度、关节角等)通过选择的行为at与环境交互,测 量出新的状态st+1,并且计算出奖励值rt+1。将(st,at,rt+1,st+1)这四个元素存储 在回放缓存D中,经采样后用于训练参数化行动者(Actor)网络πθ和评估(Critic) 网络同时,在动作(action)的决策机制中引入Ornstein-Uhlenbeck(OU) 随机噪声使得agent可以更好地探索环境。
actor网络的学习目标函数L(θ)定义如下式(15)所示:
式(15)中,对于从缓存D采样的状态s,函数L(θ)使得自适应阻抗控制 器的每一个动作πθ(s)的期望E最大化。由于actor网络的学习目标取决于critic 网络的Q值估算,因此critic网络要能估算精确的Q值,这就要求通过训练使 得Q值估算的时序差分误差最小化。
式(16)中,γ是折扣因子;(s,a,r,s′)对应于缓存D中的(st,at,rt+1,st+1);表示DDPG算法中在线评估网络的网络参数;表示DDPG算法中目标评估网 络的网络参数;表示在线评估网络;表示目标评估网络;θ' 为目标行动者网络的网络参数。
在本套流水线系统中,机械臂的动作取决于与人类伙伴的交互力f,采用如 下式(17)定义的奖励函数:
r=fTΛff+ci (17)
式(17)中,f=[fx,fy,fz]T,fx、fy、fz是力传感器测得的相对于X轴、 Y轴、Z轴的接触力;Λf是对角元素为λfx、λfy、λfz的3×3对角矩阵,对角元 素λfx、λfy、λfz分别是与X轴、Y轴、Z轴的接触力关联的权重;常数ci应设 为一个足够大的正值,使得对于负值的Λf,奖励r能保证是正的。
步骤四:将基于RRBFNN搭建的具备意图推理能力的轨迹规划器作为 DDPG算法的actor网络,其输入为当前位置x、速度和力传感器测得的交互 力f,由RRBFNN预测人类伙伴的动作意图,输出由x、f作为阻抗 控制器的输入控制机械臂运动;同时,机械臂当前的状态信息经DDPG算法反 馈实现任务轨迹的优化。系统的结构如图3所示。
步骤五:基于深度图生成不同待抓取物体的抓取位姿。
由SSD网络识别物体,SSD网络以VGG-16作为基础网络模型,将其后两 层全连接层替换为卷积层。对每一层特征图采用3×3的卷积核计算每一个单元, 其层数越深,感受野越大。在训练时,选用耶鲁大学提出的YCB Dataset,选取 由Google Scanner重建的64K三维模型并导入V-REP中作为数据集,并选用如 下式(18)所示的复合任务形式的损失函数L(x,c,l,g):
式(18)中,Lconf(x,c)表示置信损失;Lloc(x,l,g)表示定位损失;α表示置 信损失与定位损失间的权重;N表示匹配到default box的数量。
由于摄像机近景平面和远景平面之间的点的深度值被归一化到0~1范围内, 造成高度不够的物体的深度值与背景较接近,难以区分。因此,选取工作台工作 区域外一点,通过将该点在相机坐标系下的坐标转换成绝对坐标系下的坐标求出 高度值,将所有点的高度值减去该值并将深度值转换到0~255之间。
将采集图像分为m×n个方形区域,对每个区域随机采用一个点并将落在物 体上的点选为一个抓取中心点,从而使得抓取点能覆盖整个物体。采用Sobel 边缘算子计算像素点[i,j]沿X轴方向的梯度及沿Y轴方向的梯度
式(19)中,fi,j表示像素点[i,j]的灰度值。
本发明中,采用Canny算子提取图像边缘。首先通过高斯平滑处理,消除 噪声干扰;随后采用非极大值抑制删去沿梯度方向梯度较小的像素点,减小边缘 宽度;最后,由双阈值算法形成高阈值分割图像G1和低阈值分割图像G2,通 过比对低阈值分割图像G2修改高阈值分割图像G1中边缘存在的间断,最终形 成完整的图像边缘。
默认夹爪始终以竖直向下的方式抓取物体,则抓取动作取决于抓取点位置 (x,y,z)及沿Z轴的转角θ,假设手爪接触面与物体边缘相切时为一个待定抓取 姿态,则保留满足以下条件的边缘点:
Δθ<ε或|Δθ-180°|<ε (20)
式中(20)中,Δθ=|θn-θl|,θn为法线方向,取0~2π,θl为随机点和某 边缘点连线的方向,取0~2π。
通过上述方法选取了几个待定抓取姿态,最后将待定抓取姿态进行融合。对 于三指手爪而言,仅考虑0°~120°方向即可覆盖所有的方向,且方向较接近的几 个抓取姿态可视为同一种姿态,基于以上思想,将所有抓取方向转换到0°~120° 方向,将该区间n等分,计算每个区间的角度平均值,将平均值小于60°/n的两 个区间进行融合形成最终的抓取姿态来指导机械臂进行物体抓取。该过程的算法 流程如图4所示。
本发明融合了深度学习、强化学习等技术,实现了机械臂预测人类伙伴施加 的接触力的意图,形成在线自整定参数的阻抗控制器,以该阻抗模型为轨迹规划 器作为DDPG算法的actor网络,通过DDPG算法优化机械臂任务轨迹,实现效 率优化的人机协作流水线系统。同时,采用SSD网络识别不同的外观特征的物 体,采用Sobel算子和Canny算子形成完整的物体图像边缘,并提出一种融合算 法将待定抓取姿态进行融合,形成最终的抓取姿态来指导机械臂抓取物体,实现 了机械臂对于不同特征的物体自主调整抓取姿态的能力。
Claims (7)
1.一种基于深度强化学习的人机协作流水线系统,其特征在于,采用以下步骤搭建:
步骤一:搭建数字化流水线系统训练算法,采用搭建的数字化系统来获取数据集,数字化系统与实际流水线系统采取1:1还原。
步骤二:搭建基于神经网络的意图预测模型;
在数字化系统中,人类协作者接触机器人的机械臂,在其末端施加一个随时间t变化的外力f(t),机械臂上的力传感器根据检测到的外力,产生机械臂各个关节的控制输入来驱动末端执行器抵达目标位置,机械臂运动学定义如下式(1)所示:
式(1)中,x(t)、及分别表示笛卡尔空间机械臂末端的位置、速度、加速度;q=q(t)、分别表示关节空间下各关节的位置、速度、加速度;J(q)为雅可比矩阵;表示雅可比矩阵的一阶微分;ψ(q)表示机械臂正运动学模型;
机械臂在关节空间下的动力学模型描述为下式(2):
人机交互发生在末端执行器附近,将式(1)代入式(2),得到机械臂在笛卡尔空间下的动力学模型如下式(3)所示:
式(3)中:
采用阻抗控制模式,通过检测人施加的外力,使得机械臂的控制顺应人施加的外力,则机械臂动力学受如式(5)所示的目标阻抗模型支配:
根据式(5)所示的阻抗模型,机械臂实际位置x将根据交互力f得到改善;根据人类伙伴动作意图的预测来设计xd提供自适应控制模式,使得机械臂动力学受式(5)描述的阻抗模型控制,并且不受未知的机械臂动力学影响;
构造由阻尼弹簧为主导成分的人类肢体模型来定义人类伙伴的动作意图,如下式(6)所示:
式(6)中,CH、GH分别表示人类肢体的阻尼矩阵和弹簧矩阵,为对角矩阵;xHd为人类伙伴中枢神经系统规划的轨迹,将其视为人类伙伴的动作意图;
采用递归径向基函数神经网络预测人类动作意图xHd;
式(8)中,p表示输出矩阵Y(t)的第p个元素;为递归径向基函数神经网络的第i个输入,fi为第i个输入中的交互力,xi为第i个输入中的实际位置x,为第i个输入中的实际速度;ε是预测误差;是理想权重wj的预测值;θj(ri)是输入为ri时的第j个隐含层的输出;
步骤三:采用DDPG算法优化,由基于动作意图预测的自适应阻抗控制器生成任务轨迹;
DDPG网络采用了Actor-Critic形式,将基于动作意图预测的自适应阻抗控制器中的递归径向基函数神经网络作为DDPG算法的行动者网络;DDPG算法的训练基于离策略时序差分学习技术,对于每一个时间步t,机器人智能体从当前环境状态st通过选择的行为at与环境交互,测量出新的状态st+1,并且计算出奖励值rt+1;将(st,at,rt+1,st+1)这四个元素存储在回放缓存D中,经采样后用于训练参数化行动者网络πθ和评估网络同时,在动作的决策机制中引入Ornstein-Uhlenbeck随机噪声使得agent可以更好地探索环境。;
行动者网络的学习目标函数L(θ)定义如下式(9)所示:
式(9)中,对于从缓存D采样的状态s,函数L(θ)使得自适应阻抗控制器的每一个动作πθ(s)的期望E最大化;行动者网络的学习目标取决于评估网络的Q值估算,评估网络能估算精确的Q值;
在本套流水线系统中,机械臂的动作取决于与人类伙伴的交互力f,采用如下式(10)定义的奖励函数:
r=fTΛff+ci (10)
式(10)中,f=[fx,fy,fz]T,fx、fy、fz是力传感器测得的相对于X轴、Y轴、Z轴的接触力;Λf是对角元素为λfx、λfy、λfz的3×3对角矩阵,对角元素λfx、λfy、λfz分别是与X轴、Y轴、Z轴的接触力关联的权重;常数ci应设为一个足够大的正值,使得对于负值的Λf,奖励r能保证是正的;
步骤四:将基于递归径向基函数神经网络搭建的具备意图推理能力的轨迹规划器作为DDPG算法的行动者网络,其输入为当前位置x、速度和力传感器测得的交互力f,由递归径向基函数神经网络预测人类伙伴的动作意图,输出由x、f作为阻抗控制器的输入控制机械臂运动;同时,机械臂当前的状态信息经DDPG算法反馈实现任务轨迹的优化;
步骤五:基于深度图生成不同待抓取物体的抓取位姿;
由SSD网络识别物体,SSD网络以VGG-16作为基础网络模型,将其后两层全连接层替换为卷积层;对每一层特征图采用3×3的卷积核计算每一个单元,其层数越深,感受野越大;
由于摄像机近景平面和远景平面之间的点的深度值被归一化到0~1范围内,造成高度不够的物体的深度值与背景较接近,难以区分;因此,选取工作台工作区域外一点,通过将该点在相机坐标系下的坐标转换成绝对坐标系下的坐标求出高度值,将所有点的高度值减去该值并将深度值转换到0~255之间;
将采集图像分为m×n个方形区域,对每个区域随机采用一个点并将落在物体上的点选为一个抓取中心点,从而使得抓取点能覆盖整个物体;采用Sobel边缘算子计算像素点[i,j]沿X轴方向的梯度及沿Y轴方向的梯度
式(11)中,fi,j表示像素点[i,j]的灰度值。
默认夹爪始终以竖直向下的方式抓取物体,则抓取动作取决于抓取点位置(x,y,z)及沿Z轴的转角θ,假设手爪接触面与物体边缘相切时为一个待定抓取姿态,则保留满足以下条件的边缘点:
Δθ<ε或|Δθ-180°|<ε (12)
式中(12)中,Δθ=|θn-θl|,θn为法线方向,取0~2π,θl为随机点和某边缘点连线的方向,取0~2π;
选取了几个待定抓取姿态,最后将待定抓取姿态进行融合;将所有抓取方向转换到0°~120°方向,将该区间n等分,计算每个区间的角度平均值,将平均值小于60°/n的两个区间进行融合形成最终的抓取姿态来指导机械臂进行物体抓取。
2.如权利要求1所述的一种基于深度强化学习的人机协作流水线系统,其特征在于,步骤一中,借助V-REP搭建数字化流水线系统训练算法,包括工作台、第一机器人、第二机器人、水平导轨、传送带、红外传感器、机械手爪及收纳箱,其中:
工作台台面正上方有Kinect相机提供彩色图与深度图,并且台面上设有工作区域;
第一机器人位于传送带首端,第一机器人末端初始位姿处于工作台台面工作区域正上方,等待抓取物体;第一机器人各关节都装配有精确的力传感器;
第二机器人位于传送带末端,第二机器人末端初始位姿处于传送带正上方,等待抓取物体;
水平导轨位于第二机器人下方,用于拓宽第二机器人的工作空间;
传送带用于传送物体,传送带上安装有红外传感器,用于检测物品在传送带上的位置;
机械手爪用于抓取物体;
收纳箱位于第二机器人左侧,用于存放物体。
3.如权利要求1所述的一种基于深度强化学习的人机协作流水线系统,其特征在于,步骤二中,递归径向基函数神经网络结构表示如下:
输入层:
R(t)=[r1(t),r2(t),...,ri(t),...,rn(t)] (13)
式(13)中,ri(t)为t时刻的第i个输入,i=1,2,...,n;R(t)表示输入矩阵。
隐含层输出:
式(14)中,uj(t)、cj和σj分别为第j个隐含层神经元的反馈权值、中心和宽度,j=1,2,...,m,m为隐含层总数;y(t-1)是反馈量,是t-1时刻RRBFNN的输出;θj(t)为第j个隐含层的输出。
输出层:
式(15)中,wj(t)是第j个隐含层节点与输出层节点间的连接权值,写为矩阵形式:
Y(t)=W(t)TΘ(t) (16)
式(11)中,Y(t)表示神经网络输出层矩阵;W(t)表示神经网络权重系数矩阵;Θ(t)表示神经网络隐藏层矩阵。
7.如权利要求1所述的一种基于深度强化学习的人机协作流水线系统,其特征在于,步骤五中,采用Canny算子提取图像边缘。首先通过高斯平滑处理,消除噪声干扰;随后采用非极大值抑制删去沿梯度方向梯度较小的像素点,减小边缘宽度;最后,由双阈值算法形成高阈值分割图像G1和低阈值分割图像G2,通过比对低阈值分割图像G2修改高阈值分割图像G1中边缘存在的间断,最终形成完整的图像边缘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110490382.0A CN113341706B (zh) | 2021-05-06 | 2021-05-06 | 基于深度强化学习的人机协作流水线系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110490382.0A CN113341706B (zh) | 2021-05-06 | 2021-05-06 | 基于深度强化学习的人机协作流水线系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113341706A true CN113341706A (zh) | 2021-09-03 |
CN113341706B CN113341706B (zh) | 2022-12-06 |
Family
ID=77469615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110490382.0A Active CN113341706B (zh) | 2021-05-06 | 2021-05-06 | 基于深度强化学习的人机协作流水线系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113341706B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114378820A (zh) * | 2022-01-18 | 2022-04-22 | 中山大学 | 一种基于安全强化学习的机器人阻抗学习方法 |
WO2023092720A1 (zh) * | 2021-11-29 | 2023-06-01 | 中国科学院深圳先进技术研究院 | 一种协作机器人控制系统及方法 |
CN116300966A (zh) * | 2023-05-05 | 2023-06-23 | 北京科技大学 | 一种人机协作搬运的协作机器人控制方法 |
CN117841751A (zh) * | 2024-03-08 | 2024-04-09 | 沧州智慧城科技有限公司 | 基于意图识别的充电枪系统及充电方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255813A (zh) * | 2018-09-06 | 2019-01-22 | 大连理工大学 | 一种面向人机协作的手持物体位姿实时检测方法 |
CN110211180A (zh) * | 2019-05-16 | 2019-09-06 | 西安理工大学 | 一种基于深度学习的机械臂自主抓取方法 |
CN110909644A (zh) * | 2019-11-14 | 2020-03-24 | 南京理工大学 | 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统 |
CN111079561A (zh) * | 2019-11-26 | 2020-04-28 | 华南理工大学 | 一种基于虚拟训练的机器人智能抓取方法 |
CN111515932A (zh) * | 2020-04-23 | 2020-08-11 | 东华大学 | 一种基于人工势场与强化学习的人机共融流水线实现方法 |
CN111618847A (zh) * | 2020-04-22 | 2020-09-04 | 南通大学 | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 |
CN112102405A (zh) * | 2020-08-26 | 2020-12-18 | 东南大学 | 基于深度强化学习的机器人搅动-抓取组合方法 |
CN112487569A (zh) * | 2020-11-13 | 2021-03-12 | 大连理工大学 | 一种移动作业机器人定时长可达工作空间的求解方法 |
-
2021
- 2021-05-06 CN CN202110490382.0A patent/CN113341706B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109255813A (zh) * | 2018-09-06 | 2019-01-22 | 大连理工大学 | 一种面向人机协作的手持物体位姿实时检测方法 |
CN110211180A (zh) * | 2019-05-16 | 2019-09-06 | 西安理工大学 | 一种基于深度学习的机械臂自主抓取方法 |
CN110909644A (zh) * | 2019-11-14 | 2020-03-24 | 南京理工大学 | 基于强化学习的机械臂末端执行器抓取姿态调整方法及系统 |
CN111079561A (zh) * | 2019-11-26 | 2020-04-28 | 华南理工大学 | 一种基于虚拟训练的机器人智能抓取方法 |
CN111618847A (zh) * | 2020-04-22 | 2020-09-04 | 南通大学 | 基于深度强化学习与动态运动基元的机械臂自主抓取方法 |
CN111515932A (zh) * | 2020-04-23 | 2020-08-11 | 东华大学 | 一种基于人工势场与强化学习的人机共融流水线实现方法 |
CN112102405A (zh) * | 2020-08-26 | 2020-12-18 | 东南大学 | 基于深度强化学习的机器人搅动-抓取组合方法 |
CN112487569A (zh) * | 2020-11-13 | 2021-03-12 | 大连理工大学 | 一种移动作业机器人定时长可达工作空间的求解方法 |
Non-Patent Citations (5)
Title |
---|
LIU HUASHAN 等: "A Class of Fuzzy Output Feedback Tracking Controllers for Robot Manipulators with Bounded Torque Inputs", 《PROCEEDINGS OF THE 2011 30TH CHINESE CONTROL CONFERENCE 》 * |
LIU HUA-SHAN 等: "Trajectory tracking control for flexible-joint robot manipulators with bounded torque inputs", 《CONTROL THEORY & APPLICATIONS》 * |
谌北高: "采用深度神经网络预测模型的未知物体机器人最优抓取规划研究", 《CNKI》 * |
郑杰诚: "面向人机协作抓取任务的机械臂刚度控制方法研究", 《CNKI》 * |
陈荣川: "机器人流水线自动装卸平台虚拟实验设计与强化学习初探", 《CNKI》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023092720A1 (zh) * | 2021-11-29 | 2023-06-01 | 中国科学院深圳先进技术研究院 | 一种协作机器人控制系统及方法 |
CN114378820A (zh) * | 2022-01-18 | 2022-04-22 | 中山大学 | 一种基于安全强化学习的机器人阻抗学习方法 |
CN116300966A (zh) * | 2023-05-05 | 2023-06-23 | 北京科技大学 | 一种人机协作搬运的协作机器人控制方法 |
CN116300966B (zh) * | 2023-05-05 | 2023-08-15 | 北京科技大学 | 一种人机协作搬运的协作机器人控制方法 |
CN117841751A (zh) * | 2024-03-08 | 2024-04-09 | 沧州智慧城科技有限公司 | 基于意图识别的充电枪系统及充电方法 |
CN117841751B (zh) * | 2024-03-08 | 2024-05-17 | 沧州智慧城科技有限公司 | 基于意图识别的充电枪系统及充电方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113341706B (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113341706B (zh) | 基于深度强化学习的人机协作流水线系统 | |
Li et al. | Asymmetric bimanual control of dual-arm exoskeletons for human-cooperative manipulations | |
CN106625666B (zh) | 冗余机械臂的控制方法及装置 | |
Ding et al. | Sim-to-real transfer for optical tactile sensing | |
Wu et al. | On-line motion prediction and adaptive control in human-robot handover tasks | |
Skoglund et al. | Programming-by-Demonstration of reaching motions—A next-state-planner approach | |
Oyama et al. | Inverse kinematics learning for robotic arms with fewer degrees of freedom by modular neural network systems | |
Sidiropoulos et al. | A human inspired handover policy using gaussian mixture models and haptic cues | |
Li et al. | Intelligent control strategy for robotic arm by using adaptive inertia weight and acceleration coefficients particle swarm optimization | |
Zeller et al. | Motion planning of a pneumatic robot using a neural network | |
Hsieh et al. | Deep convolutional generative adversarial network for inverse kinematics of self-assembly robotic arm based on the depth sensor | |
Huang | An adaptive impedance control scheme for constrained robots | |
Kratzer et al. | Towards combining motion optimization and data driven dynamical models for human motion prediction | |
Vinayavekhin et al. | Human-like hand reaching by motion prediction using long short-term memory | |
He et al. | A distributed optimal control framework for multi-robot cooperative manipulation in dynamic environments | |
Yan et al. | Hierarchical policy learning with demonstration learning for robotic multiple peg-in-hole assembly tasks | |
Zhang et al. | Trajectory-tracking control of robotic systems via deep reinforcement learning | |
Gorce et al. | A method to learn hand grasping posture from noisy sensing information | |
Casalino et al. | Adaptive swept volumes generation for human-robot coexistence using Gaussian Processes | |
Gorce et al. | Grasping posture learning with noisy sensing information for a large scale of multifingered robotic systems | |
Kratzer et al. | Motion prediction with recurrent neural network dynamical models and trajectory optimization | |
Mohandes et al. | Robot to Human Object Handover Using Vision and Joint Torque Sensor Modalities | |
Subasri et al. | Model Identification of 3R Palnar Robot using Neural Network and Adaptive Neuro-Fuzzy Inference System | |
Tang et al. | Robot-to-human handover with obstacle avoidance via continuous time recurrent neural network | |
Jiang et al. | Deep learning based human-robot co-manipulation for a mobile manipulator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |