CN111223141A

CN111223141A - 基于强化学习的自动化流水线作业效率优化系统及方法

Info

Publication number: CN111223141A
Application number: CN201911412909.7A
Authority: CN
Inventors: 刘华山; 陈荣川; 江荣鑫; 程新; 蔡明军; 李祥健; 应丰糠; 夏玮; 梁健
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-02
Anticipated expiration: 2039-12-31
Also published as: CN111223141B

Abstract

本发明涉及一种基于强化学习的自动化流水线作业效率优化系统本发明的另一个技术方案是提供了一种基于强化学习的自动化流水线作业效率优化方法。本发明将强化学习用到了搬运流水线中，通过机器人与环境接触然后不断学习，缩短了整个流水线的搬运时间。基于强化学习搭建了OptLayer架构，通过V‑Rep平台对实物流水线进行一比一仿真，运用A3C算法进行强化学习，在仿真平台上获得训练集，极大地缩短了学习的时间，当机器人在仿真环境训练出最优的参数后，将仿真训练好的模型参数迁移到实物平台上进行自学习训练，由于此时机器人已经有了较好的策略，因此即使在对其动作输出作为安全约束的情况下机器人也能有较高的学习效率。

Description

基于强化学习的自动化流水线作业效率优化系统及方法

技术领域

本发明涉及流水线优化领域，具体是一种基于强化学习的自动化流水线作业效率优化系统及方法。

背景技术

工业机器人已经大批量进入生产制造现场，代替人类劳动，应用在流水线搬运等场景。并且由于其没有人类的疲劳，对重复的劳动不会缺失兴趣等问题，可以极大地提升流水线生产的效率。然而，搬运流水线上的机器人还处于没有自主学习能力的阶段，其动作要靠事先输入程序来完成，整个流水线的搬运系统也不具备学习能力，日复一日完成事先设定好的动作，对于生产效率的进一步提高起到了阻碍作用。

随着人工智能的发展，机器人已经从只能执行简单的重复性动作，逐渐演变成为了能够进行自主感知、学习和执行动作的多功能智能系统。其一般具有能够通过与环境的相互作用，不断学习知识，积累知识，使机器人能够具有适应环境变化的行为决策能力。

此外，大数据时代的出现，给统计强化学习提供了更多的机遇，将使得人工智能的作用更加突出，有了大量的训练集样本，就可以通过不断学习实现从量变到质变这一过程。

目前，大多数机器人运动都依赖于对自身与周边环境的精确建模，但是由于机器人本身的复杂性，无法建立出精确的模型。

发明内容

本发明的目的是：提供一种能够通过自我学习来达到最优控制策略的流水线系统及方法。

为了达到上述目的，本发明的技术方案是提供了一种基于强化学习的自动化流水线作业效率优化系统，其特征在于，包括：

用于传送工件的传送带，传送带上设有视觉采集区域和机器人工作区域，且视觉采集区域与机器人工作区域彼此无重叠；

机器人工作区域有两个用于搬运工件的机器人，分别定义为第一机器人及第二机器人，其中，第一机器人位于传送带始端，用于将工件搬运到传送带上；第二机器人位于传送带末端，用于抓取传送带上的工件并搬运到指定位置；

位于第一机器人与第二机器人之间的可旋转转台，可旋转转台用于存储工件；

在传送带上的第二机器人工作区域设有用于检测工件是否传输到位的光电开关；

视觉采集区域有第一视觉采集系统及第二视觉采集系统，其中：

第一视觉采集系统位于传送带始端，用于第一机器人准确抓取目标工件并平稳放至到传送带上，并获取工件的图像信息；

第二视觉采集系统位于光电开关正上方，用于获取工件的图像信息，便于第二机器人精准抓取；

上位机，用于获取第一视觉采集系统及第二视觉采集系统采集到的图像信息并进行分析处理，进而控制第一机器人及第二机器人运动。

优选地，所述第二机器人包括库卡KR6 R900机械臂及设于库卡KR6 R900机械臂底部的水平移动导轨，通过水平移动导轨增大库卡KR6 R900机械臂的工作空间范围，使第二机器人相当于一个七自由度的机器人。

优选地，还包括PLC控制系统，所述上位机连接PLC控制系统，所述PLC控制系统连接所述传送带的控制器和所述光电开关。

本发明的另一个技术方案是提供了一种基于强化学习的自动化流水线作业效率优化方法，其特征在于，包括以下步骤：

步骤1、基于Tensorflow和V-Rep实现上述的系统的流水线仿真平台的搭建，通过Tensorflow来搭建流水线的神经网络模型并基于V-Rep搭建的仿真环境对其进行强化训练；

流水线工作流程为：工件由第一机器人从转台的一面上取下，放置在传送带上，跟随传送带运动，与此同时，第一机器人回到转台抓取下一个工件；当工件通过光电开关后，由第二机器人夹取并放置在转台的另一面，放置完成后接着抓取下一个从传送带过来的工件，循环往复，直至将转台上的所有工件抓取完成放置到转台的另外一面；

强化训练时，训练环境中每个流水线仿真实验在约束条件下随机初始化第一机器人、第二机器人和传送带的状态，并按照预期结果运行；每个仿真实验结束的标志就是所有工件都由转台的一面经由流水线到达另一面；同时，记录下整个过程所需要的时间，其中，当第一机器人或第二机器人任意关节的状态不满足其关节的约束或超过流水线预设的时间，则视为本次仿真实验失败，并继续新的仿真实验，重复进行海量的仿真实验后，流水线仿真平台得出时间最优解，进一步得到最优的第一机器人及第二机器人运动参数；

步骤2、将步骤1得到的最优的第一机器人及第二机器人运动参数作为基准值运用到实际的机器人搬运流水线上进行训练，在一种强化学习架构上运用A3C算法来对整个流水线进行强化学习，最后基于梯形速度曲线在线规划第一机器人及第二机器人的轨迹，并使用一个自整定的自适应控制器控制第二机器人对工件的跟踪抓取运动。

优选地，步骤1中，所述第一机器人为IIWA机器人，所述第二机器人的机械臂为KR6R900机械臂，则在基于V-Rep搭建的仿真环境中对流水线的神经网络模型进行训练时，在训练环境中，第一机器人的机械臂及第二机器人的机械臂的运动存在关节角度、速度的约束，即各个关节的角度、速度都有一定的取值范围，设v_i为IIWA机器人的关节角速度，w_j为KR6R900机械臂的关节角速度，则有：

0<v_i≤v_max，0<w_j≤w_max，其中，v_max为IIWA机器人的关节角速度阈值，w_max为KR6 R900机械臂的关节角速度阈值

将传送带速度V_c设为恒定，从而达到时间效率最优；

将流水线的状态S定义为：所有工件的位置P_k、姿态O_k、IIWA机器人各个关节的位置P_i、速度V_i和KR6 R900机械臂各个关节的位置P_j、速度V_j和流水线的速度V_c，以及上一时刻的动作A_t-1所组成的矩阵，动作A_t即第一机器人及第二机器人各个关节的角速度所组成的矩阵。

优选地，步骤2中，所述强化学习的架构采用OptLayer，将不安全的智能体动作输出转化为满足设定约束条件的安全动作输出，使得强化学习算法可以直接应用到实际的流水线上。

优选地，步骤2中，所述A3C算法是一种免模型的强化学习方法，是一种既学习策略函数也学习价值函数的策略梯度方法，通过使用多个平行线程同时运行多个局部智能体与其对应的环境进行独立的交互，并且每个进程中根据局部智能体与环境进行交互而产生的样本计算得到的梯度对全局智能体的参数做出异步的更新，其中，更新是基于n步返回值进行的。

优选地，步骤2中，在所述A3C算法中，针对连续控制问题中采用高斯分布建立策略函数，并基于该策略函数概率分布的熵来增加智能体探索程度时采用加入标准差约束的方式来提升探索的效率。

优选地，步骤2中，所述第二机器人的所述自整定的自适应控制器采用卡尔曼滤波器。

本发明解决了现有的搬运流水线中的工业机器人只能执行预先设定好的简单而重复的动作这一问题，使整个系统具有学习能力，降低搬运时间，提高整个过程的效率。

综上所述，本发明将强化学习用到了搬运流水线中，通过机器人与环境接触然后不断学习，缩短了整个流水线的搬运时间。基于强化学习搭建了OptLayer架构，通过V-Rep平台对实物流水线进行一比一仿真，运用A3C算法进行强化学习，在仿真平台上获得训练集，极大地缩短了学习的时间，当机器人在仿真环境训练出最优的参数后，将仿真训练好的模型参数迁移到实物平台上进行自学习训练，由于此时机器人已经有了较好的策略，因此即使在对其动作输出作为安全约束的情况下机器人也能有较高的学习效率。并且还可以运用迁移学习使本发明适应于不同的环境。

附图说明

图1为本实例通过V-Rep搭建的与实物一比一大小的流水线仿真模型；

图2为本实例采用的强化学习A3C算法流程图；

图3为本实例运用强化学习的工作流程图；

图4为本实例整个搬运流水线的工作流程图。

具体实施方式

下面结合附图，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

如图1所示，本发明提供的一种基于强化学习的流水线搬运系统包括：

用于传送工件3的传送带2。传送带2上设有视觉采集区域和机器人工作区域，且视觉采集区域于机器人工作区域彼此无重叠。

两个用于搬运物体的机器人，分别为第一机器人1及第二机器人7。第一机器人1固定于传送带2始端，用于将工件3搬运到传送带2上。第二机器人7固定于传送带2末端，用于抓取传送带2上的工件3并搬运到指定位置。

本实施例中，第二机器人7为库卡KR6 R900机械臂，为了增大其工作空间范围，在其底部增加了水平移动导轨6。故第二机器人7也相当于一个七自由度的机器人。

设于两机器人之间，用于存储工件3的可旋转转台4。

设于传送带2上的第二机器人7工作区域，用于检测工件3是否到位的光电开关5。

固定于传送带2始端，用于第一机器人1准确抓取目标工件3并平稳放至到传送带2上，并获取工件3的图像信息的第一视觉采集系统。

固定于光电开关5正上方，用于获取工件3的图像信息，便于第二机器人7精准抓取的第二视觉采集系统。

用于获取第一、第二视觉采集系统的图像信息并进行分析处理，进而控制机器人运动的上位机。上位机连接PLC控制系统，PLC控制系统连接传送带2的控制器和光电开关5。

基于上述系统，本发明提出了一种基于强化学习的流水线作业效率优化方法，包括以下步骤：

第一步，基于Tensorflow和V-Rep实现流水线仿真平台的搭建。通过Tensorflow来搭建流水线的神经网络模型并基于V-Rep搭建的仿真环境对其进行训练。

该流水线仿真平台由第一机器人1和第二机器人7、传送带2、旋转转台4和工件3等组成。流水线工作流程为：工件3由第一机器人1从转台4的一面上取下，放置在传送带2上，跟随传送带2运动。与此同时，第一机器人1回到转台4抓取下一个工件3。当工件3通过光电开关5后，由第二机器人7夹取并放置在旋转转台4的另一面。放置完成后第二机器人7接着抓取下一个从传送带2过来的工件3。循环往复，直至将转台4上的所有工件3抓取完成放置到另外一面。

在V-Rep上搭建的流水线模型与实际流水线一比一还原。

在强化学习方法训练过程中，以IIWA机器人作为第一机器人1，KR6 R900机械臂作为第二机器人7为具体例子来进一步说明本发明。

在训练环境中，两个机械臂的运动存在关节角度、速度的约束，即各个关节的角度、速度都有一定的取值范围，即0<v_i≤v_max，0<w_j≤w_max，v_max为IIWA机器人的关节角速度阈值，w_max为KR6 R900机械臂的关节角速度阈值。

其中v_i为IIWA机器人的关节角速度，

0<v₁≤98°/s，

0<v₂≤98°/s，

0<v₃≤100°/s，

0<v₄≤130°/s，

0<v₅≤140°/s，

0<v₆≤180°/s，

0<v₇≤180°/s，

上式中，s表示秒。

其中w_j为KR6 R900机器人的关节角速度，

0<w₁≤360°/s，

0<w₂≤300°/s，

0<w₃≤360°/s，

0<w₄≤381°/s，

0<w₅≤388°/s，

0<w₆≤615°/s。

传送带2的运行速度，除了受电机转速、阻转矩等的影响外，还需要与两个机械臂运送工件3的时机配合，以消除机械臂等待时间。但为了符合实际，我们将传送带速度设为恒定，即V_c＝200mm/s。从而达到时间效率最优。

流水线的状态S定义为：六个工件的位置P_k、姿态O_k、IIWA机械臂各个关节的位置P_i、速度V_i和kR6机械臂各个关节的位置P_j、速度V_j和流水线的速度V_c，以及上一时刻的动作A_t-1所组成的矩阵。动作A_t即机械臂各个关节的角速度所组成的矩阵。

搭建基于VRep机器人仿真软件搭建的仿真平台运用Tensorflow进行强化学习训练。训练环境中每个流水线仿真实验都会在约束条件下随机初始化机械臂和传送带的状态，并按照预期结果运行。每个仿真实验结束的标志就是6个工件都由转台的一面经由流水线到达另一面。同时，记录下整个过程所需要的时间。其中，当机械臂任意关节的状态不满足其关节的约束或超过流水线预设的时间，则视为本次仿真实验失败，并继续新的仿真实验。

重复进行海量的仿真实验后，最终仿真实验平台将得出时间最优解，进一步得到最优的机器人运动参数。将该最优解的流水线仿真参数运用到实际的流水线中。

第二步，将第一步得到的机器人最优参数作为基准值运用到实际的机器人搬运流水线上进行训练。在一种强化学习架构上运用A3C算法来对整个流水线进行强化学习，最后基于梯形速度曲线在线规划机器人的轨迹，并使用一个自整定的自适应控制器控制第二机器人7对工件的跟踪抓取运动。

上述强化学习架构采用OptLayer，其能够将不安全的智能体动作输出转化为满足设定约束条件的安全动作输出，使得强化学习算法可以直接应用到实际的流水线上。

上述A3C算法是一种免模型的强化学习方法。它是一种既学习策略函数也学习价值函数的策略梯度方法，可以通过使用多个平行线程同时运行多个局部智能体与其对应的环境进行独立的交互，并且每个进程中根据局部智能体与环境进行交互而产生的样本计算得到的梯度对全局智能体的参数做出异步的更新，其中更新是基于n步返回值进行的。在算法中，针对连续控制问题中采用高斯分布建立策略函数，并基于该策略函数概率分布的熵来增加智能体探索程度时，因为标准差无限制变大会导致很多无效探索的情况，我们采用加入标准差约束的方式来提升探索的效率。

第二机器人7的自整定的自适应控制器采用卡尔曼滤波器。该自适应卡尔曼滤波器的公式可表示如下：

其中S_k＝[P_k V_k]^T为状态变量，O_k＝[P_k]^T为观测向量，P_k，V_k分别为移动物体在k时刻的位置和速度，

表示物体实际的状态，

表示估计物体状态，φ为状态转移矩阵，E为单位矩阵，t为采样时间，H＝[E 0]为观测矩阵，Q表示过程噪声协方差阵，G表示卡尔曼增益矩阵，R表示观测噪声协方差阵。

实验结果表明卡尔曼滤波器可以对存在延迟和噪声的流水线工件的状态做出了很好的预测。

因为两个机器人执行的动作流程是相反的，现在以第一机器人为例，对强化学习方法的具体步骤进行进一步说明。

步骤1：采集第一机器人1与传送带进行交互的历史经验，并将其储存在经验回放存储器中，所述历史经验为四元组信息(S,A,R,S’)，S为第一机器人1当前状态，A为第一机器人1的执行动作，R为对应动作A的回报值，S’为第一机器人1执行动作A后的下一个状态。所述历史经验的获取过程为：第一机器人1根据当前的状态S，从所有可执行的路径里面选择任意一个动作A，电脑对机器人的动作A进行评估，如果执行动作A后不能正确将工件3放置到传送带2上，则给予惩罚值；如果第一机器人1执行动作A后工件3能够平稳放置在传送带2上，则给予奖励值。第一视觉采集系统的摄像机采集第一机器人1执行动作A后的环境图像，得到状态S’。紧接着把状态S’作为四元组信息(S,A,R,S’)中的S，执行一条去转台4上抓取工件3并将其平稳放置到传送带2上的动作A，如此往复，直至抓完转台4上的工件3。

步骤2：持续采集待规划的第一机器人1与传送带2进行交互的经验，重复海量的仿真实验，记录第一机器人1每一个四元组的时间t_i，并存储在经验回放存储器中，得到训练样本集D。

步骤3：在训练样本集D中随机采样四元组信息(S,A,R,S’)，应用随机梯度下降的方法进行迭代更新，当完成迭代的步数后，得到训练完成的深度循环神经网络。

步骤4：深度循环神经网络训练完成后，选取不同的四元组信息进行前后相接，得到机器人的路径规划信息。由于每个四元组机器人运动的速度和路径都不同，每个四元组机器人花费的时间也就不同。

同理，第二机器人7每一个四元组的时间为t_j，传送带2运送一个工件3的时间为t_c。两个机器人与传送带配合完成一次完整的工件搬运流程的总时间T，

n为转台上的工件数目。

对每个机器人选取不同的四元组信息进行组合，留下所有能够完成完整搬运的组合，记录每个完整搬运组合的时间T_k,时间最短T_k即为整个流水线在给定约束条件下的最短执行时间。

根据计算机的处理能力，本领域技术人员还可以在步骤1之前对原始解析结果图进行灰度处理和降采样，然后输入到强化学习架构中。

Claims

1.一种基于强化学习的自动化流水线作业效率优化系统，其特征在于，包括：

用于传送工件的传送带(2)，传送带(2)上设有视觉采集区域和机器人工作区域，且视觉采集区域与机器人工作区域彼此无重叠；

机器人工作区域有两个用于搬运工件(3)的机器人，分别定义为第一机器人(1)及第二机器人(7)，其中，第一机器人(1)位于传送带(2)始端，用于将工件(3)搬运到传送带(2)上；第二机器人(7)位于传送带(2)末端，用于抓取传送带(2)上的工件(3)并搬运到指定位置；

位于第一机器人(1)与第二机器人(7)之间的可旋转转台(4)，可旋转转台(4)用于存储工件(3)；

在传送带上的第二机器人(7)工作区域设有用于检测工件(3)是否传输到位的光电开关(5)；

第一视觉采集系统位于传送带(2)始端，用于第一机器人(1)准确抓取目标工件(3)并平稳放至到传送带(2)上，并获取工件(3)的图像信息；

第二视觉采集系统位于光电开关(5)正上方，用于获取工件(3)的图像信息，便于第二机器人(7)精准抓取；

上位机，用于获取第一视觉采集系统及第二视觉采集系统采集到的图像信息并进行分析处理，进而控制第一机器人(1)及第二机器人(7)运动。

2.如权利要求1所述的一种基于强化学习的自动化流水线作业效率优化系统，其特征在于，所述第二机器人(7)包括库卡KR6 R900机械臂及设于库卡KR6 R900机械臂底部的水平移动导轨(6)，通过水平移动导轨(6)增大库卡KR6 R900机械臂的工作空间范围，使第二机器人(7)相当于一个七自由度的机器人。

3.如权利要求1所述的一种基于强化学习的自动化流水线作业效率优化系统，其特征在于，还包括PLC控制系统，所述上位机连接PLC控制系统，所述PLC控制系统连接所述传送带(2)的控制器和所述光电开关(5)。

4.一种基于强化学习的自动化流水线作业效率优化方法，其特征在于，包括以下步骤：

步骤1、基于Tensorflow和V-Rep实现如权利要求1所述的系统的流水线仿真平台的搭建，通过Tensorflow来搭建流水线的神经网络模型并基于V-Rep搭建的仿真环境对其进行强化训练；

流水线工作流程为：工件(3)由第一机器人(1)从转台(4)的一面上取下，放置在传送带(2)上，跟随传送带(2)运动，与此同时，第一机器人(1)回到转台(4)抓取下一个工件(3)；当工件(3)通过光电开关(5)后，由第二机器人(7)夹取并放置在转台(4)的另一面，放置完成后接着抓取下一个从传送带(2)过来的工件(3)，循环往复，直至将转台(4)上的所有工件(3)抓取完成放置到转台(4)的另外一面；

强化训练时，训练环境中每个流水线仿真实验在约束条件下随机初始化第一机器人(1)、第二机器人(7)和传送带(2)的状态，并按照预期结果运行；每个仿真实验结束的标志就是所有工件(3)都由转台(4)的一面经由流水线到达另一面；同时，记录下整个过程所需要的时间，其中，当第一机器人(1)或第二机器人(7)任意关节的状态不满足其关节的约束或超过流水线预设的时间，则视为本次仿真实验失败，并继续新的仿真实验，重复进行海量的仿真实验后，流水线仿真平台得出时间最优解，进一步得到最优的第一机器人(1)及第二机器人(7)运动参数；

步骤2、将步骤1得到的最优的第一机器人(1)及第二机器人(7)运动参数作为基准值运用到实际的机器人搬运流水线上进行训练，在一种强化学习架构上运用A3C算法来对整个流水线进行强化学习，最后基于梯形速度曲线在线规划第一机器人(1)及第二机器人(7)的轨迹，并使用一个自整定的自适应控制器控制第二机器人(7)对工件(3)的跟踪抓取运动。

5.如权利要求4所述的一种基于强化学习的自动化流水线作业效率优化方法，其特征在于，步骤1中，所述第一机器人(1)为IIWA机器人，所述第二机器人(7)的机械臂为KR6R900机械臂，则在基于V-Rep搭建的仿真环境中对流水线的神经网络模型进行训练时，在训练环境中，第一机器人(1)的机械臂及第二机器人(7)的机械臂的运动存在关节角度、速度的约束，即各个关节的角度、速度都有一定的取值范围，设v_i为IIWA机器人的关节角速度，w_j为KR6 R900机械臂的关节角速度，则有：

将传送带(2)速度V_c设为恒定，从而达到时间效率最优；

将流水线的状态S定义为：所有工件(3)的位置P_k、姿态O_k、IIWA机器人各个关节的位置P_i、速度V_i和KR6 R900机械臂各个关节的位置P_j、速度V_j和流水线的速度V_c，以及上一时刻的动作A_t-1所组成的矩阵，动作A_t即第一机器人(1)及第二机器人(7)各个关节的角速度所组成的矩阵。

6.如权利要求4所述的一种基于强化学习的自动化流水线作业效率优化方法，其特征在于，步骤2中，所述强化学习的架构采用OptLayer，将不安全的智能体动作输出转化为满足设定约束条件的安全动作输出，使得强化学习算法可以直接应用到实际的流水线上。

7.如权利要求4所述的一种基于强化学习的自动化流水线作业效率优化方法，其特征在于，步骤2中，所述A3C算法是一种免模型的强化学习方法，是一种既学习策略函数也学习价值函数的策略梯度方法，通过使用多个平行线程同时运行多个局部智能体与其对应的环境进行独立的交互，并且每个进程中根据局部智能体与环境进行交互而产生的样本计算得到的梯度对全局智能体的参数做出异步的更新，其中，更新是基于n步返回值进行的。

8.如权利要求4所述的一种基于强化学习的自动化流水线作业效率优化方法，其特征在于，步骤2中，在所述A3C算法中，针对连续控制问题中采用高斯分布建立策略函数，并基于该策略函数概率分布的熵来增加智能体探索程度时采用加入标准差约束的方式来提升探索的效率。

9.如权利要求4所述的一种基于强化学习的自动化流水线作业效率优化方法，其特征在于，步骤2中，所述第二机器人(7)的所述自整定的自适应控制器采用卡尔曼滤波器。