CN109870992B

CN109870992B - 一种不考虑延时等待的csps系统控制方法

Info

Publication number: CN109870992B
Application number: CN201910235244.0A
Authority: CN
Inventors: 唐昊; 全力; 戴飞; 周雷
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2021-09-07
Anticipated expiration: 2039-03-26
Also published as: CN109870992A

Abstract

本发明公开了一种不考虑延时等待的CSPS系统控制方法。该方法采用不考虑延时等待时间的工作模式，使CSPS系统的生产率，生产效率大幅度的提升，而生产周期时间也相应地缩短。

Description

一种不考虑延时等待的CSPS系统控制方法

技术领域

本发明涉及控制工程技术领域，尤其涉及一种不考虑延时等待的CSPS系统控制方法。

背景技术

传送带给料加工站(Conveyor-Serviced Production Station,CSPS)是一种起源于福特生产线的生产模型，被广泛应用在现实生产制造中的柔性生产加工站。CSPS系统通过匀速运动的传送带将待加工工件送至加工站点，并对其进行加工加工。然而实际生产中由于各种不确定的因素会对整个生产系统的生产率产生影响，因此对CSPS系统优化控制研究，具有重要的现实意义。

CSPS系统的研究在国内外学者的共同努力下有了很大的发展。日本著名学者松井正之教授建立了CSPS系统的物理模型，将CSPS系统模型抽象为一个look-ahead控制问题，并建立了半Markov决策过程，给出了相关理论计算方程式。文献中将柔性装配系统(FAS)看作一个整体，应用改进的遗传算法对系统进行求解最优Look-ahead控制策略。

而针对现有CSPS系统，现有的研究主要是针对固定点拾取工件的工作模式。《可移动拾取式CSPS系统的优化控制研究》(吴攀飞，合肥工业大学,2016)则将可移动拾取式CSPS系统建立为SMDP模型，并推导了相关的理论公式。为了使其可以建立为SMDP模型，设置了延时等待时间来满足系统的无后效性，。但是，在实际的生产过程中，延时等待势必会造成生产周期的延长，生产效率的降低。过多的延时等待也会造成生产的成本增加，不利于企业的生产制造。

基于上述原因，本发明提出了不考虑延时等待的CSPS系统。由于不能建立为SMDP模型，本发明使用与模型无关的基于模拟退火思想的Q-学习算法，以寻找最优或者次优解。

发明内容

本发明要解决的技术问题是提供一种不考虑延时等待的CSPS系统控制方法。

对于要解决的技术问题，本发明采用的技术方案是，一种不考虑延时等待的CSPS系统控制方法，包括可移动拾取式CSPS系统；

可移动拾取式CSPS系统包括机械臂(1)、传送带(2)、工业相机(3)、容量为M的缓冲库(4)、容量为N的成品库(5)和工件(6)；

缓冲库(4)和成品库(5)位于机械臂(1)两侧；以机械臂(1)基座坐标系作为系统空间坐标系，其中传送带(2)、缓冲库(4)和成品库(5)位于同一平面z＝0上；从传送带(2)上游到达的工件(6)，由固定在上方的工业相机(3)检测到其到达时间和位置信息，并传送给机械臂(1)；

工件(6)包括未加工的工件和已加工过的工件；未加工的工件存放在缓冲库(4)中，且已加工过的工件存放在成品库(5)中；

具体包括以下步骤：

可移动拾取式CSPS系统以下简称为系统；

步骤1.定义机械臂(1)的决策位置为

其中p∈{0,1}，

表示缓冲库(4)坐标，

表示成品库(5)坐标；

定义缓冲库(4)空余量m为缓冲库(4)的状态，状态空间为Φ₁＝{0,1,…,M}；

定义S_m,p为系统的联合状态，其状态空间为Φ＝Φ₁×Φ₂；

定义

为状态S_m,p下的控制策略，v为系统的行动。其中

为从前视点P^lookahead向前的一段用时间表示的前视距离；

所述工件(6)沿所述传送带(2)随机到达，根据系统当前的联合状态S_m,p选择一个前视距离，若前视距离内有工件，则机械臂(1)计算与工件(6)遭遇点并卸载到缓冲库(4)中，若前视距离内无工件，则所述机械臂(1)从缓冲库(4)中取出工件进行加工，加工完成后取出并放入成品库(5)中；

步骤2.初始化状态S_m,p，根据前视距离内是否有工件判断执行何种操作；

(1)若前视距离

内有工件，则执行卸载操作：

所述卸载操作分为拾取移动、等待拾取和放置移动三个过程；定义拾取移动时间为

放置移动时间为

等待时间为

从初始位置

出发，卸载操作的时间为

下一个决策时刻为

下一状态为X_n+1＝S_m-1,0；

(2)若前视距离

内没有工件，则执行加工操作：

当进行所述加工操作时，定义从初始位置

出发移动到缓冲库的时间为t^p0，其中加工时间服从固定随机分布，其时间为

则加工操作的时间为

下一个决策时刻为

则下一个状态为X_n+1＝S_m+1,1；

步骤3.初始化Q表，学习步数z和F，令Z＝0,n＝0，Boltzmann常数k，温度T以及温度衰减因子ξ；

步骤4.在离散参数Δ的作用下，将紧致集D离散化为一个离散的紧致行动集D'，然后获得一个样本转移

步骤5.在状态X_n下根据Q表从D'中选择贪婪行动d^*和随机行动d^γ，如果

取d＝d^γ，否则d＝d^*；

步骤6.执行行动d，获得样本数据

步骤7.计算代价和更新Q表；

(1)定义折扣算子

上式中，α为折扣因子，如果α＝0，则表示平均准则；

平均和折扣准则下的统一差分公式为

上式中，

是在折扣因子α下的状态—行动对的值，

表示从T_n到T_n+1的累计折扣代价；

(2)当进行卸载操作时，会产生空载移动拾取代价、拾取等待代价和带载放置代价，因此从T_n到T_n-1转换的相应折扣代价为

(3)当进行加工操作时，会产生空载移动代价、加工代价和即时产品报酬，因此从T_n到T_n+1转换的相应折扣代价为

其中

η_n是平均代价η^v的估计，满足

S_f和

分别通过下式迭代

其中，

即从T_n到T_n-1累积的无折扣的代价，β_n是学习步长；因此

步骤8.令n:＝n+1，如果n<N转到步骤6；否则T:＝ξT,z:＝z+1；如果z:＝Z，算法结束；否则，令n＝0转步骤5。

本发明的有益效果是：

本发明提出的CSPS系统控制方法采用不考虑延时等待时间的工作模式，使CSPS系统的生产率，生产效率大幅度的提升，而生产周期时间也相应地缩短。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明不考虑延时等待的CSPS系统控制方法实施例的可移动拾取式CSPS系统结构示意图。

图中标记：1-机械臂，2-传送带，3-工业相机，4-缓冲库，5-成品库，6-工件。

图2是本发明不考虑延时等待的CSPS系统控制方法实施例的生产周期图。

图3是本发明不考虑延时等待的CSPS系统控制方法实施例的卸载过程代价。

图4是本发明不考虑延时等待的CSPS系统控制方法实施例的加工过程代价和报酬。

图5是本发明不考虑延时等待的CSPS系统控制方法实施例的不考虑延时等待工作模式的Q学习优化曲线。

图6是本发明不考虑延时等待的CSPS系统控制方法实施例的考虑延时等待工作模式的理论学习优化曲线。

具体实施方式

以下是一种不考虑延时等待工作模式的可移动拾取式CSPS系统。在该可移动拾取式CSPS系统中，机器人完成卸载或加工操作后，并不会为了无后效性延时等待，而是直接开始下一次决策。其工作过程为：在决策时刻，观测缓冲库和抓手的状态；若缓冲库为空，等待直到有一个工件到达，卸载该工件并放置于缓冲库；若缓冲库为满，则抓手移动到缓冲库处，取出一个工件进行加工，加工后的工件放置于成品库；若缓冲库非空非满，则根据缓冲库的剩余量和抓手的位置状态设定前视距离；判断前视距离内是否有工件，若有工件，计算捡取遭遇点，并执行卸载操作；若前视距离内没有工件，则抓手移动到缓冲库并执行加工操作；当卸载操作或加工操作结束后，系统不需要进行等待，直接进入下一个决策周期。

如图1所示的可移动拾取式CSPS系统(以下简称为系统)，由机械臂1、传送带2、工业相机3、容量为M的缓冲库4、容量为N的成品库5和工件6构成。

缓冲库4和成品库5位于机械臂的两侧。以机械臂1基座坐标系作为系统空间坐标系，其中传送带2、缓冲库4和成品库5位于同一平面z＝0上。从传送带2上游到达的工件6，由固定在上方的工业相机3检测到其到达时间和位置信息，并传送给机械臂1。机械臂可进行工件的卸载和加工操作，卸载过程首先根据机械臂移动速度V_robot、传送带速度V_con、机械臂抓手初始位置

计算工件的拾取遭遇点，然后机械臂从传送带上的拾取工件6并放置于缓冲库4。加工过程中，机械臂从缓冲库中取出工件进行加工并放置于成品库。如图1中的白色工件为未加工的工件，存放在缓冲库中，而灰色工件则为已加工过的工件，存放在成品库5中。

因此，仅需考虑机械臂1决策点为缓冲库4和成品库4两种情况；定义决策位置为

其中p∈{0,1}，

表示缓冲库4坐标，

表示成品库5坐标。

传送带2匀速运行的速度为V_con，机械臂移动速度为V_robot＝κV_con；定义W^pick为机械臂在传送带上的工作区间，以传送带中心线为基准，将工作区间表示为

其中

为右端点，

为左端点。其意义为：考虑机械臂1和传送带2的运动速度和方向，机械臂从初始点

或

出发，都能够准则跟踪拾取传送带2上该区间内运动的工件6，而该区间以外的工件将无法拾取；定义传送带2上的前视点坐标P^lookahead，则

P^camera为相机坐标，定义W^observe:P^camera→P^lookahead为机械臂1在传送带2上的观测区间；定义缓冲库空余量m为缓冲库4的状态，状态空间为Φ₁＝{0,1,…,M}；定义p为机械臂1的状态，这里只需要考虑决策位置在缓冲库4和成品库5的两种情况，其中p＝0表示机械臂1位于缓冲库4，p＝1表示机械臂1位于成品库5，因此机械臂1的状态空间为Φ₂＝{0,1}。

定义S_m,p为系统的联合状态，其状态空间为Φ＝Φ₁×Φ₂；若m＝M，即缓冲库4为空时，说明上次采取的是加工操作，机械臂1应该在成品库5处，即p＝1；同理若m＝0，即缓冲库4为满时，说明上次采取的是卸载操作，机械臂1应该在缓冲库4处，即p＝0，因此系统在平稳运行时，不存在S_M,0和S_0,1这两个状态。

定义

为状态S_m,p下的控制策略，v为系统的行动。

为从前视点P^lookahead向前的一段用时间表示的前视距离；定义系统的一个平稳策略为v^τ，其中NaN表示不存在此行动，即：

系统一个完整的生产周期包括卸载操作和加工操作，其运行的特殊状态如下：

缓冲库4为空时，则抓手位于成品库5处，即系统状态为S_M,1，这时机器人将会一直等待直到有一个工件6到达工作区间，机器人采取卸载操作，则

缓冲库4为满时，则抓手位于缓冲库4处，即系统状态为S_0,0，这时机器人直接从缓冲库4中取出一个工件6进行加工，这种情况下，不需要前视，则

其他状态的行动

在决策时刻T_n时令状态为X_n＝S_m,p，则前视距离(时间)为

定义目标工件6到达前视点P^lookahead的时间为工件到达时间S_n＝||p^first-P^lookahead||/V_con；在决策时刻T_n，若

系统采取卸载操作，否则，系统采取加工操作。

进行卸载操作时，首先选择前视距离内

离前视点P^lookahead最近一个工件6作为目标工件，此时观测到目标工件6的坐标为P^work，机械臂1从初始位置

出发，跟踪拾取工件6的遭遇点坐标定义为

定义

为工件到达时间的分界点，其意义为是否需要等待拾取或者直接跟踪拾取的分界点，若

则直接拾取工件6；若

则机器人抓手先移动到工作区间左端点

等待工件6到达再进行拾取工件，则

进行加工操作时，机器人抓手从缓冲库4取出工件6并对工件进行加工；初始位置同样只考虑为缓冲库4和成品库5两种情况；若p＝0，即初始位置为缓冲库4，则机器人直接从缓冲库中取出一个工件6进行加工，加工完成后将工件6放置于成品库5内；若p＝1，即初始位置为成品库5，则机器人先移动到缓冲库4取出工件6再进行加工。

由上可知，当系统进行卸载操作时，可将卸载操作分为拾取移动、等待拾取和放置移动三个过程。定义拾取移动时间为

放置移动时间为

等待时间为

当

时，直接捡取工件6，则遭遇点

和移动拾取时间

当

时，拾取移动时间为

等待拾取时间为

抓手拾取工件6后回到缓冲库4进行放置，放置移动时间为

则下一个决策时刻为

下一状态为X_n+1＝S_m-1,0；

当进行加工操作时，定义从初始位置

出发移动到缓冲库的时间为t^p0，则t⁰⁰＝0。t¹⁰为一个定值，根据缓冲库和成品库位置结合机器人移动速度，采取圆弧插补的运动方式计算获得；其中加工时间服从固定随机分布，其时间为

则加工操作的时间为

下一个决策时刻为

则下一个状态为X_n+1＝S_m+1,1。

其工作过程为：在决策时刻，观测缓冲库4和抓手的状态；若缓冲库4为空，等待直到有一个工件到达，卸载该工件并放置于缓冲库；若缓冲库为满，则抓手移动到缓冲库处，取出一个工件进行加工，加工后的工件放置于成品库5；若缓冲库4非空非满，则根据缓冲库的剩余量和抓手的位置状态设定前视距离；判断前视距离内是否有工件，若有工件，计算捡取遭遇点，并执行卸载操作；若前视距离内没有工件，则抓手移动到缓冲库并执行加工操作；当卸载操作或加工操作结束后，系统进入下一个决策周期；系统平稳运行时，一个完整的生产周期包括一次卸载操作和一次加工操作，系统一个典型的生产周期如图2所示。

可移动拾取式CSPS系统的工作过程具有工件随机到达、随机的加工时间等随机性，大大增加了系统的复杂性，且由于不考虑系统的延时等待时间，则不能将该系统建模为SMDP模型。所以，下面采用了与模型无关的强化学习算法以求得系统最优或次优的控制策略。

首先在离散参数Δ的作用下，将紧致集D离散化为一个离散的紧致行动集D'，然后获得一个样本转移

定义折扣算子

其中α为折扣因子，如果α＝0，则表示平均准则。

平均和折扣准则下的统一差分公式为

其中

是在折扣因子α下的状态—行动对的值，

表示从T_n到T_n+1的累计折扣代价。

A.卸载过程

如图3所示，当进行卸载操作时，会产生空载移动拾取代价、拾取等待代价和带载放置代价等，因此从T_n到T_n-1转换的相应折扣代价为

B.加工过程

如图4所示，当进行加工操作时，会产生空载移动代价、加工代价和即时产品报酬等，因此从T_n到T_n+1转换的相应折扣代价为

其中，

η_n是平均代价η^v的估计，满足

S_f和

分别通过下式迭代

其中，

即从T_n到T_n-1累积的无折扣的代价，β_n是学习步长。因此

其中

是学习步长，要比β_n更慢地衰减。

一般情况下的Q-学习算法采用ε-greedy算法去平衡算法中的探索和发现，然而合适的ε取值很重要也很困难，因此将模拟退火的思想引进到Q-学习算法中。模拟退火算法来自固体退火原理，下面给出Q学习算法的详细步骤：

步骤1.初始化Q表，学习步数Z和F，令Z＝0,n＝0，Boltzmann常数k，温度T以及温度衰减因子ξ；

步骤2.选择离散参数Δ，将紧致集D离散化为D'；设置初始状态X_n；

步骤3.在状态X_n下根据Q表从D'中选择贪婪行动d^*和随机行动d^γ，如果

取d＝d^γ，否则d＝d^*；

步骤4.执行行动d，

获得样本数据

步骤5.计算c_n和更新Q表；

步骤6.令n:＝n+1，如果n<N转到步骤4；否则T:＝ξT,z:＝z+1；如果z:＝Z，算法结束；否则，令n＝0转步骤3。

对于同样的可移动拾取式CSPS系统，本实施例所采用的不考虑延时等待工作模式的Q学习优化曲线如图5所示，而考虑延时等待工作模式的理论学习优化曲线如图6所示。

将本实施例的不考虑延时等待工作模式与考虑延时等待时间的工作模式进行比较，两种不同工作模式的系统性能如表1。

表1：不同工作模式的系统性能

从表1可以看出，采用本实施例的不考虑延时等待时间的工作模式使系统的生产率，生产效率大幅度的提升，而生产周期时间也相应地缩短。

本实施例所采用的CSPS系统控制方法用于可移动拾取式CSPS系统，在加工或卸载的过程中，不考虑延时等待的时间，通过基于模拟退火思想的Q-学习算法，对系统进行优化，以此达到提高系统的生产率和性能的目的。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.一种不考虑延时等待的CSPS系统控制方法，包括可移动拾取式CSPS系统；

所述可移动拾取式CSPS系统包括机械臂(1)、传送带(2)、工业相机(3)、容量为M的缓冲库(4)、容量为N的成品库(5)和工件(6)；

所述缓冲库(4)和成品库(5)位于机械臂(1)两侧；以机械臂(1)基座坐标系作为系统空间坐标系，其中传送带(2)、缓冲库(4)和成品库(5)位于同一平面z＝0上；从传送带(2)上游到达的工件(6)，由固定在上方的工业相机(3)检测到其到达时间和位置信息，并传送给机械臂(1)；

所述工件(6)包括未加工的工件和已加工过的工件；所述未加工的工件存放在缓冲库(4)中，所述已加工过的工件存放在成品库(5)中；

所述可移动拾取式CSPS系统以下简称为系统；

其特征在于，包括以下步骤：

步骤1.定义机械臂(1)的决策位置为

其中p∈{0，1}，

表示缓冲库(4)坐标，

表示成品库(5)坐标；

定义缓冲库(4)空余量m为缓冲库(4)的状态，状态空间为Φ₁＝{0，1，...，M}；

定义S_m，p为系统的联合状态，其状态空间为Φ＝Φ₁×Φ₂；

定义

为状态S_m，p下的控制策略，v为控制策略所对应的行动；

为从前视点p^lookahead向前的一段用时间表示的前视距离；

所述工件(6)沿所述传送带(2)随机到达，根据系统当前的联合状态S_m，p选择一个前视距离，若前视距离内有工件，则机械臂(1)计算与工件(6)遭遇点并卸载到缓冲库(4)中，若前视距离内无工件，则所述机械臂(1)从缓冲库(4)中取出工件进行加工，加工完成后取出并放入成品库(5)中；

步骤2.初始化状态S_m，p，根据前视距离

内是否有工件判断执行卸载操作或加工操作；

(1)若前视距离

内有工件，则执行卸载操作：

放置移动时间为

等待时间为

从初始位置

出发，卸载操作的时间为

下一个决策时刻为

下一状态为X_n+1＝S_m-1，0；

(2)若前视距离

内没有工件，则执行加工操作：

当进行所述加工操作时，定义从初始位置

则加工操作的时间为

下一个决策时刻为

则下一个状态为X_n+1＝S_m+1，1；

步骤3.初始化Q表，学习步数Z和F，令Z＝0，n＝0，Boltzmann常数k，温度T以及温度衰减因子ξ；

步骤4.在离散参数Δ的作用下，将紧致集D离散化为一个离散的紧致行动集D′，然后获得一个样本转移

步骤5.在状态X_n下根据Q表从D′中选择贪婪行动d^*和随机行动d^γ，如果

取d＝d^γ，否则d＝d^*；

步骤6.执行行动d，获得样本数据

步骤7.计算代价和更新Q表；

(1)定义折扣算子

上式中，α为折扣因子，如果α＝0，则表示平均准则；

平均和折扣准则下的统一差分公式为

上式中，

是在折扣因子α下的状态-行动对的值，

表示从T_n到T_n+1的累计折扣代价；

其中

η_n是平均代价η^v的估计，满足

S_f和

分别通过下式迭代

其中，

即从T_n到T_n-1累积的无折扣的代价，β_n是学习步长；因此

步骤8.令n：＝n+1，如果n＜N转到步骤6；否则T：＝ξT，z：＝z+1；如果z：＝Z，算法结束；否则，令n＝0转步骤5。