CN109870992B - 一种不考虑延时等待的csps系统控制方法 - Google Patents

一种不考虑延时等待的csps系统控制方法 Download PDF

Info

Publication number
CN109870992B
CN109870992B CN201910235244.0A CN201910235244A CN109870992B CN 109870992 B CN109870992 B CN 109870992B CN 201910235244 A CN201910235244 A CN 201910235244A CN 109870992 B CN109870992 B CN 109870992B
Authority
CN
China
Prior art keywords
workpiece
buffer
time
state
csps
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910235244.0A
Other languages
English (en)
Other versions
CN109870992A (zh
Inventor
唐昊
全力
戴飞
周雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201910235244.0A priority Critical patent/CN109870992B/zh
Publication of CN109870992A publication Critical patent/CN109870992A/zh
Application granted granted Critical
Publication of CN109870992B publication Critical patent/CN109870992B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • General Factory Administration (AREA)

Abstract

本发明公开了一种不考虑延时等待的CSPS系统控制方法。该方法采用不考虑延时等待时间的工作模式,使CSPS系统的生产率,生产效率大幅度的提升,而生产周期时间也相应地缩短。

Description

一种不考虑延时等待的CSPS系统控制方法
技术领域
本发明涉及控制工程技术领域,尤其涉及一种不考虑延时等待的CSPS系统控制方法。
背景技术
传送带给料加工站(Conveyor-Serviced Production Station,CSPS)是一种起源于福特生产线的生产模型,被广泛应用在现实生产制造中的柔性生产加工站。CSPS系统通过匀速运动的传送带将待加工工件送至加工站点,并对其进行加工加工。然而实际生产中由于各种不确定的因素会对整个生产系统的生产率产生影响,因此对CSPS系统优化控制研究,具有重要的现实意义。
CSPS系统的研究在国内外学者的共同努力下有了很大的发展。日本著名学者松井正之教授建立了CSPS系统的物理模型,将CSPS系统模型抽象为一个look-ahead控制问题,并建立了半Markov决策过程,给出了相关理论计算方程式。文献中将柔性装配系统(FAS)看作一个整体,应用改进的遗传算法对系统进行求解最优Look-ahead控制策略。
而针对现有CSPS系统,现有的研究主要是针对固定点拾取工件的工作模式。《可移动拾取式CSPS系统的优化控制研究》(吴攀飞,合肥工业大学,2016)则将可移动拾取式CSPS系统建立为SMDP模型,并推导了相关的理论公式。为了使其可以建立为SMDP模型,设置了延时等待时间来满足系统的无后效性,。但是,在实际的生产过程中,延时等待势必会造成生产周期的延长,生产效率的降低。过多的延时等待也会造成生产的成本增加,不利于企业的生产制造。
基于上述原因,本发明提出了不考虑延时等待的CSPS系统。由于不能建立为SMDP模型,本发明使用与模型无关的基于模拟退火思想的Q-学习算法,以寻找最优或者次优解。
发明内容
本发明要解决的技术问题是提供一种不考虑延时等待的CSPS系统控制方法。
对于要解决的技术问题,本发明采用的技术方案是,一种不考虑延时等待的CSPS系统控制方法,包括可移动拾取式CSPS系统;
可移动拾取式CSPS系统包括机械臂(1)、传送带(2)、工业相机(3)、容量为M的缓冲库(4)、容量为N的成品库(5)和工件(6);
缓冲库(4)和成品库(5)位于机械臂(1)两侧;以机械臂(1)基座坐标系作为系统空间坐标系,其中传送带(2)、缓冲库(4)和成品库(5)位于同一平面z=0上;从传送带(2)上游到达的工件(6),由固定在上方的工业相机(3)检测到其到达时间和位置信息,并传送给机械臂(1);
工件(6)包括未加工的工件和已加工过的工件;未加工的工件存放在缓冲库(4)中,且已加工过的工件存放在成品库(5)中;
具体包括以下步骤:
可移动拾取式CSPS系统以下简称为系统;
步骤1.定义机械臂(1)的决策位置为
Figure GDA0003136496830000021
其中p∈{0,1},
Figure GDA0003136496830000022
表示缓冲库(4)坐标,
Figure GDA0003136496830000023
表示成品库(5)坐标;
定义缓冲库(4)空余量m为缓冲库(4)的状态,状态空间为Φ1={0,1,…,M};
定义Sm,p为系统的联合状态,其状态空间为Φ=Φ1×Φ2
定义
Figure GDA0003136496830000024
为状态Sm,p下的控制策略,v为系统的行动。其中
Figure GDA0003136496830000025
为从前视点Plookahead向前的一段用时间表示的前视距离;
所述工件(6)沿所述传送带(2)随机到达,根据系统当前的联合状态Sm,p选择一个前视距离,若前视距离内有工件,则机械臂(1)计算与工件(6)遭遇点并卸载到缓冲库(4)中,若前视距离内无工件,则所述机械臂(1)从缓冲库(4)中取出工件进行加工,加工完成后取出并放入成品库(5)中;
步骤2.初始化状态Sm,p,根据前视距离内是否有工件判断执行何种操作;
(1)若前视距离
Figure GDA0003136496830000031
内有工件,则执行卸载操作:
所述卸载操作分为拾取移动、等待拾取和放置移动三个过程;定义拾取移动时间为
Figure GDA0003136496830000032
放置移动时间为
Figure GDA0003136496830000033
等待时间为
Figure GDA0003136496830000034
从初始位置
Figure GDA0003136496830000035
出发,卸载操作的时间为
Figure GDA0003136496830000036
下一个决策时刻为
Figure GDA0003136496830000037
下一状态为Xn+1=Sm-1,0
(2)若前视距离
Figure GDA0003136496830000038
内没有工件,则执行加工操作:
当进行所述加工操作时,定义从初始位置
Figure GDA0003136496830000039
出发移动到缓冲库的时间为tp0,其中加工时间服从固定随机分布,其时间为
Figure GDA00031364968300000310
则加工操作的时间为
Figure GDA00031364968300000311
下一个决策时刻为
Figure GDA00031364968300000312
则下一个状态为Xn+1=Sm+1,1
步骤3.初始化Q表,学习步数z和F,令Z=0,n=0,Boltzmann常数k,温度T以及温度衰减因子ξ;
步骤4.在离散参数Δ的作用下,将紧致集D离散化为一个离散的紧致行动集D',然后获得一个样本转移
Figure GDA00031364968300000313
步骤5.在状态Xn下根据Q表从D'中选择贪婪行动d*和随机行动dγ,如果
Figure GDA00031364968300000314
取d=dγ,否则d=d*
步骤6.执行行动d,获得样本数据
Figure GDA00031364968300000315
步骤7.计算代价和更新Q表;
(1)定义折扣算子
Figure GDA0003136496830000041
上式中,α为折扣因子,如果α=0,则表示平均准则;
平均和折扣准则下的统一差分公式为
Figure GDA0003136496830000042
上式中,
Figure GDA0003136496830000043
是在折扣因子α下的状态—行动对的值,
Figure GDA0003136496830000044
表示从Tn到Tn+1的累计折扣代价;
(2)当进行卸载操作时,会产生空载移动拾取代价、拾取等待代价和带载放置代价,因此从Tn到Tn-1转换的相应折扣代价为
Figure GDA0003136496830000045
(3)当进行加工操作时,会产生空载移动代价、加工代价和即时产品报酬,因此从Tn到Tn+1转换的相应折扣代价为
Figure GDA0003136496830000046
其中
Figure GDA0003136496830000047
ηn是平均代价ηv的估计,满足
Figure GDA0003136496830000048
Sf
Figure GDA0003136496830000049
分别通过下式迭代
Figure GDA00031364968300000410
Figure GDA00031364968300000411
其中,
Figure GDA0003136496830000051
即从Tn到Tn-1累积的无折扣的代价,βn是学习步长;因此
Figure GDA0003136496830000052
步骤8.令n:=n+1,如果n<N转到步骤6;否则T:=ξT,z:=z+1;如果z:=Z,算法结束;否则,令n=0转步骤5。
本发明的有益效果是:
本发明提出的CSPS系统控制方法采用不考虑延时等待时间的工作模式,使CSPS系统的生产率,生产效率大幅度的提升,而生产周期时间也相应地缩短。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明不考虑延时等待的CSPS系统控制方法实施例的可移动拾取式CSPS系统结构示意图。
图中标记:1-机械臂,2-传送带,3-工业相机,4-缓冲库,5-成品库,6-工件。
图2是本发明不考虑延时等待的CSPS系统控制方法实施例的生产周期图。
图3是本发明不考虑延时等待的CSPS系统控制方法实施例的卸载过程代价。
图4是本发明不考虑延时等待的CSPS系统控制方法实施例的加工过程代价和报酬。
图5是本发明不考虑延时等待的CSPS系统控制方法实施例的不考虑延时等待工作模式的Q学习优化曲线。
图6是本发明不考虑延时等待的CSPS系统控制方法实施例的考虑延时等待工作模式的理论学习优化曲线。
具体实施方式
以下是一种不考虑延时等待工作模式的可移动拾取式CSPS系统。在该可移动拾取式CSPS系统中,机器人完成卸载或加工操作后,并不会为了无后效性延时等待,而是直接开始下一次决策。其工作过程为:在决策时刻,观测缓冲库和抓手的状态;若缓冲库为空,等待直到有一个工件到达,卸载该工件并放置于缓冲库;若缓冲库为满,则抓手移动到缓冲库处,取出一个工件进行加工,加工后的工件放置于成品库;若缓冲库非空非满,则根据缓冲库的剩余量和抓手的位置状态设定前视距离;判断前视距离内是否有工件,若有工件,计算捡取遭遇点,并执行卸载操作;若前视距离内没有工件,则抓手移动到缓冲库并执行加工操作;当卸载操作或加工操作结束后,系统不需要进行等待,直接进入下一个决策周期。
如图1所示的可移动拾取式CSPS系统(以下简称为系统),由机械臂1、传送带2、工业相机3、容量为M的缓冲库4、容量为N的成品库5和工件6构成。
缓冲库4和成品库5位于机械臂的两侧。以机械臂1基座坐标系作为系统空间坐标系,其中传送带2、缓冲库4和成品库5位于同一平面z=0上。从传送带2上游到达的工件6,由固定在上方的工业相机3检测到其到达时间和位置信息,并传送给机械臂1。机械臂可进行工件的卸载和加工操作,卸载过程首先根据机械臂移动速度Vrobot、传送带速度Vcon、机械臂抓手初始位置
Figure GDA0003136496830000061
计算工件的拾取遭遇点,然后机械臂从传送带上的拾取工件6并放置于缓冲库4。加工过程中,机械臂从缓冲库中取出工件进行加工并放置于成品库。如图1中的白色工件为未加工的工件,存放在缓冲库中,而灰色工件则为已加工过的工件,存放在成品库5中。
因此,仅需考虑机械臂1决策点为缓冲库4和成品库4两种情况;定义决策位置为
Figure GDA0003136496830000062
其中p∈{0,1},
Figure GDA0003136496830000063
表示缓冲库4坐标,
Figure GDA0003136496830000064
表示成品库5坐标。
传送带2匀速运行的速度为Vcon,机械臂移动速度为Vrobot=κVcon;定义Wpick为机械臂在传送带上的工作区间,以传送带中心线为基准,将工作区间表示为
Figure GDA0003136496830000071
其中
Figure GDA0003136496830000072
为右端点,
Figure GDA0003136496830000073
为左端点。其意义为:考虑机械臂1和传送带2的运动速度和方向,机械臂从初始点
Figure GDA0003136496830000074
Figure GDA0003136496830000075
出发,都能够准则跟踪拾取传送带2上该区间内运动的工件6,而该区间以外的工件将无法拾取;定义传送带2上的前视点坐标Plookahead,则
Figure GDA0003136496830000076
Pcamera为相机坐标,定义Wobserve:Pcamera→Plookahead为机械臂1在传送带2上的观测区间;定义缓冲库空余量m为缓冲库4的状态,状态空间为Φ1={0,1,…,M};定义p为机械臂1的状态,这里只需要考虑决策位置在缓冲库4和成品库5的两种情况,其中p=0表示机械臂1位于缓冲库4,p=1表示机械臂1位于成品库5,因此机械臂1的状态空间为Φ2={0,1}。
定义Sm,p为系统的联合状态,其状态空间为Φ=Φ1×Φ2;若m=M,即缓冲库4为空时,说明上次采取的是加工操作,机械臂1应该在成品库5处,即p=1;同理若m=0,即缓冲库4为满时,说明上次采取的是卸载操作,机械臂1应该在缓冲库4处,即p=0,因此系统在平稳运行时,不存在SM,0和S0,1这两个状态。
定义
Figure GDA0003136496830000077
为状态Sm,p下的控制策略,v为系统的行动。
Figure GDA0003136496830000078
为从前视点Plookahead向前的一段用时间表示的前视距离;定义系统的一个平稳策略为vτ,其中NaN表示不存在此行动,即:
Figure GDA0003136496830000079
系统一个完整的生产周期包括卸载操作和加工操作,其运行的特殊状态如下:
缓冲库4为空时,则抓手位于成品库5处,即系统状态为SM,1,这时机器人将会一直等待直到有一个工件6到达工作区间,机器人采取卸载操作,则
Figure GDA0003136496830000081
缓冲库4为满时,则抓手位于缓冲库4处,即系统状态为S0,0,这时机器人直接从缓冲库4中取出一个工件6进行加工,这种情况下,不需要前视,则
Figure GDA0003136496830000082
其他状态的行动
Figure GDA0003136496830000083
在决策时刻Tn时令状态为Xn=Sm,p,则前视距离(时间)为
Figure GDA0003136496830000084
定义目标工件6到达前视点Plookahead的时间为工件到达时间Sn=||pfirst-Plookahead||/Vcon;在决策时刻Tn,若
Figure GDA0003136496830000085
系统采取卸载操作,否则,系统采取加工操作。
进行卸载操作时,首先选择前视距离内
Figure GDA0003136496830000086
离前视点Plookahead最近一个工件6作为目标工件,此时观测到目标工件6的坐标为Pwork,机械臂1从初始位置
Figure GDA0003136496830000087
出发,跟踪拾取工件6的遭遇点坐标定义为
Figure GDA0003136496830000088
定义
Figure GDA0003136496830000089
为工件到达时间的分界点,其意义为是否需要等待拾取或者直接跟踪拾取的分界点,若
Figure GDA00031364968300000810
则直接拾取工件6;若
Figure GDA00031364968300000811
则机器人抓手先移动到工作区间左端点
Figure GDA00031364968300000812
等待工件6到达再进行拾取工件,则
Figure GDA00031364968300000813
进行加工操作时,机器人抓手从缓冲库4取出工件6并对工件进行加工;初始位置同样只考虑为缓冲库4和成品库5两种情况;若p=0,即初始位置为缓冲库4,则机器人直接从缓冲库中取出一个工件6进行加工,加工完成后将工件6放置于成品库5内;若p=1,即初始位置为成品库5,则机器人先移动到缓冲库4取出工件6再进行加工。
由上可知,当系统进行卸载操作时,可将卸载操作分为拾取移动、等待拾取和放置移动三个过程。定义拾取移动时间为
Figure GDA00031364968300000814
放置移动时间为
Figure GDA00031364968300000815
等待时间为
Figure GDA00031364968300000816
Figure GDA00031364968300000817
时,直接捡取工件6,则遭遇点
Figure GDA00031364968300000818
和移动拾取时间
Figure GDA0003136496830000091
Figure GDA0003136496830000092
时,拾取移动时间为
Figure GDA0003136496830000093
等待拾取时间为
Figure GDA0003136496830000094
抓手拾取工件6后回到缓冲库4进行放置,放置移动时间为
Figure GDA0003136496830000095
Figure GDA0003136496830000096
则下一个决策时刻为
Figure GDA0003136496830000097
下一状态为Xn+1=Sm-1,0
当进行加工操作时,定义从初始位置
Figure GDA0003136496830000098
出发移动到缓冲库的时间为tp0,则t00=0。t10为一个定值,根据缓冲库和成品库位置结合机器人移动速度,采取圆弧插补的运动方式计算获得;其中加工时间服从固定随机分布,其时间为
Figure GDA0003136496830000099
则加工操作的时间为
Figure GDA00031364968300000910
下一个决策时刻为
Figure GDA00031364968300000911
则下一个状态为Xn+1=Sm+1,1
其工作过程为:在决策时刻,观测缓冲库4和抓手的状态;若缓冲库4为空,等待直到有一个工件到达,卸载该工件并放置于缓冲库;若缓冲库为满,则抓手移动到缓冲库处,取出一个工件进行加工,加工后的工件放置于成品库5;若缓冲库4非空非满,则根据缓冲库的剩余量和抓手的位置状态设定前视距离;判断前视距离内是否有工件,若有工件,计算捡取遭遇点,并执行卸载操作;若前视距离内没有工件,则抓手移动到缓冲库并执行加工操作;当卸载操作或加工操作结束后,系统进入下一个决策周期;系统平稳运行时,一个完整的生产周期包括一次卸载操作和一次加工操作,系统一个典型的生产周期如图2所示。
可移动拾取式CSPS系统的工作过程具有工件随机到达、随机的加工时间等随机性,大大增加了系统的复杂性,且由于不考虑系统的延时等待时间,则不能将该系统建模为SMDP模型。所以,下面采用了与模型无关的强化学习算法以求得系统最优或次优的控制策略。
首先在离散参数Δ的作用下,将紧致集D离散化为一个离散的紧致行动集D',然后获得一个样本转移
Figure GDA0003136496830000101
定义折扣算子
Figure GDA0003136496830000102
其中α为折扣因子,如果α=0,则表示平均准则。
平均和折扣准则下的统一差分公式为
Figure GDA0003136496830000103
其中
Figure GDA0003136496830000104
是在折扣因子α下的状态—行动对的值,
Figure GDA0003136496830000105
表示从Tn到Tn+1的累计折扣代价。
A.卸载过程
如图3所示,当进行卸载操作时,会产生空载移动拾取代价、拾取等待代价和带载放置代价等,因此从Tn到Tn-1转换的相应折扣代价为
Figure GDA0003136496830000106
B.加工过程
如图4所示,当进行加工操作时,会产生空载移动代价、加工代价和即时产品报酬等,因此从Tn到Tn+1转换的相应折扣代价为
Figure GDA0003136496830000107
Figure GDA0003136496830000111
其中,
Figure GDA0003136496830000112
ηn是平均代价ηv的估计,满足
Figure GDA0003136496830000113
Sf
Figure GDA0003136496830000114
分别通过下式迭代
Figure GDA0003136496830000115
Figure GDA00031364968300001111
其中,
Figure GDA0003136496830000116
即从Tn到Tn-1累积的无折扣的代价,βn是学习步长。因此
Figure GDA0003136496830000117
其中
Figure GDA0003136496830000118
是学习步长,要比βn更慢地衰减。
一般情况下的Q-学习算法采用ε-greedy算法去平衡算法中的探索和发现,然而合适的ε取值很重要也很困难,因此将模拟退火的思想引进到Q-学习算法中。模拟退火算法来自固体退火原理,下面给出Q学习算法的详细步骤:
步骤1.初始化Q表,学习步数Z和F,令Z=0,n=0,Boltzmann常数k,温度T以及温度衰减因子ξ;
步骤2.选择离散参数Δ,将紧致集D离散化为D';设置初始状态Xn
步骤3.在状态Xn下根据Q表从D'中选择贪婪行动d*和随机行动dγ,如果
Figure GDA0003136496830000119
取d=dγ,否则d=d*
步骤4.执行行动d,
获得样本数据
Figure GDA00031364968300001110
步骤5.计算cn和更新Q表;
步骤6.令n:=n+1,如果n<N转到步骤4;否则T:=ξT,z:=z+1;如果z:=Z,算法结束;否则,令n=0转步骤3。
对于同样的可移动拾取式CSPS系统,本实施例所采用的不考虑延时等待工作模式的Q学习优化曲线如图5所示,而考虑延时等待工作模式的理论学习优化曲线如图6所示。
将本实施例的不考虑延时等待工作模式与考虑延时等待时间的工作模式进行比较,两种不同工作模式的系统性能如表1。
表1:不同工作模式的系统性能
Figure GDA0003136496830000121
从表1可以看出,采用本实施例的不考虑延时等待时间的工作模式使系统的生产率,生产效率大幅度的提升,而生产周期时间也相应地缩短。
本实施例所采用的CSPS系统控制方法用于可移动拾取式CSPS系统,在加工或卸载的过程中,不考虑延时等待的时间,通过基于模拟退火思想的Q-学习算法,对系统进行优化,以此达到提高系统的生产率和性能的目的。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (1)

1.一种不考虑延时等待的CSPS系统控制方法,包括可移动拾取式CSPS系统;
所述可移动拾取式CSPS系统包括机械臂(1)、传送带(2)、工业相机(3)、容量为M的缓冲库(4)、容量为N的成品库(5)和工件(6);
所述缓冲库(4)和成品库(5)位于机械臂(1)两侧;以机械臂(1)基座坐标系作为系统空间坐标系,其中传送带(2)、缓冲库(4)和成品库(5)位于同一平面z=0上;从传送带(2)上游到达的工件(6),由固定在上方的工业相机(3)检测到其到达时间和位置信息,并传送给机械臂(1);
所述工件(6)包括未加工的工件和已加工过的工件;所述未加工的工件存放在缓冲库(4)中,所述已加工过的工件存放在成品库(5)中;
所述可移动拾取式CSPS系统以下简称为系统;
其特征在于,包括以下步骤:
步骤1.定义机械臂(1)的决策位置为
Figure FDA0003136496820000011
其中p∈{0,1},
Figure FDA0003136496820000012
表示缓冲库(4)坐标,
Figure FDA0003136496820000013
表示成品库(5)坐标;
定义缓冲库(4)空余量m为缓冲库(4)的状态,状态空间为Φ1={0,1,...,M};
定义Sm,p为系统的联合状态,其状态空间为Φ=Φ1×Φ2
定义
Figure FDA0003136496820000014
为状态Sm,p下的控制策略,v为控制策略所对应的行动;
Figure FDA0003136496820000015
为从前视点plookahead向前的一段用时间表示的前视距离;
所述工件(6)沿所述传送带(2)随机到达,根据系统当前的联合状态Sm,p选择一个前视距离,若前视距离内有工件,则机械臂(1)计算与工件(6)遭遇点并卸载到缓冲库(4)中,若前视距离内无工件,则所述机械臂(1)从缓冲库(4)中取出工件进行加工,加工完成后取出并放入成品库(5)中;
步骤2.初始化状态Sm,p,根据前视距离
Figure FDA0003136496820000016
内是否有工件判断执行卸载操作或加工操作;
(1)若前视距离
Figure FDA0003136496820000017
内有工件,则执行卸载操作:
所述卸载操作分为拾取移动、等待拾取和放置移动三个过程;定义拾取移动时间为
Figure FDA0003136496820000021
放置移动时间为
Figure FDA0003136496820000022
等待时间为
Figure FDA0003136496820000023
从初始位置
Figure FDA0003136496820000024
出发,卸载操作的时间为
Figure FDA0003136496820000025
下一个决策时刻为
Figure FDA0003136496820000026
下一状态为Xn+1=Sm-1,0
(2)若前视距离
Figure FDA0003136496820000027
内没有工件,则执行加工操作:
当进行所述加工操作时,定义从初始位置
Figure FDA0003136496820000028
出发移动到缓冲库的时间为tp0,其中加工时间服从固定随机分布,其时间为
Figure FDA0003136496820000029
则加工操作的时间为
Figure FDA00031364968200000210
下一个决策时刻为
Figure FDA00031364968200000211
则下一个状态为Xn+1=Sm+1,1
步骤3.初始化Q表,学习步数Z和F,令Z=0,n=0,Boltzmann常数k,温度T以及温度衰减因子ξ;
步骤4.在离散参数Δ的作用下,将紧致集D离散化为一个离散的紧致行动集D′,然后获得一个样本转移
Figure FDA00031364968200000212
步骤5.在状态Xn下根据Q表从D′中选择贪婪行动d*和随机行动dγ,如果
Figure FDA00031364968200000213
取d=dγ,否则d=d*
步骤6.执行行动d,获得样本数据
Figure FDA00031364968200000214
步骤7.计算代价和更新Q表;
(1)定义折扣算子
Figure FDA00031364968200000215
上式中,α为折扣因子,如果α=0,则表示平均准则;
平均和折扣准则下的统一差分公式为
Figure FDA0003136496820000031
上式中,
Figure FDA0003136496820000032
是在折扣因子α下的状态-行动对的值,
Figure FDA0003136496820000033
表示从Tn到Tn+1的累计折扣代价;
(2)当进行卸载操作时,会产生空载移动拾取代价、拾取等待代价和带载放置代价,因此从Tn到Tn-1转换的相应折扣代价为
Figure FDA0003136496820000034
(3)当进行加工操作时,会产生空载移动代价、加工代价和即时产品报酬,因此从Tn到Tn+1转换的相应折扣代价为
Figure FDA0003136496820000035
其中
Figure FDA0003136496820000036
ηn是平均代价ηv的估计,满足
Figure FDA0003136496820000037
Sf
Figure FDA0003136496820000038
分别通过下式迭代
Figure FDA0003136496820000039
Figure FDA0003136496820000041
其中,
Figure FDA0003136496820000042
即从Tn到Tn-1累积的无折扣的代价,βn是学习步长;因此
Figure FDA0003136496820000043
步骤8.令n:=n+1,如果n<N转到步骤6;否则T:=ξT,z:=z+1;如果z:=Z,算法结束;否则,令n=0转步骤5。
CN201910235244.0A 2019-03-26 2019-03-26 一种不考虑延时等待的csps系统控制方法 Active CN109870992B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910235244.0A CN109870992B (zh) 2019-03-26 2019-03-26 一种不考虑延时等待的csps系统控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910235244.0A CN109870992B (zh) 2019-03-26 2019-03-26 一种不考虑延时等待的csps系统控制方法

Publications (2)

Publication Number Publication Date
CN109870992A CN109870992A (zh) 2019-06-11
CN109870992B true CN109870992B (zh) 2021-09-07

Family

ID=66921347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910235244.0A Active CN109870992B (zh) 2019-03-26 2019-03-26 一种不考虑延时等待的csps系统控制方法

Country Status (1)

Country Link
CN (1) CN109870992B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110919655B (zh) * 2019-12-03 2021-06-25 合肥工业大学 基于强化学习的外骨骼机器人动力辅助控制方法
CN111517112B (zh) * 2020-04-21 2021-09-24 合肥工业大学 一种改进的tp+lcm全贴合系统及控制方法
CN112809678B (zh) * 2021-01-15 2023-07-18 合肥工业大学 一种多机器人工作站生产线系统的协同控制方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1116172A2 (de) * 1998-09-23 2001-07-18 Siemens Aktiengesellschaft Verfahren und anordnung zur ermittlung einer folge von aktionen für ein system, welches zustände aufweist, wobei ein zustandsübergang zwischen zwei zuständen aufgrund einer aktion erfolgt
CN101788787B (zh) * 2009-12-31 2011-09-21 合肥工业大学 多站点传送带给料生产加工站系统的优化控制方法
CN102207928B (zh) * 2011-06-02 2013-04-24 河海大学常州校区 基于强化学习的多Agent污水处理决策支持系统
JP5842654B2 (ja) * 2012-02-14 2016-01-13 オムロン株式会社 システム制御装置およびシステム制御方法
CN105643625B (zh) * 2016-03-07 2017-08-25 合肥工业大学 一种基于机械臂的单站点给料生产加工系统的工作方法
CN107977738B (zh) * 2017-11-21 2021-04-06 合肥工业大学 一种用于传送带给料加工站系统的多目标优化控制方法

Also Published As

Publication number Publication date
CN109870992A (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN109870992B (zh) 一种不考虑延时等待的csps系统控制方法
CN105643625B (zh) 一种基于机械臂的单站点给料生产加工系统的工作方法
Kiatos et al. Robust object grasping in clutter via singulation
CN107977738B (zh) 一种用于传送带给料加工站系统的多目标优化控制方法
US10955828B2 (en) Method and a robot system for handling objects
US20220063099A1 (en) Framework of robotic online motion planning
CN111070206B (zh) 一种降低机器人运动能耗的工位布局方法
EP3624997B1 (en) Method and control system for controlling movement sequences of a robot
CN110919655B (zh) 基于强化学习的外骨骼机器人动力辅助控制方法
CN112222703B (zh) 一种焊接机器人能耗最优轨迹规划方法
CN113341706A (zh) 基于深度强化学习的人机协作流水线系统
CN112091829A (zh) 一种喷砂除锈并联机器人补偿摩擦力突变模糊自适应滑模控制方法
CN112809678B (zh) 一种多机器人工作站生产线系统的协同控制方法
CN109910015B (zh) 一种砂浆喷抹建筑机器人的末端路径规划算法
Huang et al. A novel robotic grasping method for moving objects based on multi-agent deep reinforcement learning
CN113988443B (zh) 一种基于深度强化学习的自动化码头协同调度方法
CN114820802A (zh) 高自由度灵巧手抓取规划方法、装置和计算机设备
CN115635482A (zh) 基于视觉的机器人到人物体传递方法、装置、介质及终端
JP2022066882A (ja) ピック・アンド・プレース計画策定方法およびピック・アンド・プレースシステム
CN113146615A (zh) 一种多机器人协同搬运控制方法及装置
Khalapyan et al. Intelligent computing based on neural network model in problems of kinematics and control of parallel robot
JP5089329B2 (ja) 部品実装方法、部品実装機およびプログラム
CN114084450B (zh) 外骨骼机器人生产优化与助力控制方法
JP7478777B2 (ja) ロボットシステム、ワーク管理システム、ロボット制御方法、およびワーク管理プログラム
Salah et al. Travel time analysis of Stewart-Gough platform in automated storage and retrieval system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant