CN102629108B

CN102629108B - 带柔性站点多工序传送带给料加工站系统优化控制方法

Info

Publication number: CN102629108B
Application number: CN 201210115280
Authority: CN
Inventors: 唐昊; 刘冰; 周雷; 苗刚中
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2012-04-19
Filing date: 2012-04-19
Publication date: 2013-09-18
Anticipated expiration: 2032-04-19
Also published as: CN102629108A

Abstract

本发明公开了一种基于柔性站点的多工序传送带给料加工站系统的优化控制方法，其特征是：根据柔性站点切换工作模式的特征，结合分层控制思想，构建了切换控制和前视协同控制的分层决策体系；首先，对于柔性站点的切换控制，运用性能势理论，构建一种适用于平均和折扣统一性能准则的智能学习算法进行策略优化，解决工序间协调问题；其次，对于前视控制，运用多智能体学习算法，解决工序内协同问题。本发明通过引入分层控制思想，构建两层控制体系，有效提高了系统加工处理率，改善工序间的平衡性，提高系统的工件完成率。

Description

带柔性站点多工序传送带给料加工站系统优化控制方法

技术领域

本发明涉及自动化控制领域，尤其是带有柔性站点的多工序传送带给料加工站的分层优化控制方法。

背景技术

在制造企业的实际生产中，存在一类由生产加工站作为加工主体的生产线，加工站由传送带输送工件进行加工，这样的一类系统称为传送带给料加工站（Conveyor-servicedproductionstation,CSPS）。由于专业化、规模化的需求，生产线往往有多道工序，一道工序由多个CSPS加工站点组成，称为多工序CSPS系统。多工序CSPS系统中，拥有两种CSPS加工站点，分别是一般站点和柔性站点。一般站点配备一个本道工序缓冲库，用于存放从传送带上卸载下来的待加工工件。另外，一般站点配有一个一般站点传感器，可感知或测定传送带上一定距离内是否有工件以及工件的位置信息。这里前视距离为控制变量，且每个站点的工作过程是：当前决策时刻，若前视距离内有传送带上有待加工工件，则等待待加工工件到达并下载至本道工序缓冲库，然后转入下一决策时刻；否则，直接从本道工序缓冲库中取出一个待加工工件进行加工，加工完毕后放回传送带，供下一道工序加工，接着转入下一决策时刻。在加工工件过程中，一般站点无法下载传送带上到达的待加工工件。在相邻的上游工序和下游工序之间设置有柔性站点，控制所述柔性站点能够在上游工序与下游工序之间进行切换。在多工序CSPS系统中，一个待加工工件流入生产线，经过所有工序加工成为成品，没有完成所有工序加工的工件都视为系统的工件流失。多工序CSPS系统的优化目标是：柔性站点选择最优工序完成切换控制，使柔性站点按切换控制策略投入上游工序或者下游工序，一般站点和柔性站点按前视控制策略选择最优前视距离，使系统通过分层优化控制运行在工件流失率最小或加工率最大的状态下。因此，工序间上下游负载平衡和工序内各站点之间的高效协作成为该类系统需要解决的重要问题之一。随着实际系统逐渐增加的复杂度，其控制存在以下问题：

1、若将所有站点看作一个整体(包括所有一般站点和柔性站点)，即一个人智能体进行集中控制，将所有站点的所有状态联合组成系统状态，每个站点的行动联合组成系统行动（一般站点的前视距离，柔性站点的工序选择和前视距离），必然会造成系统状态空间、行动集过大，导致“维数灾”和“建模难”问题，求解复杂度关于加工站点个数、工序数将呈指数增长。

2、多工序CSPS系统中，各工序的工件到达率分布不同，各道工序的站点数量也影响相邻下游工序的工件到达率，导致了工序间不协调。

3、站点之间的通信能力或感知能力有限，一般只能观测或感知到邻近环境的信息。根据多工序CSPS系统的特点，一般站点只能考虑邻近站点的局域信息交互，柔性站点只能考虑上下游工序相邻站点的信息，这样更符合实际情况。

发明内容

本发明的目的是提供一种基于柔性站点多工序传送带给料加工站系统的优化控制方法，以期改善工序间的平衡性，提高系统的工件完成率。

为达到上述目的，本发明采用的技术方案为：

本发明带柔性站点多工序传送带给料加工站系统优化控制方法，所述带柔性站点多工序传送带给料加工站系统包括有传送带，沿所述传送带两侧设置有多道工序，每道工序拥有各自的一般站点，在相邻的上游工序和下游工序之间设置有柔性站点，控制所述柔性站点能够在上游工序与下游工序之间进行切换；在所述一般站点中配置有本道工序缓冲库，并配置用于检测传送带上游工件位置信息的一般站点传感器；在所述柔性站点中分别配置有相邻上游工序缓冲库和相邻下游工序缓冲库，并配置用于检测传送带上游工件位置信息的柔性站点传感器；其特点是：

所述系统按如下方式进行分层优化控制，使系统通过分层优化控制运行在工件流失率最小或加工率最大的状态下，所述分层优化控制包括按切换控制策略进行的切换控制和按前视控制策略进行的前视控制，其中：

切换控制：定义系统初始时刻为T₀；上一决策时刻为T_n；当前决策时刻为T_n+1；与所述柔性站点相邻的上游工序中一般站点的本道工序缓冲库的空余量为s₁；与所述柔性站点相邻的下游工序中一般站点的本道工序缓冲库的空余量为s₂；柔性站点中相邻上游工序缓冲库和相邻下游工序缓冲库的空余量分别为s₃和s₄，柔性站点上一决策时刻T_n加工工序为I，若在上一决策时刻T_n柔性站点投入上游工序，则I=0，若在上一决策时刻T_n柔性站点投入下游工序，则I=1；以向量s表征切换控制状态，s=<s₁,s₂,s₃,s₄,I>；以柔性站点对于上游工序或下游工序的选取作为行动a；优化目标为柔性站点选择最优工序完成切换控制，使柔性站点按切换控制策略投入上游工序或者下游工序；在完成所述切换控制之后进入如下前视控制过程：

前视控制：以一般站点中本道工序缓冲库的空余量、柔性站点中相邻上游工序缓冲库的空余量，以及柔性站点中相邻下游工序缓冲库的空余量为自身状态；一般站点和柔性站点的前视距离为前视控制行动；优化目标为使系统按前视控制策略选择一般站点和柔性站点的最优前视距离。

本发明带柔性站点多工序传送带给料加工站系统优化控制方法的特点也在于所述分层优化控制按如下步骤进行：

步骤1、以一般站点或柔性站点从传送带上下载一个待加工工件、或加工完成一个待加工工件的时刻为所述站点的决策时刻，每个决策时刻只有一个站点进行决策，正在决策的站点为决策站点，其它站点为非决策站点，对于非决策站点不进行操作，对于决策站点通过所述分层优化控制算法选择决策时刻的行动；

步骤2、当决策站点为一般站点，若一般站点的本道工序缓冲库为空，则所述一般站点一直等待，直到传送带上的待加工工件到达时进行下载操作；若一般站点本道工序缓冲库为满，则所述一般站点无需进行前视控制，直接从本道工序缓冲库中取出一个待加工工件进行加工；若所述一般站点的本道工序缓冲库不为空且不为满，则对于所述一般站点通过前视控制确定前视距离，如果在前视距离内有待加工工件到达，则等待待加工工件到达时从传送带上下载至本道工序缓冲库，如果在前视距离内有没有待加工工件到达，则从本道工序缓冲库中取出一个待加工工件进行加工；

当决策站点为柔性站点，所述柔性站点首先根据切换控制策略进行切换控制，通过切换控制选择投入上游工序或投入下游工序，在所述柔性站点投入相应的工序之后，视所述柔性站点为一般站点按步骤2进行一次前视控制；随后按步骤3对所述柔性站点的切换控制策略进行强化学习；

步骤3、对于柔性站点的切换控制策略进行强化学习：首先观测相邻的上游工序中一般站点的本道工序缓冲库剩余量s₁、相邻下游工序的一般站点的本道工序缓冲库剩余量s₂、柔性站点中相邻上游工序缓冲库和相邻下游工序缓冲库的空余量s₃和s₄，并将s₁、s₂、s₃和s₄与柔性站点上一决策时刻T_n加工工序I组成切换控制状态s，按式(1)或式(2)计算柔性站点的切换控制代价f：

若柔性站点进行了工序切换，则切换控制代价f=C₁*D*T_α(τ)+C₂ (1)

若柔性站点没有进行工序切换，则切换控制代价f=C₁*D*T_α(τ) (2)

式(1)和式(2)中：

D为与柔性站点相邻的上游工序和下游工序之间待加工工件库存量的差异，

若I=0，则D=s₁+s₃-s₂-s₄；若I=1，则D=s₂+s₄-s₁-s₃；

C₁为单位时间工序间缓冲库差异代价，C₂为工序切换代价；

τ为柔性站点执行前视控制的持续时间，α>0为常数折扣因子，T表示一个算子，且对于任意正常数σ>0，有

T_{α} (τ) = {&Integral;}_{0}^{τ} e^{- σt} dt = (1 - e^{- στ}) / σ;

步骤4、根据步骤3中所述切换控制代价函数f，定义即时差分公式如式(3)：

d = T_{α} (τ) \cdot [f (s, a (s), s^{'}) - \overset{&OverBar;}{η}] + e^{- ατ} \min_{a^{'} &Element; A} Q (s^{'}, a^{'}) - Q (s, a (s)) - - - (3)

式(3)中，Q(s,a(s))为切换控制的状态-行动对值函数，s'为系统在状态s采用行动a(s)后运行到的下一状态；A为前视控制的行动集合，a'为A中的任一元素；

为柔性站点的平均准则代价的估计值；所述估计值

等于从初始时刻T₀到当前决策时刻T_n+1系统运行累积切换控制代价总和与系统总运行时间的商，利用式(2)对切换控制的状态-行动对值函数Q(s,a(s))进行更新：

Q(s,a(s)):=Q(s,a(s))+φ(s,a(s))·d (4)

式(4)中，φ为学习步长；

步骤5、采用适用于多站点CSPS系统前视控制优化算法对一般站点和柔性站点的前视控制策略进行优化；

步骤6、判断是否满足强化学习算法停止条件，若式(3)中d的值大于等于算法停止阈值σ，则循环执行步骤2到步骤5；若式(3)中d的值小于算法停止阈值σ，则结束强化学习，完成分层优化控制算法，得出最优切换控制策略，系统按最优切换控制策略运行。

本发明控制柔性站点能够在切换控制下在上游工序与下游工序之间进行切换，一般站点和柔性站点在前视控制下选择前视距离；对于切换控制，运用性能势理论，构建适用于平均和折扣两种性能准则的强化学习算法进行切换控制策略优化，解决工序间的平衡问题；对于前视控制，运用Wolf-PHC多Agent学习算法进行前视控制策略优化，解决工序内多站点间的协作问题。通过对切换控制与前视控制进行分层优化控制，使系统运行在工件流失率最小或加工率最大的状态下。

与已有技术相比，本发明的有益效果体现在：

1、本发明采用分层优化控制的方法，对多工序CSPS系统的加工率问题，采用分治法，分别对切换控制与前视控制进行优化，有效改善了工序间的平衡性和工序内的协作性，提高系统的工件完成率。

2、本发明采用分布式的优化控制方法，每个站点只对自身行为进行学习，与已有的把所有站点视为一个整体的方法相比，本发明所述算法收敛速度更快，降低了状态和行动的维数，解决了“维数灾”和“建模难”的问题。

3、针对站点之间的通信能力或感知能力有限的问题，本发明采用的优化控制方法中，一般站点仅利用邻近站点的局域信息交互，柔性站点仅利用上下游工序相邻站点的信息。因此，与已有需要利用全局信息进行优化控制的优化方法相比，本发明所述优化控制方法实现起来更为简单。

4、本发明在多工序传送带给料生产加工站系统中加入柔性站点，与已有的多工序传送带给料生产加工站系统相比，控制手段更加灵活。

附图说明

图1为本发明带有柔性站点的多工序传送带给料加工站系统示意图；

图2为本发明方法流程图；

图中标号：1传送带；2上游工序；3下游工序；4一般站点；5柔性站点；6待加工工件；7本道工序缓冲库；8相邻上游工序缓冲库；9相邻下游工序缓冲库。

具体实施方式

参见图1、图2，实施例中带柔性站点多工序传送带给料加工站系统包括有传送带1，沿传送带1两侧设置有多道工序，每道工序拥有各自的一般站点4，在相邻的上游工序2和下游工序3之间设置有柔性站点5，控制柔性站5点能够在上游工序2与下游工序3之间进行切换；在一般站点4中配置有本道工序缓冲库7，并配置用于检测传送带上游工件位置信息的一般站点传感器；在柔性站点5中分别配置有相邻上游工序缓冲库8和相邻下游工序缓冲库9，并配置用于检测传送带上游工件位置信息的柔性站点传感器；

一般站点的工作任务可由机器人或机器手臂承担；柔性站点的工作任务可由多功能机器人或可在线更换机器手掌的机器手臂承担。

系统按如下方式进行分层优化控制，使系统通过分层优化控制运行在工件流失率最小或加工率最大的状态下，分层优化控制包括按切换控制策略进行的切换控制和按前视控制策略进行的前视控制，其中：

切换控制：定义系统初始时刻为T₀；上一决策时刻为T_n；当前决策时刻为T_n+1；与柔性站点相邻的上游工序中一般站点的本道工序缓冲库的空余量为s₁；与柔性站点相邻的下游工序中一般站点的本道工序缓冲库的空余量为s₂；柔性站点中相邻上游工序缓冲库和相邻下游工序缓冲库的空余量分别为s₃和s₄，柔性站点上一决策时刻T_n加工工序为I，若在上一决策时刻T_n柔性站点投入上游工序，则I=0，若在上一决策时刻T_n柔性站点投入下游工序，则I=1；以向量s表征切换控制状态，s=<s₁,s₂,s₃,s₄,I>；以柔性站点对于上游工序或下游工序的选取作为行动a；优化目标为柔性站点选择最优工序完成切换控制，使柔性站点按切换控制策略投入上游工序或者下游工序；在完成切换控制之后进入如下前视控制过程：

本实施例中，带柔性站点多工序传送带给料加工站系统优化控制方法中分层优化控制按如下步骤进行：

步骤1、以一般站点或柔性站点从传送带上下载一个待加工工件、或加工完成一个待加工工件的时刻为站点的决策时刻，每个决策时刻只有一个站点进行决策，正在决策的站点为决策站点，其它站点为非决策站点，对于非决策站点不进行操作，对于决策站点通过分层优化控制算法选择决策时刻的行动；

步骤2、当决策站点为一般站点，若一般站点的本道工序缓冲库为空，则一般站点一直等待，直到传送带上的待加工工件到达时进行下载操作；若一般站点本道工序缓冲库为满，则一般站点无需进行前视控制，直接从本道工序缓冲库中取出一个待加工工件进行加工；若一般站点的本道工序缓冲库不为空且不为满，则对于一般站点通过前视控制确定前视距离，如果在前视距离内有待加工工件到达，则等待待加工工件到达时从传送带上下载至本道工序缓冲库，如果在前视距离内有没有待加工工件到达，则从本道工序缓冲库中取出一个待加工工件进行加工；

当决策站点为柔性站点，柔性站点首先根据切换控制策略进行切换控制，通过切换控制选择投入上游工序或投入下游工序，在柔性站点投入相应的工序之后，视柔性站点为一般站点按步骤2进行一次前视控制；随后按步骤3对柔性站点的切换控制策略进行强化学习；

式(1)和式(2)中：

若I=0，则D=s₁+s₃-s₂-s₄；若I=1，则D=s₂+s₄-s₁-s₃；

多工序CSPS系统中每道工序一般站点本道工序缓冲库的空余量间接反映了这道工序的负载情况：若本道工序缓冲库的空余量较小，说明本道工序负载较大，则反映本道工序相对较忙；若本道工序缓冲库的空余量较大，说明本道工序负载较小，则反映本道工序较闲。同时，柔性站点配备的相邻上游工序缓冲库和相邻下游工序缓冲库的空余量s₃和s₄也一定程度反映了上游工序或下游工序的负载情况。当D>0时，柔性站点选择的那道工序相对较闲，说明工序选择不合理；。当D<0时，柔性站点上一时刻选择的那道工序相对较忙，说明工序选择比较合理。柔性站点应该选择相对较忙的那道工序，因此D越大切换控制代价也越大。基于上述分析，引入反映系统工序间负载差异的单位时间工序间缓冲库差异代价C₁。

在柔性站点在进行工序切换时，柔性站点不进行加工工作，所以切换过于频繁，必将影响系统的加工率。基于上述分析，引入反映柔性站点工序切换产生开销的工序切换代价，即柔性站点每一次工序切换时所付出的工序切换代价C₂；

T_{α} (τ) = {&Integral;}_{0}^{τ} e^{- σt} dt = (1 - e^{- στ}) / σ;

步骤4、根据步骤3中切换控制代价函数f，定义即时差分公式如式(1)：

d = T_{α} (τ) \cdot [f (s, a (s), s^{'}) - \overset{&OverBar;}{η}] + e^{- ατ} \min_{a^{'} &Element; A} Q (s^{'}, a^{'}) - Q (s, a (s)) - - - (3)

为柔性站点的平均准则代价的估计值；估计值

等于从初始时刻T₀到当前决策时刻T_n+1系统运行累积切换控制代价总和与系统总运行时间的商，利用式(4)对切换控制的状态-行动对值函数Q(s,a(s))进行更新：

Q(s,a(s)):=Q(s,a(s))+φ(s,a(s))·d (4)

式(4)中，φ为学习步长；

本实施例中多站点CSPS系统前视控制优化算法是引用专利CN200910251703.0中所记载的技术方案，该算法根据反应扩散思想，通过WOLF-PHC算法，实现工序内多站点的协同控制，平衡工序内部各站点的负载，从而降低系统工件流失率或提高系统加工率。

这里以小型液晶显示器的模组组装生产流水线为例子进行应用介绍。小型液晶显示器的模组组装主要有四道工序，分别是粘贴遮光胶带、背光模组组装、反折柔性线路板以及贴胶带，各道工序间紧密衔接共同完成组装任务。本实施例中方法可以为小型液晶显示器的模组组装生产流水线提供解决方案。

在该生产线中，整个流程需要的原材料主要包括面板、遮光胶带、背光板、胶带和部分耗材等，遮光胶带、背光板、胶带和耗材随时满足供给，面板从传送带一端流入生产线，并且到达具有一定随机性（由实际生产需求所决定）。主要工作流程为：面板在传送带上随机流入，传送带旁边串行配置多个智能机械手臂（或加工主体为人，应用基于本专利的智能决策系统为人的加工操作提供指导），这些机械手臂若干个一组从事一道工序，并配置临时放置待加工面板的缓冲库，每两道工序间配备一种特殊的机械手臂作为柔性站点，既可以从事前一道工序的加工工作又可以从事后一道工序的加工，配置两个缓冲库，分别存放上游和下游工序的半成品待加工面板，根据相邻加工站点的缓冲库情况判断相对较忙的一道工序，并加入那道较忙的工序。每个加工站完成本道工序加工后，把加工完的面板再放回传送带，供下游工序加工。生产线末端配置一种装置（或安排一个检测人员），检测没有完成所有工序加工的面板。

Claims

1.带柔性站点多工序传送带给料加工站系统优化控制方法，所述带柔性站点多工序传送带给料加工站系统包括有传送带，沿所述传送带两侧设置有多道工序，每道工序拥有各自的一般站点，在相邻的上游工序和下游工序之间设置有柔性站点，控制所述柔性站点能够在上游工序与下游工序之间进行切换；在所述一般站点中配置有本道工序缓冲库，并配置用于检测传送带上游工件位置信息的一般站点传感器；在所述柔性站点中分别配置有相邻上游工序缓冲库和相邻下游工序缓冲库，并配置用于检测传送带上游工件位置信息的柔性站点传感器；其特征是：

2.根据权利要求1所述的带柔性站点多工序传送带给料加工站系统优化控制方法，其特征是所述分层优化控制按如下步骤进行：

式(1)和式(2)中：

若I=0，则D=s₁+s₃-s₂-s₄；若I=1，则D=s₂+s₄-s₁-s₃；

T_{α} (τ) = {&Integral;}_{0}^{τ} e^{- σt} dt = (1 - e^{- στ}) / σ;

d = T_{α} (τ) \cdot [f (s, a (s), s^{'}) - \overset{&OverBar;}{η}] + e^{- ατ} \min_{a^{'} &Element; A} Q (s^{'}, a^{'}) - Q (s, a (s)) - - - (3)

为柔性站点的平均准则代价的估计值；所述估计值等于从初始时刻T₀到当前决策时刻T_n+1系统运行累积切换控制代价总和与系统总运行时间的商，利用式(2)对切换控制的状态-行动对值函数Q(s,a(s))进行更新：

Q(s,a(s)):=Q(s,a(s))+φ(s,a(s))·d (4)

式(4)中，φ为学习步长；