CN116540658B

CN116540658B - 基于监督控制理论和强化学习的自动制造系统调度方法

Info

Publication number: CN116540658B
Application number: CN202310725981.5A
Authority: CN
Inventors: 王德光; 胡瑜洪; 杨明
Original assignee: Guizhou University
Current assignee: Guizhou University
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2024-04-12
Anticipated expiration: 2043-06-19
Also published as: CN116540658A

Abstract

本发明公开了基于监督控制理论和强化学习的自动制造系统调度方法，包括以下步骤：S1、根据自动制造系统调度问题，使用自动机建立系统制造单元数学模型Gi，安全性和活性控制规范模型Ej，生产任务模型Et；S2、基于S1的Gi，建立自动机模型G；结合S1的Ej和Et，求解出调度问题的目标模型T；利用Nadzoru软件求解出调度问题的监控器模型V＝SupC(G,T)；S3、根据S2的V，以最大化生成过程中机器的并行性为优化目标，构建调度问题的数学模型；S4、将S3中的V转换为确定性马尔可夫决策过程MDP，利用Q学习算法求解调度问题，实验并结果分析。本发明采用上述方法，得到自动制造系统在生产过程中机器并行运行最大化的最优调度方案，提高生产效率，降低生产成本。

Description

基于监督控制理论和强化学习的自动制造系统调度方法

技术领域

本发明涉及自动制造调度技术领域，尤其是涉及一种基于监督控制理论和强化学习的自动制造系统调度方法。

背景技术

自动制造系统(automated manufacturing systems，AMS)能够在非人工干预的情况下，将原材料加工成零件或将零件组装成产品，实现管理过程和工艺过程自动化，达到计算资源与物理资源紧密融合与协同。在AMS中，阻塞会导致系统停滞不前，从而降低生产效率和增加生产成本。AMS的调度直接关系到企业的经济效益，合适的调度策略能够确保AMS高效运行，实现企业利润最大化、能源与资源有效利用。为此，开展AMS监督控制和调度优化方法研究，有利于统一控制问题和优化问题，保证系统安全性、无阻塞性和提高生产效率，实现生产过程的智能优化控制。

AMS调度是一类复杂的NP-hard问题，已有的求解方法可以分为精确算法、启发式算法和智能优化算法三类。精确算法是通过枚举所有可能的解来找到最优解。但是，随着问题规模的增加，精确算法的计算时间呈指数级增长。启发式算法是通过一些启发式规则来搜索解空间，从而找到较优解。但是，启发式算法通常不能保证找到全局最优解，只能找到局部最优解。此外，启发式算法的性能高度依赖于问题本身的特性和启发式规则的选择。智能优化算法是基于生物学、物理学或社会学等自然现象或规律来设计的算法。其能够有效地处理高维非线性问题，并且在全局搜索方面具有优势。但是，与启发式算法相比，智能优化算法的计算复杂度更高，算法的参数设置也需要一定的经验和技巧。随着人工智能技术的发展，以强化学习为代表的机器学习算法广泛应用于车间调度问题求解，强化学习算法通过环境反馈训练智能体调整行为决策，增加了调度策略的实时性和可行性。AMS调度问题可以抽象为在等式或不等式约束构成的离散空间中寻找目标函数的最优解。基于值函数的强化学习算法在离散空间模型中表现出优越性能。此外，在确定环境中，随着训练次数增加，算法会逐渐收敛到最优值。同时，基于监督控制理论的AMS建模方式，能够避免系统阻塞和制造单元之间的碰撞，并且满足制造工序约束条件。

因此，针对自动制造系统调度监督控制和调度优化问题，有必要提出一种灵活高效的自动制造系统调度方法，实现自动制造系统安全、无阻塞和高效的运行。

发明内容

本发明的目的是提供一种基于监督控制理论和强化学习的自动制造系统调度方法，采用自动机建立自动制造系统的数学模型，以生产过程中机器并行运行最大化为优化目标，并建立其数学优化模型，使用强化学习算法求解最优调度方案，得到自动制造系统的最优调度方案，同时满足安全性和活性控制规范，有效降低制造系统生产成本。

为实现上述目的，本发明提供了一种基于监督控制理论和强化学习的自动制造系统调度方法，包括以下步骤：

S1、根据自动制造系统调度问题，使用自动机建立系统制造单元的数学模型G_i，安全性和活性控制规范模型E_j，生产批次为k个产品且深度为m的生产任务模型E_t，i＝1,...,N表示制造单元数量，j＝1,...,M表示控制规范的自动机模型个数；

S2、基于S1的制造单元模型G_i，建立自动制造系统的自动机模型G；结合S1的控制规范模型E_j，生产任务模型E_t，求解出自动制造系统调度问题的目标模型T；利用Nadzoru软件求解出自动制造系统调度问题的监控器模型V＝SupC(G,T)；

S3、根据S2监控器模型V，以机器运行并行最大化为优化目标，构建调度问题的数学模型f_p ^*；

S4、将S3中的监控器模型V转换为确定性马尔可夫决策过程MDP，利用Q学习算法求解自动制造系统调度问题f_p ^*，实验并进行结果分析。

优选的，所述S1中，使用自动机建立制造单元的数学模型G_i,安全性和活性控制规范模型E_j，生产批次为k个产品且深度为m的生产任务模型E_t分别为：

G_i＝(H_i,∑_i,δ_i,h_i0,H_im)，

E_j＝(H_j,∑_j,δ_j,h_j0,H_jm)，

E_t＝(H_t,∑_t,δ_t,h_t0,H_tm)，

其中，i＝1,...,N，j＝1,...,M；H_i表示有限状态集合；∑_i表示有限事件集合，划分为可控事件集合∑_ic和不可控事件集合∑_iuc，且可控事件一般是指控制器发出的指令，而不可控事件一般是指传感器的反馈信号或扰动信号(如发生故障)；

δ_i:H_i×∑_i→H_i表示状态转移函数；h_i0表示初始状态；H_im表示标记状态集合；

安全性和活性控制规范模型E_j和生产任务自动机模型E_t的含义与模型G_i中的含义相同，深度为m的生产任务自动机模型E_t如下所示：

优选的，所述S2中，通过生产任务自动机模型Et去除监控器中的环路，降低了问题的求解难度。

优选的，所述S3中，判断机器是否处于运行状态的机器运行函数满足

其中，表示使机器进入运行状态的事件集合，/>表示使机器进入空闲状态的事件集合，将/>扩展为/>对于空串和事件序列e_n＝σ₁σ₂…σ_n∈L(V)，满足

f_ac(ε)＝0

对于监控器中的一个状态h，它是从初始状态经过长度为n(n＝1,2,…)的事件序列e_n到达的，即h＝δ(h₀,e_n)，f_ac(e_n)表示在状态h时当前处于运行状态的机器数量。若事件序列e_n使得系统在整个运行过程中至少有两台机器同时处于运行状态,则称该事件序列为并行制造序列，而串行制造序列是指系统在整个运行过程中至多有一台机器处于运行状态。

判断不同事件序列在整个生产过程中的机器并行性的机器并行制造计数函数f_p，对于事件序列e_n＝σ₁σ₂···σ_n∈L(V)，满足

f_p通过累加系统在不同状态下处于运行的机器数量，描述整个生产过程中机器的并行性。f_p的值越大，机器的并行性越好。

从初始状态到标记状态的任意事件序列e∈L_m(V)都表示满足生产批次为k个产品的调度策略。因此，满足制造系统加工逻辑的调度策略集合为L_d＝{e∈L_m(V)||e|＝m}，故生产过程中机器运行并行最大化调度问题可以定义为：

优选的，所述S4中，监控器模型V转换为等效的确定性MDP，通过惩罚因子和机器运行函数构建奖励函数，从而求解自动制造系统调度问题的最优调度方案。

因此，本发明所述的基于监督控制理论和强化学习的自动制造系统调度方法的优点和积极效果是：根据自动制造系统调度问题建立对应的自动机模型，以最大化生产过程中机器并行性为优化目标，并建立其数学优化模型，然后将自动机模型转换为等效的确定性MDP，最后利用Q学习算法对该问题进行求解，找到自动制造系统调度的最优方案。该方法不仅能够快速找到自动制造调度的最优方案，同时满足安全性和活性控制规范，能有效降低自动制造系统调度成本，具有良好的应用前景。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明基于监督控制理论和强化学习的自动制造系统调度方法实施例的流程图；

图2为自动制造系统调度示意图；

图3为本发明基于监督控制理论和强化学习的自动制造系统调度方法实施例的自动机建立的制造单元数学模型；

图4为本发明基于监督控制理论和强化学习的自动制造系统调度方法实施例的自动机建立的控制规范数学模型；

图5为本发明基于监督控制理论和强化学习的自动制造系统调度方法实施例的算法迭代收敛过程；

图6为本发明基于监督控制理论和强化学习的自动制造系统调度方法实施例的最优调度方案实施过程中当前处于运行状态的机器数。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

如图1所示，基于监督控制理论和强化学习的自动制造系统调度方法，包括以下步骤：

S1、根据自动制造系统调度问题，使用自动机建立系统制造单元的数学模型G_i，安全性和活性控制规范模型E_j，生产批次为k个产品且深度为m的生产任务模型E_t，i＝1,...,N表示制造单元数量，j＝1,...,M表示控制规范的自动机模型个数。

使用自动机建立制造单元的数学模型G_i，安全性和活性控制规范模型E_j分别为：

G_i＝(H_i,∑_i,δ_i,h_i0,H_im)，

E_j＝(H_j,∑_j,δ_j,h_j0,H_jm)，

E_t＝(H_t,∑_t,δ_t,h_t0,H_tm)，

安全性和活性控制规范模型E_j和生产任务模型E_t的含义与模型G_i中的含义相同，深度为m的生产任务自动机模型E_t如下所示：

监控器模型V转换为等效的确定性MDP，通过惩罚因子和机器运行函数构建奖励函数，从而求解自动制造系统调度问题的最优调度方案。

实施例

如图2所示，组装产品自动制造系统示意图，它由8个制造单元和7个缓存区构成，通过对传送带C1、C2运输过来的原材料进行加工并组装成一个完整的产品。传送带C1运输的原材料进入缓存区B1后，由机器人R将其送入缓存区B3中，研磨机M从B3提取材料并进行加工，加工完成后将其送回B3中，再由机器人R将其运输到缓冲区B5中。传送带C2运输的原材料进入缓冲区B2后，由机器人R将其送入缓存区B4中，机床L从B4中提取材料并进行加工，加工完成后将其送回B4中，再由机器人R将其送入缓存区B6中，经传送带C3送入缓存区B7中，喷漆机器SP从B7中提取材料并进行喷漆，喷漆完成后将其送回B7中，再经传送带C3送入B6中，组装平台AT分别从B5和B6中提取加工完成的材料进行组装，控制规范为避免缓存区上溢或者下溢。

表1为自动制造系统调度问题中事件的可控性和含义说明。

表1事件的可控性和含义

基于监督控制理论和强化学习的自动制造系统调度方法，包括以下步骤：

S1、根据自动制造系统调度问题，使用自动机建立制造单元的数学模型G_i，安全性和活性控制规范模型E_j，生产任务自动机模型E_t，i＝1,...,N表示制造单元数量，j＝1,...,M表示控制规范的自动机模型个数。

分别建立自动制造系统8个制造单元的自动机模型G_i，i＝1,2,…,8，如图3(a)～(h)所示。假设每个缓冲区的容量为1，控制规范为避免缓冲区上溢或者下溢，对自动制造系统7个缓冲区分别建立控制规范自动机模型E_j，j＝1,2,…,7，如图4(a)～(g)所示；

S2、基于S1的制造单元数学模型G_i，建立自动制造系统调度问题的自动机模型G；结合S1的控制规范模型E_j，生产任务模型E_t，求解出自动制造系统调度问题的目标模型T；利用Nadzoru软件求解出自动制造系统调度问题的监控器模型V＝Supc(G,T)；

S2中建立的自动制造系统调度问题模型G和控制规范E、目标模型T如下：

为了将多个独立运行的模块自动机模型合成一个完整系统模型，可使用同步积操作“||”。如G₁||G₂＝Ac(H₁×H₂,Σ₁∪Σ₂,(h₁₀,h₂₀),δ,H_1m×H_2m)，令h₁∈H₁，h₂∈H₂，σ∈∑，

其中，Ac()表示删除系统中不可达的状态和相应变迁的操作。对多于两个自动机的同步积运算方法可以将上述方法进行扩展。因此自动制造系统的模型G＝G₁||G₂||…||G₈，控制规范E＝E₁||E₂||…||E₇||E_t，目标模型T＝G||E，通过Nadzoru软件可以求得监控器模型V＝Supc(G,T)；

S3、根据S2的监控器模型V，以机器运行并行最大化为优化目标，构建调度问题的数学模型f_p ^*；

判断机器是否处于运行状态的机器运行函数满足

其中，表示使机器进入运行状态的事件集合，/>表示使机器进入空闲状态的事件集合。将/>扩展为/>其中，N为自然数集合。对于空串和事件序列e_n＝σ₁σ₂…σ_n∈L(V)，满足

f_ac(ε)＝0

对于监控器中的一个状态h，它是从初始状态经过长度为n(n＝1,2,…)的事件序列e_n到达的，即h＝δ(h₀,e_n)，f_ac(e_n)表示在状态h时当前处于运行状态的机器数量。若事件序列e_n使得系统在运行过程中存在运行机器数量大于1的阶段时，称该事件序列为并行制造序列。反之，若事件序列使得系统在运行过程中的每个阶段至多只有一台机器处于运行状态，则称该事件序列为串行制造序列。

f_p通过累加系统在不同状态下处于运行的机器数量，描述整个生产过程中机器的并行性。

因为从初始状态到标记状态的任意事件序列e∈L_m(V)都表示满足生产批次为k个产品的调度策略。因此，满足制造系统加工逻辑的调度策略集合为L_d＝{e∈L_m(V)||e|＝m}，故生产过程中机器运行并行最大化调度问题可以定义为：

S4、将S3中的监控器模型V转换为确定性马尔可夫决策过程MDP，利用Q学习算法求解自动制造系统调度问题，实验并进行结果分析。

确定性MDP为五元组(S,A,T,R,γ)，其中，S为状态空间；A为动作空间；T：S×A→S为确定性转移概率矩阵；R:S×A→R为奖励函数，R为实数集；γ∈[0,1]为折扣因子，表示对未来奖励的考虑情况，γ越大表示越注重未来动作的奖励。

对于监控器其被转换成等效的确定性MDP的过程为：令S≡X，A≡Σ，/>因为∑分为可控事件集合和不可控事件集合，故动作集合A划分为可控动作集合A_c≡Σ_c和不可控动作集合A_uc≡Σ_uc，/>表示使机器开始加工的动作集合，表示使机器停止加工的动作集合。奖励函数定义如下：

其中，I∈R为比例系数，p∈R为惩罚因子，表示在且/>时，对选择使机器停止加工的动作的惩罚。

当监控器模型V转换为等效的确定性MDP后，使用Q学习算法求解最优调度方案。令eventlist＝[]，表示自动制造系统的调度策略。从初始状态s开始，选择Q(s,a)中Q值最大的动作a，并加入eventlist中；根据选择的动作到达下一个状态s′，直到s′为标记状态。

结果分析如下：对于图2的自动制造系统调度问题，生产一个完整产品需要的事件序列长度为25。假设生产2个产品，总事件序列长度为50。本发明以生产过程中机器并行工作的数量最大化为优化目标，智能体在对事件进行选择时，应尽可能选择可控事件。为此,比例系数应满足I>0，惩罚因子应满足p<0，才能使智能体选择可控事件的累计回报最大。故令I＝100，惩罚因子p＝-100，迭代次数150000次。由图5可知，在使用Q学习算法求解最优调度策略时，当训练次数接近110000次时，Q值表收敛到最优值。图2所示的自动制造系统在生产两个产品时，最优调度方案为f_p ^*＝(11,21,22,33,21,34,51,12,31,11,32,41,52,37,38,71,72,81,22,33,34,51,42,35,82,73,12,36,31,61,74,65,32,41,52,37,38,71,42,35,72,81,82,73,36,66,61,74,65,66)，且f_p(e^*)＝130。在调度策略执行过程中，制造系统在每个状态下运行的机器数量如图6所示。因为生产两个产品，共有四个原材料，故在生产过程中最多能有四个机器同时处于运行状态。

因此，本发明采用上述基于监督控制理论和强化学习的自动制造系统调度方法，采用自动机建立自动制造系统的数学模型，以生产过程中机器并行运行最大化为优化目标，并建立其数学优化模型，使用强化学习算法求解最优调度方案，得到自动制造系统的最优调度方案，同时满足安全性和活性控制规范，有效降低制造系统生产成本。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.基于监督控制理论和强化学习的自动制造系统调度方法，其特征在于，包括以下步骤：

S1、根据自动制造系统调度问题，使用自动机建立系统制造单元的数学模型G_i，安全性和活性控制规范模型E_j，生产批次为k个产品且深度为m的生产任务模型E_t，其中，i＝1,...,N表示制造单元数量，j＝1,...,M表示控制规范的自动机模型个数；

所述S1中，使用自动机建立制造单元的数学模型G_i，安全性和活性控制规范模型E_j，生产批次为k个产品且深度为m的生产任务模型E_t分别为：

G_i＝(H_i,∑_i,δ_i,h_i0,H_im)，

E_j＝(H_j,∑_j,δ_j,h_j0,H_jm)，

E_t＝(H_t,∑_t,δ_t,h_t0,H_tm)，

其中，i＝1,...,N；H_i表示有限状态集合；∑_i表示有限事件集合，划分为可控事件集合∑_ic和不可控事件集合∑_iuc，且δ_i:H_i×∑_i→H_i表示状态转移函数；h_i0表示初始状态；H_im表示标记状态集合；

安全性和活性控制规范模型E_j和任务自动机模型E_t的含义与模型G_i中的含义相同，深度为m的生产任务自动机模型E_t如下所示：

S2、基于S1的制造单元模型G_i，建立自动制造系统的自动机模型G；结合S1的控制规范模型E_j，生产任务模型E_t，求解出自动制造系统调度问题的目标模型T；利用Nadzoru软件求解出自动制造系统调度问题的监控器模型V＝SupC(G，T)；

所述S3中，通过机器运行函数Σ→{-1，0，1}，判断机器是否处于运行状态，具体定义如下：

其中，表示使机器进入运行状态的事件集合，/>表示使机器进入空闲状态的事件集合；将/>扩展为/>Σ^*→N，其中，N为自然数集合；对于空串ε和事件序列e_n＝σ₁σ₂···σ_n∈L(V)：

f_ac(ε)＝0

对于监控器中的一个状态h，它是从初始状态经过长度为n(n＝1,2,…)的事件序列e_n到达的，即h＝δ(h₀,e_n)，f_ac(e_n)表示在状态h时当前处于运行状态的机器数量；若事件序列e_n使得系统在整个运行过程中至少有两台机器同时处于运行状态，则称该事件序列为并行制造序列，而串行制造序列是指系统在整个运行过程中至多有一台机器处于运行状态；

为定量判断不同事件序列在整个生产过程中的机器并行性，定义机器运行计数函数f_p，对于事件序列e_n＝σ₁σ₂···σ_n∈L(V)：

f_p通过累加系统在不同状态下处于运行的机器数量，描述整个生产过程中机器的并行性，f_p的值越大，代表生产过程中的机器并行性越好；

从初始状态到标记状态的任意事件序列e∈L_m(V)都表示满足生产批次为k个产品的调度策略，则满足制造系统加工逻辑的调度策略集合为L_d＝{e∈L_m(V)||e|＝m}，故生产过程中机器运行并行最大化调度问题定义为：

2.根据权利要求1所述的基于监督控制理论和强化学习的自动制造系统调度方法，其特征在于：所述S2中，将生产任务自动机模型作为控制规范，使得求解的监控器中不存在环路，从而降低问题的求解难度。

3.根据权利要求1所述的基于监督控制理论和强化学习的自动制造系统调度方法，其特征在于：在步骤S4中，监控器模型V转换为等效的确定性MDP，通过惩罚因子和机器运行函数构建奖励函数，从而求解自动制造系统调度问题的最优调度方案。