CN116540658B - 基于监督控制理论和强化学习的自动制造系统调度方法 - Google Patents
基于监督控制理论和强化学习的自动制造系统调度方法 Download PDFInfo
- Publication number
- CN116540658B CN116540658B CN202310725981.5A CN202310725981A CN116540658B CN 116540658 B CN116540658 B CN 116540658B CN 202310725981 A CN202310725981 A CN 202310725981A CN 116540658 B CN116540658 B CN 116540658B
- Authority
- CN
- China
- Prior art keywords
- model
- manufacturing system
- scheduling
- machine
- automaton
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000002787 reinforcement Effects 0.000 title claims abstract description 23
- 238000005457 optimization Methods 0.000 claims abstract description 19
- 238000013178 mathematical model Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 17
- 230000000694 effects Effects 0.000 claims abstract description 14
- 238000002474 experimental method Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 7
- 239000003550 marker Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 2
- 230000005477 standard model Effects 0.000 abstract 1
- 239000000872 buffer Substances 0.000 description 19
- 239000000463 material Substances 0.000 description 12
- 230000009471 action Effects 0.000 description 9
- 239000002994 raw material Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000003973 paint Substances 0.000 description 2
- 238000005507 spraying Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003754 machining Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS], computer integrated manufacturing [CIM]
- G05B19/41885—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS], computer integrated manufacturing [CIM] characterised by modeling, simulation of the manufacturing system
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/32—Operator till task planning
- G05B2219/32339—Object oriented modeling, design, analysis, implementation, simulation language
Landscapes
- Engineering & Computer Science (AREA)
- Manufacturing & Machinery (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- General Factory Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于监督控制理论和强化学习的自动制造系统调度方法,包括以下步骤:S1、根据自动制造系统调度问题,使用自动机建立系统制造单元数学模型Gi,安全性和活性控制规范模型Ej,生产任务模型Et;S2、基于S1的Gi,建立自动机模型G;结合S1的Ej和Et,求解出调度问题的目标模型T;利用Nadzoru软件求解出调度问题的监控器模型V=SupC(G,T);S3、根据S2的V,以最大化生成过程中机器的并行性为优化目标,构建调度问题的数学模型;S4、将S3中的V转换为确定性马尔可夫决策过程MDP,利用Q学习算法求解调度问题,实验并结果分析。本发明采用上述方法,得到自动制造系统在生产过程中机器并行运行最大化的最优调度方案,提高生产效率,降低生产成本。
Description
技术领域
本发明涉及自动制造调度技术领域,尤其是涉及一种基于监督控制理论和强化学习的自动制造系统调度方法。
背景技术
自动制造系统(automated manufacturing systems,AMS)能够在非人工干预的情况下,将原材料加工成零件或将零件组装成产品,实现管理过程和工艺过程自动化,达到计算资源与物理资源紧密融合与协同。在AMS中,阻塞会导致系统停滞不前,从而降低生产效率和增加生产成本。AMS的调度直接关系到企业的经济效益,合适的调度策略能够确保AMS高效运行,实现企业利润最大化、能源与资源有效利用。为此,开展AMS监督控制和调度优化方法研究,有利于统一控制问题和优化问题,保证系统安全性、无阻塞性和提高生产效率,实现生产过程的智能优化控制。
AMS调度是一类复杂的NP-hard问题,已有的求解方法可以分为精确算法、启发式算法和智能优化算法三类。精确算法是通过枚举所有可能的解来找到最优解。但是,随着问题规模的增加,精确算法的计算时间呈指数级增长。启发式算法是通过一些启发式规则来搜索解空间,从而找到较优解。但是,启发式算法通常不能保证找到全局最优解,只能找到局部最优解。此外,启发式算法的性能高度依赖于问题本身的特性和启发式规则的选择。智能优化算法是基于生物学、物理学或社会学等自然现象或规律来设计的算法。其能够有效地处理高维非线性问题,并且在全局搜索方面具有优势。但是,与启发式算法相比,智能优化算法的计算复杂度更高,算法的参数设置也需要一定的经验和技巧。随着人工智能技术的发展,以强化学习为代表的机器学习算法广泛应用于车间调度问题求解,强化学习算法通过环境反馈训练智能体调整行为决策,增加了调度策略的实时性和可行性。AMS调度问题可以抽象为在等式或不等式约束构成的离散空间中寻找目标函数的最优解。基于值函数的强化学习算法在离散空间模型中表现出优越性能。此外,在确定环境中,随着训练次数增加,算法会逐渐收敛到最优值。同时,基于监督控制理论的AMS建模方式,能够避免系统阻塞和制造单元之间的碰撞,并且满足制造工序约束条件。
因此,针对自动制造系统调度监督控制和调度优化问题,有必要提出一种灵活高效的自动制造系统调度方法,实现自动制造系统安全、无阻塞和高效的运行。
发明内容
本发明的目的是提供一种基于监督控制理论和强化学习的自动制造系统调度方法,采用自动机建立自动制造系统的数学模型,以生产过程中机器并行运行最大化为优化目标,并建立其数学优化模型,使用强化学习算法求解最优调度方案,得到自动制造系统的最优调度方案,同时满足安全性和活性控制规范,有效降低制造系统生产成本。
为实现上述目的,本发明提供了一种基于监督控制理论和强化学习的自动制造系统调度方法,包括以下步骤:
S1、根据自动制造系统调度问题,使用自动机建立系统制造单元的数学模型Gi,安全性和活性控制规范模型Ej,生产批次为k个产品且深度为m的生产任务模型Et,i=1,...,N表示制造单元数量,j=1,...,M表示控制规范的自动机模型个数;
S2、基于S1的制造单元模型Gi,建立自动制造系统的自动机模型G;结合S1的控制规范模型Ej,生产任务模型Et,求解出自动制造系统调度问题的目标模型T;利用Nadzoru软件求解出自动制造系统调度问题的监控器模型V=SupC(G,T);
S3、根据S2监控器模型V,以机器运行并行最大化为优化目标,构建调度问题的数学模型fp *;
S4、将S3中的监控器模型V转换为确定性马尔可夫决策过程MDP,利用Q学习算法求解自动制造系统调度问题fp *,实验并进行结果分析。
优选的,所述S1中,使用自动机建立制造单元的数学模型Gi,安全性和活性控制规范模型Ej,生产批次为k个产品且深度为m的生产任务模型Et分别为:
Gi=(Hi,∑i,δi,hi0,Him),
Ej=(Hj,∑j,δj,hj0,Hjm),
Et=(Ht,∑t,δt,ht0,Htm),
其中,i=1,...,N,j=1,...,M;Hi表示有限状态集合;∑i表示有限事件集合,划分为可控事件集合∑ic和不可控事件集合∑iuc,且可控事件一般是指控制器发出的指令,而不可控事件一般是指传感器的反馈信号或扰动信号(如发生故障);
δi:Hi×∑i→Hi表示状态转移函数;hi0表示初始状态;Him表示标记状态集合;
安全性和活性控制规范模型Ej和生产任务自动机模型Et的含义与模型Gi中的含义相同,深度为m的生产任务自动机模型Et如下所示:
优选的,所述S2中,通过生产任务自动机模型Et去除监控器中的环路,降低了问题的求解难度。
优选的,所述S3中,判断机器是否处于运行状态的机器运行函数满足
其中,表示使机器进入运行状态的事件集合,/>表示使机器进入空闲状态的事件集合,将/>扩展为/>对于空串和事件序列en=σ1σ2…σn∈L(V),满足
fac(ε)=0
对于监控器中的一个状态h,它是从初始状态经过长度为n(n=1,2,…)的事件序列en到达的,即h=δ(h0,en),fac(en)表示在状态h时当前处于运行状态的机器数量。若事件序列en使得系统在整个运行过程中至少有两台机器同时处于运行状态,则称该事件序列为并行制造序列,而串行制造序列是指系统在整个运行过程中至多有一台机器处于运行状态。
判断不同事件序列在整个生产过程中的机器并行性的机器并行制造计数函数fp,对于事件序列en=σ1σ2···σn∈L(V),满足
fp通过累加系统在不同状态下处于运行的机器数量,描述整个生产过程中机器的并行性。fp的值越大,机器的并行性越好。
从初始状态到标记状态的任意事件序列e∈Lm(V)都表示满足生产批次为k个产品的调度策略。因此,满足制造系统加工逻辑的调度策略集合为Ld={e∈Lm(V)||e|=m},故生产过程中机器运行并行最大化调度问题可以定义为:
优选的,所述S4中,监控器模型V转换为等效的确定性MDP,通过惩罚因子和机器运行函数构建奖励函数,从而求解自动制造系统调度问题的最优调度方案。
因此,本发明所述的基于监督控制理论和强化学习的自动制造系统调度方法的优点和积极效果是:根据自动制造系统调度问题建立对应的自动机模型,以最大化生产过程中机器并行性为优化目标,并建立其数学优化模型,然后将自动机模型转换为等效的确定性MDP,最后利用Q学习算法对该问题进行求解,找到自动制造系统调度的最优方案。该方法不仅能够快速找到自动制造调度的最优方案,同时满足安全性和活性控制规范,能有效降低自动制造系统调度成本,具有良好的应用前景。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明基于监督控制理论和强化学习的自动制造系统调度方法实施例的流程图;
图2为自动制造系统调度示意图;
图3为本发明基于监督控制理论和强化学习的自动制造系统调度方法实施例的自动机建立的制造单元数学模型;
图4为本发明基于监督控制理论和强化学习的自动制造系统调度方法实施例的自动机建立的控制规范数学模型;
图5为本发明基于监督控制理论和强化学习的自动制造系统调度方法实施例的算法迭代收敛过程;
图6为本发明基于监督控制理论和强化学习的自动制造系统调度方法实施例的最优调度方案实施过程中当前处于运行状态的机器数。
具体实施方式
以下通过附图和实施例对本发明的技术方案作进一步说明。
如图1所示,基于监督控制理论和强化学习的自动制造系统调度方法,包括以下步骤:
S1、根据自动制造系统调度问题,使用自动机建立系统制造单元的数学模型Gi,安全性和活性控制规范模型Ej,生产批次为k个产品且深度为m的生产任务模型Et,i=1,...,N表示制造单元数量,j=1,...,M表示控制规范的自动机模型个数。
使用自动机建立制造单元的数学模型Gi,安全性和活性控制规范模型Ej分别为:
Gi=(Hi,∑i,δi,hi0,Him),
Ej=(Hj,∑j,δj,hj0,Hjm),
Et=(Ht,∑t,δt,ht0,Htm),
其中,i=1,...,N,j=1,...,M;Hi表示有限状态集合;∑i表示有限事件集合,划分为可控事件集合∑ic和不可控事件集合∑iuc,且可控事件一般是指控制器发出的指令,而不可控事件一般是指传感器的反馈信号或扰动信号(如发生故障);
δi:Hi×∑i→Hi表示状态转移函数;hi0表示初始状态;Him表示标记状态集合;
安全性和活性控制规范模型Ej和生产任务模型Et的含义与模型Gi中的含义相同,深度为m的生产任务自动机模型Et如下所示:
S2、基于S1的制造单元模型Gi,建立自动制造系统的自动机模型G;结合S1的控制规范模型Ej,生产任务模型Et,求解出自动制造系统调度问题的目标模型T;利用Nadzoru软件求解出自动制造系统调度问题的监控器模型V=SupC(G,T);
S3、根据S2监控器模型V,以机器运行并行最大化为优化目标,构建调度问题的数学模型fp *;
S4、将S3中的监控器模型V转换为确定性马尔可夫决策过程MDP,利用Q学习算法求解自动制造系统调度问题fp *,实验并进行结果分析。
监控器模型V转换为等效的确定性MDP,通过惩罚因子和机器运行函数构建奖励函数,从而求解自动制造系统调度问题的最优调度方案。
实施例
如图2所示,组装产品自动制造系统示意图,它由8个制造单元和7个缓存区构成,通过对传送带C1、C2运输过来的原材料进行加工并组装成一个完整的产品。传送带C1运输的原材料进入缓存区B1后,由机器人R将其送入缓存区B3中,研磨机M从B3提取材料并进行加工,加工完成后将其送回B3中,再由机器人R将其运输到缓冲区B5中。传送带C2运输的原材料进入缓冲区B2后,由机器人R将其送入缓存区B4中,机床L从B4中提取材料并进行加工,加工完成后将其送回B4中,再由机器人R将其送入缓存区B6中,经传送带C3送入缓存区B7中,喷漆机器SP从B7中提取材料并进行喷漆,喷漆完成后将其送回B7中,再经传送带C3送入B6中,组装平台AT分别从B5和B6中提取加工完成的材料进行组装,控制规范为避免缓存区上溢或者下溢。
表1为自动制造系统调度问题中事件的可控性和含义说明。
表1事件的可控性和含义
基于监督控制理论和强化学习的自动制造系统调度方法,包括以下步骤:
S1、根据自动制造系统调度问题,使用自动机建立制造单元的数学模型Gi,安全性和活性控制规范模型Ej,生产任务自动机模型Et,i=1,...,N表示制造单元数量,j=1,...,M表示控制规范的自动机模型个数。
分别建立自动制造系统8个制造单元的自动机模型Gi,i=1,2,…,8,如图3(a)~(h)所示。假设每个缓冲区的容量为1,控制规范为避免缓冲区上溢或者下溢,对自动制造系统7个缓冲区分别建立控制规范自动机模型Ej,j=1,2,…,7,如图4(a)~(g)所示;
S2、基于S1的制造单元数学模型Gi,建立自动制造系统调度问题的自动机模型G;结合S1的控制规范模型Ej,生产任务模型Et,求解出自动制造系统调度问题的目标模型T;利用Nadzoru软件求解出自动制造系统调度问题的监控器模型V=Supc(G,T);
S2中建立的自动制造系统调度问题模型G和控制规范E、目标模型T如下:
为了将多个独立运行的模块自动机模型合成一个完整系统模型,可使用同步积操作“||”。如G1||G2=Ac(H1×H2,Σ1∪Σ2,(h10,h20),δ,H1m×H2m),令h1∈H1,h2∈H2,σ∈∑,
其中,Ac()表示删除系统中不可达的状态和相应变迁的操作。对多于两个自动机的同步积运算方法可以将上述方法进行扩展。因此自动制造系统的模型G=G1||G2||…||G8,控制规范E=E1||E2||…||E7||Et,目标模型T=G||E,通过Nadzoru软件可以求得监控器模型V=Supc(G,T);
S3、根据S2的监控器模型V,以机器运行并行最大化为优化目标,构建调度问题的数学模型fp *;
判断机器是否处于运行状态的机器运行函数满足
其中,表示使机器进入运行状态的事件集合,/>表示使机器进入空闲状态的事件集合。将/>扩展为/>其中,N为自然数集合。对于空串和事件序列en=σ1σ2…σn∈L(V),满足
fac(ε)=0
对于监控器中的一个状态h,它是从初始状态经过长度为n(n=1,2,…)的事件序列en到达的,即h=δ(h0,en),fac(en)表示在状态h时当前处于运行状态的机器数量。若事件序列en使得系统在运行过程中存在运行机器数量大于1的阶段时,称该事件序列为并行制造序列。反之,若事件序列使得系统在运行过程中的每个阶段至多只有一台机器处于运行状态,则称该事件序列为串行制造序列。
判断不同事件序列在整个生产过程中的机器并行性的机器并行制造计数函数fp,对于事件序列en=σ1σ2···σn∈L(V),满足
fp通过累加系统在不同状态下处于运行的机器数量,描述整个生产过程中机器的并行性。
因为从初始状态到标记状态的任意事件序列e∈Lm(V)都表示满足生产批次为k个产品的调度策略。因此,满足制造系统加工逻辑的调度策略集合为Ld={e∈Lm(V)||e|=m},故生产过程中机器运行并行最大化调度问题可以定义为:
S4、将S3中的监控器模型V转换为确定性马尔可夫决策过程MDP,利用Q学习算法求解自动制造系统调度问题,实验并进行结果分析。
确定性MDP为五元组(S,A,T,R,γ),其中,S为状态空间;A为动作空间;T:S×A→S为确定性转移概率矩阵;R:S×A→R为奖励函数,R为实数集;γ∈[0,1]为折扣因子,表示对未来奖励的考虑情况,γ越大表示越注重未来动作的奖励。
对于监控器其被转换成等效的确定性MDP的过程为:令S≡X,A≡Σ,/>因为∑分为可控事件集合和不可控事件集合,故动作集合A划分为可控动作集合Ac≡Σc和不可控动作集合Auc≡Σuc,/>表示使机器开始加工的动作集合,表示使机器停止加工的动作集合。奖励函数定义如下:
其中,I∈R为比例系数,p∈R为惩罚因子,表示在且/>时,对选择使机器停止加工的动作的惩罚。
当监控器模型V转换为等效的确定性MDP后,使用Q学习算法求解最优调度方案。令eventlist=[],表示自动制造系统的调度策略。从初始状态s开始,选择Q(s,a)中Q值最大的动作a,并加入eventlist中;根据选择的动作到达下一个状态s′,直到s′为标记状态。
结果分析如下:对于图2的自动制造系统调度问题,生产一个完整产品需要的事件序列长度为25。假设生产2个产品,总事件序列长度为50。本发明以生产过程中机器并行工作的数量最大化为优化目标,智能体在对事件进行选择时,应尽可能选择可控事件。为此,比例系数应满足I>0,惩罚因子应满足p<0,才能使智能体选择可控事件的累计回报最大。故令I=100,惩罚因子p=-100,迭代次数150000次。由图5可知,在使用Q学习算法求解最优调度策略时,当训练次数接近110000次时,Q值表收敛到最优值。图2所示的自动制造系统在生产两个产品时,最优调度方案为fp *=(11,21,22,33,21,34,51,12,31,11,32,41,52,37,38,71,72,81,22,33,34,51,42,35,82,73,12,36,31,61,74,65,32,41,52,37,38,71,42,35,72,81,82,73,36,66,61,74,65,66),且fp(e*)=130。在调度策略执行过程中,制造系统在每个状态下运行的机器数量如图6所示。因为生产两个产品,共有四个原材料,故在生产过程中最多能有四个机器同时处于运行状态。
因此,本发明采用上述基于监督控制理论和强化学习的自动制造系统调度方法,采用自动机建立自动制造系统的数学模型,以生产过程中机器并行运行最大化为优化目标,并建立其数学优化模型,使用强化学习算法求解最优调度方案,得到自动制造系统的最优调度方案,同时满足安全性和活性控制规范,有效降低制造系统生产成本。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (3)
1.基于监督控制理论和强化学习的自动制造系统调度方法,其特征在于,包括以下步骤:
S1、根据自动制造系统调度问题,使用自动机建立系统制造单元的数学模型Gi,安全性和活性控制规范模型Ej,生产批次为k个产品且深度为m的生产任务模型Et,其中,i=1,...,N表示制造单元数量,j=1,...,M表示控制规范的自动机模型个数;
所述S1中,使用自动机建立制造单元的数学模型Gi,安全性和活性控制规范模型Ej,生产批次为k个产品且深度为m的生产任务模型Et分别为:
Gi=(Hi,∑i,δi,hi0,Him),
Ej=(Hj,∑j,δj,hj0,Hjm),
Et=(Ht,∑t,δt,ht0,Htm),
其中,i=1,...,N;Hi表示有限状态集合;∑i表示有限事件集合,划分为可控事件集合∑ic和不可控事件集合∑iuc,且δi:Hi×∑i→Hi表示状态转移函数;hi0表示初始状态;Him表示标记状态集合;
安全性和活性控制规范模型Ej和任务自动机模型Et的含义与模型Gi中的含义相同,深度为m的生产任务自动机模型Et如下所示:
S2、基于S1的制造单元模型Gi,建立自动制造系统的自动机模型G;结合S1的控制规范模型Ej,生产任务模型Et,求解出自动制造系统调度问题的目标模型T;利用Nadzoru软件求解出自动制造系统调度问题的监控器模型V=SupC(G,T);
S3、根据S2监控器模型V,以机器运行并行最大化为优化目标,构建调度问题的数学模型fp *;
所述S3中,通过机器运行函数Σ→{-1,0,1},判断机器是否处于运行状态,具体定义如下:
其中,表示使机器进入运行状态的事件集合,/>表示使机器进入空闲状态的事件集合;将/>扩展为/>Σ*→N,其中,N为自然数集合;对于空串ε和事件序列en=σ1σ2···σn∈L(V):
fac(ε)=0
对于监控器中的一个状态h,它是从初始状态经过长度为n(n=1,2,…)的事件序列en到达的,即h=δ(h0,en),fac(en)表示在状态h时当前处于运行状态的机器数量;若事件序列en使得系统在整个运行过程中至少有两台机器同时处于运行状态,则称该事件序列为并行制造序列,而串行制造序列是指系统在整个运行过程中至多有一台机器处于运行状态;
为定量判断不同事件序列在整个生产过程中的机器并行性,定义机器运行计数函数fp,对于事件序列en=σ1σ2···σn∈L(V):
fp通过累加系统在不同状态下处于运行的机器数量,描述整个生产过程中机器的并行性,fp的值越大,代表生产过程中的机器并行性越好;
从初始状态到标记状态的任意事件序列e∈Lm(V)都表示满足生产批次为k个产品的调度策略,则满足制造系统加工逻辑的调度策略集合为Ld={e∈Lm(V)||e|=m},故生产过程中机器运行并行最大化调度问题定义为:
S4、将S3中的监控器模型V转换为确定性马尔可夫决策过程MDP,利用Q学习算法求解自动制造系统调度问题fp *,实验并进行结果分析。
2.根据权利要求1所述的基于监督控制理论和强化学习的自动制造系统调度方法,其特征在于:所述S2中,将生产任务自动机模型作为控制规范,使得求解的监控器中不存在环路,从而降低问题的求解难度。
3.根据权利要求1所述的基于监督控制理论和强化学习的自动制造系统调度方法,其特征在于:在步骤S4中,监控器模型V转换为等效的确定性MDP,通过惩罚因子和机器运行函数构建奖励函数,从而求解自动制造系统调度问题的最优调度方案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310725981.5A CN116540658B (zh) | 2023-06-19 | 2023-06-19 | 基于监督控制理论和强化学习的自动制造系统调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310725981.5A CN116540658B (zh) | 2023-06-19 | 2023-06-19 | 基于监督控制理论和强化学习的自动制造系统调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116540658A CN116540658A (zh) | 2023-08-04 |
CN116540658B true CN116540658B (zh) | 2024-04-12 |
Family
ID=87448992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310725981.5A Active CN116540658B (zh) | 2023-06-19 | 2023-06-19 | 基于监督控制理论和强化学习的自动制造系统调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116540658B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685165A (zh) * | 2021-01-08 | 2021-04-20 | 北京理工大学 | 一种基于联合强化学习策略的多目标云工作流调度方法 |
CN113406939A (zh) * | 2021-07-12 | 2021-09-17 | 哈尔滨理工大学 | 一种基于深度q网络的无关并行机动态混合流水车间调度方法 |
US11256241B1 (en) * | 2019-09-12 | 2022-02-22 | Veo Robotics, Inc. | Optimized factory schedule and layout generation |
CN116001864A (zh) * | 2022-12-22 | 2023-04-25 | 贵州大学 | 一种基于自动机和强化学习的铁路交通系统调度优化方法 |
CN116224794A (zh) * | 2023-03-03 | 2023-06-06 | 北京理工大学 | 一种基于离散-连续异构q网络的强化学习连续动作控制方法 |
-
2023
- 2023-06-19 CN CN202310725981.5A patent/CN116540658B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11256241B1 (en) * | 2019-09-12 | 2022-02-22 | Veo Robotics, Inc. | Optimized factory schedule and layout generation |
CN112685165A (zh) * | 2021-01-08 | 2021-04-20 | 北京理工大学 | 一种基于联合强化学习策略的多目标云工作流调度方法 |
CN113406939A (zh) * | 2021-07-12 | 2021-09-17 | 哈尔滨理工大学 | 一种基于深度q网络的无关并行机动态混合流水车间调度方法 |
CN116001864A (zh) * | 2022-12-22 | 2023-04-25 | 贵州大学 | 一种基于自动机和强化学习的铁路交通系统调度优化方法 |
CN116224794A (zh) * | 2023-03-03 | 2023-06-06 | 北京理工大学 | 一种基于离散-连续异构q网络的强化学习连续动作控制方法 |
Non-Patent Citations (2)
Title |
---|
Nonblocking supervisory control of state-tree structures with event forcing;Deguang Wang等;《JOURNAL OF THE FRANKLIN INSTITUTE-ENGINEERING AND APPLIED MATHEMATICS》;20221231;第359卷(第16期);全文 * |
离散事件系统最优监督控制算法;胡瑜洪等;《计算机应用》;20220825;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116540658A (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Multi-agent reinforcement learning for online scheduling in smart factories | |
Zhang et al. | Dynamic job shop scheduling based on deep reinforcement learning for multi-agent manufacturing systems | |
Wang et al. | Learning scheduling policies for multi-robot coordination with graph attention networks | |
Zhou et al. | Reinforcement learning with composite rewards for production scheduling in a smart factory | |
Zhang et al. | Digital twin-driven carbon emission prediction and low-carbon control of intelligent manufacturing job-shop | |
CN111722539B (zh) | 一种基于时间自动机的数字孪生制造单元行为建模方法 | |
Tian et al. | An energy-efficient scheduling approach for flexible job shop problem in an internet of manufacturing things environment | |
CN110675005A (zh) | 一种基于人工智能技术与ropn技术的智能决策方法 | |
Ouahabi et al. | A distributed digital twin architecture for shop floor monitoring based on edge-cloud collaboration | |
Ou et al. | Gantry work cell scheduling through reinforcement learning with knowledge-guided reward setting | |
Lin et al. | Integrated cyber physical simulation modelling environment for manufacturing 4.0 | |
Larsen et al. | Path planning of cooperating industrial robots using evolutionary algorithms | |
Zhou et al. | Multiple subformulae cooperative control for multiagent systems under conflicting signal temporal logic tasks | |
Shirazi et al. | iCoSim-FMS: An intelligent co-simulator for the adaptive control of complex flexible manufacturing systems | |
Lan et al. | Simulation analysis of production scheduling algorithm for intelligent manufacturing cell based on artificial intelligence technology | |
CN116540658B (zh) | 基于监督控制理论和强化学习的自动制造系统调度方法 | |
CN111667091B (zh) | 一种基于粒子群算法的输送系统智能控制方法 | |
Yuan et al. | A multi-agent double Deep-Q-network based on state machine and event stream for flexible job shop scheduling problem | |
Monfared et al. | Design of integrated manufacturing planning, scheduling and control systems: a new framework for automation | |
Lan et al. | Research on modeling and scheduling methods of an intelligent manufacturing system based on deep learning | |
CN116009419A (zh) | 复杂装备制造过程虚拟重构与仿真运行方法及系统 | |
Wang et al. | Human-machine cooperation based adaptive scheduling for a smart shop floor | |
Li et al. | Research on collaborative control method of manufacturing process based on distributed multi-agent cooperation | |
Maione et al. | Modelling adaptive multi-agent manufacturing control with discrete event system formalism | |
Turgay et al. | Digital Twin Based Flexible Manufacturing System Modelling with Fuzzy Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |