CN117808246A - 柔性作业车间调度方法、装置及系统 - Google Patents
柔性作业车间调度方法、装置及系统 Download PDFInfo
- Publication number
- CN117808246A CN117808246A CN202311844168.6A CN202311844168A CN117808246A CN 117808246 A CN117808246 A CN 117808246A CN 202311844168 A CN202311844168 A CN 202311844168A CN 117808246 A CN117808246 A CN 117808246A
- Authority
- CN
- China
- Prior art keywords
- scheduling
- agent
- time
- job shop
- decision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 150
- 230000008569 process Effects 0.000 claims abstract description 74
- 238000005457 optimization Methods 0.000 claims abstract description 28
- 230000002787 reinforcement Effects 0.000 claims abstract description 23
- 238000012163 sequencing technique Methods 0.000 claims abstract description 13
- 230000008447 perception Effects 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 80
- 229910052799 carbon Inorganic materials 0.000 claims description 31
- 230000009471 action Effects 0.000 claims description 30
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 24
- 238000005265 energy consumption Methods 0.000 claims description 23
- 239000002699 waste material Substances 0.000 claims description 17
- 238000006467 substitution reaction Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 1
- 238000011084 recovery Methods 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 93
- 238000004519 manufacturing process Methods 0.000 description 41
- 238000004422 calculation algorithm Methods 0.000 description 25
- 238000012549 training Methods 0.000 description 24
- 238000003754 machining Methods 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000013178 mathematical model Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013468 resource allocation Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000001934 delay Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 239000003245 coal Substances 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000009916 joint effect Effects 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 239000007788 liquid Substances 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 206010063385 Intellectualisation Diseases 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 239000011344 liquid material Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000010687 lubricating oil Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000004064 recycling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- FRJNIHLOMXIQKH-UHFFFAOYSA-N 1-amino-15-oxo-4,7,10-trioxa-14-azaoctadecan-18-oic acid Chemical compound NCCCOCCOCCOCCCNC(=O)CCC(O)=O FRJNIHLOMXIQKH-UHFFFAOYSA-N 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 239000002826 coolant Substances 0.000 description 1
- 239000000110 cooling liquid Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003921 oil Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06316—Sequencing of tasks or work
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41865—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by job scheduling, process planning, material flow
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06313—Resource planning in a project environment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/06—Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Manufacturing & Machinery (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Biodiversity & Conservation Biology (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
Abstract
本申请提供了一种柔性作业车间调度方法、装置及系统,其中,所述方法包括:基于柔性作业车间的工序排序、机器选择以及速度决策三种不同类型调度任务,来描述具有复杂约束和多目标优化的能效感知多智能体决策模型;基于所描述的多智能体决策模型,来构建马尔可夫决策过程模型,并基于所构建的马尔可夫决策过程模型来描述多智能体深度强化学习在所述柔性作业车间调度问题上的应用;基于所描述的马尔可夫决策过程模型,来进行多目标动态作业车间调度。本申请解决了现有技术中柔性作业车间调度效率低的技术问题。
Description
技术领域
本申请涉及AI技术领域,具体而言,涉及一种柔性作业车间调度方法、装置及系统。
背景技术
工业互联网(Industrial Internet of Things,IIoT)在现代工业乃至产业数字化、网络化、智能化的历程中起着至关重要的作用。它利用物联网设备和传感器收集和传输大量的实时数据,通过分析和处理这些数据,实现对生产过程的实时监控、优化和控制。工业互联网的发展使得工业领域的设备、传感器和机器可以通过物联网连接,这种连接能力为工业生产过程提供了大量的实时数据,为优化和控制提供了基础。在工业互联网中,大规模工业设备的接入和数据采集是实现工业智能化和网络化的关键步骤。然而,随着接入工业设备数量的指数级增长,车间调度为车间内资源的高效利用和任务的顺利执行提供新的可能性。
在车间调度问题中,柔性作业车间调度(job shop scheduling problem,JSSP)存在于大多数现代离散制造系统中(例如汽车制造、机械加工、电子制造等行业),是制造企业达成竞争优势和开拓新市场的关键因素之一。作业车间调度问题是指在制造业或生产过程中,通过对车间内工序的选择和资源的分配,实现高效的生产调度和资源利用的问题。其本质是在有限的资源条件下,合理地安排作业任务的顺序、时间和资源分配,以最大程度地提高生产效率和满足客户需求。
随着现代工业设备智能化和网络化的发展,优先级和最短作业等传统调度策略已经不能满足车间调度的敏捷性、灵活性、及时性的需求,制造系统性质的变化对调度策略提出了新的挑战。在前端,物联网、网络物理系统等先进数据生成和交换框架的发展及其在工业环境中的应用创造了丰富的工业数据,而在后端,边缘和云计算技术大大增强了数据处理能力。必须对工业数据进行挖掘和分析,取出有价值的信息,揭示生产规律和潜在优化点,以便不浪费对基础设施的投资,并更有效地实时管理生产系统。由于车间调度涉及到多个工序、资源的有限分配以及复杂的约束条件,这些问题属于组合优化问题的范畴。针对这类问题,现有技术开发了各种优化算法和模型,包括线性规划、整数规划、动态规划、遗传算法、蚁群算法等,用于求解最优的调度方案。
如今,智能制造和工业互联网的兴起为车间调度问题的解决提供了新的技术路径。通过将工厂内各个设备、工序、人员等连接到统一的网络平台上,实现数据的集中管理和实时交互,可以实现对生产过程的全面监控和调度优化[5]。因此,解决作业车间调度问题的关键是设计合适的调度算法和策略,利用数据分析、优化方法和智能算法等技术手段,以最优化的方式进行资源分配和作业任务的调度,以提高生产效率、降低成本并满足客户需求。但是目前大多数研究的车间调度优化模型依赖于简化假设,脱离实际,针对实际工厂车间生产情况的车间调度问题不太成熟,需要进一步研究。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种基于多智能体深度强化学习的柔性作业车间调度方法,以至少解决现有技术中柔性作业车间调度效率低的技术问题。
根据本发明实施例的一个方面,提供了一种基于多智能体深度强化学习的柔性作业车间调度方法,包括:基于柔性作业车间的工序排序、机器选择以及速度决策三种不同类型调度任务,来描述具有复杂约束和多目标优化的能效感知多智能体决策模型;基于所描述的多智能体决策模型,来构建马尔可夫决策过程模型,并基于所构建的马尔可夫决策过程模型来描述多智能体深度强化学习在所述柔性作业车间调度问题上的应用;基于所描述的马尔可夫决策过程模型,来进行多目标动态作业车间调度。
根据本发明实施例的另一方面,还提供了一种基于多智能体深度强化学习的柔性作业车间调度装置,包括:多智能体决策模型构建模块,被配置为基于柔性作业车间的工序排序、机器选择以及速度决策三种不同类型调度任务,来描述具有复杂约束和多目标优化的能效感知多智能体决策模型;马尔可夫决策过程模型构建模块,被配置为基于所描述的多智能体决策模型,来构建马尔可夫决策过程模型,并基于所构建的马尔可夫决策过程模型来描述多智能体深度强化学习在所述柔性作业车间调度问题上的应用;调度模块,被配置为基于所描述的马尔可夫决策过程模型,来进行多目标动态作业车间调度。
在本发明实施例中,基于柔性作业车间的工序排序、机器选择以及速度决策三种不同类型调度任务,来描述具有复杂约束和多目标优化的能效感知多智能体决策模型;基于所描述的多智能体决策模型,来构建马尔可夫决策过程模型,并基于所构建的马尔可夫决策过程模型来描述多智能体深度强化学习在所述柔性作业车间调度问题上的应用;基于所描述的马尔可夫决策过程模型,来进行多目标动态作业车间调度。本申请解决了现有技术中柔性作业车间调度效率低的技术问题。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种基于多智能体深度强化学习的柔性作业车间调度方法的流程图;
图2是根据本申请实施例的机器工作模式的功率变化图;
图3是根据本申请实施例的DDQN框架图;
图4是根据本申请实施例的柔性作业车间调度的子联合动作图;
图5是根据本申请实施例的基于多智能体的动态柔性作业车间调度仿真与培训过程图;
图6是根据本申请实施例的控制智能体的训练损失记录图;
图7是本申请的算法与其他传统调度规则算法的性能比较图;
图8是根据本申请实施例的一种基于多智能体深度强化学习的柔性作业车间调度装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
传统的静态结构的神经网络在处理动态环境中的工件总数变化时存在一些不便之处。在制造系统中,随着时间的推移,可能会出现大量未知的工件,这种情况下,传统神经网络很难调整其动作及状态空间的大小,限制了其在动态环境中的实用性。
由于多智能体系统的复杂性,各个智能体之间相互依赖、相互影响。每个智能体的决策和行动会对其他智能体产生积极或消极的影响,可能会出现信用分配问题。
传统的信用分配方法通常是基于智能体的行动结果来进行奖励分配,这种方法存在延迟、网络效应、探索和利用权衡等潜在问题,可能会导致信用分配不准确或不公平。
在多智能体系统中,智能体之间的合作和协调非常重要,但由于系统的复杂性和智能体之间的相互作用,实现合作行为可能变得困难。在传统的训练方法中,每个智能体独立训练,没有考虑到其他智能体的行为和目标。这导致了缺乏协同合作的问题,每个智能体只追求自己的目标而忽略系统整体的利益。
实际生产过程中,车间内机器的加工时间往往是不固定的,机器的运行状态、维护状况和负荷情况以及不同工件的尺寸、材质和复杂度都会对加工时间产生影响。因此,现有的作业车间调度中假设机器加工时间恒定是不符合实际的。忽略机器加工时间的变化可能导致调度计划不准确、资源利用不充分甚至产生延误。
本发明实施例提供了一种基于多智能体深度强化学习的柔性作业车间调度方法,如图1所示,该方法包括以下步骤:
步骤S102,构建FJSP数学模型。
构建FJSP数学模型的方法包括以下步骤:
步骤S1022,模型描述
在此柔性作业车间中,包含a个工作中心,每个工作中心包含多台机器。所有工件必须按照预定顺序访问每个工作中心一次,并根据所选择的策略选择出合适的机器。具体来说,共有n个工件属于工件集J={J1,J2,J3,...Jn}在工作中心的m台机器属于机器集M={M1,M2,M3,...Mm}上加工,每个工件都由满足约束的ni个操作组成,其中Oij表示工件Ji的第j个操作。同一个工件Ji的操作必须按特定的顺序处理,即工序Oij可以由一个或多个机器处理,形成特定于操作的候选机器集Mij。机器Mk∈Mij处理操作Oij所需的时间和功率分别表示为tijk和Pijk。在作业车间中,各个工件的加工顺序不相同。每道工序可以在不同的机器上加工。并且,在任意可选机床的加工速度不固定,而是可选的,其中可选的速度集S={S1,S2,S3},是有限且离散的。工序加工时间和能量能耗、选择的加工机器、选择加工的速度相关。同一工序在同一机床上以不同加工速度加工时,加工功率和能耗均不同,加工速度越快,加工瞬时功率越大,能耗越多。此调度问题可分为三个子问题,机器选择、速度选择和工序排序。本次作业车间调度的目标是为每道工序分配合适的机器及加工速度,并确定每台机器上工序的最优加工顺序,从而使某些指标(最大完工时间和最大碳排放量)达到最优,以实现经济指标和绿色指标的协同优化。
因加工过程中,考虑了机器柔性,即工件的某一道工序可在多台机器上加工;每道工序有对应的加工机器集和对应的加工时间,不同机器上加工时间通常不同,因此产生不同程度碳排放。通常,机器在一个工作周期中经历五种工作模式:启动、预热、加工、空载和停止。每种模式需要不同的功率电平,如图2所示。由于启动、预热和停止模式在一个工作周期中仅出现一次,且这些模式下的能耗仅与机器属性有关,而与调度无关。然而同一周期内的加工模式和空载模式往往交替出现多次。因此,在调度中仅考虑处理模式和空闲模式下的碳排放。为了保证工件的低碳高效生产,本申请研究同时优化最大完工时间、最小拖延时间和最大碳排放量调度目标的动态柔性作业车间调度问题。
步骤S1024,假设。
所考虑的假设总结如下:对于工件,假设所有的工件在调度开始时(时间在0时刻)都是可用的,且各个工件间相互独立,不存在优先关系,不允许抢占,即所有工序在加工过程中不允许被中断。对于机器,假设每台机器一次只能执行一道工序且机器的缓冲容量是无限的,始终以恒定的能力处理操作。当新工件到达时,如果目标机器不是空闲的,下一个到达的工件应等待。对于工件加工的工序,假设在每个工序在进行期间,速度是固定的,不能随意改变。并且同一工件的操作顺序是固定的,是预定义的。同一工件的前道工序完成后才能进行下一道工序,并且运输从未中断。
步骤S1026,决策变量
为了将新到达工件分配给待选机器集合中合适的机器,从而得出每个机器的排队工件队列,引入0-1 xijk决策变量作为机器分配决策变量。
基于工序先后关系的建模思想,通过确定两工序(相邻或者不相邻)的先后顺序来实现工序排序的目的。0-1决策变量yijpq则为工序先后关系决策变量。
为了确定每个工序所选择合适的机器速度,通过确定工序是否将速度设置为Vz来实现速度分配的目的,引入0-1 zijkz决策变量作为速度选择决策变量。
步骤S1028,本柔性作业车间调度的数学模型约束条件:
1)0-1决策变量
2)同一工序的开始时间与加工时间相加小于等于此工序的完成时间
Sij+xijkPTijk-Cij≤0 (1-2)
其中,Sij为工序Oij的开始时间,Tijk为工序Oij在机器k上的加工时间,Cij为工序Oij的完成时间,这里的工序Oij代表的是第i个工件的第j个操作。
3)优先约束:如果Oij在Opq之前,yijpq则为1
其中,R为一个非常大的正整数,Spq则为工序Opq的开始时间,Cpq为工序Opq的完成时间。
4)工件约束:同一工件的当前工序结束后才能开始下一工序
Ci(j+1)-Sij-TTij≤0 (1-4)
其中,TTij为工序Oij的传输时间,PTijk工序Oij在机器k上的加工时间。
5)机器约束:一个工件同一时间只能有一台机器加工
6)速度约束:一个工序同一时间在一个机器上只能固定一个速度,工序加工期间不能切
换速度
7)工序Oij开始时间和结束时间均为非负数
本柔性作业车间调度问题同时考虑生产因素和环境因素带来的影响,同时采用最小总完工时间、最小总拖延时间和最小总碳排放量三个优化目标。
(1)最小总完工时间
其中,Ci为工件i的完成时间,Cj为操作j的完成时间,Cij工序Oij的完成时间。
i=1,2,...,n j=1,2,...,nj (1-9)
其中,即空载时间等于运输时间,Pijks为工序Oij在机器k上以速度s加工的功率。
总完工时间,即车间所有工件从开始加工到完成的整个过程所花费的时间。完工时间指的是起始时间、加工时间和空载时间的加和。最小总完工时间的目标是通过尽量减少工件的加工时间与空载时间来提高生产效率。
(2)最小总延迟
其中,Tmax是总延迟时间,Dij为工序Oij的到期时间。
i=1,2,...,n j=1,2,...,nj (1-11)
最小总延迟,即车间内所有工件的延迟时间。它是通过计算客户规定截止日期与真正交货日期的差值来衡量延迟的程度。最小化总延迟的目标是通过尽量减少工件的等待时间、加工时间和传送时间,使得整体生产流程更加高效和快速。这可以确保在给定的时间范围内完成尽可能多的作业或工件,并将其按时交付给客户。
(3)最小总碳排放量
柔性作业车间生产加工过程中的主要三个碳排放源分别为:机床加工,回收车间产生的废油、废料,以及维持公共车间正常工作。
计算机床的碳排放量时主要考虑启动、预热、加工、空载这4个关键阶段。因此机床碳排放(Machine Carbon Emission,MCE)的计算公式如下所示。
其中,CEks和tks分别是机床启动及预热阶段的功率和时间,Eijk和tijk分别是机床加工阶段的功率和时间,CEke和tke分别是机床空载阶段的功率和时间。
其中,qijks=PworkPTijks是机器工作期间产生的能耗,是机器空闲期间产生的能耗。
机床需要定期更换冷却液和润滑油,为防止造成二次污染,需要对废液进行处理后才能进行排放。机床对原材料进行加工会产生大量的废料,一般会对这些废料进行二次回收,即回炉处理。在对废液和废料进行回收处理时也会消耗能源,间接造成碳排放。由于消耗的能源种类较多,计算比较复杂,为了便于研究和计算,需要将能耗转换成统一的标准,即可将处理单位废液和废料所消耗的能量转换成折标煤系数:处理每升废液耗能折标煤系数a1=4.5,处理每千克废料耗能折标煤系数a2=0.011,中小型企业电能的碳排放因子σ(CO2)=0.540kg/(kW·h);润滑油的碳排放因子σ(CO2)=0.469kg/L;冷却液的碳排放因子σ(CO2)=5.143kg/L[14-15]。因此,车间加工过程中的废物碳排放(Waste Carbon Emission,WCE)的计算公式如下所示。
其中,Sij和Lij分别指的是在机床加工过程中产生的废液和废料为维持车间公共设施正常工作产生的碳排放为车间公共碳排放(Public Carbon Emission,PCE)。
PCE=P0Cmax (1-14)
其中,P0为公共功率,Cmax为最大完工时间。
综上可得,碳排放量总和(Total Carbon Emission,TCE)建模为这些组成部分的总和,如公式所示。
步骤S104,深度强化学习建模。
强化学习无模型“试错”的方式来处理决策问题,它可以将调度问题建模为具有5元素元组表示的MDP,主要包括状态空间、动作空间、奖励函数以及多智能体的学习策略。
本申请中调度问题属于具有高维、连续状态空间的调度问题,DQN算法可以通过深度神经网络的逼近能力处理高维问题,同时具有经验回访池和目标Q网络来提高训练的收敛性。Double-DQN进一步改进DQN乐观估计的问题,同时更好的利用经验池并提高算法收敛性。
因此,本申请使用DDQN训练智能体的流程如图3所示。在DQN中,在线网络Q训练来自于训练实例的数据。首先,各个智能体观察初始状态S_0,计算初始状态特征值,然后通过贪婪策略在决策点做出最优动作,增强在线网络的泛化能力。其次,根据环境的变化计算奖励值,反馈的奖励值用于评估代理当时采取行动的性能,根据计算得出的误差,采用梯度下降法训练在线网络Q。最后观察新的环境状态,并在下一个决策点之前获得新的状态特征。每次在线网络更新时,通过软目标权值更新同时更新目标网络Q,使网络的训练状态稳定直到达到最大迭代次数或收敛。目标网络和在线网络结构相同,更新目标网络后,输入测试实例的数据并计算解。
1.马尔科夫决策过程公式
1)状态特征/状态空间
每个智能体根据其感知到的环境状态去选择动作。由于在真实车间调度应用中,机器/作业/操作的数量是无限的,如果直接将这些指标作为状态特征,则DQN的输入可以在大范围内变化。由于在训练过程中仅经历特定的生产配置,因此这可能在未经训练的情况下劣化DQN的性能和通用性。针对这一问题,提取了7个专门设计的状态特征来描述调度环境,该状态空间随时间不断变化并作为DQN的输入,每个状态特征取值范围为[0,1]。通过限制[0,1]中的所有状态特征,DQN可以容易地扩展到不同的未经训练的生产环境,即适用更为灵活的调度环境。
首先,对于优化目标完工时间的状态,在工件数量上,状态特征有系统内工件总数:|JNOW|、队列中工件总数:|Jk|和预期到达工件总数:还包括工件的完成率 正排队工件/未完成工件的当前合格操作加工时间CPTJ={ti,k|Ji∈Jk}、剩余工件的加工时间RPT={WRi|Ji∈Jk}、
其次,对于优化目标总延迟的状态特征,包括正排队工件的到期日TTDQk={TTDi|Ji∈Jk}、正排队工件的松弛时间SQk={Si|Ji∈Jk}、刚到达工件的松弛时间:以及下一队列机器的可用时间ASMk={AMl|Ml∈SMk}、当前工序的剩余时间RPTO={rij|Oij∈ONOW}和当前工序的开始时间SPTO={Sij|Oij∈ONOW}。
最后,对于优化目标碳排放量TEC的状态特征,包括正排队工件/未完成工件的当前合格操作加工功率CPP={pi,k|Ji∈Jk}、剩余工件的加工功率RPP={WRi|Ji∈Jk}和正排队工件/未完成工件的当前合格操作加工时间CPTJ={ti,k|Ji∈Jk}、剩余工件的加工时间RPT={WRi|Ji∈Jk}。
调度规则/动作空间
动作是智能体在探索过程中实际采取的策略,是实现模型是否收敛的关键。
人们普遍认为,没有一个规则能够很好地适用于所有车间配置、操作条件和性能目标,因此,应根据不同的生产状态使用不同的规则。
由于本申请所考虑的DFJSP问题包含了工序排序、机器分配和速度选择三个子问题,决策者在每个决策点不仅要确定工序选择规则,还要确定机器和速度分配规则。
资源分配智能体的可用动作可简单地对应机器集M={M1,M2,M3,...Mm}中的机器选择,控制智能体的可用动作也可简单的对应有限且离散的速度集V={V1,V2,V3,...VZ}的速度选择。然而,对于调度智能体来说,不断变化的工件队列使得直接选择变得不再适用。因此,选择四个排序规则作为动作空间的构建来实现间接动作选择:
最短加工时间:选择最紧急的工件中加工时间最短的工件。
排队工件:选择在其后续生产阶段中排队工件处理时间总和最小的工件。WINQ规则倾向于均匀分配系统中的工件。
临界比:选择TTD与剩余处理时间之比最小的工件。CR规则的缺点是其不一致性。当可用工件尚未延迟时,CR规则倾向于TTD较小且剩余处理时间较长的工件。另一方面,如果可用工件已经延迟,则CR规则优先考虑延迟时间最高(TTD最小)和剩余处理时间最短的工件。
最小空闲时间:选择空闲时间最小的工件。如果工件尚未过期,则此规则的行为类似于CR规则,优先考虑TTD较短且剩余处理时间较长的工件(因此较短的空闲时间),并在工件延迟时保持一致。
综合以上,先选出一个可行的工件,再将其分派到适当的机器并选择合适的速度。并且由于加工过程中速度可变,可以在不同可用机器中改变的操作的处理时间,将每个操作Oij的处理时间近似为
2)替代奖励塑造技术
在本申请中,采用联合动作来协调多个智能体之间动作以达成共同的目标,每个工作任务被分解为队列(Queuing)、操作(Operation)、速度(Speed)三个操作,它们依次按顺序执行以完成整个作业。作业到达车间的初始到期日(Time till due,TTD)大于操作时间的总和,他们的差值即空闲时间。空闲时间可随着作业排队等待处理而逐渐消耗,如果作业在操作完成前消耗了所有空闲时间,则导致延迟。图4用于可视化工作任务与各个操作之间的关系和执行顺序,同时表现出空闲时间和延迟的计算方式,通过采用联合动作和这种分解操作的方法,可以更好地协调智能体之间的动作,优化作业的执行过程,减少延迟并提高生产效率。
针对在复杂的多智能体系统中,每个智能体的行为都会对系统整体性能产生影响,使得各个智能体对全局奖励的贡献变得复杂。采用替代奖励塑造技术来引导联合动作,帮助解决信用分配问题,通过提供结构化的奖励信号来指导每个智能体所扮演的角色,确定其对共同目标的贡献,从而改善整个系统的性能和效率。
(1)RA奖励替代函数
RA需要评估所有机器的可用性和适用性,并将工件分配给一台机器,以最大限度地减少长期累积的延迟。当工件Ji到达加工中心Wl完成zth操作时,该工件完成后(时间步长t+1)的估计松弛量表示为可以计算为工件i的交付截止时间TTDi、剩余加工时间和估计机器可用时间的函数:
实际松弛时间在操作完成时得到
考虑到保持所有作业空闲时间是非常困难的,量化工作延迟的可能性并纳入奖励的计算中。对于作业Ji,使用Sigmoid函数将其空闲时间Si转换为临界因子Fi,以消除异常值(过大值):
对于RA,关于优化目标总拖延的奖励rt1等于实际松弛时间与估计松弛时间的获得与损失的比值,并根据作业的关键因素进行调整。
在RA奖励替代函数中,子联合动作的总奖励rt加入对优化目标总完工时间的关注,即在奖励计算中也关注处理时间因素。例如引入权重α和β,反映机器处理时间Δt与实际松弛时间之间的平衡。
(2)SA奖励替代函数
SA需要对排队的工件进行优先排序,并选择长期累积延迟最小的工件。当SA控制机器Mk及其工件队列Jk时,选择一个工件Js,它以延长其他工件的排队时间为代价,结束所选工件的等待,同时将所选工件暴露在其后续加工中心Ws进行排队,节省或延长的排队时间可以视作为空闲时间的获得或损失。
对于所选工件,空闲时间的增益/损失定义为:其他作业的平均加工时间,经工件Js的临界系数βs调整后,减去后续加工中心Ws调整后的可用时间ASWs:
其中,ti,k是工件Ji在机器Mk上的加工时间,|Jk|-1为机器Mk的队列中工件的数量减去1,即除了自身外其他工件的数量。
对于未被选中的工件,其平均空闲时间增益/损失等于工件Js的处理时间(经其关键因子的平均值调整后)减去其后续加工中心调整后的平均可用时间。ξ是一个用于调整可用时间大小的因子,它将可用时间缩放到与处理时间相同的量级。
其中,ts,k为所选工件Js在机器Mk上的处理时间,AWi为工件Ji的平均等待时间,Wi当前工件Ji的加工中心,Ws为所选工件Js的后续加工中心,SWk为机器Mk在后续的加工中心集合。
对于SA,关于优化目标总拖延的奖励rt1等于所选工件的空闲时间增益/损失ΔS1与未被选中工件的平均空闲时间增益/损失ΔS2的差值,计算公式如下:
rt1=ΔS1-ΔS2 (2-8)
为奖励计算而选择适当大小的β和δ,对于训练是否成功来说是至关重要的。经训练和验证,推定40<δ<60,而ξ<0.2。
在SA奖励替代函数中,子联合动作的奖励rt加入对优化目标总完工时间的关注,即除了关于总拖延的奖励函数外,也可以考虑将总完工时间与处理时间纳入计算,例如以权重γ体现,其中指的是队列工件处理时间总和。
(3)CA奖励替代函数
CA负责处理速度调节问题,通过调整加工速度以平衡加工时间与能耗。每个工作操作的速度影响其完成时间及相应的能耗。加工速度是从一个离散的速度集合V={V1,V2,V3,...VZ}中提取的,能源消耗是直接关联到机器的操作速度的,因为更快的加工速度意味着更大的功率需求和更高的能源消耗。因此,需要找到一个平衡点,这个平衡点既能够实现尽可能快的加工速度,又仅仅带来可接受的能耗增加。
对于CA,能效比是衡量工作处理效率和能源消耗相对的一个比值指数,能效比率η等于为完成的工件的数量除以消耗的能量,η=d/E,其中d为完成的工件数量,E为消耗的能源。工件Ji完成后的预期能源消耗表示为可以计算为在预期加工速度下的能源消耗速率Va、表示工件Ji的预期加工时间的函数:
实际能源消耗在操作完成时得到,其中Vt表示工件Ji在实际加工速度下的消耗能源速率,表示工件Ji的实际加工时间。
对于预期能效比ηa,其中是预期完成的工件数量:
先验的速度选择能够产生估计的能效比ηa,而实际的能效比ηt会在完成工作后得到,其中是实际完成的工件数量,工件Ji实际的能效比ηt(Ji):
对于CA,子联合动作的奖励rt等于实际的能效比ηt与估计的能效比ηa的获得与损失的比值。
rt=ηt-ηa (2-14)
2.基于多智能体的深度强化学习方法
1)整体架构
多智能体调度策略是指由多个智能体协同工作来完成任务调度的方法。每个智能体单独分则一部分决策,通过智能体间协作来达到整体的调度目标。它具备一定的鲁棒性,能够快速响应变化和处理故障。智能体可以根据实时信息和故障情况做出相应的调度调整,并且通过协同学习的方式不断优化调度策略,以适应不断变化的作业车间环境。
总的来说,多智能体调度策略在动态柔性作业车间调度问题中能够提供灵活、高效、鲁棒的调度方案。通过智能体之间的协作和学习,可以适应复杂的调度环境,并实现较优的调度目标。该策略在提高生产效率、降低成本和优化资源利用等方面具有重要作用。
2)多智能体调度策略
以下是各个智能体的具体执行过程:
资源分配智能体(Resource Allocationagent,RA)的职能是为每个工序在工作中心中选择合适的机器。它执行的策略包括如下内容。
(1)获取车间信息并将生产订单分解为工序级;
(2)设置调度性能指标和相应约束条件;
(3)建立数学模型;
(4)调用DDQN算法,确定当前工序的开始时间、加工时间和剩余时间,再确定每个工作中心中机器的数量以及当前机器的可用时间等;
(5)定制调度方案并下达给调度智能体;
(6)与其他智能体通信。
调度智能体(sequencingagent,SA)的职能是负责为每个机器排队的工件队列的排序。它执行的策略包括如下内容。
(1)获取车间信息并将生产订单分解为工件级;
(2)设置调度性能指标和相应约束条件;
(3)建立数学模型;
(4)调用DDQN算法,确定当前机器的可用时间,确定待加工工件的预期加工时间和紧急程度以及可选的机器集合;
(5)定制调度方案并下达给控制智能体;
(6)与其他智能体通信。
控制智能体(Controlagent,CA)的职能是为每个工序在速度集中选择合适的速度。它执行的策略包括如下内容。
(1)获取车间信息并将生产订单分解为工序级;
(2)设置调度性能指标和相应约束条件;
(3)建立数学模型;
(4)调用DDQN算法,确定当前工序的开始时间、加工时间和剩余时间以及松弛时间等,确定当前工件的紧急程度。
(5)与其他智能体通信。
3)基于多智能体DDQN的多目标动态作业车间调度算法
伪代码如下:
本申请基于实际机械生产的特点,构建具有速度缩放功能的多智能体调度框架。考虑车间调度的工序排序、机器选择、速度匹配的问题,实现更高效率的机械生产。采用基于多智能体的架构,将每个子问题作为一个独立智能体决策体,解耦各个子问题之间相互联系。本方法采用基于知识的奖励塑造技术,解耦问题大小与学习算法的体系架构,使其可以应用于长时间生产和大量作业的管理。基于车间环境特点,本方法设计特有的状态空间和动作表示(分别用于排序决策,资源分配决策和速度决策),能够更有效的处理规格和范围可变的调度问题。本方法基于分层分布式多智能体的架构,实现各个智能体的自主智能决策,分别明确考虑了分散agent之间的交互与合作。本方法采用轻量级神经网络保证实时决策,使得车间智能调度决策能够及时响应。
在其他的实施例中,启发式优化算法,比如:遗传算法、粒子群算法、模拟退火算法和蚁群算法等,或是动态规划、线性规划及元启发式算法等高级优化算法都可应用于动态柔性作业车间的调度问题,以寻找最佳工序排序、机器分配和速度控制。
本方法应用深度学习和强化学习方法,通过智能体与环境的交互学习最优策略,已达到提高车间内部生产效率的目的。
分布式调度体系结构本质上是一个多智能体系统。在本申请中,采用参数共享技术和集中训练和分散执行训练方案,在训练阶段将多智能体问题简化为单智能体问题。具有相似范围和目标的智能体共享神经网络参数,并从公共经验池中学习,从而产生相似和合作行为。其他深度强化学习相关参数如下表所示。
假设每个工作中心有两台机器。为了避免非平稳性,RA、SA和CA的训练是分开进行的。培训过程模拟了10万单位时间的生产,在此期间,大约有12400个工作岗位到达车间。仿真与训练过程如图5所示。
制造系统仿真模型由开源Python离散事件仿真库SimPy(Matloff 2008)实现。人工神经网络使用Python机器学习库PyTorch(Paszke et al.2019)实现。训练在IntelCorei5-8250U 1.60GHz CPU和4gb RAM的个人电脑上进行。CA的训练损失记录分别如图6所示。图7是本申请的算法与其他传统调度规则算法的性能比较图,尤其是累计延迟时间这一优化目标的性能比较,最后一个最小的是本算法的性能。
本申请实施例还提供了一种基于多智能体深度强化学习的柔性作业车间调度装置,如图8所示,包括:多智能体决策模型构建模块82,被配置为基于柔性作业车间的工序排序、机器选择以及速度决策三种不同类型调度任务,来描述具有复杂约束和多目标优化的能效感知多智能体决策模型;马尔可夫决策过程模型构建模块84,被配置为基于所描述的多智能体决策模型,来构建马尔可夫决策过程模型,并基于所构建的马尔可夫决策过程模型来描述多智能体深度强化学习在所述柔性作业车间调度问题上的应用;调度模块86被配置为基于所描述的马尔可夫决策过程模型,来进行多目标动态作业车间调度。
本申请实施例还提供了一种基于多智能体深度强化学习的柔性作业车间调度系统,包括:柔性作业车间的机器;如上所述的柔性作业车间调度装置,用于调度所述机器。
传统静态结构的神经网络不便于在工件总数变化时调整动作及状态空间的大小,在动态环境中缺乏实用性,针对随着时间推移出现大量未知工作的制造系统,本申请使用专门的车间内的抽象和通道信息来构建状态空间,使得状态空间的维度可变,进而创建稳定、可处理可变规格的状态空间。这种灵活性使得神经网络能够更好地适应不同的工件规模和调度需要,提高系统在动态环境中的适应性和实用性。
为了避免多智能体之间的信用分配问题,确保每个智能体主要基于局部信息进行决策。这样做的目的是让每个智能体能够独立地根据其所掌握的局部信息做出决策,而不是依赖于其他智能体的行动。这种训练方法将分散决策的能力赋予了每个智能体,提高了整个系统的稳定性和可扩展性。此外,我们还将奖励设计为根据单个操作而不是最终的延迟来计算,促进协作和系统性能的提升,确保奖励与整体绩效的一致性。
为了解决传统信用分配方法中信用分配不准确、不公平的问题,本申请引入异步转换方法来配合代理奖励形成,通过更加灵活地配合代理奖励和决策点,从而有助于智能体更高效地学习,从而有助于智能体在复杂的环境中进行学习和决策。
为了解决智能体之间合作与协作问题,采用参数共享技术和集中训练和分散执行的训练方案,在训练阶段将多智能体问题简化为单智能体问题。将具有相似范围和目标的智能体共享神经网络参数,并从公共经验池中学习,从而产生相似和合作行为。
为了处理实际生产中加工时间不固定的问题,本申请考虑了机器的加工时间的不确定性。建立基于不确定时间的调度算法和模型可以帮助调度员更好地规划生产流程,充分考虑机器的实际运行状况和工件的加工特性。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端设备,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种基于多智能体深度强化学习的柔性作业车间调度方法,其特征在于,包括:
基于柔性作业车间的工序排序、机器选择以及速度决策三种不同类型调度任务,来描述具有复杂约束和多目标优化的能效感知多智能体决策模型;
基于所描述的多智能体决策模型,来构建马尔可夫决策过程模型,并基于所构建的马尔可夫决策过程模型来描述多智能体深度强化学习在所述柔性作业车间调度问题上的应用;
基于所描述的马尔可夫决策过程模型,来进行多目标动态作业车间调度。
2.根据权利要求1所述的方法,其特征在于,基于柔性作业车间的工序排序、机器选择以及速度决策三种不同类型调度任务,来描述具有复杂约束和多目标优化的能效感知多智能体决策模型,包括:
确定所述柔性作业车间的所述三种不同类型调度任务和调度目标,其中,所述调度目标是为每道工序分配合适的机器及加工速度,并确定每台机器上工序的最优加工顺序;
确定所述多智能体决策模型的假设条件和决策变量,并基于所述假设条件和所述决策变量来确定所述多智能体决策模型的约束条件,其中,所述约束条件包括:优先约束、工件约束、机器约束、和速度约束,其中,所述速度约束为一个工序同一时间在一个机器上只能固定一个速度,工序加工期间不能切换速度;
基于所述约束条件,来优化最小总完工时间、最小总拖延时间和最小总碳排放量,其中,碳排放源包括机床加工产生的碳排放、回收车间产生的废油、废料,以及维持公共车间正常工作产生的碳排放。
3.根据权利要求1所述的方法,其特征在于,基于所描述的多智能体决策模型,来构建马尔可夫决策过程模型,包括:
确定所述多智能体决策模型中的智能体的状态特征,其中,所述状态特征包括对于优化目标碳排放量的状态特征,所述对于优化目标碳排放量的状态特征包括正排队工件和/或未完成工件的当前合格操作加工功率、剩余工件的加工功率和正排队工件和/或未完成工件的当前合格操作加工时间、以及剩余工件的加工时间;
确定所述智能体的动作空间,其中,确定所述智能体的动作空间包括选择多个排序规则作为所述动作空间的构建来实现间接动作选择;
确定奖励函数,其中,所述奖励函数包括RA奖励替代函数、SA奖励替代函数、和CA奖励替代函数;
基于所述状态特征、所述动作空间和所述奖励函数,来构建所述马尔可夫决策过程模型。
4.根据权利要求3所述的方法,其特征在于,所述RA奖励替代函数是通过以下得到的:
确定优化目标总拖延的奖励,其中,所述优化目标总拖延的奖励等于实际松弛时间与估计松弛时间的获得与损失的比值,并且,能够根据作业的关键因素进行调整;
基于对优化目标总完工时间和反映机器处理时间与实际松弛时间之间的平衡的权重,确定子联合动作的总奖励;
基于所述优化目标总拖延的奖励和所述子联合动作的总奖励,来确定所述RA奖励替代函数。
5.根据权利要求3所述的方法,其特征在于,所述SA奖励替代函数是通过以下得到的:
确定优化目标总完工时间与处理时间;
基于所述总完工时间与处理时间、以及用于体现所述总完工时间与处理时间的权重,来确定所述SA奖励替代函数。
6.根据权利要求3所述的方法,其特征在于,所述CA奖励替代函数是通过以下得到的:
基于预期加工速度下的能源消耗速率和表示工件的预期加工时间,来计算工件完成后的预期能源消耗,并基于所述预期能源消耗,计算预期能效比;
基于工件在实际加工速度下的消耗能源速率和工件的实际加工时间,来计算实际能源消耗,并基于所述实际能源消耗,计算实际能效比;
基于所述预期能效比和所述实际能效比,来计算子联合动作的奖励,并基于所述子联合动作的奖励来确定所述CA奖励替代函数。
7.一种基于多智能体深度强化学习的柔性作业车间调度装置,其特征在于,包括:
多智能体决策模型构建模块,被配置为基于柔性作业车间的工序排序、机器选择以及速度决策三种不同类型调度任务,来描述具有复杂约束和多目标优化的能效感知多智能体决策模型;
马尔可夫决策过程模型构建模块,被配置为基于所描述的多智能体决策模型,来构建马尔可夫决策过程模型,并基于所构建的马尔可夫决策过程模型来描述多智能体深度强化学习在所述柔性作业车间调度问题上的应用;
调度模块,被配置为基于所描述的马尔可夫决策过程模型,来进行多目标动态作业车间调度。
8.一种基于多智能体深度强化学习的柔性作业车间调度系统,其特征在于,包括:
柔性作业车间的机器;
如权利要求7所述的柔性作业车间调度装置,用于调度所述机器。
9.一种电子设备,其特征在于,包括:
存储器,被配置为存储计算机程序;
处理器,被配置为在所述程序运行时,使得计算机执行如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,在所述程序运行时,使得计算机执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311844168.6A CN117808246A (zh) | 2023-12-28 | 2023-12-28 | 柔性作业车间调度方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311844168.6A CN117808246A (zh) | 2023-12-28 | 2023-12-28 | 柔性作业车间调度方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117808246A true CN117808246A (zh) | 2024-04-02 |
Family
ID=90432770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311844168.6A Pending CN117808246A (zh) | 2023-12-28 | 2023-12-28 | 柔性作业车间调度方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117808246A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118171892A (zh) * | 2024-05-11 | 2024-06-11 | 浙江大学 | 一种考虑工人技能水平和疲劳程度的车间调度方法和装置 |
-
2023
- 2023-12-28 CN CN202311844168.6A patent/CN117808246A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118171892A (zh) * | 2024-05-11 | 2024-06-11 | 浙江大学 | 一种考虑工人技能水平和疲劳程度的车间调度方法和装置 |
CN118171892B (zh) * | 2024-05-11 | 2024-08-23 | 浙江大学 | 一种考虑工人技能水平和疲劳程度的车间调度方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Dynamic job shop scheduling based on deep reinforcement learning for multi-agent manufacturing systems | |
Zhao et al. | Dynamic jobshop scheduling algorithm based on deep Q network | |
CN102254246B (zh) | 一种工作流管理方法及其系统 | |
Wang et al. | Application of reinforcement learning for agent-based production scheduling | |
Şahman | A discrete spotted hyena optimizer for solving distributed job shop scheduling problems | |
CN101916404A (zh) | 一种装备制造过程多厂协同调度优化方法 | |
CN111611062B (zh) | 云边协同分层计算方法及云边协同分层计算系统 | |
Wen et al. | Dynamic scheduling method for integrated process planning and scheduling problem with machine fault | |
CN106600058A (zh) | 一种制造云服务QoS的组合预测方法 | |
Jing et al. | Multi-agent reinforcement learning based on graph convolutional network for flexible job shop scheduling | |
CN117808246A (zh) | 柔性作业车间调度方法、装置及系统 | |
Lee et al. | Multiple-objective scheduling and real-time dispatching for the semiconductor manufacturing system | |
Zhang et al. | A Q-learning-based hyper-heuristic evolutionary algorithm for the distributed flexible job-shop scheduling problem with crane transportation | |
CN109559033B (zh) | 一种面向云设计制造模式的社交化团队成员优选方法 | |
Zhao et al. | A drl-based reactive scheduling policy for flexible job shops with random job arrivals | |
CN109523136A (zh) | 一种面向智能制造的调度知识管理系统 | |
Cao et al. | A bottleneck degree-based migrating birds optimization algorithm for the PCB production scheduling | |
Gu et al. | Using real-time manufacturing data to schedule a smart factory via reinforcement learning | |
Xu et al. | Multi-objective green scheduling of integrated flexible job shop and automated guided vehicles | |
Wang et al. | Smart scheduling of dynamic job shop based on discrete event simulation and deep reinforcement learning | |
Laili et al. | DSAC-Configured Differential Evolution for Cloud–Edge–Device Collaborative Task Scheduling | |
Ding et al. | A survey of ai-enabled dynamic manufacturing scheduling: From directed heuristics to autonomous learning | |
Tao et al. | An iterated greedy algorithm with reinforcement learning for distributed hybrid flowshop problems with job merging | |
Lu et al. | A Double Deep Q-Network framework for a flexible job shop scheduling problem with dynamic job arrivals and urgent job insertions | |
CN115793583B (zh) | 基于深度强化学习的流水车间新订单插入优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |