CN114819273A - 基于多Agent全局与局部优化结合的车间调度方法 - Google Patents

基于多Agent全局与局部优化结合的车间调度方法 Download PDF

Info

Publication number
CN114819273A
CN114819273A CN202210287855.1A CN202210287855A CN114819273A CN 114819273 A CN114819273 A CN 114819273A CN 202210287855 A CN202210287855 A CN 202210287855A CN 114819273 A CN114819273 A CN 114819273A
Authority
CN
China
Prior art keywords
agent
optimization
local
scheduling
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210287855.1A
Other languages
English (en)
Inventor
袁乔
李超
张玉冰
高峻岭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Aerospace One Intelligent Technology Co ltd
Original Assignee
Shanghai Aerospace One Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Aerospace One Intelligent Technology Co ltd filed Critical Shanghai Aerospace One Intelligent Technology Co ltd
Priority to CN202210287855.1A priority Critical patent/CN114819273A/zh
Publication of CN114819273A publication Critical patent/CN114819273A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • G06Q10/063114Status monitoring or status determination for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06316Sequencing of tasks or work
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Manufacturing & Machinery (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于多Agent全局与局部优化结合的车间调度方法,包括:S1、通过多智能体方法对车间动态调度过程建模,得到多个智能体;S2、每一个智能体只依据本地执行任务的知识,根据强化学习中的Q学习,结合轮盘赌概率算法,进行独自学习和决策,并作为局部调度;S3、根据改进的差分进化算法对各智能体局部调度的学习结果进行全局寻优,采用递减的变异因子扩大搜索空间,同时采用随着迭代次数动态调整的交叉算子,获得全局优化的调度策略。与现有技术相比,本发明对具有小批量、多品种,工艺多变的柔性车间扰动进行动态调度,利用强化学习对Agent进行本地化的学习和决策,再采用IDE算法进行全局优化决策,提高调度模型的效率和有效性。

Description

基于多Agent全局与局部优化结合的车间调度方法
技术领域
本发明涉及一种车间调度方法,尤其是涉及一种基于多Agent全局与局部优化结合的车间调度方法。
背景技术
车间调度是生产控制的关键环节,调度的结果直接影响车间生产效率。随着小批量、多品种等生产模式的兴起,客户订单的随机性,生产任务带来的工艺多变性,以及生产现场机器故障、工人的缺勤,这些干扰使预定的计划低效甚至无效,生产计划无法顺利执行甚至导致加工过程阻塞。传统静态调度控制方式,或者以启发式搜索为主的调度方法,在一定程度上不能适应这种实时性强、动态性高的制造过程。现有技术中公开了一种实时动态调度机制与方法,该机制在多Agent制造系统基础上,提出基于事件触发的滚动窗口动态调度方法,该方法将制造系统动态事件分为基本事件和扰动事件,并对扰动事件进行重调度,在动态调度过程中利用合同网进行多Agent分布协调控制,生成调度序列。所述方法通过对事件触发的滚动窗口动态调度机制,以及Agent的协调控制和动态调度控制算法实现对动态车间环境下的调度。但对于工艺多变、动态性高的小批量多品种制造模式,由于合同网的分配方式约束较为单一,协议过程中不符合任务或工艺要求的Agent也会参与招标,并且任务分配后没有反馈评估,影响调度结果的可执行性以及后续重调度的效率。
发明内容
本发明的目的就是为了克服上述现有技术存在的车间调度方法对生产工艺多变、生产环境动态性高的车间调度可执行性差、重调度效率低的缺陷而提供一种基于多Agent全局与局部优化结合的车间调度方法。
本发明的目的可以通过以下技术方案来实现:
一种基于多Agent全局与局部优化结合的车间调度方法,具体包括以下步骤:
S1、通过多智能体(Agent)方法对车间动态调度过程建模,得到多个智能体;
S2、每一个智能体只依据本地执行任务的知识,根据强化学习中的Q学习,结合轮盘赌概率算法,进行独自学习和决策,并作为局部调度;
S3、根据改进的差分进化算法对各智能体局部调度的学习结果进行全局寻优,采用递减的变异因子扩大搜索空间,同时采用随着迭代次数动态调整的交叉算子,获得全局优化的调度策略。
所述步骤S1中对车间调度问题进行建模,将生产任务、设备等作为不同类型的Agent,那么,对于包含了n个Agent的车间调度过程多Agent系统,集合A:
Ag={Ag1,Ag2,...,Agn}
其中,Ai,1≤i≤n表示调度过程中包含的任意Agent;同样,车间内所包含的所有资源集合可以表示为集合R:
R={rj|1≤j≤mv}
其中,mv为当前车间内所包含的资源数量,rj为第j个生产资源,对应的数量、能力和状态分别为qj,cj和sj;状态sj={-1,0,1},表示该资源分别为故障(或缺失)、空闲和占用状态;能力可表示为函数cj(Tak)=(Time,Cost,Quality),表示该资源针对不同加工工序或加工任务Tak时的平均加工时间、加工成本和加工质量。
各个智能体具有不同的生产资源,通过用关联矩阵AR=[Arij]|A|×|R|(Arij∈{0,1})表示二者之间的映射关系,当Arij=0时表示智能体Ai不具有资源rj,反之具有该资源。
所述步骤S1中还包括确定调度目标和约束条件。
所述调度目标的公式如下所示:
Figure BDA0003558991640000021
其中,timejk为不同加工工序或加工任务Tak分配在生产资源或设备rj下所需要的加工时间,nTa为加工工序的总数;同样cojk为不同加工工序或加工任务Tak分配在生产资源或设备rj下所需要的加工成本,ω为资源损耗系数。
对于任意工序加工时间集成本,分别由集合T与Co表示,具体如下:
T={timejk|1≤j≤mv,1≤k≤nTa}
Co={ω×cojk|1≤j≤mv,1≤k≤nTa}
所述步骤S2中每一个智能体根据强化学习中的Q学习进行独自学习,通过概率选择方式选择高Q值的智能体,获得每个智能体对应的局部调度优化模型,即通过各Agent历史执行的生产任务或工序,作为Agent与环境的交互学习值函数,从学到的值函数得到相应的调度形位策略。
进一步地,所述局部优化模型中包括计算每个智能体采取每一个动作对应的概率和动作回报值。
进一步地,所述局部优化模型中还包括根据动作回报值计算每一个智能体所对应的全部动作的Q值,建立Q值表。
所述智能体根据强化学习中的Q学习进行独自学习的公式如下所示:
AgentLP=(S,A,P,R)
其中,S是一个有限状态集,A是一个有限动作集,P是环境的状态转移函数,R是环境奖励函数。Agent在状态st采用a动作使环境状态转移到st+1的概率记为P(st+1|st,a),利用Q-learning使Agent选择的动作可以获得最大的累积奖励R。即得到Q值最大的行为Q*=(s,a)和最优策略π*=(s,a)。
由于每个Agent只学习与自己相关的任务执行情况,用Table(s,a)(s∈S,a∈A)表示Agent的某一行为的Q值表,Qi,t(s,a)表示第i个Agent在t时刻的Q值,当完成一个周期的学习后,Agent将Qi,t(s,a)写入Table(s,a)。Tablei,t(s,a)表示t时刻第i个Agent对应的Q值表中的Q(s,a)值,那么,多Agent系统中n个Agent在t时刻计算得到各自的Q(s,a)。
所述步骤S3中根据改进的差分进化算法对各智能体局部调度的学习结果进行全局寻优的过程包括将每个智能体Q学习结果作为局部决策,以此为依据分别对改进的差分进化算法进行优化。
进一步地,所述改进的差分进化算法进行的优化包括设置改进的差分进化算法的个体选择概率和目标函数。
进一步地,所述个体选择概率的优化过程具体包括计算经过Q学习后每个智能体的行为概率,采用当前行为概率占总体行为集概率的占比的形式计算个体选择概率。
进一步地,所述个体选择概率与后续进行变异和交叉操作的个体相对应,采用随余弦函数递减的变异因子进行变异操作。
进一步地,所述目标函数的优化过程包括将每个智能体所采取每一个动作的概率作为差分进化的初始种群,并令改进的差分进化算法中的目标函数为每个动作对应的Q值,根据调度目标选择Q值较大的试验个体作为新个体,各新个体对应的行为集合为最优调度策略。
采用改进的差分进化算法IDE对多Agent进行全局调度决策寻优,以每个Agent的所有的动作概率P(St+1|St,a)作为初始种群,计算对应的Q值表,并定义IDE算法里面的目标函数,在此基础上对当前种群进行变异和交叉操作,然后基于贪婪思想的选择对两个种群进行一对一选择,从而产生另一个新种群,重复以上过程直到满足终止条件输出最优调度策略,IDE算法的目标函数如下式:
Figure BDA0003558991640000041
其中,Qi为第i此迭代时的Q值估计。
与现有技术相比,本发明具有以下有益效果:
本发明采用采用一种多Agent强化学习的动态调度方法,结合Q学习对每个Agent进行独自学习和决策,并将Q学习与轮盘赌中的概率思想结合,通过概率选择Q学习的下一个动作,避免早期收敛过快学不到好的本地调度策略,在一定程度保持Agent状态空间的本地化,获得各Agent局部优化决策结果;同时利用改进的差分进化算法IIDE,将各Agent局部状态空间对应的概率作为初始条件,以各Agent状态空间对应的Q值表为依据,设计为目标函数筛选初始种群,并采用动态的变异和交叉操作,扩大算法搜索空间的同时避免陷入局部最优。即针对对于多Agent系统的调度问题,使用Q学习与轮盘赌概率思想将每个Agent状态本地化,避免出现高维的联合系统状态,同时为了避免陷入局部最优,采用改进的IIDE算法进行全局搜索,保证最后的调度策略全局最优,进而提高了调度方法的计算效率和适用性。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,一种基于多Agent全局与局部优化结合的车间调度方法,具体包括以下步骤:
S1、通过多智能体(Agent)方法对车间动态调度过程建模,得到多个智能体;
S2、每一个智能体只依据本地执行任务的知识,根据强化学习中的Q学习,结合轮盘赌概率算法,进行独自学习和决策,并作为局部调度;
S3、根据改进的差分进化算法对各智能体局部调度的学习结果进行全局寻优,采用递减的变异因子扩大搜索空间,同时采用随着迭代次数动态调整的交叉算子,获得全局优化的调度策略。
步骤S1中对车间调度问题进行建模,将生产任务、设备等作为不同类型的Agent,那么,对于包含了n个Agent的车间调度过程多Agent系统,集合A:
Ag={Ag1,Ag2,...,Agn}
其中,Ai,1≤i≤n表示调度过程中包含的任意Agent;同样,车间内所包含的所有资源集合可以表示为集合R:
R={rj|1≤j≤mv}
其中,mv为当前车间内所包含的资源数量,rj为第j个生产资源,对应的数量、能力和状态分别为qj,cj和sj;状态sj={-1,0,1},表示该资源分别为故障(或缺失)、空闲和占用状态;能力可表示为函数cj(Tak)=(Time,Cost,Quality),表示该资源针对不同加工工序或加工任务Tak时的平均加工时间、加工成本和加工质量。
各个智能体具有不同的生产资源,通过用关联矩阵AR=[Arij]|A|×|R|(Arij∈{0,1})表示二者之间的映射关系,当Arij=0时表示智能体Ai不具有资源rj,反之具有该资源。
步骤S1中还包括确定调度目标和约束条件。
约束条件的公式具体如下所示:
Figure BDA0003558991640000051
其中。max()是求最大运算,Eijk是任意Agent下第k个任务或工序分配到第j个机器或生产资源的加工结束时间,Stijk是加工开始时间,Tt是t时刻任务分配总数,T是总体任务分配总数。约束条件表示在前一个过程加工完成之前,后续加工不能开始,且一个工序开始加工没有中断,每个机器或资源一次只能一个加工工序或任务,每个工序建议仅分配到一个加工资源或机器上。
调度目标的公式如下所示:
Figure BDA0003558991640000061
其中,timejk为不同加工工序或加工任务Tak分配在生产资源或设备rj下所需要的加工时间,nTa为加工工序的总数;同样cojk为不同加工工序或加工任务Tak分配在生产资源或设备rj下所需要的加工成本,ω为资源损耗系数。
对于任意工序加工时间集成本,分别由集合T与Co表示,具体如下:
T={timejk|1≤j≤mv,1≤k≤nTa}
Co={ω×cojk|1≤j≤mv,1≤k≤nTa}
所述步骤S2中每一个智能体根据强化学习中的Q学习进行独自学习,通过概率选择方式选择高Q值的智能体,获得每个智能体对应的局部调度优化模型,即通过各Agent历史执行的生产任务或工序,作为Agent与环境的交互学习值函数,从学到的值函数得到相应的调度形位策略。
局部优化模型中包括计算每个智能体采取每一个动作对应的概率和动作回报值。
局部优化模型中还包括根据动作回报值计算每一个智能体所对应的全部动作的Q值,建立Q值表。
智能体根据强化学习中的Q学习进行独自学习的公式如下所示:
AgentLP=(S,A,P,R)
其中,S是一个有限状态集,A是一个有限动作集,P是环境的状态转移函数,R是环境奖励函数。Agent在状态st采用a动作使环境状态转移到st+1的概率记为P(st+1|st,a),利用Q-learning使Agent选择的动作可以获得最大的累积奖励R。即得到Q值最大的行为Q*=(s,a)和最优策略π*=(s,a)。
具体实施时,每个Agent利用以往执行过的任务,在学习完后得到一个对应于采取行为a对应的值Qt(st,at),以此建立Q值表来存储每个Agent的Q值,具体公式如下所示:
Figure BDA0003558991640000071
Figure BDA0003558991640000072
其中,s’是Agent在状态s下选择动作a产生的心状态;a’为状态s’下Agent所选择的动作,P(s'|s,a)为处于状态s时选择动作a的概率。Agent根据所学习的历史加工知识,不断采取使Q(s,a)最大化的动作,即获得最大的Q*就会得到对应的最优策略π*。
由于每个Agent只学习与自己相关的任务执行情况,用Table(s,a)(s∈S,a∈A)表示Agent的某一行为的Q值表,Qi,t(s,a)表示第i个Agent在t时刻的Q值,当完成一个周期的学习后,Agent将Qi,t(s,a)写入Table(s,a)。Tablei,t(s,a)表示t时刻第i个Agent对应的Q值表中的Q(s,a)值,那么,多Agent系统中n个Agent在t时刻计算得到各自的Q(s,a)。
步骤S3中根据改进的差分进化算法对各智能体局部调度的学习结果进行全局寻优的过程包括将每个智能体Q学习结果作为局部决策,以此为依据分别对改进的差分进化算法进行优化。
改进的差分进化算法进行的优化包括设置改进的差分进化算法的个体选择概率和目标函数。
个体选择概率的优化过程具体包括计算经过Q学习后每个智能体的行为概率,采用当前行为概率占总体行为集概率的占比的形式计算个体选择概率。
个体选择概率与后续进行变异和交叉操作的个体相对应,采用随余弦函数递减的变异因子进行变异操作。
目标函数的优化过程包括将每个智能体所采取每一个动作的概率作为差分进化的初始种群,并令改进的差分进化算法中的目标函数为每个动作对应的Q值,根据调度目标选择Q值较大的试验个体作为新个体,各新个体对应的行为集合为最优调度策略。
采用改进的差分进化算法IDE对多Agent进行全局调度决策寻优,以每个Agent的所有的动作概率P(St+1|St,a)作为初始种群,计算对应的Q值表,并定义IDE算法里面的目标函数,在此基础上对当前种群进行变异和交叉操作,然后基于贪婪思想的选择对两个种群进行一对一选择,从而产生另一个新种群,重复以上过程直到满足终止条件输出最优调度策略,IDE算法的目标函数如下式:
Figure BDA0003558991640000081
其中,Qi为第i此迭代时的Q值估计。
具体实施时,以计算得到的各个Agent动作集所对应的概率作为改进的差分进化算法IDE的初始种群。对于第i个Agent来说,包含了l个动作的动作集
Figure BDA0003558991640000082
对应的概率为
Figure BDA0003558991640000083
IDE的初始种群可由下式给出:
Figure BDA0003558991640000084
Figure BDA0003558991640000085
其中,X0为初始种群,n为种群规模,与调度过程中包含的Agent数量一致;
Figure BDA0003558991640000086
为个体,对应的为第i个Agent所包含的动作概率,同样其调度过程求解的维数也为l。同时,所构造的Q值表直接由Q*(s,a)计算得到。
对当前种群进行变异操作,每一个在t时刻的个体
Figure BDA0003558991640000087
进行变异操作,得到与之对应的变异个体,具体公式如下所示:
Figure BDA0003558991640000088
其中,r1,r2,r3∈(1,2,..,l)互不相同且与i不同,
Figure BDA0003558991640000089
为父代基向量,
Figure BDA00035589916400000810
为父代差分向量,F为变异算子。接着生成的变异个体
Figure BDA00035589916400000811
进行交叉操作,生成试验个体如下式:
Figure BDA00035589916400000812
其中,rand(j)为[0,1]之间均匀分布的随机数,CR为[0,1]范围在之间的交叉算子,rnbr(i)为(1,2,…,l)之间的随机量。同过上述变异交叉操作,生成初始群体中每个个体所对应试验个体
Figure BDA00035589916400000813
CR的取值虽然有利于初期IDE的收敛,但后期容易陷入局部最优,为了跳出局部最优,采用如下动态调整的交叉算子:
Figure BDA00035589916400000814
其中,k和K分别为当前迭代次数与最大迭代次数。
初始种群中变异交叉的操作需要迭代,直到满足迭代次数或者获得最大的Q*以及得到对应的最优策略π*,为了加快迭代速度,在进行下一次的种群变异交叉操作之前,选择一些Q值较高的个体,利用下式选择概率较高的个体进行下一次的交叉变异操作,具体为:
Figure BDA0003558991640000091
其中,若初始群体中个体i的Q值为Qi,对于个体i来说可选择的动作集包含l个动作,每个动作的回报值对应一个动作的Q值,则被选中的概率为pi
新种群的生成需要将上述试验个体
Figure BDA0003558991640000092
和初始种群中个体
Figure BDA0003558991640000093
的目标函数进行比较,由于调度目标是以最小化所有工件总的超期和总的成本之和,即调度策略求解是寻求目标函数的极大值,根据Q-learning学习算法特点,种群中每个调度策略的Q值越高,则说明该策略越好,对应的Q-learning学习中,累积奖励也越高,对应的目标函数如下所示:
Figure BDA0003558991640000094
其中,Qi表示第i次迭代时的Q值的估计。
重复上述过程,直到满足设计的终止条件,一般可以按经验给定改进的差分进化算法的迭代次数,或者连续几代个体的目标函数差异小于某一个较小的阈值后,就停止运算。最后获得最大的Q*中对应的最优策略π*,以及经过若干次迭代的种群中各Agent个体对应的行为提取出来,即对于包含有n个Agent的调度问题来说,其最优的调度策略π*对应的每个Agent行为可表示为联合行为向量
Figure BDA0003558991640000095
每个Agent下的资源或设备以此策略进行调度。
此外,需要说明的是,本说明书中所描述的具体实施例,所取名称可以不同,本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化,均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (10)

1.一种基于多Agent全局与局部优化结合的车间调度方法,其特征在于,具体包括以下步骤:
S1、通过多智能体方法对车间动态调度过程建模,得到多个智能体;
S2、每一个智能体只依据本地执行任务的知识,根据强化学习中的Q学习,结合轮盘赌概率算法,进行独自学习和决策,并作为局部调度;
S3、根据改进的差分进化算法对各智能体局部调度的学习结果进行全局寻优,采用递减的变异因子扩大搜索空间,同时采用随着迭代次数动态调整的交叉算子,获得全局优化的调度策略。
2.根据权利要求1所述的一种基于多Agent全局与局部优化结合的车间调度方法,其特征在于,所述步骤S1中还包括确定调度目标和约束条件。
3.根据权利要求1所述的一种基于多Agent全局与局部优化结合的车间调度方法,其特征在于,所述步骤S2中每一个智能体根据强化学习中的Q学习进行独自学习,通过概率选择方式选择高Q值的智能体,获得每个智能体对应的局部调度优化模型。
4.根据权利要求3所述的一种基于多Agent全局与局部优化结合的车间调度方法,其特征在于,所述局部优化模型中包括计算每个智能体采取每一个动作对应的概率和动作回报值。
5.根据权利要求4所述的一种基于多Agent全局与局部优化结合的车间调度方法,其特征在于,所述局部优化模型中还包括根据动作回报值计算每一个智能体所对应的全部动作的Q值,建立Q值表。
6.根据权利要求1所述的一种基于多Agent全局与局部优化结合的车间调度方法,其特征在于,所述步骤S3中根据改进的差分进化算法对各智能体局部调度的学习结果进行全局寻优的过程包括将每个智能体Q学习结果作为局部决策,以此为依据分别对改进的差分进化算法进行优化。
7.根据权利要求6所述的一种基于多Agent全局与局部优化结合的车间调度方法,其特征在于,所述改进的差分进化算法进行的优化包括设置改进的差分进化算法的个体选择概率和目标函数。
8.根据权利要求7所述的一种基于多Agent全局与局部优化结合的车间调度方法,其特征在于,所述个体选择概率的优化过程具体包括计算经过Q学习后每个智能体的行为概率,采用当前行为概率占总体行为集概率的占比的形式计算个体选择概率。
9.根据权利要求8所述的一种基于多Agent全局与局部优化结合的车间调度方法,其特征在于,所述个体选择概率与后续进行变异和交叉操作的个体相对应,采用随余弦函数递减的变异因子进行变异操作。
10.根据权利要求7所述的一种基于多Agent全局与局部优化结合的车间调度方法,其特征在于,所述目标函数的优化过程包括将每个智能体所采取每一个动作的概率作为差分进化的初始种群,并令改进的差分进化算法中的目标函数为每个动作对应的Q值,根据调度目标选择Q值较大的试验个体作为新个体,各新个体对应的行为集合为最优调度策略。
CN202210287855.1A 2022-03-22 2022-03-22 基于多Agent全局与局部优化结合的车间调度方法 Pending CN114819273A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210287855.1A CN114819273A (zh) 2022-03-22 2022-03-22 基于多Agent全局与局部优化结合的车间调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210287855.1A CN114819273A (zh) 2022-03-22 2022-03-22 基于多Agent全局与局部优化结合的车间调度方法

Publications (1)

Publication Number Publication Date
CN114819273A true CN114819273A (zh) 2022-07-29

Family

ID=82530189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210287855.1A Pending CN114819273A (zh) 2022-03-22 2022-03-22 基于多Agent全局与局部优化结合的车间调度方法

Country Status (1)

Country Link
CN (1) CN114819273A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116339955A (zh) * 2023-05-25 2023-06-27 中国人民解放军国防科技大学 计算换通信框架的局部优化方法、装置和计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116339955A (zh) * 2023-05-25 2023-06-27 中国人民解放军国防科技大学 计算换通信框架的局部优化方法、装置和计算机设备
CN116339955B (zh) * 2023-05-25 2023-08-11 中国人民解放军国防科技大学 计算换通信框架的局部优化方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN104268722B (zh) 基于多目标进化算法的动态柔性作业车间调度方法
Shen et al. Mathematical modeling and multi-objective evolutionary algorithms applied to dynamic flexible job shop scheduling problems
CN105959401B (zh) 一种基于超网络的制造服务供需匹配与动态调度方法
CN113792924A (zh) 一种基于Deep Q-network深度强化学习的单件作业车间调度方法
CN109409763B (zh) 基于贪婪式分组策略的动态测试任务调度方法及调度平台
CN110837981B (zh) 一种调度与控制协同处理方法及相关设备
CN116542445A (zh) 基于深度强化学习的装备制造车间智能调度方法和系统
CN111985672A (zh) 一种多Agent深度强化学习的单件作业车间调度方法
CN103235743A (zh) 一种基于分解和最优解跟随策略的多目标测试任务调度方法
CN113987936B (zh) 一种基于混沌遗传算法的装备试验资源统筹调配方法
CN111160755A (zh) 一种基于dqn的飞机大修车间实时调度方法
CN112149990B (zh) 一种基于预测的模糊供需匹配方法
CN114819273A (zh) 基于多Agent全局与局部优化结合的车间调度方法
CN114580678A (zh) 一种产品维修资源调度方法和系统
CN111553610B (zh) 一种基于学习-遗忘效应的调度方法及系统
CN112148446A (zh) 一种用于多技能资源受限项目调度的进化策略算法
CN112488542A (zh) 基于机器学习的智慧工地智能物料调度方法及系统
CN116562584A (zh) 一种基于Conv-Dueling与泛化表征的动态车间调度方法
CN112488543B (zh) 基于机器学习的智慧工地智能排班方法及系统
CN116027741A (zh) 一种用于复杂制造场景的边云协同人工智能框架
CN113485278B (zh) 优化两生产指标的柔性作业车间调度多目标分布估计方法
CN114219274A (zh) 一种基于深度强化学习适应机器状态的车间调度方法
Zhao et al. Selective maintenance modeling for a multi-state system considering human reliability
CN114004065A (zh) 基于智能算法和环境约束下的变电站工程多目标优化方法
CN113743784A (zh) 一种基于深度强化学习的生产时序表智能生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination