CN116307241B - 基于带约束多智能体强化学习的分布式作业车间调度方法 - Google Patents
基于带约束多智能体强化学习的分布式作业车间调度方法 Download PDFInfo
- Publication number
- CN116307241B CN116307241B CN202310355705.4A CN202310355705A CN116307241B CN 116307241 B CN116307241 B CN 116307241B CN 202310355705 A CN202310355705 A CN 202310355705A CN 116307241 B CN116307241 B CN 116307241B
- Authority
- CN
- China
- Prior art keywords
- constraint
- agent
- reinforcement learning
- state
- distributed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 239000003795 chemical substances by application Substances 0.000 claims description 146
- 230000006870 function Effects 0.000 claims description 80
- 230000009471 action Effects 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 18
- 230000007704 transition Effects 0.000 claims description 13
- 238000005265 energy consumption Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 230000008447 perception Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000013461 design Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Manufacturing & Machinery (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出了一种基于带约束多智能体强化学习的分布式作业车间调度方法,建立分布式作业车间调度问题模型,将分布式作业车间调度问题转化为多智能体强化学习问题;设计带约束约束多智能体强化学习算法处理约束条件;对约束条件进行处理;利用带约束多智能体强化学习算法训练多个智能体,实现分布式作业车间调度的优化,结合实际应用。该方法通过多智能体强化学习实现分布式调度策略的优化,并考虑约束条件以满足实际生产需求。本发明旨在充分利用多智能体强化学习方法的优势,并考虑约束条件,实现高效且满足约束条件的作业车间调度。
Description
技术领域
本发明属于作业车间调度领域,尤其涉及一种基于带约束多智能体强化学习的分布式作业车间调度方法。
背景技术
在作业车间调度领域,调度算法的设计和优化一直是研究的热点问题。传统的作业车间调度方法主要依赖于人工经验和启发式算法,这些方法在一定程度上能够实现调度的优化,但难以适应复杂约束条件下的调度问题。近年来,强化学习算法在许多领域取得了显著的成果,如何将强化学习应用于作业车间调度问题,以实现在满足约束条件的前提下,达到优化调度效果,成为了研究的重点。
然而,在现实生产环境中,作业车间调度问题可能涉及到多个生产线、多个工艺流程和多个约束条件,这使得调度问题变得更加复杂。传统的单智能体强化学习算法在这种情况下可能难以应对。
发明内容
本发明的目的是提出一种基于带约束多智能体强化学习的分布式作业车间调度方法,通过多智能体强化学习实现分布式调度策略的优化,并考虑约束条件以满足实际生产需求。
为了达到上述目的,在本发明提供了一种基于带约束多智能体强化学习的分布式作业车间调度方法,所述方法包括:
建立分布式作业车间调度问题模型,将分布式作业车间调度问题转化为多智能体强化学习问题;
设计带约束约束多智能体强化学习算法处理约束条件;
对约束条件进行处理;
利用带约束多智能体强化学习算法训练多个智能体,实现分布式作业车间调度的优化;
将训练好的多智能体强化学习模型应用于实际的分布式作业车间调度问题;
所述将训练好的多智能体强化学习模型应用于实际的分布式作业车间调度问题,具体为:
步骤一:识别各个分布式JSP的特点和约束条件;
步骤二:配置多智能体之间的通信方案;
步骤三:根据各个分布式JSP的特点和约束条件,初始化各个智能体的状态;
步骤四:多智能体协同调度;
步骤五:对调度结果进行评估。
进一步地,建立分布式作业车间调度问题模型中,所述建立分布式作业车间调度问题模型包括作业车间调度中的硬约束和软约束、状态空间、动作空间和奖励函数。
进一步地,所述建立分布式作业车间调度问题模型,将分布式作业车间调度问题转化为带约束多智能体强化学习问题,具体包括:
通过将分布式作业车间调度问题建模转化为带约束多智能体强化学习问题;
将硬约束和软约束纳入模型,使智能体在学习过程中自动考虑约束条件,生成满足实际需求的调度策略;
通过明确定义状态空间、动作空间和奖励函数,为智能体提供明确的学习目标,帮助学习目标找到最优的调度策略。
进一步地,所述带约束约束多智能体强化学习算法为分布式约束感知多智能体强化学习算法,所述分布式约束感知多智能体强化学习算法使多个智能体能够协同合作,在满足硬约束的前提下,优化软约束,具体包括:分布式状态、多智能体行动空间、约束感知的奖励函数、多智能体学习策略和通信机制;
所述分布式状态用于描述在调度范围内的作业和资源情况,所述分布式状态包括局部状态和全局状态;
所述多智能体行动空间用于根据自身状态和全局状态来选择合适的行动;
所述约束感知的奖励函数用于分别对硬约束和软约束进行考虑;
所述多智能体学习策略用于使每个智能体根据自身经验和来自其他智能体的信息进行学习;
所述通信机制用于使智能体在执行操作时互相交换信息。
进一步地,所述约束感知的奖励函数用于分别对硬约束和软约束进行考虑,具体包括:将所述硬约束的编码为状态转移概率,使得违反硬约束的行动不被允许;将所述软约束纳入奖励函数中,鼓励智能体在满足硬约束的前提下优化软约束。
进一步地,所述对约束条件进行处理,具体为:将硬约束纳入状态转移概率的计算,禁止违反硬约束的状态转移;将软约束融入奖励函数,使得智能体在学习过程中优化软约束。
进一步地,所述硬约束被定义为:工件的加工顺序和资源可用性;所述软约束被定义为作业完成时间、资源利用率和能耗。
进一步地,所利用带约束多智能体强化学习算法训练多个智能体中,所述智能体的训练包括目标函数、损失函数和训练过程;
所述目标函数包括优化软约束的奖励函数和考虑分布式环境下多智能体之间的协作,
所述奖励函数由三个子奖励函数相加得,所述三位子奖励函数定义为:
R_t(s,a,s'):与作业完成时间相关的奖励;R_u(s,a,s'):与资源利用率相关的奖励;R_e(s,a,s'):与能耗相关的奖励;
将子奖励函数线性组合,得到总奖励函数R(s,a,s'),表示如下:
R(s,a,s')=w_t*R_t(s,a,s')+w_u*R_u(s,a,s')+w_e*R_e(s,a,s');
其中,w_t、w_u和w_e是用于调整各子奖励函数权重的非负系数;
所述考虑分布式环境中促进多智能体之间的协作,引入一个协作因子C(s,a,s'),用于衡量智能体在状态s下执行动作a转移到状态s'时的协作程度,所述协作因子表示为:
C(s,a,s')=w4*I(a,s')+w5*D(s,a,s')
其中,I(a,s')表示执行动作a时,智能体之间的信息交换程度,表示用信息交换次数或其他度量;D(s,a,s')表示执行动作a后,智能体之间的分布式协作程度,表示协作任务完成度或其他度量来表示;w4和w5是权重参数,用于平衡信息交换和分布式协作的影响;
所述目标函数表示为:
Objective(s,a,s')=E[∑(t=0toT)γ^t*(R(s_t,a_t,s'_t)+C(s_t,a_t,s'_t))]
其中,E表示期望,T表示终止时间步,γ是折扣因子,用于平衡当前奖励和未来奖励;R(s_t,a_t,s'_t)是在时间步t,从状态s_t执行动作a_t转移到状态s'_t时的奖励;C(s_t,a_t,s'_t)是在时间步t,从状态s_t执行动作a_t转移到状态s'_t时的协作因子;t表示时间步。
进一步地,所述训练过程具体为:
步骤1:初始化智能体的当前Q函数参数θ和目标Q函数参数θ';
步骤2:初始化经验回放缓冲区D和ε,ε为探索因子,设定最大训练回合数M、最大训练步数N、批次大小B、更新目标Q函数参数θ'的间隔K;
步骤3:对于每个训练回合m,其中m=1,2,...,M,从初始状态s开始,执行以下操作:
步骤(3-1):对于每个训练步骤n,其中n=1,2,...,N,执行以下操作:
(1)使用ε-greedy策略根据当前状态s和Q函数选择一个动作a;
(2)执行动作a,观察转移到的新状态s'、奖励R(s,a,s')和协作因子C(s,a,s');
(3)将(s,a,s',R(s,a,s'),C(s,a,s'))存储到经验回放缓冲区D中;
(4)如果D中的经验数量达到批次大小B,执行以下操作:
①从经验回放缓冲区D中随机抽取一个大小为B的经验批次;
②对于批次中的每个经验(s_i,a_i,s_i',R_i,C_i),计算目标值
y_i=R_i+C_i+γ*max_a'Q(s_i',a';θ');
③使用梯度下降法更新Q函数参数θ,以减小损失函数L(θ)=E[(Q(s_i,a_i;θ)-y_i)^2];
④每K个训练步骤,更新目标Q函数参数θ'=θ;
(5)如果新状态s'是终止状态,则结束本回合;否则,将s'设为当前状态s,继续执行步骤(3-1);
步骤(3-2)逐渐降低探索因子ε,以便在训练过程中逐渐减少探索,增加利用。
本发明的有益技术效果至少在于以下几点:
(1)多智能体强化学习方法可以实现多个智能体之间的协同合作和分布式决策,提高调度问题的求解效率。
(2)多智能体强化学习方法还可以很好地适应动态变化的生产环境,实时调整调度策略以满足生产需求和约束条件。
(3)充分利用多智能体强化学习方法的优势,并考虑约束条件,实现高效且满足约束条件的作业车间调度。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1为本发明一种基于带约束多智能体强化学习的分布式作业车间调度方法流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
实施例一:
本发明提供的一种基于带约束多智能体强化学习的分布式作业车间调度方法,如图1所示,方法包括:
步骤1:建立分布式作业车间调度问题模型,将分布式作业车间调度问题转化为多智能体强化学习问题;
步骤2:设计带约束约束多智能体强化学习算法处理约束条件;
步骤3:对约束条件进行处理;
步骤4:利用带约束多智能体强化学习算法训练多个智能体,实现分布式作业车间调度的优化;
步骤5:所述将训练好的多智能体强化学习模型应用于实际的分布式作业车间调度问题。
在本发明其中一个实施例中,建立分布式作业车间调度问题模型中,建立分布式作业车间调度问题模型包括作业车间调度中的硬约束和软约束、状态空间、动作空间和奖励函数。
在本发明其中一个实施例中,建立分布式作业车间调度问题模型,将分布式作业车间调度问题转化为带约束多智能体强化学习问题,具体包括:
通过将分布式作业车间调度问题建模转化为带约束多智能体强化学习问题;
将硬约束和软约束纳入模型,使智能体在学习过程中自动考虑约束条件,生成满足实际需求的调度策略;
通过明确定义状态空间、动作空间和奖励函数,为智能体提供明确的学习目标,帮助学习目标找到最优的调度策略。
在本发明其中一个实施例中,带约束约束多智能体强化学习算法为分布式约束感知多智能体强化学习算法,分布式约束感知多智能体强化学习算法使多个智能体能够协同合作,在满足硬约束的前提下,优化软约束,具体包括:分布式状态表示、多智能体行动空间、约束感知的奖励函数、多智能体学习策略和通信机制;
分布式状态表示用于描述在调度范围内的作业和资源情况,分布式状态包括局部状态和全局状态;
具体地,在分布式约束感知多智能体强化学习算法中,每个智能体都有自己的局部状态表示,用于描述在其调度范围内的作业和资源情况。同时,全局状态表示用于描述整个分布式系统的总体状况。局部状态和全局状态共同构成了完整的状态表示。
多智能体行动空间用于根据自身状态和全局状态来选择合适的行动;
具体地,分布式约束感知多智能体强化学习算法定义了每个智能体的行动空间,包括作业分配、资源调度等操作。智能体根据自身状态和全局状态来选择合适的行动。
约束感知的奖励函数用于分别对硬约束和软约束进行考虑;
具体地,分布式约束感知多智能体强化学习算法设计了一种约束感知的奖励函数,将硬约束和软约束分别考虑。对于硬约束,将其编码为状态转移概率,使得违反硬约束的行动不被允许。对于软约束,将其纳入奖励函数中,鼓励智能体在满足硬约束的前提下优化软约束。
多智能体学习策略用于使每个智能体根据自身经验和来自其他智能体的信息进行学习;
具体地,分布式约束感知多智能体强化学习算法采用了一种分布式的多智能体学习策略,使得每个智能体可以根据自身经验和来自其他智能体的信息进行学习。通过使用分布式学习策略,分布式约束感知多智能体强化学习算法能够实现高效的协同调度。
通信机制用于使智能体在执行操作时互相交换信息;
具体地,为了支持多智能体之间的有效协作,布式约束感知多智能体强化学习算法设计了一种通信机制,使得智能体可以在执行操作时互相交换信息。通信机制有助于智能体协同优化全局目标,从而提高整体调度效果。
在本发明其中一个实施例中,约束感知的奖励函数用于分别对硬约束和软约束进行考虑,具体包括:将硬约束的编码为状态转移概率,使得违反硬约束的行动不被允许;将软约束纳入奖励函数中,鼓励智能体在满足硬约束的前提下优化软约束。
在本发明其中一个实施例中,对约束条件进行处理,具体为:将硬约束纳入状态转移概率的计算,禁止违反硬约束的状态转移;将软约束融入奖励函数,使得智能体在学习过程中优化软约束。
在本发明其中一个实施例中,硬约束被定义为:工件的加工顺序和资源可用性;软约束被定义为作业完成时间、资源利用率和能耗;
具体地,工件的加工顺序:工件在不同的工作站需要按照预定的加工顺序进行加工,不能违反加工顺序。
资源可用性:工作站只能在空闲时才能够处理工件。即在任意时刻,每个工作站只能处理一个工件。
作业完成时间:目标是最小化作业完成时间,即最后一个工件完成加工的时间。
资源利用率:在分布式环境中,提高资源利用率是重要的目标之一。我们希望所有的工作站都能尽量保持忙碌,从而提高整体效率。
能耗:在实际生产过程中,能源消耗也是一个需要关注的问题。我们希望能够在满足其他约束的前提下,最小化整个调度过程的能耗。
为了处理这些具有创新性的约束,本发明采用以下方法将它们定义到多智能体中:
对于硬约束,我们可以将它们融入状态表示中。例如,可以在状态中添加一个标记,表示某个工作站是否空闲。这样,在学习过程中,智能体会自然地遵循资源可用性约束。对于工件的加工顺序,可以将当前处理的工件的加工阶段纳入状态表示,从而使得智能体能够自然地遵循加工顺序。
对于软约束,可以将它们纳入奖励函数设计。例如,为了最小化作业完成时间,设计一个奖励函数,使得智能体在每完成一个工件时获得正奖励,而在等待时间过长时获得负奖励。这样,智能体会自动地寻求最小化作业完成时间。类似地,可以为资源利用率和能耗设计相应的奖励函数,使得智能体能够在学习过程中自动优化这些软约束。
在本发明其中一个实施例中,所利用带约束多智能体强化学习算法训练多个智能体中,智能体的训练包括目标函数、损失函数和训练过程;
所述目标函数包括优化软约束的奖励函数和考虑分布式环境下多智能体之间的协作,
所述奖励函数由三个子奖励函数相加得,所述三位子奖励函数定义为:
R_t(s,a,s'):与作业完成时间相关的奖励;R_u(s,a,s'):与资源利用率相关的奖励;R_e(s,a,s'):与能耗相关的奖励;
将子奖励函数线性组合,得到总奖励函数R(s,a,s'),表示如下:
R(s,a,s')=w_t*R_t(s,a,s')+w_u*R_u(s,a,s')+w_e*R_e(s,a,s');
其中,w_t、w_u和w_e是用于调整各子奖励函数权重的非负系数;
所述考虑分布式环境中促进多智能体之间的协作,引入一个协作因子C(s,a,s'),用于衡量智能体在状态s下执行动作a转移到状态s'时的协作程度,所述协作因子表示为:
C(s,a,s')=w4*I(a,s')+w5*D(s,a,s')
其中,I(a,s')表示执行动作a时,智能体之间的信息交换程度,表示用信息交换次数或其他度量;D(s,a,s')表示执行动作a后,智能体之间的分布式协作程度,表示协作任务完成度或其他度量来表示;w4和w5是权重参数,用于平衡信息交换和分布式协作的影响;
所述目标函数表示为:
Objective(s,a,s')=E[∑(t=0toT)γ^t*(R(s_t,a_t,s'_t)+C(s_t,a_t,s'_t))]
其中,E表示期望,T表示终止时间步,γ是折扣因子,用于平衡当前奖励和未来奖励;R(s_t,a_t,s'_t)是在时间步t,从状态s_t执行动作a_t转移到状态s'_t时的奖励;C(s_t,a_t,s'_t)是在时间步t,从状态s_t执行动作a_t转移到状态s'_t时的协作因子;t表示时间步。
在本发明其中一个实施例中,
训练过程具体为:
步骤1:初始化智能体的当前Q函数参数θ和目标Q函数参数θ';
步骤2:初始化经验回放缓冲区D和ε,ε为探索因子,设定最大训练回合数M、最大训练步数N、批次大小B、更新目标Q函数参数θ'的间隔K;
步骤3:对于每个训练回合m,其中m=1,2,...,M,从初始状态s开始,执行以下操作:
步骤(3-1):对于每个训练步骤n,其中n=1,2,...,N,执行以下操作:
(1)使用ε-greedy策略根据当前状态s和Q函数选择一个动作a;
(2)执行动作a,观察转移到的新状态s'、奖励R(s,a,s')和协作因子C(s,a,s');
(3)将(s,a,s',R(s,a,s'),C(s,a,s'))存储到经验回放缓冲区D中;
(4)如果D中的经验数量达到批次大小B,执行以下操作:
①从经验回放缓冲区D中随机抽取一个大小为B的经验批次;
②对于批次中的每个经验(s_i,a_i,s_i',R_i,C_i),计算目标值
y_i=R_i+C_i+γ*max_a'Q(s_i',a';θ');
③使用梯度下降法更新Q函数参数θ,以减小损失函数L(θ)=E[(Q(s_i,a_i;θ)-y_i)^2];
④每K个训练步骤,更新目标Q函数参数θ'=θ;
(5)如果新状态s'是终止状态,则结束本回合;否则,将s'设为当前状态s,继续执行步骤(3-1);
步骤(3-2)逐渐降低探索因子ε,以便在训练过程中逐渐减少探索,增加利用。
在本发明其中一个实施例中,在实际应用中,需要考虑各个分布式JSP之间可能存在的差异,例如不同的约束条件,以及为实现多智能体之间的有效交互,设置合适的硬件通信方案。将训练好的多智能体强化学习模型应用于实际的分布式作业车间调度问题,具体为:
步骤一:识别各个分布式JSP的特点和约束条件,实际应用中,需要首先分析各个分布式JSP的特点,例如工艺流程、资源分布、作业批次等,以及各个JSP可能存在的不同硬约束和软约束。这些信息将用于后续的调度决策。
步骤二:配置多智能体之间的通信方案,为了实现多智能体之间的有效协同调度,需要设计合适的硬件通信方案,例如使用无线通信网络、光纤通信网络或者其他可靠的通信技术。通信方案需要确保数据传输的实时性、可靠性和安全性,以支持多智能体之间的高效协作。
步骤三:根据各个分布式JSP的特点和约束条件,初始化各个智能体的状态,根据各个分布式JSP的特点和约束条件,初始化各个智能体的状态。初始化的状态应包含关键的作业车间信息,例如作业进度、资源分布、当前约束条件等。
步骤四:多智能体协同调度,在实际调度过程中,各个智能体根据本地状态和全局信息,选择最优的调度策略,并执行相应的动作。在执行过程中,智能体需要遵循硬约束,并尽量优化软约束。同时,各个智能体之间需要通过通信方案实时交换信息,以实现全局的协同调度。
步骤五:对调度结果进行评估,在完成整个作业车间的调度任务后,需要对调度结果进行评估。评估指标可以包括作业完成时间、资源利用率、违反约束的程度等。通过对调度结果的评估,可以进一步优化多智能体强化学习算法,提高整体调度效果。
在实际应用阶段,我们需要充分考虑各个分布式JSP之间的差异,尤其是不同的约束条件,同时设置合适的硬件通信方案,以实现多智能体之间的有效协同调度。这种方法对解决分布式JSP具有重要的实际意义。
尽管已经示出和描述了本发明的实施例,本领域技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形,本发明的范围由权利要求及其等同物限定。
Claims (6)
1.基于带约束多智能体强化学习的分布式作业车间调度方法,其特征在于,所述方法包括:
建立分布式作业车间调度问题模型,将分布式作业车间调度问题转化为多智能体强化学习问题;
设计带约束多智能体强化学习算法处理约束条件;
对约束条件进行处理;
利用带约束多智能体强化学习算法训练多个智能体,实现分布式作业车间调度的优化;
将训练好的多智能体强化学习模型应用于实际的分布式作业车间调度问题;
建立分布式作业车间调度问题模型中,所述建立分布式作业车间调度问题模型包括作业车间调度中的硬约束和软约束、状态空间、动作空间和奖励函数;
所述对约束条件进行处理,具体为:将硬约束纳入状态转移概率的计算,禁止违反硬约束的状态转移;将软约束融入奖励函数,使得智能体在学习过程中优化软约束;
所述硬约束被定义为:工件的加工顺序和资源可用性;所述软约束被定义为作业完成时间、资源利用率和能耗;
其中,在利用带约束多智能体强化学习算法训练多个智能体中,所述智能体的训练包括目标函数、损失函数和训练过程;
所述目标函数包括优化软约束的奖励函数和考虑分布式环境下多智能体之间的协作,
所述奖励函数由三个子奖励函数相加得,三个子奖励函数定义为:
R_t(s,a,s'):与作业完成时间相关的奖励;R_u(s,a,s'):与资源利用率相关的奖励;R_e(s,a,s'):与能耗相关的奖励;
将子奖励函数线性组合,得到总奖励函数R(s,a,s'),表示如下:
R(s,a,s')=w_t*R_t(s,a,s')+w_u*R_u(s,a,s')+w_e*R_e(s,a,s');
其中,w_t、w_u和w_e是用于调整各子奖励函数权重的非负系数;
所述考虑分布式环境下多智能体之间的协作,引入一个协作因子C(s,a,s'),用于衡量智能体在状态s下执行动作a转移到状态s'时的协作程度,所述协作因子表示为:
C(s,a,s')=w4*I(a,s')+w5*D(s,a,s')
其中,I(a,s')表示执行动作a时,智能体之间的信息交换程度,表示用信息交换次数或其他度量;D(s,a,s')表示执行动作a后,智能体之间的分布式协作程度,表示协作任务完成度或其他度量来表示;w4和w5是权重参数,用于平衡信息交换和分布式协作的影响;
所述目标函数表示为:
Objective(s,a,s')=E[∑(t=0toT)γ^t*(R(s_t,a_t,s'_t)+C(s_t,a_t,s'_t))]
其中,E表示期望,T表示终止时间步,γ是折扣因子,用于平衡当前奖励和未来奖励;R(s_t,a_t,s'_t)是在时间步t,从状态s_t执行动作a_t转移到状态s'_t时的奖励;C(s_t,a_t,s'_t)是在时间步t,从状态s_t执行动作a_t转移到状态s'_t时的协作因子;t表示时间步。
2.根据权利要求1所述的基于带约束多智能体强化学习的分布式作业车间调度方法,其特征在于,所述建立分布式作业车间调度问题模型,将分布式作业车间调度问题转化为带约束多智能体强化学习问题,具体包括:
通过将分布式作业车间调度问题建模转化为带约束多智能体强化学习问题;
将硬约束和软约束纳入模型,使智能体在学习过程中自动考虑约束条件,生成满足实际需求的调度策略;
通过明确定义状态空间、动作空间和奖励函数,为智能体提供明确的学习目标,帮助学习目标找到最优的调度策略。
3.根据权利要求2所述的基于带约束多智能体强化学习的分布式作业车间调度方法,其特征在于,所述带约束约束多智能体强化学习算法为分布式约束感知多智能体强化学习算法,所述分布式约束感知多智能体强化学习算法使多个智能体能够协同合作,在满足硬约束的前提下,优化软约束,具体包括:分布式状态、多智能体行动空间、约束感知的奖励函数、多智能体学习策略和通信机制;
所述分布式状态用于描述在调度范围内的作业和资源情况,所述分布式状态包括局部状态和全局状态;
所述多智能体行动空间用于根据自身状态和全局状态来选择合适的行动;
所述约束感知的奖励函数用于分别对硬约束和软约束进行考虑;
所述多智能体学习策略用于使每个智能体根据自身经验和来自其他智能体的信息进行学习;
所述通信机制用于使智能体在执行操作时互相交换信息。
4.根据权利要求3所述的基于带约束多智能体强化学习的分布式作业车间调度方法,其特征在于,所述约束感知的奖励函数用于分别对硬约束和软约束进行考虑,具体包括:将所述硬约束的编码为状态转移概率,使得违反硬约束的行动不被允许;将所述软约束纳入奖励函数中,鼓励智能体在满足硬约束的前提下优化软约束。
5.根据权利要求1所述的基于带约束多智能体强化学习的分布式作业车间调度方法,其特征在于,所述损失函数表示为
L(θ)=E[(R(s,a,s')+C(s,a,s')+γ*max_a'Q(s',a';θ')-Q(s,a;θ))^2]
其中,θ和θ'分别表示当前和目标Q函数的参数,γ是折扣因子,E表示期望。
6.根据权利要求5所述的基于带约束多智能体强化学习的分布式作业车间调度方法,其特征在于,所述训练过程具体为:
步骤1:初始化智能体的当前Q函数参数θ和目标Q函数参数θ';
步骤2:初始化经验回放缓冲区D和ε,ε为探索因子,设定最大训练回合数M、最大训练步数N、批次大小B、更新目标Q函数参数θ'的间隔K;
步骤3:对于每个训练回合m,其中m=1,2,...,M,从初始状态s开始,执行以下操作:
步骤(3-1):对于每个训练步骤n,其中n=1,2,...,N,执行以下操作:
(1)使用ε-greedy策略根据当前状态s和Q函数选择一个动作a;
(2)执行动作a,观察转移到的新状态s'、奖励R(s,a,s')和协作因子C(s,a,s');
(3)将(s,a,s',R(s,a,s'),C(s,a,s'))存储到经验回放缓冲区D中;
(4)如果D中的经验数量达到批次大小B,执行以下操作:
从经验回放缓冲区D中随机抽取一个大小为B的经验批次;
对于批次中的每个经验(s_i,a_i,s_i',R_i,C_i),计算目标值y_i=R_i+C_i+γ*max_a'Q(s_i',a';θ');
使用梯度下降法更新Q函数参数θ,以减小损失函数L(θ)=E[(Q(s_i,a_i;θ)-y_i)^2];
每K个训练步骤,更新目标Q函数参数θ'=θ;
(5)如果新状态s'是终止状态,则结束本回合;否则,将s'设为当前状态s,继续执行步骤(3-1);
步骤(3-2)逐渐降低探索因子ε,以便在训练过程中逐渐减少探索,增加利用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310355705.4A CN116307241B (zh) | 2023-04-04 | 2023-04-04 | 基于带约束多智能体强化学习的分布式作业车间调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310355705.4A CN116307241B (zh) | 2023-04-04 | 2023-04-04 | 基于带约束多智能体强化学习的分布式作业车间调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116307241A CN116307241A (zh) | 2023-06-23 |
CN116307241B true CN116307241B (zh) | 2024-01-05 |
Family
ID=86813240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310355705.4A Active CN116307241B (zh) | 2023-04-04 | 2023-04-04 | 基于带约束多智能体强化学习的分布式作业车间调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116307241B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107678850A (zh) * | 2017-10-17 | 2018-02-09 | 合肥工业大学 | 中继卫星任务调度方法及装置 |
CN111950873A (zh) * | 2020-07-30 | 2020-11-17 | 上海卫星工程研究所 | 基于深度强化学习的卫星实时引导任务规划方法及系统 |
WO2021068638A1 (zh) * | 2019-10-12 | 2021-04-15 | 中国海洋大学 | 结合tamer框架和面部表情反馈的交互强化学习方法 |
US11386306B1 (en) * | 2018-12-13 | 2022-07-12 | Amazon Technologies, Inc. | Re-identification of agents using image analysis and machine learning |
KR20220141646A (ko) * | 2021-04-13 | 2022-10-20 | 한국전자통신연구원 | 강화학습을 이용한 다중 에이전트 agv 스케줄링 방법, 서버 및 agv |
CN115473286A (zh) * | 2022-09-02 | 2022-12-13 | 西南大学 | 基于约束投影强化学习的分布式经济调度优化方法 |
CN115577934A (zh) * | 2022-10-09 | 2023-01-06 | 北京理工大学 | 一种基于多智能体强化学习的应急方案更新方法及装置 |
CN115714382A (zh) * | 2022-11-23 | 2023-02-24 | 国网福建省电力有限公司经济技术研究院 | 一种基于安全强化学习的主动配电网实时调度方法及装置 |
CN115800322A (zh) * | 2023-01-09 | 2023-03-14 | 西南大学 | 一种调频方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163720A (zh) * | 2020-10-22 | 2021-01-01 | 哈尔滨工程大学 | 基于车联网的多智能体无人驾驶电动汽车换电调度方法 |
-
2023
- 2023-04-04 CN CN202310355705.4A patent/CN116307241B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107678850A (zh) * | 2017-10-17 | 2018-02-09 | 合肥工业大学 | 中继卫星任务调度方法及装置 |
US11386306B1 (en) * | 2018-12-13 | 2022-07-12 | Amazon Technologies, Inc. | Re-identification of agents using image analysis and machine learning |
WO2021068638A1 (zh) * | 2019-10-12 | 2021-04-15 | 中国海洋大学 | 结合tamer框架和面部表情反馈的交互强化学习方法 |
CN111950873A (zh) * | 2020-07-30 | 2020-11-17 | 上海卫星工程研究所 | 基于深度强化学习的卫星实时引导任务规划方法及系统 |
KR20220141646A (ko) * | 2021-04-13 | 2022-10-20 | 한국전자통신연구원 | 강화학습을 이용한 다중 에이전트 agv 스케줄링 방법, 서버 및 agv |
CN115473286A (zh) * | 2022-09-02 | 2022-12-13 | 西南大学 | 基于约束投影强化学习的分布式经济调度优化方法 |
CN115577934A (zh) * | 2022-10-09 | 2023-01-06 | 北京理工大学 | 一种基于多智能体强化学习的应急方案更新方法及装置 |
CN115714382A (zh) * | 2022-11-23 | 2023-02-24 | 国网福建省电力有限公司经济技术研究院 | 一种基于安全强化学习的主动配电网实时调度方法及装置 |
CN115800322A (zh) * | 2023-01-09 | 2023-03-14 | 西南大学 | 一种调频方法 |
Non-Patent Citations (1)
Title |
---|
l1l2l∞ 范数下带约束的最小化最近距离和问题;蒋建林;《安徽大学学报》;第32卷(第1期);21-24 * |
Also Published As
Publication number | Publication date |
---|---|
CN116307241A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109388484B (zh) | 一种基于Deep Q-network算法的多资源云作业调度方法 | |
CN109492774B (zh) | 一种基于深度学习的云资源调度方法 | |
CN110488861A (zh) | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 | |
CN111026548B (zh) | 一种逆向深度强化学习的电力通信设备测试资源调度方法 | |
CN111199272B (zh) | 一种面向智能车间的自适应调度方法 | |
CN104065745A (zh) | 云计算动态资源调度系统和方法 | |
CN111611062B (zh) | 云边协同分层计算方法及云边协同分层计算系统 | |
CN104077634B (zh) | 基于多目标优化的主动‑反应式动态项目调度方法 | |
CN111047272A (zh) | 一种用于多语言协同开发的项目调度方法及装置 | |
CN112261725B (zh) | 一种基于深度强化学习的数据包传输智能决策方法 | |
He | Optimization of edge delay sensitive task scheduling based on genetic algorithm | |
Lv et al. | Edge computing task offloading for environmental perception of autonomous vehicles in 6G networks | |
CN116307241B (zh) | 基于带约束多智能体强化学习的分布式作业车间调度方法 | |
Tang et al. | Collaborative cloud-edge-end task offloading with task dependency based on deep reinforcement learning | |
CN116939866A (zh) | 一种基于协同计算和资源分配联合优化的无线联邦学习效率提升方法 | |
CN116151581A (zh) | 一种柔性车间调度方法、系统及电子设备 | |
WO2020062047A1 (zh) | 更新调度规则的方法、设备、系统、存储介质和终端 | |
Zaman et al. | Evolutionary algorithm for project scheduling under irregular resource changes | |
Cui et al. | Cloud-edge collaboration with green scheduling and deep learning for industrial Internet of Things | |
Zou et al. | Task-oriented resource allocation for mobile edge computing with multi-agent reinforcement learning | |
CN113946440A (zh) | 一种绿色云环境下的资源调度方法 | |
CN113890653A (zh) | 面向多用户利益的多智能体强化学习功率分配方法 | |
Wang | A Business Management Resource‐Scheduling Method based on Deep Learning Algorithm | |
Huang et al. | Digital Twin Assisted DAG Task Scheduling Via Evolutionary Selection MARL in Large-Scale Mobile Edge Network | |
Wang et al. | Cloud-Native Based Task Scheduling and Resource Allocation for Internet of Vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |