CN116307241B

CN116307241B - 基于带约束多智能体强化学习的分布式作业车间调度方法

Info

Publication number: CN116307241B
Application number: CN202310355705.4A
Authority: CN
Inventors: 欧阳雅捷
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2024-01-05
Anticipated expiration: 2043-04-04
Also published as: CN116307241A

Abstract

本发明提出了一种基于带约束多智能体强化学习的分布式作业车间调度方法，建立分布式作业车间调度问题模型，将分布式作业车间调度问题转化为多智能体强化学习问题；设计带约束约束多智能体强化学习算法处理约束条件；对约束条件进行处理；利用带约束多智能体强化学习算法训练多个智能体，实现分布式作业车间调度的优化，结合实际应用。该方法通过多智能体强化学习实现分布式调度策略的优化，并考虑约束条件以满足实际生产需求。本发明旨在充分利用多智能体强化学习方法的优势，并考虑约束条件，实现高效且满足约束条件的作业车间调度。

Description

基于带约束多智能体强化学习的分布式作业车间调度方法

技术领域

本发明属于作业车间调度领域，尤其涉及一种基于带约束多智能体强化学习的分布式作业车间调度方法。

背景技术

在作业车间调度领域，调度算法的设计和优化一直是研究的热点问题。传统的作业车间调度方法主要依赖于人工经验和启发式算法，这些方法在一定程度上能够实现调度的优化，但难以适应复杂约束条件下的调度问题。近年来，强化学习算法在许多领域取得了显著的成果，如何将强化学习应用于作业车间调度问题，以实现在满足约束条件的前提下，达到优化调度效果，成为了研究的重点。

然而，在现实生产环境中，作业车间调度问题可能涉及到多个生产线、多个工艺流程和多个约束条件，这使得调度问题变得更加复杂。传统的单智能体强化学习算法在这种情况下可能难以应对。

发明内容

本发明的目的是提出一种基于带约束多智能体强化学习的分布式作业车间调度方法，通过多智能体强化学习实现分布式调度策略的优化，并考虑约束条件以满足实际生产需求。

为了达到上述目的，在本发明提供了一种基于带约束多智能体强化学习的分布式作业车间调度方法，所述方法包括：

建立分布式作业车间调度问题模型，将分布式作业车间调度问题转化为多智能体强化学习问题；

设计带约束约束多智能体强化学习算法处理约束条件；

对约束条件进行处理；

利用带约束多智能体强化学习算法训练多个智能体，实现分布式作业车间调度的优化；

将训练好的多智能体强化学习模型应用于实际的分布式作业车间调度问题；

所述将训练好的多智能体强化学习模型应用于实际的分布式作业车间调度问题，具体为：

步骤一：识别各个分布式JSP的特点和约束条件；

步骤二：配置多智能体之间的通信方案；

步骤三：根据各个分布式JSP的特点和约束条件，初始化各个智能体的状态；

步骤四：多智能体协同调度；

步骤五：对调度结果进行评估。

进一步地，建立分布式作业车间调度问题模型中，所述建立分布式作业车间调度问题模型包括作业车间调度中的硬约束和软约束、状态空间、动作空间和奖励函数。

进一步地，所述建立分布式作业车间调度问题模型，将分布式作业车间调度问题转化为带约束多智能体强化学习问题，具体包括：

通过将分布式作业车间调度问题建模转化为带约束多智能体强化学习问题；

将硬约束和软约束纳入模型，使智能体在学习过程中自动考虑约束条件，生成满足实际需求的调度策略；

通过明确定义状态空间、动作空间和奖励函数，为智能体提供明确的学习目标，帮助学习目标找到最优的调度策略。

进一步地，所述带约束约束多智能体强化学习算法为分布式约束感知多智能体强化学习算法，所述分布式约束感知多智能体强化学习算法使多个智能体能够协同合作，在满足硬约束的前提下，优化软约束，具体包括：分布式状态、多智能体行动空间、约束感知的奖励函数、多智能体学习策略和通信机制；

所述分布式状态用于描述在调度范围内的作业和资源情况，所述分布式状态包括局部状态和全局状态；

所述多智能体行动空间用于根据自身状态和全局状态来选择合适的行动；

所述约束感知的奖励函数用于分别对硬约束和软约束进行考虑；

所述多智能体学习策略用于使每个智能体根据自身经验和来自其他智能体的信息进行学习；

所述通信机制用于使智能体在执行操作时互相交换信息。

进一步地，所述约束感知的奖励函数用于分别对硬约束和软约束进行考虑，具体包括：将所述硬约束的编码为状态转移概率，使得违反硬约束的行动不被允许；将所述软约束纳入奖励函数中，鼓励智能体在满足硬约束的前提下优化软约束。

进一步地，所述对约束条件进行处理，具体为：将硬约束纳入状态转移概率的计算，禁止违反硬约束的状态转移；将软约束融入奖励函数，使得智能体在学习过程中优化软约束。

进一步地，所述硬约束被定义为：工件的加工顺序和资源可用性；所述软约束被定义为作业完成时间、资源利用率和能耗。

进一步地，所利用带约束多智能体强化学习算法训练多个智能体中，所述智能体的训练包括目标函数、损失函数和训练过程；

所述目标函数包括优化软约束的奖励函数和考虑分布式环境下多智能体之间的协作，

所述奖励函数由三个子奖励函数相加得，所述三位子奖励函数定义为：

R_t(s,a,s')：与作业完成时间相关的奖励；R_u(s,a,s')：与资源利用率相关的奖励；R_e(s,a,s')：与能耗相关的奖励；

将子奖励函数线性组合，得到总奖励函数R(s,a,s')，表示如下：

R(s,a,s')＝w_t*R_t(s,a,s')+w_u*R_u(s,a,s')+w_e*R_e(s,a,s')；

其中，w_t、w_u和w_e是用于调整各子奖励函数权重的非负系数；

所述考虑分布式环境中促进多智能体之间的协作，引入一个协作因子C(s,a,s')，用于衡量智能体在状态s下执行动作a转移到状态s'时的协作程度，所述协作因子表示为：

C(s,a,s')＝w4*I(a,s')+w5*D(s,a,s')

其中，I(a,s')表示执行动作a时，智能体之间的信息交换程度，表示用信息交换次数或其他度量；D(s,a,s')表示执行动作a后，智能体之间的分布式协作程度，表示协作任务完成度或其他度量来表示；w4和w5是权重参数，用于平衡信息交换和分布式协作的影响；

所述目标函数表示为：

Objective(s,a,s')＝E[∑(t＝0toT)γ^t*(R(s_t,a_t,s'_t)+C(s_t,a_t,s'_t))]

其中，E表示期望，T表示终止时间步，γ是折扣因子，用于平衡当前奖励和未来奖励；R(s_t,a_t,s'_t)是在时间步t，从状态s_t执行动作a_t转移到状态s'_t时的奖励；C(s_t,a_t,s'_t)是在时间步t，从状态s_t执行动作a_t转移到状态s'_t时的协作因子；t表示时间步。

进一步地，所述训练过程具体为：

步骤1：初始化智能体的当前Q函数参数θ和目标Q函数参数θ'；

步骤2：初始化经验回放缓冲区D和ε，ε为探索因子，设定最大训练回合数M、最大训练步数N、批次大小B、更新目标Q函数参数θ'的间隔K；

步骤3：对于每个训练回合m，其中m＝1,2,...,M，从初始状态s开始，执行以下操作：

步骤(3-1)：对于每个训练步骤n，其中n＝1,2,...,N，执行以下操作：

(1)使用ε-greedy策略根据当前状态s和Q函数选择一个动作a；

(2)执行动作a，观察转移到的新状态s'、奖励R(s,a,s')和协作因子C(s,a,s')；

(3)将(s,a,s',R(s,a,s'),C(s,a,s'))存储到经验回放缓冲区D中；

(4)如果D中的经验数量达到批次大小B，执行以下操作：

①从经验回放缓冲区D中随机抽取一个大小为B的经验批次；

②对于批次中的每个经验(s_i,a_i,s_i',R_i,C_i)，计算目标值

y_i＝R_i+C_i+γ*max_a'Q(s_i',a'；θ')；

③使用梯度下降法更新Q函数参数θ，以减小损失函数L(θ)＝E[(Q(s_i,a_i；θ)-y_i)^2]；

④每K个训练步骤，更新目标Q函数参数θ'＝θ；

(5)如果新状态s'是终止状态，则结束本回合；否则，将s'设为当前状态s，继续执行步骤(3-1)；

步骤(3-2)逐渐降低探索因子ε，以便在训练过程中逐渐减少探索，增加利用。

本发明的有益技术效果至少在于以下几点：

(1)多智能体强化学习方法可以实现多个智能体之间的协同合作和分布式决策，提高调度问题的求解效率。

(2)多智能体强化学习方法还可以很好地适应动态变化的生产环境，实时调整调度策略以满足生产需求和约束条件。

(3)充分利用多智能体强化学习方法的优势，并考虑约束条件，实现高效且满足约束条件的作业车间调度。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1为本发明一种基于带约束多智能体强化学习的分布式作业车间调度方法流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

实施例一：

本发明提供的一种基于带约束多智能体强化学习的分布式作业车间调度方法，如图1所示，方法包括：

步骤1：建立分布式作业车间调度问题模型，将分布式作业车间调度问题转化为多智能体强化学习问题；

步骤2：设计带约束约束多智能体强化学习算法处理约束条件；

步骤3：对约束条件进行处理；

步骤4：利用带约束多智能体强化学习算法训练多个智能体，实现分布式作业车间调度的优化；

步骤5：所述将训练好的多智能体强化学习模型应用于实际的分布式作业车间调度问题。

在本发明其中一个实施例中，建立分布式作业车间调度问题模型中，建立分布式作业车间调度问题模型包括作业车间调度中的硬约束和软约束、状态空间、动作空间和奖励函数。

在本发明其中一个实施例中，建立分布式作业车间调度问题模型，将分布式作业车间调度问题转化为带约束多智能体强化学习问题，具体包括：

在本发明其中一个实施例中，带约束约束多智能体强化学习算法为分布式约束感知多智能体强化学习算法，分布式约束感知多智能体强化学习算法使多个智能体能够协同合作，在满足硬约束的前提下，优化软约束，具体包括：分布式状态表示、多智能体行动空间、约束感知的奖励函数、多智能体学习策略和通信机制；

分布式状态表示用于描述在调度范围内的作业和资源情况，分布式状态包括局部状态和全局状态；

具体地，在分布式约束感知多智能体强化学习算法中，每个智能体都有自己的局部状态表示，用于描述在其调度范围内的作业和资源情况。同时，全局状态表示用于描述整个分布式系统的总体状况。局部状态和全局状态共同构成了完整的状态表示。

多智能体行动空间用于根据自身状态和全局状态来选择合适的行动；

具体地，分布式约束感知多智能体强化学习算法定义了每个智能体的行动空间，包括作业分配、资源调度等操作。智能体根据自身状态和全局状态来选择合适的行动。

约束感知的奖励函数用于分别对硬约束和软约束进行考虑；

具体地，分布式约束感知多智能体强化学习算法设计了一种约束感知的奖励函数，将硬约束和软约束分别考虑。对于硬约束，将其编码为状态转移概率，使得违反硬约束的行动不被允许。对于软约束，将其纳入奖励函数中，鼓励智能体在满足硬约束的前提下优化软约束。

多智能体学习策略用于使每个智能体根据自身经验和来自其他智能体的信息进行学习；

具体地，分布式约束感知多智能体强化学习算法采用了一种分布式的多智能体学习策略，使得每个智能体可以根据自身经验和来自其他智能体的信息进行学习。通过使用分布式学习策略，分布式约束感知多智能体强化学习算法能够实现高效的协同调度。

通信机制用于使智能体在执行操作时互相交换信息；

具体地，为了支持多智能体之间的有效协作，布式约束感知多智能体强化学习算法设计了一种通信机制，使得智能体可以在执行操作时互相交换信息。通信机制有助于智能体协同优化全局目标，从而提高整体调度效果。

在本发明其中一个实施例中，约束感知的奖励函数用于分别对硬约束和软约束进行考虑，具体包括：将硬约束的编码为状态转移概率，使得违反硬约束的行动不被允许；将软约束纳入奖励函数中，鼓励智能体在满足硬约束的前提下优化软约束。

在本发明其中一个实施例中，对约束条件进行处理，具体为：将硬约束纳入状态转移概率的计算，禁止违反硬约束的状态转移；将软约束融入奖励函数，使得智能体在学习过程中优化软约束。

在本发明其中一个实施例中，硬约束被定义为：工件的加工顺序和资源可用性；软约束被定义为作业完成时间、资源利用率和能耗；

具体地，工件的加工顺序：工件在不同的工作站需要按照预定的加工顺序进行加工，不能违反加工顺序。

资源可用性：工作站只能在空闲时才能够处理工件。即在任意时刻，每个工作站只能处理一个工件。

作业完成时间：目标是最小化作业完成时间，即最后一个工件完成加工的时间。

资源利用率：在分布式环境中，提高资源利用率是重要的目标之一。我们希望所有的工作站都能尽量保持忙碌，从而提高整体效率。

能耗：在实际生产过程中，能源消耗也是一个需要关注的问题。我们希望能够在满足其他约束的前提下，最小化整个调度过程的能耗。

为了处理这些具有创新性的约束，本发明采用以下方法将它们定义到多智能体中：

对于硬约束，我们可以将它们融入状态表示中。例如，可以在状态中添加一个标记，表示某个工作站是否空闲。这样，在学习过程中，智能体会自然地遵循资源可用性约束。对于工件的加工顺序，可以将当前处理的工件的加工阶段纳入状态表示，从而使得智能体能够自然地遵循加工顺序。

对于软约束，可以将它们纳入奖励函数设计。例如，为了最小化作业完成时间，设计一个奖励函数，使得智能体在每完成一个工件时获得正奖励，而在等待时间过长时获得负奖励。这样，智能体会自动地寻求最小化作业完成时间。类似地，可以为资源利用率和能耗设计相应的奖励函数，使得智能体能够在学习过程中自动优化这些软约束。

在本发明其中一个实施例中，所利用带约束多智能体强化学习算法训练多个智能体中，智能体的训练包括目标函数、损失函数和训练过程；

R(s,a,s')＝w_t*R_t(s,a,s')+w_u*R_u(s,a,s')+w_e*R_e(s,a,s')；

C(s,a,s')＝w4*I(a,s')+w5*D(s,a,s')

所述目标函数表示为：

Objective(s,a,s')＝E[∑(t＝0toT)γ^t*(R(s_t,a_t,s'_t)+C(s_t,a_t,s'_t))]

在本发明其中一个实施例中，

训练过程具体为：

(1)使用ε-greedy策略根据当前状态s和Q函数选择一个动作a；

(3)将(s,a,s',R(s,a,s'),C(s,a,s'))存储到经验回放缓冲区D中；

(4)如果D中的经验数量达到批次大小B，执行以下操作：

①从经验回放缓冲区D中随机抽取一个大小为B的经验批次；

②对于批次中的每个经验(s_i,a_i,s_i',R_i,C_i)，计算目标值

y_i＝R_i+C_i+γ*max_a'Q(s_i',a'；θ')；

④每K个训练步骤，更新目标Q函数参数θ'＝θ；

在本发明其中一个实施例中，在实际应用中，需要考虑各个分布式JSP之间可能存在的差异，例如不同的约束条件，以及为实现多智能体之间的有效交互，设置合适的硬件通信方案。将训练好的多智能体强化学习模型应用于实际的分布式作业车间调度问题，具体为：

步骤一：识别各个分布式JSP的特点和约束条件，实际应用中，需要首先分析各个分布式JSP的特点，例如工艺流程、资源分布、作业批次等，以及各个JSP可能存在的不同硬约束和软约束。这些信息将用于后续的调度决策。

步骤二：配置多智能体之间的通信方案，为了实现多智能体之间的有效协同调度，需要设计合适的硬件通信方案，例如使用无线通信网络、光纤通信网络或者其他可靠的通信技术。通信方案需要确保数据传输的实时性、可靠性和安全性，以支持多智能体之间的高效协作。

步骤三：根据各个分布式JSP的特点和约束条件，初始化各个智能体的状态，根据各个分布式JSP的特点和约束条件，初始化各个智能体的状态。初始化的状态应包含关键的作业车间信息，例如作业进度、资源分布、当前约束条件等。

步骤四：多智能体协同调度，在实际调度过程中，各个智能体根据本地状态和全局信息，选择最优的调度策略，并执行相应的动作。在执行过程中，智能体需要遵循硬约束，并尽量优化软约束。同时，各个智能体之间需要通过通信方案实时交换信息，以实现全局的协同调度。

步骤五：对调度结果进行评估，在完成整个作业车间的调度任务后，需要对调度结果进行评估。评估指标可以包括作业完成时间、资源利用率、违反约束的程度等。通过对调度结果的评估，可以进一步优化多智能体强化学习算法，提高整体调度效果。

在实际应用阶段，我们需要充分考虑各个分布式JSP之间的差异，尤其是不同的约束条件，同时设置合适的硬件通信方案，以实现多智能体之间的有效协同调度。这种方法对解决分布式JSP具有重要的实际意义。

尽管已经示出和描述了本发明的实施例，本领域技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变形，本发明的范围由权利要求及其等同物限定。

Claims

1.基于带约束多智能体强化学习的分布式作业车间调度方法，其特征在于，所述方法包括：

设计带约束多智能体强化学习算法处理约束条件；

对约束条件进行处理；

建立分布式作业车间调度问题模型中，所述建立分布式作业车间调度问题模型包括作业车间调度中的硬约束和软约束、状态空间、动作空间和奖励函数；

所述对约束条件进行处理，具体为：将硬约束纳入状态转移概率的计算，禁止违反硬约束的状态转移；将软约束融入奖励函数，使得智能体在学习过程中优化软约束；

所述硬约束被定义为：工件的加工顺序和资源可用性；所述软约束被定义为作业完成时间、资源利用率和能耗；

其中，在利用带约束多智能体强化学习算法训练多个智能体中，所述智能体的训练包括目标函数、损失函数和训练过程；

所述奖励函数由三个子奖励函数相加得，三个子奖励函数定义为：

R(s,a,s')=w_t*R_t(s,a,s')+w_u*R_u(s,a,s')+w_e*R_e(s,a,s')；

所述考虑分布式环境下多智能体之间的协作，引入一个协作因子C(s,a,s')，用于衡量智能体在状态s下执行动作a转移到状态s'时的协作程度，所述协作因子表示为：

C(s,a,s')=w4*I(a,s')+w5*D(s,a,s')

所述目标函数表示为：

Objective(s,a,s')=E[∑(t=0toT)γ^t*(R(s_t,a_t,s'_t)+C(s_t,a_t,s'_t))]

2.根据权利要求1所述的基于带约束多智能体强化学习的分布式作业车间调度方法，其特征在于，所述建立分布式作业车间调度问题模型，将分布式作业车间调度问题转化为带约束多智能体强化学习问题，具体包括：

3.根据权利要求2所述的基于带约束多智能体强化学习的分布式作业车间调度方法，其特征在于，所述带约束约束多智能体强化学习算法为分布式约束感知多智能体强化学习算法，所述分布式约束感知多智能体强化学习算法使多个智能体能够协同合作，在满足硬约束的前提下，优化软约束，具体包括：分布式状态、多智能体行动空间、约束感知的奖励函数、多智能体学习策略和通信机制；

所述通信机制用于使智能体在执行操作时互相交换信息。

4.根据权利要求3所述的基于带约束多智能体强化学习的分布式作业车间调度方法，其特征在于，所述约束感知的奖励函数用于分别对硬约束和软约束进行考虑，具体包括：将所述硬约束的编码为状态转移概率，使得违反硬约束的行动不被允许；将所述软约束纳入奖励函数中，鼓励智能体在满足硬约束的前提下优化软约束。

5.根据权利要求1所述的基于带约束多智能体强化学习的分布式作业车间调度方法，其特征在于，所述损失函数表示为

L(θ)=E[(R(s,a,s')+C(s,a,s')+γ*max_a'Q(s',a';θ')-Q(s,a;θ))^2]

其中，θ和θ'分别表示当前和目标Q函数的参数，γ是折扣因子，E表示期望。

6.根据权利要求5所述的基于带约束多智能体强化学习的分布式作业车间调度方法，其特征在于，所述训练过程具体为：

步骤3：对于每个训练回合m，其中m=1,2,...,M，从初始状态s开始，执行以下操作：

步骤（3-1）：对于每个训练步骤n，其中n=1,2,...,N，执行以下操作：

（1）使用ε-greedy策略根据当前状态s和Q函数选择一个动作a；

（2）执行动作a，观察转移到的新状态s'、奖励R(s,a,s')和协作因子C(s,a,s')；

（3）将(s,a,s',R(s,a,s'),C(s,a,s'))存储到经验回放缓冲区D中；

（4）如果D中的经验数量达到批次大小B，执行以下操作：

从经验回放缓冲区D中随机抽取一个大小为B的经验批次；

对于批次中的每个经验(s_i,a_i,s_i',R_i,C_i)，计算目标值y_i=R_i+C_i+γ*max_a'Q(s_i',a';θ')；

使用梯度下降法更新Q函数参数θ，以减小损失函数L(θ)=E[(Q(s_i,a_i;θ)-y_i)^2]；

每K个训练步骤，更新目标Q函数参数θ'=θ；

（5）如果新状态s'是终止状态，则结束本回合；否则，将s'设为当前状态s，继续执行步骤（3-1）；

步骤（3-2）逐渐降低探索因子ε，以便在训练过程中逐渐减少探索，增加利用。