CN113361912B

CN113361912B - 一种基于强化学习的服务任务调度方法

Info

Publication number: CN113361912B
Application number: CN202110623287.3A
Authority: CN
Inventors: 曹斌; 陈德胜; 陈灏; 李甜甜; 范菁
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2022-05-27
Anticipated expiration: 2041-06-04
Also published as: CN113361912A

Abstract

本发明公开了一种基于强化学习的服务任务调度方法，能对一段较长时间内的服务任务需求下的服务人员调度给出较为合理的安排。首先根据服务任务需求对服务任务进行数学建模，构建服务任务环境。然后使用ε‑Greedy方法在服务任务环境中进行半随机服务人员工作安排，同时使用强化学习方法对半随机人员工作安排过程进行学习，即从不同调度安排之间的价值差异中进行学习，使深度神经网络近似不同调度安排的价值。最后通过使用深度神经网络对实际服务任务需求下不同调度安排的价值进行预测，然后选择输出较优的满足服务任务需求的服务人员调度安排的班表。本发明构建的基于强化学习的服务任务调度方法具有安排速度快、任务班表安排合理的特点。

Description

一种基于强化学习的服务任务调度方法

技术领域

本发明属于运筹优化管理领域，尤其涉及一种基于强化学习的服务任务调度方法。

技术背景

服务任务调度技术是一项在服务任务需求下的服务人员调度技术，即在一段时间内，给定每日的服务任务需求量、服务任务需求的约束条件、可调度的服务人员信息，给出符合每日服务任务需求量且满足服务任务需求约束条件的服务人员调度安排的技术。

强化学习是一种机器学习方法，主要包括智能体、环境两大实体。智能体在环境中选择不同动作进行“尝试”和“试错”，获得环境的奖励，通过对不同状态下采取不同动作所获得的奖励值进行学习，进而优化在不同状态下的动作选择策略，最终使得智能体最大化获得的奖励。

近年来，随着深度强化学习的发展，强化学习在解决组合优化问题方面快速发展。强化学习方法对组合优化问题进行建模得到环境，在环境中进行学习训练，最终得到一个解决对应组合优化问题的动作选择策略。通过动作选择策略在不同情况下直接输出动作的方式，强化学习方法可以快速给出对应组合优化问题的解。

传统的服务任务调度技术主要使用启发式搜索方法或遗传算法的方法。其中基于启发式搜索方法主要依靠人为经验制定启发式策略，利用启发式策略进行优化搜索。其搜索效率、搜索效果直接取决于制定的启发式策略，但一个优秀启发式策略制定困难且受限于策略制定人的认知。遗传算法主要是模拟自然界生物进化的方式通过染色体选择、交叉、变异等过程，寻求较优解的方法。由于变异的随机性，该方法在变异过程中可能产生违反服务任务需求的染色体，导致最终结果不满足服务任务需求，或由于在服务任务需求的相关约束条件的选择下染色体难以“进化”的问题，并且对于每次求解都需要长时间的仿真模拟计算。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于强化学习的服务任务调度方法.

本发明的目的是通过以下技术方案来实现的：一种基于强化学习的服务任务调度方法，包含以下步骤：

1)对服务任务进行建模，构建服务任务环境。

2)使用ε-Greedy方法在步骤1)构建的服务任务环境中进行半随机服务人员工作安排。

3)基于步骤2)得到的服务人员工作安排，使用强化学习方法对不同工作安排的价值差异进行学习，并使用深度神经网络Q近似不同调度安排的价值。

4)基于步骤3)训练得到的深度神经网络Q，对服务人员不同调度安排的价值进行预测，选择输出较优的人员调度安排，即班表。

进一步地，所述步骤1)中，根据服务任务需求对服务任务建模，构建服务任务环境方法：

1.1)根据服务需求的可能范围对服务任务需求环境进行随机初始化。服务任务需求主要包括需要安排调度的天数、需要安排调度期间每日的服务任务需求量、可参与调度的服务人员数、参与调度的服务人员的能力值、服务人员最小连续工作天数、服务人员最大连续工作天数、需要安排调度的天数中每个参与调度的服务人员需要休息的次数、每个服务人员已经连续工作的天数。

1.2)规定服务任务环境可选动作集合为A＝{休息，工作}，即服务人员调度方式为休息或工作。

1.3)服务任务环境对于每次服务人员调度安排前需要给出满足服务任务需求的服务人员调度方式。计算服务人员满足服务任务需求的调度方式

的方法如下：

其中，c表示该服务人员已经连续工作的天数，l表示剩余需要调度安排的天数，M表示服务人员最大连续工作天数，m表示服务人员最小连续工作天数，r表示剩余需要调度的天数中该服务人员还需要休息的次数，x_i为i天，表示连续工作i-1天后休息1天的安排。t_i表示在剩余需要调度的天数中x_i安排的可选次数。由此我们可以根据t_i和c给出当前满足服务任务需求的可选安排。

1.4)根据服务任务需求定义服务任务环境的动作奖励。

1.5)服务任务环境从需要安排调度的第1天第1个服务人员开始调度安排，完成第1天的调度安排后再从第2天第1个服务人员开始，直到需要安排调度的最后一天完成后结束。服务任务环境在每一次安排前给出当前的服务任务环境状态s_t，以及当前服务人员可选的满足服务任务需求的调度安排A′，接收智能体对当前的调度安排a({a|a∈A})，给出当前安排的即时奖励r_t，并迭代环境到下一状态s_t+1，重复这一安排过程直至环境到达结束状态，即完成了整个服务任务的服务人员调度。

进一步地，使用ε-Greedy进行半随机人员工作安排：

2.1)ε-Greedy方法如下：

通过产生一个[0,1)的随机数，如果产生的随机数小于ε则在当前可选动作集合A′中随机选择一个a作为当前的动作，即当前服务人员的调度安排；如果产生的随机数不小于ε，则通过全连接深度神经网络Q对当前状态s_t下的不同的服务人员调度方式的价值进行预测，选取价值最大的服务人员调度方式作为当前服务人员的调度安排。

2.2)将步骤2.1)中ε-Greedy产生的服务人员调度安排a输入到步骤1)中的服务任务环境中，使服务任务环境执行调度安排a，给出即时奖励r_t，服务任务环境从s_t状态转移到s_t+1状态，将状态转移元组(s_t,a_t,r_t,s_t+1)存储到记忆Memory Buffer中。

进一步地，所述步骤3)中，使用强化学习方法对不同工作安排的过程进行学习，并使用深度神经网络Q近似不同调度安排的价值：

3.1)步骤2)中服务任务环境每经过λ次服务任务环境状态转移，从步骤2)的记忆Memory Buffer中对状态转移元组(s_t,a_t,r_t,s_t+1)进行抽样得到训练数据集D。

3.2)计算每个状态转移元组中s_t状态采取动作a_t时对应的真实价值y_t:

其中，r_t为状态s_t时采取动作a_t时所获得的即时奖励，γ未来奖励系数，max_a′∈AQ(s_t+1,a′)是在s_t+1状态时神经网络Q对于不同的动作a′所能得到的最大价值。

3.3)将步骤3.2)中计算得到的真实价值y_t插入到步骤3.1)采样得到的数据集D对应的状态转移元组中。

3.4)以步骤3.3)中得到的数据集D作为训练数据，使用mini-batch梯度下降方法对神经网络Q进行训练。在训练时使用均方误差损失函数来计算损失值：

其中，Q(s_t,a_t)是在状态s_t深度神经网络Q预测采取动作a_t时的价值。

进一步地，所述步骤4)中，训练得到的深度神经网络Q，对不同的服务人员调度安排的价值进行预测，选择输出较优的人员调度安排：

4.1)根据实际的服务任务需求对步骤1)中的服务任务环境进行初始化，得到初始状态s_t。

4.2)计算在状态s_t时的满足任务需求的动作集合A′。

4.3)使用步骤3)中训练得到的神经网络Q，对状态s_t下采取动作集合A′中每个可选调度安排a的价值Q(s_t,a)进行预测，并使用完全贪婪方式a_t＝argmax_a∈A′Q(s_t,a)选择在状态s_t时能取得最大价值的调度安排a_t。

4.4)将步骤4.3)中获得的动作a_t输入到服务任务环境中，服务任务环境执行调度安排a_t，然后服务任务环境进入下一状态s_t+1。

4.5)重复步骤4.3)、步骤4.4)直至服务任务环境到达终止状态，即完成服务任务的调度。输出步骤4.3)中每次采取的调度安排，即服务任务需求下每日每个服务人员的工作、休息安排。

本发明的有益效果如下：本发明将强化学习方法应用于服务任务调度，实现了在服务任务需求下的服务人员调度。本发明基于强化学习，可对较长时间内的服务任务需求进行服务人员调度，同时避免了传统基于启发式方法的启发式策略制定困难的问题以及基于遗传算法方法的耗时长、违背服务任务需求的问题。

附图说明

图1是本发明设计的强化学习服务任务调度架构图；其中，实线为训练部分，虚线为执行部分；

图2是本发明提出方法的流程图；

图3是本发明采用的深度神经网络Q内部结构图。

具体实施方式

下面结合附图以及具体实例对本发明提出的方法进行进一步的详细说明。

如图2所示，本发明一种基于强化学习的服务任务调度方法，使用深度强化学习方法。首先通过对服务任务进行建模，构建用于强化学习方法的环境。然后使用大量半随机服务人员安排方式，使智能体对不同服务任务需求下的不同服务任务调度价值进行充分探索、学习，得到可以对不同服务任务调度安排进行价值预测的深度神经网络。最终通过使用训练得到的深度神经网络对实际服务任务需求下不同调度方式进行价值预测，通过选取高价值服务任务调度方案的方式快速输出服务人员调度安排的班表。

如图1所示，本发明包括以下步骤：

1、问题建模、构建环境

对于服务任务进行建模，主要分为4步：

第一步，根据服务任务确定用于描述服务任务环境的状态集合。例如在呼叫中心服务任务调度中状态集合主要包括需要安排调度的天数、需要安排调度期间每日的服务任务需求量、可参与调度的服务人员数、参与调度的服务人员的能力值、服务人员最小连续工作天数、服务人员最大连续工作天数、需要安排调度的天数中每个参与调度的服务人员需要休息的次数、每个服务人员已经连续工作的天数等。由状态集合中各状态描述分量构成的向量 (x₁,x₂,x₃,……,x_τ)来代表服务任务环境在t时刻的状态s_t。

第二步，根据服务任务确定服务任务环境的动作集合A＝{休息，工作}。

第三步，根据服务任务制定动作奖励r，如：

其中，n表示当日的服务任务需求量，a表示当日的安排的服务人员能满足的服务需求量。

第四步，根据服务任务制定服务任务环境调度流程。如从需要安排调度的第1天第1个服务人员开始调度安排，完成第1天的调度安排后再从第2天第1个服务人员开始，直到需要安排调度的最后一天完成后结束。服务任务环境在每一个服务人员安排前给出当前的服务任务环境状态s_t，接收智能体对当前的调度安排a({a|a∈A})，给出当前所选调度安排a_t的即时奖励r_t，并迭代环境到下一状态s_t+1，重复这一安排过程直至环境到达结束状态，即完成了当前服务任务需求下整个服务任务的服务人员调度。

另外，服务任务环境还需要在智能体进行每个服务人员调度安排前，给出当前状态下满足服务任务需求的可选动作集合。计算服务人员满足服务任务需求的调度方式

计算方式如下：

其中，c表示该服务人员已经连续工作的天数，l表示剩余需要调度安排的天数，M表示服务人员最大连续工作天数，m表示服务人员最小连续工作天数，r表示剩余需要调度的天数中该服务人员还需要休息的次数，x_i为i天，表示连续工作i-1天后休息1天的安排。t_i表示在剩余需要调度的天数中x_i安排的可选次数。

假设服务人员已经连续工作的天数c＝3，剩余需要调度安排的天数l＝12，服务人员最大连续工作天数M＝4，服务人员最小连续工作天数m＝2，剩余需要调度的天数中该服务人员还需要休息的次数r＝3。x_i的值可以取{3,4,5}，代表可以选择的安排方式有工作2天休息 1天、工作3天休息1天以及工作4天休息1天。根据上述关系式，可以计算{t₃,t₄,t₅}＝{{0,1,2},{0,2,1},{1,0,2},{1,1,1},{1,2,0},{2,0,1}}。{t₃,t₄,t₅}＝{0,1,2}表示在接下来的剩余调度安排时间内可行安排之一为工作2天休息1天0次、工作3天休息1天1次，工作4天休息 1天2次。从所有的可行安排中可知工作2天休息1天、工作3天休息1天、工作4天休息1 天的工作安排都可行，但由于该服务人员已经连续工作天数c＝3，所以当前选择工作2天休息1天的安排不符合条件，除此外工作3天休息1天、工作4天休息1天安排可行。因此可选的工作调度安排A′＝{工作，休息}。

2、半随机服务人员工作安排

半随机服务人员工作安排，主要分为2部分。

第一步，使用ε-Greedy方法进行调度动作选择。ε-Greedy方法如下：

具体地，通过产生一个[0,1)的随机数random，如果产生的随机数小于ε则在当前可选动作集合A′中随机选择(Random)一个a作为当前的动作，即当前服务人员的调度安排；如果产生的随机数不小于ε，则通过如图3所示的全连接深度神经网络Q对当前状态s_t下的不同的服务人员调度方式的价值进行预测，选取价值最大的服务人员调度方式作为当前服务人员的调度安排。神经网络Q的输入是当前的服务任务信息(环境状态集合中的信息)，输出是当前组安排休息、工作所对应的价值。

第二步，将产生的服务人员调度安排a输入到服务任务环境中，使服务任务环境执行调度安排a，给出即时奖励r_t，服务任务环境从s_t状态转移到s_t+1状态，将状态转移元组(s_t,a_t,r_t,s_t+1)存储到记忆Memory Buffer中。

3、训练学习

训练学习的过程主要分为4步。

第一步，服务任务环境每经过λ次服务任务环境状态转移，从记忆Memory Buffer中对状态转移元组(s_t,a_t,r_t,s_t+1)进行抽样得到训练数据集D。

第二步，计算D每个状态转移元组中智能体在s_t状态采取动作a_t时对应的真实价值y_t：

其中，r_t为状态s_t时采取动作a_t时所获得的即时奖励，γ为未来奖励系数；max_a′∈AQ(s_t+1,a′)是在s_t+1状态时神经网络Q对于不同的动作a′所能得到的最大价值。例如r_t＝-0.1，γ＝0.9，在s_t+1状态时可用调度动作集A′＝{工作，休息}。使用神经网络Q对在s_t+1时对采取工作和休息的价值进行预测，如采取工作调度安排的价值Q(s_t+1,工作)＝-0.01，采取休息调度安排的价值Q(s_t+1,休息)＝-0.005，取价值大的调度安排作为未来可能的最大奖励。计算可得状态转移元组中s_t状态采取动作a_t时对应的真实价值y_t＝-0.1+0.9*(-0.005)。

第三步，将计算得到的真实价值y_t插入到采样得到的数据集D对应的状态转移元组中，如(s_t,a_t,r_t,s_t+1,y_t)。

第四步，以数据集D作为训练数据，使用mini-batch梯度下降方法对神经网络Q进行训练。在训练时使用均方误差损失函数

来计算损失值：

4、生成调度安排

生成调度安排，主要分为5步。

第一步，根据实际的服务任务需求对服务任务环境进行初始化，得到初始状态s_t。

第二步，计算在状态s_t时的满足任务需求的动作集合A′。

第三步，使用在学习训练过程中得到的神经网络Q，对状态s_t下采取动作集合A′中每个可选调度安排a的价值Q(s_t,a)进行预测，并使用完全贪婪方式a_t＝argmax_a∈A′Q(s_t,a)选择在状态s_t时能取得最大价值的调度安排a_t。例如在第1天第1个服务人员调度安排时，计算得到当前满足服务任务需求的可选调度安排A′＝{工作，休息}，使用神经网络Q对在当前状态下不同可选调度安排的价值进行预测，如Q(s_t,工作)＝-0.01，Q(s_t,休息)＝-0.005，使用完全贪婪方式选择最大价值的调度安排作为当前服务人员的调度安排，即选择休息为当前服务人员的工作调度安排，写入到第1天第1个服务人员安排调度的班表中。

第四步，将完全贪婪选择的调度安排动作a_t输入到服务任务环境中，服务任务环境执行调度安排a_t，然后服务任务环境进入下一状态s_t+1。

第五步，重复第三步、第四步直至服务任务环境到达终止状态，即完成服务任务的调度。同时也得到了服务任务需求下完整的每日每个服务人员的调度安排的班表。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于强化学习的服务任务调度方法，其特征在于，包含以下步骤：

步骤1)根据服务任务需求对服务任务进行建模，构建服务任务环境，包括：

步骤1.1)根据服务需求的可能范围对服务任务需求环境进行随机初始化；服务任务需求主要包括需要安排调度的天数、需要安排调度期间每日的服务任务需求量、可参与调度的服务人员数、参与调度的服务人员的能力值、服务人员最小连续工作天数、服务人员最大连续工作天数、需要安排调度的天数中每个参与调度的服务人员需要休息的次数、每个服务人员已经连续工作的天数；

步骤1.2)规定服务任务环境可选动作集合为A＝{休息，工作}；

步骤1.3)服务任务环境对于每次服务人员调度安排前需要给出满足服务任务需求的服务人员调度方式；计算服务人员满足服务任务需求的调度方式

的方法如下：

其中，c表示该服务人员已经连续工作的天数，l表示剩余需要调度安排的天数，M表示服务人员最大连续工作天数，m表示服务人员最小连续工作天数，r表示剩余需要调度的天数中该服务人员还需要休息的次数，x_i为i天，表示连续工作i-1天后休息1天的安排；t_i表示在剩余需要调度的天数中x_i安排的可选次数；由此我们可以根据t_i和c给出当前满足服务任务需求的可选安排；

步骤1.4)根据服务任务需求定义服务任务环境的动作奖励；

步骤1.5)服务任务环境从需要安排调度的第1天第1个服务人员开始调度安排，完成第1天的调度安排后再从第2天第1个服务人员开始，直到需要安排调度的最后一天完成后结束；服务任务环境在每一次安排前给出当前的服务任务环境状态s_t，以及当前服务人员可选的满足服务任务需求的调度安排A′，接收智能体对当前的调度安排a({a|a∈A})，给出当前安排的即时奖励r_t，并迭代环境到下一状态s_t+1，重复这一安排过程直至环境到达结束状态，即完成了整个服务任务的服务人员调度；

步骤2)使用ε-Greedy方法在步骤1)构建的服务任务环境中进行半随机服务人员工作安排；

步骤3)基于步骤2)得到的服务人员工作安排，使用强化学习方法对不同工作安排的价值差异进行学习，并使用深度神经网络Q近似不同调度安排的价值；

步骤4)基于步骤3)训练得到的深度神经网络Q，对服务人员不同调度安排的价值进行预测，选择输出较优的人员调度安排。

2.如权利要求1所述基于强化学习的服务任务调度方法，其特征在于，使用ε-Greedy进行半随机人员工作安排：

步骤2.1)ε-Greedy方法如下：

通过产生一个[0，1)的随机数，如果产生的随机数小于ε则在当前可选动作集合A′中随机选择一个a作为当前的动作，即当前服务人员的调度安排；如果产生的随机数不小于ε，则通过全连接深度神经网络Q对当前状态s_t下的不同的服务人员调度方式的价值进行预测，选取价值最大的服务人员调度方式作为当前服务人员的调度安排；

步骤2.2)将步骤2.1)中ε-Greedy产生的服务人员调度安排a输入到步骤1)中的服务任务环境中，使服务任务环境执行调度安排a，给出即时奖励r_t，服务任务环境从s_t状态转移到s_t+1状态，将状态转移元组(s_t，a_t，r_t，s_t+1)存储到记忆Memory Buffer中。

3.如权利要求1所述基于强化学习的服务任务调度方法，其特征在于，所述步骤3)中，使用强化学习方法对不同工作安排的过程进行学习，并使用深度神经网络Q近似不同调度安排的价值：

步骤3.1)步骤2)中服务任务环境每经过λ次服务任务环境状态转移，从步骤2)的记忆Memory Buffer中对状态转移元组(s_t，a_t，r_t，s_t+1)进行抽样得到训练数据集D；

步骤3.2)计算每个状态转移元组中s_t状态采取动作a_t时对应的真实价值y_t：

其中，r_t为状态s_t时采取动作a_t时所获得的即时奖励，γ未来奖励系数，max_a′∈AQ(s_t+1，a′)是在s_t+1状态时神经网络Q对于不同的动作a′所能得到的最大价值；

步骤3.3)将步骤3.2)中计算得到的真实价值y_t插入到步骤3.1)采样得到的数据集D对应的状态转移元组中；

步骤3.4)以步骤3.3)中得到的数据集D作为训练数据，使用mini-batch梯度下降方法对神经网络Q进行训练；在训练时使用均方误差损失函数来计算损失值：

其中，Q(s_t，a_t)是在状态s_t深度神经网络Q预测采取动作a_t时的价值。

4.如权利要求1所述基于强化学习的服务任务调度方法，其特征在于，所述步骤4)中，训练得到的深度神经网络Q，对不同的服务人员调度安排的价值进行预测，选择输出较优的人员调度安排：

步骤4.1)根据实际的服务任务需求对步骤1)中的服务任务环境进行初始化，得到初始状态s_t；

步骤4.2)计算在状态s_t时的满足任务需求的动作集合A′；

步骤4.3)使用步骤3)中训练得到的神经网络Q，对状态s_t下采取动作集合A′中每个可选调度安排a的价值Q(s_t，a)进行预测，并使用完全贪婪方式a_t＝argmax_a∈A′Q(s_t，a)选择在状态s_t时能取得最大价值的调度安排a_t；

步骤4.4)将步骤4.3)中获得的动作a_t输入到服务任务环境中，服务任务环境执行调度安排a_t，然后服务任务环境进入下一状态s_t+1；

步骤4.5)重复步骤4.3)、步骤4.4)直至服务任务环境到达终止状态，即完成服务任务的调度；输出步骤4.3)中每次采取的调度安排，即服务任务需求下每日每个服务人员的工作、休息安排。