CN113361912B - 一种基于强化学习的服务任务调度方法 - Google Patents

一种基于强化学习的服务任务调度方法 Download PDF

Info

Publication number
CN113361912B
CN113361912B CN202110623287.3A CN202110623287A CN113361912B CN 113361912 B CN113361912 B CN 113361912B CN 202110623287 A CN202110623287 A CN 202110623287A CN 113361912 B CN113361912 B CN 113361912B
Authority
CN
China
Prior art keywords
scheduling
service
service task
state
arrangement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110623287.3A
Other languages
English (en)
Other versions
CN113361912A (zh
Inventor
曹斌
陈德胜
陈灏
李甜甜
范菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110623287.3A priority Critical patent/CN113361912B/zh
Publication of CN113361912A publication Critical patent/CN113361912A/zh
Application granted granted Critical
Publication of CN113361912B publication Critical patent/CN113361912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Educational Administration (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • General Factory Administration (AREA)

Abstract

本发明公开了一种基于强化学习的服务任务调度方法,能对一段较长时间内的服务任务需求下的服务人员调度给出较为合理的安排。首先根据服务任务需求对服务任务进行数学建模,构建服务任务环境。然后使用ε‑Greedy方法在服务任务环境中进行半随机服务人员工作安排,同时使用强化学习方法对半随机人员工作安排过程进行学习,即从不同调度安排之间的价值差异中进行学习,使深度神经网络近似不同调度安排的价值。最后通过使用深度神经网络对实际服务任务需求下不同调度安排的价值进行预测,然后选择输出较优的满足服务任务需求的服务人员调度安排的班表。本发明构建的基于强化学习的服务任务调度方法具有安排速度快、任务班表安排合理的特点。

Description

一种基于强化学习的服务任务调度方法
技术领域
本发明属于运筹优化管理领域,尤其涉及一种基于强化学习的服务任务调度方法。
技术背景
服务任务调度技术是一项在服务任务需求下的服务人员调度技术,即在一段时间内,给定每日的服务任务需求量、服务任务需求的约束条件、可调度的服务人员信息,给出符合每日服务任务需求量且满足服务任务需求约束条件的服务人员调度安排的技术。
强化学习是一种机器学习方法,主要包括智能体、环境两大实体。智能体在环境中选择不同动作进行“尝试”和“试错”,获得环境的奖励,通过对不同状态下采取不同动作所获得的奖励值进行学习,进而优化在不同状态下的动作选择策略,最终使得智能体最大化获得的奖励。
近年来,随着深度强化学习的发展,强化学习在解决组合优化问题方面快速发展。强化学习方法对组合优化问题进行建模得到环境,在环境中进行学习训练,最终得到一个解决对应组合优化问题的动作选择策略。通过动作选择策略在不同情况下直接输出动作的方式,强化学习方法可以快速给出对应组合优化问题的解。
传统的服务任务调度技术主要使用启发式搜索方法或遗传算法的方法。其中基于启发式搜索方法主要依靠人为经验制定启发式策略,利用启发式策略进行优化搜索。其搜索效率、搜索效果直接取决于制定的启发式策略,但一个优秀启发式策略制定困难且受限于策略制定人的认知。遗传算法主要是模拟自然界生物进化的方式通过染色体选择、交叉、变异等过程,寻求较优解的方法。由于变异的随机性,该方法在变异过程中可能产生违反服务任务需求的染色体,导致最终结果不满足服务任务需求,或由于在服务任务需求的相关约束条件的选择下染色体难以“进化”的问题,并且对于每次求解都需要长时间的仿真模拟计算。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于强化学习的服务任务调度方法.
本发明的目的是通过以下技术方案来实现的:一种基于强化学习的服务任务调度方法,包含以下步骤:
1)对服务任务进行建模,构建服务任务环境。
2)使用ε-Greedy方法在步骤1)构建的服务任务环境中进行半随机服务人员工作安排。
3)基于步骤2)得到的服务人员工作安排,使用强化学习方法对不同工作安排的价值差异进行学习,并使用深度神经网络Q近似不同调度安排的价值。
4)基于步骤3)训练得到的深度神经网络Q,对服务人员不同调度安排的价值进行预测,选择输出较优的人员调度安排,即班表。
进一步地,所述步骤1)中,根据服务任务需求对服务任务建模,构建服务任务环境方法:
1.1)根据服务需求的可能范围对服务任务需求环境进行随机初始化。服务任务需求主要包括需要安排调度的天数、需要安排调度期间每日的服务任务需求量、可参与调度的服务人员数、参与调度的服务人员的能力值、服务人员最小连续工作天数、服务人员最大连续工作天数、需要安排调度的天数中每个参与调度的服务人员需要休息的次数、每个服务人员已经连续工作的天数。
1.2)规定服务任务环境可选动作集合为A={休息,工作},即服务人员调度方式为休息或工作。
1.3)服务任务环境对于每次服务人员调度安排前需要给出满足服务任务需求的服务人员调度方式。计算服务人员满足服务任务需求的调度方式
Figure RE-GDA0003130208630000022
的方法如下:
Figure RE-GDA0003130208630000021
其中,c表示该服务人员已经连续工作的天数,l表示剩余需要调度安排的天数,M表示服务人员最大连续工作天数,m表示服务人员最小连续工作天数,r表示剩余需要调度的天数中该服务人员还需要休息的次数,xi为i天,表示连续工作i-1天后休息1天的安排。ti表示在剩余需要调度的天数中xi安排的可选次数。由此我们可以根据ti和c给出当前满足服务任务需求的可选安排。
1.4)根据服务任务需求定义服务任务环境的动作奖励。
1.5)服务任务环境从需要安排调度的第1天第1个服务人员开始调度安排,完成第1天的调度安排后再从第2天第1个服务人员开始,直到需要安排调度的最后一天完成后结束。服务任务环境在每一次安排前给出当前的服务任务环境状态st,以及当前服务人员可选的满足服务任务需求的调度安排A′,接收智能体对当前的调度安排a({a|a∈A}),给出当前安排的即时奖励rt,并迭代环境到下一状态st+1,重复这一安排过程直至环境到达结束状态,即完成了整个服务任务的服务人员调度。
进一步地,使用ε-Greedy进行半随机人员工作安排:
2.1)ε-Greedy方法如下:
Figure RE-GDA0003130208630000031
通过产生一个[0,1)的随机数,如果产生的随机数小于ε则在当前可选动作集合A′中随机选择一个a作为当前的动作,即当前服务人员的调度安排;如果产生的随机数不小于ε,则通过全连接深度神经网络Q对当前状态st下的不同的服务人员调度方式的价值进行预测,选取价值最大的服务人员调度方式作为当前服务人员的调度安排。
2.2)将步骤2.1)中ε-Greedy产生的服务人员调度安排a输入到步骤1)中的服务任务环境中,使服务任务环境执行调度安排a,给出即时奖励rt,服务任务环境从st状态转移到st+1状态,将状态转移元组(st,at,rt,st+1)存储到记忆Memory Buffer中。
进一步地,所述步骤3)中,使用强化学习方法对不同工作安排的过程进行学习,并使用深度神经网络Q近似不同调度安排的价值:
3.1)步骤2)中服务任务环境每经过λ次服务任务环境状态转移,从步骤2)的记忆Memory Buffer中对状态转移元组(st,at,rt,st+1)进行抽样得到训练数据集D。
3.2)计算每个状态转移元组中st状态采取动作at时对应的真实价值yt:
Figure RE-GDA0003130208630000032
其中,rt为状态st时采取动作at时所获得的即时奖励,γ未来奖励系数,maxa′∈AQ(st+1,a′)是在st+1状态时神经网络Q对于不同的动作a′所能得到的最大价值。
3.3)将步骤3.2)中计算得到的真实价值yt插入到步骤3.1)采样得到的数据集D对应的状态转移元组中。
3.4)以步骤3.3)中得到的数据集D作为训练数据,使用mini-batch梯度下降方法对神经网络Q进行训练。在训练时使用均方误差损失函数来计算损失值:
Figure RE-GDA0003130208630000033
其中,Q(st,at)是在状态st深度神经网络Q预测采取动作at时的价值。
进一步地,所述步骤4)中,训练得到的深度神经网络Q,对不同的服务人员调度安排的价值进行预测,选择输出较优的人员调度安排:
4.1)根据实际的服务任务需求对步骤1)中的服务任务环境进行初始化,得到初始状态st
4.2)计算在状态st时的满足任务需求的动作集合A′。
4.3)使用步骤3)中训练得到的神经网络Q,对状态st下采取动作集合A′中每个可选调度安排a的价值Q(st,a)进行预测,并使用完全贪婪方式at=argmaxa∈A′Q(st,a)选择在状态st时能取得最大价值的调度安排at
4.4)将步骤4.3)中获得的动作at输入到服务任务环境中,服务任务环境执行调度安排at,然后服务任务环境进入下一状态st+1
4.5)重复步骤4.3)、步骤4.4)直至服务任务环境到达终止状态,即完成服务任务的调度。输出步骤4.3)中每次采取的调度安排,即服务任务需求下每日每个服务人员的工作、休息安排。
本发明的有益效果如下:本发明将强化学习方法应用于服务任务调度,实现了在服务任务需求下的服务人员调度。本发明基于强化学习,可对较长时间内的服务任务需求进行服务人员调度,同时避免了传统基于启发式方法的启发式策略制定困难的问题以及基于遗传算法方法的耗时长、违背服务任务需求的问题。
附图说明
图1是本发明设计的强化学习服务任务调度架构图;其中,实线为训练部分,虚线为执行部分;
图2是本发明提出方法的流程图;
图3是本发明采用的深度神经网络Q内部结构图。
具体实施方式
下面结合附图以及具体实例对本发明提出的方法进行进一步的详细说明。
如图2所示,本发明一种基于强化学习的服务任务调度方法,使用深度强化学习方法。首先通过对服务任务进行建模,构建用于强化学习方法的环境。然后使用大量半随机服务人员安排方式,使智能体对不同服务任务需求下的不同服务任务调度价值进行充分探索、学习,得到可以对不同服务任务调度安排进行价值预测的深度神经网络。最终通过使用训练得到的深度神经网络对实际服务任务需求下不同调度方式进行价值预测,通过选取高价值服务任务调度方案的方式快速输出服务人员调度安排的班表。
如图1所示,本发明包括以下步骤:
1、问题建模、构建环境
对于服务任务进行建模,主要分为4步:
第一步,根据服务任务确定用于描述服务任务环境的状态集合。例如在呼叫中心服务任务调度中状态集合主要包括需要安排调度的天数、需要安排调度期间每日的服务任务需求量、可参与调度的服务人员数、参与调度的服务人员的能力值、服务人员最小连续工作天数、服务人员最大连续工作天数、需要安排调度的天数中每个参与调度的服务人员需要休息的次数、每个服务人员已经连续工作的天数等。由状态集合中各状态描述分量构成的向量 (x1,x2,x3,……,xτ)来代表服务任务环境在t时刻的状态st
第二步,根据服务任务确定服务任务环境的动作集合A={休息,工作}。
第三步,根据服务任务制定动作奖励r,如:
Figure RE-GDA0003130208630000051
其中,n表示当日的服务任务需求量,a表示当日的安排的服务人员能满足的服务需求量。
第四步,根据服务任务制定服务任务环境调度流程。如从需要安排调度的第1天第1个服务人员开始调度安排,完成第1天的调度安排后再从第2天第1个服务人员开始,直到需要安排调度的最后一天完成后结束。服务任务环境在每一个服务人员安排前给出当前的服务任务环境状态st,接收智能体对当前的调度安排a({a|a∈A}),给出当前所选调度安排at的即时奖励rt,并迭代环境到下一状态st+1,重复这一安排过程直至环境到达结束状态,即完成了当前服务任务需求下整个服务任务的服务人员调度。
另外,服务任务环境还需要在智能体进行每个服务人员调度安排前,给出当前状态下满足服务任务需求的可选动作集合。计算服务人员满足服务任务需求的调度方式
Figure RE-GDA0003130208630000052
计算方式如下:
Figure RE-GDA0003130208630000053
其中,c表示该服务人员已经连续工作的天数,l表示剩余需要调度安排的天数,M表示服务人员最大连续工作天数,m表示服务人员最小连续工作天数,r表示剩余需要调度的天数中该服务人员还需要休息的次数,xi为i天,表示连续工作i-1天后休息1天的安排。ti表示在剩余需要调度的天数中xi安排的可选次数。
假设服务人员已经连续工作的天数c=3,剩余需要调度安排的天数l=12,服务人员最大连续工作天数M=4,服务人员最小连续工作天数m=2,剩余需要调度的天数中该服务人员还需要休息的次数r=3。xi的值可以取{3,4,5},代表可以选择的安排方式有工作2天休息 1天、工作3天休息1天以及工作4天休息1天。根据上述关系式,可以计算{t3,t4,t5}={{0,1,2},{0,2,1},{1,0,2},{1,1,1},{1,2,0},{2,0,1}}。{t3,t4,t5}={0,1,2}表示在接下来的剩余调度安排时间内可行安排之一为工作2天休息1天0次、工作3天休息1天1次,工作4天休息 1天2次。从所有的可行安排中可知工作2天休息1天、工作3天休息1天、工作4天休息1 天的工作安排都可行,但由于该服务人员已经连续工作天数c=3,所以当前选择工作2天休息1天的安排不符合条件,除此外工作3天休息1天、工作4天休息1天安排可行。因此可选的工作调度安排A′={工作,休息}。
2、半随机服务人员工作安排
半随机服务人员工作安排,主要分为2部分。
第一步,使用ε-Greedy方法进行调度动作选择。ε-Greedy方法如下:
Figure RE-GDA0003130208630000061
具体地,通过产生一个[0,1)的随机数random,如果产生的随机数小于ε则在当前可选动作集合A′中随机选择(Random)一个a作为当前的动作,即当前服务人员的调度安排;如果产生的随机数不小于ε,则通过如图3所示的全连接深度神经网络Q对当前状态st下的不同的服务人员调度方式的价值进行预测,选取价值最大的服务人员调度方式作为当前服务人员的调度安排。神经网络Q的输入是当前的服务任务信息(环境状态集合中的信息),输出是当前组安排休息、工作所对应的价值。
第二步,将产生的服务人员调度安排a输入到服务任务环境中,使服务任务环境执行调度安排a,给出即时奖励rt,服务任务环境从st状态转移到st+1状态,将状态转移元组(st,at,rt,st+1)存储到记忆Memory Buffer中。
3、训练学习
训练学习的过程主要分为4步。
第一步,服务任务环境每经过λ次服务任务环境状态转移,从记忆Memory Buffer中对状态转移元组(st,at,rt,st+1)进行抽样得到训练数据集D。
第二步,计算D每个状态转移元组中智能体在st状态采取动作at时对应的真实价值yt
Figure RE-GDA0003130208630000062
其中,rt为状态st时采取动作at时所获得的即时奖励,γ为未来奖励系数;maxa′∈AQ(st+1,a′)是在st+1状态时神经网络Q对于不同的动作a′所能得到的最大价值。例如rt=-0.1,γ=0.9,在st+1状态时可用调度动作集A′={工作,休息}。使用神经网络Q对在st+1时对采取工作和休息的价值进行预测,如采取工作调度安排的价值Q(st+1,工作)=-0.01,采取休息调度安排的价值Q(st+1,休息)=-0.005,取价值大的调度安排作为未来可能的最大奖励。计算可得状态转移元组中st状态采取动作at时对应的真实价值yt=-0.1+0.9*(-0.005)。
第三步,将计算得到的真实价值yt插入到采样得到的数据集D对应的状态转移元组中,如(st,at,rt,st+1,yt)。
第四步,以数据集D作为训练数据,使用mini-batch梯度下降方法对神经网络Q进行训练。在训练时使用均方误差损失函数
Figure RE-GDA0003130208630000063
来计算损失值:
Figure RE-GDA0003130208630000071
其中,Q(st,at)是在状态st深度神经网络Q预测采取动作at时的价值。
4、生成调度安排
生成调度安排,主要分为5步。
第一步,根据实际的服务任务需求对服务任务环境进行初始化,得到初始状态st
第二步,计算在状态st时的满足任务需求的动作集合A′。
第三步,使用在学习训练过程中得到的神经网络Q,对状态st下采取动作集合A′中每个可选调度安排a的价值Q(st,a)进行预测,并使用完全贪婪方式at=argmaxa∈A′Q(st,a)选择在状态st时能取得最大价值的调度安排at。例如在第1天第1个服务人员调度安排时,计算得到当前满足服务任务需求的可选调度安排A′={工作,休息},使用神经网络Q对在当前状态下不同可选调度安排的价值进行预测,如Q(st,工作)=-0.01,Q(st,休息)=-0.005,使用完全贪婪方式选择最大价值的调度安排作为当前服务人员的调度安排,即选择休息为当前服务人员的工作调度安排,写入到第1天第1个服务人员安排调度的班表中。
第四步,将完全贪婪选择的调度安排动作at输入到服务任务环境中,服务任务环境执行调度安排at,然后服务任务环境进入下一状态st+1
第五步,重复第三步、第四步直至服务任务环境到达终止状态,即完成服务任务的调度。同时也得到了服务任务需求下完整的每日每个服务人员的调度安排的班表。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (4)

1.一种基于强化学习的服务任务调度方法,其特征在于,包含以下步骤:
步骤1)根据服务任务需求对服务任务进行建模,构建服务任务环境,包括:
步骤1.1)根据服务需求的可能范围对服务任务需求环境进行随机初始化;服务任务需求主要包括需要安排调度的天数、需要安排调度期间每日的服务任务需求量、可参与调度的服务人员数、参与调度的服务人员的能力值、服务人员最小连续工作天数、服务人员最大连续工作天数、需要安排调度的天数中每个参与调度的服务人员需要休息的次数、每个服务人员已经连续工作的天数;
步骤1.2)规定服务任务环境可选动作集合为A={休息,工作};
步骤1.3)服务任务环境对于每次服务人员调度安排前需要给出满足服务任务需求的服务人员调度方式;计算服务人员满足服务任务需求的调度方式
Figure FDA0003583844320000011
的方法如下:
Figure FDA0003583844320000012
其中,c表示该服务人员已经连续工作的天数,l表示剩余需要调度安排的天数,M表示服务人员最大连续工作天数,m表示服务人员最小连续工作天数,r表示剩余需要调度的天数中该服务人员还需要休息的次数,xi为i天,表示连续工作i-1天后休息1天的安排;ti表示在剩余需要调度的天数中xi安排的可选次数;由此我们可以根据ti和c给出当前满足服务任务需求的可选安排;
步骤1.4)根据服务任务需求定义服务任务环境的动作奖励;
步骤1.5)服务任务环境从需要安排调度的第1天第1个服务人员开始调度安排,完成第1天的调度安排后再从第2天第1个服务人员开始,直到需要安排调度的最后一天完成后结束;服务任务环境在每一次安排前给出当前的服务任务环境状态st,以及当前服务人员可选的满足服务任务需求的调度安排A′,接收智能体对当前的调度安排a({a|a∈A}),给出当前安排的即时奖励rt,并迭代环境到下一状态st+1,重复这一安排过程直至环境到达结束状态,即完成了整个服务任务的服务人员调度;
步骤2)使用ε-Greedy方法在步骤1)构建的服务任务环境中进行半随机服务人员工作安排;
步骤3)基于步骤2)得到的服务人员工作安排,使用强化学习方法对不同工作安排的价值差异进行学习,并使用深度神经网络Q近似不同调度安排的价值;
步骤4)基于步骤3)训练得到的深度神经网络Q,对服务人员不同调度安排的价值进行预测,选择输出较优的人员调度安排。
2.如权利要求1所述基于强化学习的服务任务调度方法,其特征在于,使用ε-Greedy进行半随机人员工作安排:
步骤2.1)ε-Greedy方法如下:
Figure FDA0003583844320000021
通过产生一个[0,1)的随机数,如果产生的随机数小于ε则在当前可选动作集合A′中随机选择一个a作为当前的动作,即当前服务人员的调度安排;如果产生的随机数不小于ε,则通过全连接深度神经网络Q对当前状态st下的不同的服务人员调度方式的价值进行预测,选取价值最大的服务人员调度方式作为当前服务人员的调度安排;
步骤2.2)将步骤2.1)中ε-Greedy产生的服务人员调度安排a输入到步骤1)中的服务任务环境中,使服务任务环境执行调度安排a,给出即时奖励rt,服务任务环境从st状态转移到st+1状态,将状态转移元组(st,at,rt,st+1)存储到记忆Memory Buffer中。
3.如权利要求1所述基于强化学习的服务任务调度方法,其特征在于,所述步骤3)中,使用强化学习方法对不同工作安排的过程进行学习,并使用深度神经网络Q近似不同调度安排的价值:
步骤3.1)步骤2)中服务任务环境每经过λ次服务任务环境状态转移,从步骤2)的记忆Memory Buffer中对状态转移元组(st,at,rt,st+1)进行抽样得到训练数据集D;
步骤3.2)计算每个状态转移元组中st状态采取动作at时对应的真实价值yt
Figure FDA0003583844320000022
其中,rt为状态st时采取动作at时所获得的即时奖励,γ未来奖励系数,maxa′∈AQ(st+1,a′)是在st+1状态时神经网络Q对于不同的动作a′所能得到的最大价值;
步骤3.3)将步骤3.2)中计算得到的真实价值yt插入到步骤3.1)采样得到的数据集D对应的状态转移元组中;
步骤3.4)以步骤3.3)中得到的数据集D作为训练数据,使用mini-batch梯度下降方法对神经网络Q进行训练;在训练时使用均方误差损失函数来计算损失值:
Figure FDA0003583844320000023
其中,Q(st,at)是在状态st深度神经网络Q预测采取动作at时的价值。
4.如权利要求1所述基于强化学习的服务任务调度方法,其特征在于,所述步骤4)中,训练得到的深度神经网络Q,对不同的服务人员调度安排的价值进行预测,选择输出较优的人员调度安排:
步骤4.1)根据实际的服务任务需求对步骤1)中的服务任务环境进行初始化,得到初始状态st
步骤4.2)计算在状态st时的满足任务需求的动作集合A′;
步骤4.3)使用步骤3)中训练得到的神经网络Q,对状态st下采取动作集合A′中每个可选调度安排a的价值Q(st,a)进行预测,并使用完全贪婪方式at=argmaxa∈A′Q(st,a)选择在状态st时能取得最大价值的调度安排at
步骤4.4)将步骤4.3)中获得的动作at输入到服务任务环境中,服务任务环境执行调度安排at,然后服务任务环境进入下一状态st+1
步骤4.5)重复步骤4.3)、步骤4.4)直至服务任务环境到达终止状态,即完成服务任务的调度;输出步骤4.3)中每次采取的调度安排,即服务任务需求下每日每个服务人员的工作、休息安排。
CN202110623287.3A 2021-06-04 2021-06-04 一种基于强化学习的服务任务调度方法 Active CN113361912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110623287.3A CN113361912B (zh) 2021-06-04 2021-06-04 一种基于强化学习的服务任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110623287.3A CN113361912B (zh) 2021-06-04 2021-06-04 一种基于强化学习的服务任务调度方法

Publications (2)

Publication Number Publication Date
CN113361912A CN113361912A (zh) 2021-09-07
CN113361912B true CN113361912B (zh) 2022-05-27

Family

ID=77532063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110623287.3A Active CN113361912B (zh) 2021-06-04 2021-06-04 一种基于强化学习的服务任务调度方法

Country Status (1)

Country Link
CN (1) CN113361912B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113923308B (zh) * 2021-10-15 2024-04-09 浙江工业大学 基于深度强化学习的预测式外呼任务分配方法及外呼系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390195A (zh) * 2013-05-28 2013-11-13 重庆大学 一种基于强化学习的机械车间任务调度节能优化系统
CN111191934A (zh) * 2019-12-31 2020-05-22 北京理工大学 一种基于强化学习策略的多目标云工作流调度方法
CN111258734A (zh) * 2020-01-16 2020-06-09 中国人民解放军国防科技大学 一种基于强化学习的深度学习任务调度方法
CN111722910A (zh) * 2020-06-19 2020-09-29 广东石油化工学院 一种云作业调度及资源配置的方法
CN112328914A (zh) * 2020-11-06 2021-02-05 辽宁工程技术大学 一种基于时空众包工人行为预测的任务分配方法
EP3783548A1 (en) * 2019-08-19 2021-02-24 Wipro Limited Method and system for task execution in dynamic heterogeneous robotic environment
CN112488543A (zh) * 2020-12-04 2021-03-12 深圳先进技术研究院 基于机器学习的智慧工地智能排班方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580196B (zh) * 2019-09-12 2021-04-06 北京邮电大学 一种实现并行任务调度的多任务强化学习方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103390195A (zh) * 2013-05-28 2013-11-13 重庆大学 一种基于强化学习的机械车间任务调度节能优化系统
EP3783548A1 (en) * 2019-08-19 2021-02-24 Wipro Limited Method and system for task execution in dynamic heterogeneous robotic environment
CN111191934A (zh) * 2019-12-31 2020-05-22 北京理工大学 一种基于强化学习策略的多目标云工作流调度方法
CN111258734A (zh) * 2020-01-16 2020-06-09 中国人民解放军国防科技大学 一种基于强化学习的深度学习任务调度方法
CN111722910A (zh) * 2020-06-19 2020-09-29 广东石油化工学院 一种云作业调度及资源配置的方法
CN112328914A (zh) * 2020-11-06 2021-02-05 辽宁工程技术大学 一种基于时空众包工人行为预测的任务分配方法
CN112488543A (zh) * 2020-12-04 2021-03-12 深圳先进技术研究院 基于机器学习的智慧工地智能排班方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Scalable_Parallel_Task_Scheduling_for_Autonomous_Driving_Using_Multi-Task_Deep_Reinforcement_Learning;Lingxin Zhang 等;《IEEE》;20201109;第13861-13874页 *

Also Published As

Publication number Publication date
CN113361912A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN111858009B (zh) 基于迁移和强化学习的移动边缘计算系统任务调度方法
Shen et al. Mathematical modeling and multi-objective evolutionary algorithms applied to dynamic flexible job shop scheduling problems
CN109347149A (zh) 基于深度q值网络强化学习的微电网储能调度方法及装置
Jasmin et al. Reinforcement learning approaches to economic dispatch problem
CN109753751A (zh) 一种基于机器学习的mec随机任务迁移方法
CN110472779A (zh) 一种基于时间卷积网络的电力系统短期负荷预测方法
CN105678407A (zh) 一种基于人工神经网络的日用电量预测方法
CN111756653A (zh) 基于图神经网络深度强化学习的多coflow调度方法
CN113361912B (zh) 一种基于强化学习的服务任务调度方法
Shao et al. Multi-local search-based general variable neighborhood search for distributed flow shop scheduling in heterogeneous multi-factories
CN114580678A (zh) 一种产品维修资源调度方法和系统
Shou et al. A multiagent evolutionary algorithm for the resource‐constrained project portfolio selection and scheduling problem
Peng et al. Critical chain based Proactive-Reactive scheduling for Resource-Constrained project scheduling under uncertainty
CN110363399A (zh) 一种混合深度对抗网络滚动强化学习博弈策略
CN111767991B (zh) 一种基于深度q学习的测控资源调度方法
CN109858882A (zh) 一种基于改进的退火算法的新高考排课方法及系统
Li et al. An improved whale optimisation algorithm for distributed assembly flow shop with crane transportation
Austero et al. Solving course timetabling problem using Whale Optimization Algorithm
CN114819660A (zh) 一种动态演进的设计众包的人力资源任务匹配方法系统
Wang et al. Reinforcement learning for Hybrid Disassembly Line Balancing Problems
Nax Equity dynamics in bargaining without information exchange
CN113743784A (zh) 一种基于深度强化学习的生产时序表智能生成方法
CN116029370B (zh) 基于区块链的联邦学习的数据共享激励方法、装置及设备
NURMI et al. The core staff rostering problem
CN115952838B (zh) 一种基于自适应学习推荐系统生成方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant