CN116307251B

CN116307251B - 一种基于强化学习的工作排程优化方法

Info

Publication number: CN116307251B
Application number: CN202310390230.2A
Authority: CN
Inventors: 栾添添; 胥静; 班喜程; 孙明晓; 尹昭然; 甄立强; 付强; 姬长宇
Original assignee: Harbin University of Science and Technology
Current assignee: Guangzhou Weixue Education Technology Co.,Ltd.
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-09-19
Anticipated expiration: 2043-04-12
Also published as: CN116307251A

Abstract

本发明提出一种基于强化学习的工作排程优化方法，旨在通过考虑员工实时疲劳程度，优化员工工作排程，进而缩短最大完工时间。首先，分析员工工作与休息状态下的效率变化曲线，构建工作‑休息排程的数学模型，将员工作业流程建立为马尔可夫决策过程；其次，基于SAC(Soft Actor Critic)算法设计智能体决策框架，实时调整员工工作与休息时长，以最大限度提高员工平均工作效率；此外，设计工作量快速适应机制，仅通过少量迁移训练，实现快速适应不同任务目标。仿真结果表明本发明能够优化员工工作排程方案，缩短最大完工时间，同时在工作量任务较大的情况下，可得到更好的优化效果，工作量快速适应机制使模型可以更灵活的应用于动态场景中。

Description

一种基于强化学习的工作排程优化方法

技术领域

本发明属人工智能领域，尤其涉及一种基于强化学习的工作排程优化方法。

背景技术

生产过程中，工人需要连续不断投入工作，期间消耗大量体力与精力，产生作业疲劳，导致作业能力下降。因此，安排合理的工作排程，设计有效的优化算法，减轻作业者的工作疲劳，对生产任务的顺利进行具有重要意义。

针对优化工作排程的问题，传统优化算法通常以最小化总完工时间作为算法的优化目标。然而，传统优化算法在解决工作排程的问题上普遍存在迭代时间长、动态性能差等缺陷，且大多在理论中得到证明。此外，由于实际任务中需完成的工作量处于一种动态变化的状态，因此要求设计的优化算法对于动态性能具备较强的适应能力。

论文《考虑工人疲劳的工作排程研究》中在考虑工作负荷和工人疲劳及其最大可接受工作时间的基础上，采用0了遗传算法优化求解得到工人的休息时间和休息次数的排程组合方案。但遗传算法中存在迭代时间长，动态性能差等缺陷，难以适应工作量变化的排程问题。论文《基于深度强化学习的模糊作业车间调度问题》中针对具有模糊加工时间和模糊交货期的作业车间调度问题，以最小化最大完工时间为目标，采用深度强化学习算法优化员工调度，寻找最优策略。虽文中同样使用深度强化学习方法，以最小化最大完工时间为目标优化员工调度，但主要是针对模糊加工时间进行优化，而非衡量员工疲劳状态来进行工作排程。

发明内容

针对现有技术存在的问题，本发明提出了一种基于强化学习的工作排程优化方法。构建工作人员疲劳模型，并采用基于SAC算法的工作排程算法对其进行快速工作排程，调整员工工作与休息时长，提高员工平均工作效率，且在工作量发生变化时，对不同的工作量有一定快速响应能力。

为达到以上目的，本发明采用如下具体技术方案予以解决：

S1：分析员工工作与休息状态下的效率变化曲线，构建工作-休息排程的数学模型，采用0.5次幂函数模拟休息时间对疲劳恢复的关系，采用三次函数模拟疲劳积累与工作时间的关系，每执行一次工作和休息过程的交替，为一次工息循环，反复进行工息循环，直至完成整个工作量；

S2：初始化设定，建立员工作业流程所对应马尔可夫决策过程，包含以下步骤：

S2.1：设定环境状态集S，环境状态集为：

S＝{W_T,E_w,E_r,t_{work_last},t_{rest_last},t_total} (3)

式中，W_T为当前工息循环的剩余工作量，E_w为上一工息循环中工作过程结束时的工作效率，E_r为当前时刻工作效率，t_{work_last}为上一工息循环的工作时间，t_{rest_last}为上一工息循环的休息时间，t_total为累计已经历时间；

S2.2：智能体为工作人员，设定智能体动作集A，智能体动作为百分比表示的一个工息循环中的工作与休息时长，为<a_work,a_rest>，a_work,a_rest∈(0.1,1)；

S2.3：设定环境状态转移矩阵P，状态转移矩阵即为从每一个状态S到其可达的S'的概率组成的矩阵；

S2.4：设定环境奖励R：在此进行奖励重塑，通过估算单步工作效率设计奖励，下式为单步即时奖励R_T及终局奖励R_end公式：

式中，T表示第T个工息循环，f_work(·)表示工作状态效率变化函数，f_{work_rev}(·)表示工作过程中的工作效率变化函数的反函数，E_r,T-1为T-1工息循环开始时的工作效率，t_work表示当前工息循环的工作时间，E_max为最大工作效率，W_total为设置的全部工作量大小，η为平衡终局奖励占比的系数；

S2.5：设定折扣因子γ：未来累计期望奖励的权重系数，将γ设定为0.99；

S3：设计基于SAC工作排程优化算法，具体包含以下步骤：

S3.1：初始化环境信息；

S3.2：智能体做出决策动作；

S3.3：计算对应工作时间并判断是否完工，若未完工跳转至S3.4；若完工跳转至S3.5；

S3.4：计算工作后工作效率、对应休息时间、休息后工作效率、累计已经历时间及即时奖励，打包环境状态，然后返回S3.2；

S3.5：计算累计已经历时间，将工作后工作效率和休息后工作效率置零，计算即时奖励，打包环境状态，程序结束；

S4：基于S3的训练流程，在线训练智能体直至收敛，将其投入对应工作量工作进行排程；

S5：切换至不同工作量时，采用工作量快速适应机制，具体包含以下步骤：

S5.1：加载经验池，加载需进行预训练的模型；

S5.2：逐条判断经验池中的经验是否满足条件，将满足条件的经验存入拷贝经验池；

S5.3：按批次从拷贝经验池中抽取经验，对模型进行预训练；

S5.4：将预训练后模型放入到不同目标工作量的环境中，执行S3，在当前已有经验池的基础上，继续对模型进行在线训练，直至模型收敛。

本发明具有如下有益效果：

(1)本发明根据环境特点，设计了相应奖励重塑机制避免造成奖励稀疏，解决了模型在训练过程中难以收敛的问题；

(2)本发明提出了一种工作量快速适应机制，通过少量迁移训练,使模型快速适应不同任务目标,减少了模型在切换不同任务后的训练时间；

(3)本发明提出的方法相较于传统遗传算法在工作量较大的情况下可以获得更好的优化效果。在8000工作量时，优化效果提升约25.3％；在10000工作量时，优化效果提升约33.6％。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为休息时间-工作效率曲线示意图；

图2为工作时间-工作效率曲线示意图；

图3为工息循环过程示意图；

图4为基于SAC算法的整体方案流程图；

图5为10000工作量时智能体奖励曲线；

图6为8000工作量时智能体奖励曲线；

图7为6000工作量时智能体奖励曲线；

图8为10000工作量时最终完工时间曲线；

图9为8000工作量时最终完工时间曲线；

图10为6000工作量时最终完工时间曲线；

图11为10000工作量适应8000工作量最终完工时间；

图12为8000工作量适应6000工作量最终完工时间；

图13为10000工作量适应6000工作量最终完工时间；

图14为10000工作量时最终完工时间对比；

图15为8000工作量时最终完工时间对比。

具体实施方式

为使本发明的上述目的、特征和优点更加明显易懂，一种基于强化学习的工作排程优化方法，包括以下步骤：

S1：分析员工工作与休息状态下的效率变化曲线，构建工作-休息排程的数学模型，工作和休息过程交替进行，形成工息循环，循环执行，直至完成整个工作量，包含以下步骤：

S1.1：模型中采用0.5次幂函数模拟休息时间对疲劳恢复的关系。忽略不同人之间的疲劳程度对于工作效率影响的差异，将疲劳状态的恢复等价于工作效率的恢复，设定工作效率与休息时间的关系如图1所示。

S1.2：综合工作人员的实际疲劳组成，模型中采用三次函数模拟疲劳积累与工作时间的关系，且将疲劳的积累粗略等同于工作效率的下降情况，设定工作效率与工作时间的关系如图2所示。

S1.3：基于S1.2与S1.3的工作-休息排程的数学模型，实现工息循环，工息循环过程示意图如图3所示。图3中，W_i(i＝1,2,3)为各阶段的工作量，0～t1为第一阶段工作时间，t1～t2为第一阶段休息时间，t2～t3为第二阶段工作时间，t3～t4为第二阶段休息时间，t4～total time为第三阶段工作时间。

S2.1：设定环境状态集S：环境状态中具体包括当前工息循环的剩余工作量W_T、上一工息循环中工作过程结束时的工作效率E_w、当前时刻工作效率E_r、上一工息循环的工作时间t_{work_last}、上一工息循环的休息时间t_{rest_last}和累计已经历时间t_total，当前工息循环的剩余工作量W_T如下式计算：

式中，T表示第T个工息循环，f_work()表示工作状态效率变化函数，f_{work_rev}()表示工作过程中的工作效率变化函数的反函数，E_r,T-1为T-1工息循环开始时的工作效率，t_work表示当前工息循环的工作时间，当前工息循环的E_w,T以及E_r,T计算公式如下：

式中，f_rest(·)表示休息状态效率恢复函数，f_{rest_rev}()表示休息过程中的工作效率恢复函数的反函数，t_rest表示当前工息循环的休息时间。

S2.2：智能体为工作人员，设定智能体动作集A：智能体动作为百分比表示的一个工息循环中的工作与休息时长，为<a_work,a_rest>，a_work,a_rest∈(0.1,1)，工作时间t_work计算公式如下：

t_work＝a_work×(f_{work_rev}(0)-f_{work_rev}(E_r,T-1)) (3)

式中，a_work为工作动作。

休息时间t_rest计算公式如下：

t_rest＝a_rest×(f_{rest_rev}(0)-f_{rest_rev}(E_work)) (4)

式中，a_rest为休息动作。

累计已经历时间t_total计算公式如下：

式中，t_end表示完工时的最后一次工作的工作时间，t_end与W的关系如下：

S2.3：设定环境状态转移矩阵P：从状态S到S'的状态转移概率定义如下：

P_SS'＝P(s_t+1＝S'|s_t＝S) (7)

状态转移矩阵P即为从每一个状态S到其可达的S'的概率P_SS'组成的矩阵。

式中，E_max为最大工作效率。

S2.5：设定折扣因子γ：未来累计期望奖励的权重系数，将γ设定为0.99。

S3：设计基于SAC工作排程优化算法，具体包含以下步骤：

S3.1：初始化环境信息；

S3.2：经由神经网络的前向传播，获得智能体动作；

S4：基于S3的训练流程，在线训练智能体直至收敛，将其投入对应工作量工作进行排程，如图4中的在线训练部分所示。

S5：为了进行不同工作量下算法的快速切换，设计一种工作量快速适应机制，如图5的离线训练部分所示，具体包含以下步骤：

S5.1：加载经验池，加载需进行预训练的模型；

S5.3：按批次从拷贝经验池中抽取经验对模型进行预训练；

对模型进行数值仿真，具体步骤如下：

仿真软件环境为Windows10+pycharm+parl，硬件环境为AMD Ryzen53600+NVIDAGeForce RTX 2060+16GB内存。算法参数如表1所示。对于环境参数，工作量分别固定为10000、8000和6000，因并未涉及具体工序，故此处工作量为单位工作量，仅验证算法是否有效。

表1.仿真参数设置

针对不同工作量条件下智能体训练的效果，本发明分别对其进行了5次仿真并记录了智能体奖励曲线，如图5、图6和图7所示。仿真结果表明，无论在工作量为10000、8000或6000的情况下，智能体在经过一定轮数的训练后都表现出奖励值由低到高逐步趋于稳定的趋势。值得注意的是，在工作量为10000的情况下，智能体的奖励曲线出现了些许波动，但迅速恢复并持续上升，最终稳定在6.1左右。对于其余两种工作量的情况，智能体奖励曲线相当平稳，在经历近1500轮训练之后，分别稳定在4.9和3.6左右。此外，从图5、图6和图7可看出，在不同的工作量情况下，智能体奖励波动范围都保持在较小的状态。

对于训练结果的最终指标，采用最终完工时间来衡量。记录5次训练中最终完工时间的变化，如图8、图9和图10所示。从图中可以看出，对于三种不同的工作量，最终都能收敛到一个较低的最终完工时间。从均值波动来看，训练前期较为不稳定，且会发生回弹的情况。随着训练的进行，策略逐渐收敛在最优解附近，最终完工时间逐步趋于最小值，训练结束。对于三种工作量，最终稳定值分别在147，100和81左右。

其次，介绍工作量高的模型快速适应工作量低的工作。在该情景下，采用工作量10000的模型，并通过设计的工作量快速适应机制，使其能够快速适应工作量8000和6000的任务，仿真结果如图11、图12和图13所示。如图11所示，可以得出经过工作量快速适应机制后，模型在大约420轮训练时，便初次到达其最终完成时间的最优值。尽管之后仍有些许波动，但基本可以判断模型已经收敛。8000工作量模型适应6000工作量效果如图12所示，迁移学习仍取得较好效果。10000工作量模型适应6000工作量如图13所示，在该种情况下，迁移工作量更多，相较于图12中，波动幅度亦更大，但二者曲线变化趋势仍然相同。同样的，同图10比较，进行工作量快速适应机制后，对于最终完成时间的优化明显更快，波动程度亦更小。

此外，和遗传算法分别对工作量为10000以及8000进行5次优化，对比结果如图14和图15所示。在10000和8000工作量时，遗传算法的解相较于本发明所提算法都略差。如图14所示，在10000工作量时遗传算法所得解的最终完工时间在202左右，本发明所提算法所得解的最终完工时间在140左右，优化效果提升约33.6％。如图15所示，8000工作量时，遗传算法所得解的最终完工时间在140左右，本发明所提算法所得解的最终完工时间在120左右，优化效果提升约25.3％。原因在于在对连续空间问题的处理上，所选择的交叉方式以及变异方式并不能够非常有效的在连续空间上进行寻优，对于越大的连续空间，效果越显著。

以上所述具体实施方案，对本发明的发明目的、技术方案和有益效果进行了进一步说明，以上实施例仅用于说明本发明的技术方案，而非对本发明创造保护范围的限制，本领域的普通技术人员应当理解，凡在本发明的技术方案进行修改、等同替换，均包含在本发明的保护范围内。

Claims

1.一种基于强化学习的工作排程优化方法，其特征在于，包括以下步骤：

S2：初始化设定，将员工作业流程建立为马尔可夫决策过程，包含以下步骤：

S2.1：设定环境状态集S，环境状态集为：

S＝{W_T,E_w,E_r,t_{work_last},t_{rest_last},t_total} (1)

式中，W_T为当前工息循环的剩余工作量，E_w为上一工息循环中工作过程结束时的工作效率，E_r为当前时刻工作效率，t_{work_last}为上一工息循环的工作时间，t_{rest_last}为上一工息循环的休息时间，t_total为累计已经历时间，当前工息循环的剩余工作量W_T如下式计算：

式中，T表示第T个工息循环，f_work(·)表示工作状态效率变化函数，f_{work_rev}(·)表示工作过程中的工作效率变化函数的反函数，E_r,T-1为T-1工息循环开始时的工作效率，t_work表示当前工息循环的工作时间，当前工息循环的E_w,T以及E_r,T计算公式如下：

式中，f_rest(·)表示休息状态效率恢复函数，f_{rest_rev}(·)表示休息过程中的工作效率恢复函数的反函数，t_rest表示当前工息循环的休息时间，工作时间t_work计算公式如下：

t_work＝a_work×(f_{work_rev}(0)-f_{work_rev}(E_r,T-1)) (4)

式中，a_work为工作动作，休息时间t_rest计算公式如下：

t_rest＝a_rest×(f_{rest_rev}(0)-f_{rest_rev}(E_work)) (5)

式中，a_rest为休息动作，累计已经历时间t_total计算公式如下：

S2.3：设定环境状态转移矩阵P，状态转移矩阵即为从每一个状态S到可达的S'的概率组成的矩阵，从状态S到S'的状态转移概率定义如下：

P_SS'＝P(s_t+1＝S'|s_t＝S) (8)

S3：设计基于SAC算法的工作排程优化算法，具体包含以下步骤：

S3.1：初始化环境信息；

S3.2：智能体做出决策动作；

S4：基于S3的训练流程，在线训练智能体直至收敛，将智能体投入对应工作量工作进行工作排程；

S5.1：加载经验池，加载需进行预训练的模型；

S5.3：按批次从拷贝经验池中抽取经验，对模型进行预训练；