CN116307251B - 一种基于强化学习的工作排程优化方法 - Google Patents

一种基于强化学习的工作排程优化方法 Download PDF

Info

Publication number
CN116307251B
CN116307251B CN202310390230.2A CN202310390230A CN116307251B CN 116307251 B CN116307251 B CN 116307251B CN 202310390230 A CN202310390230 A CN 202310390230A CN 116307251 B CN116307251 B CN 116307251B
Authority
CN
China
Prior art keywords
work
rest
working
time
efficiency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310390230.2A
Other languages
English (en)
Other versions
CN116307251A (zh
Inventor
栾添添
胥静
班喜程
孙明晓
尹昭然
甄立强
付强
姬长宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Weixue Education Technology Co.,Ltd.
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202310390230.2A priority Critical patent/CN116307251B/zh
Publication of CN116307251A publication Critical patent/CN116307251A/zh
Application granted granted Critical
Publication of CN116307251B publication Critical patent/CN116307251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/12Timing analysis or timing optimisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Manufacturing & Machinery (AREA)
  • Geometry (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提出一种基于强化学习的工作排程优化方法,旨在通过考虑员工实时疲劳程度,优化员工工作排程,进而缩短最大完工时间。首先,分析员工工作与休息状态下的效率变化曲线,构建工作‑休息排程的数学模型,将员工作业流程建立为马尔可夫决策过程;其次,基于SAC(Soft Actor Critic)算法设计智能体决策框架,实时调整员工工作与休息时长,以最大限度提高员工平均工作效率;此外,设计工作量快速适应机制,仅通过少量迁移训练,实现快速适应不同任务目标。仿真结果表明本发明能够优化员工工作排程方案,缩短最大完工时间,同时在工作量任务较大的情况下,可得到更好的优化效果,工作量快速适应机制使模型可以更灵活的应用于动态场景中。

Description

一种基于强化学习的工作排程优化方法
技术领域
本发明属人工智能领域,尤其涉及一种基于强化学习的工作排程优化方法。
背景技术
生产过程中,工人需要连续不断投入工作,期间消耗大量体力与精力,产生作业疲劳,导致作业能力下降。因此,安排合理的工作排程,设计有效的优化算法,减轻作业者的工作疲劳,对生产任务的顺利进行具有重要意义。
针对优化工作排程的问题,传统优化算法通常以最小化总完工时间作为算法的优化目标。然而,传统优化算法在解决工作排程的问题上普遍存在迭代时间长、动态性能差等缺陷,且大多在理论中得到证明。此外,由于实际任务中需完成的工作量处于一种动态变化的状态,因此要求设计的优化算法对于动态性能具备较强的适应能力。
论文《考虑工人疲劳的工作排程研究》中在考虑工作负荷和工人疲劳及其最大可接受工作时间的基础上,采用0了遗传算法优化求解得到工人的休息时间和休息次数的排程组合方案。但遗传算法中存在迭代时间长,动态性能差等缺陷,难以适应工作量变化的排程问题。论文《基于深度强化学习的模糊作业车间调度问题》中针对具有模糊加工时间和模糊交货期的作业车间调度问题,以最小化最大完工时间为目标,采用深度强化学习算法优化员工调度,寻找最优策略。虽文中同样使用深度强化学习方法,以最小化最大完工时间为目标优化员工调度,但主要是针对模糊加工时间进行优化,而非衡量员工疲劳状态来进行工作排程。
发明内容
针对现有技术存在的问题,本发明提出了一种基于强化学习的工作排程优化方法。构建工作人员疲劳模型,并采用基于SAC算法的工作排程算法对其进行快速工作排程,调整员工工作与休息时长,提高员工平均工作效率,且在工作量发生变化时,对不同的工作量有一定快速响应能力。
为达到以上目的,本发明采用如下具体技术方案予以解决:
S1:分析员工工作与休息状态下的效率变化曲线,构建工作-休息排程的数学模型,采用0.5次幂函数模拟休息时间对疲劳恢复的关系,采用三次函数模拟疲劳积累与工作时间的关系,每执行一次工作和休息过程的交替,为一次工息循环,反复进行工息循环,直至完成整个工作量;
S2:初始化设定,建立员工作业流程所对应马尔可夫决策过程,包含以下步骤:
S2.1:设定环境状态集S,环境状态集为:
S={WT,Ew,Er,twork_last,trest_last,ttotal} (3)
式中,WT为当前工息循环的剩余工作量,Ew为上一工息循环中工作过程结束时的工作效率,Er为当前时刻工作效率,twork_last为上一工息循环的工作时间,trest_last为上一工息循环的休息时间,ttotal为累计已经历时间;
S2.2:智能体为工作人员,设定智能体动作集A,智能体动作为百分比表示的一个工息循环中的工作与休息时长,为<awork,arest>,awork,arest∈(0.1,1);
S2.3:设定环境状态转移矩阵P,状态转移矩阵即为从每一个状态S到其可达的S'的概率组成的矩阵;
S2.4:设定环境奖励R:在此进行奖励重塑,通过估算单步工作效率设计奖励,下式为单步即时奖励RT及终局奖励Rend公式:
式中,T表示第T个工息循环,fwork(·)表示工作状态效率变化函数,fwork_rev(·)表示工作过程中的工作效率变化函数的反函数,Er,T-1为T-1工息循环开始时的工作效率,twork表示当前工息循环的工作时间,Emax为最大工作效率,Wtotal为设置的全部工作量大小,η为平衡终局奖励占比的系数;
S2.5:设定折扣因子γ:未来累计期望奖励的权重系数,将γ设定为0.99;
S3:设计基于SAC工作排程优化算法,具体包含以下步骤:
S3.1:初始化环境信息;
S3.2:智能体做出决策动作;
S3.3:计算对应工作时间并判断是否完工,若未完工跳转至S3.4;若完工跳转至S3.5;
S3.4:计算工作后工作效率、对应休息时间、休息后工作效率、累计已经历时间及即时奖励,打包环境状态,然后返回S3.2;
S3.5:计算累计已经历时间,将工作后工作效率和休息后工作效率置零,计算即时奖励,打包环境状态,程序结束;
S4:基于S3的训练流程,在线训练智能体直至收敛,将其投入对应工作量工作进行排程;
S5:切换至不同工作量时,采用工作量快速适应机制,具体包含以下步骤:
S5.1:加载经验池,加载需进行预训练的模型;
S5.2:逐条判断经验池中的经验是否满足条件,将满足条件的经验存入拷贝经验池;
S5.3:按批次从拷贝经验池中抽取经验,对模型进行预训练;
S5.4:将预训练后模型放入到不同目标工作量的环境中,执行S3,在当前已有经验池的基础上,继续对模型进行在线训练,直至模型收敛。
本发明具有如下有益效果:
(1)本发明根据环境特点,设计了相应奖励重塑机制避免造成奖励稀疏,解决了模型在训练过程中难以收敛的问题;
(2)本发明提出了一种工作量快速适应机制,通过少量迁移训练,使模型快速适应不同任务目标,减少了模型在切换不同任务后的训练时间;
(3)本发明提出的方法相较于传统遗传算法在工作量较大的情况下可以获得更好的优化效果。在8000工作量时,优化效果提升约25.3%;在10000工作量时,优化效果提升约33.6%。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为休息时间-工作效率曲线示意图;
图2为工作时间-工作效率曲线示意图;
图3为工息循环过程示意图;
图4为基于SAC算法的整体方案流程图;
图5为10000工作量时智能体奖励曲线;
图6为8000工作量时智能体奖励曲线;
图7为6000工作量时智能体奖励曲线;
图8为10000工作量时最终完工时间曲线;
图9为8000工作量时最终完工时间曲线;
图10为6000工作量时最终完工时间曲线;
图11为10000工作量适应8000工作量最终完工时间;
图12为8000工作量适应6000工作量最终完工时间;
图13为10000工作量适应6000工作量最终完工时间;
图14为10000工作量时最终完工时间对比;
图15为8000工作量时最终完工时间对比。
具体实施方式
为使本发明的上述目的、特征和优点更加明显易懂,一种基于强化学习的工作排程优化方法,包括以下步骤:
S1:分析员工工作与休息状态下的效率变化曲线,构建工作-休息排程的数学模型,工作和休息过程交替进行,形成工息循环,循环执行,直至完成整个工作量,包含以下步骤:
S1.1:模型中采用0.5次幂函数模拟休息时间对疲劳恢复的关系。忽略不同人之间的疲劳程度对于工作效率影响的差异,将疲劳状态的恢复等价于工作效率的恢复,设定工作效率与休息时间的关系如图1所示。
S1.2:综合工作人员的实际疲劳组成,模型中采用三次函数模拟疲劳积累与工作时间的关系,且将疲劳的积累粗略等同于工作效率的下降情况,设定工作效率与工作时间的关系如图2所示。
S1.3:基于S1.2与S1.3的工作-休息排程的数学模型,实现工息循环,工息循环过程示意图如图3所示。图3中,Wi(i=1,2,3)为各阶段的工作量,0~t1为第一阶段工作时间,t1~t2为第一阶段休息时间,t2~t3为第二阶段工作时间,t3~t4为第二阶段休息时间,t4~total time为第三阶段工作时间。
S2:初始化设定,建立员工作业流程所对应马尔可夫决策过程,包含以下步骤:
S2.1:设定环境状态集S:环境状态中具体包括当前工息循环的剩余工作量WT、上一工息循环中工作过程结束时的工作效率Ew、当前时刻工作效率Er、上一工息循环的工作时间twork_last、上一工息循环的休息时间trest_last和累计已经历时间ttotal,当前工息循环的剩余工作量WT如下式计算:
式中,T表示第T个工息循环,fwork()表示工作状态效率变化函数,fwork_rev()表示工作过程中的工作效率变化函数的反函数,Er,T-1为T-1工息循环开始时的工作效率,twork表示当前工息循环的工作时间,当前工息循环的Ew,T以及Er,T计算公式如下:
式中,frest(·)表示休息状态效率恢复函数,frest_rev()表示休息过程中的工作效率恢复函数的反函数,trest表示当前工息循环的休息时间。
S2.2:智能体为工作人员,设定智能体动作集A:智能体动作为百分比表示的一个工息循环中的工作与休息时长,为<awork,arest>,awork,arest∈(0.1,1),工作时间twork计算公式如下:
twork=awork×(fwork_rev(0)-fwork_rev(Er,T-1)) (3)
式中,awork为工作动作。
休息时间trest计算公式如下:
trest=arest×(frest_rev(0)-frest_rev(Ework)) (4)
式中,arest为休息动作。
累计已经历时间ttotal计算公式如下:
式中,tend表示完工时的最后一次工作的工作时间,tend与W的关系如下:
S2.3:设定环境状态转移矩阵P:从状态S到S'的状态转移概率定义如下:
PSS'=P(st+1=S'|st=S) (7)
状态转移矩阵P即为从每一个状态S到其可达的S'的概率PSS'组成的矩阵。
S2.4:设定环境奖励R:在此进行奖励重塑,通过估算单步工作效率设计奖励,下式为单步即时奖励RT及终局奖励Rend公式:
式中,Emax为最大工作效率。
S2.5:设定折扣因子γ:未来累计期望奖励的权重系数,将γ设定为0.99。
S3:设计基于SAC工作排程优化算法,具体包含以下步骤:
S3.1:初始化环境信息;
S3.2:经由神经网络的前向传播,获得智能体动作;
S3.3:计算对应工作时间并判断是否完工,若未完工跳转至S3.4;若完工跳转至S3.5;
S3.4:计算工作后工作效率、对应休息时间、休息后工作效率、累计已经历时间及即时奖励,打包环境状态,然后返回S3.2;
S3.5:计算累计已经历时间,将工作后工作效率和休息后工作效率置零,计算即时奖励,打包环境状态,程序结束;
S4:基于S3的训练流程,在线训练智能体直至收敛,将其投入对应工作量工作进行排程,如图4中的在线训练部分所示。
S5:为了进行不同工作量下算法的快速切换,设计一种工作量快速适应机制,如图5的离线训练部分所示,具体包含以下步骤:
S5.1:加载经验池,加载需进行预训练的模型;
S5.2:逐条判断经验池中的经验是否满足条件,将满足条件的经验存入拷贝经验池;
S5.3:按批次从拷贝经验池中抽取经验对模型进行预训练;
S5.4:将预训练后模型放入到不同目标工作量的环境中,执行S3,在当前已有经验池的基础上,继续对模型进行在线训练,直至模型收敛。
对模型进行数值仿真,具体步骤如下:
仿真软件环境为Windows10+pycharm+parl,硬件环境为AMD Ryzen53600+NVIDAGeForce RTX 2060+16GB内存。算法参数如表1所示。对于环境参数,工作量分别固定为10000、8000和6000,因并未涉及具体工序,故此处工作量为单位工作量,仅验证算法是否有效。
表1.仿真参数设置
针对不同工作量条件下智能体训练的效果,本发明分别对其进行了5次仿真并记录了智能体奖励曲线,如图5、图6和图7所示。仿真结果表明,无论在工作量为10000、8000或6000的情况下,智能体在经过一定轮数的训练后都表现出奖励值由低到高逐步趋于稳定的趋势。值得注意的是,在工作量为10000的情况下,智能体的奖励曲线出现了些许波动,但迅速恢复并持续上升,最终稳定在6.1左右。对于其余两种工作量的情况,智能体奖励曲线相当平稳,在经历近1500轮训练之后,分别稳定在4.9和3.6左右。此外,从图5、图6和图7可看出,在不同的工作量情况下,智能体奖励波动范围都保持在较小的状态。
对于训练结果的最终指标,采用最终完工时间来衡量。记录5次训练中最终完工时间的变化,如图8、图9和图10所示。从图中可以看出,对于三种不同的工作量,最终都能收敛到一个较低的最终完工时间。从均值波动来看,训练前期较为不稳定,且会发生回弹的情况。随着训练的进行,策略逐渐收敛在最优解附近,最终完工时间逐步趋于最小值,训练结束。对于三种工作量,最终稳定值分别在147,100和81左右。
其次,介绍工作量高的模型快速适应工作量低的工作。在该情景下,采用工作量10000的模型,并通过设计的工作量快速适应机制,使其能够快速适应工作量8000和6000的任务,仿真结果如图11、图12和图13所示。如图11所示,可以得出经过工作量快速适应机制后,模型在大约420轮训练时,便初次到达其最终完成时间的最优值。尽管之后仍有些许波动,但基本可以判断模型已经收敛。8000工作量模型适应6000工作量效果如图12所示,迁移学习仍取得较好效果。10000工作量模型适应6000工作量如图13所示,在该种情况下,迁移工作量更多,相较于图12中,波动幅度亦更大,但二者曲线变化趋势仍然相同。同样的,同图10比较,进行工作量快速适应机制后,对于最终完成时间的优化明显更快,波动程度亦更小。
此外,和遗传算法分别对工作量为10000以及8000进行5次优化,对比结果如图14和图15所示。在10000和8000工作量时,遗传算法的解相较于本发明所提算法都略差。如图14所示,在10000工作量时遗传算法所得解的最终完工时间在202左右,本发明所提算法所得解的最终完工时间在140左右,优化效果提升约33.6%。如图15所示,8000工作量时,遗传算法所得解的最终完工时间在140左右,本发明所提算法所得解的最终完工时间在120左右,优化效果提升约25.3%。原因在于在对连续空间问题的处理上,所选择的交叉方式以及变异方式并不能够非常有效的在连续空间上进行寻优,对于越大的连续空间,效果越显著。
以上所述具体实施方案,对本发明的发明目的、技术方案和有益效果进行了进一步说明,以上实施例仅用于说明本发明的技术方案,而非对本发明创造保护范围的限制,本领域的普通技术人员应当理解,凡在本发明的技术方案进行修改、等同替换,均包含在本发明的保护范围内。

Claims (1)

1.一种基于强化学习的工作排程优化方法,其特征在于,包括以下步骤:
S1:分析员工工作与休息状态下的效率变化曲线,构建工作-休息排程的数学模型,采用0.5次幂函数模拟休息时间对疲劳恢复的关系,采用三次函数模拟疲劳积累与工作时间的关系,每执行一次工作和休息过程的交替,为一次工息循环,反复进行工息循环,直至完成整个工作量;
S2:初始化设定,将员工作业流程建立为马尔可夫决策过程,包含以下步骤:
S2.1:设定环境状态集S,环境状态集为:
S={WT,Ew,Er,twork_last,trest_last,ttotal} (1)
式中,WT为当前工息循环的剩余工作量,Ew为上一工息循环中工作过程结束时的工作效率,Er为当前时刻工作效率,twork_last为上一工息循环的工作时间,trest_last为上一工息循环的休息时间,ttotal为累计已经历时间,当前工息循环的剩余工作量WT如下式计算:
式中,T表示第T个工息循环,fwork(·)表示工作状态效率变化函数,fwork_rev(·)表示工作过程中的工作效率变化函数的反函数,Er,T-1为T-1工息循环开始时的工作效率,twork表示当前工息循环的工作时间,当前工息循环的Ew,T以及Er,T计算公式如下:
式中,frest(·)表示休息状态效率恢复函数,frest_rev(·)表示休息过程中的工作效率恢复函数的反函数,trest表示当前工息循环的休息时间,工作时间twork计算公式如下:
twork=awork×(fwork_rev(0)-fwork_rev(Er,T-1)) (4)
式中,awork为工作动作,休息时间trest计算公式如下:
trest=arest×(frest_rev(0)-frest_rev(Ework)) (5)
式中,arest为休息动作,累计已经历时间ttotal计算公式如下:
式中,tend表示完工时的最后一次工作的工作时间,tend与W的关系如下:
S2.2:智能体为工作人员,设定智能体动作集A,智能体动作为百分比表示的一个工息循环中的工作与休息时长,为<awork,arest>,awork,arest∈(0.1,1);
S2.3:设定环境状态转移矩阵P,状态转移矩阵即为从每一个状态S到可达的S'的概率组成的矩阵,从状态S到S'的状态转移概率定义如下:
PSS'=P(st+1=S'|st=S) (8)
S2.4:设定环境奖励R:在此进行奖励重塑,通过估算单步工作效率设计奖励,下式为单步即时奖励RT及终局奖励Rend公式:
式中,T表示第T个工息循环,fwork(·)表示工作状态效率变化函数,fwork_rev(·)表示工作过程中的工作效率变化函数的反函数,Er,T-1为T-1工息循环开始时的工作效率,twork表示当前工息循环的工作时间,Emax为最大工作效率,Wtotal为设置的全部工作量大小,η为平衡终局奖励占比的系数;
S2.5:设定折扣因子γ:未来累计期望奖励的权重系数,将γ设定为0.99;
S3:设计基于SAC算法的工作排程优化算法,具体包含以下步骤:
S3.1:初始化环境信息;
S3.2:智能体做出决策动作;
S3.3:计算对应工作时间并判断是否完工,若未完工跳转至S3.4;若完工跳转至S3.5;
S3.4:计算工作后工作效率、对应休息时间、休息后工作效率、累计已经历时间及即时奖励,打包环境状态,然后返回S3.2;
S3.5:计算累计已经历时间,将工作后工作效率和休息后工作效率置零,计算即时奖励,打包环境状态,程序结束;
S4:基于S3的训练流程,在线训练智能体直至收敛,将智能体投入对应工作量工作进行工作排程;
S5:切换至不同工作量时,采用工作量快速适应机制,具体包含以下步骤:
S5.1:加载经验池,加载需进行预训练的模型;
S5.2:逐条判断经验池中的经验是否满足条件,将满足条件的经验存入拷贝经验池;
S5.3:按批次从拷贝经验池中抽取经验,对模型进行预训练;
S5.4:将预训练后模型放入到不同目标工作量的环境中,执行S3,在当前已有经验池的基础上,继续对模型进行在线训练,直至模型收敛。
CN202310390230.2A 2023-04-12 2023-04-12 一种基于强化学习的工作排程优化方法 Active CN116307251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310390230.2A CN116307251B (zh) 2023-04-12 2023-04-12 一种基于强化学习的工作排程优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310390230.2A CN116307251B (zh) 2023-04-12 2023-04-12 一种基于强化学习的工作排程优化方法

Publications (2)

Publication Number Publication Date
CN116307251A CN116307251A (zh) 2023-06-23
CN116307251B true CN116307251B (zh) 2023-09-19

Family

ID=86828899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310390230.2A Active CN116307251B (zh) 2023-04-12 2023-04-12 一种基于强化学习的工作排程优化方法

Country Status (1)

Country Link
CN (1) CN116307251B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117634859B (zh) * 2024-01-26 2024-04-12 清云小筑(北京)创新技术有限公司 基于深度强化学习的资源均衡施工排程方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326993A (zh) * 2021-04-20 2021-08-31 西南财经大学 一种基于深度强化学习的共享自行车调度方法
CN114154821A (zh) * 2021-11-22 2022-03-08 厦门深度赋智科技有限公司 基于深度强化学习的智能排产动态调度方法
CN114217524A (zh) * 2021-11-18 2022-03-22 国网天津市电力公司电力科学研究院 一种基于深度强化学习的电网实时自适应决策方法
CN114595958A (zh) * 2022-02-28 2022-06-07 哈尔滨理工大学 一种针对紧急突发状况的舰载机保障作业人员调度方法
WO2022221719A2 (en) * 2021-04-16 2022-10-20 Strong Force Vcn Portfolio 2019, Llc Systems, methods, kits, and apparatuses for digital product network systems and biology-based value chain networks
WO2022241808A1 (zh) * 2021-05-19 2022-11-24 广州中国科学院先进技术研究所 一种多机器人轨迹规划方法
CN115907364A (zh) * 2022-11-15 2023-04-04 电子科技大学 一种基于人员动态装配工时估计的车间人力资源配置优化方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8428993B2 (en) * 2010-07-30 2013-04-23 The United States Of America As Represented By The Secretary Of The Air Force Method and apparatus for risk identification and mitigation in shift work fatigue
CN113095481B (zh) * 2021-04-03 2024-02-02 西北工业大学 一种基于并行自我博弈的空战机动方法
US20230045360A1 (en) * 2021-07-14 2023-02-09 The Board Of Trustees Of The Leland Stanford Junior University Systems and Methods for Imitation Learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022221719A2 (en) * 2021-04-16 2022-10-20 Strong Force Vcn Portfolio 2019, Llc Systems, methods, kits, and apparatuses for digital product network systems and biology-based value chain networks
CN113326993A (zh) * 2021-04-20 2021-08-31 西南财经大学 一种基于深度强化学习的共享自行车调度方法
WO2022241808A1 (zh) * 2021-05-19 2022-11-24 广州中国科学院先进技术研究所 一种多机器人轨迹规划方法
CN114217524A (zh) * 2021-11-18 2022-03-22 国网天津市电力公司电力科学研究院 一种基于深度强化学习的电网实时自适应决策方法
CN114154821A (zh) * 2021-11-22 2022-03-08 厦门深度赋智科技有限公司 基于深度强化学习的智能排产动态调度方法
CN114595958A (zh) * 2022-02-28 2022-06-07 哈尔滨理工大学 一种针对紧急突发状况的舰载机保障作业人员调度方法
CN115907364A (zh) * 2022-11-15 2023-04-04 电子科技大学 一种基于人员动态装配工时估计的车间人力资源配置优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Application of Soft Actor-Critic Reinforcement Learning to a Search and Rescue Task for Humanoid Robots》;Hongxuan Ji等;2022 china automation congress(CAC);全文 *
<基于深度强化学习的智能体自适应决策能力的生成>;程艳;中国优秀硕士学位论文全文数据库 (基础科学辑)(第12期);A002-676 *
考虑疲劳和工作负荷的人工拣选货品排程研究;赵小松;武锦慧;何桢;;系统工程学报(第05期);全文 *

Also Published As

Publication number Publication date
CN116307251A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN112668235B (zh) 基于离线模型预训练学习的ddpg算法的机器人控制方法
CN116307251B (zh) 一种基于强化学习的工作排程优化方法
CN110632922B (zh) 一种基于蝙蝠算法与强化学习的路径规划方法
CN111985672A (zh) 一种多Agent深度强化学习的单件作业车间调度方法
CN112131206B (zh) 一种多模型数据库OrientDB参数配置自动调优方法
CN113110052B (zh) 一种基于神经网络和强化学习的混合能量管理方法
CN109784497B (zh) 基于计算图进化的ai模型自动生成的方法
CN113570039A (zh) 一种基于强化学习的优化共识的区块链系统
Mousavi et al. Applying q (λ)-learning in deep reinforcement learning to play atari games
CN115293052A (zh) 电力系统有功潮流在线优化控制方法、存储介质和装置
CN111160755A (zh) 一种基于dqn的飞机大修车间实时调度方法
CN115983438A (zh) 数据中心末端空调系统运行策略确定方法及装置
Scheiderer et al. Simulation-as-a-service for reinforcement learning applications by example of heavy plate rolling processes
CN116644902A (zh) 一种基于深度强化学习的关于能耗的多目标动态柔性作业车间调度的方法
CN116700003A (zh) 使用流程工业历史数据构建强化学习环境的方法及系统
CN113627533B (zh) 一种基于强化学习的电力设备检修决策生成方法
CN110175698A (zh) 一种基于改进粒子群优化bp神经网络的水泵设备状态预测方法
CN115765050A (zh) 一种电力系统安全校正控制方法、系统、设备及存储介质
CN116070504A (zh) 一种高效制冷机房数字孪生仿真系统
CN114219274A (zh) 一种基于深度强化学习适应机器状态的车间调度方法
CN115526504A (zh) 泵站供水系统节能调度方法、系统、电子设备及存储介质
CN114648178A (zh) 一种基于ddpg算法的电能计量装置运维策略优化方法
CN111582495A (zh) 基于优胜劣汰的深度强化学习策略网络存储方法及设备
Ananthakrishnan et al. Automated gait generation for simulated bodies using deep reinforcement learning
CN110908280A (zh) 一种小车-二级倒立摆系统优化控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240430

Address after: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Patentee after: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region after: China

Address before: 150080 No. 52, Xuefu Road, Nangang District, Heilongjiang, Harbin

Patentee before: HARBIN University OF SCIENCE AND TECHNOLOGY

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240516

Address after: Room 2201, No. 625 Tianhe Road, Tianhe District, Guangzhou City, Guangdong Province, 510000 (Location: Self made Unit 2205)

Patentee after: Guangzhou Weixue Education Technology Co.,Ltd.

Country or region after: China

Address before: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Patentee before: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region before: China