CN112700099A

CN112700099A - 基于强化学习和运筹学的资源调度规划方法

Info

Publication number: CN112700099A
Application number: CN202011549310.0A
Authority: CN
Inventors: 田鹏飞; 孙伟
Original assignee: Yijing Zhilian Beijing Technology Co Ltd
Current assignee: Yijing Zhilian Beijing Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-23

Abstract

本发明公开了基于强化学习和运筹学的资源调度规划方法，包括如下步骤：S1、需要实现企业相关资源的动态管理；S2、其次按照企业运营的多种约束条件，利用强化学习和运筹学实现寻找最优的资源调度规划；S3、最后将动态的资源调度规划能力与企业业务系统对接，所述S1中实现企业相关资源的动态管理，利用时空计算引擎将企业运营的资源，数据实现可视化上图，实现资源的网格化管理，本发明集成数据管理、深度学习和运筹学核心算法、应用系统于一体，实现企业资源调度的最优安排，通过基于地图的可视化UI界面输出，便于人员的使用和管理，本发明对后台规则和算法做封装，只需要通过操作前端UI界面即可实现资源的智能调度规划。

Description

基于强化学习和运筹学的资源调度规划方法

技术领域

本发明涉及人工智能技术领域，具体为基于强化学习和运筹学的资源调度规划方法。

背景技术

在企业运营管理中，有三个核心问题资源管理、需求和销量预测、资源的调度安排，广泛意义上的资源包括设备、人员、客户、产品、系统等等，随着企业运营管理越来越精细，甚至做到网格化的管理，资源的调度安排变得越来越重要，例如人员的排岗、客户探访排班、设备产品的动态调度等；

基于强化学习和运筹学的资源调度规划，既继承了传统运筹学调度的能力，又利用人工智能的方式提升了调度的通用性；

在运筹学（OR）研究中，调度被认为是一类重要的组合优化问题；在控制理论研究中，调度属于最优控制问题，动态调度是信息不完全的一类调度，在环境不确定因素和扰动的影响下，需要不断的改变调度策略，可以认为是调度策略优化的过程；

强化学习作为机器学习的一种，它组合了动态规划、随机逼近和函数逼近的思想，强化学习很适合于解决动态调度问题，强化学习是智能体（Agent）以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，求解强化学习问题所使用的算法可分为策略搜索算法和值函数（valuefunction）算法两类；

标准强化学习框架结构由状态感知器、学习器和动作选择器三个模块组成，状态感知器把环境状态映射成Agnet内部感知,动作选择器根据当前策略选择动作作用于环境,学习器根据环境状态的奖赏值以及内部感知,更新的策略知识，强化学习技术的基本原理是如果的某个动作导致环境正的奖赏强化信号,那么以后产生这个动作的趋势便会加强,反之,产生这个动作的趋势减弱；

动态调度有时呈现的是一类复杂的调度问题，由于系统本身的复杂性，调度问题处理的不再是单一性能指标的优化，而通常是对多约束下的多目标综合考虑。

发明内容

本发明提供基于强化学习和运筹学的资源调度规划方法，可以有效解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于强化学习和运筹学的资源调度规划方法，包括如下步骤：

S1、需要实现企业相关资源的动态管理；

S2、其次按照企业运营的多种约束条件，利用强化学习和运筹学实现寻找最优的资源调度规划；

S3、最后将动态的资源调度规划能力与企业业务系统对接。

根据上述技术方案，所述S1中实现企业相关资源的动态管理，利用时空计算引擎将企业运营的资源，数据实现可视化上图，实现资源的网格化管理；

所述资源包括设备、人员、客户、产品和系统。

根据上述技术方案，所述S2中利用强化学习和运筹学实现寻找最优的资源调度规划，基于运筹学的动态调度方法，通过建立数学模型利用动态规划算法可以快速实现多条件约束下的小规模资源，对于大规模资源的调度规划，利用强化学习结合运筹学来综合实现最优的调度规划。

根据上述技术方案，所述S2中基于运筹学的动态调度方法建立合适的数学模型，将调度问题解释为优化模型，该模型带有目标函数和一些条件约束，对此模型进行有效的求解，采用的方法为动态规划。

根据上述技术方案，所述S2中利用强化学习结合运筹学来综合实现最优的调度规划，根据某种策略选择行为集合中的行为并执行作用于外部环境，环境变迁到下一个状态并且给出智能体这次动作的报酬，以此类推，智能体不断地与环境交互进行学习。

根据上述技术方案，所述S2中利用强化学习寻找最优的资源调度规划，首先设定环境的报酬函数，在资源调度规划问题上，报酬函数也是成本函数，算法目标是找到资源调度的成本最小方案；

在每次观测到系统状态后，通过这些状态计算一步报酬函数，其次利用RBF神经网络实现解决值函数的存储和泛化问题，提供给神经网络用来学习的信号是强化学习智能体与环境交互得来的信号，最终实现智能体与环境的本身的交互过程，最后通过可视化仿真环境来对资源调度规划实现评估，具体算法流程如下：

1、初始化RBF神经网络，从文件中读入中心向量、权值和半径值等；

2、观察资源所处状态，计算报酬；

3、观察当前智能体状态，得到可行方向集合，根据行为选择策略，选择行为；

4、执行行为，将状态行为对带入神经网络，前向计算得到行为值函数；

5、找到下一状态的行为值函数最大值，根据学习算法的迭代规则对当前的值函数进行迭代更新；

6、更新RBF神经网络中智能体的状态；

8、判断是否结束，否回到2，重复执行；

9．将神经网络参数存入文件，结束。

根据上述技术方案，所述可视化仿真环境来对资源调度规划实现评估，首先分析学习率对算法的影响，在折扣型算法Q学习和Sarsa学习里学习率为α，在平均型算法R学习中学习率包括两个参数：行为值函数学习率α和平均性能指标的学习率β；

其次分析折扣率γ对折扣型算法的影响，再次分析各行为选择策略对算法的作用，最后对比总结平均型和折扣型算法的性能差异。

根据上述技术方案，所述S3中将资源调度规划与企业业务系统对接，对接的接口支持RPC和RESTFUL模式，并且提供APP端支持，同过业务系统对企业运营做出调度指导，通过BI系统来真实统计运营效率提升效果。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便，本发明集成数据管理、深度学习和运筹学核心算法、应用系统于一体，实现企业资源调度的最优安排，通过基于地图的可视化UI界面输出，便于人员的使用和管理；

本发明对后台规则和算法做封装，只需要通过操作前端UI界面即可实现资源的智能调度规划。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明的方法步骤结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1所示，本发明提供技术方案，基于强化学习和运筹学的资源调度规划方法，包括如下步骤：

S1、需要实现企业相关资源的动态管理；

S3、最后将动态的资源调度规划能力与企业业务系统对接。

根据上述技术方案，S1中实现企业相关资源的动态管理，利用时空计算引擎将企业运营的资源，数据实现可视化上图，实现资源的网格化管理；

资源包括设备、人员、客户、产品和系统。

根据上述技术方案，S2中利用强化学习和运筹学实现寻找最优的资源调度规划，基于运筹学的动态调度方法，通过建立数学模型利用动态规划算法可以快速实现多条件约束下的小规模资源，对于大规模资源的调度规划，利用强化学习结合运筹学来综合实现最优的调度规划。

根据上述技术方案，S2中基于运筹学的动态调度方法建立合适的数学模型，将调度问题解释为优化模型，该模型带有目标函数和一些条件约束，对此模型进行有效的求解，采用的方法为动态规划，由于有时实际调度问题非常复杂，规模也很大，运用基于运筹学的调度方法求解这些问题时，在求解过程中，运用规划类算法计算量很大，因此传统的基于运筹学的方法不适合求解大规模的动态调度问题。在实际的应用中，这类方法通常跟智能的方法相结合。

根据上述技术方案，S2中利用强化学习结合运筹学来综合实现最优的调度规划，强化学习就是智能系统从环境到行为映射的学习，智能体感知所处环境的状态，根据某种策略选择行为集合中的行为并执行作用于外部环境，环境变迁到下一个状态并且给出智能体这次动作的报酬，以此类推，智能体不断地与环境交互进行学习，学习的目的是使得从长远的眼光来看所获得的报酬最大，强化学习有着深厚的数学理论基础，所依赖的理论背景框架主要是马尔可夫决策过程(MarkovDecisionProcess,简称MDP)和半马尔可夫决策过程(Semi-MarkovDecisionProcess,简称SMDP)，MDP是多阶段随机序贯最优决策问题的重要模型，其离散时间有限状态的特点为研究强化学习的基本算法提供了最简单的框架，强化学习不需要环境的精确的状态转移概率模型，是动态规划随机逼近的变形。

根据上述技术方案，S2中利用强化学习寻找最优的资源调度规划，首先设定环境的报酬函数，在资源调度规划问题上，报酬函数也是成本函数，算法目标是找到资源调度的成本最小方案；

2、观察资源所处状态，计算报酬；

6、更新RBF神经网络中智能体的状态；

8、判断是否结束，否回到2，重复执行；

9．将神经网络参数存入文件，结束。

根据上述技术方案，可视化仿真环境来对资源调度规划实现评估，首先分析学习率对算法的影响，在折扣型算法Q学习和Sarsa学习里学习率为α，在平均型算法R学习中学习率包括两个参数：行为值函数学习率α和平均性能指标的学习率β；

根据上述技术方案，S3中将资源调度规划与企业业务系统对接，对接的接口支持RPC和RESTFUL模式，并且提供APP端支持，同过业务系统对企业运营做出调度指导，通过BI系统来真实统计运营效率提升效果。

与现有技术相比，本发明的有益效果：本发明结构科学合理，使用安全方便，本发明集成数据管理、深度学习和运筹学核心算法、应用系统于一体，实现企业资源调度的最优安排。通过基于地图的可视化UI界面输出，便于人员的使用和管理；

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于强化学习和运筹学的资源调度规划方法，其特征在于：包括如下步骤：

S1、需要实现企业相关资源的动态管理；

S3、最后将动态的资源调度规划能力与企业业务系统对接。

2.根据权利要求1所述的基于强化学习和运筹学的资源调度规划方法，其特征在于，所述S1中实现企业相关资源的动态管理，利用时空计算引擎将企业运营的资源，数据实现可视化上图，实现资源的网格化管理；

所述资源包括设备、人员、客户、产品和系统。

3.根据权利要求1所述的基于强化学习和运筹学的资源调度规划方法，其特征在于，所述S2中利用强化学习和运筹学实现寻找最优的资源调度规划，基于运筹学的动态调度方法，通过建立数学模型利用动态规划算法可以快速实现多条件约束下的小规模资源，对于大规模资源的调度规划，利用强化学习结合运筹学来综合实现最优的调度规划。

4.根据权利要求3所述的基于强化学习和运筹学的资源调度规划方法，其特征在于，所述S2中基于运筹学的动态调度方法建立合适的数学模型，将调度问题解释为优化模型，该模型带有目标函数和一些条件约束，对此模型进行有效的求解，采用的方法为动态规划。

5.根据权利要求4所述的基于强化学习和运筹学的资源调度规划方法，其特征在于，所述S2中利用强化学习结合运筹学来综合实现最优的调度规划，根据某种策略选择行为集合中的行为并执行作用于外部环境，环境变迁到下一个状态并且给出智能体这次动作的报酬，以此类推，智能体不断地与环境交互进行学习。

6.根据权利要求1所述的基于强化学习和运筹学的资源调度规划方法，其特征在于，所述S2中利用强化学习寻找最优的资源调度规划，首先设定环境的报酬函数，在资源调度规划问题上，报酬函数也是成本函数，算法目标是找到资源调度的成本最小方案；

2、观察资源所处状态，计算报酬；

6、更新RBF神经网络中智能体的状态；

8、判断是否结束，否回到2，重复执行；

9．将神经网络参数存入文件，结束。

7.根据权利要求2所述的基于强化学习和运筹学的资源调度规划方法，其特征在于，所述可视化仿真环境来对资源调度规划实现评估，首先分析学习率对算法的影响，在折扣型算法Q学习和Sarsa学习里学习率为α，在平均型算法R学习中学习率包括两个参数：行为值函数学习率α和平均性能指标的学习率β；

8.根据权利要求1所述的基于强化学习和运筹学的资源调度规划方法，其特征在于，所述S3中将资源调度规划与企业业务系统对接，对接的接口支持RPC和RESTFUL模式，并且提供APP端支持，同过业务系统对企业运营做出调度指导，通过BI系统来真实统计运营效率提升效果。