CN113256128A

CN113256128A - 电力物联网中使用强化学习均衡资源使用的任务调度方法

Info

Publication number: CN113256128A
Application number: CN202110606994.1A
Authority: CN
Inventors: 王传君; 缪巍巍; 曾锃; 张明轩; 李世豪; 张震; 张瑞; 滕昌志; 张厦千; 胡游君; 周忠冉; 张文鹏; 高雪; 张俊杰
Original assignee: State Grid Jiangsu Electric Power Co Ltd; Nari Information and Communication Technology Co; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd; Nari Information and Communication Technology Co; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-08-13

Abstract

本发明公开了一种电力物联网中使用强化学习均衡资源使用的任务调度方法，对于物联管理平台中每个模块进行强化学习模型的训练，得到强化学习模型动作‑值函数Q的参数；当有新的任务到达时，将当前模块状态和任务状态输入到对应的训练好的强化学习模型动作‑值函数Q中，使用估计reward最大的动作作为结果，将任务分配至动作对应的计算节点。本发明强化学习能够较好地捕捉到系统和任务状态、分配策略和分配之后的资源均衡程度之间的关系。

Description

电力物联网中使用强化学习均衡资源使用的任务调度方法

技术领域

本发明涉及一种电力物联网中使用强化学习均衡资源使用的任务调度方法，属于电力物联网技术领域。

背景技术

随着海量终端设备的出现，物联网越来越多地进入到人们日常生活中。海量终端设备会产生许多数据，这些数据会被传输到物联管理平台，经过物联管理平台中多个模块，例如连接管理模块，设备管理模块，模型管理模块等进行流水线地处理，得到处理后的数据并存储起来，等待上层应用的查询使用。

由于每个模块中都有多个节点，因此在每个模块中将每个任务分配至哪个节点就成为了一个需要解决的问题。每个计算节点的状态表达都非常复杂，涉及到该节点拥有的多种资源总量、多种资源利用率以及温度等相关信息；再加上任务状态也很复杂，涉及到发送任务的设备信息、任务主要数据类型、任务数据更新频率等。因此，想要达到较好的任务调度结果，使得整个系统中资源利用率比较均衡，凭借传统的启发式算法是不足够的。

如何克服现有的调度算法倾向于选择当前资源占用率较低的节点作为任务分配的节点，忽略了多种资源之间的复杂影响，难以达到最优的问题，是本领域技术急需要解决的问题。

发明内容

目的：为了克服现有技术中存在的物联管理平台中任务调度的问题，本发明提供一种电力物联网中使用强化学习均衡资源使用的任务调度方法，当每个模块中节点比较多，状态比较复杂时，强化学习能够较好地捕捉到系统和任务状态、分配策略和分配之后的资源均衡程度之间的关系。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

一种电力物联网中使用强化学习均衡资源使用的任务调度方法，包括如下步骤：

对于物联管理平台中每个模块进行强化学习模型的训练，得到强化学习模型动作-值函数Q的参数。

当有新的任务到达时，将当前模块状态和任务状态输入到对应的训练好的强化学习模型动作-值函数Q中，使用估计reward最大的动作作为结果，将任务分配至动作对应的计算节点。

作为优选方案，对于物联管理平台中每个模块进行强化学习模型的训练，包括如下步骤：

使用一块内存，用于存储回放经验。

使用随机权重初始化动作-值函数Q，动作-值函数Q根据当前捕获到的模块状态State_jk，评估每个动作之后模块获得的奖励值。

将任务分配到一个计算节点，比较任务分配给任何其他计算节点时整个模块的资源利用率的不均衡程度，选择资源利用率的不均衡程度最小的计算节点对任务进行分配。

计算获得任务后模块获得的奖励值，并得到新的模块状态。

将{上一个的模块状态、动作、奖励值、新的模块状态}的序列，加入到回放经验中。

从回放经验中抽取指定数目的序列，使用这些序列的数据对动作-值函数Q进行梯度下降计算，更新动作-值函数Q的参数。

不断重复更新动作-值函数Q的参数的训练，直到达到收敛或达到指定轮数，得到一个训练好的强化学习模型。

作为优选方案，所述模块状态State_jk＝{Module_j，Task_k}；

其中，Module_j＝{S_j0，S_j1，...S_jnj}，其中Module_j表示模块j的状态，nj是模块j中的计算节点个数，S_j0，S_j1，...S_jnj表示模块j中第0个计算节点到第nj个计算节点的状态；Task_k＝{Decvice_k，Dtype_k，Dupdate_k}，其中，Task_k是当前设备k的任务状态，Device_k是可以获得的设备信息，Dtype_k是设备数据类型信息，Dupdate_k是设备数据更新频率信息。

作为优选方案，所述动作a_jk，a_jk代表设备

k对应模块j中一个计算节点的一个动作。

作为优选方案，所述计算节点的状态S_i，S_i＝{C_i，M_i，P_ci，P_mi，N_i，Temp，G_i}；

其中，C_i＝{C_numi，C_freqi}代表当前计算节点的CPU资源量，包括C_numi代表可用CPU个数，C_freqi代表每个CPU的主频；M_i代表当前计算节点的内存资源量；P_ci代表当前计算节点的CPU资源利用率；P_mi代表当前计算节点的内存资源利用率；N_i代表该计算节点与物联管理平台中其它计算节点之间的网络资源信息；Temp代表当前计算节点的温度；G_i＝{G_numi，G_infoi}代表当前计算节点的GPU资源量，包括G_numi代表可用GPU个数，G_infoi代表每个GPU的参数信息。

作为优选方案，所述模块的资源利用率的不均衡程度为L_j，L_j＝AVG(STD(P_cj)，STD(P_mj)，STD(P_gj))；

其中AVG()代表求算术平均的函数，STD(P_cj)代表Module_j内部对于CPU利用率的标准差，P_cj代表Module_j中CPU资源集合；STD(P_mj)代表Module_j对于内存利用率的标准差，P_mj代表Module_j中内存资源集合；STD(P_gj)代表Module_j对于GPU利用率的标准差，P_gj代表Module_j中GPU资源集合。

作为优选方案，所述奖励值reward，reward＝1/2-L_j。

有益效果：本发明提供的一种电力物联网中使用强化学习均衡资源使用的任务调度方法，使得物联管理平台中各模块的资源利用率尽可能均衡的方法。该方法首先将每个模块状态和设备及其伴随的任务进行数值向量化，使其可以成为神经网络的输入；随后使用强化学习方法对每个模块训练一个强化学习模型。强化学习模型训练完之后，就可以部署到一个集中的模块，例如任务调度模块，任务调度模块根据模型，获得每个模块的状态和任务特征后进行任务调度，使得每个模块的资源使用率尽可能均衡。

附图说明

图1是本发明方法任务具体调度说明示意图。

图2是DQN的训练流程示意图。

具体实施方式

下面结合具体实施例对本发明作更进一步的说明。

如图1所示，一种电力物联网中使用强化学习均衡资源使用的任务调度方法，对当前物联管理平台的整体状态建立数学模型：

一个物联管理平台中会有多个模块负责对到来的设备及数据进行处理，为了提高每个模块的计算能力，每一个模块中会有多个计算节点。这多个计算节点的状态各不相同，即这多个计算节点的资源总量、当前资源利用率、与其他计算节点之间的网络带宽、温度等属性是各不相同的；一个模块中所有计算节点状态的汇总可以代表这个模块的状态，物联管理平台中所有模块状态的汇总可以代表整个物联管理平台的状态。

对于物联管理平台中的单个计算节点i，其状态S_i＝{C_i，M_i，P_ci，P_mi，N_i，Temp，G_i}包括单个计算节点拥有的所有资源以及对应的资源利用率，其中C_i＝{C_numi，C_freqi}代表当前计算节点的CPU资源量，包括C_numi代表可用CPU个数，C_freqi代表每个CPU的主频；M_i代表当前计算节点的内存资源量；P_ci代表当前计算节点的CPU资源利用率；P_mi代表当前计算节点的内存资源利用率；N_i代表该计算节点与物联管理平台中其它计算节点之间的网络资源信息，这影响着数据传输速度，也是整个系统状态的一部分；Temp代表当前计算节点的温度，如果一个节点温度过高，CPU很可能会被强制降频，可以使用的资源量和实际拥有的总资源量会有区别，这一点也应该纳入到考虑因素中；G_i＝{G_numi，G_infoi}代表当前计算节点的GPU资源量，包括G_numi代表可用GPU个数，G_infoi代表每个GPU的参数信息。

在物联管理平台中有多个模块，例如连接管理模块、设备管理模块、模型管理模块等，这些模块具有多个计算节点。对于模块j来说，Module_j＝{S_j0，S_j1，...S_jnj}，其中Module_j表示模块j的状态，nj是模块j中的计算节点个数，S_j0，S_j1，...S_jnj表示模块j中第0个计算节点到第nj个计算节点的状态。整个物联管理平台的状态可以表示为

System＝{Module₀，Module₁...，Module_n-1}，n是物联管理平台系统中模块的个数。

(1)对到来的设备和任务状态进行建模：

当一台边缘设备连接到物联管理平台时，会有一些可以获得的信息，这些信息能够反映该设备提交任务的一些性质，包括设备上的主要数据类型，其中图像数据的处理一般比数值数据的处理更花费内存和计算能力；还包括边缘设备数据更新速度，更新速度更快的设备一般来说会花费更多的内存和资源；此外还有一些可以获得的信息如设备所属场景、设备信息等。对于当前设备k和其任务状态可以建模为Task_k＝{Decvice_k，Dtype_k，Dupdate_k}，其中，Task_k是当前设备k的任务状态，Device_k是可以获得的设备信息，Dtype_k是设备数据类型信息，Dupdate_k是设备数据更新频率信息。

将当前模块Module_j和当前物联管理平台要处理的任务Task_k结合起来，得到State_jk＝{Module_j，Task_k}，可以将其作为该模块强化学习的环境，也就是模块j的任务状态集合。

(2)每次新的设备和任务到达时，可以获得每个模块最新的任务状态State_jk，在State_jk的基础上，进行任务调度的决策。对于每个任务，它所传来的数据都需要经过一系列的处理模块进行处理，包括连接管理模块、设备管理模块、模型管理模块等，在进行每个模块处理时，需要在该模块计算节点集合中指定一个计算节点用来处理当前任务。因此，对于每个模块Module_j来说，将任务Task_k指定到Module_j中的一个计算节点可以作为一个动作a_jk，a_jk代表设备k对应模块j中一个计算节点的一个动作；完成对任务Task_k分配就是完成物联管理平台中每个模块对Task_k的分配。

(3)任务调度的最终目标是使得整个物联管理平台负载均衡，也就是每个模块内部计算节点资源利用率尽可能相同。对于Module_j，其内部对于CPU利用率的标准差记作STD(P_cj)，P_cj代表Module_j中CPU资源集合；对于内存利用率的标准差记作STD(P_mj)，P_mj代表Module_j中内存资源集合；对于GPU利用率的标准差记作STD(P_gj)，P_gj代表Module_j中GPU资源集合。整个模块整体资源利用率的不均衡程度记为L_j＝AVG(STD(P_cj)，STD(P_mj)，STD(P_gj))，其中AVG()代表求算术平均的函数。由于目标是使系统负载尽可能均衡，因此模块j在完成任务分配后，将模块j的奖励函数记作reward＝1/2-L_j，这样分配后，模块负载越均衡，其奖励函数取值就越大，能够促进强化学习算法向资源分配均衡的方向调度任务。

(4)使用强化学习算法DQN解决上面的问题，具体流程见下：

(a)对于每个模块，都执行下面的操作训练一个强化学习模型：

(b)使用随机权重初始化动作-值函数Q，动作-值函数Q根据当前捕获到的模块状态State_jk，评估每个动作之后模块获得的奖励值。

(c)将任务分配到一个计算节点，比较任务分配给任何其他计算节点时整个模块的资源利用率的不均衡程度，选择资源利用率的不均衡程度最小的计算节点对任务进行分配。

(d)计算获得任务后模块获得的奖励值，并得到新的模块状态。

(e)将{上一个的模块状态、动作、奖励值、新的模块状态}的序列，加入到回放经验中。

(f)从回放经验中抽取指定数目的序列，使用这些序列的数据对动作-值函数Q进行梯度下降计算，更新动作-值函数Q的参数。

(g)不断重复更新动作-值函数Q的参数的训练，直到达到收敛或达到指定轮数，得到一个训练好的强化学习模型。部署得到的Q和对应的参数θ，当有新的任务到达时，将当前模块状态和任务状态输入Q中，使用估计reward最大的动作作为结果，将该任务分配至对应的计算节点上去。

实施例1：

例如在训练连接管理模块对应的强化学习模型时，如果其中有一个节点CPU拥有两个核，主频都是3.8Ghz，且拥有16G内存，CPU利用率和内存利用率都是10％，当前温度为40℃，那可以用下面这个向量代表该计算节点的状态{{2，{3.8，3.8}}，16，0.1，0.1，40}；连接管理模块中所有节点的状态向量组合在一起，就能够代表连接管理模块的当前状态。

当一个新的任务到达时，我们也要将这个任务的特征数值化。Device_k中会有设备相关的信息，对于一些属性进行编号，在对应属性上填入符合该设备特征的编号即可；设备数据类型同理。对于更新频率，我们可以使用有意义的数字表示，例如加入数据60秒更新一次，该任务的Dupdate_k的值就应该是60。

在训练强化学习模型时，要选取超参数，这是一个需要调参的过程。我们默认令超参数中的容量N＝2000，采用一个神经网络结构对识训练完的强化学习模型进行训练，得到自动获取强化学习模型的神经网络，神经网络结构使用两层线性网络，α＝0.001，γ＝0.95，M＝3000，T＝100，ε＝0.001来进行训练，α是学习率，γ是折现因子，M是训练总轮数，T是每轮训练中内部生成序列数，ε是随机选择的概率。训练完成后，利用神经网络就可以得到训练好的Q的θ参数，然后将Q部署至该模块。当新的任务需要分配到连接管理模块时，就将连接管理模块的状态和任务状态输入到Q中，Q会得出分配至每个节点的reward值，选取reward值最大的那个节点作为分配对象即可。

实施例2：

本发明能够解决复杂环境中策略选择问题的强化学习算法，是解决物联管理平台任务调度问题的优秀工具。强化学习能够通过和环境地不断交互，学习能达到最大化收益的策略。强化学习常见的模型是马尔可夫决策过程，即当前时刻的状态只与前一时刻的状态和动作有关，和其余时刻的状态和动作条件独立。这是符合我们物联管理平台的情况的，因为之前调度对系统造成的影响，都被包含在了系统的当前状态中。

具体来讲，在这个问题中，环境就是物联管理平台中节点的状态和到来任务的状态；当强化学习算法感知到当前所处的环境，就会根据当前环境做出期望收益最大的决策，这里的期望收益是每个模块中节点资源利用率的均衡程度。强化学习在训练时，强化学习算法做出将当前任务分配至模块的哪一个节点的决策后，就将该任务分配到决定的节点上去，获得分配后资源利用率的均衡情况，作为奖赏函数。如果奖赏函数取值比较大，说明这是一个较优的决策，那么未来的决策就会偏向这种好的决策；如果奖赏函数取值比较小，说明这不是一个优秀的决策，未来强化学习算法就会避免这种较差的决策；当完成决策，做出将任务分配至模块中的某个节点后，系统的状态就会发生变化，当强化学习算法再去感知环境时，就会感知到新的状态。

上述强化学习算法是一个不断迭代的过程，随着训练过程的推进，强化学习能够越来越精确地捕捉整个复杂的系统与决策和其反馈之间的关系，从而更好地做出合适的任务调度决策。在训练完成之后，我们可以得到每个模块对应的强化学习模型，当在进行对应模块的决策时，使用训练好的强化学习模型即可获得每种状态下应该采取的动作。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种电力物联网中使用强化学习均衡资源使用的任务调度方法，其特征在于：包括如下步骤：

对于物联管理平台中每个模块进行强化学习模型的训练，得到强化学习模型动作-值函数Q的参数；

2.根据权利要求1所述的一种电力物联网中使用强化学习均衡资源使用的任务调度方法，其特征在于：对于物联管理平台中每个模块进行强化学习模型的训练，包括如下步骤：

使用一块内存，用于存储回放经验；

使用随机权重初始化动作-值函数Q，动作-值函数Q根据当前捕获到的模块状态State_jk，评估每个动作之后模块获得的奖励值；

将任务分配到一个计算节点，比较任务分配给任何其他计算节点时整个模块的资源利用率的不均衡程度，选择资源利用率的不均衡程度最小的计算节点对任务进行分配；

计算获得任务后模块获得的奖励值，并得到新的模块状态；

将{上一个的模块状态、动作、奖励值、新的模块状态}的序列，加入到回放经验中；

从回放经验中抽取指定数目的序列，使用这些序列的数据对动作-值函数Q进行梯度下降计算，更新动作-值函数Q的参数；

3.根据权利要求2所述的一种电力物联网中使用强化学习均衡资源使用的任务调度方法，其特征在于：所述模块状态State_jk＝{Module_j，Task_k}；

4.根据权利要求2所述的一种电力物联网中使用强化学习均衡资源使用的任务调度方法，其特征在于：所述动作a_jk，a_jk代表设备k对应模块j中一个计算节点的一个动作。

5.根据权利要求3所述的一种电力物联网中使用强化学习均衡资源使用的任务调度方法，其特征在于：所述计算节点的状态S_i，

S_i＝{C_i，M_i，P_ci，P_mi，N_i，Temp，G_i}；

6.根据权利要求2所述的一种电力物联网中使用强化学习均衡资源使用的任务调度方法，其特征在于：所述模块的资源利用率的不均衡程度为L_j，L_j＝AVG(STD(P_cj)，STD(P_mj)，STD(P_gj))；

其中AVG( )代表求算术平均的函数，STD(P_cj)代表Module_j内部对于CPU利用率的标准差，P_cj代表Module_j中CPU资源集合；STD(P_mj)代表Module_j对于内存利用率的标准差，P_mj代表Module_j中内存资源集合；STD(P_gj)代表Module_j对于GPU利用率的标准差，P_gj代表Module_j中GPU资源集合。

7.根据权利要求6所述的一种电力物联网中使用强化学习均衡资源使用的任务调度方法，其特征在于：所述奖励值reward，reward＝1/2-L_j。