CN113256128A - 电力物联网中使用强化学习均衡资源使用的任务调度方法 - Google Patents

电力物联网中使用强化学习均衡资源使用的任务调度方法 Download PDF

Info

Publication number
CN113256128A
CN113256128A CN202110606994.1A CN202110606994A CN113256128A CN 113256128 A CN113256128 A CN 113256128A CN 202110606994 A CN202110606994 A CN 202110606994A CN 113256128 A CN113256128 A CN 113256128A
Authority
CN
China
Prior art keywords
module
task
reinforcement learning
action
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110606994.1A
Other languages
English (en)
Inventor
王传君
缪巍巍
曾锃
张明轩
李世豪
张震
张瑞
滕昌志
张厦千
胡游君
周忠冉
张文鹏
高雪
张俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Jiangsu Electric Power Co Ltd
Nari Information and Communication Technology Co
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
State Grid Jiangsu Electric Power Co Ltd
Nari Information and Communication Technology Co
Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Jiangsu Electric Power Co Ltd, Nari Information and Communication Technology Co, Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd filed Critical State Grid Jiangsu Electric Power Co Ltd
Priority to CN202110606994.1A priority Critical patent/CN113256128A/zh
Publication of CN113256128A publication Critical patent/CN113256128A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • Molecular Biology (AREA)
  • Educational Administration (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种电力物联网中使用强化学习均衡资源使用的任务调度方法,对于物联管理平台中每个模块进行强化学习模型的训练,得到强化学习模型动作‑值函数Q的参数;当有新的任务到达时,将当前模块状态和任务状态输入到对应的训练好的强化学习模型动作‑值函数Q中,使用估计reward最大的动作作为结果,将任务分配至动作对应的计算节点。本发明强化学习能够较好地捕捉到系统和任务状态、分配策略和分配之后的资源均衡程度之间的关系。

Description

电力物联网中使用强化学习均衡资源使用的任务调度方法
技术领域
本发明涉及一种电力物联网中使用强化学习均衡资源使用的任务调度方法,属于电力物联网技术领域。
背景技术
随着海量终端设备的出现,物联网越来越多地进入到人们日常生活中。海量终端设备会产生许多数据,这些数据会被传输到物联管理平台,经过物联管理平台中多个模块,例如连接管理模块,设备管理模块,模型管理模块等进行流水线地处理,得到处理后的数据并存储起来,等待上层应用的查询使用。
由于每个模块中都有多个节点,因此在每个模块中将每个任务分配至哪个节点就成为了一个需要解决的问题。每个计算节点的状态表达都非常复杂,涉及到该节点拥有的多种资源总量、多种资源利用率以及温度等相关信息;再加上任务状态也很复杂,涉及到发送任务的设备信息、任务主要数据类型、任务数据更新频率等。因此,想要达到较好的任务调度结果,使得整个系统中资源利用率比较均衡,凭借传统的启发式算法是不足够的。
如何克服现有的调度算法倾向于选择当前资源占用率较低的节点作为任务分配的节点,忽略了多种资源之间的复杂影响,难以达到最优的问题,是本领域技术急需要解决的问题。
发明内容
目的:为了克服现有技术中存在的物联管理平台中任务调度的问题,本发明提供一种电力物联网中使用强化学习均衡资源使用的任务调度方法,当每个模块中节点比较多,状态比较复杂时,强化学习能够较好地捕捉到系统和任务状态、分配策略和分配之后的资源均衡程度之间的关系。
技术方案:为解决上述技术问题,本发明采用的技术方案为:
一种电力物联网中使用强化学习均衡资源使用的任务调度方法,包括如下步骤:
对于物联管理平台中每个模块进行强化学习模型的训练,得到强化学习模型动作-值函数Q的参数。
当有新的任务到达时,将当前模块状态和任务状态输入到对应的训练好的强化学习模型动作-值函数Q中,使用估计reward最大的动作作为结果,将任务分配至动作对应的计算节点。
作为优选方案,对于物联管理平台中每个模块进行强化学习模型的训练,包括如下步骤:
使用一块内存,用于存储回放经验。
使用随机权重初始化动作-值函数Q,动作-值函数Q根据当前捕获到的模块状态Statejk,评估每个动作之后模块获得的奖励值。
将任务分配到一个计算节点,比较任务分配给任何其他计算节点时整个模块的资源利用率的不均衡程度,选择资源利用率的不均衡程度最小的计算节点对任务进行分配。
计算获得任务后模块获得的奖励值,并得到新的模块状态。
将{上一个的模块状态、动作、奖励值、新的模块状态}的序列,加入到回放经验中。
从回放经验中抽取指定数目的序列,使用这些序列的数据对动作-值函数Q进行梯度下降计算,更新动作-值函数Q的参数。
不断重复更新动作-值函数Q的参数的训练,直到达到收敛或达到指定轮数,得到一个训练好的强化学习模型。
作为优选方案,所述模块状态Statejk={Modulej,Taskk};
其中,Modulej={Sj0,Sj1,...Sjnj},其中Modulej表示模块j的状态,nj是模块j中的计算节点个数,Sj0,Sj1,...Sjnj表示模块j中第0个计算节点到第nj个计算节点的状态;Taskk={Decvicek,Dtypek,Dupdatek},其中,Taskk是当前设备k的任务状态,Devicek是可以获得的设备信息,Dtypek是设备数据类型信息,Dupdatek是设备数据更新频率信息。
作为优选方案,所述动作ajk,ajk代表设备
k对应模块j中一个计算节点的一个动作。
作为优选方案,所述计算节点的状态Si,Si={Ci,Mi,Pci,Pmi,Ni,Temp,Gi};
其中,Ci={Cnumi,Cfreqi}代表当前计算节点的CPU资源量,包括Cnumi代表可用CPU个数,Cfreqi代表每个CPU的主频;Mi代表当前计算节点的内存资源量;Pci代表当前计算节点的CPU资源利用率;Pmi代表当前计算节点的内存资源利用率;Ni代表该计算节点与物联管理平台中其它计算节点之间的网络资源信息;Temp代表当前计算节点的温度;Gi={Gnumi,Ginfoi}代表当前计算节点的GPU资源量,包括Gnumi代表可用GPU个数,Ginfoi代表每个GPU的参数信息。
作为优选方案,所述模块的资源利用率的不均衡程度为Lj,Lj=AVG(STD(Pcj),STD(Pmj),STD(Pgj));
其中AVG()代表求算术平均的函数,STD(Pcj)代表Modulej内部对于CPU利用率的标准差,Pcj代表Modulej中CPU资源集合;STD(Pmj)代表Modulej对于内存利用率的标准差,Pmj代表Modulej中内存资源集合;STD(Pgj)代表Modulej对于GPU利用率的标准差,Pgj代表Modulej中GPU资源集合。
作为优选方案,所述奖励值reward,reward=1/2-Lj
有益效果:本发明提供的一种电力物联网中使用强化学习均衡资源使用的任务调度方法,使得物联管理平台中各模块的资源利用率尽可能均衡的方法。该方法首先将每个模块状态和设备及其伴随的任务进行数值向量化,使其可以成为神经网络的输入;随后使用强化学习方法对每个模块训练一个强化学习模型。强化学习模型训练完之后,就可以部署到一个集中的模块,例如任务调度模块,任务调度模块根据模型,获得每个模块的状态和任务特征后进行任务调度,使得每个模块的资源使用率尽可能均衡。
附图说明
图1是本发明方法任务具体调度说明示意图。
图2是DQN的训练流程示意图。
具体实施方式
下面结合具体实施例对本发明作更进一步的说明。
如图1所示,一种电力物联网中使用强化学习均衡资源使用的任务调度方法,对当前物联管理平台的整体状态建立数学模型:
一个物联管理平台中会有多个模块负责对到来的设备及数据进行处理,为了提高每个模块的计算能力,每一个模块中会有多个计算节点。这多个计算节点的状态各不相同,即这多个计算节点的资源总量、当前资源利用率、与其他计算节点之间的网络带宽、温度等属性是各不相同的;一个模块中所有计算节点状态的汇总可以代表这个模块的状态,物联管理平台中所有模块状态的汇总可以代表整个物联管理平台的状态。
对于物联管理平台中的单个计算节点i,其状态Si={Ci,Mi,Pci,Pmi,Ni,Temp,Gi}包括单个计算节点拥有的所有资源以及对应的资源利用率,其中Ci={Cnumi,Cfreqi}代表当前计算节点的CPU资源量,包括Cnumi代表可用CPU个数,Cfreqi代表每个CPU的主频;Mi代表当前计算节点的内存资源量;Pci代表当前计算节点的CPU资源利用率;Pmi代表当前计算节点的内存资源利用率;Ni代表该计算节点与物联管理平台中其它计算节点之间的网络资源信息,这影响着数据传输速度,也是整个系统状态的一部分;Temp代表当前计算节点的温度,如果一个节点温度过高,CPU很可能会被强制降频,可以使用的资源量和实际拥有的总资源量会有区别,这一点也应该纳入到考虑因素中;Gi={Gnumi,Ginfoi}代表当前计算节点的GPU资源量,包括Gnumi代表可用GPU个数,Ginfoi代表每个GPU的参数信息。
在物联管理平台中有多个模块,例如连接管理模块、设备管理模块、模型管理模块等,这些模块具有多个计算节点。对于模块j来说,Modulej={Sj0,Sj1,...Sjnj},其中Modulej表示模块j的状态,nj是模块j中的计算节点个数,Sj0,Sj1,...Sjnj表示模块j中第0个计算节点到第nj个计算节点的状态。整个物联管理平台的状态可以表示为
System={Module0,Module1...,Modulen-1},n是物联管理平台系统中模块的个数。
(1)对到来的设备和任务状态进行建模:
当一台边缘设备连接到物联管理平台时,会有一些可以获得的信息,这些信息能够反映该设备提交任务的一些性质,包括设备上的主要数据类型,其中图像数据的处理一般比数值数据的处理更花费内存和计算能力;还包括边缘设备数据更新速度,更新速度更快的设备一般来说会花费更多的内存和资源;此外还有一些可以获得的信息如设备所属场景、设备信息等。对于当前设备k和其任务状态可以建模为Taskk={Decvicek,Dtypek,Dupdatek},其中,Taskk是当前设备k的任务状态,Devicek是可以获得的设备信息,Dtypek是设备数据类型信息,Dupdatek是设备数据更新频率信息。
将当前模块Modulej和当前物联管理平台要处理的任务Taskk结合起来,得到Statejk={Modulej,Taskk},可以将其作为该模块强化学习的环境,也就是模块j的任务状态集合。
(2)每次新的设备和任务到达时,可以获得每个模块最新的任务状态Statejk,在Statejk的基础上,进行任务调度的决策。对于每个任务,它所传来的数据都需要经过一系列的处理模块进行处理,包括连接管理模块、设备管理模块、模型管理模块等,在进行每个模块处理时,需要在该模块计算节点集合中指定一个计算节点用来处理当前任务。因此,对于每个模块Modulej来说,将任务Taskk指定到Modulej中的一个计算节点可以作为一个动作ajk,ajk代表设备k对应模块j中一个计算节点的一个动作;完成对任务Taskk分配就是完成物联管理平台中每个模块对Taskk的分配。
(3)任务调度的最终目标是使得整个物联管理平台负载均衡,也就是每个模块内部计算节点资源利用率尽可能相同。对于Modulej,其内部对于CPU利用率的标准差记作STD(Pcj),Pcj代表Modulej中CPU资源集合;对于内存利用率的标准差记作STD(Pmj),Pmj代表Modulej中内存资源集合;对于GPU利用率的标准差记作STD(Pgj),Pgj代表Modulej中GPU资源集合。整个模块整体资源利用率的不均衡程度记为Lj=AVG(STD(Pcj),STD(Pmj),STD(Pgj)),其中AVG()代表求算术平均的函数。由于目标是使系统负载尽可能均衡,因此模块j在完成任务分配后,将模块j的奖励函数记作reward=1/2-Lj,这样分配后,模块负载越均衡,其奖励函数取值就越大,能够促进强化学习算法向资源分配均衡的方向调度任务。
(4)使用强化学习算法DQN解决上面的问题,具体流程见下:
(a)对于每个模块,都执行下面的操作训练一个强化学习模型:
(b)使用随机权重初始化动作-值函数Q,动作-值函数Q根据当前捕获到的模块状态State_jk,评估每个动作之后模块获得的奖励值。
(c)将任务分配到一个计算节点,比较任务分配给任何其他计算节点时整个模块的资源利用率的不均衡程度,选择资源利用率的不均衡程度最小的计算节点对任务进行分配。
(d)计算获得任务后模块获得的奖励值,并得到新的模块状态。
(e)将{上一个的模块状态、动作、奖励值、新的模块状态}的序列,加入到回放经验中。
(f)从回放经验中抽取指定数目的序列,使用这些序列的数据对动作-值函数Q进行梯度下降计算,更新动作-值函数Q的参数。
(g)不断重复更新动作-值函数Q的参数的训练,直到达到收敛或达到指定轮数,得到一个训练好的强化学习模型。部署得到的Q和对应的参数θ,当有新的任务到达时,将当前模块状态和任务状态输入Q中,使用估计reward最大的动作作为结果,将该任务分配至对应的计算节点上去。
实施例1:
例如在训练连接管理模块对应的强化学习模型时,如果其中有一个节点CPU拥有两个核,主频都是3.8Ghz,且拥有16G内存,CPU利用率和内存利用率都是10%,当前温度为40℃,那可以用下面这个向量代表该计算节点的状态{{2,{3.8,3.8}},16,0.1,0.1,40};连接管理模块中所有节点的状态向量组合在一起,就能够代表连接管理模块的当前状态。
当一个新的任务到达时,我们也要将这个任务的特征数值化。Devicek中会有设备相关的信息,对于一些属性进行编号,在对应属性上填入符合该设备特征的编号即可;设备数据类型同理。对于更新频率,我们可以使用有意义的数字表示,例如加入数据60秒更新一次,该任务的Dupdatek的值就应该是60。
在训练强化学习模型时,要选取超参数,这是一个需要调参的过程。我们默认令超参数中的容量N=2000,采用一个神经网络结构对识训练完的强化学习模型进行训练,得到自动获取强化学习模型的神经网络,神经网络结构使用两层线性网络,α=0.001,γ=0.95,M=3000,T=100,ε=0.001来进行训练,α是学习率,γ是折现因子,M是训练总轮数,T是每轮训练中内部生成序列数,ε是随机选择的概率。训练完成后,利用神经网络就可以得到训练好的Q的θ参数,然后将Q部署至该模块。当新的任务需要分配到连接管理模块时,就将连接管理模块的状态和任务状态输入到Q中,Q会得出分配至每个节点的reward值,选取reward值最大的那个节点作为分配对象即可。
实施例2:
本发明能够解决复杂环境中策略选择问题的强化学习算法,是解决物联管理平台任务调度问题的优秀工具。强化学习能够通过和环境地不断交互,学习能达到最大化收益的策略。强化学习常见的模型是马尔可夫决策过程,即当前时刻的状态只与前一时刻的状态和动作有关,和其余时刻的状态和动作条件独立。这是符合我们物联管理平台的情况的,因为之前调度对系统造成的影响,都被包含在了系统的当前状态中。
具体来讲,在这个问题中,环境就是物联管理平台中节点的状态和到来任务的状态;当强化学习算法感知到当前所处的环境,就会根据当前环境做出期望收益最大的决策,这里的期望收益是每个模块中节点资源利用率的均衡程度。强化学习在训练时,强化学习算法做出将当前任务分配至模块的哪一个节点的决策后,就将该任务分配到决定的节点上去,获得分配后资源利用率的均衡情况,作为奖赏函数。如果奖赏函数取值比较大,说明这是一个较优的决策,那么未来的决策就会偏向这种好的决策;如果奖赏函数取值比较小,说明这不是一个优秀的决策,未来强化学习算法就会避免这种较差的决策;当完成决策,做出将任务分配至模块中的某个节点后,系统的状态就会发生变化,当强化学习算法再去感知环境时,就会感知到新的状态。
上述强化学习算法是一个不断迭代的过程,随着训练过程的推进,强化学习能够越来越精确地捕捉整个复杂的系统与决策和其反馈之间的关系,从而更好地做出合适的任务调度决策。在训练完成之后,我们可以得到每个模块对应的强化学习模型,当在进行对应模块的决策时,使用训练好的强化学习模型即可获得每种状态下应该采取的动作。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种电力物联网中使用强化学习均衡资源使用的任务调度方法,其特征在于:包括如下步骤:
对于物联管理平台中每个模块进行强化学习模型的训练,得到强化学习模型动作-值函数Q的参数;
当有新的任务到达时,将当前模块状态和任务状态输入到对应的训练好的强化学习模型动作-值函数Q中,使用估计reward最大的动作作为结果,将任务分配至动作对应的计算节点。
2.根据权利要求1所述的一种电力物联网中使用强化学习均衡资源使用的任务调度方法,其特征在于:对于物联管理平台中每个模块进行强化学习模型的训练,包括如下步骤:
使用一块内存,用于存储回放经验;
使用随机权重初始化动作-值函数Q,动作-值函数Q根据当前捕获到的模块状态Statejk,评估每个动作之后模块获得的奖励值;
将任务分配到一个计算节点,比较任务分配给任何其他计算节点时整个模块的资源利用率的不均衡程度,选择资源利用率的不均衡程度最小的计算节点对任务进行分配;
计算获得任务后模块获得的奖励值,并得到新的模块状态;
将{上一个的模块状态、动作、奖励值、新的模块状态}的序列,加入到回放经验中;
从回放经验中抽取指定数目的序列,使用这些序列的数据对动作-值函数Q进行梯度下降计算,更新动作-值函数Q的参数;
不断重复更新动作-值函数Q的参数的训练,直到达到收敛或达到指定轮数,得到一个训练好的强化学习模型。
3.根据权利要求2所述的一种电力物联网中使用强化学习均衡资源使用的任务调度方法,其特征在于:所述模块状态Statejk={Modulej,Taskk};
其中,Modulej={Sj0,Sj1,...Sjnj},其中Modulej表示模块j的状态,nj是模块j中的计算节点个数,Sj0,Sj1,...Sjnj表示模块j中第0个计算节点到第nj个计算节点的状态;Taskk={Decvicek,Dtypek,Dupdatek},其中,Taskk是当前设备k的任务状态,Devicek是可以获得的设备信息,Dtypek是设备数据类型信息,Dupdatek是设备数据更新频率信息。
4.根据权利要求2所述的一种电力物联网中使用强化学习均衡资源使用的任务调度方法,其特征在于:所述动作ajk,ajk代表设备k对应模块j中一个计算节点的一个动作。
5.根据权利要求3所述的一种电力物联网中使用强化学习均衡资源使用的任务调度方法,其特征在于:所述计算节点的状态Si
Si={Ci,Mi,Pci,Pmi,Ni,Temp,Gi};
其中,Ci={Cnumi,Cfreqi}代表当前计算节点的CPU资源量,包括Cnumi代表可用CPU个数,Cfreqi代表每个CPU的主频;Mi代表当前计算节点的内存资源量;Pci代表当前计算节点的CPU资源利用率;Pmi代表当前计算节点的内存资源利用率;Ni代表该计算节点与物联管理平台中其它计算节点之间的网络资源信息;Temp代表当前计算节点的温度;Gi={Gnumi,Ginfoi}代表当前计算节点的GPU资源量,包括Gnumi代表可用GPU个数,Ginfoi代表每个GPU的参数信息。
6.根据权利要求2所述的一种电力物联网中使用强化学习均衡资源使用的任务调度方法,其特征在于:所述模块的资源利用率的不均衡程度为Lj,Lj=AVG(STD(Pcj),STD(Pmj),STD(Pgj));
其中AVG( )代表求算术平均的函数,STD(Pcj)代表Modulej内部对于CPU利用率的标准差,Pcj代表Modulej中CPU资源集合;STD(Pmj)代表Modulej对于内存利用率的标准差,Pmj代表Modulej中内存资源集合;STD(Pgj)代表Modulej对于GPU利用率的标准差,Pgj代表Modulej中GPU资源集合。
7.根据权利要求6所述的一种电力物联网中使用强化学习均衡资源使用的任务调度方法,其特征在于:所述奖励值reward,reward=1/2-Lj
CN202110606994.1A 2021-05-31 2021-05-31 电力物联网中使用强化学习均衡资源使用的任务调度方法 Pending CN113256128A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110606994.1A CN113256128A (zh) 2021-05-31 2021-05-31 电力物联网中使用强化学习均衡资源使用的任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110606994.1A CN113256128A (zh) 2021-05-31 2021-05-31 电力物联网中使用强化学习均衡资源使用的任务调度方法

Publications (1)

Publication Number Publication Date
CN113256128A true CN113256128A (zh) 2021-08-13

Family

ID=77185710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110606994.1A Pending CN113256128A (zh) 2021-05-31 2021-05-31 电力物联网中使用强化学习均衡资源使用的任务调度方法

Country Status (1)

Country Link
CN (1) CN113256128A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114500561A (zh) * 2022-02-17 2022-05-13 中国电力科学研究院有限公司 电力物联网网络资源分配决策方法、系统、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109656702A (zh) * 2018-12-20 2019-04-19 西安电子科技大学 一种基于强化学习的跨数据中心网络任务调度方法
CN110489223A (zh) * 2019-08-26 2019-11-22 北京邮电大学 一种异构集群中任务调度方法、装置及电子设备
US20200257968A1 (en) * 2019-02-08 2020-08-13 Adobe Inc. Self-learning scheduler for application orchestration on shared compute cluster
CN111538587A (zh) * 2020-03-06 2020-08-14 重庆邮电大学 一种基于负载均衡的服务功能链重配置方法
CN111966484A (zh) * 2020-06-23 2020-11-20 北京大学 一种基于深度强化学习的集群资源管理和任务调度方法及系统
CN112486690A (zh) * 2020-12-11 2021-03-12 重庆邮电大学 一种适用于工业物联网的边缘计算资源分配方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109656702A (zh) * 2018-12-20 2019-04-19 西安电子科技大学 一种基于强化学习的跨数据中心网络任务调度方法
US20200257968A1 (en) * 2019-02-08 2020-08-13 Adobe Inc. Self-learning scheduler for application orchestration on shared compute cluster
CN110489223A (zh) * 2019-08-26 2019-11-22 北京邮电大学 一种异构集群中任务调度方法、装置及电子设备
CN111538587A (zh) * 2020-03-06 2020-08-14 重庆邮电大学 一种基于负载均衡的服务功能链重配置方法
CN111966484A (zh) * 2020-06-23 2020-11-20 北京大学 一种基于深度强化学习的集群资源管理和任务调度方法及系统
CN112486690A (zh) * 2020-12-11 2021-03-12 重庆邮电大学 一种适用于工业物联网的边缘计算资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冉龙宇: "基于深度强化学习的高效能云任务调度算法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114500561A (zh) * 2022-02-17 2022-05-13 中国电力科学研究院有限公司 电力物联网网络资源分配决策方法、系统、设备及介质
CN114500561B (zh) * 2022-02-17 2024-02-20 中国电力科学研究院有限公司 电力物联网网络资源分配决策方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN112181666B (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法
CN112367353B (zh) 基于多智能体强化学习的移动边缘计算卸载方法
CN112486690B (zh) 一种适用于工业物联网的边缘计算资源分配方法
CN111629380B (zh) 面向高并发多业务工业5g网络的动态资源分配方法
CN112668128A (zh) 联邦学习系统中终端设备节点的选择方法及装置
CN113225377B (zh) 物联网边缘任务卸载方法及装置
CN113794748B (zh) 一种性能感知的服务功能链智能部署方法及装置
CN108075974B (zh) 一种流量转发控制方法、装置及sdn架构系统
Yang et al. Deep reinforcement learning based wireless network optimization: A comparative study
CN115249315B (zh) 面向异构计算设备的深度学习图像分类方法及装置
CN109067583A (zh) 一种基于边缘计算的资源预测方法及系统
CN114828018A (zh) 一种基于深度确定性策略梯度的多用户移动边缘计算卸载方法
CN114860337B (zh) 一种基于元强化学习算法的计算卸载方法
CN115907038A (zh) 一种基于联邦拆分学习框架的多元控制决策方法
CN116489708A (zh) 面向元宇宙的云边端协同的移动边缘计算任务卸载方法
CN114090108B (zh) 算力任务执行方法、装置、电子设备及存储介质
CN113256128A (zh) 电力物联网中使用强化学习均衡资源使用的任务调度方法
Tao et al. Drl-driven digital twin function virtualization for adaptive service response in 6g networks
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
CN117392483A (zh) 基于增强学习的相册分类模型训练加速方法、系统及介质
Ding et al. A multiagent meta-based task offloading strategy for mobile-edge computing
CN114942799B (zh) 云边环境下基于强化学习的工作流调度方法
CN116367190A (zh) 一种面向6g移动网络的数字孪生功能虚拟化方法
TWI792784B (zh) 基於聯邦強化學習的邊緣計算卸載優化方法及通信系統
CN116501483A (zh) 基于多智能体强化学习的车辆边缘计算任务调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Miao Weiwei

Inventor after: Teng Changzhi

Inventor after: Zhang Xiaqian

Inventor after: Liu Jinsuo

Inventor after: Hu Youjun

Inventor after: Zhou Zhongran

Inventor after: Zhang Wenpeng

Inventor after: Gao Xue

Inventor after: Zhang Junjie

Inventor after: Zeng Zeng

Inventor after: Huang Jin

Inventor after: Dong Qinwei

Inventor after: Wang Chuanjun

Inventor after: Zhang Mingxuan

Inventor after: Li Shihao

Inventor after: Zhang Zhen

Inventor after: Zhang Rui

Inventor before: Wang Chuanjun

Inventor before: Hu Youjun

Inventor before: Zhou Zhongran

Inventor before: Zhang Wenpeng

Inventor before: Gao Xue

Inventor before: Zhang Junjie

Inventor before: Miao Weiwei

Inventor before: Zeng Zeng

Inventor before: Zhang Mingxuan

Inventor before: Li Shihao

Inventor before: Zhang Zhen

Inventor before: Zhang Rui

Inventor before: Teng Changzhi

Inventor before: Zhang Xiaqian

CB03 Change of inventor or designer information
RJ01 Rejection of invention patent application after publication

Application publication date: 20210813

RJ01 Rejection of invention patent application after publication