CN115168027A - 一种基于深度强化学习的算力资源度量方法 - Google Patents

一种基于深度强化学习的算力资源度量方法 Download PDF

Info

Publication number
CN115168027A
CN115168027A CN202210677394.9A CN202210677394A CN115168027A CN 115168027 A CN115168027 A CN 115168027A CN 202210677394 A CN202210677394 A CN 202210677394A CN 115168027 A CN115168027 A CN 115168027A
Authority
CN
China
Prior art keywords
task
slot
calculation
action
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210677394.9A
Other languages
English (en)
Inventor
夏天豪
夏长清
金曦
许驰
曾鹏
宋纯贺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Institute of Automation of CAS
Original Assignee
Shenyang Institute of Automation of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Institute of Automation of CAS filed Critical Shenyang Institute of Automation of CAS
Priority to CN202210677394.9A priority Critical patent/CN115168027A/zh
Publication of CN115168027A publication Critical patent/CN115168027A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于深度强化学习的算力资源度量方法,包括以下步骤:步骤S1:对任务集中所有待量化计算任务进行建模分析,分别定义状态、动作、奖励值;步骤S2:根据深度强化学习算法构建算力量化模型框架,并针对量化要求对模型优化目标进行细化;步骤S3:通过调整超参数对模型进行优化,得到迭代完成的训练模型;步骤S4:将待量化任务数据输入训练好的模型得到计算任务的算力度量结果。本发明能够通过细粒度分析任务模型,量化任务资源需求量,有效预测任务执行时间,实现了对异构任务的算力资源度量,为未来工业互联网下网络‑计算‑控制一体化提供算力量化基础。

Description

一种基于深度强化学习的算力资源度量方法
技术领域
本发明属于资源量化领域,具体涉及一种基于深度强化学习的算力资源度量方法。
背景技术
工业互联网下的生产模式呈现大规模、定制化、高精度等特征,联网设备的指数级增加以及数据的碎片化、零散化导致云为中心的生产系统处理能力捉襟见肘。工业边缘计算通过在系统边缘侧接入具有一定计算能力的边缘服务器实现了实时任务的就近处理,在降低网络负载的同时提高了响应速度,是解决这一问题的有效途径。然而,现有工业模式中任务类型多、节点性能异构,尤其在柔性生产线中,当产业转型重新定义后往往无法在短时间内根据任务类型更改生产模式,由于缺乏有效的算力度量调度方法,系统难以快速、精准的为实时任务按需提供算力服务,系统性能无法保障。
在大数据时代的当下,各行各业对算力的需求日益高涨,如何灵活调度分配算力资源显得格外重要,尤其在边缘计算中通过算力度量实现资源最优化已成为目前研究的热点问题,为了提高系统资源利用率、改善现存工业生产模式中的问题已有许多学者展开了对资源需求量化方法的研究,Wang等使用指数平滑的方法对到达任务进行预测,根据系统中的历史任务序列预测未来任务的到达时间、执行时间和任务大小。Frank等通过结合线性回归和高斯过程,建立了关于特征参数和执行时间的模型,根据任务需求过的历史资源信息,使用时间序列方法来预测接下来的任务资源需求大小。Qiu等采用深度学习算法根据虚拟机的资源使用数据信息做预测,并优于一般的负载预测算法,但深度学习模型存在参数规模大的问题,导致训练模型非常耗时。Xie等提出一种基于三次指数平滑法和时间卷积网络的云资源预测模型,根据历史数据预测未来的资源需求。Reig等采用传统的机器学习方法,建立在线预测系统分析任务对CPU和内存需求进行预测,但是他们的方法是基于假设CPU利用率和执行时间之间呈线性关系的,这就导致算法存在一定的局限性。
在面向工业的云边端协同场景中,工厂企业生产的大规模性会带来设备分布零散化的问题,单一的针对云上任务进行资源需求预测、边缘端的任务卸载或调度缺少资源量化方法的依托已无法满足如今工业生产高资源利用率和低时延的要求,并且很少有考虑到平台与任务之间的紧耦合性问题。基于任务属性分析的深度强化学习方法正符合算力资源度量这类高维度、需探索的研究场景,针对柔性生产、工业资源分配高要求等场景能够更细粒度的快速给出资源需求量以及任务执行时间,例如,工业生产需要大量的传感器设备获取各类参数信息,如实时测温、湿度检测、坏件拍取、分拣次品等所需的计算资源量都各不相同,又如零件装配这类高实时性要求的场景如果能在给定合适资源量的前提下保证任务满足截止期要求,就能够避免不必要的资源浪费,为工业级生产提供前置量化技术。
发明内容
根据上述问题,本发明的目的在于提供一种基于深度强化学习的算力资源度量方法,研究任务的时、空复杂度、任务计算类型与资源需求比例的关系,对任务执行时间进行预测优化,实现最优资源供给,结合深度Q网络将计算任务的资源需求量化问题转化为值函数映射问题。
本发明为实现上述目的所采用的技术方案是:一种基于深度强化学习的算力资源度量方法,包括以下步骤:
步骤S1:对产线任务集中所有计算任务进行建模,并分别构建状态、动作、奖励值;
步骤S2:根据深度强化学习算法构建算力量化模型;
步骤S3:通过调整超参数对算力量化模型进行优化,得到训练好的算力量化模型;
步骤S4:将待量化生产任务输入训练好的算力量化模型,得到计算任务的算力度量结果。
所述步骤S1中,对产线任务集中所有计算任务进行建模,包括以下步骤:
所述计算任务表示为
Figure BDA0003695292300000021
其中,i=1,2,...,n,n表示任务数量,zi表示任务的时间复杂度大小,gi表示任务的空间复杂度大小,oi表示任务在实际处理时所归属的计算类型,
Figure BDA0003695292300000022
表示该项任务的所有参数类型与计算资源需求之间的权重值比例关系,用于表征边缘节点上任务占用的资源率;所述计算任务构成任务集M。
所述状态、动作、奖励值分别是将单个时隙队列中的计算任务作为状态空间
Figure BDA0003695292300000023
将每一个计算任务获取的资源分配比例值作为动作空间
Figure BDA0003695292300000024
将任务实际完成时间与预测完成时间的对比结果作为奖励值r,其中slot=1,2,3,...,T,slot表示对应的观测时隙,n表示任务数量,T表示观测时隙总量。
所述奖励值r表示为
Figure BDA0003695292300000025
当预测的执行时间与实际执行时间之间误差越小奖励值则越大;
其中,
Figure BDA0003695292300000026
表示边缘节点分配到的第i个任务的实际完成时间,qi表示任务实际消耗的资源大小,ei∈R+表示第i个任务所需的实际计算指令数量;
Figure BDA0003695292300000027
表示任务的预测执行时间,f为预期分配的边缘节点拥有的计算资源量,其中
Figure BDA0003695292300000028
表示当前资源需求比例大小随边缘节点改变,
Figure BDA0003695292300000029
表示边缘节点之间的变量关系,F为边缘节点的计算资源量,根据当前边缘节点与预期分配给边缘节点的计算能力大小比例改变ξi
所述算力量化模型构建包括以下步骤;
通过策略选择方式,选择资源分配比例动作;
根据资源分配比例动作更新奖励值,并选择下一观测时隙状态,将当前状态、资源分配比例动作、奖励值、下一观测时隙状态存入经验池;
将Q网络参数复制给目标Q网络;
从经验池中随机均匀采样,通过计算误差函数更新Q网络;
当迭代达到设定条件时,算力量化模型训练完成。
所述策略选择方式表示在算力量化模型训练进入每一轮迭代时选择影响下一阶段状态的动作策略,根据ε-greedy策略判断衰减率是否小于设定范围的随机数;
如果是,从动作空间中随机选择未知动作;
否则,选择令Q网络最优的资源分配比例动作;
其中衰减率表示衰减系数的模型更新率次方,即当算力量化模型更新率越高采取随机选择动作策略的可能越低。
所述Q网络最优的资源分配比例动作表示根据ε-greedy贪心策略选取状态动作值函数最优的迭代策略,具体公式如下:
Figure BDA0003695292300000033
其中Q(sslot,aslot)表示当前时隙Q网络的状态动作值函数,sslot+1表示slot+1时刻执行动作aslot+1后改变的状态,aslot+1表示为状态sslot+1下能够获得最大奖励值的动作,α为学习率表示算力量化模型的更新步长,γ为折扣率,表示未来状态动作值函数对当前值函数的影响衰减率,w表示神经网络的权重值,w′表示周期性更新的权重值,
Figure BDA0003695292300000031
表示下一时隙选择最优动作后的动作状态值函数,Q(sslot+1,aslot+1;w′)表示目标Q网络,结构与Q网络相同。
所述计算误差函数为:
minE=min[ytarget-Q(sslot,aslot;w)]
其中,
Figure BDA0003695292300000032
为目标价值函数,使状态动作值函数逼近目标价值函数,使每次迭代更新误差函数的同时重新更新Q网络;r表示奖励值,γ为折扣率,w表示神经网络的权重值,w′表示周期性更新的权重值,α为学习率表示算力量化模型的更新步长,A表示资源分配比例值的动作空间aslot
所述更新Q网络包括以下步骤:
将观测到的序列(sslot,aslot,r,sslot+1)加入经验池用来存储训练过程中的数据;
训练时通过从经验池中抽取部分数据用来更新网络;
当经验池存储满后每一次的新数据都会覆盖原有的旧数据,并且Q网络每一轮都会迭代更新,而目标Q网络每隔设定时间段通过复制Q网络的权重参数进行更新。
所述步骤S3中,当算力量化模型训练迭代完成后,最终的奖励值未在设定范围内,则更改算力量化模型的超参数,包括学习率大小、经验池上限、采样步长、迭代周期,并重新训练直至奖励值趋到达设定范围内。
本发明具有以下有益效果及优点:
1.本发明研究了面向工业的计算任务量化方法,针对工业场景中由节点异构性、分布零散性、与任务-平台紧耦合等导致冗余资源成本高柔性差的问题,提出基于边缘计算的算力度量方法。通过细粒度分析任务时、空复杂度、计算类型特征,建立计算任务特征与资源需求比例之间的关系,以求解最优预测时间为目的,基于深度Q网络设计算力资源度量方法。
2.本发明提出的算力资源度量方法能够改善设备与任务之间的紧密性问题,度量任务的资源需求量,提高边缘设备的资源利用率为工业生产提供更高效的资源分配方案。有效预测任务的执行时间,实现了对异构任务的算力资源度量,为未来工业互联网下网络-计算-控制一体化提供算力量化基础。
附图说明
图1是本发明的实施方法流程图;
图2是本发明的系统模型示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步的详细说明。
如图1所示,本发明提供了一种基于深度强化学习的算力资源度量方法,方法,本发明能够通过细粒度分析任务模型,量化任务资源需求量,有效预测任务执行时间,实现了对异构任务的算力资源度量,为未来工业互联网下网络-计算-控制一体化提供算力量化基础。
本发明包括以下步骤:
步骤S1:对任务集中所有待量化计算任务进行建模分析,分别定义状态、动作、奖励值;
步骤S2:根据深度强化学习算法构建算力量化模型框架,并针对量化要求对模型进行细化;
步骤S3:通过调整超参数对模型进行优化,得到迭代完成的训练模型;
步骤S4:将待量化任务数据输入训练好的模型得到计算任务的算力度量结果。
在本实施例中,将待量化计算任务根据任务模型、计算模型进行细化,并定义状态、动作、奖励值:
如图2所示,将所有计算设备的算力值虚拟化为整体的算力资源池,考虑到资源供给对任务执行时间的影响,每个任务表示为执行时间与资源分配的二元组,为满足任务可调度性及任务间的逻辑关系,需要对有限计算资源进行合理分配,即先量化后分配。当对所有任务量化后发现m2当前分配的资源无法使任务在最晚截止期前完成,而m4分配的资源已经超过当前任务的需求量,为了避免m3出现队列等待问题,将m4的溢出资源分配给m2,量化后m′2的计算资源增加的同时执行时间也相对减少了并满足了整体节拍的实时性要求,例如零件夹取或装配可以定义为一个二元组,生产过程必须满足先夹取后装配的顺序,即当获得的资源量无法满足夹取操作的要求就会影响下一步的装配操作,所以需要将每个任务的执行时间与资源分配量进行细化定义,保证资源量的分配能够满足任务的截止期,其中计算任务为任务集中的任意一个任务,且具体参数为
Figure BDA0003695292300000051
其中,i=1,2,...,n,zi表示任务的时间复杂度大小,gi表示任务的空间复杂度大小,oi表示任务在实际处理时所归属的计算类型,
Figure BDA0003695292300000052
表示该项任务的所有参数类型与计算资源需求之间的权重值比例关系,用于表征边缘设备上任务占用的资源率;
所述任务模型包括任务的时间复杂度、空间复杂度,根据计算任务算法的时间开销用时间复杂度的大O表示法将zi表示为{O(1),O(n),O(1ogn)},{O(n1ogn)},{O(n2),O(2n),(n!)}低中高三类,空间复杂度大小gi根据计算任务算法的内存开销表示为{O(1),o(n),O(logn)};
所述计算模型具体为任务在实际处理时所归属的计算类型,根据实际生产需要将oi表示为{CPU,GPU},其中CPU、GPU代表逻辑运算任务以及并行计算任务;
所述状态具体为将单个时隙队列中的所有待量化的计算任务模型作为状态空间
Figure BDA0003695292300000053
其中slot=1,2,3,...,T,表示对应的观测时隙;
所述动作具体为将每一个计算任务获取的资源分配比例值作为动作空间
Figure BDA0003695292300000054
其中
Figure BDA0003695292300000055
Figure BDA0003695292300000056
表示量化方法需要对异构设备具有普适性,所以增加关于
Figure BDA0003695292300000057
的异构变量ξ,F为异构节点的计算资源量,根据异构节点与预期分配的节点计算能力大小比例改变ξ;
所述奖励值具体为将任务实际完成时间与预测完成时间的对比结果作为奖励值
Figure BDA0003695292300000058
当预测的执行时间于实际执行时间之间误差越小奖励值则越大,
其中
Figure BDA0003695292300000059
表示边缘设备分配到的第i个任务的实际完成时间,中qi表示任务实际消耗的资源大小,ei∈R+表示第i个任务所需的实际计算指令数量;f为预期分配的边缘节点拥有的计算资源量;
Figure BDA00036952923000000510
表示任务的预测执行时间,根据任务属性与资源需求求解得到,其中任务属性包括:zi、gi、oi
Figure BDA00036952923000000511
资源需求包括:
Figure BDA00036952923000000512
在本实施例中,算力量化模型框架包括策略选择方式、误差定义方式、网络更新方式;
所述策略选择方式表示在模型训练进入每一轮迭代时需要选择影响下一阶段状态的动作策略,根据ε-greedy策略判断衰减率是否小于[0,1)的随机数,如果是就从动作空间中随机选择未知动作,否则选择令Q网络最优的资源分配比例动作,其中衰减率表示衰减系数的模型更新率次方,即当模型更新率越高采取随机选择动作策略的可能越低;
所述Q网络最优的资源分配比例动作表示根据ε-greedy贪心策略选取令态动作值函数最优的迭代策略,具体公式如下:
Figure BDA0003695292300000061
其中Q(sslot,aslot)表示当前时隙Q网络的状态动作值函数,sslot+1表示slot+1时刻执行动作aslot+1后改变的状态,aslot+1表示为状态sslot+1下能够获得最大奖励值的动作,α为学习率表示模型的更新步长,γ为折扣率表示未来状态动作值函数对当前值函数的影响衰减率,w表示神经网络的权重值,w′表示表示其权重值周期性地进行更新,
Figure BDA0003695292300000062
表示下一时隙选择最优动作后的的动作状态值函数,Q(sslot+1,aslot+1;w′)表示目标Q网络,结构与Q网络完全相同;
所述误差定义方式具体为:
minE=min[ytarget-Q(sslot,aslot;w)]
其中,
Figure BDA0003695292300000063
为目标价值函数,作用是为了让实际量化结果接近预期量化结果,所以让状态动作值函数逼近目标价值函数;
所述网络更新方式具体为将观测到的序列(sslot,aslot,r,sslot+1)加入一个经验池用来存储训练过程中的数据,训练时通过从经验池中抽取一部分数据用来更新网络,避免数据之间存在较强的关联性,当经验池存储满后每一次的新数据都会覆盖原有的旧数据,并且Q网络每一轮都会迭代更新,而目标Q网络只会每隔一段时间通过复制Q网络的权重参数进行更新,这样做的作用是避免目标价值函数频繁更新导致参数不收敛;
在本实施例中,细化模型优化目标并训练模型具体为:
所述优化目标具体为最大化资源利用率,通过资源量化方法最小化预测执行时间ti,将优化目标应用于奖励值的回报设定;
步骤S3中,当模型训练迭代完成后,最终的奖励值不稳定或收敛于较差结果,则更改模型的超参数,具体为学习率大小、经验池上限、采样步长、迭代周期,并重新训练直至奖励值趋于较好结果;
步骤S4中,将经过细化的任务集输入优化训练后的模型,得到基于量化方法的任务预测执行时间。
以上所述仅为本发明的实施方式,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的修改、等同替换、改进、扩展等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于深度强化学习的算力资源度量方法,其特征在于,包括以下步骤:
步骤S1:对产线任务集中所有计算任务进行建模,并分别构建状态、动作、奖励值;
步骤S2:根据深度强化学习算法构建算力量化模型;
步骤S3:通过调整超参数对算力量化模型进行优化,得到训练好的算力量化模型;
步骤S4:将待量化生产任务输入训练好的算力量化模型,得到计算任务的算力度量结果。
2.根据权利要求1所述的一种基于深度强化学习的算力资源度量方法,其特征在于,所述步骤S1中,对产线任务集中所有计算任务进行建模,包括以下步骤:
所述计算任务表示为
Figure FDA0003695292290000011
其中,i=1,2,…,n,n表示任务数量,zi表示任务的时间复杂度大小,gi表示任务的空间复杂度大小,oi表示任务在实际处理时所归属的计算类型,
Figure FDA0003695292290000012
表示该项任务的所有参数类型与计算资源需求之间的权重值比例关系,用于表征边缘节点上任务占用的资源率;所述计算任务构成任务集M。
3.根据权利要求1所述的一种基于深度强化学习的算力资源度量方法,其特征在于,所述状态、动作、奖励值分别是将单个时隙队列中的计算任务作为状态空间
Figure FDA0003695292290000013
将每一个计算任务获取的资源分配比例值作为动作空间
Figure FDA0003695292290000014
将任务实际完成时间与预测完成时间的对比结果作为奖励值r,其中slot=1,2,3,...,T,slot表示对应的观测时隙,n表示任务数量,T表示观测时隙总量。
4.根据权利要求3所述的基于深度强化学习的算力资源度量方法,其特征在于,所述奖励值r表示为
Figure FDA0003695292290000015
当预测的执行时间与实际执行时间之间误差越小奖励值则越大;
其中,
Figure FDA0003695292290000016
表示边缘节点分配到的第i个任务的实际完成时间,qi表示任务实际消耗的资源大小,ei∈R+表示第i个任务所需的实际计算指令数量;
Figure FDA0003695292290000017
表示任务的预测执行时间,f为预期分配的边缘节点拥有的计算资源量,其中
Figure FDA0003695292290000018
表示当前资源需求比例大小随边缘节点改变,
Figure FDA0003695292290000019
表示边缘节点之间的变量关系,F为边缘节点的计算资源量,根据当前边缘节点与预期分配给边缘节点的计算能力大小比例改变ξi
5.根据权利要求1所述的基于深度强化学习的算力资源度量方法,其特征在于,所述算力量化模型构建包括以下步骤;
通过策略选择方式,选择资源分配比例动作;
根据资源分配比例动作更新奖励值,并选择下一观测时隙状态,将当前状态、资源分配比例动作、奖励值、下一观测时隙状态存入经验池;
将Q网络参数复制给目标Q网络;
从经验池中随机均匀采样,通过计算误差函数更新Q网络;
当迭代达到设定条件时,算力量化模型训练完成。
6.根据权利要求5所述的一种基于深度强化学习的算力资源度量方法,其特征在于,所述策略选择方式表示在算力量化模型训练进入每一轮迭代时选择影响下一阶段状态的动作策略,根据ε-greedy策略判断衰减率是否小于设定范围的随机数;
如果是,从动作空间中随机选择未知动作;
否则,选择令Q网络最优的资源分配比例动作;
其中衰减率表示衰减系数的模型更新率次方,即当算力量化模型更新率越高采取随机选择动作策略的可能越低。
7.根据权利要求6所述的基于深度强化学习的算力资源度量方法,其特征在于,所述Q网络最优的资源分配比例动作表示根据ε-greedy贪心策略选取状态动作值函数最优的迭代策略,具体公式如下:
Figure FDA0003695292290000021
其中Q(sslot,aslot)表示当前时隙Q网络的状态动作值函数,sslot+1表示slot+1时刻执行动作aslot+1后改变的状态,aslot+1表示为状态sslot+1下能够获得最大奖励值的动作,α为学习率表示算力量化模型的更新步长,γ为折扣率,表示未来状态动作值函数对当前值函数的影响衰减率,w表示神经网络的权重值,w′表示周期性更新的权重值,
Figure FDA0003695292290000022
表示下一时隙选择最优动作后的动作状态值函数,Q(sslot+1,aslot+1;w′)表示目标Q网络,结构与Q网络相同。
8.根据权利要求5所述的基于深度强化学习的算力资源度量方法,其特征在于,所述计算误差函数为:
minE=min[ytarget-Q(sslot,aslot;w)]
其中,
Figure FDA0003695292290000023
为目标价值函数,使状态动作值函数逼近目标价值函数,使每次迭代更新误差函数的同时重新更新Q网络;r表示奖励值,γ为折扣率,w表示神经网络的权重值,w′表示周期性更新的权重值,α为学习率表示算力量化模型的更新步长,A表示资源分配比例值的动作空间aslot
9.根据权利要求5所述的基于深度强化学习的算力资源度量方法,其特征在于,所述更新Q网络包括以下步骤:
将观测到的序列(sslot,aslot,r,sslot+1)加入经验池用来存储训练过程中的数据;
训练时通过从经验池中抽取部分数据用来更新网络;
当经验池存储满后每一次的新数据都会覆盖原有的旧数据,并且Q网络每一轮都会迭代更新,而目标Q网络每隔设定时间段通过复制Q网络的权重参数进行更新。
10.根据权利要求1所述的基于深度强化学习的算力资源度量方法,其特征在于,所述步骤S3中,当算力量化模型训练迭代完成后,最终的奖励值未在设定范围内,则更改算力量化模型的超参数,包括学习率大小、经验池上限、采样步长、迭代周期,并重新训练直至奖励值趋到达设定范围内。
CN202210677394.9A 2022-06-15 2022-06-15 一种基于深度强化学习的算力资源度量方法 Pending CN115168027A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210677394.9A CN115168027A (zh) 2022-06-15 2022-06-15 一种基于深度强化学习的算力资源度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210677394.9A CN115168027A (zh) 2022-06-15 2022-06-15 一种基于深度强化学习的算力资源度量方法

Publications (1)

Publication Number Publication Date
CN115168027A true CN115168027A (zh) 2022-10-11

Family

ID=83484577

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210677394.9A Pending CN115168027A (zh) 2022-06-15 2022-06-15 一种基于深度强化学习的算力资源度量方法

Country Status (1)

Country Link
CN (1) CN115168027A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115421930A (zh) * 2022-11-07 2022-12-02 山东海量信息技术研究院 任务处理方法、系统、装置、设备及计算机可读存储介质
CN115994023A (zh) * 2023-03-23 2023-04-21 鹏城实验室 一种视觉智能系统资源信息调度方法、装置、终端及介质
CN116932164A (zh) * 2023-07-25 2023-10-24 和光舒卷(广东)数字科技有限公司 一种基于云平台的多任务调度方法及其系统
CN117667360A (zh) * 2024-01-31 2024-03-08 湘江实验室 面向大模型任务的计算与通信融合的智能算网调度方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN114490057A (zh) * 2022-01-24 2022-05-13 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统
CN114490057A (zh) * 2022-01-24 2022-05-13 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵臻: "移动边缘计算中基于深度强化学习的任务卸载与资源分配研究", 《中国优秀硕士学位论文库 信息科技辑》, vol. 2022, no. 4, 15 April 2022 (2022-04-15), pages 2 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115421930A (zh) * 2022-11-07 2022-12-02 山东海量信息技术研究院 任务处理方法、系统、装置、设备及计算机可读存储介质
CN115994023A (zh) * 2023-03-23 2023-04-21 鹏城实验室 一种视觉智能系统资源信息调度方法、装置、终端及介质
CN116932164A (zh) * 2023-07-25 2023-10-24 和光舒卷(广东)数字科技有限公司 一种基于云平台的多任务调度方法及其系统
CN116932164B (zh) * 2023-07-25 2024-03-29 和光舒卷(广东)数字科技有限公司 一种基于云平台的多任务调度方法及其系统
CN117667360A (zh) * 2024-01-31 2024-03-08 湘江实验室 面向大模型任务的计算与通信融合的智能算网调度方法
CN117667360B (zh) * 2024-01-31 2024-04-16 湘江实验室 面向大模型任务的计算与通信融合的智能算网调度方法

Similar Documents

Publication Publication Date Title
CN110737529B (zh) 一种面向短时多变大数据作业集群调度自适应性配置方法
Dong et al. Task scheduling based on deep reinforcement learning in a cloud manufacturing environment
CN115168027A (zh) 一种基于深度强化学习的算力资源度量方法
CN110389820B (zh) 一种基于v-TGRU模型进行资源预测的私有云任务调度方法
CN111064633B (zh) 一种云边协同电力信息通信设备自动化测试资源分配方法
CN115037749B (zh) 一种大规模微服务智能多资源协同调度方法及系统
CN110399222A (zh) Gpu集群深度学习任务并行化方法、装置及电子设备
CN112395046B (zh) 虚拟机迁移规划调度方法及其系统与介质
CN113806018B (zh) 基于神经网络和分布式缓存的Kubernetes集群资源混合调度方法
CN109165081B (zh) 基于机器学习的Web应用自适应资源配置方法
Tong et al. DDQN-TS: A novel bi-objective intelligent scheduling algorithm in the cloud environment
CN112764893B (zh) 数据处理方法和数据处理系统
CN109710372B (zh) 一种基于猫头鹰搜索算法的计算密集型云工作流调度方法
CN112306658A (zh) 一种多能源系统数字孪生应用管理调度方法
CN116541176A (zh) 算力资源分配的优化方法、优化装置、电子设备和介质
CN115543626A (zh) 采用异构计算资源负载均衡调度的电力缺陷图像仿真方法
CN113886080A (zh) 高性能集群任务调度方法、装置、电子设备及存储介质
CN117349026B (zh) 一种用于aigc模型训练的分布式算力调度系统
CN116185584A (zh) 一种基于深度强化学习的多租户数据库资源规划与调度方法
CN111176784A (zh) 一种基于极限学习机和蚁群系统的虚拟机整合方法
Yang et al. Design of kubernetes scheduling strategy based on LSTM and grey model
CN113205128A (zh) 基于无服务器计算的分布式深度学习性能保证方法
CN116500896B (zh) 智能网联汽车域控制器多虚拟cpu任务智能实时调度模型和方法
CN108270833A (zh) 渲染云资源的自动调度方法、装置及系统
CN116069473A (zh) 一种基于深度强化学习的Yarn集群工作流调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination