CN115168027A

CN115168027A - 一种基于深度强化学习的算力资源度量方法

Info

Publication number: CN115168027A
Application number: CN202210677394.9A
Authority: CN
Inventors: 夏天豪; 夏长清; 金曦; 许驰; 曾鹏; 宋纯贺
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-10-11

Abstract

本发明涉及一种基于深度强化学习的算力资源度量方法，包括以下步骤：步骤S1：对任务集中所有待量化计算任务进行建模分析，分别定义状态、动作、奖励值；步骤S2：根据深度强化学习算法构建算力量化模型框架，并针对量化要求对模型优化目标进行细化；步骤S3：通过调整超参数对模型进行优化，得到迭代完成的训练模型；步骤S4：将待量化任务数据输入训练好的模型得到计算任务的算力度量结果。本发明能够通过细粒度分析任务模型，量化任务资源需求量，有效预测任务执行时间，实现了对异构任务的算力资源度量，为未来工业互联网下网络‑计算‑控制一体化提供算力量化基础。

Description

一种基于深度强化学习的算力资源度量方法

技术领域

本发明属于资源量化领域，具体涉及一种基于深度强化学习的算力资源度量方法。

背景技术

工业互联网下的生产模式呈现大规模、定制化、高精度等特征，联网设备的指数级增加以及数据的碎片化、零散化导致云为中心的生产系统处理能力捉襟见肘。工业边缘计算通过在系统边缘侧接入具有一定计算能力的边缘服务器实现了实时任务的就近处理，在降低网络负载的同时提高了响应速度，是解决这一问题的有效途径。然而，现有工业模式中任务类型多、节点性能异构，尤其在柔性生产线中，当产业转型重新定义后往往无法在短时间内根据任务类型更改生产模式，由于缺乏有效的算力度量调度方法，系统难以快速、精准的为实时任务按需提供算力服务，系统性能无法保障。

在大数据时代的当下，各行各业对算力的需求日益高涨，如何灵活调度分配算力资源显得格外重要，尤其在边缘计算中通过算力度量实现资源最优化已成为目前研究的热点问题，为了提高系统资源利用率、改善现存工业生产模式中的问题已有许多学者展开了对资源需求量化方法的研究，Wang等使用指数平滑的方法对到达任务进行预测，根据系统中的历史任务序列预测未来任务的到达时间、执行时间和任务大小。Frank等通过结合线性回归和高斯过程，建立了关于特征参数和执行时间的模型，根据任务需求过的历史资源信息，使用时间序列方法来预测接下来的任务资源需求大小。Qiu等采用深度学习算法根据虚拟机的资源使用数据信息做预测，并优于一般的负载预测算法，但深度学习模型存在参数规模大的问题，导致训练模型非常耗时。Xie等提出一种基于三次指数平滑法和时间卷积网络的云资源预测模型，根据历史数据预测未来的资源需求。Reig等采用传统的机器学习方法，建立在线预测系统分析任务对CPU和内存需求进行预测，但是他们的方法是基于假设CPU利用率和执行时间之间呈线性关系的，这就导致算法存在一定的局限性。

在面向工业的云边端协同场景中，工厂企业生产的大规模性会带来设备分布零散化的问题，单一的针对云上任务进行资源需求预测、边缘端的任务卸载或调度缺少资源量化方法的依托已无法满足如今工业生产高资源利用率和低时延的要求，并且很少有考虑到平台与任务之间的紧耦合性问题。基于任务属性分析的深度强化学习方法正符合算力资源度量这类高维度、需探索的研究场景，针对柔性生产、工业资源分配高要求等场景能够更细粒度的快速给出资源需求量以及任务执行时间，例如，工业生产需要大量的传感器设备获取各类参数信息，如实时测温、湿度检测、坏件拍取、分拣次品等所需的计算资源量都各不相同，又如零件装配这类高实时性要求的场景如果能在给定合适资源量的前提下保证任务满足截止期要求，就能够避免不必要的资源浪费，为工业级生产提供前置量化技术。

发明内容

根据上述问题，本发明的目的在于提供一种基于深度强化学习的算力资源度量方法，研究任务的时、空复杂度、任务计算类型与资源需求比例的关系，对任务执行时间进行预测优化，实现最优资源供给，结合深度Q网络将计算任务的资源需求量化问题转化为值函数映射问题。

本发明为实现上述目的所采用的技术方案是：一种基于深度强化学习的算力资源度量方法，包括以下步骤：

步骤S1：对产线任务集中所有计算任务进行建模，并分别构建状态、动作、奖励值；

步骤S2：根据深度强化学习算法构建算力量化模型；

步骤S3：通过调整超参数对算力量化模型进行优化，得到训练好的算力量化模型；

步骤S4：将待量化生产任务输入训练好的算力量化模型，得到计算任务的算力度量结果。

所述步骤S1中，对产线任务集中所有计算任务进行建模，包括以下步骤：

所述计算任务表示为

其中，i＝1，2，...，n，n表示任务数量，z_i表示任务的时间复杂度大小，g_i表示任务的空间复杂度大小，o_i表示任务在实际处理时所归属的计算类型，

表示该项任务的所有参数类型与计算资源需求之间的权重值比例关系，用于表征边缘节点上任务占用的资源率；所述计算任务构成任务集M。

所述状态、动作、奖励值分别是将单个时隙队列中的计算任务作为状态空间

将每一个计算任务获取的资源分配比例值作为动作空间

将任务实际完成时间与预测完成时间的对比结果作为奖励值r，其中slot＝1，2，3，...，T，slot表示对应的观测时隙，n表示任务数量，T表示观测时隙总量。

所述奖励值r表示为

当预测的执行时间与实际执行时间之间误差越小奖励值则越大；

其中，

表示边缘节点分配到的第i个任务的实际完成时间，q_i表示任务实际消耗的资源大小，e_i∈R⁺表示第i个任务所需的实际计算指令数量；

表示任务的预测执行时间，f为预期分配的边缘节点拥有的计算资源量，其中

表示当前资源需求比例大小随边缘节点改变，

表示边缘节点之间的变量关系，F为边缘节点的计算资源量，根据当前边缘节点与预期分配给边缘节点的计算能力大小比例改变ξ_i。

所述算力量化模型构建包括以下步骤；

通过策略选择方式，选择资源分配比例动作；

根据资源分配比例动作更新奖励值，并选择下一观测时隙状态，将当前状态、资源分配比例动作、奖励值、下一观测时隙状态存入经验池；

将Q网络参数复制给目标Q网络；

从经验池中随机均匀采样，通过计算误差函数更新Q网络；

当迭代达到设定条件时，算力量化模型训练完成。

所述策略选择方式表示在算力量化模型训练进入每一轮迭代时选择影响下一阶段状态的动作策略，根据ε-greedy策略判断衰减率是否小于设定范围的随机数；

如果是，从动作空间中随机选择未知动作；

否则，选择令Q网络最优的资源分配比例动作；

其中衰减率表示衰减系数的模型更新率次方，即当算力量化模型更新率越高采取随机选择动作策略的可能越低。

所述Q网络最优的资源分配比例动作表示根据ε-greedy贪心策略选取状态动作值函数最优的迭代策略，具体公式如下：

其中Q(s^slot，a^slot)表示当前时隙Q网络的状态动作值函数，s^slot+1表示slot+1时刻执行动作a^slot+1后改变的状态，a^slot+1表示为状态s^slot+1下能够获得最大奖励值的动作，α为学习率表示算力量化模型的更新步长，γ为折扣率，表示未来状态动作值函数对当前值函数的影响衰减率，w表示神经网络的权重值，w′表示周期性更新的权重值，

表示下一时隙选择最优动作后的动作状态值函数，Q(s^slot+1，a^slot+1；w′)表示目标Q网络，结构与Q网络相同。

所述计算误差函数为：

minE＝min[y_target-Q(s^slot，a^slot；w)]

其中，

为目标价值函数，使状态动作值函数逼近目标价值函数，使每次迭代更新误差函数的同时重新更新Q网络；r表示奖励值，γ为折扣率，w表示神经网络的权重值，w′表示周期性更新的权重值，α为学习率表示算力量化模型的更新步长，A表示资源分配比例值的动作空间a^slot。

所述更新Q网络包括以下步骤：

将观测到的序列(s^slot，a^slot，r，s^slot+1)加入经验池用来存储训练过程中的数据；

训练时通过从经验池中抽取部分数据用来更新网络；

当经验池存储满后每一次的新数据都会覆盖原有的旧数据，并且Q网络每一轮都会迭代更新，而目标Q网络每隔设定时间段通过复制Q网络的权重参数进行更新。

所述步骤S3中，当算力量化模型训练迭代完成后，最终的奖励值未在设定范围内，则更改算力量化模型的超参数，包括学习率大小、经验池上限、采样步长、迭代周期，并重新训练直至奖励值趋到达设定范围内。

本发明具有以下有益效果及优点：

1.本发明研究了面向工业的计算任务量化方法，针对工业场景中由节点异构性、分布零散性、与任务-平台紧耦合等导致冗余资源成本高柔性差的问题，提出基于边缘计算的算力度量方法。通过细粒度分析任务时、空复杂度、计算类型特征，建立计算任务特征与资源需求比例之间的关系，以求解最优预测时间为目的，基于深度Q网络设计算力资源度量方法。

2.本发明提出的算力资源度量方法能够改善设备与任务之间的紧密性问题，度量任务的资源需求量，提高边缘设备的资源利用率为工业生产提供更高效的资源分配方案。有效预测任务的执行时间，实现了对异构任务的算力资源度量，为未来工业互联网下网络-计算-控制一体化提供算力量化基础。

附图说明

图1是本发明的实施方法流程图；

图2是本发明的系统模型示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

如图1所示，本发明提供了一种基于深度强化学习的算力资源度量方法，方法，本发明能够通过细粒度分析任务模型，量化任务资源需求量，有效预测任务执行时间，实现了对异构任务的算力资源度量，为未来工业互联网下网络-计算-控制一体化提供算力量化基础。

本发明包括以下步骤：

步骤S1：对任务集中所有待量化计算任务进行建模分析，分别定义状态、动作、奖励值；

步骤S2：根据深度强化学习算法构建算力量化模型框架，并针对量化要求对模型进行细化；

步骤S3：通过调整超参数对模型进行优化，得到迭代完成的训练模型；

步骤S4：将待量化任务数据输入训练好的模型得到计算任务的算力度量结果。

在本实施例中，将待量化计算任务根据任务模型、计算模型进行细化，并定义状态、动作、奖励值：

如图2所示，将所有计算设备的算力值虚拟化为整体的算力资源池，考虑到资源供给对任务执行时间的影响，每个任务表示为执行时间与资源分配的二元组，为满足任务可调度性及任务间的逻辑关系，需要对有限计算资源进行合理分配，即先量化后分配。当对所有任务量化后发现m₂当前分配的资源无法使任务在最晚截止期前完成，而m₄分配的资源已经超过当前任务的需求量，为了避免m₃出现队列等待问题，将m₄的溢出资源分配给m₂，量化后m′₂的计算资源增加的同时执行时间也相对减少了并满足了整体节拍的实时性要求，例如零件夹取或装配可以定义为一个二元组，生产过程必须满足先夹取后装配的顺序，即当获得的资源量无法满足夹取操作的要求就会影响下一步的装配操作，所以需要将每个任务的执行时间与资源分配量进行细化定义，保证资源量的分配能够满足任务的截止期，其中计算任务为任务集中的任意一个任务，且具体参数为

其中，i＝1，2，...，n，z_i表示任务的时间复杂度大小，g_i表示任务的空间复杂度大小，o_i表示任务在实际处理时所归属的计算类型，

表示该项任务的所有参数类型与计算资源需求之间的权重值比例关系，用于表征边缘设备上任务占用的资源率；

所述任务模型包括任务的时间复杂度、空间复杂度，根据计算任务算法的时间开销用时间复杂度的大O表示法将z_i表示为{O(1)，O(n)，O(1ogn)}，{O(n1ogn)}，{O(n²)，O(2ⁿ)，(n！)}低中高三类，空间复杂度大小gi根据计算任务算法的内存开销表示为{O(1)，o(n)，O(logn)}；

所述计算模型具体为任务在实际处理时所归属的计算类型，根据实际生产需要将o_i表示为{CPU，GPU}，其中CPU、GPU代表逻辑运算任务以及并行计算任务；

所述状态具体为将单个时隙队列中的所有待量化的计算任务模型作为状态空间

其中slot＝1，2，3，...，T，表示对应的观测时隙；

所述动作具体为将每一个计算任务获取的资源分配比例值作为动作空间

其中

表示量化方法需要对异构设备具有普适性，所以增加关于

的异构变量ξ，F为异构节点的计算资源量，根据异构节点与预期分配的节点计算能力大小比例改变ξ；

所述奖励值具体为将任务实际完成时间与预测完成时间的对比结果作为奖励值

当预测的执行时间于实际执行时间之间误差越小奖励值则越大，

其中

表示边缘设备分配到的第i个任务的实际完成时间，中q_i表示任务实际消耗的资源大小，e_i∈R⁺表示第i个任务所需的实际计算指令数量；f为预期分配的边缘节点拥有的计算资源量；

表示任务的预测执行时间，根据任务属性与资源需求求解得到，其中任务属性包括：z_i、g_i、o_i、

资源需求包括：

在本实施例中，算力量化模型框架包括策略选择方式、误差定义方式、网络更新方式；

所述策略选择方式表示在模型训练进入每一轮迭代时需要选择影响下一阶段状态的动作策略，根据ε-greedy策略判断衰减率是否小于[0，1)的随机数，如果是就从动作空间中随机选择未知动作，否则选择令Q网络最优的资源分配比例动作，其中衰减率表示衰减系数的模型更新率次方，即当模型更新率越高采取随机选择动作策略的可能越低；

所述Q网络最优的资源分配比例动作表示根据ε-greedy贪心策略选取令态动作值函数最优的迭代策略，具体公式如下：

其中Q(s^slot，a^slot)表示当前时隙Q网络的状态动作值函数，s^slot+1表示slot+1时刻执行动作a^slot+1后改变的状态，a^slot+1表示为状态s^slot+1下能够获得最大奖励值的动作，α为学习率表示模型的更新步长，γ为折扣率表示未来状态动作值函数对当前值函数的影响衰减率，w表示神经网络的权重值，w′表示表示其权重值周期性地进行更新，

表示下一时隙选择最优动作后的的动作状态值函数，Q(s^slot+1，a^slot+1；w′)表示目标Q网络，结构与Q网络完全相同；

所述误差定义方式具体为：

minE＝min[y_target-Q(s^slot，a^slot；w)]

其中，

为目标价值函数，作用是为了让实际量化结果接近预期量化结果，所以让状态动作值函数逼近目标价值函数；

所述网络更新方式具体为将观测到的序列(s^slot，a^slot，r，s^slot+1)加入一个经验池用来存储训练过程中的数据，训练时通过从经验池中抽取一部分数据用来更新网络，避免数据之间存在较强的关联性，当经验池存储满后每一次的新数据都会覆盖原有的旧数据，并且Q网络每一轮都会迭代更新，而目标Q网络只会每隔一段时间通过复制Q网络的权重参数进行更新，这样做的作用是避免目标价值函数频繁更新导致参数不收敛；

在本实施例中，细化模型优化目标并训练模型具体为：

所述优化目标具体为最大化资源利用率，通过资源量化方法最小化预测执行时间t_i，将优化目标应用于奖励值的回报设定；

步骤S3中，当模型训练迭代完成后，最终的奖励值不稳定或收敛于较差结果，则更改模型的超参数，具体为学习率大小、经验池上限、采样步长、迭代周期，并重新训练直至奖励值趋于较好结果；

步骤S4中，将经过细化的任务集输入优化训练后的模型，得到基于量化方法的任务预测执行时间。

以上所述仅为本发明的实施方式，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的修改、等同替换、改进、扩展等，均包含在本发明的保护范围内。

Claims

1.一种基于深度强化学习的算力资源度量方法，其特征在于，包括以下步骤：

步骤S2：根据深度强化学习算法构建算力量化模型；

2.根据权利要求1所述的一种基于深度强化学习的算力资源度量方法，其特征在于，所述步骤S1中，对产线任务集中所有计算任务进行建模，包括以下步骤：

所述计算任务表示为

其中，i＝1,2,…,n，n表示任务数量，z_i表示任务的时间复杂度大小，g_i表示任务的空间复杂度大小，o_i表示任务在实际处理时所归属的计算类型，

3.根据权利要求1所述的一种基于深度强化学习的算力资源度量方法，其特征在于，所述状态、动作、奖励值分别是将单个时隙队列中的计算任务作为状态空间

将每一个计算任务获取的资源分配比例值作为动作空间

将任务实际完成时间与预测完成时间的对比结果作为奖励值r，其中slot＝1,2,3,...,T，slot表示对应的观测时隙，n表示任务数量，T表示观测时隙总量。

4.根据权利要求3所述的基于深度强化学习的算力资源度量方法，其特征在于，所述奖励值r表示为

其中，

表示当前资源需求比例大小随边缘节点改变，

5.根据权利要求1所述的基于深度强化学习的算力资源度量方法，其特征在于，所述算力量化模型构建包括以下步骤；

通过策略选择方式，选择资源分配比例动作；

将Q网络参数复制给目标Q网络；

从经验池中随机均匀采样，通过计算误差函数更新Q网络；

当迭代达到设定条件时，算力量化模型训练完成。

6.根据权利要求5所述的一种基于深度强化学习的算力资源度量方法，其特征在于，所述策略选择方式表示在算力量化模型训练进入每一轮迭代时选择影响下一阶段状态的动作策略，根据ε-greedy策略判断衰减率是否小于设定范围的随机数；

如果是，从动作空间中随机选择未知动作；

否则，选择令Q网络最优的资源分配比例动作；

7.根据权利要求6所述的基于深度强化学习的算力资源度量方法，其特征在于，所述Q网络最优的资源分配比例动作表示根据ε-greedy贪心策略选取状态动作值函数最优的迭代策略，具体公式如下：

其中Q(s^slot,a^slot)表示当前时隙Q网络的状态动作值函数，s^slot+1表示slot+1时刻执行动作a^slot+1后改变的状态，a^slot+1表示为状态s^slot+1下能够获得最大奖励值的动作，α为学习率表示算力量化模型的更新步长，γ为折扣率，表示未来状态动作值函数对当前值函数的影响衰减率，w表示神经网络的权重值，w′表示周期性更新的权重值，

表示下一时隙选择最优动作后的动作状态值函数，Q(s^slot+1,a^slot+1；w′)表示目标Q网络，结构与Q网络相同。

8.根据权利要求5所述的基于深度强化学习的算力资源度量方法，其特征在于，所述计算误差函数为：

minE＝min[y_target-Q(s^slot,a^slot；w)]

其中，

9.根据权利要求5所述的基于深度强化学习的算力资源度量方法，其特征在于，所述更新Q网络包括以下步骤：

将观测到的序列(s^slot,a^slot,r,s^slot+1)加入经验池用来存储训练过程中的数据；

训练时通过从经验池中抽取部分数据用来更新网络；

10.根据权利要求1所述的基于深度强化学习的算力资源度量方法，其特征在于，所述步骤S3中，当算力量化模型训练迭代完成后，最终的奖励值未在设定范围内，则更改算力量化模型的超参数，包括学习率大小、经验池上限、采样步长、迭代周期，并重新训练直至奖励值趋到达设定范围内。