CN116467009A

CN116467009A - 一种基于深度强化学习的动态资源分配的任务卸载方法

Info

Publication number: CN116467009A
Application number: CN202310352565.5A
Authority: CN
Inventors: 吴国文
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-07-21

Abstract

本发明涉及一种基于深度强化学习的动态资源分配的任务卸载方法，包括：构建智能体和决策网络；对环境和决策网络进行随机初始化，得到环境初始状态；对环境初始状态进行预处理；对智能体进行训练时将经验重放池进行初始化，并将预处理后的环境初始状态的数据输入至演员‑批评家网络，得到相关的结果，并将结果保存在经验重放池中；对决策网络进行训练，从经验重放池载入指定大小的数据对决策网络进行训练，得到训练过程中的误差，再以后向传播方式对演员‑批评家网络和决策网络的参数进行更新，直到所有数据训练完毕，得到决策网络模型；采用决策网络模型得到任务卸载方案，并根据得到的任务卸载方案对任务进行卸载。本发明能够提高系统的稳定性。

Description

一种基于深度强化学习的动态资源分配的任务卸载方法

技术领域

本发明涉及边缘计算技术领域，特别是涉及一种基于深度强化学习的动态资源分配的任务卸载方法。

背景技术

随着移动通信技术的发展和智能终端的普及，各种网络服务和应用不断出现，出现了许多具有低延迟要求的计算密集型应用。尽管移动设备的中央处理单元的计算能力越来越强大，但对于计算密集型应用，处理能力还是稍显不足，移动设备自身的算力并不足以在短时间内处理如此巨大的计算任务。此外，本地处理这些任务还面临着设备电池电量快速消耗的问题。因此，在这种背景下，“边缘计算”作为一种新的模型出现，它能够在靠近感知层附近，利用周围可以提供网络、计算、存储、应用等能力的边缘服务器，就近提供各种服务和应用。边缘计算的出现，为物联网提供了很多优势，比如减小物联网应用程序中的延迟问题，提高网络性能，降低营运成本，保证资源的合理使用等等。如果将设备的计算任务适当地划分，部分计算任务卸载到边缘服务器中，可以进一步地提高物联网设备的工作效率。

计算任务卸载技术是指受资源约束的设备完全或者部分的将计算密集型任务卸载到资源充足的云环境中，主要解决了移动设备在存储资源、计算资源以及能量资源等方面不足的问题。计算任务中包含了该任务的信息，如所需计算资源和任务复杂度等。鉴于在边缘计算环境复杂多变，且任务卸载过程中需考虑参数多为高维数据，所以可以利用深度强化学习的优势来进行计算卸载系统的设计。

当前，不同的研究机构公布了不同的任务卸载系统及方法。专利公开文献CN113904947A中公开了一种任务卸载方法，可以解决通信开销大、用户隐私泄露等问题，但是使用的是传统的优化方法，在不同环境下需要重新求得最优解。专利公开文献CN113891477A公开了一种车联网中基于MEC计算卸载的资源分配方法，将计算资源分配子问题建模为凸优化问题，降低系统开销，但是对于不同系统，所要考虑的环境不同，导致该方法难以移植。专利公开文献CN113873660A公开了一种无人机辅助的服务缓存边缘计算最优计算卸载决策与资源分配方法，采用遗传算法框架对目标问题进行求解，但是在针对不同问题时，需要重新设定编码，而过于复杂的编码对于用户设备来说存在计算复杂度过高的问题。专利公开文献CN113905049A公开了一种基于分布式强化学习的卸载决策优化方法，但是由于边缘计算复杂的环境，导致传统强化学习难以解决如此高复杂度的问题。专利公开文献CN113867843A公开了一种基于深度强化学习的移动边缘计算任务卸载方法，但是该方法未考虑不同设备所卸载任务的计算复杂度和所需系统资源等，未能考虑资源的合理分配。

综上，现有的移动计算任务卸载技术应用于边缘计算任务卸载需要改进的地方。第一，每个不同的移动设备可以得到其他移动设备的一部分历史卸载信息，如服务器给分配的资源等。第二，移动卸载算法应能在长期的任务卸载过程中能够自适应的进行优化，减少工作量。第三，考虑到在一定的时间范围内卸载任务具有时序特点，从而优化自身的网络模型以达到更好的决策效率。

发明内容

本发明所要解决的技术问题是提供一种基于深度强化学习的动态资源分配的任务卸载方法，能够合理分配资源，尽可能减少任务的处理时延和能量消耗。

本发明解决其技术问题所采用的技术方案是：提供一种基于深度强化学习的动态资源分配的任务卸载方法，包括以下步骤：

(1)构建智能体和决策网络，所述智能体包括一个根据环境当前状态输出卸载决策的演员-批评家网络和一个记录历史卸载信息以便训练所述决策网络的经验重放池；所述决策网络为LSTM网络；

(2)对环境和所述决策网络进行随机初始化，得到环境初始状态；

(3)对所述环境初始状态进行预处理，得到所述智能体能够接受的输入数据；

(4)对智能体进行训练，训练时将所述经验重放池进行初始化，并将预处理后的环境初始状态的数据输入至演员-批评家网络，得到相关的结果，并将结果保存在经验重放池中；

(5)对决策网络进行训练，从所述经验重放池载入指定大小的数据对所述决策网络进行训练，得到训练过程中的误差，再以后向传播方式对演员-批评家网络和决策网络的参数进行更新，直到所有数据训练完毕，得到决策网络模型；

(6)基于当前环境状态采用所述决策网络模型得到任务卸载方案，并根据得到的任务卸载方案对任务进行卸载。

所述步骤(3)具体包括：

计算所有的所述环境初始状态的数据的均值和标准差；

通过所述均值和标准差对所有的所述环境初始状态的数据进行标准化处理。

所述步骤(4)具体包括：

(41)将用于存储演员-批评家网络的输出行为、该时刻环境的状态、下一时刻环境的状态、演员-批评家网络产生的评价值的容器初始化为空；

(42)将用于存储和选择数据包的所述经验重放池填充为值0；

(43)将该时刻的环境状态输入到演员-批评家网络中产生行为，并将该行为应用于环境得到下一时刻的环境状态，同时，将环境状态和行为输入到演员-批评家网络中得到评价值，并将这些输入输出存储到所述经验重放池中。

所述评价值R通过得到，其中，/>表示在k时隙分配给用户n的计算资源，/>表示在k时隙用户n的卸载策略，/>表示在k时隙除了用户n的其他用户的卸载策略，/>和/>则分别表示在k时隙处理用户n的计算任务所消耗的时延和能量消耗；ρ_t和ρ_e分别表示时延和能耗的权重，其值范围是0和1之间的浮点数，并且满足ρ_t+ρ_e＝1。

所述步骤(5)具体包括：

(51)将经验重放池中保存的结果作为一个批次进行决策网络训练；

(52)根据经验重放池保存的结果计算所述决策网络在第m个数据包的误差Loss_m，并根据所有数据包的误差计算所述决策网络的整体误差；

(53)基于所述决策网络的整体误差采取异策回合更新方法对决策网络的评价值进行更新；

(54)根据演员-批评家网络中批评家部分的输出得到的总奖励和总评价的误差，并根据总奖励和总评价的误差更新所述演员-批评家网络的批评家部分；

(55)根据经验重放池中存储的演员-批评家网络的行为计算对应的熵值；

(56)基于所述熵值利用损失函数计算演员-批评家网络的更新误差，并根据所述演员-批评家网络的更新误差，用向后传播的的方式对演员-批评家网络的演员部分的参数进行更新，得到新的演员-批评家网络模型。

所述第m个数据包的误差Loss_m通过计算得到，其中，y_m为标签值，/>为所述决策网络的输出值；所述决策网络的整体误差为：其中，N为数据包的个数。

所述决策网络的评价值更新方式为：v＝(1-α)v_tr+αv_ta，其中，α为超参数，v_tr表示训练部分的累计值函数，v_ta表示目标部分的累计价值函数。

所述步骤(54)中根据总奖励和总评价的误差更新所述演员-批评家网络的批评家部分，具体为：

定义演员-批评家网络的批评家部分的目标函数为：其中，J_n(ω_n)为目标函数，ω_n为所述演员-批评家网络的批评家部分的内部参数；/>表示对方括号内的内容求期望；/>表示当前时刻的环境状态，/>表示初始的环境状态，/>表示当前时刻的环境状态下的值函数，r表示做出动作的奖励值；

对目标函数进行梯度优化，得到梯度函数

基于梯度函数对所述演员-批评家网络的批评家部分进行更新，更新策略为：/>其中，τ为超参数，/>为演员-批评家网络的批评家部分更新后的网络参数，lr_c表示批评家网络的学习率。

所述步骤(55)中的熵值通过计算得到，其中，H(·)为熵值，a_i表示第i个可供选择的动作，s表示当前的环境状态，θ表示演员-批评家网络的演员部分的内部参数，π(a_i|s；θ)表示演员-批评家网络在环境状态s下产生的动作分布。

所述步骤(56)中的演员-批评家网络的更新误差通过L＝-log(π(a|s；θ))-βH(·)计算得到，其中，β表示熵权重系数。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明通过深度强化学习，实现了系统的自动学习能力而不需要外部人员干涉，增加了在环境发生变化的时候边缘计算架构计算任务卸载系统的稳定性。本发明将长短期记忆网络的数据长期记忆和演员-批评家网络自主进行学习的特点进行整合，保证了在处理高维数据的时候既可以得到较好的卸载决策，又能使得得到决策的时间缩短，提高边缘计算架构计算任务卸载系统的性能。本发明利用深度强化学习的训练方式，借鉴演员-批评家网络的架构设计，充分利用了用户卸载历史信息，对系统可用资源进行合理的分配，解决了传统边缘计算架构计算任务卸载系统难以解决的问题——求解过程困难、难以处理高维问题且不能随着环境的改变而自主学习，在环境改变时需人工重新进行求解，同时提高了边缘计算架构计算任务卸载系统的性能。

附图说明

图1是本发明实施方式中智能体的结构示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种基于深度强化学习的动态资源分配的任务卸载方法，包括以下步骤：

步骤1，构建智能体和决策网络，如图1所示，所述智能体包括一个根据环境当前状态输出卸载决策的演员-批评家网络和一个记录历史卸载信息以便训练所述决策网络的经验重放池；所述决策网络为LSTM网络。本实施方式中的决策网络能够根据其他用户的可见历史信息和该时刻自己本身的信息输出卸载决策，即任务的卸载率和边缘计算服务器的资源的分配量等。同时，该决策会被经验重放池记录，以便更新决策网络，使之有着良好的自适应性。经验重放池会定时删除记录时间过长的卸载决策，只记录最近的信息，这样能够进一步提高决策系统的效率，避免久远的历史信息影响决策系统的输出。

步骤2，对环境和决策网络进行随机初始化，得到环境初始状态。

步骤3，对所述环境初始状态进行预处理，得到所述智能体能够接受的输入数据。由于初始状态是随机产生的，对其进行预处理可保证决策网络不会受到异常初始状态的影响。本步骤中的预处理具体包括：

计算所有的所述环境初始状态的数据的均值μ_i和标准差δ_i；

通过所述均值μ_i和标准差δ_i对所有的所述环境初始状态的数据进行标准化处理，得到标准化数据，其中，处理方式为：其中，f_i为环境初始状态的某个数据，/>为标准化处理后的数据。

步骤4，对智能体进行训练，训练时将所述经验重放池进行初始化，并将预处理后的环境初始状态的数据输入至演员-批评家网络，得到相关的结果，并将结果保存在经验重放池中。本步骤具体包括：

步骤41，运行初始化程序，得到容器O_a,O_s,O_ns,O_r并将各容器初始化为空，容器O_a,O_s,O_ns,O_r用于存储训练过程中的输入数据和输出数据，分别包括决策网络输出的行为、该时刻环境的状态、下一时刻环境的状态、批评家网络产生的评价值(即奖励值)。

步骤42，运行初始化程序，得到一个用于存储和选择数据包的容器，并将该容器填充为值0，该容器作为经验重放池。

步骤43，将该时刻的环境状态输入到演员-批评家网络中产生行为，并将该行为应用于环境得到下一时刻的环境状态，同时，将环境状态和行为输入到演员-批评家网络中得到评价值，并将这些输入输出存储到所述经验重放池中。具体地说，将经过预处理的环境状态S输入到决策网络中，得到智能体对于该状态所做出的动作A；将动作A应用于环境，得到下一时刻的环境状态NS；根据输出动作A计算该行为的奖励值R；最后，将环境状态S、动作A、下一时刻的环境状态NS、奖励值R存储到经验重放池中，以备后续更新网络参数。其中，奖励值R通过奖励函数得到，奖励函数作为强化学习理论中驱动智能体做出决策的核心机制，可以在不需要人为辅助的情况下让智能体在不断的训练中找到最合适的动作策略，因此本实施方式中为了实现演员-批评家网络的自我更新机制，定义奖励函数为：其中，/>表示在k时隙分配给用户n的计算资源，/>表示在k时隙用户n的卸载策略，/>表示在k时隙除了用户n的其他用户的卸载策略，/>和则分别表示在k时隙处理用户n的计算任务所消耗的时延和能量消耗；ρ_t和ρ_e分别表示时延和能耗的权重，其值范围是0和1之间的浮点数，并且满足ρ_t+ρ_e＝1。

步骤5，对决策网络进行训练，从所述经验重放池载入指定大小的数据对所述决策网络进行训练，得到训练过程中的误差，再以后向传播方式对演员-批评家网络的参数进行更新，直到所有数据训练完毕，得到决策网络模型。本步骤具体包括：

步骤51，将经验重放池中保存的结果作为一个批次进行决策网络训练，本实施方式中载入64条数据作为一个批次进行训练。

步骤52，根据经验重放池保存的结果计算所述决策网络在第m个数据包的误差Loss_m，并根据所有数据包的误差计算所述决策网络的整体误差。其中，第m个数据包的误差Loss_m的计算方式为：y_m为标签值，/>为所述决策网络的输出值；所述决策网络的整体误差的计算方式为：/>其中，N为数据包的个数。

步骤53，基于所述决策网络的整体误差采取异策回合更新方法对决策网络的评价值进行更新。本实施方式中根据网络结构，采取异策回合更新方法，即分为训练部分train和目标部分target，得到的决策的评价值可以按照v＝(1-α)v_tr+αv_ta进行更新，其中，α表示决策网络的超参数，用来控制边缘计算架构计算任务卸载系统对决策空间的探索程度，其取值范围在0到1之间，v_tr表示训练部分的累计值函数，v_ta表示目标部分的累计价值函数。

步骤54，根据演员-批评家网络中批评家部分的输出得到的总奖励和总评价的误差，并根据总奖励和总评价的误差更新所述演员-批评家网络的批评家部分。其中，总奖励和总评价的误差表示为：J＝(R-v)²，其中，R为奖励值，v为决策网络的评价值，在进行更新时，具体包括以下步骤：

首先，定义演员-批评家网络的批评家部分的目标函数为：其中，，J_n(ω_n)为目标函数，ω_n为所述演员-批评家网络的批评家部分的内部参数；/>表示对方括号内的内容求期望；/>表示当前时刻的环境状态，/>表示初始的环境状态，/>表示当前时刻的环境状态下的值函数，r表示做出动作的奖励值；

然后，对目标函数进行梯度优化，其中，梯度函数为：Z表示每一次从经验池中选择的数据条数。

最后，基于梯度函数对所述演员-批评家网络的批评家部分进行更新，更新策略为：/>其中，τ为超参数，表示对行为空间的探索程度，τ越大，探索程度越大，并且0＜τ＜1，/>为演员-批评家网络的批评家部分更新后的网络参数，lr_c表示批评家网络的学习率。

步骤55，根据经验重放池中存储的演员-批评家网络的行为计算对应的熵值，计算方式为：其中，H(·)为熵值，a_i表示第i个可供选择的动作，s表示当前的环境状态，θ表示演员-批评家网络的演员部分的内部参数，π(a_i|s；θ)表示演员-批评家网络在环境状态s下产生的动作分布。

步骤56，基于所述熵值利用损失函数计算演员-批评家网络的更新误差，并根据所述演员-批评家网络的更新误差，用向后传播的的方式对演员-批评家网络的演员部分的参数进行更新，得到新的演员-批评家网络模型。其中，所述演员-批评家网络的更新误差为L＝-log(π(a|s；θ))-βH(·)，其中，β表示熵权重系数。

步骤6，训练完成后，得到决策网络模型，基于当前环境状态采用所述决策网络模型得到任务卸载方案，并根据得到的任务卸载方案对任务进行卸载。

本实施方式实施软硬件环境如下：英伟达Titan 5GPU、CUDA 11.2、Ubuntu18.04LST、anaconda 4.9.2、pytorch 1.1.0。最终的模拟实验结果基于下面超参数配置表：

不难发现，本发明通过深度强化学习，实现了系统的自动学习能力而不需要外部人员干涉，增加了在环境发生变化的时候边缘计算架构计算任务卸载系统的稳定性。本发明将长短期记忆网络的数据长期记忆和演员-批评家网络自主进行学习的特点进行整合，保证了在处理高维数据的时候既可以得到较好的卸载决策，又能使得得到决策的时间缩短，提高边缘计算架构计算任务卸载系统的性能。本发明利用深度强化学习的训练方式，借鉴演员-批评家网络的架构设计，充分利用了用户卸载历史信息，对系统可用资源进行合理的分配，解决了传统边缘计算架构计算任务卸载系统难以解决的问题——求解过程困难、难以处理高维问题且不能随着环境的改变而自主学习，在环境改变时需人工重新进行求解，同时提高了边缘计算架构计算任务卸载系统的性能。

Claims

1.一种基于深度强化学习的动态资源分配的任务卸载方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度强化学习的动态资源分配的任务卸载方法，其特征在于，所述步骤(3)具体包括：

计算所有的所述环境初始状态的数据的均值和标准差；

3.根据权利要求1所述的基于深度强化学习的动态资源分配的任务卸载方法，其特征在于，所述步骤(4)具体包括：

(42)将用于存储和选择数据包的所述经验重放池填充为值0；

4.根据权利要求3所述的基于深度强化学习的动态资源分配的任务卸载方法，其特征在于，所述评价值R通过得到，其中，/>表示在k时隙分配给用户n的计算资源，/>表示在k时隙用户n的卸载策略，/>表示在k时隙除了用户n的其他用户的卸载策略，/>和/>则分别表示在k时隙处理用户n的计算任务所消耗的时延和能量消耗；ρ_t和ρ_e分别表示时延和能耗的权重，其值范围是0和1之间的浮点数，并且满足ρ_t+ρ_e＝1。

5.根据权利要求1所述的基于深度强化学习的动态资源分配的任务卸载方法，其特征在于，所述步骤(5)具体包括：

6.根据权利要求5所述的基于深度强化学习的动态资源分配的任务卸载方法，其特征在于，所述第m个数据包的误差Loss_m通过计算得到，其中，y_m为标签值，/>为所述决策网络的输出值；所述决策网络的整体误差为：其中，N为数据包的个数。

7.根据权利要求5所述的基于深度强化学习的动态资源分配的任务卸载方法，其特征在于，所述决策网络的评价值更新方式为：v＝(1-α)v_tr+αv_ta，其中，α为决策网络的超参数，v_tr表示训练部分的累计值函数，v_ta表示目标部分的累计价值函数。

8.根据权利要求5所述的基于深度强化学习的动态资源分配的任务卸载方法，其特征在于，所述步骤(54)中根据总奖励和总评价的误差更新所述演员-批评家网络的批评家部分，具体为：

对目标函数进行梯度优化，得到梯度函数

基于梯度函数对所述演员-批评家网络的批评家部分进行更新，更新策略为：其中，τ为超参数，/>为演员-批评家网络的批评家部分更新后的网络参数，lr_c表示批评家网络的学习率。

9.根据权利要求5所述的基于深度强化学习的动态资源分配的任务卸载方法，其特征在于，所述步骤(55)中的熵值通过计算得到，其中，H(·)为熵值，a_i表示第i个可供选择的动作，s表示当前的环境状态，θ表示演员-批评家网络的演员部分的内部参数，π(a_i|s；θ)表示演员-批评家网络在环境状态s下产生的动作分布。

10.根据权利要求9所述的基于深度强化学习的动态资源分配的任务卸载方法，其特征在于，所述步骤(56)中的演员-批评家网络的更新误差通过L＝-log(π(a|s；θ))-βH(·)计算得到，其中，β表示熵权重系数。