CN113835894B

CN113835894B - 一种基于双延迟深度确定性策略梯度的智能计算迁移方法

Info

Publication number: CN113835894B
Application number: CN202111145230.3A
Authority: CN
Inventors: 陈思光; 汤蓓; 缪逸峰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2024-03-26
Anticipated expiration: 2041-09-28
Also published as: CN113835894A

Abstract

一种基于双延迟深度确定性策略梯度的智能计算迁移方法，基于迁移决策、带宽资源分配及传输功率调节的联合考量，构建了一个最小化所有计算任务总能耗的优化问题，能够综合考虑差异化最大容忍延迟和终端电压动态可调，进一步提升系统节能效果，更加贴合动态变化的复杂网络场景；基于Actor‑Critic架构，引入连续变量离散化运算，从而求得计算迁移决策这一离散动作集合，保障变量生成的随机性，达到良好的覆盖面。同时，构造了两个初始化参数相异的Critic网络，分别对输入动作进行评估，以更好地生成全局最优计算迁移策略；融合了伯努利分布的思想，引入随机二元组，能够克服连续‑离散动作空间输出受限的问题，并保障策略网络对离散动作探索的随机性。

Description

一种基于双延迟深度确定性策略梯度的智能计算迁移方法

技术领域

本发明涉及计算迁移领域，尤其涉及一种基于双延迟深度确定性策略梯度的智能计算迁移方法。

背景技术

为了更好地响应大规模物联网设备的服务请求，弥补云计算模式的缺陷，雾计算的概念应运而生。受限于单一雾节点的任务负载压力较大，融合计算迁移思想的雾计算模式成为了新的研究焦点。进一步地，出于对多节点协同处理效率及用户低成本开销的联合考量，如何依据边缘侧资源分布动态调整迁移策略，并高效分配用户接入节点、无线信道带宽资源、设备发射功率、内外部计算资源等，成为了亟待解决的关键问题。

目前，针对这类问题的研究，大致可分为以下三类：

第一类研究方案利用牛顿迭代法、拉格朗日乘子法及遗传算法等近似算法或启发式算法来优化计算迁移决策与资源分配。虽然上述方法能够取得稳定收敛解，但是整体的收敛速度较慢，难以快速生成复杂动态网络场景下的自适应迁移决策。

第二类研究方案基于深度学习理论，构造了智能化的计算迁移方案，以满足用户对时延敏感型决策输出的需求。虽然这类方法可以适应复杂多变的迁移场景，但实际决策效果受样本数据影响较大。为保障模型的泛化能力，通常需要大规模的高质量标签样本，所带来的人工成本是难以承受的。

第三类研究方案基于深度强化学习理论，虽然基于深度Q学习网络的方案可以适应时变的网络场景，但不利于输出连续的动作空间。此外还有使用基于策略梯度的深度强化学习方法和利用基于异步优势行动者(Actor)-评论家(Critic)的迁移策略算法，虽然上述方法可以生成连续的动作空间，但是这类方法仍然存在以下两个严峻挑战：其一，存在着Q值过估计的现象，累计误差较大，极易影响Actor网络的更新，并生成次优策略，引发不良的反馈循环；其二，不能很好地解决连续-离散动作空间上的优化问题。

发明内容

本发明旨在提供一种融合资源分配的高效智能计算迁移方法来克服连续-离散动作空间输出受限的问题，并保障策略网络对离散动作探索的随机性，从而更好地生成全局最优计算迁移策略，进一步提升系统节能效果。

一种基于双延迟深度确定性策略梯度的智能计算迁移方法，包括如下步骤：

步骤1，构建由用户层和服务层组成的多用户计算迁移模型，计算得到用户层产生的计算任务总能耗；

步骤2，基于迁移决策、带宽资源分配及传输功率调节的联合考量，构建一个最小化所有计算任务总能耗的优化问题；

步骤3，构造包含两个独立评价网络的模型架构，并引入连续变量离散化运算，以提升策略探索的随机性，从而更好地生成全局最优计算迁移策略。

进一步地，步骤1中，用户层由用户设备构成，服务层部署有多个雾节点组成的雾节点集和一个控制器。

进一步地，步骤1中，定义用户集合为I＝{1,2,...,|I|}，雾节点集合为J＝{0,1,2,...,|J|}；用户设备i向雾节点发送的任务请求信息为(D_i,T_i ^max)。其中，D_i表示用户设备i产生的计算任务数据大小，T_i ^max表示用户设备i对任务处理的最大容忍延迟；控制器根据该计算任务请求信息、雾节点可用带宽资源及最大可分配传输功率，生成能耗最小化计算迁移决策α_ij(α_ij∈{0,1})，当α_ij＝0时，表示用户设备i的计算任务不在节点j处理；当α_ij＝1时，表示用户设备i的计算任务在节点j处进行处理，其中j＝0特指用户设备本身。

进一步地，步骤1中，包括如下分步骤：

步骤1-1，将用户设备i的CPU时钟频率定义为f_i ^l，用户设备i处理一个比特计算任务所需的CPU周期数定义为C_i，其中i∈{1,2,...,|I|}。当计算任务选择在用户设备本身进行处理时，其对应的本地计算时间表示为：

结合CMOS电路的性质，将本地计算的能量消耗表示如下：

其中，κ^l为与设备型号相关的有效电容系数，默认所有用户设备的电容系数相等，为一个固定常数；

步骤1-2，将用户设备i至雾节点j(j∈{1,2,...,|J|})的上行传输速率表示如下：

其中，B_ij为雾节点j分配给用户设备i产生的计算任务的带宽资源大小，为雾节点j分配给用户设备i产生的计算任务的传输功率大小，d_ij为用户设备i与雾节点j之间的距离，δ为无线信道的损耗系数，/>为无线信道的信道增益；

由此表示出将用户设备i产生的计算任务迁移至雾节点j所需要的传输时延和传输能耗/>

步骤1-3，在雾节点j处理用户设备i产生的计算任务所需要的计算时间和能量消耗/>表示如下：

其中，C_j表示雾节点j处理一个比特计算任务所需要的CPU周期数，表示雾节点j的CPU时钟频率，κ^f为雾节点的有效电容系数。

步骤1-4，根据上述得到的本地计算的能量消耗传输能耗/>和雾节点j处理用户设备i产生的计算任务所需要的能量消耗/>将用户设备i所产生的计算任务的能量消耗表示为：

进一步地，步骤2中，结合物联网场景下的计算迁移决策α_ij、带宽资源分配B_ij及传输功率大小将最小化所有计算任务的总能耗作为优化目标，构建的优化问题P1以及约束条件具体如下所示：

P1:

上述约束条件中：

约束一表示用户设备i产生的计算任务只能在一个节点处进行处理；

约束二表示用户设备i的任务完成时间不能够超过用户的最大容忍延迟T_i ^max；

约束三表示节点的带宽资源约束，即任意节点分配给所有在该节点进行处理的计算任务的带宽总和不得超过其自身可分配的带宽资源大小；

约束四表示传输功率的可调范围；

约束五表示本地用户设备的CPU时钟频率不得超过其上限。

约束六表示任务的计算迁移决策，取值为0或1。

进一步地，步骤2中，综合考虑用户最大容忍延迟的服务差异化，动态电压调节DVS技术，依据电压与CPU时钟频率呈线性相关的特性，对目标函数进行更新。

进一步地，目标函数的更新步骤为，根据约束条件二，得出即由于本地计算的能耗/>与用户设备的CPU时钟频率f_i ^l成正相关，出于最小化计算任务总能耗的目标，将最优CPU时钟频率(f_i ^l)^*表示为：

依据所得(f_i ^l)^*，将用户设备i所产生的计算任务的能量消耗E_ij改写为E′_ij，优化问题P1等效转换为优化问题P2，表示如下：

P2:

约束二表示在雾节点执行用户设备i产生的计算任务所需的时间不得超过它的最大容忍延迟T_i ^max，其余约束条件的具体含义同上。

进一步地，步骤3中，构造的模型架构由Actor当前网络、Critic1当前网络、Critic2当前网络、Actor目标网络、Critic1目标网络、Critic2目标网络这六个网络构成；当模型架构中的智能体接收到雾节点上传的用户任务请求信息及可分配资源信息，分别运用Actor模块和Critic模块对策略函数和价值函数进行估量，以生成当前时隙的最优迁移决策及资源分配情况，并将其反馈给雾节点集。

进一步地，步骤3具体包括如下步骤：

步骤3-1，选择控制器作为智能体，负责收集、统计及更新不同时隙的状态信息，并与计算迁移环境进行交互，获得相对应的即时奖励；该智能体以最小化目标函数，即最大化累计奖励为目标，动态调整迁移策略，从而得出最优的计算迁移策略；

步骤3-2，定义涉及的状态空间、动作空间及奖励函数分别如下：

状态空间：在时隙t的状态s_t定义为在节点j处理用户设备i产生计算任务的能耗集合，即：

s_t＝{E′₁₀(t),...,E′_1|J|(t),...,E′_|I|0(t),...,E′_|I||J|(t)} (12)

动作空间：结合优化对象，将控制器在时隙t探索到的动作a_t表示如下：

其中，α_ij(t)表示用户计算任务的迁移决策集合，B_ij(t)表示分配的带宽资源大小，表示调节的传输功率大小；

奖励函数：当智能体在状态s_t情况下选择动作a_t时，得到相对应的即时奖励r_t；将满足约束条件的即时奖励定义为能耗的负值，相反地，则定义为与系统环境有关的惩罚项ζ(t)，具体如下所示：

其中，E′_ij(t)为用户设备i产生的计算任务在时隙t的能耗值，表示将用户设备i产生的计算任务迁移至雾节点j所需要的传输时延，/>表示雾节点j处理用户设备i产生的计算任务所需要的计算时间，ζ(t)＜0；

步骤3-3，考虑雾节点计算迁移决策之间的独立性和因变量的0-1特性，给出离散动作对应的概率密度函数，表示为：

其中，p+q＝1；依据所得连续动作[p,q]二元组的数值大小，对其进行连续变量离散化运算，即当p＞q时，离散动作α_ij取值为1；相反地，取值为0；

步骤3-4，引入探索噪声，具体表示如下：

其中，γ为衰减因子。

进一步地，步骤3中，在时隙t时刻，首先为策略函数引入探索噪声ε，接着Actor当前网络依据当前状态s_t选择执行动作a_t，并与计算迁移环境进行交互，以观测到相应的即时奖励r_t及下一状态s_t+1，并将四元组(s_t,a_t,r_t,s_t+1)存入经验回放池；而Actor目标网络则根据经验回放池中的下一状态s_t+1选择最优的下一动作a_t+1；最后，从六个网络共有的经验回放池随机选取K个样本数据，由Critic1当前网络和Critic2当前网络对当前动作下的价值函数/>和/>进行计算，并定期将网络参数ω₁和ω₂复制给Critic1目标网络和Critic2目标网络；

Critic1目标网络和Critic2目标网络负责计算各自的目标Q值y_1m及y_2m，并选取较小值作为最终的目标Q值y_m，以降低因反复传播与累积造成的高估偏差，具体定义如下：

y_m＝min(y_1m,y_2m) (19)

根据所获得的目标Q值y_m，以最小化各自当前网络的均方差损失函数为目标，利用神经网络的梯度反向传播来更新当前网络的相关参数ω₁和ω₂，并输出最终损失函数值Loss，表示如下：

其中，n＝1与2。

通过对网络参数的不断学习和优化，最终控制器能够生成当前时隙的最优迁移决策及资源分配情况。

与现有技术相比，本发明具有如下有益效果：

(1)基于迁移决策、带宽资源分配及传输功率调节的联合考量，本发明构建了一个最小化所有计算任务总能耗的优化问题，能够综合考虑差异化最大容忍延迟和终端电压动态可调，进一步提升系统节能效果，更加贴合动态变化的复杂网络场景。

(2)本发明基于Actor-Critic架构，引入连续变量离散化运算，从而求得计算迁移决策这一离散动作集合，保障变量生成的随机性，达到良好的覆盖面。同时，构造了两个初始化参数相异的Critic网络，分别对输入动作进行评估，以更好地生成全局最优计算迁移策略。

(3)本发明融合了伯努利分布的思想，引入随机二元组，能够克服连续-离散动作空间输出受限的问题，并保障策略网络对离散动作探索的随机性。

附图说明

图1为本发明实施例中的智能计算迁移的网络模型图。

图2为本发明实施例中的智能计算迁移方法的流程示意图。

图3为本发明实施例中的Critic网络不同学习率下的损失函数收敛情况。

图4为本发明实施例中的Critic网络不同学习率下的奖励函数收敛情况。

图5为本发明实施例中的Actor网络不同学习率下的损失函数收敛情况。

图6为本发明实施例中的Actor网络不同学习率下的奖励函数收敛情况。

图7为本发明实施例中的不同批量大小下的损失函数收敛情况。

图8为本发明实施例中的计算任务大小对能量消耗的影响。

图9为本发明实施例中的不同计算任务数量对能量消耗的影响。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

本发明设计了一种基于双延迟深度确定性策略梯度的智能计算迁移方法。针对策略梯度方法中动作连续的特性，该方法首先基于Actor-Critic架构，引入连续变量离散化运算，从而求得计算迁移决策这一离散动作集合，保障变量生成的随机性，达到良好的覆盖面。其次，出于对Q值过估计的考量，本发明选择构造两个初始化参数相异的Critic网络，分别对输入动作进行评估，以更好地生成全局最优计算迁移策略。最后，针对网络训练不稳定的问题，该方法融合延迟更新频率的理念，在多次更新Critic当前网络之后，再对目标网络及策略网络实施一次更新。所述基于双延迟深度确定性策略梯度的智能计算迁移方法(Twin Delayed Deep Deterministic Policy Gradient based IntelligentComputation Offloading,TD3PG-ICO)包括以下步骤。

(1)构建一个两层的物联网场景下的多用户计算迁移模型，该模型由用户层和服务层两部分构成。

参照图1，用户层由大量的用户设备构成。伴随着用户日益增长的内容服务需求，部分终端设备的计算能力有限，难以及时有效地处理高帧率计算任务。为延长设备寿命、节省成本开销，用户设备选择不定期向雾节点发送任务请求，以获得相应的计算服务。

服务层部署有多个雾节点和一个控制器，涉及的主要流程如下：(1)雾节点集接收所有用户设备的任务请求信息，并统计当前时隙的可分配资源信息，将其一同转发至控制器；(2)控制器依据上述信息，以最小化所有计算任务的总能耗为目标，求得最优的计算迁移决策配对集合、带宽分配大小及传输功率大小，并将其转发至雾节点集；(3)雾节点集依据控制器生成的最优计算迁移策略，为需要迁移处理的各个计算任务分配唯一确定的雾节点，并动态调节对应的带宽大小及传输功率大小，待任务处理完成之后，将计算结果反馈给用户设备。

定义用户集合为I＝{1,2,...,|I|}，雾节点集合为J＝{0,1,2,...,|J|}。用户设备i向雾节点发送的任务请求信息为(D_i,T_i ^max)。其中，D_i表示用户设备i产生的计算任务数据大小，T_i ^max表示用户设备i对任务处理的最大容忍延迟。控制器根据该计算任务请求信息、雾节点可用带宽资源及最大可分配传输功率等情况，生成能耗最小化计算迁移决策α_ij(α_ij∈{0,1})，当α_ij＝0时，表示用户设备i的计算任务不在节点j处理；当α_ij＝1时，表示用户设备i的计算任务在节点j处进行处理，其中j＝0特指用户设备本身。

如图1所示，在实际应用过程当中，用户层由大量的用户设备构成。假设有15个用户设备且多个用户设备随机产生一定量的计算任务。用户设备i产生的计算任务大小D_i的取值在10Kb至50Kb之间随机生成，对应的最大容忍延迟介于10ms与55ms之间。

服务层部署有多个雾节点和一个控制器。针对多个用户设备随机产生的一定量计算任务，以最小化总能耗为目标，生成各自对应的计算迁移决策、分配的带宽大小及传输功率大小。雾节点j所处信道的最大带宽约束在15Mb/s至50Mb/s之间随机生成；最大传输功率取值在2W至10W之间随机生成。

特别地，出于简单化考量，本发明实施例定义用户设备处理一个比特计算任务所需的周期数为6000cycle/bit，雾节点处理一个比特计算任务所需的周期数和CPU时钟频率分别为200cycle/bit和4*10⁷cycle/s；用户设备的有效电容系数κ^l为10^-29，雾节点的有效电容系数κ^f为10^-26；用户设备至雾节点的距离d_ij取值为1，损耗系数δ为0.01，无线信道增益的数值设为10^-6。

本发明实施例将用户设备i的CPU时钟频率(cycles/s)定义为f_i ^l，用户设备i处理一个比特计算任务所需的CPU周期数定义为C_i，其中i∈{1,2,...,|I|}。当计算任务选择在用户设备本身进行处理时，其对应的本地计算时间可以表示为：

结合CMOS电路的性质，将本地计算的能量消耗表示如下：

其中，κ^l为与设备型号相关的有效电容系数，这里默认所有用户设备的电容系数相等，为一个固定常数。

根据香农公式，将用户设备i至雾节点j(j∈{1,2,...,|J|})的上行传输速率表示如下：

其中，B_ij为雾节点j分配给用户设备i产生的计算任务的带宽资源大小，为雾节点j分配给用户设备i产生的计算任务的传输功率大小，d_ij为用户设备i与雾节点j之间的距离，δ为无线信道的损耗系数，/>为无线信道的信道增益。

由此可以表示出将用户设备i产生的计算任务迁移至雾节点j所需要的传输时延和传输能耗/>

类似地，在雾节点j处理用户设备i产生的计算任务所需要的计算时间和能量消耗/>可以表示如下：

根据上述描述，可以将用户设备i所产生的计算任务的能量消耗表示为：

(2)基于迁移决策、带宽资源分配及传输功率调节的联合考量，构建一个最小化所有计算任务总能耗的优化问题。

本发明旨在联合优化物联网场景下的计算迁移决策α_ij、带宽资源分配B_ij及传输功率大小用以最小化所有计算任务的总能耗，提升计算迁移环境的生命周期。所构建的优化问题P1具体如下所示：

P1:

0≤f_i ^l≤f_i ^max

目标函数即为最小化所有计算任务的总能耗。

约束一表示用户设备i产生的计算任务只能在一个节点处进行处理。

约束二表示用户设备i的任务完成时间不能够超过用户的最大容忍延迟T_i ^max。

约束三表示节点的带宽资源约束，即任意节点分配给所有在该节点进行处理的计算任务的带宽总和不得超过其自身可分配的带宽资源大小。

约束四表示传输功率的可调范围。

约束五表示本地用户设备的CPU时钟频率不得超过其上限。

约束六表示任务的计算迁移决策，取值为0或1。

为更加贴合物联网应用场景，综合考虑用户最大容忍延迟的服务差异化，本发明运用动态电压调节(Dynamic Voltage Scaling,DVS)技术，依据电压与CPU时钟频率呈线性相关的特性，对目标函数进行了一定的更新，具体如下所示。

根据约束条件二，可以得出即/>由于本地计算的能耗/>与用户设备的CPU时钟频率f_i ^l成正相关，出于最小化计算任务总能耗的目标，可以将最优CPU时钟频率/>表示为：

依据所得(f_i ^l)^*，可以将用户设备i所产生的计算任务的能量消耗E_ij改写为E′_ij，具体如下：

对应地，优化问题P1可以等效转换为优化问题P2，表示如下：

P2:

(3)构造包含两个独立评价网络的模型架构，并引入连续变量离散化运算，以提升策略探索的随机性，从而更好地生成全局最优计算迁移策略。

如图2所示，本发明设计基于双延迟深度确定性策略梯度的智能计算迁移方法主要由Actor当前网络、Critic1当前网络、Critic2当前网络、Actor目标网络、Critic1目标网络、Critic2目标网络这六个网络构成。当智能体接收到雾节点上传的用户任务请求信息及可分配资源信息等，分别运用Actor模块和Critic模块对策略函数和价值函数进行估量，以生成当前时隙的最优迁移决策及资源分配情况，并将其反馈给雾节点集，从而获得物联网场景下生命周期更长的计算迁移机制。在实际应用过程当中，具体包括如下步骤。

TD3PG-ICO方法模型选择控制器作为智能体，负责收集、统计及更新不同时隙的状态信息，并与计算迁移环境进行交互，获得相对应的即时奖励。该智能体以最小化目标函数，即最大化累计奖励为目标，动态调整迁移策略，从而得出最优的计算迁移策略。在TD3PG-ICO方法中，涉及的状态空间、动作空间及奖励函数分别定义如下：

状态空间定义：

在时隙t的状态s_t可以定义为在节点j处理用户设备i产生计算任务的能耗集合，即：

s_t＝{E′₁₀(t),...,E′_1|J|(t),...,E′_|I|0(t),...,E′_|I||J|(t)} (12)

动作空间定义：

为降低系统能耗开销，需要给出最优的计算迁移决策配对集合，并合理化地分配节点可用资源。因此，结合本发明的优化对象，将控制器在时隙t探索到的动作a_t表示如下：

其中，α_ij(t)表示用户计算任务的迁移决策集合，B_ij(t)表示分配的带宽资源大小，表示调节的传输功率大小。

奖励函数定义：

当智能体在状态s_t情况下选择动作a_t时，可以得到相对应的即时奖励r_t。为了确保能够获得最大未来奖励，出于最小化所有计算任务总能耗的考量，本发明将满足约束条件的即时奖励定义为能耗的负值，相反地，则定义为与系统环境有关的惩罚项ζ(t)，以更好地确保计算迁移策略探索的多样性，具体如下所示：

其中，E′_ij(t)为用户设备i产生的计算任务在时隙t的能耗值，表示将用户设备i产生的计算任务迁移至雾节点j所需要的传输时延，/>表示雾节点j处理用户设备i产生的计算任务所需要的计算时间，ζ(t)＜0。

考虑到雾节点计算迁移决策之间的独立性和因变量的0-1特性，可以结合伯努利分布的思想，给出离散动作对应的概率密度函数，表示为：

其中，p+q＝1。由于基于策略梯度的深度强化学习方法不利于输出离散动作，因此，本发明依据所得连续动作[p,q]二元组的数值大小，对其进行了连续变量离散化运算，即当p＞q时，离散动作α_ij取值为1；相反地，取值为0。

同时，为保障输入动作探索的随机性，提升模型训练效果，本发明选择引入探索噪声，而非传统的OU噪声。该方法使得价值函数的更新更为平滑，有效降低误差本身，具体表示如下：

其中，γ为衰减因子。为了避免误用不可能的动作值，本发明实施例将添加的噪声限制在可能的动作范围内。

本发明构建的网络的具体功能、确切关系及实际流程阐述如下。

在时隙t时刻，首先为策略函数引入探索噪声ε，接着Actor当前网络依据当前状态s_t选择执行动作a_t，并与计算迁移环境进行交互，以观测到相应的即时奖励r_t及下一状态s_t+1，并将四元组(s_t,a_t,r_t,s_t+1)存入经验回放池。而Actor目标网络则根据经验回放池中的下一状态s_t+1选择最优的下一动作a_t+1。

最后，从六个网络共有的经验回放池随机选取K个样本数据，由Critic1当前网络和Critic2当前网络对当前动作下的价值函数和/>进行计算，并定期将网络参数ω₁和ω₂复制给Critic1目标网络和Critic2目标网络。

而Critic1目标网络和Critic2目标网络则主要负责计算各自的目标Q值y_1m及y_2m，并选取较小值作为最终的目标Q值y_m，以降低因反复传播与累积造成的高估偏差，具体定义如下：

y_m＝min(y_1m,y_2m) (19)

其中，n＝1与2。

基于上述本发明设计基于双延迟深度确定性策略梯度的智能计算迁移方法在实际过程中的应用，图3和图4描述了Critic网络不同学习率下的损失函数及奖励函数的收敛情况。从图中可以发现：(1)在前100次的迭代过程中，两个函数的变化趋势较为明显，但随着迭代次数的增加，两者会逐步缓慢收敛；(2)当学习率取值为0.001时，奖励函数在130次迭代时产生了较大波动，并且在迭代次数增加到200次时，一直于最优值附近震荡，难以确定最优值；(3)当两个Critic网络的学习率取值为0.000001时，损失函数来回剧烈震荡。

图5和图6描述了Actor网络不同学习率下的损失函数及奖励函数的收敛情况。从图中可以发现：为Actor网络设置不同的学习率，最终的函数收敛情况差别较大。当学习率为0.000001时，收敛速度较慢，大致在350次迭代附近趋于平缓，且仍未达到最大奖励值。因此，本发明最后选择的Actor网络学习率为0.00001。

图7描述了不同批量大小下的损失函数收敛情况，可以发现：(1)当批量大小为8时，损失函数的收敛速度较慢且较不稳定；(2)当批量大小为64时，收敛速度较快且更为平稳，能够显著地降低模型训练次数，但是该批量大小需要消耗很多的内存，计算成本开销较大。

图8表示的是计算任务大小对能量消耗的影响。从图中可以发现：(1)随着计算任务大小的增加，所有方案下的能量消耗也不断增加，特别地，本地计算的能耗受任务大小影响较大，整体呈指数型增长趋势；(2)当计算任务较小时，四种方案的能耗值相等；(3)本发明所提方案最为逼近贪心算法，且复杂度更低，可以有效避免贪心决策选择方案的指数倍暴增现象。

图9表示的是不同计算任务数量对能量消耗的影响。从图中可以发现：(1)本地计算方案下的能耗增长趋势逐渐放缓，这是因为随着最大容忍延迟的增加，通过DVS技术调节的最优CPU时钟频率变小，本地计算能耗也会相应地降低；(2)本发明所提方案较DQN算法而言，能耗更低，并且能够更好地逼近贪心算法。这是因为本发明方案对计算迁移决策、带宽分配及传输功率调节进行了联合优化，可充分利用所有雾节点的可用资源；(3)对不同任务数量而言，本发明所提方案始终能够保持最低的能耗增加幅度，具有良好的鲁棒性。同时随着时延敏感型任务数量的增多，性能优势也将更为突出。

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种基于双延迟深度确定性策略梯度的智能计算迁移方法，其特征在于：所述方法包括如下步骤：

步骤2中，结合物联网场景下的计算迁移决策α_ij、带宽资源分配B_ij及传输功率大小将最小化所有计算任务的总能耗作为优化目标，构建的优化问题P1以及约束条件具体如下所示：

P1:

0≤f_i ^l≤f_i ^max

上述约束条件中：

约束四表示传输功率的可调范围；

约束五表示本地用户设备的CPU时钟频率不得超过其上限；

约束六表示任务的计算迁移决策，取值为0或1；

2.根据权利要求1所述的一种基于双延迟深度确定性策略梯度的智能计算迁移方法，其特征在于：步骤1中，用户层由用户设备构成，服务层部署有多个雾节点组成的雾节点集和一个控制器。

3.根据权利要求2所述的一种基于双延迟深度确定性策略梯度的智能计算迁移方法，其特征在于：步骤1中，定义用户集合为I＝{1,2,…,|I|}，雾节点集合为J＝{0,1,2,…,|J|}；用户设备i向雾节点发送的任务请求信息为(D_i,T_i ^max)；其中，D_i表示用户设备i产生的计算任务数据大小，T_i ^max表示用户设备i对任务处理的最大容忍延迟；控制器根据该计算任务请求信息、雾节点可用带宽资源及最大可分配传输功率，生成能耗最小化计算迁移决策α_ij(α_ij∈{0,1})，当α_ij＝0时，表示用户设备i的计算任务不在节点j处理；当α_ij＝1时，表示用户设备i的计算任务在节点j处进行处理，其中j＝0特指用户设备本身。

4.根据权利要求3所述的一种基于双延迟深度确定性策略梯度的智能计算迁移方法，其特征在于：步骤1中，包括如下分步骤：

步骤1-1，将用户设备i的CPU时钟频率定义为f_i ^l，用户设备i处理一个比特计算任务所需的CPU周期数定义为C_i，其中i∈{1,2,…,|I|}；当计算任务选择在用户设备本身进行处理时，其对应的本地计算时间表示为：

结合CMOS电路的性质，将本地计算的能量消耗表示如下：

步骤1-2，将用户设备i至雾节点j(j∈{1,2,…,|J|})的上行传输速率表示如下：

其中，C_j表示雾节点j处理一个比特计算任务所需要的CPU周期数，表示雾节点j的CPU时钟频率，κ^f为雾节点的有效电容系数；

。

5.根据权利要求1所述的一种基于双延迟深度确定性策略梯度的智能计算迁移方法，其特征在于：步骤2中，综合考虑用户最大容忍延迟的服务差异化，动态电压调节DVS技术，依据电压与CPU时钟频率呈线性相关的特性，对目标函数进行更新。

6.根据权利要求5所述的一种基于双延迟深度确定性策略梯度的智能计算迁移方法，其特征在于：目标函数的更新步骤为，根据约束条件二，得出即/>由于本地计算的能耗/>与用户设备的CPU时钟频率f_i ^l成正相关，出于最小化计算任务总能耗的目标，将最优CPU时钟频率(f_i ^l)^*表示为：

依据所得(f_i ^l)^*，将用户设备i所产生的计算任务的能量消耗E_ij改写为E_ij′，优化问题P1等效转换为优化问题P2，表示如下：

P2:

7.根据权利要求1所述的一种基于双延迟深度确定性策略梯度的智能计算迁移方法，其特征在于：步骤3中，构造的模型架构由Actor当前网络、Critic1当前网络、Critic2当前网络、Actor目标网络、Critic1目标网络、Critic2目标网络这六个网络构成；当模型架构中的智能体接收到雾节点上传的用户任务请求信息及可分配资源信息，分别运用Actor模块和Critic模块对策略函数和价值函数进行估量，以生成当前时隙的最优迁移决策及资源分配情况，并将其反馈给雾节点集。

8.根据权利要求7所述的一种基于双延迟深度确定性策略梯度的智能计算迁移方法，其特征在于：步骤3具体包括如下步骤：

s_t＝{E′₁₀(t),…,E′_1|J|(t),…,E′_|I|0(t),…,E′_|I||J|(t)} (12)

步骤3-4，引入探索噪声，具体表示如下：

其中，γ为衰减因子。

9.根据权利要求8所述的一种基于双延迟深度确定性策略梯度的智能计算迁移方法，其特征在于：步骤3中，在时隙t时刻，首先为策略函数引入探索噪声ε，接着Actor当前网络依据当前状态s_t选择执行动作a_t，并与计算迁移环境进行交互，以观测到相应的即时奖励r_t及下一状态s_t+1，并将四元组(s_t,a_t,r_t,s_t+1)存入经验回放池；而Actor目标网络则根据经验回放池中的下一状态s_t+1选择最优的下一动作a_t+1；最后，从六个网络共有的经验回放池随机选取K个样本数据，由Critic1当前网络和Critic2当前网络对当前动作下的价值函数/>和/>进行计算，并定期将网络参数ω₁和ω₂复制给Critic1目标网络和Critic2目标网络；

y_m＝min(y_1m,y_2m) (19)

其中，n＝1与2；