CN112134916A

CN112134916A - 一种基于深度强化学习的云边协同计算迁移方法

Info

Publication number: CN112134916A
Application number: CN202010702969.9A
Authority: CN
Inventors: 陈思光; 陈佳民; 尤子慧
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-12-25
Anticipated expiration: 2040-07-21
Also published as: CN112134916B

Abstract

本发明公开了一种基于深度强化学习的云边协同计算迁移方法，包括以下步骤：(1)构建由用户层、边缘云层和云层组成的移动边缘网络计算迁移模型；(2)边缘云层内的边缘云节点接收到用户层迁移的计算任务，根据任务分配宽带和计算资源；(3)以计算任务的时延和能耗最小作为优化目标，构建目标函数和约束；(4)构建深度神经网络模型，采用异步边缘云协同深度强化学习的方法对目标函数进行优化，得到最优的迁移决策，并返回用户层的终端执行该决策。本发明能够解决大数据场景下求解复杂组合优化的问题，解决了传统梯度优化方法存在收敛速度慢的缺点，在处理大规模数据时方法耗时更短，可以适应大数据网络数据处理时效性需求。

Description

一种基于深度强化学习的云边协同计算迁移方法

技术领域

本发明涉及一种计算迁移方法，尤其涉及一种基于深度强化学习的云边协同计算迁移方法。

背景技术

在云计算模式中，大量终端设备感知的数据会被迁移至集中式云服务器上处理，从而大大扩展终端设备的计算能力。然而，云计算模式中云服务器通常与终端设备相距甚远，导致了应用任务处理的高延迟以及大规模数据远程传输的高开销。该类问题的存在，催生了边缘计算模式的产生，边缘计算作为一种新的计算模式，将计算、存储资源下沉到靠近终端设备的接入网络边缘，试图将云服务提供商、移动运营商与异构互联网终端进行深度融合，从而减少端到端的业务服务时延，缓解核心网流量压力，满足复杂多样化的应用需求。虽然边缘计算可以快速响应终端设备的请求，对于诸如虚拟现实服务等对延迟敏感的任务非常重要，但是单个资源受限的边缘节点往往无法及时处理所有终端设备发出的计算任务请求。此时，如何高效利用周边空闲边缘节点或云服务器节点的计算/存储资源就显得特别重要，计算迁移方法也因此得到了工业界的广泛关注。

当前，在边缘计算场景下许多性能优越的计算迁移方法被提出，大致可以分为如下三类：

第一类方案基本都基于精确方法或基于数学规划的近似方法来求解相应的计算迁移优化问题，在大数据场景下求解复杂组合优化问题显得力不从心，同时求解方法难以根据相应的实际场景变化做出自适应的迁移决策。

第二类方案结合了机器学习理论的计算迁移研究，大都采用单一的深度学习或者强化学习理论来解决相应的优化问题，此类求解方法没能将机器学习中的感知能力和决策能力优势充分发挥，使得求解方案具有局限性。

第三类方案通过有机结合深度学习的表征学习能力和强化学习的决策能力，使得智能体具备更强的学习能力，进而能够更好地解决复杂系统的感知决策问题。基于深度强化学习的求解方法，都使用一个或者多个并行的深度神经网络来有效且高效地生成迁移决策，同时将生成的迁移决策存储在共享内存中，以进一步训练和改进深度神经网络，从而能够更好的依据具体的网络环境快速做出自适应的迁移决策。上述基于深度强化学习的求解方法，在面对边缘节点过多或者任务量巨大的场景时，由于边缘云中资源的局限性和边缘节点之间处理任务的相关性，这类方法往往无法根据实时动态环境的差异性做出最优的迁移决策，同时越来越多的迁移决策存储在共享内存中，会导致边缘节点的存储负担过重，影响边缘节点的处理效率。

发明内容

发明目的：本发明旨在提供一种结合云计算和深度强化学习的边缘计算方法来实现大数据的迁移计算，同时能够降低终端设备迁移计算的延迟和能量开销，并且在最大容许延迟内做出最优的迁移决策。

技术方案：本发明的基于深度强化学习的云边协同计算迁移方法，包括以下步骤：

(1)构建由用户层、边缘云层和云层组成的移动边缘网络计算迁移模型；

(2)边缘云层内的边缘云节点接收到用户层迁移的计算任务，根据任务分配宽带和计算资源；

(3)以计算任务的时延和能耗最小作为优化目标，构建目标函数和约束；

(4)构建深度神经网络模型，采用异步边缘云协同深度强化学习的方法对目标函数进行优化，得到最优的迁移决策，并返回用户层的终端执行该决策。

有益效果：与现有技术相比，本发明具有如下显著优点：

(1)本发明能够解决大数据场景下求解复杂组合优化的问题，解决了传统梯度优化方法存在收敛速度慢的缺点，在处理大规模数据时方法耗时更短，可以适应大数据网络数据处理时效性需求。例如：在一个实际场景中，同时处理100个任务，本发明可以在合理的时间内求解出满意的解，同时，本发明能够基于边缘计算实际场景中动态变化的负载做出自适应的迁移决策以保证迁移决策的动态与多样性，可有效降低样本的相关性。

(2)本发明基于计算资源、带宽和迁移决策的综合性考量，构建了一个任务执行延迟与能耗权重和最小化优化问题，同时，提出异步多线程的方法避免了传统采用经验回放机制所带来的高内存开销，可提高边缘节点的计算效率。

(3)本发明设计基于深度强化学习的云边协同计算迁移方法，本方法构建的云边优势函数结合了竞争神经网络相互竞争的特点，相较于使用的传统损失函数，能更好地根据奖励对动作值进行估计，从而更快速地获得最优的迁移决策。

附图说明

图1为本发明的网络模型图；

图2为本发明的流程示意图；

图3为本发明损失函数的收敛过程；

图4为本发明优势函数的收敛过程；

图5为本发明在不同学习率下奖励函数收敛情况；

图6为本发明不同边缘节点数量下奖励值收敛情况；

图7为本发明与其它四类方法在不同计算任务数量方面的总成本对比；

图8为本发明设计方法与其它四类方法在边缘节点不同计算能力方面的总成本对比。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

本发明设计了一种基于深度强化学习的云边协同计算迁移方法，该方法采用了异步多线程的方法，同时将边缘云中的每个边缘节点作为一个线程来处理，不同的边缘节点和环境进行交互学习，并且每个边缘节点都把学习的梯度参数发送到云端，定期从云端接收新参数，更好地指导当前边缘节点的和后面的环境进行学习交互。该方法在不同的边缘节点上，使用不同的探索策略以保证其探索的多样性，无须采用传统的经验回放机制，并通过各个并行的边缘节点各自收集到的状态转换经验样本，进行独立的训练实验，可有效降低样本的相关性。所述异步云边协同深度强化学习方法(Asynchronous Cloud-EdgeCollaborative Deep Reinforcement Learning，ACEC-DRL)包括如下步骤：

(1)构建一个三层的移动边缘网络计算迁移模型，整个网络的体系结构联合边缘云和云模型进行数据处理，该模型由用户层，边缘云层和云层组成。

(11)用户层由N个用户终端(User Equipment，UE)组成，这些设备被部署在指定的区域内感知是否有计算任务产生。当终端中需要处理的任务数据超出本地的计算能力，就会向边缘云发送计算请求。

(12)边缘云层由M个边缘节点组成，各边缘节点包括以下两个功能：

1)生成迁移决策：当边缘节点接收到用户层发来的计算请求时，会结合边缘云中所有节点的带宽和计算资源的分配情况，生成最优的迁移决策，然后将迁移决策发送给对应用户层的用户终端。

2)计算迁移和数据处理：当用户层用户终端接收到对应的迁移决策，它从本地将需要计算的数据发送给对应的边缘节点，边缘节点通过计算再将对应的结果发送回对应的用户终端。

(13)云层是拥有强大计算能力的服务器，能够优化边缘云中的迁移决策。边缘云将每个边缘节点中处理过的任务信息发送给云层，云层收集每个时间段内的所有历史信息，模拟用户层与边缘云层的交互过程，生成更优的迁移决策，并将优化后的神经网络参数梯度返回给对应的边缘节点，提升边缘节点对后续任务的处理效率。

如图1所示，在实际应用过程当中，第一层是用户层由多个用户终端组成，假设用户终端数量为20，表示有20个用户终端有任务需要计算，每个用户终端的任务数据大小在100M和500M之间随机生成，每个用户终端与边缘节点的距离也是随机生成，且最大容忍延迟也是依据任务数据大小随机生成。进一步，假设用户终端的本地计算能力

为30M/bs，用户终端本地单位时间的计算能耗

为0.02J，为了方便计算，用户终端单位时间的迁移能耗P_i ^up和P_i ^do都为0.01J，用户终端单位时间的等待能耗P_i ^w为0.001J。

第二层是边缘云层由多个边缘节点组成，假设3个边缘节点，边缘节点的带宽分别为100MHz、150MHz、200MHz；边缘节点的计算能力分别为150M/bs、100M/bs、200M/bs；边缘节点单位时间的计算能耗分别为0.002J、0.003J、0.001J。假设边缘节点j分配给用户终端i的带宽占比λ_ij(t)和计算资源占比β_ij(t)都为0.01，同时，假设用户终端i本地CPU的占比β_i0(t)为0.6。

第三层是云层，云层是拥有强大计算能力的服务器，扮演着优化边缘云中迁移决策的角色。边缘云将每个边缘节点中处理过的任务信息发送给云层，云层收集每个时间段内的所有历史信息，模拟用户层与边缘云层的交互过程，生成更优的迁移决策，并将优化后的神经网络参数梯度返回给对应的边缘节点，提升边缘节点对后续任务的处理效率。无论是本地计算成本权重还是迁移计算成本权重初始系数都设为0.5。

(2)边缘云层内的边缘云节点接收到用户层迁移的计算任务，根据任务分配宽带和计算资源。假设i表示第i个用户终端，其中i∈{1,2,…,N}D_i；j表示第j个边缘节点，其中，当j＝0时，特指用户终端本身。每个用户可以将计算任务迁移到指定的边缘节点，边缘节点可为迁移任务分配带宽和计算资源。在共享带宽与计算资源的基础上，本发明假设每个任务都是相互独立的执行单元，未考虑任务的相关性问题。

(21)当多个用户有任务需要计算时，首先确定任务的最大容许延迟，以及本地计算的时间，若本地计算的时间j∈{0,1,2,…,M}大于最大容许延迟，将发送任务迁移请求，把需要计算的任务数据大小发送给边缘节点。边缘节点在边缘云中同步该用户的信息，生成一张如下的任务表格：

F_ij＝{x_ij,λ_ij,β_ij,D_i,T_i ^tol}

其中x_ij表示计算任务在本地执行还是被迁移；λ_ij表示边缘节点j分配给用户i的带宽占比，β_ij表示边缘节点j分配给用户i的计算资源占比；T_i ^tol表示用户终端i的最大容许延迟。

(22)边缘节点通过在边缘云下同步更新和维护上述任务表格，此同步只需要在边缘节点每次做出任务迁移决策后，更新表格信息，并广播给同一边缘云下的所有边缘节点。因此由全部任务生成的表格可以得到总任务集F。

F＝{F_ij|i∈{1,2,…,N},j∈{0,1,2,…,M}}

总任务集F将会形成于边缘云中的所有边缘节点。基于总任务集F，本发明可以得到所有任务的迁移决策，从而计算出各个任务相应的处理成本。

(3)以计算任务的时延和能耗最小作为优化目标，构建目标函数和约束。

本发明基于时延与能耗作为度量网络性能的两个核心指标，优化目标主要集中在用户层全部任务执行完成时间和能耗上，具体优化目标即为最小化所有用户的任务执行延迟和能耗的权重和，即总成本C。方式即为通过联合优化迁移决策、带宽分配和计算资源分配来实现，其中任务可在本地执行或者迁移执行，具体优化问题构建如下：

上述优化问题中，目标函数即为最小化全部任务完成时间与用户端能耗的权重和，用总成本C表示。

为本地计算成本；

为迁移计算成本。

约束一表示无论是选择本地计算所产生的延迟还是选择迁移计算产生的延迟都不能大于用户对任务执行所能容忍的最大延迟。

其中，

为本地计算时间；

为迁移计算时间。

约束二表示节点j(j可为本地用户或边缘节点)分配给各个任务的带宽占比和必须小于或等于1，即迁移到边缘节点的所有用户任务占用的带宽和要小于或等于边缘节点的最大带宽，本地用户的带宽分配也是如此。

相类似，约束三表示所有迁移到边缘节点(或在本地执行)的任务CPU占比之和小于或等于1。

约束四表示变量z_ij的取值约束，当z_ij＝0表示任务i并未选择节点j进行计算(j可为本地用户或边缘节点)，当z_ij＝1表示任务i选择j节点执行计算。

z_ij∈{0,1}

如图2所示，本发明设计基于深度强化学习的云边协同计算迁移方法在实际应用过程当中，具体包括如下步骤：

ACEC-DRL方法模型在每个边缘节点中基于观测与环境相互作用的智能体，通过不断地学习，同时与云端进行交互，从而获到最优的迁移策略。例如：在某个时隙t，环境处于状态s_t，智能体执行动作a_t，环境可以以某种可能性转移到任何可实现的后续状态s_t+1，并且智能体接受奖励r_t+1。智能体的长期目标是通过采取根据其观测结果调整其行动的策略π来最大化其获得的累计奖励，具体ACEC-DRL方法的三个关键要素，即状态、动作和奖励，定义如下：

状态空间定义：

S_t＝(C_ij(t))

其中，C_ij(t)表示时隙t时用户i的任务迁移至边缘节点j计算的总成本。

动作空间定义：

A_t＝(z_ij(t),λ_ij(t),β_ij(t))

其中，z_ij(t)表示t时刻用户i选择边缘节点j进行迁移；λ_ij(t)表示t时刻边缘节点j分配给用户i的带宽占比；β_ij(t)表示t时刻边缘节点j分配给用户i的CPU占比。

边缘节点智能体将在执行每个可能的动作a后，在某个状态s中获得奖励值R(s,a)。因为通常奖励函数与目标函数相关，本发明优化问题的目标是最小化所有用户的任务执行延迟和能耗权重和的总成本，而求解目标是获得最大的奖励函数值，因此本发明的奖励函数与总成本的大小是负相关的。据此，奖励函数定义为：

其中，v为具体环境决定的奖励值；

表示用户i选择边缘节点j进行迁移在时刻t时的奖励值；

表示用户i选择边缘节点j进行迁移在时刻t-1时的奖励值；C_ij(t-1)表示时隙t-1时用户i的任务迁移至边缘节点j计算的总成本。

在方法流程的边缘节点中，首先在基于策略函数的深度神经网络中，深度神经网络使得智能体能够根据输入数据的不同感知到数据的本质并进行深度特征建模，为后续智能体对环境进行决策和控制提供更为坚实的基础，进而能够更好地解决复杂系统的感知决策问题。为了将边缘节点智能体中的各种观测结果融入迁移策略制定的服务中，本发明定义策略函数为：

π(s_t,a_t)≈π(a_t|s_t；θ_t)

其中，a_t为t时刻的迁移动作；θ为使用策略迭代更新网络中的权重参数。由于策略函数的目标是最大化奖励，因此可以使用梯度上升方法计算关于奖励的期望

策略梯度的更新公式为：

上式表示奖励期望越高的动作，应该提高其概率。其中π(a_t|s_t；θ_t)表示在状态s_t下选择动作a_t的概率；

为对

的无偏估计。

实际上，假设每个动作的奖励值R_t均为正时(即所有的梯度值均大于或等于零)，每个动作出现的概率将会随着梯度上升方法不断地被提高，上述操作很大程度上会减缓学习速率，同时使得梯度方差增大。因此本部分对上述等式增加标准化操作用于降低梯度的方差，则上述等式可更新为：

其中，b_t(s_t)为在状态s_t时刻的基线函数。

通过奖励值R_t减去基线函数b_t(s_t)的方式学习策略函数，可以减小该估计的方差，同时保持其无偏性。将基线函数b_t设为奖励值R_t的期望估计，通过求其梯度更新参数θ，当总奖励超过基线动作，其概率会被提高，反之降低，同时还可以降低梯度方差；

在方法流程中基于价值函数的深度神经网络中，通过边缘节点的智能体观测到任务迁移到边缘节点的映射，观测包括边缘节点的计算能力，任务的数据大小，以及任务的最大容许延迟，并且可以定义本发明的动作值Q函数：

Q(s_t,a_t)≈Q(s_t,a_t；w_t)

其中，Q(s_t,a_t)为单个动作所对应的价值；w为本发明的权重参数。

因此基于价值函数的深度神经网络，损失函数定义为：

本部分采用多步Q-learning方法中的目标动作Q值定义方法，其优点在于一个奖励r可以直接影响先前n个<状态-动作>对，能更好地模拟迁移执行的历史经验，明显提高方法学习的有效性。多步Q-learning方法中的多步是指包括计算后续n步的状态，因此本发明定义Target Q为：

在本发明的ACEC-DRL方法中，基于策略函数的深度神经网络和基于价值函数的深度神经网络是相同的，只是同一个网络模型的不同输出流，其在网络的输出层分别表示策略集合π和基于策略的价值集合V_π；

为执行动作a_t时的最大动作值。

将策略函数π作为演员，将基线函数b_t(s_t)作为评论家。云-边优势函数基于演员-评论家方法的损失函数，结合竞争神经网络的特性，并根据具体的迁移场景做出调整和优化，以更好地根据奖励对动作值进行估计。在策略梯度更新的过程中，更新规则使用了折扣奖励R_t用于通知边缘节点哪些迁移决策是‘好的’，哪些迁移决策是‘不好’的。接着，进行网络更新，以确定该迁移决策的好坏程度。现定义云-边动作优势函数：

A(s_t,a_t)＝Q(s_t,a_t)-V(s_t)

其中，状态值函数V(s_t)是在时间步t的状态下，所有动作值函数关于动作概率的期望；而动作值函数Q(s_t,a_t)是单个动作所对应的价值，因此等式中Q(s_t,a_t)-V(s_t)能评价当前动作值函数相对于平均值的大小。由于迁移策略评估目标函数中不能直接确定动作值Q，而使用折扣奖励R作为动作值Q的估计值，最终定义云-边优势函数为：

A(s_t,a_t)＝R(s_t,a_t)-V(s_t)

其中，R(s_t,a_t)为状态s_t时执行迁移动作a_t的奖励值。

使用云-边优势函数进行估计，其好处是折扣奖励能够使边缘节点评估该迁移决策的好坏程度，并对执行该迁移决策相比于预期的结果进行评估。

将上述三个部分内容融合到ACEC-DRL方法框架中，可得到相应任务的最优迁移决策，返回给用户层相应的终端去执行。除此之外，并将边缘节点上反馈的动作值函数累计梯度和策略函数累计梯度推送到云端，云端根据各个边缘节点的反馈来更新网络参数，并将新的网络参数下发到各个边缘节点，不断循环，直到学习出理想的网络参数为止。

上述技术方案设计基于深度强化学习的方法，针对当前基于精确方法或基于数学规划的近似方法来求解相应的计算迁移优化问题，在大数据场景下求解复杂组合优化问题显得力不从心，主要表现为采用传统梯度优化方法存在收敛速度慢的缺点，在处理大规模数据时方法耗时长，难以适应大数据网络数据处理时效性需求，例如：在一个实际场景中，如果需要同时处理100个任务，精确求解方法就已经无法在合理的时间内求解出满意的解；同时，上述求解方法难以基于边缘计算实际场景中动态变化的负载做出自适应的迁移决策。通过采用基于智能优化的近似方法，为上述问题的解决提供了一个很好的途径。本发明设计基于边缘云中边缘节点所处环境的差异性，ACEC-DRL方法能自适应地调整迁移策略以有效降低样本的相关性；同时，提出异步多线程的方法代替传统的经验回放机制，避免了边缘云的高内存开销；此外，构建能更好反馈迁移动作奖励值的云边优势函数代替传统的损失函数，使得ACEC-DRL方法能更快速的获得最优迁移决策。

基于上述本发明设计基于深度强化学习的云边协同计算迁移方法在实际过程中的应用，如图3所示本发明设计方法在云端深度神经网络损失函数的收敛性能，从图中可以发现损失函数的值在前200次迭代急剧下降，然后在600次迭代内基本达到稳定值。这主要因为在一开始执行的动作对于奖励值影响较大，所以损失函数值会急剧下降，接着随着迭代次数的增加，逐步缓慢逼近最优值，最终会学习到最优的神经网络参数。图4展现了云端深度神经网络在接收到边缘节点的反馈后优势函数的收敛性能，从图中可以发现每一次接收到新的边缘节点参数梯度后，优势函数在300次左右的迭代达到稳定值。因此验证了云端深度神经网络模型每一次接收到边缘节点的参数梯度反馈后，能在有限的迭代次数内达到优势函数收敛，从而学习出理想的网络参数。

图5评估了在云端深度神经网络中不同的学习率对于奖励值的影响，从图中可以发现：1)随着学习率的降低，奖励值的收敛逐渐缓慢，这是因为学习率过小，从而每次迭代优化的效率过低，所以云端深度神经网络中的学习率不能过低；2)当学习率越大时，随着迭代次数的增加，可能会越过最优值，从而造成在最优值附近震荡。因此云端深度神经网络中的学习率既不能太低，亦不能太高。依据多次的仿真结果，本发明最后选择的学习率为0.001。图6表示不同数量的边缘节点对于奖励值的影响。从图中可以看出，随着边缘节点数量的增加，奖励值收敛的越快，这是因为云端深度神经网络在同一时间内收集到的边缘节点经验越多，能更快的学习出理想的神经网络参数，达到最大的奖励值。因此在实际场景中，部署更多的边缘节点，有利于降低用户任务迁移的成本以及能更快的得到最优的迁移策略。

基于上述本发明设计基于深度强化学习的云边协同计算迁移方法在与其它方法比较时，图7为本发明设计方法(ACEC-DRL)相较于全部迁移计算、本地计算、贪心方法和深度Q网络(Deep Q-Network,DQN)方法的总成本与计算任务数量的关系，从图中可得出如下结论：1)随着计算任务数量的增加，所有方法的计算成本都不断增加；2)一开始任务量比较小时，全部本地计算、贪心方法、DQN方法和ACEC-DRL方法成本相同，这是因为当计算任务量没有超过本地计算能力时，都会选择全部本地计算；3)整体上，全部迁移的成本最高，本地计算其次，再者是DQN方法，而本发明提出的ACEC-DRL方法最逼近贪心方法的总成本。因为贪心方法获得最优迁移决策过程的时间和能耗远比提出的ACEC-DRL方法要高的多，不符合实际应用，特别不适用于复杂大数据场景，所以本发明提出的ACEC-DRL方法具有极大的性能优越性。

图8为本发明设计方法(ACEC-DRL)相较于全部迁移计算、本地计算、贪心方法和DQN方法的总成本与边缘节点计算能力的关系，从图中可得出如下结论：1)随着边缘节点计算能力的增加，本地计算的成本是不受影响的，因为本地计算与边缘节点的计算能力无关；2)随着边缘节点计算能力的增加，全部迁移计算的成本逐渐减小，到达一定的计算能力时，则小于本地计算的成本，因为随着边缘节点计算能力的增长，其迁移计算的时间在减少，导致其总成本降低；3)本发明提出的ACEC-DRL方法更优于DQN方法且总成本十分逼近贪心方法的总成本，相比与贪心方法在大数据处理方面的局限性和高成本，ACEC-DRL方法能低延迟和低能耗地处理大数据，因此可以得到本发明设计的ACEC-DRL方法优于其他四种计算迁移方法。

综合上述结果，本发明设计的ACEC-DRL方法在任务量不同以及边缘节点计算能力不同的场景中都拥有较好的鲁棒性，不受环境动态变化的影响，能依据接收到的任务，快速自适应地做出最优的迁移决策，并使得所有用户任务执行的延迟和能耗总成本最小。

Claims

1.一种基于深度强化学习的云边协同计算迁移方法，其特征在于，包括以下步骤：

(3)以计算任务的时延和能耗的权重和最小作为优化目标，构建目标函数和约束；

(4)构建深度神经网络模型，采用异步云边协同深度强化学习的方法对目标函数进行优化，得到最优的迁移决策，并返回用户层的终端执行该决策。

2.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(4)的优化过程具体包括以下步骤：

(41)定义状态空间为：

S_t＝(C_ij(t))

其中，C_ij(t)表示时隙t时用户i的任务迁移至边缘节点j计算的总成本；S_t为环境状态；

定义动作空间为：

A_t＝(z_ij(t),λ_ij(t),β_ij(t))

其中，z_ij(t)表示t时刻用户i选择边缘节点j进行迁移；λ_ij(t)表示t时刻边缘节点j分配给用户i的带宽占比；β_ij(t)表示t时刻边缘节点j分配给用户i的CPU占比；

定义奖励函数为：

其中，v为具体环境决定的奖励值；r_t ^ij表示用户i选择边缘节点j进行迁移在时刻t时的奖励值；

表示用户i选择边缘节点j进行迁移在时刻t-1时的奖励值；C_ij(t-1)表示时隙t-1时用户i的任务迁移至边缘节点j计算的总成本；

(42)为了将边缘节点智能体中的各种观测结果融入深度神经网络中，定义策略函数为：

π(s_t,a_t)≈π(a_t|s_t；θ_t)

其中，a_t为t时刻的迁移动作；θ_t为使用策略迭代更新网络中的权重参数；

采用梯度上升方法计算关于奖励的期望

则策略梯度公式为：

其中，R_t为每个动作的奖励值；π(a_t|s_t；θ_t)表示在状态s_t下选择动作a_t的概率；

为对

的无偏估计；

(43)通过边缘节点的智能体观测到任务迁移到边缘节点的映射，观测包括边缘节点的计算能力，任务的数据大小，以及任务的最大容许延迟，采用多步Q-learning方法中的目标动作Q值定义方法，因此定义动作值Q函数为：

Q(s_t,a_t)≈Q(s_t,a_t；w_t)

其中，Q(s_t,a_t)为单个动作所对应的价值；w为本发明的权重参数；

因此基于价值函数的深度神经网络，损失函数定义为：

其中

为上一次迭代的权重值；

多步Q-learning方法中的多步是指包括计算后续n步的状态，因此本发明定义TargetQ为：

其中γ为衰减因子；r_t,r_t+1...r_t+n-1分别表示进行迁移在时刻t,t+1...t+n-1时的奖励值；

为执行动作a_t时的最大动作值；

(44)采用折扣奖励用于通知边缘节点迁移决策的优劣；然后进行网络更新，以确定该迁移决策的优劣程度；

定义云-边动作优势函数为：

A(s_t,a_t)＝Q(s_t,a_t)-V(s_t)

其中，状态值函数V(s_t)是在时间步t的状态下，所有动作值函数关于动作概率的期望；

采用折扣奖励R作为动作值Q的估计值，最终定义云-边优势函数为：

A(s_t,a_t)＝R(s_t,a_t)-V(s_t)

其中，R(s_t,a_t)为状态s_t时执行迁移动作a_t的奖励值。

3.根据权利要求2所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，对所述步骤(42)中期望

公式增加标准化操作，用于降低梯度的方差，则该式可更新为：

其中，b_t(s_t)为在状态s_t时刻的基线函数。

4.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(1)的用户层由N个用户终端组成，这些设备被部署在指定的区域内，用于感知是否有计算任务产生；且当终端中需要处理的任务数据超出本地的计算能力，就会向边缘云发送计算请求。

5.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(1)的边缘云层由M个边缘节点组成；每个边缘节点的功能包括：

(11)生成迁移决策：当边缘节点接收到用户层的计算请求时，会结合边缘云中所有节点的带宽和计算资源的分配情况，生成最优的迁移决策，然后将迁移决策发送给对应用户层的用户终端；

(12)计算迁移和数据处理：当用户层用户终端接收到对应的迁移决策，用户终端从本地将需要计算的数据发送给对应的边缘节点，边缘节点通过计算再将对应的结果发送回对应的用户终端。

6.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(1)的云层为服务器，云层收集每个时间段内的所有历史任务信息，模拟用户层与边缘云层的交互过程，生成更优的迁移决策，并将优化后的神经网络参数梯度返回给对应的边缘节点。

7.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(2)具体包括以下步骤：

(21)当多个用户有任务需要计算时，首先确定任务的最大容许延迟，以及本地计算的时间；若本地计算的时间j∈{0,1,2,…,M}大于最大容许延迟，将发送任务迁移请求，把需要计算的任务数据大小发送给边缘节点，边缘节点在边缘云中同步该用户的信息，生成如下的任务表格：

其中，x_ij表示计算任务在本地执行还是被迁移；λ_ij表示边缘节点j分配给用户i的带宽占比，β_ij表示边缘节点j分配给用户i的计算资源占比；T_i ^tol表示用户终端i的最大容许延迟；其中i∈{1,2,…,N}D_i；j表示第j个边缘节点，当j＝0时，特指用户终端本身；

(22)边缘节点在边缘云下同步更新和维护上述任务表格，根据全部任务生成的表格可以得到总任务集F：

F＝{F_ij|i∈{1,2,…,N},j∈{0,1,2,…,M}}

(23)总任务集F形成在边缘云中的所有边缘节点中，基于总任务集F得到所有任务的迁移决策，从而计算出各个任务相应的处理成本。

8.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(22)中的同步在边缘节点每次做出任务迁移决策后，更新表格信息，并广播给同一边缘云下的所有边缘节点。

9.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(3)中的目标函数为：

其中，目标函数即为最小化全部任务完成时间与用户端能耗的权重和，用总成本C表示；

为本地计算成本；

为迁移计算成本。

10.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法，其特征在于，所述步骤(3)中的约束条件包括：

(31)无论是选择本地计算所产生的延迟还是选择迁移计算产生的延迟都不能大于用户对任务执行所能容忍的最大延迟，公式如下：

其中，

为本地计算时间；

为迁移计算时间；

(32)节点j分配给各个任务的带宽占比和必须小于或等于1，即迁移到边缘节点的所有用户任务占用的带宽和要小于或等于边缘节点的最大带宽，本地用户的带宽分配也是如此，公式如下：

(33)所有迁移到边缘节点或在本地执行的任务CPU占比之和小于或等于1，公式如下：

(34)变量z_ij的取值约束：当z_ij＝0表示任务i并未选择节点j进行计算，当z_ij＝1表示任务i选择j节点执行计算，公式如下：

z_ij∈{0,1}。