CN112134916B - 一种基于深度强化学习的云边协同计算迁移方法 - Google Patents

一种基于深度强化学习的云边协同计算迁移方法 Download PDF

Info

Publication number
CN112134916B
CN112134916B CN202010702969.9A CN202010702969A CN112134916B CN 112134916 B CN112134916 B CN 112134916B CN 202010702969 A CN202010702969 A CN 202010702969A CN 112134916 B CN112134916 B CN 112134916B
Authority
CN
China
Prior art keywords
edge
migration
task
cloud
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010702969.9A
Other languages
English (en)
Other versions
CN112134916A (zh
Inventor
陈思光
陈佳民
尤子慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010702969.9A priority Critical patent/CN112134916B/zh
Publication of CN112134916A publication Critical patent/CN112134916A/zh
Application granted granted Critical
Publication of CN112134916B publication Critical patent/CN112134916B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度强化学习的云边协同计算迁移方法,包括以下步骤:(1)构建由用户层、边缘云层和云层组成的移动边缘网络计算迁移模型;(2)边缘云层内的边缘云节点接收到用户层迁移的计算任务,根据任务分配宽带和计算资源;(3)以计算任务的时延和能耗最小作为优化目标,构建目标函数和约束;(4)构建深度神经网络模型,采用异步边缘云协同深度强化学习的方法对目标函数进行优化,得到最优的迁移决策,并返回用户层的终端执行该决策。本发明能够解决大数据场景下求解复杂组合优化的问题,解决了传统梯度优化方法存在收敛速度慢的缺点,在处理大规模数据时方法耗时更短,可以适应大数据网络数据处理时效性需求。

Description

一种基于深度强化学习的云边协同计算迁移方法
技术领域
本发明涉及一种计算迁移方法,尤其涉及一种基于深度强化学习的云边协同计算迁移方法。
背景技术
在云计算模式中,大量终端设备感知的数据会被迁移至集中式云服务器上处理,从而大大扩展终端设备的计算能力。然而,云计算模式中云服务器通常与终端设备相距甚远,导致了应用任务处理的高延迟以及大规模数据远程传输的高开销。该类问题的存在,催生了边缘计算模式的产生,边缘计算作为一种新的计算模式,将计算、存储资源下沉到靠近终端设备的接入网络边缘,试图将云服务提供商、移动运营商与异构互联网终端进行深度融合,从而减少端到端的业务服务时延,缓解核心网流量压力,满足复杂多样化的应用需求。虽然边缘计算可以快速响应终端设备的请求,对于诸如虚拟现实服务等对延迟敏感的任务非常重要,但是单个资源受限的边缘节点往往无法及时处理所有终端设备发出的计算任务请求。此时,如何高效利用周边空闲边缘节点或云服务器节点的计算/存储资源就显得特别重要,计算迁移方法也因此得到了工业界的广泛关注。
当前,在边缘计算场景下许多性能优越的计算迁移方法被提出,大致可以分为如下三类:
第一类方案基本都基于精确方法或基于数学规划的近似方法来求解相应的计算迁移优化问题,在大数据场景下求解复杂组合优化问题显得力不从心,同时求解方法难以根据相应的实际场景变化做出自适应的迁移决策。
第二类方案结合了机器学习理论的计算迁移研究,大都采用单一的深度学习或者强化学习理论来解决相应的优化问题,此类求解方法没能将机器学习中的感知能力和决策能力优势充分发挥,使得求解方案具有局限性。
第三类方案通过有机结合深度学习的表征学习能力和强化学习的决策能力,使得智能体具备更强的学习能力,进而能够更好地解决复杂系统的感知决策问题。基于深度强化学习的求解方法,都使用一个或者多个并行的深度神经网络来有效且高效地生成迁移决策,同时将生成的迁移决策存储在共享内存中,以进一步训练和改进深度神经网络,从而能够更好的依据具体的网络环境快速做出自适应的迁移决策。上述基于深度强化学习的求解方法,在面对边缘节点过多或者任务量巨大的场景时,由于边缘云中资源的局限性和边缘节点之间处理任务的相关性,这类方法往往无法根据实时动态环境的差异性做出最优的迁移决策,同时越来越多的迁移决策存储在共享内存中,会导致边缘节点的存储负担过重,影响边缘节点的处理效率。
发明内容
发明目的:本发明旨在提供一种结合云计算和深度强化学习的边缘计算方法来实现大数据的迁移计算,同时能够降低终端设备迁移计算的延迟和能量开销,并且在最大容许延迟内做出最优的迁移决策。
技术方案:本发明的基于深度强化学习的云边协同计算迁移方法,包括以下步骤:
(1)构建由用户层、边缘云层和云层组成的移动边缘网络计算迁移模型;
(2)边缘云层内的边缘云节点接收到用户层迁移的计算任务,根据任务分配宽带和计算资源;
(3)以计算任务的时延和能耗最小作为优化目标,构建目标函数和约束;
(4)构建深度神经网络模型,采用异步边缘云协同深度强化学习的方法对目标函数进行优化,得到最优的迁移决策,并返回用户层的终端执行该决策。
有益效果:与现有技术相比,本发明具有如下显著优点:
(1)本发明能够解决大数据场景下求解复杂组合优化的问题,解决了传统梯度优化方法存在收敛速度慢的缺点,在处理大规模数据时方法耗时更短,可以适应大数据网络数据处理时效性需求。例如:在一个实际场景中,同时处理100个任务,本发明可以在合理的时间内求解出满意的解,同时,本发明能够基于边缘计算实际场景中动态变化的负载做出自适应的迁移决策以保证迁移决策的动态与多样性,可有效降低样本的相关性。
(2)本发明基于计算资源、带宽和迁移决策的综合性考量,构建了一个任务执行延迟与能耗权重和最小化优化问题,同时,提出异步多线程的方法避免了传统采用经验回放机制所带来的高内存开销,可提高边缘节点的计算效率。
(3)本发明设计基于深度强化学习的云边协同计算迁移方法,本方法构建的云边优势函数结合了竞争神经网络相互竞争的特点,相较于使用的传统损失函数,能更好地根据奖励对动作值进行估计,从而更快速地获得最优的迁移决策。
附图说明
图1为本发明的网络模型图;
图2为本发明的流程示意图;
图3为本发明损失函数的收敛过程;
图4为本发明优势函数的收敛过程;
图5为本发明在不同学习率下奖励函数收敛情况;
图6为本发明不同边缘节点数量下奖励值收敛情况;
图7为本发明与其它四类方法在不同计算任务数量方面的总成本对比;
图8为本发明设计方法与其它四类方法在边缘节点不同计算能力方面的总成本对比。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
本发明设计了一种基于深度强化学习的云边协同计算迁移方法,该方法采用了异步多线程的方法,同时将边缘云中的每个边缘节点作为一个线程来处理,不同的边缘节点和环境进行交互学习,并且每个边缘节点都把学习的梯度参数发送到云端,定期从云端接收新参数,更好地指导当前边缘节点的和后面的环境进行学习交互。该方法在不同的边缘节点上,使用不同的探索策略以保证其探索的多样性,无须采用传统的经验回放机制,并通过各个并行的边缘节点各自收集到的状态转换经验样本,进行独立的训练实验,可有效降低样本的相关性。所述异步云边协同深度强化学习方法(Asynchronous Cloud-EdgeCollaborative Deep Reinforcement Learning,ACEC-DRL)包括如下步骤:
(1)构建一个三层的移动边缘网络计算迁移模型,整个网络的体系结构联合边缘云和云模型进行数据处理,该模型由用户层,边缘云层和云层组成。
(11)用户层由N个用户终端(User Equipment,UE)组成,这些设备被部署在指定的区域内感知是否有计算任务产生。当终端中需要处理的任务数据超出本地的计算能力,就会向边缘云发送计算请求。
(12)边缘云层由M个边缘节点组成,各边缘节点包括以下两个功能:
1)生成迁移决策:当边缘节点接收到用户层发来的计算请求时,会结合边缘云中所有节点的带宽和计算资源的分配情况,生成最优的迁移决策,然后将迁移决策发送给对应用户层的用户终端。
2)计算迁移和数据处理:当用户层用户终端接收到对应的迁移决策,它从本地将需要计算的数据发送给对应的边缘节点,边缘节点通过计算再将对应的结果发送回对应的用户终端。
(13)云层是拥有强大计算能力的服务器,能够优化边缘云中的迁移决策。边缘云将每个边缘节点中处理过的任务信息发送给云层,云层收集每个时间段内的所有历史信息,模拟用户层与边缘云层的交互过程,生成更优的迁移决策,并将优化后的神经网络参数梯度返回给对应的边缘节点,提升边缘节点对后续任务的处理效率。
如图1所示,在实际应用过程当中,第一层是用户层由多个用户终端组成,假设用户终端数量为20,表示有20个用户终端有任务需要计算,每个用户终端的任务数据大小在100M和500M之间随机生成,每个用户终端与边缘节点的距离也是随机生成,且最大容忍延迟也是依据任务数据大小随机生成。进一步,假设用户终端的本地计算能力
Figure BDA0002593552860000041
为30M/bs,用户终端本地单位时间的计算能耗
Figure BDA0002593552860000042
为0.02J,为了方便计算,用户终端单位时间的迁移能耗Pi up和Pi do都为0.01J,用户终端单位时间的等待能耗Pi w为0.001J。
第二层是边缘云层由多个边缘节点组成,假设3个边缘节点,边缘节点的带宽分别为100MHz、150MHz、200MHz;边缘节点的计算能力分别为150M/bs、100M/bs、200M/bs;边缘节点单位时间的计算能耗分别为0.002J、0.003J、0.001J。假设边缘节点j分配给用户终端i的带宽占比λij(t)和计算资源占比βij(t)都为0.01,同时,假设用户终端i本地CPU的占比βi0(t)为0.6。
第三层是云层,云层是拥有强大计算能力的服务器,扮演着优化边缘云中迁移决策的角色。边缘云将每个边缘节点中处理过的任务信息发送给云层,云层收集每个时间段内的所有历史信息,模拟用户层与边缘云层的交互过程,生成更优的迁移决策,并将优化后的神经网络参数梯度返回给对应的边缘节点,提升边缘节点对后续任务的处理效率。无论是本地计算成本权重还是迁移计算成本权重初始系数都设为0.5。
(2)边缘云层内的边缘云节点接收到用户层迁移的计算任务,根据任务分配宽带和计算资源。假设i表示第i个用户终端,其中i∈{1,2,…,N}Di;j表示第j个边缘节点,其中,当j=0时,特指用户终端本身。每个用户可以将计算任务迁移到指定的边缘节点,边缘节点可为迁移任务分配带宽和计算资源。在共享带宽与计算资源的基础上,本发明假设每个任务都是相互独立的执行单元,未考虑任务的相关性问题。
(21)当多个用户有任务需要计算时,首先确定任务的最大容许延迟,以及本地计算的时间,若本地计算的时间j∈{0,1,2,…,M}大于最大容许延迟,将发送任务迁移请求,把需要计算的任务数据大小发送给边缘节点。边缘节点在边缘云中同步该用户的信息,生成一张如下的任务表格:
Fij={xijijij,Di,Ti tol}
其中xij表示计算任务在本地执行还是被迁移;λij表示边缘节点j分配给用户i的带宽占比,βij表示边缘节点j分配给用户i的计算资源占比;Ti tol表示用户终端i的最大容许延迟。
(22)边缘节点通过在边缘云下同步更新和维护上述任务表格,此同步只需要在边缘节点每次做出任务迁移决策后,更新表格信息,并广播给同一边缘云下的所有边缘节点。因此由全部任务生成的表格可以得到总任务集F。
F={Fij|i∈{1,2,…,N},j∈{0,1,2,…,M}}
总任务集F将会形成于边缘云中的所有边缘节点。基于总任务集F,本发明可以得到所有任务的迁移决策,从而计算出各个任务相应的处理成本。
(3)以计算任务的时延和能耗最小作为优化目标,构建目标函数和约束。
本发明基于时延与能耗作为度量网络性能的两个核心指标,优化目标主要集中在用户层全部任务执行完成时间和能耗上,具体优化目标即为最小化所有用户的任务执行延迟和能耗的权重和,即总成本C。方式即为通过联合优化迁移决策、带宽分配和计算资源分配来实现,其中任务可在本地执行或者迁移执行,具体优化问题构建如下:
Figure BDA0002593552860000051
上述优化问题中,目标函数即为最小化全部任务完成时间与用户端能耗的权重和,用总成本C表示。
Figure BDA0002593552860000052
为本地计算成本;
Figure BDA0002593552860000053
为迁移计算成本。
约束一表示无论是选择本地计算所产生的延迟还是选择迁移计算产生的延迟都不能大于用户对任务执行所能容忍的最大延迟。
Figure BDA0002593552860000054
其中,
Figure BDA0002593552860000061
为本地计算时间;
Figure BDA0002593552860000062
为迁移计算时间。
约束二表示节点j(j可为本地用户或边缘节点)分配给各个任务的带宽占比和必须小于或等于1,即迁移到边缘节点的所有用户任务占用的带宽和要小于或等于边缘节点的最大带宽,本地用户的带宽分配也是如此。
Figure BDA0002593552860000063
相类似,约束三表示所有迁移到边缘节点(或在本地执行)的任务CPU占比之和小于或等于1。
Figure BDA0002593552860000064
约束四表示变量zij的取值约束,当zij=0表示任务i并未选择节点j进行计算(j可为本地用户或边缘节点),当zij=1表示任务i选择j节点执行计算。
zij∈{0,1}
(4)构建深度神经网络模型,采用异步边缘云协同深度强化学习的方法对目标函数进行优化,得到最优的迁移决策,并返回用户层的终端执行该决策。
如图2所示,本发明设计基于深度强化学习的云边协同计算迁移方法在实际应用过程当中,具体包括如下步骤:
ACEC-DRL方法模型在每个边缘节点中基于观测与环境相互作用的智能体,通过不断地学习,同时与云端进行交互,从而获到最优的迁移策略。例如:在某个时隙t,环境处于状态st,智能体执行动作at,环境可以以某种可能性转移到任何可实现的后续状态st+1,并且智能体接受奖励rt+1。智能体的长期目标是通过采取根据其观测结果调整其行动的策略π来最大化其获得的累计奖励,具体ACEC-DRL方法的三个关键要素,即状态、动作和奖励,定义如下:
状态空间定义:
St=(Cij(t))
其中,Cij(t)表示时隙t时用户i的任务迁移至边缘节点j计算的总成本。
动作空间定义:
At=(zij(t),λij(t),βij(t))
其中,zij(t)表示t时刻用户i选择边缘节点j进行迁移;λij(t)表示t时刻边缘节点j分配给用户i的带宽占比;βij(t)表示t时刻边缘节点j分配给用户i的CPU占比。
边缘节点智能体将在执行每个可能的动作a后,在某个状态s中获得奖励值R(s,a)。因为通常奖励函数与目标函数相关,本发明优化问题的目标是最小化所有用户的任务执行延迟和能耗权重和的总成本,而求解目标是获得最大的奖励函数值,因此本发明的奖励函数与总成本的大小是负相关的。据此,奖励函数定义为:
Figure BDA0002593552860000071
其中,v为具体环境决定的奖励值;
Figure BDA0002593552860000072
表示用户i选择边缘节点j进行迁移在时刻t时的奖励值;
Figure BDA0002593552860000073
表示用户i选择边缘节点j进行迁移在时刻t-1时的奖励值;Cij(t-1)表示时隙t-1时用户i的任务迁移至边缘节点j计算的总成本。
在方法流程的边缘节点中,首先在基于策略函数的深度神经网络中,深度神经网络使得智能体能够根据输入数据的不同感知到数据的本质并进行深度特征建模,为后续智能体对环境进行决策和控制提供更为坚实的基础,进而能够更好地解决复杂系统的感知决策问题。为了将边缘节点智能体中的各种观测结果融入迁移策略制定的服务中,本发明定义策略函数为:
π(st,at)≈π(at|st;θt)
其中,at为t时刻的迁移动作;θ为使用策略迭代更新网络中的权重参数。由于策略函数的目标是最大化奖励,因此可以使用梯度上升方法计算关于奖励的期望
Figure BDA0002593552860000074
策略梯度的更新公式为:
Figure BDA0002593552860000075
上式表示奖励期望越高的动作,应该提高其概率。其中π(at|st;θt)表示在状态st下选择动作at的概率;
Figure BDA0002593552860000076
为对
Figure BDA0002593552860000077
的无偏估计。
实际上,假设每个动作的奖励值Rt均为正时(即所有的梯度值均大于或等于零),每个动作出现的概率将会随着梯度上升方法不断地被提高,上述操作很大程度上会减缓学习速率,同时使得梯度方差增大。因此本部分对上述等式增加标准化操作用于降低梯度的方差,则上述等式可更新为:
Figure BDA0002593552860000078
其中,bt(st)为在状态st时刻的基线函数。
通过奖励值Rt减去基线函数bt(st)的方式学习策略函数,可以减小该估计的方差,同时保持其无偏性。将基线函数bt设为奖励值Rt的期望估计,通过求其梯度更新参数θ,当总奖励超过基线动作,其概率会被提高,反之降低,同时还可以降低梯度方差;
在方法流程中基于价值函数的深度神经网络中,通过边缘节点的智能体观测到任务迁移到边缘节点的映射,观测包括边缘节点的计算能力,任务的数据大小,以及任务的最大容许延迟,并且可以定义本发明的动作值Q函数:
Q(st,at)≈Q(st,at;wt)
其中,Q(st,at)为单个动作所对应的价值;w为本发明的权重参数。
因此基于价值函数的深度神经网络,损失函数定义为:
Figure BDA0002593552860000081
本部分采用多步Q-learning方法中的目标动作Q值定义方法,其优点在于一个奖励r可以直接影响先前n个<状态-动作>对,能更好地模拟迁移执行的历史经验,明显提高方法学习的有效性。多步Q-learning方法中的多步是指包括计算后续n步的状态,因此本发明定义Target Q为:
Figure BDA0002593552860000082
在本发明的ACEC-DRL方法中,基于策略函数的深度神经网络和基于价值函数的深度神经网络是相同的,只是同一个网络模型的不同输出流,其在网络的输出层分别表示策略集合π和基于策略的价值集合Vπ
Figure BDA0002593552860000083
为执行动作at时的最大动作值。
将策略函数π作为演员,将基线函数bt(st)作为评论家。云-边优势函数基于演员-评论家方法的损失函数,结合竞争神经网络的特性,并根据具体的迁移场景做出调整和优化,以更好地根据奖励对动作值进行估计。在策略梯度更新的过程中,更新规则使用了折扣奖励Rt用于通知边缘节点哪些迁移决策是‘好的’,哪些迁移决策是‘不好’的。接着,进行网络更新,以确定该迁移决策的好坏程度。现定义云-边动作优势函数:
A(st,at)=Q(st,at)-V(st)
其中,状态值函数V(st)是在时间步t的状态下,所有动作值函数关于动作概率的期望;而动作值函数Q(st,at)是单个动作所对应的价值,因此等式中Q(st,at)-V(st)能评价当前动作值函数相对于平均值的大小。由于迁移策略评估目标函数中不能直接确定动作值Q,而使用折扣奖励R作为动作值Q的估计值,最终定义云-边优势函数为:
A(st,at)=R(st,at)-V(st)
其中,R(st,at)为状态st时执行迁移动作at的奖励值。
使用云-边优势函数进行估计,其好处是折扣奖励能够使边缘节点评估该迁移决策的好坏程度,并对执行该迁移决策相比于预期的结果进行评估。
将上述三个部分内容融合到ACEC-DRL方法框架中,可得到相应任务的最优迁移决策,返回给用户层相应的终端去执行。除此之外,并将边缘节点上反馈的动作值函数累计梯度和策略函数累计梯度推送到云端,云端根据各个边缘节点的反馈来更新网络参数,并将新的网络参数下发到各个边缘节点,不断循环,直到学习出理想的网络参数为止。
上述技术方案设计基于深度强化学习的方法,针对当前基于精确方法或基于数学规划的近似方法来求解相应的计算迁移优化问题,在大数据场景下求解复杂组合优化问题显得力不从心,主要表现为采用传统梯度优化方法存在收敛速度慢的缺点,在处理大规模数据时方法耗时长,难以适应大数据网络数据处理时效性需求,例如:在一个实际场景中,如果需要同时处理100个任务,精确求解方法就已经无法在合理的时间内求解出满意的解;同时,上述求解方法难以基于边缘计算实际场景中动态变化的负载做出自适应的迁移决策。通过采用基于智能优化的近似方法,为上述问题的解决提供了一个很好的途径。本发明设计基于边缘云中边缘节点所处环境的差异性,ACEC-DRL方法能自适应地调整迁移策略以有效降低样本的相关性;同时,提出异步多线程的方法代替传统的经验回放机制,避免了边缘云的高内存开销;此外,构建能更好反馈迁移动作奖励值的云边优势函数代替传统的损失函数,使得ACEC-DRL方法能更快速的获得最优迁移决策。
基于上述本发明设计基于深度强化学习的云边协同计算迁移方法在实际过程中的应用,如图3所示本发明设计方法在云端深度神经网络损失函数的收敛性能,从图中可以发现损失函数的值在前200次迭代急剧下降,然后在600次迭代内基本达到稳定值。这主要因为在一开始执行的动作对于奖励值影响较大,所以损失函数值会急剧下降,接着随着迭代次数的增加,逐步缓慢逼近最优值,最终会学习到最优的神经网络参数。图4展现了云端深度神经网络在接收到边缘节点的反馈后优势函数的收敛性能,从图中可以发现每一次接收到新的边缘节点参数梯度后,优势函数在300次左右的迭代达到稳定值。因此验证了云端深度神经网络模型每一次接收到边缘节点的参数梯度反馈后,能在有限的迭代次数内达到优势函数收敛,从而学习出理想的网络参数。
图5评估了在云端深度神经网络中不同的学习率对于奖励值的影响,从图中可以发现:1)随着学习率的降低,奖励值的收敛逐渐缓慢,这是因为学习率过小,从而每次迭代优化的效率过低,所以云端深度神经网络中的学习率不能过低;2)当学习率越大时,随着迭代次数的增加,可能会越过最优值,从而造成在最优值附近震荡。因此云端深度神经网络中的学习率既不能太低,亦不能太高。依据多次的仿真结果,本发明最后选择的学习率为0.001。图6表示不同数量的边缘节点对于奖励值的影响。从图中可以看出,随着边缘节点数量的增加,奖励值收敛的越快,这是因为云端深度神经网络在同一时间内收集到的边缘节点经验越多,能更快的学习出理想的神经网络参数,达到最大的奖励值。因此在实际场景中,部署更多的边缘节点,有利于降低用户任务迁移的成本以及能更快的得到最优的迁移策略。
基于上述本发明设计基于深度强化学习的云边协同计算迁移方法在与其它方法比较时,图7为本发明设计方法(ACEC-DRL)相较于全部迁移计算、本地计算、贪心方法和深度Q网络(Deep Q-Network,DQN)方法的总成本与计算任务数量的关系,从图中可得出如下结论:1)随着计算任务数量的增加,所有方法的计算成本都不断增加;2)一开始任务量比较小时,全部本地计算、贪心方法、DQN方法和ACEC-DRL方法成本相同,这是因为当计算任务量没有超过本地计算能力时,都会选择全部本地计算;3)整体上,全部迁移的成本最高,本地计算其次,再者是DQN方法,而本发明提出的ACEC-DRL方法最逼近贪心方法的总成本。因为贪心方法获得最优迁移决策过程的时间和能耗远比提出的ACEC-DRL方法要高的多,不符合实际应用,特别不适用于复杂大数据场景,所以本发明提出的ACEC-DRL方法具有极大的性能优越性。
图8为本发明设计方法(ACEC-DRL)相较于全部迁移计算、本地计算、贪心方法和DQN方法的总成本与边缘节点计算能力的关系,从图中可得出如下结论:1)随着边缘节点计算能力的增加,本地计算的成本是不受影响的,因为本地计算与边缘节点的计算能力无关;2)随着边缘节点计算能力的增加,全部迁移计算的成本逐渐减小,到达一定的计算能力时,则小于本地计算的成本,因为随着边缘节点计算能力的增长,其迁移计算的时间在减少,导致其总成本降低;3)本发明提出的ACEC-DRL方法更优于DQN方法且总成本十分逼近贪心方法的总成本,相比与贪心方法在大数据处理方面的局限性和高成本,ACEC-DRL方法能低延迟和低能耗地处理大数据,因此可以得到本发明设计的ACEC-DRL方法优于其他四种计算迁移方法。
综合上述结果,本发明设计的ACEC-DRL方法在任务量不同以及边缘节点计算能力不同的场景中都拥有较好的鲁棒性,不受环境动态变化的影响,能依据接收到的任务,快速自适应地做出最优的迁移决策,并使得所有用户任务执行的延迟和能耗总成本最小。

Claims (6)

1.一种基于深度强化学习的云边协同计算迁移方法,其特征在于,包括以下步骤:
(1)构建由用户层、边缘云层和云层组成的移动边缘网络计算迁移模型;
(2)边缘云层内的边缘云节点接收到用户层迁移的计算任务,根据任务分配宽带和计算资源;
所述步骤(2)的具体包括以下步骤:
(21)当多个用户有任务需要计算时,首先确定任务的最大容许延迟,以及本地计算的时间;若本地计算的时间j∈{0,1,2,···,M}大于最大容许延迟,将发送任务迁移请求,把需要计算的任务数据大小发送给边缘节点,边缘节点在边缘云中同步该用户的信息,生成如下的任务表格:
Fij={xijijij,Di,Ti tol}
其中,xij表示计算任务在本地执行还是被迁移;λij表示边缘节点j分配给用户i的带宽占比,βij表示边缘节点j分配给用户i的计算资源占比;Ti tol表示用户终端i的最大容许延迟;其中i∈{1,2,···,N}Di;j表示第j个边缘节点,当j=0时,特指用户终端本身;
(22)边缘节点在边缘云下同步更新和维护上述任务表格,根据全部任务生成的表格可以得到总任务集F:
F={Fij|i∈{1,2,···,N},j∈{0,1,2,···,M}}
(23)总任务集F形成在边缘云中的所有边缘节点中,基于总任务集F得到所有任务的迁移决策,从而计算出各个任务相应的处理成本;
(3)以计算任务的时延和能耗的权重和最小作为优化目标,构建目标函数和约束;
所述步骤(3)中的目标函数为:
Figure FDA0003043940740000011
其中,目标函数即为最小化全部任务完成时间与用户端能耗的权重和,用总成本C表示;zij为用户i是否选择边缘节点j进行计算迁移;xij表示用户终端选择迁移计算还是本地计算;λij表示边缘节点j分配给用户i的带宽占比;
Figure FDA0003043940740000012
为本地计算成本;
Figure FDA0003043940740000013
为迁移计算成本;
所述步骤(3)中的约束条件包括:
(31)无论是选择本地计算所产生的延迟还是选择迁移计算产生的延迟都不能大于用户对任务执行所能容忍的最大延迟,公式如下:
Figure FDA0003043940740000021
其中,xij表示用户终端选择迁移计算还是本地计算;
Figure FDA0003043940740000022
为本地计算时间;
Figure FDA0003043940740000023
为迁移计算时间;
(32)节点j分配给各个任务的带宽占比和必须小于或等于1,即迁移到边缘节点的所有用户任务占用的带宽和要小于或等于边缘节点的最大带宽,本地用户的带宽分配也是如此,公式如下:
Figure FDA0003043940740000024
其中,zij为是否迁移选择,λij为带宽分配比;
(33)所有迁移到边缘节点或在本地执行的任务CPU占比之和小于或等于1,公式如下:
Figure FDA0003043940740000025
其中,zij为是否迁移选择;βij为CPU占比;
(34)变量zij的取值约束:当zij=0表示任务i并未选择节点j进行计算,当zij=1表示任务i选择j节点执行计算,公式如下:
zij∈{0,1};
(4)构建深度神经网络模型,采用异步云边协同深度强化学习的方法对目标函数进行优化,得到最优的迁移决策,并返回用户层的终端执行该决策;
所述步骤(4)的优化过程具体包括以下步骤:
(41)定义状态空间为:
St=(Cij(t))
其中,Cij(t)表示时隙t时用户i的任务迁移至边缘节点j计算的总成本;St为环境状态;
定义动作空间为:
At=(zij(t),λij(t),βij(t))
其中,zij(t)表示t时刻用户i选择边缘节点j进行迁移;λij(t)表示t时刻边缘节点j分配给用户i的带宽占比;βij(t)表示t时刻边缘节点j分配给用户i的CPU占比;
定义奖励函数为:
Figure FDA0003043940740000031
其中,v为具体环境决定的奖励值;rt ij表示用户i选择边缘节点j进行迁移在时刻t时的奖励值;
Figure FDA0003043940740000032
表示用户i选择边缘节点j进行迁移在时刻t-1时的奖励值;Cij(t-1)表示时隙t-1时用户i的任务迁移至边缘节点j计算的总成本;
(42)为了将边缘节点智能体中的各种观测结果融入深度神经网络中,定义策略函数为:
π(st,at)≈π(at|st;θt)
其中,at为t时刻的迁移动作;θt为使用策略迭代更新网络中的权重参数;
采用梯度上升方法计算关于奖励的期望E[Rt],则策略梯度公式为:
Figure FDA0003043940740000033
其中,Rt为每个动作的奖励值;π(at|st;θt)表示在状态st下选择动作at的概率;
Figure FDA0003043940740000034
为对
Figure FDA0003043940740000035
的无偏估计;
(43)通过边缘节点的智能体观测到任务迁移到边缘节点的映射,观测包括边缘节点的计算能力,任务的数据大小,以及任务的最大容许延迟,采用多步Q-learning方法中的目标动作Q值定义方法,因此定义动作值Q函数为:
Q(st,at)≈Q(st,at;wt)
其中,Q(st,at)为单个动作所对应的价值;w为本发明的权重参数;
因此基于价值函数的深度神经网络,损失函数定义为:
Figure FDA0003043940740000036
其中
Figure FDA0003043940740000037
为上一次迭代的权重值;
多步Q-learning方法中的多步是指包括计算后续n步的状态,因此本发明定义TargetQ为:
Figure FDA0003043940740000038
其中γ为衰减因子;rt,rt+1...rt+n-1分别表示进行迁移在时刻t,t+1...t+n-1时的奖励值;
Figure FDA0003043940740000039
为执行动作at时的最大动作值;
(44)采用折扣奖励用于通知边缘节点迁移决策的优劣;然后进行网络更新,以确定该迁移决策的优劣程度;
定义云-边动作优势函数为:
A(st,at)=Q(st,at)-V(st)
其中,状态值函数V(st)是在时间步t的状态下,所有动作值函数关于动作概率的期望;
采用折扣奖励R作为动作值Q的估计值,最终定义云-边优势函数为:
A(st,at)=R(st,at)-V(st)
其中,R(st,at)为状态st时执行迁移动作at的奖励值。
2.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法,其特征在于,对所述步骤(42)中期望E[Rt]公式增加标准化操作,用于降低梯度的方差,则该式可更新为:
Figure FDA0003043940740000041
其中,bt(st)为在状态st时刻的基线函数。
3.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法,其特征在于,所述步骤(1)的用户层由N个用户终端组成,这些设备被部署在指定的区域内,用于感知是否有计算任务产生;且当终端中需要处理的任务数据超出本地的计算能力,就会向边缘云发送计算请求。
4.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法,其特征在于,所述步骤(1)的边缘云层由M个边缘节点组成;每个边缘节点的功能包括:
(11)生成迁移决策:当边缘节点接收到用户层的计算请求时,会结合边缘云中所有节点的带宽和计算资源的分配情况,生成最优的迁移决策,然后将迁移决策发送给对应用户层的用户终端;
(12)计算迁移和数据处理:当用户层用户终端接收到对应的迁移决策,用户终端从本地将需要计算的数据发送给对应的边缘节点,边缘节点通过计算再将对应的结果发送回对应的用户终端。
5.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法,其特征在于,所述步骤(1)的云层为服务器,云层收集每个时间段内的所有历史任务信息,模拟用户层与边缘云层的交互过程,生成更优的迁移决策,并将优化后的神经网络参数梯度返回给对应的边缘节点。
6.根据权利要求1所述的基于深度强化学习的云边协同计算迁移方法,其特征在于,所述步骤(22)中的同步在边缘节点每次做出任务迁移决策后,更新表格信息,并广播给同一边缘云下的所有边缘节点。
CN202010702969.9A 2020-07-21 2020-07-21 一种基于深度强化学习的云边协同计算迁移方法 Active CN112134916B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010702969.9A CN112134916B (zh) 2020-07-21 2020-07-21 一种基于深度强化学习的云边协同计算迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010702969.9A CN112134916B (zh) 2020-07-21 2020-07-21 一种基于深度强化学习的云边协同计算迁移方法

Publications (2)

Publication Number Publication Date
CN112134916A CN112134916A (zh) 2020-12-25
CN112134916B true CN112134916B (zh) 2021-06-11

Family

ID=73850257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010702969.9A Active CN112134916B (zh) 2020-07-21 2020-07-21 一种基于深度强化学习的云边协同计算迁移方法

Country Status (1)

Country Link
CN (1) CN112134916B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112291793B (zh) * 2020-12-29 2021-04-06 北京邮电大学 网络接入设备的资源分配方法和装置
CN112804103B (zh) * 2021-01-13 2023-06-23 南京邮电大学 区块链赋能物联网中联合资源分配与控制的智能计算迁移方法
CN112822055B (zh) * 2021-01-21 2023-12-22 国网河北省电力有限公司信息通信分公司 一种基于dqn的边缘计算节点部署方法
CN112867066B (zh) * 2021-01-26 2022-07-29 南京邮电大学 基于5g多小区深度强化学习的边缘计算迁移方法
CN112764932B (zh) * 2021-01-27 2022-12-02 西安电子科技大学 基于深度强化学习的计算密集型工作负载高能效分配方法
CN112799843B (zh) * 2021-02-01 2023-12-29 中国地质大学(北京) 一种基于边缘计算的在线自适应服务配置优化方法及装置
CN113015196B (zh) * 2021-02-23 2022-05-06 重庆邮电大学 一种基于状态感知的网络切片故障愈合方法
CN112948114B (zh) * 2021-03-01 2023-11-10 中国联合网络通信集团有限公司 边缘计算方法和边缘计算平台
CN113163409B (zh) * 2021-03-16 2022-09-20 重庆邮电大学 一种基于人工智能的移动边缘计算服务放置方法
CN113067873B (zh) * 2021-03-19 2022-08-30 北京邮电大学 基于深度强化学习的边云协同优化方法
CN113205241A (zh) * 2021-03-25 2021-08-03 广东电网有限责任公司东莞供电局 一种监控数据实时处理方法、非暂态可读记录媒体及数据处理系统
CN113052312B (zh) * 2021-03-31 2024-08-13 北京字节跳动网络技术有限公司 深度强化学习模型的训练方法、装置、介质及电子设备
CN113033026B (zh) * 2021-04-26 2022-03-15 上海交通大学 一种具有可观性保证的工业边缘感知方法
CN113176947B (zh) * 2021-05-08 2024-05-24 武汉理工大学 无服务器计算中基于延迟和成本均衡的动态任务放置方法
CN113326002A (zh) * 2021-05-22 2021-08-31 清华大学 基于计算迁移的云边协同控制系统及迁移决策生成方法
CN113364850B (zh) * 2021-06-01 2023-02-14 苏州路之遥科技股份有限公司 软件定义云边协同网络能耗优化方法和系统
CN113543074B (zh) * 2021-06-15 2023-04-18 南京航空航天大学 一种基于车路云协同的联合计算迁移和资源分配方法
CN113342781B (zh) * 2021-06-29 2023-07-11 深圳前海微众银行股份有限公司 一种数据迁移的方法、装置、设备及存储介质
CN113572832B (zh) * 2021-07-21 2022-06-10 广东工业大学 一种基于端边云及深度强化学习的无人机械协作方法
CN113568727B (zh) * 2021-07-23 2024-05-10 湖北工业大学 一种基于深度强化学习的移动边缘计算任务分配方法
CN113784373B (zh) * 2021-08-24 2022-11-25 苏州大学 云边协同网络中时延和频谱占用联合优化方法及系统
CN113836796B (zh) * 2021-09-08 2024-08-02 清华大学 一种基于云边协同的配电物联网数据监测系统及调度方法
CN113641504B (zh) * 2021-09-24 2023-09-01 天津大学 用于提升多智能体强化学习边缘计算效果的信息交互方法
CN113835894B (zh) * 2021-09-28 2024-03-26 南京邮电大学 一种基于双延迟深度确定性策略梯度的智能计算迁移方法
US11483381B1 (en) 2021-10-21 2022-10-25 International Business Machines Corporation Distributing cloud migration
CN114143212B (zh) * 2021-11-26 2022-09-16 天津大学 一种面向智慧城市的社会化学习方法
CN114466385B (zh) * 2022-01-12 2024-06-25 中南大学 基于用户移动感知的无缝服务迁移方法及计算机系统
CN115022313A (zh) * 2022-04-19 2022-09-06 湖南宝马文化传播有限公司 一种云架构下的数据迁移方法及系统
CN115686779B (zh) * 2022-10-14 2024-02-09 兰州交通大学 基于dqn的自适应边缘计算任务调度方法
CN115914227B (zh) * 2022-11-10 2024-03-19 国网重庆市电力公司电力科学研究院 一种基于深度强化学习的边缘物联网代理资源分配方法
CN116828055A (zh) * 2022-12-14 2023-09-29 慧之安信息技术股份有限公司 基于云边协同的传统仪表监控系统
CN116489711A (zh) * 2023-04-25 2023-07-25 北京交通大学 一种基于深度强化学习的边缘计算网络的任务迁移方法
CN116489712B (zh) * 2023-04-25 2024-02-09 北京交通大学 一种基于深度强化学习的移动边缘计算任务卸载方法
CN117195728A (zh) * 2023-09-12 2023-12-08 重庆理工大学 一种基于图到序列强化学习的复杂移动任务部署方法
CN117997902B (zh) * 2024-04-07 2024-06-07 中国地质大学(北京) 一种基于云边协同的数据分配方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347495A (zh) * 2019-07-24 2019-10-18 张�成 一种使用深度强化学习进行移动边缘计算的任务迁移方法
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
CN111158912A (zh) * 2019-12-30 2020-05-15 天津大学 云雾协同计算环境下一种基于深度学习的任务卸载决策方法
CN111309393A (zh) * 2020-01-22 2020-06-19 南京邮电大学 一种云边端协同应用卸载算法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108156226A (zh) * 2017-12-15 2018-06-12 南京邮电大学 一种云雾融合的工业物联网认知能源管理系统及计算方法
CN108259830B (zh) * 2018-01-25 2019-08-23 深圳冠思大数据服务有限公司 基于云服务器的鼠患智能监控系统和方法
CN110010219B (zh) * 2019-03-13 2021-12-10 杭州电子科技大学 光学相干层析图像视网膜病变智能检测系统及检测方法
CN111367657B (zh) * 2020-02-21 2022-04-19 重庆邮电大学 一种基于深度强化学习的计算资源协同合作方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347495A (zh) * 2019-07-24 2019-10-18 张�成 一种使用深度强化学习进行移动边缘计算的任务迁移方法
CN110493826A (zh) * 2019-08-28 2019-11-22 重庆邮电大学 一种基于深度强化学习的异构云无线接入网资源分配方法
CN111158912A (zh) * 2019-12-30 2020-05-15 天津大学 云雾协同计算环境下一种基于深度学习的任务卸载决策方法
CN111309393A (zh) * 2020-01-22 2020-06-19 南京邮电大学 一种云边端协同应用卸载算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Online deep reinforcement learning for computation offloading in blockchain-Empowered mobile edge computing;Xiaoyu Qiu 等;《IEEE》;20190620;第8050-5060页 *
基于深度学习的能量高效雾计算迁移研究;汤蓓 等;《南京邮电大学学报(自然科学版)》;20200430;第101-106页 *

Also Published As

Publication number Publication date
CN112134916A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN112134916B (zh) 一种基于深度强化学习的云边协同计算迁移方法
CN111556461B (zh) 一种基于深度q网络的车载边缘网络任务分发卸载方法
CN111953758B (zh) 一种边缘网络计算卸载和任务迁移方法及装置
CN110427261A (zh) 一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法
CN109818786B (zh) 一种云数据中心应用可感知的分布式多资源组合路径最优选取方法
CN113326002A (zh) 基于计算迁移的云边协同控制系统及迁移决策生成方法
CN110784366B (zh) Sdn中基于immac算法的交换机迁移方法
Chen et al. Service migration for mobile edge computing based on partially observable Markov decision processes
CN112905315A (zh) 移动边缘计算mec网络中的任务处理方法、装置及设备
CN113543160A (zh) 5g切片资源配置方法、装置、计算设备及计算机存储介质
CN115065678A (zh) 一种基于深度强化学习的多智能设备任务卸载决策方法
CN116209084A (zh) 一种能量收集mec系统中任务卸载和资源分配方法
Laboni et al. A hyper heuristic algorithm for efficient resource allocation in 5G mobile edge clouds
Li et al. Task computation offloading for multi-access edge computing via attention communication deep reinforcement learning
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
Chen et al. Twin delayed deep deterministic policy gradient-based intelligent computation offloading for IoT
Shi et al. Energy-efficient UAV-enabled computation offloading for industrial internet of things: a deep reinforcement learning approach
Wang et al. Resource allocation based on Radio Intelligence Controller for Open RAN towards 6G
CN117608806A (zh) 智能电网云边协同机制下计算任务雾-雾-云优化方法
CN117880122A (zh) 一种基于madfpg的任务卸载和资源分配联合优化方法
Zeng et al. Joint optimization of multi-dimensional resource allocation and task offloading for QoE enhancement in Cloud-Edge-End collaboration
CN117749796A (zh) 一种云边算力网络系统计算卸载方法及系统
Bravo Distributed methods for resource allocation: a passivity based approach
Suzuki et al. Safe multi-agent deep reinforcement learning for dynamic virtual network allocation
Do et al. Actor-critic deep learning for efficient user association and bandwidth allocation in dense mobile networks with green base stations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant