CN113296845A - 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法 - Google Patents

一种边缘计算环境下基于深度强化学习的多小区任务卸载算法 Download PDF

Info

Publication number
CN113296845A
CN113296845A CN202110619280.4A CN202110619280A CN113296845A CN 113296845 A CN113296845 A CN 113296845A CN 202110619280 A CN202110619280 A CN 202110619280A CN 113296845 A CN113296845 A CN 113296845A
Authority
CN
China
Prior art keywords
task
algorithm
edge
theta
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110619280.4A
Other languages
English (en)
Other versions
CN113296845B (zh
Inventor
赵海涛
姬昊
王滨
张晖
夏文超
朱洪波
张峰
王星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Nanjing University of Posts and Telecommunications
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd, Nanjing University of Posts and Telecommunications filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN202110619280.4A priority Critical patent/CN113296845B/zh
Publication of CN113296845A publication Critical patent/CN113296845A/zh
Application granted granted Critical
Publication of CN113296845B publication Critical patent/CN113296845B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]

Abstract

本发明公开一种边缘计算环境下基于深度强化学习的多小区任务卸载算法,提出了一种改进的双深度Q网络算法,并基于双深度Q网络算法进行任务卸载算法设计,并将MEC边缘控制平台作为智能体与车联网环境进行交互,旨在相同的资源下优化任务处理速率与任务执行时延,另外在复杂业务场景下,针对DQN算法中存在的过估计问题,对DQN算法中的Q值函数进行改进,提高模型选择最优卸载策略的能力,本方案可以显著的提高计算与存储资源的利用率、有效降低车辆终端的任务执行时延,大幅度提高边缘侧计算与存储资源的利用率,并且算法收敛效率高于传统的DQN算法,解决了任务的最佳卸载比例问题,能够更有效地降低任务的执行时延。

Description

一种边缘计算环境下基于深度强化学习的多小区任务卸载 算法
技术领域
本发明涉及通信技术研究技术领域,尤其是涉及一种边缘计算环境下基于深度强化学习的多小区任务卸载算法。
背景技术
随着通信与计算机技术的发展,道路上联网的车辆终端数量正在迅速增加。预计至2025年,全世界约有一半的车辆终端将会接入到互联网,产生约100万艾字节的数据量。作为物联网(Internet of Things,IoT)技术的一个典型应用方向,车联网近年来逐步朝着智能化的方向发展,智能交通系统(Intelligent Transport System,ITS)的概念也随之应运而生。通过移植至车辆终端上的智能感知、通信单元、车载单元等设备,车联网可以对道路交通信息进行全方位的感知,同时能够在智能交通系统中实时分享其采集的全部交通状态信息。在当前的车联网场景中,车辆终端可以采用V2I(Vehicle to Instruments)方式与路侧设备进行信息交互,也可以采用V2V(Vehicle to Vehicle)方式与其他车辆终端进行信息交互,随着新的通信技术的研发以及V2X(Vehicle to Everything)通信技术的大规模应用,车联网实现了与无线互联网的全面接入,朝着更加智能、更加全面、更加多样化、更加安全的方向发展,从而能够为用户生活提供更好的服务。
MEC作为一种有前景的新兴技术手段,其概念于2014年被欧洲电信标准协会正式提出,并在2016年对其进行了规范化与标准化。MEC可以在无线网络的边缘侧为用户提供计算服务以及对应的IT服务环境。在传统云计算模式中,车辆终端需要将其携带的计算任务上传至云服务器,导致任务在执行过程产生了较大的上传时延。在MEC计算模式中,车辆终端可以将计算任务迁移至部署在边缘侧的MEC服务器执行,在避免较大上传时延的同时,边缘侧MEC服务器的可用资源也远超车辆终端,其任务执行时延远低于车辆终端本地执行,从而有效拓展了车辆终端的计算能力。专利号CN111641891A公开了一种多接入边缘计算系统中的任务对等卸载方法和装置,基于用户设备本地服务器中任务延迟值来确定需要对等卸载的任务;基于遗传算法为需要对等卸载的任务选择卸载目的MEC服务器并为需要对等卸载的任务分配路由资源和频谱资源;基于比例公平方法为需要对等卸载到所述目的MEC服务器的任务和在本地MEC服务器的任务分配计算资源。然而,由于车辆终端的移动性,车联网边缘网络拓扑结构也会产生动态变化,由于无线信道的复杂性,车辆终端任务卸载决策的合理性、长期有效性成为了MEC系统的两个关键问题,尤其需要解决系统的合理建模、精准的能耗估算以及多用户卸载决策的高效制定与管理等。
发明内容
为了解决上述问题,本发明针对多小区多车辆终端场景,考虑到边缘侧MEC服务器节点匮乏的挑战,提出了一种联合优化任务动态卸载与资源调度的算法。文中首先基于排队论,以车载边缘网络中所有计算任务的执行时延之和作为优化目标建立系统模型;然后探讨了DQN算法中的过估计问题,通过Double DQN算法来缓解该问题对卸载决策制定造成的影响。最后提出了一种基于Double DQN的计算资源分配及车辆终端任务动态卸载算法。
本发明主要目的在于大幅度提高边缘侧计算与存储资源的利用率、有效降低车辆终端的任务执行时延。本方案首先建立了多小区多终端的系统模型,其次引入双深度Q网络(Double DQN)解决深度强化学习中的过估计问题,并提出了多边缘服务器场景下的基于Double DQN的任务动态卸载算法,为每个车辆终端寻找合适的小区接入并分配计算资源,从而降低系统任务的执行总时延。
本发明解决其技术问题所采取的技术方案是:先对车联网场景下的多小区多终端建模,并将问题公式化为以任务的最小执行时延,其约束为任务执行过程中的能耗为目标的最优化问题,然后为了解决传统DQN算法中的过估计问题,提出了一种改进的双深度Q网络算法,并基于双深度Q网络(Double DQN)算法进行任务卸载算法设计,并将MEC边缘控制平台作为智能体与车联网环境进行交互。本方案可以显著的提高计算与存储资源的利用率、有效降低车辆终端的任务执行时延。
为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现的:一种边缘计算环境下基于深度强化学习的多小区任务卸载算法,其特征在于,所述算法包括如下步骤:
步骤1,基于排队论对任务到达与任务卸载建立包括车辆终端、边缘服务器和小区基站的车联网环境;
步骤2,将车联网环境中的任务执行分为本地执行模式和边缘计算模式,计算边缘计算模式中车辆终端任务卸载的比例总和、任务总量、任务执行延时,以及车辆终端将任务卸载至边缘服务器的上传时延,得到任务执行总时延;
步骤3,将任务的总执行延时最小为优化目标,任务执行过程中的能耗为约束,建立优化问题;
步骤4,设计了一种双深度Q网络算法,通过使用两个网络参数θ与θ-,其中θ用来选择动作,θ-用来估计Q值,缓解传统DQN算法中的过估计问题;
步骤5,基于双深度Q网络(Double DQN)算法进行任务卸载算法设计,并将MEC边缘控制平台作为智能体与车联网环境进行交互。
进一步地,所述步骤1中车辆终端表示为k∈{1,2...K},并且每个车辆的任务到达率表示为λk bps,车辆携带的计算任务表示为Ck=(Vk,Dkk),边缘服务器集合表示为m∈{1,2...M},其中,车辆数量为k个,小区基站为m个,Vk表示任务的计算复杂度,单位为比特/轮;Dk表示任务的数据量大小,单位为比特,Γk表示任务的最大容忍时延,单位为毫秒。
进一步地,所述步骤2中,车辆终端k的任务卸载比例总和表示为
Figure BDA0003098938220000041
车辆终端k的本地执行任务总量表示为
Figure BDA0003098938220000042
车辆终端卸载至边缘服务器的任务量表示为
Figure BDA0003098938220000043
车辆终端k的任务执行时延表示为
Figure BDA0003098938220000044
车辆终端k将任务卸载至边缘服务器m的上传时延表示为
Figure BDA0003098938220000051
车辆终端k边缘计算模式下的任务执行总时延表示为
Figure BDA0003098938220000052
其中,xkm为将任务卸载至边缘服务器的比例。
进一步地,所述步骤3中的优化目标表示为:
Figure BDA0003098938220000053
其中,车辆终端k的本地计算能耗系数为βloc焦/比特,上行传输能耗系数为βupload焦/比特,边缘服务器计算能耗系数为βmec焦/比特,系统最大能耗为Econstraint
进一步地,所述步骤4中Q值的更新公示为:yt=rt+γQ'(st+1,argmaxaQ(st+1,a;θ);θ'),其中,γ为折扣因子,argmaxa表示为当前Q值网络中最大Q值对应的动作;θ为当前Q值网络的网络参数,θ'为目标Q值网络的网络参数。
进一步地,所述步骤5中的具体步骤包括如下:
步骤5-1,初始化经验池存储空间容量,随机初始化在线值网络参数θ与目标值网络参数θ',其中θ=θ';
步骤5-2,初始化放缩因子α、折扣因子γ,设定在线值网络参数与目标值网络参数的更新步长为num1,一次epoch的步长为num2;
步骤5-3,对每个循环;
步骤5-4,对状态s1进行初始化处理,得到预处理序列φ1=φ(s1);
步骤5-5,对每个循环;
步骤5-6,生成一个(0,1)之间的随机数η,如果随机概率值ε大于η,随机选择一个动作执行,否则选择潜在回报最大的动作
Figure BDA0003098938220000061
步骤5-7,执行动作,观察得到的奖励值rt以及下一步的状态st+1,并得到对应的预处理序列φt+1=φ(st+1);
步骤5-8,将向量(φt,at,rtt+1)存放于经验池中;
步骤5-9,从经验池对样本数据进行随机抽取作为在线值网络的输入,并令其输出;
步骤5-10,基于反向传播算法,根据(y-Q(φ,a;θ))2构建误差函数更新网络参数θ,令s=s';
步骤5-11,如果状态是最终状态,重启开启一次episode。
步骤5-12,如果episode迭代次数到达上限,结束小循环;
步骤5-13,延迟更新目标网络参数,每num1步令目标值网络参数θ'=θ;
步骤5-14,选择动作argmaxa执行;
步骤5-15,结束大循环。
进一步地,所述步骤5-9中,输出表示为:
Qk+1(st,at;θt)=Qk(st,at;θt)+αkEk
Figure BDA0003098938220000062
进一步地,所述步骤5中MEC边缘控制平台作为智能体与车联网环境进行交互的建模为:
首先,将边缘服务器在每个时隙开始时具备的剩余计算资源设定为系统的当前状态,表示为S(t)={s1(t),s2(t),...sm(t)};
其次,任务卸载至边缘服务器的比例值是主要优化变量,因此动作向量定义为A(t)={x1,m,x1,m,...,xK,m};
最后,将瞬时奖励表示为
Figure BDA0003098938220000071
瞬时奖励值Rs,a越大,说明当前状态的执行总时延越小,即制定的卸载决策越合理;
其中,S(t)表示系统在第t个时隙的状态空间,sm(t)表示边缘服务器m在第t个时隙的剩余计算资源,xk,m={xk,1,xk,2,...,xk,m}表示车辆终端k对所有边缘服务器的卸载比例,ts,a其中表示当前状态下任务的执行总时延,tall表示全部本地执行时的任务执行总时延。
本发明的有益效果是:
本发明提出了一种改进的双深度Q网络算法,并基于双深度Q网络(Double DQN)算法进行任务卸载算法设计,并将MEC边缘控制平台作为智能体与车联网环境进行交互。旨在相同的资源下优化任务处理速率与任务执行时延;另外在复杂业务场景下,针对DQN算法中存在的过估计问题,对DQN算法中的Q值函数进行改进,提高模型选择最优卸载策略的能力。本方案可以显著的提高计算与存储资源的利用率、有效降低车辆终端的任务执行时延,大幅度提高边缘侧计算与存储资源的利用率,并且算法收敛效率高于传统的DQN算法,解决了任务的最佳卸载比例问题,提出的算法较传统的DQN任务卸载算法能够更有效地降低任务的执行时延。
附图说明
图1为车辆终端的任务处理模型。
具体实施方式
下面结合附图1对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
考虑到车联网边缘环境中计算资源分布配置的情况,我们假定每个基站连接一个服务器用于执行车辆终端卸载的计算任务,基站与服务器之间可以通过有线通信的方式传输任务。另外,我们假定由MEC边缘控制平台来统一管理所有边缘服务器的网络与计算资源,并根据当前时刻每个边缘服务器的资源占用情况来做出合理的资源分配与卸载决策。最后在任务动态到达的背景下研究如何有效利用各小区的计算、存储与网络资源,从而使所有终端携带的任务执行总时延最小。
如图1所示,我们考虑一个包括K个车辆和M个小区基站的车联网环境,其中每个小区基站通过有线通信的方式连接一台高性能边缘服务器。车辆终端表示为k∈{1,2...K},并且每个车辆的任务到达率表示为λk bps(bit per second,比特每秒),车辆携带的计算任务表示为Ck=(Vk,Dkk),其中Vk表示任务的计算复杂度,单位为比特/轮;Dk表示任务的数据量大小,单位为比特,Γk表示任务的最大容忍时延,单位为毫秒。
边缘服务器集合表示为m∈{1,2...M},假定每个服务器的处理器核心数目为cm,每个处理器核心的计算能力表示为fm bps。车辆终端可以根据能耗与任务执行时延等情况做出对应的卸载决策,在此假设所有任务都是不可被切分的,并且只能在MEC服务器或者本地执行。
车辆终端有两种任务执行模式,分别是本地执行模式与边缘计算模式。本方案假定车辆终端在进行任务卸载时以单个任务为单位,即同一个任务车辆终端要么在本地执行,要么全部卸载至边缘服务器处理,每次卸载的数据量大小为Dk
车辆终端k的本地处理能力表示为μk,将任务卸载至边缘服务器m的比例表示为xkm,本文设定同一小区覆盖范围内所有车辆的处理能力均相同。于是,车辆终端k的任务卸载比例总和可以表示为:
Figure BDA0003098938220000091
车辆终端k的本地执行任务总量表示为:
Figure BDA0003098938220000095
任务在车辆终端k本地执行时采用M/M/1模型,如图1所示。那么任务执行时延可以表示为:
Figure BDA0003098938220000092
当车辆终端的计算任务按照λk的到达率产生时,除了按一定比例在本地执行任务,其余的均可以卸载至边缘服务器处执行。由式2可知,车辆终端卸载至边缘服务器的任务量可以表示为:
Figure BDA0003098938220000093
如图1所示,本文将边缘服务器的任务处理模型表示M/M/C队列,则边缘服务器m的单位比特任务执行时延可以表示为:
Figure BDA0003098938220000094
其中
Figure BDA0003098938220000101
因此,在边缘计算模式中,车辆终端k的任务执行时延表示如下:
Figure BDA0003098938220000102
另外,本方案将从车辆终端k到边缘服务器m的上行数据传输速率定义为:
Figure BDA0003098938220000103
同时我们仍将任务上行传输定义为一个M/M/1队列,车辆终端k将任务卸载至边缘服务器m的上传时延可以表示为:
Figure BDA0003098938220000104
综上所述,车辆终端k边缘计算模式下的任务执行总时延可以表示为:
Figure BDA0003098938220000105
在本方案中,优化目标为任务的最小执行时延,其约束为任务执行过程中的能耗。假定车辆终端k的本地计算能耗系数为βloc焦/比特,上行传输能耗系数为βupload焦/比特,边缘服务器计算能耗系数为βmec焦/比特,系统最大能耗为Econstraint。令x=[xk,m]为车辆终端卸载方案的决策向量,考虑多用户多小区场景下的动态卸载以及资源分配问题,本文的优化目标可以表示为:
Figure BDA0003098938220000111
其中约束c1.1表示任务卸载数据量大小不能超过其本身,约束c1.2、c1.3表示本地计算模式与边缘计算模式产生的时延均需要小于任务最大容忍时延,约束c1.4表示系统能耗不能超过额定值。与第三章的问题类似,式10依旧是一个NP-hard问题。在任务数量不大的时候,可以通过遍历寻找最优解。但是此问题的解空间会随着任务数量的增长而迅速增加。可以将此优化问题转化为马尔科夫决策问题,基于深度强化学习算法来解决。
目前神经网络值函数模型输出的只是一个估计值,无法准确地反映真实值,二者之间存在误差。另外由于目前的DQN算法采用的是贪婪策略来选取当前状态的最优动作,当真实值和估计值之间的误差分布均匀时,基于贪婪策略选取的动作有一定的概率不是系统当前状态下的最优动作,导致模型的收敛速度下降或者最终无法学习到一个最优的策略。
假定值函数模型在当前状态s下执行动作a后输出的估计Q值为Qestimation(s,a),目标Q值为Qtarget(s,a),
Figure BDA0003098938220000112
为目标Q值与估计Q值之间的误差,并假设其在[-η,η]为均匀分布,其中η表示为误差上限,我们可以得到:
Figure BDA0003098938220000121
另外,我们将当前状态s下执行动作a后的奖励值表示为
Figure BDA0003098938220000122
估计值与真实值的误差表示为
Figure BDA0003098938220000123
则可以得到:
Figure BDA0003098938220000124
因为
Figure BDA0003098938220000125
Figure BDA0003098938220000126
为均匀分布,所以可得
Figure BDA0003098938220000127
因此
Figure BDA0003098938220000128
我们由此可以得到一个结论:当
Figure BDA0003098938220000129
时,对于系统在状态s下执行的任何动作a来说,都不可避免地导致
Figure BDA00030989382200001210
,即Qestimation(s,a)>Qtarget(s,a),从而产生了过估计问题。下面我们针对该问题进行优化,以保证DQN算法的有效性。
传统DQN算法中主要是通过计算出最优状态-动作值函数Q*(s,a)来选择当前状态s下的最优动作a。因此一旦值函数模型误差过大,就会导致次优动作的状态-动作值函数大于最优动作,从而导致系统学习到的策略不是最优策略。因此一种改进的方法是双深度Q网络算法,通过使用两个网络参数θ与θ-,其中θ用来选择动作,θ-用来估计Q值,缓解传统DQN算法中的过估计问题。
以下是双深度Q网络算法设计内容。
(1)激活函数与优化算法
双深度Q网络(Double DQN)隐藏层中的输入值由激活函数决定,从而对模型的性能产生直接影响。综合考虑Tanh(值范围为-1至1的双切函数)、整流线性单元(Relu)以及Sigmoid函数(生物学常见的S型函数)等三种激活函数,本方案最终采用Sigmoid函数作为网络的激活函数。
Double DQN中影响模型性能的另一个因素为优化算法。在传统的Double DQN中采用的是均方根投影(RMSProp)。目前部分新的优化算法得到了更广泛的应用,如梯度下降(Gradient Descent,GD)、Adam(动量和RMSProp相结合的优化算法)以及AdaGrad(自适应梯度)等,其中Adam方法在大部分场景中性能表现都比较优秀,相比于其他的随机优化算法具有更大的优势,因此本文采用Adam优化算法。
(2)双Q网络
作为Double DQN的核心技术,双Q网络不仅能够减少目标Q值和当前Q值的相关性,同时能将更新目标Q值的动作选择和目标Q值的计算相解耦,从而避免状态-动作值的过估计,加快算法的收敛速度。传统的Q-learning算法与DQN算法中都会出现不正常的高状态-动作值,Double DQN算法缓解过估计问题的具体原理描述如下:传统的DQN算法在目标Q网络中寻找每个动作对应的最大Q值,而Double DQN算法首先在当前Q网络中寻找最大Q值相对应的动作,接着利用该选出的动作在目标Q网络中计算对应的目标Q值。Double DQN算法的两个Q值网络的结构完全相同,但是目标Q网络的网络参数不必时刻更新,只需要间隔特定迭代次数,从当前Q网络将参数复制给目标Q网络即可。其中目标Q值的更新公式如下:
yt=rt+γQ'(st+1,argmaxaQ(st+1,a;θ);θ') (13)
其中,γ为折扣因子,argmaxa表示为当前Q值网络中最大Q值对应的动作;θ为当前Q值网络的网络参数,θ'为目标Q值网络的网络参数。
Double DQN算法的训练本质是经过大量迭代后,使得当前Q值能够无限接近目标Q值,从而使得两者之间的误差逐渐减小并接近于0。此时,算法迭代过程基本结束,即达到了最终收敛状态。损失函数可以定位为下式:
Loss(θ)=E[(yt-Q(st,a;θ))]2 (14)
我们基于双深度Q网络(Double DQN)算法进行任务卸载算法设计,并将MEC边缘控制平台作为智能体与车联网环境进行交互。首先我们对强化学习三要素进行建模。
(1)状态
在本文中,由于边缘服务器剩余的计算资源是随着车辆终端卸载决策的变化而变化的,因此将边缘服务器在每个时隙开始时具备的剩余计算资源设定为系统的当前状态,表示为:
S(t)={s1(t),s2(t),...sm(t)} (15)
S(t)表示系统在第t个时隙的状态空间,sm(t)表示边缘服务器m在第t个时隙的剩余计算资源。
表1基于Double DQN的任务动态卸载算法流程说明
Figure BDA0003098938220000141
Figure BDA0003098938220000151
(2)动作DQN算法的核心迭代算法为Q学习算法。由式1可知,本方案的主要优化变量是任务卸载至边缘服务器的比例值,因此将动作向量定义为:
A(t)={x1,m,x1,m,...,xK,m} (16)
其中xk,m={xk,1,xk,2,...,xk,m},表示车辆终端k对所有边缘服务器的卸载比例。
(3)奖励
MEC边缘控制平台可以通过奖励值的累积期望来对未来动作进行规划,从而制定出合理的卸载决策,其目标是最大化当前奖励值。综合考虑本方案的应用场景,我们将瞬时奖励表示为:
Figure BDA0003098938220000161
ts,a其中表示当前状态下任务的执行总时延,tall表示全部本地执行时的任务执行总时延。瞬时奖励值Rs,a越大,说明当前状态的执行总时延越小,即制定的卸载决策越合理。
另外,Double DQN算法根据式18,在消除过估计问题的同时,可以实现对状态动作的更新。
Figure BDA0003098938220000162
基于Double DQN的任务动态卸载算法流程描述如表1所示。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种边缘计算环境下基于深度强化学习的多小区任务卸载算法,其特征在于,所述算法包括如下步骤:
步骤1,基于排队论对任务到达与任务卸载建立包括车辆终端、边缘服务器和小区基站的车联网环境;
步骤2,将车联网环境中的任务执行分为本地执行模式和边缘计算模式,计算边缘计算模式中车辆终端任务卸载的比例总和、任务总量、任务执行延时,以及车辆终端将任务卸载至边缘服务器的上传时延,得到任务执行总时延;
步骤3,将任务的总执行延时最小为优化目标,任务执行过程中的能耗为约束,建立优化问题;
步骤4,设计了一种双深度Q网络算法,通过使用两个网络参数θ与θ-,其中θ用来选择动作,θ-用来估计Q值,缓解传统DQN算法中的过估计问题;
步骤5,基于双深度Q网络(Double DQN)算法进行任务卸载算法设计,并将MEC边缘控制平台作为智能体与车联网环境进行交互。
2.根据权利要求1所述的一种边缘计算环境下基于深度强化学习的多小区任务卸载算法,其特征在于,所述步骤1中车辆终端表示为k∈{1,2...K},并且每个车辆的任务到达率表示为λkbps,车辆携带的计算任务表示为Ck=(Vk,Dkk),边缘服务器集合表示为m∈{1,2...M},其中,车辆数量为k个,小区基站为m个,Vk表示任务的计算复杂度,单位为比特/轮;Dk表示任务的数据量大小,单位为比特,Γk表示任务的最大容忍时延,单位为毫秒。
3.根据权利要求1所述的一种边缘计算环境下基于深度强化学习的多小区任务卸载算法,其特征在于,所述步骤2中,车辆终端k的任务卸载比例总和表示为
Figure FDA0003098938210000021
车辆终端k的本地执行任务总量表示为
Figure FDA0003098938210000022
车辆终端卸载至边缘服务器的任务量表示为
Figure FDA0003098938210000023
车辆终端k的任务执行时延表示为
Figure FDA0003098938210000024
车辆终端k将任务卸载至边缘服务器m的上传时延表示为
Figure FDA0003098938210000025
车辆终端k边缘计算模式下的任务执行总时延表示为
Figure FDA0003098938210000026
其中,xkm为将任务卸载至边缘服务器的比例。
4.根据权利要求1所述的一种边缘计算环境下基于深度强化学习的多小区任务卸载算法,其特征在于,所述步骤3中的优化目标表示为:
Figure FDA0003098938210000027
Figure FDA0003098938210000028
Figure FDA0003098938210000029
Figure FDA00030989382100000210
Figure FDA00030989382100000211
其中,车辆终端k的本地计算能耗系数为βloc焦/比特,上行传输能耗系数为βupload焦/比特,边缘服务器计算能耗系数为βmec焦/比特,系统最大能耗为Econstraint
5.根据权利要求1所述的一种边缘计算环境下基于深度强化学习的多小区任务卸载算法,其特征在于,所述步骤4中Q值的更新公示为:yt=rt+γQ'(st+1,argmaxaQ(st+1,a;θ);θ'),其中,γ为折扣因子,argmaxa表示为当前Q值网络中最大Q值对应的动作;θ为当前Q值网络的网络参数,θ'为目标Q值网络的网络参数。
6.根据权利要求1所述的一种边缘计算环境下基于深度强化学习的多小区任务卸载算法,其特征在于,所述步骤5中的具体步骤包括如下:
步骤5-1,初始化经验池存储空间容量,随机初始化在线值网络参数θ与目标值网络参数θ',其中θ=θ';
步骤5-2,初始化放缩因子α、折扣因子γ,设定在线值网络参数与目标值网络参数的更新步长为num1,一次epoch的步长为num2;
步骤5-3,对每个循环;
步骤5-4,对状态s1进行初始化处理,得到预处理序列φ1=φ(s1);
步骤5-5,对每个循环;
步骤5-6,生成一个(0,1)之间的随机数η,如果随机概率值ε大于η,随机选择一个动作执行,否则选择潜在回报最大的动作
Figure FDA0003098938210000031
步骤5-7,执行动作,观察得到的奖励值rt以及下一步的状态st+1,并得到对应的预处理序列φt+1=φ(st+1);
步骤5-8,将向量(φt,at,rtt+1)存放于经验池中;
步骤5-9,从经验池对样本数据进行随机抽取作为在线值网络的输入,并令其输出;
步骤5-10,基于反向传播算法,根据(y-Q(φ,a;θ))2构建误差函数更新网络参数θ,令s=s';
步骤5-11,如果状态是最终状态,重启开启一次episode。
步骤5-12,如果episode迭代次数到达上限,结束小循环;
步骤5-13,延迟更新目标网络参数,每num1步令目标值网络参数θ'=θ;
步骤5-14,选择动作argmaxa执行;
步骤5-15,结束大循环。
7.根据权利要求6所述的一种边缘计算环境下基于深度强化学习的多小区任务卸载算法,其特征在于,所述步骤5-9中,输出表示为:
Qk+1(st,at;θt)=Qk(st,at;θt)+αkEk
Figure FDA0003098938210000041
8.根据权利要求1所述的一种边缘计算环境下基于深度强化学习的多小区任务卸载算法,其特征在于,所述步骤5中MEC边缘控制平台作为智能体与车联网环境进行交互的建模为:
首先,将边缘服务器在每个时隙开始时具备的剩余计算资源设定为系统的当前状态,表示为S(t)={s1(t),s2(t),...sm(t)};
其次,任务卸载至边缘服务器的比例值是主要优化变量,因此动作向量定义为A(t)={x1,m,x1,m,...,xK,m};
最后,将瞬时奖励表示为
Figure FDA0003098938210000042
瞬时奖励值Rs,a越大,说明当前状态的执行总时延越小,即制定的卸载决策越合理;
其中,S(t)表示系统在第t个时隙的状态空间,sm(t)表示边缘服务器m在第t个时隙的剩余计算资源,xk,m={xk,1,xk,2,...,xk,m}表示车辆终端k对所有边缘服务器的卸载比例,ts,a其中表示当前状态下任务的执行总时延,tall表示全部本地执行时的任务执行总时延。
CN202110619280.4A 2021-06-03 2021-06-03 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法 Active CN113296845B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110619280.4A CN113296845B (zh) 2021-06-03 2021-06-03 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110619280.4A CN113296845B (zh) 2021-06-03 2021-06-03 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法

Publications (2)

Publication Number Publication Date
CN113296845A true CN113296845A (zh) 2021-08-24
CN113296845B CN113296845B (zh) 2022-10-14

Family

ID=77326991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110619280.4A Active CN113296845B (zh) 2021-06-03 2021-06-03 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法

Country Status (1)

Country Link
CN (1) CN113296845B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821346A (zh) * 2021-09-24 2021-12-21 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN114035858A (zh) * 2021-10-27 2022-02-11 哈尔滨工业大学 基于深度强化学习的无小区大规模mimo下移动边缘计算的分布式计算卸载方法
CN114090108A (zh) * 2021-09-16 2022-02-25 北京邮电大学 算力任务执行方法、装置、电子设备及存储介质
CN114201292A (zh) * 2021-11-26 2022-03-18 北京邮电大学 一种道路网络临近检测方法及装置
CN114385272A (zh) * 2022-03-24 2022-04-22 山东省计算中心(国家超级计算济南中心) 面向海洋任务的在线自适应计算卸载方法及系统
CN114490057A (zh) * 2022-01-24 2022-05-13 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN114615265A (zh) * 2022-03-09 2022-06-10 浙江工业大学 边缘计算环境下基于深度强化学习的车载任务卸载方法
CN114640966A (zh) * 2022-03-11 2022-06-17 重庆邮电大学 一种车联网中基于移动边缘计算的任务卸载方法
CN114826454A (zh) * 2022-04-25 2022-07-29 南京邮电大学 一种mec辅助的车联网通信系统中智能资源管理方法
CN115002123A (zh) * 2022-05-25 2022-09-02 西南交通大学 基于移动边缘计算的快速适应任务卸载系统和方法
CN115242838A (zh) * 2022-07-20 2022-10-25 重庆交通大学 一种车载边缘计算中服务协同卸载的方法
CN115686779A (zh) * 2022-10-14 2023-02-03 兰州交通大学 基于dqn的自适应边缘计算任务调度方法
CN115801829A (zh) * 2022-11-08 2023-03-14 大连海事大学 一种工业物联网中边缘自适应感知方法
CN114640966B (zh) * 2022-03-11 2024-05-10 重庆邮电大学 一种车联网中基于移动边缘计算的任务卸载方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111556461A (zh) * 2020-04-29 2020-08-18 南京邮电大学 一种基于深度q网络的车载边缘网络任务分发卸载方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111556461A (zh) * 2020-04-29 2020-08-18 南京邮电大学 一种基于深度q网络的车载边缘网络任务分发卸载方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114090108A (zh) * 2021-09-16 2022-02-25 北京邮电大学 算力任务执行方法、装置、电子设备及存储介质
CN114090108B (zh) * 2021-09-16 2024-02-06 北京邮电大学 算力任务执行方法、装置、电子设备及存储介质
CN113821346B (zh) * 2021-09-24 2023-09-05 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN113821346A (zh) * 2021-09-24 2021-12-21 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN114035858B (zh) * 2021-10-27 2024-02-20 哈尔滨工业大学 基于深度强化学习的无小区大规模mimo下移动边缘计算的分布式计算卸载方法
CN114035858A (zh) * 2021-10-27 2022-02-11 哈尔滨工业大学 基于深度强化学习的无小区大规模mimo下移动边缘计算的分布式计算卸载方法
CN114201292A (zh) * 2021-11-26 2022-03-18 北京邮电大学 一种道路网络临近检测方法及装置
CN114490057A (zh) * 2022-01-24 2022-05-13 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN114490057B (zh) * 2022-01-24 2023-04-25 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN114615265A (zh) * 2022-03-09 2022-06-10 浙江工业大学 边缘计算环境下基于深度强化学习的车载任务卸载方法
CN114640966A (zh) * 2022-03-11 2022-06-17 重庆邮电大学 一种车联网中基于移动边缘计算的任务卸载方法
CN114640966B (zh) * 2022-03-11 2024-05-10 重庆邮电大学 一种车联网中基于移动边缘计算的任务卸载方法
CN114385272A (zh) * 2022-03-24 2022-04-22 山东省计算中心(国家超级计算济南中心) 面向海洋任务的在线自适应计算卸载方法及系统
CN114385272B (zh) * 2022-03-24 2022-07-05 山东省计算中心(国家超级计算济南中心) 面向海洋任务的在线自适应计算卸载方法及系统
CN114826454A (zh) * 2022-04-25 2022-07-29 南京邮电大学 一种mec辅助的车联网通信系统中智能资源管理方法
CN114826454B (zh) * 2022-04-25 2023-10-13 南京邮电大学 一种mec辅助的车联网通信系统中智能资源管理方法
CN115002123A (zh) * 2022-05-25 2022-09-02 西南交通大学 基于移动边缘计算的快速适应任务卸载系统和方法
CN115242838B (zh) * 2022-07-20 2024-03-15 重庆交通大学 一种车载边缘计算中服务协同卸载的方法
CN115242838A (zh) * 2022-07-20 2022-10-25 重庆交通大学 一种车载边缘计算中服务协同卸载的方法
CN115686779B (zh) * 2022-10-14 2024-02-09 兰州交通大学 基于dqn的自适应边缘计算任务调度方法
CN115686779A (zh) * 2022-10-14 2023-02-03 兰州交通大学 基于dqn的自适应边缘计算任务调度方法
CN115801829B (zh) * 2022-11-08 2023-09-05 大连海事大学 一种工业物联网中边缘自适应感知方法
CN115801829A (zh) * 2022-11-08 2023-03-14 大连海事大学 一种工业物联网中边缘自适应感知方法

Also Published As

Publication number Publication date
CN113296845B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN113296845B (zh) 一种边缘计算环境下基于深度强化学习的多小区任务卸载算法
CN107766135B (zh) 移动朵云中基于粒子群和模拟退火优化的任务分配方法
CN112512056B (zh) 一种移动边缘计算网络中多目标优化的计算卸载方法
CN111586720B (zh) 一种多小区场景下的任务卸载和资源分配的联合优化方法
CN112737837B (zh) 一种高动态网络拓扑下无人机群带宽资源分配方法
CN112380008B (zh) 一种面向移动边缘计算应用的多用户细粒度任务卸载调度方法
Chen et al. Efficiency and fairness oriented dynamic task offloading in internet of vehicles
CN111010684B (zh) 一种基于mec缓存服务的车联网资源分配方法
CN110717300B (zh) 面向电力物联实时在线监测业务的边缘计算任务分配方法
CN111475274B (zh) 云协同多任务调度方法及装置
CN111586696A (zh) 一种基于多智能体架构强化学习的资源分配及卸载决策方法
WO2023040022A1 (zh) 一种在随机网络中基于算网协同的分布式计算卸载方法
CN114051254B (zh) 一种基于星地融合网络的绿色云边协同计算卸载方法
CN112788605B (zh) 基于双延迟深度确定性策略边缘计算资源调度方法和系统
CN110233755B (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
CN113286317B (zh) 一种基于无线供能边缘网络的任务调度方法
CN113220364A (zh) 一种基于车联网移动边缘计算系统模型的任务卸载方法
CN113342409A (zh) 多接入边缘计算系统时延敏感型任务卸载决策方法及系统
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
Zu et al. Smeto: Stable matching for energy-minimized task offloading in cloud-fog networks
Ouyang Task offloading algorithm of vehicle edge computing environment based on Dueling-DQN
CN114153515B (zh) 一种基于5g毫米波通信的高速公路车联网任务卸载算法
Zhong et al. POTAM: A parallel optimal task allocation mechanism for large-scale delay sensitive mobile edge computing
CN112004265B (zh) 一种基于srm算法的社交网络资源分配方法
CN116347522A (zh) 云边协同下基于近似计算复用的任务卸载方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant