CN113760511A - 一种基于深度确定性策略的车辆边缘计算任务卸载方法 - Google Patents

一种基于深度确定性策略的车辆边缘计算任务卸载方法 Download PDF

Info

Publication number
CN113760511A
CN113760511A CN202111045585.5A CN202111045585A CN113760511A CN 113760511 A CN113760511 A CN 113760511A CN 202111045585 A CN202111045585 A CN 202111045585A CN 113760511 A CN113760511 A CN 113760511A
Authority
CN
China
Prior art keywords
vehicle
base station
time slot
vehicle user
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111045585.5A
Other languages
English (en)
Other versions
CN113760511B (zh
Inventor
吴琼
朱洪彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202111045585.5A priority Critical patent/CN113760511B/zh
Publication of CN113760511A publication Critical patent/CN113760511A/zh
Application granted granted Critical
Publication of CN113760511B publication Critical patent/CN113760511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度确定性策略的车辆边缘计算任务卸载方法、装置、设备及计算机可读存储介质,包括:对车辆边缘计算系统进行建模,基于系统模型,建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型;根据通信模型和计算模型,将车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强化学习框架;利用DDPG算法得到最优任务卸载功率分配策略。本发明所提供的方法、装置、设备及计算机可读存储介质,通过DDPG算法解决VEC环境随机且动态的问题,求得车辆用户最优功率分配测量,最小化功率消耗与延迟。

Description

一种基于深度确定性策略的车辆边缘计算任务卸载方法
技术领域
本发明涉及车载任务卸载技术领域,特别是涉及一种基于深度确定性策略的车辆边缘计算任务卸载方法、装置、设备以及计算机可读存储介质。
背景技术
随着道路上车辆数目的增加,为了满足车辆用户的娱乐需求以及实现各种车载需要求,如虚拟现实、图像处理、人脸识别、自动驾驶决策等一些计算密集型应用正在变得越来越普及。这些应用实现需要通过各种车辆用户设备如智能手机、可穿戴设备,和车辆传感器等进行采集大量数据采集。采集到的大量数据导致大量的计算任务,而这些大量的计算任务又需要被及时地处理,会导致车辆用户的计算负担。
车辆边缘计算任务卸载(Vehicular Edge Computing,VEC)被提出可以减轻车辆的计算负担,车辆边缘计算系统一般由车辆用户、基站和边缘服务器构成,边缘服务器拥有强大的计算资源,当车辆用户进入基站覆盖范围时,有计算任务的车辆用户除了本地处理计算任务以外,还可以选择将部分或者全部计算任务通过无线通信发送给基站,与基站相连的拥有强大计算资源的边缘服务器可以将计算任务快速处理,并将计算结果通过无线通信返回给车载用户。
然而,很多车辆用户的设备是电池供电的,因此需要考虑用户在处理数据或者任务卸载时的节能性问题。另一方面,许多计算任务如虚拟现实应用、人脸识别等需要及时的处理计算任务,计算任务处理的及时性需要被考虑。因此需要设计任务卸载方案来保证最优的节能性和及时性。
VEC系统中车辆用户的计算任务到达率、信道条件等存在随机性,而传统的优化算法如凸优化、博弈论不能解决随机的优化问题,且传统优化算法只能求得一次性的最优解或者近似最优解,但是不会考略每次决策后对后续的影响。
综上所述可以看出,VEC系统中车辆用户如何自适应调节功率分配,以最小化功率消耗与延迟是目前有待解决的问题。
发明内容
本发明的目的是提供一种基于深度确定性策略的车辆边缘计算任务卸载方法、装置、设备以及计算机可读存储介质,以解决VEC系统车辆用户的计算任务到达率、信道条件等存在随机性,而传统优化算法不能解决随机优化问题且仅能求得一次性最优解的问题。
为解决上述技术问题,本发明提供一种基于深度确定性策略的车辆边缘计算任务卸载方法,包括:对车辆边缘计算系统进行建模,其中,所述车辆边缘计算系统包括基站、与所述基站连接的边缘服务器和多个单天线车辆用户;基于车辆边缘计算系统模型,建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型;根据所述通信模型和所述计算模型,将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强化学习框架;利用DDPG算法得到最优任务卸载功率分配策略。
优选地,所述对车辆边缘计算系统进行建模包括:
将所述车辆用户在所述基站的覆盖范围内的时间划分为Nt个等长时隙,每个时隙的索引t∈{0,1,...,Nt},时隙间隔为τ;其中,所述基站的覆盖范围的直径为D。
优选地,所述基站覆盖范围内的车辆用户与所述基站之间的通信模型包括:
所述车辆用户在时隙t的信道矢量为:
Figure BDA0003251047230000021
其中,
Figure BDA0003251047230000022
hs(t)为采用自回归模型表示的小尺度衰落,hp(t)为路径损耗;
Figure BDA0003251047230000023
式中,ρ为归一化信道相关系数,误差向量
Figure BDA0003251047230000024
为高斯白噪声,IN为维度为N×1的单位向量;
以所述基站为坐标原点,构建空间直角坐标系,则所述路径损耗hp(t)的表达式为:
Figure BDA0003251047230000031
式中,hr为所述车辆用户与所述基站的通信距离为1米时的信道增益;Pu(t)=(d(t),w,0)为所述车辆用户时隙t在所述空间直角坐标系中的位置,d(t)和w分别为所述车辆用户时隙t在所述空间直角坐标系中的x轴坐标与y轴坐标,设所述车辆用户在所述基站的覆盖范围内以速度v匀速行驶,则每个时隙所述车辆用户在所述空间直角坐标系中x轴坐标更新为d(t+1)=d(t)+vτ;Pb=(0,0,H)为所述基站上天线的位置,H为所述基站上天线沿z轴的坐标;η为路径损耗指数;
所述基站时隙t接收到的信号为:
Figure BDA0003251047230000032
式中,po(t)∈[0,Po]为所述车辆用户在时隙t任务卸载的功率,s(t)为偏差为1的复数信号,
Figure BDA0003251047230000033
为方差为
Figure BDA0003251047230000034
的高斯白噪声;
所述车辆用户时隙t的信噪比为:
Figure BDA0003251047230000035
优选地,所述基站覆盖范围内的车辆用户的计算模型为:
B(t+1)=[B(t)-(do(t)+dl(t))]++a(t),
其中,B(t+1)为时隙t+1的计算任务缓存长度,B(t)为时隙t的计算任务缓存长度,a(t)为时隙的包到达率;B(0)=0,[·]+=max(0,·);
所述车辆用户在时隙t任务卸载数据量do(t)为:
do(t)=τW log2(1+γ(t)),
式中,W为信道带宽;
所述车辆用户在时隙t本地执行数据量dl(t)为:
dl(t)=τf(t)/C,
式中,
Figure BDA0003251047230000036
为CPU在时隙t的频率,pl(t)∈[0,Pl]为所述车辆用户在时隙t本地执行的功率,κ为切换电容,C为计算单位比特任务所需的CPU圈数。
优选地,所述根据所述通信模型和所述计算模型,将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强化学习框架包括:
利用所述时隙t的计算任务缓存长度B(t)、时隙t-1的信噪比γ(t-1)以及所述车辆用户时隙t在所述空间直角坐标系中的x轴坐标d(t),表征时隙t的状态空间st=[B(t),γ(t-1),d(t)];
根据所述车辆用户在时隙t的任务卸载po(t)的功率和本地执行的功率pl(t),表征时隙t的动作空间at=[po(t),pl(t)];
建立奖励函数rt=-[ω1(po(t)+pl(t))+ω2B(t)],ω1、ω2为非负的权重因子;
构建所述车辆用户服从策略μθ(st|θ)在状态st和动作at下的动作价值函数Qζ(st,at)。
优选地,所述利用DDPG算法得到最优任务卸载功率分配策略的过程包括:
S601:随机初始化actor网络参数θ及critic网络参数ζ,将θ和ζ赋值给θ′和ζ′,以完成target actor网络参数θ′和target critic的网络参数的初始化ζ′,建立回放缓存
Figure BDA0003251047230000044
S602:将训练片段数k初始化为1;
S603:将片段k中的时隙t初始化为1;
S604:将状态st输入所述actor网络,输出μθ(st|θ),随机生成噪声Δt,以便所述车辆用户执行动作at=μθ(st|θ)+Δt,并获取奖励rt,同时转换至下一状态st+1,得到元组(st,at,rt,st+1),将所述元组(st,at,rt,st+1)储存至所述回放缓存
Figure BDA0003251047230000041
中;
S605:判断所述回放缓存
Figure BDA0003251047230000042
中的元组数目是否小于I,若小于I,则t=b+1,返回执行步骤S604直至所述回放缓存
Figure BDA0003251047230000043
中的元组数目大于等于I;
S606:当所述回放缓存
Figure BDA0003251047230000045
中的元组数目大于等于I后,将片段k中的时隙t初始化为1;
S607:从所述回放缓存池
Figure BDA0003251047230000046
中根据均匀分布随机抽取一个由I个元组构成的样本包,将所述样本包中的每个元组输入至所述target actor网络、所述target critic网络和所述critic网络;
S608:对于所述样本包中的第i个元组(si,ai,ri,s′i),i=1,2,…,I,将s′i输入所述target actor网络,输出动作a′i=μθ′(s′i|θ′),将s′i和a′i输入所述target critic网络,输出动作价值函数Qζ′(s′i,a′i),计算目标值
Figure BDA0003251047230000051
Figure BDA0003251047230000052
将si和ai输入至所述critic网络输出动作价值函数Qζ(si,ai)并计算所述第i个元组的损失Li=[yi-Qζ(si,ai)]2
S609:将所述样本包中所有元组输入至所述target actor网络,所述targetcritic网络和所述critic网络,计算损失函数
Figure BDA0003251047230000053
S610:通过最小化损失函数更新所述critic网络的参数ζ,通过策略梯度更新所述actor网络的参数θ;
S611:分别根据θ′←τaθ+(1-τa)θ′和ζ′←τcζ+(1-τc)ζ′更新所述target actor网络的参数θ′和所述target critic网络的参数ζ′,其中,τa<<1和τc<<1为常数;
S612:判断t<Nt是否成立,若成立,则令t=t+1,返回执行步骤S607,若不成立,则执行步骤S611;
S613:判断k<Kmax是否成立,若成立,则令k=k+1,返回执行步骤S603,若不成立,则得到所述最优任务卸载功率分配策略μ*
优选地,所述通过最小化损失函数更新所述critic网络的参数ζ,通过策略梯度更新所述actor网络的参数θ包括:
以αC为学习率,采用Adam优化方法,通过梯度
Figure BDA0003251047230000054
更新所述critic网络的参数ζ;
以αA为学习率,采用Adam优化方法,通过梯度
Figure BDA0003251047230000055
更新所述actor网络的参数θ;
其中,
Figure BDA0003251047230000056
由所述critic网络近似的动作价值函数计算得到:
Figure BDA0003251047230000057
本发明还提供了一种基于深度确定性策略的车辆边缘计算任务卸载装置,包括:
系统建模模块,用于对车辆边缘计算系统进行建模,其中,所述车辆边缘计算系统包括基站、与所述基站连接的边缘服务器和多个单天线车辆用户;
通信模型及计算模型构建模块,用于基于车辆边缘计算系统模型,建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型;
马尔科夫决策模块,用于根据所述通信模型和所述计算模型,将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强化学习框架;
策略优化模块,用于利用DDPG算法得到最优任务卸载功率分配策略。
本发明还提供了一种基于深度确定性策略的车辆边缘计算任务卸载设备,包括:
存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种基于深度确定性策略的车辆边缘计算任务卸载方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于深度确定性策略的车辆边缘计算任务卸载方法的步骤。
本发明所提供的基于深度确定性策略的车辆边缘计算任务卸载方法,首先对车辆边缘计算系统进行建模,基于系统模型,建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型进行建模;根据所述通信模型和所述计算模型,将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,设置了状态空间、动作空间以及奖励函数;最后通过无模型的深度强化学习来求得最优的功率分配方案,以最小化功率消耗与延迟。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的基于深度确定性策略的车辆边缘计算任务卸载方法的一种具体实施例的流程图;
图2为车辆边缘计算系统场景图;
图3为训练过程示意图;
图4a为三种策略每个时隙本地处理与任务卸载的功率对比示意图;
图4b为三种策略每个时隙的计算任务缓存长度对比示意图;
图4c为三种策略每个时隙总功率消耗对比示意图;
图5为不同策略下每个时隙的奖励对比示意图;
图6a为不同策略下平均功率消耗的对比示意图;
图6b为不同策略下平均计算任务缓存的对比示意图;
图7为不同策略下长期折扣奖励的对比示意图;
图8为本发明实施例提供的一种基于深度确定性策略的车辆边缘计算任务卸载装置的结构框图。
具体实施方式
本发明的核心是提供一种基于深度确定性策略的车辆边缘计算任务卸载方法、装置、设备以及计算机可读存储介质,利用无模型的深度强化学习解决VEC系统中任务卸载功率分配优化问题,以最小化功率消耗与延迟。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的基于深度确定性策略的车辆边缘计算任务卸载方法的第一种具体实施例的流程图;具体操作步骤如下:
步骤S101:对车辆边缘计算系统进行建模,其中,所述车辆边缘计算系统包括基站、与所述基站连接的边缘服务器和多个单天线车辆用户;
车辆边缘计算(Vehicular Edge Computing,VEC)系统包含一个基站(BaseStation,BS)、边缘服务器和若干单天线车辆用户(Vehicular User,VU)。基站有N个天线,覆盖范围的直径为D,与边缘服务器相连。当车辆用户驶入基站覆盖范围时,车辆用户可以将自身的部分计算任务卸载给基站,通过具有高计算性能的边缘服务器来处理计算任务。将车辆用户在基站的覆盖范围内的时间划分为Nt个等长时隙,每个时隙的索引t∈{0,1,...,Nt},时隙间隔为τ。
步骤S102:基于车辆边缘计算系统模型,建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型;
1)通信模型:
所述车辆用户在时隙t的信道矢量
Figure BDA0003251047230000081
可以计算为:
Figure BDA0003251047230000082
其中,hs(t)为小尺度衰落,hp(t)为路径损耗;
采用自回归(Auto Regression,AR)模型表示小尺度衰落:
Figure BDA0003251047230000083
式中,ρ为归一化信道相关系数,误差向量
Figure BDA0003251047230000084
为高斯白噪声,IN为维度为N×1的单位向量。
每个时隙的路径损耗与通信距离有关,为了确定通信距离,建立了如图2所示的空间直角坐标系。当时隙间隔非常短时,可以假设车辆位置在每个时隙是不变的,则所述路径损耗hp(t)的表达式为:
Figure BDA0003251047230000085
式中,hr为所述车辆用户与所述基站的通信距离为1米时的信道增益;Pu(t)=(d(t),w,0)为所述车辆用户时隙t在所述空间直角坐标系中的位置,d(t)和w分别为所述车辆用户时隙t在所述空间直角坐标系中的x轴坐标与y轴坐标,设所述车辆用户在所述基站的覆盖范围内以速度v匀速行驶,则每个时隙所述车辆用户在所述空间直角坐标系中x轴坐标更新为d(t+1)=d(t)+vτ;Pb=(0,0,H)为所述基站上天线的位置,H为所述基站上天线沿z轴的坐标;η为路径损耗指数。
所述基站时隙t接收到的信号为:
Figure BDA0003251047230000091
式中,po(t)∈[0,Po]为所述车辆用户在时隙t任务卸载的功率,s(t)为偏差为1的复数信号,
Figure BDA0003251047230000092
为方差为
Figure BDA0003251047230000093
的高斯白噪声;
所述车辆用户时隙t的信噪比为:
Figure BDA0003251047230000094
2)计算模型:
在基站覆盖范围里的车辆用户可以将计算任务进行任务卸载或者本地执行,设本地计算的任务量为dl,任务卸载的任务量为do,每个时隙的包到达率为a(t),则相邻时隙的计算任务缓存长度为:
B(t+1)=[B(t)-(do(t)+dl(t))]++a(t),
其中,B(t+1)为时隙t+1的计算任务缓存长度,B(t)为时隙t的计算任务缓存长度,B(0)=0,[·]+=max(0,·)。
在任务卸载过程中,车辆用户先传输计算任务到基站并因此产生传输时延,然后边缘服务器处理计算任务,最后将计算结果返回。边缘服务器一般有着丰富的计算资源,因此可以忽略计算任务在边缘服务器的处理时延;又因为相比于计算任务,计算结果的尺寸较小,返回时延也可忽略不计。基于上述情况,根据香农公式,车辆用户在时隙t任务卸载数据量do(t)可以计算为:
do(t)=τW log2(1+γ(t)),
式中,W为信道带宽。
CPU在时隙t的频率f(t),可由车辆用户在时隙t本地执行的功率pl(t)∈[0,Pl]计算得到:
Figure BDA0003251047230000101
κ为又芯片决定的切换电容。
基于CPU的频率可以计算车辆用户在时隙t本地执行数据量dl(t):
dl(t)=τf(t)/C,
其中,C为计算单位比特任务所需的CPU圈数。
步骤S103:根据所述通信模型和所述计算模型,将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强化学习框架;
1)状态空间
选择当前时隙的计算任务缓存长度B(t)、上一个时隙的信噪比γ(t-1)以及当前时隙的车辆位置中的d(t)来表征当前时隙的t状态空间。其中B(t)代表排队时延,因为根据Little定律,平均的排队时延正比于平均的队列长度。γ(t-1)代表通信质量,而由于信道是随机的,当前时隙的信噪比无法被观测到,只能由基站返回上个时隙的信噪比。d(t)代表信道的路径损耗。所以时隙t的状态空间可以表示为:
st=[B(t),γ(t-1),d(t)]。
2)动作空间
根据所述车辆用户在时隙t的任务卸载po(t)的功率和本地执行的功率pl(t),表征时隙t的动作空间:
at=[po(t),pl(t)]。
3)奖励函数
rt=-[ω1(po(t)+pl(t))+ω2B(t)]
其中,ω1、ω2为非负的权重因子。
步骤S104:利用DDPG算法得到最优任务卸载功率分配策略。
深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法是基于演员-评判家(actor-critic)框架的深度强化学习算法。其中演员(actor)的作用是改进策略,评判家(critic)的作用是评估策略。DDPG算法采用DNN应用于actor和critic进行近似和衡量策略,因此形成actor网络和critic网络。记被actor网络近似的策略为μθ(st|θ),则actor网络的输出是基于所观察的状态st的服从策略μθ的动作at。设
Figure BDA0003251047230000111
为车辆用户服从策略μθ在状态st和动作at的下的动作价值函数,也就是从时隙t开始,车辆用户长期折扣奖励的期望值为:
Figure BDA0003251047230000112
Figure BDA0003251047230000113
可以被替换为解
Figure BDA0003251047230000114
但是因为动作空间时连续的,所以在上式中
Figure BDA0003251047230000115
不能被由贝尔曼方程计算。为了解决这个问题,critic网络采用以为参数的DNN去近似动作价值函数
Figure BDA0003251047230000116
因此critic网络近似的动作价值函数记为Qζ(st,at)。
在DDPG算法中,通过μθ的策略提升以及策略评估的迭代来获取最优策略。另外,DDPG采用目标演员(target actor)网络、目标评判家(target critic)网络来提高算法的稳定性。其中target actor网络、target critic网络与actor网络、critic网络有着相同的DNN构架,也就是说有着相同的神经网络层数,且每一层的隐藏节点数目相同。
基于VEC环境的随机且动态的问题,本实施例采用深度强化学习(DeepReinforcement learning,DRL)来解决这个问题,深度强化学习利用深度神经网络(DeepNeural Network,DNN)来与VEC模拟环境交互,在交互的过程中训练DNN以得到最优的VEC卸载方案。本发明通过深度强化学习来获取车辆用户的最优任务卸载方案,并考虑到车辆用户的移动性。
基于上述实施例,在本实施例中,具体解释说明了利用DDPG算法得到最优任务卸载功率分配策略的过程。设θ和ζ分别为actor和critic网络的参数,θ′和ζ′分别为targetactor和target critic的网络参数。
S301:随机初始化actor网络参数θ及critic网络参数ζ,将θ和ζ赋值给θ′和ζ′,以完成target actor网络参数θ′和target critic的网络参数的初始化ζ′,建立回放缓存
Figure BDA0003251047230000117
建立一个回放缓存
Figure BDA0003251047230000118
(Replay Buffer)缓存每一步的状态转移。
S302:将训练片段数k初始化为1;
算法会运行Kmax个片段(episode)。对于第一个片段,车辆用户的位置(d(1),w,0)被重置在刚进入基站覆盖范围的位置,也就是d(1)=-0.5D的位置。B(1)被初始化为计算任务缓存尺寸的一半。然后hs(t)被随机的初始化,然后可以根据信道模型计算出SINR的初始值γ(0),随后有时隙1的状态s1=[B(1),γ(0),d(1)]。
S303:将片段k中的时隙t初始化为1;
S304:将状态st输入所述actor网络,输出μθ(st|θ),随机生成噪声Δt,以便所述车辆用户执行动作at=μθ(st|θ)+Δt,并获取奖励rt,同时转换至下一状态st+1,得到元组(st,at,rt,st+1),将所述元组(st,at,rt,st+1)储存至所述回放缓存
Figure BDA0003251047230000127
中;
算法会从时隙1到Nt迭代执行,车辆用户将状态s1输入到actor网络然后actor的输出为μθ(s1|θ),然后随机生成一个噪声Δ1,则设置a1为μθ(s1|θ)+Δ1,因此任务卸载功率po(1)和本地执行功率pl(1)可以被确定。然后车辆用户执行动作a1,也就是分配任务卸载功率和本地执行功率去处理计算任务,并根据奖励函数公式计算r1。然后基站可以确定SINR γ(1)。随后车辆用户观察到下一个状态s2=[B(2),γ(1),d(2)]。具体来说,车辆用户根据相邻时隙的计算任务缓存长度公式计算B(2),其中在给定po(1)的情况下可计算得到do(1),在给定pl(1)的情况下可计算得到dl(1);车辆用户收到由基站返回的γ(1);车辆用户在给定d(1)的情况下可计算得到d(2)。随后,将元组(s1,a1,r1,s2)储存在
Figure BDA0003251047230000121
中。当在回放缓存
Figure BDA0003251047230000122
中的储存的元组数目小于I时,车辆用户将下一个状态输入到actor网络,然后进入下一个循环。
S305:判断所述回放缓存
Figure BDA0003251047230000123
中的元组数目是否小于I,若小于I,则t=t+1,返回执行步骤S304直至所述回放缓存
Figure BDA0003251047230000124
中的元组数目大于等于I;
S306:当所述回放缓存
Figure BDA0003251047230000125
中的元组数目大于等于I后,将片段k中的时隙t初始化为1;
Figure BDA0003251047230000126
中存储的元组数目大于I时,为了最大化J(μθ),actor网络、critic网络、target actor网络和target critic网络的参数θ、ζ、θ′和ζ′将进行迭代地更新。其中actor网络的参数θ通过策略梯度来更新,也就是朝着J(μθ)对θ的梯度
Figure BDA0003251047230000131
的方向更新。当存储的元组数目大于I时,在每个时隙t(t=1,2,...,Nt)的迭代如下。为了描述的便利rt,st,at,st+1和at+1被分别简化为r,s,a,s′和a′。
S307:从所述回放缓存池
Figure BDA0003251047230000132
中根据均匀分布随机抽取一个由I个元组构成的样本包,将所述样本包中的每个元组输入至所述target actor网络、所述target critic网络和所述critic网络;
车辆用户首先从回放缓存中根据均匀分布随机抽取一个由I个元组构成的样本包(Mini-batch)。然后车辆用户将每个元组输入target actor网络,target critic网络和critic网络。
S308:对于所述样本包中的第i个元组(si,ai,ri,s′i),i=1,2,…,I,将s′i输入所述target actor网络,输出动作a′i=μθ′(s′i|θ′),将s′i和a′i输入所述target critic网络,输出动作价值函数Qζ′(s′i,a′i),计算目标值
Figure BDA0003251047230000133
Figure BDA0003251047230000134
将si和ai输入至所述critic网络输出动作价值函数Qζ(si,ai)并计算所述第i个元组的损失Li=[yi-Qζ(si,ai)]2
S309:将所述样本包中所有元组输入至所述target actor网络,所述targetcritic网络和所述critic网络,计算损失函数
Figure BDA0003251047230000135
S310:通过最小化损失函数更新所述critic网络的参数ζ,通过策略梯度更新所述actor网络的参数θ;
具体来说,以αC为学习率,采用Adam优化方法,通过梯度
Figure BDA0003251047230000136
更新所述critic网络的参数ζ。
以αA为学习率,采用Adam优化方法,通过梯度
Figure BDA0003251047230000137
更新所述actor网络的参数θ;
其中,
Figure BDA0003251047230000138
由所述critic网络近似的动作价值函数计算得到:
Figure BDA0003251047230000139
S311:分别根据θ′←τaθ+(1-τa)θ′和ζ′←τcζ+(1-τc)ζ′更新所述target actor网络的参数θ′和所述target critic网络的参数ζ′,其中,τa<<1和τc<<1为常数;
S312:判断t<Nt是否成立,若成立,则令t=t+1,返回执行步骤S307,若不成立,则执行步骤S611;
S313:判断k<Kmax是否成立,若成立,则令k=k+1,返回执行步骤S303,若不成立,则得到所述最优任务卸载功率分配策略μ*
最终,车辆用户将s′输入actor网络在下一个时隙开始下一个循环。片段在迭代次数达到Ni时结束。然后车辆用户初始化B(1),γ(0),d(1)开始下一个片段。整个算法在循环Kmax个片段后结束,输出优化后的actor网络、critic网络、target actor网络,targetcritic网络的参数。这时意味着训练阶段已经结束,最优策略μ*已经得到。
训练过程如图3所示,纵坐标为每个片段的平均奖励。可以看到,平均奖励在0到10片段上升非常快,然后在10至600片段,上升趋势趋于平缓,这表征着车辆用户正在朝着最优策略的方向更新策略。在片段数目为600至1200时,平均奖励趋于平稳,这代表着最优策略已经被学习到。之后在1200至1570片段,有一些震荡,这是因为存在探索噪声的缘故,在轻微的调整策略保证策略不会收敛在局部最优解。最后曲线在1500片段后再次稳定,这表明车辆用户在经过探索噪声后再一次得到最优策略。
训练完成后,进行测试阶段,进行K′max个片段的循环,在每个片段的循环中首先像训练阶段一样获取初始状态s1。然后进行Ni个时隙的循环,在每次时隙的循环中车辆用户将状态输入到训练后的actor网络获取动作,转移到下一个状态,然后将下一个状态输入训练后的actor网络中开始下一个循环。
图4-图7为测试阶段的各项指标。
图4为每个时隙的性能指标对比示意图。
图4a对比了在最优策略下的本地执行功率和任务卸载功率。可以看到t在0到500时本地执行功率在明显下降,而任务卸载功率在缓慢上升。之后当t在500至1000时,本地执行功率开始上升,而任务卸载功率开始下降。这是因为车辆用户在t∈[0,500)时,车辆用户在接近基站,当t∈[500,1000)时,车辆用户在远离基站。信道状态被路径损耗hp(t)所影响。当车辆用户接近基站的时候,hp(t)上升,因此由更好的信道状态。在这种情况下,处理相同的任务量,通过任务卸载方式相比于本地处理的方式消耗的功率更少,因此最优策略倾向于越来越多地分配任务卸载功率,并越来越少地分配本地处理能量。相反的,当车辆用户远离基站时,最优策略倾向于越来越少地分配任务卸载功率,并越来越多地分配本地处理的功率。
图4b对比了在最优策略、本地贪婪策略和卸载贪婪策略下的计算任务缓存长度。可以看到在三种策略下每个时隙的计算任务缓存长度在每个时隙的平均包到达量
Figure BDA0003251047230000151
上下波动。这是因为,根据B(t+1)的计算公式,上个时隙的到达的计算任务基本都在下一个时隙都被处理掉了,这意味着计算任务缓存的长度可以被最优策略控制在没有计算任务积压的效果。
图4c对比了在最优策略、本地贪婪策略和卸载贪婪策略下的功率消耗。最优策略和卸载贪婪策略下的功率消耗在t∈(0,500)之间下降在t∈(500,1000)之间上升。其中在最优策略下的功率消耗可以由图3中的本地执行功率加上任务卸载功率得来,对于卸载贪婪策略,车辆用户主要通过卸载处理任务,而信道状态会因为车辆用户在t∈[0,500)靠近基站或者在t∈[500,1000)远离基站而变化。在本地贪婪策略下每个时隙功率消耗变化不大。这是因为车辆用户主要通过本地执行处理任务,而根据do(t)和dl(t)的计算公式,本地执行的参数如C、κ为常数不会随着时间的变化而变化。
图5对比了在三种策略下每个时隙的奖励,每个时隙的奖励可由公式rt=-[ω1(po(t)+pl(t))+ω2B(t)]通过求功率消耗和计算任务缓存长度的加权和得来。其中功率消耗如图6a所示,计算任务缓存长度如图6b所示。可以发现在最优策略下的奖励值几乎总是大于其他两个贪婪策略。这是因为最优策略会根据信道状态调节功率分配去最大化长期奖励。
图6对比了在三种策略下平均一个时隙的计算任务缓存长度和功率消耗。其中平均的计算任务缓存长度是图6b中计算任务缓存长度的平均值,平均的功率消耗是图6a中的功率消耗的平均值。可以看到在不同策略下的平均计算任务缓存长度都差别不大,都在接近
Figure BDA0003251047230000161
位置。而平均功率消耗差别很明显,最优策略的功率消耗相比于本地贪婪策略降低了47%,相比于卸载贪婪策略降低了61%。
图7对比了在不同策略下长期折扣奖励。可以看到由DDPG学习到的最优策略相比于本地贪婪策略和卸载贪婪策略有着更高的长期折扣奖励。这意味着本文通过DDPG最大化长期折扣回报的优化目标得以实现。
表1实验参数
Figure BDA0003251047230000162
如表1所示,对算法参数设置进一步补充解释。对于actor网络和critic网络都使用了四层全连接的DNN,中间两层隐藏层的神经元个数分别为400、300。探索噪声Δt采用OU(Ornstein-Uhlenbeck)噪声,令θN,σ为OU噪声的衰减率和方差。回放缓存的尺寸为
Figure BDA0003251047230000171
假定每个时隙的任务到达服从泊松分布,平均到达率为λ。最大的本地执行功率为Pl,当最大的CPU频率Fmax给定时,可以由do(t)=τW log2(1+γ(t))计算得来。车辆用户的小尺度衰落初始化为高斯分布
Figure BDA0003251047230000172
本发明实施所提供的方法,车辆用户可以在VEC系统中根据信道状态、计算任务缓存量自适应地调节功率分配,以最大化长期期望奖励。
请参考图8,图8为本发明实施例提供的一种基于深度确定性策略的车辆边缘计算任务卸载装置的结构框图;具体装置可以包括:
系统建模模块100,用于对车辆边缘计算系统进行建模,其中,所述车辆边缘计算系统包括基站、与所述基站连接的边缘服务器和多个单天线车辆用户;
通信模型及计算模型构建模块200,用于基于车辆边缘计算系统模型,建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型;
马尔科夫决策模块300,用于根据所述通信模型和所述计算模型,将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强化学习框架;
策略优化模块400,用于利用DDPG算法得到最优任务卸载功率分配策略。
本实施例的基于深度确定性策略的车辆边缘计算任务卸载装置用于实现前述的基于深度确定性策略的车辆边缘计算任务卸载方法,因此基于深度确定性策略的车辆边缘计算任务卸载装置中的具体实施方式可见前文中的基于深度确定性策略的车辆边缘计算任务卸载方法的实施例部分,例如,系统建模模块100,通信模型及计算模型构建模块200,马尔科夫决策模块300,策略优化模块400,分别用于实现上述基于深度确定性策略的车辆边缘计算任务卸载方法中步骤S101,S102,S103和S104,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明具体实施例还提供了一种基于深度确定性策略的车辆边缘计算任务卸载设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种基于深度确定性策略的车辆边缘计算任务卸载方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种基于深度确定性策略的车辆边缘计算任务卸载方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的基于深度确定性策略的车辆边缘计算任务卸载方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种基于深度确定性策略的车辆边缘计算任务卸载方法,其特征在于,包括:
对车辆边缘计算系统进行建模,其中,所述车辆边缘计算系统包括基站、与所述基站连接的边缘服务器和多个单天线车辆用户;
基于车辆边缘计算系统模型,建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型;
根据所述通信模型和所述计算模型,将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强化学习框架;
利用DDPG算法得到最优任务卸载功率分配策略。
2.如权利要求1所述的方法,其特征在于,所述对车辆边缘计算系统进行建模包括:
将所述车辆用户在所述基站的覆盖范围内的时间划分为Nt个等长时隙,每个时隙的索引t∈{0,1,...,Nt},时隙间隔为τ;其中,所述基站的覆盖范围的直径为D。
3.如权利要求2所述的方法,其特征在于,所述基站覆盖范围内的车辆用户与所述基站之间的通信模型包括:
所述车辆用户在时隙t的信道矢量为:
Figure FDA0003251047220000011
其中,
Figure FDA0003251047220000012
hs(t)为采用自回归模型表示的小尺度衰落,hp(t)为路径损耗;
Figure FDA0003251047220000013
式中,ρ为归一化信道相关系数,误差向量
Figure FDA0003251047220000014
为高斯白噪声,IN为维度为N×1的单位向量;
以所述基站为坐标原点,构建空间直角坐标系,则所述路径损耗hp(t)的表达式为:
Figure FDA0003251047220000015
式中,hr为所述车辆用户与所述基站的通信距离为1米时的信道增益;Pu(t)=(d(t),w,0)为所述车辆用户时隙t在所述空间直角坐标系中的位置,d(t)和w分别为所述车辆用户时隙t在所述空间直角坐标系中的x轴坐标与y轴坐标,设所述车辆用户在所述基站的覆盖范围内以速度v匀速行驶,则每个时隙所述车辆用户在所述空间直角坐标系中x轴坐标更新为d(t+1)=d(t)+vτ;Pb=(0,0,H)为所述基站上天线的位置,H为所述基站上天线沿z轴的坐标;η为路径损耗指数;
所述基站时隙t接收到的信号为:
Figure FDA0003251047220000021
式中,po(t)∈[0,Po]为所述车辆用户在时隙t任务卸载的功率,s(t)为偏差为1的复数信号,
Figure FDA0003251047220000022
为方差为
Figure FDA0003251047220000023
的高斯白噪声;
所述车辆用户时隙t的信噪比为:
Figure FDA0003251047220000024
4.如权利要求3所述的方法,其特征在于,所述基站覆盖范围内的车辆用户的计算模型为:
B(t+1)=[B(t)-(do(t)+dl(t))]++a(t),
其中,B(t+1)为时隙t+1的计算任务缓存长度,B(t)为时隙t的计算任务缓存长度,a(t)为时隙的包到达率;B(0)=0,[·]+=max(0,·);
所述车辆用户在时隙t任务卸载数据量do(t)为:
do(t)=τW log2(1+γ(t)),
式中,W为信道带宽;
所述车辆用户在时隙t本地执行数据量dl(t)为:
dl(t)=τf(t)/C,
式中,
Figure FDA0003251047220000025
为CPU在时隙t的频率,pl(t)∈[0,Pl]为所述车辆用户在时隙t本地执行的功率,κ为切换电容,C为计算单位比特任务所需的CPU圈数。
5.如权利要求4所述的方法,其特征在于,所述根据所述通信模型和所述计算模型,将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强化学习框架包括:
利用所述时隙t的计算任务缓存长度B(t)、时隙t-1的信噪比γ(t-1)以及所述车辆用户时隙t在所述空间直角坐标系中的x轴坐标d(t),表征时隙t的状态空间st=[B(t),γ(t-1),d(t)];
根据所述车辆用户在时隙t的任务卸载po(t)的功率和本地执行的功率pl(t),表征时隙t的动作空间at=[po(t),pl(t)];
建立奖励函数rt=-[ω1(po(t)+pl(t))+ω2B(t)],ω1、ω2为非负的权重因子;
构建所述车辆用户服从策略μθ(st|θ)在状态st和动作at下的动作价值函数Qζ(st,at)。
6.如权利要求5所述的方法,其特征在于,所述利用DDPG算法得到最优任务卸载功率分配策略的过程包括:
S601:随机初始化actor网络参数θ及critic网络参数ζ,将θ和ζ赋值给θ′和ζ′,以完成target actor网络参数θ′和target critic的网络参数的初始化ζ′,建立回放缓存
Figure FDA0003251047220000036
S602:将训练片段数k初始化为1;
S603:将片段k中的时隙t初始化为1;
S604:将状态st输入所述actor网络,输出μθ(st|θ),随机生成噪声Δt,以便所述车辆用户执行动作at=μθ(st|θ)+Δt,并获取奖励rt,同时转换至下一状态st+1,得到元组(st,at,rt,st+1),将所述元组(st,at,rt,st+1)储存至所述回放缓存
Figure FDA0003251047220000031
中;
S605:判断所述回放缓存
Figure FDA0003251047220000032
中的元组数目是否小于I,若小于I,则t=t+1,返回执行步骤S604直至所述回放缓存
Figure FDA0003251047220000033
中的元组数目大于等于I;
S606:当所述回放缓存
Figure FDA0003251047220000034
中的元组数目大于等于I后,将片段k中的时隙t初始化为1;
S607:从所述回放缓存池
Figure FDA0003251047220000035
中根据均匀分布随机抽取一个由I个元组构成的样本包,将所述样本包中的每个元组输入至所述target actor网络、所述target critic网络和所述critic网络;
S608:对于所述样本包中的第i个元组(si,ai,ri,s′i),i=1,2,…,I,将s′i输入所述target actor网络,输出动作a′i=μθ′(s′i|θ′),将s′i和a′i输入所述target critic网络,输出动作价值函数Qζ′(s′i,a′i),计算目标值
Figure FDA0003251047220000041
Figure FDA0003251047220000042
将si和ai输入至所述critic网络输出动作价值函数Qζ(si,ai)并计算所述第i个元组的损失Li=[yi-Qζ(si,ai)]2
S609:将所述样本包中所有元组输入至所述target actor网络,所述target critic网络和所述critic网络,计算损失函数
Figure FDA0003251047220000043
S610:通过最小化损失函数更新所述critic网络的参数ζ,通过策略梯度更新所述actor网络的参数θ;
S611:分别根据θ′←τaθ+(1-τa)θ′和ζ′←τcζ+(1-τc)ζ′更新所述target actor网络的参数θ′和所述target critic网络的参数ζ′,其中,τa<<1和τc<<1为常数;
S612:判断t<Nt是否成立,若成立,则令t=t+1,返回执行步骤S607,若不成立,则执行步骤S611;
S613:判断k<Kmax是否成立,若成立,则令k=k+1,返回执行步骤S603,若不成立,则得到所述最优任务卸载功率分配策略μ*
7.如权利要求6所述的方法,其特征在于,所述通过最小化损失函数更新所述critic网络的参数ζ,通过策略梯度更新所述actor网络的参数θ包括:
以αC为学习率,采用Adam优化方法,通过梯度
Figure FDA0003251047220000044
更新所述critic网络的参数ζ;
以αA为学习率,采用Adam优化方法,通过梯度
Figure FDA0003251047220000045
更新所述actor网络的参数θ;
其中,
Figure FDA0003251047220000046
由所述critic网络近似的动作价值函数计算得到:
Figure FDA0003251047220000047
8.一种基于深度确定性策略的车辆边缘计算任务卸载装置,其特征在于,包括:
系统建模模块,用于对车辆边缘计算系统进行建模,其中,所述车辆边缘计算系统包括基站、与所述基站连接的边缘服务器和多个单天线车辆用户;
通信模型及计算模型构建模块,用于基于车辆边缘计算系统模型,建立基站覆盖范围内的车辆用户与所述基站之间的通信模型以及所述基站覆盖范围内的车辆用户的计算模型;
马尔科夫决策模块,用于根据所述通信模型和所述计算模型,将所述车辆边缘计算系统的任务卸载功率分配过程描述为马尔科夫决策过程,建立状态空间、动作空间及奖励函数,得到深度强化学习框架;
策略优化模块,用于利用DDPG算法得到最优任务卸载功率分配策略。
9.一种基于深度确定性策略的车辆边缘计算任务卸载设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述一种基于深度确定性策略的车辆边缘计算任务卸载方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种基于深度确定性策略的车辆边缘计算任务卸载方法的步骤。
CN202111045585.5A 2021-09-07 2021-09-07 一种基于深度确定性策略的车辆边缘计算任务卸载方法 Active CN113760511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111045585.5A CN113760511B (zh) 2021-09-07 2021-09-07 一种基于深度确定性策略的车辆边缘计算任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111045585.5A CN113760511B (zh) 2021-09-07 2021-09-07 一种基于深度确定性策略的车辆边缘计算任务卸载方法

Publications (2)

Publication Number Publication Date
CN113760511A true CN113760511A (zh) 2021-12-07
CN113760511B CN113760511B (zh) 2022-07-12

Family

ID=78793650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111045585.5A Active CN113760511B (zh) 2021-09-07 2021-09-07 一种基于深度确定性策略的车辆边缘计算任务卸载方法

Country Status (1)

Country Link
CN (1) CN113760511B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114449584A (zh) * 2022-02-09 2022-05-06 湖南大学 基于深度强化学习的分布式计算卸载方法及装置
CN114546660A (zh) * 2022-03-01 2022-05-27 重庆邮电大学 一种多无人机协作边缘计算方法
CN114727316A (zh) * 2022-03-29 2022-07-08 江南大学 一种基于深度确定性策略的物联网传输方法以及装置
CN114760308A (zh) * 2022-04-01 2022-07-15 中国科学技术大学 边缘计算卸载方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190208467A1 (en) * 2017-12-29 2019-07-04 Huazhong University Of Science And Technology Method for cloudlet-based optimization of energy consumption
CN111414252A (zh) * 2020-03-18 2020-07-14 重庆邮电大学 一种基于深度强化学习的任务卸载方法
CN111464976A (zh) * 2020-04-21 2020-07-28 电子科技大学 一种基于车队的车辆任务卸载决策和总体资源分配方法
CN111556461A (zh) * 2020-04-29 2020-08-18 南京邮电大学 一种基于深度q网络的车载边缘网络任务分发卸载方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190208467A1 (en) * 2017-12-29 2019-07-04 Huazhong University Of Science And Technology Method for cloudlet-based optimization of energy consumption
CN111414252A (zh) * 2020-03-18 2020-07-14 重庆邮电大学 一种基于深度强化学习的任务卸载方法
CN111464976A (zh) * 2020-04-21 2020-07-28 电子科技大学 一种基于车队的车辆任务卸载决策和总体资源分配方法
CN111556461A (zh) * 2020-04-29 2020-08-18 南京邮电大学 一种基于深度q网络的车载边缘网络任务分发卸载方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
董晓丹: "车载云计算系统中资源分配的优化方法", 《中国电子科学研究院学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114449584A (zh) * 2022-02-09 2022-05-06 湖南大学 基于深度强化学习的分布式计算卸载方法及装置
CN114546660A (zh) * 2022-03-01 2022-05-27 重庆邮电大学 一种多无人机协作边缘计算方法
CN114727316A (zh) * 2022-03-29 2022-07-08 江南大学 一种基于深度确定性策略的物联网传输方法以及装置
CN114727316B (zh) * 2022-03-29 2023-01-06 江南大学 一种基于深度确定性策略的物联网传输方法以及装置
CN114760308A (zh) * 2022-04-01 2022-07-15 中国科学技术大学 边缘计算卸载方法及装置
CN114760308B (zh) * 2022-04-01 2023-03-24 中国科学技术大学 边缘计算卸载方法及装置

Also Published As

Publication number Publication date
CN113760511B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
CN113242568B (zh) 一种不确定网络环境中的任务卸载和资源分配方法
Zhan et al. An incentive mechanism design for efficient edge learning by deep reinforcement learning approach
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN112668128A (zh) 联邦学习系统中终端设备节点的选择方法及装置
CN112422644B (zh) 计算任务卸载方法及系统、电子设备和存储介质
CN113626104B (zh) 边云架构下基于深度强化学习的多目标优化卸载策略
CN115827108B (zh) 基于多目标深度强化学习的无人机边缘计算卸载方法
CN113778691B (zh) 一种任务迁移决策的方法、装置及系统
CN113645637B (zh) 超密集网络任务卸载方法、装置、计算机设备和存储介质
CN111132074A (zh) 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法
Chen et al. Cache-assisted collaborative task offloading and resource allocation strategy: A metareinforcement learning approach
CN114585006B (zh) 基于深度学习的边缘计算任务卸载和资源分配方法
CN116233927A (zh) 一种在移动边缘计算中负载感知的计算卸载节能优化方法
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
CN114090108B (zh) 算力任务执行方法、装置、电子设备及存储介质
CN113821270B (zh) 任务卸载顺序预测方法、决策方法、电子设备及存储介质
Huda et al. Deep reinforcement learning-based computation offloading in uav swarm-enabled edge computing for surveillance applications
CN112445617B (zh) 一种基于移动边缘计算的负载策略选择方法及系统
Wang et al. Resource allocation based on Radio Intelligence Controller for Open RAN towards 6G
CN117354934A (zh) 一种多时隙mec系统双时间尺度任务卸载和资源分配方法
Ding et al. Multi-agent reinforcement learning for cooperative task offloading in distributed edge cloud computing
Sharma et al. Feel-enhanced edge computing in energy constrained uav-aided iot networks
CN115865914A (zh) 车辆边缘计算中基于联邦深度强化学习的任务卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant