CN111866807A - 一种基于深度强化学习的软件定义车载任务细粒度卸载方法 - Google Patents

一种基于深度强化学习的软件定义车载任务细粒度卸载方法 Download PDF

Info

Publication number
CN111866807A
CN111866807A CN202010571179.1A CN202010571179A CN111866807A CN 111866807 A CN111866807 A CN 111866807A CN 202010571179 A CN202010571179 A CN 202010571179A CN 111866807 A CN111866807 A CN 111866807A
Authority
CN
China
Prior art keywords
vehicle
unloading
rsu
task
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010571179.1A
Other languages
English (en)
Other versions
CN111866807B (zh
Inventor
李致远
彭二帅
潘森杉
毕俊蕾
张威威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202010571179.1A priority Critical patent/CN111866807B/zh
Publication of CN111866807A publication Critical patent/CN111866807A/zh
Application granted granted Critical
Publication of CN111866807B publication Critical patent/CN111866807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的软件定义车载任务细粒度卸载方法,包括步骤:1.获取车辆可接入RSU的信息、车辆任务的信息等;2.根据步骤1中的RSU的信息划分车载任务的卸载时隙;3.将车载任务卸载时隙决策方法转化为数学问题;4.使用深度强化学习方法求解步骤3中的数学问题;5.将算法部署至SDN控制器。本发明能充分利用卸载时隙而减少卸载造成的网络传输延迟。本发明制定卸载时隙决策时充分考虑包括车辆与RSU的相对位置、RSU中接入的车辆的数目、RSU所需要接收的车载任务的数量等因素,能够有效降低车辆任务的卸载延时。

Description

一种基于深度强化学习的软件定义车载任务细粒度卸载方法
技术领域
本发明属于车载移动边缘计算领域,是车载任务卸载时隙决策方法,适用于小型基站(small-cell base stations)环境中,特别适合局域网内的小型基站负载均衡。
背景技术
随着物联网技术的快速发展,移动边缘计算(Mobile Edge Computing,MEC)已经成为物联网技术的重要组成部分。用户可通过无线接入点如基站、路侧单元(Road SideUnit,RSU)等接入移动边缘计算。MEC可以为用户提供计算、存储等资源。这些特点在车辆网络中获得了广泛的应用:车辆边缘计算(Vehicle Edge Computing,VEC)是近年来发展起来的一种新的网络模式。
车辆网络中的应用可以让车辆出行更加便捷、安全。随着车辆应用的不断发展,如道路实时分析、自动驾驶、虚拟现实等需要强大的计算能力与大量存储空间的应用越来越多,需要传输的数据内容也越来越多。目前主流的车辆任务卸载的研究多集中在计算资源的分配方面。多数车载任务卸载时隙决策是随机选择,这并不能充分利用卸载时隙而减少卸载造成的网络传输延迟。影响任务卸载时隙的因素包括当前车辆与RSU的相对位置、当前RSU中接入的车辆的数目、当前RSU所需要接收的车载任务的数量等。
综合以上情况,需要提出一种车载任务卸载时隙决策方法,它能够应对车载任务的卸载情景并可考虑多种影响因素。
发明内容
针对上述问题,本发明提出一种基于深度学习的软件定义车载任务卸载时隙决策方法,主要研究通过软件定义网络(Software Defined Network,SDN)获取网络全局的状态感知数据,例如网络中RSU中接入的车辆的数目、MEC服务器的负载状态、RSU网络延迟等,并在此基础上结合深度学习模型构建自适应优化决策给出局部卸载、全局卸载及最佳车载任务卸载时隙的建议,以解决车载任务卸载时造成的延时过高问题,该方法包括如下步骤:
步骤1,获取信息:车辆可接入的RSU的集合r、请求在RSU区域中的卸载的车辆任务Q、RSU的网络带宽b;
步骤2,根据步骤1中的RSU的信息划分车载任务的卸载时隙;
步骤3,将车载任务卸载时隙决策方法进行建模;
步骤4,使用深度强化学习方法求解步骤3中的模型表达式;
步骤5,将算法部署至SDN控制器。
进一步,步骤1中的所述信息包括:
①将RSU区域中的卸载任务记为q={Q1,…Qi,…,Qn},其中Qi表示第i辆车的任务;
②车载任务大小记为m={M1,…,Mi,…Mn},其中Mi表示Qi的大小;
③车载任务的延时约束记为t={T1,…,Ti,…,Tn},其中Ti即为Qi的时延约束;
④可供车辆接入的RSU集合定义为r={R1,…Ri,…Rn};Ri表示第i个RSU
⑤各个RSU已经接入的车载任务数目为rA={R1A,…,RiA,…,RnA};其中RiA表示第i个RSU中接入车载任务的数量;
⑥RSU的带宽记为b={B1,…,Bi,…,Bn},其中Bi表示Ri的网络带宽;
进一步,步骤2中车载任务的卸载时隙划分方法为:
步骤2.1,收集RSU的链路带宽,记为W;收集RSU的平均信号功率,记为P;收集RSU的噪声功率,记为N;将RSU与车辆的链路损耗功率记为Lp
步骤2.2,车辆与RSU的传输速率ν可表示为:
Figure BDA0002549632880000021
其中,[LP]=32.45+20lgd+20lgf,d为车辆与RSU的距离,单位为km,f为RSU的信号频率,单位为MHz。
步骤2.3,大小为M的车载任务的传输延迟可表示为:
Figure BDA0002549632880000022
步骤2.4,由于网络传输延迟受车辆与RSU的相对距离影响,将每个RSU的覆盖范围划分为n个任务卸载时隙Gap1,…,Gapi,…Gapn,其中任意时隙用g表示,g∈[Gap1,…,Gapi,…Gapn]。为了便于计算和描述,设相同区域内传输速率相同。为方便计算,过RSU做地面垂点,g表示为卸载时隙与该垂点的距离。则
Figure BDA0002549632880000023
其中,high为RSU与地面的垂直高度;
进一步,步骤3中将车载任务卸载时隙决策方法进行建模的方法为:
步骤3.1,定义卸载时隙决策为l={L1,…,Li,…,Ln},Li表示第i辆车的选择卸载任务的地点,各个车辆选择卸载任务的地点的组合即为卸载时隙决策;
步骤3.2,确定单个任务的卸载决策。某个车载任务卸载单个时隙决策Li即为对卸载时隙g的选择,即对
Figure BDA0002549632880000031
一定有Li∈[Gap1,…,Gapi,…Gapn]
步骤3.3,由式(1)与式(2)可知,车载任务的传输延迟由RSU的带宽b、卸载时隙决策l、车载任务的大小m决定,车载任务的传输延迟可重写为:
Figure BDA0002549632880000032
式(3)中的②表示RSU的链路带宽W由RSU的带宽b代替;④表示车辆与RSU的相对距离;
步骤3.4,由式(3)再次重写车载任务的传输延迟为:
Figure BDA0002549632880000033
其中[LP]=32.45+20lgd+20lgf;
步骤3.5,将车载任务卸载时隙决策方法转化为求解式(5),Di(b,l,Mi)表示第i个车载任务的传输延迟。
Figure BDA0002549632880000034
其中,z表示是否卸载任务,z=1表示进行任务卸载,z=0表示不进行任务的卸载;MAXrA表示rA的最大值;车载任务卸载时隙决策会影响rA的值,rA≤MAXrA表示rA不能超过最大的车载任务接入数量。
进一步,步骤4中利用深度强化学习方法求解式(5)的具体步骤为:
步骤4.1,建立马尔可夫状态空间
S={t,rV,rD,rA}
其中各个参数说明如下:
①车载任务的时延约束记为t={T1,…,Ti,…,Tn},其中Ti为任务Qi的时延约束;
②供车辆接入的RSU集合定义为r={R1,…Ri,…Rn},r中各个RSU的任意卸载时隙用g表示,g∈[Gap1,…,Gapi,…Gapn],处于不同的卸载时隙中车辆任务的卸载速率各有不同,那么r中的所有卸载时隙的卸载速率集合可表示为rV={R1G1V,…,RiGjV,…,RnGnV},RiGjV表示第i个RSU的第j个卸载时隙的传输速率;
③r中各个RSU的各个卸载时隙中车载任务的传输延迟表示为rD={R1G1D,…,RiGjD,…RnGnD},RiGjD表示车载任务在第i个RSU的第j个卸载时隙的传输延时;
④各个RSU已经接入的车载任务数目为rA={R1A,…,RiA,…,RnA};
步骤4.2,建立马尔可夫动作空间
A={(a,b)|a∈{[1,n]∩N+},b∈{[1,n]∩N+}
其中各个参数说明如下:
①a表示执行卸载车载任务时车辆所接入的RSU;
②b表示执行卸载车载任务时车辆所接入的RSU的卸载时隙;
③N+表示正整数。
步骤4.3,建立马尔可夫奖励函数reward:
reward=ε(η)×base+(2ε(η)-1)×delay(rD,t)+access(rA)
其中各个参数说明如下:
①ε(η)为阶跃函数
Figure BDA0002549632880000041
ε(η)=1时表示车载任务卸载成功,ε(η)=0表示车载任务被成功卸载失败。
base为常数,表示基础奖励,则ε(η)×base表示当车载任务卸载成功时获取了基础奖励,失败时则不会获取基础奖励;
②delay(rD,t)表示执行车辆卸载任务所获取的奖励或者惩罚
delay(rD)=Rward×(rD-t)
其中,rD表示卸载该车载任务所用的时间,t表示该车载任务的卸载时间约束。当在约束时间t内完成卸载则获取奖励,否则获取惩罚。Rward为奖励值或者惩罚值;
③access(rA)用来判断当前RSU是否还可以接收更多的车载任务
Figure BDA0002549632880000051
MAXrA表示当前RSU可接入的最多的车载任务数量。当可以接入更多车载任务时,即rA≤MAXrA,access(rA)不会对奖励函数reward有任何影响,当rA>MAXrA时,则access(rA)会使reward等于0,即不会有任何奖励。
步骤4.4,根据步骤4.1-4.3中的马尔可夫模型,使用DDPG-HER算法求解最优卸载时隙决策,具体求解步骤如下:
步骤4.4.1,建立Actor当前网络、Actor目标网络、Critic当前网络、Critic目标网络,这四个网络的说明如下:
①Actor当前网络的参数为θ,θ也指代神经网络,负责更新网络的参数θ以及根据当前状态S产生当前动作A。动作A作用于当前状态S,当前状态S表示正在做某辆车的卸载时隙的决策、这辆车所处的位置、已经做好了哪些决策等信息的集合。生成状态S'和奖励R,奖励R由奖励函数reward获得;
②Actor目标网络的参数为θ',θ'也指代神经网络,负责从经验回放池中选择动作A'以及更新θ';
③Critic当前网络的参数为ω,ω也指代神经网络,负责计算当前Q值,Q值用来衡量选择动作的优劣。注意:这里的Q值与之前表示第i车辆任务的Qi不同;
④Critic目标网络的参数为ω',也指代神经网络,负责计算目标Q值,即Q'。
步骤4.4.2,训练Actor当前网络、Actor目标网络、Critic当前网络、Critic目标网络。具体步骤如下所示:
步骤4.4.2.1,首先获得初始化状态S,Actor当前网络根据状态S生成动作A;
步骤4.4.2.2,根据状态S和动作A计算奖励R,并且获取下一状态S';
步骤4.4.2.3,将{S,A,S'}存入经验回放池;
步骤4.4.2.4,将当前状态记为S';
步骤4.4.2.5,计算当前Q值与目标Q值;
步骤4.4.2.6,更新Critic当前网络参数ω;
步骤4.4.2.7,更新Actor当前网络参数θ;
步骤4.4.2.8,如果当前状态S'是终止状态,则迭代完毕,否则转到步骤4.4.2.2。
步骤4.4.3,由训练好的网络获得最优卸载时隙。
进一步,步骤5将算法部署至SDN控制器的具体方法为:
DDPG-HER算法训练完成后,保存Actor当前网络并将其部署至SDN控制器。当有卸载需求时,由SDN控制器根据当前网络和节点的状态信息为车载任务确定最佳的卸载时隙。
本发明的有益效果:
本发明针对现有技术的缺陷,将RSU的覆盖范围划分为若干区间,以精确选择卸载时隙,通过合理的分析和建模,并同时使用DDP-HER算法计算最优卸载决策,减小由于车辆任务卸载导致的网络延时。
附图说明
图1车载任务卸载时隙决策流程图
图2 DDPG-HER算法流程图
具体实施方式
下面结合附图对本发明作进一步说明。
下面对本发明做进一步的说明,需要说明的是,本实例的具体实施是以本技术为前提,给出了详尽的实施过程和实施步骤,但是本发明的保护范围并不受限于本实施实例。
如图1所示,假设此时车辆i准备卸载车载任务Qi,则本发明具体的实施流程如下:
(1)使用SDN控制器。各个局域网中包括RSU的集合r、请求在RSU区域中的卸载的车辆任务Q、RSU的网络带宽b信息发生改变时,可被汇总到SDN控制器中。车辆i准备卸载车载任务Qi,其请求信息被发送至SDN控制器;
(2)根据已经划分好的卸载时隙,车辆i准备卸载车载任务Qi,则根据公式
Figure BDA0002549632880000071
计算车辆i在不同时隙卸载所产生的卸载延迟;
(3)SDN控制器汇总车辆i的卸载任务Qi以及其他车辆的卸载任务,根据公式
Figure BDA0002549632880000072
将载任务卸载时隙决策方法转化为求解上面表达式的值;
(4)使用DDPG-HER算法求解该上述表达式。具体如下:
1.首先获得初始化状态S,即各个RSU的状态、所有车辆任务的完成情况。Actor当前网络根据状态S生成动作A,动作A即某辆车的任务所选择的卸载时隙。具体方法为:计算状态S的特征向量φ(S),动作
Figure BDA0002549632880000073
其中πθ表示神经网络θ生成的策略(在这里策略即为动作),表示神经网络θ(Actor当前网络)可根据当前的RSU的状态等信息选择车辆任务卸载的时隙,
Figure BDA0002549632880000074
表示噪声;
2.由当前状态S和动作A计算奖励R,并产生新的状态S'。当选择了某个车辆任务卸载的时隙后,各个RSU的状态、所有车辆任务的完成情况都会产生变化,其新的状态定义为S';
3.将{S,A,S'}存入经验回放池,其目的在于更好的训练神经网络。Actor目标网络θ'根据经验池中的S'选择出动作A';
4.将当前状态记为S';
5.计算当前Q值与目标Q值
Figure BDA0002549632880000075
Q(S,A,ω)为当前Q值,Q′(S′,A′,ω')为目标Q值,将状态S与动作A输入Critic当前网络ω计算完成;y为目标Q值,其中Q′(S′,A′,ω')计算原理与Q(S,A,ω)相同;γ为学习率。
6.使用当前Q值与目标Q值更新Critic当前网络ω:
ω←ω+(y-Q(S,A,ω))
y代表更加准确的Q值,ω+(y-Q(S,A,ω))表示Critic当前网络ω通过Q值更新自身。
7.Critic当前网络ω帮助Actor当前网络θ更新:
θ←θ-TD(S,A,ω)
其中TD(S,A,ω)表示ω计算在状态S下选择的动作A与最优动作的误差,θ-TD(S,A,ω)表示Actor当前网络θ消除了误差。
如果当前状态S'是终止状态,则迭代完毕,Actor当前网络会做出最优卸载时隙的决策,否则转到步骤2。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于深度强化学习的软件定义车载任务细粒度卸载方法,其特征在于,包括如下步骤:
步骤1,获取信息:车辆可接入的RSU的集合r、请求在RSU区域中的卸载的车辆任务Q、RSU的网络带宽b;
步骤2,根据步骤1中的RSU的信息划分车载任务的卸载时隙;
步骤3,将车载任务卸载时隙决策方法进行建模;
步骤4,使用深度强化学习方法求解步骤3中的模型表达式。
2.根据权利要求1所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法,其特征在于,所述步骤1中的信息具体包括:
①RSU区域中的卸载任务,记为q={Q1,…Qi,…,Qn},其中Qi表示第i辆车的任务;
②车载任务大小,记为m={M1,…,Mi,…Mn},其中Mi表示Qi的大小;
③t={T1,…,Ti,…,Tn},其中Ti即为Qi的时延约束;
④可供车辆接入的RSU集合,记为r={R1,…Ri,…Rn};
⑤各个RSU已经接入的车载任务数目,记为rA={R1A,…,RiA,…,RnA};
⑥RSU的带宽,记为b={B1,…,Bi,…,Bn},其中Bi表示Ri的网络带宽。
3.根据权利要求1所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法,其特征在于,所述步骤2中车载任务的卸载时隙划分方法为:
步骤2.1,收集RSU的链路带宽,记为W;收集RSU的平均信号功率,记为P;收集RSU的噪声功率,记为N;将RSU与车辆的链路损耗功率记为Lp
步骤2.2,车辆与RSU的传输速率ν可表示为:
Figure FDA0002549632870000011
其中,[LP]=32.45+20lg d+20lg f,d为车辆与RSU的距离,f为RSU的信号频率;
步骤2.3,大小为M的车载任务的传输延迟可表示为:
Figure FDA0002549632870000012
步骤2.4,根据网络延迟受车辆与RSU的相对距离影响,将每个RSU的覆盖范围划分为n个任务卸载时隙Gap1,…,Gapi,…Gapn,其中任意时隙用g表示,g∈[Gap1,…,Gapi,…Gapn
4.根据权利要求3所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法,其特征在于,步骤3中将车载任务卸载时隙决策方法进行建模的方法为:
步骤3.1,定义卸载决策为l={L1,…,Li,…,Ln},Li表示第i辆车的选择卸载任务的地点;过SRU做地面垂点,g表示为卸载时隙与该垂点的距离。则
Figure FDA0002549632870000021
其中,high为RSU与地面的垂直高度;
步骤3.2,确定单个任务的卸载决策,车载任务卸载时隙决策Li即为对卸载时隙g的选择,即对
Figure FDA0002549632870000022
一定有Li∈[Gap1,…,Gapi,…Gapn];
步骤3.3,车载任务的传输延迟可由RSU的带宽b、卸载时隙决策l、车载任务的大小m决定,则车载任务的传输延迟可重写为:
Figure FDA0002549632870000023
式(3)中的②表示RSU的链路带宽W由RSU的带宽b代替;④表示车辆与RSU的相对距离由决策l表示;
步骤3.4,由式(3)再次重写车载任务的传输延迟为:
Figure FDA0002549632870000024
其中Lp=32.45+20lg l(km)+20lg f(MHz);
步骤3.5,将车载任务卸载时隙决策方法转化为求解式(5),Di(b,l,Mi)表示第i个车载任务的传输延迟。
Figure FDA0002549632870000025
其中,MAXrA表示rA的最大值;车载任务卸载时隙决策会影响rA的值,rA≤MAXrA表示rA不能超过最大的车载任务接入数量。
5.根据权利要求4所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法,其特征在于,步骤4中利用深度强化学习方法求解式(5)的具体步骤为:
步骤4.1,建立马尔可夫状态空间
S={t,rV,rD,rA}
其中各个参数说明如下:
①车载任务的时延约束记为t={T1,…,Ti,…,Tn},其中Ti为任务Qi的时延约束;
②供车辆接入的RSU集合定义为r={R1,…Ri,…Rn},r中各个RSU的任意卸载时隙用g表示,g∈[Gap1,…,Gapi,…Gapn],处于不同的卸载时隙中车辆任务的卸载速率各有不同,将r中的所有卸载时隙的卸载速率集合表示为rV={R1G1V,…,RiGjV,…,RnGnV},RiGjV表示第i个RSU的第j个卸载时隙的传输速率;
③r中各个RSU的各个卸载时隙中车载任务的传输延迟表示为rD={R1G1D,…,RiGjD,…RnGnD},RiGjD表示车载任务在第i个RSU的第j个卸载时隙的传输延时;
④各个RSU已经接入的车载任务数目为rA={R1A,…,RiA,…,RnA};
步骤4.2,建立马尔可夫动作空间
A={(a,b)|a∈{[1,n]∩N+},b∈{[1,n]∩N+}
其中各个参数说明如下:
①a表示执行卸载车载任务时车辆所接入的RSU;
②b表示执行卸载车载任务时车辆所接入的RSU的卸载时隙;
③N+表示正整数;
步骤4.3,建立马尔可夫奖励函数reward:
reward=ε(η)×base+(2ε(η)-1)×delay(rD,t)+access(rA)
其中各个参数说明如下:
①ε(η)为阶跃函数
Figure FDA0002549632870000041
ε(η)=1时表示车载任务卸载成功,ε(η)=0表示车载任务被成功卸载失败,base为常数,表示基础奖励,则ε(η)×base表示当车载任务卸载成功时获取了基础奖励,失败时则不会获取基础奖励;
②delay(rD,t)表示执行车辆卸载任务所获取的奖励或者惩罚
delay(rD)=Rward×(rD-t)
其中,rD表示卸载该车载任务所用的时间,t表示该车载任务的卸载时间约束,当在约束时间t内完成卸载则获取奖励,否则获取惩罚,Rward为奖励值或者惩罚值;
③access(rA)用来判断当前RSU是否还可以接收更多的车载任务
Figure FDA0002549632870000042
MAXrA表示当前RSU可接入的最多的车载任务数量,当可以接入更多车载任务时,即rA≤MAXrA,access(rA)不会对奖励函数reward有任何影响,当rA>MAXrA时,则access(rA)会使reward等于0,即不会由任何奖励;
步骤4.4,根据步骤4.1-4.3中的马尔可夫模型,使用DDPG-HER算法求解最优卸载时隙。
6.根据权利要求5所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法,其特征在于,所述步骤4.4的具体实现包括如下:
步骤4.4.1,建立Actor当前网络、Actor目标网络、Critic当前网络、Critic目标网络,所述四个网络的说明如下:
①Actor当前网络的参数为θ,θ也指代神经网络,负责更新网络的参数θ以及根据当前状态S产生当前动作A,动作A作用于当前状态S,生成状态S'和奖励R,奖励R由奖励函数reward获得;
②Actor目标网络的参数为θ',θ'也指代神经网络,负责从经验回放池中选择动作A'以及更新θ';
③Critic当前网络的参数为ω,ω也指代神经网络,负责计算当前Q值,Q值用来衡量选择动作的优劣;
④Critic目标网络的参数为ω',也指代神经网络,负责计算目标Q值,即Q';
步骤4.4.2,训练Actor当前网络、Actor目标网络、Critic当前网络、Critic目标网络,具体步骤如下:
步骤4.4.2.1,首先获得初始化状态S,Actor当前网络根据状态S生成动作A;
步骤4.4.2.2,根据状态S和动作A计算奖励R,并且获取下一状态S';
步骤4.4.2.3,将{S,A,S'}存入经验回放池;
步骤4.4.2.4,将当前状态记为S';
步骤4.4.2.5,计算当前Q值与目标Q值;
步骤4.4.2.6,更新Critic当前网络参数ω;
步骤4.4.2.7,更新Actor当前网络参数;
步骤4.4.2.8,如果当前状态S'是终止状态,则迭代完毕,否则转到步骤4.4.2.2;
步骤4.4.3,由训练好的网络计算最优卸载时隙。
7.根据权利要求1所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法,其特征在于,还包括步骤5,将算法部署至SDN控制器。
8.根据权利要求7所述的一种基于深度强化学习的软件定义车载任务细粒度卸载方法,其特征在于,所述步骤5的具体方法为:
DDPG-HER算法训练完成后,保存Actor当前网络并将其部署至SDN控制器。当有卸载需求时,由SDN控制器根据当前网络和节点的状态信息为车载任务确定最佳的卸载时隙。
CN202010571179.1A 2020-06-22 2020-06-22 一种基于深度强化学习的软件定义车载任务细粒度卸载方法 Active CN111866807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010571179.1A CN111866807B (zh) 2020-06-22 2020-06-22 一种基于深度强化学习的软件定义车载任务细粒度卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010571179.1A CN111866807B (zh) 2020-06-22 2020-06-22 一种基于深度强化学习的软件定义车载任务细粒度卸载方法

Publications (2)

Publication Number Publication Date
CN111866807A true CN111866807A (zh) 2020-10-30
CN111866807B CN111866807B (zh) 2022-10-28

Family

ID=72987863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010571179.1A Active CN111866807B (zh) 2020-06-22 2020-06-22 一种基于深度强化学习的软件定义车载任务细粒度卸载方法

Country Status (1)

Country Link
CN (1) CN111866807B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112714178A (zh) * 2020-12-25 2021-04-27 北京信息科技大学 一种基于车载边缘计算的任务卸载方法及装置
CN113422795A (zh) * 2021-05-06 2021-09-21 江苏大学 一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法
CN113645273A (zh) * 2021-07-06 2021-11-12 南京邮电大学 基于业务优先级的车联网任务卸载方法
CN114116047A (zh) * 2021-11-09 2022-03-01 吉林大学 一种基于强化学习的车载计算密集型应用的v2i卸载方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067842A (zh) * 2018-07-06 2018-12-21 电子科技大学 面向车联网的计算任务卸载方法
CN109257429A (zh) * 2018-09-25 2019-01-22 南京大学 一种基于深度强化学习的计算卸载调度方法
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
CN110891253A (zh) * 2019-10-14 2020-03-17 江苏大学 一种基于社区热度的车载容迟网络路由方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067842A (zh) * 2018-07-06 2018-12-21 电子科技大学 面向车联网的计算任务卸载方法
CN109257429A (zh) * 2018-09-25 2019-01-22 南京大学 一种基于深度强化学习的计算卸载调度方法
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
CN110798842A (zh) * 2019-01-31 2020-02-14 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法
CN110891253A (zh) * 2019-10-14 2020-03-17 江苏大学 一种基于社区热度的车载容迟网络路由方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
彭二帅: "基于负载预测的车载边缘资源最优控制调度研究与系统实现", 《中国优秀硕士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112714178A (zh) * 2020-12-25 2021-04-27 北京信息科技大学 一种基于车载边缘计算的任务卸载方法及装置
CN112714178B (zh) * 2020-12-25 2023-05-12 北京信息科技大学 一种基于车载边缘计算的任务卸载方法及装置
CN113422795A (zh) * 2021-05-06 2021-09-21 江苏大学 一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法
CN113645273A (zh) * 2021-07-06 2021-11-12 南京邮电大学 基于业务优先级的车联网任务卸载方法
CN114116047A (zh) * 2021-11-09 2022-03-01 吉林大学 一种基于强化学习的车载计算密集型应用的v2i卸载方法
CN114116047B (zh) * 2021-11-09 2023-11-03 吉林大学 一种基于强化学习的车载计算密集型应用的v2i卸载方法

Also Published As

Publication number Publication date
CN111866807B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN111866807B (zh) 一种基于深度强化学习的软件定义车载任务细粒度卸载方法
CN112700639B (zh) 一种基于联邦学习与数字孪生的智能交通路径规划方法
CN107832882A (zh) 一种基于马尔科夫决策过程的出租车寻客策略推荐方法
CN113052206B (zh) 一种基于浮动车数据的路段旅行时间预测方法及装置
CN110427690A (zh) 一种基于全局粒子群算法生成ato速度曲线的方法及装置
CN114650567A (zh) 一种无人机辅助v2i网络任务卸载方法
CN115376031A (zh) 基于联邦自适应学习的公路无人机巡检数据处理方法
CN113687875A (zh) 一种车联网中车辆任务卸载方法及装置
CN114374741A (zh) Mec环境下基于强化学习的动态分组车联网缓存方法
CN113904948A (zh) 基于跨层的多维参数的5g网络带宽预测系统及方法
CN114339842A (zh) 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置
CN113726894B (zh) 一种基于深度强化学习的多车应用计算卸载方法及终端
CN116405904A (zh) 一种基于深度强化学习的tacs网络资源分配方法
CN113422795B (zh) 一种基于深度强化学习的车载边缘任务集中调度与资源分配联合优化方法
CN113709249A (zh) 辅助驾驶业务安全均衡卸载方法及系统
Cui et al. Model-free based automated trajectory optimization for UAVs toward data transmission
CN103906077A (zh) 基于近邻传播算法的路侧单元放置方法
CN116639124A (zh) 一种基于双层深度强化学习的自动驾驶车辆换道方法
US20230351205A1 (en) Scheduling for federated learning
CN115550357A (zh) 一种多智能体多任务协同卸载方法
CN114169463A (zh) 一种自主预测车道信息模型训练方法及装置
CN108985658B (zh) 一种基于模糊评判和客户期望的车联网协同下载方法
CN113194444B (zh) 一种通信计算资源优化方法、装置、系统及存储介质
CN116582836B (zh) 一种任务卸载与资源分配方法、设备、介质和系统
CN113815647B (zh) 一种车辆速度规划方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant