CN113382383A - 一种基于策略梯度的公交车辆计算任务卸载方法 - Google Patents
一种基于策略梯度的公交车辆计算任务卸载方法 Download PDFInfo
- Publication number
- CN113382383A CN113382383A CN202110654075.1A CN202110654075A CN113382383A CN 113382383 A CN113382383 A CN 113382383A CN 202110654075 A CN202110654075 A CN 202110654075A CN 113382383 A CN113382383 A CN 113382383A
- Authority
- CN
- China
- Prior art keywords
- bus
- network
- neural network
- state
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 25
- 238000000034 method Methods 0.000 title claims abstract description 15
- 230000009471 action Effects 0.000 claims abstract description 35
- 238000004891 communication Methods 0.000 claims abstract description 24
- 238000013468 resource allocation Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims description 63
- 238000012549 training Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 6
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 9
- 238000004422 calculation algorithm Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 24
- 238000005516 engineering process Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 101001093748 Homo sapiens Phosphatidylinositol N-acetylglucosaminyltransferase subunit P Proteins 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44594—Unloading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/0226—Traffic management, e.g. flow control or congestion control based on location or mobility
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0925—Management thereof using policies
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Traffic Control Systems (AREA)
Abstract
一种基于策略梯度的公交车辆计算任务卸载方法,步骤如下:1)构建公交车辆网络的系统状态,包括公交车辆状态、车联网络通信信道增益的状态和边缘服务器可用的计算能力。2)确定公交车辆网络中的动作,包括边缘服务器为公交车辆分配的计算资源以及边缘服务器为公交车辆分配的信道状态组成。3)确定公交车辆网络中的回报函数,由瞬时通信速率和瞬时计算率组成。4)基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)来进行公交车辆网络系统资源分配。本发明综合考虑了公交车辆的移动性、边缘服务器计算资源的有限性、通信覆盖范围的局限性等因素,结合车载边缘计算,最小化公交车辆任务的处理时延,进而提高了任务卸载效率。
Description
技术领域
本发明属于无线通讯技术和边缘计算领域,特别涉及一种车辆任务卸载技术。
背景技术
根据Gartner公司的数据,到2020年,路上的联网车辆将达到25亿辆,使得许多新的车载服务,比如自动驾驶能力,得以实现。在未来五年内,配备此功能的新车的比例将大幅增加,汽车联网在物联网(Internet ofThings,Io T)将占有重要地位。Gartner预测,2015年将有49亿相关产品投入使用,比2014年增长30%,到2020年将达到250亿。近年来,汽车行业正经历着关键性、巨大的变革,许多新型的车载应用和服务、以及观念被提出。例如:自动驾驶服务,安全驾驶和智能交通服务,交通和后勤数字化服务,智能导航,娱乐办公服务等。随着车联网规模的扩大和需求的不断升级,新的问题不断涌现,急需研究和解决。新兴的车载应用大多涉及到视频或图像处理技术,需要强大的数据处理能力。例如,未来的智能导航服务利用增强现实(Augmented Reality,AR)和实时视频流技术。在复杂的十字路口,这种服务能帮助司机提前做出驾驶选择,减轻司机的负担。在提供服务的过程中,需要不断处理周围车辆的传感器信息,数据量十分巨大,任务很难在车载系统上单独处理。
移动边缘计算(mobile edge computing,MEC)从移动云计算演化而来,由欧洲电信标准协会于2014年率先提出,通过将计算资源、网络控制功能、缓存数据部署在微基站和宏基站附近,大大减少数据来回处理时间和移动设备的能耗。在MEC系统中,由于移动设备自身计算能力有限,车辆或用户可以将将计算密集型任务卸载到网络边缘接入点,如基站、无线接入点等,由边缘服务器对任务进行处理,与移动云计算相比,这样做能大大减少数据往返的传输时间。车辆边缘计算(VEC)是指将新兴的移动边缘计算与传统的车辆网络进行结合,将通信、缓存和计算资源移动到接近车辆用户端。VEC有着近距离、超低时延、超高能效、超高可靠性等特点。
深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)是(Deep Q-learning,DQN)的扩展版本,可以扩展到连续动作的控制空间。它在DQN的基础上增加了一层策略网络,用于输出动作值。DDPG中所用到的神经网络,与Actor-Critic形式差不多,也需要有基于策略Policy的神经网络和基于价值Value的神经网络。但是为了体现DQN的思想,每种神经网络都需要再细分为两个。Policy Gradient这边,有估计网络和现实网络,估计网络用来输出实时的动作供actor在现实中实行,而现实网络则是用来更新价值网络系统的。在价值系统这边,也有现实网络和估计网络,他们都在输出这个状态的价值。但在输入端却有所不同,状态现实网络这边会拿着从动作现实网络来的动作加上状态的观测值加以分析,而状态估计网络则是拿着当时actor施加的动作当做输入。
发明内容
本发明要克服现有技术的上述缺点,提供基于策略梯度的公交车辆计算任务卸载方法。本发明综合考虑了公交车辆的移动性、边缘服务器计算资源的有限性、通信覆盖范围的局限性等因素,结合车载边缘计算,最小化公交车辆任务的处理时延,进而提高了任务卸载效率。
本发明的技术方案:
一种基于策略梯度的公交车辆计算任务卸载方法,步骤如下:
(1)构造公交车辆网络的环境状态,包括公交车辆状态、车联网络信道增益的状态和边缘服务器可用的计算能力,其中公交车辆状态包括公交车辆移动速度、公交车辆所处位置、所需卸载任务的大小。环境状态综合可以表示为:
st=[Di(t),Γk(t),Fk(t)] (1)
其中Di(t)表示公交车辆状态,Γi(t)表示车联网络通信信道增益,Fi(t)表示边缘服务器可用的计算能力
整个公交车任务卸载和资源分配的联合优化问题就变为最大化t时刻所有公交车辆的瞬时效率之和。
(4)收集当前公交车辆网络的状态空间,然后将状态空间通过元组的形式发送到“演员网络”,最后“演员网络”依据当下的动作策略Ω选择当下的动作:
at=Ω(t)=μ(st,θμ)+Nt (4)
其中,θμ是“演员-在线”神经网络的参数,Nt是随机噪声,st是当前的状态,μ是神经网络模拟的当前在线策略。
(5)公交车辆网络的状态空间依据上述步骤4的动作进行更新,得到新的交车辆网络的状态空间st+1。公交车辆按照上述步骤4的动作进行计算卸载,与此同时边缘服务器为公交车辆分配相应的通信带宽和计算资源。
(6)根据公交车辆网络的动作空间以及状态空间计算t时间段的奖励Rt,“演员网络”将转换元组(st,at,Rt,st+1)储存于经验重放池中用来训练集更新“演员—在线”深度神经网络。
(7)“演员—目标”深度神经网络根据步骤5得到的新状态st+1,利用神经网络模拟目标动作a’t:
a’t=μ’(st+1,θμ’)+N’t (5)
其中N’t是随机噪声,θμ’是“演员-目标”神经网络的参数,μ’是“演员-目标”神经网络模拟得到的目标在线策略。
(8)使用Q值来评估步骤4中的在线策略μ,来表示公交车辆网络在状态st下采取动作at,并且一直采用当前在线策略μ的情况下所得到的奖励期望值。公式如下:
Qμ(at,st,θμ)=E[r(at,st)+γQμ(st+1,μ(st+1,θQ),θμ)] (6)
其中,θQ为“评价-在线”神经网络的参数,γ为衰减系数,r(at,st)为奖励值计算Rt函数。“评价-在线”神经网络通过在经验重放池中取样带入Qμ(at,st,θμ)训练神经网络来求出Q值。
(9)“评价-目标”神经网络通过计算目标值来对“评价-在线”神经网络进行训练以及参数更新,在这里目标值的计算方法如下:
yt=r(at,st)+γQμ’(st+1,μ’(st+1θμ’),θQ’) (7)
其中,Qμ’使用“评价-目标”神经网络得到在状态st+1下使用策略μ’的Q值,γ为衰减系数,θQ’为“评价-目标”神经网络的参数。
(10)通过最小化均方差损失函数计算出最优的θQ值,其均方差损失函数定义如下:
其中,Qμ指通过“评价-在线”神经网络得到在st状态下采取at动作并且一直使用策略μ时的Q值,N表示从经验重放池中采样的数量。
(11)基于上述步骤10中得到最优的θQ参数与从经验重放池中取出的训练数据,使用函数J(μ)来评价策略μ的表现,通过使J(μ)最大化来找最优策略;采用蒙特-卡洛法求解函数J(μ)策略梯度:
(12)通过软更新的办法使用“评价-在线”神经网络的参数与“演员-在线”神经网络的参数分别更新“评价-目标”神经网络的参数以及“演员-目标”神经网络的参数:
在这里τ作为更新系数。优化目标函数是公交车辆网络系统中奖励函数的累计值,累计值在网络训练时趋于收敛,那么得到优化目标函数的最优解,即作为最优的资源分配方案。
优选地,更新系数τ取值0.001。
本发明的优点是:1、可以为受资源约束的公交车应用程序提供高效的计算能力。2、可以为公交车辆提供合理的资源分配使卸载计算任务效率最高。3、可以对车辆、边缘计算节点和接入网络的车辆环境进行全面、精确、实时地评价。
附图说明
图1是本发明的公交车任务卸载总体框架。
图2是本发明的公交车任务卸载总体过程。
图3是本发明的总体流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,本发明根据公交车流量以及公交车轨迹网络将城市划分成若干个区域。每个区域内都包含一个计算资源丰富的中央基站(Central Base Station),K个路基设备(RSU),以及U辆公交车,用和 分别表示路基设备和公交车辆的集合。在整个框架中,路基设备可以直接与公交车相互连接传输数据,也可以通过中继站(Relay station)与公交车、其他路基设备间相互连接传输数据,同时获取公交车辆任务卸载的全局信息。另外,公交车辆、路基设备、中继站都可以与中央基站直接相连。
如图1所示,本发明针对公交车辆的移动特性,将公交车辆的运动模拟为有固定路线和方向的离散跳跃,并且在一个时间段内公交车网络状态不变。公交车辆在路基设备的通信范围内通过一跳短程通信技术(DSRC)将任务上传到路基设备。路基设备通信范围以外的车辆可以将其任务上传到中央基站。在某一时间段内公交车辆与离其最近的路基设备相连,当最近的路基设备可用资源不能满足公交车辆请求时,公交车辆将把任务卸载给中央基站协调完成。当公交车辆进入或离开路基设备的无线覆盖范围时,根据当前边缘服务器和公交车辆的状态,中央基站将动态的控制路基设备的资源,来完成公交车辆卸载任务。本发明使用ai,k(t)来表示公交车辆、中央基站和路基设备的连接关系,其中ai,k(t)=1时表示在t时段公交车辆i与路基设备k相连,反之ai,k(t)=0时表示在t时段公交车辆i与中央基站相连,并且使用Mi,k表示在通信时间Ti内路基设备k与公交车辆i之间的通信次数。
本发明将正交频分多址(OFDMA)技术用于公交车车辆和路基设备之间的连接,时隙中瞬时数据传输速率计算公式如下:
在时间t从公交车辆i到中央基站接收信号可以通过下式计算:
其中x表示公交车发送的信号,y表示中央基站接收的信号。上式中的yi,0的第一部分是来自目标公交车辆的有效信号;第二部分是来自共享该信道其他公交车辆的干扰信号;第三部分是噪声。例如:现在有两辆公交车ui,如果中央基站将视为的干扰,并在解码后取消ui。当中央基站解码uj时,没有干扰。也就是说,对于车辆i,干扰信号是一组具有较小的等效信道增益。本发明认为N个车辆按其信道增益的降序共享相同的信道:车辆n的干扰信号可通过下式计算得到。
公交车辆与中央基站之间的数据传输速率如下:
最终得到车辆i的通信速率为:
计算模型:本发明将公交车上计算任务定义为i=(di,ci),其中di是计算任务的数据大小,ci是完成任务所需的CPU周期数。定义路基设备和中央基站k分配给公交车辆i的计算能力为fi,k,fi,k可被建模为随机变量,并分为N级;Fi,k(t)是在时间t即时计算能力,同样将该fi,k作为有限状态马尔可夫链。及时计算能力Fi,k(t)的转换矩阵见下式:
可以通过以下方式计算边缘服务器k上的计算任务ξi执行时间:
Δi,k=ci/fi,k (18)
可以通过以下方式获得计算速率(即每秒比特数):
公交车辆i在路基设备k在时间t时的瞬时计算率为:
其中Bs表示区域内公交车数量。
基于以上所提模型,本发明将公交车任务卸载以及资源分配问题表述成一个深度强化学习框架。如图2所示,首先所有的公交车辆都广播其位置信息,然后,公交车辆选择中央基站作为深度强化学习的代理,将卸载请求发送到中央基站。接着中央基站从边缘服务器和车辆收集状态,并且可以通过构建系统状态并选择最佳操作来执行任务调度和资源分配,并将任务分配发送给路基设备。最后,所有公交车辆将其卸载任务发送到相应的路基设备。
环境状态:公交车辆网络的系统状态包括公交车辆状态、车联网络通信信道增益的状态和边缘服务器可用的计算能力,其中公交车辆状态包括公交车辆移动速度、公交车辆所处位置、所需卸载任务的大小。环境状态综合可以表示为:
st=[Di(t),Γk(t),Fk(t)] (1)
其中Di(t)表示公交车辆状态,Γi(t)表示车联网络通信信道增益,Fi(t)表示边缘服务器可用的计算能力
系统动作:在深度强化学习中,公交车辆网络中的动作决定边缘服务器与中央基站给公交车辆分配各项资源的数量,中央基站在收到不同的公交车辆请求后,调度不同的边缘服务器资源为公交车辆进行卸载任务的计算。在时间段t内,公交车辆系统的动作可以由边缘服务器k为公交车辆分配的计算资源fi,k(t)以及边缘服务器k为公交车辆分配的信道状态组成,具体表示为:
回报函数:本发明将最大化的提高处理公交车卸载任务效率,因此本文将系统通信效率和计算效率之和定为我们的回报函数,见下式:
基于以上所提框架,本发明基于深度确定性策略梯度算法(Deep DeterministicPolicy Gradient,DDPG)来进行公交车辆网络系统资源分配。该算法包含“演员网络”以及“评价网络”,每个公交车辆网络中包含在线深度神经网络(Online Network)和目标深度神经网络(Target Network)用来处理公交车辆网络的信息;该算法还包含一个经验重放池(Replay Memory),用来储存训练数据,如图3所示该网络主要步骤如下所示:
步骤1:首先,收集目前公交车辆网络的状态空间,然后将状态空间通过元组的形式发送到“演员网络”,最后“演员网络”依据当下的动作策略Ω选择当下的动作:
at=Ω(t)=μ(st,θμ)+Nt (4)
其中,θμ是“演员-在线”神经网络的参数,Nt是随机噪声,st是当前的状态,μ是神经网络模拟的当前在线策略。
步骤2:公交车辆网络的状态空间依据上述步骤1的动作进行更新,得到新的交车辆网络的状态空间st+1。公交车辆按照上述步骤1的动作进行计算卸载,与此同时边缘服务器为公交车辆分配相应的通信带宽和计算资源;并且根据公交车辆网络的动作空间以及状态空间计算t时间段的奖励Rt,“演员网络”将转换元组(st,at,Rt,st+1)储存于经验重放池中用来训练集更新“演员—在线”深度神经网络;与此同时“演员—目标”深度神经网络根据得到的新状态st+1,并且利用神经网络模拟目标动作a’t:
a’t=μ’(st+1,θμ’)+N’t (5)
其中N’t是随机噪声,θμ’是“演员-目标”神经网络的参数,μ’是“演员-目标”神经网络模拟得到的目标在线策略。
步骤3:使用Q值来评估当前的在线策略μ,来表示公交车辆网络在状态st下采取动作at,并且一直采用当前在线策略μ的情况下所得到的奖励期望值。然后使用“评价网络”通过贝尔曼公式来计算Q值,公式如下:
Qμ(at,st,θμ)=E[r(at,st)+γQμ(st+1,μ(st+1,θQ),θμ)] (6)
其中,θQ为“评价-在线”神经网络的参数,γ为衰减系数,r(at,st)为奖励值计算Rt函数。“评价-在线”神经网络通过在经验重放池中取样带入Qμ(at,st,θμ)训练神经网络来求出Q值。“评价-目标”神经网络通过计算目标值来对“评价-在线”神经网络进行训练以及参数更新,在这里目标值的计算方法如下:
yt=r(at,st)+γQμ’(st+1,μ’(st+1θμ’),θQ’) (7)
其中,Qμ’使用“评价-目标”神经网络得到在状态st+1下使用策略μ’的Q值,γ为衰减系数,θQ’为“评价-目标”神经网络的参数。
通过最小化均方差损失函数计算出最优的θQ值,其均方差损失函数定义如下:
其中,Qμ指通过“评价-在线”神经网络得到在st状态下采取at动作并且一直使用策略μ时的Q值,N表示从经验重放池中采样的数量。
步骤4:基于上述步骤3中得到最优的θQ参数与从经验重放池中取出的训练数据,使用函数J(μ)来评价策略μ的表现,通过使J(μ)最大化来找最优策略;采用蒙特-卡洛法求解函数J(μ)策略梯度:
其中,N在这里表示训练数据的数量,用来表示函数的梯度。然后通过软更新的办法使用“评价-在线”神经网络的参数与“演员-在线”神经网络的参数分别更新“评价-目标”神经网络的参数以及“演员-目标”神经网络的参数:
在这里τ作为更新系数,通常它取值为0.001。优化目标函数是公交车辆网络系统中奖励函数的累计值,累计值在网络训练时趋于收敛,那么得到优化目标函数的最优解,即作为最优的资源分配方案。
通过上述实施例可以看出,本发明基于深度确定性策略梯度算法来进行公交车辆网络系统资源分配,综合考虑了公交车辆的移动性、边缘服务器计算资源的有限性、通信覆盖范围的局限性等,结合车载边缘计算,最小化公交车辆任务的处理延时,进而提高了任务卸载效率,更适用于有大量复杂计算和时延敏感任务要求的智能交通场景。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (2)
1.一种基于策略梯度的公交车辆计算任务卸载方法,步骤如下:
(1)构造公交车辆网络的环境状态,包括公交车辆状态、车联网络信道增益的状态和边缘服务器可用的计算能力,其中公交车辆状态包括公交车辆移动速度、公交车辆所处位置、所需卸载任务的大小;环境状态综合可以表示为:
st=[Di(t),Γk(t),Fk(t)] (1)
其中Di(t)表示公交车辆状态,Γi(t)表示车联网络信道增益,Fi(t)表示边缘服务器可用的计算能力;
整个公交车任务卸载和资源分配的联合优化问题就变为最大化t时刻所有公交车辆的瞬时效率之和;
(4)收集当前公交车辆网络的状态空间,然后将状态空间通过元组的形式发送到“演员网络”,最后“演员网络”依据当下的动作策略Ω选择当下的动作:
at=Ω(t)=μ(st,θμ)+Nt (4)
其中,θμ是“演员-在线”神经网络的参数,Nt是随机噪声,st是当前的状态,μ是神经网络模拟的当前在线策略;
(5)公交车辆网络的状态空间依据上述步骤(4)的动作进行更新,得到新的交车辆网络的状态空间st+1;公交车辆按照上述步骤(4)的动作进行计算卸载,与此同时边缘服务器为公交车辆分配相应的通信带宽和计算资源;
(6)根据公交车辆网络的动作空间以及状态空间计算t时间段的奖励Rt,“演员网络”将转换元组(st,at,Rt,St+1)储存于经验重放池中用来训练集更新“演员-在线”深度神经网络;
(7)“演员-目标”深度神经网络根据步骤(5)得到的新状态st+1,利用神经网络模拟目标动作a’t:
a’t=μ’(st+1,θμ’)+N’t (5)
其中N’t是随机噪声,θμ’是“演员-目标”神经网络的参数,μ’是“演员-目标”神经网络模拟得到的目标在线策略;
(8)使用Q值来评估步骤(4)中的在线策略μ,来表示公交车辆网络在状态st下采取动作at,并且一直采用当前在线策略μ的情况下所得到的奖励期望值;公式如下:
Qμ(at,st,θμ)=E[r(at,st)+γQμ(st+1,μ(st+1,θQ),θμ)] (6)
其中,θQ为“评价-在线”神经网络的参数,γ为衰减系数,r(at,st)为奖励值计算Rt函数;“评价-在线”神经网络通过在经验重放池中取样带入Qμ(at,st,θμ)训练神经网络来求出Q值;
(9)“评价-目标”神经网络通过计算目标值来对“评价-在线”神经网络进行训练以及参数更新,在这里目标值的计算方法如下:
yt=r(at,st)+γQμ’(st+1,μ’(st+1θμ’),θQ’) (7)
其中,Qμ’使用“评价-目标”神经网络得到在状态st+1下使用策略μ’的Q值,γ为衰减系数,θQ’为“评价-目标”神经网络的参数;
(10)通过最小化均方差损失函数计算出最优的θQ值,其均方差损失函数定义如下:
其中,Qμ指通过“评价-在线”神经网络得到在st状态下采取at动作并且一直使用策略μ时的Q值,N表示从经验重放池中采样的数量;
(11)基于上述步骤(10)中得到最优的θQ参数与从经验重放池中取出的训练数据,使用函数J(μ)来评价策略μ的表现,通过使J(μ)最大化来找最优策略;采用蒙特-卡洛法求解函数J(μ)策略梯度:
(12)通过软更新的办法使用“评价-在线”神经网络的参数与“演员-在线”神经网络的参数分别更新“评价-目标”神经网络的参数以及“演员-目标”神经网络的参数:
在这里τ是更新系数;优化目标函数是公交车辆网络系统中奖励函数的累计值,累计值在网络训练时趋于收敛,那么得到优化目标函数的最优解,即作为最优的资源分配方案。
2.如权利要求1所述的一种基于策略梯度的公交车辆计算任务卸载方法,其特征在于:步骤(12)中更新系数τ取值为0.001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110654075.1A CN113382383A (zh) | 2021-06-11 | 2021-06-11 | 一种基于策略梯度的公交车辆计算任务卸载方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110654075.1A CN113382383A (zh) | 2021-06-11 | 2021-06-11 | 一种基于策略梯度的公交车辆计算任务卸载方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113382383A true CN113382383A (zh) | 2021-09-10 |
Family
ID=77573991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110654075.1A Pending CN113382383A (zh) | 2021-06-11 | 2021-06-11 | 一种基于策略梯度的公交车辆计算任务卸载方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113382383A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090108A (zh) * | 2021-09-16 | 2022-02-25 | 北京邮电大学 | 算力任务执行方法、装置、电子设备及存储介质 |
CN114697394A (zh) * | 2022-05-27 | 2022-07-01 | 合肥工业大学 | 基于离散maddpg的边缘缓存决策模型、方法和系统 |
CN115550944A (zh) * | 2022-08-18 | 2022-12-30 | 重庆大学 | 一种车联网中基于边缘计算和深度强化学习的动态服务放置方法 |
CN116215252A (zh) * | 2023-03-11 | 2023-06-06 | 南京农业大学 | 动态交互式新能源交通系统及其交互方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109756378A (zh) * | 2019-01-12 | 2019-05-14 | 大连理工大学 | 一种车载网络下的智能计算卸载方法 |
CN110213796A (zh) * | 2019-05-28 | 2019-09-06 | 大连理工大学 | 一种车联网中的智能资源分配方法 |
CN110427261A (zh) * | 2019-08-12 | 2019-11-08 | 电子科技大学 | 一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法 |
CN111464976A (zh) * | 2020-04-21 | 2020-07-28 | 电子科技大学 | 一种基于车队的车辆任务卸载决策和总体资源分配方法 |
CN111835827A (zh) * | 2020-06-11 | 2020-10-27 | 北京邮电大学 | 物联网边缘计算任务卸载方法及系统 |
CN112882815A (zh) * | 2021-03-23 | 2021-06-01 | 南京邮电大学 | 基于深度强化学习的多用户边缘计算优化调度方法 |
-
2021
- 2021-06-11 CN CN202110654075.1A patent/CN113382383A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109756378A (zh) * | 2019-01-12 | 2019-05-14 | 大连理工大学 | 一种车载网络下的智能计算卸载方法 |
CN110213796A (zh) * | 2019-05-28 | 2019-09-06 | 大连理工大学 | 一种车联网中的智能资源分配方法 |
CN110427261A (zh) * | 2019-08-12 | 2019-11-08 | 电子科技大学 | 一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法 |
CN111464976A (zh) * | 2020-04-21 | 2020-07-28 | 电子科技大学 | 一种基于车队的车辆任务卸载决策和总体资源分配方法 |
CN111835827A (zh) * | 2020-06-11 | 2020-10-27 | 北京邮电大学 | 物联网边缘计算任务卸载方法及系统 |
CN112882815A (zh) * | 2021-03-23 | 2021-06-01 | 南京邮电大学 | 基于深度强化学习的多用户边缘计算优化调度方法 |
Non-Patent Citations (1)
Title |
---|
ZHAOLONG NING ET AL.: "deep reinforcement learning for vehicular edge computing:an intelligent offloading system", 《ACM TRANSACTIONS ON INTELLIGENT SYSTEMS AND TECHNOLOGY》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114090108A (zh) * | 2021-09-16 | 2022-02-25 | 北京邮电大学 | 算力任务执行方法、装置、电子设备及存储介质 |
CN114090108B (zh) * | 2021-09-16 | 2024-02-06 | 北京邮电大学 | 算力任务执行方法、装置、电子设备及存储介质 |
CN114697394A (zh) * | 2022-05-27 | 2022-07-01 | 合肥工业大学 | 基于离散maddpg的边缘缓存决策模型、方法和系统 |
CN114697394B (zh) * | 2022-05-27 | 2022-08-16 | 合肥工业大学 | 基于离散maddpg的边缘缓存决策模型、方法和系统 |
CN115550944A (zh) * | 2022-08-18 | 2022-12-30 | 重庆大学 | 一种车联网中基于边缘计算和深度强化学习的动态服务放置方法 |
CN115550944B (zh) * | 2022-08-18 | 2024-02-27 | 重庆大学 | 一种车联网中基于边缘计算和深度强化学习的动态服务放置方法 |
CN116215252A (zh) * | 2023-03-11 | 2023-06-06 | 南京农业大学 | 动态交互式新能源交通系统及其交互方法 |
CN116215252B (zh) * | 2023-03-11 | 2024-03-08 | 南京农业大学 | 动态交互式新能源交通系统及其交互方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113382383A (zh) | 一种基于策略梯度的公交车辆计算任务卸载方法 | |
CN109391681B (zh) | 基于mec的v2x移动性预测与内容缓存卸载方案 | |
CN112601197B (zh) | 一种基于非正交多址的车联网络中资源优化方法 | |
Jiang et al. | Resource allocation of video streaming over vehicular networks: A survey, some research issues and challenges | |
US11106209B2 (en) | Anomaly mapping by vehicular micro clouds | |
CN114116047B (zh) | 一种基于强化学习的车载计算密集型应用的v2i卸载方法 | |
CN111132074B (zh) | 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法 | |
Boukerche et al. | An efficient mobility-oriented retrieval protocol for computation offloading in vehicular edge multi-access network | |
CN113254188B (zh) | 调度优化方法和装置、电子设备及存储介质 | |
CN115209426B (zh) | 一种边缘车联网内数字孪生服务器动态部署方法 | |
CN112929849B (zh) | 一种基于强化学习的可靠车载边缘计算卸载方法 | |
CN115277845A (zh) | 基于多智能体近端策略的车联网分布式边缘缓存决策方法 | |
CN116030623A (zh) | 认知车联网场景下基于区块链的协作路径规划和调度方法 | |
Lin et al. | Low-latency edge video analytics for on-road perception of autonomous ground vehicles | |
Maleki et al. | Handover-enabled dynamic computation offloading for vehicular edge computing networks | |
CN115208892B (zh) | 基于动态资源需求的车路协同在线任务调度方法及系统 | |
CN116709249A (zh) | 一种关于车联网中边缘计算的管理方法 | |
CN114979145B (zh) | 一种车联网中集成感知、通信与缓存的内容分发方法 | |
CN113490181B (zh) | 一种基于lstm神经网络的车辆传输时延优化方法 | |
CN115052262A (zh) | 一种基于势博弈的车联网计算卸载与功率优化方法 | |
Saleh et al. | AI empowered computing resource allocation in vehicular ad-hoc NETworks | |
CN117042051B (zh) | 一种车联网中任务卸载策略生成方法、系统、设备及介质 | |
CN115134242B (zh) | 一种基于深度强化学习策略的车载计算任务卸载方法 | |
CN114928893B (zh) | 一种基于智能反射面的架构及任务卸载方法 | |
CN115037751B (zh) | 一种无人机辅助的异构车联网任务迁移与资源分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210910 |