CN112511614A - 基于强化学习的车载边缘环境下智能网联车辆任务卸载方法 - Google Patents

基于强化学习的车载边缘环境下智能网联车辆任务卸载方法 Download PDF

Info

Publication number
CN112511614A
CN112511614A CN202011314858.7A CN202011314858A CN112511614A CN 112511614 A CN112511614 A CN 112511614A CN 202011314858 A CN202011314858 A CN 202011314858A CN 112511614 A CN112511614 A CN 112511614A
Authority
CN
China
Prior art keywords
vehicle
task
time
tav
slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011314858.7A
Other languages
English (en)
Other versions
CN112511614B (zh
Inventor
林兵
林凯
黄志高
卢宇
陈星�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Normal University
Original Assignee
Fujian Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Normal University filed Critical Fujian Normal University
Priority to CN202011314858.7A priority Critical patent/CN112511614B/zh
Publication of CN112511614A publication Critical patent/CN112511614A/zh
Application granted granted Critical
Publication of CN112511614B publication Critical patent/CN112511614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开基于强化学习的车载边缘环境下智能网联车辆任务卸载方法,结合车载边缘计算VEC优势,建立CAVs任务卸载模型,将CAVs应用程序划分为多个存在数据依赖关系的任务,并确定了最小化应用卸载总能耗和调度失败率的联合优化目标。本发明综合考虑不同时间片上车辆的位置变化、卸载方式、优化目标等,建立了任务卸载的马尔可夫决策过程MDP模型。在CAVs计算、存储能力有限的情况下,选择合适的卸载平台,保证应用满足时延约束的前提下,降低系统能耗。

Description

基于强化学习的车载边缘环境下智能网联车辆任务卸载方法
技术领域
本发明涉及智能车联网技术领域,尤其涉及基于强化学习的车载边缘环境下智能网联车辆任务卸载方法。
背景技术
随着人工智能技术、移动通信技术和传感器技术的飞速发展,车辆的设计需求不再局限于单一驾驶功能,而是逐渐成为一个智能、互联、自主的系统,把这些车辆统称为智能网联车辆(Connected and Autonomous Vehicles,CAVs)。CAVs可以有效提高驾驶员的行驶效率、反应能力和驾驶舒适度。近年来,全球机动车保有量不断上升,道路上车辆数量的增加严重影响了道路交通系统的整体安全性和交通效率,CAVs的发展越来越受到学术界和工业界的关注。通过CAVs和基础设施及邻域车辆的信息资源共享,CAVs可以全面感知驾驶环境,有效提高道路行驶安全和交通效率,减少人为失误造成的交通事故,缓解交通拥堵情况。
根据Intel的一份报告,在2020年,CAVs每天将产生4TB的数据。面对如此庞大的数据量,一方面车载单元(On-board Unit,OBU)有限的计算和存储能力不足以满足大部分计算密集型应用需求;另一方面,对于计算密集型以及具有时延约束的应用程序,传统云计算中云服务器远离车辆,远程卸载应用将进一步给回程网络带来巨大压力,导致严重的服务延迟和带宽压力,不足以满足应用程序需求。如何选择合适的调度平台,降低CAVs本地应用和各种第三方应用的卸载总能耗和调度失败率,是目前CAVs任务卸载中重点关注的问题。
在车载边缘计算(Vehicular Edge Computing,VEC)中,具有计算和存储能力的移动边缘计算(Mobile Edge Computing,MEC)服务器可以部署在路侧单元(Roadside Units,RSUs)中。CAVs产生的应用数据不仅可以在本地车辆处理,还可以通过车辆与基础设施(Vehicle to Infrastructure,V2I)通信卸载至RSUs上进行处理或通过车辆与车辆(Vehicle to Vehicle,V2V)通信卸载至通信范围内的协同车辆上进行处理。在车辆边缘侧进行应用数据的处理和分析,可以显著缩短应用完成时间,降低能耗。因此,在VEC环境下考虑CAVs的任务卸载问题为满足CAVs应用服务需求提供了一个良好的解决方案。因此,针对车载边缘计算下面向卸载总能耗和调度失败率的智能网联车辆任务卸载策略问题,目前现有技术尚未形成一个完整有效的解决方案。
发明内容
本发明的目的在于提供基于强化学习的车载边缘环境下智能网联车辆任务卸载方法,综合考虑了车辆移动性、任务间数据依赖关系、应用可容忍时间等,结合车载边缘计算,优化卸载总能耗和调度失败率。该方法考虑车辆移动性、任务间数据依赖关系、应用可容忍时间的影响;通过引入Metropolis准则,平衡强化学习算法的探索与开发。有效降低车载边缘环境下的智能网联车辆任务卸载调度总能耗和调度失败率。
本发明采用的技术方案是:
基于强化学习的车载边缘环境下智能网联车辆任务卸载方法,其包括以下步骤:
步骤1,构建表征VEC环境下的CAV任务卸载的MDP模型并初始化时间片time_slot=1;
步骤2,判断时间片time_slot是否为偶数;是则,任务车辆TaV生成一个CAVs应用程序,分解后任务进入任务车辆TaV的任务队列;否则,执行步骤3;
步骤3,计算任务车辆TaV与该任务车辆TaV通信范围内的RSUs和服务车辆SeVs距离得到Stime_slot
步骤4,判断任务车辆TaV的任务数据是否完成传输;是则,根据SA-QL动作策略选择Atime_slot并执行步骤6;否则,计算Atime_slot=Atime_slot-1
步骤5,判断任务车辆TaV是否断开通信;是则,将当前传输任务对应的应用剩余生命周期置0;否则,执行步骤6;
步骤6,执行Atime_slot,更新车载边缘环境,得到Stime_slot+1
步骤7,由式(14)计算loss,得到Rtime_slot
步骤8,基于<Stime_slot,Atime_slot,Rtime_slot,Stime_slot+1>四元组信息更新Q-learning价值函数;
步骤9,判断时间片time_slot是否大于每个时间片长度上限ε;是则,采用退火公式对温度进行降温处理;否则,时间片time_slot加1并执行步骤2。
进一步地,步骤1的MDP模型中包括任务车辆TaV和服务车辆SeVs;车辆行驶的道路两侧部署有若干RSUs,每个RSU都配备一个VEC服务器;
进一步地,步骤1中TaV可选择卸载计算任务至SeVs执行以充分利用邻域内协同车辆的计算资源。
进一步地,步骤1中MDP模型中第k个时间片的状态空间为
Figure BDA0002791036500000021
其中tk为TaV的位置坐标;Ok为TaV通信范围内的SeVs和RSUs与TaV的距离;MDP模型中第k个时间片的动作空间为
Figure BDA0002791036500000022
表示TaV可选择的任务卸载方式;MDP模型中第k个时间片的奖励为
Figure BDA0002791036500000023
进一步地,步骤4中SA-QL算法采用Metropolis准则进行动作的选择。
进一步地,步骤6中Q-learning价值函数更新方式如下:
Figure BDA0002791036500000031
其中α为学习效率,表示价值函数更新的程度,r为即时奖励,表示转移至下一个状态所得到的奖励,γ为折扣因子,表示后续状态的价值对当前状态的影响程度,
Figure BDA0002791036500000033
为选取的价值最大的状态-动作对的值。
由于:
Figure BDA0002791036500000032
Qeval=Q(St,At) (20)
因此,价值函数更新公式可进一步表示为Q(St,At)=Q(St,At)+α(Qreal-Qeval)(21)
进一步地,步骤9中的退火策略采用等比降温策略:
Tk=θkT0 (22)
其中T0为初始温度,k为当前回合次数,θ为降温系数。
本发明采用以上技术方案,在CAVs计算、存储能力有限的情况下,选择合适的卸载平台,保证应用满足时延约束的前提下,降低系统能耗。本发明通过引入Metropolis准则,平衡算法的探索与开发,优化车载边缘环境下任务卸载总能耗和调度失败率。本发明属于并行和分布式高性能计算领域的车载边缘环境下基于强化学习的智能网联车辆任务卸载策略,具体涉及一种在车载边缘环境下综合考虑了车辆移动性、任务间数据依赖关系、应用可容忍时间等,面向卸载总能耗和调度失败率的智能网联车辆任务卸载策略。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1本发明的VEC模型结构示意图;
图2本发明的在第一个和第二个时间片时任务处理情况;
图3本发明的在第三个和第四个时间片时任务处理情况。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。
如图1至图3之一所示,本发明具体地工作原理做详细说明:
VEC模型:将车辆分为两类:任务车辆(Task Vehicle,TaV)和服务车辆(ServiceVehicles,SeVs)。两者都配备有OBU,因此具备一定的处理能力。其中将CAVs视为TaV,TaV是产生应用程序计算任务的载体,可以卸载计算任务至SeVs执行以充分利用邻域内协同车辆的计算资源。道路上有多个固定的RSUs,每个RSU都配备有一个VEC服务器,通过有线连接与其集成,具备有一定的计算能力,并部署在车辆行驶的道路两侧。
如图1所示,在VEC模型中,有x个RSUs,可以表示为{α12,...,αx};1辆TaV表示为β1以及w辆SeVs表示为{χ12,...,χw}行驶在道路上。RSU的覆盖半径分别为{r1,r2,...,rb},车辆的通信半径为rv。TaV既可以通过V2I形式与其通信范围内的SeVs进行通信,也可以通过V2V形式与其通信范围内的SeVs进行通信。TaV可以产生z种CAVs应用类型,CAVs应用可以分解为多个任务,每个RSUs、TaV以及SeVs都有一个任务队列,分别表示为
Figure BDA0002791036500000041
(i∈{1,2,...,z}),存放着CAVs应用程序划分后的任务。
为了更好地描述CAVs应用程序生成、传输和处理过程,把车辆行驶时间划分为t个时间片,每个时间片长度为ε。在一个时间片内,VEC系统是静态的,即车辆的相对位置以及无线信道状态保持不变。TaV每隔m个时间片生成应用程序,生成的应用类型服从均匀分布,在车辆行驶的时间内,共产生
Figure BDA00027910365000000419
个CAVs应用程序。任务通过计算后的返回结果大小通常比任务数据小得多,因此忽略输出结果返回过程,仅考虑任务数据的传输与处理。
应用模型:大多数CAVs应用使用基于计算机视觉或深度学习的算法来处理由车载传感器(摄像头、雷达等)收集到的庞大车辆数据。CAVs本地应用程序和各种第三方应用程序通常为计算密集型、或时延敏感型应用,往往需要利用大量的计算资源来处理实时数据,以达到低响应延迟的处理要求。
CAVs应用的核心算法通常为计算密集型应用,CAV上资源有限的OBU无法满足应用程序的时延约束。因此,为了充分利用CAVs通信范围内RSU以及SeVs的计算资源,可以将CAVs应用进行分解处理。有z种CAVs应用类型,可以将其划分为多个任务,表示为
Figure BDA0002791036500000042
(i∈{1,2,...,z}),其中Gi为任务间的时序依赖关系,li为CAVs应用的可容忍时间。CAVs应用分解后的任务间有着时序依赖关系,可由一个有向无环图Gi=<Ni,Ei>表示,其中
Figure BDA0002791036500000043
为CAVs应用分解后的任务集合。分解后的任务可进一步表示为
Figure BDA0002791036500000044
(j∈{1,2,...,|Ni|}),其中j为任务编号,
Figure BDA0002791036500000045
为任务深度,任务深度由公式(1)表示,
Figure BDA0002791036500000046
为任务数据量;任务间的时序依赖关系可表示为
Figure BDA0002791036500000047
表示任务间时序约束有向边集,
Figure BDA0002791036500000048
表示存在一条
Figure BDA0002791036500000049
的有向边,其中
Figure BDA00027910365000000410
Figure BDA00027910365000000411
的直接前驱任务。直接前驱任务
Figure BDA00027910365000000412
必须在
Figure BDA00027910365000000413
执行前完成,任务直接前驱节点集合可以表示为
Figure BDA00027910365000000414
当任务
Figure BDA00027910365000000415
直接前驱节点集合
Figure BDA00027910365000000416
里的任务全部完成,该任务才具备执行条件。
Figure BDA00027910365000000417
任务队列模型:在VEC场景中,将任务队列可分为两类,一类是TaV上的任务队列
Figure BDA00027910365000000418
另一类是SeVs和RSUs上的任务队列
Figure BDA0002791036500000051
对于任务队列Qi,有以下通用定义:
1)Qi中的任务数据可以通过V2I通信、V2V通信将任务传输至RSUs或SeVs上处理,也可以进行本地处理
2)Qi中的任务先按任务深度,后按任务编号升序排序
3)Qi的队列长度为
Figure BDA0002791036500000052
对于TaVs上的任务队列
Figure BDA0002791036500000053
有以下定义:
1)
Figure BDA0002791036500000054
存放着TaV所生成应用程序分解后的任务
2)TaV只能传输或处理位于Qt队首的任务数据
对于SeVs和RSUs上的任务队列
Figure BDA0002791036500000055
有以下定义:
1)
Figure BDA0002791036500000056
存放着TaV传输过来的任务
2)SeVs和RSUs只能处理位于
Figure BDA0002791036500000057
队首的任务数据
通信模型:在VEC网络中,TaV可以与通信范围内的SeVs、RSUs通过V2V、V2I的形式进行连接,传输处于
Figure BDA00027910365000000515
队首的任务数据。为了建立适用于VEC网络的通信模型,定义信道带宽为b,TaV的传输功率为ptr,信道衰落因子为h,高斯白噪声功率为γ,路径损耗因子为δ,TaV与通信范围内的SeVs或RSUs的距离为
Figure BDA0002791036500000058
由公式(3)表示,其中
Figure BDA0002791036500000059
为二维横坐标,
Figure BDA00027910365000000510
为二维纵坐标。
在第k个时间片,TaV与通信范围内的SeVs或RSUs间的数据传输率为:
Figure BDA00027910365000000511
Figure BDA00027910365000000512
VEC环境中的通信模型可分为RSU卸载、协同车辆卸载两个部分:
a)RSU卸载:
在第k个时间片,对于TaVβ1和RSUαj间的通信,必须满足它们间的距离在RSU的覆盖半径内,即满足
Figure BDA00027910365000000513
才可进行任务数据的传输。如果TaVsβ1要传输任务数据至RSUαj,那么其传输的任务数据量可以表示为:
Figure BDA00027910365000000514
与此同时,TaVsβ1和RSUαj间的通信将产生通信能耗,可以表示为:
Figure BDA0002791036500000061
b)协同车辆卸载:
在第k个时间片,对于TaVsβ1和SeVsχj间的通信,必须满足它们间的距离在车辆的覆盖半径内,即满足
Figure BDA0002791036500000062
才可进行任务数据的传输。如果TaVsβ1要传输任务数据至SeVsχj,那么其传输的任务数据量可以表示为:
Figure BDA0002791036500000063
与此同时,TaVβ1和SeVsχj间的通信将产生通信能耗,可以表示为:
Figure BDA0002791036500000064
计算模型:在VEC网络中,TaV、RSUs、SeVs的任务队列中存放着CAVs应用划分后的任务,TaVs可以选择将
Figure BDA00027910365000000611
队首任务数据传输至其通信范围内的RSUs或SeVs的任务队列中,由RSUs或SeVs进行任务数据的处理,也可以选择本地处理任务数据;RSUs和SeVs只对
Figure BDA00027910365000000612
队首的任务数据进行本地处理。
VEC环境中的计算模型可分为本地处理、RSU处理两个部分:
a)本地处理:
第i辆车辆(TaV和SeVs)本地处理的功耗为:
Figure BDA0002791036500000065
其中κ1为与车辆芯片结构相关的有效开关电容,
Figure BDA0002791036500000066
为第i辆车辆本地计算的处理能力。同时,车辆本地处理将产生一定的能耗,可以表示为:
Figure BDA0002791036500000067
第i辆车辆在单个时间片内可处理的数据总量为:
Figure BDA0002791036500000068
其中c为任务数据处理密度。
b)RSU处理:
第i个RSU处理的功耗为:
Figure BDA0002791036500000069
其中κ2为与RSU芯片结构相关的有效开关电容,
Figure BDA00027910365000000610
为第i个RSU计算的处理能力。同时,RSU处理任务数据将产生一定的能耗,可以表示为:
Figure BDA0002791036500000071
第i辆车辆在单个时间片内可处理的数据总量为:
Figure BDA0002791036500000072
其中c为任务数据处理密度。
在单个时间片中,TaV可以卸载任务数据至通信范围内的SeVs、RSUs上或者本地处理任务数据。用0-1决策变量来表示TaV采取的任务调度方式:νi表示第i个时间片TaV选择本地处理数据;
Figure BDA0002791036500000073
表示第i个时间片TaV选择卸载任务数据至通信范围内的SeVsχj
Figure BDA0002791036500000074
表示第i个时间片TaV选择卸载任务数据至通信范围内的RSUsαj。SeVs与RSUs只有当
Figure BDA0002791036500000075
上有任务数据时才进行数据处理,用
Figure BDA0002791036500000076
Figure BDA0002791036500000077
分别表示SeVs与RSUs第i个时间片SeVs与RSUs是否进行数据处理。
基于以上所提出的模型,可以将车载边缘环境下网联自动驾驶车辆任务卸载问题定义为:
Figure BDA0002791036500000078
其中,β和ζ为权重系数,反映了对时延优化和能耗优化的侧重程度。
Figure BDA0002791036500000079
为未调度成功的任务数据总量,即调度失败CAVs应用(如果一个CAVs应用的完成时间大于可容忍时间,那么这个应用程序调度失败;如果一个CAVs应用任务在传输过程中由于接收数据的SeV或RSU离开TaV的通信范围,那么这个应用程序调度失败)中未处理的任务数据总量,调度失败CAVs应用的剩余生命周期为0(应用的剩余生命周期=可容忍时间-经过的时间片);
Figure BDA00027910365000000710
为所有车辆产生的总能耗,可以表示为:
Figure BDA00027910365000000711
其中
Figure BDA00027910365000000712
包含两部分,一部分为TaV产生的能耗,另一部分为SeVs产生的能耗;
Figure BDA00027910365000000713
为RSUs产生的总能耗,可以表示为:
Figure BDA00027910365000000714
Figure BDA00027910365000000715
为TaV卸载任务数据至SeVs或RSUs过程中产生的通信能耗,可以表示为:
Figure BDA00027910365000000716
其中
Figure BDA00027910365000000717
包含两部分,一部分为V2V通信,另一部分为V2I通信产生的通信能耗。约束的含义为在一个时间片内,TaV任务数据的处理方式只能选择本地处理、卸载至RSU、卸载至SeV三者其一。
如图2和图3为车载边缘环境下智能网联车辆任务卸载的一个实例分析。有4个时间片,每隔1个时间片TaV生成应用程序,共产生2个CAVs应用程序。如图1所示,在第一个时间片,TaV产生第一个CAVs应用程序A1(可容忍时间为4个时间片),分解成多个任务后进入任务队列。SeVχ1与RSUα1在TaV通信范围内,TaV可以选择传输任务数据至χ11或者本地处理任务数据,此时TaV选择本地处理任务数据,那么loss为TaV本地处理任务T1 1产生的能耗;在第二个时间片,SeVχ1与SeVχ2在TaV通信范围内,TaV可以选择传输任务数据至χ12或者本地处理任务数据,此时TaV选择传输任务数据至χ1,那么loss为TaV传输任务T1 2产生的能耗;如图3所示,在第三个时间片,TaV产生第二个CAVs应用程序A2(可容忍时间为4个时间片),此时TaV选择传输任务数据至χ2,那么loss为SeVχ1本地处理任务数据产生的能耗和TaV传输任务
Figure BDA0002791036500000083
产生的能耗之和;在第四个时间片,TaV选择本地处理任务数据,此时A1的任务T1 3还未处理,因此A1调度失败(完成时间大于可容忍时间);A2的所有任务都已经处理,因此A2调度成功,那么loss为A1未处理的任务数据总量d1 3和TaV本地处理产生的能耗以及χ2本地处理产生的能耗之和。
本发明公开了基于强化学习的车载边缘环境下智能网联车辆任务卸载方法,其包括以下步骤:
步骤1,构建表征VEC环境下的CAV任务卸载的MDP模型并初始化时间片time_slot=1;
具体地,在强化学习算法中模型的建立通常要具备4个关键要素:智能体、环境、动作与奖励。其中环境通常建模为MDP模型。在算法学习过程中,智能体观察当前环境并根据策略选择动作,执行动作后获得奖励,转移到下一个环境。强化学习算法模仿了人类的学习方式,其目的在于智能体与未知的环境交互时,通过不断试错,观察结果,能适当地调整策略,最终使总回报最大化。
MDP模型是强化学习算法的基本模型,由于现实环境中状态转移的概率往往和历史状态有关,这样很难建立模型,因此可以根据马尔科夫性(即无后效性,也就是指环境中的下个状态只与当前状态信息有关,而与历史的状态无关)来简化模型,使得下个状态只与当前状态和所采取的动作有关。
在式(14)中,环境主要取决于TaV、SeVs和RSUs的状态和TaV的任务卸载方式的选择。下一个时间片的状态只依赖于当前状态和TaV所采取的任务卸载动作。定义MDP模型中第k个时间片的状态空间为
Figure BDA0002791036500000086
其中tk为TaV的位置坐标;Ok为TaV通信范围内的SeVs和RSUs与TaV的距离。MDP模型中第k个时间片的动作空间为
Figure BDA0002791036500000087
表示TaV可选择的任务卸载方式。MDP模型中第k个时间片的奖励为
Figure BDA0002791036500000088
因此,VEC环境下的CAV任务卸载问题可以描述为MDP模型:智能体:TaV;状态:Sk;动作:Ak;奖励:Rk
步骤2,判断时间片time_slot是否为偶数;是则,任务车辆TaV生成一个CAVs应用程序,分解后任务进入任务车辆TaV的任务队列;否则,执行步骤3;
步骤3,计算任务车辆TaV与该任务车辆TaV通信范围内的RSUs和服务车辆SeVs距离得到Stime_slot
步骤4,判断任务车辆TaV的任务数据是否完成传输;是则,根据SA-QL动作策略选择Atime_slot并执行步骤6;否则,计算Atime_slot=Atime_slot-1
具体地,SA-QL算法:Q-learning是一种时序差分(Temporal-Difference,TD)算法,它基于随机过程且不依赖模型(Model-Free),无状态转化概率矩阵。由于算法更新价值函数时会选择最大价值进行更新,而动作选择不一定按最大价值所对应动作,因此会导致价值函数的乐观估计,由于这一特性,Q-learning属于离线策略(off-policy)学习方法。
Q-learning由<Sk,Ak,Rk,Sk+1>四元组信息对价值函数进行优化,其中Sk代表当前时间片的环境状态,Ak代表当前选择的动作,Rk代表即时奖励,Sk+1代表状态转移后下一个时间片的环境状态。
Q-learning价值函数更新方式如下:
Figure BDA0002791036500000091
其中α为学习效率,表示价值函数更新的程度,r为即时奖励,表示转移至下一个状态所得到的奖励,γ为折扣因子,表示后续状态的价值对当前状态的影响程度,
Figure BDA0002791036500000092
为选取的价值最大的状态-动作对的值。
由于:
Figure BDA0002791036500000093
Qeval=Q(St,At) (20)
因此,价值函数更新公式可进一步表示为Q(St,At)=Q(St,At)+α(Qreal-Qeval)(21)
即Q-learning价值函数的更新可表示为价值函数值加上现实值与估计值的差值与学习效率的乘积。
为了平衡算法的探索与开发,本文采用Metropolis准则进行动作的选择,其中退火策略采用等比降温策略:
Tk=θkT0 (22)
其中T0为初始温度,k为当前回合次数,θ为降温系数。
步骤5,判断任务车辆TaV是否断开通信;是则,将当前传输任务对应的应用剩余生命周期置0;否则,执行步骤6;
步骤6,执行Atime_slot,更新车载边缘环境,得到Stime_slot+1
步骤7,由式(14)计算loss,得到Rtime_slot
步骤8,基于<Stime_slot,Atime_slot,Rtime_slot,Stime_slot+1>四元组信息更新Q-learning价值函数;
步骤9,判断时间片time_slot是否大于每个时间片长度上限ε;是则,采用退火公式对温度进行降温处理;否则,时间片time_slot加1并执行步骤2。
本发明综合考虑了车辆移动性、任务间数据依赖关系、应用可容忍时间等,结合车载边缘计算,提出一种面向智能网联车辆的任务卸载策略,目的是优化卸载总能耗和调度失败率。该方法考虑车辆移动性、任务间数据依赖关系、应用可容忍时间的影响;通过引入Metropolis准则,平衡强化学习算法的探索与开发。有效降低车载边缘环境下的智能网联车辆任务卸载调度总能耗和调度失败率。
为了实现上述发明的目的,本发明的设计技术方案是:在CAVs计算、存储能力有限的情况下,选择合适的卸载平台,保证应用满足时延约束的前提下,降低系统能耗,本发明提出一种车载边缘环境下基于强化学习的智能网联车辆任务卸载策略,通过引入Metropolis准则,平衡算法的探索与开发,优化车载边缘环境下任务卸载总能耗和调度失败率。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

Claims (8)

1.基于强化学习的车载边缘环境下智能网联车辆任务卸载方法,其特征在于:其包括以下步骤:
步骤1,构建表征VEC环境下的CAV任务卸载的MDP模型并初始化当前经过的时间片个数time_slot=1;
步骤2,判断当前经过的时间片个数time_slot是否为偶数;是则,任务车辆TaV生成一个CAVs应用程序,分解后任务进入任务车辆TaV的任务队列;否则,执行步骤3;
步骤3,计算任务车辆TaV与该任务车辆TaV通信范围内的RSUs和服务车辆SeVs距离得到当前时间片的状态Stime_slot
步骤4,判断任务车辆TaV的任务数据是否完成传输;是则,根据SA-QL动作策略选择当前时间片要执行的动作Atime_slot并执行步骤6;否则,计算Atime_slot=Atime_slot-1,将前一个时间片的动作赋值给当前时间片要执行的动作;
步骤5,判断任务车辆TaV是否断开通信;是则,将当前传输任务对应的应用剩余生命周期置0;否则,执行步骤6;
步骤6,执行当前时间片选择的动作Atime_slot,更新车载边缘环境,得到下一个时间片的状态Stime_slot+1
步骤7,计算当前环境得到的损失函数值loss,计算1/loss得到奖励值Rtime_slot
步骤8,基于<Stime_slot,Atime_slot,Rtime_slot,Stime_slot+1>MDP模型四元组信息更新Q-learning价值函数;
步骤9,判断当前经过的时间片个数time_slot是否大于每个时间片长度上限ε;是则,采用退火公式对温度进行降温处理;否则,时间片time_slot加1并执行步骤2。
2.根据权利要求1所述的基于强化学习的车载边缘环境下智能网联车辆任务卸载方法,其特征在于:步骤1的MDP模型中包括任务车辆TaV和服务车辆SeVs;车辆行驶的道路两侧部署有若干RSUs,每个RSU都配备一个VEC服务器。
3.根据权利要求1所述的基于强化学习的车载边缘环境下智能网联车辆任务卸载方法,其特征在于:步骤1中任务车辆TaV可选择卸载计算任务至服务车辆SeVs执行以充分利用邻域内协同车辆的计算资源。
4.根据权利要求1所述的基于强化学习的车载边缘环境下智能网联车辆任务卸载方法,其特征在于:步骤1中MDP模型中第k个时间片的状态空间为
Figure FDA0002791036490000011
其中tk为TaV的位置坐标;Ok为TaV通信范围内的SeVs和RSUs与TaV的距离;MDP模型中第k个时间片的动作空间为
Figure FDA0002791036490000012
表示TaV可选择的任务卸载方式;MDP模型中第k个时间片的奖励为
Figure FDA0002791036490000013
5.根据权利要求1所述的基于强化学习的车载边缘环境下智能网联车辆任务卸载方法,其特征在于:步骤4中SA-QL算法采用Metropolis准则进行动作的选择。
6.根据权利要求1所述的基于强化学习的车载边缘环境下智能网联车辆任务卸载方法,其特征在于:步骤6中Q-learning价值函数更新方式如下:
Figure FDA0002791036490000021
其中α为学习效率,表示价值函数更新的程度,r为即时奖励,表示转移至下一个状态所得到的奖励,γ为折扣因子,表示后续状态的价值对当前状态的影响程度,
Figure FDA0002791036490000022
为选取的价值最大的状态-动作对的值;
由于:
Figure FDA0002791036490000023
Qeval=Q(St,At) (20)
价值函数更新公式可进一步表示为Q(St,At)=Q(St,At)+α(Qreal-Qeval) (21)。
7.根据权利要求1所述的基于强化学习的车载边缘环境下智能网联车辆任务卸载方法,其特征在于:步骤7中损失函数值loss的计算公式如下:
Figure FDA0002791036490000024
其中,β和ζ为权重系数,反映对时延优化和能耗优化的侧重程度;
Figure FDA0002791036490000025
为未调度成功的任务数据总量,即调度失败CAVs应用中未处理的任务数据总量,调度失败CAVs应用的剩余生命周期为0;
Figure FDA0002791036490000026
为所有车辆产生的总能耗,表示为:
Figure FDA0002791036490000027
其中
Figure FDA0002791036490000028
包含两部分,一部分为TaV产生的能耗,另一部分为SeVs产生的能耗;
Figure FDA0002791036490000029
为RSUs产生的总能耗,表示为:
Figure FDA00027910364900000210
Figure FDA00027910364900000211
为TaV卸载任务数据至SeVs或RSUs过程中产生的通信能耗,表示为:
Figure FDA00027910364900000212
其中
Figure FDA00027910364900000213
包含两部分,一部分为V2V通信,另一部分为V2I通信产生的通信能耗。
8.根据权利要求1所述的基于强化学习的车载边缘环境下智能网联车辆任务卸载方法,其特征在于:步骤9中的退火策略采用等比降温策略:
Tk=θkT0 (22)
其中T0为初始温度,k为当前回合次数,θ为降温系数。
CN202011314858.7A 2020-11-20 2020-11-20 基于强化学习的车载边缘环境下智能网联车辆任务卸载方法 Active CN112511614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011314858.7A CN112511614B (zh) 2020-11-20 2020-11-20 基于强化学习的车载边缘环境下智能网联车辆任务卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011314858.7A CN112511614B (zh) 2020-11-20 2020-11-20 基于强化学习的车载边缘环境下智能网联车辆任务卸载方法

Publications (2)

Publication Number Publication Date
CN112511614A true CN112511614A (zh) 2021-03-16
CN112511614B CN112511614B (zh) 2022-12-06

Family

ID=74959229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011314858.7A Active CN112511614B (zh) 2020-11-20 2020-11-20 基于强化学习的车载边缘环境下智能网联车辆任务卸载方法

Country Status (1)

Country Link
CN (1) CN112511614B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391908A (zh) * 2021-06-28 2021-09-14 福建师范大学 一种车载边缘计算中针对时延优化的推理任务调度方法
CN113727308A (zh) * 2021-10-20 2021-11-30 湖北大学 一种基于车辆位置预测的边缘计算卸载优化方法
CN114116047A (zh) * 2021-11-09 2022-03-01 吉林大学 一种基于强化学习的车载计算密集型应用的v2i卸载方法
CN115964178A (zh) * 2023-01-09 2023-04-14 江南大学 一种车联网用户计算任务调度方法、装置及边缘服务网络

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109302709A (zh) * 2018-09-14 2019-02-01 重庆邮电大学 面向移动边缘计算的车联网任务卸载与资源分配策略
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
CN111464976A (zh) * 2020-04-21 2020-07-28 电子科技大学 一种基于车队的车辆任务卸载决策和总体资源分配方法
CN111756812A (zh) * 2020-05-29 2020-10-09 华南理工大学 一种能耗感知的边云协同动态卸载调度方法
US20200346666A1 (en) * 2017-10-31 2020-11-05 Nissan North America, Inc. Reinforcement and Model Learning for Vehicle Operation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200346666A1 (en) * 2017-10-31 2020-11-05 Nissan North America, Inc. Reinforcement and Model Learning for Vehicle Operation
CN109302709A (zh) * 2018-09-14 2019-02-01 重庆邮电大学 面向移动边缘计算的车联网任务卸载与资源分配策略
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
CN111464976A (zh) * 2020-04-21 2020-07-28 电子科技大学 一种基于车队的车辆任务卸载决策和总体资源分配方法
CN111756812A (zh) * 2020-05-29 2020-10-09 华南理工大学 一种能耗感知的边云协同动态卸载调度方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
K. LIN等: "A Time-Driven Workflow Scheduling Strategy for Reasoning Tasks of Autonomous Driving in Edge Environment", 《2019 IEEE INTL CONF ON PARALLEL & DISTRIBUTED PROCESSING WITH APPLICATIONS, BIG DATA & CLOUD COMPUTING, SUSTAINABLE COMPUTING & COMMUNICATIONS, SOCIAL COMPUTING & NETWORKING (ISPA/BDCLOUD/SOCIALCOM/SUSTAINCOM)》 *
Y. FU等: "A Decision-Making Strategy for Vehicle Autonomous Braking in Emergency via Deep Reinforcement Learning", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
卢海峰等: "基于深度强化学习的移动边缘计算任务卸载研究", 《计算机研究与发展》 *
李季等: "基于深度强化学习的移动边缘计算中的计算卸载与资源分配算法研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
赵海涛等: "基于DQN的车载边缘网络任务分发卸载算法", 《通信学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113391908A (zh) * 2021-06-28 2021-09-14 福建师范大学 一种车载边缘计算中针对时延优化的推理任务调度方法
CN113391908B (zh) * 2021-06-28 2023-06-02 福建师范大学 一种车载边缘计算中针对时延优化的推理任务调度方法
CN113727308A (zh) * 2021-10-20 2021-11-30 湖北大学 一种基于车辆位置预测的边缘计算卸载优化方法
CN114116047A (zh) * 2021-11-09 2022-03-01 吉林大学 一种基于强化学习的车载计算密集型应用的v2i卸载方法
CN114116047B (zh) * 2021-11-09 2023-11-03 吉林大学 一种基于强化学习的车载计算密集型应用的v2i卸载方法
CN115964178A (zh) * 2023-01-09 2023-04-14 江南大学 一种车联网用户计算任务调度方法、装置及边缘服务网络
CN115964178B (zh) * 2023-01-09 2024-05-31 江南大学 一种车联网用户计算任务调度方法、装置及边缘服务网络

Also Published As

Publication number Publication date
CN112511614B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN112511614B (zh) 基于强化学习的车载边缘环境下智能网联车辆任务卸载方法
Lei et al. Deep reinforcement learning for autonomous internet of things: Model, applications and challenges
CN112188442B (zh) 基于移动边缘计算的车联网数据驱动任务卸载系统和方法
CN113032904B (zh) 模型构建方法、任务分配方法、装置、设备及介质
CN113543176A (zh) 基于智能反射面辅助的移动边缘计算系统的卸载决策方法
CN113132943B (zh) 一种车联网中车边协同的任务卸载调度及资源分配方法
Jamil et al. IRATS: A DRL-based intelligent priority and deadline-aware online resource allocation and task scheduling algorithm in a vehicular fog network
CN113254188B (zh) 调度优化方法和装置、电子设备及存储介质
CN115002123B (zh) 基于移动边缘计算的快速适应任务卸载系统和方法
CN115134242B (zh) 一种基于深度强化学习策略的车载计算任务卸载方法
CN113727308B (zh) 一种基于车辆位置预测的边缘计算卸载优化方法
CN115037751A (zh) 一种无人机辅助的异构车联网任务迁移与资源分配方法
CN116030623A (zh) 认知车联网场景下基于区块链的协作路径规划和调度方法
Jin et al. A Context-aware Task Offloading Scheme in Collaborative Vehicular Edge Computing Systems.
Hazarika et al. Hybrid machine learning approach for resource allocation of digital twin in UAV-aided internet-of-vehicles networks
Zhao et al. DRL Connects Lyapunov in Delay and Stability Optimization for Offloading Proactive Sensing Tasks of RSUs
Han et al. Multi-step reinforcement learning-based offloading for vehicle edge computing
Shang et al. A cross-layer optimization framework for distributed computing in IoT networks
Gao et al. Fast Adaptive Task Offloading and Resource Allocation in Large-Scale MEC Systems via Multiagent Graph Reinforcement Learning
CN117528655A (zh) 一种多无人机辅助多车辆边缘计算方法及系统
CN116208968B (zh) 基于联邦学习的轨迹规划方法及装置
Zhang et al. Cybertwin-driven multi-intelligent reflecting surfaces aided vehicular edge computing leveraged by deep reinforcement learning
CN116996941A (zh) 基于配网云边端协同的算力卸载方法、装置及系统
CN114546660B (zh) 一种多无人机协作边缘计算方法
Gao et al. Deep reinforcement learning and markov decision problem for task offloading in mobile edge computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant