CN115835294A - 车联网中深度强化学习辅助的ran切片和任务卸载联合优化方法 - Google Patents

车联网中深度强化学习辅助的ran切片和任务卸载联合优化方法 Download PDF

Info

Publication number
CN115835294A
CN115835294A CN202211462176.XA CN202211462176A CN115835294A CN 115835294 A CN115835294 A CN 115835294A CN 202211462176 A CN202211462176 A CN 202211462176A CN 115835294 A CN115835294 A CN 115835294A
Authority
CN
China
Prior art keywords
task
base station
scheduling
slice
ran
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211462176.XA
Other languages
English (en)
Inventor
田一博
沈航
白光伟
王天荆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN202211462176.XA priority Critical patent/CN115835294A/zh
Publication of CN115835294A publication Critical patent/CN115835294A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提出一种车联网中深度强化学习辅助的RAN切片和任务卸载联合优化方法,目的是最大化车联网任务完成数量,首先,采用多时间尺度、多维资源切片框架,为不同类型任务的卸载提供差异化服务质量保障。在该框架下,任务完成数量最大化问题被建模为一个带约束的长时累积优化问题。该问题被解耦为大时间尺度上的RAN切片子问题与小时间尺度上的协作式任务调度子问题。每当一个新切片窗口到来,控制器通过最优化方法划分频谱和计算资源给各个切片。然后在切片窗口的各个时隙内,基于深度强化学习的任务调度算法综合考虑车速、行驶方向、基站资源等因素决定任务调度。仿真结果表明,所提方案在任务完成率、环境适应性等方面优于现有典型的基准方法。

Description

车联网中深度强化学习辅助的RAN切片和任务卸载联合优化 方法
技术领域
本发明属于车联网技术领域,具体是一种车联网中深度强化学习辅助的RAN切片和任务卸载联合优化方法。
背景技术
车联网(Internet of Vehicles,IoV)基于车用无线通信技术,将车辆、路边单元(Road-Side-Unit,RSU)、基站和服务提供商连接为一个有机的整体,实现全方信息实时共享[1]。车载用户可以获得自动驾驶、路径规划、碰撞预警、车载娱乐、高清地图下载等服务[2]。一般而言,车辆搭载的计算设备能力有限。车联网中有许多对延迟敏感的计算任务,若任务被卸载至远端的云服务器,远程传输和处理带来的高延迟对延迟敏感型任务而言是无法接受的[3]。移动边缘计算(Mobile Edge Computing,MEC)[4]将数据处理从云端转移到网络边缘设备中,终端设备产生的任务交由边缘设备处理,有效降低传输过程中产生的延迟。车辆大部分时间处于高速移动状态,任务发布在时间和空间上分布不均匀。边缘网络资源有限,很难为车载用户提供稳定的服务质量(Quality-of-Service,QoS)保证[5]。车联网用户常同时处于多个基站的覆盖范围内,如何为任务选择最优卸载目的地也是一个挑战性问题。
网络切片[6]是一种对网络架构和服务模式的重要革新技术。通过将物理无线接入网(Radio Access Network,RAN)划分为多个逻辑独立的虚拟网络(即:切片),多个运营商可以共享同一物理网络的资源,从而提升网管灵活度,减少基础设施支出和运营成本。网络功能虚拟化(Network Functions Virtualization,NFV)[7]和软件定义网络(Software-Defined Networking,SDN)[8]是网络切片的支撑技术。在RAN侧,基站功能包括无线接入和处理等,用于创建无线连接并分配资源。在无线NFV中,无线接入等功能以软件实例形式运行在基站上,由一个集中式的控制器进行管理。通过采集终端请求信息,控制器根据QoS需求创建切片并依据网络实时流量或拓扑信息调度网络切片资源。
由于多种类型任务并存,车联网任务卸载对网络切片技术有天然的依赖。RAN切片可以为车载用户不同类型任务的卸载提供差异化的QoS保证[9]。然而,边缘网络设备中的频谱和计算资源有限,使得任务卸载策略与切片划分策略呈相互耦合的关系。另一方面,车联网用户常处于高速移动状态,而单个基站的覆盖范围有限,任务难以在延迟要求内处理完成。协同多个基站的资源为同一用户提供服务可以解决这一难题,但车辆与基站的关联(association)选择也成为一项关键且具有挑战性的问题。
发明内容
车联网特点包括多种业务并存、车辆高速移动、车流在时域和空域分布不匀等,使得任务卸载和资源分配面临许多挑战性问题。
针对现有技术中存在的诸多问题,本发明提出一种深度强化学习辅助的无线接入网(Radio Access Network,RAN)切片和任务卸载联合优化方法,其目的是最大化车联网任务完成数量。
本发明的多时间尺度、多维资源切片框架,为不同类型任务的卸载提供差异化服务质量(Quality-of-Service,QoS)保障。在该框架下,任务完成数量最大化问题被建模为一个带约束的长时累积优化问题。该问题被解耦为大时间尺度上的RAN切片子问题与小时间尺度上的任务调度子问题。
每当一个新切片窗口到来,控制器通过最优化方法为切片分配频谱和计算资源。切片窗口内各个时隙的工作流调度由基于深度强化学习的任务调度算法决定,该算法综合考虑车速、行驶方向、基站资源等因素,可以根据网络态势变化动态地在不同基站之间分配任务,实现全网资源的高效利用。
本发明的联合优化方法的应用场景是MEC辅助的车联网系统,在该系统中:基于MEC的控制器和基站连接;车辆处于基站的覆盖范围内才连接基站卸载任务;在基站覆盖范围内的车载任务,均通过基站卸载的控制器进行调度;控制器实时分配任务,并交由合适的基站处理;基站接收到任务后,为任务分配物理资源并进行处理;最后,基站将处理结果传回车辆;同时处于多个基站的覆盖范围内,车辆在同一时隙仅关联唯一的基站来卸载任务;所述物理资源包括频谱资源和计算资源;
联合优化方法的步骤包括:
步骤1)采用面向服务的RAN切片框架,把时间被划分为多个等长的切片窗口;每个切片窗口被划分为等长的调度时隙;在大时间尺度的切片窗口上进行资源分配,在小时间尺度的调度时隙上进行任务调度;
基于排队模型,RAN切片和任务卸载联合优化问题被建模为一个耦合约束和资源约束下的最大化长期任务完成数的联合优化问题;
步骤2)把联合优化问题解耦为RAN切片子问题和协作式任务调度子问题:
采用切片最优化方法,以切片窗口为周期,为RAN切片分配物理资源,解决RAN切片子问题;采用基于深度强化学习的算法,综合考虑车速、行驶方向、基站资源等因素得到的任务调度策略,解决协作式任务调度子问题;
步骤3)采用联合优化策略对RAN切片子问题和协作式任务调度子问题联合求解。
仿真结果表明,所提方案在任务完成率、环境适应性等方面优于现有典型的基准方法。
附图说明
图1是MEC辅助车联网场景示意图;
图2是多时间尺度面向任务卸载的RAN切片框架示意图;
图3是协作式任务调度框架示意图;
图4a是频谱资源块增加对任务完成率的影响示意图;
图4b是计算资源块增加对任务完成率的影响示意图;
图5是成功完成的任务延迟时间累积分布图;
图6是车辆密度对全局资源利用率的影响示意图;
图7是延迟敏感型任务占比对任务完成率的影响示意图。
具体实施方式
下面结合附图,对本发明进一步说明。
1概述
本发明提出面向车联网的RAN切片和任务卸载联合优化框架,目的是在满足车辆应用任务卸载延迟需求的基础上最大化任务完成率。主要技术贡献包括:
1)提出一种面向服务的动态RAN切片框架,在大时间尺度上进行资源切片,在小时间尺度上进行任务调度,为不同类型的任务卸载提供差异化QoS保证。基于排队模型,RAN切片和任务卸载联合优化被建模为一个耦合约束和资源约束下的最大化长期任务完成数的联合优化问题。
2)将联合优化问题进一步解耦为RAN切片和任务调度两个子问题。
对于前者,设计一种最优化方法,以切片窗口为周期,为RAN切片分配频谱和计算资源。
对于后者,设计基于深度强化学习的算法,解决小时间尺度下的在线任务调度,以适应车辆的高速移动性和均衡基站负载。该算法综合考虑车辆行驶速度和方向,允许任务的接收和处理分别被不同的基站执行。仿真结果表明,相比现有的方案,本发明方案可以显著提高资源利用率和任务成果完成率。
以下:第二节介绍和本发明相关的研究工作;第三节对所提出的系统模型进行详细描述;第四节将RAN资源切片和任务调度构建为一个带约束的随机优化问题;第五节将随机优化问题解耦为RAN切片子问题和任务调度子问题,并提出一种基于深度强化学习的调度决策算法;第六节介绍实验的参数设置和仿真结果;最后对本发明进行总结。
2相关工作
由于车联网场景下的任务常具有高时延敏感性的特性,任务卸载效果在很大程度上依赖车辆-基站关联模式。卢旭等人[10]提出了一种基于云边协同的计算卸载网络模型,通过对服务应用进行分类,设计了一种基于车联网的自适应边缘卸载策略,并提出一种基于多目标免疫算法实现卸载时延、车载终端消耗的多目标优化。朱思峰等人[11]提出异构无线网络下行资源切片框架,为机器类型设备和移动用户设备提供差异化QoS保障。该方案利用迭代优化方法解决资源分配和设备接入选择联合决策问题,旨在最大化网络效用。许小龙等人[12]提出一种“端-边-云”协同的车联网边缘计算系统模型,并针对该模型设计了基于深度学习的分布式服务卸载方法。该方案通过输入网络环境中的系统状态,获取服务的卸载策略。Dai等人[13]研究了一种基于MEC的汽车众包服务场景,通过联合优化卸载决策和带宽资源分配对车辆感知到的交通数据进行调度。该方案设计了一种异步深度Q学习算法确定卸载决策。总体而言,在动态变化的车联网环境下,传统的启发式算法也可以为车载用户提供差异化服务,但取得的效果有限。而深度学习的应用较好地解决了车联网环境多变,任务信息复杂的问题。
RAN切片的资源分配也会影响任务卸载效果。自动驾驶任务往往具有差异化QoS的特性。如果无线电资源的分配无法满足任务传输速率、时延或可靠性的要求,则可能无法实现计算的负载均衡。Omar等人[14]研究了车辆网络协同计算卸载的联合通信和计算时间分配问题,将任务卸载资源、本地任务执行资源和车辆辅助任务迁移资源进行联合优化,以实现任务计算的整体最大可靠性。Xu等人[15]针对计算任务的卸载目的地选择问题,设计了一种适用于边缘计算的自适应计算卸载方法,优化边缘计算系统的任务卸载延迟和资源利用。刘雷等人[16]针对车联网环境下有限的网络资源和大量用户需求之间的矛盾,设计了任务卸载和服务缓存的联合优化机制。利用异步分布式智能优化算法,得到最优卸载决策和资源管理方案。
与低移动性场景下的任务卸载不同,面向车联网的任务卸载需要考虑到用户的高速移动性带来的影响。这驱使本发明研究一种深度强化学习辅助的,基于RAN切片的协作式任务卸载方法,在动态变化的网络环境中,找到最优的任务卸载方案,为车辆任务卸载提供差异化的QoS保证。
3系统模型
3.1网络场景和假设
如图1所示,考虑一个MEC辅助的车联网场景,其中包含地面基站、车辆和基于MEC的控制器。车辆和地面基站的集合分别被表示为
Figure SMS_1
控制器和基站通过有线连接。作为边缘网络的计算中心,控制器可以降低车辆获得服务的时延,提高服务效率。在基站覆盖范围内的所有车载任务都可以通过基站卸载到控制器进行调度。控制器根据网络环境实时分配任务,并交由合适的基站处理。基站接收到任务后,按任务的需求,延迟约束等信息为其分配物理资源并进行处理。最后,基站将处理结果传回车辆。
车辆i和基站j的三维坐标分别被表示为(xi,yi,zi)和(xj,yj,zj)。基站j的有效覆盖半径表示为δj。基站j覆盖范围内的车辆集合被表示为
Figure SMS_2
即使同时处于多个基站的覆盖范围内,车辆在同一时隙也只能关联唯一的基站卸载任务。
3.2面向任务卸载服务的RAN切片框架
本发明设计一种面向任务卸载服务的RAN切片框架,采用长短时协同优化机制,以应对网络动态性和任务流量的时空变化。如图2所示,本发明考虑两类典型的车联网任务,即:延迟敏感型任务和延迟容忍型任务。前者对应智能汽车内部控制指令[17]等,其延迟约束仅为50ms-1s;后者的典型应用包括车载设备的高清地图下载[18],延迟要求比较宽松。
任务类型o=1(o=2)对应延迟敏感(延迟容忍)型任务。每个基站的物理资源(频谱资源和计算资源)被划分为2个面向任务卸载的RAN切片,即切片1和切片2,分别支持延迟敏感型任务和延迟容忍型任务。基站j持有的频谱资源和计算资源分别表示为cj和sj。基站j分配给切片o∈{1,2}的频谱和计算资源数量表示为cj,o和sj,o
考虑到车流量的时空变化,RAN资源的切分策略需要根据实际情况动态调整。
本发明的多时间尺度RAN切片框架,以支持具有差异化QoS需求的任务卸载。如图2所示。时间被划分为多个等长的切片窗口,每个切片窗口被划分为等长的调度时隙。切片窗口w包含的调度时隙集合被定义为
Figure SMS_3
在切片窗口开始时,控制器根据收集的历史任务信息制定相应的RAN切片方案。各个基站按照切片方案分配频谱资源和计算资源。然后在小尺度的调度时隙
Figure SMS_4
内,即控制器对接收到的任务进行调度;各个基站按照任务调度决策处理任务;基站将任务的处理结果传回车辆;基站将任务的数据上传到控制器中。
3.3通信模型
基站根据任务类型将同类切片中的资源以正交的形式分配给所关联的车辆。在与基站传输的过程中,车辆受到的干扰只来自其他基站的传输信号。车辆i的发射功率被表示为Pi。基站j的发射功率被表示为Pj。定义σ2为平均背景噪声。若基站j分配给车辆i产生的任务m的带宽为ci,j,m,则车辆i向基站j提交任务m时的上行传输速率被计算为
Figure SMS_5
其中,j′代表基站集合中去除j的剩余基站。Gi,j代表车辆i与基站j之间的信道增益,其计算是现有技术,可以参照文献[19]。
车辆接收基站的回传结果时,同样只受到来自其他基站的干扰。因此,从基站j回传任务m到车辆i的下行传输速率为
Figure SMS_6
3.4协作式任务调度框架
针对车辆的高速移动性,本发明提出协作式的任务调度框架。从图3可以看出,任务调度不再依赖单个基站,而是允许任务的卸载与处理在不同的基站执行。每个基站包含两个处理队列,用以缓存采集到的延迟敏感型和延迟容忍型任务。MEC控制器也包含与之对应的两个卸载队列,用于缓存由基站采集来的两类任务。综合多源信息,MEC控制器卸载队列中的任务被转交给不同的基站协作处理。
协作式任务调度需要综合考虑车辆位置、速度、行驶方向和基站负载等因素。考虑到基站负载对处理延迟的影响,本发明利用排队论[20]刻画基站处理任务的过程,并通过公式推导计算得到延迟敏感型和延迟容忍型任务的调度时延。
车辆i产生的任务m中包含任务的数据大小(bits)、所需计算资源数目和任务处理完成的延迟需求,分别被表示为εi,mi,m,di,m。下面基于排队论建模任务卸载和处理延迟。
3.4.1任务卸载延迟建模
任务卸载延迟代表任务从车辆上行由基站j卸载至控制器的时间。基站j采集到的类型为o的任务集合
Figure SMS_7
的总元素个数被表示为Mj,o。在控制器覆盖的区域内,请求类型为o的任务从车辆传输到基站的平均时间被量化为
Figure SMS_8
将单个车辆的任务到达建模为泊松过程,相应地基站接收到的任务到达也建模为泊松过程。车辆i产生请求类型o任务的到达率被表示为λi,o。定义二元变量ai,j=1代表车辆i与基站j关联。也就是说,控制器卸载队列中请求类型o任务的到达率可以表示为
Figure SMS_9
卸载队列每次只处理一个任务。任务的卸载过程被建模为M/M/1队列模型。卸载队列的进队由任务到达率决定,卸载队列的出队由基站传输决定。当队列的进队速率大于出队速率时,队列中的任务会不断累积导致队列溢出。队列以服务强度反映繁忙程度,定义基站j中请求类型为o的卸载队列的服务强度[21]
Figure SMS_10
为了保持卸载队列的稳定性(防止队列溢出),公式(5)需要满足
Figure SMS_11
任务m到达卸载队列后,排在任务m前的任务索引集合表示为Ω(m)。假设ζi,j,m代表由车辆i产生的任务m由基站j上载至控制器的时长。该任务的卸载延迟被计算为
Figure SMS_12
3.4.2任务处理延迟建模
处理延迟指任务从控制器进入基站处理队列到任务被处理完所花费的时长。基站按需为各个任务分配计算资源,计算资源以虚拟机实例(virtual machine instance)为单位分配。每个虚拟机实例的最大CPU周期为s(max)Hz(每秒)。假设基站j为车辆i产生的任务m分配虚拟机实例的数量为ni,j,m。该基站中处理队列o的任务平均处理时长被计算为
Figure SMS_13
控制器卸载队列中的任务被分发到不同基站的处理队列中。处理队列中任务的到达也服从泊松过程。基站j分配给切片o的频谱资源数量在所有同类型切片的频谱资源中的占比为
Figure SMS_14
基站j中任务处理队列的服务类型o任务到达率为αj,oλo。任务处理过程被建模为M/M/1队列模型。基于(4)、(8)和(9),基站j中处理队列o的服务强度被定义为
Figure SMS_15
为了保持处理队列的稳定性,式(10)需要满足
Figure SMS_16
在基站j的处理队列中,排在任务m之前的任务索引集合被表示为ψj(m)。该任务的处理延迟被计算为
Figure SMS_17
3.4.3任务移交延迟建模
如图3所示,每个任务在基站的处理队列中计算完成后,直接由基站将结果传输回车辆。基于公式(2),在基站j中的任务m回传给车辆i的移交延迟被表示为
Figure SMS_18
任务延迟由卸载延迟、处理延迟和移交延迟组成,由(7)、(12)和(13)可得车辆i产生的请求类型o任务m的任务延迟为
Figure SMS_19
车辆只有在与基站建立连接时才能获取服务。若车辆在离开基站覆盖范围时仍未收到任务处理结果,即使任务调度时间未超出本身延迟要求,同样视为任务失败。假设车辆i从产生任务m时到驶出基站j覆盖范围的总行驶距离被表示为γi,j,m,车辆i的行驶速率被表示为vi。则任务m的最大调度时间可以被计算为
Figure SMS_20
因此,任务m完成的延迟约束被表示为
Figure SMS_21
由于车载用户行驶方向和速度的时变性以及路网的复杂性,车辆未来的行驶轨迹是多变的。单个基站的覆盖范围有限,很难为车载用户提供完整的服务,协作式卸载模式有助于减少因车辆离开基站覆盖范围而导致的任务失败率。尽管如此,协作式卸载模式也使得基站的选择策略变得更多,进而导致控制器进行调度决策的难度提高。后续将探讨相应的解决方案。
4问题建模
所提方案的目标是在满足差异化QoS需求的基础上最大化任务完成数量。切片窗口w任务完成情况依赖于RAN切片策略和协作式任务调度策略,其中:
a、面向RAN切片的频谱资源和计算资源策略集合分别被表示为
Figure SMS_22
Figure SMS_23
b、协作式任务调度策略集合被表示为
Figure SMS_24
定义如下二元变量
Figure SMS_25
代表在第w个切片窗口,车辆i连接基站j之后,任务处理是否满足延迟需求。如果能够满足延迟需求,则
Figure SMS_26
否则
Figure SMS_27
当任务在满足延迟约束的条件下完成时,系统获得对应的收益。相应地,若任务未能完成,系统产生对应的损失。
定义1在第w个切片窗口内,任务完成且满足延迟需求时,系统获得的总奖励U(w)
Figure SMS_28
其中uj,o∈(0,1)代表请求类型为o的任务在基站j上的对应收益因子。
定义2在第w个切片窗口内,任务未能满足延迟需求时,系统产生的总损失H(w)
Figure SMS_29
其中hj,o∈(0,1)代表请求类型为o的任务在基站j上对应的损失因子。
在满足QoS需求前提下,使系统长期性地完成更多的车辆任务是本发明的目标。以最大化车辆任务完成数为目标,动态RAN切片问题(P0)被建模为
Figure SMS_30
Figure SMS_31
Figure SMS_32
Figure SMS_33
Figure SMS_34
(6)和(11)(19e)
问题P0的实质是通过在线的方式,协调分配各个基站的频谱和计算资源以及区域内的工作负载,使得系统长期的平均任务完成数最大。其中,约束(19a)保证每个基站j分配得到的子信道数为正数。约束(19b)和(19c)保证每个基站分配给车辆的频谱和计算资源不超过自身持有的资源总数。约束(19d)保证了每个车辆只能连接唯一的地面基站,而不能同时连接多个。约束(19e)保证了排队系统中队列的稳定性,同时,也表明了RAN资源的切片决策和任务调度决策是耦合的,即耦合约束。
5问题解耦与算法设计
为了便于处理,将P0分解为大时间尺度上的RAN切片子问题和小时间尺度上的任务调度子问题。
5.1面向任务卸载的RAN切片资源分配方法
RAN切片子问题P1是给定任务调度决策
Figure SMS_35
通过优化RAN切片决策
Figure SMS_36
最大化系统的任务完成数。即
Figure SMS_37
s.t.(19a),(19b)and(19c)
根据(17)和(18),每个切片窗口内的决策是独立的且窗口内的各任务被独立地分配资源。RAN切片子问题的实质是最大化每个切片窗口内的任务完成数量。现实中的车流量不会出现连续的较大波动,相邻切片窗口的车流量具有相似性。
控制器可以参考上一个切片窗口的任务调度策略来优化RAN切片。根据该思路,将P1转化为如下以切片窗口为周期的一次性优化(one-shot)问题:
Figure SMS_38
Figure SMS_39
Figure SMS_40
(19b)和(19c)(20c)
问题P2属于求解多约束条件下的多元函数极值问题,可以使用拉格朗日乘数法对其求解。这种方法将一个有多个变量和多个约束条件的最优化问题转化为一个有多个变量的无约束方程组的极值问题。P2问题被转化为P3
Figure SMS_41
在给定任务调度策略的情况下,控制器可以计算出每个基站处理任务的具体数量。然后,根据任务的属性、QoS需求以及各个基站的资源持有量构建出RAN切片子问题。计算P3可以得到一个最优的RAN切片方案
Figure SMS_42
5.2基于深度强化学习的任务调度
小时间尺度上的任务调度子问题的目标是在满足队列稳定的约束下最大化任务完成数量,即:给定RAN切片决策
Figure SMS_43
通过优化任务调度决策
Figure SMS_44
来最大化系统的任务完成数量。
Figure SMS_45
s.t.19(d),(6)和(11)
问题P1中,各个切片窗口的资源分配是相互独立的。相应地,在各个切片窗口中RAN切片决策固定下进行任务的调度也是相互独立的。因此,求解问题P4时可以将长期优化问题分解为各个调度时隙内的短期优化问题。短期优化问题属于有限视界的马尔可夫决策问题。
以下,将单个切片窗口内的任务调度子问题重新构建为一个马尔可夫决策问题[22]。具体而言,控制器被抽象为一个智能体(agent)。在训练回合l时,控制器观察环境的状态,记录为
Figure SMS_46
然后基于
Figure SMS_47
控制器采取任务调度决策动作
Figure SMS_48
做出动作后,环境反馈给相应的奖励
Figure SMS_49
同时,根据状态转移概率
Figure SMS_50
将环境的状态转化为新状态
Figure SMS_51
在本马尔可夫决策问题中,状态、动作、奖励的表示如下:
·状态空间S:任务调度需要考虑全局路网中的多个因素,包括任务参数、车辆信息以及各基站位置、资源及队列状态等信息。用
Figure SMS_52
描述系统状态,表示为
Figure SMS_53
Figure SMS_54
表示车辆i的具有方向的速度。
·动作空间A:系统在训练回合
Figure SMS_55
做出的任务调度描述为动作
Figure SMS_56
动作的制定基于当前的环境状态,与问题P4的优化变量对应,即
Figure SMS_57
其中,
Figure SMS_58
代表训练回合
Figure SMS_59
内的任务调度决策。为了满足约束(19d),每个动作只取0或1。
·奖励R:奖励是为了评估在某个状态下所做动作的优劣。通过设立奖励机制使神经网络以最大化奖励为目标更新优化。基于式(17)和(18),奖励可以被表示为
Figure SMS_60
基站按照深度强化学习的决策接收任务并处理。任务如果能够被正常处理,系统需要获得奖励来肯定这次动作。如果系统做出一个不合理的任务调度决策,基站常面临资源不足的情况,进而导致处理队列难以保持稳定。为了描述这种情况,需要加入惩罚以阻止控制器做出不合理的决策。
令Π代表候选调度策略的集合。针对当前的调度时隙t,目标是寻找最大化系统奖励获得的调度策略,表示为
Figure SMS_61
其中,π∈Π代表选择的任务调度策略,
Figure SMS_62
代表在训练回合
Figure SMS_63
的折扣因子。由于任务信息发布的不可预知性,状态转移概率无法确定。问题P5无法通过传统的基于模型(model-based)的强化学习算法求解,本发明采用不依赖模型(model-free)的强化学习算法求解最优任务调度问题。另一方面,由于难以对车联网环境进行建模,所以引入深度强化学习中的深度Q学习网络(Deep Q-learning Network,DQN)算法,通过改进Q学习算法,可以应对更加庞大的动作状态空间。
Q学习算法的核心在于构建一个Q表。在状态空间下,每个动作获得的奖励被估计并存储到Q表中。动作价值函数表示为
Figure SMS_64
θ代表神经网络的权重参数。Q表中每个状态的奖励最大值代表未来可能获得的最大回报。通过查询Q表,每个状态下最大收益的动作被确定为
Figure SMS_65
对(24)运用贝尔曼等式,可以得到Q表中的值,计算过程为
Figure SMS_66
上式中υ代表学习速率,φ代表贪心概率。
DQN算法得到的任务调度策略实质上就是每个任务卸载时的关联选择。相较于人为制定的策略,神经网络更容易从复杂的全局环境中找出当前任务卸载的最优解。当车辆行驶距离长时,车辆会通过多个基站的覆盖网络,基站协作进行任务卸载的概率很高;而当行驶的距离短时,任务卸载多由附近基站独自完成。
下面通过算法1来描述基于DQN的任务调度机制。
Figure SMS_67
5.3联合优化策略
本节提出联合优化策略,大时间尺度上的RAN切片子问题与小时间尺度上的协作式任务调度子问题被联合求解。算法2给出了RAN切片子问题和协作式任务调度联合优化策略。
算法2:RAN切片-任务调度联合优化
输入:各基站内总物理资源以及全局内车辆、任务信息。
输出:每个切片窗口内的RAN切片决策和任务调度决策。
Figure SMS_68
首先,系统根据历史数据中的任务信息划分切片窗口的长度。切片窗口确定后,将第w-1个切片窗口内的任务调度决策
Figure SMS_69
作为求解问题P3的已知条件,并求解出RAN切片决策
Figure SMS_70
第一个切片窗口的任务调度决策
Figure SMS_71
由历史数据给出。将切片窗口w划分为多个同等大小的调度时隙
Figure SMS_72
在每个调度时隙内,将RAN切片决策
Figure SMS_73
作为求解问题P5的已知条件,得到每个调度时隙内的任务调度决策。各个基站按照任务调度决策处理任务。在最后一个调度时隙结束时,系统将每个调度时隙内的任务调度决策整合为切片窗口w的任务调度决策
Figure SMS_74
并记录为历史数据供第w+1个切片窗口使用。
联合优化策略实现了RAN切片和任务调度的交替和长期运行。利用相邻时间段车流量的相似性,将上个切片窗口的任务调度决策作为已知条件,得到RAN切片决策。不仅减少了系统的计算任务,也可以提升切片决策的适用性。
6实验设计与结果分析
本节通过一系列的仿真实验验证本发明方案的有效性。实验的硬件环境中,CPU使用AMD Ryzen53500X,其包含6核6线程;GPU使NVIDIA GeForce GTX 1660SUPER。实验环境使用Python 3.6.8和PyTorch 1.7.1实现。为了模拟交通路网环境,考虑一个由5条道路交叉而形成两个方格的路网场景(与图1中相似),方格的边长为1000m。其中包含5个覆盖半径为500m的宏基站,每个宏基站的发射功率同为40dBm。MEC控制器放置在5个宏基站的中心位置处,控制器与宏基站通过有线连接。为了让仿真贴近现实环境,本实验选取的车流量数据来源为OpenITS开放数据平台。车辆产生任务的到达率服从泊松分布。延迟敏感型任务为智能汽车控制指令,延迟约束的范围在50ms-1s;延迟容忍型任务为车载设备高清地图下载,延迟约束的范围在3s-10s。为了保证仿真实验中任务信息的多样性,每个任务的延迟约束在限制范围内按概率随机给出。其他参数如表1所示。
表1仿真参数
Table 1:Simulation parameters
Figure SMS_75
为了客观地评估性能,实验选取3种代表性的任务卸载策略用于对比,包括:
·基于最大信干噪比的任务卸载方法(Max-SINR)[23]:RAN切片比例按照平均划分,控制器进行任务调度时,选择与车辆连接最大信干噪比的基站。
·随机的任务调度方法(Random)[24]:RAN切片比率随机分配,控制器进行任务调度时,随机选择基站。
·距离优先的车辆关联方法(RSE-online)[25]:RAN切片比例按照平均划分,控制器进行任务调度时,优先选择距离车辆最近的基站。
首先,评估可用资源块(频谱资源块和计算资源块)增加对任务完成率的影响。图4(a)展示了计算资源数固定为15的情况下,频谱资源增加对任务完成率的影响。各方案的任务完成率不断提高。在频谱资源块增加到15之后,各方案的任务完成率逐渐趋于稳定。充足的频谱资源使得控制器有更大的决策空间,是性能提升必要条件,但不是唯一条件。接下来考察当子信道数量固定为15时,计算资源的增加对性能的影响。如图4(b)所示,任务成功率在初始阶段快速上升,但当计算资源块增加到16后,性能不再有明显提升。这是因为系统处理能力的上限由两种资源共同决定,当任务数量饱和后,单纯增加计算或频谱资源都难以提升系统性能。
图5展示了本发明方案在频谱和计算资源块各固定为15块,延迟敏感型任务占比为40%时,成功完成的任务延迟对应的概率分布。从图5可以看出,任务延迟低于1s的比例大约有30%,而低于1s至低于3s的比例没有任何变化。这是因为低于1s延迟完成的任务属于延迟敏感型,而延迟容忍型任务完成的时延高于3s。任务延迟时间在区间3.5s-5s内的累积概率由44.3%增加至88.6%,这验证了在本发明方案下的延迟容忍型任务大概率在5s内就可以被处理完成。任务延迟时间低于7s的比例共有98.9%。
图6评估了车流量的变化对全局资源利用率的影响。车辆密度越高,车流量越大。当车辆密度为0.1辆/m2时,四种方案的全局资源利用率都在50%以下。这是因为网络中的任务稀疏,有些基站处于空闲状态,系统中的资源不能全部利用。另外,可以看出随着车辆密度的增加,全局资源利用率不断升高。与Max-SINR和RSE-online相比,本方案的资源利用率分别增加了29%和10%。在车辆密度增加到0.3辆/m2之后,RSE-online和本方案的资源利用率明显高于其它方案。这是因为车辆密度的增加导致任务数量变多,深度强化学习能在综合考虑各个因素的条件下,更快地做出最优调度决策,降低任务的处理时延,并使得系统资源利用率增加。然而,资源的利用率无法增加至100%。这是因为车辆必须要在基站的覆盖范围内才能与其连接并卸载任务,远离车辆的基站无法为其提供服务。
图7评估了延迟敏感型任务占比增加对任务完成率的影响。随着延迟敏感型任务占比的增加,任务完成率不断降低。这是因为延迟敏感型任务的QoS限制导致任务处理需要更多的资源。增加延迟敏感型任务的占比,是对系统的处理能力进行压力测试。相较于其他方案,所提方法通过感知环境信息做出合适的任务调度决策,提升了任务完成率,特别是在面对极端条件时具有更强的鲁棒性。
7总结
本发明提出的一种面向任务卸载的动态RAN切片框架,不仅实现了服务QoS的隔离,也提升了系统处理的鲁棒性。针对任务调度,本发明设计的协作式任务卸载策略,并引入深度强化学习进行决策,提升了车载用户的任务完成率。仿真结果表明,本发明提出的方案相较于现有方案,有效增加了任务完成数量,提升了系统资源利用率,实现了网络服务的公平性。
参考文献:
[1]Zhuang W,Ye Q,et al.SDN/NFV-Empowered Future IoV with EnhancedCommunication Computing and Caching[J].Proceedings of the IEEE,2020,108(2):274-291.
[2]Ning Z,Hu X,et al.A Cooperative Quality-Aware Service AccessSystem for Social Internet of Vehicles[J].IEEE Internet of Things Journal,2017,5(4):2506-2517.
[3]Martínez-cruz,Alfonso,et al.Security on In-Vehicle CommunicationProtocols:Issues,Challenges,and Future Research Directions[J].ComputerCommunications,2021,180:1-20.
[4]Siriwardhana,Y.,Porambage,P.,et al.A Survey on Mobile AugmentedReality with 5G Mobile Edge Computing:Architectures,Applications,andTechnical Aspects[J].IEEE Communications Surveys&Tutorials,2021,23(2):1160-1192.
[5]Zhang W,Zhang Z,Chao H.Cooperative Fog Computing for Dealing withBig Data in the Internet of Vehicles:Architecture and Hierarchical ResourceManagement[J].IEEE Communications Magazine,2017,55(12):60-67.
[6]Sexton,C.,Marchetti,N.,et al.Customization and Trade-Offs in 5GRAN Slicing[J].IEEE Communications Magazine,2019,57(4):116-122.
[7]Qureshi,K.N.,Ahmad,E.,et al.Network Functions Virtualization forMobile Core and Heterogeneous Cellular Networks[J].Wireless PersonalCommunications,2022,122(3):2543–2559.
[8]Haque,I.T.,Abu-Ghazaleh,N.Wireless Software Defined Networking:ASurvey and Taxonomy[J].IEEE Communications Surveys&Tutorials,2016,18(4):2713-2737.
[9]Addad,R.A.,Taleb,T.,et al.Network Slice Mobility in NextGeneration Mobile Systems:Challenges and Potential Solutions[J].IEEE Network,2020,34(1):84-93.
[10]Lu X,Yi B,Wang X-W.5G Network Resource Slice Management Mechanismin Software-Defined Networking/Network Function Virtualization[J].Journal ofChinese Computer Systems,2021,42(5):1082-1087.
[11]Zhu S-F,Cai J-H,et al.Multi-Objective Optimal Offloading Decisionfor Cloud-Edge Collaborative Computing Scenario in Internet of Vehicles[J].Journal on Communications,2022,43(6):223-234.
[12]Xu X-L,Fang Z-J,et al.A Deep Reinforcement Learning-BasedDistributed Service Offloading Method for Edge Computing Empowered Internetof Vehicles[J].Chinese Journal of Computers,2021,44(12):2382-2405.
[13]Dai P,Hu K,et al.Asynchronous Deep Reinforcement Learning forData-Driven Task Offloading in MEC-Empowered Vehicular Networks[C].IEEEConference on Computer Communications,2021:1-10.
[14]Omar H.A.,Zhuang W,et al.Performance Evaluation of VeMACSupporting Safety Applications in Vehicular Networks[J].IEEE Transactions onEmerging Topics in Computing,2013,1(1):69-83.
[15]Xu X,Zhang X,et al.Adaptive Computation Offloading with Edge for5G-Envisioned Internet of Connected Vehicles[J].IEEE Transactions onIntelligent Transportation Systems,2020,22(8):5213-5222.
[16]Liu L,Chen C,et al.Joint Intelligent Optimization of TaskOffloading and Service Caching for Vehicular Edge Computing[J].Journal onCommunications,2021,42(1):18-26.
[17]Su L,Yu S-C.A Brief Review of Monitoring and Interaction Systemsin Intelligent Vehicle Cabin[C].International Symposium on ProjectManagement,2021:622-634.
[18]Javanmardi,E.,Gu Y,et al.Autonomous Vehicle Self-LocalizationBased on Abstract Map and Multi-Channel LiDAR in Urban Area[J].IATSSResearch,2019,43(1):1-13.
[19]Erceg,V.,Greenstein,L.,et al.An Empirically Based Path Loss Modelfor Wireless Channels in Suburban Environments[J].IEEE Journal on SelectedAreas in Communications,1999,17(7):1205-1211.
[20]Fowler,S.,Hall,C.H.,et al.Analysis of Vehicular Wireless ChannelCommunication via Queueing Theory Model[C].IEEE International Conference onCommunications,2014:1736-1741.
[21]Xue J,Wang Z,et al.Task Allocation Optimization Scheme Based onQueuing Theory for Mobile Edge Computing in 5G Heterogeneous Networks[J].Mobile Information Systems,2020:1-12.
[22]Li Y,Hu X,et al.Deep Reinforcement Learning:Another Perspectivefor Unsupervised Wireless Localization[J].IEEE Internet of Things,2019,7(7):6279-6287.
[23]Wu W,Chen N,et al.Dynamic RAN Slicing for Service-OrientedVehicular Networks via Constrained Learning[J].IEEE Journal on Selected Areasin Communications,2020,39(7),2076-2089.
[24]Shukry,S.,Fahmy,Y..Traffic Load Access Barring Scheme for RandomAccess Channel in Massive Machine-to-Machine and Human-to-Human DevicesCoexistence in LTE-A[J].International Journal of Communication Systems,2021,34(8):e4777.
[25]Tang L,Zhao G,et al.Queue-Aware Reliable Embedding Algorithm for5G Network Slicing[J].Computer Networks,2018,146(9):138-150.
附中文参考文献:
[10]卢旭,易波,王兴伟.SDN/NFV下的5G网络资源切片管理机制[J].小型微型计算机系统,2021,42(5):1082-1087.
[11]朱思峰,蔡江昊等.车联网云边协同计算场景下的多目标优化卸载决策[J].通信学报,2022,43(6):223-234.
[12]许小龙,方子介等.车联网边缘计算环境下基于深度强化学习的分布式服务卸载方法[J].计算机学报,2021,44(12):2382-2405.
[16]刘雷,陈晨等.车载边缘计算中任务卸载和服务缓存的联合智能优化[J].通信学报,2021,42(1):18-26.

Claims (6)

1.一种车联网中深度强化学习辅助的RAN切片和任务卸载联合优化方法,其特征是
联合优化方法的应用场景是MEC辅助的车联网系统,在该系统中:基于MEC的控制器和基站通过有线连接;车辆处于基站的覆盖范围内才连接基站卸载任务;在基站覆盖范围内的车载任务,均通过基站卸载至控制器进行调度;控制器实时分配任务,并交由合适的基站处理;基站接收到任务后,为任务分配物理资源并进行处理;最后,基站将处理结果传回车辆;同时处于多个基站的覆盖范围内,车辆在同一时隙仅关联唯一的基站来卸载任务;所述物理资源包括频谱资源和计算资源;
联合优化方法的目的是最大化车联网任务完成数量;
联合优化方法的步骤包括:
步骤1)采用面向服务的RAN切片框架,时间被划分为多个等长的切片窗口;每个切片窗口被划分为等长的调度时隙;在大时间尺度的切片窗口上进行资源切片,在小时间尺度的调度时隙上进行任务调度;
基于排队模型,RAN切片和任务卸载联合优化问题被建模为一个耦合约束和资源约束下的最大化长期任务完成数的联合优化问题;
步骤2)把联合优化问题解耦为RAN切片子问题和协作式任务调度子问题:
切片采用最优化方法,以切片窗口为周期,为RAN切片分配物理资源,解决RAN切片子问题;采用基于深度强化学习的算法得到的任务调度策略,解决协作式任务调度子问题;
步骤3)采用联合优化策略对RAN切片子问题和协作式任务调度子问题联合求解。
2.根据权利要求1所述的联合优化方法,其特征是步骤1)中,切片窗口w任务完成情况依赖于RAN切片策略和协作式任务调度策略,
其中:
a、面向RAN切片的频谱资源策略集合
Figure FDA0003955747810000011
和计算资源策略集合
Figure FDA0003955747810000012
分别被表示为
Figure FDA0003955747810000013
Figure FDA0003955747810000014
b、协作式任务调度策略集合
Figure FDA0003955747810000015
被表示为
Figure FDA0003955747810000016
定义二元变量
Figure FDA0003955747810000017
这个二元变量代表在第w个切片窗口,车辆i连接基站j之后,任务处理是否满足延迟需求;如果能够满足延迟需求,则
Figure FDA0003955747810000018
否则
Figure FDA0003955747810000019
ri,j,m表示车辆i向基站j提交任务m时的上行传输速率;
任务类型o=1和o=2分别表示延迟敏感型任务和延迟容忍型任务;
每个基站的物理资源被划分为2个面向任务卸载的RAN切片,即第一种切片和第二种切片,分别支持延迟敏感型任务和延迟容忍型任务;
在切片窗口w,基站j分配给两种切片的频谱和计算资源数量表示为
Figure FDA00039557478100000110
Figure FDA00039557478100000111
在满足延迟约束的条件下,当任务完成时,系统获得对应的收益,若任务未完成,系统产生对应的损失;
定义1在第w个切片窗口内,任务完成且满足延迟需求时,系统获得的总奖励U(w)
Figure FDA00039557478100000112
其中uj,o∈(0,1)代表请求类型为o的任务在基站j上的对应收益因子;
定义2在第w个切片窗口内,任务未能满足延迟需求时,系统产生的总损失H(w)
Figure FDA0003955747810000021
其中hj,o∈(0,1)代表请求类型为o的任务在基站j上对应的损失因子;
Figure FDA0003955747810000022
表示基站集合;
Figure FDA0003955747810000023
表示调度时隙t内基站j采集到的类型为o的任务集合;时间被划分为多个等长的切片窗口,每个切片窗口被划分为等长的调度时隙;
以最大化车辆任务完成数为目标,动态RAN切片问题(P0)被建模为
P0:
Figure FDA0003955747810000024
约束条件包括:
a、
Figure FDA0003955747810000025
保证每个基站j分配得到的子信道数为正数;
b、
Figure FDA0003955747810000026
保证每个基站分配车辆的频谱和计算资源不超过自身持有的资源总数;
d、
Figure FDA0003955747810000027
保证了每个车辆只能连接唯一的地面基站;
e、
Figure FDA0003955747810000028
保证了排队系统中队列的稳定性,同时,也表明了RAN资源的切片决策和任务调度决策是耦合的即耦合约束;
Figure FDA0003955747810000029
表示基站j中请求类型为o的卸载队列的服务强度,
Figure FDA00039557478100000210
表示基站j中处理队列o的服务强度;
Figure FDA00039557478100000211
表示切片窗口w包含的调度时隙集合。
3.根据权利要求2所述的联合优化方法,其特征是步骤2)中,面向任务卸载的RAN切片资源分配方法解决RAN切片子问题:
RAN切片子问题P1是给定任务调度决策
Figure FDA00039557478100000212
通过优化RAN切片决策
Figure FDA00039557478100000213
最大化系统的任务完成数,即
P1:
Figure FDA00039557478100000214
约束条件包括:
Figure FDA00039557478100000215
Figure FDA00039557478100000216
Figure FDA00039557478100000217
将P1转化为以切片窗口为周期的一次性优化one-shot问题P2
P2:
Figure FDA00039557478100000218
约束条件包括:
Figure FDA00039557478100000219
Figure FDA00039557478100000220
使用拉格朗日乘数法求解问题P2,将一个有多个变量和多个约束条件的最优化问题转化为一个有多个变量的无约束方程组的极值问题,则P2问题被转化为P3
P3:
Figure FDA00039557478100000221
在给定任务调度策略的情况下,控制器计算出每个基站处理任务的具体数量;然后,根据任务的属性、QoS需求以及各个基站的资源持有量构建出RAN切片子问题;
计算P3得到一个最优的RAN切片方案
Figure FDA00039557478100000222
4.根据权利要求3所述的联合优化方法,其特征是步骤2)中,采用基于深度强化学习的任务调度策略解决任务调度子问题P4
任务调度子问题P4的目标是基于给定RAN切片决策
Figure FDA00039557478100000223
通过优化任务调度决策
Figure FDA00039557478100000224
来最大化系统的任务完成数量;
P4:
Figure FDA0003955747810000031
约束条件包括:
Figure FDA0003955747810000032
问题P1中,各个切片窗口的资源分配是相互独立的,相应地,在各个切片窗口中RAN切片决策固定下进行任务的调度也是相互独立的;则求解问题P4时,将长期优化问题分解为各个调度时隙内的短期优化问题;短期优化问题属于有限视界的马尔可夫决策问;
将单个切片窗口内的任务调度子问题重新构建为一个马尔可夫决策问题:
控制器被抽象为一个智能体agent;在训练回合l时,控制器观察环境的状态,记录为s(l)。然后基于s(l),控制器采取任务调度决策动作a(l)
做出动作后,环境反馈给相应的奖励r(l);同时,根据状态转移概率Pr(s(l+1)|s(l),a(l))将环境的状态转化为新状态s(l+1);其中,状态空间、动作空间和奖励的表示如下:
·状态空间S:任务调度需要考虑全局路网中的多个因素,包括任务参数、车辆信息、各基站位置、资源及队列状态;用s(l)∈S描述系统状态,表示为
Figure FDA0003955747810000033
·动作空间A:系统在训练回合l做出的任务调度描述为动作a(l);动作的制定基于当前的环境状态,与问题P4的优化变量对应,即
Figure FDA0003955747810000034
其中,
Figure FDA0003955747810000035
代表训练回合l内的任务调度决策;为了满足约束
Figure FDA0003955747810000036
每个动作只取0或1;
·奖励R:奖励是为了评估在某个状态下所做动作的优劣;通过设立奖励机制使神经网络以最大化奖励为目标更新优化;基于定义1和定义2,奖励表示为
r(l)(s(l),a(l))=(U(l)-H(l))
基站按照深度强化学习的决策接收任务并处理;任务如果能够被正常处理,系统获得奖励来肯定这次动作;加入惩罚以阻止控制器做出不合理的决策;
令Π代表候选调度策略的集合;针对当前的调度时隙t,目标是寻找最大化系统奖励获得的调度策略,表示为
P5:
Figure FDA0003955747810000037
其中,π∈Π代表选择的任务调度策略,
Figure FDA0003955747810000038
代表在训练回合l的折扣因子;
采用深度Q学习网络DQN算法求解问题P5
5.根据权利要求4所述的联合优化方法,其特征是所述步骤2)中,采用深度Q学习网络DQN算法求解问题P5的方法为:
构建一个Q表,在状态空间下,每个动作获得的奖励被估计并存储到Q表中;动作价值函数表示为Q(s(l),a(l)|θ),θ代表神经网络的权重参数;Q表中每个状态的奖励最大值代表未来可能获得的最大回报;通过查询Q表,每个状态下最大收益的动作被确定为
Figure FDA0003955747810000039
接着采用贝尔曼等式,得到Q表中的值,计算过程为
Figure FDA00039557478100000310
式中,υ代表学习速率,φ代表贪心概率;
DQN算法得到的任务调度策略即为每个任务卸载时的关联选择。
6.根据权利要求5所述的联合优化方法,其特征是步骤3)中,
首先,系统根据历史数据中的任务信息划分切片窗口的长度;
切片窗口确定后,将第w-1个切片窗口内的任务调度决策
Figure FDA0003955747810000041
作为求解问题P3的已知条件,并求解出RAN切片决策
Figure FDA0003955747810000042
第一个切片窗口的任务调度决策
Figure FDA0003955747810000043
由历史数据给出;
将切片窗口w划分为多个同等大小的调度时隙
Figure FDA0003955747810000044
在每个调度时隙内,将RAN切片决策
Figure FDA0003955747810000045
作为求解问题P5的已知条件,得到每个调度时隙内的任务调度决策;
各个基站按照任务调度决策处理任务;
在最后一个调度时隙结束时,系统将每个调度时隙内的任务调度决策整合为切片窗口w的任务调度决策
Figure FDA0003955747810000046
并记录为历史数据供第w+1个切片窗口使用。
CN202211462176.XA 2022-11-22 2022-11-22 车联网中深度强化学习辅助的ran切片和任务卸载联合优化方法 Pending CN115835294A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211462176.XA CN115835294A (zh) 2022-11-22 2022-11-22 车联网中深度强化学习辅助的ran切片和任务卸载联合优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211462176.XA CN115835294A (zh) 2022-11-22 2022-11-22 车联网中深度强化学习辅助的ran切片和任务卸载联合优化方法

Publications (1)

Publication Number Publication Date
CN115835294A true CN115835294A (zh) 2023-03-21

Family

ID=85530018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211462176.XA Pending CN115835294A (zh) 2022-11-22 2022-11-22 车联网中深度强化学习辅助的ran切片和任务卸载联合优化方法

Country Status (1)

Country Link
CN (1) CN115835294A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257345B (zh) * 2023-05-15 2023-09-01 中国华能集团清洁能源技术研究院有限公司 深度学习任务调度方法及装置
CN117714446A (zh) * 2024-02-02 2024-03-15 南京信息工程大学 一种卫星云边协同计算的卸载方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116257345B (zh) * 2023-05-15 2023-09-01 中国华能集团清洁能源技术研究院有限公司 深度学习任务调度方法及装置
CN117714446A (zh) * 2024-02-02 2024-03-15 南京信息工程大学 一种卫星云边协同计算的卸载方法及装置
CN117714446B (zh) * 2024-02-02 2024-04-16 南京信息工程大学 一种卫星云边协同计算的卸载方法及装置

Similar Documents

Publication Publication Date Title
CN110035410B (zh) 一种软件定义车载边缘网络中联合资源分配和计算卸载的方法
Zhang et al. Deep learning empowered task offloading for mobile edge computing in urban informatics
CN112601197B (zh) 一种基于非正交多址的车联网络中资源优化方法
CN115835294A (zh) 车联网中深度强化学习辅助的ran切片和任务卸载联合优化方法
CN112055329B (zh) 一种适用于rsu覆盖切换的边缘车联网任务卸载方法
CN111711666B (zh) 一种基于强化学习的车联网云计算资源优化方法
CN110753319B (zh) 异构车联网中面向异质业务的分布式资源分配方法及系统
CN113254188B (zh) 调度优化方法和装置、电子设备及存储介质
CN112929849B (zh) 一种基于强化学习的可靠车载边缘计算卸载方法
CN115002123B (zh) 基于移动边缘计算的快速适应任务卸载系统和方法
Shen et al. Slicing-Based Task Offloading in Space-Air-Ground Integrated Vehicular Networks
CN114374949A (zh) 一种车联网中基于信息新鲜度优化的功率控制机制
CN111311091B (zh) 基于车载云及无人机的高速公路任务检测调度方法及系统
CN116193396A (zh) 空天地一体化车联网中基于切片的协作式任务卸载方法
Zhang et al. Vehicular multi-slice optimization in 5G: Dynamic preference policy using reinforcement learning
CN114928893B (zh) 一种基于智能反射面的架构及任务卸载方法
CN115658251A (zh) 联邦多智能体Actor-Critic学习智慧物流任务卸载和资源分配系统及介质
CN115208892A (zh) 基于动态资源需求的车路协同在线任务调度方法及系统
Lu et al. Enhancing vehicular edge computing system through cooperative computation offloading
Wang et al. Deep Reinforcement Learning-Based Computation Offloading and Power Allocation Within Dynamic Platoon Network
CN115733838A (zh) 一种基于移动边缘计算的车联网多维资源分配方法
Chidume et al. Intelligent user-collaborative edge device APC-based MEC 5G IoT for computational offloading and resource allocation
CN117042051B (zh) 一种车联网中任务卸载策略生成方法、系统、设备及介质
Liu et al. Joint Optimization of Multi-User Computation Offloading and Wireless-Caching Resource Allocation with Linearly Related Requests in Vehicular Edge Computing System
Gao et al. Fast Adaptive Task Offloading and Resource Allocation in Large-Scale MEC Systems via Multi-Agent Graph Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination