CN115835294A

CN115835294A - 车联网中深度强化学习辅助的ran切片和任务卸载联合优化方法

Info

Publication number: CN115835294A
Application number: CN202211462176.XA
Authority: CN
Inventors: 田一博; 沈航; 白光伟; 王天荆
Original assignee: Nanjing Tech University
Current assignee: Nanjing Tech University
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-21

Abstract

本发明提出一种车联网中深度强化学习辅助的RAN切片和任务卸载联合优化方法，目的是最大化车联网任务完成数量，首先，采用多时间尺度、多维资源切片框架，为不同类型任务的卸载提供差异化服务质量保障。在该框架下，任务完成数量最大化问题被建模为一个带约束的长时累积优化问题。该问题被解耦为大时间尺度上的RAN切片子问题与小时间尺度上的协作式任务调度子问题。每当一个新切片窗口到来，控制器通过最优化方法划分频谱和计算资源给各个切片。然后在切片窗口的各个时隙内，基于深度强化学习的任务调度算法综合考虑车速、行驶方向、基站资源等因素决定任务调度。仿真结果表明，所提方案在任务完成率、环境适应性等方面优于现有典型的基准方法。

Description

车联网中深度强化学习辅助的RAN切片和任务卸载联合优化方法

技术领域

本发明属于车联网技术领域，具体是一种车联网中深度强化学习辅助的RAN切片和任务卸载联合优化方法。

背景技术

车联网(Internet of Vehicles,IoV)基于车用无线通信技术，将车辆、路边单元(Road-Side-Unit,RSU)、基站和服务提供商连接为一个有机的整体，实现全方信息实时共享^[1]。车载用户可以获得自动驾驶、路径规划、碰撞预警、车载娱乐、高清地图下载等服务^[2]。一般而言，车辆搭载的计算设备能力有限。车联网中有许多对延迟敏感的计算任务，若任务被卸载至远端的云服务器，远程传输和处理带来的高延迟对延迟敏感型任务而言是无法接受的^[3]。移动边缘计算(Mobile Edge Computing,MEC)^[4]将数据处理从云端转移到网络边缘设备中，终端设备产生的任务交由边缘设备处理，有效降低传输过程中产生的延迟。车辆大部分时间处于高速移动状态，任务发布在时间和空间上分布不均匀。边缘网络资源有限，很难为车载用户提供稳定的服务质量(Quality-of-Service,QoS)保证^[5]。车联网用户常同时处于多个基站的覆盖范围内，如何为任务选择最优卸载目的地也是一个挑战性问题。

网络切片^[6]是一种对网络架构和服务模式的重要革新技术。通过将物理无线接入网(Radio Access Network,RAN)划分为多个逻辑独立的虚拟网络(即：切片)，多个运营商可以共享同一物理网络的资源，从而提升网管灵活度，减少基础设施支出和运营成本。网络功能虚拟化(Network Functions Virtualization,NFV)^[7]和软件定义网络(Software-Defined Networking,SDN)^[8]是网络切片的支撑技术。在RAN侧，基站功能包括无线接入和处理等，用于创建无线连接并分配资源。在无线NFV中，无线接入等功能以软件实例形式运行在基站上，由一个集中式的控制器进行管理。通过采集终端请求信息，控制器根据QoS需求创建切片并依据网络实时流量或拓扑信息调度网络切片资源。

由于多种类型任务并存，车联网任务卸载对网络切片技术有天然的依赖。RAN切片可以为车载用户不同类型任务的卸载提供差异化的QoS保证^[9]。然而，边缘网络设备中的频谱和计算资源有限，使得任务卸载策略与切片划分策略呈相互耦合的关系。另一方面，车联网用户常处于高速移动状态，而单个基站的覆盖范围有限，任务难以在延迟要求内处理完成。协同多个基站的资源为同一用户提供服务可以解决这一难题，但车辆与基站的关联(association)选择也成为一项关键且具有挑战性的问题。

发明内容

车联网特点包括多种业务并存、车辆高速移动、车流在时域和空域分布不匀等，使得任务卸载和资源分配面临许多挑战性问题。

针对现有技术中存在的诸多问题，本发明提出一种深度强化学习辅助的无线接入网(Radio Access Network,RAN)切片和任务卸载联合优化方法，其目的是最大化车联网任务完成数量。

本发明的多时间尺度、多维资源切片框架，为不同类型任务的卸载提供差异化服务质量(Quality-of-Service,QoS)保障。在该框架下，任务完成数量最大化问题被建模为一个带约束的长时累积优化问题。该问题被解耦为大时间尺度上的RAN切片子问题与小时间尺度上的任务调度子问题。

每当一个新切片窗口到来，控制器通过最优化方法为切片分配频谱和计算资源。切片窗口内各个时隙的工作流调度由基于深度强化学习的任务调度算法决定，该算法综合考虑车速、行驶方向、基站资源等因素，可以根据网络态势变化动态地在不同基站之间分配任务，实现全网资源的高效利用。

本发明的联合优化方法的应用场景是MEC辅助的车联网系统，在该系统中：基于MEC的控制器和基站连接；车辆处于基站的覆盖范围内才连接基站卸载任务；在基站覆盖范围内的车载任务，均通过基站卸载的控制器进行调度；控制器实时分配任务，并交由合适的基站处理；基站接收到任务后，为任务分配物理资源并进行处理；最后，基站将处理结果传回车辆；同时处于多个基站的覆盖范围内，车辆在同一时隙仅关联唯一的基站来卸载任务；所述物理资源包括频谱资源和计算资源；

联合优化方法的步骤包括：

步骤1)采用面向服务的RAN切片框架，把时间被划分为多个等长的切片窗口；每个切片窗口被划分为等长的调度时隙；在大时间尺度的切片窗口上进行资源分配，在小时间尺度的调度时隙上进行任务调度；

基于排队模型，RAN切片和任务卸载联合优化问题被建模为一个耦合约束和资源约束下的最大化长期任务完成数的联合优化问题；

步骤2)把联合优化问题解耦为RAN切片子问题和协作式任务调度子问题：

采用切片最优化方法，以切片窗口为周期，为RAN切片分配物理资源，解决RAN切片子问题；采用基于深度强化学习的算法，综合考虑车速、行驶方向、基站资源等因素得到的任务调度策略，解决协作式任务调度子问题；

步骤3)采用联合优化策略对RAN切片子问题和协作式任务调度子问题联合求解。

仿真结果表明，所提方案在任务完成率、环境适应性等方面优于现有典型的基准方法。

附图说明

图1是MEC辅助车联网场景示意图；

图2是多时间尺度面向任务卸载的RAN切片框架示意图；

图3是协作式任务调度框架示意图；

图4a是频谱资源块增加对任务完成率的影响示意图；

图4b是计算资源块增加对任务完成率的影响示意图；

图5是成功完成的任务延迟时间累积分布图；

图6是车辆密度对全局资源利用率的影响示意图；

图7是延迟敏感型任务占比对任务完成率的影响示意图。

具体实施方式

下面结合附图，对本发明进一步说明。

1概述

本发明提出面向车联网的RAN切片和任务卸载联合优化框架，目的是在满足车辆应用任务卸载延迟需求的基础上最大化任务完成率。主要技术贡献包括：

1)提出一种面向服务的动态RAN切片框架，在大时间尺度上进行资源切片，在小时间尺度上进行任务调度，为不同类型的任务卸载提供差异化QoS保证。基于排队模型，RAN切片和任务卸载联合优化被建模为一个耦合约束和资源约束下的最大化长期任务完成数的联合优化问题。

2)将联合优化问题进一步解耦为RAN切片和任务调度两个子问题。

对于前者，设计一种最优化方法，以切片窗口为周期，为RAN切片分配频谱和计算资源。

对于后者，设计基于深度强化学习的算法，解决小时间尺度下的在线任务调度，以适应车辆的高速移动性和均衡基站负载。该算法综合考虑车辆行驶速度和方向，允许任务的接收和处理分别被不同的基站执行。仿真结果表明，相比现有的方案，本发明方案可以显著提高资源利用率和任务成果完成率。

以下：第二节介绍和本发明相关的研究工作；第三节对所提出的系统模型进行详细描述；第四节将RAN资源切片和任务调度构建为一个带约束的随机优化问题；第五节将随机优化问题解耦为RAN切片子问题和任务调度子问题，并提出一种基于深度强化学习的调度决策算法；第六节介绍实验的参数设置和仿真结果；最后对本发明进行总结。

2相关工作

由于车联网场景下的任务常具有高时延敏感性的特性，任务卸载效果在很大程度上依赖车辆-基站关联模式。卢旭等人^[10]提出了一种基于云边协同的计算卸载网络模型，通过对服务应用进行分类，设计了一种基于车联网的自适应边缘卸载策略，并提出一种基于多目标免疫算法实现卸载时延、车载终端消耗的多目标优化。朱思峰等人^[11]提出异构无线网络下行资源切片框架，为机器类型设备和移动用户设备提供差异化QoS保障。该方案利用迭代优化方法解决资源分配和设备接入选择联合决策问题，旨在最大化网络效用。许小龙等人^[12]提出一种“端-边-云”协同的车联网边缘计算系统模型，并针对该模型设计了基于深度学习的分布式服务卸载方法。该方案通过输入网络环境中的系统状态，获取服务的卸载策略。Dai等人^[13]研究了一种基于MEC的汽车众包服务场景，通过联合优化卸载决策和带宽资源分配对车辆感知到的交通数据进行调度。该方案设计了一种异步深度Q学习算法确定卸载决策。总体而言，在动态变化的车联网环境下，传统的启发式算法也可以为车载用户提供差异化服务，但取得的效果有限。而深度学习的应用较好地解决了车联网环境多变，任务信息复杂的问题。

RAN切片的资源分配也会影响任务卸载效果。自动驾驶任务往往具有差异化QoS的特性。如果无线电资源的分配无法满足任务传输速率、时延或可靠性的要求，则可能无法实现计算的负载均衡。Omar等人^[14]研究了车辆网络协同计算卸载的联合通信和计算时间分配问题，将任务卸载资源、本地任务执行资源和车辆辅助任务迁移资源进行联合优化，以实现任务计算的整体最大可靠性。Xu等人^[15]针对计算任务的卸载目的地选择问题，设计了一种适用于边缘计算的自适应计算卸载方法，优化边缘计算系统的任务卸载延迟和资源利用。刘雷等人^[16]针对车联网环境下有限的网络资源和大量用户需求之间的矛盾，设计了任务卸载和服务缓存的联合优化机制。利用异步分布式智能优化算法，得到最优卸载决策和资源管理方案。

与低移动性场景下的任务卸载不同，面向车联网的任务卸载需要考虑到用户的高速移动性带来的影响。这驱使本发明研究一种深度强化学习辅助的，基于RAN切片的协作式任务卸载方法，在动态变化的网络环境中，找到最优的任务卸载方案，为车辆任务卸载提供差异化的QoS保证。

3系统模型

3.1网络场景和假设

如图1所示，考虑一个MEC辅助的车联网场景，其中包含地面基站、车辆和基于MEC的控制器。车辆和地面基站的集合分别被表示为

控制器和基站通过有线连接。作为边缘网络的计算中心，控制器可以降低车辆获得服务的时延，提高服务效率。在基站覆盖范围内的所有车载任务都可以通过基站卸载到控制器进行调度。控制器根据网络环境实时分配任务，并交由合适的基站处理。基站接收到任务后，按任务的需求，延迟约束等信息为其分配物理资源并进行处理。最后，基站将处理结果传回车辆。

车辆i和基站j的三维坐标分别被表示为(x_i,y_i,z_i)和(x_j,y_j,z_j)。基站j的有效覆盖半径表示为δ_j。基站j覆盖范围内的车辆集合被表示为

即使同时处于多个基站的覆盖范围内，车辆在同一时隙也只能关联唯一的基站卸载任务。

3.2面向任务卸载服务的RAN切片框架

本发明设计一种面向任务卸载服务的RAN切片框架，采用长短时协同优化机制，以应对网络动态性和任务流量的时空变化。如图2所示，本发明考虑两类典型的车联网任务，即：延迟敏感型任务和延迟容忍型任务。前者对应智能汽车内部控制指令^[17]等，其延迟约束仅为50ms-1s；后者的典型应用包括车载设备的高清地图下载^[18]，延迟要求比较宽松。

任务类型o＝1(o＝2)对应延迟敏感(延迟容忍)型任务。每个基站的物理资源(频谱资源和计算资源)被划分为2个面向任务卸载的RAN切片，即切片1和切片2，分别支持延迟敏感型任务和延迟容忍型任务。基站j持有的频谱资源和计算资源分别表示为c_j和s_j。基站j分配给切片o∈{1,2}的频谱和计算资源数量表示为c_j,o和s_j,o。

考虑到车流量的时空变化，RAN资源的切分策略需要根据实际情况动态调整。

本发明的多时间尺度RAN切片框架，以支持具有差异化QoS需求的任务卸载。如图2所示。时间被划分为多个等长的切片窗口，每个切片窗口被划分为等长的调度时隙。切片窗口w包含的调度时隙集合被定义为

在切片窗口开始时，控制器根据收集的历史任务信息制定相应的RAN切片方案。各个基站按照切片方案分配频谱资源和计算资源。然后在小尺度的调度时隙

内，即控制器对接收到的任务进行调度；各个基站按照任务调度决策处理任务；基站将任务的处理结果传回车辆；基站将任务的数据上传到控制器中。

3.3通信模型

基站根据任务类型将同类切片中的资源以正交的形式分配给所关联的车辆。在与基站传输的过程中，车辆受到的干扰只来自其他基站的传输信号。车辆i的发射功率被表示为P_i。基站j的发射功率被表示为P_j。定义σ²为平均背景噪声。若基站j分配给车辆i产生的任务m的带宽为c_i,j,m，则车辆i向基站j提交任务m时的上行传输速率被计算为

其中，j′代表基站集合中去除j的剩余基站。G_i,j代表车辆i与基站j之间的信道增益，其计算是现有技术，可以参照文献[19]。

车辆接收基站的回传结果时，同样只受到来自其他基站的干扰。因此，从基站j回传任务m到车辆i的下行传输速率为

3.4协作式任务调度框架

针对车辆的高速移动性，本发明提出协作式的任务调度框架。从图3可以看出，任务调度不再依赖单个基站，而是允许任务的卸载与处理在不同的基站执行。每个基站包含两个处理队列，用以缓存采集到的延迟敏感型和延迟容忍型任务。MEC控制器也包含与之对应的两个卸载队列，用于缓存由基站采集来的两类任务。综合多源信息，MEC控制器卸载队列中的任务被转交给不同的基站协作处理。

协作式任务调度需要综合考虑车辆位置、速度、行驶方向和基站负载等因素。考虑到基站负载对处理延迟的影响，本发明利用排队论^[20]刻画基站处理任务的过程，并通过公式推导计算得到延迟敏感型和延迟容忍型任务的调度时延。

车辆i产生的任务m中包含任务的数据大小(bits)、所需计算资源数目和任务处理完成的延迟需求，分别被表示为ε_i,m,τ_i,m,d_i,m。下面基于排队论建模任务卸载和处理延迟。

3.4.1任务卸载延迟建模

任务卸载延迟代表任务从车辆上行由基站j卸载至控制器的时间。基站j采集到的类型为o的任务集合

的总元素个数被表示为M_j,o。在控制器覆盖的区域内，请求类型为o的任务从车辆传输到基站的平均时间被量化为

将单个车辆的任务到达建模为泊松过程，相应地基站接收到的任务到达也建模为泊松过程。车辆i产生请求类型o任务的到达率被表示为λ_i,o。定义二元变量a_i,j＝1代表车辆i与基站j关联。也就是说，控制器卸载队列中请求类型o任务的到达率可以表示为

卸载队列每次只处理一个任务。任务的卸载过程被建模为M/M/1队列模型。卸载队列的进队由任务到达率决定，卸载队列的出队由基站传输决定。当队列的进队速率大于出队速率时，队列中的任务会不断累积导致队列溢出。队列以服务强度反映繁忙程度，定义基站j中请求类型为o的卸载队列的服务强度^[21]为

为了保持卸载队列的稳定性(防止队列溢出)，公式(5)需要满足

任务m到达卸载队列后，排在任务m前的任务索引集合表示为Ω(m)。假设ζ_i,j,m代表由车辆i产生的任务m由基站j上载至控制器的时长。该任务的卸载延迟被计算为

3.4.2任务处理延迟建模

处理延迟指任务从控制器进入基站处理队列到任务被处理完所花费的时长。基站按需为各个任务分配计算资源，计算资源以虚拟机实例(virtual machine instance)为单位分配。每个虚拟机实例的最大CPU周期为s^(max)Hz(每秒)。假设基站j为车辆i产生的任务m分配虚拟机实例的数量为n_i,j,m。该基站中处理队列o的任务平均处理时长被计算为

控制器卸载队列中的任务被分发到不同基站的处理队列中。处理队列中任务的到达也服从泊松过程。基站j分配给切片o的频谱资源数量在所有同类型切片的频谱资源中的占比为

基站j中任务处理队列的服务类型o任务到达率为α_j,oλ_o。任务处理过程被建模为M/M/1队列模型。基于(4)、(8)和(9),基站j中处理队列o的服务强度被定义为

为了保持处理队列的稳定性，式(10)需要满足

在基站j的处理队列中，排在任务m之前的任务索引集合被表示为ψ_j(m)。该任务的处理延迟被计算为

3.4.3任务移交延迟建模

如图3所示，每个任务在基站的处理队列中计算完成后，直接由基站将结果传输回车辆。基于公式(2)，在基站j中的任务m回传给车辆i的移交延迟被表示为

任务延迟由卸载延迟、处理延迟和移交延迟组成，由(7)、(12)和(13)可得车辆i产生的请求类型o任务m的任务延迟为

车辆只有在与基站建立连接时才能获取服务。若车辆在离开基站覆盖范围时仍未收到任务处理结果，即使任务调度时间未超出本身延迟要求，同样视为任务失败。假设车辆i从产生任务m时到驶出基站j覆盖范围的总行驶距离被表示为γ_i,j,m，车辆i的行驶速率被表示为v_i。则任务m的最大调度时间可以被计算为

因此，任务m完成的延迟约束被表示为

由于车载用户行驶方向和速度的时变性以及路网的复杂性，车辆未来的行驶轨迹是多变的。单个基站的覆盖范围有限，很难为车载用户提供完整的服务，协作式卸载模式有助于减少因车辆离开基站覆盖范围而导致的任务失败率。尽管如此，协作式卸载模式也使得基站的选择策略变得更多，进而导致控制器进行调度决策的难度提高。后续将探讨相应的解决方案。

4问题建模

所提方案的目标是在满足差异化QoS需求的基础上最大化任务完成数量。切片窗口w任务完成情况依赖于RAN切片策略和协作式任务调度策略，其中：

a、面向RAN切片的频谱资源和计算资源策略集合分别被表示为

和

b、协作式任务调度策略集合被表示为

定义如下二元变量

代表在第w个切片窗口，车辆i连接基站j之后，任务处理是否满足延迟需求。如果能够满足延迟需求，则

否则

当任务在满足延迟约束的条件下完成时，系统获得对应的收益。相应地，若任务未能完成，系统产生对应的损失。

定义1在第w个切片窗口内，任务完成且满足延迟需求时，系统获得的总奖励U^(w)

其中u_j,o∈(0,1)代表请求类型为o的任务在基站j上的对应收益因子。

定义2在第w个切片窗口内，任务未能满足延迟需求时，系统产生的总损失H^(w)

其中h_j,o∈(0,1)代表请求类型为o的任务在基站j上对应的损失因子。

在满足QoS需求前提下，使系统长期性地完成更多的车辆任务是本发明的目标。以最大化车辆任务完成数为目标，动态RAN切片问题(P0)被建模为

(6)和(11)(19e)

问题P₀的实质是通过在线的方式，协调分配各个基站的频谱和计算资源以及区域内的工作负载，使得系统长期的平均任务完成数最大。其中，约束(19a)保证每个基站j分配得到的子信道数为正数。约束(19b)和(19c)保证每个基站分配给车辆的频谱和计算资源不超过自身持有的资源总数。约束(19d)保证了每个车辆只能连接唯一的地面基站，而不能同时连接多个。约束(19e)保证了排队系统中队列的稳定性，同时，也表明了RAN资源的切片决策和任务调度决策是耦合的，即耦合约束。

5问题解耦与算法设计

为了便于处理，将P₀分解为大时间尺度上的RAN切片子问题和小时间尺度上的任务调度子问题。

5.1面向任务卸载的RAN切片资源分配方法

RAN切片子问题P1是给定任务调度决策

通过优化RAN切片决策

最大化系统的任务完成数。即

s.t.(19a),(19b)and(19c)

根据(17)和(18)，每个切片窗口内的决策是独立的且窗口内的各任务被独立地分配资源。RAN切片子问题的实质是最大化每个切片窗口内的任务完成数量。现实中的车流量不会出现连续的较大波动，相邻切片窗口的车流量具有相似性。

控制器可以参考上一个切片窗口的任务调度策略来优化RAN切片。根据该思路，将P1转化为如下以切片窗口为周期的一次性优化(one-shot)问题：

(19b)和(19c)(20c)

问题P₂属于求解多约束条件下的多元函数极值问题，可以使用拉格朗日乘数法对其求解。这种方法将一个有多个变量和多个约束条件的最优化问题转化为一个有多个变量的无约束方程组的极值问题。P₂问题被转化为P₃。

在给定任务调度策略的情况下，控制器可以计算出每个基站处理任务的具体数量。然后，根据任务的属性、QoS需求以及各个基站的资源持有量构建出RAN切片子问题。计算P₃可以得到一个最优的RAN切片方案

5.2基于深度强化学习的任务调度

小时间尺度上的任务调度子问题的目标是在满足队列稳定的约束下最大化任务完成数量，即：给定RAN切片决策

通过优化任务调度决策

来最大化系统的任务完成数量。

s.t.19(d),(6)和(11)

问题P₁中，各个切片窗口的资源分配是相互独立的。相应地，在各个切片窗口中RAN切片决策固定下进行任务的调度也是相互独立的。因此，求解问题P₄时可以将长期优化问题分解为各个调度时隙内的短期优化问题。短期优化问题属于有限视界的马尔可夫决策问题。

以下，将单个切片窗口内的任务调度子问题重新构建为一个马尔可夫决策问题^[22]。具体而言，控制器被抽象为一个智能体(agent)。在训练回合l时，控制器观察环境的状态，记录为

然后基于

控制器采取任务调度决策动作

做出动作后，环境反馈给相应的奖励

同时，根据状态转移概率

将环境的状态转化为新状态

在本马尔可夫决策问题中，状态、动作、奖励的表示如下：

·状态空间S：任务调度需要考虑全局路网中的多个因素，包括任务参数、车辆信息以及各基站位置、资源及队列状态等信息。用

描述系统状态，表示为

表示车辆i的具有方向的速度。

·动作空间A:系统在训练回合

做出的任务调度描述为动作

动作的制定基于当前的环境状态，与问题P₄的优化变量对应，即

其中，

代表训练回合

内的任务调度决策。为了满足约束(19d)，每个动作只取0或1。

·奖励R:奖励是为了评估在某个状态下所做动作的优劣。通过设立奖励机制使神经网络以最大化奖励为目标更新优化。基于式(17)和(18)，奖励可以被表示为

基站按照深度强化学习的决策接收任务并处理。任务如果能够被正常处理，系统需要获得奖励来肯定这次动作。如果系统做出一个不合理的任务调度决策，基站常面临资源不足的情况，进而导致处理队列难以保持稳定。为了描述这种情况，需要加入惩罚以阻止控制器做出不合理的决策。

令Π代表候选调度策略的集合。针对当前的调度时隙t，目标是寻找最大化系统奖励获得的调度策略，表示为

其中，π∈Π代表选择的任务调度策略，

代表在训练回合

的折扣因子。由于任务信息发布的不可预知性，状态转移概率无法确定。问题P₅无法通过传统的基于模型(model-based)的强化学习算法求解，本发明采用不依赖模型(model-free)的强化学习算法求解最优任务调度问题。另一方面，由于难以对车联网环境进行建模，所以引入深度强化学习中的深度Q学习网络(Deep Q-learning Network,DQN)算法，通过改进Q学习算法，可以应对更加庞大的动作状态空间。

Q学习算法的核心在于构建一个Q表。在状态空间下，每个动作获得的奖励被估计并存储到Q表中。动作价值函数表示为

θ代表神经网络的权重参数。Q表中每个状态的奖励最大值代表未来可能获得的最大回报。通过查询Q表，每个状态下最大收益的动作被确定为

对(24)运用贝尔曼等式，可以得到Q表中的值，计算过程为

上式中υ代表学习速率，φ代表贪心概率。

DQN算法得到的任务调度策略实质上就是每个任务卸载时的关联选择。相较于人为制定的策略，神经网络更容易从复杂的全局环境中找出当前任务卸载的最优解。当车辆行驶距离长时，车辆会通过多个基站的覆盖网络，基站协作进行任务卸载的概率很高；而当行驶的距离短时，任务卸载多由附近基站独自完成。

下面通过算法1来描述基于DQN的任务调度机制。

5.3联合优化策略

本节提出联合优化策略，大时间尺度上的RAN切片子问题与小时间尺度上的协作式任务调度子问题被联合求解。算法2给出了RAN切片子问题和协作式任务调度联合优化策略。

算法2：RAN切片-任务调度联合优化

输入：各基站内总物理资源以及全局内车辆、任务信息。

输出：每个切片窗口内的RAN切片决策和任务调度决策。

首先，系统根据历史数据中的任务信息划分切片窗口的长度。切片窗口确定后，将第w-1个切片窗口内的任务调度决策

作为求解问题P₃的已知条件，并求解出RAN切片决策

第一个切片窗口的任务调度决策

由历史数据给出。将切片窗口w划分为多个同等大小的调度时隙

在每个调度时隙内，将RAN切片决策

作为求解问题P₅的已知条件，得到每个调度时隙内的任务调度决策。各个基站按照任务调度决策处理任务。在最后一个调度时隙结束时，系统将每个调度时隙内的任务调度决策整合为切片窗口w的任务调度决策

并记录为历史数据供第w+1个切片窗口使用。

联合优化策略实现了RAN切片和任务调度的交替和长期运行。利用相邻时间段车流量的相似性，将上个切片窗口的任务调度决策作为已知条件，得到RAN切片决策。不仅减少了系统的计算任务，也可以提升切片决策的适用性。

6实验设计与结果分析

本节通过一系列的仿真实验验证本发明方案的有效性。实验的硬件环境中，CPU使用AMD Ryzen53500X，其包含6核6线程；GPU使NVIDIA GeForce GTX 1660SUPER。实验环境使用Python 3.6.8和PyTorch 1.7.1实现。为了模拟交通路网环境，考虑一个由5条道路交叉而形成两个方格的路网场景(与图1中相似)，方格的边长为1000m。其中包含5个覆盖半径为500m的宏基站，每个宏基站的发射功率同为40dBm。MEC控制器放置在5个宏基站的中心位置处，控制器与宏基站通过有线连接。为了让仿真贴近现实环境，本实验选取的车流量数据来源为OpenITS开放数据平台。车辆产生任务的到达率服从泊松分布。延迟敏感型任务为智能汽车控制指令，延迟约束的范围在50ms-1s；延迟容忍型任务为车载设备高清地图下载，延迟约束的范围在3s-10s。为了保证仿真实验中任务信息的多样性，每个任务的延迟约束在限制范围内按概率随机给出。其他参数如表1所示。

表1仿真参数

Table 1:Simulation parameters

为了客观地评估性能，实验选取3种代表性的任务卸载策略用于对比，包括：

·基于最大信干噪比的任务卸载方法(Max-SINR)^[23]：RAN切片比例按照平均划分，控制器进行任务调度时，选择与车辆连接最大信干噪比的基站。

·随机的任务调度方法(Random)^[24]：RAN切片比率随机分配，控制器进行任务调度时，随机选择基站。

·距离优先的车辆关联方法(RSE-online)^[25]：RAN切片比例按照平均划分，控制器进行任务调度时，优先选择距离车辆最近的基站。

首先，评估可用资源块(频谱资源块和计算资源块)增加对任务完成率的影响。图4(a)展示了计算资源数固定为15的情况下，频谱资源增加对任务完成率的影响。各方案的任务完成率不断提高。在频谱资源块增加到15之后，各方案的任务完成率逐渐趋于稳定。充足的频谱资源使得控制器有更大的决策空间，是性能提升必要条件，但不是唯一条件。接下来考察当子信道数量固定为15时，计算资源的增加对性能的影响。如图4(b)所示，任务成功率在初始阶段快速上升，但当计算资源块增加到16后，性能不再有明显提升。这是因为系统处理能力的上限由两种资源共同决定，当任务数量饱和后，单纯增加计算或频谱资源都难以提升系统性能。

图5展示了本发明方案在频谱和计算资源块各固定为15块，延迟敏感型任务占比为40％时，成功完成的任务延迟对应的概率分布。从图5可以看出，任务延迟低于1s的比例大约有30％，而低于1s至低于3s的比例没有任何变化。这是因为低于1s延迟完成的任务属于延迟敏感型，而延迟容忍型任务完成的时延高于3s。任务延迟时间在区间3.5s-5s内的累积概率由44.3％增加至88.6％，这验证了在本发明方案下的延迟容忍型任务大概率在5s内就可以被处理完成。任务延迟时间低于7s的比例共有98.9％。

图6评估了车流量的变化对全局资源利用率的影响。车辆密度越高，车流量越大。当车辆密度为0.1辆/m²时，四种方案的全局资源利用率都在50％以下。这是因为网络中的任务稀疏，有些基站处于空闲状态，系统中的资源不能全部利用。另外，可以看出随着车辆密度的增加，全局资源利用率不断升高。与Max-SINR和RSE-online相比，本方案的资源利用率分别增加了29％和10％。在车辆密度增加到0.3辆/m²之后，RSE-online和本方案的资源利用率明显高于其它方案。这是因为车辆密度的增加导致任务数量变多，深度强化学习能在综合考虑各个因素的条件下，更快地做出最优调度决策，降低任务的处理时延，并使得系统资源利用率增加。然而，资源的利用率无法增加至100％。这是因为车辆必须要在基站的覆盖范围内才能与其连接并卸载任务，远离车辆的基站无法为其提供服务。

图7评估了延迟敏感型任务占比增加对任务完成率的影响。随着延迟敏感型任务占比的增加，任务完成率不断降低。这是因为延迟敏感型任务的QoS限制导致任务处理需要更多的资源。增加延迟敏感型任务的占比，是对系统的处理能力进行压力测试。相较于其他方案，所提方法通过感知环境信息做出合适的任务调度决策，提升了任务完成率，特别是在面对极端条件时具有更强的鲁棒性。

7总结

本发明提出的一种面向任务卸载的动态RAN切片框架，不仅实现了服务QoS的隔离，也提升了系统处理的鲁棒性。针对任务调度，本发明设计的协作式任务卸载策略，并引入深度强化学习进行决策，提升了车载用户的任务完成率。仿真结果表明，本发明提出的方案相较于现有方案，有效增加了任务完成数量，提升了系统资源利用率，实现了网络服务的公平性。

参考文献：

[1]Zhuang W,Ye Q,et al.SDN/NFV-Empowered Future IoV with EnhancedCommunication Computing and Caching[J].Proceedings of the IEEE,2020,108(2):274-291.

[2]Ning Z,Hu X,et al.A Cooperative Quality-Aware Service AccessSystem for Social Internet of Vehicles[J].IEEE Internet of Things Journal,2017,5(4):2506-2517.

[3]Martínez-cruz,Alfonso,et al.Security on In-Vehicle CommunicationProtocols:Issues,Challenges,and Future Research Directions[J].ComputerCommunications,2021,180:1-20.

[4]Siriwardhana,Y.,Porambage,P.,et al.A Survey on Mobile AugmentedReality with 5G Mobile Edge Computing:Architectures,Applications,andTechnical Aspects[J].IEEE Communications Surveys&Tutorials,2021,23(2):1160-1192.

[5]Zhang W,Zhang Z,Chao H.Cooperative Fog Computing for Dealing withBig Data in the Internet of Vehicles:Architecture and Hierarchical ResourceManagement[J].IEEE Communications Magazine,2017,55(12):60-67.

[6]Sexton,C.,Marchetti,N.,et al.Customization and Trade-Offs in 5GRAN Slicing[J].IEEE Communications Magazine,2019,57(4):116-122.

[7]Qureshi,K.N.,Ahmad,E.,et al.Network Functions Virtualization forMobile Core and Heterogeneous Cellular Networks[J].Wireless PersonalCommunications,2022,122(3):2543–2559.

[8]Haque,I.T.,Abu-Ghazaleh,N.Wireless Software Defined Networking:ASurvey and Taxonomy[J].IEEE Communications Surveys&Tutorials,2016,18(4):2713-2737.

[9]Addad,R.A.,Taleb,T.,et al.Network Slice Mobility in NextGeneration Mobile Systems:Challenges and Potential Solutions[J].IEEE Network,2020,34(1):84-93.

[10]Lu X,Yi B,Wang X-W.5G Network Resource Slice Management Mechanismin Software-Defined Networking/Network Function Virtualization[J].Journal ofChinese Computer Systems,2021,42(5):1082-1087.

[11]Zhu S-F,Cai J-H,et al.Multi-Objective Optimal Offloading Decisionfor Cloud-Edge Collaborative Computing Scenario in Internet of Vehicles[J].Journal on Communications,2022,43(6):223-234.

[12]Xu X-L,Fang Z-J,et al.A Deep Reinforcement Learning-BasedDistributed Service Offloading Method for Edge Computing Empowered Internetof Vehicles[J].Chinese Journal of Computers,2021,44(12):2382-2405.

[13]Dai P,Hu K,et al.Asynchronous Deep Reinforcement Learning forData-Driven Task Offloading in MEC-Empowered Vehicular Networks[C].IEEEConference on Computer Communications,2021:1-10.

[14]Omar H.A.,Zhuang W,et al.Performance Evaluation of VeMACSupporting Safety Applications in Vehicular Networks[J].IEEE Transactions onEmerging Topics in Computing,2013,1(1):69-83.

[15]Xu X,Zhang X,et al.Adaptive Computation Offloading with Edge for5G-Envisioned Internet of Connected Vehicles[J].IEEE Transactions onIntelligent Transportation Systems,2020,22(8):5213-5222.

[16]Liu L,Chen C,et al.Joint Intelligent Optimization of TaskOffloading and Service Caching for Vehicular Edge Computing[J].Journal onCommunications,2021,42(1):18-26.

[17]Su L,Yu S-C.A Brief Review of Monitoring and Interaction Systemsin Intelligent Vehicle Cabin[C].International Symposium on ProjectManagement,2021:622-634.

[18]Javanmardi,E.,Gu Y,et al.Autonomous Vehicle Self-LocalizationBased on Abstract Map and Multi-Channel LiDAR in Urban Area[J].IATSSResearch,2019,43(1):1-13.

[19]Erceg,V.,Greenstein,L.,et al.An Empirically Based Path Loss Modelfor Wireless Channels in Suburban Environments[J].IEEE Journal on SelectedAreas in Communications,1999,17(7):1205-1211.

[20]Fowler,S.,Hall,C.H.,et al.Analysis of Vehicular Wireless ChannelCommunication via Queueing Theory Model[C].IEEE International Conference onCommunications,2014:1736-1741.

[21]Xue J,Wang Z,et al.Task Allocation Optimization Scheme Based onQueuing Theory for Mobile Edge Computing in 5G Heterogeneous Networks[J].Mobile Information Systems,2020:1-12.

[22]Li Y,Hu X,et al.Deep Reinforcement Learning:Another Perspectivefor Unsupervised Wireless Localization[J].IEEE Internet of Things,2019,7(7):6279-6287.

[23]Wu W,Chen N,et al.Dynamic RAN Slicing for Service-OrientedVehicular Networks via Constrained Learning[J].IEEE Journal on Selected Areasin Communications,2020,39(7),2076-2089.

[24]Shukry,S.,Fahmy,Y..Traffic Load Access Barring Scheme for RandomAccess Channel in Massive Machine-to-Machine and Human-to-Human DevicesCoexistence in LTE-A[J].International Journal of Communication Systems,2021,34(8):e4777.

[25]Tang L,Zhao G,et al.Queue-Aware Reliable Embedding Algorithm for5G Network Slicing[J].Computer Networks,2018,146(9):138-150.

附中文参考文献：

[10]卢旭,易波,王兴伟.SDN/NFV下的5G网络资源切片管理机制[J].小型微型计算机系统,2021,42(5):1082-1087.

[11]朱思峰,蔡江昊等.车联网云边协同计算场景下的多目标优化卸载决策[J].通信学报,2022,43(6):223-234.

[12]许小龙,方子介等.车联网边缘计算环境下基于深度强化学习的分布式服务卸载方法[J].计算机学报,2021,44(12):2382-2405.

[16]刘雷,陈晨等.车载边缘计算中任务卸载和服务缓存的联合智能优化[J].通信学报,2021,42(1):18-26.

Claims

1.一种车联网中深度强化学习辅助的RAN切片和任务卸载联合优化方法，其特征是

联合优化方法的应用场景是MEC辅助的车联网系统，在该系统中：基于MEC的控制器和基站通过有线连接；车辆处于基站的覆盖范围内才连接基站卸载任务；在基站覆盖范围内的车载任务，均通过基站卸载至控制器进行调度；控制器实时分配任务，并交由合适的基站处理；基站接收到任务后，为任务分配物理资源并进行处理；最后，基站将处理结果传回车辆；同时处于多个基站的覆盖范围内，车辆在同一时隙仅关联唯一的基站来卸载任务；所述物理资源包括频谱资源和计算资源；

联合优化方法的目的是最大化车联网任务完成数量；

联合优化方法的步骤包括：

步骤1)采用面向服务的RAN切片框架，时间被划分为多个等长的切片窗口；每个切片窗口被划分为等长的调度时隙；在大时间尺度的切片窗口上进行资源切片，在小时间尺度的调度时隙上进行任务调度；

切片采用最优化方法，以切片窗口为周期，为RAN切片分配物理资源，解决RAN切片子问题；采用基于深度强化学习的算法得到的任务调度策略，解决协作式任务调度子问题；

2.根据权利要求1所述的联合优化方法，其特征是步骤1)中，切片窗口w任务完成情况依赖于RAN切片策略和协作式任务调度策略，

其中：

a、面向RAN切片的频谱资源策略集合

和计算资源策略集合

分别被表示为

和

b、协作式任务调度策略集合

被表示为

定义二元变量

这个二元变量代表在第w个切片窗口，车辆i连接基站j之后，任务处理是否满足延迟需求；如果能够满足延迟需求，则

否则

r_i,j,m表示车辆i向基站j提交任务m时的上行传输速率；

任务类型o＝1和o＝2分别表示延迟敏感型任务和延迟容忍型任务；

每个基站的物理资源被划分为2个面向任务卸载的RAN切片，即第一种切片和第二种切片，分别支持延迟敏感型任务和延迟容忍型任务；

在切片窗口w，基站j分配给两种切片的频谱和计算资源数量表示为

和

在满足延迟约束的条件下，当任务完成时，系统获得对应的收益，若任务未完成，系统产生对应的损失；

其中u_j,o∈(0,1)代表请求类型为o的任务在基站j上的对应收益因子；

其中h_j,o∈(0,1)代表请求类型为o的任务在基站j上对应的损失因子；

表示基站集合；

表示调度时隙t内基站j采集到的类型为o的任务集合；时间被划分为多个等长的切片窗口，每个切片窗口被划分为等长的调度时隙；

以最大化车辆任务完成数为目标，动态RAN切片问题(P0)被建模为

P₀:

约束条件包括：

a、

保证每个基站j分配得到的子信道数为正数；

b、

保证每个基站分配车辆的频谱和计算资源不超过自身持有的资源总数；

d、

保证了每个车辆只能连接唯一的地面基站；

e、

保证了排队系统中队列的稳定性，同时，也表明了RAN资源的切片决策和任务调度决策是耦合的即耦合约束；

表示基站j中请求类型为o的卸载队列的服务强度，

表示基站j中处理队列o的服务强度；

表示切片窗口w包含的调度时隙集合。

3.根据权利要求2所述的联合优化方法，其特征是步骤2)中，面向任务卸载的RAN切片资源分配方法解决RAN切片子问题：

RAN切片子问题P₁是给定任务调度决策

通过优化RAN切片决策

最大化系统的任务完成数，即

P₁:

约束条件包括：

和

将P1转化为以切片窗口为周期的一次性优化one-shot问题P₂：

P₂:

约束条件包括：

使用拉格朗日乘数法求解问题P₂，将一个有多个变量和多个约束条件的最优化问题转化为一个有多个变量的无约束方程组的极值问题，则P₂问题被转化为P₃：

P₃:

在给定任务调度策略的情况下，控制器计算出每个基站处理任务的具体数量；然后，根据任务的属性、QoS需求以及各个基站的资源持有量构建出RAN切片子问题；

计算P₃得到一个最优的RAN切片方案

4.根据权利要求3所述的联合优化方法，其特征是步骤2)中，采用基于深度强化学习的任务调度策略解决任务调度子问题P₄：

任务调度子问题P₄的目标是基于给定RAN切片决策

通过优化任务调度决策

来最大化系统的任务完成数量；

P₄:

约束条件包括：

问题P₁中，各个切片窗口的资源分配是相互独立的，相应地，在各个切片窗口中RAN切片决策固定下进行任务的调度也是相互独立的；则求解问题P₄时，将长期优化问题分解为各个调度时隙内的短期优化问题；短期优化问题属于有限视界的马尔可夫决策问；

将单个切片窗口内的任务调度子问题重新构建为一个马尔可夫决策问题：

控制器被抽象为一个智能体agent；在训练回合l时，控制器观察环境的状态，记录为s^(l)。然后基于s^(l)，控制器采取任务调度决策动作a^(l)；

做出动作后，环境反馈给相应的奖励r^(l)；同时，根据状态转移概率Pr(s^(l+1)|s^(l),a^(l))将环境的状态转化为新状态s^(l+1)；其中，状态空间、动作空间和奖励的表示如下：

·状态空间S：任务调度需要考虑全局路网中的多个因素，包括任务参数、车辆信息、各基站位置、资源及队列状态；用s^(l)∈S描述系统状态，表示为

·动作空间A：系统在训练回合l做出的任务调度描述为动作a^(l)；动作的制定基于当前的环境状态，与问题P₄的优化变量对应，即

其中，

代表训练回合l内的任务调度决策；为了满足约束

每个动作只取0或1；

·奖励R：奖励是为了评估在某个状态下所做动作的优劣；通过设立奖励机制使神经网络以最大化奖励为目标更新优化；基于定义1和定义2，奖励表示为

r^(l)(s^(l),a^(l))＝(U^(l)-H^(l))

基站按照深度强化学习的决策接收任务并处理；任务如果能够被正常处理，系统获得奖励来肯定这次动作；加入惩罚以阻止控制器做出不合理的决策；

令Π代表候选调度策略的集合；针对当前的调度时隙t，目标是寻找最大化系统奖励获得的调度策略，表示为

P₅:

其中，π∈Π代表选择的任务调度策略，

代表在训练回合l的折扣因子；

采用深度Q学习网络DQN算法求解问题P₅。

5.根据权利要求4所述的联合优化方法，其特征是所述步骤2)中，采用深度Q学习网络DQN算法求解问题P₅的方法为：

构建一个Q表，在状态空间下，每个动作获得的奖励被估计并存储到Q表中；动作价值函数表示为Q(s^(l),a^(l)|θ)，θ代表神经网络的权重参数；Q表中每个状态的奖励最大值代表未来可能获得的最大回报；通过查询Q表，每个状态下最大收益的动作被确定为

接着采用贝尔曼等式，得到Q表中的值，计算过程为

式中，υ代表学习速率，φ代表贪心概率；

DQN算法得到的任务调度策略即为每个任务卸载时的关联选择。

6.根据权利要求5所述的联合优化方法，其特征是步骤3)中，

首先，系统根据历史数据中的任务信息划分切片窗口的长度；

切片窗口确定后，将第w-1个切片窗口内的任务调度决策

作为求解问题P₃的已知条件，并求解出RAN切片决策

第一个切片窗口的任务调度决策

由历史数据给出；

将切片窗口w划分为多个同等大小的调度时隙

在每个调度时隙内，将RAN切片决策

作为求解问题P₅的已知条件，得到每个调度时隙内的任务调度决策；

各个基站按照任务调度决策处理任务；

在最后一个调度时隙结束时，系统将每个调度时隙内的任务调度决策整合为切片窗口w的任务调度决策

并记录为历史数据供第w+1个切片窗口使用。