CN115208892A

CN115208892A - 基于动态资源需求的车路协同在线任务调度方法及系统

Info

Publication number: CN115208892A
Application number: CN202210851913.9A
Authority: CN
Inventors: 胡世红; 屈志昊; 唐斌; 叶保留
Original assignee: Hohai University HHU; Jiangsu Future Networks Innovation Institute
Current assignee: Hohai University HHU; Jiangsu Future Networks Innovation Institute
Priority date: 2022-07-19
Filing date: 2022-07-19
Publication date: 2022-10-18
Anticipated expiration: 2042-07-19
Also published as: CN115208892B

Abstract

本发明公开了一种基于动态资源需求的车路协同在线任务调度方法及系统。所述方法包括：采集信息建立不同任务的请求配置文件数据；利用生成对抗网络编解码器GAN‑EN提取任务的资源需求特征；通过线性回归建立不同资源需求行为和资源需求特征的关系，得到资源需求行为指数；基于车路系统中任务在本地、边缘以及云上计算的时延和需要满足的资源限制条件，建立调度优化问题方程，优化目标为满足任务需求指数条件下最大化边缘服务提供商的利益；利用随机马尔可夫博弈对优化问题进行转化，根据离线生成的专家轨迹训练模仿学习网络；根据实时输入的状态利用训练好的网络获得调度决策，实现分布式在线任务协同调度。本发明有效利用边缘资源，提高调度性能。

Description

基于动态资源需求的车路协同在线任务调度方法及系统

技术领域

本发明涉及一种基于动态资源需求的车路协同在线任务调度方法及系统，属于边缘计算中车路协同调度领域。

背景技术

随着车联网和智能交通系统的快速发展，一大批涵盖信息服务、行车安全和交通效率的车载应用涌现出来。不同的车载服务、路边传感器、交通监控设备产生的海量数据给网络带宽带来了巨大的压力。计算密集型、延迟敏感的服务对网络的计算、通信和存储能力提出了严峻的挑战。通过将边缘计算和车联网技术相结合，车辆边缘计算(Vehicular edgecomputing,VEC)能够处理复杂、异构、动态的车路环境。VEC将不同的任务分配到合适的边缘进行处理，以保证不同用户的服务质量(Quality of Service,QoS)，为用户提供低延迟、高带宽、高可靠性的服务。任务调度是VEC中的一个重要问题，已经引起了研究者的广泛关注。现有的工作大多是针对资源有限的车辆进行任务卸载和资源分配。利用配备边缘服务器的路边计算单元(Roadside units,RSU)的低延迟优势，任务调度可以为车辆提供更好的服务质量。目前，车路协同系统下的道路传感设备和交通监控设备产生了大量的计算需求，不可避免地会与车辆在RSU上争夺计算资源。因此，一个RSU区域内的任务卸载请求过载可能会显著降低用户的QoS。此外，许多新的车载应用和交通应用也在不断出现，如增强现实、驾驶行为检测、车牌识别等。

边缘之间的协作可以有效地解决计算任务过载、任务请求的服务缺失等问题。在边缘计算研究中，协同任务调度方面已经有一些研究成果。现有的研究技术针对车辆边缘计算设计的协同在线任务调度方法，重点解决车辆移动性带来的网络切换影响下的任务划分和调度问题，以最小化任务延迟为目标。大规模5G基建为车路协同提供了发展的基石，但5G基站和边缘服务器的部署、维护和运行所带来的巨额成本也成为车路协同实际落地的一大阻碍。因此，如何合理地将边缘资源服务转化为服务商的实际收益是车路协同下任务调度研究的重要挑战。车路环境中的计算任务种类繁多，不同任务对资源的需求也不一样。从服务提供商利益角度出发，无法满足任务需求的任务调度将减少提供商利益。例如，某些任务可能由于对通信资源的高需求导致其它任务数据无法正常传输，或者某些任务对延迟极度敏感，车辆的高度移动使卸载行为无法在截止时间内完成任务。因此，未考虑任务资源需求的调度策略可能导致任务失败，造成资源浪费，损害服务提供商的利益。

此外，近年来由于机器学习的发展，先进的人工智能(Artificial Intelligence,AI)技术被应用到各个领域。一般情况下，计算卸载过程与边缘环境的交互可以建模为马尔可夫决策过程(Markov Decision Process,MDP)问题，深度强化学习(DeepReinforcementLearning,DRL)技术可以有效地解决该问题。但现有的基于DRL技术的任务调度方案大多为集中式离线调度策略，需要基于全局信息进行调度控制，分散在不同位置的边缘节点无法独立作出调度决策，导致此类方法的可拓展性差，无法适用于大规模车路边缘计算场景。

发明内容

发明目的：本发明提出一种基于动态资源需求的车路协同在线任务调度方法及系统，旨在解决大规模车路环境中具有多样需求任务的协同调度问题。所提方法可在不同资源需求下进行合理调度以达到最大化服务提供商利益的目标，同时支持不同异构边缘进行独立在线调度决策，实现方法的大规模拓展应用。

技术方案：为了实现以上发明目的，本发明的技术方案如下：

一种基于动态资源需求的车路协同在线任务调度方法，包括以下步骤：

S1、采集不同任务在车辆和边缘服务器上的计算数据，记录任务调度时不同计算节点的资源使用配置情况，得到不同任务的请求配置文件数据，其中任务k的请求配置文件主要包括请求数量N，工作负载大小L和资源占用时间W；

S2、利用生成对抗网络编解码器GAN-EN提取任务的资源需求特征C＝[c_co,c_st,c_cm]_T，其中c_co,c_st,c_cm分别代表任务对计算、存储和通信资源的需求特征值；

S3、通过线性回归建立不同资源需求行为和资源需求特征C中特征数据的关系，得到资源需求行为指数R；

S4、基于车路系统中任务在本地、其他计算节点以及云上计算的时延和需要满足的资源限制条件，建立调度优化问题方程，优化目标为满足任务需求指数R条件下最大化边缘服务提供商的利益；

S5、利用随机马尔可夫博弈对优化问题进行转化，根据离线生成的专家轨迹训练模仿学习网络；

S6、根据实时输入的状态利用训练好的网络获得调度决策，实现分布式在线任务协同调度，将任务安排到最佳位置并分配合理资源进行计算。

一种基于动态资源需求的车路协同在线任务调度系统，包括：用户层终端设备、多个RSU、云中心，云中心通过骨干网与边缘层中的RSU相连，配备边缘服务器的RSU在边缘层沿单向道路分布，并通过局域网连接，用户层终端设备产生计算任务后卸载到RSU来处理，所述RSU执行如上所述的基于动态资源需求的车路协同在线任务调方法实现对任务的实时调度。

有益效果：传统的任务调度方法没有考虑任务的不同资源需求，一般调度方法的设计目标为最小化时延或者能耗，忽略任务对不同资源的需求会使得边缘计算、存储和通信资源分配不合理，导致任务无法响应，浪费有限的边缘资源。因此本发明提出建立资源需求模型，通过资源行为指数R量化任务对不同类型资源的需求度，指导RSU为任务制定最优资源调度决策，从而完成任务响应，有效利用边缘资源最大化服务提供商利益。由于RSU地理位置分散，配备的边缘服务器异构，随着车路协同在线任务调度场景规模的扩张，传统的离线协同调度方法因为任务信息维度的增大，调度性能明显下降，离线协同调度方法的复杂性也会引发额外延迟。因此，本发明先通过离线优化方法给出最优调度决策，然后设计一种基于GAN模仿学习的在线协同调度方法，支持每个RSU根据任务状态输入在线获得调度决策，无需获取其他RSU上的资源或任务信息，从而实现协同在线任务调度决策的高度拓展性。

附图说明

图1是根据本发明的车路协同在线任务调度方法的网络模型结构图；

图2是根据本发明的车路协同在线任务调度方法的生成对抗网络编解码器任务资源需求模型示意图；

图3是根据本发明的车路协同在线任务调度方法的基于深度模仿学习框架的方法示意图。

具体实施方式

下面结合附图对本发明的实施方法作进一步说明。

参照图1，一种基于动态资源需求的车路协同在线任务调度系统，参与对象包括产生任务的用户、多个RSU和云中心，构成车边云三层架构。云中心通过骨干网与边缘层中的RSU相连，具有最强大的数据处理和存储能力。配备边缘服务器的RSU在边缘层沿单向道路分布，并通过局域网连接。道路被划分为N个区域，每个区域由一个RSU覆盖。设N＝{1,2,...}表示异构RSU(也就是边缘服务器)的集合；设K＝{1,2,...}表示RSU为用户配置的服务类型，RSU的计算、存储和通信资源有限，分别记为F_n,H_n,U_n。用户层包括各种终端设备，如自动驾驶汽车、监控摄像头和各种传感器。考虑到车辆的高速机动性，车辆到基础设施的通信通常采用专用短程通信DSRC信道。其它终端设备通过WiFi等短程通信技术连接到边缘。任务由不同的终端设备产生，且经常被卸载到RSU来处理，如智能城市的传感器监测任务、自动驾驶汽车的目标识别任务和交通视频处理任务。

根据本实例的基于动态资源需求的车路协同在线任务调度方法，在RSU上执行，包括如下步骤：

步骤一，建立任务的动态资源行为需求模型；

步骤二，建立调度优化问题方程，并实现问题转化；

步骤三，基于深度模仿学习，在线生成分布式任务调度决策，任务计算位置(本地、RSU或云中心)和分配的资源数量(计算、通信和存储资源)。

车路系统中运行着各种资源需求和不同优先级的任务，这些任务在车边云三层架构中存在广泛的可能行为。根据本实例的基于动态资源需求的车路协同在线任务调度方法，建立任务的动态资源行为需求模型的具体方法如下：RSU采集其区域内不同任务在车辆和边缘上的计算数据，记录任务调度时不同计算节点的资源使用配置情况。任务请求一般为时间任务，即连续的任务请求，例如汽车和路口摄像头会连续发送目标识别任务。任务k的请求配置文件主要包括请求数量N，工作负载大小L和资源占用时间W＝[w_co,w_s,w_cc]_T，其中w_co表示计算资源占用时间，w_s表示存储资源占用时间以及w_cc表示通信资源占用时间。基于不同任务的请求配置文件数据，利用生成对抗网络编解码器(Generative AdversarialNetwork-based Encoder-Decoder,GAN-EN)提取任务需求行为特征C＝[c_co,c_st,c_cm]_T，其中c_co,c_st,c_cm分别代表任务对计算、存储和通信资源的需求特征值。其中，GAN中的生成器在小的任务请求配置数据集训练过程中可提供过采样的新样本，且GAN中的对抗网络有先进的特征提取能力。

GAN-EN由一个编码网络(E)，一个解码的生成网络(G)和一个鉴别器网络(D)组成，具体功能如下：编码器E作为特征提取器，将长序列数据压缩为短的固定特征向量；解码器G学习将样本从任意潜分布映射到实时序列分布；鉴别器D区分真实的时间序列和生成的时间序列，其输入包含x、编码器E和解码器G的输出z`和x`，输出是鉴别结果(真或假)。这样，鉴别器D通过引导编码器E和解码器G从原始输入中学习真实的数据特征分布，提高学习能力。本实例中编码网络E和解码网络G的隐藏层都采用LSTM的神经元来学习数据点之间的相关性，鉴别器网络D采用DNN网络，但本发明的方法过程不限于上述选择的网络模型，本领域的技术人员可以在领会本发明的精神后做出任何合适的网络模型的选择和修改。GAN-EN网络训练过程被定义为在三个子网络中实施一个极大极小博弈，子网络在每次迭代中交替改进。设输入原始任务资源行为数据x的长度为n，相似度估计表示为Et，则网络优化函数表示为：

参照图2，GAN-EN模型的训练步骤如下：

S11：将原始任务资源行为数据x＝{N,L,W}输入到编码器E，经过模型训练输出特征空间的压缩数据表示在z`＝E(x)；同时，将一个与特征向量相同长度的由一个噪声点序列组成的z输入到解码器G，输出为生成的时间序列x`＝G(z)；编码器E和解码器G；

S12：将x、编码器E和解码器G的输出z`和x`输入到鉴别器D，得到鉴别结果(真或假)；

S13：训练鉴别器D，其目标是最大化鉴别(x,E(x))是真和(G(z),z)是假的概率；

S14：联合训练编码器E和解码器G，目标是最小化(G(z),z)的鉴别概率；

S15：重复S11-S14，直至模型收敛，得到任务资源需求特征向量C＝[c_co,c_st,c_cm]。

本实例基于线性回归生成资源需求行为指数R：基于上述的任务资源需求模型，可获得不同任务的资源需求特征C。通过评估给出任务的资源需求行为指数R＝[r_co,r_st,r_cm]向量，R中包含计算资源需求度r_co、存储需求度r_st和通信需求度r_cm，以指导任务调度。利用任务的处理性能数据和资源需求特征C，建立不同资源需求行为指数R和C中特征数据的关系。采用传统的线性回归方法来量化行为指数R和需求特征C之间的关系。由于资源需求特征参数简单，假设和行为指数R之间有很强的线性关系，因此可用简单的线性回归来建立评估方程，R＝KC，K为3×3系数矩阵，并快速得到任务的资源需求行为指数R。

在步骤二中，先问题建模再进行转化。其中，建立调度优化问题方程包括：基于车路系统中任务在本地、边缘以及云上计算的时延模型、需要满足的限制条件，建立调度优化问题方程。其中，优化目标为满足任务需求指数R条件下最大化边缘服务提供商的利益。

利用随机马尔可夫博弈(Markov Game，MG)实现问题转化：将车边云协同调度优化问题建模为一个MG，用一个元组表示<S，O，A，P，R，ρ₀，γ>，其中，S和A分别表示状态和动作空间，状态空间包含当前时刻的车辆信息、边缘节点信息、云信息、任务信息以及网络信息，而动作空间指的是调度策略。O表示边缘节点的观察信息集合(先前时刻的相邻节点信息等)，P代表状态转移概率，R表示即时的奖励函数，γ表示折扣因子。建立任务调度方程中目标与MG中奖励函数之间的关系，实现问题转化。

根据本实例的基于动态资源需求的车路协同在线任务调度方法，先进行问题建模再进行问题转化具体实现过程如下：

任务模型：时隙t，RSUn区域内的终端设备生成一组任务，记为

其中X表示RSUn区域内的任务数。任务

可以用五个参数的元组表示

其中

为任务数据大小，

为任务延迟的截止期限，

表示任务请求的服务，

表示任务所需的计算资源，二进制变量

表示任务是否在截止时间内完成，

表示任务已被RSU在截止时间内处理，反之亦然。

计算与通信模型：在RSUn的每个区域中，终端设备产生的任务通常由本地RSU处理。但是，当本地服务器的工作负载过载或任务所需的服务没有配置时，任务将被卸载到邻近的RSU或云。本实例定义任务调度策略为

其中

表示任务

是在RSUn的边缘服务器上处理；

表示任务被卸载到其它RSU上(η＝1，2，...，N)或者云中心处理(η＝N+1)。假设每种任务服务在云中心的计算时间固定，记为t_c，k，任务从RSU到云中心的传输速率为V_c。

根据步骤一得到的资源需求行为指数R，设

为RSUn为服务k分配的计算资源，

为分配的存储资源，

以及

为分配的通信资源，

因此，任务

的计算时延为：

传输时延为：

其中，二进制变量

表示RSU是否为将任务

从RSUn传输到目标RSUm的中继节点。另外，RSUn上处理队列中任务的等待延迟wa_n，x可以通过M/G/1排队系统得到：

其中I_n表示RSUn上任务排队输量，

表示任务在RSUn上平均等待时延，δ²为排队延迟方差。特别地，wa_-n，x表示其它RSU(除了RSUn)上的等待时延。

因此，任务

的总延迟T_n，x为处理时延、传输时延和等待延迟的总和，记为：

收益模型：如果任务

在本地RSU处理，总延迟T_n，x小于等于其截止时间

则表示边缘服务提供商及时完成该任务服务，可获得应有收益，设不同服务收益与其资源占用时间成正比，关系系数为α则收益为αT_n，x，任务总延迟T_n，x大于其截止时间

则服务提供商的收益为0；如果任务

在其他RSU上完成，RSU上的边缘服务提供商需要向其付出租赁代价，代价为βT_n，x；如果任务

在云中心完成，RSU上的边缘服务提供商需要向云中心付出租赁代价，代价为εT_n，x。所以边缘服务提供商处理任务

获得的收益为

问题形成：在时隙t，RSUn区域内的所有任务，一方面可选择在本地计算，另一方面如果本地RSU过载或未配置相应服务时则可将其卸载到其它RSU或云来计算。因此，边缘服务提供商的收益为：

然后得到RSUn在所有时隙中的总收益为：

其中T表示算法运行的总时间。本实例中每个RSU的目标是最大化长期边缘服务商总收益：

约束C.1表示RSU为任务服务分配的资源满足其资源行为指数R，约束C.2表示为任务分配的计算、存储和通信资源总量在限制范围内。

问题转化：将车边云协同调度优化问题建模为一个MG，用一个元组表示<S，O，A，P，R，ρ₀，γ>，其中，S＝{S⁰，S¹，...，S^T}和A＝{A⁰，A¹，...，A^T}分别表示状态和动作空间，状态空间St包含当前时刻的RSU信息、任务信息以及网络信息，

表示当前时刻所有RSU的状态信息。其中，

表示RSUn中所有任务配置信息(

是任务数据大小，

是任务截止时间，

是任务请求服务类型，

任务完成所需的计算资源量)，

表示RSU上的边缘资源信息(

是排队任务数量，

是计算资源量，

是通信资源量，

是存储资源量)。而动作空间At指的是当前时刻任务的调度策略，

表示当前时刻所有RSU的调度动作。其中，

表示任务的放置动作(

表示任务本地处理，

ω＝1，…N表示任务传输到其他RSU处理，

表示任务传到云中心处理)，

表示服务的资源分配(

表示分配的计算资源量，

表示分配的存储资源量，

表示分配的通信资源量)。O表示边缘节点的观察信息集合(先前时刻的相邻节点信息等)，P代表状态转移概率，R表示奖励函数组，其中

表示RSU n的奖励，本实例定义

γ表示折扣因子。建立任务调度方程中目标与MG中奖励函数之间的关系，实现问题转化。问题P1可转化为：

s.t.C.1，C.2

根据本实例的基于动态资源需求的车路协同在线任务调度方法，先生成专家轨迹再在线进行分布式调度决策：

参照图3，离线生成专家轨迹：模仿学习以行为克隆为基础，通过模仿专家轨迹(最佳状态-调度动作

)实现监督学习。利用离线优化算法获得大量的决策样本，当决策空间较小时，采用穷举搜索算法获得最优调度决策；决策空间中等时，可以用混合整数规划求解器比如CPLEX来解决；当决策空间较大时，则可以采用近似算法获得有效决策样本。专家数据表示为

离线训练模仿学习网络：据离线算法生成的专家轨迹数据，每个RSU上的智能体模仿学习最佳样本，并根据状态信息给出最佳动作。由于不同智能体之间的合作关系，智能体之间存在博弈过程，其信息的交互和目标的冲突使智能体策略网络学习之间存在复杂的关系。采用GAN模仿学习方法建立策略网络(θ_n)、价值网络

并用判别器(ω_n)评估策略的价值。本实例中GAN的三个子网络均采用DNN网络，但本发明的方法过程不限于所选择的网络模型，本领域的技术人员可以在领会本发明的精神后做出任何网络模型的选择和修改。具体步骤如下：

S31：状态-动作对收集，基于构建的训练网络收集每个智能体的状态-动作对

S32：判别器D_n训练，基于专家和智能体的观察-动作对，即

和

训练判别器决策π_n，输出基于专家轨迹对智能体动作的预测奖励值，最小化损失函数为：

S33：价值网络v_n训练，基于判别器的输出训练价值网络，损失函数为最小化B步预测奖励值与状态值之间的平方差，其中

S34：策略网络训练，输入当前网络的状态信息，采用策略梯度方法训练策略网络，输出调度决策动作

其中梯度为

在线进行分布式调度决策：网络训练好之后，每个RSU可通过输入状态快速获得调度决策，实现分布式在线任务协同调度，将任务安排到最佳位置(本地、RSU或云中心)并分配合理资源进行计算。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于动态资源需求的车路协同在线任务调度方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S4中，调度优化问题形式为：

M_n为边缘服务提供商的总收益，约束C.1表示为任务分配的资源满足对应的资源行为指数R，约束C.2表示为任务分配的计算、存储和通信资源总量在限制范围内；

其中，道路被划分为N个区域，每个区域由一个调度装置覆盖，N＝{1,2,...}表示调度装置的集合，K＝{1,2,...}表示调度装置为用户配置的服务类型集合，t为当前时隙，T为总执行时间，Υ_n表示调度策略，

表示为服务k分配的计算资源，r_co,k为服务k的计算资源需求度，F_n为调度装置n的计算资源限制，

表示为任务k分配的存储资源，r_st,k为服务k的存储资源需求度，U_n为调度装置n的通信资源限制，

表示为任务k分配的通信资源，r_cm,k为服务k的通信资源需求度，H_n为调度装置n的通信资源限制。

3.根据权利要求2所述的方法，其特征在于，所述边缘服务提供商的总收益按以下方式计算：

其中，

为调度装置n区域内的终端设备生成的一组任务，

表示其中第x个任务，

为二进制变量，用于表示任务

是否在截止时间内完成，T_n,x为任务

的总延迟，α、β、ε为三个关系系数，

表示任务

是在调度装置n的边缘服务器上处理；

表示任务

被卸载到其它调度装置上处理，

表示任务

被卸载到云中心处理。

4.根据权利要求3所述的方法，其特征在于，所述任务

以五个参数的元组表示为

其中

为任务数据大小，

为任务延迟的截止期限，

表示任务请求的服务，

表示任务所需的计算资源，二进制变量

表示任务是否在截止时间内完成。

5.根据权利要求3所述的方法，其特征在于，所述任务

的总延迟的计算方式如下：

其中，pr_n,x为任务

的计算时延，co_n,x为任务

的传输时延，wa_n,x为调度装置n上处理队列中任务的等待延迟，wa_-n,x为除了n之外的其它调度装置上的等待时延。

6.根据权利要求5所述的方法，其特征在于，所述pr_n,x的计算方式如下：

其中，t_c,k为任务k在云中心的计算时间。

7.根据权利要求5所述的方法，其特征在于，所述co_n,x的计算方式如下：

其中，二进制变量

表示是否将任务

从调度装置n传输到目标调度装置m的中继节点，v_c为任务从调度装置到云中心的传输速率。

8.根据权利要求5所述的方法，其特征在于，所述wa_n,x的计算方式如下：

其中，I_n表示调度装置n上任务排队输量，

表示任务在调度装置n上平均等待时延，δ²为排队延迟方差。

9.根据权利要求2所述的方法，其特征在于，所述步骤S5中，优化问题被转化为：

s.t.C.1,C.2

其中，γ表示折扣因子，

表示调度装置在t+τ时刻获得的奖励，奖励定义为：

其中，

为调度装置n的状态信息，，

为调度装置n的调度动作，

表示调度装置n中所有任务配置信息，

是任务数据大小，

是任务截止时间，

是任务请求服务类型，

任务完成所需的计算资源量，

表示调度装置上的边缘资源信息，

是排队任务数量，

是计算资源量，

是通信资源量，

是存储资源量；

表示任务的放置动作，

表示任务本地处理，

ω＝1,…N表示任务传输到其他调度装置处理，

表示任务传到云中心处理，

表示服务的资源分配，

表示分配的计算资源量，

表示分配的存储资源量，

表示分配的通信资源量。

10.一种基于动态资源需求的车路协同在线任务调度系统，其特征在于，包括：用户层终端设备、多个RSU、云中心，云中心通过骨干网与边缘层中的RSU相连，配备边缘服务器的RSU在边缘层沿单向道路分布，并通过局域网连接，用户层终端设备产生计算任务后卸载到RSU来处理，所述RSU执行如权利要求1-9中任一项所述的基于动态资源需求的车路协同在线任务调方法实现对任务的实时调度。