CN115208892A - 基于动态资源需求的车路协同在线任务调度方法及系统 - Google Patents

基于动态资源需求的车路协同在线任务调度方法及系统 Download PDF

Info

Publication number
CN115208892A
CN115208892A CN202210851913.9A CN202210851913A CN115208892A CN 115208892 A CN115208892 A CN 115208892A CN 202210851913 A CN202210851913 A CN 202210851913A CN 115208892 A CN115208892 A CN 115208892A
Authority
CN
China
Prior art keywords
task
scheduling
resource
tasks
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210851913.9A
Other languages
English (en)
Other versions
CN115208892B (zh
Inventor
胡世红
屈志昊
唐斌
叶保留
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Jiangsu Future Networks Innovation Institute
Original Assignee
Hohai University HHU
Jiangsu Future Networks Innovation Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU, Jiangsu Future Networks Innovation Institute filed Critical Hohai University HHU
Priority to CN202210851913.9A priority Critical patent/CN115208892B/zh
Publication of CN115208892A publication Critical patent/CN115208892A/zh
Application granted granted Critical
Publication of CN115208892B publication Critical patent/CN115208892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/101Server selection for load balancing based on network conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1014Server selection for load balancing based on the content of a request
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于动态资源需求的车路协同在线任务调度方法及系统。所述方法包括:采集信息建立不同任务的请求配置文件数据;利用生成对抗网络编解码器GAN‑EN提取任务的资源需求特征;通过线性回归建立不同资源需求行为和资源需求特征的关系,得到资源需求行为指数;基于车路系统中任务在本地、边缘以及云上计算的时延和需要满足的资源限制条件,建立调度优化问题方程,优化目标为满足任务需求指数条件下最大化边缘服务提供商的利益;利用随机马尔可夫博弈对优化问题进行转化,根据离线生成的专家轨迹训练模仿学习网络;根据实时输入的状态利用训练好的网络获得调度决策,实现分布式在线任务协同调度。本发明有效利用边缘资源,提高调度性能。

Description

基于动态资源需求的车路协同在线任务调度方法及系统
技术领域
本发明涉及一种基于动态资源需求的车路协同在线任务调度方法及系统,属于边缘计算中车路协同调度领域。
背景技术
随着车联网和智能交通系统的快速发展,一大批涵盖信息服务、行车安全和交通效率的车载应用涌现出来。不同的车载服务、路边传感器、交通监控设备产生的海量数据给网络带宽带来了巨大的压力。计算密集型、延迟敏感的服务对网络的计算、通信和存储能力提出了严峻的挑战。通过将边缘计算和车联网技术相结合,车辆边缘计算(Vehicular edgecomputing,VEC)能够处理复杂、异构、动态的车路环境。VEC将不同的任务分配到合适的边缘进行处理,以保证不同用户的服务质量(Quality of Service,QoS),为用户提供低延迟、高带宽、高可靠性的服务。任务调度是VEC中的一个重要问题,已经引起了研究者的广泛关注。现有的工作大多是针对资源有限的车辆进行任务卸载和资源分配。利用配备边缘服务器的路边计算单元(Roadside units,RSU)的低延迟优势,任务调度可以为车辆提供更好的服务质量。目前,车路协同系统下的道路传感设备和交通监控设备产生了大量的计算需求,不可避免地会与车辆在RSU上争夺计算资源。因此,一个RSU区域内的任务卸载请求过载可能会显著降低用户的QoS。此外,许多新的车载应用和交通应用也在不断出现,如增强现实、驾驶行为检测、车牌识别等。
边缘之间的协作可以有效地解决计算任务过载、任务请求的服务缺失等问题。在边缘计算研究中,协同任务调度方面已经有一些研究成果。现有的研究技术针对车辆边缘计算设计的协同在线任务调度方法,重点解决车辆移动性带来的网络切换影响下的任务划分和调度问题,以最小化任务延迟为目标。大规模5G基建为车路协同提供了发展的基石,但5G基站和边缘服务器的部署、维护和运行所带来的巨额成本也成为车路协同实际落地的一大阻碍。因此,如何合理地将边缘资源服务转化为服务商的实际收益是车路协同下任务调度研究的重要挑战。车路环境中的计算任务种类繁多,不同任务对资源的需求也不一样。从服务提供商利益角度出发,无法满足任务需求的任务调度将减少提供商利益。例如,某些任务可能由于对通信资源的高需求导致其它任务数据无法正常传输,或者某些任务对延迟极度敏感,车辆的高度移动使卸载行为无法在截止时间内完成任务。因此,未考虑任务资源需求的调度策略可能导致任务失败,造成资源浪费,损害服务提供商的利益。
此外,近年来由于机器学习的发展,先进的人工智能(Artificial Intelligence,AI)技术被应用到各个领域。一般情况下,计算卸载过程与边缘环境的交互可以建模为马尔可夫决策过程(Markov Decision Process,MDP)问题,深度强化学习(DeepReinforcementLearning,DRL)技术可以有效地解决该问题。但现有的基于DRL技术的任务调度方案大多为集中式离线调度策略,需要基于全局信息进行调度控制,分散在不同位置的边缘节点无法独立作出调度决策,导致此类方法的可拓展性差,无法适用于大规模车路边缘计算场景。
发明内容
发明目的:本发明提出一种基于动态资源需求的车路协同在线任务调度方法及系统,旨在解决大规模车路环境中具有多样需求任务的协同调度问题。所提方法可在不同资源需求下进行合理调度以达到最大化服务提供商利益的目标,同时支持不同异构边缘进行独立在线调度决策,实现方法的大规模拓展应用。
技术方案:为了实现以上发明目的,本发明的技术方案如下:
一种基于动态资源需求的车路协同在线任务调度方法,包括以下步骤:
S1、采集不同任务在车辆和边缘服务器上的计算数据,记录任务调度时不同计算节点的资源使用配置情况,得到不同任务的请求配置文件数据,其中任务k的请求配置文件主要包括请求数量N,工作负载大小L和资源占用时间W;
S2、利用生成对抗网络编解码器GAN-EN提取任务的资源需求特征C=[cco,cst,ccm]T,其中cco,cst,ccm分别代表任务对计算、存储和通信资源的需求特征值;
S3、通过线性回归建立不同资源需求行为和资源需求特征C中特征数据的关系,得到资源需求行为指数R;
S4、基于车路系统中任务在本地、其他计算节点以及云上计算的时延和需要满足的资源限制条件,建立调度优化问题方程,优化目标为满足任务需求指数R条件下最大化边缘服务提供商的利益;
S5、利用随机马尔可夫博弈对优化问题进行转化,根据离线生成的专家轨迹训练模仿学习网络;
S6、根据实时输入的状态利用训练好的网络获得调度决策,实现分布式在线任务协同调度,将任务安排到最佳位置并分配合理资源进行计算。
一种基于动态资源需求的车路协同在线任务调度系统,包括:用户层终端设备、多个RSU、云中心,云中心通过骨干网与边缘层中的RSU相连,配备边缘服务器的RSU在边缘层沿单向道路分布,并通过局域网连接,用户层终端设备产生计算任务后卸载到RSU来处理,所述RSU执行如上所述的基于动态资源需求的车路协同在线任务调方法实现对任务的实时调度。
有益效果:传统的任务调度方法没有考虑任务的不同资源需求,一般调度方法的设计目标为最小化时延或者能耗,忽略任务对不同资源的需求会使得边缘计算、存储和通信资源分配不合理,导致任务无法响应,浪费有限的边缘资源。因此本发明提出建立资源需求模型,通过资源行为指数R量化任务对不同类型资源的需求度,指导RSU为任务制定最优资源调度决策,从而完成任务响应,有效利用边缘资源最大化服务提供商利益。由于RSU地理位置分散,配备的边缘服务器异构,随着车路协同在线任务调度场景规模的扩张,传统的离线协同调度方法因为任务信息维度的增大,调度性能明显下降,离线协同调度方法的复杂性也会引发额外延迟。因此,本发明先通过离线优化方法给出最优调度决策,然后设计一种基于GAN模仿学习的在线协同调度方法,支持每个RSU根据任务状态输入在线获得调度决策,无需获取其他RSU上的资源或任务信息,从而实现协同在线任务调度决策的高度拓展性。
附图说明
图1是根据本发明的车路协同在线任务调度方法的网络模型结构图;
图2是根据本发明的车路协同在线任务调度方法的生成对抗网络编解码器任务资源需求模型示意图;
图3是根据本发明的车路协同在线任务调度方法的基于深度模仿学习框架的方法示意图。
具体实施方式
下面结合附图对本发明的实施方法作进一步说明。
参照图1,一种基于动态资源需求的车路协同在线任务调度系统,参与对象包括产生任务的用户、多个RSU和云中心,构成车边云三层架构。云中心通过骨干网与边缘层中的RSU相连,具有最强大的数据处理和存储能力。配备边缘服务器的RSU在边缘层沿单向道路分布,并通过局域网连接。道路被划分为N个区域,每个区域由一个RSU覆盖。设N={1,2,...}表示异构RSU(也就是边缘服务器)的集合;设K={1,2,...}表示RSU为用户配置的服务类型,RSU的计算、存储和通信资源有限,分别记为Fn,Hn,Un。用户层包括各种终端设备,如自动驾驶汽车、监控摄像头和各种传感器。考虑到车辆的高速机动性,车辆到基础设施的通信通常采用专用短程通信DSRC信道。其它终端设备通过WiFi等短程通信技术连接到边缘。任务由不同的终端设备产生,且经常被卸载到RSU来处理,如智能城市的传感器监测任务、自动驾驶汽车的目标识别任务和交通视频处理任务。
根据本实例的基于动态资源需求的车路协同在线任务调度方法,在RSU上执行,包括如下步骤:
步骤一,建立任务的动态资源行为需求模型;
步骤二,建立调度优化问题方程,并实现问题转化;
步骤三,基于深度模仿学习,在线生成分布式任务调度决策,任务计算位置(本地、RSU或云中心)和分配的资源数量(计算、通信和存储资源)。
车路系统中运行着各种资源需求和不同优先级的任务,这些任务在车边云三层架构中存在广泛的可能行为。根据本实例的基于动态资源需求的车路协同在线任务调度方法,建立任务的动态资源行为需求模型的具体方法如下:RSU采集其区域内不同任务在车辆和边缘上的计算数据,记录任务调度时不同计算节点的资源使用配置情况。任务请求一般为时间任务,即连续的任务请求,例如汽车和路口摄像头会连续发送目标识别任务。任务k的请求配置文件主要包括请求数量N,工作负载大小L和资源占用时间W=[wco,ws,wcc]T,其中wco表示计算资源占用时间,ws表示存储资源占用时间以及wcc表示通信资源占用时间。基于不同任务的请求配置文件数据,利用生成对抗网络编解码器(Generative AdversarialNetwork-based Encoder-Decoder,GAN-EN)提取任务需求行为特征C=[cco,cst,ccm]T,其中cco,cst,ccm分别代表任务对计算、存储和通信资源的需求特征值。其中,GAN中的生成器在小的任务请求配置数据集训练过程中可提供过采样的新样本,且GAN中的对抗网络有先进的特征提取能力。
GAN-EN由一个编码网络(E),一个解码的生成网络(G)和一个鉴别器网络(D)组成,具体功能如下:编码器E作为特征提取器,将长序列数据压缩为短的固定特征向量;解码器G学习将样本从任意潜分布映射到实时序列分布;鉴别器D区分真实的时间序列和生成的时间序列,其输入包含x、编码器E和解码器G的输出z`和x`,输出是鉴别结果(真或假)。这样,鉴别器D通过引导编码器E和解码器G从原始输入中学习真实的数据特征分布,提高学习能力。本实例中编码网络E和解码网络G的隐藏层都采用LSTM的神经元来学习数据点之间的相关性,鉴别器网络D采用DNN网络,但本发明的方法过程不限于上述选择的网络模型,本领域的技术人员可以在领会本发明的精神后做出任何合适的网络模型的选择和修改。GAN-EN网络训练过程被定义为在三个子网络中实施一个极大极小博弈,子网络在每次迭代中交替改进。设输入原始任务资源行为数据x的长度为n,相似度估计表示为Et,则网络优化函数表示为:
Figure BDA0003753832230000051
参照图2,GAN-EN模型的训练步骤如下:
S11:将原始任务资源行为数据x={N,L,W}输入到编码器E,经过模型训练输出特征空间的压缩数据表示在z`=E(x);同时,将一个与特征向量相同长度的由一个噪声点序列组成的z输入到解码器G,输出为生成的时间序列x`=G(z);编码器E和解码器G;
S12:将x、编码器E和解码器G的输出z`和x`输入到鉴别器D,得到鉴别结果(真或假);
S13:训练鉴别器D,其目标是最大化鉴别(x,E(x))是真和(G(z),z)是假的概率;
S14:联合训练编码器E和解码器G,目标是最小化(G(z),z)的鉴别概率;
S15:重复S11-S14,直至模型收敛,得到任务资源需求特征向量C=[cco,cst,ccm]。
本实例基于线性回归生成资源需求行为指数R:基于上述的任务资源需求模型,可获得不同任务的资源需求特征C。通过评估给出任务的资源需求行为指数R=[rco,rst,rcm]向量,R中包含计算资源需求度rco、存储需求度rst和通信需求度rcm,以指导任务调度。利用任务的处理性能数据和资源需求特征C,建立不同资源需求行为指数R和C中特征数据的关系。采用传统的线性回归方法来量化行为指数R和需求特征C之间的关系。由于资源需求特征参数简单,假设和行为指数R之间有很强的线性关系,因此可用简单的线性回归来建立评估方程,R=KC,K为3×3系数矩阵,并快速得到任务的资源需求行为指数R。
在步骤二中,先问题建模再进行转化。其中,建立调度优化问题方程包括:基于车路系统中任务在本地、边缘以及云上计算的时延模型、需要满足的限制条件,建立调度优化问题方程。其中,优化目标为满足任务需求指数R条件下最大化边缘服务提供商的利益。
利用随机马尔可夫博弈(Markov Game,MG)实现问题转化:将车边云协同调度优化问题建模为一个MG,用一个元组表示<S,O,A,P,R,ρ0,γ>,其中,S和A分别表示状态和动作空间,状态空间包含当前时刻的车辆信息、边缘节点信息、云信息、任务信息以及网络信息,而动作空间指的是调度策略。O表示边缘节点的观察信息集合(先前时刻的相邻节点信息等),P代表状态转移概率,R表示即时的奖励函数,γ表示折扣因子。建立任务调度方程中目标与MG中奖励函数之间的关系,实现问题转化。
根据本实例的基于动态资源需求的车路协同在线任务调度方法,先进行问题建模再进行问题转化具体实现过程如下:
任务模型:时隙t,RSUn区域内的终端设备生成一组任务,记为
Figure BDA0003753832230000061
其中X表示RSUn区域内的任务数。任务
Figure BDA0003753832230000062
可以用五个参数的元组表示
Figure BDA0003753832230000063
其中
Figure BDA0003753832230000064
为任务数据大小,
Figure BDA0003753832230000065
为任务延迟的截止期限,
Figure BDA0003753832230000066
表示任务请求的服务,
Figure BDA0003753832230000067
Figure BDA0003753832230000068
表示任务所需的计算资源,二进制变量
Figure BDA0003753832230000069
表示任务是否在截止时间内完成,
Figure BDA00037538322300000610
表示任务已被RSU在截止时间内处理,反之亦然。
计算与通信模型:在RSUn的每个区域中,终端设备产生的任务通常由本地RSU处理。但是,当本地服务器的工作负载过载或任务所需的服务没有配置时,任务将被卸载到邻近的RSU或云。本实例定义任务调度策略为
Figure BDA00037538322300000611
其中
Figure BDA00037538322300000612
表示任务
Figure BDA00037538322300000613
是在RSUn的边缘服务器上处理;
Figure BDA00037538322300000614
表示任务被卸载到其它RSU上(η=1,2,...,N)或者云中心处理(η=N+1)。假设每种任务服务在云中心的计算时间固定,记为tc,k,任务从RSU到云中心的传输速率为Vc
根据步骤一得到的资源需求行为指数R,设
Figure BDA00037538322300000615
为RSUn为服务k分配的计算资源,
Figure BDA00037538322300000616
Figure BDA00037538322300000617
为分配的存储资源,
Figure BDA00037538322300000618
以及
Figure BDA00037538322300000619
为分配的通信资源,
Figure BDA00037538322300000620
因此,任务
Figure BDA00037538322300000621
的计算时延为:
Figure BDA0003753832230000071
传输时延为:
Figure BDA0003753832230000072
其中,二进制变量
Figure BDA0003753832230000073
表示RSU是否为将任务
Figure BDA0003753832230000074
从RSUn传输到目标RSUm的中继节点。另外,RSUn上处理队列中任务的等待延迟wan,x可以通过M/G/1排队系统得到:
Figure BDA0003753832230000075
其中In表示RSUn上任务排队输量,
Figure BDA0003753832230000076
表示任务在RSUn上平均等待时延,δ2为排队延迟方差。特别地,wa-n,x表示其它RSU(除了RSUn)上的等待时延。
因此,任务
Figure BDA0003753832230000077
的总延迟Tn,x为处理时延、传输时延和等待延迟的总和,记为:
Figure BDA0003753832230000078
收益模型:如果任务
Figure BDA0003753832230000079
在本地RSU处理,总延迟Tn,x小于等于其截止时间
Figure BDA00037538322300000710
则表示边缘服务提供商及时完成该任务服务,可获得应有收益,设不同服务收益与其资源占用时间成正比,关系系数为α则收益为αTn,x,任务总延迟Tn,x大于其截止时间
Figure BDA00037538322300000711
则服务提供商的收益为0;如果任务
Figure BDA00037538322300000712
在其他RSU上完成,RSU上的边缘服务提供商需要向其付出租赁代价,代价为βTn,x;如果任务
Figure BDA00037538322300000713
在云中心完成,RSU上的边缘服务提供商需要向云中心付出租赁代价,代价为εTn,x。所以边缘服务提供商处理任务
Figure BDA00037538322300000714
获得的收益为
Figure BDA00037538322300000715
Figure BDA0003753832230000081
问题形成:在时隙t,RSUn区域内的所有任务,一方面可选择在本地计算,另一方面如果本地RSU过载或未配置相应服务时则可将其卸载到其它RSU或云来计算。因此,边缘服务提供商的收益为:
Figure BDA0003753832230000082
然后得到RSUn在所有时隙中的总收益为:
Figure BDA0003753832230000083
其中T表示算法运行的总时间。本实例中每个RSU的目标是最大化长期边缘服务商总收益:
Figure BDA0003753832230000084
Figure BDA0003753832230000085
Figure BDA0003753832230000086
约束C.1表示RSU为任务服务分配的资源满足其资源行为指数R,约束C.2表示为任务分配的计算、存储和通信资源总量在限制范围内。
问题转化:将车边云协同调度优化问题建模为一个MG,用一个元组表示<S,O,A,P,R,ρ0,γ>,其中,S={S0,S1,...,ST}和A={A0,A1,...,AT}分别表示状态和动作空间,状态空间St包含当前时刻的RSU信息、任务信息以及网络信息,
Figure BDA0003753832230000087
表示当前时刻所有RSU的状态信息。其中,
Figure BDA0003753832230000088
表示RSUn中所有任务配置信息(
Figure BDA0003753832230000089
是任务数据大小,
Figure BDA00037538322300000810
是任务截止时间,
Figure BDA00037538322300000811
是任务请求服务类型,
Figure BDA00037538322300000812
任务完成所需的计算资源量),
Figure BDA00037538322300000813
表示RSU上的边缘资源信息(
Figure BDA00037538322300000814
是排队任务数量,
Figure BDA00037538322300000815
是计算资源量,
Figure BDA00037538322300000816
是通信资源量,
Figure BDA00037538322300000817
是存储资源量)。而动作空间At指的是当前时刻任务的调度策略,
Figure BDA00037538322300000818
表示当前时刻所有RSU的调度动作。其中,
Figure BDA0003753832230000091
表示任务的放置动作(
Figure BDA0003753832230000092
表示任务本地处理,
Figure BDA0003753832230000093
ω=1,…N表示任务传输到其他RSU处理,
Figure BDA0003753832230000094
表示任务传到云中心处理),
Figure BDA0003753832230000095
表示服务的资源分配(
Figure BDA0003753832230000096
表示分配的计算资源量,
Figure BDA0003753832230000097
表示分配的存储资源量,
Figure BDA0003753832230000098
表示分配的通信资源量)。O表示边缘节点的观察信息集合(先前时刻的相邻节点信息等),P代表状态转移概率,R表示奖励函数组,其中
Figure BDA0003753832230000099
表示RSU n的奖励,本实例定义
Figure BDA00037538322300000910
γ表示折扣因子。建立任务调度方程中目标与MG中奖励函数之间的关系,实现问题转化。问题P1可转化为:
Figure BDA00037538322300000911
s.t.C.1,C.2
根据本实例的基于动态资源需求的车路协同在线任务调度方法,先生成专家轨迹再在线进行分布式调度决策:
参照图3,离线生成专家轨迹:模仿学习以行为克隆为基础,通过模仿专家轨迹(最佳状态-调度动作
Figure BDA00037538322300000912
)实现监督学习。利用离线优化算法获得大量的决策样本,当决策空间较小时,采用穷举搜索算法获得最优调度决策;决策空间中等时,可以用混合整数规划求解器比如CPLEX来解决;当决策空间较大时,则可以采用近似算法获得有效决策样本。专家数据表示为
Figure BDA00037538322300000913
离线训练模仿学习网络:据离线算法生成的专家轨迹数据,每个RSU上的智能体模仿学习最佳样本,并根据状态信息给出最佳动作。由于不同智能体之间的合作关系,智能体之间存在博弈过程,其信息的交互和目标的冲突使智能体策略网络学习之间存在复杂的关系。采用GAN模仿学习方法建立策略网络(θn)、价值网络
Figure BDA00037538322300000914
并用判别器(ωn)评估策略的价值。本实例中GAN的三个子网络均采用DNN网络,但本发明的方法过程不限于所选择的网络模型,本领域的技术人员可以在领会本发明的精神后做出任何网络模型的选择和修改。具体步骤如下:
S31:状态-动作对收集,基于构建的训练网络收集每个智能体的状态-动作对
Figure BDA00037538322300000915
S32:判别器Dn训练,基于专家和智能体的观察-动作对,即
Figure BDA00037538322300000916
Figure BDA00037538322300000917
训练判别器决策πn,输出基于专家轨迹对智能体动作的预测奖励值,最小化损失函数为:
Figure BDA0003753832230000101
S33:价值网络vn训练,基于判别器的输出训练价值网络,损失函数为最小化B步预测奖励值与状态值之间的平方差,其中
Figure BDA0003753832230000102
Figure BDA0003753832230000103
S34:策略网络训练,输入当前网络的状态信息,采用策略梯度方法训练策略网络,输出调度决策动作
Figure BDA0003753832230000104
其中梯度为
Figure BDA0003753832230000105
在线进行分布式调度决策:网络训练好之后,每个RSU可通过输入状态快速获得调度决策,实现分布式在线任务协同调度,将任务安排到最佳位置(本地、RSU或云中心)并分配合理资源进行计算。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种基于动态资源需求的车路协同在线任务调度方法,其特征在于,包括以下步骤:
S1、采集不同任务在车辆和边缘服务器上的计算数据,记录任务调度时不同计算节点的资源使用配置情况,得到不同任务的请求配置文件数据,其中任务k的请求配置文件主要包括请求数量N,工作负载大小L和资源占用时间W;
S2、利用生成对抗网络编解码器GAN-EN提取任务的资源需求特征C=[cco,cst,ccm]T,其中cco,cst,ccm分别代表任务对计算、存储和通信资源的需求特征值;
S3、通过线性回归建立不同资源需求行为和资源需求特征C中特征数据的关系,得到资源需求行为指数R;
S4、基于车路系统中任务在本地、其他计算节点以及云上计算的时延和需要满足的资源限制条件,建立调度优化问题方程,优化目标为满足任务需求指数R条件下最大化边缘服务提供商的利益;
S5、利用随机马尔可夫博弈对优化问题进行转化,根据离线生成的专家轨迹训练模仿学习网络;
S6、根据实时输入的状态利用训练好的网络获得调度决策,实现分布式在线任务协同调度,将任务安排到最佳位置并分配合理资源进行计算。
2.根据权利要求1所述的方法,其特征在于,所述步骤S4中,调度优化问题形式为:
Figure FDA0003753832220000011
Figure FDA0003753832220000012
Figure FDA0003753832220000013
Mn为边缘服务提供商的总收益,约束C.1表示为任务分配的资源满足对应的资源行为指数R,约束C.2表示为任务分配的计算、存储和通信资源总量在限制范围内;
其中,道路被划分为N个区域,每个区域由一个调度装置覆盖,N={1,2,...}表示调度装置的集合,K={1,2,...}表示调度装置为用户配置的服务类型集合,t为当前时隙,T为总执行时间,Υn表示调度策略,
Figure FDA0003753832220000014
表示为服务k分配的计算资源,rco,k为服务k的计算资源需求度,Fn为调度装置n的计算资源限制,
Figure FDA0003753832220000015
表示为任务k分配的存储资源,rst,k为服务k的存储资源需求度,Un为调度装置n的通信资源限制,
Figure FDA0003753832220000021
表示为任务k分配的通信资源,rcm,k为服务k的通信资源需求度,Hn为调度装置n的通信资源限制。
3.根据权利要求2所述的方法,其特征在于,所述边缘服务提供商的总收益按以下方式计算:
Figure FDA0003753832220000022
Figure FDA0003753832220000023
Figure FDA0003753832220000024
其中,
Figure FDA0003753832220000025
为调度装置n区域内的终端设备生成的一组任务,
Figure FDA0003753832220000026
表示其中第x个任务,
Figure FDA0003753832220000027
为二进制变量,用于表示任务
Figure FDA0003753832220000028
是否在截止时间内完成,Tn,x为任务
Figure FDA0003753832220000029
的总延迟,α、β、ε为三个关系系数,
Figure FDA00037538322200000210
表示任务
Figure FDA00037538322200000211
是在调度装置n的边缘服务器上处理;
Figure FDA00037538322200000212
表示任务
Figure FDA00037538322200000213
被卸载到其它调度装置上处理,
Figure FDA00037538322200000214
表示任务
Figure FDA00037538322200000215
被卸载到云中心处理。
4.根据权利要求3所述的方法,其特征在于,所述任务
Figure FDA00037538322200000216
以五个参数的元组表示为
Figure FDA00037538322200000217
其中
Figure FDA00037538322200000218
为任务数据大小,
Figure FDA00037538322200000219
为任务延迟的截止期限,
Figure FDA00037538322200000220
表示任务请求的服务,
Figure FDA00037538322200000221
Figure FDA00037538322200000222
表示任务所需的计算资源,二进制变量
Figure FDA00037538322200000223
表示任务是否在截止时间内完成。
5.根据权利要求3所述的方法,其特征在于,所述任务
Figure FDA00037538322200000224
的总延迟的计算方式如下:
Figure FDA00037538322200000225
其中,prn,x为任务
Figure FDA00037538322200000226
的计算时延,con,x为任务
Figure FDA00037538322200000227
的传输时延,wan,x为调度装置n上处理队列中任务的等待延迟,wa-n,x为除了n之外的其它调度装置上的等待时延。
6.根据权利要求5所述的方法,其特征在于,所述prn,x的计算方式如下:
Figure FDA0003753832220000031
其中,tc,k为任务k在云中心的计算时间。
7.根据权利要求5所述的方法,其特征在于,所述con,x的计算方式如下:
Figure FDA0003753832220000032
其中,二进制变量
Figure FDA0003753832220000033
表示是否将任务
Figure FDA0003753832220000034
从调度装置n传输到目标调度装置m的中继节点,vc为任务从调度装置到云中心的传输速率。
8.根据权利要求5所述的方法,其特征在于,所述wan,x的计算方式如下:
Figure FDA0003753832220000035
其中,In表示调度装置n上任务排队输量,
Figure FDA0003753832220000036
表示任务在调度装置n上平均等待时延,δ2为排队延迟方差。
9.根据权利要求2所述的方法,其特征在于,所述步骤S5中,优化问题被转化为:
Figure FDA0003753832220000037
s.t.C.1,C.2
其中,γ表示折扣因子,
Figure FDA0003753832220000038
表示调度装置在t+τ时刻获得的奖励,奖励定义为:
Figure FDA0003753832220000039
其中,
Figure FDA00037538322200000310
为调度装置n的状态信息,,
Figure FDA00037538322200000311
为调度装置n的调度动作,
Figure FDA00037538322200000312
表示调度装置n中所有任务配置信息,
Figure FDA00037538322200000313
是任务数据大小,
Figure FDA00037538322200000314
是任务截止时间,
Figure FDA00037538322200000315
是任务请求服务类型,
Figure FDA00037538322200000316
任务完成所需的计算资源量,
Figure FDA00037538322200000317
表示调度装置上的边缘资源信息,
Figure FDA00037538322200000318
是排队任务数量,
Figure FDA00037538322200000319
是计算资源量,
Figure FDA0003753832220000041
是通信资源量,
Figure FDA0003753832220000042
是存储资源量;
Figure FDA0003753832220000043
表示任务的放置动作,
Figure FDA0003753832220000044
表示任务本地处理,
Figure FDA0003753832220000045
ω=1,…N表示任务传输到其他调度装置处理,
Figure FDA0003753832220000046
表示任务传到云中心处理,
Figure FDA0003753832220000047
表示服务的资源分配,
Figure FDA0003753832220000048
表示分配的计算资源量,
Figure FDA0003753832220000049
表示分配的存储资源量,
Figure FDA00037538322200000410
表示分配的通信资源量。
10.一种基于动态资源需求的车路协同在线任务调度系统,其特征在于,包括:用户层终端设备、多个RSU、云中心,云中心通过骨干网与边缘层中的RSU相连,配备边缘服务器的RSU在边缘层沿单向道路分布,并通过局域网连接,用户层终端设备产生计算任务后卸载到RSU来处理,所述RSU执行如权利要求1-9中任一项所述的基于动态资源需求的车路协同在线任务调方法实现对任务的实时调度。
CN202210851913.9A 2022-07-19 2022-07-19 基于动态资源需求的车路协同在线任务调度方法及系统 Active CN115208892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210851913.9A CN115208892B (zh) 2022-07-19 2022-07-19 基于动态资源需求的车路协同在线任务调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210851913.9A CN115208892B (zh) 2022-07-19 2022-07-19 基于动态资源需求的车路协同在线任务调度方法及系统

Publications (2)

Publication Number Publication Date
CN115208892A true CN115208892A (zh) 2022-10-18
CN115208892B CN115208892B (zh) 2023-10-24

Family

ID=83582194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210851913.9A Active CN115208892B (zh) 2022-07-19 2022-07-19 基于动态资源需求的车路协同在线任务调度方法及系统

Country Status (1)

Country Link
CN (1) CN115208892B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116761194A (zh) * 2023-08-15 2023-09-15 甘肃省公安厅 一种无线通信网络中警务协同通信优化系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112506658A (zh) * 2020-12-09 2021-03-16 华南理工大学 一种服务链中动态资源分配和任务调度方法
US20210096911A1 (en) * 2020-08-17 2021-04-01 Essence Information Technology Co., Ltd Fine granularity real-time supervision system based on edge computing
CN113992524A (zh) * 2021-09-28 2022-01-28 北京工业大学 网络切片优化处理方法及系统
CN113993218A (zh) * 2021-11-18 2022-01-28 国网福建省电力有限公司经济技术研究院 一种mec架构下基于多智能体drl的协作卸载和资源分配方法
WO2022027776A1 (zh) * 2020-08-03 2022-02-10 威胜信息技术股份有限公司 边缘计算网络任务调度与资源分配方法和边缘计算系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022027776A1 (zh) * 2020-08-03 2022-02-10 威胜信息技术股份有限公司 边缘计算网络任务调度与资源分配方法和边缘计算系统
US20210096911A1 (en) * 2020-08-17 2021-04-01 Essence Information Technology Co., Ltd Fine granularity real-time supervision system based on edge computing
CN112506658A (zh) * 2020-12-09 2021-03-16 华南理工大学 一种服务链中动态资源分配和任务调度方法
CN113992524A (zh) * 2021-09-28 2022-01-28 北京工业大学 网络切片优化处理方法及系统
CN113993218A (zh) * 2021-11-18 2022-01-28 国网福建省电力有限公司经济技术研究院 一种mec架构下基于多智能体drl的协作卸载和资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余盛季: "云计算环境下的自主调度技术研究", 万方中国学位论文 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116761194A (zh) * 2023-08-15 2023-09-15 甘肃省公安厅 一种无线通信网络中警务协同通信优化系统及方法
CN116761194B (zh) * 2023-08-15 2023-11-03 甘肃省公安厅 一种无线通信网络中警务协同通信优化系统及方法

Also Published As

Publication number Publication date
CN115208892B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
Qi et al. Knowledge-driven service offloading decision for vehicular edge computing: A deep reinforcement learning approach
Ning et al. Deep reinforcement learning for vehicular edge computing: An intelligent offloading system
Xu et al. Tripres: Traffic flow prediction driven resource reservation for multimedia iov with edge computing
Qi et al. Scalable parallel task scheduling for autonomous driving using multi-task deep reinforcement learning
Qi et al. Extensive edge intelligence for future vehicular networks in 6G
Chen et al. Efficiency and fairness oriented dynamic task offloading in internet of vehicles
Wei et al. Reinforcement learning-empowered mobile edge computing for 6G edge intelligence
Jamil et al. IRATS: A DRL-based intelligent priority and deadline-aware online resource allocation and task scheduling algorithm in a vehicular fog network
CN113132943A (zh) 一种车联网中车边协同的任务卸载调度及资源分配方法
CN104580447A (zh) 一种基于访问热度的时空数据服务调度方法
Gao et al. Fast adaptive task offloading and resource allocation via multiagent reinforcement learning in heterogeneous vehicular fog computing
CN115208892A (zh) 基于动态资源需求的车路协同在线任务调度方法及系统
CN113703984B (zh) 5g云边协同场景下基于soa架构的云任务优化策略方法
CN112750298B (zh) 一种基于smdp和drl的货车编队动态资源分配方法
Yuan et al. Integrated route planning and resource allocation for connected vehicles
CN113190342A (zh) 用于云-边协同网络的多应用细粒度卸载的方法与系统架构
CN113747450A (zh) 一种移动网络中业务部署方法、装置及电子设备
Lv et al. Edge computing task offloading for environmental perception of autonomous vehicles in 6G networks
CN115002123B (zh) 基于移动边缘计算的快速适应任务卸载系统和方法
CN115550357A (zh) 一种多智能体多任务协同卸载方法
da Costa et al. Mobility and Deadline-Aware Task Scheduling Mechanism for Vehicular Edge Computing
Sahoo et al. AALB: Application Aware Load Balancing Algorithm for Road Side Units
Huiyong et al. A Novel Task of Loading and Computing Resource Scheduling Strategy in Internet of Vehicles Based on Dynamic Greedy Algorithm.
Li et al. Comprehensive Task Priority Queue for Resource Allocation in Vehicle Edge Computing Network Based on Deep Reinforcement Learning
Chen et al. A Resource Allocation Scheme for Intelligent Tasks in Vehicular Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant