CN112822234B - 一种车联网中基于深度强化学习的任务卸载方法 - Google Patents
一种车联网中基于深度强化学习的任务卸载方法 Download PDFInfo
- Publication number
- CN112822234B CN112822234B CN202011599843.XA CN202011599843A CN112822234B CN 112822234 B CN112822234 B CN 112822234B CN 202011599843 A CN202011599843 A CN 202011599843A CN 112822234 B CN112822234 B CN 112822234B
- Authority
- CN
- China
- Prior art keywords
- task
- server
- user vehicle
- constraint
- internet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/445—Program loading or initiating
- G06F9/44594—Unloading
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/485—Task life-cycle, e.g. stopping, restarting, resuming execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/542—Event management; Broadcasting; Multicasting; Notifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/509—Offload
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/548—Queue
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Mobile Radio Communication Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种车联网中基于移动边缘计算的任务卸载与资源分配方法,即一种车联网中基于深度强化学习的任务卸载方法,通过深度强化学习的任务卸载方法,应用于车联网处理高维状态信息的任务卸载,具体步骤包括:(1)构建系统模型框架建立车联网通信场景;(2)模型细化,对用户侧和服务器侧任务处理进行建模;(3)提出高可靠低时延约束与优化问题;(4)进行优化问题的转化并引入马尔科夫决策过程;(5)建立最优化问题模型,提出基于Deep Q‑learning Network的具有URLLC感知的任务卸载算法五个步骤构成。本发明同时考虑平均度量性能以及高阶统计量的性能,考虑了极端事件对通信可靠性的影响,使得用户车辆可以在保障URLLC通信需求的同时通过深度学习作出最优的任务卸载决策,满足其众多应用的高可靠低时延通信需求。
Description
技术领域
本发明涉及车联网移动边缘计算的任务卸载与资源分配问题技术领域,尤其是一种基于深度强化学习的任务卸载方法。
背景技术
新兴的车辆应用,如自动驾驶、实时交通监控和在线游戏,产生了大量的计算密集型和延迟敏感的任务,对超高可靠和低延迟通信(URLLC)提出了严格的要求。在传统的车辆边缘计算(VEC)范式中,用户车辆(UVs)通过将过多的任务卸载到边缘服务器进行计算,与部署在网络边缘的边缘服务器(例如路边单元(RSU)进行协作。然而,由于边缘服务器位置固定、覆盖范围有限和部署成本过高等因素,使得单靠VEC本身很难有效地满足严格的URLLC需求。除了UVs和边缘服务器之间的协作之外,车载雾计算(VFC)为车辆之间带来了一种新的协作模式,即UVs可以将部分任务卸载到服务器车辆,这些车辆称为车载雾服务器(VFS),可以利用自己剩余的计算资源为用户车辆提供计算服务。此外,VFC可以与VEC合作,互相作为补充,在延迟和可靠性方面获得较大的性能增益。然而两者合作尽管有上述潜在的好处,但是如何在这样一个VEC和VFC并存的协作车辆网络中实现URLLC感知的任务卸载仍然面临着一些技术挑战,具体总结如下:
第一,以前的绝大多数工作都是通过基于平均性能度量的视角来优化任务卸载,例如时间平均延迟和平均速率稳定约束等等,而并未对极端事件的发生进行约束,这就导致了显著的性能波动。因此,可靠的URLLC需求保障需要进一步考虑极端事件的特征、延迟约束违反概率、超额积压等高阶统计量。从平均统计量性能和高阶统计量性能两个方面来保障URLLC需求。
第二,全局状态信息(GSI)不可知。其中包括信道状态信息(CSI)、服务的计算能力、其它用户车辆的决策等等,以及由于车辆移动性高而引起的可用服务器集变化速度快、信令开销过大等问题。因此,每个UV都必须在信息不完整的情况下来优化自己的任务卸载策略。更重要的是,在复杂的车联网环境中,随着UV、RSU和VFS数量的增长,用户车辆做决策是需要考虑的环境状态信息维数呈指数级增长,这种困境被称为维度的诅咒,即用户车辆所处的环境中,信息过于复杂。使得传统的基于学习的方法难以以较低的复杂度解决该问题。
因此,迫切需要设计一种能够处理高维状态信息的任务卸载方法,在保障高可靠低时延通信需求的前提下大幅度提升车联网吞吐量,满足用户车辆的多元化需求。
发明内容
本发明的目的是:克服现有技术中存在的不足,提供一种车联网中基于移动边缘计算的任务卸载与资源分配方法,深度学习网络(Deep Q-learning Network,DQN)的任务卸载方案,可以有效的处理高维度复杂的环境状态信息,通过深度学习作出最优的任务卸载决策。实现了同时考虑平均度量性能以及高阶统计量的性能,考虑了极端事件对通信可靠性的影响,使得用户车辆可以在保障URLLC通信需求的同时学习到长期最优的任务卸载策略,满足其众多应用的高可靠低时延通信需求。
为解决上述技术问题,本发明采用的技术方案如下:
1.构建系统模型框架
图1所示,在协作式车辆网络中包括三种实体:路边单元(RodeSide Unit,RSU)、车辆雾服务器(Vehicular Fog Servers,VFS)和用户车辆(User Vehicles,UV)。其中路边单元指的是边缘服务器,车辆雾服务器指的是服务器车辆。路边单元和车辆雾服务器可以为用户车辆提供计算服务。如图所示:s1、s2、s3代表车辆雾服务器,s4、s5代表路边单元即边缘服务器,u1-u5代表用户车辆。为不失一般性,定义服务器集合为S={s1,…,sn,…,sN},定义用户车辆集合为U={u1…um…uM}。
本发明采用时隙模型,将整个优化时间划分为T个时隙,其集合定义为T={1,…,t,…,T}。在每一个时隙内,信道状态信息(Channel State Information,CSI)、用户车辆与边缘服务器以及车辆雾服务器之间的距离保持不变;而在不同的时隙之间,信道状态信息会发生改变。由于服务器车辆的移动性,在不同时隙之间,车辆雾服务器的可用性也是会发生变化。
定义在第t个时隙,用户车辆um可选的服务器集合为Sm,t,且记录用户车辆um在第t个时隙卸载决策的二进制变量为xm,n,t,当xm,n,t=1时,代表用户车辆um在第t个时隙选择服务器sn进行任务卸载;反之同理。
2.模型的细化
(1)用户车辆侧的任务传输模型
本发明采用任务划分模型,将用户车辆每个时隙产生的任务数据量定义为Am(t)。这些任务暂时存储在用户车辆的本地缓冲区,然后被卸载到边缘服务器即路边单元(RSU)或服务器车辆(车辆雾服务器)上进行计算处理。这样在用户车辆的本地缓冲区就形成了一个数据队列,其公式为:
Qm(t+1)=max{Qm(t)-Um(t)+Am(t),0} (1)
其中Qm(t)表示第t个时隙存储在用户车辆um本地缓冲区上的数据量,Um(t)表示第t个时隙卸载到边缘服务器或服务器车辆上的数据量,Am(t)表示第t个时隙用户车辆新产生的数据量。
定义用户车辆um和服务器sn之间的通信子信道带宽为Bm,n,那么当xm,n,t=1时,可以计算出用户车辆um卸载至服务器sn的任务量为:
其中τ为固定的传输时间,PTX为传输功率,gm,n,t为第t个时隙用户车辆到服务器的信道增益,σ2为噪声功率。因此用户车辆的吞吐量为:
其中xm,n,t表示用户车辆um在第t个时隙对边缘服务器sn的选择情况,当xm,n,t=1时,代表用户车辆um在第t个时隙选择sn进行任务卸载。
(2)服务器侧的任务处理模型
在服务器侧,每个服务器都会为每个用户车辆设置相应的存储空间,用于存储用户车辆卸载的数据。因此每个服务器上均可建立一系列数据队列,用户车辆um在服务器sn上的数据缓存队列为:
Hm,n(t+1)=max{Hm,n(t)-Ym,n(t)+xm,n,tzm,n,t,0} (4)
其中Ym,n(t)代表服务器sn在第t个时隙处理掉的数据量,有以下公式给出:
其中λm表示计算复杂度,即处理1bit任务数据所需的CPU周期数,fm,n,t表示服务器sn分配的用于处理用户车辆um卸载的任务的计算资源。
3.高可靠低时延约束与优化问题的提出
任务卸载过程的端到端时延包括五个部分,即本地任务缓冲区排队延迟、数据传输延迟、服务器端任务缓冲区排队延迟、任务处理时延和结果反馈时延。由于排队延迟对端到端延迟有很大的影响,因此对排队延迟施加了长期限制,以确保卸载任务的有效性和及时性。
(1)高可靠低时延约束
根据里特定律(Little’s Law),将数据队列积压与平均数据到达率之比定义为平均排队时延。定义极端事件为排队时延超出了给定的排队时延约束,体现在队列长度上为:
为了保证数据任务高可靠低时延的需求,除了考虑平均排队时延以外,同时还要考虑队列长度的尾部分布。结合极端事件的定义,可以得出用户车辆侧以及服务器侧缓冲区的超额队列积压为:
极端事件的发生概率、长期平均时间的条件均值和方差应该被限定在一定的范围内。极端事件的发生概率约束为:
根据Pickands-Balkema-de Haan定理,用户车辆侧超额数据积压的条件互补累积分布函数可以近似为广义帕累托分布(Generalized Pareto Distribution,GPD)
根据以上理论,可以得到用户车辆侧超额队列积压的长期均值以及二阶矩约束:
类似的可以得到服务器侧极端事件发生概率约束以及超额队列积压的长期均值和二阶矩约束:
(2)优化问题的提出
基于上述建立的模型与约束,本发明解决的优化问题为:在高可靠低时延通信约束下最大化用户车辆的吞吐量。因此,优化问题P1定义为:
其中约束条件C1表示用户车辆选择服务器的约束,即用户车辆在每个时隙只能选择一个边缘服务器进行任务卸载;约束条件C2是高可靠低时延通信约束,该约束是分别在用户车辆侧以及服务器侧根据极端事件的发生概率约束、长期平均时间下超额积压的条件均值和方差约束定义的。
4.优化问题的转化与马尔科夫决策过程
(1)优化问题的转化
首先基于Lyapunov优化理论中的虚拟队列概念,将上述约束C2转换为虚拟队列,其公式如下:
用户车辆侧:
其中ΙΙ{x}是一个二进制示性函数,当x为真时,ΙΙ{x}=1,反之ΙΙ{x}=0。这三个虚拟队列分别表示用户车辆侧的极端事件发生概率虚拟队列、超额积压均值虚拟队列和超额积压二阶矩虚拟队列。
服务器侧:
其中ΙΙ{x}是一个二进制示性函数,当x为真时,ΙΙ{x}=1,反之ΙΙ{x}=0。这三个虚拟队列分别表示服务器侧的极端事件发生概率虚拟队列、超额积压均值虚拟队列和超额积压二阶矩虚拟队列。
基于上述建立的虚拟队列,本发明把长期的用户车辆吞吐量最大化问题转化为短期的确定性优化子问题,同时保证高可靠低时延通信约束。因此,优化问题P1可以转化为P2:
其中θm,n,t表示用户车辆吞吐量和高可靠低时延通信约束偏差的加权和,计算公式为:
其中和分别是用户车辆吞吐量、用户车辆侧高可靠低时延约束和服务器侧高可靠低时延约束的权重(正数值权重),和以及和分别是用来统一数量级的参数。通过虚拟队列相关理论,本发明将P1中的约束C2转化到了P2的优化目标之中,从而保证了数据任务高可靠低时延的需求。
(2)马尔科夫决策过程(MDP)相关概念的定义
MDP过程主要包括以下四个概念:
1)状态
在t个时隙初,网络状态由各个队列的信息来决定,故网络状态的矢量表示为:
2)动作
在考虑的环境中,每个用户车辆必须选择一个服务器进行任务卸载,如sn。因此,用户车辆um的动作可表示为矢量Xm(t)={xm,1,t(t),…,xm,N,t(t)}。
3)奖励
为了对问题P2进行优化,本发明将第t个时隙用户车辆um选择服务器sn的奖励作为问题P2的优化目标,即θm,n,t。
4)转移概率
用户车辆um从状态Sm(t)开始,选择动作Xm(t)后,转移到下一个状态Sm(t+1)的计算公式为:
由于队列积压由um和其他UV的任务卸载决策共同决定,使得转移到下一个状态Sm(t+1)的计算公式P(Sm(t+1)|Sm(t),Xm(t))很难建模。此外,状态空间数随着服务器数量的增加而呈指数增长,使得环境变得非常复杂。为解决上述问题,可以采用基于强化学习的无模型方法来解决任务卸载的问题。
5.基于Deep Q-learning Network(DQN)的具有URLLC感知的任务卸载算法
由于Q学习法在解决大状态空间中的任务卸载问题具有巨大的潜力,故本发明采用Q学习法解决维度灾难的问题。该方法可以估计在状态s选择动作a的价值,即Q值,其公式为:
其中ψ,R,γ∈[0,1],s′分别是学习速率,奖励,折扣因子和下一状态(即在当前状态s下,采取动作a后转移到的下一个状态)。在每个时隙中,Q学习法基于当前的Q值,利用ε-贪婪算法选择一个动作(即以ε概率随机选择一个动作,以1-ε的概率选择当前Q值最大的动作)。
随着环境规模的扩大,需要大量的存储资源来存储每个状态-动作对的所有Q值,降低了实用性和效率。为了处理维度灾难的问题,本发明采用基于DQN的方法,该方法利用神经网络逼近状态-动作对和它们的Q值之间的映射关系,也就是利用神经网络来存储状态-动作对的Q值,这样就可以避免采用列表存储Q值带来的实用性差、效率低和存储空间需求大等问题。具体地说,通过不断的学习更新神经网络参数w,从而使得神经网络可以很好的逼近状态-动作对和它们的Q值之间的映射关系。具体公式如下:
其中π代表选择策略。
定义时间尺度为时间段和时隙,每T个时隙构成一个时间段,共有G个时间段,e表示第e个时间段,用来计数的,记录当前是第几个时间段,本发明提出的基于DQN的具有URLLC感知的任务卸载算法具体步骤如下:
(1)在每个时隙的开始时,um根据当前的各个队列信息得到当前的状态向量Sm(t),基于神经网络得到Q值并利用ε-贪婪算法进行服务器的选择。
(2)um将任务卸载到选定的服务器,并计算奖励θm,n,t,然后转移到下一个状态Sm(t+1)。
(3)um计算损失函数:
(4)利用损失函数更新神经网络参数w,更新公式为:
其中,ψ′为网络更新的学习速率。
本发明相对于现有计算具有如下的优点及效果:
(1)为了满足不同UV的URLLC需求,本发明对极端事件的发生概率、长期平均时间下超额积压的条件均值以及方差进行约束,使得所提出的DREAM算法可以根据URLLC性能偏差动态优化任务卸载策略,有效的处理高维复杂的环境状态信息。
(2)基于观察到的队列性能和深度神经网络,所提出的DREAM算法可以利用Q学习法优化任务卸载策略,从而以近似Q函数来解决维度灾难的问题,做出信息不完整和高维度下的最优任务卸载决策。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某个实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例中公开的场景示意图;
图2是本发明实施例中平均端到端队列时延;
图3是本发明实施例中极端事件发生次数;
图4是本发明实施例中服务器侧平均超额积压;
图5是本发明实施例中服务器侧超额积压二阶矩。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本发明的基本实施例公开了一种车联网中基于移动边缘计算的任务卸载与资源分配方法,构建仿真场景,考虑的仿真场景包括5个UV,2个VFS,即s1、s2,以及3个RSU,即s3、s4、和s5。假定VFS和UV沿相同的方向运动,并且对于UV而言,VFS始终可用。对于边缘服务器RSU而言,当t属于[1、200],[201、400]和[401、600]时,s3、s4、和s5对UV分别不可用。
步骤1:s1、s2代表车辆雾服务器,s3 s4、s5代表路边单元即边缘服务器,u1-u5代表用户车辆。为不失一般性,定义服务器集合为S={s1,…,sn,…,sN},定义用户车辆集合为U={u1…um…uM}。
步骤2:将整个优化时间划分为T个时隙,其集合定义为T={1,…,t,…,T}。
定义在第t个时隙,用户车辆um可选的服务器集合为Sm,t,且记录用户车辆um在第t个时隙卸载决策的二进制变量为xm,n,t,当xm,n,t=1时,代表用户车辆um在第t个时隙选择服务器sn进行任务卸载。
用户车辆的本地缓冲区形成了一个数据队列,其公式为:
Qm(t+1)=max{Qm(t)-Um(t)+Am(t),0};
其中Qm(t)表示第t个时隙存储在用户车辆um本地缓冲区上的数据量,Um(t)表示第t个时隙卸载到边缘服务器或服务器车辆上的数据量,Am(t)表示第t个时隙用户车辆新产生的数据量。
定义用户车辆um和服务器sn之间的通信子信道带宽为Bm,n,那么当xm,n,t=1时,可以计算出用户车辆um卸载至服务器sn的任务量为:
其中τ为固定的传输时间,PTX为传输功率,gm,n,t为第t个时隙用户车辆到服务器的信道增益,σ2为噪声功率。因此用户车辆的吞吐量为:
其中xm,n,t表示用户车辆um在第t个时隙对边缘服务器sn的选择情况,当xm,n,t=1时,代表用户车辆um在第t个时隙选择sn进行任务卸载。
每个服务器上均可建立一系列数据队列,用户车辆um在服务器sn上的数据缓存队列为:
Hm,n(t+1)=max{Hm,n(t)-Ym,n(t)+xm,n,tzm,n,t,0};
其中Ym,n(t)代表服务器sn在第t个时隙处理掉的数据量,有以下公式给出:
其中λm表示计算复杂度,即处理1bit任务数据所需的CPU周期数,fm,n,t表示服务器sn分配的用于处理用户车辆um卸载的任务的计算资源。
根据里特定律(Little’s Law),将数据队列积压与平均数据到达率之比定义为平均排队时延。定义极端事件为排队时延超出了给定的排队时延约束,体现在队列长度上为:
为了保证数据任务高可靠低时延的需求,除了考虑平均排队时延以外,同时还要考虑队列长度的尾部分布。结合极端事件的定义,可以得出用户车辆侧以及服务器侧缓冲区的超额队列积压为:
极端事件的发生概率、长期平均时间的条件均值和方差应该被限定在一定的范围内。极端事件的发生概率约束为:
根据Pickands-Balkema-de Haan定理,用户车辆侧超额数据积压的条件互补累积分布函数可以近似为广义帕累托分布(Generalized Pareto Distribution,GPD)
用户车辆侧超额队列积压的长期均值以及二阶矩约束:
类似的可以得到服务器侧极端事件发生概率约束以及超额队列积压的长期均值和二阶矩约束:
基于上述建立的模型与约束,本发明解决的优化问题为:在高可靠低时延通信约束下最大化用户车辆的吞吐量。因此,优化问题P1定义为:
其中约束条件C1表示用户车辆选择服务器的约束,即用户车辆在每个时隙只能选择一个边缘服务器进行任务卸载;约束条件C2是高可靠低时延通信约束,该约束是分别在用户车辆侧以及服务器侧根据极端事件的发生概率约束、长期平均时间下超额积压的条件均值和方差约束定义的。
步骤4:优化问题的转化
首先基于Lyapunov优化理论中的虚拟队列概念,将上述约束C2转换为虚拟队列,其公式如下:
用户车辆侧:
其中ΙΙ{x}是一个二进制示性函数,当x为真时,ΙΙ{x}=1,反之ΙΙ{x}=0。这三个虚拟队列分别表示用户车辆侧的极端事件发生概率虚拟队列、超额积压均值虚拟队列和超额积压二阶矩虚拟队列。
服务器侧:
其中ΙΙ{x}是一个二进制示性函数,当x为真时,ΙΙ{x}=1,反之ΙΙ{x}=0。这三个虚拟队列分别表示服务器侧的极端事件发生概率虚拟队列、超额积压均值虚拟队列和超额积压二阶矩虚拟队列。
基于上述建立的虚拟队列,本发明把长期的用户车辆吞吐量最大化问题转化为短期的确定性优化子问题,同时保证高可靠低时延通信约束。因此,优化问题P1可以转化为P2:
其中θm,n,t表示用户车辆吞吐量和高可靠低时延通信约束偏差的加权和,计算公式为:
其中和分别是用户车辆吞吐量、用户车辆侧高可靠低时延约束和服务器侧高可靠低时延约束的权重(正数值权重),和以及和分别是用来统一数量级的参数。通过虚拟队列相关理论,本发明将P1中的约束C2转化到了P2的优化目标之中,从而保证了数据任务高可靠低时延的需求。
(2)马尔科夫决策过程(MDP)相关概念的定义
MDP过程主要包括以下四个概念:
1)状态
在t个时隙初,网络状态由各个队列的信息来决定,故网络状态的矢量表示为:
2)动作
在考虑的环境中,每个用户车辆必须选择一个服务器进行任务卸载,如sn。因此,用户车辆um的动作可表示为矢量Xm(t)={xm,1,t(t),…,xm,N,t(t)}。
3)奖励
为了对问题P2进行优化,本发明将第t个时隙用户车辆um选择服务器sn的奖励作为问题P2的优化目标,即θm,n,t。
4)转移概率
用户车辆um从状态Sm(t)开始,选择动作Xm(t)后,转移到下一个状态Sm(t+1)的计算公式为:
由于队列积压由um和其他UV的任务卸载决策共同决定,使得转移到下一个状态Sm(t+1)的计算公式P(Sm(t+1)|Sm(t),Xm(t))很难建模。此外,状态空间数随着服务器数量的增加而呈指数增长,使得环境变得非常复杂。本实施例采用基于强化学习的无模型方法来解决任务卸载的问题。
步骤5:
由于Q学习法在解决大状态空间中的任务卸载问题具有巨大的潜力,故本发明采用Q学习法解决维度灾难的问题。该方法可以估计在状态s选择动作a的价值,即Q值,其公式为:
其中ψ,R,γ∈[0,1],s′分别是学习速率,奖励,折扣因子和下一状态(即在当前状态s下,采取动作a后转移到的下一个状态)。在每个时隙中,Q学习法基于当前的Q值,利用ε-贪婪算法选择一个动作(即以ε概率随机选择一个动作,以1-ε的概率选择当前Q值最大的动作)。
随着环境规模的扩大,需要大量的存储资源来存储每个状态-动作对的所有Q值,降低了实用性和效率。为了处理维度灾难的问题,本发明采用基于DQN的方法,该方法利用神经网络逼近状态-动作对和它们的Q值之间的映射关系,也就是利用神经网络来存储状态-动作对的Q值,这样就可以避免采用列表存储Q值带来的实用性差、效率低和存储空间需求大等问题。具体地说,通过不断的学习更新神经网络参数w,从而使得神经网络可以很好的逼近状态-动作对和它们的Q值之间的映射关系。具体公式如下:
其中π代表选择策略。
定义时间尺度为时间段和时隙,每T个时隙构成一个时间段,共有G个时间段,e表示第e个时间段,用来计数的,记录当前是第几个时间段,本发明提出的基于DQN的具有URLLC感知的任务卸载算法具体步骤如下:
(1)在每个时隙的开始时,um根据当前的各个队列信息得到当前的状态向量Sm(t),基于神经网络得到Q值并利用ε-贪婪算法进行服务器的选择。
(2)um将任务卸载到选定的服务器,并计算奖励θm,n,t,然后转移到下一个状态Sm(t+1)。
(3)um计算损失函数:
(4)利用损失函数更新神经网络参数w,更新公式为:
其中,ψ′为网络更新的学习速率。
对上述提出的DREAM任务卸载算法,进行了仿真对比实验。其中,方法1为EMM算法,其能量约束被替换为URLLC约束;方法2为D-QLOA算法,其优化目标被替换为吞吐量,但忽略了URLLC约束。
仿真结果如图2,图2显示了用户车辆的平均端到端队列时延性能,与其他对比算法相比,本发明提出的DREAM算法可以有效的降低端到端队列时延。
如图3所示,本发明提出的DREAM算法在极端事件数方面的性能最优。其中,极端事件数是UV端队列时延和服务器端队列时延的总和。相比于D-QLOA和EMM算法,DREAM算法可以将端到端队列时延的极端事件的数量分别减少48.89%和58.99%。
如图4所示,本发明提出的DREAM算法得出的服务器端超额积压的条件均值最小。相比于D-QLOA和EMM算法,DREAM算法将服务器端的超额积压的条件均值分别减少了97.02%和90.06%。
如图5所示,本发明提出的DREAM算法得出的服务器端超额积压的方差最小。由于具有URLLC感知和解决维度灾难的能力,相比于D-QLOA和EMM算法,DREAM算法将服务器端超额积压的方差分别增加了98.12%和90.19%。
综合图2至图5可以看出,本发明提出的基于DQN具有URLLC感知的任务卸载方法能够有效的处理高维复杂的环境状态信息。并通过深度学习做出最优的任务卸载决策,同时保障用户车辆的高可靠低时延通信服务需求。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。
Claims (5)
1.一种车联网中基于深度强化学习的任务卸载方法,其特征在于,该方法包括5个步骤:
(1)构建系统模型框架,实现用户车辆在不同时隙选择不同的服务器进行任务卸载;(2)模型细化,将模型分为用户车辆侧的任务传输模型和服务器侧的任务处理模型;(3)提出高可靠低时延约束与优化问题;(4)进行优化问题的转化并引入马尔科夫决策过程;(5)提出基于Deep Q-learning Network的具有URLLC感知的任务卸载算法;所述步骤(1)不同的服务器为路边单元和车辆雾服务器;步骤(2)用户车辆侧的任务传输模型采用任务划分模型,用户车辆每个时隙产生的任务数据暂时存储在用户车辆的本地缓冲区,然后被卸载到边缘服务器即路边单元(RSU)或服务器车辆(VFS)上进行计算处理,用户车辆的本地缓冲区形成一个数据队列。
2.根据权利要求1所述的一种车联网中基于深度强化学习的任务卸载方法,其特征在于:步骤(2)服务器侧的任务处理模型,每个服务器都会为每个用户车辆设置存储空间,用于存储用户车辆卸载的数据,每个服务器上建立数据队列。
3.根据权利要求1所述的一种车联网中基于深度强化学习的任务卸载方法,其特征在于:步骤(3)高可靠低时延约束优化问题为:在约束条件一,用户车辆选择服务器的约束,用户车辆在每个时隙只能选择一个边缘服务器进行任务卸载;约束条件二,用户车辆侧以及服务器侧根据极端事件的发生概率约束、长期平均时间下超额积压的条件均值和方差约束下,最大化用户车辆的吞吐量。
4.根据权利要求3所述的一种车联网中基于深度强化学习的任务卸载方法,其特征在于:上述约束二转换为虚拟队列,把长期的用户车辆吞吐量最大化问题转化为短期的确定性优化子问题,同时保证高可靠低时延通信约束。
5.根据权利要求4所述的一种车联网中基于深度强化学习的任务卸载方法,其特征在于:基于Deep Q-learning Network的具有URLLC感知的任务卸载算法具体步骤如下:
(1)定义时间尺度为时间段和时隙,每T个时隙构成一个时间段,共有G个时间段,e表示第e个时间段,记录当前是第几个时间段,在每个时隙的开始时根据当前的各个队列信息得到当前的状态向量,基于神经网络得到Q值并利用ε-贪婪算法进行服务器的选择;
(2)将任务卸载到选定的服务器,并计算奖励,然后转移到下一个状态;
(3)计算损失函数:
(4)利用损失函数更新神经网络参数,更新公式;
(5)更新神经网络的Q值,直到e>G,迭代停止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011599843.XA CN112822234B (zh) | 2020-12-29 | 2020-12-29 | 一种车联网中基于深度强化学习的任务卸载方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011599843.XA CN112822234B (zh) | 2020-12-29 | 2020-12-29 | 一种车联网中基于深度强化学习的任务卸载方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112822234A CN112822234A (zh) | 2021-05-18 |
CN112822234B true CN112822234B (zh) | 2022-03-22 |
Family
ID=75855321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011599843.XA Active CN112822234B (zh) | 2020-12-29 | 2020-12-29 | 一种车联网中基于深度强化学习的任务卸载方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112822234B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113542376A (zh) * | 2021-07-01 | 2021-10-22 | 广东工业大学 | 一种基于能耗与时延加权的任务卸载方法 |
CN113726894B (zh) * | 2021-09-01 | 2023-05-05 | 福建师范大学 | 一种基于深度强化学习的多车应用计算卸载方法及终端 |
CN113795013A (zh) * | 2021-09-28 | 2021-12-14 | 山东大学 | 车联网中基于Lyapunov优化的V2V通信资源分配方法 |
CN113905347B (zh) * | 2021-09-29 | 2024-04-16 | 华北电力大学 | 一种空地一体化电力物联网云边端协同方法 |
CN114025330B (zh) * | 2022-01-07 | 2022-03-25 | 北京航空航天大学 | 一种空地协同的自组织网络数据传输方法 |
CN114531669A (zh) * | 2022-01-14 | 2022-05-24 | 山东师范大学 | 一种基于车辆边缘计算的任务卸载方法及系统 |
CN114615265A (zh) * | 2022-03-09 | 2022-06-10 | 浙江工业大学 | 边缘计算环境下基于深度强化学习的车载任务卸载方法 |
CN114710497B (zh) * | 2022-03-11 | 2023-06-02 | 厦门理工学院 | 一种车联网多任务卸载最小响应时间获取方法 |
CN114585006B (zh) * | 2022-03-16 | 2024-03-19 | 东北大学 | 基于深度学习的边缘计算任务卸载和资源分配方法 |
CN115801820A (zh) * | 2022-10-06 | 2023-03-14 | 华北电力大学 | 一种基于强化学习的时延-能耗感知车联网任务卸载方法 |
CN116578924A (zh) * | 2023-07-12 | 2023-08-11 | 太极计算机股份有限公司 | 一种用于机器学习分类的网络任务优化方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110740459A (zh) * | 2019-10-16 | 2020-01-31 | 杭州安恒信息技术股份有限公司 | 基于GPS的uRLLC网络切片生成装置及生成方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3607493A4 (en) * | 2017-04-07 | 2020-12-02 | INTEL Corporation | PROCEDURES AND SYSTEMS FOR BUDGETED AND SIMPLIFIED TRAINING OF DEEP NEURAL NETWORKS |
CN109067842B (zh) * | 2018-07-06 | 2020-06-26 | 电子科技大学 | 面向车联网的计算任务卸载方法 |
US10878698B2 (en) * | 2018-12-13 | 2020-12-29 | Qualcomm Incorporated | Interactive vehicular communication |
CN110113190B (zh) * | 2019-04-24 | 2021-04-09 | 西北工业大学 | 一种移动边缘计算场景中卸载时延优化方法 |
KR20190096873A (ko) * | 2019-07-31 | 2019-08-20 | 엘지전자 주식회사 | 자율주행시스템에서 차량과 서버의 연결 설정방법 및 이를 위한 장치 |
CN111414252B (zh) * | 2020-03-18 | 2022-10-18 | 重庆邮电大学 | 一种基于深度强化学习的任务卸载方法 |
CN111800495B (zh) * | 2020-06-30 | 2021-05-11 | 华北电力大学 | 一种车辆雾计算中的任务卸载方法 |
CN111935303B (zh) * | 2020-08-21 | 2023-05-26 | 华北电力大学 | 空地一体化车联网中基于意图感知的任务卸载方法 |
-
2020
- 2020-12-29 CN CN202011599843.XA patent/CN112822234B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110740459A (zh) * | 2019-10-16 | 2020-01-31 | 杭州安恒信息技术股份有限公司 | 基于GPS的uRLLC网络切片生成装置及生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112822234A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112822234B (zh) | 一种车联网中基于深度强化学习的任务卸载方法 | |
CN111835827B (zh) | 物联网边缘计算任务卸载方法及系统 | |
CN110928658A (zh) | 一种车边云协同架构的协同任务迁移系统及算法 | |
CN111245950A (zh) | 基于深度学习的工业物联网边缘资源智能调度系统及方法 | |
CN110809275B (zh) | 基于无线城域网的微云节点放置方法 | |
Elmoiz Alatabani et al. | Deep and reinforcement learning technologies on internet of vehicle (IoV) applications: Current issues and future trends | |
CN113709883B (zh) | 一种多无人机辅助工业场景下的动态资源分配方法及装置 | |
Nguyen et al. | DRL-based intelligent resource allocation for diverse QoS in 5G and toward 6G vehicular networks: a comprehensive survey | |
CN112929849B (zh) | 一种基于强化学习的可靠车载边缘计算卸载方法 | |
CN112511614B (zh) | 基于强化学习的车载边缘环境下智能网联车辆任务卸载方法 | |
CN115002123A (zh) | 基于移动边缘计算的快速适应任务卸载系统和方法 | |
CN112612553A (zh) | 一种基于容器技术的边缘计算任务卸载方法 | |
CN116541106B (zh) | 计算任务卸载方法、计算设备及存储介质 | |
CN113961204A (zh) | 一种基于多目标强化学习的车联网计算卸载方法及系统 | |
CN114521002A (zh) | 一种云边端合作的边缘计算方法 | |
CN112364365A (zh) | 工业数据加密方法、边缘服务器及计算机可读存储介质 | |
CN117062025A (zh) | 一种车联网节能联合计算卸载与资源分配方法 | |
Ma et al. | Quality-aware video offloading in mobile edge computing: A data-driven two-stage stochastic optimization | |
CN113452625B (zh) | 基于深度强化学习的卸载调度与资源分配方法 | |
CN112906745B (zh) | 基于边缘协同的诚信智能网络训练方法 | |
CN112738225B (zh) | 基于人工智能的边缘计算方法 | |
CN115967430A (zh) | 一种基于深度强化学习的成本最优空地网络任务卸载方法 | |
CN115633377A (zh) | 基于车辆边缘计算的任务卸载方法 | |
CN115118783A (zh) | 基于异构通信技术超可靠低时延强化学习的任务卸载方法 | |
Zhang et al. | Effective 3C Resource Utilization and Fair Allocation Strategy for Multi-Task Federated Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |