CN110989614B - 一种基于深度强化学习的车辆边缘计算转移调度方法 - Google Patents
一种基于深度强化学习的车辆边缘计算转移调度方法 Download PDFInfo
- Publication number
- CN110989614B CN110989614B CN201911310491.9A CN201911310491A CN110989614B CN 110989614 B CN110989614 B CN 110989614B CN 201911310491 A CN201911310491 A CN 201911310491A CN 110989614 B CN110989614 B CN 110989614B
- Authority
- CN
- China
- Prior art keywords
- task
- time
- data
- transfer scheduling
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 71
- 238000012546 transfer Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000002787 reinforcement Effects 0.000 title claims abstract description 28
- 238000005457 optimization Methods 0.000 claims abstract description 32
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 31
- 238000005265 energy consumption Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 17
- 230000009471 action Effects 0.000 claims description 14
- 150000001875 compounds Chemical class 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000007430 reference method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0223—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0287—Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
- G05D1/0291—Fleet control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Automation & Control Theory (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Aviation & Aerospace Engineering (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于深度强化学习的车辆边缘计算转移调度方法,利用马尔可夫决策过程,针对车辆在高速公路移动的场景精确建模,并采用深度强化学习找到这个场景下的车辆边缘计算转移调度方案的最佳策略;在训练深度强化学习时,通过使用近端策略优化方法,使用卷积结构提取任务对应的特征量,调整状态和奖励的表示方式等,改善了网络的收敛性能,使得在动态环境和复杂任务的情况下,在特定的时间‑能量偏好下实现在较长时间内消耗的时间和能量最小化。
Description
技术领域
本发明属于车辆边缘计算技术领域,具体涉及一种基于深度强化学习的车辆边缘计算转移调度方法。
背景技术
物联网技术的快速发展为车辆行驶带来了一系列的应用技术,如自动驾驶技术,增强现实技术等,这些应用技术需要计算资源、宽带宽、低延迟等条件。对于一个车辆终端来说,计算资源和能量都是有限的,车辆边缘计算可以有效的解决这一问题,将一些需要计算资源的任务转移到路旁的服务器单元可以有效减少车辆终端的计算资源消耗和能量消耗,同时这个任务转移的过程也不会带来很高的延迟。
但是转移数据也需要能量和时间,并不是转移任务就一定节省时间和能量,因此转移到路旁的服务器单元计算还是直接在本地的处理单元计算是一个关键的决策问题,利用深度强化学习解决这个决策问题是一个比较好的选择。
一些技术已经采用深度强化学习来解决一些转移调度问题,比较经典的有利用一种基于深度Q学习的算法来解决转移调度问题。但是对于车载应用,需要深度强化学习支持不同大小的任务和计算体积,转移任务的多样性和动态的环境使得经典的算法并不适用。
发明内容
针对现有技术中的上述不足,本发明提供的基于深度强化学习的车辆边缘计算转移调度方法解决了现有车辆边缘计算的转移调度方法不能适用于动态环境且转移任务复杂情况的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于深度强化学习的车辆边缘计算转移调度方法,包括以下步骤:
S1、对车辆边缘计算转移调度问题进行建模,并确定其优化目标;
S2、将实际车辆边缘计算场景下的优化目标运用到马尔可夫决策过程中,得到对应的状态空间;
S3、将状态空间输入到训练好的DNN网络中,得到车辆边缘计算时的价值函数和转移调度策略。
进一步地,所述步骤S1中,通过将车辆边缘计算转移调度问题中的任务建模成泊松过程,且在每个时间间隙内都会有任务到达;其中,任务队列中第i个任务Ji为时间t时排在任务队列中第j个等待的任务Q[t]<j>为
di为任务Ji的输入数据大小;
ki为任务Ji的计算体积比;
所述步骤S1中的建模方法具体为:
S11、基于车辆终端预测的数据速率,确定两种数据计算模式下的能量消耗和时间消耗;
其中,数据计算模式包括本地计算和边缘计算服务器计算;
S12、基于两种数据计算模式下的能量消耗和时间消耗,计算任务队列中的任意任务的资源消耗总量;
S13、基于计算的资源消耗总量,确定车辆边缘计算转移调度问题的优化目标。
进一步地,所述步骤S11中,在任意时间间隙t中,车辆终端预测的数据速率r[t]满足的条件为:
式中,ttx(v,t)为传输大小为v的数据所需要的时间,括号中的t为开始传输的时间;
s为指代时间t的变量;
r[s]为在时间s开始传输数据时能够成功传输的数据大小;;
v为传输的数据大小;
在所述步骤S11中:
式中,fl为本地处理器的频率;
式中,pl为本地服务器的功率,且pl=ξ(fl)v,ξ为常数,
式中,ptx为数据传输消耗的功率;
式中,α、β均为资源消耗的控制参数;
所述步骤S13中的优化目标为:
进一步地,所述步骤S2中的基于马尔可夫决策过程得到的状态空间为:
式中,Q为任务队列;
x,d分别为车辆当前位置以及其与最近的边缘计算服务器单元的距离;
slpu为本地服务器完成当前任务所需要的剩余CPU周期数;
sdtu为需要传输给边缘计算服务器的任务的剩余数据量;
smec为边缘计算服务器完成转移调度之后的任务所需的CPU周期数;
所述slpu、sdtu和smec均随着车辆边缘计算的转移调度策略实时更新。
进一步地,在t时刻,本地服务器完成当前任务所需要的剩余CPU周期数slpu的更新式为:
slpu[t]=max{slpu[t-1]-fl,0}
当slpu[t]=0时,本地计算服务器处于空闲状态,可以接受新的数据计算任务;
在t时刻,需要传输给边缘计算服务器的任务的剩余数据量sdtu[t]为:
sdtu[t]=max{sdtu[t-1]-r[t-1],0}
式中,r[t-1]为t-1时刻的数据速率;
在t时刻,边缘计算服务器完成转移调度之后的任务所需的CPU周期数smec为:
smec[t]=max{smec[t-1]-fs,0}。
进一步地,所述步骤S3中DNN网络包括输入层、spilt操作、卷积单元、Concat操作、第一全连接层、第二全连接层、第三全连接层和softmax层;
所述输入层的输出端与spilt操作输入端连接,所述spilt操作的第一输出端与卷积单元的输入端连接,所述spilt操作的第二输出端和卷积单元的输出端均与Concat操作的输入端连接,所述Concat操作的输出端依次与级联的第一全连接层和第二全连接层连接,所述第二全连接层的第一输出端第三连接层的输入端连接,所述第二全连接层的第二输出端端与所述softmax层的输入端连接;
所述输入层的输入为状态空间S;
所述spilt操作将输入的状态空间拆分为任务队列Q和其他状态,并将所述任务队列Q输入到卷积单元中,将其他状态暂时存储,并在卷积单元的操作执行完成后输入到Concat操作;
所述卷积单元用于提取任务队列Q的特征;
所述Concat操作用于将提取的任务队列Q的特征和其他状态连接;
所述第一全连接层和第二全连接层用于对输入数据进行归一化处理;
所述第三全连接层用于输出价值函数;
所述softmax层用于输出转移调度策略。
进一步地,所述步骤S3中,通过近端策略优化算法对DNN网络进行训练,其训练目标函数为:
clip(·)为用于限制rn范围的函数;
ε为超参数,即对于rn(θ),超出[1-ε,1+ε]范围的值都会去除;
c为损耗系数;
vπ为真正的价值函数;
v(sn;θ)为价值网络,当网络参数为θ时,对应的状态sn。
进一步地,在所述DNN网络的训练过程中,使整个DNN网络在数据采样和网络优化之间交替进行;
其中,N为采样的最大数目,N个轨迹是指状态控制以及对应的动作空间、策略概率比的集合;
所述网络优化阶段:通过K次迭代更新策略函数中的参数,并在每次迭代中,都基于上一数据采样阶段缓存的采样数据使用随机梯度下降法进行网络优化。
进一步地,所述DNN网络中的动作空间为:
式中,Lε、Rε和HO分别为在本地服务器计算操作的策略集合、在边缘计算服务器计算操作的策略集合和保存原样等待操作的策略集合;
进一步地,在所述DNN网络的训练过程中,通过在动作空间和状态空间加入限制参数来提高DNN网络的收敛速度;
其中,限制后的动作空间中的HO为:
式中,pg为限制HO操作的粗细粒度参数,m为粗细粒度参数的系数,且mpg≤phmax,phmax为限制HO操作的最大等待时间参数;
限制后的动作空间中的Lε为:
限制后的动作空间中的Rε为:
式中,psmax为LE和RE操作的序列数目,且psmax<Q;
所述状态空间加入限制参数的方法为:根据状态空间中的当前任务队列长度在其奖励中加入惩罚项kqq[t]u,其中,q[t]为在t时刻在队列中等待的任务数目,kq、u均为任务队列中的等待任务的控制参数,kq和u的取值与状态空间中的等待的任务长度成反比。
本发明的有益效果为:
本发明公开了一种基于深度强化学习的车辆边缘计算转移调度方法,利用马尔可夫决策过程,针对车辆在高速公路移动的场景精确建模,并采用深度强化学习找到这个场景下的车辆边缘计算转移调度方案的最佳策略;在训练深度强化学习时,通过使用近端策略优化方法,使用卷积结构提取任务对应的特征量,调整状态和奖励的表示方式等,改善了网络的收敛性能,使得在动态环境和复杂任务的情况下,实现在较长时间内消耗的时间和能量都最小化。
附图说明
图1为本发明提供的基于深度强化学习的车辆边缘计算转移调度方法流程图。
图2为本发明提供的车辆边缘计算转移调度建模的场景结构示意图。
图3为本发明提供的DNN(强化深度学习)网络结构示意图。
图4为本发明提供的实施例中在静态条件下本发明方法与其他基准方法的比较示意图。
图5为本发明提供的实施例中在动态条件下本发明方法与其他基准方法的比较示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于深度强化学习的车辆边缘计算转移调度方法,包括以下步骤:
S1、对车辆边缘计算转移调度问题进行建模,并确定其优化目标;
S2、将实际车辆边缘计算场景下的优化目标运用到马尔可夫决策过程中,得到对应的状态空间;
S3、将状态空间输入到训练好的DNN网络中,得到车辆边缘计算时的价值函数和转移调度策略。
如图2所示,在上述步骤S1中,通过将车辆边缘计算转移调度问题中的任务建模成泊松过程,且在每个时间间隙内都会有任务到达;其中,任务队列中第i个任务Ji为时间t时排在任务队列中第j个等待的任务Q[t]<j>为
di为任务Ji的输入数据大小,单位是bit;
ki为任务Ji的计算体积比,单位是CPU周期/bit;
步骤S1中的建模方法具体为:
S11、基于车辆终端预测的数据速率,确定两种数据计算模式下的能量消耗和时间消耗;
其中,数据计算模式包括本地计算和边缘计算服务器计算;
S12、基于两种数据计算模式下的能量消耗和时间消耗,计算任务队列中的任意任务的资源消耗总量;
S13、基于计算的资源消耗总量,确定车辆边缘计算转移调度问题的优化目标。
具体地,在上述步骤S11中,关于数据的传输过程,在任何的时间间隙t,车辆终端都可以获得关于信道摔落系数的一定的先验知识,并预测一个数据速率r[t](单位为bit/时间间隙),这个数速率应该满足的条件为:
式中,ttx(v,t)为传输大小为v的数据所需要的时间,括号中的t为开始传输的时间;
s为指代时间t的变量;
r[s]为在时间s开始传输数据时能够成功传输的数据大小;;
v为传输的数据大小;
式中,fl为本地处理器的频率,单位为单位周期/时间间隙;
式中,pl为本地服务器的功率,且pl=ξ(fl)v,ξ为常数,
边缘计算服务器计算的时间包括两部分:无线数据传输时间以及在服务器上的计算时间,无线传输时间为:
在服务器上的计算时间为:
式中,fs为边缘计算服务器的频率;
式中,ptx为数据传输消耗的功率;
对于一个任务队列中等待的任务,完成任务要消耗的时间可以表示为:
其中,表示任务队列中一个任务的总的等待时间,ai为计算模式控制变量,当ai=1时,表示采用边缘计算服务器计算,当ai=0时,表示采用本地服务器计算;因此,为任务计算所需的时间,为任务的等待时间;同理,可以得到一个队列中的任务消耗的能量为:
式中,α、β均为资源消耗的控制参数;
步骤S13中的优化目标为:
上述步骤S2中,将S1中的优化目标运用到马尔可夫决策过程的动态模型中时,基于马尔可夫决策过程得到的状态空间为:
式中,Q为任务队列;
x,d分别为车辆当前位置以及其与最近的边缘计算服务器单元的距离;
slpu为本地服务器完成当前任务所需要的剩余CPU周期数;
sdtu为需要传输给边缘计算服务器的任务的剩余数据量;
smec为边缘计算服务器完成转移调度之后的任务所需的CPU周期数;
slpu、sdtu和smec均随着车辆边缘计算的转移调度策略实时更新;
其中,在t时刻,本地服务器完成当前任务所需要的剩余CPU周期数slpu的更新式为:
slpu[t]=max{slpu[t-1]-fl,0}
当slpu[t]=0时,本地计算服务器处于空闲状态,可以接受新的数据计算任务;
在t时刻,需要传输给边缘计算服务器的任务的剩余数据量sdtu[t]为:
sdtu[t]=max{sdtu[t-1]-r[t-1],0}
式中,r[t-1]为t-1时刻的数据速率;
在t时刻,边缘计算服务器完成转移调度之后的任务所需的CPU周期数smec为:
smec[t]=max{smec[t-1]-fs,0}。
另外,马尔可夫决策过程中的动作空间A将作为后续DNN网络中的参数,对输入的空间状态进行决策,形成完整的转移调度策略;
具体地,马尔可夫决策过程中的动作空间A为:
式中,Lε、Rε和HO分别为在本地服务器计算操作的策略集合、在边缘计算服务器计算操作的策略集合和保存原样等待操作的策略集合;
在每个时间间隙,车辆终端的所有任务的总时间延迟可以表示为:
总的能量消耗为:
由于系统具有动态工作负载,如果任务到达率相对于调度速度来说比较大,那么可能会发生溢出。因此,我们考虑了由于任务溢出带来的开销Δo(sn,an,sn+1),从而总的开销表示为:
式中,ξ为任务溢出的乘法参数;
α和β为根据低延迟或者低能量消耗需求进行调节。
关于马尔可夫决策过程的奖励函数可以表示为:
式中,ks是调节奖励范围的参数;
对于一个从状态sm开始的马尔可夫链来说,完整的奖励函数可以写成:
式中,γ为折现系数,取值范围为(0,1]。
如图3所示,上述步骤S3中的中DNN网络包括输入层、spilt操作、卷积单元、Concat操作、第一全连接层、第二全连接层、第三全连接层和softmax层;输入层的输出端与spilt操作输入端连接,spilt操作的第一输出端与卷积单元的输入端连接,spilt操作的第二输出端和卷积单元的输出端均与Concat操作的输入端连接,Concat操作的输出端依次与级联的第一全连接层和第二全连接层连接,第二全连接层的第一输出端第三连接层的输入端连接,第二全连接层的第二输出端端与softmax层的输入端连接;
其中,输入层的输入为状态空间S;
spilt操作将输入的状态空间拆分为任务队列Q和其他状态,并将任务队列Q输入到卷积单元中,将其他状态暂时存储,并在卷积单元的操作执行完成后输入到Concat操作;
卷积单元用于提取任务队列Q的特征;
Concat操作用于将提取的任务队列Q的特征和其他状态连接;
第一全连接层和第二全连接层用于对输入数据进行归一化处理;
第三全连接层用于输出价值函数;
softmax层用于输出转移调度策略。
其中第三全连接层与前面的网络结构一起形成价值网络,用于输出价值函数v(sn;w);softmax层与前面的网络结构一起形成测量网络,用于输出转移调度策略π(an|Sn;θ)。
具体地,在网络训练过程中主要是为了得到两个目标:价值函数v(sn;w)和转移调度策略π(an|Sn;θ),二者都是以状态空间S为输入,但是输出不一致。我们使用参数共享的DNN网络架构,但是在第二全连接层后,对于策略网络,使用softmax层输出所有操作的概率分布,对于价值网络,使用全连接层输出状态。由于状态空间中的大多数数据都是描述任务队列Q的,因此我们在DNN网络中嵌入一个卷积单元在提取队列的Q的特征,之后再与状态空间中的其他参数连接在一起送到全连接层。在训练过程通过近端策略优化算法对DNN网络进行训练,其训练目标函数为:
clip(·)为用于限制rn范围的函数;
ε为超参数,即对于rn(θ),超出[1-ε,1+ε]范围的值都会去除;
c为损耗系数;
vπ为真正的价值函数;
v(sn;θ)为价值网络,当网络参数为θ时,对应的状态为sn。
在具体的DNN网络的训练过程中,使整个DNN网络在数据采样和网络优化之间交替进行;
其中,N为采样的最大数目,N个轨迹是指状态控制以及对应的动作空间、策略概率比的集合{S0,a0,a0,S1,...,Sn};
网络优化阶段:通过K次迭代更新策略函数中的参数,并在每次迭代中,都基于上一数据采样阶段缓存的采样数据使用随机梯度下降法进行网络优化。在优化结束后,旧的策略(前一阶段中的网络参数)就被完全更新,然后删除缓存的数据,下一次循环开始。
在DNN网络训练过程中,状态空间和动作空间过大将会导致网络难以收敛,为了解决这个问题,通过在动作空间和状态空间加入限制参数来提高DNN网络的收敛速度;
其中,限制后的动作空间中的HO为:
式中,pg为限制HO操作的粗细粒度参数,m为粗细粒度参数的系数,且mpg≤phmax,phmax为限制HO操作的最大等待时间参数;
限制后的动作空间中的Lε为:
限制后的动作空间中的Rε为:
式中,psmax为LE和RE操作的序列数目,且psmax<Q;
我们认为在任务队列中有大量任务在等待状态是不合理的,这有可能导致认为溢出和效率降低;因此,在状态空间加入限制参数的方法为:根据状态空间中的当前任务队列长度在其奖励中加入惩罚项kqq[t]u,其中,q[t]为在t时刻在队列中等待的任务数目,kq、u均为任务队列中的等待任务的控制参数,kq和u的取值与状态空间中的等待的任务长度成反比。
实施例2:
本发明实施例中给出了DNN网络的相关参数设置值;
表1:DNN网络训练时的参数设置
表2:DNN网络训练时的超参数设置
表3:DNN网络结构参数设置
需要说明的是,表3中参数设置与图3中的DNN网络对应,其中卷积单元的参数比较固定,而全连接层和softmax层是与具体的任务维度相关的,需要根据任务队列长度进行调整,对于长度为20的任务对应,全连接层的最后输出维度设定为512。
实施例3:
在本发明实施例中,提供了本发明方法与其他基准算法的比较示意图;
图4为本发明在静态条件下与其他基准算法的比较,其中DRLOSM(DRL-basedoffloading scheduling method)是本发明方法,图例为算法1,RD(Random offloading)指随机转移到边缘计算服务器执行,图例为算法2,AL(All local excution)指全部本地执行,图例为算法3,AO(All offloading)指全部转移到边缘计算服务器执行,图例为算法4,TG(Time greedy)指时间贪婪策略,图例为算法5,EG(Energygreedy)指能量贪婪策略,图例为算法6,GA(Genetic Algorithm)指遗传算法,图例为算法7。
图4中左上角的图展示的是在静态条件不同算法的平均花费随着α的变化。我们可以看到算法2(RD),算法3(AL),算法4(AO)的平均成本总是非常高,因为这些算法的逻辑十分的简单,行为非常不灵活。当α比较小时,意味着我们比较看重能量的消耗,因此算法6(EG)表现较好,但是随着α的增加,变现逐渐变差,并被算法5(TG)超过。当α比较小时,算法7(GA)的搜索空间非常大,因此容易表现较差。而算法1(DRLOSM)在不同的α条件下(DRLOSM)表现都不错。
左下角的图展示了平均再转移任务数随着α的变化。任务再转移是由转移失败引起的。对于算法3(AL)和算法6(EG)来说,他们不会发生转移失败。算法4(AO)的平均再转移任务数最多,因为他总是要上传到服务器进行计算,即使加上随机性之后依旧表现很差(例如算法2(RD)),即使是算法7(GA),也存在很多转移失败。而算法1(DRLOSM)可以通过恰当的选取动作来避免任务转移失败。
右边的两张图分别展示了不同算法的时间延迟和能量消耗的情况。非常明显的,算法6(EG)总是有最小的能量消耗,但是时延最大。算法5(TG)总是有最小的时间延迟,但是能量消耗较大。算法1(DRLOSM)和算法7(GA)变现了一种较好的均衡,但是正如之前说的,由于搜索空间巨大,算法7(GA)不一定能1找到一个好的解决方案。综合下来,算法1(DRLOSM)变现更好。
图5为本发明动态条件下与其他基准算法的比较,由于遗传算法在动态条件下表现很差,因此不做比较。
图5中的四张图对应的α为0.06,β为1。对于每张图的测试都是将工作负载从0.1逐渐提升到1,代表着从几乎没有任务到任务溢出。
对于左上角的图,随着工作负载的增加,所有算法的平均任务延迟都在增加,对于算法6(EG),算法3(AL),算法4(AO),算法2(RD)来说都会在某一个阶段陡增,这是因为这些算法无法根据工作负载进行调整,当工作负载足够大时就会导致任务再任务队列里堆积。与预料相一致的,算法5(TG)总是有最小的时间延迟,算法6(EG)总是有最大的时间延迟。而算法1(DRLOSM)则是实现了较小的时间延迟,性能曲线较为平滑,意味着它可以根据工作负载进行策略的调整。
对于左下角的图,可以看出,算法2(RD),算法3(AL),算法4(AO),算法6(EG)与工作负载几乎无关,证明它们是不会根据工作负载进行策略调整的。算法5(TG)的能量消耗随着工作负载的升高而降低,这是因为当执行1更多任务时,再转移任务出现的比例降低,这个算法再非常高的工作负载的情况下较为有效。而算法1(DRLOSM)随着工作负载的增加,会消耗更多的能源,因为它能够通过调度更多具有较高能耗的任务来避免队列的快速增长,从而保持相对较小的总体成本。
右上角的图比较了平均成本。当工作负载比较小时算法6(EG)表现尚可。对于较大的工作负载,算法5(TG)表现优于其他基准算法。但是算法1(DRLOSM)在所有的工作负载条件下都表现最好。
右下角的图比较了平均再转移任务数,可以发现只有在较大的工作负载下,算法1开始出现任务的再转移,明显优于出算法6(EG)以外的其他算法。综合四张图来看,算法1(DRLOSM)的表现明显是比其他的基准的算法好的。
本发明的有益效果为:
本发明公开了一种基于深度强化学习的车辆边缘计算转移调度方法,利用马尔可夫决策过程,针对车辆在高速公路移动的场景精确建模,并采用深度强化学习找到这个场景下的车辆边缘计算转移调度方案的最佳策略;在训练深度强化学习时,通过使用近端策略优化方法,使用卷积结构提取任务对应的特征量,调整状态和奖励的表示方式等,改善了网络的收敛性能,使得在动态环境和复杂任务的情况下,实现在较长时间内消耗的时间和能量都最小化。
Claims (9)
1.一种基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,包括以下步骤:
S1、对车辆边缘计算转移调度问题进行建模,并确定其优化目标;
S2、将实际车辆边缘计算场景下的优化目标运用到马尔可夫决策过程中,得到对应的状态空间;
S3、将状态空间输入到训练好的DNN网络中,得到车辆边缘计算时的价值函数和转移调度策略;
di为任务Ji的输入数据大小;
ki为任务Ji的计算体积比;
所述步骤S1中的建模方法具体为:
S11、基于车辆终端预测的数据速率,确定两种数据计算模式下的能量消耗和时间消耗;
其中,数据计算模式包括本地计算和边缘计算服务器计算;
S12、基于两种数据计算模式下的能量消耗和时间消耗,计算任务队列中的任意任务的资源消耗总量;
S13、基于计算的资源消耗总量,确定车辆边缘计算转移调度问题的优化目标。
2.根据权利要求1所述的基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,所述步骤S11中,在任意时间间隙t中,车辆终端预测的数据速率r[t]满足的条件为:
式中,ttx(v,t)为传输大小为v的数据所需要的时间,括号中的t为开始传输的时间;
s为指代时间t的变量;
r[s]为在时间s开始传输数据时能够成功传输的数据大小;
v为传输的数据大小;
在所述步骤S11中:
式中,fl为本地处理器的频率;
式中,pl为本地服务器的功率,且pl=ξ(fl)v,ξ为常数,
式中,ptx为数据传输消耗的功率;
式中,α、β均为资源消耗的控制参数;
所述步骤S13中的优化目标为:
4.根据权利要求3所述的基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,在t时刻,本地服务器完成当前任务所需要的剩余CPU周期数slpu的更新式为:
slpu[t]=max{slpu[t-1]-fl,0}
当slpu[t]=0时,本地计算服务器处于空闲状态,可以接受新的数据计算任务;
在t时刻,需要传输给边缘计算服务器的任务的剩余数据量sdtu[t]为:
sdtu[t]=max{sdtu[t-1]-r[t-1],0}
式中,r[t-1]为t-1时刻的数据速率;
在t时刻,边缘计算服务器完成转移调度之后的任务所需的CPU周期数smec为:
smec[t]=max{smec[t-1]-fs,0}。
5.根据权利要求4所述的基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,所述步骤S3中DNN网络包括输入层、spilt操作、卷积单元、Concat操作、第一全连接层、第二全连接层、第三全连接层和softmax层;
所述输入层的输出端与spilt操作输入端连接,所述spilt操作的第一输出端与卷积单元的输入端连接,所述spilt操作的第二输出端和卷积单元的输出端均与Concat操作的输入端连接,所述Concat操作的输出端依次与级联的第一全连接层和第二全连接层连接,所述第二全连接层的第一输出端第三连接层的输入端连接,所述第二全连接层的第二输出端端与所述softmax层的输入端连接;
所述输入层的输入为状态空间S;
所述spilt操作将输入的状态空间拆分为任务队列Q和其他状态,并将所述任务队列Q输入到卷积单元中,将其他状态暂时存储,并在卷积单元的操作执行完成后输入到Concat操作;
所述卷积单元用于提取任务队列Q的特征;
所述Concat操作用于将提取的任务队列Q的特征和其他状态连接;
所述第一全连接层和第二全连接层用于对输入数据进行归一化处理;
所述第三全连接层用于输出价值函数;
所述softmax层用于输出转移调度策略。
6.根据权利要求5所述的基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,所述步骤S3中,通过近端策略优化算法对DNN网络进行训练,其训练目标函数为:
clip(·)为用于限制rn范围的函数;
ε为超参数,即对于rn(θ),超出[1-ε,1+ε]范围的值都会去除;
c为损耗系数;
vπ为真正的价值函数;
v(sn;θ)为价值网络,当网络参数为θ时,对应的状态为sn。
9.根据权利要求8所述的基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,在所述DNN网络的训练过程中,通过在动作空间和状态空间加入限制参数来提高DNN网络的收敛速度;
其中,限制后的动作空间中的HO为:
式中,pg为限制HO操作的粗细粒度参数,m为粗细粒度参数的系数,且mpg≤phmax,phmax为限制HO操作的最大等待时间参数;
限制后的动作空间中的Lε为:
限制后的动作空间中的Rε为:
式中,psmax为LE和RE操作的序列数目,且psmax<Q;
所述状态空间加入限制参数的方法为:根据状态空间中的当前任务队列长度在其奖励中加入惩罚项kqq[t]u,其中,q[t]为在t时刻在队列中等待的任务数目,kq、u均为任务队列中的等待任务的控制参数,kq和u的取值与状态空间中的等待的任务长度成反比。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911310491.9A CN110989614B (zh) | 2019-12-18 | 2019-12-18 | 一种基于深度强化学习的车辆边缘计算转移调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911310491.9A CN110989614B (zh) | 2019-12-18 | 2019-12-18 | 一种基于深度强化学习的车辆边缘计算转移调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110989614A CN110989614A (zh) | 2020-04-10 |
CN110989614B true CN110989614B (zh) | 2020-10-30 |
Family
ID=70095392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911310491.9A Active CN110989614B (zh) | 2019-12-18 | 2019-12-18 | 一种基于深度强化学习的车辆边缘计算转移调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110989614B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111835827B (zh) * | 2020-06-11 | 2021-07-27 | 北京邮电大学 | 物联网边缘计算任务卸载方法及系统 |
CN113271338B (zh) * | 2021-04-25 | 2022-04-12 | 复旦大学 | 一种移动增强现实场景的智能预加载方法 |
CN114745396B (zh) * | 2022-04-12 | 2024-03-08 | 广东技术师范大学 | 一种基于多智能体的端边云3c资源联合优化方法 |
CN115599125B (zh) * | 2022-12-14 | 2023-04-07 | 电子科技大学 | 一种基于边缘计算的助航灯光控制策略选择方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145387A (zh) * | 2017-05-23 | 2017-09-08 | 南京大学 | 一种车载网环境下基于深度强化学习的任务调度方法 |
CN108632861A (zh) * | 2018-04-17 | 2018-10-09 | 浙江工业大学 | 一种基于深度强化学习的移动边缘计算分流决策方法 |
CN109756378A (zh) * | 2019-01-12 | 2019-05-14 | 大连理工大学 | 一种车载网络下的智能计算卸载方法 |
CN110070181A (zh) * | 2019-04-30 | 2019-07-30 | 深圳朴生智能科技有限公司 | 一种用于边缘计算设备的深度学习的优化方法 |
CN110347495A (zh) * | 2019-07-24 | 2019-10-18 | 张�成 | 一种使用深度强化学习进行移动边缘计算的任务迁移方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427261A (zh) * | 2019-08-12 | 2019-11-08 | 电子科技大学 | 一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法 |
-
2019
- 2019-12-18 CN CN201911310491.9A patent/CN110989614B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145387A (zh) * | 2017-05-23 | 2017-09-08 | 南京大学 | 一种车载网环境下基于深度强化学习的任务调度方法 |
CN108632861A (zh) * | 2018-04-17 | 2018-10-09 | 浙江工业大学 | 一种基于深度强化学习的移动边缘计算分流决策方法 |
CN109756378A (zh) * | 2019-01-12 | 2019-05-14 | 大连理工大学 | 一种车载网络下的智能计算卸载方法 |
CN110070181A (zh) * | 2019-04-30 | 2019-07-30 | 深圳朴生智能科技有限公司 | 一种用于边缘计算设备的深度学习的优化方法 |
CN110347495A (zh) * | 2019-07-24 | 2019-10-18 | 张�成 | 一种使用深度强化学习进行移动边缘计算的任务迁移方法 |
Non-Patent Citations (2)
Title |
---|
Deep Reinforcement Learning Based Offloading Scheme for Mobile Edge Computing;Yao Pengfei等;《2019 IEEE International Conference on Smart Internet of Things》;20190811;第417-421页 * |
Multiuser Resource Control With Deep;Lei Lei等;《IEEE INTERNET OF THINGS JOURNAL》;20190815;第10119-10133页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110989614A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110989614B (zh) | 一种基于深度强化学习的车辆边缘计算转移调度方法 | |
CN108920280B (zh) | 一种单用户场景下的移动边缘计算任务卸载方法 | |
CN113612843B (zh) | 一种基于深度强化学习的mec任务卸载和资源分配方法 | |
CN110557732B (zh) | 一种车辆边缘计算网络任务卸载负载均衡系统及均衡方法 | |
US11784931B2 (en) | Network burst load evacuation method for edge servers | |
CN114189892A (zh) | 一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法 | |
CN113485826B (zh) | 一种边缘服务器负载均衡方法、系统 | |
CN114205353B (zh) | 一种基于混合动作空间强化学习算法的计算卸载方法 | |
CN111884947B (zh) | 一种在接收端基于信息年龄的数据包管理方法 | |
CN115686779A (zh) | 基于dqn的自适应边缘计算任务调度方法 | |
CN116366576A (zh) | 算力网络资源调度方法、装置、设备及介质 | |
CN114706631B (zh) | 基于深度q学习的移动边缘计算中卸载决策方法及系统 | |
CN112835684B (zh) | 一种面向移动边缘计算的虚拟机部署方法 | |
CN116954866A (zh) | 基于深度强化学习的边缘云下任务调度方法及系统 | |
Tao et al. | DRL-Driven Digital Twin Function Virtualization for Adaptive Service Response in 6G Networks | |
CN113821270B (zh) | 任务卸载顺序预测方法、决策方法、电子设备及存储介质 | |
CN114942799B (zh) | 云边环境下基于强化学习的工作流调度方法 | |
CN115413044A (zh) | 一种工业无线网络的计算和通信资源联合分配方法 | |
CN113452625B (zh) | 基于深度强化学习的卸载调度与资源分配方法 | |
CN115016932A (zh) | 一种基于嵌入式的分布式深度学习模型资源弹性调度方法 | |
CN111830826B (zh) | 一种网络化双模自适应时域模型控制方法及系统 | |
CN117834643B (zh) | 一种面向工业物联网的深度神经网络协同推理方法 | |
CN113114585B (zh) | 任务迁移与网络传输联合优化的方法、设备及存储介质 | |
CN117155792B (zh) | 一种芯粒间通信动态带宽调整方法及系统 | |
CN115114030B (zh) | 一种基于强化学习的在线多工作流调度方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |