CN110989614B - 一种基于深度强化学习的车辆边缘计算转移调度方法 - Google Patents

一种基于深度强化学习的车辆边缘计算转移调度方法 Download PDF

Info

Publication number
CN110989614B
CN110989614B CN201911310491.9A CN201911310491A CN110989614B CN 110989614 B CN110989614 B CN 110989614B CN 201911310491 A CN201911310491 A CN 201911310491A CN 110989614 B CN110989614 B CN 110989614B
Authority
CN
China
Prior art keywords
task
time
data
transfer scheduling
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911310491.9A
Other languages
English (en)
Other versions
CN110989614A (zh
Inventor
骆春波
罗杨
王亚宁
刘翔
徐加朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201911310491.9A priority Critical patent/CN110989614B/zh
Publication of CN110989614A publication Critical patent/CN110989614A/zh
Application granted granted Critical
Publication of CN110989614B publication Critical patent/CN110989614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0287Control of position or course in two dimensions specially adapted to land vehicles involving a plurality of land vehicles, e.g. fleet or convoy travelling
    • G05D1/0291Fleet control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的车辆边缘计算转移调度方法,利用马尔可夫决策过程,针对车辆在高速公路移动的场景精确建模,并采用深度强化学习找到这个场景下的车辆边缘计算转移调度方案的最佳策略;在训练深度强化学习时,通过使用近端策略优化方法,使用卷积结构提取任务对应的特征量,调整状态和奖励的表示方式等,改善了网络的收敛性能,使得在动态环境和复杂任务的情况下,在特定的时间‑能量偏好下实现在较长时间内消耗的时间和能量最小化。

Description

一种基于深度强化学习的车辆边缘计算转移调度方法
技术领域
本发明属于车辆边缘计算技术领域,具体涉及一种基于深度强化学习的车辆边缘计算转移调度方法。
背景技术
物联网技术的快速发展为车辆行驶带来了一系列的应用技术,如自动驾驶技术,增强现实技术等,这些应用技术需要计算资源、宽带宽、低延迟等条件。对于一个车辆终端来说,计算资源和能量都是有限的,车辆边缘计算可以有效的解决这一问题,将一些需要计算资源的任务转移到路旁的服务器单元可以有效减少车辆终端的计算资源消耗和能量消耗,同时这个任务转移的过程也不会带来很高的延迟。
但是转移数据也需要能量和时间,并不是转移任务就一定节省时间和能量,因此转移到路旁的服务器单元计算还是直接在本地的处理单元计算是一个关键的决策问题,利用深度强化学习解决这个决策问题是一个比较好的选择。
一些技术已经采用深度强化学习来解决一些转移调度问题,比较经典的有利用一种基于深度Q学习的算法来解决转移调度问题。但是对于车载应用,需要深度强化学习支持不同大小的任务和计算体积,转移任务的多样性和动态的环境使得经典的算法并不适用。
发明内容
针对现有技术中的上述不足,本发明提供的基于深度强化学习的车辆边缘计算转移调度方法解决了现有车辆边缘计算的转移调度方法不能适用于动态环境且转移任务复杂情况的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于深度强化学习的车辆边缘计算转移调度方法,包括以下步骤:
S1、对车辆边缘计算转移调度问题进行建模,并确定其优化目标;
S2、将实际车辆边缘计算场景下的优化目标运用到马尔可夫决策过程中,得到对应的状态空间;
S3、将状态空间输入到训练好的DNN网络中,得到车辆边缘计算时的价值函数和转移调度策略。
进一步地,所述步骤S1中,通过将车辆边缘计算转移调度问题中的任务建模成泊松过程,且在每个时间间隙内都会有任务到达;其中,任务队列中第i个任务Ji
Figure BDA0002324382410000021
时间t时排在任务队列中第j个等待的任务Q[t]<j>为
Figure BDA0002324382410000022
式中,
Figure BDA0002324382410000023
表示任务Ji的生成时间;
di为任务Ji的输入数据大小;
ki为任务Ji的计算体积比;
所述步骤S1中的建模方法具体为:
S11、基于车辆终端预测的数据速率,确定两种数据计算模式下的能量消耗和时间消耗;
其中,数据计算模式包括本地计算和边缘计算服务器计算;
S12、基于两种数据计算模式下的能量消耗和时间消耗,计算任务队列中的任意任务的资源消耗总量;
S13、基于计算的资源消耗总量,确定车辆边缘计算转移调度问题的优化目标。
进一步地,所述步骤S11中,在任意时间间隙t中,车辆终端预测的数据速率r[t]满足的条件为:
Figure BDA0002324382410000031
式中,ttx(v,t)为传输大小为v的数据所需要的时间,括号中的t为开始传输的时间;
s为指代时间t的变量;
r[s]为在时间s开始传输数据时能够成功传输的数据大小;;
v为传输的数据大小;
在所述步骤S11中:
本地计算的时间消耗
Figure BDA0002324382410000032
为:
Figure BDA0002324382410000033
式中,fl为本地处理器的频率;
Figure BDA0002324382410000034
为向上取整运算符;
所述本地计算的能量消耗为
Figure BDA0002324382410000035
Figure BDA0002324382410000036
式中,pl为本地服务器的功率,且pl=ξ(fl)v,ξ为常数,
所述边缘计算服务器的计算时间消耗
Figure BDA0002324382410000037
为:
Figure BDA0002324382410000038
式中,
Figure BDA0002324382410000039
为无线数据传输时间,,为从
Figure BDA00023243824100000310
时刻开始传输任务数据,将任务数据传输到边缘计算服务器上需要的时间,且
Figure BDA00023243824100000311
下标i为任务的序列编号;
Figure BDA00023243824100000312
在车辆边缘计算服务器上的计算时间,且
Figure BDA00023243824100000313
fs为边缘计算服务器的频率;
所述边缘计算服务器计算的能量消耗
Figure BDA00023243824100000314
为:
Figure BDA0002324382410000041
式中,ptx为数据传输消耗的功率;
所述步骤S12中,任意车辆边缘计算任务的资源消耗总量
Figure BDA0002324382410000042
为:
Figure BDA0002324382410000043
式中,α、β均为资源消耗的控制参数;
Figure BDA0002324382410000044
表示任务队列中一个任务的总的等待时间,ai为计算模式控制变量,当ai=1时,表示采用边缘计算服务器计算,当ai=0时,表示采用本地服务器计算;
Figure BDA0002324382410000045
表示一个队列中任务的能量消耗;
所述步骤S13中的优化目标为:
Figure BDA0002324382410000046
式中,
Figure BDA0002324382410000047
n0为执行决策时所选择的动作总数。
进一步地,所述步骤S2中的基于马尔可夫决策过程得到的状态空间为:
Figure BDA0002324382410000048
式中,Q为任务队列;
x,d分别为车辆当前位置以及其与最近的边缘计算服务器单元的距离;
slpu为本地服务器完成当前任务所需要的剩余CPU周期数;
sdtu为需要传输给边缘计算服务器的任务的剩余数据量;
smec为边缘计算服务器完成转移调度之后的任务所需的CPU周期数;
所述slpu、sdtu和smec均随着车辆边缘计算的转移调度策略实时更新。
进一步地,在t时刻,本地服务器完成当前任务所需要的剩余CPU周期数slpu的更新式为:
slpu[t]=max{slpu[t-1]-fl,0}
当slpu[t]=0时,本地计算服务器处于空闲状态,可以接受新的数据计算任务;
在t时刻,需要传输给边缘计算服务器的任务的剩余数据量sdtu[t]为:
sdtu[t]=max{sdtu[t-1]-r[t-1],0}
式中,r[t-1]为t-1时刻的数据速率;
在t时刻,边缘计算服务器完成转移调度之后的任务所需的CPU周期数smec为:
smec[t]=max{smec[t-1]-fs,0}。
进一步地,所述步骤S3中DNN网络包括输入层、spilt操作、卷积单元、Concat操作、第一全连接层、第二全连接层、第三全连接层和softmax层;
所述输入层的输出端与spilt操作输入端连接,所述spilt操作的第一输出端与卷积单元的输入端连接,所述spilt操作的第二输出端和卷积单元的输出端均与Concat操作的输入端连接,所述Concat操作的输出端依次与级联的第一全连接层和第二全连接层连接,所述第二全连接层的第一输出端第三连接层的输入端连接,所述第二全连接层的第二输出端端与所述softmax层的输入端连接;
所述输入层的输入为状态空间S;
所述spilt操作将输入的状态空间拆分为任务队列Q和其他状态,并将所述任务队列Q输入到卷积单元中,将其他状态暂时存储,并在卷积单元的操作执行完成后输入到Concat操作;
所述卷积单元用于提取任务队列Q的特征;
所述Concat操作用于将提取的任务队列Q的特征和其他状态连接;
所述第一全连接层和第二全连接层用于对输入数据进行归一化处理;
所述第三全连接层用于输出价值函数;
所述softmax层用于输出转移调度策略。
进一步地,所述步骤S3中,通过近端策略优化算法对DNN网络进行训练,其训练目标函数为:
Figure BDA0002324382410000061
式中,
Figure BDA0002324382410000062
为求数学期望函数,下标n1为抽取的样本数量;
rn(θ)为策略概率比,且
Figure BDA0002324382410000063
sn为状态空间S中的一个状态,an为针对状态sn采取的策略,θ为DNN网络参数,θold为更新前的网络参数,π(·)为随机策略函数,下标n为时间步长;
Figure BDA0002324382410000064
为在时间步为n的广义优势估计函数;
clip(·)为用于限制rn范围的函数;
ε为超参数,即对于rn(θ),超出[1-ε,1+ε]范围的值都会去除;
c为损耗系数;
vπ为真正的价值函数;
v(sn;θ)为价值网络,当网络参数为θ时,对应的状态sn
进一步地,在所述DNN网络的训练过程中,使整个DNN网络在数据采样和网络优化之间交替进行;
所述数据采样阶段:预先计算每个轨迹中每个步长n的广义优势估计,并基于计算出的广义优势估计
Figure BDA0002324382410000065
函数,按照前一阶段的网络参数对N个轨迹进行采样,并将采样数据缓存用于下一网络优化阶段;
其中,N为采样的最大数目,N个轨迹是指状态控制以及对应的动作空间、策略概率比的集合;
所述网络优化阶段:通过K次迭代更新策略函数中的参数,并在每次迭代中,都基于上一数据采样阶段缓存的采样数据使用随机梯度下降法进行网络优化。
进一步地,所述DNN网络中的动作空间为:
Figure BDA0002324382410000071
式中,Lε、Rε和HO分别为在本地服务器计算操作的策略集合、在边缘计算服务器计算操作的策略集合和保存原样等待操作的策略集合;
其中,
Figure BDA0002324382410000072
Figure BDA0002324382410000073
Figure BDA0002324382410000074
下标
Figure BDA0002324382410000075
为任务队列中的任务数目。
进一步地,在所述DNN网络的训练过程中,通过在动作空间和状态空间加入限制参数来提高DNN网络的收敛速度;
其中,限制后的动作空间中的HO为:
Figure BDA0002324382410000076
式中,pg为限制HO操作的粗细粒度参数,m为粗细粒度参数的系数,且mpg≤phmax,phmax为限制HO操作的最大等待时间参数;
限制后的动作空间中的Lε为:
Figure BDA0002324382410000077
限制后的动作空间中的Rε为:
Figure BDA0002324382410000078
式中,psmax为LE和RE操作的序列数目,且psmax<Q;
所述状态空间加入限制参数的方法为:根据状态空间中的当前任务队列长度在其奖励中加入惩罚项kqq[t]u,其中,q[t]为在t时刻在队列中等待的任务数目,kq、u均为任务队列中的等待任务的控制参数,kq和u的取值与状态空间中的等待的任务长度成反比。
本发明的有益效果为:
本发明公开了一种基于深度强化学习的车辆边缘计算转移调度方法,利用马尔可夫决策过程,针对车辆在高速公路移动的场景精确建模,并采用深度强化学习找到这个场景下的车辆边缘计算转移调度方案的最佳策略;在训练深度强化学习时,通过使用近端策略优化方法,使用卷积结构提取任务对应的特征量,调整状态和奖励的表示方式等,改善了网络的收敛性能,使得在动态环境和复杂任务的情况下,实现在较长时间内消耗的时间和能量都最小化。
附图说明
图1为本发明提供的基于深度强化学习的车辆边缘计算转移调度方法流程图。
图2为本发明提供的车辆边缘计算转移调度建模的场景结构示意图。
图3为本发明提供的DNN(强化深度学习)网络结构示意图。
图4为本发明提供的实施例中在静态条件下本发明方法与其他基准方法的比较示意图。
图5为本发明提供的实施例中在动态条件下本发明方法与其他基准方法的比较示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于深度强化学习的车辆边缘计算转移调度方法,包括以下步骤:
S1、对车辆边缘计算转移调度问题进行建模,并确定其优化目标;
S2、将实际车辆边缘计算场景下的优化目标运用到马尔可夫决策过程中,得到对应的状态空间;
S3、将状态空间输入到训练好的DNN网络中,得到车辆边缘计算时的价值函数和转移调度策略。
如图2所示,在上述步骤S1中,通过将车辆边缘计算转移调度问题中的任务建模成泊松过程,且在每个时间间隙内都会有任务到达;其中,任务队列中第i个任务Ji
Figure BDA0002324382410000091
时间t时排在任务队列中第j个等待的任务Q[t]<j>为
Figure BDA0002324382410000092
式中,
Figure BDA0002324382410000093
表示任务Ji的生成时间;
di为任务Ji的输入数据大小,单位是bit;
ki为任务Ji的计算体积比,单位是CPU周期/bit;
步骤S1中的建模方法具体为:
S11、基于车辆终端预测的数据速率,确定两种数据计算模式下的能量消耗和时间消耗;
其中,数据计算模式包括本地计算和边缘计算服务器计算;
S12、基于两种数据计算模式下的能量消耗和时间消耗,计算任务队列中的任意任务的资源消耗总量;
S13、基于计算的资源消耗总量,确定车辆边缘计算转移调度问题的优化目标。
具体地,在上述步骤S11中,关于数据的传输过程,在任何的时间间隙t,车辆终端都可以获得关于信道摔落系数的一定的先验知识,并预测一个数据速率r[t](单位为bit/时间间隙),这个数速率应该满足的条件为:
Figure BDA0002324382410000101
式中,ttx(v,t)为传输大小为v的数据所需要的时间,括号中的t为开始传输的时间;
s为指代时间t的变量;
r[s]为在时间s开始传输数据时能够成功传输的数据大小;;
v为传输的数据大小;
步骤S11中的本地计算的时间消耗
Figure BDA0002324382410000102
为:
Figure BDA0002324382410000103
式中,fl为本地处理器的频率,单位为单位周期/时间间隙;
Figure BDA0002324382410000104
为向上取整运算符;
本地计算的能量消耗为
Figure BDA0002324382410000105
Figure BDA0002324382410000106
式中,pl为本地服务器的功率,且pl=ξ(fl)v,ξ为常数,
边缘计算服务器计算的时间包括两部分:无线数据传输时间以及在服务器上的计算时间,无线传输时间为:
Figure BDA0002324382410000107
式中,
Figure BDA0002324382410000108
为从
Figure BDA0002324382410000109
时刻开始传输任务数据,将任务数据传输到边缘计算服务器上需要的时间,下标i为任务的序列编号;
在服务器上的计算时间为:
Figure BDA00023243824100001010
式中,fs为边缘计算服务器的频率;
因此,对于一个任务,边缘计算服务器计算的时间消耗
Figure BDA0002324382410000111
为:
Figure BDA0002324382410000112
由于边缘计算服务器的计算过程不消耗车辆终端的能量,因此这种方式消耗的能量只有传输数据消耗的能量,得到边缘计算服务器的能量消耗
Figure BDA0002324382410000113
为:
Figure BDA0002324382410000114
式中,ptx为数据传输消耗的功率;
对于一个任务队列中等待的任务,完成任务要消耗的时间可以表示为:
Figure BDA0002324382410000115
Figure BDA0002324382410000116
其中,
Figure BDA0002324382410000117
表示任务队列中一个任务的总的等待时间,ai为计算模式控制变量,当ai=1时,表示采用边缘计算服务器计算,当ai=0时,表示采用本地服务器计算;因此,
Figure BDA0002324382410000118
为任务计算所需的时间,
Figure BDA0002324382410000119
为任务的等待时间;同理,可以得到一个队列中的任务消耗的能量为:
Figure BDA00023243824100001110
因此,步骤S12中,任意车辆边缘计算任务的资源消耗总量
Figure BDA00023243824100001111
为:
Figure BDA00023243824100001112
式中,α、β均为资源消耗的控制参数;
Figure BDA00023243824100001113
表示任务队列中一个任务的总的等待时间,ai为计算模式控制变量,当ai=1时,表示采用边缘计算服务器计算,当ai=0时,表示采用本地服务器计算;
Figure BDA00023243824100001114
表示一个队列中任务的能量消耗;
步骤S13中的优化目标为:
Figure BDA00023243824100001115
式中,
Figure BDA0002324382410000121
n0为执行决策时所选择的动作总数。
上述步骤S2中,将S1中的优化目标运用到马尔可夫决策过程的动态模型中时,基于马尔可夫决策过程得到的状态空间为:
Figure BDA0002324382410000122
式中,Q为任务队列;
x,d分别为车辆当前位置以及其与最近的边缘计算服务器单元的距离;
slpu为本地服务器完成当前任务所需要的剩余CPU周期数;
sdtu为需要传输给边缘计算服务器的任务的剩余数据量;
smec为边缘计算服务器完成转移调度之后的任务所需的CPU周期数;
slpu、sdtu和smec均随着车辆边缘计算的转移调度策略实时更新;
其中,在t时刻,本地服务器完成当前任务所需要的剩余CPU周期数slpu的更新式为:
slpu[t]=max{slpu[t-1]-fl,0}
当slpu[t]=0时,本地计算服务器处于空闲状态,可以接受新的数据计算任务;
在t时刻,需要传输给边缘计算服务器的任务的剩余数据量sdtu[t]为:
sdtu[t]=max{sdtu[t-1]-r[t-1],0}
式中,r[t-1]为t-1时刻的数据速率;
在t时刻,边缘计算服务器完成转移调度之后的任务所需的CPU周期数smec为:
smec[t]=max{smec[t-1]-fs,0}。
另外,马尔可夫决策过程中的动作空间A将作为后续DNN网络中的参数,对输入的空间状态进行决策,形成完整的转移调度策略;
具体地,马尔可夫决策过程中的动作空间A为:
Figure BDA0002324382410000131
式中,Lε、Rε和HO分别为在本地服务器计算操作的策略集合、在边缘计算服务器计算操作的策略集合和保存原样等待操作的策略集合;
其中,
Figure BDA0002324382410000132
Figure BDA0002324382410000133
Figure BDA0002324382410000134
在每个时间间隙,车辆终端的所有任务的总时间延迟可以表示为:
Figure BDA0002324382410000135
如果任务在本地进行,则
Figure BDA0002324382410000136
如果任务在转移调度的过程中,
Figure BDA0002324382410000137
Figure BDA0002324382410000138
的值为1。因此在执行过动作an后,从状态Sn到Sn+1的总时延为:
Figure BDA0002324382410000139
总的能量消耗为:
Figure BDA00023243824100001310
Figure BDA00023243824100001311
由于系统具有动态工作负载,如果任务到达率相对于调度速度来说比较大,那么可能会发生溢出。因此,我们考虑了由于任务溢出带来的开销Δo(sn,an,sn+1),从而总的开销表示为:
Figure BDA00023243824100001312
式中,ξ为任务溢出的乘法参数;
α和β为根据低延迟或者低能量消耗需求进行调节。
关于马尔可夫决策过程的奖励函数可以表示为:
Figure BDA00023243824100001313
式中,ks是调节奖励范围的参数;
对于一个从状态sm开始的马尔可夫链来说,完整的奖励函数可以写成:
Figure BDA0002324382410000141
式中,γ为折现系数,取值范围为(0,1]。
如图3所示,上述步骤S3中的中DNN网络包括输入层、spilt操作、卷积单元、Concat操作、第一全连接层、第二全连接层、第三全连接层和softmax层;输入层的输出端与spilt操作输入端连接,spilt操作的第一输出端与卷积单元的输入端连接,spilt操作的第二输出端和卷积单元的输出端均与Concat操作的输入端连接,Concat操作的输出端依次与级联的第一全连接层和第二全连接层连接,第二全连接层的第一输出端第三连接层的输入端连接,第二全连接层的第二输出端端与softmax层的输入端连接;
其中,输入层的输入为状态空间S;
spilt操作将输入的状态空间拆分为任务队列Q和其他状态,并将任务队列Q输入到卷积单元中,将其他状态暂时存储,并在卷积单元的操作执行完成后输入到Concat操作;
卷积单元用于提取任务队列Q的特征;
Concat操作用于将提取的任务队列Q的特征和其他状态连接;
第一全连接层和第二全连接层用于对输入数据进行归一化处理;
第三全连接层用于输出价值函数;
softmax层用于输出转移调度策略。
其中第三全连接层与前面的网络结构一起形成价值网络,用于输出价值函数v(sn;w);softmax层与前面的网络结构一起形成测量网络,用于输出转移调度策略π(an|Sn;θ)。
具体地,在网络训练过程中主要是为了得到两个目标:价值函数v(sn;w)和转移调度策略π(an|Sn;θ),二者都是以状态空间S为输入,但是输出不一致。我们使用参数共享的DNN网络架构,但是在第二全连接层后,对于策略网络,使用softmax层输出所有操作的概率分布,对于价值网络,使用全连接层输出状态。由于状态空间中的大多数数据都是描述任务队列Q的,因此我们在DNN网络中嵌入一个卷积单元在提取队列的Q的特征,之后再与状态空间中的其他参数连接在一起送到全连接层。在训练过程通过近端策略优化算法对DNN网络进行训练,其训练目标函数为:
Figure BDA0002324382410000151
式中,
Figure BDA0002324382410000152
为求数学期望函数,下标n1为抽取的样本数量;
rn(θ)为策略概率比,且
Figure BDA0002324382410000153
sn为状态空间S中的一个状态,an为针对状态sn采取的策略,θ为DNN网络参数,θold为更新前的网络参数,π(·)为随机策略函数,下标n为时间步长;
Figure BDA0002324382410000154
为在时间步为n的广义优势估计函数;
clip(·)为用于限制rn范围的函数;
ε为超参数,即对于rn(θ),超出[1-ε,1+ε]范围的值都会去除;
c为损耗系数;
vπ为真正的价值函数;
v(sn;θ)为价值网络,当网络参数为θ时,对应的状态为sn
在具体的DNN网络的训练过程中,使整个DNN网络在数据采样和网络优化之间交替进行;
数据采样阶段:预先计算每个轨迹中每个步长n的广义优势估计,并基于计算出的广义优势估计函数
Figure BDA0002324382410000155
按照前一阶段的网络参数对N个轨迹进行采样,并将采样数据缓存用于下一网络优化阶段;
其中,N为采样的最大数目,N个轨迹是指状态控制以及对应的动作空间、策略概率比的集合{S0,a0,a0,S1,...,Sn};
网络优化阶段:通过K次迭代更新策略函数中的参数,并在每次迭代中,都基于上一数据采样阶段缓存的采样数据使用随机梯度下降法进行网络优化。在优化结束后,旧的策略(前一阶段中的网络参数)就被完全更新,然后删除缓存的数据,下一次循环开始。
在DNN网络训练过程中,状态空间和动作空间过大将会导致网络难以收敛,为了解决这个问题,通过在动作空间和状态空间加入限制参数来提高DNN网络的收敛速度;
其中,限制后的动作空间中的HO为:
Figure BDA0002324382410000161
式中,pg为限制HO操作的粗细粒度参数,m为粗细粒度参数的系数,且mpg≤phmax,phmax为限制HO操作的最大等待时间参数;
限制后的动作空间中的Lε为:
Figure BDA0002324382410000162
限制后的动作空间中的Rε为:
Figure BDA0002324382410000163
式中,psmax为LE和RE操作的序列数目,且psmax<Q;
我们认为在任务队列中有大量任务在等待状态是不合理的,这有可能导致认为溢出和效率降低;因此,在状态空间加入限制参数的方法为:根据状态空间中的当前任务队列长度在其奖励中加入惩罚项kqq[t]u,其中,q[t]为在t时刻在队列中等待的任务数目,kq、u均为任务队列中的等待任务的控制参数,kq和u的取值与状态空间中的等待的任务长度成反比。
实施例2:
本发明实施例中给出了DNN网络的相关参数设置值;
表1:DNN网络训练时的参数设置
Figure BDA0002324382410000171
表2:DNN网络训练时的超参数设置
Figure BDA0002324382410000172
Figure BDA0002324382410000181
表3:DNN网络结构参数设置
Figure BDA0002324382410000182
需要说明的是,表3中参数设置与图3中的DNN网络对应,其中卷积单元的参数比较固定,而全连接层和softmax层是与具体的任务维度相关的,需要根据任务队列长度进行调整,对于长度为20的任务对应,全连接层的最后输出维度设定为512。
实施例3:
在本发明实施例中,提供了本发明方法与其他基准算法的比较示意图;
图4为本发明在静态条件下与其他基准算法的比较,其中DRLOSM(DRL-basedoffloading scheduling method)是本发明方法,图例为算法1,RD(Random offloading)指随机转移到边缘计算服务器执行,图例为算法2,AL(All local excution)指全部本地执行,图例为算法3,AO(All offloading)指全部转移到边缘计算服务器执行,图例为算法4,TG(Time greedy)指时间贪婪策略,图例为算法5,EG(Energygreedy)指能量贪婪策略,图例为算法6,GA(Genetic Algorithm)指遗传算法,图例为算法7。
图4中左上角的图展示的是在静态条件不同算法的平均花费随着α的变化。我们可以看到算法2(RD),算法3(AL),算法4(AO)的平均成本总是非常高,因为这些算法的逻辑十分的简单,行为非常不灵活。当α比较小时,意味着我们比较看重能量的消耗,因此算法6(EG)表现较好,但是随着α的增加,变现逐渐变差,并被算法5(TG)超过。当α比较小时,算法7(GA)的搜索空间非常大,因此容易表现较差。而算法1(DRLOSM)在不同的α条件下(DRLOSM)表现都不错。
左下角的图展示了平均再转移任务数随着α的变化。任务再转移是由转移失败引起的。对于算法3(AL)和算法6(EG)来说,他们不会发生转移失败。算法4(AO)的平均再转移任务数最多,因为他总是要上传到服务器进行计算,即使加上随机性之后依旧表现很差(例如算法2(RD)),即使是算法7(GA),也存在很多转移失败。而算法1(DRLOSM)可以通过恰当的选取动作来避免任务转移失败。
右边的两张图分别展示了不同算法的时间延迟和能量消耗的情况。非常明显的,算法6(EG)总是有最小的能量消耗,但是时延最大。算法5(TG)总是有最小的时间延迟,但是能量消耗较大。算法1(DRLOSM)和算法7(GA)变现了一种较好的均衡,但是正如之前说的,由于搜索空间巨大,算法7(GA)不一定能1找到一个好的解决方案。综合下来,算法1(DRLOSM)变现更好。
图5为本发明动态条件下与其他基准算法的比较,由于遗传算法在动态条件下表现很差,因此不做比较。
图5中的四张图对应的α为0.06,β为1。对于每张图的测试都是将工作负载从0.1逐渐提升到1,代表着从几乎没有任务到任务溢出。
对于左上角的图,随着工作负载的增加,所有算法的平均任务延迟都在增加,对于算法6(EG),算法3(AL),算法4(AO),算法2(RD)来说都会在某一个阶段陡增,这是因为这些算法无法根据工作负载进行调整,当工作负载足够大时就会导致任务再任务队列里堆积。与预料相一致的,算法5(TG)总是有最小的时间延迟,算法6(EG)总是有最大的时间延迟。而算法1(DRLOSM)则是实现了较小的时间延迟,性能曲线较为平滑,意味着它可以根据工作负载进行策略的调整。
对于左下角的图,可以看出,算法2(RD),算法3(AL),算法4(AO),算法6(EG)与工作负载几乎无关,证明它们是不会根据工作负载进行策略调整的。算法5(TG)的能量消耗随着工作负载的升高而降低,这是因为当执行1更多任务时,再转移任务出现的比例降低,这个算法再非常高的工作负载的情况下较为有效。而算法1(DRLOSM)随着工作负载的增加,会消耗更多的能源,因为它能够通过调度更多具有较高能耗的任务来避免队列的快速增长,从而保持相对较小的总体成本。
右上角的图比较了平均成本。当工作负载比较小时算法6(EG)表现尚可。对于较大的工作负载,算法5(TG)表现优于其他基准算法。但是算法1(DRLOSM)在所有的工作负载条件下都表现最好。
右下角的图比较了平均再转移任务数,可以发现只有在较大的工作负载下,算法1开始出现任务的再转移,明显优于出算法6(EG)以外的其他算法。综合四张图来看,算法1(DRLOSM)的表现明显是比其他的基准的算法好的。
本发明的有益效果为:
本发明公开了一种基于深度强化学习的车辆边缘计算转移调度方法,利用马尔可夫决策过程,针对车辆在高速公路移动的场景精确建模,并采用深度强化学习找到这个场景下的车辆边缘计算转移调度方案的最佳策略;在训练深度强化学习时,通过使用近端策略优化方法,使用卷积结构提取任务对应的特征量,调整状态和奖励的表示方式等,改善了网络的收敛性能,使得在动态环境和复杂任务的情况下,实现在较长时间内消耗的时间和能量都最小化。

Claims (9)

1.一种基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,包括以下步骤:
S1、对车辆边缘计算转移调度问题进行建模,并确定其优化目标;
S2、将实际车辆边缘计算场景下的优化目标运用到马尔可夫决策过程中,得到对应的状态空间;
S3、将状态空间输入到训练好的DNN网络中,得到车辆边缘计算时的价值函数和转移调度策略;
所述步骤S1中,通过将车辆边缘计算转移调度问题中的任务建模成泊松过程,且在每个时间间隙内都会有任务到达;其中,任务队列中第i个任务Ji
Figure FDA0002654737240000011
时间t时排在任务队列中第j个等待的任务Q[t]<j>为
Figure FDA0002654737240000012
式中,
Figure FDA0002654737240000013
表示任务Ji的生成时间;
di为任务Ji的输入数据大小;
ki为任务Ji的计算体积比;
所述步骤S1中的建模方法具体为:
S11、基于车辆终端预测的数据速率,确定两种数据计算模式下的能量消耗和时间消耗;
其中,数据计算模式包括本地计算和边缘计算服务器计算;
S12、基于两种数据计算模式下的能量消耗和时间消耗,计算任务队列中的任意任务的资源消耗总量;
S13、基于计算的资源消耗总量,确定车辆边缘计算转移调度问题的优化目标。
2.根据权利要求1所述的基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,所述步骤S11中,在任意时间间隙t中,车辆终端预测的数据速率r[t]满足的条件为:
Figure FDA0002654737240000021
式中,ttx(v,t)为传输大小为v的数据所需要的时间,括号中的t为开始传输的时间;
s为指代时间t的变量;
r[s]为在时间s开始传输数据时能够成功传输的数据大小;
v为传输的数据大小;
在所述步骤S11中:
本地计算的时间消耗
Figure FDA0002654737240000022
为:
Figure FDA0002654737240000023
式中,fl为本地处理器的频率;
Figure FDA0002654737240000024
为向上取整运算符;
所述本地计算的能量消耗为
Figure FDA0002654737240000025
Figure FDA0002654737240000026
式中,pl为本地服务器的功率,且pl=ξ(fl)v,ξ为常数,
所述边缘计算服务器计算的时间消耗
Figure FDA0002654737240000027
为:
Figure FDA0002654737240000028
式中,
Figure FDA0002654737240000029
为无线数据传输时间,即为从
Figure FDA00026547372400000210
时刻开始传输任务数据,将任务数据传输到边缘计算服务器上需要的时间,且
Figure FDA00026547372400000211
下标i为任务的序列编号;
Figure FDA00026547372400000212
在车辆边缘计算服务器上的计算时间,且
Figure FDA00026547372400000213
fs为边缘计算服务器的频率;
所述边缘计算服务器计算的能量消耗
Figure FDA0002654737240000031
为:
Figure FDA0002654737240000032
式中,ptx为数据传输消耗的功率;
所述步骤S12中,任意车辆边缘计算任务的资源消耗总量
Figure FDA0002654737240000033
为:
Figure FDA0002654737240000034
式中,α、β均为资源消耗的控制参数;
Figure FDA0002654737240000035
表示任务队列中一个任务的总的等待时间,ai为计算模式控制变量,当ai=1时,表示采用边缘计算服务器计算,当ai=0时,表示采用本地服务器计算;
Figure FDA0002654737240000036
表示一个队列中任务的能量消耗;
所述步骤S13中的优化目标为:
Figure FDA0002654737240000037
式中,
Figure FDA0002654737240000038
n0为执行决策时所选择的动作总数。
3.根据权利要求2所述的基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,所述步骤S2中的基于马尔可夫决策过程得到的状态空间为:
Figure FDA0002654737240000039
式中,Q为任务队列;
x,d分别为车辆当前位置以及其与最近的边缘计算服务器单元的距离;
slpu为本地服务器完成当前任务所需要的剩余CPU周期数;
sdtu为需要传输给边缘计算服务器的任务的剩余数据量;
smec为边缘计算服务器完成转移调度之后的任务所需的CPU周期数;
所述slpu、sdtu和smec均随着车辆边缘计算的转移调度策略实时更新。
4.根据权利要求3所述的基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,在t时刻,本地服务器完成当前任务所需要的剩余CPU周期数slpu的更新式为:
slpu[t]=max{slpu[t-1]-fl,0}
当slpu[t]=0时,本地计算服务器处于空闲状态,可以接受新的数据计算任务;
在t时刻,需要传输给边缘计算服务器的任务的剩余数据量sdtu[t]为:
sdtu[t]=max{sdtu[t-1]-r[t-1],0}
式中,r[t-1]为t-1时刻的数据速率;
在t时刻,边缘计算服务器完成转移调度之后的任务所需的CPU周期数smec为:
smec[t]=max{smec[t-1]-fs,0}。
5.根据权利要求4所述的基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,所述步骤S3中DNN网络包括输入层、spilt操作、卷积单元、Concat操作、第一全连接层、第二全连接层、第三全连接层和softmax层;
所述输入层的输出端与spilt操作输入端连接,所述spilt操作的第一输出端与卷积单元的输入端连接,所述spilt操作的第二输出端和卷积单元的输出端均与Concat操作的输入端连接,所述Concat操作的输出端依次与级联的第一全连接层和第二全连接层连接,所述第二全连接层的第一输出端第三连接层的输入端连接,所述第二全连接层的第二输出端端与所述softmax层的输入端连接;
所述输入层的输入为状态空间S;
所述spilt操作将输入的状态空间拆分为任务队列Q和其他状态,并将所述任务队列Q输入到卷积单元中,将其他状态暂时存储,并在卷积单元的操作执行完成后输入到Concat操作;
所述卷积单元用于提取任务队列Q的特征;
所述Concat操作用于将提取的任务队列Q的特征和其他状态连接;
所述第一全连接层和第二全连接层用于对输入数据进行归一化处理;
所述第三全连接层用于输出价值函数;
所述softmax层用于输出转移调度策略。
6.根据权利要求5所述的基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,所述步骤S3中,通过近端策略优化算法对DNN网络进行训练,其训练目标函数为:
Figure FDA0002654737240000051
式中,
Figure FDA0002654737240000052
为求数学期望函数,下标n1为抽取的样本数量;
rn(θ)为策略概率比,且
Figure FDA0002654737240000053
sn为状态空间S中的一个状态,an为针对状态sn采取的策略,θ为DNN网络参数,θold为更新前的网络参数,π(·)为随机策略函数,下标n为时间步长;
Figure FDA0002654737240000054
为在时间步为n的广义优势估计函数;
clip(·)为用于限制rn范围的函数;
ε为超参数,即对于rn(θ),超出[1-ε,1+ε]范围的值都会去除;
c为损耗系数;
vπ为真正的价值函数;
v(sn;θ)为价值网络,当网络参数为θ时,对应的状态为sn
7.根据权利要求6所述的基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,在所述DNN网络的训练过程中,使整个DNN网络在数据采样和网络优化之间交替进行;
所述数据采样阶段:预先计算每个轨迹中每个步长n的广义优势估计,并基于计算出的广义优势估计函数
Figure FDA0002654737240000061
按照前一阶段的网络参数对N个轨迹进行采样,并将采样数据缓存用于下一网络优化阶段;
其中,N为采样的最大数目,N个轨迹是指状态控制以及对应的动作空间、策略概率比的集合;
所述网络优化阶段:通过K次迭代更新策略函数中的参数,并在每次迭代中,都基于上一数据采样阶段缓存的采样数据使用随机梯度下降法进行网络优化。
8.根据权利要求7所述的基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,所述DNN网络中的动作空间为:
Figure FDA0002654737240000062
式中,Lε、Rε和HO分别为在本地服务器计算操作的策略集合、在边缘计算服务器计算操作的策略集合和保存原样等待操作的策略集合;
其中,
Figure FDA0002654737240000063
Figure FDA0002654737240000064
Figure FDA0002654737240000065
下标
Figure FDA0002654737240000066
为任务队列中的任务数目。
9.根据权利要求8所述的基于深度强化学习的车辆边缘计算转移调度方法,其特征在于,在所述DNN网络的训练过程中,通过在动作空间和状态空间加入限制参数来提高DNN网络的收敛速度;
其中,限制后的动作空间中的HO为:
Figure FDA0002654737240000067
式中,pg为限制HO操作的粗细粒度参数,m为粗细粒度参数的系数,且mpg≤phmax,phmax为限制HO操作的最大等待时间参数;
限制后的动作空间中的Lε为:
Figure FDA0002654737240000071
限制后的动作空间中的Rε为:
Figure FDA0002654737240000072
式中,psmax为LE和RE操作的序列数目,且psmax<Q;
所述状态空间加入限制参数的方法为:根据状态空间中的当前任务队列长度在其奖励中加入惩罚项kqq[t]u,其中,q[t]为在t时刻在队列中等待的任务数目,kq、u均为任务队列中的等待任务的控制参数,kq和u的取值与状态空间中的等待的任务长度成反比。
CN201911310491.9A 2019-12-18 2019-12-18 一种基于深度强化学习的车辆边缘计算转移调度方法 Active CN110989614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911310491.9A CN110989614B (zh) 2019-12-18 2019-12-18 一种基于深度强化学习的车辆边缘计算转移调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911310491.9A CN110989614B (zh) 2019-12-18 2019-12-18 一种基于深度强化学习的车辆边缘计算转移调度方法

Publications (2)

Publication Number Publication Date
CN110989614A CN110989614A (zh) 2020-04-10
CN110989614B true CN110989614B (zh) 2020-10-30

Family

ID=70095392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911310491.9A Active CN110989614B (zh) 2019-12-18 2019-12-18 一种基于深度强化学习的车辆边缘计算转移调度方法

Country Status (1)

Country Link
CN (1) CN110989614B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111835827B (zh) * 2020-06-11 2021-07-27 北京邮电大学 物联网边缘计算任务卸载方法及系统
CN113271338B (zh) * 2021-04-25 2022-04-12 复旦大学 一种移动增强现实场景的智能预加载方法
CN114745396B (zh) * 2022-04-12 2024-03-08 广东技术师范大学 一种基于多智能体的端边云3c资源联合优化方法
CN115599125B (zh) * 2022-12-14 2023-04-07 电子科技大学 一种基于边缘计算的助航灯光控制策略选择方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145387A (zh) * 2017-05-23 2017-09-08 南京大学 一种车载网环境下基于深度强化学习的任务调度方法
CN108632861A (zh) * 2018-04-17 2018-10-09 浙江工业大学 一种基于深度强化学习的移动边缘计算分流决策方法
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
CN110070181A (zh) * 2019-04-30 2019-07-30 深圳朴生智能科技有限公司 一种用于边缘计算设备的深度学习的优化方法
CN110347495A (zh) * 2019-07-24 2019-10-18 张�成 一种使用深度强化学习进行移动边缘计算的任务迁移方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427261A (zh) * 2019-08-12 2019-11-08 电子科技大学 一种基于深度蒙特卡洛树搜索的边缘计算任务分配方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145387A (zh) * 2017-05-23 2017-09-08 南京大学 一种车载网环境下基于深度强化学习的任务调度方法
CN108632861A (zh) * 2018-04-17 2018-10-09 浙江工业大学 一种基于深度强化学习的移动边缘计算分流决策方法
CN109756378A (zh) * 2019-01-12 2019-05-14 大连理工大学 一种车载网络下的智能计算卸载方法
CN110070181A (zh) * 2019-04-30 2019-07-30 深圳朴生智能科技有限公司 一种用于边缘计算设备的深度学习的优化方法
CN110347495A (zh) * 2019-07-24 2019-10-18 张�成 一种使用深度强化学习进行移动边缘计算的任务迁移方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Reinforcement Learning Based Offloading Scheme for Mobile Edge Computing;Yao Pengfei等;《2019 IEEE International Conference on Smart Internet of Things》;20190811;第417-421页 *
Multiuser Resource Control With Deep;Lei Lei等;《IEEE INTERNET OF THINGS JOURNAL》;20190815;第10119-10133页 *

Also Published As

Publication number Publication date
CN110989614A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110989614B (zh) 一种基于深度强化学习的车辆边缘计算转移调度方法
CN108920280B (zh) 一种单用户场景下的移动边缘计算任务卸载方法
CN113612843B (zh) 一种基于深度强化学习的mec任务卸载和资源分配方法
CN110557732B (zh) 一种车辆边缘计算网络任务卸载负载均衡系统及均衡方法
US11784931B2 (en) Network burst load evacuation method for edge servers
CN114189892A (zh) 一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法
CN113485826B (zh) 一种边缘服务器负载均衡方法、系统
CN114205353B (zh) 一种基于混合动作空间强化学习算法的计算卸载方法
CN111884947B (zh) 一种在接收端基于信息年龄的数据包管理方法
CN115686779A (zh) 基于dqn的自适应边缘计算任务调度方法
CN116366576A (zh) 算力网络资源调度方法、装置、设备及介质
CN114706631B (zh) 基于深度q学习的移动边缘计算中卸载决策方法及系统
CN112835684B (zh) 一种面向移动边缘计算的虚拟机部署方法
CN116954866A (zh) 基于深度强化学习的边缘云下任务调度方法及系统
Tao et al. DRL-Driven Digital Twin Function Virtualization for Adaptive Service Response in 6G Networks
CN113821270B (zh) 任务卸载顺序预测方法、决策方法、电子设备及存储介质
CN114942799B (zh) 云边环境下基于强化学习的工作流调度方法
CN115413044A (zh) 一种工业无线网络的计算和通信资源联合分配方法
CN113452625B (zh) 基于深度强化学习的卸载调度与资源分配方法
CN115016932A (zh) 一种基于嵌入式的分布式深度学习模型资源弹性调度方法
CN111830826B (zh) 一种网络化双模自适应时域模型控制方法及系统
CN117834643B (zh) 一种面向工业物联网的深度神经网络协同推理方法
CN113114585B (zh) 任务迁移与网络传输联合优化的方法、设备及存储介质
CN117155792B (zh) 一种芯粒间通信动态带宽调整方法及系统
CN115114030B (zh) 一种基于强化学习的在线多工作流调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant