CN109976909A - 边缘计算网络中基于学习的低延时任务调度方法 - Google Patents
边缘计算网络中基于学习的低延时任务调度方法 Download PDFInfo
- Publication number
- CN109976909A CN109976909A CN201910204190.1A CN201910204190A CN109976909A CN 109976909 A CN109976909 A CN 109976909A CN 201910204190 A CN201910204190 A CN 201910204190A CN 109976909 A CN109976909 A CN 109976909A
- Authority
- CN
- China
- Prior art keywords
- value
- task
- state
- network
- reward
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种边缘计算网络中基于学习的低延时任务调度方法,针对现有任务调度方法中,启发式算法容易受环境变化影响难以设计,拟使用强化学习技术设计任务调度方案。在资源管理中系统做出的决策通常是高度重复的,因此可以为RL算法产生大量训练数据。其次,RL可以将复杂系统的决策策略建模成深度神经网络。而且通过不断与环境交互学习,可以对特定目标(最低延时)进行优化。
Description
技术领域
本发明涉及移动计算技术领域,尤其涉及一种边缘计算网络中基于学习的低延时任务调度方法。
背景技术
近年来随着信息技术的发展,移动智能设备呈爆炸式增长的趋势,同时也刺激了许多新型应用的出现,如虚拟现实、增强现实、移动交互式游戏等等。而用户对于这些交互应用/服务的延迟非常敏感。边缘计算是一种新型的分布式计算架构,旨在将计算的应用、数据和服务的控制从互联网的某些中心节点(“核心”)到转移到另一逻辑极端(“边缘”),邻近移动智能设备以及终端用户。将移动智能设备的任务卸载至网络的边缘节点可以有效解决时延问题,而一个在边缘计算网络中的合理任务调度方案能够为用户提供低延时服务。
在边缘服务器上可以根据用户需要部署相应的服务,对卸载至边缘服务器的任务进行资源的合理分配。资源管理问题的大多数现有解决方案都是使用设计的启发式算法解决的,典型的设计流程是:(1)简化问题模型提出启发式算法;(2)测试和调整启发式算法以便在实践中获得良好性能。如果问题的某些方面(如负载)发生变化,则不得不重复这些过程。因此我们设计了一种学习管理资源的任务调度策略,为用户提供低延时服务。
设计学习驱动的低延时任务调度方案有两个关键问题,第一个问题是由于用户非常重视任务的处理速度,对于实时视频分析任务,超过数十毫秒的时延将对破坏用户体验并且导致负面的反馈。第二个问题是机器学习是否为资源管理提供一个可行的替代人为设计启发式的方案,在直接从与环境交互的经验中学习管理资源。在多用户的边缘计算场景下,本设计重点关注为用户提供低延时服务。考虑边缘服务器的资源分配,设计了一种基于学习的低延时任务调度方案。
发明内容
本发明所解决的技术问题在于能够克服现有算法的不足,提出一种边缘网络下基于学习的低延时任务调度策略。针对现有任务调度方法中,启发式算法容易受环境变化影响难以设计,拟使用强化学习技术设计任务调度方案。在资源管理中系统做出的决策通常是高度重复的,因此可以为RL算法产生大量训练数据。其次,RL可以将复杂系统的决策策略建模成深度神经网络。而且通过不断与环境交互学习,可以对特定目标(最低延时)进行优化。
本发明旨在至少解决现有技术中存在的技术问题。为此,本发明公开了一种边缘计算网络中基于学习的低延时任务调度方法,多个用户所持有的移动智能终端通过无线接入点与边缘计算网络中的多资源服务器(EC server)集群连接,其特征在于,每次只保留N个任务到达的系统状态,而N个之外的任务信息放在积压部分中只对任务数量计数,在每个时间步,对N个任务进行调度,允许智能体Agent在每个时间步执行多个动作a,在每个时间步t,时间被冻结,直到选择无效的动作或者是尝试调度的不合适的任务,时间才会进行,集群图像移动一步,每进行一个时间步,就相当于Agent进行一次有效的决策,然后Agent观察状态转换,也就是任务被调度到集群图像中的适当位置;在每个时间步设置奖励为其中,J是当前系统中的任务集(被调度或是等待服务),Ti是任务i的理想完成时间,Agent在时间步中没有得到任何中间决策的奖励。设定折扣因子为1,随着时间的累积奖励与负的总和任务减速相符合,累计奖励最大就是最小化平均任务减速取负,将状态到动作的映射表示为一个神经网络,将图像的集合作为输入,输出所有可能动作的值函数,在一个情节化episode的环境中训练策略网络,在每个episode中固定数量的任务到达,根据策略进行任务调度,当所有任务完成调度时,情节终止。
更进一步地,所述将任务调度问题被转化为一个学习问题,进一步包括:形式化强化学习将其表示为马尔可夫决策过程(MDP),假设Agent位于一个环境中,该环境由某个状态s表示,Agent可以在环境中执行某些操作,然后接收奖励,并将环境转换为新的状态,转换的经验表示为s,a,r,s′,分别为状态、动作、奖励和下一状态,这些状态集、动作集以及转换规则组成了一个MDP;这个过程的一个episode形成一个有限序列的状态,行为和奖励:
{s0,a0,r0,s1,a1,r1,…,st,at,rt,…,sn-1,an-1,rn-1,}
其中,st为当前状态,at为当前行为,rt为执行行为后的奖励,st+1为下一状态;利用强化学习值迭代的算法q-learning,将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取动作获得较大的收益,其更新公式为:
其中,s和a时当前状态和当前状态下执行的动作,r为执行a后获得的奖励,s′为下一个状态,a′为下一个状态要执行的动作,在更新的过程中,引入学习速率α,控制先前的Q值和新的Q值之间有多少差异被保留,参数γ则用来对奖励进行折扣,当γ接近0时,关注短期利益,当γ接近1时,我关注长期利益。Q(s′,a′)是下一个状态s′中的最大Q值,r+γmaxa′Q(s′,a′)是Q(s,a)的期望值。Q*(s,a)表示在状态s时执行动作a在未来获得的奖励折扣,一旦有了Q*(s,a),就可以选择未来获得折扣奖励最大的动作a。
更进一步地,状态到动作的映射表示为一个神经网络,把Q-table更新转化为一函数拟合问题,通过拟合一个函数function来代替Q-table产生Q值,使得相近的状态得到相近的输出动作。利用深度神经网络对复杂特征的提取,用一个深度卷积神经网络表示这个Q值函数,参数为θ,通过更新参数θ使Q函数逼近最优Q值:
Q(s,a;θ)≈Q′(s,a)
其中,θ是网络参数。
更进一步地,训练Q网络,确定网络参数θ。首先通过Q-Learning使用reward来构造标签TargetQ,在Q值中使用均方差mean-square error来定义目标函数objectivefunction,也就是Q网络训练的损失函数为:
L(θ)=E[(TargetQ-Q(s,a;θ))2
其中,θ是网络参数,目标值为:
其中s′,a′即下一状态和动作,使用Q-Learning要更新的Q值作为目标值。
求损失函数L(θ)关于参数θ的梯度,使用梯度下降法来更新参数θ,从而得到最优Q值,梯度下降法为:
为了解决相关性及非静态分布问题,利用了经验回放训练强化学习模型把每个时间步Agent与环境交互得到的转移样本(st,at,rt,st+1)储存到回放记忆单元,要训练时就随机拿出一些数据(minibatch)来训练;
为了降低了当前值和目标值的相关性,提高算法稳定性,独立设置目标网络来单独处理时间差分算法中的TD误差,使用一个卷积神经网络CNN(MainNet)产生当前Q值,使用另外一个卷积神经网络CNN(TargetNet)产生Target Q值,具体地,Q(s,a;θ)表示当前网络MainNet的输出,用来评估当前状态动作对的值函数;Q(s,a;θ-)表示TargetNet的输出,代入上面求Target Q值的公式中得到目标值,根据所述损失函数更新MainNet的参数,每经过C轮迭代,将MainNet的参数复制给Target Net。此时值函数的更新变为:
其中Q(s,a;θ)表示当前网络MainNet的输出,Q(s,a;θ-)表示TargetNet的输出。
本发明所解决的技术问题在于能够克服现有算法的不足,提出一种边缘网络下基于学习的低延时任务调度策略。针对现有任务调度方法中,启发式算法容易受环境变化影响难以设计,拟使用强化学习技术设计任务调度方案。在资源管理中系统做出的决策通常是高度重复的,因此可以为RL算法产生大量训练数据。其次,RL可以将复杂系统的决策策略建模成深度神经网络。而且通过不断与环境交互学习,可以对特定目标(最低延时)进行优化。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。
图1是本发明的边缘计算任务调度场景图;
图2是本发明的一个包含三个资源和三个将调度的任务状态表示的示例图;
图3是本发明的强化学习策略图。
具体实施方式
实施例一
本实施例公开了一种边缘计算网络中基于学习的低延时任务调度方法,多个用户所持有的移动智能终端通过无线接入点与边缘计算网络中的多资源服务器(EC server)集群连接,每次只保留N个任务到达的系统状态,而N个之外的任务信息放在积压部分中只对任务数量计数,在每个时间步,对N个任务进行调度,允许智能体Agent在每个时间步执行多个动作a,在每个时间步t,时间被冻结,直到选择无效的动作或者是尝试调度的不合适的任务,时间才会进行,集群图像移动一步,每进行一个时间步,就相当于Agent进行一次有效的决策,然后Agent观察状态转换,也就是任务被调度到集群图像中的适当位置;在每个时间步设置奖励为其中,J是当前系统中的任务集(被调度或是等待服务),Ti是任务i的理想完成时间,Agent在时间步中没有得到任何中间决策的奖励。设定折扣因子为1,随着时间的累积奖励与负的总和任务减速相符合,累计奖励最大就是最小化平均任务减速取负,将状态到动作的映射表示为一个神经网络,将图像的集合作为输入,输出所有可能动作的值函数,在一个情节化episode的环境中训练策略网络,在每个episode中固定数量的任务到达,根据策略进行任务调度,当所有任务完成调度时,情节终止。
更进一步地,所述将任务调度问题被转化为一个学习问题,进一步包括:形式化强化学习将其表示为马尔可夫决策过程(MDP),假设Agent位于一个环境中,该环境由某个状态s表示,Agent可以在环境中执行某些操作,然后接收奖励,并将环境转换为新的状态,转换的经验表示为s,a,r,s′,分别为状态、动作、奖励和下一状态,这些状态集、动作集以及转换规则组成了一个MDP;这个过程的一个episode形成一个有限序列的状态,行为和奖励:
{s0,a0,r0,s1,a1,r1,…,st,at,rt,…,sn-1,an-1,rn-1,}
其中,st为当前状态,at为当前行为,rt为执行行为后的奖励,st+1为下一状态;利用强化学习值迭代的算法q-learning,将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取动作获得较大的收益,其更新公式为:
其中,s和a时当前状态和当前状态下执行的动作,r为执行a后获得的奖励,s′为下一个状态,a′为下一个状态要执行的动作,在更新的过程中,引入学习速率α,控制先前的Q值和新的Q值之间有多少差异被保留,参数γ则用来对奖励进行折扣,当γ接近0时,关注短期利益,当γ接近1时,我关注长期利益。Q(s′,a′)是下一个状态s′中的最大Q值,r+γmaxa′Q(s′,a′)是Q(s,a)的期望值。Q*(s,a)表示在状态s时执行动作a在未来获得的奖励折扣,一旦有了Q*(s,a),就可以选择未来获得折扣奖励最大的动作a。
更进一步地,状态到动作的映射表示为一个神经网络,把Q-table更新转化为一函数拟合问题,通过拟合一个函数function来代替Q-table产生Q值,使得相近的状态得到相近的输出动作。利用深度神经网络对复杂特征的提取,用一个深度卷积神经网络表示这个Q值函数,参数为θ,通过更新参数θ使Q函数逼近最优Q值:
Q(s,a;θ)≈Q′(s,a)
其中,θ是网络参数。
更进一步地,训练Q网络,确定网络参数θ。首先通过Q-Learning使用reward来构造标签TargetQ,在Q值中使用均方差mean-square error来定义目标函数objectivefunction,也就是Q网络训练的损失函数为:
L(θ)=E[(TargetQ-Q(s,a;θ))2
其中,θ是网络参数,目标值为:
其中s′,a′即下一状态和动作,使用Q-Learning要更新的Q值作为目标值。
求损失函数L(θ)关于参数θ的梯度,使用梯度下降法来更新参数θ,从而得到最优Q值,梯度下降法为:
为了解决相关性及非静态分布问题,利用了经验回放训练强化学习模型把每个时间步Agent与环境交互得到的转移样本(st,at,rt,st+1)储存到回放记忆单元,要训练时就随机拿出一些数据(minibatch)来训练;
为了降低了当前值和目标值的相关性,提高算法稳定性,独立设置目标网络来单独处理时间差分算法中的TD误差,使用一个卷积神经网络CNN(MainNet)产生当前Q值,使用另外一个卷积神经网络CNN(TargetNet)产生Target Q值,具体地,Q(s,a;θ)表示当前网络MainNet的输出,用来评估当前状态动作对的值函数;Q(s,a;θ-)表示TargetNet的输出,代入上面求Target Q值的公式中得到目标值,根据所述损失函数更新MainNet的参数,每经过C轮迭代,将MainNet的参数复制给Target Net。此时值函数的更新变为:
其中Q(s,a;θ)表示当前网络MainNet的输出,Q(s,a;θ-)表示TargetNet的输出。
实施例二
如图1所示。多个用户所持有的移动智能终端通过无线接入点与边缘计算网络中的服务器(EC server)集群连接,EC服务器集群是一个多资源集群。任务以在线方式动态到达边缘服务器集群,一旦任务被调度就不能被抢占。我们假定一个具有3种资源类型的边缘服务器集群(CPU,内存,I/O),移动智能终端产生的任务以离散的时间步以在线方式到达边缘网络的服务器集群,在每个时间步选择一个或多个任务进行调度。假设每个任务的资源需求在到达时是已知的。对于一个移动智能终端i,它产生的任务表示为Ai=(di,ci,ri),其中di,表示任务Ai的数据大小,ci表示完成任务Ai所需要的CPU周期总数,ri表示任务Ai所需要的IO资源
本文希望使得任务调度后的处理延时最低,使用平均任务减速作为系统目标,对于每个任务Ai,减速由Si=Ci/Ti给出,其中Ci是任务被调度后的实际完成的时间(任务到达后的等待时间和任务执行时间),Ti是任务的理想完成时间。这里Si>1。
目标函数为最小化平均任务减速:
min∑i∈JSi 式(1-1)
任务被卸载至边缘计算网络任务调度执行完之后,再将结果返回到移动智能终端,由于返回的计算结果数据量很小。为了方便分析,传输的时间在本文中忽略不计。
RL构思
状态空间:系统的状态是当前被分配的边缘服务器集群资源和等待被调度的任务的资源概况,用不同的图像表示。如图2所示,其中集群图像在左侧,每种资源单独表示,可以显示每个资源分配给正在进行调度的任务,从当前时间步开始到未来的T时间步。图像中不同样式代表不同任务。(例如图中某一任务使用两个CPU单元,一个内存单元,一个I/O单元用于接下来的三个时间步)。作业槽图像表示等待被调度的任务的资源需求。(例如图2,任务槽1中任务持续时间为两个时间步,需要两个CPU单元,一个内存单元和三个I/O单元)。为了有一个固定的状态表示图,以便作为神经网络的输入。因此,每次只保留N个任务到达的图像,而N个之外的任务信息放在积压部分中,只对任务数量计数。
动作空间:在每个时间步,我们对N个任务进行调度,那么动作空间将是N的子集大小为2N,这样学习非常具有挑战性。因此允许智能体Agent在每个时间步执行多个动作。动作空间由给出,其中a=i代表调度第i槽中的任务,是一个无效的动作表示agent在当前时间步中不希望再调度任务。在每个时间步,时间被冻结,直到选择无效的动作或者是尝试调度的不合适的任务,例如图2中在第3槽的任务。时间就会进行,集群图像向上移动一步。每进行一个时间步,就相当于Agent进行一次有效的决策,然后Agent观察状态转换,也就是任务被调度到集群图像中的适当位置。
奖励:奖励信号能引导Agent为我们的目标找到良好的解决方案,本文目标是最小化平均任务减速。因此我们在每个时间步设置奖励为J是当前系统中的任务集(被调度或是等待服务)。Agent在时间步中没有得到任何中间决策的奖励。设定折扣因子为1,随着时间的累积奖励与负的总和任务减速相符合,因此累计奖励最大就是最小化平均任务减速取负。
边缘计算网络中低延时的任务调度问题被转化为一个学习问题,EC服务器集群Agent是学习者,同时也是决策者。学习者通过环境进行交互(根据自身资源进行任务调度)来实现目标(低延时)。在具体实施方案中将针对学习问题利用深度学习、强化学习技术解决问题。
根据发明内容里面建立的问题模型,找到合适的任务调度策略,当Agent不是随机地产生可能动作,而是经过对过去经历的思考得来时,这样的动作称之为策略,也就是状态到动作的映射。我们将该策略表示为一个神经网络。如图3所示,将处理后图像的集合作为输入,输出所有可能动作的函数值。我们在一个情节化episode的环境中培训政策网络。在每个episode中固定数量的任务到达,根据策略进行任务调度,当所有任务完成调度时,情节终止。
形式化强化学习将其表示为马尔可夫决策过程(MDP),假设Agent位于一个环境中,该环境由某个状态s表示,Agent可以在环境中执行某些操作,然后接收奖励,并将环境转换为新的状态,转换的经验表示为s,a,r,s′,分别为状态、动作、奖励和下一状态,这些状态集、动作集以及转换规则组成了一个MDP;这个过程的一个episode形成一个有限序列的状态,行为和奖励:
{s0,a0,r0,s1,a1,r1,…,st,at,rt,…,sn-1,an-1,rn-1,} 式(1-2)
其中,st为当前状态,at为当前行为,rt为执行行为后的奖励,st+1为下一状态。
利用强化学习值迭代的算法q-learning,将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取动作获得较大的收益,其更新公式为:
Q*(s,a)=Q(s,a)+α(r+γmaxa′Q(s′,a′)-Q(s,a)) 式(1-3)
这里s和a时当前状态和当前状态下执行的动作,r为执行a后获得的奖励,s′为下一个状态,a′为下一个状态要执行的动作,r+γmaxa′Q(s′,a′)是(s,a)的期望值。Q*(s,a)表示在状态s时执行动作a在未来获得的奖励折扣,一旦有了Q*(s,a),就可以选择未来获得折扣奖励最大的动作a。在更新的过程中,我们引入了学习速率α,控制先前的Q值和新的Q值之间有多少差异被保留,参数γ则用来对奖励进行折扣,当γ接近0时,我们比较关注短期利益,当γ接近1时,我们比较关注长期利益。
这种使用Q-Table的方法比较适合解决状态空间比较小的问题,他的本质其实就是比较聪明的搜索,计算每一个状态下进行每一个动作可以获得奖励(或者一个用来估计奖励的数值)。,而当状态和动作空间是高维时,就非常困难了。这时应该用深度学习来学习下一步应该做的动作,神经网络本身通过将高维数据状态映射到低维数据上,最后输出预测的动作和每个动作产生的影响。把Q-Table的更新问题变成一个函数拟合问题,通过拟合一个函数function来代替Q-table产生Q值,使得相近的状态得到相近的输出动作。利用深度神经网络对复杂特征的提取,用一个深度卷积神经网络表示这个Q值函数,参数为θ,如下式,通过更新参数θ使Q函数逼近最优Q值:
Q(s,a;θ)≈Q′(s,a) 式(1-4)
DQN(DeepQ-Learning Network)将卷积神经网络(CNN)和Q-Learning结合起来,CNN的输入是原始图像数据(作为状态State),输出则是每个动作Action对应的价值评估ValueFunction(Q值)。这个神经网络具有20个神经元的完全连接的隐藏层。对图像进行预处理转换成256级灰度的图像,每个输入使用的“图像”长20t。
首先训练样本通过贪心(Epsilon Greedy)策略去生成就,通过Q-Learning使用reward来构造标签TargetQ,在Q值中使用均方差mean-square error来定义目标函数objective function,也就是Q网络训练的损失函数为:
L(θ)=E[(TargetQ-Q(s,a;θ))2] 式(1-5)
其中θ是网络参数,目标Q为:
TargetQ=r+γmaxa′Q(s′,a′;θ) 式(1-6)
损失函数是基于式(1-3)的第二项确定的,使当前的Q值逼近Target Q值。接下来,训练Q
网络,求损失函数L(θ)关于参数θ的梯度,使用梯度下降法来更新参数θ,从而得到最优Q值,
梯度下降法为:
利用了经验回放训练强化学习模型解决相关性及非静态分布问题。把每个时间步Agent与环境交互得到的转移样本(st,at,rt,st+1)储存到回放记忆单元,要训练时就随机拿出一些数据(minibatch)来训练;
最后,独立设置目标网络来单独处理时间差分算法中的TD误差,使用一个卷积神经网络CNN(MainNet)产生当前Q值,使用另外一个卷积神经网络CNN(TargetNet)产生Target Q值,具体地,Q(s,a;θ)表示当前网络MainNet的输出,用来评估当前状态动作对的值函数;Q(s,a;θ-)表示TargetNet的输出,代入上面求Target Q值的公式中得到目标值,根据所述损失函数更新MainNet的参数,每经过C轮迭代,将MainNet的参数复制给TargetNet。此时值函数的更新变为:
其中Q(s,a;θ)表示当前网络MainNet的输出,Q(s,a;θ-)表示TargetNet的输出。
引入TargetNet后,在一段时间里使目标Q值保持不变的,一定程度降低了当前Q值和目标Q值的相关性,提高了算法稳定性。
其中,DQN算法的伪代码如下所示:
关键点在于基于学习的低延时任务调度方案在移动计算中是非常有意义的,用户在向边缘计算网络请求服务时希望获得低延时服务,而在边缘计算网络中系统学习自己管理资源,能够从经验中学习资源管理从而做出合适的任务调度决策。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (4)
1.一种边缘计算网络中基于学习的低延时任务调度方法,多个用户所持有的移动智能终端通过无线接入点与边缘计算网络中的多资源服务器(EC server)集群连接,其特征在于,每次只保留N个任务到达的系统状态,而N个之外的任务信息放在积压部分中只对任务数量计数,在每个时间步,对N个任务进行调度,允许智能体Agent在每个时间步执行多个动作a,在每个时间步t,时间被冻结,直到选择无效的动作或者是尝试调度的不合适的任务,时间才会进行,集群图像移动一步,每进行一个时间步,就相当于Agent进行一次有效的决策,然后Agent观察状态转换,
也就是任务被调度到集群图像中的适当位置;在每个时间步设置奖励为其中,J是当前系统中的任务集(被调度或是等待服务),Ti是任务i的理想完成时间,Agent在时间步中没有得到任何中间决策的奖励,设定折扣因子为1,随着时间的累积奖励与负的总和任务减速相符合,累计奖励最大就是最小化平均任务减速取负,将状态到动作的映射表示为一个神经网络,将图像的集合作为输入,输出所有可能动作的值函数,在一个情节化episode的环境中训练策略网络,在每个episode中固定数量的任务到达,根据策略进行任务调度,当所有任务完成调度时,情节终止。
2.如权利要求1所述的一种边缘计算网络中基于学习的低延时任务调度方法,其特征在于,将任务调度问题被转化为一个学习问题,进一步包括:形式化强化学习将其表示为马尔可夫决策过程(MDP),假设Agent位于一个环境中,该环境由某个状态s表示,Agent可以在环境中执行某些操作,然后接收奖励,并将环境转换为新的状态,转换的经验表示为s,a,r,s′,分别为状态、动作、奖励和下一状态,这些状态集、动作集以及转换规则组成了一个MDP;这个过程的一个episode形成一个有限序列的状态,行为和奖励:
{s0,a0,r0,s1,a1,r1,…,st,at,rt,…,sn-1,an-1,rn-1,}
其中,st为当前状态,at为当前行为,rt为执行行为后的奖励,st+1为下一状态;利用强化学习值迭代的算法q-learning,将State与Action构建成一张Q-table来存储Q值,然后根据Q值来选取动作获得较大的收益,其更新公式为:
其中,s和a时当前状态和当前状态下执行的动作,r为执行a后获得的奖励,s′为下一个状态,a′为下一个状态要执行的动作,在更新的过程中,引入学习速率α,控制先前的Q值和新的Q值之间有多少差异被保留,参数γ则用来对奖励进行折扣,当γ接近0时,关注短期利益,当γ接近1时,开始关注长期利益;Q(s′,a′)是下一个状态s′中的最大Q值,r+γmaxa′Q(s′,a′)是Q(s,a)的期望值;Q*(s,a)表示在状态s时执行动作a在未来获得的奖励折扣,一旦有了Q*(s,a),就可以选择未来获得折扣奖励最大的动作a。
3.如权利要求2所述的一种边缘计算网络中基于学习的低延时任务调度方法,其特征在于,状态到动作的映射表示为一个神经网络,把Q-table更新转化为一函数拟合问题,通过拟合一个函数function来代替Q-table产生Q值,使得相近的状态得到相近的输出动作;利用深度神经网络对复杂特征的提取,用一个深度卷积神经网络表示这个Q值函数,参数为θ,通过更新参数θ使Q函数逼近最优Q值:
Q(s,a;θ)≈Q′(s,a)
其中,θ是网络参数。
4.如权利要求3所述的一种边缘计算网络中基于学习的低延时任务调度方法,其特征在于,训练Q网络,确定网络参数θ;首先通过Q-Learning使用reward来构造标签TargetQ,在Q值中使用均方差mean-square error来定义目标函数objective function,也就是Q网络训练的损失函数为:
L(θ)=E[(TargetQ-Q(s,a;θ))2]
其中,θ是网络参数,目标值为:
其中s′,a′即下一状态和动作,使用Q-Learning要更新的Q值作为目标值,
求损失函数L(θ)关于参数θ的梯度,使用梯度下降法来更新参数θ,从而得到最优Q值,梯度下降法为:
为了解决相关性及非静态分布问题,利用了经验回放训练强化学习模型把每个时间步Agent与环境交互得到的转移样本(st,at,rt,st+1)储存到回放记忆单元,要训练时就随机拿出一些数据(minibatch)来训练;
为了降低了当前值和目标值的相关性,提高算法稳定性,独立设置目标网络来单独处理时间差分算法中的TD误差,使用一个卷积神经网络CNN(MainNet)产生当前Q值,使用另外一个卷积神经网络CNN(TargetNet)产生Target Q值,具体地,Q(s,a;θ)表示当前网络MainNet的输出,用来评估当前状态动作对的值函数;Q(s,a;θ-)表示TargetNet的输出,代入上面求Target Q值的公式中得到目标值,根据所述损失函数更新MainNet的参数,每经过C轮迭代,将MainNet的参数复制给Target Net,此时值函数的更新变为:
其中Q(s,a;θ)表示当前网络MainNet的输出,Q(s,a;θ-)表示TargetNet的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910204190.1A CN109976909B (zh) | 2019-03-18 | 2019-03-18 | 边缘计算网络中基于学习的低延时任务调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910204190.1A CN109976909B (zh) | 2019-03-18 | 2019-03-18 | 边缘计算网络中基于学习的低延时任务调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109976909A true CN109976909A (zh) | 2019-07-05 |
CN109976909B CN109976909B (zh) | 2022-11-08 |
Family
ID=67079340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910204190.1A Active CN109976909B (zh) | 2019-03-18 | 2019-03-18 | 边缘计算网络中基于学习的低延时任务调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109976909B (zh) |
Cited By (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347495A (zh) * | 2019-07-24 | 2019-10-18 | 张�成 | 一种使用深度强化学习进行移动边缘计算的任务迁移方法 |
CN110489229A (zh) * | 2019-07-17 | 2019-11-22 | 长沙学院 | 一种多目标任务调度方法及系统 |
CN110570075A (zh) * | 2019-07-18 | 2019-12-13 | 北京邮电大学 | 一种电力业务边缘计算任务分配方法及装置 |
CN110580196A (zh) * | 2019-09-12 | 2019-12-17 | 北京邮电大学 | 一种实现并行任务调度的多任务强化学习方法 |
CN110780986A (zh) * | 2019-10-10 | 2020-02-11 | 北京信息科技大学 | 一种基于移动边缘计算的物联网任务调度方法及系统 |
CN110798849A (zh) * | 2019-10-10 | 2020-02-14 | 西北工业大学 | 一种超密网边缘计算的计算资源分配与任务卸载方法 |
CN110995858A (zh) * | 2019-12-17 | 2020-04-10 | 大连理工大学 | 一种基于深度q网络的边缘网络请求调度决策方法 |
CN111026548A (zh) * | 2019-11-28 | 2020-04-17 | 国网甘肃省电力公司电力科学研究院 | 一种逆向深度强化学习的电力通信设备测试资源调度方法 |
CN111160525A (zh) * | 2019-12-17 | 2020-05-15 | 天津大学 | 一种边缘计算环境下基于无人机群的任务卸载智能决策方法 |
CN111160755A (zh) * | 2019-12-26 | 2020-05-15 | 西北工业大学 | 一种基于dqn的飞机大修车间实时调度方法 |
CN111199272A (zh) * | 2019-12-30 | 2020-05-26 | 同济大学 | 一种面向智能车间的自适应调度方法 |
CN111242443A (zh) * | 2020-01-06 | 2020-06-05 | 国网黑龙江省电力有限公司 | 基于深度强化学习的能源互联网中虚拟电厂经济调度方法 |
CN111352713A (zh) * | 2020-02-26 | 2020-06-30 | 福建师范大学 | 边缘环境面向时延优化的自动驾驶推理任务工作流调度方法 |
CN111367657A (zh) * | 2020-02-21 | 2020-07-03 | 重庆邮电大学 | 一种基于深度强化学习的计算资源协同合作方法 |
CN111506405A (zh) * | 2020-04-08 | 2020-08-07 | 北京交通大学 | 一种基于深度强化学习的边缘计算时间片调度方法 |
CN111580943A (zh) * | 2020-04-01 | 2020-08-25 | 浙江大学 | 一种面向低时延边缘计算中多跳卸载的任务调度方法 |
CN111813538A (zh) * | 2020-05-27 | 2020-10-23 | 西安交通大学 | 一种边缘计算资源分配方法 |
CN111932027A (zh) * | 2020-08-28 | 2020-11-13 | 电子科技大学 | 一种融合边缘设施的云服务综合调度优化系统及方法 |
CN112101729A (zh) * | 2020-08-18 | 2020-12-18 | 华南理工大学 | 一种基于深度双q学习的移动边缘计算系统能源分配方法 |
CN112434789A (zh) * | 2020-11-06 | 2021-03-02 | 中山大学 | 一种用于边缘视频分析的分布式神经网络模型划分方法 |
CN112561395A (zh) * | 2020-12-25 | 2021-03-26 | 桂林电子科技大学 | 无人机协同方法、系统、装置、电子设备及存储介质 |
CN112732444A (zh) * | 2021-01-12 | 2021-04-30 | 北京工业大学 | 一种面向分布式机器学习的数据划分方法 |
CN112752308A (zh) * | 2020-12-31 | 2021-05-04 | 厦门越人健康技术研发有限公司 | 一种基于深度强化学习的移动预测无线边缘缓存方法 |
CN112764936A (zh) * | 2021-01-29 | 2021-05-07 | 北京邮电大学 | 基于深度强化学习的边缘计算服务器信息处理方法及装置 |
CN112818788A (zh) * | 2021-01-25 | 2021-05-18 | 电子科技大学 | 一种基于无人机集群的分布式卷积神经网络分层匹配方法 |
CN112929658A (zh) * | 2021-02-05 | 2021-06-08 | 郑州轻工业大学 | 一种针对vvc的基于深度强化学习的快速cu分区方法 |
CN112948112A (zh) * | 2021-02-26 | 2021-06-11 | 杭州电子科技大学 | 一种基于强化学习的边缘计算工作负载调度方法 |
CN113032904A (zh) * | 2021-03-22 | 2021-06-25 | 北京航空航天大学杭州创新研究院 | 模型构建方法、任务分配方法、装置、设备及介质 |
CN113094159A (zh) * | 2021-03-22 | 2021-07-09 | 西安交通大学 | 一种数据中心作业调度方法、系统、存储介质及计算设备 |
CN113419855A (zh) * | 2021-06-23 | 2021-09-21 | 重庆邮电大学工业互联网研究院 | 一种基于5g移动边缘计算的任务调度方法 |
CN113554875A (zh) * | 2021-03-12 | 2021-10-26 | 北京航空航天大学 | 一种基于边缘计算的高速公路异质交通流可变限速控制方法 |
CN113778648A (zh) * | 2021-08-31 | 2021-12-10 | 重庆理工大学 | 分层边缘计算环境中基于深度强化学习的任务调度方法 |
CN113778691A (zh) * | 2021-11-10 | 2021-12-10 | 清华大学 | 一种任务迁移决策的方法、装置及系统 |
CN114170560A (zh) * | 2022-02-08 | 2022-03-11 | 深圳大学 | 一种基于深度强化学习的多设备边缘视频分析系统 |
CN114675975A (zh) * | 2022-05-24 | 2022-06-28 | 新华三人工智能科技有限公司 | 一种基于强化学习的作业调度方法、装置及设备 |
CN114756294A (zh) * | 2022-03-22 | 2022-07-15 | 同济大学 | 一种基于深度强化学习的移动边缘计算卸载方法 |
CN115033343A (zh) * | 2022-05-27 | 2022-09-09 | 河南大学 | 一种云环境下遥感数据流程调度模型的建立方法 |
CN115174681A (zh) * | 2022-06-14 | 2022-10-11 | 武汉大学 | 一种边缘计算服务请求调度方法、设备及存储介质 |
CN115271130A (zh) * | 2022-09-30 | 2022-11-01 | 合肥工业大学 | 面向船舶主动力设备维修订单的动态调度方法及系统 |
CN115563527A (zh) * | 2022-09-27 | 2023-01-03 | 西南交通大学 | 一种基于状态分类与指派的多Agent深度强化学习框架及方法 |
CN116455768A (zh) * | 2023-06-16 | 2023-07-18 | 南京邮电大学 | 面向全局时延优化的云边端协同cnn推理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170032245A1 (en) * | 2015-07-01 | 2017-02-02 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Providing Reinforcement Learning in a Deep Learning System |
CN107553490A (zh) * | 2017-09-08 | 2018-01-09 | 深圳市唯特视科技有限公司 | 一种基于深度学习的单目视觉避障方法 |
CN108966352A (zh) * | 2018-07-06 | 2018-12-07 | 北京邮电大学 | 基于深度增强学习的动态波束调度方法 |
-
2019
- 2019-03-18 CN CN201910204190.1A patent/CN109976909B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170032245A1 (en) * | 2015-07-01 | 2017-02-02 | The Board Of Trustees Of The Leland Stanford Junior University | Systems and Methods for Providing Reinforcement Learning in a Deep Learning System |
CN107553490A (zh) * | 2017-09-08 | 2018-01-09 | 深圳市唯特视科技有限公司 | 一种基于深度学习的单目视觉避障方法 |
CN108966352A (zh) * | 2018-07-06 | 2018-12-07 | 北京邮电大学 | 基于深度增强学习的动态波束调度方法 |
Cited By (66)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489229B (zh) * | 2019-07-17 | 2020-06-30 | 长沙学院 | 一种多目标任务调度方法及系统 |
CN110489229A (zh) * | 2019-07-17 | 2019-11-22 | 长沙学院 | 一种多目标任务调度方法及系统 |
CN110570075A (zh) * | 2019-07-18 | 2019-12-13 | 北京邮电大学 | 一种电力业务边缘计算任务分配方法及装置 |
CN110570075B (zh) * | 2019-07-18 | 2022-04-05 | 北京邮电大学 | 一种电力业务边缘计算任务分配方法及装置 |
CN110347495A (zh) * | 2019-07-24 | 2019-10-18 | 张�成 | 一种使用深度强化学习进行移动边缘计算的任务迁移方法 |
CN110347495B (zh) * | 2019-07-24 | 2023-04-28 | 张�成 | 一种使用深度强化学习进行移动边缘计算的任务迁移方法 |
CN110580196A (zh) * | 2019-09-12 | 2019-12-17 | 北京邮电大学 | 一种实现并行任务调度的多任务强化学习方法 |
CN110580196B (zh) * | 2019-09-12 | 2021-04-06 | 北京邮电大学 | 一种实现并行任务调度的多任务强化学习方法 |
CN110798849A (zh) * | 2019-10-10 | 2020-02-14 | 西北工业大学 | 一种超密网边缘计算的计算资源分配与任务卸载方法 |
CN110780986A (zh) * | 2019-10-10 | 2020-02-11 | 北京信息科技大学 | 一种基于移动边缘计算的物联网任务调度方法及系统 |
CN110780986B (zh) * | 2019-10-10 | 2022-02-15 | 北京信息科技大学 | 一种基于移动边缘计算的物联网任务调度方法及系统 |
CN111026548A (zh) * | 2019-11-28 | 2020-04-17 | 国网甘肃省电力公司电力科学研究院 | 一种逆向深度强化学习的电力通信设备测试资源调度方法 |
CN110995858A (zh) * | 2019-12-17 | 2020-04-10 | 大连理工大学 | 一种基于深度q网络的边缘网络请求调度决策方法 |
CN110995858B (zh) * | 2019-12-17 | 2022-02-25 | 大连理工大学 | 一种基于深度q网络的边缘网络请求调度决策方法 |
CN111160525A (zh) * | 2019-12-17 | 2020-05-15 | 天津大学 | 一种边缘计算环境下基于无人机群的任务卸载智能决策方法 |
CN111160755A (zh) * | 2019-12-26 | 2020-05-15 | 西北工业大学 | 一种基于dqn的飞机大修车间实时调度方法 |
CN111160755B (zh) * | 2019-12-26 | 2023-08-18 | 西北工业大学 | 一种基于dqn的飞机大修车间实时调度方法 |
CN111199272B (zh) * | 2019-12-30 | 2023-11-03 | 同济大学 | 一种面向智能车间的自适应调度方法 |
CN111199272A (zh) * | 2019-12-30 | 2020-05-26 | 同济大学 | 一种面向智能车间的自适应调度方法 |
CN111242443B (zh) * | 2020-01-06 | 2023-04-18 | 国网黑龙江省电力有限公司 | 基于深度强化学习的能源互联网中虚拟电厂经济调度方法 |
CN111242443A (zh) * | 2020-01-06 | 2020-06-05 | 国网黑龙江省电力有限公司 | 基于深度强化学习的能源互联网中虚拟电厂经济调度方法 |
CN111367657A (zh) * | 2020-02-21 | 2020-07-03 | 重庆邮电大学 | 一种基于深度强化学习的计算资源协同合作方法 |
CN111352713A (zh) * | 2020-02-26 | 2020-06-30 | 福建师范大学 | 边缘环境面向时延优化的自动驾驶推理任务工作流调度方法 |
CN111352713B (zh) * | 2020-02-26 | 2023-08-11 | 福建师范大学 | 面向时延优化的自动驾驶推理任务工作流调度方法 |
CN111580943B (zh) * | 2020-04-01 | 2023-03-14 | 浙江大学 | 一种面向低时延边缘计算中多跳卸载的任务调度方法 |
CN111580943A (zh) * | 2020-04-01 | 2020-08-25 | 浙江大学 | 一种面向低时延边缘计算中多跳卸载的任务调度方法 |
CN111506405A (zh) * | 2020-04-08 | 2020-08-07 | 北京交通大学 | 一种基于深度强化学习的边缘计算时间片调度方法 |
CN111813538B (zh) * | 2020-05-27 | 2024-03-29 | 西安交通大学 | 一种边缘计算资源分配方法 |
CN111813538A (zh) * | 2020-05-27 | 2020-10-23 | 西安交通大学 | 一种边缘计算资源分配方法 |
CN112101729B (zh) * | 2020-08-18 | 2023-07-21 | 华南理工大学 | 一种基于深度双q学习的移动边缘计算系统能源分配方法 |
CN112101729A (zh) * | 2020-08-18 | 2020-12-18 | 华南理工大学 | 一种基于深度双q学习的移动边缘计算系统能源分配方法 |
CN111932027B (zh) * | 2020-08-28 | 2022-08-05 | 电子科技大学 | 一种融合边缘设施的云服务综合调度优化系统及方法 |
CN111932027A (zh) * | 2020-08-28 | 2020-11-13 | 电子科技大学 | 一种融合边缘设施的云服务综合调度优化系统及方法 |
CN112434789A (zh) * | 2020-11-06 | 2021-03-02 | 中山大学 | 一种用于边缘视频分析的分布式神经网络模型划分方法 |
CN112434789B (zh) * | 2020-11-06 | 2023-07-07 | 中山大学 | 一种用于边缘视频分析的分布式神经网络模型划分方法 |
CN112561395A (zh) * | 2020-12-25 | 2021-03-26 | 桂林电子科技大学 | 无人机协同方法、系统、装置、电子设备及存储介质 |
CN112752308A (zh) * | 2020-12-31 | 2021-05-04 | 厦门越人健康技术研发有限公司 | 一种基于深度强化学习的移动预测无线边缘缓存方法 |
CN112732444A (zh) * | 2021-01-12 | 2021-04-30 | 北京工业大学 | 一种面向分布式机器学习的数据划分方法 |
CN112818788A (zh) * | 2021-01-25 | 2021-05-18 | 电子科技大学 | 一种基于无人机集群的分布式卷积神经网络分层匹配方法 |
CN112764936B (zh) * | 2021-01-29 | 2022-06-14 | 北京邮电大学 | 基于深度强化学习的边缘计算服务器信息处理方法及装置 |
CN112764936A (zh) * | 2021-01-29 | 2021-05-07 | 北京邮电大学 | 基于深度强化学习的边缘计算服务器信息处理方法及装置 |
CN112929658A (zh) * | 2021-02-05 | 2021-06-08 | 郑州轻工业大学 | 一种针对vvc的基于深度强化学习的快速cu分区方法 |
CN112948112A (zh) * | 2021-02-26 | 2021-06-11 | 杭州电子科技大学 | 一种基于强化学习的边缘计算工作负载调度方法 |
CN113554875A (zh) * | 2021-03-12 | 2021-10-26 | 北京航空航天大学 | 一种基于边缘计算的高速公路异质交通流可变限速控制方法 |
CN113032904A (zh) * | 2021-03-22 | 2021-06-25 | 北京航空航天大学杭州创新研究院 | 模型构建方法、任务分配方法、装置、设备及介质 |
CN113094159B (zh) * | 2021-03-22 | 2024-04-05 | 西安交通大学 | 一种数据中心作业调度方法、系统、存储介质及计算设备 |
CN113094159A (zh) * | 2021-03-22 | 2021-07-09 | 西安交通大学 | 一种数据中心作业调度方法、系统、存储介质及计算设备 |
WO2022199032A1 (zh) * | 2021-03-22 | 2022-09-29 | 北京航空航天大学杭州创新研究院 | 模型构建方法、任务分配方法、装置、设备及介质 |
CN113419855A (zh) * | 2021-06-23 | 2021-09-21 | 重庆邮电大学工业互联网研究院 | 一种基于5g移动边缘计算的任务调度方法 |
CN113419855B (zh) * | 2021-06-23 | 2024-05-07 | 重庆邮电大学工业互联网研究院 | 一种基于5g移动边缘计算的任务调度方法 |
CN113778648A (zh) * | 2021-08-31 | 2021-12-10 | 重庆理工大学 | 分层边缘计算环境中基于深度强化学习的任务调度方法 |
CN113778648B (zh) * | 2021-08-31 | 2023-07-11 | 重庆理工大学 | 分层边缘计算环境中基于深度强化学习的任务调度方法 |
CN113778691A (zh) * | 2021-11-10 | 2021-12-10 | 清华大学 | 一种任务迁移决策的方法、装置及系统 |
CN114170560A (zh) * | 2022-02-08 | 2022-03-11 | 深圳大学 | 一种基于深度强化学习的多设备边缘视频分析系统 |
CN114170560B (zh) * | 2022-02-08 | 2022-05-20 | 深圳大学 | 一种基于深度强化学习的多设备边缘视频分析系统 |
CN114756294A (zh) * | 2022-03-22 | 2022-07-15 | 同济大学 | 一种基于深度强化学习的移动边缘计算卸载方法 |
CN114675975A (zh) * | 2022-05-24 | 2022-06-28 | 新华三人工智能科技有限公司 | 一种基于强化学习的作业调度方法、装置及设备 |
CN115033343A (zh) * | 2022-05-27 | 2022-09-09 | 河南大学 | 一种云环境下遥感数据流程调度模型的建立方法 |
CN115033343B (zh) * | 2022-05-27 | 2024-03-01 | 河南大学 | 一种云环境下遥感数据流程调度模型的建立方法 |
CN115174681B (zh) * | 2022-06-14 | 2023-12-15 | 武汉大学 | 一种边缘计算服务请求调度方法、设备及存储介质 |
CN115174681A (zh) * | 2022-06-14 | 2022-10-11 | 武汉大学 | 一种边缘计算服务请求调度方法、设备及存储介质 |
CN115563527A (zh) * | 2022-09-27 | 2023-01-03 | 西南交通大学 | 一种基于状态分类与指派的多Agent深度强化学习框架及方法 |
CN115563527B (zh) * | 2022-09-27 | 2023-06-16 | 西南交通大学 | 一种基于状态分类与指派的多Agent深度强化学习系统及方法 |
CN115271130A (zh) * | 2022-09-30 | 2022-11-01 | 合肥工业大学 | 面向船舶主动力设备维修订单的动态调度方法及系统 |
CN116455768A (zh) * | 2023-06-16 | 2023-07-18 | 南京邮电大学 | 面向全局时延优化的云边端协同cnn推理方法及系统 |
CN116455768B (zh) * | 2023-06-16 | 2023-09-12 | 南京邮电大学 | 面向全局时延优化的云边端协同cnn推理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109976909B (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109976909A (zh) | 边缘计算网络中基于学习的低延时任务调度方法 | |
Shyalika et al. | Reinforcement learning in dynamic task scheduling: A review | |
Li | Reinforcement learning applications | |
US20210256403A1 (en) | Recommendation method and apparatus | |
Guo et al. | Cloud resource scheduling with deep reinforcement learning and imitation learning | |
CN109902222A (zh) | 一种推荐方法及装置 | |
Kaur et al. | Deep‐Q learning‐based heterogeneous earliest finish time scheduling algorithm for scientific workflows in cloud | |
Kumar et al. | Federated control with hierarchical multi-agent deep reinforcement learning | |
CN110520868A (zh) | 分布式强化学习 | |
CN109753751A (zh) | 一种基于机器学习的mec随机任务迁移方法 | |
CN108595267A (zh) | 一种基于深度强化学习的资源调度方法和系统 | |
CN115037749B (zh) | 一种大规模微服务智能多资源协同调度方法及系统 | |
Liao et al. | A fast Q-learning based data storage optimization for low latency in data center networks | |
CN107066322B (zh) | 一种面向自组织群智感知系统的在线任务分派方法 | |
CN114546608A (zh) | 一种基于边缘计算的任务调度方法 | |
Geng et al. | Interference-aware parallelization for deep learning workload in GPU cluster | |
Wang et al. | Logistics-involved task scheduling in cloud manufacturing with offline deep reinforcement learning | |
CN112529211B (zh) | 一种超参数确定方法、装置、计算机设备和存储介质 | |
Fu et al. | Distributed reinforcement learning-based memory allocation for edge-PLCs in industrial IoT | |
Islam et al. | Transfer Learning in Deep Reinforcement Learning | |
Zhou | Deep learning‐driven distributed communication systems for cluster online educational platform considering human–computer interaction | |
Saha et al. | Reinforcement learning based dialogue management strategy | |
Guo et al. | Multi-objective combinatorial generative adversarial optimization and its application in crowdsensing | |
Rui et al. | Context-based intelligent scheduling and knowledge push algorithms for ar-assist communication network maintenance | |
CN116932198A (zh) | 资源调度方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |