CN111506405A - 一种基于深度强化学习的边缘计算时间片调度方法 - Google Patents

一种基于深度强化学习的边缘计算时间片调度方法 Download PDF

Info

Publication number
CN111506405A
CN111506405A CN202010277548.6A CN202010277548A CN111506405A CN 111506405 A CN111506405 A CN 111506405A CN 202010277548 A CN202010277548 A CN 202010277548A CN 111506405 A CN111506405 A CN 111506405A
Authority
CN
China
Prior art keywords
task
neural network
time
value
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010277548.6A
Other languages
English (en)
Inventor
张振江
李英龙
沈波
赵颖斯
孙枫
朱凯歌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202010277548.6A priority Critical patent/CN111506405A/zh
Publication of CN111506405A publication Critical patent/CN111506405A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于深度强化学习的边缘计算时间片调度方法,包括:获取终端设备上传的多个任务队列,并将该多个任务队列作为样本池;对每个任务队列进行马尔科夫决策过程建模,生成任务状态集合和相对应的动作集合;基于该任务状态集合和相对应的动作集合,通过神经网络训练方法,获得某执行任务时刻的神经网络参数矩阵的值;判断任务状态集合是否全部代入神经网络训练方法;若是,则向样本池输出该执行任务时刻的神经网络参数矩阵的值,作为该执行任务时刻的时间片调度结果;否则,继续执行马尔科夫决策过程建模。本发明提供的方法,加速保证算法的时间效率,同时增加算法本身的泛化性能,让调度机器能够根据实际场景特征自主学习调度策略。

Description

一种基于深度强化学习的边缘计算时间片调度方法
技术领域
本发明涉及边缘计算技术领域,尤其涉及一种基于深度强化学习的边缘计算时间片调度方法。
背景技术
边缘计算是在靠近物或数据源头的网络边缘侧,如图3所示,融合网络、计算、存储、应用核心能力的分布式开放平台,就近为终端设备提供边缘智能服务,满足行业数字化在敏捷联接、实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求。它可以作为联接物理和数字世界的桥梁,使能智能资产,智能网关和智能服务。
在资源调度问题上,传统的求解方式是在特定条件下找到一种有效的启发式算法,并且在以后的实践中根据效果不断调整,以获得最优的结果。启发式算法缺乏统一、完整的理论体系。现阶段,启发式算法以仿自然体算法为主,是一种基于经验构造的算法。启发式算法力求在组合优化问题中找到的一个较为可行的解。启发式算法确实能够为资源调度问题提供一个较优的可行解,但是它的缺点是不稳定而且极度依赖开发者的经验。当调度的需求发生改变或者数据中心的规模进行扩展时,以前的算法可能就不再适用,需要设计者重新构造新的启发式算法。
深度强化学习成为当下机器学习中火热的研究领域。具体框架如图4所示。深度强化学习的本质是解决决策问题,在某个具体问题下寻找一个最优策略,使得在该策略下获得的奖励最大。因此本论文决定运用深度强化学习领域的知识,在数据中心的资源调度上,为人为启发式算法提供一个更优的替代方案。
强化学习又称评价学习,激励学习,是机器学习中与监督学习,无监督学习并列的一种重要的学习范式,在智能控制领域得到了广泛的应用。它可以有效的解决在开放环境下为了自己学习规则并达到长期目标最优的效果。深度强化学习,是将深度学习与强化学习结合的一个技术,近年来在自动驾驶,围棋(AlphaGo)取得了巨大的成功。深度强化学习主要分为基于策略(Policy Based)的强化学习与基于Q值的强化学习。其中,基于策略的强化学习有收敛快的优点。
随着机器学习发展尤其是强化学习的成熟以及车载网移动云计算的成熟,研究利用强化学习来进行任务调度是比较符合当前实际情况的。
发明内容
本发明的实施例提供了一种基于深度强化学习的边缘计算时间片调度方法,用于解决现有技术中存在的技术问题。
为了实现上述目的,本发明采取了如下技术方案。
一种基于深度强化学习的边缘计算时间片调度方法,其特征在于,包括:
A获取终端设备上传的多个任务队列,并将该多个任务队列作为样本池;
B对每个任务队列进行马尔科夫决策过程建模,生成任务状态集合和相对应的动作集合;
C基于该任务状态集合和相对应的动作集合,通过神经网络训练方法,获得某执行任务时刻的神经网络参数矩阵的值;
D判断任务状态集合是否全部代入神经网络训练方法;若是,则向样本池输出该执行任务时刻的神经网络参数矩阵的值,作为该执行任务时刻的时间片调度结果;否则,继续执行步骤C。
优选地,还包括:
获取在后一个或多个执行任务时刻的多个任务队列;
重复步骤B和C,获得在后一个或多个执行任务时刻的神经网络参数矩阵的值;
判断在后一个或多个执行任务时刻的任务状态集合是否全部代入神经网络训练方法;若是,则向样本池输出该在后一个或多个执行任务时刻的神经网络参数矩阵的值,作为该执行任务时刻的时间片调度结果;否则,继续执行步骤C。
优选地,还包括:
当所获取的多个任务队列的数量超过预设阈值时,从样本池中随机抽取预设阈值数量的任务队列,执行步骤B、C和D。
优选地,预设阈值为样本池中的任务队列数量达到100个。
优选地,对每个任务队列进行马尔科夫决策过程建模,生成任务状态集合和相对应的动作集合包括:
通过二维数组G(T,E)来存储所获取的任务队列,其中T表示终端设备上传的任务队列中的任务节点集合,E表示终端设备上传的任务队列中的边集;
定义(Ti,Tj)∈E表示任务j必须在任务i执行完成之后执行,定义V(Ti,Tj)>0表示任务Ti本身的预估执行时间,定义(Vi,Tj)表示任务i和任务j如果被分配到不同的节点执行的通信时间,当V(Ti,Tj)=∞表示任务i和任务j之间没有依赖关系;
通过一个N×(N+l)的二维矩阵VN×(N+l)来表示整个工作流的分配状态S,其中N表示终端设备上传的任务队列中任务节点的总数,矩阵的最后一列即第N+l列,表示每个任务的分配情况;
定义回馈函数
Figure BDA0002445373820000031
其中t(St)表示任务状态St下的总执行时间,C表示初始状态S0下的总执行时间,
Figure BDA0002445373820000032
优选地,基于该任务状态集合和相对应的动作集合,通过神经网络训练方法,获得某执行任务时刻的神经网络参数矩阵的值包括:
设每个时间点t,有马尔科夫过程et=(st,at,rt,st+1),定义存储池D=e1,e2……eN}并初始化,存储池D容量为N,初始化价值动作函数Q,通过梯度下降法迭代M次,M为终端设备上传的M个任务队列数;初始化任务状态集合St中的
Figure BDA0002445373820000033
其中的
Figure BDA0002445373820000034
是s1对应的映射函数,则
Figure BDA0002445373820000035
是st对应的映射函数;获得时间点t相对应的调度方案at
基于时间点t相对应的调度方案at,若调度方案只有一个则为at本身,否则
Figure BDA0002445373820000036
得到任务状态集合(t+1)时间点的任务状态集合st+1=(st+1),将此时的(
Figure BDA0002445373820000037
at,rt,θ)存入存储池;
令i为存储池中终端设备上传的任务队列数,如果i为循环的最后一个终端设备任务队列,则令yi=ri,ri为回馈函数R(St,at)对应时刻的值;如果i不是循环的最后一个终端设备任务队列,则令yi=ri+γmaxa’Q((st),a′;θi),ri为回馈函数R(St,at)对应时刻的值,(st)是st对应的映射函数,a′为对应时间点t的调度方案,Υ为衰减系数;
根据梯度下降算法,构建深度神经网络的损失函数Lii)=Es,a~p(·)[(yi-Q(s,a,θi))2](1),对该损失函数求偏导
Figure BDA0002445373820000038
求得该损失函数的最小值,并将该损失函数的最小值代入公式
Figure BDA0002445373820000041
中对θi进行更新,直至θi收敛或者迭代完成为止,获得神经网络的参数矩阵θi的值,式中α为学习率为常量。
由上述本发明的实施例提供的技术方案可以看出,本发明提供的一种基于深度强化学习的边缘计算时间片调度方法,包括:获取终端设备上传的多个任务队列,并将该多个任务队列作为样本池;对每个任务队列进行马尔科夫决策过程建模,生成任务状态集合和相对应的动作集合;基于该任务状态集合和相对应的动作集合,通过神经网络训练方法,获得某执行任务时刻的神经网络参数矩阵的值;判断任务状态集合是否全部代入神经网络训练方法;若是,则向样本池输出该执行任务时刻的神经网络参数矩阵的值,作为该执行任务时刻的时间片调度结果;否则,继续执行马尔科夫决策过程建模。本发明提供的方法,解决了目前边缘计算环境下时间片调度方法执行时间长,泛化性差的缺陷,加速保证算法的时间效率,同时增加算法本身的泛化性能,让调度机器能够根据实际场景特征自主学习调度策略。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种基于深度强化学习的边缘计算时间片调度方法的处理流程图;
图2为本发明提供的一种基于深度强化学习的边缘计算时间片调度方法的原理框架图;
图3为现有技术中边缘计算架构示意图;
图4为现有技术中强化学习模型框架示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
参见图1和2,本发明提供一种基于深度强化学习的边缘计算时间片调度方法,包括如下步骤:
A获取终端设备上传的多个任务队列,并将该多个任务队列作为样本池;
B对每个任务队列进行马尔科夫决策过程建模,生成任务状态集合和相对应的动作集合;
C基于该任务状态集合和相对应的动作集合,通过神经网络训练方法,获得某执行任务时刻的神经网络参数矩阵的值;
D判断任务状态集合是否全部代入神经网络训练方法;若是,则向样本池输出该执行任务时刻的神经网络参数矩阵的值,作为时间片执行任务的先后顺序的依据,即时间片调度结果;否则,继续执行步骤C。
进一步的,在一些优选实施例中,步骤A中,设任务队列数量为M个;
步骤B中,对每个任务队列进行MDP马尔科夫决策过程建模,生成任务状态集合S;
步骤C中,根据神经网络的训练方法DQN,将M个任务队列生成的任务状态集合S和对应的已知动作集合A作为输入,代入深度神经网络公式Q(s,a;θi),求得执行任务i时的神经网络参数矩阵的值θi的值,Q为动作价值函数,s为任务集合S中的一个,a为动作集合A中的一个调度方案;
步骤D中,判断执行环境中终端设备上传的任务状态集合S是否全部依次代入神经网络的训练方法DQN,如果全部代入,则输出最终的神经网络参数矩阵θi的值,如果没有则继续执行神经网络的训练方法DQN。
本发明提供的方法,在Q学习算法即深度强化学习的基础上,引入深度神经网络来替代Q(s,a)即Q(s,a;θi)其中θi为神经网络的参数矩阵,θi为神经网络的参数矩阵采用神经网络的训练方法DQN计算得到最小值,而s通过数学建模得到,根据神经网络的训练方法DQN计算得到最小值θi和s代入Q(s,a;θi)公式,即可得到最佳的调度方案a。神经网络包含很多层次,每一层次包含若干神经元,一个神经元本质上可以描述为函数,接收上层神经元的输出,经过函数计算,输出给下层神经元。神经元内部采用的函数,在本发明中称之为激活函数,一般采用ReLu(Rectified LinearUnits)激活函数,具体如下所示,对于输入向量s,s即为MDP建模中任务状态集合中的一个,则有
f(θs)=max(0,θs) (4)
对于一层中的一个神经元而言,θ本质上是一个1*n向量。根据神经网络的这种一一映射关系,得到θ值后,即可找到对应的Q(s,a;θi)的值,然后根据数学建模得到的s代入得到最佳的调度方案a。该调度方案a使工作流上的任务按照一定的顺序调度到合适执行节点上执行,使执行代价最小。该方法避免出现Q学习算法中因为状态数S和动作集合A可能很大,往往计算机没办法存下的缺陷。
本发明提供的方法在调度上即不像普通启发式算法一样采用同一模型对不同的任务队列进行调度,也不像遗传算法一样,在计算调度结果过程中进行多次迭代执行,消耗大量时间。同时,没有单纯采用Q学习算法,而是采用DQN(Q学习算法结合深度神经网络)来进行任务队列调度。由于基于深度神经网络的计算可以通过GPU加速保证算法的时间效率,同时增加算法本身的泛化性能,让调度机器能够根据实际场景特征自主学习调度策略。
在本发明提供的实施例中,对于终端设备新上传的任务队列,同样进行MDP马尔科夫决策过程建模,其过程可以是:
获取在后一个或多个执行任务时刻的多个任务队列;
重复步骤B和C,获得在后一个或多个执行任务时刻的神经网络参数矩阵的值;
判断在后一个或多个执行任务时刻的任务状态集合是否全部代入神经网络训练方法;若是,则向样本池输出该在后一个或多个执行任务时刻的神经网络参数矩阵的值,作为该执行任务时刻的时间片调度结果;否则,继续执行步骤C。
在第二个子步骤中,具体可以包括如下过程:
对在后一个或多个执行任务时刻的多个任务队列进行MDP马尔科夫决策过程建模,生成初始任务状态S0,代入步骤D中的深度神经网络公式Q(s,a;θi),其中θi的值为步骤D中计算得到的值,即可获得最终的动作集合A中的一个调度方案a,并且将这次终端设备上传的任务队列状态以及调度结果输入到样本池。
在本发明提供的优选实施例中,当一段时间内接收到的任务队列数量较大时,还包括根据预设条件自主进行调度的过程,其包括如下步骤:
当所获取的多个任务队列的数量超过预设阈值时,从样本池中随机抽取预设阈值数量的任务队列,执行步骤B、C和D。
具体可以是,当样本池累积到一定程度之后,重复步骤C对深度神经网络公式Q(s,a;θi)进行再计算,得到新的值和新的深度神经网络Q(s,a;θi)用于后续输入终端设备上传的任务队列调度计算。
更进一步的,样本池累计到一定程度是指样本池中累计增加的终端设备上传的任务队列的样本数量超过100,就启动一次步骤C进行计算,训练样本会随机从样本池中取样100个终端设备上传的任务队列进行计算。随着样本池中终端设备上传的任务队列的不断增加,利用神经网络的训练方法DQN,不断的更新θi的值后,再进行计算得到最佳的调度方案,让调度机器能够根据实际场景特征自主学习调度策略。
进一步的,在一些优选实施例中,上述的对每个任务队列进行马尔科夫决策过程建模,生成任务状态集合和相对应的动作集合包括:
通过二维数组G(T,E)来存储所获取的任务队列,其中T表示终端设备上传的任务队列中的任务节点集合,E表示终端设备上传的任务队列中的边集;
定义(Ti,Tj)∈E表示任务j必须在任务i执行完成之后执行,定义V(Ti,Tj)>0表示任务Ti本身的预估执行时间,定义(Vi,Tj)表示任务i和任务j如果被分配到不同的节点执行的通信时间,当V(Ti,Tj)=∞表示任务i和任务j之间没有依赖关系;
通过一个N×(N+l)的二维矩阵VN×(N+l)来表示整个工作流的分配状态S,其中N表示终端设备上传的任务队列中任务节点的总数,矩阵的最后一列即第N+l列,表示每个任务的分配情况;
定义回馈函数
Figure BDA0002445373820000081
其中t(St)表示任务状态St下的总执行时间,C表示初始状态S0下的总执行时间,
Figure BDA0002445373820000082
进一步的,在一些优选实施例中,上述的基于该任务状态集合和相对应的动作集合,通过神经网络训练方法,获得某执行任务时刻的神经网络参数矩阵的值包括:
设每个时间点t,根据马尔科夫过程et=(st,at,rt,st+1),定义存储池D=e1,e2……eN}并初始化,存储池D容量为N,初始化价值动作函数Q,通过梯度下降法迭代M次,M为终端设备上传的M个任务队列数,初始化任务状态集合St中的
Figure BDA0002445373820000083
其中的中
Figure BDA0002445373820000084
是s1对应的映射函数,则
Figure BDA0002445373820000085
是st对应的映射函数;
基于时间点t相对应的调度方案at,若调度方案只有一个则为at本身,否则
Figure BDA0002445373820000086
得到任务状态集合(t+1)时间点的任务状态集合st+1=(st+1),将此时的(
Figure BDA0002445373820000087
at,rt,θ);
最上述子步骤的所有判断结果继续执行如下子步骤,令i为存储池中终端设备上传的任务队列数,如果i为循环的最后一个终端设备任务队列,则令yi=ri,ri为回馈函数R(St,at)对应时刻的值;如果i不是循环的最后一个终端设备任务队列,则令yi=ri+γmaxa’Q((st),a′;θi),ri为回馈函数R(St,at)对应时刻的值,(st)是st对应的映射函数,a′为对应时间点t的调度方案,Υ为衰减系数;
根据梯度下降算法,构建深度神经网络的损失函数Lii)=Es,a~p(·)[(yi-Q(s,a,θi))2](1),对该损失函数求偏导
Figure BDA0002445373820000088
求得该损失函数的最小值,并将该损失函数的最小值代入公式
Figure BDA0002445373820000089
中对θi进行更新,直至θi收敛或者迭代完成为止,获得神经网络的参数矩阵θi的值,式中α为学习率为常量。
综上所述,本发明提供的一种基于深度强化学习的边缘计算时间片调度方法,应用了基于深度学习的边缘计算时间片调度算法,解决目前边缘计算环境下时间片调度方法执行时间长,泛化性差的缺陷,加速保证算法的时间效率,同时增加算法本身的泛化性能,让调度机器能够根据实际场景特征自主学习调度策略。
本发明提供的方法,主要涉及终端设备和边缘计算服务器,将多个终端设备将数据上传到边缘服务器组成任务集进行数据分析计算。本发明主要包括模仿学习和深度强化学习两部分。在深度强化学习之前使用模仿学习算法,通过已有的专家决策使得模型效果得到快速提升,然后通过神经网络反复训练找到时间片最佳调度策略,使得边缘服务器计算任务总时间达到最短。
让数据中心的调度通过卷积神经网络来决策。输入是数据中心的状态空间示意图,输出是所有动作的概率分布。首先使用模仿学习训练的参数,初始化神经网络模型。接着通过设置一组任务集,让任务集中的作业抵达数据中心,再依据深度强化学习的策略进行安排调度,直至任务集的所有任务都被完成,记录下所有的决策轨迹。经过反复的训练,深度强化学习策略越来越接近预设目标。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (6)

1.一种基于深度强化学习的边缘计算时间片调度方法,其特征在于,包括:
A获取终端设备上传的多个任务队列,并将该多个任务队列作为样本池;
B对每个任务队列进行马尔科夫决策过程建模,生成任务状态集合和相对应的动作集合;
C基于该任务状态集合和相对应的动作集合,通过神经网络训练方法,获得某执行任务时刻的神经网络参数矩阵的值;
D判断任务状态集合是否全部代入神经网络训练方法;若是,则向样本池输出该执行任务时刻的神经网络参数矩阵的值,作为该执行任务时刻的时间片调度结果;否则,继续执行步骤C。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取在后一个或多个执行任务时刻的多个任务队列;
重复步骤B和C,获得在后一个或多个执行任务时刻的神经网络参数矩阵的值;
判断在后一个或多个执行任务时刻的任务状态集合是否全部代入神经网络训练方法;若是,则向样本池输出该在后一个或多个执行任务时刻的神经网络参数矩阵的值,作为该执行任务时刻的时间片调度结果;否则,继续执行步骤C。
3.根据权利要求1所述的方法,其特征在于,还包括:
当所获取的多个任务队列的数量超过预设阈值时,从样本池中随机抽取预设阈值数量的任务队列,执行步骤B、C和D。
4.根据权利要求3所述的方法,其特征在于,预设阈值为样本池中的任务队列数量达到100个。
5.根据权利要求1至4任一所述的方法,其特征在于,所述的对每个任务队列进行马尔科夫决策过程建模,生成任务状态集合和相对应的动作集合包括:
通过二维数组G(T,E)来存储所获取的任务队列,其中T表示终端设备上传的任务队列中的任务节点集合,E表示终端设备上传的任务队列中的边集;
定义(Ti,Tj)∈E表示任务j必须在任务i执行完成之后执行,定义V(Ti,Tj)>0表示任务Ti本身的预估执行时间,定义(Vi,Tj)表示任务i和任务j如果被分配到不同的节点执行的通信时间,当V(Ti,Tj)=∞表示任务i和任务j之间没有依赖关系;
通过一个N×(N+l)的二维矩阵VN×(N+l)来表示整个工作流的分配状态S,其中N表示终端设备上传的任务队列中任务节点的总数,矩阵的最后一列即第N+l列,表示每个任务的分配情况;
定义回馈函数
Figure FDA0002445373810000021
其中t(St)表示任务状态St下的总执行时间,C表示初始状态S0下的总执行时间,
Figure FDA0002445373810000022
6.根据权利要求1至4任一所述的方法,其特征在于,所述的基于该任务状态集合和相对应的动作集合,通过神经网络训练方法,获得某执行任务时刻的神经网络参数矩阵的值包括:
设每个时间点t,有马尔科夫过程et=(st,at,rt,st+1),定义存储池D=e1,e2……eN}并初始化,存储池D容量为N,初始化价值动作函数Q,通过梯度下降法迭代M次,M为终端设备上传的M个任务队列数;初始化任务状态集合St中的
Figure FDA0002445373810000023
其中的
Figure FDA0002445373810000024
是s1对应的映射函数,则
Figure FDA0002445373810000025
是st对应的映射函数;获得时间点t相对应的调度方案at
基于时间点t相对应的调度方案at,若调度方案只有一个则为at本身,否则
Figure FDA0002445373810000026
得到任务状态集合(t+1)时间点的任务状态集合st+1=(st+1),将此时的
Figure FDA0002445373810000027
存入存储池;
令i为存储池中终端设备上传的任务队列数,如果i为循环的最后一个终端设备任务队列,则令yi=ri,ri为回馈函数R(St,at)对应时刻的值;如果i不是循环的最后一个终端设备任务队列,则令yi=ri+γmaxa’ Q((st),a′;θi),ri为回馈函数R(St,at)对应时刻的值,(st)是st对应的映射函数,a′为对应时间点t的调度方案,Υ为衰减系数;
根据梯度下降算法,构建深度神经网络的损失函数Lii)=Es,a~p(·)[(yi-Q(s,a,θi))2](1),对该损失函数求偏导
Figure FDA0002445373810000028
(2),求得该损失函数的最小值,并将该损失函数的最小值代入公式
Figure FDA0002445373810000029
(3)中对θi进行更新,直至θi收敛或者迭代完成为止,获得神经网络的参数矩阵θi的值,式中α为学习率为常量。
CN202010277548.6A 2020-04-08 2020-04-08 一种基于深度强化学习的边缘计算时间片调度方法 Pending CN111506405A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010277548.6A CN111506405A (zh) 2020-04-08 2020-04-08 一种基于深度强化学习的边缘计算时间片调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010277548.6A CN111506405A (zh) 2020-04-08 2020-04-08 一种基于深度强化学习的边缘计算时间片调度方法

Publications (1)

Publication Number Publication Date
CN111506405A true CN111506405A (zh) 2020-08-07

Family

ID=71870897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010277548.6A Pending CN111506405A (zh) 2020-04-08 2020-04-08 一种基于深度强化学习的边缘计算时间片调度方法

Country Status (1)

Country Link
CN (1) CN111506405A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN112766782A (zh) * 2021-01-28 2021-05-07 哈尔滨工业大学(深圳) 政务流程的建模方法、调度方法、智能设备和存储介质
CN113211441A (zh) * 2020-11-30 2021-08-06 湖南太观科技有限公司 神经网络训练和机器人控制方法及装置
CN113344317A (zh) * 2021-04-09 2021-09-03 东莞理工学院 一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法
CN113487165A (zh) * 2021-07-01 2021-10-08 福州大学 基于深度强化学习的智能工厂生产作业调度方法及系统
CN113641496A (zh) * 2021-08-13 2021-11-12 西安工程大学 基于深度强化学习的dids任务调度优化方法
CN113837396A (zh) * 2021-09-26 2021-12-24 中国联合网络通信集团有限公司 基于b-m2m的设备模仿学习方法、mec及存储介质
CN114090239A (zh) * 2021-11-01 2022-02-25 国网江苏省电力有限公司信息通信分公司 一种基于模型的强化学习的边缘资源调度方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228314A (zh) * 2016-08-11 2016-12-14 电子科技大学 基于深度增强学习的工作流调度方法
CN109753751A (zh) * 2019-01-20 2019-05-14 北京工业大学 一种基于机器学习的mec随机任务迁移方法
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106228314A (zh) * 2016-08-11 2016-12-14 电子科技大学 基于深度增强学习的工作流调度方法
CN109753751A (zh) * 2019-01-20 2019-05-14 北京工业大学 一种基于机器学习的mec随机任务迁移方法
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112186743A (zh) * 2020-09-16 2021-01-05 北京交通大学 一种基于深度强化学习的动态电力系统经济调度方法
CN113211441A (zh) * 2020-11-30 2021-08-06 湖南太观科技有限公司 神经网络训练和机器人控制方法及装置
CN113211441B (zh) * 2020-11-30 2022-09-09 湖南太观科技有限公司 神经网络训练和机器人控制方法及装置
CN112766782A (zh) * 2021-01-28 2021-05-07 哈尔滨工业大学(深圳) 政务流程的建模方法、调度方法、智能设备和存储介质
CN113344317A (zh) * 2021-04-09 2021-09-03 东莞理工学院 一种基于双深度时序差分神经网络的紧密协作型供应链任务调度方法
CN113487165A (zh) * 2021-07-01 2021-10-08 福州大学 基于深度强化学习的智能工厂生产作业调度方法及系统
CN113487165B (zh) * 2021-07-01 2024-05-03 福州大学 基于深度强化学习的智能工厂生产作业调度方法及系统
CN113641496A (zh) * 2021-08-13 2021-11-12 西安工程大学 基于深度强化学习的dids任务调度优化方法
CN113641496B (zh) * 2021-08-13 2023-12-12 陕西边云协同网络科技有限责任公司 基于深度强化学习的dids任务调度优化方法
CN113837396A (zh) * 2021-09-26 2021-12-24 中国联合网络通信集团有限公司 基于b-m2m的设备模仿学习方法、mec及存储介质
CN113837396B (zh) * 2021-09-26 2023-08-04 中国联合网络通信集团有限公司 基于b-m2m的设备模仿学习方法、mec及存储介质
CN114090239A (zh) * 2021-11-01 2022-02-25 国网江苏省电力有限公司信息通信分公司 一种基于模型的强化学习的边缘资源调度方法和装置

Similar Documents

Publication Publication Date Title
CN111506405A (zh) 一种基于深度强化学习的边缘计算时间片调度方法
KR102563752B1 (ko) 뉴럴 네트워크를 위한 트레이닝 방법, 뉴럴 네트워크를 이용한 인식 방법 및 그 장치들
CN112434462B (zh) 一种模型的获取方法及设备
US20210278825A1 (en) Real-Time Production Scheduling with Deep Reinforcement Learning and Monte Carlo Tree Research
AU2024200810A1 (en) Training tree-based machine-learning modeling algorithms for predicting outputs and generating explanatory data
CN110977967A (zh) 一种基于深度强化学习的机器人路径规划方法
CN107169573A (zh) 利用复合机器学习模型来执行预测的方法及系统
CN113361680A (zh) 一种神经网络架构搜索方法、装置、设备及介质
Nguyen et al. Efficient time-series forecasting using neural network and opposition-based coral reefs optimization
CN111406264A (zh) 神经架构搜索
US20220147897A1 (en) Machine learning for predictive optmization
CN110473592A (zh) 基于图卷积网络的有监督的多视角人类协同致死基因预测方法
US11514327B2 (en) Apparatus and method for utilizing a parameter genome characterizing neural network connections as a building block to construct a neural network with feedforward and feedback paths
CN112269729A (zh) 面向网络购物平台大规模服务器集群的负载智能分析方法
CN117707795A (zh) 基于图的模型划分的边端协同推理方法及系统
Al-Laham et al. Parameter identification of a multilayer perceptron neural network using an optimized salp swarm algorithm
CN110705756B (zh) 一种基于输入凸神经网络的电力能耗优化控制方法
CN115756873B (zh) 一种基于联邦强化学习的移动边缘计算卸载方法和平台
CN110610231A (zh) 一种信息处理方法、电子设备和存储介质
EP3614314A1 (en) Method and apparatus for generating chemical structure using neural network
CN115903901A (zh) 内部状态未知的无人集群系统输出同步优化控制方法
Yousif et al. Deep learning-based surrogate modeling for performance-driven generative design systems
CN110450164A (zh) 机器人控制方法、装置、机器人及存储介质
CN115034356A (zh) 一种用于横向联邦学习的模型融合方法及系统
CN113485107B (zh) 基于一致性约束建模的强化学习机器人控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination