CN109656702A - 一种基于强化学习的跨数据中心网络任务调度方法 - Google Patents

一种基于强化学习的跨数据中心网络任务调度方法 Download PDF

Info

Publication number
CN109656702A
CN109656702A CN201811561700.2A CN201811561700A CN109656702A CN 109656702 A CN109656702 A CN 109656702A CN 201811561700 A CN201811561700 A CN 201811561700A CN 109656702 A CN109656702 A CN 109656702A
Authority
CN
China
Prior art keywords
data center
resource
task
network
intensified learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811561700.2A
Other languages
English (en)
Other versions
CN109656702B (zh
Inventor
顾华玺
魏雯婷
王琨
杨其鹏
陈子启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201811561700.2A priority Critical patent/CN109656702B/zh
Publication of CN109656702A publication Critical patent/CN109656702A/zh
Application granted granted Critical
Publication of CN109656702B publication Critical patent/CN109656702B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于强化学习的跨数据中心网络任务调度方法,主要解决跨数据中心网络中通过强化学习的方式实现任务自适应实时调度与三种资源均衡有效使用的问题。具体步骤包括:1.生成训练数据集;2.生成强化学习的状态空间和动作空间;3.计算动作空间中可行动作的奖励值;4.训练强化学习任务调度模型;5.调度跨数据中心网络中实时到达的任务。本发明通过采用强化学习方法实现跨数据中心网络的任务调度,以三维资源均衡且有效利用为目标,优化了跨数据中心网络的性能,提高了跨数据中心网络的资源利用率。

Description

一种基于强化学习的跨数据中心网络任务调度方法
技术领域
本发明属于通信技术领域,更进一步涉及有线通信网络技术领域中的一种基于强化学习的跨数据中心网络任务调度方法。本发明可应用于由多个数据中心组成的跨数据中心网络中,实现对用户任务的调度,以满足用户在完成任务时对跨数据中心网络中计算资源、内存资源、硬盘存储资源的请求,实现跨数据中心网络资源的有效分配。
背景技术
随着5G、物联网、机器学习、AR/VR等技术的出现,跨数据中心网络大规模部署,网络流量突发式增长、网络状态实时变化以及业务需求呈现多元化态势,为跨数据中心网络任务调度以及资源的管理带来了巨大的挑战。现有的任务调度机制采用固定式启发式策略,即通过人工精细设计的启发式算法来解决,以得到研究问题的简化模型,并通过调整启发式算法参数以获得更好的网络性能。然而基于固定启发式策略的任务调度,由于缺乏与网络环境状态信息以及网络流量信息的交互,缺少自适应调整并优化模型参数的机制,仅能够为特定的通信网络环境提供高性能的任务调度,无法适应用户任务需求与网络环境的动态变化,在资源优化和网络性能提升方面受到一定程度的限制。
Zhiming Hu等人在其发表论文“Time-and Cost-Efficient Task SchedulingAcross Geo-Distributed Data Centers”(IEEE T PARALL DISTR vol.29,no.3, pp.705-718.2018.3)中提出一种启发式算法实现跨数据中心网络任务调度的方法。该方法步骤是,第一步:采集到达数据中心任务集合的资源需求;第二步:检查所有数据中心的剩余资源情况;第三步:将资源需求信息送到线性程序决策器;第四步:从线性程序解决器获得每个数据中心的资源分配情况;第五步:按照第四步中的资源分配情况,将每个任务分配到对应的数据中心中进行处理。该方法存在的不足之处是,未通过量化多维资源的碎片化程度实现多维资源的有效利用,造成资源碎片化,影响了数据中心的工作效率;该方法属于固定式启发式策略,缺少与网络环境实时状态的交互,无法在网络环境与任务需求动态变化的情况下自适应地优化调度策略,在资源优化和网络性能提升方面受到一定程度的限制。
中国科学院重庆绿色智能技术研究院在其申请的专利文献“一种基于深度强化学习的资源调度方法和系统”(申请号:201810350436.1申请日:2018.04.18申请公布号:CN108595267 A)中公开了一种基于深度强化学习网络模型资源调度方法。该方法的具体步骤是,第一步:系统通过日志文件采集用户的行为数据,包括用户对任务所需资源的申请情况、资源的调度记录等;第二步:系统通过用户保留在系统内的任务信息,自动根据用户的任务进行训练,得到一种适合的调度算法作为用户的初始调度算法,用于生成相对应的调度结果;第三步:用户对当前返回的调度结果进行评估,并做出是否接受当前调度策略的选择;第四步:如果用户满意当前调度策略所产生的调度结果,则系统认为该算法为适合该用户的个性化调度算法;第五步:如果用户不满意当前调度策略所产生的调度结果,则用户可以通过系统提供的调度算法接口,选择再次训练调度策略。该方法存在的不足之处是,只考虑了用户任务请求一维资源时的任务调度情况,对于多维资源的任务请求,该方法并没有明确指出如何调度,而在实际跨数据中心网络任务调度中,用户任务的资源请求通常是由多种资源构成,因此该方法无法适用于跨数据中心网络任务调度。
发明内容
本发明的目的是针对上述现有技术的不足,提出一种基于强化学习的跨数据中心网络任务调度方法。本发明在对跨数据中心网络中来自用户的任务进行调度时,通过与跨数据中心网络环境的交互,及时感知跨数据中心网络环境信息的变化,通过收集当前跨数据中心网络任务调度决策产生的性能效果反馈,实时调整任务调度决策,以适应跨数据中心网络中无先验知识且网络环境高速动态变化的特点,实现智能化任务调度与资源分配,有效改善跨数据中心网络性能。此外,本发明在计算动作空间中可行动作的奖励值时,不仅考虑到数据中心的剩余可用资源,同时考虑到数据中心三种资源的均衡度,有效改善数据中心三种资源的均衡使用,提高跨数据中心网络的资源利用率。
实现本发明的具体思路是:采用强化学习的方法对跨数据中心网络中的任务进行实时调度,将跨数据中心网络拓扑信息、来自用户的任务资源需求信息以及跨数据中心网络状态信息作为强化学习的状态空间,将供给任务资源服务的可行数据中心的集合作为强化学习的动作空间,利用深度Q网络方法,通过与跨数据中心网络环境的交互学习而训练得到基于强化学习的任务调度模型,及时感知跨数据中心网络环境信息的变化,克服现有技术中无法动态适应网络环境的动态变化、无法自适应地调整任务调度决策等瓶颈。本发明以多维资源均衡且有效利用为目标,通过考虑数据中心的剩余可用资源以及数据中心三种资源的均衡程度,计算动作空间中可行动作的奖励值,克服现有技术在任务调度中由于资源碎片化严重而导致的资源利用率低的问题。
实现本发明目的的具体步骤如下:
(1)生成训练数据集:
将一段时间内用户的历史任务资源请求,组成训练数据集;
(2)生成强化学习的状态空间和动作空间:
(2a)将用户的历史任务资源请求以及跨数据中心网络中各数据中心的计算资源、内存资源、硬盘存储资源信息,组成强化学习的状态空间;
(2b)将跨数据中心网络中所有节点集合,组成强化学习的动作空间;
(3)计算动作空间中可行动作的奖励值:
(3a)按照下式,计算每个数据中心的归一化剩余计算资源、归一化剩余内存资源、归一化剩余硬盘存储资源中的最小值,将该最小值作为该数据中心的归一化可用资源:
其中,Rl表示第l个数据中心的归一化可用资源,min表示取最小值操作,Rl,CPU表示第l个数据中心剩余的计算资源,Cl,CPU表示第l个数据中心的计算资源总量,表示第l个数据中心的归一化剩余计算资源,Rl,Mem表示第l个数据中心剩余的内存资源,Cl,Mem表示第l个数据中心的内存资源总量,表示第l个数据中心的归一化剩余内存资源,Rl,Disk表示第l个数据中心的剩余硬盘存储资源,Cl,Disk表示第l 个数据中心的硬盘存储资源总量,表示第l个数据中心的归一化剩余硬盘存储资源;
(3b)按照下式,计算每个数据中心的三种归一化可用资源的均衡度:
其中,Bl表示第l个数据中心的三种归一化可用资源的均衡度,表示开立方根操作;
(3c)按照下式,计算动作空间中可行动作的奖励值:
其中,r表示动作空间中可行动作的奖励值,∑表示求和操作,L表示数据中心集合;
(4)训练强化学习任务调度模型:
利用深度Q网络方法,对神经网络进行训练,得到训练好的强化学习任务调度模型;
(5)调度跨数据中心网络中实时到达的任务:
(5a)采集跨数据中心网络中实时到达的每一个任务资源请求,用每一个实时到达的任务资源请求更新状态空间中的任务资源请求信息;
(5b)将更新后的任务资源请求以及各数据中心的计算资源、内存资源、硬盘存储资源信息,输入到训练好的强化学习任务调度模型中,输出跨数据中心网络的任务调度资源分配向量;
(5c)按照任务调度资源分配向量中每个任务对应可行动作的节点序号,将每个任务分配到对应的数据中心。
本发明与现有技术相比具有以下优点:
第一,由于本发明采用强化学习方法进行跨数据中心网络的任务调度,克服现有技术由于缺少与网络环境实时状态的交互而导致的无法适应用户任务请求与网络环境的动态变化的问题,使得本发明具有任务调度策略自适应实时优化的特点,有助于优化跨数据中心网络资源分配、提升跨数据中心网络性能。
第二,本发明在设计强化学习任务调度模型时,以三种资源有效利用且均衡使用为目标,通过考虑数据中心的剩余可用资源并量化三种资源的均衡程度,计算动作空间中可行动作的奖励值,克服了现有技术在任务调度中由于资源使用不均衡而导致的资源碎片化严重且资源利用率低的问题,使得本发明具有三种资源均衡且有效利用的特点,有助于提高跨数据中心网络的资源利用率。
附图说明
图1为本发明的流程图;
图2为本发明利用深度Q网络方法训练强化学习模型步骤的流程图。
具体实施方式
下面结合附图对本发明做进一步的详细描述。
参照附图1,对本发明的具体步骤做进一步的详细描述。
步骤1,生成训练数据集。
将一段时间内用户的历史任务资源请求,组成训练数据集。
步骤2,生成强化学习的状态空间和动作空间。
将用户的历史任务资源请求以及跨数据中心网络中各数据中心的计算资源、内存资源、硬盘存储资源信息,组成强化学习的状态空间。
将跨数据中心网络中所有节点集合,组成强化学习的动作空间。
步骤3,计算动作空间中可行动作的奖励值。
按照下式,计算每个数据中心的归一化剩余计算资源、归一化剩余内存资源、归一化剩余硬盘存储资源中的最小值,将该最小值作为该数据中心的归一化可用资源:
其中,Rl表示第l个数据中心的归一化可用资源,min表示取最小值操作,Rl,CPU表示第l个数据中心剩余的计算资源,Cl,CPU表示第l个数据中心的计算资源总量,表示第l个数据中心的归一化剩余计算资源,Rl,Mem表示第l个数据中心剩余的内存资源,Cl,Mem表示第l个数据中心的内存资源总量,表示第l个数据中心的归一化剩余内存资源,Rl,Disk表示第l个数据中心的剩余硬盘存储资源,Cl,Disk表示第l 个数据中心的硬盘存储资源总量,表示第l个数据中心的归一化剩余硬盘存储资源。
按照下式,计算每个数据中心的三种归一化可用资源的均衡度:
其中,Bl表示第l个数据中心的三种归一化可用资源的均衡度,表示开立方根操作。
按照下式,计算动作空间中可行动作的奖励值:
其中,r表示动作空间中可行动作的奖励值,∑表示求和操作,L表示数据中心集合。
步骤4,训练强化学习任务调度模型。
利用深度Q网络方法,对神经网络进行训练,得到训练好的强化学习任务调度模型。
参照附图2,对深度Q网络方法的具体步骤做进一步的详细描述。
第1步,从训练数据集中随机选取一个任务资源请求,将所选任务资源请求以及各数据中心的计算资源、内存资源、硬盘存储资源信息输入深度估值神经网络,计算任务资源请求的各个动作的价值;
第2步,从0到1之间随机选取一个小数,若所取小数在0到0.9之间,则选取动作价值最大的动作作为可行动作,若所取小数在0.9到1之间,则随机选取除动作价值最大的动作之外的一个动作作为可行动作;
第3步,根据可行动作对该任务进行调度并根据其资源请求分配相应的资源,用分配后的剩余计算资源、剩余内存资源、剩余硬盘存储资源信息更新下一回合的状态空间;
第4步,将状态空间、可行动作、可行动作的奖励值以及更新后下一回合的状态空间组成经验数据元组,存入经验数据元组集合;
第5步,判断分配后跨数据中心网络的三种剩余资源是否有一种为空,若是,则将训练回合次数加1执行第六步,否则,执行第7步;
第6步,判断训练回合是否达一百万回合,若是,执行第14步,否则,执行第 1步;
第7步,在经验数据元组集合中随机选择一个元组;
第8步,将所选经验数据元组中的状态空间送入深度估值神经网络中,计算任务资源需求的动作价值;
第9步,将下一回合状态空间中的任务资源请求以及各数据中心的资源信息,送入深度目标神经网络,计算下一回合状态空间对应动作价值最大的动作;
第10步,通过动作的奖励值、动作价值、下一回合状态空间对应最大的动作价值构造深度估值神经网络的损失函数;
第11步,以减小损失函数值为目标,使用随机梯度下降法更新深度估值神经网络的参数;
第12步,判断训练回合是否为一千的整数倍,若是,执行第13步,否则,执行第一步;
第13步,将深度估值神经网络参数赋给深度目标神经网络,返回第1步;
第14步,得到训练好的强化学习任务调度模型。
步骤5,调度跨数据中心网络中实时到达的任务。
采集跨数据中心网络中实时到达的每一个任务资源请求,用每一个实时到达的任务资源请求更新状态空间中的任务资源请求信息。
将更新后的任务资源请求以及各数据中心的计算资源、内存资源、硬盘存储资源信息,输入到训练好的强化学习任务调度模型中,输出跨数据中心网络的任务调度资源分配向量。
按照任务调度资源分配向量中每个任务对应可行动作的节点序号,将每个任务分配到对应的数据中心。

Claims (2)

1.一种基于强化学习的跨数据中心网络任务调度方法,其特征在于,计算动作空间中可行动作的奖励值,训练强化学习任务调度模型,调度跨数据中心网络中实时到达的任务;该方法的步骤包括如下:
(1)生成训练数据集:
将一段时间内用户的历史任务资源请求,组成训练数据集;
(2)生成强化学习的状态空间和动作空间:
(2a)将用户的历史任务资源请求以及跨数据中心网络中各数据中心的计算资源、内存资源、硬盘存储资源信息,组成强化学习的状态空间;
(2b)将跨数据中心网络中所有节点集合,组成强化学习的动作空间;
(3)计算动作空间中可行动作的奖励值:
(3a)按照下式,计算每个数据中心的归一化剩余计算资源、归一化剩余内存资源、归一化剩余硬盘存储资源中的最小值,将该最小值作为该数据中心的归一化可用资源:
其中,Rl表示第l个数据中心的归一化可用资源,min表示取最小值操作,Rl,CPU表示第l个数据中心剩余的计算资源,Cl,CPU表示第l个数据中心的计算资源总量,表示第l个数据中心的归一化剩余计算资源,Rl,Mem表示第l个数据中心剩余的内存资源,Cl,Mem表示第l个数据中心的内存资源总量,表示第l个数据中心的归一化剩余内存资源,Rl,Disk表示第l个数据中心的剩余硬盘存储资源,Cl,Disk表示第l个数据中心的硬盘存储资源总量,表示第l个数据中心的归一化剩余硬盘存储资源;
(3b)按照下式,计算每个数据中心的三种归一化可用资源的均衡度:
其中,Bl表示第l个数据中心的三种归一化可用资源的均衡度,表示开立方根操作;
(3c)按照下式,计算动作空间中可行动作的奖励值:
其中,r表示动作空间中可行动作的奖励值,∑表示求和操作,L表示数据中心集合;
(4)训练强化学习任务调度模型:
利用深度Q网络方法,对神经网络进行训练,得到训练好的强化学习任务调度模型;
(5)调度跨数据中心网络中实时到达的任务:
(5a)采集跨数据中心网络中实时到达的每一个任务资源请求,用每一个实时到达的任务资源请求更新状态空间中的任务资源请求信息;
(5b)将更新后的任务资源请求以及各数据中心的计算资源、内存资源、硬盘存储资源信息,输入到训练好的强化学习任务调度模型中,输出跨数据中心网络的任务调度资源分配向量;
(5c)按照任务调度资源分配向量中每个任务对应可行动作的节点序号,将每个任务分配到对应的数据中心。
2.根据权利要求1所述的基于强化学习的跨数据中心网络任务调度方法,其特征在于,步骤(4)中所述深度Q网络方法的具体步骤如下:
第一步,从训练数据集中随机选取一个任务资源请求,将所选任务资源请求以及各数据中心的计算资源、内存资源、硬盘存储资源信息输入深度估值神经网络,计算任务资源请求的各个动作的价值;
第二步,从0到1之间随机选取一个小数,若所取小数在0到0.9之间,则选取动作价值最大的动作作为可行动作,若所取小数在0.9到1之间,则随机选取除动作价值最大的动作之外的一个动作作为可行动作;
第三步,根据可行动作对该任务进行调度并根据其资源请求分配相应的资源,用分配后的剩余计算资源、剩余内存资源、剩余硬盘存储资源信息更新下一回合的状态空间;
第四步,将状态空间、可行动作、可行动作的奖励值以及更新后下一回合的状态空间组成经验数据元组,存入经验数据元组集合;
第五步,判断分配后跨数据中心网络的三种剩余资源是否有一种为空,若是,则将训练回合次数加1执行第六步,否则,执行第七步;
第六步,判断训练回合是否达一百万回合,若是,执行第十四步,否则,执行第一步;
第七步,在经验数据元组集合中随机选择一个元组;
第八步,将所选经验数据元组中的状态空间送入深度估值神经网络中,计算任务资源需求的动作价值;
第九步,将下一回合状态空间中的任务资源请求以及各数据中心的资源信息,送入深度目标神经网络,计算下一回合状态空间对应动作价值最大的动作;
第十步,通过动作的奖励值、动作价值、下一回合状态空间对应最大的动作价值构造深度估值神经网络的损失函数;
第十一步,以减小损失函数值为目标,使用随机梯度下降法更新深度估值神经网络的参数;
第十二步,判断训练回合是否为一千的整数倍,若是,执行第十三步,否则,执行第一步;
第十三步,将深度估值神经网络参数赋给深度目标神经网络,返回第一步;
第十四步,得到训练好的任务调度模型。
CN201811561700.2A 2018-12-20 2018-12-20 一种基于强化学习的跨数据中心网络任务调度方法 Active CN109656702B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811561700.2A CN109656702B (zh) 2018-12-20 2018-12-20 一种基于强化学习的跨数据中心网络任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811561700.2A CN109656702B (zh) 2018-12-20 2018-12-20 一种基于强化学习的跨数据中心网络任务调度方法

Publications (2)

Publication Number Publication Date
CN109656702A true CN109656702A (zh) 2019-04-19
CN109656702B CN109656702B (zh) 2022-10-04

Family

ID=66115293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811561700.2A Active CN109656702B (zh) 2018-12-20 2018-12-20 一种基于强化学习的跨数据中心网络任务调度方法

Country Status (1)

Country Link
CN (1) CN109656702B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347515A (zh) * 2019-07-17 2019-10-18 国网四川省电力公司电力科学研究院 一种适合边缘计算环境的资源优化分配方法
CN110413396A (zh) * 2019-07-30 2019-11-05 广东工业大学 一种资源调度方法、装置、设备及可读存储介质
CN110609474A (zh) * 2019-09-09 2019-12-24 创新奇智(南京)科技有限公司 一种基于强化学习的数据中心能效优化方法
CN110750363A (zh) * 2019-12-26 2020-02-04 中科寒武纪科技股份有限公司 计算机存储管理方法和装置、电子设备和存储介质
CN111258734A (zh) * 2020-01-16 2020-06-09 中国人民解放军国防科技大学 一种基于强化学习的深度学习任务调度方法
CN111555907A (zh) * 2020-04-19 2020-08-18 北京理工大学 基于强化学习的数据中心网络能耗和服务质量优化方法
CN112700269A (zh) * 2020-12-28 2021-04-23 广东石油化工学院 一种基于异向强化学习的分布式数据中心选择方法
CN112764932A (zh) * 2021-01-27 2021-05-07 西安电子科技大学 基于深度强化学习的计算密集型工作负载高能效分配方法
CN113256128A (zh) * 2021-05-31 2021-08-13 国网江苏省电力有限公司信息通信分公司 电力物联网中使用强化学习均衡资源使用的任务调度方法
CN113254192A (zh) * 2020-02-12 2021-08-13 北京沃东天骏信息技术有限公司 资源分配方法、资源分配装置、电子设备及存储介质
CN113342535A (zh) * 2021-06-30 2021-09-03 中国工商银行股份有限公司 任务数据分配方法及装置
WO2022000169A1 (zh) * 2020-06-29 2022-01-06 深圳大学 跨数据中心的数据分析方法、装置、设备及存储介质
CN114237869A (zh) * 2021-11-17 2022-03-25 中国人民解放军军事科学院国防科技创新研究院 基于强化学习的Ray双层调度方法、装置和电子设备
CN114610474A (zh) * 2022-05-12 2022-06-10 之江实验室 一种异构超算环境下多策略的作业调度方法及系统
CN114915630A (zh) * 2021-02-10 2022-08-16 中国移动通信有限公司研究院 基于物联网设备的任务分配方法、网络训练方法及装置
WO2023225322A1 (en) * 2022-05-19 2023-11-23 Nec Laboratories America, Inc. Dynamic intent-based network computing job assignment using reinforcement learning

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090228888A1 (en) * 2008-03-10 2009-09-10 Sun Microsystems, Inc. Dynamic scheduling of application tasks in a distributed task based system
CN105956680A (zh) * 2016-04-18 2016-09-21 北京大学 一个基于强化学习的自适应规则的生成和管理框架
US20170364829A1 (en) * 2016-06-17 2017-12-21 Graham Fyffe System and methods for intrinsic reward reinforcement learning
CN107770096A (zh) * 2017-12-11 2018-03-06 国网河南省电力公司信息通信公司 一种基于负载均衡的sdn/nfv网络动态资源分配算法
CN108595267A (zh) * 2018-04-18 2018-09-28 中国科学院重庆绿色智能技术研究院 一种基于深度强化学习的资源调度方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090228888A1 (en) * 2008-03-10 2009-09-10 Sun Microsystems, Inc. Dynamic scheduling of application tasks in a distributed task based system
CN105956680A (zh) * 2016-04-18 2016-09-21 北京大学 一个基于强化学习的自适应规则的生成和管理框架
US20170364829A1 (en) * 2016-06-17 2017-12-21 Graham Fyffe System and methods for intrinsic reward reinforcement learning
CN107770096A (zh) * 2017-12-11 2018-03-06 国网河南省电力公司信息通信公司 一种基于负载均衡的sdn/nfv网络动态资源分配算法
CN108595267A (zh) * 2018-04-18 2018-09-28 中国科学院重庆绿色智能技术研究院 一种基于深度强化学习的资源调度方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RONALD SURYAPUTRA WILLIEM等: ""Reinforcement learning combined with radial basis function neural network to solve Job-Shop scheduling problem"", 《2011 IEEE INTERNATIONAL SUMMER CONFERENCE OF ASIA PACIFIC BUSINESS INNOVATION AND TECHNOLOGY MANAGEMENT》 *
刘晓平等: "基于Q学习的任务调度问题的改进研究", 《图学学报》 *
袁秀利等: ""基于强化蚁群算法的任务DAG在线网格集群资源调度"", 《计算机测量与控制》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347515B (zh) * 2019-07-17 2021-08-03 国网四川省电力公司电力科学研究院 一种适合边缘计算环境的资源优化分配方法
CN110347515A (zh) * 2019-07-17 2019-10-18 国网四川省电力公司电力科学研究院 一种适合边缘计算环境的资源优化分配方法
CN110413396A (zh) * 2019-07-30 2019-11-05 广东工业大学 一种资源调度方法、装置、设备及可读存储介质
CN110413396B (zh) * 2019-07-30 2022-02-15 广东工业大学 一种资源调度方法、装置、设备及可读存储介质
CN110609474A (zh) * 2019-09-09 2019-12-24 创新奇智(南京)科技有限公司 一种基于强化学习的数据中心能效优化方法
CN110750363A (zh) * 2019-12-26 2020-02-04 中科寒武纪科技股份有限公司 计算机存储管理方法和装置、电子设备和存储介质
CN111258734A (zh) * 2020-01-16 2020-06-09 中国人民解放军国防科技大学 一种基于强化学习的深度学习任务调度方法
CN111258734B (zh) * 2020-01-16 2022-09-23 中国人民解放军国防科技大学 一种基于强化学习的深度学习任务调度方法
CN113254192A (zh) * 2020-02-12 2021-08-13 北京沃东天骏信息技术有限公司 资源分配方法、资源分配装置、电子设备及存储介质
CN113254192B (zh) * 2020-02-12 2024-04-16 北京沃东天骏信息技术有限公司 资源分配方法、资源分配装置、电子设备及存储介质
CN111555907B (zh) * 2020-04-19 2021-04-23 北京理工大学 基于强化学习的数据中心网络能耗和服务质量优化方法
CN111555907A (zh) * 2020-04-19 2020-08-18 北京理工大学 基于强化学习的数据中心网络能耗和服务质量优化方法
WO2022000169A1 (zh) * 2020-06-29 2022-01-06 深圳大学 跨数据中心的数据分析方法、装置、设备及存储介质
CN112700269A (zh) * 2020-12-28 2021-04-23 广东石油化工学院 一种基于异向强化学习的分布式数据中心选择方法
CN112764932A (zh) * 2021-01-27 2021-05-07 西安电子科技大学 基于深度强化学习的计算密集型工作负载高能效分配方法
CN112764932B (zh) * 2021-01-27 2022-12-02 西安电子科技大学 基于深度强化学习的计算密集型工作负载高能效分配方法
CN114915630B (zh) * 2021-02-10 2023-10-31 中国移动通信有限公司研究院 基于物联网设备的任务分配方法、网络训练方法及装置
CN114915630A (zh) * 2021-02-10 2022-08-16 中国移动通信有限公司研究院 基于物联网设备的任务分配方法、网络训练方法及装置
CN113256128A (zh) * 2021-05-31 2021-08-13 国网江苏省电力有限公司信息通信分公司 电力物联网中使用强化学习均衡资源使用的任务调度方法
CN113342535A (zh) * 2021-06-30 2021-09-03 中国工商银行股份有限公司 任务数据分配方法及装置
CN114237869B (zh) * 2021-11-17 2022-09-16 中国人民解放军军事科学院国防科技创新研究院 基于强化学习的Ray双层调度方法、装置和电子设备
CN114237869A (zh) * 2021-11-17 2022-03-25 中国人民解放军军事科学院国防科技创新研究院 基于强化学习的Ray双层调度方法、装置和电子设备
CN114610474A (zh) * 2022-05-12 2022-06-10 之江实验室 一种异构超算环境下多策略的作业调度方法及系统
WO2023225322A1 (en) * 2022-05-19 2023-11-23 Nec Laboratories America, Inc. Dynamic intent-based network computing job assignment using reinforcement learning

Also Published As

Publication number Publication date
CN109656702B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN109656702A (zh) 一种基于强化学习的跨数据中心网络任务调度方法
CN110737529B (zh) 一种面向短时多变大数据作业集群调度自适应性配置方法
Wang et al. Distributed machine learning with a serverless architecture
CN107888669B (zh) 一种基于深度学习神经网络的大规模资源调度系统及方法
Guo et al. Cloud resource scheduling with deep reinforcement learning and imitation learning
CN104317658B (zh) 一种基于MapReduce的负载自适应任务调度方法
CN108804227B (zh) 基于移动云计算的计算密集型任务卸载和最佳资源配置的方法
CN106055395B (zh) 一种基于蚁群优化算法的云环境中截止时间约束工作流调度方法
US8359223B2 (en) Intelligent management of virtualized resources for cloud database systems
CN111026549B (zh) 一种电力信息通信设备自动化测试资源调度方法
CN111611062B (zh) 云边协同分层计算方法及云边协同分层计算系统
US20240111586A1 (en) Multi-policy intelligent scheduling method and apparatus oriented to heterogeneous computing power
CN115037749B (zh) 一种大规模微服务智能多资源协同调度方法及系统
CN111722910B (zh) 一种云作业调度及资源配置的方法
Sun et al. PACO: A period ACO based scheduling algorithm in cloud computing
CN110795208B (zh) 基于改进粒子群的移动云计算自适应虚拟机调度方法
CN104065745A (zh) 云计算动态资源调度系统和方法
CN110515735A (zh) 一种基于改进q学习算法的多目标云资源调度方法
CN113822456A (zh) 一种云雾混构环境下基于深度强化学习的服务组合优化部署方法
CN110351348B (zh) 一种基于dqn的云计算资源调度优化方法
CN107203412A (zh) 一种基于膜系统改进粒子群算法的云资源调度优化方法
Pooranian et al. Hybrid metaheuristic algorithm for job scheduling on computational grids
CN115086189A (zh) 一种面向无服务器计算的服务资源弹性伸缩方法和系统
Asghari et al. Combined use of coral reefs optimization and reinforcement learning for improving resource utilization and load balancing in cloud environments
Bian et al. Neural task scheduling with reinforcement learning for fog computing systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant