CN108595267A

CN108595267A - 一种基于深度强化学习的资源调度方法和系统

Info

Publication number: CN108595267A
Application number: CN201810350436.1A
Authority: CN
Inventors: 田文洪; 王金; 何博; 叶宇飞; 尚明生; 史晓雨
Original assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2018-09-28

Abstract

本发明涉及一种基于深度强化学习的资源调度方法和系统，属于深度学习技术领域。该方法是获取用户行为数据；根据用户的任务进行训练，得到一种适合的调度算法作为用户的初始调度算法，用于生成相对应的调度结果；用户对当前返回的调度结果进行评估，并做出是否接受当前调度策略的选择。该系统包括用户输入模块、数据处理模块、资源调度系统模块和资源调度过程显示模块。本发明提升了任务的平均用时和响应速度，减少了减少系统耗时和能耗等性能指标。

Description

一种基于深度强化学习的资源调度方法和系统

技术领域

本发明属于深度学习技术领域，涉及一种基于深度强化学习的资源调度方法和系统。

背景技术

数据中心的计算资源调度管理是大数据、云计算的核心技术，是提高性能、节能减排、延长使用寿命和支撑可持续绿色大规模应用的关键。统计表明，数据中心60％左右的费用来自能耗，大量分布的数据中心高能耗引起的温度、雾霾等长期环境影响更不是直接费用可估量的。先进的节能调度管理技术，对于提高学校、政府、研究机构和企业计算资源的利用效率、节约能源、绿色低碳、提高资源共享和降低运营成本都具有极大意义，成为大数据时代一个重点关注领域,值得深入系统地研究。

近年来，深度强化学习在值函数近似、策略搜索、环境建模这三大方法上取得了突破性进展，业界初步研究表明，深度强化学习方法在各种复杂环境中具有优于传统资源分配算法的潜力。

长期以来，大量的文献和专利都集中于对如何提高调度算法精度和调度结果的多样性等性能指标的问题进行深入研究。由Hinton等人于2006年提出深度学习的概念，深度学习(Deep Learning,DL)作为机器学习领域一个重要的研究热点，已经在图像分析、语音识别、自然语言处理、视频分类等领域取得了令人瞩目的成功。DL的基本思想是通过多层的网络结构和非线性变换，组合低层特征，形成抽象的、易于区分的高层表示，以发现数据的分布式特征表示。因此DL方法侧重于对事物的感知和表达。强化学习(ReinforcementLearning，RL)作为机器学习领域另一个研究热点，已经广泛应用于工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈等领域。RL的基本思想是通过最大化智能体(agent)从环境中获得的累计奖赏值，以学习到完成目标的最优策略。因此RL方法更加侧重于学习解决问题的策略。随着人类社会的飞速发展，在越来越多复杂的现实场景任务中，需要利用DL来自动学习大规模输入数据的抽象表征，并以此表征为依据进行自我激励的RL，优化解决问题的策略。由此，谷歌的人工智能研究团队DeepMind创新性地将具有感知能力的DL和具有决策能力的RL相结合，形成了人工智能领域新的研究热点，即深度强化学习(DeepReinforcement Learning，DRL)。此后，在很多挑战性领域中，DeepMind团队构造并实现了人类专家级别的agent。这些agent对自身知识的构建和学习都直接来自原始输入信号，无需任何的人工编码和领域知识。因此DRL是一种端对端(end-to-end)的感知与控制系统，具有很强的通用性。其学习过程可以描述为：(1)在每个时刻agent与环境交互得到一个高维度的观察，并利用DL方法来感知观察，以得到抽象、具体的状态特征表示；(2)基于预期回报来评价各动作的价值函数，并通过某种策略将当前状态映射为相应的动作；(3)环境对此动作做出反应，并得到下一个观察。通过不断循环以上过程，最终可以得到实现目标的最优策略。目前DRL技术在游戏、机器人控制、参数优化、机器视觉等领域中得到了广泛的应用，并被认为是迈向通用人工智能(Artificial General Intelligence，AGI)的重要途径。

发明内容

有鉴于此，本发明的目的在于提供一种基于深度强化学习的资源调度方法和系统，对CPU、磁盘、内存和IO等资源进行调度，旨在提高资源利用率，降低运维成本，容灾；提升任务的平均用时，减少系统耗时，提升响应速度以及减少能耗等性能指标。

为达到上述目的，本发明提供如下技术方案：

一种基于深度强化学习的资源调度方法和系统，是一种网络层次少、参数较少、计算量较小的深度强化学习网络模型，应用于真实场景的云资源调度系统。

一种基于深度强化学习的资源调度方法，具体包括以下步骤：

S1：系统通过日志文件采集用户的行为数据，包括用户对任务的申请情况，资源在基础算法下的调度等记录；

S2：系统通过用户保留在系统内的任务信息，自动根据用户的任务进行训练，得到一种适合的调度算法作为用户的初始调度算法，用于生成相对应的调度结果；

S3：用户对当前返回的调度结果进行评估，并做出是否接受当前调度策略的选择；

S4：如果用户满意当前调度策略所产生的调度结果，则系统认为该算法为适合该用户的个性化调度算法；

S5：如果用户不满意当前调度策略所产生的调度结果，则用户可以通过系统提供的调度算法接口，选择再次训练调度策略。

进一步，所述调度算法能适用于在线资源调度，根据用户在任务生成中的操作，动态选择相对应的调度算法进行资源调度。

一种基于深度强化学习的资源调度系统，包括用户输入模块(提交任务)、数据处理模块、资源调度系统模块和资源调度过程显示模块；

所述用户输入模块：通过大数据平台的日志文件系统获取用户行为数据，按照一定格式生成一个标准数据集；

所述数据处理模块：接受来自用户行为获取模块传递来的用户行为数据，并将数据根据特征信息存储于不同的媒介当中，包括内存缓存、数据库或者分布式文件系统；

所述资源调度过程显示模块：用于将资源调度系统模块发送来的调度结果呈现给对应的目标用户。

进一步，所述资源调度系统模块包括资源调度算法控制单元和资源调度算法单元；

所述资源调度算法控制单元：包括有调度算法网络，在该网络中存储调度网络结构，资源调度系统模块基于用户的历史行为数据，根据用户对调度算法的选择操作获得经过训练调度策略，从而分配相对应的调度资源来实现当前平台对各资源的调度，并将调度后作业的执行过程作为当前用户的调度结果发送给资源调度过程显示模块；

所述资源调度算法单元：根据用户的历史数据进行训练调整。

进一步，所述资源调度系统模块具体执行流程如下：

1)从数据库或者缓存当中提取用户任务数据，通过分析不同任务，生成当前用户的任务训练数据；

2)通过分析历史数据的调度策略，在调度算法库中训练相对应的调度算法进行调度计算；

3)结合在步骤1)中生成的用户输入数据和步骤2)中训练的调度算法，通过计算JOBSLOWDOWN转化为初始调度结果列表；

4)对得到的初始调度结果列表按照用户需求对结果进行审核，判断模型是否达标差；

5)为了提升用户的满意度，对经过调度结果进行进一步的排序操作，排序的方法根据分析步骤2)当中用户选择的调度策略而定，包括根据流行性排序、根据多样性排序以及根据准确性排序；

6)选择排序靠前的N次调度作为最终的调度结果列表传递给显示模块。

本发明的有益效果在于：本发明提高了性能，节能减排，延长使用寿命和支撑可持续绿色大规模应用，相比于传统的业界最佳启发式算法实践，该深度强化学习模型将在任务平均耗时，最小完工时间以及系统总能耗等方面进行超越。

在本发明所述方法中，用户可以得到一种根据自己的资源配置情况偏好的资源调度策略，系统也可以通过长时间的训练，逐步提高算法的优越性，提高系统资源的利用情况。所述调度算法列表中所列出的调度策略顺序既可以保持高性能，也可以通过分析用户的历史行为，对调度策略进行调优。为了能够实现调度算法的个性化选择，在资源调度系统模块中记录了一个作业库，库中包含了多种作业，这样做的好处是：1)可以方便地再训练调度算法，使得调度系统具有良好的可扩展性，比如当新的调度算法被需求的时候，只需要在调度算法库当中增加相对应的训练数据训练就可以充实调度系统。2)为实现调度算法的个性化提供了更多的选择，调度算法库中的不同作业对应着不同的情况，通过不断的更新提升系统的性能。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明所述调度系统结构示意图；

图2为本发明所述资源调度系统模块内部的流程示意图；

图3为基于历史数据的个性化调度系统流程示意图；

图4为处理用户首次调度选择的流程示意图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

本发明建立一个基于深度强化学习的云资源调度算法模型，数据中心的计算资源调度管理是大数据、云计算的核心技术，同时核心算法属于机器学习技术领域。大数据平台化调度即集群资源调度是对底层硬件的一种抽象(主要针对CPU，磁盘，内存，IO等)，本发明着重运用深度强化学习的思想对这些资源进行调度，旨在提高资源利用率，降低运维成本，容灾。

资源管理问题在计算机系统和网络中无处不在，包括计算集群中的作业调度，视频流中的比特率适应，网络电话中的中继选择，虚拟云计算中的机器布局，拥塞控制等等。这些问题的大部分都是使用精心设计的启发式算法解决的。该领域最近的研究中，典型的设计流程是：拿出一个简单的启发式的巧妙问题的模型，并精心测试和调整在实践中表现良好的启发式算法。

本发明设计流程：

1、建立云资源调度深度强化模型

考虑一个有m台机器的集群，每台具有D资源类型和工作队列，每个任务请求固定数量的不同资源一段固定的时间(如5个单位的内存CPU和3单位的3步)。在每一个离散的时间步进工作，到在一个固定长度的排队等待。进一步的工作数量都保存在一个backlog队列满时。同时，调度程序选择作业并将它们分配给机器。如果机器忙，调度程序分配一个作业以便机器将来处理。随着时间的推移，调度的任务被处理，调度程序分配新的工作，只要队列不是空的。

定义动作空间:不同于大尺寸的状态空间，具有固定数量的机器和队列长度，动作空间可以很好地设计为足够小。将动作定义为“将队列中的作业j分配给机器I”，其中q是作业队列的长度。

制定与优化目标函数匹配的奖励函数:奖励是为了使系统学会最小化平均减速。因此，我们将它与每个作业请求的时间长度的倒数联系起来。

深度神经网络构建:构造了一个多层卷积神经网络(CNN)，用于从状态矩阵中提取特征，因为CNN网被证明能很好地从图像中提取高级特征，并设计不同的训练算法。

2、进行仿真测试

为了与业界最佳传统调度算法实践进行对比,设计随机负载和云资源配置,收集不同场景配置下的各方法的性能指标并进行对比。主要考虑离线和在线两类算法的性能指标对比,对比指标包括任务平均用时、平均完工时间、系统总能耗和系统总收益等。

同时分析深度强化学习算法的收敛特征和收益原因。

3、研发真实场景深度强化学习调度系统(DRLS)

建立中小型真实云数据中心环境,将仿真系统在真实环境实现,测试并完善真实场景下的深度强化学习调度系统。

图1为本发明所述调度系统结构示意图，如图1所示，本发明的基于用户自主选择的个性化调度系统包括用户输入模块(获取用户行为，提交任务)、数据处理模块、资源调度系统模块和资源调度工程显示模块。其中用户输入模块通过大数据平台的日志文件系统来获取用户在的各种各样作业生成。数据处理模块是根据用户行为获取模块采集到的数据进行存储。资源调度系统模块主要分为资源调度算法控制单元和资源调度算法单元。其中调度算法选择控制单元调度算法的训练接口供当前用户使用，通过分析调度算法的性能和用户选择，来决定调度算法是否合格。调度算法单元运行所训练的调度算法，并生成相对应调度结果列表。本发明中，当用户对目前所呈现的调度结果感到不满意的时候，则可以主动调出该调度算法控制插件，再次进行训练。

本发明中，资源调度系统模块的内部具体流程如图2所示。为了能够实现调度算法的个性化选择，调度系统模块当中记录了一个作业库，库中包含了多种作业，这样做的好处如下：1)可以方便地再训练调度算法，使得调度系统具有良好的可扩展性，比如当新的调度算法被需求的时候，只需要在调度算法库当中增加相对应的训练数据训练就可以充实调度系统。2)为实现调度算法的个性化提供了更多的选择，调度算法库中的不同作业对应着不同的情况，通过不断的更新提升系统的性能。

如图2所示，资源调度系统模块具体执行流程如下：

1)从数据库或者缓存当中提取用户行为数据，生成当前训练数据；

2)通过输入用户自主生成的作业申请，在调度算法中通过相对应的网络进行调度计算；

3)结合在步骤2)当中生成的计算结果求得SLOWDOWN；

4)最终生成图表供用户参考。

图3为基于用户自主选择的个性化调度系统流程图，其具体包括如下步骤：

步骤1：带有调度系统的应用被打开；

步骤2：用户登录系统，并且系统通过日志文件系统获取用户的个人信息；

步骤3：系统根据目标用户的偏好信息判断用户是否已经做出过调度算法的选择，如果选择过，进入步骤4；如果没有选择过，则进入步骤5；

步骤4：选择用户默认的调度算法来对目标用户进行调度，并进入步骤6；

步骤5：系统自动选择一种个性化调度算法来为目标用户进行调度；

步骤6：系统执行用户所选择的个性化调度算法，并将对应的调度结果呈现给目标用户；

步骤7：目标用户对所呈现的调度结果列表进行满意度评测，如果满意当前的调度结果，则进入步骤9；如果对当前调度结果不满意，进入步骤8；

步骤8：用户可以点击系统提供的调度算法列表插件，根据自己的选择进行训练来再次进行调度，然后返回到步骤6；

步骤9：保存目标用户新训练的调度算法作为默认个性化调度算法，本次调度结束。

具体地，系统首次自动决定是否训练调度算法(即步骤5)的流程如图4所示：

步骤5.1：根据用户的行为数据，判断用户是否为新注册用户。如果是，进入步骤5.2；如果不是，进入步骤5.3；

步骤5.2：由于用户没有足够多的历史行为数据，使用大量历史数据来进行网络训练，然后进入步骤6；

步骤5.3：进一步判断用户是否进行至少M个单位时间的训练，如果没有达标，说明用户目前所拥有的历史行为数据不足以进行个性化调度，返回步骤5.2；如果已经达标，则进入步骤5.4；

步骤5.4：应用经过训练的模型，然后进入步骤6。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于深度强化学习的资源调度方法，其特征在于，该方法具体包括以下步骤：

S1：系统通过日志文件采集用户的行为数据，包括用户对任务的申请情况，资源在基础算法下的调度记录；

2.根据权利要求1所述一种基于深度强化学习的资源调度方法，其特征在于，所述调度算法能适用于在线资源调度，根据用户在任务生成中的操作，动态选择相对应的调度算法进行资源调度。

3.一种基于深度强化学习的资源调度系统，其特征在于，该系统包括用户输入模块、数据处理模块、资源调度系统模块和资源调度过程显示模块；

4.根据权利要求3所述的一种基于深度强化学习的资源调度系统，其特征在于，所述资源调度系统模块包括资源调度算法控制单元和资源调度算法单元；

5.根据权利要求3所述的一种基于深度强化学习的资源调度系统，其特征在于，所述资源调度系统模块具体执行流程如下：