CN109992418B

CN109992418B - Sla感知的多租户大数据平台资源优先级调度方法及系统

Info

Publication number: CN109992418B
Application number: CN201910226671.2A
Authority: CN
Inventors: 林伟伟; 李毓睿
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2023-01-06
Anticipated expiration: 2039-03-25
Also published as: CN109992418A

Abstract

本发明公开的SLA感知的多租户大数据平台资源优先级调度方法，包含以下顺序的步骤：S1.租户加入集群，资源管理器向其分配一个资源队列，租户上传作业到资源队列；S2.资源管理器根据租户的资源队列状态定期向SLA感知器发送作业运行报告；S3.SLA感知器根据收到的作业状态信息判断该作业是否能在最后期限前完成，不能在最后期限前完成的作业被设定为高优先级作业；S4.对于高优先级作业，SLA感知器将升级该作业所在的资源队列为高优先级资源队列，加速高优先级作业完成。本发明可以在一定程度上满足服务等级协议中的最后期限限制，保证了云服务供应商的服务质量。

Description

SLA感知的多租户大数据平台资源优先级调度方法及系统

技术领域

本发明涉及多租户大数据平台资源调度领域，特别涉及SLA感知的多租户大数据平台资源优先级调度方法及系统。

背景技术

大数据如今已在许多领域得到了广泛应用，随着云基础架构的不断扩展，一个大型的大数据集群可以同时为成千上万的用户提供服务。我们将使用同一大数据平台的用户称为租户，当数以万计的租户将自己的任务托管于云端时，不同的租户之间将不可避免的产生资源竞争，那么一些紧急任务的执行进度可能会因此产生延迟，甚至产生饥饿现象而导致任务失败。

Apache Hadoop作为最受欢迎的大数据平台之一，为多租户作业提供大数据资源的方法已广泛的应用于工业界。近年来，随着Hadoop集群规模的增大以及对外服务的扩展，在Hadoop2.0发布之后，继承于MapReduce1.0的YARN成为了Hadoop2.0通用的资源管理平台。YARN作为第二代Hadoop的关键特性之一，为大规模的集群提供了资源管理和调度策略。除了MapReduce，新的Hadoop实现还支持其他类型的编程模型，如图形处理和迭代建模，一些可以在YARN中运行的应用程序比如Tez，Hive和Spark，它们都使用Hadoop文件系统(HDFS)。对于已经拥有Hadoop集群且所有企业数据都存储在HDFS中的公司而言，这是一个很大的优势。

YARN提供三种调度方法，即先进先出(FIFO)调度器，容量调度器(CS)和公平调度器(FS)。顾名思义，FIFO的设计不支持优先作业调度。CS是由雅虎开发的，它是Hadoop YARN的默认调度程序。其目标是将固定的资源部分限制到不同的作业队列，并且每个队列中的作业可以使用其中的指定资源。FS调度程序由Facebook提出，其算法倾向于使用较低百分比的资源供应作业队列，除非系统管理员手动分配资源给不同的作业队列，否则所有作业队列最终可以平等地共享资源。CS和FS都是自YARN首次亮相以来在各种环境中常用的调度策略。通过CS和FS可以便捷的设置资源的分配。他们可以使用预定义的资源部分将作业分配给各种作业队列，这在某种程度上非常有限的提供优先级调度。通常，作业队列及其关联资源的配置因不同的Hadoop环境而异。此外，在多租户环境中，无论作业队列和资源的配置如何，CS和FS都无法确保快速执行具有高优先级的作业。

然而，当在Hadoop的多租户环境中使用服务级别协议(SLA)时，租户之间的资源竞争在服务质量(QoS)供应方面有着许多挑战。在多租户环境中，由于底层设备不可避免的出现故障，服务提供商满足服务级别协议(SLA)中指定的最后期限(Deadline)尤为重要。目前通常的解决策略是将高级的SLA转换为一组低级的QoS规则，而在Hadoop多租户大数据平台上使用YARN的调度策略显然无法完全满足SLA。如何在保证集群资源利用率的基础上满足SLA，成为了服务供应商面临的一个问题。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供SLA感知的多租户大数据平台资源优先级调度方法，通过感知作业的完成期限，对即将超时的作业进行加速处理，可以满足SLA中的最后期限(Deadline)保证，在一定程度上保证了大数据平台的QoS。

本发明的另一目的在于提供SLA感知的多租户大数据平台资源优先级调度系统。

本发明的目的通过以下的技术方案实现：

在基于Hadoop的多租户大数据平台上，在YARN的资源管理中，资源是按照资源容器(container)进行分配的(例如：一个容器包含1个CPU和2GB内存)。资源管理器(RM)负责集群中所有资源的统一管理和分配，它从每个节点管理器(NM)接收信息，并根据某个应用为应用管理器(AM)分配资源。AM负责与RM协商适当的资源容器并与NM合作。在本发明中，每当有一个新租户加入平台，RM都向其分配一个资源队列划分其所占有的资源数量，租户的作业将上传到相应资源队列中等待RM向AM进行资源调度，RM向AM调度的资源数量不应超过该租户所占有的资源。同时，RM应该保留一部分资源作为SLA保证资源，SLA保证资源将只向高优先级资源队列分配。本发明构建的SLA感知器将作为SLA优先级感知的功能部件，作业在运行过程中，SLA感知器将通过心跳机制定期与资源管理器交换作业运行状态信息。SLA感知器将通过数学模型进行预测，如果SLA感知器判断出某租户的作业即将超时，将该租户的资源队列升级为高优先级资源队列，优先向该作业分配SLA保证资源来满足SLA中的最后期限保证。此外，为了保证服务的公平性，将加入测谎机制防止出现不公平的SLA。

SLA感知的多租户大数据平台资源优先级调度方法，包含以下顺序的步骤：

S1.租户加入集群，资源管理器向其分配一个资源队列，租户上传作业到资源队列；

S2.资源管理器根据租户的资源队列状态定期向SLA感知器发送作业运行报告；

S3.SLA感知器根据收到的作业状态信息判断该作业是否能在最后期限前完成，不能在最后期限前完成的作业被设定为高优先级作业；

S4.对于高优先级作业，SLA感知器将升级该作业所在的资源队列为高优先级资源队列，加速高优先级作业完成。

步骤S1中，所述资源管理器向租户分配的资源应该基于租户向服用供应商申请的实际需求；RM应该保留一部分资源作为SLA保证资源，SLA保证资源将只向高优先级资源队列分配。

步骤S1中，所述租户在向集群上传作业时，应该同时备注该作业的期望完成时间；当租户同时上传一个以上作业时，该租户的期望完成时间为所有作业期望完成时间的累加。

步骤S2中，所述资源管理器在每个作业完成度达到检查点时生成一份租户SLA报告向SLA感知器发送报告；所述SLA报告的内容包括作业完成百分比、租户资源队列的资源使用量、租户的期望完成时间、作业运行时间和作业ID。

所述检查点的设置公式为

其中CheckTime含义为每隔CheckTime个时间点为一个检查点，Et为作业期望完成时间，h为集群管理员希望设置的检查点个数。

步骤S3中，所述SLA感知器将按照租户分配的资源容器数量进行资源需求计算。

步骤S3中，所述SLA感知器的作业最后期限判断模型为：

假设f_i为i租户的资源分配额，则有：

g_i(t)＝t·f_i

那么g_i(t)为i租户在t时刻资源使用总量；

假设P_i(t)为t时刻i租户的某个作业完成百分比，则有：

那么u_i(t)为i租户在t时刻的预计资源需求总量，z_i(t)为i租户在t时刻的某作业预计作业完成时间；

假设t₁、t₂、t₃……t_n分别表示作业n个完成进度检查点的时刻，Et为租户的所有作业期望完成时间；对于租户i，当该租户的某个作业运行到最后一个检查点时，有以下公式：

其中α为资源预测因子，β为期望完成时间因子；当α＜0时，表示资源是足够使用的；当β＜0时，表示作业可以在期望时间内完成；SLA感知器的最终判断将根据α和β来确定，有以下规则：

(1)如果α＜0或β＜0时，表示该作业正常运行，能够保证该租户作业的SLA；

(2)如果α＞0.2Et·R且β＞0.2Et时判断该租户说谎；该租户所占有的资源无法完成其提供的期望作业完成时间，该租户的SLA为不公平的SLA；

(3)如果α＞0且β＞0，并且该租户的SLA为公平的SLA，标记该租户的相关作业达到警告阈值，将该作业标注为高优先级作业；α为该作业所需额外资源量。

所述步骤S4，具体步骤为：

S401.标记高优先级作业所属租户的资源队列；

S402.将被标记的资源队列升级为高优先级队列；

S403.向高优先级队列分配额外所需资源，额外所需资源由SLA感知器根据计算从SLA保证资源中提供；

S404.高优先级队列中所有作业完成后，资源管理器回收额外资源；

S405.SLA感知器将高优先级队列降级为普通租户资源队列。

本发明的另一目通过以下的技术方案实现：

SLA感知的多租户大数据平台资源优先级调度系统，包括资源管理器、SLA感知器；所述资源管理器为各个租户创建资源队列分配其所需的计算资源，租户的作业将上传到相应资源队列中等待资源调度，资源队列内部的资源调度策略为是CS或FS；SLA感知器将通过心跳机制定期与资源管理器交换作业运行状态信息；SLA感知器通过内部计算得到预测信息；如果SLA感知器判断出某租户的作业即将超时，便将该租户的资源队列升级为高优先级资源队列，优先向该作业分配SLA保证资源来满足SLA中的最后期限。

本发明与现有技术相比，具有如下优点和有益效果：

(1)与传统的多租户大数据平台相比，本发明可以提供一种SLA感知的优先级调度方法。可以在一定程度上满足服务等级协议(SLA)中的最后期限限制，保证了云服务供应商的服务质量。

(2)本发明设置了SLA保证资源池，在向高优先级资源队列分配额外资源时将从SLA保证资源池中获取额外资源进行分配，不需要抢占其他租户的资源，从而保证了租户占有资源的公平性。

(3)本发明通过计算作业运行时检查点状态的方式来提供一种SLA感知方案。该SLA感知方案可以有效的监控和预测作业完成情况，在集群规模不大的情况下，可以通过为每个作业设置多个检查点的方法来提供一种细粒度的SLA感知策略。

(4)由于现在可以在Hadoop环境中在YARN之上运行的应用程序的性质不同，资源管理器(尤其是调度程序)不了解正在运行的应用程序。为了支持更多种类的租户作业，租户的作业以一种通用的方法从资源管理器获取容器数量。本发明不仅可以适用于MapReduce作业，也可以适用于其他类型的比如Spark、Zookeeper等基于Hadoop的作业。

附图说明

图1为一种SLA感知的多租户大数据平台资源优先级调度方法的流程图。

图2为SLA感知器升级资源队列至高优先级资源队列的流程图。

图3为一种SLA感知的多租户大数据平台资源优先级调度系统的结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明利用基于SLA感知的资源优先级调度方法，来保证多租户大数据平台满足服务级别协议(SLA)中指定的最后期限(Deadline)。

如图3所示，在基于Hadoop的多租户大数据平台上，物理资源通常由YARN中的资源管理器(RM)管理。在本发明中，由YARN的资源管理器为各个租户创建资源队列分配其所需的计算资源。租户的作业将上传到相应资源队列中等待资源调度，资源队列内部的资源调度策略可以是CS或FS。租户在上传作业的同时应该备注作业的期望完成时间作为SLA，租户提供的期望完成时间应该符合其申请资源数量的计算力。在向租户分配资源的同时，RM应该保留一部分物理资源作为SLA保证资源，SLA保证资源将只向高优先级资源队列分配。作业在运行过程中，SLA感知器将通过心跳机制定期与资源管理器交换作业运行状态信息。SLA感知器通过内部计算得到预测信息。如果SLA感知器判断出某租户的作业即将超时，便将该租户的资源队列升级为高优先级资源队列，优先向该作业分配SLA保证资源来满足SLA中的最后期限。

一种SLA感知的多租户大数据平台资源优先级调度方法，如图1、2，可按如下步骤进行实施：

步骤一：租户向服务供应商申请所需资源，服务供应商根据租户的实际需求为其创建资源队列。租户的作业将上传到资源队列中运行，租户上传作业时应标注该作业的期望完成时间。当租户同时上传多个作业时，该租户的期望完成时间为所有作业期望完成时间的累加。与此同时，资源管理器将部分物理资源作为SLA保证资源等待分配(SLA保证资源只向高优先级队列分配)。

步骤二：当集群中有租户的作业运行时，资源管理器将通过心跳机制定期向SLA感知器发送作业运行状态信息。具体做法为：服务供应商设置n个完成度检查点，资源管理器在每个作业到达检查点时向SLA感知器发送作业运行状态信息。SLA报告的内容包括作业完成百分比、租户资源队列的资源使用量、租户的期望完成时间、作业运行时间和作业ID。

步骤三：SLA感知器在收到一个作业的最后一个检查点信息时，将通过预测模型判断作业是否能在租户期望时间前完成。如果计算得到租户的作业无法在期望时间内完成，则将该作业所在的资源队列升级为高优先级资源队列。如果判断该租户的SLA为不公平的SLA，则取消该租户SLA保证的资格。

步骤四：资源管理器时刻扫描租户的资源队列，寻找并标记高优先级资源队列。资源管理器将为高优先级资源队列分配SLA保证资源，分配的数量由SLA感知器计算提供。

步骤五：如果高优先级队列中的所有作业都已完成，资源管理器将收回向高优先级队列分配的SLA保证资源。SLA感知器将该高优先级队列降级为普通租户资源队列。

应用本发明到基于Hadoop的多租户大数据平台上，来实现一种SLA感知的多租户大数据平台资源优先级调度方法。

如图1所示，为本发明的系统流程图。首先，集群管理员配置Hadoop平台的多租户资源分配策略：在本发明中，每当有一个新租户加入集群，资源管理器将为该租户创建一个独占的资源队列，并向其分配足够的资源容器来满足租户的资源申请量。例如：租户A向集群申请1个CPU和4GB内存，如果此时Hadoop资源容器大小为1个CPU和2GB内存，则资源管理器向该租户分配2个Hadoop资源容器。

资源分配成功后，租户可以上传作业到相应的租户资源队列当中。每个作业都有一个应用管理器(AM)，应用管理器将使用相应的Hadoop资源容器中的资源供给作业运行。租户的资源队列会为每个作业创建一个标记向量Q(St,Et,f,p),其中，St为上传作业时间，Et为租户上传作业时备注的期望完成时间，f为当前资源队列资源占有量，p为该作业当前完成百分比。

当资源队列中的每个作业运行达到检查点时，资源队列会向SLA感知器报告一次作业运行状态。当作业运行到达最后一个检查点时，SLA感知器将计算该作业是否超时。对于即将超时的作业，SLA感知器将控制分配额外资源以保证该作业租户的SLA。同时，为了防止租户谎报期望完成时间导致资源分配不公平的情况发生，本发明还设置了SLA测谎机制，将不对谎报作业期望完成时间的租户进行SLA保证。

SLA感知器的作业最后期限判断实例为：

假设租户i的资源分配额为2个资源容器(2个CPU和4GB内存)，租户i的作业A检查点设置为3个，每隔600s检查一次。作业A的期望完成时间为2250s。

假设到达第一个检查点时，作业A已完成20％。此时资源使用总量为g_i(t₁)＝600s×2＝1200，预计资源需求总量为

作业预计完成时间为

假设到达第二个检查点时，作业A已完成50％。此时资源使用总量为g_i(t₂)＝1200s×2＝2400，预计资源需求总量为

作业预计完成时间为

假设到达第三个检查点时，作业A已完成75％。此时资源使用总量为g_i(t₃)＝1800s×2＝3600，预计资源需求总量为

作业预计完成时间为

第三个检查点为最后一个检查点，此时计算

0＜α＜0.2Et·f_i＝900,0＜β＜0.2·Et＝450

此时判断租户i的作业A存在SLA超时可能，并且租户i不存在说谎情况。此时SLA感知器控制资源管理器向该租户的资源队列分配额外700的资源量(资源容器数量

个)。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.SLA感知的多租户大数据平台资源优先级调度方法，其特征在于，包含以下顺序的步骤：

S1.租户加入集群，资源管理器向租户分配一个资源队列，租户上传作业到资源队列；

步骤S2中，所述资源管理器在每个作业完成度达到检查点时生成一份租户SLA报告向SLA感知器发送报告；所述SLA报告的内容包括作业完成百分比、租户资源队列的资源使用量、租户的期望完成时间、作业运行时间和作业ID；

步骤S3中，所述SLA感知器的作业最后期限判断模型为：

设定f_i为i租户的资源分配额，则有：

g_i(t)＝t·f_i

那么g_i(t)为i租户在t时刻资源使用总量；

设定P_i(t)为t时刻i租户的某个作业完成百分比，则有：

设定t₁、t₂、t₃……t_n分别表示某作业的n个完成进度检查点的时刻，Et为租户的所有作业期望完成时间；对于租户i，当该租户的某个作业运行到最后一个检查点时，有以下公式：

其中α为资源预测因子，β为期望完成时间因子；当α<0时，表示资源是足够使用的；当β<0时，表示作业可以在期望时间内完成；SLA感知器的最终判断将根据α和β来确定，有以下规则：

(1)如果α<0或β<0时，表示该作业正常运行，能够保证该租户作业的SLA；

(2)如果α>0.2Et·f_i且β>0.2Et时判断该租户说谎；该租户所占有的资源无法完成其提供的期望作业完成时间，该租户的SLA为不公平的SLA；

(3)如果0<α<0.2Et·f_i且0<β<0.2Et，并且该租户的SLA为公平的SLA，标记该租户的相关作业达到警告阈值，将该作业标注为高优先级作业；

S4.对于高优先级作业，SLA感知器将升级该作业所在的资源队列为高优先级资源队列，加速高优先级作业完成；

所述步骤S4，具体步骤为：

S401.标记高优先级作业所属租户的资源队列；

S402.将被标记的资源队列升级为高优先级队列；

S405.SLA感知器将高优先级队列降级为普通租户资源队列。

2.根据权利要求1所述SLA感知的多租户大数据平台资源优先级调度方法，其特征在于，步骤S1中，所述资源管理器向租户分配的资源基于租户向服务供应商申请的实际需求；RM保留一部分资源作为SLA的保证资源，SLA的保证资源只向高优先级资源队列分配。

3.根据权利要求1所述SLA感知的多租户大数据平台资源优先级调度方法，其特征在于，步骤S1中，所述租户在向集群上传作业时，应该同时备注该作业的期望完成时间；当租户同时上传一个以上作业时，该租户的期望完成时间为所有作业期望完成时间的累加。

4.根据权利要求1所述SLA感知的多租户大数据平台资源优先级调度方法，其特征在于，所述检查点的设置公式为

其中CheckTime含义为每隔CheckTime个时间点为一个检查点，Et为作业期望完成时间，h为集群管理员预先设置的检查点个数。

5.根据权利要求1所述SLA感知的多租户大数据平台资源优先级调度方法，其特征在于，步骤S3中，所述SLA感知器将按照租户分配的资源容器数量进行资源需求计算。

6.一种根据权利要求1-5任一项所述SLA感知的多租户大数据平台资源优先级调度方法实现的SLA感知的多租户大数据平台资源优先级调度系统，其特征在于：包括资源管理器、SLA感知器；所述资源管理器为各个租户创建资源队列并为各个租户分配其所需的计算资源，租户的作业将上传到相应资源队列中等待资源调度，资源队列内部的资源调度策略为CS或FS；SLA感知器将通过心跳机制定期与资源管理器交换作业运行状态信息；SLA感知器通过内部计算得到预测信息；如果SLA感知器判断出某租户的作业即将超时，便将该租户的资源队列升级为高优先级资源队列，优先向该作业分配SLA保证资源来满足SLA中的最后期限。