CN111857990B

CN111857990B - 一种加强yarn长类型服务调度的方法、系统

Info

Publication number: CN111857990B
Application number: CN202010581599.8A
Authority: CN
Inventors: 陈天石; 杨启周; 秦凯新
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2023-01-10
Anticipated expiration: 2040-06-23
Also published as: CN111857990A

Abstract

本发明提供一种加强YARN长类型服务调度的方法、系统，所述方法包括如下步骤：根据用户提交任务的属性指标，进行任务的类别划分；采集集群内每个节点的历史任务监控数据，依据监控数据评估节点的指标为节点稳定性评分并根据评分结果进行节点类别的划分，其中，节点类别包括稳定节点和非稳定节点；将所有的稳定节点动态更新到稳定节点列表，所有的非稳定节点动态更新到非稳定节点列表并根据任务的类别在对应的节点列表中调度节点给该任务。通过在节点调度阶段加入对节点稳定性的评估，加强了长服务任务运行的稳定性，减少了批处理等短时服务对稳定节点资源的占用。

Description

一种加强YARN长类型服务调度的方法、系统

技术领域

本发明涉及长类型服务稳定性的增强技术领域，具体涉及一种加强YARN长类型服务调度的方法、系统。

背景技术

Apache Hadoop YARN(Yet Another Resource Negotiator，另一种资源协调者)是一种新的Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。ResourceManager(RM):RM是一个全局的资源管理器，负责整个系统的资源管理和分配。YARN的资源管理和执行框架都是按主/从范例实现的--Slave---节点管理器(NM)运行、监控每个节点，并向集群的Master---资源管理器(RM)报告资源的可用性状态，资源管理器最终为系统里所有应用分配资源。

集群内长类型服务(如web service，HDFS service等)运行比较复杂，节点稳定性对需要长时间运行的服务影响巨大，在确保在节点稳定性随时间变化的情况下，识别并分配稳定性强的计算节点给长类型服务，减少因节点不稳定导致的服务中断问题，对长类型服务稳定性进行增强是本申请需要解决的技术问题。

发明内容

针对因节点不稳定导致的服务中断问题，本发明通过改进YARN调度器的调度方法,增强了集群内长类型服务的稳定性，保证优先分配稳定性强的计算节点给长类型服务任务，从而避免由于节点不稳定导致长服务中断问题。

本发明的技术方案是：

一方面，本发明技术方案提供一种加强YARN长类型服务调度的方法，包括如下步骤：

根据用户提交任务的属性指标，进行任务的类别的划分；

采集集群内每个节点的历史任务监控数据，依据监控数据评估节点的指标为节点稳定性评分并根据评分结果进行节点类别的划分，其中，节点类别包括稳定节点和非稳定节点；

将所有的稳定节点动态更新到稳定节点列表，所有的非稳定节点动态更新到非稳定节点列表并根据任务的类别在对应的节点列表中调度节点给该任务。

优选地，所述的根据用户提交任务的属性指标，进行任务的类别的划分的步骤中，任务的类别包括长类型服务任务和批处理任务；任务的属性指标包括提交任务的预计运行时长和资源申请量，本步骤具体包括：

根据用户提交任务的预计运行时长和资源申请量评估任务的类别将任务分为长类型服务任务和批处理任务；

将得出的任务的类别结果传入资源管理器。

优选地，采集集群内每个节点的历史任务监控数据，依据监控数据评估节点的指标为节点稳定性评分并根据评分结果进行节点类型的划分的步骤包括：

采集集群内每个节点的历史任务监控数据，其中，监控数据包括节点上提交过的任务总数、任务失败总数、任务提交平均等待时间；

根据节点上提交过的任务总数以及任务失败总数计算任务失败率；

将任务失败率和任务提交平均等待时间加权后计算统计值，若统计值超过设定的阈值则评估该节点为非稳定节点，否则为稳定节点；

将评估的节点类别的结果传递给资源管理器。节点调度阶段加入对节点稳定性的评估，加强了长类型服务任务运行的稳定性，减少了批处理任务等短时服务对稳定节点资源的占用。

优选地，将所有的稳定节点动态更新到稳定节点列表，所有的非稳定节点动态更新到非稳定节点列表并根据任务的类别在对应的节点列表中调度节点给该任务的步骤包括：

创建稳定节点列表和非稳定节点列表；

将所有的稳定节点动态更新到稳定节点列表，所有的非稳定节点动态更新到非稳定节点列表；

判断提交的任务的类别，若提交的任务为长类型服务任务，则优先从稳定节点列表内调度节点给该任务，若提交的任务为批处理任务，则优先从非稳定节点列表内调度节点给该任务。

设置可动态更新的稳定节点列表和非稳定节点列表确保在节点稳定性随时间变化的情况下，依然能获得最新的节点评估结果，避免评估结果延迟对资源分配的影响。

优选地，若提交的任务为长类型服务任务，则优先从稳定节点列表内调度节点给该任务的步骤包括：

若提交的任务为长类型服务任务，判断稳定节点列表内是否存在空闲节点，若是，从稳定节点列表内调度空闲节点给该任务，若否，判断等待时间是否小于设定的等待阈值，若是，等待时间到达时，将从稳定节点列表内调度空闲节点给该任务，若否，从非稳定节点列表内调度统计值最小的节点给该任务。

优选地，若提交的任务为批处理任务，则优先从非稳定节点列表内调度节点给该任务的步骤包括：

若提交的任务为批处理任务，判断非稳定节点列表内是否存在空闲节点，若是，从非稳定节点列表内调度节点给该任务，若否，从稳定节点列表内调度统计值最大的节点给该任务。

另一方面，本发明技术方案提供一种加强YARN长类型服务调度的系统，包括任务模型选择器、节点稳定性评估器、调度节点选择器；

任务模型选择器，用于根据用户提交任务的属性指标，进行任务的类别的划分；

节点稳定性评估器，用于采集集群内每个节点的历史任务监控数据，依据监控数据评估节点的指标为节点稳定性评分并根据评分结果进行节点类别的划分；其中，节点类别包括稳定节点和非稳定节点；

调度节点选择器，用于将所有的稳定节点动态更新到稳定节点列表，所有的非稳定节点动态更新到非稳定节点列表并根据任务的类别在对应的节点列表中调度节点给该任务。

优选地，任务的类别包括长类型服务任务和批处理任务；任务的属性指标包括提交任务的预计运行时长和资源申请量。

优选地，节点稳定性评估器包括：采集模块、计算模块、统计评估模块、输出模块；

采集模块，用于采集集群内每个节点的历史任务监控数据，其中，监控数据包括节点上提交过的任务总数、任务失败总数、任务提交平均等待时间；

计算模块，用于根据节点上提交过的任务总数以及任务失败总数计算任务失败率；

统计评估模块，用于将任务失败率和任务提交平均等待时间加权后计算统计值，若统计值超过设定的阈值则评估该节点为非稳定节点，否则为稳定节点；

输出模块，用于将评估的节点类别的结果传递给资源管理器。

优选地，调度节点选择器包括创建模块、更新模块、调度选择模块；

创建模块，用于创建稳定节点列表和非稳定节点列表；

更新模块，用于将所有稳定节点动态更新进稳定节点列表，所有非稳定节点动态更新进非稳定节点列表；

调度选择模块，用于判断提交的任务的类别，若提交的任务为长类型服务任务，则优先从稳定节点列表内调度节点给该任务，若提交的任务为批处理任务，则优先从非稳定节点列表内调度节点给该任务。

从以上技术方案可以看出，本发明具有以下优点：通过在节点调度阶段加入对节点稳定性的评估，加强了长服务任务运行的稳定性，减少了批处理等短时服务对稳定节点资源的占用。设置可动态更新的稳定节点列表和非稳定节点列表，确保在节点稳定性随时间变化的情况下，依然能获得最新的节点评估结果，避免评估结果延迟对资源分配的影响。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著地进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的方法的示意性流程图。

图2是本发明一个实施例的系统的示意性框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

如图1所示，本发明实施例提供一种加强YARN长类型服务调度的方法，包括如下步骤：

S1：根据用户提交任务的属性指标，将任务进行类别的划分；其中，任务的类别包括长类型服务任务和批处理任务；

S2：采集集群内每个节点的历史任务监控数据，依据监控数据评估节点的指标为节点稳定性评分并根据评分结果进行节点类别的划分，其中，节点类别包括稳定节点和非稳定节点；

S3：将所有的稳定节点动态更新到稳定节点列表，所有的非稳定节点动态更新到非稳定节点列表并根据任务的类别在对应的节点列表中调度节点给该任务。

需要说明的是，在有些实施例中，任务的属性指标包括提交任务的预计运行时长和资源申请量，用户提交任务时，每个任务都设置有预计运行时长；例如：用户提交的webservice，预计运行时长为6个月。这样步骤S1具体为：根据用户提交任务的预计运行时长和资源申请量评估任务的类别将任务分为长类型服务任务和批处理任务；从用户获取任务运行时长等指标，根据指标评估任务的类别，可划分为长类型服务和批处理任务。例如：提交任务为HDFS service，预计运行时间较长，则输出类别为长类型服务。提交任务为Spark作业，预计运行时间几分钟，则输出类别为批处理任务。将得出的任务的类别结果传入资源管理器。将得出的任务的类别结果传入资源管理器(RM)，例如：将HDFS service的长服务类别结果直接载入RM。

在有些实施例中，步骤S2包括：

S21：采集集群内每个节点的历史任务监控数据，其中，监控数据包括节点上提交过的任务总数、任务失败总数、任务提交平均等待时间；

S22：根据节点上提交过的任务总数以及任务失败总数计算任务失败率；例如：123节点的历史提交任务总数为100，失败任务总数为20，则任务失败率就是20％。

S23：将任务失败率和任务提交平均等待时间加权后计算统计值，若统计值超过设定的阈值则评估该节点为非稳定节点，否则为稳定节点；例如：S＝任务失败率*第一权重阈值+任务提交平均等待时间*第二权重阈值。节点调度阶段加入对节点稳定性的评估，加强了长类型服务任务运行的稳定性，减少了批处理任务等短时服务对稳定节点资源的占用。

S24：将评估的节点类别的结果传递给资源管理器。将模型输出的类别结果传递给资源管理器，例如：123节点被评估为非稳定节点，将该结果直接传给RM(YARM资源管理器)。

步骤S3中将所有的稳定节点动态更新到稳定节点列表，所有的非稳定节点动态更新到非稳定节点列表并根据任务的类别在对应的节点列表中调度节点给该任务的步骤包括：

S31：创建稳定节点列表和非稳定节点列表；

S32：将所有稳定节点动态更新进稳定节点列表，所有非稳定节点动态更新进非稳定节点列表；

S33：判断提交的任务的类别，若提交的任务为长类型服务任务，则优先从稳定节点列表内调度节点给该任务，若提交的任务为批处理任务，则优先从非稳定节点列表内调度节点给该任务。

例如：提交任务为HDFS service，123节点被动态判定为稳定节点，将被列入稳定节点列表，166节点被判定为非稳定节点，将被列入非稳定节点列表；优先调度稳定节点列表内的节点资源给该HDFS服务，也就是稳定节点列表内的123节点。反之，若提交任务为Spark作业(批处理任务)，则优先调度非稳定节点列表内的节点资源给Spark作业，也就是166节点。

还需要说明的是，有些实施例中，S33的步骤中，若提交的任务为长类型服务任务，则优先从稳定节点列表内调度节点给该任务的步骤包括：

S33的步骤中，若提交的任务为批处理任务，则优先从非稳定节点列表内调度节点给该任务的步骤包括：

如图2所示，本发明技术方案提供一种加强YARN长类型服务调度的系统，包括任务模型选择器、节点稳定性评估器、调度节点选择器；

任务模型选择器，用于根据用户提交任务的属性指标，进行任务的类别的划分；其中，任务的类别包括长类型服务任务和批处理任务；其中，任务的属性指标包括提交任务的预计运行时长和资源申请量；任务模型选择器采用数理统计方法任务信息且以任务申请资源和任务所需运行时间为指标，将应用程序划分为长类型服务任务和批处理任务；

节点稳定性评估器，用于采集集群内每个节点的历史任务监控数据，依据监控数据评估节点的指标为节点稳定性评分并根据评分结果进行节点类别的划分；其中节点的类别包括稳定节点和非稳定节点；

需要说明的是，有些事实例中，节点稳定性评估器包括：采集模块、计算模块、统计评估模块、输出模块；

调度节点选择器包括创建模块、更新模块、调度选择模块；

创建模块，用于创建稳定节点列表和非稳定节点列表；

考虑到集群内长类型服务运行的复杂性，节点稳定性对需要长时间运行的服务影响巨大，进行节点稳定性的评估，并将评估结果实时反馈给资源管理器，确保在节点稳定性随时间变化的情况下，调度节点选择器依然能识别并分配稳定性强的计算节点给长类型服务，减少因节点不稳定导致的服务中断问题，对长类型服务稳定性进行增强。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种加强YARN长类型服务调度的系统，其特征在于，包括任务模型选择器、节点稳定性评估器、调度节点选择器；

调度节点选择器，用于将所有的稳定节点动态更新到稳定节点列表，所有的非稳定节点动态更新到非稳定节点列表，并根据任务的类别在对应的节点列表中调度节点给该任务;

节点稳定性评估器包括：采集模块、计算模块、统计评估模块、输出模块；

2.根据权利要求1所述的加强YARN长类型服务调度的系统，其特征在于，任务的类别包括长类型服务任务和批处理任务；任务的属性指标包括提交任务的预计运行时长和资源申请量。

3.根据权利要求2所述的加强YARN长类型服务调度的系统，其特征在于，调度节点选择器包括创建模块、更新模块、调度选择模块；

创建模块，用于创建稳定节点列表和非稳定节点列表；

更新模块，用于将所有的稳定节点动态更新进稳定节点列表，所有的非稳定节点动态更新进非稳定节点列表；

4.一种基于权利要求1-3任一项权利要求所述系统的加强YARN长类型服务调度的方法，其特征在于，包括如下步骤：

根据用户提交任务的属性指标，进行任务的类别的划分；

采集集群内每个节点的历史任务监控数据，依据监控数据评估节点的指标为节点稳定性评分并根据评分结果进行节点类别的划分，其中，节点类别包括稳定节点和非稳定节点；具体包括:采集集群内每个节点的历史任务监控数据，其中，监控数据包括节点上提交过的任务总数、任务失败总数、任务提交平均等待时间；根据节点上提交过的任务总数以及任务失败总数计算任务失败率；将任务失败率和任务提交平均等待时间加权后计算统计值，若统计值超过设定的阈值则评估该节点为非稳定节点，否则为稳定节点；将评估的节点类别的结果传递给资源管理器;

将所有的稳定节点动态更新到稳定节点列表，所有的非稳定节点动态更新到非稳定节点列表，并根据任务的类别在对应的节点列表中调度节点给该任务。

5.根据权利要求4所述的加强YARN长类型服务调度的方法，其特征在于，所述的根据用户提交任务的属性指标，进行任务的类别的划分的步骤中，任务的类别包括长类型服务任务和批处理任务；任务的属性指标包括提交任务的预计运行时长和资源申请量，本步骤具体包括：

将得出的任务的类别结果传入资源管理器。

6.根据权利要求4所述的加强YARN长类型服务调度的方法，其特征在于，将所有的稳定节点动态更新到稳定节点列表，所有的非稳定节点动态更新到非稳定节点列表并根据任务的类别在对应的节点列表中调度节点给该任务的步骤包括：

创建稳定节点列表和非稳定节点列表；

7.根据权利要求6所述的加强YARN长类型服务调度的方法，其特征在于，若提交的任务为长类型服务任务，则优先从稳定节点列表内调度节点给该任务的步骤具体包括：

8.根据权利要求6所述的加强YARN长类型服务调度的方法，其特征在于，若提交的任务为批处理任务，则优先从非稳定节点列表内调度节点给该任务的步骤具体包括：