CN113886036B

CN113886036B - 用于优化分布式系统集群配置的方法和系统

Info

Publication number: CN113886036B
Application number: CN202111068666.7A
Authority: CN
Inventors: 张继东; 吕超; 吴风蛟; 姜承祥
Original assignee: Tianyi Digital Life Technology Co Ltd
Current assignee: Tianyi Digital Life Technology Co Ltd
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2024-04-19
Anticipated expiration: 2041-09-13
Also published as: CN113886036A

Abstract

本发明涉及一种用于通过预测任务执行时长来优化分布式集群配置的方法。该方法包括配置分布式集群，在集群上运行测试任务，收集任务运行详情，收集任务运行时的系统运行数据，利用收集到的任务运行详情、分布式集群配置信息、系统配置信息、计算依赖数据量特征来训练任务执行时长预测模型，在提交任务后搜索最优集群配置，以及相应地调整集群配置以优化集群性能。

Description

用于优化分布式系统集群配置的方法和系统

技术领域

本发明涉及大数据和人工智能技术领域，尤其涉及通过深度学习来预测在分布式系统集群上执行的任务的执行时长并由此优化集群配置的技术。

背景技术

随着数据不断受到各行业的重视，大数据技术也不断受到企业的重视，而在大数据和分布式计算和存储技术中，Hadoop已经成为事实标准。Hadoop能够提供海量数据存储和数据计算。然而，Hadoop也具有一些缺点，诸如在Hadoop集群上执行的任务的执行时长无法预测、以及Hadoop集群由于配置不合理导致集群性能差，等等。

因此，需要开发者结合自身具体的应用来对诸如Hadoop集群之类的分布式系统集群进行相应的改进或补充。为了给大数据开发者进行更好的服务，如果在任务提交时可以估算出任务执行时长，就能够调整集群资源，让开发者或者任务调度器合理执行任务，提高集群性能。

发明内容

提供本发明内容来以简化形式介绍将在以下具体实施方式部分中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

在本发明中，可以针对云环境，对支持提取任务执行日志的分布式系统集群中的任务运行时长做预测，大数据运维人员可以基于该模型调整集群参数，充分挖掘集群性能，实现降本增效的目标。在本发明的一个实施例中，分布式系统集群可以指Hadoop集群，但如本领域技术人员可以理解的，Hadoop集群仅仅作为示例而非限制，本发明不限于Hadoop集群。本发明中的分布式系统集群(例如，Hadoop集群)需要处于稳定的云环境中以支持弹性扩容，并且该Hadoop集群的版本支持采集任务执行日志。

在本发明的各实施例中，在收集历史任务执行详情、集群配置信息、系统配置信息、计算数据量后，使用卷积神经网络(CNN)来训练任务执行时长预测模型以预测任务执行时长。然后，基于该任务执行时长预测模型，即通过所预测的任务执行时长，来为新提交的任务选择最优的集群配置，并且使用所选择的最优集群配置来运行所提交的任务。

具体而言，在本发明的一个实施例中，公开了一种优化分布式系统集群配置的方法，该方法包括：

部署分布式集群并获取集群配置信息；

在所述分布式集群上基于所述集群配置信息来运行测试任务；

不断调整所述集群配置信息并收集所述测试任务的任务执行详情信息、系统运行信息、以及计算依赖数据量信息；

利用收集到的所述任务执行详情信息、所述系统运行信息、所述计算依赖数据量信息、以及所述集群配置信息来训练任务执行时长预测模型；

针对新提交的任务在所述集群配置信息的集合中搜索最优集群配置信息；以及

使用所述最优集群配置信息来执行所述新提交的任务。

在本发明的另一实施例中，公开了一种优化分布式系统集群配置的系统，该系统包括：

用于部署分布式集群并获取集群配置信息的装置；

用于在所述分布式集群上基于所述集群配置信息来运行测试任务的装置；

用于不断调整所述集群配置信息并收集所述测试任务的任务执行详情信息、系统运行信息、以及计算依赖数据量信息的装置；

用于利用收集到的所述任务执行详情信息、所述系统运行信息、所述计算依赖数据量信息、以及所述集群配置信息来训练任务执行时长预测模型的装置；

用于针对新提交的任务在所述集群配置信息的集合中搜索最优集群配置信息的装置；以及

用于使用所述最优集群配置信息来执行所述新提交的任务的装置。

在本公开的又一实施例中，公开了一种存储指令的计算机可读存储介质，这些指令可由处理器执行以用于以下操作：

部署分布式集群并获取集群配置信息；

使用最优集群配置信息来执行所述新提交的任务。

在结合附图研读了下文对本发明的具体示例性实施例的描述之后，本发明的其他方面、特征和实施例对于本领域普通技术人员将是明显的。尽管本发明的特征在以下可能是针对某些实施例和附图来讨论的，但本发明的全部实施例可包括本文所讨论的有利特征中的一个或多个。换言之，尽管可能讨论了一个或多个实施例具有某些有利特征，但也可以根据本文讨论的本发明的各种实施例使用此类特征中的一个或多个特征。以类似方式，尽管示例性实施例在下文可能是作为设备、系统或方法实施例进行讨论的，但是应当领会，此类示例性实施例可以在各种设备、系统、和方法中实现。

附图说明

为了能详细理解本公开的以上陈述的特征所用的方式，可参照各方面来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中阐示。然而应该注意，附图仅阐示了本公开的某些典型方面，故不应被认为限定其范围，因为本描述可允许有其他等同有效的方面。

图1示出了根据本发明的一个实施例的集群配置优化系统的框图。

图2示出了根据本发明的一个实施例的集群配置优化方法的流程图。

具体实施方式

以下将参考形成本发明一部分并示出各具体示例性实施例的附图更详尽地描述各个实施例。然而，各实施例可以以许多不同的形式来实现，并且不应将其解释为限制此处所阐述的各实施例；相反地，提供这些实施例以使得本公开变得透彻和完整，并且将这些实施例的范围完全传达给本领域普通技术人员。各实施例可按照方法、系统或设备来实施。因此，这些实施例可采用硬件实现形式、全软件实现形式或者结合软件和硬件方面的实现形式。因此，以下具体实施方式并非是局限性的。

各流程图中的步骤可通过硬件(例如，处理器、引擎、存储器、电路)、软件(例如，操作系统、应用、驱动器、机器/处理器可执行指令)或其组合来执行。如本领域普通技术人员将理解的，各实施例中所涉及的方法可以包括比示出的更多或更少的步骤。

下文中将通过框图、数据流图以及方法流程图对本公开的各方面进行详细描述。请注意，虽然本说明书全文中提到Hadoop集群，但该Hadoop集群仅仅是分布式系统集群的一个示例，且不旨在限制本发明的范围，本发明的范围不限于该Hadoop集群。

图1示出了根据本发明的一个实施例的集群配置优化系统100的框图。

如图1所示，集群配置优化系统100包括Hadoop集群106。在Hadoop集群106中置备相同配置的计算节点，在计算节点上安装主机性能监控软件后，完成Hadoop集群106的部署，并获取集群配置信息。图中的省略号表示在Hadoop集群中不止存在所示的两个计算节点，而是存在不止两个计算节点。在实际生产环境中，可以使用常见的云计算平台进行部署，或者使用相同规格的物理机部署，也可以部署除了Hadoop集群以外的集群，而不背离本发明的范围。

在完成Hadoop集群106的部署后，首先确定默认集群配置信息，例如可将上述所获取的集群配置信息作为默认集群配置信息，以供用于执行后续测试任务。如以下表1所示，该集群配置信息列举了可供调整的集群配置项目(configuration)，其中包含了默认值(default)、最小值(min)、最大值(max)，在调整集群配置时，会在最小值和最大值之间选择一个最合适的值来得到最短的任务执行时长(如下文中详述的)。

表1

如本领域技术人员可以理解的，表1中所列举的项目仅仅是示例性的，而非限制性的。

然后，通过Hadoop任务提交系统102来提交测试任务并在所部署的集群106上基于默认集群配置信息来运行所提交的测试任务。在任务执行时以及在任务执行后，收集任务执行详情信息。在本发明的一个实施例中，可通过Hadoop任务提交系统102来收集任务所有执行信息，包括任务状态、任务提交时间、任务开始时间、任务结束时间以及任务提交人的用户编号、任务读取的数据文件名称，等等。作为示例而非限制，以下表2示出了这些任务执行详情信息(Job information)。

表2

除了上述任务执行详情信息以及基于其运行测试任务的集群配置信息之外，还收集系统运行信息以及计算依赖数据量信息这两类特征。

具体而言，在本发明的一个实施例中，该系统运行信息包括CPU利用率、内存使用率、磁盘读写速率和网络读写速率。在本发明的其他实施例中，系统运行信息也可包括其他合适的系统运行数据，而不限于上述数据项。Hadoop集群106中每个计算节点都会部署监控系统，系统运行信息通过所部属的监控系统来实时采集。作为示例而非限制，以下表3示出了系统运行信息(system metrics)的具体示例。

表3

在本发明的一个实施例中，计算依赖数据量信息通过在集群106中抽取每个数据文件并提取其中的计算规模特征来获取。在本发明的一个实施例中，上述抽取和提取操作由数据仓库104来执行。作为示例而非限制，以下表3示出了计算依赖数据量信息(Datainformation)的具体示例。

表4

在本发明的一个实施例中，运行测试任务包括运行计算密集型测试任务，扫描集群106中的数据文件，通过监控系统记录云服务器的系统状态、网络读写速率，通过Hadoop集群接口采集任务执行详情数据，同时记录下任务读取文件的基本信息。也获取如上所述的四类任务特征数据，即任务执行详情信息、系统运行信息、计算依赖数据量信息、以及集群配置信息。

在本发明的另一实施例中，运行测试任务进一步包括运行I/O密集型测试任务，扫描集群中的数据文件，通过监控系统记录云服务器的系统状态、网络读写速率，通过Hadoop集群接口采集任务执行数据，同时记录下任务读取文件的基本信息。也如上所述的获取四类任务特征数据，即任务执行详情信息、系统运行信息、计算依赖数据量信息、以及集群配置信息。

为了获取更多详细数据以更好地训练任务执行时长预测模型，可不断调整集群配置并运行相同的测试任务以继续采集这四类特征数据。例如，可针对上文(诸如表1)给出的集群参数项目和调整范围，调整集群参数配置，并基于经调整的集群配置参数来测试相同的任务(诸如mapreduce任务)，并记录对应的任务特征数据。

在采集了足够多的数据后，诸如在遍历所有测试任务类型并以足够的细分粒度调整集群配置参数来运行这些类型的测试任务后，基于卷积神经网络使用采集到的四类任务特征数据来训练任务执行时长预测模型。具体而言，在图1所示的集群配置优化系统100中，将采集到的任务执行详情信息、系统运行信息、计算依赖数据量信息、以及集群配置信息作为模型输入108来训练任务执行时长预测模型M 110。

在本发明的一个实施例中，作为示例而非限制，定义使用卷积神经网络算法，即定义3层隐藏层，每层的节点数是100，对于该神经网络中的激活函数选择使用ReLu函数，优化器选择使用adam优化器，定义学习率为0.003。如本领域技术人员可以理解的，也可使用其他合适的特定神经网络或神经网络的组合，隐藏层的数目可以不同，节点数可以不同，激活函数也可以是其他合适的函数，优化器可以是其他合适的优化器，学习率也可被定义为其他合适的数值。

在本发明的一个实施例中，针对不同类型的任务(诸如计算密集型测试任务和I/O密集型测试任务)，分别训练任务执行时长预测模型M 110。此外，在本发明的另一实施例中，在生产环境中使用相同的云环境，在新任务提交时，使用模型M 110对任务执行时长进行预测，得到预测时长T1，然后记录任务执行的实际时长T2，并使用T2不断对模型M 110进行优化。

由于针对每一个相同的测试任务不断调整集群配置信息并将不同的集群配置信息作为模型输入之一提供给任务执行时长预测模型M 110以供训练该模型，因此基于经训练的模型M 110，每一个新提交的任务能够在不同的集群配置下得出不同的预测时长。于是，集群配置优化模块112能够在这些不同的集群配置信息的集合中进行搜索(即，搜索合适的参数组合，诸如在表1中国的最小值和最大值之间寻找最合适的参数值)以找到能让所提交的任务的任务执行时长最短，即通过预测模型M得出的预测时长最短的集群配置信息，并基于所找到的集群配置信息来调整集群配置，从而实现对集群配置的自动优化。

最后使用优化后的集群配置来运行用户提交的任务以使得所提交的任务的执行时长可以最短。

图2示出了根据本公开的一个实施例的集群配置优化方法200的流程图。

该方法开始于步骤202。在步骤202，部署分布式集群并获取集群配置信息。在本发明的一个实施例中，部署分布式集群包括在集群中置备相同配置的计算节点并安装主机性能监控软件，并且所获取的集群配置信息可用作用于执行测试任务的默认集群配置信息。

在步骤204，在该分布式集群上基于该集群配置信息来运行测试任务。在本发明的一个实施例中，该测试任务包括计算密集型测试任务和I/O密集型测试任务，并且该测试任务最初可以基于默认集群配置信息来执行。

在步骤206，不断调整该集群配置信息并收集该测试任务的任务执行详情信息、系统运行信息、以及计算依赖数据量信息。在本发明的一个实施例中，该集群配置信息列举了可供调整的集群配置项目，其中包含了默认值、最小值、最大值。该任务执行详情信息包括任务状态、任务提交时间、任务开始时间、任务结束时间、任务提交人的用户编号、任务读取的数据文件名称等。该系统运行信息包括CPU利用率、内存使用率、磁盘读写速率和网络读写速率。该计算依赖数据量信息通过在分布式集群中抽取每个数据文件并提取其中的计算规模特征来获取。

在步骤208，利用收集到的任务执行详情信息、系统运行信息、计算依赖数据量信息、以及集群配置信息来训练任务执行时长预测模型。在本发明的一个实施例中，为了获取更多详细数据以更好地训练该任务执行时长预测模型，可不断调整集群配置并运行相同的测试任务以继续采集这四类特征数据，即任务执行详情信息、系统运行信息、计算依赖数据量信息、以及集群配置信息。在本发明的一个实施例中，基于卷积神经网络使用采集到的四类任务特征数据来训练任务执行时长预测模型，并且该预测模型可以是针对不同类型的任务分别训练的。在本发明的另一实施例中，在新任务提交时，记录任务执行的实际时长，并使用该实际时长，结合通过该预测模型得到的预测时长不断对该预测模型进行优化。

在步骤210，针对新提交的任务在集群配置信息的集合中搜索最优集群配置信息并相应地调整集群配置。具体而言，每一个新提交的任务能够在不同的集群配置下得出不同的预测时长，由此能够在这些不同的集群配置信息的集合中进行搜索，即搜索合适的参数组合，以找到能让所提交的任务的任务执行时长最短(通过预测模型得出的预测时长最短)的最优集群配置信息。

在步骤212，使用最优集群配置信息来执行新提交的任务。在本发明的一个实施例中，对集群配置的自动优化通过基于所找到的集群配置信息调整集群配置来实现。使用优化后的集群配置来执行用户提交的任务能使得所提交的任务的执行时长是最短的。然后，该方法200结束。

以上参考根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作说明描述了本发明的实施例。框中所注明的各功能/动作可以按不同于任何流程图所示的次序出现。例如，取决于所涉及的功能/动作，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以按相反的次序来执行。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种优化分布式系统集群配置的方法，包括：

部署分布式集群并获取集群配置信息；

基于经训练的任务执行时长预测模型来得到新提交的任务在不同集群配置下的预测执行时长并根据所述预测执行时长来在所述集群配置信息的集合中搜索最优集群配置信息，包括在所述集群配置信息的集合中搜索能让所述新提交的任务的预测执行时长最短的集群配置信息，其中训练所述任务执行时长预测模型进一步包括记录所述新提交的任务的实际执行时长并且与所述预测执行时长相结合地使用所述实际执行时长来对所述任务执行时长预测模型进行优化；

使用所述最优集群配置信息来执行所述新提交的任务。

2.如权利要求1所述的方法，其中所述部署包括在所述分布式集群中置备相同配置的计算节点并在所述计算节点上安装主机性能监控软件，并且其中所述分布式集群是Hadoop集群，并且所获取的集群配置信息被用作默认集群配置信息。

3.如权利要求1所述的方法，其中所述测试任务包括计算密集型测试任务和I/O密集型测试任务，并且所述任务执行时长预测模型分别针对所述计算密集型测试任务和所述I/O密集型测试任务来训练。

4.如权利要求1所述的方法，其中所述集群配置信息列举供调整的集群配置项目，每个集群配置项目包含默认值、最小值和最大值，并且其中调整所述集群配置信息包括在所述最小值和所述最大值之间调整集群配置参数。

5.如权利要求1所述的方法，其中训练所述任务执行时长预测模型包括基于卷积神经网络使用所述任务执行详情信息、所述系统运行信息、所述计算依赖数据量信息、以及所述集群配置信息来训练所述任务执行时长预测模型。

6.如权利要求1所述的方法，其中：

所述任务执行详情信息包括任务状态、任务提交时间、任务开始时间、任务结束时间、任务提交人的用户编号、任务读取的数据文件名称；

所述系统运行信息包括CPU利用率、内存使用率、磁盘读写速率和网络读写速率；

所述计算依赖数据量信息通过在所述分布式集群中抽取每个数据文件并提取其中的计算规模特征来获取。

7.一种计算机系统，包括用于执行如权利要求1到6中的任一项所述的方法的装置。

8.一种存储指令的计算机可读存储介质，所述指令在由处理器执行时用于如权利要求1到6中的任一项所述的方法。