CN113031976A

CN113031976A - 一种基于Ambari的集群容量管理方法、装置及介质

Info

Publication number: CN113031976A
Application number: CN202110327518.6A
Authority: CN
Inventors: 武鹏
Original assignee: Shandong Yingxin Computer Technology Co Ltd
Current assignee: Shandong Yingxin Computer Technology Co Ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-06-25
Anticipated expiration: 2041-03-26
Also published as: CN113031976B

Abstract

本申请公开了一种基于Ambari的集群容量管理方法，包括：根据样本业务数据以及与各样本业务数据对应的样本集群节点数量训练出目标模型；获取目标大数据集群的当前业务数据；将当前业务数据输入至目标模型中，利用目标模型输出与当前业务数据对应的目标集群节点数量。本方法中的目标集群节点数量是根据目标大数据集群的实际需求设置的，能够根据目标大数据集群的当前业务数据调整目标集群节点数量，因此本方法能够使得目标大数据集群既能满足实际需求，保障业务服务的完成效率和效果，又能避免集群节点冗余，避免造成资源浪费。本申请还公开了一种基于Ambari的集群容量管理装置及计算机可读存储介质，均具有上述有益效果。

Description

一种基于Ambari的集群容量管理方法、装置及介质

技术领域

本发明涉及集群管理领域，特别涉及一种基于Ambari的集群容量管理方法、装置及计算机可读存储介质。

背景技术

Ambari是一款基于Apache Hadoop的大数据平台管理软件，用户通过操作Web页面就能够实现对大数据集群中的服务进行安装、运行、管理、监控和告警等操作。Ambari中的两大核心组件是Ambari-Server和Ambari-Agent，其中，各组件分布在不同的节点上面运行，Ambari-Server主要负责发送各种操作集群服务的命令，Ambari-Agent主要负责执行这些命令完成操作；也就是说，Ambari对应的集群中的Ambari-Agent的数量直接影响集群服务情况。

现有技术中，一般是直接为集群设置容量定值，但是这种方式一方面可能实际所需集群节点数量大于容量定值，直接影响完成业务服务的效率和效果；另一方面可能实际所需集群节点数量小于容量定值，导致集群节点冗余，造成资源浪费。

因此，如何使得目标大数据集群既能满足实际需求，保障业务服务的完成效率和效果，又能避免集群节点冗余，避免造成资源浪费，是本领域技术人员目前需要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于Ambari的集群容量管理方法，能够使得目标大数据集群既能满足实际需求，保障业务服务的完成效率和效果，又能避免集群节点冗余，避免造成资源浪费；本发明的另一目的是提供一种基于Ambari的集群容量管理装置及计算机可读存储介质，均具有上述有益效果。

为解决上述技术问题，本发明提供一种基于Ambari的集群容量管理方法，包括：

根据样本业务数据以及与各所述样本业务数据对应的样本集群节点数量训练出目标模型；

获取目标大数据集群的当前业务数据；

将所述当前业务数据输入至所述目标模型中，利用所述目标模型输出与所述当前业务数据对应的目标集群节点数量。

优选地，在所述将所述当前业务数据输入至所述目标模型中，利用所述目标模型输出与所述当前业务数据对应的目标集群节点数量之后，进一步包括：

利用所述目标集群节点数量和所述当前业务数据进行模拟运行，得出与所述目标大数据集群对应的模拟集群性能。

优选地，在所述利用所述目标集群节点数量和所述当前业务数据进行模拟运行，得出与所述目标大数据集群对应的模拟集群性能之后，进一步包括：

根据所述模拟集群性能是否达到目标集群性能的情况确定出是否需要重新确定所述目标集群节点数量。

优选地，进一步包括：

获取所述目标大数据集群的当前集群性能；

依据所述当前集群性能和预设调整规则调整所述目标大数据集群的所述目标集群节点数量。

优选地，所述根据样本业务数据以及与各所述样本业务数据对应的样本集群节点数量训练出目标模型的过程，具体包括：

将所述样本业务数据以及与各所述样本业务数据对应的样本集群节点数量输入至初始化模型中进行学习训练，迭代更新所述初始化模型；

若所述初始化模型的模型输出值与目标输出值的第一差值小于第一预设阈值且所述模型输出值对应的性能模拟值与目标模拟值的第二差值小于第二预设阈值，则输出所述目标模型；

否则，利用所述第一差值和/或所述第二差值更新所述初始化模型并继续进入所述将所述样本业务数据以及与各所述样本业务数据对应的样本集群节点数量输入至初始化模型中进行学习训练，迭代更新所述初始化模型的步骤。

优选地，进一步包括：

设置最大迭代次数；

累计学习训练过程中的累计迭代更新次数；

若所述累计迭代更新次数大于所述最大迭代次数，结束迭代更新并输出所述目标模型。

优选地，进一步包括：

设置集群节点最大值；

当所述目标集群节点数量超过所述集群节点最大值时，发出对应的提示信息。

为解决上述技术问题，本发明还提供一种基于Ambari的集群容量管理装置，包括：

模型训练模块，用于根据样本业务数据以及与各所述样本业务数据对应的样本集群节点数量训练出目标模型；

数据获取模块，用于获取目标大数据集群的当前业务数据；

节点管理模块，用于将所述当前业务数据输入至所述目标模型中，利用所述目标模型输出与所述当前业务数据对应的目标集群节点数量。

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种基于Ambari的集群容量管理方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种基于Ambari的集群容量管理方法的步骤。

本发明提供的一种基于Ambari的集群容量管理方法，通过预先利用样本业务数据和样本集群节点数量训练出目标模型；再利用目标模型根据目标大数据集群的当前业务数据输出对应的目标集群节点数量；可见，本方法中的目标集群节点数量是根据目标大数据集群的实际需求设置的，能够根据目标大数据集群的当前业务数据调整目标集群节点数量，因此本方法能够使得目标大数据集群既能满足实际需求，保障业务服务的完成效率和效果，又能避免集群节点冗余，避免造成资源浪费。

为解决上述技术问题，本发明还提供了一种基于Ambari的集群容量管理装置及计算机可读存储介质，均具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于Ambari的集群容量管理方法的流程图；

图2为本发明实施例提供的一种节点扩容操作的时序图；

图3为本发明实施例提供的一种节点缩容操作的时序图；

图4为本发明实施例提供的一种基于Ambari的集群容量管理装置的结构图；

图5为本发明实施例提供的一种基于Ambari的集群容量管理装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的核心是提供一种基于Ambari的集群容量管理方法，能够使得目标大数据集群既能满足实际需求，保障业务服务的完成效率和效果，又能避免集群节点冗余，避免造成资源浪费；本发明的另一核心是提供一种基于Ambari的集群容量管理装置及计算机可读存储介质，均具有上述有益效果。

为了使本领域技术人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例提供的一种基于Ambari的集群容量管理方法的流程图。如图1所示，一种基于Ambari的集群容量管理方法包括：

S10：根据样本业务数据以及与各样本业务数据对应的样本集群节点数量训练出目标模型。

具体的，在本实施例中，首先需要利用训练样本训练出目标模型；其中，训练样本包括样本业务数据以及与各样本业务数据对应的样本集群节点数量，训练出的目标模型能够根据当前业务数据输出对应的目标集群节点数量。在实际操作中，可以是利用深度学习神经网络进行学习训练，本实施例对此不做限定；并且一般所使用的训练样本的样本量越大，训练出的目标模型的准确度越高。

S20：获取目标大数据集群的当前业务数据；

S30：将当前业务数据输入至目标模型中，利用目标模型输出与当前业务数据对应的目标集群节点数量。

具体的，在预先训练出目标模型之后，Ambari-Server向目标模型中输入目标大数据集群的当前业务数据，当前业务数据包括用户量、单个用户数据流量、并发数、数据峰值、数据有效期、数据计算量、数据的处理时间等业务指标对应的数据，然后对当前业务数据进行信息提取，转化为与目标大数据集群对应的技术参数，如所需的内存大小、负载量等；再利用目标模型根据技术参数进行计算，输出与当前业务数据对应的目标集群节点数量。也就是说，对应于当前业务数据，Ambari中需要设置与目标集群节点数量对应数量的Ambari-Agent，在这种情况下能够使得目标大数据集群既能满足实际需求，保障业务服务的完成效率和效果，又能避免集群节点冗余，避免造成资源浪费。

需要说明的是，在实际操作中，若当前实际的集群节点数量小于目标集群节点数量，则需要进行节点扩容操作。具体的，如图2所示，为本发明实施例提供的一种节点扩容操作的时序图。Ambari-Server向需要安装Agent客户端程序的目标主机发送节点扩容指令，并为该目标主机配置节点环境，然后将该目标主机的信息增加至主机列表中，再在目标主机上安装Agent客户端程序，使得目标主机成为Ambari中的Ambari-Agent，实现节点扩容。

若当前实际的集群节点数量大于目标集群节点数量，则需要进行节点缩容操作。具体的，如图3所示，为本发明实施例提供的一种节点缩容操作的时序图。Ambari-Server向需要卸载Agent客户端程序的目标主机发送节点缩容指令，清除该目标主机的节点环境，然后从主机列表中删除该目标主机的信息，再从目标主机上卸载Agent客户端程序，实现节点缩容。

本发明实施例提供的一种基于Ambari的集群容量管理方法，通过预先利用样本业务数据和样本集群节点数量训练出目标模型；再利用目标模型根据目标大数据集群的当前业务数据输出对应的目标集群节点数量；可见，本方法中的目标集群节点数量是根据目标大数据集群的实际需求设置的，能够根据目标大数据集群的当前业务数据调整目标集群节点数量，因此本方法能够使得目标大数据集群既能满足实际需求，保障业务服务的完成效率和效果，又能避免集群节点冗余，避免造成资源浪费。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例在将当前业务数据输入至目标模型中，利用目标模型输出与当前业务数据对应的目标集群节点数量之后，进一步包括：

利用目标集群节点数量和当前业务数据进行模拟运行，得出与目标大数据集群对应的模拟集群性能。

在本实施例中，具体是在获取到与当前业务数据对应的目标集群节点数量之后，进一步利用目标集群节点数量和当前业务数据进行模拟运行，更具体的是利用目标集群节点数量和根据当前业务数据确定出的技术参数进行模拟运行，得出与目标大数据集群对应的模拟集群性能。模拟集群性能也就是通过模拟预测在相同的目标集群节点数量和当前业务数据的情况下，目标大数据集群可能对应的集群性能情况。

本实施例通过利用目标集群节点数量和当前业务数据进行模拟运行，得出与目标大数据集群对应的模拟集群性能，能在目标大数据集群运行之前利用模拟集群性能预测目标大数据集群的集群性能情况，避免直接对目标大数据集群进行操作造成运行异常的情况，进一步提高目标大数据集群的运行稳定性和可靠性。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例在利用目标集群节点数量和当前业务数据进行模拟运行，得出与目标大数据集群对应的模拟集群性能之后，进一步包括：

根据模拟集群性能是否达到目标集群性能的情况确定出是否需要重新确定目标集群节点数量。

具体的，在本实施例中，是在得出模拟集群性能之后，进一步判断该模拟集群性能是否达到预先设置的目标集群性能；若是，则表示按照目标集群节点数量对基于Ambari的大数据集群进行集群容量管理能够使得目标大数据集群达到预期的运行效果；否则，表示按照目标集群节点数量对对基于Ambari的大数据集群进行集群容量管理并不能使得目标大数据集群达到预期的运行效果，因此需要重新确定目标集群节点数量。

具体的，在实际操作中，可以通过修改调整目标模型的参数信息，再重新将当前业务数据输入至该目标模型中的方式得出更新的目标集群节点数量。

可见，本实施例通过根据模拟集群性能是否达到目标集群性能的情况确定是否需要重新确定目标集群节点数量，相对保障得出的目标集群节点数量能够使得目标大数据集群稳定可靠地运行。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，根据样本业务数据以及与各样本业务数据对应的样本集群节点数量训练出目标模型的过程，具体包括：

将样本业务数据以及与各样本业务数据对应的样本集群节点数量输入至初始化模型中进行学习训练，迭代更新初始化模型；

若初始化模型的模型输出值与目标输出值的第一差值小于第一预设阈值且模型输出值对应的性能模拟值与目标模拟值的第二差值小于第二预设阈值，则输出目标模型；

否则，利用第一差值和/或第二差值更新初始化模型并继续进入将样本业务数据以及与各样本业务数据对应的样本集群节点数量输入至初始化模型中进行学习训练，迭代更新初始化模型的步骤。

需要说明的是，在本实施例中，预先获取训练数据、目标输出值和目标模拟值，其中，训练数据包括样本业务数据以及与各样本业务数据对应的样本集群节点数量；目标输出值指的是期望目标模型根据输入的业务数据达到的输出值，输入的业务数据和目标输出值也可以是训练数据；目标模拟值指的是期望模拟运行得出的与输入的业务数据对应的模拟值。

在将样本业务数据以及与各样本业务数据对应的样本集群节点数量输入至初始化模型进行学习训练，迭代更新初始化模型，在每次得出初始化模型后，则根据初始化模型得出模型输出值，将模型输出值与目标输出值进行比较，判断二者的第一差值是否小于对应的第一预设阈值；若是，则进一步根据模型输出值进行模拟运行得出性能模拟值，将性能模拟值与目标模拟值进行比较，判断二者的第二差值是否小于对应的第二预设阈值；若是，则表示该初始化模型已经达到期望的要求，因此将该初始化模型输出为目标模型；否则，表示该初始化模型还未达到期望的要求，因此利用第一差值和/或第二差值更新初始化模型并继续进入将样本业务数据以及与各样本业务数据对应的样本集群节点数量输入至初始化模型中进行学习训练，迭代更新初始化模型的步骤，直至输出目标模型。

可见，按照本实施例的方法得出的目标模型的精准度更高。

需要说明的是，在实际操作中，还可能存在迭代更新很多次仍无法使得初始化模型达到期望的要求的情况，为了解决这一技术问题，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例进一步包括：

设置最大迭代次数；

累计学习训练过程中的累计迭代更新次数；

若累计迭代更新次数大于最大迭代次数，结束迭代更新并输出目标模型。

具体的，在本实施例中，是进一步设置最大迭代次数，在学习训练的过程中，累计进行迭代更新初始化模型的累计迭代更新次数，并进一步将该累计迭代更新次数与最大迭代次数进行比较，若累计迭代更新次数大于最大迭代次数，即表示迭代更新初始化模型达到最大迭代次数仍无法使得出对应的初始化模型达到期望的要求，因此结束迭代并将达到最大迭代次数时对应的初始化模型输出为目标模型。

按照本实施例的方法，能够避免迭代更新的次数过多造成资源浪费。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例进一步包括：

获取目标大数据集群的当前集群性能；

依据当前集群性能和预设调整规则调整目标大数据集群的目标集群节点数量。

具体的，预设调整规则中设置有集群性能数据与调整方式的对应关系，当前集群性能指的是目标大数据集群当前运行时的吞吐量、延迟等数据；定时获取目标大数据集群的当前集群性能，然后依据当前集群性能和预设调整规则确定出对应的标准集群节点数量，再根据标准集群节点数量调整目标大数据集群的目标集群节点数量，其中，调整方式包括节点扩容或者节点缩容。

本实施例通过进一步根据目标大数据集群的当前集群性能和预设调整规则调整目标大数据集群的目标集群节点数量，能够进一步保障目标大数据集群的运行性能的稳定性和可靠性。

设置集群节点最大值；

当目标集群节点数量超过集群节点最大值时，发出对应的提示信息。

可以理解的是，一般来说，集群节点数量越多，目标大数据集群的运行性能越好，但是若其集群节点数量超过最大限度，将影响目标大数据集群的整体运行性能。具体的，在本实施例中，预先设置集群节点最大值，并在每次更新目标大数据集群的目标集群节点数量后，利用更新后的目标集群节点数量与该集群节点最大值进行比较，当判断出目标集群节点数量超过集群节点最大值时，表示当前目标大数据集群的集群节点数量过多，可能影响到目标大数据集群的整体运行性能，因此触发预设提示装置发出对应的提示信息。

需要说明的是，提示装置可以具体是蜂鸣器和/或指示灯和/或显示器，通过触发蜂鸣器/指示灯/显示器等提示装置发出对应的提示信息，如蜂鸣音/闪烁灯/显示文字或图像等，以直观地提示用户当前目标大数据集群中的目标集群节点数量可能过高的情况，从而能够进一步提升用户的使用体验。

上文对于本发明提供的一种基于Ambari的集群容量管理方法的实施例进行了详细的描述，本发明还提供了一种与该方法对应的基于Ambari的集群容量管理装置及计算机可读存储介质，由于装置及计算机可读存储介质部分的实施例与方法部分的实施例相互照应，因此装置及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图4为本发明实施例提供的一种基于Ambari的集群容量管理装置的结构图，如图4所示，一种基于Ambari的集群容量管理装置包括：

模型训练模块41，用于根据样本业务数据以及与各样本业务数据对应的样本集群节点数量训练出目标模型；

数据获取模块42，用于获取目标大数据集群的当前业务数据；

节点管理模块43，用于将当前业务数据输入至目标模型中，利用目标模型输出与当前业务数据对应的目标集群节点数量。

本发明实施例提供的基于Ambari的集群容量管理装置，具有上述基于Ambari的集群容量管理方法的有益效果。

作为优选的实施方式，另一种基于Ambari的集群容量管理装置进一步包括：

模拟运行模块，用于利用目标集群节点数量和当前业务数据进行模拟运行，得出与目标大数据集群对应的模拟集群性能。

节点调整模块，用于根据模拟集群性能是否达到目标集群性能的情况确定出是否需要重新确定目标集群节点数量。

性能获取模块，用于获取目标大数据集群的当前集群性能；

节点调整模块，用于依据当前集群性能和预设调整规则调整目标大数据集群的目标集群节点数量。

作为优选的实施方式，模型训练模块具体包括：

更新子模块，用于将样本业务数据以及与各样本业务数据对应的样本集群节点数量输入至初始化模型中进行学习训练，迭代更新初始化模型；

第一执行子模块，用于若初始化模型的模型输出值与目标输出值的第一差值小于第一预设阈值且模型输出值对应的性能模拟值与目标模拟值的第二差值小于第二预设阈值，则输出目标模型；

第二执行子模块否则，利用第一差值和/或第二差值更新初始化模型并调用更新子模块。

次数设置模块，用于设置最大迭代次数；

累计模块，用于累计学习训练过程中的累计迭代更新次数；

输出模块，用于若累计迭代更新次数大于最大迭代次数，结束迭代更新并输出目标模型。

第二设置模块，用于设置集群节点最大值；

提示模块，用于当目标集群节点数量超过集群节点最大值时，发出对应的提示信息。

图5为本发明实施例提供的一种基于Ambari的集群容量管理装置的结构图，如图5所示，一种基于Ambari的集群容量管理装置包括：

存储器51，用于存储计算机程序；

处理器52，用于执行计算机程序时实现如上述基于Ambari的集群容量管理方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述基于Ambari的集群容量管理方法的步骤。

本发明实施例提供的计算机可读存储介质，具有上述基于Ambari的集群容量管理方法的有益效果。

以上对本发明所提供的基于Ambari的集群容量管理方法、装置及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种基于Ambari的集群容量管理方法，其特征在于，包括：

获取目标大数据集群的当前业务数据；

2.根据权利要求1所述的方法，其特征在于，在所述将所述当前业务数据输入至所述目标模型中，利用所述目标模型输出与所述当前业务数据对应的目标集群节点数量之后，进一步包括：

3.根据权利要求2所述的方法，其特征在于，在所述利用所述目标集群节点数量和所述当前业务数据进行模拟运行，得出与所述目标大数据集群对应的模拟集群性能之后，进一步包括：

4.根据权利要求1所述的方法，其特征在于，进一步包括：

获取所述目标大数据集群的当前集群性能；

5.根据权利要求2所述的方法，其特征在于，所述根据样本业务数据以及与各所述样本业务数据对应的样本集群节点数量训练出目标模型的过程，具体包括：

6.根据权利要求5所述的方法，其特征在于，进一步包括：

设置最大迭代次数；

累计学习训练过程中的累计迭代更新次数；

7.根据权利要求1至6任一项所述的方法，其特征在于，进一步包括：

设置集群节点最大值；

8.一种基于Ambari的集群容量管理装置，其特征在于，包括：

数据获取模块，用于获取目标大数据集群的当前业务数据；

9.一种基于Ambari的集群容量管理装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的基于Ambari的集群容量管理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于Ambari的集群容量管理方法的步骤。