CN111190606B

CN111190606B - 一种大数据集群的自动化部署方法

Info

Publication number: CN111190606B
Application number: CN201911298865.XA
Authority: CN
Inventors: 薛志东; 姚春; 卢璟祥; 唐静; 董英豪; 张双双; 杜海朋
Original assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology; Ezhou Institute of Industrial Technology Huazhong University of Science and Technology
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-04-18
Anticipated expiration: 2039-12-17
Also published as: CN111190606A

Abstract

本发明公开了一种大数据集群的自动化部署方法，应用于中心服务端中，所述中心服务端与设置有第一客户端的第一集群节点构成对等网络，所述方法包括：通过第一客户端及对等网络，获取第一集群节点的第一节点信息，第一节点信息用于表征第一集群节点的地址信息及身份信息；根据第一节点信息，确定第一集群节点的第一分组信息及第一配置信息；根据所述第一分组信息及所述第一配置信息，获得第二配置信息，所述第二配置信息为所述第一大数据集群内所有集群节点的配置信息，所述第二配置信息包括所述第一配置信息；向所述第一集群节点发送所述第二配置信息，以使所述第一集群节点根据所述第二配置信息进行自动化配置，形成所述第一大数据集群。

Description

一种大数据集群的自动化部署方法

技术领域

本发明涉及大数据应用与实践的技术领域，尤其涉及一种大数据集群的自动化部署方法。

背景技术

目前数据正在迅速膨胀并变大，并在各个领域起着决定性，因此，对于大数据的分析，是非常具有现实价值和意义的。虽然现在普通的个人电脑配置已经能基本满足个人对于一定数据量的处理和分析，但是，对于日趋增长的数据来说，其配置和处理能力是远远不够的。在这种背景下，大数据的系统应运而生。其设计的理念是使用多个系统协同运行，使用高度优化的算法来处理纷繁复杂的大量数据，并从中提取出有价值的数据信息。

目前较常用的大数据系统的自动化配置，是基于特定网络环境下的类unix系统完成的，对于刚入门使用大数据或者数据分析人员来说，其配置过程往往是透明的，需要用户手动配置大量参数，导致用户在配置过程中，不能够很好地把握这些参数的选择，并且涉及大量的手动工序，配置繁琐复杂。

发明内容

本申请实施例通过提供一种大数据集群的自动化部署方法，解决了现有技术中大数据系统的自动化配置的涉及大量手动工序，配置繁琐复杂的技术问题。

第一方面，本申请通过本申请的一实施例提供如下技术方案：

一种大数据集群的自动化部署方法，应用于中心服务端中，所述中心服务端与设置有第一客户端的第一集群节点构成对等网络，所述方法包括：通过所述第一客户端及所述对等网络，获取第一集群节点的第一节点信息，所述第一节点信息用于表征所述第一集群节点的地址信息及身份信息；根据所述第一节点信息，确定所述第一集群节点的第一分组信息及第一配置信息，所述第一分组信息用于表征所述第一集群节点属于第一大数据集群；根据所述第一分组信息及所述第一配置信息，获得第二配置信息，所述第二配置信息为所述第一大数据集群内所有集群节点的配置信息，所述第二配置信息包括所述第一配置信息；向所述第一集群节点发送第二配置信息，以使所述第一集群节点根据所述第二配置信息进行自动化配置，形成所述第一大数据集群。

在一个实施例中，所述第一节点信息包括第一标识信息及第一IP地址信息。

在一个实施例中，所述配置信息包括：标识信息、IP地址信息及角色信息。

在一个实施例中，所述第一客户端处于windows系统或linux系统，当所述第一客户端处于windows系统时，所述第一集群节点设置有虚拟机程序；所述通过所述第一客户端及所述对等网络，获取第一集群节点的第一节点信息，包括：通过所述第一客户端控制所述虚拟机程序采集所述第一节点信息，并通过所述对等网络获取所述第一节点信息。

在一个实施例中，所述根据所述第一分组信息及所述第一配置信息，获得第二配置信息，具体包括：根据所述第一分组信息，获取所述第一集群节点所在的所述第一大数据集群的当前配置信息；基于所述第一配置信息更新所述当前配置信息，得到所述第二配置信息。

在一个实施例中，所述根据所述第一节点信息，获得所述第一集群节点的第一分组信息及第一配置信息，包括：根据预设配置模式、所述第一节点信息，获取所述第一分组信息及所述第一配置信息，其中，所述预设配置模式包括：自主配置模式、面对面模式、用户均衡模式、座位邻近模式中的其中一种。

在一个实施例中，当所述预设配置模式为所述自主配置模式时，所述根据预设配置模式、所述第一节点信息，获取所述第一分组信息及所述第一配置信息，包括：响应于第一用户在所述中心服务端的第一操作，获取所述第一用户导入的所述第一集群节点的第一分组信息及第一角色信息；基于第一角色信息及所述第一节点信息，得到所述第一配置信息；当所述预设配置模式为所述面对面模式时，所述根据预设配置模式、所述第一节点信息，获取所述第一分组信息及所述第一配置信息，包括：响应于所述第一用户在所述中心服务端的第二操作，向所述第一集群节点发送第一验证信息；获取第二用户在所述第一集群节点的所述第一客户端输入的与所述第一验证信息关联的第二验证信息；基于所述第二验证信息，确定所述第一分组信息及所述第一角色信息；基于所述第一角色信息及所述第一节点信息，获取所述第一配置信息；当所述预设配置模式为所述用户均衡模式时，所述根据预设配置模式、所述第一节点信息，获取所述第一分组信息及所述第一配置信息，包括：响应于所述第一用户在所述中心服务端的第三操作，获取所述第一集群节点的第一分值信息；基于所述第一分值信息，确定所述第一集群节点的第一类别；基于所述第一类别，按照分值均衡规则，获取所述第一分组信息及所述第一角色信息；基于所述第一角色信息及所述第一节点信息，获取所述第一配置信息；当所述预设配置模式为所述座位邻近模式时，所述根据预设配置模式、所述第一节点信息，获取所述第一分组信息及所述第一配置信息，包括：响应于所述第一用户在所述中心服务端的第四操作，获取所述第一集群节点的座位分布信息；基于所述座位分布信息，确定所述第一分组信息及所述第一角色信息；基于所述第一角色信息及所述第一节点信息，获取所述第一配置信息。

在一个实施例中，在所述根据所述第一分组信息，向所述第一集群节点发送第二配置信息，以使所述第一集群节点根据所述第二配置信息进行自动化配置之后，还包括：接收所述第一集群节点反馈的第一配置结果信息；根据所述第一配置结果信息，向所述第一大数据集群的所有集群节点发送启动信息，以使主节点启动子节点，完成自动化配置，形成所述第一大数据集群，其中，所述第一集群节点为所述主节点或所述子节点。

第二方面，本申请通过本申请的一实施例提供如下技术方案：

一种大数据集群的自动化部署方法，应用于第一集群节点中，所述第一集群节点设置有第一客户端，所述第一集群节点通过所述第一客户端与中心服务端构成对等网络，所述方法包括：通过所述第一客户端，获取所述第一集群节点的第一节点信息，所述第一节点信息用于表征所述第一集群节点的地址信息及身份信息；将所述第一节点信息通过所述对等网络，传送给所述中心服务端，以使所述中心服务端根据所述第一节点信息，确定所述第一集群节点的第一分组信息及第一配置信息，并根据所述第一分组信息及所述第一配置信息，获得第二配置信息，所述第一分组信息用于表征所述第一集群节点属于第一大数据集群；接收所述中心服务端发送的所述第二配置信息；根据所述第二配置信息进行自动化配置，形成所述第一大数据集群，所述第二配置信息为所述第一大数据集群内所有集群节点的配置信息，所述第二配置信息包括所述第一配置信息。

在一个实施例中，所述根据所述第二配置信息进行自动化配置之后，还包括：向所述中心服务端反馈第一配置结果信息；接收所述中心服务端发送的启动信息；根据所述启动信息进行启动，完成自动化配置，形成所述第一大数据集群。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本申请通过在需要配置的第一集群节点设置第一客户端，与中心服务端形成对等网络，利用对等网络及第一客户端，完成第一集群节点的第一节点信息的采集，进一步得到第一集群节点的第一分组信息和第一配置信息，并将与第一集群节点所属的第一大数据集群的所有集群节点的第二配置信息发送给第一集群节点，第一集群节点获取到第二配置信息后，可以根据第二配置信息自主判断自己的角色，并进行自动化配置，形成第一大数据集群。本发明在第一集群节点添加好第一客户端，设置中心服务端，完成对等网络的组建后，即可通过此对等网络，与其他节点自动完成搭建集群配置工作，形成第一大数据集群，而无需大量的手动参数的配置，解决了现有技术中大数据系统的自动化配置的涉及大量手动工序，配置繁琐复杂的技术问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请较佳实施例提供的一种大数据集群的自动化部署方法的流程图；

图2为本申请较佳实施例提供的又一种大数据集群的自动化部署方法的流程图。

具体实施方式

本申请实施例的技术方案为解决上述技术问题，总体思路如下：

一种大数据集群的自动化部署方法，应用于中心服务端中，所述中心服务端与设置有第一客户端的第一集群节点构成对等网络，所述方法包括：通过所述第一客户端及所述对等网络，获取第一集群节点的第一节点信息，所述第一节点信息用于表征所述第一集群节点的地址信息及身份信息；根据所述第一节点信息，确定所述第一集群节点的第一分组信息及第一配置信息，所述第一分组信息用于表征所述第一集群节点属于第一大数据集群；根据所述第一分组信息及所述第一配置信息，获得第二配置信息，所述第二配置信息为所述第一大数据集群内所有集群节点的配置信息，所述第二配置信息包括所述第一配置信息；向所述第一集群节点发送第二配置信息，以使所述第一集群节点根据所述第二配置信息进行自动化配置，形成第一大数据集群，解决了现有技术中大数据系统的自动化配置的涉及大量手动工序，配置繁琐复杂的技术问题。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例一

如图1所示，本实施例提供了一种大数据集群的自动化部署方法，应用于中心服务端中，所述中心服务端与设置有第一客户端的第一集群节点构成对等网络，所述方法包括：

S101：通过所述第一客户端及所述对等网络，获取第一集群节点的第一节点信息，所述第一节点信息用于表征所述第一集群节点的地址信息及身份信息。

需要说明的是，对等网络为集中目录模式的p2p对等网络，对等网络的构建过程如下：

1、创建p2p网络的中心服务端，该中心服务端用于存储该对等网络中所有对等节点的分组信息及角色信息，并启动p2p网络的监听服务，允许其他对等节点加入该网络；

2、在需要组网的节点上安装第一客户端，通过第一客户端，构建集中目录模式的p2p对等网络。

组建完成的大数据集群在需要做大数据分析时，通过中心服务端负责记录和管理所有对等节点的共享信息资源。每个对等节点通过查询该中心服务端来了解对等网络中哪一个节点拥有自己所需要的共享信息资源，查找到以后，获取其地址，然后进一步向该对等节点请求自己所需要的信息资源，最后由该对等节点将其共享信息赋值并发送给请求的对等节点。基于集中目录模式的p2p对等网络的大数据集群，能够通过对等节点获取对应大数据的二进制框架文件，避免从单个节点(服务器端)拉取文件时候出现的网络阻塞情况。

需要说明的是，组建第一大数据集群的集群节点可以分布于同一网络拓扑，也可以分布于多个不同的网络拓扑。

当组建第一大数据集群的集群节点分布于多个不同的网络拓扑时，需要选取同时具有多个网络拓扑的集群节点配置客户端，以实现确保网络之间可以互相加入。

具体的，当第一集群节点同时处于多个网络拓扑时，利用第一集群节点作为当前网络拓扑的中转节点，该第一集群节点的第一客户端在接入p2p对等网络之后，会路由转发位于其他网络拓扑下还未接入p2p对等网络的节点信息，通过第一集群节点的路由转发功能，实现位于其他网络拓扑下的集群节点加入到p2p对等网络中，进而将多个网络拓扑连接起来，共享信息。

同时，在大数据处理过程中，该第一集群节点也负责其他网络拓扑下集群节点的大数据文件分布信息的转发，具备路由功能，使得同一个大数据集群下位于各个不同网络拓扑的集群节点可以相互连接，完成大数据处理工作。

作为一种可选的实施例，所述第一节点信息包括第一标识信息及第一IP地址信息。

具体的，第一标识信息可以为第一集群节点的主机名，还可以同时包括：用户在第一集群节点上登录第一客户端的用户名、第一集群节点的主机名。主机名可以为MAC地址，用户名为通俗的标识信息。当用户在第一集群节点使用用户名登录时，用户名和主机名均对应第一集群节点。

作为一种可选的实施例，所述第一客户端处于windows系统或linux系统，当所述第一客户端处于windows系统时，所述第一集群节点设置有虚拟机程序；

所述通过所述第一客户端及所述对等网络，获取第一集群节点的第一节点信息，包括：

通过所述第一客户端控制所述虚拟机程序采集所述第一节点信息，并通过所述对等网络获取所述第一节点信息。

实际实施过程中，需要组建大数据集群的用户PC(第一集群节点)可以处于linux系统或者windows系统，用户在自己的linux或者windows系统下打开第一客户端并使用自己的用户名进行登录，第一客户端会在当前登录的PC下完成大数据节点的配置。具体的，当用户使用的软件为linux版本的时候，由于大数据集群对linux的依赖性较高，客户端软件会主动收集当前用户PC的主机名和IP地址信息；在用户使用的软件为windows版本的时候，用户需要安装虚拟机软件，并将网络设置为桥接模式，第一客户端会通过控制虚拟机程序来获取内部linux虚拟机的主机名和IP地址信息。在收集完毕信息之后，第一客户端会将收集的主机名、IP地址信息及进行登录的用户名发送到中心服务端，完成集群节点信息的共享。

普通大数据集群大多数搭建在服务器端，对网络的依赖性较强且灵活性不高，用户并不能充分利用自己的PC资源来分组组建集群。本申请通过在windows系统下的PC上安装虚拟机软件，并将网络设置在桥接模式下，能够实现普通用户利用自己的PC资源来组建大数据集群。

S102：根据所述第一节点信息，确定所述第一集群节点的第一分组信息及第一配置信息，所述第一分组信息用于表征所述第一集群节点属于第一大数据集群；

作为一种可选的实施例，所述配置信息包括：标识信息、IP地址信息及角色信息。

具体的，角色信息包括：主节点角色信息、子节点角色信息，配置信息用于在集群节点中进行配置文件的配置，经过配置的集群节点，加入大数据集群。

作为一种可选的实施例，所述根据所述第一节点信息，获得所述第一集群节点的第一分组信息及第一配置信息，包括：

根据预设配置模式、所述第一节点信息，获取所述第一分组信息及所述第一配置信息，其中，所述预设配置模式包括：自主配置模式、面对面模式、用户均衡模式、座位邻近模式中的其中一种。

传统的自动化部署多个集群的工具，往往是批量配置集群，无法根据用户的实际情况进行自动化分组，不适应一些特定的个性化搭建环境。本实施例通过提供四种配置模式，便于管理员根据用户的使用场景进行个性化选择，进而实现大数据集群的自动化配置。

作为一种可选的实施例，当所述预设配置模式为所述自主配置模式时，所述根据预设配置模式、所述第一节点信息，获取所述第一分组信息及所述第一配置信息，包括：

响应于第一用户在所述中心服务端的第一操作，获取所述第一用户导入的所述第一集群节点的第一分组信息及第一角色信息；基于第一角色信息及所述第一节点信息，得到所述第一配置信息。

具体的，当管理员(第一用户，以下均简称为管理员)在中心服务端选择了自主配置模式，管理员会在中心服务端导入一个数表，该数表中记录了第一集群节点的第二节点信息、第一分组信息及第一角色信息，中心服务端在获取到该数表后，根据第一节点信息及第二节点信息，获取所述第一配置信息；第二节点信息可以为在第一集群节点上登录的用户名，第一节点信息可以包括在第一集群节点上登录的用户名和第一集群节点的主机名，中心服务端根据第二节点信息对应的用户名和第一节点信息对应的用户名，确定第一角色信息为第一节点信息对应的角色信息，并根据第一角色信息、主机名、用户名及第一IP地址信息，形成第一配置信息。

需要说明的是，中心服务端在根据管理员导入的数表，确定第一集群节点的第一角色信息之前，需要判定是否所有需要配置的集群节点的节点信息均上传完毕，具体为，第一客户端在上传完本机的第一节点信息后，需要向中心服务端报告第一集群节点的当前状态，并处于等待状态，中心服务端根据接收到的当前状态，判断数表上的所有集群节点是否上传完毕，当所有的集群节点均上传完毕之后，中心服务端会向所有的集群节点发送一个完成信号，并根据管理员导入的数表，确定第一集群节点的第一角色信息。

当所述预设配置模式为所述面对面模式时，所述根据预设配置模式、所述第一节点信息，获取所述第一分组信息及所述第一配置信息，包括：

响应于所述第一用户在所述中心服务端的第二操作，向所述第一集群节点发送第一验证信息；获取第二用户在所述第一集群节点的所述第一客户端输入的与所述第一验证信息关联的第二验证信息；基于所述第二验证信息，确定所述第一分组信息及所述第一角色信息；基于所述第一角色信息及所述第一节点信息，获取所述第一配置信息。

具体的，当管理员选择面对面模式，管理员会通过中心服务端向第一客户端分发多个集群码(第一验证信息)，第一客户端会出现输入集群码界面，第二用户在规定时间输入一个由管理员分发的其中一个集群码(第二验证信息)。中心服务端根据第二用户输入的集群码，确定第一集群节点的第一分组信息及第一角色信息，具体为：输入同一个集群码的第二用户会加入同一个大数据集群，按照加入的时间顺序，首个加入集群的第二用户的主机为主节点。中心服务端根据第一角色信息、第一节点信息，形成第一配置信息。

当所述预设配置模式为所述用户均衡模式时，所述根据预设配置模式、所述第一节点信息，获取所述第一分组信息及所述第一配置信息，包括：

响应于所述第一用户在所述中心服务端的第三操作，获取所述第一集群节点的第一分值信息；基于所述第一分值信息，确定所述第一集群节点的第一类别；基于所述第一类别，按照分值均衡规则，获取所述第一分组信息及所述第一角色信息；基于所述第一角色信息及所述第一节点信息，获取所述第一配置信息。

需要说明的是，在首次进行大数据集群组建时，用户均衡模式下，所述根据预设配置模式、所述第一节点信息，获取所述第一分组信息及所述第一配置信息的具体步骤如下：

(1)管理员确定每一个大数据集群的最大人数n，以及组建所有大数据集群的最大时间T1和组建单个大数据集群的等待时间T2；

(2)中心服务端会获取到一个分值表，该分值表中记载有所有集群节点的分值信息Xi，分值信息用于评估各集群节点的硬件资源能力、软件资源能力，该分指标可以是管理员导入，也可以是中心服务器根据客户端共享的硬件资源和软件资源等，基于预设规则，进行的评分。

(3)在时间达到T1后，中心服务端将所有集群节点的分值信息组成一个样本D＝{X1，X2，X3，…，Xm}(m为总人数)，并从D中随机选择k个类别中心，U1，U2，U3，…Uk。

(4)、对于每个样本点Xi，将其标记为距离类别中心最近的类别，即根据K-Means算法进行聚类，即Y_i＝arg_min‖X_i-U_j‖,1≤j≤p，即距离哪个类别中心最近就划分到哪一类别中。然后每个类别中心更新为该类别下所有样本的均值；然后重复步骤(4)，直到每一类别中心在迭代后变化不大为止。

(5)、所有集群节点被分为k个类别，为了保证所分配集群用户的合理性，即一个大数据集群的综合得分均衡，中心服务端会将k个均值进行排序，假设排序完的簇为S1，S2，S3…，Sk(簇包含该类别中心对应的类别下的所有样本点，每个簇中的样本点个数可能不同)。然后每次从当前样本的均值最大簇和均值最小簇中随机选取一个样本点加入集群，并从簇中剃除该样本点(随着样本点的剃除，簇中的样本点会逐渐减少，直至完全被剔除，此时，均值最大簇或均值最小簇顺移，例如：S1为均值最大簇，当S1中样本点被剔除完后，当前样本的均值最大簇变为S2)，直到组成n个集群节点的大数据集群为止。然后重复步骤5)，直到所有的样本点均分配。如最终剩余的样本点个数不足以构成一个n个集群节点的大数据集群，则启动T2时间的等待。时间达到T2后，剩余的样本点组成一个集群节点数小于n的大数据集群。

(6)、T1后加入的大数据集群的集群节点，根据其分值信息，使用KNN算法分配到步骤(4)生成的k个类别中，然后再继续重复调用步骤(5)，进行组群。

(7)经过步骤(1)-(6)后，得到所有集群节点的分组信息，并随机确定各组内各个集群节点的角色信息，由此，得到第一集群节点的第一分组信息及第一角色信息，中心服务端根据第一角色信息、第一节点信息，形成第一配置信息。

需要说明的是，在新的集群节点(第一集群节点)需要组建大数据集群时，用户均衡模式下，所述根据预设配置模式、所述第一节点信息，获取所述第一分组信息及所述第一配置信息的步骤如下：

根据新的集群节点的分值信息，使用KNN算法分配到步骤(4)生成的k个类别中，然后再继续重复调用步骤(5)，进行组群，获得第一分组信息，并随机确定第一大数据集群内所有集群节点的角色，从而获得第一角色信息。中心服务端根据第一角色信息、第一节点信息，形成第一配置信息。

当所述预设配置模式为所述座位邻近模式时，所述根据预设配置模式、所述第一节点信息，获取所述第一分组信息及所述第一配置信息，包括：

响应于所述第一用户在所述中心服务端的第四操作，获取所述第一集群节点的座位分布信息；基于所述座位分布信息，确定所述第一分组信息及所述第一角色信息；基于所述第一角色信息及所述第一节点信息，获取所述第一配置信息。

具体的，座位邻近模式下，集群节点需要配置有无线通信模块，管理员还需要在不同位置配置多个中心无线设备，例如：wifi热点设备。集群节点能够基于自身与各个中心无线设备之间的距离，进而自动加入不同的中心无线设备所在的无线网络中。加入同一中心无线设备的所有集群节点视为座位邻近，具有同一个座位分布信息，中心服务端通过监测各个中心无线设备，确定集群节点加入的中心无线设备，从而获取该集群节点所对应的座位分布信息。

当管理员选择了座位邻近模式时，中心服务端通过确定集群节点加入的中心无线设备，从而获取该集群节点所对应的座位分布信息，中心服务端会根据座位分布信息，将第一集群节点进行分组，并随机给所述第一集群节点分配第一角色信息，进一步，根据第一角色信息、第一节点信息，形成第一配置信息。

S103：根据所述第一分组信息及所述第一配置信息，获得第二配置信息，所述第二配置信息为所述第一大数据集群内所有集群节点的配置信息，所述第二配置信息包括所述第一配置信息。

需要说明的是，要完成一个大数据集群的组建，在各集群节点除需要获得自身的配置信息外，还需要获得同属于一个大数据集群的其他集群节点的配置信息，以实现与其他节点自动完成搭建集群配置工作。

作为一种可选的实施例，所述根据所述第一分组信息及所述第一配置信息，获得第二配置信息，具体包括：

根据所述第一分组信息，获取所述第一集群节点所在的所述第一大数据集群的当前配置信息，当前配置信息为第一集群节点在加入第一大数据集群之前第一大数据集群的所有集群节点的配置信息；

基于所述第一配置信息更新所述当前配置信息，得到所述第二配置信息，所述第二配置信息。

S104：向所述第一集群节点发送第二配置信息，以使所述第一集群节点根据所述第二配置信息进行自动化配置，形成所述第一大数据集群。

作为一种可选的实施例，在所述向所述第一集群节点发送第二配置信息，以使所述第一集群节点根据所述第二配置信息进行自动化配置之后，还包括：

接收所述第一集群节点反馈的第一配置结果信息，第一配置结果信息用于表征第一集群节点完成自动化配置；

根据所述第一配置结果信息，向所述第一大数据集群的所有集群节点发送启动信息，以使主节点启动子节点，完成自动化配置，形成所述第一大数据集群，其中，所述第一集群节点为所述主节点或所述子节点。

需要说明的是，本申请提供的方案适用于首次组建大数据集群或大数据集群组建后，新的集群节点(第一集群节点)需要加入大数据集群两种情况。

另外，当存在大量的集群节点需要组建多个大数据集群时，在向所述第一大数据集群的所有集群节点发送启动信息之前，需要等待接收第一大数据集群的所有集群节点反馈的配置结果信息。

本方案中，等待所有节点的配置完毕以后，利用每个大数据集群的每个主节点负责启动每个子节点，利用这种主节点主动模式，可以更好地完成批量的大数据集群，而不需手动对每个集群节点进行启动。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：

实施例二

如图2所示，本实施例提供了一种大数据集群的自动化部署方法，应用于第一集群节点中，所述第一集群节点设置有第一客户端，所述第一集群节点通过所述第一客户端与中心服务端构成对等网络，所述方法包括：

S201：通过所述第一客户端，获取所述第一集群节点的第一节点信息，所述第一节点信息用于表征所述第一集群节点的地址信息及身份信息；

S202：将所述第一节点信息通过所述对等网络，传送给所述中心服务端，以使所述中心服务端根据所述第一节点信息，确定所述第一集群节点的第一分组信息及第一配置信息，并根据所述第一分组信息及所述第一配置信息，获得第二配置信息，所述第一分组信息用于表征所述第一集群节点属于第一大数据集群；

S203：接收所述中心服务端发送的第二配置信息；

S204：根据所述第二配置信息进行自动化配置，形成第一大数据集群，所述第二配置信息为所述第一大数据集群内所有集群节点的配置信息，所述第二配置信息包括所述第一配置信息。

需要说明的是，当用户的PC(第一集群节点)需要加入大数据集群，前提是在用户的PC安装第一客户端。需要组建大数据集群的用户PC可以处于linux系统或者windows系统，用户在自己的linux或者windows系统下打开第一客户端并使用自己的用户名进行登录，第一客户端会在当前登录的PC下完成大数据节点的配置。具体的，当用户使用的软件为linux版本的时候，由于大数据集群对linux的依赖性较高，客户端会主动收集当前用户PC的主机名和IP地址信息；在用户使用的软件为windows版本的时候，用户需要安装虚拟机软件，并将网络设置为桥接模式，第一客户端会通过控制虚拟机程序来获取内部linux虚拟机的主机名和IP地址信息。在收集完毕信息之后，第一客户端会将收集的主机名、IP地址信息及进行登录的用户名发送到中心服务端，完成集群节点信息的共享。

作为一种可选的实施例，所述根据所述第二配置信息进行自动化配置之后，还包括：

向所述中心服务端反馈第一配置结果信息；

接收所述中心服务端发送的启动信息；

根据所述启动信息进行启动，完成自动化配置，形成所述第一大数据集群。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种大数据集群的自动化部署方法，其特征在于，应用于中心服务端中，所述中心服务端与设置有第一客户端的第一集群节点构成对等网络，所述方法包括：

通过所述第一客户端及所述对等网络，获取第一集群节点的第一节点信息，所述第一节点信息用于表征所述第一集群节点的地址信息及身份信息；

根据预设配置模式、所述第一节点信息，获取第一分组信息及第一配置信息，所述预设配置模式包括：自主配置模式、面对面模式、用户均衡模式、座位邻近模式中的其中一种，所述第一分组信息用于表征所述第一集群节点属于第一大数据集群；

根据所述第一分组信息及所述第一配置信息，获得第二配置信息，所述第二配置信息为所述第一大数据集群内所有集群节点的配置信息，所述第二配置信息包括所述第一配置信息；向所述第一集群节点发送所述第二配置信息，以使所述第一集群节点根据所述第二配置信息进行自动化配置，形成所述第一大数据集群；

其中，当所述预设配置模式为所述自主配置模式时，响应于第一用户在所述中心服务端的第一操作，获取所述第一用户导入的所述第一集群节点的第一分组信息及第一角色信息；基于第一角色信息及所述第一节点信息，得到所述第一配置信息；

当所述预设配置模式为所述面对面模式时，响应于所述第一用户在所述中心服务端的第二操作，向所述第一集群节点发送第一验证信息；获取第二用户在所述第一集群节点的所述第一客户端输入的与所述第一验证信息关联的第二验证信息；基于所述第二验证信息，确定所述第一分组信息及所述第一角色信息；基于所述第一角色信息及所述第一节点信息，获取所述第一配置信息；

当所述预设配置模式为所述用户均衡模式时，响应于所述第一用户在所述中心服务端的第三操作，获取所述第一集群节点的第一分值信息；基于所述第一分值信息，确定所述第一集群节点的第一类别；基于所述第一类别，按照分值均衡规则，获取所述第一分组信息及所述第一角色信息；基于所述第一角色信息及所述第一节点信息，获取所述第一配置信息；

当所述预设配置模式为所述座位邻近模式时，响应于所述第一用户在所述中心服务端的第四操作，获取所述第一集群节点的座位分布信息；基于所述座位分布信息，确定所述第一分组信息及所述第一角色信息；基于所述第一角色信息及所述第一节点信息，获取所述第一配置信息。

2.如权利要求1所述的大数据集群的自动化部署方法，其特征在于，所述第一节点信息包括第一标识信息及第一IP地址信息。

3.如权利要求1所述的大数据集群的自动化部署方法，其特征在于，所述配置信息包括：标识信息、IP地址信息及角色信息。

4.如权利要求1所述的大数据集群的自动化部署方法，其特征在于，所述第一客户端处于windows系统或linux系统，当所述第一客户端处于windows系统时，所述第一集群节点设置有虚拟机程序；

5.如权利要求1所述的大数据集群的自动化部署方法，其特征在于，所述根据所述第一分组信息及所述第一配置信息，获得第二配置信息，具体包括：

根据所述第一分组信息，获取所述第一集群节点所在的所述第一大数据集群的当前配置信息；

基于所述第一配置信息更新所述当前配置信息，得到所述第二配置信息。

6.如权利要求1所述的大数据集群的自动化部署方法，其特征在于，在所述向所述第一集群节点发送第二配置信息，以使所述第一集群节点根据所述第二配置信息进行自动化配置之后，还包括：

接收所述第一集群节点反馈的第一配置结果信息；

7.一种大数据集群的自动化部署方法，其特征在于，应用于第一集群节点中，所述第一集群节点设置有第一客户端，所述第一集群节点通过所述第一客户端与中心服务端构成对等网络，所述方法包括：

通过所述第一客户端，获取所述第一集群节点的第一节点信息，所述第一节点信息用于表征所述第一集群节点的地址信息及身份信息；

将所述第一节点信息通过所述对等网络，传送给所述中心服务端，以使所述中心服务端根据预设配置模式、所述第一节点信息，获取第一分组信息及第一配置信息，并根据所述第一分组信息及所述第一配置信息，获得第二配置信息，所述预设配置模式包括：自主配置模式、面对面模式、用户均衡模式、座位邻近模式中的其中一种，所述第一分组信息用于表征所述第一集群节点属于第一大数据集群；

接收所述中心服务端发送的所述第二配置信息；

根据所述第二配置信息进行自动化配置，形成第一大数据集群，所述第二配置信息为所述第一大数据集群内所有集群节点的配置信息，所述第二配置信息包括所述第一配置信息；

8.如权利要求7所述的大数据集群的自动化部署方法，其特征在于，所述根据所述第二配置信息进行自动化配置之后，还包括：

向所述中心服务端反馈第一配置结果信息；

接收所述中心服务端发送的启动信息；