CN117742931A

CN117742931A - 大数据集群部署方案的确定方法、装置、集群和存储介质

Info

Publication number: CN117742931A
Application number: CN202211123966.5A
Authority: CN
Inventors: 冯伟; 武文博
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2024-03-22
Also published as: WO2024055715A1

Abstract

本申请提供了一种大数据集群部署方案的确定方法、装置、集群和存储介质，属于大数据技术领域。该方法包括：接收输入的大数据集群的部署需求，该部署需求包括该大数据集群中待部署组件的部署需求信息、多个机房的机房容量信息和部署该大数据集群的主机的参数信息，基于该部署需求和该待部署组件的类别，确定该待部署组件的部署方案，该部署方案包括该待部署组件部署的机房以及在机房中部署的主机，输出该部署方案。采用本申请的方案，能够自动确定待部署组件的部署方案，而不是人工计算部署方案，能够提升部署方案的确定效率。

Description

大数据集群部署方案的确定方法、装置、集群和存储介质

技术领域

本申请涉及大数据技术领域，特别涉及一种大数据集群部署方案的确定方法、装置、集群和存储介质。

背景技术

随着信息技术的发展，大数据在多个领域获得广泛的应用。大数据通常由大数据集群进行处理，大数据集群可以是Hadoop集群。在一些场景中，大数据集群在部署一段时间后，随着数据量的增加，大数据集群需要扩充自己的规模，在大数据集群原有机房空间不足的情况下，大数据集群需要在异地机房部署，多个机房之间的设备通过网络进行数据传输。例如，原来大数据集群在A地机房部署，在扩充规模时，大数据集群也在B地机房进行部署，A地机房与B地机房中的设备通过网络进行数据传输。

相关技术中，在进行大数据集群部署时，通常由人工按照多个机房容纳的主机信息，将大数据集群随机拆分成多个部分，分别部署至多个机房中，这种方式可能会导致部署方案不合理、部署方案确定的效率低。

发明内容

本申请提供了一种大数据集群部署方案的确定方法、装置、集群和存储介质，能够提升部署方案的确定效率。

第一方面，本申请提供了一种大数据集群部署方案的确定方法，大数据集群由大数管理平台进行管理，部署大数据集群的机房包括多个机房，每个机房中容纳有主机，该方法包括：

接收输入的大数据集群的部署需求，该部署需求包括该大数据集群中待部署组件的部署需求信息、该多个机房的机房容量信息和部署该大数据集群的主机的参数信息，基于该部署需求和该待部署组件的类别，确定该待部署组件的部署方案，该部署方案包括该待部署组件部署的机房以及在机房中部署的主机，输出该部署方案。

本申请所示的方案中，充分考虑了大数据集群中待部署组件的部署需求信息、多个机房的机房容量信息和部署大数据集群的主机的参数信息，并由计算设备基于这些信息来确定出部署方案，提升了部署方案的合理性以及部署方案的确定效率。

在一种示例中，该基于该部署需求和该待部署组件的类别，确定该待部署组件的部署方案，包括：基于该部署需求和第一部署策略，确定该待部署组件的部署方案，该第一部署策略为将该待部署组件中第一类组件中同一个组件的数据存储部分和计算部分部署在相同机房的策略。

本申请所示的方案中，将第一类组件中同一个组件的数据存储部分和计算部分部署在相同的机房中，能够减少第一类组件中数据存储部分和计算部分的数据跨机房传输，进而能够节约机房之间的带宽。

在一种示例中，该基于该部署需求和第一部署策略，确定该待部署组件的部署方案，包括：确定满足该待部署组件的部署需求信息的主机为该待部署组件部署的主机，基于该机房容量信息、该待部署组件部署的主机和第一部署策略，确定该待部署组件部署的主机所属的机房。

在一种示例中，该基于该部署需求和第一部署策略，确定该待部署组件的部署方案之前，还包括：基于该第一类组件的部署需求信息和该参数信息，确定该第一类组件所需的主机数目，基于该机房容量信息，确定该主机数目大于该多个机房中每个机房所容纳的主机的数目。

本申请所示的方案中，在各个机房均不能完全部署第一类组件的情况下，将第一类组件中同一个组件的数据存储部分和计算部分部署在相同的机房中，能够减少第一类组件中数据存储部分和计算部分的数据跨机房传输，进而节约机房之间的带宽。

在一种示例中，该待部署组件中除该第一类组件之外的组件部署在同一个机房中。

本申请所示的方案中，将除第一类组件之外的组件部署在同一个机房中，能够减少这些组件的数据跨机房传输，进而节约机房之间的带宽。

在一种示例中，该基于该部署需求和该待部署组件的类别，确定该待部署组件的部署方案，包括：基于该待部署组件中第一类组件的部署需求信息，确定该第一类组件所需的主机数目，在该多个机房中存在所容纳的主机的数目大于或等于该主机数目的情况下，基于该部署需求和第二部署策略，确定该待部署组件的部署方案，该第二部署策略为将该第一类组件部署在同一个机房的策略。

本申请所示的方案中，在多个机房中某个机房中足够部署第一类组件，将第一类组件部署在同一机房中，能够减少第一类组件之间的数据跨机房传输，进而能够节约机房之间的带宽。

在一种示例中，该多个机房包括该第一机房和第二机房，该基于该部署需求和第二部署策略，确定该待部署组件的部署方案，包括：确定满足该待部署组件的部署需求信息的主机为该待部署组件部署的主机，确定该第一类组件部署的主机所属的机房为该第一机房，确定该待部署组件中除该第一类组件之外的第二类组件部署的机房为该第二机房，该第一机房所容纳的主机的数目大于或等于该主机数目。

本申请所示的方案中，将第一类组件部署在一个机房，将第二类组件部署在另一个机房，能够减少第一类组件之间的数据跨机房传输，以及第二类组件之间的数据跨机房传输，进而能够节约机房之间的带宽。

在一种示例中，该第一类组件包括基于大数据文件资源系统(Hadoopdistributed file system，HDFS)和大数据资源调度器(yet another resourcenegotiator，YARN)的组件，该待部署组件中除该第一类组件之外的组件为非基于该HDFS和该YRAN的组件。

在一种示例中，该方法还包括：对于该多个机房中的第一机房和第二机房，确定该第一类组件在该第一机房和该第二机房之间的第一数据传输量，确定该第一类组件与该第二类组件在该第一机房和该第二机房之间的第二数据传输量，确定该第一机房和该第二机房之间的管理面数据量和控制面数据量，基于该第一数据传输量、该第二数据传输量、该管理面数据量以及该控制面数据量，确定该第一机房和该第二机房之间的带宽需求。

本申请所示的方案中，可以基于一定策略，确定机房之间的带宽需求，为大数据集群部署方提供带宽需求的参考值。

在一种示例中，该方法还包括：确定该第一类组件与该第二类组件之间的数据传输量，并确定该第一机房与该第二机房之间的管理面数据量和控制面数据量，基于该数据传输量、该管理面数据量以及该控制面数据量，确定该第一机房与该第二机房之间的带宽需求信息。

在一种示例中，每个组件的部署需求信息包括操作系统要求信息、数据量或吞吐量中一种或多种。

在一种示例中，该参数信息包括各种型号的主机的操作系统信息、网络信息或硬件信息中的一种或多种以及该各种型号的主机的数目。

第二方面，本申请提供了一种大数据集群部署方案的确定的装置，该装置包括至少一个模块，该至少一个模块用于实现上述第一方面或第一方面中任一种示例所提供的大数据集群部署方案的确定的方法。

在一些实施例中，大数据集群部署方案的确定的装置中的模块通过软件实现，大数据集群部署方案的确定的装置中的模块是程序模块。在另一些实施例中，大数据集群部署方案的确定的装置中的模块通过硬件或固件实现。

第三方面，本申请提供了一种计算设备集群，该计算设备集群包括至少一个计算设备，每个计算设备包括处理器和存储器，该至少一个计算设备的处理器用于执行该至少一个计算设备的存储器中存储的指令，以使得该计算设备集群执行上述第一方面或第一方面中任一种示例所提供的大数据集群部署方案的确定的方法。

第四方面，本申请提供了一种计算机可读存储介质，该计算机可读存储介质包括计算机程序指令，当该计算机程序指令由计算设备集群执行时，该计算设备集群执行上述第一方面或第一方面中任一种示例所提供的大数据集群部署方案的确定的方法。

第五方面，本申请提供了一种包含指令的计算机程序产品，当该指令被计算设备集群运行时，使得所述计算设备集群执行上述第一方面或第一方面中任一种示例所提供的大数据集群部署方案的确定的方法。

附图说明

图1是本申请一个示例性实施例提供的大数据集群异地扩容的示意图；

图2是本申请一个示例性实施例提供的系统架构的示意图；

图3是本申请一个示例性实施例提供的大数据集群部署方案的确定方法流程示意图；

图4是本申请一个示例性实施例提供的大数据集群部署方案的确定方法流程示意图；

图5是本申请一个示例性实施例提供的大数据集群部署方案的确定装置的结构示意图；

图6是本申请一个示例性实施例提供的计算设备的结构示意图；

图7是本申请一个示例性实施例提供的计算设备集群的结构示意图；

图8是本申请一个示例性实施例提供的计算设备的连接示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面对本申请实施例涉及的一些术语概念做解释说明。

1、YARN，是Hadoop的资源管理器，是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度。YARN也称为是另一种资源协调者。

2、HDFS，是Hadoop的分布式文件系统，能够提供高可用获取应用数据的分布式文件系统。

3、大数据阵列式数据库(Hadoop database，HBase)，是一个建立在HDFS之上，且面向列的非关系型结构化查询语言(not only structured query language，NoSQL)数据库，用于快速读写大量数据。

4、大数据数据仓库(Hive)，是一个建立在Hadoop上的数据仓库基础框架。Hive提供了一系列的工具，用来进行数据提取转化加载(extract-transform-load，ETL)。

下面描述本申请的应用场景。

应用场景一，本申请实施例应用于在多个机房部署大数据集群的场景。例如，大数据集群的规模往往比较大，而单个机房的场地空间和容积有限，大数据集群往往部署在多个机房中。

应用场景二，本申请实施例应用于异地扩容的场景。例如，大数据集群在机房中部署一段时间后，随着数据量的增加，大数据集群需要扩充自身规模。在很多情况下，由于原有机房的场地空间不足，大数据集群需要在异地机房进行扩容主机。例如，参见图1，在原有的第一机房的场地空间不足的情况下，在另一位置新建第二机房，大数据集群同时部署在第一机房和第二机房。

在应用场景一和应用场景二中，大数据集群支持跨机房部署以及跨机房扩容，大数据集群对上层应用系统和其他业务系统而言是一个完整的集群，上层应用系统和其他业务系统不会感知到大数据集群的物理部署形态。在新部署大数据集群，或者扩容后的大数据集群接入大数据集群的管理平台中，由大数据集群的管理平台统一进行管理。

需要说明的是，在应用场景二中，虽然是异地扩容，但是从实质来讲，依旧是大数据集群的跨机房部署。

下面描述本申请实施例的系统架构。

本申请实施例提供了一种系统架构100。如图2所示，系统架构100包括第一设备101和第二设备102，第一设备101和第二设备102均可以是终端或者服务器等计算设备(计算设备参见后文中描述的计算设备200)，第一设备101与第二设备102之间通过有线或者无线网络连接。其中，第一设备101用于确定部署方案，部署方案包括大数据集群中的组件部署的机房以及在机房中部署的主机，第二设备102用于按照该部署方案，将大数据集群的组件部署至对应的主机。可选的，第一设备和/或第二设备还可以是在云计算平台的数据中心中的服务器或虚拟机，以向用户提供确定部署方案的云服务。

在图2中，第二设备102负责部署组件，在另一种实现中，系统架构100中不包括第二设备102，第一设备101确定出部署方案后，按照该部署方案，将大数据集群的组件部署至对应的主机。

下面描述本申请实施例中大数据集群部署方案的确定方法流程。

图3提供了大数据集群部署方案的确定方法的流程，参见步骤301至步骤303。在图3中以第一设备101确定部署方案为例进行方案的说明。

步骤301，接收输入的大数据集群的部署需求，该部署需求包括该大数据集群中待部署组件的部署需求信息、部署该大数据集群的多个机房的机房容量信息和部署该大数据集群的主机的信息。

其中，大数据集群为大数据Hadoop集群，待部署组件包括大数据集群中基于HDFS的组件和YARN的组件以及非基于HDFS和YARN的组件。例如，基于HDFS和YARN的组件包括HDFS组件、YRAN组件、HBase组件、Hive组件、Spark组件和弗林克(Flink)组件等，非基于HDFS和YARN的组件包括Kafka组件(是一种高吞吐量的分布式发布订阅消息系统组件)、弹性搜索(Elastic Search)组件、远程数据服务(remote dictionary server，Redis)组件和Flume组件(是一种高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统组件)等。部署需求包括待部署组件的部署需求信息、部署大数据集群的多个机房的容量信息和部署大数据集群的主机的参数信息。

在本实施例中，在部署大数据集群时，为用户提供部署需求的输入接口，用户通过该输入接口，输入大数据集群的部署需求。第一设备可以获取用户输入的部署需求。该输入接口可以是以图形界面、命令行或云计算平台上的应用程序编程接口(applicationprogramming interface，API)等方式提供的。

或者，在部署大数据集群时，用户触发终端设备向第一设备发送部署方案的确认请求。第一设备接收到部署方案的确定请求，在该确定请求中包括大数据集群的部署需求。第一设备可以在该确定请求中获取到该部署需求。

在一种示例中，对于任一组件，该组件的部署需求信息包括操作系统要求信息、数据量或吞吐量中一种或多种，操作系统要求信息指示该组件所部署的主机的操作系统，数据量指示该组件所要处理的数据量，吞吐量指示该组件单位时间内所传输的数据量。

在一种示例中，主机的参数信息包括各种型号的主机的操作系统信息、网络信息或硬件信息中一种或多种，以及各种型号的主机的数目。操作系统信息指示主机的操作系统，网络信息指示主机的带宽等，硬件信息指示主机的中央处理器(central processingunit，CPU)型号和存储资源等。

在一种示例中，多个机房可以设置在同一个城市，也可以设置在不同的城市。在机房中放置主机时，并未设置机架，每个机房的机房容量信息包括容纳的主机的数目。在机房中设置主机时，主机是通过机架放置在机房中，每个机房的机房容量信息包括容纳的机架的数目以及每个机架放置的主机的数目。在机房中设置主机时，一部分主机直接放置在机房中，另一部分主机通过机架放置在机房中，每个机房的机房容量信息包括容纳的机架的数目、每个机架容纳的主机的数目以及单独容纳的主机的数目。

步骤302，基于该部署需求和该待部署组件的类别，确定该待部署组件的部署方案，该部署方案包括该待部署组件部署的机房以及在机房中部署的主机。

其中，待部署组件的类别用于区分待部署组件。

在本实施例中，第一设备使用该部署需求和待部署组件的类别，确定待部署组件所要部署的机房以及在机房中所要部署的主机，即获得待部署组件的部署方案。此处待部署组件所要部署至的主机可以是部署至主机的型号，也可以是部署至的主机的标识，机房中同一型号的主机有可能存在多个，机房中同一标识的主机仅可能存在一个。

在一种示例中，待部署组件可以分为第一类组件和第二类组件，可选地，第一类组件为基于HDFS和YRAN的组件，第二类组件为非基于HDFS和YRAN的组件。

为了减少第一类组件中同一个组件在不同机房中的数据传输量，可以将第一类组件中同一个组件的数据存储部分和计算部分部署在相同的机房中。步骤302的处理可以如下：

第一设备获取存储的第一部署策略，第一部署策略为将第一类组件中同一个组件的数据存储部分和计算部分部署在相同机房的策略，并且确定第一类组件所包括的组件。第一设备基于大数据集群的部署需求和第一部署策略，将第一类组件中同一个组件的数据存储部分和计算部分部署在相同的机房中。例如，对于HBase组件，HBase组件的数据存储部分部署在主机1、主机2、主机3和主机4上，HBase组件对应的计算部分部署在主机1、主机2、主机3和主机4上，主机1、主机2、主机3和主机4部署在机房A。对于Hive组件，Hive组件的数据存储部分部署在主机5、主机6、主机7和主机8上，Hive组件对应的计算部分部署在主机5、主机6、主机7和主机8上，主机5、主机6、主机7和主机8部署在机房B。

可选地，在采用第一部署策略部署组件时，处理方式如下：

第一设备确定满足第一类组件的部署需求信息的主机。例如，对于第一类组件中的组件A，组件A的部署需求信息为视窗(windows)操作系统、数据量为500M以及吞吐量为1G，满足组件A的部署需求信息的主机的操作系统为windows操作系统，该主机能够为组件A处理500M的数据量，并且该主机能够在单位时长内为组件A传输1G的数据量。

第一设备将满足部署需求信息的主机确定为待部署组件部署的主机，然后对于第一类组件中的同一个组件，第一设备使用机房容量信息和待部署组件部署的主机，将部署该同一个组件的数据存储部分和计算部分的主机设置在相同的机房中，使得同一个组件的数据存储部分和计算部分之间不需要进行跨机房间的数据传输。对于待部署组件中除第一类组件之外的第二类组件，第一设备将第二类组件部署至的主机部署在同一个机房中，使得减少第二类组件跨机房的数据传输量。此处是考虑到第二类组件比较少，能够部署在同一个机房中。

可选地，针对第一类组件中的不同组件，划分资源池，不同组件对应不同的资源池。为每个组件配置数据存储部分的主机标签，并且为每个组件配置计算部分的主机标签，数据存储部分的主机标签与计算部分的主机标签对应，数据存储部分的主机标签对应的主机构成该组件的资源池。例如，为第一类组件中HBase组件的数据存储部分配置的主机标签为标签1、标签2、标签3和标签4，标签1、标签2、标签3和标签4对应的主机部署在第一机房，为HBase组件对应的计算部分配置的主机标签为标签1、标签2、标签3和标签4，使得计算部分在调度时被调度至标签1、标签2、标签3和标签4对应的主机。在执行计算任务时，Yarn根据计算任务队列对资源的需求，将计算任务队列中的计算任务与有对应标签的资源池动态关联。

在另一种示例中，将第一类组件中同一个组件的数据存储部分和计算部分部署在相同的机房中时，步骤302的处理可以如下：

预先研发一个部署方案生成软件，该部署方案生成软件的输入是大数据集群的部署需求和待部署组件的类别，输出是大数据集群的部署方案，该部署方案生成软件在配置时是将第一类组件中同一个组件的数据存储部分和计算部分部署在同一个机房为目的进行配置的。

第一设备将大数据集群的部署需求和待部署组件的类别输入到该部署方案生成软件，该部署方案生成软件输出部署方案，该部署方案即为大数据集群的部署方案。

在另一种示例中，待部署组件包括第一类组件和第二类组件，第一类组件为基于HDFS和YRAN的组件，第二类组件为非基于HDFS和YRAN的组件，第二类组件可以认为是待部署组件中除第一类组件之外的组件。为了减少第一类组件包括的不同组件在不同机房之间的数据传输量，考虑将第一类组件部署在同一个机房的主机上，处理方式如下：

参见图4，步骤401，第一设备使用第一类组件包括的各个组件的部署需求信息和主机的参数信息，确定该各个组件所需的主机的数目，将各个组件所需的主机的数目相加，获得第一类组件所需的主机数目。第一设备使用多个机房中每个机房的机房容量信息，确定每个机房所容纳的主机的数目。例如，主机的参数信息为：windows系统的主机有10个，硬件为CPU，CPU为2*32核，内存为4*32G等，linux系统的主机有12个，硬件为CPU，CPU为2*32核，内存为8*32G，第一类组件所需的主机数目为13个，多个机房中第一机房的机房容量信息为容纳20个主机。

步骤402，第一设备判断第一类组件所需的主机数目与每个机房所容纳的主机的数目的大小关系，在多个机房中存在所容纳的主机的数目大于或等于主机数目的情况下，则确定第一类组件能够全部部署至多个机房中的一个机房。例如，第一机房所容纳的主机的数目大于或等于主机数目。

步骤403，第一设备获取存储的第二部署策略，第二部署策略是将第一类组件部署在同一个机房的策略。第一设备基于大数据集群的部署需求和第二部署策略，确定大数据集群的部署方案，即将第一类组件部署在同一个机房中，而对于第二类组件，将第二类组件部署在除第一类组件部署的机房之外的机房，或者，部分部署在第一类组件部署的机房中，另外部分部署在除第一类组件部署的机房之外的机房。

步骤404，在多个机房中不存在所容纳的主机的数目大于或等于主机数目的情况下，则可以采用前文中描述的第一部署策略部署待部署组件，具体描述参见前文中的描述，此处不再赘述。

可选地，在采用第二部署策略部署组件时，处理方式如下：

在多个机房包括第一机房和第二机房的情况下，第一设备确定满足第一类组件的部署需求信息的主机。第一设备将满足部署需求信息的主机确定为待部署组件部署的主机。

在第一机房所容纳的主机的数目大于主机数目时，第一设备确定第一类组件部署的主机为第一机房，确定第二类组件部署的主机为第二机房。此处是考虑到第二类组件比较少，能够部署在同一个机房中。

例如，大数据集群为Hadoop集群，第一类组件包括HDFS组件、HBase组件、Yarn组件、Spark组件、Spark2X组件、Hive组件、映射归约(MapReduce)组件、Storm组件(是一种分布式实时计算系统系统组件)、Zookeeper组件(ZooKeeper组件是一个分布式的，开放源码的分布式应用程序协调服务组件)、数据库(data base，DB)服务(Service)组件、网络认证协议(kerberos，Krb)服务(Server)组件、Hadoop用户体验(Hadoop user experience，Hue)组件和轻量目录访问协议(lightweight directory access protocol，Ldap)Server组件。第二类组件包括Elastic Search组件、企业级搜索应用服务器(Solr)组件、Redis组件、图数据库(GraphBase)组件、Kafka组件、装卸器(Loader)组件、文件传输协议(file transferprotocol，FTP)-Server组件和Oozie组件(是一种任务调度框架组件)。表一中提供了该Hadoop集群中组件的部署方案。

表一

在表一中，主机类型指示组件所部署的主机的类型，在表一中示出三种不同的主机类型，分别使用类型1、类型2和类型3表示，三种主机类型的主机的详细信息参见表二。

表二

采用此种部署方案，在第一机房能够全部容纳第一类组件的情况下，将第一类组件部署在第一机房中，能够减少第一类组件中的组件在不同机房之间的数据传输量。

需要说明的是，在大数据扩容场景中，若原来已建机房中的主机已经无法挪动，可以直接获取到已建机房所能容纳的主机的数目。在表二中，管理节点是对部署在大数据集群中的组件进行集中管理，控制节点是执行资源调度和任务分配的相关节点。

步骤303，输出该部署方案。

在本实施例中，第一设备确定出待部署组件的部署方案后，可以向第二设备输出该部署方案，第二设备可以基于该部署方案，将待部署组件部署至多个机房的主机上。例如，第一设备确定出待部署组件的部署方案后，基于该部署方案生成部署任务列表，该部署任务列表可以通过离线导出电子表格(如EXCEL表)的形式输出至第二设备。第二设备的大数据集群安装软件可以使用部署任务列表，将待部署组件部署至多个机房的主机上。

或者，第一设备确定出待部署组件的部署方案后，可以向发送确定请求的设备发送部署方案。

或者，第一设备确定出待部署组件的部署方案后，可以显示该部署方案。

或者，第一设备确定出待部署组件的部署方案后，可以采用专用装置接入主机中，在该主机中部署所要部署的待部署组件。

采用图3所示的流程，基于大数据集群的部署需求和待部署组件的类别，自动确定待部署组件的部署方案，而不是人工计算部署方案，能够提升部署方案的确定效率，进而可以提升大数据集群的部署效率。

在一种示例中，在使用第一部署策略确定部署方案的情况下，第一设备还可以确定多个机房中任意两个机房之间的带宽需求，考虑第二类组件部署在同一个机房中，确定带宽需求的处理方式如下：

对于该多个机房中的第一机房和第二机房，确定第一类组件在第一机房和第二机房之间的第一数据传输量，确定第一类组件与第二类组件在第一机房和第二机房之间的第二数据传输量，确定第一机房和第二机房之间的管理面数据量和控制面数据量，基于第一数据传输量、第二数据传输量、该管理面数据量以及该控制面数据量，确定第一机房和第二机房之间的带宽需求。

在本实施例中，在确定两个机房之间的带宽需求时，以多个机房中的第一机房和第二机房为例进行说明。在大数据集群中，管理节点与控制节点可以部署在同一个机房中，也可以部署在不同的机房中。

在管理节点与控制节点均部署在第一机房或者第二机房的情况下，或者，在管理节点与控制节点分别部署在第一机房和第二机房的情况下，第一机房与第二机房之间的数据传输量考虑三部分，第一部分为第一机房与第二机房之间的管理面数据量和控制面数据量，第二部分为第一类组件在第一机房与第二机房之间的第一数据传输量，第三部分为第一类组件与第二类组件在第一机房和第二机房之间的第二数据传输量。第一机房与第二机房之间所需的最小带宽为管理面数据量、控制面数据量、第一数据传输量和第二数据传输量之和。为了使得第一机房与第二机房之间的带宽足够大数据集群使用，所以第一机房与第二机房之间的带宽需求，通常会大于第一机房与第二机房之间所需的最小带宽。

在第一机房和第二机房中均未部署管理节点和控制节点时，第一机房和第二机房之间不存在管理面数据量和控制面数据量。在第一机房或第二机房部署管理节点，且第一机房与第二机房均未部署控制节点时，第一机房和第二机房之间不存在控制面数据量，在第一机房或第二机房部署控制节点，且第一机房与第二机房均未部署管理节点时，第一机房和第二机房之间不存在管理面数据量。此处，不存在管理面数据量和控制面数据量，可以认为管理面数据量和控制面数据量均为0。

第一设备在确定出多个机房中每两个机房之间的带宽需求之后，将该带宽需求和大数据集群的部署方案一起输出给第二设备。或者，向发送确定请求的设备发送该带宽需求和大数据集群的部署方案，或者，显示大数据集群的部署方案时，同时显示该带宽需求。

需要说明的是，在计算带宽需求时，是以第二类组件部署在同一个机房为例进行说明，在第二类组件部署在不同的机房时，还需要考虑第二类组件在不同机房之间的第三数据传输量。

在一种示例中，在使用第二部署策略确定部署方案的情况下，第二设备还可以确定第一机房与机房之间的带宽需求，处理方式如下：

确定第一类组件与第二类组件之间的数据传输量，并确定第一机房与第二机房之间的管理面数据量和控制面数据量，基于该数据传输量、该管理面数据量和该控制面数据量，确定第一机房与第二机房之间的带宽需求。

在本实施例中，对于第一类组件中的任一组件，第一设备确定该任一组件与第二类组件中各个组件之间单位时长内的数据传输量。第一设备将第一类组件中所有组件对应的单位时长内的数据传输量相加，获得第一类组件与第二类组件之间单位时长内的数据传输量。

在大数据集群中，还设置有管理节点和控制节点。管理节点与控制节点可以部署在同一个机房中，也可以部署在不同的机房中。第一设备确定第一机房与第二机房之间的控制面数据量，并且确定第一机房与第二机房之间的管理面数据量，将该控制面数据量与该管理面数据量相加，获得第一机房与第二机房之间的管控面数据量。

第一设备将该数据传输量与管控面数据量相加，获得一个数值，将该数值确定为第一机房与第二机房之间所需的最小带宽。为了使得第一机房与第二机房之间的带宽足够大数据集群使用，所以第一机房与第二机房之间的带宽需求，通常会大于第一机房与第二机房之间所需的最小带宽。

例如，假设第一类组件中的一个组件与第二类组件中的一个组件之间的吞吐量小于50Mb/s/节点，管理面数据量为5Mb/s/节点，控制面数据量为1Gb/s。

参见表三，总的组件数目为50～100，第一类组件的数目为50～450，第二类组件的数目为50以内，控制节点和管理节点部署在第一机房，第一类组件部署在第一机房，第二类组件部署在第二机房，跨机房的管控面数据量为50*5Mb/s/组件+1Gb/s，跨机房的组件间数据传输量为50*50Mb/s/组件，最小带宽为3.75GE，带宽需求为10GE，1GE表示1000Mb/s。

总的组件数目为500～1000，第一类组件的数目为400～900，第二类组件的数目为100以内，控制节点和管理节点部署在第一机房，第一类组件部署在第一机房，第二类组件部署在第二机房，跨机房的管控面数据量为100*5Mb/s/组件+1Gb/s，跨机房的组件间数据传输量为100*50Mb/s/组件，最小带宽为6.5GE，带宽需求为10GE。

总的组件数目为1000～2000，第一类组件的数目为800～1800，第二类组件的数目为200以内，控制节点和管理节点部署在第一机房，第一类组件部署在第一机房，第二类组件部署在第二机房，跨机房的管控面数据量为200*5Mb/s/组件+1Gb/s，跨机房的组件间数据传输量为200*50Mb/s/组件，最小带宽为12GE，带宽需求为20GE。

表三

第一设备在确定出第一机房与第二机房之间的带宽需求之后，将该带宽需求和大数据集群的部署方案一起输出给第二设备。或者，向发送确定请求的设备发送该带宽需求和大数据集群的部署方案，或者，显示大数据集群的部署方案时，同时显示该带宽需求。

这样，还可以输出带宽需求，为机房之间的带宽设置提供参考。

本申请实施例中，能够自动化输出跨机房部署大数据集群的部署方案，有效降低了人为随机进行跨机房部署的复杂程度，解决了由于人为随机部署大数据集群，导致计算复杂、操作复杂和部署时间长的问题。

而且在跨机房部署大数据集群时，不是随意在机房中部署组件，而是考虑了大数据集群中组件的类别，这样，在不降低大数据集群的计算性能的前提下，能够尽量减少机房间的数据传输量，进而能够降低机房间的带宽需求。而且在降低机房间的带宽需求后，还可以降低机房间的网络成本。

下面描述本申请实施提供的大数据集群部署方案的确定装置。

图5是本申请实施例提供的大数据集群部署方案的确定装置的结构图。该装置可以通过软件、硬件或者两者的结合实现成为装置中的部分或者全部。本申请实施例提供的装置可以实现本申请实施例图3所示的流程，该装置包括：获取模块510和确定模块520，其中：

获取模块510，用于接收输入的大数据集群的部署需求，所述部署需求包括所述大数据集群中待部署组件的部署需求信息、部署所述大数据集群的多个机房的机房容量信息和部署所述大数据集群的主机的参数信息，具体可以用于实现步骤301的获取功能以及执行步骤301包含的隐含步骤；

确定模块520，用于基于所述部署需求和所述待部署组件的类别，确定所述待部署组件的部署方案，所述部署方案包括所述待部署组件部署的机房以及在机房中部署的主机；

输出所述部署方案，具体可以用于实现步骤302和步骤303的获取功能以及执行步骤302和步骤303包含的隐含步骤。

在一种示例中，所述确定模块520，用于：

基于所述部署需求和第一部署策略，确定所述待部署组件的部署方案；

所述第一部署策略为将所述待部署组件中第一类组件中同一个组件的数据存储部分和计算部分部署在相同机房的策略。

在一种示例中，所述确定模块520，用于：

确定满足所述待部署组件的部署需求信息的主机为所述待部署组件部署的主机；

基于所述机房容量信息、所述待部署组件部署的主机和第一部署策略，确定所述待部署组件部署的主机所属的机房。

在一种示例中，所述确定模块520，还用于：

基于所述部署需求和第一部署策略，确定所述待部署组件的部署方案之前，基于所述第一类组件的部署需求信息和所述参数信息，确定所述第一类组件所需的主机数目；

基于所述机房容量信息，确定所述主机数目大于所述多个机房中每个机房所容纳的主机的数目。

在一种示例中，所述待部署组件中除所述第一类组件之外的组件部署在同一个机房中。

在一种示例中，所述确定模块520，用于：

基于所述待部署组件中第一类组件的部署需求信息，确定所述第一类组件所需的主机数目；

在所述多个机房中存在所容纳的主机的数目大于或等于所述主机数目的情况下，基于所述部署需求和第二部署策略，确定所述待部署组件的部署方案；

所述第二部署策略为将所述第一类组件部署在同一个机房的策略。

在一种示例中，所述多个机房包括所述第一机房和第二机房；

所述确定模块520，用于：

确定所述第一类组件部署的主机所属的机房为所述第一机房，确定所述待部署组件中除所述第一类组件之外的第二类组件部署的机房为所述第二机房，所述第一机房所容纳的主机的数目大于或等于所述主机数目。

在一种示例中，所述第一类组件包括基于HDFS和YRAN的组件；

所述待部署组件中除所述第一类组件之外的组件为非基于所述HDFS和所述YRAN的组件。

在一种示例中，所述确定模块520，还用于：

对于所述多个机房中的第一机房和第二机房，确定所述第一类组件在所述第一机房和所述第二机房之间的第一数据传输量；

确定所述第一类组件与所述第二类组件在所述第一机房和所述第二机房之间的第二数据传输量；

确定所述第一机房和所述第二机房之间的管理面数据量和控制面数据量；

基于所述第一数据传输量、所述第二数据传输量、所述管理面数据量以及所述控制面数据量，确定所述第一机房和所述第二机房之间的带宽需求。

在一种示例中，所述确定模块520，还用于：

确定所述第一类组件与所述第二类组件之间的数据传输量，并确定所述第一机房与所述第二机房之间的管理面数据量和控制面数据量；

基于所述数据传输量、所述管理面数据量以及所述控制面数据量，确定所述第一机房与所述第二机房之间的带宽需求信息。

其中，获取模块510和确定模块520均可以通过软件实现，或者可以通过硬件实现。示例性的，接下来以确定模块520为例，介绍确定模块520的实现方式。类似的，获取模块510的实现方式可以参考确定模块520的实现方式。

模块作为软件功能单元的一种举例，确定模块520可以包括运行在计算实例上的代码。其中，计算实例可以包括物理主机(计算设备)、虚拟机或容器中的至少一种。进一步地，上述计算实例可以是一台或者多台。例如，确定模块520可以包括运行在多个主机/虚拟机/容器上的代码。需要说明的是，用于运行该代码的多个主机/虚拟机/容器可以分布在相同的区域(region)中，也可以分布在不同的region中。进一步地，用于运行该代码的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone，AZ)中，也可以分布在不同的AZ中，每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中，通常一个region可以包括多个AZ。

同样，用于运行该代码的多个主机/虚拟机/容器可以分布在同一个虚拟私有云(virtual private cloud，VPC)中，也可以分布在多个VPC中。其中，通常一个VPC设置在一个region内，同一region内两个VPC之间，以及不同region的VPC之间跨区通信需在每个VPC内设置通信网关，经通信网关实现VPC之间的互连。

模块作为硬件功能单元的一种举例，确定模块520可以包括至少一个计算设备，如服务器等。或者，确定模块520也可以是利用专用集成电路(application-specificintegrated circuit，ASIC)实现或可编程逻辑器件(programmable logic device，PLD)实现的设备等。其中，上述PLD可以是复杂程序逻辑器件(complex programmable logicaldevice，CPLD)、现场可编程门阵列(field-programmable gate array，FPGA)和通用阵列逻辑(generic array logic，GAL)或其任意组合实现。

确定模块520包括的多个计算设备可以分布在相同的region中，也可以分布在不同的region中。确定模块520包括的多个计算设备可以分布在相同的AZ中，也可以分布在不同的AZ中。同样，确定模块520包括的多个计算设备可以分布在同一个VPC中，也可以分布在多个VPC中。其中，所述多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。

需要说明的是，在其他实施例中，获取模块510可以用于执行大数据集群部署方案的确定方法中的任意步骤，确定模块520可以用于执行大数据集群部署方案的确定方法中的任意步骤。获取模块510和确定模块520负责实现的步骤可根据需要指定，通过获取模块510和确定模块520分别实现大数据集群部署方案的确定方法中不同的步骤来实现大数据集群部署方案的确定装置的全部功能。

还需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时也可以有另外的划分方式。

下面描述本申请实施例提供的计算设备200。

本申请实施例还提供了一种计算设备200。如图6所示，计算设备200包括：总线1102、处理器1104、存储器1106和通信接口1108。处理器1104、存储器1106和通信接口1108之间通过总线1102通信。计算设备200可以是服务器或终端设备。应理解，本申请不限定计算设备200中的处理器和存储器的个数。

总线1102可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线和控制总线等。为便于表示，图6中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。总线1104可包括在计算设备200各个部件(例如，存储器1106、处理器1104和通信接口1108)之间传送信息的通路。

处理器1104可以包括中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、微处理器(micro processor，MP)或者数字信号处理器(digital signal processor，DSP)等处理器中的任意一种或多种。

存储器1106可以包括易失性存储器(volatile memory)，例如，随机存取存储器(random access memory，RAM)。处理器1104还可以包括非易失性存储器(non-volatilememory)，例如，只读存储器(read-only memory，ROM)，快闪存储器，机械硬盘(hard diskdrive，HDD)或固态硬盘(solid state drive，SSD)。

存储器1106中存储有可执行的程序代码，处理器1104执行该可执行的程序代码以分别实现前文中获取模块510和确定模块520的功能，从而实现大数据集群部署方案的确定方法。也即，存储器1106上存有用于执行大数据集群部署方案的确定方法的指令。

通信接口1108使用例如但不限于网络接口卡和收发器一类的收发模块，来实现计算设备200与其他设备或通信网络之间的通信。

下面描述本申请实施例提供的计算设备集群。

本申请实施例还提供了一种计算设备集群。该计算设备集群包括至少一个计算设备。该计算设备可以是服务器，例如，该计算设备是中心服务器、边缘服务器，或者是本地数据中心中的本地服务器。在一些实施例中，计算设备也可以是台式机、笔记本电脑或者智能手机等终端设备。

如图7所示，该计算设备集群包括至少一个计算设备200。计算设备集群中的一个或多个计算设备200中的存储器1106中可以存有相同的用于执行大数据集群部署方案的确定方法的指令。

在一些可能的实现方式中，该计算设备集群中的一个或多个计算设备200的存储器1106中也可以分别存有用于执行大数据集群部署方案的确定方法的部分指令。换言之，一个或多个计算设备200的组合可以共同执行用于执行大数据集群部署方案的确定方法的指令。

需要说明的是，计算设备集群中的不同的计算设备200中的存储器1106可以存储不同的指令，分别用于执行前文中大数据集群部署方案的确定装置的部分功能。也即，不同的计算设备200中的存储器1106存储的指令可以实现获取模块510和确定模块520中的一个或多个模块的功能。

在一些可能的实现方式中，计算设备集群中的一个或多个计算设备可以通过网络连接。其中，该网络可以是广域网或局域网等等。图8示出了一种可能的实现方式。如图8所示，两个计算设备(第一计算设备200A和第二计算设备200B)之间通过网络进行连接。具体地，通过各个计算设备中的通信接口与该网络进行连接。在这一类可能的实现方式中，第一计算设备200A中的存储器1106中存有执行确定模块520的功能的指令。同时，第二计算设备200B中的存储器1106中存有执行获取模块510的功能的指令。

图8所示的计算设备集群之间的连接方式可以是考虑到本申请提供的大数据集群部署方案的确定方法中获取模块510与确定模块520之间存在数据传输，且确定模块520占用的空间比较大，因此考虑将执行确定模块520实现的功能交由第一计算设备200A执行，并且考虑到本申请提供的大数据集群部署方案的确定方法有可能与终端设备进行交互，因此考虑将执行获取模块510实现的功能交由第二计算设备200B执行。

应理解，图8中示出的第一计算设备200A的功能也可以由多个计算设备200完成。同样，第二计算设备200B的功能也可以由多个计算设备200完成。

本申请实施例还提供了一种包含指令的计算机程序产品。所述计算机程序产品可以是包含指令的，能够运行在计算设备上或被储存在任何可用介质中的软件或程序产品。当所述计算机程序产品在至少一个计算设备上运行时，使得至少一个计算设备执行大数据集群部署方案的确定方法。

本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字多功能光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令，所述指令指示计算设备执行大数据集群部署方案的确定方法。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例中描述的各方法步骤和单元，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请中术语“第一”和“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”和“第二”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语“第一”和“第二”等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种示例的范围的情况下，第一类组件可以被称为第二类组件，并且类似地，第二类组件可以被称为第一类组件。第一类组件和第二类组件都可以是问题，并且在某些情况下，可以是单独且不同的问题。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的保护范围。

Claims

1.一种大数据集群部署方案的确定方法，应用于计算设备，其特征在于，所述大数据集群由大数管理平台进行管理，部署所述大数据集群的机房包括多个机房，每个机房中容纳有主机，所述方法包括：

接收输入的所述大数据集群的部署需求，所述部署需求包括所述大数据集群中待部署组件的部署需求信息、所述多个机房的机房容量信息和部署所述大数据集群的主机的参数信息；

基于所述部署需求和所述待部署组件的类别，确定所述待部署组件的部署方案，所述部署方案包括所述待部署组件部署的机房以及在机房中部署的主机；

输出所述部署方案。

2.根据权利要求1所述的方法，其特征在于，所述基于所述部署需求和所述待部署组件的类别，确定所述待部署组件的部署方案，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述部署需求和第一部署策略，确定所述待部署组件的部署方案，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述部署需求和第一部署策略，计算所述待部署组件的部署方案之前，还包括：

基于所述第一类组件的部署需求信息和所述参数信息，确定所述第一类组件所需的主机数目；

5.根据权利要求2至4任一项所述的方法，其特征在于，所述待部署组件中除所述第一类组件之外的组件部署在同一个机房中。

6.根据权利要求1所述的方法，其特征在于，所述基于所述部署需求和所述待部署组件的类别，确定所述待部署组件的部署方案，包括：

7.根据权利要求6所述的方法，其特征在于，所述多个机房包括所述第一机房和第二机房；

所述基于所述部署需求和第二部署策略，确定所述待部署组件的部署方案，包括：

8.根据权利要求2至7任一项所述的方法，其特征在于，所述第一类组件包括基于分布式文件系统HDFS和大数据资源调度器YRAN的组件；

9.根据权利要求5所述的方法，其特征在于，所述方法还包括：

10.根据权利要求7所述的方法，其特征在于，所述方法还包括：

11.根据权利要求1至10任一项所述的方法，其特征在于，每个组件的部署需求信息包括操作系统需求信息、数据量或吞吐量中一种或多种。

12.根据权利要求1至11任一项所述的方法，其特征在于，所述参数信息包括各种型号的主机的操作系统信息、网络信息或硬件信息中的一种或多种以及所述各种型号的主机的数目。

13.一种大数据集群部署方案的确定装置，应用于计算设备，其特征在于，所述大数据集群由大数管理平台进行管理，部署所述大数据集群的机房包括多个机房，每个机房中容纳有主机，所述装置包括：

获取模块，用于接收输入的所述获取大数据集群的部署需求，所述部署需求包括所述大数据集群中待部署组件的部署需求信息、所述多个机房的机房容量信息和部署所述大数据集群的主机的参数信息；

确定模块，用于基于所述部署需求和所述待部署组件的类别，确定所述待部署组件的部署方案，所述部署方案包括所述待部署组件部署的机房以及在机房中部署的主机；

输出所述部署方案。

14.根据权利要求13所述的装置，其特征在于，所述确定模块，用于：

15.根据权利要求14所述的装置，其特征在于，所述确定模块，用于：

16.根据权利要求15所述的装置，其特征在于，所述确定模块，还用于：

17.根据权利要求14至16任一项所述的方法，其特征在于，所述待部署组件中除所述第一类组件之外的组件部署在同一个机房中。

18.根据权利要求13所述的装置，其特征在于，所述确定模块，用于：

基于所述待部署组件中第一类组件的部署要求信息，确定所述第一类组件所需的主机数目；

19.根据权利要求18所述的装置，其特征在于，所述多个机房包括所述第一机房和第二机房；

所述确定模块，用于：

20.根据权利要求15至19任一项所述的装置，其特征在于，所述第一类组件包括基于分布式文件系统HDFS和大数据资源调度器YRAN的组件；

21.根据权利要求17所述的装置，其特征在于，所述确定模块，还用于：

22.根据权利要求19所述的装置，其特征在于，所述确定模块，还用于：

23.一种计算设备集群，其特征在于，包括至少一个计算设备，每个计算设备包括处理器和存储器；

所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令，以使得所述计算设备集群执行如权利要求1至12任一项所述的方法。

24.一种计算机可读存储介质，其特征在于，包括计算机程序指令，当所述计算机程序指令由计算设备集群执行时，所述计算设备集群执行如权利要求1至12任一项所述的方法。