CN113434158A

CN113434158A - 一种大数据组件的自定义管理方法、装置、设备及介质

Info

Publication number: CN113434158A
Application number: CN202110771352.7A
Authority: CN
Inventors: 李宏; 张琦; 吴金鑫; 侯立冬; 孟宝权; 王杰; 杨满智; 蔡琳; 梁彧; 田野; 金红; 陈晓光; 傅强
Original assignee: Eversec Beijing Technology Co Ltd
Current assignee: Eversec Beijing Technology Co Ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2021-09-24
Anticipated expiration: 2041-07-08
Also published as: CN113434158B

Abstract

本发明实施例公开了一种大数据组件的自定义管理方法、装置、设备及介质。其中，所述方法包括：基于目标需求确定目标架构；建立目标栈，并基于所述目标架构对所述目标栈的栈定义文件进行编辑；基于所述栈定义文件对各所述大数据组件的管理信息进行编辑，得到各所述大数据组件的自定义管理信息；根据所述自定义管理信息开发与各所述大数据组件匹配的组件安装脚本，并基于各所述组件安装脚本对各所述大数据组件进行安装。通过执行本方案，可以实现灵活地选择大数据组件类型，可以实现自定义大数据组件的管理方法，可以实现快速地部署各大数据组件，进而可以满足不同类型的大数据业务需求。

Description

一种大数据组件的自定义管理方法、装置、设备及介质

技术领域

本发明实施例涉及大数据技术领域，尤其涉及一种大数据组件的自定义管理方法、装置、设备及介质。

背景技术

大数据应用离不开Hadoop，Hadoop在广义上指的是Hadoop整个生态圈(例如Hive，Hbase，Sqoop，Zookeeper等)，而并不仅是特指Hadoop。市场上可以管理大数据组件的有两个厂商，分别是Cloudera和Hortonworks，但是它们只支持Hadoop3生态系统的部分大数据组件，不能支持全部的大数据组件。例如Hortonworks只支持HDFS3.x，不支持Impala3和Hive3。并且Cloudera和Hortonworks只能使用自己的固定版本的安装包。

这种限制导致的问题有：基于特定版本的大数据组件实现的大数据功能有限，并不全面；基于部分大数据组件组成的大数据架构可以实现的业务需求种类也有限；基于以上两种厂商对大数据组件进行管理只能依赖于厂商的要求和规定，因而，不能灵活地实现对大数据组件的管理和对大数据的使用。

发明内容

本发明实施例提供一种大数据组件的自定义管理方法、装置、设备及介质，可以实现灵活地选择大数据组件类型，可以实现自定义大数据组件的管理方法，可以实现快速地部署各大数据组件，进而可以满足不同类型的大数据业务需求。

第一方面，本发明实施例提供了一种大数据组件的自定义管理方法，该方法包括：基于目标需求确定目标架构；其中，所述目标架构包括至少两个大数据组件以及各所述大数据组件的版本信息；

建立目标栈，并基于所述目标架构对所述目标栈的栈定义文件进行编辑；

基于所述栈定义文件对各所述大数据组件的管理信息进行编辑，得到各所述大数据组件的自定义管理信息；

根据所述自定义管理信息开发与各所述大数据组件匹配的组件安装脚本，并基于各所述组件安装脚本对各所述大数据组件进行安装。

第二方面，本发明实施例还提供了一种大数据组件的自定义管理装置，该装置包括：目标架构确定模块，用于基于目标需求确定目标架构；其中，所述目标架构包括至少两个大数据组件以及各所述大数据组件的版本信息；

栈定义文件编辑模块，用于建立目标栈，并基于所述目标架构对所述目标栈的栈定义文件进行编辑；

管理信息编辑模块，用于基于所述栈定义文件对各所述大数据组件的管理信息进行编辑，得到各所述大数据组件的自定义管理信息；

组件安装脚本开发模块，用于根据所述自定义管理信息开发与各所述大数据组件匹配的组件安装脚本，并基于各所述组件安装脚本对各所述大数据组件进行安装。

第三方面，本发明实施例还提供了一种电子设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例中任一项所述的大数据组件的自定义管理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例中任一项所述的大数据组件的自定义管理方法。

本发明实施例提供的技术方案，基于目标需求确定目标架构；其中，目标架构包括至少两个大数据组件以及各大数据组件的版本信息；建立目标栈，并基于目标架构对目标栈的栈定义文件进行编辑；基于栈定义文件对各大数据组件的管理信息进行编辑，得到各大数据组件的自定义管理信息；根据自定义管理信息开发与各大数据组件匹配的组件安装脚本，并基于各组件安装脚本对各大数据组件进行安装。通过执行本方案，可以实现灵活地选择大数据组件类型，可以实现自定义大数据组件的管理方法，可以实现快速地部署各大数据组件，进而可以满足不同类型的大数据业务需求。

附图说明

图1a是本发明实施例提供的一种大数据组件的自定义管理方法的流程图；

图1b是本发明实施例提供的一种大数据架构中各大数据组件之间的依赖关系结构示意图；

图2是本发明实施例提供的另一种大数据组件的自定义管理方法的流程图；

图3a是本发明实施例提供的又一种大数据组件的自定义管理方法的流程图；

图3b是本发明实施例提供的对大数据组件的进程和客户端完成定义并对应Web实现的效果图；

图3c是本发明实施例提供的对大数据组件的进程和客户端的管理方法完成定义并对应Web实现的效果图；

图3d是本发明实施例提供的对大数据组件的配置文件完成定义并对应Web实现的效果图；

图3e是本发明实施例提供的对大数据组件对应的快捷连接完成定义并对应Web实现的效果图；

图4是本发明实施例提供的一种大数据组件的自定义管理装置结构示意图；

图5是本发明实施例提供的一种电子设备结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1a是本发明实施例提供的大数据组件的自定义管理方法的流程图，所述方法可以由大数据组件的自定义管理装置来执行，所述装置可以由软件和/或硬件的方式实现，所述装置可以配置在用于自定义管理大数据组件的电子设备中。所述方法应用于实现大数据业务需求的场景中。如图1a所示，本发明实施例提供的技术方案具体包括：

S110:基于目标需求确定目标架构。

其中，所述目标架构包括至少两个大数据组件以及各所述大数据组件的版本信息。

其中，目标需求为业务需求制定人员根据客户的要求，对数据采集、数据筛选、数据入库、数据存储、数据查询及数据展示等流程的技术方案进行研究，对各个流程对应的技术方案以及不同技术方案的优缺点综合分析之后确定的需求。技术人员可以根据目标需求制定能够满足所述目标需求的架构，即目标架构。目标架构可以包括多个大数据组件，并且由于不同版本的大数据组件所支持的功能是不完全相同的，因而目标架构中还必须包括各大数据组件的版本信息。

其中，以Hadoop3生态系统为例，目标架构中各大数据组件之间的依赖关系如图1b所示，确定目标架构时也可以参考图1b。其中，各大数据组件之间逐层依赖，用于数据存储的Hdfs3(适合运行在通用计算机硬件上存储大数据的分布式文件存储系统)、用于资源调度的Yarn以及用于程序计算的MapReduce(高性能的批处理分布式计算框架，用于对海量数据进行并行分析和处理)通常作为一个整体使用，但是MapReduce的计算速度很慢，Hdfs3、Yarn以及MapReduce均依赖Zookeeper。ZooKeeper的功能是数据备份，ZooKeeper集群当中有连通在一起的多台服务器，服务器有Leader和Follwer两种角色，Leader有一个，Follower有多个。客户端分别连在不同的ZooKeeper服务器上。如果当数据通过某个客户端，在Follower服务器上做了一次数据变更，Leader会将该数据的变化同步到其他所有的服务器，同步结束之后，其他的客户端都会获得这个数据的变化。Hdfs3中的数据通常杂乱无章，数据仓库Hive3(基于Hadoop的数据仓库工具，用来进行数据提取、转化、加载)可以将Hdfs3中的数据存储为表结构，而Mysql中用于存储元数据。HBase既有Hive的功能，又支持查询功能，但是不支持SQL语句查询，Impala3(基于hadoop的开源高效分析型MPP数据库)、Spark3(基于内存的分布式计算引擎)可以用于数据查询分类好的数据，Phoenix可以支持SQL语句查询，可以结合HBase使用。

在一个可行的实施方式中，可选的，在基于目标需求确定目标架构之后，还包括：基于各所述大数据组件的版本信息确定各所述大数据组件之间的依赖关系；基于所述依赖关系确定被依赖大数据组件的目标依赖包；将所述目标依赖包放置于依赖大数据组件的目标目录下，以对所述依赖关系进行测试；若测试通过，则生成测试结果。

具体的，不同版本的大数据组件实现不同的功能，所以目标架构中各大数据组件之间需要依赖关系实现互通。可以基于各大数据组件的版本信息确定各大数据组件之间的依赖关系。例如Spark3基于Hive3.2开发，但在目标架构中Spark3需要的是Hive3的功能。因而可以基于目前开源的最新版本，解决依赖关系，找到需要的目标依赖包，并将目标依赖包放置于Spark3对应的目录下，并对二者的依赖关系进行测试，如果依赖测试通过，则生成测试结果。并按照该方法解决目标架构中所有大数据组件的依赖问题，对目标架构中的所有大数据组件之间的依赖关系进行测试，若测试通过，则生成对应测试结果。其中，测试结果中包含目标架构中各大数据组件之间的依赖包信息。

由此，通过基于各大数据组件的版本信息确定各大数据组件之间的依赖关系；基于依赖关系确定被依赖大数据组件的目标依赖包；将所述目标依赖包放置于依赖大数据组件的目标目录下，以对依赖关系进行测试；若测试通过，则生成测试结果。可以避免在后续进行大数据组件的自定义管理时还要考虑各大数据组件之间的依赖关系问题，导致涉及到依赖关系的多个环节无法顺利进行，可以根据测试结果直接定位依赖包，并更新与依赖包相关的信息，可以提高管理效率，节约管理时间。

S120:建立目标栈，并基于所述目标架构对所述目标栈的栈定义文件进行编辑。

其中，可以通过大数据管理平台上自定义管理大数据集群，在采用大数据管理平台管理大数据集群时，首先要新建一个与目标架构对应的栈(Stack)管理与该目标架构对应的大数据集群。栈的版本可以是Hadoop某个发行版本，例如HDP-3.0.0，表示所有的大数据组件版本的组合。对栈定义文件进行编辑包括对pom.xml以及agent和server的编辑，可以通过对agent和server的编辑将参数固定化，实现在对源码编译的时候不会出问题。

S130:基于所述栈定义文件对各所述大数据组件的管理信息进行编辑，得到各所述大数据组件的自定义管理信息。

具体的，每个大数据组件组件都对应不同的管理、配置和安装方法，可以基于栈定义文件中各大数据组件的组织架构对各大数据组件的管理信息分别进行编辑，得到各大数据组件的自定义管理信息。管理信息可以是对各大数据组件下的metainfo.xml以及配置文件进行编辑得到的信息。管理信息也可以是对各大数据组件具体的实现方法进行编辑得到的信息。

在本实施例中，可选的，基于所述栈定义文件对各所述大数据组件的管理信息进行编辑，得到大数据组件的自定义管理信息，包括：基于所述栈定义文件对各所述大数据组件的进程、客户端以及配置文件进行编辑，以完成对大数据组件的管理信息的编辑。

具体的，可以通过配置各个大数据组件下存储的固定格式的metainfo.xml来设置构成服务的component(组件)以及部署组件的部署脚本、运行组件的角色名称、部署脚本的文件名称、部署脚本的语言种类等信息。例如定义大数据组件的各个进程或客户端属于master，slave和client三类中的哪一类，并指向各自的管理方法，以及对服务的版本、定义进行描述。例如还可以指定快速访问链接(大数据组件的Web页面访问地址)。例如还可以定义对其它大数据组件的依赖关系等。

配置文件是对大数据组件本身的配置，可以基于实际运行的环境进行参数优化，调整配置的值并作为默认值。例如内存配置，可以根据需求和已有的资源进行内存配置。

由此，通过基于栈定义文件对各大数据组件的管理信息进行编辑，得到大数据组件的自定义管理信息，包括：基于栈定义文件对各大数据组件的进程、客户端以及配置文件进行编辑，以完成对大数据组件的管理信息的编辑。可以实现自定义目标架构中各大数据组件的管理方法，可以根据需要灵活地对大数据组件进行管理。

在本实施例中，可选的，所述自定义管理信息包括漏洞信息；相应的，基于所述栈定义文件对各所述大数据组件的管理信息进行编辑，得到大数据组件的自定义管理信息，包括：基于所述栈定义文件对各所述大数据组件的漏洞信息进行编辑，以完成对所述目标架构中各所述大数据组件的漏洞信息的修复。

其中，由于大数据管理平台以及各个大数据组件开源的特性，使得大数据管理平台以及各个大数据组件本身存在一些漏洞。例如，大数据管理平台可能存在敏感信息泄露，Hadoop以及Impala存在未授权访问等漏洞。因而可以基于栈定义文件对各大数据组件的漏洞信息以及大数据管理平台的漏洞信息在相应的自定义管理文件中进行编辑，以完成对目标架构中各大数据组件的漏洞信息的修复。

由此，在自定义大数据组件的管理信息时基于栈定义文件对各大数据组件的漏洞信息进行编辑，以完成对目标架构中各所述大数据组件的漏洞信息的修复，可以实现提高利用大数据管理平台管理大数据集群的安全性和可靠性，可以实现灵活地管理大数据集群。

S140:根据所述自定义管理信息开发与各所述大数据组件匹配的组件安装脚本，并基于各所述组件安装脚本对各所述大数据组件进行安装。

其中，由于各大数据组件为分布式应用，各大数据组件实现的功能不一样，同时大数据组件之间存在相关依赖等，各大数据组件的安装脚本部分包含了分布式安装本地yum源、系统依赖、本大数据组件的yum源、jdk、MySQL、keepalived，配置了时间同步及定时同步、系统优化，并基于组件安装脚本安装、配置和启动大数据组件。其中，Stack下agent会根据大数据组件脚本的函数名称调用脚本的对应函数。在使用大数据组件的组件安装脚本对大数据组件进行安装时，agent会调用组件安装脚本中名为install()函数来进行部署。该函数的作用在于在集群内部署该安装服务的对应大数据组件。

在另一个可行的实施方式中，可选的，在基于所述组件安装脚本对大数据组件进行安装之后，还包括：分别对自定义管理信息以及各所述大数据组件的功能进行验证；其中，所述自定义管理信息包括如下管理方式中的至少一项：启动、停止、状态监控、配置操作、配置组管理、节点操作以及快捷链接；所述各所述大数据组件的功能包括如下至少一项：大数据组件的独立工作功能以及各所述大数据组件之间的协调工作功能。

其中，在基于组件安装脚本完成对各大数据组件的安装之后，可以对各大数据组件的自定义管理信息以及各大数据组件的功能进行验证。例如，验证自定义管理信息包括：验证各大数据组件能否正常启动、验证各大数据组件能否正常停止、验证各大数据组件的状态监控是否正常、验证各大数据组件的配置操作是否正常、验证各大数据组件的配置组管理是否正常、验证各大数据组件的节点操作是否正常以及验证与各大数据组件对应的的快捷链接是否可以正常访问中的至少一项。其中，同一配置组内的节点的物理配置可以相同，不同配置组内的节点的物理配置可以不同，节点可以是服务器。对各大数据组件的功能进行验证包括：验证大数据组件独立完成的功能是否正常以及验证各大相互依赖的数据组件之间的功能是否正常中的至少一项。

由此，通过在基于所述组件安装脚本对大数据组件进行安装之后，分别对自定义管理信息以及各大数据组件的功能进行验证，可以实现及时发现自定义管理信息异常和/或各大数据组件的功能异常，可以实现对各大数据组件的自定义管理方法进行完善和改进。

图2是本发明实施例提供的大数据组件的自定义管理方法的流程图，本方案在上述实施例的基础上进行优化，具体优化为：可选的，在建立目标栈之前，所述方法还包括：开发与目标管理平台匹配的平台安装脚本，并基于所述平台安装脚本对所述目标管理平台进行安装；其中，所述目标管理平台支持所述目标栈。如图2所示，本发明实施例提供的技术方案具体包括：

S210:开发与目标管理平台匹配的平台安装脚本，并基于所述平台安装脚本对所述目标管理平台进行安装。

其中，所述目标管理平台支持目标栈。

具体的，目标管理平台可以是安装、管理和监控大数据集群的平台，例如可以是Ambari管理平台，其管理形式为可视化的Web界面。在目标管理平台上可以建立目标栈实现对大数据集群的自定义管理。在通过目标管理平台对大数据集群进行管理之前，需要首先在操作系统上安装和部署目标管理平台。因而，可以开发与目标管理平台匹配的平台安装脚本，并基于开发的平台安装脚本在操作系统上安装目标管理平台。

在一个可行的实施方式中，可选的，在基于所述平台安装脚本对所述目标管理平台进行安装之前，还包括：确定待测试操作系统；基于所述平台安装脚本在所述待测试操作系统上安装测试；若安装成功，则确认所述平台安装脚本通过安装测试。

具体的，在基于平台安装脚本对目标管理平台进行安装之前，可以对平台安装脚本在不同操作系统上的兼容性进行测试，验证平台安装脚本能否在不同的操作系统上安装成功。待测试操作系统可以是不同系列的操作系统，例如可以是windows操作系统，也可以是linux操作系统。待测试操作系统也可以是同系列不同版本的操作系统，例如CentOS7.1、CentOS7.2。如果平台安装脚本在各待测试系统上都能安装成功，则确认平台安装脚本通过安装测试，可以用来安装管理平台。如果平台安装脚本不能在各待测试系统上都能安装，则继续对平台安装脚本进行开发，直至解决平台安装脚本的兼容性问题。

由此，通过在基于平台安装脚本对目标管理平台进行安装之前，确定待测试操作系统；基于平台安装脚本在待测试操作系统上安装测试；若安装成功，则确认平台安装脚本通过安装测试。可以实现平台安装脚本的通用性，可以提高管理平台的安装效率。

S220:基于目标需求确定目标架构。

S230:建立目标栈，并基于所述目标架构对所述目标栈的栈定义文件进行编辑。

S240:基于所述栈定义文件对各所述大数据组件的管理信息进行编辑，得到各所述大数据组件的自定义管理信息。

S250:根据所述自定义管理信息开发与各所述大数据组件匹配的组件安装脚本，并基于各所述组件安装脚本对各所述大数据组件进行安装。

本发明实施例提供的技术方案，开发与目标管理平台匹配的平台安装脚本，并基于平台安装脚本对所述目标管理平台进行安装；其中，目标管理平台支持目标栈；基于目标需求确定目标架构；其中，目标架构包括至少两个大数据组件以及各大数据组件的版本信息；建立目标栈，并基于目标架构对目标栈的栈定义文件进行编辑；基于栈定义文件对各大数据组件的管理信息进行编辑，得到各大数据组件的自定义管理信息；根据自定义管理信息开发与各大数据组件匹配的组件安装脚本，并基于各组件安装脚本对各大数据组件进行安装。通过执行本方案，可以实现大大提升安装大数据管理平台以及各大数据组件的效率，可以实现灵活地选择大数据组件类型，可以实现自定义大数据组件的管理方法，进而可以满足不同类型的大数据业务需求。

随着社会的发展、科技的进步，尤其是互联网行业的发展，产生越来越多的数据并存储，这些数据的分析结果，对政府、企业、组织甚至个人意义非常大。以往利用Oracle等传统数据库的存储、分析工具已无法满足暴增的数据量的存储和分析需求。大数据是一个生态系统，包含了数据采集、数据筛选、数据存储及数据分析等过程，不同的过程对应的是不同的大数据组件，而且大数据组件几乎都是分布式架构，同时在多台服务器上运行。想要利用好大数据，就需要众多的大数据组件协同工作，而众多的大数据组件平台的安装及运维就变得非常复杂。如果有一个能安装、管理分布式大数据组件的工具，将众多的大数据组件统一管理，将有效地减少安装和管理难度。以往常用的大数据生态系统是以Hadoop2为基础的，目前基于已有的Hadoop2生态系统，已逐步升级到Hadoop3的生态系统，Hadoop3进行了架构上的调整，在功能和性能上均获得了较高的提升。

相比Hadoop2的功能、性能、架构等方面，Hadoop3支持2个以上的NameNode，增加了Hdfs的容错性，纠删码的使用可减少50％的存储容量，hiveserver2增加了Web页面，提供了语句执行记录等；Yarn的容量调度队列支持基于API进行修改；Yarn基于cgroup的内存隔离和IO隔离；DataNode节点内部不同目录的负载均衡。

对于大数据组件的管理工具，目前已有的通用的方案主要有Cloudera和Hortonworks，这两者比较相似，且在近年来合并为一家企业。Cloudera使用的大数据组件与Apache版本有所不同，且制定了Cloudera的版本，其制定的一个大版本中指定了各个大数据组件的版本，使用者无法安装使用其指定版本外的其它版本；Cloudera支持的大数据组件的版本较低，无法快速支持较新或最新的版本；Cloudera支持的大数据组件有限，虽然其支持了常用的大数据组件，但无法支持其它应用；无法默认支持优化配置项；Cloudera提供yum、rpm、tar等安装方式；Cloudera不完全开源。

Hortonworks的Ambari结合HDP(Hortonworks公司产品，提供大数据安装包)的使用，HDP的大数据组件与Apache版本有所不同，且指定了HDP的版本，其制定的一个大版本中指定了各个大数据组件的版本，使用者无法安装使用其指定版本外的其它版本；HDP支持的大数据组件的版本更低，无法快速支持较新或最新的版本；无法默认支持优化配置项；HDP仅提供rpm安装方式；Ambari完全开源。

Cloudera和Hortonworks均不完全支持Hadoop3的生态系统的版本；Cloudera不支持自行集成且不完全开源；Hortonworks仅支持rpm安装方式；均无法支持默认优化配置项；且目前这两个公司合并后，对安装包都不再免费提供。

本发明实施例基于开源的大数据组件管理平台Ambari进行改造，实现特定版本的大数据组件可视化安装、管理和监控，统一对基于服务器的分布式大数据组件进行可视化安装、管理和监控，解决Cloudera和Hortonworks的不足。

图3a是本发明实施例提供的一种大数据组件的自定义管理装置结构示意图，为了对本发明的技术方案进行更清楚的说明，本发明实施例提供了一套对以Impala3和Spark3为引擎的应用的统一管理Web界面，可视化安装以Impala3为引擎的大数据服务，监测大数据组件中各个进程的状态信息及配置信息，并对大数据组件进行启停、增删节点、增删节点进程。同时安装时解决管理平台及大数据组件的漏洞，提高管理平台的安全性。安装时默认配置了大数据组件优化后的配置项，提升大数据组件的易用性和性能。如图3a所示，本发明实施例提供的技术方案包括如下步骤：

步骤1、根据目标需求确定目标架构，以下述大数据架构及版本信息为例：Zookeeper3.4.14+HDFS3.2.1+MySQL5.7.33+Hive3.1.2+Impala3.2.0+Spark3.0.1+HBase2.2.4+Phoenix5.0.0，以实现对大数据的存储，查询等功能。

步骤2、根据步骤1制定的大数据架构及版本，手动搭建测试环境，解决各个大数据组件之间的依赖关系，并测试各个大数据组件的独立使用是否正常，关联使用是否正常以及如何切换其关联关系。

如Impala3对HDFS3和Hive3的依赖，是通过相关的jar包进行解决的，那就需要将特定版本的HDFS3和Hive3的依赖jar包放入到Impala3的jar包加载目录中。在环境搭建完成后，逐一使用各个大数据组件，确保各个大数据组件均使用正常。同时测试关联关系是否正常，如Impala3是否是正常的使用Hive的元数据信息，通过Hive3能否直接处理Impala3的元数据信息。

步骤3、自定义栈。

在大数据组件管理平台Ambari自定义栈名为EVERDC，版本为1.2，修改栈定义文件，例如修改pom.xml文件，修改agent和server相关文件。使用此栈以后，将不再使用HDP默认的栈，也将不再继承其默认的管理方法。Zookeeper、Hdfs3等大数据组件的管理方法完全重新编写，不再使用HDP的Hadoop、Hive等安装包，而是采用Apache的完全开源的安装包，Impala使用仍然可以使用的CDH(Cloudera公司产品，提供大数据安装包)的安装包，后续如果Cloudera不再提供安装包，则使用Apache完全开源的安装文件源码编译后的安装包。

步骤4、编写管理代码以及开发安装脚本。

基于目标架构的测试结果和自定义栈，编写对各个大数据组件的安装和管理方法。具体包括：

1)编辑metainfo.xml。

metainfo.xml用于定义大数据组件中的各个进程或客户端，分为MASTER/SLAVE/CLIENT三大类，按照进程和客户端的作用，对进程进行分类且分别定义类和管理方法。如Spark3包含了Master/Worker/HistoryServer/ThriftServer四个进程及Client一个客户端，其中Master分配为MASTER类，Worker分配为SLAVE类，Client分配为CLIENT类。对大数据组件的进程和客户端进行定义的Web实现效果如图3b所示。

2)编写各个进程和客户端的类及方法。

以Spark为例，需要定义的类为params/spark/master/worker/historyserver/thriftserver/client，此部分由python编写。其中params/spark为公共类，供其它类对相关参数和值进行调用。params类中包含了程序安装目录、配置信息的获取、pid目录及文件、节点信息等基础信息，client类中包含了安装/配置等方法，这些方法中定义了具体的操作步骤及过程。master/worker/historyserver/thriftserver则为各自的进程和客户端进行调用的类，该类包含了安装/配置/状态监控/启动/停止等基础功能方法，部分服务包含了其它独立的方法，如升级/刷新配置等。对大数据组件的进程和客户端的管理方法完成定义并对应Web实现的效果图如图3c所示。

3)定义配置文件。

配置文件包含两类，一种为key-value类型的配置文件，另一种为模板类型的配置文件。Key-value类型的配置文件在Web界面中会以key-value类型展示出来，可增加/删除/修改配置项及其值；模板类型的配置文件的格式无法修改，且大多数配置无法修改，仅有部分可能需要修改的配置定义为参数的类型，在key-value的配置文件中进行配置，然后通过params读取后生效。对大数据组件的配置文件完成定义并对应Web实现的效果图如图3d所示。

4)定义快捷链接。

针对具有Web界面的MASTER组件，在界面上可通过快捷链接的方式直接跳转到该Master组件的Web界面。在metainfo.xml文件中定义快捷链接配置文件的目录及文件名，再到metainfo.xml文件中定义的文件中配置快捷链接的IP、端口号来源的配置文件、链接方式及所属Master组件。对大数据组件对应的快捷连接完成定义并对应Web实现的效果图如图3e所示。

5)开发组件安装脚本及平台安装脚本

由于各大数据组件及管理平台为分布式应用，且对系统有所要求，需要提前安装好jdk、系统依赖，同时大数据组件及管理平台也有相关系统依赖及系统优化等，利用组件安装脚本及管理平台安装脚本安装各个节点的jdk及系统依赖。组件安装脚本及管理平台安装脚本部分包含了分布式安装本地yum源、系统依赖、大数据组件的yum源、jdk、MySQL、keepalived，配置了时间同步及定时同步、系统优化，并安装、配置和启动本组件。此部分由shell+python实现。

步骤5、大数据组件管理测试。

在大数据组件管理自定义完成后，需要验证其使用是否正常，验证包含了3个部分的测试验证：管理平台及大数据组件安装、大数据组件管理以及大数据组件的使用和漏洞检测。

1)管理平台及大数据组件安装：搭建多个版本的操作系统，在不同版本的操作系统上，通过平台安装脚本安装依赖并配置系统优化，验证平台安装脚本安装本管理平台是否具有兼容性和效率。经安装测试可以了解到，通过平台安装脚本准备系统优化、系统依赖、安装管理平台的效率大大提升，从手动所需的半天到一天，缩减为当前的半小时内，当节点数量众多时，平台安装脚本脚本的效率提升更加明显。

在安装完管理平台后，通过管理平台调用组件安装脚本可视化安装大数据组件，测试大数据组件的分布式安装是否正常。

2)大数据组件管理：在安装完大数据组件后，测试管理平台对大数据组件的管理功能，测试大数据组件的启动、停止、状态监控、增删改配置、管理配置组、单独启停某个节点的应用、快捷链接、自动启动应用的功能是否正常。

3)大数据组件的使用：在大数据组件安装和管理正常的情况下，直接使用大数据组件，根据不同大数据组件的功能特性，测试这些功能特性的使用是否正常，以及不同大数据组件的关联使用是否正常。其中，大数据组件的单独使用，可以是hdfs3的存储使用，验证hdfs3的数据写入、删除、读取、查看集群状态等功能。大数据组件的关联使用，可以是Impala3和Spark3依赖Hive3，Hive3依赖HDFS3和MySQL，验证在具有强关联作用下，Impala3的使用是否正常。

步骤6、漏洞测试及解决。

需要确保管理平台及大数据组件没有较大隐患的漏洞，防止被攻击。在管理平台及大数据组件安装完成后，通过漏洞扫描工具进行漏扫和渗透，对漏扫和渗透发现的漏洞，需根据漏扫结果和渗透结果进行解决，确保没有较大隐患的漏洞存在。

步骤7、源码编译。

在以上应用管理测试正常的情况下，即可进行源码编译为可执行的安装包并应用到运营商客户系统中，极大的降低了大数据底层应用的使用难度，增加安装和管理的便捷性，提高安装和运维的时间效率。

本发明实施例提供的技术方案，不再使用Cloudera和Hortonworks的新的安装包，使用完全开源的Hadoop3生态系统中的各个大数据组件安装包。通过修改Ambari的Stack，自行编写大数据组件的管理方法，仅使用开源的分布式框架，实现了对Hadoop3为基础的大数据生态系统组件的管理功能，且解决了各个大数据组件的相互依赖关系。

对比现有的Cloudera和Hortonworks的产品及其它手动部署运维的方式，本发明实施例提供的技术方案可以实现：高效的安装部署速度，从一天以上的时间缩减为1小时内；更低的安装和管理难度，默认已优化系统和参数，无需再次逐一优化系统和大数据组件的参数；灵活的应用及版本支持，使用非固定版本的大数据组件，不再使用Cloudera、Hortonworks的安装包，主要使用Apache的应用；安全，在应用之前已经解决了漏洞问题；迭代速度更快，目前已支持到最新的Hadoop3生态应用，带来了更多的特性支持和更高效的查询速度；低耦合度，在通过本组件安装好以Spark为引擎的大数据组件后，即使本组件不再使用，也完全不影响大数据集群的正常使用。

在使用HDP默认的栈的情况下，HDP已有的大数据组件只能使用HDP的安装包及特定版本，无法自定决定大数据组件的安装包、安装方式及安装版本。通过修改代码的方式自定义栈，使得可以自行定义大数据组件的安装方式、安装版本及安装包。

本发明实施例提供的技术方案，在自定义栈后，重新编写Hadoop3生态架构中各个大数据组件的安装、配置方法，重新编写后，灵活适配更新的版本，且可使用其它厂商的安装包，不再仅限于HDP的特定版本的安装包和固定的安装方式，此外，还可以将优化后的参数设为默认值，不再受到HDP的默认配置不可修改的限制；通过添加页面认证、去掉不需要的页面等方法，解决了开源Hadoop3和Impala3的未授权访问漏洞，同时解决了Ambari敏感信息泄露的漏洞；解决了Hadoop3及其生态中各个大数据组件的依赖关系，并在安装时默认解决依赖问题，且相关参数也默认进行了优化，安装即可在生产环境使用。

图4是本发明实施例提供的大数据组件的自定义管理装置结构示意图，所述装置可以由软件和/或硬件的方式实现，所述装置可以配置在用于自定义管理大数据组件的电子设备中。如图4所示，所述装置包括：

目标架构确定模块410，用于基于目标需求确定目标架构；其中，所述目标架构包括至少两个大数据组件以及各所述大数据组件的版本信息；

栈定义文件编辑模块420，用于建立目标栈，并基于所述目标架构对所述目标栈的栈定义文件进行编辑；

管理信息编辑模块430，用于基于所述栈定义文件对各所述大数据组件的管理信息进行编辑，得到各所述大数据组件的自定义管理信息；

组件安装脚本开发模块440，用于根据所述自定义管理信息开发与各所述大数据组件匹配的组件安装脚本，并基于各所述组件安装脚本对各所述大数据组件进行安装。

可选的，所述装置还包括依赖关系确定模块，用于在基于目标需求确定目标架构之后，基于各所述大数据组件的版本信息确定各所述大数据组件之间的依赖关系；基于所述依赖关系确定被依赖大数据组件的目标依赖包；将所述目标依赖包放置于依赖大数据组件的目标目录下，以对所述依赖关系进行测试；若测试通过，则生成测试结果。

可选的，所述装置还包括目标管理平台安装模块，用于在建立目标栈之前，开发与目标管理平台匹配的平台安装脚本，并基于所述平台安装脚本对所述目标管理平台进行安装；其中，所述目标管理平台支持所述目标栈。

可选的，所述装置还包括平台安装脚本测试模块，用于在基于所述平台安装脚本对所述目标管理平台进行安装之前，确定待测试操作系统；基于所述平台安装脚本在所述待测试操作系统上安装测试；若安装成功，则确认所述平台安装脚本通过安装测试。

可选的，管理信息编辑模块430，具体用于基于所述栈定义文件对各所述大数据组件的进程、客户端以及配置文件进行编辑，以完成对大数据组件的管理信息的编辑。

可选的，所述装置还包括验证模块，用于在基于所述组件安装脚本对大数据组件进行安装之后，分别对自定义管理信息以及各所述大数据组件的功能进行验证；其中，所述自定义管理信息包括如下管理方式中的至少一项：启动、停止、状态监控、配置操作、配置组管理、节点操作以及快捷链接；所述各所述大数据组件的功能包括如下至少一项：大数据组件的独立工作功能以及各所述大数据组件之间的协调工作功能。

可选的，所述自定义管理信息包括漏洞信息；相应的，管理信息编辑模块430，具体用于基于所述栈定义文件对各所述大数据组件的漏洞信息进行编辑，以完成对所述目标架构中各所述大数据组件的漏洞信息的修复。

上述实施例所提供的装置可以执行本发明任意实施例所提供的大数据组件的自定义管理方法，具备执行方法相应的功能模块和有益效果。

图5是本发明实施例提供的一种设备结构示意图，如图5所示，该设备包括：

一个或多个处理器510，图5中以一个处理器510为例；

存储器520；

所述设备还可以包括：输入装置530和输出装置540。

所述设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器520作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种文件处理方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述方法实施例的一种大数据组件的自定义管理方法，即：

基于目标需求确定目标架构；其中，所述目标架构包括至少两个大数据组件以及各所述大数据组件的版本信息；

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的数字或字符信息，以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的一种大数据组件的自定义管理方法：

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种大数据组件的自定义管理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在基于目标需求确定目标架构之后，还包括：

基于各所述大数据组件的版本信息确定各所述大数据组件之间的依赖关系；

基于所述依赖关系确定被依赖大数据组件的目标依赖包；

将所述目标依赖包放置于依赖大数据组件的目标目录下，以对所述依赖关系进行测试；

若测试通过，则生成测试结果。

3.根据权利要求1所述的方法，其特征在于，在建立目标栈之前，还包括：

开发与目标管理平台匹配的平台安装脚本，并基于所述平台安装脚本对所述目标管理平台进行安装；其中，所述目标管理平台支持所述目标栈。

4.根据权利要求3所述的方法，其特征在于，在基于所述平台安装脚本对所述目标管理平台进行安装之前，还包括：

确定待测试操作系统；

基于所述平台安装脚本在所述待测试操作系统上安装测试；

若安装成功，则确认所述平台安装脚本通过安装测试。

5.根据权利要求1所述的方法，其特征在于，基于所述栈定义文件对各所述大数据组件的管理信息进行编辑，得到大数据组件的自定义管理信息，包括：

基于所述栈定义文件对各所述大数据组件的进程、客户端以及配置文件进行编辑，以完成对大数据组件的管理信息的编辑。

6.根据权利要求1所述的方法，其特征在于，在基于所述组件安装脚本对大数据组件进行安装之后，还包括：

分别对自定义管理信息以及各所述大数据组件的功能进行验证；

其中，所述自定义管理信息包括如下管理方式中的至少一项：启动、停止、状态监控、配置操作、配置组管理、节点操作以及快捷链接；

所述各所述大数据组件的功能包括如下至少一项：大数据组件的独立工作功能以及各所述大数据组件之间的协调工作功能。

7.根据权利要求1所述的方法，其特征在于，所述自定义管理信息包括漏洞信息；

相应的，基于所述栈定义文件对各所述大数据组件的管理信息进行编辑，得到大数据组件的自定义管理信息，包括：

基于所述栈定义文件对各所述大数据组件的漏洞信息进行编辑，以完成对所述目标架构中各所述大数据组件的漏洞信息的修复。

8.一种大数据组件的自定义管理装置，其特征在于，包括：

目标架构确定模块，用于基于目标需求确定目标架构；其中，所述目标架构包括至少两个大数据组件以及各所述大数据组件的版本信息；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的方法。