CN113342469B

CN113342469B - 大数据平台的数据处理方法及装置

Info

Publication number: CN113342469B
Application number: CN202110701568.6A
Authority: CN
Inventors: 刘大伟; 吴亚军; 杨施俊
Original assignee: Hillstone Networks Co Ltd
Current assignee: Hillstone Networks Co Ltd
Priority date: 2021-06-23
Filing date: 2021-06-23
Publication date: 2023-08-18
Anticipated expiration: 2041-06-23
Also published as: CN113342469A

Abstract

本发明公开了一种大数据平台的数据处理方法及装置。其中，该方法包括：将大数据平台的服务组件部署在多个容器中；通过运行多个容器中的服务组件，以运行大数据平台；将大数据平台的服务组件写入需要安装服务的主机。本发明解决了相关技术中大数据平台CDH的安装需要多台物理机或者虚拟机组成集群，成本较高，效率低的技术问题。

Description

大数据平台的数据处理方法及装置

技术领域

本发明涉及大数据平台领域，具体而言，涉及一种大数据平台的数据处理方法及装置。

背景技术

CHD(Cloudera Distribution Hadoop)是Cloudera公司的hadoop全家桶发行版。存在社区版和收费版，社区版不支持api部署，只能通过其提供的WEBUI管理部署hadoop集群，这种部署方式很难实现自动化环境搭建，进一步影响依赖该环境的业务产品的自动化测试。传统的CDH部署需要多台物理机器或者虚拟机组成集群，每台机器扮演不同的角色，部署一次耗时较长，部署效率低，而且成本较高。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种大数据平台的数据处理方法及装置，以至少解决相关技术中大数据平台CDH的安装需要多台物理机或者虚拟机组成集群，成本较高，效率低的技术问题。

根据本发明实施例的一个方面，提供了一种大数据平台的数据处理方法，包括：将大数据平台的服务组件部署在多个容器中；通过运行所述多个容器中的服务组件，以运行所述大数据平台；将所述大数据平台的服务组件写入需要安装所述服务的主机。

可选的，将大数据平台的服务组件部署在多个所述容器中包括：确定所述大数据平台的服务组件的镜像数据，其中，所述大数据平台的服务组件包括：代理组件，服务组件，存储组件；根据所述镜像数据将所述服务组件，通过容器引擎部署在多个所述容器中，其中，所述容器引擎对应多个所述容器。

可选的，在所述容器后台，根据所述镜像数据将所述服务组件，通过容器引擎部署在多个所述容器中，所述方法还包括：保持所述容器前端持续运行，以保持所述容器处于开启状态，其中，通过在所述容器前端运行死循环程序，以保持所述容器前端持续运行。

可选的，通过运行所述多个容器中的服务组件，以运行所述大数据平台包括：运行所述容器，以调用所述容器中的服务组件；运行所述服务组件，以运行安装所述大数据平台的进程；运行安装后的所述大数据平台。

可选的，将所述大数据平台的服务组件写入需要安装所述服务的主机包括：在所述多个容器中运行所述大数据平台安装所需的服务的进程，其中，所述大数据平台的服务为多个，所述大数据平台存储有所述服务的安装包；将所述服务的数据目录挂载在所述主机的主机目录上，以将所述服务写入所述主机上。

可选的，运行所述大数据平台安装所需的服务的进程包括：在所述服务需要配置域名系统的情况下，通过所述容器的容器引擎的组件，在所述容器引擎的网络中进行域名系统的配置；根据配置的所述域名系统，运行所述大数据平台安装所需的服务的进程。

可选的，所述方法还包括：将所述服务的安装包的安装位置也挂载在所述主机目录上。

根据本发明实施例的另一方面，还提供了一种大数据平台的数据处理装置，包括：部署模块，用于将大数据平台的服务组件部署在多个容器中；运行模块，用于通过运行所述多个容器中的服务组件，以运行所述大数据平台；安装模块，用于将所述大数据平台的服务组件写入需要安装所述服务的主机。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的大数据平台的数据处理方法。

根据本发明实施例的另一方面，还提供了一种计算机存储介质，所述计算机存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机存储介质所在设备执行上述中任意一项所述的大数据平台的数据处理方法。

在本发明实施例中，采用将大数据平台的服务组件部署在多个容器中；通过运行多个容器中的服务组件，以运行大数据平台；将大数据平台的服务组件写入需要安装服务的主机的方式，通过将大数据平台的服务组件部署在多个容器中，以替代多个物理机或虚拟机，在容器中运行大数据平台，将大数据平台的服务安装在主机上，达到了通过容器替代物理机和虚拟机，运行大数据平台的组件，不必再主机上安装大数据平台，在容器中运行大数据平台，就可以对大数据平他得服务进行安装，使用大数据平台的服务的目的，从而实现了降低大数据平台的部署成本，并进一步提高了大数据平台部署的效率的技术效果，进而解决了相关技术中大数据平台CDH的安装需要多台物理机或者虚拟机组成集群，成本较高，效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种大数据平台的数据处理方法的流程图；

图2是根据本发明实施方式的CDH架构的示意图；

图3是根据本发明实施例的一种大数据平台的数据处理装置的示意图；

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种大数据平台的数据处理方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种大数据平台的数据处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，将大数据平台的服务组件部署在多个容器中；

步骤S104，通过运行多个容器中的服务组件，以运行大数据平台；

步骤S106，将大数据平台的服务组件写入需要安装服务的主机。

通过上述步骤，采用将大数据平台的服务组件部署在多个容器中；通过运行多个容器中的服务组件，以运行大数据平台；将大数据平台的服务组件写入需要安装服务的主机的方式，通过将大数据平台的服务组件部署在多个容器中，以替代多个物理机或虚拟机，在容器中运行大数据平台，将大数据平台的服务安装在主机上，达到了通过容器替代物理机和虚拟机，运行大数据平台的组件，不必再主机上安装大数据平台，在容器中运行大数据平台，就可以对大数据平他得服务进行安装，使用大数据平台的服务的目的，从而实现了降低大数据平台的部署成本，并进一步提高了大数据平台部署的效率的技术效果，进而解决了相关技术中大数据平台CDH的安装需要多台物理机或者虚拟机组成集群，成本较高，效率低的技术问题。

上述大数据平台可以为CHD(Cloudera Distribution Hadoop)是Cloudera公司的hadoop全家桶发行版。只能通过其提供的WEBUI管理部署hadoop集群，这种部署方式很难实现自动化环境搭建，进一步影响依赖该环境的业务产品的自动化测试。传统的CDH部署需要多台物理机器或者虚拟机组成集群，每台机器扮演不同的角色，部署一次耗时较长。

因此本实施例中，将大数据平台的服务组件部署在多个容器中，每个容器扮演一台CDH物理机器。这样一台物理机或者虚拟机就可以完成大数据平台CDH的部署。初次安装完成后可以分发镜像文件和相关挂载的文件，后续直接通过文件和镜像文件进行快速恢复。

通过运行多个容器中的服务组件，以运行大数据平台。上述服务组件可以包括上述大数据平台的代理agent、服务模块server、服务数据库server-db。将上述服务组件以镜像文件的形式部署在多个容器中，通过运行容器，运行上述多个组件，以安装并运行大数据平台CDH。

运行大数据平台后，在大数据平台上安装大数据平台的服务，例如，hadoop/hbase/zookeeper等服务。安装服务后，服务仍然在大数据平台中运行，无法配置在主机上，因此，将大数据平台的服务组件写入需要安装服务的主机。从而将服务安装在主机上，根据主机上的请求进行操作。

通过将大数据平台的服务组件部署在多个容器中，以替代多个物理机或虚拟机，在容器中运行大数据平台，将大数据平台的服务安装在主机上，达到了通过容器替代物理机和虚拟机，运行大数据平台的组件，不必再主机上安装大数据平台，在容器中运行大数据平台，就可以对大数据平他得服务进行安装，使用大数据平台的服务的目的，从而实现了降低大数据平台的部署成本，并进一步提高了大数据平台部署的效率的技术效果，进而解决了相关技术中大数据平台CDH的安装需要多台物理机或者虚拟机组成集群，成本较高，效率低的技术问题。

可选的，将大数据平台的服务组件部署在多个容器中包括：确定大数据平台的服务组件的镜像数据，其中，大数据平台的服务组件包括：代理组件，服务组件，存储组件；根据镜像数据将服务组件，通过容器引擎部署在多个容器中，其中，容器引擎对应多个容器。

在将大数据平台的服务组件部署在多个容器中时，先确定大数据平台的服务组件的镜像数据，不同的服务组件在运行时启动不同的服务，以实现安装大数据平台的服务。上述代理组件，服务组件，存储组件可以为大数据平台的代理agent、服务模块server、服务数据库server-db。

根据镜像数据将服务组件，通过容器引擎部署在多个容器中，其中，容器引擎对应多个容器。从而通过运行多个容器，运行容器中的服务组件，启动不同组件对应的服务，以实现安装大数据平台的服务。

需要说明的是，在将大数据平台的不同组件部署为镜像数据后，将对应的镜像数据存储到容器引擎的私有数据库，以便后续对容器中的服务组件进行维护。

可选的，在容器后台，根据镜像数据将服务组件，通过容器引擎部署在多个容器中，方法还包括：保持容器前端持续运行，以保持容器处于开启状态，其中，通过在容器前端运行死循环程序，以保持容器前端持续运行。

由于这几个服务组件都是以后台服务的方式运行，确定各个服务组件的镜像数据后，将镜像数据传输到容器管理器中，例如docker，再启动，容器就会退出运行，因此，需要在容器前端写一个单独的启动脚本进行服务启动，使得容器保持运行状态，使得容器后台的上述组件得以持续运行。

具体的该脚本可以为死循环程序，容器前端运行该死循环程序，从而保持容器前端持续运行。

可选的，通过运行多个容器中的服务组件，以运行大数据平台包括：运行容器，以调用容器中的服务组件；运行服务组件，以运行安装大数据平台的进程；运行安装后的大数据平台。

在运行上述多个服务组件时，可以通过运行容器，以调用容器中的服务组件，运行服务组件，以运行安装大数据平台的进程。运行安装后的大数据平台。从而通过运行容器，运行容器中的服务组件，从而运行大数据平台。相比现有技术，通过多个物理机或者虚拟机安装运行大数据平台，避免了设置多个物理机或虚拟机，从而降低了大数据平台的安装成本，另外，通过多个容器可以不用安装大数据平台，就可以使用大数据平台的功能。

可选的，将大数据平台的服务组件写入需要安装服务的主机包括：在多个容器中运行大数据平台安装所需的服务的进程，其中，大数据平台的服务为多个，大数据平台存储有服务的安装包；将服务的数据目录挂载在主机的主机目录上，以将服务写入主机上。

上述服务都是安装在容器里面，容器启动运行后会将对应的服务启动，容器启动后，会挂在主机的数据目录，大数据平台的各服务会写数据到这个主机的数据目录，实际就是写到主机上了，后面分发这个主机的目录就可以实现分发大数据平台的服务。

在将大数据平台的服务组件写入主机时，通过运行大数据平台，以实现安装大数据平台的服务，使用该服务。然后确定该服务的数据目录，将数据目录挂载在主机目录上，从而将服务写入主机。在主机上产生该服务的请求时，响应该请求，对服务进行调用，以实现提供对应的功能。

可选的，运行大数据平台安装所需的服务的进程包括：在服务需要配置域名系统的情况下，通过容器引擎的组件，在容器引擎的网络中进行域名系统的配置；根据配置的域名系统，运行大数据平台安装所需的服务的进程，以安装大数据平台的服务。

由于某些服务的大数据集群是强依赖dns(域名系统Domain Names System)的，例如，hadoop服务，dns的正向反向解析都要正确才能成功部署，容器的网络自动提供dns解析功能，但是自动建立的容器网络会存在域名自动分配问题，不能自己定义，所以需要先建立容器网络接口,以在容器引擎的网络中进行域名系统的配置。从而根据配置的域名系统，运行大数据平台安装所需的服务的进程，以安装大数据平台的服务。

可选的，方法还包括：将服务的安装包的安装位置也挂载在主机目录上。

将服务的安装包的安装位置挂载在主机目录上，可以在该服务需要开发和维护时，调用该安装包，对服务进行开发和维护。

需要说明的是，本实施例还提供了一种可选的实施方式，下面对该实施方式进行详细说明。

本实施方式通过容器组件docker-compose部署CDH，每个docker container容器扮演一台大数据平台CDH的物理机器。这样一台物理机或者虚拟机就可以完成但数据平台CDH的部署。初次安装完成后可以分发镜像文件docker image和相关挂载的文件，后续直接通过文件和镜像文件进行快速恢复。解决的技术问题是大数据平台CDH社区版不支持一键部署，不能用于自动化测试，依赖的环境快速部署的问题。

本实施方式的具体实施步骤如下:

CDH服务组件部署到镜像文件docker image；

CDH的服务组件分为agent(代理),server(服务器)，server-db(服务器数据库)三个，可以一起部署进镜像文件docker image，根据不同的角色启动不同的服务。CDH的架构为用户-服务(client--server)架构，代理agent启动后会注册到服务server端，由服务server统一管理和部署代理agent上的服务架构如图2所示，图2是根据本发明实施方式的CDH架构的示意图。

代理agent,服务server，服务数据库server-db部署进镜像文件docker image，并发布到容器私有仓库，由于这几个组件都是以后台服务的方式运行，放入镜像文件dockerimage后，再启动，docker container容器就会退出，需要写一个单独的启动脚本进行服务启动如下：

该脚本首先启动服务，然后循环sleep 3600s，形成死循环，以保证容器container持续运行，不会退出。

docker网络配置及DNS解析；

由于hadoop服务的大数据集群是强依赖dns(域名系统Domain Names System)的，dns的正向反向解析都要正确才能成功部署，docker容器网络自动提供dns解析功能，但是自动建立的docker容器网络会存在域名自动分配问题，不能自己定义，所以需要先建立docker容器网络接口,如下:

docker network create--subnet 172.25.0.0/16 hilstonenet–cloudview.com

也即是建立名字为hillstonenet-cloudview.com的docker network，该名称同时也作为这个network的域名使用。

docker-compose服务组件配置中需要配置对应的hostname主机名，和使用外部已经配置的docker network容器网络，具体如下：

数据目录挂载；

Cdh使用的目录需要从主机系统挂载进docker container容器，启动cdh集群后，部署hadoop/hbase/zookeeper等服务，部署后hadoop等服务的数据会直接写到主机系统。后续可以将这些数据打包分发，快速恢复环境。具体如下：

上述/opt/cloudera是cdh的hadoop/hbase等安装包的安装位置，/dfs为hadoop的数据目录，/var/lib/zookeepr是zookeeper的数据目录，都通过volumes挂载主机目录。

本实施方式的方法已经应用于自动化测试环境，可以用于依赖大数据环境的服务快速部署测试环境，进行该服务的自动化测试。

本实施方式适合依赖大数据环境的服务测试和自动化测试，可以方便的搭建大数据基础环境。

本实施方式利用docker及docker-compose快速部署CDH大数据环境。使依赖大数据的服务使用独立隔离环境的自动化测试成功。使大数据集群部署非常便捷。大数据集群可以在一台虚拟机上完成部署运行。

图3是根据本发明实施例的一种大数据平台的数据处理装置的示意图，如图3所示，根据本发明实施例的另一方面，还提供了一种大数据平台的数据处理装置，包括：部署模块32，运行模块34和安装模块36，下面对该装置进行详细说明。

部署模块32，用于将大数据平台的服务组件部署在多个容器中；运行模块34，与上述部署模块32相连，用于通过运行所述多个容器中的服务组件，以运行所述大数据平台；安装模块36，与上述运行模块34相连，用于将所述大数据平台的服务组件写入需要安装所述服务的主机。

通过上述装置，采用将大数据平台的服务组件部署在多个容器中；通过运行多个容器中的服务组件，以运行大数据平台；将大数据平台的服务组件写入需要安装服务的主机的方式，通过将大数据平台的服务组件部署在多个容器中，以替代多个物理机或虚拟机，在容器中运行大数据平台，将大数据平台的服务安装在主机上，达到了通过容器替代物理机和虚拟机，运行大数据平台的组件，不必再主机上安装大数据平台，在容器中运行大数据平台，就可以对大数据平他得服务进行安装，使用大数据平台的服务的目的，从而实现了降低大数据平台的部署成本，并进一步提高了大数据平台部署的效率的技术效果，进而解决了相关技术中大数据平台CDH的安装需要多台物理机或者虚拟机组成集群，成本较高，效率低的技术问题。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述中任意一项的页面处理方法。

根据本发明实施例的另一方面，还提供了一种计算机存储介质，计算机存储介质包括存储的程序，其中，在程序运行时控制计算机存储介质所在设备执行上述中任意一项的页面处理方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种大数据平台的数据处理方法，其特征在于，包括：

将大数据平台的服务组件部署在多个容器中，其中，所述大数据平台用于部署hadoop集群；

通过运行所述多个容器中的服务组件，以运行所述大数据平台；

将所述大数据平台的服务组件写入需要安装所述服务的主机；

其中，将大数据平台的服务组件部署在多个所述容器中包括：

确定所述大数据平台的服务组件的镜像数据，其中，所述大数据平台的服务组件包括：代理组件，服务组件，存储组件，所述服务组件用于表征所述大数据平台的服务器，所述存储组件用于表征所述大数据平台的服务器数据库；

根据所述镜像数据将所述大数据平台的服务组件，通过容器引擎部署在多个所述容器中，其中，所述容器引擎对应多个所述容器；

其中，运行所述大数据平台安装所需的服务的进程包括：

在所述服务需要配置域名系统的情况下，通过所述容器的容器引擎的组件，在所述容器引擎的网络中进行域名系统的配置；

根据配置的所述域名系统，运行所述大数据平台安装所需的服务的进程；

其中，将所述大数据平台的服务组件写入需要安装所述服务的主机，包括：

将所述大数据平台安装所需的服务的安装包的安装位置也挂载在所述主机目录上，所述大数据平台的服务为多个，所述大数据平台存储有所述服务的安装包。

2.根据权利要求1所述的方法，其特征在于，在所述容器后台，根据所述镜像数据将所述服务组件，通过容器引擎部署在多个所述容器中，所述方法还包括：

保持所述容器前端持续运行，以保持所述容器处于开启状态，其中，通过在所述容器前端运行死循环程序，以保持所述容器前端持续运行。

3.根据权利要求1所述的方法，其特征在于，通过运行所述多个容器中的服务组件，以运行所述大数据平台包括：

运行所述容器，以调用所述容器中的服务组件；

运行所述服务组件，以运行安装所述大数据平台的进程；

运行安装后的所述大数据平台。

4.根据权利要求3所述的方法，其特征在于，将所述大数据平台的服务组件写入需要安装所述服务的主机包括：

在所述多个容器中运行所述大数据平台安装所需的服务的进程；

将所述服务的数据目录挂载在所述主机的主机目录上，以将所述服务写入所述主机上。

5.一种大数据平台的数据处理装置，其特征在于，包括：

部署模块，用于将大数据平台的服务组件部署在多个容器中，其中，所述大数据平台用于部署hadoop集群；

运行模块，用于通过运行所述多个容器中的服务组件，以运行所述大数据平台；

安装模块，用于将所述大数据平台的服务组件写入需要安装所述服务的主机；

其中，所述部署模块还用于确定所述大数据平台的服务组件的镜像数据，其中，所述大数据平台的服务组件包括：代理组件，服务组件，存储组件，所述服务组件用于表征所述大数据平台的服务器，所述存储组件用于表征所述大数据平台的服务器数据库；

所述运行模块还用于在所述服务需要配置域名系统的情况下，通过所述容器的容器引擎的组件，在所述容器引擎的网络中进行域名系统的配置；

6.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至4中任意一项所述的大数据平台的数据处理方法。

7.一种计算机存储介质，其特征在于，所述计算机存储介质包括存储的程序，其中，

在所述程序运行时控制所述计算机存储介质所在设备执行权利要求1至4中任意一项所述的大数据平台的数据处理方法。