CN115809070A

CN115809070A - 一种对象存储在私有云和大数据集群中的混合应用的方法

Info

Publication number: CN115809070A
Application number: CN202211480371.5A
Authority: CN
Inventors: 涂泽; 刘鹏飞; 谢汶达; 赵音龙; 陈丰生
Original assignee: Haina Zhiyuan Digital Technology Shanghai Co ltd
Current assignee: Haina Zhiyuan Digital Technology Shanghai Co ltd
Priority date: 2022-11-24
Filing date: 2022-11-24
Publication date: 2023-03-17

Abstract

本发明提供一种对象存储在私有云和大数据集群中的混合应用的方法，通过制作完整的可离线使用的包含所有依赖包的kubernetes rpm安装包以及所有kubernetes服务安装所必须的核心镜像文件以及网络插件镜像文件、dashboard控制面板镜像文件；所有部署机器离线安装docker容器服务，使用docker load加载所有kubernetes服务的离线镜像文件，使用yum localinstall指令将所有部署机器离线安装kubelet、kubeadm、kubectl后组成一个kubernetes集群，在该kubernetes集群里部署dashboard控制面板应用；应用容器化、大数据组件容器化、对象存储标准化，kubernetes一键部署等标准流程管理，完成复杂系统平台的快速高效部署。

Description

一种对象存储在私有云和大数据集群中的混合应用的方法

技术领域

本发明涉及计算机应用领域，具体涉及一种对象存储在私有云和大数据集群中的混合应用的方法。

背景技术

一个基于私有云和对象存储的大数据系统越来越受中小企业，尤其是数据中台研发团队的青睐，方便部署和使用，一个完整的大数据平台由多个大数据自建，数据库，中间件锁构成，传统的大数据集群面对两个难题：第一，需要有非常专业的人运维管理大数据集群，每个组件都必须非常清楚运行原理才行。第二，部署集群较难，需要做一系列的准备工作，从硬件设施到软件安装，每一步都不能出现差错。这两个问题就直接影响到企业的大数据投产效率以及成本投入和收益比。而Kubernetes技术作为当下最受欢迎的服务器端技术，其中镜像文件技术，集群管理，负载均衡等天然特性极大的提高了云上大数据系统的部署效率。

发明内容

针对上述的问题，本发明提供一种对象存储在私有云和大数据集群中的混合应用的方法，通过镜像文件制作、部署清单、应用容器化、大数据组件容器化、对象存储标准化，kubernetes一键部署等标准流程管理，完成复杂系统平台的快速高效部署。

名词解释：

1、CDH：CDH是Cloudera的100％开源平台发行版，包括Apache Hadoop，专为满足企业需求而构建。CDH提供开箱即用的企业使用所需的一切。通过将Hadoop与十几个其他关键的开源项目集成，Cloudera创建了一个功能先进的系统，可帮助执行端到端的大数据工作流程。

2、Hadoop：Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

3、Spark：Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

4、Hive：hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。

5、Flink：Apache Flink是由Apache软件基金会开发的开源流处理框架，其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序，Flink的流水线运行时系统可以执行批处理和流处理程序。此外，Flink的运行时本身也支持迭代算法的执行。

6、kubernetes：一个用于跨多主机管理容器化应用的开源编排系统。

7、Kube-proxy：Kube-proxy是kubernetes工作节点上的一个网络代理组件，运行在每个节点上。Kube-proxy维护节点上的网络规则，实现了Kubernetes Service概念的一部分。它的作用是使发往Service的流量(通过ClusterIP和端口)负载均衡到正确的后端Pod。

8、docker：就是容器技术，用于支持创建和使用linux容器。

9、docker build：docker build命令用于使用Dockerfile创建镜像。

10、PV：持久化存储卷，主要定义的是一个持久化存储在宿主机上的目录，比如一个NFS的挂载目录。

11、PVC：描述的是kubernetes最小部署单元pod所希望使用的持久化存储的属性，比如：存储大小、可读写权限等等。

12、Dockerfile：一个用于构建镜像文件的文本文档，其主体由一个个命令行所构成。

13、YAML：一种可读性友好的通用的可序列化的标记语言。

14、Ceph：Ceph可以同时提供对象存储RADOS Gateway(Reliable、Autonomic、Distributed、Object Storage Gateway)、块存储RBD(Rados Block Device)、文件系统存储Ceph FS(Ceph File System)3种功能。

15、Ceph FS：cephfs是一个基于ceph集群且兼容POSIX标准的文件系统。创建cephfs文件系统时需要在ceph集群中添加mds服务，该服务负责处理POSIX文件系统中的metadata部分，实际的数据部分交由ceph集群中的OSDs处理。cephfs支持以内核模块方式加载也支持fuse方式加载。无论是内核模式还是fuse模式，都是通过调用libcephfs库来实现cephfs文件系统的加载，而libcephfs库又调用librados库与ceph集群进行通信，从而实现cephfs的加载。

16、RBD：RBD即RADOS Block Device的简称，RBD块存储是最稳定且最常用的存储类型。RBD块设备类似磁盘可以被挂载。RBD块设备具有快照、多副本、克隆和一致性等特性，数据以条带化的方式存储在Ceph集群的多个OSD中。

17、Object Storage：对象存储(Object Storage)，也称“基于对象的存储”

(Object-Based Storage)，是一种计算机数据存储架构，它将数据以“对象”(object)的形式来管理。

18、SATA：SATA的全称是Serial Advanced Technology Attachment(串行高级技术附件，一种基于行业标准的串行硬件驱动器接口)，是由Intel、IBM、Dell、APT、Maxtor和Seagate公司共同提出的硬盘接口规范。2001年，由Intel、APT、Dell、IBM、希捷、迈拓这几大厂商组成的Serial ATA委员会正式确立了Serial ATA 1.0规范。

19、dashboard：Dashboard是基于网页的Kubernetes用户界面。您可以使用Dashboard将容器应用部署到Kubernetes集群中，也可以对容器应用排错，还能管理集群本身及其附属资源。您可以使用Dashboard获取运行在集群中的应用的概览信息，也可以创建或者修改Kubernetes资源(如Deployment，Job，DaemonSet等等)。

20、yum localinstall：可以解决安装单独rpm包的依赖关系，自动去yum库找依赖包了

为实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

一种对象存储在私有云和大数据集群中的混合应用的方法，具体步骤吐下：

步骤1、准备独立SATA盘，格式化所有磁盘；

步骤2、安装部署ceph的osd，Ceph FS，RBD和RADOS Gateway；

步骤3、制作完整的可离线使用的包含所有依赖包的kubernetes rpm安装包以及所有kubernetes服务安装所必须的核心镜像文件以及网络插件镜像文件、dashboard控制面板镜像文件；

步骤4、所有部署机器离线安装docker容器服务，使用docker load加载所有kubernetes服务的离线镜像文件，使用yum localinstall指令将所有部署机器离线安装kubelet、kubeadm、kubectl后组成一个kubernetes集群，在该kubernetes集群里部署dashboard控制面板应用；

步骤5、使用PV、PVC yaml清单文件部署，部署完成后检查PV、PVC状态是否处于绑定状态，并且对应绑定正确；

步骤6、制作CDH的每个子系统的Dockerfile文件，yaml清单文件，根据Dockerfile文件使用docker build制作镜像文件，yaml清单文件中应用配置使用本地配置，挂载卷使用PVC挂载；

步骤7、启动CDH的cdh manager服务，并设置大数据组件的详细配置。

进一步的，在实际部署过程中，所有的安装文件、部署文件、部署镜像都使用离线方式。这样能确保部署不依赖外网。

进一步的，所有大数据组件的数据存储目录使用PV挂载进行持久化存储，最终存储到ceph osd对应的磁盘目录。

进一步的，应用根据Dockerfile制作的镜像文件中的应用包需要提前使用打包工具将源码打包好，Dockerfile需要包含应用包、时区配置、应用包运行环境、暴露端口、启动命令。

与现有技术相比较，本发明的有益效果是：

1)显著提高大数据集群部署的效率，降低人力服务成本和管理成本。

2)对象存储的使用显著提高了硬盘的利用率和容错性。

3)配置文件、系统数据的中心化管理，使得配置、数据与系统隔离，系统故障重启或重新部署不影响数据。

4)部署的过程大大降低了维护人员的技术水平要求。

5)大数据集群的维护对维护人员的技术水平要求大大降低。

具体实施方式

下面结合附图和具体的实施例对本发明技术方案做进一步的详细描述，以使本领域的技术人员可以更好的理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

步骤1、准备独立SATA盘，格式化所有磁盘；

步骤2、安装部署ceph的osd，Ceph FS，RBD和RADOS Gateway；

在实际部署过程中，所有的安装文件、部署文件、部署镜像都使用离线方式。这样能确保部署不依赖外网。

所有大数据组件的数据存储目录使用PV挂载进行持久化存储，最终存储到cephosd对应的磁盘目录。

应用根据Dockerfile制作的镜像文件中的应用包需要提前使用打包工具将源码打包好，Dockerfile需要包含应用包、时区配置、应用包运行环境、暴露端口、启动命令。

实施例1

基于Ceph部署K8S集群

步骤1、准备独立SATA盘，格式化所有磁盘；

步骤2、安装部署ceph的osd，Ceph FS，RBD和RADOS Gateway；

实施例2

基于K8S基础部署hadoop集群

1、制作CDH的每个子系统的Dockerfile文件，yaml清单文件，根据Dockerfile文件使用docker build制作镜像文件，yaml清单文件中应用配置使用本地配置，挂载卷使用PVC挂载；

2、启动CDH的cdh manager服务；

3、设置CDH的详细配置；

4、优化CDH的性能指标设置。

采用本发明所述对象存储在私有云和大数据集群中的混合应用的方法，能够显著提高大数据集群部署的效率，降低人力服务成本和管理成本。对象存储的使用显著提高了硬盘的利用率和容错性。配置文件、系统数据的中心化管理，使得配置、数据与系统隔离，系统故障重启或重新部署不影响数据。部署的过程大大降低了维护人员的技术水平要求。大数据集群的维护对维护人员的技术水平要求大大降低。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书内容所作的等效结构或者等效流程变换，或者直接或间接运用在其它相关的技术领域，均同理包含在本发明的专利保护范围内。

Claims

1.一种对象存储在私有云和大数据集群中的混合应用的方法，其特征在于，具体步骤如下：

步骤1、准备独立SATA盘，格式化所有磁盘；

步骤2、安装部署ceph的osd，Ceph FS，RBD和RADOS Gateway；

步骤4、所有部署机器离线安装docker容器服务，使用docker load加载所有kubernetes服务的离线镜像文件，使用yumlocalinstall指令将所有部署机器离线安装kubelet、kubeadm、kubectl后组成一个kubernetes集群，在该kubernetes集群里部署dashboard控制面板应用；

2.根据权利要求1所述的一种对象存储在私有云和大数据集群中的混合应用的方法，其特征在于：在实际部署过程中，所有的安装文件、部署文件、部署镜像都使用离线方式。

3.根据权利要求1所述的一种对象存储在私有云和大数据集群中的混合应用的方法，其特征在于：所有大数据组件的数据存储目录使用PV挂载进行持久化存储，最终存储到ceph osd对应的磁盘目录。

4.根据权利要求1所述的一种对象存储在私有云和大数据集群中的混合应用的方法，其特征在于：应用根据Dockerfile制作的镜像文件中的应用包需要提前使用打包工具将源码打包好，Dockerfile需要包含应用包、时区配置、应用包运行环境、暴露端口、启动命令。