CN111274223A

CN111274223A - 一种一键部署大数据和深度学习容器云平台及其构建方法

Info

Publication number: CN111274223A
Application number: CN202010074709.1A
Authority: CN
Inventors: 李金泽; 赵千川; 杨文�
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2020-06-12

Abstract

本发明涉及一键部署大数据和深度学习容器云平台及其构建方法，其特征在于，该云平台包括存储计算层、采集分析层、监控管理层和数据来源层，其中，存储计算层内设置有HDFS、Hive数据仓库模块、Hbase海量存储模块、MapReduce离线计算模块和Storm流式计算模块，采集分析层内设置有Sqoop数据采集模块、Flume数据采集模块和Pig数据分析模块，监控管理层内设置有HUE管理工具、Ganglia监控工具和Nagios报警工具，存储计算层、采集分析层和监控管理层内的各模块均设置在对应Docker容器内，数据来源层内存储有结构化数据、半结构化数据和实时数据，本发明可以广泛应用于计算机领域中。

Description

一种一键部署大数据和深度学习容器云平台及其构建方法

技术领域

本发明是关于一种一键部署大数据和深度学习容器云平台及其构建方法，属于计算机领域。

背景技术

Docker(容器技术)、Hadoop(大数据存储和计算引擎)、HBase(分布式Nosql数据库)、Hive(数据分析引擎)、Pig(数据分析引擎)、Sqoop(数据采集引擎)、Flume(数据采集引擎)、Zookeeper(分布式协同服务)、HUE(大数据可视化管理界面)、Shipyard(Docker图形化管理工具)、Tensorflow(基于数据流编程的符号数学模块)等现有的大数据分析和应用和深度学习框架均为开源软件，但是均需要进行安装部署和集成，安装过于复杂。现有商业化的大数据管理平台一键部署软件HDP(数据平台)，其安装前期的准备工作较多，并未做到真正意义上的一键部署。

发明内容

针对上述问题，本发明的目的是提供一种安装简单且基于Docker容器的一键部署大数据和深度学习容器云平台及其构建方法。

为实现上述目的，本发明采取以下技术方案：一种一键部署大数据和深度学习容器云平台，其特征在于，该云平台包括存储计算层、采集分析层、监控管理层和数据来源层，所述存储计算层、采集分析层和监控管理层内的各模块均设置在对应Docker容器内，所述数据来源层内存储有结构化数据、半结构化数据和实时数据，其中：所述采集分析层内设置有：Sqoop数据采集模块，用于采集数据来源层存储的预处理后的数据；Flume数据采集模块，用于采集、缓存和保存产生的日志；Pig数据分析模块，用于当需要进行数据分析时，针对半结构化数据和实时数据，将类SQL的数据分析请求转换为一系列优化处理后的MapReduce运算数据集；所述存储计算层内设置有：MapReduce离线计算模块，用于获取并存储大数据处理需求以及对优化处理后的MapReduce运算数据集进行并行离线运算；HDFS，用于根据大数据处理需求，对预处理后的数据进行批量存储和备份；Storm流式计算模块，用于根据大数据处理需求，对预处理后的数据进行实时计算、存储和备份；Hive数据仓库模块，用于当需要进行数据分析时，针对结构化数据，将数据导入至采用Hive引擎建立的数据模型中，并采用SQL语句进行分析；Hbase海量存储模块，用于当需要进行数据查询时，导入所述数据来源层存储的对应数据；所述监控管理层内设置有：HUE管理工具，用于对各模块进行可视化管理，并与所述存储计算层进行交互；Ganglia监控工具，用于实时监控各所述Docker容器的状态；Nagios报警工具，用于当任一所述Docker容器不工作时进行报警。

进一步地，所述采用Hive引擎建立的数据模型包括内部表、分区表、外部表和桶表。

进一步地，所述数据来源层内设置有关系型数据库MySQL、Oracle和非关系型数据库MongoDB。

进一步地，所述监控管理层、采集分析层和存储计算层均包括核心处理部分，每一核心处理部分均包括计算机主机、内存、CPU、硬盘和所述Docker容器，每一所述计算机主机均通过虚拟机进行分割，每一所述计算机主机与对应所述Docker容器之间均采用网络信息传输的连接方式连接。

一种一键部署大数据和深度学习容器云平台的构建方法，其特征在于，包括以下内容：1)将云平台中的所有模块均通过Dockerfile脚本构建成一个Docker镜像；2)将云平台中所有模块的配置信息分别写入对应的配置文件中；3)通过linux脚本，对各模块进行交互式设置，完成云平台的构建。

进一步地，所述步骤3)的具体过程为：3.1)创建Docker容器的自定义网络类型；3.2)搭建HDFS，并将HDFS中的每一节点均进行容器化处理；3.3)搭建Hbase海量存储模块，并将Hbase海量存储模块中的每一节点均进行容器化处理；3.4)搭建MapReduce离线计算模块、Zookeeper集群、Hive数据仓库模块、Pig数据分析模块、Sqoop数据采集模块、Flume数据采集模块、HUE管理工具和数据库，并分别进行容器化处理，完成云平台的搭建。

进一步地，所述步骤3.4)中的数据库包括关系型数据库MySQL、Oracle和非关系型数据库MongoDB。

进一步地，所述步骤3.2)的具体过程为：对HDFS的主节点NameNode和从节点DataNode分别进行HDFS的管理和数据的存储；在HDFS对应的配置文件中进行参数配置；在一键部署的linux脚本中，配置Hadoop中的slaves文件，指定从节点DataNode的容器数量；通过Docker命令创建主节点NameNode容器，并指定主节点NameNode容器的容器名、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号，以及在本地指定一个将容器中的数据导入至本地的目录；通过Docker命令创建从节点DataNode容器，根据指定的从节点DataNode容器数量，分别指定从节点DataNode容器的容器名、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号。

进一步地，所述步骤3.3)的具体过程为：在Hbase海量存储模块对应的配置文件中进行参数配置；在一键部署的linux脚本中，通过Docker命令创建主节点HMaster容器，并指定主节点HMaster容器的容器名、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号；通过Docker命令创建从节点RegionServer容器，并根据从节点RegionServer容器的数量，分别指定每一从节点RegionServer容器的容器名、容器IP地址和容器所使用的网络，以及在本地指定一个将容器中的数据导入至本地的目录。

进一步地，所述步骤3.4)的具体过程为：3.4.1)对资源调度引擎Yarn进行容器化处理：分配资源调度引擎Yarn的某一容器为主节点，其余容器为从节点；在一键部署的linux脚本中，指定从节点容器的数量，并设定从节点容器IP地址的范围；在资源调度引擎Yarn对应的配置文件中进行参数配置；

3.4.2)采用三个节点组成Zookeeper集群，并分别进行容器化处理：指定主节点leader容器和从节点follower容器，并在Zookeeper集群对应的配置文件中进行参数配置；创建一个myid空文件，并分别编写对应容器数量的shell脚本；在一键部署的linux脚本中，通过docker命令创建Zookeeper容器集群，并指定每一容器的容器名、容器所使用的网络、容器IP地址和将容器端口映射到本地的端口号，以及在本地指定一个将容器中的数据导入至本地的目录；

3.4.3)对Hive数据仓库模块进行容器化处理：将Hive数据仓库模块安装在HDFS的主节点NameNode所在的容器中，并对相应配置文件进行修改；在一键部署的linux脚本中，通过Docker命令创建关系型数据库Mysql容器，并指定关系型数据库Mysql容器的容器名、容器IP地址、容器所使用的网络、将容器端口映射到本地的端口号、用户名、密码、数据库名，以及在本地指定一个将容器中的数据导入至本地的目录；

3.4.4)对Pig数据分析模块和Sqoop数据采集模块进行容器化处理：将Pig数据分析模块和Sqoop数据采集模块安装在HDFS的主节点NameNode所在的容器中；

3.4.5)对Flume数据采集模块进行容器化处理：将Flume数据采集模块安装在HDFS的主节点NameNode所在的容器中，并对相应的配置文件进行修改；

3.4.6)对HUE管理工具进行容器化处理：在HUE管理工具对应的配置文件中进行参数配置；在一键部署linux脚本中，通过Docker容器创建HUE管理工具容器，并指定HUE管理工具容器的容器名、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号，以及在本地指定一个将容器中的数据导入至本地的目录；

3.4.7)对关系型数据库Oracle和非关系型数据库MongoDB进行容器化处理：在一键部署linux脚本中，通过Docker命令分别创建关系型数据库oracle容器和非关系型数据库MongoDB容器，并分别指定关系型数据库oracle容器和非关系型数据库MongoDB容器的容器名、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号，以及在本地指定一个将容器中的数据导入至本地的目录。

本发明由于采取以上技术方案，其具有以下优点：1、本发明基于Docker容器，将大数据和深度学习相结合，构建出一套完整的一键部署大数据和深度学习容器云平台，该云平台通过网络界面即可操作，能够极大地方便没有大数据和深度学习经验的人进行业务开发。2、本发明的功能多样，包括分布式文件存储、离线计算、实时计算、实时查询/随机访问、数据采集和分析、分布式协同服务和大数据平台可视化等，在云平台上，用户可以根据需求运行不同的软件来完成不同的功能，可以做到一键部署HDFS、HBase、Hive、Pig、Sqoop、Flume、Oracle数据库、关系型数据库MySQL、Zookeeper和HUE等，全程无需手动部署，能够大大降低大数据和深度学习行业的门槛，使每个用户均能掌握大数据和深度学习的使用，可以广泛应用于计算机技术领域中。

附图说明

图1是本发明的结构示意图。

具体实施方式

以下结合附图来对本发明进行详细的描绘。然而应当理解，附图的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。

术语解释：

1、Docker，是一个基于LXC(Linux Container，一种内核虚拟化技术)的轻量级虚拟化技术的容器引擎，通过分层镜像标准化和内核虚拟化技术，Docker使得应用开发者和运维工程师可以以统一的方式跨平台发布应用，并且以几乎没有额外开销的情况下提供资源隔离的应用运行环境。Docker采用客户/服务器架构模式，客户端通过TCP/REST协议向Docker的host网络类型发送创建容器、运行容器、保存容器、删除容器等请求，实现远程控制。

Docker安装后默认创建bridge、none和host三种网络类型，其中，bridge为桥接网络，默认情况下启动的Docker容器，均使用bridge网络类型。none为无指定网络，采用none，Docker容器就不会分配局域网的IP地址。Host为主机网络，采用host，Docker容器的网络会附属在主机上，两者是相通的。

2、HDFS，Hadoop(一个分布式系统基础架构)分布式文件系统，是主从结构，区别于本地文件系统，分布式文件系统是将多个节点连接起来组成一个逻辑上统一的文件系统，由一个主节点Namenode和多个从节点Datanode组成。HDFS的存储原理是Namenode负责管理HDFS，接收客户端的请求，管理和维护日志和元信息，Namenode存储的是文件元信息，而Datanode以数据块为单元存储文件，数据块的大小依据hadoop的版本而有所不同。

3、Hbase，是一个分布式的、面向列的开源数据库，适合于非结构化数据存储的数据库，且HBase基于列存储而不是基于行的模式。

4、MapReduce，是一种编程模型，用于大规模数据集(大于1TB)的并行计算。

5、ZooKeeper，是一个分布式的、开放源代码的分布式应用程序协调服务，是HDFS和Hbase的重要组件，其提供的功能包括配置维护、域名服务、分布式同步和组服务等。

6、Hive，是一种以SQL风格进行任何大小数据分析的工具，其特点是通过SQL处理HDFS的大数据，数据规模可以伸缩扩展到100PB+，数据形式为结构化数据。

7、Pig，是一个基于HDFS的大规模数据分析平台，用于大量数据集分析。

8、Sqoop，是一个开源的工具，主要用于在HDFS(Hive)与传统的数据库(mysql、postgresql等)间进行数据的传递，可以将一个关系型数据库(例如：MySQL、Oracle、Postgres等)中的数据导入HDFS中，或将HDFS的数据导入关系型数据库中。

9、Flume，是一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的模块，Flume支持在日志模块中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。

10、HUE，是一个开源的用户界面模块。通过使用HUE可以在浏览器端的Web控制台上与HDFS进行交互，以分析处理数据。

11、SQL，结构化查询语言，是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统；同时也是数据库脚本文件的扩展名。

如图1所示，本发明提供的一键部署大数据和深度学习容器云平台包括存储计算层、采集分析层、监控管理层和数据来源层，其中，存储计算层内设置有HDFS、Hive数据仓库模块、Hbase海量存储模块、MapReduce离线计算模块和Storm流式计算模块，采集分析层内设置有Sqoop数据采集模块、Flume数据采集模块和Pig数据分析模块，监控管理层内设置有HUE管理工具、Ganglia监控工具和Nagios报警工具，存储计算层、采集分析层和监控管理层内的各模块均设置在对应Docker容器内。数据来源层内存储有结构化数据、半结构化数据和实时数据。

Sqoop数据采集模块用于采集数据来源层存储的预处理后的数据。

Flume数据采集模块用于采集、缓存和保存产生的日志。

MapReduce离线计算模块用于获取并存储包括不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时数据)的大数据处理需求。

HDFS用于根据大数据处理需求，对预处理后的数据进行批量存储和备份。

Storm流式计算模块用于根据大数据处理需求，对预处理后的数据进行实时计算、存储和备份。

Hive数据仓库模块用于当需要进行数据分析时，针对结构化数据，将数据导入至采用Hive引擎建立的数据模型中，并采用SQL语句进行分析。

Pig数据分析模块用于当需要进行数据分析时，针对半结构化数据和实时数据，将类SQL的数据分析请求转换为一系列优化处理后的MapReduce运算数据集，MapReduce离线计算模块对优化处理后的MapReduce运算数据集进行并行离线运算。

Hbase海量存储模块用于当需要进行数据查询时，导入数据来源层存储的对应数据。

HUE管理工具用于对各模块进行可视化管理，并与存储计算层进行交互。

Ganglia监控工具用于实时监控各Docker容器的状态，包括CPU、内存和网络等。

Nagios报警工具用于当任一Docker容器不工作时进行报警。

在一个优选的实施例中，采用Hive引擎建立的数据模型包括内部表、分区表、外部表和桶表。

在一个优选的实施例中，数据来源层内设置有关系型数据库MySQL、Oracle和非关系型数据库MongoDB。

在一个优选的实施例中，监控管理层、采集分析层和存储计算层均包括核心处理部分，每一核心处理部分均包括计算机主机、内存、CPU、硬盘和Docker容器，每一Docker容器内均设置有对应模块，每一计算机主机均通过虚拟机进行分割。每一计算机主机与对应Docker容器之间均采用网络信息传输的方式连接。

在一个优选的实施例中，每一计算机主机均采用高散热性能主机；每一内存均不低于16G，优选为双16G内存；每一CPU均不低于I5级别处理器，优选为Xeon系列处理器；每一硬盘的容量均不低于1TB，优选为4TB，5400rpm硬盘。

在一个优选的实施例中，本发明的深度学习容器云平台建立在虚拟机中，虚拟机的内存不低于8GB；虚拟机的磁盘容量设置不低于40GB，虚拟机的CPU不低于2个，且CPU的核数为4～8个。

基于上述一键部署大数据和深度学习容器云平台，本发明提供的一键部署大数据和深度学习容器云平台的构建方法，包括以下步骤：

1)将云平台中的所有模块均通过Dockerfile脚本构建成一个Docker镜像。

2)将云平台中所有模块的配置信息分别写入对应的配置文件中，使得各模块能够正常工作。

3)通过linux脚本，对各模块进行交互式设置，完成云平台的构建，具体为：

3.1)创建Docker容器的自定义网络类型，为每一Docker容器指定固定IP，以指定Docker容器的IP地址与主机名的映射关系，便于Docker容器之间通过主机名实现SSH(安全外壳协议)互联。

3.2)搭建HDFS，并将HDFS中的每一节点均进行容器化处理，HDFS包括分布式存储系统和资源调度引擎两部分，均为分布式架构，因此在搭建HDFS时，需要将HDFS中的每一节点均进行容器化处理，具体为：

3.2.1)对HDFS的主节点NameNode和从节点DataNode分别进行HDFS的管理和数据的存储，其中，主节点NameNode所在的容器命名为hadoop-master，从节点DataNode所在的容器命名为hadoop-slaveX(X＝1,2,3……)。

3.2.2)为保证HDFS容器集群可以正常运行，在HDFS对应的配置文件(例如core-site.xml、hadoop-env.sh和hdfs-site.xml三个配置文件)中进行参数配置，包括主节点NameNode的地址、HDFS数据存放路径、Hadoop集群的代理用户和代理用户组、jdk安装目录、HDFS数据存储备份数、从节点DataNode的http服务端口以及从节点DataNode可以同时处理的数据传输连接数等。

例如：在core-site.xml配置文件中配置主节点NameNode的地址为hdfs://hadoop-master:9000，配置HDFS数据存放路径为/usr/local/hadoop-2.7.4/tmp(该目录需要自行创建，默认存储在linux的tmp目录中)，以及配置Hadoop集群的代理用户和代理用户组分别为hadoop.proxyuser.hadoop.hosts和hadoop.proxyuser.hadoop.groups；

在hadoop-env.sh配置文件中配置jdk安装目录；

在hdfs-site.xml配置文件中配置HDFS的数据存储备份数为3，配置从节点DataNode的http服务端口为0.0.0.0:50075，配置从节点DataNode可以同时处理的数据传输连接数为8192(默认为4096)，配置使用webhdfs。

3.2.3)在一键部署的linux脚本(build-cluster.sh)中，配置Hadoop中的slaves文件，指定从节点DataNode的容器数量。

3.2.4)通过Docker命令创建主节点NameNode容器，并指定主节点NameNode容器的容器名(hadoop-master)、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号(在此映射50070、8088、10000、10002和19888五个端口)，以及在本地指定一个可以将容器中的数据导入至本地的目录。

3.2.5)通过Docker命令创建从节点DataNode容器，根据指定的从节点DataNode容器数量，分别指定从节点DataNode容器的容器名、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号(在这里映射50075一个端口)。

3.3)搭建Hbase海量存储模块，并将Hbase海量存储模块中的每一节点均进行容器化处理，HBase的主从架构为主节点HMaster和从节点HRegionServer，资源管理器作为主节点，节点管理器作为从节点，因此在搭建Hbase海量存储模块时，需要将Hbase海量存储模块中的每一节点均进行容器化处理，具体为：

3.3.1)为保证HBase海量存储模块容器集群正常运行，在Hbase海量存储模块对应的配置文件(例如hbase-site.xml和hbase-env.sh两个配置文件)中进行参数配置，包括HBase海量存储模块在HDFS中的数据存放路径和数据备份个数、HBase海量存储模块使用外部的Zookeeper集群和jdk安装目录、HBase海量存储模块的分布式模式、Zookeeper集群中数据保存的目录、HBase海量存储模块中Zookeeper集群的地址、主节点HMaster的最大时钟偏离以及从节点RegionServer容器与Zookeeper集群间的连接超时时间等。

例如：hbase-site.xml配置文件中配置HBase海量存储模块在HDFS中的数据存放路径为hdfs://hadoop-master:9000/hbase，HBase海量存储模块为全分布式模式，指定Zookeeper集群中数据保存的目录为/usr/local/zookeeper-3.4.10/tmp，配置HBase海量存储模块中Zookeeper集群的地址为zkhost1、zkhost2和zkhost3，配置HBase海量存储模块主节点HMaster的最大时钟偏离为18000ms，配置HBase海量存储模块在HDFS中的数据备份个数为3，配置从节点RegionServer容器与Zookeeper集群间的连接超时时间为90000ms；

在hbase-env.sh配置文件中配置HBase海量存储模块使用外部的Zookeeper集群和jdk安装目录。

3.3.2)在一键部署的linux脚本(build-cluster.sh)中，通过Docker命令创建主节点HMaster容器，并指定主节点HMaster容器的容器名、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号(在此需要映射16010和9090两个端口)。

3.3.3)通过Docker命令创建从节点RegionServer容器，并根据从节点RegionServer容器的数量，分别指定每一从节点RegionServer容器的容器名、容器IP地址和容器所使用的网络，以及在本地指定一个可以将容器中的数据导入至本地的目录，其中，从节点RegionServer容器的数量可以通过脚本形式人为指定。

3.4)搭建MapReduce离线计算模块、Zookeeper集群、Hive数据仓库模块、Pig数据分析模块、Sqoop数据采集模块、Flume数据采集模块、HUE管理工具和数据库，并分别进行容器化处理，完成云平台的搭建。

3.4.1)因为MapReduce离线计算模块运行在资源调度引擎Yarn框架中，所以只需对资源调度引擎Yarn进行容器化处理即可，具体为：

资源调度引擎Yarn包括资源管理器ResourceManager和节点管理器NodeManger，节点管理器NodeManager包括多个容器，每一容器内均可运行多个任务(例如MapTask和ReduceTask等)和ApplicationMaster组件。在资源调度引擎YARN中，资源管理由资源管理器ResourceManager和节点管理器NodeManger共同完成，其中，资源管理器ResourceManager中的调度器用于资源的分配，节点管理器NodeManager用于资源的供给和隔离，资源管理器ResourceManager将某一节点管理器NodeManager上的资源分配至任务(这就是所谓的“资源调度”)后，节点管理器NodeManager按照要求，为任务提供相应的资源，甚至保证这些资源应具有独占性，为任务运行提供基础的保证，因此：

3.4.1.1)由于资源调度引擎Yarn的主从结构式，在进行容器化设置时，需要分配资源调度引擎Yarn的某一容器为主节点，其余容器为从节点。

3.4.1.2)在一键部署的linux脚本(build-cluster.sh)中，指定从节点容器的数量，并设定从节点容器IP地址的范围，以保证每一容器的IP地址各不相同，例如172.18.0.11至172.18.0.40，这说明资源调度引擎Yarn的从节点容器数量最多可以指定30个。

3.4.1.3)为保证资源调度引擎Yarn容器集群可以正常运行，需要在资源调度引擎Yarn对应的配置文件(例如yarn-site.xml和mapred-site.xml两个配置文件)中进行参数配置，包括资源管理器ResourceManager的主机名、节点管理器NodeManager运行MapReduce离线计算模块的方式、节点管理器NodeManager最少和最多提供的内存、在每一节点上资源调度引擎Yarn可使用的物理内存总量和虚拟CPU个数、磁盘的最高使用率以及运行MapReduce离线计算模块框架的名称等。

例如：在yarn-site.xml配置文件中配置资源管理器ResourceManager的主机名为hadoop-master(主机名可以任意指定)，节点管理器NodeManager运行MapReduce离线计算模块的方式为mapreduce_shuffle，NodeManager最少提供的内存为1536MB(默认为1024MB)，节点管理器NodeManager最多提供的内存为2000MB(默认为8192MB)，在每一节点上资源调度引擎Yarn可使用的物理内存总量为2000MB(默认为8192MB)；在每一节点上资源调度引擎yarn可使用的虚拟CPU个数为1(默认为8)，一块磁盘的最高使用率设置为98.5(默认为100)；

在mapred-site.xml配置文件中配置运行MapReduce离线计算模块框架的名称为Yarn。

3.4.2)Zookeeper集群本身具有选举功能和数据同步功能，主节点为leader，从节点为follower，Zookeeper集群一般设置有奇数个节点，本发明采用三个节点组成Zookeeper集群，并分别进行容器化处理，具体为：

3.4.2.1)由于Zookeeper集群为分布式结构，因此需要指定主节点leader容器和从节点follower容器，并在Zookeeper集群对应的配置文件(例如zoo.cfg配置文件)中进行参数配置，包括主节点leader和从节点的容器名等。

例如：主节点leader的容器名为zkhost1，在配置文件中设置为server.1＝zkhost1:2888:3888，相应的另外两台从节点follower的容器名分别为zkhost2和zkhost3，在配置文件中分别设置为server.2＝zkhost2:2888:3888和server.3＝zkhost3:2888:3888(2888为通信端口，3888为选举端口)。

3.4.2.2)为实现Zookeeper集群从节点follower数量任意指定和保证Zookeeper集群创建成功后能够自动启动zkServer(Zookeeper服务器)，需要创建一个myid空文件，并分别编写对应容器数量的shell脚本，其中，shell脚本包括将对应zookeeper容器集群的数字编号写入myid文件中和启动zkServer。

3.4.2.3)在一键部署的linux脚本(build-cluster.sh)中，通过docker命令创建Zookeeper容器集群，并指定每一容器的容器名、容器所使用的网络、容器IP地址和将容器端口映射到本地的端口号(在此需要映射2181、2888和3888三个端口)，以及在本地指定一个可以将容器中的数据导入至本地的目录。

3.4.3)因为Hive数据仓库模块为建立在HDFS上的数据分析引擎，所以对Hive数据仓库模块进行容器化处理后位于hadoop-master容器(HDFS的主节点NameNode所在的容器)中，具体为：

3.4.3.1)将Hive数据仓库模块安装在hadoop-master容器中，并对相应的配置文件进行修改，包括JDBC连接关系型数据库MySQL的URL地址、JDBC连接关系型数据库MySQL的驱动类名以及登录到关系型数据库MySQL的用户名和密码等。

例如：在hive-site.xml配置文件中配置JDBC连接关系型数据库MySQL的URL地址为jdbc:mysql://172.18.0.2:3306/hive？useSSL＝false，配置JDBC连接关系型数据库MySQL的驱动类名为com.mysql.jdbc.Driver，配置登录到关系型数据库MySQL的用户名为hiveowner，以及配置登录到关系型数据库MySQL的密码为123456。

3.4.3.2)由于Hive数据仓库模块的元数据需要保存在一个数据库中，而Hive数据仓库模块自带的Derby数据库中的问题是同一时刻只能有一个实例访问Hive数据仓库模块，采用外部的数据库则可以在同一时刻支持多个实例访问Hive数据仓库模块。因此，需要创建一个关系型数据库MySQL容器。在一键部署的linux脚本(build-cluster.sh)中，通过Docker命令创建关系型数据库Mysql容器，并指定关系型数据库Mysql容器的容器名(mysql)、容器IP地址、容器所使用的网络、将容器端口映射到本地的端口号(在此需要映射3306一个端口)、用户名、密码、数据库名，以及在本地指定一个可以将容器中的数据导入至本地的目录。

3.4.4)因为Pig数据分析模块为建立在HDFS上的数据分析引擎，所以对Pig数据分析模块进行容器化处理后位于hadoop-master容器中，具体地，只需将Pig数据分析模块安装在hadoop-master容器(HDFS的主节点NameNode所在的容器)中，且不需要修改配置文件即可正常运行。

3.4.5)因为Sqoop数据采集模块为建立在HDFS上的数据采集引擎，所以对Sqoop数据采集模块进行容器化处理后位于hadoop-master容器中，具体地，只需将Sqoop数据采集模块安装在hadoop-master容器中，且不需要修改配置文件即可正常运行。

3.4.6)因为Flume数据采集模块为建立在HDFS上的数据采集引擎，所以对Flume数据采集模块进行容器化处理后位于hadoop-master容器中，具体为：

将Flume数据采集模块安装在hadoop-master容器中，并对相应的配置文件进行修改，包括定义agent、定义source组件、定义channel组件、定义sink组件和定义生成日志文件等，其中，Flume数据采集模块的配置文件需要自行创建，配置文件名为a4.conf，定义source组件用于采集日志，定义channel组件用于缓存日志，定义sink组件用于保存日志，定义生成日志文件的条件为日志文件大小达到128M或经过60秒生成一个日志文件。

3.4.7)因为HUE管理工具是整个云平台的可视化管理界面，所以需要单独进行容器化处理，容器化处理后的容器名为hue，具体为：

3.4.7.1)为保证HUE管理工具容器可以正常运行，需要在HUE管理工具对应的配置文件(例如pseudo-distributed.ini配置文件)中进行参数配置，包括HUE管理工具的http地址与端口、HDFS和webHDFS的URL地址、Hadoop的配置文件所在目录、资源管理器ResourceManager主节点IP地址、资源管理器ResourceManager、代理服务器ProxyServer和历史服务器HistoryServer的URL地址、Hive服务器HiveServer的IP地址和端口号，Hive数据仓库模块的配置文件所在目录、HBase海量存储模块集群的IP地址和端口号以及HBase海量存储模块配置文件所在目录。

其中，指定HDFS和webHDFS的URL地址、Hadoop的配置文件所在目录用于与Hadoop集成；

指定资源管理器ResourceManager主节点IP地址、资源管理器ResourceManager、代理服务器ProxyServer和历史服务器HistoryServer的URL地址用于与资源调度引擎Yarn集成；

指定Hive服务器HiveServer的IP地址和端口号，Hive数据仓库模块的配置文件所在目录用于与Hive数据仓库模块集成；

指定HBase海量存储模块集群的IP地址和端口号以及HBase海量存储模块配置文件所在目录用于与HBase海量存储模块集成。

3.4.7.2)在一键部署linux脚本(build-cluster.sh)中，通过Docker容器创建HUE管理工具容器，并指定HUE管理工具容器的容器名(hue)、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号(在此需要映射8888一个端口)，以及在本地指定一个可以将容器中的数据导入至本地的目录。

3.4.8)数据库包括关系型数据库MySQL、Oracle和非关系型数据库MongoDB，由于关系型数据库Oracle在Windows和Linux系统中安装非常复杂，因此有必要将关系型数据库Oracle进行容器化，它可以与Sqoop进行数据交换，且在云平台中，非结构化数据必须存储在非关系型数据库MongoDB中，因此非关系型数据库MongoDB必不可少，需要对非关系型数据库MongoDB进行容器化，具体为：

3.4.8.1)在一键部署linux脚本(build-cluster.sh)中，通过Docker命令创建关系型数据库oracle容器，并指定关系型数据库oracle容器的容器名(oracle)、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号(在此需要映射1521一个端口)，以及在本地指定一个可以将容器中的数据导入至本地的目录。

3.4.8.2)在一键部署linux脚本(build-cluster.sh)中，通过Docker命令创建非关系型数据库MongoDB容器，并指定非关系型数据库MongoDB容器的容器名(mongodb)、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号(在此需要映射27017一个端口)，以及在本地指定一个可以将容器中的数据导入至本地的目录。

下面通过具体实施例详细说明本发明的一键部署大数据和深度学习容器云平台。

实施例1：

首先，采用本发明的构建方法构建得到云平台，使得用户可以根据需求在云平台上运行不同的软件，完成不同的功能。其次，在开源组件Shipyard上进行二次开发，以实现对Docker容器、镜像、节点和私有仓库的web端管理，支持web端创建、删除容器和镜像，批量管理节点集群，实时监控Docker容器的健康状态，包括对CPU、内存和网络使用情况的动态监控，命令行控制台操作以及查看日志输出等。不仅如此，还可以在云平台上搭建深度学习开源框架Tensorflow，包括TensorflowCPU版本、OpenCV和python3.5，配合jupyternotebook即可使用浏览器进行交互式编程。

实施例2：

采用Dockerfile脚本和shell脚本两者组合的方式进行大数据和深度学习容器云平台一键部署代码的编写，具体需要利用Docker容器，将HDFS容器化、分布式Nosql数据库HBase容器化、分布式批量计算引擎MapReduce容器化、分布式协同服务Zookeeper容器化、数据分析引擎Hive和Pig容器化、数据采集引擎Sqoop和Flume容器化、大数据可视化管理界面Hue容器化、深度学习框架Tensorflow容器化、Docker集群管理界面Shipyard容器化、关系型数据库Oracle和Mysql容器化。不仅如此，还需要对整个系统的接口进行设计，以做到宿主机的端口映射与容器互联。其次，还需要对系统所包含的各开源软件进行配置文件的修改，以保证各软件相互集成且正常运行。最后，需要对整个系统进行安装与初始化。

上述各实施例仅用于说明本发明，其中各部件的结构、连接方式和制作工艺等都是可以有所变化的，凡是在本发明技术方案的基础上进行的等同变换和改进，均不应排除在本发明的保护范围之外。

Claims

1.一种一键部署大数据和深度学习容器云平台，其特征在于，该云平台包括存储计算层、采集分析层、监控管理层和数据来源层，所述存储计算层、采集分析层和监控管理层内的各模块均设置在对应Docker容器内，所述数据来源层内存储有结构化数据、半结构化数据和实时数据，其中：

所述采集分析层内设置有：

Sqoop数据采集模块，用于采集数据来源层存储的预处理后的数据；

Flume数据采集模块，用于采集、缓存和保存产生的日志；

Pig数据分析模块，用于当需要进行数据分析时，针对半结构化数据和实时数据，将类SQL的数据分析请求转换为一系列优化处理后的MapReduce运算数据集；

所述存储计算层内设置有：

MapReduce离线计算模块，用于获取并存储大数据处理需求以及对优化处理后的MapReduce运算数据集进行并行离线运算；

HDFS，用于根据大数据处理需求，对预处理后的数据进行批量存储和备份；

Storm流式计算模块，用于根据大数据处理需求，对预处理后的数据进行实时计算、存储和备份；

Hive数据仓库模块，用于当需要进行数据分析时，针对结构化数据，将数据导入至采用Hive引擎建立的数据模型中，并采用SQL语句进行分析；

Hbase海量存储模块，用于当需要进行数据查询时，导入所述数据来源层存储的对应数据；

所述监控管理层内设置有：

HUE管理工具，用于对各模块进行可视化管理，并与所述存储计算层进行交互；

Ganglia监控工具，用于实时监控各所述Docker容器的状态；

Nagios报警工具，用于当任一所述Docker容器不工作时进行报警。

2.如权利要求1所述的一种一键部署大数据和深度学习容器云平台，其特征在于，所述采用Hive引擎建立的数据模型包括内部表、分区表、外部表和桶表。

3.如权利要求1所述的一种一键部署大数据和深度学习容器云平台，其特征在于，所述数据来源层内设置有关系型数据库MySQL、Oracle和非关系型数据库MongoDB。

4.如权利要求1所述的一种一键部署大数据和深度学习容器云平台，其特征在于，所述监控管理层、采集分析层和存储计算层均包括核心处理部分，每一核心处理部分均包括计算机主机、内存、CPU、硬盘和所述Docker容器，每一所述计算机主机均通过虚拟机进行分割，每一所述计算机主机与对应所述Docker容器之间均采用网络信息传输的连接方式连接。

5.一种基于权利要求1至4所述的一键部署大数据和深度学习容器云平台的构建方法，其特征在于，包括以下内容：

1)将云平台中的所有模块均通过Dockerfile脚本构建成一个Docker镜像；

2)将云平台中所有模块的配置信息分别写入对应的配置文件中；

3)通过linux脚本，对各模块进行交互式设置，完成云平台的构建。

6.如权利要求5所述的一种一键部署大数据和深度学习容器云平台的构建方法，其特征在于，所述步骤3)的具体过程为：

3.1)创建Docker容器的自定义网络类型；

3.2)搭建HDFS，并将HDFS中的每一节点均进行容器化处理；

3.3)搭建Hbase海量存储模块，并将Hbase海量存储模块中的每一节点均进行容器化处理；

7.如权利要求6所述的一种一键部署大数据和深度学习容器云平台的构建方法，其特征在于，所述步骤3.4)中的数据库包括关系型数据库MySQL、Oracle和非关系型数据库MongoDB。

8.如权利要求6所述的一种一键部署大数据和深度学习容器云平台的构建方法，其特征在于，所述步骤3.2)的具体过程为：

对HDFS的主节点NameNode和从节点DataNode分别进行HDFS的管理和数据的存储；

在HDFS对应的配置文件中进行参数配置；

在一键部署的linux脚本中，配置Hadoop中的slaves文件，指定从节点DataNode的容器数量；

通过Docker命令创建主节点NameNode容器，并指定主节点NameNode容器的容器名、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号，以及在本地指定一个将容器中的数据导入至本地的目录；

通过Docker命令创建从节点DataNode容器，根据指定的从节点DataNode容器数量，分别指定从节点DataNode容器的容器名、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号。

9.如权利要求6所述的一种一键部署大数据和深度学习容器云平台的构建方法，其特征在于，所述步骤3.3)的具体过程为：

在Hbase海量存储模块对应的配置文件中进行参数配置；

在一键部署的linux脚本中，通过Docker命令创建主节点HMaster容器，并指定主节点HMaster容器的容器名、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号；

通过Docker命令创建从节点RegionServer容器，并根据从节点RegionServer容器的数量，分别指定每一从节点RegionServer容器的容器名、容器IP地址和容器所使用的网络，以及在本地指定一个将容器中的数据导入至本地的目录。

10.如权利要求7所述的一种一键部署大数据和深度学习容器云平台的构建方法，其特征在于，所述步骤3.4)的具体过程为：

3.4.1)对资源调度引擎Yarn进行容器化处理：

分配资源调度引擎Yarn的某一容器为主节点，其余容器为从节点；

在一键部署的linux脚本中，指定从节点容器的数量，并设定从节点容器IP地址的范围；

在资源调度引擎Yarn对应的配置文件中进行参数配置；

3.4.2)采用三个节点组成Zookeeper集群，并分别进行容器化处理：

指定主节点leader容器和从节点follower容器，并在Zookeeper集群对应的配置文件中进行参数配置；

创建一个myid空文件，并分别编写对应容器数量的shell脚本；

在一键部署的linux脚本中，通过docker命令创建Zookeeper容器集群，并指定每一容器的容器名、容器所使用的网络、容器IP地址和将容器端口映射到本地的端口号，以及在本地指定一个将容器中的数据导入至本地的目录；

3.4.3)对Hive数据仓库模块进行容器化处理：

将Hive数据仓库模块安装在HDFS的主节点NameNode所在的容器中，并对相应配置文件进行修改；

在一键部署的linux脚本中，通过Docker命令创建关系型数据库Mysql容器，并指定关系型数据库Mysql容器的容器名、容器IP地址、容器所使用的网络、将容器端口映射到本地的端口号、用户名、密码、数据库名，以及在本地指定一个将容器中的数据导入至本地的目录；

3.4.4)对Pig数据分析模块和Sqoop数据采集模块进行容器化处理：

将Pig数据分析模块和Sqoop数据采集模块安装在HDFS的主节点NameNode所在的容器中；

3.4.5)对Flume数据采集模块进行容器化处理：

将Flume数据采集模块安装在HDFS的主节点NameNode所在的容器中，并对相应的配置文件进行修改；

3.4.6)对HUE管理工具进行容器化处理：

在HUE管理工具对应的配置文件中进行参数配置；

在一键部署linux脚本中，通过Docker容器创建HUE管理工具容器，并指定HUE管理工具容器的容器名、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号，以及在本地指定一个将容器中的数据导入至本地的目录；

3.4.7)对关系型数据库Oracle和非关系型数据库MongoDB进行容器化处理：

在一键部署linux脚本中，通过Docker命令分别创建关系型数据库oracle容器和非关系型数据库MongoDB容器，并分别指定关系型数据库oracle容器和非关系型数据库MongoDB容器的容器名、容器IP地址、容器所使用的网络和将容器端口映射到本地的端口号，以及在本地指定一个将容器中的数据导入至本地的目录。