CN109840253A

CN109840253A - 企业级大数据平台架构

Info

Publication number: CN109840253A
Application number: CN201910021944.XA
Authority: CN
Inventors: 王劲松; 张建
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-01-10
Filing date: 2019-01-10
Publication date: 2019-06-04

Abstract

本发明涉及企业级大数据平台架构，旨在以低成本提升企业在实际生产中对大数据处理、提取、存储、数据挖掘的规范性和效率。大数据平台基于Hadoop、Spark、Hive、Hbase等Apache开源项目，可以运行在可拓展的普通硬件上，构建了一个完整的大数据数据技术体系，包括数据存贮、离线计算、实时计算和机器学习平台。可以满足多种复杂条件下的企业计算任务。该平台还包括一套完整的matedata存储、数据质量监督、ETL流程标准等数据处理规范以及核心数据保护、数据权限控制等策略方案以保证数据质量规范性和数据数据资产的安全。

Description

企业级大数据平台架构

技术领域

大数据技术近年来收到高度关注，各行各业都在拥抱互联网，随着传统企业向E企业转变，企业生产经营中的数据也被等多的记录下来，大数据是企业的基本生产资料，数据信息是企业宝贵的资产。

背景技术

不管你有没有发现，大数据时代已经来临，大数据潮流引领多诸多变革正在悄无声息的改变着各行各业。虽然说“大数据”这个词是近年来才广为流传，但其实各种数据从很早之前就一直存在，硬件的机能和软件技术的局限性让人们在很长一段时间内不能有效的利用全量数据，随着技术的不断革新，现在人们已经可以轻松的用大数据技术处理海量数据，这使得之前很多只能停留在理论研究层面的算法和思想现在可以付诸行动。

而企业生产过程中，会产生大量的数据，海量的数据是企业珍贵的财产，如果一个大型企业没有统一的数据平台作为依托，会产生各种各样的问题。比如内部有多个不同的技术团队，每个团队各自为战，有不同的集群，这样就会造成数据孤岛、资源浪费、服务孤岛等影响企业效率的问题。而一个良好的、规范的大数据平台，可以使企业生产中产生的数据得以充分的利用，产生更多的价值，提升企业的效率。

发明内容

企业级大数据平台架构，其特征在于：

在整体的技术选型中是以Hadoop作为基础的；

通过js埋点来记录日志；

结构化的数据即存储在RDBMS中的数据用Sqoop来传输，Sqoop被设计用于在一个Hadoop生态系统与关系型数据库管理系统RDBMS中的结构化数据存储之间传输数据；作为Hadoop生态系统不可或缺的一部分，Sqoop启用了一个MapReduce作业来执行任务；

非结构化的数据和半结构化的数据用Flume，Flume的使用不只限于日志数据，还被用来传输事件数据；而kafka作为一个消息订阅系统，配合Flume作为实时数据处理的数据源；

数据的存储以HDFS为主，一个HDFS集群是由一个Namenode和一定数目的Datanode组成，Namenode是一个中心服务器，负责管理文件命名空间和的寻址路径；Datanode是实际存储数据的节点，数据以Block的形式存储在上面，通过Zookeeper实现多个Namenode作为热备，在Namenode挂掉后通过选举产生新的Namenode实现高可用；通过Sqoop和Flume从数据源传递过来的数据都会存储在HDFS上；

Hbase也是Master/Slave的架构，Master节点负责维护表和数据的位置，存储数据的节点叫RegionServer，保存的表的数据直接存储在HDFS上，每次客户端通过Zookeeper获得需要数据所在的RegionServer然后直接和其通讯进行查询；

GreenPlum作为数据仓库的同时，也作为支持实时查询的数据库；

数据处理分为离线处理平台、实时处理平台和机器学习平台；

大数据平台应该以Yarn作为调度基础，计算的原始数据和计算结果存储在HDFS上；大数据平台支持多种计算工具，以hue进行统一的调度管理和任务监控，构成了离线计算引擎；

以Flume+Kafka作为实时计算的数据提供，Flume+kafka架构会实时同步新的数据到实时计算引擎；而实时计算引擎的技术框架则采用Storm+SparkStreaming+Flink来实现，

大数据平台必须加入机器学习算法平台；其架构如下：

基础架构层，提供了计算资源调度和数据资源服务两个主要功能，基础架构层能同时支持不同硬件资源调度；借助虚拟化技术，机器学习平台将同一个硬件设备在不同的任务中进行资源共享；

任务调度层，将不同的机器学习算法工具连接起来，通过DAG调度的形式，帮助用户完成复杂的模型运算，减少开发难度；

算法层，通过开源算法框架，根据企业自身业务需求，实现各种算法定制化、模块化封装；每一个模块都采用了统一的数据接口，同时提供了灵活的参数供用户进行调整；

API层，为算法调度提供统一的入口，对外提供统一的数据接口；数据接口应该遵循Restful的风格，整齐划一；同时提供支持DSL查询接口，支持以SQL的方式来拉取数据；同时数据接口还应当开放数据平台任务调度，任务提交的功能；数据查询的接口用Flask+SQLalchemy来实现，或者SpringBoot+Mybatis，数据平台任务提交用Spark自带的livy服务来实现；

数据平台上增加安全认证，安全认证架构采用Kerberos+LDAP服务+Knox网关。

大数据的发展离不开开源技术的发展，自Hadoop发布以来，各种开源的大数据框架层出不出，形成了以Hadoop为基础的大数据生态，这些分布式框架，可以部署在廉价的普通主机上，易于维护和拓展，使大数据的应用不断普及。但是这些框架往往各自为战，功能上有重叠或者各有不足，因此我们将把他们整合题来，基于这些开源框架，提出了一套适合企业生产的大数据处理技术架构，形成了一整套企业内部统一规范的大数据处理流程，为企业大数据建设提供了思路。

附图说明

图1是面向企业的大数据平台

图2是HDFS存储架构图

图3是Hbase架构图

图4是数据处理平台图

图5是算法服务平台架构图

具体实施方式

面向企业的大数据平台如下图1所示。

在企业的生产中，数据源必定会多种多样，实际生产环境中的数据必定会有来源多、类型复杂、体量大等特性。但我们可以将数据分为三类。包括结构化数据、非结构化数据和半结构化数据。结构化数据一般是来源于关系型数据库中的数据，这些数据一般比较规范，有一定的数据模型，遵循一定的数据规范；半结构化数据一般是xml和json这种有一定的结构，但它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构，包含相关标记，用来分隔语义元素以及对记录和字段进行分层。因此，它也被称为自描述的结构，半结构化数据是结构化数据的一种形式；和结构化数据相对应的就是非结构化数据，非结构化数据是数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、各类报表和音频/视频信息等等。非结构化数据和半结构化数据往往蕴涵着大量的价值，而hadoop由于它的读时模式(处理数据时才对数据进行解释)对结构化和非结构化的数据处理非常有效，因为这种模式在提供了高灵活性的同时避免了对RDBMS带来的高额开销。所以，我们在整体的技术选型中是以Hadoop作为基础的。

在企业中尤其是面向用户的企业，网站访问日志是很重要的数据，可以根据其分析出用户的偏好，网站的浏览量(PV)、(访客数)UV等重要指标，我们一般通过js埋点来记录日志，日志内容不光包括访问日志还应该包括交互、曝光等自定义日志，这些应该根据企业的需求自行决定。

针对上一节提到的数据源的分类，数据接入的方式也有不同。

结构化的数据即存储在RDBMS中的数据可以用Sqoop来传输，Sqoop被设计用于在一个Hadoop生态系统与MySQL、Oracle、MS SQL、Postgre SQL和DB2等关系型数据库管理系统(RDBMS)中的结构化数据存储之间传输数据。作为Hadoop生态系统不可或缺的一部分，Sqoop启用了一个MapReduce作业(极其容错的分布式并行计算)来执行任务。Sqoop的另一大优势是其传输大量结构化或数据的过程是完全自动化的。

非结构化的数据和半结构化的数据可以用Flume，Apache Flume是一个分布式，可靠且可用的系统，用于有效地从许多不同的源收集、聚合和移动大量数据到一个集中式的数据存储区。Flume的使用不只限于日志数据，因为数据源可以定制，可以被用来传输大量事件数据。而kafka作为一个消息订阅系统，可以配合Flume作为实时数据处理的数据源。

数据的存储以HDFS为主，HDFS是一个针对大规模数据存储的分布式文件系统，满足大数据高效可靠的存储需求，提供较高的持久性、较高的吞吐量和较低的延迟速度，通过ZooKeeper实现的高可用性，通过将一个block的数据分三份存储在不同的Datanode上来实现高可靠性。同时HDFS还有兼容性强，容易扩展，并支持水平扩展至百PB级存储容量,同时拥有较高的硬件故障容忍能力，提供全面的安全性和多样化的权限功能。

HDFS从设计上看是一个Master/Slave架构的服务，一个HDFS集群是由一个Namenode和一定数目的Datanode组成，Namenode是一个中心服务器，负责管理文件命名空间和的寻址路径。Datanode是实际存储数据的节点，数据以Block的形式存储在上面，一个Block默认大小为128M，默认分为三份存储在不同的Datanode上，这样可以减少寻址消耗并提高可靠性。通过Zookeeper实现多个Namenode作为热备，在Namenode挂掉后通过选举产生新的Namenode可以实现高可用。通过Sqoop和Flume从数据源传递过来的数据都会存储在HDFS上。HDFS存储架构图如图2所示。

Hbase是一个分布式存储系统，具有高效的实时读写性能。可以支持每秒千万级数据记录写入和毫秒级的查询响应，当数据量达到PB级别，仍然能保持高性能读写。Hbase的存储基于Hadoop，是一个列形数据库，采用Key/Value的形式存储数据，随着数据量的增大几乎不会影响查询的效率。Hbase也是Master/Slave的架构，Master节点负责维护表和数据的位置，存储数据的节点叫RegionServer，保存的表的数据直接存储在HDFS上，RegionServer非常依赖Zookeeper，Zookeeper扮演了一个管家的角色，管理所有RegionServer的信息，每次客户端通过Zookeeper获得需要数据所在的RegionServer然后直接和其通讯进行查询，Hbase架构如图3所示。

Greenplum数据库是最先进的分布式开源数据库技术，采用支持MPP的无共享架构，主要用来处理大规模的数据分析任务，包括数据仓库、商务智能(OLAP)和数据挖掘等。完善的标准支持：GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003扩展；从应用编程接口上讲，它支持ODBC和JDBC。支持分布式事务，支持ACID。保证数据的强一致性。做为分布式数据库，拥有良好的线性扩展能力。在国内外用户生产环境中，具有上百个物理节点的GPDB集群都有很多案例。所以GreenPlum可以作为数据仓库的同时，也可以作为支持实时查询的数据库。

数据处理分为离线处理平台、实时处理平台和机器学习平台。

大数据离线计算为多种应用场景提供基础计算功能，其特点为：数据量大且保存时间长了；在大量数据上进行复杂的批量运算，能够方便的查询批量计算结果；数据在计算之前已经到位，不会发生变化。大数据平台应该以Yarn作为调度基础，计算的原始数据和计算结果存储在HDFS上。大数据平台支持Hive，Mapreduce，Spark等计算工具，以hue进行统一的调度管理和任务监控，构成了离线计算引擎。

MapReduce是传统的计算引擎，Spark是新一代基于内存的计算引擎，旨在为高性能、迭代计算、时效性要求极高的场景服务。Hive目前业内能够支撑GB/TB/PB级数据仓库的通用解决方案之一,支持将sql语句转换MapReduce任务,能够快速处理海量数据计算，有效降低分布式计算模型的使用成本。三种计算工具作为离线计算平台的支撑。

尽管离线处理平台能一定程度满足数据处理的日常需求，但是这种处理方式有一定滞后性，针对时效性要求更高的事实预测、风控预警等诸多场景，则需要搭建实时计算平台。实时计算平台应实现低延迟、高吞吐、计算结果可复用等目标。以Flume+Kafka作为实时计算的数据提供，Flume+kafka架构会实时同步新的数据到实时计算引擎。而实时计算引擎的技术框架则采用Storm+SparkStreaming+Flink来实现，Storm作为第一代增量计算的高速事件处理框架，它的毫秒级延迟满足对延迟要求较高的场景。而SparkStreaming的有状态计算、对延迟要求不高以及图形操作、机器学习、SQL支持等特性恰恰是对Storm的完美补充。Flink的出现可以说是以上框架优点的集大成者。Flink支持Storm式的增量迭代和毫秒级延迟，吞吐量比Storm高，并且具有对迭代自动优化的功能，支持Exactly Once、状态管理和窗口统计，在迭代式数据处理上，更是比Spark突出。

企业数据积累的目的就为了挖掘其中的价值，面对大量数据，传统的数据分析方法已经不再适用，必须和机器学习结合起来，建立合理的datapipeline，才能更好的挖掘数据中隐藏的价值。同时大量的数据又提升了算法模型训练的准确程度，可以说大数据和机器学习是相辅相成的。企业生产中，机器学习应用的场景非常多，用户画像，商品、新闻、广告推荐，反作弊等，所以大数据平台必须加入机器学习算法平台。依托于大数据底层先进的基础架构设施，有效地将大数据平台中的计算、存储、调度等系统协同起来。算法平台可以为用户提供数据标注、数据清洗、数据建模、模型上线等一站式服务。依托这个平台，用户可以轻松地在PB级数据上快速进行算法的研究和落地。其架构如下图所示。

基础架构层，提供了计算资源调度和数据资源服务两个主要功能，为了足不同的机器学习算法的计算需求，基础架构层能同时支持CPU、GPU、高速存储设备、高速网络设备等不同硬件资源调度。借助虚拟化技术，机器学习平台可以将同一个硬件设备在不同的任务中进行资源共享，有效地提高了硬件资源的利用率。数据资源服务依托之前的大数据计算框架提供了数据的清洗、转换、规范化、数据标注等服务，为了算法提供了高质量可靠的数据源。

任务调度层，随着机器学习技术的不断发展和企业业务的不断复杂，用户往往不能依赖单一模型工具或单一任务来达到目标，任务调度调度层可以很好的解决这个痛点。通过任务调度层，将不同的机器学习算法工具连接起来，通过DAG调度的形式，帮助用户完成复杂的模型运算，减少开发难度。

算法层，通过SparkMLlib、TeserFlow、Cafe等开源算法框架，根据企业自身业务需求，实现各种分类算法、回归算法、聚类算法、推荐算法、深度学习算法等定制化、模块化封装。每一个模块都采用了统一的数据接口，同时提供了灵活的参数供用户进行调整，以满足不同的业务需求。

API层，为算法调度提供统一的入口，面对一些粗粒度的需求时，可以直接调用算法层封装好的算法模块，通过任务调度层进行调度，直接输出需要的结果，不用针对每个任务去进行定制化的开发，用户甚至不需要进行任何的模型开发，大大减少算法适用的门槛和开发难度。

数据平台产生海量的数据，应该如何高效安全的开放出去，让外部直接访问数据源肯定不行，为了数据平台的安全和统一规范，方便数据的使用，应对外提供统一的数据接口。数据的统一接口应该遵循Restful的风格，整齐划一。同时提供支持DSL查询接口，支持以SQL的方式来拉取数据。同时接口还应当开放数据平台任务调度，任务提交的功能。数据查询的接口可以用Flask+SQLalchemy来实现，或者SpringBoot+Mybatis，数据平台任务提交可以用Spark自带的livy服务来实现，Apache Livy是一种通过RESTFUL接口与Spark集群轻松交互的服务，可以通过简单的REST接口或RPC客户端库轻松提交Spark作业或Spark代码片段，同步或异步结果检索以及Spark Context管理。Apache Livy还简化了Spark与应用程序服务器之间的交互，从而使Spark能够用于交互式Web/移动应用程序。

到现在为止，大数据平台中的Hadoop相关服务未受到任何保护，数据安全隐患十分严重，一家企业的数据可以说是企业生产经营的命脉，如果不做保护很容易遭到恶意的破坏或者窃取。因此在数据平台上增加安全认证也非常有必要。安全认证架构采用Kerberos+LDAP服务+Knox网关。

LDAP是轻量级目录访问协议的简称，是一种树形目录结构的轻量级数据库，能够提供快速的检索能力，可以方便快捷的存储查询企业内部组织结构的用户数据。

Apache Knox Gateway是一款用于保护Hadoop生态体系安全的代理网关系统，为Hadoop集群提供了唯一的代理入口，Knox本质是一一款基于Jetty实现的反向代理服务器，可以充当集群认证网关的角色，隐匿部署细节(端口号和Host等)，统一接管所有HTTP请求(WebUI控制台和Restful服务调用等)。Knox通过内置的过滤器来处理URL，可以支持LADAP进行用户身份认证，HDFS、Yarn、Spark、Hue的web ui都可以以新建Service的形式加入Knox网关。

Kerberos是一个网络认证的架构协议，通过强大的密匙系统为Server和Client应用程序提供通信加密和认证服务，在使用Kerberos协议认证的集群中，Client和Server服不会直接进行认证通信，而是通过KDC(Key Distribution Center)这样一个独立服务来进行相互之间的认证，同时Kerberos还能将服务之间的全部通信进行加密。Kerberos也支持LDAP的用户认证，可以方便的进行用户权限的管理。

具体生产环境中，我们可以用FreeIPA来部署以上所有服务，FreeIPA是一个继承的安全信息管理解决方案，它整合了Kerberos、LDAP、NTP、Bind等软件包，形成了一个以LDAP为数据存储后段，Kerberos为验证前段，Bind为主机识别，同时还提供了统一的命令行管理工具和Web洁面的集成信息系统。具有易于管理、安装和配置任务自动化的特点。我们只需要独立出一台服务器作为安全认证服务器部署FreeIPA即可很好的保证数据的安全。

Claims

1.企业级大数据平台架构，其特征在于：

在整体的技术选型中是以Hadoop作为基础的；

通过js埋点来记录日志；

大数据平台必须加入机器学习算法平台；其架构如下：

2.根据权利要求1所述的平台，其特征在于：采用LDAP提供检索。

3.根据权利要求1所述的平台，其特征在于：Apache Knox Gateway为Hadoop集群提供了唯一的代理入口，Knox本质充当集群认证网关的角色，隐匿部署细节，统一接管所有HTTP请求；Knox通过内置的过滤器来处理URL，支持LADAP进行用户身份认证，HDFS、Yarn、Spark、Hue的web ui都以新建Service的形式加入Knox网关。

4.根据权利要求1所述的平台，其特征在于：在使用Kerberos协议认证的集群中，Client和Server通过一个独立服务来进行相互之间的认证，同时Kerberos还能将服务之间的全部通信进行加密；Kerberos也支持LDAP的用户认证，方便的进行用户权限的管理。

5.根据权利要求1所述的平台，其特征在于：用FreeIPA来部署以上所有服务，形成了一个以LDAP为数据存储后段，Kerberos为验证前段，Bind为主机识别，同时还提供了统一的命令行管理工具和Web洁面的集成信息系统。