CN110019099A

CN110019099A - 基于Hadoop架构的海量数据管理系统

Info

Publication number: CN110019099A
Application number: CN201711491249.7A
Authority: CN
Inventors: 祁建明; 周峻松; 徐继峰; 陈墩金
Original assignee: Guangzhou Ming - Collar Gene Technology Co Ltd
Current assignee: Guangzhou Ming - Collar Gene Technology Co Ltd
Priority date: 2017-12-31
Filing date: 2017-12-31
Publication date: 2019-07-16

Abstract

本发明公开了一种基于Hadoop架构的海量数据管理系统，该系统包括：存储层模块、基础管理层模块以及应用层模块；其中，所述存储层模块由底层存储设备子模块与存储虚拟化管理子模块组成，负责海量异构数据的采集与管理；所述基础管理层模块是系统核心，负责实现所述存储层模块中不同区域间多个存储设备的协同工作，一体化对外提供服务；所述应用层模块利用所述基础管理层模块所提供数据为用户提供业务层面的统一界面。本发明方案利用了Hadoop架构的海量数据管理系统存储结果数据，提高了数据获取速度以及信息检索效率。

Description

基于Hadoop架构的海量数据管理系统

技术领域

本发明属于大数据管理技术领域，涉及一种基于Hadoop架构的海量数据管理系统。

背景技术

随着信息化技术的不断进步，现代企业从分部到总部，甚至是生产的每一个产品，无不都在产生着各式各样的数据，个人用户的数据存储规模达到了TB(10¹²B)级别，大中型企业数据存储规模达到了EB(10¹⁸B)级别，因此，类型繁多、数据量巨大、内容丰富的数据在长期保存、分析，体现数据价值的整个过程，需要一套能够不断扩展的数据管理系统来支撑。

由于传统存储设备容量、传输带宽有限，而且设备节点扩展难、使用难、数据管理难，不足以应付不断增长数据的存储要求，对于需要面向不同地域分布的用户进行服务更是无力应对。

现有的数据文件管理系统大都基于FTP客户端和本地磁盘阵列完成的简单数据管理系统，不具备分布式扩展能力，而且客户端使用不方便、与客户业务结合不紧密，不支持多客户并行使用及海量数据文件的管理。

发明内容

本发明目的在于提供一种基于Hadoop架构的海量数据管理系统，针对传统存储设备不足以应付不断增长的用户及数据存储要求的问题，通过利用HDFS分布式文件系统作为底层存储，上层利用Ngix反向代理的方式管理集群负载，有效地解决了在用户激增的情况下，较容易的通过增加硬件就完成系统的扩容，并具备异地就近服务、异地互备的能力，并在前端搭建了WEB架构的数据管理应用子系统，实现了用户可以随时、随地的接入网路对数据进行管理和分享。

为解决上述技术问题，本发明采用如下的技术方案：一种基于Hadoop架构的海量数据管理系统，该系统包括：存储层模块、基础管理层模块以及应用层模块；其中，所述存储层模块由底层存储设备子模块与存储虚拟化管理子模块组成，负责海量异构数据的采集与管理；所述基础管理层模块是系统核心，负责实现所述存储层模块中不同区域间多个存储设备的协同工作，一体化对外提供服务；所述应用层模块利用所述基础管理层模块所提供数据为用户提供业务层面的统一界面。

进一步地，所述存储层模块中，所述底层存储设备子模块包括Nas、FC、iSCSI等，统一由所述虚拟化管理子模块进行集中管理，对底层设备进行状态监视和审计维护等。

进一步地，所述基础管理层模块为了保证数据安全性，采用了数据加密技术，同时为了提高数据可靠性，采用了数据容灾备份技术。

进一步地，所述应用层模块主要提供了部门组织架构、审批流程控制、数据驾驶舱管理以及任务管理等业务层面的控制和应用。

本发明与现有技术相比具有以下的有益效果：

本发明方案针对传统存储设备不足以应付不断增长的用户及数据存储要求的问题，通过利用HDFS分布式文件系统作为底层存储，上层利用Ngix反向代理的方式管理集群负载，解决了在用户激增的情况下，较容易的通过增加硬件就完成系统的扩容，并具备异地就近服务、异地互备的能力，且实现了用户可以随时、随地的接入网路对数据进行管理和分享。

附图说明

图1是基于Hadoop架构的海量数据管理系统的整体架构图。

图2是基于Hadoop架构的海量数据管理系统的软件层次逻辑示意图。

具体实施方式

下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。

参照图1，本发明的一种基于Hadoop架构的海量数据管理系统，该系统包括：存储层模块、基础管理层模块以及应用层模块；其中，所述存储层模块由底层存储设备子模块与存储虚拟化管理子模块组成，负责海量异构数据的采集与管理；所述基础管理层模块是系统核心，负责实现所述存储层模块中不同区域间多个存储设备的协同工作，一体化对外提供服务；所述应用层模块利用所述基础管理层模块所提供数据为用户提供业务层面的统一界面。

基于Hadoop架构的海量数据管理系统是以数据管理和存储为核心的计算平台，它的内涵主要是在分布式存储平台基础上，通过集群应用、网络技术和分布式文件系统等技术，将网路中大量不同类型的存储设备集合起来协同工作，共同对外提供数据存储和业务访问功能，并能够保证数据的安全性并节约存储空间。实现了存储介质的互联和数据的统一管理、共享、冲突解决、透明存储、容错容灾、一致性及数据迁移等功能，传统存储设备主要是指简单的硬件，例如：阵列、光纤存储等，而大数据集群架构的组成则是存储设备、网络设备、应用软件、服务器、访问接口等多部分的高效组合。基于Hadoop架构的海量数据管理系统是一种典型的层次结构。

存储层模块的设备主要是指最底层设备，包括：Nas、FC、iSCSI等，统一由上一层的虚拟化管理子模块进行集中管理，对底层设备进行状态监视和审计维护等。考虑到就近服务的要求，以提高当地用户的体验，并增加抗毁性，可以把存储集群分布在不同的区域，各个区域间的集群通过网络互联形成逻辑上对用户透明的存储设备。

基础管理层模块是核心层，通过利用集群技术、分布式文件系统技术、数据压缩、加密技术实现不同区域间多个存储设备的协同工作，一体化对外提供服务。为了保证数据安全性，采用了数据加密技术，同时为了提高数据可靠性，采用数据容灾备份技术。

应用层模块主要提供了基本的用户权限认证、权限管理、部门组织架构、审批流程控制、数据驾驶舱管理、任务管理等业务层面的控制和应用，为用户提供业务层面的统一界面。

本系统前端采用WEB架构进行部署，后端采用Hadoop的HDFS分布式存储系统，前端软件利用负载均衡模式进行集群化部署，后端Hadoop系统自身具备了冗余模式的集群管理方式。

应用服务器集群采用Tomcat组成集群，使用分组集群架构，利用Tomcat自身的全冗余session备份模式，集群中的每台服务器都会备份其它服务器的session，当一台服务器发生故障，可以失败转移到其它任意一台服务器上。

1、软件架构

大数据集群架构的数据文件管理系统前端采用HTML5进行人机交互设计，后端架构采用B/S架构设计，基于Spring MVC框架，实现模型、视图、控制器的分离，利于系统功能模块升级；权限管理采用ApacheShiro、界面显示框架采用Bootstrap、JQuery等Web应用主流框架/组件，降低开发风险和成本，缩短开发周期，提高整个系统安全性、稳定性、可扩展性。数据底层采用Hadoop HDFS文件系统结合MySQL数据库完成管理数据和数据文件的管理。

软件架构层次划分为分布式文件层、数据层、业务层和应用层四层。软件架构如图2所示。

分布式数据文件层有Hadoop的HDFS文件系统进行服务，直接对外提供数据文件的分布式访问。

数据层模块安装在独立的MySql数据库内，保存数据文件的属性信息、用户信息、权限信息、组织架构信息以及任务信息等应用系统的基础信息。

业务层包含了用户、权限、工作流、任务控制、组织架构等信息的添加、删除、变更等基础管理服务，以及数据缓存机制，文件操作服务包括新建目录、删除目录、复制、合并、重命名基本文件操作。其中数据合并功能，可以将MySql数据文件合并备份到分布式数据文件层，保证管理信息的可靠性，也提高了整个系统的可靠性。

软件底层的核心主要是对Hadoop HDFS文件系统的操作。Hadoop有一个抽象的文件系统，HDFS只是其中一个实现，Java抽象类org.apache.hadoop.fs.FileSystem定义了Hadoop的文件系统接口。Hadoop是通过Java编写的，通过org.apache.hadoop.fs.FileSystem的具体实现类DistributedFileSystem，可以调用所有的Hadoop HDFS文件系统交互操作。

综合利用DistributedFileSystem和Hadoop提供的IOutils类完成数据文件的读写、查询等操作，实现业务层的文件操作功能。

分布式文件数据API操作的主要步骤是：

(1)调用get函数得到文件系统实例，其中需要输入服务器的配置信息；

(2)调用open函数获取文件的输入流；

(3)调用create函数，制定Path对象，返回输出流；

(4)该过程可以使用Progressable重载方法跟踪执行进行；

(5)调用IOutils.copyBytes方法完成数据的操作。

2、部署方式

2.1原则

(1)可扩展性：服务器需具有横向扩展能力，因为随着应用和企业的不断壮大，用户增多，服务器应具备一定的可扩展空间；

(2)高可用性：为了保障服务的连续性，通常要求服务器不间断地工作，持续为用户提供连续服务，对于关键应用需要任何时间都可用，并且能保证响应速度。因此就要求服务器集群具有强大的处理能力，不能有单点故障，保证系统的高可用。

2.2方案

通过对关键技术的对比分析，部署方案采用基于DNS负载均衡、反向代理均衡以及Tomcat全冗余session冗余备份的解决方案，DNS负载均衡作为全局负载器，通过分析客户在网络上地址，以及反向代理服务器的负载情况，将反向代理均衡服务器发布向客户，反向代理均衡器通过审视内部应用服务器的负载情况，将任务提交到空闲的服务器执行，并统一对外提供服务，而Tomcat自身的session全冗余备份模式，保证了服务的不间断和连续一致性。部署方案如图DNS全局负载均衡采用具有负载均衡功能的4层交换设备，反向代理服务器采用安装了Ngix软件服务器，内部应用服务器利用Tomcat部署小型集群。

通过以上部署，可以实现在广域网上不同地域服务器间的流量调配，保证终端使用最佳的服务，确保服务质量。

3、优势分析

(1)以WEB架构组建的数据管理应用，让用户有独享的数据管理界面，可以随时、随地接入，对数据进行管理、获取和分享。

(2)采用分布式集群架构，增强了多用户服务能力，只需通过简单的增加应用服务器，就可以从容的应对来自不同地域用户的激增。

(3)存储采用HDFS大数据分布式文件系统，较传统存储阵列带来了以下优点：

·高性能，阵列主控一般链接速率6Gbps、10Gbps，总是有上限的服务能力，很难满足用户激增或数据吞吐量激增的情况，而随着用户、用户数据不断的增多，传统阵列架构将很难满足，而本系统数据分布在不同的DataNode节点上，每个DataNode节点都可以10Gbps为应用服务器提供数据，多台DataNode节点组合在一起，理想的吞吐率将达到10Gbps×N，远远超过传统阵列。

·易扩充，该架构只需要通过简单扩展DataNode节点，就可以自动增加存储容量，传统阵列需要经过备份数据、重做阵列来扩充数据容量。

·高可靠，一般默认配置下，该架构有3份的冗余存储，并可以通过策略来改变冗余的存储地域，保证了在不同地域、不同存储机柜都有备份。

·经济性，可以利用廉价商用设备作为扩充节点，减少投入。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于Hadoop架构的海量数据管理系统，其特征在于，所述系统包括：存储层模块、基础管理层模块以及应用层模块；其中，所述存储层模块由底层存储设备子模块与存储虚拟化管理子模块组成，负责海量异构数据的采集与管理；所述基础管理层模块是系统核心，负责实现所述存储层模块中不同区域间多个存储设备的协同工作，一体化对外提供服务；所述应用层模块利用所述基础管理层模块所提供数据为用户提供业务层面的统一界面。

2.根据权利要求1所述的基于Hadoop架构的海量数据管理系统，其特征在于，所述存储层模块中，所述底层存储设备子模块包括Nas、FC、iSCSI等，统一由所述虚拟化管理子模块进行集中管理，对底层设备进行状态监视和审计维护等。

3.根据权利要求1所述的基于Hadoop架构的海量数据管理系统，其特征在于，所述基础管理层模块为了保证数据安全性，采用了数据加密技术，同时为了提高数据可靠性，采用了数据容灾备份技术。

4.根据权利要求1所述的基于Hadoop架构的海量数据管理系统，其特征在于，所述应用层模块主要提供了部门组织架构、审批流程控制、数据驾驶舱管理以及任务管理等业务层面的控制和应用。