CN110019521A

CN110019521A - 针对图书馆海量数据的分布式存储管理系统

Info

Publication number: CN110019521A
Application number: CN201711238605.4A
Authority: CN
Inventors: 徐继峰; 祁建明; 周峻松; 陈墩金
Original assignee: Guangzhou Ming - Collar Gene Technology Co Ltd
Current assignee: Guangzhou Ming - Collar Gene Technology Co Ltd
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2019-07-16

Abstract

本发明公开了一种针对图书馆海量数据的分布式存储管理系统，该系统包括：平台管理层、平台配置与调度层、数据收集层、文件存储层、数据存储层、统一数据服务接口层以及大数据决策应用层；其中，所述平台管理层主要负责对大数据存储的管理工作；所述平台配置与调度层负责平台系统的参数配置和确保系统兼容性；所述数据收集层主要实现海量异构数据的收集、定义和类型划分；所述文件存储层是基于大量廉价存储服务器设备构建的支持Hadoop计算框架的分布式大数据存储子系统；所述数据存储层主要由Hcatalog、HBase以及Redis组成；所述统一数据服务接口层用于提供统一和强兼容性的大数据读写接口；所述大数据决策应用层为图书馆业务部门提供大数据分析和决策支持。

Description

针对图书馆海量数据的分布式存储管理系统

技术领域

本发明属于大数据存储技术领域，涉及一种针对图书馆海量数据的分布式存储管理系统。

背景技术

随着云计算技术、传感器网络技术、移动宽带传输技术和终端设备制造技术的发展，图书馆的服务模式和读者阅读方式发生了巨大变革，以读者为中心的个性化服务定制和服务内容的智能推送，已经成为图书馆当前的主要服务模式。

在服务模式和读者阅读方式多样化发展的同时，图书馆的用户服务数据和读者阅读相关数据快速递增，已从TB、PB量级向EB量级急速增长，图书馆已进入大数据时代。

图书馆大数据每年平均以50％的速度快速激增，其中非结构化和半结构化数据占据大数据总量的85％以上。此外，图书馆大数据决策系统对数据的存取具有高效、精准、快速和实时的要求，因此，传统的关系型数据存储系统已不能满足图书馆大数据海量、指数级增长、快速存取、高吞吐率的存储需求。

发明内容

本发明目的在于提供一种针对图书馆海量数据的分布式存储管理系统，为了克服图书馆传统关系型数据库在海量数据存储和访问效率中存在的瓶颈问题，引入Hadoop技术架构，利用图书馆传统的廉价存储服务器集群设备存储图书馆特有的半结构化与非结构化大数据，采用分布部署及就近存储原则消除因网络传输带宽不足可能带来的大数据决策瓶颈问题，有效地满足了图书馆大数据决策和用户服务对大数据存储系统的高标准要求，实现了系统的较强存储容错性、快速、经济、可扩展性、低故障率和透明存储的优点。

为解决上述技术问题，本发明采用如下的技术方案：一种针对图书馆海量数据的分布式存储管理系统，该系统包括：平台管理层、平台配置与调度层、数据收集层、文件存储层、数据存储层、统一数据服务接口层以及大数据决策应用层；其中，所述平台管理层主要负责对大数据存储安全性、运行效率、可靠性、经济性和可控性的管理工作；所述平台配置与调度层主要负责平台系统的参数配置和确保系统兼容性，并为大数据存储系统不同的结构层调度、分配系统资源；所述数据收集层主要实现结构化数据、半结构化数据和非结构化数据的收集、定义和类型划分；所述文件存储层是基于大量廉价存储服务器设备构建的支持Hadoop计算框架的分布式大数据存储子系统；所述数据存储层主要由Hcatalog、HBase以及Redis组成；所述统一数据服务接口层用于提供统一和强兼容性的大数据读写接口；所述大数据决策应用层基于大数据存储层的支持，为图书馆业务部门提供大数据分析和决策支持。

进一步地，所述数据收集层使用Sqoop工具，实现Hadoop和关系型数据库中的数据相互转移。

进一步地，所述文件存储层支持巨量大数据决策者快速并发访问、查询和下载，以及存储系统不停机动态扩容，数据正确性的自检、复制、备份和恢复。

进一步地，所述统一数据服务接口层可兼容不同设备的数据传输机制，并根据大数据决策需求提供相应的数据读取服务需求。

本发明与现有技术相比具有以下的有益效果：

本发明方案针对图书馆传统关系型数据库在海量数据存储和访问效率中存在的瓶颈问题，引入Hadoop技术架构，利用图书馆传统的廉价存储服务器集群设备，采用分布部署及就近存储原则，满足了图书馆大数据决策和用户服务对大数据存储系统的高标准要求，实现了系统的较强存储容错性、快速、经济、可扩展性、低故障率和透明存储的优点。

附图说明

图1是针对图书馆海量数据的分布式存储管理系统的整体框架图。

图2是针对图书馆海量数据的分布式存储管理系统的可扩展性存储流程图。

图3是针对图书馆海量数据的分布式存储管理系统的动态存储副本放置策略图。

具体实施方式

下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。

参照图1，本发明的一种针对图书馆海量数据的分布式存储管理系统，该系统包括：平台管理层、平台配置与调度层、数据收集层、文件存储层、数据存储层、统一数据服务接口层以及大数据决策应用层。

其中，所述平台管理层主要负责对大数据存储安全性、运行效率、可靠性、经济性和可控性的管理工作；所述平台配置与调度层主要负责平台系统的参数配置和确保系统兼容性，并为大数据存储系统不同的结构层调度、分配系统资源。

所述数据收集层主要实现结构化数据、半结构化数据和非结构化数据的收集、定义和类型划分；所采用的Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将关系型数据库中的数据导入到Hadoop的HDFS中，实现数据集在Hadoop和传统数据库之间转移，是大数据存储系统中数据传输的重要工具。

所述文件存储层是支持Hadoop计算框架的分布式大数据存储子系统，其基于大量的廉价存储服务器设备构建，具有高容错、可扩展和高并发的优点，可支持巨量大数据决策者快速并发访问、查询和下载；此外，还支持存储系统不停机动态扩容，以及数据正确性的自检、复制、备份和恢复。

所述数据存储层主要由Hcatalog、HBase以及Redis组成；其中，Hcatalog是apache开源的对于表和底层数据管理的统一服务平台，主要完成多种数据处理工具之间的通信，以及应用程序的数据被其他应用程序在使用前的发现。HBase是一个分布式的、面向列的开源数据库，HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库，HBase在Hadoop之上提供了类似于Bigtable的能力。Redis存储系统支持主从同步，数据可以从主服务器向任意数量的从服务器上同步，这使得Redis可执行单层树复制，同步有助于提高大数据读取操作的可扩展性和数据冗余性。

所述统一数据服务接口层可兼容不同设备的数据传输机制，并根据大数据决策需求提供相应的数据读取服务(针对决策系统对大数据的海量快速传输、数据交互式查询和数据批处理等)需求，提供统一和强兼容性的大数据读写接口。

所述大数据决策应用层基于大数据存储层的支持，为图书馆业务部门提供大数据分析和决策支持。

图书馆大数据存储具有数据海量、大数据量文件比例高、并发访问量巨大，以及对大数据库进行文件并发读取操作远大于写入操作的特点，因此，针对图书馆海量数据的分布式存储管理系统的运行策略应支持多客户机并发高速读取操作，有较高的存储效率和较低的存储成本，并支持存储系统依据大数据冗余备份的需求，执行相应的数据备份策略。

如图2所示，NameNode负责管理文件系统的命名空间，主要维护文件系统树及整棵树内所有的文件目录结构和文件元数据。这些信息以两个文件形式(命名空间镜像文件和编辑日志文件)永久地保存在本地磁盘上，NameNode记录着每个文件中各个块所在的数据节点信息，存储节点数据块的位置信息在系统启动时由数据节点重建。大数据存储节点(DataNode)是大数据的存储单元，当图书馆业务部门在大数据决策中需要读取数据时，首先应当访问NameNode以获取文件的信息和数据分布特征，进而可依据获取的信息从存储节点读取数据。当用户从NameNode获取数据相关信息之后，后期重复读取这些数据时就不需要再次访问NameNode，客户端可以依据以前获得的文件目录信息从存储节点读取数据。此外，图书馆还可根据大数据存储需求，通过增加DataNode的节点数量实现大存储能力的横向扩展，仅需要将所增加的DataNode加入到NameNode中进行管理即可，本系统具有高数据吞吐量、透明存储、低复杂度和经济性强的优点。

针对图书馆海量数据的分布式存储管理系统通过存储节点的扩展，有效地满足了图书馆大数据总量指数增长对存储系统存储能力快速扩展的需求，但随着廉价存储节点数量和复杂度的上升，其存储节点的故障率也将快速增长，将导致大数据存储的安全性和可靠性下降。因此，为了确保大数据存储系统的数据安全、可靠、可控和可用，本发明设计了基于Hadoop大数据存储系统的动态存储副本放置策略。

如图3所示，若干个存储节点服务器共同放置在同一机架上，在同一机架上放置的存储节点服务器具有较高的数据传输吞吐率和可靠性。为了提升大数据存储的安全、可靠性，诸如机架1上的DataNote2存储节点，用户在向存储系统的DataNode2节点写入数据时，DataNode2会将写入的数据复制写入其他相临DataNode1、DataNode3、DataNode4中(对于普通的大数据文件采用3份复制的策略，而对于敏感的大数据文件则采用6份复制的策略)，以及相临机架2中的DataNode7节点中，如果存储节点DataNode1失效，DataNode1则会首先向位于同一机架的最近相临节点发出请求，重新在备份节点中下载并获得失效节点的备份数据。当位于同一机架的所有存储节点均损毁时，则从其它机架的备份存储节点中恢复丢失、损坏的数据，具有较高的数据灾难恢复效率和经济性。

为了提升图书馆大数据动态存储副本备份的效率，数据管理员可根据大数据的安全级别、访问频率、出错概率、存储时间、系统可靠性、网络状况等因素，动态综合设定、添加或删除备份存储节点的数量，不断提升大数据存储系统的存储空间利用率和数据灾难恢复效率。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.针对图书馆海量数据的分布式存储管理系统，其特征在于，所述系统包括：平台管理层、平台配置与调度层、数据收集层、文件存储层、数据存储层、统一数据服务接口层以及大数据决策应用层；其中，所述平台管理层主要负责对大数据存储安全性、运行效率、可靠性、经济性和可控性的管理工作；所述平台配置与调度层主要负责平台系统的参数配置和确保系统兼容性，并为大数据存储系统不同的结构层调度、分配系统资源；所述数据收集层主要实现结构化数据、半结构化数据和非结构化数据的收集、定义和类型划分；所述文件存储层是基于大量廉价存储服务器设备构建的支持Hadoop计算框架的分布式大数据存储子系统；所述数据存储层主要由Hcatalog、HBase以及Redis组成；所述统一数据服务接口层用于提供统一和强兼容性的大数据读写接口；所述大数据决策应用层基于大数据存储层的支持，为图书馆业务部门提供大数据分析和决策支持。

2.根据权利要求1所述的针对图书馆海量数据的分布式存储管理系统，其特征在于，所述数据收集层使用Sqoop工具，实现Hadoop和关系型数据库中的数据相互转移。

3.根据权利要求1所述的针对图书馆海量数据的分布式存储管理系统，其特征在于，所述文件存储层支持巨量大数据决策者快速并发访问、查询和下载，以及存储系统不停机动态扩容，数据正确性的自检、复制、备份和恢复。

4.根据权利要求1所述的针对图书馆海量数据的分布式存储管理系统，其特征在于，所述统一数据服务接口层可兼容不同设备的数据传输机制，并根据大数据决策需求提供相应的数据读取服务需求。