CN104462185A - 一种基于混合结构的数字图书馆云存储系统 - Google Patents

一种基于混合结构的数字图书馆云存储系统 Download PDF

Info

Publication number
CN104462185A
CN104462185A CN201410539761.4A CN201410539761A CN104462185A CN 104462185 A CN104462185 A CN 104462185A CN 201410539761 A CN201410539761 A CN 201410539761A CN 104462185 A CN104462185 A CN 104462185A
Authority
CN
China
Prior art keywords
file
cssdl
user
digital library
mixed structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410539761.4A
Other languages
English (en)
Other versions
CN104462185B (zh
Inventor
邹志强
颜斌
姚毅
赵培志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201410539761.4A priority Critical patent/CN104462185B/zh
Publication of CN104462185A publication Critical patent/CN104462185A/zh
Application granted granted Critical
Publication of CN104462185B publication Critical patent/CN104462185B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/1827Management specifically adapted to NAS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于混合结构的数字图书馆云存储系统,基于Hadoop技术的混合结构,同时支持HBase数据库技术和传统关系数据库SQL Server技术,系统以Hadoop分布式文件系统集群作为后台云存储框架,设有CSSDL_HS登录模块、CSSDL_HS用户管理模块、CSSDL_HS文件管理模块、CSSDL_HS文件夹管理模块以及CSSDL_HS服务器管理模块,并在CSSDL_HS文件管理模块中增设了智能文件预处理模块,根据用户设定的阈值智能地对文件进行预处理。本发明能够解决数字图书馆场景中文件的分布式存储问题,可以提高文件存储的速度和可靠性,减少可能带来的人工误操作,达到在网络环境下高效管理数字图书馆中各种文件的目的。

Description

一种基于混合结构的数字图书馆云存储系统
技术领域
本发明涉云存储技术,尤其涉及一种基于混合结构的数字图书馆云存储系统(简称CSSDL_HS),属于数字图书馆文件的分布式存储的技术领域。本系统能够解决数字图书馆场景中文件的分布式存储问题,可以提高文件存储的速度,减少可能带来的人工误操作,使得在网络环境下数字图书馆中各种文件存储具有更好的可靠性和无故障性。
背景技术
Hadoop分布式文件系统(Hadoop Distributed File System,简称HDFS)是一个高度容错的文件系统,支持分布式文件的存取,具有较高的安全性、稳定性。HDFS是一种Master/Slave架构,一台服务器作为NameNode节点,其余服务器是DataNode数据节点。NameNode负责管理文件的命名空间、数据复制和客户端对文件的访问。DataNode在NameNode的管理下负责将文件中的数据保存在本地文件系统上。在基于混合结构的数字图书馆云存储应用方面,HDFS具有如下特点:(1)硬件错误是常态而不是异态。HDFS对需要存储的每一个数据块都保存多份(用户可以通过修改配置文件更改副本数量,本发明中默认为三份)并保存在不同的DataNode上,一旦某一个DataNode结点失效,NameNode就会将该数据块复制到其他活跃的DataNode上,保证任何时候系统中的任一数据块的正常数量比例不低于阈值。(2)流式数据访问。HDFS系统的设计是数据批处理方式,而不是用户交互处理。考虑更多的是提高数据访问的吞吐量。(3)大规模数据集。因为一个HDFS集群里可以扩展到数百个结点,所以HDFS能提供整体较高的数据传输带宽,从而更适于数字图书馆场景下各种大文件的网络存储。(4)简单的一致性模型。HDFS系统中的文件采取一次写入多次读取的策略,方便了数据的访问,也保证了数据的一致性。(5)可移植性,只要机器上安装有Linux系统和Java虚拟机就可以部署HDFS。因此HDFS也继承了Java的高度可移植性。
在当今网络技术快速的发展情况下,信息技术不断发展,以印刷型书刊资料为主要收藏载体的传统图书馆难以适应这些新技术带来的新需求,也使得数字图书馆走上了历史舞台,数字资源的使用者和数字资源的种类、数量迅速增长,促进了数字图书馆的快速发展。然而数字图书馆现在所使用的存储技术都在不同程度上存在技术缺陷。目前数字资源的主要存储设备是磁带和主要采用SATA接口的磁盘,系统存储容量扩充难度大,存储在系统中的数据安全性较低,难以保证数据存储的可靠性、无故障性。资金投入量较大,使得现有的存储系统难以满足新服务的发展带来的日益增长的服务需求,也没有统一而可行的存 储技术标准指导数字图书馆资源的存储系统建设,严重地阻碍了应用服务器与存储系统之间的高速数据传输,整个系统极度缺乏快速数据备份和故障恢复能力,系统的运行也不稳定。
以云存储为基础的存储系统有四大决定性优势:
1)无限扩充。云存储系统采用了网格技术、P2P技术和集群技术,支持大规模的数据存储,数字图书馆用户可以动态添加和管理存储结点和存储设备。
2)实时数据迁移和快速备份。在云存储中,所有的存储设备和存储结点对于服务对象都是一个整体,采用虚拟化技术对所有的存储设备进行逻辑上的划分,形成一个个逻辑分区,新数据一旦被传入,系统会进行快速备份。
3)投入资金量小。不需要高档的中小型计算机,可以由低廉的一般计算机组成。
4)高安全性。数据和文件被保存在不同的存储结点上,并留有文件存储位置的索引,若某文件无法被访问,操作指令将被存储系统自动的发送到另一台存储有此文件存储结点上,使文件的访问正常进行。
综上所述,云存储技术非常适合存储数字图书馆资源,为图书馆节省了庞大的存储设施,不仅减少了经费开支、也提高了数字图书馆资源存储的安全性,从而加速了数字图书馆的发展。
Java Management eXtensions技术,简称JMX技术,在标准Java技术基础上扩展的,定义管理系统和资源之间交互标准的管理规范,是管理系统和资源之间的一个接口。在Hadoop技术的支持下,JMX提供了获取NameNode、DataNode以及JobTracker运行的接口,并可以通过Web的形式展现出来。
发明内容
本发明基于上述的技术,提出并实现了一种基于混合结构的数字图书馆云存储系统,能够解决数字图书馆场景中文件的分布式存储问题,可以提高文件存储的速度和可靠性,减少可能带来的人工误操作,达到在网络环境下高效管理数字图书馆中各种文件的目的。
本发明采用的技术方案如下:
一种基于混合结构的数字图书馆云存储系统,其特征是:针对数字图书馆中存在的多种不同类型和不同大小的文件,为数字图书馆文件的分布式存储设计了基于Hadoop技术的混合结构,该混合结构同时支持HBase数据库技术和传统关系数据库SQL Server技术,所述混合结构包括以下部分:
1)数字图书馆的用户,该用户包括了支持读写功能的数字图书馆的Web端用户和支 持写功能的数字图书馆的PC端用户;
2)云存储服务器,用于提供基于Tomcat的数字图书馆的Web端用户的可视化操作界面,支持读写功能;
3)应用服务器,用于提供基于写队列的数字图书馆的PC端用户实现写功能;
4)混合结构中的核心控制模块,用于在云存储服务器和应用服务器之间提供一个信息交互的桥梁,从而实现对混合结构中的HBase和MySQL进行控制;
5)混合结构中的HBase部分,是建立在HDFS基础之上的列数据库;
6)混合结构中的HDFS部分,具体包括NameNode和DataNode;
7)混合结构中的MySQL部分,具体包括用户元信息和文件元信息。
基于上述混合结构的数字图书馆云存储系统,利用Hadoop技术,以HDFS集群作为后台云存储框架,构造了五个模块:
(1)CSSDL_HS登录模块:提供CSSDL_HS的新用户注册、注册用户登录和CSSDL_HS的用户注销,用户按要求填入用户名、密码,进行登陆验证;如果用户信息验证成功,则可以登陆系统;否则进入等待状态,等待用户重现输入;该模块通过数字图书馆的用户来进行展现;
(2)CSSDL_HS用户管理模块:提供查看和修改CSSDL_HS用户信息,依次通过数字图书馆的用户、数字图书馆的PC端用户、应用服务器、混合结构中的MySQL部分,并最终在混合结构中的MySQL部分存储用户的元信息;
(3)CSSDL_HS文件管理模块:提供CSSDL_HS文件的智能预处理、上传文件、下载文件、重命名文件和删除文件;CSSDL_HS文件管理模块是CSSDL_HS中的一个核心模块,它首先分别经过数字图书馆的PC端用户和数字图书馆的Web端用户把信息分别传递给权云存储服务器和应用服务器,接着经过混合结构中的核心控制模块,实现云存储服务器和应用服务器之间的信息交互,其中数字图书馆的数据文件由混合结构中的HBase完成分布式文件存储,而数字图书馆的文件元信息由混合结构中的MySQL完成集中式存储;
(4)CSSDL_HS文件夹管理模块:提供CSSDL_HS的新建文件夹、重命名文件夹和删除文件夹;当用户注册系统时,CSSDL_HS为该用户新建一个文件夹,作为该用户的根目录,之后用户所有的文件或文件夹操作(新建、重命名和删除),都在该根目录下进行;通过数字图书馆的用户,完成MySQL的操作;
(5)CSSDL_HS服务器管理模块:用于提供查看CSSDL_HS服务器信息,依次通过 数字图书馆的用户、数字图书馆的PC端用户,把信息分别传递给云存储服务器,接着通过调用Hadoop的JMX接口,实时获取HDFS服务器运行参数(使用JMX的Rest形式),这些参数经加工汉化后,显示到网页上供CSSDL_HS管理员进行监控和系统维护。
本发明的优点及显着效果:本发明提供的基于混合结构的数字图书馆云存储系统(CSSDL_HS)能够解决数字图书馆场景中文件的分布式存储问题,可以提高文件存储的速度和可靠性,减少可能带来的人工误操作,达到在网络环境下高效管理数字图书馆中各种文件的目的。
附图说明
图1为数字图书馆云存储中的混合结构;
图2为基于混合结构的数字图书馆云存储系统的结构;
图3为CSSDL_HS中的智能文件预处理模块;
图4为CSSDL_HS总体框架;
图5为CSSDL_HS登录模块;
图6为CSSDL_HS中的下载文件模块;
图7为CSSDL_HS中的删除文件模块;
图8为南京图书馆资源云存储系统中CSSDL_HS文件管理模块的具体实施例。
具体实施方式
为了实现基于混合结构的数字图书馆云存储方案CSSDL_HS,本发明利用了Hadoop技术。下面结合附图对本发明中基于混合结构的数字图书馆云存储方案的具体实施方式,进行详细说明,应理解这些实施仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1,所述的数字图书馆云存储中的混合结构,主要包括:
1)数字图书馆的用户,该用户包括了支持读写功能的数字图书馆的Web端用户和支持写功能的数字图书馆的PC端用户;
2)云存储服务器,用于提供基于Tomcat的数字图书馆的Web端用户的可视化操作界面,支持读写功能;
3)应用服务器,用于提供基于写队列的数字图书馆的PC端用户实现写功能;
4)混合结构中的核心控制模块,用于在云存储服务器和应用服务器之间提供一个交互的桥梁,从而实现对混合结构中的HBase和MySQL进行控制;
5)混合结构中的HBase部分,即建立在HDFS基础之上的列数据库;
6)混合结构中的HDFS部分,具体包括NameNode和DataNode;
7)混合结构中的MySQL部分,具体包括用户元信息和文件元信息。
如图2,所述的基于混合结构的数字图书馆云存储系统的结构,包括五个功能模块:
1)CSSDL_HS登录模块:提供CSSDL_HS的新用户注册、注册用户登录和CSSDL_HS的用户注销,用户按要求填入用户名、密码,进行登陆验证;如果用户信息验证成功,则可以登陆系统;否则进入等待状态,等待用户重现输入;该模块通过数字图书馆的用户来进行展现;
2)CSSDL_HS用户管理模块:提供查看和修改CSSDL_HS用户信息,依次通过数字图书馆的用户、数字图书馆的PC端用户、应用服务器、混合结构中的MySQL部分,并最终在混合结构中的MySQL部分存储用户的元信息;
3)CSSDL_HS文件管理模块:提供CSSDL_HS文件的智能预处理、上传文件、下载文件、重命名文件和删除文件;CSSDL_HS文件管理模块是CSSDL_HS中的一个核心模块,它首先分别经过数字图书馆的PC端用户和数字图书馆的Web端用户把信息分别传递给权云存储服务器和应用服务器,接着经过混合结构中的核心控制模块,实现云存储服务器和应用服务器之间的信息交互,其中数字图书馆的数据文件由混合结构中的HBase完成分布式文件存储,而数字图书馆的文件元信息由混合结构中的MySQL完成集中式存储;
上述CSSDL_HS文件管理模块是基于Hadoop技术来实现的,以HDFS系统作为后台云存储框架。但是HDFS的架构是基于一组特定的结点构建的,文件被分块(大小和数量在由CSSDL_HS用户在创建文件时决定)复制到多个DataNode中。数字图书馆用户通过NameNode控制所有文件操作,同时NameNode负责将文件分块并分配到各个DataNode;而具体的数据存储工作(即存储划分好的各个分块)则由DataNode负责。虽然这种架构简化了HDFS的整体结构,但由于所有文件不论大小均占用一个块存储,使得系统所能处理的文件数量受到NameNode(负责存储文件元数据)的内存容量的限制,从而导致小文件存储效率较低,以至于目前的硬件能力无法满足需求。
因此,本发明在实现传统数字图书馆云存储系统的功能的基础上增加了一个判断上传文件的大小的智能文件预处理模块,若小于阈值则交给智能文件预处理模块进行预处理。若大于或者等于阈值直接上传HDFS系统。智能文件预处理模块将多个小文件合并成大文件并建立索引,以便进行快速存取和访问。CSSDL_HS文件管理模块中的智能预处理模块,它可以根据用户设定的阈值智能地对文件进行预处理,本发明中的阈值1设定为 16MB,阈值2设定为64MB,如图3所示,具体包括:
(1)PC端用户上传文件;
(2)文件类型判断,当上传文件大于或者等于阈值2,直接送入HDFS处理;
(3)当上传文件小于阈值2并且大于或者等于阈值1,先送入HBASE,再送入HDFS处理;
(4)当上传文件小于阈值1时,送入小文件合并队列。当该队列中文件大小之和大于阈值2时,采用MapFile技术进行文件合并,然后将合并之后的大文件送入HDFS处理;否则返回小文件合并队列。
4)CSSDL_HS文件夹管理模块:提供CSSDL_HS的新建文件夹、重命名文件夹和删除文件夹;当用户注册系统时,CSSDL_HS为该用户新建一个文件夹,作为该用户的根目录,之后用户所有的文件或文件夹操作(新建、重命名和删除),都在该根目录下进行;通过数字图书馆的用户,完成MySQL的操作;
5)CSSDL_HS服务器管理模块:用于提供查看CSSDL_HS服务器信息,依次通过数字图书馆的用户、数字图书馆的PC端用户,把信息分别传递给云存储服务器,接着通过调用Hadoop的JMX接口,实时获取HDFS服务器运行参数(使用JMX的Rest形式),这些参数经加工汉化后,显示到网页上供CSSDL_HS管理员进行监控和系统维护。
如图4,描述了图2所述的各个功能之间相关的关系。
图4还说明了CSSDL_HS的管理员界面和普通用户界面的区别,CSSDL_HS管理员可以通过管理员界面进行所有操作:服务器管理、用户管理、用户修改信息、文件夹管理和文件管理的操作;而CSSDL_HS普通用户仅可以进行用户修改信息、文件夹管理和文件管理的操作。
图4还说明了所述的CSSDL_HS文件管理模块的具体实现内容,CSSDL_HS的普通用户可以进入文件管理模块查看其所有文件和文件夹信息(包括文件名、大小、创建时间等),并进行智能预处理、上传文件、重命名文件、下载文件和删除文件;而CSSDL_HS管理员除以上操作外,还可以在CSSDL_HS用户管理模块查看所有CSSDL_HS用户文件,点击用户名将进入该CSSDL_HS用户的文件管理界面。所述的上传文件,具体的实现流程如下:系统首先将文件上传至本地缓存,然后由智能文件预处理模块进行预处理,若文件大小大于或者等于阈值则直接上传至HDFS系统;若文件大小小于阈值则先将文件写入合并队列,当队列中文件总容量到达阈值时再打包上传至HDFS系统;最后删除本地缓存文件。所述的文件重命名是指CSSDL_HS用户可以在系统中对文件进行重命名。
图4所述的CSSDL_HS文件夹管理模块,具体的实现流程如下:CSSDL_HS新用户注册后系统会自动新建一个根目录并记录其ID,CSSDL_HS用户的所有文件操作(包括新建、重命名以及删除文件夹)都将在该根目录下进行。当CSSDL_HS用户删除文件夹时,系统会在MySQL数据库中遍历所有属于该文件夹的文件和文件夹并标记删除。
图4所述的CSSDL_HS服务器管理模块,模块具体的内容是:用于实时获取HDFS服务器运行参数(使用JMX的Rest形式),这些参数经加工汉化后,显示到网页上供CSSDL_HS管理员进行监控和系统维护。
如图5,所述的CSSDL_HS登录模块,该模块的工作流程如图5所示,首次使用系统的用户填入必需的个人信息后即可注册成为CSSDL_HS普通用户,注册后须等待CSSDL_HS管理员审核信息,否则无法登录。已注册的CSSDL_HS用户输入用户名和密码,待登录模块验证成功后则可以登录系统。否则需重新输入信息。
如图6,所述的CSSDL_HS中的下载文件模块,具体实施方式如下:系统首先会在本地缓存查找该文件是否存在。如果文件存在则直接返回缓存中的文件。否则系统将从HDFS服务器下载该文件至本地缓存,再返回给CSSDL_HS用户。
如图7,所述的CSSDL_HS中的删除文件模块,具体实施方式如下:CSSDL_HS用户删除文件时,系统会在MySQL数据库中标记该文件已被删除,并由图3所述的CSSDL_HS智能文件预处理模块进行预处理,若文件大小大于或者等于阈值则直接在HDFS系统中删除该文件。若文件大小小于阈值则暂不处理,待系统再次启动时后台清理程序会定期清理已经被CSSDL_HS用户删除的小文件。
下面我们以南京图书馆为例,进一步说明本专利所述的基于混合结构的数字图书馆云存储方案的具体实施方式。
作为江苏省省级公共图书馆,南京图书馆馆藏数字资源目前包括110万种电子图书、46个商业数据库以及自建特色数字资源共100TB。随着古籍保护和民国文献全文数字化、自建特色数据库和自主版权视频资源的数字化,南京图书馆的数字资源呈现爆发式增涨。
一般云平台的资源管理方法可以解决图书馆传统存储在容量扩展方面的弊病。但是,由于数字图书馆中文件的类型包含当前所有的数字类型;且文件的大小,从几个字节的小文件到几百GB大小的大文件不等。上述文件类型和文件大小方面的特殊性导致一般云平台的资源管理方法不能高效运行。为此,我们根据所述的基于混合结构的数字图书馆云存储方案,进行了相应的原型系统开发和实现。测试结果表明:本专利所述的混合结构是可行和有效的;基于本专利所述的这种混合结构,本专利所述的五个功能模块和智能文件预 处理模块是可以实现的。原型系统的具体测试环境如下:
①对应图1中的NameNode为1#电脑,其配置如表1
表1 1#电脑的配置 
支撑环境 具体配置
CPU I7
内存 8G
硬盘 1T
操作系统版本 CentOS6.4
JDK版本 JDK7
②对应图1中的DataNode为2台电脑(2#电脑和3#电脑),其中2#电脑的配置同表1,3#电脑的配置如表2。
表2 3#电脑的配置 
项目 具体配置
CPU 1颗Xeon3600双核
内存 4G
硬盘 1T
操作系统版本 CentOS6.4
JDK版本 JDK7
基于本专利所述的方案,我们实现了南京图书馆资源云存储系统,其中所述的CSSDL_HS文件管理模块的具体实现的屏幕拷贝,如图8所示。

Claims (2)

1.一种基于混合结构的数字图书馆云存储系统,其特征是:针对数字图书馆中存在的多种不同类型和不同大小的文件,为数字图书馆文件的分布式存储设计了基于Hadoop技术的混合结构,该混合结构同时支持HBase数据库技术和传统关系数据库SQL Server技术,所述混合结构包括以下部分:
1)数字图书馆的用户,该用户包括了支持读写功能的数字图书馆的Web端用户和支持写功能的数字图书馆的PC端用户;
2)云存储服务器,用于提供基于Tomcat的数字图书馆的Web端用户的可视化操作界面,支持读写功能;
3)应用服务器,用于提供基于写队列的数字图书馆的PC端用户实现写功能;
4)混合结构中的核心控制模块,用于在云存储服务器和应用服务器之间提供一个信息交互的桥梁,从而实现对混合结构中的HBase和MySQL进行控制;
5)混合结构中的HBase部分,是建立在HDFS基础之上的列数据库;
6)混合结构中的HDFS部分,具体包括NameNode和DataNode;
7)混合结构中的MySQL部分,具体包括用户元信息和文件元信息;
基于上述混合结构的数字图书馆云存储系统,利用Hadoop技术,以HDFS集群作为后台云存储框架,构造了五个模块:
(1)CSSDL_HS登录模块:提供CSSDL_HS的新用户注册、注册用户登录和CSSDL_HS的用户注销,用户按要求填入用户名、密码,进行登陆验证;如果用户信息验证成功,则可以登陆系统;否则进入等待状态,等待用户重现输入;该模块通过数字图书馆的用户来进行展现;
(2)CSSDL_HS用户管理模块:提供查看和修改CSSDL_HS用户信息,依次通过数字图书馆的用户、数字图书馆的PC端用户、应用服务器、混合结构中的MySQL部分,并最终在混合结构中的MySQL部分存储用户的元信息;
(3)CSSDL_HS文件管理模块:提供CSSDL_HS文件的智能预处理、上传文件、下载文件、重命名文件和删除文件;CSSDL_HS文件管理模块是CSSDL_HS中的一个核心模块,它首先分别经过数字图书馆的PC端用户和数字图书馆的Web端用户把信息分别传递给权云存储服务器和应用服务器,接着经过混合结构中的核心控制模块,实现云存储服务器和应用服务器之间的信息交互,其中数字图书馆的数据文件由混合结构中的HBase完成分布式文件存储,而数字图书馆的文件元信息由混合结构中的MySQL完成集中式存储;
(4)CSSDL_HS文件夹管理模块:提供CSSDL_HS的新建文件夹、重命名文件夹和删除文件夹;当用户注册系统时,CSSDL_HS为该用户新建一个文件夹,作为该用户的根目录,之后用户所有的文件或文件夹操作包括新建、重命名和删除,都在该根目录下进行;通过数字图书馆的用户,完成MySQL的操作;
(5)CSSDL_HS服务器管理模块:用于提供查看CSSDL_HS服务器信息,依次通过数字图书馆的用户、数字图书馆的PC端用户,把信息分别传递给云存储服务器,接着通过调用Hadoop的JMX接口,实时获取HDFS服务器运行参数,这些使用JMX的Rest形式的参数经加工汉化后,显示到网页上供CSSDL_HS管理员进行监控和系统维护。
2.根据权利要求1所述的所述的基于混合结构的数字图书馆云存储系统,其特征是:CSSDL_HS文件管理模块中所述的CSSDL_HS文件的智能预处理,是通过增设的一个判断上传文件的大小的智能文件预处理模块实现的,根据用户设定的阈值智能地对文件进行预处理,设定两个阈值,阈值1为16MB,阈值2为64MB,智能文件预处理模块将多个小文件合并成大文件并建立索引,以便进行快速存取和访问,具体如下:
(1)PC端用户上传文件;
(2)文件类型判断,当上传文件大于或者等于阈值2,直接送入HDFS处理;
(3)当上传文件小于阈值2并且大于或者等于阈值1,先送入HBASE,再送入HDFS处理;
(4)当上传文件小于阈值1时,送入小文件合并队列,当该队列中文件大小之和大于阈值2时,采用MapFile技术进行文件合并,然后将合并之后的大文件送入HDFS处理;否则返回小文件合并队列。
CN201410539761.4A 2014-10-13 2014-10-13 一种基于混合结构的数字图书馆云存储系统 Active CN104462185B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410539761.4A CN104462185B (zh) 2014-10-13 2014-10-13 一种基于混合结构的数字图书馆云存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410539761.4A CN104462185B (zh) 2014-10-13 2014-10-13 一种基于混合结构的数字图书馆云存储系统

Publications (2)

Publication Number Publication Date
CN104462185A true CN104462185A (zh) 2015-03-25
CN104462185B CN104462185B (zh) 2017-08-11

Family

ID=52908221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410539761.4A Active CN104462185B (zh) 2014-10-13 2014-10-13 一种基于混合结构的数字图书馆云存储系统

Country Status (1)

Country Link
CN (1) CN104462185B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104780220A (zh) * 2015-04-28 2015-07-15 大连商品交易所 面向证券期货行业大型分布式系统的智能监控系统及监控方法
CN105069091A (zh) * 2015-08-05 2015-11-18 北京思特奇信息技术股份有限公司 一种基于hbase的虚拟文件系统及其实现方法
CN106776717A (zh) * 2016-11-16 2017-05-31 北京集奥聚合科技有限公司 一种基于HBase的接口构造方法及系统
CN107197050A (zh) * 2017-07-27 2017-09-22 郑州云海信息技术有限公司 一种分布式存储系统中文件写入的方法及系统
WO2017174013A1 (zh) * 2016-04-06 2017-10-12 中兴通讯股份有限公司 数据存储管理方法、装置及数据存储系统
CN107423413A (zh) * 2017-07-28 2017-12-01 安徽华博胜讯信息科技股份有限公司 基于云计算的数字图书馆管理服务系统
CN107800808A (zh) * 2017-11-15 2018-03-13 广东奥飞数据科技股份有限公司 一种基于Hadoop架构的数据存储系统
CN108460054A (zh) * 2017-02-22 2018-08-28 北京京东尚科信息技术有限公司 一种改进云存储系统性能的方法、系统和装置
CN108763432A (zh) * 2018-05-24 2018-11-06 思派(北京)网络科技有限公司 一种应用于互联网医疗的跨平台数据整合方法
CN110647497A (zh) * 2019-07-19 2020-01-03 广东工业大学 一种基于hdfs的高性能文件存储与管理系统
CN112084190A (zh) * 2020-08-31 2020-12-15 武汉光庭信息技术股份有限公司 一种基于大数据的采集数据实时存储与管理系统和方法
CN115269524A (zh) * 2022-09-26 2022-11-01 创云融达信息技术(天津)股份有限公司 一种端到端小文件归集传输和存储的一体化系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1393242A4 (en) * 2001-05-18 2007-06-06 Leonard S Schultz METHOD AND DEVICE FOR PICTURE IDENTIFICATION AND DICING
CN102054235A (zh) * 2011-01-04 2011-05-11 清华大学 基于数字资源服务构件模型的机构仓储搭建方法和装置
CN103077252A (zh) * 2013-02-05 2013-05-01 上海金鑫计算机系统工程有限公司 图书馆读者业务的即时集成查询接口的制作与应用方法
CN103136606A (zh) * 2011-11-22 2013-06-05 上海博腾信息科技有限公司 一种基于二维条码的图书借阅管理系统及方法
CN103716372A (zh) * 2013-11-22 2014-04-09 浙江大学 一种数字图书馆即服务的云计算平台构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1393242A4 (en) * 2001-05-18 2007-06-06 Leonard S Schultz METHOD AND DEVICE FOR PICTURE IDENTIFICATION AND DICING
CN102054235A (zh) * 2011-01-04 2011-05-11 清华大学 基于数字资源服务构件模型的机构仓储搭建方法和装置
CN103136606A (zh) * 2011-11-22 2013-06-05 上海博腾信息科技有限公司 一种基于二维条码的图书借阅管理系统及方法
CN103077252A (zh) * 2013-02-05 2013-05-01 上海金鑫计算机系统工程有限公司 图书馆读者业务的即时集成查询接口的制作与应用方法
CN103716372A (zh) * 2013-11-22 2014-04-09 浙江大学 一种数字图书馆即服务的云计算平台构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
马晓亭等: "数字图书馆云存储应用系统研究与实现", 《图书馆理论与实践》 *
魏星德: "数字图书馆资源的云存储模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104780220B (zh) * 2015-04-28 2017-12-29 大连商品交易所 面向证券期货行业大型分布式系统的智能监控系统及监控方法
CN104780220A (zh) * 2015-04-28 2015-07-15 大连商品交易所 面向证券期货行业大型分布式系统的智能监控系统及监控方法
CN105069091B (zh) * 2015-08-05 2018-09-11 北京思特奇信息技术股份有限公司 一种基于hbase的虚拟文件系统及其实现方法
CN105069091A (zh) * 2015-08-05 2015-11-18 北京思特奇信息技术股份有限公司 一种基于hbase的虚拟文件系统及其实现方法
WO2017174013A1 (zh) * 2016-04-06 2017-10-12 中兴通讯股份有限公司 数据存储管理方法、装置及数据存储系统
CN106776717A (zh) * 2016-11-16 2017-05-31 北京集奥聚合科技有限公司 一种基于HBase的接口构造方法及系统
CN108460054A (zh) * 2017-02-22 2018-08-28 北京京东尚科信息技术有限公司 一种改进云存储系统性能的方法、系统和装置
CN107197050A (zh) * 2017-07-27 2017-09-22 郑州云海信息技术有限公司 一种分布式存储系统中文件写入的方法及系统
CN107423413A (zh) * 2017-07-28 2017-12-01 安徽华博胜讯信息科技股份有限公司 基于云计算的数字图书馆管理服务系统
CN107800808A (zh) * 2017-11-15 2018-03-13 广东奥飞数据科技股份有限公司 一种基于Hadoop架构的数据存储系统
CN108763432A (zh) * 2018-05-24 2018-11-06 思派(北京)网络科技有限公司 一种应用于互联网医疗的跨平台数据整合方法
CN108763432B (zh) * 2018-05-24 2021-05-25 思派(北京)网络科技有限公司 一种应用于互联网医疗的跨平台数据整合方法
CN110647497A (zh) * 2019-07-19 2020-01-03 广东工业大学 一种基于hdfs的高性能文件存储与管理系统
CN112084190A (zh) * 2020-08-31 2020-12-15 武汉光庭信息技术股份有限公司 一种基于大数据的采集数据实时存储与管理系统和方法
CN115269524A (zh) * 2022-09-26 2022-11-01 创云融达信息技术(天津)股份有限公司 一种端到端小文件归集传输和存储的一体化系统及方法

Also Published As

Publication number Publication date
CN104462185B (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN104462185A (zh) 一种基于混合结构的数字图书馆云存储系统
US11816126B2 (en) Large scale unstructured database systems
JP7309005B2 (ja) データベーステナントマイグレーションのシステム及び方法
CN106611046B (zh) 一种基于大数据技术的空间数据存储处理中间件系统
CN106708993B (zh) 基于大数据技术的空间数据存储处理中间件框架实现方法
US8543596B1 (en) Assigning blocks of a file of a distributed file system to processing units of a parallel database management system
US10509696B1 (en) Error detection and mitigation during data migrations
CN104516967A (zh) 一种电力系统海量数据管理系统及其使用方法
CN116166191A (zh) 湖仓一体系统
US10387384B1 (en) Method and system for semantic metadata compression in a two-tier storage system using copy-on-write
Zhao et al. Toward efficient and flexible metadata indexing of big data systems
Ye Research on the key technology of big data service in university library
CN102360382B (zh) 一种高速对象并行存储系统目录复制方法
Barkhordari et al. Atrak: a MapReduce-based data warehouse for big data
CN105022779A (zh) 一种利用Filesystem API实现HDFS文件存取方法
Pan et al. An open sharing pattern design of massive power big data
Ma Research and implementation of distributed storage system based on big data
CN110569310A (zh) 一种云计算环境下的关系大数据的管理方法
CN111913926A (zh) 一种基于Hadoop的云平台存储方法
Singh NoSQL: A new horizon in big data
US12007983B2 (en) Optimization of application of transactional information for a hybrid transactional and analytical processing architecture
Tomášek Design and implementation of Archival Storage component of OAIS Reference Model
US20240004860A1 (en) Handshake protocol for efficient exchange of transactional information for a hybrid transactional and analytical processing architecture
US20240004897A1 (en) Hybrid transactional and analytical processing architecture for optimization of real-time analytical querying
Johnson et al. Big data processing using Hadoop MapReduce programming model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant