CN106682227A - 基于分布式文件系统的日志数据存储系统及读写方法 - Google Patents

基于分布式文件系统的日志数据存储系统及读写方法 Download PDF

Info

Publication number
CN106682227A
CN106682227A CN201710010136.4A CN201710010136A CN106682227A CN 106682227 A CN106682227 A CN 106682227A CN 201710010136 A CN201710010136 A CN 201710010136A CN 106682227 A CN106682227 A CN 106682227A
Authority
CN
China
Prior art keywords
daily record
file system
record data
information
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710010136.4A
Other languages
English (en)
Inventor
赵闪闪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710010136.4A priority Critical patent/CN106682227A/zh
Publication of CN106682227A publication Critical patent/CN106682227A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于分布式文件系统的日志数据存储系统及读写方法,该方案包括主节点和工作节点,主节点用于存储着文件系统的相关配置信息,管理整个文件系统的元数据,还管理着工作节点的活动信息以及活动数据块向稳定数据块的迁移信息。工作节点用于保存日志数据;客户端只需要根据主节点返回的元数据中文件的信息,直接和数据所在的工作节点进行通信而不必通过主节点。该方案能够方便进行日志存储和处理,支持多客户端追加和读写并发的情况。

Description

基于分布式文件系统的日志数据存储系统及读写方法
技术领域
本发明涉及的是日志的存储和处理,具体是一种基于分布式文件系统的日志数据存储系统及读写方法。
背景技术
在现有技术中,公知的技术是随着互联网的发展,网络内容爆炸性的增加,互联网中大量的节点在工作中产生的日志、生产系统中设备的监控日志、网站上用户的访问日志、用户上网时对网页的点击而产生的日志等,都因为巨大的数据量对现有的存储和计算体系提出挑战。
分布式文件系统(HDFS)是一个高度容错性的系统,易扩展并可以提供高吞吐量的数据访问,非常适合大规模数据集上的应用,这些特点使其成为在商业上广泛应用的分布式存储系统。目前业界流行的分布式文件系统HDFS对于大量并发的写入并不支持。如果想要在Hadoop平台上对日志数据进行分析,就需要首先在其他存储系统中把日志信息记录下来,整合后保存在HDFS中,这种模式増加了整个系统的复杂度,且不能保证日志分析的实时性。此专利就是通过对原有的HDFS技术进行改进,使其达到日志存储系统的要求。
发明内容
本发明的目的就是针对现有技术所存在的不足,而提供一种基于分布式文件系统的日志数据存储系统及读写方法的技术方案,该方案能够方便进行日志存储和处理,支持多客户端追加和读写并发的情况。
本方案是通过如下技术措施来实现的:一种基于分布式文件系统的日志数据存储系统,包括主节点和工作节点,主节点,用于存储着文件系统的相关配置信息,管理整个文件系统的元数据,还管理着工作节点的活动信息以及活动数据块向稳定数据块的迁移信息;工作节点,用于保存日志数据;元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。
所述的主节点通过心跳信息发送和接收工作节点的日志数据信息。
一种基于分布式文件系统的日志数据读写方法,包括如下步骤:
1)客户端发起查询日志文件请求;
2)主节点接收到客户端发出查询日志文件的请求后,将该日志文件的元数据发送给客户端,
3)客户端根据主节点返回的元数据中日志文件的信息,直接和日志文件数据所在的工作节点进行通信,实现日志数据的读写。
所述的元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。
所述的工作节点中的日志文件保存在数据块中,且每个数据块中有多个备份,客户端进行访问时优先选择最近的数据块进行访问。
所述的步骤3)中对日志数据的读写包括日志数据的并发追加,日志数据的同时写入及处理,日志数据写入条目顺序和读取条目顺序一致。
本方案的有益效果可根据对上述方案的叙述得知,由于在该方案中包括一个主节点和多个工作节点,支持多个客户端同时发起请求,主节点中存储着文件系统的相关配置信息,工作节点中保存数据。HDFS中的文件以固定大小的数据块的形式保存,新创建的数据块会在活动队列中存在。工作节点管理整个文件系统的元数据,元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。除此之外主节点还管理着工作节点的活动信息以及活动(active)数据块向稳定(stable)数据块的迁移信息等等。主节点通过心跳信息发送和接收工作节点的信息。客户端与主节点通信获取文件的元数据后,就可跳开主节点,与工作节点直接进行数据操作。由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
图1为本发明具体实施方式的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过一个具体实施方式,并结合其附图,对本方案进行阐述。
通过附图可以看出,本方案的一种基于分布式文件系统的日志数据存储系统,包括主节点NameNode和多个工作节点DataNode,主节点NameNode,用于存储着文件系统的相关配置信息,管理整个文件系统的元数据,还管理着工作节点DataNode的活动信息以及活动数据块(active数据)向稳定数据块(stable数据)的迁移信息。工作节点DataNode,用于保存日志数据;元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。HDFS中的文件以固定大小的数据块的形式保存,新创建的数据块会在active队列中存在。
所述的主节点NameNode通过心跳信息发送和接收工作节点的日志数据信息。
一种基于上述系统的日志数据读写方法,包括如下步骤:
1)客户端发起查询日志文件请求;
2)主节点NameNode接收到客户端发出查询日志文件的请求后,将该日志文件的元数据发送给客户端,所述的元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息;
3)客户端根据主节点返回的元数据中日志文件的信息,直接和日志文件数据所在的工作节点DataNode进行通信,实现日志数据的读写。
所述的工作节点DataNode中的日志文件保存在数据块中,且每个数据块中有多个备份,客户端进行访问时优先选择最近的数据块进行访问。
所述的步骤3)中对日志数据的读写包括日志数据的并发追加,日志数据的同时写入及处理,日志数据写入条目顺序和读取条目顺序一致。
本发明并不仅限于上述具体实施方式,本领域普通技术人员在本发明的实质范围内做出的变化、改型、添加或替换,也应属于本发明的保护范围。

Claims (6)

1.一种基于分布式文件系统的日志数据存储系统,其特征是:包括主节点和工作节点,
主节点,用于存储着文件系统的相关配置信息,管理整个文件系统的元数据,还管理着工作节点的活动信息以及活动数据块向稳定数据块的迁移信息;
工作节点,用于保存日志数据;
元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。
2.根据权利要求1所述的基于分布式文件系统的日志数据存储系统,其特征是:所述的主节点通过心跳信息发送和接收工作节点的日志数据信息。
3.一种基于分布式文件系统的日志数据读写方法,其特征在于包括如下步骤:
1)客户端发起查询日志文件请求;
2)主节点接收到客户端发出查询日志文件的请求后,将该日志文件的元数据发送给客户端,
3)客户端根据主节点返回的元数据中日志文件的信息,直接和日志文件数据所在的工作节点进行通信,实现日志数据的读写。
4. 根据权利要求3所述的基于分布式文件系统的日志数据读写方法,其特征是: 所述的元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。
5.根据权利要求3所述的基于分布式文件系统的日志数据读写方法,其特征是:所述的工作节点中的日志文件保存在数据块中,且每个数据块中有多个备份,客户端进行访问时优先选择最近的数据块进行访问。
6.根据权利要求3或5所述的基于分布式文件系统的日志数据读写方法,其特征是:所述的步骤3)中对日志数据的读写包括日志数据的并发追加,日志数据的同时写入及处理,日志数据写入条目顺序和读取条目顺序一致。
CN201710010136.4A 2017-01-06 2017-01-06 基于分布式文件系统的日志数据存储系统及读写方法 Pending CN106682227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710010136.4A CN106682227A (zh) 2017-01-06 2017-01-06 基于分布式文件系统的日志数据存储系统及读写方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710010136.4A CN106682227A (zh) 2017-01-06 2017-01-06 基于分布式文件系统的日志数据存储系统及读写方法

Publications (1)

Publication Number Publication Date
CN106682227A true CN106682227A (zh) 2017-05-17

Family

ID=58849473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710010136.4A Pending CN106682227A (zh) 2017-01-06 2017-01-06 基于分布式文件系统的日志数据存储系统及读写方法

Country Status (1)

Country Link
CN (1) CN106682227A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491551A (zh) * 2017-08-30 2017-12-19 郑州云海信息技术有限公司 一种分布式文件系统实现客户端访问的方法及装置
CN109857588A (zh) * 2018-12-11 2019-06-07 浪潮(北京)电子信息产业有限公司 基于多控存储系统的精简卷元数据处理方法、装置及系统
CN111208946A (zh) * 2020-01-06 2020-05-29 北京同有飞骥科技股份有限公司 支持kb级别小文件并发io的数据持久化方法及系统
CN111400100A (zh) * 2020-03-16 2020-07-10 北京伟杰东博信息科技有限公司 一种分布式软件备份的管理方法及其系统
CN112131191A (zh) * 2020-09-28 2020-12-25 浪潮商用机器有限公司 一种namenode文件系统的管理方法、装置及设备
CN113032447A (zh) * 2020-12-31 2021-06-25 一汽资本控股有限公司 一种数据分布式存储的方法以及分布式数据存储系统
CN114327283A (zh) * 2021-12-30 2022-04-12 西北工业大学 分布式存储系统内的数据迁移方法及分布式存储系统
CN115168367A (zh) * 2022-09-07 2022-10-11 太极计算机股份有限公司 一种大数据的数据配置方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901275A (zh) * 2010-08-23 2010-12-01 华中科技大学 一种分布式存储系统及其方法
CN102281312A (zh) * 2010-06-12 2011-12-14 深圳市腾讯计算机系统有限公司 一种数据加载方法、系统和数据处理方法、系统
CN102882927A (zh) * 2012-08-29 2013-01-16 华南理工大学 一种云存储数据同步框架及其实现方法
CN104978336A (zh) * 2014-04-08 2015-10-14 云南电力试验研究院(集团)有限公司电力研究院 基于Hadoop分布式计算平台的非结构化数据存储系统
WO2016095149A1 (zh) * 2014-12-18 2016-06-23 华为技术有限公司 一种数据压缩存储方法、装置,及分布式文件系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102281312A (zh) * 2010-06-12 2011-12-14 深圳市腾讯计算机系统有限公司 一种数据加载方法、系统和数据处理方法、系统
CN101901275A (zh) * 2010-08-23 2010-12-01 华中科技大学 一种分布式存储系统及其方法
CN102882927A (zh) * 2012-08-29 2013-01-16 华南理工大学 一种云存储数据同步框架及其实现方法
CN104978336A (zh) * 2014-04-08 2015-10-14 云南电力试验研究院(集团)有限公司电力研究院 基于Hadoop分布式计算平台的非结构化数据存储系统
WO2016095149A1 (zh) * 2014-12-18 2016-06-23 华为技术有限公司 一种数据压缩存储方法、装置,及分布式文件系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491551B (zh) * 2017-08-30 2021-04-06 郑州云海信息技术有限公司 一种分布式文件系统实现客户端访问的方法及装置
CN107491551A (zh) * 2017-08-30 2017-12-19 郑州云海信息技术有限公司 一种分布式文件系统实现客户端访问的方法及装置
CN109857588A (zh) * 2018-12-11 2019-06-07 浪潮(北京)电子信息产业有限公司 基于多控存储系统的精简卷元数据处理方法、装置及系统
CN111208946A (zh) * 2020-01-06 2020-05-29 北京同有飞骥科技股份有限公司 支持kb级别小文件并发io的数据持久化方法及系统
CN111400100A (zh) * 2020-03-16 2020-07-10 北京伟杰东博信息科技有限公司 一种分布式软件备份的管理方法及其系统
CN112131191B (zh) * 2020-09-28 2023-05-26 浪潮商用机器有限公司 一种namenode文件系统的管理方法、装置及设备
CN112131191A (zh) * 2020-09-28 2020-12-25 浪潮商用机器有限公司 一种namenode文件系统的管理方法、装置及设备
CN113032447A (zh) * 2020-12-31 2021-06-25 一汽资本控股有限公司 一种数据分布式存储的方法以及分布式数据存储系统
CN114327283A (zh) * 2021-12-30 2022-04-12 西北工业大学 分布式存储系统内的数据迁移方法及分布式存储系统
CN114327283B (zh) * 2021-12-30 2024-03-12 西北工业大学 分布式存储系统内的数据迁移方法及分布式存储系统
CN115168367A (zh) * 2022-09-07 2022-10-11 太极计算机股份有限公司 一种大数据的数据配置方法和系统
CN115168367B (zh) * 2022-09-07 2022-11-25 太极计算机股份有限公司 一种大数据的数据配置方法和系统
WO2024051027A1 (zh) * 2022-09-07 2024-03-14 中电科大数据研究院有限公司 一种大数据的数据配置方法和系统

Similar Documents

Publication Publication Date Title
CN106682227A (zh) 基于分布式文件系统的日志数据存储系统及读写方法
US10831779B2 (en) Seamless data migration across databases
KR101672901B1 (ko) 분산 파일 시스템에서 소형 파일에 대한 접근성 향상을 위한 캐시 관리 시스템
JP6697392B2 (ja) 半構造データスキーマのトランスペアレントディスカバリ
CN103714123B (zh) 企业云存储分块对象重复数据删除和重组版本控制方法
US9372765B2 (en) System and method for recovering system status consistently to designed recovering time point in distributed database
CN103530387A (zh) 一种hdfs针对小文件的改进方法
CN104657500A (zh) 一种基于key-value键值对的分布式存储方法
CN105335513A (zh) 一种分布式文件系统及文件存储方法
CN107832423B (zh) 一种用于分布式文件系统的文件读写方法
US20130132439A1 (en) Organizing versioning according to permissions
CN102662992A (zh) 一种海量小文件的存储、访问方法及装置
CN103166785A (zh) 基于Hadoop的分布式日志分析系统
CN103092927A (zh) 一种分布式环境下的文件快速读写方法
CN110008197A (zh) 一种数据处理方法、系统及电子设备和存储介质
CN104281673A (zh) 一种数据库的缓存构建系统及对应的构建方法
CN104052824A (zh) 分布式缓存方法及系统
CN109254958B (zh) 分布式数据读写方法、设备及系统
US20170235781A1 (en) Method, server and computer program stored in computer readable medium for managing log data in database
Ahad et al. Comparing and analyzing the characteristics of hadoop, cassandra and quantcast file systems for handling big data
CN105574008A (zh) 应用于分布式文件系统的任务调度方法和设备
JP2015045996A (ja) 分散クエリ処理装置、処理方法及び処理プログラム
Gupta et al. An extended HDFS with an AVATAR NODE to handle both small files and to eliminate single point of failure
US20150213068A1 (en) Information processing apparatus and storage system
US10534756B1 (en) Systems and methods for cross-referencing electronic documents on distributed storage servers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170517