CN106682227A - 基于分布式文件系统的日志数据存储系统及读写方法 - Google Patents
基于分布式文件系统的日志数据存储系统及读写方法 Download PDFInfo
- Publication number
- CN106682227A CN106682227A CN201710010136.4A CN201710010136A CN106682227A CN 106682227 A CN106682227 A CN 106682227A CN 201710010136 A CN201710010136 A CN 201710010136A CN 106682227 A CN106682227 A CN 106682227A
- Authority
- CN
- China
- Prior art keywords
- daily record
- file system
- record data
- information
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/119—Details of migration of file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
- G06F16/1815—Journaling file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于分布式文件系统的日志数据存储系统及读写方法,该方案包括主节点和工作节点,主节点用于存储着文件系统的相关配置信息,管理整个文件系统的元数据,还管理着工作节点的活动信息以及活动数据块向稳定数据块的迁移信息。工作节点用于保存日志数据;客户端只需要根据主节点返回的元数据中文件的信息,直接和数据所在的工作节点进行通信而不必通过主节点。该方案能够方便进行日志存储和处理,支持多客户端追加和读写并发的情况。
Description
技术领域
本发明涉及的是日志的存储和处理,具体是一种基于分布式文件系统的日志数据存储系统及读写方法。
背景技术
在现有技术中,公知的技术是随着互联网的发展,网络内容爆炸性的增加,互联网中大量的节点在工作中产生的日志、生产系统中设备的监控日志、网站上用户的访问日志、用户上网时对网页的点击而产生的日志等,都因为巨大的数据量对现有的存储和计算体系提出挑战。
分布式文件系统(HDFS)是一个高度容错性的系统,易扩展并可以提供高吞吐量的数据访问,非常适合大规模数据集上的应用,这些特点使其成为在商业上广泛应用的分布式存储系统。目前业界流行的分布式文件系统HDFS对于大量并发的写入并不支持。如果想要在Hadoop平台上对日志数据进行分析,就需要首先在其他存储系统中把日志信息记录下来,整合后保存在HDFS中,这种模式増加了整个系统的复杂度,且不能保证日志分析的实时性。此专利就是通过对原有的HDFS技术进行改进,使其达到日志存储系统的要求。
发明内容
本发明的目的就是针对现有技术所存在的不足,而提供一种基于分布式文件系统的日志数据存储系统及读写方法的技术方案,该方案能够方便进行日志存储和处理,支持多客户端追加和读写并发的情况。
本方案是通过如下技术措施来实现的:一种基于分布式文件系统的日志数据存储系统,包括主节点和工作节点,主节点,用于存储着文件系统的相关配置信息,管理整个文件系统的元数据,还管理着工作节点的活动信息以及活动数据块向稳定数据块的迁移信息;工作节点,用于保存日志数据;元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。
所述的主节点通过心跳信息发送和接收工作节点的日志数据信息。
一种基于分布式文件系统的日志数据读写方法,包括如下步骤:
1)客户端发起查询日志文件请求;
2)主节点接收到客户端发出查询日志文件的请求后,将该日志文件的元数据发送给客户端,
3)客户端根据主节点返回的元数据中日志文件的信息,直接和日志文件数据所在的工作节点进行通信,实现日志数据的读写。
所述的元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。
所述的工作节点中的日志文件保存在数据块中,且每个数据块中有多个备份,客户端进行访问时优先选择最近的数据块进行访问。
所述的步骤3)中对日志数据的读写包括日志数据的并发追加,日志数据的同时写入及处理,日志数据写入条目顺序和读取条目顺序一致。
本方案的有益效果可根据对上述方案的叙述得知,由于在该方案中包括一个主节点和多个工作节点,支持多个客户端同时发起请求,主节点中存储着文件系统的相关配置信息,工作节点中保存数据。HDFS中的文件以固定大小的数据块的形式保存,新创建的数据块会在活动队列中存在。工作节点管理整个文件系统的元数据,元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。除此之外主节点还管理着工作节点的活动信息以及活动(active)数据块向稳定(stable)数据块的迁移信息等等。主节点通过心跳信息发送和接收工作节点的信息。客户端与主节点通信获取文件的元数据后,就可跳开主节点,与工作节点直接进行数据操作。由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
图1为本发明具体实施方式的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过一个具体实施方式,并结合其附图,对本方案进行阐述。
通过附图可以看出,本方案的一种基于分布式文件系统的日志数据存储系统,包括主节点NameNode和多个工作节点DataNode,主节点NameNode,用于存储着文件系统的相关配置信息,管理整个文件系统的元数据,还管理着工作节点DataNode的活动信息以及活动数据块(active数据)向稳定数据块(stable数据)的迁移信息。工作节点DataNode,用于保存日志数据;元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。HDFS中的文件以固定大小的数据块的形式保存,新创建的数据块会在active队列中存在。
所述的主节点NameNode通过心跳信息发送和接收工作节点的日志数据信息。
一种基于上述系统的日志数据读写方法,包括如下步骤:
1)客户端发起查询日志文件请求;
2)主节点NameNode接收到客户端发出查询日志文件的请求后,将该日志文件的元数据发送给客户端,所述的元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息;
3)客户端根据主节点返回的元数据中日志文件的信息,直接和日志文件数据所在的工作节点DataNode进行通信,实现日志数据的读写。
所述的工作节点DataNode中的日志文件保存在数据块中,且每个数据块中有多个备份,客户端进行访问时优先选择最近的数据块进行访问。
所述的步骤3)中对日志数据的读写包括日志数据的并发追加,日志数据的同时写入及处理,日志数据写入条目顺序和读取条目顺序一致。
本发明并不仅限于上述具体实施方式,本领域普通技术人员在本发明的实质范围内做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (6)
1.一种基于分布式文件系统的日志数据存储系统,其特征是:包括主节点和工作节点,
主节点,用于存储着文件系统的相关配置信息,管理整个文件系统的元数据,还管理着工作节点的活动信息以及活动数据块向稳定数据块的迁移信息;
工作节点,用于保存日志数据;
元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。
2.根据权利要求1所述的基于分布式文件系统的日志数据存储系统,其特征是:所述的主节点通过心跳信息发送和接收工作节点的日志数据信息。
3.一种基于分布式文件系统的日志数据读写方法,其特征在于包括如下步骤:
1)客户端发起查询日志文件请求;
2)主节点接收到客户端发出查询日志文件的请求后,将该日志文件的元数据发送给客户端,
3)客户端根据主节点返回的元数据中日志文件的信息,直接和日志文件数据所在的工作节点进行通信,实现日志数据的读写。
4. 根据权利要求3所述的基于分布式文件系统的日志数据读写方法,其特征是: 所述的元数据包括:名字空间、访问控制信息、文件和工作节点的映射信息以及工作节点的位置信息。
5.根据权利要求3所述的基于分布式文件系统的日志数据读写方法,其特征是:所述的工作节点中的日志文件保存在数据块中,且每个数据块中有多个备份,客户端进行访问时优先选择最近的数据块进行访问。
6.根据权利要求3或5所述的基于分布式文件系统的日志数据读写方法,其特征是:所述的步骤3)中对日志数据的读写包括日志数据的并发追加,日志数据的同时写入及处理,日志数据写入条目顺序和读取条目顺序一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710010136.4A CN106682227A (zh) | 2017-01-06 | 2017-01-06 | 基于分布式文件系统的日志数据存储系统及读写方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710010136.4A CN106682227A (zh) | 2017-01-06 | 2017-01-06 | 基于分布式文件系统的日志数据存储系统及读写方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106682227A true CN106682227A (zh) | 2017-05-17 |
Family
ID=58849473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710010136.4A Pending CN106682227A (zh) | 2017-01-06 | 2017-01-06 | 基于分布式文件系统的日志数据存储系统及读写方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106682227A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491551A (zh) * | 2017-08-30 | 2017-12-19 | 郑州云海信息技术有限公司 | 一种分布式文件系统实现客户端访问的方法及装置 |
CN109857588A (zh) * | 2018-12-11 | 2019-06-07 | 浪潮(北京)电子信息产业有限公司 | 基于多控存储系统的精简卷元数据处理方法、装置及系统 |
CN111208946A (zh) * | 2020-01-06 | 2020-05-29 | 北京同有飞骥科技股份有限公司 | 支持kb级别小文件并发io的数据持久化方法及系统 |
CN111400100A (zh) * | 2020-03-16 | 2020-07-10 | 北京伟杰东博信息科技有限公司 | 一种分布式软件备份的管理方法及其系统 |
CN112131191A (zh) * | 2020-09-28 | 2020-12-25 | 浪潮商用机器有限公司 | 一种namenode文件系统的管理方法、装置及设备 |
CN113032447A (zh) * | 2020-12-31 | 2021-06-25 | 一汽资本控股有限公司 | 一种数据分布式存储的方法以及分布式数据存储系统 |
CN114327283A (zh) * | 2021-12-30 | 2022-04-12 | 西北工业大学 | 分布式存储系统内的数据迁移方法及分布式存储系统 |
CN115168367A (zh) * | 2022-09-07 | 2022-10-11 | 太极计算机股份有限公司 | 一种大数据的数据配置方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901275A (zh) * | 2010-08-23 | 2010-12-01 | 华中科技大学 | 一种分布式存储系统及其方法 |
CN102281312A (zh) * | 2010-06-12 | 2011-12-14 | 深圳市腾讯计算机系统有限公司 | 一种数据加载方法、系统和数据处理方法、系统 |
CN102882927A (zh) * | 2012-08-29 | 2013-01-16 | 华南理工大学 | 一种云存储数据同步框架及其实现方法 |
CN104978336A (zh) * | 2014-04-08 | 2015-10-14 | 云南电力试验研究院(集团)有限公司电力研究院 | 基于Hadoop分布式计算平台的非结构化数据存储系统 |
WO2016095149A1 (zh) * | 2014-12-18 | 2016-06-23 | 华为技术有限公司 | 一种数据压缩存储方法、装置,及分布式文件系统 |
-
2017
- 2017-01-06 CN CN201710010136.4A patent/CN106682227A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102281312A (zh) * | 2010-06-12 | 2011-12-14 | 深圳市腾讯计算机系统有限公司 | 一种数据加载方法、系统和数据处理方法、系统 |
CN101901275A (zh) * | 2010-08-23 | 2010-12-01 | 华中科技大学 | 一种分布式存储系统及其方法 |
CN102882927A (zh) * | 2012-08-29 | 2013-01-16 | 华南理工大学 | 一种云存储数据同步框架及其实现方法 |
CN104978336A (zh) * | 2014-04-08 | 2015-10-14 | 云南电力试验研究院(集团)有限公司电力研究院 | 基于Hadoop分布式计算平台的非结构化数据存储系统 |
WO2016095149A1 (zh) * | 2014-12-18 | 2016-06-23 | 华为技术有限公司 | 一种数据压缩存储方法、装置,及分布式文件系统 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491551B (zh) * | 2017-08-30 | 2021-04-06 | 郑州云海信息技术有限公司 | 一种分布式文件系统实现客户端访问的方法及装置 |
CN107491551A (zh) * | 2017-08-30 | 2017-12-19 | 郑州云海信息技术有限公司 | 一种分布式文件系统实现客户端访问的方法及装置 |
CN109857588A (zh) * | 2018-12-11 | 2019-06-07 | 浪潮(北京)电子信息产业有限公司 | 基于多控存储系统的精简卷元数据处理方法、装置及系统 |
CN111208946A (zh) * | 2020-01-06 | 2020-05-29 | 北京同有飞骥科技股份有限公司 | 支持kb级别小文件并发io的数据持久化方法及系统 |
CN111400100A (zh) * | 2020-03-16 | 2020-07-10 | 北京伟杰东博信息科技有限公司 | 一种分布式软件备份的管理方法及其系统 |
CN112131191B (zh) * | 2020-09-28 | 2023-05-26 | 浪潮商用机器有限公司 | 一种namenode文件系统的管理方法、装置及设备 |
CN112131191A (zh) * | 2020-09-28 | 2020-12-25 | 浪潮商用机器有限公司 | 一种namenode文件系统的管理方法、装置及设备 |
CN113032447A (zh) * | 2020-12-31 | 2021-06-25 | 一汽资本控股有限公司 | 一种数据分布式存储的方法以及分布式数据存储系统 |
CN114327283A (zh) * | 2021-12-30 | 2022-04-12 | 西北工业大学 | 分布式存储系统内的数据迁移方法及分布式存储系统 |
CN114327283B (zh) * | 2021-12-30 | 2024-03-12 | 西北工业大学 | 分布式存储系统内的数据迁移方法及分布式存储系统 |
CN115168367A (zh) * | 2022-09-07 | 2022-10-11 | 太极计算机股份有限公司 | 一种大数据的数据配置方法和系统 |
CN115168367B (zh) * | 2022-09-07 | 2022-11-25 | 太极计算机股份有限公司 | 一种大数据的数据配置方法和系统 |
WO2024051027A1 (zh) * | 2022-09-07 | 2024-03-14 | 中电科大数据研究院有限公司 | 一种大数据的数据配置方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106682227A (zh) | 基于分布式文件系统的日志数据存储系统及读写方法 | |
US10831779B2 (en) | Seamless data migration across databases | |
KR101672901B1 (ko) | 분산 파일 시스템에서 소형 파일에 대한 접근성 향상을 위한 캐시 관리 시스템 | |
JP6697392B2 (ja) | 半構造データスキーマのトランスペアレントディスカバリ | |
CN103714123B (zh) | 企业云存储分块对象重复数据删除和重组版本控制方法 | |
US9372765B2 (en) | System and method for recovering system status consistently to designed recovering time point in distributed database | |
CN103530387A (zh) | 一种hdfs针对小文件的改进方法 | |
CN104657500A (zh) | 一种基于key-value键值对的分布式存储方法 | |
CN105335513A (zh) | 一种分布式文件系统及文件存储方法 | |
CN107832423B (zh) | 一种用于分布式文件系统的文件读写方法 | |
US20130132439A1 (en) | Organizing versioning according to permissions | |
CN102662992A (zh) | 一种海量小文件的存储、访问方法及装置 | |
CN103166785A (zh) | 基于Hadoop的分布式日志分析系统 | |
CN103092927A (zh) | 一种分布式环境下的文件快速读写方法 | |
CN110008197A (zh) | 一种数据处理方法、系统及电子设备和存储介质 | |
CN104281673A (zh) | 一种数据库的缓存构建系统及对应的构建方法 | |
CN104052824A (zh) | 分布式缓存方法及系统 | |
CN109254958B (zh) | 分布式数据读写方法、设备及系统 | |
US20170235781A1 (en) | Method, server and computer program stored in computer readable medium for managing log data in database | |
Ahad et al. | Comparing and analyzing the characteristics of hadoop, cassandra and quantcast file systems for handling big data | |
CN105574008A (zh) | 应用于分布式文件系统的任务调度方法和设备 | |
JP2015045996A (ja) | 分散クエリ処理装置、処理方法及び処理プログラム | |
Gupta et al. | An extended HDFS with an AVATAR NODE to handle both small files and to eliminate single point of failure | |
US20150213068A1 (en) | Information processing apparatus and storage system | |
US10534756B1 (en) | Systems and methods for cross-referencing electronic documents on distributed storage servers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170517 |