CN111414346A - 一种海量非结构化数据文件分布式颗粒化的存储方法 - Google Patents
一种海量非结构化数据文件分布式颗粒化的存储方法 Download PDFInfo
- Publication number
- CN111414346A CN111414346A CN202010368335.4A CN202010368335A CN111414346A CN 111414346 A CN111414346 A CN 111414346A CN 202010368335 A CN202010368335 A CN 202010368335A CN 111414346 A CN111414346 A CN 111414346A
- Authority
- CN
- China
- Prior art keywords
- file
- data
- granular
- files
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000005469 granulation Methods 0.000 title claims description 7
- 230000003179 granulation Effects 0.000 title claims description 7
- 239000002245 particle Substances 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 238000013500 data storage Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据存储技术领域,具体的提供了一种海量非结构化数据文件分布式颗粒化的存储方法。主旨在于解决解决现有分布式存在如存在分割后的部分数据丢失,则会造成整个文件无法读取。主要方案包括,将需要存储的数据文件按照固定大小切割成N等份小文件,并记录数据文件的每个切割点;将切割后的颗粒化小文件拷贝成Y副本,分散存储至服务器集群中,并记录每个颗粒化小文件在服务器集群中的位置;将每个颗粒化小文件在服务器集群中的位置、数据文件的每个切割点信息汇总形成存储信息元数据,存储信息元数据提供快速索引;将每个颗粒化小文件根据步骤1中记录的切割点进行拼接,如当前节点的颗粒化小文件丢失,则由下一个切割点的小文件补位。
Description
技术领域
本发明涉及数据存储技术领域,具体的提供了一种海量非结构化数据文件分布式颗粒化的存储方法。
背景技术
本技术运用于互联网非结构化数据文件存储领域,尤其是针对那种非结构化数据文件数量多、体积大的应用场景,通过文件切割方法将大数据文件切割成多个小文件,达到颗粒化目的,然后建立多副本分散存储在服务器集群中,达到分布式存储目的。在切割文件的同时,记录文件切割点,后期读取文件时,分布式存储可以实现并发读取,切割点可以快速索引需要读取数据所在的文件颗粒,从而达到快读定位、高效读取的效果。
本技术运用于互联网非结构化数据文件存储领域,尤其是针对那种非结构化数据文件数量多、体积大的应用场景,通过文件切割方法将大数据文件切割成多个小文件,达到颗粒化目的,然后建立多副本分散存储在服务器集群中,达到分布式存储目的。在切割文件的同时,记录文件切割点,后期读取文件时,分布式存储可以实现并发读取,切割点可以快速索引需要读取数据所在的文件颗粒,从而达到快读定位、高效读取的效果。
如现有HDFS采用内部算法进行文件分割,分割后的文件不可以直接读取,如分割后的文件出现部分丢失,整个文件无法重组,从而导致数据丢失。
发明内容
本发明的目的在于解决解决现有分布式存在其分割后的文件不可直接读取,如存在部分数据丢失,则会造成整个文件无法读取。
为解决上述技术问题,本发明采用以下技术方案:
一种海量非结构化数据文件分布式颗粒化的存储方法,包含以下步骤:
步骤1:将需要存储的数据文件按照固定大小切割成N等份小文件,并记录数据文件的每个切割点;
步骤2:将切割后的颗粒化小文件拷贝成Y副本,分散存储至服务器集群中,达到分布式存储目的,并记录每个颗粒化小文件在服务器集群中的位置;
步骤3:将每个颗粒化小文件在服务器集群中的位置、数据文件的每个切割点信息汇总形成存储信息元数据,存储信息元数据提供快速索引作用。
步骤4:将每个颗粒化小文件根据步骤1中记录的切割点进行拼接,如当前节点的颗粒化小文件丢失,则由下一个切割点的小文件补位。
在上述技术方案的基础上,进一步的,上述步骤1具体包括以下步骤:
步骤1.1:对需要存储的数据文件进行切割规则如下:
数据文件大小为D,预先定义颗粒化文件固定大小为M,切割后的文件个数为:向上取整N=(D/M);
步骤1.2:记录数据文件的切割点信息,文件切割点所在的行号、文件切割点所在行的序列标志位,得到文件切割点信息清单。
在上述技术方案的基础上,进一步的,数据文件进行切割包括以下步骤:
文件切割之前,取出文件头信息,然后对数据体进行切割,得到N个数据颗粒,将每个数据颗粒分别与文件头信息组成一个颗粒化文件。
在上述技术方案的基础上,进一步的,上述步骤2具体包括以下步骤:
步骤2.1:对切割后的颗粒化文件进行多副本拷贝,每一个颗粒化文件对应S个副本文件;
步骤2.2:将S个副本文件分散拷贝至服务器集群的S个物理机上,每一个颗粒化文件对应一台物理机,达到分布式存储效果。
在上述技术方案的基础上,进一步的,上述步骤3具体包括以下步骤:
步骤3.1:将源文件名、每一个颗粒化的文件存储位置、文件头对应源文件的位置、文件头所在的序列标志位汇总,形成文件信息元文件;
步骤3.2:所有的文件信息元文件汇总到文件信息存储单元,形成文件检索引擎。
因为本发明采用上述技术方案,因此具备以下有益效果:
一、本申请提单采用文件切割的同时,并记录切割点相关信息。这样既能达到文件分布式存储,并发读取提高读取速度,多副本存储提高可靠性,又能够利用切割点信息快速检索数据信息位置。
二、典型技术(Hadoop分布式文件系统(HDFS))
(1)HDFS采用内部算法进行文件分割,分割后的文件不可以直接读取;本提案采用直接分割,分割后的文件可以直接读取。
(2)HDFS不记录数据文件切割点位置,无法快读检索数据信息位置。
三、因为本申请分割后的文件可以直接读取,即使存在部分分割后的文件丢失,也可由下一个切割点的文件补位,不影响文件重组和读取,避免了因为一个或多个分割后的文件丢失导致整个文件无法读取的弊端。
附图说明
图1为丢失20000多个字符后效果示意图,左边为原图,右边为丢失20000多个字符后颗粒化的文还原出的效果。
具体实施方式
一种海量非结构化数据文件分布式颗粒化的存储方法,包含以下步骤:
步骤1:将需要存储的数据文件按照固定大小切割成N等份小文件,并记录数据文件的每个切割点;
步骤2:将切割后的颗粒化小文件拷贝成Y副本,分散存储至服务器集群中,达到分布式存储目的,并记录每个颗粒化小文件在服务器集群中的位置;
步骤3:将每个颗粒化小文件在服务器集群中的位置、数据文件的每个切割点信息汇总形成存储信息元数据,存储信息元数据提供快速索引作用。
在上述技术方案的基础上,进一步的,上述步骤1具体包括以下步骤:
步骤1.1:对需要存储的数据文件进行切割规则如下:
数据文件大小为D,预先定义颗粒化文件固定大小为M,切割后的文件个数为:向上取整N=(D/M);
步骤1.2:记录数据文件的切割点信息,文件切割点所在的行号、文件切割点所在行的序列标志位,得到文件切割点信息清单。
在上述技术方案的基础上,进一步的,数据文件进行切割包括以下步骤:
文件切割之前,取出文件头信息,然后对数据体进行切割,得到N个数据颗粒,将每个数据颗粒分别与文件头信息组成一个颗粒化文件。
例如一个文件记录在磁盘上的数据为ABBB,A为文件头,BBB为数据体,拆分后就时AB、AB、AB、AB四个文件,每个文件都可以单独读取。
在上述技术方案的基础上,进一步的,上述步骤2具体包括以下步骤:
步骤2.1:对切割后的颗粒化文件进行多副本拷贝,每一个颗粒化文件对应S个副本文件;
步骤2.2:将S个副本文件分散拷贝至服务器集群的S个物理机上,每一个颗粒化文件对应一台物理机,达到分布式存储效果。
例如一个文件切割成5个颗粒化文件,然后每个颗粒化文件拷贝成3个,那种总共得到15个颗粒化文件。集群中的服务器数量必须是大于等于3(单个颗粒化文件拷贝后的总个数),存储时保证每个服务器上不存储相同的颗粒化文件,每个服务器上颗粒化文件总个数相同(集群有5台机器那么每台机器存储3个颗粒化文件),那么只要集群中有一半以上的服务器是正常的,那么文件就不会丢失。
在上述技术方案的基础上,进一步的,上述步骤3具体包括以下步骤:
步骤3.1:将源文件名、每一个颗粒化的文件存储位置、文件头对应源文件的位置、文件头所在的序列标志位汇总,形成文件信息元文件;
步骤3.2:所有的文件信息元文件汇总到文件信息存储单元,形成文件检索引擎。
Claims (5)
1.一种海量非结构化数据文件分布式颗粒化的存储方法,其特征在于:包含以下步骤:
步骤1:将需要存储的数据文件按照固定大小切割成N等份小文件,并记录数据文件的每个切割点;
步骤2:将切割后的颗粒化小文件拷贝成Y副本,分散存储至服务器集群中,达到分布式存储目的,并记录每个颗粒化小文件在服务器集群中的位置;
步骤3:将每个颗粒化小文件在服务器集群中的位置、数据文件的每个切割点信息汇总形成存储信息元数据,存储信息元数据提供快速索引作用;
步骤4:将每个颗粒化小文件根据步骤1中记录的切割点进行拼接,如当前节点的颗粒化小文件丢失,则由下一个切割点的小文件补位。
2.根据权利要求1所述的一种海量非结构化数据文件分布式颗粒化的存储方法,其特征在于,上述步骤1具体包括以下步骤:
步骤1.1:对需要存储的数据文件进行切割规则如下:
数据文件大小为D,预先定义颗粒化文件固定大小为M,切割后的文件个数为:向上取整N=(D/M);
步骤1.2:记录数据文件的切割点信息,文件切割点所在的行号、文件切割点所在行的序列标志位,得到文件切割点信息清单。
3.根据权利要求2所述的一种海量非结构化数据文件分布式颗粒化的存储方法,其特征在于,数据文件进行切割包括以下步骤:
文件切割之前,取出文件头信息,然后对数据体进行切割,得到N个数据颗粒,将每个数据颗粒分别与文件头信息组成一个颗粒化文件。
4.根据权利要求1所述的一种海量非结构化数据文件分布式颗粒化的存储方法,其特征在于,上述步骤2具体包括以下步骤:
步骤2.1:对切割后的颗粒化文件进行多副本拷贝,每一个颗粒化文件对应Y个副本文件;
步骤2.2:将Y个副本文件分散拷贝至服务器集群的Y个物理机上,每一个颗粒化文件对应一台物理机,达到分布式存储效果。
5.根据权利要求1所述的一种海量非结构化数据文件分布式颗粒化的存储方法,其特征在于,上述步骤3具体包括以下步骤:
步骤3.1:将源文件名、每一个颗粒化的文件存储位置、文件头对应源文件的位置、文件头所在的序列标志位汇总,形成文件信息元文件;
步骤3.2:所有的文件信息元文件汇总到文件信息存储单元,形成文件检索引擎。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010368335.4A CN111414346A (zh) | 2020-04-30 | 2020-04-30 | 一种海量非结构化数据文件分布式颗粒化的存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010368335.4A CN111414346A (zh) | 2020-04-30 | 2020-04-30 | 一种海量非结构化数据文件分布式颗粒化的存储方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111414346A true CN111414346A (zh) | 2020-07-14 |
Family
ID=71492263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010368335.4A Pending CN111414346A (zh) | 2020-04-30 | 2020-04-30 | 一种海量非结构化数据文件分布式颗粒化的存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111414346A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632075A (zh) * | 2020-12-25 | 2021-04-09 | 创新科技术有限公司 | 集群元数据的存储、读取方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572684A (zh) * | 2013-10-17 | 2015-04-29 | 深圳市腾讯计算机系统有限公司 | 数据存储系统的容量调整方法、装置及数据存储系统 |
CN106156289A (zh) * | 2016-06-28 | 2016-11-23 | 北京百迈客云科技有限公司 | 一种读写对象存储系统中的数据的方法以及装置 |
CN106446126A (zh) * | 2016-09-19 | 2017-02-22 | 哈尔滨航天恒星数据系统科技有限公司 | 一种海量空间信息数据存储管理方法及存储管理系统 |
JP2017143475A (ja) * | 2016-02-12 | 2017-08-17 | 日本放送協会 | 配信管理装置、受信装置、分散処理システム、及びプログラム |
CN107632994A (zh) * | 2016-07-19 | 2018-01-26 | 普天信息技术有限公司 | 一种基于hdfs文件系统的可靠性增强方法和系统 |
CN108920540A (zh) * | 2018-06-12 | 2018-11-30 | 武汉大学 | 一种基于Spark的并行栅格数据处理方法 |
-
2020
- 2020-04-30 CN CN202010368335.4A patent/CN111414346A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572684A (zh) * | 2013-10-17 | 2015-04-29 | 深圳市腾讯计算机系统有限公司 | 数据存储系统的容量调整方法、装置及数据存储系统 |
JP2017143475A (ja) * | 2016-02-12 | 2017-08-17 | 日本放送協会 | 配信管理装置、受信装置、分散処理システム、及びプログラム |
CN106156289A (zh) * | 2016-06-28 | 2016-11-23 | 北京百迈客云科技有限公司 | 一种读写对象存储系统中的数据的方法以及装置 |
CN107632994A (zh) * | 2016-07-19 | 2018-01-26 | 普天信息技术有限公司 | 一种基于hdfs文件系统的可靠性增强方法和系统 |
CN106446126A (zh) * | 2016-09-19 | 2017-02-22 | 哈尔滨航天恒星数据系统科技有限公司 | 一种海量空间信息数据存储管理方法及存储管理系统 |
CN108920540A (zh) * | 2018-06-12 | 2018-11-30 | 武汉大学 | 一种基于Spark的并行栅格数据处理方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632075A (zh) * | 2020-12-25 | 2021-04-09 | 创新科技术有限公司 | 集群元数据的存储、读取方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11281531B2 (en) | Serial storage node processing of data functions | |
US9792344B2 (en) | Asynchronous namespace maintenance | |
US10430398B2 (en) | Data storage system having mutable objects incorporating time | |
CN109522283B (zh) | 一种重复数据删除方法及系统 | |
US9002907B2 (en) | Method and system for storing binary large objects (BLObs) in a distributed key-value storage system | |
US8799238B2 (en) | Data deduplication | |
CN106201771B (zh) | 数据存储系统和数据读写方法 | |
CN109710572B (zh) | 一种基于HBase的文件分片方法 | |
US9189493B2 (en) | Object file system | |
CN107817946B (zh) | 用于混合存储设备读写数据的方法以及装置 | |
CN111090618B (zh) | 一种数据读取方法、系统及设备 | |
CN110147203B (zh) | 一种文件管理方法、装置、电子设备及存储介质 | |
CN105100815A (zh) | 基于时间序列的流式数据分布式元数据管理方法 | |
CN112637616A (zh) | 一种对象存储方法、系统及服务器 | |
US20200409594A1 (en) | Storage Node Processing of Predefined Data Functions | |
CN111414346A (zh) | 一种海量非结构化数据文件分布式颗粒化的存储方法 | |
JP5517224B2 (ja) | ストレージ装置 | |
JP5660617B2 (ja) | ストレージ装置 | |
CN114595096B (zh) | 数据库热备份的方法、装置、电子设备及存储介质 | |
CN109241011B (zh) | 一种虚拟机文件处理方法及装置 | |
US20200409587A1 (en) | Parallel Storage Node Processing of Data Functions | |
US20200409790A1 (en) | Storage Node Processing of Data Functions Using Overlapping Symbols | |
CN117873405B (zh) | 数据存储方法、装置、计算机设备和存储介质 | |
US20230076014A1 (en) | Partitioning, processing, and protecting media data | |
US11983143B2 (en) | Performance- and cost-efficient archiving of small objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200714 |