CN111414346A - 一种海量非结构化数据文件分布式颗粒化的存储方法 - Google Patents

一种海量非结构化数据文件分布式颗粒化的存储方法 Download PDF

Info

Publication number
CN111414346A
CN111414346A CN202010368335.4A CN202010368335A CN111414346A CN 111414346 A CN111414346 A CN 111414346A CN 202010368335 A CN202010368335 A CN 202010368335A CN 111414346 A CN111414346 A CN 111414346A
Authority
CN
China
Prior art keywords
file
data
granular
files
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010368335.4A
Other languages
English (en)
Inventor
鲁建华
李耀
田骏
石龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Zhongbang Bank Co Ltd
Original Assignee
Wuhan Zhongbang Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Zhongbang Bank Co Ltd filed Critical Wuhan Zhongbang Bank Co Ltd
Priority to CN202010368335.4A priority Critical patent/CN111414346A/zh
Publication of CN111414346A publication Critical patent/CN111414346A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据存储技术领域,具体的提供了一种海量非结构化数据文件分布式颗粒化的存储方法。主旨在于解决解决现有分布式存在如存在分割后的部分数据丢失,则会造成整个文件无法读取。主要方案包括,将需要存储的数据文件按照固定大小切割成N等份小文件,并记录数据文件的每个切割点;将切割后的颗粒化小文件拷贝成Y副本,分散存储至服务器集群中,并记录每个颗粒化小文件在服务器集群中的位置;将每个颗粒化小文件在服务器集群中的位置、数据文件的每个切割点信息汇总形成存储信息元数据,存储信息元数据提供快速索引;将每个颗粒化小文件根据步骤1中记录的切割点进行拼接,如当前节点的颗粒化小文件丢失,则由下一个切割点的小文件补位。

Description

一种海量非结构化数据文件分布式颗粒化的存储方法
技术领域
本发明涉及数据存储技术领域,具体的提供了一种海量非结构化数据文件分布式颗粒化的存储方法。
背景技术
本技术运用于互联网非结构化数据文件存储领域,尤其是针对那种非结构化数据文件数量多、体积大的应用场景,通过文件切割方法将大数据文件切割成多个小文件,达到颗粒化目的,然后建立多副本分散存储在服务器集群中,达到分布式存储目的。在切割文件的同时,记录文件切割点,后期读取文件时,分布式存储可以实现并发读取,切割点可以快速索引需要读取数据所在的文件颗粒,从而达到快读定位、高效读取的效果。
本技术运用于互联网非结构化数据文件存储领域,尤其是针对那种非结构化数据文件数量多、体积大的应用场景,通过文件切割方法将大数据文件切割成多个小文件,达到颗粒化目的,然后建立多副本分散存储在服务器集群中,达到分布式存储目的。在切割文件的同时,记录文件切割点,后期读取文件时,分布式存储可以实现并发读取,切割点可以快速索引需要读取数据所在的文件颗粒,从而达到快读定位、高效读取的效果。
如现有HDFS采用内部算法进行文件分割,分割后的文件不可以直接读取,如分割后的文件出现部分丢失,整个文件无法重组,从而导致数据丢失。
发明内容
本发明的目的在于解决解决现有分布式存在其分割后的文件不可直接读取,如存在部分数据丢失,则会造成整个文件无法读取。
为解决上述技术问题,本发明采用以下技术方案:
一种海量非结构化数据文件分布式颗粒化的存储方法,包含以下步骤:
步骤1:将需要存储的数据文件按照固定大小切割成N等份小文件,并记录数据文件的每个切割点;
步骤2:将切割后的颗粒化小文件拷贝成Y副本,分散存储至服务器集群中,达到分布式存储目的,并记录每个颗粒化小文件在服务器集群中的位置;
步骤3:将每个颗粒化小文件在服务器集群中的位置、数据文件的每个切割点信息汇总形成存储信息元数据,存储信息元数据提供快速索引作用。
步骤4:将每个颗粒化小文件根据步骤1中记录的切割点进行拼接,如当前节点的颗粒化小文件丢失,则由下一个切割点的小文件补位。
在上述技术方案的基础上,进一步的,上述步骤1具体包括以下步骤:
步骤1.1:对需要存储的数据文件进行切割规则如下:
数据文件大小为D,预先定义颗粒化文件固定大小为M,切割后的文件个数为:向上取整N=(D/M);
步骤1.2:记录数据文件的切割点信息,文件切割点所在的行号、文件切割点所在行的序列标志位,得到文件切割点信息清单。
在上述技术方案的基础上,进一步的,数据文件进行切割包括以下步骤:
文件切割之前,取出文件头信息,然后对数据体进行切割,得到N个数据颗粒,将每个数据颗粒分别与文件头信息组成一个颗粒化文件。
在上述技术方案的基础上,进一步的,上述步骤2具体包括以下步骤:
步骤2.1:对切割后的颗粒化文件进行多副本拷贝,每一个颗粒化文件对应S个副本文件;
步骤2.2:将S个副本文件分散拷贝至服务器集群的S个物理机上,每一个颗粒化文件对应一台物理机,达到分布式存储效果。
在上述技术方案的基础上,进一步的,上述步骤3具体包括以下步骤:
步骤3.1:将源文件名、每一个颗粒化的文件存储位置、文件头对应源文件的位置、文件头所在的序列标志位汇总,形成文件信息元文件;
步骤3.2:所有的文件信息元文件汇总到文件信息存储单元,形成文件检索引擎。
因为本发明采用上述技术方案,因此具备以下有益效果:
一、本申请提单采用文件切割的同时,并记录切割点相关信息。这样既能达到文件分布式存储,并发读取提高读取速度,多副本存储提高可靠性,又能够利用切割点信息快速检索数据信息位置。
二、典型技术(Hadoop分布式文件系统(HDFS))
(1)HDFS采用内部算法进行文件分割,分割后的文件不可以直接读取;本提案采用直接分割,分割后的文件可以直接读取。
(2)HDFS不记录数据文件切割点位置,无法快读检索数据信息位置。
三、因为本申请分割后的文件可以直接读取,即使存在部分分割后的文件丢失,也可由下一个切割点的文件补位,不影响文件重组和读取,避免了因为一个或多个分割后的文件丢失导致整个文件无法读取的弊端。
附图说明
图1为丢失20000多个字符后效果示意图,左边为原图,右边为丢失20000多个字符后颗粒化的文还原出的效果。
具体实施方式
一种海量非结构化数据文件分布式颗粒化的存储方法,包含以下步骤:
步骤1:将需要存储的数据文件按照固定大小切割成N等份小文件,并记录数据文件的每个切割点;
步骤2:将切割后的颗粒化小文件拷贝成Y副本,分散存储至服务器集群中,达到分布式存储目的,并记录每个颗粒化小文件在服务器集群中的位置;
步骤3:将每个颗粒化小文件在服务器集群中的位置、数据文件的每个切割点信息汇总形成存储信息元数据,存储信息元数据提供快速索引作用。
在上述技术方案的基础上,进一步的,上述步骤1具体包括以下步骤:
步骤1.1:对需要存储的数据文件进行切割规则如下:
数据文件大小为D,预先定义颗粒化文件固定大小为M,切割后的文件个数为:向上取整N=(D/M);
步骤1.2:记录数据文件的切割点信息,文件切割点所在的行号、文件切割点所在行的序列标志位,得到文件切割点信息清单。
在上述技术方案的基础上,进一步的,数据文件进行切割包括以下步骤:
文件切割之前,取出文件头信息,然后对数据体进行切割,得到N个数据颗粒,将每个数据颗粒分别与文件头信息组成一个颗粒化文件。
例如一个文件记录在磁盘上的数据为ABBB,A为文件头,BBB为数据体,拆分后就时AB、AB、AB、AB四个文件,每个文件都可以单独读取。
在上述技术方案的基础上,进一步的,上述步骤2具体包括以下步骤:
步骤2.1:对切割后的颗粒化文件进行多副本拷贝,每一个颗粒化文件对应S个副本文件;
步骤2.2:将S个副本文件分散拷贝至服务器集群的S个物理机上,每一个颗粒化文件对应一台物理机,达到分布式存储效果。
例如一个文件切割成5个颗粒化文件,然后每个颗粒化文件拷贝成3个,那种总共得到15个颗粒化文件。集群中的服务器数量必须是大于等于3(单个颗粒化文件拷贝后的总个数),存储时保证每个服务器上不存储相同的颗粒化文件,每个服务器上颗粒化文件总个数相同(集群有5台机器那么每台机器存储3个颗粒化文件),那么只要集群中有一半以上的服务器是正常的,那么文件就不会丢失。
在上述技术方案的基础上,进一步的,上述步骤3具体包括以下步骤:
步骤3.1:将源文件名、每一个颗粒化的文件存储位置、文件头对应源文件的位置、文件头所在的序列标志位汇总,形成文件信息元文件;
步骤3.2:所有的文件信息元文件汇总到文件信息存储单元,形成文件检索引擎。

Claims (5)

1.一种海量非结构化数据文件分布式颗粒化的存储方法,其特征在于:包含以下步骤:
步骤1:将需要存储的数据文件按照固定大小切割成N等份小文件,并记录数据文件的每个切割点;
步骤2:将切割后的颗粒化小文件拷贝成Y副本,分散存储至服务器集群中,达到分布式存储目的,并记录每个颗粒化小文件在服务器集群中的位置;
步骤3:将每个颗粒化小文件在服务器集群中的位置、数据文件的每个切割点信息汇总形成存储信息元数据,存储信息元数据提供快速索引作用;
步骤4:将每个颗粒化小文件根据步骤1中记录的切割点进行拼接,如当前节点的颗粒化小文件丢失,则由下一个切割点的小文件补位。
2.根据权利要求1所述的一种海量非结构化数据文件分布式颗粒化的存储方法,其特征在于,上述步骤1具体包括以下步骤:
步骤1.1:对需要存储的数据文件进行切割规则如下:
数据文件大小为D,预先定义颗粒化文件固定大小为M,切割后的文件个数为:向上取整N=(D/M);
步骤1.2:记录数据文件的切割点信息,文件切割点所在的行号、文件切割点所在行的序列标志位,得到文件切割点信息清单。
3.根据权利要求2所述的一种海量非结构化数据文件分布式颗粒化的存储方法,其特征在于,数据文件进行切割包括以下步骤:
文件切割之前,取出文件头信息,然后对数据体进行切割,得到N个数据颗粒,将每个数据颗粒分别与文件头信息组成一个颗粒化文件。
4.根据权利要求1所述的一种海量非结构化数据文件分布式颗粒化的存储方法,其特征在于,上述步骤2具体包括以下步骤:
步骤2.1:对切割后的颗粒化文件进行多副本拷贝,每一个颗粒化文件对应Y个副本文件;
步骤2.2:将Y个副本文件分散拷贝至服务器集群的Y个物理机上,每一个颗粒化文件对应一台物理机,达到分布式存储效果。
5.根据权利要求1所述的一种海量非结构化数据文件分布式颗粒化的存储方法,其特征在于,上述步骤3具体包括以下步骤:
步骤3.1:将源文件名、每一个颗粒化的文件存储位置、文件头对应源文件的位置、文件头所在的序列标志位汇总,形成文件信息元文件;
步骤3.2:所有的文件信息元文件汇总到文件信息存储单元,形成文件检索引擎。
CN202010368335.4A 2020-04-30 2020-04-30 一种海量非结构化数据文件分布式颗粒化的存储方法 Pending CN111414346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010368335.4A CN111414346A (zh) 2020-04-30 2020-04-30 一种海量非结构化数据文件分布式颗粒化的存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010368335.4A CN111414346A (zh) 2020-04-30 2020-04-30 一种海量非结构化数据文件分布式颗粒化的存储方法

Publications (1)

Publication Number Publication Date
CN111414346A true CN111414346A (zh) 2020-07-14

Family

ID=71492263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010368335.4A Pending CN111414346A (zh) 2020-04-30 2020-04-30 一种海量非结构化数据文件分布式颗粒化的存储方法

Country Status (1)

Country Link
CN (1) CN111414346A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632075A (zh) * 2020-12-25 2021-04-09 创新科技术有限公司 集群元数据的存储、读取方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572684A (zh) * 2013-10-17 2015-04-29 深圳市腾讯计算机系统有限公司 数据存储系统的容量调整方法、装置及数据存储系统
CN106156289A (zh) * 2016-06-28 2016-11-23 北京百迈客云科技有限公司 一种读写对象存储系统中的数据的方法以及装置
CN106446126A (zh) * 2016-09-19 2017-02-22 哈尔滨航天恒星数据系统科技有限公司 一种海量空间信息数据存储管理方法及存储管理系统
JP2017143475A (ja) * 2016-02-12 2017-08-17 日本放送協会 配信管理装置、受信装置、分散処理システム、及びプログラム
CN107632994A (zh) * 2016-07-19 2018-01-26 普天信息技术有限公司 一种基于hdfs文件系统的可靠性增强方法和系统
CN108920540A (zh) * 2018-06-12 2018-11-30 武汉大学 一种基于Spark的并行栅格数据处理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572684A (zh) * 2013-10-17 2015-04-29 深圳市腾讯计算机系统有限公司 数据存储系统的容量调整方法、装置及数据存储系统
JP2017143475A (ja) * 2016-02-12 2017-08-17 日本放送協会 配信管理装置、受信装置、分散処理システム、及びプログラム
CN106156289A (zh) * 2016-06-28 2016-11-23 北京百迈客云科技有限公司 一种读写对象存储系统中的数据的方法以及装置
CN107632994A (zh) * 2016-07-19 2018-01-26 普天信息技术有限公司 一种基于hdfs文件系统的可靠性增强方法和系统
CN106446126A (zh) * 2016-09-19 2017-02-22 哈尔滨航天恒星数据系统科技有限公司 一种海量空间信息数据存储管理方法及存储管理系统
CN108920540A (zh) * 2018-06-12 2018-11-30 武汉大学 一种基于Spark的并行栅格数据处理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632075A (zh) * 2020-12-25 2021-04-09 创新科技术有限公司 集群元数据的存储、读取方法和装置

Similar Documents

Publication Publication Date Title
US11281531B2 (en) Serial storage node processing of data functions
US9792344B2 (en) Asynchronous namespace maintenance
US10430398B2 (en) Data storage system having mutable objects incorporating time
CN109522283B (zh) 一种重复数据删除方法及系统
US9002907B2 (en) Method and system for storing binary large objects (BLObs) in a distributed key-value storage system
US8799238B2 (en) Data deduplication
CN106201771B (zh) 数据存储系统和数据读写方法
CN109710572B (zh) 一种基于HBase的文件分片方法
US9189493B2 (en) Object file system
CN107817946B (zh) 用于混合存储设备读写数据的方法以及装置
CN111090618B (zh) 一种数据读取方法、系统及设备
CN110147203B (zh) 一种文件管理方法、装置、电子设备及存储介质
CN105100815A (zh) 基于时间序列的流式数据分布式元数据管理方法
CN112637616A (zh) 一种对象存储方法、系统及服务器
US20200409594A1 (en) Storage Node Processing of Predefined Data Functions
CN111414346A (zh) 一种海量非结构化数据文件分布式颗粒化的存储方法
JP5517224B2 (ja) ストレージ装置
JP5660617B2 (ja) ストレージ装置
CN114595096B (zh) 数据库热备份的方法、装置、电子设备及存储介质
CN109241011B (zh) 一种虚拟机文件处理方法及装置
US20200409587A1 (en) Parallel Storage Node Processing of Data Functions
US20200409790A1 (en) Storage Node Processing of Data Functions Using Overlapping Symbols
CN117873405B (zh) 数据存储方法、装置、计算机设备和存储介质
US20230076014A1 (en) Partitioning, processing, and protecting media data
US11983143B2 (en) Performance- and cost-efficient archiving of small objects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200714