CN109407977B - 一种大数据分布式存储管理方法及系统 - Google Patents

一种大数据分布式存储管理方法及系统 Download PDF

Info

Publication number
CN109407977B
CN109407977B CN201811119218.3A CN201811119218A CN109407977B CN 109407977 B CN109407977 B CN 109407977B CN 201811119218 A CN201811119218 A CN 201811119218A CN 109407977 B CN109407977 B CN 109407977B
Authority
CN
China
Prior art keywords
data
metadata
metadata server
information
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811119218.3A
Other languages
English (en)
Other versions
CN109407977A (zh
Inventor
张彩霞
郭静
王向东
王新东
胡绍林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Southern Power Grid Internet Service Co ltd
Ourchem Information Consulting Co ltd
Original Assignee
Foshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan University filed Critical Foshan University
Priority to CN201811119218.3A priority Critical patent/CN109407977B/zh
Publication of CN109407977A publication Critical patent/CN109407977A/zh
Application granted granted Critical
Publication of CN109407977B publication Critical patent/CN109407977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据存储技术领域,具体涉及一种大数据分布式存储管理方法及系统,通过将数据分块和校验,以分块的形式存放校验后的数据块信息,将所述数据块信息发送给元数据服务器;通过元数据服务器处理元数据请求,存储文件系统的元数据信息,存储自身名字空间管理,提供系统服务;将元数据信息以镜像文件和日志文件的方式持久化到共享存储池中;通过同步元数据服务器的名字空间信息从而使得集群中每个元数据服务器利用备用节点进行热备份,从而实现对元数据服务器的热备份,本发明能保证大数据存储访问过程中数据的可靠性。

Description

一种大数据分布式存储管理方法及系统
技术领域
本发明涉及大数据存储技术领域,具体涉及一种大数据分布式存储管理方法及系统。
背景技术
随着集群规模的扩大,在大数据分析和处理过程中,网络故障和节点失效等错误发生的概率增加,需要底层分布式数据系统提供高可用保证,保持数据系统服务的连续性。基于共享存储池,集群中每个元数据服务器利用影子节点SN进行热备,无需额外的数据系统或设备支持就能快速恢复故障。通常情况下,影子节点不提供元数据服务,处于备用状态,但始终维护与元数据服务器一致的名字空间。
因此,如何提供一种高可用,保持数据系统服务的连续性的大数据分布式存储管理途径成为值得解决的问题。
发明内容
本发明提供一种大数据分布式存储管理方法及系统,能够保证大数据存储访问过程中数据的可靠性。
本发明提供的一种大数据分布式存储管理系统,所述系统包括数据节点、元数据服务器、共享存储池、备用节点;
所述数据节点,用于将数据分块,形成数据块信息,对所述数据块信息进行校验,以分块的形式存放校验后的数据块信息,将所述数据块信息发送给元数据服务器;
所述元数据服务器,用于处理元数据请求,存储文件系统的元数据信息,存储自身名字空间管理,提供系统服务;
所述共享存储池,用于同步元数据服务器的名字空间信息;
所述备用节点,用于对元数据服务器进行热备份。
进一步,所述数据节点,用于定期对元数据服务器进行数据采集,将内存元数据信息和日志内容合并成一个新的镜像文件,并将所述镜像文件发送到共享存储池中进行存储。
进一步,所述元数据服务器还用于根据各数据节点信息及列表项配置信息生成数据节点列表,将数据存放到元数据服务器对应的数据节点,每台数据节点的项数按以下公式计算:
Figure BDA0001809764970000021
其中,Ui表示第i台数据节点在列表内所出现的次数,C表示列表的项数,n表示数据节点总数,Ui即为每台数据节点的项数。
进一步,所述系统服务包括:通过将多个元数据服务器构成一个全局的名字空间,作为共享存储池中共享存储节点,保存元数据服务器镜像和日志文件的副本信息。
进一步,所述系统还包括切换模块,用于当元数据服务器处于离线状态时,将元数据服务器服务进程切换至备用节点。
本发明提供的一种大数据分布式存储管理方法,所述方法基于上述任一所述的一种大数据分布式存储管理系统,包括以下步骤:
步骤S1、将数据分块,形成数据块信息,对所述数据块信息进行校验,以分块的形式存放校验后的数据块信息,将所述数据块信息发送给元数据服务器;
步骤S2、处理元数据请求,存储文件系统的元数据信息,存储自身名字空间管理,提供系统服务;
步骤S3、同步元数据服务器的名字空间信息;
步骤S4、对元数据服务器进行热备份。
进一步,所述步骤S1还包括:定期对元数据服务器进行数据采集,将内存元数据信息和日志内容合并成一个新的镜像文件,并将所述镜像文件发送到共享存储池中进行存储。
进一步,所述步骤S2还包括:根据各数据节点信息及列表项配置信息生成数据节点列表,将数据存放到元数据服务器对应的数据节点,每台数据节点的项数按以下公式计算:
Figure BDA0001809764970000031
其中,Ui表示第i台数据节点在列表内所出现的次数,C表示列表的项数,n表示数据节点总数,Ui即为每台数据节点的项数。
进一步,所述系统服务包括:通过将多个元数据服务器构成一个全局的名字空间,作为共享存储池中共享存储节点,保存元数据服务器镜像和日志文件的副本信息。
进一步,所述方法还包括:当元数据服务器处于离线状态时,将元数据服务器服务进程切换至备用节点。
本发明的有益效果是:本发明公开一种大数据分布式存储管理方法及系统,通过将数据分块和校验,以分块的形式存放校验后的数据块信息,同步元数据服务器的名字空间信息;对元数据服务器进行热备份,从而保证大数据存储访问过程中数据的可靠性。
附图说明
下面结合附图和实例对本发明作进一步说明。
图1是本发明一种大数据分布式存储管理方法的流程示意图。
具体实施方式
本发明提供的一种大数据分布式存储管理系统,所述系统包括数据节点、元数据服务器、共享存储池、备用节点;
所述数据节点,用于将数据分块,形成数据块信息,对所述数据块信息进行校验,以分块的形式存放校验后的数据块信息,将所述数据块信息发送给元数据服务器;
所述元数据服务器,用于处理元数据请求,存储文件系统的元数据信息,存储自身名字空间管理,提供系统服务;所述元数据信息包括数据索引节点号、数据属性、创建时间,在逻辑上以树形结构组织,并以镜像文件和日志文件的方式保持到共享存储池中。
所述共享存储池,用于同步元数据服务器的名字空间信息,从而使得集群中每个元数据服务器利用备用节点进行热备份。
所述备用节点,用于对元数据服务器进行热备份。
进一步,所述数据节点,用于定期对元数据服务器进行数据采集,将内存元数据信息和日志内容合并成一个新的镜像文件,并将所述镜像文件发送到共享存储池中进行存储。
进一步,所述元数据服务器还用于根据各数据节点信息及列表项配置信息生成数据节点列表,将数据存放到元数据服务器对应的数据节点,以减少元数据的内存占用开销,每台数据节点的项数按以下公式计算:
Figure BDA0001809764970000041
其中,Ui表示第i台数据节点在列表内所出现的次数,C表示列表的项数,n表示数据节点总数,Ui即为每台数据节点的项数。
进一步,所述系统服务包括:通过将多个元数据服务器构成一个全局的名字空间,作为共享存储池中共享存储节点,保存其他元数据服务器镜像和日志文件的副本信息。
进一步,所述系统还包括切换模块,用于当元数据服务器处于离线状态时,将元数据服务器服务进程切换至备用节点。
参考图1,本发明提供的一种大数据分布式存储管理方法,所述方法基于上述任一所述的一种大数据分布式存储管理系统,包括以下步骤:
步骤S1、将数据分块,形成数据块信息,对所述数据块信息进行校验,以分块的形式存放校验后的数据块信息,将所述数据块信息发送给元数据服务器;
步骤S2、处理元数据请求,存储文件系统的元数据信息,存储自身名字空间管理,提供系统服务;所述元数据信息包括数据索引节点号、数据属性、创建时间等,逻辑上以树形结构组织,并以镜像文件和日志文件的方式持久化到共享存储池中;
步骤S3、同步元数据服务器的名字空间信息从而使得集群中每个元数据服务器利用备用节点进行热备份;
步骤S4、对元数据服务器进行热备份。
进一步,所述步骤S1还包括:定期对元数据服务器进行数据采集,将内存元数据信息和日志内容合并成一个新的镜像文件,并将所述镜像文件发送到共享存储池中进行存储。
进一步,所述步骤S2还包括:根据各数据节点信息及列表项配置信息生成数据节点列表,将数据存放到元数据服务器对应的数据节点,以减少元数据的内存占用开销,每台数据节点的项数按以下公式计算:
Figure BDA0001809764970000051
其中,Ui表示第i台数据节点在列表内所出现的次数,C表示列表的项数,n表示数据节点总数,Ui即为每台数据节点的项数。
进一步,所述系统服务包括:通过将多个元数据服务器构成一个全局的名字空间,作为共享存储池中共享存储节点,保存其他元数据服务器镜像和日志文件的副本信息。
进一步,所述方法还包括:当元数据服务器处于离线状态时,将元数据服务器服务进程切换至备用节点。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。

Claims (2)

1.一种大数据分布式存储管理系统,其特征在于,所述系统包括数据节点、元数据服务器、共享存储池、备用节点;
所述数据节点,用于将数据分块,形成数据块信息,对所述数据块信息进行校验,以分块的形式存放校验后的数据块信息,将所述数据块信息发送给元数据服务器;
所述元数据服务器,用于处理元数据请求,存储文件系统的元数据信息,存储自身名字空间管理,提供系统服务;
所述共享存储池,用于同步元数据服务器的名字空间信息;
所述备用节点,用于对元数据服务器进行热备份;
其中,所述数据节点,用于定期对元数据服务器进行数据采集,将内存元数据信息和日志内容合并成一个新的镜像文件,并将所述镜像文件发送到共享存储池中进行存储;
所述元数据服务器还用于根据各数据节点信息及列表项配置信息生成数据节点列表,将数据存放到元数据服务器对应的数据节点,每台数据节点的项数按以下公式计算:
Figure FDA0003177507240000011
其中,Ui表示第i台数据节点在列表内所出现的次数,C表示列表的项数,n表示数据节点总数,Ui即为每台数据节点的项数;
所述系统服务包括:通过将多个元数据服务器构成一个全局的名字空间,作为共享存储池中共享存储节点,保存元数据服务器镜像和日志文件的副本信息;
所述系统还包括切换模块,用于当元数据服务器处于离线状态时,将元数据服务器服务进程切换至备用节点。
2.一种大数据分布式存储管理方法,其特征在于,所述方法基于权利要求1所述的一种大数据分布式存储管理系统,包括以下步骤:
步骤S1、将数据分块,形成数据块信息,对所述数据块信息进行校验,以分块的形式存放校验后的数据块信息,将所述数据块信息发送给元数据服务器;
步骤S2、处理元数据请求,存储文件系统的元数据信息,存储自身名字空间管理,提供系统服务;
步骤S3、同步元数据服务器的名字空间信息;
步骤S4、对元数据服务器进行热备份;
其中,所述步骤S1还包括:定期对元数据服务器进行数据采集,将内存元数据信息和日志内容合并成一个新的镜像文件,并将所述镜像文件发送到共享存储池中进行存储;
所述步骤S2还包括:根据各数据节点信息及列表项配置信息生成数据节点列表,将数据存放到元数据服务器对应的数据节点,每台数据节点的项数按以下公式计算:
Figure FDA0003177507240000021
其中,Ui表示第i台数据节点在列表内所出现的次数,C表示列表的项数,n表示数据节点总数,Ui即为每台数据节点的项数;
所述系统服务包括:通过将多个元数据服务器构成一个全局的名字空间,作为共享存储池中共享存储节点,保存元数据服务器镜像和日志文件的副本信息;
所述方法还包括:当元数据服务器处于离线状态时,将元数据服务器服务进程切换至备用节点。
CN201811119218.3A 2018-09-25 2018-09-25 一种大数据分布式存储管理方法及系统 Active CN109407977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811119218.3A CN109407977B (zh) 2018-09-25 2018-09-25 一种大数据分布式存储管理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811119218.3A CN109407977B (zh) 2018-09-25 2018-09-25 一种大数据分布式存储管理方法及系统

Publications (2)

Publication Number Publication Date
CN109407977A CN109407977A (zh) 2019-03-01
CN109407977B true CN109407977B (zh) 2021-08-31

Family

ID=65466326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811119218.3A Active CN109407977B (zh) 2018-09-25 2018-09-25 一种大数据分布式存储管理方法及系统

Country Status (1)

Country Link
CN (1) CN109407977B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795404B (zh) * 2019-10-31 2023-04-07 京东方科技集团股份有限公司 Hadoop分布式文件系统及其运行方法、修复方法
CN112783822B (zh) * 2019-11-04 2023-11-03 上海云教信息技术有限公司 一种科学数据共享平台去中心化的数据收割方法和装置
CN111581013A (zh) * 2020-03-18 2020-08-25 宁波送变电建设有限公司永耀科技分公司 基于元数据和影子文件的系统信息备份与重构方法
CN112269772A (zh) * 2020-10-30 2021-01-26 深信服科技股份有限公司 一种文件部署方法、系统、设备及计算机可读存储介质
CN112328701B (zh) * 2020-11-27 2023-11-10 广东睿住智能科技有限公司 数据同步方法、终端设备及计算机可读存储介质
CN112380067B (zh) * 2020-11-30 2023-08-22 四川大学华西医院 一种Hadoop环境下基于元数据的大数据备份系统及方法
CN112667577A (zh) * 2020-12-25 2021-04-16 浙江大华技术股份有限公司 一种元数据管理方法、元数据管理系统及存储介质
CN113032447A (zh) * 2020-12-31 2021-06-25 一汽资本控股有限公司 一种数据分布式存储的方法以及分布式数据存储系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102387179A (zh) * 2010-09-02 2012-03-21 联想(北京)有限公司 分布式文件系统及其结点、存储方法和存储控制方法
CN103729436A (zh) * 2013-12-27 2014-04-16 中国科学院信息工程研究所 一种分布式元数据管理方法及系统
CN103905537A (zh) * 2014-03-20 2014-07-02 冶金自动化研究设计院 分布式环境下管理工业实时数据存储的系统
CN104320401A (zh) * 2014-10-31 2015-01-28 北京思特奇信息技术股份有限公司 一种基于分布式文件系统的大数据存储访问系统及方法
CN104657497A (zh) * 2015-03-09 2015-05-27 国家电网公司 一种基于分布式计算的海量用电信息并行计算系统及方法
CN105608155A (zh) * 2015-12-17 2016-05-25 北京华油信通科技有限公司 海量数据分布式存储系统
CN106156359A (zh) * 2016-07-28 2016-11-23 四川新环佳科技发展有限公司 一种云计算平台下的数据同步更新方法
CN106599308A (zh) * 2016-12-29 2017-04-26 郭晓凤 一种分布式元数据管理方法及系统
CN108268208A (zh) * 2016-12-30 2018-07-10 清华大学 一种基于rdma的分布式内存文件系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102387179A (zh) * 2010-09-02 2012-03-21 联想(北京)有限公司 分布式文件系统及其结点、存储方法和存储控制方法
CN103729436A (zh) * 2013-12-27 2014-04-16 中国科学院信息工程研究所 一种分布式元数据管理方法及系统
CN103905537A (zh) * 2014-03-20 2014-07-02 冶金自动化研究设计院 分布式环境下管理工业实时数据存储的系统
CN104320401A (zh) * 2014-10-31 2015-01-28 北京思特奇信息技术股份有限公司 一种基于分布式文件系统的大数据存储访问系统及方法
CN104657497A (zh) * 2015-03-09 2015-05-27 国家电网公司 一种基于分布式计算的海量用电信息并行计算系统及方法
CN105608155A (zh) * 2015-12-17 2016-05-25 北京华油信通科技有限公司 海量数据分布式存储系统
CN106156359A (zh) * 2016-07-28 2016-11-23 四川新环佳科技发展有限公司 一种云计算平台下的数据同步更新方法
CN106599308A (zh) * 2016-12-29 2017-04-26 郭晓凤 一种分布式元数据管理方法及系统
CN108268208A (zh) * 2016-12-30 2018-07-10 清华大学 一种基于rdma的分布式内存文件系统

Also Published As

Publication number Publication date
CN109407977A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109407977B (zh) 一种大数据分布式存储管理方法及系统
US11288282B2 (en) Distributed database systems and methods with pluggable storage engines
US10942812B2 (en) System and method for building a point-in-time snapshot of an eventually-consistent data store
WO2018001110A1 (zh) 一种基于纠删码的存储数据重构方法和装置、存储节点
US9547706B2 (en) Using colocation hints to facilitate accessing a distributed data storage system
KR101662212B1 (ko) 부분동기화 지원 데이터베이스 관리 시스템 및 데이터베이스 관리 시스템에서 부분동기화 방법
US20170220614A1 (en) Consistent ring namespaces facilitating data storage and organization in network infrastructures
US7546486B2 (en) Scalable distributed object management in a distributed fixed content storage system
CN105138571B (zh) 分布式文件系统及其存储海量小文件的方法
CN104424283A (zh) 一种数据迁移的系统和数据迁移的方法
CN103138912B (zh) 数据同步方法及系统
US20150169718A1 (en) System and method for supporting persistence partition discovery in a distributed data grid
US9405643B2 (en) Multi-level lookup architecture to facilitate failure recovery
US10169166B2 (en) Real-time fault-tolerant architecture for large-scale event processing
CN109460438B (zh) 消息数据存储方法、装置、计算机设备和存储介质
US10678817B2 (en) Systems and methods of scalable distributed databases
US20120278429A1 (en) Cluster system, synchronization controlling method, server, and synchronization controlling program
CN110784498B (zh) 一种个性化数据容灾方法及装置
CN105069152A (zh) 数据处理方法及装置
US20150169623A1 (en) Distributed File System, File Access Method and Client Device
US20210303594A1 (en) Recovering from a failure of an asynchronous replication node
CN115756955A (zh) 一种数据备份、数据恢复的方法、装置及计算机设备
CN113254460B (zh) 数据处理方法、系统、电子设备及存储介质
US10545825B2 (en) Fault-tolerant enterprise object storage system for small objects
CN107943615B (zh) 基于分布式集群的数据处理方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221216

Address after: Room 606-609, Compound Office Complex Building, No. 757, Dongfeng East Road, Yuexiu District, Guangzhou, Guangdong 510000

Patentee after: China Southern Power Grid Internet Service Co.,Ltd.

Address before: Room 301, No. 235, Kexue Avenue, Huangpu District, Guangzhou, Guangdong 510000

Patentee before: OURCHEM INFORMATION CONSULTING CO.,LTD.

Effective date of registration: 20221216

Address after: Room 301, No. 235, Kexue Avenue, Huangpu District, Guangzhou, Guangdong 510000

Patentee after: OURCHEM INFORMATION CONSULTING CO.,LTD.

Address before: 528000 Foshan Institute of science and technology, Xianxi reservoir West Road, Shishan town, Nanhai District, Foshan City, Guangdong Province

Patentee before: FOSHAN University

TR01 Transfer of patent right