CN202856793U - 一种超大规模低成本存储系统 - Google Patents
一种超大规模低成本存储系统 Download PDFInfo
- Publication number
- CN202856793U CN202856793U CN 201220510202 CN201220510202U CN202856793U CN 202856793 U CN202856793 U CN 202856793U CN 201220510202 CN201220510202 CN 201220510202 CN 201220510202 U CN201220510202 U CN 201220510202U CN 202856793 U CN202856793 U CN 202856793U
- Authority
- CN
- China
- Prior art keywords
- node
- metadata
- storage system
- configuration
- volume
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本实用新型公开一种超大规模低成本存储系统,包括:卷管理节点、元数据管理节点、块数据存储节点、用户挂载客户端和管理监控中心。本实用新型解决了现有存储解决方案中存在的易用性差、集成度不高、扩展性不强,成本较高等问题,实现了具有高可靠、性能优异、易维护、扩展性强、高密度的超大规模低成本的存储系统。本实用新型构建的系统,卷管理节点及元数据管理节点均采用双机热备方式,大大提高了系统的可靠性。
Description
技术领域
本实用新型涉及计算机及网络信息技术领域,尤其涉及一种超大规模低成本存储系统。
背景技术
随着信息时代的飞速发展,信息量的爆炸式增长已成为一种时代特征,随之而来的问题便是海量数据的存储问题,传统的硬盘式的存储显然难以满足需求,后来出现的DAS(Direct-Attached Storage--直连式存储)存储方式,解决了存储数据量的问题,但分立的DAS存储形成一个个孤岛,当一个存储容量饱和,即使其他的DAS设备有富余的容量也需要购买新的存储设备,而且新加一个服务器也要新加一个DAS,存储成本较高,后来的NAS(NetworkAttached Storage--网络连接式存储)和SAN(Storage Area Network--存储网络)解决了存储空间公用的问题,但随着数据量的增长,集群的性能和可扩展性又成了主要问题,也就无法实现超大规模低成本存储系统的构建。
实用新型内容
本实用新型实施的目的在于解决现有存储解决方案中存在的易用性差、集成度不高、扩展性不强,成本较高等问题,构建一种同时具有高可靠、性能优异、易维护、扩展性强、高密度的超大规模低成本的存储系统。
本实用新型采用如下技术方案:
一种超大规模低成本存储系统,包括以下模块:
卷管理节点(SuMaster)
该节点维护所有元数据服务器子集群的信息,为挂载客户端提供元数据服务器标识、IP地址和端口号信息;包括主卷管理服务器(SuperMaster)及备卷管理服务器(SlaveSuperMaster);
元数据管理节点(Master)
管理元数据,为挂载客户端提供元数据访问服务;包括主元数据服务器(Master)和备元数据服务器(Slave Master);
块数据存储节点(Data Node)
存储数据块,并根据配置的备份策略将数据块发送给由元数据管理节点选定的另一块数据存储节点进行数据块备份;
用户挂载客户端(MountClient)
文件系统挂载客户端,挂载后可对应用透明为普通的单点文件系统。
管理监控中心(NMC)
包括配置中心和监控中心,负责管理和监控整个存储系统,为管理员提供强大的管理功能,优化硬件资源配置。
现有技术中存储系统都是单台的元数据服务器、块数据服务器和访问客户端,元数据都保存在内存中,由于内存有限无法做到大规模扩张,因而存储的文件总数量有限,每个客户端只能访问一个个固定的小集群中的文件,而本实用新型构建的超大规模低成本存储系统以廉价的普通磁盘为介质,能够实现客户端自动的在多个集群中访问所有文件。存储服务器单节点可挂载16块硬盘,按照当前单盘容量为3TB来算,单节点容量可达48TB。采用卷管理服务器+子集群的架构可以满足100PB容量要求。一个标准的42U机架将能够提供高达1PB(1024TB)的容量。依照本方法构建的存储系统可提供海量数据存储,容量无上限,理论支撑容量可达到GP级,即1024*1024*1024PB,真正做到超大规模低成本存储。
本实用新型构建的系统,卷管理节点及元数据管理节点均采用双机热备方式,大大提高了系统的可靠性。
附图说明
图1为本实用新型系统架构图;
图2为本实用新型系统的组网方式及部署架构图;
图3是中心服务器模式图;
图4是Hash环示意图。
具体实施方式
下面结合附图对本实用新型的技术方案进行详细说明:
如图1、图2所示,本实用新型系统包括卷管理节点(SuMaster)、元数据管理节点(Master)、块数据存储节点(Data Node)、用户挂载客户端(MountClient)和管理监控中心(NMC)。
卷管理节点维护所有元数据服务器子集群的信息,为挂载客户端提供元数据服务器标识、IP地址和端口号信息,包括主卷管理服务器(SuperMaster)及备卷管理服务器(SlaveSuperMaster),主、备卷管理服务器通过同一个VIP(虚拟IP)对外提供服务,主、备卷管理服务器通过监控中心添加配置和维护两者状态统一。
元数据管理节点管理元数据,为挂载客户端提供元数据访问服务,包括主元数据服务器(Master)和备元数据服务器(Slave Master),主、备元数据服务器通过scoket网络通信,实时的把每次变化的元数据同步到备元数据服务器,如果元数据不一致,则通过全量同步达到两者一致,主、备元数据服务器通过同一个VIP对外提供服务。
块数据存储节点存储数据块,并根据配置的备份策略将数据块发送给另一块数据存储节点进行数据块备份,备份节点由Master根据当前的负载情况,选择负载最轻的块数据存储节点。
管理监控中心包括配置中心和监控中心,负责管理和监控整个存储系统,为管理员提供强大的管理功能,优化硬件资源配置。配置中心包括卷配置、节点参数配置、存储参数配置、用户配额管理和告警配置。监控中心包括存储空间监控、设备状态监控、程序状态监控、网络状态监控、磁盘状态监控、流量监控和全面告警。卷配置能够添加和删除卷;节点参数配置能设置块数据存储节点配置参数;存储参数配置能设置卷管理节点和元数据管理节点配置参数;用户配额管理能设置不同用户能使用存储空间的大小和文件的数目;告警配置用于设置告警级别和告警类型。存储空间监控能查看各个卷空间的大小和使用情况;设备状态监控能查看各个节点设备是否正常;程序状态监控能查看每个程序是否正常运行;网络状态监控查看网络健康情况;磁盘状态监控查看磁盘是否有损坏;流量监控查看节点流量状况;全面告警包括磁盘损坏、系统空间已满、有效期到期和硬件损坏告警。
下面从数据存储的角度进一步说明本实用新型系统的架构及组织方式。
1.元数据存储
●元数据存储于元数据管理节点(Master)服务器的内存中,并与本机进行持久化备份;
●元数据管理节点为主、备双机方式,提供高可靠不间断元数据管理服务,单机故障时可实现无缝快速切换,通过同一个VIP对外提供服务;
●考虑大容量数据存储时文件数量多,元数据容量大的问题,系统将元数据进行分布式存储,采用多个元数据管理节点进行元数据管理;
●元数据分布式存储,每个元数据管理节点均注册到卷管理服务器上,每个元数据管理节点有唯一标识;MasterID(元数据服务器标识)、IP地址、端口号信息在子集群信息管理节点卷管理节点中配置和维护;
●元数据管理节点ID中高N位为MasterID,避免了不同元数据管理节点产生节点ID重复;这里的N可根据业务应用场景需求进行配置;
●挂载客户端根据文件节点标识的高N位决定当次请求该发往哪个元数据管理节点。
2.分布式存储
本实用新型采用中心服务器模式来管理整个文件系统。中心管理服务器模式图如附图3:
元数据管理节点管理分布式文件系统中的一个卷的元数据。文件划分为块进行存储,对于元数据管理节点来说,每个块数据存储节点均注册到元数据管理节点,块数据存储节点只是一个存储空间。客户端发起的所有操作都需要先通过元数据管理节点才能执行。这样做有许多好处,增加新的块数据存储节点是一件十分容易的事情,块数据存储节点只需要注册到元数据管理节点上即可,块数据存储节点之间无任何关系。元数据管理节点维护了一个统一的命名空间,同时掌握整个系统内块数据存储节点的情况,据此可以实现整个系统范围内数据存储的负载均衡。由于只有一个中心服务器,元数据的一致性问题自然解决。
客户端对文件进行分块,然后可以选择不同的块存储到不同的存储服务器上,下一个块存储到负载比较小的存储服务器上,相对整个存储空间来说,实现了分布式存储。
3.挂载客户端访问
●客户端根据一定的哈希策略先从卷管理节点获取二级元数据管理节点信息,然后从二级元数据管理节点获取元数据信息;
●客户端与元数据管理节点进行元数据相关操作;
●读写数据前先从元数据管理节点获取块数据存储节点信息,然后与块数据存储节点通信进行数据读写操作;
●对于大文件,数据以64MB为单位被分为多块,Master根据轮询方法分配块存储节点,各块数据被同时分发到不同的块数据存储节点上;
●对于数量众多的小文件(小于64MB),则不需要分块,Master根据轮询方法分配块存储节点,将各小文件同时分发到不同的块数据存储节点上;
●为了解决网络传输瓶颈和提高数据传输的可靠性,向块数据存储节点上写的所有数据,采用队列(先入先出)缓存数据块,先被缓存到客户端,所有数据写到客户端以后即认为数据写入结束;
●为了提高传输速率,在缓存数据的同时,启动多个线程并发向多个块数据存储节点传输数据;
●以上各种策略充分保证了单客户端在读写数据时对带宽的饱和利用。
4、客户端
系统的应用主要体现在客户端对系统的访问:
1)客户端向卷管理节点获取集群的所有元数据管理节点配置信息,包括MasterID、IP地址、监听端口;
2)客户端通过MD5算法(MasterID)哈希得到一个128bit的大整数(作为标识),所有元数据管理节点的标识的信息哈希得到一个大整数环状结构。Hash环示意图如附图4
3)客户端进行文件操作时,若是在挂载点根目录下的操作,则根据第一级目录进行MD5计算得到一个值,通过这个值从第2步得到的环状结构中找到处理该文件夹的Master子集群。若是在挂载点根目录下的子文件夹操作,此时已经知道当前要处理的文件或文件夹元数据管理节点inode ID(节点ID),可根据卷管理节点返回的位信息取inode ID的前几位得到MasterID编号,从而确定处理该文件夹的Master子集群。
4)对根目录下的所有文件操作,都在第一个Master子集群上操作,而子目录下的文件或目录将被哈希到不同的Master子集群进行操作。
Claims (8)
1.一种超大规模低成本存储系统,其特征在于包括:
卷管理节点:
维护所有元数据服务器子集群的信息,为挂载客户端提供元数据服务器标识、IP地址和端口号信息;包括主卷管理服务器及备卷管理服务器;
元数据管理节点:
管理元数据,为挂载客户端提供元数据访问服务;包括主元数据服务器和备元数据服务器;
块数据存储节点:
存储数据块,并根据配置的备份策略将数据块发送给由元数据管理节点选定的另一块数据存储节点进行数据块备份;
用户挂载客户端:
文件系统挂载客户端,挂载后对应用透明为普通的单点文件系统;
管理监控中心:
包括配置中心和监控中心,负责管理和监控整个存储系统,为管理员提供强大的管理功能,优化硬件资源配置。
2.如权利要求1所述的超大规模低成本存储系统,其特征在于所述主、备卷管理服务器通过同一个VIP对外提供服务,主、备卷管理服务器通过管理监控中心添加配置和维护两者状态统一。
3.如权利要求1所述的超大规模低成本存储系统,其特征在于主、备元数据服务器通过scoket网络通信,实时地把每次变化的元数据同步到备元数据服务器,主、备元数据服务器通过同一个VIP对外提供服务。
4.如权利要求1所述的超大规模低成本存储系统,其特征在于配置中心包括卷配置、节点参数配置、存储参数配置、用户配额管理和告警配置;卷配置用于添加和删除卷;节点参数配置用于设置块数据存储节点配置参数;存储参数配置用于设置卷管理节点和元数据管理节点配置参数;用户配额管理用于设置不同用户使用存储空间的大小和文件的数目;告警配置用于设置告警级别和告警类型。
5.如权利要求1所述的超大规模低成本存储系统,其特征在于监控中心包括存储空间监控、设备状态监控、程序状态监控、网络状态监控、磁盘状态监控、流量监控和全面告警;存储空间监控用于查看各个卷空间的大小和使用情况;设备状态监控用于查看各个节点设备是否正常;程序状态监控用于查看每个程序是否正常运行;网络状态监控用于查看网络健康情况;磁盘状态监控用于查看磁盘是否有损坏;流量监控用于查看节点流量状况;全面告警包括磁盘损坏、系统空间已满、有效期到期和硬件损坏告警。
6.如权利要求1所述的超大规模低成本存储系统,其特征在于:每个元数据管理节点均注册到卷管理服务器上,每个元数据管理节点有唯一标识,元数据服务器标识、IP地址、端口号信息在卷管理节点中配置和维护。
7.如权利要求1所述的超大规模低成本存储系统,其特征在于:每个元数据管理节点管理分布式文件系统中的一个卷的元数据。
8.如权利要求1所述的超大规模低成本存储系统,其特征在于:每个块数据存储节点均注册到元数据管理节点上。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201220510202 CN202856793U (zh) | 2012-09-29 | 2012-09-29 | 一种超大规模低成本存储系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201220510202 CN202856793U (zh) | 2012-09-29 | 2012-09-29 | 一种超大规模低成本存储系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN202856793U true CN202856793U (zh) | 2013-04-03 |
Family
ID=47987936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201220510202 Expired - Lifetime CN202856793U (zh) | 2012-09-29 | 2012-09-29 | 一种超大规模低成本存储系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN202856793U (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104932986A (zh) * | 2014-03-19 | 2015-09-23 | 中国移动通信集团公司 | 一种数据重分布方法及装置 |
-
2012
- 2012-09-29 CN CN 201220510202 patent/CN202856793U/zh not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104932986A (zh) * | 2014-03-19 | 2015-09-23 | 中国移动通信集团公司 | 一种数据重分布方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102904948A (zh) | 一种超大规模低成本存储系统 | |
CN107547653B (zh) | 一种分布式文件存储系统 | |
CN111124301B (zh) | 一种对象存储设备的数据一致性存储方法及系统 | |
CN103763383B (zh) | 一体化云存储系统及其存储方法 | |
TWI759789B (zh) | 電腦實現的方法、非暫態的電腦可讀儲存媒體及儲存系統 | |
CN105335513B (zh) | 一种分布式文件系统及文件存储方法 | |
TWI766309B (zh) | 日誌結構儲存系統 | |
CN106066896B (zh) | 一种应用感知的大数据重复删除存储系统及方法 | |
CN103067461B (zh) | 一种文件的元数据管理系统以及元数据管理方法 | |
CN107046563A (zh) | 一种分布式高效云盘的实现方法、系统及云平台 | |
CN107844269A (zh) | 一种基于一致性哈希的分层混合存储系统及方法 | |
CN104735110B (zh) | 元数据管理方法和系统 | |
CN102833580B (zh) | 基于infiniband的高清视频应用系统及方法 | |
CN108881942B (zh) | 一种基于分布式对象存储的超融合常态录播系统 | |
CN103455577A (zh) | 云主机镜像文件的多备份就近存储和读取方法及系统 | |
TW202111564A (zh) | 日誌結構儲存系統 | |
US20150205819A1 (en) | Techniques for optimizing data flows in hybrid cloud storage systems | |
CN103888499A (zh) | 一种分布式对象处理的方法及系统 | |
Zhang et al. | Survey of research on big data storage | |
CN103488685B (zh) | 一种基于分布式存储系统的碎片文件存储方法 | |
CN103067488A (zh) | 一种统一存储的实现方法 | |
CN102664914A (zh) | 一种IS/DFS-Image分布式文件存储查询系统 | |
CN101916289A (zh) | 支持海量小文件和动态备份数的数字图书馆存储系统的构建方法 | |
CN109522283A (zh) | 一种重复数据删除方法及系统 | |
CN103501319A (zh) | 一种低延迟的面向小文件的分布式存储系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP03 | Change of name, title or address |
Address after: Everwise road in Qinhuai District of Nanjing City, Jiangsu province 210000 No. 6 Baixia Nanjing high tech Industrial Park, building four, building 9 layer A Patentee after: NANJING YUNCHUANG BIG DATA TECHNOLOGY Co.,Ltd. Address before: Guanghua Road, Baixia District Nanjing city Jiangsu province 210014 No. 1 Baixia High-tech Industrial Park incubator building, 1 floor Patentee before: NANJING INNOVATIVE CLOUD STORAGE TECHNOLOGY Co.,Ltd. |
|
CX01 | Expiry of patent term |
Granted publication date: 20130403 |
|
CX01 | Expiry of patent term |