CN103095837A - 一种实现lustre元数据服务器冗余的方法 - Google Patents
一种实现lustre元数据服务器冗余的方法 Download PDFInfo
- Publication number
- CN103095837A CN103095837A CN2013100179407A CN201310017940A CN103095837A CN 103095837 A CN103095837 A CN 103095837A CN 2013100179407 A CN2013100179407 A CN 2013100179407A CN 201310017940 A CN201310017940 A CN 201310017940A CN 103095837 A CN103095837 A CN 103095837A
- Authority
- CN
- China
- Prior art keywords
- lustre
- server
- mds
- servers
- drbd
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明提供一种实现lustre元数据服务器冗余的方法,通过在2台单独的服务器上部署mds元数据服务器和mdt元数据存储,使用drbd实现mdt的数据实时同步,使用heartbeat实现mdt的故障切换,实现lustre文件系统元数据服务器mds和元数据存储mdt的故障切换和冗余功能。通过lustre元数据服务器的冗余功能,能够满足当一个元数据主服务器宕掉后,元数据从服务器主动接替元数据服务器的工作,并能够保证元数据存储数据的一致性,使计算作业能够继续计算。
Description
技术领域
本发明涉及计算机技术领域,具体地说是一种实现lustre元数据服务器冗余的方法。
背景技术
在hpc高性能计算环境中,数据量的飞速增长和计算作业对I/O带宽的要求日益增加,NFS文件系统已经不能满足网络文件系统的需求,lustre作为一款开源的并行文件系统,其强大的扩展性能已经广泛应用于高性能计算集群环境中。
但随着lustre对容量和带宽能够满足计算I/O带宽需求的同时,lustre服务器的压力也逐渐增大,元数据服务器作为存储lustre元数据的设备,压力越大,故障率也越来越高。为了避免单点元数据服务器宕机带来整个lustre文件系统的宕机,使用heartbeat和drbd软件来实现lustre元数据服务器mds和元数据存储mdt的冗余功能。
发明内容
本发明的技术任务是解决现有技术的不足,提供实现lustre元数据服务器冗余的方法。
本发明的技术方案是按以下方式实现的,系统物理环境软硬件架构包括:
2台元数据服务器mds,分别使用自身磁盘做mdt,2台mdt之间使用drbd通过以太网做数据同步;
2台以上存储服务器oss,采用自身磁盘或挂载存储做ost;
2台以上lustre客户端服务器,客户端通过以太网或infiniband网络挂载lustre文件系统;
操作系统:Redhat linux
并行文件系统:lustre并行文件系统;
MDT同步工具:开源软件 drbd,通过以太网实现mdt的数据实时同步;
MDS自动切换工具:开源软件heartbeat,通过心跳线监测对方mds的健康状况;
元数据服务器切换确认:当主服务器宕掉后,heartbeat探测到对方设备异常,自动启用元数据从服务器,待切换完成后,在lustre客户端服务器上,使用lfs df 命令确认文件系统依旧正常,lustre文件系统依旧正常读写,且保持数据完整性和数据一致性;
具体步骤如下:
第一步:打破原有架构,部署2台单独的mds服务器,同时搭配7台oss服务器;
第二步:lustre客户端采用冗余挂载方式同时挂载2台mds服务器:
mount -t lustre mds1tcp0:mds2tcp0:/lustre /lustre/
第三步:2台mds服务器之间采用以太网进行互联,采用 drbd软件,实现2台mds服务器的sdb数据同步;
第四步:2台mds服务器之间使用以太网心跳线互联,采用heartbeat监视对方服务器的drbd资源是否正常;
第五步:当主服务器出现宕机后,从服务器检测到对方的drbd资源异常,自动接管drbd资源;
第五步:lustre客户端发现连接不到主mds服务器后,自动寻找从mds服务器;
第六步:lustre客户端挂载正常,可以使用lfs df命令确认lustre文件系统正常,作业不受影响。
经过以上调整后,lustre稳定运行,当需要针对mds服务器进行维护的时候,mds服务器自动切换,保证了lustre并行文系统的稳定性和数据一致性,从而保证HPC集群的稳定运行。
本发明具有以下突出的有益效果:本方法适用于HPC集群环境中lustre并行文件系统元数据服务器mds和元数据存储mdt的双机冗余功能。
附图说明
图1是系统硬件结构示意图;
图2是Lustre元数据服务器故障切换示意图;
图3是Lustre元数据服务器故障切换流程图。
具体实施方式
下面结合附图对本发明的方法作进一步详细说明。故障描述:
国内某重点大学的高性能计算集群,主要应用于海洋环境类科研项目计算。计算作业多采用耦合模式,每天作业产生的计算数据大约2TB左右,I/O带宽要求大约2GB/S。前期该集群采用了某厂商定制的lustre文件系统,采用单点mds服务器(同时做oss服务器),另外搭配7台oss服务器。由于mds节点I/O压力较大,多次出现mds宕机现象。由于mds宕机导致正在运算的作业停掉,很多作业已经运算了几个月,所有的功劳功亏一篑。
处理过程如下:
为了定位故障原因,解决客户问题。采用系统监控工具对服务器的压力进行了测试分析,最后定位是由于mds服务器压力过大导致的mds宕机。于是针对现有集群进行重新的调整;
第一步:打破原有架构,部署2台单独的mds服务器,同时搭配7台oss服务器;
第二步:lustre客户端采用冗余挂载方式同时挂载2台mds服务器:
mount -t lustre mds1tcp0:mds2tcp0:/lustre /lustre/
第三步:2台mds服务器之间采用以太网进行互联,采用 drbd软件,实现2台mds服务器的sdb数据同步;
第四步:2台mds服务器之间使用以太网心跳线互联,采用heartbeat监视对方服务器的drbd资源是否正常;
第五步:当主服务器出现宕机后,从服务器检测到对方的drbd资源异常,自动接管drbd资源;
第五步:lustre客户端发现连接不到主mds服务器后,自动寻找从mds服务器;
第六步:lustre客户端挂载正常,可以使用lfs df命令确认lustre文件系统正常,作业不受影响。
经过以上调整后,lustre稳定运行,当需要针对mds服务器进行维护的时候,mds服务器自动切换,保证了lustre并行文系统的稳定性和数据一致性,从而保证HPC集群的稳定运行。
除本发明的说明书公开的技术特征外均为本专业技术人员的公职技术。
Claims (1)
1.一种实现lustre元数据服务器冗余的方法,其特征在于,系统物理环境软硬件架构包括:
2台元数据服务器mds,分别使用自身磁盘做mdt,2台mdt之间使用drbd通过以太网做数据同步;
2台以上存储服务器oss,采用自身磁盘或挂载存储做ost;
2台以上lustre客户端服务器,客户端通过以太网或infiniband网络挂载lustre文件系统;
操作系统:Redhat linux
并行文件系统:lustre并行文件系统;
MDT同步工具:开源软件 drbd,通过以太网实现mdt的数据实时同步;
MDS自动切换工具:开源软件heartbeat,通过心跳线监测对方mds的健康状况;
元数据服务器切换确认:当主服务器宕掉后,heartbeat探测到对方设备异常,自动启用元数据从服务器,待切换完成后,在lustre客户端服务器上,使用lfs df 命令确认文件系统依旧正常,lustre文件系统依旧正常读写,且保持数据完整性和数据一致性;
具体步骤如下:
第一步:打破原有架构,部署2台单独的mds服务器,同时搭配7台oss服务器;
第二步:lustre客户端采用冗余挂载方式同时挂载2台mds服务器:
mount -t lustre mds1tcp0:mds2tcp0:/lustre /lustre/
第三步:2台mds服务器之间采用以太网进行互联,采用 drbd软件,实现2台mds服务器的sdb数据同步;
第四步:2台mds服务器之间使用以太网心跳线互联,采用heartbeat监视对方服务器的drbd资源是否正常;
第五步:当主服务器出现宕机后,从服务器检测到对方的drbd资源异常,自动接管drbd资源;
第五步:lustre客户端发现连接不到主mds服务器后,自动寻找从mds服务器;
第六步:lustre客户端挂载正常,可以使用lfs df命令确认lustre文件系统正常,作业不受影响;
经过以上调整后,lustre稳定运行,当需要针对mds服务器进行维护的时候,mds服务器自动切换,保证了lustre并行文系统的稳定性和数据一致性,从而保证HPC集群的稳定运行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013100179407A CN103095837A (zh) | 2013-01-18 | 2013-01-18 | 一种实现lustre元数据服务器冗余的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013100179407A CN103095837A (zh) | 2013-01-18 | 2013-01-18 | 一种实现lustre元数据服务器冗余的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103095837A true CN103095837A (zh) | 2013-05-08 |
Family
ID=48207960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013100179407A Pending CN103095837A (zh) | 2013-01-18 | 2013-01-18 | 一种实现lustre元数据服务器冗余的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103095837A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103384267A (zh) * | 2013-06-07 | 2013-11-06 | 曙光信息产业(北京)有限公司 | 一种基于分布式块设备的Parastor200并行存储管理节点高可用方法 |
CN103986755A (zh) * | 2014-05-12 | 2014-08-13 | 浪潮电子信息产业股份有限公司 | 一种高安全的全冗余并行文件系统实现方法 |
CN103986789A (zh) * | 2014-06-05 | 2014-08-13 | 浪潮电子信息产业股份有限公司 | 一种实现基于nfs的hadoop ha集群中nfs节点双机冗余的方法 |
CN104023061A (zh) * | 2014-06-10 | 2014-09-03 | 浪潮电子信息产业股份有限公司 | 一种lustre的oss高可用集群方案 |
CN105549912A (zh) * | 2015-12-21 | 2016-05-04 | 浪潮电子信息产业股份有限公司 | 同时包含多种类操作系统的服务器集群的存储方法 |
CN105634813A (zh) * | 2016-01-04 | 2016-06-01 | 浪潮电子信息产业股份有限公司 | 一种基于网络的双机环境下节点自动切换的方法 |
CN107291390A (zh) * | 2017-06-20 | 2017-10-24 | 郑州云海信息技术有限公司 | 一种数据分级存储方法及装置 |
CN107665253A (zh) * | 2017-09-22 | 2018-02-06 | 郑州云海信息技术有限公司 | 可配置的mds的平衡控制方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102144382A (zh) * | 2008-08-18 | 2011-08-03 | 通用电气智能平台有限公司 | 用于冗余服务器自动故障转移的方法和系统 |
CN102576324A (zh) * | 2009-09-18 | 2012-07-11 | 阿尔卡特朗讯公司 | 动态网络中的改进型服务器冗余方法 |
CN102655460A (zh) * | 2012-01-05 | 2012-09-05 | 中国工商银行股份有限公司 | 一种生产服务器冗余备份方法及系统 |
-
2013
- 2013-01-18 CN CN2013100179407A patent/CN103095837A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102144382A (zh) * | 2008-08-18 | 2011-08-03 | 通用电气智能平台有限公司 | 用于冗余服务器自动故障转移的方法和系统 |
CN102576324A (zh) * | 2009-09-18 | 2012-07-11 | 阿尔卡特朗讯公司 | 动态网络中的改进型服务器冗余方法 |
CN102655460A (zh) * | 2012-01-05 | 2012-09-05 | 中国工商银行股份有限公司 | 一种生产服务器冗余备份方法及系统 |
Non-Patent Citations (2)
Title |
---|
张晓波: ""基于高性能集群计算的并行文件系统关键技术研究"", 《西安电子科技大学硕士学位论文》 * |
李江昀 , 童朝南 , 彭开香: ""基于Linux平台的过程控制双机热备综合解决方案"", 《计算机工程与应用》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103384267A (zh) * | 2013-06-07 | 2013-11-06 | 曙光信息产业(北京)有限公司 | 一种基于分布式块设备的Parastor200并行存储管理节点高可用方法 |
CN103384267B (zh) * | 2013-06-07 | 2017-09-01 | 曙光信息产业(北京)有限公司 | 一种基于分布式块设备的Parastor200并行存储管理节点高可用方法 |
CN103986755A (zh) * | 2014-05-12 | 2014-08-13 | 浪潮电子信息产业股份有限公司 | 一种高安全的全冗余并行文件系统实现方法 |
CN103986789A (zh) * | 2014-06-05 | 2014-08-13 | 浪潮电子信息产业股份有限公司 | 一种实现基于nfs的hadoop ha集群中nfs节点双机冗余的方法 |
CN104023061A (zh) * | 2014-06-10 | 2014-09-03 | 浪潮电子信息产业股份有限公司 | 一种lustre的oss高可用集群方案 |
CN105549912A (zh) * | 2015-12-21 | 2016-05-04 | 浪潮电子信息产业股份有限公司 | 同时包含多种类操作系统的服务器集群的存储方法 |
CN105634813A (zh) * | 2016-01-04 | 2016-06-01 | 浪潮电子信息产业股份有限公司 | 一种基于网络的双机环境下节点自动切换的方法 |
CN107291390A (zh) * | 2017-06-20 | 2017-10-24 | 郑州云海信息技术有限公司 | 一种数据分级存储方法及装置 |
CN107291390B (zh) * | 2017-06-20 | 2020-05-15 | 苏州浪潮智能科技有限公司 | 一种数据分级存储方法及装置 |
CN107665253A (zh) * | 2017-09-22 | 2018-02-06 | 郑州云海信息技术有限公司 | 可配置的mds的平衡控制方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103095837A (zh) | 一种实现lustre元数据服务器冗余的方法 | |
US11734306B2 (en) | Data replication method and storage system | |
WO2019154394A1 (zh) | 分布式数据库集群系统、数据同步方法及存储介质 | |
CN103297543A (zh) | 一种基于计算机集群作业调度的方法 | |
US10482104B2 (en) | Zero-data loss recovery for active-active sites configurations | |
AU2011312029B2 (en) | Automatic replication of virtual machines | |
CN104320401A (zh) | 一种基于分布式文件系统的大数据存储访问系统及方法 | |
US10216589B2 (en) | Smart data replication recoverer | |
GB2499533A (en) | Storage management in clustered data processing systems | |
CN103812699A (zh) | 基于云计算的监控管理系统 | |
CN104735110B (zh) | 元数据管理方法和系统 | |
US9128902B2 (en) | Systems and methods for managing disaster recovery in a storage system | |
CN102708158B (zh) | 一种PostgreSQL云存储归档调度系统 | |
CN102413172B (zh) | 一种基于集群技术的并行数据共享装置方法和装置 | |
CN110795503A (zh) | 分布式存储系统的多集群数据同步方法及相关装置 | |
CN105471622A (zh) | 一种基于Galera的控制节点主备切换的高可用方法及系统 | |
CN108173959A (zh) | 一种集群存储系统 | |
US9047126B2 (en) | Continuous availability between sites at unlimited distances | |
CN111045602A (zh) | 集群系统控制方法及集群系统 | |
CN103384266A (zh) | 一种基于文件级实时同步的Parastor200管理节点高可用方法 | |
US9424133B2 (en) | Providing an eventually-consistent snapshot of nodes in a storage network | |
CN102820998B (zh) | 实现面向办公应用的双机容错服务系统及其数据存储方法 | |
CN109474694A (zh) | 一种基于san存储阵列的nas集群的管控方法及装置 | |
CN203054824U (zh) | 一种服务器存储系统 | |
CN103731292A (zh) | 一种实现服务器故障无缝恢复的容错方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130508 |