CN102404201B - 一种实现Lustre并行文件系统最大带宽的方法 - Google Patents

一种实现Lustre并行文件系统最大带宽的方法 Download PDF

Info

Publication number
CN102404201B
CN102404201B CN201110319986.5A CN201110319986A CN102404201B CN 102404201 B CN102404201 B CN 102404201B CN 201110319986 A CN201110319986 A CN 201110319986A CN 102404201 B CN102404201 B CN 102404201B
Authority
CN
China
Prior art keywords
bandwidth
node
lustre
client
file system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110319986.5A
Other languages
English (en)
Other versions
CN102404201A (zh
Inventor
张晓平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201110319986.5A priority Critical patent/CN102404201B/zh
Publication of CN102404201A publication Critical patent/CN102404201A/zh
Application granted granted Critical
Publication of CN102404201B publication Critical patent/CN102404201B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种实现Lustre并行文件系统最大带宽的方法,包括:在服务器上配置raid信息,在一套被测物理集群上安装linux操作系统,在操作系统上,部署Lustre并行文件系统。再使用集群中计算接点作为客户端,由客户端向Lustre文件系统进行加压,通过查看服务器物理资源来衡量Lustre文件系统的IO性能。因此,本发明对为服务器厂商、向客户提供整体高性能计算解决方案具有非常重要的意义。

Description

一种实现Lustre并行文件系统最大带宽的方法
技术领域
本发明涉及一种计算机网络集群技术领域,具体地说是一种实现Lustre并行文件系统最大带宽的方法。
背景技术
Lustre是HP,Intel,Cluster File System公司联合美国能源部开的Linux集群并行文件系统。主要应用于高性能计算行业。Lustre 主要由Lustre Client,High Speed Interconnect,Metadata Server,Object Storage,Server组件组成,在高性能计算环境中,一般使用Lustre文件系统作为集群文件系统,但如何让Lustre发挥最大的性能呢,即如何让集群文件系统达到最大的带宽,这是我们要考虑的。
本文假设用户的资金充裕,购买一套高性能集群,该集群由1个管理结点,512个计算结点,2个登陆结点、12个 IO 结点、12个存储、1个胖结点组成,配备1套千兆网络,1套INFINIBAND网络。
每个IO结点的存储系统由1块5805 RAID卡和6块SAS磁盘组成,每个存储结点的存储系统由1块存储控制器和12块SAS磁盘组成。
由于千兆网络的带宽为1Gb/S,INFINIBAND网络的带宽为40Gb/S。当磁盘带宽大于1Gb/S时,千兆网络存在瓶颈,我们的工作是为了消除由于网络引起的瓶颈,在如下的方案中,我们的交换网络均采用INFINIBAND网络。
发明内容
本发明的目的是提供一种实现Lustre并行文件系统最大带宽的方法。
本发明的目的是按以下方式实现的,包括1个管理结点、512个计算结点、2个登陆结点、12个 IO 结点、12个存储节点、1个胖结点组成组成的集群系统,配备1套千兆网络,1套INFINIBAND网络;每个IO结点的存储系统由1块5805 RAID卡和6块SAS磁盘组成,每个存储结点的存储系统由1块存储控制器和12块SAS磁盘组成,由于千兆网络的带宽为1Gb/S,INFINIBAND网络的带宽为40Gb/S,当磁盘带宽大于1Gb/S时,千兆网络存在瓶颈,为了消除由于网络引起的瓶颈,采用如下方案:
1)针对于IO结点,每个SAS磁盘单独做一个RAID0,共计6个RAID0;
2)针对于存储结点,每个SAS磁盘单独做一个RAID0,共计12个RAID0;
3)选取一个IO结点,用其6块SAS磁盘做一个RAID5,共计1个RAID5;
4)每个存储结点通过光纤连接到对应的IO结点上;
5)用RAID 0组成Lustre的OST,共计210个OST;
6)用RAID 5组成Lustre的MDT,共计1个MDT;
7)部署安装Lustre文件系统client,mds,oss;
8)使用512个client同时向Lustre文件系统写50G数据:
命令如下:dd if=/dev/zero of=/luster/c$$b$$test bs=1M count=50000
9)统计带宽   计算方法如下:
Client c01b01的io 带宽+ Client c01b02的io 带宽+…..Client c0nb0n的io 带宽……+……Client cnnbnn的io 带宽…..+Client c37b08……的io 带宽计算后,总带宽为4GB/S。大约为INFINBAND带宽的80%,系统资源瓶颈出现在INFINBBAND,如需要,则可以把INFINBAND做成链路聚合,这样INFINBAND的带宽上升为80Gb/s,则Lustre的带宽预估算上升到8GB/S;
 10)经过上述步骤,Lustre的带宽性能达最大,在数据安全性上不是最优,为使数据安全性最优,再采用如下步骤:
(1)令每两个OSS做成双机热备,每两个MDS做成双机热备,这样实现数据安全性最优;
(2)通过备份软件实现对Lustre文件系统的备份,包括EMC networker。
本发明的有益效果是:本发明有效的解决Lustre文件系统传统带宽低下的问题,是基于高性能计算,本方法能使Lustre的带宽达最优,满足客户对高的磁盘带宽的要求,基于该发明,可以扩展应用到搭建高性能的存储文件系统。
附图说明
图1是存储节点连接结构示意图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
本发明的实现Lustre并行文件系统最大带宽的方法, 包括1个管理结点、512个计算结点、2个登陆结点、12个 IO 结点、12个存储节点、1个胖结点组成组成的集群系统,配备1套千兆网络,1套INFINIBAND网络;每个IO结点的存储系统由1块5805 RAID卡和6块SAS磁盘组成,每个存储结点的存储系统由1块存储控制器和12块SAS磁盘组成,由于千兆网络的带宽为1Gb/S,INFINIBAND网络的带宽为40Gb/S,当磁盘带宽大于1Gb/S时,千兆网络存在瓶颈,为了消除由于网络引起的瓶颈,包括如下步骤:
1)针对于IO结点,每个SAS磁盘单独做一个RAID0,共计6个RAID0;
2)针对于存储结点,每个SAS磁盘单独做一个RAID0,共计12个RAID0;
3)选取一个IO结点,用其6块SAS磁盘做一个RAID5,共计1个RAID5;
4)每个存储结点通过光纤连接到对应的IO结点上;
如图1所示:空心圆表示磁盘做RAID 0,实心圆表示磁盘做RAID 5;
5)用RAID 0组成Lustre的OST,共计210个OST;
6)用RAID 5组成Lustre的MDT,共计1个MDT;
7)部署安装Lustre文件系统(client,mds,oss);
8)使用512个client同时向Lustre文件系统写50G数据:
命令如下:dd if=/dev/zero of=/luster/c$$b$$test bs=1M count=50000
9)统计带宽   计算方法如下:
Client c01b01的io 带宽+ Client c01b02的io 带宽+…..Client c0nb0n的io 带宽……+……Client cnnbnn的io 带宽…..+Client c37b08……的io 带宽计算后,总带宽为4GB/S。大约为INFINBAND带宽的80%,系统资源瓶颈出现在INFINBBAND,如需要,则可以把INFINBAND做成链路聚合,这样INFINBAND的带宽上升为80Gb/s,则Lustre的带宽预估算上升到8GB/S;
 10)经过上述方案,Lustre的带宽性能达最大,在数据安全性上不是最优,为使数据安全性最优,可以通过方法一,令每两个OSS做成双机热备,每两个MDS做成双机热备。这样可以实现数据安全性最优。方法二,通过备份软件实现对Lustre文件系统的备份(如:EMC networker)。
综上所述,本发明有效的解决Lustre文件系统传统带宽低下。是基于高性能计算,本方法能使Lustre的带宽达最优。满足客户对高的磁盘带宽的要求。基于该发明,可以扩展应用到搭建高性能的存储文件系统。
以上所述,仅为本发明较佳的具体实施方式,介但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可以轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种在集群系统中实现Lustre并行文件系统最大带宽的方法, 其特征在于,该集群系统由1个管理结点、512个计算结点、2个登陆结点、12个 IO 结点、12个存储节点、1个胖结点组成,还配备1套千兆网络,1套INFINIBAND网络;每个IO结点的存储系统由1块5805 RAID卡和6块SAS磁盘组成,每个存储结点的存储系统由1块存储控制器和12块SAS磁盘组成,由于千兆网络的带宽为1Gb/S,INFINIBAND网络的带宽为40Gb/S,当磁盘带宽大于1Gb/S时,千兆网络存在瓶颈,为了消除由于网络引起的瓶颈,采用如下方案:
1)针对于IO结点,每个SAS磁盘单独做一个RAID0,共计6个RAID0;
2)针对于存储结点,每个SAS磁盘单独做一个RAID0,共计12个RAID0;
3)选取一个IO结点,用其6块SAS磁盘做一个RAID5,共计1个RAID5;
4)每个存储结点通过光纤连接到对应的IO结点上;
5)用RAID 0组成Lustre的OST,共计210个OST;
6)用RAID 5组成Lustre的MDT,共计1个MDT;
7)部署安装Lustre文件系统client,mds,oss;
8)使用512个client同时向Lustre文件系统写50G数据:
命令如下:dd if=/dev/zero of=/luster/c$$b$$test bs=1M count=50000
9)统计带宽   计算方法如下:
Client c01b01的io 带宽+ Client c01b02的io 带宽+…..Client c0nb0n的io 带宽……+……Client cnnbnn的io 带宽…..+Client c37b08……的io 带宽计算后,总带宽为4GB/S,为INFINIBAND带宽的80%,系统资源瓶颈出现在INFINIBAND,如需要,则可以把INFINIBAND做成链路聚合,这样INFINIBAND的带宽上升为80Gb/s,则Lustre的带宽预估算上升到8GB/S;
 10)经过上述步骤,Lustre的带宽性能达最大,在数据安全性上不是最优,为使数据安全性最优,再采用如下步骤:
(1)令每两个OSS做成双机热备,每两个MDS做成双机热备,这样实现数据安全性最优;
(2)通过备份软件实现对Lustre文件系统的备份,备份软件包括EMC networker。
CN201110319986.5A 2011-10-20 2011-10-20 一种实现Lustre并行文件系统最大带宽的方法 Active CN102404201B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110319986.5A CN102404201B (zh) 2011-10-20 2011-10-20 一种实现Lustre并行文件系统最大带宽的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110319986.5A CN102404201B (zh) 2011-10-20 2011-10-20 一种实现Lustre并行文件系统最大带宽的方法

Publications (2)

Publication Number Publication Date
CN102404201A CN102404201A (zh) 2012-04-04
CN102404201B true CN102404201B (zh) 2014-11-26

Family

ID=45886004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110319986.5A Active CN102404201B (zh) 2011-10-20 2011-10-20 一种实现Lustre并行文件系统最大带宽的方法

Country Status (1)

Country Link
CN (1) CN102404201B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103077245A (zh) * 2013-01-18 2013-05-01 浪潮电子信息产业股份有限公司 一种利用集群计算节点空闲硬盘空间扩展并行文件系统的方法
CN103646194B (zh) * 2013-11-29 2016-04-06 北京广利核系统工程有限公司 一种基于形式化验证的同步数据流程序的可信排序方法
CN104378442B (zh) * 2014-11-26 2017-08-25 北京航空航天大学 一种减少资源竞争的Trace文件转储方法
CN104598568A (zh) * 2015-01-12 2015-05-06 浪潮电子信息产业股份有限公司 一种高效、低功耗的离线存储系统及方法
CN106227839A (zh) * 2016-07-26 2016-12-14 浪潮电子信息产业股份有限公司 一种lustre文件系统的扩容方法及装置
CN110162312B (zh) * 2019-05-28 2023-01-06 苏州浪潮智能科技有限公司 一种基于IML的BeeGFS配置方法与装置
CN111506542B (zh) * 2020-04-17 2022-08-19 苏州浪潮智能科技有限公司 一种文件系统架构的性能调整方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980192B (zh) * 2010-10-15 2014-03-12 中兴通讯股份有限公司南京分公司 一种基于对象的集群文件系统管理方法及集群文件系统
CN102147809B (zh) * 2011-03-22 2013-12-18 曙光信息产业股份有限公司 一种并行文件系统及其管理方法

Also Published As

Publication number Publication date
CN102404201A (zh) 2012-04-04

Similar Documents

Publication Publication Date Title
CN102404201B (zh) 一种实现Lustre并行文件系统最大带宽的方法
CN105843557B (zh) 冗余存储系统、冗余存储方法和冗余存储装置
Zhang et al. Application-aware and software-defined SSD scheme for tencent large-scale storage system
CN102841759B (zh) 一种针对超大规模虚拟机集群的存储系统
CN104333586A (zh) 一种基于光纤链路的san存储设计方法
CN102820998B (zh) 实现面向办公应用的双机容错服务系统及其数据存储方法
CN105516313A (zh) 一种用于大数据的分布式存储系统
CN101815078B (zh) 嵌入式虚拟磁带库并行存储系统
CN106888116A (zh) 一种双控制器集群共享资源的调度方法
CN106209478A (zh) 一种基于OpenStack的公有云网络构架系统
Saini et al. An application-based performance evaluation of nasa's nebula cloud computing platform
CN103209219A (zh) 一种分布式集群文件系统
CN105653213A (zh) 一种基于Freescale P3041的双控磁盘阵列
Dufrasne et al. IBM DS8870 Architecture and Implementation (release 7.5)
CN202856789U (zh) 一种融合nas和san的数据资源存储系统
CN203054824U (zh) 一种服务器存储系统
He et al. STICS: SCSI-to-IP cache for storage area networks
CN104601729A (zh) 一种采用NVMe实现高性能云存储的方法
Ruan et al. Improving Shuffle I/O performance for big data processing using hybrid storage
CN102799708A (zh) 应用于电磁仿真的gpu高性能计算平台装置
CN206948385U (zh) 一种大数据智能化分析运算处理系统
CN103901962A (zh) 大容量存储系统设备
CN204031220U (zh) 一种智能网络磁盘存储系统
CN104202259B (zh) 一种服务器动态资源重构的sas传输性能加速方法
Poat et al. Achieving cost/performance balance ratio using tiered storage caching techniques: A case study with CephFS

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant