CN102404201B - 一种实现Lustre并行文件系统最大带宽的方法 - Google Patents
一种实现Lustre并行文件系统最大带宽的方法 Download PDFInfo
- Publication number
- CN102404201B CN102404201B CN201110319986.5A CN201110319986A CN102404201B CN 102404201 B CN102404201 B CN 102404201B CN 201110319986 A CN201110319986 A CN 201110319986A CN 102404201 B CN102404201 B CN 102404201B
- Authority
- CN
- China
- Prior art keywords
- bandwidth
- node
- lustre
- client
- file system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- VQLYBLABXAHUDN-UHFFFAOYSA-N bis(4-fluorophenyl)-methyl-(1,2,4-triazol-1-ylmethyl)silane;methyl n-(1h-benzimidazol-2-yl)carbamate Chemical compound C1=CC=C2NC(NC(=O)OC)=NC2=C1.C=1C=C(F)C=CC=1[Si](C=1C=CC(F)=CC=1)(C)CN1C=NC=N1 VQLYBLABXAHUDN-UHFFFAOYSA-N 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 238000003860 storage Methods 0.000 claims description 24
- 230000006855 networking Effects 0.000 claims description 12
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 239000002932 luster Substances 0.000 claims description 3
- 239000013307 optical fiber Substances 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种实现Lustre并行文件系统最大带宽的方法,包括:在服务器上配置raid信息,在一套被测物理集群上安装linux操作系统,在操作系统上,部署Lustre并行文件系统。再使用集群中计算接点作为客户端,由客户端向Lustre文件系统进行加压,通过查看服务器物理资源来衡量Lustre文件系统的IO性能。因此,本发明对为服务器厂商、向客户提供整体高性能计算解决方案具有非常重要的意义。
Description
技术领域
本发明涉及一种计算机网络集群技术领域,具体地说是一种实现Lustre并行文件系统最大带宽的方法。
背景技术
Lustre是HP,Intel,Cluster File System公司联合美国能源部开的Linux集群并行文件系统。主要应用于高性能计算行业。Lustre 主要由Lustre Client,High Speed Interconnect,Metadata Server,Object Storage,Server组件组成,在高性能计算环境中,一般使用Lustre文件系统作为集群文件系统,但如何让Lustre发挥最大的性能呢,即如何让集群文件系统达到最大的带宽,这是我们要考虑的。
本文假设用户的资金充裕,购买一套高性能集群,该集群由1个管理结点,512个计算结点,2个登陆结点、12个 IO 结点、12个存储、1个胖结点组成,配备1套千兆网络,1套INFINIBAND网络。
每个IO结点的存储系统由1块5805 RAID卡和6块SAS磁盘组成,每个存储结点的存储系统由1块存储控制器和12块SAS磁盘组成。
由于千兆网络的带宽为1Gb/S,INFINIBAND网络的带宽为40Gb/S。当磁盘带宽大于1Gb/S时,千兆网络存在瓶颈,我们的工作是为了消除由于网络引起的瓶颈,在如下的方案中,我们的交换网络均采用INFINIBAND网络。
发明内容
本发明的目的是提供一种实现Lustre并行文件系统最大带宽的方法。
本发明的目的是按以下方式实现的,包括1个管理结点、512个计算结点、2个登陆结点、12个 IO 结点、12个存储节点、1个胖结点组成组成的集群系统,配备1套千兆网络,1套INFINIBAND网络;每个IO结点的存储系统由1块5805 RAID卡和6块SAS磁盘组成,每个存储结点的存储系统由1块存储控制器和12块SAS磁盘组成,由于千兆网络的带宽为1Gb/S,INFINIBAND网络的带宽为40Gb/S,当磁盘带宽大于1Gb/S时,千兆网络存在瓶颈,为了消除由于网络引起的瓶颈,采用如下方案:
1)针对于IO结点,每个SAS磁盘单独做一个RAID0,共计6个RAID0;
2)针对于存储结点,每个SAS磁盘单独做一个RAID0,共计12个RAID0;
3)选取一个IO结点,用其6块SAS磁盘做一个RAID5,共计1个RAID5;
4)每个存储结点通过光纤连接到对应的IO结点上;
5)用RAID 0组成Lustre的OST,共计210个OST;
6)用RAID 5组成Lustre的MDT,共计1个MDT;
7)部署安装Lustre文件系统client,mds,oss;
8)使用512个client同时向Lustre文件系统写50G数据:
命令如下:dd if=/dev/zero of=/luster/c$$b$$test bs=1M count=50000
9)统计带宽 计算方法如下:
Client c01b01的io 带宽+ Client c01b02的io 带宽+…..Client c0nb0n的io 带宽……+……Client cnnbnn的io 带宽…..+Client c37b08……的io 带宽计算后,总带宽为4GB/S。大约为INFINBAND带宽的80%,系统资源瓶颈出现在INFINBBAND,如需要,则可以把INFINBAND做成链路聚合,这样INFINBAND的带宽上升为80Gb/s,则Lustre的带宽预估算上升到8GB/S;
10)经过上述步骤,Lustre的带宽性能达最大,在数据安全性上不是最优,为使数据安全性最优,再采用如下步骤:
(1)令每两个OSS做成双机热备,每两个MDS做成双机热备,这样实现数据安全性最优;
(2)通过备份软件实现对Lustre文件系统的备份,包括EMC networker。
本发明的有益效果是:本发明有效的解决Lustre文件系统传统带宽低下的问题,是基于高性能计算,本方法能使Lustre的带宽达最优,满足客户对高的磁盘带宽的要求,基于该发明,可以扩展应用到搭建高性能的存储文件系统。
附图说明
图1是存储节点连接结构示意图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
本发明的实现Lustre并行文件系统最大带宽的方法, 包括1个管理结点、512个计算结点、2个登陆结点、12个 IO 结点、12个存储节点、1个胖结点组成组成的集群系统,配备1套千兆网络,1套INFINIBAND网络;每个IO结点的存储系统由1块5805 RAID卡和6块SAS磁盘组成,每个存储结点的存储系统由1块存储控制器和12块SAS磁盘组成,由于千兆网络的带宽为1Gb/S,INFINIBAND网络的带宽为40Gb/S,当磁盘带宽大于1Gb/S时,千兆网络存在瓶颈,为了消除由于网络引起的瓶颈,包括如下步骤:
1)针对于IO结点,每个SAS磁盘单独做一个RAID0,共计6个RAID0;
2)针对于存储结点,每个SAS磁盘单独做一个RAID0,共计12个RAID0;
3)选取一个IO结点,用其6块SAS磁盘做一个RAID5,共计1个RAID5;
4)每个存储结点通过光纤连接到对应的IO结点上;
如图1所示:空心圆表示磁盘做RAID 0,实心圆表示磁盘做RAID 5;
5)用RAID 0组成Lustre的OST,共计210个OST;
6)用RAID 5组成Lustre的MDT,共计1个MDT;
7)部署安装Lustre文件系统(client,mds,oss);
8)使用512个client同时向Lustre文件系统写50G数据:
命令如下:dd if=/dev/zero of=/luster/c$$b$$test bs=1M count=50000
9)统计带宽 计算方法如下:
Client c01b01的io 带宽+ Client c01b02的io 带宽+…..Client c0nb0n的io 带宽……+……Client cnnbnn的io 带宽…..+Client c37b08……的io 带宽计算后,总带宽为4GB/S。大约为INFINBAND带宽的80%,系统资源瓶颈出现在INFINBBAND,如需要,则可以把INFINBAND做成链路聚合,这样INFINBAND的带宽上升为80Gb/s,则Lustre的带宽预估算上升到8GB/S;
10)经过上述方案,Lustre的带宽性能达最大,在数据安全性上不是最优,为使数据安全性最优,可以通过方法一,令每两个OSS做成双机热备,每两个MDS做成双机热备。这样可以实现数据安全性最优。方法二,通过备份软件实现对Lustre文件系统的备份(如:EMC networker)。
综上所述,本发明有效的解决Lustre文件系统传统带宽低下。是基于高性能计算,本方法能使Lustre的带宽达最优。满足客户对高的磁盘带宽的要求。基于该发明,可以扩展应用到搭建高性能的存储文件系统。
以上所述,仅为本发明较佳的具体实施方式,介但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可以轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (1)
1.一种在集群系统中实现Lustre并行文件系统最大带宽的方法, 其特征在于,该集群系统由1个管理结点、512个计算结点、2个登陆结点、12个 IO 结点、12个存储节点、1个胖结点组成,还配备1套千兆网络,1套INFINIBAND网络;每个IO结点的存储系统由1块5805 RAID卡和6块SAS磁盘组成,每个存储结点的存储系统由1块存储控制器和12块SAS磁盘组成,由于千兆网络的带宽为1Gb/S,INFINIBAND网络的带宽为40Gb/S,当磁盘带宽大于1Gb/S时,千兆网络存在瓶颈,为了消除由于网络引起的瓶颈,采用如下方案:
1)针对于IO结点,每个SAS磁盘单独做一个RAID0,共计6个RAID0;
2)针对于存储结点,每个SAS磁盘单独做一个RAID0,共计12个RAID0;
3)选取一个IO结点,用其6块SAS磁盘做一个RAID5,共计1个RAID5;
4)每个存储结点通过光纤连接到对应的IO结点上;
5)用RAID 0组成Lustre的OST,共计210个OST;
6)用RAID 5组成Lustre的MDT,共计1个MDT;
7)部署安装Lustre文件系统client,mds,oss;
8)使用512个client同时向Lustre文件系统写50G数据:
命令如下:dd if=/dev/zero of=/luster/c$$b$$test bs=1M count=50000
9)统计带宽 计算方法如下:
Client c01b01的io 带宽+ Client c01b02的io 带宽+…..Client c0nb0n的io 带宽……+……Client cnnbnn的io 带宽…..+Client c37b08……的io 带宽计算后,总带宽为4GB/S,为INFINIBAND带宽的80%,系统资源瓶颈出现在INFINIBAND,如需要,则可以把INFINIBAND做成链路聚合,这样INFINIBAND的带宽上升为80Gb/s,则Lustre的带宽预估算上升到8GB/S;
10)经过上述步骤,Lustre的带宽性能达最大,在数据安全性上不是最优,为使数据安全性最优,再采用如下步骤:
(1)令每两个OSS做成双机热备,每两个MDS做成双机热备,这样实现数据安全性最优;
(2)通过备份软件实现对Lustre文件系统的备份,备份软件包括EMC networker。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110319986.5A CN102404201B (zh) | 2011-10-20 | 2011-10-20 | 一种实现Lustre并行文件系统最大带宽的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110319986.5A CN102404201B (zh) | 2011-10-20 | 2011-10-20 | 一种实现Lustre并行文件系统最大带宽的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102404201A CN102404201A (zh) | 2012-04-04 |
CN102404201B true CN102404201B (zh) | 2014-11-26 |
Family
ID=45886004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110319986.5A Active CN102404201B (zh) | 2011-10-20 | 2011-10-20 | 一种实现Lustre并行文件系统最大带宽的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102404201B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077245A (zh) * | 2013-01-18 | 2013-05-01 | 浪潮电子信息产业股份有限公司 | 一种利用集群计算节点空闲硬盘空间扩展并行文件系统的方法 |
CN103646194B (zh) * | 2013-11-29 | 2016-04-06 | 北京广利核系统工程有限公司 | 一种基于形式化验证的同步数据流程序的可信排序方法 |
CN104378442B (zh) * | 2014-11-26 | 2017-08-25 | 北京航空航天大学 | 一种减少资源竞争的Trace文件转储方法 |
CN104598568A (zh) * | 2015-01-12 | 2015-05-06 | 浪潮电子信息产业股份有限公司 | 一种高效、低功耗的离线存储系统及方法 |
CN106227839A (zh) * | 2016-07-26 | 2016-12-14 | 浪潮电子信息产业股份有限公司 | 一种lustre文件系统的扩容方法及装置 |
CN110162312B (zh) * | 2019-05-28 | 2023-01-06 | 苏州浪潮智能科技有限公司 | 一种基于IML的BeeGFS配置方法与装置 |
CN111506542B (zh) | 2020-04-17 | 2022-08-19 | 苏州浪潮智能科技有限公司 | 一种文件系统架构的性能调整方法和装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980192B (zh) * | 2010-10-15 | 2014-03-12 | 中兴通讯股份有限公司南京分公司 | 一种基于对象的集群文件系统管理方法及集群文件系统 |
CN102147809B (zh) * | 2011-03-22 | 2013-12-18 | 曙光信息产业股份有限公司 | 一种并行文件系统及其管理方法 |
-
2011
- 2011-10-20 CN CN201110319986.5A patent/CN102404201B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN102404201A (zh) | 2012-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102404201B (zh) | 一种实现Lustre并行文件系统最大带宽的方法 | |
CN105843557B (zh) | 冗余存储系统、冗余存储方法和冗余存储装置 | |
Zhang et al. | Application-aware and software-defined SSD scheme for tencent large-scale storage system | |
CN102841759B (zh) | 一种针对超大规模虚拟机集群的存储系统 | |
CN102571904A (zh) | 一种模块化设计的nas集群系统构建方法 | |
US20150200818A1 (en) | High-availability computer system, working method and the use thereof | |
CN202870800U (zh) | 一种嵌入式大容量网络存储控制模块 | |
CN104333586A (zh) | 一种基于光纤链路的san存储设计方法 | |
Oral et al. | Efficient Object Storage Journaling in a Distributed Parallel File System. | |
CN102820998B (zh) | 实现面向办公应用的双机容错服务系统及其数据存储方法 | |
CN101815078B (zh) | 嵌入式虚拟磁带库并行存储系统 | |
CN106888116A (zh) | 一种双控制器集群共享资源的调度方法 | |
Saini et al. | An application-based performance evaluation of nasa's nebula cloud computing platform | |
CN105653213A (zh) | 一种基于Freescale P3041的双控磁盘阵列 | |
Dufrasne et al. | IBM DS8870 Architecture and Implementation (release 7.5) | |
CN202856789U (zh) | 一种融合nas和san的数据资源存储系统 | |
CN203054824U (zh) | 一种服务器存储系统 | |
He et al. | STICS: SCSI-to-IP cache for storage area networks | |
CN104601729A (zh) | 一种采用NVMe实现高性能云存储的方法 | |
Ruan et al. | Improving Shuffle I/O performance for big data processing using hybrid storage | |
CN209674306U (zh) | 一种4u存储服务器 | |
CN102799708A (zh) | 应用于电磁仿真的gpu高性能计算平台装置 | |
CN206948385U (zh) | 一种大数据智能化分析运算处理系统 | |
Gao et al. | Research on Virtual Machine Performance Test Based on Cloud Platform | |
CN204031220U (zh) | 一种智能网络磁盘存储系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |