CN102169448B - 一种集群并行运算环境的部署方法 - Google Patents
一种集群并行运算环境的部署方法 Download PDFInfo
- Publication number
- CN102169448B CN102169448B CN 201110065647 CN201110065647A CN102169448B CN 102169448 B CN102169448 B CN 102169448B CN 201110065647 CN201110065647 CN 201110065647 CN 201110065647 A CN201110065647 A CN 201110065647A CN 102169448 B CN102169448 B CN 102169448B
- Authority
- CN
- China
- Prior art keywords
- node
- lustre
- network
- computing
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- VQLYBLABXAHUDN-UHFFFAOYSA-N bis(4-fluorophenyl)-methyl-(1,2,4-triazol-1-ylmethyl)silane;methyl n-(1h-benzimidazol-2-yl)carbamate Chemical compound C1=CC=C2NC(NC(=O)OC)=NC2=C1.C=1C=C(F)C=CC=1[Si](C=1C=CC(F)=CC=1)(C)CN1C=NC=N1 VQLYBLABXAHUDN-UHFFFAOYSA-N 0.000 claims abstract description 27
- 238000012544 monitoring process Methods 0.000 claims abstract description 9
- 239000013307 optical fiber Substances 0.000 claims abstract description 5
- 230000006855 networking Effects 0.000 claims description 5
- 238000009434 installation Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 210000000609 ganglia Anatomy 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种集群并行运算环境的部署方法,属于HPC集群的部署和实施领域,该方法包括以下步骤:A:在管理节点上安装linux系统,使用网络安装计算节点和lustre节点的操作系统;B:通过光纤存储网络把存储设备挂载到lustre节点上,部署lustre并行文件系统;C:使用高速网络,针对管理节点和计算节点挂载lustre并行文件系统和目录;D:配置无密码访问环境,实现节点间的无密码访问;E:在管理节点上,配置nis和ntp服务,实现用户共享和节点时间同步;F:部署应用软件到共享的lustre文件目录;G:配置监控工具,实时监控集群节点运行状态。本发明通过高效的HPC实施方法,降低实施成本,增强HPC集群的稳定性和可靠性。
Description
技术领域
本发明涉及HPC集群的部署和实施,具体地说是一种集群并行运算环境的部署方法。
背景技术
高性能计算(HPC)通常使用很多处理器,在高速互联网络中,使用MPI等并行计算环境,运行并行计算软件,加速科学运算的效率。伴随着HPC在高校和科研院所的普及,高效、稳定的并行环境部署实施方法,对于HPC项目实施和性能保证是一个不容忽视的环节。
对于HPC集群管理节点和多个计算节点的部署,传统部署方式基本采用基于以太网和NFS的网络共享目录,使用自定义shell脚本进行逐步部署。在此部署方法中,容易出现网络延迟、NFS文件系统读写性能降低、脚本易用性差导致并行环境不稳定等现象。
发明内容
本发明的目的是提供一种集群并行运算环境的部署方法。
本发明的目的是按以下方式实现的,该方法包括以下步骤:
A、在管理节点上安装linux系统,使用网络安装计算节点和lustre节点的操作系统;
B、通过光纤存储网络把存储设备挂载到lustre节点上,部署lustre并行文件系统;
C、使用高速网络,针对管理节点和计算节点挂载lustre并行文件系统和目录;
D、配置无密码访问环境,实现节点间的无密码访问;
E、在管理节点上,配置nis(网络信息服务)和ntp(网络时间协议)服务,实现用户共享和节点时间同步;
F、部署应用软件到共享的lustre文件目录;
G、配置监控工具,实时监控集群节点运行状态。
针对集群并行运算环境,基于Infiniband网络和lustre文件系统,采用tentakel工具集中部署,并使用ganglia进行集群监控。
通过基于Infiniband网络的lustre文件系统集群共享管理节点/opt和/home目录,使用tentakel工具快速集中部署HPC集群并行环境,提高了并行环境部署效率和稳定性。
保护HPC项目的实施方法。
通过高效的HPC实施方法,降低实施成本,增强HPC集群的稳定性和可靠性。
附图说明
附图1为本发明的工作流程图;
附图2为本发明的网络结构示意图。
具体实施方式
下面结合附图对本发明作进一步介绍
该方法的网络架构共分为2部分:存储网络和计算网络。
存储网络使用8GB FC光纤交换机,采用FC SAN架构的存储设备,划分不同的lun(逻辑单元号)空间分别挂载到ls1、ls2……lsn等lustre(可扩展的高性能文件系统)文件系统服务器上。Ls1到lsn共n台服务器采用ls1做mds服务器,其他服务器做oss(运营支撑系统)服务器,存储的lun分区分别做mdt和ost设备,形成lustre分布式文件系统,文件的读写性能大幅度提高。
计算网络采用Infiniband交换机,通过IB线缆搭配服务器的HCA卡连接到lustre节点(ls1——lsn)、管理节点(m1)和计算节点(c1——cn)。采用IB overIP通讯机制,实现节点间的高速网络通讯。IB交换机的带宽能够达到40Gb/s,这是以太网所不能满足的。
使用m1管理节点和计算节点挂载lustre并行文件系统对应的共享目录。
第一步,在管理节点m1上安装linux系统,使用网络安装计算节点和lustre节点的操作系统。
第二步,通过光纤存储网络把存储设备挂载到lustre节点(ls1——lsn)上,部署lustre并行文件系统。
第三步,使用infiniband高速网络,针对管理节点和计算节点挂载lustre并行文件系统/home和/opt目录。
第四步,配置ssh(安全外壳协议)和rsh(远程外壳命令)无密码访问环境,实现节点间的无密码访问。
第五步,在管理节点上,使用tentakel(多机管理)工具配置nis和ntp服务,实现用户共享和节点时间同步。
第六步,安装intel编译器、mkl(数学核心函数库)和mpi(多结构消息传递库),部署应用软件到共享的lustre文件目录/opt,使节点之间采用infiniband网络通讯满足网络带宽需求。
第七步,配置ganglia监控工具,实时监控集群节点运行状态。
Claims (1)
1.一种集群并行运算环境的部署方法,其特征在于该方法包括以下步骤:
A、在管理节点上安装linux系统,使用网络安装计算节点和lustre节点的操作系统;
B、通过光纤存储网络把存储设备挂载到lustre节点上,部署lustre并行文件系统;
C、使用高速网络,针对管理节点和计算节点挂载lustre并行文件系统和目录;
D、配置无密码访问环境,实现节点间的无密码访问;
E、在管理节点上,配置网络信息服务nis和网络时间协议服务ntp,实现用户共享和节点时间同步;
F、部署应用软件到共享的lustre文件目录;
G、配置监控工具,实时监控集群节点运行状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110065647 CN102169448B (zh) | 2011-03-18 | 2011-03-18 | 一种集群并行运算环境的部署方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110065647 CN102169448B (zh) | 2011-03-18 | 2011-03-18 | 一种集群并行运算环境的部署方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102169448A CN102169448A (zh) | 2011-08-31 |
CN102169448B true CN102169448B (zh) | 2013-10-23 |
Family
ID=44490614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110065647 Active CN102169448B (zh) | 2011-03-18 | 2011-03-18 | 一种集群并行运算环境的部署方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102169448B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102647448A (zh) * | 2012-03-20 | 2012-08-22 | 浪潮电子信息产业股份有限公司 | 一种自动化快速部署网络信息服务nis的方法 |
CN102724311A (zh) * | 2012-06-18 | 2012-10-10 | 苏州超集信息科技有限公司 | 工作站集群系统 |
CN102902615B (zh) * | 2012-09-18 | 2016-12-21 | 曙光信息产业(北京)有限公司 | 一种Lustre并行文件系统错误报警方法及其系统 |
CN103209098A (zh) * | 2013-04-16 | 2013-07-17 | 浪潮电子信息产业股份有限公司 | 一种实现服务器双机功能的方法 |
CN103475734A (zh) * | 2013-09-25 | 2013-12-25 | 浪潮电子信息产业股份有限公司 | 一种Linux集群用户备份迁移的方法 |
CN103646194B (zh) * | 2013-11-29 | 2016-04-06 | 北京广利核系统工程有限公司 | 一种基于形式化验证的同步数据流程序的可信排序方法 |
CN104268014A (zh) * | 2014-10-20 | 2015-01-07 | 山东超越数控电子有限公司 | 一种基于申威平台的高性能计算作业管理实现方法 |
CN104580217A (zh) * | 2015-01-09 | 2015-04-29 | 浪潮电子信息产业股份有限公司 | 一种Rack机柜ssh无密码批量访问各节点的方法 |
CN104572269A (zh) * | 2015-01-19 | 2015-04-29 | 浪潮电子信息产业股份有限公司 | 一种基于Linux操作系统的集群快速部署方法 |
CN104657276A (zh) * | 2015-03-13 | 2015-05-27 | 浪潮集团有限公司 | 一种配置iozone集群测试的方法 |
CN105278985A (zh) * | 2015-09-25 | 2016-01-27 | 浪潮(北京)电子信息产业有限公司 | 一种部署文件系统的方法及系统 |
CN105430096A (zh) * | 2015-12-22 | 2016-03-23 | 曙光信息产业(北京)有限公司 | 并行文件系统的自动安装方法及装置 |
CN108234164B (zh) * | 2016-12-14 | 2021-03-16 | 杭州海康威视数字技术股份有限公司 | 集群部署方法及装置 |
CN106713493B (zh) * | 2017-01-20 | 2020-09-29 | 苏州浪潮智能科技有限公司 | 一种在计算机集群环境中构建分布式文件系统及方法 |
CN107454140A (zh) * | 2017-06-27 | 2017-12-08 | 北京溢思得瑞智能科技研究院有限公司 | 一种基于大数据平台的Ceph集群自动化部署方法及系统 |
CN107480030A (zh) * | 2017-08-03 | 2017-12-15 | 郑州云海信息技术有限公司 | 一种对节点进行统一管理的集群部署方法及系统 |
CN109739823A (zh) * | 2018-12-27 | 2019-05-10 | 郑州云海信息技术有限公司 | 一种搭建并行文件系统的方法及装置 |
CN111225064A (zh) * | 2020-02-24 | 2020-06-02 | 中科星图股份有限公司 | Ceph集群部署方法、系统、设备和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731738A (zh) * | 2005-08-30 | 2006-02-08 | 西安交通大学 | 大规模计算机集群系统节点的自动化快速部署方法 |
CN1744047A (zh) * | 2005-09-27 | 2006-03-08 | 浪潮电子信息产业股份有限公司 | 一种实现基于机群结构的高性能服务器动态部署方法 |
CN101170423A (zh) * | 2007-11-15 | 2008-04-30 | 曙光信息产业(北京)有限公司 | 一种面向服务的机群部署方法 |
CN101232422A (zh) * | 2008-01-18 | 2008-07-30 | 北京交通大学 | 一种基于网格技术的网络存储系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009087282A (ja) * | 2007-10-03 | 2009-04-23 | Fuji Xerox Co Ltd | 並列計算システムおよび並列計算方法 |
US7822841B2 (en) * | 2007-10-30 | 2010-10-26 | Modern Grids, Inc. | Method and system for hosting multiple, customized computing clusters |
-
2011
- 2011-03-18 CN CN 201110065647 patent/CN102169448B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1731738A (zh) * | 2005-08-30 | 2006-02-08 | 西安交通大学 | 大规模计算机集群系统节点的自动化快速部署方法 |
CN1744047A (zh) * | 2005-09-27 | 2006-03-08 | 浪潮电子信息产业股份有限公司 | 一种实现基于机群结构的高性能服务器动态部署方法 |
CN101170423A (zh) * | 2007-11-15 | 2008-04-30 | 曙光信息产业(北京)有限公司 | 一种面向服务的机群部署方法 |
CN101232422A (zh) * | 2008-01-18 | 2008-07-30 | 北京交通大学 | 一种基于网格技术的网络存储系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102169448A (zh) | 2011-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102169448B (zh) | 一种集群并行运算环境的部署方法 | |
CN109361532B (zh) | 网络数据分析的高可用系统和方法及计算机可读存储介质 | |
Mai et al. | Netagg: Using middleboxes for application-specific on-path aggregation in data centres | |
CA2783452C (en) | Migrating virtual machines among networked servers upon detection of degrading network link operation | |
Wu et al. | Rethinking the architecture design of data center networks | |
CN102882864B (zh) | 一种基于InfiniBand云计算网络的虚拟化系统 | |
CN102413172B (zh) | 一种基于集群技术的并行数据共享装置方法和装置 | |
US9871704B2 (en) | High-availability computer system, working method and the use thereof | |
CN103986786A (zh) | 一种远程云桌面操作系统 | |
CN105979273A (zh) | 基于大数据及云计算的智能商用电视的云监控与云运维 | |
CN109547537A (zh) | 基于SAN存储共享卷实现openstack高可用的方法 | |
CN106686099A (zh) | 一种基于infiniband网络实现Oracle RAC数据库跨机房双活的方法 | |
CN115102986B (zh) | 一种边缘环境下物联网数据分发、存储方法及系统 | |
CN109302494A (zh) | 一种网络存储系统的配置方法、装置、设备及介质 | |
Sun et al. | Republic: Data multicast meets hybrid rack-level interconnections in data center | |
CN115225664A (zh) | 一种气象信息基础设施资源云平台的构建方法 | |
CN103116559A (zh) | 一种高速互联服务器系统的设计方法 | |
CN104679714A (zh) | 一种基于atca架构的超级计算机集群 | |
WO2016086700A1 (zh) | 一种机架及通讯方法 | |
CN103209218A (zh) | 容灾一体机管理系统 | |
Zhao et al. | Cloud storage technology in video surveillance | |
CN102799708B (zh) | 应用于电磁仿真的gpu高性能计算平台装置 | |
CN103037031A (zh) | 一种iSCSI目标器的IP地址管理方法 | |
CN204652434U (zh) | 一种大数据云计算一体机 | |
RU186862U1 (ru) | Абонентское сетевое устройство с виртуализированными сетевыми функциями |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |