CN103051474A - 一种大规模集群网络布线的方法 - Google Patents

一种大规模集群网络布线的方法 Download PDF

Info

Publication number
CN103051474A
CN103051474A CN2012105538971A CN201210553897A CN103051474A CN 103051474 A CN103051474 A CN 103051474A CN 2012105538971 A CN2012105538971 A CN 2012105538971A CN 201210553897 A CN201210553897 A CN 201210553897A CN 103051474 A CN103051474 A CN 103051474A
Authority
CN
China
Prior art keywords
network
computing
topology
cluster
ipmi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105538971A
Other languages
English (en)
Inventor
陈良华
陈哲
杜彦魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IEIT Systems Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN2012105538971A priority Critical patent/CN103051474A/zh
Publication of CN103051474A publication Critical patent/CN103051474A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种大规模集群网络布线的方法,是将计算网、管理网和ipmi网络三种网络分离进行布线,其具体布线过程为:集群设备规划:结合计算设备,制定计算网络拓扑;制定管理网和ipmi网络的拓扑架构;制定机柜拓扑;第四步,计算线缆数量;进行网络布线;使用测试工具进行集群网络性能测试。该一种大规模集群网络布线的方法和现有技术相比,独立的网络不仅保证了不同需求对应不同的网络,保证网络安全性和稳定性,同时避免产生网络风暴,满足高性能计算客户的实际需求。

Description

一种大规模集群网络布线的方法
技术领域
本发明涉及大规模集群的网络设计和部署,具体的说是一种大规模集群网络布线的方法。
背景技术
高性能计算(HPC) 通常使用计算节点,在高速互联网络中,使用MPI等并行计算环境,运行并行计算软件,加速科学运算的效率。伴随着高性能计算能力的的需求,大规模集群越来越多的被应用于高校和科研院所。大规模集群的网络布线的设计,对于实现网络冗余,提高网络带宽,减少网络延迟是一项极为重要的工作。
绝大部分HPC计算集群都在100个节点以内,机柜数量多维持在4个机柜以内,对于网络拓扑和机柜拓扑都比较直观,复杂度较低,网络设计对网络性能不会带来太大的影响。对于200个节点以上大规模集群,一般需要6个以上的机柜和交换机;针对infiniband铜缆线缆成本较高,材质较粗的特点,需要详细制定出线缆数量规划,以便进行线缆的定制和采购。网络拓扑和网络线缆的数量和长度的不确定性,对于网络部署也是很大的挑战,设计不合理会导致大量的人力和物力的浪费。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种大规模集群网络布线的方法。
本发明的技术方案是按以下方式实现的,该一种大规模集群网络布线的方法,是将计算网、管理网和ipmi网络三种网络分离进行布线,其具体布线过程为:
第一步,集群设备规划:结合计算设备,制定计算网络拓扑;
第二步,针对管理网和ipmi网络设备特点,制定管理网和ipmi网络的拓扑架构;
第三步,结合网络拓扑及机房环境,制定机柜拓扑;
第四步,计算线缆数量;
第五步,进行网络布线;
第六步,使用测试工具进行集群网络性能测试。
所述第四步中计算线缆数量的具体过程为:针对机柜拓扑,采用excel工具,从左至右,依次统计每2个机柜之间的线缆数量,结合机柜高度及长度确定线缆长度,汇总最终数据,确定所需线缆具体数据。
所述第五步中的网络布线是指针对实际拓扑机构进行设备上架和线缆部署工作。
所述第六步中的集群网络性能测试是指使用pingpong工具测试网络带宽和网络延迟。
所述计算网是指infiniband网络、管理网和IPMI网络均为千兆以太网。
本发明与现有技术相比所产生的有益效果是:
本发明的一种大规模集群网络布线的方法通过三网分离的原则,保证计算、管理和IPMI网络的独立性,独立的网络不仅保证了不同需求对应不同的网络,保证网络安全性和稳定性,同时避免产生网络风暴;infiniband计算网络采用一二级网络分离保证计算网络的冗余性;IB线缆采用聚合模式,起到增加网络带宽,保证集群计算性能的特点;针对infiniband铜缆线缆数量的计算,采用excel工具结合机柜拓扑,从左至右,依次统计每2个机柜之间的线缆数量,结合机柜高度及长度确定线缆长度,汇总最终数据;IB线缆能保证通讯性能的同时,不同长度的线缆成本差距太大,采购周期很长,根据该网络拓扑架构方法和布线设计方法能够准确快速的计算出线缆的长度和数量,以便提前进行采购和线缆的定制,满足高性能计算客户的实际需求。
附图说明
附图1是本发明的分布流程图。
附图2是本发明实施例的计算网络拓扑架构图。
附图3是本发明实施例的管理网络拓扑架构图。
附图4是本发明实施例的IPMI网络拓扑架构图。
附图5是本发明实施例的机柜拓扑架构图。
附图6是本发明实施例的线缆计算示意图。
具体实施方式
下面结合附图对本发明的一种大规模集群网络布线的方法作以下详细说明。
如附图1所示,该一种大规模集群网络布线的方法,采用计算网、管理网和IPMI网络三种网络分离,所述计算网是指infiniband网络、管理网和IPMI网络均为千兆以太网。其具体布线过程为:
第一步,集群设备规划:结合计算设备,制定计算网络拓扑,在保证全线速的网络带宽前提下,确定ib交换机之间的级联线缆数量,保证infiniband高速网络的冗余性和网络带宽。
第二步,针对管理网和ipmi网络设备特点,制定管理网和ipmi网络的拓扑架构,保证节点之间的正常通讯和网络带宽,三网分离,互不干扰。
第三步,结合网络拓扑及机房环境,制定机柜拓扑,保证机柜之间线缆分布均匀和计算设备散热良好。
第四步,针对机柜拓扑,采用excel工具,从左至右,依次统计每2个机柜之间的线缆数量,结合机柜高度及长度确定线缆长度,汇总最终数据,提起准备采购对应型号的线缆。
第五步,针对实际拓扑机构进行设备上架和线缆部署工作。
第六步,使用pingpong工具测试网络带宽和网络延迟。
实施例
本发明以某279节点的HPC集群为例,该集群包含1个管理结点、1个登录结点、16个IO结点、261个计算刀片节点,具体布线如下。
首先设置计算网络拓扑构架,该构架结构如附图2所示,该计算网络拓扑构架包括两层结构,一层为9个二级IB交换机链路冗余,另一层为16个一级IB交换机(含8个IB交换模块)直连刀片和机架服务器,在附图中具体表示为1、9个36口交换机,2、IB线缆,3、8个36口交换机,4、1个36口交换机,5、7个36口交换机,6、与5连接的双子星服务器(含125个节点),7、与3连接的刀片服务器(含136个节点),8、IO服务器。
其次设置管理网络拓扑构架和IPMI网络拓扑构架,如附图3、图4所示,其中管理网络拓扑构架采用7个48口H3C千兆交换机通过六类网线互相级联而成,图3中9即为48口千兆交换机;IPMI网络拓扑构架采用4个H3C千兆交换机通过六类网线互相级联而成,图4中10即为4个千兆交换机。  
设置机柜拓扑构架,如附图5所述,该集群包含7个标准机柜,3个30cm宽空调、3个60cm宽空调。
如附图6所示,结合机柜拓扑指定infiniband线缆计算方式:使用excel工具,结合标准机柜信息,保证散热和强弱电分离的原则,进行线缆长度和数量的估算,以便提前定制和采购,缩短采购周期和缩减采购成本。
本发明通过高效的HPC实施方法,降低实施成本,增强HPC集群网络的稳定性和可靠性,实现对HPC项目的保护。

Claims (5)

1.一种大规模集群网络布线的方法,其特征在于是将计算网、管理网和ipmi网络三种网络分离进行布线,其具体布线过程为:
第一步,集群设备规划:结合计算设备,制定计算网络拓扑;
第二步,针对管理网和ipmi网络设备特点,制定管理网和ipmi网络的拓扑架构;
第三步,结合网络拓扑及机房环境,制定机柜拓扑;
第四步,计算线缆数量;
第五步,进行网络布线;
第六步,使用测试工具进行集群网络性能测试。
2.根据权利要求1所述的一种大规模集群网络布线的方法,其特征在于:所述第四步中计算线缆数量的具体过程为:针对机柜拓扑,采用excel工具,从左至右,依次统计每2个机柜之间的线缆数量,结合机柜高度及长度确定线缆长度,汇总最终数据,确定所需线缆具体数据。
3.根据权利要求1所述的一种大规模集群网络布线的方法,其特征在于:所述第五步中的网络布线是指针对实际拓扑机构进行设备上架和线缆部署工作。
4.根据权利要求1所述的一种大规模集群网络布线的方法,其特征在于:所述第六步中的集群网络性能测试是指使用pingpong工具测试网络带宽和网络延迟。
5.根据权利要求1~4中任一所述的一种大规模集群网络布线的方法,其特征在于:所述计算网是指infiniband网络、管理网和IPMI网络均为千兆以太网。
CN2012105538971A 2012-12-19 2012-12-19 一种大规模集群网络布线的方法 Pending CN103051474A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012105538971A CN103051474A (zh) 2012-12-19 2012-12-19 一种大规模集群网络布线的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012105538971A CN103051474A (zh) 2012-12-19 2012-12-19 一种大规模集群网络布线的方法

Publications (1)

Publication Number Publication Date
CN103051474A true CN103051474A (zh) 2013-04-17

Family

ID=48063979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105538971A Pending CN103051474A (zh) 2012-12-19 2012-12-19 一种大规模集群网络布线的方法

Country Status (1)

Country Link
CN (1) CN103051474A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103532780A (zh) * 2013-10-11 2014-01-22 北京有度致远信息科技股份有限公司 用于it领域的运维监控一体化系统及一体化监控方法
CN106371955A (zh) * 2016-08-19 2017-02-01 浪潮集团有限公司 一种确定ipmi协议中线性传感器计算公式系数的方法
CN107103055A (zh) * 2017-03-29 2017-08-29 东北大学 面向内存更新密集型程序的Hourglass和Piggyback算法
CN108961873A (zh) * 2018-07-19 2018-12-07 无锡科技职业学院 基于虚拟化平台的在线实验室
CN110707618A (zh) * 2019-09-18 2020-01-17 平安科技(深圳)有限公司 布线线缆长度的获取方法、装置、计算机设备和存储介质
CN116095531A (zh) * 2023-01-17 2023-05-09 北京万和汇通通信科技有限公司 一种网络布线方法、装置、电子设备及存储介质
CN118714020A (zh) * 2024-08-21 2024-09-27 浙江大学 一种计算机网络拓扑结构及计算域划分方法、计算机系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7188171B2 (en) * 2003-01-23 2007-03-06 Hewlett-Packard Development Company, L.P. Method and apparatus for software and hardware event monitoring and repair
CN101351778A (zh) * 2005-11-28 2009-01-21 艾默生网络能源-嵌入式计算有限公司 Amc模块从前面和后面插入的背板
CN102710476A (zh) * 2012-05-15 2012-10-03 浪潮电子信息产业股份有限公司 一种用于异构计算机集群的多协议集中通信的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7188171B2 (en) * 2003-01-23 2007-03-06 Hewlett-Packard Development Company, L.P. Method and apparatus for software and hardware event monitoring and repair
CN101351778A (zh) * 2005-11-28 2009-01-21 艾默生网络能源-嵌入式计算有限公司 Amc模块从前面和后面插入的背板
CN102710476A (zh) * 2012-05-15 2012-10-03 浪潮电子信息产业股份有限公司 一种用于异构计算机集群的多协议集中通信的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈道存 等: "智能灵活型校园网络布线研究与实现", 《电脑知识与技术》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103532780B (zh) * 2013-10-11 2017-09-22 北京有度致远信息科技股份有限公司 用于it领域的运维监控一体化系统及一体化监控方法
CN103532780A (zh) * 2013-10-11 2014-01-22 北京有度致远信息科技股份有限公司 用于it领域的运维监控一体化系统及一体化监控方法
CN106371955A (zh) * 2016-08-19 2017-02-01 浪潮集团有限公司 一种确定ipmi协议中线性传感器计算公式系数的方法
CN106371955B (zh) * 2016-08-19 2019-08-02 浪潮集团有限公司 一种确定ipmi协议中线性传感器计算公式系数的方法
CN107103055B (zh) * 2017-03-29 2020-05-12 东北大学 面向内存更新密集型程序的Hourglass方法
CN107103055A (zh) * 2017-03-29 2017-08-29 东北大学 面向内存更新密集型程序的Hourglass和Piggyback算法
CN108961873A (zh) * 2018-07-19 2018-12-07 无锡科技职业学院 基于虚拟化平台的在线实验室
CN110707618A (zh) * 2019-09-18 2020-01-17 平安科技(深圳)有限公司 布线线缆长度的获取方法、装置、计算机设备和存储介质
CN110707618B (zh) * 2019-09-18 2022-07-15 平安科技(深圳)有限公司 布线线缆长度的获取方法、装置、计算机设备和存储介质
CN116095531A (zh) * 2023-01-17 2023-05-09 北京万和汇通通信科技有限公司 一种网络布线方法、装置、电子设备及存储介质
CN118714020A (zh) * 2024-08-21 2024-09-27 浙江大学 一种计算机网络拓扑结构及计算域划分方法、计算机系统
CN118714020B (zh) * 2024-08-21 2024-12-06 浙江大学 一种计算机网络系统及计算机系统
US12284051B1 (en) 2024-08-21 2025-04-22 Zhejiang University Computer network system and computer system

Similar Documents

Publication Publication Date Title
CN103051474A (zh) 一种大规模集群网络布线的方法
CN104901308B (zh) 电力系统关键线路辨识方法
CN106920432A (zh) 变电站设备检修的仿真培训系统及仿真培训方法
CN107423493B (zh) 一种基于关联矩阵的电力信息物理耦合建模方法
CN102999674A (zh) 基于应用集成的电力和通信系统耦合仿真平台及方法
CN104133943A (zh) 基于目标导向的配网图形自动生成方法
Wu et al. A study of the impacts of flow direction and electrical constraints on vulnerability assessment of power grid using electrical betweenness measures
CN1601472A (zh) 电力系统数字仿真装置
CN108650110A (zh) 一种hpc间接网络环境下的链路故障检测方法
CN104699907A (zh) 一种由pscad到adpss的电磁暂态模型和元件图形的自动转换方法
CN108649554A (zh) 一种基于高斯消元算法的电网拓扑分析方法
CN114460863A (zh) 一种数字孪生技术应用于配电房智慧电柜的信息仿真装置
CN108063442A (zh) 一种电力系统交流电网实时仿真装置及其仿真方法
CN107147734A (zh) 一种基于两级转发的网络流量线程级动态负载均衡方法及系统
CN104504168A (zh) 一种电网仿真计算结果沙盘动态展示方法及其系统
CN106227642A (zh) 一种Rack管理控制器及整机柜服务器
CN101404040B (zh) 基于子图同构的对电力系统实时仿真的计算资源划分方法
CN102710463B (zh) 一种电力数据网络的动态仿真系统及仿真方法
CN104615201A (zh) 一种集中管理存储系统架构
CN108134686B (zh) 基于并行分布式计算的混合仿真决策支持系统及实现方法
CN108181835B (zh) 一种电力系统直流电网实时仿真方法及装置
CN105490859B (zh) 一种高端容错服务器的节点定位方法
CN105468104B (zh) 一种融合式服务器及背板
CN209692803U (zh) 基于胖树结构的sdn交换网络
CN117313363B (zh) 一种基于物理信息模型的数字孪生系统及其运行方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130417