CN202406147U - 一种计算机集群系统 - Google Patents

一种计算机集群系统 Download PDF

Info

Publication number
CN202406147U
CN202406147U CN2011205745578U CN201120574557U CN202406147U CN 202406147 U CN202406147 U CN 202406147U CN 2011205745578 U CN2011205745578 U CN 2011205745578U CN 201120574557 U CN201120574557 U CN 201120574557U CN 202406147 U CN202406147 U CN 202406147U
Authority
CN
China
Prior art keywords
storage
infiniband
network
computer
application server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN2011205745578U
Other languages
English (en)
Inventor
李斌
马少杰
何牧君
秦东明
杨亮
陈伟
吴宏文
占杰
姜金良
方晓健
何沧平
戴荣
张兵
曹振南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Co Ltd
Original Assignee
Dawning Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Co Ltd filed Critical Dawning Information Industry Co Ltd
Priority to CN2011205745578U priority Critical patent/CN202406147U/zh
Application granted granted Critical
Publication of CN202406147U publication Critical patent/CN202406147U/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Multi Processors (AREA)

Abstract

本实用新型公开了一种计算机集群系统,所述集群系统包括:计算网络单元,其包括多台计算机,所述计算机之间基于InfiniBand网络进行通信以并行执行计算任务;以及存储网络单元,其通过所述InfiniBand网络与所述计算网络单元相连接,所述存储网络单元包括至少一个存储设备,所述存储设备配置有InfiniBand接口,所述存储设备通过所述InfiniBand接口传送存储数据给所述计算机或者存储所述计算机传送的需要存储的数据。采用本实用新型,能够节省集群系统管理员的网络管理和维护工作并提高集群系统中的存储网络的性能。

Description

一种计算机集群系统
技术领域
本实用新型涉及计算机集群技术领域,尤其涉及一种计算机集群系统。
背景技术
计算机集群是一种计算机系统,它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,它们可以被看作一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它的可能连接方式。集群计算机通常用来改进单个计算机的计算速度和/或可靠性。
高性能计算集群是计算机集群的一种,采用将计算任务分配到集群的不同计算节点而提高计算能力,主要应用在科学计算和工程计算领域。高性能计算集群通常运行一些并行应用程序,比如基于MPI(消息传递接口)标准开发的并行计算程序。这一类应用程序可以实现多个计算节点并行执行计算任务,计算节点间通常会有频繁的数据交换和消息传递,因此高性能计算集群通常配置专用的计算网络来进行这些数据交换。计算网络的性能可以在很大程度上影响并行程序的计算效率,例如现在主流的InfiniBand高速网络的并行程序执行效率远高于千兆以太网络。
高性能计算机集群除了计算网络外还有一套存储网络,用于连接磁盘阵列等存储设备以及集群I/O节点,为集群提供全局共享存储。一般大中至高性能计算集群都采用光纤通道的存储区域网络(Fiber Channel StorageArea Network,FC-SAN)。然而多套网络的管理对集群系统管理员来说是个难题,因为InfiniBand网络和FC-SAN网络都有各自独立的管理维护方法,特别是FC-SAN网络的管理难度较大。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本实用新型提出一种基于一套InfiniBand物理网络的计算机集群系统,其能够节省集群系统管理员的网络管理和维护工作并提高集群系统中的存储网络的性能。
本实用新型的技术方案是这样实现的:
一种计算机集群系统,所述集群系统包括:
计算网络单元,其包括一台或多台计算机,所述多台计算机之间基于InfiniBand网络进行通信以并行执行计算任务;
存储网络单元,其通过所述InfiniBand网络与所述计算网络单元相连接,所述存储网络单元包括至少一个存储设备,所述存储设备配置有InfiniBand接口,所述存储设备通过所述InfiniBand接口传送存储数据给所述计算机或者存储所述计算机传送的需要存储的数据。
在本实用新型可选实施方式中,所述集群系统中的存储网络单元包括应用服务器和多个配置有InfiniBand接口的存储设备,所述存储设备和所述应用服务器连接到所述InfiniBand网络;
所述计算网络单元中的计算机基于所述InfiniBand网络将需要存储的数据传送给所述应用服务器或者从所述应用服务器获取存储数据;
所述存储设备通过所述InfiniBand接口接收所述应用服务器传送的所述需要存储的数据并存储或者将所述存储数据传送给所述应用服务器。
在本实用新型可选实施方式中,所述应用服务器与所述存储设备通过SRP协议在所述存储网络单元中的InfiniBand网络上传输数据。
在本实用新型可选实施方式中,所述存储设备包括磁盘阵列。
本实用新型通过使用一套Infiniband物理网络既用于计算网络单元,又用于存储网络单元,从而使得相比于现有的集群系统可以省去昂贵的光纤网络,减小投入,并省去光纤网络的维护成本。另外,集群系统管理员对一套网络的维护和管理能够比两套网络简单,从而可以至少节省一半维护工作量。进一步地,由于InfiniBand网络的性能远远高于光纤网络,因此基于InfiniBand网络的网络存储单元可以大大提高存储数据传输的性能。
附图说明
图1是根据本实用新型一实施例的计算机集群系统的结构示意框图;
图2是根据本实用新型另一实施例的计算机集群系统的结构示意框图。
具体实施方式
下面结合附图对本实用新型作进一步的说明。
根据本实用新型一实施例的计算机集群系统的结构示意框图如图1所示,计算机集群系统包括计算网络单元1和存储网络单元2。
计算网络单元1中包括一台或多台计算机10,计算机10之间通过InfiniBand网络连接,从而计算机10之间基于InfiniBand网络进行通信以并行执行计算使任务。其中,这些计算机10也可以理解为计算网络单元1中的计算节点。
存储网络单元2包括至少一个存储设备20,存储设备20使用InfiniBand接口与计算机10通信。存储网络单元2中的多个存储设备之间也通过InfiniBand网络连接。
在一实施方式中,计算节点可以是通过用于InfiniBand网络的HCA卡(Host Channel Adaptor,主机通道适配器)以及InfiniBand线缆直接与磁盘阵列的InfinBand接口连接。其中,存储设备20可以是磁盘阵列RAID。
根据本实用新型另一实施例的计算机集群系统的结构图如图2所示,存储网络单元2中包括配置有InfiniBand接口的一个或多个磁盘阵列20和应用服务器22,它们组成存储区域网络SAN。应用服务器将磁盘阵列的存储资源,比如RAID的逻辑卷,映射到应用服务器上,这样应用服务器即挂载有存储资源。然后应用服务器将所述存储资源传输给计算网络单元1中的计算节点10。可选地,计算节点10可以通过HCA卡与磁盘阵列20基于InfiniBand接口通信。
使用InfiniBand接口的磁盘阵列与应用服务器可以通过SRP协议(SCSI RDMA protocol)在InfiniBand网络上传输数据,这与现有计算网络单元1中的计算机10之间基于InfinBand网络传输数据使用的协议不相同。SRP协议是伴随着RDMA(Remote Direct Memory Area,RDMA)技术的出现而设计的一种网络存储协议,它利用RDMA功能在网络上传输SCSI指令和数据。一个新RDMA通道建立时,SRP发起方端口要登录SRP目标方端口。发出建立请求的一方是SRP发起方端口,接受请求的一方是SRP目标方端口。
在本实用新型实施例中,计算机网络单元1中的计算机10和配置有InfiniBand接口的磁盘阵列都位于同一套InfiniBand网络中。正常运行状态下,计算网络单元中的计算节点的并行程序通信跑在计算网络单元1中的InfiniBand网络上,配置有InfiniBand接口的磁盘阵列(也称为存储节点)与其他存储节点之间的存储数据传输跑在存储网络单元2中的InfiniBand网络上。由于两个网络单元中,数据传输的协议不一样,因此计算网络单元1与存储网络单元2之间可以互不干扰。
在另一实施方式中的存储网络单元中,应用服务器和配置有InfiniBand接口的磁盘阵列组成存储区域网络SAN。应用服务器将磁盘阵列的存储资源,比如RAID的逻辑卷,通过SRP协议映射到应用服务器上,这样应用服务器即挂载有存储资源。然后应用服务器将所述存储资源传输给计算网络单元中的计算节点。
综上所述,借助本实用新型的上述技术方案,通过使用一套Infiniband物理网络,将其既用于并行程序通信(计算网络),又用于存储数据传输(存储网络),从而使得可以省去昂贵的光纤网络,减小了投入,并且省去了光纤网络的维护成本。另外,一套网络的维护和管理能够比两套网络简单,从而可以至少节省集群系统管理员一半的维护工作量。进一步地,由于InfiniBand网络的性能远远高于光纤网络,因此基于InfiniBand网络的网络存储单元可以大大提高存储数据传输的性能。InfiniBand QDR理论带宽为40Gb/s,其是目前主流FC接口8Gb/s的5倍。
以上所述仅为本实用新型的较佳实施例而已,并不用以限制本实用新型,凡在本实用新型的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本实用新型的保护范围之内。

Claims (4)

1.一种计算机集群系统,所述集群系统包括:
计算网络单元,其包括一台或多台计算机,其中所述多台计算机之间基于InfiniBand网络进行通信以并行执行计算任务;
存储网络单元,其通过所述InfiniBand网络与所述计算网络单元相连接,所述存储网络单元包括至少一个存储设备,所述存储设备配置有InfiniBand接口,所述存储设备通过所述InfiniBand接口传送存储数据给所述计算机或者存储所述计算机传送的需要存储的数据。
2.根据权利要求1所述的集群系统,其特征在于,所述存储网络单元包括应用服务器和多个配置有InfiniBand接口的存储设备,所述存储设备和所述应用服务器连接到所述InfiniBand网络;
所述计算网络单元中的计算机基于所述InfiniBand网络将需要存储的数据传送给所述应用服务器或者从所述应用服务器获取存储数据;
所述存储设备通过所述InfiniBand接口接收所述应用服务器传送的所述需要存储的数据并存储或者将所述存储数据传送给所述应用服务器。
3.根据权利要求2所述的集群系统,其特征在于,所述应用服务器与所述存储设备通过SRP协议在所述存储网络单元中的InfiniBand网络上传输数据。
4.根据权利要求1至3任一项所述的集群系统,其特征在于,所述存储设备包括磁盘阵列。
CN2011205745578U 2011-12-31 2011-12-31 一种计算机集群系统 Expired - Lifetime CN202406147U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011205745578U CN202406147U (zh) 2011-12-31 2011-12-31 一种计算机集群系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011205745578U CN202406147U (zh) 2011-12-31 2011-12-31 一种计算机集群系统

Publications (1)

Publication Number Publication Date
CN202406147U true CN202406147U (zh) 2012-08-29

Family

ID=46703761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011205745578U Expired - Lifetime CN202406147U (zh) 2011-12-31 2011-12-31 一种计算机集群系统

Country Status (1)

Country Link
CN (1) CN202406147U (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102843435A (zh) * 2012-09-10 2012-12-26 浪潮(北京)电子信息产业有限公司 一种在集群系统中存储介质的访问、响应方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102843435A (zh) * 2012-09-10 2012-12-26 浪潮(北京)电子信息产业有限公司 一种在集群系统中存储介质的访问、响应方法和系统

Similar Documents

Publication Publication Date Title
CN102169448A (zh) 一种集群并行运算环境的部署方法
CN101276258A (zh) 存储设备及其控制方法
CN103986786A (zh) 一种远程云桌面操作系统
CN103051716A (zh) 一种面向网络的串口设备重定向的方法及系统
CN105099776A (zh) 云服务器的管理系统
CN105138494B (zh) 一种多路计算机系统
CN108028850A (zh) 私有云管理平台
CN105430103A (zh) 一种基于多控存储的动态负载均衡系统
CN109302494A (zh) 一种网络存储系统的配置方法、装置、设备及介质
CN103116559B (zh) 一种高速互联服务器系统的设计方法
CN104679714A (zh) 一种基于atca架构的超级计算机集群
CN105009102B (zh) 用于多级聚合架构的系统和方法
CN202406147U (zh) 一种计算机集群系统
CN105681311B (zh) 一种基于云计算技术的火箭地面网络异构系统
WO2016086700A1 (zh) 一种机架及通讯方法
CN102799708B (zh) 应用于电磁仿真的gpu高性能计算平台装置
Roman et al. Understanding spark performance in hybrid and multi-site clouds
CN110647399A (zh) 一种基于人工智能网络的高性能计算系统及方法
CN206259970U (zh) 一种大数据并行计算装置
EP2300925B1 (en) System to connect a serial scsi array controller to a storage area network
CN206021155U (zh) 一种融合架构服务器
CN206948385U (zh) 一种大数据智能化分析运算处理系统
CN204965277U (zh) 一种支持网络负载均衡交换的刀片式服务器
WO2019223444A1 (zh) 数据存储系统
Jeong et al. D-RDMALib: InfiniBand-based RDMA Library for Distributed Cluster Applications

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20120829

CX01 Expiry of patent term