CN206023844U

CN206023844U - 一种基于以太网的直连架构计算集群系统

Info

Publication number: CN206023844U
Application number: CN201620775215.5U
Authority: CN
Inventors: 林铭杰; 叶政晟; 张彦彬
Original assignee: Guangzhou High Energy Computer Technology Co Ltd
Current assignee: Guangzhou High Energy Computer Technology Co Ltd
Priority date: 2016-07-21
Filing date: 2016-07-21
Publication date: 2017-03-15
Anticipated expiration: 2026-07-21

Abstract

本实用新型提供了一种基于以太网的直连架构计算机集群系统，包括拓扑构建模块及计算资源池，其中，所述计算资源池包括至少2个计算单元，所述计算单元包括以太网适配模块及路由构建模块；所述计算单元通过以太网络相互连接，计算单元之间的通信无需借助交换机即可实现无损计算性能、网络延迟低的通信交互，降低了集群系统运营维护的成本，提高了集群系统的可靠性；且本实用新型所提供的系统扩展性能佳，可以根据不同运算量的需求，随意扩展或缩减系统中计算单元的数目。

Description

一种基于以太网的直连架构计算集群系统

技术领域

本实用新型涉及高性能计算机集群系统，特别涉及一种基于以太网的直连架构计算集群系统。

背景技术

计算机集群是一种计算机系统，它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作，在某种意义上，它们可以被看作一台计算机，集群系统中的单个计算机通常称为节点，通常通过局域网连接。

高性能计算集群是计算机集群的一种，采用将计算任务分配到集群的不同计算节点而提高计算能力，主要应用在科学计算和工程计算领域。高性能计算集群通常运行一些并行应用程序，比如基于MPI标准开发的并行计算程序。这一类应用程序可以实现多个计算节点并行执行计算任务，计算节点间通常会有频繁的数据交换和消息传递，因此高性能计算集群通常配置专用的计算网络来进行这些数据交换，计算网络的性能可以在很大程度上影响并行程序的计算效率。

目前，计算集群系统大多采用胖树拓扑结构，用交换机进行串连而成(IndirectNetwork，switch based)，透过铜缆或光缆进行数据交换。在集群系统做跨节点运算时，透过TCP/IP协定，数据经网线进入交换机，交换机将数据发送到正确的节点完成通讯，以完成跨节点运算工作。但随著计算机节点数增加，节点间网络通信幅度必然大幅增加，因此，为加速两点间通信时间并减少延迟，系统对交换机的需求必然同步增加，进而造成系统整体网络环境复杂，系统建置营运管理成本增加。

除上述方案外，还有另一种计算集群系统，其采用全直连拓扑结构，这种架构不需要交换机即可实现所有计算节点的通信交互。但该结构一般只适用于小规模系统，因为对于具有N个计算节点的集群系统而言，采用全直连拓扑结构系统需要配备N*(N-1)个网卡接口，所以对于大规模集群系统而言，该结构的架构难度高、扩展性差、管理不便。

实用新型内容

本实用新型的目的在于克服现有技术不足，提供一种基于以太网的直连架构计算集群系统，系统内所有计算单元的通信交互无需通过交互机完成，系统易于构建，扩展性强，可适用于大规模计算集群，满足集群系统对于带宽及通信延迟的需求。

本实用新型为实现上述目的采用以下的技术方案：

本实用新型提供了一种基于以太网的直连架构计算机集群系统，包括拓扑构建模块及计算资源池；所述计算资源池与所述拓扑构建模块相连；

其中，所述计算资源池包括至少2个计算单元，所述计算单元通过以太网网络相互连接；

所述计算单元包括以太网适配模块及路由构建模块；

所述拓扑构建模块用于获取所述计算单元的总数及每个所述计算单元的邻居数，并得出最大邻居数，并根据所述最大邻居数计算网络维度，并根据所述计算单元总数及网络维度生成至少一个网络拓扑图，并将所有所述网络拓扑图发送给所述计算资源池；

所述以太网适配模块用于提供基于以太网协议的数据传输服务，以实现各个所述计算单元之间的数据通信交互；

所述路由构建模块用于获取所有所述网络拓扑图，并根据各个所述网络拓扑图计算本所述计算单元与其他所述计算单元之间所有可能的通信路径，并生成全路径路由表；所述路由构建模块还用于确定所述全路径路由表中实际存活的路由路径，即能够实际通信的路由路径，并根据实际存活的路由路径生成通信路由表，所述通信路由表按照路由路径的目的IP地址进行分组，并对每个分组内的路由路径按照路径经过的跳数进行升序排序。

在本实用新型一实施例中，所述基于以太网的直连架构计算机集群系统还包括初始化模块，所述初始化模块分别与所述计算资源池及所述拓扑构建模块相连；

所述初始化模块用于为所述计算单元分配IP地址，还用于初始化所述拓扑构建模块及所述路由构建模块。

在本实用新型一实施例中，所述计算单元还包括任务获取模块，所述任务获取模块用于获取任务。

在本实用新型一实施例中，所述计算单元还包括状态读取模块及反馈模块，所述状态读取模块用于读取所述计算单元的工作状态，并发送给所述反馈模块，所述反馈模块用于向用户发送所述计算单元的工作状态。

在本实用新型一实施例中，所述拓扑构建模块通过遍历所述计算单元的IP地址获取所述计算单元总数及最大邻居数。

在本实用新型另一实施方式中，本实用新型第一方面所提供的系统还包括总路由构建模块，所述总路由构建模块与所述计算资源池相连，所述总路由构建模块还与所述拓扑构建模块相连；

所述总路由构建模块用于获取所有所述计算单元的IP地址，所述总路由构建模块还用于获取所有网络拓扑图，并根据所述网络拓扑图生成所有计算单元之间所有可能的通信路径，并按照起始计算单元的IP地址生成至少一个全路径路由表，并将所述全路径路由表发送到对应的计算单元中，所述计算单元中的路由构建模块根据接收到的全路径路由表确定实际存活的路由路径，即能够实际通信的路由路径，并根据实际存活的路由路径生成通信路由表，所述通信路由表按照路由路径的目的IP地址进行分组，并对每个分组内的路由路径按照路径经过的跳数进行升序排序。

在本实用新型一实施例中，所述计算单元还包括处理器、内存、本地存储设备、扩展设备接口。

本实用新型的有益效果：本实用新型所提供的基于以太网的直连架构计算集群系统，系统中所有计算单元能够在不通过交互机的情况下，达成无损计算性能、网络延迟低的通信交互，降低了集群系统运营维护的成本，提高了集群系统的可靠性；且本实用新型所提供的系统扩展性能佳，可以根据不同运算量的需求，随意扩展或缩减系统中计算单元的数目。

附图说明

图1为本实用新型一实施例中的系统结构示意图；

图2为本实用新型另一实施例中的系统结构示意图；

具体实施方式

下面结合附图以及具体实施例对本实用新型做进一步说明，其中的示意性实施例以及说明仅用来解释本实用新型，但并不作为对本实用新型的限定。

在本实用新型第一实施方式中，如图1所示，为本实用新型的系统结构示意图，一种基于以太网的直连架构计算机集群系统，包括拓扑构建模块200以及计算资源池；

其中，所述计算资源池包括至少2个计算单元300，所有计算单元300通过以太网网络相互连接；

拓扑构建模块200用于获取计算单元300的总数及每个所述计算单元的邻居数，并得出最大邻居数，根据所述最大邻居数计算网络维度，并根据所述计算单元300总数及网络维度生成至少一个网络拓扑图，并将所有所述网络拓扑图发送给所述计算资源池；

计算单元300包括以太网适配模块310、路由构建模块320及任务获取模块330；其中，以太网适配模块310用于提供基于以太网协议的数据传输服务，以实现各个计算单元300之间的数据通信交互；

路由构架模块320用于获取所有所述网络拓扑图，并根据各个所述网络拓扑图计算本计算单元300到其他计算单元300之间所有可能的路由路径，并生成全路径路由表；路由构建模块320还用于确定所述全路径路由表中实际存活的路径，即能够实际通信的路由路径，并根据实际存活的路由路径生成通信路由表，所述通信路由表按照路由路径的目的IP地址进行分组，并对每个分组内的路由路径按照路径经过的跳数进行升序排序；

任务获取模块用于获取用户发布的任务。

本实用新型所提供的系统还包括初始化模块100，初始化模块100用于为计算单元300分配IP地址，还用于初始化拓扑构建模块200及路由构建模块320；具体的，初始化包括，拓扑构建模块200构建网络拓扑图，路由构建模块320构建路由表。

状态读取模块140用于读取各个计算单元300的工作状态，如内存使用率、CPU使用率、硬盘剩余空间等，并将读取到的工作状态通过反馈模块150反馈给用户，以便用户查看计算资源池的工作情况。

在本实用新型一实施例中，所述计算单元300还包括状态读取模块及状态反馈模块，所述状态读取模块用于读取各个计算单元300的工作状态，如内存使用率、CPU使用率、硬盘剩余空间等，并将读取到的工作状态发送到所述反馈模块，所述反馈模块将接收到的工作状态发送给用户。

在本实用新型第一实施方式的实施例中，根据用户需求，所述计算单元300还可包括处理器、内存、本地存储设备、扩展设备接口等。在初次运行时，初始化模块100发送初始化指令，为所有计算单元300分配IP地址，并命令拓扑构建模块200构建网络拓扑图、命令路由构建模块构320建路由表。

在本实用新型第一实施方式的实施例中，拓扑构建模块200向相连的计算单元300发送通信包，遍历所有计算单元300的IP地址，拓扑构建模块200根据遍历结果获得计算单元300的总数N及每个计算单元300的邻居单元数，并取最大邻居单元数M，对最大邻居单元数M取以2为底的对数，并向上取整，得到网络维度K，并根据总数N及网络维度K生成至少一个网络拓扑图，将所有所述网络拓扑图发送到计算资源池中；其中，网络中的距离度量单位为跳，数据通信过程中每经过一个中继节点即为一跳，当两个计算单元300之间的距离为零跳时，则这两个计算单元300互为邻居单元。

具体的，所述拓扑构建模块200获得计算单元300的总数N及最大邻居单元数M后，构建一个笛卡尔坐标系，其中，坐标点x_i代表第i维中任意一个节点，N_i代表第i维度的节点数，其中，K＝log₂M，并向上取整；max_1≤i≤KN_i≤N-M+2,

坐标x_i满足：

0≤x_i≤2N_i-1

每个节点x_i连接到2^K个邻居节点y_i，y_i的坐标满足：

y_i＝(x_i+1)mod2N_i或者y_i＝(x_i-1+2N_i)mod2N_i

根据上述公式，拓扑构建模块200可构建至少一个K维网络拓扑(N₁×N₂×……×N_K)，其中，所有网络拓扑中的任意节点均与2^K个邻居节点相连，且最大的维度节点数不大于N-M+2,且节点总数不小于N；

路由构建模块320获取所有所述网络拓扑图，并根据各个所述网络拓扑图以本计算单元为起始单元计算到其他计算单元的所有可能的路由路径，并将其写入全路径路由表中；路由构建模块320按照全路径路由表中记录的路由路径发送通信确认包，以获得实际存活的路由路径，即能够实际通信的路由路径，并根据实际存活的路由路径生成通信路由表，所述通信路由表按照路由路径的目的IP地址进行分组，并对每个分组内的路由路径按照路径经过的跳数进行升序排序。

当需要通信时，计算单元300按照目的IP地址由上至下选择路由路径进行通信，当所选路径故障无法通信时，选择下一条路由路径进行通信，以保证计算单元之间的数据交互。

在本实用新型第二实施方式中，如图2所述，本实用新型第一实施方式中所提供的系统还包括总路由构建模块400；总路由构建模块400分别与拓扑构建模块200及计算资源池相连；拓扑构建模块200将生成的所有网络拓扑图发送给总路由构建模块400，总路由构建模块400向计算单元300发送遍历通信包以获得所有计算单元300的IP地址，并按照各个所述网络拓扑图计算各个计算单元300之间可能的路由路径，并按照起始计算单元的IP地址生成至少一个全路径路由表；总路由构建模块400将所有全路径路由表发送到计算资源池中，资源池中的计算单元300获取以本机IP地址作为起始地址的全路径路由表，并将剩余的全路径路由表转发给其他计算单元300；路由构建模块320根据获取到的全路径路由表中记录的路由路径发送通信确认包，以获得实际存活的路由路径，即能够实际通信的路由路径，并根据实际存活的路由路径生成通信路由表，所述通信路由表按照路由路径的目的IP地址进行分组，并对每个分组内的路由路径按照路径经过的跳数进行升序排序。当需要通信时，计算单元300按照目的IP地址由上至下选择路由路径进行通信，当所选路径故障无法通信时，选择下一条路由路径进行通信，以保证计算单元之间的数据交互。

在本实用新型第二实施方式的实施例中，根据用户需求，所述计算单元300还可包括处理器、内存、本地存储设备、扩展设备接口等。在初次运行时，初始化模块100发送初始化指令，为所有计算单元300分配IP地址，并命令拓扑构建模块200构建网络拓扑图、命令总路由构建模块400构建全路径路由表、命令路由构建模块320构建通信路由表。

显然，上述实施例仅仅是为了更清楚的表达本实用新型技术方案所作的举例，而非对本实用新型实施方式的限定。对于本领域技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，在不脱离本实用新型构思的前提下，这些都属于本实用新型的保护范围。因此本实用新型专利的保护范围应以所附权利要求为准。

Claims

1.一种基于以太网的直连架构计算机集群系统，其特征在于，包括拓扑构建模块及计算资源池；所述计算资源池与所述拓扑构建模块相连；

所述计算单元包括以太网适配模块及路由构建模块；

所述拓扑构建模块用于获取所述计算单元的总数及每个所述计算单元的邻居数，并得出最大邻居数，并根据所述最大邻居数计算网络维度，并根据所述计算单元的总数及所述网络维度生成至少一个网络拓扑图，并将所有所述网络拓扑图发送给所述计算资源池；

所述路由构建模块用于获取所有所述网络拓扑图，并根据各个所述网络拓扑图计算本所述计算单元与其他所述计算单元之间所有可能的通信路径，并生成全路径路由表；所述路由构建模块还用于确定所述全路径路由表中实际存活的路由路径，并根据实际存活的路由路径生成通信路由表，所述通信路由表按照路由路径的目的IP地址进行分组，并对每个分组内的路由路径按照路径经过的跳数进行升序排序。

2.如权利要求1所述的基于以太网的直连架构计算机集群系统，其特征在于，还包括初始化模块，所述初始化模块分别与所述计算资源池及所述拓扑构建模块相连；

3.如权利要求1所述的基于以太网的直连架构计算机集群系统，其特征在于，所述计算单元还包括任务获取模块，所述任务获取模块用于获取任务。

4.如权利要求1所述的基于以太网的直连架构计算机集群系统，其特征在于，所述计算单元还包括状态读取模块及反馈模块，所述状态读取模块用于读取所述计算单元的工作状态，并发送给所述反馈模块，所述反馈模块用于向用户发送所述计算单元的工作状态。

5.如权利要求1所述的基于以太网的直连架构计算机集群系统，其特征在于，所述计算单元还包括处理器、内存、本地存储设备、扩展设备接口。

6.一种基于以太网的直连架构计算机集群系统，其特征在于，包括如权利要求1-5中任一所述的基于以太网的直连架构计算机集群系统，还包括总路由构建模块，所述总路由构建模块与所述计算资源池相连，所述总路由构建模块还与所述拓扑构建模块相连；

所述总路由构建模块用于获取所有所述计算单元的IP地址，所述总路由构建模块还用于获取所有网络拓扑图，并根据所述网络拓扑图计算各个计算单元之间的通信路径，并按照起始计算单元的IP地址生成至少一个全路径路由表，所述总路由构建模块还用于将所述全路径路由表发送到计算资源池中。