CN104199801A

CN104199801A - 一种基于龙芯服务器的高性能计算集群的实现方法

Info

Publication number: CN104199801A
Application number: CN201410425264.1A
Authority: CN
Inventors: 陈亮甫; 吴登勇
Original assignee: Shandong Chaoyue Numerical Control Electronics Co Ltd
Current assignee: Shandong Chaoyue Numerical Control Electronics Co Ltd
Priority date: 2014-08-26
Filing date: 2014-08-26
Publication date: 2014-12-10

Abstract

本发明公开了一种基于龙芯服务器的高性能计算集群的实现方法，属于高性能计算集群技术领域，本发明的要解决的技术问题为：如何在龙芯服务器平台上实现高性能计算集群。技术方案为：在龙芯服务器平台上实现高性能计算集群，步骤如下：每个服务器刀片都扩展infiniband接口，并通过光缆与infiniband交换机相连，每个服务器刀片都能够通过infiniband交换机进行通信；固定一个服务器刀片配置成为高性能计算集群中的控制节点，将其它服务器刀片配置成高性能计算集群的计算节点；在控制节点中并发指令，将多任务并行计算程序分发给多个计算节点，并在各个计算节点中运行；控制节点将各个计算节点所得到的结果进行综合处理，得出最终的并行计算结果。

Description

一种基于龙芯服务器的高性能计算集群的实现方法

技术领域

本发明涉及一种高性能计算集群技术领域，具体地说是一种基于龙芯服务器的高性能计算集群的实现方法。

背景技术

龙芯（英语：Loongson，旧称GODSON）是中国科学院计算技术研究所设计的通用CPU，采用MIPS精简指令集架构，获得了MIPS科技公司专利授权。龙芯1号的频率为266MHz，最早在2002年开始使用。龙芯2号的频率最高为1GHz。龙芯3A是首款国产商用4核处理器，其工作频率为900MHz～1GHz。龙芯3A的峰值计算能力达到16GFLOPS。龙芯3B是首款国产商用8核处理器，主频达到1GHz，支持向量运算加速，峰值计算能力达到128GFLOPS，具有很高的性能功耗比。

高性能计算集群，英文原文为High Performance Computing Cluster, 简称HPC集群，是指以提高科学计算能力为目的计算机集群技术。HPC集群是一种并行计算集群。并行计算是指将一个应用程序分割成多块可以并行执行的部分并指定到多个处理器上执行的方法。

高性能计算（HPC）集群主要研究的是大规模的科学计算问题。它把一个作业分成若干可以并行的子任务，各子任务共同协作来完成该作业。这些子任务的执行分布在独立的计算节点中，这样就可以有效的缩短集群中作业的运行时间，提高效率。随着大数据时代的到来，高性能计算凸显重要，但目前高性能计算集群主要用于X86平台的计算机领域中。而在国防建设中，自主可控已经成为主流。在国产化计算机服务器等自主领域，尤其是龙芯平台中，由于系统机构与操作系统的特殊性，还没有相关的HPC集群实现方法。

发明内容

本发明的技术任务是针对以上不足之处，提供一种设计科学、使用方便、便于推广的一种基于龙芯服务器的高性能计算集群的实现方法。

本发明解决其技术问题所采用的技术方案是：

一种基于龙芯服务器的高性能计算集群的实现方法，在龙芯服务器平台上实现高性能计算集群，所述龙芯服务器采用刀片式服务器，由若干个具有龙芯处理器的服务器刀片组成，包括如下步骤：

（1）、在龙芯服务器平台中，通过服务器刀片的北桥芯片的PCIE总线扩展高速通信设备infiniband接口；

（2）、每个服务器刀片都扩展infiniband接口，并通过infiniband接口及光缆与infiniband交换机相连，每个服务器刀片都能够通过infiniband交换机进行通信；

（3）、在服务器刀片启动过程中，对扩展的infiniband交换机进行初始化，并分配中断，加载infiniband驱动；

（4）、进入操作系统系统后，将每个服务器刀片都配置成相同的通信方式，通信方式是IB Verbs方式或者是IPoIB方式；

（5）、固定一个服务器刀片配置成为高性能计算集群中的控制节点，将其它服务器刀片配置成高性能计算集群的计算节点；

（6）、在控制节点与计算节点中配置好通过infiniband交换机的通信方式，使控制节点与计算节点可以通过infiniband交换机进行高速通信；

（7）、在控制节点与计算节点中将MPI库进行修改后，进行安装配置，使其在龙芯服务器平台可以正常使用；

（8）、在控制节点与计算节点中修改HPL源码，进行编译，生成并行计算测试程序二进制文件xphl；

（9）、在控制节点中采用MPI并发指令，将多任务并行计算程序xphl分发给多个计算节点，并在各个计算节点中运行；

（10）、各个计算节点执行完该任务后，控制节点将各个计算节点所得到的结果进行综合处理，得出最终的并行计算结果，如此即可验证高性能计算是否成功；

（11）、在控制节点与计算节点中部署专用作业调度软件，将用户提交的任务送入相应的队列中，并在适当的时间分配作业，以一定的规则运行作业，实现对作业和资源的全程交互控制；

（12）、通过上述步骤（11）的作业调度方式，控制节点将作业分发给资源比较空闲的计算节点来完成，以提高作业的执行效率。

由具有龙芯处理器的计算机替代具有龙芯处理器的服务器刀片，所述龙芯服务器由若干台计算机组成，所述各步骤中，由计算机替代服务器刀片。

步骤（11）中，用户提交的任务为：用户查询或者预订符合要求的资源的任务，用户提交任务采用的方式是命令的方式或者是图形界面操作的方式。

本发明的一种基于龙芯服务器的高性能计算集群的实现方法，在龙芯服务器平台上实现高性能计算集群，具有设计科学、使用方便等特点，可以应用于航空、地面车辆、舰艇、卫星等领域。

附图说明

下面结合附图对本发明进一步说明。

附图1为一种基于龙芯服务器的高性能计算集群的实现方法的服务器刀片内的结构框图；

附图2为一种基于龙芯服务器的高性能计算集群的实现方法的高性能计算集群的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

实施例1：

实施例2：

一种基于龙芯服务器的高性能计算集群的实现方法，在龙芯服务器平台上实现高性能计算集群，所述龙芯服务器由若干个具有龙芯处理器的计算机组成，包括如下步骤：

（1）、在龙芯服务器平台中，通过计算机的北桥芯片的PCIE总线扩展高速通信设备infiniband接口；

（2）、每个计算机都扩展infiniband接口，并通过infiniband接口及光缆与infiniband交换机相连，每个计算机都能够通过infiniband交换机进行通信；

（3）、在计算机启动过程中，对扩展的infiniband交换机进行初始化，并分配中断，加载infiniband驱动；

（4）、进入操作系统系统后，将每个计算机都配置成相同的通信方式，通信方式是IB Verbs方式或者是IPoIB方式；

（5）、固定一个计算机配置成为高性能计算集群中的控制节点，将其它计算机配置成高性能计算集群的计算节点；

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的一种基于龙芯服务器的高性能计算集群的实现方法的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利保护范围。

Claims

1.一种基于龙芯服务器的高性能计算集群的实现方法，其特征在于在龙芯服务器平台上实现高性能计算集群，所述龙芯服务器由若干个具有龙芯处理器的服务器刀片组成，包括如下步骤：

（10）、各个计算节点执行完该任务后，控制节点将各个计算节点所得到的结果进行综合处理，得出最终的并行计算结果；

（11）、在控制节点与计算节点中部署专用作业调度软件，将用户提交的任务送入相应的队列中，并分配作业，运行作业，实现对作业和资源的全程交互控制；

（12）、通过上述步骤（11）的作业调度方式，控制节点将作业分发给资源比较空闲的计算节点来完成。

2.根据权利要求1所述的一种基于龙芯服务器的高性能计算集群的实现方法，其特征在于由具有龙芯处理器的计算机替代具有龙芯处理器的服务器刀片，所述龙芯服务器由若干台计算机组成，所述各步骤中，由计算机替代服务器刀片。

3.根据权利要求1所述的一种基于龙芯服务器的高性能计算集群的实现方法，其特征在于步骤（11）中，用户提交的任务为：用户查询或者预订符合要求的资源的任务，用户提交任务采用的方式是命令的方式或者是图形界面操作的方式。