CN110647399A

CN110647399A - 一种基于人工智能网络的高性能计算系统及方法

Info

Publication number: CN110647399A
Application number: CN201910896009.8A
Authority: CN
Inventors: 周会群; 王玲
Original assignee: Nanjing Xinyida Computing Technology Co Ltd
Current assignee: Nanjing Xinyida Computing Technology Co Ltd
Priority date: 2019-09-22
Filing date: 2019-09-22
Publication date: 2020-01-03

Abstract

本发明涉及数据处理技术领域，具体地说，涉及一种基于人工智能网络的高性能计算系统及方法，包括集群计算服务器、SMP计算服务器、I/O存储节点服务器、管理节点服务器、大容量存储设备、网络交换设备和网络基础平台。本发明通过集群计算服务器中多个节点同步计算，提高运算效率和处理速度；通过SMP计算服务器采用对称多处理技术，一台电脑同时由多个处理器运行操作系统的单一复本，并共享内存和一台计算机的其他资源。虽然同时使用多个CPU，但是从管理的角度来看，它们的表现就像一台单机一样。系统将任务队列对称地分布于多个CPU之上，从而极大地提高了整个系统的数据处理能力，所有的处理器都可以平等地访问内存、I/O和外部中断。

Description

一种基于人工智能网络的高性能计算系统及方法

技术领域

本发明涉及数据处理技术领域，具体为一种基于人工智能网络的高性能计算系统及方法。

背景技术

高性能计算(High Performance Computing)是计算机科学的一个分支，研究并行算法和开发相关软件，致力于开发高性能计算机(High Performance Computer)。就是在1台甚至更多的服务器上完成某些类型的技术工作负载。随着信息化社会的飞速发展，人类对信息处理能力的要求越来越高，不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算机，而金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求迅猛增长。目前高性能计算系统在运行和操作时通过单一计算系统进行计算或者多个计算系统逐一进行计算，计算效率低下，处理速度慢。

发明内容

本发明的目的在于提供一种基于人工智能网络的高性能计算系统及方法，以解决上述背景技术中提出的某种或某些缺陷。

为实现上述目的，本发明提供如下技术方案：

一种基于人工智能网络的高性能计算系统，包括集群计算服务器、SMP计算服务器、I/O存储节点服务器、管理节点服务器、大容量存储设备、网络交换设备和网络基础平台；

集群计算服务器采用一组计算机作为一个整体向用户提供一组网络资源，其中单个的计算机为集群计算服务器的节点；

SMP计算服务器为一台计算机采用多个处理器运算操作系统；

I/O存储节点服务器用于连接后台的大容量数据存储设备和集群计算服务器；

管理节点服务器用于承接外部用户接入、访问集群系统，进行程序编译、调试、并行计算任务的分发与布署。

作为优选，管理节点服务器安装有集群管理软件，用于主节点对整个集群计算服务器进行管理和作业调度工作。

作为优选，大容量存储设备采用磁盘阵列作为存储设备，大容量存储设备的网络存储结构包括DAS直连式存储、NAS网络存储设备和SAN区域存储网络。

作为优选，NAS网络存储设备采用NAS服务器，NAS服务器的网络吞吐量相对值：

throught i＝t i/t m(t m≥t i,i＝1.2.3...n)；

其中throught i表示第i个NAS服务器的网络吞吐量相对值；t i表示第i个NAS服务器的网络吞吐量；t m表示与第i个NAS服务器同组的各个NAS服务器中的最大的网络吞吐量值；

按照下列同时确定NAS服务器的综合负载权重：

w i＝f(cpu i,throught i)＝(1-c i)a×t m/t i,(t m≥t i,i＝1.2.3...n)；

其中，w i表示第i个NAS服务器的综合负载权重；cpu i表示第i个NAS服务器的剩余CPU利用率；throught i表示第i个NAS服务器的网络吞吐量相对值；c i表示第i个NAS服务器的CPU利用率；a为设定系数；t m表示与第i个NAS服务器同组的各个NAS服务器中的最大的网络吞吐量值；t i表示第i个NAS服务器的网络吞吐量。

作为优选，网络交换设备包括以太网交换机、InfinBand网络交换机以及光纤通道网络交换机。

作为优选，InfinBand网络交换机采用InfiniBand标准的网络，包括通信队列对建立单元和共享接收队列设置单元。

作为优选，通信队列对建立单元用于在第一节点和需要与第一节点建立通信的其它节点之间建立通信队列对；其中，通信队列对具体包括设置在每个节点上的接收队列和发送队列。

作为优选，共享接收队列设置单元，用于在第一节点上设置统一的接收队列和预接收缓冲区，分别接收来自其它节点的工作请求和与工作请求匹配的数据，以节省InfiniBand网络可靠连接通信所占用的内存。

作为优选，网络基础平台包括计算网络、存储网络和管理网络，计算网络采用小型机与集群计算服务器协同工作、高速InfinBand计算网与千兆以太计算网协同计算的混合架构，小型机用于结构计算。

另一方面，本发明还提供了一种基于人工智能网络的高性能计算方法，包括上述的基于人工智能网络的高性能计算系统，具体包括如下步骤：

S：先通过计算作业输送至计算系统中；

S：计算系统根据输入作业的文件格式选择对应的处理软件进行处理；

S：根据集群计算服务器的数量对作业进行分割；

S：集群计算服务器中各个SMP计算服务器对作业进行快速处理；

S：通过I/O存储节点服务器将处理后的多个数据片段进行组合后，传输至大容量存储设备中进行存储备份；

S：再通过网络交换设备将存储的数据输送至网络基础平台进行云存储。

与现有技术相比，本发明的有益效果是：

1、本基于人工智能网络的高性能计算系统及方法通过集群计算服务器中多个节点同步计算，提高运算效率和处理速度；通过SMP计算服务器采用对称多处理技术，一台电脑同时由多个处理器运行操作系统的单一复本，并共享内存和一台计算机的其他资源。虽然同时使用多个CPU，但是从管理的角度来看，它们的表现就像一台单机一样。系统将任务队列对称地分布于多个CPU之上，从而极大地提高了整个系统的数据处理能力。所有的处理器都可以平等地访问内存、I/O和外部中断。在对称多处理系统中，系统资源被系统中所有CPU共享，工作负载能够均匀地分配到所有可用处理器之上。

2、本基于人工智能网络的高性能计算系统及方法通过I/O存储节点服务器连接后台的大容量数据存储设备，整个集群通过此节点来进行数据的大规模存取与调用。

3、本基于人工智能网络的高性能计算系统及方法通过管理节点服务器承接外部用户接入、访问集群系统，进行程序编译、调试、并行计算任务的分发与布署，此节点还安装有集群管理软件，做为主节点对整个集群进行管理和作业调度等工作。

4、本基于人工智能网络的高性能计算系统及方法中SAN区域存储网络具有以下优点：(1)无限的扩展能力，由于SAN采用了网络结构，服务器可以访问存储网络上的任何一个存储设备，因此用户可以自由增加磁盘阵列、带库和服务器等设备，使得整个系统的存储空间和处理能力得以按客户需求不断扩大；(2)SAN具有更高的连接速度和处理能力。SAN采用了为大规模数据传输而专门设计的光纤通道技术，目前的传输速度为100MB，并会很快开发出传输速度为200MB和400MB的光纤通道开关；(3)从实测的结果看，SAN系统可以在不占用大量CPU的情况下，轻松地超过NAS的性能；(4)基于SAN架构的存储设备本身具有可扩充性，可以在线扩充存储容量和处理速度，升级到下一代产品。而且一旦SAN架构构建以后，可以很容易增加存储设备，并且这些存储设备均可以作为一个整体来共享，它们可以作为一个卷或多个卷来共享。在SAN的架构下，存储是独立于应用的。

5、本基于人工智能网络的高性能计算系统中NAS网络存储设备具有以下优点：(1)NAS系统只能通过提高单个控制器的处理能力和增大单个控制器控制的存储设备来扩展；(2)在NAS系统里，客户端通过传统网络访问NAS。而传统网络并不是为在可靠的链路上传输大批量数据而设计的，因此有很多传输校验，这些工作会消耗大量的CPU资源，增加客户机的负担；(3)NAS仅仅完成多台服务器文件系统级的共享，比较适合作文件服务器。

附图说明

图1是本发明的系统结构示意图；

图2是本发明的流程示意图；

图3是本发明的InfinBand网络交换机的工作原理图。

图中：集群计算服务器1；SMP计算服务器2；I/O存储节点服务器3；管理节点服务器4；大容量存储设备5；网络交换设备6；网络基础平台7。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

一种基于人工智能网络的高性能计算系统，如图1所示，包括集群计算服务器1、SMP计算服务器2、I/O存储节点服务器3、管理节点服务器4、大容量存储设备5、网络交换设备6和网络基础平台7；集群计算服务器1采用一组计算机作为一个整体向用户提供一组网络资源，其中单个的计算机为集群计算服务器1的节点；SMP计算服务器2为一台计算机采用多个处理器运算操作系统；I/O存储节点服务器3用于连接后台的大容量数据存储设备5和集群计算服务器1；管理节点服务器4用于承接外部用户接入、访问集群系统，进行程序编译、调试、并行计算任务的分发与布署。

进一步的，管理节点服务器4安装有集群管理软件，用于主节点对整个集群计算服务器1进行管理和作业调度工作。

具体的，网络交换设备6包括以太网交换机、InfinBand网络交换机以及光纤通道网络交换机。

如图3所示，InfinBand网络交换机采用InfiniBand标准的网络，包括通信队列对建立单元和共享接收队列设置单元。

值得说明的是，通信队列对建立单元用于在第一节点和需要与第一节点建立通信的其它节点之间建立通信队列对；其中，通信队列对具体包括设置在每个节点上的接收队列和发送队列；共享接收队列设置单元，用于在第一节点上设置统一的接收队列和预接收缓冲区，分别接收来自其它节点的工作请求和与工作请求匹配的数据，以节省InfiniBand网络可靠连接通信所占用的内存。

此外，网络基础平台7包括计算网络、存储网络和管理网络，计算网络采用小型机与集群计算服务器1协同工作、高速InfinBand计算网与千兆以太计算网协同计算的混合架构，小型机用于结构计算。存储网络的大部分数据都放在FC-SAN架构存储系统中，便于维护、管理和备份。管理网络则通过资源管理软件管理整个高性能计算平台。用户通过管理网络访问高性能计算平台。

另一方面，本发明还提供了一种基于web的固体物理性质计算方法，包括上述的基于人工智能网络的高性能计算系统，具体包括如下步骤：

S1：先通过计算作业输送至计算系统中；

S2：计算系统根据输入作业的文件格式选择对应的处理软件进行处理；

S3：根据集群计算服务器的数量对作业进行分割；

S4：集群计算服务器中各个SMP计算服务器对作业进行快速处理；

S5：通过I/O存储节点服务器将处理后的多个数据片段进行组合后，传输至大容量存储设备中进行存储备份；

S6：再通过网络交换设备将存储的数据输送至网络基础平台进行云存储。

本实施例的基于人工智能网络的高性能计算系统通过SMP计算服务器2采用对称多处理技术，一台电脑同时由多个处理器运行操作系统的单一复本，并共享内存和一台计算机的其他资源。虽然同时使用多个CPU，但是从管理的角度来看，它们的表现就像一台单机一样。系统将任务队列对称地分布于多个CPU之上，从而极大地提高了整个系统的数据处理能力。所有的处理器都可以平等地访问内存、I/O和外部中断。在对称多处理系统中，系统资源被系统中所有CPU共享，工作负载能够均匀地分配到所有可用处理器之上；通过I/O存储节点服务器3连接后台的大容量数据存储设备，整个集群通过此节点来进行数据的大规模存取与调用；通过管理节点服务器4承接外部用户接入、访问集群系统，进行程序编译、调试、并行计算任务的分发与布署，此节点还安装有集群管理软件，做为主节点对整个集群进行管理和作业调度等工作。

实施例2

作为本发明的第二种实施例，大容量存储设备5采用磁盘阵列作为存储设备，大容量存储设备5的网络存储结构包括DAS直连式存储、NAS网络存储设备和SAN区域存储网络。

NAS网络存储设备采用NAS服务器，NAS服务器的网络吞吐量相对值：

throught i＝t i/t m(t m≥t i,i＝1.2.3...n)；

按照下列同时确定NAS服务器的综合负载权重：

w i＝f(cpu i,throught i)＝(1-c i)a×t m/t i,(t m≥t i,i＝1.2.3...n)；

本实施例基于人工智能网络的高性能计算系统中SAN区域存储网络具有以下几个优点：(1)无限的扩展能力，由于SAN采用了网络结构，服务器可以访问存储网络上的任何一个存储设备，因此用户可以自由增加磁盘阵列、带库和服务器等设备，使得整个系统的存储空间和处理能力得以按客户需求不断扩大；(2)SAN具有更高的连接速度和处理能力。SAN采用了为大规模数据传输而专门设计的光纤通道技术，目前的传输速度为100MB，并会很快开发出传输速度为200MB和400MB的光纤通道开关；(3)从实测的结果看，SAN系统可以在不占用大量CPU的情况下，轻松地超过NAS的性能；(4)基于SAN架构的存储设备本身具有可扩充性，可以在线扩充存储容量和处理速度，升级到下一代产品。而且一旦SAN架构构建以后，可以很容易增加存储设备，并且这些存储设备均可以作为一个整体来共享，它们可以作为一个卷或多个卷来共享。在SAN的架构下，存储是独立于应用的。

本实施例基于人工智能网络的高性能计算系统中NAS网络存储设备具有以下几个优点：(1)NAS系统只能通过提高单个控制器的处理能力和增大单个控制器控制的存储设备来扩展；(2)在NAS系统里，客户端通过传统网络访问NAS。而传统网络并不是为在可靠的链路上传输大批量数据而设计的，因此有很多传输校验，这些工作会消耗大量的CPU资源，增加客户机的负担；(3)NAS仅仅完成多台服务器文件系统级的共享，比较适合作文件服务器。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于人工智能网络的高性能计算系统，其特征在于：包括集群计算服务器(1)、SMP计算服务器(2)、I/O存储节点服务器(3)、管理节点服务器(4)、大容量存储设备(5)、网络交换设备(6)和网络基础平台(7)；

集群计算服务器(1)采用一组计算机作为一个整体向用户提供一组网络资源，其中单个的计算机为集群计算服务器(1)的节点；

SMP计算服务器(2)为一台计算机采用多个处理器运算操作系统；

I/O存储节点服务器(3)用于连接后台的大容量数据存储设备(5)和集群计算服务器(1)；

管理节点服务器(4)用于承接外部用户接入、访问集群系统，进行程序编译、调试、并行计算任务的分发与布署。

2.根据权利要求1所述的基于人工智能网络的高性能计算系统，其特征在于：管理节点服务器(4)安装有集群管理软件，用于主节点对整个集群计算服务器(1)进行管理和作业调度工作。

3.根据权利要求1所述的基于人工智能网络的高性能计算系统，其特征在于：大容量存储设备(5)采用磁盘阵列作为存储设备，大容量存储设备(5)的网络存储结构包括DAS直连式存储、NAS网络存储设备和SAN区域存储网络。

4.根据权利要求3所述的基于人工智能网络的高性能计算系统，其特征在于：NAS网络存储设备采用NAS服务器，NAS服务器的网络吞吐量相对值：

throught i＝t i/t m(t m≥t i,i＝1.2.3...n)；

按照下列同时确定NAS服务器的综合负载权重：

w i＝f(cpu i,throught i)＝(1-c i)a×t m/t i,(t m≥t i,i＝1.2.3...n)；

5.根据权利要求1所述的基于人工智能网络的高性能计算系统，其特征在于：网络交换设备(6)包括以太网交换机、InfinBand网络交换机以及光纤通道网络交换机。

6.根据权利要求1所述的基于人工智能网络的高性能计算系统，其特征在于：InfinBand网络交换机采用InfiniBand标准的网络，包括通信队列对建立单元和共享接收队列设置单元。

7.根据权利要求6所述的基于人工智能网络的高性能计算系统，其特征在于：通信队列对建立单元用于在第一节点和需要与所述第一节点建立通信的其它节点之间建立通信队列对；其中，通信队列对具体包括设置在每个节点上的接收队列和发送队列。

8.根据权利要求6所述的基于人工智能网络的高性能计算系统，其特征在于：共享接收队列设置单元，用于在第一节点上设置统一的接收队列和预接收缓冲区，分别接收来自其它节点的工作请求和与工作请求匹配的数据，以节省InfiniBand网络可靠连接通信所占用的内存。

9.根据权利要求1所述的基于人工智能网络的高性能计算系统，其特征在于：网络基础平台(7)包括计算网络、存储网络和管理网络，计算网络采用小型机与集群计算服务器(1)协同工作、高速InfinBand计算网与千兆以太计算网协同计算的混合架构，小型机用于结构计算。

10.一种基于人工智能网络的高性能计算方法，包括权利要求书1-9任意一项所述的基于人工智能网络的高性能计算系统，其特征在于：具体包括如下步骤：

S1：先通过计算作业输送至计算系统中；

S3：根据集群计算服务器的数量对作业进行分割；