CN110647399A - 一种基于人工智能网络的高性能计算系统及方法 - Google Patents

一种基于人工智能网络的高性能计算系统及方法 Download PDF

Info

Publication number
CN110647399A
CN110647399A CN201910896009.8A CN201910896009A CN110647399A CN 110647399 A CN110647399 A CN 110647399A CN 201910896009 A CN201910896009 A CN 201910896009A CN 110647399 A CN110647399 A CN 110647399A
Authority
CN
China
Prior art keywords
network
server
computing
nas
artificial intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910896009.8A
Other languages
English (en)
Inventor
周会群
王玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xinyida Computing Technology Co Ltd
Original Assignee
Nanjing Xinyida Computing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Xinyida Computing Technology Co Ltd filed Critical Nanjing Xinyida Computing Technology Co Ltd
Priority to CN201910896009.8A priority Critical patent/CN110647399A/zh
Publication of CN110647399A publication Critical patent/CN110647399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/544Buffers; Shared memory; Pipes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1095Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5017Task decomposition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Abstract

本发明涉及数据处理技术领域,具体地说,涉及一种基于人工智能网络的高性能计算系统及方法,包括集群计算服务器、SMP计算服务器、I/O存储节点服务器、管理节点服务器、大容量存储设备、网络交换设备和网络基础平台。本发明通过集群计算服务器中多个节点同步计算,提高运算效率和处理速度;通过SMP计算服务器采用对称多处理技术,一台电脑同时由多个处理器运行操作系统的单一复本,并共享内存和一台计算机的其他资源。虽然同时使用多个CPU,但是从管理的角度来看,它们的表现就像一台单机一样。系统将任务队列对称地分布于多个CPU之上,从而极大地提高了整个系统的数据处理能力,所有的处理器都可以平等地访问内存、I/O和外部中断。

Description

一种基于人工智能网络的高性能计算系统及方法
技术领域
本发明涉及数据处理技术领域,具体为一种基于人工智能网络的高性能计算系统及方法。
背景技术
高性能计算(High Performance Computing)是计算机科学的一个分支,研究并行算法和开发相关软件,致力于开发高性能计算机(High Performance Computer)。就是在1台甚至更多的服务器上完成某些类型的技术工作负载。随着信息化社会的飞速发展,人类对信息处理能力的要求越来越高,不仅石油勘探、气象预报、航天国防、科学研究等需求高性能计算机,而金融、政府信息化、教育、企业、网络游戏等更广泛的领域对高性能计算的需求迅猛增长。目前高性能计算系统在运行和操作时通过单一计算系统进行计算或者多个计算系统逐一进行计算,计算效率低下,处理速度慢。
发明内容
本发明的目的在于提供一种基于人工智能网络的高性能计算系统及方法,以解决上述背景技术中提出的某种或某些缺陷。
为实现上述目的,本发明提供如下技术方案:
一种基于人工智能网络的高性能计算系统,包括集群计算服务器、SMP计算服务器、I/O存储节点服务器、管理节点服务器、大容量存储设备、网络交换设备和网络基础平台;
集群计算服务器采用一组计算机作为一个整体向用户提供一组网络资源,其中单个的计算机为集群计算服务器的节点;
SMP计算服务器为一台计算机采用多个处理器运算操作系统;
I/O存储节点服务器用于连接后台的大容量数据存储设备和集群计算服务器;
管理节点服务器用于承接外部用户接入、访问集群系统,进行程序编译、调试、并行计算任务的分发与布署。
作为优选,管理节点服务器安装有集群管理软件,用于主节点对整个集群计算服务器进行管理和作业调度工作。
作为优选,大容量存储设备采用磁盘阵列作为存储设备,大容量存储设备的网络存储结构包括DAS直连式存储、NAS网络存储设备和SAN区域存储网络。
作为优选,NAS网络存储设备采用NAS服务器,NAS服务器的网络吞吐量相对值:
throught i=t i/t m(t m≥t i,i=1.2.3...n);
其中throught i表示第i个NAS服务器的网络吞吐量相对值;t i表示第i个NAS服务器的网络吞吐量;t m表示与第i个NAS服务器同组的各个NAS服务器中的最大的网络吞吐量值;
按照下列同时确定NAS服务器的综合负载权重:
w i=f(cpu i,throught i)=(1-c i)a×t m/t i,(t m≥t i,i=1.2.3...n);
其中,w i表示第i个NAS服务器的综合负载权重;cpu i表示第i个NAS服务器的剩余CPU利用率;throught i表示第i个NAS服务器的网络吞吐量相对值;c i表示第i个NAS服务器的CPU利用率;a为设定系数;t m表示与第i个NAS服务器同组的各个NAS服务器中的最大的网络吞吐量值;t i表示第i个NAS服务器的网络吞吐量。
作为优选,网络交换设备包括以太网交换机、InfinBand网络交换机以及光纤通道网络交换机。
作为优选,InfinBand网络交换机采用InfiniBand标准的网络,包括通信队列对建立单元和共享接收队列设置单元。
作为优选,通信队列对建立单元用于在第一节点和需要与第一节点建立通信的其它节点之间建立通信队列对;其中,通信队列对具体包括设置在每个节点上的接收队列和发送队列。
作为优选,共享接收队列设置单元,用于在第一节点上设置统一的接收队列和预接收缓冲区,分别接收来自其它节点的工作请求和与工作请求匹配的数据,以节省InfiniBand网络可靠连接通信所占用的内存。
作为优选,网络基础平台包括计算网络、存储网络和管理网络,计算网络采用小型机与集群计算服务器协同工作、高速InfinBand计算网与千兆以太计算网协同计算的混合架构,小型机用于结构计算。
另一方面,本发明还提供了一种基于人工智能网络的高性能计算方法,包括上述的基于人工智能网络的高性能计算系统,具体包括如下步骤:
S:先通过计算作业输送至计算系统中;
S:计算系统根据输入作业的文件格式选择对应的处理软件进行处理;
S:根据集群计算服务器的数量对作业进行分割;
S:集群计算服务器中各个SMP计算服务器对作业进行快速处理;
S:通过I/O存储节点服务器将处理后的多个数据片段进行组合后,传输至大容量存储设备中进行存储备份;
S:再通过网络交换设备将存储的数据输送至网络基础平台进行云存储。
与现有技术相比,本发明的有益效果是:
1、本基于人工智能网络的高性能计算系统及方法通过集群计算服务器中多个节点同步计算,提高运算效率和处理速度;通过SMP计算服务器采用对称多处理技术,一台电脑同时由多个处理器运行操作系统的单一复本,并共享内存和一台计算机的其他资源。虽然同时使用多个CPU,但是从管理的角度来看,它们的表现就像一台单机一样。系统将任务队列对称地分布于多个CPU之上,从而极大地提高了整个系统的数据处理能力。所有的处理器都可以平等地访问内存、I/O和外部中断。在对称多处理系统中,系统资源被系统中所有CPU共享,工作负载能够均匀地分配到所有可用处理器之上。
2、本基于人工智能网络的高性能计算系统及方法通过I/O存储节点服务器连接后台的大容量数据存储设备,整个集群通过此节点来进行数据的大规模存取与调用。
3、本基于人工智能网络的高性能计算系统及方法通过管理节点服务器承接外部用户接入、访问集群系统,进行程序编译、调试、并行计算任务的分发与布署,此节点还安装有集群管理软件,做为主节点对整个集群进行管理和作业调度等工作。
4、本基于人工智能网络的高性能计算系统及方法中SAN区域存储网络具有以下优点:(1)无限的扩展能力,由于SAN采用了网络结构,服务器可以访问存储网络上的任何一个存储设备,因此用户可以自由增加磁盘阵列、带库和服务器等设备,使得整个系统的存储空间和处理能力得以按客户需求不断扩大;(2)SAN具有更高的连接速度和处理能力。SAN采用了为大规模数据传输而专门设计的光纤通道技术,目前的传输速度为100MB,并会很快开发出传输速度为200MB和400MB的光纤通道开关;(3)从实测的结果看,SAN系统可以在不占用大量CPU的情况下,轻松地超过NAS的性能;(4)基于SAN架构的存储设备本身具有可扩充性,可以在线扩充存储容量和处理速度,升级到下一代产品。而且一旦SAN架构构建以后,可以很容易增加存储设备,并且这些存储设备均可以作为一个整体来共享,它们可以作为一个卷或多个卷来共享。在SAN的架构下,存储是独立于应用的。
5、本基于人工智能网络的高性能计算系统中NAS网络存储设备具有以下优点:(1)NAS系统只能通过提高单个控制器的处理能力和增大单个控制器控制的存储设备来扩展;(2)在NAS系统里,客户端通过传统网络访问NAS。而传统网络并不是为在可靠的链路上传输大批量数据而设计的,因此有很多传输校验,这些工作会消耗大量的CPU资源,增加客户机的负担;(3)NAS仅仅完成多台服务器文件系统级的共享,比较适合作文件服务器。
附图说明
图1是本发明的系统结构示意图;
图2是本发明的流程示意图;
图3是本发明的InfinBand网络交换机的工作原理图。
图中:集群计算服务器1;SMP计算服务器2;I/O存储节点服务器3;管理节点服务器4;大容量存储设备5;网络交换设备6;网络基础平台7。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种基于人工智能网络的高性能计算系统,如图1所示,包括集群计算服务器1、SMP计算服务器2、I/O存储节点服务器3、管理节点服务器4、大容量存储设备5、网络交换设备6和网络基础平台7;集群计算服务器1采用一组计算机作为一个整体向用户提供一组网络资源,其中单个的计算机为集群计算服务器1的节点;SMP计算服务器2为一台计算机采用多个处理器运算操作系统;I/O存储节点服务器3用于连接后台的大容量数据存储设备5和集群计算服务器1;管理节点服务器4用于承接外部用户接入、访问集群系统,进行程序编译、调试、并行计算任务的分发与布署。
进一步的,管理节点服务器4安装有集群管理软件,用于主节点对整个集群计算服务器1进行管理和作业调度工作。
具体的,网络交换设备6包括以太网交换机、InfinBand网络交换机以及光纤通道网络交换机。
如图3所示,InfinBand网络交换机采用InfiniBand标准的网络,包括通信队列对建立单元和共享接收队列设置单元。
值得说明的是,通信队列对建立单元用于在第一节点和需要与第一节点建立通信的其它节点之间建立通信队列对;其中,通信队列对具体包括设置在每个节点上的接收队列和发送队列;共享接收队列设置单元,用于在第一节点上设置统一的接收队列和预接收缓冲区,分别接收来自其它节点的工作请求和与工作请求匹配的数据,以节省InfiniBand网络可靠连接通信所占用的内存。
此外,网络基础平台7包括计算网络、存储网络和管理网络,计算网络采用小型机与集群计算服务器1协同工作、高速InfinBand计算网与千兆以太计算网协同计算的混合架构,小型机用于结构计算。存储网络的大部分数据都放在FC-SAN架构存储系统中,便于维护、管理和备份。管理网络则通过资源管理软件管理整个高性能计算平台。用户通过管理网络访问高性能计算平台。
另一方面,本发明还提供了一种基于web的固体物理性质计算方法,包括上述的基于人工智能网络的高性能计算系统,具体包括如下步骤:
S1:先通过计算作业输送至计算系统中;
S2:计算系统根据输入作业的文件格式选择对应的处理软件进行处理;
S3:根据集群计算服务器的数量对作业进行分割;
S4:集群计算服务器中各个SMP计算服务器对作业进行快速处理;
S5:通过I/O存储节点服务器将处理后的多个数据片段进行组合后,传输至大容量存储设备中进行存储备份;
S6:再通过网络交换设备将存储的数据输送至网络基础平台进行云存储。
本实施例的基于人工智能网络的高性能计算系统通过SMP计算服务器2采用对称多处理技术,一台电脑同时由多个处理器运行操作系统的单一复本,并共享内存和一台计算机的其他资源。虽然同时使用多个CPU,但是从管理的角度来看,它们的表现就像一台单机一样。系统将任务队列对称地分布于多个CPU之上,从而极大地提高了整个系统的数据处理能力。所有的处理器都可以平等地访问内存、I/O和外部中断。在对称多处理系统中,系统资源被系统中所有CPU共享,工作负载能够均匀地分配到所有可用处理器之上;通过I/O存储节点服务器3连接后台的大容量数据存储设备,整个集群通过此节点来进行数据的大规模存取与调用;通过管理节点服务器4承接外部用户接入、访问集群系统,进行程序编译、调试、并行计算任务的分发与布署,此节点还安装有集群管理软件,做为主节点对整个集群进行管理和作业调度等工作。
实施例2
作为本发明的第二种实施例,大容量存储设备5采用磁盘阵列作为存储设备,大容量存储设备5的网络存储结构包括DAS直连式存储、NAS网络存储设备和SAN区域存储网络。
NAS网络存储设备采用NAS服务器,NAS服务器的网络吞吐量相对值:
throught i=t i/t m(t m≥t i,i=1.2.3...n);
其中throught i表示第i个NAS服务器的网络吞吐量相对值;t i表示第i个NAS服务器的网络吞吐量;t m表示与第i个NAS服务器同组的各个NAS服务器中的最大的网络吞吐量值;
按照下列同时确定NAS服务器的综合负载权重:
w i=f(cpu i,throught i)=(1-c i)a×t m/t i,(t m≥t i,i=1.2.3...n);
其中,w i表示第i个NAS服务器的综合负载权重;cpu i表示第i个NAS服务器的剩余CPU利用率;throught i表示第i个NAS服务器的网络吞吐量相对值;c i表示第i个NAS服务器的CPU利用率;a为设定系数;t m表示与第i个NAS服务器同组的各个NAS服务器中的最大的网络吞吐量值;t i表示第i个NAS服务器的网络吞吐量。
本实施例基于人工智能网络的高性能计算系统中SAN区域存储网络具有以下几个优点:(1)无限的扩展能力,由于SAN采用了网络结构,服务器可以访问存储网络上的任何一个存储设备,因此用户可以自由增加磁盘阵列、带库和服务器等设备,使得整个系统的存储空间和处理能力得以按客户需求不断扩大;(2)SAN具有更高的连接速度和处理能力。SAN采用了为大规模数据传输而专门设计的光纤通道技术,目前的传输速度为100MB,并会很快开发出传输速度为200MB和400MB的光纤通道开关;(3)从实测的结果看,SAN系统可以在不占用大量CPU的情况下,轻松地超过NAS的性能;(4)基于SAN架构的存储设备本身具有可扩充性,可以在线扩充存储容量和处理速度,升级到下一代产品。而且一旦SAN架构构建以后,可以很容易增加存储设备,并且这些存储设备均可以作为一个整体来共享,它们可以作为一个卷或多个卷来共享。在SAN的架构下,存储是独立于应用的。
本实施例基于人工智能网络的高性能计算系统中NAS网络存储设备具有以下几个优点:(1)NAS系统只能通过提高单个控制器的处理能力和增大单个控制器控制的存储设备来扩展;(2)在NAS系统里,客户端通过传统网络访问NAS。而传统网络并不是为在可靠的链路上传输大批量数据而设计的,因此有很多传输校验,这些工作会消耗大量的CPU资源,增加客户机的负担;(3)NAS仅仅完成多台服务器文件系统级的共享,比较适合作文件服务器。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种基于人工智能网络的高性能计算系统,其特征在于:包括集群计算服务器(1)、SMP计算服务器(2)、I/O存储节点服务器(3)、管理节点服务器(4)、大容量存储设备(5)、网络交换设备(6)和网络基础平台(7);
集群计算服务器(1)采用一组计算机作为一个整体向用户提供一组网络资源,其中单个的计算机为集群计算服务器(1)的节点;
SMP计算服务器(2)为一台计算机采用多个处理器运算操作系统;
I/O存储节点服务器(3)用于连接后台的大容量数据存储设备(5)和集群计算服务器(1);
管理节点服务器(4)用于承接外部用户接入、访问集群系统,进行程序编译、调试、并行计算任务的分发与布署。
2.根据权利要求1所述的基于人工智能网络的高性能计算系统,其特征在于:管理节点服务器(4)安装有集群管理软件,用于主节点对整个集群计算服务器(1)进行管理和作业调度工作。
3.根据权利要求1所述的基于人工智能网络的高性能计算系统,其特征在于:大容量存储设备(5)采用磁盘阵列作为存储设备,大容量存储设备(5)的网络存储结构包括DAS直连式存储、NAS网络存储设备和SAN区域存储网络。
4.根据权利要求3所述的基于人工智能网络的高性能计算系统,其特征在于:NAS网络存储设备采用NAS服务器,NAS服务器的网络吞吐量相对值:
throught i=t i/t m(t m≥t i,i=1.2.3...n);
其中throught i表示第i个NAS服务器的网络吞吐量相对值;t i表示第i个NAS服务器的网络吞吐量;t m表示与第i个NAS服务器同组的各个NAS服务器中的最大的网络吞吐量值;
按照下列同时确定NAS服务器的综合负载权重:
w i=f(cpu i,throught i)=(1-c i)a×t m/t i,(t m≥t i,i=1.2.3...n);
其中,w i表示第i个NAS服务器的综合负载权重;cpu i表示第i个NAS服务器的剩余CPU利用率;throught i表示第i个NAS服务器的网络吞吐量相对值;c i表示第i个NAS服务器的CPU利用率;a为设定系数;t m表示与第i个NAS服务器同组的各个NAS服务器中的最大的网络吞吐量值;t i表示第i个NAS服务器的网络吞吐量。
5.根据权利要求1所述的基于人工智能网络的高性能计算系统,其特征在于:网络交换设备(6)包括以太网交换机、InfinBand网络交换机以及光纤通道网络交换机。
6.根据权利要求1所述的基于人工智能网络的高性能计算系统,其特征在于:InfinBand网络交换机采用InfiniBand标准的网络,包括通信队列对建立单元和共享接收队列设置单元。
7.根据权利要求6所述的基于人工智能网络的高性能计算系统,其特征在于:通信队列对建立单元用于在第一节点和需要与所述第一节点建立通信的其它节点之间建立通信队列对;其中,通信队列对具体包括设置在每个节点上的接收队列和发送队列。
8.根据权利要求6所述的基于人工智能网络的高性能计算系统,其特征在于:共享接收队列设置单元,用于在第一节点上设置统一的接收队列和预接收缓冲区,分别接收来自其它节点的工作请求和与工作请求匹配的数据,以节省InfiniBand网络可靠连接通信所占用的内存。
9.根据权利要求1所述的基于人工智能网络的高性能计算系统,其特征在于:网络基础平台(7)包括计算网络、存储网络和管理网络,计算网络采用小型机与集群计算服务器(1)协同工作、高速InfinBand计算网与千兆以太计算网协同计算的混合架构,小型机用于结构计算。
10.一种基于人工智能网络的高性能计算方法,包括权利要求书1-9任意一项所述的基于人工智能网络的高性能计算系统,其特征在于:具体包括如下步骤:
S1:先通过计算作业输送至计算系统中;
S2:计算系统根据输入作业的文件格式选择对应的处理软件进行处理;
S3:根据集群计算服务器的数量对作业进行分割;
S4:集群计算服务器中各个SMP计算服务器对作业进行快速处理;
S5:通过I/O存储节点服务器将处理后的多个数据片段进行组合后,传输至大容量存储设备中进行存储备份;
S6:再通过网络交换设备将存储的数据输送至网络基础平台进行云存储。
CN201910896009.8A 2019-09-22 2019-09-22 一种基于人工智能网络的高性能计算系统及方法 Pending CN110647399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910896009.8A CN110647399A (zh) 2019-09-22 2019-09-22 一种基于人工智能网络的高性能计算系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910896009.8A CN110647399A (zh) 2019-09-22 2019-09-22 一种基于人工智能网络的高性能计算系统及方法

Publications (1)

Publication Number Publication Date
CN110647399A true CN110647399A (zh) 2020-01-03

Family

ID=68992318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910896009.8A Pending CN110647399A (zh) 2019-09-22 2019-09-22 一种基于人工智能网络的高性能计算系统及方法

Country Status (1)

Country Link
CN (1) CN110647399A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113315794A (zh) * 2020-02-26 2021-08-27 宝山钢铁股份有限公司 一种高炉生产在线智能分析用计算系统网络的硬件架构
CN113381940A (zh) * 2021-04-25 2021-09-10 中国空气动力研究与发展中心计算空气动力研究所 一种二维胖树网络拓扑的设计方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621537A (zh) * 2009-07-24 2010-01-06 北京航空航天大学 一种低成本高光谱海量数据并行处理系统
CN102571904A (zh) * 2011-10-11 2012-07-11 浪潮电子信息产业股份有限公司 一种模块化设计的nas集群系统构建方法
CN102742251A (zh) * 2011-08-11 2012-10-17 华为技术有限公司 一种实现对称多处理系统的节点聚合系统
CN107579929A (zh) * 2017-09-18 2018-01-12 郑州云海信息技术有限公司 一种可靠连接通信队列对的设置方法、系统及相关装置
CN108259603A (zh) * 2018-01-17 2018-07-06 新华三技术有限公司 一种负载均衡方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101621537A (zh) * 2009-07-24 2010-01-06 北京航空航天大学 一种低成本高光谱海量数据并行处理系统
CN102742251A (zh) * 2011-08-11 2012-10-17 华为技术有限公司 一种实现对称多处理系统的节点聚合系统
CN102571904A (zh) * 2011-10-11 2012-07-11 浪潮电子信息产业股份有限公司 一种模块化设计的nas集群系统构建方法
CN107579929A (zh) * 2017-09-18 2018-01-12 郑州云海信息技术有限公司 一种可靠连接通信队列对的设置方法、系统及相关装置
CN108259603A (zh) * 2018-01-17 2018-07-06 新华三技术有限公司 一种负载均衡方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WYJ199201: "Linux高性能计算集群-Beowulf", 《HTTPS://WWW.DOCIN.COM/P-2029916322.HTML》, 13 October 2017 (2017-10-13), pages 1 - 23 *
张剑等: "《信息安全技术(第二版)》", 31 May 2015, 电子科技大学出版社, pages: 125 - 129 *
赵生辉: "《数字纽带》", vol. 01, 陕西师范大学出版社, pages: 176 - 179 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113315794A (zh) * 2020-02-26 2021-08-27 宝山钢铁股份有限公司 一种高炉生产在线智能分析用计算系统网络的硬件架构
CN113381940A (zh) * 2021-04-25 2021-09-10 中国空气动力研究与发展中心计算空气动力研究所 一种二维胖树网络拓扑的设计方法及装置
CN113381940B (zh) * 2021-04-25 2022-12-27 中国空气动力研究与发展中心计算空气动力研究所 一种二维胖树网络拓扑的设计方法及装置

Similar Documents

Publication Publication Date Title
US11563621B2 (en) Cluster computing
Wang et al. Optimizing load balancing and data-locality with data-aware scheduling
CN105677486B (zh) 数据并行处理方法及系统
US20200073703A1 (en) Apparatus and method for virtual machine scheduling in non-uniform memory access architecture
Chen et al. Tology-aware optimal data placement algorithm for network traffic optimization
Thakkar et al. Renda: resource and network aware data placement algorithm for periodic workloads in cloud
CN110647399A (zh) 一种基于人工智能网络的高性能计算系统及方法
Fei et al. FlexNFV: Flexible network service chaining with dynamic scaling
Blanas et al. Topology-aware parallel data processing: Models, algorithms and systems at scale
Won et al. Astra-sim2. 0: Modeling hierarchical networks and disaggregated systems for large-model training at scale
Wu et al. Shadow: Exploiting the power of choice for efficient shuffling in mapreduce
US6732215B2 (en) Super scalable multiprocessor computer system
Fu et al. Research of dynamic scheduling method for the air-to-ground warfare simulation system based on grid
Lai et al. ProOnE: a general-purpose protocol onload engine for multi-and many-core architectures
Kamenskikh et al. Software development framework for a distributed storage and GPGPU data processing infrastructure
Lu et al. Synchronous Dislocation Scheduling Quantum Algorithm Optimization in Virtual Private Cloud Computing Environment
WO2023151216A1 (zh) 图数据处理的方法和芯片
Wei et al. Shareability and Locality Aware Scheduling Algorithm in Hadoop for Mobile Cloud Computing.
CN108200109A (zh) 大数据一体机
Kumar et al. Hierarchical Communication Optimization for FFT
Jeong et al. D-RDMALib: InfiniBand-based RDMA Library for Distributed Cluster Applications
Ismahene et al. An Auto Scaling Energy Efficient Approach in Apache Hadoop
Kaur et al. A REVIEW ON BALANCING THE LOAD ON CLOUD USING ACCLB HYBRID LOAD BALANCING TECHNIQUE
Wang A Distributed Implementation of Continuous-MapReduce Stream Processing Framework
Ding et al. Improved YARN resource scheduling algorithm based on network load sensing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination