CN108509371A - 一种高端容错计算机节点互联系统及实现方法 - Google Patents
一种高端容错计算机节点互联系统及实现方法 Download PDFInfo
- Publication number
- CN108509371A CN108509371A CN201810311007.3A CN201810311007A CN108509371A CN 108509371 A CN108509371 A CN 108509371A CN 201810311007 A CN201810311007 A CN 201810311007A CN 108509371 A CN108509371 A CN 108509371A
- Authority
- CN
- China
- Prior art keywords
- interface
- node
- control chip
- node control
- interconnected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 239000013307 optical fiber Substances 0.000 claims abstract description 8
- 230000005540 biological transmission Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 abstract description 5
- 230000001934 delay Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000015654 memory Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
- G06F15/173—Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
- G06F15/17356—Indirect interconnection networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B10/00—Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
- H04B10/25—Arrangements specific to fibre transmission
- H04B10/2589—Bidirectional transmission
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Electromagnetism (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multi Processors (AREA)
Abstract
本发明公开一种高端容错计算机节点互联系统及实现方法,涉及计算技术领域,根据实际应用情况将单节点内部的CPU利用节点控制芯片的接口互联,再将单节点利用节点控制芯片的接口互联,组成多路系统,将多路系统分组,每组多路系统间利用节点控制芯片的接口互联,根据实际应用情况将多组多路系统划分为成套系统,并利用节点控制芯片的接口完成成套系统的互联;本发明满足高端容错计算机处理器规模增大带来的节点间通信带宽需求,节点之间可以通过高速全双工接口互联,可通过光纤传输,不需要网络控制器转发,降低通信延迟,大大提高系统的性能。
Description
技术领域
本发明公开一种高端容错计算机节点互联系统及实现方法,涉及计算技术领域。
背景技术
随着摩尔定律的不断变缓,微处理器技术发展面临的挑战越来越大,而多个处理器互联组成的多处理机大大加快了计算机整机性能的提高,但是通过提高并行性来提升性能也随之带来一系列问题。大规模多处理机采用多个CPU和存储器,并且分布于多个节点。多个节点的网络开销与带宽性能之间往往存在矛盾,本发明提出的一种高端容错计算机节点互联系统及实现方法,不仅使网络带宽与计算机用户程序中的通信要求匹配,提高CPU跨节点内存访问效率,而且降低了硬件开销,减少了成本,大大提高系统的灵活性、可靠性和可用性。
NGN Next Generation Network 下一代网络。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种高端容错计算机节点互联系统及实现方法。
一种高端容错计算机节点互联的实现方法,根据实际应用情况将单节点内部的CPU利用节点控制芯片的接口互联,再将单节点利用节点控制芯片的接口互联,组成多路系统,将多路系统分组,每组多路系统间利用节点控制芯片的接口互联,根据实际应用情况将多组多路系统划分为成套系统,并利用节点控制芯片的接口完成成套系统的互联。
所述的方法中单节点内部的CPU通过QPI接口与节点控制芯片的接口连接进行互联。
所述的方法中单节点内部的CPU为偶数个,则将CPU按照偶数个划分,利用节点控制芯片的接口互联。
所述的方法中节点控制芯片的接口采用光纤传输的方式。
一种高端容错计算机节点互联系统,根据实际应用情况将单节点内部的CPU利用节点控制芯片的接口互联,再将单节点利用节点控制芯片的接口互联,组成多路系统,将多路系统分组,每组多路系统间利用节点控制芯片的接口互联,根据实际应用情况将多组多路系统划分为成套系统,并利用节点控制芯片的接口完成成套系统的互联。
所述的系统中单节点内部的CPU通过QPI接口与节点控制芯片的接口连接进行互联。
所述的系统中单节点内部的CPU为偶数个,则将CPU按照偶数个划分,利用节点控制芯片的接口互联。
所述的系统中节点控制芯片的接口采用光纤传输的方式。
本发明与现有技术相比具有的有益效果是:
本发明提出的一种高端容错计算机节点互联系统及实现方法,可以满足高端容错计算机处理器规模增大带来的节点间通信带宽需求,节点之间可以通过高速全双工接口互联,可通过光纤传输,不需要网络控制器转发,降低通信延迟,大大提高系统的性能,提高CPU跨节点内存访问效率,而且降低了硬件开销,减少了成本,同时还具备一定的可扩展性。
附图说明
图1 本发明中16路系统节点互联网络平面结构示意图;
图2本发明中64路系统节点互联立体结构示意图;
图3本发明方法流程示意图。
具体实施方式
本发明提供一种高端容错计算机节点互联的实现方法,根据实际应用情况将单节点内部的CPU利用节点控制芯片的接口互联,再将单节点利用节点控制芯片的接口互联,组成多路系统,将多路系统分组,每组多路系统间利用节点控制芯片的接口互联,根据实际应用情况将多组多路系统划分为成套系统,并利用节点控制芯片的接口完成成套系统的互联。
同时提供与上述方法相对应的一种高端容错计算机节点互联系统,根据实际应用情况将单节点内部的CPU利用节点控制芯片的接口互联,再将单节点利用节点控制芯片的接口互联,组成多路系统,将多路系统分组,每组多路系统间利用节点控制芯片的接口互联,根据实际应用情况将多组多路系统划分为成套系统,并利用节点控制芯片的接口完成成套系统的互联。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
利用本发明方法及系统,以建立64路高端容错计算机系统为例,
组建单节点内部CPU与Node Controler互联网络,其中Node Controler为节点控制芯片,简称NC,由NC板承载,每个单节点包含两个Node Controler,每个Node Controler带有8个全双工接口作为节点间网络互联接口,Node Controler 0和Node Controler 1之间的互联网络完全相同,每个单节点包含4颗CPU,每两个CPU互联一个Node Controler,CPU通过QPI接口与节点控制芯片的接口连接进行互联;
4个单节点组成一个16路系统,16路系统中每个单节点利用每个Node Controler上的3个接口实现网络结构全互联,可参考图1,如图1中NC0与NC2,NC4,NC6互联;
划分四个16路系统为两组,每组16路系统利用内部的节点控制芯片的4个接口实现互联,如图2中NC0,分别与NC1,NC2,NC3,NC4互联,将两组16路系统划分为两套32路系统,并利用每套32路系统中的节点控制芯片的1个接口完成成套系统间网络结构的互联,如图2中NC0与NC8互联,则64路系统的互联网络建立了超立方体结构,实现了网络开销与带宽性能之间的折中,既降低了多处理机中的远程访问延迟,又实现了较大的系统规模,得到最优的系统加速比。
其中上述Node Controler的接口可以是全双工NI接口,通过光模块进行光纤传输,光模块主要作用是基于NI接口物理层,通过内部处理芯片实现光、电信号之间的转换,可以大大提高系统的稳定性、可靠性和可用性。此外,Node Controler主要功能是维护系统Cache一致性,本发明系统还可设置NI接口控制器,负责收发节点之间Cache一致性报文,以及报文的路由转发。
利用本发明实现网络开销与带宽性能之间的折中,既降低了多处理机中的远程访问延迟,又实现了较大的系统规模,得到最优的系统加速比,系统的网络互连线还可采用光纤传输,大大提高系统的稳定性、可靠性和可用性。
Claims (8)
1.一种高端容错计算机节点互联的实现方法,其特征在于根据实际应用情况将单节点内部的CPU利用节点控制芯片的接口互联,再将单节点利用节点控制芯片的接口互联,组成多路系统,将多路系统分组,每组多路系统间利用节点控制芯片的接口互联,根据实际应用情况将多组多路系统划分为成套系统,并利用节点控制芯片的接口完成成套系统的互联。
2.根据权利要求1所述的方法,其特征在于单节点内部的CPU通过QPI接口与节点控制芯片的接口连接进行互联。
3.根据权利要求2所述的方法,其特征在于单节点内部的CPU为偶数个,则将CPU按照偶数个划分,利用节点控制芯片的接口互联。
4.根据权利要求1-3任一所述的方法,其特征在于所述节点控制芯片的接口采用光纤传输的方式。
5.一种高端容错计算机节点互联系统,其特征在于根据实际应用情况将单节点内部的CPU利用节点控制芯片的接口互联,再将单节点利用节点控制芯片的接口互联,组成多路系统,将多路系统分组,每组多路系统间利用节点控制芯片的接口互联,根据实际应用情况将多组多路系统划分为成套系统,并利用节点控制芯片的接口完成成套系统的互联。
6.根据权利要求5所述的系统,其特征在于单节点内部的CPU通过QPI接口与节点控制芯片的接口连接进行互联。
7.根据权利要求6所述的系统,其特征在于单节点内部的CPU为偶数个,则将CPU按照偶数个划分,利用节点控制芯片的接口互联。
8.根据权利要求5-8任一所述的系统,其特征在于节点控制芯片的接口采用光纤传输的方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810311007.3A CN108509371A (zh) | 2018-04-09 | 2018-04-09 | 一种高端容错计算机节点互联系统及实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810311007.3A CN108509371A (zh) | 2018-04-09 | 2018-04-09 | 一种高端容错计算机节点互联系统及实现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108509371A true CN108509371A (zh) | 2018-09-07 |
Family
ID=63380842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810311007.3A Pending CN108509371A (zh) | 2018-04-09 | 2018-04-09 | 一种高端容错计算机节点互联系统及实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108509371A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4730322A (en) * | 1985-09-27 | 1988-03-08 | California Institute Of Technology | Method and apparatus for implementing a maximum-likelihood decoder in a hypercube network |
CN1494688A (zh) * | 2001-02-24 | 2004-05-05 | �Ҵ���˾ | 新颖的大规模并行超级计算机 |
CN102055634A (zh) * | 2010-12-14 | 2011-05-11 | 湖南南车时代电动汽车股份有限公司 | 一种基于光纤的can节点互联装置 |
CN102129418A (zh) * | 2011-03-07 | 2011-07-20 | 浪潮(北京)电子信息产业有限公司 | 一种高端容错计算机系统及实现方法 |
WO2012118552A2 (en) * | 2011-03-02 | 2012-09-07 | Intel Corporation | Increasing input output hubs in constrained link based multi-processor systems |
CN104408014A (zh) * | 2014-12-23 | 2015-03-11 | 浪潮电子信息产业股份有限公司 | 一种计算系统之间处理单元互连的系统及方法 |
CN105577430A (zh) * | 2015-12-15 | 2016-05-11 | 山东海量信息技术研究院 | 一种高端容错服务器的节点管理方法 |
CN105808499A (zh) * | 2016-04-01 | 2016-07-27 | 浪潮电子信息产业股份有限公司 | 一种cpu互联装置以及多路服务器cpu互联拓扑结构 |
CN107092576A (zh) * | 2017-04-28 | 2017-08-25 | 郑州云海信息技术有限公司 | 一种多处理机互联方法及互联系统 |
CN107370652A (zh) * | 2017-07-19 | 2017-11-21 | 郑州云海信息技术有限公司 | 一种计算机节点动态互联平台及平台组网方法 |
-
2018
- 2018-04-09 CN CN201810311007.3A patent/CN108509371A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4730322A (en) * | 1985-09-27 | 1988-03-08 | California Institute Of Technology | Method and apparatus for implementing a maximum-likelihood decoder in a hypercube network |
CN1494688A (zh) * | 2001-02-24 | 2004-05-05 | �Ҵ���˾ | 新颖的大规模并行超级计算机 |
CN102055634A (zh) * | 2010-12-14 | 2011-05-11 | 湖南南车时代电动汽车股份有限公司 | 一种基于光纤的can节点互联装置 |
WO2012118552A2 (en) * | 2011-03-02 | 2012-09-07 | Intel Corporation | Increasing input output hubs in constrained link based multi-processor systems |
CN102129418A (zh) * | 2011-03-07 | 2011-07-20 | 浪潮(北京)电子信息产业有限公司 | 一种高端容错计算机系统及实现方法 |
CN104408014A (zh) * | 2014-12-23 | 2015-03-11 | 浪潮电子信息产业股份有限公司 | 一种计算系统之间处理单元互连的系统及方法 |
CN105577430A (zh) * | 2015-12-15 | 2016-05-11 | 山东海量信息技术研究院 | 一种高端容错服务器的节点管理方法 |
CN105808499A (zh) * | 2016-04-01 | 2016-07-27 | 浪潮电子信息产业股份有限公司 | 一种cpu互联装置以及多路服务器cpu互联拓扑结构 |
CN107092576A (zh) * | 2017-04-28 | 2017-08-25 | 郑州云海信息技术有限公司 | 一种多处理机互联方法及互联系统 |
CN107370652A (zh) * | 2017-07-19 | 2017-11-21 | 郑州云海信息技术有限公司 | 一种计算机节点动态互联平台及平台组网方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104461467B (zh) | 针对SMP集群系统采用MPI和OpenMP混合并行提高计算速度的方法 | |
US20200342297A1 (en) | Tree Topology Based Computing System and Method | |
CN102129418B (zh) | 一种高端容错计算机系统及实现方法 | |
US8769458B2 (en) | Prototype verification system and verification method for high-end fault-tolerant computer | |
Biswas et al. | Accelerating tensorflow with adaptive rdma-based grpc | |
Luo et al. | Adapt: An event-based adaptive collective communication framework | |
CN103336756B (zh) | 一种数据计算节点的生成装置 | |
CN117493237B (zh) | 计算设备、服务器、数据处理方法和存储介质 | |
CN111488308B (zh) | 一种支持不同架构多处理器扩展的系统和方法 | |
WO2019214128A1 (zh) | 一种动态可重构的智能计算集群及其配置方法 | |
CN115994107B (zh) | 存储设备的存取加速系统 | |
CN104408014A (zh) | 一种计算系统之间处理单元互连的系统及方法 | |
CN106844263B (zh) | 一种基于可配置的多处理器计算机系统及实现方法 | |
CN103116559B (zh) | 一种高速互联服务器系统的设计方法 | |
CN111193971B (zh) | 一种面向机器学习的分布式计算互连网络系统及通信方法 | |
US11461234B2 (en) | Coherent node controller | |
CN107092576A (zh) | 一种多处理机互联方法及互联系统 | |
CN108509371A (zh) | 一种高端容错计算机节点互联系统及实现方法 | |
Cao et al. | FedStar: Efficient federated learning on heterogeneous communication networks | |
CN118264634A (zh) | 在网计算方法、系统、电子设备及介质 | |
CN107239432A (zh) | 一种具有新型拓扑结构的服务器 | |
CN206259970U (zh) | 一种大数据并行计算装置 | |
CN105608046A (zh) | 基于MapReduce编程模型的多核处理器架构 | |
CN107370652B (zh) | 一种计算机节点动态互联平台及平台组网方法 | |
CN116074179A (zh) | 基于cpu-npu协同的高扩展节点系统及训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180907 |