CN1529472A - 高性能机群互联网络适配器 - Google Patents
高性能机群互联网络适配器 Download PDFInfo
- Publication number
- CN1529472A CN1529472A CNA200310101045XA CN200310101045A CN1529472A CN 1529472 A CN1529472 A CN 1529472A CN A200310101045X A CNA200310101045X A CN A200310101045XA CN 200310101045 A CN200310101045 A CN 200310101045A CN 1529472 A CN1529472 A CN 1529472A
- Authority
- CN
- China
- Prior art keywords
- network
- adapter
- data
- bus
- network interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及互联网络通信技术领域,包括:总线桥1、嵌入式微处理器2、内存3、程序存储器4、串口5、网络接口6,有四条总线:周边元件扩展接口总线7、内存总线8、程序读写总线9,网络链路10。高性能机群互联网络适配器支持周边元件扩展接口(PCI),全双工单向传输高达每秒4千兆位会聚带宽,在容错能力、带宽扩展、稳定性、可靠性、可移植性以及系统性能监测等方面有创新性设计,保证了网络适配器的高性能。这种64位周边元件扩展接(PCI)适配器拓展了机群结点的输入、输出带宽,提高了机群结点处理器的处理能力,有效消除机群通信网络瓶颈,是机群互联网络的关键设备。
Description
技术领域
本发明涉及互联网络通信技术领域,特别是一种高性能机群互联网络适配器的设计和实现方法。
背景技术
实现高性能计算机机群系统的综合性能指标关键在于服务器间的通信能力。承担大规模科学计算及海量数据处理业务的大规模并行计算机系统的内部需要一个高性能网络做支撑,用以提升结点间交互带宽,屏蔽数据并行处理输入输出瓶颈,从而达到将机群系统中所有服务器整合为一体,充分发挥每一台服务器的处理能力,实现机群系统性能的提高。机群系统的高性能是指服务器的综合性能指标高。服务器基本性能主要表现在输入输出带宽、容错能力、扩展能力、稳定性、持续性、可靠性、可移植性以及系统监控等方面。
目前高性能并行计算机系统内部都采用专用互联网络,包括专用网络交换机、服务器网络适配器和专用传输链路。机群系统对数据输入输出带宽的要求都在每秒几千兆位以上。随着高性能服务器的发展,服务器本身输入输带宽不断提升,目前服务器主板支持的64位周边元件扩展接口(PCI)的输入输出吞吐能力已达到每秒4224兆位,尽管目前千兆网络交换技术已相当成熟,但它远不能满足机群系统对网络的特定需求(带宽、延迟等)。高性能机群系统需要高性能的专用网络,而网络适配器又是与两者紧密相关的部件。
发明内容
本发明的目的是提出一种新的符合机群网络交换协议的高性能网络适配器的设计和实现方案,其突出特性在于每秒4千兆位的输入输出带宽和高效的数据传输协议。无论是简单文件服务器、面向事务的数据库服务器、企业内部网服务器、还是企业范围的应用服务器,该机群网络适配器与相关交换设备集成应用构成高性能数据通信网络,免除通信带宽瓶颈,增强服务器处理能力。可扩展带宽为机群结点间提供更高的连接带宽,可用于服务器点对点连接构成高速数据传输通道。
发明的技术方案:
高性能机群互联网络适配器,包括:总线桥1、嵌入式微处理器2、内存3、程序存储器4、串口5、网络接口6,有四条总线:周边元件扩展接口总线7、内存总线8、程序读写总线9和网络链路10,构成一个适于网络通信处理的体系结构,其特征在于,总线桥1通过内存总线8连接于内存3和网络接口6,通过程序读写总线9连接于程序存储器4、串口5和网络接口6,直接连接于周边元件扩展接口7和处理器2。
附图说明
图1是高性能机群互联网络适配器的体系结构图;
图2是高性能机群互联网络适配器数据传输方案图。
网络适配器体系结构
高性能机群互联网络适配器的体系结构如附图1所示,包括总线桥1、嵌入式微处理器2、内存3、程序存储器4、串口5、网络接口6及一些附件。有四条总线:周边元件扩展接口(PCI)总线7、内存(SDRAM)总线8、程序读写(ROM)总线9和网络链路10将各功能部件连接为一体,构成一个适于网络通信处理的嵌入式体系结构。其特征在于,总线桥1通过内存总线8连接于内存3和网络接口6,通过程序读写总线9连接于程序存储器4、串口5和网络接口6,直接连接于周边元件扩展接口7和处理器2。
总线桥1为支持周边元件扩展接口(PCI)66MHz/64位桥Intel80312,用于服务器主板与网络适配器输入输出接口控制和网络适配器自身总线控制。微处理器2为ARM结构的Intel80200,用于承担服务器全部机群通信协议处理工作,从而增强了服务器作为机群结点的科学计算性能。内存3为64兆字节72线带纠错码(ECC)的100MHz单沿数据速率SDRAM内存。程序存储器4为8M字节闪存(FLASH)。串口5用于程序代码加载,波特率可调。网络接口6为适配器的网络协议处理功能部件。周边元件扩展接口总线7的猝发传输带宽为每秒4224兆位,是服务器主板和网络适配器数据通信的数据通道。内存总线8主要用于网络数据传输和适配器中间数据缓存,ROM总线9用于程序代码存储和网络接口部件的功能与状态寄存器配置。网络链路10是连接适配器与交换设备的全双工单向传输带宽为每秒4千兆位的网络链路,可支持双路传输并行处理,采用125MHz双倍数据速率端口总线。此外网络适配器上还有一些部件用于适配器操作控制及状态显示。多种专用高效总线、各专用高效功能部件和详尽的系统状态监测使该网络适配器在处理能力,可靠性等诸多方面满足机群系统对网络适配器在体系结构方面的要求。
网络数据流量特性采用非对称数据缓存设计,数据的输入具有比输出更高的优先级,适配器上做了完备的寄存器组,服务器通过相关寄存器可对适配器的功能进行配置,状态实时监控,从而保证适配器一直运行在一个可靠的工作状态。
机群网络适配器实际上是一个具有网络协议协处理能力的嵌入式系统,鉴于机群系统对互联网络的性能要求,网络适配器的体系结构要达到合理配置,具备每秒4000兆位网络数据处理能力,在64位66MHz PCI总线上获得较高的输入输出带宽效率。
为实现网络适配器海量、低延迟数据处理能力,本发明主要采用了“直接存储器存取(DMA)”和“基于内存总线的网络接口(MINI)”技术路线。
1.直接存储器存取(DMA)
网络适配器总线桥1(Intel80312)有两个DMA通道12,主机内存11与适配器上的内存3可由适配器以主控方式实现两者间的高速数据传输,猝发传输带宽为每秒6400兆位。两个DMA通道12可独立同时工作,分别用于网络适配器主机端的输入与输出数据通道,提高了网络适配器接收发送效率,简化传输调度算法,避免因调度等待而带来的性能损耗。
2.基于内存总线的网络接口(MINI)
本发明将网络接口作为一个内存设备挂在嵌入式系统的内存(SDRAM)总线上8,受总线桥1(Intel80312)中内存控制器管理,如附图1所示。方案效果体现为用“直接存储器存取(DMA)通道”实现了网络DMA。如附图2所示,网络接口6的地址映射为适配器的一个物理内存地址空间,数据输出时主机内存11中的数据可直接以DMA方式直接由主机内存11经PCI总线7、内部总线14、SDRAM总线8传递到适配器网络接口6中的数据输出缓存器。这种直接转发式传输方式,相对于一般的存储转发式,极大地减小了端到端的延时。此项技术不但充分利用了内存总线的高传输带宽而且大大降低传输延迟,从而确保了网络适配器的高性能。
如附图2所示,在适配器上还集成有应用加速单元13,主要用于网络适配器上内存3数据到网络接口6的拷贝,此项功能主要用于数据包头添加、适配器间链路测试的小消息生成和数据处理等。
另外,如附图2所示,网络接口6状态获取及功能控制是由内存控制器15通过ROM总线9进行的。
计算机机群系统主要应用于大规模科学计算,对互联网络可靠性数据传输要求很高。为此适配器在设计实现上采用了数据纠错编码机制,最大限度地保证数据传输的可靠性,使处理器在各个传输环节上可获知数据的可用情况。对内存控制器至网络接口的64位传输数据进行ECC检查,可纠正1位误码,查出多位误码错误。为来自网络的数据生成8位ECC码,作为输入时内存控制器对网络接口数据勘错的依据。ECC机制的引用,可确保内存控制器与网络接口间数据通信环节的可靠性。
机群网络适配器在实现网络交换协议前提下,有效地利用适配器上处理器及可编程逻辑资源,实现了高效的数据处理流程。根据网络数据流量特性采用非对称数据缓存设计,数据的输入具有比输出更高的优先级。适配器上做了完备的寄存器组,服务器通过相关寄存器可对适配器的功能进行配置,状态实时监控等,从而保证适配器一直运行在一个可靠的工作状态。
为实现海量数据在机群结点服务器内存与网络间高带宽、低延迟的传输,在“基于内存总线的网络接口”设计方案下,优化了数据传输机制。高性能机群互联网络适配器数据传输方案如图2所示,关键路径包括:主机内存11、DMA通道12、内存控制器15、应用加速器13、网络接口6、内存3,有四条总线:周边元件扩展接口总线7、内存总线8、程序读写总线9,内部总线14。机群结点服务器与网络交换机,数据通道如下:
1.服务器内存11至网络接口6的数据传输路径为:主机内存11中的数据以DMA方式经PCI总线7、DMA通道12、内部总线14、内存控制器15和SDRAM总线8传输至网络接口6中的数据存储空间。
2.内存3至网络接口6的数据传输路径为:内存3中的数据经SDRAM总线8、应用加速器13传输至网络接口6中的数据存储空间。
3.网络接口6状态获取路径为:网络接口6、ROM总线9和内存控制器15。
为适应各种数据传输调度策略,达到应用性能的灵活与高效,本设计为适配器数据的接收与发送各设计了两种操作模式:查询与中断模式。为此适配器提供了必要的中断源及状态寄存器,使各种操作模式即高效又简便易用。
1.查询接收模式
通过查询适配器相应的状态寄存器就可获知适配器已接收到的数据包数及每个数据包的状态参数(包长、可靠性等),从而完成对网络传送数据包的接收。
2.中断接收模式
当适配器接收到网络上传输来的一个完整数据包后,向处理器发送一个中断信号,通知处理器接收数据,处理器通过一系列寄存器配置操作,可完成读操作。非中断模式情况下,此中断可被屏蔽。
3.查询发送模式
当有发送作业时,适配器的处理器通过读取特定寄存器可获知适配器上输出缓存器的自由空间,根据此空间大小和传输数据量决定数据包传输与否。
4.中断发送模式
适配器输出缓冲器有足够数据空间时会向适配器处理器发送一个中断信号,作为数据请求,处理器根据此中断可启动包传输作业。当适配器输出数据缓冲器空间几乎满时,再向处理器发送一个中断信号,请求暂停传输,处理器收到此中断后就可将在传的操作挂起,直到再收到数据请求中断时再恢复传输。
机群网络适配器是机群服务结点中的主板插件,随着机群规模的扩大,对网络适配器及网络问题的检测与维护采用传统拆卸的方法已变得低效落后。对于这一问题本发明提出了“问题在线解决”设计。机群网络适配器设计了多级链路检测功能,可实现网络接口部件的内存接口检测、网络适配器传输链路自身闭环检测、网络传输协议性能评测、网络链路检测和交换机远程检测。上述所有检测都是由服务器软件控制的,可在不下电,不影响其它结点工作,不打开结点机箱条件下,快速明确问题、解决问题。
1.适配器在设计上采用微处理器和总线桥分离的技术方案,使之具备更强的网络协议协处理能力和海量数据处理传输能力。
2.每秒4000兆位的网络会聚带宽。机群结点间消息传递延迟时间小。
3.数据可靠性传输。采用纠错编码(ECC)技术及协议保障,在机群海量数据交换情况下获得很高的数据可靠性指数。
4.可移植性强。网络适配器可工作于Linux、Unix及Windows等主流操作系统。
5.适配器上集成高性能微处理器(CPU),负责网络协议处理、数据包处理及传输调度,从而降低机群结点服务器处理器(CPU)在数据交换方面的开销,使其在科学计算方面的性能更为高效。
6.网卡接口链路简单。采用先进的串并转换、低电压差分(LVDS)技术,减少传输链路,降低网络互联的复杂度,保证传输可靠性。
1.发明是专门针对机群互联网络,适配器在设计上充分考虑了机群互联网络的特点,在关键技术上做了许多实质性创新,不但拓展了网络带宽而且提高了网络传输性能,达到了很高的技术水平。该机群网络适配器能增强机群系统的通信性能和服务能力。
2.服务器提供的高性能和可伸缩性的网络适配器具有支持高端服务能力。对Linux、Unix或Windows NT操作系统下要求高性能的服务器来说,这种适配器能有效地提高服务器性能并适应高输入输出网络带宽要求,服务器处理器将因适配器具备网络协议的处理能力而极大降低在通信方面的开销。
3.这款具备可扩展带宽、低成本、高效率的网络适配器就其兼容性、稳定性和传输带宽而言都是相当出色的,在应用成本上讲也更适合用户的购买力。
Claims (12)
1、高性能机群互联网络适配器的体系结构和技术路线。
2、根据权利要求1所述,适配器的总体设计和详细设计。
3、基于内存总线的网络接口(MINI),用现场可编程门阵列(FPGA)实现MINI设计。
4、根据权利要求3所述,基于内存总线的网络接口设计方案发明效果体现为用“直接存储器存取(DMA)通道”实现了网络DMA,这种直接转发式传输方式,相对于一般的存储转发式,极大地减小了端到端的延时。
5、网络适配器链路层低电压差分信号(LVDS)、双倍数据速率(DDR)、双链路(2×)技术。
6、64位内存总线纠错码(ECC)算法与逻辑设计。
7、网络适配器数据接收和发送的中断与查询调度模式。
8、网络适配器系统问题自检功能。
9、一种高性能机群互联网络适配器,包括:总线桥1、嵌入式微处理器2、内存3、程序存储器4、串口5、网络接口6,有四条总线:周边元件扩展接口总线7、内存总线8、程序读写总线9和网络链路10,构成一个适于网络通信处理的体系结构,其特征在于,总线桥1通过内存总线8连接于内存3和网络接口6,通过程序读写总线9连接于程序存储器4、串口5和网络接口6,直接连接于周边元件扩展接口7和处理器2。
10、根据权利要求9的高性能机群互联网络适配器,其特征在于,总线桥1用于服务器主板与网络适配器输入输出接口控制和网络适配器自身总线控制;处理器2用于承担服务器全部机群通信协议处理工作;内存3为64兆字节72线带纠错码(ECC)的100MHz单沿数据速率SDRAM内存;程序存储器4为8M字节闪存(FLASH);串口5用于程序代码加载,波特率可调;网络接口6用于适配器的网络协议处理;周边元件扩展接口总线7的猝发传输带宽为每秒4224兆位,用于服务器主板和网络适配器数据通信的数据通道;内存总线8用于网络数据传输和适配器中间数据缓存;ROM总线9用于程序代码存储和网络接口部件的功能与状态寄存器配置;网络链路10是连接适配器与交换设备的全双工单向传输带宽为每秒4千兆位的网络链路,可支持双路传输并行处理,采用125MHz双倍数据速率端口总线。
11、根据权利要求9的高性能机群互联网络适配器,其特征在于,网络数据流量特性采用非对称数据缓存设计,数据的输入具有比输出更高的优先级,适配器上做了完备的寄存器组,服务器通过相关寄存器可对适配器的功能进行配置,状态实时监控,从而保证适配器一直运行在一个可靠的工作状态。
12、一种高性能机群互联网络适配器的方法,其数据通道如下:
1)服务器内存11至网络接口6的数据传输路径为:主机内存11中的数据以DMA方式经PCI总线7、DMA通道12、内部总线14、内存控制器15和SDRAM总线8传输至网络接口6中的数据存储空间;
2)内存3至网络接口6的数据传输路径为:内存3中的数据经SDRAM总线8、应用加速器13传输至网络接口6中的数据存储空间;
3)网络接口6状态获取路径为:网络接口6、ROM总线9和内存控制器15。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA200310101045XA CN1529472A (zh) | 2003-10-13 | 2003-10-13 | 高性能机群互联网络适配器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA200310101045XA CN1529472A (zh) | 2003-10-13 | 2003-10-13 | 高性能机群互联网络适配器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1529472A true CN1529472A (zh) | 2004-09-15 |
Family
ID=34304162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA200310101045XA Pending CN1529472A (zh) | 2003-10-13 | 2003-10-13 | 高性能机群互联网络适配器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1529472A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102904943A (zh) * | 2012-09-28 | 2013-01-30 | 无锡江南计算技术研究所 | 基于嵌入式处理器存储接口的集群计算系统混合通信方法 |
CN102004709B (zh) * | 2009-08-31 | 2013-09-25 | 国际商业机器公司 | 处理器局部总线到高级可扩展接口之间的总线桥及映射方法 |
CN101965691B (zh) * | 2007-12-28 | 2014-03-12 | 施耐德电气美国股份有限公司 | 电缆冗余以及联网系统 |
-
2003
- 2003-10-13 CN CNA200310101045XA patent/CN1529472A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101965691B (zh) * | 2007-12-28 | 2014-03-12 | 施耐德电气美国股份有限公司 | 电缆冗余以及联网系统 |
CN102004709B (zh) * | 2009-08-31 | 2013-09-25 | 国际商业机器公司 | 处理器局部总线到高级可扩展接口之间的总线桥及映射方法 |
CN102904943A (zh) * | 2012-09-28 | 2013-01-30 | 无锡江南计算技术研究所 | 基于嵌入式处理器存储接口的集群计算系统混合通信方法 |
CN102904943B (zh) * | 2012-09-28 | 2015-07-08 | 无锡江南计算技术研究所 | 基于嵌入式处理器存储接口的集群计算系统混合通信方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6724762B2 (en) | System and method for implementing multi-pathing data transfers in a system area network | |
US6683850B1 (en) | Method and apparatus for controlling the flow of data between servers | |
US8576843B2 (en) | Packet format for a distributed system | |
CN100407615C (zh) | 在网络中发送数据的方法和设备 | |
US6941396B1 (en) | Storage controller redundancy using bi-directional reflective memory channel | |
US6768992B1 (en) | Term addressable memory of an accelerator system and method | |
US7424565B2 (en) | Method and apparatus for providing efficient output buffering and bus speed matching | |
US20220085916A1 (en) | Scalable protocol-agnostic reliable transport | |
US7106742B1 (en) | Method and system for link fabric error detection and message flow control | |
WO1999035791A1 (en) | System and method for implementing error detection and recovery in a system area network | |
TW200907702A (en) | Dynamically rerouting node traffic on a massively parallel computer system using hint bits | |
US20080313240A1 (en) | Method for Creating Data Transfer Packets With Embedded Management Information | |
US20040190516A1 (en) | Direct data placement | |
US11722585B2 (en) | Reliable communications using a point to point protocol | |
US7743185B2 (en) | Method, system, and computer program product for dynamically selecting software buffers for aggregation according to current system characteristics | |
US20210288830A1 (en) | Early acknowledgment for write operations | |
CN1529472A (zh) | 高性能机群互联网络适配器 | |
WO2023230193A1 (en) | Chip-to-chip interconnect with a layered communication architecture | |
CN1151633C (zh) | 千兆位计费系统 | |
CN1265586C (zh) | 一种城域传输设备中实现精简通用千兆接口的装置 | |
Harris et al. | DAQ architecture and read-out protocole | |
Hays et al. | A layered networking protocol designed to minimize complexity | |
Na et al. | Classification and characterization of host network interface architectures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |