CN111628936A - 基于宽端口异构瓦片的端口可配置路由器设计方法及路由器 - Google Patents

基于宽端口异构瓦片的端口可配置路由器设计方法及路由器 Download PDF

Info

Publication number
CN111628936A
CN111628936A CN202010604376.9A CN202010604376A CN111628936A CN 111628936 A CN111628936 A CN 111628936A CN 202010604376 A CN202010604376 A CN 202010604376A CN 111628936 A CN111628936 A CN 111628936A
Authority
CN
China
Prior art keywords
port
tile
router
heterogeneous
tiles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010604376.9A
Other languages
English (en)
Other versions
CN111628936B (zh
Inventor
戴艺
肖灿文
赖明澈
徐金波
董德尊
曹继军
王强
吕方旭
刘路
张建民
齐星云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010604376.9A priority Critical patent/CN111628936B/zh
Publication of CN111628936A publication Critical patent/CN111628936A/zh
Application granted granted Critical
Publication of CN111628936B publication Critical patent/CN111628936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/60Router architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于宽端口异构瓦片的端口可配置路由器设计方法及路由器,本发明设计方法包括:确定路由器最高端口带宽及端口数目;设计硬件通信协议栈,确定每个物理编码子层模块初始绑定的lane数目;根据指定的时钟频率,确定路由器内部交换数据宽度用于匹配端口最高带宽;并根据芯片引脚总带宽确定内部交换端口数目;基于异构瓦片设计路由器内部交换部件,将得到的硬件通信协议栈、路由器内部交换部件进行对接,最终得到端口可配置路由器。本发明能够根据后端芯片面积约束及通信带宽需求将高阶路由器灵活组织为多个异构的、易于硬件实现的宽端口低阶瓦片阵列,且路由器端口数目及带宽可配置。

Description

基于宽端口异构瓦片的端口可配置路由器设计方法及路由器
技术领域
本发明主要涉及面向高性能计算HPC(High Performance Computing)的高阶路由器,具体涉及一种基于宽端口异构瓦片的端口可配置路由器设计方法及路由器,可根据后端芯片面积约束将高阶路由器灵活组织为多个异构瓦片阵列且端口数目可配置。
背景技术
互连通信网络为HPC最重要的基础设施,实现了计算结点和I/O结点的互连,承载着所有结点间的消息和数据通信。计算结点之间远程存储访问的延迟和带宽主要取决于互连网络的延迟和带宽。随着并行规模的不断增大,HPC性能的发挥越来越依赖于数据在庞大的计算资源间通信的效率而不是计算性能。
当HPC从百万亿次规模(1015FLOPS)向E级(1018FLOPS)计算演进之时,随着结点规模、结点计算容量、存储带宽及结点内并行度的持续增长,HPC大规模互连网络在性能、可靠性、高密度及可扩展性、低功耗低成本等方面遇到了严峻挑战。此外,随着大数据分析、机器学习在云数据中心的普及,对高效连接计算与存储资源的高性能互连网络提出了更为迫切的需求。路由器作为互连网络的主要部件极大地决定着互连网络的效率,Kim和Dally(于2005年)指出,随着芯片引脚数和引脚带宽的不断提升,设计高阶路由器成为可能。采用低阶路由器构建的低阶互连网络,例如k-ary n-cube及Torus网络,存在高延迟、互连成本高昂等缺点。高阶路由器因网络直径小、等分带宽高等优点广泛应用于高性能互连网络。高阶路由器可以有效降低网络路由跳步数,从而有效降低网络延迟、电/光缆数量,减少互连成本。在相同实现代价下,高阶拓扑结构能够提供比传统低阶网络更低的网络直径及延迟。Cray公司XC系列高性能计算机以及(2020年2月)最新发布的弹弓(slingshot)网络均采用高阶蜻蜓(dragonfly)网络拓扑;国防科大天河系列HPC也一直沿用高阶胖树拓扑结构。
目前随着摩尔定律已经接近其物理极限,摩尔定律已失效几乎成为业内共识。受其影响,芯片时钟频率及引脚数目的增长日趋缓慢,Intel CPU主频至2014年以来几乎停止了增长,而芯片引脚数目自28nm工艺之后难以增长。摩尔定律困境给高阶路由器芯片设计带来两方面影响:1)在有限的高速I/O引脚数目约束下,路由器芯片总带宽恒定不变,提高路由器端口密度,则需要降低端口带宽;2)高阶路由器设计难点为低延迟、高吞吐率报文硬件调度电路,其设计复杂度为O(N2),当时钟频率保持不变时,为匹配更高的端口带宽,路由器需要在单位时钟周期内处理更多的报文,这对其仲裁逻辑复杂度及功耗提出了更高的要求。相比十几年前,高阶路由器芯片的设计除了可扩展性、可靠性及功耗方面的技术挑战,更难以满足高带宽低延迟需求。
发明内容
本发明要解决的技术问题:针对目前路由器芯片设计存在的高阶设计需求和端口带宽之间的矛盾,提供一种基于宽端口异构瓦片的端口可配置路由器设计方法及路由器,本发明能够根据后端芯片面积约束及通信带宽需求将高阶路由器灵活组织为多个异构的、易于硬件实现的宽端口低阶瓦片阵列,且路由器端口数目及带宽可配置。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于宽端口异构瓦片的端口可配置路由器设计方法,实施步骤包括:
1)确定路由器最高端口带宽及高阶拓扑需求下的端口数目;
2)按照最高端口带宽设计硬件通信协议栈,确定每个物理编码子层模块初始绑定的lane数目,宽端口到高阶窄端口的映射关系,并重用多路链路层实现各个端口报文的可靠传输;
3)根据指定的时钟频率,确定路由器内部交换数据宽度用于匹配端口最高带宽;并根据芯片引脚总带宽确定内部交换端口数目;
4)基于异构瓦片设计路由器内部交换部件,以最低存储及线资源为目标确定路由器内部交换部件的瓦片阵列中每个瓦片聚合端口数目、瓦片阵列行、列数目,且路由器内部交换部件采用超切片接口;
5)将得到的硬件通信协议栈、路由器内部交换部件进行对接,增加路由器内部交换部件的前端处理模块,通过前端处理模块将链路层的多个窄切片聚合为一个超切片,并根据其目的端口将其分发至对应的瓦片,最终得到端口可配置路由器。
可选地,步骤2)中每个物理编码子层模块绑定的lane为动态绑定,所述动态绑定是指绑定的lane数目在路由器运行过程中可动态调整。
可选地,步骤2)中以最低存储及线资源为目标确定每个瓦片聚合端口数目、瓦片阵列行、列数目的步骤包括:以最低存储及线资源为目标,确定每个瓦片聚合端口数目A、瓦片阵列的行数目R、列数目C;然后判断RCA≠K是否成立,其中K为内部交换端口数目,如果成立则采用异构瓦片调节每个瓦片绑定的端口数目直至满足
Figure BDA0002560410430000021
其中Ai表示第i个瓦片所绑定的端口数目。
可选地,所述瓦片阵列为异构瓦片组成的瓦片阵列。
此外,本发明还提供一种基于异构瓦片的端口可配置路由器所述端口可配置路由器为采用所述基于宽端口异构瓦片的端口可配置路由器设计方法设计得到的端口可配置路由器。
可选地,所述端口可配置路由器的瓦片阵列中瓦片阵列的行数目R=3、列数目C=4,内部交换端口数目K为20,所述瓦片阵列为包含3行4列的12个瓦片的异构瓦片阵列以实现640x640的无阻塞交换,欺诈第一行及最后一行瓦片为8x5的瓦片,第二行瓦片为4x5异构瓦片,第一行及最后一行瓦片每个绑定两个端口,而中间行的瓦片绑定一个端口,且每个端口含32个VC队列,第二行瓦片与第一行瓦片集成为一个随机逻辑宏RLM,所述随机逻辑宏RLM为后端布局布线的基本单位;所述瓦片阵列的每一行瓦片有一组行线,每一列瓦片有一组列总线,在每个行总线和列总线与瓦片中XBAR接入的地方都有一个输入DAMQ缓冲,报文经前端处理后进入目的行的输入DAMQ缓冲,交换时输入DAMQ缓冲根据路由列号将报文写入对应瓦片的行缓冲,同时在头切片附上行地址及聚合端口中最终的目的端口号,且子交换模块根据行地址交换报文至目的行的瓦片,通过该瓦片仲裁输出到输出聚合端口。
此外,本发明还提供前述基于异构瓦片的端口可配置路由器的应用方法,包括利用物理编码子层模块的掉Lane功能实现高速宽端口、低速窄端口之间的自动适配的步骤:当通信栈从高速模式切换至低速模式时,将指定的物理编码子层模块的绑定的Lane数目减少,从而使得该物理编码子层模块从高带宽端口降级为低带宽端口使用。
可选地,所述将指定的物理编码子层模块的绑定的Lane数目减少之后,还包括将多余的lane资源分别给其他低速的物理编码子层模块的步骤。
1、本发明每个物理编码子层模块和lane数目之间为动态的绑定关系,因此可利用PCS掉Lane功能实现了高速端口到低速端口的自动适配,形成了端口数目及带宽可配的硬件通信栈设计方法。在路由器总带宽不变的情况下,以较小的硬件代价实现了端口数目及端口带宽的可配置,有效缓解了路由器高阶设计需求和有限的引脚带宽之间的矛盾。
2、本发明采用更宽的内部端口实现路由器交换功能,降低了路由器仲裁阶数、报文调度硬件复杂度。假设芯片高速差分引脚总带宽为8Tbps,在800MHz时钟频率下若端口带宽不低于100bps,每个端口支持8个虚拟通道(virtual channel,VC),则路由器最高阶数为80(80x100Gbps=8Tbps),需实现640x640的报文交换。若路由器内部采用512bits宽度的超flit则每个端口可匹配400Gbs带宽(512bitsx800Mhz=400Gbps),路由器最高阶数可降低为20,只需实现160x160的交换,大大降低了路由器仲裁阶数、报文调度硬件复杂度。
3、本发明采用异构瓦片设计,能够根据芯片面积约束、后端布局布线约束灵活调节瓦片阵列的行、列数目,每个瓦片绑定端口数目及瓦片的物理布局。该方法为路由器优化后端布局布线提供了手段,更易于减少芯片面积及布线资源。
附图说明
图1为本发明实施例方法的基本流程示意图。
图2是采用本发明实施例端口可配硬件协议通信栈设计方法通过PCS灵活绑定8/4/2lanes支持三种端口数目及带宽可配置的一个示例。
图3是采用本发明实施例端口可配硬件协议通信栈设计方法涉及的基于异构瓦片路由器体系结构设计的一个实例,其中R=3,C=4,K=20。
具体实施方式
以下将结合说明书附图和具体实施实例对本发明做进一步详细说明。
如图1所示,本实施例中基于宽端口异构瓦片的端口可配置路由器设计方法的实施步骤包括:
1)确定路由器最高端口带宽及高阶拓扑需求下的端口数目;
2)按照最高端口带宽设计硬件通信协议栈,确定每个物理编码子层模块初始绑定的lane数目,宽端口到高阶窄端口的映射关系,并重用多路LLP(链路层)实现各个端口报文的可靠传输;
3)根据指定的时钟频率,确定路由器内部交换数据宽度用于匹配端口最高带宽;并根据芯片引脚总带宽确定内部交换端口数目;
4)基于异构瓦片设计路由器内部交换部件(Switch),以最低存储及线资源为目标确定路由器内部交换部件的瓦片阵列中每个瓦片聚合端口数目、瓦片阵列行、列数目,且路由器内部交换部件采用更宽的超(Jumbo)切片(flit)接口;
5)将得到的硬件通信协议栈、路由器内部交换部件(Switch)进行对接,增加路由器内部交换部件的前端处理模块,通过前端处理模块将链路层的多个窄切片聚合为一个超(Jumbo)切片,并根据其目的端口将其分发至对应的瓦片,最终得到端口可配置路由器。
硬件通信协议栈主要包括物理层、物理编码子层(Physical Code Sub-layer,简称PCS)、链路层LLP(Link Logic Protocol)。物理层一般由芯片厂商提供的SerDes(串行/解串器)硬核来实现。商业路由器芯片均采用基于SerDes的高速数据通信,SerDes负责芯片高速差分引脚串行数据传输到并行数据传输在收发两个方向的转换,每对高速差分引脚对应一个传输通道Lane,目前14nm工艺支持的最高Lane带宽为56Gbps。在摩尔定律失效的情况下,当时钟频率不变,flit宽度不变,日益增长的端口带宽需求驱动路由器在单位周期内调度更多的报文。另一方面,更高的端口密度增加了报文调度硬件实现复杂度及逻辑设计满足高频率时序约束的难度。本实施例设计方法基于宽端口异构瓦片阵列实现路由器核心交换功能,采用宽端口能够有效降低路由器仲裁阶数、报文调度硬件复杂度;异构瓦片则能够根据芯片面积约束灵活满足任意阶数的路由器设计需求。具体实现方法为:路由器内部交换部件(Switch)采用更宽的超(Jumbo)flit接口,交换部件前端处理模块将多个flit聚合为一个超flit并根据其目的端口将其分发至对应的瓦片。当时钟频率不变时,增加数据宽度可以同倍数增加路由器交换容量。例如,将LLP发送的每2个flit聚合为内部交换的一个超flit时,switch端口带宽(交换容量)可提高一倍。假设LLP对应200Gbps物理端口,那么采用超flit的内部交换部件端口带宽可达到400Gbps,因此可以处理底层更多物理端口的报文,形成多个物理端口到内部核心交换端口的映射,当报文到达目的瓦片时再根据其物理目的端口号发送到最终的目的端口。
本实施例中,步骤2)中每个物理编码子层模块绑定的lane为动态绑定,所述动态绑定是指绑定的lane数目在路由器运行过程中可动态调整,该功能利用的是PCS掉Lane功能,物理编码子层模块掉Lane功能指的是PCS能够在某些Lane失效或不稳定的情况下,利用剩余可用Lane实现数据的正常传输。本实施例支持掉Lane及多Lane绑定的PCS层设计,利用PCS向上层提供透明度的、灵活可配的多Lane绑定的数据传输,实现端口数目及带宽的可配置。当SerDes传输速率超过25Gbps时,Lane失效的频率明显增加大大降低了数据传输的可靠性,PCS掉Lane功能避免了Lane失效情况下用户作业的中断及频繁的链路层报文重传,有效提高了数据传输的可靠性、系统容错性。
图2是前述基于宽端口异构瓦片的端口可配置路由器设计方法得到的通过PCS灵活绑定8/4/2lanes支持三种端口数目及带宽可配置的一个示例(向E级计算需求)。参见图2,该高阶路由器芯片需支持最高400Gbps端口带宽,同时由于芯片面积及引脚数目约束,SerDes引脚总带宽为8Tbps,而高阶路由器设计需求为80端口以上。路由器硬件通信协议栈设计需要绑定8lanes,以支持400Gbps端口带宽,同时根据80端口高阶设计需求,80-阶路由器每个窄端口可分配100Gbps带宽。8xPCS可提供400Gbps/端口最高带宽,同时也需要支持2lanes/端口的低速传输模式。每个8-lane宽端口可配置为2个4-lane及4个2-lane窄端口,分别对应200Gbps/端口及100Gbps/端口通信带宽。对应400G/200G/100G速率配置,PCS需绑定的Lane数目分别为8,4,2,PCS模块数目分别为1,2,4,共计7个PCS通路。为降低硬件开销,本发明利用PCS掉Lane特性,仅用4个PCS模块实现了400G/200G/100G端口速率及1/2/4端口数目配置。每个PCS支持绑定的lane数分别为8,4,2,2。在低速模式下,高速PCS通过掉lane的方式自动适配为低lane模式。例如,在100G/端口配置中,8-lane PCS及4-lane PCS自动降级为2-lane PCS工作模式,200G/端口配置中,8-lane PCS自动降级为4-lane PCS工作模式,其余两个2-lane PCS不工作。由于LLP链路层flit数据宽度固定(512bits),PCS根据不同带宽配置将数据拼接为LLP层数据帧发送至LLP。按照国防科大路由器芯片800MHz时钟频率设计需求,为匹配400Gbps端口带宽,每个时钟周期需处理数据512bits。路由器内部宽端口交换接口宽度为512bits,PKC模块负责LLP层数据合法性检测,包括头尾的完整性、链路层错标、报文类型及跳步数检测等等。RC模块则将2个链路层flit聚合为一个超flit并将其封装成符合路由交换层定义的608-bit数据帧,缓冲至输入端口DAMQ(dynamicallyallocated multi-queue,动态分配多队列)缓冲区。该路由器采用的DAMQ缓冲区实现了存储资源在多VC(虚通道)间的按需分配,并能实现零延迟流水读及并发写。每个数据帧用于报文调度的信息存储与控制DAMQ缓冲区,与之相应的数据则存储于数据DAMQ缓冲区。VC仲裁器(VC_arbiter)根据信用管理模块(Credit Management)返回的(输入端口所在行)每个瓦片行缓冲的信用状态,仲裁VC端口请求,若VC请求被许可,则表明其目的行缓冲区可以容纳整个报文,将其发送至如图3所示的行缓冲区队列。由于瓦片为每个输入端口设置了专用的行缓冲区,输入端口可以根据报文路由信息对同一行4个瓦片的行缓冲区进行写入。
本实施例中,步骤2)中以最低存储及线资源为目标确定每个瓦片聚合端口数目、瓦片阵列行、列数目的步骤包括:以最低存储及线资源为目标,确定每个瓦片聚合端口数目A、瓦片阵列的行数目R、列数目C;然后判断RCA≠K是否成立,其中K为内部交换端口数目,如果成立则采用异构瓦片调节每个瓦片绑定的端口数目直至满足
Figure BDA0002560410430000061
其中Ai表示第i个瓦片所绑定的端口数目。
本实施例中,瓦片阵列可为异构瓦片组成的瓦片阵列。基于同构瓦片阵列的高阶路由器设计方法被广泛应用于HPC(高性能计算机)的高阶路由器设计中。本实施例中采用一种异构瓦片设计,根据路由器后端布局布线需求,灵活配置(通常是某行)每个瓦片所绑定的端口数目,从而形成行列数目可灵活调节的异构瓦片阵列,实现路由器端口数目的可配置及端口位置的可调节。
此外,本实施例还提供一种基于异构瓦片的端口可配置路由器,该端口可配置路由器为采用前述基于宽端口异构瓦片的端口可配置路由器设计方法设计得到的端口可配置路由器。
图3是采用前述基于宽端口异构瓦片的端口可配置路由器设计方法得到的端口可配置路由器的一个示例。如图3所示,该端口可配置路由器的瓦片阵列中瓦片阵列的行数目R=3、列数目C=4,内部交换端口数目K为20,所述瓦片阵列为包含3行4列的12个瓦片的异构瓦片阵列以实现640x640的无阻塞交换,欺诈第一行及最后一行瓦片为8x5的瓦片,第二行瓦片为4x5异构瓦片,第一行及最后一行瓦片每个绑定两个端口,而中间行的瓦片绑定一个端口,且每个端口含32个VC队列,第二行瓦片与第一行瓦片集成为一个随机逻辑宏RLM(Random Logic Macro),所述随机逻辑宏RLM为后端布局布线的基本单位;所述瓦片阵列的每一行瓦片有一组行线,每一列瓦片有一组列总线,在每个行总线和列总线与瓦片中XBAR接入的地方都有一个输入DAMQ缓冲区,报文经前端处理后进入目的行的输入DAMQ缓冲区,交换时输入DAMQ缓冲区根据路由列号将报文写入对应瓦片的行缓冲,同时在头切片附上行地址及聚合端口中最终的目的端口号,且子交换模块根据行地址交换报文至目的行的瓦片,通过该瓦片仲裁输出到输出聚合端口。
网络端口数据经过路由器硬件通信协议栈的拼接、封装及前端处理模块的聚合后,被分发至各个瓦片的行缓冲区。根据512-bit内部数据宽度,及路由器芯片8Tbps总带宽,内部交换需要实现20端口无阻塞交换。若采用同构瓦片设计,每个瓦片绑定两个输入端口,路由器内部交换部件(Switch)可组织为2x5或者5x2的瓦片阵列,即R=2/5,C=5/2,A=2,每个瓦片由CAxRA Crossbar(交叉开关)以及行、列缓冲区构成。然而,以上设计方案由于形状过于狭长,不利于后端布局布线。若采用4x5的瓦片阵列,则每个瓦片绑定一个端口,行、列存储资源最大,到达200,而上述方案存储资源为160。在线资源方面,所有基于瓦片的路由器设计行总线数目相同即等于端口数目,行总线开销固定为20,而列总线由于采用点到点全互连方式增加了线资源开销及后端布线难度,且随着瓦片阵列组织的不同有很大差异。上述方案中,5x2列总线最高为R2CA=100组;其次是4x5方案为80组;尽管2x5方案具有较小的列总线开销为40,由于每个瓦片由10x4Crossbar(交叉开关)实现,加剧了输出端口的竞争降低了系统吞吐率。最终,我们采用将路由器组织为3x4的异构瓦片阵列,第一行及最后一行瓦片每个绑定两个端口,而中间行的瓦片绑定一个端口,每个端口含32个VC队列,最终实现640x640的无阻塞交换。该方案列总线开销为60,存储开销为140,路由器内部交换被划分为12个瓦片,其中3个瓦片组成一列,4个瓦片组成一行,按照图3的方式连接,其中第二行瓦片为4x5异构瓦片,为方便后端布局布线,第二行瓦片(4x5)与第一行瓦片(8x5)集成为一个RLM(Random Logic Macro,RLM为后端布局布线的基本单位),以减少RLM之间连线拥塞,同时减少跨RLM列总线的数目。每一行有一组行线,每一列有一组列总线。报文经前端处理后进入目的行DAMQ缓冲区。在每个行总线和列总线与瓦片中XBAR接入的地方都有一个DAMQ缓冲区。交换时,输入DAMQ缓冲区根据路由列号,将报文写入对应瓦片的行缓冲,同时在头Flit附上行地址及聚合端口中最终的目的端口号。子交换模块Subswitch(Xbar 8x5)根据行地址交换报文至目的行的瓦片,通过该瓦片仲裁输出到输出聚合端口。
此外,本实施例还提供一种前述基于异构瓦片的端口可配置路由器的应用方法,包括利用物理编码子层模块的掉Lane功能实现高速宽端口、低速窄端口之间的自动适配的步骤:当通信栈从高速模式切换至低速模式时,将指定的物理编码子层模块的绑定的Lane数目减少,从而使得该物理编码子层模块从高带宽端口降级为低带宽端口使用。本实施例巧妙地利用了PCS的掉Lane功能实现高速宽端口到低速窄端口的自动适配,从而为上层提供不同带宽不同端口数目的数据传输。PCS按照上层链路层LLP所支持的最大端口带宽,实现物理层多个Lane的绑定传输,并通过PCS掉Lane的方式支持高带宽端口降级为低速端口使用。例如,PCS绑定8个lane时最高可支持400Gbps的端口带宽,当端口带宽降低至200Gbps时,则通过掉Lane的方式将lane数目降低为4,实现200Gbps传输速率,还可进一步将lane数降低为2实现100Gbps带宽。
本实施例中,将指定的物理编码子层模块的绑定的Lane数目减少之后,还包括将多余的lane资源分别给其他低速的物理编码子层模块的步骤。当通信栈从高速模式切换至低速模式时,由于路由器总带宽不变,端口数目也会相应增加,降速PCS的lane资源将分配给其他低速PCS,进一步实现端口数目的可配置。例如,8xPCS代表绑定8lanes的PCS实现模块,当路由器端口模式从400Gbps/8lanes降低为200Gbps/4lanes时,8xPCS降级为4xPCS使用;另外4lanes则分配给低速4xPCS使用,从而将400Gbps的宽端口分解为2个200Gbps的窄端口。PCS根据不同带宽配置将数据拼接为LLP层数据帧发送至LLP,LLP主要执行点到点报文重传功能,确保报文的可靠性传输。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于宽端口异构瓦片的端口可配置路由器设计方法,其特征在于实施步骤包括:
1)确定路由器最高端口带宽及高阶拓扑需求下的端口数目;
2)按照最高端口带宽设计硬件通信协议栈,确定每个物理编码子层模块初始绑定的lane数目,宽端口到高阶窄端口的映射关系,并重用多路链路层实现各个端口报文的可靠传输;
3)根据指定的时钟频率,确定路由器内部交换数据宽度用于匹配端口最高带宽;并根据芯片引脚总带宽确定内部交换端口数目;
4)基于异构瓦片设计路由器内部交换部件,以最低存储及线资源为目标确定路由器内部交换部件的瓦片阵列中每个瓦片聚合端口数目、瓦片阵列行、列数目,且路由器内部交换部件采用超切片接口;
5)将得到的硬件通信协议栈、路由器内部交换部件进行对接,增加路由器内部交换部件的前端处理模块,通过前端处理模块将链路层的多个窄切片聚合为一个超切片,并根据其目的端口将其分发至对应的瓦片,最终得到端口可配置路由器。
2.根据权利要求1所述的基于宽端口异构瓦片的端口可配置路由器设计方法,其特征在于,步骤2)中每个物理编码子层模块绑定的lane为动态绑定,所述动态绑定是指绑定的lane数目在路由器运行过程中可动态调整。
3.根据权利要求1所述的基于宽端口异构瓦片的端口可配置路由器设计方法,其特征在于,步骤2)中以最低存储及线资源为目标确定每个瓦片聚合端口数目、瓦片阵列行、列数目的步骤包括:以最低存储及线资源为目标,确定每个瓦片聚合端口数目A、瓦片阵列的行数目R、列数目C;然后判断RCA≠K是否成立,其中K为内部交换端口数目,如果成立则采用异构瓦片调节每个瓦片绑定的端口数目直至满足
Figure FDA0002560410420000011
其中Ai表示第i个瓦片所绑定的端口数目。
4.根据权利要求1所述的基于宽端口异构瓦片的端口可配置路由器设计方法,其特征在于,所述瓦片阵列为异构瓦片组成的瓦片阵列。
5.一种基于异构瓦片的端口可配置路由器,其特征在于,所述端口可配置路由器为采用权利要求1~4中任意一项所述基于宽端口异构瓦片的端口可配置路由器设计方法设计得到的端口可配置路由器。
6.根据权利要求5所述的基于异构瓦片的端口可配置路由器,其特征在于,所述端口可配置路由器的瓦片阵列中瓦片阵列的行数目R=3、列数目C=4,内部交换端口数目K为20,所述瓦片阵列为包含3行4列的12个瓦片的异构瓦片阵列以实现640x640的无阻塞交换,欺诈第一行及最后一行瓦片为8x5的瓦片,第二行瓦片为4x5异构瓦片,第一行及最后一行瓦片每个绑定两个端口,而中间行的瓦片绑定一个端口,且每个端口含32个VC队列,第二行瓦片与第一行瓦片集成为一个随机逻辑宏RLM,所述随机逻辑宏RLM为后端布局布线的基本单位;所述瓦片阵列的每一行瓦片有一组行线,每一列瓦片有一组列总线,在每个行总线和列总线与瓦片中XBAR接入的地方都有一个输入DAMQ缓冲,报文经前端处理后进入目的行的输入DAMQ缓冲,交换时输入DAMQ缓冲根据路由列号将报文写入对应瓦片的行缓冲,同时在头切片附上行地址及聚合端口中最终的目的端口号,且子交换模块根据行地址交换报文至目的行的瓦片,通过该瓦片仲裁输出到输出聚合端口。
7.一种权利要求5或6所述的基于异构瓦片的端口可配置路由器的应用方法,其特征在于,包括利用物理编码子层模块的掉Lane功能实现高速宽端口、低速窄端口之间的自动适配的步骤:当通信栈从高速模式切换至低速模式时,将指定的物理编码子层模块的绑定的Lane数目减少,从而使得该物理编码子层模块从高带宽端口降级为低带宽端口使用。
8.根据权利要求7所述的基于异构瓦片的端口可配置路由器的应用方法,其特征在于,所述将指定的物理编码子层模块的绑定的Lane数目减少之后,还包括将多余的lane资源分别给其他低速的物理编码子层模块的步骤。
CN202010604376.9A 2020-06-29 2020-06-29 基于宽端口异构瓦片的端口可配置路由器设计方法及路由器 Active CN111628936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010604376.9A CN111628936B (zh) 2020-06-29 2020-06-29 基于宽端口异构瓦片的端口可配置路由器设计方法及路由器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010604376.9A CN111628936B (zh) 2020-06-29 2020-06-29 基于宽端口异构瓦片的端口可配置路由器设计方法及路由器

Publications (2)

Publication Number Publication Date
CN111628936A true CN111628936A (zh) 2020-09-04
CN111628936B CN111628936B (zh) 2022-02-18

Family

ID=72261245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010604376.9A Active CN111628936B (zh) 2020-06-29 2020-06-29 基于宽端口异构瓦片的端口可配置路由器设计方法及路由器

Country Status (1)

Country Link
CN (1) CN111628936B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7554918B1 (en) * 1999-09-01 2009-06-30 Cisco Technology, Inc. Fair multiplexing scheme for multiple input port router
US20090292855A1 (en) * 2007-04-20 2009-11-26 Scott Steven L High-radix interprocessor communications system and method
US20170063625A1 (en) * 2014-09-22 2017-03-02 Netspeed Systems Configurable router for a network on chip (noc)
CN207150772U (zh) * 2017-09-04 2018-03-27 南京曦光信息科技有限公司 非对称缓存与转发模块及由其组成的分组交换节点及网络
CN108111438A (zh) * 2018-01-23 2018-06-01 中国人民解放军国防科技大学 一种高阶路由器行缓冲优化结构
CN108390831A (zh) * 2018-01-23 2018-08-10 中国人民解放军国防科技大学 一种高阶路由器输入端口缓冲优化结构
US20190138493A1 (en) * 2018-08-24 2019-05-09 Intel Corporation Scalable Network-on-Chip for High-Bandwidth Memory
CN111224883A (zh) * 2019-11-26 2020-06-02 中国人民解放军国防科技大学 一种高阶路由器的瓦片结构及其构建的高阶路由器

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7554918B1 (en) * 1999-09-01 2009-06-30 Cisco Technology, Inc. Fair multiplexing scheme for multiple input port router
US20090292855A1 (en) * 2007-04-20 2009-11-26 Scott Steven L High-radix interprocessor communications system and method
US20140301390A1 (en) * 2007-04-20 2014-10-09 Steven L. Scott Flexible routing tables for a high-radix router
US20170063625A1 (en) * 2014-09-22 2017-03-02 Netspeed Systems Configurable router for a network on chip (noc)
CN207150772U (zh) * 2017-09-04 2018-03-27 南京曦光信息科技有限公司 非对称缓存与转发模块及由其组成的分组交换节点及网络
CN108111438A (zh) * 2018-01-23 2018-06-01 中国人民解放军国防科技大学 一种高阶路由器行缓冲优化结构
CN108390831A (zh) * 2018-01-23 2018-08-10 中国人民解放军国防科技大学 一种高阶路由器输入端口缓冲优化结构
US20190138493A1 (en) * 2018-08-24 2019-05-09 Intel Corporation Scalable Network-on-Chip for High-Bandwidth Memory
CN111224883A (zh) * 2019-11-26 2020-06-02 中国人民解放军国防科技大学 一种高阶路由器的瓦片结构及其构建的高阶路由器

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YI DAI等: "A Cost-Efficient Router Architecture for HPC Inter-Connection Networks: Design and Implementation", 《 IEEE TRANSACTIONS ON PARALLEL AND DISTRIBUTED SYSTEMS 》 *
YI DAI等: "A Scalable and Resilient Microarchitecture Based on Multiport Binding for High-Radix Router Design", 《 2017 IEEE INTERNATIONAL PARALLEL AND DISTRIBUTED PROCESSING SYMPOSIUM (IPDPS)》 *
杨文祥等: "一种多级无缓存高阶路由器的设计与实现", 《计算机工程与科学》 *
王永庆等: "非对称交叉开关优化与设计", 《计算机工程与科学》 *

Also Published As

Publication number Publication date
CN111628936B (zh) 2022-02-18

Similar Documents

Publication Publication Date Title
US9503394B2 (en) Clustered dispersion of resource use in shared computing environments
CN111104775B (zh) 一种片上网络拓扑结构及其实现方法
US9043526B2 (en) Versatile lane configuration using a PCIe PIe-8 interface
US7907624B2 (en) Switch matrix
US8184626B2 (en) High-radix interprocessor communications system and method
US9699079B2 (en) Streaming bridge design with host interfaces and network on chip (NoC) layers
US10148744B2 (en) Random next iteration for data update management
US11206225B2 (en) Hyperscale switch and method for data packet network switching
CN109861931B (zh) 一种高速以太网交换芯片的存储冗余系统
US11722585B2 (en) Reliable communications using a point to point protocol
Knebel et al. Gen-z chipsetfor exascale fabrics
CN112073336A (zh) 基于AXI4 Stream接口协议的高性能数据交换系统及方法
CN113438171B (zh) 一种低功耗存算一体系统的多芯片连接方法
US20060056424A1 (en) Packet transmission using output buffer
US9277300B2 (en) Passive connectivity optical module
CN111628936B (zh) 基于宽端口异构瓦片的端口可配置路由器设计方法及路由器
Alimi et al. Network-on-Chip Topologies: Potentials, Technical Challenges, Recent Advances and Research Direction
US20230254253A1 (en) Message split-aggregation for multi-stage electrical interconnection network
Azimi et al. On-chip interconnect trade-offs for tera-scale many-core processors
Shimizu et al. A single chip shared memory switch with twelve 10Gb ethernet ports
KR20230120559A (ko) 다중 스테이지 전기 접속 네트워크에서 메시지 분할-병합을 수행하는 전자 장치 및 그 동작 방법
Luo et al. A low power and delay multi-protocol switch with IO and network virtualization
Dai et al. Microarchitecture of a Configurable High-Radix Router for the Post-Moore Era
Latif et al. An Autonomic NoC Architecture Using Heuristic Technique for Virtual-Channel Sharing
CN116346521A (zh) 网络系统及数据传输方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant