CN101277195B - 一种交换网通信系统、实现方法及交换装置 - Google Patents
一种交换网通信系统、实现方法及交换装置 Download PDFInfo
- Publication number
- CN101277195B CN101277195B CN2007100909936A CN200710090993A CN101277195B CN 101277195 B CN101277195 B CN 101277195B CN 2007100909936 A CN2007100909936 A CN 2007100909936A CN 200710090993 A CN200710090993 A CN 200710090993A CN 101277195 B CN101277195 B CN 101277195B
- Authority
- CN
- China
- Prior art keywords
- pcie
- crosspoint
- card board
- cable card
- ethernet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种交换网通信系统,包括:主控板、线卡板和交换装置,所述交换装置包括PCIE交换单元,所述线卡板通过所述PCIE交换单元进行数据平面通信。本发明还提供了一种交换网通信实现方法,包括以下步骤:主控板对PCIE交换单元和线卡板的PCIE总线进行空间配置;所述线卡板通过所述PCIE交换单元进行数据平面通信。本发明还提供了一种交换装置。本发明的实施例中,使用基于PCIE总线的交换网作为数据承载平面,使用基于以太网的交换网作为控制平面,提供一种低成本、高性能、高可靠性的网络设备。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种交换网通信系统、实现方法及交换装置。
背景技术
随着互联网发展,流量的逐步增大,对于路由器、交换器、网关等网络设备的性能要求越来越高,需要处理的业务越来越复杂,因此目前的中高端网络设备交换网一般采用数据承载平面和控制通道分离的方式,使通信设备可以采用分布式转发。如图1所示的一种分步式网络设备,包括主控板、线卡板和交换板,虚线箭头为控制通道,控制通道采用点对点的方式,每个线卡板的控制单元都和主控板控制单元进行通信;主控板的控制单元通常为CPU(Central Processor Unit,中央处理器),线卡板的控制单元可以是CPU或NP(Networks Processor,网络处理器)或ASIC(Application Specific IntegratedCircuit,专用集成电路);另外,线卡板、主控板通过交换器进行数据交换。
现有技术中承载数据平面的交换方式通常基于ATM(AsynchronousTransfer Mode,异步传输模式)或者以太网交换芯片实现。其中,基于ATM交换方式的网络设备,采用定长的分组交换,能够很好的实现流量控制,较高的转发性能,能够保证高质量的服务质量,但成本很高。基于以太网交换芯片的网络设备,由于以太网的交换芯片在交换机上使用非常多,价格较低,但以太网在流量较大的情况下,必然会出现拥塞,而且也无法支持QoS(Qualityof Service,服务质量)、流量控制等;虽然现有技术也有试图通过各种中心调度、线卡板队列管理等方式优化基于以太网芯片的交换网,但其复杂度和成本非常高。因此,现有的交换网的通信设备要么成本很高且实现复杂,要么无法满足复杂的业务需求。
发明内容
本发明实施例提供一种交换网通信系统、实现方法及交换装置,以实现交换网络设备的低成本、高性能和高可靠性。
为实现以上目的,本发明实施例提供了一种交换网通信系统,包括:主控板、线卡板和交换装置,所述交换装置包括PCIE交换单元,所述线卡板通过所述PCIE交换单元进行数据平面通信。
所述交换装置还包括以太网交换单元,所述主控板和所述线卡板通过所述以太网交换单元进行控制平面通信。
所述主控板包括控制单元,所述控制单元具体包括:CPU、PCIE根联合体子单元和以太网媒体控制子单元;
所述PCIE根联合体子单元,用于实现PCIE总线接口;
所述以太网媒体控制子单元,用于实现以太网接口;
所述CPU,通过所述PCIE根联合体单元及PCIE交换单元与线卡板实现数据平面配置;通过所述以太网媒体控制单元及以太网交换单元实现与线卡板控制平面配置。
所述线卡板包括控制单元,所述控制单元具体包括:CPU、PCIE终端、以太网媒体控制子单元和对外接口子单元;
所述CPU控制PCIE终端与主控板的PCIE根联合体子单元通信;并控制以太网媒体控制子单元通过以太网交换单元与主控板进行控制平面通信;并控制对外接口子单元与外部通信。
所述PCIE终端和对外接口单元由网络处理器实现或由专用集成电路芯片实现。
本发明实施例还提供了一种交换装置,应用于包括至少一个线卡板和主控板的通信系统,该交换装置还包括PCIE交换单元,所述线卡板通过所述PCIE交换单元进行数据平面通信。
还包括以太网交换单元,所述主控板和所述线卡板通过所述以太网交换单元进行控制平面通信。
所述以太网交换单元还包括故障检测子单元和切换子单元;
所述故障检测子单元,用于检测到控制通道发生故障时,通知所述切换子单元将控制平面通信切换到PCIE交换单元。
所述PCIE交换单元进一步包括最优通道检测子单元、分类管理子单元和数据转发子单元,
所述最优通道检测子单元,用于选取最优的虚拟通道;
所述分类管理子单元,用于建立所述最优虚拟通道与物理通道、线卡板、数据报文类型的映射关系;
数据转发子单元,用于根据所述映射关系进行数据转发。
所述PCIE交换单元还包括故障检测子单元和切换子单元;
所述故障检测子单元,用于检测到数据通道发生故障时,通知所述切换子单元将数据平面通信切换到以太网交换单元。
本发明实施例还提供了一种交换网通信实现方法,包括以下步骤:
主控板对PCIE交换单元和线卡板的PCIE总线进行空间配置;
所述线卡板通过所述PCIE交换单元进行数据平面通信。
所述主控板对线卡板进行配置后还包括:主控板通过以太网交换单元对线卡板进行路由转发表维护和管理。
所述主控板对PCIE交换单元进行空间配置具体包括:
选取最优的虚拟通道;
建立所述最优虚拟通道与物理通道、线卡板、数据报文类型的映射关系。
所述线卡板根据所述映射关系进行数据平面通信。
检测到数据通道发生故障时,通知主控板和线卡板将数据平面通信切换到以太网交换单元;检测到控制通道发生故障时,通知主控板和线卡板将控制平面通信切换到PCIE交换单元。
与现有技术相比,本发明实施例具有以下优点:
本发明的实施例中,使用基于PCIE总线的交换网作为数据承载平面,使用基于以太网的交换网作为控制平面,提供一种低成本、高性能、高可靠性的网络设备。
附图说明
图1是现有技术中一种分布式网络设备结构图;
图2是本发明实施例一种基于PCIE总线和以太网的分布式交换网通信系统结构图;
图3是本发明实施例中一种主控板结构图;
图4是本发明实施例中一种线卡板结构图;
图5是本发明实施例中另一种线卡板结构图;
图6是本发明实施例中又一种线卡板结构图;
图7是本发明实施例中一典型交换网通信系统结构图;
图8是本发明实施例中一种线卡板中的控制装置不携带PCIE接口功能的通信系统结构图;
图9是本发明图8实施例中线卡板的数据转发流程图;
图10是本发明图8实施例中适配装置结构图;
图11是本发明图8实施例中控制装置发送报文格式结构图;
图12是本发明图8实施例中对来源不同报文进入不同队列示意图;
图13是本发明图8实施例报文转换示意图;
图14是本发明图8实施例中PCIE报文格式图;
图15是本发明图8实施例中另一种基于PCIE交换网的通信系统总线适配图。
具体实施方式
本发明实施例提供了一种基于PCI Express(简称PCIE)总线和以太网的分布式交换网通信系统,如图2所示,包括:主控板、线卡板和交换设备,其中,交换设备包括PCIE交换单元和以太网交换单元。PCIE交换单元提供多个PCIE接口连接到主控板和线卡板的控制单元,主控板的控制单元通过PCIE总线对PCIE交换单元和线卡板的PCIE的空间进行配置;以太网交换单元提供多个以太网接口,连接到主控板和线卡板的控制单元,主控板的控制单元通过以太网接口和线卡板的控制单元通信,对线卡板路由地址信息进行配置,确 保不同的线卡板可以通过PCIE交换单元进行通信。其中,主控板的控制单元为CPU,业务板的控制单元为CPU或NP或ASIC。
正常情况下,由以太网交换单元构成的控制平面主要是完成线卡板的配置、路由转发表的维护、管理等功能,不进行数据报文转发,需要的带宽比较小,一般中高端通信设备使用千兆以太网就可以满足,也可以采用快速以太网或万兆以太网等代替千兆以太网。PCIE交换单元承载数据平面信息,在主控板对PCIE交换单元和线卡板的PCIE总线的空间配置后,各个线卡板直接通过PCIE交换单元完成数据的转发,无需通过主控板,这种分布式的转发使主控板只做控制平面的业务,从而保证系统高效、可靠运行,尤其使用两个主控板互相作为备份后,系统的可靠性进一步得到加强。
其中,PCIE交换单元进一步包括:最优通道检测子单元,用于选取最优的虚拟通道,例如:PCIE交换单元对于不同线路板的报文传输按照地址访问寻址方式,对于每个物理线路获得不少于一个VC(Virtual Channel,虚拟通道)和TC(Traffic Class,流量分类)通道,最优的VC和TC的数量不少于系统支持线卡板和主控板的数量;分类管理子单元,通过设置VC、TC与不同物理通道的对应关系,或者与线卡板的映射关系,或者与数据报文的映射关系,实现分级分类处理不同线卡板的不同的数据报文和业务报文,实现不同的QoS(Quality of Service,服务质量);数据转发子单元,用于根据映射关系对不同线卡板的数据直接进行转发,无需将数据发送到主控板。
本发明实施例中,PCIE交换单元和以太网交换单元还可以分别包括故障检测子单元和切换子单元,PCIE交换单元中的故障检测子单元用于检测到数据通道发生故障时,通知切换子单元将数据平面通信切换到以太网交换单元;以太网交换单元中的故障检测子单元用于检测到控制通道发生故障时,通知切换子单元将控制平面通信切换到PCIE交换单元。PCIE交换单元和以太网交换单元连接到所有的线卡板和主控板,正常情况下,通过PCIE交换单元进行数据转发,以太网交换单元进行控制通道信息转发;当PCIE交换单元因出现故障不能使用时,以太网交换单元(此时采用万兆以太网交换单元尤佳)可以承载所有的数据平面和控制平面的数据,而且数据平面的转发仍然可以 做到分布式转发;当以太网交换芯片不能使用时,PCIE交换单元可以承载所有的数据平面和控制平面的业务;为了保证实现的可靠性,防止数据平面业务拥塞了控制平面数据,这些种情况下,可以限制数据平面流量。
另外,本发明实施例中可以增加备份主控板,当主控板不能使用时,备份主控板可以承担主控板的任务,当备份主控板不存在或者也不起作用时,可以使用其中的一个线卡板承担主控板的任务,切换为主控板的功能,最大限度的保护整个设备的运行,保护网络的正常。
本发明实施例中,PCIE交换单元可以提供多个独立的PCIE串行总线,这些独立的串行总线既可以独立成为一个PCIE线路,也可以多个线路捆绑在一个逻辑串行线路上,每个线卡板通过一个逻辑串行线路与交换单元连接。为了满足转发性能,捆绑线路的数据依据系统需要提供的带宽决定,如PCIExpress1.0规范中,1个通道可以支持2.5Gbps,4个通道可以支持10Gbps,16个通道可以支持40Gbps的带宽;如PCIE2.0规范中,1个通道可以支持5Gbps,4个通道可以支持20Gbps的带宽,逻辑串行线路可以依据用户的需求进行设计。
本发明实施例中,主控板如图3所示,包括:控制单元、RAM(Random-Access Memory,随机存取存储器)和FLASH(闪存),其中,控制单元进一步包括CPU、PCIE根联合体子单元和以太网媒体控制子单元。PCIE根联合体(PCI Express Root complex)单元,提供PCIE总线接口;以太网媒体控制单元实现千兆以太网接口,用于提供以太网交换接口。CPU通过PCIE根联合体子单元及PCIE交换单元对线卡板数据平面配置;通过以太网媒体控制单元及以太网交换单元实现对线卡板控制平面配置。上述控制单元可以用带以太网接口功能和PCIE接口功能的SoC(System on Chip)处理器实现,当然SoC处理器也可以不带PCIE总线接口和以太网接口,可以与提供PCIE总线和以太网接口的外置北桥设备组合实现。但一般情况下集成PCIE根联合体功能和以太网媒体控制接口功能的SoC芯片更便宜,性价比更优,但处理效率相对低些。
本发明实施例中,线卡板采用NP、ASIC、CPU或者多核CPU作为控制 单元时,整个系统能达到很高的性能。因此,线卡板进一步包括:控制单元、RAM和FLASH,其中,控制单元具体包括:CPU、PCIE终端、以太网媒体控制子单元和对外接口子单元;CPU控制PCIE终端与主控板的PCIE根联合体子单元通信;并控制以太网媒体控制子单元通过以太网交换单元与主控板进行控制平面通信;并控制对外接口子单元与外部通信。
控制单元可以使用带以太网接口功能和PCIE接口功能的SoC处理器实现,如图4所示,CPU连接PCIE终端(Endpoint)、以太网媒体控制子单元和对外接口子单元。PCIE终端通过PCIE交换单元与主控板的PCIE根联合体子单元通信,以太网媒体控制子单元通过以太网交换单元的以太网接口与主控板进行控制平面通信,对外接口子单元用于连接其它可选用户接口,可以为SPI4接口控制器、10GE以太网接口控制器等,根据用户需求可选的各种接口,提供了线卡的对外接口。另外,这些接口通过专用的ASIC或FPGA(FieldProgrammable Gate Array,现场可编程门阵列)芯片转换后可以提供几乎所有的通信设备的物理接口,如以太网、ATM、POS(Packet Over SONET/SDH,SONET/SDH上的分组)等接口。图4中来自以太网接口的控制报文用于配置线卡板的路由转发表、地址、缓冲描述等信息,CPU接收来自外部的报文,查转发表后,通过PCIE接口转发到PCIE交换单元,进而转发到另外一个线卡板。
使用网络处理器时,如图5所示,控制单元可以为不带以太网接口功能和PCIE接口功能的CPU,CPU连接网络处理器实现PCIE接口和对外接口功能。网络处理器中包括PCIE终端和报文处理引擎,PCIE终端用于连接PCIE根联合体或者PCIE交换单元、报文处理引擎用于连接其它可选用户接口,如ATM/POS/10GE等;SoC处理器通过以太网媒体控制器实现以太网接口。图中单板CPU仅仅作为配置功能,进一步也可以集成在网络处理器内部,CPU接收来自以太网接口的控制报文用于配置线卡板的转发表、地址、缓冲描述等信息,将其配置到网络处理器的表中;网络处理器接收来自外部的报文,查表后,通过PCIE接口转发到PCIE交换单元,进而转发到另外一个线卡板。
使用专用ASIC转发引擎时,如图6所示,线卡板结构图和使用网络处理器 的图5基本相同,相比较网络处理器的实现方式,成本可以做到很低,但性能可以做到很高。
本发明一个典型应用实例如图7所示,包括:主控板、交换板和业务板1、2......、N。主控板和业务板中都包括SoC CPU芯片、内存、程序、逻辑单元;交换板包括:PCIE交换器和千兆以太网交换芯片;业务板CPU芯片内部集成了PCIE控制器和千兆以太网控制器。在主控板上PCIE控制器可以配置为PCIE根联合体,在线卡板上可以配置为PCIE终端,PCIE作为数据承载平面。CPU芯片集成了多个千兆以太网控制器,其中一个千兆以太网连接到交换板的千兆以太网交换芯片,作为设备的控制平面。CPU芯片的其余的千兆以太网控制器和其它功能控制器可以连接到设备的对外业务接口。
如果上述实施例中的CPU、NP和ASIC等都不支持PCIE接口功能,则可以通过在线卡板上增加适配装置,达到在线卡板上使用不支持PCIE接口功能的CPU、NP和ASIC等控制装置,即PCIE终端置于控制装置的外部。该种基于PCIE交换网的通信系统,如图8,包括:主控板、线卡板和PCIE交换设备,该PCIE交换设备为图2中只有PCIE交换单元的交换设备,线卡板包括控制装置和适配装置,线卡板的控制装置可以为CPU、NP或ASIC芯片,芯片不提供PCIE总线接口,例如线卡板控制装置的接口为SPI4(System Packet Interface Level4,系统包接口第4级)、XGMII(10G Media Independent Interface,10G介质无关接口)等总线,可以通过适配装置完成控制装置到PCIE总线适配。主控板中的控制装置可以是提供PCIE总线接口的CPU(Central Processor Unit,中央处理单元),也可以是不提供PCIE总线接口的CPU,当使用不提供PCIE总线接口的CPU时,系统性能比提供PCIE总线接口的CPU时好,但需要增加适配装置。适配装置可以由FPGA、ASIC或其它软件程序或硬件电路实现,即通过CPU+北桥的方式实现。
图8中线卡板的数据转发过程如图9所示,线卡板的控制装置接收到报文后,查找转发表,增加目标线卡板地址信息和报文优先级信息在当前报文的前面,构成新的报文通过SPI4、XGMII等接口发送到线卡板的适配装置,适配装置从接收到的报文中提取目标线卡板地址信息和报文优先级信息后, 删除掉被线卡板控制装置增加的信息,拆分为特定长度的报文,并依据提取的目标线卡板地址信息和报文优先级等信息组成PCIE头信息,加在报文前面,封装为PCIE报文,通过PCIE交换设备发送到另外一个线卡板,该另一线卡板适配装置接收到PCIE报文后,去掉PCIE头信息,再经过组帧,提取出来原来的报文,通过SPI4、XGMII等接口转发给该另一线卡板的控制装置,而后将报文转发出去。对于线卡板控制装置,发送出去是SPI4/XGMII报文,接收到也是SPI4/XGMII报文,PCIE就像一个隧道,线卡板的控制装置不关心PCIE交换设备如何实现流量控制、服务质量保证等。
适配装置结构如图10所示,具体包括上行适配单元和下行适配单元。上行适配单元,将来自本线卡板控制装置的报文转换为PCIE报文,通过PCIE交换设备发送到主控板或其它线卡板;下行适配单元,接收主控板或其它线卡板通过PCIE交换设备发送来的PCIE报文,转换为控制装置适配的报文发送给控制装置。
其中,上行适配单元具体包括:物理层和链路层接收子单元1、拆分子单元、PCIE头封装子单元及物理层和链路层发送子单元2;其中,物理层和链路层接收子单元1,处理控制装置发送出来的报文的物理层和链路层,不同的控制装置接口需要不同的物理层和链路层处理子单元,如控制装置是SPI4接口,则此物理层和链路层接收处理子单元1完成SPI4报文的识别,提取协议层报文;如果控制装置是XGMII接口,则物理层和链路层接收子单元1完成10GE以太网报文的物理层和链路层处理。拆分子单元用于将报文拆分成多个PCIE标准长度的报文。PCIE头封装子单元,分别将多个PCIE特定长度的报文加PCIE报文头,生成一组PCIE报文。物理层和链路层发送子单元2处理PCIE接口的物理层和链路层处理,并实现PCIE终端功能,将PCIE报文发送到PCIE交换设备。
下行适配单元具体包括:物理层和链路层发送子单元1、组帧子单元、PCIE头解封装子单元及物理层和链路层接收子单元2。物理层和链路层发送子单元1完成协议层报文的物理层和链路层封装,发送到控制装置的SPI4接口;PCIE头解封装子单元,将来自PCIE交换设备的PCIE报文去掉PCIE报文头,获得一 组标准长度的PCIE报文;组帧子单元,将所述PCIE报文组装成适配所述控制装置的报文,即依据携带在PCIE报文头中的源ID(由发送端的总线号、设备号、功能号组成)信息和地址信息重组报文。物理层和链路层接收子单元2处理PCIE接口的物理层和链路层,并实现PCIE终端功能,将适配所述控制装置的报文发送给该控制装置。
上行适配单元还包括目标线卡板地址获取子单元,从所述控制装置发送的报文中获取目标线卡板地址,通过所述PCIE头封装子单元封装在PCIE报文头中。由于适配装置不识别控制装置发送的报文,为了满足PCIE报文正确在交换网转发,要求在控制装置发送报文头上携带一个目的地址,如图11中所示报文头部增加了PCIE地址头和保留字节,此目的地址为基于PCIE交换设备分配给目标线卡板的地址(即把PCIE的地址信息携带在控制装置发送的报文中,这个报文是非PCIE报文,本文中把地址信息放置到报文头部,任何调整地址位置,或者不违背这个原则的改动都是本专利保护的范围),以便封装在发送到PCIE交换设备的PCIE报文头中,线卡板报文头地址来自于系统的控制平面。
上行适配单元还包括优先级分类单元,确定所述报文的优先级级别,将相应的优先级标识通过所述PCIE头封装子单元封装到所述PCIE报文头中。如图11中所示,保留字节是为了保证字节对齐和兼容以后扩充功能,如扩充QoS(Quality of Service,服务质量)功能,控制报文优先级等。如在扩充功能中定义报文的优先级,适配装置把这个优先级映射到PCIE报文头的TC(Traffic Class,流量分类),从而入交换网的不同虚拟通道VC(Virtual Channel,虚拟通道),实现分级分类处理不同线路板的不同的数据报文和业务报文,实现不同的QoS。
下行适配单元还包括组帧检测子单元,用于检测从PCIE交换设备发来的PCIE报文是否为一组完整报文。其中,检测条件包括:PCIE报文头中地址不连续、报文长度小于标准长度或预设时间内没有收到下一个报文。
为了保证组帧的正确性,要求来自同一个线卡板的报文在PCIE交换网中不能错乱顺序,接收线卡板需要识别来自交换设备的不同来源的报文,因此, 接收线卡板下行适配单元要求包括多个队列,如图12所示,队列的数量要求不少于线卡板和主控板的数量减1,每一个队列对应一个源ID,当接收PCIE报文头中的Requester ID字段和该队列的源ID相同时,PCIE报文进入该队列,保证了组帧的完成。
本发明还提供了一种交换网通信实现方法,包括以下步骤:
步骤s101,主控板对PCIE交换单元和线卡板的PCIE总线进行空间配置。其中,PCIE交换单元提供多个PCIE接口连接到主控板和线卡板的控制单元,主控板的控制单元通过PCIE总线对PCIE交换单元和线卡板的PCIE的空间进行配置;主控板的控制单元通过以太网接口和线卡板的控制单元通信,对线卡板路由地址信息进行配置,确保不同的线卡板可以通过PCIE交换单元进行通信。其中,主控板的控制单元为CPU,业务板的控制单元为CPU或NP或ASIC。
另外,PCIE交换单元对于不同线路板的报文传输按照地址访问寻址方式,对于每个物理线路获得不少于一个VC和TC通道,最优的VC和TC的数量不少于系统支持线卡板和主控板的数量;并通过设置VC、TC与不同物理通道的对应关系,或者与线卡板的映射关系,或者与数据报文的映射关系,实现分级分类处理不同线卡板的不同的数据报文和业务报文,实现不同的QoS。
步骤s102,线卡板通过PCIE交换单元进行数据平面通信。PCIE交换单元承载数据平面信息,在主控板对PCIE交换单元和线卡板的PCIE总线的空间配置后,各个线卡板直接通过PCIE交换单元完成数据的转发,无需通过主控板,这种分布式的转发使主控板只做控制平面的业务,从而保证系统高效、可靠运行,尤其使用两个主控板互相作为备份后,系统的可靠性进一步得到加强。
其中,线卡板进行数据平面通信可以分为两个方向,一个是上行方向:由线卡板向PCIE交换单元发送数据;另一个是下行方向,由线卡板接收来自PCIE交换单元的数据。在上行方向将来自本线卡板控制装置的报文转换为PCIE报文,通过PCIE交换单元发送到主控板或其它线卡板。具体包括:将控制装置发来的报文拆分成多个PCIE特定长度的报文,分别将多个PCIE报 文加PCIE报文头,生成一组PCIE报文,发送到PCIE交换单元。PCIE报文头中包括控制装置发送的报文中携带的目标线卡板地址和优先级信息。
在下行方向接收主控板或其它线卡板通过PCIE交换单元发送来的PCIE报文,转换为控制装置适配的报文发送给控制装置。具体包括:将来自其它线卡板和主控板的PCIE报文分别存储到不同的队列中;将每个队列中来自PCIE交换单元的PCIE报文去掉PCIE报文头,获得一组标准长度的PCIE报文;然后将PCIE报文组装成适配控制装置的报文发送给控制装置。
由于PCIE标准规范规定,PCIE交换单元支持的最大报文长度为4K字节,报文长度从0到4K字节的范围内变动,报文突发变化比较大,对PCIE交换单元的冲击较大,很容易造成PCIE交换单元拥塞或效率低,因此,本发明实施例中要求适配装置对接收到的报文在进入PCIE交换单元之前进行拆分,如拆分为长度128字节或256字节等特定长度。拆分后的报文被添加了PCIE报文头,以便构成标准的PCIE报文,能在PCIE交换单元中被识别和转发。另外一方面,封装成PCIE报文被转发到另外一个线卡板时,此线卡板适配装置必须能识别PCIE报文,并对拆分的报文进行组帧,组帧成原来的报文到相应的控制装置中。
为了简化设计,同时为了降低总线适配器成本和满足业务处理的质量服务保证,本发明实施例简化了PCIE规范中定义的处理层数据报文路由方式,只需要支持存储器写方式,这种方式能保证PCIE带宽得到最优的利用率,并且对于不同的线路板的报文传输按照基于地址访问寻址方式。为了简化设计,对于控制装置发送出来的处理层数据报文不做任何识别,只需要把报文当作净荷(Payload)处理,至到转发到另外一个线卡板的控制装置,PCIE交换单元对于处理层报文就像一个隧道。
下面以切片长度为256字节为例对报文拆分、PCIE报文头封装过程,以及PCIE报文组帧过程进行说明,如图13所示。发送到PCIE交换单元的所有报文(除了切片的最后一个报文)的净荷都是256字节,PCIE报文头中包含的地址信息依次增加256,PCIE交换单元接收到PCIE报文后,依据报文的地址信息转发到相应的线卡板上,线卡板接收到报文后,依据报文PCIE报文头中携带的 源ID(由发送端的总线号、设备号、功能号组成)入不同的队列。适配装置可以根据如下三种措施来判断是否一个完整的组帧:PCIE报文头中地址不是连续增加256时,为一个组帧报文结束;PCIE报文长度小于256字节时,为一个组帧报文结束;地址虽然连续,报文长度为256字节,但预定时间内没有接收到下一个报文,为一个组帧报文结束。
图14是PCIE标准规范定义的数据报文格式,图11和图13的地址信息对应图14的Address地址字段,Requester ID即为本端口的总线号、设备号、功能号组成的数据,以便在报文从PCIE交换单元出来,适配装置根据报文不同来源进入不同的队列,便于组帧。
更进一步,为了保证系统的向后扩展性,保护用户的投资,本发明实施例中适配装置与控制装置可以集成一体或分离。当高性能的基于PCIE接口的控制装置出现时,在当前的线卡板中使用带PCIE接口的扩展控制装置。如图15左侧两个线卡板,通过使用带扩展的控制装置,可以兼容当前系统,该两个线卡板中分别使用扩展的控制装置,该控制装置集成了本发明中的控制装置和适配装置的功能,支持PCIE终端的物理层和链路层协议、具有完成报文的切片和组帧功能,当此线卡板要发送报文时,控制装置把要发送的报文切割为256字节大小,封装PCIE报文头,并且同一个报文地址增加256,报文头中携带本单板的PCIE源ID信息。而原来的线卡板为XGMII接口的以太网报文进行拆分封装通过交换网发送过来,控制装置接收到报文后,依据PCIE报文头的地址和PCIE源ID信息,报文存储到不同的内存空间中,通过软件或者硬件完成报文的组帧。
另外,为了保证系统的稳定性,当检测到数据通道发生故障时,通知主控板和线卡板将数据平面通信切换到以太网交换单元;检测到控制通道发生故障时,通知主控板和线卡板将控制平面通信切换到PCIE交换单元。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (12)
1.一种交换网通信系统,所述交换网通信系统为基于PCIE总线和以太网的分布式交换网通信系统,包括:主控板、线卡板和交换装置,其特征在于,所述交换装置包括PCIE交换单元和以太网交换单元,所述线卡板通过所述PCIE交换单元进行数据平面通信;所述主控板和所述线卡板通过所述以太网交换单元进行控制平面通信。
2.如权利要求1所述交换网络通信系统,其特征在于,所述主控板包括控制单元,所述控制单元具体包括:CPU、PCIE根联合体子单元和以太网媒体控制子单元;
所述PCIE根联合体子单元,用于实现PCIE总线接口;
所述以太网媒体控制子单元,用于实现以太网接口;
所述CPU,通过所述PCIE根联合体子单元及PCIE交换单元与线卡板实现数据平面配置;通过所述以太网媒体控制子单元及以太网交换单元实现与线卡板控制平面配置。
3.如权利要求1所述交换网络通信系统,其特征在于,所述线卡板包括控制单元,所述控制单元具体包括:CPU、PCIE终端、以太网媒体控制子单元和对外接口子单元;
所述CPU控制PCIE终端与主控板的PCIE根联合体子单元通信;并控制以太网媒体控制子单元通过以太网交换单元与主控板进行控制平面通信;并控制对外接口子单元与外部通信。
4.如权利要求3所述交换网络通信系统,其特征在于,所述PCIE终端和对外接口子单元由网络处理器实现或由专用集成电路芯片实现。
5.一种交换装置,应用于包括至少一个线卡板和主控板的通信系统,所述通信系统为基于PCIE总线和以太网的分布式交换网通信系统,其特征在于,所述交换装置还包括PCIE交换单元和以太网交换单元,所述线卡板通过所述PCIE交换单元进行数据平面通信;所述主控板和所述线卡板通过所述以太网交换单元进行控制平面通信。
6.如权利要求5所述交换装置,其特征在于,所述以太网交换单元还包括故障检测子单元和切换子单元;
所述故障检测子单元,用于检测到控制通道发生故障时,通知所述切换子单元将控制平面通信切换到PCIE交换单元。
7.如权利要求5所述交换装置,其特征在于,所述PCIE交换单元进一步包括最优通道检测子单元、分类管理子单元和数据转发子单元,
所述最优通道检测子单元,用于选取最优的虚拟通道;
所述分类管理子单元,用于建立所述最优虚拟通道与物理通道、线卡板、数据报文类型的映射关系;
数据转发子单元,用于根据所述映射关系进行数据转发。
8.如权利要求5所述交换装置,其特征在于,所述PCIE交换单元还包括故障检测子单元和切换子单元;
所述故障检测子单元,用于检测到数据通道发生故障时,通知所述切换子单元将数据平面通信切换到以太网交换单元。
9.一种交换网通信实现方法,应用于基于PCIE总线和以太网的分布式交换网通信系统,其特征在于,包括以下步骤:
主控板对PCIE交换单元和线卡板的PCIE总线进行空间配置;并通过以太网交换单元对线卡板进行路由转发表维护和管理;
所述线卡板通过所述PCIE交换单元进行数据平面通信;所述主控板和所述线卡板通过所述以太网交换单元进行控制平面通信。
10.如权利要求9所述交换网通信实现方法,其特征在于,所述主控板对PCIE交换单元进行空间配置具体包括:
选取最优的虚拟通道;
建立所述最优虚拟通道与物理通道、线卡板、数据报文类型的映射关系。
11.如权利要求10所述交换网通信实现方法,其特征在于,所述线卡板根据所述映射关系进行数据平面通信。
12.如权利要求9所述交换网通信实现方法,其特征在于,检测到数据通道发生故障时,通知主控板和线卡板将数据平面通信切换到以太网交换单元;检测到控制通道发生故障时,通知主控板和线卡板将控制平面通信切换到PCIE交换单元。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100909936A CN101277195B (zh) | 2007-03-30 | 2007-03-30 | 一种交换网通信系统、实现方法及交换装置 |
PCT/CN2007/070413 WO2008119221A1 (fr) | 2007-03-30 | 2007-08-03 | Procédé d'échange de paquets de données, dispositif et carte de circuits imprimés |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100909936A CN101277195B (zh) | 2007-03-30 | 2007-03-30 | 一种交换网通信系统、实现方法及交换装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101277195A CN101277195A (zh) | 2008-10-01 |
CN101277195B true CN101277195B (zh) | 2011-12-07 |
Family
ID=39996235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007100909936A Active CN101277195B (zh) | 2007-03-30 | 2007-03-30 | 一种交换网通信系统、实现方法及交换装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101277195B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9990323B2 (en) | 2013-07-31 | 2018-06-05 | Hewlett Packard Enterprise Development Lp | Configuring a communication interconnect for electronic devices |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101895398B (zh) * | 2010-07-15 | 2012-07-25 | 华为技术有限公司 | 数据通信方法和装置 |
CN102204185B (zh) * | 2011-05-31 | 2013-08-28 | 华为技术有限公司 | 多核路由器 |
CN102301650B (zh) * | 2011-07-08 | 2014-07-09 | 华为技术有限公司 | 计算机系统中子网管理方法、总线适配器及计算机系统 |
CN102347899B (zh) * | 2011-07-28 | 2014-01-01 | 中国船舶重工集团公司第七一六研究所 | 智能双冗余千兆以太网处理板卡 |
CN102263698B (zh) * | 2011-08-11 | 2014-01-22 | 福建星网锐捷网络有限公司 | 虚拟通道的建立方法、数据传输的方法及线卡 |
CN103023709A (zh) * | 2011-09-21 | 2013-04-03 | 中兴通讯股份有限公司 | 网元线卡诊断信息获取方法及装置 |
CN102546400A (zh) * | 2011-12-20 | 2012-07-04 | 福建星网锐捷网络有限公司 | 一种卡间通信的方法、通信卡及网络转发设备 |
CN103188157B (zh) * | 2011-12-28 | 2016-06-08 | 迈普通信技术股份有限公司 | 一种路由器设备 |
CN102404238A (zh) * | 2011-12-31 | 2012-04-04 | 曙光信息产业股份有限公司 | 负载均衡方法和装置、以及服务器系统 |
EP2842271B1 (en) | 2012-04-25 | 2024-04-17 | Hewlett Packard Enterprise Development LP | Network management |
JP2014063497A (ja) * | 2012-09-21 | 2014-04-10 | Plx Technology Inc | 論理装置の機能を有するpciエクスプレススイッチ |
CN103036724B (zh) * | 2012-12-14 | 2016-01-20 | 北京华为数字技术有限公司 | 状态信息传输方法、网络设备及组合设备 |
CN103595541A (zh) * | 2013-11-01 | 2014-02-19 | 浪潮电子信息产业股份有限公司 | 一种外插网卡实现带外管理的设计方法 |
CN103618618B (zh) * | 2013-11-13 | 2017-05-24 | 福建星网锐捷网络有限公司 | 基于分布式pcie系统的线卡故障恢复方法及相关设备 |
CN104811400B (zh) * | 2014-01-26 | 2018-04-06 | 杭州迪普科技股份有限公司 | 一种分布式网络设备 |
CN104158743B (zh) * | 2014-08-22 | 2017-08-25 | 福建星网锐捷网络有限公司 | 分布式路由器的报文跨卡转发方法及装置 |
CN105763412A (zh) * | 2014-12-16 | 2016-07-13 | 中兴通讯股份有限公司 | 虚拟交换集群中通信的方法及装置 |
CN105991678A (zh) * | 2015-01-30 | 2016-10-05 | 杭州迪普科技有限公司 | 分布式设备的业务处理方法、装置及分布式设备 |
CN106294225A (zh) * | 2015-06-29 | 2017-01-04 | 深圳市中兴微电子技术有限公司 | 一种数据读取方法、对端设备及控制器 |
CN105591894B (zh) * | 2015-07-01 | 2019-03-15 | 新华三技术有限公司 | 一种分布式系统的单板提高板间数据通道可靠性的方法和装置 |
US20170091138A1 (en) * | 2015-09-30 | 2017-03-30 | Mediatek Inc. | Circuit module capable of establishing one or more links with another device and associated method |
CN106713183B (zh) * | 2015-10-30 | 2020-03-17 | 新华三技术有限公司 | 网络设备的接口板以及该网络设备和报文转发方法 |
CN105490844A (zh) * | 2015-12-05 | 2016-04-13 | 中国航空工业集团公司洛阳电光设备研究所 | 一种PCIe端口重构方法 |
CN107547450B (zh) * | 2017-07-28 | 2020-04-17 | 新华三技术有限公司 | 一种板间数据添加方法与装置 |
CN107483352A (zh) * | 2017-08-23 | 2017-12-15 | 重庆信维通科技有限公司 | 超融合网络设备中数据快速转发结构及方法 |
CN110099040B (zh) * | 2019-03-01 | 2021-11-30 | 江苏极元信息技术有限公司 | 一种基于大量部署诱饵主机探测拦截内网攻击源的防御方法 |
CN109995681B (zh) * | 2019-03-07 | 2021-03-23 | 盛科网络(苏州)有限公司 | 一种单芯片实现双主控主备切换的装置及方法 |
CN113407480A (zh) * | 2021-06-25 | 2021-09-17 | 新华三信息安全技术有限公司 | 一种集中式管理的框式交换机 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1490978A (zh) * | 2003-08-18 | 2004-04-21 | 北京港湾网络有限公司 | 带外通道方案 |
CN1747453A (zh) * | 2005-10-25 | 2006-03-15 | 杭州华为三康技术有限公司 | 一种基于PCI Express总线的集中式路由器 |
-
2007
- 2007-03-30 CN CN2007100909936A patent/CN101277195B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1490978A (zh) * | 2003-08-18 | 2004-04-21 | 北京港湾网络有限公司 | 带外通道方案 |
CN1747453A (zh) * | 2005-10-25 | 2006-03-15 | 杭州华为三康技术有限公司 | 一种基于PCI Express总线的集中式路由器 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9990323B2 (en) | 2013-07-31 | 2018-06-05 | Hewlett Packard Enterprise Development Lp | Configuring a communication interconnect for electronic devices |
Also Published As
Publication number | Publication date |
---|---|
CN101277195A (zh) | 2008-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101277195B (zh) | 一种交换网通信系统、实现方法及交换装置 | |
CN101277196B (zh) | 一种基于pcie交换网的通信系统、通信方法及线卡板 | |
CN101252537B (zh) | 一种交换网通信系统、方法和主控板 | |
US6094439A (en) | Arrangement for transmitting high speed packet data from a media access controller across multiple physical links | |
US7042891B2 (en) | Dynamic selection of lowest latency path in a network switch | |
EP1905207B1 (en) | A method to extend the physical reach of an infiniband network | |
US20020118692A1 (en) | Ensuring proper packet ordering in a cut-through and early-forwarding network switch | |
EP1891778B1 (en) | Electronic device and method of communication resource allocation. | |
EP2430804B1 (en) | Universal service transport transitional encoding | |
US7324537B2 (en) | Switching device with asymmetric port speeds | |
US20040125809A1 (en) | Ethernet interface over ATM Cell, UTOPIA xDSL in single and multiple channels converter/bridge on a single chip and method of operation | |
JP5258976B2 (ja) | 時分割多重信号を交換するために分割および再組み立て(sar)機能を用いるスケーラブルなネットワーク要素 | |
US20030152182A1 (en) | Optical exchange method, apparatus and system for facilitating data transport between WAN, SAN and LAN and for enabling enterprise computing into networks | |
EP0685951B1 (en) | Line interface devices for fast-packet networks | |
WO2008119221A1 (fr) | Procédé d'échange de paquets de données, dispositif et carte de circuits imprimés | |
US9036640B2 (en) | Encapsulation of data | |
JP3913368B2 (ja) | データフレームを転送する方法およびデータフレームを送信するための装置 | |
US7675913B2 (en) | Port addressing method and apparatus for link layer interface | |
KR100415585B1 (ko) | 고속 라우터 시스템의 비동기 전달모드 접속장치 | |
CN101873247A (zh) | 一种控制数据传输的管理方法及系统 | |
WO2020107298A1 (zh) | 传输通用服务传输转变编码的设备和方法 | |
CN106576016A (zh) | 数据传输的方法和媒体接入控制器 | |
CN116249040A (zh) | 一种光纤通道网络的带宽隔离方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 310052 Binjiang District Changhe Road, Zhejiang, China, No. 466, No. Patentee after: Xinhua three Technology Co., Ltd. Address before: 310053 Hangzhou hi tech Industrial Development Zone, Zhejiang province science and Technology Industrial Park, No. 310 and No. six road, HUAWEI, Hangzhou production base Patentee before: Huasan Communication Technology Co., Ltd. |