CN105164954A - 用于分流包流的系统和方法 - Google Patents

用于分流包流的系统和方法 Download PDF

Info

Publication number
CN105164954A
CN105164954A CN201480008571.8A CN201480008571A CN105164954A CN 105164954 A CN105164954 A CN 105164954A CN 201480008571 A CN201480008571 A CN 201480008571A CN 105164954 A CN105164954 A CN 105164954A
Authority
CN
China
Prior art keywords
bag
stream
packet
flow
coupled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480008571.8A
Other languages
English (en)
Inventor
阿兰·弗兰克·格拉维斯
彼得·艾斯伍德-史密斯
艾瑞克·伯尼尔
多米尼克·古德威尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN105164954A publication Critical patent/CN105164954A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/10Packet switching elements characterised by the switching fabric construction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0005Switch and router aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0005Switch and router aspects
    • H04Q2011/0037Operation
    • H04Q2011/0039Electrical control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q11/00Selecting arrangements for multiplex systems
    • H04Q11/0001Selecting arrangements for multiplex systems using optical switching
    • H04Q11/0062Network aspects
    • H04Q2011/0064Arbitration, scheduling or medium access control aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

在一个实施例中,一种用于分流输入包流的系统包含:流量分路器,其用于将输入包流分路成第一包流和第二包流;以及耦合到所述流量分路器的光子交换结构,其中所述光子交换结构用于交换所述第一包流。所述系统还可以包含:耦合到所述流量分路器的电包交换结构,其中所述电包交换结构用于交换所述第二包流;以及耦合到所述光子交换结构且耦合到所述电包交换结构的流量合路器,其中所述流量合路器用于合并所述第一经交换包流和所述第二经交换包流以产生第一包级流。

Description

用于分流包流的系统和方法
相关申请案交叉申请
本发明要求2013年3月15日递交的发明名称为“用于分流包流的系统和方法(SystemandMethodforSteeringPacketStreams)”的第61/787,847号美国临时申请案和2013年5月24日递交的发明名称为“用于分流包流的系统和方法(SystemandMethodforSteeringPacketStreams)”的第13/902,008号美国专利申请案的在先申请优先权,所述在先申请的内容如同全文复制一样以引入的方式并入本文本中。
技术领域
本发明涉及用于通信的系统和方法,且具体来说,涉及用于包流路由的系统和方法。
背景技术
数据中心路由大量的数据。当前,数据中心可以具有5到7百万兆字节每秒的吞吐量,预期所述吞吐量未来会大幅度增加。数据中心由庞大数目的服务器的机架、存储装置的机架以及其它机架构成,所有机架经由巨大的集中式包交换资源互连。在数据中心中,电包交换机用于路由这些数据中心中的所有数据包而不考虑包特性。
服务器的机架、存储装置的机架以及输入-输出函数的机架包含架顶(TOR)包交换机,所述交换机将来自其相关联的服务器和/或其它外设的包流组合成路由到电包交换核心交换机资源的每TOR交换机较小数目的极高速流。并且,TOR交换机接收来自所述资源的返回的经交换流且将其分布到所述交换机的机架内的服务器。可以存在从每个TOR交换机到核心交换资源的4×40Gb/s的流和相同数目的返回流。在数据中心中可以存在每机架一个TOR交换机、数百到数万机架、以及因此数百到数万TOR交换机。在数据中心能力上已经存在巨大的增长,从而导致巨大的电包交换结构。
发明内容
一种用于分流输入包流的实施例系统,其包含流量分路器,其用于将输入包流分路成第一包流和第二包流;以及耦合到流量分路器的光子交换结构,其中所述光子交换结构用于交换第一包流。所述系统还可以包含:耦合到流量分路器的电包交换结构,其中所述电包交换结构用于交换第二包流;以及耦合到光子交换结构且耦合到电包交换结构的流量合路器,其中所述流量合路器用于合并第一经交换包流和第二经交换包流以产生第一包级流。
用于分流输入包流的另一实施例系统包含流量分路器,其用于将输入包流分路成第一包流和第二包流,其中第一包流的包具有大于或等于第一包大小的第一包长度阈值,且其中第二包流的包具有小于第一包大小的第二包长度阈值。所述系统还可以包含:耦合到流量分路器的光子交换结构,其中所述光子交换结构用于交换第一包流;以及耦合到流量分路器的电包交换结构,其中所述电包交换结构用于交换第二包流。
一种分流输入包流的实施例方法包含将输入包流分路成第一包流和第二包流,且与光子交换结构交换第一包流。所述方法还可以包含与电包交换结构交换第二包流,且组合经交换第一包流和经交换第二包流。
分流输入包流的另一实施例方法包含将输入包流分路成第一包流和第二包流,其中第一包流的包具有小于第一包大小阈值的第一包长度,且其中第二包流的包具有大于或等于第一包大小阈值的第二包长度。所述方法还可以包含将第一包流引导到电包交换结构。另外,所述方法可以进一步包含将第二包流绕过电包交换结构以将其转移到光子交换结构。
一种用于通过分流输入包流来交换包流的包的实施例系统,其包含:流量分路器,其用于将输入包流分路成第一包流和第二包流;以及耦合到流量分路器的光子交换结构,其中所述光子交换结构用于交换第一包流。所述系统还可以包含:电包交换结构,其具有比通过耦合到流量分路器的实施例系统交换的包的总容量更小的容量,其中所述电包交换结构用于交换第二包流;以及耦合到光子交换结构且耦合到电包交换结构的流量合路器,其中所述流量合路器用于合并第一经交换包流和第二经交换包流以产生第一包级流。
一种用于提高包交换节点的流量承载容量的实施例系统包含多个包流分路器,其用于根据多个第一包流的包的长度与第一阈值之间的比较将多个第一输入包流分路成多个第二包流和多个第三包流,其中所述多个第二包流的包具有大于第一阈值的长度且所述多个第三包流的包具有小于或等于第一阈值的长度。所述系统还包含:光子交换机,其用于交换多个第二包流以产生多个第四包流;以及电包交换机,其具有小于电包交换机和光子交换机的第二容量的第一容量,其中所述电包交换机用于交换多个第三包流以产生多个第五包流。另外,所述系统包含多个包流合路器,其用于合并多个第四包流和多个第五包流以产生多个第六包流。
前文已相当广泛地概述了本发明的实施例的特征,以便可以更好地理解接下来的本发明的具体实施方式。下文中将描述本发明的实施例的另外的特征和优点,所述特征和优点形成本发明的权利要求书的主题。所属领域的技术人员应了解,所公开的概念及具体实施例可以容易地用作修改或设计用于实现本发明的相同目的的其它结构或过程的基础。所属领域的技术人员还应意识到,此类等效构造不脱离如在所附权利要求书中所阐述的本发明的精神和范围。
附图说明
为了更完整地理解本发明及其优点,现在参考下文结合附图进行的描述,其中:
图1图示实施例数据中心;
图2图示针对实例数据中心,包大小对小于所述大小的包的累计密度函数的曲线图;
图3图示针对实例数据中心,包大小对在小于所述包大小的包中的流量包带宽的百分比的曲线图;
图4图示另一实施例数据中心;
图5图示用于包流路由的实施例系统;
图6图示用于包流路由的实施例系统;
图7图示光子交换机的实施例阵列;
图8图示实施例光子交换机;以及
图9图示包流路由的实施例方法的流程图。
除非另有指示,否则不同图中的对应标号和符号通常指代对应部分。绘制各图是为了清楚地说明实施例的相关方面,因此未必是按比例绘制的。
具体实施方式
首先应理解,尽管下文提供一项或多项实施例的说明性实施方案,但所公开的系统和方法可使用任何数目的技术来实施,无论该技术是当前已知还是现有的。本发明决不应限于下文所说明的说明性实施方案、附图和技术,包括本文所说明并描述的示例性设计和实施方案,而是可在所附权利要求书的范围以及其等效物的完整范围内修改。对数据吞吐量和系统和/或设备容量、设备的数目等的参考纯粹是说明性的,且决不意图限制本文中所要求的实施例的可扩展性或能力。
图1图示数据中心230。数据中心230包含中央处理单元232,所述中央处理单元向中心包交换机234提供非实时控制和管理。中心包交换机234可以包含一或多个并行的较大电包交换机,例如电包结构236。中心包交换机234的吞吐量可以是约5百万兆字节每秒。耦合到中心包交换机234的是服务器240、存储单元242、以及I/O接口244。服务器240的机架、存储单元242的机架、以及I/O接口244的机架各自包含TOR交换机245。流量分路器246经由多个并行链路以40千兆比特每秒将流量从机架和TOR交换机分路到中心包交换机234,所述多个并行链路例如为4个。流量合路器248从来自中心包交换机234的多个并行链路组合流量。并且,流量监视器250监视流量且向中央处理单元232提供信息。在一实例中,流量分路器246和流量合路器248与TOR的其余部分分离。替代地,为实施的方便起见,流量分路器246和流量合路器248嵌入到TOR交换机245中。
例如兆兆字节的10次方或100次方每秒、或在未来数千兆字节每秒的数据带宽等大量数据经过大数据中心正变得合乎需要。电交换机由于其电交换矩阵的容量的局限性而在吞吐量容量上受限,且由于在去除这些结构在较小物理卷中产生的大量废热过程中的困难而在热量上受约束。并且,电交换机消耗大量的功率且可能具有较大的物理大小。
数据中心容量的巨大增长正将电包交换机驱动至其容量的极限。然而,用在从约50字节每包直至或者1,500或者9,000字节每包的所有包的全部大小范围上可操作的光子函数替换电包交换机的所有函数,包含所有流量控制等,是有问题的。
图2图示针对在数据中心230等数据中心中所测量的所观察包的大小,小于包大小的包的累计密度函数(CDF)对以字节为单位的包大小的曲线图200。关于包大小分布的其它公开信息与曲线图200中图示出的数据高度相关。曲线图200中图示出的最大包大小是1500字节。一些数据中心使用更大的包,例如具有类似双峰大小分布的9,000字节的“巨型包”。在集中的小包和集中的大包内存在双峰分布。在曲线图200中,45%的包具有少于500字节的字节,5%的包具有在500字节与1400字节之间的字节,且50%的包具有超过1400字节的字节。许多短包极其地短,且由确认包、消息、控制、请求、以及剩余的数据构成。对于500字节的包大小,存在0.42的CDF,且对于1000字节的包大小,存在0.48的CDF。因此,仅6%的包在500字节与1000字节之间。实际上,35%的包小于200字节,50%的包大于1400字节,且仅15%的包在200与1400字节之间,所述在200与1400字节之间是包大小范围的80%。
图3图示曲线图210,所述曲线图通过绘制小于包大小的流量包的百分比的流量带宽的百分比对包大小而从曲线图200导出。因为较大的流量包每包包含更多的流量,所以尽管存在相当大数目的小包,但大部分流量由大包构成。曲线图210具有与曲线图200相同的包分布。在曲线图210中,1.04%的流量来自50字节或更短的包,2.99%的流量来自220字节或更短的包,4.49%的流量来自360字节或更短的包,7.28%的流量来自760字节或更短的包,14.40%的流量来自1380字节或更短的包,20.20%的流量来自1460字节或更短的包,74.05%的流量来自1480字节或更短的包,且100.00%的流量来自1500字节或更短的包。
尽管短包与长包之间的大小阈值通常可以在500字节与1400字节之间,但是可以使用更高和更低的大小阈值。例如,如果巨型包以多达9,000字节的包大小来使用,那么大小阈值可以在500到8400的范围内。此大小阈值可以是静态的,或它可以是动态的,通过反馈回路基于举例来说来自通过统计数据收集模块144收集的数据的实时流量测量值来控制。对于其中界限是800字节的实例,电包交换结构交换约8%的带宽,而光子交换结构交换约92%的带宽。如果将大小阈值设定在1380字节处,那么将14.4%的带宽路由到电包交换结构,而将85.6%的包带宽路由到光子交换结构,且与具有仅电交换结构的系统相比在吞吐量上存在6.94=(85.6+14.4)/14.4的增益。并且,如果将大小阈值设定在360字节每包处,那么电包交换结构处理4.49%的包带宽且光子交换机处理95.51%的带宽,其中在带宽上的增益为22.27=(95.51+4.49)/4.49。在一实例中,80%到95%的包带宽通过光子交换结构交换,所述光子交换结构与流动通过电包交换机的剩余短包流一起将总的包交换节点的容量增加了约五到二十倍。如果85%的带宽经过光子交换结构,那么在总的交换节点容量上存在六倍的增加。如果95%的带宽经过光子交换机,那么存在二十倍的增益。在一实例中,短包的包大小比长包的包大小变化得更多,因为大多数长包为最大包大小或接近最大包大小。为了能够实现此益处,有必要能够基于在每个流的每个流动中的包的包长度将包流分路成两个流,且随后在交换之后能够将所述包流在新包流中重建成完整的包级流。
在另一个实例中,使用巨型包。巨型包是长于近似1500字节的标准长度的包。例如,巨型帧可以在1500字节与9000字节之间,但它们也可以更大。在此情况下,包大小阈值可以设定成高得多,例如从约7500到约8500,但也可能更高。
电包交换机遭受严重的带宽拥塞。将承载大部分带宽的长包转移到光子包交换机中使得电包交换机仅处理短包,所述短包根据用于分路包的包大小阈值表示在正常数据中心中的总带宽的5%与20%之间带宽。这将电包交换机的带宽吞吐量卸载了80%到95%,从而改善其带宽问题。并且,光子包交换机被简化,因为它们正在交换的所有包大致长度相同,或可以经填补变成相同的长度而不会遭受太多效率损失,从而允许在缓冲区点之间更简单的单级(或有效的单级)交换,所述单级交换可以保留在电子域中。因此,光子包交换机变成经电缓冲的快速光子电路交换结构或光子突发交换结构。由于分派给电包交换机以进行交换的所需带宽的急剧减少,卸载电包交换机提供了所述交换机上的备用容量的大量增加。所述容量可以经分配以交换大小阈值以下的包的包流的其它源,而含有在大小阈值以上的包的包流在经电子缓冲的光子包交换层中进行交换。
图4图示数据中心260。类似于数据中心230,数据中心260包含服务器240、存储单元242、I/O接口244、流量监视器250、TOR交换机245和中央处理控制232。然而,数据中心260包含中心包交换机264,所述中心包交换机包含电包交换结构266和光子交换结构270。电包交换结构266包含集中式或分布式处理函数,且光子交换结构270包含集中式或分布式处理函数。这些集中式或分布式处理函数提供通过交换结构的包流的实时逐包路由。中心包交换机264可以包含一或多个并行的电包交换机和一或多个并行的光子包交换机。在一个实例中,电包结构266交换10%的流量带宽,或约5百万兆字节每秒、但远超过10%的包,因为其所有包都较小,而光子交换结构270交换90%的流量带宽,或45百万兆字节每秒、但远少于90%的包,因为其所有包都较大。在此实例中,通过应用光子交换机与包流分路器和合路器,总节点容量已经从5TB/s增加到50TB/s。
TOR交换机245耦合到经增强流量分路器280和经增强流量合路器282。将通向和来自TOR交换机245的多个链路连接到中心包交换机264。在一实例中,按长度分离包,其中长包去往光子交换机且短包去往电交换机。一般来讲,如果电交换结构的带宽处理容量是限制因素且如果90%的流量带宽被路由到光子交换机,那么在总交换节点的带宽容量上存在十倍的增加。经增强流量分路器280经由若干链路将出局话务映射到中心包交换机264,且按长度分离所述包,因此使短包流动到电包交换结构266且使长包流动到光子交换结构270。在短包与长包之间的大小阈值越低,性能的改进就越大,因为更多的流量被路由到光子交换结构270而非电包交换结构266。然而,对于较低的大小阈值,光子交换结构270必须能够更快地建立连接,因为光子交换结构处理包含更短的包的更宽范围的包大小,且缓慢的建立时间将减少交换吞吐量。
经增强流量合路器282使短接收包和长接收包交错以恢复包序列完整性。因为长包和短包将已经在不同路径上行进通过具有不同缓冲策略的不同交换机,且将具有不同的时延,所以它们可能不按时间顺序到达。经增强流量合路器282以正确的次序放置包,例如使用包序列号或时间戳。
在一实例中,存在2500个架顶交换机以及10,000个连接。如果例如每个架顶交换机都具有400Gb/s或50GByte/s的容量,那么核心交换机资源具有1Pb/s或125TBytes/秒的交换容量。在一实例中,大于阈值的950Tb/s或118.75PBytes/s的包流经光子交换结构270,而小于阈值的50Tb/s或6.25TBytes/s的包流经电包交换结构266。950:50的值与约400字节的包分路阈值相对应。
图5图示用于包流路由的系统100。一些包路由通过电包交换机,而其它包路由通过光子交换机。例如,短包可以通过电包交换机交换,而长包通过光子交换机交换。通过交换长包,光子包交换速度相对宽松,因为包持续时间较长。在一实例中,长包可以具有可变长度,且光子交换机使用异步交换。替代地,通过将长包填补到固定长度,例如1500字节,可以将长包作为固定长度的包来传输。这比异步方法仅略微低效,因为大部分长包或者在固定最大长度处或者非常接近最大长度。随后,光子交换机可以使用异步交换,但也可以替代地通过使用快速设置光子电路交换机或突发交换机来使用同步交换。
分路器106可以容纳在TOR交换机104中、容纳在机架102中。替代地,分路器106可以是单独的单元。可以存在数千机架和TOR交换机。分路器106包含:流量分路器108,所述流量分路器将包流分路成两个流量流;以及流量监视器110,所述流量监视器监视流量。分路器106可以基于包在包流的每个包级流内的排序向所述包添加标识,以便于维持在每个包级流中的包的排序,所述包在重组时可能采取不同的路径。替代地,每个包级流内的包在到达分路器106之前可以经编号或以另外方式个别地标识,例如使用包序列号或传输控制协议(TCP)时间戳。一个包流被路由到光子交换结构112,而另一个包流被路由到电包交换结构116。在一实例中,长包被路由到光子交换结构112,而短包被路由到电包交换结构116。光子交换结构112可以具有约二到二十纳秒的设置时间。比长包的包持续时间(在100Gb/s处的1500字节是120ns)快得多的所述设置时间并不严重地影响交换效率。然而,以此交换设置时间交换短包将是有问题的。举例来说,在100Gb/s处的50字节控制包具有约4ns的持续时间,所述持续时间小于中等光子交换机设置时间。光子交换结构112可以包含固态光子交换机的阵列,所述阵列可以组装成结构架构,例如Baxter-Banyan、Benes或CLOS。
并且,光子交换结构112包含处理单元114,且电包交换结构116包含集中式或分布式处理函数。所述处理函数基于信令/路由信息通过所述结构提供逐包路由,所述逐包路由或者作为共路信令路径或者作为标准包头部或封套被承载。
将光子交换结构112和电包交换结构116的输出经交换包路由到流量合路器122。流量合路器122组合所述包流同时维持包的原始序列,例如基于时间戳或在每个包级流中的包的序列号。流量监视器124监视流量。中央处理和控制单元130监视且利用流量监视器110的和流量监视器124的输出。并且,中央处理和控制单元130监视且提供对光子交换结构112和电包交换结构116的控制,且提供对光子交换结构112的非实时控制。另外,中央处理和控制单元130是取决于光子交换机和电包交换结构116的设计、响应于来自包流或来自长度特性模块142的包连接指令的快速实时控制系统。流量合路器122和流量监视器124在合路器120中,所述合路器可以存在于TOR交换机128中,在数千个机架126中每机架通常存在一个TOR交换机。替代地,合路器120可以是独立的单元。图6图示用于路由包流的系统140。系统140类似于系统100,但系统140提供分路器106和合路器120的更多细节。初始地,将包流馈送到在包颗粒流转向器146中的缓冲区148,所述包颗粒流转向器基于包长度等所测量的或检测到的包属性将个别的包转移到一个路径或另一个路径中,同时读取包地址和长度特性模块142确定包地址和包的长度。包地址和长度被馈送到统计数据收集模块144,所述统计数据收集模块收集统计数据以发送到控制单元130。控制单元130收集关于包长度的混合的统计数据以用于非实时使用,例如包大小阈值的动态优化,以及交换机控制处理器和连接请求处理器154,其处理在包颗粒流转向器146内的实时逐包过程。在缓冲区148中经缓冲的包流随后在交换机控制处理器和连接请求处理器154的控制下经过包颗粒流转向器146,所述包颗粒流转向器包含缓冲区148、交换机150、缓冲和延迟装置152、交换机控制处理器和连接请求处理器154、缓冲区156、以及统计复用器158。包颗粒流转向器146可以任选地包含加速器147,所述加速器在时间上加速包且增加包流的包间隙。
缓冲区148在包地址和长度被读取时存储包。缓冲区148可以包含缓冲区的阵列,使得可以缓冲具有不同目的地址的包(即不同包级流),直到适当的交换结构输出端口具有可用于所述包的容量而不会使具有其中可获得输出端口容量的其它目的地址的在其它包级流中的包延迟。并且,包地址和长度特性被馈送到读取包地址和长度特性模块142且被馈送到交换机控制处理器和连接请求处理器154。将交换机控制处理器和连接请求处理器154的输出馈送到交换机150以基于包长度是超出还是不超出包大小阈值来操作所述交换机。另外,将包传送到通过来自交换机控制处理器和连接请求处理器154的输出设定的交换机150,因此所述包将被路由到光子交换结构112或路由到电包交换结构116。例如,所述路由是基于交换机控制处理器和连接请求处理器154基于包的长度是超出还是不超出经设定包长度或另一阈值的判定。交换机150可以是简单的交换机。如果将包路由到光子交换结构112,那么所述包被传递到缓冲和延迟装置152,且随后被传递到光子交换结构112。由于缺乏光子缓冲或存储,缓冲和延迟装置152存储包,直到光子交换结构112的适当的目的端口变得可用。缓冲和延迟装置152可以包含缓冲区的阵列以为去往较忙的特定地址或输出端口的包提供缓冲和延迟,而不使来自光子交换机的其它输出端口的流量延迟。
然而,如果将包路由到电包交换结构116,那么包去往缓冲区156、统计复用器158以及统计分用器160,随后去往电包交换结构116。可以包含缓冲区的阵列的缓冲区156存储包直到所述包被发送到电包交换结构116。来自多个包流的包可以通过统计复用器158以统计方式多路复用,因此可以更加充分地利用电包交换结构116的端口。可以执行统计复用以将短包流集中到合理的占用率,因此现有电包交换机端口适当地填满包。例如,如果针对用于光子交换结构和电包交换结构的带宽中的8:1的比值设置包长度中的分割,那么到电包交换结构的链路可以使用8:1统计复用来实现相对填满的链路。此统计复用在短包路径中引入另外的延迟,所述延迟可能触发在组合过程期间不正确的包排序。随后,统计分用器160执行统计分用以用于将低占用率数据流分到一系列并行的数据缓冲区中。
光子交换结构112包含控制单元114。光子交换结构112可以是产生自一系列若干级固态光子交换机的多级固态光子交换结构。在一实例中,光子交换结构112是适合于用作同步长包交换机的2ns到20ns的光子快速电路交换机,所述同步长包交换机实施为采用硅或磷化铟的N×N和M×2M单片集成光子交叉点芯片制造的如图5中示出的3级CLOS结构、或5级CLOS结构,其中N是可以在约8到约32范围内的整数,且M是可以在约8到约16范围内的整数。电包交换结构116可以是现有电包结构。
电包交换结构116可以使用统计分用器160接收包且使用统计复用器164以统计方式多路复用已经交换的包。所述包随后通过合路器120中的统计分用器174进行分用。电包交换结构116可以包含以对于电包交换机和缓冲区162而言任何常规的方式的响应于包路由信息的处理函数,所述缓冲区可以包含缓冲区的阵列。电包交换结构116应该能够处理与仅处理短包相关联的包处理,所述处理仅短包可能对处理函数产生一些另外的约束和需求。因为流动通过光子交换结构112的带宽大于流动通过电包交换结构116的带宽,所以通向和来自光子交换结构112的链路的数目可以大于通向和来自电包交换结构116的链路的数目。
将来自光子交换结构112和电包交换结构116的经交换包馈送到合路器120,所述合路器组合两个经交换包流。合路器120包含包颗粒合路器和定序器166。将光子包流馈送到缓冲区172以进行存储,同时通过包地址和序列读取器168读取地址和序列,所述包地址和序列读取器确定光子包的源和目的地址以及序列号。还将电包流馈送到统计分用器174以便以统计方式对所述包流进行分用且馈送到缓冲区176以进行存储,同时通过包地址和序列读取器168确定所述包流的特性。随后,包地址和序列读取器168基于交错来自两个路径的包以恢复在每个包级流中的包的连续序列编号而确定从缓冲区172和缓冲区176读取包的顺序,因此以正确的顺序读出两个流的包。接着,包排序控制单元170以所述包的初始顺序释放在每个流中的包。当通过包序列控制单元170释放包时,使用交换机178来组合所述包,所述交换机可以是简单的交换机。分路器106可以整合在TOR交换机104中,且合路器120可以在TOR交换机128中实施。并且,包颗粒合路器和定序器166可以任选地包含减速器167,所述减速器使包流在时间上减速,从而减小包间隙。例如,减速器167可以将包间隙减小到在加速器147之前的初始包间隙。在2013年5月24日提交的发明名称为“用于使包加速和减速的系统和方法(SystemandMethodforAcceleratingandDeceleratingPackets)”的第81085727US01号专利申请案中进一步论述了加速和减速,所述申请案以引入的方式并入本文本中。
图7图示由16×16快速光子集成电路交换机芯片制造的实例三级CLOS交换机180。例如,CLOS交换机180具有从约2ns到约20ns的设置时间。CLOS交换机180包含馈送到输入级结构184的输入182,所述输入级结构是X×Y交换机。连接186的连接模式连接输入级结构184和中心级结构188,所述中心级结构是Z×Z交换机。X、Y以及Z是正整数。并且,连接190的连接模式连接中心级结构188和为Y×X交换机的输出级结构192,以将每级中的每个结构同样地连接到交换机的下一级中的每个结构。输出级结构192产生输出194。虽然描绘了四个输入级结构184、中心级结构188和输出级结构192,但可以使用更少或更多的级(例如5级CLOS)或每级更少或更多的结构。在一实例中,存在相同数目的输入级结构184和输出级结构192与不同数目的中心级结构188,且Z等于输入级的数目除以中心级的数目的Y倍。CLOS交换机180的有效端口数等于输入级结构的数目乘以X×输出级结构的数目乘以X。在一实例中,X等于2X-1,且CLOS交换机180是非阻塞的。在另一个实例中,X等于Y,且CLOS交换机180是条件性地非阻塞的,且现有电路可能必须经布置以清除一些新路径。非阻塞交换机是以任何组合将N个输入连接到N个输出的交换机,而不管其它输入或输出上的流量配置。以用于较大结构的5级可以产生类似的结构,其中两个输入级串联且两个输出级串联。
图8图示在N=8的情况下的固态光子交换机290。交换机290可以用于在输入级结构184、中心级结构188以及输出级结构192中的结构。交换机290可以是非阻塞磷化铟或硅制固态单片或混合交换机交叉点阵列。交换机290包含输入292和输出298。交换机290包含八个输入292和八个输出298,但它也可以包含更多或更少的输入和输出。并且,交换机290包含有源垂直耦合器(AVC)294和无源波导296。AVC294通过以在其中输入线和输出线彼此交叉的交叉点处的垂直耦合组合半导体光学放大器(SOA)来产生。当将电流驱动到SOA中时,所述SOA变成透明的,且显示增益,因此通过垂直耦合器耦合到SOA中的在输入线上的信号被放大,且当通过第二垂直耦合器耦合时发射到输出线中。当没有电流被驱动到SOA中时,所述SOA保持不透明且没有光学增益,且光保持在输入波导中,传播到下一交叉点。
图9图示用于路由包的方法的流程图220。初始地,在步骤222中,将输入包流分路成两个包流。将两个包流中的一者路由到光子交换结构,其中所述包流在步骤224中被交换。将另一个包流路由到电包交换结构,其中所述包流在步骤226中被交换。在一实例中,长包路由到光子交换结构,且短包路由到电交换结构。最后,在步骤228中组合两个经交换包流且对其进行排序。例如,来自光子包流和电包流的包许多基于序列号进行组合。在一实例中,长包路由到光子交换结构,且短包路由到电包交换结构。
虽然本发明中已提供若干实施例,但应理解,在不脱离本发明的精神或范围的情况下,本发明所公开的系统和方法可以以许多其他特定形式来体现。本发明的实例应被视为说明性而非限制性的,且本发明并不限于本文本所给出的细节。例如,各种元件或部件可以在另一系统中组合或合并,或者某些特征可以省略或不实施。
此外,在不脱离本发明的范围的情况下,各种实施例中描述和说明为离散或单独的技术、系统、子系统和方法可以与其它系统、模块、技术或方法进行组合或合并。展示或论述为彼此耦合或直接耦合或通信的其它项也可以采用电方式、机械方式或其它方式通过某一接口、设备或中间部件间接地耦合或通信。其他变化、替代和改变的示例可以由本领域的技术人员在不脱离本文精神和所公开的范围的情况下确定。

Claims (34)

1.一种用于分流输入包流的系统,其特征在于,所述系统包括:
流量分路器,其用于将所述输入包流分路成第一包流和第二包流;
耦合到所述流量分路器的光子交换结构,其中所述光子交换结构用于交换所述第一包流;
耦合到所述流量分路器的电包交换结构,其中所述电包交换结构用于交换所述第二包流;以及
耦合到所述光子交换结构且耦合到所述电包交换结构的流量合路器,其中所述流量合路器用于合并所述第一经交换包流和所述第二经交换包流以产生第一包级流。
2.根据权利要求1所述的系统,其特征在于,所述流量分路器进一步用于检测所述输入包流的第一包的特性。
3.根据权利要求1所述的系统,其特征在于,所述第一包级流具有与所述输入包流的第二包级流相同的排序。
4.根据权利要求1所述的系统,其特征在于,进一步包括耦合到所述流量分路器的第一流量监视器。
5.根据权利要求4所述的系统,其特征在于,进一步包括耦合到所述第一流量监视器且耦合到所述流量分路器的中央处理单元。
6.根据权利要求5所述的系统,其特征在于,进一步包括耦合到所述流量合路器且耦合到所述中央处理单元的第二流量监视器。
7.根据权利要求1所述的系统,其特征在于,所述流量分路器是第一架顶(TOR)交换机。
8.根据权利要求1所述的系统,其特征在于,所述流量合路器是第二架顶(TOR)交换机。
9.根据权利要求1所述的系统,其特征在于,所述流量合路器包括:
包序列控制器;以及
耦合到所述包序列控制器的交换机。
10.根据权利要求9所述的系统,其特征在于,所述流量合路器进一步包括耦合到所述包序列控制器的包序列读取器。
11.根据权利要求9所述的系统,其特征在于,所述流量合路器进一步包括:
第一缓冲区,其耦合到所述包序列控制器、耦合到所述交换机、且耦合到所述光子交换结构;以及
第二缓冲区,其耦合到所述包序列控制器、耦合到所述交换机、且耦合到所述电包交换结构。
12.根据权利要求11所述的系统,其特征在于,进一步包括耦合到所述第二缓冲区且耦合到所述电包交换结构的统计复用器。
13.一种用于分流输入包流的系统,其特征在于,所述系统包括:
流量分路器,其用于将所述输入包流分路成第一包流和第二包流,其中所述第一包流的包具有大于或等于第一包大小阈值的第一包长度,并且其中所述第二包流的包具有小于所述第一包大小阈值的第二包长度;
耦合到所述流量分路器的光子交换结构,其中所述光子交换结构用于交换所述第一包流;以及
耦合到所述流量分路器的电包交换结构,其中所述电包交换结构用于交换所述第二包流。
14.根据权利要求13所述的系统,其特征在于,所述流量分路器包括包颗粒流转向器。
15.根据权利要求14所述的系统,其特征在于,所述流量分路器进一步包括耦合到所述包颗粒流转向器的包长度模块。
16.根据权利要求15所述的系统,其特征在于,所述流量分路器进一步包括耦合到所述包长度模块的统计数据收集模块。
17.根据权利要求14所述的系统,其特征在于,所述包级流转向器包括:
交换机;以及
耦合到所述交换机的交换机控制处理器。
18.根据权利要求17所述的系统,其特征在于,所述包颗粒流转向器进一步包括:
耦合到所述交换机且耦合到所述光子交换结构的第一缓冲区,其中所述第一缓冲区用于缓冲所述第一包流;以及
耦合到所述交换机且耦合到所述电包交换结构的第二缓冲区,其中所述第二缓冲区用于缓冲所述第二包流。
19.根据权利要求13所述的系统,其特征在于,所述第一包大小在500字节与1400字节之间。
20.根据权利要求13所述的系统,其特征在于,所述第一包大小在500字节与8400字节之间。
21.根据权利要求13所述的系统,其特征在于,通过将所述第一包流的包从所述电包交换结构转移到所述光子交换结构来卸载所述电包交换结构。
22.根据权利要求13所述的系统,其特征在于,所述输入包流的包具有双峰分布。
23.一种分流输入包流的方法,其特征在于,所述方法包括:
将所述输入包流分路成第一包流和第二包流;
与光子交换结构交换所述第一包流;
与电包交换结构交换所述第二包流;以及
组合所述经交换第一包流和所述经交换第二包流。
24.一种分流输入包流的方法,其特征在于,所述方法包括:
将所述输入包流分路成第一包流和第二包流,其中所述第一包流的包具有小于第一包大小阈值的第一包长度,并且其中所述第二包流的包具有大于或等于所述第一包大小阈值的第二包长度;
将所述第一包流引导到电包交换结构;以及
将所述第二包流绕过电包交换结构以将其转移到光子交换结构。
25.根据权利要求24所述的方法,其特征在于,进一步包括:
与所述光子交换结构交换所述第二包流;
通过所述电包交换结构交换所述第一包流;以及
组合所述经交换第一包流和所述经交换第二包流。
26.如权利要求25所述的方法,其特征在于,组合所述经交换第一包流和所述经交换第二包流包括重排所述经交换第一包流和所述经交换第二包流。
27.根据权利要求24所述的方法,其特征在于,进一步包括监视所述分路所述输入包流。
28.根据权利要求24所述的方法,其特征在于,进一步包括:
确定所述输入包流的包的地址;以及
确定所述输入包流的包的长度。
29.一种用于提高包交换节点的流量承载容量的系统,其特征在于,所述系统包括:
多个包流分路器,其用于根据多个第一包流的包的长度与第一阈值之间的比较将所述多个第一输入包流分路成多个第二包流和多个第三包流,其中所述多个第二包流的包具有大于所述第一阈值的长度且所述多个第三包流的包具有小于或等于所述第一阈值的长度;
光子交换机,其用于交换所述多个第二包流以产生多个第四包流;
电包交换机,其具有小于所述电包交换机和所述光子交换机的第二容量的第一容量,其中所述电包交换机用于交换所述多个第三包流以产生多个第五包流;以及
多个包流合路器,其用于合并所述多个第四包流和所述多个第五包流以产生多个第六包流。
30.根据权利要求29所述的系统,其特征在于,所述多个第六包流具有与所述多个第一包流相同的排序。
31.根据权利要求29所述的系统,其特征在于,所述多个包流分路器包括:
多个包序列控制器;以及
耦合到所述多个包序列控制器的多个交换机。
32.根据权利要求29所述的系统,其特征在于,所述多个包流分路器包括多个包颗粒流转向器。
33.根据权利要求29所述的系统,其特征在于,所述第一阈值在500字节与8400字节之间。
34.根据权利要求33所述的系统,其特征在于,所述第一阈值在500字节与1400字节之间。
CN201480008571.8A 2013-03-15 2014-03-13 用于分流包流的系统和方法 Pending CN105164954A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361787847P 2013-03-15 2013-03-15
US61/787,847 2013-03-15
US13/902,008 2013-05-24
US13/902,008 US10015111B2 (en) 2013-03-15 2013-05-24 System and method for steering packet streams
PCT/CN2014/073332 WO2014139438A1 (en) 2013-03-15 2014-03-13 System and method for steering packet streams

Publications (1)

Publication Number Publication Date
CN105164954A true CN105164954A (zh) 2015-12-16

Family

ID=51526656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480008571.8A Pending CN105164954A (zh) 2013-03-15 2014-03-13 用于分流包流的系统和方法

Country Status (4)

Country Link
US (1) US10015111B2 (zh)
EP (1) EP2962417B1 (zh)
CN (1) CN105164954A (zh)
WO (1) WO2014139438A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9628878B2 (en) * 2012-12-11 2017-04-18 Huawei Technologies Co., Ltd. System and method for multi-wavelength encoding
CN104104616B (zh) 2013-04-03 2019-04-19 华为技术有限公司 数据调度和交换的方法、装置及系统
US9491120B2 (en) 2013-05-01 2016-11-08 Huawei Technologies Co., Ltd. Method for crosstalk and power optimization in silicon photonic based switch matrices
US9456260B2 (en) * 2013-05-01 2016-09-27 Huawei Technologies Co., Ltd. Method for crosstalk and power optimization in silicon photonic based switch matrices
WO2014183126A1 (en) * 2013-05-10 2014-11-13 Huawei Technologies Co., Ltd. System and method for photonic switching
US9432748B2 (en) 2013-05-10 2016-08-30 Huawei Technologies Co., Ltd. System and method for photonic switching
US9654853B2 (en) 2013-05-10 2017-05-16 Huawei Technologies Co., Ltd. System and method for photonic switching
US9584885B2 (en) 2013-05-10 2017-02-28 Huawei Technologies Co., Ltd. System and method for photonic switching
US9282384B1 (en) 2014-10-07 2016-03-08 Huawei Technologies Co., Ltd. System and method for commutation in photonic switching
WO2016069017A1 (en) * 2014-10-31 2016-05-06 Huawei Technologies Co., Ltd. Photonic switch matrices crosstalk and power optimization
US10009668B2 (en) * 2014-12-01 2018-06-26 The Royal Institution For The Advancement Of Learning / Mcgill University Methods and systems for board level photonic bridges
US9860614B2 (en) * 2015-05-13 2018-01-02 Huawei Technologies Co., Ltd. System and method for hybrid photonic electronic switching
US9860615B2 (en) * 2015-05-14 2018-01-02 Huawei Technologies Co., Ltd. System and method for photonic switching
US9654849B2 (en) * 2015-05-15 2017-05-16 Huawei Technologies Co., Ltd. System and method for photonic switching
US10291682B1 (en) * 2016-09-22 2019-05-14 Juniper Networks, Inc. Efficient transmission control protocol (TCP) reassembly for HTTP/2 streams
US10686729B2 (en) 2017-03-29 2020-06-16 Fungible, Inc. Non-blocking any-to-any data center network with packet spraying over multiple alternate data paths
CN110710172A (zh) * 2017-03-29 2020-01-17 芬基波尔有限责任公司 在接入节点组内多路复用分组喷射的无阻塞的任意到任意数据中心网络
US10425707B2 (en) 2017-03-29 2019-09-24 Fungible, Inc. Non-blocking, full-mesh data center network having optical permutors
CN110741356B (zh) 2017-04-10 2024-03-15 微软技术许可有限责任公司 多处理器系统中的中继一致存储器管理
WO2019014268A1 (en) 2017-07-10 2019-01-17 Fungible, Inc. DATA PROCESSING UNIT FOR FLOW PROCESSING
US11303472B2 (en) 2017-07-10 2022-04-12 Fungible, Inc. Data processing unit for compute nodes and storage nodes
CN111164938A (zh) 2017-09-29 2020-05-15 芬基波尔有限责任公司 使用选择性多路径分组流喷射的弹性网络通信
US11178262B2 (en) 2017-09-29 2021-11-16 Fungible, Inc. Fabric control protocol for data center networks with packet spraying over multiple alternate data paths
WO2019152063A1 (en) 2018-02-02 2019-08-08 Fungible, Inc. Efficient work unit processing in a multicore system
CN111163450A (zh) * 2019-12-26 2020-05-15 重庆物奇科技有限公司 一种用于无线通信系统的设备通信方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040158623A1 (en) * 2001-05-17 2004-08-12 Dan Avida Stream-oriented interconnect for networked computer storage
CN1618253A (zh) * 2002-01-30 2005-05-18 艾利森电讯公司 利用频率报头的光分组交换的装置、系统和方法
CN1842984A (zh) * 2003-07-04 2006-10-04 特伦诺有限公司 使用偏振来区别信息

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797879A (en) * 1987-06-05 1989-01-10 American Telephone And Telegraph Company At&T Bell Laboratories Packet switched interconnection protocols for a star configured optical lan
JP3192030B2 (ja) * 1993-06-08 2001-07-23 富士通株式会社 インターフェイス装置および通信システム
US5541914A (en) 1994-01-19 1996-07-30 Krishnamoorthy; Ashok V. Packet-switched self-routing multistage interconnection network having contention-free fanout, low-loss routing, and fanin buffering to efficiently realize arbitrarily low packet loss
US6542968B1 (en) * 1999-01-15 2003-04-01 Hewlett-Packard Company System and method for managing data in an I/O cache
KR100341394B1 (ko) 1999-12-03 2002-06-22 오길록 광 패킷 스위치의 광 패킷 헤더 처리장치
US6741562B1 (en) * 2000-12-15 2004-05-25 Tellabs San Jose, Inc. Apparatus and methods for managing packets in a broadband data stream
US7106967B2 (en) * 2001-09-04 2006-09-12 Doron Handelman Optical packet switching apparatus and methods
FR2834411B1 (fr) * 2002-01-03 2005-04-29 Cit Alcatel Procede et dispositif de gestion de paquets a multiplexage a repartition temporelle et repartition sur longueurs d'onde pour reseaux optiques
US7336902B1 (en) * 2002-06-06 2008-02-26 At&T Corp. Integrated electro-optic hybrid communication system
JP4201590B2 (ja) * 2002-12-24 2008-12-24 パナソニック株式会社 データ通信装置、データ通信方法、データ通信プログラム及びデータ通信プログラムを記録した記録媒体
US8554860B1 (en) * 2003-09-05 2013-10-08 Sprint Communications Company L.P. Traffic segmentation
US7968248B2 (en) 2007-01-31 2011-06-28 Junli Liu Liquid-liquid fuel cell systems having flow-through anodes and flow-by cathodes
WO2009104639A1 (ja) * 2008-02-20 2009-08-27 日本電気株式会社 映像配信装置、映像配信システム及び映像配信方法
DE602009000748D1 (de) * 2009-05-12 2011-03-31 Alcatel Lucent Verkehrslastabhängige Leistungsreduzierung in Hochgeschwindigkeits-Paketvermittlungssystemen
EP2458761B1 (en) 2010-11-29 2013-07-31 Alcatel Lucent Optical packet switching node
KR101670723B1 (ko) * 2011-01-04 2016-11-01 삼성전자주식회사 비디오 및 오디오 통신 시스템에서 가변 길이의 전송 패킷 지원 방법 및 장치
US8965203B1 (en) * 2012-01-09 2015-02-24 Google Inc. Flexible non-modular data center with reconfigurable extended-reach optical network fabric
US9098887B2 (en) * 2012-10-12 2015-08-04 Mediatek Inc. Image compression method and apparatus for encoding pixel data of frame into interleaved bit-stream, and related image decompression method and apparatus

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040158623A1 (en) * 2001-05-17 2004-08-12 Dan Avida Stream-oriented interconnect for networked computer storage
CN1618253A (zh) * 2002-01-30 2005-05-18 艾利森电讯公司 利用频率报头的光分组交换的装置、系统和方法
CN1842984A (zh) * 2003-07-04 2006-10-04 特伦诺有限公司 使用偏振来区别信息

Also Published As

Publication number Publication date
EP2962417A4 (en) 2016-03-16
EP2962417B1 (en) 2019-01-30
WO2014139438A1 (en) 2014-09-18
US20140269351A1 (en) 2014-09-18
EP2962417A1 (en) 2016-01-06
US10015111B2 (en) 2018-07-03

Similar Documents

Publication Publication Date Title
CN105164954A (zh) 用于分流包流的系统和方法
CN104838666B (zh) 用于使包加速和减速的系统和方法
EP3286860B1 (en) System and method for hybrid photonic electronic switching
WO2016019798A1 (en) System and method for photonic networks
US8254255B2 (en) Flow-control in a switch fabric
US9654849B2 (en) System and method for photonic switching
CN106797270A (zh) 光子交换中用于换向的系统和方法
WO2002030069A9 (en) High speed multi-stage stacked layers switch
US9185473B2 (en) Network node for an optical transport network
JPH09507996A (ja) 大容量モジュールatmスイッチ
Munter et al. A high-capacity ATM switch based on advanced electronic and optical technologies
CN107534506B (zh) 用于光子交换的系统和方法
EP3167622B1 (en) Optical switch architecture
CN105210316A (zh) 用于光子交换的系统和方法
TWI716279B (zh) 光隧道交換網路系統
Yu et al. Enhanced fat tree-an optical/electrical hybrid interconnection for data center
Yukimatsu et al. A photonic ATM backbone network
Farrington et al. Scaling Data Center Switches Using Commodity Silicon and Optics
CN1434310A (zh) 基于可调激光器的光包交换网络节点结构
Radziwilowicz et al. Design issues for edge nodes in agile all-photonic networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151216

RJ01 Rejection of invention patent application after publication