CN113261303A - 用于针对扩展数据中心云系统将光子交换透明嵌入到电子机箱的方法和装置 - Google Patents
用于针对扩展数据中心云系统将光子交换透明嵌入到电子机箱的方法和装置 Download PDFInfo
- Publication number
- CN113261303A CN113261303A CN202080007905.5A CN202080007905A CN113261303A CN 113261303 A CN113261303 A CN 113261303A CN 202080007905 A CN202080007905 A CN 202080007905A CN 113261303 A CN113261303 A CN 113261303A
- Authority
- CN
- China
- Prior art keywords
- photonic
- electronic switch
- switch
- card
- chassis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000000872 buffer Substances 0.000 claims abstract description 177
- 230000011664 signaling Effects 0.000 claims abstract description 54
- 230000015654 memory Effects 0.000 claims abstract description 17
- 230000005540 biological transmission Effects 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 2
- 239000000725 suspension Substances 0.000 claims 1
- 230000003287 optical effect Effects 0.000 description 23
- 230000003139 buffering effect Effects 0.000 description 17
- 239000000835 fiber Substances 0.000 description 11
- 239000004744 fabric Substances 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 239000013307 optical fiber Substances 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 229910052710 silicon Inorganic materials 0.000 description 6
- 239000010703 silicon Substances 0.000 description 6
- 238000009432 framing Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 201000003478 cholangiolocellular carcinoma Diseases 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 235000003642 hunger Nutrition 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000037351 starvation Effects 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005693 optoelectronics Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/50—Queue scheduling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/15—Interconnection of switching modules
- H04L49/1507—Distribute and route fabrics, e.g. sorting-routing or Batcher-Banyan
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/26—Flow control; Congestion control using explicit feedback to the source, e.g. choke packets
- H04L47/266—Stopping or restarting the source, e.g. X-on or X-off
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/30—Flow control; Congestion control in combination with information about buffer occupancy at either end or at transit nodes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/15—Interconnection of switching modules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/45—Arrangements for providing or supporting expansion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/50—Overload detection or protection within a single switching element
- H04L49/505—Corrective measures
- H04L49/506—Backpressure
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0005—Switch and router aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/10—Packet switching elements characterised by the switching fabric construction
- H04L49/109—Integrated on microchip, e.g. switch-on-chip
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0005—Switch and router aspects
- H04Q2011/0007—Construction
- H04Q2011/0033—Construction using time division switching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q11/00—Selecting arrangements for multiplex systems
- H04Q11/0001—Selecting arrangements for multiplex systems using optical switching
- H04Q11/0005—Switch and router aspects
- H04Q2011/0037—Operation
- H04Q2011/0039—Electrical control
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Optical Communication System (AREA)
Abstract
提供了用于在光子交换器和电子交换器之间传输光子信元或帧的方法和装置,以实现具有透明嵌入电子机箱的光子功能的可扩展数据中心云系统。在各种实施例中,光子接口功能可以透明地嵌入到现有的交换器芯片(或交换器卡)中,而无需改变线卡。嵌入的光子接口功能可以为交换器卡提供与现有线卡和光子交换器进行交互的能力。为了在不改变现有线路卡的情况下嵌入光子接口功能,实施例使用了具有暂停信令或暂停消息传送方案的两层缓冲来管理两层缓冲存储器。
Description
相关申请的交叉引用
本申请要求于2019年4月30日提交的申请号为62/840,988、名称为“用于针对扩展数据中心云系统将光子交换透明嵌入到电子机箱的方法和装置”的美国专利申请和于2019年11月18日提交的申请号为16/687,283、名称为“用于针对扩展数据中心云系统将光子交换透明嵌入到电子机箱的方法和装置”的美国专利申请的优先权权益,上述申请的全部内容通过引用并入本文。
技术领域
本发明关于通信领域,更具体地关于用于在光子交换器和电子交换器之间传输光子信元或光子帧的方法和装置,可以提供具有透明嵌入到电子机箱的光子功能的可扩展数据中心云系统。
背景技术
数据中心的数据量和数据传输的指数增长为研究和使用光子交换器提供了动力,光子交换器可以提供高交换容量、低能耗和小占用面积。然而,有几个因素阻碍了许多技术企业、电信设备制造商或网络服务提供商投资或规划光子交换器的部署。
一个阻碍因素是财务成本。通常,在数据中心使用光子交换器需要光子相关功能和光子交换网(photonic fabric)接口。光子相关功能和光子交换网接口需要新的线卡,因为现有的线卡不支持光子功能。而且,即使改变或改进现有的线卡,那些改进过的线卡也可能无法支持至少一部分与光子相关的功能。因此,需要为这种增强型数据中心网络部署可以与光子交换器接口和通信的新线卡。然而,用新线卡替换现有线卡被网络设备制造商和网络服务提供商视为投资损失,因为许多制造商和服务提供商已经拥有了几代的大量网络线卡。何况这些网络线路卡中的大多数还有许多年的预期寿命。
目前尚无光子交换器或光子交换器架构可以既提供高交换容量、低能耗和小占地面积,又不需要更换当前部署的网络线卡以实质上使这种网络线卡的投资最大化。
因此,需要一种用于针对可扩展数据中心云系统将光子交换透明嵌入到电子机箱的方法和装置,这种方法和装置不受现有技术的一个或多个限制,例如无需改变当前部署的网络线卡。
提供本背景信息是为了揭示申请人认为可能与本发明相关的信息。未必旨在承认也不应解释为前述任何信息构成与本发明相悖的现有技术。
发明内容
实施例的目的是提供用于在光子交换器和电子交换器之间传输光子信元、分组或帧的方法和装置,其可以为可扩展数据中心云系统提供具有透明地嵌入到电子机箱中的光子功能。根据实施例,提供了一种电子交换器卡,通信地与一个或多个光子交换器接口。所述电子交换器卡包括通信地连接到一个或多个线卡的信元交换器,其中该一个或多个线卡中的每一个线卡包括一个或多个主队列。该信元交换器可以被配置为在与线卡接口的一端执行信元或分组交换。该电子交换器卡还包括集成一个或多个光子功能的电子交换器芯片。该电子交换器芯片在第一端通信地耦合到该信元交换器,并且在第二端通信地耦合到一个或多个光子交换器。该电子交换器芯片可以被配置为既执行光子功能、又执行信元/分组交换功能,以便将光子信元或帧引导至连接到该光子交换器的被分配的接口。
在一些实施例中,该述电子交换器芯片包括一个或多个每目的地机箱缓冲区、一个或多个交换器缓冲区和电子交换器控制器,该电子交换器控制器被配置为向该一个或多个线卡发送控制信号。该电子交换器控制器还被配置为向光子控制器发送控制信号。该电子交换器控制器与该一个或多个每目的地机箱缓冲区和该一个或多个交换器缓冲区通信地连接。
在一些实施例中,该电子交换器控制器被配置为在确定该一个或多个每目的地机箱缓冲区和该一个或多个交换器缓冲区达到或超过阈值时,向该一个或多个线卡发送暂停信号。在一些实施例中,该电子交换器控制器还被配置为直接地或者通过机箱控制卡非直接地(例如,CCC控制卡)向光子交换器控制器发送控制信号。
根据实施例,提供了一种集群中央机箱(cluster central chassis,CCC)控制器,被配置为控制一个或多个光子交换器。该CCC控制器包括接口,用于从一个或多个电子交换器控制器接收数据(例如,控制数据)以及向该一个或多个电子交换器控制器发送数据(例如,控制数据)。该CCC控制器包括一个或多个处理器和用于存储指令的机器可读存储器。当该指令被该一个或多个处理器执行时,使得该CCC控制器被配置为接收包括暂停信令率和缓冲区深度中的一个或多个的缓冲区报告。该暂停信令率指示暂停信号发送频率,该缓冲区深度指示针对目的地指定的一个或多个每目的地机箱缓冲区中的空间可用性。当该指令被该一个或多个处理器执行时还使该CCC控制器被配置为至少部分地基于该缓冲器报告,为该一个或多个每目的地机箱缓冲区分配一个或多个带宽和一个或多个接口。
根据实施例,提供了一种使用一个或多个电子交换器卡和一个或多个光子交换器控制光子信元、分组或帧传输的方法。该方法包括发送包括暂停信令率和缓冲区深度中的一个或多个的缓冲区报告。该暂停信令率指示暂停信号发送频率,该缓冲区深度指示针对通信地连接到光子控制器的该电子交换器卡中的目的地信息指定的一个或多个每目的地机箱缓冲区中的空间可用性。该方法还包括当该一个或多个每目的地机箱缓冲区达到阈值时,从该一个或多个电子交换器卡向通信地连接到该一个或多个电子交换器卡的一个或多个线卡发送暂停信号。
根据实施例,提供了一种使用一个或多个电子交换器卡和一个或多个光子交换器的光子信元、分组或帧传输的方法。该方法包括针对一个或多个时隙调度该光子信元传输,在该调度时,该方法还包括至少部分地基于暂停信令率和缓冲区深度中的一个或多个,分配一个或多个带宽和一个或多个接口。该暂停信令率指示暂停信号发送频率,该缓冲区深度指示针对目的地指定的一个或多个每目的地机箱缓冲区中的空间可用性。该暂停信号可以从一个或多个电子交换器卡发送到一个或多个线卡。该方法还包括确定该光子信元传输的路径;针对经调度的该光子信元的传输配置该一个或多个光子交换器;以及将该光子信元发送到经由该一个或多个接口分配的该一个或多个光子交换器。
附图说明
本发明的进一步特征和优点将通过以下结合附图的详细描述变得显而易见,在附图中:
图1A示出了根据实施例的使用光子交换器、改进的电子交换器卡和改进的控制卡的可扩展数据中心系统的示例架构。
图1B示出了根据实施例的CLC控制卡和CCC控制卡的示例架构。
图2示出了根据实施例的使用光子交换器的可扩展数据中心系统的展开架构。
图3示出了根据本实施例的具有信令/消息方案的两层存储器的实现方式,该存储器包括线卡中的队列和交换器卡中的缓冲区。
图4A示出了根据实施例的具有交换容量为4096x4096光纤容量的扩展的光子交换系统。
图4B示出了根据实施例的每个CLC与CCC中的64个光子交换器的连接。
图4C示出了根据实施例的包含在其插槽的多个光子交换器卡的CCC的示例结构。
图4D示出了根据实施例的CLC与(光子)CCC的连接。
图5示出了根据实施例的通过SFU和SiP平面从一个CLC到另一个CLC的用于信元或数据分组传输的数据路径。
图6A示出了根据实施例的用于电子交换器卡接口、光子交换器控制器和CLC控制器之间同步、带宽分配和调度的控制信号流的示例程序顺序。
图6B示出了根据实施例的使用一个或多个电子交换器卡和一个或多个光子交换器控制光子信元传输的方法。
图6C示出了根据实施例的使用一个或多个电子交换器卡和一个或多个光子交换器的光子信元传输的方法。
图7示出了根据实施例的由电子交换器卡中的信元包装器创建的光子信元或光子帧。
图8示出了根据实施例的用于评估具有CLC和光子交换器芯片的交换系统的端到端性能的仿真模型。
图9A至图9D示出了根据实施例的交换系统的时延性能。
图10示出了根据实施例的以各种片上缓冲区的大小测量的暂停消息率。
图11A和11B示出了根据实施例的被透明嵌入到电子机箱的新光子功能。
应当注意的是,在整个附图中,相似的特征由相似的附图标记标识。
具体实施方式
除非另外定义,否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的相同的含义。
除非另外定义,否则信元所指的的数据单元可以包括信元、分组和帧,并且光子信元或光子帧可以包括信元、数据分组和数据帧。在该本申请中,信元、分组和帧可以互换使用。
提供了用于在可扩展数据中心云系统中的光子交换器和电子交换器之间传输光子信元、分组或帧的方法和装置,其中光子功能透明地嵌入到电子机箱中。
现今的分组扩展是基于集群线路机箱(cluster line chassis,CLC)和集群中央机箱(cluster central chassis,CCC)的。目前,CLC和CCC都使用带有收发器的电子(分组)交换器,无论是以插件还是板载芯片的形式。每个电子(分组)交换器可以通信地连接到收发器。在用包括光子交换器(例如,硅光子(silicon photonics,SiP)交换器)的阵列的光子CCC替换电子核心CCC后,可以提高数据中心的可扩展性,例如提高到每秒数千万亿比特。
提高现有数据中心系统的可扩展性的实施例是通过用包括光子交换器(例如,SiP交换)阵列的光子CCC替换电子核心CCC。因为光子交换器的阵列需要使用光子功能,所以电子交换器卡需要集成光子功能,以便与光子CCC进行可操作的通信。然而,光子相关功能和光子交换网接口要求线卡与光子功能兼容。如上该,用新线卡替换现有线卡被广泛地认为是投资损失。因此,需要将光子功能集成到交换器卡(例如,具有许多高速收发器(例如8-12个收发器,800G)的交换器卡)中,而无需替换现有的线卡。该实现方式的限制条件可以包括:
·光子功能需要一些芯片区域(例如,芯片上的物理区域)和缓冲空间。
·片上缓冲是必需的,因为片外缓冲由于其速度慢(例如,时延)以及交换器卡上物理空间(例如,电路板空间)的潜在限制而不可行。
·片上缓冲存储器的大小是有限的。
·线卡不能更改为包括至少某些光子功能。
根据实施例,上述限制可以通过使用两层缓冲空间和在两层缓冲存储器之间暂停发送信令或暂停发送消息的方案(例如,由交换器向线卡发送暂停信号)来克服。可以使用线卡(例如,线路处理单元(Line Processing Unit,LPU))中的存储器和与光子交换器接口的电子交换器卡(例如,交换结构单元(Switch Fabric Unit,SFU))中的另一个存储器来实现两层缓冲区。此外,在各种实施例中,可以增强现有的控制(或控制路径)功能以便于光子或光子相关功能的使用。
根据实施例,在某些使用情况中,交换器卡(例如,SFU)中的缓冲区可以仅支持一类缓冲。在这种情况下,线卡(例如,LPU)中的主队列可以具有深队列并处理所有优先级:因此可以不需要交换器卡(例如,SFU)中的缓冲来支持每类排队(例如,多类支持)、多播或优先级处理。在这种情况下,电子交换器中的(一个或多个)缓冲可能具有小容量。例如,电子交换器卡(例如,SFU)中的缓冲能够保存几帧流量(这代表几微秒的时间),以通过光子交换网调度。在其他一些用例中,交换器卡(例如,SFU)中的缓冲可以支持按类排队(例如,多类支持)、多播或优先级处理。
根据实施例,目前的线卡可以支持两个存储器(例如,线卡(例如,LPU)中的缓冲或队列和电子交换器卡中的缓冲或队列)之间(暂停)信令/消息方案。暂停信号可以从交换器芯片(或交换器卡)被发送到线卡。当电子交换器卡中的缓冲达到阈值时,暂停信号可以被放入到电子交换器卡中的缓冲,以将该暂停信号发送到线卡。当缓冲(例如,电子交换器卡中的缓冲)的使用降到阈值以下时,交换缓冲中的暂停信号可以被移除。在一些实施例中,可以针对添加和移除暂停信号使用相同的阈值。在一些实施例中,可以针对添加和移除暂停信号使用不同的阈值。交换器卡(例如,SFU)的(暂停)信令/消息方案向线卡发送暂停信号。
根据实施例,光子(接口)功能可以被集成到机箱中电子交换器卡所在的同一空间中,以便可以使用现有的线卡而无需进行内部改装(例如,对线卡中的现有功能基本没有影响)。光子(接口)功能可以被透明地嵌入到现有交换器芯片(或交换器卡),以便交换器卡可以与现有的线卡和光子交换器都能接口。换句话说,现有电子交换器芯片(或交换器卡)中透明嵌入的光子功能可以允许电子交换器的一侧与线卡进行通信,并且在机箱的线卡(例如,CLC)之间提供电子交换。现有电子交换器芯片(或交换器卡)中透明嵌入的光子功能还可以允许电子交换器的其他侧与光子交换器进行通信。电子交换器卡可以包括几个高速收发器,以通过光子交换器与另一机箱接口。
根据实施例,光子交换系统可以具有三级。交换系统的第一级和第三级可以是具有光子接口的接入交换器的一部分,而交换系统的中间级或第二级可以是光子交换器。
根据实施例,嵌入的光子功能可以是通用设备机箱的一部分(例如,光子交换和所需的更改可以是通用设备机箱的一部分)。嵌入的光子功能可以允许将光子核心交换器透明集成到电子交换器中,从而实现大于每秒1千万亿比特的可扩展性。需要说明的是,当以光子交换器为核心时,可以省去大量的收发器,从而降低制造成本。还应该注意的是,光子交换系统可以实现一个或多个其他好处,例如多千万亿比特扩展、小占地面积、低功耗和可能的冷却效果。
嵌入的功能可以是数据路径功能和控制(或控制路径)功能。在一些实施例中,控制路径功能和数据路径功能可以被嵌入到电子交换器中,用于单平面光子交换网。在一些实施例中,控制路径功能和数据路径功能可以被嵌入到电子交换器中,用于多平面光子交换网。数据路径功能可以被嵌入到电子交换器(例如,光子交换系统的第一和第三级)的数据路径中。数据路径功能可以包括光子成帧和去成帧功能(例如,用于将电子信元包装在光子信元中的(一个或多个)功能和用于解开光子信元的(一个或多个)功能)和用于将来自一个或多个缓冲区的一个或多个时隙的数据分组进行出队的(一个或多个)功能,其中数据分组可以在一个时隙中发送。控制路径功能可以被嵌入到通用设备卡(例如,管理卡)的控制卡中。控制路径功能可以包括用于从交换器卡向线卡发送暂停信号的(一个或多个)功能、用于向光子交换器的核心控制器报告暂停率和缓冲深度以用于带宽分配的(一个或多个)功能、用于同步的(一个或多个)功能和用于调度光子信元的(一个或多个)功能。控制路径的(一个或多个)功能还可以包括用于处理来自控制器的许可的(一个或多个)功能,对于单个时隙中的单个缓冲区的多接口分配可能是重要的。在一些实施例中,控制路径功能可以通过来自电子交换器控制器(或CLC控制器)的消息来执行。电子交换器控制器(或CLC控制器)可以有两组消息,一组用于线路卡,一组用于光子交换器控制器。在消息是针对线卡的情况下,可以通过背板将消息发送到线卡。在消息是针对光子交换器控制器的情况下,可以先通过背板将消息发送到电子交换器控制器(或CLC控制器),然后通过CLC控制器和光子交换器控制器之间的专用光纤连接将消息发送到光子交换器控制器。
根据实施例,通过智能电子控制和高效调度算法,光子交换器的时延(例如,延迟性能)可能与电子交换器的时延相当,但光子交换器的功率和扩展优势可以超过电子交换器。
图1A示出了根据实施例的使用光子交换器、改进的电子交换器卡(例如,SFU)和改进的控制卡的可扩展数据中心系统的示例架构。图1A示出了以通信方式连接到包括线卡或线路处理单元(LPU)的机箱(构成集群线路机箱(CLC))的光子核心机箱。
根据实施例,图1A示出的线卡可以相当于现有的线卡。现有的线卡可以在光子交换器架构中使用而无需对其进行任何改变或改进。换句话说,线卡可以保持完整。另一方面,包含在CLC中的电子交换器卡(例如,交换结构单元(SFU))可以被改进以与光子核心机箱进行可操作地通信。同样包含在CLC中的针对这种改进后的交换器卡的控制器(例如,电子交换器控制器或CLC控制器)可以被相应地改进。
根据实施例,光子核心机箱可以与目前很多电子产品中通常称为集群中央机箱(CCC)的机箱相对应。因此,应当理解的是,术语光子核心机箱和CCC(或光子CCC)将互换使用。然而,光子核心机箱并不等同于现有的CCC,因为光子CCC包括新的硬件组件。具体来说,包含在光子核心机箱中的光子交换器是新的硬件组件(例如,SiP交换器)。此外,用于新光子交换器的控制器也包含在光子CCC中,同样是一个新的硬件组件(例如,SiP交换控制器)。
参考图1A,架构100可以包括CLC 110、集群中央机箱(CCC)130和CLC 150。CLC 110可以包括多个线路处理单元(LPU)(例如,LPU 111、112、113)、多个改进的交换结构单元(SFU)(例如,SFU 121、122、123),以及控制SFU的组件(例如,CLC控制器124)。类似地,CLC150可以包括多个LPU(例如,LPU 151、152、153)、多个改进的交换结构单元(SFU)(例如,SFU141、142、143),以及控制SFU的组件(例如,CLC控制器144)。CCC 130可以包括多个硅光子交换器(SiP交换器)(例如,SiP交换器131、132、133、134),以及控制光子交换器的组件(例如,光子交换器控制器135)。
进一步参考图1A,包含在CCC 130中的每个SiP交换器可以通信地连接到包含在CLC110和CLC 150中的每个改进的SFU。例如,SiP交换器131可以通信地连接到SFU 121、122、123、141、142、143以及包含在CLC 110和CLC 150中的其他SFU中的每一个SFU。类似地,SiP交换器132、133和134可以通信地连接到SFU 121、122、123、141、142、143以及包含在CLC110和CLC 150中的其他SFU中的每一个SFU。
进一步参考图1A,包含在CLC 110中的每个改进的SFU交换器可以通信地连接到包含在CLC 110中的每个LPU。例如,SFU 121、122、123中的每一个SFU可以通信地连接到LPU111、112、113以及包含在CLC 110中的其他LPU中的每一个LPU。类似地,包含在CLC 150中每个改进的SFU交换器可以通信地连接到包含在CLC 150中的每个LPU。例如,SFU 141、142、143中的每一个SFU可以通信地连接到LPU 151、152、153和包含在CLC 150中的其他LPU中的每一个LPU。
根据实施例,尽管没有在图1A中明确示出,包含在CLC 110和CLC 150中的每个LPU可以与电信接入网络接口。CLC 110和CLC 150可以通信地连接到例如服务器的一个或多个网络元件,或既与电信接入网络接口、又通信地连接到例如服务器的一个或多个网络元件。
进一步参考图1A,包含在CCC 130中的光子交换器控制器135可以通信地连接到CLC110的CLC控制器124和CLC 140中的CLC控制器144。
如上该,包含在CLC中的LPU或线卡可能不需要为了CLC和CCC之间的通信而改变或改进,因此现有的LPU可以保持完整。相应地,许多网络服务提供商拥有的现有线卡无需任何改进即可使用。这种配置可以在实施中可以提供可观的成本节约。
图1B示出了根据实施例的CLC控制卡和CCC控制卡的示例架构。参考图1B,CLC控制器124和CLC控制器144分别由CLC控制卡组160和CLC控制卡组190表示。CLC控制卡组160和CLC控制卡组190中的每一个可以包括一个或多个CLC控制卡。CLC控制卡组160或CLC控制卡组190中的每个CLC控制卡可以具有一个或多个微处理单元(例如,主处理单元(MainProcessing Unit,MPU))。出于说明的目的,图1B针对每个CLC控制卡仅示出了一个MPU,但是容易理解的是,一个或多个CLC控制卡中可以存在多个MPU。
光子交换器控制器135可以包括一个或多个CCC控制卡。出于说明的目的,图1B示出光子交换器控制器135包括两个CCC控制卡,CCC控制卡170和180。然而,将容易理解,可以存在更多的CCC卡。CCC控制卡170可以包括一个或多个MPU(例如,MPU171、MPU 172)和一个或多个接口通信单元(例如,内部通信单元(ICU))(例如,ICU173)。在一些实施例中,接口通信单元(例如,ICU)可用于连接到SiP卡。类似地,CCC控制卡180可以包括一个或多个MPU(例如,MPU 181、MPU 182)和一个或多个ICU(例如,ICU 183)。
CCC控制卡中的每个MPU可以相互通信连接。例如,MPU 171和MPU 172可以相互通信连接。类似地,MPU 181和MPU 182可以相互通信连接。此外,CCC控制卡中的每个MPU可以通信地连接到ICU。MPU不仅可以连接到同一个CCC控制卡中的ICU,也可以连接到不同CCC控制卡中的ICU。例如,MPU 171也可以通信地连接到CCC控制卡170中的ICU 173,MPU 172可以通信地连接到CCC控制卡180中的ICU 183。类似地,MPU 181也可以通信地连接连接到CCC控制卡170中的ICU 173并且MPU 182可以通信地连接到CCC控制卡180中的ICU 183。在一些实施例中,ICU 173和ICU 183中的每一个ICU可以处理所有CLC的一部分的带宽。一组ICU(例如,ICU 173和183)可以覆盖所有带宽(例如,并行集中控制)。
CCC控制卡中的ICU可以通信地连接到CLC控制卡中的MPU,使得CCC控制卡和CLC控制卡可以相互通信。例如,ICU 173可以通信地连接到CLC控制卡组160中的每个CLC控制卡的MPU。类似地,ICU 183可以通信地连接到CLC控制卡组190中的每个CLC控制卡的MPU。
根据实施例,CLC控制卡(例如,CLC控制卡组160和190的CLC控制卡)和CCC控制卡(例如,CCC控制卡170和180)可以控制或管理CLC和CCC之间的连接或连接性。CLC控制卡和CCC控制卡可以被配置为执行用于流控制和策略功能的信令。CLC控制卡和CCC控制卡还可以被配置为执行用于同步传输到每个光纤的信令。需要注意的是,需要同步来维持CLC和CCC之间的同时连接(例如,始终需要SYNC消息)。无论交换系统中的光纤长度是否彼此相等,都需要同步。所有(光子)帧都需要同时到达光子交换器的输入端。如果交换系统中光纤的长度彼此不同,则可能需要额外进行偏移计算。
根据实施例,CCC控制卡的MPU(例如,MPU 171、172、181、182)可以携带用于交换器(例如,电子交换器和光子交换器)之间的带宽分配的控制算法。在实施例中,可以有两种带宽分配模式(例如,长队列优先(Long Queue First,LQF)和具有饥饿避免的长队列优先(Long Queue First with Starvation Avoidance,LQF/SA))。在一些实施例中,LQF/SA可以适用于光子应用。
CCC控制卡的MPU(例如,MPU 171、172、181、182)可以根据控制算法为每个CLC执行详细的带宽分配。分配的带宽(和它们各自的接口)可以被传送到每个CLC机箱的(一个或多个)MPU。下面将提供关于带宽分配的进一步细节,例如参考图6A,图6A包括用于光子交换接口、光子交换器控制器(例如,CCC控制器或CCC控制卡)和CLC控制器(例如,电子交换器控制器)之间的同步、带宽分配和调度的控制信号流的示例程序序列。
图2示出了根据实施例的使用光子交换器的可扩展数据中心系统的展开架构。图2的架构是图1所示的可扩展数据中心系统的架构的展开版本。图1A是从交换系统的角度说明的。
参考图2,LPU 210和LPU 220中的每一个LPU可以与交换系统/平面200接口。交换系统/平面200可以包括电子交换器和光子交换器。电子交换器可以包含在CLC中并且因此也是CLC的一部分,例如图1A中的CLC 110和CLC 150。光子交换器可以包含在CCC中并且因此也是CCC的一部分,例如图1A中的CCC 130。
在一些实施例中,电子交换器可以是Sl(第一级)和S3(第三级)的交换器。S1和S3可以表示部署在CLC内的传统电子交换器卡。相应地,S1和S3(例如,SFU 201、202、205和206)可以是专为电子部署而设计的传统SFU。然而,在所示实施例中,传统SFU已被改进以包括用于与光子交换器接口或与光子交换器进行可操作通信的功能。根据实施例,光子交换器可以是S2(第二级)的光子交换器。S2可以表示包含在CCC中的新硅光子交换器(例如,SiP交换器203和204)。
应该注意的是,图2中所示的展开的体系结构只是一个实施例,本领域普通技术人员基于本公开应该能够实现其他配置。
图3示出了根据本实施例的两层存储器(例如,线卡(例如,LPU)中的队列,交换器卡(例如,SFU)中的缓冲区)和信令/消息方案的实现方式。在各种实施例中,两层存储器可以包括线卡(例如,LPU)中的队列和交换器卡(例如,SFU)中的缓冲区。交换器卡可以与CCC中的光子交换器(例如,硅光子交换器)接口或可通信地连接到CCC中的光子交换器(例如,硅光子交换器)。
根据实施例,光子功能可以被集成到机箱的交换器卡(例如,表示S1(第一级)和S3(第三级)的SFU的SFU 300)中。交换器卡可以有小的缓冲区,其容量可以容纳表示要通过光子交换网调度的几帧流量的分组。尽管交换器卡(例如,SFU 300)的资源可能具有这样有限的容量,但是两层存储器之间的信令/消息方案可以支持光子功能或光子相关功能。现有线卡支持可以支持线卡和交换器卡之间的信令/消息方案,因此现有线卡可以不需要被替换或改进。
根据实施例,信令/消息方案可以包括从电子交换器卡(例如,SFU)到线卡的暂停信号的传输。可以发送暂停信号以防止线卡(例如,LPU)在指定时隙(或预定时间)之前向电子交换器卡发送指定时隙对应的数据分组,以保证缓冲区中存在的数据量(例如,(每个目的地)CLC机箱的缓冲区)未达到阈值。只要缓冲区(例如,每个目的地CLC机箱的缓冲区)还没有达到阈值,线卡(例如,LPU)就可以传输数据分组。当(每个目的地CLC)机箱的缓冲区达到阈值时,暂停信号可以被放入(出口)交换器缓冲区中以发送到线卡。当(每个目的地)机箱缓冲区使用量低于阈值时,交换器缓冲区中的暂停信号可以被移除。应当注意的是,实施例中采用的信令/消息方案被配置,使得交换器卡(例,SFU)向线卡发送暂停信号。
根据实施例,交换器卡(例如,SFU)可以被改进为包括缓冲区集310。缓冲区集310可以包括一个或多个(每个目的地)机箱缓冲区。缓冲区集310可以包括交换器卡的片上存储器。因为可以针对每个目的地CLC机箱指定每个(每个目的地)机箱缓冲区,所以可以基于目的地CLC机箱的数量来确定(每个目的地)机箱缓冲区的数量。例如,最多可能有64个CLC机箱,因此交换器芯片(例如,SFU)中可能有64个(每个目的地)机箱缓冲区。在某些使用情况中,交换器卡(例如,SFU)中的缓冲区可以仅支持一类缓冲。在这种情况下,线卡(例如,LPU)中的主队列可能具有深队列并处理所有优先级。在一些实施例中,可以不需要交换器卡(例如,SFU)中的缓冲区来支持按类排队(例如,多类支持)、多播或优先级处理。在其他使用情况中,交换器卡(例如,SFU)中的缓冲区可以支持按按类排队(例如,多类支持)、多播或优先级处理。
根据实施例,线卡(例如,LPU)可以包括主队列320。线卡中的主队列320可以支持按类排队(例如,多类支持)、多播和优先级处理。如上该,不需要改变现有线卡,因为现有线卡可以支持按类排队(例如,多类支持)、多播和优先级处理。
根据实施例,交换器卡(例如,SFU)可以被改进为包括电子交换器控制器330。电子交换器控制器330可以被实现为控制数据传输或数据分组流。在各种实施例中,交换器卡中的电子交换器控制器330可以被配置为当(每个目的地)机箱缓冲区达到阈值时,通过一个或多个(出口)交换器缓冲区(片上缓冲区)向一个或多个线卡发送暂停信号。例如,当目的地CLC的机箱缓冲区被填满到其容量的50%时,电子交换器控制器330可以将暂停信号置于交换器缓冲区以通知线卡。在这种情况下,最短的队列长度是2个时隙。当用于目的地CLC的机箱缓冲区中的分组被释放并且机箱缓冲区使用量低于阈值(例如50%)时,则可以移除交换器缓冲区中的暂停信号。如上所述,不需要改变现有线卡,因为现有线卡可以支持交换器卡和线卡之间的暂停信令/消息方案。交换器卡和线卡之间的暂停信令/消息方案包括出口线卡和入口线卡之间的暂停信令/消息方案、出口线卡和交换器卡之间的暂停信令/消息方案以及交换器卡和入口线卡之间的暂停信令/消息方案。
根据实施例,带宽分配可以由通信地连接到光子交换器340的光子交换器控制器(未示出)来执行。光子交换器控制器可以基于电子交换器控制器330发送的缓冲区报告来分配带宽。缓冲区报告可以包括暂停信令率和目的地机箱缓冲区的容量中的一个或多个。暂停信令率是在固定时间段(例如,1毫秒、100微秒)内发送到线卡的暂停信令的数量。暂停信令率可以被光子交换器控制器用于通过考虑流量队列的(当前)容量来估计线卡中流量队列的长度以用于流量的有效分配。暂停信令率可以指示去往目的地机箱(例如,目的地CLC)的流量的量,并且与其成比例。可以注意到的是,除非线卡被改变,否则线卡中的流量队列的大小可能不可用。线卡可以以如下方式支持暂停信号,现有出口线卡向入口线卡发送暂停信号用于流量控制。在一些实施例中,暂停信号可以从电子交换器卡(而不是出口线卡)传输到入口线卡。
图3在虚线矩形中示出了数据路径和控制路径上的新光子功能350。在一些实施例中,新光子功能350可以与信元/分组交换器370集成。在一些实施例中,新光子功能350可以与信元/分组交换器370分开。目前现有的收发器360可以用于传输和接收数据。收发器360被连接到光子交换器,并且因此也是要由控制器分配的接口。
图4A示出了根据实施例的具有交换容量为4096x4096光纤容量的扩展光子交换系统。根据实施例,具有所需交换容量的光子交换系统可以使用几个具有较小交换容量的交换器来构建,以获得所需的交换容量。光子交换系统可以包括M个具有“NxN”交换容量的光子交换器。所有这些“NxN”交换器都可以由时隙同步系统(例如,时隙同步控制器、光子交换器控制器)控制,尽管光纤长度不同(例如,0~100m),该系统允许光子信元、分组或帧同时到达交换器输入端。由于时隙同步系统,具有M个NxN的交换器的光子交换系统可以充当一个大交换器(例如,具有大容量的交换器)。
与使用单个大交换器(例如,具有大容量的交换器)相比,使用几个具有较小交换容量的交换器可使波导交叉的数量显着减少,并因此使得插入损耗更低。
根据实施例,光子交换系统可以具有(MxN)x(MxN)的交换容量。例如,当光子交换系统包括128个(例如,M=128)32×32的交换器芯片(例如,N=32)时,则4096×4096的矩阵可以通过时隙同步系统来实现。在一些实施例中,每个光子交换器卡可以包含两个32×32的光子交换器芯片。在这种情况下,64个光子交换器卡可以实现4096×4096的矩阵。在一些其他的实施例中,一个光子交换器卡可以包含2个以上的光子交换器芯片。在这种情况下,实现4096x4096的矩阵需要的光子交换器卡少于64个。换句话说,每个光子交换器卡可以容纳两个以上32x32的光子交换器,64个光子交换器卡可以用来实现交换容量大于4096×4096的光子交换系统。
参考图4A,交换系统400可以包括四个CCC(例如,CCC 420)和64个CLC(例如,CLC410)。根据实施例,每个CCC(例如,每个CCC 420)可以包含16个光子交换器卡并且每个CLC(例如,每个CLC 410)可以包含8个SFU卡。这样,64个光子交换器卡和512个SFU卡可以被包括在扩展的光子交换系统400中。CLC 410中的每个SFU卡可以包括2个光学柔性卡(opticalflexible card,OFC)插头槽,并且每个OFC插头槽可以容纳4个收发器。每个SFU可容纳8个具有新光子功能的OFC插头,并且每个CLC可容纳64个收发器。因此,每个CLC(例如,CLC 410的每个CLC)可以具有64根光纤以通信地连接到CCC(例如,CCC 420)。
在一些实施例中,每个收发器可以具有400Gbps的传输速率。在这种情况下,每个配备有支持光子功能和收发器的ASIC的SFU卡可以具有3.2Tbps(2x4x400 Gbps)的互联性,并且每个CLC可以具有25.6Tbps(8x3.2 Tbps)的互联性。
根据实施例,如图4所示,当光子交换系统400中包括64个CLC和4个CCC时,可以实现具有交换容量为4096×4096光纤容量的扩展光子交换系统。在这种情况下,如果每个收发器以800Gbps运行,则可以实现3.2Pbps(800Gbps x 4096)的总吞吐量(或总交换容量)。换句话说,扩展光子交换系统400可达到3.2Pbps的总吞吐量(或总交换容量)。
根据实施例,光子功能的实现方式需要芯片资源和片上存储器。使用片外存储器可能会增加时延和所需电路板空间。片上存储器使用由具有流量管理功能的当前分组线卡(例如,LPU)支持的暂停信令。除了光子成帧,交换专用集成电路(application specificintegrated circuit,ASIC)还为光子CCC机箱提供机箱内交换和光学I/O(例如,400/800Gbps SMF)。交换ASIC可以执行信元交换功能和光子功能(例如,数据路径和控制路径上的光子功能)。光学互连或者与ASIC共同封装,或者是可插拔的以实现可适用性。
图4B示出了根据实施例的每个CLC与CCC中的64个光子交换器的连接。如上所述,每个CLC(例如,CLC 410中的每个CLC)可以具有64根光纤以通信地连接到CCC(例如,CCC420)。这样,每个CLC(例如,CLC 410中的每个CLC)可以通信地连接到CCC中的64个光子交换器卡(例如,SiP卡430)中的每一个光子交换器卡,如图4B所示。每个光子交换器卡(例如,图4B中的SiP卡1、2、……、64)可以包括具有64x64 I/O容量的光子交换器芯片。
图4C示出了根据实施例的包含CCC插槽中的多个光子交换器卡的CCC的示例结构。根据实施例,每个CCC(例如CCC 420)可以具有18个插槽。然而,可以为其他用途保留两个插槽,因此每个CCC有16个插槽可用,如图4C所示。每个CCC插槽可以包含一个光子交换器卡(例如,SiP交换器卡),每个光子交换器卡可以包含两个光子交换器芯片。每个光子交换器卡可以仅包括驱动器和光子交换器芯片,而不具有OE/EO(光电子/电子光转换),其中没有OE/EO可以节省与成本、功率/冷却和占地面积中相关的一项或多项。由于CCC中有16个光子交换器卡,每个CCC可以包含32个光子交换器。图4C所示的每个CCC插槽可以具有32根光纤输入和32根光纤输出。然而,应当注意的是,在一些其他的实施例中,每个CCC插槽可以具有64根光纤输入和64根光纤输出。
图4D示出了根据实施例的CLC与(光子)CCC的连接。参考图4D,有N个CLC机箱(例如,N=16、32或64)和M个(光子)CCC机箱(例如,M=1、2或4)。每个光子CCC机箱可以包括具有驱动器的P个光子交换器卡和C个控制卡。每个光子交换器卡可以配备至少一个N×N(N≥16)硅光子交换器(例如,SiP交换器),被连接到所有N个CLC机箱。光子交换器的设计能够符合时隙内快速寻路、低串扰以及与硅光放大器和偏振控制器集成的要求。该交换器可以在1310nm下运行以受益于低成本光学器件,并且可以与单模光纤阵列一起封装。
在扩展架构中,每个CLC具有S(例如,S≥M)个电子交换器卡。每个电子交换器卡具有连接到每个(光子)CCC机箱中P个光子交换器的P个I/O。例如,当S等于M时(例如,电子交换器卡的数量等于CCC机箱的数量),所有CLC的每个交换器#i都可以连接到(光子)CCC#i,其中i=1,……M。
图5示出了根据实施例的通过交换结构单元(SFU)和SiP平面从一个CLC到另一个CLC的用于信元或数据分组传输的数据路径。如上该,每个CLC可以包括一个或多个线卡(LPU)和SFU。SFU平面(例如,SFU平面521、522、523)中的区域551、552和553是ASIC芯片,提供用于数据路径的光子功能(例如,缓冲和光子成帧)以及用于控制平面的功能,这些功能可以描述如下:
·每个CLC目的地机箱的片上缓冲(例如,每一个CLC有N个缓冲区)。
·在线卡(例如,LPU)中处理流量排队和优先级。
·当缓冲区达到设定的阈值时,向线卡(例如,LPU)发送暂停/流控制信号。
·暂停率用于估计到每个CLC目的地的流量。这可以在窗口上测量并发送到(光子)CCC控制器以进行带宽分配。
·在带宽分配时,光子帧(例如,图7所示的光子帧)是通过将分组从缓冲区中出队而形成的。
根据实施例,数据分组可以在线卡的入口(例如,LPU 511的入口)处被分解并分段为数据单元。每个分段数据单元(或信元)可以通过SFU平面(例如,SFU平面521、522、523)和SiP平面(例如,SiP平面531、532、533)传输到目的地线卡(例如,LPU 512的出口)。可以在出口线卡(例如,LPU 512的出口)处重新组合分段的数据分组。
根据实施例,SFU平面之间可以没有平面间连接性。类似地,SiP平面之间可以没有平面间连接性。在实施例中,当SFU平面(例如,SFU平面521、522、523)之间没有平面间连接性并且SiP平面(例如,SiP平面531、532、533)之间没有平面间连接性时,数据分组不能通过SFU平面和SiP平面从一个CLC中的线卡传输到另一个CLC中的线卡。例如,从一个CLC到另一个CLC的数据分组传输仅通过图5所示的数据路径(例如,数据路径501、502、503)中的一个才能成为可能。
每个数据路径(例如,数据路径501、502、503)可以被分成电子路径和光子路径。通过线卡(例如,LPU 511的入口到出口LPU 512)和SFU平面(例如,SFU平面521、522、523)的路径可以被称为电子路径。通过SiP平面(例如,SiP平面531、532、533)的路径可以称为光子路径。
根据实施例,可以使用多个数据路径同时发生多个数据分组传输。例如,出口线卡511可以通过数据路径501、502和503同时并行地将数据分组传输到入口LPU 512。在这种情况下,每个数据分组传输可以通过不同的SFU平面和不同的SiP平面进行。
图6A示出了根据实施例的用于电子交换接口、光子交换器控制器(例如,CCC控制卡或CCC控制器)和CLC控制器(例如,电子交换器控制器)之间同步、带宽分配和调度的控制信号流的示例程序顺序。可以理解的是,图6A所示的控制信号流的顺序可以是基于时隙的。
可以基于缓冲区容量和暂停信令率中的一个或多个做出带宽分配请求。带宽分配请求可以被发送到CCC控制器。CCC控制器可以从一个或多个CLC机箱(可能从所有的CLC机箱)接收带宽分配请求。当分配带宽和接口时,可以将分配的带宽和它们各自的接口提供给每个CLC机箱。
根据实施例,通信消息可以通过背板从CLC交换ASIC发送到CLC控制器。对于每个交换器卡,CLC控制器都有一条专用的光通信链路(例如,100G)到与交换器相连的CCC机箱的光子交换器控制器(例如,CCC控制器)。假设S=M=C=4,其中S是电子交换器卡的数量,M是光子CCC机箱的数量,C是CCC控制器(例如,光子交换器控制器、CCC控制卡),CLC控制器有M个光学接口,每个(光子)CCC机箱一个。为了控制简单,连接到(光子)CCC机箱的所有I/O和通信光纤可以具有相同的长度。控制消息通信在图6A中示出。
根据实施例,CCC中的所有控制器(例如,光子交换器控制器、CCC控制器)可以处理所有CLC机箱中的电子交换器的带宽分配。这意味着CCC中的每个控制器都可以将部分机箱带宽分配给CLC机箱。由于这种并行分配的结果以及CLC机箱的数量很少(例如,64个)的事实,CCC控制器可以使用中央调度方案来为CLC交换器卡(例如,电子交换器卡)分配带宽。
在步骤610,在每个时隙,CLC控制器(例如,电子交换器控制器)可以向CCC中的光子交换器控制器发送缓冲报告。CCC中的光子交换器控制器(例如,CCC控制器)可以在一个时隙期间接收多个报告。每个光子交换器控制器在每个时隙期间接收到的报告数量可以等于CLC机箱的数量除以光子交换器控制器的数量。缓冲区报告可以包括暂停信令率、缓冲区深度或两者都包括。暂停信令率可以指示向线卡发送暂停信号的频率,例如在固定时间段(例如,1毫秒、100微秒)内发送到线卡的暂停信号的数量。暂停信令率可以与传输到目的地CLC的流量成比例。缓冲区深度可以指示为目的地指定的机箱缓冲区中的空间可用性。缓冲器深度可以指示为通信地连接到光子控制器的电子交换器卡中的目的地信息指定的一个或多个每目的地机箱缓冲区中的空间可用性。CCC中的光子交换器控制器接收到缓冲区报告后,可以在电子交换器和光子交换器之间执行同步。为了实现电子交换器和光子交换器之间的时隙同步,可能需要不断调整交换器之间的时间和频率偏移。在一些实施例中,光子交换器控制器可以通过向电子交换器和光子交换器发送包含调整的时间和频率偏移值的同步或偏移控制消息(例如,SYNC/偏移消息)来执行同步。帧传输时间可以以纳秒或更高的精度同步。根据一些实施例,每个光子交换器控制器(例如,CCC控制器)可以每个时隙中使用的同步(SYNC)脉冲或偏移消息来同步其管理下的电子交换器卡集。在执行同步后,无论线卡和光子交换器之间的传输延迟如何变化,光子信元的传输都可以被同步。例如,尽管光纤长度不同(例如0~100m),传输的光子信元可以同时到达光子交换器的输入端。
在步骤620,光子交换器控制器可以在一个或多个时隙内执行电子交换器和光子交换器之间的光子信元传输的调度。
在调度时,在步骤630,光子交换器控制器(例如,CCC控制器)可以向要发送光子信元的机箱缓冲区发送一个或多个光子交换接口的许可。光子交换器控制器可以使用具有饥饿避免的最长队列优先(Longest Queue First with Starvation Avoidance,LQF-SA)调度方案,将交换网接口分配给该请求并发出许可。基于在步骤610接收到的缓冲区报告,向电子交换器卡给出光子交换接口的许可。在一些实施例中,可以通知CLC控制器(例如,电子交换器控制器)一个或多个光子交换接口被分配了给机箱缓冲区。分配的接口可以在GAP时间期间同步提供光子交换输入/输出设置。CLC控制器可以处理从光子交换器控制器(例如,CCC控制器)接收的许可,并且使得(一个或多个)光子帧出列,以便在下一个时隙开始时,在(一个或多个)分配的接口上传输。光子交换器控制器(例如,CCC控制器)可以在一个时隙中为给定CLC目的地的流量分配一个以上的接口。在这种情况下,缓冲的数据可以出列并且以CLC目的地(例如,入口线卡)已知的顺序(例如,接口编号的升序)发送到分配的接口。
在调度和许可后,在步骤640,光子交换器控制器可以确定通过光子交换结构在电子交换器之间的光子信元传输的路径。光子信元传输的路径可以(部分或全部)基于在步骤630许可给机箱缓冲区的光子交换接口来确定。寻路算法可以确定通过光子交换元件的输入到输出的连接性,并更新GAP时间内交换元件的新状态。交换器的架构可以在寻路时间中起到重要作用,并且根据实施例,执行时间复杂度符合O(logN),较为理想。例如,可以基于用于互连应用的快速光子交换架构来设计和实现16x16快速光子交换器。
一旦确定了通过光子交换器在电子交换器之间传输光子信元或帧的路径,在步骤650,光子交换器控制器可以将所确定的用于光子信元传输的路径通知给光子交换器。换句话说,光子交换器控制器可以告知光子交换器哪些带宽和接口被分别分配用于到其的光子信元传输。
在光子信元的传输开始之前,在步骤660,针对电子交换器卡(例如,改进的SFU)中机箱缓冲区之间通过光子交换器进行的光子信元的传输,光子交换器可以被重新配置或改变设置。用于光子信元传输的光子交换器的配置或设置可以在光子信元中指定的GAP时间期间改变。用于光子信元传输的光子交换器的配置或设置可以在每个时隙内改变。在各种实施例中,GAP时间的长度可以小于10ns。
在步骤670,光子信元或光子帧可以通过CCC中的光子交换器从电子交换器卡(例如,改进的SFU)的一个机箱缓冲区传输到另一个机箱缓冲区。光子信元或光子帧可以包括信元或数据分组(例如,实质数据)。需要注意的是,在多个时隙中的一个时隙的持续时间(例如,微秒),CCC中的光子交换器可以被比作在分数个时隙(例如,纳秒)中建立的电路交换器。
根据实施例,在为光子信元传输分配的固定时间段内,光子交换器可以被设置为使得所分配的接口通信地连接到电子交换器卡(例如,改进的SFU)的输出端口,并且还通信地连接到电子交换器卡的输入端口。分配的时间段的长度可以等于时隙的持续时间(例如1微秒)。
根据实施例,电子交换器卡中的机箱缓冲区可以接收对光子交换器的一个或多个接口的许可。当机箱缓冲区接收到对光子交换器的一个接口的许可时,该机箱缓冲区可以释放或出列相当于(或对应于)一个或多个时隙的信元(或数据分组)。当机箱缓冲区接收到对光子交换器的多个接口的许可时,例如‘n’个接口,其中n>1,‘n’个时隙的信元(或数据分组)可以从机箱缓冲区中释放或出列。然后,可以将‘n’个时隙的信元传输到光子交换器控制器(例如,CCC控制卡)分配的光子交换器的‘n’个接口。光子交换器的n个接口中的每一个接口都可以接收相当于一个时隙(例如,1微秒)的信元(或数据分组)。
在一些实施例中,接收器(例如,接收电子交换器卡、接收SFU)可以被通知关于将经由光子交换器的‘n’个接口接收信元(或数据分组)的(所需)顺序。换句话说,可以通知接收器关于应该首先由哪个接口接收信元(或数据分组)。在这种类型的实施例中,接收组件不需要对接收到的信元(或数据分组)进行重新排序。另一方面,在其他实施例中,接收器可以对接收到的信元(或数据分组)进行重新排序。在这种情况下,不需要指示或通知接收器关于需要接收的信元(或数据分组)的顺序。在一些实施例中,在一个时隙(例如,1微秒)期间‘n’个接口可以仅分配给一个机箱缓冲区或队列,例如当去往某个CLC的流量量大于其他时间时。这样,光子交换器控制器(例如,CCC控制卡)可以在该时隙内分配更多容量(例如,更多接口)以应对更高的需求。这要求以接收器已知的顺序(例如,接口编号的升序)传输到那些‘n’个接口,以确保以与发送数据相同的顺序接收数据。
图6B示出了根据实施例的使用一个或多个电子交换器卡和一个或多个光子交换器控制光子信元传输的方法。该方法包括发送680包括暂停信令率和缓冲区深度中的一个或多个的缓冲区报告。暂停信令率指示暂停信号发送频率,缓冲区深度指示为目的地指定的一个或多个每目的地机箱缓冲区中的空间可用性。缓冲区深度可以指示为通信地连接到光子控制器的电子交换器卡中的目的地信息指定的一个或多个每目的机箱缓冲区中的空间可用性。该方法还包括当一个或多个每目的地机箱缓冲区达到阈值时,从一个或多个电子交换器卡向一个或多个线卡发送682暂停信号。一个或多个线卡通信地连接到一个或多个电子交换器卡。该方法还包括接收684描述每目的地机箱缓冲区或队列中的每一个可以使用多少个接口(例如,收发器)的许可。该许可可以进一步描述每目的地机箱缓冲区或队列可用于通过光子交换网将流量传输到目的地CLC的特定接口(或特定端口号)。
图6C示出了根据实施例的使用一个或多个电子交换器卡和一个或多个光子交换器的光子信元传输的方法。该方法包括向目的地CLC(例如,目的地CLC控制器)发送690同步(SYNC)脉冲(例如,SYNC/Offset消息)以指示光子信元、分组或帧的传输(例如传输的开始)以及许可的传输。该方法还包括针对一个或多个时隙调度691光子单元传输,并且在调度后分配692一个或多个带宽和一个或多个接口。该分配至少部分地基于暂停信令率和缓冲区深度中的一个或多个。暂停信令率指示暂停信号发送频率,缓冲区深度指示为目的地指定的一个或多个每目的地机箱缓冲区中的空间可用性。缓冲区深度可以指示为通信地连接到光子控制器的电子交换器卡中的目的地信息指定的一个或多个每目的机箱缓冲区中的空间可用性。一个或多个接口可以在一个时隙(例如,1微秒)内仅分配给一个机箱缓冲区或队列,例如当去往某个CLC的流量量大于其他时间时。这样,光子开关控制器(例如,CCC控制卡)可以在该时隙内分配更多容量(例如,更多接口)以应对更高的需求。这需要增加接口的数量,因为向那些一个或多个接口的传输需要确保以与发送数据相同的顺序接收数据。该方法还包括确定694用于光子信元传输的路径并且针对经调度的光子信元的传输配置696一个或多个光子交换器。此外,该方法包括向经由一个或多个接口分配的一个或多个光子交换器发送698光子信元。
图7示出了根据实施例的由电子交换器卡中的信元包装器创建的光子信元或光子帧。根据实施例,包含在电子交换器卡700(例如,改进的SFU)中的信元包装器710可以创建光子信元或光子帧(例如,光子帧750)。信元包装器710可以经由电子交换器控制器330从(每目的地)机箱缓冲区730接收信元或数据分组。如上该,电子交换器控制器330可以控制数据传输或数据分组流。当控制器330从主控制器接收到许可时,信元包装器710可以接收一帧的数据分组。当目的地CLC达到或超过阈值时,控制器330可以向线卡发送暂停信号,以通知目的地CLC中的队列的线卡。
根据实施例,一旦对将光子信元传输到目的地的机箱缓冲区730中的一个许可了光子交换接口,信元包装器710就可以创建光子信元或光子帧(例如,光子信元750)。该接口可以由光子控制器(图7中未示出)分配。光子信元可以由与该接口相关联的发送器经由分配的接口传输到目的地。在一些实施例中,可以将多个光子交换接口分配给将光子信元传输到目的地的机箱缓冲区。在这种情况下,可以在一个时隙期间以低时延执行光子信元传输。
根据一些实施例,每个光子信元(例如,光子信元750)的长度可以与一个时隙相等,例如1微秒,如图7所示。光子信元可以包括GAP、前导码、报头和一个或多个信元。
GAP可以被包括在光子信元中,以允许光子交换器对光子信元传输进行任何必要的配置调整。在各种实施例中,GAP可以小于10ns。
如上所述,通过光子交换器在机箱缓冲区之间的光子信元传输的设置需要重新配置或检查,以确保适当地执行光子信元传输。用于光子信元传输的光子交换器的配置或设置可以在光子信元中指定的GAP期间执行。GAP还可以允许光子交换器知道何时开始传输实际数据分组。
除了GAP之外,光子信元(例如,光子单元750)还可以包括前导码、报头和一个或多个信元。光子信元中的前导码可以包括允许计时和数据恢复(data recovery,CRD)的信息。前导码可以包括用于锁定和CRD的训练数据。由于开关配置的改变、光源中断或两者,所以包括这样的信息。(因此,接收器可能需要锁定其进一步的操作。)光子信元中的报头可以包括诸如源地址和目的地址之类的信息。信元可以是包含实质性数据的数据分组。每个信元可以只包含少量数据并具有固定长度。
图8示出了根据实施例的用于评估具有CLC和光子交换器芯片的交换系统的端到端性能(平均延迟和最大延迟)的仿真模型。该仿真模型可以如图8所示的交换系统800实现。
交换系统800具有互联性为800Gbps单核机箱(例如,CCC)和8个CLC(例如,CLC 811至818)。参考图8,每个CLC具有8个交换器卡,每个SFU具有互联性为400Gbps或800Gbps的至少8个接口。因此,8个CLC中包括64个SFU(例如,SFU 1至64)和至少512个光纤接口。8个CLC可以通信地连接到光子交换器820。换句话说,64个SFU中的每一个SFU可以通过64个SFU中包括的512个光纤接口通信地连接到光子交换器820。
每个CLC中的SFU的行为可以由SFU控制器(图8中未示出)控制。每个CLC包含一个或多个SFU控制器,以便控制与CLC中的SFU相关联的数据传输或数据分组流。每个CLC控制器(例如,电子交换器控制器)可以通信地连接到光子交换器控制器830(例如,CCC控制卡)。
进一步参考图8,CCC(或单核机箱)包括光子交换器820。光子交换器820是一堆为32个16x16的光子交换器芯片(例如,SiP交换器芯片)。这些32x32光子开关芯片是同步的。具体的,光子交换器芯片可以由时隙同步控制器(例如,光交换控制器830)控制。由于光交换控制器830的同步,这堆32个16x16的光交换器芯片可以作为一个容量为512x512(即(32x16)x(32x16))的开关使用,这是图8中的光子交换器820。
为了(端到端)性能评估的目的,假设在每个间隔中,数据分组或流量被分配到CLC中的SFU的每个接口。还假设当向核心光子交换器(例如,光子交换器820)发送流量时,分配给每个SFU的数据分组负载量独立于其他SFU的数据分组负载量。由此推断每个SFU可能具有不同的数据分组负载,无论它们是在相同的CLC中还是在不同的CLC中。这可以被认为是最坏的情况,因为线卡(例如,LPU)中的负载平衡器通常在所有交换器卡上平均分配流量(例如,平均分配到所有CLC中的每个SFU)。
根据实施例,指示SFU中的(每目的地)机箱缓冲区的当前状态的缓冲区报告(例如,为目的地指定的机箱缓冲区中的空间可用性)可以被传送到光子交换器控制器830。
可用的光子交换容量可以分配给电子交换器卡接口,以便将包含信元(或数据分组)的光子信元(或光子帧)发送到目的地CLC。此外,在给定的时隙(例如,一个时隙)期间,可以将电子交换器卡(例如,SFU)接口分配给一个或多个(每目的地)机箱缓冲区。当多个接口在一个时隙中被分配给一个机箱缓冲器时,可以将接收信元(数据分组)所需的顺序通知给电子交换器卡。换句话说,可以通知电子交换器卡应该首先通过哪个接口接收信元(或数据分组)。接收顺序指令可以允许电子交换器卡确保以适当的顺序发送或接收光子帧,从而发送或接收数据分组。
图9A至图9D示出了根据实施例的图8的交换系统800的时延性能。测量了交换系统800的时延时间性能,并依据平均和最大延迟得到结果。在测量时延性能时,使用了两种类型的流量负载(或分组负载)——均匀负载和非均匀负载。
流量负载的均匀性水平可以由因子alpha表示,其中alpha=0表示完美的均匀性,而alpha=1表示点对点分布。例如,假设有四个网络节点,当alpha为0时(即完美均匀性),每个节点都可以向所有节点发送和从所有节点接收。当alpha为1时(即点对点分布),每个节点只可以发送给一个节点,也只可以从一个节点接收。当alpha为0.5时,每个节点可以向一半的节点发送和从一半的节点接收(例如,向两个节点发送和从两个节点接收)。
当所有SFU具有到所有目的地的相同流量负载量时,这是均匀流量负载。另一方面,当流量随时间变化时(例如,在突发传输中)是非均匀负载,并且流量(例如,从SFU发送的流量)可以被发送到选定的目的地组。
图9A和9B分别示出了通过LQF-SA(具有饥饿避免的长队列优先)调度方案的针对均匀流量负载和非均匀流量负载的平均延迟和最大延迟。如图9A所示,对均匀流量负载和非均匀流量负载的平均延迟而言,时延性能没有太大差异。所有流量的平均延迟小于5个时隙(帧)。然而,非均匀流量负载的最大延迟通常高于均匀流量负载的最大延迟,特别是目的地的随时间非线性变化时。如图9B所示,对于非均匀流量负载,最大延迟小于35个时隙(帧),但是对于均匀流量负载,最大延迟小于15个时隙(帧)。注意到每类(例如,低和高两类)每个CLC的片上缓冲区的时延性能可以是无背压时最大35个时隙(例如,每个芯片250MB),或有背压时30MB。
图9C和9D分别示出了通过LQF(最长队列优先)调度方案和LQF-SA调度方案的均匀负载的时延性能。如图9C和9D所示,LQF-SA调度方案可能更适合光子调度。虽然LQF调度方案和LQF-SA调度方案的平均延迟相似,但LQF调度方案的最大延迟通常高于LQF-SA调度方案的最大延迟。在相同均匀流量负载量(例如,均匀目的地负载)的情况下,测量到的LQF调度方案的最大延迟大约在25和52个时隙范围内,而测量到的LQF-SA调度方案的最大延迟大约在10和17个时隙的范围内。
图10示出了根据实施例的以各种(交换)片上缓冲区的大小测量的暂停消息率(每帧暂停的次数)。在此,暂停消息率(例如,每帧暂停的次数)可以指示用于调度和带宽分配的流量。对于图10所示的每帧暂停测量。使用了总吞吐量(或总交换容量)为3.2Pbps的扩展光子交换系统。该扩展光子交换系统可以具有64个CLC。在这种情况下,为每个结构接口ASIC/FPGA提供总共64个缓冲区。
根据实施例,光子功能的逻辑具有实现优先级。剩余的芯片资源可以分配给缓冲区。因此,暂停率可以取决于片上缓冲区的大小。需要注意的是,在一些其他实施例中,片外缓冲区可能与SRAM、Hyper RAM或RLDRAM一起使用)。
根据实施例,每个SFU芯片的总片上缓冲区大小可以计算为64个机箱x F x800Gbps=6.4x F MB,其中F代表每个缓冲区的大小,单位微秒。例如,每个CLC有35帧缓冲,每个SFU芯片(具有800Gbps排队速率)的总缓冲区大小为224MB(即800Gbps x 35微秒x 64=1.792Gb=224MB)。如果每个CLC的每个缓冲区最多可容纳20帧(例如,20帧缓冲),则每个SFU芯片(具有800Gbps排队速率)的总缓冲区大小为128MB(即800Gbps x 20微秒x 64=1.028Gb=128MB)。如果每个CLC的每个缓冲区最多可容纳5帧(例如,5帧缓冲),则每个SFU芯片(具有800Gbps排队速率)的总片上缓冲区大小为32MB(即800Gbps x 5微秒x 64=256Mb=32MB)。
根据实施例,需要每个缓冲区容纳最多35帧的最大延迟(例如,35微秒,每帧1微秒),尤其是在考虑图9B中所示的非均匀流量负载的最大延迟时。然而,在某些情况下,片上缓冲区大小可能要小得多。在这种情况下,例如当片上缓冲区仅能容纳5帧时,由于片上缓冲区大小有限,可以使用SFU和LPU之间的暂停/背压方案来避免丢失分组。
需要注意的是,暂停率可以隐含估计要发送到目的地CLC的数据量。除非线卡收到暂停信号,否则线卡可以继续向该目的地的缓冲区发送。如果未接收到暂停信号,则到该目的地CLC的流量可能不会很大。但是,当到该目的地CLC的流量很高时,会(更频繁地)发送暂停信号,因此暂停率将相应地增加。
在一些实施例中,带宽分配可以使用暂停率作为到目的地CLC的流量量的度量以将容量分配给电子交换器卡。需要注意的是,由线卡向控制器发送队列深度可能会改变“线卡没有变化”的假设。
参考图10,在4帧缓冲的情况下,总片上缓冲区大小为25.6MB(即800Gbps x 4微秒x 64=204.8Mb=25.6MB)并且每帧可以有0.5个暂停消息。换句话说,对于4帧缓冲,每2微秒会有一个暂停消息。类似地,在6帧缓冲的情况下,总片上缓冲区大小为38.4MB(即800Gbps x 6微秒x 64=307.2Mb=38.4MB)并且每帧可以有0.4个暂停消息,因此每2.5微秒会有一个暂停消息。在10帧缓冲的情况下,总片上缓冲区大小为64MB(即800Gbps x 10微秒x 64=512Mb=64MB)并且每帧可以有0.2个暂停消息,因此每5微秒会有一个暂停消息。在20帧缓冲的情况下,总片上缓冲区大小为128MB(即800Gbps x 20微秒x 64=1.028Gb=128MB)并且每帧可以有0.1个暂停消息,因此10微秒会有一条暂停消息。在35帧缓冲的情况下,总片上缓冲区大小为224MB(即800Gbps x 35微秒x 64=1.792Gb=224MB)并且每帧没有暂停消息。参考图9B,如果每个缓冲器最多可容纳35帧的最大延迟,则每个缓冲区能够容纳估计的最坏情况时延(例如,35帧)。
图11A和11B示出了根据实施例的被透明嵌入到电子机箱的新光子功能。图11A和11B所示的电子交换器可以是基于信元交换器,其允许CLC的架内流量。架内流量可以是同一个CLC内两个LPU之间的流量。电子交换器可以支持不同CLC中的两个LPU之间的架间流量。在架间流量的情况下,来自源LPU的信元(或数据分组)可以通过(每目的地)机箱缓冲区,并且信元(或数据分组)可以通过信元包装器(例如,图7中的信元包装器710)包裹到光子信元(或光子帧)中。然后,包装的光子信元可以通过时隙光子交换结构。
每目的地机箱缓冲区可以为每个CLC目的地执行片上缓冲。电子交换器卡中的机箱缓冲器可能只有几个时隙的容量。机箱缓冲区可以不需要更深的队列,因为线卡(例如,LPU)中有一个容量更大的主队列。在各种实施例中,线卡中的主队列可以支持按类排队(例如多类支持)、多播和优先级处理。
根据实施例,可以由电子交换器控制器执行暂停和流控制。电子交换器控制器可以向线卡(例如,LPU)发送暂停信号,以防止线卡比实际指定的时隙(或预定时间)更早地向电子交换器卡发送与指定用于数据分组传输的时隙相对应的数据分组,以确保缓冲区(例如,(每目的地)CLC机箱的缓冲区)中存在的数据量不会达到阈值。只要缓冲区(例如,每目的地CLC机箱的缓冲区)还没有达到阈值,线卡(例如,LPU)就可以传输数据分组。根据实施例,控制信令(例如,控制路径功能)可以由主控制器(例如,CCC控制卡)执行,使得多个交换器可以充当一个交换器。
根据实施例,新光子功能可以包括用于将信元(或数据分组)成帧到光子信元中的信元包装器和用于解开光子信元的信元展开器。ASIC/FPGA可用于在发送侧将单元包装到光子信元中或在接收侧展开光子信元。一旦分配了时隙,就可以执行包装信元或解开光子信元。
图11A示出了一个实施例,其中电子交换器卡(例如,SFU 1100a)中的现有电子交换器(例如,电子交换器1110)通信地连接到包含新光子功能的新芯片。参考图11A,新光子功能可以被置于电子交换器卡或SFU的OFC插头1120中。
在一些实施例中,可以使用光学柔性卡(Optical Flexible Card,OFC)插头。使用包含新光子功能的OFC插头会显着提高可服务性、主板可重用性和维护方面的性能。例如,当前可用的SFU(例如,SFU 1100)有两个OFC插头插槽,其中每个OFC插头插槽包含12x100Gbps可插拔收发器。在这种情况下,每个SFU(例如,SFU 1100)具有2.4Tbps的互联性。在另一种配置中,同一SFU的每个OFC插头插槽可以容纳4个包含新光子功能的新OFC插头。因此,每个SFU可以容纳8个具有新光子功能的OFC插头。新OFC插头1120中的每一个插头可以容纳具有800Gbps数据速率的现成收发器。这样,具有包含光子功能的新OFC插头的SFU可以具有6.4Tbps(2x4x800 Gbps)的互联性。需要注意的是,对于包含新光子功能的OFC插头的使用,需要在密度和适用性之间进行权衡。如果不将OFC插头用于新光子功能,则可以实现更高的密度,但灵活性可能会降低(例如,可适用性较低)。
在一些实施例中,新光子功能可以分成两组或更多组,并且每组光子功能可以置于母板、电子交换器卡的插头(例如,OFC插头1120)或两者中。当没有足够的空间在现有的电子交换器卡中放置所有新光子功能时,本实施例可能是有用的。怎样将光子功能分组以及每组光子功能的放置位置可以基于对芯片设计效率、电路板空间的使用或两者的考虑来确定。
图11B示出了一个实施例,其中电子交换器卡(例如,SFU 1100b)中的现有信元交换器被改进以包括新光子功能,这样使新光子功能成为信元交换器的一部分。改进的信元交换器(例如,电子交换器1130)可以使用包含收发器的OFC插头(例如,具有现成收发器的OFC插头1140),使其可以通信地连接到光子交换器。
一些方面和实施例可以提供若干益处,并且补充当前的电子分组交换技术而不是与之竞争。例如,在各种实施例中,虽然集群中央机箱(CCC)可以包含光子交换器,但是CLC中的所有交换器都可以是电子交换器。这样,无需更改数据中心的集群线路机箱(CLC)中现有的线卡,从而最大限度地减少包括前期投资在内的财务成本。实施例可能需要对当前机箱的通用设备进行改变,从而可以降低成本。如另一个示例,实施例允许对现有分组交换系统进行透明的光子扩展,因为光子功能可以被透明地嵌入到电子分组交换器的当前机箱中,并且嵌入的光子功能是当前机箱的通用设备的一部分。此外,透明嵌入的光子功能不会对现有功能产生影响。
实施例提供的额外益处可以包括:
(i)为核心交换器(例如,光子交换器)提供更高的可扩展性;
(ii)因为核心交换器上不需要收发器,所以降低了成本(例如,可以取消大量收发器);
(iii)因为不需要收发器,而且光子交换器(例如,SiP交换器)的功耗比电子信元交换器低得多,所以降低了功耗;以及
(iv)因为需要的核心机箱更少,所以占用空间更小。
应当理解的是,虽然为了说明的目的已经在本文中描述了本技术的特定实施例,但是在不脱离本技术的范围的情况下可以做出各种修改。因此,说明书和附图被简单地视为由所附权利要求所限定的本发明的说明,并且预期涵盖落入本发明范围内的任何和所有修改、变化、组合或等效物。
显而易见的,本发明的前述实施例是示例并且可以以多种方式变化。此类当前或未来的变化不应被视为脱离本发明的精神和范围,并且对于本领域技术人员而言显而易见的所有此类修改旨在被包括在以下权利要求的范围内。
Claims (20)
1.一种电子交换器卡,通信地与一个或多个光子交换器接口,所述电子交换器卡包括:
信元交换器,通信地连接到一个或多个线卡,其中所述一个或多个线卡中的每一个线卡包括一个或多个主队列;以及
电子交换器芯片,集成一个或多个光子功能,所述电子交换器芯片通信地耦合到所述信元交换器,并且与所述一个或多个光子交换器通信地连接。
2.根据权利要求1所述的电子交换器卡,其中所述电子交换器芯片包括:
电子交换器控制器,被配置为向所述一个或多个线卡发送控制信号;
一个或多个每目的地机箱缓冲区,与所述电子交换器控制器通信地连接;以及
一个或多个交换器缓冲区,与所述电子交换器控制器通信地连接。
3.根据权利要求2所述的电子交换器卡,其中所述电子交换器控制器被配置为在确定所述一个或多个每目的地机箱缓冲区和所述一个或多个交换器缓冲区达到或超过阈值时,向所述一个或多个线卡发送暂停信号。
4.根据权利要求2和3中任一项所述的电子交换器卡,其中所述电子交换器控制器还被配置为向光子交换器控制器发送控制信号。
5.根据权利要求1-4中任一项所述的电子交换器卡,其中所述一个或多个线卡不能与所述一个或多个光子交换器接口或直接通信。
6.根据权利要求1-5中任一项所述的电子交换器卡,其中所述电子交换器芯片还包括一个或多个信元包装器,所述一个或多个信元包装器被配置为在光子信元中包装一个或多个信元或帧。
7.根据权利要求1-6中任一项所述的电子交换器卡,其中所述电子交换器芯片还包括一个或多个信元展开器,被配置为展开一个或多个光子信元。
8.根据权利要求4所述的电子交换器卡,其中所述电子交换器控制器还被配置为向所述光子交换控制发送缓冲区报告,所述缓冲区报告包括暂停信令率和缓冲区深度中的一个或多个。
9.根据权利要求8所述的电子交换器卡,其中所述暂停信令率指示向所述一个或多个线卡发送暂停信号的频率,所述缓冲区深度指示所述一个或多个每目的地机箱缓冲区中的空间可用性。
10.根据权利要求8所述的电子交换器卡,其中所述暂停信令率指示到一个或多个目的地机箱的流量。
11.根据权利要求1-10中任一项所述的电子交换器卡,其中所述一个或多个主队列支持按类排队、多播或优先级处理。
12.根据权利要求1-11中任一项所述的电子交换器卡,其中所述电子交换器芯片被集成到所述信号交换器。
13.根据权利要求3所述的电子交换器卡,其中所述光子交换器控制器包括彼此通信地连接的一个或多个集群中央机箱CCC控制卡,所述一个或多个CCC控制卡共同处理针对所述一个或多个线卡的一个或多个带宽。
14.根据权利要求12所述的电子交换器卡,其中所述一个或多个CCC控制卡中的每一个CCC控制卡处理针对所述一个或多个线卡的一个或多个带宽的一部分。
15.一种集群中央机箱CCC控制器,被配置为控制一个或多个光子交换器,所述CCC控制器包括:
接口,用于从一个或多个电子交换器控制器接收数据,以及向所述一个或多个电子交换器控制器发送数据;
一个或多个处理器;以及
用于存储指令的机器可读存储器,当所述指令被所述一个或多个处理器执行时,使得所述CCC控制器被配置为:
接收包括暂停信令率和缓冲区深度中的一个或多个的缓冲区报告,其中所述暂停信令率指示暂停信号发送频率,所述缓冲区深度指示针对目的地指定的一个或多个每目的地机箱缓冲区中的空间可用性;以及
至少部分地基于所述缓冲器报告,为所述一个或多个每目的地机箱缓冲区分配一个或多个带宽和一个或多个接口。
16.一种使用一个或多个电子交换器卡和一个或多个光子交换器控制光子信元传输的方法,所述方法包括:
发送包括暂停信令率和缓冲区深度中的一个或多个的缓冲区报告,其中所述暂停信令率指示暂停信号发送频率,所述缓冲区深度指示针对目的地指定的一个或多个每目的地机箱缓冲区中的空间可用性;以及
当所述一个或多个每目的地机箱缓冲区达到阈值时,从所述一个或多个电子交换器卡向通信地连接到所述一个或多个电子交换器卡的一个或多个线卡发送暂停信号。
17.一种使用一个或多个电子交换器卡和一个或多个光子交换器的光子信元传输的方法,所述方法包括:
针对一个或多个时隙调度所述光子信元传输;
在所述调度时,至少部分地基于暂停信令率和缓冲区深度中的一个或多个,分配一个或多个带宽和一个或多个接口,其中所述暂停信令率指示暂停信号发送频率,所述缓冲区深度指示针对目的地指定的一个或多个每目的地机箱缓冲区中的空间可用性;
确定所述光子信元传输的路径;
针对经调度的所述光子信元的传输配置所述一个或多个光子交换器;
将所述光子信元发送到经由所述一个或多个接口分配的所述一个或多个光子交换器。
18.根据权利要求17所述的方法,其中所述光子信元经由两个或多个接口被发送到所述一个或多个光子交换器。
19.根据权利要求17和18中任一项所述的方法,其中所述光子信元按照所述目的地已知的顺序,被发送到所述一个或多个光子交换器。
20.根据权利要求19所述的方法,其中所述目的地已知的所述顺序基于所述一个或多个接口的接口数量。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962840988P | 2019-04-30 | 2019-04-30 | |
US62/840,988 | 2019-04-30 | ||
US16/687,283 | 2019-11-18 | ||
US16/687,283 US11165711B2 (en) | 2019-04-30 | 2019-11-18 | Methods and apparatuses for transparent embedding of photonic switching into electronic chassis for scaling data center cloud system |
PCT/CN2020/087709 WO2020221285A1 (en) | 2019-04-30 | 2020-04-29 | Methods and apparatuses for transparent embedding of photonic switching into electronic chassis for scaling data center cloud system |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113261303A true CN113261303A (zh) | 2021-08-13 |
CN113261303B CN113261303B (zh) | 2022-06-07 |
Family
ID=73016827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080007905.5A Active CN113261303B (zh) | 2019-04-30 | 2020-04-29 | 用于将光子交换透明嵌入到电子机箱的方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11165711B2 (zh) |
EP (1) | EP3903506B1 (zh) |
JP (1) | JP7212796B2 (zh) |
CN (1) | CN113261303B (zh) |
WO (1) | WO2020221285A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113645526A (zh) * | 2021-10-18 | 2021-11-12 | 阿里云计算有限公司 | 一种流量传输方法、装置和系统 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220044092A1 (en) | 2020-08-06 | 2022-02-10 | Celestial Ai Inc. | Coherent photonic computing architectures |
US20230297237A1 (en) * | 2022-03-18 | 2023-09-21 | Celestial Ai Inc. | Photonic memory fabric for system memory interconnection |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2151293A1 (en) * | 1994-06-10 | 1995-12-11 | Steven P. Weir | Improvements in or relating to integrated network switch with variable functions |
WO2015060820A1 (en) * | 2013-10-22 | 2015-04-30 | Hewlett-Packard Development Company, L.P. | Hybrid circuit-packet switch |
CN106134116A (zh) * | 2014-04-25 | 2016-11-16 | 华为技术有限公司 | 采用pic交换机的可扩展光分组结构的装置与方法 |
WO2016180315A1 (en) * | 2015-05-13 | 2016-11-17 | Huawei Technologies Co., Ltd. | System and method for hybrid photonic electronic switching |
CN106797270A (zh) * | 2014-10-07 | 2017-05-31 | 华为技术有限公司 | 光子交换中用于换向的系统和方法 |
US20180359194A1 (en) * | 2015-11-24 | 2018-12-13 | New H3C Technologies Co., Ltd. | Line card chassis, multi-chassis cluster router, route selecting, and packet processing |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4553768B2 (ja) | 2005-03-29 | 2010-09-29 | 富士通株式会社 | 光パケットスイッチシステム |
EP2572475B1 (en) | 2010-05-20 | 2019-05-15 | Hewlett-Packard Enterprise Development LP | Switching in a network device |
US9369202B2 (en) * | 2013-04-05 | 2016-06-14 | Nec Corporation | Elastic client interface for tunable optical transponder |
US9781495B2 (en) | 2014-08-14 | 2017-10-03 | Huawei Technologies Co., Ltd. | Optical switch architecture |
US9654849B2 (en) | 2015-05-15 | 2017-05-16 | Huawei Technologies Co., Ltd. | System and method for photonic switching |
US9794656B2 (en) | 2015-12-11 | 2017-10-17 | Huawei Technologies Co., Ltd. | Modular photonic switch architecture |
KR102524579B1 (ko) * | 2017-01-06 | 2023-04-24 | 한국전자통신연구원 | 파장 가변 레이저 다이오드의 파장이 변환되는 시간에 기초하여 포토닉 프레임을 전송할 시간을 결정하는 포토닉 프레임 스위칭 시스템 |
GB2561974B (en) * | 2017-03-23 | 2022-05-04 | Rockley Photonics Ltd | Leaf switch module and optoelectronic switch |
-
2019
- 2019-11-18 US US16/687,283 patent/US11165711B2/en active Active
-
2020
- 2020-04-29 JP JP2021549536A patent/JP7212796B2/ja active Active
- 2020-04-29 EP EP20798618.3A patent/EP3903506B1/en active Active
- 2020-04-29 CN CN202080007905.5A patent/CN113261303B/zh active Active
- 2020-04-29 WO PCT/CN2020/087709 patent/WO2020221285A1/en unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2151293A1 (en) * | 1994-06-10 | 1995-12-11 | Steven P. Weir | Improvements in or relating to integrated network switch with variable functions |
WO2015060820A1 (en) * | 2013-10-22 | 2015-04-30 | Hewlett-Packard Development Company, L.P. | Hybrid circuit-packet switch |
CN106134116A (zh) * | 2014-04-25 | 2016-11-16 | 华为技术有限公司 | 采用pic交换机的可扩展光分组结构的装置与方法 |
CN106797270A (zh) * | 2014-10-07 | 2017-05-31 | 华为技术有限公司 | 光子交换中用于换向的系统和方法 |
WO2016180315A1 (en) * | 2015-05-13 | 2016-11-17 | Huawei Technologies Co., Ltd. | System and method for hybrid photonic electronic switching |
US20180359194A1 (en) * | 2015-11-24 | 2018-12-13 | New H3C Technologies Co., Ltd. | Line card chassis, multi-chassis cluster router, route selecting, and packet processing |
Non-Patent Citations (2)
Title |
---|
THEOFANIS G. ORPHANOUDAKIS: "A Hybrid Optical Switch Architecture with Shared Electronic Buffers", <2007 9TH INTERNATIONAL CONFERENCE ON TRANSPARENT OPTICAL NETWORKS> * |
郭祥琨: "光电子通信交换技术的进展", 《环球市场信息导报》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113645526A (zh) * | 2021-10-18 | 2021-11-12 | 阿里云计算有限公司 | 一种流量传输方法、装置和系统 |
CN113645526B (zh) * | 2021-10-18 | 2021-12-28 | 阿里云计算有限公司 | 一种流量传输方法、装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
EP3903506A4 (en) | 2022-07-06 |
WO2020221285A1 (en) | 2020-11-05 |
JP7212796B2 (ja) | 2023-01-25 |
CN113261303B (zh) | 2022-06-07 |
US20200351216A1 (en) | 2020-11-05 |
EP3903506B1 (en) | 2024-08-21 |
JP2022521947A (ja) | 2022-04-13 |
US11165711B2 (en) | 2021-11-02 |
EP3903506A1 (en) | 2021-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113261303B (zh) | 用于将光子交换透明嵌入到电子机箱的方法和装置 | |
US7742489B2 (en) | Multi-protocol network interface card | |
EP1087635B1 (en) | High-capacity WDM-TDM packet switch | |
EP1779607B1 (en) | Network interconnect crosspoint switching architecture and method | |
US5787086A (en) | Method and apparatus for emulating a circuit connection in a cell based communications network | |
US20090080885A1 (en) | Scheduling method and system for optical burst switched networks | |
US7082132B1 (en) | Universal edge node | |
US7633861B2 (en) | Fabric access integrated circuit configured to bound cell reorder depth | |
WO2004107798A1 (en) | Optical burst switch network system and method with just-in-time signaling | |
US20070089030A1 (en) | Configurable bandwidth allocation for data channels accessing a memory interface | |
US7289499B1 (en) | Integrated system and method for controlling telecommunication network data communicated over a local area network and storage data communicated over a storage area network | |
Baziana et al. | Collision-free distributed MAC protocol for passive optical intra-rack data center networks | |
US6965602B2 (en) | Switch fabric capable of aggregating multiple chips and links for high bandwidth operation | |
KR100903130B1 (ko) | 메쉬 타입 온 칩 네트워크의 스위치 및 스위칭 방법 | |
Sowailem et al. | Contention resolution strategy in optical burst switched datacenters | |
Linardakis et al. | Implementation of medium access control for interconnecting slotted rings to form a WDM metropolitan area network | |
JP3880890B2 (ja) | セルスイッチ及びセル交換方法 | |
Bjornstad | Packet switched hybrid optical networks | |
US20050063305A1 (en) | Method of updating flow control while reverse link is idle | |
KR970002817B1 (ko) | 에이티엠(atm)망에서 가상경로에 의한 링크공유 제어장치 | |
Karasan et al. | Optical Networks | |
Li et al. | Design of a scalable hybrid multicast packet switch with optical fabric | |
WO1997004555A1 (en) | Method and apparatus for queuing data in a communications device | |
Yemini et al. | An Overview of the Isochronets Architecture for High Speed Networks | |
Jin et al. | An integrated architecture enabling different resource sharing schemes for AAPN networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |