CN103368853B

CN103368853B - 网络分组的simd处理

Info

Publication number: CN103368853B
Application number: CN201310302452.0A
Authority: CN
Inventors: B.E.维尔; T.T.施吕斯勒
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2008-12-30
Filing date: 2009-12-16
Publication date: 2017-09-01
Anticipated expiration: 2029-12-16
Also published as: EP2382537A2; CN102272716B; US20140036909A1; US9054987B2; CN102272716A; US8493979B2; US20100165991A1; CN103368853A; WO2010077953A3; WO2010077953A2; EP2382537A4; EP2382537B1

Abstract

本发明的名称为“网络分组的SIMD处理”。执行程序的单指令/多数据(SIMD)指令以处理数据向量，其中分组向量的每个元素对应于不同的已接收分组。

Description

网络分组的SIMD处理

背景技术

网络使得计算机和其他设备能够通信。例如，网络可承载代表视频、音频、电子邮件等的数据。典型地，跨网络发送的数据被划分为较小的被称为分组的消息。打个比方，分组非常像你丢在信箱中的信封。分组典型地包括“有效载荷”和“报头”。分组的“有效载荷”类似于信封中的信件。分组的“报头”非常像写在信封本身上的信息。报头可包括帮助网络设备适当地处理该分组的信息。例如，该报头可包括识别该分组的目的地的地址。

在到达其目的地之前，给定的分组可以“跳”过很多不同的中间网络转发设备(例如“路由器”、“网桥”和/或“交换机”)。这些中间设备通常执行各种分组处理操作。例如，中间设备通常执行分组分类，以确定如何向其目的地进一步地转发分组或确定要提供的服务的质量。

处理分组生成了各种计算负担。例如，在中间节点上，需要为每个分组制定转发或过滤决策。大量的网络业务使得对于分组的快速处理极其重要。同样地，分组处理在分组的目的地处消耗处理资源，其中分组的有效载荷被“卸载”并被重新组装成用于应用的数据流。随着速度增加，处理网络业务的负担可抢夺处理器资源的应用。

附图说明

图1是示出了使用SIMD(单指令/多数据)指令处理分组的图示。

图2是示出了一组分组向量的图示。

图3是示出了由变换后的分组数据形成的向量的图示。

图4是示出了使用SIMD指令的传输操作的图示。

具体实施方式

很多处理器提供单指令/多数据(SIMD)指令。例如，英特尔的IA(英特尔架构)处理器提供了被称为“单指令多数据流扩展”(SSE)的指令集。SIMD指令在元素向量中的每个元素上同时执行相同操作。例如，单个SIMDADD指令可对向量中的一组不同数字的每一个加上某个数字。SIMD指令典型地包括基本布尔、算术和比较操作。

由于绝大多数分组经历相同的操作，SIMD指令可被用于加速网络分组的处理。例如，在终端节点处，每个封装着传输控制协议(TCP)片段的网际协议(IP)数据报都经历验证(例如，校验和的验证)和重新组装以将有效载荷重新排序为原始传输的数据流。类似地，在跨越网络的途中，查找过程可为每个接收到的以太网帧或IP数据报确定转发信息。

图1描述了样本系统，其使用SIMD指令处理多个网络分组的向量。通过并行地在每个网络分组上操作，当与依次对每个分组进行串行处理相比时，该SIMD指令可提供吞吐量的可观增加。

更详细地，图1描绘了一种系统，其包括网络接口控制器100(NIC)，所述网络接口控制器100代表主机平台102接收分组。典型地，NIC100包括接口(例如，xMII[媒体独立接口或XAUI[附件单元接口])，其连接PHY(例如，无线，光学或有线物理层设备)至介质访问控制器(MAC)。NIC典型地包括DMA(直接存储器访问)引擎以将数据传输至主机平台102存储器/从主机平台102存储器传输数据。NIC可为分立部件，集成在主板上，和/或在也集成了处理器或处理器核的管芯上。此外，某个NIC的功能可被实施为由处理器核执行的程序指令。NIC架构变化很大，例如，一些特征卸载引擎，可编程处理器，和/或分组处理硬件辅助电路。

主机平台102可包括典型的部件，例如存储器，芯片组等，不过计算架构变化很大。如图所示，该主机平台包括逻辑106，以执行SIMD处理。例如，该逻辑106可为已编程的CPU(中央处理单元)或核。例如，该SIMD106逻辑可为协议栈、操作系统或设备驱动器的程序指令。在SIMD106处理后，分组数据可被应用例如通过套接字使用。

在示出的例子中，NIC100将接收到的分组布置为向量104a-104d用于SIMD106处理。例如，如图所示，分组“a”“b”和“c”被插入向量104d中。在一些实施方式中，NIC100可连续地将分组加入向量，直到该向量满为止。然而，NIC100还可具有用以选择性地将分组分配给向量104的逻辑。例如，NIC100可具有用于数据路径和连接管理分组的不同向量，因为此类分组典型地经历不同的操作。同样地，NIC100可执行分类以确保来自于同一流的分组不被放在相同的向量104中。例如，NIC100可确定分组TCP/IP元组(例如，IP源和目的地地址和TCP源和目的地端口)以防止来自于相同连接的TCP/IP分组被分配至相同的向量。这可减少来自于多个对相同流状态数据(例如，TCP控制块[TCB])的尝试更新的竞争问题。在其他环境下，NIC100可填充向量，其中该向量中的每个分组都来自于相同的流。这种操作通过将流状态信息保持在本地存储器中，可提升一些操作的速度。

如图所示，NIC100将分组向量(例如向量104a)传输至主机平台102用于处理。各种机制可控制该传输的开始。例如，一旦位于向量队列头部的向量已满，一旦计时器已期满或通过其他中断放缓(interrupt moderation)技术，传输可发生。NIC100可通过DMA(直接存储器寻址)执行该传输至主机平台102可访问存储器中和/或通过DCA(直接缓存访问)推送执行该传输至主机平台102处理器的缓存中。NIC100然后可产生中断，该中断触发主机平台102处理分组。虽然图1描绘了在NIC100中组装的向量104a-104d，但是该NIC100可改为通过使用DMA将分组数据重新布置在主机平台102中的邻接的向量存储器位置中而初始组装104a中的向量。

SIMD106逻辑可实施多种分组处理操作。例如，这些操作的非完全列举包括：检验IP协议版本(例如IPv4或IPv6)以选择要使用的分组处理实施方式；检验IP报头长度以确定被分段的数据报的下一报头的偏移；检验服务的IP类型是否需要特殊处理；检验数据报的长度是否有效；检验分组是否被分段；检验已分段的分组的偏移以实现正确组装；检验是否已过存活时间；检验校验和是否有效；检验源和目的地地址是否有效；检验下一级协议(例如TCP或UDP)；例如使用哈希函数计算表查找以识别分组目的地从而检验该分组是否应被本地递送、被转发或被丢弃；识别核心或特定处理元素，在其上要递送用于接收分组的目的地应用(例如，接收侧缩放[RSS])；识别外出I/O接口(例如特定NIC)，在其上发送传输数据缓冲；计算和记录用于传输的校验和；分配用于外出分组的字段，协议版本，服务类型，长度，分段，存活时间，协议，当前时间戳，地址，端口号，以及序列号；检验源和目的地端口是否对应于开放连接；检验序列号是否正确并对应于按序数据，无序数据或重复数据；更新拥塞窗口的开始，结束和大小；基于分组的时间戳更新往返行程时间；确定在其上放置分组数据缓冲的传输或接收队列；和/或将分组数据缓冲插入传输或接收队列。

虽然上述许多示例与TCP/IP相关，但位于协议栈较高或较低的不同层的其他协议可类似地被实施以使用SIMD106逻辑处理分组向量。例如，异步传输模式(ATM)单元，以太网帧，ARP(地址解析协议)消息，和/或用户数据报协议(UDP)数据报(仅提到了几个例子)可经历SIMD操作。使用不同协议的分组可被导向至不同向量组(例如，TCP/IP分组分配给一组向量，ATM分配给另一组，以此类推)并可穿过不同代码路径。基于分组速率或流数量，NIC100或主机平台102软件可动态地改变使用的分组和元数据向量的大小并可选择在特定向量大小上操作的SIMD指令。

此外，虽然上面描述了样本实施方式，其他的实施方式可将操作不同地分布在系统部件中。例如，描述为由NIC100执行的操作可由主机平台102执行，使得SIMD方案能与传统的NIC100架构一同工作。也就是说，NIC100可便利地将分组传输给主机平台102，主机平台将分组分配给向量用于处理。此外，NIC100本身可具有SIMD处理器，例如，以端接TCP或执行接收侧卸载(RSO)，其将多个接收到的分组组装成较大的单个分组。

除了常规的SIMD指令外，特定于网络或I/O任务的SIMD指令可被使用。例如，可使用单个SIMD CRC(循环冗余检验)指令为分组向量计算CRC。其他指令可计算哈希值，执行加密/解密，字符串匹配，以及其他操作。例如，在TCP分组向量上执行部分TCP校验和的指令可被定义为：

vpartchecksum v1{k1}，v2

其中该指令为v2中分组数据向量中的每个元素的前8个字节计算部分TCP校验和并将部分校验和结果添加至v1中找到的运行校验和。得到的反码和(ones complementsum)被可选向量掩码k1掩蔽，并且相应的结果存储在v1中。例如，一组分组的TCP校验和可基于以下伪代码确定，其中，向量v1存储运行校验和，向量v2存储剩余要被计算校验和的分组长度，并且向量v3在整个分组数据中进行索引：

loop_start：

vcmp v2，k1，16，gt

//将v2中的分组长度与16相比，对于每个具有剩余长度的分组，设置k1中的相应比特

vpartchecksum v1，k1，v2

//对于还有剩余数据的分组，对接下来的16字节数据计算部分校验和vsubv2，k1，16

//从剩余要为每个分组计算校验和的数据量向量减去16

vaddv3，k1，16

//递增迭代器以指向要被计算校验和的下一数据块

bnz k1，loop_start

//循环，直到在向量中的所有分组上已经完成校验和

当然，本指令和其他指令可具有非常不同的句法并执行其他操作。

图1描绘了存储整个分组报头的向量104，然而，其他的实施方式可不同。例如，典型地，向量104可仅仅存储与分组有效载荷分离的分组报头。该有效载荷可被存储(例如，DMA)至主机平台102存储器。

虽然图1仅描绘了分组向量，也可使用其他向量。例如，如上文所述，给定的分组向量可不被完全填充，例如，当在将分组分配给每个向量元素之前中断放缓时间段期满时。为了区分空的向量元素与那些已经填充的向量元素，图2描绘了分组向量108b和占用掩码08a。占用掩码108a元素与分组向量108b元素具有一对一的关系。每个占用掩码108a元素识别网络分组是否被插入相应的分组向量108b元素。在示出的示例中，分组向量108b包括分组p1，p2和p4，其中第三元素空缺(画有阴影)。该空缺在占用掩码108a中由相应的“0”表示。如果在分组向量中不存在分组，那么可替代地可以存在仿真分组，从而SIMD操作仍可在向量108b上执行。当处理完成时仿真分组可被丢弃。

在向量中，对一些分组的处理可能不同于对其他分组的处理。例如，设置有“紧急”标志的TCP片段可被单独处理或可基于分组类型将分组移动至不同的向量(例如，在IP处理后，封装后的UDP分组可在与TCP片段不同的向量中处理)。这些分组可被短暂或永久地从SIMD处理中移除以被顺序处理(例如，之后完全由MIMD(多指令/多数据)指令处理)或传输至其他的向量。仿真分组可被替代进其中分歧的分组(divergent packet)被移除的分组向量中。如果以及当分歧完成时，分组可被重新插入分组向量中并且从占用掩码中移除指示。

图2此外描绘了另一向量108c，其为向量108b中的相应分组存储流状态信息(例如TCB)。该流状态可被从其原始存储器拷贝至流状态向量108c中。当处理完成时，该流状态数据的改变可被写回至原始存储器。额外的向量(未示出)也可被使用。例如，分组元数据向量可被用于存储信息，例如有效载荷地址，报头元组的哈希值，以及其他与分组相关或从分组导出的数据。除了上文所讨论的向量外，分组处理操作可按需使用额外的向量和/或按需要重新布置向量信息。

图1描绘了其中每个向量元素均对应于分组的向量。然而，如果向量存储从一组分组和/或分组元数据中的每个提取的特定字段，SIMD处理可获益。例如，图3描绘了分组P₁-P₄，每个都具有报头字段A，B和C。如图所示，向量104a可以由每个分组的字段B构造。例如，每个向量104a元素可为分组的TCP序列号。实施方式可具有很多这种向量以反映操作的不同字段。换句话说，来自单个分组的数据可被分布于很多这种向量中。一些实施方式可在由组合的字段而不是单独字段形成的向量上例如基于SIMD指令期望的字段大小操作。例如，可能优选的是将所有单比特TCP标志组合为单个组合字段。虽然图3被描绘为在报头字段上操作，但是有效载荷内的其他字段可被使用，例如，以支持深层分组检查。

通常，NIC将从PHY接收作为跨越整个分组的比特序列的分组数据。将分组比特从单个分组比特集合变换为一个或多个字段向量可由NIC100上的硬接线或可编程电路执行。然而，另一实施方式可使用DMA/DCA来将分组字段布置为向量。例如，第一分组报头字段可被传输至存储器地址A(向量的元素1)而第二分组报头字段可被传输至存储器地址A+[字段宽度](向量的元素2)。换句话说，取代NIC电路物理地构建该向量，通过使用PHY中的不同地址逻辑和DMA/DCA引擎以读取/写入分组数据，分组变换为字段向量自动地发生。

虽然上文描述了接收分组的进入处理，SIMD操作可被同样地用于要传输的分组的外出处理。例如，如图4所示，应用可传递数据以传输至使用SIMD指令实施的协议栈。该栈为数据创建分组和元数据向量。再者，潜在地，该表示可具有分组向量和/或分组字段向量。当在队列头部的向量已满，当计时器期满，或者其他事件发生时，该向量被使用SIMD操作处理并且然后被与传输的数据一起传输(例如通过DMA)至NIC。该SIMD操作可包括为数据生成分组报头，执行分段，等等。该NIC然后可组装分组比特序列用于由PHY传输。再者，代替将向量传输至NIC，主机平台102可传输离散的分组以与传统的NIC操作交互。潜在地，NIC驱动器或操作系统可具有指令以确定NIC是否可支持和/或配置NIC以处理基于向量的通信。该驱动器还可识别哪些感兴趣的分组字段应被向量化，如何将数据传输至主机平台102存储器，等等。

实施方式的变化可以很大。分组向量的处理可被分布于多个硬件线程、核、管芯、虚拟机、分区、相干域(coherent domain)和/或任何其他这种执行单元中。分组向量的处理可被分布从而相同网络流的每个分组在相同执行单元上被处理。微引擎，卸载引擎，复制引擎或其他逻辑可存在于NIC，主机系统或CPU上，所述微引擎，卸载引擎，复制引擎或其他逻辑在整个分组向量上执行同时操作。此外，虽然关于网络分组描述了分组的SIMD处理，但是该技术可广泛地应用于外围I/O设备通信控制字段，该主机平台对于所述通信控制字段可执行可并行化的计算或逻辑操作。该技术可被例如用于处理存储命令，响应和/或数据的SCSI(小型计算机系统接口)，iSCSI(因特网SCSI)，和/或SATA(串行高级技术附件)分组(例如，帧或其他协议数据单元)。

本文中使用的术语电路包括硬件电路，数字电路，模拟电路，可编程电路等等。该可编程电路可依靠存储在计算机可读存储介质上的计算机程序来操作。

其他实施例也在下述权利要求的范围内。

Claims

1.一种处理网络分组的系统，包括：

访问网络分组数据的阵列的装置，单独的阵列元素包括网络分组报头的字段的严格子集，相应的阵列元素对应于不同的相应的网络分组；以及

导致与所述不同的相应的网络分组对应的所述相应的阵列元素的单指令、并行处理的装置。

2.如权利要求1所述的系统，其中所述相应的阵列元素的所述单指令、并行处理包括向前查找。

3.如权利要求1所述的系统，其中所述相应的阵列元素的所述单指令、并行处理包括基于包括在所述相应的网络分组报头的字段的严格子集中的数据的哈希。

4.如权利要求1所述的系统，其中所述网络分组报头包括传输控制协议（TCP）片段报头。

5.如权利要求1所述的系统，其中所述网络分组报头包括网际协议（IP）数据报报头。

6.如权利要求1所述的系统，其中字段的严格子集包括来自传输控制协议（TCP）片段报头的至少一个字段和来自网际协议（IP）数据报报头的至少一个字段。

7.如权利要求1所述的系统，其中网络分组数据的阵列包括通过网络接口控制器的电路布置的数据，所述网络接口控制器至少包括到PHY的接口。

8.如权利要求1所述的系统，其中网络分组数据的阵列包括通过直接存储器访问（DMA）从网络接口控制器先前传输到存储器的数据。

9.如权利要求1所述的系统，其中所述相应的阵列元素的所述单指令、并行处理包括更新与所述相应的网络分组相关联的流状态数据。

10.如权利要求9所述的系统，其中所述流状态数据包括流状态数据的阵列，其中所述流状态数据的阵列的相应的元素对应于网络分组数据的阵列的相应的网络分组。

11.一种处理网络分组的系统，包括：

至少一个处理器，能够进行阵列元素的单指令、并行处理；

逻辑单元，在操作时执行：

访问网络分组数据的阵列，单独的阵列元素包括网络分组报头的字段的严格子集，相应的阵列元素对应于不同的相应的网络分组；以及

导致通过所述至少一个处理器的、与所述不同的相应的网络分组相对应的所述相应的阵列元素的单指令、并行处理。

12.如权利要求11所述的系统，其中所述相应的阵列元素的所述单指令、并行处理包括向前查找。

13.如权利要求11所述的系统，其中所述相应的阵列元素的所述单指令、并行处理包括基于包括在字段的严格子集中的数据的哈希。

14.如权利要求11所述的系统，其中所述至少一个网络分组报头包括传输控制协议（TCP）片段报头。