CN113438182A

CN113438182A - 一种基于信用的流量控制系统和流量控制方法

Info

Publication number: CN113438182A
Application number: CN202110344260.0A
Authority: CN
Inventors: 田臣; 赵瑞源
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-09-24
Anticipated expiration: 2041-03-30
Also published as: CN113438182B

Abstract

本发明公开了一种基于信用的流量控制系统，包括：接收缓冲队列；信用管理模块，用于在信用配额大于等于最大传输单元时，将接收到的应用层的报文发送到位于链路层的发送器，并更新信用配额；分用器，用于区分接收器输出的报文类型，将普通报文发送至接收缓冲队列，将信用归还报文依次经发送器、接收器和分用器发送至信用管理模块以刷新信用管理模块的信用配额；信用生成模块，用于对接收缓冲队列中的取出报文进行监听，更新通过监听窗口的数据的累加量；当通过监听窗口的数据的累加量大于更新阈值时，生成信用归还报文。本发明能够利用已有的网络设备和链路层技术构建网络，提供无数据丢失和无带宽损失的保证，同时具有低时延的优点。

Description

一种基于信用的流量控制系统和流量控制方法

技术领域

本发明涉及无损网络构建技术领域，具体而言涉及一种基于信用的流量控制系统和流量控制方法。

背景技术

信息技术的日益进步，催生了许多对大规模数据分析的需求。图结构能够自然地表达现实世界中众多实体和实体间的复杂关系，因而由图结构表达的大规模数据，在生产生活中有着许多重要应用。图的规模可以非常大，比如社交网络图，节点可达十亿规模。如何对这些大规模图数据进行高性能分析，是一项非常有挑战的工作。

BSP(Bulk Synchronous Process)模型是一个并行计算模型，它把计算节点的计算看成若干超步的迭代，每个超步中包括本地计算、数据通信、全局同步。实践中，基于这个模型，流行的图计算系统把迭代程序分解为三个步骤，采集(gather)，计算(apply)，发散(scatter)：即计算节点先收集所有邻居节点的信息，然后计算并更新本地数据，最后再把新的状态通过消息传递推送到邻居节点。

FPGA相比于CPU，具有更高的带宽和更低的时延，在图计算领域，基于FPGA的异构加速受到越来越多的关注。典型地，FPGA上实现若干并行处理核心，核心之间通过片上网络(Network on Chip)互连。得益于高速串口，多个FPGA计算节点之间可以通过高速串口和高速网络互连，组成分布式计算环境。

基于BSP模型的分布式图计算需要在所有节点之间同步，单个节点的延迟或错误会拖慢整个系统，所以消息的丢失是不被容忍的；又因为图的幂律分布，网络流量会有很多小的突发，所以，分布式的图计算要求网络提供两个保证，无损失的，能够在低时延的情况下容忍突发。

数据中心中使用RoCEv2(RDMA over Converged Ethernet)来构建无损网络。RoCEv2使用UDP来封装RDMA的传输层协议，这本身带来一定的性能开销。RoCEv2通过在二层使用PFC(Priority-based Flow Control)和在三层使用ECN(Explicit CongestionNotification)控制流量来实现无损。其基本原理都是通过在接收端出现一定程度拥塞后反馈控制来抑制发送端的发送来防止报文丢失。这会带来带宽损失。基于InfiniBand架构的InfiiniBand技术链路层支持使用基于信用的流量控制实现无损，没有带宽损失。然而，因为是专有产品，其上层私有协议引入了不必要的复杂性和开销，例如，要求应用使用网络前先创建QP(Queue Pair)，是面向连接的，而BSP模型使用消息传递机制，是无连接的。

发明内容

本发明针对现有技术中的不足，提供一种基于信用的流量控制系统和流量控制方法，针对基于BSP模型的高性能分布式计算，利用已有的网络设备和链路层技术构建网络，提供无数据丢失和无带宽损失的保证，同时具有低时延的优点。

为实现上述目的，本发明采用以下技术方案：

第一方面，本发明实施例提出了一种基于信用的流量控制系统，所述流量控制系统包括：

接收缓冲队列，其长度为max(RTT×R，Burst_max)；RTT是端到端之间的往返时延，R是链路带宽，Burst_max是网络节点在上层算法的一个同步周期的时间内所可能收到的最大突发流量；

信用管理模块，具有一个信用配额Quota，信用配额Quota的初始值为RTT×R，用于在信用配额Quota大于等于最大传输单元MTU时，将接收到的应用层的报文发送到位于链路层的发送器，并更新信用配额Quota＝Quota-T_send，T_send是发送至发送器的报文的长度；

分用器，其输入端与接收器的输出端连接，两个输出端分别与接收缓冲队列和信用管理模块连接，分用器用于区分位于链路层的接收器输出的报文类型，报文类型包括普通报文和信用归还报文两种，将普通报文发送至接收缓冲队列，将信用归还报文依次经发送器、接收器和分用器发送至信用管理模块以刷新信用管理模块的信用配额Quota＝Quota+update_c；

信用生成模块，用于对接收缓冲队列中的取出报文进行监听，计算通过监听窗口的数据量T_recv，更新通过监听窗口的数据的累加量T_accum＝T_accum+T_recv；当通过监听窗口的数据的累加量T_accum大于更新阈值update_c时，生成信用归还报文刷新信用管理模块的信用配额，并使累加量T_accum＝T_accum-update_c。

可选的，所述流量控制系统还包括：

限速模块，与信用生成模块的输出端连接，用于对生成的信用归还报文进行限速；

复用器，包括两个输入端和一个输出端，其中一个输入端与限速模块的输出端连接，另一个输入端与信用管理模块的输出端连接，输出端与发送器的输入端连接；复用器用于优先选择限速后的信用归还报文，将之发送给发送器。

可选的，所述信用归还报文的长度为固定值len_c，等于链路上的最小报文长度。信用归还报文占用链路带宽的比率λ，小于或等于链路上最小报文长度与最大报文长度的比值。

可选的，所述更新阈值update_c满足以下条件：

update_c＝len_c/λ。

可选的，所述信用生成模块包括：

监听窗口，与接收缓冲队列连接，用于对接收缓冲队列中的取出报文进行监听，计算通过监听窗口的数据量T_recv，；

累加器，与监听窗口连接，用于维护通过监听窗口的数据的累加量T_accum；

第一判断单元，其包括两个输入端和两个输出端，两个输入信号分别为累加器的输出信号和更新阈值信号，两个输出端分别连接至报文生成单元和累加器；判断单元用于判断监听窗口的数据的累加量T_accum大于更新阈值update_c；

报文生成单元，其输入端与判断单元的输出端连接，输出端与限速模块连接，当通过监听窗口的数据的累加量T_accum大于更新阈值update_c时，生成信用归还报文，并使累加量T_accum＝T_accum-update_c。

可选的，所述信用管理模块包括发送缓冲队列、信用授权单元、信用配额计数器和第二判断单元；

所述信用配额计数器用于维护信用配额Quota；当发送缓冲队列中有报文发送至发送器时，更新信用配额Quota＝Quota-T_send，T_send是发送至发送器的报文的长度，当接收到信用归还报文时，更新信用配额Quota＝Quota+update_c；

所述第二判断单元包括两个输入端和一个输出端，两个输入信号分别为信用配额计数器输出的当前信用配额Quota和最大传输单元MTU，输出端与信用授权单元连接；

所述发送缓冲队列与信用授权单元连接，用于在信用授权单元授权后，将接收到的来自应用层的报文发送到链路层；

信用授权单元，当当前信用配额Quota大于等于最大传输单元MTU时，发送授权信号至发送缓冲队列。

可选的，所述分用器利用报文中特定的标记，区分报文类型；

所述标记包括IEEE 802.1Q帧中的3比特优先级码位。

第二方面，本发明实施例提出了一种基于信用的流量控制方法，所述流量控制方法包括：

设置接收缓冲队列长度为max(RTT×R，Burst_max)；设置信用配额Quota，信用配额的初始值为RTT×R；其中，RTT是端到端之间的往返时延，R是链路带宽，Burst_max是网络节点在上层算法的一个同步周期的时间内所可能收到的最大突发流量；

接收来自位于链路层的接收器发送的报文，对报文类型进行区分，报文类型包括普通报文和信用归还报文两种；如果接收到的是普通报文，将普通报文发送至接收缓冲队列，经接收缓冲队列发送至应用层；如果接收到的是信用归还报文，更新信用配额Quota＝Quota+update_c；仅在信用配额Quota大于等于最大传输单元MTU时，将接收到的应用层的报文发送到位于链路层的发送器，并在发送后更新信用配额Quota＝Quota-T_send，T_send是发送至发送器的报文的长度；

在根据应用层请求，从接收缓冲队列中取出报文发送至应用层时，更新累加量T_accum＝T_accum+T_recv，T_recv为本次取出报文的数据量，累加量T_accum的初始值为0；对更新后的累加量T_accum进行判断，当更新后的累加量T_accum大于更新阈值update_c时，生成信用归还报文，优先发送至位于链路层的发送器，经发送器发送至接收器以对信用配额Quota进行更新，并使累加量T_accum＝T_accum-update_c。

本发明的有益效果是：

本发明可以基于通用的链路技术构建一种无损网络，提供无数据丢失和无带宽损失的保证。本发明提出的流量控制系统和流量控制方法能够兼容流行的以太网设备，替换PFC和ECN等被动式反馈，带来带宽损失的流量控制机制和拥塞控制机制，为基于BSP模型的图计算等基于FPGA的分布式计算提供了一种轻量级高性能的网络互连方案。

附图说明

图1是本发明实施例的基于信用的流量控制系统的结构示意图。

图2是本发明实施例的信用生成模块的结构示意图。

图3是本发明实施例的信用管理模块的结构示意图。

图4是本发明实施例的电路装置初始参数配置流程图。

图5是本发明实施例的拓扑结构一的示意图。

图6是本发明实施例的拓扑结构二的示意图。

图7是本发明实施例的信用归还报文一的示意图。

图8是本发明实施例的信用归还报文二的示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

需要注意的是，发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

实施例一

图1是本发明实施例一的基于信用的流量控制系统的结构示意图。本实施例提及的流量控制系统为一个附着在链路层或者网络层接口之上的逻辑电路，接管网络接口的接收通路和发送通路，要求下层链路层提供面向报文的尽最大努力交付的服务(比如以太网)，能够向上层应用层提供端到端的消息传递功能。该流量控制系统保证无报文丢失的方法是基于信用的流量控制，尤其适用于以BSP(Bulk Synchronous Process)为计算模型并且基于FPGA的分布式计算。

参见图1，该流量控制系统至少包括接收缓冲队列102、信用管理模块104、分用器101和信用生成模块103。该流量控制系统控制着应用层与链路层之间的数据通路，为了便于描述，可以将整个流量控制系统划分成接收通路和发送通路。接收通路包括分用器101和接收缓冲队列102，发送通路包括信用管理模块104和信用生成模块103。在一些例子中，发送通路还包括带优先选择功能的复用器106和限速模块105。

(一)接收缓冲队列102

接收缓冲队列102的长度为max(RTT×R，Burst_max)；RTT是端到端之间的往返时延，R是链路带宽，Burst_max是网络节点在上层算法的一个同步周期的时间内所可能收到的最大突发流量。图4是一种接收缓冲队列102长度的设置方法流程图。其中，端到端之间的往返时延RTT通过测量得到，网络节点在一个同步周期内可能收到的最大突发流量Burst_max可以通过分析上层应用或算法得到。

图5和图6是本发明实施例的两种拓扑结构的示意图。多个FPGA计算节点自组网，每个FPGA计算节点有两个网络接口，组成一个环形网络，跨节点的转发交给应用层来管理，流量控制系统附着在链路层之上。链路层使用以太网标准的MAC协议来进行最大努力交付的链路层通信。端到端的流量控制退化为链路层点到点的控制。每个端口的发送端Quota＝RTT×R，接收端接收缓冲队列102长度Buffer设为与Quota相同。

参见图5和图6，在一个RTT的时间内，单个计算节点可能收到来自多个不同节点的消息，形成突发流量。本实施例中，在最坏的情况下，单个节点可能收到其他三个节点的消息，这种情况下，应当保证接收缓冲队列102的长度Buffer＝3×Quota，这也是网络层为了保证无损需要容忍的最大突发。需要说明的是，现实应用中，上层的分布式计算或并行计算需要做负载平衡，上层应用的理论最大突发Burst_max是由算法本身的不平衡程度决定的，并且小于网络层需要容忍的最大突发。因此，最终接收缓冲队列102长度Buffer＝Max(RTT×R，Burst_max)。

(二)分用器101

分用器101的输入端与接收器的输出端连接，两个输出端分别与接收缓冲队列102和信用管理模块104连接，分用器101用于区分位于链路层的接收器输出的报文类型。本发明实施例中的网络中的报文可以分为两种，一种是普通的数据报文，另一种是信用归还报文，信用归还报文的长度是一个固定值len_c。其中，信用归还报文占用链路带宽的比率不超过λ。

将普通报文发送至接收缓冲队列102，将信用归还报文依次经发送器、接收器和分用器101发送至信用管理模块104以刷新信用管理模块104的信用配额Quota＝Quota+updatec。

可选的，分用器101利用报文中特定的标记，区分来自链路层接收器的报文的类型，如果是普通报文，则存入接收缓冲队列102，如果是信用归还报文，则转发给发送通路的信用管理模块104。接收缓冲队列102缓存从网络收到但没有被应用层取出的报文。在本申请实施例中，假设报文格式为IP报文，信用归还报文可以设定为被标记的64字节的IP报文，端到端的转发利用兼容以太网的交换设备完成。例如，互连模式为点到点，报文格式为IEEE802.1Q帧，信用归还报文为被标记的64字节的IEEE 802.1Q帧，示例性地，参见图7，信用归还报文可以利用IEEE 802.1Q帧中的3比特优先级码位PCP＝111来标记。参见图8，信用归还报文还可以利用IPV4分组中的6比特区分服务DS(Differentiated Services)码位DS＝111111来标记。

(三)信用生成模块103

信用生成模块103用于对接收缓冲队列102中的取出报文进行监听，计算通过监听窗口的数据量T_recv，更新通过监听窗口的数据的累加量T_accum＝T_accum+T_recv；当通过监听窗口的数据的累加量T_accum大于更新阈值update_c时，生成信用归还报文刷新信用管理模块104的信用配额，并使累加量T_accum＝T_accum-update_c。优选的，更新阈值update_c满足以下条件：update_c＝len_c/λ。以前述图5和图6中的拓扑为例，信用归还报文占用链路的带宽比λ＝5％。在以太网中，帧的最小长度是64字节，即len_c＝64bytes，则信用的更新阈值update_c＝1280bytes。

作为其中的一种优选例，流量控制系统还包括限速模块105和复用器106。限速模块105，与信用生成模块103的输出端连接，用于对生成的信用归还报文进行限速；复用器106，包括两个输入端和一个输出端，其中一个输入端与限速模块105的输出端连接，另一个输入端与信用管理模块104的输出端连接，输出端与发送器的输入端连接；复用器106用于优先选择限速后的信用归还报文，将之发送给发送器，再经位于链路层的发送器发送至接收器，经分发器识别后发送至信用管理模块104以更新信用配额。

图2是本发明实施例一的信用生成模块103的结构示意图。示例性的，信用生成模块103包括监听窗口、累加器、第一判断单元和报文生成单元。

监听窗口与接收缓冲队列102连接，用于对接收缓冲队列102中的取出报文进行监听，计算通过监听窗口的数据量T_recv；累加器，与监听窗口连接，用于维护通过监听窗口的数据的累加量T_accum；第一判断单元，其包括两个输入端和两个输出端，两个输入信号分别为累加器的输出信号和更新阈值信号，两个输出端分别连接至报文生成单元和累加器；判断单元用于判断监听窗口的数据的累加量T_accum大于更新阈值update_c；报文生成单元，其输入端与判断单元的输出端连接，输出端与限速模块105连接，当通过监听窗口的数据的累加量T_accum大于更新阈值update_c时，生成信用归还报文，并使累加量T_accum＝T_accum-update_c。

累加器维护一个值T_accum。信用生成模块103监听上述被应用层从接收通路缓冲队列中取出的报文。信用生成模块103实时地计算流过监听窗口的数据量T_recv(以字节为单位)，并且累加到累加器，即T_accuum＝T_accum+T_recv。如果T_accum大于update_c，则T_accum＝T_accum-update_c，并且命令报文生成模块生成一个信用归还报文。

(四)信用管理模块104

信用管理模块104具有一个信用配额Quota，信用配额Quota的初始值为RTT×R，用于在信用配额Quota大于等于最大传输单元MTU时，将接收到的应用层的报文发送到位于链路层的发送器，并更新信用配额Quota＝Quota-T_send，T_send是发送至发送器的报文的长度。

图3是本发明实施例一的信用管理模块104的结构示意图。示例性的，信用管理模块104包括发送缓冲队列、信用授权单元、信用配额计数器和第二判断单元。

信用配额计数器用于维护信用配额Quota；当发送缓冲队列中有报文发送至发送器时，更新信用配额Quota＝Quota-T_send，T_send是发送至发送器的报文的长度，当接收到信用归还报文时，更新信用配额Quota＝Quota+update_c；第二判断单元包括两个输入端和一个输出端，两个输入信号分别为信用配额计数器输出的当前信用配额Quota和最大传输单元MTU，输出端与信用授权单元连接；发送缓冲队列与信用授权单元连接，用于在信用授权单元授权后，将接收到的来自应用层的报文发送到链路层；信用授权单元，当当前信用配额Quota大于等于最大传输单元MTU时，发送授权信号至发送缓冲队列。

信用配额计数器维护Quota。当缓冲队列中还有足够的空间，可以接收来自应用层的报文。只有信用授权单元进行授权，才能从缓冲队列中取出报文，发送到链路层。信用授权单元允许报文通过的条件为Quota大于或等于MTU(Maximum Transmission Unit)。通过报文的长度为T_send，则信用配额计数器Quota＝Quota-T_send。另外，当收到接收通路转发的信用归还报文，则Quota＝Quota+update_c。

本发明将发送端的信用与接收端的缓冲容量解耦：令初始信用配额与发送端在一个往返时延内的突发能力相匹配，且令信用在首个往返时延后及时归还，以保证带宽无损失，令接收端的缓冲容量与在一个往返时延内单个网络接口所需容忍的突发量相匹配，以保证数据无丢失。本发明可以利用既有的以太网设备进行组网，提供数据无损和性能无损的保证，又不引入额外的开销。为了实现端到端的流量控制，本发明实施例中的信用配额的含义与传统的基于信用点数控制的方法不同，传统信用点数Credit反映的是接收端的缓冲队列长度，而本实施例中的信用配额Quota反映的是端口在收到对端归还的信用报文之前，允许注入到网络中的流量，如果网络中没有拥塞发生，则Quota耗尽后，信用归还报文会及时恢复Quota，达到既能提前控制流量注入，避免加剧拥塞，又不损失带宽的效果。

实施例二

本发明实施例提出了一种基于信用的流量控制方法，流量控制方法包括：

设置接收缓冲队列102长度为max(RTT×R，Burst_max)；设置信用配额Quota，信用配额的初始值为RTT×R；其中，RTT是端到端之间的往返时延，R是链路带宽，Burst_max是网络节点在上层算法的一个同步周期的时间内所可能收到的最大突发流量。

接收来自位于链路层的接收器发送的报文，对报文类型进行区分，报文类型包括普通报文和信用归还报文两种；如果接收到的是普通报文，将普通报文发送至接收缓冲队列102，经接收缓冲队列102发送至应用层；如果接收到的是信用归还报文，更新信用配额Quota＝Quota+update_c；仅在信用配额Quota大于等于最大传输单元MTU时，将接收到的应用层的报文发送到位于链路层的发送器，并在发送后更新信用配额Quota＝Quota-T_send，T_send是发送至发送器的报文的长度。

在根据应用层请求，从接收缓冲队列102中取出报文发送至应用层时，更新累加量T_accum＝T_accum+T_recv，T_recv为本次取出报文的数据量，累加量T_accum的初始值为0；对更新后的累加量T_accum进行判断，当更新后的累加量T_accum大于更新阈值update_c时，生成信用归还报文，优先发送至位于链路层的发送器，经发送器发送至接收器以对信用配额Quota进行更新，并使累加量T_accum＝T_accum-update_c。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于信用的流量控制系统，其特征在于，所述流量控制系统包括：

2.根据权利要求1所述的基于信用的流量控制系统，其特征在于，所述流量控制系统还包括：

3.根据权利要求1所述的基于信用的流量控制系统，其特征在于，所述信用归还报文的长度为固定值len_C，等于链路上的最小报文长度；信用归还报文占用链路带宽的比率λ，小于或等于链路上最小报文长度与最大报文长度的比值。

4.根据权利要求3所述的基于信用的流量控制系统，其特征在于，所述更新阈值update_c满足以下条件：

update_C＝len_C/λ。

5.根据权利要求2所述的基于信用的流量控制系统，其特征在于，所述信用生成模块包括：

监听窗口，与接收缓冲队列连接，用于对接收缓冲队列中的取出报文进行监听，计算通过监听窗口的数据量T_recv；

6.根据权利要求1所述的基于信用的流量控制系统，其特征在于，所述信用管理模块包括发送缓冲队列、信用授权单元、信用配额计数器和第二判断单元；

7.根据权利要求1所述的基于信用的流量控制系统，其特征在于，所述分用器利用报文中特定的标记，区分报文类型；

所述标记包括IEEE 802.1Q帧中的3比特优先级码位。

8.一种基于信用的流量控制方法，其特征在于，所述流量控制方法包括：