CN114697225B

CN114697225B - 一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法

Info

Publication number: CN114697225B
Application number: CN202111421131.3A
Authority: CN
Inventors: 董晓东
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2023-06-06
Anticipated expiration: 2041-11-26
Also published as: CN114697225A

Abstract

本发明公开了一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法，将每个时间段内待传输的数据传输请求记入集合中；通过软件定义网络控制平面的控制器感知底层网络拓扑，计算各个源网络设备到目的网络设备之间的路径集合；为每个数据传输请求初始化深度强化学习网络，对每个数据传输请求所对应的深度强化学习网络同时执行迭代，评估迭代过程中带宽分配方案所对应的传输收益大小，根据收益大小计算训练actor网络和训练cirtic网络的损失函数，通过调节训练actor网络和训练cirtic网络的参数，使损失函数满足要求，进而得到目标actor网络和目标cirtic网络的最终参数；最后由目标actor网络给出最终的带宽分配方案。

Description

一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法

技术领域

本发明属于网络通信技术领域，具体涉及一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法。

背景技术

首先介绍一下本发明中涉及的一些专业术语：

广域网(WideArea Network，WAN)：是连接不同地区局域网或城域网计算机通信的远程网。通常跨接很大的物理范围，所覆盖的范围从几十公里到几千公里，它能连接多个地区、城市和国家，或横跨几个洲并能提供远距离通信，形成国际性的远程网络。

软件定义广域网(Software Defined Wide Area Networking,SD-WAN)：是将软件定义网络技术应用到广域网场景中所形成的一种服务，专门用于连接广阔地理范围的企业网络、数据中心、互联网应用以及云服务。

强化学习(Reinforcement Learning,RL)：又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

深度强化学习(DeepReinforcementLearning,DRL)：是机器学习的一个子领域，它结合了强化学习(RL)和深度学习。深度强化学习将深度学习融入到解决方案中，允许代理根据非结构化输入数据做出决策，而无需手动设计状态空间。深度强化学习算法能够接受非常大的输入并决定执行哪些操作来优化目标。

Rabin公平性(RabinFairness)：是Matthew Rabin结合了经济学和心理学领域的研究结果，发明的一种替代效用公平模型。该公平模型意味着如果参与者j对参与者i不友好，那么参与者i也同样会采取对参与者j不友好的行为。但是，如果参与者j善待参与者i，那么参与者i也会善待参与者j。

Actor网络：是在每个时间片中为智能体选择一个动作的神经网络。

Critic网络：是评价Actor网络选择的动作的神经网络。

人工神经网络(Artificial Neural Networks，ANNs)：也简称为神经网络(NNs)或称作连接模型，它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

OpenFlow协议：是软件定义网络中数据平面和控制平面之间的通信协议，控制平面的控制器通过OpenFlow协议定义的规则和动作指示数据平面的交换机如何转发网络数据包。

流表(FlowTable)：是OpenFlow协议中定义的类似于传统网络路由表的表结构，它由若干流表项构成。流表项由规则和动作集组成，若网络数据包符合流表项定义的规则，该数据包就会被执行相应的动作，如：从某个端口转发或者修改源或目的IP地址等。

组表(BucketTable)：是OpenFlow协议定义的一种特殊的流表，它由若干组表项构成。每个组表项包括：组表项标识符、组表项类型、组表项计数器和动作桶集构成。组表项类型决定了该组表项的语义，如：all类型的组表项表示该组表项动作桶集中的动作都会被执行，而select类型的组表项表示该组表项动作桶集中的动作只有一个会被执行。动作桶集包含多个动作桶，每个动作桶代表可以对网络数据包进行的一种处理，如：从某个端口转发或者修改数据包某些字段等。

计量表(MeterTable)：是OpenFlow协议定义的一种特殊的表，用于计量和限速。它由若干计量表项构成。每个计量表项包括：计量表项标识符、计量段、计量表项计数器构成。一个计量表项可以包含一个或者多个计量段，每个计量段定义了速率以及动作，如果报文的速率超过了某些计量段，根据这些计量段中速率最大的那个定义的动作进行处理。计数器可以按队列、计量段和计量表项等方式进行维护。计数器可以帮助控制器收集有关网络的统计信息监控流量规则定义的流量进入率。

由于广域网带宽资源有限，如何高效的利用稀缺的带宽资源直接关系到网络的性能，因此流量调度是随着计算机网络学科产生以来一直备受关注的问题，现有的流量调度算法主要分为两类：基于标签的流量调度算法和基于带宽分配的流量调度算法。顾名思义，基于标签的流量调度算法就是首先通过对网络数据包打标签等方法为其设置标记，然后再通过交换机上的路由表项或流表项对相应的标签进行匹配，最后由交换机上的队列机制对流量实现调度的方法。这种具有算法简单、易于操控以及可移植性强等优点。通过优先级标识网络中的数据包的发送优先次序，实现了优化网络性能的目的，能够有效的提升网络性能。但是，随着用户对网络服务质量的要求逐渐提升，用户对网络传输有了越来越明确的服务质量需求，例如传输截止期限保证等。但是，由于交换机转发逻辑简单、队列资源有限，如果要实现复杂的、细粒度的调度策略，往往需要交换机额外硬件的支持。因此，基于标签的流量调度方法无法直接提供精确的传输带宽保证，在使用基于标签的流量调度算法时相应的指标会随着网络中的负载的变化而产生明显的波动。

基于带宽分配的流量调度算法则采用端口限速等方法对流量占用的实际带宽进行控制，从而实现对流量的调度以及流量传输服务质量的保证，例如通过带宽分配的方法保证数据传输的截止期限。然而，网络带宽分配的公平性也同样是广域网流量调度过程中备受瞩目的问题。一旦在流量调度的过程中忽视了带宽分配的公平性，就会带来严重的服务干扰问题，极大降低应用程序性能进而导致用户遭受严重的经济损失，同时也会大大影响品牌的影响力和口碑。然而，一方面由于目前针对网络传输截止期限的流量调度方法往往采用“确定性”的流量调度方法，为了保证传输截止期限将带宽资源集中于某些数据传输请求，导致带宽使用不公平。另一方面，保证公平性的流量调度方法则需要在数据传输请求之间平均分配带宽，导致这些数据传输请求因为没有足够带宽而错过截止期限。这就导致传输截止期限和公平性两个指标难以兼顾，甚至互相矛盾。

软件定义广域网是一种新兴的广域网连接解决方案，其核心思想是将软件定义网络技术应用到广域网场景中。通过引入软件定义网络技术，软件定义广域网。利用Openflow协议我们可以的灵活的下发、修改复杂的细粒度的流量调度策略到交换层面。同时，随着人工智能技术应用的普及，强化学习以及深度强化学习技术通过将事物抽象为智能体，通过智能体之间与环境的交互来使智能体不断学习并试图通过奖励/惩罚机制来学习到一个最优策略的方法解决了大量决策问题。因此，基于深度强化学习的算法和软件定义广域网架构是实现既保证传输截止期限和有保证带宽分配公平性的流量调度架构的完美解决方案。

发明内容

本发明的目的在于克服现有技术的不足，提供一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法。

本发明是通过以下技术方案实现的：

一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法，包括以下步骤：

步骤1，将每个时间段内待传输的数据传输请求记入集合F中；

步骤2，通过软件定义网络控制平面的控制器感知底层网络拓扑，计算各个源网络设备到目的网络设备之间的路径集合P；

步骤3，计算集合F中每个数据传输请求f_i的期望传输速率e_i；期望传输速率e_i由数据传输请求的数据总量、数据传输请求的实际传输时间和数据传输请求的截止期限计算得到；

步骤4，为每个数据传输请求初始化深度强化学习网络，其包括训练actor网络、训练critic网络和目标actor网络、目标critic网络，其中，训练actor网络参数记为

训练critic网络参数记为/>

目标actor网络参数记为/>

目标critic网络参数记为/>

步骤5，对每个数据传输请求所对应的深度强化学习网络同时执行T次迭代，评估迭代过程中带宽分配方案所对应的传输收益大小，根据收益大小计算训练actor网络、训练critic网络的损失函数。通过调节训练actor网络和训练critic网络的参数，使损失函数满足要求，进而得到目标actor网络、目标critic网络的最终参数；

步骤6，在T次迭代后由目标actor网络给出最终的带宽分配方案。

在上述技术方案中，集合F中，每个数据传输请求f_i表示为多元组，f_i＝{n,m,V_i,B_i,D_i}，其中，n表示该数据传输请求的源网络设备的编号，m表示该数据传输请求的目的网络设备的编号，V_i表示该数据传输请求的数据总量，B_i表示该数据传输请求的实际传输时间，D_i表示该数据传输请求的截止期限。

在上述技术方案中，每个数据传输请求f_i的期望传输速率

在上述技术方案中，路径集合P中包括各个路径子集P_n,m，其中，n表示源网络设备的编号，m表示目的网络设备的编号，将数据传输请求f_i所对应的由源网络设备到目的网络设备之间的所有可达路径记为P_i，将P_i中的第j条路径记为

则数据传输请求f_i所对应的P_i信息可以从路径集合P中对应的路径子集P_n,m中得到。

在上述技术方案中，所述步骤5具体包括以下步骤：

5.1根据训练actor网络的输出得到数据传输请求f_i的带宽分配方案，记为

其中，|_i|代表数据传输请求f_i所对应的由源网络设备到目的网络设备之间的可达路径的条数，/>

表示数据传输请求f_i在其第j条路径上所分配的带宽；/>

5.2观察网络中除该数据传输请求之外的其他数据传输请求的带宽分配方案，记为

5.3根据公式

计算当前带宽分配方案所得的传输收益，其中，G_i表示该数据传输请求正常完成数传输时的传输收益，U_i表示该数据传输请求没有进行传输时的传输收益，K_i表示该数据传输请求没有得到足够的发送带宽时的传输收益，而Z_i表示该数据传输请求得到足够的带宽但是该带宽分配方案引起网络拥塞时的传输收益，π_i(_i)为传输收益函数，θ(r_i)为拥塞指示因数，其数值可通过如下公式计算：

其中，C_l表示链路l的带宽容量，W(l)表链路l的已经占用带宽总量，

表示链路l是否在数据传输请求f_i的第j条路径上，当链路l在数据传输请求f_i的第j条路径上时

否则/>

5.4将

置入深度强化学习缓存区，/>

代表t时刻所有数据传输请求的带宽分配方案的集合，/>

代表数据传输请求f_i的带宽分配方案为/>

其他数据传输请求的带宽分配方案为/>

时的传输收益；

5.5根据5.4中得到的

通过最小化损失函数的方法计算并更新训练critic网络参数/>

其中，损失函数定义为/>

计算公式为

其中，

表示整个时间序列传输收益，

式中，γ为衰减参数，Q_i()为相应网络根据当前参数的估计值，v代表计算中所考虑的时间序列的长度；

根据5.4中得到的

采用寻找下降速度最快的方向梯度的梯度下降法计算并更新训练actor网络的参数/>

方向梯度/>

的计算公式为：

式中μ_i表示训练actor网络的输出；

5.6将训练actor网络参数、训练critic网络参数和目标actor网络参数、目标critic网络参数进行同步。

在上述技术方案中，步骤5.6中，同步的公式如下：

其中，τ为更新权值。

在上述技术方案中，控制器根据最终的带宽分配方案计算交换机的转发策略和带宽分配策略并以流表项、组表项和计量表项的形式下发到每个交换机上；同时，更新网络带宽使用情况。

在上述技术方案中，每个时间段结束后，控制器更新各个链路上网络带宽分配和使用情况。

本发明的优点和有益效果为：

本发明通过利用软件定义广域网技术和深度强化学习技术，在保证TCP、IP以及OpenFlow协议正常转发机制的前提上，提供了保证传输截止期限和Rabin公平性的软件定义广域网带宽分配机制。该机制是一种增量实现方法，使软件定义广域网在使用基本的OpenFlow协议和保证以TCP、IP为核心的网络路由交换机制不变的条件下在同时保证传输截止期限和带宽分配的公平性成为了可能。

附图说明

图1是本发明的深度强化学习迭代流程示意图。

图2是本发明实施例二中的软件定义网络拓扑图。

对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据以上附图获得其他的相关附图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合具体实施例进一步说明本发明的技术方案。

实施例一

步骤1，控制器将每个时间段内待传输的数据传输请求记入集合F中，其中每个数据传输请求表示为多元组f_i，f_i＝{n,m,V_i,B_i,D_i}，其中，n表示该数据传输请求的源网络设备的编号，m表示该数据传输请求的目的网络设备的编号，V_i表示该数据传输请求的数据总量，B_i表示该数据传输请求的实际传输时间，D_i表示该数据传输请求的截止期限。

步骤2，通过软件定义网络控制平面的控制器感知底层网络拓扑，得到各个源网络设备到目的网络设备之间的路径集合P，路径集合P中包括各个路径子集P_n,m，其中，n表示源网络设备的编号，m表示目的网络设备的编号。将数据传输请求f_i所对应的由源网络设备到目的网络设备之间的所有可达路径记为P_i，将P_i中的第j条路径记为

(即/>

代表数据传输请求f_i所对应的由源网络设备到目的网络设备之间第j条可达路径)，则数据传输请求f_i所对应的P_i信息可以从路径集合P中对应的路径子集P_n,m中得到。

例如：存在S1、S2、S3、S4等四个网络设备，某数据传输请求f_i要求从网络设备S1发送数据到网络设备S4(即S1为源网络设备，S4为目的网络设备)，则该数据传输请求f_i所对应的可达路径P_i可从路径集合P中对应的路径子集P_S1,4得到，例如路径子集P_S1,S4为

和/>

代表从网络设备S1发送数据到网络设备S4存在两条可达路径：

和/>

步骤3，计算集合F中每个数据传输请求f_i的期望传输速率e_i，

训练critic网络参数记为/>

目标actor网络参数记为/>

目标critic网络参数记为/>

步骤5，对每个数据传输请求所对应的深度强化学习网络同时执行T次迭代，评估迭代过程中带宽分配方案所对应的传输收益大小，根据收益大小计算训练actor网络、训练critic网络的损失函数。通过调节训练actor网络和训练critic网络的参数，使损失函数满足要求，进而得到目标actor网络、目标critic网络的最终参数。

其中，|P_i|代表数据传输请求f_i所对应的由源网络设备到目的网络设备之间的可达路径的条数，/>

表示数据传输请求f_i在其第j条路径上所分配的带宽，j∈(1...|P_i|)。

5.3根据公式

计算当前带宽分配方案所得的传输收益，其中，G_i表示该数据传输请求正常完成数传输时的传输收益，U_i表示该数据传输请求没有进行传输时的传输收益，K_i表示该数据传输请求没有得到足够的发送带宽时的传输收益，而Z_i表示该数据传输请求得到足够的带宽但是该带宽分配方案引起网络拥塞时的传输收益。显然可以得到，G_i>U_i≥0>K_i>Z_i。π_i(r_i)为传输收益函数，θ(r_i)为拥塞指示因数，其数值可通过如下公式计算：

其中P_i代表数据传输请求f_i所对应的由源网络设备到目的网络设备之间的所有可达路径，

代表数据传输请求f_i所对应的由源网络设备到目的网络设备之间第j条可达路径；C_l表示链路l的带宽容量，W(l)表链路l的已经占用带宽总量，/>

表示链路l是否在数据传输请求f_i的第j条路径上，当链路l在数据传输请求f_i的第j条路径上时/>

否则

5.4将

置入深度强化学习缓存区，/>

代表t时刻所有数据传输请求的带宽分配方案的集合，/>

代表数据传输请求f_i的带宽分配方案为/>

其他数据传输请求的带宽分配方案为/>

时的传输收益。

5.5根据5.4中得到的

通过最小化损失函数的方法计算并更新训练critic网络参数/>

其中，损失函数定义为/>

计算公式为

其中，

表示整个时间序列传输收益，

式中，γ为衰减参数，Q_i()为相应网络根据当前参数的估计值，ω代表计算中所考虑的时间序列的长度。

此外，根据5.4中得到的

方向梯度/>

的计算公式为：

式中μ_i表示训练actor网络的输出。

5.6通过软更新方法将训练网络和目标网络的参数进行同步，软更新方法的公式如下：

其中，τ为更新权值。

步骤6，在T次迭代后由目标actor网络给出最终的带宽分配方案，该方案持续至该数据传输请求的直接期限D为止。

步骤7，控制器根据最终的带宽分配方案计算交换机的转发策略和带宽分配策略并以流表项、组表项和计量表项的形式下发到每个交换机上；同时，更新网络带宽使用情况。

步骤8，每个时间段结束后，控制器更新各个链路上网络带宽分配和使用情况。

实施例二

在实施例一的基础上，下面结合具体案例说明所述带宽分配方法，具体操作步骤如下：

1)假设底层网络拓扑如图2所示，TCP发送端(IP:10.0.0.1Port:3301,Port:10001)和TCP接收端(IP:10.0.0.2Port:3302,Port:10002)之间的可达路径为：

和/>

每条链路的带宽容量为100Mbps。

2)本例中假设系统时间段长度为1s，在当前时间段有两个数据传输请求分别需要从发送端发往接收端50Mb和100Mb数据并且截止期限均为1s，两个数据传输请求分别记为f1和f2。

3)控制器接收到数据传输请求后，计算出数据传输请求f1的期望传输速率为e1＝50Mbps，数据传输请求f2的期望传输速率为e2＝100Mbps。

4)控制器初始化具有2个代理的多代理深度强化学习网络。

5)经过2000次迭代学习，计算出带宽分配方案为r1＝<25,25>，r2＝<50,50>。

6)软件定义网络控制器将流表项、组表项以及计量表项下发到每个交换机上。其中，下发到交换机S1的流表项部分信息如下所示：

priority＝2,ip,in_port＝1,dl_src＝36:d2:9a:ba:87:bb,dl_dst＝0a:8b:7f:f9:51:03,nw_src＝10.0.0.1,nw_dst＝10.0.0.2,tp_src＝3301actions＝group:1

priority＝2,ip,in_port＝1,dl_src＝36:d2:9a:ba:87:bb,dl_dst＝0a:8b:7f:f9:51:03,nw_src＝10.0.0.1,nw_dst＝10.0.0.2,tp_src＝10001actions＝group:2

下发到交换机S1的组表项部分信息如下所示：

group_id＝1,type＝select,selection_method＝hash,bucket＝weight:1,meter:1,output:2,bucket＝weigh:1,meter:2,output:3

group_id＝2,type＝select,selection_method＝hash,bucket＝weight:1,meter:3,output:2,bucket＝weight:1,meter:4,output:3

下发到交换机S1的计量表项部分信息如下所示：

meter＝1kbps bands＝type＝drop rate＝25000

meter＝2kbps bands＝type＝drop rate＝25000

meter＝3kbps bands＝type＝drop rate＝50000

meter＝4kbps bands＝type＝drop rate＝50000

7)控制器更新网络带宽使用情况。

以上对本发明做了示例性的描述，应该说明的是，在不脱离本发明的核心的情况下，任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。

Claims

1.一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法，其特征在于：包括以下步骤：

步骤3，计算集合F中每个数据传输请求f_i的期望传输速率e_i，期望传输速率e_i由数据传输请求的数据总量、数据传输请求的实际传输时间和数据传输请求的截止期限计算得到；

训练critic网络参数记为/>

目标actor网络参数记为/>

目标critic网络参数记为/>

步骤5，对每个数据传输请求所对应的深度强化学习网络同时执行T次迭代，评估迭代过程中带宽分配方案所对应的传输收益大小，根据收益大小计算训练actor网络、训练critic网络的损失函数，通过调节训练actor网络和训练critic网络的参数，使损失函数满足要求，进而得到目标actor网络、目标critic网络的最终参数；

2.根据权利要求1所述的保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法，其特征在于：集合F中，每个数据传输请求f_i表示为多元组，f_i＝{n,m,V_i,B_i,D_i}，其中，n表示该数据传输请求的源网络设备的编号，m表示该数据传输请求的目的网络设备的编号，V_i表示该数据传输请求的数据总量，B_i表示该数据传输请求的实际传输时间，D_i表示该数据传输请求的截止期限。

3.根据权利要求2所述的保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法，其特征在于：每个数据传输请求f_i的期望传输速率

4.根据权利要求2所述的保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法，其特征在于：路径集合P中包括各个路径子集P_n,m，其中，n表示源网络设备的编号，m表示目的网络设备的编号；将数据传输请求f_i所对应的由源网络设备到目的网络设备之间的所有可达路径记为P_i，将P_i中的第j条路径记为

5.根据权利要求4所述的保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法，其特征在于：所述步骤5具体包括以下步骤：

其中，|P_i|代表数据传输请求f_i所对应的由源网络设备到目的网络设备之间的可达路径的条数，r_i ^j表示数据传输请求f_i在其第j条路径上所分配的带宽；

5.3根据公式

计算当前带宽分配方案所得的传输收益，其中，G_i表示该数据传输请求正常完成数传输时的传输收益，U_i表示该数据传输请求没有进行传输时的传输收益，K_i表示该数据传输请求没有得到足够的发送带宽时的传输收益，而Z_i表示该数据传输请求得到足够的带宽但是该带宽分配方案引起网络拥塞时的传输收益，π_i(r_i)为传输收益函数，θ(r_i)为拥塞指示因数，其数值可通过如下公式计算：