CN114697225B - 一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法 - Google Patents

一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法 Download PDF

Info

Publication number
CN114697225B
CN114697225B CN202111421131.3A CN202111421131A CN114697225B CN 114697225 B CN114697225 B CN 114697225B CN 202111421131 A CN202111421131 A CN 202111421131A CN 114697225 B CN114697225 B CN 114697225B
Authority
CN
China
Prior art keywords
network
data transmission
bandwidth allocation
training
transmission request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111421131.3A
Other languages
English (en)
Other versions
CN114697225A (zh
Inventor
董晓东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202111421131.3A priority Critical patent/CN114697225B/zh
Publication of CN114697225A publication Critical patent/CN114697225A/zh
Application granted granted Critical
Publication of CN114697225B publication Critical patent/CN114697225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法,将每个时间段内待传输的数据传输请求记入集合中;通过软件定义网络控制平面的控制器感知底层网络拓扑,计算各个源网络设备到目的网络设备之间的路径集合;为每个数据传输请求初始化深度强化学习网络,对每个数据传输请求所对应的深度强化学习网络同时执行迭代,评估迭代过程中带宽分配方案所对应的传输收益大小,根据收益大小计算训练actor网络和训练cirtic网络的损失函数,通过调节训练actor网络和训练cirtic网络的参数,使损失函数满足要求,进而得到目标actor网络和目标cirtic网络的最终参数;最后由目标actor网络给出最终的带宽分配方案。

Description

一种保证传输截止期限和Rabin公平性的软件定义广域网带 宽分配方法
技术领域
本发明属于网络通信技术领域,具体涉及一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法。
背景技术
首先介绍一下本发明中涉及的一些专业术语:
广域网(WideArea Network,WAN):是连接不同地区局域网或城域网计算机通信的远程网。通常跨接很大的物理范围,所覆盖的范围从几十公里到几千公里,它能连接多个地区、城市和国家,或横跨几个洲并能提供远距离通信,形成国际性的远程网络。
软件定义广域网(Software Defined Wide Area Networking,SD-WAN):是将软件定义网络技术应用到广域网场景中所形成的一种服务,专门用于连接广阔地理范围的企业网络、数据中心、互联网应用以及云服务。
强化学习(Reinforcement Learning,RL):又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
深度强化学习(DeepReinforcementLearning,DRL):是机器学习的一个子领域,它结合了强化学习(RL)和深度学习。深度强化学习将深度学习融入到解决方案中,允许代理根据非结构化输入数据做出决策,而无需手动设计状态空间。深度强化学习算法能够接受非常大的输入并决定执行哪些操作来优化目标。
Rabin公平性(RabinFairness):是Matthew Rabin结合了经济学和心理学领域的研究结果,发明的一种替代效用公平模型。该公平模型意味着如果参与者j对参与者i不友好,那么参与者i也同样会采取对参与者j不友好的行为。但是,如果参与者j善待参与者i,那么参与者i也会善待参与者j。
Actor网络:是在每个时间片中为智能体选择一个动作的神经网络。
Critic网络:是评价Actor网络选择的动作的神经网络。
人工神经网络(Artificial Neural Networks,ANNs):也简称为神经网络(NNs)或称作连接模型,它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
OpenFlow协议:是软件定义网络中数据平面和控制平面之间的通信协议,控制平面的控制器通过OpenFlow协议定义的规则和动作指示数据平面的交换机如何转发网络数据包。
流表(FlowTable):是OpenFlow协议中定义的类似于传统网络路由表的表结构,它由若干流表项构成。流表项由规则和动作集组成,若网络数据包符合流表项定义的规则,该数据包就会被执行相应的动作,如:从某个端口转发或者修改源或目的IP地址等。
组表(BucketTable):是OpenFlow协议定义的一种特殊的流表,它由若干组表项构成。每个组表项包括:组表项标识符、组表项类型、组表项计数器和动作桶集构成。组表项类型决定了该组表项的语义,如:all类型的组表项表示该组表项动作桶集中的动作都会被执行,而select类型的组表项表示该组表项动作桶集中的动作只有一个会被执行。动作桶集包含多个动作桶,每个动作桶代表可以对网络数据包进行的一种处理,如:从某个端口转发或者修改数据包某些字段等。
计量表(MeterTable):是OpenFlow协议定义的一种特殊的表,用于计量和限速。它由若干计量表项构成。每个计量表项包括:计量表项标识符、计量段、计量表项计数器构成。一个计量表项可以包含一个或者多个计量段,每个计量段定义了速率以及动作,如果报文的速率超过了某些计量段,根据这些计量段中速率最大的那个定义的动作进行处理。计数器可以按队列、计量段和计量表项等方式进行维护。计数器可以帮助控制器收集有关网络的统计信息监控流量规则定义的流量进入率。
由于广域网带宽资源有限,如何高效的利用稀缺的带宽资源直接关系到网络的性能,因此流量调度是随着计算机网络学科产生以来一直备受关注的问题,现有的流量调度算法主要分为两类:基于标签的流量调度算法和基于带宽分配的流量调度算法。顾名思义,基于标签的流量调度算法就是首先通过对网络数据包打标签等方法为其设置标记,然后再通过交换机上的路由表项或流表项对相应的标签进行匹配,最后由交换机上的队列机制对流量实现调度的方法。这种具有算法简单、易于操控以及可移植性强等优点。通过优先级标识网络中的数据包的发送优先次序,实现了优化网络性能的目的,能够有效的提升网络性能。但是,随着用户对网络服务质量的要求逐渐提升,用户对网络传输有了越来越明确的服务质量需求,例如传输截止期限保证等。但是,由于交换机转发逻辑简单、队列资源有限,如果要实现复杂的、细粒度的调度策略,往往需要交换机额外硬件的支持。因此,基于标签的流量调度方法无法直接提供精确的传输带宽保证,在使用基于标签的流量调度算法时相应的指标会随着网络中的负载的变化而产生明显的波动。
基于带宽分配的流量调度算法则采用端口限速等方法对流量占用的实际带宽进行控制,从而实现对流量的调度以及流量传输服务质量的保证,例如通过带宽分配的方法保证数据传输的截止期限。然而,网络带宽分配的公平性也同样是广域网流量调度过程中备受瞩目的问题。一旦在流量调度的过程中忽视了带宽分配的公平性,就会带来严重的服务干扰问题,极大降低应用程序性能进而导致用户遭受严重的经济损失,同时也会大大影响品牌的影响力和口碑。然而,一方面由于目前针对网络传输截止期限的流量调度方法往往采用“确定性”的流量调度方法,为了保证传输截止期限将带宽资源集中于某些数据传输请求,导致带宽使用不公平。另一方面,保证公平性的流量调度方法则需要在数据传输请求之间平均分配带宽,导致这些数据传输请求因为没有足够带宽而错过截止期限。这就导致传输截止期限和公平性两个指标难以兼顾,甚至互相矛盾。
软件定义广域网是一种新兴的广域网连接解决方案,其核心思想是将软件定义网络技术应用到广域网场景中。通过引入软件定义网络技术,软件定义广域网。利用Openflow协议我们可以的灵活的下发、修改复杂的细粒度的流量调度策略到交换层面。同时,随着人工智能技术应用的普及,强化学习以及深度强化学习技术通过将事物抽象为智能体,通过智能体之间与环境的交互来使智能体不断学习并试图通过奖励/惩罚机制来学习到一个最优策略的方法解决了大量决策问题。因此,基于深度强化学习的算法和软件定义广域网架构是实现既保证传输截止期限和有保证带宽分配公平性的流量调度架构的完美解决方案。
发明内容
本发明的目的在于克服现有技术的不足,提供一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法。
本发明是通过以下技术方案实现的:
一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法,包括以下步骤:
步骤1,将每个时间段内待传输的数据传输请求记入集合F中;
步骤2,通过软件定义网络控制平面的控制器感知底层网络拓扑,计算各个源网络设备到目的网络设备之间的路径集合P;
步骤3,计算集合F中每个数据传输请求fi的期望传输速率ei;期望传输速率ei由数据传输请求的数据总量、数据传输请求的实际传输时间和数据传输请求的截止期限计算得到;
步骤4,为每个数据传输请求初始化深度强化学习网络,其包括训练actor网络、训练critic网络和目标actor网络、目标critic网络,其中,训练actor网络参数记为
Figure GDA0004092631310000049
训练critic网络参数记为/>
Figure GDA0004092631310000041
目标actor网络参数记为/>
Figure GDA0004092631310000042
目标critic网络参数记为/>
Figure GDA0004092631310000043
步骤5,对每个数据传输请求所对应的深度强化学习网络同时执行T次迭代,评估迭代过程中带宽分配方案所对应的传输收益大小,根据收益大小计算训练actor网络、训练critic网络的损失函数。通过调节训练actor网络和训练critic网络的参数,使损失函数满足要求,进而得到目标actor网络、目标critic网络的最终参数;
步骤6,在T次迭代后由目标actor网络给出最终的带宽分配方案。
在上述技术方案中,集合F中,每个数据传输请求fi表示为多元组,fi={n,m,Vi,Bi,Di},其中,n表示该数据传输请求的源网络设备的编号,m表示该数据传输请求的目的网络设备的编号,Vi表示该数据传输请求的数据总量,Bi表示该数据传输请求的实际传输时间,Di表示该数据传输请求的截止期限。
在上述技术方案中,每个数据传输请求fi的期望传输速率
Figure GDA0004092631310000044
在上述技术方案中,路径集合P中包括各个路径子集Pn,m,其中,n表示源网络设备的编号,m表示目的网络设备的编号,将数据传输请求fi所对应的由源网络设备到目的网络设备之间的所有可达路径记为Pi,将Pi中的第j条路径记为
Figure GDA0004092631310000045
则数据传输请求fi所对应的Pi信息可以从路径集合P中对应的路径子集Pn,m中得到。
在上述技术方案中,所述步骤5具体包括以下步骤:
5.1根据训练actor网络的输出得到数据传输请求fi的带宽分配方案,记为
Figure GDA0004092631310000046
其中,|i|代表数据传输请求fi所对应的由源网络设备到目的网络设备之间的可达路径的条数,/>
Figure GDA0004092631310000047
表示数据传输请求fi在其第j条路径上所分配的带宽;/>
5.2观察网络中除该数据传输请求之外的其他数据传输请求的带宽分配方案,记为
Figure GDA0004092631310000048
5.3根据公式
Figure GDA0004092631310000051
计算当前带宽分配方案所得的传输收益,其中,Gi表示该数据传输请求正常完成数传输时的传输收益,Ui表示该数据传输请求没有进行传输时的传输收益,Ki表示该数据传输请求没有得到足够的发送带宽时的传输收益,而Zi表示该数据传输请求得到足够的带宽但是该带宽分配方案引起网络拥塞时的传输收益,πi(i)为传输收益函数,θ(ri)为拥塞指示因数,其数值可通过如下公式计算:
Figure GDA0004092631310000052
其中,Cl表示链路l的带宽容量,W(l)表链路l的已经占用带宽总量,
Figure GDA0004092631310000053
表示链路l是否在数据传输请求fi的第j条路径上,当链路l在数据传输请求fi的第j条路径上时
Figure GDA0004092631310000054
否则/>
Figure GDA0004092631310000055
5.4将
Figure GDA0004092631310000056
置入深度强化学习缓存区,/>
Figure GDA0004092631310000057
代表t时刻所有数据传输请求的带宽分配方案的集合,/>
Figure GDA0004092631310000058
代表数据传输请求fi的带宽分配方案为/>
Figure GDA0004092631310000059
其他数据传输请求的带宽分配方案为/>
Figure GDA00040926313100000510
时的传输收益;
5.5根据5.4中得到的
Figure GDA00040926313100000511
通过最小化损失函数的方法计算并更新训练critic网络参数/>
Figure GDA00040926313100000512
其中,损失函数定义为/>
Figure GDA00040926313100000513
计算公式为
Figure GDA00040926313100000514
其中,
Figure GDA00040926313100000515
表示整个时间序列传输收益,
Figure GDA00040926313100000516
式中,γ为衰减参数,Qi()为相应网络根据当前参数的估计值,v代表计算中所考虑的时间序列的长度;
根据5.4中得到的
Figure GDA00040926313100000517
采用寻找下降速度最快的方向梯度的梯度下降法计算并更新训练actor网络的参数/>
Figure GDA00040926313100000518
方向梯度/>
Figure GDA00040926313100000519
的计算公式为:
Figure GDA00040926313100000520
式中μi表示训练actor网络的输出;
5.6将训练actor网络参数、训练critic网络参数和目标actor网络参数、目标critic网络参数进行同步。
在上述技术方案中,步骤5.6中,同步的公式如下:
Figure GDA0004092631310000061
Figure GDA0004092631310000062
其中,τ为更新权值。
在上述技术方案中,控制器根据最终的带宽分配方案计算交换机的转发策略和带宽分配策略并以流表项、组表项和计量表项的形式下发到每个交换机上;同时,更新网络带宽使用情况。
在上述技术方案中,每个时间段结束后,控制器更新各个链路上网络带宽分配和使用情况。
本发明的优点和有益效果为:
本发明通过利用软件定义广域网技术和深度强化学习技术,在保证TCP、IP以及OpenFlow协议正常转发机制的前提上,提供了保证传输截止期限和Rabin公平性的软件定义广域网带宽分配机制。该机制是一种增量实现方法,使软件定义广域网在使用基本的OpenFlow协议和保证以TCP、IP为核心的网络路由交换机制不变的条件下在同时保证传输截止期限和带宽分配的公平性成为了可能。
附图说明
图1是本发明的深度强化学习迭代流程示意图。
图2是本发明实施例二中的软件定义网络拓扑图。
对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据以上附图获得其他的相关附图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合具体实施例进一步说明本发明的技术方案。
实施例一
一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法,包括以下步骤:
步骤1,控制器将每个时间段内待传输的数据传输请求记入集合F中,其中每个数据传输请求表示为多元组fi,fi={n,m,Vi,Bi,Di},其中,n表示该数据传输请求的源网络设备的编号,m表示该数据传输请求的目的网络设备的编号,Vi表示该数据传输请求的数据总量,Bi表示该数据传输请求的实际传输时间,Di表示该数据传输请求的截止期限。
步骤2,通过软件定义网络控制平面的控制器感知底层网络拓扑,得到各个源网络设备到目的网络设备之间的路径集合P,路径集合P中包括各个路径子集Pn,m,其中,n表示源网络设备的编号,m表示目的网络设备的编号。将数据传输请求fi所对应的由源网络设备到目的网络设备之间的所有可达路径记为Pi,将Pi中的第j条路径记为
Figure GDA0004092631310000071
(即/>
Figure GDA0004092631310000072
代表数据传输请求fi所对应的由源网络设备到目的网络设备之间第j条可达路径),则数据传输请求fi所对应的Pi信息可以从路径集合P中对应的路径子集Pn,m中得到。
例如:存在S1、S2、S3、S4等四个网络设备,某数据传输请求fi要求从网络设备S1发送数据到网络设备S4(即S1为源网络设备,S4为目的网络设备),则该数据传输请求fi所对应的可达路径Pi可从路径集合P中对应的路径子集PS1,4得到,例如路径子集PS1,S4
Figure GDA00040926313100000711
和/>
Figure GDA00040926313100000712
代表从网络设备S1发送数据到网络设备S4存在两条可达路径:
Figure GDA00040926313100000713
和/>
Figure GDA00040926313100000714
步骤3,计算集合F中每个数据传输请求fi的期望传输速率ei
Figure GDA0004092631310000073
步骤4,为每个数据传输请求初始化深度强化学习网络,其包括训练actor网络、训练critic网络和目标actor网络、目标critic网络,其中,训练actor网络参数记为
Figure GDA0004092631310000074
训练critic网络参数记为/>
Figure GDA0004092631310000075
目标actor网络参数记为/>
Figure GDA0004092631310000076
目标critic网络参数记为/>
Figure GDA0004092631310000077
步骤5,对每个数据传输请求所对应的深度强化学习网络同时执行T次迭代,评估迭代过程中带宽分配方案所对应的传输收益大小,根据收益大小计算训练actor网络、训练critic网络的损失函数。通过调节训练actor网络和训练critic网络的参数,使损失函数满足要求,进而得到目标actor网络、目标critic网络的最终参数。
5.1根据训练actor网络的输出得到数据传输请求fi的带宽分配方案,记为
Figure GDA0004092631310000078
其中,|Pi|代表数据传输请求fi所对应的由源网络设备到目的网络设备之间的可达路径的条数,/>
Figure GDA0004092631310000079
表示数据传输请求fi在其第j条路径上所分配的带宽,j∈(1...|Pi|)。
5.2观察网络中除该数据传输请求之外的其他数据传输请求的带宽分配方案,记为
Figure GDA00040926313100000710
5.3根据公式
Figure GDA0004092631310000081
计算当前带宽分配方案所得的传输收益,其中,Gi表示该数据传输请求正常完成数传输时的传输收益,Ui表示该数据传输请求没有进行传输时的传输收益,Ki表示该数据传输请求没有得到足够的发送带宽时的传输收益,而Zi表示该数据传输请求得到足够的带宽但是该带宽分配方案引起网络拥塞时的传输收益。显然可以得到,Gi>Ui≥0>Ki>Zi。πi(ri)为传输收益函数,θ(ri)为拥塞指示因数,其数值可通过如下公式计算:
Figure GDA0004092631310000082
其中Pi代表数据传输请求fi所对应的由源网络设备到目的网络设备之间的所有可达路径,
Figure GDA0004092631310000083
代表数据传输请求fi所对应的由源网络设备到目的网络设备之间第j条可达路径;Cl表示链路l的带宽容量,W(l)表链路l的已经占用带宽总量,/>
Figure GDA0004092631310000084
表示链路l是否在数据传输请求fi的第j条路径上,当链路l在数据传输请求fi的第j条路径上时/>
Figure GDA0004092631310000085
否则
Figure GDA0004092631310000086
5.4将
Figure GDA0004092631310000087
置入深度强化学习缓存区,/>
Figure GDA0004092631310000088
代表t时刻所有数据传输请求的带宽分配方案的集合,/>
Figure GDA0004092631310000089
代表数据传输请求fi的带宽分配方案为/>
Figure GDA00040926313100000810
其他数据传输请求的带宽分配方案为/>
Figure GDA00040926313100000811
时的传输收益。
5.5根据5.4中得到的
Figure GDA00040926313100000812
通过最小化损失函数的方法计算并更新训练critic网络参数/>
Figure GDA00040926313100000813
其中,损失函数定义为/>
Figure GDA00040926313100000814
计算公式为
Figure GDA00040926313100000815
其中,
Figure GDA00040926313100000816
表示整个时间序列传输收益,
Figure GDA00040926313100000817
式中,γ为衰减参数,Qi()为相应网络根据当前参数的估计值,ω代表计算中所考虑的时间序列的长度。
此外,根据5.4中得到的
Figure GDA00040926313100000818
采用寻找下降速度最快的方向梯度的梯度下降法计算并更新训练actor网络的参数/>
Figure GDA00040926313100000819
方向梯度/>
Figure GDA00040926313100000820
的计算公式为:
Figure GDA0004092631310000091
式中μi表示训练actor网络的输出。
5.6通过软更新方法将训练网络和目标网络的参数进行同步,软更新方法的公式如下:
Figure GDA0004092631310000092
Figure GDA0004092631310000093
其中,τ为更新权值。
步骤6,在T次迭代后由目标actor网络给出最终的带宽分配方案,该方案持续至该数据传输请求的直接期限D为止。
步骤7,控制器根据最终的带宽分配方案计算交换机的转发策略和带宽分配策略并以流表项、组表项和计量表项的形式下发到每个交换机上;同时,更新网络带宽使用情况。
步骤8,每个时间段结束后,控制器更新各个链路上网络带宽分配和使用情况。
实施例二
在实施例一的基础上,下面结合具体案例说明所述带宽分配方法,具体操作步骤如下:
1)假设底层网络拓扑如图2所示,TCP发送端(IP:10.0.0.1Port:3301,Port:10001)和TCP接收端(IP:10.0.0.2Port:3302,Port:10002)之间的可达路径为:
Figure GDA0004092631310000094
和/>
Figure GDA0004092631310000095
每条链路的带宽容量为100Mbps。
2)本例中假设系统时间段长度为1s,在当前时间段有两个数据传输请求分别需要从发送端发往接收端50Mb和100Mb数据并且截止期限均为1s,两个数据传输请求分别记为f1和f2。
3)控制器接收到数据传输请求后,计算出数据传输请求f1的期望传输速率为e1=50Mbps,数据传输请求f2的期望传输速率为e2=100Mbps。
4)控制器初始化具有2个代理的多代理深度强化学习网络。
5)经过2000次迭代学习,计算出带宽分配方案为r1=<25,25>,r2=<50,50>。
6)软件定义网络控制器将流表项、组表项以及计量表项下发到每个交换机上。其中,下发到交换机S1的流表项部分信息如下所示:
priority=2,ip,in_port=1,dl_src=36:d2:9a:ba:87:bb,dl_dst=0a:8b:7f:f9:51:03,nw_src=10.0.0.1,nw_dst=10.0.0.2,tp_src=3301actions=group:1
priority=2,ip,in_port=1,dl_src=36:d2:9a:ba:87:bb,dl_dst=0a:8b:7f:f9:51:03,nw_src=10.0.0.1,nw_dst=10.0.0.2,tp_src=10001actions=group:2
下发到交换机S1的组表项部分信息如下所示:
group_id=1,type=select,selection_method=hash,bucket=weight:1,meter:1,output:2,bucket=weigh:1,meter:2,output:3
group_id=2,type=select,selection_method=hash,bucket=weight:1,meter:3,output:2,bucket=weight:1,meter:4,output:3
下发到交换机S1的计量表项部分信息如下所示:
meter=1kbps bands=type=drop rate=25000
meter=2kbps bands=type=drop rate=25000
meter=3kbps bands=type=drop rate=50000
meter=4kbps bands=type=drop rate=50000
7)控制器更新网络带宽使用情况。
以上对本发明做了示例性的描述,应该说明的是,在不脱离本发明的核心的情况下,任何简单的变形、修改或者其他本领域技术人员能够不花费创造性劳动的等同替换均落入本发明的保护范围。

Claims (8)

1.一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法,其特征在于:包括以下步骤:
步骤1,将每个时间段内待传输的数据传输请求记入集合F中;
步骤2,通过软件定义网络控制平面的控制器感知底层网络拓扑,计算各个源网络设备到目的网络设备之间的路径集合P;
步骤3,计算集合F中每个数据传输请求fi的期望传输速率ei,期望传输速率ei由数据传输请求的数据总量、数据传输请求的实际传输时间和数据传输请求的截止期限计算得到;
步骤4,为每个数据传输请求初始化深度强化学习网络,其包括训练actor网络、训练critic网络和目标actor网络、目标critic网络,其中,训练actor网络参数记为
Figure FDA0004092631290000011
训练critic网络参数记为/>
Figure FDA0004092631290000012
目标actor网络参数记为/>
Figure FDA0004092631290000013
目标critic网络参数记为/>
Figure FDA0004092631290000014
步骤5,对每个数据传输请求所对应的深度强化学习网络同时执行T次迭代,评估迭代过程中带宽分配方案所对应的传输收益大小,根据收益大小计算训练actor网络、训练critic网络的损失函数,通过调节训练actor网络和训练critic网络的参数,使损失函数满足要求,进而得到目标actor网络、目标critic网络的最终参数;
步骤6,在T次迭代后由目标actor网络给出最终的带宽分配方案。
2.根据权利要求1所述的保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法,其特征在于:集合F中,每个数据传输请求fi表示为多元组,fi={n,m,Vi,Bi,Di},其中,n表示该数据传输请求的源网络设备的编号,m表示该数据传输请求的目的网络设备的编号,Vi表示该数据传输请求的数据总量,Bi表示该数据传输请求的实际传输时间,Di表示该数据传输请求的截止期限。
3.根据权利要求2所述的保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法,其特征在于:每个数据传输请求fi的期望传输速率
Figure FDA0004092631290000015
4.根据权利要求2所述的保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法,其特征在于:路径集合P中包括各个路径子集Pn,m,其中,n表示源网络设备的编号,m表示目的网络设备的编号;将数据传输请求fi所对应的由源网络设备到目的网络设备之间的所有可达路径记为Pi,将Pi中的第j条路径记为
Figure FDA0004092631290000016
则数据传输请求fi所对应的Pi信息可以从路径集合P中对应的路径子集Pn,m中得到。
5.根据权利要求4所述的保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法,其特征在于:所述步骤5具体包括以下步骤:
5.1根据训练actor网络的输出得到数据传输请求fi的带宽分配方案,记为
Figure FDA0004092631290000017
其中,|Pi|代表数据传输请求fi所对应的由源网络设备到目的网络设备之间的可达路径的条数,ri j表示数据传输请求fi在其第j条路径上所分配的带宽;
5.2观察网络中除该数据传输请求之外的其他数据传输请求的带宽分配方案,记为
Figure FDA0004092631290000021
5.3根据公式
Figure FDA0004092631290000022
计算当前带宽分配方案所得的传输收益,其中,Gi表示该数据传输请求正常完成数传输时的传输收益,Ui表示该数据传输请求没有进行传输时的传输收益,Ki表示该数据传输请求没有得到足够的发送带宽时的传输收益,而Zi表示该数据传输请求得到足够的带宽但是该带宽分配方案引起网络拥塞时的传输收益,πi(ri)为传输收益函数,θ(ri)为拥塞指示因数,其数值可通过如下公式计算:
Figure FDA0004092631290000023
其中,Cl表示链路l的带宽容量,W(l)表链路l的已经占用带宽总量,
Figure FDA0004092631290000024
表示链路l是否在数据传输请求fi的第j条路径上,当链路l在数据传输请求fi的第j条路径上时/>
Figure FDA0004092631290000025
否则/>
Figure FDA0004092631290000026
5.4将
Figure FDA0004092631290000027
置入深度强化学习缓存区,/>
Figure FDA0004092631290000028
代表t时刻所有数据传输请求的带宽分配方案的集合,/>
Figure FDA0004092631290000029
代表数据传输请求fi的带宽分配方案为/>
Figure FDA00040926312900000210
其他数据传输请求的带宽分配方案为/>
Figure FDA00040926312900000211
时的传输收益;
5.5根据5.4中得到的
Figure FDA00040926312900000212
通过最小化损失函数的方法计算并更新训练critic网络参数/>
Figure FDA00040926312900000213
其中,损失函数定义为/>
Figure FDA00040926312900000214
计算公式为
Figure FDA00040926312900000215
其中,
Figure FDA00040926312900000216
表示整个时间序列传输收益,
Figure FDA00040926312900000217
式中,γ为衰减参数,Qi()为相应网络根据当前参数的估计值,ω代表计算中所考虑的时间序列的长度;
根据5.4中得到的
Figure FDA00040926312900000218
采用寻找下降速度最快的方向梯度的梯度下降法计算并更新训练actor网络的参数/>
Figure FDA00040926312900000219
方向梯度/>
Figure FDA00040926312900000220
的计算公式为:
Figure FDA0004092631290000031
/>
式中μi表示训练actor网络的输出;
5.6将训练actor网络参数、训练critic网络参数和目标actor网络参数、目标critic网络参数进行同步。
6.根据权利要求5所述的保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法,其特征在于,步骤5.6中,同步的公式如下:
Figure FDA0004092631290000032
Figure FDA0004092631290000033
其中,τ为更新权值。
7.根据权利要求1所述的保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法,其特征在于:控制器根据最终的带宽分配方案计算交换机的转发策略和带宽分配策略并以流表项、组表项和计量表项的形式下发到每个交换机上;同时,更新网络带宽使用情况。
8.根据权利要求7所述的保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法,其特征在于:每个时间段结束后,控制器更新各个链路上网络带宽分配和使用情况。
CN202111421131.3A 2021-11-26 2021-11-26 一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法 Active CN114697225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111421131.3A CN114697225B (zh) 2021-11-26 2021-11-26 一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111421131.3A CN114697225B (zh) 2021-11-26 2021-11-26 一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法

Publications (2)

Publication Number Publication Date
CN114697225A CN114697225A (zh) 2022-07-01
CN114697225B true CN114697225B (zh) 2023-06-06

Family

ID=82136412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111421131.3A Active CN114697225B (zh) 2021-11-26 2021-11-26 一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法

Country Status (1)

Country Link
CN (1) CN114697225B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10510002B1 (en) * 2019-02-14 2019-12-17 Capital One Services, Llc Stochastic gradient boosting for deep neural networks
CN112153702A (zh) * 2020-11-05 2020-12-29 广州竞远安全技术股份有限公司 一种局域网带宽资源分配方法、存储装置及设备
CN112437020A (zh) * 2020-10-30 2021-03-02 天津大学 一种基于深度强化学习的数据中心网络负载均衡方法
CN112866015A (zh) * 2021-01-07 2021-05-28 华东师范大学 一种基于数据中心网络流量预测与学习的智能节能控制方法
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10510002B1 (en) * 2019-02-14 2019-12-17 Capital One Services, Llc Stochastic gradient boosting for deep neural networks
CN112437020A (zh) * 2020-10-30 2021-03-02 天津大学 一种基于深度强化学习的数据中心网络负载均衡方法
CN112153702A (zh) * 2020-11-05 2020-12-29 广州竞远安全技术股份有限公司 一种局域网带宽资源分配方法、存储装置及设备
CN112866015A (zh) * 2021-01-07 2021-05-28 华东师范大学 一种基于数据中心网络流量预测与学习的智能节能控制方法
CN113254197A (zh) * 2021-04-30 2021-08-13 西安电子科技大学 一种基于深度强化学习的网络资源调度方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Kohei Shiomoto,Takashi Kurimoto.《Policy Gradient-based Deep Reinforcement Learning for Deadline-aware Transfer over Wide Area Networks》.2021 IEEE 7th International Conference on Network Softwarization.2021,全文. *
Wei Gao, Zhisheng Ye, Peng Sun, Yonggang Wen, Tianwei Zhang.《Chronus: A Novel Deadline-aware Scheduler for Deep Learning Training Jobs》.Proceedings of the ACMSymposium on Cloud Computing.2021,全文. *
季晨阳,毕美华,周钊,陈天宁,林嘉芊,徐志威.《基于深度强化学习的多租户PON在线带宽资源分配算法》.《光通信技术》.2021,(第9期),全文. *

Also Published As

Publication number Publication date
CN114697225A (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
WO2023004898A1 (zh) 一种基于路由调度与联合优化的时延确定性传输方法
Quang et al. Multi-domain non-cooperative VNF-FG embedding: A deep reinforcement learning approach
CN112600759B (zh) 基于深度强化学习在Overlay网络下多路径流量调度方法及系统
CN105960783A (zh) 域间sdn流量工程
CN103477595A (zh) 网络、数据传送节点、通信方法和程序
CN113015216B (zh) 一种面向边缘服务网络的突发任务卸载与调度方法
Villota-Jacome et al. Admission control for 5G core network slicing based on deep reinforcement learning
CN109120454A (zh) 一种QoS流量限速系统及方法
CN116489104A (zh) 一种基于动态优先级的流量调度方法与系统
JP3830937B2 (ja) 高速パケット網のためのパケットスケジューリングシステム及び方法
Qadeer et al. DDPG-edge-cloud: A deep-deterministic policy gradient based multi-resource allocation in edge-cloud system
CN114205300B (zh) 一种能够在流量信息不完整情况下保证coflow传输截止期限的流量调度方法
CN109922161A (zh) 动态云内容分发网络的内容分发方法、系统、设备及介质
CN114697225B (zh) 一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法
Dong et al. TINA: A fair inter-datacenter transmission mechanism with deadline guarantee
Zhang et al. Vehicular multi-slice optimization in 5G: Dynamic preference policy using reinforcement learning
Liu et al. Deep reinforcement learning based adaptive transmission control in vehicular networks
CN115225512B (zh) 基于节点负载预测的多域服务链主动重构机制
EP3531622A1 (en) Method of handling packet flow in software-defined network, computer program product, and software-defined network
Pham et al. Multi-domain non-cooperative VNF-FG embedding: A deep reinforcement learning approach
CN112333102B (zh) 基于知识图谱的软件定义网络路由选择方法和系统
Wu et al. A multipath resource updating approach for distributed controllers in software-defined network
Wang et al. Efficient and fair: Information-agnostic online coflow scheduling by combining limited multiplexing with DRL
Prasad et al. Scheduling slice requests in 5G networks
JP3905483B2 (ja) サービスリスト選択装置及び方法並びにプログラム及び記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant