CN113676407A - 一种通信网的深度学习驱动的流量优化机制 - Google Patents
一种通信网的深度学习驱动的流量优化机制 Download PDFInfo
- Publication number
- CN113676407A CN113676407A CN202110798422.8A CN202110798422A CN113676407A CN 113676407 A CN113676407 A CN 113676407A CN 202110798422 A CN202110798422 A CN 202110798422A CN 113676407 A CN113676407 A CN 113676407A
- Authority
- CN
- China
- Prior art keywords
- network
- traffic
- ite
- drl
- icn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 75
- 230000007246 mechanism Effects 0.000 title claims abstract description 45
- 238000004891 communication Methods 0.000 title claims abstract description 18
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 238000009826 distribution Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims description 38
- 239000003795 chemical substances by application Substances 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 22
- 230000009471 action Effects 0.000 claims description 17
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000000926 separation method Methods 0.000 claims description 8
- 230000008901 benefit Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 230000002411 adverse Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000004880 explosion Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000003860 storage Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000002787 reinforcement Effects 0.000 description 2
- 238000013468 resource allocation Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
- H04L47/125—Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
- H04L43/0882—Utilisation of link capacity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
- H04L43/0888—Throughput
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0876—Network utilisation, e.g. volume of load or congestion level
- H04L43/0894—Packet rate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/12—Shortest path evaluation
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Environmental & Geological Engineering (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开一种通信网的深度学习驱动的流量优化机制,基于SDN网络,将智能流量优化机制iTE的控制回路部署在SDN控制器中,iTE的控制回路包括三个组成部分:(1)支持ICN的交换机部分;(2)DRL环境部分;由数据平面收集的网络信息和流量信息抽象成的DRL环境是SDN控制器中为DRL算法提供状态的输入,同时,监测网络和流量状态;(3)并行决策模块部分;并行决策模块是运行在SDN控制器中核心的执行流量优化算法的模块。这表明iTE以更加细粒度的流量分配方式、更合理的分布流量到网络中。引入ICN后,网络可以承载更多的流量。ICN通过利用网内缓存将流量终结在网内存储中,进而使得网络容纳更多的流量。
Description
技术领域
本发明涉及通信网络流量优化技术领域,具体说是一种通信网的深度学习驱动的流量优化机制。
背景技术
目前的互联网早已超越其设计之初的目的和规模,成为全球通信基础设施,而依托互联网的各种应用,例如,快手、抖音、购物平台等,在极大的方便和丰富了人们的生活的同时,也使得网络正经历着爆炸性的流量增长,流量模式和网络环境高度动态变化。因此,在通信网络中,需要对流量进行优化。
流量优化是一个处理网络流量分布和分配的大规模在线决策问题。对提高网络利用率和高效的资源共享起着至关重要的作用。通常,网络流量优化依赖于通过观测或者估计当前网络的流量矩阵,并根据当前网络状态和流量信息计算链路权重来选择路径,分配流量。资源分配的算法大多是基于模型的,即,假定网络环境、流量模式和用户需求可以很好地建模。
目前,流量优化解决方案总是基于最短路径优先或约束最短路径优先算法来路由流量。公告号为CN107426097A的专利,该专利中采用的是一种分布式解决方案,网络拓扑结构中所有的节点采用的方法都相同,虽然缓解了域内路由协议收敛速度慢和实时通信流量之间的矛盾,但是由于链路状态的权值是静态分配的,或者取决于链接的剩余可用资源,所以其灵活度不高,一旦最短路径发生最终拥塞,其他路径的带宽利用率仍然很低。
然而,作为分布式的协议,经典的流量优化解决方案只能根据本地的决策分配网络资源,这往往导致非最优的网络利用和资源共享。
发明内容
本发明的目的是提出智能流量优化机制,基于软件定义网络的全局感知和全局优化能力,并应用深度神经网络DNN和深度强化学习DRL算法来优化网络中的流量分布。其目的是在满足用户带宽需求的前提下,最大限度地提高网络吞吐量,均衡全网链路利用率。
本发明采用的技术方案如下:
一种通信网的深度学习驱动的流量优化机制,基于SDN网络,将智能流量优化机制iTE的控制回路部署在SDN控制器中,iTE的控制回路包括三个组成部分:
(1)支持ICN的交换机部分;
网络中的ICN交换机,除了支持正常的名字路由功能外,增加带计数器的布隆过滤器来表示缓存内容的信息;同时,采用基于压缩感知的网内缓存感知机制收集缓存内容信息至控制器中;
(2)DRL环境部分;
由数据平面收集的网络信息和流量信息抽象成的DRL环境是SDN控制器中为DRL算法提供状态的输入,同时,监测网络和流量状态;
(3)并行决策模块部分;
并行决策模块是运行在SDN控制器中核心的执行流量优化算法的模块;该模块支持多个算法并行算路,并由最终决策模块按预定的策略规则从多个算法中选择最优的实施。
优选的,iTE控制回路工作流程如下:
(1)网络中ICN交换机将其缓存内容信息和可用的链路带宽上载到SDN控制器;
(2)环境模块将接收到的信息进行汇编和转换,作为PDM的输入;
PDM采用多个流量优化算法,其中基于DRL的算法,用于执行智能的流量优化决策;
(3)DRL智能体在与环境的交互中根据获得的奖励或惩罚,不断的学习以更加适应环境;
惩罚来自于犯错;网络生产流量不允许犯错;因此,使用PDM模块,客观评价各个算法的决定,屏蔽有可能带来不良影响的DRL决策;
(4)同时,最短路径算法、负载均衡算法的决策可以用来在线地训练DRL的模型;
(5)基于当前的环境和决策,DRL智能体从反馈中获得奖励,并对驻留在DRL智能体上的神经网络的参数进行调整。
优选的,当SDN控制器中缓存内容信息被恢复后,流量优化应用需要迅速地定位内容请求需要的潜在缓存节点;在SDN控制器中,从全网ICN节点收集的缓存内容信息被组织形成一个m×n的二进制矩阵,其中,n是全网ICN节点的数量;假设iTE中用于构建布隆过滤器的哈希函数集是相同和预定义的,即,每个ICN节点使用相同的哈希函数构造其布隆过滤器;具体的定位过程为,当一个新的内容请求上传到SDN控制器时,将该请求的内容名字由预先定义的k个哈希函数散列,并返回k个位置;然后,在缓存内容信息矩阵中选择相应的k行,并将它们作为k个1×n的二进制向量;最后,让这些向量做布尔和运算;运算的结果比特位为1的位置,即指示着请求内容所缓存的ICN节点。
优选的,ICN交换机将ICN流量优化问题建模为DRL学习问题,采用演员-评论家训练方法;AC方法分为两部分,包括训练Actor网络和Critic网络;Actor实际上就是使用策略梯度算法,该算法有利于在连续动作空间内选择合适的动作;这是因为基于值的RL学习方法无法适应连续的动作空间的场景,将会导致空间爆炸;但是又因为Actor方法是基于每回合更新的所以学习效率比较慢,所以提出可以使用一个value-based的算法作为Critic就可以实现单步更新;这样两种算法相互补充就形成了目前比较常用且高效的AC方法;iTE是面向大规模连续控制的网络流量优化问题,所以采用AC方法实现iTE的智能体。
优选的,状态空间:状态共由四个组成部分,分别是:
1)请求内容的名字;
2)内容请求的源ICN节点ID;
3)缓存定位机制得出的网内缓存ICN节点ID
4)网络中链路的可用带宽,形式上,s=(nc,src,dst,avail)定义为状态向量;其中,nc=(nc1,nc2,...,ncc)表示由c个名字成份构成的完整内容名字;发掘不同名字成分和不同内容请求的需求之间的关联关系,对于智能的识别流量需求是非常重要的;因此,引入前馈神经网络模型来学习相关性并以此来实现智能地识别流量带宽需求的能力;FNN的输出即是识别的流量需求的值,FNN的结构用虚线框框起来;然后,将FNN的输出接下来送至AC模型;值得注意的是,FNN的训练是独立离线完成的,到达一定的精度之后再合并到AC模型中去;
src∈{0,1}n是一个长度为n的二进制向量,表示发送内容请求的源ICN节点;具体来说,值为1的位置对应于请求出现的ICN源节点;dst∈{0,1}n是缓存内容定位机制的输出结果,也是一个n长度的二进制向量,值为1的位置对应于定位的网内缓存ICN节点;avail=(b1,b2,...,bl,...,bL)表示网络中所有L个链路的可用带宽值,其中,1≤l≤L;
状态空间定义以简单的形式包含了流量优化的必要信息,包括请求和网络的信息;iTE面向的是每条流的最优多源多路径计算,是一个独立的优化单元,并不涉及应对其他额外或者意外的情况,容错路由和优先级抢占。
优选的,动作空间:iTE输出的动作被定义为流量优化问题的解;具体是定义为动作向量,其中,表示第i个网内缓存节点分配的请求量占总流量的比率,且1≤i≤I请求内容将根据分离比率分配到全部的I个网内缓存节点,利用网内缓存,增加流量分配的灵活性;有些网内缓存节点可能分配到的流量请求是0,这与全网链路状态和现有的流量分布有关;iTE的目标是寻找最优的分配比率;path=(e1,e2,...,eL)是一个长度为L的二进制向量,用来表示选定的传输链路;
动作空间包含必要的解的组成部分,即,多源多路径和相应的流量承载分离比率;多源多路径的流量分布将极大的增加了流量优化的灵活性,这得益于ICN网内缓存带来的多源和内在的多路径转发机制。
优选的,奖励:DRL智能体的奖励是流量优化问题的目标,即,提高网络吞吐量和负载均衡;形式上,奖励函数的定义如下公式:
其中,代表标准化的平均可用带宽比率,bw表示一条链路的总带宽,bl表示一条链路的剩余带宽;通过表达式可以将一条链路的可用带宽的评价值的值域映射到[-1,1]范围内,其中,值越接近1意味着该链路可用带宽越大,将优先选择,否则值接近-1,表示可用带宽较少,应作为惩罚;由于iTE目标之一是容纳更多请求以提高全网吞吐量,将全网所有链路可用带宽的评价值的平均值作为奖励函数的组成部分之一;表示标准化的全网可用带宽的方差,其中σ表示全网链路可用带宽的公式如下:
μ是全网平均链路可用带宽;通过表达式可以将计算出的全网链路可用带宽的方差的值域映射到[-1,1]范围内,同样地,值越接近1意味着全网链路带宽利用率比较均衡,将优先选择,否则值接近-1,表示全网链路带宽利用率相差较大,应作为惩罚;iTE负载均衡的目标将由此表达式实现;另外,ω是权重值,用来平衡两个iTE目标,即,网络吞吐量和链路负载均衡;将固定ω的值为1,表示两个目标同等重要。
优选的,PDM机制可以容纳多个算法同时并行运行;利用多个现有算法,不用依赖于某个单一算法给结果;不同的算法依赖于不同的假设,但是可以并行运行;iTE采用现有的常用的两种算法,即最短路径算法和负载均衡算法,都是并行运行的;其中,每个算法的环境是分离且一致的;然后,PDM将多个算法的结果发送给最终决策者,决策者将客观地评价每个算法的结果并按照一定的规则或策略执行其中的一个较优的算法的结果;现有成熟算法的结果可用于在线训练DRL智能体,并同时存储在AC模型中的经验回放区中,以加快DRL的训练速度;通过这样的方法,在持续不断的学习的基础上,DRL智能体可以安全地优化网络流量。
本发明的有益效果:
本发明将iTE与SPF、LB和DRL(不带PDM机制的iTE)进行了性能对比,选择了3个评价指标,即,总网络吞吐量、平均带宽利用率和带宽利用率方差。此外,为了证明引入ICN带来的收益,我们对比了在引入和不引入ICN网内缓存的情况下的总网络吞吐量。
1、总网络吞吐量和平均带宽利用率;
在拓扑NSFNET、GEANT和Random上,随着网络中随机分布的内容请求者的数量不断增加,运行所有算法的总网络吞吐量都在增加。但是这种增加不是线性的也不是持续的。当网络中的内容请求者达到一定数量时,内容请求的数量逐渐增长,网络可以容纳的流量趋于饱和,更多的内容请求者产生更多的流量需求会导致请求不能得到满足,或者发生拥塞和数据包丢失,这可能导致吞吐量降低。与DRL、LB、SP算法相比,iTE在三个拓扑上的总吞吐量始终保持是最优的。这表明iTE可以以更加细粒度的流量分配方式、更合理的分布流量到网络中。
2、带宽利用率方差;
在拓扑NSFNET、GEANT和Random上,与DRL、LB、SPF相比,iTE的带宽利用率方差最小,这意味着网络中所有链路、流量经过的路径的带宽利用率都很接近。这是由于iTE的目标是考虑网络整体的负载均衡。更重要的是,借助于PDM,iTE可以将LB作为iTE的基准算法,探索出更均衡的解决方案。
3、ICN收益评估;
为了评估引入ICN对于流量优化性能的提升,我们从支持ICN的交换机中删除了网络内缓存功能,同时保持其他设置不变。这表示网内缓存不可用,只有源内容提供者才能响应内容请求。在NSFNET上,在相同的条件下,引入ICN后,网络可以承载更多的流量。这是ICN通过利用网内缓存将流量终结在网内存储中,进而使得网络容纳更多的流量。
附图说明
图1是iTE的闭环控制系统框图。
图2是控制器缓存定位示意图。
图3是iTE智能体网络模型图。
图4是在线并行决策机制示意图。
具体实施方式
下面结合说明书附图1-4对本发明进一步详细说明。
一种通信网的深度学习驱动的流量优化机制,基于SDN网络,将智能流量优化机制iTE的控制回路部署在SDN控制器中,iTE的控制回路包括三个组成部分:
(1)支持ICN的交换机部分;
网络中的ICN交换机,除了支持正常的名字路由功能外,增加带计数器的布隆过滤器来表示缓存内容的信息;同时,采用基于压缩感知的网内缓存感知机制收集缓存内容信息至控制器中;
(2)DRL环境部分;
由数据平面收集的网络信息和流量信息抽象成的DRL环境是SDN控制器中为DRL算法提供状态的输入,同时,监测网络和流量状态。
(3)并行决策模块部分;
并行决策模块(Parallel Decision-Making module,PDM)是运行在SDN控制器中核心的执行流量优化算法的模块;该模块支持多个算法并行算路,并由最终决策模块按预定的策略规则从多个算法中选择最优的实施。
iTE控制回路工作流程如下:
(1)网络中ICN交换机将其缓存内容信息和可用的链路带宽上载到SDN控制器;
(2)环境模块将接收到的信息进行汇编和转换,作为PDM的输入;
PDM由多个流量优化算法,例如,最短路径算法(SPF)、负载均衡算法(LB)、基于深度神经网络的强化学习算法(DRL),组成,其中基于DRL的算法,用于执行智能的流量优化决策;
(3)DRL智能体在与环境的交互中根据获得的奖励或惩罚,不断的学习以更加适应环境;
惩罚来自于犯错;网络生产流量不允许犯错;因此,使用PDM模块,客观评价各个算法的决定,屏蔽有可能带来不良影响的DRL决策。
(4)同时,其他算法,例如,最短路径算法(SPF)、负载均衡算法(LB),的决策可以用来在线地训练DRL的模型;
(5)基于当前的环境和决策,DRL智能体从反馈中获得奖励,并对驻留在DRL智能体上的神经网络的参数进行调整。
当SDN控制器中缓存内容信息被恢复后,流量优化应用需要迅速地定位内容请求需要的潜在缓存节点。在SDN控制器中,从全网ICN节点收集的缓存内容信息被组织形成一个m×n的二进制矩阵,其中,n是全网ICN节点的数量;假设iTE中用于构建布隆过滤器的哈希函数集是相同和预定义的,即,每个ICN节点使用相同的哈希函数构造其布隆过滤器;具体的定位过程为,当一个新的内容请求上传到SDN控制器时,将该请求的内容名字由预先定义的k个哈希函数散列,并返回k个位置。然后,在缓存内容信息矩阵中选择相应的k行,并将它们作为k个1×n的二进制向量。最后,让这些向量做布尔和运算。运算的结果(比特位为1的位置)即指示着请求内容所缓存的ICN节点。
ICN交换机将ICN流量优化问题建模为DRL学习问题,采用演员-评论家(Actor-Critic,AC)训练方法。AC方法分为两部分,包括训练Actor网络和Critic网络。Actor实际上就是使用策略梯度(policy gradient)算法,该算法有利于在连续动作空间内选择合适的动作。这是因为基于值(value-based)的RL学习方法(例如,Q-learning)无法适应连续的动作空间的场景,将会导致空间爆炸。但是又因为Actor方法是基于每回合更新的所以学习效率比较慢,所以提出可以使用一个value-based的算法作为Critic就可以实现单步更新。这样两种算法相互补充就形成了目前比较常用且高效的AC方法。iTE是面向大规模连续控制的网络流量优化问题,所以采用AC方法实现iTE的智能体。
状态空间(state space):状态共由四个组成部分,分别是:
1)请求内容的名字;
2)内容请求的源ICN节点ID;
3)缓存定位机制得出的网内缓存ICN节点ID
4)网络中链路的可用带宽,形式上,s=(nc,src,dst,avail)定义为状态向量。其中,nc=(nc1,nc2,...,ncc)表示由c个名字成份构成的完整内容名字。发掘不同名字成分和不同内容请求的需求之间的关联关系,对于智能的识别流量需求是非常重要的。因此,引入前馈神经网络(Feed-forwardNeural Network,FNN)模型来学习相关性并以此来实现智能地识别流量带宽需求的能力。FNN的输出即是识别的流量需求的值,FNN的结构用虚线框框起来。然后,将FNN的输出接下来送至AC模型。值得注意的是,FNN的训练是独立离线完成的,到达一定的精度之后再合并到AC模型中去。
src∈{0,1}n是一个长度为n的二进制向量,表示发送内容请求的源ICN节点。具体来说,值为1的位置对应于请求出现的ICN源节点。dst∈{0,1}n是缓存内容定位机制的输出结果,也是一个n长度的二进制向量,值为1的位置对应于定位的网内缓存ICN节点。avail=(b1,b2,...,bl,...,bL)表示网络中所有L个链路的可用带宽值,其中,1≤l≤L。
状态空间定义以简单的形式包含了流量优化的必要信息,包括请求和网络的信息。iTE面向的是每条流的最优多源多路径计算,是一个独立的优化单元,并不涉及应对其他额外或者意外的情况,如,容错路由和优先级抢占。
动作空间(action space):iTE输出的动作被定义为流量优化问题的解。具体是定义为动作向量,其中,表示第i个网内缓存节点分配的请求量占总流量的比率,且1≤i≤I请求内容将根据分离比率分配到全部的I个网内缓存节点,利用网内缓存,增加流量分配的灵活性;有些网内缓存节点可能分配到的流量请求是0,这与全网链路状态和现有的流量分布有关;iTE的目标是寻找最优的分配比率;path=(e1,e2,...,eL)是一个长度为L的二进制向量,用来表示选定的传输链路。
动作空间包含必要的解的组成部分,即,多源多路径和相应的流量承载分离比率。多源多路径的流量分布将极大的增加了流量优化的灵活性,这得益于ICN网内缓存带来的多源和内在的多路径转发机制。
奖励(reward):DRL智能体的奖励是流量优化问题的目标,即,提高网络吞吐量和负载均衡;形式上,奖励函数的定义如下公式:
其中,代表标准化的平均可用带宽比率,bw表示一条链路的总带宽,bl表示一条链路的剩余带宽。通过表达式可以将一条链路的可用带宽的评价值的值域映射到[-1,1]范围内,其中,值越接近1意味着该链路可用带宽越大,将优先选择,否则值接近-1,表示可用带宽较少,应作为惩罚。由于iTE目标之一是容纳更多请求以提高全网吞吐量,将全网所有链路可用带宽的评价值的平均值作为奖励函数的组成部分之一。表示标准化的全网可用带宽的方差,其中σ表示全网链路可用带宽的公式如下:
μ是全网平均链路可用带宽。通过表达式可以将计算出的全网链路可用带宽的方差的值域映射到[-1,1]范围内,同样地,值越接近1意味着全网链路带宽利用率比较均衡,将优先选择,否则值接近-1,表示全网链路带宽利用率相差较大,应作为惩罚。iTE负载均衡的目标将由此表达式实现。另外,ω是权重值,用来平衡两个iTE目标,即,网络吞吐量和链路负载均衡。将固定ω的值为1,表示两个目标同等重要。
PDM机制可以容纳多个算法同时并行运行。除了DRL算法外,同时利用多个现有算法,例如,例如,最短路径算法(SPF)、负载均衡算法(LB),不用依赖于某个单一算法给结果。不同的算法依赖于不同的假设,但是可以并行运行。iTE采用现有的常用的两种算法,即,最短路径算法(Shortest Path First,SPF)和负载均衡算法(Load Balance,LB),都是并行运行的。其中,每个算法的环境是分离且一致的。然后,PDM将多个算法的结果发送给最终决策者,决策者将客观地评价每个算法的结果并按照一定的规则或策略执行其中的一个较优的算法的结果。现有成熟算法的结果可用于在线训练DRL智能体,并同时存储在AC模型中的经验回放区(Experience Replay Buffer)中,以加快DRL的训练速度。通过这样的方法,在持续不断的学习的基础上,DRL智能体可以安全地优化网络流量。
本发明基于深度学习驱动的ICN流量优化机制提出的iTE闭环控制系统工作流程如下:网络中ICN交换机将其缓存内容信息和可用的链路带宽上载到SDN控制器;环境模块将接收到的信息进行汇编和转换,作为PDM的输入;PDM由多个流量优化算法组成,包括基于DRL的算法,用于执行智能的流量优化决策。DRL智能体在与环境的交互中根据获得的奖励或惩罚,不断的学习以更加适应环境;惩罚来自于犯错。网络生产流量不允许犯错。因此,使用PDM模块,客观评价各个算法的决定,屏蔽有可能带来不良影响的DRL决策。同时,其他算法的决策可以用来在线地训练DRL的模型;基于当前的环境和决策,DRL智能体从反馈中获得奖励,并对驻留在DRL智能体上的神经网络的参数进行调整。
图2是控制器缓存定位示意图。当缓存内容信息在控制器中被恢复后,流量优化应用需要迅速地定位内容请求需要的潜在缓存节点。在SDN控制器中,从全网ICN节点收集的缓存内容信息被组织形成一个m×n的二进制矩阵,其中,n是全网ICN节点的数量。假设iTE中用于构建布隆过滤器的哈希函数集是相同和预定义的,即,每个ICN节点使用相同的哈希函数构造其布隆过滤器。具体的定位过程为,当一个新的内容请求上传到SDN控制器时,将该请求的内容名字由预先定义的k个哈希函数散列,并返回k个位置。然后,在缓存内容信息矩阵中选择相应的k行,并将它们作为k个1×n的二进制向量。最后,让这些向量做布尔和运算。运算的结果(比特位为1的位置)即指示着请求内容所缓存的ICN节点。
图3是iTE智能体网络模型图。本发明将ICN流量优化问题建模为DRL学习问题,采用演员-评论家(Actor-Critic,AC)训练方法。AC方法分为两部分,包括训练Actor网络和Critic网络。Actor实际上就是使用策略梯度(policy gradient)算法,该算法有利于在连续动作空间内选择合适的动作。这是因为基于值(value-based)的RL学习方法(例如,Q-learning)无法适应连续的动作空间的场景,将会导致空间爆炸。但是又因为Actor方法是基于每回合更新的所以学习效率比较慢,所以提出可以使用一个value-based的算法作为Critic就可以实现单步更新。这样两种算法相互补充就形成了目前比较常用且高效的AC方法。iTE是面向大规模连续控制的网络流量优化问题,所以采用AC方法实现iTE的智能体,具体结构如图3所示。
状态空间(state space):状态共由四个组成部分,分别是:1)请求内容的名字;2)内容请求的源ICN节点ID;3)缓存定位机制得出的网内缓存ICN节点ID和4)网络中链路的可用带宽,形式上,s=(nc,src,dst,avail)定义为状态向量。其中,nc=(nc1,nc2,...,ncc)表示由c个名字成份构成的完整内容名字。例如,内容名字google/news/todays/videoa.flv是由google/、news/、todays/和videoa和.flv一共5个成分构成的完整名字。发掘不同名字成分和不同内容请求的需求之间的关联关系对于智能的识别流量需求是非常重要的。因此,我们引入前馈神经网络(Feed-forwardNeural Network,FNN)模型来学习它们的相关性并以此来实现智能地识别流量带宽需求的能力。FNN的输出即是识别的流量需求的值,如图3中,FNN的结构用虚线框框起来。然后,将FNN的输出接下来送至AC模型。值得注意的是,FNN的训练是独立离线完成的,到达一定的精度之后再合并到AC模型中去。
src∈{0,1}n是一个长度为n的二进制向量,表示发送内容请求的源ICN节点。具体来说,值为1的位置对应于请求出现的ICN源节点。dst∈{0,1}n是缓存内容定位机制的输出结果,也是一个n长度的二进制向量,值为1的位置对应于定位的网内缓存ICN节点。avail=(b1,b2,...,bl,...,bL)表示网络中所有L个链路的可用带宽值,其中,1≤l≤L。
如上所述的状态空间定义以简单的形式包含了流量优化的必要信息,包括请求和网络的信息。iTE面向的是每条流的最优多源多路径计算,是一个独立的优化单元,并不涉及应对其他额外或者意外的情况,例如,容错路由和优先级抢占。
动作空间(action space):iTE输出的动作被定义为流量优化问题的解。具体来说,定义为动作向量,其中,表示第i个网内缓存节点分配的请求量占总流量的比率,且1≤i≤I这意味着内容请求将根据分离比率分配到全部的I个网内缓存节点,以此来利用网内缓存,增加流量分配的灵活性。值得注意的是,有些网内缓存节点可能分配到的流量请求是0,这由全网链路状态和现有的流量分布有关。iTE的目标是寻找最优的分配比率。path=(e1,e2,...,eL)是一个长度为L的二进制向量,用来表示选定的传输链路。
如上所述的动作空间定义包含了必要的解的组成部分,即,多源多路径和相应的流量承载分离比率。多源多路径的流量分布将极大的增加了流量优化的灵活性,这得益于ICN网内缓存带来的多源和内在的多路径转发机制。
奖励(reward):DRL智能体的奖励是流量优化问题的目标,即,提高网络吞吐量和负载均衡。形式上,奖励函数的定义如下:
其中,代表标准化的平均可用带宽比率,bw表示一条链路的总带宽,bl表示一条链路的剩余带宽。通过表达式可以将一条链路的可用带宽的评价值的值域映射到[-1,1]范围内,其中,值越接近1意味着该链路可用带宽越大,将优先选择,否则值接近-1,表示可用带宽较少,应作为惩罚。由于iTE目标之一是容纳更多请求以提高全网吞吐量,将全网所有链路可用带宽的评价值的平均值作为奖励函数的组成部分之一。表示标准化的全网可用带宽的方差,其中σ表示全网链路可用带宽的:
μ是全网平均链路可用带宽。通过表达式可以将计算出的全网链路可用带宽的方差的值域映射到[-1,1]范围内,同样地,值越接近1意味着全网链路带宽利用率比较均衡,将优先选择,否则值接近-1,表示全网链路带宽利用率相差较大,应作为惩罚。iTE负载均衡的目标将由此表达式实现。另外,ω是权重值,用来平衡两个iTE目标,即,网络吞吐量和链路负载均衡。本发明中,将固定ω的值为1,表示两个目标同等重要。
图4是在线并行决策机制示意图。PDM机制可以容纳多个算法同时并行运行。除了DRL算法外,同时利用多个现有算法,不用依赖于某个单一算法给结果。不同的算法依赖于不同的假设,但是可以并行运行。如4所示,iTE采用现有的常用的两种算法,即,最短路径算法(Shortest Path First,SPF)和负载均衡算法(Load Balance,LB),它们都是并行运行的。其中,每个算法的环境是分离且一致的。然后,PDM将多个算法的结果发送给最终决策者,决策者将客观地评价每个算法的结果并按照一定的规则或策略执行其中的一个较优的算法的结果。更重要地,现有成熟算法的结果可用于在线训练DRL智能体,并同时存储在AC模型中的经验回放区(Experience Replay Buffer)中,以加快DRL的训练速度。通过这样的方法,在持续不断的学习的基础上,DRL智能体可以安全地优化网络流量。
本发明的关键点,流量如何在网络中最优的分配是一个关键而又困难的问题,它试图将各种需求的流量请求动态的映射到网络的路径上面。从体系结构的角度来看,基于命名的数据网络能够从许多方面促进了网络流量的优化,例如,网内缓存为相同的请求提供了多个源,并可以通过内容的名字得知请求的类型,这样的先验知识促进优化网络资源分配。然而,命名数据网络结构给网络环境带来了更多的复杂性和动态性,分布式的网络结构不能很好的实施全局优化,而且基于模型的流量优化方法在这样的情形下效率较低。因此,本发明首先基于软件定义网络实现具有全局视图的集中式的流量优化机制。然后,在应用DRL技术解决复杂在线控制问题的最新进展的启发下,对基于深度学习的网络内容识别机制和基于DRL的路径选择机制进行研究,通过优化网络吞吐量、带宽利用率和负载平衡等来全面提高网络性能。
Claims (8)
1.一种通信网的深度学习驱动的流量优化机制,基于SDN网络,其特征在于,将智能流量优化机制iTE的控制回路部署在SDN控制器中,iTE的控制回路包括三个组成部分:
(1)支持ICN的交换机部分;
网络中的ICN交换机,除了支持正常的名字路由功能外,增加带计数器的布隆过滤器来表示缓存内容的信息;同时,采用基于压缩感知的网内缓存感知机制收集缓存内容信息至控制器中;
(2)DRL环境部分;
由数据平面收集的网络信息和流量信息抽象成的DRL环境是SDN控制器中为DRL算法提供状态的输入,同时,监测网络和流量状态;
(3)并行决策模块部分;
并行决策模块是运行在SDN控制器中核心的执行流量优化算法的模块;该模块支持多个算法并行算路,并由最终决策模块按预定的策略规则从多个算法中选择最优的实施。
2.根据权利要求1所述的一种通信网的深度学习驱动的流量优化机制,其特征在于,iTE控制回路工作流程如下:
(1)网络中ICN交换机将其缓存内容信息和可用的链路带宽上载到SDN控制器;
(2)环境模块将接收到的信息进行汇编和转换,作为PDM的输入;
PDM采用多个流量优化算法,其中基于DRL的算法,用于执行智能的流量优化决策;
(3)DRL智能体在与环境的交互中根据获得的奖励或惩罚,不断的学习以更加适应环境;
惩罚来自于犯错;网络生产流量不允许犯错;因此,使用PDM模块,客观评价各个算法的决定,屏蔽有可能带来不良影响的DRL决策;
(4)同时,最短路径算法、负载均衡算法的决策可以用来在线地训练DRL的模型;
(5)基于当前的环境和决策,DRL智能体从反馈中获得奖励,并对驻留在DRL智能体上的神经网络的参数进行调整。
3.根据权利要求1所述的一种通信网的深度学习驱动的流量优化机制,其特征在于,
当SDN控制器中缓存内容信息被恢复后,流量优化应用需要迅速地定位内容请求需要的潜在缓存节点;在SDN控制器中,从全网ICN节点收集的缓存内容信息被组织形成一个m×n的二进制矩阵,其中,n是全网ICN节点的数量;假设iTE中用于构建布隆过滤器的哈希函数集是相同和预定义的,即,每个ICN节点使用相同的哈希函数构造其布隆过滤器;具体的定位过程为,当一个新的内容请求上传到SDN控制器时,将该请求的内容名字由预先定义的k个哈希函数散列,并返回k个位置;然后,在缓存内容信息矩阵中选择相应的k行,并将它们作为k个1×n的二进制向量;最后,让这些向量做布尔和运算;运算的结果比特位为1的位置,即指示着请求内容所缓存的ICN节点。
4.根据权利要求1所述的一种通信网的深度学习驱动的流量优化机制,其特征在于,
ICN交换机将ICN流量优化问题建模为DRL学习问题,采用演员-评论家训练方法;AC方法分为两部分,包括训练Actor网络和Critic网络;Actor实际上就是使用策略梯度算法,该算法有利于在连续动作空间内选择合适的动作;这是因为基于值的RL学习方法无法适应连续的动作空间的场景,将会导致空间爆炸;但是又因为Actor方法是基于每回合更新的所以学习效率比较慢,所以提出可以使用一个value-based的算法作为Critic就可以实现单步更新;这样两种算法相互补充就形成了目前比较常用且高效的AC方法;iTE是面向大规模连续控制的网络流量优化问题,所以采用AC方法实现iTE的智能体,iTE智能体由状态空间、动作空间以及奖励或处罚组成。
5.根据权利要求1所述的一种通信网的深度学习驱动的流量优化机制,其特征在于,
状态空间:状态共由四个组成部分,分别是:
1)请求内容的名字;
2)内容请求的源ICN节点ID;
3)缓存定位机制得出的网内缓存ICN节点ID
4)网络中链路的可用带宽,形式上,s=(nc,src,dst,avail)定义为状态向量;其中,nc=(nc1,nc2,...,ncc)表示由c个名字成份构成的完整内容名字;发掘不同名字成分和不同内容请求的需求之间的关联关系,对于智能的识别流量需求是非常重要的;因此,引入前馈神经网络模型来学习相关性并以此来实现智能地识别流量带宽需求的能力;FNN的输出即是识别的流量需求的值,FNN的结构用虚线框框起来;然后,将FNN的输出接下来送至AC模型;值得注意的是,FNN的训练是独立离线完成的,到达一定的精度之后再合并到AC模型中去;
src∈{0,1}n是一个长度为n的二进制向量,表示发送内容请求的源ICN节点;具体来说,值为1的位置对应于请求出现的ICN源节点;dst∈{0,1}n是缓存内容定位机制的输出结果,也是一个n长度的二进制向量,值为1的位置对应于定位的网内缓存ICN节点;avail=(b1,b2,...,bl,...,bL)表示网络中所有L个链路的可用带宽值,其中,1≤l≤L;
状态空间定义以简单的形式包含了流量优化的必要信息,包括请求和网络的信息;iTE面向的是每条流的最优多源多路径计算,是一个独立的优化单元,并不涉及应对其他额外或者意外的情况,容错路由和优先级抢占。
6.根据权利要求1所述的一种通信网的深度学习驱动的流量优化机制,其特征在于,
动作空间:iTE输出的动作被定义为流量优化问题的解;具体是定义为动作向量,其中,表示第i个网内缓存节点分配的请求量占总流量的比率,且1≤i≤I请求内容将根据分离比率分配到全部的I个网内缓存节点,利用网内缓存,增加流量分配的灵活性;有些网内缓存节点可能分配到的流量请求是0,这与全网链路状态和现有的流量分布有关;iTE的目标是寻找最优的分配比率;path=(e1,e2,...,eL)是一个长度为L的二进制向量,用来表示选定的传输链路;
动作空间包含必要的解的组成部分,即,多源多路径和相应的流量承载分离比率;多源多路径的流量分布将极大的增加了流量优化的灵活性,这得益于ICN网内缓存带来的多源和内在的多路径转发机制。
7.根据权利要求1所述的一种通信网的深度学习驱动的流量优化机制,其特征在于,
奖励:DRL智能体的奖励是流量优化问题的目标,即,提高网络吞吐量和负载均衡;形式上,奖励函数的定义如下公式:
其中,代表标准化的平均可用带宽比率,bw表示一条链路的总带宽,bl表示一条链路的剩余带宽;通过表达式可以将一条链路的可用带宽的评价值的值域映射到[-1,1]范围内,其中,值越接近1意味着该链路可用带宽越大,将优先选择,否则值接近-1,表示可用带宽较少,应作为惩罚;由于iTE目标之一是容纳更多请求以提高全网吞吐量,将全网所有链路可用带宽的评价值的平均值作为奖励函数的组成部分之一;表示标准化的全网可用带宽的方差,其中σ表示全网链路可用带宽的公式如下:
8.根据权利要求1所述的一种通信网的深度学习驱动的流量优化机制,其特征在于,
PDM机制可以容纳多个算法同时并行运行;利用多个现有算法,不用依赖于某个单一算法给结果;不同的算法依赖于不同的假设,但是可以并行运行;iTE采用现有的常用的两种算法,即最短路径算法和负载均衡算法,都是并行运行的;其中,每个算法的环境是分离且一致的;然后,PDM将多个算法的结果发送给最终决策者,决策者将客观地评价每个算法的结果并按照一定的规则或策略执行其中的一个较优的算法的结果;现有成熟算法的结果可用于在线训练DRL智能体,并同时存储在AC模型中的经验回放区中,以加快DRL的训练速度;通过这样的方法,在持续不断的学习的基础上,DRL智能体可以安全地优化网络流量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110798422.8A CN113676407A (zh) | 2021-07-15 | 2021-07-15 | 一种通信网的深度学习驱动的流量优化机制 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110798422.8A CN113676407A (zh) | 2021-07-15 | 2021-07-15 | 一种通信网的深度学习驱动的流量优化机制 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113676407A true CN113676407A (zh) | 2021-11-19 |
Family
ID=78539331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110798422.8A Pending CN113676407A (zh) | 2021-07-15 | 2021-07-15 | 一种通信网的深度学习驱动的流量优化机制 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113676407A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115225540A (zh) * | 2022-05-02 | 2022-10-21 | 东北大学 | 一种面向软件定义网络的数据平面故障检测与恢复方法 |
CN115473854A (zh) * | 2022-08-23 | 2022-12-13 | 电子科技大学 | 一种多模态网络的流量智能控制方法 |
-
2021
- 2021-07-15 CN CN202110798422.8A patent/CN113676407A/zh active Pending
Non-Patent Citations (1)
Title |
---|
QINGYI ZHANG等: "《Intelligent Content-Aware Traffic Engineering for SDN: An AI-Driven Approach》", 《IEEE》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115225540A (zh) * | 2022-05-02 | 2022-10-21 | 东北大学 | 一种面向软件定义网络的数据平面故障检测与恢复方法 |
CN115225540B (zh) * | 2022-05-02 | 2023-07-18 | 东北大学 | 一种面向软件定义网络的数据平面故障检测与恢复方法 |
CN115473854A (zh) * | 2022-08-23 | 2022-12-13 | 电子科技大学 | 一种多模态网络的流量智能控制方法 |
CN115473854B (zh) * | 2022-08-23 | 2023-10-24 | 电子科技大学 | 一种多模态网络的流量智能控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112437020B (zh) | 一种基于深度强化学习的数据中心网络负载均衡方法 | |
Xu et al. | Experience-driven networking: A deep reinforcement learning based approach | |
Tang et al. | On a novel deep-learning-based intelligent partially overlapping channel assignment in SDN-IoT | |
Chen-Xiao et al. | Research on load balance method in SDN | |
CN108540384B (zh) | 软件定义网络中基于拥塞感知的智能重路由方法和装置 | |
CN114143264B (zh) | 一种SRv6网络下基于强化学习的流量调度方法 | |
CN113676407A (zh) | 一种通信网的深度学习驱动的流量优化机制 | |
Liu | Intelligent routing based on deep reinforcement learning in software-defined data-center networks | |
CN107948083A (zh) | 一种基于增强学习的sdn数据中心拥塞控制方法 | |
CN107864102A (zh) | 一种基于Sarsa的SDN数据中心拥塞控制方法 | |
CN114710437A (zh) | 一种结合区块链的物联网边缘网络路由架构 | |
CN115473854B (zh) | 一种多模态网络的流量智能控制方法 | |
CN105681438A (zh) | 内容中心网络中一种集中式的缓存决策策略 | |
CN116599904A (zh) | 并行传输负载均衡装置及方法 | |
CN114629769B (zh) | 自组织网络的流量图谱生成方法 | |
CN113703984A (zh) | 5g云边协同场景下基于soa架构的云任务优化策略方法 | |
CN114938374A (zh) | 跨协议负载均衡方法及系统 | |
WO2024146193A1 (zh) | 一种基于sdn的路由路径选择方法、装置及存储介质 | |
CN113645589B (zh) | 一种基于反事实策略梯度的无人机集群路由计算方法 | |
Chen et al. | Traffic engineering based on deep reinforcement learning in hybrid IP/SR network | |
Meng et al. | Intelligent routing orchestration for ultra-low latency transport networks | |
Kiran et al. | Hecate: Ai-driven wan traffic engineering for science | |
Li et al. | PARS-SR: A scalable flow forwarding scheme based on Segment Routing for massive giant connections in 5G networks | |
Zhang et al. | A Multi-Agents Survivable Deep Reinforced Routing and Spectrum Assignment Algorithm in Elastic Optical Network | |
CN115277531B (zh) | 面向云上广域网的多径瓶颈公平性约束的两阶段路由方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211119 |