CN116455820A - 基于拥塞规避的多传输路径调整系统及方法 - Google Patents
基于拥塞规避的多传输路径调整系统及方法 Download PDFInfo
- Publication number
- CN116455820A CN116455820A CN202310489440.7A CN202310489440A CN116455820A CN 116455820 A CN116455820 A CN 116455820A CN 202310489440 A CN202310489440 A CN 202310489440A CN 116455820 A CN116455820 A CN 116455820A
- Authority
- CN
- China
- Prior art keywords
- link
- flow
- network
- value
- traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000012216 screening Methods 0.000 claims abstract description 16
- 230000005540 biological transmission Effects 0.000 claims abstract description 9
- 208000027744 congestion Diseases 0.000 claims description 56
- 230000003068 static effect Effects 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 27
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 abstract description 8
- 230000002787 reinforcement Effects 0.000 description 25
- 230000009471 action Effects 0.000 description 24
- 230000008569 process Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 10
- 238000005457 optimization Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012952 Resampling Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/40—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/22—Alternate routing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了基于拥塞规避的多传输路径调整系统及方法,属于通信技术领域,要解决的技术问题为基于SDN网络架构,如何在拥塞规避的条件下、实现多传输路径调整。包括如下步骤:采集网络信息;基于当前每条链路的流量序列对未来时刻每条链路的流量信息进行分析预测,得到未来预定时段每条链路的流量序列;计算当前全网每条链路的链路利用率,将当前全网每条链路的链路利用率作为输入、通过训练后的路由决策模型输出多条路径,并输出每条路径对应的奖励值;基于K最短路径计算方法、按照优先级筛选出K条不重合的路径作为备选路径;对K条备选路径进行再次筛选,去除具有拥塞风险的链路,得到最终路径。
Description
技术领域
本发明涉及通信技术领域,具体地说是基于拥塞规避的多传输路径调整系统及方法。
背景技术
目前,随着通信技术、互联网应用以及云计算技术的高速发展,通信网络正经历着爆发式的流量增长。传统的路由优化调整方法中路由计算过程非常耗时,并且获取准确的网络流量信息通常非常困难,往往需要巨大的网络资源开销。同时随着网络中业务量呈指数级地增涨,很容易造成网络链路拥塞以及时延的增加,同时也对通信网络的承载和处理能力提出了严峻的挑战。
SDN作为一种新型网络架构可以方便地获取到路径实时流量值,基于SDN良好的拓展性和可编程性,在控制平面可以动态地部署用于大规模深度学习的硬件资源并构造深度学习路由算法模型,从而可以快速地进行路由计算与策略下发。
基于上述,基于SDN网络架构,如何在拥塞规避的条件下、实现多传输路径调整,以提高网络资源利用率,并优化网络服务性能,是需要解决的技术问题。
发明内容
本发明的技术任务是针对以上不足,提供基于拥塞规避的多传输路径调整系统及方法,来解决基于SDN网络架构,如何在拥塞规避的条件下、实现多传输路径调整的技术问题。
第一方面,本发明一种基于拥塞规避的多传输路径调整系统,应用于SDN网络,所述系统包括至少一个全局控制器、多个分布在SDN网络中的本地控制器和多个分布在SDN网络数据平面中的交换机,所述全局控制器中配置有信息采集模块、流量预测模块和路由决策模块;
所述信息采集模块用于采集网络信息,所述网络信息包括动态信息和静态信息,所述动态信息为全网每条链路的实时流量值,所述静态信息包括网络拓扑信息和额定带宽值,并用于周期性的将每条链路的实时流量值汇总为流量序列;
其中,对于SDN网络,交换机和本地控制器建立连接后,交换机将其各个端口的额定带宽值上传至本地控制器,所述信息采集模块用于从本地控制器采集交换机各个端口的额定带宽值;
所述流量预测模块与所述信息采集模块交互,用于基于当前每条链路的流量序列对未来时刻每条链路的流量进行分析预测,得到未来预定时段每条链路的流量序列;
所述路由决策模块中配置有路由决策模型,所述路由决策模型为基于DDPG网络构建的神经网络模型,所述路由决策模型以全网每条链路的链路利用率为输入,通过学习当前网络状态选择最大奖励值的路径输出,所述路由决策模块用于执行如下:
基于静态信息以及当前全网每条链路的流量序列计算当前全网每条链路的链路利用率,将当前全网每条链路的链路利用率作为输入、通过训练后的路由决策模型输出多条路径,并输出每条路径对应的奖励值;
对于预测输出的多条路径,以路径对应的奖励值为优先级,基于K最短路径计算方法、按照优先级筛选出K条不重合的路径作为备选路径;
基于静态信息以及未来预定时间段每条链路的流量序列,对K条备选路径进行再次筛选,去除具有拥塞风险的链路,得到最终路径,并将最终路径下发至SDN网络数据平面。
作为优选,所述信息采集模块用于基于LLDP协议采集额定带宽值。
作为优选,所述流量预测模块中配置有训练后的流量预测模型,所述流量预测模型为基于LSTM算法构建的网络模型,所述流量预测模块用于以当前每条链路的流量序列为输入、通过当前训练后的流量预测模型对未来时刻每条链路的流量进行分析预测,得到未来预定时段每条链路的流量序列;
对于当前训练后的流量预测模型,所述流量预测模块用于以当前更新的流量序列为训练样本,对当前训练后的流量预测模型进行线上模型训练,得到新的训练后的流量预测模型。
作为优选,对于每条链路,所述链路的链路利用率计算公式为:
链路利用率=链路的流量值/链路的额定带宽值。
作为优选,基于静态信息以及未来预定时间段每条链路的流量序列,通过highLink方法对K条备选路径进行再次筛选,包括如下步骤:
获取额定带宽值以及未来预定时段每条链路的流量序列,并设定门限比例;
对于每条链路,对所述链路在对未来预定时段的流量序列进行均值计算和标准差计算,并将得到的均值和标准差相加,得到流量统计峰值feak;
将额定带宽值和和门限比例相乘,得到链路门限值Link threshold value;
将流量统计峰值feak与链路门限值Link threshold value进行比较,如果流量统计峰值feak大于链路门限值Link threshold value,则判定链路具有拥塞风险。
第二方面,本发明一种基于拥塞规避的多传输路径调整方法,应用于SDN网络,用于通过如第一方面任一项所述的基于拥塞规避的多传输路径调整系统实现多传输路径调整,所述方法包括如下步骤:
采集网络信息,所述网络信息包括动态信息和静态信息,所述动态信息为全网每条链路的实时流量值,所述静态信息包括网络拓扑信息和额定带宽值,并周期性的将每条链路的实时流量值汇总为流量序列;
基于当前每条链路的流量序列对未来时刻每条链路的流量进行分析预测,得到未来预定时段每条链路的流量序列;
配置路由决策模型,所述路由决策模型为基于DDPG网络构建的神经网络模型,所述路由决策模型以全网每条链路的链路利用率为输入,通过学习当前网络状态选择最大奖励值的路径输出;
基于静态信息以及当前全网每条链路的流量序列计算当前全网每条链路的链路利用率,将当前全网每条链路的链路利用率作为输入、通过训练后的路由决策模型输出多条路径,并输出每条路径对应的奖励值;
对于预测输出的多条路径,以路径对应的奖励值为优先级,基于K最短路径计算方法、按照优先级筛选出K条不重合的路径作为备选路径;
基于静态信息以及未来预定时间段每条链路的流量序列,对K条备选路径进行再次筛选,去除具有拥塞风险的链路,得到最终路径,并将最终路径下发至SDN网络数据平面。
作为优选,基于LLDP协议采集额定带宽值。
作为优选,所述流量预测模型为基于LSTM算法构建的网络模型,所述流量预测模块用于以当前每条链路的流量序列为输入、通过当前训练后的流量预测模型对未来时刻每条链路的流量进行分析预测,得到未来预定时段每条链路的流量序列;
对于当前训练后的流量预测模型,以当前更新的流量序列为训练样本,对当前训练后的流量预测模型进行线上模型训练,得到新的训练后的流量预测模型。
作为优选,对于每条链路,所述链路的链路利用率计算公式为:
链路利用率=链路的流量值/链路的额定带宽值。
作为优选,基于静态信息以及未来预定时间段每条链路的流量序列,通过highLink方法对K条备选路径进行再次筛选,包括如下步骤:
获取额定带宽值以及未来预定时段每条链路的流量序列,并设定门限比例;
对于每条链路,对所述链路在对未来预定时段的流量序列进行均值计算和标准差计算,并将得到的均值和标准差相加,得到流量统计峰值feak;
将额定带宽值和和门限比例相乘,得到链路门限值Link threshold value;
将流量统计峰值feak与链路门限值Link threshold value进行比较,如果流量统计峰值feak大于链路门限值Link threshold value,则判定链路具有拥塞风险。
本发明的基于拥塞规避的多传输路径调整系统及方法具有以下优点:
1、一方面,对于每条链路,基于当前流量序列筛选出未来预定时间段的流量序列;另一方面,基于当前全网链路利用率、通过训练后的路由决策模型进行路由决策,预测多个路径,并通过K均值算法筛选出K条路径作为备选路径,对于筛选出的备选路径,基于每条链路未来时间段的流量序列进行拥塞判断,将有拥塞风险的链路删除,从而基于链路的拥塞风险对备选路径再次进行筛选,得到最终路径,提高了路由的准确性;
2、在进行流量预测时,通过预先训练后的流量预测模型对未来时间段的流量进行预测,同时,在工作过程中,以当前更新的流量序列为训练样本,对当前训练后的流量预测模型进行线上模型训练,得到新的训练后的流量预测模型,将新的训练后的流量预测模型进行流量预测,对流量预测模型不断进行训练优化,提高了流量预测的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
下面结合附图对本发明进一步说明。
图1为实施例1一种基于拥塞规避的多传输路径调整系统中的工作原理框图;
图2为实施例1一种基于拥塞规避的多传输路径调整系统中流量预测模块的工作框图;
图3为实施例1一种基于拥塞规避的多传输路径调整系统中DDPG网络结构示意图;
图4为实施例1一种基于拥塞规避的多传输路径调整系统中路由决策模型多传输路径调整流程框图;
图5为实施例2一种基于拥塞规避的多传输路径调整方法的流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。
本发明实施例提供基于拥塞规避的多传输路径调整系统及方法,用于解决基于上述,基于SDN网络架构,如何在拥塞规避的条件下、上实现多传输路径调整的技术问题。
实施例1:
本发明一种基于拥塞规避的多传输路径调整系统,应用于SDN网络,该系统包括至少一个全局控制器、多个分布在SDN网络中的本地控制器和多个分布在SDN网络数据平面中的交换机,全局控制器中配置有信息采集模块、流量预测模块和路由决策模块。
信息采集模块用于采集网络信息,所述网络信息包括动态信息和静态信息,所述动态信息为全网每条链路的实时流量值,所述静态信息包括网络拓扑信息和额定带宽值,并用于周期性的将每条链路的实时流量值汇总为流量序列。
其中,对于SDN网络,交换机和本地控制器建立连接后,交换机将其各个端口的额定带宽值上传至本地控制器,所述信息采集模块用于从本地控制器采集交换机各个端口的额定带宽值。
作为信息采集模块的具体实施,该模块采集网络的静态信息和动态信息,供其他模块使用。静态信息包括网络拓扑信息和额带宽值。网络拓扑信息利用LLDP协议获取,而在SDN交换机和控制器建立连接时,交换机会将自身各个端口的额带宽值上传至控制器,这部分信息也保存在信息采集模块中,供路由决策模块调用。信息采集模块会周期性(时间间隔为P,P比T小)的采集流量值,并汇总起来。每隔时间T,将汇总起来的准实时流量序列输出到流量预测模块。
流量预测模块与信息采集模块交互,用于基于当前每条链路的流量序列对未来时刻每条链路的流量进行分析预测,得到未来预定时段每条链路的流量序列。
本实施例流量预测模块中配置有训练后的流量预测模型,流量预测模块用于以当前每条链路的流量序列为输入、通过当前训练后的流量预测模型对对未来时刻每条链路的流量信息进行分析预测,得到未来预定时段每条链路的流量序列。
本实施例中,流量预测模型为基于LSTM算法构建的网络模型。在工作过程中,对于当前训练后的流量预测模型,所述流量预测模块用于以当前更新的流量序列为训练样本,对当前训练后的流量预测模型进行线上模型训练,得到新的训练后的流量预测模型。
作为流量预测模块的具体实施,流量预测模块周期性(时间间隔为T)的读取准实时流量序列,根据此流量序列更新流量预测模型的输入变量,并计算得到输出变量,也就是流量预测值。
流量预测模块需要根据周期性获得的准实时序列预测出未来一段时间的流量序列。这需要使用的流量预测模型对流量变化规律有较好的拟合能力。为避免冷启动,流量预测模型需要预先被训练好;而为了在预测的过程中保持对新出现的流量变化模式的适应,需要持续进行在线训练,这构成了流量预测模块运行的两个阶段。如图2所示,阶段一是模型预训练阶段,在这个阶段利用以前收集到的流量数据训练模型。阶段二是线上使用阶段,将训练好的模型载入内存中,利用信息采集模块周期性采集到的数据更新输入向量,运行模型,输出向量即是流量预测结果。
路由决策模块中配置有路由决策模型,路由决策模型为基于DDPG网络构建的神经网络模型,该路由决策模型以全网每条链路的链路利用率为输入,通过学习当前网络状态选择最大奖励值的路径输出。路由决策模块用于执行如下:
(1)基于静态信息以及当前全网每条链路的流量序列计算当前全网每条链路的链路利用率,将当前全网每条链路的链路利用率作为输入、通过训练后的路由决策模型输出多条路径,并输出每条路径对应的奖励值;
(2)对于预测输出的多条路径,以路径对应的奖励值为优先级,基于K最短路径计算方法、按照优先级筛选出K条不重合的路径作为备选路径;
(3)基于静态信息以及未来预定时间段每条链路的流量序列,对K条备选路径进行再次筛选,去除具有拥塞风险的链路,得到最终路径,并将最终路径下发至SDN网络数据平面。
对于每条链路,链路的链路利用率计算公式为:
链路利用率=链路的流量值/链路的额定带宽值。
本实施例中,路由决策模块用于以综合网络信息,实现基于链路拥塞风险的网络流量调优机制。在整个调优机制中,以下几个操作逻辑会被反复调用:路径计算、链路拥塞风险判断、路径下发。
在路由决策模块中,基于SDN架构,能够在控制平面收集到全网实时的拓扑及链路状态等信息,路由决策模块根据这些信息能够在SDN控制平面,利用无监督的强化学习算法识别网络状态信息,强化学习算法根据当前的网络状态选择能够获取到最大奖励的路径调整方案。
针对网络路径调整问题,全网络流量信息是传统路由优化算法中最直接、最全面的特征信息。但是,在真实网络中测量流量矩阵往往需要较大的网络资源开销,并且很难实时地测量到准确的流量矩阵,使用不准确的流量矩阵作为路由调整算法的输入又可能会使得算法效果下降,造成链路拥塞等问题。另一方面,在通信网络中链路利用率的变化也可以作为反映出网络中流量变化趋势,并且基于SDN架构链路利用率可以通过简单的查询指令即可获取,相比使用流量矩阵作为算法输入能够大大减少测量开销。强化学习路由算法考虑SDN网络流量多传输路径调整方法可以直接获取的全网链路利用率作为强化学习模型的输入状态,使用K最短路算法求解每条数据流的k条不重合的路径作为备选路径,数据流的路由策略作为强化学习算法输出。通过设置与链路利用率强关联的奖励函数指导强化学习算法向着最小化最大链路利用率的方向调整神经网络参数,使得强化学习多传输路径调整方法能够选择最佳的路由策略,直到算法收敛。该算法能够实现完全自适应地对路径调整问题学习并能够根据当前网络状态的变化不断地对神经网络参数优化,能够避免直接测量网络流量矩阵带来的网络资源开销,同时能够减少构建训练数据标签以及算法运维过程中人工参与的成本。
本实施例采用全网的链路利用率作为强化学习算法的输入状态。对于时刻t,输入状态st为m维向量(m代表网络拓扑中链路的个数),向量中每个值代表链路的链路利用率。
利用强化学习算法进行业务路由规划,希望算法模型通过识别不同时刻的业务流量特征为每条流选择最佳的路由方案。为了使得算法模型能够学习到业务量信息与路由选择的直接映射关系,本发明将强化学习算法模型输出行动at代表不同流的路由方案。其中,at为n2×k维向量,k代表每条流的备选路径的个数。在t时刻,强化学习环境根据预测的行动at选择每条流概率最大的路由方案进行路由。
本发明多传输路径调整问题输出的行动维度为n2×k,通常情况下输出行动的维度会比较大,而DDPG是近年来提出的针对行动连续、维度高设计的一种策略学习方法,因此选择现有的DDPG强化学习算法来学习不同业务模式下的路由策略,作为本发明多传输路径调整算法模型。DDPG根据当前时刻输入状态预测当前的业务量场景下的最佳路由方案,从而实现细粒度的路由控制。
本实施例中路由决策模型为基于DDPG网路构建的,由现实actor网络、目标actor网络、现实Q网络、目标Q网络这四个网络组成。
现实Actor和目标Actor网络结构相同,输入为状态,输出为动作;现实Critic和目标Critic网络结构相同,输入均为状态和动作,输出搭当前状态下采取这个动作的评分Q。其结构如图3所示。
DDPG具体使用流程如下:
步骤1、先初始化现实Actor和现实Critic,然后把现实Actor和现实Critic的网络参数复制到目标Actor和目标Critic网络,本实施例共构建四个上述网络;
步骤2、使用现实Actor与环境进行交互,即图3中输入状态S到现实Actor得到动作a,对环境施加动作a,环境会返回下一时刻的状态s’和奖励r,于是通过四元组(S,a,r,S’)表示这一过程的数据,该四元组(S,a,r,S’)表示在状态S时,采取动作a,得到的奖励r和下一个状态S’,上述四元组也称transition,将transition存放到经验池中,从而现实Actor网络具有与环境交互,得到样本数据(S,a,r,S’)的功能;
步骤3、现实critic的更新:从经验池中取出现实Actor得到的样本(S,a,r,S’)进行训练,把(S,a,r,S’)中的S和a输入到现实Critic中,得到现实Q(S,a)值,令Q=Q(S,a)。(下面的操作内容结合上面的图来看就非常清晰了)然后把(S,a,r,S’)中的S’输入到目标Actor中,得到动作a’。并把S’和a’一起输入到目标Critic中,得到Q(S’,a’)于是目标Q值为Q’=r+gamma×Q(S’,a’)值。目标为希望现实critic输出的Q值要等于目标Q’的值,于是等效为一个监督学习的问题,Q’看成标签,更新现实critic使得输出Q尽量接近标签Q’;
步骤4、现实Actor的更新:更新现实Actor,因为现实Actor输出的动作,在现实critic里给出了Q值,更新Actor使得Q值输出最大;
步骤5、目标Actor和目标Critic的更新:每隔一段时间基于目标Actor和目标Critic两个网络的参数更新目标Actor和目标Critic;
步骤6、执行步骤2,使用现实Actor去采样,再更新再采样,循环执行。
奖励函数在强化学习算法中的作用主要用于反馈智能体做出的行动的好坏,然后智能体根据最大化获得的奖励为优化目标来更新神经网络参数。本实施例的优化目标是使得网络负载更均衡,减少网络的链路拥塞。
在路由下发过程中,根据强化学习算法得到的输出结果,对比highLink()方法对链路拥塞风险判断的结果,从首选路径开始筛选,删除其中包含有拥塞风险链路的路径,在剩余路径集合中,选择最优路径进行路由下发。
作为具体实施,通过highLink方法对K条备选路径进行再次筛选,包括如下步骤:
(1)获取额定带宽值以及未来预定时段每条链路的流量序列,并设定门限比例;
(2)对于每条链路,对所述链路在对未来预定时段的流量序列进行均值计算和标准差计算,并将得到的均值和标准差相加,得到流量统计峰值feak;
(3)将额定带宽值和和门限比例相乘,得到链路门限值Link threshold value;
(4)将流量统计峰值feak与链路门限值Link threshold value进行比较,如果流量统计峰值feak大于链路门限值Link threshold value,则判定链路具有拥塞风险。
本实施例,通过信息采集模块周期性的采集流量信息并汇总起来,得到流量序列,并对流量序列进行存储,通过流量预测模块周期性的读取流量序列并对未来时间段进行流量预测,得到每条链路在未来时间段的流量序列;通过路由决策模块进行路径选择、路径筛选以及路径下发,生成路由时会避开有高风险链路的路由,从而可选择通信代价较小的路由。
实施例2:
本发明,一种基于拥塞规避的多传输路径调整方法,应用于SDN网络,通过实施例1公开的系统实现多传输路径调整,该方法包括如下步骤:
S100、采集网络信息,所述网络信息包括动态信息和静态信息,所述动态信息为全网每条链路的实时流量值,所述静态信息包括网络拓扑信息和额定带宽值,并周期性的将每条链路的实时流量值汇总为流量序列;
S200、基于当前每条链路的流量序列对未来时刻每条链路的流量进行分析预测,得到未来预定时段每条链路的流量序列;
S300、配置路由决策模型,所述路由决策模型为基于DDPG网络构建的神经网络模型,所述路由决策模型以全网每条链路的链路利用率为输入,通过学习当前网络状态选择最大奖励值的路径输出;
基于静态信息以及当前全网每条链路的流量序列计算当前全网每条链路的链路利用率,将当前全网每条链路的链路利用率作为输入、通过训练后的路由决策模型输出多条路径,并输出每条路径对应的奖励值;
S400、对于预测输出的多条路径,以路径对应的奖励值为优先级,基于K最短路径计算方法、按照优先级筛选出K条不重合的路径作为备选路径;
S500、基于静态信息以及未来预定时间段每条链路的流量序列,对K条备选路径进行再次筛选,去除具有拥塞风险的链路,得到最终路径,并将最终路径下发至SDN网络数据平面。
本实施例步骤S100采集网络的静态信息和动态信息,供后续流量预测以及路由决策。静态信息包括网络拓扑信息和额定带宽值。网络拓扑信息利用LLDP协议获取,而在SDN交换机和控制器建立连接时,交换机会将自身各个端口的额定带宽上传至控制器,这部分信息也保存在信息采集模块中,供路由决策模块调用。信息采集模块会周期性(时间间隔为P,P比T小)的采集流量信息,并汇总起来。每隔时间T,将汇总起来的准实时流量序列输出到流量预测模块。
步骤S200以当前每条链路的流量序列为输入、通过当前训练后的流量预测模型对对未来时刻每条链路的流量进行分析预测,得到未来预定时段每条链路的流量序列。
本实施例中,流量预测模型为基于LSTM算法构建的网络模型。在工作过程中,对于当前训练后的流量预测模型,以当前更新的流量序列为训练样本,对当前训练后的流量预测模型进行线上模型训练,得到新的训练后的流量预测模型。
作为流量预测的具体实施,周期性(时间间隔为T)的读取准实时流量序列,根据此流量序列更新流量预测模型的输入变量,并计算得到输出变量,也就是流量预测值。
步骤S200根据周期性获得的准实时序列预测出未来一段时间的流量序列。这需要使用的流量预测模型对流量变化规律有较好的拟合能力。为避免冷启动,流量预测模型需要预先被训练好;而为了在预测的过程中保持对新出现的流量变化模式的适应,需要持续进行在线训练,这构成了流量预测模块运行的两个阶段。阶段一是模型预训练阶段,在这个阶段利用以前收集到的流量数据训练模型。阶段二是线上使用阶段,将训练好的模型载入内存中,利用信息采集模块周期性采集到的数据更新输入向量,运行模型,输出向量即是流量预测结果。
步骤S300—步骤S500为路由决策。该步骤以综合网络信息,实现基于链路拥塞风险的网络流量调优机制。在整个调优机制中,以下几个操作逻辑会被反复调用:路径计算、链路拥塞风险判断、路径下发。
对于每条链路,链路的链路利用率计算公式为:
链路利用率=链路的流量值/链路的额定带宽值。
在路由决策流程中,基于SDN架构,在控制平面收集到全网实时的拓扑及链路状态等信息,根据上述收集的信息能够在SDN控制平面,利用无监督的强化学习算法识别网络状态信息,强化学习算法根据当前的网络状态选择能够获取到最大奖励的路径调整方案。
针对网络路径调整问题,全网络流量信息是传统路由优化算法中最直接、最全面的特征信息。但是,在真实网络中测量流量矩阵往往需要较大的网络资源开销,并且很难实时地测量到准确的流量矩阵,使用不准确的流量矩阵作为路由调整算法的输入又可能会使得算法效果下降,造成链路拥塞等问题。另一方面,在通信网络中链路利用率的变化也可以作为反映出网络中流量变化趋势,并且基于SDN架构链路利用率可以通过简单的查询指令即可获取,相比使用流量矩阵作为算法输入能够大大减少测量开销。强化学习路由算法考虑SDN网络流量多传输路径调整方法可以直接获取的全网链路利用率作为强化学习模型的输入状态,使用K最短路算法求解每条数据流的k条不重合的路径作为备选路径,数据流的路由策略作为强化学习算法输出。通过设置与链路利用率强关联的奖励函数指导强化学习算法向着最小化最大链路利用率的方向调整神经网络参数,使得强化学习多传输路径调整方法能够选择最佳的路由策略,直到算法收敛。该算法能够实现完全自适应地对路径调整问题学习并能够根据当前网络状态的变化不断地对神经网络参数优化,能够避免直接测量网络流量矩阵带来的网络资源开销,同时能够减少构建训练数据标签以及算法运维过程中人工参与的成本。
本实施例采用全网的链路利用率作为强化学习算法的输入状态。对于时刻t,输入状态st为m维向量(m代表网络拓扑中链路的个数),向量中每个值代表链路的链路利用率。
利用强化学习算法进行业务路由规划,希望算法模型通过识别不同时刻的业务流量特征为每条流选择最佳的路由方案。为了使得算法模型能够学习到业务量信息与路由选择的直接映射关系,本发明将强化学习算法模型输出行动at代表不同流的路由方案。其中,at为n2×k维向量,k代表每条流的备选路径的个数。在t时刻,强化学习环境根据预测的行动at选择每条流概率最大的路由方案进行路由。
本发明多传输路径调整问题输出的行动维度为n2×k,通常情况下输出行动的维度会比较大,而DDPG是近年来提出的针对行动连续、维度高设计的一种策略学习方法,因此选择现有的DDPG强化学习算法来学习不同业务模式下的路由策略,作为本发明多传输路径调整算法模型。DDPG根据当前时刻输入状态预测当前的业务量场景下的最佳路由方案,从而实现细粒度的路由控制。
本实施例中路由决策模型为基于DDPG网路构建的,由现实actor网络、目标actor网络、现实Q网络、目标Q网络这四个网络组成。
现实Actor和目标Actor网络结构相同,输入为状态,输出为动作;现实Critic和目标Critic网络结构相同,输入均为状态和动作,输出搭当前状态下采取这个动作的评分Q。其结构如图3所示。
DDPG具体使用流程如下:
步骤1、先初始化现实Actor和现实Critic,然后把现实Actor和现实Critic的网络参数复制到目标Actor和目标Critic网络,本实施例共构建四个上述网络;
步骤2、使用现实Actor与环境进行交互,即图3中输入状态S到现实Actor得到动作a,对环境施加动作a,环境会返回下一时刻的状态s’和奖励r,于是通过四元组(S,a,r,S’)表示这一过程的数据,该四元组(S,a,r,S’)表示在状态S时,采取动作a,得到的奖励r和下一个状态S’,上述四元组也称transition,将transition存放到经验池中,从而现实Actor网络具有与环境交互,得到样本数据(S,a,r,S’)的功能;
步骤3、现实critic的更新:从经验池中取出现实Actor得到的样本(S,a,r,S’)进行训练,把(S,a,r,S’)中的S和a输入到现实Critic中,得到现实Q(S,a)值,令Q=Q(S,a)。(下面的操作内容结合上面的图来看就非常清晰了)然后把(S,a,r,S’)中的S’输入到目标Actor中,得到动作a’。并把S’和a’一起输入到目标Critic中,得到Q(S’,a’)于是目标Q值为Q’=r+gamma×Q(S’,a’)值。目标为希望现实critic输出的Q值要等于目标Q’的值,于是等效为一个监督学习的问题,Q’看成标签,更新现实critic使得输出Q尽量接近标签Q’;
步骤4、现实Actor的更新:更新现实Actor,因为现实Actor输出的动作,在现实critic里给出了Q值,更新Actor使得Q值输出最大;
步骤5、目标Actor和目标Critic的更新:每隔一段时间基于目标Actor和目标Critic两个网络的参数更新目标Actor和目标Critic;
步骤6、执行步骤2,使用现实Actor去采样,再更新再采样,循环执行。
奖励函数在强化学习算法中的作用主要用于反馈智能体做出的行动的好坏,然后智能体根据最大化获得的奖励为优化目标来更新神经网络参数。本实施例的优化目标是使得网络负载更均衡,减少网络的链路拥塞。
在路由下发过程中,根据强化学习算法得到的输出结果,对比highLink()方法对链路拥塞风险判断的结果,从首选路径开始筛选,删除其中包含有拥塞风险链路的路径,在剩余路径集合中,选择最优路径进行路由下发。
作为具体实施,通过highLink方法对K条备选路径进行再次筛选,包括如下步骤:
(1)获取额定带宽值以及未来预定时段每条链路的流量序列,并设定门限比例;
(2)对于每条链路,对所述链路在对未来预定时段的流量序列进行均值计算和标准差计算,并将得到的均值和标准差相加,得到流量统计峰值feak;
(3)将额定带宽值和和门限比例相乘,得到链路门限值Link threshold value;
(4)将流量统计峰值feak与链路门限值Link threshold value进行比较,如果流量统计峰值feak大于链路门限值Link threshold value,则判定链路具有拥塞风险。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,基与上述多个实施例本领域技术人员可以知晓,可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例,这些实施例也在本发明的保护范围之内。
Claims (10)
1.一种基于拥塞规避的多传输路径调整系统,其特征在于,应用于SDN网络,所述系统包括至少一个全局控制器、多个分布在SDN网络中的本地控制器和多个分布在SDN网络数据平面中的交换机,所述全局控制器中配置有信息采集模块、流量预测模块和路由决策模块;
所述信息采集模块用于采集网络信息,所述网络信息包括动态信息和静态信息,所述动态信息为全网每条链路的实时流量值,所述静态信息包括网络拓扑信息和额定带宽值,并用于周期性的将每条链路的实时流量值汇总为流量序列;
其中,对于SDN网络,交换机和本地控制器建立连接后,交换机将其各个端口的额定带宽值上传至本地控制器,所述信息采集模块用于从本地控制器采集交换机各个端口的额定带宽值;
所述流量预测模块与所述信息采集模块交互,用于基于当前每条链路的流量序列对未来时刻每条链路的流量进行分析预测,得到未来预定时段每条链路的流量序列;
所述路由决策模块中配置有路由决策模型,所述路由决策模型为基于DDPG网络构建的神经网络模型,所述路由决策模型以全网每条链路的链路利用率为输入,通过学习当前网络状态选择最大奖励值的路径输出,所述路由决策模块用于执行如下:
基于静态信息以及当前全网每条链路的流量序列计算当前全网每条链路的链路利用率,将当前全网每条链路的链路利用率作为输入、通过训练后的路由决策模型输出多条路径,并输出每条路径对应的奖励值;
对于预测输出的多条路径,以路径对应的奖励值为优先级,基于K最短路径计算方法、按照优先级筛选出K条不重合的路径作为备选路径;
基于静态信息以及未来预定时间段每条链路的流量序列,对K条备选路径进行再次筛选,去除具有拥塞风险的链路,得到最终路径,并将最终路径下发至SDN网络数据平面。
2.根据权利要求1所述的基于拥塞规避的多传输路径调整系统,其特征在于,所述信息采集模块用于基于LLDP协议采集额定带宽值。
3.根据权利要求1所述的基于拥塞规避的多传输路径调整系统,其特征在于,所述流量预测模块中配置有训练后的流量预测模型,所述流量预测模型为基于LSTM算法构建的网络模型,所述流量预测模块用于以当前每条链路的流量序列为输入、通过当前训练后的流量预测模型对未来时刻每条链路的流量进行分析预测,得到未来预定时段每条链路的流量序列;
对于当前训练后的流量预测模型,所述流量预测模块用于以当前更新的流量序列为训练样本,对当前训练后的流量预测模型进行线上模型训练,得到新的训练后的流量预测模型。
4.根据权利要求1所述的基于拥塞规避的多传输路径调整系统,其特征在于,对于每条链路,所述链路的链路利用率计算公式为:
链路利用率=链路的流量值/链路的额定带宽值。
5.根据权利要求1所述的基于拥塞规避的多传输路径调整系统,其特征在于,基于静态信息以及未来预定时间段每条链路的流量序列,通过highLink方法对K条备选路径进行再次筛选,包括如下步骤:
获取额定带宽值以及未来预定时段每条链路的流量序列,并设定门限比例;
对于每条链路,对所述链路在对未来预定时段的流量序列进行均值计算和标准差计算,并将得到的均值和标准差相加,得到流量统计峰值feak;
将额定带宽值和和门限比例相乘,得到链路门限值Link threshold value;
将流量统计峰值feak与链路门限值Link threshold value进行比较,如果流量统计峰值feak大于链路门限值Link threshold value,则判定链路具有拥塞风险。
6.一种基于拥塞规避的多传输路径调整方法,其特征在于,应用于SDN网络,用于通过如权利要求1-5任一项所述的基于拥塞规避的多传输路径调整系统实现多传输路径调整,所述方法包括如下步骤:
采集网络信息,所述网络信息包括动态信息和静态信息,所述动态信息为全网每条链路的实时流量值,所述静态信息包括网络拓扑信息和额定带宽值,并周期性的将每条链路的实时流量值汇总为流量序列;
基于当前每条链路的流量序列对未来时刻每条链路的流量进行分析预测,得到未来预定时段每条链路的流量序列;
配置路由决策模型,所述路由决策模型为基于DDPG网络构建的神经网络模型,所述路由决策模型以全网每条链路的链路利用率为输入,通过学习当前网络状态选择最大奖励值的路径输出;
基于静态信息以及当前全网每条链路的流量序列计算当前全网每条链路的链路利用率,将当前全网每条链路的链路利用率作为输入、通过训练后的路由决策模型输出多条路径,并输出每条路径对应的奖励值;
对于预测输出的多条路径,以路径对应的奖励值为优先级,基于K最短路径计算方法、按照优先级筛选出K条不重合的路径作为备选路径;
基于静态信息以及未来预定时间段每条链路的流量序列,对K条备选路径进行再次筛选,去除具有拥塞风险的链路,得到最终路径,并将最终路径下发至SDN网络数据平面。
7.根据权利要求6所述的基于拥塞规避的多传输路径调整方法,其特征在于,基于LLDP协议采集额定带宽值。
8.根据权利要求6所述的基于拥塞规避的多传输路径调整方法,其特征在于,所述流量预测模型为基于LSTM算法构建的网络模型,所述流量预测模块用于以当前每条链路的流量序列为输入、通过当前训练后的流量预测模型对未来时刻每条链路的流量进行分析预测,得到未来预定时段每条链路的流量序列;
对于当前训练后的流量预测模型,以当前更新的流量序列为训练样本,对当前训练后的流量预测模型进行线上模型训练,得到新的训练后的流量预测模型。
9.根据权利要求6所述的基于拥塞规避的多传输路径调整方法,其特征在于,对于每条链路,所述链路的链路利用率计算公式为:
链路利用率=链路的流量值/链路的额定带宽值。
10.根据权利要求6所述的基于拥塞规避的多传输路径调整方法,其特征在于,基于静态信息以及未来预定时间段每条链路的流量序列,通过highLink方法对K条备选路径进行再次筛选,包括如下步骤:
获取额定带宽值以及未来预定时段每条链路的流量序列,并设定门限比例;
对于每条链路,对所述链路在对未来预定时段的流量序列进行均值计算和标准差计算,并将得到的均值和标准差相加,得到流量统计峰值feak;
将额定带宽值和和门限比例相乘,得到链路门限值Link threshold value;
将流量统计峰值feak与链路门限值Link threshold value进行比较,如果流量统计峰值feak大于链路门限值Link threshold value,则判定链路具有拥塞风险。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310489440.7A CN116455820A (zh) | 2023-04-26 | 2023-04-26 | 基于拥塞规避的多传输路径调整系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310489440.7A CN116455820A (zh) | 2023-04-26 | 2023-04-26 | 基于拥塞规避的多传输路径调整系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116455820A true CN116455820A (zh) | 2023-07-18 |
Family
ID=87121988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310489440.7A Pending CN116455820A (zh) | 2023-04-26 | 2023-04-26 | 基于拥塞规避的多传输路径调整系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116455820A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116915706A (zh) * | 2023-09-13 | 2023-10-20 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 数据中心网络拥塞控制方法、装置、设备及存储介质 |
-
2023
- 2023-04-26 CN CN202310489440.7A patent/CN116455820A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116915706A (zh) * | 2023-09-13 | 2023-10-20 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 数据中心网络拥塞控制方法、装置、设备及存储介质 |
CN116915706B (zh) * | 2023-09-13 | 2023-12-26 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 数据中心网络拥塞控制方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Van Huynh et al. | Optimal and fast real-time resource slicing with deep dueling neural networks | |
CN109039942B (zh) | 一种基于深度强化学习的网络负载均衡系统及均衡方法 | |
CN109831320B (zh) | 一种辅助流量预测控制方法、存储介质和电子设备 | |
CN110851782A (zh) | 一种基于轻量级时空深度学习模型的网络流量预测方法 | |
CN111369042A (zh) | 一种基于加权联邦学习的无线业务流量预测方法 | |
CN111371644B (zh) | 基于gru的多域sdn网络流量态势预测方法及系统 | |
CN113114722B (zh) | 一种基于边缘网络的虚拟网络功能迁移方法 | |
CN116527567B (zh) | 一种基于深度强化学习的智能网络路径优选方法与系统 | |
Gomez et al. | Intelligent active queue management using explicit congestion notification | |
CN114760669B (zh) | 一种基于流量预测的路由决策方法及系统 | |
CN116523079A (zh) | 一种基于强化学习联邦学习优化方法及系统 | |
CN116455820A (zh) | 基于拥塞规避的多传输路径调整系统及方法 | |
Dalgkitsis et al. | Dynamic resource aware VNF placement with deep reinforcement learning for 5G networks | |
CN113869521A (zh) | 构建预测模型的方法、装置、计算设备和存储介质 | |
CN114500561B (zh) | 电力物联网网络资源分配决策方法、系统、设备及介质 | |
Sivakumar et al. | Prediction of traffic load in wireless network using time series model | |
CN114513470A (zh) | 网络流量控制方法、装置、设备及计算机可读存储介质 | |
CN116320620A (zh) | 基于个性化联邦强化学习的流媒体比特率自适应调整方法 | |
Ge et al. | Gnn-based end-to-end delay prediction in software defined networking | |
CN113676357B (zh) | 面向电力物联网中边缘数据处理的决策方法及其应用 | |
CN114885388A (zh) | 联合rss预测的多业务类型自适应切换判决方法 | |
CN114254734A (zh) | 一种支持确定性应用的流量矩阵建模方法 | |
CN116506307B (zh) | 全链路的网络延时情况分析系统 | |
CN114124554B (zh) | 一种虚拟网络服务链吞吐量预测方法 | |
CN117014355A (zh) | 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |