CN116527567A - 一种基于深度强化学习的智能网络路径优选方法与系统 - Google Patents
一种基于深度强化学习的智能网络路径优选方法与系统 Download PDFInfo
- Publication number
- CN116527567A CN116527567A CN202310788324.5A CN202310788324A CN116527567A CN 116527567 A CN116527567 A CN 116527567A CN 202310788324 A CN202310788324 A CN 202310788324A CN 116527567 A CN116527567 A CN 116527567A
- Authority
- CN
- China
- Prior art keywords
- network
- path
- target network
- reinforcement learning
- intelligent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000002787 reinforcement Effects 0.000 title claims abstract description 57
- 238000005457 optimization Methods 0.000 title claims abstract description 43
- 230000009471 action Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000009434 installation Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 17
- 230000005540 biological transmission Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000012544 monitoring process Methods 0.000 claims description 9
- 230000008901 benefit Effects 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims description 2
- 230000000630 rising effect Effects 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims 1
- 238000010606 normalization Methods 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 25
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002045 lasting effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/02—Topology update or discovery
- H04L45/08—Learning-based routing, e.g. using neural networks or artificial intelligence
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/12—Shortest path evaluation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/302—Route determination based on requested QoS
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于深度强化学习的智能网络路径优选方法与系统,包括:采集目标网络的原始数据,计算目标网络的每条可执行路径的状态信息,构建深度强化学习模型,获取目标网络当前时刻的网络状态、执行最优路径动作、下一时刻的网络状态、当前奖励,并存储在经验回放池中,对深度强化学习模型进行迭代训练和参数更新,获得目标网络的最优路径,下发至目标网络的交换机设备中进行路径安装,本发明所设计的方法提高了智能体提取显著奖励经验的概率,加快了智能体学习最优策略的速度,算法的收敛速度显著提高,有效提高了网络吞吐量,降低了端到端时延和丢包率。
Description
技术领域
本发明涉及网络流量控制领域,具体涉及一种基于深度强化学习的智能网络路径优选方法,还涉及一种基于深度强化学习的智能网络路径优选系统。
背景技术
近年来,针对多域联合作战、马赛克作战、分布式作战、无人机蜂群作战等新型作战样式,相应战争模式从平台中心战到网络中心战,正向智能化战争飞速转变。智能化作战的战术通信网络系统结构动态可变,战场通信环境具有高复杂性和强对抗性,气象、地形、电磁等要素会对通信质量以及链路状态产生一定影响,因此链路状态对网络传输性能的影响不容忽视。与此同时,复杂战场通信网络中,话音、图像、视频等异质业务并存,其对于时延、 带宽等服务质量(Quality of Service,QoS)的需求也有所区别,因此,复杂战场通信网络不仅要满足不同业务传输的QoS需求,而且要尽可能提高网络传输性能。
在传统网络架构的发展过程中,开放式最短路径优先(Open Shortest PathFirst,OSPF)、路由信息协议(Routing Information Protocol,RIP)、负载均衡(LoadBalancing,LB)等传统路径选择算法已经成功应用于许多领域。然而,随着网络规模的不断扩大,网络流量呈现复杂多维,瞬时涌现的特点,使得传统算法对动态流量变化适应缓慢,无法根据网络的实时状态做出适应流量变化的路由策略,限制了其对于满足服务质量要求的支持,同时也降低了网络传输性能。
随着软件定义网络(Software Defined Network,SDN)的发展,这种新型网 络架构的出现实现了网络控制和数据包转发的解耦,使得网络的可编程性、全局 视图、逻辑集中控制得到了改善,为流量工程的实现和端到端的QoS研究提供了新的契机,在基于SDN架构的智能路由算法研究领域,启发式算法仍然是主 要基础。但启发式算法对于网络场景要求较为严苛,网络拓扑和链路状态的变化可能会导致启发式算法出现较大的波动和误差,从而导致潜在的可扩展性问题,影响网络性能。深度强化学习(Deep ReinforcementLearning,DRL)技术的快速发展使得智能算法在解决复杂高维问题上表现出显著优势,在大容量数据处理、复杂战略决策等方面取得了良好的效果。但是在面向强对抗高机动的复杂战场环境时,由于战场要素的数量、异构性,尤其是智能化程度迅速增长,相应的战术通信网络呈现出庞大的网络规模、时变的网络流量、复杂的决策空间等新特征,这导致现有的基于DRL的路径优选算法表现出不稳定,收敛慢的缺点,从而影响网络传输性能,无法保障信息的实时可靠传输。
发明内容
本发明目的:在于提供一种基于深度强化学习的智能网络路径优选方法与系统,解决了针对网络流量复杂多维、瞬时涌现导致现有的路径优选方法难以有效适应的问题。
为实现以上功能,本发明设计一种基于深度强化学习的智能网络路径优选方法,针对目标网络,执行如下步骤S1-步骤S5,完成目标网络的最优路径选择,并进行流量转发:
步骤S1:以预设周期采集目标网络的原始数据,包括拓扑结构、交换机端口数据信息;
步骤S2:分别针对目标网络的拓扑结构中的每个源-目的节点对,通过执行K条最短路径算法,计算各源-目的节点对的k条可执行路径,并计算每条可执行路径的状态信息,包括剩余带宽、时延、丢包率;
步骤S3:智能体基于DuelingDQN算法,构建深度强化学习模型,将步骤S2所获得的各可执行路径及其对应的状态信息输入智能体,获取目标网络当前时刻的网络状态s t ,执行最优路径动作a t ,然后获取目标网络下一时刻的网络状态s t+1,同时获取当前奖励r t ,并以四元组的形式存储在基于SumTree结构的经验回放池中;
步骤S4:基于经验回放池,智能体采用基于SumTree结构的优先经验回放机制,对深度强化学习模型进行迭代训练和参数更新,直至深度强化学习模型达到预设收敛条件,以此时的可执行路径作为目标网络的最优路径;
步骤S5:根据步骤S4所获得的最优路径,生成流表,下发至目标网络的交换机设备中进行路径安装,并进行流量转发。
本发明还设计一种基于深度强化学习的智能网络路径优选系统,其特征在于,包括网络感知模块、网络监测模块、数据处理模块、智能优选模块和路径安装模块,以实现所述的一种基于深度强化学习的智能网络路径优选方法;
网络感知模块用于以预设周期采集目标网络的拓扑结构,网络监测模块用于以预设周期采集目标网络的交换机端口数据信息,网络感知模块和网络监测模块将所采集的目标网络的原始数据上传至数据处理模块;
数据处理模块用于根据所接收的目标网络的原始数据,通过执行K条最短路径算法,计算各源-目的节点对的k条可执行路径,并计算每条可执行路径的状态信息,包括剩余带宽、时延、丢包率,存储并上传至智能优选模块;
智能优选模块中的智能体基于DuelingDQN算法,构建深度强化学习模型,将所接收的各可执行路径及其对应的状态信息输入智能体,获取目标网络当前时刻的网络状态s t ,执行最优路径动作a t ,然后获取目标网络下一时刻的网络状态s t+1,同时获取当前奖励r t ,并以四元组的形式存储在基于SumTree结构的经验回放池中;
基于经验回放池,智能优选模块中的智能体采用基于SumTree结构的优先经验回放机制,对深度强化学习模型进行迭代训练和参数更新,直至深度强化学习模型达到预设收敛条件,以此时的可执行路径作为目标网络的最优路径,将目标网络的最优路径上传至路径安装模块;
路径安装模块根据所接收的最优路径,生成流表,下发至目标网络的交换机设备中进行路径安装,并进行流量转发。
有益效果:相对于现有技术,本发明的优点包括:
本发明采用基于Dueling DQN算法构建深度强化学习模型,解决了传统DQN算法对Q值的估计过高问题,算法的收敛速度和稳定性显著提高。采用基于SumTree存储结构的优先经验回放机制替换传统深度强化学习的随机抽样回放机制,采用优先级抽样方式代替传统的随机抽样方式,提高智能体提取显著奖励经验的概率,加快了智能体学习最优策略的速度,算法的收敛速度显著提高。本发明采用的基于深度强化学习的智能网络路径优选方法能够提升不同QoS业务的传输性能,相较于OSPF算法和DRSIR算法,有效提高了网络吞吐量,降低了端到端时延和丢包率。
附图说明
图1是根据本发明实施例提供的一种基于深度强化学习的智能网络路径优选方法的流程图;
图2是根据本发明实施例提供的Dueling DQN的网络结构图;
图3是根据本发明实施例提供的深度强化学习智能体示意图;
图4是根据本发明实施例提供的SumTree结构图;
图5是根据本发明实施例提供的一种基于深度强化学习的智能网络路径优选系统示意图;
图6是根据本发明实施例提供的指挥控制网络拓扑结构图;
图7是根据本发明实施例提供的模拟网络流量矩阵示意图;
图8是根据本发明实施例提供的三种深度强化学习算法的收敛性对比图;
图9(a)- 图9(c)是根据本发明实施例提供的时延敏感业务下的吞吐量、时延、丢包率对比图;
图10(a)- 图10(c)是根据本发明实施例提供的带宽敏感业务下的吞吐量、时延、丢包率对比图;
图11(a)- 图11(c)是根据本发明实施例提供的可靠性敏感业务下的吞吐量、时延、丢包率对比图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
参照图1,本发明实施例提供的一种基于深度强化学习的智能网络路径优选方法,针对目标网络,执行如下步骤S1-步骤S5,完成目标网络的最优路径选择,并进行流量转发:
步骤S1:以预设周期采集目标网络的原始数据,包括拓扑结构、交换机端口数据信息;
步骤S2:分别针对目标网络的拓扑结构中的每个源-目的节点对,通过执行K条最短路径算法(K Shortest Paths Algorithm,KSP),计算各源-目的节点对的k条可执行路径,并计算每条可执行路径的状态信息,包括剩余带宽、时延、丢包率;
步骤S3:智能体基于DuelingDQN算法,构建深度强化学习模型,将步骤S2所获得的各可执行路径及其对应的状态信息输入智能体,获取目标网络当前时刻的网络状态s t ,执行最优路径动作a t ,然后获取目标网络下一时刻的网络状态s t+1,同时获取当前奖励r t ,并以四元组的形式存储在基于SumTree结构的经验回放池中;
Dueling DQN的网络结构参照图2,将深度Q网络的Q值分为两部分,第一部分仅与状态有关,称为价值函数,记为,表示静态的环境本身具有的价值,另一部分与状态和具体动作a相关,称为优势函数,记为/>,表示在某状态下做出某个动作的额外价值,则Q值可表示为
其中,ω为公共部分网络参数,β和α分别为价值函数和优势函数的独有参数,在实际应用中,要将动作价值函数设置为动作价值函数减去该状态下所有动作价值函数的平均值,这样做可以保证该状态下各动作的价值函数相对排序不变,而且可以缩小 Q值的取值范围,防止过高估计Q值,提高算法稳定性。则最终的Q值可表示为:
式中,表示目标网络的Q值,/>为目标网络的价值函数,为目标网络的优势函数,s为目标网络的网络状态,a为目标网络的最优路径动作,/>为目标网络的可执行路径数量,/>为目标网络的可执行路径动作;以此来突出每个动作相对于特定状态下所有动作平均值的优缺点,该方法解决了传统DQN算法对Q值的估计过高问题,提高了算法学习性能,加快了算法的收敛速度,增强了算法的稳定性。
基于Dueling DQN算法建立的深度强化学习智能体示意图参照图3,学习从初始状态到目标状态,即源节点到目的节点,转换过程中所采用的一系列步骤;每个步骤包括选择和执行一个可执行路径动作,改变目标网络的网络状态,以及获得奖励;智能体的三个指标分别设定为:
状态空间:状态空间是智能体可以观察到的一组状态,每个状态代表当前时刻网络的一组流量业务请求信息(源-目的节点)及其对应的可行路径状态信息 构成的状态矩阵,由向量s t 表示,其中,s t =[D,TM],D为目标网络当前时刻的网络流量业务请求信息(源-目的节点),TM为当前时刻起步长t内状态矩阵,具体如下:
式中,为各路径剩余带宽,/>为各路径时延,/>为各路径丢包率,k为路径总数;
由于状态矩阵的元素值差异较大,无法客观反应各网络路径状态指标的影响,导致智能路由算法在训练过程中波动过大,难以收敛,因此,采用Min−Max方法对状态矩阵中的元素进行归一化处理,根据如下公式所示,将矩阵中的元素归一化到[0,1]区间:
式中,X为待归一化矩阵,min(X)为待归一化矩阵中各元素的最小值,max(X)为待归一化矩阵中各元素的最大值,x i 为待归一化矩阵中第i个元素,为归一化后的矩阵中的第i个元素。
动作空间:动作空间是一组可以对状态空间中的状态采取的动作,针对目标网络当前时刻的网络状态s t ,智能体执行当前时刻的最优路径动作a t ,s t 对应的可执行路径域集合,其中/>为连接源-目的节点对的各可执行路径,智能体从可执行路径域集合P中选择一条路径作为最优路径;
奖励函数:智能体根据奖励来评估动作的优劣,进而改进策略。由于强化学 习的目标是持续获得最大奖励,针对智能体执行最优路径动作的奖励函数R如下式:
式中,分别为经过归一化处理后的路径剩余带宽、时延、丢包率,本发明方法将业务类型定义为时延敏感、带宽敏感和可靠性敏感 3 类,因此定义w 1、w 2、w 3分别为路径剩余带宽、时延、丢包率的权值,且满足/>,i=1,2,3;
三类业务权值系数的具体值如下表1所示:
表1
根据奖励函数R,基于目标网络当前时刻的网络状态s t ,计算智能体执行当前时刻的最优路径动作a t 所获得的奖励值r t ,更新并输出下一时刻的Q值,其过程表示如下式:
式中,表示目标网络当前时刻的Q值,决定了新获得的信息相对于先前可获得的信息的权重,γ为折扣因子,决定了未来奖励的重要性,s t+1为目标网络下一时刻的网络状态,θ和/>分别表示智能体所包含的策略神经网络和目标神经网络的权重参数,表示未更新时到达下一时刻网络状态s t+1获得最大Q值的估计值。
步骤S4:基于经验回放池,智能体采用基于SumTree结构的优先经验回放机制(Prioritized Experience Replay,PER),对深度强化学习模型进行迭代训练和参数更新,直至深度强化学习模型达到预设收敛条件,以此时的可执行路径作为目标网络的最优路径;
SumTree结构参照图4,为一个二叉树结构,由根节点、父节点和叶子节点组成;基于SumTree结构的优先经验回放机制使用TD误差作为评判优先级的标准,TD误差的形式如下式:
式中,为第i个样本的TD误差,样本表示存储于经验回放池中的各四元组;TD误差/>越大,表示该样本对于深度强化学习模型的预测精度的上升空间越大,回放该样本的收益越大;更多回放/>值较大的样本能够提高网络训练的效率,加速算法收敛速度。
经验回放池中第i个样本的优先级值p i 表示为,μ为预设的正数值,使得TD误差为0的样本也有一定概率被抽取,SumTree结构为二叉树结构,将第i个样本的优先级值p i 存储于SumTree结构中的叶子节点中,叶子节点上级的父节点存储其子节点的优先级值之和,SumTree结构的根节点存储所有叶子节点的优先级值之和。
对深度强化学习模型进行迭代训练和参数更新过程如下:
当经验回放池容量大于采样数N时,从SumTree结构中抽取N个样本,j=1,2,…,N,每个样本被抽取的概率基于下式:
式中,P i 为根据优先级得到的第i个样本被抽取的概率,p i 为经验回放池中第i个样本的优先级值,p j 为经验回放池中第j个样本的优先级值,M为经验回放池容量;
计算目标Q值如下式:
由于优先级高的样本容易被采样并频繁回放,从而导致训练样本多样性下降, 因此通过重要性采样权重来纠正;定义基于TD误差的优先级对应的重要性采样权重,具体如下式:
式中,N为采样数,为第j个样本优先级对应的重要性采样权重,/>为第i个样本优先级对应的重要性采样权重;
通过对深度强化学习模型加入重要性采样权重,更新智能体的策略神经网络参数,其均方差损失函数Loss更正为下式:
通过神经网络的梯度下降和反向传播来更新策略神经网络的权重参数θ,并重新计算样本的TD误差,进一步更新SumTree结构中节点的优先级p i ,同时通过周期性传递更新目标神经网络的权重参数/>,完成深度强化学习模型进行迭代训练和参数更新。
具体的深度强化学习算法主要训练参数如下表2所示:
表2
步骤S5:根据步骤S4所获得的最优路径,生成流表,下发至目标网络的交换机设备中进行路径安装,并进行流量转发。
本发明实施例还提供一种基于深度强化学习的智能网络路径优选系统,参照图5,包括数据层、控制层和应用层三层结构,控制层还包括网络感知模块、网络监测模块、数据处理模块、智能优选模块和路径安装模块,以实现所述的一种基于深度强化学习的智能网络路径优选方法;
数据层用于在底层网络部署网络拓扑结构,由一系列可编程交换机和通信链路组成,通过南向接口用以接收控制器发送的控制策略并完成对数据分组的处理、转发工作,以模拟复杂战术通信网络。
控制层连接数据层与应用层,维护网络全局视图,向下通过南向接口将控制 策略传递给数据层,向上将底层网络资源信息通过北向接口提供给应用层。定期 向数据层发送查询消息。网络感知模块定期向数据层的转发设备(交换机)发送 特征请求消息,构建和维护整个网络的拓扑信息;网络监测模块定期向数据层上的转发设备发送状态请求消息,并异步接收请求统计回复信息,获取网络交换机 设备的端口状态信息;数据处理模块利用网络感知模块和网络监测模块采集的网 络拓扑信息与端口状态信息,计算出网络链路的剩余带宽、时延、丢包率信息, 用于描述路径选择的网络链路状态。并根据网络链路信息计算全局网络的端到端 路径状态信息,用于向智能优选模块中的智能体发送网络状态s t 和奖励r t ;智能 优选模块学习网络的行为,通过智能体将数据处理模块处理得到的全局网络路径 状态信息转化为知识,并根据这些知识智能地为网络流量生成相应的路径选择策 略。路径安装模块根据智能优选模块生成的最优转发路径找到相应的主机节点, 并根据最优转发路径和相应的主机节点生成最优路径,更新流表项,下发至数据层,用于网络流量传输。
应用层实现面向应用程序服务的概念。通过北向接口与控制层进行通信,支 持复杂战术通信网络中的各类应用程序服务,网络状态信息(例如路由信息)通 过数据层收集并被各种网络应用程序使用。
在一个实施例中,所采用的指挥控制网络拓扑结构参照图6,由骨干网和接入网构成。指挥控制网络拓扑包含44个节点和164条链路,图中数字1-44表示各节点编号;每个节点代表一个支持OpenFlow协议的交换机,每个交换机下搭载一台主机,用于传输和接收流量。其中节点18、19、20和节点32、33、34模拟传感器节点,节点42、43、44模拟指挥控制节点,节点11、12、13,节点25、26、27和节点39、40、41模拟火力打击节点;流量传输路径遵循“传感器—指挥控制—火力打击”的原则;因此,选取6个传感器节点作为源节点,选取9个火力打击节点作为目的节点。指挥控制网络中的链路连接方式如图6中所示,异构链路类型包含微波、光纤、区宽、VHF、UHF、卫星,通过在mininet仿真器中设置不同传输链路带宽来模拟异构链路。实验环境操作系统为4GB内存和2核处理器的Ubuntu 18.04系统,实验利用Mininet2.3.0网络仿真平台来搭建网络拓扑,并采用Ryu 4.34控制器作为整个网络的控制器。
图7是模拟网络流量矩阵示意图。使用流量矩阵生成工具中的重力模型生成10~100分钟内的10个时刻流量矩阵,用于模拟真实网络流量。如图7所示,横坐标为时间,单位为min,纵坐标Mean Traffic Size表示各时刻每个源节点发送至目的节点的平均流量大小,单位为kbps;Iperf工具用于在不同节点对之间发送指定数据大小的UDP报文,并使用Ryu控制器测量网络性能参数。
图8是三种深度强化学习算法的收敛性对比图。为验证本发明算法的性能, 将其与传统的DQN算法和采用随机抽样的Dueling DQN算法进行对比,图8中横坐标为迭代次数,纵坐标表示奖励值,图中曲线DQN表示传统的DQN算法,曲线DuelingDQN表示随机抽样的Dueling DQN算法,曲线Dueling DQN with PER表示本发明所设计的方法;本发明方法在稳定性和收敛性方面相较于两种算法提升效果较为明显,本发明方法可以在较短时间内达到收敛状态。
为了验证本发明算法的优势,采用的对比算法如下:
(1)OSPF_DELAY:针对时延敏感业务,通过SDN测量机制实时获取网络中各链路的时延,根据网络全局视图得到所有源目的交换机节点之间的路径,选择链路时延最小的一跳作为路由转发路径。
(2)OSPF_BW:针对带宽敏感业务,通过SDN测量机制实时获取网络中各链路的剩余带宽,根据网络全局视图得到所有源目的交换机节点之间的路径,选择链路剩余带宽最大的一跳作为路由转发路径。
(3)OSPF_LOSS:针对可靠性敏感业务,通过SDN测量机制实时获取网络中各链路的丢包率,根据网络全局视图得到所有源目的交换机节点之间的路径,选择丢包率最小的一跳作为路由转发路径。
(4)DRSIR算法:采用DRSIR中的DQN算法构建深度强化学习智能体,根据网络路径状态学习路由策略。
对于不同业务类型,使用步骤S3中的仿真权值设定,分别针对时延敏感、带宽敏感和可靠性敏感业务进行路径优选。为了公平的比较,DQN算法与本发明算法保持相同的训练设置(例如,状态、动作和奖励)。本发明采用平均网络吞吐量,平均端到端时延和平均网络丢包率来评估不同路径优选算法对网络性能的影响,由于SDN网络长期运行可能会出现一些波动,导致网络吞吐量、时延、丢包率三个性能指标在一次测量中出现一定偏差,不能准确反映当前网络的性能,从而影响评价标准。为减轻网络波动的影响,对每个时刻的流量传输进行5次重复实验,取重复测量的平均值来表示网络性能指标。
图9(a)- 图 9(c)显示当传输时延敏感业务时,三种路径优选算法的吞吐量、时延和丢包率性能比较结果,图9(a)- 图 9(c)中横坐标为时间,单位为min;图9(a)中纵坐标为吞吐量(Throughput),单位为kbps;图9(a)显示本发明方法相较于OSPF_DELAY和DRSIR算法网络吞吐量分别提升16%和6%;图9(b)中纵坐标为时延(Delay),单位为ms;图9(b)显示本发明方法相较于OSPF_DELAY和DRSIR算法端到端时延分别提升36%和24%;图9(c)中纵坐标为丢包率(Packet loss rate),单位为%;图9(c)显示本发明方法相较于OSPF_DELAY和DRSIR丢包率分别提升63%和44%。
图10(a)- 图10(c)显示当传输带宽敏感业务时,OSPF_BW、DRSIR和本发明方法三种路径优选算法的吞吐量、时延和丢包率性能比较结果,图10(a)- 图10(c)横坐标为时间,单位为min;纵坐标分别为吞吐量(Throughput),单位为kbps;时延(Delay),单位为ms;丢包率(Packet loss rate),单位为%;图10(a)显示本发明方法相较于OSPF_BW和DRSIR算法网络吞吐量分别提升10%和3%;图10(b)显示本发明方法相较于两种算法端到端时延分别提升33%和25%;图10(c)显示本发明方法相较于两种算法丢包率分别提升57%和43%。
图11(a)- 图11(c)显示当传输可靠性敏感业务时,OSPF_LOSS、DRSIR和本发明方法三种路径优选算法的吞吐量、时延和丢包率性能比较结果,图11(a)- 图11(c)横坐标为时间,单位为min;纵坐标分别为吞吐量(Throughput),单位为kbps;时延(Delay),单位为ms;丢包率(Packet loss rate),单位为%。图11(a)显示本发明方法相较于OSPF_LOSS和DRSIR算法网络吞吐量分别提升9%和5%;图11(b)显示本发明方法相较于两种算法端到端时延分别提升33%和17%;图11(c)显示本发明方法相较于两种算法丢包率分别提升59%和32%。
结果表明,对于不同QoS业务的传输,本发明方法会根据需求不同选择不同的路径策略,且相较于现有的路径优选算法,无论是哪种业务传输,本方法在 网络吞吐量、端到端时延和丢包率方面都有较优的表现,能够极大地提升网络传 输性能,保障强对抗战场环境下信息的实时可靠传输。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (6)
1.一种基于深度强化学习的智能网络路径优选方法,其特征在于,针对目标网络,执行如下步骤S1-步骤S5,完成目标网络的最优路径选择,并进行流量转发:
步骤S1:以预设周期采集目标网络的原始数据,包括拓扑结构、交换机端口数据信息;
步骤S2:分别针对目标网络的拓扑结构中的每个源-目的节点对,通过执行K条最短路径算法,计算各源-目的节点对的k条可执行路径,并计算每条可执行路径的状态信息,包括剩余带宽、时延、丢包率;
步骤S3:智能体基于DuelingDQN算法,构建深度强化学习模型,将步骤S2所获得的各可执行路径及其对应的状态信息输入智能体,获取目标网络当前时刻的网络状态s t ,执行最优路径动作a t ,然后获取目标网络下一时刻的网络状态s t+1,同时获取当前奖励r t ,并以四元组的形式存储在基于SumTree结构的经验回放池中;
步骤S4:基于经验回放池,智能体采用基于SumTree结构的优先经验回放机制,对深度强化学习模型进行迭代训练和参数更新,直至深度强化学习模型达到预设收敛条件,以此时的可执行路径作为目标网络的最优路径;
步骤S5:根据步骤S4所获得的最优路径,生成流表,下发至目标网络的交换机设备中进行路径安装,并进行流量转发。
2.根据权利要求1所述的一种基于深度强化学习的智能网络路径优选方法,其特征在于,步骤S3中所述的DuelingDQN算法基于Q值评价各可执行路径的价值,具体如下:
式中,表示目标网络的Q值,/>为目标网络的价值函数,为目标网络的优势函数,s为目标网络的网络状态,a为目标网络的最优路径动作,ω为公共部分网络参数,β和α分别为价值函数和优势函数的独有参数,/>为目标网络的可执行路径数量,/>为目标网络的可执行路径动作。
3.根据权利要求2所述的一种基于深度强化学习的智能网络路径优选方法,其特征在于,步骤S3中获得四元组的方法如下:
智能体执行当前时刻的最优路径动作a t ,改变目标网络当前时刻的网络状态s t ,以获得相应奖励,其中,s t =[D,TM],D为目标网络当前时刻的网络流量业务请求信息,TM为当前时刻起步长t内状态矩阵,具体如下:
式中,为各路径剩余带宽,/>为各路径时延,/>为各路径丢包率,k为路径总数;
针对各路径剩余带宽、时延、丢包率进行归一化,并针对目标网络当前时刻的网络状态s t ,智能体执行当前时刻的最优路径动作a t ,s t 对应的可执行路径域集合,其中/>为连接源-目的节点对的各可执行路径,智能体从可执行路径域集合P中选择一条路径作为最优路径;
针对智能体执行最优路径动作的奖励函数R如下式:
式中,分别为经过归一化处理后的路径剩余带宽、时延、丢包率,w 1、w 2、w 3分别为路径剩余带宽、时延、丢包率的权值,且满足/>,i=1,2,3;
根据奖励函数R,基于目标网络当前时刻的网络状态s t ,计算智能体执行当前时刻的最优路径动作a t 所获得的奖励值r t ,更新并输出下一时刻的Q值,其过程表示如下式:
式中,表示目标网络当前时刻的Q值,γ为折扣因子,s t+1为目标网络下一时刻的网络状态,θ和/>分别表示智能体所包含的策略神经网络和目标神经网络的权重参数,/>表示未更新时到达下一时刻网络状态s t+1获得最大Q值的估计值。
4.根据权利要求3所述的一种基于深度强化学习的智能网络路径优选方法,其特征在于,步骤S4中所述的基于SumTree结构的优先经验回放机制使用TD误差作为评判优先级的标准,TD误差的形式如下式:
式中,为第i个样本的TD误差,样本表示存储于经验回放池中的各四元组;TD误差/>越大,表示该样本对于深度强化学习模型的预测精度的上升空间越大,回放该样本的收益越大;
经验回放池中第i个样本的优先级值p i 表示为,μ为预设的正数值,SumTree结构为二叉树结构,将第i个样本的优先级值p i 存储于SumTree结构中的叶子节点中,叶子节点上级的父节点存储其子节点的优先级值之和,SumTree结构的根节点存储所有叶子节点的优先级值之和。
5.根据权利要求4所述的一种基于深度强化学习的智能网络路径优选方法,其特征在于,步骤S4中对深度强化学习模型进行迭代训练和参数更新过程如下:
当经验回放池容量大于采样数N时,从SumTree结构中抽取N个样本,j=1,2,…,N,每个样本被抽取的概率基于下式:
式中,P i 为根据优先级得到的第i个样本被抽取的概率,p i 为经验回放池中第i个样本的优先级值,p j 为经验回放池中第j个样本的优先级值,M为经验回放池容量;
计算目标Q值如下式:
定义基于TD误差的优先级对应的重要性采样权重,具体如下式:
式中,N为采样数,为第j个样本优先级对应的重要性采样权重,/>为第i个样本优先级对应的重要性采样权重;
通过对深度强化学习模型加入重要性采样权重,更新智能体的策略神经网络参数,其均方差损失函数Loss更正为下式:
通过神经网络的梯度下降和反向传播来更新策略神经网络的权重参数θ,并重新计算样本的TD误差,进一步更新SumTree结构中节点的优先级p i ,同时通过周期性传递更新目标神经网络的权重参数/>,完成深度强化学习模型进行迭代训练和参数更新。
6.一种基于深度强化学习的智能网络路径优选系统,其特征在于,包括网络感知模块、网络监测模块、数据处理模块、智能优选模块和路径安装模块,以实现如权利要求1-5任意一项所述的一种基于深度强化学习的智能网络路径优选方法;
网络感知模块用于以预设周期采集目标网络的拓扑结构,网络监测模块用于以预设周期采集目标网络的交换机端口数据信息,网络感知模块和网络监测模块将所采集的目标网络的原始数据上传至数据处理模块;
数据处理模块用于根据所接收的目标网络的原始数据,通过执行K条最短路径算法,计算各源-目的节点对的k条可执行路径,并计算每条可执行路径的状态信息,包括剩余带宽、时延、丢包率,存储并上传至智能优选模块;
智能优选模块中的智能体基于DuelingDQN算法,构建深度强化学习模型,将所接收的各可执行路径及其对应的状态信息输入智能体,获取目标网络当前时刻的网络状态s t ,执行最优路径动作a t ,然后获取目标网络下一时刻的网络状态s t+1,同时获取当前奖励r t ,并以四元组的形式存储在基于SumTree结构的经验回放池中;
基于经验回放池,智能优选模块中的智能体采用基于SumTree结构的优先经验回放机制,对深度强化学习模型进行迭代训练和参数更新,直至深度强化学习模型达到预设收敛条件,以此时的可执行路径作为目标网络的最优路径,将目标网络的最优路径上传至路径安装模块;
路径安装模块根据所接收的最优路径,生成流表,下发至目标网络的交换机设备中进行路径安装,并进行流量转发。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310788324.5A CN116527567B (zh) | 2023-06-30 | 2023-06-30 | 一种基于深度强化学习的智能网络路径优选方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310788324.5A CN116527567B (zh) | 2023-06-30 | 2023-06-30 | 一种基于深度强化学习的智能网络路径优选方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116527567A true CN116527567A (zh) | 2023-08-01 |
CN116527567B CN116527567B (zh) | 2023-09-12 |
Family
ID=87406646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310788324.5A Active CN116527567B (zh) | 2023-06-30 | 2023-06-30 | 一种基于深度强化学习的智能网络路径优选方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116527567B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116996397A (zh) * | 2023-09-27 | 2023-11-03 | 之江实验室 | 一种网络丢包优化的方法、装置、存储介质及电子设备 |
CN117041139A (zh) * | 2023-10-09 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 数据包传输方法、装置、计算机设备和存储介质 |
CN117294643A (zh) * | 2023-11-24 | 2023-12-26 | 南京邮电大学 | 一种基于SDN架构的网络QoS保障路由方法 |
CN117319287A (zh) * | 2023-11-27 | 2023-12-29 | 之江实验室 | 一种基于多智能体强化学习的网络可扩展路由方法与系统 |
CN117474295A (zh) * | 2023-12-26 | 2024-01-30 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
CN117499297A (zh) * | 2023-12-28 | 2024-02-02 | 苏州元脑智能科技有限公司 | 数据包传输路径的筛选方法及装置 |
CN117749625A (zh) * | 2023-12-27 | 2024-03-22 | 融鼎岳(北京)科技有限公司 | 基于深度q网络的网络性能优化系统和方法 |
CN117749625B (zh) * | 2023-12-27 | 2024-06-25 | 融鼎岳(北京)科技有限公司 | 基于深度q网络的网络性能优化系统和方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200311556A1 (en) * | 2019-03-27 | 2020-10-01 | Cognizant Technology Solutions U.S. Corporation | Process and System Including an Optimization Engine With Evolutionary Surrogate-Assisted Prescriptions |
CN113395207A (zh) * | 2021-06-15 | 2021-09-14 | 北京工业大学 | 一种sdn架构下基于深度强化学习的路由优化架构及方法 |
US20220124543A1 (en) * | 2021-06-30 | 2022-04-21 | Oner Orhan | Graph neural network and reinforcement learning techniques for connection management |
CN114500360A (zh) * | 2022-01-27 | 2022-05-13 | 河海大学 | 一种基于深度强化学习的网络流量调度方法以及系统 |
CN115047878A (zh) * | 2022-06-13 | 2022-09-13 | 常州大学 | 一种基于dm-dqn的移动机器人路径规划方法 |
CN115314943A (zh) * | 2022-08-07 | 2022-11-08 | 昆明理工大学 | 无线传感器网络中基于深度强化学习的一对多能量补充方法 |
CN115826581A (zh) * | 2022-12-28 | 2023-03-21 | 大连大学 | 一种模糊控制与强化学习结合的移动机器人路径规划算法 |
CN116248164A (zh) * | 2022-12-16 | 2023-06-09 | 重庆邮电大学 | 基于深度强化学习的完全分布式路由方法和系统 |
CN116339316A (zh) * | 2023-02-13 | 2023-06-27 | 中国科学院沈阳自动化研究所 | 一种基于深度强化学习的深海采矿机器人路径规划方法 |
-
2023
- 2023-06-30 CN CN202310788324.5A patent/CN116527567B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200311556A1 (en) * | 2019-03-27 | 2020-10-01 | Cognizant Technology Solutions U.S. Corporation | Process and System Including an Optimization Engine With Evolutionary Surrogate-Assisted Prescriptions |
CN113395207A (zh) * | 2021-06-15 | 2021-09-14 | 北京工业大学 | 一种sdn架构下基于深度强化学习的路由优化架构及方法 |
US20220124543A1 (en) * | 2021-06-30 | 2022-04-21 | Oner Orhan | Graph neural network and reinforcement learning techniques for connection management |
CN114500360A (zh) * | 2022-01-27 | 2022-05-13 | 河海大学 | 一种基于深度强化学习的网络流量调度方法以及系统 |
CN115047878A (zh) * | 2022-06-13 | 2022-09-13 | 常州大学 | 一种基于dm-dqn的移动机器人路径规划方法 |
CN115314943A (zh) * | 2022-08-07 | 2022-11-08 | 昆明理工大学 | 无线传感器网络中基于深度强化学习的一对多能量补充方法 |
CN116248164A (zh) * | 2022-12-16 | 2023-06-09 | 重庆邮电大学 | 基于深度强化学习的完全分布式路由方法和系统 |
CN115826581A (zh) * | 2022-12-28 | 2023-03-21 | 大连大学 | 一种模糊控制与强化学习结合的移动机器人路径规划算法 |
CN116339316A (zh) * | 2023-02-13 | 2023-06-27 | 中国科学院沈阳自动化研究所 | 一种基于深度强化学习的深海采矿机器人路径规划方法 |
Non-Patent Citations (5)
Title |
---|
HAIPENG YAO: ""NetworkAI: An Intelligent Network Architecture for Self-Learning Control Strategies in Software Defined Networks"", 《 IEEE INTERNET OF THINGS JOURNAL 》 * |
YU KE: ""Routing Strategy for SDN Large Flow Based on Deep Reinforcement Learning"", 《2022 IEEE INTL CONF ON PARALLEL & DISTRIBUTED PROCESSING WITH APPLICATIONS, BIG DATA & CLOUD COMPUTING, SUSTAINABLE COMPUTING & COMMUNICATIONS, SOCIAL COMPUTING & NETWORKING》 * |
侯诗琪: ""基于强化学习的路由选择协议优化"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
李文萌: ""SDN网络基于流量分类和强化学习的QoS路由优化算法"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
杨洋;吕光宏;赵会;李鹏飞;: "深度学习在软件定义网络研究中的应用综述", 软件学报, no. 07 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116996397B (zh) * | 2023-09-27 | 2024-01-09 | 之江实验室 | 一种网络丢包优化的方法、装置、存储介质及电子设备 |
CN116996397A (zh) * | 2023-09-27 | 2023-11-03 | 之江实验室 | 一种网络丢包优化的方法、装置、存储介质及电子设备 |
CN117041139B (zh) * | 2023-10-09 | 2024-03-26 | 腾讯科技(深圳)有限公司 | 数据包传输方法、装置、计算机设备和存储介质 |
CN117041139A (zh) * | 2023-10-09 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 数据包传输方法、装置、计算机设备和存储介质 |
CN117294643A (zh) * | 2023-11-24 | 2023-12-26 | 南京邮电大学 | 一种基于SDN架构的网络QoS保障路由方法 |
CN117294643B (zh) * | 2023-11-24 | 2024-03-12 | 南京邮电大学 | 一种基于SDN架构的网络QoS保障路由方法 |
CN117319287A (zh) * | 2023-11-27 | 2023-12-29 | 之江实验室 | 一种基于多智能体强化学习的网络可扩展路由方法与系统 |
CN117319287B (zh) * | 2023-11-27 | 2024-04-05 | 之江实验室 | 一种基于多智能体强化学习的网络可扩展路由方法与系统 |
CN117474295A (zh) * | 2023-12-26 | 2024-01-30 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
CN117474295B (zh) * | 2023-12-26 | 2024-04-26 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
CN117749625A (zh) * | 2023-12-27 | 2024-03-22 | 融鼎岳(北京)科技有限公司 | 基于深度q网络的网络性能优化系统和方法 |
CN117749625B (zh) * | 2023-12-27 | 2024-06-25 | 融鼎岳(北京)科技有限公司 | 基于深度q网络的网络性能优化系统和方法 |
CN117499297B (zh) * | 2023-12-28 | 2024-03-01 | 苏州元脑智能科技有限公司 | 数据包传输路径的筛选方法及装置 |
CN117499297A (zh) * | 2023-12-28 | 2024-02-02 | 苏州元脑智能科技有限公司 | 数据包传输路径的筛选方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN116527567B (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116527567B (zh) | 一种基于深度强化学习的智能网络路径优选方法与系统 | |
CN113328938B (zh) | 一种基于深度强化学习的网络自主智能管控方法 | |
CN112437020B (zh) | 一种基于深度强化学习的数据中心网络负载均衡方法 | |
CN109039942B (zh) | 一种基于深度强化学习的网络负载均衡系统及均衡方法 | |
CN110611619A (zh) | 一种基于ddpg强化学习算法的智能化路由决策方法 | |
CN108667734A (zh) | 一种基于q学习和lstm神经网络的快速路由决策算法 | |
CN113395207B (zh) | 一种sdn架构下基于深度强化学习的路由优化架构及方法 | |
CN108075975B (zh) | 一种物联网环境中的路由传输路径的确定方法及确定系统 | |
CN111988225A (zh) | 基于强化学习和迁移学习的多路径路由方法 | |
CN114143264B (zh) | 一种SRv6网络下基于强化学习的流量调度方法 | |
Wei et al. | Congestion control: A renaissance with machine learning | |
CN113595923A (zh) | 一种网络拥塞控制方法及装置 | |
CN113114581A (zh) | 基于多智能体深度强化学习的tcp拥塞控制方法及装置 | |
Dalgkitsis et al. | Dynamic resource aware VNF placement with deep reinforcement learning for 5G networks | |
CN115499376B (zh) | 一种负载均衡方法、系统、电子设备及存储介质 | |
CN116390164A (zh) | 一种低轨卫星网络可信负载均衡路由方法、系统、设备及介质 | |
Oužecki et al. | Reinforcement learning as adaptive network routing of mobile agents | |
Liu et al. | BULB: lightweight and automated load balancing for fast datacenter networks | |
Gomez et al. | Federated intelligence for active queue management in inter-domain congestion | |
US20220343220A1 (en) | Control apparatus, method and system | |
CN116455820A (zh) | 基于拥塞规避的多传输路径调整系统及方法 | |
CN115225512B (zh) | 基于节点负载预测的多域服务链主动重构机制 | |
Alliche et al. | Prisma: a packet routing simulator for multi-agent reinforcement learning | |
CN117014355A (zh) | 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法 | |
CN112511445B (zh) | 一种基于负载加权的最短路径路由生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |