CN112491714A - SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 - Google Patents
SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 Download PDFInfo
- Publication number
- CN112491714A CN112491714A CN202011266807.1A CN202011266807A CN112491714A CN 112491714 A CN112491714 A CN 112491714A CN 202011266807 A CN202011266807 A CN 202011266807A CN 112491714 A CN112491714 A CN 112491714A
- Authority
- CN
- China
- Prior art keywords
- network
- sdn
- switch
- flow table
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000002787 reinforcement Effects 0.000 title claims abstract description 42
- 238000005457 optimization Methods 0.000 title claims abstract description 26
- 230000005540 biological transmission Effects 0.000 claims abstract description 24
- 230000003993 interaction Effects 0.000 claims abstract description 7
- 230000000875 corresponding effect Effects 0.000 claims description 49
- 230000009471 action Effects 0.000 claims description 44
- 239000003795 chemical substances by application Substances 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/302—Route determination based on requested QoS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/46—Interconnection of networks
- H04L12/4633—Interconnection of networks using encapsulation techniques, e.g. tunneling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/14—Routing performance; Theoretical aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/16—Multipoint routing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开一种SDN环境下基于深度强化学习的智能QoS路由优化方法、系统,首先将网络中所有流媒体服务表示为一个服务请求集合,然后对其中每一个请求,从流媒体服务器到异构客户端寻找满足网络服务质量的路径,依次确定出每一个流请求的路由,最后采用一种QoS路由优化算法构建出组播树。对于网络拥塞链路或者是恶意节点,通过深度强化学习的方法可以寻找出当前最合适的下一节点进行路由。通过采用深度学习和强化学习结合的方法,本发明可以有效地减少视频流的传输时延并提高路由决策的准确性。同时,本发明采用了分布式控制平面的设计,并可以在各种网络拓扑在实现,不仅可以避免网络网络拥塞,提高了网络的可扩展性,而且减少与单一控制器的交互,提高了网络的整体效用。
Description
技术领域
本发明属于网络路由优化技术,具体涉及一种SDN环境下基于深度强化学习 的智能QoS路由优化方法、系统。
背景技术
近些年来,伴随着互联网的蓬勃发展,网络应用越来越多,网络流量呈爆炸 式增长。随着网络规模和用户数量的快速增长,网络结构也越来越复杂,网络安 全和路由优化面临着越来越大的挑战。同时,针对异构终端用户的新型网络应用 服务应运而生,例如,网络电视,在线游戏,视频会议等多媒体流应用在互联网 上变得越来越流行,网络数据的急剧增加导致了网络管理设备变量复杂。随着网 络的灵活性的提升,也给网络资源的管控带来前所未有的挑战。另外,在一些实 时多媒体的应用场景当中,传统网络中的多媒体服务器仅凭单播模式将相同的视 频流传输到异构客户端。但是,单播传输模式会产生冗余流量并浪费大量的网络 带宽,因此,利用组播传输模式可以有效地减少网络流量并降低网络的负载。
在传统网络中,控制和转发紧紧耦合的网络架构与“尽力而为”的服务模式, 需要在不同的路由节点上执行相关的路由协议和算法来找到源到目的节点的最 佳路径。正是因为传统网络分布式体系,使得每个节点只具有部分网络视图,导 致很多全局的路由策略难以部署,所以很难进行智能QoS路由,而软件定义网 络(Software-Define Networking)作为一种新的体系架构(如图1所示)。
目前,在调研到的SDN环境下的智能QoS路由优化方案中,主要分为启发 式方法和机器学习方法两种。通过建模来近似拟合当前的网络状态,并采用启发 式方法来为多媒体流请求实时计算路由配置,缺点是具有严格的适用场景,计算 开销巨大,难以应对未来实时高动态的网络环境;然而,多媒体流应用,特别是 实时视频流应用,通常对视频流的传输有严格的端到端的时延限制,从而保证用 户的网络质量服务体验。
与传统方法相比,深度学习适用于处理不规则,大规模非线性问题,在许多 复杂问题上具有无可比拟的优势。同时,采用与网络环境交互更好的深度强化学 习模型,来实现网络流量的实时智能控制。
因此,如何在SDN网络架构下利用全局网络拓扑视图实现智能的QoS路由 优化,在满足QoS要求的同时,进而保障用户的网络服务质量体验,成为当下 研究需要解决的问题。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种SDN 环境下基于深度强化学习的智能QoS路由优化方法、系统;本发明在SDN多媒体 系统模型上基于深度强化学习算法设计的智能QoS路由优化方法,从而保证用户 的网络服务质量体验。由于在一些实时的视频流应用场景中,不仅网络业务具有 高带宽,而且用户对端到端的时延也具有很严格的要求,因此,本发明无需专注 SDN多媒体系统模型的设计。同时本发明使用了分布式控制平面的设计,从而解 决了单点的脆弱性问题,同时提高网络的可扩展性;另外,在QoS路由过程考虑 了链路时延和网络拥塞情况,从而有效地改善了网络的负载。
技术方案:本发明的一种SDN环境下基于深度强化学习的智能QoS路由优 化方法,包括以下步骤:
步骤S1:深度强化学习训练
本发明优化深度强化学习方法,并采用其深度确定性策略梯度DDPG模型, 将基于策略的强化学习和基于价值的强化学习方法结合,然后利用神经网络生成 策略函数和价值估计函数来输出稳定的连续动作;其中μ和Q分别表示确定性 策略函数和价值估计函数,并由神经网络形成;具体步骤如下:
步骤S1.1、媒体服务器Media Server提供相应多媒体业务(包括视频、音频 等),且所述多媒体业务通过OpenFlow网络进行传输;
步骤S1.2、SDN控制器中视频管理模块接收多媒体业务的会话请求,多媒 体业务的会话请求集合为Γt,集合Γt中的每一个具体会话 请求则表示为k是会话请求的索引,vk表示传输第k个会话请 求的视频服务器,ck表示第k个会话请求的客户端,bk表示第k个会话请求的带 宽大小;k∈[1,n];
所述步骤S1.2中SDN控制平面的详细内容为:
步骤S1.2.1、SDN控制平面中,SDN网络包括N个控制器和K个交换机, N个控制器集合为C={c1,c2,……,cn},该集合中所有控制器性能相同并将控制 器c1设为住控制器,K个交换机集合为E={e1,e2,……,ek};SDN网络划分为N个 域,每个域中的网络流量和每个域的负载均为动态变化;
步骤S1.2.4、处理会话请求集合Γt中所有不同的会话请求,得到N个域中各 个域的负载和流表使用情况;
步骤S1.3、使用与SDN控制器相连的DDPG代理进行智能路由决策,SDN 控制器定期向DDPG提供用于训练的流量数据;且在训练期间,将与环境每次 交互后的状态信息(st,at,rt,st+1)存储于经验池,神经网络的学习批次 N*(si,ai,ri,s+1)由从经验池中采样的数据组成,i是指数据的索引下标;其中, st是t时刻的网络状态,at和st+1分别表示在st网络状态下采取的动作和转换的状 态,rt表示网络状态转换后获得的回报;
步骤S1.3.2、将收集到的网络状态st作为输入,代理决定下一跳分配到哪一 个交换机,这个动作用at来表示,即:
步骤S1.3.3、代理在强化学习中根据奖励Qπ(st,at)来评估行动的准确性,并 以此来改进策略π(st,at),奖励的指标包括流表占用率转发延迟链路 丢包率以及控制器负载所有指标的权重之和,即为:
步骤S1.3.4、深度强化学习时采用Actor-Critic模式,即采用使用确定性策 略梯度方法的Actor模块和使用深度Q-learning方法的Critic模块;所述两个模 块均包括一个在线网络(Primary Network)和一个目标网络(Target Network), 且二者的神经网络结构相同;在线网络将自己的参数传递给目标网络进行目标网 络的参数更新;在训练期间,设置一个存储样本数据的缓冲区D,将与环境交互 的转换信息存储在D中,神经网络学习从D中随机读取来进行学习;
步骤S1.3.5、首先随机选取缓存区D中存储采用的数据N*(si,ai,ri,si+1), 其中,si是初始化状态,ai是网络输出动作,在状态si下执行动作ai,会得到相 应的奖励ri和下一时刻状态si+1;然后,初始化在线网络μ(s|θμ)的权重参数为θμ 和θQ,在将参数更新到目标网络Q(s,a|θQ),即:
θQ′←θQ,θμ′←θμ
将收集到的环境状态信息st作为Actor在线网络的输入,输出相应的动作 at=(st|θμ),最后执行动作获得相应的奖励rt和转移状态st+1,再存储到缓冲区 D中;
步骤S1.3.6、对于在线Actor网络μ(s|θμ)输出的动作at=(st|θμ),作为在 线Critic网络Q(s,a|θQ)的输入,得到相应的Q-value,然后通过均方误差去计算 损失函数,即:
其中,yi表示目标Critic网络获得的Q-value,相应的yi具体表示为:
yi=ri+γ·Q′(si+1,μ′(si+1|θμ′)|θQ′)
其中,γ表示折扣因子用于反映奖励不断衰减的过程;
通过均方误差计算完损失函数之后,再去调整主动Actor网络的权重参数, 更新参数的过程为:
最后再对分别对目标网络参数进行更新,即:
θμ′←σθμ+(1-σ)θμ′
θQ′←σθQ+(1-σ)θQ′;
θQ′是Critic目标网络的权重参数,
θμ′是Actor目标网络的权重参数。
步骤S1.4、SDN控制器中的QoS路由管理模块与DDPG代理交互,即:DDPG 代理为每个会话请求找到合适的动作之后,再由SDN控制器中的QoS路由管理 模块转换成具体的相应流表指令下发到OpenFlow交换机中执行;
本发明的深度强化学习训练完成后,会得到最优的路由策略,也就是传输路 径,得到是连续的交换机节点,再将其转换成流表项下发到交换机中,QoS路由 管理模块将合适的动作转为为流表规则。
步骤S2:QoS路由优化
通过从SDN网络中获取全局网络状态,然后SDN控制器生成网络策略动作, 选择不同的路由路径,再由控制平面基于相应路由路径下发相应的规则(即组表、 流表),按照集合顺序依次对流量路由;具体步骤如下:
步骤S2.1、客户端发送请求消息到数据平面的OpenFlow交换机中,交换机 检查是否有与流相匹配的流表项,如果流表项存在,则根据流表项执行转发,否 则,发送Packet_In消息到SDN控制器中,然后SDN控制器接收代理训练完成 后的动作,再按照相应的策略部署新的流表项到OpenFlow交换机中,获得更加 合理的路由;
步骤S2.2、SDN控制器按照相应时间周期获取网络状态信息,时间间隔根 据网络变化来设定,每获取一次网络状态,就相应进行一次路由优化,并按照路 由策略去配置相应的流表;上述过程中,对于相同网络业务的会话请求,则下发 配置相应的组表和流表进行组播传输,对于不同网络业务的请求,则配置相应的 流表项进行单播传输。组表和流表的下发操作是仿真环境中基本的指令操作,通 过相应命令实现。
本发明还公开一种SDN环境下基于深度强化学习的智能QoS路由优化系统, 包括控制平面层和数据平面层,控制平面层中包括多个SDN控制器,数据平面 中包括多个媒体服务器、OpenFlow网络以及客户端;
数据平面层包括由支持OpenFlow交换机的转发设备,数据平面报告网络资 源的信息、网络状态以及数据的转发;控制平面层由南向接口与数据平面进行交 互,通过集中控制来收集网络状态,网络状态发生变化时,控制器根据变化更新 网络,调整路由路径;
其中,媒体服务器提供各种多媒体业务;客户端发送业务请求,接收请求视 频内容等功能;OpenFlow交换机接收到客户端请求以后将其转发给SDN控制器, SDN控制器与DDPG代理进行交互,执行相应的路由策略,再通过SDN控制器 下发流表项到交换机中。
有益效果:与现有技术相比,本发明具有以下优点:
1、本发明采用分布式控制平面设计方式来传输实时视频流。OpenFlow交换 机一旦收到与之非对应流表条目匹配的数据包,就需要将该数据包的头封装成一 个报文中的数据包,发送给控制器进行路由和流表条目安装。因此,报文中数据 包的数量可能导致控制器负载增加,控制器可能会达到性能瓶颈。与单一的控制 器平面的域内传输相比,本发明采用多个控制器的分布式控制平面上进行数据平 面的管理,解决单一集中式控制器中的可伸缩性问题。
2、本发明考虑传输流量过程中的网络负载以及SDN交换机内存大小 (TCAM)的限制因素,根据本发明中的深度确定性策略梯度模型,优化网络负 载奖励和网络QoS奖励来评估行动的有效性,提高整个SDN网络的可靠性;
3、本发明采用深度强化学习来解决SDN路由问题,相比传统启发式算法, 需要简化建立数学模型并针对优化问题求解,具有较高的计算时间成本而言,深 度强化学习方法只需要设计不同网络决策和优化目标,无需精确可解的数学模型, 同时可以处理复杂的网络状态,从而减少了网络传输时延,解决大规模网络决策 问题,提供了更好的网络服务质量。
附图说明
图1为现有技术中的SDN架构示意图;
图2为本发明的分布式控制平面示意图;
图3为本发明的网络模型系统架构图;
图4为本发明中消息交互时间图;
图5为本发明的整体流程图;
图6为本发明中数据采集阶段流程图;
图7为本发明中深度强化学习训练阶段流程图;
图8为本发明中QoS路由阶段流程图;
图9为本发明中实施例的网络拓扑示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述 实施例。
如图3至图8所示,本发明,本发明的一种SDN环境下基于深度强化学习 的智能QoS路由优化方法,包括以下步骤:
步骤S1:深度强化学习训练
优化深度强化学习方法,并采用其深度确定性策略梯度DDPG模型,将基 于策略的强化学习和基于价值的强化学习方法结合,然后利用神经网络生成策略 函数和价值估计函数来形成稳定的连续动作,其中μ和Q分别表示确定性策略函 数和价值估计函数,并由神经网络形成;具体步骤如下:
步骤S1.1、媒体服务器Media Server提供相应多媒体业务(包括视频、音频 等),且所述多媒体业务通过OpenFlow网络进行传输;
步骤S1.2、SDN控制器中视频管理模块接收多媒体业务的会话请求,多媒 体业务的会话请求集合为Γt,集合Γt中的每一个具体会话 请求则表示为k是会话请求的索引,vk表示传输第k个会话请 求的视频服务器,ck表示第k个会话请求的客户端,bk表示第k个会话请求的带 宽大小;k∈[1,n];
所述步骤S1.2中SDN控制平面的详细内容为:
步骤S1.2.1、SDN控制平面中,SDN网络包括N个控制器和K个交换机, N个控制器集合为C={c1,c2,……,cn},该集合中所有控制器性能相同并将控制 器c1设为住控制器,K个交换机集合为E={e1,e2,……,en};SDN网络划分为N个 域,每个域中的网络流量和每个域的负载均为动态变化;
步骤S1.2.4、处理会话请求集合Γt中所有不同的会话请求,得到N个域中各 个域的负载和流表使用情况;
步骤S1.3、使用与SDN控制器相连的DDPG代理进行智能路由决策,SDN 控制器定期向DDPG提供用于训练的流量数据;且在训练期间,将与环境每次 交互后的状态信息(st,at,rt,st+1)存储于经验池,神经网络的学习批次 N*(si,ai,ri,si+1)由从经验池中采样的数据组成;其中,st是t时刻的网络状态,at和st+1分别表示在st状态下采取的动作和转换的状态,rt表示状态转换后获得的 回报;
步骤S1.3.2、将收集到的网络状态st作为输入,主体决定下一跳分配到哪一
个交换机,这个动作用at来表示,即:
步骤S1.3.3、主体在强化学习中根据奖励Qπ(st,at)来评估行动的准确性,并 以此来改进策略π(st,at),奖励的指标包括流表占用率转发延迟链路 丢包率以及控制器负载所有指标的权重之和,即为:
步骤S1.3.4、深度强化学习时采用Actor-Critic模式,即采用使用确定性策 略梯度方法的Actor模块和使用深度Q-learning方法的Critic模块;所述两个模 块均包括一个在线网络(Primary Network)和一个目标网络(Target Network), 且二者的神经网络结构相同;在线网络将自己的参数传递给目标网络进行目标网 络的参数更新;在训练期间,设置一个存储样本数据的缓冲区D,将与环境交互 的转换信息存储在D中,神经网络学习从D中随机读取来进行学习;
步骤S1.3.5、首先随机选取缓存区D中存储采用的数据N*(si,ai,ri,si+1), 其中,si是初始化状态,ai是网络输出动作,在状态si下执行动作ai,会得到相 应的奖励ri和下一时刻状态si+1;然后,初始化在线网络μ(s|θμ)的权重参数为θμ 和θQ,在将参数更新到目标网络Q(s,a|θQ),即:
θQ′←θQ,θμ′←θμ
将收集到的环境状态信息st作为Actor在线网络的输入,输出相应的动作 at=(st|θμ),最后执行动作获得相应的奖励rt和转移状态st+1,再存储到缓冲区 D中;
步骤S1.3.6、对于在线Actor网络μ(s|θμ)输出的动作at=(st|θμ),作为在 线Critic网络Q(s,a|θQ)的输入,得到相应的Q-value,然后通过均方误差去计算 损失函数,即:
其中,yi表示目标Critic网络获得的Q-value,相应的yi具体表示为:
yi=ri+γ·Q′(si+1,μ′(si+1|θμ′)|θQ′)
其中,γ表示折扣因子用于反映奖励不断衰减的过程;
通过均方误差计算完损失函数之后,再去调整主动Actor网络的权重参数, 更新参数的过程为:
最后再对分别对目标网络参数进行更新,即:
θμ′←σθμ+(1-σ)θμ′
θQ′←σθQ+(1-σ)θQ′;
步骤S1.4、SDN控制器中的QoS路由管理模块与DDPG代理交互,即:DDPG 代理为每个会话请求找到合适的动作之后,再由SDN控制器中的QoS路由管理 模块转换成具体的相应流表指令下发到OpenFlow交换机中执行;
步骤S2:QoS路由优化
通过从SDN网络中获取全局网络状态,然后SDN控制器生成网络策略动作, 选择不同的路由路径,再由控制平面基于相应路由路径下发相应的规则(即组表、 流表),按照集合顺序依次对流量路由;具体步骤如下:
步骤S2.1、客户端发送请求消息到数据平面的OpenFlow交换机中,交换机 检查是否有与流相匹配的流表项,如果流表项存在,则根据流表项执行转发,否 则,发送Packet_In消息到SDN控制器中,然后SDN控制器接收代理训练完成 后的动作,再按照相应的策略部署新的流表项到OpenFlow交换机中,获得更加 合理的路由;
步骤S2.2、SDN控制器按照相应时间周期获取网络状态信息,时间间隔根 据网络变化来设定。,每获取一次网络状态,就相应进行一次路由优化,并按照 路由策略去配置相应的流表;上述过程中,对于相同网络业务的请求,则配置相 应的组表和流表进行组播传输,对于不同网络业务的请求,则配置相应的流表项 进行单播传输。
如图4所示,本发明中,深度强化学习模块包括环境(environment)、主体(agent)、状态(state)、动作(action)以及奖励(reward)。
所述深度强化学习设置包括两个基本的部分:环境和代理。SDN的多媒体 系统环境主要包括:多媒体服务器、异构客户端和OpenFlow网络三个部分;代 理用于与网络环境交互,类似于软件定义网络的应用层,通过与控制器交互来收 集网络状态,做出决策和采取行动。经过神经网络训练,代理根据历史交互记录 学习到的足够多的数据,为实时多媒体服务提供最优路由策略。
所述深度强化学习的状态空间反映网络环境的变化。对于视频流传输问题, 环境状态是指流量的变化,它包括链路带宽、数据包的丢失率、延迟和抖动。
所述深度强化学习代理的任务是将状态空间映射到动作空间的过程。其中, 任一个动作都是在每种状态下可供选择的下一跳集合,来确定最优的路由策略。 当代理使用路由策略在某个状态下执行某个动作之后,当前状态就会转移到下一 个状态。
基于当前状态和动作,主体从环境中获得奖励。不同的网络优化目标,可以 定义不同的奖励机制,采取不同的行动也会获得不同的奖励。当主体执行相应的 策略π(st,at),即由初始状态执行一系列的行动后,主体就会得到一个累计奖励 Qπ(st,at),通过学习找到最大化累计奖励来确定最优策略。
如图2所示,,本实施例的SDN环境下基于深度强化学习的智能QoS路由优 化系统,参与角色包括SDN控制器,视频服务器,OpenFlow交换机和客户端。 其中,视频服务器(Media Server)提供各种多媒体业务,如视频、音频等,客 户端负责发送请求,接收视频内容,交换机接收到请求以后将其发送给控制器, 控制器负责与深度强化学习主体进行交互,并下发相应路由策略。
实施例:
实验环境:本实施例中的SDN控制器采用Floodlight1.2,网络拓扑搭建采 用网络仿真器Mininet2.3,使用Python程序实现深度强化学习的代理,选择Iperf 工具来模拟网络业务的传输。
网络拓扑:如图9所示,在Mininet网络仿真软件中部署真实的NSFNET网 络,包含13个交换机节点和20条链路,其中,节点0作为源节点,连接着视频 服务器,8,9,11,12,13作为5个连接客户端的节点,2,4,7作为拥塞节点。
实验参数:服务器(server)负责发送视频流量,视频比特率大小设置为1Mbps, 传输过程中允许的最大时延和抖动分别设置为150ms和30ms。深度强化学习中 神经网络参数设置如下:奖励折扣因子γ=0.9,奖励函数权重因子α=0.5,学 习率δ=0.1,目标网络参数更新σ=0.01,训练批处理大小m=64。
实施过程:
1、首先,设置好主动网络和目标网络参数信息,再将缓冲区D初始化,对 于每一次的迭代过程,去观察采取的行动,执行行动之后获得的奖励以及转换的 状态,然后将状态,行动,奖励和转移状态存储在缓冲区中。其次,从缓存区D 中随机读取一定批量的数据进行训练,计算目标Critic网络Q值,再通过损失函 数以及策略迭代方法去更新主动Critic网络和主动Actor网络,找到累计Q值最 大的行动,最后更新目标网络的参数。
2、通过训练完成神经网络可以直接获得路由策略,然后将获得的路由策略 转换成相应的流表项安装到交换机中,在使用Iperf工具发送视频流量到5个不 同的客户端,发送视频流量大小1Mbps,持续发包时间为200s,测量所有客户 端的平均丢包率以及链路时延大小。
通过上述实施例可以看出,本发明使用分布式控制器平面设计提供的全局网 络拓扑为深度学习代理提供网络状态,从而减少控制平面的单点故障问题,提高 网络的可扩展性。
在构建网络业务传输路径过程中,本发明充分考虑交换机TCAM空间大小 以及流表的占用率,从而有效地利用了流表空间,减少网络传输过程中的时延和 丢包率情况,提高网络的可靠性和可扩展性;同时,本发明使用深度强化学习算 法,大大避免网络拥塞出现的情况,降低传输过程中端到端的时延,从而提高用 户的网络服务质量体验。
Claims (4)
1.一种SDN环境下基于深度强化学习的智能QoS路由优化方法,其特征在于:包括以下步骤:
步骤S1:深度强化学习训练
步骤S1.1、媒体服务器Media Server提供相应多媒体业务,且所述多媒体业务通过OpenFlow网络进行传输;
步骤S1.2、SDN控制器中视频管理模块接收多媒体业务的会话请求,多媒体业务的会话请求集合为Γt,集合Γt中的每一个具体会话请求则表示为k是会话请求的索引,vk表示传输第k个会话请求的视频服务器,ck表示第k个会话请求的客户端,bk表示第k个会话请求的带宽大小;k∈[1,n];
步骤S1.3、使用与SDN控制器相连的DDPG代理进行智能路由决策,SDN控制器定期向DDPG代理提供用于训练的流量数据;且在训练期间,将与环境每次交互后的状态信息(st,at,rt,st+1)存储于经验池,神经网络的学习批次N*(si,ai,ri,si+1)由从经验池中采样的数据组成;其中,st是t时刻的网络状态,at和st+1分别表示在st网络状态下采取的动作和转换的状态,rt表示网络状态转换后获得的回报;
步骤S1.4、SDN控制器中的QoS路由管理模块与DDPG代理交互,即:DDPG代理为每个会话请求找到合适的动作之后,再由SDN控制器中的QoS路由管理模块转换成具体的相应流表指令下发到OpenFlow交换机中执行;
步骤S2:QoS路由优化
通过从SDN网络中获取全局网络状态,然后SDN控制器生成网络策略动作,选择不同的路由路径,再由控制平面基于相应路由路径下发相应的规则,按照集合顺序依次对流量路由;具体步骤如下:
步骤S2.1、客户端发送请求消息到数据平面的OpenFlow交换机中,交换机检查是否有与流相匹配的流表项,如果流表项存在,则根据流表项执行转发,否则,发送Packet_In消息到SDN控制器中,然后SDN控制器接收DDPG代理训练完成后的动作,再按照相应的策略部署新的流表项到OpenFlow交换机中,获得更加合理的路由;
步骤S2.2、SDN控制器按照相应时间周期获取网络状态信息,每获取一次网络状态,就相应进行一次路由优化,并按照路由策略去配置相应的流表;
上述过程中,对于相同网络业务的会话请求,则下发相应的组表和流表进行组播传输,对于不同网络业务的请求,则配置相应的流表项进行单播传输。
2.根据权利要求1所述的SDN环境下基于深度强化学习的智能QoS路由优化方法,其特征在于:所述步骤S1.2中SDN控制平面的详细内容为:
步骤S1.2.1、SDN控制平面中,SDN网络包括N个控制器和K个交换机,N个控制器集合为C={c1,c2,……,cn},该集合中所有控制器性能相同并将控制器c1设为住控制器,K个交换机集合为E={e1,e2,……,ek};SDN网络划分为N个域,每个域中的网络流量和每个域的负载均为动态变化;
步骤S1.2.4、处理会话请求集合Γt中所有不同的会话请求,得到N个域中各个域的负载和流表使用情况。
3.根据权利要求1所述的SDN环境下基于深度强化学习的智能QoS路由优化方法,其特征在于:所述步骤S1.3的具体过程为:
步骤S1.3.2、将收集到的网络状态st作为输入,代理决定下一跳分配到哪一个交换机,这个动作用at来表示,即:
步骤S1.3.4、深度强化学习时采用Actor-Critic模式,即采用使用决定性策略梯度方法的Actor模块和使用深度Q-learning方法的Critic模块;所述两个模块均包括一个在线网络和一个目标网络,且二者的神经网络结构相同;在线网络将自己的参数传递给目标网络进行目标网络的参数更新;在训练期间,设置一个存储样本数据的缓冲区D,将与环境交互的转换信息存储在D中,神经网络学习从D中随机读取来进行学习;
步骤S1.3.5、首先随机选取缓存区D中存储采用的数据N*(si,ai,ri,si+1),其中,si是初始化状态,ai是网络输出动作,在状态si下执行动作ai,会得到相应的奖励ri和下一时刻状态si+1;然后,初始化在线网络μ(s|θμ)的权重参数为θμ和θQ,在将参数更新到目标网络Q(s,a|θQ),即:
θQ′←θQ,θμ′←θμ
将收集到的环境状态信息st作为Actor在线网络的输入,输出相应的动作at=(st|θμ),最后执行动作获得相应的奖励rt和转移状态st+1,再存储到缓冲区D中;
步骤S1.3.6、对于在线Actor网络μ(s|θμ)输出的动作at=(st|θμ),作为在线Critic网络Q(s,a|θQ)的输入,得到相应的Q-value,然后通过均方误差去计算损失函数,即:
其中,yi表示目标Critic网络获得的Q-value,相应的yi具体表示为:
yi=ri+γ·Q′(si+1,μ′(si+1|θμ′)|θQ′)
其中,γ表示折扣因子用于反映奖励不断衰减的过程;
通过均方误差计算完损失函数之后,再去调整主动Actor网络的权重参数,更新参数的过程为:
最后再对分别对目标网络参数进行更新,即:
θμ′←σθμ+(1-σ)θμ′
θQ′←σθQ+(1-σ)θQ′
θQ′是Critic目标网络的权重参数,θμ′是Actor目标网络的权重参数。
4.一种SDN环境下基于深度强化学习的智能QoS路由优化系统,其特征在于:包括控制平面层和数据平面层,控制平面层中包括多个SDN控制器,数据平面中包括多个媒体服务器、OpenFlow网络以及客户端;
数据平面层包括由支持OpenFlow交换机的转发设备,数据平面报告网络资源的信息、网络状态以及数据的转发;控制平面层由南向接口与数据平面进行交互,通过集中控制来收集网络状态,网络状态发生变化时,控制器根据变化更新网络,调整路由路径;
其中,媒体服务器提供各种多媒体业务;客户端发送业务请求,接收请求视频内容等功能;OpenFlow交换机接收到客户端请求以后将其转发给SDN控制器,SDN控制器与DDPG代理进行交互,执行相应的路由策略,再通过SDN控制器下发流表项到交换机中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011266807.1A CN112491714B (zh) | 2020-11-13 | 2020-11-13 | SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011266807.1A CN112491714B (zh) | 2020-11-13 | 2020-11-13 | SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112491714A true CN112491714A (zh) | 2021-03-12 |
CN112491714B CN112491714B (zh) | 2022-04-08 |
Family
ID=74930302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011266807.1A Active CN112491714B (zh) | 2020-11-13 | 2020-11-13 | SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112491714B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111416771A (zh) * | 2020-03-20 | 2020-07-14 | 深圳市大数据研究院 | 基于多智能体强化学习路由策略控制路由动作的方法 |
CN113098771A (zh) * | 2021-03-26 | 2021-07-09 | 哈尔滨工业大学 | 基于Q学习的分布式自适应QoS路由方法 |
CN113271213A (zh) * | 2021-05-10 | 2021-08-17 | 南京工业大学 | 一种基于sdn的计费网络出口路由选择方法 |
CN113285880A (zh) * | 2021-07-19 | 2021-08-20 | 北京壁仞科技开发有限公司 | 多播路由方法、互连设备、网状网络系统及其配置方法 |
CN113328938A (zh) * | 2021-05-25 | 2021-08-31 | 电子科技大学 | 一种基于深度强化学习的网络自主智能管控方法 |
CN113347108A (zh) * | 2021-05-20 | 2021-09-03 | 中国电子科技集团公司第七研究所 | 一种基于q-学习的sdn负载均衡方法及系统 |
CN114124778A (zh) * | 2021-10-20 | 2022-03-01 | 国电南瑞科技股份有限公司 | 一种基于QoS约束的任播服务源路由方法及装置 |
CN114202066A (zh) * | 2022-02-21 | 2022-03-18 | 北京邮电大学 | 一种网络控制方法、装置、电子设备及存储介质 |
CN114500360A (zh) * | 2022-01-27 | 2022-05-13 | 河海大学 | 一种基于深度强化学习的网络流量调度方法以及系统 |
CN114710439A (zh) * | 2022-04-22 | 2022-07-05 | 南京南瑞信息通信科技有限公司 | 基于深度强化学习的网络能耗与吞吐量联合优化路由方法 |
CN114710433A (zh) * | 2021-12-03 | 2022-07-05 | 航天科工网络信息发展有限公司 | 一种智能路由方法、装置及网络设备 |
CN114866291A (zh) * | 2022-04-18 | 2022-08-05 | 浙江大学 | SDN下基于深度强化学习的DDoS防御系统及方法 |
CN115022231A (zh) * | 2022-06-30 | 2022-09-06 | 武汉烽火技术服务有限公司 | 一种基于深度强化学习的最优路径规划的方法和系统 |
CN115941579A (zh) * | 2022-11-10 | 2023-04-07 | 北京工业大学 | 一种基于深度强化学习的混合路由方法 |
CN116170370A (zh) * | 2023-02-20 | 2023-05-26 | 重庆邮电大学 | 一种基于注意力机制和深度强化学习的sdn多路径路由方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017219890A1 (zh) * | 2016-06-23 | 2017-12-28 | 华为技术有限公司 | 软件定义网络中生成路由控制动作的方法和相关设备 |
CN110611619A (zh) * | 2019-09-12 | 2019-12-24 | 西安电子科技大学 | 一种基于ddpg强化学习算法的智能化路由决策方法 |
CN111010294A (zh) * | 2019-11-28 | 2020-04-14 | 国网甘肃省电力公司电力科学研究院 | 一种基于深度强化学习的电力通信网路由方法 |
-
2020
- 2020-11-13 CN CN202011266807.1A patent/CN112491714B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017219890A1 (zh) * | 2016-06-23 | 2017-12-28 | 华为技术有限公司 | 软件定义网络中生成路由控制动作的方法和相关设备 |
CN110611619A (zh) * | 2019-09-12 | 2019-12-24 | 西安电子科技大学 | 一种基于ddpg强化学习算法的智能化路由决策方法 |
CN111010294A (zh) * | 2019-11-28 | 2020-04-14 | 国网甘肃省电力公司电力科学研究院 | 一种基于深度强化学习的电力通信网路由方法 |
Non-Patent Citations (4)
Title |
---|
兰巨龙等: "基于深度强化学习的软件定义网络QoS优化", 《通信学报》 * |
吴艳: "基于流量分类的智能SDN路由优化技术研究", 《万方学位论文》 * |
王桂芝等: "机器学习在SDN路由优化中的应用研究综述", 《计算机研究与发展》 * |
肖扬等: "一种基于深度强化学习的动态路由算法", 《信息通信技术与政策》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111416771A (zh) * | 2020-03-20 | 2020-07-14 | 深圳市大数据研究院 | 基于多智能体强化学习路由策略控制路由动作的方法 |
CN111416771B (zh) * | 2020-03-20 | 2022-02-25 | 深圳市大数据研究院 | 基于多智能体强化学习路由策略控制路由动作的方法 |
CN113098771A (zh) * | 2021-03-26 | 2021-07-09 | 哈尔滨工业大学 | 基于Q学习的分布式自适应QoS路由方法 |
CN113098771B (zh) * | 2021-03-26 | 2022-06-14 | 哈尔滨工业大学 | 基于Q学习的分布式自适应QoS路由方法 |
CN113271213A (zh) * | 2021-05-10 | 2021-08-17 | 南京工业大学 | 一种基于sdn的计费网络出口路由选择方法 |
CN113347108A (zh) * | 2021-05-20 | 2021-09-03 | 中国电子科技集团公司第七研究所 | 一种基于q-学习的sdn负载均衡方法及系统 |
CN113328938B (zh) * | 2021-05-25 | 2022-02-08 | 电子科技大学 | 一种基于深度强化学习的网络自主智能管控方法 |
CN113328938A (zh) * | 2021-05-25 | 2021-08-31 | 电子科技大学 | 一种基于深度强化学习的网络自主智能管控方法 |
CN113285880A (zh) * | 2021-07-19 | 2021-08-20 | 北京壁仞科技开发有限公司 | 多播路由方法、互连设备、网状网络系统及其配置方法 |
CN114124778A (zh) * | 2021-10-20 | 2022-03-01 | 国电南瑞科技股份有限公司 | 一种基于QoS约束的任播服务源路由方法及装置 |
CN114124778B (zh) * | 2021-10-20 | 2023-03-14 | 国电南瑞科技股份有限公司 | 一种基于QoS约束的任播服务源路由方法及装置 |
CN114710433A (zh) * | 2021-12-03 | 2022-07-05 | 航天科工网络信息发展有限公司 | 一种智能路由方法、装置及网络设备 |
CN114500360A (zh) * | 2022-01-27 | 2022-05-13 | 河海大学 | 一种基于深度强化学习的网络流量调度方法以及系统 |
CN114202066A (zh) * | 2022-02-21 | 2022-03-18 | 北京邮电大学 | 一种网络控制方法、装置、电子设备及存储介质 |
CN114202066B (zh) * | 2022-02-21 | 2022-04-26 | 北京邮电大学 | 一种网络控制方法、装置、电子设备及存储介质 |
CN114866291A (zh) * | 2022-04-18 | 2022-08-05 | 浙江大学 | SDN下基于深度强化学习的DDoS防御系统及方法 |
CN114866291B (zh) * | 2022-04-18 | 2023-06-23 | 浙江大学 | SDN下基于深度强化学习的DDoS防御系统及方法 |
CN114710439A (zh) * | 2022-04-22 | 2022-07-05 | 南京南瑞信息通信科技有限公司 | 基于深度强化学习的网络能耗与吞吐量联合优化路由方法 |
CN114710439B (zh) * | 2022-04-22 | 2024-05-28 | 南京南瑞信息通信科技有限公司 | 基于深度强化学习的网络能耗与吞吐量联合优化路由方法 |
CN115022231A (zh) * | 2022-06-30 | 2022-09-06 | 武汉烽火技术服务有限公司 | 一种基于深度强化学习的最优路径规划的方法和系统 |
CN115022231B (zh) * | 2022-06-30 | 2023-11-03 | 武汉烽火技术服务有限公司 | 一种基于深度强化学习的最优路径规划的方法和系统 |
CN115941579A (zh) * | 2022-11-10 | 2023-04-07 | 北京工业大学 | 一种基于深度强化学习的混合路由方法 |
CN115941579B (zh) * | 2022-11-10 | 2024-04-26 | 北京工业大学 | 一种基于深度强化学习的混合路由方法 |
CN116170370A (zh) * | 2023-02-20 | 2023-05-26 | 重庆邮电大学 | 一种基于注意力机制和深度强化学习的sdn多路径路由方法 |
CN116170370B (zh) * | 2023-02-20 | 2024-03-12 | 重庆邮电大学 | 一种基于注意力机制和深度强化学习的sdn多路径路由方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112491714B (zh) | 2022-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112491714B (zh) | SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 | |
Yao et al. | NetworkAI: An intelligent network architecture for self-learning control strategies in software defined networks | |
Guo et al. | Deep-reinforcement-learning-based QoS-aware secure routing for SDN-IoT | |
Chen-Xiao et al. | Research on load balance method in SDN | |
CN112600759B (zh) | 基于深度强化学习在Overlay网络下多路径流量调度方法及系统 | |
CN111010294A (zh) | 一种基于深度强化学习的电力通信网路由方法 | |
Yao et al. | Machine learning aided load balance routing scheme considering queue utilization | |
CN112437020A (zh) | 一种基于深度强化学习的数据中心网络负载均衡方法 | |
CN111245718A (zh) | 一种基于sdn情景感知的路由优化方法 | |
CN111010341B (zh) | 一种基于深度学习的覆盖网络路由决策方法 | |
CN114710437B (zh) | 一种结合区块链的物联网边缘网络路由系统 | |
CN115714741A (zh) | 一种基于协同多智能体强化学习的路由决策方法及系统 | |
CN116599904A (zh) | 并行传输负载均衡装置及方法 | |
Mai et al. | Packet routing with graph attention multi-agent reinforcement learning | |
Jin et al. | A congestion control method of SDN data center based on reinforcement learning | |
CN110535770B (zh) | 一种SDN环境下基于QoS感知的视频流智能路由方法 | |
Yang et al. | Comparative analysis of routing schemes based on machine learning | |
Fawaz et al. | Graph convolutional reinforcement learning for collaborative queuing agents | |
CN115225512B (zh) | 基于节点负载预测的多域服务链主动重构机制 | |
Wei et al. | G-Routing: Graph Neural Networks-Based Flexible Online Routing | |
CN116389347A (zh) | 一种基于强化学习的动态sdn路由优化算法 | |
CN115037669A (zh) | 一种基于联邦学习的跨域数据传输方法 | |
CN117240774B (zh) | 一种跨域智能sdn路由方法 | |
Li et al. | DRNet: QoS-aware Routing for SDN using Deep Reinforcement Learning | |
CN117294643B (zh) | 一种基于SDN架构的网络QoS保障路由方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |