CN112491714A - SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 - Google Patents

SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 Download PDF

Info

Publication number
CN112491714A
CN112491714A CN202011266807.1A CN202011266807A CN112491714A CN 112491714 A CN112491714 A CN 112491714A CN 202011266807 A CN202011266807 A CN 202011266807A CN 112491714 A CN112491714 A CN 112491714A
Authority
CN
China
Prior art keywords
network
sdn
switch
flow table
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011266807.1A
Other languages
English (en)
Other versions
CN112491714B (zh
Inventor
孔令彪
崔杰
杨明
仲红
许艳
马建峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN202011266807.1A priority Critical patent/CN112491714B/zh
Publication of CN112491714A publication Critical patent/CN112491714A/zh
Application granted granted Critical
Publication of CN112491714B publication Critical patent/CN112491714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/302Route determination based on requested QoS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/46Interconnection of networks
    • H04L12/4633Interconnection of networks using encapsulation techniques, e.g. tunneling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/14Routing performance; Theoretical aspects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/16Multipoint routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种SDN环境下基于深度强化学习的智能QoS路由优化方法、系统,首先将网络中所有流媒体服务表示为一个服务请求集合,然后对其中每一个请求,从流媒体服务器到异构客户端寻找满足网络服务质量的路径,依次确定出每一个流请求的路由,最后采用一种QoS路由优化算法构建出组播树。对于网络拥塞链路或者是恶意节点,通过深度强化学习的方法可以寻找出当前最合适的下一节点进行路由。通过采用深度学习和强化学习结合的方法,本发明可以有效地减少视频流的传输时延并提高路由决策的准确性。同时,本发明采用了分布式控制平面的设计,并可以在各种网络拓扑在实现,不仅可以避免网络网络拥塞,提高了网络的可扩展性,而且减少与单一控制器的交互,提高了网络的整体效用。

Description

SDN环境下基于深度强化学习的智能QoS路由优化方法、系统
技术领域
本发明属于网络路由优化技术,具体涉及一种SDN环境下基于深度强化学习 的智能QoS路由优化方法、系统。
背景技术
近些年来,伴随着互联网的蓬勃发展,网络应用越来越多,网络流量呈爆炸 式增长。随着网络规模和用户数量的快速增长,网络结构也越来越复杂,网络安 全和路由优化面临着越来越大的挑战。同时,针对异构终端用户的新型网络应用 服务应运而生,例如,网络电视,在线游戏,视频会议等多媒体流应用在互联网 上变得越来越流行,网络数据的急剧增加导致了网络管理设备变量复杂。随着网 络的灵活性的提升,也给网络资源的管控带来前所未有的挑战。另外,在一些实 时多媒体的应用场景当中,传统网络中的多媒体服务器仅凭单播模式将相同的视 频流传输到异构客户端。但是,单播传输模式会产生冗余流量并浪费大量的网络 带宽,因此,利用组播传输模式可以有效地减少网络流量并降低网络的负载。
在传统网络中,控制和转发紧紧耦合的网络架构与“尽力而为”的服务模式, 需要在不同的路由节点上执行相关的路由协议和算法来找到源到目的节点的最 佳路径。正是因为传统网络分布式体系,使得每个节点只具有部分网络视图,导 致很多全局的路由策略难以部署,所以很难进行智能QoS路由,而软件定义网 络(Software-Define Networking)作为一种新的体系架构(如图1所示)。
目前,在调研到的SDN环境下的智能QoS路由优化方案中,主要分为启发 式方法和机器学习方法两种。通过建模来近似拟合当前的网络状态,并采用启发 式方法来为多媒体流请求实时计算路由配置,缺点是具有严格的适用场景,计算 开销巨大,难以应对未来实时高动态的网络环境;然而,多媒体流应用,特别是 实时视频流应用,通常对视频流的传输有严格的端到端的时延限制,从而保证用 户的网络质量服务体验。
与传统方法相比,深度学习适用于处理不规则,大规模非线性问题,在许多 复杂问题上具有无可比拟的优势。同时,采用与网络环境交互更好的深度强化学 习模型,来实现网络流量的实时智能控制。
因此,如何在SDN网络架构下利用全局网络拓扑视图实现智能的QoS路由 优化,在满足QoS要求的同时,进而保障用户的网络服务质量体验,成为当下 研究需要解决的问题。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种SDN 环境下基于深度强化学习的智能QoS路由优化方法、系统;本发明在SDN多媒体 系统模型上基于深度强化学习算法设计的智能QoS路由优化方法,从而保证用户 的网络服务质量体验。由于在一些实时的视频流应用场景中,不仅网络业务具有 高带宽,而且用户对端到端的时延也具有很严格的要求,因此,本发明无需专注 SDN多媒体系统模型的设计。同时本发明使用了分布式控制平面的设计,从而解 决了单点的脆弱性问题,同时提高网络的可扩展性;另外,在QoS路由过程考虑 了链路时延和网络拥塞情况,从而有效地改善了网络的负载。
技术方案:本发明的一种SDN环境下基于深度强化学习的智能QoS路由优 化方法,包括以下步骤:
步骤S1:深度强化学习训练
本发明优化深度强化学习方法,并采用其深度确定性策略梯度DDPG模型, 将基于策略的强化学习和基于价值的强化学习方法结合,然后利用神经网络生成 策略函数和价值估计函数来输出稳定的连续动作;其中μ和Q分别表示确定性 策略函数和价值估计函数,并由神经网络形成;具体步骤如下:
步骤S1.1、媒体服务器Media Server提供相应多媒体业务(包括视频、音频 等),且所述多媒体业务通过OpenFlow网络进行传输;
步骤S1.2、SDN控制器中视频管理模块接收多媒体业务的会话请求,多媒 体业务的会话请求集合为Γt
Figure BDA0002776327300000021
集合Γt中的每一个具体会话 请求则表示为
Figure BDA0002776327300000022
k是会话请求的索引,vk表示传输第k个会话请 求的视频服务器,ck表示第k个会话请求的客户端,bk表示第k个会话请求的带 宽大小;k∈[1,n];
所述步骤S1.2中SDN控制平面的详细内容为:
步骤S1.2.1、SDN控制平面中,SDN网络包括N个控制器和K个交换机, N个控制器集合为C={c1,c2,……,cn},该集合中所有控制器性能相同并将控制 器c1设为住控制器,K个交换机集合为E={e1,e2,……,ek};SDN网络划分为N个 域,每个域中的网络流量和每个域的负载均为动态变化;
步骤S1.2.2、对于每个会话请求
Figure BDA0002776327300000031
在每个时间间隔内,统 计每个交换机ei发送的Packet_In消息数目
Figure BDA0002776327300000032
和每个交换机中流表的占有率
Figure BDA0002776327300000033
步骤S1.2.3、在每个时间间隔内,统计不同控制器cn的消息数目
Figure BDA0002776327300000034
和流表占 用率
Figure BDA0002776327300000035
Figure BDA0002776327300000036
Figure BDA0002776327300000037
其中,
Figure BDA0002776327300000038
Figure BDA0002776327300000039
表示交换机ei的流表大小,
Figure BDA00027763273000000310
表 示占用流表的数目;|ci|表示ci控制器下包括的交换机数目;
步骤S1.2.4、处理会话请求集合Γt中所有不同的会话请求,得到N个域中各 个域的负载和流表使用情况;
步骤S1.3、使用与SDN控制器相连的DDPG代理进行智能路由决策,SDN 控制器定期向DDPG提供用于训练的流量数据;且在训练期间,将与环境每次 交互后的状态信息(st,at,rt,st+1)存储于经验池,神经网络的学习批次 N*(si,ai,ri,s+1)由从经验池中采样的数据组成,i是指数据的索引下标;其中, st是t时刻的网络状态,at和st+1分别表示在st网络状态下采取的动作和转换的状 态,rt表示网络状态转换后获得的回报;
步骤S1.3.1、通过控制平面收集网络状态st,包括链路带宽
Figure BDA00027763273000000311
控制负 载
Figure BDA00027763273000000312
以及流表占用率
Figure BDA00027763273000000313
步骤S1.3.2、将收集到的网络状态st作为输入,代理决定下一跳分配到哪一 个交换机,这个动作用at来表示,即:
Figure BDA00027763273000000314
其中,
Figure BDA00027763273000000315
表示一个向量,有
Figure BDA00027763273000000316
Figure BDA00027763273000000317
表示 交换机ei和ej的连接关系,当
Figure BDA00027763273000000318
时,表示ej被分配为ei下一跳节点的权 值大小,反之
Figure BDA00027763273000000319
时,即交换机ej与交换机ei节点无连接关系;
步骤S1.3.3、代理在强化学习中根据奖励Qπ(st,at)来评估行动的准确性,并 以此来改进策略π(st,at),奖励的指标包括流表占用率
Figure BDA0002776327300000041
转发延迟
Figure BDA0002776327300000042
链路 丢包率
Figure BDA0002776327300000043
以及控制器负载
Figure BDA0002776327300000044
所有指标的权重之和,即为:
Figure BDA0002776327300000045
其中,|k|表示在时间t接收到的会话请求的总数,0<α<1表示权重因子,
Figure BDA0002776327300000046
表示控制负载奖励,
Figure BDA0002776327300000047
表示网络服务质量奖励;
对于
Figure BDA0002776327300000048
由不同节点以及节点所在的域决定,控制器的负载越大,获得的 奖励就会越少,
Figure BDA0002776327300000049
可表示为:
Figure BDA00027763273000000410
对于
Figure BDA00027763273000000411
是基于链路质量设计的QoS奖励,转发延迟和链路的丢包率越大, 获得的奖励就会减少,反之亦反,
Figure BDA00027763273000000412
可表示为:
Figure BDA00027763273000000413
其中,
Figure BDA00027763273000000414
是交换机ei和交换机ej之间的传输延迟,
Figure BDA00027763273000000415
是交换机ei和交换 机ej之间的丢包率;
步骤S1.3.4、深度强化学习时采用Actor-Critic模式,即采用使用确定性策 略梯度方法的Actor模块和使用深度Q-learning方法的Critic模块;所述两个模 块均包括一个在线网络(Primary Network)和一个目标网络(Target Network), 且二者的神经网络结构相同;在线网络将自己的参数传递给目标网络进行目标网 络的参数更新;在训练期间,设置一个存储样本数据的缓冲区D,将与环境交互 的转换信息存储在D中,神经网络学习从D中随机读取来进行学习;
步骤S1.3.5、首先随机选取缓存区D中存储采用的数据N*(si,ai,ri,si+1), 其中,si是初始化状态,ai是网络输出动作,在状态si下执行动作ai,会得到相 应的奖励ri和下一时刻状态si+1;然后,初始化在线网络μ(s|θμ)的权重参数为θμ 和θQ,在将参数更新到目标网络Q(s,a|θQ),即:
θQ′←θQμ′←θμ
将收集到的环境状态信息st作为Actor在线网络的输入,输出相应的动作 at=(stμ),最后执行动作获得相应的奖励rt和转移状态st+1,再存储到缓冲区 D中;
步骤S1.3.6、对于在线Actor网络μ(s|θμ)输出的动作at=(stμ),作为在 线Critic网络Q(s,a|θQ)的输入,得到相应的Q-value,然后通过均方误差去计算 损失函数,即:
Figure BDA0002776327300000051
其中,yi表示目标Critic网络获得的Q-value,相应的yi具体表示为:
yi=ri+γ·Q′(si+1,μ′(si+1μ′)|θQ′)
其中,γ表示折扣因子用于反映奖励不断衰减的过程;
通过均方误差计算完损失函数之后,再去调整主动Actor网络的权重参数, 更新参数的过程为:
Figure BDA0002776327300000052
最后再对分别对目标网络参数进行更新,即:
θμ′←σθμ+(1-σ)θμ′
θQ′←σθQ+(1-σ)θQ′
θQ′是Critic目标网络的权重参数,
θμ′是Actor目标网络的权重参数。
步骤S1.4、SDN控制器中的QoS路由管理模块与DDPG代理交互,即:DDPG 代理为每个会话请求找到合适的动作之后,再由SDN控制器中的QoS路由管理 模块转换成具体的相应流表指令下发到OpenFlow交换机中执行;
本发明的深度强化学习训练完成后,会得到最优的路由策略,也就是传输路 径,得到是连续的交换机节点,再将其转换成流表项下发到交换机中,QoS路由 管理模块将合适的动作转为为流表规则。
步骤S2:QoS路由优化
通过从SDN网络中获取全局网络状态,然后SDN控制器生成网络策略动作, 选择不同的路由路径,再由控制平面基于相应路由路径下发相应的规则(即组表、 流表),按照集合顺序依次对流量路由;具体步骤如下:
步骤S2.1、客户端发送请求消息到数据平面的OpenFlow交换机中,交换机 检查是否有与流相匹配的流表项,如果流表项存在,则根据流表项执行转发,否 则,发送Packet_In消息到SDN控制器中,然后SDN控制器接收代理训练完成 后的动作,再按照相应的策略部署新的流表项到OpenFlow交换机中,获得更加 合理的路由;
步骤S2.2、SDN控制器按照相应时间周期获取网络状态信息,时间间隔根 据网络变化来设定,每获取一次网络状态,就相应进行一次路由优化,并按照路 由策略去配置相应的流表;上述过程中,对于相同网络业务的会话请求,则下发 配置相应的组表和流表进行组播传输,对于不同网络业务的请求,则配置相应的 流表项进行单播传输。组表和流表的下发操作是仿真环境中基本的指令操作,通 过相应命令实现。
本发明还公开一种SDN环境下基于深度强化学习的智能QoS路由优化系统, 包括控制平面层和数据平面层,控制平面层中包括多个SDN控制器,数据平面 中包括多个媒体服务器、OpenFlow网络以及客户端;
数据平面层包括由支持OpenFlow交换机的转发设备,数据平面报告网络资 源的信息、网络状态以及数据的转发;控制平面层由南向接口与数据平面进行交 互,通过集中控制来收集网络状态,网络状态发生变化时,控制器根据变化更新 网络,调整路由路径;
其中,媒体服务器提供各种多媒体业务;客户端发送业务请求,接收请求视 频内容等功能;OpenFlow交换机接收到客户端请求以后将其转发给SDN控制器, SDN控制器与DDPG代理进行交互,执行相应的路由策略,再通过SDN控制器 下发流表项到交换机中。
有益效果:与现有技术相比,本发明具有以下优点:
1、本发明采用分布式控制平面设计方式来传输实时视频流。OpenFlow交换 机一旦收到与之非对应流表条目匹配的数据包,就需要将该数据包的头封装成一 个报文中的数据包,发送给控制器进行路由和流表条目安装。因此,报文中数据 包的数量可能导致控制器负载增加,控制器可能会达到性能瓶颈。与单一的控制 器平面的域内传输相比,本发明采用多个控制器的分布式控制平面上进行数据平 面的管理,解决单一集中式控制器中的可伸缩性问题。
2、本发明考虑传输流量过程中的网络负载以及SDN交换机内存大小 (TCAM)的限制因素,根据本发明中的深度确定性策略梯度模型,优化网络负 载奖励和网络QoS奖励来评估行动的有效性,提高整个SDN网络的可靠性;
3、本发明采用深度强化学习来解决SDN路由问题,相比传统启发式算法, 需要简化建立数学模型并针对优化问题求解,具有较高的计算时间成本而言,深 度强化学习方法只需要设计不同网络决策和优化目标,无需精确可解的数学模型, 同时可以处理复杂的网络状态,从而减少了网络传输时延,解决大规模网络决策 问题,提供了更好的网络服务质量。
附图说明
图1为现有技术中的SDN架构示意图;
图2为本发明的分布式控制平面示意图;
图3为本发明的网络模型系统架构图;
图4为本发明中消息交互时间图;
图5为本发明的整体流程图;
图6为本发明中数据采集阶段流程图;
图7为本发明中深度强化学习训练阶段流程图;
图8为本发明中QoS路由阶段流程图;
图9为本发明中实施例的网络拓扑示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述 实施例。
如图3至图8所示,本发明,本发明的一种SDN环境下基于深度强化学习 的智能QoS路由优化方法,包括以下步骤:
步骤S1:深度强化学习训练
优化深度强化学习方法,并采用其深度确定性策略梯度DDPG模型,将基 于策略的强化学习和基于价值的强化学习方法结合,然后利用神经网络生成策略 函数和价值估计函数来形成稳定的连续动作,其中μ和Q分别表示确定性策略函 数和价值估计函数,并由神经网络形成;具体步骤如下:
步骤S1.1、媒体服务器Media Server提供相应多媒体业务(包括视频、音频 等),且所述多媒体业务通过OpenFlow网络进行传输;
步骤S1.2、SDN控制器中视频管理模块接收多媒体业务的会话请求,多媒 体业务的会话请求集合为Γt
Figure BDA0002776327300000081
集合Γt中的每一个具体会话 请求则表示为
Figure BDA0002776327300000082
k是会话请求的索引,vk表示传输第k个会话请 求的视频服务器,ck表示第k个会话请求的客户端,bk表示第k个会话请求的带 宽大小;k∈[1,n];
所述步骤S1.2中SDN控制平面的详细内容为:
步骤S1.2.1、SDN控制平面中,SDN网络包括N个控制器和K个交换机, N个控制器集合为C={c1,c2,……,cn},该集合中所有控制器性能相同并将控制 器c1设为住控制器,K个交换机集合为E={e1,e2,……,en};SDN网络划分为N个 域,每个域中的网络流量和每个域的负载均为动态变化;
步骤S1.2.2、对于每个会话请求
Figure BDA0002776327300000083
在每个时间间隔内,统 计每个交换机ei发送的Packet_In消息数目
Figure BDA0002776327300000084
和每个交换机中流表的占有率
Figure BDA0002776327300000085
步骤S1.2.3、统计不同控制器cn的消息数目
Figure BDA0002776327300000086
和流表占用率
Figure BDA0002776327300000087
Figure BDA0002776327300000088
Figure BDA0002776327300000089
其中,
Figure BDA00027763273000000810
Figure BDA00027763273000000811
表示交换机ei的流表大小,
Figure BDA00027763273000000812
表 示占用流表的数目;
步骤S1.2.4、处理会话请求集合Γt中所有不同的会话请求,得到N个域中各 个域的负载和流表使用情况;
步骤S1.3、使用与SDN控制器相连的DDPG代理进行智能路由决策,SDN 控制器定期向DDPG提供用于训练的流量数据;且在训练期间,将与环境每次 交互后的状态信息(st,at,rt,st+1)存储于经验池,神经网络的学习批次 N*(si,ai,ri,si+1)由从经验池中采样的数据组成;其中,st是t时刻的网络状态,at和st+1分别表示在st状态下采取的动作和转换的状态,rt表示状态转换后获得的 回报;
步骤S1.3.1、通过控制平面收集网络状态st,包括链路带宽
Figure BDA0002776327300000091
控制负 载
Figure BDA0002776327300000092
以及流表占用率
Figure BDA0002776327300000093
步骤S1.3.2、将收集到的网络状态st作为输入,主体决定下一跳分配到哪一
个交换机,这个动作用at来表示,即:
Figure BDA0002776327300000094
其中,
Figure BDA0002776327300000095
表示一个向量,有
Figure BDA0002776327300000096
Figure BDA0002776327300000097
表示 交换机ei和ej的连接关系,当
Figure BDA0002776327300000098
时,表示ej被分配为ei下一跳节点的权 值大小,反之
Figure BDA0002776327300000099
时,即ej与ei节点无连接关系;
步骤S1.3.3、主体在强化学习中根据奖励Qπ(st,at)来评估行动的准确性,并 以此来改进策略π(st,at),奖励的指标包括流表占用率
Figure BDA00027763273000000910
转发延迟
Figure BDA00027763273000000911
链路 丢包率
Figure BDA00027763273000000912
以及控制器负载
Figure BDA00027763273000000913
所有指标的权重之和,即为:
Figure BDA00027763273000000914
其中,h为控制器在时间t接收到的所有请求数目,0<α<1表示权重因子,
Figure BDA00027763273000000915
表示控制负载奖励,
Figure BDA00027763273000000916
表示网络服务质量奖励;
对于
Figure BDA00027763273000000917
由不同节点以及节点所在的域决定,控制器的负载越大,获得的 奖励就会越少,
Figure BDA00027763273000000918
可表示为:
Figure BDA00027763273000000919
对于
Figure BDA00027763273000000920
是基于链路质量设计的QoS奖励,转发延迟和链路的丢包率越大, 获得的奖励就会减少,反之亦反,
Figure BDA00027763273000000921
可表示为:
Figure BDA00027763273000000922
其中,
Figure BDA00027763273000000923
是交换机ei和交换机ej之间的传输延迟,
Figure BDA00027763273000000924
是交换机ei和交换 机ej之间的丢包率;
步骤S1.3.4、深度强化学习时采用Actor-Critic模式,即采用使用确定性策 略梯度方法的Actor模块和使用深度Q-learning方法的Critic模块;所述两个模 块均包括一个在线网络(Primary Network)和一个目标网络(Target Network), 且二者的神经网络结构相同;在线网络将自己的参数传递给目标网络进行目标网 络的参数更新;在训练期间,设置一个存储样本数据的缓冲区D,将与环境交互 的转换信息存储在D中,神经网络学习从D中随机读取来进行学习;
步骤S1.3.5、首先随机选取缓存区D中存储采用的数据N*(si,ai,ri,si+1), 其中,si是初始化状态,ai是网络输出动作,在状态si下执行动作ai,会得到相 应的奖励ri和下一时刻状态si+1;然后,初始化在线网络μ(s|θμ)的权重参数为θμ 和θQ,在将参数更新到目标网络Q(s,a|θQ),即:
θQ′←θQμ′←θμ
将收集到的环境状态信息st作为Actor在线网络的输入,输出相应的动作 at=(stμ),最后执行动作获得相应的奖励rt和转移状态st+1,再存储到缓冲区 D中;
步骤S1.3.6、对于在线Actor网络μ(s|θμ)输出的动作at=(stμ),作为在 线Critic网络Q(s,a|θQ)的输入,得到相应的Q-value,然后通过均方误差去计算 损失函数,即:
Figure BDA0002776327300000101
其中,yi表示目标Critic网络获得的Q-value,相应的yi具体表示为:
yi=ri+γ·Q′(si+1,μ′(si+1μ′)|θQ′)
其中,γ表示折扣因子用于反映奖励不断衰减的过程;
通过均方误差计算完损失函数之后,再去调整主动Actor网络的权重参数, 更新参数的过程为:
Figure BDA0002776327300000102
最后再对分别对目标网络参数进行更新,即:
θμ′←σθμ+(1-σ)θμ′
θQ′←σθQ+(1-σ)θQ′
步骤S1.4、SDN控制器中的QoS路由管理模块与DDPG代理交互,即:DDPG 代理为每个会话请求找到合适的动作之后,再由SDN控制器中的QoS路由管理 模块转换成具体的相应流表指令下发到OpenFlow交换机中执行;
步骤S2:QoS路由优化
通过从SDN网络中获取全局网络状态,然后SDN控制器生成网络策略动作, 选择不同的路由路径,再由控制平面基于相应路由路径下发相应的规则(即组表、 流表),按照集合顺序依次对流量路由;具体步骤如下:
步骤S2.1、客户端发送请求消息到数据平面的OpenFlow交换机中,交换机 检查是否有与流相匹配的流表项,如果流表项存在,则根据流表项执行转发,否 则,发送Packet_In消息到SDN控制器中,然后SDN控制器接收代理训练完成 后的动作,再按照相应的策略部署新的流表项到OpenFlow交换机中,获得更加 合理的路由;
步骤S2.2、SDN控制器按照相应时间周期获取网络状态信息,时间间隔根 据网络变化来设定。,每获取一次网络状态,就相应进行一次路由优化,并按照 路由策略去配置相应的流表;上述过程中,对于相同网络业务的请求,则配置相 应的组表和流表进行组播传输,对于不同网络业务的请求,则配置相应的流表项 进行单播传输。
如图4所示,本发明中,深度强化学习模块包括环境(environment)、主体(agent)、状态(state)、动作(action)以及奖励(reward)。
所述深度强化学习设置包括两个基本的部分:环境和代理。SDN的多媒体 系统环境主要包括:多媒体服务器、异构客户端和OpenFlow网络三个部分;代 理用于与网络环境交互,类似于软件定义网络的应用层,通过与控制器交互来收 集网络状态,做出决策和采取行动。经过神经网络训练,代理根据历史交互记录 学习到的足够多的数据,为实时多媒体服务提供最优路由策略。
所述深度强化学习的状态空间反映网络环境的变化。对于视频流传输问题, 环境状态是指流量的变化,它包括链路带宽、数据包的丢失率、延迟和抖动。
所述深度强化学习代理的任务是将状态空间映射到动作空间的过程。其中, 任一个动作都是在每种状态下可供选择的下一跳集合,来确定最优的路由策略。 当代理使用路由策略在某个状态下执行某个动作之后,当前状态就会转移到下一 个状态。
基于当前状态和动作,主体从环境中获得奖励。不同的网络优化目标,可以 定义不同的奖励机制,采取不同的行动也会获得不同的奖励。当主体执行相应的 策略π(st,at),即由初始状态执行一系列的行动后,主体就会得到一个累计奖励 Qπ(st,at),通过学习找到最大化累计奖励来确定最优策略。
如图2所示,,本实施例的SDN环境下基于深度强化学习的智能QoS路由优 化系统,参与角色包括SDN控制器,视频服务器,OpenFlow交换机和客户端。 其中,视频服务器(Media Server)提供各种多媒体业务,如视频、音频等,客 户端负责发送请求,接收视频内容,交换机接收到请求以后将其发送给控制器, 控制器负责与深度强化学习主体进行交互,并下发相应路由策略。
实施例:
实验环境:本实施例中的SDN控制器采用Floodlight1.2,网络拓扑搭建采 用网络仿真器Mininet2.3,使用Python程序实现深度强化学习的代理,选择Iperf 工具来模拟网络业务的传输。
网络拓扑:如图9所示,在Mininet网络仿真软件中部署真实的NSFNET网 络,包含13个交换机节点和20条链路,其中,节点0作为源节点,连接着视频 服务器,8,9,11,12,13作为5个连接客户端的节点,2,4,7作为拥塞节点。
实验参数:服务器(server)负责发送视频流量,视频比特率大小设置为1Mbps, 传输过程中允许的最大时延和抖动分别设置为150ms和30ms。深度强化学习中 神经网络参数设置如下:奖励折扣因子γ=0.9,奖励函数权重因子α=0.5,学 习率δ=0.1,目标网络参数更新σ=0.01,训练批处理大小m=64。
实施过程:
1、首先,设置好主动网络和目标网络参数信息,再将缓冲区D初始化,对 于每一次的迭代过程,去观察采取的行动,执行行动之后获得的奖励以及转换的 状态,然后将状态,行动,奖励和转移状态存储在缓冲区中。其次,从缓存区D 中随机读取一定批量的数据进行训练,计算目标Critic网络Q值,再通过损失函 数以及策略迭代方法去更新主动Critic网络和主动Actor网络,找到累计Q值最 大的行动,最后更新目标网络的参数。
2、通过训练完成神经网络可以直接获得路由策略,然后将获得的路由策略 转换成相应的流表项安装到交换机中,在使用Iperf工具发送视频流量到5个不 同的客户端,发送视频流量大小1Mbps,持续发包时间为200s,测量所有客户 端的平均丢包率以及链路时延大小。
通过上述实施例可以看出,本发明使用分布式控制器平面设计提供的全局网 络拓扑为深度学习代理提供网络状态,从而减少控制平面的单点故障问题,提高 网络的可扩展性。
在构建网络业务传输路径过程中,本发明充分考虑交换机TCAM空间大小 以及流表的占用率,从而有效地利用了流表空间,减少网络传输过程中的时延和 丢包率情况,提高网络的可靠性和可扩展性;同时,本发明使用深度强化学习算 法,大大避免网络拥塞出现的情况,降低传输过程中端到端的时延,从而提高用 户的网络服务质量体验。

Claims (4)

1.一种SDN环境下基于深度强化学习的智能QoS路由优化方法,其特征在于:包括以下步骤:
步骤S1:深度强化学习训练
步骤S1.1、媒体服务器Media Server提供相应多媒体业务,且所述多媒体业务通过OpenFlow网络进行传输;
步骤S1.2、SDN控制器中视频管理模块接收多媒体业务的会话请求,多媒体业务的会话请求集合为Γt
Figure FDA0002776327290000011
集合Γt中的每一个具体会话请求则表示为
Figure FDA0002776327290000012
k是会话请求的索引,vk表示传输第k个会话请求的视频服务器,ck表示第k个会话请求的客户端,bk表示第k个会话请求的带宽大小;k∈[1,n];
步骤S1.3、使用与SDN控制器相连的DDPG代理进行智能路由决策,SDN控制器定期向DDPG代理提供用于训练的流量数据;且在训练期间,将与环境每次交互后的状态信息(st,at,rt,st+1)存储于经验池,神经网络的学习批次N*(si,ai,ri,si+1)由从经验池中采样的数据组成;其中,st是t时刻的网络状态,at和st+1分别表示在st网络状态下采取的动作和转换的状态,rt表示网络状态转换后获得的回报;
步骤S1.4、SDN控制器中的QoS路由管理模块与DDPG代理交互,即:DDPG代理为每个会话请求找到合适的动作之后,再由SDN控制器中的QoS路由管理模块转换成具体的相应流表指令下发到OpenFlow交换机中执行;
步骤S2:QoS路由优化
通过从SDN网络中获取全局网络状态,然后SDN控制器生成网络策略动作,选择不同的路由路径,再由控制平面基于相应路由路径下发相应的规则,按照集合顺序依次对流量路由;具体步骤如下:
步骤S2.1、客户端发送请求消息到数据平面的OpenFlow交换机中,交换机检查是否有与流相匹配的流表项,如果流表项存在,则根据流表项执行转发,否则,发送Packet_In消息到SDN控制器中,然后SDN控制器接收DDPG代理训练完成后的动作,再按照相应的策略部署新的流表项到OpenFlow交换机中,获得更加合理的路由;
步骤S2.2、SDN控制器按照相应时间周期获取网络状态信息,每获取一次网络状态,就相应进行一次路由优化,并按照路由策略去配置相应的流表;
上述过程中,对于相同网络业务的会话请求,则下发相应的组表和流表进行组播传输,对于不同网络业务的请求,则配置相应的流表项进行单播传输。
2.根据权利要求1所述的SDN环境下基于深度强化学习的智能QoS路由优化方法,其特征在于:所述步骤S1.2中SDN控制平面的详细内容为:
步骤S1.2.1、SDN控制平面中,SDN网络包括N个控制器和K个交换机,N个控制器集合为C={c1,c2,……,cn},该集合中所有控制器性能相同并将控制器c1设为住控制器,K个交换机集合为E={e1,e2,……,ek};SDN网络划分为N个域,每个域中的网络流量和每个域的负载均为动态变化;
步骤S1.2.2、对于每个会话请求
Figure FDA0002776327290000021
在每个时间间隔内,统计每个交换机ei发送的Packet_In消息数目
Figure FDA0002776327290000022
和每个交换机中流表的占用率
Figure FDA0002776327290000023
步骤S1.2.3、在每个时间间隔内,统计不同控制器cn的消息数目
Figure FDA0002776327290000024
和流表占用率
Figure FDA0002776327290000025
Figure FDA0002776327290000026
Figure FDA0002776327290000027
其中,
Figure FDA0002776327290000028
Figure FDA0002776327290000029
表示交换机ei的流表大小,
Figure FDA00027763272900000210
表示占用流表的数目;|ci|表示ci控制器下包括的交换机数目;
步骤S1.2.4、处理会话请求集合Γt中所有不同的会话请求,得到N个域中各个域的负载和流表使用情况。
3.根据权利要求1所述的SDN环境下基于深度强化学习的智能QoS路由优化方法,其特征在于:所述步骤S1.3的具体过程为:
步骤S1.3.1、通过控制平面收集网络状态st,包括链路带宽
Figure FDA00027763272900000211
控制负载
Figure FDA00027763272900000212
以及流表占用率
Figure FDA00027763272900000213
步骤S1.3.2、将收集到的网络状态st作为输入,代理决定下一跳分配到哪一个交换机,这个动作用at来表示,即:
Figure FDA00027763272900000214
其中,
Figure FDA0002776327290000031
表示一个向量,有
Figure FDA0002776327290000032
Figure FDA0002776327290000033
表示交换机ei和ej的连接关系,当
Figure FDA0002776327290000034
时,表示ej被分配为ei下一跳节点的权值大小,反之
Figure FDA0002776327290000035
时,即交换机ej与交换机ei节点无连接关系;
步骤S1.3.3、代理在强化学习中根据奖励Qπ(st,at)来评估行动的准确性,并以此来改进策略π(st,at),奖励的指标包括流表占用率
Figure FDA0002776327290000036
转发延迟
Figure FDA0002776327290000037
链路丢包率
Figure FDA0002776327290000038
以及控制器负载
Figure FDA0002776327290000039
所有指标的权重之和,即为:
Figure FDA00027763272900000310
其中,|k|表示在时间t接收到的会话请求的总数,0<α<1表示权重因子,
Figure FDA00027763272900000311
表示控制负载奖励,
Figure FDA00027763272900000312
表示网络服务质量奖励;
对于
Figure FDA00027763272900000313
由不同节点以及节点所在的域决定,控制器的负载越大,获得的奖励就会越少,
Figure FDA00027763272900000314
可表示为:
Figure FDA00027763272900000315
对于
Figure FDA00027763272900000316
是基于链路质量设计的QoS奖励,转发延迟和链路的丢包率越大,获得的奖励就会减少,反之亦反,
Figure FDA00027763272900000317
可表示为:
Figure FDA00027763272900000318
其中,
Figure FDA00027763272900000319
是交换机ei和交换机ej之间的传输延迟,
Figure FDA00027763272900000320
是交换机ei和交换机ej之间的丢包率;
步骤S1.3.4、深度强化学习时采用Actor-Critic模式,即采用使用决定性策略梯度方法的Actor模块和使用深度Q-learning方法的Critic模块;所述两个模块均包括一个在线网络和一个目标网络,且二者的神经网络结构相同;在线网络将自己的参数传递给目标网络进行目标网络的参数更新;在训练期间,设置一个存储样本数据的缓冲区D,将与环境交互的转换信息存储在D中,神经网络学习从D中随机读取来进行学习;
步骤S1.3.5、首先随机选取缓存区D中存储采用的数据N*(si,ai,ri,si+1),其中,si是初始化状态,ai是网络输出动作,在状态si下执行动作ai,会得到相应的奖励ri和下一时刻状态si+1;然后,初始化在线网络μ(s|θμ)的权重参数为θμ和θQ,在将参数更新到目标网络Q(s,a|θQ),即:
θQ′←θQμ′←θμ
将收集到的环境状态信息st作为Actor在线网络的输入,输出相应的动作at=(stμ),最后执行动作获得相应的奖励rt和转移状态st+1,再存储到缓冲区D中;
步骤S1.3.6、对于在线Actor网络μ(s|θμ)输出的动作at=(stμ),作为在线Critic网络Q(s,a|θQ)的输入,得到相应的Q-value,然后通过均方误差去计算损失函数,即:
Figure FDA0002776327290000041
其中,yi表示目标Critic网络获得的Q-value,相应的yi具体表示为:
yi=ri+γ·Q′(si+1,μ′(si+1μ′)|θQ′)
其中,γ表示折扣因子用于反映奖励不断衰减的过程;
通过均方误差计算完损失函数之后,再去调整主动Actor网络的权重参数,更新参数的过程为:
Figure FDA0002776327290000042
最后再对分别对目标网络参数进行更新,即:
θμ′←σθμ+(1-σ)θμ′
θQ′←σθQ+(1-σ)θQ′
θQ′是Critic目标网络的权重参数,θμ′是Actor目标网络的权重参数。
4.一种SDN环境下基于深度强化学习的智能QoS路由优化系统,其特征在于:包括控制平面层和数据平面层,控制平面层中包括多个SDN控制器,数据平面中包括多个媒体服务器、OpenFlow网络以及客户端;
数据平面层包括由支持OpenFlow交换机的转发设备,数据平面报告网络资源的信息、网络状态以及数据的转发;控制平面层由南向接口与数据平面进行交互,通过集中控制来收集网络状态,网络状态发生变化时,控制器根据变化更新网络,调整路由路径;
其中,媒体服务器提供各种多媒体业务;客户端发送业务请求,接收请求视频内容等功能;OpenFlow交换机接收到客户端请求以后将其转发给SDN控制器,SDN控制器与DDPG代理进行交互,执行相应的路由策略,再通过SDN控制器下发流表项到交换机中。
CN202011266807.1A 2020-11-13 2020-11-13 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统 Active CN112491714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011266807.1A CN112491714B (zh) 2020-11-13 2020-11-13 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011266807.1A CN112491714B (zh) 2020-11-13 2020-11-13 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统

Publications (2)

Publication Number Publication Date
CN112491714A true CN112491714A (zh) 2021-03-12
CN112491714B CN112491714B (zh) 2022-04-08

Family

ID=74930302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011266807.1A Active CN112491714B (zh) 2020-11-13 2020-11-13 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统

Country Status (1)

Country Link
CN (1) CN112491714B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111416771A (zh) * 2020-03-20 2020-07-14 深圳市大数据研究院 基于多智能体强化学习路由策略控制路由动作的方法
CN113098771A (zh) * 2021-03-26 2021-07-09 哈尔滨工业大学 基于Q学习的分布式自适应QoS路由方法
CN113271213A (zh) * 2021-05-10 2021-08-17 南京工业大学 一种基于sdn的计费网络出口路由选择方法
CN113285880A (zh) * 2021-07-19 2021-08-20 北京壁仞科技开发有限公司 多播路由方法、互连设备、网状网络系统及其配置方法
CN113328938A (zh) * 2021-05-25 2021-08-31 电子科技大学 一种基于深度强化学习的网络自主智能管控方法
CN113347108A (zh) * 2021-05-20 2021-09-03 中国电子科技集团公司第七研究所 一种基于q-学习的sdn负载均衡方法及系统
CN114124778A (zh) * 2021-10-20 2022-03-01 国电南瑞科技股份有限公司 一种基于QoS约束的任播服务源路由方法及装置
CN114202066A (zh) * 2022-02-21 2022-03-18 北京邮电大学 一种网络控制方法、装置、电子设备及存储介质
CN114500360A (zh) * 2022-01-27 2022-05-13 河海大学 一种基于深度强化学习的网络流量调度方法以及系统
CN114710439A (zh) * 2022-04-22 2022-07-05 南京南瑞信息通信科技有限公司 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
CN114710433A (zh) * 2021-12-03 2022-07-05 航天科工网络信息发展有限公司 一种智能路由方法、装置及网络设备
CN114866291A (zh) * 2022-04-18 2022-08-05 浙江大学 SDN下基于深度强化学习的DDoS防御系统及方法
CN115022231A (zh) * 2022-06-30 2022-09-06 武汉烽火技术服务有限公司 一种基于深度强化学习的最优路径规划的方法和系统
CN115941579A (zh) * 2022-11-10 2023-04-07 北京工业大学 一种基于深度强化学习的混合路由方法
CN116170370A (zh) * 2023-02-20 2023-05-26 重庆邮电大学 一种基于注意力机制和深度强化学习的sdn多路径路由方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017219890A1 (zh) * 2016-06-23 2017-12-28 华为技术有限公司 软件定义网络中生成路由控制动作的方法和相关设备
CN110611619A (zh) * 2019-09-12 2019-12-24 西安电子科技大学 一种基于ddpg强化学习算法的智能化路由决策方法
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017219890A1 (zh) * 2016-06-23 2017-12-28 华为技术有限公司 软件定义网络中生成路由控制动作的方法和相关设备
CN110611619A (zh) * 2019-09-12 2019-12-24 西安电子科技大学 一种基于ddpg强化学习算法的智能化路由决策方法
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
兰巨龙等: "基于深度强化学习的软件定义网络QoS优化", 《通信学报》 *
吴艳: "基于流量分类的智能SDN路由优化技术研究", 《万方学位论文》 *
王桂芝等: "机器学习在SDN路由优化中的应用研究综述", 《计算机研究与发展》 *
肖扬等: "一种基于深度强化学习的动态路由算法", 《信息通信技术与政策》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111416771A (zh) * 2020-03-20 2020-07-14 深圳市大数据研究院 基于多智能体强化学习路由策略控制路由动作的方法
CN111416771B (zh) * 2020-03-20 2022-02-25 深圳市大数据研究院 基于多智能体强化学习路由策略控制路由动作的方法
CN113098771A (zh) * 2021-03-26 2021-07-09 哈尔滨工业大学 基于Q学习的分布式自适应QoS路由方法
CN113098771B (zh) * 2021-03-26 2022-06-14 哈尔滨工业大学 基于Q学习的分布式自适应QoS路由方法
CN113271213A (zh) * 2021-05-10 2021-08-17 南京工业大学 一种基于sdn的计费网络出口路由选择方法
CN113347108A (zh) * 2021-05-20 2021-09-03 中国电子科技集团公司第七研究所 一种基于q-学习的sdn负载均衡方法及系统
CN113328938B (zh) * 2021-05-25 2022-02-08 电子科技大学 一种基于深度强化学习的网络自主智能管控方法
CN113328938A (zh) * 2021-05-25 2021-08-31 电子科技大学 一种基于深度强化学习的网络自主智能管控方法
CN113285880A (zh) * 2021-07-19 2021-08-20 北京壁仞科技开发有限公司 多播路由方法、互连设备、网状网络系统及其配置方法
CN114124778A (zh) * 2021-10-20 2022-03-01 国电南瑞科技股份有限公司 一种基于QoS约束的任播服务源路由方法及装置
CN114124778B (zh) * 2021-10-20 2023-03-14 国电南瑞科技股份有限公司 一种基于QoS约束的任播服务源路由方法及装置
CN114710433A (zh) * 2021-12-03 2022-07-05 航天科工网络信息发展有限公司 一种智能路由方法、装置及网络设备
CN114500360A (zh) * 2022-01-27 2022-05-13 河海大学 一种基于深度强化学习的网络流量调度方法以及系统
CN114202066A (zh) * 2022-02-21 2022-03-18 北京邮电大学 一种网络控制方法、装置、电子设备及存储介质
CN114202066B (zh) * 2022-02-21 2022-04-26 北京邮电大学 一种网络控制方法、装置、电子设备及存储介质
CN114866291A (zh) * 2022-04-18 2022-08-05 浙江大学 SDN下基于深度强化学习的DDoS防御系统及方法
CN114866291B (zh) * 2022-04-18 2023-06-23 浙江大学 SDN下基于深度强化学习的DDoS防御系统及方法
CN114710439A (zh) * 2022-04-22 2022-07-05 南京南瑞信息通信科技有限公司 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
CN114710439B (zh) * 2022-04-22 2024-05-28 南京南瑞信息通信科技有限公司 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
CN115022231A (zh) * 2022-06-30 2022-09-06 武汉烽火技术服务有限公司 一种基于深度强化学习的最优路径规划的方法和系统
CN115022231B (zh) * 2022-06-30 2023-11-03 武汉烽火技术服务有限公司 一种基于深度强化学习的最优路径规划的方法和系统
CN115941579A (zh) * 2022-11-10 2023-04-07 北京工业大学 一种基于深度强化学习的混合路由方法
CN115941579B (zh) * 2022-11-10 2024-04-26 北京工业大学 一种基于深度强化学习的混合路由方法
CN116170370A (zh) * 2023-02-20 2023-05-26 重庆邮电大学 一种基于注意力机制和深度强化学习的sdn多路径路由方法
CN116170370B (zh) * 2023-02-20 2024-03-12 重庆邮电大学 一种基于注意力机制和深度强化学习的sdn多路径路由方法

Also Published As

Publication number Publication date
CN112491714B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN112491714B (zh) SDN环境下基于深度强化学习的智能QoS路由优化方法、系统
Yao et al. NetworkAI: An intelligent network architecture for self-learning control strategies in software defined networks
Guo et al. Deep-reinforcement-learning-based QoS-aware secure routing for SDN-IoT
Chen-Xiao et al. Research on load balance method in SDN
CN112600759B (zh) 基于深度强化学习在Overlay网络下多路径流量调度方法及系统
CN111010294A (zh) 一种基于深度强化学习的电力通信网路由方法
Yao et al. Machine learning aided load balance routing scheme considering queue utilization
CN112437020A (zh) 一种基于深度强化学习的数据中心网络负载均衡方法
CN111245718A (zh) 一种基于sdn情景感知的路由优化方法
CN111010341B (zh) 一种基于深度学习的覆盖网络路由决策方法
CN114710437B (zh) 一种结合区块链的物联网边缘网络路由系统
CN115714741A (zh) 一种基于协同多智能体强化学习的路由决策方法及系统
CN116599904A (zh) 并行传输负载均衡装置及方法
Mai et al. Packet routing with graph attention multi-agent reinforcement learning
Jin et al. A congestion control method of SDN data center based on reinforcement learning
CN110535770B (zh) 一种SDN环境下基于QoS感知的视频流智能路由方法
Yang et al. Comparative analysis of routing schemes based on machine learning
Fawaz et al. Graph convolutional reinforcement learning for collaborative queuing agents
CN115225512B (zh) 基于节点负载预测的多域服务链主动重构机制
Wei et al. G-Routing: Graph Neural Networks-Based Flexible Online Routing
CN116389347A (zh) 一种基于强化学习的动态sdn路由优化算法
CN115037669A (zh) 一种基于联邦学习的跨域数据传输方法
CN117240774B (zh) 一种跨域智能sdn路由方法
Li et al. DRNet: QoS-aware Routing for SDN using Deep Reinforcement Learning
CN117294643B (zh) 一种基于SDN架构的网络QoS保障路由方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant