CN113328938A - 一种基于深度强化学习的网络自主智能管控方法 - Google Patents

一种基于深度强化学习的网络自主智能管控方法 Download PDF

Info

Publication number
CN113328938A
CN113328938A CN202110572098.8A CN202110572098A CN113328938A CN 113328938 A CN113328938 A CN 113328938A CN 202110572098 A CN202110572098 A CN 202110572098A CN 113328938 A CN113328938 A CN 113328938A
Authority
CN
China
Prior art keywords
network
action
actor
service
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110572098.8A
Other languages
English (en)
Other versions
CN113328938B (zh
Inventor
张梓强
苏俭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110572098.8A priority Critical patent/CN113328938B/zh
Publication of CN113328938A publication Critical patent/CN113328938A/zh
Application granted granted Critical
Publication of CN113328938B publication Critical patent/CN113328938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/12Shortest path evaluation
    • H04L45/124Shortest path evaluation using a combination of metrics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于人工智能技术领域,具体的说是涉及一种基于深度强化学习的网络自主智能管控方法。本发明首先构建网络拓扑,然后引入CNN、LSTM层和延迟更新策略构建基于DDPG强化学习算法的路由决策模型,最后对基于深度强化学习的路由决策模型进行迭代训练。在每次迭代训练中,智能体根据测量得到的网络状态和神经网络获得输出的动作,即一组链路权重,并根据链路权重使用最短路径算法计算业务的路由。根据路由计算结果,智能体下发流表,并获取业务的端到端时延和丢包率计算此次迭代的奖励值。算法具有良好的收敛性,能够有效降低业务的端到端时延和丢包率。

Description

一种基于深度强化学习的网络自主智能管控方法
技术领域
本发明属于人工智能技术领域,具体的说是涉及一种基于深度强化学习的网络自主智能管控方法。
背景技术
近年来,随着网络规模的扩大、应用种类的增多,为业务制定智能化的路由策略,是实现业务服务质量保障和网络自主智能管控的重要一环。软件定义网络(SoftwareDefined Network,SDN)的出现为网络自主智能化路由部署带来了新的思路。区别于传统网络紧密耦合的垂直结构,SDN将数据平面和控制平面分离,数据平面由支持OpenFlow协议的SDN交换机实现,控制平面由软件实现,提供网络的可编程性。控制平面对整个网络具有完整的全局视图,能够根据网络状态动态配置业务流的转发路由,从而更高效地进行网络资源的调配。控制平面在向下层的数据平面下发控制策略的同时,向上层的应用平面提供开放应用程序可编程接口,使得运营商可以简单快速地完成动态、自动化的网络应用开发,而不被运维复杂的问题所困扰。整个SDN网络架构形成闭环,为部署业务智能路由方案提供了保障。
随着人工智能技术的发展,机器学习算法已经渗透到包括网络业务路由在内的各个领域。在基于强化学习的智能路由策略中,智能体能够在SDN网络环境中学习路由策略,以最大限度地提高奖励。但是,在SDN网络中使用传统的Q学习算法可能需要巨大的存储空间来维护Q表,同时Q表的查询也会带来额外的时间开销。深度Q网络(Deep Q Network,DQN)方法可以同时结合深度学习的感知能力与强化学习的决策能力来优化路由过程,然而它受限于离散的状态和动作空间,不适合动态的SDN网络系统。基于策略的强化学习方法,如确定性策略梯度(Deterministic Policy Gradient,DPG),可以用来处理连续动作空间,但它们使用线性函数作为策略函数,存在训练数据相关性引起的过拟合问题。而深度确定性策略梯度算法(DDPG,Deep Deterministic Policy Gradient)使用演员评论家(Actor-Critic,AC)框架结合DQN方法和DPG方法,利用神经网络生成策略函数和Q函数,可以形成高效稳定的连续动作控制模型。
发明内容
本发明的发明目的在于:通过深度强化学习技术,由智能体自主对网络中的历史数据完成感知和学习,寻找满足业务流传输需求的路由,提高网络资源的综合利用率,实现网络的自主智能管控。
本发明的基于深度强化学习的网络自主智能管控方法的技术方案为:
构建实时的网络全局视图,对承载业务的数据平面的网络状态进行感知,获取网络中节点对之间不同类型业务流的业务传输需求情况、网络中链路的实时流量负载和连接关系,以及业务流的端到端传输时延和丢包率。
构建基于DDPG强化学习算法的路由决策模型。定义用于强化学习的网络状态、路由决策动作和业务奖励,并构建用于动作决策的Actor网络及其目标网络,以及用于评估动作质量的Critic网络及其目标网络。
使用基于深度强化学习算法的路由决策模型进行迭代训练。在每次迭代训练中,智能体将实时网络状态输入到Actor网络获得一组链路权重,并根据链路权重使用Dijkstra算法计算出总权重最小的路径作为业务的路由。根据路由计算结果,智能体下发流表,并根据新的路由结果,获取业务按照新的路由方案传输的端到端时延和丢包率,并根据其计算业务奖励值,反馈到智能体。每次迭代的过程信息,即网络状态、路由决策动作和业务奖励值都会被存储到经验回放存储池中。在进行一定轮数的迭代后,从经验回放存储池中,取出过程信息,对神经网络进行训练,使得Critic网络对状态-动作对Q值的判断更加准确,并使得Actor网络朝着有更高可能获取高奖励值的方向修改自身参数。通过这种方式,使得智能体能够通过不断迭代优化提高网络的奖励值,即优化业务的平均端到端时延和丢包率。
本发明通过上述方法,使得智能体对网络状态进行自主学习,并制定路由策略,提高了网络资源利用率,实现了网络的自主智能管控。
在构建基于DDPG强化学习算法的路由决策模型时,具体包含下列步骤:
S1、定义网络状态s=[T1,T2,...,Td,L],其中,d代表业务流的种类,Tk代表第k种业务流在网络中的流量矩阵,k∈[1,d],
Figure BDA0003082940380000021
其中,n为网络中交换机节点的数量,
Figure BDA0003082940380000022
代表第k种业务流,在源为交换机i,目的为交换机j之间的传输带宽,i,j∈[1,n]。
Figure BDA0003082940380000031
其中,lij代表交换机i和j之间的负载情况,若i和j之间存在连接链路,则lij为该链路的实时流量负载,否则lij定义为-1。
S2、定义路由决策动作
Figure BDA0003082940380000032
其中,m为网络中链路的数量。wij代表对于第i种类型的业务,第j条链路的权重大小。该权重会用于计算第i种业务的传输路径。
S3、定义业务奖励值
Figure BDA0003082940380000033
di∈[0,1],为第i种业务的效用奖励值所占总效用奖励值的权重。Ui是第i种业务的效用值。Ui=αdelayi+βlossi,delayi为第i种业务的平均端到端时延,lossi为第i种业务的丢包率,α,β∈[0,1],为可调权重。
S4、构建用于动作决策的Actor网络,其输入为网络状态s,输出为路由决策动作a。神经网络结构均依次包括输入层、CNN层、LSTM层、Dropout层、全连接层和输出端。初始化Actor网络的动作决策函数μ(s,θμ)。其中,μ为Actor网络的动作决策函数,θμ为Actor网络的动作决策参数。
S5、构建Actor网络的目标网络,输入输出和神经网络结构设置与Actor网络相同。初始化Actor目标网络的动作决策函数μ′(s,θμ′)。其中,μ′为Actor目标网络的动作决策函数,θμ′为Actor目标网络的动作决策参数。
S6、构建用于评估动作质量的Critic网络,其输入为网络状态s和路由决策动作a,输出为状态-动作对的质量Q。神经网络结构均依次包括输入层、CNN层、LSTM层、Dropout层、全连接层和输出端。初始化Critic网络的动作评价函数Q(s,a|θQ)。其中,Q为Critic网络的动作评价函数,θQ为Critic网络的动作评价参数。
S7、构建Critic网络的目标网络,输入输出和神经网络结构设置与Actor网络相同。初始化Critic目标网络的动作评价函数Q′(s,a|θQ′)。其中,Q′为Critic目标网络的动作评价函数,θQ′为Critic目标网络的动作评价参数。
S8、构建用于进行训练的经验回放存储池R。
在使用基于深度强化学习算法的路由决策模型进行迭代训练时,具体包含下列步骤:
S1、初始化当前迭代轮数episodes=0,总迭代轮数M,开始迭代训练,具体为:
S11、初始化当前时间步长t=0,总时间步长T,开始一轮迭代,具体为:
S111、初始化噪声Ot,并从SDN环境中获取网络状态st
S112、根据网络状态和Actor网络得到路由决策动作at=μ(stμ)+Ot,即一组链路权重,使用Dijkstra算法计算得到权重最小的路径,根据该路径下发流表,完成路由决策;
S113、从网络环境中获得业务奖励值rt,并观察网络环境的新状态st+1
S114、设置当前时间步长t=t+1,判断t≤T是否成立,若是,则转入S111。否则,则转入S12。
S12、将一轮迭代完整的过程样本(s1,a1,r1,…,sT,aT,rT)存储到经验回放存储池R中,对神经网络进行训练,具体包括:
S121、从经验回放存储池R中采集N个完整的过程样本
Figure BDA0003082940380000041
S122、使用Actor和Critic目标网络计算每个样本的目标价值:
Figure BDA0003082940380000042
其中,γ∈[0,1]为对动作进行评价时,后续时间动作的价值所占的权重;
S123、使用反向传播方法更新Critic网络权重:
Figure BDA0003082940380000043
S124、使用反向传播方法更新Actor网络权重:
Figure BDA0003082940380000044
S125、使用软更新的方法更新Actor和Critic的目标网络:θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′,其中,τ∈[0,1]为对目标网络进行软更新的权重,该值越小,目标网络更新越稳定,同时训练速度也会越慢。
S13、设置当前迭代轮数episodes=episodes+1,判断episodes≤M是否成立,若是,则转入S11。否则,则转入S2。
S2、神经网络训练结束,将神经网络权重以文件形式进行保存,即可直接进行线上使用。
本发明的有益效果是:
(1)智能体可以自主地从网络状态中学习知识,实现网络自主智能管控。
根据学习到的知识,可以指定智能化的路由策略,实现网络性能的自主优化
附图说明
图1为实施例的实验拓扑。
图2为实施例中,DDPG算法的执行流程。
图3为实施例中,DDPG算法的神经网络模型结构。
图4为实施例中,智能体的归一化奖励值的变化曲线。
图5为实施例中,业务不同路由算法的性能对比。
具体实施方式
下面结合附图和实施例对本发明进行补充描述。
实施例
本实施例使用ONOS作为网络控制器。通过Mininet(由一些虚拟的终端节点、交换机、路由器连接而成的一个网络仿真器)模拟SDN网络环境,使用Mininet的拓扑构建API生成了如图1所示的实验拓扑。
该拓扑由24个交换机节点和37条双向链路构成,每个交换机默认连接一个终端主机,编号与交换机相同。链路的带宽、时延、抖动和丢包率这四项性能参数通过Mininet的TCLink类进行配置。每条链路的额定带宽设置为10Mbps,链路时延范围为10~100ms,时延抖动范围为0~20ms,丢包率范围为0~2%。
本实施例中,DDPG智能体的运行流程如图2所示,具体包含下列步骤:
S1、初始化当前迭代轮数episodes=0,总迭代轮数M,开始迭代训练,具体为:
S11、初始化当前时间步长t=0,总时间步长T,开始一轮迭代,具体为:
S111、初始化噪声Ot,并从SDN环境中获取网络状态st
S112、根据网络状态和Actor网络得到路由决策动作at=μ(stμ)+Ot,即一组链路权重,使用Dijkstra算法计算得到权重最小的路径,根据该路径下发流表,完成路由决策;
S113、从网络环境中获得业务奖励值rt,并观察网络环境的新状态st+1
S114、设置当前时间步长t=t+1,判断t≤T是否成立,若是,则转入S111。否则,则转入S12。
S12、将一轮迭代完整的过程样本(s1,a1,r1,…,sT,aT,rT)存储到经验回放存储池R中。
S13、从经验回放存储池R中采集N个完整的过程样本
Figure BDA0003082940380000061
S122、使用Actor和Critic目标网络计算每个样本的目标价值:
Figure BDA0003082940380000062
其中,γ∈[0,1]为对动作进行评价时,后续时间动作的价值所占的权重;
S123、使用反向传播方法更新Critic网络权重:
Figure BDA0003082940380000063
S124、使用反向传播方法更新Actor网络权重:
Figure BDA0003082940380000064
S125、使用软更新的方法更新Actor和Critic的目标网络:θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′,其中,τ∈[0,1]为对目标网络进行软更新的权重,该值越小,目标网络更新越稳定,同时训练速度也会越慢。
S13、设置当前迭代轮数episodes=episodes+1,判断episodes≤M是否成立,若是,则转入S11。否则,则转入S2。
本实施例中,DDPG智能体的神经网络结构设置如图2所示,参数设置如表1所示。
表1 DDPG智能体参数设置
Figure BDA0003082940380000071
本实施例设置6种不同的流量发送速率进行测试,分别是20Mbps、40Mbps、60Mbps、80Mbps、100Mbps和125Mbps。每种流量速率下,按照速率1:1的比例分配两种不同类型的业务,分别以时延和丢包率作为效用奖励。对于每种类型的业务,使用随机重力模型生成100组流量矩阵并在仿真环境中进行发送,并对结果取平均值。除了最小跳数算法以外,本文还实现了两种算法作为参照对象,分别是以时延作为路径权重进行最短路径计算的最短时延算法,和以最小化路径中的最大链路利用率为目标进行路由选择的负载均衡算法。对于每种类型的业务,分别使用最小跳数算法、最短时延算法、负载均衡算法和基于深度强化学习的智能路由算法进行业务的路由规划,并对四种算法的端到端时延和丢包率进行对比。
训练过程的归一化奖励值变化曲线如图4所示。整个训练过程中,奖励值稳定上升,在大约600轮训练后趋于稳定,算法表现出良好的收敛性。
不同路由算法下的平均端到端时延和业务丢包率的对比如图5所示。在流量发送速率较小的情况下,最小跳数和负载均衡算法不能较好地利用网络资源;随着流量发送速率的增加,最小跳数和最短时延算法易造成链路拥塞,带来性能的急剧恶化。而基于深度强化学习的智能路由算法通过不断迭代训练,自发性地持续进行优化,能够根据不同的网络状态,选择合适的路由策略,在不同的流量发送速率下均取得了较好的性能。
综上,本发明基于深度强化学习算法,使得智能体能够自主地从网络中学习知识并制定路由策略,从而提高网络资源利用率,优化网络综合性能。

Claims (1)

1.一种基于深度强化学习的网络自主智能管控方法,其特征在于,包括以下步骤:
S1、构建实时的网络全局视图,对承载业务的数据平面的网络状态进行感知,获取网络状态s=[T1,T2,...,Td,L],其中,d代表业务流的种类,Tk代表第k种业务流在网络中的流量矩阵,k∈[1,d],
Figure FDA0003082940370000011
其中,n为网络中交换机节点的数量,
Figure FDA0003082940370000012
代表第k种业务流,是源为交换机i,目的为交换机j之间的传输带宽,i,j∈[1,n];
Figure FDA0003082940370000013
其中,lij代表交换机i和j之间的负载情况,若i和j之间存在连接链路,则lij为该链路的实时流量负载,否则lij定义为-1,并获取业务流的端到端时延和丢包率;
S2、构建基于DDPG强化学习算法的路由决策模型,具体为:
定义路由决策动作
Figure FDA0003082940370000014
其中,m为网络中链路的数量,wij代表对于第i种类型的业务,第j条链路的权重大小,权重用于计算第i种业务的传输路径;
定义业务奖励值
Figure FDA0003082940370000015
为第i种业务的效用奖励值所占总效用奖励值的权重,Ui是第i种业务的效用值,Ui=αdelayi+βlossi,delayi为第i种业务的平均端到端时延,lossi为第i种业务的丢包率,α,β∈[0,1],为可调权重;
构建用于动作决策的Actor网络,其输入为网络状态s,输出为路由决策动作a;Actor网络包括依次连接的输入层、CNN层、LSTM层、Dropout层、全连接层和输出层,初始化Actor网络的动作决策函数μ(s,θμ),其中,μ为Actor网络的动作决策函数,θμ为Actor网络的动作决策参数;
构建Actor目标网络,输入输出和神经网络结构与Actor网络相同,初始化Actor目标网络的动作决策函数μ′(s,θμ′),其中,μ′为Actor目标网络的动作决策函数,θμ′为Actor目标网络的动作决策参数;
构建用于评估动作质量的Critic网络,其输入为网络状态s和路由决策动作a,输出为状态-动作对的质量Q,Critic网络包括依次连接的输入层、CNN层、LSTM层、Dropout层、全连接层和输出层;初始化Critic网络的动作评价函数Q(s,a|θQ),其中,Q为Critic网络的动作评价函数,θQ为Critic网络的动作评价参数;
构建Critic目标网络,输入输出和神经网络结构与Actor网络相同,初始化Critic目标网络的动作评价函数Q′(s,a|θQ′),其中,Q′为Critic目标网络的动作评价函数,θQ′为Critic目标网络的动作评价参数;
构建用于进行训练的经验回放存储池,经验回放存储池用于存储网络状态、路由决策动作和业务奖励值;
S3、对路由决策模型进行迭代训练,具体包括:
S31、初始化当前迭代轮数episodes=0,总迭代轮数M,开始迭代训练,具体为:
S311、初始化当前时间步长t=0,总时间步长T,开始一轮迭代,具体为:
S3111、初始化噪声Ot,并获取网络状态st
S3112、根据网络状态和Actor网络得到路由决策动作at=μ(stμ)+Ot,即一组链路权重,使用Dijkstra算法计算得到权重最小的路径,根据该路径下发流表,完成路由决策;
S3113、从网络环境中获得业务奖励值rt,并观察网络环境的新状态st+1
S3114、设置当前时间步长t=t+1,判断t≤T是否成立,若是,则转入S3111;否则,转入S312。
S312、将一轮迭代完整的过程样本(s1,a1,r1,…,sT,aT,rT)存储到经验回放存储池中;对神经网络进行训练,具体包括:
S3121、从经验回放存储池中采集N个完整的过程样本
Figure FDA0003082940370000021
S3122、使用Actor目标网络和Critic目标网络计算每个样本的目标价值:
Figure FDA0003082940370000031
其中,γ∈[0,1]为对动作进行评价时,后续时间动作的价值所占的权重;
S3123、使用反向传播方法更新Critic网络权重:
Figure FDA0003082940370000032
S3124、使用反向传播方法更新Actor网络权重:
Figure FDA0003082940370000033
S3125、使用软更新的方法更新Actor目标网络和Critic目标网络:θQ′←τθQ+(1-τ)θQ′,θμ′←τθμ+(1-τ)θμ′,其中,τ∈[0,1]为对目标网络进行软更新的权重;
S313、设置当前迭代轮数episodes=episodes+1,判断episodes≤M是否成立,若是,则转入S311;否则,转入S32。
S32、神经网络训练结束,更新神经网络参数,获得的路由决策模型用于进行线上决策。
CN202110572098.8A 2021-05-25 2021-05-25 一种基于深度强化学习的网络自主智能管控方法 Active CN113328938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110572098.8A CN113328938B (zh) 2021-05-25 2021-05-25 一种基于深度强化学习的网络自主智能管控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110572098.8A CN113328938B (zh) 2021-05-25 2021-05-25 一种基于深度强化学习的网络自主智能管控方法

Publications (2)

Publication Number Publication Date
CN113328938A true CN113328938A (zh) 2021-08-31
CN113328938B CN113328938B (zh) 2022-02-08

Family

ID=77416597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110572098.8A Active CN113328938B (zh) 2021-05-25 2021-05-25 一种基于深度强化学习的网络自主智能管控方法

Country Status (1)

Country Link
CN (1) CN113328938B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113938415A (zh) * 2021-09-09 2022-01-14 华中科技大学 一种基于链路状态估计的网络路由转发方法及系统
CN114050961A (zh) * 2021-11-08 2022-02-15 南京大学 一种大规模网络仿真系统及资源动态调度分配方法
CN114143264A (zh) * 2021-11-17 2022-03-04 广西大学 一种SRv6网络下基于强化学习的流量调度方法
CN114202066A (zh) * 2022-02-21 2022-03-18 北京邮电大学 一种网络控制方法、装置、电子设备及存储介质
CN114221691A (zh) * 2021-12-17 2022-03-22 南京工业大学 一种基于深度强化学习的软件定义空天地一体化网络路由优化方法
CN114745317A (zh) * 2022-02-09 2022-07-12 北京邮电大学 面向算力网络的计算任务调度方法及相关设备
CN114866494A (zh) * 2022-07-05 2022-08-05 之江实验室 强化学习智能体训练方法、模态带宽资源调度方法及装置
CN114884895A (zh) * 2022-05-05 2022-08-09 郑州轻工业大学 一种基于深度强化学习的智能流量调度方法
CN114938530A (zh) * 2022-06-10 2022-08-23 电子科技大学 基于深度强化学习的无线自组网智能组网方法
CN115022231A (zh) * 2022-06-30 2022-09-06 武汉烽火技术服务有限公司 一种基于深度强化学习的最优路径规划的方法和系统
CN115118608A (zh) * 2022-05-07 2022-09-27 清华大学 快速流量工程方法及装置
CN115484205A (zh) * 2022-07-12 2022-12-16 北京邮电大学 确定性网络路由与队列调度方法及装置
CN115499365A (zh) * 2022-07-29 2022-12-20 国网河南省电力公司信息通信公司 路由优化方法、装置、设备及介质
CN116112422A (zh) * 2022-12-27 2023-05-12 广东电网有限责任公司电力调度控制中心 一种路由决策方法及装置
US11979295B2 (en) 2022-07-05 2024-05-07 Zhejiang Lab Reinforcement learning agent training method, modal bandwidth resource scheduling method and apparatus

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
US10917355B1 (en) * 2019-08-28 2021-02-09 Honeywell International Inc. Methods, systems and apparatuses for optimizing time-triggered ethernet (TTE) network scheduling by using a directional search for bin selection
CN112491714A (zh) * 2020-11-13 2021-03-12 安徽大学 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10917355B1 (en) * 2019-08-28 2021-02-09 Honeywell International Inc. Methods, systems and apparatuses for optimizing time-triggered ethernet (TTE) network scheduling by using a directional search for bin selection
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN112491714A (zh) * 2020-11-13 2021-03-12 安徽大学 SDN环境下基于深度强化学习的智能QoS路由优化方法、系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘辰屹等: "基于机器学习的智能路由算法综述", 《计算机研究与发展》 *
张义等: "《基于DDPG算法的路径规划研究》", 《电脑知识与技术》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113938415A (zh) * 2021-09-09 2022-01-14 华中科技大学 一种基于链路状态估计的网络路由转发方法及系统
CN114050961A (zh) * 2021-11-08 2022-02-15 南京大学 一种大规模网络仿真系统及资源动态调度分配方法
CN114050961B (zh) * 2021-11-08 2022-10-18 南京大学 一种大规模网络仿真系统及资源动态调度分配方法
CN114143264A (zh) * 2021-11-17 2022-03-04 广西大学 一种SRv6网络下基于强化学习的流量调度方法
CN114143264B (zh) * 2021-11-17 2023-08-01 广西大学 一种SRv6网络下基于强化学习的流量调度方法
CN114221691A (zh) * 2021-12-17 2022-03-22 南京工业大学 一种基于深度强化学习的软件定义空天地一体化网络路由优化方法
CN114745317A (zh) * 2022-02-09 2022-07-12 北京邮电大学 面向算力网络的计算任务调度方法及相关设备
CN114745317B (zh) * 2022-02-09 2023-02-07 北京邮电大学 面向算力网络的计算任务调度方法及相关设备
CN114202066A (zh) * 2022-02-21 2022-03-18 北京邮电大学 一种网络控制方法、装置、电子设备及存储介质
CN114202066B (zh) * 2022-02-21 2022-04-26 北京邮电大学 一种网络控制方法、装置、电子设备及存储介质
CN114884895B (zh) * 2022-05-05 2023-08-22 郑州轻工业大学 一种基于深度强化学习的智能流量调度方法
CN114884895A (zh) * 2022-05-05 2022-08-09 郑州轻工业大学 一种基于深度强化学习的智能流量调度方法
CN115118608A (zh) * 2022-05-07 2022-09-27 清华大学 快速流量工程方法及装置
CN115118608B (zh) * 2022-05-07 2024-05-03 清华大学 快速流量工程方法及装置
CN114938530B (zh) * 2022-06-10 2023-03-21 电子科技大学 基于深度强化学习的无线自组网智能组网方法
CN114938530A (zh) * 2022-06-10 2022-08-23 电子科技大学 基于深度强化学习的无线自组网智能组网方法
CN115022231A (zh) * 2022-06-30 2022-09-06 武汉烽火技术服务有限公司 一种基于深度强化学习的最优路径规划的方法和系统
CN115022231B (zh) * 2022-06-30 2023-11-03 武汉烽火技术服务有限公司 一种基于深度强化学习的最优路径规划的方法和系统
CN114866494B (zh) * 2022-07-05 2022-09-20 之江实验室 强化学习智能体训练方法、模态带宽资源调度方法及装置
CN114866494A (zh) * 2022-07-05 2022-08-05 之江实验室 强化学习智能体训练方法、模态带宽资源调度方法及装置
US11979295B2 (en) 2022-07-05 2024-05-07 Zhejiang Lab Reinforcement learning agent training method, modal bandwidth resource scheduling method and apparatus
CN115484205A (zh) * 2022-07-12 2022-12-16 北京邮电大学 确定性网络路由与队列调度方法及装置
CN115484205B (zh) * 2022-07-12 2023-12-01 北京邮电大学 确定性网络路由与队列调度方法及装置
CN115499365A (zh) * 2022-07-29 2022-12-20 国网河南省电力公司信息通信公司 路由优化方法、装置、设备及介质
CN116112422A (zh) * 2022-12-27 2023-05-12 广东电网有限责任公司电力调度控制中心 一种路由决策方法及装置

Also Published As

Publication number Publication date
CN113328938B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN113328938B (zh) 一种基于深度强化学习的网络自主智能管控方法
CN111010294B (zh) 一种基于深度强化学习的电力通信网路由方法
CN109818865B (zh) 一种sdn增强路径装箱装置及方法
CN107911299B (zh) 一种基于深度q学习的路由规划方法
CN116527567B (zh) 一种基于深度强化学习的智能网络路径优选方法与系统
CN108540384B (zh) 软件定义网络中基于拥塞感知的智能重路由方法和装置
CN111988225B (zh) 基于强化学习和迁移学习的多路径路由方法
CN114500360B (zh) 一种基于深度强化学习的网络流量调度方法以及系统
CN109039942A (zh) 一种基于深度强化学习的网络负载均衡系统及均衡方法
CN114697229B (zh) 一种分布式路由规划模型的构建方法及应用
CN113114582B (zh) 基于机器学习的链路拥塞故障预测及网络自主管控方法
CN111211987B (zh) 网络中流量动态调整方法、系统、电子设备及存储介质
CN112437020A (zh) 一种基于深度强化学习的数据中心网络负载均衡方法
CN114143264A (zh) 一种SRv6网络下基于强化学习的流量调度方法
CN117294643B (zh) 一种基于SDN架构的网络QoS保障路由方法
Oužecki et al. Reinforcement learning as adaptive network routing of mobile agents
CN117041129A (zh) 一种基于多智能体强化学习的低轨卫星网络流路由方法
CN116938810A (zh) 一种基于图神经网络的深度强化学习sdn智能路由优化方法
CN115842768A (zh) 一种基于图神经网络的时空特征融合的sdn路由优化方法
Wei et al. G-Routing: Graph Neural Networks-Based Flexible Online Routing
Meng et al. Intelligent routing orchestration for ultra-low latency transport networks
Swain et al. CoDRL: Intelligent packet routing in SDN using convolutional deep reinforcement learning
CN116828548A (zh) 一种针对电力无线网络的基于强化学习的最佳路由调度方法
CN116847425A (zh) 一种基于高维数据联合优化的多资源路由优化方法
Wu et al. On-demand Intelligent Routing Algorithms for the Deterministic Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant