CN112437020A - 一种基于深度强化学习的数据中心网络负载均衡方法 - Google Patents

一种基于深度强化学习的数据中心网络负载均衡方法 Download PDF

Info

Publication number
CN112437020A
CN112437020A CN202011192183.3A CN202011192183A CN112437020A CN 112437020 A CN112437020 A CN 112437020A CN 202011192183 A CN202011192183 A CN 202011192183A CN 112437020 A CN112437020 A CN 112437020A
Authority
CN
China
Prior art keywords
network
decision tree
target
load balancing
data center
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011192183.3A
Other languages
English (en)
Other versions
CN112437020B (zh
Inventor
郭得科
刘源
李克秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011192183.3A priority Critical patent/CN112437020B/zh
Publication of CN112437020A publication Critical patent/CN112437020A/zh
Application granted granted Critical
Publication of CN112437020B publication Critical patent/CN112437020B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/24Multipath

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度强化学习的数据中心网络负载均衡方法,步骤1:搭建虚拟的网络拓扑结构环境;步骤2:构建以及初始化Actor网络
Figure DDA0002753045270000014
Critic网络
Figure DDA0002753045270000011
目标Actor网络
Figure DDA0002753045270000012
和目标Critic网络
Figure DDA0002753045270000013
步骤3:每隔一段时间将网络中的流信息输入到步骤2构建的网络中,进行链路权重优化问题的DDPG训练,直到达到网络的FCT理想值;利用深度强化学习的训练目标最大化累计奖励的期望,最后从DNN中提取决策树。本发明设计了一种高效且轻巧的数据中心负载平衡的方法;决策树更轻量、推理时间更短,从而使控制器可以更快地通知终端主机更新后的链路权重;将深度确定性策略梯度算法应用到了数据中心网络的负载均衡策略,平衡多条路径之间的流量负载。

Description

一种基于深度强化学习的数据中心网络负载均衡方法
技术领域
本发明属于计算机网络技术领域,具体涉及一种在数据中心网络实现负载均衡的方法。
背景技术
数据中心网络最常用的拓扑是多根树拓扑。这种规则的拓扑让端到端之间存在多条等价路径,从而提供了大量的对分带宽。当网络负载不均时,某些链路或路径会发生拥塞,而其他链路的利用率不高,导致网络的吞吐量降低,时延增大。因此设计合理有效的流量调度策略对于提高吞吐量敏感和时延敏感的应用性能十分关键。等价多路径(Equal-Cost Multipath Routing,ECMP)是数据中心目前最常用的负载均衡方案,在交换机本地根据数据包包头域的哈希结果为流选择相应的路径。然而,ECMP存在哈希冲突和无法适应拥塞等问题,负载均衡性能很差。为了解决ECMP的不足,近10年来出现了很多针对数据中心网络的负载均衡策略。
负载均衡策略分为主动负载均衡策略和被动负载均衡策略。主动负载均衡策略如DRB和Presto,以固定的粒度(数据包或flowcell)将流盲目地分散到不同的路径上。由于主动性和无状态行为的特性,简单且易于部署,可以用通用硬件来实现。但是,这种静态和盲目的流量分配策略无法自适应动态流量和网络拥塞,从而导致负载均衡性能下降。
被动负载均衡策略如Hedera、CONGA、FlowBender和Hermes,使用集中式控制器、交换机或者终端主机感知拥塞之后重新路由数据包、流或flowlet。尽管被动负载均衡策略的有着广泛的应用前景,但是这种调度是网络出现拥塞后进行的调度机制,网络中已经产生了拥塞或丢包,一定程度上会降低链路的利用率。并且,这些策略大多数都需要定制交换机或者修改终端主机的网络栈,增加了部署的难度。而且,被动负载均衡策略在不同场景下还需要对参数进行调整才能得到良好的性能,例如LetFlow的flowlet超时时间和FlowBender的拥塞阈值。某些策略在投入使用之前需要设置更多的参数,如Conga需要设置3个参数,Hermes需要设置14个参数。为了获得最优参数,需要花费大量人力,并且要求有应用知识或流量统计方面的专业知识。
强化学习是机器学习领域之一,可以在不确定的环境中学习策略以实现预定目标。智能体通过观察过去的环境状态和奖励,采取动作以达成累计奖励最大化。强化学习结合深度学习,形成深度强化学习(Deep Reinforcement Learning,DRL),可以解决更复杂的问题。使用DRL来进行主动的负载均衡看起来是可行的。但是智能体为每条流进行路由决策不可避免地会导致较长的决策延迟。因为数据中心流量的大多数流量都是短流,所以大多数的流在其决策到达之前就结束了,决策变得毫无用处。并且,为了获得更好的性能,DRL智能体可能要使用具有数百万甚至数十亿个参数的大型深度神经网络模型,这就导致决策时间变得越长,情况变得更糟。
发明内容
基于现有技术及其存在的缺陷,本发明提出了一种基于深度强化学习的数据中心网络负载均衡方法,使用决策树来模仿DRL,学习和控制链路权重以实现数据中心的负载平衡。
本发明的一种基于深度强化学习的数据中心网络负载均衡方法,具体包括以下流程:
步骤1:搭建虚拟的网络拓扑结构环境;
步骤2:构建以及初始化Actor网络
Figure BDA0002753045250000021
Critic网络
Figure BDA0002753045250000022
目标Actor网络
Figure BDA0002753045250000031
和目标Critic网络
Figure BDA0002753045250000032
状态st,定义为在时间t新到达的流的集合
Figure BDA0002753045250000033
未完成的流的集合
Figure BDA0002753045250000034
和已经完成流的集合
Figure BDA0002753045250000035
将动作at定义为n条链路的权重
Figure BDA0002753045250000036
步骤3:每隔一段时间将网络中的流的信息作为st输入到步骤2构建的四个神经网络包括Actor网络
Figure BDA0002753045250000037
Critic网络
Figure BDA0002753045250000038
目标Actor网络
Figure BDA0002753045250000039
和目标Critic网络
Figure BDA00027530452500000310
中,进行链路权重优化问题的DDPG训练,直到达到网络的FCT理想值,即四个神经网络模型收敛,利用深度强化学习的训练目标最大化累计奖励的期望,最后从DNN中提取决策树;
计算已完成的流的奖励函数rt,如式(1)所示:
Figure BDA00027530452500000311
其中,rt表示在时间t的奖励值,也就是两个连续时间间隔的平均吞吐量之间的比率;dff表示已完成的流f的吞吐量,df和τf分别表示流f的大小和流完成时间FCT。
与现有技术相比,本发明的有益效果如下:
1)设计了一种高效且轻巧的数据中心负载平衡的方法;
2)离线训练DNN,但在线部署决策树,与传统的DNN相比,决策树更轻量、推理时间更短,从而使控制器可以更快地通知终端主机更新后的链路权重;
(3)将深度确定性策略梯度算法应用到了数据中心网络的负载均衡策略,通过控制每条链路的权重,平衡多条路径之间的流量负载,最终降低流的平均完成时间。
附图说明
图1是本发明的一种基于深度强化学习的数据中心网络负载均衡方法整体流程图;
图2是链路权重优化问题的DDPG训练过程的一个步骤的更新流程图;
图3是从DNN中提取决策树的流程图;
图4是本发明的数据中心网络负载平衡体系实施例架构示意图。
具体实施方式
以下结合附图和实施例对本发明进行详细说明。
如图1所示,是本发明的一种基于深度强化学习更新链路权重的离线训练的流程图。包括以下步骤:
步骤1:搭建虚拟得网络拓扑结构环境,具体为:构建包括m个服务器、n条链路的数据中心网络拓扑,每条链路l具有权重系数wl。对于每条流,源主机将基于链路的权重系数wl来计算该流的所有可用路径的权重。每个可用路径的权重等于其所有链路权重的总和。源主机从可用路径中为这条流根据概率随机采样路径。概率是该路径的权重与该流的所有可用路径权重之和之间的比率。源主机使用XPath强制该流的所有数据包遵循网络中的该路径,为数据包添加IP标头,并将采样的路径IP写入目标地址字段。
步骤2:构建以及初始化四个神经网络即Actor网络
Figure BDA0002753045250000041
Critic网络
Figure BDA0002753045250000042
目标Actor网络
Figure BDA0002753045250000043
和目标Critic网络
Figure BDA0002753045250000044
目标Actor网络与Actor网络具有相同的DNN结构,但参数不同;同样,Critic网络和目标Critic网络这两个DNN具有相同的结构和不同的参数。
状态st定义为在时间t新到达的流的集合
Figure BDA0002753045250000045
未完成的流的集合
Figure BDA0002753045250000046
和已经完成流的集合
Figure BDA0002753045250000047
除5元组(源IP地址、源端口、目的IP地址、目的端口和传输层协议)外,每条未完成的流还具有一个附加属性:已发送的字节数;每条已完成的流都有两个附加属性:流完成时间(Flow Completion time,FCT)和流大小。
将动作定义为n条链路的权重
Figure BDA0002753045250000048
步骤3:每隔一段时间将网络中的流信息输入到步骤2构建的网络中,进行链路权重优化问题的DDPG训练,直到达到网络的FCT理想值,即模型(这里的模型指的是上述的四个神经网络)收敛;从DNN中提取决策树;
强化学习的训练目标是最大化累计奖励的期望;计算已完成的流的奖励函数rt,如式(1)所示。
Figure BDA0002753045250000051
其中,rt表示在时间t的奖励值,也就是两个连续时间间隔的平均吞吐量之间的比率;dff表示已完成的流f的吞吐量,df和τf分别表示流f的大小和FCT。
如图2所示,是链路权重优化问题的DDPG训练过程的一个更新过程:首先,Actor网络根据当前状态st(即在时间t新到达的流的集合
Figure BDA0002753045250000052
未完成的流的集合
Figure BDA0002753045250000053
和已经完成流的集合
Figure BDA0002753045250000054
)输出动作at,该动作会影响环境并导致新的状态st+1并收到奖励rt;其次,将映射(st,at,rt,st+1)存储在经验回放池中,然后从中对数据进行批次采样;对于每个样本,用目标Critic网络和目标Actor网络计算目标值yi;通过yi与Critic网络计算出梯度
Figure BDA0002753045250000055
该梯度用于更新Critic网络的参数θQ;用更新后的Critic网络和Actor网络计算梯度
Figure BDA0002753045250000056
来更新Actor网络的参数θπ;最后,更新目标Critic网络θQ′和目标Actor网络的参数θπ′,进行下一次迭代。
如图3所示,是从DNN中提取决策树的流程图。本发明根据训练得到的DNN通过模仿学习在与训练DRL智能体相同的虚拟环境下转换为轻量级决策树,并将其在线部署来优化链路权重,相比于DNN,大大减小了决策时延。该过程如下:
步骤3-1:初始化用于决策树训练的数据集,在与训练DRL智能体相同的虚拟环境中,DRL智能体与虚拟环境反复交互以收集多个轨迹,来生成初始数据集,轨迹中的状态-动作对被初始化为(S,A);
步骤3-2:判断决策树是否收敛:若收敛,跳到第3-9步,否则进入步骤3-3;
步骤3-3:用(S,A)中的所有样本初始化生成一个单根树
Figure BDA0002753045250000061
步骤3-4:判断是否达到结束条件,例如决策树的叶节点数达到最大阈值或所有样本Gini指数都等于0(即
Figure BDA0002753045250000062
);如果达到结束条件,则跳到步骤3-7,否则进入步骤3-5;
步骤3-5:计算树中的每个叶节点的Gini指数增益
Figure BDA0002753045250000063
因为链路权重是连续的值,所以将Gini指数定义为该节点内部的平方预测误差,计算如式(2)所示:
Figure BDA0002753045250000064
式中,N表示节点n的样本数,ai表示第i个样本的动作值,即在状态si下DNN策略预测的值,即ai=π(si),
Figure BDA0002753045250000065
表示在状态si下决策树预测的值,即
Figure BDA0002753045250000066
Φn=0表示节点n上的所有样本都具有相同的动作。Φn越大,表示当前节点中的样本方差越高。在这种情况下,该节点上的样本需要进行拆分并进一步分类;
树中的每个叶节点的Gini指数增益
Figure BDA0002753045250000067
计算如式(3)。
Figure BDA0002753045250000068
其中,n1和n2是根据与第μ个特征关联的第v个分割点的n个子节点。N1和N2分别代表n1和n2的样本数。等式(3)本质上将节点的Gini指数增益计算为所有可能的分裂准则上的最大增益;
步骤3-6:分割使Gini指数增益最大的叶节点,并更新决策树
Figure BDA0002753045250000069
返回步骤3-4;
步骤3-7:得到决策树
Figure BDA00027530452500000610
后,在虚拟环境中运行决策树智能体
Figure BDA00027530452500000611
收集新的状态-动作对集合(S′,A′)。收集过程与初始数据集的收集过程相同;
步骤3-8:将决策树
Figure BDA00027530452500000612
经历的状态反馈给DNN,并获得动作
Figure BDA00027530452500000613
整合决策树的状态和DRL的行为,得到重新采样的数据集(S′,A*),将数据集(S′,A*)与当前数据集(S,A)进行汇总,回到步骤3-3;
步骤3-9:在中央控制器中部署最后一次迭代生成的决策树,用于在线的链路权重决策,以指导终端主机在可用路径之间分配流量。
如图4所示,本发明的数据中心网络负载平衡体系实施例架构示意图,包括一个离线的训练者以及一个在线的执行者。训练者训练DRL智能体,并将训练好的DNN转换为决策树。执行者在中央控制器中部署决策树智能体来在线优化链路权重,以指导终端主机在网络中传输流量。
训练者利用虚拟环境或模拟环境(例如ns-3)来训练DRL智能体,以使流的平均吞吐量最大化。由于智能体具有连续的动作空间,因此采用深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)算法进行训练。训练结束之后,它会在DRL智能体的指导下采用模仿学习技术生成决策树智能体。具体来说,首先从DRL的DNN中收集一组(状态,动作)元组,然后使用分类和回归树算法训练决策树,再使用数据重采样技术对决策树进行连续训练,以减少DNN与决策树之间动作的差异。最后,经过训练的决策树就像DNN一样输出链路权重。
执行器将生成的决策树部署在中央控制器上,以在线优化数据中心网络中的链路权重。因此,控制器将定期与终端主机进行交互。控制器从终端主机接收新到达的、未完成的和已完成的流的信息,并将其反馈到决策树智能体以做出链路权重决策。对于新到达的流,只收集其5元组。除5元组外,对于未完成的流,还收集这条流的已发送字节数;对于已完成的流,收集其FCT和流的大小。控制器将更新后的链路权重发送到终端主机。每个最终主机根据流的源节点和目的节点之间的可用路径的权重为每个流选择路径。其中,路径的权重是相关链路权重的总和。获取路径后,使用XPath强制执行显式路由路径控制。

Claims (3)

1.一种基于深度强化学习的数据中心网络负载均衡方法,其特征在于,该方法具体包括以下流程:
步骤1:搭建虚拟的网络拓扑结构环境;
步骤2:构建以及初始化Actor网络
Figure FDA0002753045240000011
Critic网络
Figure FDA0002753045240000012
目标Actor网络
Figure FDA0002753045240000013
和目标Critic网络
Figure FDA0002753045240000014
状态st,定义为在时间t新到达的流的集合
Figure FDA0002753045240000015
未完成的流的集合
Figure FDA0002753045240000016
和已经完成流的集合
Figure FDA0002753045240000017
将动作at定义为n条链路的权重
Figure FDA0002753045240000018
步骤3:每隔一段时间将网络中的流的信息作为st输入到步骤2构建的四个神经网络包括Actor网络
Figure FDA0002753045240000019
Critic网络
Figure FDA00027530452400000110
目标Actor网络
Figure FDA00027530452400000111
和目标Critic网络
Figure FDA00027530452400000112
中,进行链路权重优化问题的DDPG训练,直到达到网络的FCT理想值,即四个神经网络模型收敛,利用深度强化学习的训练目标最大化累计奖励的期望,最后从DNN中提取决策树;
计算已完成的流的奖励函数rt,如式(1)所示:
Figure FDA00027530452400000113
其中,rt表示在时间t的奖励值,也就是两个连续时间间隔的平均吞吐量之间的比率;dff表示已完成的流f的吞吐量,df和τf分别表示流f的大小和流完成时间FCT。
2.如权利要求1所述的一种基于深度强化学习的数据中心网络负载均衡方法,其特征在于,所述步骤3中的链路权重优化问题的DDPG训练过程的一个更新过程,具体包括以下步骤:
首先,Actor网络根据当前状态st输出动作at,当前状态st即在时间t新到达的流的集合
Figure FDA00027530452400000114
未完成的流的集合
Figure FDA00027530452400000115
和已经完成流的集合
Figure FDA00027530452400000116
该动作会影响环境并导致新的状态st+1并收到奖励rt;其次,将映射(st,at,rt,st+1)存储在经验回放池中,然后从中对数据进行批次采样;对于每个样本,用目标Critic网络和目标Actor网络计算目标值yi;通过yi与Critic网络计算出梯度
Figure FDA0002753045240000021
该梯度用于更新Critic网络的参数θQ;用更新后的Critic网络和Actor网络计算梯度
Figure FDA0002753045240000022
来更新Actor网络的参数θπ;最后,更新目标Critic网络θQ′和目标Actor网络的参数θπ′,进行下一次迭代。
3.如权利要求1所述的一种基于深度强化学习的数据中心网络负载均衡方法,其特征在于,所述步骤3中的从DNN中提取决策树的过程,具体包括以下步骤:
步骤3-1:初始化用于决策树训练的数据集,在与训练DRL智能体相同的虚拟环境中,DRL智能体与虚拟环境反复交互以收集多个轨迹,来生成初始数据集,轨迹中的状态-动作对被初始化为(S,A);
步骤3-2:判断决策树是否收敛:若收敛,跳到第3-9步,否则进入步骤3-3;
步骤3-3:用(S,A)中的所有样本初始化生成一个单根树
Figure FDA0002753045240000023
步骤3-4:判断是否达到结束条件,例如决策树的叶节点数达到最大阈值或所有样本Gini指数都等于0;如果达到结束条件,则跳到步骤3-7,否则进入步骤3-5;
步骤3-5:计算树中的每个叶节点的Gini指数增益
Figure FDA0002753045240000024
如式(2)所示:
Figure FDA0002753045240000025
式中,N表示节点n的样本数,ai表示第i个样本的动作值,表示在状态si下DNN策略预测的值,即ai=π(si),
Figure FDA0002753045240000026
表示在状态si下决策树预测的值,即
Figure FDA0002753045240000027
Φn=0表示节点n上的所有样本都具有相同的动作;Φn越大,表示当前节点中的样本方差越高在这种情况下,该节点上的样本需要进行拆分并进一步分类;
计算决策树中的每个叶节点的Gini指数增益
Figure FDA0002753045240000028
如式(3)所示:
Figure FDA0002753045240000029
其中,n1和n2表示根据与第μ个特征关联的第v个分割点的n个子节点,N1和N2分别表示n1和n2的样本数;
步骤3-6:分割使Gini指数增益最大的叶节点,并更新决策树
Figure FDA0002753045240000031
返回步骤3-4;
步骤3-7:得到决策树
Figure FDA0002753045240000032
后,在虚拟环境中运行决策树智能体
Figure FDA0002753045240000033
收集新的状态-动作对集合(S′,A′);
步骤3-8:将决策树
Figure FDA0002753045240000034
经历的状态反馈给DNN,并获得动作
Figure FDA0002753045240000035
整合决策树的状态和DRL的行为,得到重新采样的数据集(S′,A*),将数据集(S′,A*)与当前数据集(S,A)进行汇总,回到步骤3-3;
步骤3-9:部署最后一次迭代生成的决策树,用于在线的链路权重决策,以指导终端主机在可用路径之间分配流量。
CN202011192183.3A 2020-10-30 2020-10-30 一种基于深度强化学习的数据中心网络负载均衡方法 Expired - Fee Related CN112437020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011192183.3A CN112437020B (zh) 2020-10-30 2020-10-30 一种基于深度强化学习的数据中心网络负载均衡方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011192183.3A CN112437020B (zh) 2020-10-30 2020-10-30 一种基于深度强化学习的数据中心网络负载均衡方法

Publications (2)

Publication Number Publication Date
CN112437020A true CN112437020A (zh) 2021-03-02
CN112437020B CN112437020B (zh) 2022-06-24

Family

ID=74694884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011192183.3A Expired - Fee Related CN112437020B (zh) 2020-10-30 2020-10-30 一种基于深度强化学习的数据中心网络负载均衡方法

Country Status (1)

Country Link
CN (1) CN112437020B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113285872A (zh) * 2021-03-09 2021-08-20 清华大学 一种基于深度强化学习的时间敏感网络通信流调度方法
CN113485826A (zh) * 2021-06-25 2021-10-08 中国电子科技集团公司第五十四研究所 一种边缘服务器负载均衡方法、系统
CN113795049A (zh) * 2021-09-15 2021-12-14 马鞍山学院 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法
CN114338309A (zh) * 2021-12-21 2022-04-12 上海交通大学 基于深度强化学习优化Volterra均衡器结构的方法和系统
CN114448899A (zh) * 2022-01-20 2022-05-06 天津大学 一种均衡数据中心网络负载的方法
CN114697225A (zh) * 2021-11-26 2022-07-01 南开大学 一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法
CN114710439A (zh) * 2022-04-22 2022-07-05 南京南瑞信息通信科技有限公司 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
CN115022231A (zh) * 2022-06-30 2022-09-06 武汉烽火技术服务有限公司 一种基于深度强化学习的最优路径规划的方法和系统
CN115150335A (zh) * 2022-06-30 2022-10-04 武汉烽火技术服务有限公司 一种基于深度强化学习的最优流量分割的方法和系统
CN115484205A (zh) * 2022-07-12 2022-12-16 北京邮电大学 确定性网络路由与队列调度方法及装置
CN116432743A (zh) * 2023-04-19 2023-07-14 天津大学 一种提高强化学习系统吞吐量的方法
CN116963225A (zh) * 2023-09-21 2023-10-27 军事科学院系统工程研究院系统总体研究所 一种面向流媒体传输的无线mesh网络路由方法
CN117454133A (zh) * 2023-12-22 2024-01-26 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种数据库参数配置方法及相关设备
CN117880256A (zh) * 2023-12-04 2024-04-12 南京邮电大学 一种基于多控制器SDN的数据中心网络视频流QoS保障方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140362705A1 (en) * 2013-06-07 2014-12-11 The Florida International University Board Of Trustees Load-balancing algorithms for data center networks
CN109039942A (zh) * 2018-08-29 2018-12-18 南京优速网络科技有限公司 一种基于深度强化学习的网络负载均衡系统及均衡方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140362705A1 (en) * 2013-06-07 2014-12-11 The Florida International University Board Of Trustees Load-balancing algorithms for data center networks
CN109039942A (zh) * 2018-08-29 2018-12-18 南京优速网络科技有限公司 一种基于深度强化学习的网络负载均衡系统及均衡方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PENGHAO SUN等: "SmartFCT: Improving power-efficiency for data center networks with deep reinforcement learning", 《COMPUTER NETWORKS》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113285872B (zh) * 2021-03-09 2022-09-23 清华大学 一种基于深度强化学习的时间敏感网络通信流调度方法
CN113285872A (zh) * 2021-03-09 2021-08-20 清华大学 一种基于深度强化学习的时间敏感网络通信流调度方法
CN113485826A (zh) * 2021-06-25 2021-10-08 中国电子科技集团公司第五十四研究所 一种边缘服务器负载均衡方法、系统
CN113485826B (zh) * 2021-06-25 2022-05-10 中国电子科技集团公司第五十四研究所 一种边缘服务器负载均衡方法、系统
CN113795049A (zh) * 2021-09-15 2021-12-14 马鞍山学院 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法
CN113795049B (zh) * 2021-09-15 2024-02-02 马鞍山学院 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法
CN114697225B (zh) * 2021-11-26 2023-06-06 南开大学 一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法
CN114697225A (zh) * 2021-11-26 2022-07-01 南开大学 一种保证传输截止期限和Rabin公平性的软件定义广域网带宽分配方法
CN114338309B (zh) * 2021-12-21 2023-07-25 上海交通大学 基于深度强化学习优化Volterra均衡器结构的方法和系统
CN114338309A (zh) * 2021-12-21 2022-04-12 上海交通大学 基于深度强化学习优化Volterra均衡器结构的方法和系统
CN114448899A (zh) * 2022-01-20 2022-05-06 天津大学 一种均衡数据中心网络负载的方法
CN114710439A (zh) * 2022-04-22 2022-07-05 南京南瑞信息通信科技有限公司 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
CN114710439B (zh) * 2022-04-22 2024-05-28 南京南瑞信息通信科技有限公司 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
CN115022231A (zh) * 2022-06-30 2022-09-06 武汉烽火技术服务有限公司 一种基于深度强化学习的最优路径规划的方法和系统
CN115150335A (zh) * 2022-06-30 2022-10-04 武汉烽火技术服务有限公司 一种基于深度强化学习的最优流量分割的方法和系统
CN115150335B (zh) * 2022-06-30 2023-10-31 武汉烽火技术服务有限公司 一种基于深度强化学习的最优流量分割的方法和系统
CN115022231B (zh) * 2022-06-30 2023-11-03 武汉烽火技术服务有限公司 一种基于深度强化学习的最优路径规划的方法和系统
CN115484205A (zh) * 2022-07-12 2022-12-16 北京邮电大学 确定性网络路由与队列调度方法及装置
CN115484205B (zh) * 2022-07-12 2023-12-01 北京邮电大学 确定性网络路由与队列调度方法及装置
CN116432743A (zh) * 2023-04-19 2023-07-14 天津大学 一种提高强化学习系统吞吐量的方法
CN116432743B (zh) * 2023-04-19 2023-10-10 天津大学 一种提高强化学习系统吞吐量的方法
CN116963225B (zh) * 2023-09-21 2023-11-24 军事科学院系统工程研究院系统总体研究所 一种面向流媒体传输的无线mesh网络路由方法
CN116963225A (zh) * 2023-09-21 2023-10-27 军事科学院系统工程研究院系统总体研究所 一种面向流媒体传输的无线mesh网络路由方法
CN117880256A (zh) * 2023-12-04 2024-04-12 南京邮电大学 一种基于多控制器SDN的数据中心网络视频流QoS保障方法
CN117880256B (zh) * 2023-12-04 2024-08-27 南京邮电大学 一种基于多控制器SDN的数据中心网络视频流QoS保障方法
CN117454133A (zh) * 2023-12-22 2024-01-26 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种数据库参数配置方法及相关设备
CN117454133B (zh) * 2023-12-22 2024-03-26 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种数据库参数配置方法及相关设备

Also Published As

Publication number Publication date
CN112437020B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN112437020B (zh) 一种基于深度强化学习的数据中心网络负载均衡方法
Xu et al. Experience-driven networking: A deep reinforcement learning based approach
CN109818865B (zh) 一种sdn增强路径装箱装置及方法
CN112491714B (zh) SDN环境下基于深度强化学习的智能QoS路由优化方法、系统
CN116527567B (zh) 一种基于深度强化学习的智能网络路径优选方法与系统
CN112486690B (zh) 一种适用于工业物联网的边缘计算资源分配方法
CN114143264B (zh) 一种SRv6网络下基于强化学习的流量调度方法
CN111988225A (zh) 基于强化学习和迁移学习的多路径路由方法
Quan et al. Cybertwin-driven DRL-based adaptive transmission scheduling for software defined vehicular networks
Lei et al. Congestion control in SDN-based networks via multi-task deep reinforcement learning
CN114697229A (zh) 一种分布式路由规划模型的构建方法及应用
Liu Intelligent routing based on deep reinforcement learning in software-defined data-center networks
CN108684046A (zh) 一种基于随机学习的接入网服务功能链部署方法
Xu et al. Evaluating and boosting reinforcement learning for intra-domain routing
CN113395207A (zh) 一种sdn架构下基于深度强化学习的路由优化架构及方法
He et al. RTHop: Real-time hop-by-hop mobile network routing by decentralized learning with semantic attention
CN110995619A (zh) 一种服务质量感知的虚拟网络映射方法和装置
CN116390164A (zh) 一种低轨卫星网络可信负载均衡路由方法、系统、设备及介质
CN117014355A (zh) 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法
Zhou et al. Multi-task deep learning based dynamic service function chains routing in SDN/NFV-enabled networks
Bhavanasi et al. Dealing with changes: Resilient routing via graph neural networks and multi-agent deep reinforcement learning
CN117294643B (zh) 一种基于SDN架构的网络QoS保障路由方法
Liu et al. BULB: lightweight and automated load balancing for fast datacenter networks
Zhang et al. A service migration method based on dynamic awareness in mobile edge computing
CN113676407A (zh) 一种通信网的深度学习驱动的流量优化机制

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220624

CF01 Termination of patent right due to non-payment of annual fee