CN111343095B - 一种在软件定义网络中实现控制器负载均衡的方法 - Google Patents

一种在软件定义网络中实现控制器负载均衡的方法 Download PDF

Info

Publication number
CN111343095B
CN111343095B CN202010094237.6A CN202010094237A CN111343095B CN 111343095 B CN111343095 B CN 111343095B CN 202010094237 A CN202010094237 A CN 202010094237A CN 111343095 B CN111343095 B CN 111343095B
Authority
CN
China
Prior art keywords
controller
controllers
reinforcement learning
switch
migration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010094237.6A
Other languages
English (en)
Other versions
CN111343095A (zh
Inventor
郭泽华
孙鹏浩
窦松石
夏元清
吉鸿海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Beijing Institute of Technology BIT
Original Assignee
North China University of Technology
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology, Beijing Institute of Technology BIT filed Critical North China University of Technology
Priority to CN202010094237.6A priority Critical patent/CN111343095B/zh
Publication of CN111343095A publication Critical patent/CN111343095A/zh
Application granted granted Critical
Publication of CN111343095B publication Critical patent/CN111343095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/29Flow control; Congestion control using a combination of thresholds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/25Routing or path finding in a switch fabric
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Multi Processors (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提出了一种在软件定义网络中实现控制器负载均衡的方法,采用多智能体强化学习的动态控制器工作负载平衡方案,能够实现在控制器中的智能体可以生成针对交换机迁移问题的控制策略。将多智能体强化学习的分布式处理特性应用在动态控制器工作负载均衡中,每个控制器就是一个智能体,采用交换机迁移策略迁移交换机,得到的控制器负载均衡分配结果。由于交换机迁移策略是通过符合网络情况的模型产生的,最大可能的保证了该控制器负载分配结果是均衡的。其中,符合网络情况的模型通过离线学习的方式获得,获得交换机迁移策略时可以直接采用离线学习的获得模型,减少了运算时间,提高了效率。

Description

一种在软件定义网络中实现控制器负载均衡的方法
技术领域
本发明属于计算机网络技术领域,具体涉及一种在软件定义网络中实现控制器负载均衡的方法。
背景技术
软件定义网络(Software-Defined Networking,SDN)由于其强大的可编程性和对网络管理的灵活性,引起了学术界和工业界的广泛关注。SDN将控制平面与数据平面分离,因此网络运营商可以通过具有全局网络视图的逻辑集中控制器来方便地监视和操作网络。控制平面在SDN中起着举足轻重的作用。为了解决单个控制器有限的处理能力和单节点的故障,大规模SDN提出使用分布式控制器实现其控制平面。在多控制器控制平面中,一个SDN分为多个域,每个域中有一定数量的交换机并由一个控制器控制,每个控制器管理与其他控制器同步来维持一致的网络视图。称此为多域多控制器SDN。
来自交换机的流量请求可能由于用户行为的不可预测性发生不断变化。因此,静态交换机-控制器的关系可能会无法适应动态的流量变化。当前的主流方法是将该问题建模为交换机迁移问题(Switch Migration Problem,SMP)。交换机迁移问题通常被视为典型的最优化问题,并且交换机迁移问题的复杂性问题被证明是一个NP难问题。在网络规模扩大的情况下,求解交换机迁移问题最优解需要花费很长时间,在流量动态波动的环境下,基于最优解的算法实用性并不高。
为了高效的解决这个问题,Dixit等人首先提出了一种名为ElastiCon的弹性分布式控制器架构,旨在通过动态调整交换机和控制器之间的映射关系来平衡控制器的流量请求。此外,OpenFlow 1.4通过在多个控制器之间提供协调机制来实现分布式控制平面。但是,ElastiCon和OpenFlow都没有详细地提出如何实现迁移交换机的交换机迁移问题。Wang等人着重于实现数据中心网络的控制平面的负载平衡,但是并没有考虑交换机迁移的通信成本。Huang等人在控制平面和数据平面之间引入了一个中间层,从而将流量请求分配给多个控制器。BalCon使用图像分区方法对交换机迁移问题进行了处理。
但是,现有的控制器负载均衡的方法均采用启发式算法来调整控制器和交换机之间的映射关系,由于启发式算法采用固定的方法来调整关系,得到的控制器负载分配结果无法保证控制器负载分配结果是均衡的,可能导致等待处理的请求会在控制器之间不均匀分布,部分高负载的控制器易于出现满载的情况从而拒绝新的请求,最终会降低控制平面的请求处理能力,进而导致无法动态的将低负载控制器的处理请求进行合理的融合,从而增加了正常运行的控制器的数量,浪费了能耗。
另外现有的控制器负载均衡的方法运算时间长。Wang等人和Huang等人的方案可能会因为中间层的插入而显著增加处理延迟。BalCon处理过程十分复杂,因为它需要分析过载控制器的控制区域中所有交换机的通信模式,从而来执行一个迁移步骤。
发明内容
有鉴于此,本发明提出了一种在软件定义网络中实现控制器负载均衡的方法,采用多智能体强化学习的动态控制器工作负载平衡方案,能够实现在控制器中的智能体可以生成针对交换机迁移问题的控制策略。
为实现上述目的,本发明技术方案如下:
本发明的一种在软件定义网络中实现控制器负载均衡的方法,将由控制器组成的分布式控制平面建模为多智能体系统,每个控制器具有一个强化学习代理,所述强化学习代理采用多智能体强化学习方法来生成交换机迁移操作,包括离线学习和在线决策两个阶段;
其中,离线学习阶段通过对每个控制器上的深度强化学习代理进行训练,得到训练后的深度强化学习代理;在线决策阶段,利用训练后的深度强化学习代理,结合网络状态,产生交换机迁移策略,根据策略来迁移交换机,实现控制器负载均衡分配。
其中,所述离线学习阶段包括如下步骤:
步骤1,初始化:每个控制器运行一个深度强化学习代理;获得正在使用控制器集合C={c1,c2,…,cj,…,cN};设定整个训练过程的迭代总次数T;
步骤2,在每个控制器中计算集合中所有控制器的资源使用率U={U1,U2,…,Uj,…,UN},对于第j个控制器的资源使用率:
Figure BDA0002384755490000031
其中,wj代表交换机sj所产生的进程请求数量,
Figure BDA0002384755490000032
代表控制器cj所管理的交换机集合,xj、yj、zj分别代表交换机sj请求的控制器的带宽、CPU和存储资源占用量;
步骤3,将资源利用率最大的控制器作为主控制器cmaster
步骤4,主控制器cmaster按照概率选一个控制器作为执行控制器cactor并通知,其中对于控制器ci,被选为执行控制器的概率为
Figure BDA0002384755490000041
步骤5,执行控制器cactor将网络状态输入到该控制器的深度强化学习代理中,得到交换机迁移策略,并将该策略广播给其余N-1个控制器;
每个控制器利用交换机迁移策略更新其带宽、CPU和存储资源占用量信息;
执行控制器cactor交换机迁移策略计算对应的奖励:reward=(Ui-Uj)2-(U'i-U'j)2-μ,利用奖励更新其深度强化学习代理;
步骤6,判断是否为第T次迭代,若是则训练结束,获得所有控制器当前的深度强化学习代理,完成离线学习;否则迭代次数加1,进行下一次迭代,执行步骤2-6。
其中,所述在线决策阶段包括如下步骤:
步骤S1,初始化:每个控制器运行一个通过离线学习后的深度强化学习代理;
步骤S2,判断是否需要进行控制器的合并操作,将需要合并的控制器合并,具体判断如下:
在每个控制器中计算集合中所有控制器的资源使用率;判断最小资源使用率Umin是否低于设定阈值Thlow,若不低于则不进行合并,若低于则判断是否存在一个控制器cavail,其资源利用率Uavail加上Umin不超过该控制器cavail的资源利用率上限Thhigh,若存在,则将Umin对应的控制器cmin控制的交换机迁移到控制器cavail,关闭控制器cmin并删除,否则不进行合并,重复执行步骤S2,直至没有控制器合并,得到当前控制器集合;
步骤S3,在步骤S2得到的控制器集合中,控制器之间执行交换机迁移实现控制器集合中所有控制器的负载均衡,所有控制器的强化学习代理一起工作达到平衡,包括如下子步骤:
步骤S3.1,资源利用率低于最小值阈值的控制器向其他控制器发送交换机迁移请求信号;
步骤S3.2,所有控制器将自身的以及收到的资源使用率输入到它的强化学习代理,最终产生自己的交换机迁移策略,包括交换机迁移出、可以接受交换机迁移入和交换机不迁移;
步骤S3.3,各个控制器将步骤S3.2得到的交换机迁移策略和该策略对应的奖励广播给其余N-1个控制器,等待其余控制器的行动信息和奖励;
步骤S3.4,每个控制器判断其作出的策略对应的奖励是否为最大值,若是,则该控制器执行其迁移策略,否则不进行操作。
其中,每个深度学习代理的深度强化学习算法采用门控循环单元GRU与两层前馈神经网络连接作为主要神经网络结构,输入层为GRU的输入层,GRU的输出层连接到前馈神经网络的输入层,前馈神经网络的输出层作为整体输出。
有益效果:
本发明使用多智能体强化学习的动态控制器工作负载均衡方法,多智能体强化学习是强化学习的分布式版本,每个智能体都具有学习能力,擅长在分布式系统中生成动态控制动作。将多智能体强化学习的分布式处理特性应用在动态控制器工作负载均衡中,每个控制器就是一个智能体,该智能体根据网络情况能自适应的训练出符合网络情况的模型,用训练出的模型产生交换机迁移策略,采用交换机迁移策略迁移交换机,得到的控制器负载均衡分配结果。由于交换机迁移策略是通过符合网络情况的模型产生的,最大可能的保证了该控制器负载分配结果是均衡的。其中,符合网络情况的模型通过离线学习的方式获得,获得交换机迁移策略时可以直接采用离线学习的获得模型,减少了运算时间,提高了效率。
附图说明
图1为本发明离线学习流程图;
图2为本发明在线决策流程图。
具体实施方式
下面结合附图并举实施例,对本发明进行详细描述。
本发明中,将分布式控制平面建模为多智能体系统,以分布式方式处理交换机迁移问题。每个控制器具有一个强化学习代理,这些强化学习代理采用多智能体强化学习来生成交换机迁移操作,包括离线学习和在线决策两个阶段。离线学习阶段通过对每个控制器上的深度强化学习代理进行训练,得到训练后的深度强化学习代理;在线决策阶段,利用训练后的深度强化学习代理,结合网络状态,产生交换机迁移策略,根据策略来迁移交换机,实现控制器负载均衡分配,可见,在线决策阶段深度强化学习代理可以快速准确地决定如何在控制器之间迁移交换机。
离线学习原理具体如下:
在多智能体强化学习中,每个智能体都作为马尔可夫决策过程,可将其工作元素建模为M=(S,A,R,P,γ),其中S代表状态空间,A代表行动空间,R代表奖励空间,P代表转移概率函数P(st+1,st,at),即根据时间节点t时刻的状态st(st∈S)及交换机迁移动作at(at∈A),判断网络环境下一个状态st+1(st+1∈S)不同取值的概率。γ∈[0,1]是折扣因子。每个智能体都旨在寻找特定环境状况(例如,一个状态转移函数T:S×A×S→[0,1])下的行动策略来最大化预期的折扣化收益总和
Figure BDA0002384755490000071
其中k代表行动步骤次数。本实施例中,环境为SDN网络,状态、行动、奖励定义如下:
状态:状态为每一个控制器的资源使用率,状态信息会被标准化后作为输入数据传输给强化学习代理的循环神经网络。
行动:一个行动元组P=(p1,p2,…,pj,…,pN)是所有控制器集合C={c1,c2,…,cj,…,cN}的联合行动,其中pj代表控制器cj的行动准则。
奖励:奖励的计算主要基于资源使用率平衡的提高,也可以考虑其他参数,如交换机迁移的网络成本。假设有控制器ci和控制cj,交换机迁移前控制器ci和控制cj的资源使用率为Ui和Uj,交换机迁移后控制器ci和控制cj的资源使用率为U'i和U'j,交换机迁移的网络成本为控制器和交换机之间的通信延迟为μ。奖励可以表示为:
reward=(Ui-Uj)2-(U'i-U'j)2-μ (1)
其中
Figure BDA0002384755490000072
其中wj代表交换机sj所产生的进程请求数量,
Figure BDA0002384755490000073
代表控制器cj所管理的交换机集合,xj、yj、zj分别代表交换机sj请求的控制器的带宽、CPU和存储资源占用量。
在线决策原理具体如下:
将多智能体强化学习模型应用于控制平面的负载均衡问题,首先要进行设计一个博弈模型,以便智能体可以知道如何在彼此之间执行交换机迁移,以及何时停止迁移。博弈模型的目标是达到控制平面中的最佳资源分配的纳什均衡。在该博弈过程期间,在每个控制器采用多智能体强化学习方法,计算不同交换机迁移动作的优势以得到最佳博弈结果。
本发明将交换机迁移问题映射为商品交易模型,交换机和控制器分别被视为市场上的商品和参与者。交换机在控制器之间交易,在此过程中每个控制器都试图最大化其利润。通常,交换机只能交易到其临时所有者附近的控制器,这可以通过通信延迟惩罚来实现。例如,控制远离本控制器的交换机可能引入很大延迟。同时,交换机迁移过程仅在某些情况下发生,例如,交换机的工作负载低于阈值或者交换机的工作负载高于阈值。
本发明中为了确保控制器的状态一致性,一个控制器只能同时参与一个交换机迁移流程,从而简化了多智能体强化学习训练过程,从而无需考虑两个交换机迁移操作的冲突。在交换机迁移过程中,一个动作元组P=(p1,p2,…,pj,…,pN)来自于控制器行动集合C={c1,c2,…,cj,…,cN},其中pj代表控制器cj的动作策略,如果满足
Figure BDA0002384755490000081
那么动作元组
Figure BDA0002384755490000082
是本实施例均衡的,便可以得出
Figure BDA0002384755490000083
离线学习阶段包括如下步骤:
步骤1,初始化:将由控制器组成的分布式控制平面建模为多智能体系统,每个控制器运行一个深度强化学习代理;获得正在使用控制器集合C={c1,c2,…,cj,…,cN};设定整个训练过程的迭代总次数T;
步骤2,在每个控制器中计算集合中所有控制器的资源使用率集合U={U1,U2,…,Uj,…,UN},对于第j个控制器的资源使用率采用公式(2)计算;
步骤3,将资源使用率最大的控制器作为主控制器cmaster
步骤4,主控制器cmaster按照概率选一个控制器作为执行控制器cactor并通知,其中对于控制器cj,被选为执行控制器的概率为
Figure BDA0002384755490000091
步骤5,执行控制器cactor将网络状态输入到该控制器的深度强化学习代理中,得到交换机迁移策略,并将该策略广播给其余N-1个控制器;
每个控制器利用交换机迁移策略更新其带宽、CPU和存储资源占用量信息;
执行控制器cactor利用公式(1)计算交换机迁移策略计算对应的奖励,利用奖励更新其深度强化学习代理;
步骤6,判断是否为第T次迭代,若是则训练结束,获得所有控制器当前的深度强化学习代理,完成离线学习;否则迭代次数加1,进行下一次迭代,执行步骤2-6。
本实施例的多智能体强化学习模型中,每个深度学习代理的深度强化学习算法采用门控循环单元GRU与两层前馈神经网络连接作为主要神经网络结构,输入层为GRU的输入层,GRU的输出层连接到前馈神经网络的输入层,前馈神经网络的输出层作为整体输出。使用GRU处理网络负载数据,能够提取网络负载的时间相关性从而得到更优的网络负载数据处理效果。
在线决策阶段将控制平面中的工作负载作为算法输入,根据离线学习阶段每个控制器上产生的深度强化学习代理的深度强化学习模型和当前的网络状态网络的状态,决策控制器的合并操作以及交换机的迁移操作,并生成迁移决策作为输出。其中,迁移决策共有三种:导入,保持静止和导出。
在线决策阶段包括如下步骤:
步骤S1,初始化:每个控制器运行一个通过离线学习后的深度强化学习代理;
步骤S2,判断是否需要进行控制器的合并操作,将需要合并的控制器进行合并。在线决策以并行方式执行,每个控制器根据其深度强化学习模型和网络状态执行独立逻辑,所以在线决策算法将在每个控制器上运行。当某个控制器的工作负载可以迁移到其他控制器并且同时还有另一个控制器可以承担该控制器的工作负载时,进行控制器合并操作,关闭无负载的控制器。具体判断步骤如下:
在每个控制器中计算集合中所有控制器的资源使用率;判断最小资源使用率Umin是否低于设定阈值Thlow,若不低于则不进行合并,若低于则判断是否存在一个控制器cavail,其资源利用率Uavail加上Umin不超过该控制器cavail的资源利用率上限Thhigh,若存在,则将Umin对应的控制器cmin控制的交换机迁移到控制器cavail,关闭控制器cmin并删除,否则不进行合并,重复执行步骤S2,直至没有控制器合并,得到当前控制器集合;
步骤S3,在步骤S2得到的控制器集合中,控制器之间执行交换机迁移实现控制器集合中所有控制器的负载均衡,所有控制器的强化学习代理一起工作达到平衡,包括如下子步骤:
步骤S3.1,资源利用率低于最小值阈值的控制器向其他控制器发送交换机迁移请求信号;
步骤S3.2,所有控制器将自身的以及收到的资源使用率输入到它的强化学习代理,最终产生自己的交换机迁移策略,包括交换机迁移出、可以接受交换机迁移入和交换机不迁移;
步骤S3.3,各个控制器将步骤S3.2得到的交换机迁移策略和该策略对应的奖励广播给其余N-1个控制器,等待其余控制器的行动信息和奖励;
步骤S3.4,每个控制器判断其做出的策略对应的奖励是否为最大值,若是,则该控制器执行其迁移策略,否则不进行操作。
通过实验模拟对本实施例的性能进行了评估,结果表明本发明将控制平面对于请求的处理能力提高了至少27.3%,同时将处理时间减少了约25%。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种在软件定义网络中实现控制器负载均衡的方法,其特征在于,将由控制器组成的分布式控制平面建模为多智能体系统,每个控制器具有一个强化学习代理,所述强化学习代理采用多智能体强化学习方法来生成交换机迁移操作,包括离线学习和在线决策两个阶段;
其中,离线学习阶段通过对每个控制器上的深度强化学习代理进行训练,得到训练后的深度强化学习代理;在线决策阶段,利用训练后的深度强化学习代理,结合网络状态,产生交换机迁移策略,根据策略来迁移交换机,实现控制器负载均衡分配;
所述离线学习阶段包括如下步骤:
步骤1,初始化:每个控制器运行一个深度强化学习代理;获得正在使用控制器集合C={c1,c2,…,cj,…,cN};设定整个训练过程的迭代总次数T;
步骤2,在每个控制器中计算集合中所有控制器的资源使用率U={U1,U2,…,Uj,…,UN},对于第j个控制器的资源使用率:
Figure FDA0003177975320000011
其中,wj代表交换机sj所产生的进程请求数量,scj代表控制器cj所管理的交换机集合,xj、yj、zj分别代表交换机sj请求的控制器的带宽、CPU和存储资源占用量;
步骤3,将资源利用率最大的控制器作为主控制器cmaster
步骤4,主控制器cmaster按照概率选一个控制器作为执行控制器cactor并通知,其中对于控制器ci,被选为执行控制器的概率为
Figure FDA0003177975320000012
步骤5,执行控制器cactor将网络状态输入到该控制器的深度强化学习代理中,得到交换机迁移策略,并将该策略广播给其余N-1个控制器;
每个控制器利用交换机迁移策略更新其带宽、CPU和存储资源占用量信息;
执行控制器cactor交换机迁移策略计算对应的奖励:reward=(Ui-Uj)2-(U'i-U'j)2-μ,利用奖励更新其深度强化学习代理;
步骤6,判断是否为第T次迭代,若是则训练结束,获得所有控制器当前的深度强化学习代理,完成离线学习;否则迭代次数加1,进行下一次迭代,执行步骤2-6。
2.如权利要求1所述的在软件定义网络中实现控制器负载均衡的方法,其特征在于,所述在线决策阶段包括如下步骤:
步骤S1,初始化:每个控制器运行一个通过离线学习后的深度强化学习代理;
步骤S2,判断是否需要进行控制器的合并操作,将需要合并的控制器合并,具体判断如下:
在每个控制器中计算集合中所有控制器的资源使用率;判断最小资源使用率Umin是否低于设定阈值Thlow,若不低于则不进行合并,若低于则判断是否存在一个控制器cavail,其资源利用率Uavail加上Umin不超过该控制器cavail的资源利用率上限Thhigh,若存在,则将Umin对应的控制器cmin控制的交换机迁移到控制器cavail,关闭控制器cmin并删除,否则不进行合并,重复执行步骤S2,直至没有控制器合并,得到当前控制器集合;
步骤S3,在步骤S2得到的控制器集合中,控制器之间执行交换机迁移实现控制器集合中所有控制器的负载均衡,所有控制器的强化学习代理一起工作达到平衡,包括如下子步骤:
步骤S3.1,资源利用率低于最小值阈值的控制器向其他控制器发送交换机迁移请求信号;
步骤S3.2,所有控制器将自身的以及收到的资源使用率输入到它的强化学习代理,最终产生自己的交换机迁移策略,包括交换机迁移出、可以接受交换机迁移入和交换机不迁移;
步骤S3.3,各个控制器将步骤S3.2得到的交换机迁移策略和该策略对应的奖励广播给其余N-1个控制器,等待其余控制器的行动信息和奖励;
步骤S3.4,每个控制器判断其作出的策略对应的奖励是否为最大值,若是,则该控制器执行其迁移策略,否则不进行操作。
3.如权利要求1所述的在软件定义网络中实现控制器负载均衡的方法,其特征在于,每个深度学习代理的深度强化学习算法采用门控循环单元GRU与两层前馈神经网络连接作为主要神经网络结构,输入层为GRU的输入层,GRU的输出层连接到前馈神经网络的输入层,前馈神经网络的输出层作为整体输出。
CN202010094237.6A 2020-02-15 2020-02-15 一种在软件定义网络中实现控制器负载均衡的方法 Active CN111343095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010094237.6A CN111343095B (zh) 2020-02-15 2020-02-15 一种在软件定义网络中实现控制器负载均衡的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010094237.6A CN111343095B (zh) 2020-02-15 2020-02-15 一种在软件定义网络中实现控制器负载均衡的方法

Publications (2)

Publication Number Publication Date
CN111343095A CN111343095A (zh) 2020-06-26
CN111343095B true CN111343095B (zh) 2021-11-05

Family

ID=71183418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010094237.6A Active CN111343095B (zh) 2020-02-15 2020-02-15 一种在软件定义网络中实现控制器负载均衡的方法

Country Status (1)

Country Link
CN (1) CN111343095B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641499B (zh) * 2021-08-16 2024-03-01 北京交通大学 一种分布式控制器集群负载均衡系统
US20230185932A1 (en) * 2021-12-09 2023-06-15 Huawei Technologies Co., Ltd. Methods, systems and computer program products for protecting a deep reinforcement learning agent

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108401015A (zh) * 2018-02-02 2018-08-14 广州大学 一种基于深度强化学习的数据中心网络路由方法
CN109039942A (zh) * 2018-08-29 2018-12-18 南京优速网络科技有限公司 一种基于深度强化学习的网络负载均衡系统及均衡方法
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108401015A (zh) * 2018-02-02 2018-08-14 广州大学 一种基于深度强化学习的数据中心网络路由方法
CN109039942A (zh) * 2018-08-29 2018-12-18 南京优速网络科技有限公司 一种基于深度强化学习的网络负载均衡系统及均衡方法
CN109947567A (zh) * 2019-03-14 2019-06-28 深圳先进技术研究院 一种多智能体强化学习调度方法、系统及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Intelligent Routing based on Deep Reinforcement;Wai-xi Liu;《2019 IEEE Symposium on Computers and Communications》;20190703;第1-6页 *
Online Load Balancing for Distributed Control Online Load Balancing for Distributed Control;SHAOJUN ZHANG;《IEEE Access》;20180328;第6卷;第18184-18191页 *

Also Published As

Publication number Publication date
CN111343095A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
Ghobaei-Arani et al. An autonomous resource provisioning framework for massively multiplayer online games in cloud environment
CN112134916B (zh) 一种基于深度强化学习的云边协同计算迁移方法
Gai et al. Fusion of cognitive wireless networks and edge computing
Abdoos et al. Traffic light control in non-stationary environments based on multi agent Q-learning
Rafieyan et al. An adaptive scheduling approach based on integrated best-worst and VIKOR for cloud computing
CN111064633B (zh) 一种云边协同电力信息通信设备自动化测试资源分配方法
Xu et al. Cnn partitioning and offloading for vehicular edge networks in web3
CN111343095B (zh) 一种在软件定义网络中实现控制器负载均衡的方法
Wu et al. Multi-agent DRL for joint completion delay and energy consumption with queuing theory in MEC-based IIoT
Long et al. Agent scheduling model for adaptive dynamic load balancing in agent-based distributed simulations
Mehranzadeh et al. A novel-scheduling algorithm for cloud computing based on fuzzy logic
CN114710439B (zh) 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
Dalgkitsis et al. SCHE2MA: Scalable, energy-aware, multidomain orchestration for beyond-5G URLLC services
Dong et al. A hybrid algorithm for workflow scheduling in cloud environment
Sadegh et al. A two-phase virtual machine placement policy for data-intensive applications in cloud
Fu et al. Distributed reinforcement learning-based memory allocation for edge-PLCs in industrial IoT
Huangpeng et al. Distributed IoT services placement in fog environment using optimization-based evolutionary approaches
CN116566891A (zh) 时延敏感的服务功能链并行路由优化方法、装置及介质
Faraji-Mehmandar et al. A self-learning approach for proactive resource and service provisioning in fog environment
CN115225512B (zh) 基于节点负载预测的多域服务链主动重构机制
Chang et al. Low-latency controller load balancing strategy and offloading decision generation algorithm based on lyapunov optimization in SDN mobile edge computing environment
Tong et al. Energy and performance-efficient dynamic consolidate VMs using deep-Q neural network
Cui et al. Resource-Efficient DNN Training and Inference for Heterogeneous Edge Intelligence in 6G
Guan et al. HierRL: Hierarchical reinforcement learning for task scheduling in distributed systems
He et al. A reinforcement learning method for scheduling service function chains with multi-resource constraints

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant