CN115529278A - 基于多智能体强化学习的数据中心网络ecn自动调控方法 - Google Patents
基于多智能体强化学习的数据中心网络ecn自动调控方法 Download PDFInfo
- Publication number
- CN115529278A CN115529278A CN202211099120.2A CN202211099120A CN115529278A CN 115529278 A CN115529278 A CN 115529278A CN 202211099120 A CN202211099120 A CN 202211099120A CN 115529278 A CN115529278 A CN 115529278A
- Authority
- CN
- China
- Prior art keywords
- agent
- ecn
- data center
- reinforcement learning
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000005457 optimization Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 28
- 230000006870 function Effects 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000008901 benefit Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000011217 control strategy Methods 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 241000406668 Loxodonta cyclotis Species 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 235000003642 hunger Nutrition 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000037351 starvation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/11—Identifying congestion
- H04L47/115—Identifying congestion using a dedicated packet
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/12—Avoiding congestion; Recovering from congestion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0823—Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/32—Flow control; Congestion control by discarding or delaying data units, e.g. packets or frames
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/10—Flow control; Congestion control
- H04L47/36—Flow control; Congestion control by determining packet size, e.g. maximum transfer unit [MTU]
- H04L47/365—Dynamic adaptation of the packet size
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/50—Queue scheduling
- H04L47/62—Queue scheduling characterised by scheduling criteria
- H04L47/625—Queue scheduling characterised by scheduling criteria for service slots or service orders
- H04L47/628—Queue scheduling characterised by scheduling criteria for service slots or service orders based on packet size, e.g. shortest packet first
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L49/00—Packet switching elements
- H04L49/50—Overload detection or protection within a single switching element
Abstract
本发明公开了一种基于多智能体强化学习的数据中心网络ECN自动调控方法,该方法具体包括以下步骤:步骤1、将数据中心网络ECN阈值调控建模为多智能体强化学习问题;步骤2、根据数据中心网络的特征利用多智能体强化学习中的独立近似策略优化算法IPPO进行训练;步骤3、结合离线预训练和在线增量学习使得部署在各个交换机上的模型能够快速适应动态的数据中心网络环境。本发明基于多智能体强化学习技术,数据中心网络中各交换机根据现有的网络状态信息选择ECN阈值调控策略,提高数据中心网络性能。同时,本发明采用了独立近似策略优化算法IPPO,避免不必要的内存开销和带宽成本,提高计算效率与算法性能。
Description
技术领域
本发明属于数据中心网络拥塞控制领域,特别地涉及基于多智能体强化学习的、用于数据中心中交换机的ECN阈值自动调控方法。
背景技术
随着云时代的到来,计算和存储逐渐向云端转移。作为云计算的关键基础设施,由海量服务器和网络设备组成的数据中心(DC)在支撑个人和企业强大的计算和海量存储需求方面发挥着越来越重要的作用。为满足日益增长的基于云的服务需求,数据中心的服务器数量急剧增加,这反过来又需要大量的网络设备组成一个互联系统,最终导致数据中心网络规模迅速扩大、复杂度极高。因此,如何在如此复杂、动态、多样化的大规模数据中心网络(DCN)中提供有效的拥塞控制(CC)以保证高质量和响应式的网络服务面临着多方面的挑战,主要在于三个方面。
一方面,现代云数据中心通常配备大量计算或数据密集型应用,例如复杂的图像处理、科学计算、大数据处理以及分布式存储和人工智能(AI)模型训练,从而催生了许多分布式计算框架,如MapReduce、Spark和Flink,用于提供高性能计算。然而,这种分布式计算范式不断产生大量具有高扇入的多对一分区聚合模式流量,这不可避免地导致难以处理的incast问题,伴随着持续的队列建立、增加的延迟、抖动甚至数据包丢失。因此,如何设计一种incast感知的拥塞控制方案成为数据中心网络迫切需要关注的问题。
另一方面,作为一个多样化的环境,云数据中心通常会提供各种服务,这些服务会产生各种类型的流量,这些流量具有不同的特征,对网络质量的要求也不同。例如,长时间运行的大象流(如数据复制、虚拟机迁移)通常对吞吐量有很高的要求,但对网络延迟有一定的容忍度,这最好通过交换机侧的长队列设置来实现。相比之下,短寿命的小鼠流(例如控制、管理和查询消息)对数据包延迟有严格的限制,但很少对吞吐量有要求,它更偏向交换机侧的短队列长度。因此,如何自适应地调整队列长度以同时满足不同类型流量冲突的需求仍然是另一个关键挑战。
最后但同样重要的是,数据中心网络被认为是一个高度动态的网络环境,其中的流量模式、大小流的比例都在快速变化,这给拥塞控制机制带来了很大的不确定性。这就提出了另一个关键挑战,即如何使具有自学习和自决策能力的网络拥塞控制策略能够动态适应实时网络环境。
显式拥塞通知(ECN)已被公认为促进网络拥塞控制的有效手段,并已得到数据中心商品交换机的广泛支持。在这些现有的基于ECN的拥塞控制方案中,ECN标记阈值的设置策略在确定其可行性和有效性方面起着至关重要的作用。一般来说,设置ECN标记阈值的策略主要有静态设置,动态设置和自学习的自动设置三种策略。静态设置方案要求在算法的整个执行周期中预先为交换机配置一个固定的ECN标记阈值。然而,这种静态设置显然既不能适应动态的网络环境,也不能同时满足大小流的不同需求,高阈值会影响延迟敏感的老鼠流,而低阈值会导致大象流的带宽吞吐量下降甚至出现饥饿的情况。相比之下,动态方案可以基于一些简单的判断机制以动态的方式调整ECN标记阈值。但是,调整策略需要手动预定义,不能根据实时网络状况自行调整。更糟糕的是,现有的动态方法要么只考虑一个简单的因素(如链路利用率、瞬时队列长度)来调整阈值,要么只适用于多队列的情况。强化学习(RL)可以使代理通过与环境的持续交互来动态地做出具有最大回报的决策,为处理上述问题提供了一种有效的方法。现有的基于强化学习的ECN调控方案相对较少。一些研究基于强化学习算法,根据观察到的统计数据生成适当的策略,并通过交换机的控制接口更新ECN阈值。然而却无法完全理解网络环境,从而使得学习到的策略不能总是最优的,特别是在存在incast和大小流混合的情况下。同时这些算法会导致一定程度的内存开销和带宽消耗,这对于资源受限的交换机来说是不切实际和不可接受的。
发明内容
针对上述现有技术中所存在的ECN阈值调控算法灵活性差、无法适应高度动态的网络环境,或者无法满足不同特征的流量的需求等问题,本发明的目的旨在提供一种基于多智能体强化学习的数据中心网络ECN自动调控方法,以动态适应网络环境以及快速变化的流量模式。
为了实现上述目的,本发明所采用的技术方案如下:
一种基于多智能体强化学习的数据中心网络ECN自动调控方法,包括以下步骤:
步骤1、将数据中心网络ECN阈值调控建模为多智能体强化学习问题;数据中心网络中由各个交换机来负责ECN阈值调控以实现时延和吞吐量的平衡;将数据中心中每个交换机与一个独立的智能体关联,结合马尔可夫决策过程搭建深度强化学习框架;
步骤2、对于每个智能体,依据深度强化学习框架中得到的网络状态信息,结合设计的奖励函数以及动作空间,利用多智能体强化学习中的独立近似策略优化算法IPPO算法进行训练,从而根据动态的网络状态选择ECN阈值调控策略;
步骤3、对于每个智能体,采用混合训练策略,将离线预训练和在线增量学习相结合,提高模型的整体质量以适应动态变化的网络状态。
1)表示智能体的状态空间;在数据中心场景下,将状态空间分为两类,第一类为交换机中基本的网络环境特征,包括当前队列长度qlen、每条链路的数据输出速率txRate、ECN标记数据包的输出速率txRate(m)和当前ECN阈值ECN(c);第二类为通过简单计算得到的网络特征,包括incast程度Dincast和当前大小流比例Rflow;对于incast程度,根据数据包头部信息确定发送者和接收者,计算每个多对一流量模式中与同一接收者通信的发送者总数,并将这个数字作为incast程度输出;对于当前大小流比例,根据流的大小,累积大小超过1MB的流为大流,反之则为小流;然后,计算大小流的比例;最终,通过一个六元组来表示时刻t处的网络状态信息st,即st=(qlen,txRate,txRate(m),ECN(c),Dincast,Rflow);将网络状态信息st标准化后,使用最后k个监控时刻的队列状态作为每个调整周期的时序状态信息s′t,即
2)表示智能体动作空间;智能体的动作被定义为关联的交换机中的ECN设置;采用AQM方案中的ECN参数设置,包括高标记阈值Kmax、低标记阈值Kmin和标记概率Pmax,即动作空间at={Kmax,Kmin,Pmax};将连续动作空间离散化,使用指数函数E(n)=α×2nKB来确定离散动作值,即Kmin和Kmax,其中α为尺度参数,n为智能体输出值,计算中将保证Kmin小于Kmax;将离散化标记概率Pmax调整间隔设置为5%;同时,设置了一个时间参数Δt限制两个相邻调整操作之间的时间间隔避免过于频繁的调整对交换机性能造成负面影响;
3)表示奖励函数;奖励函数是使用奖励和惩罚的机制来优化智能体学习的策略;使用在本地观察到的链路利用率和队列长度来表征吞吐量和数据包延迟;奖励函数定义为r=β1×T+β2×La,其中用于表征表示链路利用率,txRate表示链路的输出速率,BW表示链路的总带宽;以平均队列长度的倒数表征延迟,其中queueLength表示平均队列长度;β1和β2为加权参数,用于平衡吞吐量和延迟之间的权重,其中β1+β2=1;
5)γ是折扣因子;γ∈[0,1],控制着即时回报和未来回报的偏爱程度;强化学习智能体的目标是选择能够在每个状态下获得最高奖励的最佳动作,以便在长期内最大化累积奖励。
步骤2中所述的利用多智能体强化学习中的独立近似策略优化算法IPPO进行训练,多智能体IPPO是一种独立学习算法,其中每个分布式智能体,即交换机,根据其本地状态信息独立学习并估计其局部价值函数,而不需要全局经验回放;具体描述如下:每个交换机独立执行IPPO算法并学习,可以表示为价值函数Vω(st)由可学习参数ω利用广义优势估计参数化,其中ω表示可学习参数,st表示t时刻的状态信息;每个交换机都有一个优势估计函数定义如下:其中δt=rt+γVω(st+1)-Vω(st),Vω(st)是通过神经网络估计的得到的t时刻的价值,ω是可学习参数,st表示t时刻的状态信息,γ为折扣因子;交换机学习策略π,策略损失函数为:
步骤3中所述的对于每个智能体,采用混合训练策略,将离线预训练和在线增量学习相结合,具体为:在部署时,首先根据收集到的历史网络统计数据离线预训练模型,以获得初始模型;离线训练后,将预训练好的初始模型加载到交换机上,然后交换机利用本地网络状态信息,逐步在线训练自己的本地模型,提高模型的整体质量;在在线训练期间,选择探索动作的概率即折扣因子γ呈指数衰减,产生大奖励的动作被优先考虑。
本发明有益效果
本发明与现有技术相比的优点在于:本发明可以实现“零配置”的自动ECN阈值调控以响应动态变化的数据中心网络环境,并且可以轻松部署,与现有的基于ECN的方案具有良好的兼容性;同时,设计更合理、更全面、实用性更强的网络环境量化机制,考虑多种导致拥塞的关键因素,包括incast程度和大小流的比例,增强算法对网络状态的理解,从而输出更准确的ECN配置策略以实现数据中心更好的性能;本发明基于多智能体强化学习中的IPPO算法,通过分布式的设计减少了状态空间的同时减少了由于经验重放导致的不可估量的系统开销;此外,改进奖励函数使得模型能够更好地适应优化目标,加快收敛速度并提高算法的鲁棒性。
附图说明
图1是本发明的框架的总览图。
具体实施方式
以下结合附图及实施例对本发明进行详细描述。显然,所列举的实例只用于解释本发明,并非用于限定本发明的范围。
实施例
本发明所述的基于多智能体强化学习的数据中心网络ECN自动调控方法,包括以下步骤:
步骤1、将数据中心网络ECN阈值调控建模为多智能体强化学习问题;数据中心网络中由各个交换机来负责ECN阈值调控以实现时延和吞吐量的平衡;将数据中心中每个交换机与一个独立的智能体关联,结合马尔可夫决策过程搭建深度强化学习框架;
步骤2、对于每个智能体,依据深度强化学习框架中得到的网络状态信息,结合设计的奖励函数以及动作空间,利用多智能体强化学习中的独立近似策略优化算法IPP0算法进行训练,从而根据动态的网络状态选择ECN阈值调控策略;
步骤3、对于每个智能体,采用混合训练策略,将离线预训练和在线增量学习相结合,提高模型的整体质量以适应动态变化的网络状态。
1)表示智能体的状态空间;在数据中心场景下,将状态空间分为两类,第一类为交换机中基本的网络环境特征,包括当前队列长度qlen、每条链路的数据输出速率txRate、ECN标记数据包的输出速率txRate(m)和当前ECN阈值ECN(c);第二类为通过简单计算得到的网络特征,包括incast程度Dincast和当前大小流比例Rflow;对于incast程度,根据数据包头部信息确定发送者和接收者,计算每个多对一流量模式中与同一接收者通信的发送者总数,并将这个数字作为incast程度输出;对于当前大小流比例,根据流的大小,累积大小超过1MB的流为大流,反之则为小流;然后,计算大小流的比例;最终,通过一个六元组来表示时刻t处的网络状态信息st,即st=(qlen,txRate,txRate(m),ECN(c),Dincast,Rflow);将网络状态信息st标准化后,使用最后k个监控时刻的队列状态作为每个调整周期的时序状态信息s′t,即图1中,网络信息收集模块将收集状态信息并交给智能体处理;
2)表示智能体动作空间;智能体的动作被定义为关联的交换机中的ECN设置;采用AQM方案中的ECN参数设置,包括高标记阈值Kmax、低标记阈值Kmin和标记概率Pmax,即动作空间at={Kmax,Kmin,Pmax};将连续动作空间离散化,使用指数函数E(n)=α×2nKB来确定离散动作值,即Kmin和Kmax,其中α为尺度参数,n为智能体输出值,计算中将保证Kmin小于Kmax;将离散化标记概率Pmax调整间隔设置为5%;同时,设置了一个时间参数Δt限制两个相邻调整操作之间的时间间隔避免过于频繁的调整对交换机性能造成负面影响;图1中,智能体将生产的动作策略交给ECN配置模块生成ECN配置模版,并最终交给队列管理模块进行ECN配置的部署;
3)表示奖励函数;奖励函数是使用奖励和惩罚的机制来优化智能体学习的策略;使用在本地观察到的链路利用率和队列长度来表征吞吐量和数据包延迟;奖励函数定义为r=β1×T+β2×La,其中用于表征表示链路利用率,txRate表示链路的输出速率,BW表示链路的总带宽;以平均队列长度的倒数表征延迟,其中queueLength表示平均队列长度;β1和β2为加权参数,用于平衡吞吐量和延迟之间的权重,其中β1+β2=1;图1中奖励生成模块获得来自网络信息收集模块的网络性能指标并生成奖励反馈给智能体;
5)γ是折扣因子;γ∈[0,1],控制着即时回报和未来回报的偏爱程度;强化学习智能体的目标是选择能够在每个状态下获得最高奖励的最佳动作,以便在长期内最大化累积奖励。
步骤2中所述的利用多智能体强化学习中的独立近似策略优化算法IPPO进行训练,多智能体IPPO是一种独立学习算法,其中每个分布式智能体,即交换机,根据其本地状态信息独立学习并估计其局部价值函数,而不需要全局经验回放;具体描述如下:每个交换机独立执行IPPO算法并学习,可以表示为价值函数Vω(st)由可学习参数ω利用广义优势估计参数化,其中ω表示可学习参数,st表示t时刻的状态信息;每个交换机都有一个优势估计函数定义如下:其中δt=rt+γVω(st+1)-Vω(st),Vω(st)是通过神经网络估计的得到的t时刻的价值,ω是可学习参数,st表示t时刻的状态信息,γ为折扣因子;交换机学习策略π,策略损失函数为:
步骤3中所述的对于每个智能体,采用混合训练策略,将离线预训练和在线增量学习相结合,具体为:在交换机上部署时分为两个阶段,首先是离线预训练阶段,这个阶段中将分为3个步骤,首先需要进行数据收集,主要是收集历史网络统计数据,其次是对收集到的数据预处理,最后是根据预处理后的数据进行模型预训练以获得初始模型;接下来是在线增量学习阶段,将经过预训练阶段的初始模型加载到交换机上,此时交换机成为IPPODRL智能体并且进行在线增量学习;在线增量学习过程中,首先由网络信息收集模块收集网络的状态信息,并将状态交给DRL智能体,智能体根据模型输出动作后将动作交给ECN配置模块,ECN配置模块根据输出的动作生成配置模版并交给队列管理模块进行ECN配置的部署,此时选择探索动作的概率即折扣因子γ呈指数衰减,产生大奖励的动作被优先考虑;同时网络信息收集模块将收集到的网络的状态信息中的网络性能指标部分交给奖励生成模块,奖励生成模块生成奖励后反馈给DRL智能体进行策略优化。
Claims (4)
1.一种基于多智能体强化学习的数据中心网络ECN自动调控方法,其特征在于该方法包括以下具体步骤:
步骤1、将数据中心网络ECN阈值调控建模为多智能体强化学习问题;数据中心网络中由各个交换机来负责ECN阈值调控以实现时延和吞吐量的平衡;将数据中心中每个交换机与一个独立的智能体关联,结合马尔可夫决策过程搭建深度强化学习框架;
步骤2、对于每个智能体,依据深度强化学习框架中得到的网络状态信息,结合设计的奖励函数以及动作空间,利用多智能体强化学习中的独立近似策略优化算法IPPO算法进行训练,从而根据动态的网络状态选择ECN阈值调控策略;
步骤3、对于每个智能体,采用混合训练策略,将离线预训练和在线增量学习相结合,提高模型的整体质量以适应动态变化的网络状态。
2.根据权利要求1所述的基于多智能体强化学习的数据中心网络ECN自动调控方法,其特征在于,步骤1所述的将数据中心中每个交换机与一个独立的智能体关联,结合马尔可夫决策过程搭建深度强化学习框架,具体为:将马尔可夫决策过程由五元组表示;
1)表示智能体的状态空间;在数据中心场景下,将状态空间分为两类,第一类为交换机中基本的网络环境特征,包括当前队列长度qlen、每条链路的数据输出速率txRate、ECN标记数据包的输出速率txRate(m)和当前ECN阈值ECN(c);第二类为通过简单计算得到的网络特征,包括incast程度Dincast和当前大小流比例Rflow;对于incast程度,根据数据包头部信息确定发送者和接收者,计算每个多对一流量模式中与同一接收者通信的发送者总数,并将这个数字作为incast程度输出;对于当前大小流比例,根据流的大小,累积大小超过1MB的流为大流,反之则为小流;然后,计算大小流的比例;最终,通过一个六元组来表示时刻t处的网络状态信息st,即st=(qlen,txRate,txRate(m),ECN(c),Dincast,Rflow);将网络状态信息st标准化后,使用最后k个监控时刻的队列状态作为每个调整周期的时序状态信息s′t,即
2)表示智能体动作空间;智能体的动作被定义为关联的交换机中的ECN设置;采用AQM方案中的ECN参数设置,包括高标记阈值Kmax、低标记阈值Kmin和标记概率Pmax,即动作空间at={Kmax,Kmin,Pmax};将连续动作空间离散化,使用指数函数E(n)=α×2n KB来确定离散动作值,即Kmin和Kmax,其中α为尺度参数,n为智能体输出值,计算中将保证Kmin小于Kmax;将离散化标记概率Pmax调整间隔设置为5%;同时,设置了一个时间参数Δt限制两个相邻调整操作之间的时间间隔避免过于频繁的调整对交换机性能造成负面影响;
3)表示奖励函数;奖励函数是使用奖励和惩罚的机制来优化智能体学习的策略;使用在本地观察到的链路利用率和队列长度来表征吞吐量和数据包延迟;奖励函数定义为r=β1×T+β2×La,其中用于表征表示链路利用率,txRate表示链路的输出速率,BW表示链路的总带宽;以平均队列长度的倒数表征延迟,其中queueLength表示平均队列长度;β1和β2为加权参数,用于平衡吞吐量和延迟之间的权重,其中β1+β2=1;
5)γ是折扣因子;γ∈[0,1],控制着即时回报和未来回报的偏爱程度;强化学习智能体的目标是选择能够在每个状态下获得最高奖励的最佳动作,以便在长期内最大化累积奖励。
3.根据权利要求1所述的基于多智能体强化学习的数据中心网络ECN自动调控方法,其特征在于,步骤2中所述的利用多智能体强化学习中的独立近似策略优化算法IPPO进行训练,多智能体IPPO是一种独立学习算法,其中每个分布式智能体,即交换机,根据其本地状态信息独立学习并估计其局部价值函数,而不需要全局经验回放;具体描述如下:每个交换机独立执行IPPO算法并学习,能够表示为价值函数Vω(st)由可学习参数ω利用广义优势估计参数化,其中ω表示可学习参数,st表示t时刻的状态信息;每个交换机都有一个优势估计函数定义如下:其中δt=rt+γVω(st+1)-Vω(st),Vω(st)是通过神经网络估计的得到的t时刻的价值,ω是可学习参数,st表示t时刻的状态信息,γ为折扣因子;交换机学习策略π,策略损失函数为:其中表示由θold参数化的策略,πθ表示由θ参数化的策略,clip表示clip函数,∈表示误差值;价值估计需要最小化平方误差损失,具体如下:其中是从时间t开始从环境中获得的奖励的总和。
4.根据权利要求1所述的基于多智能体强化学习的数据中心网络ECN自动调控方法,其特征在于,步骤3中所述的对于每个智能体,采用混合训练策略,将离线预训练和在线增量学习相结合,具体为:在部署时,首先根据收集到的历史网络统计数据离线预训练模型,以获得初始模型;离线训练后,将预训练好的初始模型加载到交换机上,然后交换机利用本地网络状态信息,逐步在线训练自己的本地模型,提高模型的整体质量;在在线训练期间,选择探索动作的概率即折扣因子γ呈指数衰减,产生大奖励的动作被优先考虑。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211099120.2A CN115529278A (zh) | 2022-09-07 | 2022-09-07 | 基于多智能体强化学习的数据中心网络ecn自动调控方法 |
US18/454,705 US20240080270A1 (en) | 2022-09-07 | 2023-08-23 | Method for automatically regulating explicit congestion notification of data center network based on multi-agent reinforcement learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211099120.2A CN115529278A (zh) | 2022-09-07 | 2022-09-07 | 基于多智能体强化学习的数据中心网络ecn自动调控方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115529278A true CN115529278A (zh) | 2022-12-27 |
Family
ID=84697647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211099120.2A Pending CN115529278A (zh) | 2022-09-07 | 2022-09-07 | 基于多智能体强化学习的数据中心网络ecn自动调控方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20240080270A1 (zh) |
CN (1) | CN115529278A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115801708A (zh) * | 2023-02-03 | 2023-03-14 | 中国科学技术大学 | 基于强化学习的ecn水线自适应配置方法 |
CN116820711A (zh) * | 2023-06-07 | 2023-09-29 | 上海幽孚网络科技有限公司 | 任务驱动的自治代理算法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117521725A (zh) * | 2016-11-04 | 2024-02-06 | 渊慧科技有限公司 | 加强学习系统 |
-
2022
- 2022-09-07 CN CN202211099120.2A patent/CN115529278A/zh active Pending
-
2023
- 2023-08-23 US US18/454,705 patent/US20240080270A1/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115801708A (zh) * | 2023-02-03 | 2023-03-14 | 中国科学技术大学 | 基于强化学习的ecn水线自适应配置方法 |
CN115801708B (zh) * | 2023-02-03 | 2023-04-21 | 中国科学技术大学 | 基于强化学习的ecn水线自适应配置方法 |
CN116820711A (zh) * | 2023-06-07 | 2023-09-29 | 上海幽孚网络科技有限公司 | 任务驱动的自治代理算法 |
Also Published As
Publication number | Publication date |
---|---|
US20240080270A1 (en) | 2024-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115529278A (zh) | 基于多智能体强化学习的数据中心网络ecn自动调控方法 | |
CN113254197B (zh) | 一种基于深度强化学习的网络资源调度方法及系统 | |
Xu et al. | Experience-driven networking: A deep reinforcement learning based approach | |
WO2021227508A1 (zh) | 基于深度强化学习的工业5g动态多优先级多接入方法 | |
CN107040961B (zh) | 一种无线传感器网络拥塞控制方法 | |
CN112600759B (zh) | 基于深度强化学习在Overlay网络下多路径流量调度方法及系统 | |
CN111818570A (zh) | 一种面向真实网络环境的智能拥塞控制方法及系统 | |
CN112346854A (zh) | 一种分层协同决策的网内资源调度方法及系统、存储介质 | |
CN111526036B (zh) | 一种短流量实时性优化方法、系统、网络传输终端 | |
CN111711666A (zh) | 一种基于强化学习的车联网云计算资源优化方法 | |
CN114116047A (zh) | 一种基于强化学习的车载计算密集型应用的v2i卸载方法 | |
EP4024212A1 (en) | Method for scheduling interference workloads on edge network resources | |
CN114884895A (zh) | 一种基于深度强化学习的智能流量调度方法 | |
CN110659745A (zh) | 一种具有动态学习速率边界的分布式自适应矩估计方法 | |
CN115714741A (zh) | 一种基于协同多智能体强化学习的路由决策方法及系统 | |
CN110601916A (zh) | 一种基于机器学习的流量采样和应用感知的系统 | |
CN115314399B (zh) | 一种基于逆强化学习的数据中心流量调度方法 | |
CN115665264A (zh) | 一种基于时延感知的电力通信网自主业务编排方法和装置 | |
Han et al. | EdAR: An experience-driven multipath scheduler for seamless handoff in mobile networks | |
CN115914112A (zh) | 基于pdaa3c的多路径调度算法及系统 | |
CN114301845B (zh) | 一种自适应的数据中心网络传输协议选择方法 | |
CN113872873B (zh) | 一种适合5g新应用的多场景跨层拥塞控制方法 | |
CN116132353A (zh) | 基于ddqn的tsn路由选择方法 | |
CN114938374A (zh) | 跨协议负载均衡方法及系统 | |
CN115150335A (zh) | 一种基于深度强化学习的最优流量分割的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |