CN115529278A

CN115529278A - 基于多智能体强化学习的数据中心网络ecn自动调控方法

Info

Publication number: CN115529278A
Application number: CN202211099120.2A
Authority: CN
Inventors: 王廷; 程凯
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2022-09-07
Filing date: 2022-09-07
Publication date: 2022-12-27
Also published as: US20240080270A1

Abstract

本发明公开了一种基于多智能体强化学习的数据中心网络ECN自动调控方法，该方法具体包括以下步骤：步骤1、将数据中心网络ECN阈值调控建模为多智能体强化学习问题；步骤2、根据数据中心网络的特征利用多智能体强化学习中的独立近似策略优化算法IPPO进行训练；步骤3、结合离线预训练和在线增量学习使得部署在各个交换机上的模型能够快速适应动态的数据中心网络环境。本发明基于多智能体强化学习技术，数据中心网络中各交换机根据现有的网络状态信息选择ECN阈值调控策略，提高数据中心网络性能。同时，本发明采用了独立近似策略优化算法IPPO，避免不必要的内存开销和带宽成本，提高计算效率与算法性能。

Description

基于多智能体强化学习的数据中心网络ECN自动调控方法

技术领域

本发明属于数据中心网络拥塞控制领域，特别地涉及基于多智能体强化学习的、用于数据中心中交换机的ECN阈值自动调控方法。

背景技术

随着云时代的到来，计算和存储逐渐向云端转移。作为云计算的关键基础设施，由海量服务器和网络设备组成的数据中心(DC)在支撑个人和企业强大的计算和海量存储需求方面发挥着越来越重要的作用。为满足日益增长的基于云的服务需求，数据中心的服务器数量急剧增加，这反过来又需要大量的网络设备组成一个互联系统，最终导致数据中心网络规模迅速扩大、复杂度极高。因此，如何在如此复杂、动态、多样化的大规模数据中心网络(DCN)中提供有效的拥塞控制(CC)以保证高质量和响应式的网络服务面临着多方面的挑战，主要在于三个方面。

一方面，现代云数据中心通常配备大量计算或数据密集型应用，例如复杂的图像处理、科学计算、大数据处理以及分布式存储和人工智能(AI)模型训练，从而催生了许多分布式计算框架，如MapReduce、Spark和Flink，用于提供高性能计算。然而，这种分布式计算范式不断产生大量具有高扇入的多对一分区聚合模式流量，这不可避免地导致难以处理的incast问题，伴随着持续的队列建立、增加的延迟、抖动甚至数据包丢失。因此，如何设计一种incast感知的拥塞控制方案成为数据中心网络迫切需要关注的问题。

另一方面，作为一个多样化的环境，云数据中心通常会提供各种服务，这些服务会产生各种类型的流量，这些流量具有不同的特征，对网络质量的要求也不同。例如，长时间运行的大象流(如数据复制、虚拟机迁移)通常对吞吐量有很高的要求，但对网络延迟有一定的容忍度，这最好通过交换机侧的长队列设置来实现。相比之下，短寿命的小鼠流(例如控制、管理和查询消息)对数据包延迟有严格的限制，但很少对吞吐量有要求，它更偏向交换机侧的短队列长度。因此，如何自适应地调整队列长度以同时满足不同类型流量冲突的需求仍然是另一个关键挑战。

最后但同样重要的是，数据中心网络被认为是一个高度动态的网络环境，其中的流量模式、大小流的比例都在快速变化，这给拥塞控制机制带来了很大的不确定性。这就提出了另一个关键挑战，即如何使具有自学习和自决策能力的网络拥塞控制策略能够动态适应实时网络环境。

显式拥塞通知(ECN)已被公认为促进网络拥塞控制的有效手段，并已得到数据中心商品交换机的广泛支持。在这些现有的基于ECN的拥塞控制方案中，ECN标记阈值的设置策略在确定其可行性和有效性方面起着至关重要的作用。一般来说，设置ECN标记阈值的策略主要有静态设置，动态设置和自学习的自动设置三种策略。静态设置方案要求在算法的整个执行周期中预先为交换机配置一个固定的ECN标记阈值。然而，这种静态设置显然既不能适应动态的网络环境，也不能同时满足大小流的不同需求，高阈值会影响延迟敏感的老鼠流，而低阈值会导致大象流的带宽吞吐量下降甚至出现饥饿的情况。相比之下，动态方案可以基于一些简单的判断机制以动态的方式调整ECN标记阈值。但是，调整策略需要手动预定义，不能根据实时网络状况自行调整。更糟糕的是，现有的动态方法要么只考虑一个简单的因素(如链路利用率、瞬时队列长度)来调整阈值，要么只适用于多队列的情况。强化学习(RL)可以使代理通过与环境的持续交互来动态地做出具有最大回报的决策，为处理上述问题提供了一种有效的方法。现有的基于强化学习的ECN调控方案相对较少。一些研究基于强化学习算法，根据观察到的统计数据生成适当的策略，并通过交换机的控制接口更新ECN阈值。然而却无法完全理解网络环境，从而使得学习到的策略不能总是最优的，特别是在存在incast和大小流混合的情况下。同时这些算法会导致一定程度的内存开销和带宽消耗，这对于资源受限的交换机来说是不切实际和不可接受的。

发明内容

针对上述现有技术中所存在的ECN阈值调控算法灵活性差、无法适应高度动态的网络环境，或者无法满足不同特征的流量的需求等问题，本发明的目的旨在提供一种基于多智能体强化学习的数据中心网络ECN自动调控方法，以动态适应网络环境以及快速变化的流量模式。

为了实现上述目的，本发明所采用的技术方案如下：

一种基于多智能体强化学习的数据中心网络ECN自动调控方法，包括以下步骤：

步骤1、将数据中心网络ECN阈值调控建模为多智能体强化学习问题；数据中心网络中由各个交换机来负责ECN阈值调控以实现时延和吞吐量的平衡；将数据中心中每个交换机与一个独立的智能体关联，结合马尔可夫决策过程搭建深度强化学习框架；

步骤2、对于每个智能体，依据深度强化学习框架中得到的网络状态信息，结合设计的奖励函数以及动作空间，利用多智能体强化学习中的独立近似策略优化算法IPPO算法进行训练，从而根据动态的网络状态选择ECN阈值调控策略；

步骤3、对于每个智能体，采用混合训练策略，将离线预训练和在线增量学习相结合，提高模型的整体质量以适应动态变化的网络状态。

步骤1所述的将数据中心中每个交换机与一个独立的智能体关联，结合马尔可夫决策过程搭建深度强化学习框架，具体为：将马尔可夫决策过程由五元组

表示；

1)

表示智能体的状态空间；在数据中心场景下，将状态空间分为两类，第一类为交换机中基本的网络环境特征，包括当前队列长度qlen、每条链路的数据输出速率txRate、ECN标记数据包的输出速率txRate(m)和当前ECN阈值ECN(c)；第二类为通过简单计算得到的网络特征，包括incast程度D_incast和当前大小流比例R_flow；对于incast程度，根据数据包头部信息确定发送者和接收者，计算每个多对一流量模式中与同一接收者通信的发送者总数，并将这个数字作为incast程度输出；对于当前大小流比例，根据流的大小，累积大小超过1MB的流为大流，反之则为小流；然后，计算大小流的比例；最终，通过一个六元组来表示时刻t处的网络状态信息s_t，即s_t＝(qlen，txRate，txRate^(m)，ECN^(c)，D_incast，R_flow)；将网络状态信息s_t标准化后，使用最后k个监控时刻的队列状态作为每个调整周期的时序状态信息s′_t，即

2)

表示智能体动作空间；智能体的动作被定义为关联的交换机中的ECN设置；采用AQM方案中的ECN参数设置，包括高标记阈值K_max、低标记阈值K_min和标记概率P_max，即动作空间a_t＝{K_max，K_min，P_max}；将连续动作空间离散化，使用指数函数E(n)＝α×2ⁿKB来确定离散动作值，即K_min和K_max，其中α为尺度参数，n为智能体输出值，计算中将保证K_min小于K_max；将离散化标记概率P_max调整间隔设置为5％；同时，设置了一个时间参数Δt限制两个相邻调整操作之间的时间间隔避免过于频繁的调整对交换机性能造成负面影响；

3)

表示奖励函数；奖励函数是使用奖励和惩罚的机制来优化智能体学习的策略；使用在本地观察到的链路利用率和队列长度来表征吞吐量和数据包延迟；奖励函数定义为r＝β₁×T+β₂×L_a，其中

用于表征表示链路利用率，txRate表示链路的输出速率，BW表示链路的总带宽；

以平均队列长度的倒数表征延迟，其中queueLength表示平均队列长度；β₁和β₂为加权参数，用于平衡吞吐量和延迟之间的权重，其中β₁+β₂＝1；

4)

表示转移概率；

是在第t次调整中采取行动a_t后从状态s_t到s_t+1的转移概率；该转移概率由强化学习算法训练智能体后得到；

5)γ是折扣因子；γ∈[0，1]，控制着即时回报和未来回报的偏爱程度；强化学习智能体的目标是选择能够在每个状态下获得最高奖励的最佳动作，以便在长期内最大化累积奖励。

步骤2中所述的利用多智能体强化学习中的独立近似策略优化算法IPPO进行训练，多智能体IPPO是一种独立学习算法，其中每个分布式智能体，即交换机，根据其本地状态信息独立学习并估计其局部价值函数，而不需要全局经验回放；具体描述如下：每个交换机独立执行IPPO算法并学习，可以表示为价值函数V_ω(s_t)由可学习参数ω利用广义优势估计参数化，其中ω表示可学习参数，s_t表示t时刻的状态信息；每个交换机都有一个优势估计函数

定义如下：

其中δ_t＝r_t+γV_ω(s_t+1)-V_ω(s_t)，V_ω(s_t)是通过神经网络估计的得到的t时刻的价值，ω是可学习参数，s_t表示t时刻的状态信息，γ为折扣因子；交换机学习策略π，策略损失函数为：

其中

表示由θ_old参数化的策略，π_θ表示由θ参数化的策略，clip表示clip函数，∈表示误差值；价值估计需要最小化平方误差损失，具体如下：

其中

是从时间t开始从环境中获得的奖励的总和。

步骤3中所述的对于每个智能体，采用混合训练策略，将离线预训练和在线增量学习相结合，具体为：在部署时，首先根据收集到的历史网络统计数据离线预训练模型，以获得初始模型；离线训练后，将预训练好的初始模型加载到交换机上，然后交换机利用本地网络状态信息，逐步在线训练自己的本地模型，提高模型的整体质量；在在线训练期间，选择探索动作的概率即折扣因子γ呈指数衰减，产生大奖励的动作被优先考虑。

本发明有益效果

本发明与现有技术相比的优点在于：本发明可以实现“零配置”的自动ECN阈值调控以响应动态变化的数据中心网络环境，并且可以轻松部署，与现有的基于ECN的方案具有良好的兼容性；同时，设计更合理、更全面、实用性更强的网络环境量化机制，考虑多种导致拥塞的关键因素，包括incast程度和大小流的比例，增强算法对网络状态的理解，从而输出更准确的ECN配置策略以实现数据中心更好的性能；本发明基于多智能体强化学习中的IPPO算法，通过分布式的设计减少了状态空间的同时减少了由于经验重放导致的不可估量的系统开销；此外，改进奖励函数使得模型能够更好地适应优化目标，加快收敛速度并提高算法的鲁棒性。

附图说明

图1是本发明的框架的总览图。

具体实施方式

以下结合附图及实施例对本发明进行详细描述。显然，所列举的实例只用于解释本发明，并非用于限定本发明的范围。

实施例

本发明所述的基于多智能体强化学习的数据中心网络ECN自动调控方法，包括以下步骤：

步骤2、对于每个智能体，依据深度强化学习框架中得到的网络状态信息，结合设计的奖励函数以及动作空间，利用多智能体强化学习中的独立近似策略优化算法IPP0算法进行训练，从而根据动态的网络状态选择ECN阈值调控策略；

表示；

1)

表示智能体的状态空间；在数据中心场景下，将状态空间分为两类，第一类为交换机中基本的网络环境特征，包括当前队列长度qlen、每条链路的数据输出速率txRate、ECN标记数据包的输出速率txRate^(m)和当前ECN阈值ECN(c)；第二类为通过简单计算得到的网络特征，包括incast程度D_incast和当前大小流比例R_flow；对于incast程度，根据数据包头部信息确定发送者和接收者，计算每个多对一流量模式中与同一接收者通信的发送者总数，并将这个数字作为incast程度输出；对于当前大小流比例，根据流的大小，累积大小超过1MB的流为大流，反之则为小流；然后，计算大小流的比例；最终，通过一个六元组来表示时刻t处的网络状态信息s_t，即s_t＝(qlen，txRate，txRate^(m)，ECN^(c)，D_incast，R_flow)；将网络状态信息s_t标准化后，使用最后k个监控时刻的队列状态作为每个调整周期的时序状态信息s′_t，即

图1中，网络信息收集模块将收集状态信息并交给智能体处理；

2)

表示智能体动作空间；智能体的动作被定义为关联的交换机中的ECN设置；采用AQM方案中的ECN参数设置，包括高标记阈值K_max、低标记阈值K_min和标记概率P_max，即动作空间a_t＝{K_max，K_min，P_max}；将连续动作空间离散化，使用指数函数E(n)＝α×2ⁿKB来确定离散动作值，即K_min和K_max，其中α为尺度参数，n为智能体输出值，计算中将保证K_min小于K_max；将离散化标记概率P_max调整间隔设置为5％；同时，设置了一个时间参数Δt限制两个相邻调整操作之间的时间间隔避免过于频繁的调整对交换机性能造成负面影响；图1中，智能体将生产的动作策略交给ECN配置模块生成ECN配置模版，并最终交给队列管理模块进行ECN配置的部署；

3)

以平均队列长度的倒数表征延迟，其中queueLength表示平均队列长度；β₁和β₂为加权参数，用于平衡吞吐量和延迟之间的权重，其中β₁+β₂＝1；图1中奖励生成模块获得来自网络信息收集模块的网络性能指标并生成奖励反馈给智能体；

4)

表示转移概率；

是在第t次调整中采取行动a_t后从状态s_t到s_t+1的转移概率；该转移概率由强化学习算法训练智能体后得到；在图1中，DRL智能体中的参数表示转移概率；

定义如下：

其中

表示由θ_oId参数化的策略，π_θ表示由θ参数化的策略，clip表示clip函数，∈表示误差值；价值估计需要最小化平方误差损失，具体如下：

其中

是从时间t开始从环境中获得的奖励的总和。

步骤3中所述的对于每个智能体，采用混合训练策略，将离线预训练和在线增量学习相结合，具体为：在交换机上部署时分为两个阶段，首先是离线预训练阶段，这个阶段中将分为3个步骤，首先需要进行数据收集，主要是收集历史网络统计数据，其次是对收集到的数据预处理，最后是根据预处理后的数据进行模型预训练以获得初始模型；接下来是在线增量学习阶段，将经过预训练阶段的初始模型加载到交换机上，此时交换机成为IPPODRL智能体并且进行在线增量学习；在线增量学习过程中，首先由网络信息收集模块收集网络的状态信息，并将状态交给DRL智能体，智能体根据模型输出动作后将动作交给ECN配置模块，ECN配置模块根据输出的动作生成配置模版并交给队列管理模块进行ECN配置的部署，此时选择探索动作的概率即折扣因子γ呈指数衰减，产生大奖励的动作被优先考虑；同时网络信息收集模块将收集到的网络的状态信息中的网络性能指标部分交给奖励生成模块，奖励生成模块生成奖励后反馈给DRL智能体进行策略优化。

Claims

1.一种基于多智能体强化学习的数据中心网络ECN自动调控方法，其特征在于该方法包括以下具体步骤：

2.根据权利要求1所述的基于多智能体强化学习的数据中心网络ECN自动调控方法，其特征在于，步骤1所述的将数据中心中每个交换机与一个独立的智能体关联，结合马尔可夫决策过程搭建深度强化学习框架，具体为：将马尔可夫决策过程由五元组

表示；

1)

表示智能体的状态空间；在数据中心场景下，将状态空间分为两类，第一类为交换机中基本的网络环境特征，包括当前队列长度qlen、每条链路的数据输出速率txRate、ECN标记数据包的输出速率txRate^(m)和当前ECN阈值ECN^(c)；第二类为通过简单计算得到的网络特征，包括incast程度D_incast和当前大小流比例R_flow；对于incast程度，根据数据包头部信息确定发送者和接收者，计算每个多对一流量模式中与同一接收者通信的发送者总数，并将这个数字作为incast程度输出；对于当前大小流比例，根据流的大小，累积大小超过1MB的流为大流，反之则为小流；然后，计算大小流的比例；最终，通过一个六元组来表示时刻t处的网络状态信息s_t，即s_t＝(qlen,txRate,txRate^(m),ECN^(c),D_incast,R_flow)；将网络状态信息s_t标准化后，使用最后k个监控时刻的队列状态作为每个调整周期的时序状态信息s′_t，即

2)

表示智能体动作空间；智能体的动作被定义为关联的交换机中的ECN设置；采用AQM方案中的ECN参数设置，包括高标记阈值K_max、低标记阈值K_min和标记概率P_max，即动作空间a_t＝{K_max,K_min,P_max}；将连续动作空间离散化，使用指数函数E(n)＝α×2ⁿ KB来确定离散动作值，即K_min和K_max，其中α为尺度参数，n为智能体输出值，计算中将保证K_min小于K_max；将离散化标记概率P_max调整间隔设置为5％；同时，设置了一个时间参数Δt限制两个相邻调整操作之间的时间间隔避免过于频繁的调整对交换机性能造成负面影响；

3)

4)

表示转移概率；

5)γ是折扣因子；γ∈[0,1]，控制着即时回报和未来回报的偏爱程度；强化学习智能体的目标是选择能够在每个状态下获得最高奖励的最佳动作，以便在长期内最大化累积奖励。

3.根据权利要求1所述的基于多智能体强化学习的数据中心网络ECN自动调控方法，其特征在于，步骤2中所述的利用多智能体强化学习中的独立近似策略优化算法IPPO进行训练，多智能体IPPO是一种独立学习算法，其中每个分布式智能体，即交换机，根据其本地状态信息独立学习并估计其局部价值函数，而不需要全局经验回放；具体描述如下：每个交换机独立执行IPPO算法并学习，能够表示为价值函数V_ω(s_t)由可学习参数ω利用广义优势估计参数化，其中ω表示可学习参数，s_t表示t时刻的状态信息；每个交换机都有一个优势估计函数

定义如下：

其中

其中

是从时间t开始从环境中获得的奖励的总和。

4.根据权利要求1所述的基于多智能体强化学习的数据中心网络ECN自动调控方法，其特征在于，步骤3中所述的对于每个智能体，采用混合训练策略，将离线预训练和在线增量学习相结合，具体为：在部署时，首先根据收集到的历史网络统计数据离线预训练模型，以获得初始模型；离线训练后，将预训练好的初始模型加载到交换机上，然后交换机利用本地网络状态信息，逐步在线训练自己的本地模型，提高模型的整体质量；在在线训练期间，选择探索动作的概率即折扣因子γ呈指数衰减，产生大奖励的动作被优先考虑。