CN111818570B

CN111818570B - 一种面向真实网络环境的智能拥塞控制方法及系统

Info

Publication number: CN111818570B
Application number: CN202010726780.3A
Authority: CN
Inventors: 崔勇; 张蕾; 朱克伟
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-07-25
Filing date: 2020-07-25
Publication date: 2022-04-01
Anticipated expiration: 2040-07-25
Also published as: CN111818570A

Abstract

一种面向真实网络环境的智能拥塞控制方法，在真实网络环境下采集发送端及接收端的数据进行训练得到拥塞控制模型；将所得拥塞控制模型部署于真实网络环境，进行拥塞控制。本发明还提供了一种面向真实网络环境的智能拥塞控制系统，包括：信息收集模块、信息存储模块、深度强化学习模块、模型推论模块和控制器，本发明通过强化学习技术自动学习最佳或接近最佳控制策略的巨大潜力生成拥塞控制的发送策略，并在真实网络环境下训练，提升网络传输性能。本发明消除了由于在模拟环境中进行训练而导致的性能下降，并且在实际网络环境中异步执行训练和发送数据。本发明不仅保障了传输性能，同时提高了训练效率。

Description

一种面向真实网络环境的智能拥塞控制方法及系统

技术领域

本发明属于互联网技术领域，涉及机器学习在互联网传输优化中的应用，特别涉及一种面向真实网络环境的智能拥塞控制方法及系统。

背景技术

拥塞控制是网络领域的基石，近三十年来一直引发着学术界和业界的广泛关注。拥塞控制的目标是动态调节每个发送端的发送数据，以最大化总吞吐量，最小化排队延迟和最小化数据包丢失。到目前为止，关于拥塞控制的研究大致可以分为三个阶段。在第一阶段，提出了通用的拥塞控制方案，例如Reno和Cubic。这些方案公平地对待所有数据流和用户，并成为默认的部署方法。随后，研究人员尝试开发专用方案以改善拥塞控制，并研究了这些新方案与默认方案如何共存。在最新阶段，研究人员未对其他人使用的是什么方案做出任何假设，并且设计了一些方案来帮助流量在其他流量下生存良好。在前两个阶段中，已有的方案处理了诸如网络拓扑的复杂性，流量数量的差异以及流量需求/动态等非常复杂的问题。在第三阶段，由于对其他并存流量的行为的无知，拥塞控制方案变得更加复杂。传统的拥塞控制方案主要集中在前两个阶段所面临的问题上，而无法在最新阶段解决这些问题。

最近，机器学习技术发展迅速，可以解决复杂的问题，为增强拥塞控制带来了新的机遇。深度强化学习是机器学习领域最新的突破性技术之一，已被证明是解决序列决策问题的有效方法。将深度强化学习集成到网络系统中已成为一种新兴的跨学科研究主题，引起了广泛的研究关注。已有研究证明，深度强化学习技术可以用于改善网络的性能，包括拥塞控制、视频流、网络拓扑和路由等。

现有的基于强化学习的拥塞控制方法几乎都是基于模拟环境而设计的。已有方案有采用NS-2模拟器利用机器学习算法为TCP生成拥塞控制规则，也有方案使用深层强化学习来生成拥塞控制策。这些策略根据他们的模拟器将观察到的网络统计信息映射到发送速率。尽管这些方案使用强化学习方法来应对变化的网络条件，但是训练后的模型无法直接应用于实际的网络系统中。因为这些仿真器或仿真器要么是基于数值计算的，无法实际发送数据包，要么是包级仿真器无法真正反映实际网络。已有研究表明，仿真环境和实际系统之间的性能差异巨大，而且仅在现实世界的系统中部署从模拟环境训练的模型将遇到一些实际问题，例如推理成本、实时决策问题以及泛化问题等。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种面向真实网络环境的智能拥塞控制方法及系统，其第一目的在于解决强化学习技术在真实网络环境下训练的难题，第二目的在于解决现有基于仿真器或者模拟器训练的智能拥塞控制方案在真实网络环境中使用中出现的性能下降的问题。

为了实现上述目的，本发明采用的技术方案是：

一种面向真实网络环境的智能拥塞控制方法，包括：

在真实网络环境下采集发送端及接收端的数据进行训练得到拥塞控制模型；

将所得拥塞控制模型部署于真实网络环境，进行拥塞控制。

优选地，所述在真实网络环境下采集发送端及接收端的数据进行训练得到拥塞控制模型，包括：

在真实网络环境中，构建多网络链路下的多智能体；

利用多智能体异步采集不同网络环境下的发送端及接收端的数据并进行存储，异步采集指的是多智能体各自独立采集数据，异步地将数据存储于共用的数据存储模块中；

以所采集的数据为训练样本，采用异步强化学习算法进行训练，得到拥塞控制模型。

优选地，所述多网络链路下的多智能体指多个训练环境，每个训练环境由发送端、接收端和网络环境构成，各训练环境的发送端、接收端和网络环境不同，同时启动多个发送端，经不同的网络链路由不同的接收端接收数据；所述拥塞数据是并行的多种真实网络链路的数据，构成多样化的训练样本；所述异步强化学习算法是指数据的采集与强化学习智能体的训练异步执行。

所述拥塞控制模型即强化学习算法经过训练得到的智能体，其输入包括：1)平均发送包的间隔；2)当前丢包率；3)平均时延；4)平均接收包的间隔；5)当前的吞吐；6)上一次的决策量；其输出为当前的发送速率。

优选地，将所得拥塞控制模型部署于真实网络环境，进行拥塞控制，包括：

在真实网络环境发送端与接收端建立链接时，加载训练好的拥塞控制模型；

解析拥塞控制模型获得发送速率；

真实网络环境发送端以解析所得发送速率发送数据，其中模型的解析与发送端发送数据异步执行；

更新拥塞控制模型，即发送端重新加载当前最新训练的智能体。

优选地，通过所得拥塞控制模型，取得实时决策，完成高效数据传输；

通过设置决策间隔，降低强化学习模型推断发送速率带来的开销。

本发明还提供了一种面向真实网络环境的智能拥塞控制系统，包括：

信息收集模块，负责收集智能代理训练所需的信息；

信息存储模块，存储收集到的原始信息，并将该原始信息进行处理以组装成强化学习算法所需的状态、动作以及奖励数据；

深度强化学习模块，利用处理所得数据训练智能代理，得到拥塞控制模型；

模型推论模块，使用得到的拥塞控制模型输出拥塞控制所需的发送速率；

控制器，用于控制决策间隔、强化学习所需的概率探索以及所需的训练参数，所述探索概率是强化学习训练过程的一个环节，用于在训练过程中探索可能的动作。

优选地，所述原始信息是指发送端发送数据的信息以及ACK的数据包的信息。

优选地，在训练强化学习智能代理之前，发送端加载智能代理，并定期更新；发送端从当前训练的智能代理中获取决策，智能代理在每个决策间隔对发送端进行决策，即智能代理遵循用于拥塞控制的发送速率的策略，且每次建立连接时，发送端更新智能代理获得当前最新的学习策略。

优选地，所述智能代理的训练和发送数据的执行是异步的，训练强化学习智能代理所需的信息从发送端和接收端收集到信息存储模块，强化学习模块随后通过从历史轨迹进行逐步训练来生成智能代理。

与现有技术相比，本发明通过强化学习技术自动学习最佳或接近最佳控制策略的巨大潜力生成拥塞控制的发送策略，同时强化学习模型的训练不基于模拟器或仿真器中训练而是在真实网络环境下训练，提升网络传输的性能。为了消除由于在模拟环境中进行训练而导致的性能下降，本发明提供了一个在真实网络环境中训练的强化学习代理的方案，并且在实际网络环境中异步执行训练和发送数据。本发明不仅保障了传输性能，同时提高了训练效率。

附图说明

图1为本发明基于真实网络环境的智能拥塞控制方法流程图。

图2为本发明基于真实网络环境的智能拥塞控制系统架构图。

图3为多智能体异步训练示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本实施例提供了一个基于真实网络环境的智能拥塞控制方法及其相应系统，参考图1，该方法包括：

1、在真实网络环境下采集拥塞数据进行训练得到拥塞控制模型；

具体地，在真实网络环境中，构建多网络链路下的多智能体；利用多智能体异步采集不同网络环境下发送端及接收端的拥塞数据并进行存储；并以所采集的数据为训练样本，采用异步强化学习算法进行训练，得到拥塞控制模型。

其中，多网络链路下的多智能体指多个训练环境，每个训练环境由发送端、接收端和网络环境构成，各训练环境的发送端、接收端和网络环境不同，同时启动多个发送端，经不同的网络链路由不同的接收端接收数据；所述拥塞数据是并行的多种真实网络链路的数据，构成多样化的训练样本；所述异步强化学习算法是指数据的采集与强化学习智能体的训练异步执行。

所得拥塞控制模型即强化学习算法经过训练得到的智能体，其输入包括：1)平均发送包的间隔；2)当前丢包率；3)平均时延；4)平均接收包的间隔；5)当前的吞吐；6)上一次的决策量；其输出为当前的发送速率。

2、将所得拥塞控制模型部署于真实网络环境，进行拥塞控制。

具体地，在真实网络环境发送端与接收端建立链接时，加载训练好的拥塞控制模型；解析拥塞控制模型获得发送速率；真实网络环境发送端以解析所得发送速率发送数据，其中模型的解析与发送端发送数据异步执行；更新拥塞控制模型，即发送端重新加载当前最新训练的智能体。

通过所得拥塞控制模型，取得实时决策，可完成高效数据传输；并可通过设置决策间隔，降低强化学习模型推断发送速率带来的开销。

该系统架构如图2所示，具有五个关键模块：

信息收集模块，负责收集智能代理训练所需的信息；

深度强化学习模块，利用上述的数据训练智能代理，得到拥塞控制模型；

控制器，用于控制决策间隔、强化学习所需的概率探索以及所需的训练参数，其中探索概率是强化学习训练过程的一个环节，用于在训练过程中探索可能的动作。

本实施例遵循环境驱动的拥塞控制设计，在系统中训练强化学习代理之前，发送端会加载基于强化学习的模型，该模型可以定期更新。发送端从当前训练的智能代理中获取决策。代理在每个决策间隔对发送端进行决策，即代理遵循用于拥塞控制的发送速率的策略。具体而言，每次建立连接时，代理都会将其策略与强化训练生成的策略同步以获得当前学习的策略。另外，代理的训练和发送数据的执行是异步的。训练代理所需的信息：发送端统计发送包的间隔，根据ACK统计当前的丢包率以及平均时延，接收端统计数据包到达间隔，吞吐量；此外，发送端统计上一次的发送决策量。同时深度强化学习模块随后通过从历史轨迹进行逐步训练来生成拥塞控制模型。

当发送端和一个接收端之间建立连接时，发送端将根据来自代理的控制策略，将数据发送到接收端。代理的训练数据来自发送端和接收端提供的原始信息。发送端接收到ACK时，将获得当前的RTT和接收到的数据包序列号。在一定的时间间隔处，发送端基于ACK计算统计信息，例如发送的字节，ACK字节，平均RTT，平均数据包发送间隔。当接收端接收到数据包时，它还会以相同的间隔计数接收到的字节。该信息分别从发送端和接收端收集，并存储在信息存储中。

为了解决信息不同步的问题，本发明将由发送端和接收端收集的原始信息分别存储在位于发送端的信息存储模块中，然后根据强化学习状态需求处理原始数据。在强化学习框架下将拥塞控制表述为一个顺序决策问题。强化学习的状态是发送端的网络统计信息，决策为是发送端的发送速率，奖励取决于一定时间间隔内的吞吐量、延迟和丢失率的统计信息，可用公式表达为：

其中，t为当前的时间，throughput_t为当前时刻的平均吞吐，throughpu_max历史测量的最大的吞吐，avg_delay_t当前的平均时延，delay_min是历史的测量的最小delay,lossrate_t为当前的丢包率，α为智能体所能容忍的丢失率。

处理收集的数据以生成状态，操作，奖励数据以用于训练代理。特别是为了使延迟的动作与相应的状态和奖励相匹配，发送第一个数据包时，发送端的校准计时器将启动，同时接收端接收到第一个数据包时，接收端的类似计时器将启动。

为了获得拥塞控制模型的输出，发送端应加载拥塞控制模型，提供输入并检索推断输出。模型推论模块位于发送端程序中。在初始连接中，发送端将加载默认的拥塞控制模型。在传输过程中，发送端不断从模型推论模块中获得关于调整发送速率的决定。同时，深度强化学习模块根据发送端的训练数据不断更新拥塞控制模型。

为了处理推理成本问题，本发明使用控制器来控制决策间隔和强化学习训练的参数。决策间隔定义为执行一个控制循环以解决实时问题所需的时间拥塞控制问题的决策，即调用代理时的决策间隔。控制器还控制概率探索率和最大探索范围。另外，本发明将训练算法和执行算法解耦。控制器分别控制代理学习和数据传输。在强化学习代理训练期间不会阻止发送的数据。实际网络中的发送者将执行代理以执行下一个操作。一旦获得了完整的轨迹(例如64个连续的间隔信息)，就训练该信息以更新代理。所有交互都是异步的，不会阻止发送端。

本发明的多智能体异步强化学习训练方法参考图3，强化学习通常需要很长时间才能在模拟器中进行训练，而在现实世界中进行训练将更加困难。为了加快培训速度，本发明使用了异步培训机制，异步执行网络通信和代理训练。本发明可以启动多个环境，每个环境都配置为经历一组不同的网络条件。但是，这些代理不断向学习代理发送其状态，动作和奖励元组。对于它接收的每个元组序列，学习代理都使用强化学习方法。本发明使用具有非策略性的“策略-评论”方法来计算梯度并执行梯度下降步骤。策略网络负责选择适当的动作。评论网络估计行为和行为的价值，以更新策略和评论网络的参数。然后，学习代理会更新参与者网络，并且环境在初始化时会加载新模型。本发明可以在学习环境和多个环境之间异步发生，即学习代理与环境之间没有阻塞。

总体而言，本发明拥塞控制模型的学习训练过程如下：

步骤(1)，同时启动N个发送端和接收端建立链接；

步骤(2)，发送端加载初始化的拥塞控制模型，在每次达到决策间隔时间，发送端根据当前的网络状态，选择合适的发送速率发送数据。同时，收集当前的网络状态及当前的发送速率，待本次链接结束时将上述数据存入信息存储模块。

步骤(3)，接收端收到数据后，返回ACK给发送端；同时将收到数据的信息收集起来；

步骤(4)，当有链接发送数据结束，即可启动数据存储，将发送端和接收端的数据分别存储到信息存储模块中。信息存储模块对本次发送过程中的数据进行处理，组成强化学习训练所需的数据集；

步骤(5)，强化学习模型训练器(深度强化学习模块)启动，从信息存储模块获取训练数据，训练强化学习代理；

步骤(6)，如果训练不停止并且链接个数少于N个时，启动新的发送端和接收端建立链接，加载当前的训练模型，进行模型推断，执行发送动作；接收端重复步骤(3)；

步骤(7)，如果训练不停止，执行步骤(4)；

步骤(8)，训练器(深度强化学习模块)不断的从信息存储模块获取数据，不间断的训练，直至训练结束。

Claims

1.一种面向真实网络环境的智能拥塞控制方法，其特征在于，包括：

1)在真实网络环境下采集发送端及接收端的数据进行训练得到拥塞控制模型，包括：

在真实网络环境中，构建多网络链路下的多智能体；

利用多智能体异步采集不同网络环境下发送端及接收端的数据并进行存储；

以所采集的数据为训练样本，采用异步强化学习算法进行训练，得到拥塞控制模型；

2)将所得拥塞控制模型部署于真实网络环境，进行拥塞控制，包括：

解析拥塞控制模型获得发送速率；

更新拥塞控制模型，即发送端重新加载当前最新训练的智能体；

其中，通过所得拥塞控制模型，取得实时决策，完成高效数据传输；

2.根据权利要求1所述面向真实网络环境的智能拥塞控制方法，其特征在于，所述多网络链路下的多智能体指多个训练环境，每个训练环境由发送端、接收端和网络环境构成，各训练环境的发送端、接收端和网络环境不同，同时启动多个发送端，经不同的网络链路由不同的接收端接收数据；所述拥塞数据是并行的多种真实网络链路的数据，构成多样化的训练样本；所述异步强化学习算法是指数据的采集与强化学习智能体的训练异步执行。

3.根据权利要求1所述面向真实网络环境的智能拥塞控制方法，其特征在于，所述拥塞控制模型，即强化学习算法经过训练得到的智能体，其输入包括：1)平均发送包的间隔；2)当前丢包率；3)平均时延；4)平均接收包的间隔；5)当前的吞吐；6)上一次的决策量；其输出为当前的发送速率。

4.一种面向真实网络环境的智能拥塞控制系统，包括：

信息收集模块，负责收集智能代理训练所需的信息；

信息存储模块，存储收集到的原始信息，并将该原始信息进行处理以组装成强化学习算法所需的状态、动作以及奖励数据，所述原始信息是指发送端发送数据的信息以及ACK的数据包的信息；

5.根据权利要求4所述面向真实网络环境的智能拥塞控制系统，其特征在于，在训练强化学习智能代理之前，发送端加载智能代理，并定期更新；发送端从当前训练的智能代理中获取决策，智能代理在每个决策间隔对发送端进行决策，即智能代理遵循用于拥塞控制的发送速率的策略，且每次建立连接时，发送端更新智能代理获得当前最新的学习策略。

6.根据权利要求5所述面向真实网络环境的智能拥塞控制系统，其特征在于，所述智能代理的训练和发送数据的执行是异步的，训练强化学习智能代理所需的信息从发送端和接收端收集到信息存储模块，强化学习模块随后通过从历史轨迹进行逐步训练来生成智能代理。