CN114726799A

CN114726799A - 拥塞控制智能体的训练方法、拥塞控制方法及装置

Info

Publication number: CN114726799A
Application number: CN202210470890.7A
Authority: CN
Inventors: 孙立峰; 周超; 贾连晨
Original assignee: Tsinghua University; Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Tsinghua University; Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-07-08
Anticipated expiration: 2042-04-28
Also published as: CN114726799B

Abstract

本公开提供了一种拥塞控制智能体的训练方法、拥塞控制方法及装置。所述训练方法包括：针对本轮训练，分别为至少一个所述拥塞控制智能体及至少一个竞争智能体中的各个智能体提供相同的网络环境；在预设时长内，分别针对每个智能体，周期性地将该智能体所需的当前状态信息输入到该智能体，得到该智能体预测的用于调整拥塞窗口大小的动作并根据预测的动作更新拥塞窗口；当达到所述预设时长时，按照至少一个数据传输评价指标，对所述拥塞控制智能体及所述至少一个竞争智能体进行排名，并根据所述拥塞控制智能体的排名结果确定所述拥塞控制智能体本轮的排名奖励函数的函数值；基于确定的排名奖励函数的函数值，调整所述拥塞控制智能体的参数。

Description

拥塞控制智能体的训练方法、拥塞控制方法及装置

技术领域

本公开总体说来涉及通信技术领域，更具体地讲，涉及一种拥塞控制智能体的训练方法、拥塞控制方法及装置。

背景技术

拥塞控制通过调节每个发送端的发送数据来防止过多的数据注入到网络中，以避免发生拥塞。随着5G、洲际网络等新型网络基础设施的增加，网络条件变得越来越复杂。直播、移动云会议等新应用场景则对拥塞控制算法提出了新的需求。传统的启发式算法使用丢包或延迟作为拥塞信号，然而在具有随机丢包的无线网络等复杂多变的网络条件下，很难找到合适的启发式函数来处理所有情况。

在此背景下研究人员提出了基于学习的拥塞控制算法，它们不需要太多的人工工程并且具有适应多种条件的潜力。但相关的基于学习的拥塞控制算法仍然受到较大的网络条件限制，在不同的网络条件下表现有较大差异，适用范围有限。

发明内容

本公开的示例性实施例在于提供一种拥塞控制智能体的训练方法、拥塞控制方法及装置，受网络条件限制较小、适用范围较大。

根据本公开实施例的第一方面，提供一种拥塞控制智能体的训练方法，包括：针对本轮训练，分别为至少一个所述拥塞控制智能体及至少一个竞争智能体中的各个智能体提供相同的网络环境；在预设时长内，分别针对每个智能体，周期性地将该智能体所需的当前状态信息输入到该智能体，得到该智能体预测的用于调整拥塞窗口大小的动作并根据预测的动作更新拥塞窗口，以使该智能体对应的网络环境下的发送端在更新后的拥塞窗口下向接收端发送数据包；当达到所述预设时长时，按照对应的网络环境在所述预设时长内的至少一个数据传输评价指标，对所述拥塞控制智能体及所述至少一个竞争智能体进行排名，并根据所述拥塞控制智能体的排名结果确定所述拥塞控制智能体本轮的排名奖励函数的函数值；基于确定的排名奖励函数的函数值，调整所述拥塞控制智能体的参数，以对所述拥塞控制智能体进行本轮训练。

可选地，基于确定的排名奖励函数的函数值，调整所述拥塞控制智能体的参数的步骤包括：使用确定的排名奖励函数的函数值对所述至少一个拥塞控制智能体本轮每次预测的动作的瞬时奖励函数的函数值进行修正，以得到所述至少一个拥塞控制智能体本轮每次预测的动作的奖励函数的函数值；根据所述至少一个拥塞控制智能体本轮各次预测的动作及其对应的状态信息和奖励函数的函数值，调整所述拥塞控制智能体的参数。

可选地，对所述拥塞控制智能体及所述至少一个竞争智能体进行排名，并根据所述拥塞控制智能体的排名结果确定所述拥塞控制智能体本轮的排名奖励函数的函数值的步骤包括：分别针对每个数据传输评价指标，按照智能体该数据传输评价指标在所述预设时长的指标值，对所述拥塞控制智能体及所述至少一个竞争智能体进行一次排名；根据所述拥塞控制智能体的各次排名结果，确定所述拥塞控制智能体本轮的排名奖励函数的函数值。

可选地，当所述至少一个拥塞控制智能体的数量为多个时，对所述拥塞控制智能体及所述至少一个竞争智能体进行排名，并根据所述拥塞控制智能体的排名结果确定所述拥塞控制智能体本轮的排名奖励函数的函数值的步骤还包括：分别针对每个数据传输评价指标，计算所述至少一个拥塞控制智能体该数据传输评价指标在所述预设时长的指标值的平均值，作为所述拥塞控制智能体所述预设时长的所述数据传输评价指标的指标值。

可选地，排名奖励函数基于对所述至少一个数据传输评价指标的偏好及所述至少一个竞争智能体的数量而被设置。

可选地，所述至少一个数据传输评价指标包括：吞吐量和延时；和/或，每次预测的动作的瞬时奖励函数为关于执行该动作后的吞吐量和延时的函数。

可选地，使用确定的排名奖励函数的函数值对所述至少一个拥塞控制智能体本轮每次预测的动作的瞬时奖励函数的函数值进行修正的步骤包括：分别针对所述至少一个拥塞控制智能体中的每个拥塞控制智能体，将该拥塞控制智能体本轮每次预测的动作的瞬时奖励函数的函数值与确定的排名奖励函数的函数值之和，作为该拥塞控制智能体该次预测的动作的奖励函数的函数值。

可选地，针对所述至少一个拥塞控制智能体中的每个拥塞控制智能体，输入该拥塞控制智能体的当前状态信息包括其对应的最近N个时刻中的每一时刻的以下项之中的至少一项：延时的加权移动平均值、发送速率的加权移动平均值、接收速率的加权移动平均值、拥塞窗口的大小、距上次预测的时间间隔；其中，最近N个时刻为对应的发送端最近N次收到确认字段的时刻，N为大于0的整数。

可选地，所述至少一个竞争智能体与所述拥塞控制智能体所使用的拥塞控制算法不同，且所述至少一个竞争智能体所使用的拥塞控制算法各不相同；和/或，所述拥塞控制智能体所使用的拥塞控制算法为深度强化学习算法。

可选地，所述各个智能体在各自的网络环境下并行独立运行。

可选地，根据所述至少一个拥塞控制智能体本轮各次预测的动作及其对应的状态信息和奖励函数的函数值，调整所述拥塞控制智能体的参数的步骤包括：使用带有自适应熵的双头近端策略优化算法，根据所述至少一个拥塞控制智能体本轮各次预测的动作及其对应的状态信息和奖励函数的函数值，调整所述拥塞控制智能体的参数。

根据本公开实施例的第二方面，提供一种拥塞控制方法，包括：获取网络环境的当前状态信息；将获取的当前状态信息输入到拥塞控制智能体，得到预测的用于调整拥塞窗口大小的动作；根据预测的动作更新拥塞窗口；其中，所述拥塞控制智能体是使用如上所述的训练方法训练得到的。

可选地，当前状态信息包括最近N个时刻中的每一时刻的以下项之中的至少一项：延时的加权移动平均值、发送速率的加权移动平均值、接收速率的加权移动平均值、拥塞窗口的大小、距上次预测的时间间隔；其中，最近N个时刻为发送端最近N次收到确认字段的时刻，N为大于0的整数。

根据本公开实施例的第三方面，提供一种拥塞控制智能体的训练装置，包括：环境设置单元，被配置为针对本轮训练，分别为至少一个所述拥塞控制智能体及至少一个竞争智能体中的各个智能体提供相同的网络环境；瞬时单元，被配置为在预设时长内，分别针对每个智能体，周期性地将该智能体所需的当前状态信息输入到该智能体，得到该智能体预测的用于调整拥塞窗口大小的动作并根据预测的动作更新拥塞窗口，以使该智能体对应的网络环境下的发送端在更新后的拥塞窗口下向接收端发送数据包；排名单元，被配置为当达到所述预设时长时，按照对应的网络环境在所述预设时长内的至少一个数据传输评价指标，对所述拥塞控制智能体及所述至少一个竞争智能体进行排名，并根据所述拥塞控制智能体的排名结果确定所述拥塞控制智能体本轮的排名奖励函数的函数值；学习单元，被配置为基于确定的排名奖励函数的函数值，调整所述拥塞控制智能体的参数，以对所述拥塞控制智能体进行本轮训练。

可选地，学习单元被配置为：使用确定的排名奖励函数的函数值对所述至少一个拥塞控制智能体本轮每次预测的动作的瞬时奖励函数的函数值进行修正，以得到所述至少一个拥塞控制智能体本轮每次预测的动作的奖励函数的函数值；根据所述至少一个拥塞控制智能体本轮各次预测的动作及其对应的状态信息和奖励函数的函数值，调整所述拥塞控制智能体的参数。

可选地，排名单元被配置为：分别针对每个数据传输评价指标，按照智能体该数据传输评价指标在所述预设时长的指标值，对所述拥塞控制智能体及所述至少一个竞争智能体进行一次排名；根据所述拥塞控制智能体的各次排名结果，确定所述拥塞控制智能体本轮的排名奖励函数的函数值。

可选地，排名单元还被配置为：分别针对每个数据传输评价指标，计算所述至少一个拥塞控制智能体该数据传输评价指标在所述预设时长的指标值的平均值，作为所述拥塞控制智能体所述预设时长的所述数据传输评价指标的指标值。

可选地，学习单元被配置为：分别针对所述至少一个拥塞控制智能体中的每个拥塞控制智能体，将该拥塞控制智能体本轮每次预测的动作的瞬时奖励函数的函数值与确定的排名奖励函数的函数值之和，作为该拥塞控制智能体该次预测的动作的奖励函数的函数值。

可选地，学习单元被配置为：使用带有自适应熵的双头近端策略优化算法，根据所述至少一个拥塞控制智能体本轮各次预测的动作及其对应的状态信息和奖励函数的函数值，调整所述拥塞控制智能体的参数。

根据本公开实施例的第四方面，提供一种拥塞控制装置，包括：状态信息获取单元，被配置为获取网络环境的当前状态信息；预测单元，被配置为将获取的当前状态信息输入到拥塞控制智能体，得到预测的用于调整拥塞窗口大小的动作；拥塞窗口更新单元，被配置为根据预测的动作更新拥塞窗口；其中，所述拥塞控制智能体是使用如上所述的训练装置训练得到的。

根据本公开实施例的第五方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的拥塞控制智能体的训练方法和/或如上所述的拥塞控制方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的拥塞控制智能体的训练方法和/或如上所述的拥塞控制方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现如上所述的拥塞控制智能体的训练方法和/或如上所述的拥塞控制方法。

根据本公开的示例性实施例的拥塞控制智能体的训练方法、拥塞控制方法及装置，采用和使用其他算法的竞争智能体的排名奖励对拥塞控制智能体性能进行评价，使得训练时对状态动作的评价方法受网络条件的限制较小，可以更加客观地反应拥塞控制智能体的性能，从而训练出的拥塞控制智能体受网络条件限制较小、适用性增强。此外，根据本公开提出的修正后的奖励函数更能准确反应真实奖励，满足精细化真实需求，还可以兼顾训练速度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出根据本公开示例性实施例的拥塞控制智能体的训练方法的流程图；

图2示出根据本公开示例性实施例的使用拥塞控制智能体更新拥塞窗口的示例；

图3示出根据本公开示例性实施例的确定排名奖励函数的函数值的示例；

图4示出根据本公开示例性实施例的修正瞬时奖励函数的函数值的示例；

图5示出根据本公开示例性实施例的拥塞控制方法的流程图；

图6示出根据本公开示例性实施例的拥塞控制智能体的训练装置的结构框图；

图7示出根据本公开示例性实施例的拥塞控制装置的结构框图；

图8示出根据本公开示例性实施例的电子设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

图1示出根据本公开示例性实施例的拥塞控制智能体的训练方法的流程图。

参照图1，在步骤S101，针对本轮训练，分别为至少一个所述拥塞控制智能体及至少一个竞争智能体中的各个智能体提供相同的网络环境(即，通信网络环境)。

换言之，针对本轮训练，至少一个所述拥塞控制智能体及至少一个竞争智能体分别具有各自的网络环境，且所有智能体的网络环境相同。即，在每轮训练开始时，给予在竞技场中每个智能体相同的仿真网络环境。例如，相同的网络环境可包括但不限于以下项中的至少一项：相同的带宽变化、随机丢失率、发送队列大小、单程时延。

作为示例，需要训练的所述拥塞控制智能体所使用的拥塞控制算法可为深度强化学习算法。

作为示例，所述至少一个竞争智能体与所述拥塞控制智能体所使用的拥塞控制算法不同，且所述至少一个竞争智能体所使用的拥塞控制算法各不相同。例如，所述至少一个竞争智能体所使用的拥塞控制算法可包括但不限于以下项之中的至少一项：Cubic、BBR、Vivace、Indigo、Aurora、Eagle、Orca。应该理解，也可使用其他类型的拥塞控制算法，本公开对此不作限制。

作为示例，所述各个智能体在各自的网络环境下并行独立运行。即，在本轮训练中，每个智能体基于各自的网络环境独立运行，彼此对应的发送端不同，彼此不发生交互。例如，竞技场可使用多进程实现，每个运行的智能体使用一个进程，不同智能体使用的进程不同。应该理解，当本轮训练中使用多个所述拥塞控制智能体以加快训练数据收集的速度时，所述多个拥塞控制智能体均为同一需要训练的拥塞控制智能体，且每个拥塞控制智能体也基于各自的网络环境独立运行，彼此不发生交互。

智能体对应的网络环境下，发送端可以不断向接收端发送数据包，并接收接收端反馈的确认字段，通过分析反馈确认字段的情况，可监测到当前的网络状态。

在步骤S102，在预设时长内，分别针对每个智能体，周期性地将该智能体所需的当前状态信息输入到该智能体，得到该智能体预测的用于调整拥塞窗口大小的动作并根据预测的动作更新拥塞窗口，以使该智能体对应的网络环境下的发送端在更新后的拥塞窗口下向接收端发送数据包。作为示例，针对每个智能体，可并行执行上述操作。

换言之，每个智能体周期性地更新各自对应的拥塞窗口。应该理解，不同智能体预测动作的周期可不同或相同；不同智能体预测所需的当前状态信息的类型可相同或不同。

作为示例，所述预设时长可为30s，应该理解，也可根据训练需要设置为其他适当的值。

作为示例，参照图2，每当发送端接收到确认字段后，可更新状态数据，针对所需训练的拥塞控制智能体，可每隔一定时长(例如，100ms)，将拥塞控制智能体预测所需的当前状态信息S输入到拥塞控制智能体，得到拥塞控制智能体预测的需要执行的用于调整拥塞窗口大小的动作a，并根据预测的动作更新拥塞控制智能体对应的拥塞窗口，以使拥塞控制智能体对应的网络环境下的发送端在更新后的拥塞窗口下向接收端发送数据包。此外，可在拥塞控制智能体每次预测之后，将对应的状态S、动作a、动作的瞬时奖励数据reward_transient(即，瞬时奖励函数的函数值)保存到瞬时数据缓冲区当中。

作为示例，输入拥塞控制智能体的当前状态信息可包括其对应的最近N个时刻中的每一时刻的以下项之中的至少一项：延时delay的加权移动平均值、发送速率rate_sent的加权移动平均值、接收速率rate_delivery的加权移动平均值、拥塞窗口cwnd的大小、距上次预测的时间间隔duration；其中，最近N个时刻为对应的发送端最近N次收到确认字段的时刻，N为大于0的整数。例如，所述加权移动平均值可为指数加权移动平均值EWMA。

作为示例，延时delay的计算方式可为：delay＝RTT-RTT_min，其中，RTT为数据包的往返时延，RTT_min为即时更新的最小往返时延。作为示例，每一时刻的延时delay的加权移动平均值可为：对其上一时刻的延时delay的加权移动平均值及该时刻的延时delay进行加权求和得到的。作为示例，为了平衡训练开销和性能的折中，可将一次输入的状态数设置为8(即，N＝8)，从而将最近8个确认字段收到时的状态信息作为当前状态信息S输入到拥塞控制智能体，即，当前状态信息S可为一个5*8大小的矩阵。

针对拥塞控制智能体，为了减小动作空间大小，可使用拥塞窗口的改变值作为拥塞控制智能体的输出a_t。例如，可从[-1,1]中挑选7个值作为拥塞控制智能体的输出，基于当前的拥塞窗口cwnd_t更新后的拥塞窗口cwnd_t+1将变成：

cwnd_t+1＝cwnd_t*(1+a_t)

在步骤S103，当达到所述预设时长时，按照对应的网络环境在所述预设时长内的至少一个数据传输评价指标，对所述拥塞控制智能体及所述至少一个竞争智能体进行排名，并根据所述拥塞控制智能体的排名结果确定所述拥塞控制智能体本轮的排名奖励函数的函数值。

作为示例，所述至少一个数据传输评价指标可包括但不限于以下项中的至少一项：吞吐量和延时。例如，拥塞控制智能体在所述预设时长的吞吐量可为：所述预设时长内相应收发的数据包的总大小与所述预设时长的比值，拥塞控制智能体在所述预设时长的延时可为：所述预设时长所有数据包延时的平均值。作为示例，吞吐量排名越高(越靠后)、延时排名越低(越靠前)表明智能体的性能越好。

作为示例，可分别针对每个数据传输评价指标，按照智能体该数据传输评价指标在所述预设时长的指标值，对所述拥塞控制智能体及所述至少一个竞争智能体进行一次排名；并根据所述拥塞控制智能体的各次排名结果，确定所述拥塞控制智能体本轮的排名奖励函数的函数值。换言之，分别按照每个数据传输评价指标进行一次排名。

排名奖励函数为关于分别针对每个数据传输评价指标的排名结果的函数。作为示例，排名奖励函数可基于对所述至少一个数据传输评价指标的偏好及所述至少一个竞争智能体的数量而被设置。作为示例，排名奖励函数reward_rank可为：reward_rank＝k1*rank_thoughput-k2*rank_delay。其中，rank_thoughput指示拥塞控制智能体关于吞吐量的排名结果，rank_delay指示拥塞控制智能体关于延时的排名结果。k1和k2为调节系数，可根据具体需求偏好及竞争智能体的总数而被设置。例如，当有4个竞争智能体时，相比于吞吐量第4、延时第2的拥塞控制智能体，更偏好吞吐量第5但延时第3的拥塞控制智能体，相应地，可以将排名奖励函数设置为：reward_rank＝2*rank_thoughput-rank_delay，以满足上面的偏好。

作为示例，当所述至少一个拥塞控制智能体的数量为多个时，可分别针对每个数据传输评价指标，计算这多个拥塞控制智能体该数据传输评价指标在所述预设时长的指标值的平均值，作为所述拥塞控制智能体所述预设时长的所述数据传输评价指标的指标值。例如，如图3所示，可将多个该拥塞控制智能体各自对应的吞吐量和延时分别平均后和其他竞争者进行排名，以得到拥塞控制智能体的吞吐量排名和延时排名。

在步骤S104，基于确定的排名奖励函数的函数值，调整所述拥塞控制智能体的参数，以对所述拥塞控制智能体进行本轮训练。

作为示例，可使用确定的排名奖励函数的函数值对所述至少一个拥塞控制智能体本轮每次预测的动作的瞬时奖励函数的函数值进行修正，以得到所述至少一个拥塞控制智能体本轮每次预测的动作的奖励函数的函数值；然后，根据所述至少一个拥塞控制智能体本轮各次预测的动作及其对应的状态信息和奖励函数的函数值，调整所述拥塞控制智能体的参数，以对所述拥塞控制智能体进行本轮训练。

作为示例，可分别针对所述至少一个拥塞控制智能体中的每个拥塞控制智能体，将该拥塞控制智能体本轮每次预测的动作的瞬时奖励函数的函数值reward_transient与确定的排名奖励函数的函数值reward_rank之和，作为该拥塞控制智能体该次预测的动作的奖励函数reward_final的函数值reward_final。即，

reward_final＝reward_transient+reward_rank

作为示例，每次预测的动作的瞬时奖励函数可为关于执行该动作后的吞吐量和延时的函数。应该理解，也可为关于其他数据传输评价指标的函数，本公开对此不作限制。例如，瞬时奖励函数可为关于吞吐量和延时的线性组合，或是比值

等形式。

作为示例，瞬时奖励函数reward_transient可为：reward_transient＝α*throughput-β*delay。例如，可设置α为0.1，β为100，其中throughput的单位为MB/s，delay的单位为秒。

作为示例，如图4所示，可通过排名奖励数据reward_rank(也可表示为r_rk)对保存在瞬时数据缓冲区当中的瞬时奖励数据reward_transient(也可表示为r_t)进行修正，即，修正之前存储在瞬时数据缓冲区里的数据，得到状态、动作、修正后的奖励数据reward_final(也可表示为r＇)存储在数据缓冲区，以作为拥塞控制智能体的本轮训练数据进行本轮训练。即，更新为：

(s,a,reward_transient)+reward_rank→(s,a,reward_final)

预测的动作所对应的状态信息即预测该动作所输入的状态信息、预测的动作所对应的奖励函数的函数值即预测的动作的奖励函数的函数值。

应该理解，假设本轮仅使用单个该拥塞控制智能体运行，会得到M组(s,a,reward_final)训练数据，而如果本轮使用j个该拥塞控制智能体同时运行，将会得到j*M组(s,a,reward_final)训练数据，能够加快训练数据收集的速度。

作为示例，当所述拥塞控制智能体所使用的拥塞控制算法为深度强化学习算法时，调整所述拥塞控制智能体的参数可为调整所使用的深度强化学习算法的参数。

作为示例，可使用带有自适应熵的双头近端策略优化算法Dual-PPO，根据所述至少一个拥塞控制智能体本轮各次预测的动作及其对应的状态信息和奖励函数的函数值，调整所述拥塞控制智能体的参数。应该理解，也可使用其他适当的训练算法，本公开对此不作限制。

根据本实施例，使用Dual-PPO算法能够减少奖励函数的极端大值对策略的影响，使用自适应熵来动态适应熵值以提高算法的性能表现和收敛速度。

应该理解，可对拥塞控制智能体进行多轮训练，不同训练轮所使用的网络环境可相同或不同。

本公开考虑到相关技术中深度强化学习的拥塞控制算法大多侧重于瞬态性能，通常使用当前吞吐量和延迟的线性组合作为对当前动作的奖励。然而，很难得到合适的线性组合来真正反映性能。由于吞吐量和延迟之间存在冲突，因此很难获得适当的奖励函数来真正反映性能。偏好高吞吐量的算法可能会因为占用缓冲队列而导致较大的延迟，而另一个偏好低延迟的算法可能会获得低吞吐量，因为其保守的策略没有充分利用带宽。所以，线性组合必须平衡两个相互冲突的变量，这不是一件容易的事。不准确的奖励函数会影响算法的稳定性和性能，由于现实世界网络条件的多样性，因此，很难给出一个可以完美适应任何网络条件的适当奖励函数。

根据本公开，通过排名得到了对拥塞控制算法行为的较为准确的评价。这使得在不同带宽的网络条件下都可以较值函数更好地反映强化学习算法性能，并且可以自定义排名奖励来精准地定义需求对吞吐量和延时的偏好。使用排名奖励对瞬时奖励进行修正，使得强化学习算法可以得到更恰当的奖励，可以不受网络环境限制而更好满足应用的需求。与以往只基于瞬时奖励的强化学习算法相比，排名奖励可以在几乎所有网络条件下恰当反应算法的性能。此外使用排名奖励对瞬时奖励进行修正而不是只使用排名奖励避免了奖励太过稀疏的问题，提高了算法的训练效率。

对于带宽变化剧烈的网络条件，在这种网络条件下，启发式的算法需要较长时间对变化的带宽进行适应，而本公开可以快速适应带宽变化，实现较高的吞吐和较低的延迟。针对带宽变化幅度较大的网络条件，由于现有的深度强化学习拥塞控制算法只考虑了瞬时奖励，所以当带宽较大偏离了瞬时奖励主要关注的区间，算法的性能就会不稳定，而本公开通过性能排名来对瞬时奖励进行了修正，使得奖励更恰当，适用范围更广。

图5示出根据本公开示例性实施例的拥塞控制方法的流程图。

参照图5，在步骤S201，获取网络环境的当前状态信息。

作为示例，当前状态信息可包括最近N个时刻中的每一时刻的以下项之中的至少一项：延时的加权移动平均值、发送速率的加权移动平均值、接收速率的加权移动平均值、拥塞窗口的大小、距上次预测的时间间隔；其中，最近N个时刻为发送端最近N次收到确认字段的时刻，N为大于0的整数。

在步骤S202，将获取的当前状态信息输入到拥塞控制智能体，得到预测的用于调整拥塞窗口大小的动作。其中，所述拥塞控制智能体可以是使用如上述示例性实施例所述的训练方法训练得到的。

在步骤S203，根据预测的动作更新拥塞窗口。

作为示例，所述拥塞控制智能体可以是基于瞬时奖励函数和排名奖励函数两者而训练得到的，排名奖励函数为关于所述拥塞控制智能体与至少一个竞争智能体按照至少一个数据传输评价指标的排名结果的函数。

作为示例，排名奖励函数可基于对所述至少一个数据传输评价指标的偏好及所述至少一个竞争智能体的数量而被设置。

作为示例，所述至少一个数据传输评价指标可包括：吞吐量和延时。

作为示例，瞬时奖励函数可为关于吞吐量和延时的函数。

作为示例，所述至少一个竞争智能体与所述拥塞控制智能体所使用的拥塞控制算法不同，且所述至少一个竞争智能体所使用的拥塞控制算法各不相同。

作为示例，所述拥塞控制智能体所使用的拥塞控制算法可为深度强化学习算法。

根据本公开示例性实施例的拥塞控制方法中的具体处理，已经在上述相关的拥塞控制智能体的训练方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6示出根据本公开示例性实施例的拥塞控制智能体的训练装置的结构框图。

如图6所示，根据本公开示例性实施例的拥塞控制智能体的训练装置10包括：环境设置单元101、瞬时单元102、排名单元103、学习单元104。

具体说来，环境设置单元101被配置为针对本轮训练，分别为至少一个所述拥塞控制智能体及至少一个竞争智能体中的各个智能体提供相同的网络环境。

瞬时单元102被配置为在预设时长内，分别针对每个智能体，周期性地将该智能体所需的当前状态信息输入到该智能体，得到该智能体预测的用于调整拥塞窗口大小的动作并根据预测的动作更新拥塞窗口，以使该智能体对应的网络环境下的发送端在更新后的拥塞窗口下向接收端发送数据包。

排名单元103被配置为当达到所述预设时长时，按照对应的网络环境在所述预设时长内的至少一个数据传输评价指标，对所述拥塞控制智能体及所述至少一个竞争智能体进行排名，并根据所述拥塞控制智能体的排名结果确定所述拥塞控制智能体本轮的排名奖励函数的函数值。

学习单元104被配置为基于确定的排名奖励函数的函数值，调整所述拥塞控制智能体的参数，以对所述拥塞控制智能体进行本轮训练。

作为示例，学习单元104可被配置为：使用确定的排名奖励函数的函数值对所述至少一个拥塞控制智能体本轮每次预测的动作的瞬时奖励函数的函数值进行修正，以得到所述至少一个拥塞控制智能体本轮每次预测的动作的奖励函数的函数值；根据所述至少一个拥塞控制智能体本轮各次预测的动作及其对应的状态信息和奖励函数的函数值，调整所述拥塞控制智能体的参数。

作为示例，排名单元103可被配置为：分别针对每个数据传输评价指标，按照智能体该数据传输评价指标在所述预设时长的指标值，对所述拥塞控制智能体及所述至少一个竞争智能体进行一次排名；根据所述拥塞控制智能体的各次排名结果，确定所述拥塞控制智能体本轮的排名奖励函数的函数值。

作为示例，排名单元103还可被配置为：分别针对每个数据传输评价指标，计算所述至少一个拥塞控制智能体该数据传输评价指标在所述预设时长的指标值的平均值，作为所述拥塞控制智能体所述预设时长的所述数据传输评价指标的指标值。

作为示例，每次预测的动作的瞬时奖励函数可为关于执行该动作后的吞吐量和延时的函数。

作为示例，学习单元104可被配置为：分别针对所述至少一个拥塞控制智能体中的每个拥塞控制智能体，将该拥塞控制智能体本轮每次预测的动作的瞬时奖励函数的函数值与确定的排名奖励函数的函数值之和，作为该拥塞控制智能体该次预测的动作的奖励函数的函数值。

作为示例，针对所述至少一个拥塞控制智能体中的每个拥塞控制智能体，输入该拥塞控制智能体的当前状态信息可包括其对应的最近N个时刻中的每一时刻的以下项之中的至少一项：延时的加权移动平均值、发送速率的加权移动平均值、接收速率的加权移动平均值、拥塞窗口的大小、距上次预测的时间间隔；其中，最近N个时刻为对应的发送端最近N次收到确认字段的时刻，N为大于0的整数。

作为示例，所述至少一个竞争智能体可与所述拥塞控制智能体所使用的拥塞控制算法不同，且所述至少一个竞争智能体所使用的拥塞控制算法各不相同。

作为示例，所述各个智能体可在各自的网络环境下并行独立运行。

作为示例，学习单元104可被配置为：使用带有自适应熵的双头近端策略优化算法，根据所述至少一个拥塞控制智能体本轮各次预测的动作及其对应的状态信息和奖励函数的函数值，调整所述拥塞控制智能体的参数。

图7示出根据本公开示例性实施例的拥塞控制装置的结构框图。

如图7所示，根据本公开示例性实施例的拥塞控制装置20包括：状态信息获取单元201、预测单元202、拥塞窗口更新单元203。

具体说来，状态信息获取单元201被配置为获取网络环境的当前状态信息。

预测单元202被配置为将获取的当前状态信息输入到拥塞控制智能体，得到预测的用于调整拥塞窗口大小的动作。所述拥塞控制智能体是使用如上述示例性实施例所述的训练装置10训练得到的。

拥塞窗口更新单元203被配置为根据预测的动作更新拥塞窗口。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外，应该理解，根据本公开示例性实施例的拥塞控制智能体的训练装置10和拥塞控制装置20中的各个单元可被实现硬件组件和/或软件组件。本领域技术人员根据限定的各个单元所执行的处理，可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元。

图8示出根据本公开示例性实施例的电子设备的结构框图。参照图8，该电子设备30包括：至少一个存储器301和至少一个处理器302，所述至少一个存储器301中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器302执行时，执行如上述示例性实施例所述的拥塞控制智能体的训练方法和/或拥塞控制方法。

作为示例，电子设备30可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备30并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备30还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备30中，处理器302可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器302还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器302可运行存储在存储器301中的指令或代码，其中，存储器301还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器301可与处理器302集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器301可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器301和处理器302可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器302能够读取存储在存储器中的文件。

此外，电子设备30还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备30的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行如上述示例性实施例所述的拥塞控制智能体的训练方法和/或拥塞控制方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由至少一个处理器执行以完成如上述示例性实施例所述的拥塞控制智能体的训练方法和/或拥塞控制方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种拥塞控制智能体的训练方法，其特征在于，包括：

针对本轮训练，分别为至少一个所述拥塞控制智能体及至少一个竞争智能体中的各个智能体提供相同的网络环境；

在预设时长内，分别针对每个智能体，周期性地将该智能体所需的当前状态信息输入到该智能体，得到该智能体预测的用于调整拥塞窗口大小的动作并根据预测的动作更新拥塞窗口，以使该智能体对应的网络环境下的发送端在更新后的拥塞窗口下向接收端发送数据包；

当达到所述预设时长时，按照对应的网络环境在所述预设时长内的至少一个数据传输评价指标，对所述拥塞控制智能体及所述至少一个竞争智能体进行排名，并根据所述拥塞控制智能体的排名结果确定所述拥塞控制智能体本轮的排名奖励函数的函数值；

基于确定的排名奖励函数的函数值，调整所述拥塞控制智能体的参数，以对所述拥塞控制智能体进行本轮训练。

2.根据权利要求1所述的训练方法，其特征在于，基于确定的排名奖励函数的函数值，调整所述拥塞控制智能体的参数的步骤包括：

使用确定的排名奖励函数的函数值对所述至少一个拥塞控制智能体本轮每次预测的动作的瞬时奖励函数的函数值进行修正，以得到所述至少一个拥塞控制智能体本轮每次预测的动作的奖励函数的函数值；

根据所述至少一个拥塞控制智能体本轮各次预测的动作及其对应的状态信息和奖励函数的函数值，调整所述拥塞控制智能体的参数。

3.根据权利要求1所述的训练方法，其特征在于，对所述拥塞控制智能体及所述至少一个竞争智能体进行排名，并根据所述拥塞控制智能体的排名结果确定所述拥塞控制智能体本轮的排名奖励函数的函数值的步骤包括：

分别针对每个数据传输评价指标，按照智能体该数据传输评价指标在所述预设时长的指标值，对所述拥塞控制智能体及所述至少一个竞争智能体进行一次排名；

根据所述拥塞控制智能体的各次排名结果，确定所述拥塞控制智能体本轮的排名奖励函数的函数值。

4.根据权利要求3所述的训练方法，其特征在于，当所述至少一个拥塞控制智能体的数量为多个时，对所述拥塞控制智能体及所述至少一个竞争智能体进行排名，并根据所述拥塞控制智能体的排名结果确定所述拥塞控制智能体本轮的排名奖励函数的函数值的步骤还包括：

分别针对每个数据传输评价指标，计算所述至少一个拥塞控制智能体该数据传输评价指标在所述预设时长的指标值的平均值，作为所述拥塞控制智能体所述预设时长的所述数据传输评价指标的指标值。

5.一种拥塞控制方法，其特征在于，包括：

获取网络环境的当前状态信息；

将获取的当前状态信息输入到拥塞控制智能体，得到预测的用于调整拥塞窗口大小的动作；

根据预测的动作更新拥塞窗口；

其中，所述拥塞控制智能体是使用如权利要求1至4中任意一项权利要求所述的训练方法训练得到的。

6.一种拥塞控制智能体的训练装置，其特征在于，包括：

环境设置单元，被配置为针对本轮训练，分别为至少一个所述拥塞控制智能体及至少一个竞争智能体中的各个智能体提供相同的网络环境；

瞬时单元，被配置为在预设时长内，分别针对每个智能体，周期性地将该智能体所需的当前状态信息输入到该智能体，得到该智能体预测的用于调整拥塞窗口大小的动作并根据预测的动作更新拥塞窗口，以使该智能体对应的网络环境下的发送端在更新后的拥塞窗口下向接收端发送数据包；

排名单元，被配置为当达到所述预设时长时，按照对应的网络环境在所述预设时长内的至少一个数据传输评价指标，对所述拥塞控制智能体及所述至少一个竞争智能体进行排名，并根据所述拥塞控制智能体的排名结果确定所述拥塞控制智能体本轮的排名奖励函数的函数值；

学习单元，被配置为基于确定的排名奖励函数的函数值，调整所述拥塞控制智能体的参数，以对所述拥塞控制智能体进行本轮训练。

7.一种拥塞控制装置，其特征在于，包括：

状态信息获取单元，被配置为获取网络环境的当前状态信息；

预测单元，被配置为将获取的当前状态信息输入到拥塞控制智能体，得到预测的用于调整拥塞窗口大小的动作；

拥塞窗口更新单元，被配置为根据预测的动作更新拥塞窗口；

其中，所述拥塞控制智能体是使用如权利要求6所述的训练装置训练得到的。

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至4中任一项所述的拥塞控制智能体的训练方法和/或如权利要求5所述的拥塞控制方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至4中任一项所述的拥塞控制智能体的训练方法和/或如权利要求5所述的拥塞控制方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被至少一个处理器执行时实现如权利要求1至4中任一项所述的拥塞控制智能体的训练方法和/或如权利要求5所述的拥塞控制方法。