CN113825171B

CN113825171B - 网络拥塞控制方法、装置、设备及介质

Info

Publication number: CN113825171B
Application number: CN202111163976.7A
Authority: CN
Inventors: 王玲
Original assignee: New H3C Technologies Co Ltd
Current assignee: New H3C Technologies Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-07-28
Anticipated expiration: 2041-09-30
Also published as: CN113825171A

Abstract

本申请提供了一种网络拥塞控制方法、装置、设备及介质。该方法包括：基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数；按照目标调整参数，调整当前拥塞控制窗口的大小，得到调整后的拥塞控制窗口；控制网络设备通过调整后的拥塞控制窗口发送数据包。其中，预先训练好的拥塞控制神经网络基于目标奖励函数训练得到，目标奖励函数至少根据数据包的发送速率和数据包传输过程的最小往返时延确定，从而提高了训练得到的拥塞控制神经网络的准确性，而且无需使用拥塞控制信号直接调节拥塞控制窗口，而是基于训练好的拥塞控制神经网络的处理结果来进行窗口调整，从而提高了控制网络拥塞的准确率。

Description

网络拥塞控制方法、装置、设备及介质

技术领域

本申请涉及网络传输技术领域，特别涉及一种网络拥塞控制方法、装置、设备及介质。

背景技术

目前网络环境复杂，影响网络传输效率的因素众多，如随机丢包、RTT(Round TripTime，往返时间)变化范围大、带宽变化范围大、缓存深度不一、流量整形、防火墙、数据中心、无线连接、卫星网络连接、虚拟私网等。因此，拥塞控制是保证网络高效传输的重要环节。

然而，现有技术一般是通过拥塞控制信号调节拥塞控制窗口和发送速率，但该类方法难以分辨某些拥塞控制信号是否为网络拥塞所产生，如丢包或延迟等拥塞控制信号，若这些拥塞信号并不是由于网络拥塞而造成的丢包或延迟，这就造成由这些不是由网络拥塞而造成的拥塞控制信号调节拥塞控制窗口大小不准确，进而难以适应当前复杂的网络环境。

发明内容

本申请提供了一种网络拥塞控制方法、装置、设备及介质，以提高控制网络拥塞的准确率。

本申请提供的技术方案包括：

第一方面，本申请实施例提供了一种网络拥塞控制方法，该方法包括：

基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数；其中，该网络状态数据用于指示该网络设备的数据传输状态，该预先训练好的拥塞控制神经网络基于目标奖励函数训练得到，该目标奖励函数至少根据该网络状态数据所包括的数据包的发送速率和数据包传输过程的最小往返时延确定；

按照该目标调整参数，调整当前拥塞控制窗口的大小，得到调整后的拥塞控制窗口；

控制该网络设备通过该调整后的拥塞控制窗口发送数据包。

在一些实施例中，该目标奖励函数根据该网络状态数据所包括的数据包的发送速率、丢包率、数据包在发送时的排队时延以及数据包传输过程中的最小往返时延确定。

在一些实施例中，该目标奖励函数的表达式为：

其中，SR表示数据包的发送速率，LR表示丢包率，D表示数据包在发送时的排队时延，MinRtt表示数据包传输过程的最小往返时间，δ为丢包的惩罚系数，ε和ρ分别为用于引导该拥塞控制神经网络呈现不同表现的引导参数。

在一些实施例中，基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数，包括：

通过该预先训练好的拥塞控制神经网络，基于该网络状态数据，确定用于调整该拥塞控制窗口的至少一个调整参数对应的发生概率；

将对应发生概率最大的调整参数，确定为该目标调整参数。

在一些实施例中，该方法还包括：

基于该调整后的拥塞控制窗口和数据包传输过程的平滑往返时间，确定数据包的发送速率。

在一些实施例中，控制该网络设备通过该调整后的拥塞控制窗口发送数据包，包括：

控制该网络设备，通过该调整后的拥塞控制窗口，按照该发送速率，发送该数据包。

在一些实施例中，基于该调整后的拥塞控制窗口和数据包传输过程的平滑往返时间，确定数据包的发送速率，包括：

通过如下表达式，确定该发送速率：

其中，cwnd为该调整后的拥塞控制窗口的大小，srtt为数据包传输过程的平滑往返时间。

在一些实施例中，通过如下表达式，确定该平滑往返时间：

srtt＝ω×srtt+(1-ω)×lrtt；

其中，srtt为数据包传输过程的平滑往返时间，ω为平滑因子。

在一些实施例中，按照该目标调整参数，调整当前拥塞控制窗口的大小，得到调整后的拥塞控制窗口，包括：

根据当前拥塞控制窗口的大小与该目标调整参数所对应的预设数值的乘积，确定该调整后的拥塞控制窗口的大小。

在一些实施例中，该拥塞控制神经网络的训练过程包括：

获取样本网络状态数据，该样本网络状态数据标注有样本调整参数；

通过待训练的拥塞控制神经网络，对各个样本网络状态数据进行处理，得到拥塞控制窗口的第一调整参数；

根据训练损失对该待训练的拥塞控制神经网络的参数进行调整，该训练损失包括该目标奖励函数；

在该训练损失小于设定阈值，或者，训练迭代次数满足设定要求的情况下，得到训练好的拥塞控制神经网络。

在一些实施例中，该拥塞控制神经网络至少包含两层全连接层，该全连接层的激活函数为反正切tanh函数。

第二方面，本申请实施例提供了一种网络拥塞控制装置，该装置包括：

参数确定单元，用于基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数；其中，该网络状态数据用于指示该网络设备的数据传输状态，该预先训练好的拥塞控制神经网络基于目标奖励函数训练得到，该目标奖励函数至少根据该网络状态数据所包括的数据包的发送速率和数据包传输过程的最小往返时延确定；

调整单元，用于按照该目标调整参数，调整当前拥塞控制窗口的大小，得到调整后的拥塞控制窗口；

控制单元，用于控制该网络设备通过该调整后的拥塞控制窗口发送数据包。

在一些实施例中，该目标奖励函数的表达式为：

在一些实施例中，该参数确定单元，在用于基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数时，用于：

将对应发生概率最大的调整参数，确定为该目标调整参数。

在一些实施例中，该装置还包括：

速率确定单元，用于基于该调整后的拥塞控制窗口和数据包传输过程的平滑往返时间，确定数据包的发送速率。

在一些实施例中，该控制单元，用于控制该网络设备，通过该调整后的拥塞控制窗口，按照该发送速率，发送该数据包。

在一些实施例中，该速率确定单元，用于通过如下表达式，确定该发送速率：

在一些实施例中，通过如下表达式，确定该平滑往返时间：

srtt＝ω×srtt+(1-ω)×lrtt；

在一些实施例中，该调整单元，用于根据当前拥塞控制窗口的大小与该目标调整参数所对应的预设数值的乘积，确定该调整后的拥塞控制窗口的大小。

在一些实施例中，该装置还包括训练单元，该训练单元，用于：

第三方面，本申请实施例提供了一种计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现上述网络拥塞控制方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有程序，所述程序被处理器执行上述网络拥塞控制方法。

第五方面，本申请实施例提供了一种计算程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述网络拥塞控制方法。

由以上技术方案可以看出，本申请基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数；按照目标调整参数，调整当前拥塞控制窗口的大小，得到调整后的拥塞控制窗口；控制网络设备通过调整后的拥塞控制窗口发送数据包。其中，预先训练好的拥塞控制神经网络基于目标奖励函数训练得到，目标奖励函数至少根据网络状态数据所包括的数据包的发送速率和数据包传输过程的最小往返时延确定，从而提高了训练得到的拥塞控制神经网络的准确性，而且无需使用拥塞控制信号直接调节拥塞控制窗口，而是基于训练好的拥塞控制神经网络的处理结果来进行窗口调整，避免了因不是由于网络拥塞而造成的拥塞控制信号直接调节拥塞控制窗口大小的误判情况，从而提高了控制网络拥塞的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本申请提供的一种网络拥塞控制方法的流程图；

图2为本申请提供的一种传输速率、往返事件以及丢包率随着在飞数据(Inflight)的数据量的变化情况示意图；

图3为本申请提供的一种拥塞控制网络的结构示意图；

图4为本申请提供的一种不同结构的拥塞控制神经网络的Expired Reward随训练过程的变化情况示意图；

图5为本申请实施例提供的一种网络拥塞控制装置的结构示意图；

图6为本申请提供的一种计算设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本申请进行详细描述。

本申请提供了一种网络拥塞控制方法，该方法可以由计算设备执行，该计算设备可以通过有线或无线的连接方式与网络设备相连，以便网络设备在获取到自身的网络状态数据后，将获取到的网络状态数据发送给计算设备，由计算设备基于获取到的网络状态数据，来对网络设备的拥塞控制窗口的大小进行调整，以实现网络拥塞控制。

在更多可能的实现方式中，该方法还可以直接由网络设备执行，也即是，网络设备在获取到自身的网络状态数据后，基于获取到的网络状态数据，来对网络设备的拥塞控制窗口的大小进行调整，以实现网络拥塞控制。

上述为对本申请的应用场景的相关介绍，下面对本申请的具体实现过程进行介绍：

参见图1，图1为本申请提供的一种网络拥塞控制方法的流程图，该方法包括以下步骤：

步骤101，基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数；其中，该网络状态数据用于指示该网络设备的数据传输状态，该预先训练好的拥塞控制神经网络基于目标奖励函数训练得到，该目标奖励函数至少根据该网络状态数据所包括的数据包的发送速率和数据包传输过程的最小往返时延确定。

在一种可能的实现方式中，获取网络设备所处网络环境的网络状态数据，从而基于获取到的网络状态数据，通过预先训练好的拥塞控制神经网络，确定该目标调整参数。

作为一个实施例，该网络状态数据可以包括如下表1所示数据中的至少一个：

表1

以上述表1中涉及到的数据类型为例，对网络状态数据进行标准化处理的处理方式进行说明：

对于与时间相关的数据类型对应的网络状态数据(表格中的第1行至第6行的数据)，将这类网络状态数据缩放10^-3，以实现数据的标准化处理。

对于与字节相关的数据类型对应的网络状态数据(表格中的第7行至第14行的数据)，将这类网络状态数据缩放10^-4，以实现数据的标准化处理。

可选地，从网络设备的网络环境中获取的网络状态数据可能处于不同的量纲，基于此，可以在获取到网络状态数据后，对获取到的网络状态数据进行预处理，以使预处理后的网络状态数据处于相同的量纲下。

其中，对网络状态数据进行预处理，可以是对网络状态数据进行标准化处理，还可以是对采集到的不同时刻的网络状态数据进行整合处理。

可选地，对采集到的不同时刻的网络状态数据进行整合处理，可以采用对每一种数据类型对应的网络状态数据进行“求和”、“求均值”、“求最小值”、“求最大值”以及“求方差”等操作。

可选地，上述整合处理可以每隔设定时间间隔进行一次，也可以每收集设定个数的确认字符(Acknowledge character，ACK)或丢包(loss)事件进行一次，本申请对此不加以限定。其中，设定时间间隔和设定个数均可以为任意取值，本申请对此不加以限定。

需要说明的是，在本申请中，可以预先设置有多个调整参数，以便通过预先训练好的拥塞控制神经网络，来预测这多个调整参数对应的发生概率，从而根据预测得到的发生概率，来进行目标调整参数的确定。

其中，调整参数用于指示调整拥塞控制窗口的动作类型，以及调整拥塞控制窗口的动作时所使用的预设数值。调整拥塞控制窗口的动作类型为乘性动作，在通过乘性动作调整拥塞控制窗口的动作时，将当前拥塞控制窗口的大小与调整参数对应的预设数值相乘，以实现对当前拥塞控制窗口的调整。

在一种可能的实现方式中，目标调整参数为多个调整参数中对应发生概率最大的调整参数。

步骤102，按照该目标调整参数，调整当前拥塞控制窗口的大小，得到调整后的拥塞控制窗口。

相对于其他调整参数，使用发生概率最大的调整参数来调整拥塞控制窗口，能够提高带宽利用率，而且不会导致网络拥塞的情况的出现。

步骤103，控制该网络设备通过该调整后的拥塞控制窗口发送数据包。

通过调整后的拥塞控制窗口，来进行数据包的发送，使得数据包能够顺利地发出，从而保证数据传输过程的正常进行。

至此，完成图1所示的描述。

由以上技术方案可以看出，本申请中，基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数；按照目标调整参数，调整当前拥塞控制窗口的大小，得到调整后的拥塞控制窗口；控制网络设备通过调整后的拥塞控制窗口发送数据包。其中，预先训练好的拥塞控制神经网络基于目标奖励函数训练得到，目标奖励函数至少根据网络状态数据所包括的数据包的发送速率和数据包传输过程的最小往返时延确定，从而提高了训练得到的拥塞控制神经网络的准确性，而且无需使用拥塞控制信号直接调节拥塞控制窗口，而是基于训练好的拥塞控制神经网络的处理结果来进行窗口调整，避免了因不是由于网络拥塞而造成的拥塞控制信号直接调节拥塞控制窗口大小的误判情况，从而提高了控制网络拥塞的准确率。

上述为对本申请的基本实现过程的介绍，下面具体介绍本申请的各种非限制性实施方式。

相关技术中，奖励函数(Reward)设计是强化学习方案设计中的重要环节之一，奖励函数设计可以引导网络拥塞神经网络获得优秀的动作策略。一般来说，在网络拥塞控制中，设计奖励函数的出发点是奖励吞吐量(throughput or log(throughput))，惩罚时延(delay)和丢包(loss)，基于此，本申请提出一种新的奖励函数。在本申请中，目标奖励函数根据网络状态数据所包括的数据包的发送速率、丢包率、数据包在发送时的排队时延以及数据包传输过程中的最小往返时延确定。

在一些实施例中，目标奖励函数的表达式可以参见下式(1)：

其中，SR表示数据包的发送速率，LR表示丢包率，D表示数据包在发送时的排队时延，MinRtt表示数据包传输过程的最小往返时间，δ为丢包的惩罚系数，ε和ρ分别为用于引导所述拥塞控制神经网络呈现不同表现的引导参数。

可选地，SR使用一个状态观测期间中，第二个往返时间(Round-Trip Time，RTT)中发送的数据总和与第二个RTT的时间的比值；LR使用一个状态观测期间中，第二个RTT中丢包的数据总和与第二个RTT的时间的比值；D使用本次状态观测期间第二个RTT中统计到的平均排队时延；MinRtt使用状态观测期间第二个RTT中记录的最小往返时延。其中，一个状态观测期由2个RTT组成。

对于丢包的惩罚系数δ，在发送速率超过瓶颈带宽，且待发送的数据包占满缓存的情况下，丢包速率会随着发送速率同步上升，因此对丢包的惩罚应大于对发送速率的奖励，而网络可能在非拥塞的情况产生随机丢包，这样的随机丢包不能阻碍发送速率上升带来的奖励上升，因此，δ应取值略大于1，例如，将δ的取值设置为1.05。而对于发送速率SR的奖励，在排队时延小于时延阈值的情况下，对排队时延不做惩罚；在排队时延大于时延阈值的情况下，可以按比例减小对SR的奖励，该时延阈值为任意取值，本申请对此不加以限定。

对于引导参数ε和ρ，在ε和ρ取值大于设定阈值的情况下，占取缓存的能力较强；在ε和ρ取值小于设定阈值的情况下，排队时延可以控制的更低，此时可以根据应用场景确定ε和ρ的具体取值。其中，设定阈值为任意取值，本申请对此不加以限定。

基于本申请所提供的目标奖励函数，拥塞控制窗口的收敛空间可以参见图2，图2为本申请提供的一种传输速率、往返事件以及丢包率随着在飞数据(Inflight)的数据量的变化情况示意图。其中，图2中(A)图表示在缓存足够多的情况下Quic-DRLCC期望Inflight所在的空间；图2中(B)图表示在缓存较浅的情况下Quic-DRLCC期望Inflight所在的空间。

在一些实施例中，在基于目标奖励函数实现网络拥塞神经网络的训练后，通过预先训练好的网络拥塞神经网络实现目标调整参数的确定。在一种可能的实现方式中，通过该预先训练好的拥塞控制神经网络，基于该网络状态数据，确定用于调整该拥塞控制窗口的至少一个调整参数对应的发生概率；将对应发生概率最大的调整参数，确定为该目标调整参数。

其中，至少一个调整参数可以参见下表2：

表2

动作类型	调整拥塞控制窗口的方式
		增加(Increase)	2，1.25，*1.05
减少(Decrease)	/1.05，/1.25，/2
		保持(Maintain)	*1

在一些实施例中，在按照目标调整参数，调整当前拥塞控制窗口的大小时，根据当前拥塞控制窗口的大小与目标调整参数所对应的预设数值的乘积，确定调整后的拥塞控制窗口的大小。例如，将当前拥塞控制窗口的大小与目标调整参数所对应的预设数值的乘积，确定为调整后的拥塞控制窗口的大小。

其中，目标调整参数所对应的预设数值可能小于1，此时，可以根据当前拥塞控制窗口的大小与目标调整参数所对应的预设数值的乘积，确定调整后的拥塞控制窗口的大小；或者，还可以根据当前拥塞控制窗口的大小除以目标调整参数所对应的预设数值的倒数所得到的值，确定调整后的拥塞控制窗口的大小。

以上表2中所示的各个调整参数为例，在上表2中，*2动作表示将当前拥塞控制窗口的大小增大为原来的2倍，*1.25动作表示将当前拥塞控制窗口的大小增大为原来的1.25倍，*1.05动作表示将当前拥塞控制窗口的大小增大为原来的1.05倍，/1.05表示将当前拥塞控制窗口的大小缩小为原来的1.05倍，/1.25表示将当前拥塞控制窗口的大小缩小为原来的1.25倍，/2表示将当前拥塞控制窗口的大小缩小为原来的2倍，*1表示维持当前拥塞控制窗口的大小。

通过采用本申请所提供的调整参数，同一拥塞控制窗口大小经过不同的动作进行调整后，所得到的拥塞控制窗口大小均是不同的，从而能避免出现“映射一对多”的问题，从而保证训练后的拥塞控制神经网络的求解过程的顺利进行。而且，通过采用本申请所提供的调整参数，能够使得拥塞控制窗口的调整过程更加精细。

在实际应用中，通常仅对拥塞控制窗口的大小进行调控，但当大量数据突发涌入时，往往会造成已调整后的当前拥塞控制窗口进一步拥塞，难以应对当前的数据突发状况，基于此，本申请通过控制发送速率，来缓解网络因cwnd突变带来的冲击载荷而使得排队时延变大，或者丢包的问题，从而提高网络设备的数据发送性能。

在一种可能的实现方式中，基于调整后的拥塞控制窗口和数据包传输过程的平滑往返时间，确定数据包的发送速率。基于此，在控制网络设备通过调整后的拥塞控制窗口发送数据包时，控制网络设备，通过调整后的拥塞控制窗口，按照上述发送速率，发送数据包。

其中，在基于调整后的拥塞控制窗口和数据包传输过程的平滑往返时间，确定数据包的发送速率时，可以通过如下表达式(2)实现：

其中，cwnd为所述调整后的拥塞控制窗口的大小，srtt为数据包传输过程的平滑往返时间。

可见，在本实施例中，当cwnd增大引发srtt增大时，应用本实施例提供的技术方案来控制发送速率，可以使发送速率相对稳定，从而使网络状态数据更平滑，降低网络状态数据噪声。

在一种可能的实现方式中，可以通过如下表达式(3)，来确定平滑往返时间：

srtt＝ω×srtt+(1-ω)×lrtt (3)

在一些实施例中，拥塞控制神经网络的训练过程包括以下步骤：

步骤一、获取样本网络状态数据，所述样本网络状态数据标注有样本调整参数。

其中，样本网络状态数据的数据类型和相关描述可以参见上述步骤101中的内容，此处不在再赘述。

此外，在获取到样本网络状态数据后，还可以对样本网络状态数据进行预处理，预处理的相关内容也可以参见上述步骤101，此处不再赘述。

步骤二、通过待训练的拥塞控制神经网络，对各个样本网络状态数据进行处理，得到拥塞控制窗口的第一调整参数。

步骤三、根据训练损失对所述待训练的拥塞控制神经网络的参数进行调整，所述训练损失包括所述目标奖励函数。

上述步骤二至步骤三的过程为迭代进行的过程，也即是，通过待训练的拥塞控制神经网络，对一个样本网络状态数据进行处理，得到这个样本状态数据对应的第一调整参数，进而根据这个样本状态数据对应的第一调整参数、这个样本数据标注有的样本目标调整参数以及训练损失，对待训练的拥塞控制神经网络的参数进行调整，从而基于经过参数调整的待训练的拥塞控制神经网络，继续对下一个样本网络状态数据进行处理，以此类推，实现对多个样本网络状态数据的处理过程。

以其中任一个样本网络状态数据的处理过程为例，通过待训练的拥塞控制神经网络，从该任一个网络状态数据中获取数据包的发送速率、丢包率、数据包在发送时的排队时延以及数据包传输过程中的最小往返时延；依据获取到的数据包的发送速率、丢包率、数据包在发送时的排队时延以及数据包传输过程中的最小往返时延，确定出用于表示网络经调整拥塞控制窗口大小后赋予的实际奖励值，进而将确定出的实际奖励值作为训练损失。其中，在确定实际奖励值时，通过如上表达式(1)实现。

步骤四、在所述训练损失小于设定阈值，或者，训练迭代次数满足设定要求的情况下，得到训练好的拥塞控制神经网络。

其中，设定阈值为任意取值，本申请对此不加以限定。训练迭代次数满足设定要求，可以为训练迭代次数达到设定次数，设定次数为任意取值，本申请对此不加以限定。

在一些实施例中，在训练好拥塞控制神经网络后，将拥塞控制神经网络部署在计算设备(或网络设备)上，以使得计算设备(或网络设备)按照如下方式执行如下步骤：

基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数；

控制该网络设备通过该调整后的拥塞控制窗口发送数据包。

对于上述各个实施例中涉及到的拥塞控制神经网络，该拥塞控制神经网络至少包含两层全连接层(Fully Connected Layers，FC)，该全连接层的激活函数为反正切tanh函数。在更多可能的实现方式中，该拥塞控制神经网络还包括长短时记忆网络(Long Short-Term Memory，LSTM)，该全连接层的激活函数还可以为线性整流函数(Rectified LinearUnit，relu)，本申请对拥塞控制神经网络的具体结构不加以限定。

基于此，参见图3，图3为本申请提供的一种拥塞控制网络的结构示意图，该拥塞控制神经网络有如下几种可选的结构：

1、包括两层FC，且各个FC的激活函数均为tanh函数；

2、包括两层FC和一层LSTM层，且各个FC的激活函数均为tanh函数；

3、包括两层FC，且各个FC的激活函数均为relu函数；

4、包括两层FC和一层LSTM层，且各个FC的激活函数均为relu函数。

基于上述4种拥塞控制神经网络，各个拥塞控制神经网络的Expired Reward随训练过程的变化情况示意图可以参见图4，图4为本申请提供的一种不同结构的拥塞控制神经网络的Expired Reward随训练过程的变化情况示意图，如图4所示，这4种结构的拥塞控制神经网络均可以较快速达到较高Reward，其中，对于不使用LSTM、且使用relu函数作为激活函数的拥塞控制神经网络，Reward相对上升不太稳定，而在使用tanh函数作为激活函数时，LSTM层未起到明显作用。

此外，经过测试，上述4中结构的拥塞控制神经网络的推理耗时如下表3所示：

表3

网络结构	平均推理耗时(ms)
		1、FC-tanh-FC-tanh	0.70
2、FC-tanh-FC-tanh-LSTM	1.63
		3、FC-relu-FC-relu	0.62
4、FC-relu-FC-relu-LSTM	1.56

从上表可以看出，LSTM层消耗计算资源较多，但对于Expired Reward提升无法起到明显效果。

作为一个实施例，采用包括两层FC，且各个FC的激活函数均为tanh函数的拥塞控制神经网络，以实现稳定的训练结果，且计算速度较快，从而在保证拥塞控制效果的基础上降低推理计算量及耗时的同时，还能够有效提高强化学习拥塞控制的鲁棒性，使其在更广泛的网络环境中能够表现良好，如更广泛的带宽范围，更广泛的时延范围以及不同的丢包环境。

与前述方法的实施例相对应，本申请还提供了一种网络拥塞控制装置。参见图5，图5为本申请实施例提供的一种网络拥塞控制装置的结构示意图，该装置可以包括：

参数确定单元501，用于基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数；其中，该网络状态数据用于指示该网络设备的数据传输状态，该预先训练好的拥塞控制神经网络基于目标奖励函数训练得到，该目标奖励函数至少根据该网络状态数据所包括的数据包的发送速率和数据包传输过程的最小往返时延确定；

调整单元502，用于按照该目标调整参数，调整当前拥塞控制窗口的大小，得到调整后的拥塞控制窗口；

控制单元503，用于控制该网络设备通过该调整后的拥塞控制窗口发送数据包。

在一些实施例中，该目标奖励函数的表达式为：

在一些实施例中，该参数确定单元501，在用于基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数时，用于：

将对应发生概率最大的调整参数，确定为该目标调整参数。

在一些实施例中，该装置还包括：

在一些实施例中，该控制单元503，用于控制该网络设备，通过该调整后的拥塞控制窗口，按照该发送速率，发送该数据包。

在一些实施例中，通过如下表达式，确定该平滑往返时间：

srtt＝ω×srtt+(1-ω)×lrtt；

在一些实施例中，该调整单元502，用于根据当前拥塞控制窗口的大小与该目标调整参数所对应的预设数值的乘积，确定该调整后的拥塞控制窗口的大小。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

本申请还提供了一种计算设备，从硬件层面而言，硬件架构示意图可以参见图6，图6为本申请提供的一种计算设备的结构示意图。如图6所示，该计算设备包括：存储器601和处理器602，其中，该存储器601中存储有可在处理器602上运行的计算机程序，处理器602执行该计算机程序，以实现上述示例公开的网络拥塞控制方法。

本申请还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述示例公开的网络拥塞控制方法。

这里，计算机可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，计算机可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

本申请还提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述示例公开的网络拥塞控制方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的可选实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种网络拥塞控制方法，其特征在于，所述方法包括：

基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数；其中，所述网络状态数据用于指示所述网络设备的数据传输状态，所述预先训练好的拥塞控制神经网络基于目标奖励函数训练得到，所述目标奖励函数至少根据所述网络状态数据所包括的数据包的发送速率和数据包传输过程的最小往返时延确定；

按照所述目标调整参数，调整当前拥塞控制窗口的大小，得到调整后的拥塞控制窗口；

控制所述网络设备通过所述调整后的拥塞控制窗口发送数据包；

所述目标奖励函数根据所述网络状态数据所包括的数据包的发送速率、丢包率、数据包在发送时的排队时延以及数据包传输过程中的最小往返时延确定；

所述目标奖励函数的表达式为：

2.根据权利要求1所述的方法，其特征在于，所述基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数，包括：

通过所述预先训练好的拥塞控制神经网络，基于所述网络状态数据，确定用于调整所述拥塞控制窗口的至少一个调整参数对应的发生概率；

将对应发生概率最大的调整参数，确定为所述目标调整参数。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于所述调整后的拥塞控制窗口和数据包传输过程的平滑往返时间，确定数据包的发送速率。

4.根据权利要求3所述的方法，其特征在于，所述控制所述网络设备通过所述调整后的拥塞控制窗口发送数据包，包括：

控制所述网络设备，通过所述调整后的拥塞控制窗口，按照所述发送速率，发送所述数据包。

5.根据权利要求3所述的方法，其特征在于，所述基于所述调整后的拥塞控制窗口和数据包传输过程的平滑往返时间，确定数据包的发送速率，包括：

通过如下表达式，确定所述发送速率：

6.根据权利要求5所述的方法，其特征在于，通过如下表达式，确定所述平滑往返时间：

srtt＝ω×srtt+(1-ω)×lrtt；

7.根据权利要求1所述的方法，其特征在于，所述按照所述目标调整参数，调整当前拥塞控制窗口的大小，得到调整后的拥塞控制窗口，包括：

根据当前拥塞控制窗口的大小与所述目标调整参数所对应的预设数值的乘积，确定所述调整后的拥塞控制窗口的大小。

8.根据权利要求1所述的方法，其特征在于，所述拥塞控制神经网络的训练过程包括：

获取样本网络状态数据，所述样本网络状态数据标注有样本调整参数；

根据训练损失对所述待训练的拥塞控制神经网络的参数进行调整，所述训练损失包括所述目标奖励函数；

在所述训练损失小于设定阈值，或者，训练迭代次数满足设定要求的情况下，得到训练好的拥塞控制神经网络。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述拥塞控制神经网络至少包含两层全连接层，所述全连接层的激活函数为反正切tanh函数。

10.一种网络拥塞控制装置，其特征在于，所述装置包括：

参数确定单元，用于基于网络设备的网络状态数据，通过预先训练好的拥塞控制神经网络，确定拥塞控制窗口的目标调整参数；其中，所述网络状态数据用于指示所述网络设备的数据传输状态，所述预先训练好的拥塞控制神经网络基于目标奖励函数训练得到，所述目标奖励函数至少根据所述网络状态数据所包括的数据包的发送速率和数据包传输过程的最小往返时延确定；

调整单元，用于按照所述目标调整参数，调整当前拥塞控制窗口的大小，得到调整后的拥塞控制窗口；

控制单元，用于控制所述网络设备通过所述调整后的拥塞控制窗口发送数据包；

所述目标奖励函数的表达式为：

11.一种计算设备，其特征在于，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至9中任一项所述的网络拥塞控制方法所执行的操作。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有程序，所述程序被处理器执行如权利要求1至9中任一项所述的网络拥塞控制方法所执行的操作。