CN114945004B

CN114945004B - 拥塞控制方法、装置、电子设备及存储介质

Info

Publication number: CN114945004B
Application number: CN202210563690.6A
Authority: CN
Inventors: 李温静; 张楠; 胡州明; 刘柱; 王文升; 谢可; 诸金洪; 陈万昆; 刘玉民; 郭文静; 李炎; 梅昕苏; 肖钧浩; 杨成; 祝文军; 魏岳
Original assignee: State Grid Information and Telecommunication Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2024-01-02
Anticipated expiration: 2042-05-23
Also published as: CN114945004A

Abstract

本发明提供一种拥塞控制方法、装置、电子设备及存储介质，首先收集目标网络在当前时刻的性能指标；进而以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过网络模型对性能指标进行检测，获得目标网络由当前时刻至下一时刻的动作参数；最后按照所述动作参数对目标网络在当前时刻的网络流量进行调整。由于性能指标用于表征目标网络在当前时刻的网络状态、且网络模型是BBR拥塞控制算法与基于transformer的深度强化学习算法的智能体，因此本发明可以将BBR拥塞控制算法与基于transformer的深度强化学习算法相结合，很好的发挥BBR拥塞控制机制相对于传统基于丢包的拥塞控制机制的优势，指导网络模型向网络所需要的方向发展。

Description

拥塞控制方法、装置、电子设备及存储介质

技术领域

本发明涉及通信技术领域，更具体地说，涉及一种拥塞控制方法、装置、电子设备及存储介质。

背景技术

近年来，人工智能、大数据、云计算等技术的快速发展极大促进了电力物联网的数字化和智能化，电力智慧物联体系正在不断完善。但是，由于电力物联网具有复杂的异构网络和海量的设备节点，常常面临海量复杂数据传输所导致的数据包丢失和网络资源被严重占用的挑战，容易造成网络拥塞，因此对于网络信息传输的可靠性和响应时间有很高的要求。拥塞控制本质上是将通信带宽、缓存等网络资源进行共享，使网络节点能够充分利用网络资源，同时通过调整资源分配和发送速率来避免出现网络拥塞情况，正在成为电力物联网的关键技术之一。

拥塞控制是网络传输的传统问题，也是核心问题。TCP-Tahoe、TCP NewReno、TCPCubic等传统的拥塞控制方案都是基于丢包的拥塞控制机制，通过调整拥塞控制窗口的方式来进行拥塞控制，而拥塞窗口的调整主要通过慢启动、拥塞避免、快速重传和快速恢复四个机制来实现，其网络拥塞判断依据为传输过程中是否发生丢包，丢包数量越多则说明网络拥塞程度越大，此时通过调节发送窗口的大小来降低发送速率，从而缓解网络拥塞问题。但是随着带宽和内存容量的发展，丢包和延迟不能完全作为网络发生拥塞的依据。Google于2016年发布了一种新的拥塞控制方案BBR(Bottleneck Bandwidth：瓶颈带宽andRound-trip propagation time：往返传播时间)，BBR拥塞控制方案不再使用丢包和时延作为拥塞发生信号的依据，提高了带宽利用率，通过最大带宽与最小的往返时间(RTT)调整传输数据，不使用数据丢包作为拥塞信号，具有较强的抗丢包能力，提高了网络的稳定性，有效的提高网络带宽利用率。

而随着电力物联网智能化数字化程度不断加深，移动终端接入数量不断增长，传统的拥塞控制方案难以满足需求，此外，BBR拥塞控制方案存在自身瓶颈，会因为持续的队列形成和重传而导致带宽探测阶段收敛速度太慢、敏感性不高、对无线网络时延抖动等问题考虑不周等缺陷，因此在实时性方面存在很大缺陷，无法满足系统吞吐量较高、实时性较强的复杂异构网络要求，难以适应电力物联网的不同场景需求。

发明内容

有鉴于此，为解决上述问题，本发明提供一种拥塞控制方法、装置、电子设备及存储介质，技术方案如下：

一种拥塞控制方法，所述方法包括：

收集目标网络在当前时刻的性能指标，所述性能指标用于表征所述目标网络在当前时刻的网络状态；

以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过网络模型对所述性能指标进行检测，获得所述目标网络由当前时刻至下一时刻的动作参数；其中，所述网络模型是BBR拥塞控制算法与基于transformer的深度强化学习算法的智能体；

按照所述动作参数对所述目标网络在当前时刻的网络流量进行调整。

优选的，所述性能指标包括：链路时延、瓶颈带宽、发送速率、拥塞窗口大小、采样窗口大小、拥塞窗口增益参数、发送速率增益参数；

所述动作参数包括采样窗口大小、拥塞窗口增益参数、发送速率增益参数。

优选的，所述以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过网络模型对所述性能指标进行检测，包括：

根据所述性能指标确定当前时刻BBR状态机模型分别在连接建立阶段、排空阶段、带宽探测阶段、以及延迟探测阶段的奖励，并计算当前时刻的奖励和；其中，所述连接建立阶段的奖励与发送速率相对应、所述排空阶段的奖励与链路时延相对应、所述带宽探测阶段的奖励与发送速率和链路时延相对应、所述延迟探测阶段的奖励为零；

根据当前时刻的奖励和对transformer模型进行调整，并通过调整后的transformer模型提取所述性能指标中链路时延、瓶颈带宽、发送速率、拥塞窗口大小、采样窗口大小、拥塞窗口增益参数、发送速率增益参数的特征；

以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过BBR拥塞控制算法对所提取的特征进行检测。

优选的，所述transformer模型包括：Multi-Head Attention模型。

优选的，所述按照所述动作参数对所述目标网络在当前时刻的网络流量进行调整，包括：

将所述动作参数中的采样窗口大小作为所述目标网络在下一时刻的采样窗口大小；

根据所述性能指标中的链路时延和瓶颈带宽、以及所述动作参数中的拥塞窗口增益参数计算所述目标网络在下一时刻的拥塞窗口大小；

根据所述性能指标中的发送速率、以及所述动作参数中的发送速率增益参数计算所述目标网络在下一时刻的发送速率；

按照所述目标网络在下一时刻的采样窗口大小、拥塞窗口大小和发送速率对进行流量调整。

一种拥塞控制装置，其特征在于，所述装置包括：

指标收集模块，用于收集目标网络在当前时刻的性能指标，所述性能指标用于表征所述目标网络在当前时刻的网络状态；

指标检测模块，用于以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过网络模型对所述性能指标进行检测，获得所述目标网络由当前时刻至下一时刻的动作参数；其中，所述网络模型是BBR拥塞控制算法与基于transformer的深度强化学习算法的智能体；

流量调整模块，用于按照所述动作参数对所述目标网络在当前时刻的网络流量进行调整。

优选的，用于以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过网络模型对所述性能指标进行检测的所述指标检测模块，具体用于：

根据所述性能指标确定当前时刻BBR状态机模型分别在连接建立阶段、排空阶段、带宽探测阶段、以及延迟探测阶段的奖励，并计算当前时刻的奖励和；其中，所述连接建立阶段的奖励与发送速率相对应、所述排空阶段的奖励与链路时延相对应、所述带宽探测阶段的奖励与发送速率和链路时延相对应、所述延迟探测阶段的奖励为零；根据当前时刻的奖励和对transformer模型进行调整，并通过调整后的transformer模型提取所述性能指标中链路时延、瓶颈带宽、发送速率、拥塞窗口大小、采样窗口大小、拥塞窗口增益参数、发送速率增益参数的特征；以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过BBR拥塞控制算法对所提取的特征进行检测。

一种电子设备，所述电子设备包括：至少一个存储器和至少一个处理器；所述存储器存储有应用程序，所述处理器调用所述存储器存储的应用程序，所述应用程序用于实现所述的拥塞控制方法。

一种存储介质，所述存储介质存储有计算机程序代码，所述计算机程序代码执行时实现所述的拥塞控制方法。

相较于现有技术，本发明实现的有益效果为：

本发明提供一种拥塞控制方法、装置、电子设备及存储介质，首先收集目标网络在当前时刻的性能指标；进而以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过网络模型对性能指标进行检测，获得目标网络由当前时刻至下一时刻的动作参数；最后按照所述动作参数对目标网络在当前时刻的网络流量进行调整。由于性能指标用于表征目标网络在当前时刻的网络状态、且网络模型是BBR拥塞控制算法与基于transformer的深度强化学习算法的智能体，因此本发明可以将BBR拥塞控制算法与基于transformer的深度强化学习算法相结合，很好的发挥BBR拥塞控制机制相对于传统基于丢包的拥塞控制机制的优势，指导网络模型向网络所需要的方向发展，具有很好的环境适应性，对于海量数据下的复杂异构的电力物联网尤其具有客观的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的拥塞控制方法的方法流程图；

图2为本发明实施例提供的拥塞控制方法的流程示意图；

图3为本发明实施例提供的拥塞控制方法的部分方法流程图；

图4为本发明实施例提供的BBR状态机模型的示意图；

图5为本发明实施例中Multi-Head Attention模型对性能指标进行特征提取的示意图；

图6为本发明实施例提供的拥塞控制装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

发明人发现现阶段除Google所发布的BBR拥塞控制机制外，还有基于深度强化学习的拥塞控制机制，通过使用深度强化学习对网络的当前窗口、吞吐量等性能指标充分利用，从而生成拥塞控制模型，达到科学精确的调节网络拥塞窗口的大小和方向，其以提高网络的吞吐量、降低丢包率和延时的方式解决网络拥塞。深度强化学习(Deep ReinforcementLearning，DRL)通过探索和接受来自环境的反馈来反映人类的学习。

发明人经过研究发现：深度学习具有很好的学习能力，经过训练能够在特点领域取得较好的效果，但训练模型所需要设置的参数及网络拓扑结构应与实际网络相匹配。计算机网络应用的难点是难以对多变的网络环境进行复杂准确的建模，而网络系统的动态性和复杂性导致在具体研究问题上难以建立精确的数学模型和设计高性能的算法。因此也难以利用深度学习训练不断适应网络环境的大量参数。另外，深度强化学习在缺乏指导的情况下也易于陷入局部最优。

针对BBR拥塞控制机制存在的带宽探测阶段收敛速度太慢、敏感性不高、对无线网络存在时延抖动、实时性差等问题，深度学习网络存在的复杂模型难以建模，以及深度强化学习采样效率低、奖励函数设计困难等问题，本发明将BBR拥塞控制算法与深度强化学习算法相结合，利用BBR拥塞控制算法计算链路的时延带宽积来调节网络流量，引入深度学习充分挖掘网络历史记忆进行网络模型训练，使智能体科学精确的计算拥塞窗口大小，提高网络带宽的利用率，结合强化学习指导智能体往网络所需要的方向发展。

本发明通过融合BBR拥塞控制算法和深度强化学习，能够使电力物联网网络更好地适应各种复杂网络场景的需求，更加智能化的作出最佳决策。这种新型的拥塞控制算法，能够满足系统吞吐量较高、实时性较强的复杂异构网络要求，保障海量数据下电力物联网的安全稳定。

参见图1，图1为本发明实施例提供的拥塞控制方法的方法流程图，该拥塞控制方法包括如下步骤：

S10，收集目标网络在当前时刻的性能指标，性能指标用于表征目标网络在当前时刻的网络状态。

本发明实施例中，目标网络为待进行拥塞控制的任意网络。对于目标网络，为确定其网络环境的运行状态，可以收集其在当前时刻的性能指标，该性能指标可以表征该目标网络在当前时刻的网络状态。

具体的，性能指标可以包括链路时延(round-trip propagation time，RTT)、瓶颈带宽(BottleneckBandwidth，BtlBW)、发送速率、拥塞窗口大小、采样窗口大小、拥塞窗口增益参数(Congestion window gain parameter，cwnd_gain)、发送速率增益参数(Sendingrate gain parameter，pacing_gain)，参见图2，图2为本发明实施例提供的拥塞控制方法的流程示意图，收集目标网络的网络环境中的包括RTT、BtlBW、发送速率、拥塞窗口大小、采样窗口大小、cwnd_gain和pacing_gain的性能指标。

S20，以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过网络模型对性能指标进行检测，获得目标网络由当前时刻至下一时刻的动作参数；其中，网络模型是BBR拥塞控制算法与基于transformer的深度强化学习算法的智能体。

本发明实施例中，继续参见图2，网络模型是由BBR拥塞控制算法与基于transformer的深度强化学习算法相结合的智能体，利用BBR拥塞控制算法计算链路的时延带宽积来调节网络流量，引入深度学习充分挖掘网络历史记忆进行网络模型训练，而网络模型向目标网络的网络环境所输出的动作即为动作参数，该动作参数包括采样窗口大小、拥塞窗口增益参数、发送速率增益参数。

具体实现过程中，步骤S20中“以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过网络模型对性能指标进行检测”可以采用如下步骤，方法流程图如图3所示：

S201，根据性能指标确定当前时刻BBR状态机模型分别在连接建立阶段、排空阶段、带宽探测阶段、以及延迟探测阶段的奖励，并计算当前时刻的奖励和；其中，连接建立阶段的奖励与发送速率相对应、排空阶段的奖励与链路时延相对应、带宽探测阶段的奖励与发送速率和链路时延相对应、延迟探测阶段的奖励为零。

参见图4，图4为本发明实施例提供的BBR状态机模型的示意图，该BBR状态机模型可以分为如下四个阶段：

1)STARTUP(连接建立阶段)：建立连接时BBR采用类似标准TCP的slow start，指数增加发送速率，目的也是尽可能快的占满管道，若发现投递率不再增长，说明管道被填满，开始占用buffer进入排空阶段。因此，奖励应该随着发送速率梯度的增大而增大，本发明中该阶段的奖励为：

其中，k1用来设置奖励上限，初始值为3，V代表发送速率。

2)DRAIN(排空阶段)：在排空阶段指数降低发送速率，此时相当于STARTUP的逆过程，将多占的至多2倍buffer慢慢排空。因此，本发明中该阶段的奖励应该随着链路时延的变化比率增大：

其中，k2初始值为2，RTT代表链路时延。

3)PROBE_BW(带宽探测阶段)：在带宽探测阶段BBR改变发送速率进行带宽探测。此时会先在一个RTT时间内增加发送速率探测瓶颈带宽BtlBW，如果RTT没有变化，就减小发送速率排空前一个RTT多发出来的包，后面6个周期使用更新后的估计带宽发包。此时网络比较稳定，本发明中该阶段的奖励可设置为发送速率与链路时延的权重差值：

其中，k3、k4为参数。

4)PROBE_RTT(延迟探测阶段)：在延迟探测阶段BBR每过一个采样时间窗口(初始值设置为10秒)，如果估计延迟不变，就进入延迟探测阶段，为了探测最小延迟RTT，BBR在这段时间内发送窗口固定为4个包，即几乎不发包，占整个过程2％的时间。此过程只探测最低时延，因此不设置奖励，本发明中该阶段的奖励为零。

本发明中采用马尔可夫奖励过程，R为整个过程的奖励和：

R＝Reward1+Reward2+Reward3 (4)

202，根据当前时刻的奖励和对transformer模型进行调整，并通过调整后的transformer模型提取性能指标中链路时延、瓶颈带宽、发送速率、拥塞窗口大小、采样窗口大小、拥塞窗口增益参数、发送速率增益参数的特征。

本发明实施例中，网络模型中借助transformer模型来做出最佳决策。相比于传统的深度学习算法，transformer模型不仅能够注意到序列的历史信息，还能够注意到同一序列中不同参数的隐含关系。BBR拥塞控制算法中，链路时延RTT、瓶颈带宽BtlBW、发送速率、拥塞窗口大小、采样窗口大小、拥塞窗口增益参数cwnd_gain和发送速率增益参数pacing_gain这些性能指标之间并不是孤立的无关信息，通过transformer模型可以将它们之间紧密联系，这一特点使得本文方法具有更大的优势。

本发明实施例中，继续参见图2，对于目标网络在当前时刻的奖励和，可以将其作为奖励输入给网络模型，以对网络模型中的transformer模型进行网络参数的调整，该transformer模型优选为Multi-Head Attention(多头注意力机制)模型，图5为本发明实施例中Multi-Head Attention模型对性能指标进行特征提取的示意图。

需要说明的是，transformer模型是一款开源的自然语言处理框架，完全抛弃了之前其它模型引入注意力机制后仍然保留的循环与卷积结构，在任务表现、并行能力和易于训练性方面都有大幅提升。

S203，以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过BBR拥塞控制算法对所提取的特征进行检测。

BBR拥塞控制算法不同于传统基于丢包的拥塞控制算法，它定义了链路的最大负载，即时延带宽积(Bandwidth Delay Product,BDP)为链路时延RTT与瓶颈带宽BtlBW的乘积，即：

BDP＝RTT*BtlBW (5)

BBR拥塞控制算法就是来控制流的平均工作点距离BDP点有多远，报文中每一个ACK提供了一个新的RTT和新的发送速率估计(η_t值为ACK的延时机制，数据包协议栈所消耗的时间；deliveryRate_t为发送速率)，RTProp为链路延迟。

RTT＝RTProp+min(η_t) (6)

BtlBW＝max(deliveryRate_t) (7)

BBR拥塞控制算法将以此为根据来更新链路时延RTT和瓶颈带宽BtlBW。拥塞窗口大小cwnd将根据以下公式调整：

cwnd＝BtlBW*RTT*cwnd_gain (8)

BRR拥塞控制算法维护了一个连接，力争通过以下两个条件满足最高的吞吐量和保持最低的时延：

(1)速率均衡：数据到达速率(本发明中以发送速率来表示)与BtlBW相等；

(2)填满管道：所有的在外数据(inflight data，本发明中以拥塞窗口大小来表示)与BDP相等。

S30，按照动作参数对目标网络在当前时刻的网络流量进行调整。

本发明实施例中，因为BBR拥塞控制算法的原理，本发明以拥塞窗口大小等于BDP为目标，为达到这种理想情况，本发明中的动作参数包括采样窗口大小、拥塞窗口增益参数cwnd_gain、发送速率增益参数pacing_gain。利用transformer模型与强化学习进行结合，有望在动态网络环境中达到拥塞控制信息的最优调解。

具体实现过程中，步骤S30“按照动作参数对目标网络在当前时刻的网络流量进行调整”可以采用如下步骤：

将动作参数中的采样窗口大小作为目标网络在下一时刻的采样窗口大小；根据性能指标中的链路时延和瓶颈带宽、以及动作参数中的拥塞窗口增益参数计算目标网络在下一时刻的拥塞窗口大小；根据性能指标中的发送速率、以及动作参数中的发送速率增益参数计算目标网络在下一时刻的发送速率；按照目标网络在下一时刻的采样窗口大小、拥塞窗口大小和发送速率对进行流量调整。

本发明实施例中，以动作参数中的采样窗口大小作为目标网络在下一时刻的采样窗口大小；按照上述公式(8)对性能指标中的链路时延和瓶颈带宽、以及动作参数中的拥塞窗口增益参数进行计算，得到目标网络在下一时刻的拥塞窗口大小；将性能指标中的发送速率、以及动作参数中的发送速率增益参数的乘积作为目标网络在下一时刻的发送速率。进而，以目标网络在下一时刻的采样窗口大小、拥塞窗口大小和发送速率对进行流量调整。

继续参见图2，本发明中BBR拥塞控制算法与基于transformer的深度强化学习算法相结合，对网络状态进行检测，并做出相应的决策动作，从而实现网络的高吞吐量与低延时。考虑到BBR拥塞控制算法的特点，为达到最优的收敛效果、同时改进BBR的缺陷，状态空间使用链路时延RTT、瓶颈带宽BtlBW、发送速率、拥塞窗口大小、采样窗口大小、拥塞窗口增益参数cwnd_gain和发送速率增益参数pacing_gain作为对过去的总结。

本发明在总结传统拥塞控制算法的基础上，将基于时延带宽积的BBR拥塞控制算法与基于transformer的深度强化学习算法相结合，克服了仅使用传统拥塞控制算法所存在的动态感知网络状态能力差、网络敏感性不足、实时性不高等缺点，同时解决了深度学习难以对复杂异构网络问题精准建模的缺陷。本文这种新型的拥塞控制算法，很好地发挥了BBR拥塞控制算法相对于传统基于丢包的拥塞控制算法的优势，同时具有很好的环境适应性，对于海量数据下的复杂异构的电力物联网尤其具有客观的应用前景。

基于上述实施例提供的拥塞控制方法，本发明实施例对应提供一种执行该拥塞控制方法的装置，该装置的结构示意图如图6所示，包括：

指标收集模块10，用于收集目标网络在当前时刻的性能指标，性能指标用于表征目标网络在当前时刻的网络状态；

指标检测模块20，用于以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过网络模型对性能指标进行检测，获得目标网络由当前时刻至下一时刻的动作参数；其中，网络模型是BBR拥塞控制算法与基于transformer的深度强化学习算法的智能体；

流量调整模块30，用于按照动作参数对目标网络在当前时刻的网络流量进行调整。

可选的，性能指标包括：链路时延、瓶颈带宽、发送速率、拥塞窗口大小、采样窗口大小、拥塞窗口增益参数、发送速率增益参数；

动作参数包括采样窗口大小、拥塞窗口增益参数、发送速率增益参数。

可选的，用于以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过网络模型对性能指标进行检测的指标检测模块，具体用于：

根据性能指标确定当前时刻BBR状态机模型分别在连接建立阶段、排空阶段、带宽探测阶段、以及延迟探测阶段的奖励，并计算当前时刻的奖励和；其中，连接建立阶段的奖励与发送速率相对应、排空阶段的奖励与链路时延相对应、带宽探测阶段的奖励与发送速率和链路时延相对应、延迟探测阶段的奖励为零；根据当前时刻的奖励和对transformer模型进行调整，并通过调整后的transformer模型提取性能指标中链路时延、瓶颈带宽、发送速率、拥塞窗口大小、采样窗口大小、拥塞窗口增益参数、发送速率增益参数的特征；以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过BBR拥塞控制算法对所提取的特征进行检测。

可选的，transformer模型包括：Multi-Head Attention模型。

可选的，流量调整模块30，具体用于：

需要说明的是，本发明实施例中各模块的细化功能可以参见上述拥塞控制方法对应公开部分，在此不再赘述。

基于上述实施例提供的拥塞控制方法，本发明实施例还提供一种电子设备，电子设备包括：至少一个存储器和至少一个处理器；存储器存储有应用程序，处理器调用存储器存储的应用程序，应用程序用于实现拥塞控制方法。

基于上述实施例提供的拥塞控制方法，本发明实施例还提供一种存储介质，存储介质存储有计算机程序代码，计算机程序代码执行时实现拥塞控制方法。

以上对本发明所提供的一种拥塞控制方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素，或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种拥塞控制方法，其特征在于，所述方法包括：

按照所述动作参数对所述目标网络在当前时刻的网络流量进行调整；

其中，所述动作参数包括采样窗口大小、拥塞窗口增益参数、发送速率增益参数；

其中，所述以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过网络模型对所述性能指标进行检测，包括：

2.根据权利要求1所述的方法，其特征在于，所述性能指标包括：链路时延、瓶颈带宽、发送速率、拥塞窗口大小、采样窗口大小、拥塞窗口增益参数、发送速率增益参数。

3.根据权利要求1所述的方法，其特征在于，所述transformer模型包括：Multi-HeadAttention模型。

4.根据权利要求1所述的方法，其特征在于，所述按照所述动作参数对所述目标网络在当前时刻的网络流量进行调整，包括：

5.一种拥塞控制装置，其特征在于，所述装置包括：

流量调整模块，用于按照所述动作参数对所述目标网络在当前时刻的网络流量进行调整；

其中，用于以发送速率等于瓶颈带宽、拥塞窗口大小等于时延带宽积为目标，通过网络模型对所述性能指标进行检测的所述指标检测模块，具体用于：

6.根据权利要求5所述的装置，其特征在于，所述性能指标包括：链路时延、瓶颈带宽、发送速率、拥塞窗口大小、采样窗口大小、拥塞窗口增益参数、发送速率增益参数。

7.一种电子设备，其特征在于，所述电子设备包括：至少一个存储器和至少一个处理器；所述存储器存储有应用程序，所述处理器调用所述存储器存储的应用程序，所述应用程序用于实现权利要求1-4任意一项所述的拥塞控制方法。

8.一种存储介质，其特征在于，所述存储介质存储有计算机程序代码，所述计算机程序代码执行时实现权利要求1-4任意一项所述的拥塞控制方法。