CN116055406A

CN116055406A - 拥塞窗口预测模型的训练方法及装置

Info

Publication number: CN116055406A
Application number: CN202310031984.9A
Authority: CN
Inventors: 王悦; 刘畅; 龙岳
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-05-02
Anticipated expiration: 2043-01-10
Also published as: CN116055406B

Abstract

本发明公开了一种拥塞窗口预测模型的训练方法及装置，该方法包括：获取历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为样本数据，构建训练集；其中，历史网络环境信息用于表示发送节点和接收节点在对应的历史时刻内进行通信时的网络状态，所述历史目标拥塞窗口值是在历史时刻根据预设拥塞窗口调整规则计算得到的，所述发送节点和所述接收节点为网络中任意建立有通信连接的节点；根据所述训练集，对初始拥塞窗口预测模型进行训练，获得目标拥塞窗口预测模型，其中，所述目标拥塞窗口预测模型用于预测所述发送节点对应的拥塞窗口调整策略，所述拥塞窗口调整策略用于调整所述发送节点的拥塞窗口值，以对网络进行拥塞控制。

Description

拥塞窗口预测模型的训练方法及装置

技术领域

本发明涉及计算机技术领域，具体涉及一种拥塞窗口预测模型的训练方法、拥塞控制方法、装置、电子设备及计算机可读介质。

背景技术

为解决数据中心网络拥塞和吞吐量下降的问题，目前研究方向主要分为对TCP拥塞控制协议改进、流调度技术优化流量、软件定义网络(SDN，Software Defined Network)控制方案等方案。

目前，数据中心(DC，Data Center)在基于SDN控制方案解决网络存在的拥塞问题时，一般通过OpenFlow技术将网络设备数据面和控制面分离，从而实现网络流量的灵活控制。然而，在基于SDN解决网络存在的拥塞问题时，其限制条件是需要将链路资源和路由信息抽象为解决线性规划问题，而在解决该线性规划问题的过程中往往会消耗大量计算资源和网络资源，从而导致在某些场景，例如大规模云环境中可能并不适应。

发明内容

为此，本发明提供一种拥塞窗口预测模型的训练方法，以基于训练得到的目标拥塞窗口预测模型预测发送节点对应的拥塞窗口调整策略，从而通过调整其拥塞窗口大小，在不需要过多浪费计算资源和网络资源的前提下解决网络中存在的拥塞问题。

为了实现上述目的，本发明第一方面提供一种拥塞窗口预测模型的训练方法，该方法包括：

获取历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为样本数据，构建训练集；

其中，所述历史网络环境信息用于表示发送节点和接收节点在对应的历史时刻内进行通信时的网络状态，所述历史目标拥塞窗口值是在历史时刻根据预设拥塞窗口调整规则计算得到的，所述发送节点和所述接收节点为网络中任意建立有通信连接的节点；

根据所述训练集，对初始拥塞窗口预测模型进行训练，获得目标拥塞窗口预测模型，其中，所述目标拥塞窗口预测模型用于预测所述发送节点对应的拥塞窗口调整策略，所述拥塞窗口调整策略用于调整所述发送节点的拥塞窗口值，以对网络进行拥塞控制。

可选地，所述获取历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为样本数据，包括：

获取第一网络环境信息，其中，所述第一网络环境信息的初始值为所述发送节点在第一时刻对应的网络环境信息，所述第一时刻与所述发送节点和所述接收节点之间的任一通信往返时间对应；

根据所述第一网络环境信息和第一初始拥塞窗口值，使用所述预设拥塞窗口调整规则计算所述发送节点在所述第一时刻对应的第一目标拥塞窗口值，其中，所述第一初始拥塞窗口值为所述发送节点在所述第一时刻的拥塞窗口的初始值；

基于所述第一目标拥塞窗口值对网络进行拥塞控制，获取进行所述拥塞控制后的第一回报值，其中，所述第一回报值表示经过所述拥塞控制后的网络状态；

根据所述第一网络环境信息、第一初始拥塞窗口值、所述第一目标拥塞窗口值以及所述第一回报值，生成第一数据对，并根据所述第一数据对，构建历史经验集；

获取第二时刻的网络环境信息作为新的第一网络环境信息，并再次执行所述根据所述第一网络环境信息，使用所述预设拥塞窗口调整规则计算所述发送节点在所述第一时刻对应的第一目标拥塞窗口值的步骤，以持续构建所述历史经验集，其中，所述第二时刻晚于所述第一时刻；

在满足预设停止条件的情况下，停止构建所述历史经验集，并从所述历史经验集中，获取满足预设优先级条件的历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为所述样本数据。

可选地，所述第一网络环境信息包括所述第一时刻对应的第一通信往返时间；

所述方法通过以下公式计算得到所述第一目标拥塞窗口值：

其中，A_T+RTT表示所述第一目标拥塞窗口值，a_t表示所述第一初始拥塞窗口值，μ为所述第一通信往返时间与预设数值M的比值，Ecount表示拥塞窗口的变化量，i和j表示拥塞窗口的划分区间。

所述获取进行所述拥塞控制后的第一回报值，包括：

获取进行所述拥塞控制后网络的吞吐量和丢包率；

根据所述吞吐量、所述丢包率和所述第一通信往返时间，得到所述第一回报值。

可选地，所述从所述历史经验集中，获取满足预设优先级条件的历史网络环境信息、历史初始拥塞窗口值和和历史目标拥塞窗口值作为所述样本数据，包括：

根据所述历史经验集的数据对中的回报值，对所述历史经验集中的多个数据对进行排序；

从排序后的多个数据对中，选取排名满足所述预设优先级条件的数据对中的网络环境信息、初始拥塞窗口值和目标拥塞窗口值e,作为所述样本数据。

可选地，所述根据所述训练集，对初始拥塞窗口预测模型进行训练，获得目标拥塞窗口预测模型，包括：

使用所述训练集对所述初始拥塞窗口预测模型进行训练，并在训练过程中基于预设损失函数调整所述初始拥塞窗口预测模型的参数，以获得满足预设收敛条件的所述目标拥塞窗口预测模型。

为了实现上述目的，本发明第二方面提供一种拥塞控制方法，该方法包括：

获取当前网络环境信息和当前拥塞窗口值，其中，所述当前网络环境信息表示所述发送节点和所述接收节点之间的网络的网络状态；

将所述当前网络环境信息输入至目标拥塞窗口预测模型中，获得目标拥塞窗口调整策略，其中，所述目标拥塞窗口预测模型是根据拥塞窗口预测模型的训练方法得到的；

基于所述目标拥塞窗口调整策略和所述当前拥塞窗口值，得到目标拥塞窗口值，并根据所述目标拥塞窗口值对所述网络进行拥塞控制。

为了实现上述目的，本发明第三方面还提供一种拥塞窗口预测模型的训练装置，该装置包括：

训练集构建模块，用于获取历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为样本数据，构建训练集；

训练模块，用于根据所述训练集，对初始拥塞窗口预测模型进行训练，获得目标拥塞窗口预测模型，其中，所述目标拥塞窗口预测模型用于预测所述发送节点对应的拥塞窗口调整策略，所述拥塞窗口调整策略用于调整所述发送节点的拥塞窗口值，以对网络进行拥塞控制。

为了实现上述目的，本发明第四方面还提供一种拥塞控制装置，该装置包括：

获取模块，用于获取当前网络环境信息和当前拥塞窗口值，其中，所述当前网络环境信息表示所述发送节点和所述接收节点之间的网络的网络状态；

预测模块，用于将所述当前网络环境信息输入至目标拥塞窗口预测模型中，获得目标拥塞窗口调整策略，其中，所述目标拥塞窗口预测模型是根据拥塞窗口预测模型的训练方法得到的；

拥塞控制模块，用于基于所述目标拥塞窗口调整策略和所述当前拥塞窗口值，得到目标拥塞窗口值，并根据所述目标拥塞窗口值对所述网络进行拥塞控制。

为了实现上述目的，本发明第五方面还提供一种电子设备，包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明第一方面或第二方面中任意一项所述的方法；

一个或多个I/O接口，连接在所述处理器与存储器之间，配置为实现所述处理器与存储器的信息交互。

为了实现上述目的，本发明第六方面还提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明第一方面或第二方面中任意一项所述的方法。

本发明具有如下优点：根据本发明的实施例，通过获取历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为样本数据，构建训练集；从而可以根据该训练集训练用于预测目标拥塞窗口值的目标拥塞窗口预测模型，由于历史网络环境信息对应的历史拥塞窗口值是根据预设拥塞窗口调整规则计算得到的较优的拥塞窗口值，因此，通过在模型训练过程中学习样本数据中的特征信息，即可得到可以准确的预测目标拥塞窗口值的目标拥塞窗口预测模型，通过将该目标拥塞窗口预测模型部署到网络的发送节点处，并预测网络中的每一发送节点对应的拥塞窗口大小，即可在不需要浪费大量计算资源和网络资源的前提下实现对网络的拥塞控制。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。

图1为本发明实施例提供的一种拥塞窗口预测模型的训练方法的流程示意图；

图2为本发明实施例提供的用于获取样本数据的流程示意图；

图3为本发明实施例提供的拥塞控制方法的流程示意图；

图4为本发明实施例提供的一种拥塞窗口预测模型的训练装置的组成方框图；

图5为本发明实施例提供的一种拥塞控制装置的组成方框图；

图6为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序；并且，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互任意组合。

如本发明所使用的，术语“和/或”包括一个或多个相关列举条目的任何和全部组合。

本发明所使用的术语仅用于描述特定实施例，且不意欲限制本发明。如本发明所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。

当本发明中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。

除非另外限定，否则本发明所用的全部术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本发明的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本发明明确如此限定。

针对相关技术中在基于SDN网络解决网络拥塞问题时，可能存在的浪费计算资源和网络资源，从而导致其在大规模云环境中扩展困难，即普适性差的问题，本发明实施例提供了一种拥塞窗口预测模型的训练方法，该方法以真实的网络环境中的历史网络环境信息、历史初始拥塞窗口值和目标拥塞窗口值构建样本数据，并通过深度强化学习来训练得到目标拥塞窗口预测模型，通过将该目标拥塞窗口预测模型部署到网络中，并在网络中的每一发送节点发送数据时基于预测得到的目标拥塞窗口值调整其拥塞窗口(cwnd，congestion window))大小，即可在不需要浪费大量计算资源和网络资源的前提下，方便且准确的对网络进行拥塞控制。

请参看图1，其为本发明实施例提供的一种拥塞窗口预测模型的训练方法的流程示意图。该方法可以由电子设备设施，该电子设备可以为服务器，例如，可以是物理服务器，例如可以为刀片服务器、机架式服务器等，或者也可以是虚拟服务器，例如可以是部署在云端的服务器集群；当然，该电子设备也可以为终端设备，此处不做特殊限定。

如图1所述，本发明实施例提供的拥塞窗口预测模型的训练方法可以包括如下步骤S101-S102，以下予以详细说明。

步骤S101，获取历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为样本数据，构建训练集；其中，历史网络环境信息用于表示发送节点和接收节点在对应的历史时刻内进行通信时的网络状态，历史目标拥塞窗口值是在历史时刻根据预设拥塞窗口调整规则计算得到的，发送节点和接收节点为网络中任意建立有通信连接的节点。

在本发明实施例中，训练集中的样本数据可以是：通过在数据中心的每一发送节点处部署一个代理(Agent),在该发送节点与其对应的接收节点通信的每一个通信往返时间(RTT，Round Trip Time)内，由该代理获取网络中的网络环境信息，并由该代理根据该网络环境信息基于预设拥塞窗口调整规则确定调整后的目标拥塞窗口值，以基于该目标拥塞窗口值调整当前的初始拥塞窗口值的大小，并基于调整后的拥塞窗口发送数据，之后，通过获取窗口调整后的网络状态，并根据预设的效用函数计算回报值，之后，可以将该网络环境信息、初始拥塞窗口值、目标拥塞窗口值以及回报值等放入经验池中存储；同时，代理还可以持续通过调整拥塞窗口大小的方式对网络进行优化，并持续更新经验池；最后，可以从该经验池中提取相应的历史网络环境信息及其对应的历史初始拥塞窗口值和历史目标拥塞窗口值来构建样本数据。

本发明实施例中的代理可以用于对发送节点对应的网络的网络环境进行检测并采集网络环境信息，以及根据采集的网络环境信息对发送节点的参数，例如拥塞窗口大小进行调整。

发送节点可以是数据中心中任意一用于发送通信数据的节点，接收节点是与发送节点对应的、用于接收该通信数据的节点。可以理解的是，发送节点和接收节点可以是数据中心中任意的建立有通信连接的网络设备，该发送节点和接收节点在发送通信数据时，两者中间可以经历1个或者多个数据转发设备。

在本发明实施例中，网络环境信息可以为时延(Delay)、吞吐量(Throughput)、丢包率(Packet Loss Rate)、网络拓扑等参数中的至少一项。

可以理解的是，在将历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为样本数据时，每一样本数据是由对应时刻的历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值组成。例如，可以根据T1时刻的网络环境信息1、初始拥塞窗口值1和目标拥塞窗口值1构建样本数据1，根据T2时刻的网络环境信息2、初始拥塞窗口值2和目标拥塞窗口值2构建样本数据2。

在本发明实施例中，该预设拥塞窗口调整规则，可以为基于预设强化学习(QL，Q-Learning)算法构建的规则，具体可以是通过对RTT进行区间量化，并根据每一区间的时长、预设的窗口变化量以及当前的拥塞窗口值确定针对拥塞窗口的操作的规则。

在本发明实施例中，拥塞窗口调整策略，即针对拥塞窗口的改变动作可以分为增加、减少和不变，当然，在具体实施时，也可以根据需要设置针对拥塞窗口的改变动作，此处不做特殊限定。

步骤S102，根据训练集，对初始拥塞窗口预测模型进行训练，获得目标拥塞窗口预测模型，其中，目标拥塞窗口预测模型用于预测发送节点对应的拥塞窗口调整策略，拥塞窗口调整策略用于调整发送节点的拥塞窗口值，以对网络进行拥塞控制。

在本发明实施例中，该初始拥塞窗口预测模型可以为时序卷积模型(TCN，Temporal Convolutional Network)，即，可以在训练过程中，通过该时序卷积模型对应的时序卷积函数提取训练集的样本数据在时序上的隐含关系，以进行深度强化学习，从而最终训练得到满足预设收敛条件的目标拥塞窗口预测模型；当然，在实际实施时，该初始拥塞窗口预测模型也可以根据需要设置为其他模型，此处不做特殊限定。

在经过以上步骤S101构建得到训练集之后，即可基于该训练集对初始拥塞窗口预测模型进行训练，以训练得到针对发生节点在每一通信往返时间，即每一RTT内对应的目标拥塞窗口值，进而决定针对拥塞窗口的改变动作，以准确的对发送节点的拥塞窗口大小进行调整，实现对网络的拥塞控制。

可见，在本发明实施例中，通过获取历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为样本数据，构建训练集；从而可以根据该训练集训练用于预测目标拥塞窗口值的目标拥塞窗口预测模型，由于历史网络环境信息对应的历史拥塞窗口值是根据预设拥塞窗口调整规则计算得到的较优的拥塞窗口值，因此，通过在模型训练过程中学习样本数据中的特征信息，即可得到可以准确的预测目标拥塞窗口值的目标拥塞窗口预测模型，通过将该目标拥塞窗口预测模型部署到网络的发送节点处，并预测网络中的每一发送节点对应的拥塞窗口大小，即可在不需要浪费大量计算资源和网络资源的前提下实现对网络的拥塞控制。

请参看图2，其为本发明实施例提供的用于获取样本数据的流程示意图。如图2所示，在本发明实施例中，可以通过在每一发送节点处设置代理，从而可以根据该代理获取真实网络环境在每一时刻的实际网络数据来构建样本数据，该样本数据具体可以通过以下步骤得到：

步骤S201，获取第一网络环境信息，其中，第一网络环境信息的初始值为发送节点在第一时刻对应的网络环境信息，第一时刻与发送节点和接收节点之间的任一通信往返时间对应。

步骤S202，根据第一网络环境信息和第一初始拥塞窗口值，使用预设拥塞窗口调整规则计算发送节点在第一时刻对应的第一目标拥塞窗口值，其中，第一初始拥塞窗口值为发送节点在第一时刻的拥塞窗口的初始值。

在一些实施例中，第一网络环境信息可以包括第一时刻对应的第一通信往返时间；在该种实施方式中，该第一目标拥塞窗口值可以通过以下公式计算得到：

其中，A_T+RTT表示第一目标拥塞窗口值；a_t表示第一时刻的第一初始拥塞窗口值，μ为第一通信往返时间与预设数值M的比值，Ecount表示拥塞窗口的变化量，i和j表示拥塞窗口的划分区间；在本发明实施例中，M、i和j的数值可以根据需要进行设置，此处不做特殊限定。

当然，以上仅为本发明实施例提供的一种用于计算第一目标拥塞窗口值的其中一个实施例，在实际实施时，也可以根据其他算法来确定第一目标拥塞窗口值，此处不做特殊限定。

步骤S203，基于第一目标拥塞窗口值对网络进行拥塞控制，获取进行拥塞控制后的第一回报值，其中，第一回报值表示经过拥塞控制后的网络状态。

在一些实施例中，第一网络环境信息包括第一时刻对应的第一通信往返时间；上述步骤S203中所述的获取进行拥塞控制后的第一回报值，可以是：获取进行拥塞控制后网络的吞吐量和丢包率；根据吞吐量、丢包率和第一通信往返时间，得到第一回报值。

在该种实施方式中，所述根据吞吐量、丢包率和第一通信往返时间，得到第一回报值，具体可以是根据以下效应函数计算得到该第一回报值：

U＝th-m×rtt-n×loss；

其中，U表示第一回报值，th表示吞吐量，rtt表示第一通信往返时间，loss表示丢包率，m、n为常量，其数值可以根据实际需要进行设置。

步骤S204，根据第一网络环境信息、第一初始拥塞窗口值、第一目标拥塞窗口值以及第一回报值，生成第一数据对，并根据第一数据对，构建历史经验集。

在本发明实施例中，该第一数据对，可以包含其对应历史时刻的第一网络环境信息、第一初始拥塞窗口值、第一目标拥塞窗口值及其第一回报值等信息；当然，根据实际需要，该第一数据对中也可以包含其他内容，例如还可以包含第一拥塞窗口调整策略等信息，以在构建样本数据时，使用尽可能多的数据来构建样本数据以模拟实际网络状态，从而使得模型训练过程可以更深度的进行特征学习，以提升最终预测得到的拥塞窗口调整策略的准确度。

需要说明的是，在该种实施方式中，该第一拥塞窗口调整策略可以根据第一初始拥塞窗口值和第一目标拥塞窗口值之间的差值确定。例如，在第一初始拥塞窗口值和第一目标拥塞窗口值之间的差值大于0的情况下，则该第一拥塞窗口调整策略可以为表示对拥塞窗口进行减少操作的信息；又例如，在第一初始拥塞窗口值和第一目标拥塞窗口值之间的差值小于0的情况下，则该第一拥塞窗口调整策略可以为表示对拥塞窗口进行增加操作的信息；再例如，在第一初始拥塞窗口值和第一目标拥塞窗口值之间的差值为0的情况下，则该第一拥塞窗口调整策略可以为表示不对拥塞窗口进行操作的信息。

步骤S205，获取第二时刻的网络环境信息作为新的第一网络环境信息，并再次执行上述步骤S202，即，根据第一网络环境信息，使用预设拥塞窗口调整规则计算发送节点在第一时刻对应的第一目标拥塞窗口值的步骤，以持续构建历史经验集，其中，第二时刻晚于第一时刻。

步骤S206，在满足预设停止条件的情况下，停止构建历史经验集，并从历史经验集中，获取满足预设优先级条件的历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为样本数据。

在一些实施例中，该预设停止条件，可以是上述迭代次数达到预设的轮数，即，达到预设的学习周期，该预设的轮数可以根据需要进行设置；当然，该预设停止条件也可以为其他条件，此处不做特殊限定。

在一些实施例中，上述步骤S206中的从历史经验集中，获取满足预设优先级条件的历史网络环境信息、历史初始拥塞窗口值和和历史目标拥塞窗口值作为样本数据，包括：根据历史经验集的数据对中的回报值，对历史经验集中的多个数据对进行排序；从排序后的多个数据对中，选取排名满足预设优先级条件的数据对中的网络环境信息、初始拥塞窗口值和目标拥塞窗口值作为样本数据。

即，在构建样本数据时，可以根据每一历史时刻对发送节点的拥塞窗口进行调整后得到的回报值，选取回报值较大的历史数据来作为样本数据。

当然，在实际实施时，也可以根据其他条件来筛选样本数据，此处不做特殊限定。

在一些实施例中，上述步骤S102中的根据训练集，对初始拥塞窗口预测模型进行训练，获得目标拥塞窗口预测模型，包括：使用训练集对初始拥塞窗口预测模型进行训练，并在训练过程中基于预设损失函数调整初始拥塞窗口预测模型的参数，以获得满足预设收敛条件的目标拥塞窗口预测模型。

即，在构建得到训练集之后，即可根据样本数据对初始拥塞窗口预测模型进行训练，并在训练过程中通过预设损失函数计算在每一次训练过程中的损失值，以根据该损失值调整模型参数，最终得到满足预设收敛条件，例如，误差低于预设阈值的目标拥塞窗口预测模型。

其中，在进行模型训练的过程中，可以是通过将训练集中每一历史时刻的历史环境信息映射到模型中，通过由模型预测针对该历史时刻的历史初始窗口值的调整策略，得到预测目标拥塞窗口值，通过比较该预测目标拥塞窗口值和该历史时刻的、真实的历史目标拥塞窗口值之间的误差，对该模型的参数进行调整。

在一些实施例中，该预设损失函数可以是基于贝尔曼方程式(Bellman Equation)的函数，以在训练过程中通过学习真实的历史数据中的隐含关系，训练得到满足预设收敛条件的目标拥塞窗口预测模型。

与上述实施例相对应，本发明实施例还提供一种拥塞控制方法，请参看图3，其为本发明实施例提供的拥塞控制方法的流程示意图。该方法可以应用于数据中心中每一发送节点对应的代理(Agent)中，该代理可以用于检测并获取发送节点对应的网络环境信息，并基于该网络环境信息和上述任意实施例训练得到的目标拥塞窗口预测模型预测该发送节点在下一时刻对应的拥塞窗口调整策略，以调整其拥塞窗口大小，进而在不需要浪费大量计算资源和网络资源的情况下方便且准确的对网络进行拥塞控制。

如图3所示，本发明实施例提供的拥塞控制方法包括如下步骤S301-S303：

步骤S301，获取当前网络环境信息和当前拥塞窗口值，其中，当前网络环境信息表示发送节点和接收节点之间的网络的网络状态。

步骤S302，将网络状态信息输入至目标拥塞控制测量生成模型中，获得预设拥塞控制策略，其中，目标拥塞窗口预测模型是根据拥塞窗口预测模型的训练方法得到的。

步骤S303，基于目标拥塞窗口调整策略和当前拥塞窗口值，得到目标拥塞窗口值，并根据目标拥塞窗口值对网络进行拥塞控制。

另外，还需要说明的是，以上各方法实施例中各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明实施例还提供一种拥塞窗口预测模型的训练装置，如图4所示，该拥塞窗口预测模型的训练装置400包括：训练集构建模块401和训练模块402。

该训练集构建模块401，用于获取历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为样本数据，构建训练集；其中，所述历史网络环境信息用于表示发送节点和接收节点在对应的历史时刻内进行通信时的网络状态，所述历史目标拥塞窗口值是在历史时刻根据预设拥塞窗口调整规则计算得到的，所述发送节点和所述接收节点为网络中任意建立有通信连接的节点。

该训练模块402，用于根据所述训练集，对初始拥塞窗口预测模型进行训练，获得目标拥塞窗口预测模型，其中，所述目标拥塞窗口预测模型用于预测所述发送节点对应的拥塞窗口调整策略，所述拥塞窗口调整策略用于调整所述发送节点的拥塞窗口值，以对网络进行拥塞控制。

在一些实施例中，该训练集构建模块401在获取历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为样本数据时，可以用于：获取第一网络环境信息，其中，所述第一网络环境信息的初始值为所述发送节点在第一时刻对应的网络环境信息，所述第一时刻与所述发送节点和所述接收节点之间的任一通信往返时间对应；根据所述第一网络环境信息和第一初始拥塞窗口值，使用所述预设拥塞窗口调整规则计算所述发送节点在所述第一时刻对应的第一目标拥塞窗口值，其中，所述第一初始拥塞窗口值为所述发送节点在所述第一时刻的拥塞窗口的初始值；基于所述第一目标拥塞窗口值对网络进行拥塞控制，获取进行所述拥塞控制后的第一回报值，其中，所述第一回报值表示经过所述拥塞控制后的网络状态；根据所述第一网络环境信息、第一初始拥塞窗口值、所述第一目标拥塞窗口值以及所述第一回报值，生成第一数据对，并根据所述第一数据对，构建历史经验集；获取第二时刻的网络环境信息作为新的第一网络环境信息，并再次执行所述根据所述第一网络环境信息，使用所述预设拥塞窗口调整规则计算所述发送节点在所述第一时刻对应的第一目标拥塞窗口值的步骤，以持续构建所述历史经验集，其中，所述第二时刻晚于所述第一时刻；在满足预设停止条件的情况下，停止构建所述历史经验集，并从所述历史经验集中，获取满足预设优先级条件的历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为所述样本数据。

在一些实施例中，第一网络环境信息包括第一时刻对应的第一通信往返时间；该训练集构建模块401可以使用以下公式计算得到第一目标拥塞窗口值：

在一些实施例中，第一网络环境信息包括第一时刻对应的第一通信往返时间；该训练集构建模块401在获取进行拥塞控制后的第一回报值时，可以用于：获取进行拥塞控制后网络的吞吐量和丢包率；根据吞吐量、丢包率和第一通信往返时间，得到第一回报值。

在一些实施例中，该训练集构建模块401在从所述历史经验集中，获取满足预设优先级条件的历史网络环境信息、历史初始拥塞窗口值和和历史目标拥塞窗口值作为所述样本数据时，可以用于：根据所述历史经验集的数据对中的回报值，对所述历史经验集中的多个数据对进行排序；从排序后的多个数据对中，选取排名满足所述预设优先级条件的数据对中的网络环境信息、初始拥塞窗口值和目标拥塞窗口值作为所述样本数据。

在一些实施例中，该训练模块402在根据训练集，对初始拥塞窗口预测模型进行训练，获得目标拥塞窗口预测模型时，可以用于：使用训练集对初始拥塞窗口预测模型进行训练，并在训练过程中基于预设损失函数调整初始拥塞窗口预测模型的参数，以获得满足预设收敛条件的目标拥塞窗口预测模型。

本发明实施例还提供一种拥塞控制装置，如图5所示，该拥塞控制装置500包括：获取模块501、预测模块502和拥塞控制模块503。

该获取模块501，用于获取当前网络环境信息和当前拥塞窗口值，其中，当前网络环境信息表示发送节点和接收节点之间的网络的网络状态。

该预测模块502，用于将所述当前网络环境信息输入至目标拥塞窗口预测模型中，获得目标拥塞窗口调整策略，其中，目标拥塞窗口预测模型是根据拥塞窗口预测模型的训练方法得到的。

该拥塞控制模块503，用于基于目标拥塞窗口调整策略和当前拥塞窗口值，得到目标拥塞窗口值，并根据目标拥塞窗口值对网络进行拥塞控制。

本发明实施例提供的装置具有的功能或包含的模块可以用于执行上文第一方面方法实施例描述的方法，其具体实现和技术效果可参照上文方法实施例的描述，为了简洁，这里不再赘述。

需要说明的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

参照图6，本发明实施例提供一种电子设备，其包括：

一个或多个处理器601；

存储器602，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述实施例中任意一项的拥塞窗口预测模型的训练方法或者拥塞控制方法；

一个或多个I/O接口603，连接在处理器与存储器之间，配置为实现处理器与存储器的信息交互。

其中，处理器601为具有数据处理能力的器件，其包括但不限于中央处理器(CPU)等；存储器602为具有数据存储能力的器件，其包括但不限于随机存取存储器(RAM，更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)；I/O接口(读写接口)603连接在处理器601与存储器602间，能实现处理器601与存储器602的信息交互，其包括但不限于数据总线(Bus)等。

在一些实施例中，处理器601、存储器602和I/O接口603通过总线相互连接，进而与计算设备的其它组件连接。

本发明实施例还提供一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现上述实施例中任意一项的拥塞窗口预测模型的训练方法或者拥塞控制方法，为避免重复描述，在此不再赘述具体步骤。

本领域普通技术人员可以理解，上文中所发明方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储器、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据，并且可包括任何信息递送介质。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明实施例的范围之内并且形成不同的实施例。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

Claims

1.一种拥塞窗口预测模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取历史网络环境信息、历史初始拥塞窗口值和历史目标拥塞窗口值作为样本数据，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一网络环境信息包括所述第一时刻对应的第一通信往返时间；

所述方法通过以下公式计算得到所述第一目标拥塞窗口值：

4.根据权利要求2所述的方法，其特征在于，所述第一网络环境信息包括所述第一时刻对应的第一通信往返时间；

所述获取进行所述拥塞控制后的第一回报值，包括：

获取进行所述拥塞控制后网络的吞吐量和丢包率；

5.根据权利要求2所述的方法，其特征在于，所述从所述历史经验集中，获取满足预设优先级条件的历史网络环境信息、历史初始拥塞窗口值和和历史目标拥塞窗口值作为所述样本数据，包括：

从排序后的多个数据对中，选取排名满足所述预设优先级条件的数据对中的网络环境信息、初始拥塞窗口值和目标拥塞窗口值作为所述样本数据。

6.根据权利要求1所述的方法，其特征在于，所述根据所述训练集，对初始拥塞窗口预测模型进行训练，获得目标拥塞窗口预测模型，包括：

7.一种拥塞控制方法，其特征在于，包括：

将所述当前网络环境信息输入至目标拥塞窗口预测模型中，获得目标拥塞窗口调整策略，其中，所述目标拥塞窗口预测模型是根据权利要求1-6任意一项所述训练方法得到的；

8.一种拥塞窗口预测模型的训练装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现权利要求1-7中任意一项所述的方法；

10.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现权利要求1-7中任意一项所述的方法。