CN115499306B

CN115499306B - 流量调度模型的构建方法、装置、电子设备及存储介质

Info

Publication number: CN115499306B
Application number: CN202210913983.2A
Authority: CN
Inventors: 吴婧; 苏鹏; 傅旭明; 庞海烨; 金少辉; 王娟
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2024-03-12
Anticipated expiration: 2042-07-29
Also published as: CN115499306A

Abstract

本发明实施例涉及一种流量调度模型的构建方法、装置、电子设备及存储介质，该方法包括：将预配置的第一流量调度策略传输至数据平面网络，以获取数据平面网络根据第一流量调度策略生成的第一网络状态信息和第一网络利用率；将第一网络状态信息和第一网络利用率输入至预设模型进行训练，生成第i个流量调度策略；将第i个流量调度策略传输至数据平面网络，以获取第i网络利用率；当第i网络利用率达到预设要求时停止训练，确认预设模型为有效流量调度模型。通过该方式，能够更好地适应现代网络环境具有高度复杂和动态的特点，实现了合理的流量调度，达到了平衡网络链路负载，提高数据传输效率和网络利用率的目的。

Description

流量调度模型的构建方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及机器学习技术领域，尤其涉及一种流量调度模型的构建方法、装置、电子设备及存储介质。

背景技术

软件定义网络(Software Defined Network，SDN)将原来传统网络的控制配置与转发行为分离，通过控制平面接口获得数据转发网络信息，并提供给上层网络服务程序，实现了对网络的集中统一控制。当数据流在网络拓扑中有多条转发路径时，控制平面可以下发最优的路径选择策略供数据平面对流量进行调度，保证数据的高效转发。

在实际应用场景中，SDN多采用静态规则与算法对网络中的流量进行调度，如轮转调度、加权轮转、随机调度、最小连接调度等，然而静态的方法无法适应当前复杂多变的网络环境，不能保证策略在网络不同时刻的状态下都是最优的，导致网络链路负载不均衡、利用率低，数据传输效率不高等问题。

发明内容

本申请提供了一种流量调度模型的构建方法、装置、电子设备及存储介质，以解决现有技术中网络利用率低的问题。

第一方面，本申请提供了一种流量调度模型的构建方法，该方法包括：

将预配置的第一流量调度策略传输至数据平面网络，以获取数据平面网络根据第一流量调度策略生成的第一网络状态信息和第一网络利用率；

将第一网络状态信息和第一网络利用率输入至预设模型进行训练，生成第i个流量调度策略；

将第i个流量调度策略传输至数据平面网络，以获取第i网络利用率；

当第i网络利用率达到预设要求时停止训练，确认预设模型为有效流量调度模型，其中，i为大于或等于2的正整数。

通过该方式，根据当前网络状态生成流量调度策略，并根据流量调度策略作用于数据平面网络生成的优化指标即网络利用率进行训练，以获取有效流量调度模型，更好地适应现代网络环境具有高度复杂和动态的特点，实现了合理的流量调度，达到了平衡网络链路负载，提高数据传输效率和网络利用率的目的。

结合第一方面，本发明第一方面的第一实施例中，当第i网络利用率未达到预设要求时，方法还包括：

获取第i网络状态信息，并将第i网络状态信息输入至预设模型，对预设模型继续执行训练，直至预设模型最终生成的流量调度策略输入到数据平面网络后，所获取的网络利用率能够达到预设要求时停止训练。

通过该方式，在获取的网络利用率未达到预设要求时继续执行训练过程，使预设模型通过不断的强化学习获取最优参数，进而获取有效流量调度模型。

结合第一方面，本发明第一方面的第二实施例中，网络状态信息包括：数据平面网络的流向量、数据平面网络中第一网元节点与第二网元节点之间所有链路的时延向量集合，以及数据平面网络中第一网元节点与第二网元节点之间的所有链路的链路利用率向量集合，网络状态信息包括第一网络状态信息和第i网络状态信息。

通过该方式，将数据平面网络中的流向量，第一网元节点与第二网元节点之间所有链路的时延向量集合，以及数据平面网络中第一网元节点与第二网元节点之间的所有链路的链路利用率向量集合，作为网络状态信息，能够动态的反应当前数据平面网络的使用情况，使生成的流量调度策略更好的适应网络的动态特性。

结合第一方面至第一方面的第二实施例中任一实施例，本发明的第一方面的第三实施例中，当第i网络利用率达到预设要求时，停止训练，确认预设模型为有效流量调度模型，包括:

当第i网络利用率在预设约束条件下达到最小值时，确认第i网络利用率达到预设要求，停止训练，确认预设模型为有效流量调度模型。

通过该方式，以网络利用率在预设约束条件下达到最小值为优化目标，当网络利用率达到预设要求时，停止训练，确认预设模型为有效流量调度模型，最小化网络利用率能够使数据平面网络在数据流较大时选择较为空闲的路径进行转发，约束条件能够保证流量调度模型中参数的有效性，进而提高整体网络的调度效率和网络利用率。

结合第一方面的第三实施例，本发明第一方面的第四实施例中，约束条件，包括：

第i个流量调度策略将数据平面网络的第i个流向量分配完毕；

且数据平面网络的所有链路的链路利用率不大于第i网络利用率；

且数据平面网络中第一网元节点与第二网元节点之间所有链路的流量分配比例大于或者等于零。

通过该方式，可以剔除训练过程中的不符合调度规则的数据，使训练的过程更加快速和高效。

结合第一方面，本发明第一方面的第五实施例中，流量调度策略用以指示数据平面网络中第一网元节点与第二网元节点之间的不同链路的流量分配比例。

结合第一方面，本发明第一方面的第六实施例中，确认预设模型为有效流量调度模型之后，方法还包括：

获取待调度的数据平面网络的网络状态信息；

将网络状态信息输入流量调度模型进行决策，生成转发策略；

将转发策略传输至数据平面网络，以便数据平面网络根据转发策略进行流量转发。

通过该方式，使用训练得到的流量调度模型进行决策，生成转发策略，可以利用该模型的特性，得到最优的转发策略，并进行网络转发，提高网络利用率。

第二方面，本申请提供了一种流量调度模型的构建装置，该装置包括：

传输模块，用于将预配置的第一流量调度策略传输至数据平面网络，以获取数据平面网络根据第一流量调度策略生成的第一网络状态信息和第一网络利用率；

训练模块，用于将第一网络状态信息和第一网络利用率输入至预设模型进行训练，生成第i个流量调度策略；

传输模块，还用于将第i个流量调度策略传输至数据平面网络，以获取第i网络利用率；

确认模块，用于当第i网络利用率达到预设要求时停止训练，确认预设模型为有效流量调度模型，其中，i为大于或等于2的正整数。

可选的，该装置还包括：

训练模块，还用于获取第i网络状态信息，并将第i网络状态信息输入至预设模型，对预设模型继续执行训练，直至预设模型最终生成的流量调度策略输入到数据平面网络后，所获取的网络利用率能够达到预设要求时停止训练。

可选的，该装置还包括：

确认模块，还用于当第i网络利用率在预设约束条件下达到最小值时，确认第i网络利用率达到预设要求，停止训练，确认预设模型为有效流量调度模型。

可选的，该装置还包括：获取模块和处理模块；

获取模块，用于获取待调度的数据平面网络的网络状态信息；

处理模块，用于将网络状态信息输入流量调度模型进行决策，生成转发策略；

传输模块，还用于将转发策略传输至数据平面网络，以便数据平面网络根据转发策略进行流量转发。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例的流量调度模型的构建方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如第一方面任一项实施例的流量调度模型的构建方法的步骤。

附图说明

图1为本发明实施例提供的一种流量调度模型的构建方法流程示意图；

图2为本发明提供的一种流量调度模型的构建方法系统架构示意图；

图3为本发明提供的另一种流量调度模型的构建方法流程示意图；

图4本发明实施例提供的另一种流量调度模型的构建方法流程示意图；

图5为本发明实施例提供的一种流量调度模型的构建装置结构示意图；

图6为本发明实施例提供一种电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本发明实施例的理解，下面将结合附图以具体实施例做进一步的解释说明，实施例并不构成对本发明实施例的限定。

针对背景技术中所提及的技术问题，本申请实施例提供了一种流量调度模型的构建方法，具体参见图1所示，在介绍该方法步骤之前，首选介绍该方法的技术架构，如图2所示，本发明的系统架构主要由两部分组成：数据平面网络主要由转发网元节点构成，主要负责接收配置管理平台产生的，由控制器南向接口发送的流量调度策略的策略参数，实现流量的监测、处理、转发与调度方案的实施；配置管理平台主要用于部署流量调度策略模型，通过对数据平面网络提供的网络状态信息进行建模决策，生成流量调度策略，并将策略向下由控制器发送给数据平面，本发明的方法步骤由配置管理平台执行，具体的执行方法如图1所示，图1为本发明实施例提供的一种流量调度模型的构建方法流程示意图，该方法步骤包括：

步骤110，将预配置的第一流量调度策略传输至数据平面网络，以获取数据平面网络根据第一流量调度策略生成的第一网络状态信息和第一网络利用率。

具体的，配置管理平台在训练开始时随机选择一个动作即预配置的流量调度策略，通过预配置的控制接口传输至数据平面网络，该流量调度策略作用于数据平面网络生成第一网络状态信息和第一网络利用率，然后配置管理平台通过预配置的控制接口获取数据平面网络生成的第一网络状态信息和第一网络利用率。

网络利用率由流量调度策略作用于数据平面网络后产生的网络状态信息计算获得，为所有网络链路中链路利用率的最大值，链路利用率的计算方式可以如下公式所示：

其中，u_e表示网络链路e的链路利用率，表示当前节点与目的节点i之间的流请求分配至路径p上的比重，d_i为当前网元节点到目的节点i的流量，c_e为链路e的带宽。

因此，网络利用率可以用如下公式表示：

U＝maxu_e (公式二)

其中，U为网络利用率，u_e表示网络链路e的链路利用率，网络使用率即为所有网络链路中链路利用率的最大值。

步骤120，将第一网络状态信息和第一网络利用率输入至预设模型进行训练，生成第i个流量调度策略。

具体的，预设模型可以是深度学习模型的循环神经网络(Recurrent NeuralNetwork，RNN)，这是因为数据平面网络的链路状态之间具有一定的相关性，RNN相比其他深度学习模型相比能更好的处理和学习到有相关性的数据序列特征，将获取到的第一网络状态信息和第一网络利用率输入至RNN网络进行训练，生成第i个流量调度策略。

在一个可选的例子中，例如图3所示的流量调度模型的训练框架，配置管理平台在训练开始时随机选择一个动作作用于数据平面网络，数据平面网络根据该动作生成第一网络状态信息和第一网络利用率，将第一网络状态信息和第一网络利用率反馈给配置管理平台的RNN网络，RNN网络接收第一网络状态后，生成第i个流量调度策略。

步骤130，将第i个流量调度策略传输至数据平面网络，以获取第i网络利用率。

具体的，将第i个流量调度策略发送至数据平面网络，获取第i个流量调度策略作用于数据平面网络生成的第i网络利用率。

在一个可选的例子中，第i网络利用率是数据平面网络的网元节点对之间所有链路的网络使用率的最大值，在如图3所示的流量调度模型的训练框架中，配置管理平台将第i个流量调度策略传输至数据平面网络，并获取第i个流量调度策略作用于数据平面网络后生成的第i网络利用率。

步骤140，当第i网络利用率达到预设要求时停止训练，确认预设模型为有效流量调度模型。

具体的，随着不断的迭代训练，当第i网络利用率达到最小值不再变化后，停止训练，所获取的参数即为有效流量调度模型。

在本发明的流量调度策略的模型构建过程中，使用服务质量(Quality ofService，QoS)指标中的网络利用率为优化目标，QoS是指一个网络能够利用各种基础技术，为指定的网络通信提供更好的服务能力，是网络的一种安全机制，用来解决网络延迟和阻塞等问题的一种技术，通常使用多种QoS指标来对网络的综合服务质量进行评价。

对于软件定义网络的数据转发网元来说，流量调度策略主要是用来为具有多转发路径的数据流选择到达目的网元节点的最佳路径，路径需要保证数据流的高效转发，当数据流量较大时，需要选择较为空闲的路径进行转发。因此在该场景下，用来衡量流量调度策略质量的QoS指标主要有网络利用率，网络利用率越低则表示流量调度策略效果越好。

最小化网络利用率，可以用如下公式表示：

minU (公式三)

其中，U为网络利用率。

可选的，当第i网络利用率未达到预设要求时，方法还包括：

具体的，当第i网络利用率未达到最小值时，配置管理平台配置的流量调度策略继续获取数据平面网络根据第i流量调度策略生成的第i网络状态信息执行训练过程，直到最终生成的流量调度策略输入至数据平面网络后，所获取的网络利用率不再变小，停止训练。

在一个可选的例子中，例如图3所示的流量调度策略的训练框架，配置管理平台的流量调度模型可以基于强化学习算法进行训练，强化学习是智能体(Agent)以试错的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏。强化学习把学习看作试探评价过程，Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖赏)反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到奖赏的概率增大，可以看出，强化模型主要由智能体、状态、动作、奖赏、环境等组件构成。

因为本发明中的优化目标是最小化网络利用率，而基于强化学习的训练中的奖赏值是以获取最大奖赏值为目标，因此，在训练过程中，奖赏值可以设置为网络利用率的相反数-U，其中，U为网络利用率，奖赏的值越大，表示环境对上一次动作即流量调度策略的评价越高。这样，在训练的过程中，以获取最大奖赏值为目标，达到最小化网络利用率的目的。

通过该方式，在获取的网络利用率未达到要求时继续执行训练过程，使预设模型通过不断的强化学习获取最优参数，进而获取有效流量调度模型。

可选的，网络状态信息包括：数据平面网络的流向量、数据平面网络中第一网元节点与第二网元节点之间所有链路的时延向量集合，以及数据平面网络中第一网元节点与第二网元节点之间的所有链路的链路利用率向量集合，网络状态信息包括第一网络状态信息和第i网络状态信息。

具体的，在一个可选的例子中，例如图3所示的流量调度策略的训练框架，网络状态信息包括流量调度策略作用于数据平面网络后的网络状态，具体可以是采集时刻网络中网元节点的流向量、数据平面网络中节点对之间链路的时延向量集合以及数据平面网络中所有链路的链路利用率的向量的集合，可以将上述采集的所有信息拼接为一个向量后，输入流量调度模型，第一网络状态信息和第i网络状态信息均包含以上三个向量的集合。

在一个可选的例子中，例如图3所示的流量调度策略的训练框架，配置管理平台获取数据平面网络的网络状态信息，当然，也可以是数据平面网络主动传输网络状态信息给配置管理平台，具体根据实际情况而定即可，网络状态信息包括流向量、时延向量集合以及链路利用率向量集合，训练过程中的每一次获取的网络状态均包含有这三个向量集合，具体可以如下公式表示：

S_t＝[d_t,l_t,u_t] (公式四)

其中，S_t采样时刻的网络状态，d_t为数据平面网络网元节点的流向量，l_t为数据平面网络中所有网络链路的时延向量集合，u_t为数据平面网络中所有链路的链路利用率向量集合。

可选的，当第i网络利用率达到预设要求时，停止训练，确认预设模型为有效流量调度模型，包括:

具体的，本训练过程采用最小化网络利用率为优化目标，因此当网络利用率达到最小时，可以确认第i网络利用率达到预设要求，停止训练，确认预设模型为有效流量调度模型，需要说明的是，为了训练过程中数据的准确性和可用性，还需要设置约束条件，以提高训练过程中的数据的准确性，进而提高训练效率。

通过该方式，以网络利用率在约束条件下达到最小值为优化目标，当网络利用率达到预设要求时，停止训练，确认预设模型为有效流量调度模型，最小化网络利用率能够使数据平面网络在数据流较大时选择较为空闲的路径进行转发，约束条件能够保证流量调度模型中参数的有效性，进而提高整体网络的调度效率和网络利用率。

可选的，约束条件，包括：

具体的，在一个可选的例子中，例如图3所示的流量调度模型的训练框架，训练过程中的每一次生成流量调度策略时，需要符合约束条件，以使训练过程中的取值有效，即每一次流量调度策略将数据平面网络的流向量分配完毕，如果不能将该流向量分配完毕，则说明本次的流量调度策略作用于数据平面网络后产生的网络利用率不具有参考意义；而且因为网络利用率是数据平面网络的所有链路的链路利用率的最大值，因此数据平面网络的所有链路的链路利用率不大于网络利用率；且数据平面网络中第一网元节点与第二网元节点之间所有链路的流量分配比例大于或者等于零。具体可以用如下公式表示：

其中，表示当前节点即第一节点与目的节点即第二节点i之间的流请求分配至路径p上的比重，u_e表示网络链路e的链路利用率，P为所有链路的路径的集合，I为所有目的节点的集合。

公式五表示网络节点对间的所有流请求都分配到节点对间的转发路径上，且任意链路的链路利用率不超过网络使用率。

可选的，流量调度策略用以指示数据平面网络中第一网元节点与第二网元节点之间的不同链路的流量分配比例。

具体的，流量调度策略即为数据平面网络中，当前节点即第一网元节点与目的节点即第二网络节点之间的链路流量分配比例，所有链路的流量分配比例的集合即为流量调度策略。

在对预设模型训练完成之后，进一步，还可以对流量调度模型进行应用，以使数据平面网络获取更好地调度策略对流量进行转发分配。

可选的，确认预设模型为有效流量调度模型之后，还包括如图4所示的方法步骤：

步骤410，获取待调度的数据平面网络的网络状态信息。

步骤420，将网络状态信息输入流量调度模型进行决策，生成转发策略。

步骤430，将转发策略传输至数据平面网络，以便数据平面网络根据转发策略进行流量转发。

具体的，在一个可选的例子中，例如在配置管理平台部署流量调度模型，流量调度模型通过控制接口获取到需要进行流量调度的数据平面网络的网元节点状态。配置管理平台利用训练好的流量调度策略模型计算出要执行的转发策略，即各路径的分流比例向量。然后通过控制接口将转发策略下发给待调度的网元节点，网元节点根据转发策略决定各数据流的下一跳节点并进行转发。

以上，为本申请所提供的流量调度模型的构建方法实施例，下文中则介绍说明本申请所提供的流量调度模型的构建其他实施例，具体参见如下。

图5为本发明实施例提供的一种流量调度模型的构建装置，该装置包括：

传输模块501，用于将预配置的第一流量调度策略传输至数据平面网络，以获取数据平面网络根据第一流量调度策略生成的第一网络状态信息和第一网络利用率；

训练模块502，用于将第一网络状态信息和第一网络利用率输入至预设模型进行训练，生成第i个流量调度策略；

传输模块501，还用于将第i个流量调度策略传输至数据平面网络，以获取第i网络利用率；

确认模块503，用于当第i网络利用率达到预设要求时停止训练，确认预设模型为有效流量调度模型，其中，i为大于或等于2的正整数。

可选的，该装置还包括：

训练模块502，还用于获取第i网络状态信息，并将第i网络状态信息输入至预设模型，对预设模型继续执行训练，直至预设模型最终生成的流量调度策略输入到数据平面网络后，所获取的网络利用率能够达到预设要求时停止训练。

可选的，该装置还包括：

确认模块503，还用于当第i网络利用率在预设约束条件下达到最小值时，确认第i网络利用率达到预设要求，停止训练，确认预设模型为有效流量调度模型。

可选的，该装置还包括：获取模块504和处理模块505；

获取模块504，用于获取待调度的数据平面网络的网络状态信息；

处理模块505，还用于将网络状态信息输入流量调度模型进行决策，生成转发策略；

传输模块501，还用于将转发策略传输至数据平面网络，以便数据平面网络根据转发策略进行流量转发。

本发明实施例提供的流量调度模型的构建装置中各部件所执行的功能均已在上述任一方法实施例中做了详细的描述，因此这里不再赘述。

本发明实施例提供的一种流量调度模型的构建装置，将预配置的第一流量调度策略传输至数据平面网络，以获取数据平面网络根据第一流量调度策略生成的第一网络状态信息和第一网络利用率；将第一网络状态信息和第一网络利用率输入至预设模型进行训练，生成第i个流量调度策略；将第i个流量调度策略传输至数据平面网络，以获取第i网络利用率；当第i网络利用率达到预设要求时停止训练，确认预设模型为有效流量调度模型，其中，i为大于或等于2的正整数。

如图6所示，本申请实施例提供了一种电子设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信。

存储器113，用于存放计算机程序；

在本申请一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的流量调度模型的构建方法，包括：

可选的，当第i网络利用率未达到预设要求时，方法还包括：

可选的，约束条件，包括：

可选的，确认预设模型为有效流量调度模型之后，方法还包括：

获取待调度的数据平面网络的网络状态信息；

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如前述任意一个方法实施例提供的流量调度模型的构建方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种流量调度模型的构建方法，其特征在于，所述方法包括：

将预配置的第一流量调度策略传输至数据平面网络，以获取所述数据平面网络根据所述第一流量调度策略生成的第一网络状态信息和第一网络利用率，其中，所述第一网络状态信息为所述第一流量调度策略作用于所述数据平面网络后产生的流向量、所述数据平面网络中第一网元节点与第二网元节点之间所有链路的时延向量集合，以及所述数据平面网络中第一网元节点与第二网元节点之间的所有链路的链路利用率向量集合，所述第一网络利用率为所述第一流量调度策略作用于所述数据平面网络后所有网络链路中链路利用率的最大值；

将所述第一网络状态信息和所述第一网络利用率输入至预设循环神经网络模型进行训练，生成第i个流量调度策略；

将所述第i个流量调度策略传输至所述数据平面网络，以获取第i网络利用率；

当所述第i网络利用率达到预设要求时停止训练，确认所述预设循环神经网络模型为有效流量调度模型，其中，i为大于或等于2的正整数。

2.根据权利要求1所述的方法，其特征在于，当所述第i网络利用率未达到预设要求时，所述方法还包括：

获取第i网络状态信息，并将所述第i网络状态信息输入至所述预设循环神经网络模型，对所述预设循环神经网络模型继续执行训练，直至所述预设循环神经网络模型最终生成的流量调度策略输入到所述数据平面网络后，所获取的网络利用率能够达到所述预设要求时停止训练。

3.根据权利要求1所述的方法，其特征在于，网络状态信息包括：所述数据平面网络的流向量、所述数据平面网络中第一网元节点与第二网元节点之间所有链路的时延向量集合，以及所述数据平面网络中第一网元节点与第二网元节点之间的所有链路的链路利用率向量集合，所述网络状态信息包括所述第一网络状态信息和所述第i网络状态信息。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述当所述第i网络利用率达到预设要求时，停止训练，确认所述预设循环神经网络模型为有效流量调度模型，包括：

当所述第i网络利用率在预设约束条件下达到最小值时，确认所述第i网络利用率达到预设要求，停止训练，确认所述预设循环神经网络模型为有效流量调度模型。

5.根据权利要求4所述的方法，其特征在于，所述约束条件，包括：

所述第i个流量调度策略将所述数据平面网络的第i个流向量分配完毕；

且所述数据平面网络的所有链路的链路利用率不大于所述第i网络利用率；

且所述数据平面网络中第一网元节点与第二网元节点之间所有链路的流量分配比例均大于或者等于零。

6.根据权利要求1所述的方法，其特征在于，所述流量调度策略用以指示所述数据平面网络中第一网元节点与第二网元节点之间的不同链路的流量分配比例。

7.根据权利要求1所述的方法，其特征在于，所述确认所述预设循环神经网络模型为有效流量调度模型之后，所述方法还包括：

获取待调度的数据平面网络的网络状态信息；

将所述网络状态信息输入所述流量调度模型进行决策，生成转发策略；

将所述转发策略传输至所述数据平面网络，以便所述数据平面网络根据所述转发策略进行流量转发。

8.一种流量调度模型的构建装置，其特征在于，所述装置包括：

传输模块，用于将预配置的第一流量调度策略传输至数据平面网络，以获取所述数据平面网络根据所述第一流量调度策略生成的第一网络状态信息和第一网络利用率，其中，第一网络状态信息为所述第一流量调度策略作用于所述数据平面网络后产生的流向量、所述数据平面网络中第一网元节点与第二网元节点之间所有链路的时延向量集合，以及所述数据平面网络中第一网元节点与第二网元节点之间的所有链路的链路利用率向量集合，第一网络利用率为所述第一流量调度策略作用于所述数据平面网络后所有网络链路中链路利用率的最大值；

生成模块，用于将所述第一网络状态信息和所述第一网络利用率输入至预设循环神经网络模型进行训练，生成第i个流量调度策略；

传输模块，还用于将所述第i个流量调度策略传输至所述数据平面网络，以获取第i网络利用率；

确认模块，用于当所述第i网络利用率达到预设要求时停止训练，确认所述预设循环神经网络模型为有效流量调度模型，其中，i为大于或等于2的正整数。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法的步骤。