CN115118608B

CN115118608B - 快速流量工程方法及装置

Info

Publication number: CN115118608B
Application number: CN202210494796.5A
Authority: CN
Inventors: 李丹; 洪思虹; 桂飞; 王松涛; 高凯辉; 魏知宇
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2024-05-03
Anticipated expiration: 2042-05-07
Also published as: CN115118608A

Abstract

本公开提出一种快速流量工程方法，包括：接收各个智能路由器发送的本地网络信息，对各个所述流量需求数据进行流量矩阵聚合得到流量矩阵形式；依据流量需求数据在网络模拟环境中对网络的历史运行情况进行流量重放，对网络模拟环境中的各个智能体模型进行交互迭代训练，得到各个智能路由器对应的候选路径流量分割比网络训练模型；各个智能路由器使用该网络训练模型基于流量需求向量、直连链路的链路利用率和图隐向量进行推理，得到智能路由器对应的候选路径流量分割比，为每一条流基于候选路径流量分割比选择一条候选路径。本公开采用了全局感知兼分布式推理的架构，保证强离线负载均衡能力的前提下缩短了决策回路延迟。

Description

快速流量工程方法及装置

技术领域

本公开涉及流量工程技术领域，尤其涉及一种快速流量工程方法及装置。

背景技术

互联网流量具有突发性，而流量突发容易导致路由器中的排队，这是造成端到端传输延迟增加甚至丢包的重要原因。在域内部署流量工程方法是有效缓解该问题的一种手段。

基于全局线性规划的流量工程方法离线负载均衡能力强，但是决策回路延迟大。故而，近年来研究的关注点转向快速流量工程方法，以在尽量保证强离线负载均衡能力的前提下缩短决策回路延迟。但是现有的快速流量工程方法仍然在决策回路延迟方面存在提升空间。

发明内容

本公开提出一种快速流量工程方法，应用于训练中心，包括：

接收各个智能路由器发送的本地网络信息，所述本地网络信息为所述智能路由器在本地采集到的网络信息，包括网络中与其他各路由器的流量需求数据以及直连链路的利用率，所述智能路由器设置在网络的边缘部分；

对各个所述流量需求数据进行流量矩阵聚合，将其聚合成流量矩阵形式；

依据流量需求数据在网络模拟环境中对所述网络的历史运行情况进行流量重放，依据流量需求数据在网络模拟环境中对所述网络的历史运行情况进行流量重放，基于所述各个智能路由器的本地链路利用率、对应边界路由器的流量需求向量、图隐向量以及全局判断器，对所述网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型，所述交互迭代训练根据网络全局拓扑、边界路由器之间的候选路径以及所述流量矩阵获取，所述图隐向量为将所述网络全局拓扑、边界路由器之间的候选路径输入图形神经网络的拓扑特征表示模型进行训练得到的包括全局拓扑信息的隐向量；

将各个所述候选路径流量分割比网络训练模型发送给对应的智能路由器，以便所述智能路由器将本地网络信息、图隐向量输入所述候选路径流量分割比网络训练模型进行推理，得到所述智能路由器对应的候选路径流量分割比。

可选的，对网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型包括：

根据所述网络全局拓扑、边界路由器之间的候选路径得到包含全局拓扑信息的图隐向量；

根据所述图隐向量、所述各个智能路由器对其他路由器的流量需求数据以及各个智能路由器直连链路的链路利用率，获取所述各个智能路由器对应的状态信息；

获取所述各个智能路由器在每条候选路径上的流量分割比；

根据所述状态信息和所述流量分割比获取所述各个智能路由器执行的动作对全局目标的贡献值；

根据所述各个智能路由器的贡献值和奖励函数对所述各个智能路由器的候选路径流量分割比进行调优训练，得到候选路径流量分割比网络训练模型。

可选的，所述根据所述状态信息和所述流量分割比获取所述各个智能路由器执行的动作对全局目标的贡献值包括：

基于深度确定性策略梯度算法，将各个智能路由器的策略聚合到全局评判器模型中；

全局评判器模型根据所述状态信息和所述流量分割比获取所述各个智能路由器执行的动作对全局目标的贡献值。

根据本公开的第二方面，提供一种快速流量工程方法，应用于智能路由器，所述智能路由器设置在网络的边缘部分，包括：

获取本地网络信息，所述本地网络信息为所述智能路由器在本地采集到的网络信息，包括网络中与其他各路由器的流量需求数据以及直连链路的利用率；

接收训练中心发送的候选路径流量分割比网络训练模型和图隐向量，所述网络中的各个智能路由器对应一个候选路径流量分割比网络训练模型，所述候选路径流量分割比网络训练模型是依据流量需求数据在网络模拟环境中对所述网络的历史运行情况进行流量重放，基于各个所述智能路由器的本地链路利用率、对应边界路由器的流量需求向量、图隐向量以及全局判断器，对所述网络模拟环境中的各个智能体模型进行交互迭代训练得到，所述图隐向量为将所述网络全局拓扑、边界路由器之间的候选路径输入图形神经网络的拓扑特征表示模型进行训练得到的包括全局拓扑信息的隐向量；

将所述本地网络信息、图隐向量输入所述候选路径流量分割比网络训练模型进行推理，得到所述智能路由器对应的候选路径流量分割比；

为每一条流基于所述候选路径流量分割比选择一条候选路径。

可选的，该方法还包括：

向所述训练中心发送所述本地网络信息，以便所述训练中心根据所述本地信息和网络模拟环境进行全局拓扑的训练，得到所述图隐向量。

根据本公开的第三方面，提供一种快速流量工程装置，应用于训练中心，包括：

接收模块，用于接收各个智能路由器发送的本地网络信息，所述本地网络信息为所述智能路由器在本地采集到的网络信息，包括网络中与其他各路由器的流量需求数据以及直连链路的利用率，所述智能路由器设置在网络的边缘部分；

聚合模块，用于对各个所述流量需求数据进行流量矩阵聚合，将其聚合成流量矩阵形式；

训练模块，用于依据流量需求数据在所述网络模拟环境中对网络的历史运行情况进行流量重放，基于所述各个智能路由器的本地链路利用率、对应边界路由器的流量需求向量、图隐向量以及全局判断器，对所述网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型，所述交互迭代训练根据网络全局拓扑、边界路由器之间的候选路径以及所述流量矩阵获取，所述图隐向量为将所述网络全局拓扑、边界路由器之间的候选路径输入图形神经网络的拓扑特征表示模型进行训练得到的包括全局拓扑信息的隐向量；

发送模块，用于将各个所述候选路径流量分割比网络训练模型发送给对应的智能路由器，以便所述智能路由器将本地网络信息、图隐向量输入所述候选路径流量分割比网络训练模型进行推理，得到所述智能路由器对应的候选路径流量分割比。

根据本公开的第四方面，提供一种快速流量工程装置，应用于智能路由器，所述智能路由器设置在网络的边缘部分，包括：

采集模块，用于获取本地网络信息，所述本地网络信息为所述智能路由器在本地采集到的网络信息，包括网络中与其他各路由器的流量需求数据以及直连链路的利用率；

接收模块，用于接收训练中心发送的候选路径流量分割比网络训练模型和图隐向量，所述网络中的各个智能路由器对应一个候选路径流量分割比网络训练模型，所述候选路径流量分割比网络训练模型是依据流量需求数据在网络模拟环境中对所述网络的历史运行情况进行流量重放，基于各个所述智能路由器的本地链路利用率、对应边界路由器的流量需求向量、图隐向量以及全局判断器，对所述网络模拟环境中的各个智能体模型进行交互迭代训练得到，所述图隐向量为将所述网络全局拓扑、边界路由器之间的候选路径输入图形神经网络的拓扑特征表示模型进行训练得到的包括全局拓扑信息的隐向量；

推理模块，用于将所述本地网络信息、图隐向量输入所述候选路径流量分割比网络训练模型进行推理，得到所述智能路由器的候选路径流量分割比；

转发模块，用于为每一条流基于所述候选路径流量分割比选择一条候选路径。

根据本公开的第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行前述第一方面或第三方面的方法。

根据本公开的第六方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行前述第二方面或第四方面的方法。

根据本公开的第七方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行前述第一方面或第三方面的方法。

根据本公开的第八方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行前述第二方面或第四方面的方法

根据本公开的第九方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如前述第一方面或第三方面的方法。

根据本公开的第十方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如前述第二方面或第四方面的方法。

根据本公开的实施例，在网络的边缘部分设置智能路由器，该智能路由器能够采集其采集到的本地网络信息，并将该本地网络信息上传到训练中心，训练成中心将各智能路由器的本地网络信息的流量需求数据聚合成流量矩阵，依据流量需求数据在网络模拟环境中对网络的历史运行情况进行流量重放，基于所述各个智能路由器的本地链路利用率、对应边界路由器的流量需求向量、图隐向量以及全局判断器，对所述网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型，所述交互迭代训练根据网络全局拓扑、边界路由器之间的候选路径以及所述流量矩阵获取，所述嵌入向量包括全局拓扑信息，将各个所述候选路径流量分割比网络训练模型发送给对应的智能路由器；各智能路由器接收到候选路径流量分割比网络训练模型后，根据所述网络训练模型基于在本地采集到的网络信息，包括网络中与其他各路由器的流量需求向量以及直连链路的利用率，以及图隐向量进行推理，得到所述智能路由器对应的候选路径流量分割比。综上，本公开的实例以全局感知兼分布式推理的架构，保证强离线负载均衡能力的前提下缩短决策回路延迟。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的一种快速流量工程方法的框架示意图；

图2为本公开实施例提供的一种快速流量工程方法的流程示意图；

图3为本公开实施例提供的一种训练中心侧的快速流量工程方法的流程示意图；

图4为本公开实施例提供的一种智能路由器侧的快速流量工程方法的流程示意图；

图5为本公开实施例提供的一种快速流量工程方法中训练中心的整体流程示意图；

图6为本公开实施例提供的一种对网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型方法的示意图；

图7为本公开实施例提供的一种神经网络训练的流程示意图；

图8为本公开实施例提供的一种训练中心侧快速流量工程的结构示意图；

图9为本公开实施例提供的一种智能路由器侧快速流量工程的结构示意图；

图10为本公开实施例提供的示例电子设备的示意框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本公开实施例的快速流量工程方法及装置。

许多互联网服务提供商的报告表明互联网上的流量分布不均衡：某些专用链路发生拥塞的频率很高，而多数情况下许多链路的利用率却极低。与此同时，随着现代网络基础设施的发展，网络中存在越来越多的冗余路径。并且互联网流量具有突发性，而流量突发容易导致路由器中的排队，这是造成端到端传输延迟增加甚至丢包的重要原因。在域内部署流量工程方法是有效缓解该问题的一种手段。鉴于流量突发通常发生在很短的时间内，近年来快速流量工程引起了研究人员的关注。

在实际应用中，流量工程性能同时由两个因素决定，本公开的实施例归纳为离线负载均衡能力和决策回路延迟。离线负载均衡能力描述流量工程方法的理论负载均衡性能，通常可以用流量工程方法离线运行时达到的最大链路利用率来衡量。决策回路延迟则指的是在现网上运行流量工程方法时完成决策回路所需的时间，包括收集算法的输入信息所花费的时间、算法运行时间以及更新路由器中路由规则表所需的时间。为了区分流量工程方法的理论负载均衡性能和实际的负载均衡性能，本公开的实施例依次用离线负载均衡能力和在线流量工程性能指代二者。显然，较高的离线负载均衡能力和较低的决策回路延迟均有助于提升在线流量工程性能。

为了实现互联网上的负载均衡，许多流量工程方法已被提出，总体上可以根据是否感知流量变化分为两类：非流量感知的流量工程方法和流量感知的流量工程方法。前者预先计算出路由策略，只在拓扑发生变化时重新计算一个新的路由策略。即使面对不断变化的流量模式，该类方法在运行时也不会对路由策略进行调整，故而其应对网络上动态的流量时平均性能较差。流量感知的流量工程方法常将流量工程问题建模为多商品流问题，并根据运行时不断变化的流量情况和网络状态更新路由策略。根据对多商品流问题的求解方法不同，相关工作可以分为两类：基于线性规划的流量工程方法和基于机器学习的流量工程方法。

故而，综合考虑这两个方面，本发明旨在提出一种快速流量工程方法，该方法不仅应该具有强离线负载均衡能力，也应该具有更短的决策回路延迟，从而能获得更好的在线流量工程性能。与此同时，该方法在链路故障情况下也应提供较好的负载均衡能力保障。

本发明的一个实施例，如图1和图2所示，其组成结构可以包括但不局限于以下的内容，该快速流量工程方法系统分为两部分内容，包括：分布式推理部分和集中式训练部分，如1所示。

本发明的实施例中，将网络边缘部署了本方法的路由器称为智能路由器，没有本方法的中间路由器为常规路由器。各个智能路由器可以根据本地获取的输入信息，通过本地机器学习模型做出流量规划决策。不同智能路由器的模型可能具有不同的结构。对于各个智能路由器而言，其流量规划决策的输入是本地可获取的信息，输出在条候选路径(使用K最短路径算法计算得出)之间的流量分割比。这/>条候选路径是预先设置好的、从边界路由器到另一边界路由器的路径。故而，智能路由器中的决策回路延迟主要包括模型推理时间和路由规则表更新时间，因为获取输入信息所需的时间几乎为零。中间路由器则基于隧道技术传递负载，即仅需要遵循数据包包头携带的路由信息进行数据包转发。

分布决策部分主要有三个模块：转发模块、推理模块和状态采集模块。如2所示，状态采集模块负责定期采集本地路由器观察到的网络状态并传输至推理模块。推理模块基于这些信息进行模型推理以获得路由决策，并将其以流量分割比的形式传输给转发模块。转发模块基于此为每一条流选择一条候选路径。

集中式训练部分由两个模块组成：流量矩阵聚合模块和训练模块。如图1中第1步所示，各个智能路由器的状态采集模块会在现网上采集过去一个时间窗口内的真实历史流量需求数据，并周期性地将这些数据发送到后台训练中心。在获得所有智能路由器对同一个时间窗口采集的数据后，训练中心进行训练，各智能体模型训练收敛后，将各个模型逐一下发到对应的各智能路由器上。

在本实施例中，各智能路由器的本地机器学习模型可以为候选路径流量分割比网络训练模型。

本公开的一个实施例提供一种快速流量工程方法，如图3所示，应用于训练中心，包括：

101、接收各个智能路由器发送的本地网络信息，所述本地网络信息为所述智能路由器在本地采集到的网络信息，包括网络中与其他各路由器的流量需求数据以及直连链路的利用率，所述智能路由器设置在网络的边缘部分。

本公开实施例中，如图1中的第一个步骤所示，首先，各个智能路由器的状态采集模块会在现网上采集过去一个时间窗口内的真实历史流量需求数据，并周期性地将这些数据发送到后台训练中心。处于网络中的各个智能路由器均向训练中心发送其采集的本地网络信息，具体的可以为网络中一个路由器对另一个路由器的流量需求数据。

102、对各个所述流量需求数据进行流量矩阵聚合，将其聚合成流量矩阵形式。

本实施例中，各个智能路由器向训练中心发送流量需求数据时，为一条记录，为了后续进行后续数据的使用，将各个智能路由器发送来的流量需求数据进行流量矩阵聚合，将其聚合成流量矩阵形式，具体的如图1中的实例。

103、依据流量需求数据在网络模拟环境中对所述网络的历史运行情况进行流量重放，基于所述各个智能路由器的本地链路利用率、对应边界路由器的流量需求向量、图隐向量以及全局判断器，对所述网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型，所述交互迭代训练根据网络全局拓扑、边界路由器之间的候选路径以及所述流量矩阵获取，所述图隐向量包括全局拓扑信息。

104、将各个所述候选路径流量分割比网络训练模型发送给对应的智能路由器，以便所述智能路由器将本地网络信息、图隐向量输入所述候选路径流量分割比网络训练模型进行推理，得到所述智能路由器对应的候选路径流量分割比，所述本地网络信息为所述智能路由器在本地采集到的网络信息，包括网络中与其他各路由器的流量需求向量以及直连链路的利用率。

本公开还提供一种快速流量工程方法，如图4所示，应用于智能路由器，包括：

201、获取本地网络信息。

其中，所述本地网络信息为所述智能路由器采集到的本地局部链路的网络信息，包括网络中与其他各路由器的流量需求数据以及直连链路的利用率。

本公开的实施例中，各个智能路由器的会在现网上采集过去一个时间窗口内其采集到的本地局部链路上的历史流量需求数据，并周期性地将这些数据发送到后台训练中心。

202、接收训练中心发送的候选路径流量分割比网络训练模型和图隐向量。

其中，接收训练中心发送的候选路径流量分割比网络训练模型和图隐向量，所述网络中的各个智能路由器对应一个候选路径流量分割比网络训练模型，所述候选路径流量分割比网络训练模型是依据流量需求数据在网络模拟环境中对所述网络的历史运行情况进行流量重放，基于各个所述智能路由器的本地链路利用率、对应边界路由器的流量需求向量、图隐向量以及全局判断器，对所述网络模拟环境中的各个智能体模型进行交互迭代训练得到，所述图隐向量，所述图隐向量包括全局拓扑信息。

203、将所述本地网络信息、图隐向量输入所述候选路径流量分割比网络训练模型进行推理，得到所述智能路由器的候选路径流量分割比。

204、为每一条流基于所述候选路径流量分割比选择一条候选路径。

综上，根据本公开的实施例，在网络的边缘部分设置智能路由器，该智能路由器能够采集其采集到的本地网络信息，并将该本地网络信息上传到训练中心，训练成中心将各智能路由器的本地网络信息的流量需求数据聚合成流量矩阵，依据流量需求数据在网络模拟环境中对网络的历史运行情况进行流量重放，基于所述各个智能路由器的本地链路利用率、对应边界路由器的流量需求向量、图隐向量以及全局判断器，对所述网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型，所述交互迭代训练根据网络全局拓扑、边界路由器之间的候选路径以及所述流量矩阵获取，所述图隐向量包括全局拓扑信息，将各个所述候选路径流量分割比网络训练模型发送给对应的智能路由器；各智能路由器接收到候选路径流量分割比网络训练模型后，根据所述网络训练模型基于在本地采集到的网络信息，包括网络中与其他各路由器的流量需求向量以及直连链路的利用率，以及图隐向量进行推理，得到所述智能路由器对应的候选路径流量分割比。综上，本公开的实例以全局感知兼分布式推理的架构，保证强离线负载均衡能力的前提下缩短决策回路延迟。

可选的，本公开的实施例，训练中心的训练整体包括两个大步骤，如5所示，包括流量矩阵聚合和网络仿真器训练。其中，流量矩阵聚合的相关操作的表述可以参考图3中步骤101和102中的相关描述，本公开实施例在该处将不再赘述。针对网络仿真器的训练时，需要对网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型，具体执行时可以采用但不局限以下的方法实现，如图6和图7所示，该方法包括：

301、根据所述网络全局拓扑、边界路由器之间的候选路径得到包含全局拓扑信息的图隐向量。

其中，在所述根据所述网络全局拓扑、边界路由器之间的候选路径得到包含全局拓扑信息的图隐向量时，可以采用但不局限于以下的方法实现，包括：将所述网络全局拓扑、边界路由器之间的候选路径输入图形神经网络（Graph Neural Networks，GNN）的拓扑特征表示模型进行训练，得到包含全局拓扑信息的图隐向量。

链路故障在网络中很常见，故而本公开的实施例可以使用GNN来建模获取拓扑信息以解决这个问题。GNN可以有效地从一小部分训练数据中学习如何表示图的高阶特征，即得到拓扑的隐向量。因此它可以泛化到未曾出现过的拓扑上使用。因此，对于每个网络，本发明训练一个基于GNN的拓扑特征表示模型。该模型以网络拓扑结构为输入，输出一个固定维数的隐向量，并在模型的训练过程中作为模型输入之一传递给强化学习智能体。具体的输入全局网络拓扑（节点之间的连接关系及其容量）、边界路由器之间的候选路径（经过的链路序列）；输出蕴含全局拓扑信息的隐向量。本模块的输出作为强化学习智能体输入的一部分进行联合训练。

要说明的是，如图1所示，训练中心存储着 𝑁个智能体（即行动器），其中每个智能体都代表着一个边界路由器的路由决策引擎。强化学习的算法框架中，智能体（Agent）𝑖与环境（Environment）反复交互。时间被划分为离散的时间步（Time Step）𝑡= 1, 2, 3 ⋯。在每个时间步 𝑡的伊始，智能体观察当前环境的状态（State），并从一组固定的动作（Action）候选集中选择一个动作。选取动作的策略函数可以描述为/>=/>(/>)，即一个从状态到动作的映射函数。一旦智能体选择采取动作/>，环境状态将变为/>，并给予智能体奖励/>（一个标量），以评估该动作为环境带来的积极价值。智能体的目标是学习从一组可能状态/>到动作空间 𝐴的映射，即策略函数/>。策略函数的目的是最大化期望累计奖励𝔼[/>]，其中𝛾>0 被称为衰减因子。

本发明在训练多个智能体模型时引入了深度确定性策略梯度算法（Multi-AgentDeepDeterministicPolicyGradient，MADDPG）作为一种具有多个智能体的Actor-Critic算法，将所有行动器（Actor）的策略聚合到一个全局评判器（Critic）模型中，并计算出每个行动器各自对全局奖励的贡献。因此，所有行动器的策略对其他行动器都是隐式可见的，这使得每个行动器所处的环境变得稳定。通过这种方式，每个行动器可以根据来自全局评判器的反馈来训练自己，以达到全局优化目标的目标。本发明中，每个行动器部署于网络域中相应的边界路由器进行路由决策，而全局评判器只参与后台训练中心对行动器的训练过程。本方法中行动器和评判器均基于神经网络实现，并采用全连接的网络结构，如6所示。

其中，每个行动器具有两个网络，即目标网络（Target Network）和在线网络（Online Network），这两者的结构相同：输入层的维度与本地状态的维度保持一致；输出层的神经元数量与流量分割比向量的维度保持一致。评判器也是由目标网络和在线网络两个网络组成，这两者的网络结构相同：输入层的维度与全局状态、动作向量的级联向量的维度保持一致，输出层的神经元数量是1。值得注意的是，各行动器的输入层、输出层的神经元数量均不一定一致。与此同时，它们的神经网络的参数也相互独立。

如下将介绍如何基于多智能体强化学习算法来训练每个智能体。每个智能体的训练包括行动器建模、评判器建模；其中行动器建模包括状态空间建模、动作空间建模以及奖励函数的设置。具体参考以下步骤302-304。

302、根据所述图隐向量、所述各个智能路由器对其他路由器的流量需求数据以及各个智能路由器直连链路的链路利用率，获取所述各个智能路由器对应的状态信息。

其中，根据所述图隐向量、所述各个智能路由器对其他路由器的流量需求数据以及各个智能路由器直连链路的链路利用率，获取所述各个智能路由器对应的状态信息为状态空间建模，具体的可以采用但不局限于以下的方法实现，包括：

每一个智能体 𝑖，状态是对应的边界路由器的流量需求向量是/>和本地链路利用率/>的组合。因此有：

其中，𝑁表示网络中智能路由器的数量，表示该路由器对第𝑗个路由器的流量需求，/>表示本地链接的数量，/>表示图隐向量，/>表示该路由器的第𝑗个直连链路的链路利用率。整体来看，智能体所需的状态信息可以方便且实时地在路由器的数据平面测量得到。

303、获取所述各个智能路由器在每条候选路径上的流量分割比。

其中，获取所述各个智能路由器在每条候选路径上的流量分割比为动作空间建模，具体采用但不局限于以下的方法实现，该方法包括：

每个智能体在多个预先设置的通往出口路由器的候选路径之间分割流量，所以其动作空间是连续的。具体来说，第 𝑖个行动器的动作可以表示为下式：

其中，表示的是在当前路由器（第 𝑖个路由器）与第 𝑗个路由器的第 𝑦条候选路径上的流量分割比。𝑃表示的是在一对入口–出口路由器对之间预先配置的候选路径的总数。

304、根据所述状态信息和所述流量分割比获取所述各个智能路由器执行的动作对全局目标的贡献值。

其中，根据所述状态信息和所述流量分割比获取所述各个智能路由器执行的动作对全局目标的贡献值为奖励函数设置，具体采用但不局限于以下的方法实现，该方法包括：

奖励函数指导智能体的参数更新方向，故而它的构建应反映流量工程算法的优化目标。所以可以初步将奖励函数设置为：

.

其中，表示的是基于当前流量工程方法的路由决策在给定流量矩阵 𝑫的情况下得到的网络最大链路利用率，/>则是流量需求为 𝑫的情况下可达到的最小的最大链路利用率，该值可以使用线性规划求解器计算获得。

进一步，在每个边界路由器上，由于该路由器与其他路由器之间的流量分割比的更新过程不存在依赖关系，故而路由规则表可以实现成 𝑁张子路由规则表的形式，第 𝑖张表对应存储当前路由器流向第 𝑖个边界路由器的流量的流量分割比。所以路由规则表更新得时间成本取决于更新耗时最长的子路由规则表。本发明在奖励函数中引入路由规则表更新成本的惩罚项以避免许多不必要的路径调整，奖励函数最终为：

其中，惩罚项内𝑓(⋅)是一个拟合路由规则表更新时间和更新的表项数量之间关系的近似线性函数；d_𝑖,𝑗是针对入口–出口路由器对 (𝑖, 𝑗)修改的路由规则表表项数；𝛼是一个系数，用于调整惩罚项的权重，使其尽量避免对离线负载均衡能力的影响。

可选的，在根据所述状态信息和所述流量分割比获取所述各个智能路由器执行的动作对全局目标的贡献值时，可以采用但不局限于以下的方法实现，该方法包括：基于MADDPG算法，将各个智能路由器的策略聚合到全局评判器模型中；全局评判器模型根据所述状态信息和所述流量分割比获取所述各个智能路由器执行的动作对全局目标的贡献值。

其中，全局的评判器用于评估所有行动器动作的价值，以使它们在训练过程中朝着全局优化的方向更新自身的参数。全局评判器将全局的信息作为输入，然后输出当前时间步的𝑄价值。其中，全局的信息包括所有行动器的动作A = (𝑎₁, 𝑎₂, ⋯ , 𝑎_𝑁)（即所有入口 – 出口路由器之间流量的流量分割比）和所有行动器各自观察到的局部状态 S =(𝑠₁, 𝑠₂, ⋯ , 𝑠_𝑁)（即本地链路利用率、流量需求向量、图隐向量），输出的𝑄价值函数代表当前状态下所有行动器的动作集合对应的预期的累计奖励值，其可以表述为下式：

.

进一步，全局评判器会通过计算每个行动器各自的优势函数𝐴_𝑖(S, A)来评估每个行动器执行的动作对全局目标的贡献，如下式：

其中，A−𝑎_𝑖是除去第𝑖个行动器的动作以外的全局动作集合，𝑏_𝑖是第𝑖个行动器的基线函数，𝑏_𝑖(S, A−𝑎_𝑖) 反映了该行动器在当前状态的期望累计奖励值，其计算方式如下式：

然后，每个行动器获得各自的优势函数值后将其用于计算各自的梯度以更新自身参数。

305、根据所述各个智能路由器的贡献值和奖励函数对所述各个智能路由器的候选路径流量分割比进行调优训练，得到候选路径流量分割比网络训练模型。

与上述图3对应的快速流量工程方法相对应，本公开还提出一种快速流量工程装置。图8为本公开实施例提供的一种快速流量工程装置400的结构示意图。如图8所示，应用于训练中心，包括：

接收模块401，用于接收各个智能路由器发送的本地网络信息，所述本地网络信息为所述智能路由器在本地采集到的网络信息，包括网络中与其他各路由器的流量需求数据以及直连链路的利用率，所述智能路由器设置在网络的边缘部分。

聚合模块402，用于对各个所述流量需求数据进行流量矩阵聚合，将其聚合成流量矩阵形式。

训练模块403，用于依据流量需求数据在网络模拟环境中对所述网络的历史运行情况进行流量重放，基于所述各个智能路由器的本地链路利用率、对应边界路由器的流量需求向量、图隐向量以及全局判断器，对所述网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型，所述交互迭代训练根据网络全局拓扑、边界路由器之间的候选路径以及所述流量矩阵获取，所述嵌入向量包括全局拓扑信息。

发送模块404，用于将各个所述候选路径流量分割比网络训练模型发送给对应的智能路由器，以便所述智能路由器将本地网络信息、图隐向量输入所述候选路径流量分割比网络训练模型进行推理，得到所述智能路由器对应的候选路径流量分割比，所述本地网络信息为所述智能路由器在本地采集到的网络信息，包括网络中与其他各路由器的流量需求向量以及直连链路的利用率。

在一些实施例中，训练模块403用于对网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型包括：

根据所述网络全局拓扑、边界路由器之间的候选路径得到包含全局拓扑信息的图隐向量；根据所述图隐向量、所述各个智能路由器对其他路由器的流量需求数据以及各个智能路由器直连链路的链路利用率，获取所述各个智能路由器对应的状态信息；获取所述各个智能路由器在每条候选路径上的流量分割比；

在一些实施例中，所述根据所述网络全局拓扑、边界路由器之间的候选路径得到包含全局拓扑信息的图隐向量包括：

将所述网络全局拓扑、边界路由器之间的候选路径输入GNN的拓扑特征表示模型进行训练，得到包含全局拓扑信息的图隐向量。

在一些实施例中，所述根据所述状态信息和所述流量分割比获取所述各个智能路由器执行的动作对全局目标的贡献值包括：

基于MADDPG算法，将各个智能路由器的策略聚合到全局评判器模型中；全局评判器模型根据所述状态信息和所述流量分割比获取所述各个智能路由器执行的动作对全局目标的贡献值。

需要说明的是，由于本公开的装置实施例与上述的方法实施例相对应，前述对方法实施例的解释说明，也适用于本实施例的装置，原理相同，对于装置实施例中未披露的细节可参照上述的方法实施例，本公开中不再进行赘述。

与上述图4对应的快速流量工程方法相对应，本公开还提出一种快速流量工程装置。图9为本公开实施例提供的一种快速流量工程装置500的结构示意图。如图9所示，应用于智能路由器，所述智能路由器设置在网络的边缘部分，包括：

采集模块501，用于获取本地网络信息，所述本地网络信息为所述智能路由器在本地采集到的网络信息，包括网络中与其他各路由器的流量需求数据以及直连链路的利用率。

接收模块502，用于接收训练中心发送的候选路径流量分割比网络训练模型和图隐向量，所述网络中的各个智能路由器对应一个候选路径流量分割比网络训练模型，所述候选路径流量分割比网络训练模型是依据流量需求数据在网络模拟环境中对所述网络的历史运行情况进行流量重放，基于各个所述智能路由器的本地链路利用率、对应边界路由器的流量需求向量、图隐向量以及全局判断器，对所述网络模拟环境中的各个智能体模型进行交互迭代训练得到，所述图隐向量包括全局拓扑信息。

推理模块503，用于将所述本地网络信息、图隐向量输入所述候选路径流量分割比网络训练模型进行推理，得到所述智能路由器对应的候选路径流量分割比。

转发模块504，用于为每一条流基于所述候选路径流量分割比选择一条候选路径。

在一些实施例中，快速流量工程装置500还包括

发送模块505，用于向所述训练中心发送所述本地网络信息，以便所述训练中心根据所述本地信息和网络模拟环境进行全局拓扑的训练，得到所述图隐向量。

根据本公开的实施例，在网络的边缘部分设置智能路由器，该智能路由器能够采集其采集到的本地网络信息，并将该本地网络信息上传到训练中心，训练成中心将各智能路由器的本地网络信息的流量需求数据聚合成流量矩阵，依据流量需求数据在网络模拟环境中对网络的历史运行情况进行流量重放，基于所述各个智能路由器的本地链路利用率、对应边界路由器的流量需求向量、图隐向量以及全局判断器，对所述网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型，所述交互迭代训练根据网络全局拓扑、边界路由器之间的候选路径以及所述流量矩阵获取，所述图隐向量包括全局拓扑信息，将各个所述候选路径流量分割比网络训练模型发送给对应的智能路由器；各智能路由器接收到候选路径流量分割比网络训练模型后，根据所述网络训练模型基于在本地采集到的网络信息，包括网络中与其他各路由器的流量需求向量以及直连链路的利用率，以及图隐向量进行推理，得到所述智能路由器对应的候选路径流量分割比。综上，本公开的实例以全局感知兼分布式推理的架构，保证强离线负载均衡能力的前提下缩短决策回路延迟。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备600包括计算单元601，其可以根据存储在ROM（Read-OnlyMemory，只读存储器）602中的计算机程序或者从存储单元608加载到RAM（Random AccessMemory，随机访问/存取存储器）603中的计算机程序，来执行各种适当的动作和处理。在RAM603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM603通过总线604彼此相连。I/O（Input/Output，输入/输出）接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于CPU（Central Processing Unit，中央处理单元）、GPU（Graphic Processing Units，图形处理单元）、各种专用的AI（ArtificialIntelligence，人工智能）计算芯片、各种运行机器学习模型算法的计算单元、DSP（Digital Signal Processor，数字信号处理器）、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如用于管理安全座椅的方法。例如，在一些实施例中，用于管理安全座椅的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时，可以执行上文描述的方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行前述用于管理安全座椅的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、FPGA（Field Programmable Gate Array，现场可编程门阵列）、ASIC（Application-Specific Integrated Circuit，专用集成电路）、ASSP（Application Specific StandardProduct，专用标准产品）、SOC（System On Chip，芯片上系统的系统）、CPLD（ComplexProgrammable Logic Device，复杂可编程逻辑设备）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、RAM、ROM、EPROM（Electrically Programmable Read-Only-Memory，可擦除可编程只读存储器）或快闪存储器、光纤、CD-ROM（Compact Disc Read-Only Memory，便捷式紧凑盘只读存储器）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（Cathode-Ray Tube，阴极射线管）或者LCD（Liquid Crystal Display，液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：LAN（LocalArea Network，局域网）、WAN（Wide Area Network，广域网）、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称 "VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

其中，需要说明的是，人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

应当理解，本公开中使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换该词语。

如本公开和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

其中，在本公开实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本公开实施例的描述中，“多个”是指两个或多于两个。

本公开中使用的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

本公开中使用了流程图用来说明根据本公开的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作，可以使用所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

以上描述仅为本公开的实施例以及对所运用技术原理的说明，并不用于限制本公开。对于本领域技术人员来说，本公开可以有各种更改和变化。本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种快速流量工程方法，其特征在于，应用于训练中心，包括：

依据流量需求数据在网络模拟环境中对所述网络的历史运行情况进行流量重放，基于所述各个智能路由器的本地链路利用率、对应边界路由器的流量需求向量、图隐向量以及全局判断器，对所述网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型，所述交互迭代训练根据网络全局拓扑、边界路由器之间的候选路径以及所述流量矩阵获取，所述图隐向量为将所述网络全局拓扑、边界路由器之间的候选路径输入图形神经网络的拓扑特征表示模型进行训练得到的包括全局拓扑信息的隐向量；

2.根据权利要求1所述的方法，其特征在于，对网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型包括：

获取所述各个智能路由器在每条候选路径上的流量分割比；

3.根据权利要求2所述的方法，其特征在于，所述根据所述状态信息和所述流量分割比获取所述各个智能路由器执行的动作对全局目标的贡献值包括：

4.一种快速流量工程方法，其特征在于，应用于智能路由器，所述智能路由器设置在网络的边缘部分，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，该方法还包括：

向所述训练中心发送所述本地网络信息。

6.一种快速流量工程装置，其特征在于，应用于训练中心，包括：

训练模块，用于依据流量需求数据在网络模拟环境中对所述网络的历史运行情况进行流量重放，基于所述各个智能路由器的本地链路利用率、对应边界路由器的流量需求向量、图隐向量以及全局判断器，对所述网络模拟环境中的各个智能体模型进行交互迭代训练，得到所述各个智能路由器对应的候选路径流量分割比网络训练模型，所述交互迭代训练根据网络全局拓扑、边界路由器之间的候选路径以及所述流量矩阵获取，所述图隐向量为将所述网络全局拓扑、边界路由器之间的候选路径输入图形神经网络的拓扑特征表示模型进行训练得到的包括全局拓扑信息的隐向量；

7.一种快速流量工程装置，其特征在于，应用于智能路由器，所述智能路由器设置在网络的边缘部分，包括：

8.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-3中任一项所述的方法。

9.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-3中任一项所述的方法。