CN116599904A

CN116599904A - 并行传输负载均衡装置及方法

Info

Publication number: CN116599904A
Application number: CN202310710985.6A
Authority: CN
Inventors: 权伟; 张雪; 高德云; 刘康; 刘明远; 罗通; 徐靖轩; 李佳琦; 胡雪彤
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-08-15

Abstract

本发明提供并行传输负载均衡装置及方法，属于网络通信技术领域，感知观测器将收集到的INT感知数据包发送给跨层解析器；跨层解析器对INT感知数据包进行解析提取感知数据，将解析数据发送给数据分析器并根据策略动作生成策略包发送给策略分发器；数据分析器进行数据的格式化处理，并将格式化数据发送给策略控制器；策略生成器依据格式化数据作为算法输出进行策略更新策略分发器接收跨层解析器生成的策略包进行对应节点传输速率的控制。本发明有效降低传输和排队的延迟，从而缓解拥塞、长时间排队、掉线等问题，空闲的网络资源也将被有效地用于负载平衡和高吞吐量，实现低延迟和高吞吐量数据传输；有利于实现精确的网络感知，制定优化策略。

Description

并行传输负载均衡装置及方法

技术领域

本发明涉及网络通信技术领域，具体涉及一种适用于要求更高的动态复杂网络场景的并行传输负载均衡装置及方法。

背景技术

近年来，AR/VR、触觉互联网和工业控制等时间敏感应用的相关研究已成为未来网络发展的趋势，其发展的同时也对网络通信提出了高吞吐量的要求。然而，由于时变网络和链路的动态性，低延迟和高吞吐量的需求是相互作用的。在资源有限的网络中，高吞吐量容易导致重传、拥塞和长时间排队等问题，从而影响低延迟要求。

因此，针对时间敏感应用，研究学者们提出了各种解决方案来降低重传、拥塞、长时间排队等问题出现的概率。例如，在网络标准方面，TSN组提出了IEEE 802.1Qbv时间感知整形器(Time-Aware Shaper,TAS)用于解决确定性的ULL要求；在AR/VR中，Dejene等设计了L4S架构来实现可扩展的主动队列管理(Active Queue Management,AQM)，以减少排队延迟。在触觉互联网中，Richard等提出了一种数据包清洗方案，当遇到受限或较差的网络条件时，将数据包拆分成小的有效载荷进行转发。除了低延迟要求外，触觉互联网、工业控制和其他时间敏感的应用程序也需要高吞吐传输。例如，Kim等提出了多址复用和全双工通信技术，以提高频谱效率并减少传输延迟。Sun等提出了一种多路径多轮胎传输方法，针对不同的视频质量进行自适应传输管理，实现了高质量低延迟传输。还有学者提出了等价路由(Equal-cost Multi-path,ECMP)以根据网络状态的变化动态调整传输路径，用于并发多路径传输。但是，由于网络资源有限，并发传输方法容易引起拥塞、排队等问题。因此，并发传输应注意可用网络资源的变化，并考虑特定的传输要求，如负载平衡、平均网络效用最大化等。

现有的研究主要集中在三个方面，以降低重传、拥塞和长期排队的概率为主。为了更好地获取网络资源信息，可利用细粒度感知方法来实现精确的网络感知，例如动态时间扭曲、网络遥测(In-network Telemetry,INT)等。许多工作使用INT，通过其流检测能力收集信息，如节点可用资源、链路利用率、队列长度等。其次，提出了许多分组粒度控制协议来灵活调整转发优先级和分组大小，如大分组协议、低延迟低损耗可扩展吞吐量架构、准入先出等。动态路由方法可以基于网络状态预先分散流量，这可以有效降低拥塞和长排队时间的概率，例如分段路由(Segment Routing,SR)和开放最短路径优先等成本多路径(OSPF-ECMP)。

由于网络的复杂性和动态性，策略更新的精度和实时性是相互影响的，许多传输方法难以在实时响应延迟约束下获得最优策略，所有算法都有不同的侧重点。研究学者提出了几种优化方法来加速训练过程或提高策略精度。例如，Double DQN采用双重奖励计算来缓解过拟合问题，可以根据先验经验得到最优动作。A3C算法采用单步优化的方法代替长时间的迭代优化，加速了策略梯度的优化过程。此外，一些渐进优化算法被设计为根据网络状态进行敏感的拟合优化，例如近端策略优化(Proximal Policy Optimization,PPO)。PPO采用动态学习率来稳定梯度优化的过程，避免了梯度的来回波动。

长沙理工大学提出了一种数据中心网络中的流量负载均衡方法，应用于数据中心网络中的交换机。该方法包括：接收数据中心网络中发送机发送的数据流；判断所述数据流为长流或短流，得到第一判断结果，其中，所述长流为数据大小大于或等于预设数值的数据流，所述短流为数据大小小于所述预设数值的数据流；根据所述第一判断结果，确定所述数据流对应的路由路径；通过所述路由路径，向数据中心网络中的接收机转发所述数据流。该发明涉及的技术方案，能够解决现有技术方案中短流的低时延、乱序以及长流的高吞吐之间无法平衡的问题，实时感知网络中链路负载情况、快速地实现网络流量的均衡。该技术在对数据流进行负载均衡时的核心思想是设置判断数值，通过大小区间来界定路径走向。在实际操作中，判断数值设置可能存在困难和较大偏差，不够灵活。该方法选取路径根据排队队列长度作为依据，选取路径方法单一，并且在实际传输数据时，存在过多不可预测因素，易发生拥堵产生重传情况。

南京邮电大学公开了一种SDN环境下数据中心网络负载均衡方法，该方法包括：利用SDN控制器检测数据中心网络中通过每个交换机端口的流量，判断该流量是否为大象流，若是，则将大象流与负载均衡阈值进行比较；若超过负载均衡阈值，则将所有属于同一个交换机集群内的大象流进行聚合；使用混合算法计算最佳路由，利用最佳路由对聚合后的大象流进行转发。该技术在对流量进行转发处理时，采取两种方式，分别为ECMP算法和混合算法寻找最佳撸友。在实施过程中进行的并行多路径传输方法较为复杂，并且对于更多样情况下的应用例如实时性要求高、网络情况更复杂时，所考虑的方法可能缺少可靠性的保证。

发明内容

本发明的目的在于提供一种适用于要求更高的动态复杂网络场景并行传输负载均衡装置及方法，以解决上述背景技术中存在的至少一项技术问题。本发明采取的负载均衡方案适用于要求更高的动态复杂网络场景，弥补了传统端到端路径规划的不足，可以有效的减少重传、拥塞和长时间排队的概率。为保证网络状态的动态性，在方案中引入了机器学习来平衡策略更新的精度和实时性。利用优化算法设计了基于PPO的并发多路径传输机制，通过动态路由方法对每一条链路的流量进行传输控制，以实现更为灵活的全网负载均衡控制效果。在方案中，还采用网络带内遥测技术进行网络状态感知，为流量调度提供可靠保障。该发明实现了高吞吐、高资源利用率的负载均衡目标，从而满足新行业发展下时间敏感的应用对通信提出的低延迟和高吞吐量的要求。

为了实现上述目的，本发明采取了如下技术方案：

本发明提供一种并行传输负载均衡装置，包括：

感知观测器，用于根据规划的路径进行周期性接收INT感知数据包，将收集到的INT感知数据包发送给跨层解析器；

跨层解析器，用于对INT感知数据包进行解析以及感知数据提取，将解析得到的INT感知数据发送给数据分析器；并根据策略动作生成策略包发送给策略分发器；

数据分析器，用于对解析得到的INT感知数据进行数据的格式化处理，并将格式化数据发送给策略控制器；

策略生成器，用于调用INT框架并依据格式化数据作为算法输出进行策略更新；当策略控制器更新策略之后会根据最新的网络状态数据进行策略动作下发给跨层解析器；

策略分发器，用于接收跨层解析器生成的策略包进行对应节点传输速率的控制。

优选的，INT数据包结构包括INT包头和INT数据；所述INT包头包括设备ID、执行标识和控制动作；所述INT数据包括设备ID、端口、链路时延、链路带宽、排队长度以及丢包。

优选的，INT包头中的设备ID用于标记交换机的全局标识，当INT框架要对某个交换机做一些针对性的动作时，设备编号就是唯一确定的标识；执行标识用于判断当前数据包类型：“0”和“1”分别表示感知和策略控制；控制动作用于当执行标识为“1”时，记录对应ID设备编号的设备进行传输率控制。

优选的，INT数据中的所述设备ID用于记录当前进行数据感知的设备；端口用于记录当前数据感知的端口位置；链路时延用于记录数据包在当前节点端口所连接上一跳节点的排队时延以及当前链路的传输时延之和；链路带宽用于记录两个相邻交换机的可用带宽；排队长度用于表示出端口的队列长度；丢包用于记录链接的丢失字节。

优选的，基于Actor-Critic框架的策略优化训练模型，根据先前的调度经验获得调度策略将经过训练的/>参数发送给智能策略控制器进行策略更新。

优选的，评估网络Q^c(θ^c)是一个评估函数，用于评估来自行为网络的动作a(t)；当行为网络在槽t选择一个动作a(t)时，评估网络将使用价值函数通过计算所有可能的动作来获得平均预期奖励值以及他们对应的概率；评估网络使用动作价值函数执行a(t)并计算预期奖励值rd(t)；对rd(t)进行比较，评估网络得到损失值，并将损失值发送给行为网络进行策略更新。

优选的，行动价值函数为：

其中，τ∈{0,1,...,t,...,ST}；π为插槽τ的控制策略；

其中，τ∈{0,1,...,t,...,ST}，γ为折扣因子；

优势函数为

优选的，行为网络Q^a(θ^a)旨在通过基于评估网络参数的策略更新来模拟数据调度规则；行为网络在来自评估网络的评估压力下使用损失函数生成控制策略；损失函数为

其中，π_θ(τ)是槽τ的控制策略，/>是更新前策略参数的向量，/>为一个超参数。

优选的，并行多路传输负载均衡方法具体步骤流程为：

感知观测器根据传输路径规划感知包路径，并发送感知包进行网络状态探测；各个感知观测器收集管辖区域中的所有网络状态感知包并发送给跨层解析器；跨层解析器对所有感知包进行感知信息的解析与提取，将网络状态数据发送给数据分析器；复制一份发送给路径规划器进行路径规划分析；数据分析器将感知信息进行格式化处理与组合，发送给策略控制器。策略控制器根据更新时间设置生成策略动作，并发送给跨层解析器；策略控制器根据格式化网络状态数据，调用训练模型进行策略生成与优化；跨层解析器根据策略动作生成一个个策略包发送给策略分发器；策略分发器将所有策略动作发送给对应的节点进行策略执行更新，调整各路径节点传输速率，实现多路传输负载均衡。

优选的，当并行传输服务到来，根据需要进行负载均衡管理的路径进行感知路径规划，并发送感知包进行数据感知；感知数据会复制为两份，一份发送给离线策略优化模块进行策略训练优化；离线策略优化模块根据最新数据进行策略训练优化，将更新的策略参数发送给在线策略执行模块进行策略更新；一份发送在线策略执行模块，根据已有策略输出策略执行动作，并将执行策略动作下发到对应的节点进行链路的传输速率控制，最后实现负载均衡目标。

术语解释：

①PPO近端策略优化算法：Proximal Policy Optimization，是一种用于强化学习的新的策略梯度方法，该方法在通过与环境交互来采样数据和使用随机梯度上升来优化“替代”目标函数之间交替。该方法具有信任区域方法的稳定性和可靠性，实现简单，只需要对普通策略梯度进行少量更改，即可适用于更普适的规律，实现长时间平均性能最大化。

②带内网络遥测：In-bandNetwork Telemetry是一种网络信息采集技术，目的是为了采集网络中的信息。当网络规模增大时，故障问题排查困难亦会增大，因此需要一些技术对网络进行实时的流量分析监控或是可以自动化排查网络中的“断路”。网络遥感就是对网络进行实时监控的技术，它可以实现远程精细化的管理，能够及时准确的定位出网络问题。

③P4可编程数据平面：Programming Protocol-independent PacketProcessors(P4)是一种用于网络设备的域特定语言，指定数据平面设备(交换机、NIC、路由器、过滤器等)如何处理数据包。

本发明有益效果：以多路径流调度灵活地将流调度到空闲节点或链路，利用动态路由方法对每一条链路进行流量的传输速率控制，可以有效降低传输和排队的延迟，从而缓解拥塞、长时间排队、掉线等问题，空闲的网络资源也将被有效地用于负载平衡和高吞吐量，实现低延迟和高吞吐量数据传输；提出基于INT的网络感知传输控制算法来检测网络状态并基于控制策略执行并发多路径传输，有利于实现精确的网络感知，制定优化策略；使用P4语言对交换节点进行配置，具有重复配置性、平台无关性、协议无关性这三点特性。

本发明附加方面的优点，将在下述的描述部分中更加明显的给出，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的基于智融标识网络的多路感知协同传输控制框架示意图。

图2为本发明实施例所述的INT感知包结构示意图。

图3为本发明实施例所述的基于Actor-Critic框架的策略优化训练模型示意图。

图4为本发明实施例所述的基于PPO的多径流调度算法流程图。

图5为本发明实施例所述的基于INT的网络感知传输控制算法流程图。

图6为本发明实施例所述的并行多路传输负载均衡方法流程示意图。

图7为本发明实施例所述的并行多路传输负载均衡方法具体步骤流程。

图8为本发明实施例所述的系统模块功能原理框图。

图9为本发明实施例所述的负载均衡框架、模型、方法实施融合图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

本实施例中，提供了一种用于并行多路传输的负载均衡方法。本发明方法针对时间敏感应用程序的低延迟和高吞吐量需求，在现有工作的基础上设计了基于PPO的并发多路径传输机制，以实现可靠的传输控制。该机制不仅可以减少由重传、拥塞和长时间排队引起的不期望的延迟，而且可以基于流调度来实现高吞吐量的负载平衡，将流调度制定为考虑负载平衡和队列长度的最小化问题，利用算法，可获得最优解。传输机制采用所提出的基于INT的网络感知传输控制算法来检测网络状态并基于控制策略执行并发多路径传输。通过所设计的INT包结构，可以将感知数据和控制消息插入INT包中，算法使用INT分组结构实现了网络感知和执行控制消息的交换。应用此传输控制方法，可以实现低延迟和高吞吐量的要求，将空闲网络资源有效的用于负载均衡，使网络运行更加高效稳定，提高网络性能。

该方法对动态网络场景下易发生重传、拥塞和长期排队的情况十分有效，但现有负载均衡控制方法都是基于端到端路径规划的，无法在网络内部进行动态调整以应对网络的高动态性。此外，流量和网络资源在传输过程中是动态耦合的，因此，在传输控制过程中对流量和网络状态进行综合考虑是十分重要的。本发明方法针对这一技术问题，提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)多路感知与协同传输负载均衡机制，兼顾考虑流量和网络状态的相互影响，利用动态路由方法对每一条链路进行流量的传输速率控制，对重传、排队、拥塞等显式问题进行优化，实现最终的全网负载均衡控制。具体来说，该机制采用网络带内遥测技术(In-network Telemetry,INT)进行网络状态感知，并通过所提出的传输控制策略执行并发多路径传输控制，可以动态灵活地将流量调度到空闲节点或链路中。此方法不仅可以有效降低传输和排队的延迟，从而缓解拥塞、长时间排队、丢包等问题，而且可以实现高吞吐量的负载均衡。

通过本发明方法，在需满足不同时间敏感应用的需求场景下，所提出的传输控制解决方案会在先前的并发多路径传输的负载均衡方案的基础上，结合优化算法使网络通信的传输控制在实时响应延迟约束下获得最优策略，适应网络的复杂性和动态性。在本发明中，提出了一种基于近端策略优化的多路感知与协同传输负载均衡机制来实现灵活、可靠的并发多路径传输。设计了一个特定的INT数据包结构来实现网络感知和控制消息交换，提出了流量调度和资源利用的联合优化问题。根据联合优化，可以通过动态改变优化奖励函数来进行精确的流量调度并保证高资源效率。还可以针对大规模的ULL传输需求，考虑结合分布式学习来提高流量调度精度。

本发明的并行多路传输负载均衡方法包括多个部分，首先，设计了一个基于智融标识网络的多路感知协同传输控制框架，对负载均衡传输流程进行了组件功能设计，实现了网络感知功能、策略生成与优化功能、策略下发功能的整体控制，保障了负载均衡方法的顺利执行。其次，针对网络感知功能，设计了特定的INT数据包结构，结合INT感知方法进行网络属性的针对性感知。针对策略生成与优化，设计了基于Actor-Critic框架的策略优化训练模型，结合感知模块的新经验值进行策略的迭代训练，依据网络状态最新变化调整优化策略参数，生成负载均衡调度策略(详细见图4算法过程)。针对策略下发功能，则设计对应的框架组件进行策略包的生成与控制(详细图5算法过程)。

如图1所示，本发明方法考虑混合流调度场景，设备向云端或边缘服务器请求不同的服务数据，具有低延迟和高吞吐量的要求，将多路协同传输负载均衡问题转为一个最小优化问题，通过求解最优解获得传输控制策略π_θ(ω(t))。因此，设计了一个基于智融标识网络的网络感知与协同传输控制框架(Multi-path cooperative transmissionframeworkbased on SINET,MCTR-S)，框架主要包括网络感知功能、策略更新功能、以及策略分发功能。网络感知功能主要通过修改INT感知框架并设计对应的INT数据包结构进行网络节点状态以及流量的感知；策略更新功能主要利用感知数据以及Actor-Critic框架进行策略的迭代更新；策略分发功能通过设计对应的数据包解析处理组件进行策略数据包的生成与转发。

在图1中，框架以智融标识网络“三层”设计为基础，设计五个组件结合实现网络感知、策略生成以及策略下发过程。各组件主要分布在“网络组件层”和“资源适配层”当中。组件具体功能如下：感知观测器：主要负责对所有网络组件资源以及流量的感知探，本章主要结合INT框架执行探任务。跨层解析器：主要负责对感知数据的解析提取以及策略动态的数据包封装与下发。具体来讲，当跨层解析器接收来自感知观测器的INT感知数据包时，会解析INT数据包提取感知数据。另一方面，当跨层解析器接收到来自策略控制器的策略动作时，它会生成策略包将策略动作进行封装下发。策略分发器：根据接收到的策略包进行对应节点的转发。此外，当需要转发给多个节点时，策略分发器会进行策略包复制与分发。数据分析器：主要负责对感知数据的进一步格式化处理，为算法提供所需的格式化数据输入。策略控制器：主要根据所嵌入的算法以及格式化的感知数据进行策略生成与更新处理。

本实施例中，以上组件结合实现图1框架中的传输控制过程。框架各组件功能具体执行过程如下：首先，感知观测器会根据规划的路径进行周期性调用INT框架发送感知探包。随后将收集到的感知数据包发送给跨层解析器进行数据包解析以及感知数据提取。跨层解析器会将解析得到的感知数据发送给数据分析器进行数据的格式化处理，并将格式化数据发送给策略控制器。策略生成器调用框架并依据格式化数据作为算法输出进行策略更新。最后，当策略控制器更新策略之后会根据最新的网络状态数据进行策略动作下发，即将策略动作发送给跨层解析器。跨层解析器生成策略包发送给策略分发器进行对应节点传输速率的控制。

为了满足负载均衡的数据感知需求，本实施例中设计了一个特定的INT感知包结构，如图2所示。在传统的IP数据包头嵌入INT数据包结构，包含INT包头和INT数据。

INT包头各字段说明如下表1所示。

表1

当执行标识为“0”时，INT数据格式设置用于存储对应的感知信息。INT数据部分各字段说明如下表2所示。

表2

本实施例中，对于算法的设计，基于Actor-Critic框架的策略优化训练模型(policy optimization training model based on actor and critic framework,POTM)，如图3所示，POTM和MCTR-S为协同工作，POTM包含两个部分。在线多路径流调度使用来自智能策略控制器的操作根据分析器的当前格式化状态来指导多路径转发过程。离线智能策略训练旨在根据先前的调度经验获得然后，POTM将经过训练的/>参数发送给智能策略控制器进行策略更新。在离线智能策略训练过程中，模型使用AC框架不断进行策略更新。

①评估网络：评估网络Q^c(θ^c)是一个评估函数，用于评估来自行为网络的动作a(t)。具体来说，当行为网络在槽t选择一个动作a(t)时，评估网络将使用价值函数通过计算所有可能的动作来获得平均预期奖励值以及他们对应的概率。然后，评估网络使用动作价值函数执行a(t)并计算预期奖励值rd(t)。最后，对rd(t)进行比较，评估网络得到损失值，并将损失值发送给行为网络进行策略更新。

行动价值函数为

其中τ∈{0,1,...,t,...,ST}。π为插槽τ的控制策略。

价值函数为

其中τ∈{0,1,...,t,...,ST}。π为插槽τ的控制策略。γ为折扣因子。

优势函数为

②行为网络：行为网络Q^a(θ^a)旨在通过基于评估网络参数的策略更新来模拟数据调度规则。注意智能策略控制器与Q^a(θ^a)具有相同的神经网络结构，命名为Q^s(θ^s)用于参数更新。详细地说，行为网络在来自评估网络的评估压力下使用损失函数生成控制策略。损失函数为

其中

π_θ(τ)是槽τ的控制策略。是更新前策略参数的向量。ζ为一个超参数。

根据POTM，提出一种基于PPO的多路径流调度算法(PPO-based Multipath FlowSchedulingAlgorithm,PMFA)，以进一步规范策略生成的整个过程，算法流程图如图4。

如算法所示。与POTM相对应，PMFA包含两个并行的工作流程，在线调度流程和离线训练流程。首先随机初始化网络参数。然后，资源适配层和网络组件层组合起来执行策略并收集经验。重播缓冲区存储这些随时间变化的经验以供离线训练。当经验数量达到m时，离线训练过程开始选择最新的样本，并通过评估网络计算策略评估的优势值。然后，行为网络使用优势值通过损失函数进行损失评估以进行策略更新。算法将θ_a记录为θ_old用于下一次迭代。评估网络使用价值函数进行自我更新。多次迭代后，行为网络将θ_a上传到在线调度进程以进行在线调度策略更新。上述过程的连续执行实现了长期近似最优调度控制策略π_θ(ω(t))。

为了将PMFA算法与实际传输控制过程明确结合，还提出了一种基于INT的网络感知传输控制算法(INT-based network-aware transmission control algorithm,ITCA)来标准化整个过程，如图5所示。

首先，初始化系统并执行参数配置和发布流条目以保证网络连接和数据包处理。并为网络感知和信息收集部署了INT框架。智能策略控制器调用PMFA算法生成具有连续更新的控制策略。跨层解析器执行策略控制并同时进行数据收集。INT框架执行INT数据收集。INT框架收集INT数据并将这些数据上传到跨层解析器中。

综合以上框架、模型以及算法设计，本发明的并行多路传输负载均衡方法流程示意图，如图6所示；具体执行流程图如图7所示。系统模块功能原理框图，如图8所示。

图7并行多路传输负载均衡方法具体步骤流程为：感知观测器根据传输路径规划感知包路径，并发送感知包进行网络状态探测；各个感知观测器收集管辖区域中的所有网络状态感知包并发送给跨层解析器；跨层解析器对所有感知包进行感知信息的解析与提取，将网络状态数据发送给数据分析器；复制一份发送给路径规划器进行路径规划分析。数据分析器将感知信息进行格式化处理与组合，发送给策略控制器。策略控制器根据更新时间设置生成策略动作，并发送给跨层解析器。策略控制器根据格式化网络状态数据，调用训练模型(POTM,图3，图4)进行策略生成与优化。跨层解析器根据策略动作生成一个个策略包发送给策略分发器。策略分发器将所有策略动作发送给对应的节点进行策略执行更新，调整各路径节点传输速率，实现多路传输负载均衡。

图8为系统模块功能原理框图。具体执行过程为：当并行传输服务到来，首先感知模块根据需要进行负载均衡管理的路径进行感知路径规划，并发送感知包进行数据感知。此时，感知数据会复制为两份，一份发送给离线策略优化模块进行策略训练优化(图3、4过程)。离线策略优化模块根据最新数据进行策略训练优化，随后将更新的策略参数发送给在线策略执行模块进行策略更新。一份发送在线策略执行模块，根据已有策略输出策略执行动作，并将执行策略动作下发到对应的节点进行链路的传输速率控制，最后实现负载均衡目标。

实施例举例：为了清楚理解本专利差异化时延业务可靠传输保障机制的具体实施过程，根据如图1对所有功能实施过程进行描述。首先，本发明实施例需要在网关设备的Linux操作系统中安装BMv2虚拟交换机，通过编写p4程序实现多协议的相互转换和隧道的处理以及数据包的转发。P4(Programming Protocol-Independent Packet Processors)是一种数据面的高级编程语言，通过P4语言可以实现对任意协议封装的报文进行处理，BMv2是支持P4编程的软件交换机。在本发明中，预先设计了动作匹配表，对数据包处理过程中所涉及到的动作匹配表。感知观测器、数据分发器、跨层解析器、数据分析器、策略控制器可以为不同单个控制器中执行控制，也可以放在相同控制中执行对应的功能。为了便于理解，本次举例将相近控制功能放在一个服务器中。

为了强化理解本发明的负载均衡方法的实施过程，举例阐述图6与图7的执行过程。如图9所示，使用在线服务器来执行跨层解析器、数据分析器和策略控制器的工作。首先执行S1步骤，感知观测器根据传输路径规划感知包路径，并发送感知包进行网络状态探测，感知包结构如图2所示。INT发端会根据规划路径周期性发送感知包，最后感知包汇聚到感知观测器,。执行步骤2，各个感知观测器收集管辖区域中的所有网络状态感知包并发送给跨层解析器；执行步骤3，跨层解析器对所有感知包进行感知信息的解析与提取，将网络状态数据发送给数据分析器；复制一份发送给路径规划器进行路径规划分析。执行步骤4，数据分析器根据算法输入的数据格式将感知信息进行格式化处理与组合，并发送给策略控制器。执行步骤6策略控制器根据策略下发时间设置，根据最新网络状态生成策略发送给跨层解析器。跨层解析器将策略包发送给策略分发器，通过查询对应节点IP地址进行统一转发。以上过程均发生于在线控制器中。步骤5在离线服务器中的策略控制器执行，根据步骤4中数据分析器发来的感知数据，调用训练模型(POTM,图3，图4)进行策略更新优化，最后将模型参数发送给在线服务器中的策略控制器。步骤7发生与对应策略更新节点，在转发过程中解析识别策略包并提取策略动作写入到转发设备寄存器中进行对应端口的传输速率控制。

综上所述：本发明设计了基于P4可编程交换机的负载均衡调度系统，提供了并行多路传输负载均衡机制：利用改进的INT感知框架对网络状态进行感知，以感知信息为基础设计深度强化学习算法进行流量与链路传输能力的适配调度，将流量分配到多条链路中进行传输。可选的，利用所设计的基于PPO的多径流调度算法，训练优化了一种神经网络模型，将网络感知信息作为输入，生成负载均衡决策，对全网链路的流量分配比例进行调整控制。可选的，利用所设计的基于INT的网络感知传输控制算法，对感知过程、数据包结构设置过程以及策略下发过程进行控制。设计了基于智融标识网络的多路感知协同传输控制框架：对网络感知、数据处理、策略调整以及策略下发整个过程进行管理，实现了负载均衡调度策略的循环优化。策略的循环优化主要在上述框架的智能策略控制器组件中执行。设计了基于actor-critic框架的训练模型，该框架将优化过程分为两部分：在线多路径流调度以及离线智能策略训练。在线多路径流调度主要进行策略生成，配合使用基于智融标识网络的多路感知协同传输控制框架进行策略下发。策略优化过程主要在离线智能策略训练中，利用actor-critic框架对新的执行经验数据进行策略参数的执行反馈调整。在网络感知方面，提供了一种INT数据包结构设计，利用INT框架实现了数据层面的感知与控制一体化，详见4.2部分INT数据包结构。数据包结构设计主要包括两部分：INT包头和INT数据。其中，INT包头属性字段包括：设备ID、执行标识、控制动作。执行标识可选值为“0”、“1”。当执行标识为“1”时，配合使用控制动作字段，可以进行控制策略的下发，实现对节点后接转发链路进行流量传输比例控制。当执行标识为“0”时，INT数据格式设置用于存储对应的感知信息。感知属性包括：设备ID端口、链路时延、链路带宽、排队长度、丢包。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种并行传输负载均衡装置，其特征在于，包括：

2.根据权利要求1所述的并行传输负载均衡装置，其特征在于，INT数据包结构包括INT包头和INT数据；所述INT包头包括设备ID、执行标识和控制动作；所述INT数据包括设备ID、端口、链路时延、链路带宽、排队长度以及丢包。

3.根据权利要求2所述的并行传输负载均衡装置，其特征在于，INT包头中的设备ID用于标记交换机的全局标识，当INT框架要对某个交换机做一些针对性的动作时，设备编号就是唯一确定的标识；执行标识用于判断当前数据包类型：“0”和“1”分别表示感知和策略控制；控制动作用于当执行标识为“1”时，记录对应ID设备编号的设备进行传输率控制。

4.根据权利要求3所述的并行传输负载均衡装置，其特征在于，INT数据中的所述设备ID用于记录当前进行数据感知的设备；端口用于记录当前数据感知的端口位置；链路时延用于记录数据包在当前节点端口所连接上一跳节点的排队时延以及当前链路的传输时延之和；链路带宽用于记录两个相邻交换机的可用带宽；排队长度用于表示出端口的队列长度；丢包用于记录链接的丢失字节。

5.根据权利要求1所述的并行传输负载均衡装置，其特征在于，基于Actor-Critic框架的策略优化训练模型，根据先前的调度经验获得调度策略将经过训练的/>参数发送给智能策略控制器进行策略更新。

6.根据权利要求5所述的并行传输负载均衡装置，其特征在于，评估网络Q^c(θ^c)是一个评估函数，用于评估来自行为网络的动作a(t)；当行为网络在槽t选择一个动作a(t)时，评估网络将使用价值函数通过计算所有可能的动作来获得平均预期奖励值以及他们对应的概率；评估网络使用动作价值函数执行a(t)并计算预期奖励值rd(t)；对rd(t)进行比较，评估网络得到损失值，并将损失值发送给行为网络进行策略更新。

7.根据权利要求6所述的并行传输负载均衡装置，其特征在于，行动价值函数为：

其中，τ∈{0,1,...,t,...,ST}；π为插槽τ的控制策略；

其中，τ∈{0,1,...,t,...,ST}，γ为折扣因子；

优势函数为

8.根据权利要求7所述的并行传输负载均衡装置，其特征在于，行为网络Q^a(θ^a)旨在通过基于评估网络参数的策略更新来模拟数据调度规则；行为网络在来自评估网络的评估压力下使用损失函数生成控制策略；损失函数为

9.根据权利要求8所述的并行传输负载均衡装置，其特征在于，并行多路传输负载均衡方法具体步骤流程为：

10.根据权利要求9所述的并行传输负载均衡装置，其特征在于，当并行传输服务到来，根据需要进行负载均衡管理的路径进行感知路径规划，并发送感知包进行数据感知；感知数据会复制为两份，一份发送给离线策略优化模块进行策略训练优化；离线策略优化模块根据最新数据进行策略训练优化，将更新的策略参数发送给在线策略执行模块进行策略更新；一份发送在线策略执行模块，根据已有策略输出策略执行动作，并将执行策略动作下发到对应的节点进行链路的传输速率控制，最后实现负载均衡目标。