CN115914112A

CN115914112A - 基于pdaa3c的多路径调度算法及系统

Info

Publication number: CN115914112A
Application number: CN202211362893.5A
Authority: CN
Inventors: 韩晶; 占敖; 梁腾
Original assignee: Hangzhou Huixintong Technology Co ltd
Current assignee: Hangzhou Huixintong Technology Co ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-04-04

Abstract

本发明属于数据调度技术领域，具体涉及基于PDAA3C的多路径调度算法及系统。方法包括如下步骤：S1，数据包分发：利用MPTCP服务器同时向已建立的链路分发数据包，将数据包传送到MPTCP客户端，并获得每个链路的当前状态；S2，链路质量排名：结合子流质量评价标准和链路的当前状态对所有子流的质量进行排序；S3，最优调度：将数据包分配到最优的子流，并获得每个子流的当前状态。本发明相比于传统轮询算法和RLDS人工智能算法，在相同的丢包率和数据包大小情况下，吞吐量分别提升了49.6％和8.6％。

Description

基于PDAA3C的多路径调度算法及系统

技术领域

本发明属于数据调度技术领域，具体涉及基于PDAA3C的多路径调度算法及系统。

背景技术

多路径传输控制协议(MPTCP)是对传统TCP的扩展，它可以充分利用设备的多个接口，提高传输效率、链路公平性和吞吐量。目前，由于虚拟现实和实时直播等新型技术的快速发展，用户对高网络带宽和低端传输延迟的需求正在迅速增加。现在的移动设备拥有多个网络接口，可接入不同的网络接入技术，如WIFI和蜂窝网络。因此，MPTCP得到了很多关注，因为它聚合了多个子流的容量，并保持了单路径故障。数据调度是MPTCP的一个核心组成部分，它可以控制分配包上传输的流量，并保持链路的公平性。

为了提高子流的吞吐量和MPTCP的公平性，在传统的MPTCP调度算法(如Round-robin)的基础上，提出了几种调度算法(如Average-RTT和FastestRTT)，当数据包来自应用层时，通过轮询来分发数据包。异构多子流网络(HMN)在子流业务指标和子流可用带宽上有很大的不同，它很难达到MPTCP的理想性能。一方面，MPTCP面临着将数据包合理地分配到异质多路的困难。带宽较小的子流可能会严重降低MPTCP连接中其他子流的性能。另一方面，MPTCP也很难做到在HMN中准确判断子流的状态。

基于深度强化学习的智能数据调度算法，能够让调度策略更为准确，在HMN中，使用户感受到更高的带宽、更低的端到端延迟和最大的吞吐量。结合深度强化学习，MPTCP已经取得了较好的成果。经对现有文献检索发现，获取相关的文献如下：

1、多路径TCP数据调度的强化学习方法(J.Luo,X.Su,and B.Liu,“Areinforcement learning approach for multipath TCP data scheduling”,IEEE 9thAnnual Computing and Communication Workshop and Conference,pp.0276–0280,2019.)是使用强化学习方法对MPTCP数据调度算法的优化，这种方法能够保证数据传输吞吐量提升，虚拟现实和实时直播的海量数据，需要的是高效便捷。

2、基于学习的动态异质环境的多路径调度(H.Wu,O.Alay,A.Brunstrom,S.Ferlin,and G.Caso,“Peekaboo:Learning-based multipath scheduling for dynamicheterogeneous environments,”IEEE Journal on Selected Areas in Communications,vol.38,no.10,pp.2295–2310,2020)根据当前的路径特性和动态水平，从确定性和随机性的角度学习调度决策，并随着时间的推移采用良好决策，提升传输吞吐量。

但是以上两种智能调度决策算法均为实现数据传输吞吐量的提升，如果能提升链路状态判断的准确性和决策的实时性，将能解决链路性能不稳定、可靠性低、低吞吐量等问题。

因此，设计一种通过数据训练对每条链路的空余带宽、吞吐量、往返时延、拥塞窗口、当前链路的数据包数量和丢包率进行实时监测，对每条路径的链路资源进行判断并决定对下次数据包在哪条链路上传输进行管理，能有效提升链路的总吞吐量并保证链路间公平性的基于PDAA3C(Path Dynamics Assessment Asynchronous Advantage Actor-criticScheduling Algorithm)的多路径调度算法及系统，就显得十分重要。

发明内容

本发明是为了克服现有技术中，现有的智能调度决策算法均为实现数据传输吞吐量的提升，无法提升链路状态判断的准确性和决策的实时性，从而导致链路性能存在不稳定、可靠性低、低吞吐量的问题，提供了一种通过数据训练对每条链路的空余带宽、吞吐量、往返时延、拥塞窗口、当前链路的数据包数量和丢包率进行实时监测，对每条路径的链路资源进行判断并决定对下次数据包在哪条链路上传输进行管理，能有效提升链路的总吞吐量并保证链路间公平性的基于PDAA3C的多路径调度算法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

基于PDAA3C的多路径调度算法，包括如下步骤：

S1，数据包分发：

利用MPTCP服务器同时向已建立的链路分发数据包，将数据包传送到MPTCP客户端，并获得每个链路的当前状态；

S2，链路质量排名：

结合子流质量评价标准和链路的当前状态对所有子流的质量进行排序；

S3，最优调度：

将数据包分配到最优的子流，并获得每个子流的当前状态。

作为优选，步骤S1包括如下步骤：

S11，在数据传输的过程中，设定每个数据包的大小为固定值α，MPTCP发送端发送数据给MPTCP接收端，MPTCP接收端返回当前链路的空余带宽

吞吐量

往返时延

拥塞窗口

当前链路的数据包数量

和丢包率

其中，i为子流编号，t为时间戳，时间戳t从0开始且间隔为0.1s；

S12，采用Action模块进行数据包分发的决策：在每一次数据传输的过程中，输入Q值，并输出对应动作，即选择一条链路来分配数据包；

其中，Action模块内设有三个值，分别为正值、负值和零，分别对应选择最优链路、选择常规链路和最差的链路。

作为优选，步骤S2包括如下步骤：

S21，对链路质量进行排名，MPTCP发送端使用PDAA3C算法，结合空余带宽

吞吐量

往返时延

拥塞窗口

和丢包率

对链路状态进行评判，链路状态通过Q值反映，Q值越大，链路状态越好；

所述Q值的计算公式如下：

其中，γ的值为0.7，η的值为0.3，α的值为1000；

S22，按照步骤S21中Q计算标准对链路的状态进行评估，依据MPTCP接收端返回的结果对链路的状态进行实时评估。

作为优选，还包括如下步骤：

在步骤S1进行前，使用Reward模块对Action模块做出的决策进行评价。

作为优选，步骤S3包括如下步骤：

S31，在每一次数据包传输时，Reward模块中

其中U(i,t)为Action模块做出的决策评价结果；

S32，将所述决策评价结果返回给PDAA3C算法中的智能体，使智能体下次提升选取最优路径的概率，同时通过计算链路状态Q值，反应当前链路的状态优劣。

本发明还提供了基于PDAA3C的多路径调度系统，包括：

数据包分发模块，用于利用MPTCP服务器同时向已建立的链路分发数据包，将数据包传送到MPTCP客户端，并获得每个链路的当前状态；

链路质量排名模块，用于结合子流质量评价标准和链路的当前状态对所有子流的质量进行排序；

最优调度模块，用于将数据包分配到最优的子流，并获得每个子流的当前状态；

所述数据包分发模块包括：

STATE模块，用于在每一次数据包进行传输后，记录当前各链路状态；所述当前各链路状态包括当前链路的空余带宽

吞吐量

往返时延

拥塞窗口

当前链路的数据包数量

和丢包率

Action模块，用于在每一次数据包分发时，根据Reward模块返回的r_t输出对应动作，即选择一条链路来分配数据包；

所述最优调度模块包括：

Reward模块，用于在每一次数据包分发结束后，根据当前链路状态，对Action模块做出的决策进行评价，生成r_t。

作为优选，所述数据包分发模块具体如下：

在数据传输的过程中，设定每个数据包的大小为固定值α，MPTCP发送端发送数据给MPTCP接收端，MPTCP接收端返回当前链路的空余带宽

吞吐量

往返时延

拥塞窗口

当前链路的数据包数量

和丢包率

采用Action模块进行数据包分发的决策：在每一次数据传输的过程中，输入Q值，并输出对应动作，即选择一条链路来分配数据包；

作为优选，所述链路质量排名模块具体如下：

对链路质量进行排名，MPTCP发送端使用PDAA3C算法，结合空余带宽

吞吐量

往返时延

拥塞窗口

和丢包率

所述Q值的计算公式如下：

其中，γ的值为0.7，η的值为0.3，α的值为1000；

按照步骤S21中Q计算标准对链路的状态进行评估，依据MPTCP接收端返回的结果对链路的状态进行实时评估。

作为优选，所述最优调度模块具体如下：

在每一次数据包传输时，Reward模块中

其中U(i,t)为Action模块做出的决策评价结果；

将所述决策评价结果返回给PDAA3C算法中的智能体，使智能体下次提升选取最优路径的概率，同时通过计算链路状态Q值，反应当前链路的状态优劣。

本发明与现有技术相比，有益效果是：(1)本发明结合了深度强化学习的多路径协作传输协议数据调度算法，算法通过数据训练对每条链路的空余带宽、吞吐量、往返时延、拥塞窗口、当前链路的数据包数量和丢包率进行实时监测，对每条路径的链路资源进行判断并决定对下次数据包在哪条链路上传输进行管理，有效提升链路的总吞吐量并保证链路间的公平性；(2)本发明提出的多路径协作传输数据调度算法PDAA3C相比于传统轮询算法和RLDS人工智能算法，在相同的丢包率和数据包大小情况下，吞吐量分别提升了49.6％和8.6％。

附图说明

图1为本发明实施例提供的NS3平台仿真场景的一种示意图；

图2为本发明实施例提供的PDAA3C的一种系统模型示意图；

图3为本发明实施例提供的A3C深度强化学习算法模型的一种示意图；

图4为本发明实施例提供的A3C深度强化学习算法的训练模型的一种示意图；

图5为本发明实施例提供的吞吐量在不同数据调度算法下的一种比对示意图；

图6为本发明实施例提供的Jain’s指数在不同数据调度算法下的一种比对示意图；

图7为本发明实施例提供的基于PDAA3C的多路径调度算法的一种整体伪代码图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例：

本发明提供了基于PDAA3C的多路径调度算法，包括如下步骤：

S1，数据包分发：

S2，链路质量排名：

S3，最优调度：

将数据包分配到最优的子流，并获得每个子流的当前状态。

结合实际应用场景，本发明方法的实现过程如下：

在NS3平台上对仿真场景进行搭建，将四个有线路由器相互使用网线连接，并且每条链路使用有线路由器设置不同的传输带宽，两客户端与有线路由器通过网线连接，共有四条链路，分别为Path1、Path2、Path3、Path4；Path1：10.1.1.1—10.1.3.1—10.1.7.1，Path2：10.1.1.1—10.1.6.1—10.1.8.1，Path3：10.1.2.1—10.1.5.1—10.1.7.1，Path4：10.1.2.1—10.1.4.1—10.1.8.1，具体如图1所示。

如图2所示，PDAA3C算法在发送端和接收端之间存在多条路径，其工作过程概述如下：MPTCP发送端向MPTCP接收端发送数据，首先数据被分成数据包存储于发送缓冲池中，等待PDAA3C算法的评判家网络结合MPTCP接收端返回的参数(当前链路的空余带宽

吞吐量

往返时延

拥塞窗口

当前链路的数据包数量

和丢包率

)和计算出的Q值与reward值，采取action将数据包分发至链路上，首次数据包传输随机选择链路分配数据包；其次MPTCP接收端接收到数据包，PDAA3C算法中的Reward模块对链路状态进行计算Q值，评判家根据MPTCP接收端返回的参数(当前链路的空余带宽

吞吐量

往返时延

拥塞窗口

当前链路的数据包数量

和丢包率

)对Actor模块的action进行评判生成r_t；最后将生成的r_t和Q值返回给评判家网络对其进行参数更新，促使其选择最优链路进行数据传输。

其中A3C深度强化学习模型如图3所示，本算法中，执行家通过获取评判家的评判结果r_t和Q值更新策略，评判家对执行家的行动进行评判生成r_t，环境是对链路的状态进行评判生成Q值，A3C深度强化学习算法的训练模型如图4所示，通过虚拟多个线程，对智能体进行训练，加快A3C算法的收敛速度。

如图5所示为吞吐量在不同数据调度算法下的比对图，与MPTCP-Round-robin(轮询算法)、MPTCP-fastest-rtt(快速往返时延算法)、MPTCP-RLDS(强化学习RLDS算法)和理论吞吐量最优值进行对比。为了获得更高的吞吐量，在多径传输仿真实验中，mptcp-pdaa3c结合子流质量评价标准和DRL的A3C来选择需要传输的最优子流。因此，mptcp-pdaa3c能够获得最优传输路径，并平衡子流之间的数据分组传输的公平性。仿真结果如图5所示，mptcp-pdaa3c算法的子流吞吐量优于mptcp-RLDS 8.6％、mptcp-round-robin49.6％和mptcp-fast-RTT 52.6％，接近理论上的最优吞吐量。

图6为Jain’s指数在不同数据调度算法下的比对图。与MPTCP-Round-robin、MPTCP-fastest-rtt、MPTCP-RLDS和理论Jain’s指数最优值进行对比。Jain’s指数是对每次数据包传输分发后，各链路的吞吐量公平性的差异。在多径传输过程中，子流上的包数与子流的性能成正比。mptcppdaa3c的特点是，当需要传输包时，选择最优子流。仿真结果如图6所示。由于采用了最优调度和最优子流质量评价标准，mptcp-pdaa3c的子流公平性始终优于其他子流，接近最优Jain公平性指数1。

图7为算法的整体伪代码图。对算法的输入输出、链路Q值计算公式和A3C相关更新公式进行可视化的总结。

本发明还提供了基于PDAA3C的多路径调度系统，包括：

所述数据包分发模块包括：

吞吐量

往返时延

拥塞窗口

当前链路的数据包数量

和丢包率

所述最优调度模块包括：

所述数据包分发模块具体如下：

吞吐量

往返时延

拥塞窗口

当前链路的数据包数量

和丢包率

所述链路质量排名模块具体如下：

吞吐量

往返时延

拥塞窗口

和丢包率

所述Q值的计算公式如下：

其中，γ的值为0.7，η的值为0.3，α的值为1000；

所述最优调度模块具体如下：

在每一次数据包传输时，Reward模块中

其中U(i,t)为Action模块做出的决策评价结果；

本发明结合了深度强化学习的多路径协作传输协议数据调度算法，算法通过数据训练对每条链路的空余带宽、吞吐量、往返时延、拥塞窗口、当前链路的数据包数量和丢包率进行实时监测，对每条路径的链路资源进行判断并决定对下次数据包在哪条链路上传输进行管理，有效提升链路的总吞吐量并保证链路间的公平性；本发明提出的多路径协作传输数据调度算法PDAA3C相比于传统轮询算法和RLDS人工智能算法，在相同的丢包率和数据包大小情况下，吞吐量分别提升了49.6％和8.6％。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。