CN115914112A - 基于pdaa3c的多路径调度算法及系统 - Google Patents

基于pdaa3c的多路径调度算法及系统 Download PDF

Info

Publication number
CN115914112A
CN115914112A CN202211362893.5A CN202211362893A CN115914112A CN 115914112 A CN115914112 A CN 115914112A CN 202211362893 A CN202211362893 A CN 202211362893A CN 115914112 A CN115914112 A CN 115914112A
Authority
CN
China
Prior art keywords
link
mptcp
state
module
data packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211362893.5A
Other languages
English (en)
Inventor
韩晶
占敖
梁腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Huixintong Technology Co ltd
Original Assignee
Hangzhou Huixintong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Huixintong Technology Co ltd filed Critical Hangzhou Huixintong Technology Co ltd
Priority to CN202211362893.5A priority Critical patent/CN115914112A/zh
Publication of CN115914112A publication Critical patent/CN115914112A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明属于数据调度技术领域,具体涉及基于PDAA3C的多路径调度算法及系统。方法包括如下步骤:S1,数据包分发:利用MPTCP服务器同时向已建立的链路分发数据包,将数据包传送到MPTCP客户端,并获得每个链路的当前状态;S2,链路质量排名:结合子流质量评价标准和链路的当前状态对所有子流的质量进行排序;S3,最优调度:将数据包分配到最优的子流,并获得每个子流的当前状态。本发明相比于传统轮询算法和RLDS人工智能算法,在相同的丢包率和数据包大小情况下,吞吐量分别提升了49.6%和8.6%。

Description

基于PDAA3C的多路径调度算法及系统
技术领域
本发明属于数据调度技术领域,具体涉及基于PDAA3C的多路径调度算法及系统。
背景技术
多路径传输控制协议(MPTCP)是对传统TCP的扩展,它可以充分利用设备的多个接口,提高传输效率、链路公平性和吞吐量。目前,由于虚拟现实和实时直播等新型技术的快速发展,用户对高网络带宽和低端传输延迟的需求正在迅速增加。现在的移动设备拥有多个网络接口,可接入不同的网络接入技术,如WIFI和蜂窝网络。因此,MPTCP得到了很多关注,因为它聚合了多个子流的容量,并保持了单路径故障。数据调度是MPTCP的一个核心组成部分,它可以控制分配包上传输的流量,并保持链路的公平性。
为了提高子流的吞吐量和MPTCP的公平性,在传统的MPTCP调度算法(如Round-robin)的基础上,提出了几种调度算法(如Average-RTT和FastestRTT),当数据包来自应用层时,通过轮询来分发数据包。异构多子流网络(HMN)在子流业务指标和子流可用带宽上有很大的不同,它很难达到MPTCP的理想性能。一方面,MPTCP面临着将数据包合理地分配到异质多路的困难。带宽较小的子流可能会严重降低MPTCP连接中其他子流的性能。另一方面,MPTCP也很难做到在HMN中准确判断子流的状态。
基于深度强化学习的智能数据调度算法,能够让调度策略更为准确,在HMN中,使用户感受到更高的带宽、更低的端到端延迟和最大的吞吐量。结合深度强化学习,MPTCP已经取得了较好的成果。经对现有文献检索发现,获取相关的文献如下:
1、多路径TCP数据调度的强化学习方法(J.Luo,X.Su,and B.Liu,“Areinforcement learning approach for multipath TCP data scheduling”,IEEE 9thAnnual Computing and Communication Workshop and Conference,pp.0276–0280,2019.)是使用强化学习方法对MPTCP数据调度算法的优化,这种方法能够保证数据传输吞吐量提升,虚拟现实和实时直播的海量数据,需要的是高效便捷。
2、基于学习的动态异质环境的多路径调度(H.Wu,O.Alay,A.Brunstrom,S.Ferlin,and G.Caso,“Peekaboo:Learning-based multipath scheduling for dynamicheterogeneous environments,”IEEE Journal on Selected Areas in Communications,vol.38,no.10,pp.2295–2310,2020)根据当前的路径特性和动态水平,从确定性和随机性的角度学习调度决策,并随着时间的推移采用良好决策,提升传输吞吐量。
但是以上两种智能调度决策算法均为实现数据传输吞吐量的提升,如果能提升链路状态判断的准确性和决策的实时性,将能解决链路性能不稳定、可靠性低、低吞吐量等问题。
因此,设计一种通过数据训练对每条链路的空余带宽、吞吐量、往返时延、拥塞窗口、当前链路的数据包数量和丢包率进行实时监测,对每条路径的链路资源进行判断并决定对下次数据包在哪条链路上传输进行管理,能有效提升链路的总吞吐量并保证链路间公平性的基于PDAA3C(Path Dynamics Assessment Asynchronous Advantage Actor-criticScheduling Algorithm)的多路径调度算法及系统,就显得十分重要。
发明内容
本发明是为了克服现有技术中,现有的智能调度决策算法均为实现数据传输吞吐量的提升,无法提升链路状态判断的准确性和决策的实时性,从而导致链路性能存在不稳定、可靠性低、低吞吐量的问题,提供了一种通过数据训练对每条链路的空余带宽、吞吐量、往返时延、拥塞窗口、当前链路的数据包数量和丢包率进行实时监测,对每条路径的链路资源进行判断并决定对下次数据包在哪条链路上传输进行管理,能有效提升链路的总吞吐量并保证链路间公平性的基于PDAA3C的多路径调度算法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
基于PDAA3C的多路径调度算法,包括如下步骤:
S1,数据包分发:
利用MPTCP服务器同时向已建立的链路分发数据包,将数据包传送到MPTCP客户端,并获得每个链路的当前状态;
S2,链路质量排名:
结合子流质量评价标准和链路的当前状态对所有子流的质量进行排序;
S3,最优调度:
将数据包分配到最优的子流,并获得每个子流的当前状态。
作为优选,步骤S1包括如下步骤:
S11,在数据传输的过程中,设定每个数据包的大小为固定值α,MPTCP发送端发送数据给MPTCP接收端,MPTCP接收端返回当前链路的空余带宽
Figure BDA0003922652760000031
吞吐量
Figure BDA0003922652760000032
往返时延
Figure BDA0003922652760000033
拥塞窗口
Figure BDA0003922652760000034
当前链路的数据包数量
Figure BDA0003922652760000035
和丢包率
Figure BDA0003922652760000036
其中,i为子流编号,t为时间戳,时间戳t从0开始且间隔为0.1s;
S12,采用Action模块进行数据包分发的决策:在每一次数据传输的过程中,输入Q值,并输出对应动作,即选择一条链路来分配数据包;
其中,Action模块内设有三个值,分别为正值、负值和零,分别对应选择最优链路、选择常规链路和最差的链路。
作为优选,步骤S2包括如下步骤:
S21,对链路质量进行排名,MPTCP发送端使用PDAA3C算法,结合空余带宽
Figure BDA0003922652760000037
吞吐量
Figure BDA0003922652760000038
往返时延
Figure BDA0003922652760000039
拥塞窗口
Figure BDA00039226527600000310
和丢包率
Figure BDA00039226527600000311
对链路状态进行评判,链路状态通过Q值反映,Q值越大,链路状态越好;
所述Q值的计算公式如下:
Figure BDA0003922652760000041
其中,γ的值为0.7,η的值为0.3,α的值为1000;
S22,按照步骤S21中Q计算标准对链路的状态进行评估,依据MPTCP接收端返回的结果对链路的状态进行实时评估。
作为优选,还包括如下步骤:
在步骤S1进行前,使用Reward模块对Action模块做出的决策进行评价。
作为优选,步骤S3包括如下步骤:
S31,在每一次数据包传输时,Reward模块中
Figure BDA0003922652760000042
其中U(i,t)为Action模块做出的决策评价结果;
S32,将所述决策评价结果返回给PDAA3C算法中的智能体,使智能体下次提升选取最优路径的概率,同时通过计算链路状态Q值,反应当前链路的状态优劣。
本发明还提供了基于PDAA3C的多路径调度系统,包括:
数据包分发模块,用于利用MPTCP服务器同时向已建立的链路分发数据包,将数据包传送到MPTCP客户端,并获得每个链路的当前状态;
链路质量排名模块,用于结合子流质量评价标准和链路的当前状态对所有子流的质量进行排序;
最优调度模块,用于将数据包分配到最优的子流,并获得每个子流的当前状态;
所述数据包分发模块包括:
STATE模块,用于在每一次数据包进行传输后,记录当前各链路状态;所述当前各链路状态包括当前链路的空余带宽
Figure BDA0003922652760000043
吞吐量
Figure BDA0003922652760000044
往返时延
Figure BDA0003922652760000045
拥塞窗口
Figure BDA0003922652760000046
当前链路的数据包数量
Figure BDA0003922652760000047
和丢包率
Figure BDA0003922652760000048
Action模块,用于在每一次数据包分发时,根据Reward模块返回的rt输出对应动作,即选择一条链路来分配数据包;
所述最优调度模块包括:
Reward模块,用于在每一次数据包分发结束后,根据当前链路状态,对Action模块做出的决策进行评价,生成rt
作为优选,所述数据包分发模块具体如下:
在数据传输的过程中,设定每个数据包的大小为固定值α,MPTCP发送端发送数据给MPTCP接收端,MPTCP接收端返回当前链路的空余带宽
Figure BDA0003922652760000051
吞吐量
Figure BDA0003922652760000052
往返时延
Figure BDA0003922652760000053
拥塞窗口
Figure BDA0003922652760000054
当前链路的数据包数量
Figure BDA0003922652760000055
和丢包率
Figure BDA0003922652760000056
其中,i为子流编号,t为时间戳,时间戳t从0开始且间隔为0.1s;
采用Action模块进行数据包分发的决策:在每一次数据传输的过程中,输入Q值,并输出对应动作,即选择一条链路来分配数据包;
其中,Action模块内设有三个值,分别为正值、负值和零,分别对应选择最优链路、选择常规链路和最差的链路。
作为优选,所述链路质量排名模块具体如下:
对链路质量进行排名,MPTCP发送端使用PDAA3C算法,结合空余带宽
Figure BDA0003922652760000057
吞吐量
Figure BDA0003922652760000058
往返时延
Figure BDA0003922652760000059
拥塞窗口
Figure BDA00039226527600000510
和丢包率
Figure BDA00039226527600000511
对链路状态进行评判,链路状态通过Q值反映,Q值越大,链路状态越好;
所述Q值的计算公式如下:
Figure BDA00039226527600000512
其中,γ的值为0.7,η的值为0.3,α的值为1000;
按照步骤S21中Q计算标准对链路的状态进行评估,依据MPTCP接收端返回的结果对链路的状态进行实时评估。
作为优选,所述最优调度模块具体如下:
在每一次数据包传输时,Reward模块中
Figure BDA00039226527600000513
其中U(i,t)为Action模块做出的决策评价结果;
将所述决策评价结果返回给PDAA3C算法中的智能体,使智能体下次提升选取最优路径的概率,同时通过计算链路状态Q值,反应当前链路的状态优劣。
本发明与现有技术相比,有益效果是:(1)本发明结合了深度强化学习的多路径协作传输协议数据调度算法,算法通过数据训练对每条链路的空余带宽、吞吐量、往返时延、拥塞窗口、当前链路的数据包数量和丢包率进行实时监测,对每条路径的链路资源进行判断并决定对下次数据包在哪条链路上传输进行管理,有效提升链路的总吞吐量并保证链路间的公平性;(2)本发明提出的多路径协作传输数据调度算法PDAA3C相比于传统轮询算法和RLDS人工智能算法,在相同的丢包率和数据包大小情况下,吞吐量分别提升了49.6%和8.6%。
附图说明
图1为本发明实施例提供的NS3平台仿真场景的一种示意图;
图2为本发明实施例提供的PDAA3C的一种系统模型示意图;
图3为本发明实施例提供的A3C深度强化学习算法模型的一种示意图;
图4为本发明实施例提供的A3C深度强化学习算法的训练模型的一种示意图;
图5为本发明实施例提供的吞吐量在不同数据调度算法下的一种比对示意图;
图6为本发明实施例提供的Jain’s指数在不同数据调度算法下的一种比对示意图;
图7为本发明实施例提供的基于PDAA3C的多路径调度算法的一种整体伪代码图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例:
本发明提供了基于PDAA3C的多路径调度算法,包括如下步骤:
S1,数据包分发:
利用MPTCP服务器同时向已建立的链路分发数据包,将数据包传送到MPTCP客户端,并获得每个链路的当前状态;
S2,链路质量排名:
结合子流质量评价标准和链路的当前状态对所有子流的质量进行排序;
S3,最优调度:
将数据包分配到最优的子流,并获得每个子流的当前状态。
结合实际应用场景,本发明方法的实现过程如下:
在NS3平台上对仿真场景进行搭建,将四个有线路由器相互使用网线连接,并且每条链路使用有线路由器设置不同的传输带宽,两客户端与有线路由器通过网线连接,共有四条链路,分别为Path1、Path2、Path3、Path4;Path1:10.1.1.1—10.1.3.1—10.1.7.1,Path2:10.1.1.1—10.1.6.1—10.1.8.1,Path3:10.1.2.1—10.1.5.1—10.1.7.1,Path4:10.1.2.1—10.1.4.1—10.1.8.1,具体如图1所示。
如图2所示,PDAA3C算法在发送端和接收端之间存在多条路径,其工作过程概述如下:MPTCP发送端向MPTCP接收端发送数据,首先数据被分成数据包存储于发送缓冲池中,等待PDAA3C算法的评判家网络结合MPTCP接收端返回的参数(当前链路的空余带宽
Figure BDA0003922652760000071
吞吐量
Figure BDA0003922652760000072
往返时延
Figure BDA0003922652760000073
拥塞窗口
Figure BDA0003922652760000074
当前链路的数据包数量
Figure BDA0003922652760000075
和丢包率
Figure BDA0003922652760000076
)和计算出的Q值与reward值,采取action将数据包分发至链路上,首次数据包传输随机选择链路分配数据包;其次MPTCP接收端接收到数据包,PDAA3C算法中的Reward模块对链路状态进行计算Q值,评判家根据MPTCP接收端返回的参数(当前链路的空余带宽
Figure BDA0003922652760000081
吞吐量
Figure BDA0003922652760000082
往返时延
Figure BDA0003922652760000083
拥塞窗口
Figure BDA0003922652760000084
当前链路的数据包数量
Figure BDA0003922652760000085
和丢包率
Figure BDA0003922652760000086
)对Actor模块的action进行评判生成rt;最后将生成的rt和Q值返回给评判家网络对其进行参数更新,促使其选择最优链路进行数据传输。
其中A3C深度强化学习模型如图3所示,本算法中,执行家通过获取评判家的评判结果rt和Q值更新策略,评判家对执行家的行动进行评判生成rt,环境是对链路的状态进行评判生成Q值,A3C深度强化学习算法的训练模型如图4所示,通过虚拟多个线程,对智能体进行训练,加快A3C算法的收敛速度。
如图5所示为吞吐量在不同数据调度算法下的比对图,与MPTCP-Round-robin(轮询算法)、MPTCP-fastest-rtt(快速往返时延算法)、MPTCP-RLDS(强化学习RLDS算法)和理论吞吐量最优值进行对比。为了获得更高的吞吐量,在多径传输仿真实验中,mptcp-pdaa3c结合子流质量评价标准和DRL的A3C来选择需要传输的最优子流。因此,mptcp-pdaa3c能够获得最优传输路径,并平衡子流之间的数据分组传输的公平性。仿真结果如图5所示,mptcp-pdaa3c算法的子流吞吐量优于mptcp-RLDS 8.6%、mptcp-round-robin49.6%和mptcp-fast-RTT 52.6%,接近理论上的最优吞吐量。
图6为Jain’s指数在不同数据调度算法下的比对图。与MPTCP-Round-robin、MPTCP-fastest-rtt、MPTCP-RLDS和理论Jain’s指数最优值进行对比。Jain’s指数是对每次数据包传输分发后,各链路的吞吐量公平性的差异。在多径传输过程中,子流上的包数与子流的性能成正比。mptcppdaa3c的特点是,当需要传输包时,选择最优子流。仿真结果如图6所示。由于采用了最优调度和最优子流质量评价标准,mptcp-pdaa3c的子流公平性始终优于其他子流,接近最优Jain公平性指数1。
图7为算法的整体伪代码图。对算法的输入输出、链路Q值计算公式和A3C相关更新公式进行可视化的总结。
本发明还提供了基于PDAA3C的多路径调度系统,包括:
数据包分发模块,用于利用MPTCP服务器同时向已建立的链路分发数据包,将数据包传送到MPTCP客户端,并获得每个链路的当前状态;
链路质量排名模块,用于结合子流质量评价标准和链路的当前状态对所有子流的质量进行排序;
最优调度模块,用于将数据包分配到最优的子流,并获得每个子流的当前状态;
所述数据包分发模块包括:
STATE模块,用于在每一次数据包进行传输后,记录当前各链路状态;所述当前各链路状态包括当前链路的空余带宽
Figure BDA0003922652760000091
吞吐量
Figure BDA0003922652760000092
往返时延
Figure BDA0003922652760000093
拥塞窗口
Figure BDA0003922652760000094
当前链路的数据包数量
Figure BDA0003922652760000095
和丢包率
Figure BDA0003922652760000096
Action模块,用于在每一次数据包分发时,根据Reward模块返回的rt输出对应动作,即选择一条链路来分配数据包;
所述最优调度模块包括:
Reward模块,用于在每一次数据包分发结束后,根据当前链路状态,对Action模块做出的决策进行评价,生成rt
所述数据包分发模块具体如下:
在数据传输的过程中,设定每个数据包的大小为固定值α,MPTCP发送端发送数据给MPTCP接收端,MPTCP接收端返回当前链路的空余带宽
Figure BDA0003922652760000097
吞吐量
Figure BDA0003922652760000098
往返时延
Figure BDA0003922652760000099
拥塞窗口
Figure BDA00039226527600000910
当前链路的数据包数量
Figure BDA00039226527600000911
和丢包率
Figure BDA00039226527600000912
其中,i为子流编号,t为时间戳,时间戳t从0开始且间隔为0.1s;
采用Action模块进行数据包分发的决策:在每一次数据传输的过程中,输入Q值,并输出对应动作,即选择一条链路来分配数据包;
其中,Action模块内设有三个值,分别为正值、负值和零,分别对应选择最优链路、选择常规链路和最差的链路。
所述链路质量排名模块具体如下:
对链路质量进行排名,MPTCP发送端使用PDAA3C算法,结合空余带宽
Figure BDA0003922652760000101
吞吐量
Figure BDA0003922652760000102
往返时延
Figure BDA0003922652760000103
拥塞窗口
Figure BDA0003922652760000104
和丢包率
Figure BDA0003922652760000105
对链路状态进行评判,链路状态通过Q值反映,Q值越大,链路状态越好;
所述Q值的计算公式如下:
Figure BDA0003922652760000106
其中,γ的值为0.7,η的值为0.3,α的值为1000;
按照步骤S21中Q计算标准对链路的状态进行评估,依据MPTCP接收端返回的结果对链路的状态进行实时评估。
所述最优调度模块具体如下:
在每一次数据包传输时,Reward模块中
Figure BDA0003922652760000107
其中U(i,t)为Action模块做出的决策评价结果;
将所述决策评价结果返回给PDAA3C算法中的智能体,使智能体下次提升选取最优路径的概率,同时通过计算链路状态Q值,反应当前链路的状态优劣。
本发明结合了深度强化学习的多路径协作传输协议数据调度算法,算法通过数据训练对每条链路的空余带宽、吞吐量、往返时延、拥塞窗口、当前链路的数据包数量和丢包率进行实时监测,对每条路径的链路资源进行判断并决定对下次数据包在哪条链路上传输进行管理,有效提升链路的总吞吐量并保证链路间的公平性;本发明提出的多路径协作传输数据调度算法PDAA3C相比于传统轮询算法和RLDS人工智能算法,在相同的丢包率和数据包大小情况下,吞吐量分别提升了49.6%和8.6%。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (9)

1.基于PDAA3C的多路径调度算法,其特征在于,包括如下步骤:
S1,数据包分发:
利用MPTCP服务器同时向已建立的链路分发数据包,将数据包传送到MPTCP客户端,并获得每个链路的当前状态;
S2,链路质量排名:
结合子流质量评价标准和链路的当前状态对所有子流的质量进行排序;
S3,最优调度:
将数据包分配到最优的子流,并获得每个子流的当前状态。
2.根据权利要求1所述的基于PDAA3C的多路径调度算法,其特征在于,步骤S1包括如下步骤:
S11,在数据传输的过程中,设定每个数据包的大小为固定值α,MPTCP发送端发送数据给MPTCP接收端,MPTCP接收端返回当前链路的空余带宽
Figure FDA0003922652750000011
吞吐量
Figure FDA0003922652750000012
往返时延
Figure FDA0003922652750000013
拥塞窗口
Figure FDA0003922652750000014
当前链路的数据包数量
Figure FDA0003922652750000015
和丢包率
Figure FDA0003922652750000016
其中,i为子流编号,t为时间戳,时间戳t从0开始且间隔为0.1s;
S12,采用Action模块进行数据包分发的决策:在每一次数据传输的过程中,输入Q值,并输出对应动作,即选择一条链路来分配数据包;
其中,Action模块内设有三个值,分别为正值、负值和零,分别对应选择最优链路、选择常规链路和最差的链路。
3.根据权利要求2所述的基于PDAA3C的多路径调度算法,其特征在于,步骤S2包括如下步骤:
S21,对链路质量进行排名,MPTCP发送端使用PDAA3C算法,结合空余带宽
Figure FDA0003922652750000017
吞吐量
Figure FDA0003922652750000018
往返时延
Figure FDA0003922652750000019
拥塞窗口
Figure FDA00039226527500000110
和丢包率
Figure FDA00039226527500000111
对链路状态进行评判,链路状态通过Q值反映,Q值越大,链路状态越好;
所述Q值的计算公式如下:
Figure FDA0003922652750000021
其中,γ的值为0.7,η的值为0.3,α的值为1000;
S22,按照步骤S21中Q计算标准对链路的状态进行评估,依据MPTCP接收端返回的结果对链路的状态进行实时评估。
4.根据权利要求3所述的基于PDAA3C的多路径调度算法,其特征在于,还包括如下步骤:
在步骤S1进行前,使用Reward模块对Action模块做出的决策进行评价。
5.根据权利要求4所述的基于PDAA3C的多路径调度算法,其特征在于,步骤S3包括如下步骤:
S31,在每一次数据包传输时,Reward模块中
Figure FDA0003922652750000022
其中U(i,t)为Action模块做出的决策评价结果;
S32,将所述决策评价结果返回给PDAA3C算法中的智能体,使智能体下次提升选取最优路径的概率,同时通过计算链路状态Q值,反应当前链路的状态优劣。
6.基于PDAA3C的多路径调度系统,用于实现权利要求1-5任一项所述的基于PDAA3C的多路径调度算法,其特征在于,所述基于PDAA3C的多路径调度系统包括:
数据包分发模块,用于利用MPTCP服务器同时向已建立的链路分发数据包,将数据包传送到MPTCP客户端,并获得每个链路的当前状态;
链路质量排名模块,用于结合子流质量评价标准和链路的当前状态对所有子流的质量进行排序;
最优调度模块,用于将数据包分配到最优的子流,并获得每个子流的当前状态;
所述数据包分发模块包括:
STATE模块,用于在每一次数据包进行传输后,记录当前各链路状态;所述当前各链路状态包括当前链路的空余带宽
Figure FDA0003922652750000031
吞吐量
Figure FDA0003922652750000032
往返时延
Figure FDA0003922652750000033
拥塞窗口
Figure FDA0003922652750000034
当前链路的数据包数量
Figure FDA0003922652750000035
和丢包率
Figure FDA0003922652750000036
Action模块,用于在每一次数据包分发时,根据Reward模块返回的rt输出对应动作,即选择一条链路来分配数据包;
所述最优调度模块包括:
Reward模块,用于在每一次数据包分发结束后,根据当前链路状态,对Action模块做出的决策进行评价,生成rt
7.根据权利要求6所述的基于PDAA3C的多路径调度系统,其特征在于,所述数据包分发模块具体如下:
在数据传输的过程中,设定每个数据包的大小为固定值α,MPTCP发送端发送数据给MPTCP接收端,MPTCP接收端返回当前链路的空余带宽
Figure FDA0003922652750000037
吞吐量
Figure FDA0003922652750000038
往返时延
Figure FDA0003922652750000039
拥塞窗口
Figure FDA00039226527500000310
当前链路的数据包数量
Figure FDA00039226527500000311
和丢包率
Figure FDA00039226527500000312
其中,i为子流编号,t为时间戳,时间戳t从0开始且间隔为0.1s;
采用Action模块进行数据包分发的决策:在每一次数据传输的过程中,输入Q值,并输出对应动作,即选择一条链路来分配数据包;
其中,Action模块内设有三个值,分别为正值、负值和零,分别对应选择最优链路、选择常规链路和最差的链路。
8.根据权利要求6所述的基于PDAA3C的多路径调度系统,其特征在于,所述链路质量排名模块具体如下:
对链路质量进行排名,MPTCP发送端使用PDAA3C算法,结合空余带宽
Figure FDA00039226527500000313
吞吐量
Figure FDA00039226527500000314
往返时延
Figure FDA00039226527500000315
拥塞窗口
Figure FDA00039226527500000316
和丢包率
Figure FDA00039226527500000317
对链路状态进行评判,链路状态通过Q值反映,Q值越大,链路状态越好;
所述Q值的计算公式如下:
Figure FDA00039226527500000318
其中,γ的值为0.7,η的值为0.3,α的值为1000;
按照步骤S21中Q计算标准对链路的状态进行评估,依据MPTCP接收端返回的结果对链路的状态进行实时评估。
9.根据权利要求6所述的基于PDAA3C的多路径调度系统,其特征在于,所述最优调度模块具体如下:
在每一次数据包传输时,Reward模块中
Figure FDA0003922652750000041
其中U(i,t)为Action模块做出的决策评价结果;
将所述决策评价结果返回给PDAA3C算法中的智能体,使智能体下次提升选取最优路径的概率,同时通过计算链路状态Q值,反应当前链路的状态优劣。
CN202211362893.5A 2022-11-02 2022-11-02 基于pdaa3c的多路径调度算法及系统 Pending CN115914112A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211362893.5A CN115914112A (zh) 2022-11-02 2022-11-02 基于pdaa3c的多路径调度算法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211362893.5A CN115914112A (zh) 2022-11-02 2022-11-02 基于pdaa3c的多路径调度算法及系统

Publications (1)

Publication Number Publication Date
CN115914112A true CN115914112A (zh) 2023-04-04

Family

ID=86473554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211362893.5A Pending CN115914112A (zh) 2022-11-02 2022-11-02 基于pdaa3c的多路径调度算法及系统

Country Status (1)

Country Link
CN (1) CN115914112A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116760777A (zh) * 2023-08-22 2023-09-15 无锡车联天下信息技术有限公司 一种基于abea3c的多路径拥塞控制方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116760777A (zh) * 2023-08-22 2023-09-15 无锡车联天下信息技术有限公司 一种基于abea3c的多路径拥塞控制方法
CN116760777B (zh) * 2023-08-22 2023-10-20 无锡车联天下信息技术有限公司 一种基于abea3c的多路径拥塞控制方法

Similar Documents

Publication Publication Date Title
Bonald et al. Statistical performance guarantees for streaming flows using expedited forwarding
CN114285758B (zh) 基于opnet的通信网络优化仿真系统、方法和装置
CN109614215A (zh) 基于深度强化学习的流调度方法、装置、设备及介质
Liu Intelligent routing based on deep reinforcement learning in software-defined data-center networks
CN114884895A (zh) 一种基于深度强化学习的智能流量调度方法
CN104092625A (zh) 一种用于dcn中的自适应请求分批调度方法
CN115914112A (zh) 基于pdaa3c的多路径调度算法及系统
CN116708598A (zh) 用于实时网络传输的系统及方法
CN114760644A (zh) 基于深度强化学习的多链路传输智能报文调度方法
CN113472843B (zh) 一种基于贪婪算法的MQTT协议QoS机制选择方法
CN114448899A (zh) 一种均衡数据中心网络负载的方法
CN110324255B (zh) 一种面向数据中心网络编码的交换机/路由器缓存队列管理方法
CN117118855A (zh) 一种基于机器学习优先级预测的数据链spma接入方法
Han et al. MARS: an adaptive multi-agent DRL-based scheduler for multipath QUIC in dynamic networks
CN102497325B (zh) 基于可靠信息分发的容延容断网络路由方法
Tan et al. QoE-driven DASH multicast scheme for 5G mobile edge network
CN112261690B (zh) 卫星网络约束多路径路由设定方法、电子设备及存储介质
WO2021193174A1 (en) Ng-ran based proactive performance calculations
Liu SVC video transmission optimization algorithm in software defined network
Wang et al. A fair scheduling algorithm with adaptive compensation in wireless networks
CN116760777B (zh) 一种基于abea3c的多路径拥塞控制方法
WO2018127062A1 (zh) 一种链路调整方法、服务器及存储介质
Pakulova et al. Simulation of priority multi-path data transmission in the AnyLogic environment
Nichols Improving Network Simulation with Feedback
Zuo et al. An elephant flows scheduling method based on feedforward neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination