CN109547505A - 基于强化学习的多径tcp传输调度方法 - Google Patents

基于强化学习的多径tcp传输调度方法 Download PDF

Info

Publication number
CN109547505A
CN109547505A CN201910077608.7A CN201910077608A CN109547505A CN 109547505 A CN109547505 A CN 109547505A CN 201910077608 A CN201910077608 A CN 201910077608A CN 109547505 A CN109547505 A CN 109547505A
Authority
CN
China
Prior art keywords
intensified learning
learning model
transmission
multipath tcp
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910077608.7A
Other languages
English (en)
Other versions
CN109547505B (zh
Inventor
张栋
何斌杰
周政演
朱丹红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201910077608.7A priority Critical patent/CN109547505B/zh
Publication of CN109547505A publication Critical patent/CN109547505A/zh
Application granted granted Critical
Publication of CN109547505B publication Critical patent/CN109547505B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/16Implementation or adaptation of Internet protocol [IP], of transmission control protocol [TCP] or of user datagram protocol [UDP]
    • H04L69/163In-band adaptation of TCP data exchange; In-band control procedures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0847Transmission error
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0852Delays
    • H04L43/0864Round trip delays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • H04L43/0888Throughput
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Security & Cryptography (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于强化学习的多径TCP传输调度方法。该方法研究多径TCP传输调度机制的特点,采用建立强化学习模型、训练模型、部署模型的方式对多径TCP传输调度进行控制,在训练完成的强化学习模型部署在发送端主机之后,能够准确的预测和调度传输中需要预留的数据包数目N。本发明相对传统的多径TCP调度方法,能够更加准确的预测传输调度中需要预留的数据包数目N,并且时间开销相对更小,多径TCP传输的数据包乱序度更低。

Description

基于强化学习的多径TCP传输调度方法
技术领域
本发明涉及一种基于强化学习的多径TCP传输调度方法。
背景技术
随着网络的不断发展,人们对网络传输的要求和期望越来越高,因此近年来涌现了一批新的协议用于网络的多径传输,以提高网络传输的效能。多径TCP协议就是一种基于TCP协议的多径网络传输协议,它的目的是能在保证TCP传输的有序性情况下,利用多径传输加快TCP传输的速率。多径TCP协议会为一个TCP传输请求产生多条子TCP连接用于传输TCP数据流,然而要使得数据包能够通过所有子TCP连接进行传输并能够保证在接收终端不产生大量数据包乱序,则要对多径TCP传输时的数据包调度进行控制。主要是考虑到各条子链路的传输条件,合理分配TCP数据包进行传输,保证在不同链路上传输的数据包在接收终端按序到达。
现有较为常用的FPS、F2P-DPS、OCPS三种多径TCP调度算法,其中OCPS是对前两种算法种存在对不足进行改进。FPS,提出根据每一轮数据的往返的RTT和排队时延情况,预测数据包到达的序号情况,从而来调度TCP子流的发送队列。F2P-DPS则在FPS的基础上增加考虑了链路的丢包情况,使得该调度策略更适合于无线传输网络。OCPS认为FPS和F2P-DPS都只是单纯的预测算法,在实际中链路传输还存在许多不确定因素会导致链路传输质量的变动,为了防止多轮调度后的误差累计,提出使用子流级别的TCP选择性应答(SelectiveAcknowledgement,SACK)判断当前接收端乱序情况。发送端可以根据TCP SACK来判断,上一轮调度预留给其他子流数据包是过多还是过少,再通过类似TCP慢启动的方式产生一个修正因子,对下一轮调度进行修正。OCPS在FPS和F2P-DPS的基础上,进一步增加了调度预测的准确和可靠性。然而,OCPS采用了类似TCP慢启动的方式产生修正因子,这样就导致要经过若干轮之后修正因子才可能达到比较合理的值,而这需要消耗一定时间,才能够使得多径TCP传输的吞吐率和乱序度达到一个稳定的、相对较优的值。因此我们在OCPS的基础上提出了一种基于强化学习的多径TCP调度方法,能够在相对较短时间内能够使得多径TCP的吞吐率和乱序度达到一个稳定的、相对较优的值。
发明内容
本发明的目的在于提供一种基于强化学习的多径TCP传输调度方法,该方法能够更加准确的预测传输调度中需要预留的数据包数目N,并且时间开销相对更小,多径TCP传输的数据包乱序度更低。
为实现上述目的,本发明的技术方案是:一种基于强化学习的多径TCP传输调度方法,包括构建强化学习模型阶段、训练强化学习模型阶段、部署强化学习模型阶段;构建强化学习模型阶段,需要根据强化学习基础模型和多径TCP传输调度环境的需求确定四要素:智能体、环境状态、行动、奖励;训练强化学习模型阶段,将强化学习模型部署至多径TCP运行环境中,具体即将强化学习模型部署在通信的发送端主机的多径TCP层上,使用强化学习训练算法对强化学习模型进行训练;部署强化学习模型阶段,按照训练强化学习模型阶段的部署的方案进行部署;该方法具体包括如下步骤:
步骤S1、确定在多径TCP传输调度环境下强化学习模型的目标;
步骤S2、确定强化学习模型中智能体的组成部分;
步骤S3、确定强化学习模型中的环境状态、行动、奖励,以及相关计算反馈公式;
步骤S4、将强化学习模型部署至通信的发送端主机的多径TCP层上,使用强化学习训练算法进行训练;
步骤S5、根据实际拓扑,将训练完成的强化学习模型部署至多径TCP的发送终端实际运行。
在本发明一实施例中,多径TCP传输由多条多径TCP子流组成,在传输调度中传输调度策略需要根据传输情况识别需要预留的数据包传输量N,因此,强化学习模型的目标就是使得N值尽量合理,合理性的评价标准为多径TCP传输的吞吐量和包乱序度。
在本发明一实施例中,步骤S2中,所述强化学习模型中智能体的组成部分,包括:1)状态感知器I,用于从环境W收集当前环境状态信息s;其中,环境W,即多径TCP传输终端;s由SACK包和RTT时延信息构成,因此,即环境状态信息s可由(SACK,RTT)的二维数组表示,为了便于矩阵表示,把SACK包返回的目标TCP子流和连续SACK包数量作为组合量化,由编号1开始,具体编号数量q由组合的类别数决定,RTT以1ms的精度表示,并向下取整,RTT编号数量p由RTT的类别数决定;2)学习器L,其为三维矩阵M,x维、y维分别表示SACK和RTT组成状态分量,z维表示可能的行动被选中概率,即可能的N值被选中的概率,z维度行动的数值即为N值,N为大于0的正整数,其数量k由训练网络中实际适用的N值类别数决定,因此矩阵M是一个q*p*k的矩阵;3)动作选择器P,其根据当前环境状态信息s,查询矩阵M,选择出对应的行动。
在本发明一实施例中,所述SACK包是当接收终端发生乱序接收时,返回给发送终端的响应包,通过观察SACK包返回的目标TCP子流和连续返回的SACK包数量可以判断传输乱序情况和预留数据包传输量N值是偏大还是偏小;RTT反映了各TCP子流的链路质量情况。
在本发明一实施例中,所述步骤S3的具体实现方式如下:
对于环境W,每当接受一个行动,就会产生一个新的环境状态信息s',并返回一个奖励r,r决定了如何对智能体的学习器L中的三维矩阵M中的行动概率进行调整,即对N值被选中概率进行调整,使得N值的选择在每一种状态下逐渐趋向合理;r的奖励函数由公式(1)定义:
式中,Mb代表在当前环境状态信息下以往最佳的数据包乱序度,Mp代表当前行动ap所产生的数据包乱序度,以10%作为调整比例;因此,当Mp大于Mb时,奖励r是负数,相当于惩罚机制;当Mp小于Mb,奖励r是正数,相当于奖励机制;
r作用于学习器L的方式由公式(2)表示:
式中,V[x,y,z]表示一状态下对应的一动作的选中概率值,SACKp,RTTp,ap表示当前的状态和行动,aother表示除当前行动外的行动,一共有n个;当学习器L得到r值,首先学习器L会对当前的动作的选中概率作出程度为r的调整,然后对其余状态都作出程度为的调整。
在本发明一实施例中,步骤S4中,强化学习模型的部署,是在NS-3网络实验平台上对强化学习模型进行部署,包括多径TCP协议代码,将强化学习模型部署在发送终端主机的多径TCP协议层进行训练,强化学习训练算法则根据公式(1)、公式(2)进行设定;训练的收敛原则为强化学习模型为多径TCP传输做出的调度使得多径TCP传输的吞吐率和包乱序度稳定在根据需求而预先设定的数值。
相较于现有技术,本发明具有以下有益效果:本发明方法是对传统多径TCP调度方法进行改进,相较传统算法,本发明能够更加准确的预测多径TCP传输调度中需要预留的数据包数量,并且能够在较短的时间内完成合理的调度。
附图说明
图1为本发明图1基于强化学习的多径TCP传输调度方法流程图。
图2为强化学习模型训练算法具体实现代码。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
如图1所示,本发明提供了一种基于强化学习的多径TCP传输调度方法,该方法由构建强化学习模型、训练强化学习模型、部署强化学习模型组成;在构建强化学习模型部分,需要根据强化学习基础模型和多径TCP场景的需求确定四要素:智能体(Agent)、环境状态(Environmental State)、行动(Action)、奖励(Reward);训练强化学习模型部分,需要将模型部署至多径TCP运行环境中,具体是将模型部署在通信的发送端主机的多径TCP层上,使用强化学习训练算法对模型进行训练;部署强化学习模型部分,按照训练模型时的部署的方案进行部署。具体包括如下步骤:
1、确定在多径TCP传输调度的环境下强化学习的目标:多径TCP传输由多条多径TCP子流组成,在传输调度中为了同时保证数据包的有序性和高效利用多径传输资源,传输调度策略需要根据传输情况识别需要预留的数据包传输量N,根据这一现象,多径TCP强化学习模型的目标就是使得N值尽量合理,合理性的评价标准为多径TCP传输的吞吐量和包乱序度。
2、确定强化学习模型中智能体的主要组成部分:在多径TCP强化学习模型中的智能体包括三个组成部分,1)状态感知器I,它会从环境W(即多径TCP传输终端)收集当前环境状态信息s,s由SACK包和RTT时延信息构成;SACK包是当接收终端发生乱序接收时,返回给发送终端的响应包,通过观察SACK包返回的目标TCP子流和连续返回的SACK包数量可以判断传输乱序情况和预留数据包传输量N值是偏大还是偏小;RTT反映了各TCP子流的链路质量情况;因此当前状态s可由(SACK,RTT)的二维数组表示,为了便于矩阵表示,把SACK包返回的目标TCP子流和连续SACK包数量作为组合量化,由编号1开始,具体编号数量q由组合的类别数决定,RTT以1ms的精度表示(比如:1.4ms则记为1,2.5ms则记为2),RTT编号数量p由RTT的类别数决定。2)学习器L,它是一个三维矩阵M,x维、y维分别表示SACK和RTT组成状态分量,z维表示可能的行动(Action)的被选中概率,即可能的N值被选中的概率,z维度行动的数值即为N值,N是一个大于0的正整数,其数量k由训练网络中实际适用的N值类别数决定,因此矩阵M是一个q*p*k的矩阵。3)动作选择器P,它会根据当前状态信息s,查询矩阵M,选择出对应的行动(Action)。
3、强化学习模型中的环境状态、行动、奖励,以及相关计算反馈公式的确定:对于环境W,每当接受一个行动(Action),就会产生一个新的环境状态信息s',并返回一个奖励r,r决定了如何对智能体的学习器L中的三维矩阵M中的行动概率进行调整,即对N值被选中概率进行调整,使得N值的选择在每一种状态下逐渐趋向合理。r的奖励函数由公式(1)定义,Mb代表在当前环境状态信息下以往最佳的数据包乱序度(best ofMess),Mp代表当前行动ap所产生的数据包乱序度,以10%作为调整比例。因此,当Mp大于Mb时,奖励r是负数,相当于惩罚机制。当Mp小于Mb,奖励r是正数,相当于奖励机制。r作用于学习器L的方式由公式(2)表示,V[x,y,z]表示某状态下对应的某动作的选中概率值,SACKp,RTTp,ap表示当前的状态和行动,aother除当前行动外的其他行动,一共有n个。当学习器L得到r值首先它会对当前的动作的选中概率作出程度为r的调整,然后对其他状态都作出程度为的调整。
4、将强化学习模型部署至发送终端主机并使用训练算法进行训练:在NS-3网络实验平台上对强化学习模型进行部署,其中包含了多径TCP协议代码,将模型部署在发送终端主机的多径TCP协议层进行训练,训练算法则根据公式(1)、公式(2)的原则进行设定,请参照图2。训练的收敛原则为强化学习模型为多径TCP传输做出的调度使得多径TCP传输的吞吐率和包乱序度稳定在根据用户需求而预先设定的数值(吞吐率、包乱序度可由多径TCP传输终端测得)。
5、将训练好的强化学习模型部署至主机终端进行实际运行:训练好的强化学习模型,可以根据实际拓扑情况,部署至任意基于多径TCP协议的网络中。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (7)

1.一种基于强化学习的多径TCP传输调度方法,其特征在于,包括构建强化学习模型阶段、训练强化学习模型阶段、部署强化学习模型阶段;构建强化学习模型阶段,需要根据强化学习基础模型和多径TCP传输调度环境的需求确定四要素:智能体、环境状态、行动、奖励;训练强化学习模型阶段,将强化学习模型部署至多径TCP运行环境中,具体即将强化学习模型部署在通信的发送端主机的多径TCP层上,使用强化学习训练算法对强化学习模型进行训练;部署强化学习模型阶段,按照训练强化学习模型阶段的部署的方案进行部署。
2.根据权利要求1所述的基于强化学习的多径TCP传输调度方法,其特征在于,该方法具体包括如下步骤:
步骤S1、确定在多径TCP传输调度环境下强化学习模型的目标;
步骤S2、确定强化学习模型中智能体的组成部分;
步骤S3、确定强化学习模型中的环境状态、行动、奖励,以及相关计算反馈公式;
步骤S4、将强化学习模型部署至通信的发送端主机的多径TCP层上,使用强化学习训练算法进行训练;
步骤S5、根据实际拓扑,将训练完成的强化学习模型部署至多径TCP的发送终端实际运行。
3.根据权利要求2所述的基于强化学习的多径TCP传输调度方法,其特征在于,步骤S1中,多径TCP传输由多条多径TCP子流组成,在传输调度中传输调度策略需要根据传输情况识别需要预留的数据包传输量N,因此,强化学习模型的目标就是使得N值尽量合理,合理性的评价标准为多径TCP传输的吞吐量和包乱序度。
4.根据权利要求2所述的基于强化学习的多径TCP传输调度方法,其特征在于,步骤S2中,所述强化学习模型中智能体的组成部分,包括:1)状态感知器I,用于从环境W收集当前环境状态信息s;其中,环境W,即多径TCP传输终端;s由SACK包和RTT时延信息构成,因此,即环境状态信息s可由(SACK,RTT)的二维数组表示,为了便于矩阵表示,把SACK包返回的目标TCP子流和连续SACK包数量作为组合量化,由编号1开始,具体编号数量q由组合的类别数决定,RTT以1ms的精度表示,并向下取整,RTT编号数量p由RTT的类别数决定;2)学习器L,其为三维矩阵M,x维、y维分别表示SACK和RTT组成状态分量,z维表示可能的行动被选中概率,即可能的N值被选中的概率,z维度行动的数值即为N值,N为大于0的正整数,其数量k由训练网络中实际适用的N值类别数决定,因此矩阵M是一个q*p*k的矩阵;3)动作选择器P,其根据当前环境状态信息s,查询矩阵M,选择出对应的行动。
5.根据权利要求4所述的基于强化学习的多径TCP传输调度方法,其特征在于,所述SACK包是当接收终端发生乱序接收时,返回给发送终端的响应包,通过观察SACK包返回的目标TCP子流和连续返回的SACK包数量可以判断传输乱序情况和预留数据包传输量N值是偏大还是偏小;RTT反映了各TCP子流的链路质量情况。
6.根据权利要求4所述的基于强化学习的多径TCP传输调度方法,其特征在于,所述步骤S3的具体实现方式如下:
对于环境W,每当接受一个行动,就会产生一个新的环境状态信息s',并返回一个奖励r,r决定了如何对智能体的学习器L中的三维矩阵M中的行动概率进行调整,即对N值被选中概率进行调整,使得N值的选择在每一种状态下逐渐趋向合理;r的奖励函数由公式(1)定义:
式中,Mb代表在当前环境状态信息下以往最佳的数据包乱序度,Mp代表当前行动ap所产生的数据包乱序度,以10%作为调整比例;因此,当Mp大于Mb时,奖励r是负数,相当于惩罚机制;当Mp小于Mb,奖励r是正数,相当于奖励机制;
r作用于学习器L的方式由公式(2)表示:
式中,V[x,y,z]表示一状态下对应的一动作的选中概率值,SACKp,RTTp,ap表示当前的状态和行动,aother表示除当前行动外的行动,一共有n个;当学习器L得到r值,首先学习器L会对当前的动作的选中概率作出程度为r的调整,然后对其余状态都作出程度为的调整。
7.根据权利要求6所述的基于强化学习的多径TCP传输调度方法,其特征在于,步骤S4中,强化学习模型的部署,是在NS-3网络实验平台上对强化学习模型进行部署,包括多径TCP协议代码,将强化学习模型部署在发送终端主机的多径TCP协议层进行训练,强化学习训练算法则根据公式(1)、公式(2)进行设定;训练的收敛原则为强化学习模型为多径TCP传输做出的调度使得多径TCP传输的吞吐率和包乱序度稳定在根据需求而预先设定的数值。
CN201910077608.7A 2019-01-26 2019-01-26 基于强化学习的多径tcp传输调度方法 Expired - Fee Related CN109547505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910077608.7A CN109547505B (zh) 2019-01-26 2019-01-26 基于强化学习的多径tcp传输调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910077608.7A CN109547505B (zh) 2019-01-26 2019-01-26 基于强化学习的多径tcp传输调度方法

Publications (2)

Publication Number Publication Date
CN109547505A true CN109547505A (zh) 2019-03-29
CN109547505B CN109547505B (zh) 2021-05-18

Family

ID=65838469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910077608.7A Expired - Fee Related CN109547505B (zh) 2019-01-26 2019-01-26 基于强化学习的多径tcp传输调度方法

Country Status (1)

Country Link
CN (1) CN109547505B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112600759A (zh) * 2020-12-10 2021-04-02 东北大学 基于深度强化学习在Overlay网络下多路径流量调度方法及系统
CN115379469A (zh) * 2022-08-12 2022-11-22 江苏省电力试验研究院有限公司 一种基于机器学习的多接入异构网络mptcp子流调度方法
CN115826013A (zh) * 2023-02-15 2023-03-21 广东工业大学 基于轻量化强化学习的城市多径环境下北斗卫星定位方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100602920B1 (ko) * 2005-12-15 2006-07-24 주식회사 정보보호기술 컴퓨터 네트워크상에서 악성 봇과 웜의 탐지에 이용되는탐지척도의 자동 선정 방법
CN101925125A (zh) * 2010-04-23 2010-12-22 清华大学 一种与移动ip结合的具有移动性的多路径tcp的方法
CN102761470A (zh) * 2011-04-29 2012-10-31 清华大学 一种多径tcp传输协议报文调度方法
CN105094124A (zh) * 2014-05-21 2015-11-25 防灾科技学院 基于操作条件反射进行自主路径探索的方法及模型
CN106657362A (zh) * 2016-12-30 2017-05-10 清华大学 一种新型虚拟多径tcp的终端内容调度方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107171842A (zh) * 2017-05-22 2017-09-15 南京大学 基于强化学习的多路径传输协议拥塞控制方法
CN109255443A (zh) * 2018-08-07 2019-01-22 阿里巴巴集团控股有限公司 训练深度强化学习模型的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100602920B1 (ko) * 2005-12-15 2006-07-24 주식회사 정보보호기술 컴퓨터 네트워크상에서 악성 봇과 웜의 탐지에 이용되는탐지척도의 자동 선정 방법
CN101925125A (zh) * 2010-04-23 2010-12-22 清华大学 一种与移动ip结合的具有移动性的多路径tcp的方法
CN102761470A (zh) * 2011-04-29 2012-10-31 清华大学 一种多径tcp传输协议报文调度方法
CN105094124A (zh) * 2014-05-21 2015-11-25 防灾科技学院 基于操作条件反射进行自主路径探索的方法及模型
CN106657362A (zh) * 2016-12-30 2017-05-10 清华大学 一种新型虚拟多径tcp的终端内容调度方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107171842A (zh) * 2017-05-22 2017-09-15 南京大学 基于强化学习的多路径传输协议拥塞控制方法
CN109255443A (zh) * 2018-08-07 2019-01-22 阿里巴巴集团控股有限公司 训练深度强化学习模型的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张智卫等: "多路径TCP协议性能分析", 《广西通信技术》 *
柴毅等: "基于后悔值的多蚁协作关联强化学习模型", 《系统工程》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112600759A (zh) * 2020-12-10 2021-04-02 东北大学 基于深度强化学习在Overlay网络下多路径流量调度方法及系统
CN112600759B (zh) * 2020-12-10 2022-06-03 东北大学 基于深度强化学习在Overlay网络下多路径流量调度方法及系统
CN115379469A (zh) * 2022-08-12 2022-11-22 江苏省电力试验研究院有限公司 一种基于机器学习的多接入异构网络mptcp子流调度方法
CN115379469B (zh) * 2022-08-12 2023-11-28 江苏省电力试验研究院有限公司 一种基于机器学习的多接入异构网络mptcp子流调度方法
CN115826013A (zh) * 2023-02-15 2023-03-21 广东工业大学 基于轻量化强化学习的城市多径环境下北斗卫星定位方法
CN115826013B (zh) * 2023-02-15 2023-04-21 广东工业大学 基于轻量化强化学习的城市多径环境下北斗卫星定位方法

Also Published As

Publication number Publication date
CN109547505B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN109547505A (zh) 基于强化学习的多径tcp传输调度方法
CN105915466B (zh) 一种mptcp路径选择的方法及装置
Wang et al. A hierarchical auction-based mechanism for real-time resource allocation in cloud robotic systems
CN104185298B (zh) 基于优先级的网络负载动态自适应参数调整方法
CN109862610A (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
Ghazvini et al. Game theory applications in CSMA methods
CN111867139A (zh) 基于q学习的深度神经网络自适应退避策略实现方法及系统
CN109195135A (zh) Lte-v中基于深度强化学习的基站选择方法
CN104023408B (zh) 调度器及其基于网络多路径并行传输的数据调度方法
CN109587519A (zh) 基于q学习的异构网络多径视频传输控制系统及方法
CN109104373A (zh) 网络拥塞的处理方法、装置及系统
CN107566275A (zh) 数据中心网络中基于延时差异性的多路径传输方法
CN106209618A (zh) 一种提高智能配用电能效的通信混合组网方法及系统
CN109617710A (zh) 数据中心间有截止时间约束的大数据传输带宽调度方法
CN111586809B (zh) 一种基于sdn的异构无线网络接入选择方法及系统
CN106656795A (zh) 一种无线传感器执行器网络分簇路由选择方法
CN108981807A (zh) 一种土木工程建筑智能监测系统
CN116471629A (zh) 一种基于深度强化学习的物联网智能拥塞控制方法
Du et al. Virtual relay selection in LTE-V: A deep reinforcement learning approach to heterogeneous data
Sarlak et al. Diversity maximized scheduling in roadside units for traffic monitoring applications
CN110191480A (zh) 具有移动Sink节点的三维无线传感网数据收集方法
CN115914112A (zh) 基于pdaa3c的多路径调度算法及系统
CN103582136A (zh) 在使用多信道的无线传感器网络中高效分配信道的方法
CN110209487A (zh) 基于遗传算法的isar资源调度方法
Huang et al. Objective-oriented resource pooling in MPTCP: A deep reinforcement learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210518

Termination date: 20220126