CN113746757A - 一种基于业务类别的多链路传输智能报文调度方法 - Google Patents

一种基于业务类别的多链路传输智能报文调度方法 Download PDF

Info

Publication number
CN113746757A
CN113746757A CN202110991338.8A CN202110991338A CN113746757A CN 113746757 A CN113746757 A CN 113746757A CN 202110991338 A CN202110991338 A CN 202110991338A CN 113746757 A CN113746757 A CN 113746757A
Authority
CN
China
Prior art keywords
neural network
network model
state
scheduling
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110991338.8A
Other languages
English (en)
Other versions
CN113746757B (zh
Inventor
章广梅
罗洋
马井泉
崔海逢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 7 Research Institute
Original Assignee
CETC 7 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 7 Research Institute filed Critical CETC 7 Research Institute
Priority to CN202110991338.8A priority Critical patent/CN113746757B/zh
Publication of CN113746757A publication Critical patent/CN113746757A/zh
Application granted granted Critical
Publication of CN113746757B publication Critical patent/CN113746757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/50Queue scheduling
    • H04L47/62Queue scheduling characterised by scheduling criteria
    • H04L47/6295Queue scheduling characterised by scheduling criteria using multiple queues, one for each individual QoS, connection, flow or priority
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Neurology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于业务类别的多链路传输智能报文调度方法,包括以下步骤:对发送方的网络流进行业务的传输性能需求类别判断;根据业务的传输性能需求的类别,确定优化目标;根据优化目标,从神经网络模型集合中选择策略神经网络模型;将MPTCP的数据包调度过程划分为数个调度周期,在每个调度周期,记录MPTCP调度器的数据包分配状态,同时记录数据包分配状态下的数据传输状态;将数据传输状态和数据包分配状态作为MPTCP调度器的环境状态,输入策略神经网络模型,基于策略梯度的强化学习方法实现多链路传输报文调度。

Description

一种基于业务类别的多链路传输智能报文调度方法
技术领域
本发明涉及网络通信技术领域,更具体的,涉及一种基于业务类别的多链路传输智能报文调度方法。
背景技术
目前,传统以TCP(Transmission Control Protocol,传输控制协议)为代表的单路径传输协议难以满足用户在传输效率及可靠性方面的要求。随着多种无线接入技术的发展,大多数移动终端都配置了4G/3G和WiFi接口,为实现基于多链路的数据传输提供了可能。近年来,IETF工作组提出了对传统TCP协议的扩展协议,多路径TCP(Multi-path TCP,MPTCP)。MPTCP将单个TCP的数据分流到多个不同的子流,允许每一条子流走不同的物理链路,从而形成多条路径。相较于传统TCP协议,MPTCP协议具有高吞吐量,高容忍度,高可靠性,高安全性等特点,既可以配置多个路径作为主力/备用链路增强会话的鲁棒性,又可以配置多个路径同时工作并行传输,提高整体吞吐量。
但是,目前的MPTCP协议还不够完善,在异构多链路网络环境下,由于不同链路在带宽、往返时延(Round-Trip Time,RTT)、丢包率等服务指标上存在较大的差异,使得MPTCP的传输效果并不理想,面临队头阻塞(HoL Blocking)、带宽利用率低下、应用延迟增高、吞吐量下降等诸多问题。
如中国专利公开号:CN110278149A,公开日:2019-09-24,公开了一种基于深度强化学习的多路径传输控制协议数据包调度方法,首先通过设置周期性的调度机制,将数据包调度过程转化为马尔可夫决策过程。然后,使用Actor-Critic模型对MPTCP数据包调度策略进行建模,通过深度强化学习学出各种网络环境下的最优数据包调度策略,以克服启发式MPTCP数据包调度方法无法适应复杂多样的动态网络环境的问题。
针对以上现有技术专利,首先,数据包调度的策略是针对所有业务和整体的网络环境,优化其总的吞吐量和总的平均往返时延,奖赏函数为所有子流的总吞吐量和调度周期中所有数据包的平均往返时延的组合,缺乏针对传输性能个性化需求的调度机制。因此,在业务传输性能需求存在显著差异、所使用的链路性能严重不对称且不断变化的情况下,数据包调度器难以训练,所获得的调度策略难以满足每项业务对服务质量的个性化需求。其次,基于对多个状态参数进行线性组合以获得奖励函数本质上属于多目标优化,如何调整其中各项系数之间的比例以获得最佳的优化效果仍是一个难题,并未给出明确的解决方案。
因此,如何为MPTCP制定合理的调度策略,特别是当应用层业务对服务质量需求不一致的时候,如何满足用户不同的服务质量需求、最优化网络资源利用率,成为网络通信领域一个具有挑战性的问题。
发明内容
本发明为了解决以上现有技术中存在不足的问题,提供了一种基于业务类别的多链路传输智能报文调度方法。
为实现上述本发明目的,采用的技术方案如下:
一种基于业务类别的多链路传输智能报文调度方法,所述的方法包括以下步骤:
S1:对发送方业务的传输性能需求类别判断;
S2:根据业务传输性能需求的类别,确定优化目标;
S3:根据优化目标,从神经网络模型集合中选择策略神经网络模型;
S4:将MPTCP的数据包调度过程划分为数个调度周期,在每个调度周期,记录MPTCP调度器的数据包分配状态,同时记录数据包分配状态下的数据传输状态;
S5:将数据传输状态、数据包分配状态作为MPTCP调度器的环境状态,并输入策略神经网络模型,进行基于策略梯度的强化学习方法,实现多链路传输报文调度。
优选地,所述业务的传输性能需求的类别包括吞吐量、往返时延、时延抖动、高丢包率、中丢包率、低丢包率中的一种或多种;
所述的优化目标包括单位时间内的吞吐量最大、单位时间内的往返时延最低、单位时间内的抖动次数最低、单位时间内的丢包率最低;
所述的数据传输状态包括:MPTCP子流在一个调度周期内的吞吐量、MPTCP子流的拥塞窗口大小。
进一步地,所述的策略神经网络模型为由多个全连接层构成的深度神经网络,根据不同的优化目标,选择不同的损失函数进行优化。
再进一步地,步骤S5中,所述基于策略梯度的强化学习方法,包括以下步骤:
S501:将数据包分配状态输入策略神经网络模型,根据策略神经网络模型输出的调度动作,得到下一调度周期调度器的分配比例,根据分配比例获取下一个调度周期的MPTCP调度器的数据包分配状态;
S502:根据两个调度周期不同数据包分配状态下的数据传输状态和优化目标,计算策略深度神经网络模型输出动作的奖励值;
S503:将每个调度周期的MPTCP调度器的数据包分配状态、对应该状态的策略神经网络模型的输出动作、以及用于评价该输出动作好坏的奖励值组合为一个训练样本,存放在网络训练经验池中;
S504:策略神经网络模型从网络训练经验池中抽样训练样本进行网络参数更新,训练时根据每个调度周期对应的策略神经网络模型的输出动作,制作相应的样本标签,然后根据奖励值定义损失函数,并根据损失函数进行策略神经网络模型的参数更新,从而更新策略神经网络模型的数据包调度策略;
S505:将更新后的策略神经网络模型用于多链路传输报文调度,同时将更新后的策略神经网络模型加入神经网络模型集合,等待下一个调度周期进行调度使用。
再进一步地,步骤S501中,所述的MPTCP调度器的数据包分配状态为调度器每一轮次分配到各个MPTCP子流的数据包个数,具体表示为[x1,x2,...,xi4...xN],并设定限制条件为:
Figure BDA0003232421810000031
其中,xi表示每一轮数据包分配向第i条链路的数据包数,i=1、2、3、4、...、N;N为多链路传输的链路数量。
再进一步地,步骤S501,所述的策略神经网络模型输出的调度动作为改变调度器分配状态的分配操作,写成动作列表的形式为:
Actions=([-1,+1,0,0…],[+1,-1,0,0…],[-1,0,+1,0…],[+1,0,-1,0…],…) (2)
具体的,策略神经网络模型的输出为动作列表的下标,每个下标对应一个分配操作,改变任意两条链路的分配状态;分配操作的定义为将一条链路分配的数据包数减1,另一条分配的数据包数加1,动作列表包括多链路传输中所有可能的分配操作;同时保障调度器分配状态根据策略神经网络模型输出的动作进行转移后,依然满足限制条件。
再进一步地,所述的样本标签具体表示为和动作列表相同尺寸的独热编码标签,根据策略神经网络模型的输出,将样本标签对应列表位置下标设置为1,其余设置为0。
再进一步地,步骤S504,所述的奖励值定义为:
Figure BDA0003232421810000041
其中,
Figure BDA0003232421810000042
表示不同优化目标下,训练样本当前调度器分配状态下所对应的数据传输状态,
Figure BDA0003232421810000043
表示训练样本中转移到的下一个调度器分配状态下的数据传输状态;
当策略神经网络模型输出动作使下一个数据包分配状态的数据传输状态优于当前数据包分配状态的数据传输状态时,R>0,表明输出为好动作,反之,R<0,表明输出为坏动作。
再进一步地,步骤S504,所述的损失函数为:
Loss=MSE(label-action)*R (4)
其中,label为对应样本标签;action为策略神经网络模型输出的动作;MSE为均方误差函数;R表示奖励值;
当策略神经网络模型输出的动作使得状态转移增大吞吐量时,模型参数将向靠近对应样本标签的方向更新,而当策略神经网络模型输出的action使得状态转移减小吞吐量时,模型参数将向远离对应样本标签的方向更新。
再进一步地,所述的网络训练经验池为一个存放训练样本的缓冲池;对训练样本的采集和策略神经网络模型的训练进行异步并发处理。
本发明的有益效果如下:
本发明根据业务的不同传输性能需求构建优化目标,解决对多个目标进行优化,难以平衡不同业务的需求,导致总传输效果不佳的问题,而且直接对目标进行优化,策略神经网络模型简单,降低了训练的难度和收敛时间。
附图说明
图1是实施例1所述的多链路传输智能报文调度方法的步骤流程图。
图2是实施例1所述的多链路传输智能报文调度方法及训练的流程框图。
图3是实施例1循环调度步骤的流程图。
图4是实施例1循环更新策略神经网络模型参数的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
如图1所示,一种基于业务类别的多链路传输智能报文调度方法,所述的方法包括以下步骤:
S1:对发送方的网络流进行业务的传输性能需求类别判断;
S2:根据业务传输性能需求的类别,确定优化目标;
S3:根据优化目标,从神经网络模型集合中选择策略神经网络模型;
S4:将MPTCP的数据包调度过程划分为数个调度周期,在每个调度周期,记录MPTCP调度器的数据包分配状态,同时记录数据包分配状态下的数据传输状态;
S5:将数据传输状态和数据包分配状态作为MPTCP调度器的环境状态,将环境状态输入策略神经网络模型,进行基于策略梯度的强化学习方法,实现多链路传输报文调度。
在一个具体的实施例中,所述业务的传输性能需求的类别包括吞吐量、往返时延、时延抖动、高丢包率、中丢包率、低丢包率中的一种或多种;
所述的优化目标包括单位时间内的吞吐量最大、单位时间内的往返时延最低、单位时间内的抖动次数最低、单位时间内的丢包率最低;
所述的数据传输状态包括:MPTCP子流在一个调度周期内的吞吐量、MPTCP子流的拥塞窗口大小。
在一个具体的实施例中,所述的策略神经网络模型为由多个全连接层构成的深度神经网络,根据不同的优化目标,选择不同的损失函数进行优化。
步骤S5中,如图2所示,所述基于策略梯度的强化学习方法,包括以下步骤:
S501:将数据包分配状态输入策略神经网络模型,根据策略神经网络模型输出的调度动作,得到下一调度周期调度器的分配比例,根据分配比例获得下一个调度周期的MPTCP调度器的数据包分配状态;
S502:根据两个调度周期不同数据包分配状态下的数据传输状态和优化目标,计算策略深度神经网络模型输出动作的奖励值;
S503:将每个调度周期的MPTCP调度器的数据包分配状态、对应该数据包分配状态的策略神经网络模型的输出动作,以及用于评价该输出动作好坏的奖励值组合为一个训练样本,存放在网络训练经验池中;
S504:策略神经网络模型从网络训练经验池中抽样训练样本进行网络参数更新,训练时根据每个调度周期对应的策略神经网络模型的输出动作,制作相应的样本标签,然后根据奖励值定义损失函数,并根据损失函数进行策略神经网络模型的参数更新,从而更新策略神经网络模型的数据包调度策略;
S505:将更新后的策略神经网络模型用于多链路传输报文调度,同时将更新后的策略神经网络模型加入神经网络模型集合,等待下一个调度周期进行调度时使用。
在一个具体的实施例中,步骤S501中,所述的MPTCP调度器的数据包分配状态为调度器每一轮次分配到各个MPTCP子流的数据包个数,如本实施例以4条链路的多链路数据传输为例,具体表示为[x1,x2,x3,x4],并设定限制条件为:
0<x1,x2,x3,x4<10,x1+x2+x3+x4=10 (1)
其中,xi表示每一轮数据包分配向第i条链路的数据包数,i=1、2、3、4。
在一个具体的实施例中,步骤S501,策略神经网络模型根据输入的状态,输出对应的调度动作,所述的策略神经网络模型输出的调度动作为改变调度器分配状态的分配操作,写成动作列表的形式为:
Actions=([-1,+1,0,0…],[+1,-1,0,0…],[-1,0,+1,0…],[+1,0,-1,0…],…) (2)
具体的,策略神经网络模型的输出为动作列表的下标,每个下标对应一个分配操作,改变任意两条链路的分配状态;分配操作的定义为将一条链路分配的数据包数减1,另一条分配的数据包数加1,动作列表包括多链路传输中所有可能的分配操作,如本实施例以4条链路的多链路数据传输为例,则共有12种可能操作;同时保障调度器分配状态根据策略神经网络模型输出的动作进行转移后,依然可以满足限制条件。
例如,输入比例为[2,2,3,3]对应的输出值在第0位概率值最大,代表动作列表中的[-1,+1,0,0],则调度器根据该动作将比例转移为[1,3,3,3]。转移之后若不符合对状态的限制要求,则需要随机选择一个符合限制要求的动作。
在一个具体的实施例中,所述的样本标签具体表示为和动作列表相同尺寸的独热编码标签,根据策略神经网络模型的输出,将样本标签对应列表位置下标设置为1,其余设置为0。
在一个具体的实施例中,调度器根据当前数据包分配状态和动作得到新的数据包分配比例,将新的数据包分配比例落实到网络环境中,并获取该比例状态下多路径传输的情况。多路径传输情况包括:各个子流在该比例下一个调度周期内的吞吐量、各个子流在该比例下的拥塞窗口大小。调度器根据前后数据包分配状态下的多路径传输情况来决定动作的奖励值。具体地,
步骤S504所述优化目标为吞吐量最大,所述的奖励值定义为:
Figure BDA0003232421810000071
其中,
Figure BDA0003232421810000072
表示不同优化目标下,训练样本当前调度器分配状态下所对应的数据传输状态,
Figure BDA0003232421810000073
表示训练样本中转移到的下一个调度器分配状态下的数据传输状态;
当策略神经网络模型输出动作使下一个数据包分配状态的数据传输状态优于当前数据包分配状态的数据传输状态时,R>0,表明输出为好动作,反之,R<0,表明输出为坏动作。
在一个具体的实施例中,所述的网络训练经验池为一个存放训练样本的缓冲池;对训练样本的采集和策略神经网络模型的训练进行异步并发处理。
如图3所示,在进行数据包调度之前,首先要设置调度周期,将一整个数据传输过程划分为连续的调度周期,具体设置调度周期为3s。之后建立MPTCP连接,开始多路径数据传输。在每个调度周期开始时,首先记录调度器当前的分配状态,并将其作为策略神经网络模型的输入。策略神经网络模型根据输入的状态,输出对应的调度动作,即用于改变调度器数据包分配比例的操作的对应下标。调度器根据输出的调度动作,改变当前的数据包分配比例,并向多路径网络环境执行该比例。在该调度周期结束时,调度器记录该轮调度的传输情况,并且根据上一轮的传输情况,计算该轮动作的奖励值。最后将该轮的分配状态、策略神经网络模型对应输出的调度动作、评价该调度动作的奖励值组合为一个训练样本存放在经验池中,随后进入下一个调度周期。每个调度周期都循环进行上述流程,直到MPTCP多路径传输结束。
如图4所示,用深度神经网络来表示调度的策略函数,即输入策略神经网络模型不同的调度状态,对于每个状态策略神经网络输出对应的策略。神经网络有一个隐藏层,隐藏层有50个神经元,每个神经元使用ReLU激活函数。神经网络的学习率为0.001。在神经网络训练时,首先从经验池中随机采样一批数据样本用于训练,批训练个数为16个。由于经验池的存在,训练数据的采集和抽样是异步进行的,保障神经网络的训练和MPTCP多路径数据包的调度过程不会互相阻塞。抽样到训练样本后,根据样本中的状态和动作制作对应的样本标签,具体表示为和动作列表相同尺寸的one-hot标签,根据神经网络的输出,将样本标签对应列表位置下标设置为1,其余设置为0。
步骤S504,将策略神经网络模型根据动作对应的标签以及奖励值来更新网络参数所述的损失函数为:
Loss=MSE(label-action)*R (4)
其中,label为对应样本标签;action为策略神经网络模型输出的动作;MSE为均方误差函数;R表示奖励值;
使用Adam优化器进行梯度下降,当策略神经网络模型输出的动作使得状态转移增大吞吐量时,模型参数将向靠近对应样本标签的方向更新,而当策略神经网络模型输出的action使得状态转移减小吞吐量时,模型参数将向远离对应样本标签的方向更新。
训练策略神经网络模型过程与MPTCP数据包调度过程并发进行,每次MPTCP调度器输入状态,都会从更新后的策略神经网络模型进行动作选择并将新的训练样本加入经验池,不断优化MPTCP的数据包调度策略,直至最优。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于业务类别的多链路传输智能报文调度方法,其特征在于:所述的方法包括以下步骤:
S1:对发送方的网络流进行业务的传输性能需求类别判断;
S2:根据业务传输性能需求的类别,确定优化目标;
S3:根据优化目标,从神经网络模型集合中选择策略神经网络模型;
S4:将MPTCP的数据包调度过程划分为数个调度周期,在每个调度周期,记录MPTCP调度器的数据包分配状态,同时记录数据包分配状态下的数据传输状态;
S5:将数据传输状态和数据包分配状态作为MPTCP调度器的环境状态,输入策略神经网络模型,基于策略梯度的强化学习方法实现多链路传输报文调度。
2.根据权利要求1所述的基于业务类别的多链路传输智能报文调度方法,其特征在于:所述业务的传输性能需求的类别包括吞吐量、往返时延、时延抖动、高丢包率、中丢包率、低丢包率中的一种或多种;
所述的优化目标包括单位时间内的吞吐量最大、单位时间内的往返时延最低、单位时间内的抖动次数最低、单位时间内的丢包率最低;
所述的数据传输状态包括:MPTCP子流在一个调度周期内的吞吐量、MPTCP子流的拥塞窗口大小。
3.根据权利要求1所述的基于业务类别的多链路传输智能报文调度方法,其特征在于:所述的策略神经网络模型为由多个全连接层构成的深度神经网络,根据不同的优化目标,选择不同的损失函数进行优化。
4.根据权利要求3所述的基于业务类别的多链路传输智能报文调度方法,其特征在于:步骤S5中,所述基于策略梯度的强化学习方法,包括以下步骤:
S501:将数据包分配状态输入策略神经网络模型,根据策略神经网络模型输出的调度动作得到下一调度周期调度器的分配比例,根据分配比例获得下一个调度周期的MPTCP调度器的数据包分配状态;
S502:根据两个调度周期不同数据包分配状态下的数据传输状态和优化目标,计算策略深度神经网络模型输出动作的奖励值;
S503:将每个调度周期的MPTCP调度器的数据包分配状态、对应该状态的策略神经网络模型的输出动作、以及用于评价该输出动作好坏的奖励值组合为一个训练样本,存放在网络训练经验池中;
S504:策略神经网络模型从网络训练经验池中抽样训练样本进行网络参数更新,训练时根据每个调度周期对应的策略神经网络模型的输出动作,制作相应的样本标签,然后根据奖励值定义损失函数,并根据损失函数进行策略神经网络模型的参数更新,从而更新策略神经网络模型的数据包调度策略;
S505:将更新后的策略神经网络模型用于多链路传输报文调度,同时将更新后的策略神经网络模型加入神经网络模型集合,等待下一个调度周期进行调度时使用。
5.根据权利要求4所述的基于业务类别的多链路传输智能报文调度方法,其特征在于:步骤S501中,所述的MPTCP调度器的数据包分配状态为调度器每一轮次分配到各个MPTCP子流的数据包个数,具体表示为[x1,x2,...,xi...xN],并设定限制条件为:
Figure FDA0003232421800000021
其中,xi表示每一轮数据包分配向第i条链路的数据包数,i=1、2、3、4、...、N;N为多链路传输的链路数量。
6.根据权利要求5所述的基于业务类别的多链路传输智能报文调度方法,其特征在于:步骤S501,所述的策略神经网络模型输出的调度动作为改变调度器分配状态的分配操作,写成动作列表的形式为:
Actions=([-1,+1,0,0…],[+1,-1,0,0…],[-1,0,+1,0…],[+1,0,-1,0…],…) (2)
具体的,策略神经网络模型的输出为动作列表的下标,每个下标对应一个分配操作,改变任意两条链路的分配状态;分配操作的定义为将一条链路分配的数据包数减1,另一条分配的数据包数加1;动作列表包括多链路传输中所有可能的分配操作;同时保障调度器分配状态根据策略神经网络模型输出的动作进行转移后,依然满足限制条件。
7.根据权利要求6所述的基于业务类别的多链路传输智能报文调度方法,其特征在于:所述的样本标签具体表示为和动作列表相同尺寸的独热编码标签,根据策略神经网络模型的输出,将样本标签对应列表位置下标设置为1,其余设置为0。
8.根据权利要求4所述的基于业务类别的多链路传输智能报文调度方法,其特征在于:步骤S504,所述的奖励值定义为:
Figure FDA0003232421800000031
其中,
Figure FDA0003232421800000032
表示不同优化目标下,训练样本当前调度器分配状态下所对应的数据传输状态,
Figure FDA0003232421800000033
表示训练样本中转移到的下一个调度器分配状态下的数据传输状态;
当策略神经网络模型输出动作使下一个数据包分配状态的数据传输状态优于当前数据包分配状态的数据传输状态时,R>0,表明输出为好动作,反之,R<0,表明输出为坏动作。
9.根据权利要求8所述的基于业务类别的多链路传输智能报文调度方法,其特征在于:步骤S504,所述的损失函数为:
Loss=MSE(label-action)*R (4)
其中,label为对应样本标签;action为策略神经网络模型输出的动作;MSE为均方误差函数;R表示奖励值;
当策略神经网络模型输出的动作使得状态转移增大吞吐量时,模型参数将向靠近对应样本标签的方向更新,而当策略神经网络模型输出的action使得状态转移减小吞吐量时,模型参数将向远离对应样本标签的方向更新。
10.根据权利要求4~9任一项所述的基于业务类别的多链路传输智能报文调度方法,其特征在于:所述的网络训练经验池为一个存放训练样本的缓冲池;对训练样本的采集和策略神经网络模型的训练进行异步并发处理。
CN202110991338.8A 2021-08-26 2021-08-26 一种基于业务类别的多链路传输智能报文调度方法 Active CN113746757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110991338.8A CN113746757B (zh) 2021-08-26 2021-08-26 一种基于业务类别的多链路传输智能报文调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110991338.8A CN113746757B (zh) 2021-08-26 2021-08-26 一种基于业务类别的多链路传输智能报文调度方法

Publications (2)

Publication Number Publication Date
CN113746757A true CN113746757A (zh) 2021-12-03
CN113746757B CN113746757B (zh) 2023-05-26

Family

ID=78733205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110991338.8A Active CN113746757B (zh) 2021-08-26 2021-08-26 一种基于业务类别的多链路传输智能报文调度方法

Country Status (1)

Country Link
CN (1) CN113746757B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170366445A1 (en) * 2016-06-18 2017-12-21 StarFlow Networks, Inc. Intelligent adaptive transport layer to enhance performance using multiple channels
CN110278149A (zh) * 2019-06-20 2019-09-24 南京大学 基于深度强化学习的多路径传输控制协议数据包调度方法
US20190373521A1 (en) * 2017-04-07 2019-12-05 Vapor IO Inc. Distributed processing for determining network paths
CN111064704A (zh) * 2019-11-19 2020-04-24 中国科学院计算技术研究所 一种基于mptcp启动窗口自适应的数据传输方法、装置和介质
CN210899641U (zh) * 2019-11-07 2020-06-30 北京大学 一种接口可扩展的数据分发装置
WO2020232404A1 (en) * 2019-05-16 2020-11-19 Intel Corporation Technologies for control and management of multiple traffic steering services
CN112054966A (zh) * 2020-09-01 2020-12-08 首都师范大学 多路传输数据调度方法、装置及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170366445A1 (en) * 2016-06-18 2017-12-21 StarFlow Networks, Inc. Intelligent adaptive transport layer to enhance performance using multiple channels
US20190373521A1 (en) * 2017-04-07 2019-12-05 Vapor IO Inc. Distributed processing for determining network paths
WO2020232404A1 (en) * 2019-05-16 2020-11-19 Intel Corporation Technologies for control and management of multiple traffic steering services
CN110278149A (zh) * 2019-06-20 2019-09-24 南京大学 基于深度强化学习的多路径传输控制协议数据包调度方法
CN210899641U (zh) * 2019-11-07 2020-06-30 北京大学 一种接口可扩展的数据分发装置
CN111064704A (zh) * 2019-11-19 2020-04-24 中国科学院计算技术研究所 一种基于mptcp启动窗口自适应的数据传输方法、装置和介质
CN112054966A (zh) * 2020-09-01 2020-12-08 首都师范大学 多路传输数据调度方法、装置及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ALCARDO ALEX BARAKABITZE: "QualitySDN:Improving Video Quality using MPTCP and Segment Routing in SDN/NFV", NET SOFT *
章广梅: "基于MPTCP的非对称多链路传输调度方法研究", 电讯技术 *
罗嘉诚: "基于非对称多路径MPTCP的数据调度研究", 中国优秀硕士学位论文数据库 *
魏文佳: "基于MPTCP的多路径传输中的耦合拥塞控制和数据调度机制研究", 中国优秀硕士学位论文数据库 *

Also Published As

Publication number Publication date
CN113746757B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN111010294B (zh) 一种基于深度强化学习的电力通信网路由方法
Li et al. SmartCC: A reinforcement learning approach for multipath TCP congestion control in heterogeneous networks
Jiang et al. When machine learning meets congestion control: A survey and comparison
CN107171842B (zh) 基于强化学习的多路径传输协议拥塞控制方法
CN110278149B (zh) 基于深度强化学习的多路径传输控制协议数据包调度方法
CN114760644A (zh) 基于深度强化学习的多链路传输智能报文调度方法
CN113207147A (zh) 基于深度强化学习的mptcp拥塞控制方法及其存储介质
Luo et al. A reinforcement learning approach for multipath TCP data scheduling
CN109873773B (zh) 一种用于数据中心的拥塞控制方法
CN106656851B (zh) 一种电力系统终端通信接入网汇聚节点的队列调度方法
CN115037672B (zh) 多路径拥塞控制方法及装置
CN116489104A (zh) 一种基于动态优先级的流量调度方法与系统
CN117014355A (zh) 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法
CN116828623A (zh) 数据包多路径调度装置及方法
Tang et al. A MPTCP scheduler combined with congestion control for short flow delivery in signal transmission
Wang et al. Time-Sensitive Scheduling Mechanism based on End-to-End Collaborative Latency Tolerance for Low-Earth-Orbit Satellite Networks
Liu et al. BULB: lightweight and automated load balancing for fast datacenter networks
Dong et al. Multipath TCP meets Reinforcement Learning: A novel energy-efficient scheduling approach in heterogeneous wireless networks
Gao et al. Freshness-aware age optimization for multipath TCP over software defined networks
CN113746757A (zh) 一种基于业务类别的多链路传输智能报文调度方法
CN117294643A (zh) 一种基于SDN架构的网络QoS保障路由方法
CN116527587A (zh) 一种基于aimd实现依权重分配带宽的系统及方法
CN115914112A (zh) 基于pdaa3c的多路径调度算法及系统
CN116389375A (zh) 一种面向直播视频流的网络队列管理方法、设备及路由器
CN114050984A (zh) 面向智慧园区的智能配用电业务通信带宽预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant