CN114553836B - 一种基于强化学习的数据块传输准时性提升方法 - Google Patents

一种基于强化学习的数据块传输准时性提升方法 Download PDF

Info

Publication number
CN114553836B
CN114553836B CN202210031266.7A CN202210031266A CN114553836B CN 114553836 B CN114553836 B CN 114553836B CN 202210031266 A CN202210031266 A CN 202210031266A CN 114553836 B CN114553836 B CN 114553836B
Authority
CN
China
Prior art keywords
data block
action
network
transmitted
sending rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210031266.7A
Other languages
English (en)
Other versions
CN114553836A (zh
Inventor
杨威
李玉冰
姜萍
周舟
刘庆云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN202210031266.7A priority Critical patent/CN114553836B/zh
Publication of CN114553836A publication Critical patent/CN114553836A/zh
Application granted granted Critical
Publication of CN114553836B publication Critical patent/CN114553836B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于强化学习的数据块传输准时性提升方法,其步骤包括:1)延迟敏感多媒体应用收集当前时刻t的网络状态st,并将其与待发送的数据块一起发送发送速率控制模块;2)所述发送速率控制模块基于强化学习算法根据当前时刻t的网络状态st,选择当前时刻t调整延迟敏感多媒体应用中数据块发送速率的动作,执行动作得到当前时刻t的发送速率并发送给数据块调度模块;3)所述数据块调度模块选择当前时刻t最先发送的数据块,然后将最先发送的数据块和发送速率一起反馈给所述延迟敏感多媒体应用。本发明可以提升延迟敏感多媒体应用用户的用户体验。

Description

一种基于强化学习的数据块传输准时性提升方法
技术领域
本发明涉及多媒体领域,具体为用于延迟敏感多媒体应用的一种基于强化学习的数据块传输准时性提升方法。
背景技术
目前,实时或交互式媒体应用程序(如在线课程、视频会议等)需要低延迟以满足其多种服务的要求。这些延迟敏感多媒体应用程序通常用数据块来传输数据。数据块不能按时到达会严重影响用户体验,如视频会议过程中卡顿可能导致用户更换视频会议应用。延迟敏感应用程序应该在最大可接受的端到端延迟内将每个数据块传输完毕,保证每个数据块的传输都具有准时性。
数据块的发送速率是影响数据块准时性的一个重要因素,可以通过调整发送速率使更多的数据块准时到达。数据块的发送速率与网络当前时刻的可用带宽紧密相关,例如在网络可用带宽紧张时,如果增加发送速率,会导致数据块中的数据包大量丢失,从而验证用户体验。数据块的调度是影响数据块准时性的另一个重要因素,选择一个数据块传输可能会导致其他数据块超时过期,从而影响用户体验。
数据块的发送速率通常通过拥塞控制算法进行调整,但需要工程师的手动调整才能适应延迟敏感多媒体应用,这可能花费几个月甚至几年的时间。目前缺少在延迟敏感多媒体应用数据块调度方向上的研究,需要合理设计数据块调度算法,以让更多的数据块准时到达。考虑已有技术,应提出综合控制数据块发送速率并对数据块进行调度能够提升数据块传输准时性的方法,从而提高用户体验质量。
发明内容
为了克服现有技术中延迟敏感多媒体应用数据块传输准时性的不足,本发明提供一种基于强化学习的数据块传输准时性提升方法,包括发送速率控制模块和数据块调度模块。发送速率控制模块根据不同的网络状况控制数据块的发送速率,减少因网络拥塞丢失的数据块中数据包的数量;数据块调度模块根据发送速率控制模块得到的发送速率,根据数据块调度算法,选择当前时刻最适合发送的数据块,从而减少超时过期的数据块的数量;两个模块共同协作,在不同的网络状况下,尽可能多地使数据块在其过期时间前到达,从而提升数据块的准时性,保证用户体验质量。
发送速率控制模块,用于基于深度Q网络(Deep Q-learning Network,DQN)强化学习算法根据当前时刻的网络状态(State)选择当前时刻调整数据块发送速率的动作(Action),执行动作得到当前时刻的发送速率。发送速率控制模块设置深度Q网络(DQN)算法的代理(Agent)、状态(State)、奖励(Reward)和动作(Action),然后根据动作选择策略(Policy)调整发送速率。
代理(Agent):代理观察状态(State)并根据动作选择策略(Policy)选出动作(Action)来控制发送速率,得到执行此动作后的新状态和奖励(Reward),然后将状态、选择的动作、新状态和奖励存入经验池。代理(Agent)是深度Q网络(DQN)算法的执行单元。发送速率控制模块共包含一个代理。
状态(State):我们设置3个状态(State),分别是一定时间间隔内的最大带宽(max_bw)、当前时刻的带宽(bw)、当前时刻的往返时间(rtt)。状态(State)是深度Q网络(DQN)算法的输入。
动作(Action):动作(Action)用于控制发送速率,是一条更改发送速率值的命令,执行动作即按照动作更改发送速率的值。动作是深度Q网络(DQN)算法的输出。深度Q网络算法中的动作是离散的,我们根据一定时间间隔内的最大带宽(max_bw),设置八个动作来调整发送速率,动作和发送速率的值的对应关系如下表:
动作 发送速率的值
0 2*ln2*p*max_bw
1 1.15*p*max_bw
2 0.85*p*max_bw
3 0.3*p*max_bw
4,5,6,7 k*p*max_bw
其中p是限制发送速率的一个参数,可以根据具体应用场景进行设置,k是发送速率保持列表[1.25,0.75,1,1,1,1,1,1]中的一个随机值。
奖励(Reward):代理(Agent)执行不同的动作会获得不同的奖励(Reward)。奖励(Reward)用来计算执行动作的价值,价值是根据马尔可夫决策过程得到的未来所有的奖励和,也可以称作“动作效用值”,表示在当前状态st选择动作at能够获得的全局收益,用于帮助深度Q网络(DQN)算法调整动作选择策略(Policy)中的神经网络的参数。我们根据以下三种情况设置奖励函数:
(1)如果往返时间没有改变,则说明执行动作后网络状况良好,数据块中的数据包能够继续正常传输,不会丢失,奖励应当增加;
(2)如果往返时间在没有丢失数据包的情况下变得更长,说明在执行动作后网络发生拥塞,奖励应当略有减少;
(3)如果估计的往返时间变长并且丢失了一些数据包,说明在执行动作后网络发生严重拥塞,则奖励应当根据丢失数据包的数量显着减少。
根据上述三种情况,设置奖励(Reward)的计算公式如下:
Reward=α(last_rtt-rtt+γ)-β(drop_packet_nums)
其中rtt是这一时刻的往返时间,last_rtt是上一时刻的往返时间。drop_packet_nums是这两个时刻之间丢失的数据包数。α和γ在网络未发生拥塞时称为增益系数,在网络发生拥塞时称为惩罚系数。β是网络已经发生丢包时的惩罚系数。α>0,增益系数和惩罚系数用于表明它在不同情况下的含义,其值并不变,在奖励为正值时称为增益系数,在奖励为负值时称为惩罚系数。last_rtt-rtt的值可能是正数也可能是负数,当last_rtt-rtt的值是正数时,说明此数据包的往返时延比上一个数据包的往返时延小,说明网络状况变好,对应的,奖励值Reward是正数,之后计算的动作价值将会增加;当last_rtt-rtt的值是负数时,说明此数据包的往返时延比上一个数据包的往返时延大,说明网络发生拥塞,对应的,奖励值Reward是负数,之后计算的动作价值将会减小。γ>0,用于防止last_rtt-rtt值为0,导致网络不拥塞但奖励却不增加。β>0,用于衡量网络的丢包程度,丢包越多说明越拥塞。
深度Q网络(DQN)算法的动作选择策略以ε概率用ε-贪心探索方法、以1-ε概率用神经网络来选择动作,从而调整发送速率,0<ε≤1。
ε-贪心探索方法即从前面所述的八个动作中随机选择一个动作。ε-贪心探索方法的执行概率为ε,ε与代理(Agent)选择动作的次数的关系如下式:
其中i为代理(Agent)选择动作的次数,εi为本次动作探索的概率,εi-1为上次动作探索的概率。
若发送速率控制模块的代理(Agent)本次选择动作时未执行ε-贪心探索方法,则通过神经网络选择动作。深度Q网络(DQN)算法包含两个神经网络Q和神经网络Q以当前时刻的状态(State),即一定时间间隔内的最大带宽(max_bw)、当前时刻的带宽(bw)、当前时刻的往返时间(rtt)为输入,计算并输出前面所述的八个动作中的一个动作。发送速率控制模块执行神经网络Q输出的动作即可改变发送速率。神经网络/>从前面所述的经验池中随机抽取状态作为输入,其输出作为神经网络Q的真实值,帮助神经网络Q调整网络权重。
数据块调度模块,用于根据数据块的信息和数据块调度算法从当前时刻到达的数据块队列中选择当前时刻发送的数据块。
数据块信息包括数据块的大小、数据块的过期时间、数据块的优先级和数据块的传输时间。数据块必须在某时刻前从发送端到达接收端,超过此时刻到达的数据块会失效,损害用户的体验质量,这个时刻就是数据块的过期时间。数据块具有不同的优先级,表示该数据块对延迟敏感多媒体应用的重要程度,应该尽可能多地让高优先级的数据块准时到达。数据块的传输时间等于数据块大小与数据块发送速率的商,该发送速率由发送速率控制模块得到,当前时刻加上数据块的传输时间小于过期期限说明该数据块能够在过期时间前传输完毕。
数据块调度算法对数据块队列中的每一个数据块依次按照数据块调度规则进行判断,选出符合规则的数据块。当数据块不符合某条规则时,不再将该数据块与之后的规则进行判断,而是对队列中的下一个数据块依次按照规则进行判断。
数据块调度算法的规则如下:
(1)该数据块能够在其过期时间前传输完毕。
(2)该数据块的损失分数最小。
选择一个数据块传输时可能导致其他数据块超时,即,同一时刻只能选择一个数据块进行发送,其他数据块会在该数据块传输完毕后再从中选择另一个数据块开始发送。而在第一次选择的数据块的传输过程中,其他数据块中的某些数据块可能在此数据块的传输过程中超过其过期时间,所以选择一个数据块会对其他数据块造成影响。我们用损失分数衡量在某时刻选择一个数据块进行传输对其他数据块造成的影响。设数据块b传输完毕后才开始传输就会超过其过期时间的数据块有M个,则数据块b损失分数的值等于M个超过过期时间的数据块的优先级的和,其公式如下:
block_priorityi表示M个超过其过期时间的数据块中的第i个数据块的优先级。loss_score表示选择数据块b进行发送的损失分数,损失分数的值等于超过过期时间的数据块的优先级的和。损失分数越小说明该数据块对其它数据块造成的影响越小。
(3)该数据块具有更高的优先级。
(4)该数据块的传输时间比其他数据块短。
如果在当前时刻的数据块队列中不止一个数据块符合上述规则,则随机选取一个符合规则的数据块作为当前时刻发送的数据块。
一种基于强化学习的数据块传输准时性提升系统,其特征在于,包括发送速率控制模块和数据块调度模块;其中,
所述发送速率控制模块,用于接收延迟敏感多媒体应用发过来的当前时刻t的网络状态st与待发送的数据块;以及基于强化学习算法根据当前时刻t的网络状态st,选择当前时刻t调整延迟敏感多媒体应用中数据块发送速率的动作,执行动作得到当前时刻t的发送速率并发送给数据块调度模块;
所述数据块调度模块,用于选择当前时刻t最先发送的数据块,然后将最先发送的数据块和发送速率一起反馈给所述延迟敏感多媒体应用。
本发明的有益效果是:
1.本发明可以及时调整数据块的发送速率;
2.本发明可以快速计算发送数据块对其他数据块的影响;
3.本发明可以在各种网络状况下保障数据块传输的准时性;
4.本发明可以提升延迟敏感多媒体应用用户的用户体验。
附图说明
图1是本发明中的一种延迟敏感多媒体应用数据块传输准时性提升方法的结构框图。
图2是本发明中的发送速率控制模块工作原理图。
图3是本发明中的数据块调度算法流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本发明提供一种基于强化学习的数据块传输准时性提升方法,如图1所示,延迟敏感多媒体应用收集当前时刻的网络状态,和待发送的数据块一起发送到数据块传输准时性提升方法中。发送速率控制模块计算并输出当前时刻的发送速率到数据块调度模块,数据块调度模块选择当前时刻最先发送的数据块,然后将最先发送的数据块和发送速率一起反馈给延迟敏感多媒体应用。
发送速率控制模块的工作原理如图2所示。发送速率控制模块以t时刻的网络状态st为输入,包括一定时间间隔内的最大带宽(max_bw)、当前时刻的带宽(bw)、当前时刻的往返时间(rtt),以发送速率为输出。发送速率控制模块包括经验池、深度Q网络(DQN)代理、动作执行三部分。
DQN代理接收状态st(图2中步骤①),以概率ε执行ε-贪心探索方法或以1-ε概率通过神经网络Q计算输出动作at(图2中步骤②-1、步骤②-2),由动作执行部分执行动作at,更改数据块的发送速率。DQN代理然后将当前状态st、输出动作at、执行动作获得的奖励Rt、执行动作后转移到的状态st+1存入经验池(图2中步骤③-1、步骤③-2)。
神经网络Q和神经网络的网络结构完全相同,并按照如下规则更新权重:神经网络/>从经验池中随机抽取m个状态作为输入(图2步骤④),计算并输出这m个状态的计算结果,作为m个状态在神经网络Q中的真实值,帮助神经网络Q调整参数(图2步骤⑤)。神经网络Q迭代到固定次数时后将自己的参数同步给神经网络/>(图2步骤⑥)。
数据块调度模块根据数据块调度算法和数据块的信息从当前时刻待发送的数据块队列中选择最先发送的数据块。数据块信息包括数据块的大小、数据块的过期时间、数据块的优先级和数据块的传输时间,其中数据块的传输时间等于数据块的大小和发送速率的商。数据块调度算法流程如图3所示,步骤如下:
(1)将同一时刻待发送的数据块放入发送队列;
(2)从队列中选出能够在过期时间前传输完毕的数据块集合S1,判断方法为当前时间与数据块传输时间的和小于数据块的过期时间;
(3)从S1选出损失分数最小的数据块集合S2;
数据块的损失分数等于超过过期时间的数据块的优先级的和,设当前时刻选择的数据块为b,选择数据块b会导致M个数据块超过其过期时间,计算损失分数的公式如下:
block_priorityi表示M个超过过期时间的数据块中的第i个数据块的优先级。loss_score表示损失分数,损失分数的值即超过过期时间的数据块的优先级的和。损失分数越小说明该数据块对其它数据块造成的影响越小。
(4)从S2中选出优先级最高的数据块集合S3;
(5)从S3中选出传输时间最短的数据块集合S4;
(6)从集合S4中随机挑选一个数据块,在当前时刻最先发送。
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (4)

1.一种基于强化学习的数据块传输准时性提升方法,其步骤包括:
1)延迟敏感多媒体应用收集当前时刻t的网络状态st,并将其与待发送的数据块一起发送发送速率控制模块;
2)所述发送速率控制模块基于强化学习算法根据当前时刻t的网络状态st,选择当前时刻t调整延迟敏感多媒体应用中数据块发送速率的动作,执行动作得到当前时刻t的发送速率并发送给数据块调度模块;其中,所述强化学习算法为基于深度Q网络强化学习算法;所述发送速率控制模块在深度Q网络算法中设置代理、状态、奖励和动作;然后根据动作选择策略调整发送速率并基于所述奖励计算所得价值调整动作选择策略中的参数;
所述代理为深度Q网络算法的执行单元,用于根据所述网络状态st和动作选择策略选取一动作,并得到执行此动作后的新状态和奖励;然后将所述网络状态st、选择的动作、新状态和奖励存入经验池;根据所述网络状态st和动作选择策略选取一动作的方法为:所述动作选择策略根据所述网络状态st,以概率ε执行ε-贪心探索方法或以1-ε概率通过神经网络计算输出动作at
所述状态包括一定时间间隔内的最大带宽max_bw、当前时刻的带宽bw、当前时刻的往返时间rtt;所述动作用于控制发送速率,是一条更改发送速率值的命令,执行动作即按照动作更改发送速率的值;
所述奖励Reward=α(last_rtt-rtt+γ)-β(drop_packet_nums);其中,last_rtt是上一时刻的往返时间,drop_packet_nums是当前时刻与上一时刻之间丢失的数据包数,α和γ在网络未发生拥塞时为增益系数,在网络发生拥塞时为惩罚系数,β是网络已经发生丢包时的惩罚系数;
3)所述数据块调度模块选择当前时刻t最先发送的数据块,然后将最先发送的数据块和发送速率一起反馈给所述延迟敏感多媒体应用;其中所述数据块调度模块根据数据块调度算法和数据块的信息从当前时刻待发送的数据块队列中选择最先发送的数据块,
其方法为:31)从当前时刻待发送的数据块队列中选出能够在过期时间前传输完毕的数据块集合S1;32)从数据块集合S1中选出损失分数最小的数据块集合S2;33)从数据块集合S2中选出优先级最高的数据块集合S3;34)从数据块集合S3选出传输时间最短的数据块集合S4;35)从数据块集合S4中随机挑选一个数据块作为当前时刻最先发送的数据块。
2.根据权利要求1所述的方法,其特征在于,所述动作包括动作0、动作1、动作2和动作3和动作4~7八个动作;其中,动作0对应的发送速率为2*ln2*p*max_bw,动作1对应的发送速率为1.15*p*max_bw,动作2对应的发送速率为0.85*p*max_bw,动作3对应的发送速率为0.3*p*max_bw,动作4~7对应的发送速率为k*p*max_bw;max_bw为p是根据具体应用场景设置的限制发送速率参数,k是设定发送速率保持列表中的一个随机值。
3.根据权利要求1所述的方法,其特征在于,所述损失分数为其中,block_priorityi表示M个超过过期时间的数据块中的第i个数据块的优先级。
4.一种基于强化学习的数据块传输准时性提升系统,其特征在于,包括发送速率控制模块和数据块调度模块;其中,
所述发送速率控制模块,用于接收延迟敏感多媒体应用发过来的当前时刻t的网络状态st与待发送的数据块;以及基于强化学习算法根据当前时刻t的网络状态st,选择当前时刻t调整延迟敏感多媒体应用中数据块发送速率的动作,执行动作得到当前时刻t的发送速率并发送给数据块调度模块;其中,所述强化学习算法为基于深度Q网络强化学习算法;所述发送速率控制模块在深度Q网络算法中设置代理、状态、奖励和动作;然后根据动作选择策略调整发送速率并基于所述奖励计算所得价值调整动作选择策略中的参数;
所述代理为深度Q网络算法的执行单元,用于根据所述网络状态st和动作选择策略选取一动作,并得到执行此动作后的新状态和奖励;然后将所述网络状态st、选择的动作、新状态和奖励存入经验池;根据所述网络状态st和动作选择策略选取一动作的方法为:所述动作选择策略根据所述网络状态st,以概率ε执行ε-贪心探索方法或以1-ε概率通过神经网络计算输出动作at
所述状态包括一定时间间隔内的最大带宽max_bw、当前时刻的带宽bw、当前时刻的往返时间rtt;所述动作用于控制发送速率,是一条更改发送速率值的命令,执行动作即按照动作更改发送速率的值;
所述奖励Reward=α(last_rtt-rtt+γ)-β(drop_packet_nums);其中,last_rtt是上一时刻的往返时间,drop_packet_nums是当前时刻与上一时刻之间丢失的数据包数,α和γ在网络未发生拥塞时为增益系数,在网络发生拥塞时为惩罚系数,β是网络已经发生丢包时的惩罚系数;
所述数据块调度模块,用于选择当前时刻t最先发送的数据块,然后将最先发送的数据块和发送速率一起反馈给所述延迟敏感多媒体应用;其中所述数据块调度模块根据数据块调度算法和数据块的信息从当前时刻待发送的数据块队列中选择最先发送的数据块,其方法为:31)从当前时刻待发送的数据块队列中选出能够在过期时间前传输完毕的数据块集合S1;32)从数据块集合S1中选出损失分数最小的数据块集合S2;33)从数据块集合S2中选出优先级最高的数据块集合S3;34)从数据块集合S3选出传输时间最短的数据块集合S4;35)从数据块集合S4中随机挑选一个数据块作为当前时刻最先发送的数据块。
CN202210031266.7A 2022-01-12 2022-01-12 一种基于强化学习的数据块传输准时性提升方法 Active CN114553836B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210031266.7A CN114553836B (zh) 2022-01-12 2022-01-12 一种基于强化学习的数据块传输准时性提升方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210031266.7A CN114553836B (zh) 2022-01-12 2022-01-12 一种基于强化学习的数据块传输准时性提升方法

Publications (2)

Publication Number Publication Date
CN114553836A CN114553836A (zh) 2022-05-27
CN114553836B true CN114553836B (zh) 2024-02-20

Family

ID=81671980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210031266.7A Active CN114553836B (zh) 2022-01-12 2022-01-12 一种基于强化学习的数据块传输准时性提升方法

Country Status (1)

Country Link
CN (1) CN114553836B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110581808A (zh) * 2019-08-22 2019-12-17 武汉大学 一种基于深度强化学习的拥塞控制方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11963051B2 (en) * 2020-09-17 2024-04-16 Intel Corporation Context aware handovers

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110581808A (zh) * 2019-08-22 2019-12-17 武汉大学 一种基于深度强化学习的拥塞控制方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于强化学习的网络时延自动化控制数学建模研究;荆荣丽;葛书荣;王鹏;宁玉文;;自动化与仪器仪表(第03期);全文 *

Also Published As

Publication number Publication date
CN114553836A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
JP5340186B2 (ja) パケット中継装置及びパケットを中継する方法
US6738386B1 (en) Controlled latency with dynamically limited queue depth based on history and latency estimation
US7447155B2 (en) Guaranteed service in a data network
CN115412497B (zh) 一种bbr拥塞控制算法的性能优化方法
CN112995048B (zh) 数据中心网络的阻塞控制与调度融合方法及终端设备
US7324522B2 (en) Encapsulating packets into a frame for a network
CN113452618A (zh) 一种基于拥塞控制的m/m/1排队模型调度方法
CN113206724B (zh) 一种适用于准动态链路的可预知确定性调度方法及装置
CN112153702B (zh) 一种局域网带宽资源分配方法、存储装置及设备
CN114553836B (zh) 一种基于强化学习的数据块传输准时性提升方法
CN117834552A (zh) 通信队列调度优化方法、装置、设备及介质
CN116170380B (zh) 基于拥塞预测的ecn标记策略和队列管理方法及系统
CN116389375A (zh) 一种面向直播视频流的网络队列管理方法、设备及路由器
CN104579582B (zh) 一种基于通信网络的高质量语音传输方法
CN112019443B (zh) 多路径数据传输方法及装置
TWI423623B (zh) Network buffer management methods and computer program products
CN114615205A (zh) 基于时间效益函数的时间敏感网络下的混合流量调度方法
Lozhkovskyi et al. Estimating the service waiting probability in a single-channel system with self-similar traffic
CN114630175B (zh) 一种缓存管理方法、装置、设备和存储介质
KR102391804B1 (ko) FQ-CoDel 알고리즘의 매개변수 최적화 방법
CN102868633A (zh) 分组数据调度方法及系统
CN114785757B (zh) 一种面向实时会话类业务的多径传输控制方法
Lozhkovskyi et al. UDC 621. 391 method for approximating the distribution function of the states in the single-channel system with a self-similar traffic
JPH08237282A (ja) Atmセルの優先制御装置および輻輳制御方法および輻輳制御装置
Yang et al. GDMD: A Transmission Control Scheme with Block Information-aware for Delay Sensitive Multimedia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant