CN114553836B

CN114553836B - 一种基于强化学习的数据块传输准时性提升方法

Info

Publication number: CN114553836B
Application number: CN202210031266.7A
Authority: CN
Inventors: 杨威; 李玉冰; 姜萍; 周舟; 刘庆云
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2024-02-20
Anticipated expiration: 2042-01-12
Also published as: CN114553836A

Abstract

本发明公开了一种基于强化学习的数据块传输准时性提升方法，其步骤包括：1)延迟敏感多媒体应用收集当前时刻t的网络状态s_t，并将其与待发送的数据块一起发送发送速率控制模块；2)所述发送速率控制模块基于强化学习算法根据当前时刻t的网络状态s_t，选择当前时刻t调整延迟敏感多媒体应用中数据块发送速率的动作，执行动作得到当前时刻t的发送速率并发送给数据块调度模块；3)所述数据块调度模块选择当前时刻t最先发送的数据块，然后将最先发送的数据块和发送速率一起反馈给所述延迟敏感多媒体应用。本发明可以提升延迟敏感多媒体应用用户的用户体验。

Description

一种基于强化学习的数据块传输准时性提升方法

技术领域

本发明涉及多媒体领域，具体为用于延迟敏感多媒体应用的一种基于强化学习的数据块传输准时性提升方法。

背景技术

目前，实时或交互式媒体应用程序(如在线课程、视频会议等)需要低延迟以满足其多种服务的要求。这些延迟敏感多媒体应用程序通常用数据块来传输数据。数据块不能按时到达会严重影响用户体验，如视频会议过程中卡顿可能导致用户更换视频会议应用。延迟敏感应用程序应该在最大可接受的端到端延迟内将每个数据块传输完毕，保证每个数据块的传输都具有准时性。

数据块的发送速率是影响数据块准时性的一个重要因素，可以通过调整发送速率使更多的数据块准时到达。数据块的发送速率与网络当前时刻的可用带宽紧密相关，例如在网络可用带宽紧张时，如果增加发送速率，会导致数据块中的数据包大量丢失，从而验证用户体验。数据块的调度是影响数据块准时性的另一个重要因素，选择一个数据块传输可能会导致其他数据块超时过期，从而影响用户体验。

数据块的发送速率通常通过拥塞控制算法进行调整，但需要工程师的手动调整才能适应延迟敏感多媒体应用，这可能花费几个月甚至几年的时间。目前缺少在延迟敏感多媒体应用数据块调度方向上的研究，需要合理设计数据块调度算法，以让更多的数据块准时到达。考虑已有技术，应提出综合控制数据块发送速率并对数据块进行调度能够提升数据块传输准时性的方法，从而提高用户体验质量。

发明内容

为了克服现有技术中延迟敏感多媒体应用数据块传输准时性的不足，本发明提供一种基于强化学习的数据块传输准时性提升方法，包括发送速率控制模块和数据块调度模块。发送速率控制模块根据不同的网络状况控制数据块的发送速率，减少因网络拥塞丢失的数据块中数据包的数量；数据块调度模块根据发送速率控制模块得到的发送速率，根据数据块调度算法，选择当前时刻最适合发送的数据块，从而减少超时过期的数据块的数量；两个模块共同协作，在不同的网络状况下，尽可能多地使数据块在其过期时间前到达，从而提升数据块的准时性，保证用户体验质量。

发送速率控制模块，用于基于深度Q网络(Deep Q-learning Network，DQN)强化学习算法根据当前时刻的网络状态(State)选择当前时刻调整数据块发送速率的动作(Action)，执行动作得到当前时刻的发送速率。发送速率控制模块设置深度Q网络(DQN)算法的代理(Agent)、状态(State)、奖励(Reward)和动作(Action)，然后根据动作选择策略(Policy)调整发送速率。

代理(Agent)：代理观察状态(State)并根据动作选择策略(Policy)选出动作(Action)来控制发送速率，得到执行此动作后的新状态和奖励(Reward)，然后将状态、选择的动作、新状态和奖励存入经验池。代理(Agent)是深度Q网络(DQN)算法的执行单元。发送速率控制模块共包含一个代理。

状态(State)：我们设置3个状态(State)，分别是一定时间间隔内的最大带宽(max_bw)、当前时刻的带宽(bw)、当前时刻的往返时间(rtt)。状态(State)是深度Q网络(DQN)算法的输入。

动作(Action)：动作(Action)用于控制发送速率，是一条更改发送速率值的命令，执行动作即按照动作更改发送速率的值。动作是深度Q网络(DQN)算法的输出。深度Q网络算法中的动作是离散的，我们根据一定时间间隔内的最大带宽(max_bw)，设置八个动作来调整发送速率，动作和发送速率的值的对应关系如下表：

动作	发送速率的值
		0	2ln2p*max_bw
1	1.15pmax_bw
		2	0.85pmax_bw
3	0.3pmax_bw
		4，5，6，7	kpmax_bw

其中p是限制发送速率的一个参数，可以根据具体应用场景进行设置，k是发送速率保持列表[1.25,0.75,1,1,1,1,1,1]中的一个随机值。

奖励(Reward)：代理(Agent)执行不同的动作会获得不同的奖励(Reward)。奖励(Reward)用来计算执行动作的价值，价值是根据马尔可夫决策过程得到的未来所有的奖励和，也可以称作“动作效用值”，表示在当前状态s_t选择动作a_t能够获得的全局收益，用于帮助深度Q网络(DQN)算法调整动作选择策略(Policy)中的神经网络的参数。我们根据以下三种情况设置奖励函数：

(1)如果往返时间没有改变，则说明执行动作后网络状况良好，数据块中的数据包能够继续正常传输，不会丢失，奖励应当增加；

(2)如果往返时间在没有丢失数据包的情况下变得更长，说明在执行动作后网络发生拥塞，奖励应当略有减少；

(3)如果估计的往返时间变长并且丢失了一些数据包，说明在执行动作后网络发生严重拥塞，则奖励应当根据丢失数据包的数量显着减少。

根据上述三种情况，设置奖励(Reward)的计算公式如下：

Reward＝α(last_rtt-rtt+γ)-β(drop_packet_nums)

其中rtt是这一时刻的往返时间，last_rtt是上一时刻的往返时间。drop_packet_nums是这两个时刻之间丢失的数据包数。α和γ在网络未发生拥塞时称为增益系数，在网络发生拥塞时称为惩罚系数。β是网络已经发生丢包时的惩罚系数。α>0，增益系数和惩罚系数用于表明它在不同情况下的含义，其值并不变，在奖励为正值时称为增益系数，在奖励为负值时称为惩罚系数。last_rtt-rtt的值可能是正数也可能是负数，当last_rtt-rtt的值是正数时，说明此数据包的往返时延比上一个数据包的往返时延小，说明网络状况变好，对应的，奖励值Reward是正数，之后计算的动作价值将会增加；当last_rtt-rtt的值是负数时，说明此数据包的往返时延比上一个数据包的往返时延大，说明网络发生拥塞，对应的，奖励值Reward是负数，之后计算的动作价值将会减小。γ>0，用于防止last_rtt-rtt值为0，导致网络不拥塞但奖励却不增加。β>0，用于衡量网络的丢包程度，丢包越多说明越拥塞。

深度Q网络(DQN)算法的动作选择策略以ε概率用ε-贪心探索方法、以1-ε概率用神经网络来选择动作，从而调整发送速率，0<ε≤1。

ε-贪心探索方法即从前面所述的八个动作中随机选择一个动作。ε-贪心探索方法的执行概率为ε,ε与代理(Agent)选择动作的次数的关系如下式：

其中i为代理(Agent)选择动作的次数，ε_i为本次动作探索的概率，ε_i-1为上次动作探索的概率。

若发送速率控制模块的代理(Agent)本次选择动作时未执行ε-贪心探索方法，则通过神经网络选择动作。深度Q网络(DQN)算法包含两个神经网络Q和神经网络Q以当前时刻的状态(State)，即一定时间间隔内的最大带宽(max_bw)、当前时刻的带宽(bw)、当前时刻的往返时间(rtt)为输入，计算并输出前面所述的八个动作中的一个动作。发送速率控制模块执行神经网络Q输出的动作即可改变发送速率。神经网络/>从前面所述的经验池中随机抽取状态作为输入，其输出作为神经网络Q的真实值，帮助神经网络Q调整网络权重。

数据块调度模块，用于根据数据块的信息和数据块调度算法从当前时刻到达的数据块队列中选择当前时刻发送的数据块。

数据块信息包括数据块的大小、数据块的过期时间、数据块的优先级和数据块的传输时间。数据块必须在某时刻前从发送端到达接收端，超过此时刻到达的数据块会失效，损害用户的体验质量，这个时刻就是数据块的过期时间。数据块具有不同的优先级，表示该数据块对延迟敏感多媒体应用的重要程度，应该尽可能多地让高优先级的数据块准时到达。数据块的传输时间等于数据块大小与数据块发送速率的商，该发送速率由发送速率控制模块得到，当前时刻加上数据块的传输时间小于过期期限说明该数据块能够在过期时间前传输完毕。

数据块调度算法对数据块队列中的每一个数据块依次按照数据块调度规则进行判断，选出符合规则的数据块。当数据块不符合某条规则时，不再将该数据块与之后的规则进行判断，而是对队列中的下一个数据块依次按照规则进行判断。

数据块调度算法的规则如下：

(1)该数据块能够在其过期时间前传输完毕。

(2)该数据块的损失分数最小。

选择一个数据块传输时可能导致其他数据块超时，即，同一时刻只能选择一个数据块进行发送，其他数据块会在该数据块传输完毕后再从中选择另一个数据块开始发送。而在第一次选择的数据块的传输过程中，其他数据块中的某些数据块可能在此数据块的传输过程中超过其过期时间，所以选择一个数据块会对其他数据块造成影响。我们用损失分数衡量在某时刻选择一个数据块进行传输对其他数据块造成的影响。设数据块b传输完毕后才开始传输就会超过其过期时间的数据块有M个，则数据块b损失分数的值等于M个超过过期时间的数据块的优先级的和，其公式如下：

block_priority_i表示M个超过其过期时间的数据块中的第i个数据块的优先级。loss_score表示选择数据块b进行发送的损失分数，损失分数的值等于超过过期时间的数据块的优先级的和。损失分数越小说明该数据块对其它数据块造成的影响越小。

(3)该数据块具有更高的优先级。

(4)该数据块的传输时间比其他数据块短。

如果在当前时刻的数据块队列中不止一个数据块符合上述规则，则随机选取一个符合规则的数据块作为当前时刻发送的数据块。

一种基于强化学习的数据块传输准时性提升系统，其特征在于，包括发送速率控制模块和数据块调度模块；其中，

所述发送速率控制模块，用于接收延迟敏感多媒体应用发过来的当前时刻t的网络状态s_t与待发送的数据块；以及基于强化学习算法根据当前时刻t的网络状态s_t，选择当前时刻t调整延迟敏感多媒体应用中数据块发送速率的动作，执行动作得到当前时刻t的发送速率并发送给数据块调度模块；

所述数据块调度模块，用于选择当前时刻t最先发送的数据块，然后将最先发送的数据块和发送速率一起反馈给所述延迟敏感多媒体应用。

本发明的有益效果是：

1.本发明可以及时调整数据块的发送速率；

2.本发明可以快速计算发送数据块对其他数据块的影响；

3.本发明可以在各种网络状况下保障数据块传输的准时性；

4.本发明可以提升延迟敏感多媒体应用用户的用户体验。

附图说明

图1是本发明中的一种延迟敏感多媒体应用数据块传输准时性提升方法的结构框图。

图2是本发明中的发送速率控制模块工作原理图。

图3是本发明中的数据块调度算法流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本发明提供一种基于强化学习的数据块传输准时性提升方法，如图1所示，延迟敏感多媒体应用收集当前时刻的网络状态，和待发送的数据块一起发送到数据块传输准时性提升方法中。发送速率控制模块计算并输出当前时刻的发送速率到数据块调度模块，数据块调度模块选择当前时刻最先发送的数据块，然后将最先发送的数据块和发送速率一起反馈给延迟敏感多媒体应用。

发送速率控制模块的工作原理如图2所示。发送速率控制模块以t时刻的网络状态s_t为输入，包括一定时间间隔内的最大带宽(max_bw)、当前时刻的带宽(bw)、当前时刻的往返时间(rtt)，以发送速率为输出。发送速率控制模块包括经验池、深度Q网络(DQN)代理、动作执行三部分。

DQN代理接收状态s_t(图2中步骤①)，以概率ε执行ε-贪心探索方法或以1-ε概率通过神经网络Q计算输出动作a_t(图2中步骤②-1、步骤②-2)，由动作执行部分执行动作a_t，更改数据块的发送速率。DQN代理然后将当前状态s_t、输出动作a_t、执行动作获得的奖励R_t、执行动作后转移到的状态s_t+1存入经验池(图2中步骤③-1、步骤③-2)。

神经网络Q和神经网络的网络结构完全相同，并按照如下规则更新权重：神经网络/>从经验池中随机抽取m个状态作为输入(图2步骤④)，计算并输出这m个状态的计算结果，作为m个状态在神经网络Q中的真实值，帮助神经网络Q调整参数(图2步骤⑤)。神经网络Q迭代到固定次数时后将自己的参数同步给神经网络/>(图2步骤⑥)。

数据块调度模块根据数据块调度算法和数据块的信息从当前时刻待发送的数据块队列中选择最先发送的数据块。数据块信息包括数据块的大小、数据块的过期时间、数据块的优先级和数据块的传输时间，其中数据块的传输时间等于数据块的大小和发送速率的商。数据块调度算法流程如图3所示，步骤如下：

(1)将同一时刻待发送的数据块放入发送队列；

(2)从队列中选出能够在过期时间前传输完毕的数据块集合S1，判断方法为当前时间与数据块传输时间的和小于数据块的过期时间；

(3)从S1选出损失分数最小的数据块集合S2；

数据块的损失分数等于超过过期时间的数据块的优先级的和，设当前时刻选择的数据块为b，选择数据块b会导致M个数据块超过其过期时间，计算损失分数的公式如下：

block_priority_i表示M个超过过期时间的数据块中的第i个数据块的优先级。loss_score表示损失分数，损失分数的值即超过过期时间的数据块的优先级的和。损失分数越小说明该数据块对其它数据块造成的影响越小。

(4)从S2中选出优先级最高的数据块集合S3；

(5)从S3中选出传输时间最短的数据块集合S4；

(6)从集合S4中随机挑选一个数据块，在当前时刻最先发送。

尽管为说明目的公开了本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于最佳实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于强化学习的数据块传输准时性提升方法，其步骤包括：

1)延迟敏感多媒体应用收集当前时刻t的网络状态s_t，并将其与待发送的数据块一起发送发送速率控制模块；

2)所述发送速率控制模块基于强化学习算法根据当前时刻t的网络状态s_t，选择当前时刻t调整延迟敏感多媒体应用中数据块发送速率的动作，执行动作得到当前时刻t的发送速率并发送给数据块调度模块；其中，所述强化学习算法为基于深度Q网络强化学习算法；所述发送速率控制模块在深度Q网络算法中设置代理、状态、奖励和动作；然后根据动作选择策略调整发送速率并基于所述奖励计算所得价值调整动作选择策略中的参数；

所述代理为深度Q网络算法的执行单元，用于根据所述网络状态s_t和动作选择策略选取一动作，并得到执行此动作后的新状态和奖励；然后将所述网络状态s_t、选择的动作、新状态和奖励存入经验池；根据所述网络状态s_t和动作选择策略选取一动作的方法为：所述动作选择策略根据所述网络状态s_t，以概率ε执行ε-贪心探索方法或以1-ε概率通过神经网络计算输出动作a_t；

所述状态包括一定时间间隔内的最大带宽max_bw、当前时刻的带宽bw、当前时刻的往返时间rtt；所述动作用于控制发送速率，是一条更改发送速率值的命令，执行动作即按照动作更改发送速率的值；

所述奖励Reward＝α(last_rtt-rtt+γ)-β(drop_packet_nums)；其中，last_rtt是上一时刻的往返时间，drop_packet_nums是当前时刻与上一时刻之间丢失的数据包数，α和γ在网络未发生拥塞时为增益系数，在网络发生拥塞时为惩罚系数，β是网络已经发生丢包时的惩罚系数；

3)所述数据块调度模块选择当前时刻t最先发送的数据块，然后将最先发送的数据块和发送速率一起反馈给所述延迟敏感多媒体应用；其中所述数据块调度模块根据数据块调度算法和数据块的信息从当前时刻待发送的数据块队列中选择最先发送的数据块，

其方法为：31)从当前时刻待发送的数据块队列中选出能够在过期时间前传输完毕的数据块集合S1；32)从数据块集合S1中选出损失分数最小的数据块集合S2；33)从数据块集合S2中选出优先级最高的数据块集合S3；34)从数据块集合S3选出传输时间最短的数据块集合S4；35)从数据块集合S4中随机挑选一个数据块作为当前时刻最先发送的数据块。

2.根据权利要求1所述的方法，其特征在于，所述动作包括动作0、动作1、动作2和动作3和动作4～7八个动作；其中，动作0对应的发送速率为2*ln2*p*max_bw，动作1对应的发送速率为1.15*p*max_bw，动作2对应的发送速率为0.85*p*max_bw，动作3对应的发送速率为0.3*p*max_bw，动作4～7对应的发送速率为k*p*max_bw；max_bw为p是根据具体应用场景设置的限制发送速率参数，k是设定发送速率保持列表中的一个随机值。

3.根据权利要求1所述的方法，其特征在于，所述损失分数为其中，block_priority_i表示M个超过过期时间的数据块中的第i个数据块的优先级。

4.一种基于强化学习的数据块传输准时性提升系统，其特征在于，包括发送速率控制模块和数据块调度模块；其中，

所述发送速率控制模块，用于接收延迟敏感多媒体应用发过来的当前时刻t的网络状态s_t与待发送的数据块；以及基于强化学习算法根据当前时刻t的网络状态s_t，选择当前时刻t调整延迟敏感多媒体应用中数据块发送速率的动作，执行动作得到当前时刻t的发送速率并发送给数据块调度模块；其中，所述强化学习算法为基于深度Q网络强化学习算法；所述发送速率控制模块在深度Q网络算法中设置代理、状态、奖励和动作；然后根据动作选择策略调整发送速率并基于所述奖励计算所得价值调整动作选择策略中的参数；

所述数据块调度模块，用于选择当前时刻t最先发送的数据块，然后将最先发送的数据块和发送速率一起反馈给所述延迟敏感多媒体应用；其中所述数据块调度模块根据数据块调度算法和数据块的信息从当前时刻待发送的数据块队列中选择最先发送的数据块，其方法为：31)从当前时刻待发送的数据块队列中选出能够在过期时间前传输完毕的数据块集合S1；32)从数据块集合S1中选出损失分数最小的数据块集合S2；33)从数据块集合S2中选出优先级最高的数据块集合S3；34)从数据块集合S3选出传输时间最短的数据块集合S4；35)从数据块集合S4中随机挑选一个数据块作为当前时刻最先发送的数据块。