CN113660159A

CN113660159A - 一种基于强化学习的多径动态复用与分组传输方法

Info

Publication number: CN113660159A
Application number: CN202110838114.3A
Authority: CN
Inventors: 杨飞; 刘永庆; 黎涛
Original assignee: Chengdu Yiweishi Information Technology Co ltd
Current assignee: Chengdu Yiweishi Information Technology Co ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-11-16
Anticipated expiration: 2041-07-23
Also published as: CN113660159B

Abstract

本发明公开了一种基于强化学习的多径动态复用与分组传输方法，1)将时间划分为以100ms为长度的时间片，并进行顺序编号1，2，……，t，t+1，……；2)在每一个时间片的尾部，收集影响和反映各个链路传输质量的因素，将这些数据进行标准化后做为外部环境观测值；本发明基于深度强化学习的链路捆绑传输技术，将链路捆绑传输控制作为智能体，将传输中影响链路质量的因素作为环境，链路后续的传输质量和稳定性作为奖励和惩罚，从而建立强化学习模型，通过深度神经网络对策略进行不断优化，从而达到不断优化传输策略的目的；具备更好的前瞻性。

Description

一种基于强化学习的多径动态复用与分组传输方法

技术领域

本发明属基于强化学习的多径动态复用与分组传输技术技术领域，具体涉及一种基于强化学习的多径动态复用与分组传输方法。

背景技术

多链路捆绑传输技术是指采用多条传输链路(包括有线网络、wifi或者3g/4g/5g)间协同配合，共同对同一业务的数据进行整体传输的数据通讯解决方案。多链路捆绑传输解决了同一业务数据只能利用单一链路进行传输的问题，大大提高了数据传输的效率和容错性。单一链路传输具有带宽受限、容错性差的特点，一旦链路出现问题，整体传输将会受阻或者变得很差，极大影响了数据传输的质量。对一些实时性要求较高的场景，比如视频直播和应急通讯等业务领域，越来越难于被使用者所接受。同时随着5g技术的逐渐普及以及多运营商的存在，多种传输链路并存也为多链路捆绑传输提供了广阔的应用前景。传统的链路捆绑传输技术多采用基于多缓冲区的链路带宽和数据分配策略。通过对传输的链路建立缓冲区，并对链路传输中即时速率、缓冲占用比例、丢包率、时延以及传输底层链路反馈的实时参数等进行跟踪和评估，采用加权方式建立链路的评估模型，并依据评估结果对链路进行动态的带宽和数据分配。由于影响传输的因素非常多，并且变化快，因此传统的方式很难精确界定因素变化对传输链路的影响，从而难以做出最有效的策略调整，从而最大化传输效率。

发明内容

本发明的目的在于提供一种基于强化学习的多径动态复用与分组传输方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于强化学习的多径动态复用与分组传输方法，

1)将时间划分为以100ms为长度的时间片，并进行顺序编号1，2，……，t，t+1，……；

2)在每一个时间片的尾部，收集影响和反映各个链路传输质量的因素，将这些数据进行标准化后做为外部环境观测值；这些因素包含如下项：

Wifi或者3g/4g/5g链路信号强度Signal(t)；

单个链路的接收数据的瞬时速率RecvRate(t)；

单个链路的短时接收延时Latency(t)；

单个链路的短时丢包率Drop(t)；

单个链路的短时发送速率SendRate(t)；

发送缓冲的占用率Buffer(t)；

记当前的状态值为S(t),S(t)＝(RecvRate(t),RecvRate(t),Latency(t),Drop(t),SendRate(t),Buffer(t))；

观测值S(t)将作为强化学习的环境状态值进入到深度强化学习的算法流程；

3)定义强化学习的动作Action(t)；定义的动作包括：增加链路传输速率(分0.3％，1％，1.5％，3％几种选择)，维持链路速率不变，减小速率(分0.3％，1％，3％，10％，30％，50％几种选择)；每一种action定义为一个值；Action(t)＝{0,1,2,3,……n}，每一个值代表了一种动作，每一次获取到S(t)后，都将会用强化学习的模型计算出一个特定的值作为该次观测值对应的动作；

4)记录采取动作后的惩罚或者奖励值，在采取了Action(t)后，将是否提升了传输的速率和质量的效果记录为Reward(t)；影响传输效果的衡量标准包括：

链路捆绑整体传输速率变化ΔRate(t)；

重传率变化ΔRetrans(t)；

缓冲大小变化ΔBuffer(t)；

时延变化ΔDelay(t)；

通过多种奖励值的加权，计算出整体的奖励值，从而作为强化学习的奖励值：

Reward(t)＝w0*ΔRate(t)+w1*ΔRetrans(t)+w2*ΔBuffer(t)+w3*ΔDelay(t)；

5)使用DQN深度强化学习技术，在实际的多链路传输中，不断产生新的数据来对评估和策略网络进行训练，最终产生出优化的DQN模型；得到上述的S(t)，Action(t)以及Reward(t)后，可以使用DQN算法来进行训练，从而产生出最终的策略。

优选的，action产生的结果是具有一定的滞后性的，因此在匹配action和相应的Reward的时候，Reward的时间点需要往后推移Δt，这个时间偏差需要根据时延来进行调整。

优选的，义强化学习的动作Action(t)的实际采样中，将按照强化学习模型的训练过程，记录每一个时刻的状态值S(t)，以及输出的相应Action(t)，并在采取这个action后的后续效果进行记录。

与现有技术相比，本发明的有益效果是：本发明基于深度强化学习的链路捆绑传输技术，将链路捆绑传输控制作为智能体，将传输中影响链路质量的因素作为环境，链路后续的传输质量和稳定性作为奖励和惩罚，从而建立强化学习模型，通过深度神经网络对策略进行不断优化，从而达到不断优化传输策略的目的；具备更好的前瞻性，简单的逻辑判断和静态的计算很难对状态变化做出具备更好前瞻性的动作；因为当前状态值往往只是一个截面，需要结合状态值在时间轴上的变化情况，才能更好的进行未来趋势的预判；强化学习的优势就是能在时间上对状态及动作进行跟踪和迭代，从而产生具备较好预判的较优策略。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明提供一种基于强化学习的多径动态复用与分组传输方法技术方案：一种基于强化学习的多径动态复用与分组传输方法，

Wifi或者3g/4g/5g链路信号强度Signal(t)；

单个链路的接收数据的瞬时速率RecvRate(t)；

单个链路的短时接收延时Latency(t)；

单个链路的短时丢包率Drop(t)；

单个链路的短时发送速率SendRate(t)；

发送缓冲的占用率Buffer(t)；

链路捆绑整体传输速率变化ΔRate(t)；

重传率变化ΔRetrans(t)；

缓冲大小变化ΔBuffer(t)；

时延变化ΔDelay(t)；

Reward(t)＝w0*ΔRate(t)+w1*ΔRetrans(t)+w2*ΔBuffer(t)+w3*ΔDelay(t)；

本实施例中，优选的，action产生的结果是具有一定的滞后性的，因此在匹配action和相应的Reward的时候，Reward的时间点需要往后推移Δt，这个时间偏差需要根据时延来进行调整。

本实施例中，优选的，义强化学习的动作Action(t)的实际采样中，将按照强化学习模型的训练过程，记录每一个时刻的状态值S(t)，以及输出的相应Action(t)，并在采取这个action后的后续效果进行记录。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于强化学习的多径动态复用与分组传输方法，其特征在于：

Wifi或者3g/4g/5g链路信号强度Signal(t)；

单个链路的接收数据的瞬时速率RecvRate(t)；

单个链路的短时接收延时Latency(t)；

单个链路的短时丢包率Drop(t)；

单个链路的短时发送速率SendRate(t)；

发送缓冲的占用率Buffer(t)；

链路捆绑整体传输速率变化ΔRate(t)；

重传率变化ΔRetrans(t)；

缓冲大小变化ΔBuffer(t)；

时延变化ΔDelay(t)；

Reward(t)＝w0*ΔRate(t)+w1*ΔRetrans(t)+w2*ΔBuffer(t)+w3*ΔDelay(t)；

2.根据权利要求1所述的一种基于强化学习的多径动态复用与分组传输方法，其特征在于：action产生的结果是具有一定的滞后性的，因此在匹配action和相应的Reward的时候，Reward的时间点需要往后推移Δt，这个时间偏差需要根据时延来进行调整。

3.根据权利要求1所述的一种基于强化学习的多径动态复用与分组传输方法，其特征在于：定义强化学习的动作Action(t)的实际采样中，将按照强化学习模型的训练过程，记录每一个时刻的状态值S(t)，以及输出的相应Action(t)，并在采取这个action后的后续效果进行记录。