CN109587519A

CN109587519A - 基于q学习的异构网络多径视频传输控制系统及方法

Info

Publication number: CN109587519A
Application number: CN201811624677.7A
Authority: CN
Inventors: 朱晓荣; 高溢之
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-04-05
Anticipated expiration: 2038-12-28
Also published as: CN109587519B

Abstract

本发明公开了一种基于Q学习的异构网络多径视频传输控制系统及方法，针对高清视频传输无法充分利用当前异构网络多径带宽，以及接收端缓冲区不稳定的情况，通过分析各路径的实时网络状态信息及接收端缓冲区信息，对各路径网络信息及缓冲区信息进行模型训练，对视频编码及发送做出决策，同时对接收端缓冲区乱序数据包进行重排序，最终对视频解码播放。该方法联合考虑了路径实时带宽、丢包率、端到端时延以及接收端的实时缓冲长度，并且加入了对接收端缓冲区乱序数据包的重排序算法，建立了基于马尔可夫决策的多径视频传输控制模型，形成了一个缓冲区长度驱动的视频传输反馈控制系统，采用Q学习在该模型的求解过程中得到最佳的视频编码及发送策略。

Description

基于Q学习的异构网络多径视频传输控制系统及方法

技术领域

本发明属于异构无线网络流媒体传输技术领域，具体涉及一种基于Q学习的异构网络多径视频传输控制系统及方法。

背景技术

随着5G的到来，未来网络社会对高清视频的需求不断增加，移动端高清流媒体服务的兴起是消费者选择5G网络的主要原因之一。具有高清或者超高清分辨率(4K/8K)的视频、具备AR(增强现实)和VR(虚拟现实)技术的视频等都属于高清流媒体服务，其数据吞吐量较传统视频呈现出指数级增长。由于4G网络的带宽有限，超高清视频等内容无法得到有效普及，5G成为高清流媒体服务未来发展的必然选择。

而面对多种网络并存的场景，传统的通过单连接传输的技术不能充分利用异构网络资源，因此，为了充分利用多种网络同时传输，本发明提出了异构网络多径视频传输系统，以满足未来网络中超高清视频的传输。随着机器学习技术的不断深入和发展，在多径视频传输的场景下，采用Q学习算法为传输路径选择提供了可能。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明主要针对多径传输对各路径网络状态不能提前获取的问题，提供了一种基于Q学习的异构网络多径视频传输控制系统及方法，通过获取异构网络中各传输路径的网络状态信息，包括实时带宽、丢包率、端到端时延，以及播放器实时缓冲长度信息，利用Q学习算法训练得到自适应模型，来选择下一个数据包发送的路径，提升网络的吞吐量即稳定性，保证视频传输的QoS。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于Q学习的异构网络多径视频传输控制系统，包括以下模块：

视频服务器端：

1)视频源：监听视频编码服务器发出的新数据包请求，提供原始视频数据包，同时对数据包加上时间戳序列号，供给视频编码服务器用于编码；

2)视频编码服务器：接受来自视频源提供的原始视频数据包，进行H.265编码后，等待视频发送控制模块的决策准备传输，将数据包传输给视频发送控制模块中的异构网络中各传输路径；

视频发送控制模块：

3)自适应模型训练模块：接收来自异构网络中各传输路径的网络状态信息，包括实时带宽、丢包率、端到端时延，以及播放器实时缓冲长度信息，利用Q学习算法得到视频传输自适应模型，并将训练结果发送至视频发送决策模块；

4)视频发送决策模块：接收来自自适应模型训练模块的训练结果，得到最佳的发送策略，并将发送决策信息发送给视频编码服务器；

视频播放客户端：

5)接收缓冲区：接收从异构网络中获得的乱序数据包，将实时缓存长度信息反馈给视频发送控制模块中的自适应模型训练模块，另外将乱序数据包的时间戳序列号数组发送给视频接收控制模块中的数据包重排序模块，同时接收来自数据包重排序模块的数据包排序信息，根据排序信息将重排序的数据包发送至视频解码器；

6)视频解码器：接受来自接收缓冲区的数据包，对数据包进行解码播放；

视频接收控制模块：

7)数据包重排序模块：接收来自接收缓冲区的数据包序号信息，根据数据包时间戳序列进行重排序，并将重排序后的数据包排序信息反馈给接收缓冲区。

上述的一种基于Q学习的异构网络多径视频传输控制系统的工作方法，具体步骤为：

步骤a)根据异构网络多径视频传输的具体场景建立基于马尔可夫决策的视频传输控制模型，将决策时刻、状态空间、动作空间和效用函数映射到系统的参数中，建立MDP模型；

步骤b)使用Q学习算法对模型进行求解，根据各网络链路实时的网络状态参数及接收端缓存长度，构建系统状态参数；

构建Q值表，根据Q值迭代公式和回报函数对Q值表进行更新，直至得到最优的发送策略。

进一步的，所述的步骤b)的具体内容为：

31)初始化数据，分别设定学习速率初始值α₀，折扣因子γ，探索概率初始值ε₀，初始的数据包发送路径n；

32)获取当前状态，当数据包送达接收端缓冲区时，通过网络适配器搜集各路径带宽、丢包率、端到端时延以及缓冲区长度信息，并计算的到动作前的服务质量QoS值，得到系统状态(i,j)；

33)获得Q值：计算当前状态下所有可能发生的动作a₁,a₂,...,a_n所对应的Q值Q(s,a₁),Q(s,a₂),...Q(s,a_n)，得到当前网络状态下对应不同发送路径的Q值；

34)动作选择：以Boltzmann搜索算法中定义的概率来选择发送路径，本次决策得到的体验质量QoS值和上次决策的体验质量QoS值计算可得回报值r；

35)更新Q值函数Q_n(s,a)，学习速率α按照反比例函数规律逐渐减小为0；

36)重复步骤32)-35)，直至Q值收敛，即更新前后的Q值差值小于门限值；

37)返回步骤34)选择动作，选择最佳路径。

进一步的，步骤33)中，采用Q学习算法获得Q值，具体方法如下：

假设在第n步，自适应模型训练模块纪录当前环境的状态s_n∈S，并根据此时的状态选择动作a_n∈A，在该动作完成后会产生一个即时回报函数r_n(a_n)，将回报函数r作为MDP模型的效用函数：

ρ(s_t,s_t+1,a_t)＝r(τ(t),b(t),p(t),l(t)),τ(t),b(t),p(t),l(t)是状态空间参数，分别为端到端时延、实时带宽、丢包率和接收端缓冲区的长度；

在搜索策略π:s→a下，状态s的值定义为

其中，π(s)为在状态s下根据策略选择的动作；γ∈[0,1]为折扣因子，反映延时奖赏的相对比例；为在第n步操作中在环境状态s_n和选择动作a_n下，环境状态转移到y_n的概率；y为所有状态y_n的集合；由该式可得，状态s的值实际含义就是自适应模型训练模块在执行策略π选择的动作后立即得到回报r_n，并以概率P_sy转移一个状态值为V^π(y)的有效状态；

根据DP定理，至少存在一个最佳策略π^*使得状态s的值取到最大值，记为

其中，a和r_s(a)分别表示选择的动作与在状态s下该动作产生的回报值；

对于一个策略π，定义Q值函数为

Q值是对采取设定动作后的回报值的预测估计；

由式(2)(3)可知，

假设此时使Q值最大的动作为a^*，则最佳策略表示为

π^*(s)＝a^* (5)

自适应模型训练模块通过Q值函数，选择最佳策略，即执行使得Q值最大的动作；

Q值表的更新通过迭代来完成，为了更新所有Q值，自适应模型训练模块不断与环境交互；当Q值经过多次迭代后不再发生大的改变时，认为Q值收敛，训练过程结束；Q值按照式(6)更新

Q_n(s,a)＝(1-α_n)Q_n-1(s,a)+α_n(r_n+γmaxQ_n(s',a')) (6)

其中，α∈[0,1)为学习速率；s'和a'为采取选择动作后得到的状态，即与其对应的可选择的动作。

学习的最终目标是最大化长期累积回报，即使得回报函数的值最大，使得Q值与长期回报函数相匹配，形成最优策略π^*(s)；所述最优策略π^*(s)为使得回报函数r值最大的发送路径。

有益效果：本发明提供的一种基于Q学习的异构网络多径视频传输控制系统及方法，与现有技术相比，具有以下优势：本发明联合考虑了接收端缓冲区长度和各路径网络状态信息两个因素，建立了基于马尔科夫决策的视频传输控制模型，形成一个服务质量QoS驱动的的视频传输自适应控制系统，可以根据QoS自适应的调整视频的发送路径；对于马尔科夫决策模型的求解使用的是增强学习的Q学习方法，最终可以得到一系列的最优发送策略，使得长期回报值达到最大。

附图说明

图1为本发明的系统架构图；

图2为强化学习原理图；

图3为本发明基于Q学习的异构网络多径视频传输控制系统及方法流程图。

具体实施方式

下面结合附图和实施例对本发明作更进一步的说明。

实施例

图1是本发明的系统架构图：视频源为视频编码服务器提供原始数据包，传输控制模块具有收集网络状态信息及接收端缓存信息的能力，该模块利用Q学习根据网络状态和缓冲区长度的动态变化，自适应的调整视频编码服务器的发送路径。

首先根据异构网络多径视频传输的具体场景建立基于马尔可夫决策的视频传输控制模型，然后利用Q学习的方法对其进行求解，得到该视频传输场景下最优的路径选择策略。该方法的实现过程主要分为两个步骤：第一步，建立基于马尔可夫决策的视频传输自适应模型；第二步，利用Q学习算法对上述模型进行求解。

图2是增强学习原理图：增强学习是关于智能体通过外部环境的简单标量信号来不断演进，同时分析其动作后果的一系列问题集合。一般而言，基本的增强学习模型由反映当前环境的状态集合S＝{s₁,s₂,…,s_M}，智能体可以选择的动作集合A＝{a₁,a₂,…,a_N}，回报函数r以及搜索策略π:S→A构成。

图3是本发明基于Q学习的异构网络多径视频传输控制系统及方法流程图：本发明使用的Q学习算法是一种无模型增强学习算法，假设在第n步，Agent记录当前环境的状态s_n∈S，并根据此时的状态选择动作a_n∈A，在该动作完成后会产生一个即时回报函数r_n(a_n)，该回报由当前状态s_n和选择动作a_n唯一确定。

在搜索策略π:s→a下，状态s的值定义为

对于一个策略π，定义Q值函数为

Q值是对采取设定动作后的回报值的预测估计；

由式(2)(3)可知，

假设此时使Q值最大的动作为a^*，则最佳策略表示为

π^*(s)＝a^* (5)

Q_n(s,a)＝(1-α_n)Q_n-1(s,a)+α_n(r_n+γmaxQ_n(s',a')) (6)

本技术领域技术人员可以理解的是，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于Q学习的异构网络多径视频传输控制系统，其特征在于，包括以下模块：

视频服务器端：

视频发送控制模块：

视频播放客户端：

视频接收控制模块：

2.根据权利要求1所述的基于Q学习的异构网络多径视频传输控制系统的工作方法，其特征在于，具体流程为：

3.根据权利要求2所述的一种基于Q学习的异构网络多径视频传输控制系统的工作方法，其特征在于：所述步骤b)的具体方法包括以下步骤：

31)初始化数据，分别设定学习速率初始值α₀，折扣因子γ，探索概率初始值ε₀，

初始的数据包发送路径n；

32)获取当前状态，当数据包送达接收缓冲区时，通过网络适配器搜集各路径带宽、丢包率、端到端时延以及缓冲区长度信息，并计算得到动作前的服务质量QoS值，得到系统状态；

37)返回步骤34)选择动作，选择最佳路径。

4.根据权利要求3所述的基于Q学习的异构网络多径视频传输控制系统的工作方法，其特征在于，所述步骤32)中，系统状态(i,j)，i、j代指状态空间参数，包括τ(t)、b(t)、p(t)、l(t)，分别为端到端时延、实时带宽、丢包率和接收端缓冲区的长度。

5.根据权利要求3所述的基于Q学习的异构网络多径视频传输控制系统的工作方法，其特征在于，所述步骤36)中，门限值为0.01。

6.根据权利要求3所述的基于Q学习的异构网络多径视频传输控制系统的工作方法，其特征在于，所述步骤33)中，采用Q学习算法获得Q值，具体方法如下：

ρ(s_t,s_t+1,a_t)＝r(τ(t),b(t),p(t),l(t)),

τ(t)、b(t)、p(t)、l(t)是状态空间参数，分别为端到端时延、实时带宽、丢包率和接收端缓冲区的长度；

在搜索策略π:s→a下，状态s的值定义为

其中，π(s)为在状态s下根据策略选择的动作；γ∈[0,1]为折扣因子，反应延时奖赏的相对比例；为在第n步操作中在环境状态s_n和选择动作a_n下，环境状态转移到y_n的概率；y为所有状态y_n的集合；由该式可得，状态s的值实际含义就是自适应模型训练模块在执行策略π选择的动作后立即得到回报r_n，并以概率P_sy转移一个状态值为V^π(y)的有效状态；

对于一个策略π，定义Q值函数为

Q值是对采取设定动作后的回报值的预测估计；

由式(2)(3)可知，

假设此时使Q值最大的动作为a^*，则最佳策略表示为

π^*(s)＝a^* (5)

Q_n(s,a)＝(1-α_n)Q_n-1(s,a)+α_n(r_n+γmaxQ_n(s',a')) (6)

其中，α∈[0,1)为学习速率；s'和a'为采取选择动作后得到的状态，即与其对应的可选择的动作；

学习的最终目标是最大化长期累积回报，即使得回报函数的值最大，使得Q值与长期回报函数相匹配，形成最优策略π*(s)；所述最优策略π*(s)为使得回报函数r值最大的发送路径。