CN108391143A

CN108391143A - 一种基于q学习的无线网络视频传输自适应控制方法

Info

Publication number: CN108391143A
Application number: CN201810372915.3A
Authority: CN
Inventors: 朱晓荣; 董天才; 邵喆丹
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2018-08-10
Anticipated expiration: 2038-04-24
Also published as: CN108391143B

Abstract

本发明公开了一种基于Q学习的无线网络视频传输自适应控制方法，针对目前无线视频传输系统不能自适应调节传输速率提升用于体验的问题，该方法联合考虑了接收端缓冲区长度、网络状况以及用户服务质量体验(体验质量QoE)，建立了基于马尔科夫决策的视频传输控制模型，形成一个体验质量QoE驱动的视频传输闭合回路反馈控制系统，采用Q学习算法在该模型的求解中得到用户体验最优的发送速率策略。

Description

一种基于Q学习的无线网络视频传输自适应控制方法

技术领域

本发明涉及一种基于Q学习的无线网络视频传输自适应控制方法，属于无线网络流媒体传输技术领域。

背景技术

面向未来网络社会中巨幅增长的无线连接需求、增强型移动宽带接入服务需求、新兴通信模式的甚高可靠性及服务保证需求，5G定义并将发展出相应的移动通信技术。对于未来的第五代移动通信无线接入网络，现在已经逐渐明晰的是，其将是一个非常灵活的、异构接入系统，并将融入可用于面向具有不同特性及需求的大量应用配置同时无线连接的大量技术演进成果。为了满足对于上述高需求的支撑需求，未来第五代移动通信系统将需要有针对性地接入具有不同特性的无线频谱资源。

全球移动通信行业对未来的第五代移动通信系统展望了很多种的应用/业务形式。其中既包括对于现有一些第四代移动通信系统应用场景的增强，还更多地包括了一些新兴的应用，比如：4K超高清晰度视频、8K超高清晰度视频、VR(Virtual Reality，虚拟现实)、AR(Augmented Reality，增强现实)、移动游戏、IoT(物联网)、可穿戴设备应用、紧急任务应用(面向垂直行业与商业领域)。ITU-R(国际电信联盟无线电通信局)确定了5G的三大主要应用场景(1)增强型移动宽带；(2)超高可靠与低延迟的通信；(3)大规模机器类通信。

发明内容

为解决现有技术的不足，本发明的目的在于提供一种基于Q学习的无线网络视频传输自适应控制方法，结合目前无线业务用户需求的增长也给移动通信无线接入网络的扩容升级带来压力，需通过采取接入更多可用频谱资源的方式或采用先进的频谱共享接入机制来缓解无线网络拥塞的现状，对于自适应的调节视频的发送速率并提高用户的体验具有重要的意义。

为了实现上述目标，本发明采用如下的技术方案：

一种基于Q学习的无线网络视频传输自适应控制方法，其特征是，包括如下步骤：

步骤1)根据视频传输的具体场景建立基于马尔科夫决策的视频传输控制模型，将决策时刻、动作空间、状态空间和效用函数映射到系统的参数中，建立MDP模型；

步骤2)使用Q学习算法对模型进行求解，依靠网络控制器实时的搜集网络参数，通过matlab拟合确定各个网络参数对于服务质量QoS的影响因子得到服务质量QoS的归一化值表达式后构造用户体验满意度体验质量QoE的预测公式，构建出系统状态参数；

构建Q值表并依据Q值迭代公式和回报函数对Q值表进行更新，直至得到最优的发送策略。

前述的一种基于Q学习的无线网络视频传输自适应控制方法，其特征是，所述步骤2)的具体内容为：

21)初始化数据，分别设定学习速率初始值α₀，折扣因子γ，探索概率初始值ε₀，初始的视频发送速率；

22)获取当前的状态，当视频数据到达时，通过适配器搜集网络时延、丢包、时延抖动以及缓存区长度信息，并计算得到动作前的体验质量QoE值，得到系状态(i,j)；

23)获得Q值：计算当前状态下所有可能发生的动作a₁,a₂,...,a_n所对应的Q值Q(s,a₁)，Q(s,a₂),…,Q(s,a_n)，得到当前网络状态下对应不同发送速率的Q值。

24)动作选择：以Boltzmann搜索算法中定义的概率来选择发送速率模式的选取，本次决策得到的体验质量QoE值和上次决策的体验质量QoE值计算可得回报值。

前述的一种基于Q学习的无线网络视频传输自适应控制方法，其特征是，所述步骤1)中采用马尔科夫决策过程模型应用到视频传输的速率调解时需要将决策时刻、动作空间、状态空间和效用函数映射到系统的参数中，整个映射过程如下：

a)决策时刻：在每一帧开始时获得当前时刻系统的状态，每一帧的长度为T_f；所述系统的状态用两个参数进行描述，包括用服务质量QoS所衡量的用户体验质量和接收端缓冲区的队列长度；

在获得系统的状态信息后，做出决策动作，选择发送速率模式，即选择在一帧时间内发送的数据包的个数；

b)获得状态空间：用服务质量QoS所衡量的用户体验质量可由下式得到：Qa是一个不同网络类型反映不同QoE值的常量，A表示视频的分辨率等级，常量R反应视频帧结构中GOP(Group of Picture)的长度，体验质量QoE的取值在[0,5]范围内，根据需求把体验质量QoE平均划分为m个区间，则每个区间的长度为用户体验质量QoE有m个状态；

假设队列长度为n，可知队列长度有n+1个状态，包含队列长度为零的情况；所述队列长度指当时队列中包含的数据包数目，与接收端缓冲区的数据包进入速率和播放速率有关；所述缓冲区的数据包进入速率为发送端速率和丢包率的差值；

系统共有m(n+1)个状态，得到系统的状态空间S＝{(i,j)|i＝0,1,2,…,m-1；j＝0,1,2,…,n}；

c)动作空间：某时刻动作a定义为系统状态为(i,j)时对于发送速率的调整，选择一个与网络状态相匹配的发送速率；

假设有X种可供选择的发送速率模式，每一个发送速率是指在一个时间间隔内所发送的数据包的个数，动作空间可以表示为a＝{1,2,…,X}，该集合是一个有限行动集，存在一个最优策略；

d)效用函数：将回报函数r作为效用函数，MDP模型的效用函数为ρ(s_t,s_t+1,a_t)＝r(τ(t),b(t),p(t))，τ(t),b(t),p(t)是状态空间的参数，分别为时延长度、接收端缓冲区的长度和丢包率，根据实际情况以及经验值进行调整；

设计回报函数为每次动作后的体验质量QoE增量r(k)＝ΔQoE(k)＝QoE(i′,j′)-QoE(i,j)，其中表示在动作a(i,j)作用下系统由状态(i,j)转移到了状态(i′,j′)，k表示此次动作是第k次决策，QoE(i,j)为状态(i,j)时的用户满意度，QoE(i′,j′)为状态(i′,j′)时的用户满意度；

基于a)-d)形成报酬函数：每个决策时刻感知探测得到系统状态S后需选择动作a，即每次探测得到系统状态后都要选择一个对应的速率模式；动作前后的用户体验的体验有两种情况：选择动作a后，用体验体验质量QoE得到改善，即ΔQoE＞0；选择动作a后，用体验体验质量QoE变差，即ΔQoE＜0，定义报酬函数为：其中，K表示整个视频传输过程所需探测的总次数。

前述的一种基于Q学习的无线网络视频传输自适应控制方法，其特征是，所述步骤2)中使用Q学习算法对模型进行求解时，Q学习算法的各个要素与视频传输系统的各个参数的对应关系为：状态S对应于MDP模型中状态空间，动作a对应于MDP模型的动作空间，强化信号对应于MDP模型的效用函数，环境对应用于传输视频的无线网络环境；

Q学习通过以下迭代规则来获得其中，α是Q学习的学习速率，γ∈[0,1)是折扣因子，Q_t(s,a)是在s状态时采取动作a所对应的Q值，Q_t(s′,a′)是下一步的状态s′和下一步动作a′对应的Q值；

学习的最终目标是最大化期望值的长期累积回报，即使得报酬函数的值最大，使得Q值与长期回报函数相匹配，形成最优策略π^*(s)；所述最优策略π^*(s)为使得报酬函数Reward值最大的一系列发送速率值。

本发明所达到的有益效果：本发明联合考虑了接收端缓冲区长度和用户体验体验质量QoE两个因素，建立了基于马尔科夫决策的视频传输控制模型，形成一个体验质量QoE驱动的的视频传输闭合回路反馈控制系统，可以根据用户体验自适应的调整视频的发送速率；对于马尔科夫决策模型的求解使用的是增强学习的Q学习方法，可以最终得到一系列的最优发送速率，使得用户的长期回报值达到最大。

附图说明

图1是基于Q学习的异构无线网络视频传输自适应控制系统架构图；

图2是发送速率选择示意图；

图3是发送速率模式框图；

图4是Q学习基本原理图；

图5是控制模块组成图；

图6是算法流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明所提出的方法的架构如图1所示，视频服务器为播放终端提供合适码率的视频，控制模块具有搜集网络参数评估网络状况的能力，该模块使用Q学习的方法根据网络的动态变化，并结合接收端的用户体验质量QoE,自适应的调整发端的视频速率。

首先根据视频传输的具体场景建立了基于马尔科夫决策的视频传输控制模型，然后用Q学习的方法对其进行求解，得到该视频传输场景下的最优发送速率的选择策略。该方法的实现过程主要分为两个步骤：第一步，建立基于马尔科夫决策的视频传输控制模型；第二步，使用Q学习算法对模型进行求解。

基于马尔科夫决策的视频传输控制模型的建立：自适应的视频流服务可以被建模为MDP。发送端的速率的改变对接收端缓冲区的长度和用户体验质量QoE有直接的影响，反过来，接收端缓冲区长度和用户体验体验质量QoE会影响发送速率的决策。所以本节将这两个问题联合考虑进而提出一种基于马尔科夫决策的视频传输速率自适应控制模型，该模型可以根据当前的网络状态依据一定的动作选择策略对发送端速率进行选择，同时会对所选动作的回报进行评估对下一次的动作选择进行指导。该马尔科夫决策模型的最终目标是使整个决策过程的用户体验达到最大化，以此为目标就形成了一个基于用户体验体验质量QoE的发送速率控制的闭合回路。

动作空间为A，表示所有发送端所有可选的发送速率集合。状态空间为S,表示决策时刻所测得的系统的状态集合，本文选择的状态集合包含接收端缓冲区队列长度和用户体验满意度体验质量QoE。回报函数是指动作前后用户体验满意度值的增量。

每个策略都对应一个函数Π:S→A把状态和动作相互映射。最终的最优策略表示一系列的离散的发送速率的数值。

为了使用户体验达到最优，速率控制方案应该基于当前的网络状态和队列状态。为了把马尔科夫决策过程模型应用到视频传输的速率调解问题中，首先需要将决策时刻、动作空间、状态空间、和效用函数映射到系统的参数中。整个映射过程如下：

(1)决策时刻

本文选定决策时刻为每一帧的开始，在每一帧开始时获得当前时刻系统的状态，如图2所示，每一帧的长度为T_f，本文系统状态用两个参数进行描述，包括用服务质量服务质量QoS所衡量的用户体验质量和接收端缓冲区的队列长度。在获得系统状态信息后，做出决策动作，选择合适的发送速率模式，即选择在一帧时间内发送的数据包的个数。本文为了简单起见，不考虑重传机制。

(2)状态空间

本文所考虑的系统状态包含两个部分：用户体验质量QoE和队列状态。用户体验质量QoE可由式(2-6)得到，体验质量QoE的取值在[0,5]范围内，可以根据需求把体验质量QoE平均划分为m个区间，则每个区间的长度为这样用户体验质量QoE有m个状态。假设队列长度为n,可知队列长度有n+1个状态(包含队列长度为零的情况)。队列长度是指当时队列中包含的数据包数目，主要受接收端缓冲区的数据包进入速率和播放速率有关，而缓冲区数据包进入速率就是发送端速率和丢包率的差值。因此系统共有m(n+1)个状态，可以得到系统的状态空间S＝{(i,j)|i＝0,1,2,…,m-1；j＝0,1,2,…,n}。

(3)动作空间

某时刻动作a定义为系统状态为(i,j)时对于发送速率的调整，也就是选择一个合适的发送速率，本文假设有X种可供选择的发送速率模式，发送速率模式框图如图3所示。每一个发送速率是指在一个时间间隔内所发送的数据包的个数，例如当发送速率选择为1时表示在一个时间间隔内发送1个数据包，发送速率为2时表示在一个时间间隔内发送两个数据包，那么动作空间可以表示为a＝{1,2,…,X}，显然上述集合是一个有限行动集，所以存在一个最优策略。

(4)转移概率

转移概率是指系统从一个状态转移到另一个状态的概率，由马尔科夫性可知，下一步的状态只与当前的状态有关，而与之前的所有时刻的状态无关，所以改转移概率只与当前状态和动作的选取有关。本文考虑的状态包括两个因素：用户体验体验质量QoE和缓冲区队列长度。从理论上来说改转移概率是存在的，但是很难通过分析求得精确的转移概率表达式，但是依然可以对本文的视频传输的发送速率自适应控制进行MDP建模，在后面对该模型进行求解的过程中我们先择了Q学习算法从避免了求解转移概率。

(5)效用函数：

为了减小MDP的复杂度，状态空间应该尽可能的小，同时每个状态应包含足够的信息，以便对每个可能的行为的效用函数进行准确的评估。为了方便起见，我们把回报函数r作为效用函数，那么MDP模型的效用函数为

ρ(s_t,s_t+1,a_t)＝r(τ(t),b(t),p(t))

τ(t),b(t),p(t)是状态空间的几个参数，可以根据实际情况进行调整。

由于在此MDP问题中，最终的优化目标是使用户体验体验质量QoE达到最佳。那么可以设计回报函数为每次动作后的体验质量QoE增量

r(k)＝ΔQoE(k)＝QoE(i′,j′)-QoE(i,j)

其中表示在动作a(i,j)作用下系统由状态(i,j)转移到了状态(i′,j′)。k表示此次动作是第k次决策。QoE(i,j)为状态(i,j)时的用户满意度，QoE(i′,j′)为状态(i′,j′)时的用户满意度。

(6)报酬函数

每个决策时刻感知探测得到系统状态S后需选择动作a,也就是说每次探测得到系统状态后都要选择一个对应的速率模式，选择准则采用Boltzmann搜索算法：

动作前后的用户体验的体验有两种情况：选择动作a后，用体验体验质量QoE得到改善，即ΔQoE＞0；选择动作a后，用体验体验质量QoE变差，即ΔQoE＜0。因此，可以定义报酬函数为：

其中，K表示整个视频传输过程所需探测的总次数，即一共有K个决策时刻。

若想得到最优策略Π^*(s)需要求得状态转移概率和回报函数的数学期望。由于本文系统的状态包括体验质量QoE和队列长度，用户体验体验质量QoE由时变的无线网络所决定，所以很难通过计算得到精确的状态转移概率。求解最优策略问题可以通过动态规划来解决，但是计算的复杂度会随着问题的维度的增加而急剧增加。动态规划方法用于视频传输的两个缺点：计算量大；需要事先知道网络和视频内容的统计数据。相比较而言，RL算法通过经验获得网络状况的统计数据，计算量较小。所以，为了解决维度灾难，可以使用强化学习的方法，比如Q学习，通过反复实验可以收敛到最优解。

Q学习算法对马尔科夫决策模型的求解：把Q学习应用到视频传输系统中，其工作原理图如图4所示。每一次迭代，控制模块获得无线网络环境状态，并根据一定的动作选择策略选择发端的速率，此动作将在后续影响无线网络环境。在选择了新的发送速率后，接收端缓冲区的长度和用户体验质量QoE也会相应的发生变化，所以无线网络环境状态s变为了新的状态s′，无线网络环境同时也产生一个强化信号r并且反馈给学习代理模块。

把Q学习应用到本文的视频传输系统中，Q学习的各个要素与视频传输系统的各个参数的对应关系为：状态S对应于MDP模型中状态空间，动作a对应于MDP模型的动作空间，强化信号对应于MDP模型的效用函数，环境就是用于传输视频的无线网络环境。学习代理包含网络性能评估、收益判决和动作选择等模块，其框图如图5所示。它的作用是在决策时刻搜集网络参数，并通过计算得到用户体验体验质量QoE和队列长度q(t)，并完成收益判决、Q值更新和动作选择。

Q学习通过以下迭代规则来获得其中，α是Q学习的学习速率，γ∈[0,1)是折扣因子。Q_t(s＇,a＇)是下一步的状态s＇和下一步动作a＇对应的Q值。

学习的最终目标是最大化期望值的长期累积回报，即使得报酬函数的值最大。对于本文的视频传输系统而言，使得Q值与长期回报函数相匹配，最优策略π^*(s)是指使得报酬函数Reward值最大的一系列发送速率值。使用Q学习方法通过有限次的迭代可以得到最优策略，不用求系统状态的转移概率。

问题的映射：每一次学习代理(agent)可获得当前网络环境下视频传输的时延、缓存区队列长度和用户体验满意度，根据当前所选择的策略选择发送端的速率，反过来将影响网络参数。因为当所选择的发送速率与当前的网络相匹配时会有较低的时延、较低的丢包率以及较高的频带利用率，反之亦然。根据这些网络参数来计算相应的回报值即强化信号，并且反馈给学习代理。

在将Q学习算法应用于无线异构网络视频传输系统前，需要将系统状态、动作和回报等因素映射到实际的传输模型中，具体的映射过程在前面MDP模型的建立中已详细讨论，此处不再赘述。

在强化学习系统中，如何选择动作是一个重要的问题，这体现了系统与环境的交互过程，并通过不断学习，使Q值表向最优的方向更新。传统的贪心算法容易陷入局部最优，为了平衡探索与利用的关系，故采用Boltzmann搜索算法：T为模拟退火中的“温度”参数，并随迭代逐渐降为0。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于Q学习的无线网络视频传输自适应控制方法，其特征是，包括如下步骤：

2.根据权利要求1所述的一种基于Q学习的无线网络视频传输自适应控制方法，其特征是，所述步骤2)的具体内容为：

3.根据权利要求1所述的一种基于Q学习的无线网络视频传输自适应控制方法，其特征是，所述步骤1)中采用马尔科夫决策过程模型应用到视频传输的速率调解时需要将决策时刻、动作空间、状态空间和效用函数映射到系统的参数中，整个映射过程如下：

b)获得状态空间：用服务质量QoS所衡量的用户体验质量可由下式得到：Qa是一个不同网络类型反映不同QoE值的常量，A表示视频的分辨率等级，常量R反应视频帧结构中GOP的长度，体验质量QoE的取值在[0,5]范围内，根据需求把体验质量QoE平均划分为m个区间，则每个区间的长度为用户体验质量QoE有m个状态；

设计回报函数为每次动作后的体验质量QoE增量r(k)＝ΔQoE(k)＝QoE(i′,j＇)-QoE(i,j)，其中表示在动作a(i,j)作用下系统由状态(i,j)转移到了状态(i＇,j＇)，k表示此次动作是第k次决策，QoE(i,j)为状态(i,j)时的用户满意度，QoE(i＇,j＇)为状态(i＇,j＇)时的用户满意度；

4.根据权利要求1所述的一种基于Q学习的无线网络视频传输自适应控制方法，其特征是，所述步骤2)中使用Q学习算法对模型进行求解时，Q学习算法的各个要素与视频传输系统的各个参数的对应关系为：状态S对应于MDP模型中状态空间，动作a对应于MDP模型的动作空间，强化信号对应于MDP模型的效用函数，环境对应用于传输视频的无线网络环境；