CN117014619A

CN117014619A - 一种可扩展视频编码的直播视频流码率自适应方法

Info

Publication number: CN117014619A
Application number: CN202310429675.7A
Authority: CN
Inventors: 汪子玥; 施雨含; 蒋一杭; 庞竹
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-04-21
Filing date: 2023-04-21
Publication date: 2023-11-07

Abstract

本发明公开了一种可扩展视频编码的直播视频流码率自适应方法，属于视频传输技术领域。该方法对DASH流媒体网络传输协议下使用H.264SVC格式编码的视频，根据当前缓冲区状态和网络状态使用强化学习A3C算法自适应选择码率。本发明所述方法对视频在客户端下载时的码率选择进行了优化，包括先完成视频分层编码的各层设置，再分析针对观众体验的码率决策的优化目标，最后建立基于强化学习的码率决策模型并训练模型。

Description

一种可扩展视频编码的直播视频流码率自适应方法

技术领域

本发明属于视频传输技术，具体涉及一种可扩展视频编码的直播视频流码率自适应方法。

背景技术

直播视频传输技术是对实时生成的视频流进行实时传输的技术。流式传输方式是将视频和音频等多媒体文件经过特殊的压缩方式分成一个个压缩包，由服务器向客户端连续、实时传送。客户端通过解压软件对这些数据进行解压后，多媒体就会像发送前那样显示出来。直播端使用视频、音频采集软件，从直播设备中采集音频、视频等数据，然后对这些数据进行编码并推送到服务器。流媒体服务器使用CDN网络分发数据，客户端使用各种设备里的播放器拉流、解码、播放。

基于HTTP的动态自适应流传输协议(DASH协议)是当今主要的视频传输形式。通过使用HTTP传输视频，内容提供商能够利用现有的CDN基础设施，并维护简化的(后端。此外，HTTP还兼容许多客户端应用程序，如web浏览器和移动应用程序。

在DASH中，视频被分成小段，每个片段都以几个不同的质量级别编码。然后，使用码率自适应(后称为ABR)算法根据播放缓冲区状态和估计网络带宽等信息动态确定每个视频片段的质量级别。ABR算法旨在通过在多个相互冲突的目标(如高质量、最少的重新缓冲和更少的切换质量)之间取得平衡，最大限度地提高整体QoE。互联网视频流的大量工作已经投入到更好的ABR算法的设计上，并且仍然需要进一步的改进。

大多数ABR算法旨在与称为高级视频编码(AVC)的视频编码方案配合使用。不同质量级别的同一视频片段的版本相互独立编码，并按其播放顺序下载片段。通常，所有关于视频片段码率质量只做一次决策，即ARB算法只对每个视频片段执行一次下载。因此，ABR算法取得更高QoE的能力在很大程度上取决于其对网络状态的预测，由于预测的不确定性，ABR算法可能无法在不同的QoE目标之间取得适当的平衡。

与AVC相反，可扩展视频编码(ScalableVideoCoding，SVC)。SVC将视频片段编码为数个子码流，包括基本层和加强层。通过下载加强层，可以从较低质量的版本中获得高质量的版本。当网络带宽较低时，可以下载低质量的视频片段，保证播放的流畅性。如果带宽很高，则可以将视频片段升级到更高的质量。SVC的升级能力使得做出下载决策时的灵活性更高，有利于缓解带宽波动带来的影响并提高QoE。

然而，在DASH中使用SVC面临两个挑战。一是质量升级机制带来的决策空间扩大。ABR算法不仅需要为新段选择质量级别，还必须决定是否升级缓冲段以及升级到哪些质量级别。这增加了设计ABR算法的复杂性。第二个挑战是编码开销。SVC通常需要比AVC更多的比特数才能实现相同的视觉质量。此编码开销会消耗额外的带宽，并可能降低QoE。

发明内容

发明目的：本发明提供一种可扩展视频编码的直播视频流码率自适应方法，该方法在有限的开销下最大化利用SVC的质量升级机制，实现对以视频质量、视频播放卡顿、以及视频质量切换平滑度这三个方面为主的客户下载端观看体验的综合提升。

为实现上述发明目的，本发明提供的技术方案如下。

一种可扩展视频编码的直播视频流码率自适应方法，包括以下步骤：

(1)完成支持跳转的可扩展视频编码的各层设置，包括设置视频流的编码层数，确定基本层码率大小以及各个增强层的码率大小，确定下载视频片段到缓冲区时选择加强层的方案，确定直播视频下载端针对支持跳转的可扩展视频编码的约束条件；

(2)构建直播视频下载端端对直播视频片段的码率做出决策所获得的收益函数，该收益通过用户体验质量QoE来衡量，从视频质量、视频播放卡顿、视频切换平滑度、直播播放时延四个方面对观众的观看体验进行量化；

(3)建立基于强化学习的码率决策模型，使用A3C算法，确定状态空间、决策空间和actor网络和critic网络的输入、输出，将步骤(2)的优化目标作为衡量决策合理性的标准；最后训练模型，直到得到较好的性能。

进一步的，步骤(1)对使用可扩展视频编码的跳转混合编码的视频片段的分层进行如下设置：视频片段可编码为一个基础层和若干加强层，基础层可以选取较低码率的片段版本，然后叠加加强层来进行质量升级。该方法对视频段的质量进行分级，-共分Q个质量等级，每个视频段都有一个基本层和l个加强层；Base(x)表示基本层的质量等级为x；Enhance_i(x，m，n)表示第i个加强层能够实现将基本层质量等级为x的的视频片段从当前的m质量升级到n质量；

最终视频片段的码率质量为q，具体公式如下所示：

q＝Base(x)+∑Enhance_i(x，m，n)

下载端下载采用支持跳转的可扩展视频编码的直播视频片段时，满足以下约束条件：

条件一：只有完全上传后才能对下载进行决策。

条件二：下载的视频片段的最终码率q不能大于上传端所限制的码率q_u。

因此，上式的约束条件为：

1≤x≤Q-1

x≤m＜n≤q≤Q

q≤q_u

0≤i≤l

在使用SVC编码时，接受端首先将直播视频片段下载到缓冲区中，视频片段由不同码率质量的基本层和加强层组成，再从缓冲区中播放给客户。

进一步的，步骤(2)所述视频下载端用于表达传输视频片段所选择的码率能够获得的视频质量收益通过用户体验质量QoE来衡量。

QoE的基本评估方案表示为：

其中q_n为第n个视频片段最终的码率质量等级；f(q_n)将码率映射到一个用户感知的质量；μ为单位时间重新缓冲的惩罚系数；T_r(q_n)为第n个视频片段以码率质量q_n进行下载时可能发生的重新缓冲的时间；|f(q_n-1)-f(q_n)|用来衡量视频质量切换的流畅(平滑)度；T_w(q_n)表示第n个视频片段以码率质量q_n下载完毕后直到即将播放要经历的播放时延；η为单位时间延时的惩罚。

对于QoE和对应的f(q_n)，考虑三种选择：

(a)对于常规的线性指标的QoE_base(n)，计算时采用f(q_n)＝q_n；

(b)对于考虑到敏感度变化的QoE_log(n)，计算时采用f(q_n)＝log(q_n/q_min)；

(c)对于优先高清视频的QoE_HD(n)，计算时为非高清码率等级指定低质量的f(q_n)，为高清码率指定高质量f(q_n)。用于体验质量QoE可根据码率等级来确定，将不同的码率等级划分为高清和非高清，非高清码率等级指定低质量的f(q_n)是相对高清码率等级指定的f(q_n)而言。

其中，QoE_base(n)、QoE_log(n)、QoE_HD(n)表示根据不同方案下载第n个视频片段获得的量化的整体用户体验质量QoE的大小，f(q_n)为码率等级q_n对应的量化的用户感知到的质量，q_n表示第n个视频块的码率，q_min表示最低码率等级。

对于重新缓冲时间T_r(q_n)，可表示为：

T_r(q_n)＝max{T_d(q_n)-T_b，0}

其中T_d(q_n)表示下载码率质量为R_n的第n个视频片段所需要的时间，T_b表示缓冲区中之前已下载的视频的长度。

T_d(q_n)满足以下条件：

其中B(k)表示k时刻的网络带宽，t(k)表示k-1时刻与k时刻之间实际的时间间隔，V(q_n)为第n块视频片段采用码率质量q_n下载时的数据量。

T_w(q_n)可表示为：

其中T_b表示缓冲区中之前已下载的视频的长度，T_d(q_n)表示下载码率质量为q_n的第n个视频片段所需要的时间。

进一步的，步骤(3)中构建的基于强化学习的码率决策模型的网络结构为两个神经网络：Actor网络和Critic网络，使用A3C算法训练模型。

其中，输入Actor网络和Critic网络的下载第t个视频片段后的网络状态s_t为：

s_t＝(b_t，v_t，p_t，d_t，q_t，w_t)

其中，b_t为已下载段占用的缓冲区的部分，v_t表示第t个视频片段已确定的加强层的大小，p_t是过去k个视频片段的网络吞吐量度量，即已下载的过去k个视频片段的总体的数据量；d_t是过去k个视频块的下载时间，表示p_t吞吐量测量的时间间隔；q_t表示缓冲区中每个视频片段的质量；w_t表示缓冲区中每个视频片段播放给用户之前的时间。

Actor网络和Crit_ic网络使用的决策空间A为：

A＝{a_t}，1≤t≤N

其中，N表示可选择的决策总数，a_t表示下载第t个视频片段时对基本曾和加强层做出的决策，可表示如下：

a_t∈{Base(x)}∪

{(Base(x)，Enhance₁(x，m，n))}∪

{(Base(x)，Enhance₁(x，x，n)，Enhance₂(x，m，n))}

其中，Base(x)表示基本层的质量等级为x；Enhance₁(x，m，n)表示第1个加强层能够实现将基本层质量等级为x的的视频片段从x质量升级到m质量，Enhance₂(x，m，n))表示第2个加强层能够实现将基本层质量等级为x的的视频片段从m质量升级到n质量。

Actor网络和Critic网络对第t个视频片段的下载决策所获得的奖励r_t根据步骤(2)中的用户体验质量QoE来衡量，即：

r_t＝QoE(t)

进一步的，Actor网络的输入为下载第t个视频片段后的网络状态s_t，Critic网络的输入为s_t和a_t。Actor网络的输出为决策空间A上的概率分布，可表示为：

π：π_θ(s_t，a_t)→[0，1]

其中，π(s_t，a_t)表示神经网络使用参数θ时，在状态s_t时采取策略a_t的概率。

Critic网络的输出为决策获得的奖励的值函数表示从状态s_t开始并遵循概率分布π_θ做出决策可获得的总奖励的期望。

有益效果：与现有技术相比，本发明所述方法实质性的特点和显著效果包括如下三个方面：

(1)本发明所述方法不同于一般混合编码的SVC，而是使用了支持跳转的可扩展视频编码的SVC方案。每一个加强层能够使视频片段的质量跳跃式升级，而非一级一级升级，这也适量地减少了一定地编码开销，也带来了更大的编码决策空间。相比于高级视频编码，SVC编码的视频片段往往更大。这种大小差异被称为编码开销，它们通常与所需的质量级别的增强层数成正比。

(2)本发明使用的基于强化学习的决策模型提高了码率自适应的灵活性，能够为用户提供更好的视频观看体验。

(3)本发明可以和现有的直播视频流传输框架相结合，具有很高的实用性，且应用范围广泛。

附图说明

图1为本发明所述方法的流程图；

图2为本发明对于可扩展视频编码的各层设置示意图；

图3为本发明使用的基于强化学习的决策模型的示意图。

具体实施方式

为详细的说明本发明所公开的技术方案，下面结合附图及具体实施例对本发明做进一步的表述。

本发明所提供的是一种可扩展视频编码的直播视频流码率自适应方法，该方法对DASH流媒体网络传输协议下使用H.264SVC格式编码的视频，根据当前缓冲区状态和网络状态使用强化学习A3C算法自适应选择码率。本发明所述方法对视频在客户端下载时的码率选择进行了优化，主要包括以下步骤：先完成视频分层编码的各层设置，再分析针对观众体验的码率决策的优化目标，最后建立基于强化学习的码率决策模型并训练模型。

结合图1-图3，本发明所述方法具体实施步骤及过程如下：

S1、完成支持跳转的可扩展视频编码的各层设置，包括设置视频流的编码层数，确定基本层码率大小以及各个增强层的码率大小，确定下载视频片段到缓冲区时选择加强层的方案，确定直播视频下载端针对可扩展视频编码的约束条件。

具体的，步骤(S1)包括以下过程：

步骤S101，完成支持跳转的可扩展视频编码的各层设置：

本发明将视频段的质量分成Q个质量等级，令Q＝6，每个视频段都有一个基本层和l个加强层，令l＝2。Base(x)表示基本层的质量等级为x，满足1≤x≤Q-1，基本层的等级不能太高也不能太低。Enhance_i(x，m，n))表示第i个加强层能够实现将基本层质量等级为x的的视频片段从当前的m质量升级到n质量，其中x≤m＜n≤q≤Q，0≤i≤l。最后视频片段的质量为q，具体公式如下所示：

q＝Base(x)+∑Enhance_i(x，m，n)

步骤S102，确定下载视频片段到缓冲区时选择加强层的方案：

在将使用跳转混合编码的视频片段下载到缓冲区时，本发明采取以下三个步骤，实现升级视频质量的方案。

(1)为下一个视频片段下载一个基本层：为了使视频片段达到一定质量级别，可以通过选择更高质量的基础层而非选择最低质量的基础层，从而也能够来减少所需的增强层的数量。

(2)添加一个加强层来给视频段的质量上升一个等级：当缓冲区中所有视频片段的质量都一样时，本发明所述方法为缓冲区中一个视频段添加一个加强层Enhance_i(x，m，n)。该加强层的作用是选中的该视频段上升一个质量等级，以防在步骤(3)中缓冲区里所有视频段质量都一样，从而找不到一个可以参照的视频段来执行质量升级方案。

(3)为缓冲区里的视频段进行适量升级：对于缓冲区里的一个视频片段，先观察其相邻两个视频片段的指令等级。当该视频段只有一个质量更高的相邻片段，那就给该视频片段叠加一个加强层，使其质量升级到和相邻片段一样的质量等级；当该视频段的相邻片段质量都比它更高，那就以它右边的相邻片段为参照，使其质量升级到和右相邻片段一样的质量等级。

步骤S103，确定直播视频下载端针对可扩展视频编码的约束条件：

条件一：只有完全上传后才能对下载进行决策。下载端对一个视频片段码率的决策，必须是在上传端完全上传完该视频片段的基础上完成的。上传端以一个码率质量上传一个视频片段后，经过网络传送到下载端，然后下载端才能够决定以什么码率质量下载这个视频片段。

条件二：下载的视频片段的最终码率q不能大于上传限制的码率q_u。上传端遵循DASH协议，将以SVC编码的视频片段传送到下载端，下载端对该视频片段码率质量的决策必须以视频片段的最高码率质量为限制。上传端上传时，已经决定了该视频片段SVC编码，也就决定了该视频片段的基础层的码率质量和加强层的层数l及每层的码率质量Enhance_i(x，m，n)(0≤i≤l)，也进一步确定了其最高码率质量q。在下载时，该视频片段的视频码率质量不能超过上传时决定的最高码率质量。也就是说，下载端在上传端的加强层中选择合适的的加强层，和基础层一起构成该视频片段的下载码率质量。例如在上传端一个视频片段的SVC编码由基础层Base(x)和两个加强层Enhance₁(x，x，y)、Enhance₂(x，y，z)构成，下载端下载该视频片段时就可以根据当前的网络状态和缓冲区状态只下载一个基础层Base(x)，此时q＝x；或下载一个基础层Base(x)和一个加强层Enhance₁(x，x，y)，此时q＝y；或者下载一个基础层Base(x)和和两个加强层Enhance₁(x，x，y)、Enhance₂(x，y，z)，此时q＝z。

S2、构建下载端对视频片段的码率做出决策所获得的收益函数，用QoE表示。

QoE是指用户体验质量，即用户在使用某种产品、服务或应用程序时所感受到的满意度和质量。在直播视频流传输领域，QoE是一个非常重要的指标，可以用来评估视频流传输的质量和用户的观看体验。直播视频流传输的质量对用户的观看体验有着至关重要的影响。用户会根据视频的清晰度、流畅度、启动时间、卡顿率等指标来评估视频流传输的质量。如果视频质量不佳，用户的观看体验就会受到影响，甚至可能会放弃观看。根据步骤(S1)，所作决策最终表现为使用了加强层的视频片段的码率等级，因此在步骤(S2)中QoE通过码率等级来衡量。

步骤(S2)首先分析下载端用户的观看体验，在直播视频流传输中，常用的QoE评估指标包括：

(1)视频的清晰度：视频的清晰度越高，用户的观看体验就越好。清晰度在本发明中体现为视频片段的质量，即最终呈现的码率。

(2)视频的流畅度：视频的流畅度越高，用户的观看体验就越好。流畅度在本发明中表现为视频质量切换的平滑度，当前一个视频片段和后一个视频片段呈现不同的码率时，就会发生切换不流畅的观感，降低用户体验。

(3)视频的启动时间：视频的启动时间越短，用户的观看体验就越好。

(4)视频的卡顿：视频的卡顿越少，用户的观看体验就越好。卡顿在本发明中体现为缓冲区的重新缓冲事件，即缓冲区中所有视频片段都播放完毕，而下一块视频片段并没有下载好，在用户看来就是视频卡顿，经过一段时间缓冲后才能继续播放，降低用户体验。

因此，常规的QoE指标由视频片段最终呈现的码率大小带来的正收益、视频片段可能造成的视频质量切换带来的负收益，以及视频片段带来的重新缓冲的负收益构成，可表示为：

在此基础上，考虑直播产生的播放时延，即下载完时刻与播放时刻之间的差值也称为播放延迟，它是指视频流媒体的数据在传输和播放过程中所经历的时间延迟。播放延迟越大，表示用户在观看视频时需要等待更长的时间，这会降低用户的观看体验。因此，从QoE的角度来看，播放延迟越小越好，越大越不好。增加播放时延的收益函数可表示为：

由于用户对视频流媒体QoE的偏好存在很大差异，有些用户倾向于更清晰的视频，有些用户倾向于更流畅的播放，因此，考虑了多种QoE评价指标，用三种f(q_n)的选择来表示，其对应的f(q_n)和μ如下表所示：

其中：

(a)常规的线性指标的QoE_base(n)：f(q_n)＝q_n。常规的线性指标。

(b)考虑到敏感度变化的QoE_log(n)：f(q_n)＝log(q_n/q_min)。对于一些用户来说，如果已经在使用较高的码率，提高码率质量并不会显著提高用户体验，此时用户体验对码率质量的提高不敏感。

(c)优先高清视频的QoE_HD(n)：该指标有利于高清(HD)视频。它为非高清比特率分配一个低质量分数，为高清比特率分配一个高质量分数。对于偏好更高质量视频的用户，采用这种指标有更好的效果。例如如果有六种码率，将前三种视为非高清，后三种视为高清，为前三种指定比线性更低的f(q_n)，后三种指定比线性更高的f(q_n)。

式中，QoE_base(n)、QoE_log(n)、QoE_HD(n)表示根据不同方案下载第n个视频片段获得的量化的整体用户体验质量QoE的大小，f(q_n)为码率等级q_n对应的量化的用户感知到的质量，q_n表示第n个视频块的码率，q_min表示最低码率等级。

对于重新缓冲时间T_r(q_n)，可表示为：

T_r(q_n)＝max{T_d(q_n)-T_b，0}

其中T_d(q_n)表示下载码率质量为R_n的第n个视频片段所需要的时间，T_b表示缓冲区中之前已下载的视频的长度。若第n个视频片段的下载时间超出缓冲区已有的视频时间总长度，当缓冲区中所有已下载的视频都播放完毕时，第n个视频片段尚未下载完，需要等待第n个视频片段下载完毕，导致重新缓冲事件，出现卡顿。

T_d(q_n)满足以下条件：

其中B(k)表示k时刻的网络带宽，t(k)表示k-1时刻与k时刻之间实际的时间间隔，V(q_n)为第n块视频片段采用码率质量q_n下载时的数据量。即经过T_d(R_n)时刻后，总是以当前网络带宽为下载速率，下载质量为q_n的第n块视频片段所需要的时间。

对于播放时延T_w(q_n)，可表示为：

当T_w(q_n)很大时，意味着视频的数据下载速度较慢或者网络带宽较小，导致视频数据无法及时地传输到用户设备，从而产生了较长的播放延迟。这会使用户等待时间变长，容易导致用户流失和不满意度的增加，降低用户对直播服务的信任度和忠诚度，影响直播服务的商业价值和用户满意度。

当T_w(q_n)很小时，表示视频数据传输和处理速度较快，用户能够较快地看到最新的直播内容，这会提高用户的观看体验和满意度，从而增强用户对直播服务的信任度和忠诚度，提高直播服务的商业价值和用户满意度。

S3、建立基于强化学习的码率决策模型并训练模型。

本发明使用A3C算法，即具有优势函数、使用异步训练框架的Actor-Critic算法。A3C算法使用Actor和Critic两个神经网络进行学习，并使用多个agent异步训练网络。在本发明中使用了16个子agent和一个中心agent，每个agent都可以异步地训练Actor-Critic网络。

具体的，步骤(S3)包括如下过程：

步骤S301，确定状态空间、决策空间、奖励函数和actor网络和critic网络的输入、输出，将步骤(2)的收益函数为衡量决策合理性的标准。

不同于AVC，SVC需要同时考虑加强层和基本层的码率，因此需要在状态空间中纳入加强层的码率。同时，本发明将过去的吞吐量历史也纳入状态空间，以优化实际的网络特征。只考虑1个过去下载的视频片段并不能提供足够的信息来推断未来的网络特征，而考虑到过去的k个视频片段，模型就可以提取更多的信息并改进其决策。

因此，最终Actor网络和Critic网络使用的网络状态s_t为：

s_t＝(b_t，v_t，p_t，d_t，q_t，w_t)

对于决策而言，由于支持跳转的可扩展视频编码需要同时考虑基本层码率的选择和加强层码率的选择，因此增大了决策空间。Actor网络和Critic网络使用的决策空间A表示为：

A＝{a_t}，1≤t≤N

a_t∈{Base(x)}∪

{(Base(x)，Enhance₁(x，m，n))}∪

{(Base(x)，Enhance₁(x，x，n)，Enhance₂(x，m，n))}

Actor网络和Critic网络对第t个视频片段的下载决策所获得的奖励r_t根据步骤(2)中的用户体验质量QoE来衡量，可表示为：

r_t＝QoE(t)

Actor网络的输入为下载第t个视频片段后的网络状态s_t，Critic网络的输入为s_t和a_t。Actor网络的输出为决策空间A上的概率分布，可表示为：

π：π_θ(s_t，a_t)→[0，1]

使用的A3C算法对Actor网络的参数θ的更新公式为：

使用的A3C算法对Critic网络的参数θ_v的更新公式为：

其中α表示学习率，H是Actor网络输出的策略(表现为概率分布)在每个决策时间步长上的熵，这个项通过推动向更高熵的方向来鼓励探索。参数β在训练开始时被设置为一个很大的值以鼓励探索，并随着时间的推移而减少，以把重点放在提高奖励。A(s_t，a_t)表示在状态s_t下选择决策a_t时所获得的总奖励的期望与根据当前Actor输出的策略做出决策得出的总奖励的期望之差，优势函数说明了一个特定的决策a_t比根据当前Actor输出的策略采取的好或差多少。

步骤302，根据以上策略训练模型。当模型达到较好的性能后，可认为完成训练。该模型每下载一个视频片段，就根据下载端当前的状态，在决策空间中选择具有最高奖励值的决策并执行，直到播放完视频。

Claims

1.一种可扩展视频编码的直播视频流码率自适应方法，其特征在于，所述方法包括以下步骤：

(1)完成支持跳转的可扩展视频编码的各层设置，包括设置视频流的编码层数，确定基本层码率大小以及各个增强层的码率大小，确定下载视频片段到缓冲区时选择加强层的方案，确定直播视频下载端针对可扩展视频编码的约束条件；

(2)构建直播视频下载端端对直播视频片段的码率做出决策所获得的收益函数，该收益是通过用户体验质量QoE来衡量，从视频质量、视频播放卡顿、视频切换平滑度、直播播放时延四个方面对观众的观看体验进行量化；

(3)建立基于强化学习的码率决策模型，使用A3C算法，确定状态空间、决策空间和Actor和Critic的输入、输出，将步骤(2)的收益函数作为衡量决策合理性的标准，最后训练模型以输出。

2.根据权利要求1所述的可扩展视频编码的直播视频流码率自适应方法，其特征在于，步骤(1)包括对于基于可扩展视频编码实现的跳转混合编码的视频片段进行分层设置，视频片段编码为一个基础层和若干加强层，还包括对视频段的质量进行分级，一共分Q个质量等级，每个视频段都有一个基本层和l个加强层；

所述的可扩展视频编码的呈现的码率q由基本层的码率和加强层的码率决定，表示为：

q＝Base(x)+∑Enhance₁(x，m，n)

满足约束条件：

1≤x≤Q-1

x≤m＜n≤q≤Q

q≤q_u

0≤i≤l

其中Q表示可选的码率等级的个数；l表示加强层个数；q表示最终视频片段的码率质量；q_u表示上传端所限制的码率；Base(x)表示基本层的质量等级为x；Enhance_i(x，m，n)表示第i个加强层能够实现将基本层质量等级为x的的视频片段从m质量升级到n质量。

3.根据权利要求1所述的可扩展视频编码的直播视频流码率自适应方法，其特征在于，步骤(2)所述的下载端对视频片段的码率做出决策所获得的收益函数通过用户体验质量QoE来衡量；

下载第n个视频片段获得的QoE的基本评估方案表示为：

其中q_n为第n个视频片段最终的码率质量等级；f(q_n)是将码率映射到一个用户感知的质量；μ为单位时间重新缓冲的惩罚系数；T_r(q_n)为第n个视频片段以码率质量q_n进行下载时可能发生的重新缓冲的时间；|f(q_n-1)-f(q_n)|用来衡量视频质量切换的平滑度；T_w(q_n)表示第n个视频片段以码率质量q_n下载完毕后直到即将播放要经历的播放时延；η为单位时间延时的惩罚。

4.根据权利要求1或3所述的可扩展视频编码的直播视频流码率自适应方法，其特征在于：考虑到下载端当前网络带宽、缓冲区已有的视频大小、和第n个视频片段的数据量，对于第n个视频片段在下载时可能会发生重新缓冲，发生重新缓冲的时间T_r(q_n)和播放时延T_w(q_n)，T_r(q_n)表示为：

T_r(q_n)＝max{T_d(q_n)-T_b，0}

其中T_d(q_n)表示下载码率质量为R_n的第n个视频片段所需要的时间，T_b表示缓冲区中之前已下载的视频的长度；

T_d(q_n)满足以下条件：

其中B(k)表示k时刻的网络带宽，t(k)表示k-1时刻与k时刻之间实际的时间间隔，V(q_n)为第n块视频片段采用码率质量q_n下载时的数据量；

T_w(q_n)可表示为：

5.根据权利要求3所述的可扩展视频编码的直播视频流码率自适应方法，其特征在于，根据不同的用户体验质量QoE要求，第n个视频块的码率q_n映射到一个用户感知的质量f(q_n)，存在以下三种方案：

(a)对于常规的线性指标的QoE_base(n)，计算时采用f(q_n)＝q_n；

(c)对于优先高清视频的QoE_HD(n)，计算时为非高清码率等级指定低质量的f(q_n)，为高清码率指定高质量f(q_n)；

6.根据权利要求1所述的可扩展视频编码的直播视频流码率自适应方法，其特征在于，步骤(3)所述的基于强化学习的码率决策模型使用A3C算法训练中，每下载一个视频片段，码率决策模型会根据下载端当前的状态，在决策空间中选择具有最高奖励值的决策并执行，直到播放完视频。

7.根据权利要求6所述的可扩展视频编码的直播视频流码率自适应方法，其特征在于，码率决策模型下载第t个视频片段后的网络状态s_t为：

s_t＝(b_t，v_t，p_t，d_t，q_t，w_t)

其中，b_t为已下载段占用的缓冲区的部分，v_t表示第t个视频片段已确定的加强层的大小，p_t是过去k个视频片段的网络吞吐量度量，即已下载的过去k个视频片段的总体的数据量，k满足2≤k≤128；d_t是过去k个视频块的下载时间，表示p_t吞吐量测量的时间间隔；q_t表示缓冲区中每个视频片段的质量；w_t表示缓冲区中每个视频片段播放给用户之前的时间。

8.根据权利要求1或6所述的可扩展视频编码的直播视频流码率自适应方法，其特征在于：码率决策模型使用的决策空间A为：

A＝{a_t}，1≤t≤N

其中，N表示可选择的决策总数，a_t表示下载第t个视频片段时对基本曾和加强层做出的决策，表示如下：

a_t∈{Base(x)}∪

{(Base(x)，Enhance₁(x，m，n))}∪

{(Base(x)，Enhance₁(x，x，n)，Enhance₂(x，m，n))}

9.根据权利要求1或6所述的可扩展视频编码的直播视频流码率自适应方法，其特征在于：Actor网络和Critic网络对第t个视频片段的下载决策所获得的奖励r_t根据用户体验质量QoE来衡量，即码率决策模型的奖励函数r_t为：

r_t＝QoE(t)

QoE(t)表示第t个视频片段的下载时的用户体验质量。

10.根据权利要求1或6所述的可扩展视频编码的直播视频流码率自适应方法，其特征在于：Actor网络的输入为下载第t个视频片段后的网络状态s_t，Critic网络的输入为s_t和a_t；Actor网络的输出为决策空间A上的概率分布，表示为：

π：π_θ(s_t，a_t)→[0，1]

其中，π(s_t，a_t)表示神经网络使用参数θ时，在状态s_t时采取策略a_t的概率；