CN113259657A

CN113259657A - 基于视频质量分数的dppo码率自适应控制系统和方法

Info

Publication number: CN113259657A
Application number: CN202110541262.9A
Authority: CN
Inventors: 滕国伟; 汤佳斌
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-08-13

Abstract

本发明提供了一种基于视频质量分数的DPPO码率自适应控制系统和方法，包括：发送端：获取实时视频包，并发送至视频质量分数预测模块和接收端；视频质量分数预测模块：根据视频包获取当前视频帧的空时域信息和预测未来视频帧的质量分数，将预测的质量分数送入码率自适应模块；接收端：接收到实时视频包后，反馈当前网络参数到码率自适应模块；码率自适应模块：根据预测的质量分数和当前网络参数，采用强化学习中的DPPO算法进行最优码率策略学习，得到最优比特率，进行码率自适应控制。本发明采用视频质量分数作为用户体验质量中的一项指标，在不降低视频质量的情况下，减少了比特率消耗。

Description

基于视频质量分数的DPPO码率自适应控制系统和方法

技术领域

本发明涉及视频流技术领域，具体地，涉及一种基于视频质量分数的DPPO码率自适应控制系统和方法。

背景技术

近年来，随着互联网和通信技术的发展，基于HTTP的视频流量逐渐成为网络的主要流量来源。过去七年中，移动数据流量增长17倍，其中移动视频服务占所有移动数据服务的59％，预计在2022年将增加到80％。用户的对高质量视频的需求日益增长，但是受限于网络传输条件，用户在播放高质量视频时，经常会发生卡顿，从而影响整体的观赏体验。视频流媒体的自适应码率控制算法(Adaptive Bitrate Rate,ABR)应运而生，其目的是尽可能让视频块的大小匹配当前网络带宽，从而提高网络带宽利用率，提升用户的体验质量(Quality ofExperience,QoE)。

随着计算机算力的增强，机器学习也被应用到码率自适应控制研究中，大多数算法利用强化学习虽然取得较好的效果，但是一方面一些算法没有考虑到视频质量参数，一味的选择高比特率，导致视频重新缓存，降低视频的整体观感，另外一方面存在更新步长过大的情况，导致无法有效学习，因此如果能设计一种使用强化学习的码率自适应算法，将未来视频质量作为QoE的一个指标，就能够在较低的比特率下，更好的学习特征，获得更高的视频质量。

专利文献CN101854524A(申请号：CN200910064533.5)公开了一种甚低码率视频编码器视频控制方法，它包括I帧码率控制方法和P帧码率控制方法，所述的I帧码率控制方法包括以下步骤：①建立二阶率失真模型；②求取初始量化值；③对目标位数进行分配；④求取量化值。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于视频质量分数的DPPO码率自适应控制系统和方法。

根据本发明提供的基于视频质量分数的DPPO码率自适应控制系统，包括：

发送端：获取实时视频包，并发送至视频质量分数预测模块和接收端；

视频质量分数预测模块：根据视频包获取当前视频帧的空时域信息和预测未来视频帧的质量分数，将预测的质量分数送入码率自适应模块；

接收端：接收到实时视频包后，反馈当前网络参数到码率自适应模块；

码率自适应模块：根据预测的质量分数和当前网络参数，采用强化学习中的DPPO算法进行最优码率策略学习，得到最优比特率，进行码率自适应控制。

优选的，所述视频质量分数预测模块包括空间特征提取模块和时域特征提取模块；

所述空间特征提取模块包括：采用卷积神经网络提取视频帧的空间特征；

所述时域特征提取模块包括：在经过空间特征提取后，通过长短期记忆网络提取视频序列的时域信息，保留和丢弃符合预设条件的信息，输出下一个视频包在各个比特率下的视频质量分数。

优选的，所述DPPO算法采用Actor-Critic强化学习框架，包括Actor模块和Critic模块；

所述Actor模块根据当前的状态输出动作；

所述Critic模块用于评估Actor模块采取的动作的优劣；

所述Critic模块的输入为状态s，输出为优势函数A：Qπ(s,a)-Vπ(s)，其中：Qπ(s,a指当前状态下采取的动作a所得的分数，V_π(s)指当前状态下所有动作的平均分数。

优选的，将发送端和接收端观测到的网络信息作为状态，表达为：{e,v,b,r,d,l}，其中：e表示过去k个发送的视频序列的质量分数，v表示下一个视频包在各个比特率下的视频质量分数，b表示过去k个视频序列发送的比特率，r表示接收端接收到的k个视频序列的比特率，d表示过去k个视频序列的延迟梯度，l表示前k个序列的包丢失率；

Actor模块的输出为动作的概率分布，表达式为：f(t)＝(st,at)，表示在状态st下每一个动作a_t的概率。

优选的，在Actor模块中，利用下列公式进行参数更新：

其中：

表示对期望进行求导；θ表示策略函数中的神经网络参数；γ^t表示折扣率的t次方；r表示奖励；clip表示clip函数，使目标值限定在[min,max]之内，大于max的值使其等于max，小于min的值使其等于min；ε表示界限值，为常数，利用该值标定更新步幅的上界和下界；ratio_t表示新策略与旧策略的比值，公式为：

通过第二项裁剪概率比并取最小值，在ratio变大时更新的步长不超过ε，在ratio变小时仍取值ratio本身；A_t为优势函数；t表示子线程循环步数；

Critic模块通过损失函数进行网络参数更新，表达式为：

其中：r_t表示当前策略所得到的奖励；N表示总步数；n表示当前的步数。

根据本发明提供的基于视频质量分数的DPPO码率自适应控制方法，包括：

步骤1：获取实时视频包；

步骤2：根据实时视频包获取当前视频帧的空时域信息和预测未来视频帧的质量分数；

步骤3：根据实时视频包获取当前网络参数；

步骤4：根据预测的质量分数和当前网络参数，采用强化学习中的DPPO算法进行最优码率策略学习，得到最优比特率，进行码率自适应控制。

优选的，所述步骤2包括：

步骤2.1：采用卷积神经网络提取视频帧的空间特征；

步骤2.2：通过长短期记忆网络提取视频序列的时域信息，保留和丢弃符合预设条件的信息，输出下一个视频包在各个比特率下的视频质量分数。

所述Actor模块根据当前的状态输出动作；

所述Critic模块用于评估Actor模块采取的动作的优劣；

所述Critic模块的输入为状态s，输出为优势函数A：Q_π(s,a)-V_π(s)，其中：Q_π(s,a指当前状态下采取的动作a所得的分数，V_π(s)指当前状态下所有动作的平均分数。

优选的，状态表达为：{e,v,b,r,d,l}，其中：e表示过去k个发送的视频序列的质量分数，v表示下一个视频包在各个比特率下的视频质量分数，b表示过去k个视频序列发送的比特率，r表示接收端接收到的k个视频序列的比特率，d表示过去k个视频序列的延迟梯度，l表示前k个序列的包丢失率；

Actor模块的输出为动作的概率分布，表达式为：f(t)＝(s_t,a_t)，表示在状态s_t下每一个动作a_t的概率。

优选的，在Actor模块中，利用下列公式进行参数更新：

其中：

Critic模块通过损失函数进行网络参数更新，表达式为：

与现有技术相比，本发明具有如下的有益效果：

(1)本发明采用自适应学习率的方法，能够根据不同的网络环境，选择相适应的比特率，不同网络环境都能达到最好的效果；

(2)在本发明视频质量分数预测模块，采用LSTM来预测视频质量分数，能够更加准确的去预测当前比特率下视频的质量的分数；

(3)本发明将未来视频质量作为QoE的一个指标，期望能够在较低的比特率下，获得更高的视频质量。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为基于视频质量分数的DPPO码率自适应框架图；

图2为视频质量分数预测模块图；

图3为DPPO码率自适应模块；

图4为训练流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

如图1所示，根据本发明提供的一种基于视频质量分数的DPPO码率自适应算法，整个算法框架包含：发送端和接收端。

发送端：首先发送端发送实时视频包P＝{p₀,p₁…p_i}，再经过视频质量分数模块，视频质量分数模块由当前视频帧的空时域信息预测和获取未来视频的质量分数，将预测的质量分数送入码率自适应模块；

其中：p₀表示第0个传输的视频包单元，大小为1500bit；i表示第i个视频包单元。

接收端：接收到实时视频流之后，反馈当前网络参数到码率自适应模块。

最优比特率的生成，码率自适应模块则通过视频质量分数模块得到的预测视频质量分数与接收端反馈的网络参数，利用模型选出最优比特率。

视频质量分数预测模块：如图2所示，包含空间特征提取模块和时域特征提取模块；

空间特征提取模块：发送端发送视频帧F_i＝{f_i-k-1,f_i-k,f_i-k+1…f_i}，f_i表示的是第i个视频包中采样的视频帧，可以采用卷积神经网络来提取视频帧的空间特征，k表示提取视频帧的数量。

时域特征提取模块：经过空间特征提取之后，再由长短期记忆网络来提取视频序列的时域信息，可以保留长时间需要保存的信息，同时能丢弃不重要的信息，输出的是下一个视频包的在各个比特率下的视频质量分数。

DPPO码率自适应模块：如图3所示，采用了强化学习中的DPPO在复杂网络环境进行学习最优码率策略。

DPPO采用actor-critic框架，包含两个部分：Actor模块和Critic模块。

Critic模块的输入为状态s，输出的是一个优势函数A：Q_π(s,a)-V_π(s)，Q_π(s,a是指当前状态下采取的动作a所得的分数，V_π(s)是指当前状态下所有动作的平均分数。

Critic模块用来评估Actor模块采取的动作的优劣，Actor则根据当前的状态输出动作。在DPPO中有以下重要参数：

状态(State)：把发送端和接收端观测到的网络信息作为状态。输入的状态为：{e,v,b,r,d,l}，e表示过去k个发送的视频序列的质量分数，v表示下一个视频包在各个比特率下的视频质量分数，b表示过去k个视频序列发送的比特率，r表示接收端接收到的k个视频序列的比特率，d表示过去k个视频序列的延迟梯度，l表示前k个序列的包丢失率。

动作(Action)：Actor网络输出的策略是一个动作的概率分布，定义为：f(t)＝(s_t,a_t)，意味着在状态s_t下每一个动作a_t的概率。这个策略为智能体选择动作做出指导。动作就是下一时刻要选择的码率，有以下五个码率{300，500，800，1100，1400}kbps，因此它的动作空间是离散的。

在Actor中，利用下列公式进行更新参数：

其中：

通过第二项裁剪概率比，并取最小值，通过这个方式，可以保证在ratio变大的时候，更新的步长不会超过ε，而在ratio变小的时候，则仍取ratio本身，从而使更新的步长一直在一个合理的范围内，不会过大。A_t是指优势函数，通过Critic模块获得，为：Q_π(s_t,at)-V_π(s_t)。Q_π(s,a)是指当前状态下采取的动作a所得的分数，可以写成r_t+γV_π(s_t+1)，V_π(s)是指当前状态下所有动作的平均分数，r_t表示当前策略所得到的奖励。Critic模块的loss可以写成：

结合图4所示，使用8个子线程来进行训练，具体训练步骤如下：

步骤1：初始化DPPO网络，初始化全局变量l，初始化八个线程；

步骤2：每个子线程初始化环境，令t＝0，获得s_t←s₀，t表示子线程循环步数；

步骤3-1：每个子线程都将s_t输入到DPPO网络中，获得动作a_t；

步骤3-2：与各自的环境互动获得s_t'，并更新状态s_t←s_t'；

步骤3-3：更新t←t+1，记录参数s_t、a_t、r_t；

步骤3-4：当t>＝MAX_STEP，将记录的状态传入更新线程，并进入更新参数线程，否则重复整个步骤3，MAX_STEP表示子线程最大循环步数；

步骤4：进入更新网络参数线程，利用子线程传入的参数和公式(1)更新Actor网络；

步骤5：利用公式(2)更新Critic网络；

步骤6：更新参数l←l+1，令t＝0，l表示参数更新线程循环步数；

步骤7：如果l>＝MAX_EPOCH，结束训练，保存模型，否则重复步骤3-7，MAX_EPOCH表示参数更新线程最大循环步数。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于视频质量分数的DPPO码率自适应控制系统，其特征在于，包括：

2.根据权利要求1所述的基于视频质量分数的DPPO码率自适应控制系统，其特征在于，所述视频质量分数预测模块包括空间特征提取模块和时域特征提取模块；

3.根据权利要求1所述的基于视频质量分数的DPPO码率自适应控制系统，其特征在于，所述DPPO算法采用Actor-Critic强化学习框架，包括Actor模块和Critic模块；

所述Actor模块根据当前的状态输出动作；

所述Critic模块用于评估Actor模块采取的动作的优劣；

所述Critic模块的输入为状态s，输出为优势函数A：Q_π(s,a)-V_π(s)，其中：Q_π(s,a)指当前状态下采取的动作a所得的分数，V_π(s)指当前状态下所有动作的平均分数。

4.根据权利要求3所述的基于视频质量分数的DPPO码率自适应控制系统，其特征在于，将发送端和接收端观测到的网络信息作为状态，表达为：{e,v,b,r,d,l}，其中：e表示过去k个发送的视频序列的质量分数，v表示下一个视频包在各个比特率下的视频质量分数，b表示过去k个视频序列发送的比特率，r表示接收端接收到的k个视频序列的比特率，d表示过去k个视频序列的延迟梯度，l表示前k个序列的包丢失率；

5.根据权利要求4所述的基于视频质量分数的DPPO码率自适应控制系统，其特征在于，在Actor模块中，利用下列公式进行参数更新：

其中：

Critic模块通过损失函数进行网络参数更新，表达式为：

6.一种基于视频质量分数的DPPO码率自适应控制方法，其特征在于，包括：

步骤1：获取实时视频包；

步骤3：根据实时视频包获取当前网络参数；

7.根据权利要求6所述的基于视频质量分数的DPPO码率自适应控制方法，其特征在于，所述步骤2包括：

步骤2.1：采用卷积神经网络提取视频帧的空间特征；

8.根据权利要求6所述的基于视频质量分数的DPPO码率自适应控制方法，其特征在于，所述DPPO算法采用Actor-Critic强化学习框架，包括Actor模块和Critic模块；

所述Actor模块根据当前的状态输出动作；

所述Critic模块用于评估Actor模块采取的动作的优劣；

9.根据权利要求8所述的基于视频质量分数的DPPO码率自适应控制方法，其特征在于，状态表达为：{e,v,b,r,d,l}，其中：e表示过去k个发送的视频序列的质量分数，v表示下一个视频包在各个比特率下的视频质量分数，b表示过去k个视频序列发送的比特率，r表示接收端接收到的k个视频序列的比特率，d表示过去k个视频序列的延迟梯度，l表示前k个序列的包丢失率；

10.根据权利要求9所述的基于视频质量分数的DPPO码率自适应控制方法，其特征在于，在Actor模块中，利用下列公式进行参数更新：

其中：

Critic模块通过损失函数进行网络参数更新，表达式为：