CN108063961B

CN108063961B - 一种基于强化学习的自适应码率视频传输方法以及系统

Info

Publication number: CN108063961B
Application number: CN201711407905.0A
Authority: CN
Inventors: 马骁; 张桐
Original assignee: Shenzhen Yunnet Bate Technology Co ltd
Current assignee: Shenzhen yunnet bate Technology Co., Ltd.
Priority date: 2017-12-22
Filing date: 2017-12-22
Publication date: 2020-07-31
Anticipated expiration: 2037-12-22
Also published as: CN108063961A

Abstract

本发明公开了一种基于强化学习的自适应码率视频传输方法以及系统，方法包括：将需要下载的视频块所对应的状态空间输入到码率预测神经网络，码率预测神经网络输出码率策略；根据码率预测神经网络输出的码率策略下载需要下载的视频块；在每个视频块下载完毕后，计算其所对应的视频播放质量指标并返回给码率预测神经网络；码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。本发明在提高服务质量的同时，算法更好的适应了多种不同的网络条件，并且极大的降低了规则设置和参数调优的人工时间成本，避免了人工特征选择和规则设置带来的效率问题，在节省配置调试时间的同时也大大的提高了视频质量体验。

Description

一种基于强化学习的自适应码率视频传输方法以及系统

技术领域

本发明涉及视频传输领域，尤其涉及一种基于强化学习的自适应码率视频传输方法以及系统。

背景技术

近年来随着无线网络的发展，基于HTTP协议的视频应用越来越丰富。随之而来的是用户对视频质量的需求也在不断提升，如果视频质量不佳，用户会很快放弃观看，因此如何将高质量的视频提供给用户成了各大视频平台运营商重点的研究领域之一。

自适应码率算法是内容提供商用来优化视频质量的主要手段，现有的主流自适应码率算法通过估算网络吞吐率并结合控制规则来选择码率，需要大量的调优工作，并且很难在不同网络和服务质量目标下泛化。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于强化学习的自适应码率视频传输方法以及系统。

本发明解决其技术问题所采用的技术方案是：构造一种基于强化学习的自适应码率视频传输方法，包括：

将需要下载的视频块所对应的状态空间输入到码率预测神经网络，码率预测神经网络输出码率策略；

根据码率预测神经网络输出的码率策略下载需要下载的视频块；

在每个视频块下载完毕后，计算其所对应的视频播放质量指标并返回给码率预测神经网络；

码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。

在本发明所述的基于强化学习的自适应码率视频传输方法中，所述方法还包括：在每个视频块下载之前，采集原始数据，并依据采集的原始数据生成状态空间；

其中，所述状态空间包括：最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率，其中k为正整数。

在本发明所述的基于强化学习的自适应码率视频传输方法中，所述码率预测神经网络由Actor网络和Critic网络组成，

所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练，包括：

将最近下载完成的视频块所对应的状态空间输入到Critic网络；

Critic网络输出对Actor网络最近输出的码率策略的一个评分；

Actor网络利用Critic网络输出的评分更新自身网络参数；

Critic网络根据返回的视频播放质量指标更新自身网络参数。

在本发明所述的基于强化学习的自适应码率视频传输方法中，所述的码率预测神经网络输出码率策略，包括：将需要下载的视频块所对应的状态空间输入到Actor网络，Actor网络输出需要下载的视频块所对应的码率策略。

在本发明所述的基于强化学习的自适应码率视频传输方法中，所述Actor网络和Critic网络采用策略梯度方法更新网络参数，Actor网络使用Critic网络的输出作为训练目标，Critic网络使用返回的视频播放质量指标作为训练目标。

在本发明所述的基于强化学习的自适应码率视频传输方法中，所述Actor网络和Critic网络都是四层网络结构且前三层网络结构相同，Actor网络和Critic网络的四层网络结构分别为：

第一层为输入层，用于接收最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率，其中k为正整数；

第二层为特征提取层，使用1D-CNN网络连接输入层的吞吐率、下载时间、可选码率，输入层的当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率直连入本层；

第三层为全连接网络层；

第四层为输出层，Actor网络的输出层为m个神经元，代表不同比特率的选择概率，m为需要下载的视频块的可选码率的可选数量，Critic网络的输出层为一个神经元。

在本发明所述的基于强化学习的自适应码率视频传输方法中，所述视频播放质量指标由如下计算式计算：

q(R_n)＝R_n；

其中，QoE表示视频播放质量指标，q(R_n)表示用户收到第n号视频块的回报，R_n表示第n号块的码率，T_n表示下载第n号视频块过程中重缓冲的次数，μ表示重缓冲惩罚因子，N为已经下载的视频块的总数。

本发明还公开了一种基于强化学习的自适应码率视频传输系统，包括：

输入控制单元，用于将需要下载的视频块所对应的状态空间输入到码率预测神经网络；

视频下载单元，用于根据码率预测神经网络输出的码率策略下载需要下载的视频块；

指标反馈单元，用于在每个视频块下载完毕后，计算其所对应的视频播放质量指标并返回给码率预测神经网络；

码率预测神经网络，用于依据输入的状态空间输出码率策略，以及用于依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。

在本发明所述的基于强化学习的自适应码率视频传输系统中，还包括：

输入采集单元，用于在每个视频块下载之前，采集原始数据，并依据采集的原始数据生成状态空间；

在本发明所述的基于强化学习的自适应码率视频传输系统中，所述码率预测神经网络由Actor网络和Critic网络组成，

所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练，包括：将最近下载完成的视频块所对应的状态空间输入到Critic网络；Critic网络输出对Actor网络最近输出的码率策略的一个评分；Actor网络利用Critic网络输出的评分更新自身网络参数；Critic网络根据返回的视频播放质量指标更新自身网络参数；

所述的码率预测神经网络输出码率策略，包括：将需要下载的视频块所对应的状态空间输入到Actor网络，Actor网络输出需要下载的视频块所对应的码率策略。

实施本发明的基于强化学习的自适应码率视频传输方法以及系统，具有以下有益效果：本发明在提高服务质量的同时，算法更好的适应了多种不同的网络条件，并且极大的降低了规则设置和参数调优的人工时间成本，避免了人工特征选择和规则设置带来的效率问题，在节省配置调试时间的同时也大大的提高了视频质量体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图：

图1是本发明自适应码率视频传输方法的流程图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

实施例一

实施例一公开了一种基于强化学习的自适应码率视频传输方法，方法包括：

S100、将需要下载的视频块所对应的状态空间输入到码率预测神经网络，码率预测神经网络输出码率策略。其中，码率策略具体为需要下载的视频块的可选码率的概率。

本实施例中，所述码率预测神经网络由Actor网络和Critic网络组成，Critic网络用于学习在不同网络状态下选择不同码率所得到视频质量体验指标，而Actor网络利用Critic网络给出的优化目标来最大化视频码率选择所带来的收益。Actor网络使用Critic网络的输出作为训练目标，Critic网络使用返回的视频播放质量指标作为训练目标。所述码率预测神经网络使用状态分为运行时和训练时。运行时仅Actor网络激活，训练时Actor网络和Critic网络同时激活。

上述提到，运行时仅Actor网络激活，因此该步骤实际上是将需要下载的视频块所对应的状态空间输入到Actor网络，Actor网络通过前向算法获得码率策略并输出，以作为需要下载的视频块所对应的码率策略。

另外，本发明的状态空间，是指的输入码率预测神经网络的信息，可以采用矩阵表示某一时刻视频传输的环境。状态空间是通过采集原始数据生成，需要采集的原始数据主要包括以下三种类型：视频块的吞吐率、视频块的下载时间、剩余缓存大小。其中，吞吐率是某一时刻客户端网络的视频块的现实传输能力，在移动环境下主要受信号强弱影响。视频码率是一定时长的视频块的信息大小，相同压缩比下码率较大的视频清晰度更高。播放缓存是客户端用来存储接收到还未播放视频的存储，受限于客户端的资源。除上述数据外，还需要掌握剩余视频块的数量以及最近的一个视频块的下载码率。

针对视频传输的序列特性，原始数据采用窗口化采集保留历史，同时对于原始数据的码率和缓存做统一单位处理。最终得到的所述状态空间包括：最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率，其中k为正整数。较佳的，k取8。

S200、根据码率预测神经网络输出的码率策略下载需要下载的视频块。

S300、在每个视频块下载完毕后，计算其所对应的视频播放质量指标并返回给码率预测神经网络。本实施例中，所述视频播放质量指标由如下计算式计算：

q(R_n)＝R_n；

其中，QoE表示视频播放质量指标，q(R_n)表示用户收到第n号视频块的回报，R_n表示第n号块的码率，单位为mbps，T_n表示下载第n号视频块过程中重缓冲的次数，μ表示重缓冲惩罚因子，本实施例中μ＝0.43，N为已经下载的视频块的总数。

S400、码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。

也就是说，本发明在每个视频块下载之前，需要根据播放器的环境更新状态空间，从而通过码率预测神经网络预算得到相应的码率策略，同时在视频块下载完毕后，需要返回视频播放质量指标以对网络进行训练，所以本发明在提高服务质量的同时，算法更好的适应了多种不同的网络条件，并且极大的降低了规则设置和参数调优的人工时间成本，避免了人工特征选择和规则设置带来的效率问题，在节省配置调试时间的同时也大大的提高了视频质量体验。

需要说明的是，上述S100、S300、S400既可以在客户端执行，也可以在服务器端执行，步骤S200在客户端执行。

下面对步骤S400进行详细说明。具体的，步骤S400包括：

S410、将最近下载完成的视频块所对应的状态空间输入到Critic网络；

S420、Critic网络输出对Actor网络最近输出的码率策略的一个评分；

S430、Actor网络利用Critic网络输出的评分更新自身网络参数；

S440、Critic网络根据返回的视频播放质量指标更新自身网络参数。

本实施例中，所述Actor网络和Critic网络采用策略梯度方法更新网络参数，具体的，Actor网络用如下公式1更新，Critic网络参数采用如下公式2更新：

公式1：

公式2：

其中，θ是Actor网络参数，α是学习率，π_θ(s_t，a_t)为Actor网络的码率策略，A(s_t，a_t)由Critic网络估计；θ_v是Critic网络参数，r_t是t时刻(最近一个视频块下载完毕的时刻)的回报，α′是学习率，

(s_t；θ_v)是t时刻的空间状态s_t和当前网络参数θ_v下Critic网络输出的值。

具体的，本实施例中，所述Actor网络和Critic网络都是四层网络结构且前三层网络结构相同，Actor网络和Critic网络的四层网络结构分别为：

第三层为全连接网络层，节点数为64；

第四层为输出层，Actor网络的输出层为m个神经元，代表不同比特率的选择概率，m为需要下载的视频块的可选码率的可选数量；而Critic网络的输出层为一个神经元。本实施例中，Actor网络的输出层采用softmax激活函数、Critic网络的输出层采用sigmoid激活函数。

实施例二

基于同一发明构思，本发明还公开了一种基于强化学习的自适应码率视频传输系统，包括：

输入采集单元，用于在每个视频块下载之前，采集原始数据，并依据采集的原始数据生成状态空间；其中，所述状态空间包括：最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率，其中k为正整数。

输入控制单元，用于在码率预测神经网络训练完毕后，将需要下载的视频块所对应的状态空间输入到码率预测神经网络。

视频下载单元，用于根据码率预测神经网络输出的码率策略下载需要下载的视频块。

指标反馈单元，用于在每个视频块下载完毕后，计算其所对应的视频播放质量指标并返回给码率预测神经网络；其中，所述视频播放质量指标由如下计算式计算：

q(R_n)＝R_n；

需要说明的是，除了视频下载单元属于客户端外，其他单元既可以在客户端，也可以在服务器端。

其中，所述码率预测神经网络由Actor网络和Critic网络组成。所述Actor网络和Critic网络采用策略梯度方法更新网络参数，Actot网络使用Critic网络的输出作为训练目标，Critic网络使用返回的视频播放质量指标作为训练目标。所述Actor网络和Critic网络都是四层网络结构且前三层网络结构相同，Actot网络和Critic网络的四层网络结构分别为：

第三层为全连接网络层；

具体的，所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练，包括：将最近下载完成的视频块所对应的状态空间输入到Critic网络；Critic网络输出对Actor网络最近输出的码率策略的一个评分；Actor网络利用Critic网络输出的评分更新自身网络参数；Critic网络根据返回的视频播放质量指标更新自身网络参数；

具体的，所述的码率预测神经网络输出码率策略，包括：将需要下载的视频块所对应的状态空间输入到Actor网络，Actor网络输出需要下载的视频块所对应的码率策略。

综上所述，实施本发明的基于强化学习的自适应码率视频传输方法以及系统，具有以下有益效果：利用深度神经网络的优化求解和泛化能力，实现了在真实网络环境下最优化视频服务质量体验指标，其中Critic网络用于学习在不同网络状态下选择不同码率所得到视频质量体验指标，而Actor网络利用Critic网络给出的优化目标来最大化视频码率选择所带来的收益，避免了人工特征选择和规则设置带来的效率问题，让本发明的方法更加适用于多样复杂的现实环境，在节省配置调试时间的同时也大大的提高了视频质量体验。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于强化学习的自适应码率视频传输方法，其特征在于，包括：

码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练；

所述方法还包括：在每个视频块下载之前，采集原始数据，并依据采集的原始数据生成状态空间；

2.根据权利要求1所述的基于强化学习的自适应码率视频传输方法，其特征在于，所述码率预测神经网络由Actor网络和Critic网络组成，所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练，包括：

Critic网络输出对Actor网络最近输出的码率策略的一个评分；

Actor网络利用Critic网络输出的评分更新自身网络参数；

Critic网络根据返回的视频播放质量指标更新自身网络参数。

3.根据权利要求2所述的基于强化学习的自适应码率视频传输方法，其特征在于，所述的码率预测神经网络输出码率策略，包括：将需要下载的视频块所对应的状态空间输入到Actor网络，Actor网络输出需要下载的视频块所对应的码率策略。

4.根据权利要求2所述的基于强化学习的自适应码率视频传输方法，其特征在于，所述Actor网络和Critic网络采用策略梯度方法更新网络参数，Actor网络使用Critic网络的输出作为训练目标，Critic网络使用返回的视频播放质量指标作为训练目标。

5.根据权利要求2所述的基于强化学习的自适应码率视频传输方法，其特征在于，所述Actor网络和Critic网络都是四层网络结构且前三层网络结构相同，Actor网络和Critic网络的四层网络结构分别为：

第三层为全连接网络层；

6.根据权利要求1所述的基于强化学习的自适应码率视频传输方法，其特征在于，所述视频播放质量指标由如下计算式计算：

q(R_n)＝R_n；

7.一种基于强化学习的自适应码率视频传输系统，其特征在于，包括：

码率预测神经网络，用于依据输入的状态空间输出码率策略，以及用于依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练；

8.根据权利要求7所述的基于强化学习的自适应码率视频传输系统，其特征在于，所述码率预测神经网络由Actor网络和Critic网络组成，