CN108063961B - 一种基于强化学习的自适应码率视频传输方法以及系统 - Google Patents

一种基于强化学习的自适应码率视频传输方法以及系统 Download PDF

Info

Publication number
CN108063961B
CN108063961B CN201711407905.0A CN201711407905A CN108063961B CN 108063961 B CN108063961 B CN 108063961B CN 201711407905 A CN201711407905 A CN 201711407905A CN 108063961 B CN108063961 B CN 108063961B
Authority
CN
China
Prior art keywords
code rate
video
network
downloaded
video block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711407905.0A
Other languages
English (en)
Other versions
CN108063961A (zh
Inventor
马骁
张桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen yunnet bate Technology Co., Ltd.
Original Assignee
Shenzhen Yunnet Bate Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yunnet Bate Technology Co ltd filed Critical Shenzhen Yunnet Bate Technology Co ltd
Priority to CN201711407905.0A priority Critical patent/CN108063961B/zh
Publication of CN108063961A publication Critical patent/CN108063961A/zh
Application granted granted Critical
Publication of CN108063961B publication Critical patent/CN108063961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64723Monitoring of network processes or resources, e.g. monitoring of network load
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64723Monitoring of network processes or resources, e.g. monitoring of network load
    • H04N21/64738Monitoring network characteristics, e.g. bandwidth, congestion level

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种基于强化学习的自适应码率视频传输方法以及系统,方法包括:将需要下载的视频块所对应的状态空间输入到码率预测神经网络,码率预测神经网络输出码率策略;根据码率预测神经网络输出的码率策略下载需要下载的视频块;在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络;码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。本发明在提高服务质量的同时,算法更好的适应了多种不同的网络条件,并且极大的降低了规则设置和参数调优的人工时间成本,避免了人工特征选择和规则设置带来的效率问题,在节省配置调试时间的同时也大大的提高了视频质量体验。

Description

一种基于强化学习的自适应码率视频传输方法以及系统
技术领域
本发明涉及视频传输领域,尤其涉及一种基于强化学习的自适应码率视频传输方法以及系统。
背景技术
近年来随着无线网络的发展,基于HTTP协议的视频应用越来越丰富。随之而来的是用户对视频质量的需求也在不断提升,如果视频质量不佳,用户会很快放弃观看,因此如何将高质量的视频提供给用户成了各大视频平台运营商重点的研究领域之一。
自适应码率算法是内容提供商用来优化视频质量的主要手段,现有的主流自适应码率算法通过估算网络吞吐率并结合控制规则来选择码率,需要大量的调优工作,并且很难在不同网络和服务质量目标下泛化。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于强化学习的自适应码率视频传输方法以及系统。
本发明解决其技术问题所采用的技术方案是:构造一种基于强化学习的自适应码率视频传输方法,包括:
将需要下载的视频块所对应的状态空间输入到码率预测神经网络,码率预测神经网络输出码率策略;
根据码率预测神经网络输出的码率策略下载需要下载的视频块;
在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络;
码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。
在本发明所述的基于强化学习的自适应码率视频传输方法中,所述方法还包括:在每个视频块下载之前,采集原始数据,并依据采集的原始数据生成状态空间;
其中,所述状态空间包括:最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数。
在本发明所述的基于强化学习的自适应码率视频传输方法中,所述码率预测神经网络由Actor网络和Critic网络组成,
所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练,包括:
将最近下载完成的视频块所对应的状态空间输入到Critic网络;
Critic网络输出对Actor网络最近输出的码率策略的一个评分;
Actor网络利用Critic网络输出的评分更新自身网络参数;
Critic网络根据返回的视频播放质量指标更新自身网络参数。
在本发明所述的基于强化学习的自适应码率视频传输方法中,所述的码率预测神经网络输出码率策略,包括:将需要下载的视频块所对应的状态空间输入到Actor网络,Actor网络输出需要下载的视频块所对应的码率策略。
在本发明所述的基于强化学习的自适应码率视频传输方法中,所述Actor网络和Critic网络采用策略梯度方法更新网络参数,Actor网络使用Critic网络的输出作为训练目标,Critic网络使用返回的视频播放质量指标作为训练目标。
在本发明所述的基于强化学习的自适应码率视频传输方法中,所述Actor网络和Critic网络都是四层网络结构且前三层网络结构相同,Actor网络和Critic网络的四层网络结构分别为:
第一层为输入层,用于接收最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数;
第二层为特征提取层,使用1D-CNN网络连接输入层的吞吐率、下载时间、可选码率,输入层的当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率直连入本层;
第三层为全连接网络层;
第四层为输出层,Actor网络的输出层为m个神经元,代表不同比特率的选择概率,m为需要下载的视频块的可选码率的可选数量,Critic网络的输出层为一个神经元。
在本发明所述的基于强化学习的自适应码率视频传输方法中,所述视频播放质量指标由如下计算式计算:
Figure BDA0001520708110000031
q(Rn)=Rn
其中,QoE表示视频播放质量指标,q(Rn)表示用户收到第n号视频块的回报,Rn表示第n号块的码率,Tn表示下载第n号视频块过程中重缓冲的次数,μ表示重缓冲惩罚因子,N为已经下载的视频块的总数。
本发明还公开了一种基于强化学习的自适应码率视频传输系统,包括:
输入控制单元,用于将需要下载的视频块所对应的状态空间输入到码率预测神经网络;
视频下载单元,用于根据码率预测神经网络输出的码率策略下载需要下载的视频块;
指标反馈单元,用于在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络;
码率预测神经网络,用于依据输入的状态空间输出码率策略,以及用于依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。
在本发明所述的基于强化学习的自适应码率视频传输系统中,还包括:
输入采集单元,用于在每个视频块下载之前,采集原始数据,并依据采集的原始数据生成状态空间;
其中,所述状态空间包括:最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数。
在本发明所述的基于强化学习的自适应码率视频传输系统中,所述码率预测神经网络由Actor网络和Critic网络组成,
所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练,包括:将最近下载完成的视频块所对应的状态空间输入到Critic网络;Critic网络输出对Actor网络最近输出的码率策略的一个评分;Actor网络利用Critic网络输出的评分更新自身网络参数;Critic网络根据返回的视频播放质量指标更新自身网络参数;
所述的码率预测神经网络输出码率策略,包括:将需要下载的视频块所对应的状态空间输入到Actor网络,Actor网络输出需要下载的视频块所对应的码率策略。
实施本发明的基于强化学习的自适应码率视频传输方法以及系统,具有以下有益效果:本发明在提高服务质量的同时,算法更好的适应了多种不同的网络条件,并且极大的降低了规则设置和参数调优的人工时间成本,避免了人工特征选择和规则设置带来的效率问题,在节省配置调试时间的同时也大大的提高了视频质量体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图:
图1是本发明自适应码率视频传输方法的流程图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
实施例一
实施例一公开了一种基于强化学习的自适应码率视频传输方法,方法包括:
S100、将需要下载的视频块所对应的状态空间输入到码率预测神经网络,码率预测神经网络输出码率策略。其中,码率策略具体为需要下载的视频块的可选码率的概率。
本实施例中,所述码率预测神经网络由Actor网络和Critic网络组成,Critic网络用于学习在不同网络状态下选择不同码率所得到视频质量体验指标,而Actor网络利用Critic网络给出的优化目标来最大化视频码率选择所带来的收益。Actor网络使用Critic网络的输出作为训练目标,Critic网络使用返回的视频播放质量指标作为训练目标。所述码率预测神经网络使用状态分为运行时和训练时。运行时仅Actor网络激活,训练时Actor网络和Critic网络同时激活。
上述提到,运行时仅Actor网络激活,因此该步骤实际上是将需要下载的视频块所对应的状态空间输入到Actor网络,Actor网络通过前向算法获得码率策略并输出,以作为需要下载的视频块所对应的码率策略。
另外,本发明的状态空间,是指的输入码率预测神经网络的信息,可以采用矩阵表示某一时刻视频传输的环境。状态空间是通过采集原始数据生成,需要采集的原始数据主要包括以下三种类型:视频块的吞吐率、视频块的下载时间、剩余缓存大小。其中,吞吐率是某一时刻客户端网络的视频块的现实传输能力,在移动环境下主要受信号强弱影响。视频码率是一定时长的视频块的信息大小,相同压缩比下码率较大的视频清晰度更高。播放缓存是客户端用来存储接收到还未播放视频的存储,受限于客户端的资源。除上述数据外,还需要掌握剩余视频块的数量以及最近的一个视频块的下载码率。
针对视频传输的序列特性,原始数据采用窗口化采集保留历史,同时对于原始数据的码率和缓存做统一单位处理。最终得到的所述状态空间包括:最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数。较佳的,k取8。
S200、根据码率预测神经网络输出的码率策略下载需要下载的视频块。
S300、在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络。本实施例中,所述视频播放质量指标由如下计算式计算:
Figure BDA0001520708110000071
q(Rn)=Rn
其中,QoE表示视频播放质量指标,q(Rn)表示用户收到第n号视频块的回报,Rn表示第n号块的码率,单位为mbps,Tn表示下载第n号视频块过程中重缓冲的次数,μ表示重缓冲惩罚因子,本实施例中μ=0.43,N为已经下载的视频块的总数。
S400、码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。
也就是说,本发明在每个视频块下载之前,需要根据播放器的环境更新状态空间,从而通过码率预测神经网络预算得到相应的码率策略,同时在视频块下载完毕后,需要返回视频播放质量指标以对网络进行训练,所以本发明在提高服务质量的同时,算法更好的适应了多种不同的网络条件,并且极大的降低了规则设置和参数调优的人工时间成本,避免了人工特征选择和规则设置带来的效率问题,在节省配置调试时间的同时也大大的提高了视频质量体验。
需要说明的是,上述S100、S300、S400既可以在客户端执行,也可以在服务器端执行,步骤S200在客户端执行。
下面对步骤S400进行详细说明。具体的,步骤S400包括:
S410、将最近下载完成的视频块所对应的状态空间输入到Critic网络;
S420、Critic网络输出对Actor网络最近输出的码率策略的一个评分;
S430、Actor网络利用Critic网络输出的评分更新自身网络参数;
S440、Critic网络根据返回的视频播放质量指标更新自身网络参数。
本实施例中,所述Actor网络和Critic网络采用策略梯度方法更新网络参数,具体的,Actor网络用如下公式1更新,Critic网络参数采用如下公式2更新:
公式1:
Figure BDA0001520708110000081
公式2:
Figure BDA0001520708110000082
其中,θ是Actor网络参数,α是学习率,πθ(st,at)为Actor网络的码率策略,A(st,at)由Critic网络估计;θv是Critic网络参数,rt是t时刻(最近一个视频块下载完毕的时刻)的回报,α′是学习率,
Figure BDA0001520708110000083
(st;θv)是t时刻的空间状态st和当前网络参数θv下Critic网络输出的值。
具体的,本实施例中,所述Actor网络和Critic网络都是四层网络结构且前三层网络结构相同,Actor网络和Critic网络的四层网络结构分别为:
第一层为输入层,用于接收最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数;
第二层为特征提取层,使用1D-CNN网络连接输入层的吞吐率、下载时间、可选码率,输入层的当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率直连入本层;
第三层为全连接网络层,节点数为64;
第四层为输出层,Actor网络的输出层为m个神经元,代表不同比特率的选择概率,m为需要下载的视频块的可选码率的可选数量;而Critic网络的输出层为一个神经元。本实施例中,Actor网络的输出层采用softmax激活函数、Critic网络的输出层采用sigmoid激活函数。
实施例二
基于同一发明构思,本发明还公开了一种基于强化学习的自适应码率视频传输系统,包括:
输入采集单元,用于在每个视频块下载之前,采集原始数据,并依据采集的原始数据生成状态空间;其中,所述状态空间包括:最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数。
输入控制单元,用于在码率预测神经网络训练完毕后,将需要下载的视频块所对应的状态空间输入到码率预测神经网络。
视频下载单元,用于根据码率预测神经网络输出的码率策略下载需要下载的视频块。
指标反馈单元,用于在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络;其中,所述视频播放质量指标由如下计算式计算:
Figure BDA0001520708110000101
q(Rn)=Rn
其中,QoE表示视频播放质量指标,q(Rn)表示用户收到第n号视频块的回报,Rn表示第n号块的码率,Tn表示下载第n号视频块过程中重缓冲的次数,μ表示重缓冲惩罚因子,N为已经下载的视频块的总数。
码率预测神经网络,用于依据输入的状态空间输出码率策略,以及用于依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。
需要说明的是,除了视频下载单元属于客户端外,其他单元既可以在客户端,也可以在服务器端。
其中,所述码率预测神经网络由Actor网络和Critic网络组成。所述Actor网络和Critic网络采用策略梯度方法更新网络参数,Actot网络使用Critic网络的输出作为训练目标,Critic网络使用返回的视频播放质量指标作为训练目标。所述Actor网络和Critic网络都是四层网络结构且前三层网络结构相同,Actot网络和Critic网络的四层网络结构分别为:
第一层为输入层,用于接收最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数;
第二层为特征提取层,使用1D-CNN网络连接输入层的吞吐率、下载时间、可选码率,输入层的当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率直连入本层;
第三层为全连接网络层;
第四层为输出层,Actor网络的输出层为m个神经元,代表不同比特率的选择概率,m为需要下载的视频块的可选码率的可选数量,Critic网络的输出层为一个神经元。
具体的,所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练,包括:将最近下载完成的视频块所对应的状态空间输入到Critic网络;Critic网络输出对Actor网络最近输出的码率策略的一个评分;Actor网络利用Critic网络输出的评分更新自身网络参数;Critic网络根据返回的视频播放质量指标更新自身网络参数;
具体的,所述的码率预测神经网络输出码率策略,包括:将需要下载的视频块所对应的状态空间输入到Actor网络,Actor网络输出需要下载的视频块所对应的码率策略。
综上所述,实施本发明的基于强化学习的自适应码率视频传输方法以及系统,具有以下有益效果:利用深度神经网络的优化求解和泛化能力,实现了在真实网络环境下最优化视频服务质量体验指标,其中Critic网络用于学习在不同网络状态下选择不同码率所得到视频质量体验指标,而Actor网络利用Critic网络给出的优化目标来最大化视频码率选择所带来的收益,避免了人工特征选择和规则设置带来的效率问题,让本发明的方法更加适用于多样复杂的现实环境,在节省配置调试时间的同时也大大的提高了视频质量体验。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (8)

1.一种基于强化学习的自适应码率视频传输方法,其特征在于,包括:
将需要下载的视频块所对应的状态空间输入到码率预测神经网络,码率预测神经网络输出码率策略;
根据码率预测神经网络输出的码率策略下载需要下载的视频块;
在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络;
码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练;
所述方法还包括:在每个视频块下载之前,采集原始数据,并依据采集的原始数据生成状态空间;
其中,所述状态空间包括:最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数。
2.根据权利要求1所述的基于强化学习的自适应码率视频传输方法,其特征在于,所述码率预测神经网络由Actor网络和Critic网络组成,所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练,包括:
将最近下载完成的视频块所对应的状态空间输入到Critic网络;
Critic网络输出对Actor网络最近输出的码率策略的一个评分;
Actor网络利用Critic网络输出的评分更新自身网络参数;
Critic网络根据返回的视频播放质量指标更新自身网络参数。
3.根据权利要求2所述的基于强化学习的自适应码率视频传输方法,其特征在于,所述的码率预测神经网络输出码率策略,包括:将需要下载的视频块所对应的状态空间输入到Actor网络,Actor网络输出需要下载的视频块所对应的码率策略。
4.根据权利要求2所述的基于强化学习的自适应码率视频传输方法,其特征在于,所述Actor网络和Critic网络采用策略梯度方法更新网络参数,Actor网络使用Critic网络的输出作为训练目标,Critic网络使用返回的视频播放质量指标作为训练目标。
5.根据权利要求2所述的基于强化学习的自适应码率视频传输方法,其特征在于,所述Actor网络和Critic网络都是四层网络结构且前三层网络结构相同,Actor网络和Critic网络的四层网络结构分别为:
第一层为输入层,用于接收最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数;
第二层为特征提取层,使用1D-CNN网络连接输入层的吞吐率、下载时间、可选码率,输入层的当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率直连入本层;
第三层为全连接网络层;
第四层为输出层,Actor网络的输出层为m个神经元,代表不同比特率的选择概率,m为需要下载的视频块的可选码率的可选数量,Critic网络的输出层为一个神经元。
6.根据权利要求1所述的基于强化学习的自适应码率视频传输方法,其特征在于,所述视频播放质量指标由如下计算式计算:
Figure FDA0002392565700000031
q(Rn)=Rn
其中,QoE表示视频播放质量指标,q(Rn)表示用户收到第n号视频块的回报,Rn表示第n号块的码率,Tn表示下载第n号视频块过程中重缓冲的次数,μ表示重缓冲惩罚因子,N为已经下载的视频块的总数。
7.一种基于强化学习的自适应码率视频传输系统,其特征在于,包括:
输入控制单元,用于将需要下载的视频块所对应的状态空间输入到码率预测神经网络;
视频下载单元,用于根据码率预测神经网络输出的码率策略下载需要下载的视频块;
指标反馈单元,用于在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络;
码率预测神经网络,用于依据输入的状态空间输出码率策略,以及用于依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练;
输入采集单元,用于在每个视频块下载之前,采集原始数据,并依据采集的原始数据生成状态空间;
其中,所述状态空间包括:最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数。
8.根据权利要求7所述的基于强化学习的自适应码率视频传输系统,其特征在于,所述码率预测神经网络由Actor网络和Critic网络组成,
所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练,包括:将最近下载完成的视频块所对应的状态空间输入到Critic网络;Critic网络输出对Actor网络最近输出的码率策略的一个评分;Actor网络利用Critic网络输出的评分更新自身网络参数;Critic网络根据返回的视频播放质量指标更新自身网络参数;
所述的码率预测神经网络输出码率策略,包括:将需要下载的视频块所对应的状态空间输入到Actor网络,Actor网络输出需要下载的视频块所对应的码率策略。
CN201711407905.0A 2017-12-22 2017-12-22 一种基于强化学习的自适应码率视频传输方法以及系统 Active CN108063961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711407905.0A CN108063961B (zh) 2017-12-22 2017-12-22 一种基于强化学习的自适应码率视频传输方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711407905.0A CN108063961B (zh) 2017-12-22 2017-12-22 一种基于强化学习的自适应码率视频传输方法以及系统

Publications (2)

Publication Number Publication Date
CN108063961A CN108063961A (zh) 2018-05-22
CN108063961B true CN108063961B (zh) 2020-07-31

Family

ID=62140113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711407905.0A Active CN108063961B (zh) 2017-12-22 2017-12-22 一种基于强化学习的自适应码率视频传输方法以及系统

Country Status (1)

Country Link
CN (1) CN108063961B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109413456B (zh) * 2018-10-08 2021-05-18 山东大学 一种面向基于http的动态自适应流媒体多假设码率自适应系统及方法
CN109413448A (zh) * 2018-11-05 2019-03-01 中山大学 基于深度强化学习的移动设备全景视频播放系统
CN109802964B (zh) * 2019-01-23 2021-09-28 西北大学 一种基于dqn的http自适应流控制能耗优化方法
KR102592036B1 (ko) 2019-02-25 2023-10-23 삼성전자 주식회사 사용자 중심 컨텐츠 스트리밍을 위한 방법 및 시스템
CN110072119B (zh) * 2019-04-11 2020-04-10 西安交通大学 一种基于深度学习网络的内容感知视频自适应传输方法
CN110351571B (zh) * 2019-07-05 2020-09-25 清华大学 基于深度强化学习的直播视频云转码资源分配与调度方法
CN110809127B (zh) * 2019-10-10 2021-03-19 北京邮电大学 一种基于深度模仿学习的视频通话方法及装置
CN110996125B (zh) * 2019-11-18 2021-08-17 腾讯科技(深圳)有限公司 一种视频流的生成方法、装置、电子设备及存储介质
CN111031387B (zh) * 2019-11-21 2020-12-04 南京大学 一种监控视频发送端视频编码流速控制的方法
CN113014969B (zh) 2019-12-19 2022-06-07 花瓣云科技有限公司 视频播放的控制方法、终端设备、服务器和存储介质
CN111107440B (zh) * 2019-12-26 2022-02-25 腾讯科技(深圳)有限公司 视频传输控制方法及装置、设备、存储介质
CN111083535B (zh) * 2019-12-26 2021-08-03 天翼物联科技有限公司 视频数据传输码率自适应方法、系统、装置和存储介质
CN113132765A (zh) * 2020-01-16 2021-07-16 北京达佳互联信息技术有限公司 码率决策模型训练方法、装置、电子设备及存储介质
CN111294595B (zh) * 2020-02-04 2022-01-07 清华大学深圳国际研究生院 一种基于深度强化学习的视频编码帧内码率控制方法
CN113852817B (zh) * 2020-06-28 2024-04-05 上海交通大学 自适应码率传输服务器、码率确定方法、传输系统及方法
CN111901642B (zh) * 2020-07-31 2022-09-30 成都云格致力科技有限公司 基于强化学习的实时视频码率自适应调控方法与系统
CN113518250B (zh) * 2020-08-07 2022-08-02 腾讯科技(深圳)有限公司 一种多媒体数据处理方法、装置、设备及可读存储介质
CN112291495B (zh) * 2020-10-16 2021-08-03 厦门大学 一种基于强化学习的无线视频低时延抗干扰传输方法
CN112261439B (zh) * 2020-10-21 2021-10-15 南京航空航天大学 一种超密集蜂窝网络中的可伸缩视频下载方法及系统
CN112533036A (zh) * 2020-11-30 2021-03-19 北京大学 一种神经自适应视频流多路径传输结果确定方法及系统
CN112911408B (zh) * 2021-01-25 2022-03-25 电子科技大学 基于深度学习的智能视频码率调整及带宽分配方法
CN113014968B (zh) * 2021-02-24 2022-02-08 南京大学 一种基于强化学习的多用户动态码率视频传输方法及系统
CN115037986B (zh) * 2021-03-04 2023-06-06 北京字跳网络技术有限公司 视频的自适应播放方法及设备
CN113259657A (zh) * 2021-05-18 2021-08-13 上海大学 基于视频质量分数的dppo码率自适应控制系统和方法
CN114007113B (zh) * 2021-11-01 2023-12-01 迪爱斯信息技术股份有限公司 视频码率自适应调整方法及其装置
CN114025190B (zh) * 2021-11-03 2023-06-20 北京达佳互联信息技术有限公司 多码率调度方法和多码率调度装置
CN114040230B (zh) * 2021-11-08 2024-03-29 北京达佳互联信息技术有限公司 视频码率确定方法、装置、电子设备及其存储介质
CN114095756B (zh) * 2021-11-17 2024-04-02 天津大学 基于长期视野预测的自适应全景视频流传输系统及其方法
CN114363677A (zh) * 2021-12-02 2022-04-15 深圳市新田科技有限公司 基于深度学习的移动网络视频码率实时调整方法和装置
CN115022684B (zh) * 2022-05-27 2023-08-04 西安交通大学 一种quic协议下基于深度强化学习的视频流自适应传输方法
CN116156228A (zh) * 2023-01-28 2023-05-23 北京邮电大学 一种码率自适应选择方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068236A (zh) * 2007-04-13 2007-11-07 华为技术有限公司 流媒体码率控制方法、系统和设备
CN101808244A (zh) * 2010-03-24 2010-08-18 北京邮电大学 一种视频传输控制方法及系统
CN102413378A (zh) * 2011-11-02 2012-04-11 杭州电子科技大学 一种基于自适应神经网络的视频传输丢包恢复方法
CN106470350A (zh) * 2015-08-21 2017-03-01 中国电信股份有限公司 基于动态比特率的码率自适应方法及装置
CN106713956A (zh) * 2016-11-16 2017-05-24 上海交通大学 动态自适应视频流媒体的码率控制与版本选择方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068236A (zh) * 2007-04-13 2007-11-07 华为技术有限公司 流媒体码率控制方法、系统和设备
CN101808244A (zh) * 2010-03-24 2010-08-18 北京邮电大学 一种视频传输控制方法及系统
CN102413378A (zh) * 2011-11-02 2012-04-11 杭州电子科技大学 一种基于自适应神经网络的视频传输丢包恢复方法
CN106470350A (zh) * 2015-08-21 2017-03-01 中国电信股份有限公司 基于动态比特率的码率自适应方法及装置
CN106713956A (zh) * 2016-11-16 2017-05-24 上海交通大学 动态自适应视频流媒体的码率控制与版本选择方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
连续空间的递归最小二乘行动者—评论家算法;朱文文等;《计算机应用研究》;20140901;全文 *

Also Published As

Publication number Publication date
CN108063961A (zh) 2018-05-22

Similar Documents

Publication Publication Date Title
CN108063961B (zh) 一种基于强化学习的自适应码率视频传输方法以及系统
CN113434212B (zh) 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN112202672B (zh) 一种基于业务服务质量需求的网络路由转发方法和系统
Sengupta et al. HotDASH: Hotspot aware adaptive video streaming using deep reinforcement learning
CN108965949B (zh) 一种视频业务中满足用户个性化体验的码率自适应方法
CN110488861A (zh) 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN109587519B (zh) 基于q学习的异构网络多径视频传输控制系统及方法
CN113475089A (zh) 用于面向用户的内容流的方法和系统
CN113438315B (zh) 基于双网络深度强化学习的物联网信息新鲜度优化方法
CN115022684B (zh) 一种quic协议下基于深度强化学习的视频流自适应传输方法
CN110087109A (zh) 视频码率自适应方法及装置
CN115065728B (zh) 一种基于多策略强化学习的多目标内容存储方法
CN114757352A (zh) 智能体训练方法、跨域异构环境任务调度方法及相关装置
CN113873534A (zh) 一种雾计算中区块链协助的联邦学习主动内容缓存方法
CN114374949B (zh) 一种车联网中基于信息新鲜度优化的功率控制机制
CN112884148A (zh) 嵌入多步规则的混合强化学习训练方法、设备及存储介质
CN113411826A (zh) 一种基于注意力机制强化学习的边缘网络设备缓存方法
CN115587266A (zh) 一种空天地一体化互联网智能边缘缓存方法
CN112866756B (zh) 一种多媒体文件的码率控制方法、装置、介质和设备
CN114040257A (zh) 一种自适应视频流传输播放方法、装置、设备及存储介质
CN115695390B (zh) 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法
CN114697394B (zh) 基于离散maddpg的边缘缓存决策模型、方法和系统
CN116347170A (zh) 一种基于序贯因果建模的自适应比特率控制方法
CN118175356A (zh) 视频传输方法、装置、设备及存储介质
CN117376661B (zh) 一种基于神经网络的细粒度视频流自适应调节系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180709

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant after: Shenzhen yunnet bate Technology Co., Ltd.

Address before: 100000 Suzhou Street, Haidian District, Haidian District, Beijing, No. 55, 3 layer 01

Applicant before: Beijing joint net Vision Culture Communication Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant