CN108063961A - 一种基于强化学习的自适应码率视频传输方法以及系统 - Google Patents

一种基于强化学习的自适应码率视频传输方法以及系统 Download PDF

Info

Publication number
CN108063961A
CN108063961A CN201711407905.0A CN201711407905A CN108063961A CN 108063961 A CN108063961 A CN 108063961A CN 201711407905 A CN201711407905 A CN 201711407905A CN 108063961 A CN108063961 A CN 108063961A
Authority
CN
China
Prior art keywords
video block
code check
video
networks
download
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711407905.0A
Other languages
English (en)
Other versions
CN108063961B (zh
Inventor
马骁
张桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen yunnet bate Technology Co., Ltd.
Original Assignee
Beijing Joint Net Vision Culture Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Joint Net Vision Culture Communication Co Ltd filed Critical Beijing Joint Net Vision Culture Communication Co Ltd
Priority to CN201711407905.0A priority Critical patent/CN108063961B/zh
Publication of CN108063961A publication Critical patent/CN108063961A/zh
Application granted granted Critical
Publication of CN108063961B publication Critical patent/CN108063961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64723Monitoring of network processes or resources, e.g. monitoring of network load
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64723Monitoring of network processes or resources, e.g. monitoring of network load
    • H04N21/64738Monitoring network characteristics, e.g. bandwidth, congestion level

Abstract

本发明公开了一种基于强化学习的自适应码率视频传输方法以及系统,方法包括:将需要下载的视频块所对应的状态空间输入到码率预测神经网络,码率预测神经网络输出码率策略;根据码率预测神经网络输出的码率策略下载需要下载的视频块;在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络;码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。本发明在提高服务质量的同时,算法更好的适应了多种不同的网络条件,并且极大的降低了规则设置和参数调优的人工时间成本,避免了人工特征选择和规则设置带来的效率问题,在节省配置调试时间的同时也大大的提高了视频质量体验。

Description

一种基于强化学习的自适应码率视频传输方法以及系统
技术领域
本发明涉及视频传输领域,尤其涉及一种基于强化学习的自适应码率视频传输方法以及系统。
背景技术
近年来随着无线网络的发展,基于HTTP协议的视频应用越来越丰富。随之而来的是用户对视频质量的需求也在不断提升,如果视频质量不佳,用户会很快放弃观看,因此如何将高质量的视频提供给用户成了各大视频平台运营商重点的研究领域之一。
自适应码率算法是内容提供商用来优化视频质量的主要手段,现有的主流自适应码率算法通过估算网络吞吐率并结合控制规则来选择码率,需要大量的调优工作,并且很难在不同网络和服务质量目标下泛化。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于强化学习的自适应码率视频传输方法以及系统。
本发明解决其技术问题所采用的技术方案是:构造一种基于强化学习的自适应码率视频传输方法,包括:
将需要下载的视频块所对应的状态空间输入到码率预测神经网络,码率预测神经网络输出码率策略;
根据码率预测神经网络输出的码率策略下载需要下载的视频块;
在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络;
码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。
在本发明所述的基于强化学习的自适应码率视频传输方法中,所述方法还包括:在每个视频块下载之前,采集原始数据,并依据采集的原始数据生成状态空间;
其中,所述状态空间包括:最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数。
在本发明所述的基于强化学习的自适应码率视频传输方法中,所述码率预测神经网络由Actor网络和Critic网络组成,
所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练,包括:
将最近下载完成的视频块所对应的状态空间输入到Critic网络;
Critic网络输出对Actor网络最近输出的码率策略的一个评分;
Actor网络利用Critic网络输出的评分更新自身网络参数;
Critic网络根据返回的视频播放质量指标更新自身网络参数。
在本发明所述的基于强化学习的自适应码率视频传输方法中,所述的码率预测神经网络输出码率策略,包括:将需要下载的视频块所对应的状态空间输入到Actor网络,Actor网络输出需要下载的视频块所对应的码率策略。
在本发明所述的基于强化学习的自适应码率视频传输方法中,所述Actor网络和Critic网络采用策略梯度方法更新网络参数,Actor网络使用Critic网络的输出作为训练目标,Critic网络使用返回的视频播放质量指标作为训练目标。
在本发明所述的基于强化学习的自适应码率视频传输方法中,所述Actor网络和Critic网络都是四层网络结构且前三层网络结构相同,Actor网络和Critic网络的四层网络结构分别为:
第一层为输入层,用于接收最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数;
第二层为特征提取层,使用1D-CNN网络连接输入层的吞吐率、下载时间、可选码率,输入层的当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率直连入本层;
第三层为全连接网络层;
第四层为输出层,Actor网络的输出层为m个神经元,代表不同比特率的选择概率,m为需要下载的视频块的可选码率的可选数量,Critic网络的输出层为一个神经元。
在本发明所述的基于强化学习的自适应码率视频传输方法中,所述视频播放质量指标由如下计算式计算:
q(Rn)=Rn
其中,QoE表示视频播放质量指标,q(Rn)表示用户收到第n号视频块的回报,Rn表示第n号块的码率,Tn表示下载第n号视频块过程中重缓冲的次数,μ表示重缓冲惩罚因子,N为已经下载的视频块的总数。
本发明还公开了一种基于强化学习的自适应码率视频传输系统,包括:
输入控制单元,用于将需要下载的视频块所对应的状态空间输入到码率预测神经网络;
视频下载单元,用于根据码率预测神经网络输出的码率策略下载需要下载的视频块;
指标反馈单元,用于在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络;
码率预测神经网络,用于依据输入的状态空间输出码率策略,以及用于依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。
在本发明所述的基于强化学习的自适应码率视频传输系统中,还包括:
输入采集单元,用于在每个视频块下载之前,采集原始数据,并依据采集的原始数据生成状态空间;
其中,所述状态空间包括:最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数。
在本发明所述的基于强化学习的自适应码率视频传输系统中,所述码率预测神经网络由Actor网络和Critic网络组成,
所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练,包括:将最近下载完成的视频块所对应的状态空间输入到Critic网络;Critic网络输出对Actor网络最近输出的码率策略的一个评分;Actor网络利用Critic网络输出的评分更新自身网络参数;Critic网络根据返回的视频播放质量指标更新自身网络参数;
所述的码率预测神经网络输出码率策略,包括:将需要下载的视频块所对应的状态空间输入到Actor网络,Actor网络输出需要下载的视频块所对应的码率策略。
实施本发明的基于强化学习的自适应码率视频传输方法以及系统,具有以下有益效果:本发明在提高服务质量的同时,算法更好的适应了多种不同的网络条件,并且极大的降低了规则设置和参数调优的人工时间成本,避免了人工特征选择和规则设置带来的效率问题,在节省配置调试时间的同时也大大的提高了视频质量体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图:
图1是本发明自适应码率视频传输方法的流程图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
实施例一
实施例一公开了一种基于强化学习的自适应码率视频传输方法,方法包括:
S100、将需要下载的视频块所对应的状态空间输入到码率预测神经网络,码率预测神经网络输出码率策略。其中,码率策略具体为需要下载的视频块的可选码率的概率。
本实施例中,所述码率预测神经网络由Actor网络和Critic网络组成,Critic网络用于学习在不同网络状态下选择不同码率所得到视频质量体验指标,而Actor网络利用Critic网络给出的优化目标来最大化视频码率选择所带来的收益。Actor网络使用Critic网络的输出作为训练目标,Critic网络使用返回的视频播放质量指标作为训练目标。所述码率预测神经网络使用状态分为运行时和训练时。运行时仅Actor网络激活,训练时Actor网络和Critic网络同时激活。
上述提到,运行时仅Actor网络激活,因此该步骤实际上是将需要下载的视频块所对应的状态空间输入到Actor网络,Actor网络通过前向算法获得码率策略并输出,以作为需要下载的视频块所对应的码率策略。
另外,本发明的状态空间,是指的输入码率预测神经网络的信息,可以采用矩阵表示某一时刻视频传输的环境。状态空间是通过采集原始数据生成,需要采集的原始数据主要包括以下三种类型:视频块的吞吐率、视频块的下载时间、剩余缓存大小。其中,吞吐率是某一时刻客户端网络的视频块的现实传输能力,在移动环境下主要受信号强弱影响。视频码率是一定时长的视频块的信息大小,相同压缩比下码率较大的视频清晰度更高。播放缓存是客户端用来存储接收到还未播放视频的存储,受限于客户端的资源。除上述数据外,还需要掌握剩余视频块的数量以及最近的一个视频块的下载码率。
针对视频传输的序列特性,原始数据采用窗口化采集保留历史,同时对于原始数据的码率和缓存做统一单位处理。最终得到的所述状态空间包括:最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数。较佳的,k取8。
S200、根据码率预测神经网络输出的码率策略下载需要下载的视频块。
S300、在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络。本实施例中,所述视频播放质量指标由如下计算式计算:
q(Rn)=Rn
其中,QoE表示视频播放质量指标,q(Rn)表示用户收到第n号视频块的回报,Rn表示第n号块的码率,单位为mbps,Tn表示下载第n号视频块过程中重缓冲的次数,μ表示重缓冲惩罚因子,本实施例中μ=0.43,N为已经下载的视频块的总数。
S400、码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。
也就是说,本发明在每个视频块下载之前,需要根据播放器的环境更新状态空间,从而通过码率预测神经网络预算得到相应的码率策略,同时在视频块下载完毕后,需要返回视频播放质量指标以对网络进行训练,所以本发明在提高服务质量的同时,算法更好的适应了多种不同的网络条件,并且极大的降低了规则设置和参数调优的人工时间成本,避免了人工特征选择和规则设置带来的效率问题,在节省配置调试时间的同时也大大的提高了视频质量体验。
需要说明的是,上述S100、S300、S400既可以在客户端执行,也可以在服务器端执行,步骤S200在客户端执行。
下面对步骤S400进行详细说明。具体的,步骤S400包括:
S410、将最近下载完成的视频块所对应的状态空间输入到Critic网络;
S420、Critic网络输出对Actor网络最近输出的码率策略的一个评分;
S430、Actor网络利用Critic网络输出的评分更新自身网络参数;
S440、Critic网络根据返回的视频播放质量指标更新自身网络参数。
本实施例中,所述Actor网络和Critic网络采用策略梯度方法更新网络参数,具体的,Actor网络用如下公式1更新,Critic网络参数采用如下公式2更新:
公式1:
公式2:
其中,θ是Actor网络参数,α是学习率,πθ(st,at)为Actor网络的码率策略,A(st,at)由Critic网络估计;θv是Critic网络参数,rt是t时刻(最近一个视频块下载完毕的时刻)的回报,α′是学习率,(st;θv)是t时刻的空间状态st和当前网络参数θv下Critic网络输出的值。
具体的,本实施例中,所述Actor网络和Critic网络都是四层网络结构且前三层网络结构相同,Actor网络和Critic网络的四层网络结构分别为:
第一层为输入层,用于接收最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数;
第二层为特征提取层,使用1D-CNN网络连接输入层的吞吐率、下载时间、可选码率,输入层的当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率直连入本层;
第三层为全连接网络层,节点数为64;
第四层为输出层,Actor网络的输出层为m个神经元,代表不同比特率的选择概率,m为需要下载的视频块的可选码率的可选数量;而Critic网络的输出层为一个神经元。本实施例中,Actor网络的输出层采用softmax激活函数、Critic网络的输出层采用sigmoid激活函数。
实施例二
基于同一发明构思,本发明还公开了一种基于强化学习的自适应码率视频传输系统,包括:
输入采集单元,用于在每个视频块下载之前,采集原始数据,并依据采集的原始数据生成状态空间;其中,所述状态空间包括:最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数。
输入控制单元,用于在码率预测神经网络训练完毕后,将需要下载的视频块所对应的状态空间输入到码率预测神经网络。
视频下载单元,用于根据码率预测神经网络输出的码率策略下载需要下载的视频块。
指标反馈单元,用于在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络;其中,所述视频播放质量指标由如下计算式计算:
q(Rn)=Rn
其中,QoE表示视频播放质量指标,q(Rn)表示用户收到第n号视频块的回报,Rn表示第n号块的码率,Tn表示下载第n号视频块过程中重缓冲的次数,μ表示重缓冲惩罚因子,N为已经下载的视频块的总数。
码率预测神经网络,用于依据输入的状态空间输出码率策略,以及用于依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。
需要说明的是,除了视频下载单元属于客户端外,其他单元既可以在客户端,也可以在服务器端。
其中,所述码率预测神经网络由Actor网络和Critic网络组成。所述Actor网络和Critic网络采用策略梯度方法更新网络参数,Actot网络使用Critic网络的输出作为训练目标,Critic网络使用返回的视频播放质量指标作为训练目标。所述Actor网络和Critic网络都是四层网络结构且前三层网络结构相同,Actot网络和Critic网络的四层网络结构分别为:
第一层为输入层,用于接收最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数;
第二层为特征提取层,使用1D-CNN网络连接输入层的吞吐率、下载时间、可选码率,输入层的当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率直连入本层;
第三层为全连接网络层;
第四层为输出层,Actor网络的输出层为m个神经元,代表不同比特率的选择概率,m为需要下载的视频块的可选码率的可选数量,Critic网络的输出层为一个神经元。
具体的,所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练,包括:将最近下载完成的视频块所对应的状态空间输入到Critic网络;Critic网络输出对Actor网络最近输出的码率策略的一个评分;Actor网络利用Critic网络输出的评分更新自身网络参数;Critic网络根据返回的视频播放质量指标更新自身网络参数;
具体的,所述的码率预测神经网络输出码率策略,包括:将需要下载的视频块所对应的状态空间输入到Actor网络,Actor网络输出需要下载的视频块所对应的码率策略。
综上所述,实施本发明的基于强化学习的自适应码率视频传输方法以及系统,具有以下有益效果:利用深度神经网络的优化求解和泛化能力,实现了在真实网络环境下最优化视频服务质量体验指标,其中Critic网络用于学习在不同网络状态下选择不同码率所得到视频质量体验指标,而Actor网络利用Critic网络给出的优化目标来最大化视频码率选择所带来的收益,避免了人工特征选择和规则设置带来的效率问题,让本发明的方法更加适用于多样复杂的现实环境,在节省配置调试时间的同时也大大的提高了视频质量体验。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种基于强化学习的自适应码率视频传输方法,其特征在于,包括:
将需要下载的视频块所对应的状态空间输入到码率预测神经网络,码率预测神经网络输出码率策略;
根据码率预测神经网络输出的码率策略下载需要下载的视频块;
在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络;
码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。
2.根据权利要求1所述的基于强化学习的自适应码率视频传输方法,其特征在于,所述方法还包括:在每个视频块下载之前,采集原始数据,并依据采集的原始数据生成状态空间;
其中,所述状态空间包括:最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数。
3.根据权利要求1所述的基于强化学习的自适应码率视频传输方法,其特征在于,所述码率预测神经网络由Actor网络和Critic网络组成,所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练,包括:
将最近下载完成的视频块所对应的状态空间输入到Critic网络;
Critic网络输出对Actor网络最近输出的码率策略的一个评分;
Actor网络利用Critic网络输出的评分更新自身网络参数;
Critic网络根据返回的视频播放质量指标更新自身网络参数。
4.根据权利要求3所述的基于强化学习的自适应码率视频传输方法,其特征在于,所述的码率预测神经网络输出码率策略,包括:将需要下载的视频块所对应的状态空间输入到Actor网络,Actor网络输出需要下载的视频块所对应的码率策略。
5.根据权利要求3所述的基于强化学习的自适应码率视频传输方法,其特征在于,所述Actor网络和Critic网络采用策略梯度方法更新网络参数,Actor网络使用Critic网络的输出作为训练目标,Critic网络使用返回的视频播放质量指标作为训练目标。
6.根据权利要求3所述的基于强化学习的自适应码率视频传输方法,其特征在于,所述Actor网络和Critic网络都是四层网络结构且前三层网络结构相同,Actor网络和Critic网络的四层网络结构分别为:
第一层为输入层,用于接收最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数;
第二层为特征提取层,使用1D-CNN网络连接输入层的吞吐率、下载时间、可选码率,输入层的当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率直连入本层;
第三层为全连接网络层;
第四层为输出层,Actor网络的输出层为m个神经元,代表不同比特率的选择概率,m为需要下载的视频块的可选码率的可选数量,Critic网络的输出层为一个神经元。
7.根据权利要求1所述的基于强化学习的自适应码率视频传输方法,其特征在于,所述视频播放质量指标由如下计算式计算:
<mrow> <mi>Q</mi> <mi>o</mi> <mi>E</mi> <mo>=</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <mi>q</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>&amp;mu;&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msub> <mi>T</mi> <mi>n</mi> </msub> <mo>-</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>|</mo> <mi>q</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mi>q</mi> <mrow> <mo>(</mo> <msub> <mi>R</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>|</mo> <mo>;</mo> </mrow>
q(Rn)=Rn
其中,QoE表示视频播放质量指标,q(Rn)表示用户收到第n号视频块的回报,Rn表示第n号块的码率,Tn表示下载第n号视频块过程中重缓冲的次数,μ表示重缓冲惩罚因子,N为已经下载的视频块的总数。
8.一种基于强化学习的自适应码率视频传输系统,其特征在于,包括:
输入控制单元,用于将需要下载的视频块所对应的状态空间输入到码率预测神经网络;
视频下载单元,用于根据码率预测神经网络输出的码率策略下载需要下载的视频块;
指标反馈单元,用于在每个视频块下载完毕后,计算其所对应的视频播放质量指标并返回给码率预测神经网络;
码率预测神经网络,用于依据输入的状态空间输出码率策略,以及用于依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练。
9.根据权利要求8所述的基于强化学习的自适应码率视频传输系统,其特征在于,还包括:
输入采集单元,用于在每个视频块下载之前,采集原始数据,并依据采集的原始数据生成状态空间;
其中,所述状态空间包括:最近k个视频块的吞吐率、最近k个视频块的下载时间、需要下载的视频块的可选码率、当前剩余缓存大小、剩余视频块的数量以及最近的一个视频块的下载码率,其中k为正整数。
10.根据权利要求8所述的基于强化学习的自适应码率视频传输系统,其特征在于,所述码率预测神经网络由Actor网络和Critic网络组成,
所述的码率预测神经网络依据返回的视频播放质量指标以及最近下载完成的视频块所对应的状态空间进行训练,包括:将最近下载完成的视频块所对应的状态空间输入到Critic网络;Critic网络输出对Actor网络最近输出的码率策略的一个评分;Actor网络利用Critic网络输出的评分更新自身网络参数;Critic网络根据返回的视频播放质量指标更新自身网络参数;
所述的码率预测神经网络输出码率策略,包括:将需要下载的视频块所对应的状态空间输入到Actor网络,Actor网络输出需要下载的视频块所对应的码率策略。
CN201711407905.0A 2017-12-22 2017-12-22 一种基于强化学习的自适应码率视频传输方法以及系统 Active CN108063961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711407905.0A CN108063961B (zh) 2017-12-22 2017-12-22 一种基于强化学习的自适应码率视频传输方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711407905.0A CN108063961B (zh) 2017-12-22 2017-12-22 一种基于强化学习的自适应码率视频传输方法以及系统

Publications (2)

Publication Number Publication Date
CN108063961A true CN108063961A (zh) 2018-05-22
CN108063961B CN108063961B (zh) 2020-07-31

Family

ID=62140113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711407905.0A Active CN108063961B (zh) 2017-12-22 2017-12-22 一种基于强化学习的自适应码率视频传输方法以及系统

Country Status (1)

Country Link
CN (1) CN108063961B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109413448A (zh) * 2018-11-05 2019-03-01 中山大学 基于深度强化学习的移动设备全景视频播放系统
CN109413456A (zh) * 2018-10-08 2019-03-01 山东大学 一种面向基于http的动态自适应流媒体多假设码率自适应系统及方法
CN109802964A (zh) * 2019-01-23 2019-05-24 西北大学 一种基于dqn的http自适应流控制能耗优化方法
CN110072119A (zh) * 2019-04-11 2019-07-30 西安交通大学 一种基于深度学习网络的内容感知视频自适应传输方法
CN110351571A (zh) * 2019-07-05 2019-10-18 清华大学 基于深度强化学习的直播视频云转码资源分配与调度方法
CN110809127A (zh) * 2019-10-10 2020-02-18 北京邮电大学 一种基于深度模仿学习的视频通话方法及装置
CN110996125A (zh) * 2019-11-18 2020-04-10 腾讯科技(深圳)有限公司 一种视频流的生成方法、装置、电子设备及存储介质
CN111031387A (zh) * 2019-11-21 2020-04-17 南京大学 一种监控视频发送端视频编码流速控制的方法
CN111083535A (zh) * 2019-12-26 2020-04-28 天翼物联科技有限公司 视频数据传输码率自适应方法、系统、装置和存储介质
CN111107440A (zh) * 2019-12-26 2020-05-05 腾讯科技(深圳)有限公司 视频传输控制方法及装置、设备、存储介质
CN111294595A (zh) * 2020-02-04 2020-06-16 清华大学深圳国际研究生院 一种基于深度强化学习的视频编码帧内码率控制方法
CN111901642A (zh) * 2020-07-31 2020-11-06 成都云格致力科技有限公司 基于强化学习的实时视频码率自适应调控方法与系统
CN112261439A (zh) * 2020-10-21 2021-01-22 南京航空航天大学 一种超密集蜂窝网络中的可伸缩视频下载方法及系统
CN112291495A (zh) * 2020-10-16 2021-01-29 厦门大学 一种基于强化学习的无线视频低时延抗干扰传输方法
CN112533036A (zh) * 2020-11-30 2021-03-19 北京大学 一种神经自适应视频流多路径传输结果确定方法及系统
CN112911408A (zh) * 2021-01-25 2021-06-04 电子科技大学 基于深度学习的智能视频码率调整及带宽分配方法
CN113014968A (zh) * 2021-02-24 2021-06-22 南京大学 一种基于强化学习的多用户动态码率视频传输方法及系统
CN113014969A (zh) * 2019-12-19 2021-06-22 华为技术有限公司 视频播放的控制方法、终端设备、服务器和存储介质
CN113132765A (zh) * 2020-01-16 2021-07-16 北京达佳互联信息技术有限公司 码率决策模型训练方法、装置、电子设备及存储介质
CN113259657A (zh) * 2021-05-18 2021-08-13 上海大学 基于视频质量分数的dppo码率自适应控制系统和方法
CN113518250A (zh) * 2020-08-07 2021-10-19 腾讯科技(深圳)有限公司 一种多媒体数据处理方法、装置、设备及可读存储介质
CN113852817A (zh) * 2020-06-28 2021-12-28 上海交通大学 一种自适应码率传输的服务器及码率确定方法
CN114007113A (zh) * 2021-11-01 2022-02-01 迪爱斯信息技术股份有限公司 视频码率自适应调整方法及其装置
CN114025190A (zh) * 2021-11-03 2022-02-08 北京达佳互联信息技术有限公司 多码率调度方法和多码率调度装置
CN114040230A (zh) * 2021-11-08 2022-02-11 北京达佳互联信息技术有限公司 视频码率确定方法、装置、电子设备及其存储介质
CN114095756A (zh) * 2021-11-17 2022-02-25 天津大学 基于长期视野预测的自适应全景视频流传输系统及其方法
CN114363677A (zh) * 2021-12-02 2022-04-15 深圳市新田科技有限公司 基于深度学习的移动网络视频码率实时调整方法和装置
CN115022684A (zh) * 2022-05-27 2022-09-06 西安交通大学 一种quic协议下基于深度强化学习的视频流自适应传输方法
WO2022183922A1 (zh) * 2021-03-04 2022-09-09 北京字跳网络技术有限公司 视频的自适应播放方法及设备
US11956506B2 (en) 2019-02-25 2024-04-09 Samsung Electronics Co., Ltd. Method and system for user-oriented streaming of content

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068236A (zh) * 2007-04-13 2007-11-07 华为技术有限公司 流媒体码率控制方法、系统和设备
CN101808244A (zh) * 2010-03-24 2010-08-18 北京邮电大学 一种视频传输控制方法及系统
CN102413378A (zh) * 2011-11-02 2012-04-11 杭州电子科技大学 一种基于自适应神经网络的视频传输丢包恢复方法
CN106470350A (zh) * 2015-08-21 2017-03-01 中国电信股份有限公司 基于动态比特率的码率自适应方法及装置
CN106713956A (zh) * 2016-11-16 2017-05-24 上海交通大学 动态自适应视频流媒体的码率控制与版本选择方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068236A (zh) * 2007-04-13 2007-11-07 华为技术有限公司 流媒体码率控制方法、系统和设备
CN101808244A (zh) * 2010-03-24 2010-08-18 北京邮电大学 一种视频传输控制方法及系统
CN102413378A (zh) * 2011-11-02 2012-04-11 杭州电子科技大学 一种基于自适应神经网络的视频传输丢包恢复方法
CN106470350A (zh) * 2015-08-21 2017-03-01 中国电信股份有限公司 基于动态比特率的码率自适应方法及装置
CN106713956A (zh) * 2016-11-16 2017-05-24 上海交通大学 动态自适应视频流媒体的码率控制与版本选择方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱文文等: "连续空间的递归最小二乘行动者—评论家算法", 《计算机应用研究》 *

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109413456A (zh) * 2018-10-08 2019-03-01 山东大学 一种面向基于http的动态自适应流媒体多假设码率自适应系统及方法
CN109413456B (zh) * 2018-10-08 2021-05-18 山东大学 一种面向基于http的动态自适应流媒体多假设码率自适应系统及方法
CN109413448A (zh) * 2018-11-05 2019-03-01 中山大学 基于深度强化学习的移动设备全景视频播放系统
CN109802964A (zh) * 2019-01-23 2019-05-24 西北大学 一种基于dqn的http自适应流控制能耗优化方法
CN109802964B (zh) * 2019-01-23 2021-09-28 西北大学 一种基于dqn的http自适应流控制能耗优化方法
US11956506B2 (en) 2019-02-25 2024-04-09 Samsung Electronics Co., Ltd. Method and system for user-oriented streaming of content
CN110072119A (zh) * 2019-04-11 2019-07-30 西安交通大学 一种基于深度学习网络的内容感知视频自适应传输方法
CN110351571A (zh) * 2019-07-05 2019-10-18 清华大学 基于深度强化学习的直播视频云转码资源分配与调度方法
CN110809127A (zh) * 2019-10-10 2020-02-18 北京邮电大学 一种基于深度模仿学习的视频通话方法及装置
CN110809127B (zh) * 2019-10-10 2021-03-19 北京邮电大学 一种基于深度模仿学习的视频通话方法及装置
CN110996125A (zh) * 2019-11-18 2020-04-10 腾讯科技(深圳)有限公司 一种视频流的生成方法、装置、电子设备及存储介质
CN111031387B (zh) * 2019-11-21 2020-12-04 南京大学 一种监控视频发送端视频编码流速控制的方法
CN111031387A (zh) * 2019-11-21 2020-04-17 南京大学 一种监控视频发送端视频编码流速控制的方法
WO2021120892A1 (zh) * 2019-12-19 2021-06-24 华为技术有限公司 视频播放的控制方法、终端设备、服务器和存储介质
CN113014969B (zh) * 2019-12-19 2022-06-07 花瓣云科技有限公司 视频播放的控制方法、终端设备、服务器和存储介质
CN113014969A (zh) * 2019-12-19 2021-06-22 华为技术有限公司 视频播放的控制方法、终端设备、服务器和存储介质
US11930232B2 (en) 2019-12-19 2024-03-12 Petal Cloud Technology Co., Ltd. Video playing control method, terminal device, server, and storage medium
CN111083535A (zh) * 2019-12-26 2020-04-28 天翼物联科技有限公司 视频数据传输码率自适应方法、系统、装置和存储介质
CN114449282A (zh) * 2019-12-26 2022-05-06 腾讯科技(深圳)有限公司 视频传输控制方法及装置、设备、存储介质
CN111107440A (zh) * 2019-12-26 2020-05-05 腾讯科技(深圳)有限公司 视频传输控制方法及装置、设备、存储介质
CN111083535B (zh) * 2019-12-26 2021-08-03 天翼物联科技有限公司 视频数据传输码率自适应方法、系统、装置和存储介质
CN113132765A (zh) * 2020-01-16 2021-07-16 北京达佳互联信息技术有限公司 码率决策模型训练方法、装置、电子设备及存储介质
WO2021143344A1 (zh) * 2020-01-16 2021-07-22 北京达佳互联信息技术有限公司 码率决策模型训练方法以及电子设备
CN111294595B (zh) * 2020-02-04 2022-01-07 清华大学深圳国际研究生院 一种基于深度强化学习的视频编码帧内码率控制方法
CN111294595A (zh) * 2020-02-04 2020-06-16 清华大学深圳国际研究生院 一种基于深度强化学习的视频编码帧内码率控制方法
CN113852817B (zh) * 2020-06-28 2024-04-05 上海交通大学 自适应码率传输服务器、码率确定方法、传输系统及方法
CN113852817A (zh) * 2020-06-28 2021-12-28 上海交通大学 一种自适应码率传输的服务器及码率确定方法
CN111901642A (zh) * 2020-07-31 2020-11-06 成都云格致力科技有限公司 基于强化学习的实时视频码率自适应调控方法与系统
CN111901642B (zh) * 2020-07-31 2022-09-30 成都云格致力科技有限公司 基于强化学习的实时视频码率自适应调控方法与系统
CN113518250A (zh) * 2020-08-07 2021-10-19 腾讯科技(深圳)有限公司 一种多媒体数据处理方法、装置、设备及可读存储介质
CN113518250B (zh) * 2020-08-07 2022-08-02 腾讯科技(深圳)有限公司 一种多媒体数据处理方法、装置、设备及可读存储介质
CN112291495A (zh) * 2020-10-16 2021-01-29 厦门大学 一种基于强化学习的无线视频低时延抗干扰传输方法
CN112261439A (zh) * 2020-10-21 2021-01-22 南京航空航天大学 一种超密集蜂窝网络中的可伸缩视频下载方法及系统
CN112533036A (zh) * 2020-11-30 2021-03-19 北京大学 一种神经自适应视频流多路径传输结果确定方法及系统
CN112911408A (zh) * 2021-01-25 2021-06-04 电子科技大学 基于深度学习的智能视频码率调整及带宽分配方法
CN112911408B (zh) * 2021-01-25 2022-03-25 电子科技大学 基于深度学习的智能视频码率调整及带宽分配方法
CN113014968B (zh) * 2021-02-24 2022-02-08 南京大学 一种基于强化学习的多用户动态码率视频传输方法及系统
CN113014968A (zh) * 2021-02-24 2021-06-22 南京大学 一种基于强化学习的多用户动态码率视频传输方法及系统
WO2022183922A1 (zh) * 2021-03-04 2022-09-09 北京字跳网络技术有限公司 视频的自适应播放方法及设备
CN113259657A (zh) * 2021-05-18 2021-08-13 上海大学 基于视频质量分数的dppo码率自适应控制系统和方法
CN114007113B (zh) * 2021-11-01 2023-12-01 迪爱斯信息技术股份有限公司 视频码率自适应调整方法及其装置
CN114007113A (zh) * 2021-11-01 2022-02-01 迪爱斯信息技术股份有限公司 视频码率自适应调整方法及其装置
CN114025190B (zh) * 2021-11-03 2023-06-20 北京达佳互联信息技术有限公司 多码率调度方法和多码率调度装置
CN114025190A (zh) * 2021-11-03 2022-02-08 北京达佳互联信息技术有限公司 多码率调度方法和多码率调度装置
CN114040230B (zh) * 2021-11-08 2024-03-29 北京达佳互联信息技术有限公司 视频码率确定方法、装置、电子设备及其存储介质
CN114040230A (zh) * 2021-11-08 2022-02-11 北京达佳互联信息技术有限公司 视频码率确定方法、装置、电子设备及其存储介质
CN114095756A (zh) * 2021-11-17 2022-02-25 天津大学 基于长期视野预测的自适应全景视频流传输系统及其方法
CN114095756B (zh) * 2021-11-17 2024-04-02 天津大学 基于长期视野预测的自适应全景视频流传输系统及其方法
CN114363677A (zh) * 2021-12-02 2022-04-15 深圳市新田科技有限公司 基于深度学习的移动网络视频码率实时调整方法和装置
CN115022684A (zh) * 2022-05-27 2022-09-06 西安交通大学 一种quic协议下基于深度强化学习的视频流自适应传输方法

Also Published As

Publication number Publication date
CN108063961B (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN108063961A (zh) 一种基于强化学习的自适应码率视频传输方法以及系统
CN111858009B (zh) 基于迁移和强化学习的移动边缘计算系统任务调度方法
CN108921298B (zh) 强化学习多智能体沟通与决策方法
CN112486690B (zh) 一种适用于工业物联网的边缘计算资源分配方法
CN110141867B (zh) 一种游戏智能体训练方法及装置
CN108027897A (zh) 利用深度强化学习的连续控制
CN107197006B (zh) 基于全局QoS分解的多约束服务选取方法及其装置
CN105637540A (zh) 用于强化学习的方法和设备
CN113434212A (zh) 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN107948083A (zh) 一种基于增强学习的sdn数据中心拥塞控制方法
CN111367657A (zh) 一种基于深度强化学习的计算资源协同合作方法
CN108465244A (zh) 用于竞速类ai模型的ai参数配置方法、装置、设备及存储介质
CN108322541A (zh) 一种自适应的分布式体系架构
CN113098714A (zh) 一种基于深度强化学习的低时延网络切片的方法
CN107306207A (zh) 结合Skyline计算与多目标强化学习服务组合方法
CN114896899B (zh) 一种基于信息交互的多智能体分散式决策方法及系统
WO2023138156A1 (zh) 决策模型的训练方法、装置、设备、存储介质及程序产品
CN107890675A (zh) Ai行为实现方法和装置
CN114049242A (zh) 一种基于深度强化学习的武器目标智能分配方法
CN114710439A (zh) 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
Wang et al. Assessing the potential of classical Q-learning in general game playing
CN113411826A (zh) 一种基于注意力机制强化学习的边缘网络设备缓存方法
CN116320620A (zh) 基于个性化联邦强化学习的流媒体比特率自适应调整方法
Hu et al. Attentive multi-view reinforcement learning
CN109977998A (zh) 信息处理方法及装置、存储介质和电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180709

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Applicant after: Shenzhen yunnet bate Technology Co., Ltd.

Address before: 100000 Suzhou Street, Haidian District, Haidian District, Beijing, No. 55, 3 layer 01

Applicant before: Beijing joint net Vision Culture Communication Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant