CN113259657A - 基于视频质量分数的dppo码率自适应控制系统和方法 - Google Patents

基于视频质量分数的dppo码率自适应控制系统和方法 Download PDF

Info

Publication number
CN113259657A
CN113259657A CN202110541262.9A CN202110541262A CN113259657A CN 113259657 A CN113259657 A CN 113259657A CN 202110541262 A CN202110541262 A CN 202110541262A CN 113259657 A CN113259657 A CN 113259657A
Authority
CN
China
Prior art keywords
video
module
dppo
bit rate
adaptive control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110541262.9A
Other languages
English (en)
Inventor
滕国伟
汤佳斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110541262.9A priority Critical patent/CN113259657A/zh
Publication of CN113259657A publication Critical patent/CN113259657A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N17/00Diagnosis, testing or measuring for television systems or their details
    • H04N17/004Diagnosis, testing or measuring for television systems or their details for digital television systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种基于视频质量分数的DPPO码率自适应控制系统和方法,包括:发送端:获取实时视频包,并发送至视频质量分数预测模块和接收端;视频质量分数预测模块:根据视频包获取当前视频帧的空时域信息和预测未来视频帧的质量分数,将预测的质量分数送入码率自适应模块;接收端:接收到实时视频包后,反馈当前网络参数到码率自适应模块;码率自适应模块:根据预测的质量分数和当前网络参数,采用强化学习中的DPPO算法进行最优码率策略学习,得到最优比特率,进行码率自适应控制。本发明采用视频质量分数作为用户体验质量中的一项指标,在不降低视频质量的情况下,减少了比特率消耗。

Description

基于视频质量分数的DPPO码率自适应控制系统和方法
技术领域
本发明涉及视频流技术领域,具体地,涉及一种基于视频质量分数的DPPO码率自适应控制系统和方法。
背景技术
近年来,随着互联网和通信技术的发展,基于HTTP的视频流量逐渐成为网络的主要流量来源。过去七年中,移动数据流量增长17倍,其中移动视频服务占所有移动数据服务的59%,预计在2022年将增加到80%。用户的对高质量视频的需求日益增长,但是受限于网络传输条件,用户在播放高质量视频时,经常会发生卡顿,从而影响整体的观赏体验。视频流媒体的自适应码率控制算法(Adaptive Bitrate Rate,ABR)应运而生,其目的是尽可能让视频块的大小匹配当前网络带宽,从而提高网络带宽利用率,提升用户的体验质量(Quality ofExperience,QoE)。
随着计算机算力的增强,机器学习也被应用到码率自适应控制研究中,大多数算法利用强化学习虽然取得较好的效果,但是一方面一些算法没有考虑到视频质量参数,一味的选择高比特率,导致视频重新缓存,降低视频的整体观感,另外一方面存在更新步长过大的情况,导致无法有效学习,因此如果能设计一种使用强化学习的码率自适应算法,将未来视频质量作为QoE的一个指标,就能够在较低的比特率下,更好的学习特征,获得更高的视频质量。
专利文献CN101854524A(申请号:CN200910064533.5)公开了一种甚低码率视频编码器视频控制方法,它包括I帧码率控制方法和P帧码率控制方法,所述的I帧码率控制方法包括以下步骤:①建立二阶率失真模型;②求取初始量化值;③对目标位数进行分配;④求取量化值。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于视频质量分数的DPPO码率自适应控制系统和方法。
根据本发明提供的基于视频质量分数的DPPO码率自适应控制系统,包括:
发送端:获取实时视频包,并发送至视频质量分数预测模块和接收端;
视频质量分数预测模块:根据视频包获取当前视频帧的空时域信息和预测未来视频帧的质量分数,将预测的质量分数送入码率自适应模块;
接收端:接收到实时视频包后,反馈当前网络参数到码率自适应模块;
码率自适应模块:根据预测的质量分数和当前网络参数,采用强化学习中的DPPO算法进行最优码率策略学习,得到最优比特率,进行码率自适应控制。
优选的,所述视频质量分数预测模块包括空间特征提取模块和时域特征提取模块;
所述空间特征提取模块包括:采用卷积神经网络提取视频帧的空间特征;
所述时域特征提取模块包括:在经过空间特征提取后,通过长短期记忆网络提取视频序列的时域信息,保留和丢弃符合预设条件的信息,输出下一个视频包在各个比特率下的视频质量分数。
优选的,所述DPPO算法采用Actor-Critic强化学习框架,包括Actor模块和Critic模块;
所述Actor模块根据当前的状态输出动作;
所述Critic模块用于评估Actor模块采取的动作的优劣;
所述Critic模块的输入为状态s,输出为优势函数A:Qπ(s,a)-Vπ(s),其中:Qπ(s,a指当前状态下采取的动作a所得的分数,Vπ(s)指当前状态下所有动作的平均分数。
优选的,将发送端和接收端观测到的网络信息作为状态,表达为:{e,v,b,r,d,l},其中:e表示过去k个发送的视频序列的质量分数,v表示下一个视频包在各个比特率下的视频质量分数,b表示过去k个视频序列发送的比特率,r表示接收端接收到的k个视频序列的比特率,d表示过去k个视频序列的延迟梯度,l表示前k个序列的包丢失率;
Actor模块的输出为动作的概率分布,表达式为:f(t)=(st,at),表示在状态st下每一个动作at的概率。
优选的,在Actor模块中,利用下列公式进行参数更新:
Figure BDA0003071647560000021
其中:
Figure BDA0003071647560000022
表示对期望进行求导;θ表示策略函数中的神经网络参数;γt表示折扣率的t次方;r表示奖励;clip表示clip函数,使目标值限定在[min,max]之内,大于max的值使其等于max,小于min的值使其等于min;ε表示界限值,为常数,利用该值标定更新步幅的上界和下界;ratiot表示新策略与旧策略的比值,公式为:
Figure BDA0003071647560000031
通过第二项裁剪概率比并取最小值,在ratio变大时更新的步长不超过ε,在ratio变小时仍取值ratio本身;At为优势函数;t表示子线程循环步数;
Critic模块通过损失函数进行网络参数更新,表达式为:
Figure BDA0003071647560000032
其中:rt表示当前策略所得到的奖励;N表示总步数;n表示当前的步数。
根据本发明提供的基于视频质量分数的DPPO码率自适应控制方法,包括:
步骤1:获取实时视频包;
步骤2:根据实时视频包获取当前视频帧的空时域信息和预测未来视频帧的质量分数;
步骤3:根据实时视频包获取当前网络参数;
步骤4:根据预测的质量分数和当前网络参数,采用强化学习中的DPPO算法进行最优码率策略学习,得到最优比特率,进行码率自适应控制。
优选的,所述步骤2包括:
步骤2.1:采用卷积神经网络提取视频帧的空间特征;
步骤2.2:通过长短期记忆网络提取视频序列的时域信息,保留和丢弃符合预设条件的信息,输出下一个视频包在各个比特率下的视频质量分数。
优选的,所述DPPO算法采用Actor-Critic强化学习框架,包括Actor模块和Critic模块;
所述Actor模块根据当前的状态输出动作;
所述Critic模块用于评估Actor模块采取的动作的优劣;
所述Critic模块的输入为状态s,输出为优势函数A:Qπ(s,a)-Vπ(s),其中:Qπ(s,a指当前状态下采取的动作a所得的分数,Vπ(s)指当前状态下所有动作的平均分数。
优选的,状态表达为:{e,v,b,r,d,l},其中:e表示过去k个发送的视频序列的质量分数,v表示下一个视频包在各个比特率下的视频质量分数,b表示过去k个视频序列发送的比特率,r表示接收端接收到的k个视频序列的比特率,d表示过去k个视频序列的延迟梯度,l表示前k个序列的包丢失率;
Actor模块的输出为动作的概率分布,表达式为:f(t)=(st,at),表示在状态st下每一个动作at的概率。
优选的,在Actor模块中,利用下列公式进行参数更新:
Figure BDA0003071647560000041
其中:
Figure BDA0003071647560000044
表示对期望进行求导;θ表示策略函数中的神经网络参数;γt表示折扣率的t次方;r表示奖励;clip表示clip函数,使目标值限定在[min,max]之内,大于max的值使其等于max,小于min的值使其等于min;ε表示界限值,为常数,利用该值标定更新步幅的上界和下界;ratiot表示新策略与旧策略的比值,公式为:
Figure BDA0003071647560000042
通过第二项裁剪概率比并取最小值,在ratio变大时更新的步长不超过ε,在ratio变小时仍取值ratio本身;At为优势函数;t表示子线程循环步数;
Critic模块通过损失函数进行网络参数更新,表达式为:
Figure BDA0003071647560000043
其中:rt表示当前策略所得到的奖励;N表示总步数;n表示当前的步数。
与现有技术相比,本发明具有如下的有益效果:
(1)本发明采用自适应学习率的方法,能够根据不同的网络环境,选择相适应的比特率,不同网络环境都能达到最好的效果;
(2)在本发明视频质量分数预测模块,采用LSTM来预测视频质量分数,能够更加准确的去预测当前比特率下视频的质量的分数;
(3)本发明将未来视频质量作为QoE的一个指标,期望能够在较低的比特率下,获得更高的视频质量。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为基于视频质量分数的DPPO码率自适应框架图;
图2为视频质量分数预测模块图;
图3为DPPO码率自适应模块;
图4为训练流程图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例:
如图1所示,根据本发明提供的一种基于视频质量分数的DPPO码率自适应算法,整个算法框架包含:发送端和接收端。
发送端:首先发送端发送实时视频包P={p0,p1…pi},再经过视频质量分数模块,视频质量分数模块由当前视频帧的空时域信息预测和获取未来视频的质量分数,将预测的质量分数送入码率自适应模块;
其中:p0表示第0个传输的视频包单元,大小为1500bit;i表示第i个视频包单元。
接收端:接收到实时视频流之后,反馈当前网络参数到码率自适应模块。
最优比特率的生成,码率自适应模块则通过视频质量分数模块得到的预测视频质量分数与接收端反馈的网络参数,利用模型选出最优比特率。
视频质量分数预测模块:如图2所示,包含空间特征提取模块和时域特征提取模块;
空间特征提取模块:发送端发送视频帧Fi={fi-k-1,fi-k,fi-k+1…fi},fi表示的是第i个视频包中采样的视频帧,可以采用卷积神经网络来提取视频帧的空间特征,k表示提取视频帧的数量。
时域特征提取模块:经过空间特征提取之后,再由长短期记忆网络来提取视频序列的时域信息,可以保留长时间需要保存的信息,同时能丢弃不重要的信息,输出的是下一个视频包的在各个比特率下的视频质量分数。
DPPO码率自适应模块:如图3所示,采用了强化学习中的DPPO在复杂网络环境进行学习最优码率策略。
DPPO采用actor-critic框架,包含两个部分:Actor模块和Critic模块。
Critic模块的输入为状态s,输出的是一个优势函数A:Qπ(s,a)-Vπ(s),Qπ(s,a是指当前状态下采取的动作a所得的分数,Vπ(s)是指当前状态下所有动作的平均分数。
Critic模块用来评估Actor模块采取的动作的优劣,Actor则根据当前的状态输出动作。在DPPO中有以下重要参数:
状态(State):把发送端和接收端观测到的网络信息作为状态。输入的状态为:{e,v,b,r,d,l},e表示过去k个发送的视频序列的质量分数,v表示下一个视频包在各个比特率下的视频质量分数,b表示过去k个视频序列发送的比特率,r表示接收端接收到的k个视频序列的比特率,d表示过去k个视频序列的延迟梯度,l表示前k个序列的包丢失率。
动作(Action):Actor网络输出的策略是一个动作的概率分布,定义为:f(t)=(st,at),意味着在状态st下每一个动作at的概率。这个策略为智能体选择动作做出指导。动作就是下一时刻要选择的码率,有以下五个码率{300,500,800,1100,1400}kbps,因此它的动作空间是离散的。
在Actor中,利用下列公式进行更新参数:
Figure BDA0003071647560000061
其中:
Figure BDA0003071647560000064
表示对期望进行求导;θ表示策略函数中的神经网络参数;γt表示折扣率的t次方;r表示奖励;clip表示clip函数,使目标值限定在[min,max]之内,大于max的值使其等于max,小于min的值使其等于min;ε表示界限值,为常数,利用该值标定更新步幅的上界和下界;ratiot表示新策略与旧策略的比值,公式为:
Figure BDA0003071647560000062
通过第二项裁剪概率比,并取最小值,通过这个方式,可以保证在ratio变大的时候,更新的步长不会超过ε,而在ratio变小的时候,则仍取ratio本身,从而使更新的步长一直在一个合理的范围内,不会过大。At是指优势函数,通过Critic模块获得,为:Qπ(st,at)-Vπ(st)。Qπ(s,a)是指当前状态下采取的动作a所得的分数,可以写成rt+γVπ(st+1),Vπ(s)是指当前状态下所有动作的平均分数,rt表示当前策略所得到的奖励。Critic模块的loss可以写成:
Figure BDA0003071647560000063
结合图4所示,使用8个子线程来进行训练,具体训练步骤如下:
步骤1:初始化DPPO网络,初始化全局变量l,初始化八个线程;
步骤2:每个子线程初始化环境,令t=0,获得st←s0,t表示子线程循环步数;
步骤3-1:每个子线程都将st输入到DPPO网络中,获得动作at
步骤3-2:与各自的环境互动获得st',并更新状态st←st';
步骤3-3:更新t←t+1,记录参数st、at、rt
步骤3-4:当t>=MAX_STEP,将记录的状态传入更新线程,并进入更新参数线程,否则重复整个步骤3,MAX_STEP表示子线程最大循环步数;
步骤4:进入更新网络参数线程,利用子线程传入的参数和公式(1)更新Actor网络;
步骤5:利用公式(2)更新Critic网络;
步骤6:更新参数l←l+1,令t=0,l表示参数更新线程循环步数;
步骤7:如果l>=MAX_EPOCH,结束训练,保存模型,否则重复步骤3-7,MAX_EPOCH表示参数更新线程最大循环步数。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于视频质量分数的DPPO码率自适应控制系统,其特征在于,包括:
发送端:获取实时视频包,并发送至视频质量分数预测模块和接收端;
视频质量分数预测模块:根据视频包获取当前视频帧的空时域信息和预测未来视频帧的质量分数,将预测的质量分数送入码率自适应模块;
接收端:接收到实时视频包后,反馈当前网络参数到码率自适应模块;
码率自适应模块:根据预测的质量分数和当前网络参数,采用强化学习中的DPPO算法进行最优码率策略学习,得到最优比特率,进行码率自适应控制。
2.根据权利要求1所述的基于视频质量分数的DPPO码率自适应控制系统,其特征在于,所述视频质量分数预测模块包括空间特征提取模块和时域特征提取模块;
所述空间特征提取模块包括:采用卷积神经网络提取视频帧的空间特征;
所述时域特征提取模块包括:在经过空间特征提取后,通过长短期记忆网络提取视频序列的时域信息,保留和丢弃符合预设条件的信息,输出下一个视频包在各个比特率下的视频质量分数。
3.根据权利要求1所述的基于视频质量分数的DPPO码率自适应控制系统,其特征在于,所述DPPO算法采用Actor-Critic强化学习框架,包括Actor模块和Critic模块;
所述Actor模块根据当前的状态输出动作;
所述Critic模块用于评估Actor模块采取的动作的优劣;
所述Critic模块的输入为状态s,输出为优势函数A:Qπ(s,a)-Vπ(s),其中:Qπ(s,a)指当前状态下采取的动作a所得的分数,Vπ(s)指当前状态下所有动作的平均分数。
4.根据权利要求3所述的基于视频质量分数的DPPO码率自适应控制系统,其特征在于,将发送端和接收端观测到的网络信息作为状态,表达为:{e,v,b,r,d,l},其中:e表示过去k个发送的视频序列的质量分数,v表示下一个视频包在各个比特率下的视频质量分数,b表示过去k个视频序列发送的比特率,r表示接收端接收到的k个视频序列的比特率,d表示过去k个视频序列的延迟梯度,l表示前k个序列的包丢失率;
Actor模块的输出为动作的概率分布,表达式为:f(t)=(st,at),表示在状态st下每一个动作at的概率。
5.根据权利要求4所述的基于视频质量分数的DPPO码率自适应控制系统,其特征在于,在Actor模块中,利用下列公式进行参数更新:
Figure FDA0003071647550000021
其中:
Figure FDA0003071647550000022
表示对期望进行求导;θ表示策略函数中的神经网络参数;γt表示折扣率的t次方;r表示奖励;clip表示clip函数,使目标值限定在[min,max]之内,大于max的值使其等于max,小于min的值使其等于min;ε表示界限值,为常数,利用该值标定更新步幅的上界和下界;ratiot表示新策略与旧策略的比值,公式为:
Figure FDA0003071647550000023
通过第二项裁剪概率比并取最小值,在ratio变大时更新的步长不超过ε,在ratio变小时仍取值ratio本身;At为优势函数;t表示子线程循环步数;
Critic模块通过损失函数进行网络参数更新,表达式为:
Figure FDA0003071647550000024
其中:rt表示当前策略所得到的奖励;N表示总步数;n表示当前的步数。
6.一种基于视频质量分数的DPPO码率自适应控制方法,其特征在于,包括:
步骤1:获取实时视频包;
步骤2:根据实时视频包获取当前视频帧的空时域信息和预测未来视频帧的质量分数;
步骤3:根据实时视频包获取当前网络参数;
步骤4:根据预测的质量分数和当前网络参数,采用强化学习中的DPPO算法进行最优码率策略学习,得到最优比特率,进行码率自适应控制。
7.根据权利要求6所述的基于视频质量分数的DPPO码率自适应控制方法,其特征在于,所述步骤2包括:
步骤2.1:采用卷积神经网络提取视频帧的空间特征;
步骤2.2:通过长短期记忆网络提取视频序列的时域信息,保留和丢弃符合预设条件的信息,输出下一个视频包在各个比特率下的视频质量分数。
8.根据权利要求6所述的基于视频质量分数的DPPO码率自适应控制方法,其特征在于,所述DPPO算法采用Actor-Critic强化学习框架,包括Actor模块和Critic模块;
所述Actor模块根据当前的状态输出动作;
所述Critic模块用于评估Actor模块采取的动作的优劣;
所述Critic模块的输入为状态s,输出为优势函数A:Qπ(s,a)-Vπ(s),其中:Qπ(s,a)指当前状态下采取的动作a所得的分数,Vπ(s)指当前状态下所有动作的平均分数。
9.根据权利要求8所述的基于视频质量分数的DPPO码率自适应控制方法,其特征在于,状态表达为:{e,v,b,r,d,l},其中:e表示过去k个发送的视频序列的质量分数,v表示下一个视频包在各个比特率下的视频质量分数,b表示过去k个视频序列发送的比特率,r表示接收端接收到的k个视频序列的比特率,d表示过去k个视频序列的延迟梯度,l表示前k个序列的包丢失率;
Actor模块的输出为动作的概率分布,表达式为:f(t)=(st,at),表示在状态st下每一个动作at的概率。
10.根据权利要求9所述的基于视频质量分数的DPPO码率自适应控制方法,其特征在于,在Actor模块中,利用下列公式进行参数更新:
Figure FDA0003071647550000031
其中:
Figure FDA0003071647550000032
表示对期望进行求导;θ表示策略函数中的神经网络参数;γt表示折扣率的t次方;r表示奖励;clip表示clip函数,使目标值限定在[min,max]之内,大于max的值使其等于max,小于min的值使其等于min;ε表示界限值,为常数,利用该值标定更新步幅的上界和下界;ratiot表示新策略与旧策略的比值,公式为:
Figure FDA0003071647550000033
通过第二项裁剪概率比并取最小值,在ratio变大时更新的步长不超过ε,在ratio变小时仍取值ratio本身;At为优势函数;t表示子线程循环步数;
Critic模块通过损失函数进行网络参数更新,表达式为:
Figure FDA0003071647550000034
其中:rt表示当前策略所得到的奖励;N表示总步数;n表示当前的步数。
CN202110541262.9A 2021-05-18 2021-05-18 基于视频质量分数的dppo码率自适应控制系统和方法 Pending CN113259657A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110541262.9A CN113259657A (zh) 2021-05-18 2021-05-18 基于视频质量分数的dppo码率自适应控制系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110541262.9A CN113259657A (zh) 2021-05-18 2021-05-18 基于视频质量分数的dppo码率自适应控制系统和方法

Publications (1)

Publication Number Publication Date
CN113259657A true CN113259657A (zh) 2021-08-13

Family

ID=77183350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110541262.9A Pending CN113259657A (zh) 2021-05-18 2021-05-18 基于视频质量分数的dppo码率自适应控制系统和方法

Country Status (1)

Country Link
CN (1) CN113259657A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115086667A (zh) * 2022-07-26 2022-09-20 香港中文大学(深圳) 一种基于自适应学习的实时视频传输方法
CN116842856A (zh) * 2023-09-04 2023-10-03 长春工业大学 一种基于深度强化学习的工业过程优化方法
WO2024120134A1 (zh) * 2022-12-09 2024-06-13 中兴通讯股份有限公司 视频传输方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101808244A (zh) * 2010-03-24 2010-08-18 北京邮电大学 一种视频传输控制方法及系统
CN104683804A (zh) * 2015-02-14 2015-06-03 北京航空航天大学 基于视频内容特征的参数自适应多维码率控制方法
CN108063961A (zh) * 2017-12-22 2018-05-22 北京联合网视文化传播有限公司 一种基于强化学习的自适应码率视频传输方法以及系统
CN109218744A (zh) * 2018-10-17 2019-01-15 华中科技大学 一种基于drl的比特率自适应无人机视频流传输方法
CN110401834A (zh) * 2019-08-06 2019-11-01 杭州微帧信息科技有限公司 一种基于深度学习的自适应视频编码方法
US20200099733A1 (en) * 2018-09-26 2020-03-26 Vmware, Inc. System and method for widescale adaptive bitrate selection
WO2020078575A1 (en) * 2018-10-19 2020-04-23 Telefonaktiebolaget Lm Ericsson (Publ) Methods of and devices for adaptive bit rate, abr, video resolution shaping of a video stream in a telecommunications system

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101808244A (zh) * 2010-03-24 2010-08-18 北京邮电大学 一种视频传输控制方法及系统
CN104683804A (zh) * 2015-02-14 2015-06-03 北京航空航天大学 基于视频内容特征的参数自适应多维码率控制方法
CN108063961A (zh) * 2017-12-22 2018-05-22 北京联合网视文化传播有限公司 一种基于强化学习的自适应码率视频传输方法以及系统
US20200099733A1 (en) * 2018-09-26 2020-03-26 Vmware, Inc. System and method for widescale adaptive bitrate selection
CN109218744A (zh) * 2018-10-17 2019-01-15 华中科技大学 一种基于drl的比特率自适应无人机视频流传输方法
WO2020078575A1 (en) * 2018-10-19 2020-04-23 Telefonaktiebolaget Lm Ericsson (Publ) Methods of and devices for adaptive bit rate, abr, video resolution shaping of a video stream in a telecommunications system
CN110401834A (zh) * 2019-08-06 2019-11-01 杭州微帧信息科技有限公司 一种基于深度学习的自适应视频编码方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JOHN SCHULMAN,FILIP WOLSKI,PRAFULLA DHARIWAL,ALEC RADFORD等: "Proximal Policy Optimization Algorithms", 《ARVIX》 *
TIANCHI HUANG,RUIXIAO ZHANG,CHAO ZHOU,LIFENG SUN: "QARC:Video Qulity Aware Rate Control for Real-Time Video Streaming via Deep Reinforcement Learning", 《ARVIX》 *
冯苏柳,姜秀华: "基于强化学习的DASH自适应码率决策算法研究", 《中国传媒大学学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115086667A (zh) * 2022-07-26 2022-09-20 香港中文大学(深圳) 一种基于自适应学习的实时视频传输方法
CN115086667B (zh) * 2022-07-26 2022-11-18 香港中文大学(深圳) 一种基于自适应学习的实时视频传输方法
WO2024120134A1 (zh) * 2022-12-09 2024-06-13 中兴通讯股份有限公司 视频传输方法、装置、设备及存储介质
CN116842856A (zh) * 2023-09-04 2023-10-03 长春工业大学 一种基于深度强化学习的工业过程优化方法
CN116842856B (zh) * 2023-09-04 2023-11-14 长春工业大学 一种基于深度强化学习的工业过程优化方法

Similar Documents

Publication Publication Date Title
CN113259657A (zh) 基于视频质量分数的dppo码率自适应控制系统和方法
Zhang et al. Video super-resolution and caching—An edge-assisted adaptive video streaming solution
CN107135411B (zh) 一种调整视频码率的方法及电子设备
Zhang et al. Casva: Configuration-adaptive streaming for live video analytics
CN113475089A (zh) 用于面向用户的内容流的方法和系统
CN112954385A (zh) 一种基于控制论和数据驱动的自适应分流决策方法
WO2022000298A1 (en) Reinforcement learning based rate control
CN115022684A (zh) 一种quic协议下基于深度强化学习的视频流自适应传输方法
CN116320620A (zh) 基于个性化联邦强化学习的流媒体比特率自适应调整方法
CN113422751A (zh) 基于在线强化学习的流媒体处理方法、装置及电子设备
CN114040257A (zh) 一种自适应视频流传输播放方法、装置、设备及存储介质
Hafez et al. Reinforcement learning-based rate adaptation in dynamic video streaming
Xie et al. Deep Curriculum Reinforcement Learning for Adaptive 360$^{\circ} $ Video Streaming With Two-Stage Training
CN116347170A (zh) 一种基于序贯因果建模的自适应比特率控制方法
CN115695390B (zh) 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法
Kim et al. HTTP adaptive streaming scheme based on reinforcement learning with edge computing assistance
CN115834924B (zh) 面向交互式视频的松耦合编码码率-传输速率调节方法
Om et al. H. 264 and H. 265 video traffic modeling using neural networks
CN118175356A (zh) 视频传输方法、装置、设备及存储介质
CN113645487B (zh) 码率自适应分配方法
CN114827683A (zh) 基于强化学习的视频自适应码率控制系统及方法
CN113411628A (zh) 直播视频的码率自适应方法、装置、电子设备及可读介质
CN114666620B (zh) 基于视觉敏感度的自适应流媒体方法
CN115052182B (zh) 基于队列学习和超分辨率的超高清视频传输系统与方法
CN113852817A (zh) 一种自适应码率传输的服务器及码率确定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210813