CN115834924B - 面向交互式视频的松耦合编码码率-传输速率调节方法 - Google Patents
面向交互式视频的松耦合编码码率-传输速率调节方法 Download PDFInfo
- Publication number
- CN115834924B CN115834924B CN202211364048.1A CN202211364048A CN115834924B CN 115834924 B CN115834924 B CN 115834924B CN 202211364048 A CN202211364048 A CN 202211364048A CN 115834924 B CN115834924 B CN 115834924B
- Authority
- CN
- China
- Prior art keywords
- network
- rate
- video
- transmission
- transmission rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 50
- 238000010168 coupling process Methods 0.000 title claims abstract description 16
- 238000005859 coupling reaction Methods 0.000 title claims abstract description 16
- 230000008878 coupling Effects 0.000 title claims abstract description 14
- 230000005540 biological transmission Effects 0.000 claims abstract description 121
- 230000001105 regulatory effect Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 13
- 230000003750 conditioning effect Effects 0.000 claims description 9
- 230000008901 benefit Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000013210 evaluation model Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 4
- 238000004891 communication Methods 0.000 abstract description 2
- 238000011156 evaluation Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000005457 optimization Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 3
- 102100026827 Protein associated with UVRAG as autophagy enhancer Human genes 0.000 description 2
- 101710102978 Protein associated with UVRAG as autophagy enhancer Proteins 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种面向交互式视频的松耦合编码码率‑传输速率调节方法,属于网络通信与多媒体交互领域。包括:以当前时刻t应用层指标和传输层指标作为调节网络的输入以对调节网络进行训练;其中,调节网络包括:公共网络单元、第一分支网络单元及第二分支网络单元;两个分支网络单元分别用于输出当前时刻预测的编码码率和传输速率;以当前时刻预测的编码码率和预测的传输速率更新下一时刻应用层指标和传输层指标,作为下一时刻调节网络的输入以对调节网络进行下一轮次的训练,直至调节网络收敛,使调节网络输出最终的目标编码码率和传输速率。本发明能够使交互式视频编码码率与传输速率以协作与独立的方式进行调节,以最大化交互式视频系统的QoE。
Description
技术领域
本发明属于网络通信与多媒体交互领域,更具体地,涉及一种面向交互式视频的松耦合编码码率-传输速率调节方法。
背景技术
近年来,在LTE-Advanced和5G网络基础设施的推动下,交互式视频应用正在急速增长,如近年来的视频会议、数字教室、现场购物、AR/VR 流媒体等应用。
如何保障交互式视频的用户质量体验(QoE)仍然是交互式视频应用的难题之一。一方面,交互式视频对延时提出了极为苛刻的要求(低至几百毫秒);另一方面,由于实时编码的特性牺牲了压缩效率,交互式视频对带宽的需求更强烈,此外,新兴的应用如VR/AR/360°游戏和VR现场音乐会,对更大的视频尺寸、更高的分辨率以及更低的延时表现出新的需求与性能期望。
为了最大化QoE,现有技术中,解决方案一般有两种,一种是通过应用层编码码率和传输层速率间的“过度耦合和高度同步”,以保证低延时性能,如基于人为规则的谷歌拥塞控制(GCC)算法和基于学习算法的OnRL, Loki等。一种是针对点播(VoD)视频,应用层编码码率和传输速率之间无交互,分别对应用层编码码率和传输速率进行独立调节。
而上述两种方式,应用层编码码率和传输速率之间的调节要么是过渡耦合,要么是无交互;针对点播(VoD)视频的“无交互”方案,由于对传输延时的限制,并不适合交互式视频流媒体传输。
针对“过度耦合”的方案会导致传输速率和应用层编码码率调节策略之间有冲突,进而影响QoE,具体表现为:传输速率调节机制依赖快速嗅探来检测带宽,嗅探的速度一般是毫秒级别,要求在降低延时的同时最大化吞吐量;而应用层编码码率调节机制的时间跨度则是秒级,强调码率变换的平稳性,以避免造成大的帧质量/延时抖动。可以看出,两种调节机制是有差异冲突的;基于上述差异冲突,GCC算法放弃了部分传输层的优势,放慢带宽嗅探速度来配合编码码率调节,以保证其高度同步性,然而该方法导致带宽利用率低;而基于学习的算法则保留传输层带宽嗅探速度,具体做法为将调节时间间隔配置为50-100毫秒且不对调节幅度进行严格限制,然而,由此产生的调节波动往往会抑制编码码率大小并影响平滑性,在目标编码码率和实际编码码率之间产生差距。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种面向交互式视频的松耦合编码码率-传输速率调节方法,其目的在于使交互式视频编码码率与传输速率以协作与独立共存的方式进行调节,以最大化交互式视频的 QoE。
为实现上述目的,按照本发明的一个方面,提供了一种面向交互式视频的松耦合编码码率-传输速率调节方法,包括:
训练阶段:以当前时刻t视频传输中应用层指标和传输层指标作为调节网络的输入以对调节网络进行训练;其中,所述调节网络包括:公共网络单元、第一分支网络单元及第二分支网络单元;
所述公共网络单元用于提取当前时刻t应用层指标和传输层指标中的共享特征,得到共享特征向量;
所述第一分支网络单元用于以当前时刻t应用层指标和共享特征向量为输入,输出当前时刻预测的编码码率
所述第二分支网络单元用于以当前时刻t传输层指标、共享特征向量以及当前时刻预测的编码码率为输入,输出当前时刻预测的传输速率/>
以当前时刻预测的编码码率和预测的传输速率/>更新下一时刻应用层指标和传输层指标,作为下一时刻调节网络的输入以对调节网络进行下一轮次的训练,直至调节网络收敛,使所述第一分支网络单元输出最终的目标编码码率,所述第二分支网络单元输出最终的目标传输速率;
应用阶段:将目标视频传输中应用层指标和传输层指标输入训练好的调节网络中,输出目标编码码率及目标传输速率,并反馈至交互式视频系统中的视频发送设备,使视频发送设备按照目标编码码率及目标传输速率传输目标视频。
进一步地,在所述调节网络训练的过程中,采用应用层指标作为网络参数优化的奖励;
所述奖励rt的定义为:
其中,ft表示视频帧率,qt表示帧质量,It表示设定过去时间内的视频卡顿率,|bt-bt-Δt|表示相邻时间间隔的编码码率之间的抖动,Δt表示所述调节网络一次决策的时间间隔,α、β、η、分别为对应的权重。
进一步地,采用行动-评价模型与PPO算法结合的方法对所述调节网络进行在线训练;
所述损失函数Lθ′(θ)为:
其中,δθ′(θ)表示调节网络的新策略和旧策略之间的比值,表示优势函数,/>表示输入调节网络的应用层指标和传输层指标,/>表示调节网络的输出,clip()表示截断函数,∈是超参数。
进一步地,所述公共网络单元包括两个串联连接的全连接层,之后连接LeakyReLU激活函数。
进一步地,分支网络单元包括两个串联连接的全连接层,之后连接softmax激活函数,其中,所述分支网络单元为第一分支网络单元或第二分支网络单元。
进一步地,所述应用层指标包括:帧率序列、帧丢失序列、帧质量序列和视频编码码率序列;
所述传输层指标包括:数据包丢失序列、数据包延时序列、延时抖动序列、吞吐量序列和过去的传输速率序列。
进一步地,所述调节网络搭载在云服务器上,所述应用层指标和传输层指标通过交互式视频系统中的视频发送设备上载至所述云服务器,并输入至所述调节网络;
所述云服务器将所述当前时刻预测的编码码率及当前时刻预测的传输速率/>反馈给所述视频发送设备,用于分别调节视频编码码率与传输速率。
进一步地,还包括:设定延时限制,若应用层指标和传输层指标上载至云服务器的时间至云服务器将目标码率反馈给视频发送设备的时间超过所述设定延时,则采用GCC算法计算交互式视频的编码码率和传输速率;
其中,所述目标码率包括当前时刻预测的编码码率及当前时刻预测的传输速率/>
按照本发明的第二方面,提供了一种交互式视频传输方法,包括:
交互式视频系统中的视频发送设备基于目标编码码率和目标传输速率对目标视频进行传输;其中,所述目标编码码率和所述目标传输速率通过训练好的调节网络获得;
所述训练好的调节网络为第一方面任意一项所述的调节方法中的调节网络。
按照本发明的第三方面,提供了一种计算机可读存储介质,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如第一方面任一项所述的方法,和/或如第二方面所述的方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明的面向交互式视频的松耦合编码码率-传输速率调节方法,通过构建的公共网络单元从原始输入数据中提取共享特征,以确保视频编码码率和传输速率之间的基本联系,而后,通过设计的第一分支网络单元和第二分支网络单元分别沿着优化编码码率调节和传输速率调节方向进行更新优化,在这个过程中,将公共网络单元提取到的共享特征向量分别与原始的应用层/传输层数据进行整合,作为第一分支网络单元/第二分支网络单元的输入,公共网络单元提取到的共享特征向量能够提供整体交互式视频传输状态的全局信息,但是缺少应用层和传输层特征之间的差异,故在两个任务不同的分支网络中,分别输入与其任务相关度更高的本地特征,能够使两个分支网络更容易朝优化自身任务目标的方向进化,使第一分支网络单元生成相对保守的策略,以保障视频码率变换的平稳性与流畅性,且在带宽大幅增加时尽可能快地实现编码码率转换,而第二分支网络单元向一个略微激进的方向发展,以快速嗅探带宽并最大化吞吐量。这样的设计能够充分发挥应用层与传输层机制的各自优势,在最大化吞吐量的同时还能保证视频码率调节的平滑性。
同时,在当前时刻t,第一分支网络单元预测的编码码率在真正实施到视频传输架构中之前,被先一步添加为第二分支网络单元的输入,以便更好地预测前当时刻的传输速率;由于传输速率的最终结果实际上会受到编码码率的限制,通过预先知道当前时刻预测的编码码率,该编码码率能够暗示未来视频编码码率的变化趋势,第二分支网络单元在预测当前时刻的传输速率时,将其作为参考,使得第二分支网络单元能够与第一分支网络单元以合作的方式得到更好的传输速率。本发明的这种设计,使得两个分支网络既能相互合作,又具有相互独立的特性;既能够分别来调节视频编码码率和传输速率/>又不会剥离视频编码码率/>和传输速率/>之间的联系,是一种松耦合的调节方式,实现了编码码率和传输速率调节之间的相互合作和独立共存,相比现有技术中的过耦合方式,能够最大化QoE。
(2)进一步地,本发明设计了一种的新的奖励机制,以应用层指标设计奖励机制,能够更真实的反映QoE,保障了优化目标与算法更新方向的一致性,以最直接有效的方式最大化QoE。
(3)本发明通过行动-评价模型与PPO算法结合的方法对调节网络进行参数优化,自主生成交互式视频编码码率与传输速率调节方案,无需人工操控。
附图说明
图1为本发明实施例1提供的面向交互式视频的松耦合编码码率-传输速率调节方法的流程示意图。
图2为本发明实施例1提供的调节网络在WebRTC架构中的流程示意图。
图3为本发明实施例1提供的调节网络的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
如图1-图3所示,本发明实施例提供的一种面向交互式视频的松耦合编码码率-传输速率调节方法,包括:
训练阶段:
以当前时刻t交互式视频系统中视频流应用层指标和传输层指标作为调节网络的输入以对调节网络进行训练;
其中,调节网络包括:公共网络单元、第一分支网络单元及第二分支网络单元;
公共网络单元,用于提取当前时刻t视频流应用层指标和传输层指标中的共享特征,得到共享特征向量;
第一分支网络单元,用于以当前时刻t应用层指标和共享特征向量为输入,经过全连接层,输出当前时刻预测的编码码率
第二分支网络单元,用于以当前时刻t传输层指标、共享特征向量以及当前时刻预测的编码码率为输入,经过全连接层,输出当前时刻预测的传输速率
以当前时刻预测的编码码率和预测的传输速率更新下一时刻交互式视频系统视频流应用层指标和传输层指标,作为下一时刻调节网络的输入以对调节网络进行下一轮次的训练,直至调节网络收敛,使第一分支网络单元输出最终的目标编码码率,第二分支网络单元输出最终的目标传输速率。
应用阶段:
将待调节编码码率-传输速率的目标视频流应用层指标和传输层指标输入训练好的调节网络中,第一分支网络单元输出目标编码码率,第二分支网络单元输出目标传输速率,并将目标编码码率及目标传输速率反馈至交互式视频系统中的视频发送设备,使视频发送设备按照目标编码码率及目标传输速率传输目标视频。
具体地,交互式视频基于WebRTC架构,在交互式视频系统的视频编码和发送过程中,视频帧在交互式视频系统的发送设备中以目标编码码率编码后,打包成RTP数据包,排列在由WebRTC架构中的平滑(pacer)模块控制的缓冲队列中进行等待,pacer模块根据目标传输速率向网络中发送 RTP包,对编码器产生的突发流量进行调度,避免瞬时拥堵。
当前时刻t,应用层指标代表客观层面的视频质量评价,指标主要包括帧率(FPS)、帧丢失、帧质量和视频编码码率,其中,本实施例中,帧质量由可以实时测量的量化参数(QP)表示;传输层指标记录了RTP数据包的状态,指标主要包括数据包丢失、数据包延时、延时抖动、吞吐量和过去的传输速率等指标。
为了使调节网络产生适应网络波动的长期策略,在当前时刻t,输入调节网络的状态观测值(即应用层指标和传输层指标)是以时间序列的形式定义,本实施例中,输入调节网络的指标涵盖过去3s,以Δt=100ms为单位时间。即应用层指标具体为帧率(FPS)序列、帧丢失序列、帧质量序列和视频编码码率序列,传输层指标具体为:数据包丢失序列、数据包延时序列、延时抖动序列、吞吐量序列和过去的传输速率序列。这些指标均可以在交互式视频系统的发送设备通过来自接收设备的周期性RTCP反馈中获得。
作为优选,流应用层指标和传输层指标序列输入公共网络单元之前,先进行摊平处理,使输入的指标序列与调节网络的输入相适配。
具体地,本实施例中,公共网络单元为特征提取网络,包括两个串联连接的全连接层,分别包含128个和64个神经元,之后连接LeakyReLU 作为激活函数。
第一分支网络单元和第二分支网络单元结构相同,均为两个串联连接的全连接层,分别包含128个和64个神经元,之后连接softmax函数来产生概率列表。
本发明的编码码率-传输速率调节方法,通过构建的公共网络单元从原始输入数据中提取共享特征,以确保视频编码码率和传输速率之间的基本联系,而后,通过设计两个独立的分支网络分别承担不同的任务,决定不同的输出,即第一分支网络单元和第二分支网络单元分别沿着优化编码码率调节和传输速率调节方向进行更新优化,在这个过程中,将公共网络单元提取到的共享特征向量分别与原始的应用层/传输层数据进行整合,作为第一分支网络单元/第二分支网络单元的输入,公共网络单元提取到的共享特征向量倾向于提供整体交互式视频传输状态的全局信息,但是缺少应用层和传输层特征之间的差异,故在两个任务不同的分支网络中,分别输入与其任务相关度更高的本地特征(即应用层指标特征或传输层指标特征),能够使两个分支网络更容易朝优化自身任务目标的方向进化,比如,可以使第一分支网络单元更容易从历史编码码率中得到启示,使第二分支网络单元更关注传输层指标的波动,如包延时等,最终使得第二分支网络单元向一个略微激进的方向发展,以快速嗅探带宽并最大化吞吐量;第一分支网络单元生成相对保守的策略,以保障视频码率变换的平稳性与流畅性,且在带宽大幅增加时尽可能快地实现编码码率转换。这样的设计能够充分发挥应用层与传输层机制的各自优势,在最大化吞吐量的同时还能保证视频码率调节的平滑性。
在当前时刻t,第一分支网络单元预测的编码码率在真正实施到视频传输架构中之前,被先一步添加为第二分支网络单元的输入,以便更好地预测前当时刻的传输速率;由于,传输速率的最终结果实际上会受到编码码率的限制,通过预先知道当前时刻预测的编码码率,该编码码率能够暗示未来视频编码码率的变化趋势,第二分支网络单元在预测当前时刻的传输速率时,将其作为参考,使得第二分支网络单元能够与第一分支网络单元以合作的方式得到更好的传输速率。本发明的这种设计,使得两个分支网络既能相互合作,又具有相互独立的特性;既能够分别来调节视频编码码率和传输速率/>又不会剥离视频编码码率/>和传输速率/>之间的联系,是一种松耦合的调节方式,实现了编码码率和传输速率调节之间的相互合作和独立共存,相比现有技术中的过耦合方式,能够最大化QoE。
具体地,本实施例中,调节网络部署在云服务器上,以获得充足的计算与存储资源支撑,为视频发送设备提供跨平台视频编码码率和传输速率调节服务,在其他实施例中,也可以部署在其它计算设备上。第一分支网络单元和第二分支网络单元分别输出当前时刻预测的编码码率和传输速率后,云服务器将其发送至交互式视频的发送设备上,交互式视频发送设备通过分别调节编码码率和传输速率,与交互式视频系统互动,交互式视频系统视频流应用层和传输层状态变化,将变化后的状态作为下一时刻交互式视频系统视频流的应用层指标和传输层指标输入调节网络中,进行下一轮次的训练。
在训练的过程中,还包括设置奖励单元,以使本发明的调节网络沿着最大化QoE的方向来更新网络参数ωθ。
具体地,本发明采用应用层指标作为调节网络优化算法的奖励rt,与传输层指标的间接映射相比,应用层指标可以直接反映真实的QoE。
在当前时刻t,奖励rt的定义为:
式中,ft表示视频帧率FPS,qt表示帧质量,lt表示设定过去时间内的视频卡顿率,本实施例中,设定过去时间为过去2s,|bt-bt-Δt|表示相邻时间间隔的编码码率之间的抖动,其中,Δt表示调节网络一次决策的时间间隔,除lt外,所有这些指标都是在t-Δt到t的时间内测量的,α、β、η、分别四个影响因子的权重。
本实施例中,将视频卡顿率lt定义为FPS<12的情况,|bt-bt-Δt|通过约束前后时隙(即前一次决策时刻与当前时刻决策时刻)视频编码码率的变化来提高视频编码码率调节的平滑度,以避免大的帧延迟/质量抖动;四个影响因子的权重α、β、η、分别设置为2、1、4000和300作为参考。
通过本发明设计的奖励单元,以应用层指标设计奖励机制,能够更真实的反映QoE,保障了优化目标与算法更新方向的一致性,以最直接有效的方式最大化QoE。
可以采用强化学习算法对调节网络的参数进行更新优化,目标是通过在线学习的方式找到最优交互式视频码率-传输速率调节策略πθ,使累计折扣奖励最大化,其中,t′∈{t,t+Δt,...,T},Δt 为单位时间,表示调节网络一次决策的时间间隔,γ∈[0,1]表示折扣因子, T为策略梯度更新的批次大小,同时也代表了调节网络代理在进行决策时考虑的未来时间跨度,本发明利用这种批次级的更新,而不是实例级的更新,来提高在线训练的稳健性。
本实施例中,采用行动-评价(actor-critic)模型与PPO算法结合的方法对调节网络进行在线训练。行动-评价(actor-critic)模型由行动网络与评价网络构成,行为网络遵循策略πθ来选择跨层编码码率-传输速率而评价网络负责对当前状态/>(也即当前时刻输入到调节网络的指标序列)进行客观评估/>本发明不直接将/>作为更新方向,而是采用一个优势函数的形式/>来替代,来更好地表征在当前策略πθ下进行某一选择/>的价值,即实际奖励与/>提供的平均预期奖励评估相比的差异。在训练过程中,/>朝着更准确的评估方向更新,而/>则沿着最大化/>的方向进化。
在优化过程中,利用损失函数Lθ′(θ)对行动网络(也即本发明的调节网络)参数θ进行梯度更新,具体如下:
其中表示行动网络的新策略和旧策略之间的比值,表示优势函数,clip()表示截断函数,∈是一个超参数,通过剪切超出[1-∈,1+∈]范围的δθ′(θ)值,能够避免在线训练时出现梯度振荡和跳跃性的/>选择,使行动网络参数θ的在线更新更加平滑和稳健。在每一轮基于PPO算法的更新过程中,旧策略πθ′是在更新前对批次大小T的训练轨迹/>进行采样,而新策略πθ则根据以下梯度上升算法连续更新K 次:
其中,ξ是行动网络更新的学习率。评价网络的更新与行动网络的更新同步,本发明遵循梯度下降算法来实现评价网络参数ω的更新:
其中,ξ′是评价网络更新的学习率,和/>分别是评价网络在t和t+Δt时刻输出的状态评估值。
在本实施例中,批次大小T设置为32,γ设置为0.98。此外,本发明可以采用相对较小的∈=0.1,以避免在高动态环境中积累梯度噪声。
另外,为了保障持续的在线训练不影响神经网络(即本发明的调节网络)的快速响应能力,本发明对神经网络的实时决策和在线训练进行解耦并使其并行工作。在整体系统运行过程中,前端服务器进程接收到来自客户端的状态观测值后,优先响应其访问,进行神经网络决策并反馈目标输出/>在累计到足够批次大小T的训练轨迹/>后,将其传递给后端在线训练进程以实现神经网络参数的在线更新,在每一轮参数更新完成,更新的参数将被反馈到前端服务器进程以替换实时决策的神经网络参数。
同时,考虑到潜在的网络波动与神经网络决策造成的延时,本发明的方法还包括:设置视频发送设备的延时限制,本实施例中,延时限制为40ms,一旦从访问服务器到获得反馈之间的时间超过了该延时限制,即状态观测值/>上载至云服务器的时间至云服务器将/>反馈给视频发送设备的时间超过设定延时,将回退并直接采用经典算法GCC得出的交互式视频编码码率和传输速率,以防止目标/>实施不及时造成的灾难性性能下降。
在具体的系统运行过程中,视频发送设备将当前的状态观测值(也即当前时刻应用层和传输层的指标序列)上载到服务器,云服务器上的前端服务器进程接收到来自视频发送设备的状态观测值/>后,优先响应其访问并将其输入至调节网络中,调节网络根据当前策略在线决策,输出动作/>即当前时刻交互式视频编码码率-传输速率/>并将输出动作/>反馈给视频发送设备。
云服务器上的前端服务器进程累计足够批次大小T的训练轨迹后,将其传递给后端基于强化学习的在线训练进程,实现调节网络参数的在线更新,在每一轮参数更新完成后,更新的参数将被反馈到前端服务器进程以替换实时决策的调节网络参数。上述在线训练进程与调节网络实时决策进程并行工作以保障神经网络决策的快速响应。
视频发送设备在收到反馈回的当前时刻预测的视频编码码率和预测的传输速率后,切断编码码率与传输速率之间的联系,允许调节网络的两个输出值/>对视频编码码率与传输速率实现相对独立调节。
视频发送设备设定延时限制,一旦从访问服务器到获得反馈之间的时间超过了该延时限制,将直接回退并采用经典算法GCC得出的交互式视频编码码率和传输速率,以防止潜在的网络波动与神经网络决策延时造成的目标/>实施不及时,导致灾难性性能下降。
实施例2
本实施例提供了一种交互式视频传输方法,包括:交互式视频系统中的视频发送设备基于目标编码码率和目标传输速率对目标视频进行传输;其中,目标编码码率和目标传输速率通过训练好的调节网络获得;该训练好的调节网络为实施例1中的调节网络。
实施例3
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当计算机程序被处理器执行时实现实施例1描述的方法中的步骤,和/或如实施例2描述的方法中的步骤。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种面向交互式视频的松耦合编码码率-传输速率调节方法,其特征在于,包括:
训练阶段:以当前时刻t视频传输中应用层指标和传输层指标作为调节网络的输入以对调节网络进行训练;其中,所述调节网络包括:公共网络单元、第一分支网络单元及第二分支网络单元;
所述公共网络单元用于提取当前时刻t应用层指标和传输层指标中的共享特征,得到共享特征向量;
所述第一分支网络单元用于以当前时刻t应用层指标和共享特征向量为输入,输出当前时刻预测的编码码率
所述第二分支网络单元用于以当前时刻t传输层指标、共享特征向量以及当前时刻预测的编码码率为输入,输出当前时刻预测的传输速率/>
以当前时刻预测的编码码率和预测的传输速率/>更新下一时刻应用层指标和传输层指标,作为下一时刻调节网络的输入以对调节网络进行下一轮次的训练,直至调节网络收敛,使所述第一分支网络单元输出最终的目标编码码率,所述第二分支网络单元输出最终的目标传输速率;
其中,所述调节网络训练的过程中,采用应用层指标作为网络参数优化的奖励;
所述奖励rt的定义为:
其中,ft表示视频帧率,qt表示帧质量,lt表示设定过去时间内的视频卡顿率,|bt-bt-Δt|表示相邻时间间隔的编码码率之间的抖动,Δt表示所述调节网络一次决策的时间间隔,α、β、η、分别为对应的权重;
应用阶段:将目标视频传输中应用层指标和传输层指标输入训练好的调节网络中,输出目标编码码率及目标传输速率,并反馈至交互式视频系统中的视频发送设备,使视频发送设备按照目标编码码率及目标传输速率传输目标视频。
2.根据权利要求1所述的调节方法,其特征在于,采用行动-评价模型与PPO算法结合的方法对所述调节网络进行在线训练;
损失函数Lθ′(θ)为:
其中,δθ′(θ)表示调节网络的新策略和旧策略之间的比值,表示优势函数,表示输入调节网络的应用层指标和传输层指标,/>表示调节网络的输出,clip()表示截断函数,∈是超参数。
3.根据权利要求1所述的调节方法,其特征在于,所述公共网络单元包括两个串联连接的全连接层,之后连接LeakyReLU激活函数。
4.根据权利要求1所述的调节方法,其特征在于,分支网络单元包括两个串联连接的全连接层,之后连接softmax激活函数,其中,所述分支网络单元为第一分支网络单元或第二分支网络单元。
5.根据权利要求1所述的调节方法,其特征在于,所述应用层指标包括:帧率序列、帧丢失序列、帧质量序列和视频编码码率序列;
所述传输层指标包括:数据包丢失序列、数据包延时序列、延时抖动序列、吞吐量序列和过去的传输速率序列。
6.根据权利要求1-5任意一项所述的调节方法,其特征在于,所述调节网络搭载在云服务器上,所述应用层指标和传输层指标通过交互式视频系统中的视频发送设备上载至所述云服务器,并输入至所述调节网络;
所述云服务器将所述当前时刻预测的编码码率及当前时刻预测的传输速率/>反馈给所述视频发送设备,用于分别调节视频编码码率与传输速率。
7.根据权利要求6所述的调节方法,其特征在于,还包括:设定延时限制,若应用层指标和传输层指标上载至云服务器的时间至云服务器将目标码率反馈给视频发送设备的时间超过所述设定延时,则采用GCC算法计算交互式视频的编码码率和传输速率;
其中,所述目标码率包括当前时刻预测的编码码率及当前时刻预测的传输速率/>
8.一种交互式视频传输方法,其特征在于,包括:
交互式视频系统中的视频发送设备基于目标编码码率和目标传输速率对目标视频进行传输;其中,所述目标编码码率和所述目标传输速率通过训练好的调节网络获得;
所述训练好的调节网络为权利要求1-7任意一项所述的调节方法中的调节网络。
9.一种计算机可读存储介质,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如权利要求1-7任一项所述的方法,和/或如权利要求8所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211364048.1A CN115834924B (zh) | 2022-11-02 | 2022-11-02 | 面向交互式视频的松耦合编码码率-传输速率调节方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211364048.1A CN115834924B (zh) | 2022-11-02 | 2022-11-02 | 面向交互式视频的松耦合编码码率-传输速率调节方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115834924A CN115834924A (zh) | 2023-03-21 |
CN115834924B true CN115834924B (zh) | 2024-05-14 |
Family
ID=85526260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211364048.1A Active CN115834924B (zh) | 2022-11-02 | 2022-11-02 | 面向交互式视频的松耦合编码码率-传输速率调节方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115834924B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116208586B (zh) * | 2023-05-04 | 2023-06-30 | 广东珠江智联信息科技股份有限公司 | 一种低延时医疗影像数据传输方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016109916A1 (zh) * | 2015-01-05 | 2016-07-14 | 华为技术有限公司 | 用户体验质量QoE预测装置、网络设备和方法 |
CN110351571A (zh) * | 2019-07-05 | 2019-10-18 | 清华大学 | 基于深度强化学习的直播视频云转码资源分配与调度方法 |
CN111901642A (zh) * | 2020-07-31 | 2020-11-06 | 成都云格致力科技有限公司 | 基于强化学习的实时视频码率自适应调控方法与系统 |
CA3182110A1 (en) * | 2020-06-30 | 2022-01-06 | Microsoft Technology Licensing, Llc | Reinforcement learning based rate control |
CN114363677A (zh) * | 2021-12-02 | 2022-04-15 | 深圳市新田科技有限公司 | 基于深度学习的移动网络视频码率实时调整方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200021815A1 (en) * | 2018-07-10 | 2020-01-16 | Fastvdo Llc | Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (vqa) |
-
2022
- 2022-11-02 CN CN202211364048.1A patent/CN115834924B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016109916A1 (zh) * | 2015-01-05 | 2016-07-14 | 华为技术有限公司 | 用户体验质量QoE预测装置、网络设备和方法 |
CN110351571A (zh) * | 2019-07-05 | 2019-10-18 | 清华大学 | 基于深度强化学习的直播视频云转码资源分配与调度方法 |
CA3182110A1 (en) * | 2020-06-30 | 2022-01-06 | Microsoft Technology Licensing, Llc | Reinforcement learning based rate control |
CN111901642A (zh) * | 2020-07-31 | 2020-11-06 | 成都云格致力科技有限公司 | 基于强化学习的实时视频码率自适应调控方法与系统 |
CN114363677A (zh) * | 2021-12-02 | 2022-04-15 | 深圳市新田科技有限公司 | 基于深度学习的移动网络视频码率实时调整方法和装置 |
Non-Patent Citations (2)
Title |
---|
Chelsea B Finn..Learning to learn with gradients.《Berkeley》.2018,全文. * |
无线传感器网络实时媒体传输速率控制机制;朱晓亮;杜旭;杨宗凯;程文青;;小型微型计算机系统;20070221(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115834924A (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11509703B2 (en) | System and method for widescale adaptive bitrate selection | |
CN112954385B (zh) | 一种基于控制论和数据驱动的自适应分流决策方法 | |
Cui et al. | TCLiVi: Transmission control in live video streaming based on deep reinforcement learning | |
CN105393516A (zh) | 在自适应流送中用缓冲器和范围约束来进行质量优化 | |
CN102802089A (zh) | 一种基于体验质量预测的移动视频码率调整方法 | |
CN115834924B (zh) | 面向交互式视频的松耦合编码码率-传输速率调节方法 | |
Feng et al. | Vabis: Video adaptation bitrate system for time-critical live streaming | |
CN111669617A (zh) | 一种基于智能边缘的直播视频流的传输方法 | |
CN114640870A (zh) | 一种QoE驱动的无线VR视频自适应传输优化方法及系统 | |
CN110996038A (zh) | 一种面向多人互动直播的自适应码率调节方法 | |
Ban et al. | MA360: Multi-agent deep reinforcement learning based live 360-degree video streaming on edge | |
Sun et al. | Optimal strategies for live video streaming in the low-latency regime | |
CN113014968A (zh) | 一种基于强化学习的多用户动态码率视频传输方法及系统 | |
Tian et al. | Deeplive: QoE optimization for live video streaming through deep reinforcement learning | |
CN113259657A (zh) | 基于视频质量分数的dppo码率自适应控制系统和方法 | |
CN114040257B (zh) | 一种自适应视频流传输播放方法、装置、设备及存储介质 | |
CN116320620A (zh) | 基于个性化联邦强化学习的流媒体比特率自适应调整方法 | |
Naresh et al. | Sac-abr: Soft actor-critic based deep reinforcement learning for adaptive bitrate streaming | |
WO2024120214A1 (zh) | 一种编码控制方法、装置、设备、存储介质及产品 | |
Li et al. | Improving adaptive real-time video communication via cross-layer optimization | |
Naresh et al. | Ppo-abr: Proximal policy optimization based deep reinforcement learning for adaptive bitrate streaming | |
Mu et al. | AMIS-MU: edge computing based adaptive video streaming for multiple mobile users | |
CN115695390B (zh) | 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法 | |
Kim et al. | HTTP adaptive streaming scheme based on reinforcement learning with edge computing assistance | |
Lin et al. | A deep reinforcement learning approach for point cloud video transmissions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |