CN112954385A - 一种基于控制论和数据驱动的自适应分流决策方法 - Google Patents

一种基于控制论和数据驱动的自适应分流决策方法 Download PDF

Info

Publication number
CN112954385A
CN112954385A CN202110060033.5A CN202110060033A CN112954385A CN 112954385 A CN112954385 A CN 112954385A CN 202110060033 A CN202110060033 A CN 202110060033A CN 112954385 A CN112954385 A CN 112954385A
Authority
CN
China
Prior art keywords
buffer
video
code rate
time
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110060033.5A
Other languages
English (en)
Other versions
CN112954385B (zh
Inventor
朱晓荣
张柏艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110060033.5A priority Critical patent/CN112954385B/zh
Publication of CN112954385A publication Critical patent/CN112954385A/zh
Application granted granted Critical
Publication of CN112954385B publication Critical patent/CN112954385B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2662Controlling the complexity of the video stream, e.g. by scaling the resolution or bitrate of the video stream based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/23805Controlling the feeding rate to the network, e.g. by controlling the video pump
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/637Control signals issued by the client directed to the server or network components
    • H04N21/6373Control signals issued by the client directed to the server or network components for rate control, e.g. request to the server to modify its transmission rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/63Control signaling related to video distribution between client, server and network components; Network processes for video distribution between server and clients or between remote clients, e.g. transmitting basic layer and enhancement layers over different transmission paths, setting up a peer-to-peer communication via Internet between remote STB's; Communication protocols; Addressing
    • H04N21/647Control signaling between network components and server or clients; Network processes for video distribution between server and clients, e.g. controlling the quality of the video stream, by dropping packets, protecting content from unauthorised alteration within the network, monitoring of network load, bridging between two different networks, e.g. between IP and wireless
    • H04N21/64746Control signals issued by the network directed to the server or the client
    • H04N21/64761Control signals issued by the network directed to the server or the client directed to the server
    • H04N21/64769Control signals issued by the network directed to the server or the client directed to the server for rate control

Abstract

本发明公开了一种基于控制论和数据驱动的自适应分流决策方法,通过定义合适的网络环境作为智能体模块的状态输入,然后通过对机器学习模型的训练和测试过程使智能体能够自适应的进行动作决策;在决策出多路径的最优分流比后分发相应数量的视频数据至传输终端;同时基于缓冲区的动态变化模型计算码率控制范围,调整视频码率以适应缓冲区占用的变化,保证视频播放的流畅度;通过控制系统,进一步优化了机器学习算法决策模型在实际系统中应用的准确性;在系统测试阶段,使用最优的分流比传输相应视频数据,并计算出视频码率范围,由控制系统选择合适的值使其匹配动态变化的缓冲区占用长度。

Description

一种基于控制论和数据驱动的自适应分流决策方法
技术领域
本发明涉及流媒体播放技术领域,主要涉及一种基于控制论和数据驱动的自适应分流决策方法。
背景技术
根据思科技术的报告预测,无线视频流量正在急剧地增长,并将主导无线数据流量。其中包括Internet视频,IP VoD,通过文件共享交换的视频文件,视频流游戏和视频会议等。预计到2022年,全球IP视频流量将占流量的82%。而视频流量的巨大增长主要是由于无线通信技术的快速发展(例如4G,5G技术),移动设备(例如智能手机,平板电脑等)的普及以及互联网业务需求的增长(例如在线视频会议)。因此,为用户提供流畅的视频播放,提升用户体验质量具有十分重要的意义。
然而传输视频数据需要较大的带宽,随着大数据时代的到来,无线网络带宽资源日益紧张。此外,无线网络信道本身波动较大且易受干扰,加之网络延迟会造成视频数据的丢包,这些都严重影响了用户QoE。因此,需要开发相关的视频流媒体传输技术以解决上述存在的问题。为了应对不断增长的视频流流量,提供流畅的流媒体体验,动态图像专家组(Moving Picture Experts Group,MPEG)制定了基于HTTP协议的动态自适应流标准(Dynamic Adaptive Streaming over HTTP,DASH)。
DASH传输系统中视频码率自适应能力的好坏依赖于其采用的自适应算法。为了保证视频的平稳连续播放,采用DASH的客户端都设置了缓冲区来吸收网络和视频传输码率的动态变化,因此维持缓冲区占用长度是提升用户QoE的重要途径。码率自适应控制模块会根据当前的网络状态以及客户端缓冲区占用长度来决策下一时刻的请求码率,从而使请求码率适应当前的缓冲区占用长度而不出现上溢或者下溢的情况。传统的码率自适应算法总体分为以下三种:基于吞吐量的预测改变视频传输码率,即基于速率的算法(Rate-basedAlgorithms,RBA),基于客户端播放缓冲区占用选择下一时刻码率。具体通过设置缓冲区上下阈值,当缓冲区占用超过溢出阈值时,提高视频码率;当小于下溢阈值时,降低视频码率。即基于缓冲的算法(Buffer-based ABR Algorithms,BBA)和同时基于吞吐量和缓冲区的模型控制预测算法(Model Predictive Control,MPC)。然而这些算法的有效性往往不够,因为网络吞吐量的变化是快速且没有规律的,对于其预测的结果准确性较低。其次缓冲区的变化又严重依赖于当前时刻的网络吞吐量和视频的传输码率,因此这类自适应算法有相当大的局限。
另一方面,移动通信技术伴随着智能终端一起飞速发展,从3G,4G到如今的5G,移动通信技术不仅带给人们日益快速的网络体验,同时也和无线网络技术(如无线局域网等)一起形成了异构网络环境。异构网络主要是指由运行在不同网络协议上的设备或系统组成的一种网络,这意味着异构无线网络的接入方式是多样化的。接入不同无线网络的设备可以充分利用自身的空闲资源协同进行大量业务数据的传输任务,以提高传输效率。例如,发送端的视频数据可以通过接入不同网络制式(4G,5G等)的多个终端协同传输,下载速率远远超过单台设备。
然而异构网络环境中各终端设备采用不同的无线网络接入方式,造成路径的时延,传输速率也不同。在多径传输过程中,端到端的性能受到传输层拥塞控制的影响,也就是说即便为某条路径分配较多的网络资源,可能也达不到提升网络吞吐量的目的,相反还会造成资源浪费。此外,由于多径系统中拓扑的时变性加之各路径存在的网络制式,时延的不同,总体性能并不是单条链路性能的简单线性叠加,必要时甚至可以中断某些链路的传输以达到总吞吐量的最优,因此有必要对多条路径进行合理的流量分配。
随着计算机和人工智能领域的快速发展,机器学习因其能利用大数据和过去经验优化模型性能而走入大众视野。而深度学习(Deep Learning,DL)和强化学习(Reinforcement Learning,RL)则是机器学习领域中的两个热门分支。深度学习是通过多层神经网络结构,每层神经网络同时具有多个神经元,通过多层次的数学运算来总结输入特征,表达输出的一种方法。而强化学习是通过与现实环境不断交互,利用奖励函数对采取动作的好坏进行反馈,通过这种反馈进行学习,使能获得的长期奖励最大化,即让网络模型朝着好的方向优化。这两种机器学习的方法可以结合在一起使用,即深度强化学习(DeepReinforcement Learning,DRL),既具备了多维特征大数据的表征能力,同时具备在未知环境下进行决策的能力。因此将深度强化学习用于在线流媒体播放系统不仅可以应对多变的异构网络环境和大量的数据状态,还可以自适应决策出最优的分流比,具有相当大的研究前景。
虽然强化学习能有效探索和利用环境,对系统参数进行计算,但是在多路径异构网络环境中直接运用强化学习进行自适应分流控制面临训练数据不足、收敛速度跟不上环境变化等难题。因此,本项目拟利用控制论模型和数据协同驱动的方法研究自适应分流决策算法。由数据驱动通过强化学习方法感知自适应分流决策的系统参数统计规律,由控制论方法建立模型驱动,向深度强化学习算法反馈系统优化目标,以适应网络环境瞬时变化,最后实现高效学习环境变化规律,快速进行分流决策。
发明内容
发明目的:本为了解决异构无线网络下视频播放的流畅性和提升用户QoE问题,本发明提供了一种基于控制论和数据驱动的自适应分流决策方法,基于深度强化学习算法作为理论基础,并利用控制理论进行优化,解决了在异构无线网络中视频的分流决策问题,实现了多终端协同传输视频的流畅性,同时保证了较高的用户QoE。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于控制论和数据驱动的自适应分流决策方法,包括以下步骤:
步骤S1、搭建智能体播放器系统;所述智能体播放器系统输入包括采集的视频帧数据集、网络数据集和系统决策的缓冲区占用长度,输出对应的网络状态参数;
步骤S2、将步骤S1中输出的网络状态参数输入至机器学习模型进行训练,获取最优动作选择策略,即为各路径分流比例,并按照所述比例进行对应数量的视频数据分发;
步骤S3、根据步骤S2所得各路径分流比例,计算得到满足缓冲区动态变化模型的合适的视频码率范围;
步骤S4、根据缓冲区阈值和缓冲区占用设计控制系统;所述控制系统通过选择满足步骤S3中要求的视频码率范围,使缓冲区占用符合预定的变化轨迹范围。
进一步地,所述步骤S2中采用基于A3C算法的自适应分流决策模型;具体地,
所述决策模型的输入为st=(st,1,st,2,...,st,n),其中st,i表示第i条链路在第t个调度周期的状态;st,i由多个状态参数构成,具体表示如下:
st,i=(xt,i,wt,i,dt,i,ut,i,bt)
其中xt,i表示在第t个调度周期,第i条链路的平均吞吐量;wt,i表示在第t个调度周期,第i条链路的平均拥塞窗口大小;dt,i表示在第t个调度周期,第i条链路的平均往返时延;ut,i表示在第t个调度周期,第i条链路累积未确认的数据包的数量;bt表示在第t个调度周期,当前客户端缓冲区占用长度;
所述决策模型将网络即时数据保存下来,作为离线神经网络训练数据集,同时将更新后的网络参数及时同步到策略网络中;设定确定性策略μ(st):S→A;其中S,A分别表示状态集合和动作集合;基于给定状态st,算法映射相应动作空间ak=μ(st);所述动作空间由各条链路的分流比组成的向量来表示,具体如下:
ak=(p1,p2,...,pn)
其中ak表示在第t个调度周期时,第k个动作包含的决策内容;pi表示第i条链路的数据包分流比,并且
Figure BDA0002902176860000041
当调度器根据所述确定性策略执行动作ak之后,在调度周期t+1结束时,系统状态转移到st+1,同时获得奖赏r(st,ak)如下:
r(st,ak)=Vt throughput-αVt RTT-βVt lost
其中,
Figure BDA0002902176860000042
表示所有n个链路的总吞吐量,
Figure BDA0002902176860000043
表示该调度周期中所有数据包的平均往返时延,
Figure BDA0002902176860000044
表示该调度周期中丢失的数据包总数量,α和β是影响因子,取值范围为0~1;
所述模型输出为各动作空间的出现概率,表示如下:
Figure BDA0002902176860000045
其中
Figure BDA0002902176860000046
表示动作ak出现的概率。
进一步地,所述步骤S3中缓冲区动态变化模型具体如下:
缓冲区动态变化速率表示如下:
bk(t)=bk-1(t)+dc(t)-c
其中,bk(t)表示在当前时间t下载第k个视频块时的缓冲区变化速率,bk-1(t)表示第k-1个视频块下载完成时的缓冲区变化速率,dc(t)表示聚合链路当前网络下载速率,即缓冲区的输入速率,c表示视频的播放速率,即缓冲区的输出速率,为常数;将上式对时间t进行积分,可得:
Bk=Bk-1+[dc(t)-c]△t
其中B(.)表示不同时刻的缓冲区占用长度,△t表示从第k个视频块下载开始到完成时的时间间隔;当第k个视频块完全下载的时间为视频数据在各条子路径和聚合路径传输时间之和的最大值时,即可保证视频数据完全到达而不发生丢包情况;此时:
Figure BDA0002902176860000051
其中pi表示第i条路径的分流比,Rk(t)表示第k个视频块的码率,T表示视频块的时间,di(t)和dc(t)分别表示第i条子路径和聚合链路下载第k个视频块时的速率;
避免缓冲区上溢需要满足Bk≤qmax且dc(t)>c,其中qmax表示客户端设置的缓冲区长度阈值;传输第k个视频块时决策时刻请求的码率Rk(t)满足:
Figure BDA0002902176860000052
各终端下载时间t满足:
Figure BDA0002902176860000053
其中,BT为各终端用于缓存的空间,dm(t)为下载速率最快的子路径;则各路径已下载的缓存长度
Figure BDA0002902176860000054
则为:
Figure BDA0002902176860000055
此时各条子路径总的缓存区长度
Figure BDA0002902176860000056
为:
Figure BDA0002902176860000057
考虑子路径和聚合链,总缓冲区长度Btot为:
Figure BDA0002902176860000058
因此为了不使播放端缓冲区上溢,视频码率Rk(t)需要满足下式:
Figure BDA0002902176860000061
同理,为了不使播放端缓冲区下溢,任意时刻的缓冲区占用都应该不低于客户端设置的缓冲区长度阈值qmin,即满足Bk≥qmin且dc(t)<c;此时视频码率Rk(t)满足下式:
Figure BDA0002902176860000062
进一步地,所述步骤S4中基于比例差分控制器设计控制系统;具体地,
所述控制系统的输入为缓冲区阈值q,预设的缓冲区占用长度变化区间为Bk(t)∈[qmin,qmax];所述控制系统传递函数Gc(s)的输入为预设缓冲区变化范围和实际缓冲区占用长度之间的误差,表示为e(t)=q-Bk(t),输出即为应选择的视频传输码率,表示为R(t);
然后用量化器将控制器输出的视频码率离散化,由缓冲区变化因子f(Bk)映射为已编码码率
Figure BDA0002902176860000063
中的值,输出离散后的视频码率
Figure BDA0002902176860000064
在选择合适的视频码率后将视频码率
Figure BDA0002902176860000065
作为积分器的输入;积分器1/s表示时域积分环节,对视频码率R'(t)进行时域积分从而得到控制系统的输出,即缓冲区占用长度Bk(t)。
进一步地,所述控制系统输入到输出的等量关系如下:
Figure BDA0002902176860000066
控制系统的传递函数为:
Figure BDA0002902176860000067
所述比例差分控制器的传递函数为:
Figure BDA0002902176860000071
其中kp为比例参数,kd为微分参数;可得控制系统的传递函数为:
Figure BDA0002902176860000072
有益效果:
本发明提供的基于控制论和数据驱动的自适应分流决策方法,将深度强化学习算法的训练结果作为缓冲区动态变化模型的参数,计算出符合条件的视频码率范围,并将其作为控制器的调节对象,使得缓冲区占用与请求的码率相匹配,从而保证缓冲区在预定的变化范围内,提升用户QoE。
附图说明
图1是本发明异构无线网络视频自适应传输控制系统应用场景图;
图2是本发明提供的缓冲区动态变化示意图;
图3是本发明提供的自适应分流决策示意图;
图4是本发明提供的基于A3C算法的自适应分流决策框架;
图5是本发明提供的自适应反馈控制系统模型图;
图6是本发明基于控制论和数据驱动的自适应分流决策方法系统模型图;
图7是本发明提供的自适应分流决策方法流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
本发明所述基于控制论和数据驱动的自适应分流决策方法,通过定义合适的网络环境作为智能体模块的交互对象,使得智能体中的算法感知交互环境中的特征信息,并将这些特征参数作为算法的状态输入,然后通过对机器学习模型的训练和测试过程使得智能体能够自适应的进行动作决策;在训练阶段,本发明选择了吞吐量,拥塞窗口,往返时延等特征参数作为神经网络的输入,对我们使用的机器学习模型进行训练,使得特征信息和动作选择策略能够实现映射;在决策出多路径的最优分流比后进行视频数据分发,并基于缓冲区的动态变化模型使用反馈控制理论动态调整视频码率以适应缓冲区占用的变化,防止缓冲区低于或高于我们设定的阈值,从而保证视频播放的流畅度;通过控制器模块,进一步优化了机器学习算法决策模型在实际系统中应用的准确性;最后在系统测试阶段,由于已经得到了最优的动作选择策略,我们使用最优的分流比,根据缓冲区的动态变化模型计算出视频码率范围,并由控制系统选择合适的值使其匹配动态变化的缓冲区占用长度。本发明可以在异构无线网络环境下实现自适应分流决策过程,它的评价指标分为视频播放流畅度和用户QoE。视频播放流畅度是指客户端缓冲区占用处在合理区间内,不发生上溢或者下溢事件。用户QoE指的是用户体验质量,它是可以人为定义的指标,一般包含视频码率、重新缓冲时间和缓冲区占用等。
步骤S1、搭建智能体播放器系统。所述智能体播放器系统输入包括采集的视频帧数据集(包含物理时间、帧数据大小和I帧标志位)、网络数据集(包含物理时间和网络吞吐量)和系统决策的缓冲区占用长度,输出对应的网络状态参数,包含相关指标状态,例如吞吐量,拥塞窗口,往返时延等。
如图1所示是异构无线网络视频自适应传输控制系统场景图,高清视频流在视频源端进行分流,通过自适应分流决策,将视频流分别通过不同链路进行传输,多个异构无线终端,多种无线网络协同工作,最后在视频播放端缓冲区进行整合后播放。视频源端采用H.264对视频进行压缩编码,采用无线网络进行传输。多个用户可利用周边可用终端完成多条链路并发传输的视频业务。来自不同用户的异构单模终端构成虚拟多模终端,这些异构单模移动终端使用不同制式的网络,例如4G,5G等,这些协同终端之间通过Wi-Fi组网并由终端控制器控制聚合成一个整体。
步骤S2、将步骤S1中输出的网络状态参数输入至机器学习模型进行训练,获取最优动作选择策略,即为各路径分流比例,并按照所述比例进行对应数量的视频数据分发。
本发明中采用基于A3C算法的自适应分流决策模型。如图4所示,在发送端,调度器观测当前网络环境的信息。决策模型的输入为st=(st,1,st,2,...,st,n),其中st,i表示第i条链路在第t个调度周期的状态;st,i由多个状态参数构成,具体表示如下:
st,i=(xt,i,wt,i,dt,i,ut,i,bt)
其中xt,i表示在第t个调度周期,第i条链路的平均吞吐量;wt,i表示在第t个调度周期,第i条链路的平均拥塞窗口大小;dt,i表示在第t个调度周期,第i条链路的平均往返时延;ut,i表示在第t个调度周期,第i条链路累积未确认的数据包的数量;bt表示在第t个调度周期,当前客户端缓冲区占用长度;
为了充分利用网络数据,本地会将网络即时数据保存下来,作为离线神经网络训练数据集,同时将更新后的网络参数及时同步到策略网络中。调度器在观察到网络状态之后,根据确定性策略,执行分流动作,如图7所示。设定确定性策略μ(st):S→A;其中S,A分别表示状态集合和动作集合;基于给定状态st算法映射相应动作空间ak=μ(st);所述动作空间由各条链路的分流比组成的向量来表示,具体如下:
ak=(p1,p2,...,pn)
其中ak表示在第t个调度周期时,第k个动作包含的决策内容;pi表示第i条链路的数据包分流比,并且
Figure BDA0002902176860000091
当调度器根据所述确定性策略执行动作ak之后,在调度周期t+1结束时,系统状态转移到st+1,同时获得奖赏r(st,ak)如下:
r(st,ak)=Vt throughput-αVt RTT-βVt lost
其中,
Figure BDA0002902176860000092
表示所有n个链路的总吞吐量,
Figure BDA0002902176860000093
表示该调度周期中所有数据包的平均往返时延,
Figure BDA0002902176860000094
表示该调度周期中丢失的数据包总数量,α和β是取值介于0到1之间的影响因子,目的是为了控制相应指标对整体奖赏的影响程度;
所述模型输出为各动作空间的出现概率,表示如下:
Figure BDA0002902176860000095
其中
Figure BDA0002902176860000096
表示动作ak出现的概率。
步骤S3、根据步骤S2所得各路径分流比例,计算得到满足缓冲区动态变化模型的合适的视频码率范围。
如图2所示为缓冲区动态变化示意图,缓冲区溢出是指视频下载速度过快而播放速度太慢,从而导致缓冲区占用长度超过播放端设置的缓冲区大小,此时会开始丢弃视频数据。缓冲区动态变化速率表示如下:
bk(t)=bk-1(t)+dc(t)-c
其中,bk(t)表示在当前时间t下载第k个视频块时的缓冲区变化速率,bk-1(t)表示第k-1个视频块下载完成时的缓冲区变化速率,dc(t)表示聚合链路当前网络下载速率,即缓冲区的输入速率,c表示视频的播放速率,即缓冲区的输出速率,为常数;将上式对时间t进行积分,可得:
Bk=Bk-1+[dc(t)-c]△t
其中B(.)表示不同时刻的缓冲区占用长度,△t表示从第k个视频块下载开始到完成时的时间间隔。由于视频块通过多条路径传输,每条路径的传输时间各不相同。且各条子路径数据通过聚合连链路传输到达接收端缓冲区的时间也不同。当第k个视频块完全下载的时间为视频数据在各条子路径和聚合路径传输时间之和的最大值时,即可保证视频数据完全到达而不发生丢包情况;此时:
Figure BDA0002902176860000101
其中pi表示第i条路径的分流比,Rk(t)表示第k个视频块的码率,T表示视频块的时间,di(t)和dc(t)分别表示第i条子路径和聚合链路下载第k个视频块时的速率;
避免缓冲区上溢需要满足Bk≤qmax且dc(t)>c,其中qmax表示客户端设置的缓冲区长度阈值;传输第k个视频块时决策时刻请求的码率Rk(t)满足:
Figure BDA0002902176860000102
一方面,当网络情况较好,视频码率取最大值Rmax时仍小于网络下载速率,即Rmax<dc(t)恒成立。此时如果持续播放,一定会发生缓冲区溢出事件。现有的方法一般是采用休眠机制,即正常播放视频的同时停止下载视频,让缓冲区消耗一定的长度后再重新唤醒自适应传输机制。这种方法虽然有效避免了缓冲区上溢,但却浪费了较高的网络吞吐量。而在多终端传输机制中,可以充分利用每个协同终端的缓存空间充当一个临时的存储区,在播放缓冲区将要发生溢出时,多条子路径可以继续下载视频存储到终端内存中,通过终端控制器暂停子路径与聚合链路之间的传输。在缓冲区消耗一定的长度后,终端再通过聚合链路传输已下载完成的视频数据,有效提升了传输速率。
设定多个终端用于缓存的空间相同,在中止与聚合链路的传输后,使用异构网络下载的视频数据量同样不能超过设置的缓存空间长度BT。因为各条路径的分流比例已经确定,当其中一个终端缓存已经存满时,其余终端则必须停止传输,无论各自的缓存空间是否充足。各终端下载时间t满足:
Figure BDA0002902176860000111
其中,BT为各终端用于缓存的空间,dm(t)为下载速率最快的子路径;则各路径已下载的缓存长度
Figure BDA0002902176860000112
则为:
Figure BDA0002902176860000113
此时各条子路径总的缓存区长度
Figure BDA0002902176860000114
为:
Figure BDA0002902176860000115
考虑子路径和聚合链,总缓冲区长度Btot为:
Figure BDA0002902176860000116
因此为了不使播放端缓冲区上溢,视频码率Rk(t)需要满足下式:
Figure BDA0002902176860000117
缓冲区下溢是指视频下载速度太慢而播放速度过快,从而使得缓冲区占用长度不断下降超过设定的阈值,甚至视频耗尽。此时会导致视频重新缓冲,也就是俗称的“卡顿”现象。为了避免缓冲区下溢,任意时刻的缓冲区占用都应该不低于客户端设置的缓冲区长度阈值qmin。为了不使播放端缓冲区下溢,任意时刻的缓冲区占用都应该不低于客户端设置的缓冲区长度阈值qmin,即满足Bk≥qmin且dc(t)<c;此时视频码率Rk(t)满足下式:
Figure BDA0002902176860000121
如图3所示是自适应分流决策示意图,把时间轴划分成连续的时间周期,每个时间周期称为调度周期。在每个调度周期,调度器采用不同的调度策略来对数据包进行分配。假设总的数据速率为Rbps,在n条子路径上传输,满足
Figure BDA0002902176860000122
其中Rm表示第m条路径上传输码率的大小。设pi为第i条链路的分流比,即
Figure BDA0002902176860000123
所有链路的分流比满足:
Figure BDA0002902176860000124
调度器通过设置分流比,决定了分配到各条链路数据包的数量,表示为M,满足M=piRmT,T表示视频块的持续时间。
步骤S4、根据缓冲区阈值和缓冲区占用设计控制系统;所述控制系统通过选择满足步骤S3中要求的视频码率范围,使缓冲区占用符合预定的变化轨迹范围。
如图5所示,本发明基于比例差分控制器设计控制系统,PD控制器中比例项能放大误差的幅值,差分项能提前预测误差的变化趋势,加快控制过程,使系统的稳定性增加,改善了控制质量。二者结合后能提前抑制误差直至为零。这样根据多链路接收的缓存区的动态特性,通过自适应调节每条链路的速率,使得缓存长度保持在最优状态,选择一个容许的控制值,使缓存长度保持按预定的要求运行,进而使得系统吞吐量达到最优值。
具体地,所述控制系统的输入为缓冲区阈值q,预设的缓冲区占用长度变化区间为Bk(t)∈[qmin,qmax];所述控制系统传递函数Gc(s)的输入为预设缓冲区变化范围和实际缓冲区占用长度之间的误差,表示为e(t)=q-Bk(t),输出即为应选择的视频传输码率,表示为R(t)。然后用量化器将控制器输出的视频码率离散化,由缓冲区变化因子f(Bk)映射为已编码码率
Figure BDA0002902176860000131
中的值,输出离散后的视频码率
Figure BDA0002902176860000132
在选择合适的视频码率后将视频码率
Figure BDA0002902176860000133
作为积分器的输入;积分器1/s表示时域积分环节,对视频码率R'(t)进行时域积分从而得到控制系统的输出,即缓冲区占用长度Bk(t)。
所述控制系统输入到输出的等量关系如下:
Figure BDA0002902176860000134
控制系统的传递函数为:
Figure BDA0002902176860000135
所述比例差分控制器的传递函数为:
Figure BDA0002902176860000136
其中kp为比例参数,kd为微分参数;可得控制系统的传递函数为:
Figure BDA0002902176860000137
如图6-7所示,发送端视频源数据经过编码后形成不同的编码视频块数据准备发送。智能体采用A3C算法,输入为系统状态st,通过训练得到最优策略,即最佳的分流比p=[p1,p2,...,pn]。数据分发模块根据子路径分流比p分发相应数量的视频数据至不同的终端传输,同时根据分流比p和上述缓冲区动态模型,可以计算出控制系统应选择的视频码率范围。在各条子路径数据经过无线异构网络传输至接收端缓冲区后,控制系统通过选择合适的视频码率,使客户端缓冲区占用长度Bk保持在预定的范围内,同时Bk作为系统状态的一个参数反馈到智能体的输入当中,形成一个闭环控制系统。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于控制论和数据驱动的自适应分流决策方法,其特征在于,包括以下步骤:
步骤S1、搭建智能体播放器系统;所述智能体播放器系统输入包括采集的视频帧数据集、网络数据集和系统决策的缓冲区占用长度,输出对应的网络状态参数;
步骤S2、将步骤S1中输出的网络状态参数输入至机器学习模型进行训练,获取最优动作选择策略,即为各路径分流比例,并按照所述比例进行对应数量的视频数据分发;
步骤S3、根据步骤S2所得各路径分流比例,计算得到满足缓冲区动态变化模型的合适的视频码率范围;
步骤S4、根据缓冲区阈值和缓冲区占用设计控制系统;所述控制系统通过选择满足步骤S3中要求的视频码率范围,使缓冲区占用符合预定的变化轨迹范围。
2.根据权利要求1所述的一种基于控制论和数据驱动的自适应分流决策方法,其特征在于,所述步骤S2中采用基于A3C算法的自适应分流决策模型;具体地,
所述决策模型的输入为st=(st,1,st,2,...,st,n),其中st,i表示第i条链路在第t个调度周期的状态;st,i由多个状态参数构成,具体表示如下:
st,i=(xt,i,wt,i,dt,i,ut,i,bt)
其中xt,i表示在第t个调度周期,第i条链路的平均吞吐量;wt,i表示在第t个调度周期,第i条链路的平均拥塞窗口大小;dt,i表示在第t个调度周期,第i条链路的平均往返时延;ut,i表示在第t个调度周期,第i条链路累积未确认的数据包的数量;bt表示在第t个调度周期,当前客户端缓冲区占用长度;
所述决策模型将网络即时数据保存下来,作为离线神经网络训练数据集,同时将更新后的网络参数及时同步到策略网络中;设定确定性策略μ(st):S→A;其中S,A分别表示状态集合和动作集合;基于给定状态st,算法映射相应动作空间ak=μ(st);所述动作空间由各条链路的分流比组成的向量来表示,具体如下:
ak=(p1,p2,...,pn)
其中ak表示在第t个调度周期时,第k个动作包含的决策内容;pi表示第i条链路的数据包分流比,并且
Figure FDA0002902176850000021
当调度器根据所述确定性策略执行动作ak之后,在调度周期t+1结束时,系统状态转移到st+1,同时获得奖赏r(st,ak)如下:
r(st,ak)=Vt throughput-αVt RTT-βVt lost
其中,
Figure FDA0002902176850000022
表示所有n个链路的总吞吐量,
Figure FDA0002902176850000023
表示该调度周期中所有数据包的平均往返时延,
Figure FDA0002902176850000024
表示该调度周期中丢失的数据包总数量,α和β是影响因子,取值范围为0~1;
所述模型输出为各动作空间的出现概率,表示如下:
Figure FDA0002902176850000025
其中
Figure FDA0002902176850000026
表示动作ak出现的概率。
3.根据权利要求1所述的一种基于控制论和数据驱动的自适应分流决策方法,其特征在于,所述步骤S3中缓冲区动态变化模型具体如下:
缓冲区动态变化速率表示如下:
bk(t)=bk-1(t)+dc(t)-c
其中,bk(t)表示在当前时间t下载第k个视频块时的缓冲区变化速率,bk-1(t)表示第k-1个视频块下载完成时的缓冲区变化速率,dc(t)表示聚合链路当前网络下载速率,即缓冲区的输入速率,c表示视频的播放速率,即缓冲区的输出速率,为常数;将上式对时间t进行积分,可得:
Bk=Bk-1+[dc(t)-c]△t
其中B(.)表示不同时刻的缓冲区占用长度,△t表示从第k个视频块下载开始到完成时的时间间隔;当第k个视频块完全下载的时间为视频数据在各条子路径和聚合路径传输时间之和的最大值时,即可保证视频数据完全到达而不发生丢包情况;此时:
Figure FDA0002902176850000031
其中pi表示第i条路径的分流比,Rk(t)表示第k个视频块的码率,T表示视频块的时间,di(t)和dc(t)分别表示第i条子路径和聚合链路下载第k个视频块时的速率;
避免缓冲区上溢需要满足Bk≤qmax且dc(t)>c,其中qmax表示客户端设置的缓冲区长度阈值;传输第k个视频块时决策时刻请求的码率Rk(t)满足:
Figure FDA0002902176850000032
各终端下载时间t满足:
Figure FDA0002902176850000033
其中,BT为各终端用于缓存的空间,dm(t)为下载速率最快的子路径;则各路径已下载的缓存长度
Figure FDA0002902176850000034
则为:
Figure FDA0002902176850000035
此时各条子路径总的缓存区长度
Figure FDA0002902176850000036
为:
Figure FDA0002902176850000037
考虑子路径和聚合链,总缓冲区长度Btot为:
Figure FDA0002902176850000038
因此为了不使播放端缓冲区上溢,视频码率Rk(t)需要满足下式:
Figure FDA0002902176850000039
同理,为了不使播放端缓冲区下溢,任意时刻的缓冲区占用都应该不低于客户端设置的缓冲区长度阈值qmin,即满足Bk≥qmin且dc(t)<c;此时视频码率Rk(t)满足下式:
Figure FDA0002902176850000041
4.根据权利要求1所述的一种基于控制论和数据驱动的自适应分流决策方法,其特征在于,所述步骤S4中基于比例差分控制器设计控制系统;具体地,
所述控制系统的输入为缓冲区阈值q,预设的缓冲区占用长度变化区间为Bk(t)∈[qmin,qmax];所述控制系统传递函数Gc(s)的输入为预设缓冲区变化范围和实际缓冲区占用长度之间的误差,表示为e(t)=q-Bk(t),输出即为应选择的视频传输码率,表示为R(t);
然后用量化器将控制器输出的视频码率离散化,由缓冲区变化因子f(Bk)映射为已编码码率
Figure FDA0002902176850000042
中的值,输出离散后的视频码率
Figure FDA0002902176850000043
在选择合适的视频码率后将视频码率
Figure FDA0002902176850000044
为积分器的输入;积分器1/s表示时域积分环节,对视频码率R'(t)进行时域积分从而得到控制系统的输出,即缓冲区占用长度Bk(t)。
5.根据权利要求4所述的一种基于控制论和数据驱动的自适应分流决策方法,其特征在于,所述控制系统输入到输出的等量关系如下:
Figure FDA0002902176850000045
控制系统的传递函数为:
Figure FDA0002902176850000046
所述比例差分控制器的传递函数为:
Figure FDA0002902176850000047
其中kp为比例参数,kd为微分参数;可得控制系统的传递函数为:
Figure FDA0002902176850000051
CN202110060033.5A 2021-01-18 2021-01-18 一种基于控制论和数据驱动的自适应分流决策方法 Active CN112954385B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110060033.5A CN112954385B (zh) 2021-01-18 2021-01-18 一种基于控制论和数据驱动的自适应分流决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110060033.5A CN112954385B (zh) 2021-01-18 2021-01-18 一种基于控制论和数据驱动的自适应分流决策方法

Publications (2)

Publication Number Publication Date
CN112954385A true CN112954385A (zh) 2021-06-11
CN112954385B CN112954385B (zh) 2022-07-29

Family

ID=76235395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110060033.5A Active CN112954385B (zh) 2021-01-18 2021-01-18 一种基于控制论和数据驱动的自适应分流决策方法

Country Status (1)

Country Link
CN (1) CN112954385B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114785757A (zh) * 2022-03-31 2022-07-22 东北大学 一种面向实时会话类业务的多径传输控制方法
CN114885215A (zh) * 2022-04-28 2022-08-09 清华大学 码率自适应模型的训练、视频码率自适应方法及装置
CN114945080A (zh) * 2022-04-11 2022-08-26 深圳市爱为物联科技有限公司 一种基于自适应网络等复杂场景录像播放的方法
CN115150335A (zh) * 2022-06-30 2022-10-04 武汉烽火技术服务有限公司 一种基于深度强化学习的最优流量分割的方法和系统
CN115695390A (zh) * 2022-09-23 2023-02-03 昆明理工大学 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法
CN115834556A (zh) * 2023-02-23 2023-03-21 阿里巴巴(中国)有限公司 数据传输方法、系统、设备、存储介质及程序产品
CN115914106A (zh) * 2022-11-04 2023-04-04 合肥登登立科技有限公司 一种用于网络流量转发的自适应缓冲算法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170026713A1 (en) * 2015-03-26 2017-01-26 Carnegie Mellon University System and Method for Dynamic Adaptive Video Streaming Using Model Predictive Control
CN107333143A (zh) * 2017-06-26 2017-11-07 南京邮电大学 5g多接入并发传输控制系统及方法
CN109587519A (zh) * 2018-12-28 2019-04-05 南京邮电大学 基于q学习的异构网络多径视频传输控制系统及方法
CN110248247A (zh) * 2019-06-12 2019-09-17 深圳市大数据研究院 基于网络吞吐量的嵌入式动态视频播放控制方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170026713A1 (en) * 2015-03-26 2017-01-26 Carnegie Mellon University System and Method for Dynamic Adaptive Video Streaming Using Model Predictive Control
CN107333143A (zh) * 2017-06-26 2017-11-07 南京邮电大学 5g多接入并发传输控制系统及方法
CN109587519A (zh) * 2018-12-28 2019-04-05 南京邮电大学 基于q学习的异构网络多径视频传输控制系统及方法
CN110248247A (zh) * 2019-06-12 2019-09-17 深圳市大数据研究院 基于网络吞吐量的嵌入式动态视频播放控制方法及装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114785757A (zh) * 2022-03-31 2022-07-22 东北大学 一种面向实时会话类业务的多径传输控制方法
CN114785757B (zh) * 2022-03-31 2023-10-20 东北大学 一种面向实时会话类业务的多径传输控制方法
CN114945080A (zh) * 2022-04-11 2022-08-26 深圳市爱为物联科技有限公司 一种基于自适应网络等复杂场景录像播放的方法
CN114885215A (zh) * 2022-04-28 2022-08-09 清华大学 码率自适应模型的训练、视频码率自适应方法及装置
CN115150335A (zh) * 2022-06-30 2022-10-04 武汉烽火技术服务有限公司 一种基于深度强化学习的最优流量分割的方法和系统
CN115150335B (zh) * 2022-06-30 2023-10-31 武汉烽火技术服务有限公司 一种基于深度强化学习的最优流量分割的方法和系统
CN115695390A (zh) * 2022-09-23 2023-02-03 昆明理工大学 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法
CN115695390B (zh) * 2022-09-23 2024-03-05 昆明理工大学 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法
CN115914106A (zh) * 2022-11-04 2023-04-04 合肥登登立科技有限公司 一种用于网络流量转发的自适应缓冲算法
CN115914106B (zh) * 2022-11-04 2023-09-19 合肥登登立科技有限公司 一种用于网络流量转发的自适应缓冲方法
CN115834556A (zh) * 2023-02-23 2023-03-21 阿里巴巴(中国)有限公司 数据传输方法、系统、设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN112954385B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN112954385B (zh) 一种基于控制论和数据驱动的自适应分流决策方法
Luo et al. Adaptive video streaming with edge caching and video transcoding over software-defined mobile networks: A deep reinforcement learning approach
Xing et al. A real-time adaptive algorithm for video streaming over multiple wireless access networks
US6910079B2 (en) Multi-threshold smoothing
CN109587519B (zh) 基于q学习的异构网络多径视频传输控制系统及方法
CN109743600B (zh) 基于可穿戴的现场运维自适应视频流传输速率控制方法
Wang et al. Multilive: Adaptive bitrate control for low-delay multi-party interactive live streaming
CN113783944B (zh) 基于云边协同的视频数据处理方法、装置、系统及设备
Chen et al. Adaptive policies for real-time video transmission: A Markov decision process framework
Feng et al. Vabis: Video adaptation bitrate system for time-critical live streaming
CN110535770B (zh) 一种SDN环境下基于QoS感知的视频流智能路由方法
CN115720237A (zh) 边缘网络自适应比特率视频的缓存和资源调度方法
Kazemian An intelligent video streaming technique in zigbee wireless
Tan et al. Game theory based dynamic adaptive video streaming for multi-client over NDN
CN112887314B (zh) 一种时延感知的云雾协作视频分发方法
Tao et al. Energy efficient video QoE optimization for dynamic adaptive HTTP streaming over wireless networks
Zhirnov et al. Mathematical model of a network slicing approach for video and Web traffic
CN115695390B (zh) 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法
Luo et al. Adaptive video streaming in software-defined mobile networks: A deep reinforcement learning approach
Hao et al. Buffer Displacement Based Online Learning Algorithm For Low Latency HTTP Adaptive Streaming
KR102648108B1 (ko) SDN 기반 다중 Wi-Fi 네트워크를 통한 협력적 HTTP 적응적 스트리밍 방법 및 장치
Du et al. Dynamic Push for HTTP Adaptive Streaming with Deep Reinforcement Learning
Li et al. iABR: An Intelligent Joint Adaptive Bitrate Selection and Communication Resource Allocation in F-RAN
CN114900706B (zh) 基于扩展视频编码的直播视频流传输自适应调度方法
CN114885208B (zh) Ndn网络下可伸缩流媒体传输的动态自适应方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant