CN115695390A - 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法 - Google Patents

一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法 Download PDF

Info

Publication number
CN115695390A
CN115695390A CN202211165591.9A CN202211165591A CN115695390A CN 115695390 A CN115695390 A CN 115695390A CN 202211165591 A CN202211165591 A CN 202211165591A CN 115695390 A CN115695390 A CN 115695390A
Authority
CN
China
Prior art keywords
qoe
client
video
bit rate
monitoring system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211165591.9A
Other languages
English (en)
Other versions
CN115695390B (zh
Inventor
郑万波
李磊
夏云霓
彭青蓝
王宇栋
刘文奇
郭坤银
李思奇
朱榕
董锦晓
冉啟华
王耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202211165591.9A priority Critical patent/CN115695390B/zh
Publication of CN115695390A publication Critical patent/CN115695390A/zh
Application granted granted Critical
Publication of CN115695390B publication Critical patent/CN115695390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法,属于边缘计算领域。本发明的系统包括中心服务器、边缘服务器、用户设备;本发明首先构建移动矿山安全监控系统客户端自适应流的移动边缘框架,然后通过边缘服务器收集客户端的信息,并将其输入到神经网络模型中,确定请求的矿山安全监控系统视频片段的比特率。利用强化学习算法训练神经网络模型,计算出适应客户端的矿山安全监控系统海量视频比特率,然后分发给客户端;本发明创造性的将移动边缘计算与矿山安全监控系统视频自适应流相结合,提高了客户端的整体QoE和客户端的QoE公平性,在矿山边缘服务器向客户端视频数据监测及可视化方面发挥着重要作用。

Description

一种基于移动边缘计算的矿山安全监控系统海量视频数据自 适应流方法
技术领域
本发明一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法属于边缘计算和矿山技术领域。
背景技术
近些年,我国矿山智能化逐渐成为趋势。以矿山安全监控系统系统为例,整个系统分为四层,视频监控设备层,服务器层,客户端层。视频监控设备层负责采集矿山中的生产,运输,安全等视频,服务器层包含中心服务器与多个边缘服务器将视频设备监控层传输来的数据进行收集与整理,客户端层包括电脑,手机,矿车,等设备,这些设备根据需求从服务器中调用监控视频。由于目前监控视频数量与质量都有很大提升,因此向用户提供高质量的体验(QoE)是网络和服务方面的一个重要挑战。动态自适应HTTP流媒体(DASH)在2011年被标准化,作为一种高效和流畅的视频流媒体解决方案。DASH利用现有的HTTP基础设施,对网络上交付的视频段的比特率进行调整,以提高资源利用率和用户的QoE。此外,DASH具有很高的可伸缩性,因为它采用客户机驱动模式,不需要对HTTP服务器进行任何修改。近年来,基于DASH的各种研究相继开展。这些方案通过确定视频比特率适合测量的可用带宽、当前缓冲区水平或其他预测条件来执行比特率适应。
通常情况下,许多设备通过同一网络传输视频。这会导致设备争夺网络的有限带宽。基于dash的比特率适应的贪心策略,由于客户端之间缺乏协调,降低了用户的QoE。这个问题会导致资源利用率低,客户端QoE不公平。此外,现有的基于启发式的方案在可用带宽动态变化的环境中不能有效地优化用户的QoE。自适应流方案应解决以下挑战,以优化用户的QoE。首先,考虑多客户端的竞争,提高客户端的整体QoE。其次,在网络条件发生显著变化的情况下,对视频比特率进行智能适配,实现对视频比特率的鲁棒适配。帮忙利用边缘计算和强化学习来提高多客户端自适应流的性能。通过移动边缘计算,为客户调整视频比特率。通过强化学习,通过挖掘与过去选择的实际性能有关的信息,生成比特率适应策略。
发明内容
本发明提供了一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法,以用于解决矿山安全监控系统视频自适应流的问题。
本发明的技术方案是:一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法,所述方法的具体步骤如下:
Step1:边缘服务器从中心服务器将矿山安全监控系统视频进行缓存。
Step2:边缘服务器收集客户端的信息,并将客户端的信息输入到神经网络模型中,确定请求的矿山安全监控系统视频片段的比特率。
Step3:以多客户端的QoE作为优化目标,将问题制定为马尔可夫决策过程,根据实际需求设定神经网络中状态、行动和奖励。
Step4:利用强化学习算法训练神经网络模型,计算出适应客户端的矿山安全监控系统海量视频比特率,然后分发给客户端。
Step5:客户端将接收到的监控视频进行播放,然后将下一个请求信息发送给边缘服务器,供边缘服务器进行下一个视频比特率决策。
作为本发明的进一步方案,所述Step1包括:边缘服务器从中心服务器中将矿山安全监控系统视频预先缓存在边缘服务器本地;可以直接为用户提供监控视频,使视频能够快速传给用户避免由于网络拥堵造成的视频卡顿。
作为本发明的进一步方案,所述Step2包括:当用户需要进行监控观看时,边缘服务器对请求进行分析,对视频比特率进行调节,为用户提供监控视频;该步骤保障了用户观看监控视频的QoE,不会因为网络问题造成影响;在为用户提供监控视频时,边缘服务器根据环境确定下一个传输视频的比特率;该步骤使得用户能够获得较好的QoE,即尽可能提供高的清晰的视频。
作为本发明的进一步方案,所述Step3包括:利用马尔可夫决策过程制定了多客户端的QoE公平性问题,并定义了训练神经网络模型所需的各种参数和方法;当状态被传递给自适应比特率(ABR)agent后,agent执行一个动作来选择比特率,agent从环境中获得相应的奖励;奖励被确定为客户端收到的视频片段的即时QoE。
(1)状态:agent通过考虑输入状态生成并改进策略,如果状态空间非常小,agent在学习过程中会丢失信息,导致策略改进受到限制;当状态空间非常大时,很难训练agent生成给定环境下的最优策略;要使政策改进朝着正确的方向发展,必须使状态与优化目标相匹配;该方案的目标是生成既能提高客户端QoE公平性又能提高单个QoE公平性的策略;为此,状态应该与比特率适应中影响QoE的因素有关,定义时间步长t的状态空间
Figure BDA0003861872340000021
式中:
Figure BDA0003861872340000031
是过去分段吞吐量的向量,
Figure BDA0003861872340000032
为过去分段下载时间的矢量,
Figure BDA0003861872340000033
表示视频比特率级别的下一段大小,rt是客户端的当前缓冲区级别,qt是最后请求的比特率;段吞吐量和段下载时间表示客户端流视频的网络状态;在相同的视频中,不同码率的分段大小也会因视频帧的复杂度而不同。
(2)行动:agent所采取的行动会影响下一个状态和由此产生的奖励;该方案定义了时间步长t时的动作空间
Nt={w1,w2,...,wM} (7)
Nt-时间步长t时的动作空间;M为视频比特率等级数,wM为级别为M的视频比特率。
由神经网络模型生成的策略在确定多个客户机的比特率方面起着重要作用;由于这个原因,即将到来的段的比特率选择被定义为动作。
每个动作都指向即将到来的段的比特率选择;模型的输出层有多个神经元,每个神经元表示视频比特率的选择概率;移动边缘的智能体根据所确定的动作实时调整视频段的比特率;在训练神经网络模型时,智能体随机决定下一步动作;在测试中,agent决定选择概率最高的动作作为下一个动作。
(3)奖励:在形成有效的强化学习策略时,设置奖励是一个关键的挑战;首先,本发明确定客户QoE的基本形式;影响客户端的QoE的因素很多,如视频质量、质量变化、视频重缓冲等;客户QoE优化方案一般将QoE值量化为这些影响因素的线性组合。
Figure BDA0003861872340000034
式中,QoEi为第i个视频段的QoE值,u(bi)为第i个比特率为bi的视频段的质量,T(bi)为接收到第i个比特率为bi的视频段后的视频再缓冲时间;
Figure BDA0003861872340000035
Figure BDA0003861872340000036
分别是用于控制质量变化的权重参数和视频再缓冲影响的权重参数;确定视频质量和视频比特率之间关系的方法有很多种;本发明采用最简单的方法,将视频比特率本身视为视频质量。
通过考虑多客户端的QoE公平性来扩展QoE值,使奖励具体化;如果QoE值很低,那么客户端需要接收更多带宽来提高他们的QoE;与此相反,如果QoE值很高,那么客户机需要允许其他客户机通过牺牲一些带宽来改进它们的QoE;客户端没有相同的QoE,即使它们使用相同的带宽;实现公平的QoE意味着所有客户端都尽可能多地使用带宽来改进或维护其QoE;用个人QoE和客户QoE偏差的组合来计算效用价值;多客户端QoE公平性的值计算如下:
Figure BDA0003861872340000041
其中gt是时间步t时的奖励值,ε是将单个QoE与QoE偏差结合起来的权重参数;
Figure BDA0003861872340000042
为除客户k外所有客户端的平均QoE,N为客户端的总数;QoEmax和QoEmin分别是客户端QoE中的最大值和最小值;QoEi-第i个视频段的QoE值。
作为本发明的进一步方案,所述Step4包括:
为了学习最优策略,对神经网络模型的结构进行适当的构造是非常重要的;这意味着神经网络模型应该足够大,以生成详细的策略,并且体系结构的复杂性应该很低,以避免训练的负担;本发明采用卷积层和全连接层的简单架构,提供一种基于行为-批评方法的训练算法,该方法同时训练行动者网络和批评网络;当给定状态时,行动者网络在决定行动中发挥作用;批评网络评估状态的当前值,并将此信息传递给行动者网络,以协助其参数更新。
多个客户端请求矿山安全监控系统视频,使用多agent训练方法,该方法在多个agent之间存在异质性且需要相互分享自己的情况下是有效的;此外,采用基于策略梯度的规则更新神经网络模型的参数;所提方案的学习目标是生成实现QoE公平最大化的策略。
中央agent利用转发agent的聚合信息计算奖励;也就是说,前向agent通过与中央agent的合作来共享其关于多客户端自适应流的信息;神经网络模型的参数更新由中央agent完成;然后将更新的参数复制到所有转发agent。
现有的训练算法存在学习过程耗时、学习结果不收敛的问题;这是由于训练集较长或优化目标较复杂时,学习的方差较大造成的;行为-批评算法利用互补的训练过程来减少学习中的方差。
当agent下载每个视频片段时,将状态传递到神经网络模型中;agent根据操作的概率分布,根据策略选择下一个操作;动作执行后,所提方案的模拟环境为接收到的视频片段向agent提供奖励;该方案利用策略梯度方法使预期累积奖励最大化;政策梯度法的基本思想是通过观察政策执行的轨迹来估计期望总回报的梯度;智能体对神经网络模型的参数进行更新,使神经网络模型频繁地选择奖赏较高的动作;考虑策略参数,期望累积奖励的梯度计算如下:
Figure BDA0003861872340000043
其中θ表示策略参数,η是控制未来奖励影响的贴现因子,gt是时间步长t时的奖励值;γθ(o,z)是状态o时的策略,作用为z,该值表示为范围为0到1的概率;
Figure BDA0003861872340000051
是一个优势函数,它暗示当本发明确定性地选择行为z与策略γθ的期望报酬相比,期望报酬会有差异;优势函数的值表明具体的行动比政策采取的平均行动好多少。
用神经网络模型来表示具有可调节参数数量可控的策略;因此,在生成策略时,更新行动者网络和批评网络的参数是很重要的,以使agent的未来回报最大化;首先,根据策略梯度法,对行动者网络的每次参数更新表示为:
Figure BDA0003861872340000052
其中θ表示行动者网络的参数等于本发明之前提到的策略参数,策略参数用于表示期望累积奖励的梯度;μ是用于更新行动者网络参数的学习率;ot和zt分别为时间步长t时的状态和作用;此更新规则的目的如下:
Figure BDA0003861872340000053
表示如何改变行动者网络的参数,以增加在各状态下选择作用的概率,A(ot,zt)起到加速参数更新的作用,以获得经验上更好的收益;更新步骤的大小取决于优势函数的值;作为
Figure BDA0003861872340000054
的无偏估计,本发明计算了优势函数在agent经历的事件数上的值。
为了利用优势函数的值来更新行动者网络的参数,本发明需要先估
Figure BDA0003861872340000059
价值函数是指从状态s出发时,期望总奖励γθ跟随策略的值;批评网络的关键功能是学习如何从观察到的奖励预测价值函数;本发明采用标准时间差分(TD)方法来更新批评网络的参数。
Figure BDA0003861872340000055
θv为临界网络参数,μ′为用于更新临界网络参数的学习率;
Figure BDA0003861872340000056
是临界网络的输出,利用该值作为时间步长t时
Figure BDA0003861872340000057
的估计;众所周知,用TD方法计算的值函数的差值可以作为优势函数;注意,批评网络只参与actor网络的参数更新;在对行动者网络和批评网络的训练过程结束后,agent只使用行动者网络进行比特率适配。
为了发现一个好的策略,必须保证agent在训练过程中充分地探索动作空间;为此,在行动者网络的参数更新规则中加入熵正则化项是一种实用的解决方法;考虑此方案,本发明对式(11)进行如下修改:
Figure BDA0003861872340000058
其中H(πθ(·|st))是状态st下策略πθ的熵,鼓励向熵更高的方向更新θ进行探索;β是控制勘探程度的熵权;熵权在训练开始时设置为一个较大的值,并随着时间的推移逐渐减小;该智能体通过控制熵权学习到一个方差较小的策略。
本发明的有益效果:
由于智慧矿山的逐渐普及,矿山的监控视频数据大量增加,如何将服务器中海量视频数据发放给客户端,并同时给客户端良好体验成为急需解决的问题;相较于之前的研究,本发明创造性的将移动边缘计算与矿山安全监控系统视频自适应流相结合,提高了客户端的整体QoE和客户端的QoE公平性,在矿山边缘服务器向客户端视频数据监测及可视化方面发挥着重要作用。
附图说明
图1为发明流程图。
图2为具体场景示意图。
具体实施方式
以下为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围;需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
实施例1
本发明应用场景包括但不限于如图2所示,有一台云服务器,然后多个边缘服务器,多个用户组成的矿山监控视频自适应流模型;云服务器和边缘服务器用来储存监控视频,用户对服务器中的视频进行请求。
本实施例的基本假设如下;所有客户端从服务器请求相同的视频;客户端感知到的网络状况来源于多客户端竞争和渠道可变性;为此,在训练和测试神经网络模型的仿真中,本实施例忽略了TCP慢启动的影响;缓慢的启动使收集准确的模拟困难,因为它将网络吞吐量与所使用的适应算法相关联;例如,频繁快速填充缓冲区的算法会导致启动阶段缓慢;因此,客户端的带宽利用率降低。
本实施例假设客户机之间的设备异构性不存在;因此,如果网络条件相似,每个客户机都期望相同的视频质量;最后,客户端定期向移动端报告他们的观察结果;报告过程的一种解决方案是将与QoE相关的信息添加到段请求的HTTP头中;在该方案中,客户端使用该方法与移动边缘进行通信;该方案忽略了在移动边缘捕获和修改客户端分段请求所带来的计算延迟;不考虑链路丢包,通信链路的时延是固定的。
本发明实施例提供了一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法,构建了一种基于移动边缘计算的矿山安全监控系统自适应流模型,所述方法的具体步骤如下:
首先边缘服务器从中心服务器将矿山安全监控系统视频进行缓存;然后边缘服务器收集客户端的信息,并将其输入到神经网络模型中,确定请求的矿山安全监控系统视频片段的比特率。之后以多客户端的QoE作为优化目标,将问题制定为马尔可夫决策过程。然后利用强化学习算法训练神经网络模型,计算出适应客户端的矿山安全监控系统海量视频比特率,然后分发给客户端。最后客户端将接收到的监控视频进行播放,然后将下一个请求信息发送给边缘服务器,供边缘服务器进行下一个视频比特率决策。
Step1:边缘服务器从中心服务器将矿山安全监控系统视频进行缓存。
在矿山监控系统中,监控摄像头先将采集到的实时数据传输到云服务器中,然后云服务器将这些视频数据储存;同时边缘服务器云服务器中将用户可能会观看的视频预先缓存在边缘服务器。
Step2:边缘服务器收集客户端的信息,并将其输入到神经网络模型中,确定请求的矿山安全监控系统视频片段的比特率。
在实际过程中,多个矿山人员利用手机,电脑等一系列终端对监控视频进行请求,然后边缘服务器收集这些请求信息,并且传输到边缘服务器中。
Step3:以多客户端的QoE作为优化目标,将问题制定为马尔可夫决策过程,根据实际需求设定神经网络中状态、行动和奖励。
本实例利用马尔可夫决策过程制定了多客户端的QoE公平性问题,并定义了训练神经网络模型所需的各种参数和方法;当状态被传递给自适应比特率(ABR)agent后,agent执行一个动作来选择比特率;agent从环境中获得相应的奖励;奖励被确定为客户端收到的视频片段的即时QoE。
(1)状态:agent通过考虑输入状态生成并改进策略,如果状态空间非常小,agent在学习过程中会丢失信息,导致策略改进受到限制;当状态空间非常大时,很难训练agent生成给定环境下的最优策略;要使政策改进朝着正确的方向发展,必须使状态与优化目标相匹配;该方案的目标是生成既能提高客户端QoE公平性又能提高单个QoE公平性的策略;为此,状态应该与比特率适应中影响QoE的因素有关,定义时间步长t的状态空间
Figure BDA0003861872340000081
式中
Figure BDA0003861872340000082
是过去分段吞吐量的向量,
Figure BDA0003861872340000083
为过去分段下载时间的矢量,
Figure BDA0003861872340000084
表示视频比特率级别的下一段大小,rt是客户端的当前缓冲区级别,qt是最后请求的比特率;段吞吐量和段下载时间表示客户端流视频的网络状态;在相同的视频中,不同码率的分段大小也会因视频帧的复杂度而不同。
(2)行动:agent所采取的行动会影响下一个状态和由此产生的奖励;该方案定义了时间步长t时的动作空间
Nt={w1,w2,...,wM} (15)
Nt-时间步长t时的动作空间;M为视频比特率等级数,wM为级别为M的视频比特率。
由神经网络模型生成的策略在确定多个客户机的比特率方面起着重要作用;由于这个原因,即将到来的段的比特率选择被定义为动作。
每个动作都指向即将到来的段的比特率选择;模型的输出层有多个神经元,每个神经元表示视频比特率的选择概率;移动边缘的智能体根据所确定的动作实时调整视频段的比特率;在训练神经网络模型时,智能体随机决定下一步动作;在测试中,agent决定选择概率最高的动作作为下一个动作。
(3)奖励:在形成有效的强化学习策略时,设置奖励是一个关键的挑战;首先,本发明确定客户QoE的基本形式;影响客户端的QoE的因素很多,如视频质量、质量变化、视频重缓冲等;客户Q0E优化方案一般将QoE值量化为这些影响因素的线性组合。
Figure BDA0003861872340000085
式中,QoEi为第i个视频段的QoE值,u(bi)为第i个比特率为bi的视频段的质量,T(bi)为接收到第i个比特率为bi的视频段后的视频再缓冲时间;
Figure BDA0003861872340000086
Figure BDA0003861872340000087
分别是用于控制质量变化和视频再缓冲影响的权重参数;确定视频质量和视频比特率之间关系的方法有很多种;本发明采用最简单的方法,将视频比特率本身视为视频质量。
通过考虑多客户端的QoE公平性来扩展QoE值,使奖励具体化;如果QoE值很低,那么客户端需要接收更多带宽来提高他们的QoE;与此相反,如果QoE值很高,那么客户机需要允许其他客户机通过牺牲一些带宽来改进它们的QoE;客户端没有相同的QoE,即使它们使用相同的带宽;实现公平的QoE意味着所有客户端都尽可能多地使用带宽来改进或维护其QoE;用个人QoE和客户QoE偏差的组合来计算效用价值;多客户端QoE公平性的值计算如下:
Figure BDA0003861872340000091
其中gt是时间步t时的奖励值,ε是将单个QoE与QoE偏差结合起来的权重参数;
Figure BDA0003861872340000092
为除客户k外所有客户端的平均QoE,N为客户端的总数;QoEmax和QoEmin分别是客户端QoE中的最大值和最小值。
Step4:利用强化学习算法训练神经网络模型,计算出适应客户端的矿山安全监控系统海量视频比特率,然后分发给客户端。
本发明通过考虑多客户端的QoE公平性来扩展QoE值,使奖励具体化。如果QoE值很低,那么客户端需要接收更多带宽来提高他们的QoE;与此相反,如果QoE值很高,那么客户机需要允许其他客户机通过牺牲一些带宽来改进它们的QoE。客户端没有相同的QoE,即使它们使用相同的带宽;实现公平的QoE意味着所有客户端都尽可能多地使用带宽来改进或维护其QoE。
本发明用个人QoE和客户QoE偏差的组合来计算效用价值。只要客户端接收到新的视频段,这些值就会更新。如果当前QoE偏差较大,agent需要提高QoE公平性;当当前QoE偏差较低时,agent需要生成策略,使每个客户机的比特率尽可能达到高质量、平滑和稳定的水平。权重参数控制个体QoE的影响以及QoE偏差对奖励的影响;因此,适当设置该参数的值非常重要。权重参数的范围应该在QoEmin和QoEmax之间,以匹配QoE值的尺寸。本发明将weight参数的值设置为客户端的QoE中的最小值。
本发明需使用多智能体训练方法;本发明将训练好的模型部署到移动边缘,在边缘计算的帮助下执行多客户端比特率适应;一旦视频流开始,移动边缘根据客户端的数量生成训练模型的多个实例;实例的输出表示在给定状态下提高奖励的视频比特率。移动边缘将客户端的视频比特率调整到实例的输出。
使用TensorFlow实现神经网络模型;为了将实现的模型用于训练和测试,本发明利用了TFLearn深度学习库的API;行动者网络的1D-CNN层有128个滤波器。每个过滤器的大小是4,步幅是1;agent将过去的片段吞吐量、过去的片段下载时间和下一个片段大小传递给1D-CNN层,然后提取输入的特征;提取的特征与其他输入信息聚集在隐含层,隐含层使用128个神经元。在输出层,神经元的数量等于可用的视频比特率的数量;每个神经元使用softmax函数进行输出;批评网络的结构与行动者网络相同,但输出是由一个没有激活函数的线性神经元产生的。
理想情况下,神经网络模型应该通过模拟自适应流的实际环境来训练。但是,该方法速度较慢,agent必须等待所有的视频片段下载完毕,并对当前环境进行探索后才能更新神经网络模型的参数。提出的方案使用一个简单的模拟器来模拟自适应流的比特率动态。该模拟器根据分段的视频比特率和网络的可用带宽跟踪来测量分段的下载时间。然后模拟器在当前下载时间允许的情况下尽可能多地耗尽缓冲区,并将片段的播放长度添加到缓冲区。
在模拟给定网络轨迹的自适应流的同时,模拟器保持对视频重新缓冲事件的跟踪;当缓冲区不能容纳视频数据时,模拟器暂停请求过程500毫秒,然后重试段请求。
下载视频片段后,模拟器将当前状态传递给agent,agent决定下一步的动作。利用该模拟器,神经网络模型在几十分钟内经历了数百小时的自适应流。
最终将合适的视频通过边缘服务器发送到客户端。
Step5:客户端将接收到的监控视频进行播放,然后将下一个请求信息发送给边缘服务器,供边缘服务器进行下一个视频比特率决策。
客户将视频进行播放后,又会产生新的视频需求,此时再次进行第二步进行视频的调整。

Claims (4)

1.一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法,其特征在于,所述构建方法的具体步骤如下:
Step1:边缘服务器从中心服务器将矿山安全监控系统视频进行缓存;
Step2:边缘服务器收集客户端的信息,并将客户端的信息输入到神经网络模型中,确定请求的矿山安全监控系统视频片段的比特率;
Step3:以多客户端的QoE作为优化目标,将问题制定为马尔可夫决策过程,根据实际需求设定神经网络中状态、行动和奖励;
Step4:利用强化学习算法训练神经网络模型,计算出适应客户端的矿山安全监控系统海量视频比特率,然后分发给客户端;
Step5:客户端将接收到的监控视频进行播放,然后将下一个请求信息发送给边缘服务器,供边缘服务器进行下一个视频比特率决策。
2.根据权利要求1所述的基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法,其特征在于:所述Step3中根据实际需求设定神经网络中状态、行动和奖励包括:
(1)状态:agent通过考虑输入状态生成并改进策略;状态应该与比特率适应中影响QoE的因素有关;定义了时间步长t的状态空间:
Figure FDA0003861872330000011
式中:
Figure FDA0003861872330000012
—是过去分段吞吐量的向量;
Figure FDA0003861872330000013
—过去分段下载时间的矢量;
Figure FDA0003861872330000014
—视频比特率级别的下一段大小;
rt—客户端的当前缓冲区级别;
qt—最后请求的比特率;
(2)行动:agent所采取的行动会影响下一个状态和由此产生的奖励;该方案定义了时间步长t时的动作空间
Nt={w1,w2,...,wM} (2)
式中:Nt—时间步长t时的动作空间;M为视频比特率等级数;wM为级别为M的视频比特率;
(3)奖励:客户QoE优化方案将QoE值量化为这些影响因素的线性组合:
Figure FDA0003861872330000021
式中:QoEi—第i个视频段的QoE值;
u(bi)—第i个比特率为bi的视频段的质量;
T(bi)—接收到第i个比特率为bi的视频段后的视频再缓冲时间;
Figure FDA0003861872330000022
—控制质量变化的权重参数;
Figure FDA0003861872330000023
—视频再缓冲影响的权重参数;
通过考虑多客户端的QoE公平性来扩展QoE值,使奖励具体化;个人QoE和客户QoE偏差的组合来计算效用价值;多客户端QoE公平性的值通过时间步t时的奖励值来表示,计算如下:
Figure FDA0003861872330000024
式中:
gt—时间步t时的奖励值;
ε—将单个QoE与QoE偏差结合起来的权重参数;
Figure FDA0003861872330000025
—除客户k外所有客户端的平均QoE;
N—客户端的总数;
QoEmin—客户端QoE中的最大值;
QoEmin—客户端QoE中的最小值;
QoEi—第i个视频段的QoE值。
3.根据权利要求1所述的一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法,其特征在于:
Step4所述强化学习算法为多agent训练方法,所述多agent训练方法在多个agent之间存在异质性且需要相互分享自己的情况下是有效的;此外,采用基于策略梯度的规则更新神经网络模型的参数;所提方案的学习目标是生成实现QoE公平最大化的策略;中央agent利用转发agent的聚合信息计算奖励;前向agent通过与中央agent的合作来共享其关于多客户端自适应流的信息。
4.根据权利要求3所述的一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法,其特征在于:神经网络模型的参数更新由中央agent完成;然后将更新的参数复制到所有转发agent;在行动者网络的参数更新规则中加入熵正则化项:
Figure FDA0003861872330000031
式中:
θ—行动者网络的参数;
μ—用于更新行动者网络参数的学习率;
ot—步长t时的状态;
zt—时间步长t时的作用;
Figure FDA0003861872330000032
—改变行动者网络的参数,以增加在各状态下选择作用的概率;
A(ot,zt)—加速参数更新的参数;
H(γθ(·|ot))—状态st下策略πθ的熵;
β—控制勘探程度的熵权。
CN202211165591.9A 2022-09-23 2022-09-23 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法 Active CN115695390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211165591.9A CN115695390B (zh) 2022-09-23 2022-09-23 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211165591.9A CN115695390B (zh) 2022-09-23 2022-09-23 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法

Publications (2)

Publication Number Publication Date
CN115695390A true CN115695390A (zh) 2023-02-03
CN115695390B CN115695390B (zh) 2024-03-05

Family

ID=85062021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211165591.9A Active CN115695390B (zh) 2022-09-23 2022-09-23 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法

Country Status (1)

Country Link
CN (1) CN115695390B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116864153A (zh) * 2023-07-13 2023-10-10 中世康恺科技有限公司 一种区域远程诊断系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111431941A (zh) * 2020-05-13 2020-07-17 南京工业大学 一种基于移动边缘计算的实时视频码率自适应方法
CN111901642A (zh) * 2020-07-31 2020-11-06 成都云格致力科技有限公司 基于强化学习的实时视频码率自适应调控方法与系统
CN112954385A (zh) * 2021-01-18 2021-06-11 南京邮电大学 一种基于控制论和数据驱动的自适应分流决策方法
CN113114756A (zh) * 2021-04-08 2021-07-13 广西师范大学 一种移动边缘计算中自适应码率选择的视频缓存更新方法
US20210409789A1 (en) * 2018-09-28 2021-12-30 Korea Advanced Institute Of Science And Technology Method and apparatus for transmitting adaptive video in real time using content-aware neural network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210409789A1 (en) * 2018-09-28 2021-12-30 Korea Advanced Institute Of Science And Technology Method and apparatus for transmitting adaptive video in real time using content-aware neural network
CN111431941A (zh) * 2020-05-13 2020-07-17 南京工业大学 一种基于移动边缘计算的实时视频码率自适应方法
CN111901642A (zh) * 2020-07-31 2020-11-06 成都云格致力科技有限公司 基于强化学习的实时视频码率自适应调控方法与系统
CN112954385A (zh) * 2021-01-18 2021-06-11 南京邮电大学 一种基于控制论和数据驱动的自适应分流决策方法
CN113114756A (zh) * 2021-04-08 2021-07-13 广西师范大学 一种移动边缘计算中自适应码率选择的视频缓存更新方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
叶进: "以用户QoE预测值为奖励的视频自适应比特率算法", 《电子科技大学学报》, 31 March 2021 (2021-03-31) *
杜丽娜: "基于强化学习的移动视频流业务码率自适应算法研究进展", 《通信学报》, 30 September 2021 (2021-09-30) *
马堉银;郑万波;马勇;刘航;夏云霓;郭坤银;陈鹏;刘诚武: "一种基于深度强化学习与概率性能感知的边缘计算环境多工作流卸载方法", 计算机科学, no. 001, 31 December 2021 (2021-12-31) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116864153A (zh) * 2023-07-13 2023-10-10 中世康恺科技有限公司 一种区域远程诊断系统
CN116864153B (zh) * 2023-07-13 2024-04-26 中世康恺科技有限公司 一种区域远程诊断系统

Also Published As

Publication number Publication date
CN115695390B (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
US11509703B2 (en) System and method for widescale adaptive bitrate selection
Guo et al. Adaptive bitrate streaming in wireless networks with transcoding at network edge using deep reinforcement learning
CN112954385B (zh) 一种基于控制论和数据驱动的自适应分流决策方法
CN113242469A (zh) 一种自适应视频传输配置方法和系统
CN113475089B (zh) 用于面向用户的内容流的方法和系统
CN111669617B (zh) 一种基于智能边缘的直播视频流的传输方法
CN111031387B (zh) 一种监控视频发送端视频编码流速控制的方法
CN113422751B (zh) 基于在线强化学习的流媒体处理方法、装置及电子设备
Altamimi et al. QoE-fair DASH video streaming using server-side reinforcement learning
CN115695390B (zh) 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法
CN115022684B (zh) 一种quic协议下基于深度强化学习的视频流自适应传输方法
CN113259657A (zh) 基于视频质量分数的dppo码率自适应控制系统和方法
CN114040257B (zh) 一种自适应视频流传输播放方法、装置、设备及存储介质
Hafez et al. Reinforcement learning-based rate adaptation in dynamic video streaming
Bentaleb et al. Meta reinforcement learning for rate adaptation
CN115834924B (zh) 面向交互式视频的松耦合编码码率-传输速率调节方法
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
Bhattacharyya et al. QFlow: A learning approach to high QoE video streaming at the wireless edge
CN112887314A (zh) 一种时延感知的云雾协作视频分发方法
Naresh et al. Sac-abr: Soft actor-critic based deep reinforcement learning for adaptive bitrate streaming
CN116347170A (zh) 一种基于序贯因果建模的自适应比特率控制方法
Kim et al. HTTP adaptive streaming scheme based on reinforcement learning with edge computing assistance
CN116249162A (zh) 车载边缘网络中基于深度强化学习的协作缓存方法
Zhang et al. Adaptive Frame Rate Optimization Based on Particle Swarm and Neural Network for Industrial Video Stream
Bentaleb et al. Bitrate Adaptation and Guidance with Meta Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant