CN115695390A

CN115695390A - 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法

Info

Publication number: CN115695390A
Application number: CN202211165591.9A
Authority: CN
Inventors: 郑万波; 李磊; 夏云霓; 彭青蓝; 王宇栋; 刘文奇; 郭坤银; 李思奇; 朱榕; 董锦晓; 冉啟华; 王耀
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-09-23
Filing date: 2022-09-23
Publication date: 2023-02-03
Anticipated expiration: 2042-09-23
Also published as: CN115695390B

Abstract

本发明公开了一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法，属于边缘计算领域。本发明的系统包括中心服务器、边缘服务器、用户设备；本发明首先构建移动矿山安全监控系统客户端自适应流的移动边缘框架，然后通过边缘服务器收集客户端的信息，并将其输入到神经网络模型中，确定请求的矿山安全监控系统视频片段的比特率。利用强化学习算法训练神经网络模型，计算出适应客户端的矿山安全监控系统海量视频比特率，然后分发给客户端；本发明创造性的将移动边缘计算与矿山安全监控系统视频自适应流相结合，提高了客户端的整体QoE和客户端的QoE公平性，在矿山边缘服务器向客户端视频数据监测及可视化方面发挥着重要作用。

Description

一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法

技术领域

本发明一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法属于边缘计算和矿山技术领域。

背景技术

近些年，我国矿山智能化逐渐成为趋势。以矿山安全监控系统系统为例，整个系统分为四层，视频监控设备层，服务器层，客户端层。视频监控设备层负责采集矿山中的生产，运输，安全等视频，服务器层包含中心服务器与多个边缘服务器将视频设备监控层传输来的数据进行收集与整理，客户端层包括电脑，手机，矿车，等设备，这些设备根据需求从服务器中调用监控视频。由于目前监控视频数量与质量都有很大提升，因此向用户提供高质量的体验(QoE)是网络和服务方面的一个重要挑战。动态自适应HTTP流媒体(DASH)在2011年被标准化，作为一种高效和流畅的视频流媒体解决方案。DASH利用现有的HTTP基础设施，对网络上交付的视频段的比特率进行调整，以提高资源利用率和用户的QoE。此外，DASH具有很高的可伸缩性，因为它采用客户机驱动模式，不需要对HTTP服务器进行任何修改。近年来，基于DASH的各种研究相继开展。这些方案通过确定视频比特率适合测量的可用带宽、当前缓冲区水平或其他预测条件来执行比特率适应。

通常情况下，许多设备通过同一网络传输视频。这会导致设备争夺网络的有限带宽。基于dash的比特率适应的贪心策略，由于客户端之间缺乏协调，降低了用户的QoE。这个问题会导致资源利用率低，客户端QoE不公平。此外，现有的基于启发式的方案在可用带宽动态变化的环境中不能有效地优化用户的QoE。自适应流方案应解决以下挑战，以优化用户的QoE。首先，考虑多客户端的竞争，提高客户端的整体QoE。其次，在网络条件发生显著变化的情况下，对视频比特率进行智能适配，实现对视频比特率的鲁棒适配。帮忙利用边缘计算和强化学习来提高多客户端自适应流的性能。通过移动边缘计算，为客户调整视频比特率。通过强化学习，通过挖掘与过去选择的实际性能有关的信息，生成比特率适应策略。

发明内容

本发明提供了一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法，以用于解决矿山安全监控系统视频自适应流的问题。

本发明的技术方案是：一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法，所述方法的具体步骤如下：

Step1：边缘服务器从中心服务器将矿山安全监控系统视频进行缓存。

Step2：边缘服务器收集客户端的信息，并将客户端的信息输入到神经网络模型中，确定请求的矿山安全监控系统视频片段的比特率。

Step3：以多客户端的QoE作为优化目标，将问题制定为马尔可夫决策过程，根据实际需求设定神经网络中状态、行动和奖励。

Step4：利用强化学习算法训练神经网络模型，计算出适应客户端的矿山安全监控系统海量视频比特率，然后分发给客户端。

Step5：客户端将接收到的监控视频进行播放，然后将下一个请求信息发送给边缘服务器，供边缘服务器进行下一个视频比特率决策。

作为本发明的进一步方案，所述Step1包括：边缘服务器从中心服务器中将矿山安全监控系统视频预先缓存在边缘服务器本地；可以直接为用户提供监控视频，使视频能够快速传给用户避免由于网络拥堵造成的视频卡顿。

作为本发明的进一步方案，所述Step2包括：当用户需要进行监控观看时，边缘服务器对请求进行分析，对视频比特率进行调节，为用户提供监控视频；该步骤保障了用户观看监控视频的QoE，不会因为网络问题造成影响；在为用户提供监控视频时，边缘服务器根据环境确定下一个传输视频的比特率；该步骤使得用户能够获得较好的QoE，即尽可能提供高的清晰的视频。

作为本发明的进一步方案，所述Step3包括：利用马尔可夫决策过程制定了多客户端的QoE公平性问题，并定义了训练神经网络模型所需的各种参数和方法；当状态被传递给自适应比特率(ABR)agent后，agent执行一个动作来选择比特率，agent从环境中获得相应的奖励；奖励被确定为客户端收到的视频片段的即时QoE。

(1)状态：agent通过考虑输入状态生成并改进策略，如果状态空间非常小，agent在学习过程中会丢失信息，导致策略改进受到限制；当状态空间非常大时，很难训练agent生成给定环境下的最优策略；要使政策改进朝着正确的方向发展，必须使状态与优化目标相匹配；该方案的目标是生成既能提高客户端QoE公平性又能提高单个QoE公平性的策略；为此，状态应该与比特率适应中影响QoE的因素有关，定义时间步长t的状态空间

式中：

是过去分段吞吐量的向量，

为过去分段下载时间的矢量，

表示视频比特率级别的下一段大小，r_t是客户端的当前缓冲区级别，q_t是最后请求的比特率；段吞吐量和段下载时间表示客户端流视频的网络状态；在相同的视频中，不同码率的分段大小也会因视频帧的复杂度而不同。

(2)行动：agent所采取的行动会影响下一个状态和由此产生的奖励；该方案定义了时间步长t时的动作空间

N_t＝{w₁,w₂,...,w_M} (7)

N_t-时间步长t时的动作空间；M为视频比特率等级数，w_M为级别为M的视频比特率。

由神经网络模型生成的策略在确定多个客户机的比特率方面起着重要作用；由于这个原因，即将到来的段的比特率选择被定义为动作。

每个动作都指向即将到来的段的比特率选择；模型的输出层有多个神经元，每个神经元表示视频比特率的选择概率；移动边缘的智能体根据所确定的动作实时调整视频段的比特率；在训练神经网络模型时，智能体随机决定下一步动作；在测试中，agent决定选择概率最高的动作作为下一个动作。

(3)奖励：在形成有效的强化学习策略时，设置奖励是一个关键的挑战；首先，本发明确定客户QoE的基本形式；影响客户端的QoE的因素很多，如视频质量、质量变化、视频重缓冲等；客户QoE优化方案一般将QoE值量化为这些影响因素的线性组合。

式中，QoE_i为第i个视频段的QoE值，u(b_i)为第i个比特率为b_i的视频段的质量，T(b_i)为接收到第i个比特率为bi的视频段后的视频再缓冲时间；

和

分别是用于控制质量变化的权重参数和视频再缓冲影响的权重参数；确定视频质量和视频比特率之间关系的方法有很多种；本发明采用最简单的方法，将视频比特率本身视为视频质量。

通过考虑多客户端的QoE公平性来扩展QoE值，使奖励具体化；如果QoE值很低，那么客户端需要接收更多带宽来提高他们的QoE；与此相反，如果QoE值很高，那么客户机需要允许其他客户机通过牺牲一些带宽来改进它们的QoE；客户端没有相同的QoE，即使它们使用相同的带宽；实现公平的QoE意味着所有客户端都尽可能多地使用带宽来改进或维护其QoE；用个人QoE和客户QoE偏差的组合来计算效用价值；多客户端QoE公平性的值计算如下：

其中g_t是时间步t时的奖励值，ε是将单个QoE与QoE偏差结合起来的权重参数；

为除客户k外所有客户端的平均QoE,N为客户端的总数；QoE_max和QoE_min分别是客户端QoE中的最大值和最小值；QoE_i-第i个视频段的QoE值。

作为本发明的进一步方案，所述Step4包括：

为了学习最优策略，对神经网络模型的结构进行适当的构造是非常重要的；这意味着神经网络模型应该足够大，以生成详细的策略，并且体系结构的复杂性应该很低，以避免训练的负担；本发明采用卷积层和全连接层的简单架构，提供一种基于行为-批评方法的训练算法，该方法同时训练行动者网络和批评网络；当给定状态时，行动者网络在决定行动中发挥作用；批评网络评估状态的当前值，并将此信息传递给行动者网络，以协助其参数更新。

多个客户端请求矿山安全监控系统视频，使用多agent训练方法，该方法在多个agent之间存在异质性且需要相互分享自己的情况下是有效的；此外，采用基于策略梯度的规则更新神经网络模型的参数；所提方案的学习目标是生成实现QoE公平最大化的策略。

中央agent利用转发agent的聚合信息计算奖励；也就是说，前向agent通过与中央agent的合作来共享其关于多客户端自适应流的信息；神经网络模型的参数更新由中央agent完成；然后将更新的参数复制到所有转发agent。

现有的训练算法存在学习过程耗时、学习结果不收敛的问题；这是由于训练集较长或优化目标较复杂时，学习的方差较大造成的；行为-批评算法利用互补的训练过程来减少学习中的方差。

当agent下载每个视频片段时，将状态传递到神经网络模型中；agent根据操作的概率分布，根据策略选择下一个操作；动作执行后，所提方案的模拟环境为接收到的视频片段向agent提供奖励；该方案利用策略梯度方法使预期累积奖励最大化；政策梯度法的基本思想是通过观察政策执行的轨迹来估计期望总回报的梯度；智能体对神经网络模型的参数进行更新，使神经网络模型频繁地选择奖赏较高的动作；考虑策略参数，期望累积奖励的梯度计算如下:

其中θ表示策略参数，η是控制未来奖励影响的贴现因子，g_t是时间步长t时的奖励值；γ_θ(o，z)是状态o时的策略，作用为z，该值表示为范围为0到1的概率；

是一个优势函数，它暗示当本发明确定性地选择行为z与策略γ_θ的期望报酬相比，期望报酬会有差异；优势函数的值表明具体的行动比政策采取的平均行动好多少。

用神经网络模型来表示具有可调节参数数量可控的策略；因此，在生成策略时，更新行动者网络和批评网络的参数是很重要的，以使agent的未来回报最大化；首先，根据策略梯度法，对行动者网络的每次参数更新表示为：

其中θ表示行动者网络的参数等于本发明之前提到的策略参数，策略参数用于表示期望累积奖励的梯度；μ是用于更新行动者网络参数的学习率；o_t和z_t分别为时间步长t时的状态和作用；此更新规则的目的如下：

表示如何改变行动者网络的参数，以增加在各状态下选择作用的概率，A(o_t，z_t)起到加速参数更新的作用，以获得经验上更好的收益；更新步骤的大小取决于优势函数的值；作为

的无偏估计，本发明计算了优势函数在agent经历的事件数上的值。

为了利用优势函数的值来更新行动者网络的参数，本发明需要先估

价值函数是指从状态s出发时，期望总奖励γ_θ跟随策略的值；批评网络的关键功能是学习如何从观察到的奖励预测价值函数；本发明采用标准时间差分(TD)方法来更新批评网络的参数。

θ_v为临界网络参数，μ′为用于更新临界网络参数的学习率；

是临界网络的输出，利用该值作为时间步长t时

的估计；众所周知，用TD方法计算的值函数的差值可以作为优势函数；注意，批评网络只参与actor网络的参数更新；在对行动者网络和批评网络的训练过程结束后，agent只使用行动者网络进行比特率适配。

为了发现一个好的策略，必须保证agent在训练过程中充分地探索动作空间；为此，在行动者网络的参数更新规则中加入熵正则化项是一种实用的解决方法；考虑此方案，本发明对式(11)进行如下修改：

其中H(π_θ(·|s_t))是状态s_t下策略π_θ的熵，鼓励向熵更高的方向更新θ进行探索；β是控制勘探程度的熵权；熵权在训练开始时设置为一个较大的值，并随着时间的推移逐渐减小；该智能体通过控制熵权学习到一个方差较小的策略。

本发明的有益效果：

由于智慧矿山的逐渐普及，矿山的监控视频数据大量增加，如何将服务器中海量视频数据发放给客户端，并同时给客户端良好体验成为急需解决的问题；相较于之前的研究，本发明创造性的将移动边缘计算与矿山安全监控系统视频自适应流相结合，提高了客户端的整体QoE和客户端的QoE公平性，在矿山边缘服务器向客户端视频数据监测及可视化方面发挥着重要作用。

附图说明

图1为发明流程图。

图2为具体场景示意图。

具体实施方式

以下为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围；需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

实施例1

本发明应用场景包括但不限于如图2所示，有一台云服务器，然后多个边缘服务器，多个用户组成的矿山监控视频自适应流模型；云服务器和边缘服务器用来储存监控视频，用户对服务器中的视频进行请求。

本实施例的基本假设如下；所有客户端从服务器请求相同的视频；客户端感知到的网络状况来源于多客户端竞争和渠道可变性；为此，在训练和测试神经网络模型的仿真中，本实施例忽略了TCP慢启动的影响；缓慢的启动使收集准确的模拟困难，因为它将网络吞吐量与所使用的适应算法相关联；例如，频繁快速填充缓冲区的算法会导致启动阶段缓慢；因此，客户端的带宽利用率降低。

本实施例假设客户机之间的设备异构性不存在；因此，如果网络条件相似，每个客户机都期望相同的视频质量；最后，客户端定期向移动端报告他们的观察结果；报告过程的一种解决方案是将与QoE相关的信息添加到段请求的HTTP头中；在该方案中，客户端使用该方法与移动边缘进行通信；该方案忽略了在移动边缘捕获和修改客户端分段请求所带来的计算延迟；不考虑链路丢包，通信链路的时延是固定的。

本发明实施例提供了一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法，构建了一种基于移动边缘计算的矿山安全监控系统自适应流模型，所述方法的具体步骤如下：

首先边缘服务器从中心服务器将矿山安全监控系统视频进行缓存；然后边缘服务器收集客户端的信息，并将其输入到神经网络模型中，确定请求的矿山安全监控系统视频片段的比特率。之后以多客户端的QoE作为优化目标，将问题制定为马尔可夫决策过程。然后利用强化学习算法训练神经网络模型，计算出适应客户端的矿山安全监控系统海量视频比特率，然后分发给客户端。最后客户端将接收到的监控视频进行播放，然后将下一个请求信息发送给边缘服务器，供边缘服务器进行下一个视频比特率决策。

在矿山监控系统中，监控摄像头先将采集到的实时数据传输到云服务器中，然后云服务器将这些视频数据储存；同时边缘服务器云服务器中将用户可能会观看的视频预先缓存在边缘服务器。

Step2：边缘服务器收集客户端的信息，并将其输入到神经网络模型中，确定请求的矿山安全监控系统视频片段的比特率。

在实际过程中，多个矿山人员利用手机，电脑等一系列终端对监控视频进行请求，然后边缘服务器收集这些请求信息，并且传输到边缘服务器中。

本实例利用马尔可夫决策过程制定了多客户端的QoE公平性问题，并定义了训练神经网络模型所需的各种参数和方法；当状态被传递给自适应比特率(ABR)agent后，agent执行一个动作来选择比特率；agent从环境中获得相应的奖励；奖励被确定为客户端收到的视频片段的即时QoE。

式中

是过去分段吞吐量的向量，

为过去分段下载时间的矢量，

N_t＝{w₁，w₂，...，w_M} (15)

(3)奖励：在形成有效的强化学习策略时，设置奖励是一个关键的挑战；首先，本发明确定客户QoE的基本形式；影响客户端的QoE的因素很多，如视频质量、质量变化、视频重缓冲等；客户Q0E优化方案一般将QoE值量化为这些影响因素的线性组合。

和

分别是用于控制质量变化和视频再缓冲影响的权重参数；确定视频质量和视频比特率之间关系的方法有很多种；本发明采用最简单的方法，将视频比特率本身视为视频质量。

为除客户k外所有客户端的平均QoE，N为客户端的总数；QoE_max和QoE_min分别是客户端QoE中的最大值和最小值。

本发明通过考虑多客户端的QoE公平性来扩展QoE值，使奖励具体化。如果QoE值很低，那么客户端需要接收更多带宽来提高他们的QoE；与此相反，如果QoE值很高，那么客户机需要允许其他客户机通过牺牲一些带宽来改进它们的QoE。客户端没有相同的QoE，即使它们使用相同的带宽；实现公平的QoE意味着所有客户端都尽可能多地使用带宽来改进或维护其QoE。

本发明用个人QoE和客户QoE偏差的组合来计算效用价值。只要客户端接收到新的视频段，这些值就会更新。如果当前QoE偏差较大，agent需要提高QoE公平性；当当前QoE偏差较低时，agent需要生成策略，使每个客户机的比特率尽可能达到高质量、平滑和稳定的水平。权重参数控制个体QoE的影响以及QoE偏差对奖励的影响；因此，适当设置该参数的值非常重要。权重参数的范围应该在QoE_min和QoE_max之间，以匹配QoE值的尺寸。本发明将weight参数的值设置为客户端的QoE中的最小值。

本发明需使用多智能体训练方法；本发明将训练好的模型部署到移动边缘，在边缘计算的帮助下执行多客户端比特率适应；一旦视频流开始，移动边缘根据客户端的数量生成训练模型的多个实例；实例的输出表示在给定状态下提高奖励的视频比特率。移动边缘将客户端的视频比特率调整到实例的输出。

使用TensorFlow实现神经网络模型；为了将实现的模型用于训练和测试，本发明利用了TFLearn深度学习库的API；行动者网络的1D-CNN层有128个滤波器。每个过滤器的大小是4，步幅是1；agent将过去的片段吞吐量、过去的片段下载时间和下一个片段大小传递给1D-CNN层，然后提取输入的特征；提取的特征与其他输入信息聚集在隐含层，隐含层使用128个神经元。在输出层，神经元的数量等于可用的视频比特率的数量；每个神经元使用softmax函数进行输出；批评网络的结构与行动者网络相同，但输出是由一个没有激活函数的线性神经元产生的。

理想情况下，神经网络模型应该通过模拟自适应流的实际环境来训练。但是，该方法速度较慢，agent必须等待所有的视频片段下载完毕，并对当前环境进行探索后才能更新神经网络模型的参数。提出的方案使用一个简单的模拟器来模拟自适应流的比特率动态。该模拟器根据分段的视频比特率和网络的可用带宽跟踪来测量分段的下载时间。然后模拟器在当前下载时间允许的情况下尽可能多地耗尽缓冲区，并将片段的播放长度添加到缓冲区。

在模拟给定网络轨迹的自适应流的同时，模拟器保持对视频重新缓冲事件的跟踪；当缓冲区不能容纳视频数据时，模拟器暂停请求过程500毫秒，然后重试段请求。

下载视频片段后，模拟器将当前状态传递给agent，agent决定下一步的动作。利用该模拟器，神经网络模型在几十分钟内经历了数百小时的自适应流。

最终将合适的视频通过边缘服务器发送到客户端。

客户将视频进行播放后，又会产生新的视频需求，此时再次进行第二步进行视频的调整。

Claims

1.一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法，其特征在于，所述构建方法的具体步骤如下：

Step1：边缘服务器从中心服务器将矿山安全监控系统视频进行缓存；

Step2：边缘服务器收集客户端的信息，并将客户端的信息输入到神经网络模型中，确定请求的矿山安全监控系统视频片段的比特率；

Step3：以多客户端的QoE作为优化目标，将问题制定为马尔可夫决策过程，根据实际需求设定神经网络中状态、行动和奖励；

Step4：利用强化学习算法训练神经网络模型，计算出适应客户端的矿山安全监控系统海量视频比特率，然后分发给客户端；

2.根据权利要求1所述的基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法，其特征在于：所述Step3中根据实际需求设定神经网络中状态、行动和奖励包括：

(1)状态：agent通过考虑输入状态生成并改进策略；状态应该与比特率适应中影响QoE的因素有关；定义了时间步长t的状态空间：

式中：

—是过去分段吞吐量的向量；

—过去分段下载时间的矢量；

—视频比特率级别的下一段大小；

r_t—客户端的当前缓冲区级别；

q_t—最后请求的比特率；

N_t＝{w₁,w₂,...,w_M} (2)

式中：N_t—时间步长t时的动作空间；M为视频比特率等级数；w_M为级别为M的视频比特率；

(3)奖励：客户QoE优化方案将QoE值量化为这些影响因素的线性组合：

式中：QoE_i—第i个视频段的QoE值；

u(b_i)—第i个比特率为b_i的视频段的质量；

T(b_i)—接收到第i个比特率为b_i的视频段后的视频再缓冲时间；

—控制质量变化的权重参数；

—视频再缓冲影响的权重参数；

通过考虑多客户端的QoE公平性来扩展QoE值，使奖励具体化；个人QoE和客户QoE偏差的组合来计算效用价值；多客户端QoE公平性的值通过时间步t时的奖励值来表示，计算如下：

式中：

g_t—时间步t时的奖励值；

ε—将单个QoE与QoE偏差结合起来的权重参数；

—除客户k外所有客户端的平均QoE；

N—客户端的总数；

QoE_min—客户端QoE中的最大值；

QoE_min—客户端QoE中的最小值；

QoE_i—第i个视频段的QoE值。

3.根据权利要求1所述的一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法，其特征在于：

Step4所述强化学习算法为多agent训练方法，所述多agent训练方法在多个agent之间存在异质性且需要相互分享自己的情况下是有效的；此外，采用基于策略梯度的规则更新神经网络模型的参数；所提方案的学习目标是生成实现QoE公平最大化的策略；中央agent利用转发agent的聚合信息计算奖励；前向agent通过与中央agent的合作来共享其关于多客户端自适应流的信息。

4.根据权利要求3所述的一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法，其特征在于：神经网络模型的参数更新由中央agent完成；然后将更新的参数复制到所有转发agent；在行动者网络的参数更新规则中加入熵正则化项：

式中：

θ—行动者网络的参数；

μ—用于更新行动者网络参数的学习率；

o_t—步长t时的状态；

z_t—时间步长t时的作用；

—改变行动者网络的参数，以增加在各状态下选择作用的概率；

A(o_t,z_t)—加速参数更新的参数；

H(γ_θ(·|o_t))—状态s_t下策略π_θ的熵；

β—控制勘探程度的熵权。