CN114170560A

CN114170560A - 一种基于深度强化学习的多设备边缘视频分析系统

Info

Publication number: CN114170560A
Application number: CN202210116789.1A
Authority: CN
Inventors: 王朔遥; 毕宿志; 杨俊彦
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2022-02-08
Filing date: 2022-02-08
Publication date: 2022-03-11
Anticipated expiration: 2042-02-08
Also published as: CN114170560B

Abstract

本发明涉及计算机技术领域，具体涉及一种基于深度强化学习的多设备边缘视频分析系统。该系统包括边缘服务器以及与所述边缘服务器通信连接的多移动设备；所述边缘服务器上部署有用于视频分析的深度学习模型，用于支持多分辨率输入的检测任务，所有移动设备共享一个无线上行链路用于向所述边缘服务器发送视频帧，所述边缘服务器上部署的深度学习模型用于对接收的视频帧进行视频分析，生成视频分析任务结果，所述移动设备用于通过无线下行链路下载所述视频分析任务结果。本发明具备在线联合退化自适应和通信资源分配，在边缘视频分析任务中缺少实时GT时使用模型输出的置信度近似表示视频分析准确度，同时采用n‑step奖励保证训练的稳定性。

Description

一种基于深度强化学习的多设备边缘视频分析系统

技术领域

本发明涉及计算机技术领域，具体涉及一种基于深度强化学习的多设备边缘视频分析系统。

背景技术

近年来，公共安全和交通基础设施设备的数量迅速增加。自动送货车和无人机之类的智能设备，在实时分析拍摄的视频来捕获暴力检测、交通监控、自动驾驶等方面有着广泛的应用。由于计算资源和电池容量的限制，这些资源受限的移动设备(Mobile Device,MD)需要将视频发送到远程服务器，以运行繁重的深度学习推理模型。在云端进行大规模的数据传输和处理会导致极高的端到端延迟，制约了实时边缘视频分析的应用。

随着移动边缘计算(Mobile Edge Computing, MEC)技术的发展，为高延迟视频分析系统提出了全新的解决方案。通过卸载深度学习推理任务到边缘服务器(EdgeServer)上，可以显著降低MD的硬件需求，并缓解视频数据上传到云端的传输延迟。但是，由于MD与边缘服务器之间的带宽有限且高动态，这导致视频在上传到边缘服务器进行分析处理时，依然面临不可忽略且高动态的传输延迟。因此，国内外的许多研究努力致力于通过有效的计算卸载来实现准确性和延迟之间的权衡。

近年来，有学者研究了联合分辨率退化自适应和计算资源分配问题，以在精度和延迟约束下最大限度地支持MD的数量；有学者研究如何实现大规模系统，并提出了一种通过结合自适应视频退化和无线电资源分配来实现能源效率最大化的视频分析系统。然而，联合退化自适应和计算资源分配问题涉及到求解混合整数非线性规划(Mixed IntegerNon-LinearProgramming，MINLP)的问题。解决这类问题通常需要极高的计算复杂度。此外，这些方法都依赖于统计模型或离线训练。当系统参数发生变化时（如内容变化的检测精度等），MINLP通常需要重新制定和求解。因此，在一个高度动态的视频分析系统中实现基于统计模型或离线训练的优化算法成本过高。

另一方面，随着强化学习算法的快速发展，为高度动态的视频分析系统提供了新的可能。具体地，联合退化自适应和计算资源分配问题可以描述为一个马尔科夫决策问题(Markov Decision Process, MDP)，并且可以通过强化学习实现退化自适应和计算资源分配端到端的联合优化。

本发明通过预实验分析了一般的视频分析任务和边缘视频分析任务的三个明显的区别：1）时间相关性：在一个时间段内序列帧的推理精度是强相关的；2）时间差异性：随着视频时间的推移，视频分析的精准度会根据时间的推移产生变化；3）内容退化敏感性：在整个视频中，视频帧的分析精度对于视频压缩的敏感程度有所区别，因此对不敏感的视频帧，可以在不影响视频分析精度的情况下，对视频帧进退化，然后分流到边缘进行视频分析任务以减少通信和计算延迟。

因此，面向高动态网络的实时视频分析算法，当前计算卸载或基于离线训练的视频分析算法的相关工作面临以下挑战：

1）缺少对视频退化率与分析精度之间的时变性的考虑；

2）实时真实值(Ground Truth, GT)的缺失；

3）在边缘视频分析中，由于退化决策通常是非线性的，这导致的二进制取值的计算分流算法对于样本有效率较低。

发明内容

为解决上述技术问题，本发明提供了一种基于深度强化学习的多设备边缘视频分析系统。

为实现上述目的，本发明实施例提供了如下的技术方案：

第一方面，在本发明提供的一个实施例中，提供了一种基于深度强化学习的多设备边缘视频分析系统，包括边缘服务器以及与所述边缘服务器通信连接的多移动设备；

所述边缘服务器上部署有用于视频分析的深度学习模型，用于支持多分辨率输入的检测任务，所有移动设备共享一个无线上行链路用于向所述边缘服务器发送视频帧，所述边缘服务器上部署的深度学习模型用于对接收的视频帧进行视频分析，生成视频分析任务结果，所述移动设备用于通过无线下行链路下载所述视频分析任务结果。

在本发明提供的一些实施例中，每个所述移动设备都由单天线与所述边缘服务器进行通信。

在本发明提供的一些实施例中，基于边缘服务器的实时视频分析任务包括本地退化、帧卸载、边缘处理和结果提交四个步骤；其中，所述本地退化为每个移动设备在传输视频帧之前先对视频帧进行分辨率压缩处理；所述帧卸载为在视频帧进行分辨率压缩处理之后通过无线上行链路卸载到边缘服务器；所述边缘处理为在边缘服务器接收到视频帧之后，边缘服务器使用预训练的深度学习模型进行视频分析任务；所述结果提交为边缘服务器通过无线下行链路将识别的结果下载到移动设备。

在本发明提供的一些实施例中，所述边缘服务器的深度学习模型在进行视频分析任务时，还用于实时获取检测的置信度

，并作为视频分析准确度的近似代替。

在本发明提供的一些实施例中，在所述多设备边缘视频分析系统中，还包括通过一个实时顺序决策的MDP问题描述多目标优化，优化目标的最优决策为一个MDP的解，所述MDP问题定义为一个元组：

, 其中

表示状态、

表示决策、

表示转移概率、

表示回报、

表示折扣因子。

在本发明提供的一些实施例中，所述多设备边缘视频分析系统还用于做出离散取值的分辨率压缩率和连续取值的带宽分配的最优决策，并命名为DBAG算法，所述DBAG算法中使用Transformer层作为Actor网络和Critic网络的网络主干，以捕获多尺度的时间依赖关系。

在本发明提供的一些实施例中，所述DBAG算法在Actor模块中采用了一层嵌入层、一层Transformer层、一层全连接层，在Critic模块中采用了两层嵌入层、一层Transformer层、一层全连接层。

在本发明提供的一些实施例中，所述边缘服务器使用YOLOv5模型构建视频分析的应用程序，所述多设备边缘视频分析系统中还包括两个视频分析数据集以验证提出的模型的有效性，两个视频分析数据集为无人机视图数据集Vis- Drone2019和城市道路驾驶数据集SelfDriving。

在本发明提供的一些实施例中，所述DBAG算法包括行动者模块、环境模块、经验回放模块以及评论家模块四部分，所述行动者模块通过观察环境模块信息

，并计算得当前的环境模块状态

，将环境模块状态输入行动者模块深度神经网络中，产生当前的帧退化决策

，在

固定的情况下，通过无线网络模型建立求解最优带宽分配的凸优化数学模型，行动者模块网络和凸优化求解程序联合构建了DBAG中的行动者模块，基于输入环境模块状态

，生成当前的帧退化和频谱分配决策

；

所述环境模块用于边缘视频分析系统根据所计算

调整移动设备退化率、上行频谱分配方案，并将边缘推理结果反馈至边缘设备，根据所采集的当前回报

，形成新的训练样本

；

所述经验回放模块用于边缘视频分析系统将最新采集的训练样本

存入经验回放模块内存，当回放内存所存样本数大于256时，分析系统随机采样256个样本，对评论家模块网络进行训练、更新网络参数；

所述评论家模块用于利用当前参数下的评论家模块网络，对行动者模块网络进行训练，以求得到一个新的策略

，最大化

。

在本发明提供的一些实施例中，所述行动者模块包括离散的视频帧分辨率压缩决策和连续的无线带宽分配决策两部分，所述离散视频帧分辨率压缩决策以

为输入，返回视频帧分辨率压缩决策

；所述连续无线带宽分配决策，即凸优化器，以

作为输入，并返回带宽分配决策

；

所述评论家模块使用n-步状态值，根据n-步贝尔曼残缺进行评论家模块网络的学习。

本发明提供的技术方案，具有如下有益效果：

本发明的基于深度强化学习的多设备边缘视频分析系统，具备在线联合退化自适应和通信资源分配，设计一种在线的联合优化多设备视频分析系统的视频退化和带宽分配算法，实现保证较高推理精度的情况下，大大降低数据的传输和处理时延，提升系统的实时反应能力；

本发明在边缘视频分析任务中缺少实时GT时使用模型输出的置信度近似表示视频分析准确度，同时采用n-step奖励保证训练的稳定性，通过n-step奖励平滑由于近似表示所引入的噪声；

本发明结合最优化方法的深度强化学习算法，对双重决策进行拆解，降低算法复杂度的同时解决样本效率较低的问题，具有更高的样本效率以及收敛速度。本发明适用于自动驾驶领域、无人机领域以及安全监控领域。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的一种基于深度强化学习的多设备边缘视频分析系统的系统示意图。

图2为本发明一个实施例中基于深度强化学习的多设备边缘视频分析系统中DBAG算法的整体网络结构示意图。

图3为本发明一个实施例中基于深度强化学习的多设备边缘视频分析系统中SAC与DBAG-wo、DBAG对比减少延迟时间的示意图。

图4为本发明一个实施例中基于深度强化学习的多设备边缘视频分析系统中SAC与DBAG-wo、DBAG对比提高视频分析准确度的示意图。

图5为本发明一个实施例中电子设备的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1为本发明提供的一种基于深度强化学习的多设备边缘视频分析系统的系统示意图。

参阅图1所示，本发明提供的一种基于深度强化学习的多设备边缘视频分析系统，包括边缘服务器以及与所述边缘服务器通信连接的多移动设备。

如图1所示，本发明的一个多移动设备(Mobile Device, MD)的边缘视频分析系统，边缘服务器与每个移动设备都由单天线进行通信。由于移动设备的计算资源和电池容量有限，将视频分析模型部署在边缘服务器上，支持多分辨率输入的检测任务。所有移动设备共享一个有限的上行链路来不断向边缘服务器发送视频帧，并在边缘服务器上完成视频分析任务。

具体地，深度学习模型可表述为本地退化、帧卸载、边缘处理和结果提交四个步骤。

（1）本地退化：为了减少数据卸载的通信开销，每个移动设备在传输视频帧之前先对帧进行分辨率压缩处理。本文采用高斯金字塔法对图像分辨率进行压缩。

（2）帧卸载：视频帧在移动设备进行分辨率压缩处理之后将通过无线上行链路卸载到边缘服务器。

（3）边缘处理：在边缘服务器接收到视频帧之后，边缘服务器使用预训练的深度学习模型进行视频分析任务。

（4）结果提交：在边缘服务器完成视频分析之后，通过无线下行链路将识别的结果下载到移动设备。

在本发明实施例的多设备边缘视频分析系统中，本发明的目标是最小化总体服务延迟和最大化移动设备的视频分析准确度。为了刻画分析准确度---服务延迟的权衡，本发明引入了一个正实数

刻画服务延迟和推理准确度之间的偏好。

基于上述系统模型，本发明采用长期加权求和将带宽分配和退化适应问题表述为以下多目标优化问题(P1)：

其中，

表示在所有移动设备在时刻

的带宽分配，

表示在所有移动设备在时刻

的上传卸载的视频帧分辨率，

表示MD个数，

表示系统运行的总时长，且趋于无穷大。

表示边缘视频分析的准确度，

分别表示视频帧分辨率压缩耗时、视频帧上传卸载耗时、视频帧进行视频分析处理耗时。

由于优化目标都是动态变化的，求解上述目标函数存在一定困难。因此，本发明进一步将上述优化目标描述成一个步序决策的MDP问题，并且使其能够捕捉不同视频帧之间的视频分析准确度的时间依赖关系；能够在线自动拟合对于每个移动设备的视频帧分辨率压缩耗时和视频分析处理耗时；并解决没有实时GT的问题。由于没有实时GT，因此上述优化目标中的边缘视频分析的准确度无法实时获取。但是，现有的视频分析模型的输出是一个包含识别对象边界坐标和置信度的集合，因此，本发明在进行视频分析任务时可以实时获取检测的置信度

，并作为视频分析准确度的近似代替。

将上述优化目标描述成一个实时顺序决策的MDP问题之后，最优决策被表述为一个MDP的解。一般地，MDP问题可以定义为一个元组：

，其中

表示状态、

表示决策、

表示转移概率、

表示回报、

表示折扣因子。对于本发明的系统，在

时刻，边缘视频分析系统根据过去一段时间的无线信道条件和过去一段时间的决策，决定在

时刻的退化和带宽分配决策；反过来，在

时刻的退化和带宽分配决策会影响未来的边缘服务器处理的时间和视频分析的准确率。

在本发明实施例中，所述MDP问题定义为一个元组：

, 其中

表示状态、

表示决策、

表示转移概率、

表示回报、

表示折扣因子，其中：

（1）状态（

）：采用6项系统观测信息组成决策---观测对，6项系统观测信息包括上一次视频分析的置信度、上一时刻所记录的三种延迟、当前的信道增益、上一时刻的决策。

然后，使用之前记录的

个决策---观测对作为当前时刻的状态：

。

（2）决策

：在

时刻，系统决策得到离散取值的分辨率压缩率和连续取值的带宽分配决策：

（3）回报

：由于实时的GT很难在线获取，使得实时视频分析准确度无法在线实时计算得到，本发明将

时刻的奖励函数表示为

时刻的分析置信度和推理延迟之间的差值：

（4）优化目标和折扣因子（

）：本发明的视频分析系统旨在找到最优的策略

去解决转化的MDP问题 (P2)：

其中

分别表示初始状态，将状态映射到行为的策略，平衡即时和未来奖励的折扣因素。

在本实施例中，对本发明的一种基于深度强化学习的多设备边缘视频分析系统进行了数学建模，并且提出了基于深度强化学习（Deep Reinforcement Learning）的多设备边缘视频分析系统，使得系统可以做出离散取值的分辨率压缩率和连续取值的带宽分配的最优决策，并命名为DBAG算法。

参见图2所示，图2为所述DBAG算法的整体网络结构示意图。

所述DBAG算法包括行动者模块、环境模块、经验回放模块以及评论家模块四部分。所述DBAG算法的流程如下：

1）行动者模块：所述行动者模块通过观察环境模块信息

，并计算得当前的环境模块状态

。将环境模块状态输入行动者模块深度神经网络中，产生当前的帧退化决策

。在

固定的情况下，通过无线网络模型建立求解最优带宽分配的凸优化数学模型，即本发明用

来表示确定系统状态

和退化决策

时，优化问题(P2)的最优解。求解(P2)等价于找到t时刻的最优退化决策：

总体而言，行动者模块网络和凸优化求解程序联合构建了DBAG中的行动者模块，基于输入环境模块状态

，生成当前的帧退化和频谱分配决策

。

2）环境模块：边缘视频分析系统根据所计算

调整移动设备退化率、上行频谱分配方案，并将边缘推理结果反馈至边缘设备。根据所采集的当前回报

，形成新的训练样本

。

3）经验回放模块：边缘视频分析系统将最新采集的训练样本

存入经验回放模块内存。当回放内存所存样本数大于256时，分析系统随机采样256个样本，对评论家模块网络进行训练、更新网络参数。

4）评论家模块：利用当前参数下的评论家模块网络，对行动者模块网络进行训练，以求得到一个新的策略

。

具体地，所提出的DBAG算法中核心模块为行动者模块和评论家模块。受最近成功的Transformer架构的启发，本发明使用Transformer层作为Actor网络和Critic网络的网络主干，以捕获多尺度的时间依赖关系。Transformer采用一系列一维的标记嵌入作为输入，并利用了一个可训练线性投影。

参见图2所示，所述行动者模块包括离散的视频帧分辨率压缩决策和连续的无线带宽分配决策两部分。离散视频帧分辨率压缩决策以

为输入，返回视频帧分辨率压缩决策

；连续无线带宽分配决策，即凸优化器，以

作为输入，并返回带宽分配决策

。

所述评论家模块由于检测的置信度只能间接反应视频分析的准确程度，而不是完全可代替视频分析的准确度作为性能评判标准，并且置信度本身存在一定的噪声。因此，评论家模块使用n-步状态值，根据n-步贝尔曼残缺进行评论家模块网络的学习。

在本发明的基于深度强化学习的多设备边缘视频分析系统中，在边缘服务器使用YOLOv5模型构建视频分析的应用程序；本发明选用了两个视频分析数据集，即无人机视图数据集Vis- Drone2019和城市道路驾驶数据集SelfDriving。提出的DBAG算法在Actor模块中采用了一层嵌入层、一层Transformer层、一层全连接层；在Critic模块中采用了两层嵌入层、一层Transformer层、一层全连接层。

本发明实施例通过上述两个数据集上进行实验证明了本发明所提出的模型的有效性。本发明进行性能对比的方法有：

一、DBAG-wo（DBAG without Decomposition）：该系统SAC框架来估计状态函数，并找到退化适应和带宽分配决策，以最大限度地扩大所定义的回报。不同设备数下的性能比较结构参见图3和图4所示。

如图3和图4所示，在SelfDriving数据集上，本发明对比了在给定延迟惩罚系数

的前提下，不同MD个数情况下的性能对比。图3和图4分别展示了视频分析准确度和端到端延迟的性能对比。如图3所示，与SAC对比，DBAG-wo和DBAG分别减少了23.51%和25.45%的延迟时间；如图4所示，与SAC对比，DBAG-wo和DBAG分别提高了13.32%和14.64%的视频分析准确度；根据本发明进一步观察得到，当设备数量N增加时，DBAG与对比系统之间的性能差距增大，即从0.3%的综合性能提升增长到42.5%的性能提升。此外，本发明还观察到，当移动设备数目为1时，DBAG-wo算法和DBAG算法的视频分析准确率和延迟基本相同。这是因为当数字为1时，带宽分配策略是直观的，因此DBAG-wo和DBAG算法学习相同的退化适应策略，直到有一定的随机性。当移动设备数目越大时，无线上行链路越拥挤，对时延的影响也越大。由于无线网络的模型信息，DBAG利用模型信息获得准确的带宽分配，从而实现了较低的延迟。

参见图5所示，本发明进行了消融研究实验，本发明从DBAG中移除每一个单一关键设计，产生四种消融实验变体，即将Transformer层替换为MLP层(Transformer-wo)、行动空间分解(Decomp-wo)、用贪婪策略代替MDP建模(

)、用1步奖励代替3步奖励(1-Step)。经过实验观察到，对于Transformer-wo、Decomp-wo、

、1-Step四种变体的性能损失分别为：5.5%、3.6%、1.1%、0.9%。主要分析总结如下：1)对

和n-Step回报的消融研究证实，MDP公式的长期目标提高了帧时间差异和内容敏感退化的估计，允许系统在未来做出更好的决策。2)决策分解的消融研究表明，该方法利用通信系统的模型信息获得带宽分配，具有更高的采样效率和鲁棒性。3)对Transformer层的消融研究验证了捕获的多尺度时间相关性有助于状态特征提取，从而从机器学习的角度进行更好的决策。

综上所述，本发明的基于深度强化学习的多设备边缘视频分析系统，具备在线联合退化自适应和通信资源分配，设计一种在线的联合优化多设备视频分析系统的视频退化和带宽分配算法，实现保证较高推理精度的情况下，大大降低数据的传输和处理时延，提升系统的实时反应能力；

本发明结合最优化方法的深度强化学习算法，对双重决策进行拆解，降低算法复杂度的同时解决样本效率较低的问题，具有更高的样本效率以及收敛速度。

另外，现如今，自动驾驶技术的发展日益火热。自动驾驶过程中，车机系统先通过摄像头拍照，再进行视频分析、视频分析等技术来判断车辆运行过程中的周围环境模块状况。而，目标检测、物体识别等任务对计算能力的要求巨大，通常需要对任务进行卸载分流到边缘服务器进行，因此，本发明十分适用于自动驾驶领域。

现如今，我国无人机技术处于世界领先地位，这得益于优秀的视频分析、视频分析识别系统，使得无人机在执行飞行任务时能很好的识别周围环境模块，保证飞行安全等。因此，本发明同样适用于无人机领域。

而且，道路、小区安全监控设备日益普及，但是这些设备本地计算能力十分有限，而分析和识别任务通常上传到边缘服务器进行分析识别，以保障社会安全。因此，本发明同样适用于安全监控领域。

因此，本发明适用于自动驾驶领域、无人机领域以及安全监控领域。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的多设备边缘视频分析系统，其特征在于，包括边缘服务器以及与所述边缘服务器通信连接的多移动设备；

2.如权利要求1所述的基于深度强化学习的多设备边缘视频分析系统，其特征在于，每个所述移动设备都由单天线与所述边缘服务器进行通信。

3.如权利要求1或2所述的基于深度强化学习的多设备边缘视频分析系统，其特征在于，基于边缘服务器的实时视频分析任务包括本地退化、帧卸载、边缘处理和结果提交四个步骤；

所述本地退化为每个移动设备在传输视频帧之前先对视频帧进行分辨率压缩处理；所述帧卸载为在视频帧进行分辨率压缩处理之后通过无线上行链路卸载到边缘服务器；所述边缘处理为在边缘服务器接收到视频帧之后，边缘服务器使用预训练的深度学习模型进行视频分析任务；所述结果提交为边缘服务器通过无线下行链路将识别的结果下载到移动设备。

4.如权利要求3所述的基于深度强化学习的多设备边缘视频分析系统，其特征在于，边缘服务器的深度学习模型在进行视频分析任务时，还用于实时获取检测的置信度

，并作为视频分析准确度的近似代替。

5.如权利要求1所述的基于深度强化学习的多设备边缘视频分析系统，其特征在于，在所述多设备边缘视频分析系统中，还包括通过一个实时顺序决策的MDP问题描述多目标优化，优化目标的最优决策为一个MDP的解，所述MDP问题定义为一个元组：

, 其中

表示状态、

表示决策、

表示转移概率、

表示回报、

表示折扣因子。

6.如权利要求5所述的基于深度强化学习的多设备边缘视频分析系统，其特征在于，所述多设备边缘视频分析系统还用于做出离散取值的分辨率压缩率和连续取值的带宽分配的最优决策，并命名为DBAG算法，所述DBAG算法中使用Transformer层作为Actor网络和Critic网络的网络主干，以捕获多尺度的时间依赖关系。

7.如权利要求6所述的基于深度强化学习的多设备边缘视频分析系统，其特征在于，所述DBAG算法在Actor模块中采用了一层嵌入层、一层Transformer层、一层全连接层，在Critic模块中采用了两层嵌入层、一层Transformer层、一层全连接层。

8.如权利要求1或7所述的基于深度强化学习的多设备边缘视频分析系统，其特征在于，所述边缘服务器使用YOLOv5模型构建视频分析的应用程序，所述多设备边缘视频分析系统中还包括两个视频分析数据集以验证提出的模型的有效性，两个视频分析数据集为无人机视图数据集Vis- Drone2019和城市道路驾驶数据集SelfDriving。

9.如权利要求7所述的基于深度强化学习的多设备边缘视频分析系统，其特征在于，所述DBAG算法包括行动者模块、环境模块、经验回放模块以及评论家模块四部分；

所述行动者模块通过观察环境模块信息