CN114170560A - 一种基于深度强化学习的多设备边缘视频分析系统 - Google Patents

一种基于深度强化学习的多设备边缘视频分析系统 Download PDF

Info

Publication number
CN114170560A
CN114170560A CN202210116789.1A CN202210116789A CN114170560A CN 114170560 A CN114170560 A CN 114170560A CN 202210116789 A CN202210116789 A CN 202210116789A CN 114170560 A CN114170560 A CN 114170560A
Authority
CN
China
Prior art keywords
video analysis
edge
module
video
analysis system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210116789.1A
Other languages
English (en)
Other versions
CN114170560B (zh
Inventor
王朔遥
毕宿志
杨俊彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202210116789.1A priority Critical patent/CN114170560B/zh
Publication of CN114170560A publication Critical patent/CN114170560A/zh
Application granted granted Critical
Publication of CN114170560B publication Critical patent/CN114170560B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及计算机技术领域,具体涉及一种基于深度强化学习的多设备边缘视频分析系统。该系统包括边缘服务器以及与所述边缘服务器通信连接的多移动设备;所述边缘服务器上部署有用于视频分析的深度学习模型,用于支持多分辨率输入的检测任务,所有移动设备共享一个无线上行链路用于向所述边缘服务器发送视频帧,所述边缘服务器上部署的深度学习模型用于对接收的视频帧进行视频分析,生成视频分析任务结果,所述移动设备用于通过无线下行链路下载所述视频分析任务结果。本发明具备在线联合退化自适应和通信资源分配,在边缘视频分析任务中缺少实时GT时使用模型输出的置信度近似表示视频分析准确度,同时采用n‑step奖励保证训练的稳定性。

Description

一种基于深度强化学习的多设备边缘视频分析系统
技术领域
本发明涉及计算机技术领域,具体涉及一种基于深度强化学习的多设备边缘视频分析系统。
背景技术
近年来,公共安全和交通基础设施设备的数量迅速增加。自动送货车和无人机之类的智能设备,在实时分析拍摄的视频来捕获暴力检测、交通监控、自动驾驶等方面有着广泛的应用。由于计算资源和电池容量的限制,这些资源受限的移动设备(Mobile Device,MD)需要将视频发送到远程服务器,以运行繁重的深度学习推理模型。在云端进行大规模的数据传输和处理会导致极高的端到端延迟,制约了实时边缘视频分析的应用。
随着移动边缘计算(Mobile Edge Computing, MEC)技术的发展,为高延迟视频分析系统提出了全新的解决方案。通过卸载深度学习推理任务到边缘服务器(EdgeServer)上,可以显著降低MD的硬件需求,并缓解视频数据上传到云端的传输延迟。但是,由于MD与边缘服务器之间的带宽有限且高动态,这导致视频在上传到边缘服务器进行分析处理时,依然面临不可忽略且高动态的传输延迟。因此,国内外的许多研究努力致力于通过有效的计算卸载来实现准确性和延迟之间的权衡。
近年来,有学者研究了联合分辨率退化自适应和计算资源分配问题,以在精度和延迟约束下最大限度地支持MD的数量;有学者研究如何实现大规模系统,并提出了一种通过结合自适应视频退化和无线电资源分配来实现能源效率最大化的视频分析系统。然而,联合退化自适应和计算资源分配问题涉及到求解混合整数非线性规划(Mixed IntegerNon-LinearProgramming,MINLP)的问题。解决这类问题通常需要极高的计算复杂度。此外,这些方法都依赖于统计模型或离线训练。当系统参数发生变化时(如内容变化的检测精度等),MINLP通常需要重新制定和求解。因此,在一个高度动态的视频分析系统中实现基于统计模型或离线训练的优化算法成本过高。
另一方面,随着强化学习算法的快速发展,为高度动态的视频分析系统提供了新的可能。具体地,联合退化自适应和计算资源分配问题可以描述为一个马尔科夫决策问题(Markov Decision Process, MDP),并且可以通过强化学习实现退化自适应和计算资源分配端到端的联合优化。
本发明通过预实验分析了一般的视频分析任务和边缘视频分析任务的三个明显的区别:1)时间相关性:在一个时间段内序列帧的推理精度是强相关的;2)时间差异性:随着视频时间的推移,视频分析的精准度会根据时间的推移产生变化;3)内容退化敏感性:在整个视频中,视频帧的分析精度对于视频压缩的敏感程度有所区别,因此对不敏感的视频帧,可以在不影响视频分析精度的情况下,对视频帧进退化,然后分流到边缘进行视频分析任务以减少通信和计算延迟。
因此,面向高动态网络的实时视频分析算法,当前计算卸载或基于离线训练的视频分析算法的相关工作面临以下挑战:
1)缺少对视频退化率与分析精度之间的时变性的考虑;
2)实时真实值(Ground Truth, GT)的缺失;
3)在边缘视频分析中,由于退化决策通常是非线性的,这导致的二进制取值的计算分流算法对于样本有效率较低。
发明内容
为解决上述技术问题,本发明提供了一种基于深度强化学习的多设备边缘视频分析系统。
为实现上述目的,本发明实施例提供了如下的技术方案:
第一方面,在本发明提供的一个实施例中,提供了一种基于深度强化学习的多设备边缘视频分析系统,包括边缘服务器以及与所述边缘服务器通信连接的多移动设备;
所述边缘服务器上部署有用于视频分析的深度学习模型,用于支持多分辨率输入的检测任务,所有移动设备共享一个无线上行链路用于向所述边缘服务器发送视频帧,所述边缘服务器上部署的深度学习模型用于对接收的视频帧进行视频分析,生成视频分析任务结果,所述移动设备用于通过无线下行链路下载所述视频分析任务结果。
在本发明提供的一些实施例中,每个所述移动设备都由单天线与所述边缘服务器进行通信。
在本发明提供的一些实施例中,基于边缘服务器的实时视频分析任务包括本地退化、帧卸载、边缘处理和结果提交四个步骤;其中,所述本地退化为每个移动设备在传输视频帧之前先对视频帧进行分辨率压缩处理;所述帧卸载为在视频帧进行分辨率压缩处理之后通过无线上行链路卸载到边缘服务器;所述边缘处理为在边缘服务器接收到视频帧之后,边缘服务器使用预训练的深度学习模型进行视频分析任务;所述结果提交为边缘服务器通过无线下行链路将识别的结果下载到移动设备。
在本发明提供的一些实施例中,所述边缘服务器的深度学习模型在进行视频分析任务时,还用于实时获取检测的置信度
Figure 2386DEST_PATH_IMAGE001
,并作为视频分析准确度的近似代替。
在本发明提供的一些实施例中,在所述多设备边缘视频分析系统中,还包括通过一个实时顺序决策的MDP问题描述多目标优化,优化目标的最优决策为一个MDP的解,所述MDP问题定义为一个元组:
Figure 457638DEST_PATH_IMAGE002
, 其中
Figure DEST_PATH_IMAGE003
表示状态、
Figure 836754DEST_PATH_IMAGE004
表示决策、
Figure DEST_PATH_IMAGE005
表示转移概率、
Figure 402865DEST_PATH_IMAGE006
表示回报、
Figure DEST_PATH_IMAGE007
表示折扣因子。
在本发明提供的一些实施例中,所述多设备边缘视频分析系统还用于做出离散取值的分辨率压缩率和连续取值的带宽分配的最优决策,并命名为DBAG算法,所述DBAG算法中使用Transformer层作为Actor网络和Critic网络的网络主干,以捕获多尺度的时间依赖关系。
在本发明提供的一些实施例中,所述DBAG算法在Actor模块中采用了一层嵌入层、一层Transformer层、一层全连接层,在Critic模块中采用了两层嵌入层、一层Transformer层、一层全连接层。
在本发明提供的一些实施例中,所述边缘服务器使用YOLOv5模型构建视频分析的应用程序,所述多设备边缘视频分析系统中还包括两个视频分析数据集以验证提出的模型的有效性,两个视频分析数据集为无人机视图数据集Vis- Drone2019和城市道路驾驶数据集SelfDriving。
在本发明提供的一些实施例中,所述DBAG算法包括行动者模块、环境模块、经验回放模块以及评论家模块四部分,所述行动者模块通过观察环境模块信息
Figure 438954DEST_PATH_IMAGE008
,并计算得当前的环境模块状态
Figure DEST_PATH_IMAGE009
,将环境模块状态输入行动者模块深度神经网络中,产生当前的帧退化决策
Figure 81419DEST_PATH_IMAGE010
,在
Figure DEST_PATH_IMAGE011
固定的情况下,通过无线网络模型建立求解最优带宽分配的凸优化数学模型,行动者模块网络和凸优化求解程序联合构建了DBAG中的行动者模块,基于输入环境模块状态
Figure 468538DEST_PATH_IMAGE009
, 生成当前的帧退化和频谱分配决策
Figure 572760DEST_PATH_IMAGE012
所述环境模块用于边缘视频分析系统根据所计算
Figure DEST_PATH_IMAGE013
调整移动设备退化率、上行频谱分配方案,并将边缘推理结果反馈至边缘设备,根据所采集的当前回报
Figure 479668DEST_PATH_IMAGE014
,形成新的训练样本
Figure DEST_PATH_IMAGE015
所述经验回放模块用于边缘视频分析系统将最新采集的训练样本
Figure 276722DEST_PATH_IMAGE016
存入经验回放模块内存,当回放内存所存样本数大于256时,分析系统随机采样256个样本,对评论家模块网络进行训练、更新网络参数;
所述评论家模块用于利用当前参数下的评论家模块网络,对行动者模块网络进行训练,以求得到一个新的策略
Figure DEST_PATH_IMAGE017
,最大化
Figure 885558DEST_PATH_IMAGE018
在本发明提供的一些实施例中,所述行动者模块包括离散的视频帧分辨率压缩决策和连续的无线带宽分配决策两部分,所述离散视频帧分辨率压缩决策以
Figure 809783DEST_PATH_IMAGE009
为输入,返回视频帧分辨率压缩决策
Figure 820464DEST_PATH_IMAGE010
;所述连续无线带宽分配决策,即凸优化器,以
Figure DEST_PATH_IMAGE019
作为输入,并返回带宽分配决策
Figure 788420DEST_PATH_IMAGE020
所述评论家模块使用n-步状态值,根据n-步贝尔曼残缺进行评论家模块网络的学习。
本发明提供的技术方案,具有如下有益效果:
本发明的基于深度强化学习的多设备边缘视频分析系统,具备在线联合退化自适应和通信资源分配,设计一种在线的联合优化多设备视频分析系统的视频退化和带宽分配算法,实现保证较高推理精度的情况下,大大降低数据的传输和处理时延,提升系统的实时反应能力;
本发明在边缘视频分析任务中缺少实时GT时使用模型输出的置信度近似表示视频分析准确度,同时采用n-step奖励保证训练的稳定性,通过n-step奖励平滑由于近似表示所引入的噪声;
本发明结合最优化方法的深度强化学习算法,对双重决策进行拆解,降低算法复杂度的同时解决样本效率较低的问题,具有更高的样本效率以及收敛速度。本发明适用于自动驾驶领域、无人机领域以及安全监控领域。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的一种基于深度强化学习的多设备边缘视频分析系统的系统示意图。
图2为本发明一个实施例中基于深度强化学习的多设备边缘视频分析系统中DBAG算法的整体网络结构示意图。
图3为本发明一个实施例中基于深度强化学习的多设备边缘视频分析系统中SAC与DBAG-wo、DBAG对比减少延迟时间的示意图。
图4为本发明一个实施例中基于深度强化学习的多设备边缘视频分析系统中SAC与DBAG-wo、DBAG对比提高视频分析准确度的示意图。
图5为本发明一个实施例中电子设备的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1为本发明提供的一种基于深度强化学习的多设备边缘视频分析系统的系统示意图。
参阅图1所示,本发明提供的一种基于深度强化学习的多设备边缘视频分析系统,包括边缘服务器以及与所述边缘服务器通信连接的多移动设备。
所述边缘服务器上部署有用于视频分析的深度学习模型,用于支持多分辨率输入的检测任务,所有移动设备共享一个无线上行链路用于向所述边缘服务器发送视频帧,所述边缘服务器上部署的深度学习模型用于对接收的视频帧进行视频分析,生成视频分析任务结果,所述移动设备用于通过无线下行链路下载所述视频分析任务结果。
如图1所示,本发明的一个多移动设备(Mobile Device, MD)的边缘视频分析系统,边缘服务器与每个移动设备都由单天线进行通信。由于移动设备的计算资源和电池容量有限,将视频分析模型部署在边缘服务器上,支持多分辨率输入的检测任务。所有移动设备共享一个有限的上行链路来不断向边缘服务器发送视频帧,并在边缘服务器上完成视频分析任务。
具体地,深度学习模型可表述为本地退化、帧卸载、边缘处理和结果提交四个步骤。
(1)本地退化:为了减少数据卸载的通信开销,每个移动设备在传输视频帧之前先对帧进行分辨率压缩处理。本文采用高斯金字塔法对图像分辨率进行压缩。
(2)帧卸载:视频帧在移动设备进行分辨率压缩处理之后将通过无线上行链路卸载到边缘服务器。
(3)边缘处理:在边缘服务器接收到视频帧之后,边缘服务器使用预训练的深度学习模型进行视频分析任务。
(4)结果提交:在边缘服务器完成视频分析之后,通过无线下行链路将识别的结果下载到移动设备。
在本发明实施例的多设备边缘视频分析系统中,本发明的目标是最小化总体服务延迟和最大化移动设备的视频分析准确度。为了刻画分析准确度---服务延迟的权衡,本发明引入了一个正实数
Figure 884552DEST_PATH_IMAGE022
刻画服务延迟和推理准确度之间的偏好。
基于上述系统模型,本发明采用长期加权求和将带宽分配和退化适应问题表述为以下多目标优化问题(P1):
Figure DEST_PATH_IMAGE023
其中,
Figure 122325DEST_PATH_IMAGE024
表示在所有移动设备在时刻
Figure 253092DEST_PATH_IMAGE025
的带宽分配,
Figure 391950DEST_PATH_IMAGE026
表示在所有移动设备在时刻
Figure 975378DEST_PATH_IMAGE025
的上传卸载的视频帧分辨率,
Figure 225093DEST_PATH_IMAGE027
表示MD个数,
Figure 210367DEST_PATH_IMAGE028
表示系统运行的总时长,且趋于无穷大。
Figure 5279DEST_PATH_IMAGE029
表示边缘视频分析的准确度,
Figure 76003DEST_PATH_IMAGE030
分别表示视频帧分辨率压缩耗时、视频帧上传卸载耗时、视频帧进行视频分析处理耗时。
由于优化目标都是动态变化的,求解上述目标函数存在一定困难。因此,本发明进一步将上述优化目标描述成一个步序决策的MDP问题,并且使其能够捕捉不同视频帧之间的视频分析准确度的时间依赖关系;能够在线自动拟合对于每个移动设备的视频帧分辨率压缩耗时和视频分析处理耗时;并解决没有实时GT的问题。由于没有实时GT,因此上述优化目标中的边缘视频分析的准确度无法实时获取。但是,现有的视频分析模型的输出是一个包含识别对象边界坐标和置信度的集合,因此,本发明在进行视频分析任务时可以实时获取检测的置信度
Figure 129410DEST_PATH_IMAGE031
,并作为视频分析准确度的近似代替。
将上述优化目标描述成一个实时顺序决策的MDP问题之后,最优决策被表述为一个MDP的解。一般地,MDP问题可以定义为一个元组:
Figure 969190DEST_PATH_IMAGE032
,其中
Figure 449849DEST_PATH_IMAGE033
表示状态、
Figure 758602DEST_PATH_IMAGE034
表示决策、
Figure 615700DEST_PATH_IMAGE035
表示转移概率、
Figure 309986DEST_PATH_IMAGE036
表示回报、
Figure 961547DEST_PATH_IMAGE037
表示折扣因子。对于本发明的系统,在
Figure 6864DEST_PATH_IMAGE025
时刻,边缘视频分析系统根据过去一段时间的无线信道条件和过去一段时间的决策,决定在
Figure 402073DEST_PATH_IMAGE025
时刻的退化和带宽分配决策;反过来,在
Figure 701599DEST_PATH_IMAGE025
时刻的退化和带宽分配决策会影响未来的边缘服务器处理的时间和视频分析的准确率。
在本发明实施例中,所述MDP问题定义为一个元组:
Figure 789640DEST_PATH_IMAGE032
, 其中
Figure 56674DEST_PATH_IMAGE033
表示状态、
Figure 989995DEST_PATH_IMAGE034
表示决策、
Figure 658873DEST_PATH_IMAGE038
表示转移概率、
Figure 917816DEST_PATH_IMAGE039
表示回报、
Figure 885860DEST_PATH_IMAGE037
表示折扣因子,其中:
(1)状态(
Figure 888451DEST_PATH_IMAGE040
):采用6项系统观测信息组成决策---观测对,6项系统观测信息包括上一次视频分析的置信度、上一时刻所记录的三种延迟、当前的信道增益、上一时刻的决策。
Figure 411837DEST_PATH_IMAGE041
然后,使用之前记录的
Figure 576102DEST_PATH_IMAGE042
个决策---观测对作为当前时刻的状态:
Figure 817727DEST_PATH_IMAGE043
(2)决策
Figure 358430DEST_PATH_IMAGE044
:在
Figure 752633DEST_PATH_IMAGE045
时刻,系统决策得到离散取值的分辨率压缩率和连续取值的带宽分配决策:
Figure 353379DEST_PATH_IMAGE046
(3)回报
Figure 816721DEST_PATH_IMAGE047
:由于实时的GT很难在线获取,使得实时视频分析准确度无法在线实时计算得到,本发明将
Figure 161115DEST_PATH_IMAGE045
时刻的奖励函数表示为
Figure 659092DEST_PATH_IMAGE045
时刻的分析置信度和推理延迟之间的差值:
Figure 165160DEST_PATH_IMAGE048
(4)优化目标和折扣因子(
Figure 132110DEST_PATH_IMAGE049
):本发明的视频分析系统旨在找到最优的策略
Figure 14616DEST_PATH_IMAGE050
去解决转化的MDP问题 (P2):
Figure 367099DEST_PATH_IMAGE051
其中
Figure 44068DEST_PATH_IMAGE052
分别表示初始状态,将状态映射到行为的策略,平衡即时和未来奖励的折扣因素。
在本实施例中,对本发明的一种基于深度强化学习的多设备边缘视频分析系统进行了数学建模,并且提出了基于深度强化学习(Deep Reinforcement Learning)的多设备边缘视频分析系统,使得系统可以做出离散取值的分辨率压缩率和连续取值的带宽分配的最优决策,并命名为DBAG算法。
参见图2所示,图2为所述DBAG算法的整体网络结构示意图。
所述DBAG算法包括行动者模块、环境模块、经验回放模块以及评论家模块四部分。所述DBAG算法的流程如下:
1)行动者模块:所述行动者模块通过观察环境模块信息
Figure 482003DEST_PATH_IMAGE053
,并计算得当前的环境模块状态
Figure 168199DEST_PATH_IMAGE054
。将环境模块状态输入行动者模块深度神经网络中,产生当前的帧退化决策
Figure 125922DEST_PATH_IMAGE055
。在
Figure 239372DEST_PATH_IMAGE055
固定的情况下,通过无线网络模型建立求解最优带宽分配的凸优化数学模型,即本发明用
Figure 164602DEST_PATH_IMAGE056
来表示确定系统状态
Figure 388910DEST_PATH_IMAGE057
和退化决策
Figure 715986DEST_PATH_IMAGE055
时,优化问题(P2)的最优解。求解(P2)等价于找到t时刻的最优退化决策:
Figure 745210DEST_PATH_IMAGE058
总体而言,行动者模块网络和凸优化求解程序联合构建了DBAG中的行动者模块,基于输入环境模块状态
Figure 892158DEST_PATH_IMAGE057
, 生成当前的帧退化和频谱分配决策
Figure 920157DEST_PATH_IMAGE059
2)环境模块:边缘视频分析系统根据所计算
Figure 101739DEST_PATH_IMAGE059
调整移动设备退化率、上行频谱分配方案,并将边缘推理结果反馈至边缘设备。根据所采集的当前回报
Figure 556991DEST_PATH_IMAGE060
,形成新的训练样本
Figure 456814DEST_PATH_IMAGE061
3)经验回放模块:边缘视频分析系统将最新采集的训练样本
Figure 508078DEST_PATH_IMAGE062
存入经验回放模块内存。当回放内存所存样本数大于256时,分析系统随机采样256个样本,对评论家模块网络进行训练、更新网络参数。
4)评论家模块:利用当前参数下的评论家模块网络,对行动者模块网络进行训练,以求得到一个新的策略
Figure 544167DEST_PATH_IMAGE063
具体地,所提出的DBAG算法中核心模块为行动者模块和评论家模块。受最近成功的Transformer架构的启发,本发明使用Transformer层作为Actor网络和Critic网络的网络主干,以捕获多尺度的时间依赖关系。Transformer采用一系列一维的标记嵌入作为输入,并利用了一个可训练线性投影。
参见图2所示,所述行动者模块包括离散的视频帧分辨率压缩决策和连续的无线带宽分配决策两部分。离散视频帧分辨率压缩决策以
Figure 170321DEST_PATH_IMAGE064
为输入,返回视频帧分辨率压缩决策
Figure 291860DEST_PATH_IMAGE065
;连续无线带宽分配决策,即凸优化器,以
Figure 661662DEST_PATH_IMAGE066
作为输入,并返回带宽分配决策
Figure 817837DEST_PATH_IMAGE067
所述评论家模块由于检测的置信度只能间接反应视频分析的准确程度,而不是完全可代替视频分析的准确度作为性能评判标准,并且置信度本身存在一定的噪声。因此,评论家模块使用n-步状态值,根据n-步贝尔曼残缺进行评论家模块网络的学习。
在本发明的基于深度强化学习的多设备边缘视频分析系统中,在边缘服务器使用YOLOv5模型构建视频分析的应用程序;本发明选用了两个视频分析数据集,即无人机视图数据集Vis- Drone2019和城市道路驾驶数据集SelfDriving。提出的DBAG算法在Actor模块中采用了一层嵌入层、一层Transformer层、一层全连接层;在Critic模块中采用了两层嵌入层、一层Transformer层、一层全连接层。
本发明实施例通过上述两个数据集上进行实验证明了本发明所提出的模型的有效性。本发明进行性能对比的方法有:
一、DBAG-wo(DBAG without Decomposition):该系统SAC框架来估计状态函数,并找到退化适应和带宽分配决策,以最大限度地扩大所定义的回报。不同设备数下的性能比较结构参见图3和图4所示。
如图3和图4所示,在SelfDriving数据集上,本发明对比了在给定延迟惩罚系数
Figure 631203DEST_PATH_IMAGE068
的前提下,不同MD个数情况下的性能对比。图3和图4分别展示了视频分析准确度和端到端延迟的性能对比。如图3所示,与SAC对比,DBAG-wo和DBAG分别减少了23.51%和25.45%的延迟时间;如图4所示,与SAC对比,DBAG-wo和DBAG分别提高了13.32%和14.64%的视频分析准确度;根据本发明进一步观察得到,当设备数量N增加时,DBAG与对比系统之间的性能差距增大,即从0.3%的综合性能提升增长到42.5%的性能提升。此外,本发明还观察到,当移动设备数目为1时,DBAG-wo算法和DBAG算法的视频分析准确率和延迟基本相同。这是因为当数字为1时,带宽分配策略是直观的,因此DBAG-wo和DBAG算法学习相同的退化适应策略,直到有一定的随机性。当移动设备数目越大时,无线上行链路越拥挤,对时延的影响也越大。由于无线网络的模型信息,DBAG利用模型信息获得准确的带宽分配,从而实现了较低的延迟。
参见图5所示,本发明进行了消融研究实验,本发明从DBAG中移除每一个单一关键设计,产生四种消融实验变体,即将Transformer层替换为MLP层(Transformer-wo)、行动空间分解(Decomp-wo)、用贪婪策略代替MDP建模(
Figure 240039DEST_PATH_IMAGE069
)、用1步奖励代替3步奖励(1-Step)。经过实验观察到,对于Transformer-wo、Decomp-wo、
Figure 147952DEST_PATH_IMAGE070
、1-Step四种变体的性能损失分别为:5.5%、3.6%、1.1%、0.9%。主要分析总结如下:1)对
Figure 158633DEST_PATH_IMAGE071
和n-Step回报的消融研究证实,MDP公式的长期目标提高了帧时间差异和内容敏感退化的估计,允许系统在未来做出更好的决策。2)决策分解的消融研究表明,该方法利用通信系统的模型信息获得带宽分配,具有更高的采样效率和鲁棒性。3)对Transformer层的消融研究验证了捕获的多尺度时间相关性有助于状态特征提取,从而从机器学习的角度进行更好的决策。
综上所述,本发明的基于深度强化学习的多设备边缘视频分析系统,具备在线联合退化自适应和通信资源分配,设计一种在线的联合优化多设备视频分析系统的视频退化和带宽分配算法,实现保证较高推理精度的情况下,大大降低数据的传输和处理时延,提升系统的实时反应能力;
本发明在边缘视频分析任务中缺少实时GT时使用模型输出的置信度近似表示视频分析准确度,同时采用n-step奖励保证训练的稳定性,通过n-step奖励平滑由于近似表示所引入的噪声;
本发明结合最优化方法的深度强化学习算法,对双重决策进行拆解,降低算法复杂度的同时解决样本效率较低的问题,具有更高的样本效率以及收敛速度。
另外,现如今,自动驾驶技术的发展日益火热。自动驾驶过程中,车机系统先通过摄像头拍照,再进行视频分析、视频分析等技术来判断车辆运行过程中的周围环境模块状况。而,目标检测、物体识别等任务对计算能力的要求巨大,通常需要对任务进行卸载分流到边缘服务器进行,因此,本发明十分适用于自动驾驶领域。
现如今,我国无人机技术处于世界领先地位,这得益于优秀的视频分析、视频分析识别系统,使得无人机在执行飞行任务时能很好的识别周围环境模块,保证飞行安全等。因此,本发明同样适用于无人机领域。
而且,道路、小区安全监控设备日益普及,但是这些设备本地计算能力十分有限,而分析和识别任务通常上传到边缘服务器进行分析识别,以保障社会安全。因此,本发明同样适用于安全监控领域。
因此,本发明适用于自动驾驶领域、无人机领域以及安全监控领域。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度强化学习的多设备边缘视频分析系统,其特征在于,包括边缘服务器以及与所述边缘服务器通信连接的多移动设备;
所述边缘服务器上部署有用于视频分析的深度学习模型,用于支持多分辨率输入的检测任务,所有移动设备共享一个无线上行链路用于向所述边缘服务器发送视频帧,所述边缘服务器上部署的深度学习模型用于对接收的视频帧进行视频分析,生成视频分析任务结果,所述移动设备用于通过无线下行链路下载所述视频分析任务结果。
2.如权利要求1所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,每个所述移动设备都由单天线与所述边缘服务器进行通信。
3.如权利要求1或2所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,基于边缘服务器的实时视频分析任务包括本地退化、帧卸载、边缘处理和结果提交四个步骤;
所述本地退化为每个移动设备在传输视频帧之前先对视频帧进行分辨率压缩处理;所述帧卸载为在视频帧进行分辨率压缩处理之后通过无线上行链路卸载到边缘服务器;所述边缘处理为在边缘服务器接收到视频帧之后,边缘服务器使用预训练的深度学习模型进行视频分析任务;所述结果提交为边缘服务器通过无线下行链路将识别的结果下载到移动设备。
4.如权利要求3所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,边缘服务器的深度学习模型在进行视频分析任务时,还用于实时获取检测的置信度
Figure 501070DEST_PATH_IMAGE001
,并作为视频分析准确度的近似代替。
5.如权利要求1所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,在所述多设备边缘视频分析系统中,还包括通过一个实时顺序决策的MDP问题描述多目标优化,优化目标的最优决策为一个MDP的解,所述MDP问题定义为一个元组:
Figure 477117DEST_PATH_IMAGE002
, 其中
Figure 17819DEST_PATH_IMAGE003
表示状态、
Figure 140584DEST_PATH_IMAGE004
表示决策、
Figure 475751DEST_PATH_IMAGE005
表示转移概率、
Figure 204672DEST_PATH_IMAGE006
表示回报、
Figure 283487DEST_PATH_IMAGE007
表示折扣因子。
6.如权利要求5所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,所述多设备边缘视频分析系统还用于做出离散取值的分辨率压缩率和连续取值的带宽分配的最优决策,并命名为DBAG算法,所述DBAG算法中使用Transformer层作为Actor网络和Critic网络的网络主干,以捕获多尺度的时间依赖关系。
7.如权利要求6所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,所述DBAG算法在Actor模块中采用了一层嵌入层、一层Transformer层、一层全连接层,在Critic模块中采用了两层嵌入层、一层Transformer层、一层全连接层。
8.如权利要求1或7所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,所述边缘服务器使用YOLOv5模型构建视频分析的应用程序,所述多设备边缘视频分析系统中还包括两个视频分析数据集以验证提出的模型的有效性,两个视频分析数据集为无人机视图数据集Vis- Drone2019和城市道路驾驶数据集SelfDriving。
9.如权利要求7所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,所述DBAG算法包括行动者模块、环境模块、经验回放模块以及评论家模块四部分;
所述行动者模块通过观察环境模块信息
Figure 781464DEST_PATH_IMAGE008
,并计算得当前的环境模块状态
Figure 303843DEST_PATH_IMAGE009
,将环境模块状态输入行动者模块深度神经网络中,产生当前的帧退化决策
Figure 520061DEST_PATH_IMAGE010
,在
Figure 402566DEST_PATH_IMAGE010
固定的情况下,通过无线网络模型建立求解最优带宽分配的凸优化数学模型,行动者模块网络和凸优化求解程序联合构建了DBAG中的行动者模块,基于输入环境模块状态
Figure 755050DEST_PATH_IMAGE009
, 生成当前的帧退化和频谱分配决策
Figure 697599DEST_PATH_IMAGE011
所述环境模块用于边缘视频分析系统根据所计算
Figure 886266DEST_PATH_IMAGE011
调整移动设备退化率、上行频谱分配方案,并将边缘推理结果反馈至边缘设备,根据所采集的当前回报
Figure 306883DEST_PATH_IMAGE012
,形成新的训练样本
Figure 779452DEST_PATH_IMAGE013
所述经验回放模块用于边缘视频分析系统将最新采集的训练样本
Figure 627323DEST_PATH_IMAGE013
存入经验回放模块内存,当回放内存所存样本数大于256时,分析系统随机采样256个样本,对评论家模块网络进行训练、更新网络参数;
所述评论家模块用于利用当前参数下的评论家模块网络,对行动者模块网络进行训练,以求得到一个新的策略
Figure 552553DEST_PATH_IMAGE014
,最大化
Figure 527594DEST_PATH_IMAGE015
10.如权利要求9所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,所述行动者模块包括离散的视频帧分辨率压缩决策和连续的无线带宽分配决策两部分,所述离散视频帧分辨率压缩决策以
Figure 854670DEST_PATH_IMAGE009
为输入,返回视频帧分辨率压缩决策
Figure 139021DEST_PATH_IMAGE010
;所述连续无线带宽分配决策,即凸优化器,以
Figure 551547DEST_PATH_IMAGE016
作为输入,并返回带宽分配决策
Figure 313967DEST_PATH_IMAGE017
所述评论家模块使用n-步状态值,根据n-步贝尔曼残缺进行评论家模块网络的学习。
CN202210116789.1A 2022-02-08 2022-02-08 一种基于深度强化学习的多设备边缘视频分析系统 Active CN114170560B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210116789.1A CN114170560B (zh) 2022-02-08 2022-02-08 一种基于深度强化学习的多设备边缘视频分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210116789.1A CN114170560B (zh) 2022-02-08 2022-02-08 一种基于深度强化学习的多设备边缘视频分析系统

Publications (2)

Publication Number Publication Date
CN114170560A true CN114170560A (zh) 2022-03-11
CN114170560B CN114170560B (zh) 2022-05-20

Family

ID=80489533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210116789.1A Active CN114170560B (zh) 2022-02-08 2022-02-08 一种基于深度强化学习的多设备边缘视频分析系统

Country Status (1)

Country Link
CN (1) CN114170560B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115484438A (zh) * 2022-09-15 2022-12-16 镇江平安科技服务有限公司 一种智能视频监控系统及多视频流自适应配置方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660598A (zh) * 2018-11-17 2019-04-19 华中科技大学 一种物联网暂态数据的缓存替换方法及系统
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法
CN110113195A (zh) * 2019-04-26 2019-08-09 山西大学 一种移动边缘计算系统中联合卸载判决和资源分配的方法
CN110933687A (zh) * 2019-11-04 2020-03-27 北京工业大学 一种基于解耦的用户上下行接入方法及系统
US20200296741A1 (en) * 2019-03-12 2020-09-17 NEC Laboratories Europe GmbH Virtual radio access network control
CN111918339A (zh) * 2020-07-17 2020-11-10 西安交通大学 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法
CN112069903A (zh) * 2020-08-07 2020-12-11 之江实验室 基于深度强化学习实现人脸识别端边卸载计算方法及装置
CN113114756A (zh) * 2021-04-08 2021-07-13 广西师范大学 一种移动边缘计算中自适应码率选择的视频缓存更新方法
CN113448707A (zh) * 2021-06-29 2021-09-28 安徽大学 在边缘计算中在线批并行任务调度方法
CN113726858A (zh) * 2021-08-12 2021-11-30 西安交通大学 一种基于强化学习的自适应ar任务卸载和资源分配方法
CN113905049A (zh) * 2021-10-11 2022-01-07 成都信息工程大学 一种基于多分类和分布式强化学习的卸载决策优化方法
US20220014963A1 (en) * 2021-03-22 2022-01-13 Shu-Ping Yeh Reinforcement learning for multi-access traffic management
CN113993218A (zh) * 2021-11-18 2022-01-28 国网福建省电力有限公司经济技术研究院 一种mec架构下基于多智能体drl的协作卸载和资源分配方法
CN113992945A (zh) * 2021-12-03 2022-01-28 江苏电力信息技术有限公司 一种基于博弈论的多服务器多用户视频分析任务卸载方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660598A (zh) * 2018-11-17 2019-04-19 华中科技大学 一种物联网暂态数据的缓存替换方法及系统
US20200296741A1 (en) * 2019-03-12 2020-09-17 NEC Laboratories Europe GmbH Virtual radio access network control
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法
CN110113195A (zh) * 2019-04-26 2019-08-09 山西大学 一种移动边缘计算系统中联合卸载判决和资源分配的方法
CN110933687A (zh) * 2019-11-04 2020-03-27 北京工业大学 一种基于解耦的用户上下行接入方法及系统
CN111918339A (zh) * 2020-07-17 2020-11-10 西安交通大学 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法
CN112069903A (zh) * 2020-08-07 2020-12-11 之江实验室 基于深度强化学习实现人脸识别端边卸载计算方法及装置
US20220014963A1 (en) * 2021-03-22 2022-01-13 Shu-Ping Yeh Reinforcement learning for multi-access traffic management
CN113114756A (zh) * 2021-04-08 2021-07-13 广西师范大学 一种移动边缘计算中自适应码率选择的视频缓存更新方法
CN113448707A (zh) * 2021-06-29 2021-09-28 安徽大学 在边缘计算中在线批并行任务调度方法
CN113726858A (zh) * 2021-08-12 2021-11-30 西安交通大学 一种基于强化学习的自适应ar任务卸载和资源分配方法
CN113905049A (zh) * 2021-10-11 2022-01-07 成都信息工程大学 一种基于多分类和分布式强化学习的卸载决策优化方法
CN113993218A (zh) * 2021-11-18 2022-01-28 国网福建省电力有限公司经济技术研究院 一种mec架构下基于多智能体drl的协作卸载和资源分配方法
CN113992945A (zh) * 2021-12-03 2022-01-28 江苏电力信息技术有限公司 一种基于博弈论的多服务器多用户视频分析任务卸载方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHUOYAO WANG 等: "Deep Reinforcement Learning With Communication Transformer for Adaptive Live Streaming in Wireless Edge Networks", 《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115484438A (zh) * 2022-09-15 2022-12-16 镇江平安科技服务有限公司 一种智能视频监控系统及多视频流自适应配置方法

Also Published As

Publication number Publication date
CN114170560B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
Shao et al. Task-oriented communication for multidevice cooperative edge inference
Chen et al. An edge traffic flow detection scheme based on deep learning in an intelligent transportation system
CN111160108B (zh) 一种无锚点的人脸检测方法及系统
Fang et al. Flexdnn: Input-adaptive on-device deep learning for efficient mobile vision
Nigade et al. Clownfish: Edge and cloud symbiosis for video stream analytics
CN113595993B (zh) 边缘计算下模型结构优化的车载感知设备联合学习方法
CN110765880A (zh) 一种轻量级视频行人重识别方法
CN116455768B (zh) 面向全局时延优化的云边端协同cnn推理方法及系统
CN114170560B (zh) 一种基于深度强化学习的多设备边缘视频分析系统
CN116258941A (zh) 基于Android平台的yolox目标检测轻量化改进方法
CN110087041A (zh) 基于5g基站的视频数据处理及传输方法和系统
CN115098115B (zh) 边缘计算任务卸载方法及装置、电子设备、存储介质
CN109375999A (zh) 一种基于贝叶斯网络的mec随机任务迁移方法
CN112836822A (zh) 基于宽度学习的联邦学习策略优化方法和装置
CN114925720A (zh) 基于时空混合特征提取网络的小样本调制信号识别方法
CN114169506A (zh) 一种基于工业物联网平台的深度学习边缘计算系统框架
CN117114113B (zh) 一种基于排队论的协同推理加速方法
Wang et al. Edge video analytics with adaptive information gathering: a deep reinforcement learning approach
Sun et al. Semantic-driven computation offloading and resource allocation for uav-assisted monitoring system in vehicular networks
CN116007616A (zh) 一种基于网络状态决策的自适应地图构建系统及方法
CN115861664A (zh) 基于局部特征融合与自注意力机制的特征匹配方法及系统
Huang et al. Latency guaranteed edge inference via dynamic compression ratio selection
CN108668265B (zh) 基于循环神经网络预测移动用户间相遇概率的方法
Fang et al. PIB: Prioritized Information Bottleneck Framework for Collaborative Edge Video Analytics
CN113157344A (zh) 移动边缘计算环境下基于drl的能耗感知任务卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant