CN114170560A - 一种基于深度强化学习的多设备边缘视频分析系统 - Google Patents
一种基于深度强化学习的多设备边缘视频分析系统 Download PDFInfo
- Publication number
- CN114170560A CN114170560A CN202210116789.1A CN202210116789A CN114170560A CN 114170560 A CN114170560 A CN 114170560A CN 202210116789 A CN202210116789 A CN 202210116789A CN 114170560 A CN114170560 A CN 114170560A
- Authority
- CN
- China
- Prior art keywords
- video analysis
- edge
- module
- video
- analysis system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 132
- 230000002787 reinforcement Effects 0.000 title claims abstract description 32
- 230000015556 catabolic process Effects 0.000 claims abstract description 33
- 238000006731 degradation reaction Methods 0.000 claims abstract description 33
- 238000013136 deep learning model Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims abstract description 11
- 238000004891 communication Methods 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims description 23
- 238000007906 compression Methods 0.000 claims description 21
- 230000006835 compression Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000013178 mathematical model Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000013468 resource allocation Methods 0.000 abstract description 8
- 230000006978 adaptation Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000135 prohibitive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明涉及计算机技术领域,具体涉及一种基于深度强化学习的多设备边缘视频分析系统。该系统包括边缘服务器以及与所述边缘服务器通信连接的多移动设备;所述边缘服务器上部署有用于视频分析的深度学习模型,用于支持多分辨率输入的检测任务,所有移动设备共享一个无线上行链路用于向所述边缘服务器发送视频帧,所述边缘服务器上部署的深度学习模型用于对接收的视频帧进行视频分析,生成视频分析任务结果,所述移动设备用于通过无线下行链路下载所述视频分析任务结果。本发明具备在线联合退化自适应和通信资源分配,在边缘视频分析任务中缺少实时GT时使用模型输出的置信度近似表示视频分析准确度,同时采用n‑step奖励保证训练的稳定性。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种基于深度强化学习的多设备边缘视频分析系统。
背景技术
近年来,公共安全和交通基础设施设备的数量迅速增加。自动送货车和无人机之类的智能设备,在实时分析拍摄的视频来捕获暴力检测、交通监控、自动驾驶等方面有着广泛的应用。由于计算资源和电池容量的限制,这些资源受限的移动设备(Mobile Device,MD)需要将视频发送到远程服务器,以运行繁重的深度学习推理模型。在云端进行大规模的数据传输和处理会导致极高的端到端延迟,制约了实时边缘视频分析的应用。
随着移动边缘计算(Mobile Edge Computing, MEC)技术的发展,为高延迟视频分析系统提出了全新的解决方案。通过卸载深度学习推理任务到边缘服务器(EdgeServer)上,可以显著降低MD的硬件需求,并缓解视频数据上传到云端的传输延迟。但是,由于MD与边缘服务器之间的带宽有限且高动态,这导致视频在上传到边缘服务器进行分析处理时,依然面临不可忽略且高动态的传输延迟。因此,国内外的许多研究努力致力于通过有效的计算卸载来实现准确性和延迟之间的权衡。
近年来,有学者研究了联合分辨率退化自适应和计算资源分配问题,以在精度和延迟约束下最大限度地支持MD的数量;有学者研究如何实现大规模系统,并提出了一种通过结合自适应视频退化和无线电资源分配来实现能源效率最大化的视频分析系统。然而,联合退化自适应和计算资源分配问题涉及到求解混合整数非线性规划(Mixed IntegerNon-LinearProgramming,MINLP)的问题。解决这类问题通常需要极高的计算复杂度。此外,这些方法都依赖于统计模型或离线训练。当系统参数发生变化时(如内容变化的检测精度等),MINLP通常需要重新制定和求解。因此,在一个高度动态的视频分析系统中实现基于统计模型或离线训练的优化算法成本过高。
另一方面,随着强化学习算法的快速发展,为高度动态的视频分析系统提供了新的可能。具体地,联合退化自适应和计算资源分配问题可以描述为一个马尔科夫决策问题(Markov Decision Process, MDP),并且可以通过强化学习实现退化自适应和计算资源分配端到端的联合优化。
本发明通过预实验分析了一般的视频分析任务和边缘视频分析任务的三个明显的区别:1)时间相关性:在一个时间段内序列帧的推理精度是强相关的;2)时间差异性:随着视频时间的推移,视频分析的精准度会根据时间的推移产生变化;3)内容退化敏感性:在整个视频中,视频帧的分析精度对于视频压缩的敏感程度有所区别,因此对不敏感的视频帧,可以在不影响视频分析精度的情况下,对视频帧进退化,然后分流到边缘进行视频分析任务以减少通信和计算延迟。
因此,面向高动态网络的实时视频分析算法,当前计算卸载或基于离线训练的视频分析算法的相关工作面临以下挑战:
1)缺少对视频退化率与分析精度之间的时变性的考虑;
2)实时真实值(Ground Truth, GT)的缺失;
3)在边缘视频分析中,由于退化决策通常是非线性的,这导致的二进制取值的计算分流算法对于样本有效率较低。
发明内容
为解决上述技术问题,本发明提供了一种基于深度强化学习的多设备边缘视频分析系统。
为实现上述目的,本发明实施例提供了如下的技术方案:
第一方面,在本发明提供的一个实施例中,提供了一种基于深度强化学习的多设备边缘视频分析系统,包括边缘服务器以及与所述边缘服务器通信连接的多移动设备;
所述边缘服务器上部署有用于视频分析的深度学习模型,用于支持多分辨率输入的检测任务,所有移动设备共享一个无线上行链路用于向所述边缘服务器发送视频帧,所述边缘服务器上部署的深度学习模型用于对接收的视频帧进行视频分析,生成视频分析任务结果,所述移动设备用于通过无线下行链路下载所述视频分析任务结果。
在本发明提供的一些实施例中,每个所述移动设备都由单天线与所述边缘服务器进行通信。
在本发明提供的一些实施例中,基于边缘服务器的实时视频分析任务包括本地退化、帧卸载、边缘处理和结果提交四个步骤;其中,所述本地退化为每个移动设备在传输视频帧之前先对视频帧进行分辨率压缩处理;所述帧卸载为在视频帧进行分辨率压缩处理之后通过无线上行链路卸载到边缘服务器;所述边缘处理为在边缘服务器接收到视频帧之后,边缘服务器使用预训练的深度学习模型进行视频分析任务;所述结果提交为边缘服务器通过无线下行链路将识别的结果下载到移动设备。
在本发明提供的一些实施例中,在所述多设备边缘视频分析系统中,还包括通过一个实时顺序决策的MDP问题描述多目标优化,优化目标的最优决策为一个MDP的解,所述MDP问题定义为一个元组:, 其中表示状态、表示决策、表示转移概率、表示回报、表示折扣因子。
在本发明提供的一些实施例中,所述多设备边缘视频分析系统还用于做出离散取值的分辨率压缩率和连续取值的带宽分配的最优决策,并命名为DBAG算法,所述DBAG算法中使用Transformer层作为Actor网络和Critic网络的网络主干,以捕获多尺度的时间依赖关系。
在本发明提供的一些实施例中,所述DBAG算法在Actor模块中采用了一层嵌入层、一层Transformer层、一层全连接层,在Critic模块中采用了两层嵌入层、一层Transformer层、一层全连接层。
在本发明提供的一些实施例中,所述边缘服务器使用YOLOv5模型构建视频分析的应用程序,所述多设备边缘视频分析系统中还包括两个视频分析数据集以验证提出的模型的有效性,两个视频分析数据集为无人机视图数据集Vis- Drone2019和城市道路驾驶数据集SelfDriving。
在本发明提供的一些实施例中,所述DBAG算法包括行动者模块、环境模块、经验回放模块以及评论家模块四部分,所述行动者模块通过观察环境模块信息,并计算得当前的环境模块状态,将环境模块状态输入行动者模块深度神经网络中,产生当前的帧退化决策,在固定的情况下,通过无线网络模型建立求解最优带宽分配的凸优化数学模型,行动者模块网络和凸优化求解程序联合构建了DBAG中的行动者模块,基于输入环境模块状态, 生成当前的帧退化和频谱分配决策;
在本发明提供的一些实施例中,所述行动者模块包括离散的视频帧分辨率压缩决策和连续的无线带宽分配决策两部分,所述离散视频帧分辨率压缩决策以为输入,返回视频帧分辨率压缩决策;所述连续无线带宽分配决策,即凸优化器,以作为输入,并返回带宽分配决策;
所述评论家模块使用n-步状态值,根据n-步贝尔曼残缺进行评论家模块网络的学习。
本发明提供的技术方案,具有如下有益效果:
本发明的基于深度强化学习的多设备边缘视频分析系统,具备在线联合退化自适应和通信资源分配,设计一种在线的联合优化多设备视频分析系统的视频退化和带宽分配算法,实现保证较高推理精度的情况下,大大降低数据的传输和处理时延,提升系统的实时反应能力;
本发明在边缘视频分析任务中缺少实时GT时使用模型输出的置信度近似表示视频分析准确度,同时采用n-step奖励保证训练的稳定性,通过n-step奖励平滑由于近似表示所引入的噪声;
本发明结合最优化方法的深度强化学习算法,对双重决策进行拆解,降低算法复杂度的同时解决样本效率较低的问题,具有更高的样本效率以及收敛速度。本发明适用于自动驾驶领域、无人机领域以及安全监控领域。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的一种基于深度强化学习的多设备边缘视频分析系统的系统示意图。
图2为本发明一个实施例中基于深度强化学习的多设备边缘视频分析系统中DBAG算法的整体网络结构示意图。
图3为本发明一个实施例中基于深度强化学习的多设备边缘视频分析系统中SAC与DBAG-wo、DBAG对比减少延迟时间的示意图。
图4为本发明一个实施例中基于深度强化学习的多设备边缘视频分析系统中SAC与DBAG-wo、DBAG对比提高视频分析准确度的示意图。
图5为本发明一个实施例中电子设备的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
图1为本发明提供的一种基于深度强化学习的多设备边缘视频分析系统的系统示意图。
参阅图1所示,本发明提供的一种基于深度强化学习的多设备边缘视频分析系统,包括边缘服务器以及与所述边缘服务器通信连接的多移动设备。
所述边缘服务器上部署有用于视频分析的深度学习模型,用于支持多分辨率输入的检测任务,所有移动设备共享一个无线上行链路用于向所述边缘服务器发送视频帧,所述边缘服务器上部署的深度学习模型用于对接收的视频帧进行视频分析,生成视频分析任务结果,所述移动设备用于通过无线下行链路下载所述视频分析任务结果。
如图1所示,本发明的一个多移动设备(Mobile Device, MD)的边缘视频分析系统,边缘服务器与每个移动设备都由单天线进行通信。由于移动设备的计算资源和电池容量有限,将视频分析模型部署在边缘服务器上,支持多分辨率输入的检测任务。所有移动设备共享一个有限的上行链路来不断向边缘服务器发送视频帧,并在边缘服务器上完成视频分析任务。
具体地,深度学习模型可表述为本地退化、帧卸载、边缘处理和结果提交四个步骤。
(1)本地退化:为了减少数据卸载的通信开销,每个移动设备在传输视频帧之前先对帧进行分辨率压缩处理。本文采用高斯金字塔法对图像分辨率进行压缩。
(2)帧卸载:视频帧在移动设备进行分辨率压缩处理之后将通过无线上行链路卸载到边缘服务器。
(3)边缘处理:在边缘服务器接收到视频帧之后,边缘服务器使用预训练的深度学习模型进行视频分析任务。
(4)结果提交:在边缘服务器完成视频分析之后,通过无线下行链路将识别的结果下载到移动设备。
在本发明实施例的多设备边缘视频分析系统中,本发明的目标是最小化总体服务延迟和最大化移动设备的视频分析准确度。为了刻画分析准确度---服务延迟的权衡,本发明引入了一个正实数刻画服务延迟和推理准确度之间的偏好。
基于上述系统模型,本发明采用长期加权求和将带宽分配和退化适应问题表述为以下多目标优化问题(P1):
其中,表示在所有移动设备在时刻的带宽分配,表示在所有移动设备在时刻的上传卸载的视频帧分辨率,表示MD个数,表示系统运行的总时长,且趋于无穷大。表示边缘视频分析的准确度,分别表示视频帧分辨率压缩耗时、视频帧上传卸载耗时、视频帧进行视频分析处理耗时。
由于优化目标都是动态变化的,求解上述目标函数存在一定困难。因此,本发明进一步将上述优化目标描述成一个步序决策的MDP问题,并且使其能够捕捉不同视频帧之间的视频分析准确度的时间依赖关系;能够在线自动拟合对于每个移动设备的视频帧分辨率压缩耗时和视频分析处理耗时;并解决没有实时GT的问题。由于没有实时GT,因此上述优化目标中的边缘视频分析的准确度无法实时获取。但是,现有的视频分析模型的输出是一个包含识别对象边界坐标和置信度的集合,因此,本发明在进行视频分析任务时可以实时获取检测的置信度,并作为视频分析准确度的近似代替。
将上述优化目标描述成一个实时顺序决策的MDP问题之后,最优决策被表述为一个MDP的解。一般地,MDP问题可以定义为一个元组:,其中表示状态、表示决策、表示转移概率、表示回报、表示折扣因子。对于本发明的系统,在时刻,边缘视频分析系统根据过去一段时间的无线信道条件和过去一段时间的决策,决定在时刻的退化和带宽分配决策;反过来,在时刻的退化和带宽分配决策会影响未来的边缘服务器处理的时间和视频分析的准确率。
在本实施例中,对本发明的一种基于深度强化学习的多设备边缘视频分析系统进行了数学建模,并且提出了基于深度强化学习(Deep Reinforcement Learning)的多设备边缘视频分析系统,使得系统可以做出离散取值的分辨率压缩率和连续取值的带宽分配的最优决策,并命名为DBAG算法。
参见图2所示,图2为所述DBAG算法的整体网络结构示意图。
所述DBAG算法包括行动者模块、环境模块、经验回放模块以及评论家模块四部分。所述DBAG算法的流程如下:
1)行动者模块:所述行动者模块通过观察环境模块信息
,并计算得当前的环境模块状态。将环境模块状态输入行动者模块深度神经网络中,产生当前的帧退化决策。在 固定的情况下,通过无线网络模型建立求解最优带宽分配的凸优化数学模型,即本发明用来表示确定系统状态和退化决策时,优化问题(P2)的最优解。求解(P2)等价于找到t时刻的最优退化决策:
具体地,所提出的DBAG算法中核心模块为行动者模块和评论家模块。受最近成功的Transformer架构的启发,本发明使用Transformer层作为Actor网络和Critic网络的网络主干,以捕获多尺度的时间依赖关系。Transformer采用一系列一维的标记嵌入作为输入,并利用了一个可训练线性投影。
参见图2所示,所述行动者模块包括离散的视频帧分辨率压缩决策和连续的无线带宽分配决策两部分。离散视频帧分辨率压缩决策以为输入,返回视频帧分辨率压缩决策;连续无线带宽分配决策,即凸优化器,以作为输入,并返回带宽分配决策。
所述评论家模块由于检测的置信度只能间接反应视频分析的准确程度,而不是完全可代替视频分析的准确度作为性能评判标准,并且置信度本身存在一定的噪声。因此,评论家模块使用n-步状态值,根据n-步贝尔曼残缺进行评论家模块网络的学习。
在本发明的基于深度强化学习的多设备边缘视频分析系统中,在边缘服务器使用YOLOv5模型构建视频分析的应用程序;本发明选用了两个视频分析数据集,即无人机视图数据集Vis- Drone2019和城市道路驾驶数据集SelfDriving。提出的DBAG算法在Actor模块中采用了一层嵌入层、一层Transformer层、一层全连接层;在Critic模块中采用了两层嵌入层、一层Transformer层、一层全连接层。
本发明实施例通过上述两个数据集上进行实验证明了本发明所提出的模型的有效性。本发明进行性能对比的方法有:
一、DBAG-wo(DBAG without Decomposition):该系统SAC框架来估计状态函数,并找到退化适应和带宽分配决策,以最大限度地扩大所定义的回报。不同设备数下的性能比较结构参见图3和图4所示。
如图3和图4所示,在SelfDriving数据集上,本发明对比了在给定延迟惩罚系数的前提下,不同MD个数情况下的性能对比。图3和图4分别展示了视频分析准确度和端到端延迟的性能对比。如图3所示,与SAC对比,DBAG-wo和DBAG分别减少了23.51%和25.45%的延迟时间;如图4所示,与SAC对比,DBAG-wo和DBAG分别提高了13.32%和14.64%的视频分析准确度;根据本发明进一步观察得到,当设备数量N增加时,DBAG与对比系统之间的性能差距增大,即从0.3%的综合性能提升增长到42.5%的性能提升。此外,本发明还观察到,当移动设备数目为1时,DBAG-wo算法和DBAG算法的视频分析准确率和延迟基本相同。这是因为当数字为1时,带宽分配策略是直观的,因此DBAG-wo和DBAG算法学习相同的退化适应策略,直到有一定的随机性。当移动设备数目越大时,无线上行链路越拥挤,对时延的影响也越大。由于无线网络的模型信息,DBAG利用模型信息获得准确的带宽分配,从而实现了较低的延迟。
参见图5所示,本发明进行了消融研究实验,本发明从DBAG中移除每一个单一关键设计,产生四种消融实验变体,即将Transformer层替换为MLP层(Transformer-wo)、行动空间分解(Decomp-wo)、用贪婪策略代替MDP建模()、用1步奖励代替3步奖励(1-Step)。经过实验观察到,对于Transformer-wo、Decomp-wo、、1-Step四种变体的性能损失分别为:5.5%、3.6%、1.1%、0.9%。主要分析总结如下:1)对和n-Step回报的消融研究证实,MDP公式的长期目标提高了帧时间差异和内容敏感退化的估计,允许系统在未来做出更好的决策。2)决策分解的消融研究表明,该方法利用通信系统的模型信息获得带宽分配,具有更高的采样效率和鲁棒性。3)对Transformer层的消融研究验证了捕获的多尺度时间相关性有助于状态特征提取,从而从机器学习的角度进行更好的决策。
综上所述,本发明的基于深度强化学习的多设备边缘视频分析系统,具备在线联合退化自适应和通信资源分配,设计一种在线的联合优化多设备视频分析系统的视频退化和带宽分配算法,实现保证较高推理精度的情况下,大大降低数据的传输和处理时延,提升系统的实时反应能力;
本发明在边缘视频分析任务中缺少实时GT时使用模型输出的置信度近似表示视频分析准确度,同时采用n-step奖励保证训练的稳定性,通过n-step奖励平滑由于近似表示所引入的噪声;
本发明结合最优化方法的深度强化学习算法,对双重决策进行拆解,降低算法复杂度的同时解决样本效率较低的问题,具有更高的样本效率以及收敛速度。
另外,现如今,自动驾驶技术的发展日益火热。自动驾驶过程中,车机系统先通过摄像头拍照,再进行视频分析、视频分析等技术来判断车辆运行过程中的周围环境模块状况。而,目标检测、物体识别等任务对计算能力的要求巨大,通常需要对任务进行卸载分流到边缘服务器进行,因此,本发明十分适用于自动驾驶领域。
现如今,我国无人机技术处于世界领先地位,这得益于优秀的视频分析、视频分析识别系统,使得无人机在执行飞行任务时能很好的识别周围环境模块,保证飞行安全等。因此,本发明同样适用于无人机领域。
而且,道路、小区安全监控设备日益普及,但是这些设备本地计算能力十分有限,而分析和识别任务通常上传到边缘服务器进行分析识别,以保障社会安全。因此,本发明同样适用于安全监控领域。
因此,本发明适用于自动驾驶领域、无人机领域以及安全监控领域。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度强化学习的多设备边缘视频分析系统,其特征在于,包括边缘服务器以及与所述边缘服务器通信连接的多移动设备;
所述边缘服务器上部署有用于视频分析的深度学习模型,用于支持多分辨率输入的检测任务,所有移动设备共享一个无线上行链路用于向所述边缘服务器发送视频帧,所述边缘服务器上部署的深度学习模型用于对接收的视频帧进行视频分析,生成视频分析任务结果,所述移动设备用于通过无线下行链路下载所述视频分析任务结果。
2.如权利要求1所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,每个所述移动设备都由单天线与所述边缘服务器进行通信。
3.如权利要求1或2所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,基于边缘服务器的实时视频分析任务包括本地退化、帧卸载、边缘处理和结果提交四个步骤;
所述本地退化为每个移动设备在传输视频帧之前先对视频帧进行分辨率压缩处理;所述帧卸载为在视频帧进行分辨率压缩处理之后通过无线上行链路卸载到边缘服务器;所述边缘处理为在边缘服务器接收到视频帧之后,边缘服务器使用预训练的深度学习模型进行视频分析任务;所述结果提交为边缘服务器通过无线下行链路将识别的结果下载到移动设备。
6.如权利要求5所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,所述多设备边缘视频分析系统还用于做出离散取值的分辨率压缩率和连续取值的带宽分配的最优决策,并命名为DBAG算法,所述DBAG算法中使用Transformer层作为Actor网络和Critic网络的网络主干,以捕获多尺度的时间依赖关系。
7.如权利要求6所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,所述DBAG算法在Actor模块中采用了一层嵌入层、一层Transformer层、一层全连接层,在Critic模块中采用了两层嵌入层、一层Transformer层、一层全连接层。
8.如权利要求1或7所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,所述边缘服务器使用YOLOv5模型构建视频分析的应用程序,所述多设备边缘视频分析系统中还包括两个视频分析数据集以验证提出的模型的有效性,两个视频分析数据集为无人机视图数据集Vis- Drone2019和城市道路驾驶数据集SelfDriving。
9.如权利要求7所述的基于深度强化学习的多设备边缘视频分析系统,其特征在于,所述DBAG算法包括行动者模块、环境模块、经验回放模块以及评论家模块四部分;
所述行动者模块通过观察环境模块信息,并计算得当前的环境模块状态,将环境模块状态输入行动者模块深度神经网络中,产生当前的帧退化决策,在固定的情况下,通过无线网络模型建立求解最优带宽分配的凸优化数学模型,行动者模块网络和凸优化求解程序联合构建了DBAG中的行动者模块,基于输入环境模块状态, 生成当前的帧退化和频谱分配决策;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210116789.1A CN114170560B (zh) | 2022-02-08 | 2022-02-08 | 一种基于深度强化学习的多设备边缘视频分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210116789.1A CN114170560B (zh) | 2022-02-08 | 2022-02-08 | 一种基于深度强化学习的多设备边缘视频分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114170560A true CN114170560A (zh) | 2022-03-11 |
CN114170560B CN114170560B (zh) | 2022-05-20 |
Family
ID=80489533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210116789.1A Active CN114170560B (zh) | 2022-02-08 | 2022-02-08 | 一种基于深度强化学习的多设备边缘视频分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114170560B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115484438A (zh) * | 2022-09-15 | 2022-12-16 | 镇江平安科技服务有限公司 | 一种智能视频监控系统及多视频流自适应配置方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109660598A (zh) * | 2018-11-17 | 2019-04-19 | 华中科技大学 | 一种物联网暂态数据的缓存替换方法及系统 |
CN109976909A (zh) * | 2019-03-18 | 2019-07-05 | 中南大学 | 边缘计算网络中基于学习的低延时任务调度方法 |
CN110113195A (zh) * | 2019-04-26 | 2019-08-09 | 山西大学 | 一种移动边缘计算系统中联合卸载判决和资源分配的方法 |
CN110933687A (zh) * | 2019-11-04 | 2020-03-27 | 北京工业大学 | 一种基于解耦的用户上下行接入方法及系统 |
US20200296741A1 (en) * | 2019-03-12 | 2020-09-17 | NEC Laboratories Europe GmbH | Virtual radio access network control |
CN111918339A (zh) * | 2020-07-17 | 2020-11-10 | 西安交通大学 | 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法 |
CN112069903A (zh) * | 2020-08-07 | 2020-12-11 | 之江实验室 | 基于深度强化学习实现人脸识别端边卸载计算方法及装置 |
CN113114756A (zh) * | 2021-04-08 | 2021-07-13 | 广西师范大学 | 一种移动边缘计算中自适应码率选择的视频缓存更新方法 |
CN113448707A (zh) * | 2021-06-29 | 2021-09-28 | 安徽大学 | 在边缘计算中在线批并行任务调度方法 |
CN113726858A (zh) * | 2021-08-12 | 2021-11-30 | 西安交通大学 | 一种基于强化学习的自适应ar任务卸载和资源分配方法 |
CN113905049A (zh) * | 2021-10-11 | 2022-01-07 | 成都信息工程大学 | 一种基于多分类和分布式强化学习的卸载决策优化方法 |
US20220014963A1 (en) * | 2021-03-22 | 2022-01-13 | Shu-Ping Yeh | Reinforcement learning for multi-access traffic management |
CN113993218A (zh) * | 2021-11-18 | 2022-01-28 | 国网福建省电力有限公司经济技术研究院 | 一种mec架构下基于多智能体drl的协作卸载和资源分配方法 |
CN113992945A (zh) * | 2021-12-03 | 2022-01-28 | 江苏电力信息技术有限公司 | 一种基于博弈论的多服务器多用户视频分析任务卸载方法 |
-
2022
- 2022-02-08 CN CN202210116789.1A patent/CN114170560B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109660598A (zh) * | 2018-11-17 | 2019-04-19 | 华中科技大学 | 一种物联网暂态数据的缓存替换方法及系统 |
US20200296741A1 (en) * | 2019-03-12 | 2020-09-17 | NEC Laboratories Europe GmbH | Virtual radio access network control |
CN109976909A (zh) * | 2019-03-18 | 2019-07-05 | 中南大学 | 边缘计算网络中基于学习的低延时任务调度方法 |
CN110113195A (zh) * | 2019-04-26 | 2019-08-09 | 山西大学 | 一种移动边缘计算系统中联合卸载判决和资源分配的方法 |
CN110933687A (zh) * | 2019-11-04 | 2020-03-27 | 北京工业大学 | 一种基于解耦的用户上下行接入方法及系统 |
CN111918339A (zh) * | 2020-07-17 | 2020-11-10 | 西安交通大学 | 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法 |
CN112069903A (zh) * | 2020-08-07 | 2020-12-11 | 之江实验室 | 基于深度强化学习实现人脸识别端边卸载计算方法及装置 |
US20220014963A1 (en) * | 2021-03-22 | 2022-01-13 | Shu-Ping Yeh | Reinforcement learning for multi-access traffic management |
CN113114756A (zh) * | 2021-04-08 | 2021-07-13 | 广西师范大学 | 一种移动边缘计算中自适应码率选择的视频缓存更新方法 |
CN113448707A (zh) * | 2021-06-29 | 2021-09-28 | 安徽大学 | 在边缘计算中在线批并行任务调度方法 |
CN113726858A (zh) * | 2021-08-12 | 2021-11-30 | 西安交通大学 | 一种基于强化学习的自适应ar任务卸载和资源分配方法 |
CN113905049A (zh) * | 2021-10-11 | 2022-01-07 | 成都信息工程大学 | 一种基于多分类和分布式强化学习的卸载决策优化方法 |
CN113993218A (zh) * | 2021-11-18 | 2022-01-28 | 国网福建省电力有限公司经济技术研究院 | 一种mec架构下基于多智能体drl的协作卸载和资源分配方法 |
CN113992945A (zh) * | 2021-12-03 | 2022-01-28 | 江苏电力信息技术有限公司 | 一种基于博弈论的多服务器多用户视频分析任务卸载方法 |
Non-Patent Citations (1)
Title |
---|
SHUOYAO WANG 等: "Deep Reinforcement Learning With Communication Transformer for Adaptive Live Streaming in Wireless Edge Networks", 《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115484438A (zh) * | 2022-09-15 | 2022-12-16 | 镇江平安科技服务有限公司 | 一种智能视频监控系统及多视频流自适应配置方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114170560B (zh) | 2022-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shao et al. | Task-oriented communication for multidevice cooperative edge inference | |
Chen et al. | An edge traffic flow detection scheme based on deep learning in an intelligent transportation system | |
CN111160108B (zh) | 一种无锚点的人脸检测方法及系统 | |
Fang et al. | Flexdnn: Input-adaptive on-device deep learning for efficient mobile vision | |
Nigade et al. | Clownfish: Edge and cloud symbiosis for video stream analytics | |
CN113595993B (zh) | 边缘计算下模型结构优化的车载感知设备联合学习方法 | |
CN110765880A (zh) | 一种轻量级视频行人重识别方法 | |
CN116455768B (zh) | 面向全局时延优化的云边端协同cnn推理方法及系统 | |
CN114170560B (zh) | 一种基于深度强化学习的多设备边缘视频分析系统 | |
CN116258941A (zh) | 基于Android平台的yolox目标检测轻量化改进方法 | |
CN110087041A (zh) | 基于5g基站的视频数据处理及传输方法和系统 | |
CN115098115B (zh) | 边缘计算任务卸载方法及装置、电子设备、存储介质 | |
CN109375999A (zh) | 一种基于贝叶斯网络的mec随机任务迁移方法 | |
CN112836822A (zh) | 基于宽度学习的联邦学习策略优化方法和装置 | |
CN114925720A (zh) | 基于时空混合特征提取网络的小样本调制信号识别方法 | |
CN114169506A (zh) | 一种基于工业物联网平台的深度学习边缘计算系统框架 | |
CN117114113B (zh) | 一种基于排队论的协同推理加速方法 | |
Wang et al. | Edge video analytics with adaptive information gathering: a deep reinforcement learning approach | |
Sun et al. | Semantic-driven computation offloading and resource allocation for uav-assisted monitoring system in vehicular networks | |
CN116007616A (zh) | 一种基于网络状态决策的自适应地图构建系统及方法 | |
CN115861664A (zh) | 基于局部特征融合与自注意力机制的特征匹配方法及系统 | |
Huang et al. | Latency guaranteed edge inference via dynamic compression ratio selection | |
CN108668265B (zh) | 基于循环神经网络预测移动用户间相遇概率的方法 | |
Fang et al. | PIB: Prioritized Information Bottleneck Framework for Collaborative Edge Video Analytics | |
CN113157344A (zh) | 移动边缘计算环境下基于drl的能耗感知任务卸载方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |