CN115022319A

CN115022319A - 一种基于drl的边缘视频目标检测任务卸载方法及系统

Info

Publication number: CN115022319A
Application number: CN202210607997.1A
Authority: CN
Inventors: 骆淑云; 程浩宇
Original assignee: Zhejiang Sci Tech University ZSTU
Current assignee: Zhejiang Sci Tech University ZSTU
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-06

Abstract

本发明公开了一种基于深度强化学习的边缘视频目标检测任务卸载方法及系统，本发明方法包括如下步骤：S1，建立多终端设备单MEC服务器的系统模型；S2，建立处理视频任务的时延模型；S3，建立处理视频任务的能耗模型；S4，建立优化目标为最小化MEC系统任务处理时延与能耗加权成本的问题模型；S5，设计基于深度强化学习的视频任务卸载策略；S6，初始化网络权重、经验回放池、MEC系统各队列状态；S7，终端设备根据卸载策略执行卸载决策并与环境交互；S8，抽取经验样本更新网络权重；S9，重复上述步骤S7、S8，直至奖励曲线收敛。本发明使终端设备根据环境状态输出最优卸载决策，达到最小的系统成本。

Description

一种基于DRL的边缘视频目标检测任务卸载方法及系统

技术领域

本发明属于计算机技术领域，涉及数据处理技术，具体涉及一种基于深度强化学习的边缘视频目标检测任务卸载方法及系统。

背景技术

随着物联网(Internet of Things，IoT)、车联网和移动互联网的高速发展，计算密集型和时延敏感型的应用程序随之增加，基于移动云计算(Mobile Cloud Computing，MCC)的集中式任务卸载方案很难适用该类场景。同时，具有数据隐私性、数据敏感性特点的应用，将其数据传输或存储于云服务器的方式难以保证其安全性。移动边缘计算(MobileEdge Computing，MEC)作为一种新兴计算范式，通过在终端设备更近的网络边缘部署计算资源，进而使云服务更贴近用户。

视频分析类应用产生的目标检测(Object Detection)计算任务通常涉及多个计算环节，且各环节间具有复杂的依赖性。近年来，目标检测领域中已出现YOLO系列、MobileNet等多种轻量化计算机视觉算法。此外，随着移动手机、网络摄像头等终端设备的硬件升级，配备GPU(或NPU)加速计算芯片的终端设备能够运行上述算法，独立完成一定的视频分析任务。然而，视频分析应用通常要求是低时延和快速响应的，终端设备仍受其功耗或存储资源等限制，难以满足该类应用需求。

因此，终端设备通过结合MEC计算卸载技术，将视频分析任务卸载至边缘服务器进行处理，进而扩展了终端设备计算能力以及有效降低视频任务处理时延。近年来，越来越多的研究聚焦于任务卸载策略的设计与优化。一方面，大多数基于启发式算法和遗传算法等传统优化方法难以适用高度动态的MEC网络场景；另一方面，基于强化学习(ReinforcementLearning，RL)算法的卸载策略虽能适应MEC动态环境，但随着状态空间和动作空间增大，以表格形式存储状态价值的RL算法将面临维度爆炸的挑战。对此，深度强化学习(DeepReinforcement Learning，DRL)算法通过结合RL算法的动态适用能力和深度神经网络(Deep Neural Network，DNN)强大的拟合能力，进而对高维复杂状态信息进行表征。通过检索现有技术获得，Lu等人针对大规模多节点MEC系统，提出了一种基于深度Q网络(Deep-Q-Network，DQN)的任务卸载方案。Zhang等人考虑多设备MEC场景下任务卸载率和本地计算能力为连续型数值，提出了一种基于Actor-Critic算法的任务卸载方案。Du等人考虑无线信道的时变性，提出了一种基于DRL的解决方案，学习最优视口渲染卸载和传输功率以最小化能耗。然而，上述文献均未综合考虑视频分析任务复杂计算过程的高效处理，以及MEC网络时变性对视频任务卸载决策的动态影响。

发明内容

针对现有技术存在的不足，本发明提出了一种MEC中视频目标检测任务的计算卸载方法及系统，本发明通过优化MEC系统中各终端设备的卸载决策，实现任务时延和能耗的加权成本最小化。

本发明采取如下技术方案：

一种基于DRL的边缘视频目标检测任务卸载方法，包括如下步骤：

S1，建立多终端设备单MEC服务器的系统模型；

S2，建立处理视频任务的时延模型；

S3，建立处理视频任务的能耗模型；

S4，建立优化目标为最小化MEC系统任务处理时延与能耗加权成本的问题模型；

S5，设计基于深度强化学习的视频任务卸载策略；

S6，初始化网络权重、经验回放池、MEC系统各队列状态；

S7，终端设备根据卸载策略执行卸载决策并与环境交互；

S8，抽取经验样本更新网络权重；

S9，重复上述步骤S7、S8，直至奖励曲线收敛。

本发明考虑一个由单个MEC服务器和多个相同硬件配置的终端设备构成的MEC系统模型。其中，终端设备集合定义为M＝{1,2,...,M}，m∈M定义为设备索引；各设备通过无线连接至MEC服务器，MEC服务器为终端设备提供计算资源。

优选的，步骤S1具体如下：

S1.1，建立视频分析任务模型

MEC系统时间可由时隙集合T＝{1,2,...,T}来表示，时隙索引和时隙长度分别由t∈T和Δ(单位为秒)表示。假定在每个时隙起始时刻，各终端设备均产生一个视频分析任务V_m(t)＝{Z_m(t),D_m(t)}。其中，Z_m(t)表示视频任务的数据大小(单位为bit)，D_m(t)表示该视频任务的时长(单位为秒)。

S1.2，设计视频任务卸载决策

为实现“边-端”协同处理视频任务，本发明考虑在视频任务执行计算前，将视频按其时间轴均等切分为多个视频片段(Video chunk，下面简称视频块)。进而，一个完整的视频分析任务的卸载问题被转化为多个子任务卸载问题。具体地，终端设备对任务V_m(t)切分后产生的视频块数量定义为K_m(t)，即视频块的数量。则由式(1)表示：

其中，d表示单个视频块时长(单位为秒)。将该终端设备m在时刻t的卸载决策定义为任务V_m(t)的卸载率α_m(t)∈[0,1]。因此，任务V_m(t)执行卸载的视频块数量

如式(2)所示：

上式中

表示向上取整。进而，任务V_m(t)在本地计算的视频块数量

表示为：

优选的，步骤S2，建立处理视频任务的时延模型，具体如下；

对于视频分析类应用来说，其计算时延通常作为重点关注的应用需求之一，计算结果需要在低时延下及时反馈至用户或汇总至服务器。本发明研究主要集中于工业互联网中生产质检等场景，故后续实验场景将计算结果汇总于MEC服务器集中管理。

S2.1，建立视频任务本地计算的时延模型

针对视频目标检测任务的计算流程，对任务V_m(t)切分预处理后，视频块的本地计算流程为：视频编解码(Video codec)、深度学习模型推理(Inference)和上传推理结果(Upload result)。下面针对t时刻终端设备m本地处理

个视频块，计算和分析各环节的时延成本：

首先，深度学习模型进行推理计算需要输入为RGB格式的帧数据，故视频块需先完成视频编解码操作。具体地，单个视频块由原数据格式(简称RAW格式)转换为RGB格式的帧数据，这一过程的时延消耗如式(4)所示：

上式中C^r2r表示单个视频块完成r2r编解码所需周期数(r2r代表RAW to RGB)；

定义为终端设备的计算能力，由周期频率表示。

此外，视频块计算过程需要考虑其所在计算队列的状态，即t时刻终端设备m中r2r编解码队列长度

那么对于

个视频块，其中第i个视频块的排队时延

如式(5)所示：

上式中，第一项表示r2r编解码队列中剩余任务的处理时延；第二项表示对前i-1个视频块的处理时延。因此，第i个视频块完成r2r编解码产生的时延消耗如(6)所示：

接下来，完成r2r编解码的视频块以帧数据的形式进行深度学习模型推理环节。对于搭载GPU芯片的终端设备(如本发明仿真实验中采用的NVIDIA Jetson Nano B01开发板)，其模型推理操作通常由该芯片完成。单个视频块在终端设备完成推理所需时延由式(7)所示：

上式中

表示本地终端设备的GPU工作频率；C^inf表示单个视频块完成模型推理所需周期数。结合上述编解码过程的时延计算，模型推理过程同样需要考虑排队时延，这里将

定义为t时刻设备m的模型推理队列长度。本地处理的视频块数量

为零时，即本地设备只需处理推理队列剩余任务，时延消耗如式(8)表示：

对于

的情况，假定

作为其视频块索引。那么第i个视频块完成推理产生时延如式(9)所示：

由于推理结果通常以json格式等小数据量文件传输至MEC服务器，本MEC场景下推理结果数据量近似等于视频输入数据的千分之一。对此，本问题模型中将推理结果上传时延忽略不计。

综上分析，终端设备m在t时刻本地处理完所有任务的时延成本如式(10)表示：

S2.2，视频任务执行计算卸载的时延模型

区别于本地计算模型，终端设备对视频任务执行卸载时，其视频块的处理过程主要涉及：视频编解码、网络传输和深度学习模型推理。对于t时刻到达终端设备m的视频任务V_m(t)，数量为

的视频块将被卸载至MEC服务器完成处理。下面分析卸载过程中各环节产生的时延消耗。

模型推理的输入数据要求为RGB格式的帧数据，但视频数据在卸载过程中涉及网络传输，终端设备执行r2r编解码后传输RGB帧数据可能导致传输时延过高。本发明考虑采用基于视频压缩技术的H.264格式作为计算卸载时数据传输格式(本发明仅以H.264格式代表一系列视频压缩格式，重点突出基于视频压缩格式数据传输的高效性)。

结合上述分析，终端设备首先将视频数据由原格式转换为H.264压缩格式(即RAWto H.264，即r2h)。与r2r编解码类似，第j个视频块

编解码时延需考虑自身完成r2h编解码耗时及其排队耗时，具体由式(11)给出：

上式中

代表t时刻r2h编解码队列长度；单个视频块r2h耗时

(表示单个视频块完成r2h编解码所需计算资源)。

接下来，完成r2h编解码的H.264格式数据将通过无线链路上传至MEC服务器，该传输过程产生的时延将主要由视频数据量及传输速率决定。t时刻终端设备与MEC服务器间的上行传输速率r(t)根据香农定理得到，具体如下：

其中，W(t)表示t时刻网络信道带宽；h表示终端设备与MEC服务器之间的信道增益；P表示终端设备传输功率；σ²为高斯白噪声功率。由于所提系统场景时隙间隔较小，因此假定时隙t起始时刻到时隙t+1起始时刻前，传输速率r(t)保持不变。

考虑实际系统中视频分析通常涉及多个计算环节，串行式的处理流程无法高效利用设备计算资源，可能导致处理低效。相反，并行处理视频分析任务能够充分利用设备可用资源，多个计算环节并行高效工作。由于多进程并行的工作方式，且网络传输时间受MEC网络时变性的影响，视频块j最终到达MEC服务器的时延难以通过数学公式准确表示。对此，考虑采用如下方式对其传输时延进行近似表示，具体如式(13)所示：

上式中

表示视频块j开始处理前的等待时长，其对应计算方式如式(14)：

式(14)中，

定义为时刻t下终端设备m的网络传输队列长度；max(·)项中第一项为传输队列剩余任务的预期传输耗时，第二项为视频块j进行r2h编解码所需排队时间。

式(13)的max(·)项用于近似表示视频块j从开始处理至到达MEC服务器耗时，其中，第一项表示该视频块r2h编解码耗时，第二项表示其预期传输耗时。本发明在真实场景下多种网络状态下实验发现：1)在网络状态较好时(即上行速率r(t)较高)，编解码进程产生的数据包能够以较低时延到达MEC服务器，此时max(·)项近似等于该视频块r2h编解码耗时；2)然而网络状态较差(即上行速率r(t)较低)时，网络传输过慢导致了r2h编解码完成的数据包大量堆积于传输队列，预期传输耗时远大于编解码耗时，此时max(·)项可近似等于传输耗时。结合上述分析，视频块j最终到达MEC服务器的时延以近似方式表示。

基于H.264格式的视频块到达MEC服务器后，MEC服务器需进行编解码将其转换为RGB帧数据(即H.264to RGB，简称h2r)，用于后续深度学习模型推理。与本地计算模型中编解码时延计算方式类似，这里直接给出视频块j由设备m产生至到达服务器完成h2r编解码的时延消耗：

上式

表示视频块在r2h队列的排队时延；L^s,h2r表示自身h2r编解码耗时。

最后，视频块j在MEC服务器完成模型推理所耗时延由式(16)表示：

式(16)中max(·)项表示视频块j开始推理前的等待时间，其表示视频块j开始推理需满足两个前提：1)该视频块完成了h2r编解码；2)前j-1个视频块均完成模型推理。另外，

表示MEC服务器的GPU工作频率。

综合该步骤分析，终端设备m在t时刻卸载

个视频块，其预期时延消耗为：

综上，终端设备m对任务V_m(t)执行卸载决策α_m(t)，完成全部任务的预期时延L_m(t)由本地计算时延及卸载计算时延决定。具体如式(18)所示：

优选的，步骤S3，建立处理视频任务的能耗模型，具体如下：

对于移动手机等终端设备，任务处理需求应考虑其电池资源状态。因此，合理的卸载策略应充分考虑时延和能耗两方面。下面对能耗模型进行构建：

S3.1，计算终端设备能耗

视频任务在本地终端计算产生的能耗主要由r2r编解码、r2h编解码和模型推理决定。其中r2r编解码能耗

和r2h编解码能耗

如式(19)和式(20)所示：

上式中κ表示终端设备能耗系数，该数值取决于设备芯片。

和

分别表示单个视频块在本地完成r2r编解码和r2h编解码产生的能耗。

终端设备利用GPU芯片进行模型推理计算，该过程产生能耗主要由本地处理视频块数量

和设备GPU工作频率决定，具体如式(21)所示：

综上，t时刻终端设备m处理任务V_m(t)，在其本地产生总能耗

为：

S3.2，计算网络传输能耗

终端设备对任务执行计算卸载时产生能耗，主要由卸载视频块数量

视频块数据量Z_m(t)/K_m(t)及上行链路传输速率r(t)决定，如式(23)所示：

S3.3，计算MEC服务器能耗

MEC服务器主要接收终端设备传输过来的视频数据并进行处理，包括视频h2r编解码和深度学习模型推理。因此终端设备m卸载数量为

的视频块在MEC服务器完成h2r编解码产生能耗

如式(24)所示：

κ^s表示MEC服务器的能耗系数，

表示单个视频块完成h2r编解码产生的能耗。类似地，

表示单个视频块在服务器完成推理产生的能耗。因此MEC服务器对视频块进行模型推理的能耗如式(25)所示：

因此，对于t时刻到达终端设备m的任务V_m(t)，MEC产生对应能耗为：

综上，对于t时刻到达MEC系统各设备的视频任务来说，其处理产生能耗可总结为：

优选的，步骤S4，建立优化目标为最小化MEC系统任务处理时延与能耗加权成本的问题模型，具体如下：

本发明将终端设备集合M＝＝{1,2,...,M}与一个MEC服务器作为一个MEC系统，整个MEC系统时延相当于全部设备任务处理时延的最大值(即以最后一个任务完成的时刻视作全部任务处理完成)。进而所有终端设备在t时刻的任务预期完成时延可由式(28)表示：

L(t)＝(L₁(t),...,L_m(t),...,L_M(t)) (28)

结合上一步骤建立的能耗成本函数E(t)，将时延与能耗的加权和作为MEC系统成本。因此优化目标为通过联合优化各终端设备卸载决策，最小化MEC系统成本函数。将α(t)＝(α₁(t),α₂(t),...,α_M(t))定义为所有终端设备的联合卸载决策向量。综上，该问题模型如式(29)所示：

上式中λ₁和λ₂分别表示时延和能耗的权衡系数。

优选的，步骤S5，设计基于深度强化学习的视频任务卸载策略

根据上一步骤建立的问题模型，其目标函数非凸，并且终端设备数量增多导致问题规模指数级增大使得该问题难以用传统优化方法求解；更重要的是MEC卸载问题需要考虑复杂环境动态性并实时输出决策。对此，下面将提出一种基于DRL的卸载方法，通过历史交互经验迭代学习最优卸载策略。

针对该卸载问题属于连续性动作空间的特点，采用双延迟深度确定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient，TD3)算法来学习最优卸载决策。该算法作为深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)算法的改进版本，有效解决DDPG中存在的过估计问题，并加入延迟更新和平滑目标动作使得算法收敛更加高效稳定。

本步骤具体如下：

S5.1，建立马尔科夫决策过程模型

马尔科夫决策过程主要包含三个关键要素：状态(State)、动作(Action)和奖励(Reward)。首先t时刻的状态空间S(t)定义为任务状态、终端设备与服务器队列状态和网络带宽状态的组合向量，如式(30)表示：

式中向量Z(t)和向量D(t)分别表示终端设备集合的任务数据量及其时长，具体表示为Z(t)＝(Z₁(t),Z₂(t),...,Z_M(t))，D(t)＝(D₁(t),D₂(t),...,D_M(t))。此外，向量Q^l(t)、Q^s(t)和Q^trans(t)分别表示t时刻各设备队列状态，如(31)、式(32)和式(33)所示：

Q^s(t)＝(Q^s,h2r(t),Q^s,inf(t)) (32)

式(30)中W(t)表示当前时刻带宽；

表示网络动态预测信息，该数值计算方式将在下一部分S5.2中详细介绍。

其次，动作空间A(t)定义为全部终端设备组成的卸载决策向量，具体表示为

A(t)＝(α₁(t),...,α_m(t),...,α_M(t)),

该动作空间中卸载率为连续型数值，然而若采用离散动作建模，由于各时隙K_m(t)数值不同将导致其各时隙动作空间维度无法统一，进而无法适用DRL算法模型结构。

最后，本发明将奖励定义为目标函数的负相关函数。强化学习的目标是最大化长期奖励，进而最终实现系统成本最小化。奖励函数R(t)定义为R(t)＝-(λ₁max(L(t))+λ₂E(t))。

S5.2，构建基于LSTM的网络动态性预测模块

在仿真实验过程中发现，基于原始TD3算法的卸载方法输出当前时隙的卸载决策，难以获得长期最优回报。出现该问题的主要原因是原始状态空间仅考虑当前时隙的网络状态，缺乏关于MEC网络的动态性信息。针对LSTM序列模型具有对时序性状态的记忆学习能力，能够有效捕获网络动态变化，本发明将TD3算法与LSTM序列模型相结合以解决上述瓶颈。

该LSTM模型中包含编码器(Encoder)与解码器(Decoder)。本发明将长度为H的历史带宽序列作为编码器输入，编码器对输入序列提取特征；解码器根据特征输出目标序列，最后通过一个全连接层输出对下一时隙的网络状态预测

H维带宽序列表示为

W(t)＝(W(t-H),...,W(t-2),W(t-1)),1≤H≤T,1≤t≤T。

将

与原状态向量(Z(t),D(t),Q^l(t),Q^s(t),Q^trans(t),W(t))拼接组成新的状态向量S(t)，即式(30)所示向量。

S5.3，改进原始经验回放机制

原始经验回放(Experience Replay)机制是DRL算法关键技术之一，智能体的交互经验样本存储于经验回放池(Experience Replay Buffer)，对其中样本进行随机抽样进而极大程度地消除样本间相关性。但是，在DRL算法训练过程中，采用该机制更新策略时随机采样很难获得最具“学习价值”的经验样本，导致算法收敛效果欠佳。除此之外，对于MEC任务卸载系统场景来说，智能体很难得到传统意义上的“成功样本”，这将使算法学习过程更具有挑战性。

为解决上述问题，本发明提出一种新的经验回放机制，对经验样本进行分级存放。具体地，算法训练阶段设定一系列基准奖励方案，然后将实际经验样本与其基准奖励进行奖励值比较，最后按分级标准存入相应经验回放池。

基准奖励方案的选择主要基于以下思路：1)合理的计算资源分配在MEC场景下尤为重要，故卸载策略应尽量避免输出全0或全1的卸载决策，这样不会出现大量任务堆积于同一设备的情形；2)基准奖励方案用于DRL算法的训练阶段，故需考虑选择时间复杂度较低的卸载方法(如贪心策略在终端设备数量较大时时间复杂度较高，严重影响DRL算法训练效率)。

本发明考虑将全本地计算策略与全卸载策略作为基准奖励方案。其中，经验回放池A用于存放奖励值高于基准奖励的经验样本；经验回放池B用于存放奖励较低的经验样本。X表示算法更新时采样的样本数量，δ表示样本的采样权重，有0≤δ≤1。

优选的，步骤S6，初始化网络权重、经验回放池、MEC系统各队列状态，具体是：

TD3算法是基于Actor-Critic框架提出的模型结构，其主体由Actor网络与Critic网络构成；该算法为解决过估计问题提出了具有6个神经网络的模型结构，分别为：Actor网络及其目标网络、两个Critic网络，以及两个Critic目标网络。因此在训练环节开始前，需要先随机初始化Actor网络权重θ^μ和Critic网络权重

和

然后将其各自目标网络权重拷贝初始化。

设定双经验回放池具有相同的最大容量，并清空经验回放池。经验回放池用于存储智能体与环境交互产生的经验样本，每个经验样本通常由四元组(S(t),A(t),R(t),S(t+1))表示；同时为DRL算法网络更新权重提供经验样本，具体采样方式为步骤5中双经验回放池根据权重系数δ进行采样。

训练环节开始前，初始化MEC系统中各终端设备与MEC服务器内部队列状态。接下来，获取环境起始时刻状态S(1)，并重置历史网络带宽序列W(1)为H维全零向量。

优选的，步骤S7，终端设备根据卸载策略执行卸载决策并与环境交互，具体是：

根据本发明所提任务卸载方法，将当前时刻状态向量S(t)输出动作向量A(t)，即各终端设备卸载决策。具体方式如式(34)所示：

上式中σ₀代表噪声策略，c代表噪声临界值，裁剪噪声的作用是尽量使目标接近原始动作。

各终端设备根据动作向量A(t)对视频任务执行卸载决策，并由上述奖励函数获得即时奖励R(t)。环境状态由S(t)更新为S(t+1)，同时更新历史网络带宽序列W(t)。最后将本次经验样本(S(t),A(t),R(t),S(t+1))依据基准奖励存储于相应经验回放池。

优选的，步骤S8，抽取经验样本更新算法网络权重，具体是：

网络权重每次更新时抽取的经验样本数目为X，根据采样系数δ分别从经验回放池A和经验回放池B中采样经验样本，最后得到X个样本(S_i,A_i,R_i,S_i+1)。Actor网络和Critic网络采用计算梯度的方式更新权重，两者的目标网络以软更新的方式更新权重。

优选的，步骤S9，重复上述步骤S7和步骤S8，直至算法奖励曲线收敛

通过迭代更新网络参数，使其奖励值曲线趋于收敛状态即可结束该迭代过程。这意味着MEC系统成本经过多次迭代趋于收敛，最终达到最小值。

本发明还公开了一种基于DRL的边缘视频目标检测任务卸载系统，其包括如下模块：

系统模型建立模块，建立多终端设备单MEC服务器的系统模型；

时延模型建立模块，建立处理视频任务的时延模型；

能耗模型建立模块，建立处理视频任务的能耗模型；

问题模型建立模块，建立优化目标为最小化MEC系统任务处理时延与能耗加权成本的问题模型；

视频任务卸载策略设计模块，设计基于深度强化学习的视频任务卸载策略；

初始化模块，初始化网络权重、经验回放池、MEC系统各队列状态；

执行模块，终端设备根据卸载策略执行卸载决策并与环境交互；

更新权重模块，抽取经验样本更新网络权重；

迭代模块，使执行模块、更新权重模块重复执行，直至奖励曲线收敛。

本发明公开了一种基于深度强化学习的边缘视频目标检测任务卸载方法及系统，本发明为终端设备提供了一种视频任务的计算卸载计算方案。本发明根据多终端设备单MEC服务器的系统模型，构建了“边-端”协同处理视频任务的时延模型和能耗模型，然后根据最小化任务时延和能耗加权成本的优化目标，设计了基于深度强化学习算法的视频任务卸载策略；考虑到MEC系统的网络动态性和深度强化学习算法的学习效率，引入了LSTM时序模型并且改进了原有经验回放机制；最终提出了一种LD-TD3算法，终端设备根据环境状态输出最优卸载决策，实现最小的系统成本。

附图说明

图1是本发明一种基于DRL的边缘视频目标检测任务卸载方法的流程示意图；

图2是MEC视频任务卸载系统模型图；

图3是不同视频数据格式的传输时间对比图；

图4是视频卸载过程示意图；

图5是改进经验回放机制结构图；

图6是系统成本在不同终端设备数量下的表现；

图7是不同视频数据格式的传输时间对比图；

图8是本发明一种基于DRL的边缘视频目标检测任务卸载系统框图。

具体实施方式

下面结合附图及实例对本发明进行详细描述，所描述实施例仅起到说明的目的，而不是对本发明范围的限制。

本发明的目的在于克服上述研究工作的缺点，针对视频分析任务的计算卸载问题提出了一种基于DRL算法的视频分析任务卸载方法。该方法通过优化多个终端设备的卸载决策，实现任务处理时延和能耗的加权最小化。

实施例1

如图1所示，本实施例一种基于DRL的边缘视频目标检测任务卸载方法，包括如下步骤：

S1，建立多终端设备单MEC服务器的系统模型，具体如下：

如图2所示，本发明考虑了一个由单个MEC服务器和多个相同硬件配置的终端设备构成的MEC系统模型。其中，终端设备集合定义为M＝{1,2,...,M}，m∈M定义为设备索引；各设备通过无线连接至MEC服务器，MEC服务器为终端设备提供计算资源。

S1.1，视频分析任务模型

S1.2，视频任务卸载决策

其中，d表示单个视频块时长(单位为秒)。这里将该终端设备m在时刻t的卸载决策定义为任务V_m(t)的卸载率α_m(t)∈[0,1]。因此，任务V_m(t)执行卸载的视频块数量

如式(2)所示：

上式中

表示向上取整。进而，任务V_m(t)在本地计算的视频块数量

表示为：

S2，建立处理视频任务的时延模型，具体如下：

S2.1，建立视频任务本地计算的时延模型

个视频块，计算和分析各环节的时延成本：

定义为终端设备的计算能力，由周期频率表示。

那么对于

个视频块，其中第i个视频块的排队时延

如式(5)所示：

上式中，第一项表示r2r编解码队列中剩余任务的处理时延；第二项表示对前i-1个视频块的处理时延。

因此，第i个视频块完成r2r编解码产生的时延消耗如(6)所示：

上式中

表示本地终端设备的GPU工作频率；C^inf表示单个视频块完成模型推理所需周期数。结合上述编解码过程的时延计算，模型推理过程同样需要考虑排队时延，将

对于

的情况，假定

S2.2，视频任务执行计算卸载的时延模型

的视频块将被卸载至MEC服务器完成处理。下面将分析卸载过程中各环节产生的时延消耗。

模型推理的输入数据要求为RGB格式的帧数据，但视频数据在卸载过程中涉及网络传输，终端设备执行r2r编解码后传输RGB帧数据可能导致传输时延过高。如图3所示，给出了固定上行带宽10Mbps下的两种数据格式传输时延情况。从图3中可看出，基于RGB格式的帧数据传输时延随着帧数据量的增加而增加；而基于H.264格式的视频压缩数据随着帧数据量增加仍可维持较低的传输时延，甚至其传输效率在数据量大于20帧后优于RGB格式近10倍。因此，本发明考虑采用基于视频压缩技术的H.264格式作为计算卸载时数据传输格式(本发明仅以H.264格式代表一系列视频压缩格式，重点突出基于视频压缩格式数据传输的高效性)。

上式中

代表t时刻r2h编解码队列长度；单个视频块r2h耗时

(表示单个视频块完成r2h编解码所需计算资源)。

考虑实际系统中视频分析通常涉及多个计算环节，串行式的处理流程无法高效利用设备计算资源，可能导致处理低效。相反，并行处理视频分析任务能够充分利用设备可用资源，多个计算环节并行高效工作。如图4所示，视频数据网络传输进程与r2h编解码进程并行工作。具体地，每个视频块以固定长度(单位为Bytes)的数据包完成r2h编解码后，进入网络传输进程(图4中添加表头信息用于解析数据包，以区分数据类型为视频数据还是推理结果)。由于多进程并行的工作方式，且网络传输时间受MEC网络时变性的影响，视频块j最终到达MEC服务器的时延难以通过数学公式准确表示。对此，考虑采用如下方式对其传输时延进行近似表示，具体如式(13)所示：

上式中

式(14)中，

式(13)的max(·)项用于近似表示视频块j从开始处理至到达MEC服务器耗时，其中第一项表示该视频块r2h编解码耗时，第二项表示其预期传输耗时。本发明在真实场景下多种网络状态下实验发现：1)在网络状态较好时(即上行速率r(t)较高)，编解码进程产生的数据包能够以较低时延到达MEC服务器，此时max(·)项近似等于该视频块r2h编解码耗时；2)然而网络状态较差(即上行速率r(t)较低)时，网络传输过慢导致了r2h编解码完成的数据包大量堆积于传输队列，预期传输耗时远大于编解码耗时，此时max(·)项可近似等于传输耗时。结合上述分析，视频块j最终到达MEC服务器的时延以近似方式表示。

上式

表示MEC服务器的GPU工作频率。

综合该步骤分析，终端设备m在t时刻卸载

个视频块，其预期时延消耗为：

综上所示，终端设备m对任务V_m(t)执行卸载决策α_m(t)，完成全部任务的预期时延L_m(t)由本地计算时延及卸载计算时延决定。具体如式(18)所示：

S3，建立处理视频任务的能耗模型，具体如下：

S3.1，计算终端设备能耗

和r2h编解码能耗

如式(19)和式(20)所示：

上式中κ表示终端设备能耗系数，该数值取决于设备芯片。

和

和设备GPU工作频率决定，具体如式(21)所示：

综上，t时刻终端设备m处理任务V_m(t)，在其本地产生总能耗

为：

S3.2，计算网络传输能耗

S3.3，MEC服务器能耗

的视频块在MEC服务器完成h2r编解码产生能耗

如式(24)所示：

κ^s表示MEC服务器的能耗系数，

表示单个视频块完成h2r编解码产生的能耗。类似地，

S4，建立优化目标为最小化MEC系统任务处理时延与能耗加权成本的问题模型，具体如下：

本发明将终端设备集合M＝{1,2,...,M}与一个MEC服务器作为一个MEC系统，整个MEC系统时延相当于全部设备任务处理时延的最大值(即以最后一个任务完成的时刻视作全部任务处理完成)。进而所有终端设备在t时刻的任务预期完成时延可由式(28)表示：

L(t)＝(L₁(t),...,L_m(t),...,L_M(t)) (28)

上式中λ₁和λ₂分别表示时延和能耗的权衡系数。

S5，设计基于深度强化学习的视频任务卸载策略，具体如下：

S5.1，建立马尔科夫决策过程模型

式中向量Z(t)和向量D(t)分别表示终端设备集合的任务数据量及其时长，具体表示为Z(t)＝(Z₁(t),Z₂(t),...,Z_M(t))，D(t)＝(D₁(t),D₂(t),...,D_M(t))。此外，向量Q^l(t)、Q^s(t)和Q^trans(t)分别表示t时刻各设备队列状态，如如(31)、式(32)和式(33)所示：

Q^s(t)＝(Q^s,h2r(t),Q^s,inf(t)) (32)

式(30)中W(t)表示当前时刻带宽；

表示网络动态预测信息，该数值计算方式将在下一部分步骤S5.2中详细介绍。

A(t)＝(α₁(t),...,α_m(t),...,α_M(t)),

S5.2，构建基于LSTM的网络动态性预测模块

H维带宽序列表示为

W(t)＝(W(t-H),...,W(t-2),W(t-1)),1≤H≤T,1≤t≤T。

将

S5.3，改进原始经验回放机制

如图5所示，本发明考虑将全本地计算策略与全卸载策略作为基准奖励方案。图中经验回放池A用于存放奖励值高于基准奖励的经验样本；经验回放池B用于存放奖励较低的经验样本。X表示算法更新时采样的样本数量，δ表示样本的采样权重，有0≤δ≤1。

S6，初始化网络权重、经验回放池、MEC系统各队列状态，具体如下：

TD3算法是基于Actor-Critic框架提出的模型结构，因此其主体由Actor网络与Critic网络构成；该算法为解决过估计问题提出了具有6个神经网络的模型结构，分别为：Actor网络及其目标网络、两个Critic网络，以及两个Critic目标网络。因此在训练环节开始前，需要先随机初始化Actor网络权重θ^μ和Critic网络权重θQ1和θQ2；然后将其各自目标网络权重拷贝初始化。

S7，终端设备根据卸载策略执行卸载决策并与环境交互，具体如下：

S8，抽取经验样本更新算法网络权重，具体如下：

网络权重每次更新时抽取的经验样本数目为X，根据采样系数δ分别从经验回放池A和经验回放池B中抽取经验样本，最终得到X个样本(S_i,A_i,R_i,S_i+1)。Actor网络和Critic网络采用计算梯度的方式更新各自网络权重，Actor目标网络和Critic目标网络均以软更新的方式更新权重。

S9，重复上述步骤S7和步骤S8，直至算法奖励曲线收敛

下面给出了仿真实验参数设定及其对应实验结果分析。

本实验在Ubuntu 18.04LTS操作系统下基于Python 3.7实现，模型推理涉及的深度学习算法和DRL算法均采用PyTorch 1.7.0框架实现。仿真实验中相关参数参照真实MEC场景下测得的实际数据，其中终端设备采用NVIDIA Jetson Nano B01 4GB开发板，MEC服务器的CPU采用Intel Core i7-7700、GPU为NVIDIA GeForce GTX 2080芯片。终端设备传输功率P为20dBm，噪声功率σ²为10^-10W/Hz。终端设备生成的视频任务，将其FPS设定为30(单位为帧每秒)；每个时隙生成视频任务的随机数据量在2.4Mb到14.4Mb范围，其视频时长范围为2秒到12秒。其他实验参数配置如表1所示，DRL算法相关超参数如表2所示。

表1 MEC系统参数配置

表2 DRL算法超参数设定

实验结果及分析

本次实验选取的对比算法包含三种通用基准策略和两种基于DRL算法的卸载策略。三种基准策略分别为：1)全本地计算策略(All Local Computing Policy，All-Loc)、2)全卸载策略(All Offloading Policy，All-Off)、3)随机卸载策略(Random OffloadingPolicy，Random)；两种基于DRL算法的卸载策略为：1)基于原始TD3算法的卸载策略(用于验证加入LSTM模块的有效性)；2)基于TD3+LSTM的卸载策略(用于验证本发明所提出的经验回放机制有效性)。本发明对应的算法为LD-TD3(TD3 with LSTM and Dual ExperienceReplay)。

对比实验1：图6给出了在不同终端设备数量下，MEC系统成本在各卸载策略下的对比。从图中可以看出，相较于其他基准策略，LD-TD3算法在不同终端设备数量下均能达到最低系统成本。具体地，本发明所提算法在系统成本上优于“TD3+LSTM”卸载策略，从而证明了本发明提出的经验回放机制对性能提升的有效性；同时“TD3+LSTM”在大多情况下优于原始TD3算法，也说明了LSTM模块在算法性能提升的作用。根据实验结果整体来看，基于DRL算法的卸载策略均大幅优于All-Loc、All-Off和随机策略，这说明了针对MEC场景下任务计算卸载问题可通过DRL算法较好地解决。此外，随着终端设备数量的不断增加，意味着MEC服务器的任务量大幅增加，MEC系统成本整体上升。但基于DRL算法的卸载策略仍能从交互中学习有效信息且获得较好的表现。

对比实验2：图7给出了在不同任务到达间隔下，各卸载策略的系统成本对比。从图中不难看出，各策略在间隔时间较大时可用计算资源较多，则能够获得较好的表现；但随着任务到达的间隔变小，意味着终端设备和MEC服务器计算资源减少、处理任务压力增大导致任务队列堆积现象加重，进而系统成本大幅增加。如图7所示，三种基于DRL算法的卸载策略均优于其他三种基准策略，说明DRL算法能够适应不同系统环境的动态变化，从历史经验更新策略，进而获得更低的系统成本。更重要的是，本发明所提LD-TD3算法能够在各情况下获得较于其他算法更低的系统成本，从而实现视频任务的高效处理。

实施例2

如图8所示，本实施例一种基于DRL的边缘视频目标检测任务卸载系统，包括如下模块：

时延模型建立模块，建立处理视频任务的时延模型；

能耗模型建立模块，建立处理视频任务的能耗模型；

更新权重模块，抽取经验样本更新网络权重；

本实施例其他内容可参考实施例1。

本发明通过上述实施方案对所提出的任务卸载方法进行了详细的说明，但在本发明基础之上仍可做出一定修正及优化。因此在不偏离本发明设计精神的前提下，本领域技术人员对本发明技术方案做出的修正及优化均应落入本发明的保护范围。

Claims

1.一种基于DRL的边缘视频目标检测任务卸载方法，其特征在于，包括如下步骤：

S1，建立多终端设备单MEC服务器的系统模型；

S2，建立处理视频任务的时延模型；

S3，建立处理视频任务的能耗模型；

S5，设计基于深度强化学习的视频任务卸载策略；

S6，初始化网络权重、经验回放池、MEC系统各队列状态；

S7，终端设备根据卸载策略执行卸载决策并与环境交互；

S8，抽取经验样本更新网络权重；

S9，重复上述步骤S7、S8，直至奖励曲线收敛。

2.如权利要求1所述一种基于DRL的边缘视频目标检测任务卸载方法，其特征在于，步骤S1具体如下：

设一个由单个MEC服务器和多个相同硬件配置的终端设备构成的MEC系统模型；其中，终端设备集合定义为

m∈M定义为设备索引；各设备通过无线连接至MEC服务器，MEC服务器为终端设备提供计算资源；

S1.1，建立视频分析任务模型

MEC系统时间由时隙集合T＝{1,2,...,T}来表示，时隙索引和时隙长度分别由t∈T和Δ表示；假定在每个时隙起始时刻，各终端设备均产生一个视频分析任务V_m(t)＝{Z_m(t),D_m(t)}；其中，Z_m(t)表示视频任务的数据大小，D_m(t)表示该视频任务的时长；

S1.2，设计视频任务卸载决策

在视频任务执行计算前，将视频按其时间轴均等切分为多个视频片段即视频块；进而将一个完整的视频分析任务的卸载问题被转化为多个子任务卸载问题；具体地，终端设备对任务V_m(t)切分后产生的视频块数量定义为K_m(t)，即视频块的数量，则由式(1)表示：

其中，d表示单个视频块时长；将该终端设备m在时刻t的卸载决策定义为任务V_m(t)的卸载率α_m(t)∈[0,1]；因此，任务V_m(t)执行卸载的视频块数量

如式(2)所示：

上式中

表示向上取整；任务V_m(t)在本地计算的视频块数量

表示为：

3.如权利要求2所述一种基于DRL的边缘视频目标检测任务卸载方法，其特征在于，步骤S2具体如下：

S2.1，建立视频任务本地计算的时延模型

针对视频目标检测任务的计算流程，对任务V_m(t)切分预处理后，视频块的本地计算流程为：视频编解码、深度学习模型推理和上传推理结果；针对t时刻终端设备m本地处理

个视频块，计算和分析各环节的时延成本：

首先，深度学习模型进行推理计算需要输入为RGB格式的帧数据，故视频块需先完成视频编解码操作；具体地，单个视频块由原数据格式即RAW格式转换为RGB格式的帧数据，这一过程的时延消耗如式(4)所示：

上式中C^r2r表示单个视频块完成r2r编解码所需周期数，r2r代表RAW to RGB；

定义为终端设备的计算能力，由周期频率表示；

视频块计算过程需要考虑其所在计算队列的状态，即t时刻终端设备m中r2r编解码队列长度

那么对于

个视频块，其中第i个视频块的排队时延

如式(5)所示：

上式中，第一项表示r2r编解码队列中剩余任务的处理时延；第二项表示对前i-1个视频块的处理时延；因此，第i个视频块完成r2r编解码产生的时延消耗如(6)所示：

其次，完成r2r编解码的视频块以帧数据的形式进行深度学习模型推理环节；对于搭载GPU芯片的终端设备，其模型推理操作由该芯片完成；单个视频块在终端设备完成推理所需时延由式(7)所示：

上式中

表示本地终端设备的GPU工作频率；C^inf表示单个视频块完成模型推理所需周期数；结合上述编解码过程的时延计算，模型推理过程同样需要考虑排队时延，将

定义为t时刻设备m的模型推理队列长度；本地处理的视频块数量

对于

的情况，假定

作为其视频块索引；则第i个视频块完成推理产生时延如式(9)所示：

终端设备m在t时刻本地处理完所有任务的时延成本如式(10)表示：

S2.2，视频任务执行计算卸载的时延模型

终端设备对视频任务执行卸载时，其视频块的处理过程涉及：视频编解码、网络传输和深度学习模型推理；对于t时刻到达终端设备m的视频任务V_m(t)，数量为

的视频块将被卸载至MEC服务器完成处理；下面分析卸载过程中各环节产生的时延消耗；

采用基于视频压缩技术的H.264格式作为计算卸载时数据传输格式，以H.264格式代表一系列视频压缩格式；

终端设备首先将视频数据由原格式转换为H.264压缩格式即RAW to H.264，即r2h；第j个视频块编解码时延需考虑自身完成r2h编解码耗时及其排队耗时，

由式(11)给出：

上式中

代表t时刻r2h编解码队列长度；单个视频块r2h耗时

表示单个视频块完成r2h编解码所需计算资源；

完成r2h编解码的H.264格式数据通过无线链路上传至MEC服务器，该传输过程产生的时延将主要由视频数据量及传输速率决定；t时刻终端设备与MEC服务器间的上行传输速率r(t)根据香农定理得到，具体如下：

其中，W(t)表示t时刻网络信道带宽；h表示终端设备与MEC服务器之间的信道增益；P表示终端设备传输功率；σ²为高斯白噪声功率；由于所提系统场景时隙间隔较小，因此假定时隙t起始时刻到时隙t+1起始时刻前，传输速率r(t)保持不变；

采用如下方式对其传输时延进行近似表示，具体如式(13)所示：

上式中

式(14)中，

定义为时刻t下终端设备m的网络传输队列长度；max(·)项中第一项为传输队列剩余任务的预期传输耗时，第二项为视频块j进行r2h编解码所需排队时间；

式(13)的max(·)项用于近似表示视频块j从开始处理至到达MEC服务器耗时，其中第一项表示该视频块r2h编解码耗时，第二项表示其预期传输耗时；

基于H.264格式的视频块到达MEC服务器后，MEC服务器需进行编解码将其转换为RGB帧数据即H.264to RGB，简称h2r，用于后续深度学习模型推理；给出视频块j由设备m产生至到达服务器完成h2r编解码的时延消耗：

上式

表示视频块在r2h队列的排队时延；L^s,h2r表示自身h2r编解码耗时；

视频块j在MEC服务器完成模型推理所耗时延由式(16)表示：

式(16)中max(·)项表示视频块j开始推理前的等待时间，其表示视频块j开始推理需满足两个前提：1)该视频块完成了h2r编解码；2)前j-1个视频块均完成模型推理；另外，

表示MEC服务器的GPU工作频率；

终端设备m在t时刻卸载

个视频块，其预期时延消耗为：

终端设备m对任务V_m(t)执行卸载决策α_m(t)，完成全部任务的预期时延L_m(t)由本地计算时延及卸载计算时延决定；具体如式(18)所示：

4.如权利要求3所述一种基于DRL的边缘视频目标检测任务卸载方法，其特征在于，步骤S3具体如下：

S3.1，计算终端设备能耗

视频任务在本地终端计算产生的能耗主要由r2r编解码、r2h编解码和模型推理决定，其中r2r编解码能耗

和r2h编解码能耗

如式(19)和式(20)所示：

上式中κ表示终端设备能耗系数，该数值取决于设备芯片；

和

分别表示单个视频块在本地完成r2r编解码和r2h编解码产生的能耗；

和设备GPU工作频率决定，具体如式(21)所示：

t时刻终端设备m处理任务V_m(t)，在其本地产生总能耗

为：

S3.2，计算网络传输能耗

S3.3，计算MEC服务器能耗

终端设备m卸载数量为

的视频块在MEC服务器完成h2r编解码产生能耗

如式(24)所示：

κ^s表示MEC服务器的能耗系数，

表示单个视频块完成h2r编解码产生的能耗；

表示单个视频块在服务器完成推理产生的能耗；因此MEC服务器对视频块进行模型推理的能耗如式(25)所示：

对于t时刻到达终端设备m的任务V_m(t)，MEC产生对应能耗为：

对于t时刻到达MEC系统各设备的视频任务来说，其处理产生能耗总结为：

5.如权利要求4所述一种基于DRL的边缘视频目标检测任务卸载方法，其特征在于，步骤S4具体如下：将终端设备集合

与一个MEC服务器作为一个MEC系统，整个MEC系统时延相当于全部设备任务处理时延的最大值即以最后一个任务完成的时刻视作全部任务处理完成，进而所有终端设备在t时刻的任务预期完成时延由式(28)表示：

L(t)＝(L₁(t),...,L_m(t),...,L_M(t)) (28)

结合上一步骤建立的能耗成本函数E(t)，将时延与能耗的加权和作为MEC系统成本；因此优化目标为通过联合优化各终端设备卸载决策，最小化MEC系统成本函数；将α(t)＝(α₁(t),α₂(t),...,α_M(t))定义为所有终端设备的联合卸载决策向量；该问题模型如式(29)所示：

上式中λ₁和λ₂分别表示时延和能耗的权衡系数。

6.如权利要求5所述一种基于DRL的边缘视频目标检测任务卸载方法，其特征在于，步骤S5具体如下：采用双延迟深度确定性策略梯度TD3算法来学习最优卸载决策；

S5.1，建立马尔科夫决策过程模型

马尔科夫决策过程主要包含三个关键要素：状态、动作和奖励，t时刻的状态空间S(t)定义为任务状态、终端设备与服务器队列状态和网络带宽状态的组合向量，如式(30)表示：

式中向量Z(t)和向量D(t)分别表示终端设备集合的任务数据量及其时长，具体表示为Z(t)＝(Z₁(t),Z₂(t),...,Z_M(t))，D(t)＝(D₁(t),D₂(t),...,D_M(t))；向量Q^l(t)、Q^s(t)和Q^trans(t)分别表示t时刻各设备队列状态，如(31)、式(32)和式(33)所示：

Q^s(t)＝(Q^s,h2r(t),Q^s,inf(t)) (32)

式(30)中W(t)表示当前时刻带宽；

表示网络动态预测信息；

动作空间A(t)定义为全部终端设备组成的卸载决策向量，具体表示为

将奖励定义为目标函数的负相关函数，奖励函数R(t)定义为R(t)＝-(λ₁max(L(t))+λ₂E(t))；

S5.2，构建基于LSTM的网络动态性预测模块

LSTM模型中包含编码器与解码器，将长度为H的历史带宽序列作为编码器输入，编码器对输入序列提取特征；解码器根据特征输出目标序列，通过一个全连接层输出对下一时隙的网络状态预测

H维带宽序列表示为W(t)＝(W(t-H),...,W(t-2),W(t-1)),1≤H≤T,1≤t≤T；

将

与原状态向量(Z(t),D(t),Q^l(t),Q^s(t),Q^trans(t),W(t))拼接组成新的状态向量S(t)，即式(30)所示向量；

S5.3，改进原始经验回放机制

算法训练阶段设定一系列基准奖励方案，然后将实际经验样本与其基准奖励进行奖励值比较，最后按分级标准存入相应经验回放池；

将全本地计算策略与全卸载策略作为基准奖励方案，其中，经验回放池A用于存放奖励值高于基准奖励的经验样本；经验回放池B用于存放奖励较低的经验样本；X表示算法更新时采样的样本数量，δ表示样本的采样权重，有0≤δ≤1。

7.如权利要求6所述一种基于DRL的边缘视频目标检测任务卸载方法，其特征在于，步骤S6具体如下：TD3算法主体由Actor网络与Critic网络构成，该算法为解决过估计问题提出了具有6个神经网络的模型结构，分别为：Actor网络及其目标网络、两个Critic网络，以及两个Critic目标网络；在训练环节开始前，先随机初始化Actor网络权重θ^μ和Critic网络权重

和

再将其各自目标网络权重拷贝初始化；

设定双经验回放池具有相同的最大容量，并清空经验回放池；经验回放池用于存储智能体与环境交互产生的经验样本，每个经验样本通常由四元组(S(t),A(t),R(t),S(t+1))表示；同时为DRL算法网络更新权重提供经验样本，具体采样方式为步骤S5中双经验回放池根据权重系数δ进行采样；

训练环节开始前，初始化MEC系统中各终端设备与MEC服务器内部队列状态；获取环境起始时刻状态S(1)，并重置历史网络带宽序列W(1)为H维全零向量。

8.如权利要求7所述一种基于DRL的边缘视频目标检测任务卸载方法，其特征在于，步骤S7具体如下：将当前时刻状态向量S(t)输出动作向量A(t)，即各终端设备卸载决策，具体方式如式(34)所示：

上式中σ₀代表噪声策略，c代表噪声临界值；

各终端设备根据动作向量A(t)对视频任务执行卸载决策，并由上述奖励函数获得即时奖励R(t)；环境状态由S(t)更新为S(t+1)，同时更新历史网络带宽序列W(t)；将本次经验样本(S(t),A(t),R(t),S(t+1))依据基准奖励存储于相应经验回放池。

9.如权利要求8所述一种基于DRL的边缘视频目标检测任务卸载方法，其特征在于，步骤S8具体如下：网络权重每次更新时抽取的经验样本数目为X，根据采样系数δ分别从经验回放池A和经验回放池B中采样经验样本，最后得到X个样本(S_i,A_i,R_i,S_i+1)；Actor网络和Critic网络采用计算梯度的方式更新权重，两者的目标网络以软更新的方式更新权重。

10.一种基于DRL的边缘视频目标检测任务卸载系统，其特征在于，包括如下模块：

时延模型建立模块，建立处理视频任务的时延模型；

能耗模型建立模块，建立处理视频任务的能耗模型；

更新权重模块，抽取经验样本更新网络权重；