CN114528042A

CN114528042A - 基于深度强化学习的节能型自动互联车辆服务卸载方法

Info

Publication number: CN114528042A
Application number: CN202210114199.5A
Authority: CN
Inventors: 郭佳杰; 许小龙
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-01-30
Filing date: 2022-01-30
Publication date: 2022-05-24
Anticipated expiration: 2042-01-30
Also published as: CN114528042B

Abstract

本发明公开了基于深度强化学习的节能型自动互联车辆服务卸载方法，该发明提出名为ECAC的分布式服务卸载方法。ECAC基于异步深度强化学习方法——异步优势行动者‑评论家(A3C)算法，将A3C映射到了端‑边‑云协同系统中。其核心思想是将ECD映射为A3C中的智能体，指导自己对于车辆服务的卸载决策；将云服务器映射为A3C中的中央网络，用于统筹和归纳各智能体的学习结果，并在每次参数更新后将自身参数拷贝到对应的ECD中。整个算法具备系统的需求动态学习、自动调整卸载策略的特征，能够满足不同时延敏感度的服务的需求。并且能长远地兼顾能耗和时延问题，做到绿色、高质量服务。

Description

基于深度强化学习的节能型自动互联车辆服务卸载方法

技术领域

本发明属于边缘计算技术领域，具体涉及基于深度强化学习的节能型自动互联车辆服务卸载方法。

背景技术

互联自动车辆(CAVs)是车对一切(V2X)通信赋能的自动驾驶车辆，是车联网和自动控制技术共同发展的产物。在自动驾驶车辆的基础上，CAVs通过无线通信技术连接到其它车辆、路边单元和外部服务器，使它们成为一个协同工作的整体。在CAVs中，车辆的决策不再只依赖车载传感器的数据收集和车载计算设备的计算，同时依赖其它车辆和道路智能体的共享数据，以及外部服务器，如边缘计算和云计算的支持。这种工作范式的一大显著优势是解决了计算资源受限的自动车辆对于许多计算密集型服务的需求,例如增强现实、目标检测等，同时提高了数据的有效性、系统安全性，进一步提高了服务质量(QoS)。自动车辆将请求和收集到的数据发往服务端，服务器统筹路况数据并为各车辆分别提供相应的服务，包括路径规划、危险预警、路况分析、行为模拟、自动控制、绿色出行等，以保障自动驾驶的安全性和用户体验。这一过程被称为服务卸载

云服务器和边缘服务器是车载任务卸载的两大目的地。通常云服务器有充足的计算资源，适合处理计算密集型任务，但云端和车辆间较大的物理距离导致决定了通信过程中不可忽略的往返时延(Round-Trip Time,RTT)，这对于高速行驶的车辆中的时延敏感型任务而言是不可接受的。而边缘计算则将服务器部署到靠近用户的边缘计算设备(ECD)，以此缩短用户和计算资源的距离，有效改善传输过程的通信时延。不过ECD中的算力、缓存等资源通常有限，面对高密度的车辆服务请求甚至可能过载和阻塞，反而会大大增加延迟[6]。因此，纯粹的边缘计算也不足以应对高车流量下的服务请求。

能耗是计算卸载过程中的另一个关键问题。不同的卸载方案也会产生不同能耗，例如，在数据传输过程由于传输功率不同导致的不同的通信能耗、或不同算力的设备计算同一任务产生的不同计算能耗等。得益于第五代通信技术(5G)的到来，为未来的CAV网络赋予了更高的频谱效率和数据速率，使得卸载方案在考虑时延之余能更多关注能耗问题。相比本地计算，边云服务器会带来明显的能耗。并且伴随路侧单元(RSUs)、ECDs等网络基础设施数目的不断增加，CAV系统中的关键能耗从车辆转移到了互联的基础设施中。

此外，人工智能技术在近几年取得了飞速进步，在包括自动控制、模式识别、自然语言处理等许多场景取得了成功的应用。这推动了人工智能赋能的车联网的发展，因此也诞生一些尝试用DL或DRL解决CAVs网络中计算卸载的研究。例如文献“L.Huang,X.Feng,A.Feng,Y.Huang,L.P.Qian,Distributed deep learning-based offloading for mobileedge computing networks,Mobile Networks and Applications(2018).”设计了一种使用多个并行DNN生成卸载决策(offloading decisions)的分布式深度学习算法DDLO，解决了深度学习的维度数限制。DDLO使用共享重放内存(shared replay memory)来存储DNN输出的卸载决策,并用它进一步训练DNN。这种思想类似于DRL中的经验回放、能提高在过去的决策中积累的经验的利用率、改善模型训练效果。文献“P.Yao,X.Chen,Y.Chen,Z.Li,Deepreinforcement learning based offloading scheme for mobile edge computing,in:2019IEEE International Conference on Smart Internet of Things(SmartIoT),2019,pp.1–7.”利用深度Q网络(DQN)来解决MEC的计算卸载中当用户数据的大小和优先级给定时，队列中的任务调度问题，它与资源分配一样是卸载决策的主要内容。文献“Y.Wang,K.Wang,H.Huang,T.Miyazaki,S.Guo,Traffic and computation co-offloading withreinforcement learning in fog computing for industrial applications,IEEETransactions on Industrial Informatics15(2)(2019)976–986.”设计了两种基于强化学习的交通和计算的协同卸载算法(co-offloading algorithm of traffic andcomputation)，能在满足车辆机动性和资源约束的条件下最小化卸载成本。不过，这些使用了DRL的研究，没有充分利用边-云协同的模式下ECDs本身的分布式特征，而是孤立地进行每个ECD卸载方案的学习，这不仅增大了系统的学习负担，还不利于提升系统对环境的泛化能力。最后，还有一些卸载方法不能根据服务类型动态权衡时延和能耗对于决策结果的影响比重、或根本不考虑能耗。这一算法在计算成本时同时考虑了能耗与延迟，但是不能根据任务类型动态改变能耗与延迟的权重。

发明内容

本发明正是为了解决上述技术问题而设计的基于深度强化学习的节能型自动互联车辆服务卸载方法，该发明使用户车辆在发送服务请求时，除了数据量和计算量等必要信息外，增加对服务时延敏感度的描述，并使此敏感度参与网络的输入和计算即时奖励中时延和能耗的权重。

本发明解决其技术问题所采用的技术方案是：

基于深度强化学习的节能型自动互联车辆服务卸载方法，基于由各车辆、各边缘计算设备、以及云服务器构成的端-边-云协同系统下，各边缘计算设备分别与各预设区域一一对应，针对预设时间段内各预设区域中的服务请求，端-边-云协同系统执行以下步骤，得到各边缘计算设备分别对应的车辆服务卸载模型，实现各边缘计算设备为对应预设区域的服务请求提供相应的服务卸载决策：

步骤A：针对端-边-云协同系统，基于各边缘计算设备的服务卸载决策模型要求服务卸载到边缘计算设备执行时的时延模型和能耗模型，以及各边缘计算设备的服务卸载决策模型要求服务卸载到云服务器执行时的时延模型和能耗模型，构建端-边-云协同系统的目标函数与约束条件；

步骤B：基于端-边-云协同系统的目标函数与约束条件，针对预设时间段内各预设区域中的服务请求，采用异步强化学习方法对各边缘计算设备的服务卸载决策模型进行优化，得到各边缘计算设备分别一一对应的车辆服务卸载模型；

步骤C：基于各边缘计算设备分别一一对应的车辆服务卸载模型，各边缘计算设备为对应区域的自动车辆的服务请求提供相应的服务卸载决策。

作为本发明的一种优选技术方案，所述步骤A中各边缘计算设备执行服务卸载决策时由步骤A1至步骤A3,得到各边缘计算设备的服务卸载决策模型要求服务卸载到边缘计算设备执行时的时延模型和能耗模型，以及各边缘计算设备的服务卸载决策模型要求服务卸载到云服务器执行时的时延模型和能耗模型；

步骤A1：针对预设时间段内任意边缘计算设备中的第i个服务s_i，车辆到边缘计算设备的最大通信速率表示为：

其中，B_i表示分配给服务s_i的带宽，p_i表示自动车辆v_i与边缘计算设备间的传输功率,v_i表示产生服务请求的车辆，g_i表示自动车辆v_i与边缘计算设备间的信道增益，N₀则代表信道的噪声功率密度；

当服务在车辆本地计算，总时延表示为：

其中，

表示产生服务s_i的自动车辆的本地计算速率，c_i表示服务s_i的计算量；

车辆本地的能耗

表示为：

其中，k表示能量因子；

步骤A2：当服务卸载决策模型要求服务卸载到边缘计算设备执行时的时延模型和能耗模型，计算过程如下：

步骤A2.1：针对服务s_i被服务卸载决策模型要求服务卸载到边缘计算设备执行时，边缘计算设备针对该服务s_i分配计算资源；

车辆到边缘计算设备的传输时延

表示为：

式中，d_i表示服务s_i的数据量；

车辆到边缘计算设备对应的传输能耗

表示为：

式中，p_i表示车辆到边缘计算设备的传输功率，

表示车辆到边缘计算设备的传输时间；

步骤A2.2：边缘计算设备中总的计算资源平均地划分为各个可分配的子计算资源，每个子计算资源贡献固定份额的计算速率f_i，即

其中

表示为服务s_i分配的子计算资源个数，C^single表示每个子计算资源的算力，当服务传输到边缘计算设备后，边缘计算设备基于该服务所分配的计算资源执行该服务，服务的计算耗时

为：

该服务的计算能耗

为：

步骤A2.3：最后，基于从该服务s_i全部上传到边缘计算设备中到被边缘计算设备执行该服务的过程中，存在等待边缘计算设备服务器空出

个子计算资源算力的时延

式中，

表示服务开始执行的时刻，而

表示服务数据全部卸载到边缘计算设备中的时刻；

步骤A2.4：综上，当服务卸载到边缘计算设备执行时，整个端-边-云协同系统的总时延

表示为：

整个端-边-云协同系统的总能耗

表示为：

步骤A3:当服务卸载决策模型要求服务卸载到云服务器执行时的时延模型和能耗模型，计算过程如下：

步骤A3.1：针对服务s_i被服务卸载决策模型要求服务卸载到云服务器执行时，先将服务数据卸载到边缘计算设备中，再从边缘计算设备卸载到云服务器中；

从边缘计算设备到云服务器之间的数据传输时延

表示为：

其中，

表示边云之间的传输功率，

表示边云之间的信道增益；

云服务器执行过程的计算能耗

为：

式中，C^cloud表示云服务器的算力；

步骤A3.2：综上，当服务卸载到云服务器执行时，整个端-边-云协同系统的总时延

表示为：

式中，RTT表示边缘计算设备到云服务器之间的物理传输时延；

整个端-边-云协同系统的总能耗

表示为：

作为本发明的一种优选技术方案，基于各边缘计算设备的服务卸载决策模型要求服务卸载到边缘计算设备执行时的时延模型和能耗模型，以及各边缘计算设备的服务卸载决策模型要求服务卸载到云服务器执行时的时延模型和能耗模型，构建端-边-云协同系统的目标函数与约束条件；

目标函数为：

其中，

表示卸载方法为s_i分配的信道数，

表示卸载方法为s_i分配的计算资源数，θ表示该卸载方法的全部参数，state_i表示处理s_i时对应边缘计算设备的状态；N_m(T)表示第m个边缘计算设备e_m在预设时间段T中的总服务数目，端-边-云协同系统中边缘计算设备总数为M；

est_i表示为服务s_i卸载决策的得分：,

est_i＝w_i·δt_i+ζ·(1-w_i)·δe_i

其中，δt_i表示本地和卸载后服务所需时延的差值，δe_i表示本地和卸载后服务所需能耗的差值，ζ是时延-能耗修正的超参数，w_i表示服务的延迟敏感度；

约束条件如下：

表示每个服务分配到的信道数不得超过总信道数且每个服务必须分配信道；

表示每个服务分配到的子计算资源个数不得超过总数，且可以不分配资源，

代表卸载到云服务器处理；

表示服务的时延敏感度必须为0到1之间的数；

其中，N^b表示每个边缘计算设备中总共的信道数目，N^c表示每个边缘计算设备中总共的计算资源数。

作为本发明的一种优选技术方案，所述步骤B中，基于各边缘计算设备内包括策略网络、价值网络，采用异步强化学习方法，即异步优势行动者-评论家算法，各边缘计算设备针对预设时间段内对应预设区域中的各服务请求执行步骤B1至B4,分别对各边缘计算设备的服务卸载决策进行优化，直到模型收敛或达到预设迭代次数，得到各边缘计算设备分别一一对应的车辆服务卸载模型：

步骤B1：边缘计算设备基于预设时间段内任意边缘计算设备中的第i个服务，结合该边缘计算设备中当前剩余资源，得到当前边缘计算设备状态，输入策略网络；

步骤B2：策略网络基于当前边缘计算设备状态，输出边缘计算设备服务卸载决策的概率分布，边缘计算设备基于策略网络输出的概率分布执行服务卸载决策，并为该服务分配信道和计算资源；

步骤B3：基于边缘计算设备执行服务卸载决策和对应的时延和能耗，得到当前服务卸载决策动作的即时奖励；

步骤B4：基于边缘计算设备执行服务卸载决策后，价值网络对当前边缘计算设备的状态价值进行评价。

作为本发明的一种优选技术方案，所述价值网络以当前边缘计算设备状态为输入，当前边缘计算设备的状态价值为输出，采用多步时间差分误差来拟合目标模型，即经过n次交互得到的包含n次即时奖励的状态价值与边缘计算设备对当前状态的价值评价接近；以第i个服务s_i为起点，多步时间差分误差δ_i表示为：

其中，n表示步数，γ为超参数，r_i+j为环境为第i+j个服务的卸载决策取得的奖励，state_i表示第i个服务卸载决策后边缘计算设备状态，V(state_i)表示表示第i个服务卸载决策后边缘计算设备的状态价值。

作为本发明的一种优选技术方案，所述策略网络以当前边缘计算设备状态为输入，以服务卸载决策的概率分布为输出，采用策略梯度算法引导边缘计算设备做出得到更高状态价值V(state)的决策，基于V(state)对于策略网络参数θ的梯度，采用梯度上升算法更新策略网络；

通过蒙特卡罗方法近似，V(s)对于策略网络参数θ的梯度表示为：

其中，a_i表示基于策略网络π输出的动作，δ_i为多步时间差分误差作为异步优势行动者-评论家算法中优势函数的权重；

基于系统中采用的多动作-单向量表示法，策略梯度改写为：

其中，

为服务分配的信道数，

为服务分配的计算资源数。

作为本发明的一种优选技术方案，所述即时奖励r_i为：

r_i＝est_i-b

其中,b是超参数；

est_i表示为服务卸载决策的得分：

est_i＝w_i·δt_i+ζ·(1-w_i)·δe_i

其中，δt_i表示本地和卸载后服务所需时延的差值，δe_i表示本地和卸载后服务所需能耗的差值，ζ是时延-能耗修正的超参数，w_i表示服务的延迟敏感度。

作为本发明的一种优选技术方案，所述各边缘计算设备中策略网络参数和价值网络参数的更新为将参数传递至云服务器中进行整合更新，再将云服务器的参数拷贝到对应的边缘计算设备中更新策略网络参数和价值网络参数。

作为本发明的一种优选技术方案，所述边缘计算设备的服务卸载决策过程满足马尔可夫决策过程。

本发明的有益效果是：本发明提出了基于深度强化学习的节能型自动互联车辆服务卸载方法，该发明提出名为ECAC的分布式服务卸载方法。ECAC基于异步深度强化学习方法——异步优势行动者-评论家(A3C)算法，将A3C映射到了端-边-云协同系统中。其核心思想是将ECD映射为A3C中的智能体，指导自己对于车辆服务的卸载决策；将云服务器映射为A3C中的中央网络，用于统筹和归纳各agent的学习结果，并在每次参数更新后将自身参数拷贝到对应的ECD中。整个算法具备根据CAVs系统的需求动态学习、自动调整卸载策略的特征，能够满足不同时延敏感度的服务的需求。可以很好地适应车联网环境下动态变化的服务规模和类型，并且符合车联网环境下的天然分布式系统架构，以及能用每个边缘计算设备中仅使用多核CPUs就能取得良好的模型训练效果。此外，本发明给出了一种针对不同时延敏感度任务的动态奖励设计方法，以动态权衡时延和能耗的关系、适应不同类型的任务的资源配给。同时，该发明提出自动互联车辆(CAVs)中服务时延敏感度的机制，用于指导卸载决策。还给出一种CAVs系统中可以客观评价一次决策优劣性的评价标准。以及给出端-边-云协同的分布式CAVs系统中，服务卸载的马尔可夫决策过程(MDP)模型。包括对于动作空间、状态空间、环境、交互过程、即时奖励的设计。其中的即时奖励可以兼顾时延和能耗，并能反应系统对于时延和能耗的考虑比重。能长远地兼顾能耗和时延问题，做到绿色、高质量服务。

附图说明

图1是端-边-云协同系统的互联自动车辆服务卸载模型；

图2是互联自动车辆场景中的马尔可夫决策过程模型；

图3是ECAC算法运行框架。

具体实施方式

下面结合附图对本发明进行进一步说明。

本发明提出了基于深度强化学习的节能型自动互联车辆服务卸载方法，即一种多用户模式的基于异步行动者-评论家(A3C)的节能分布式计算卸载方法，名为ECAC。ECAC与大部分主流强化学习算法一样，可以很好地适应车联网环境下动态变化的服务规模和类型，而它的优势在于符合车联网环境下的天然分布式系统架构，并且能用每个ECD中仅使用多核CPUs(无需GPUs)就能取得良好的模型训练效果。ECAC将ECD与智能体一一对应，完美地将A3C映射到端边云协同的车联网中。每个ECD收集来自互联自动车辆(CAVs)的服务请求，形成环境信息，并用反向求导所得的梯度来更新位于云端的中央策略网络和价值网络，最后定期、异步拷贝中央网络的参数。此外，本发明给出了一种针对不同时延敏感度任务的动态奖励设计方法，以动态权衡时延和能耗的关系、适应不同类型的任务的资源配给。本技术方案能长远地兼顾能耗和时延问题，做到绿色、高质量服务。ETAC利用CAV系统天然的分布式架构来实现异步深度强化学习(DRL)，并且能够根据服务类型和系统需求动态调整卸载策略。

首先给出互联自动车辆(CVAs)网络下的计算卸载系统模型，各使用到的物理量含义如表1所示。

表1各关键物理量及其定义

在这个CAVs网络中，服务以端-边-云协同的模式进行卸载，如图1所示。其中端指车辆，即服务请求的发起者，用集合V＝{v₁,v₂,v₃,···,v_K}表示，K是车辆总数。在车对基础设施通信(V2I)中，自动车辆首先将任务请求提交至RSUs，考虑到在该发明的卸载模型中，RSUs仅仅充当中间通信桥梁的作用，因此RSUs被直接增强为ECDs，即ECDs与RSUs位于同一位置。ECDs被表示为集合E＝{e₁,e₂,e₃,···,e_M}，其中M是确定区域内ECDs的总数目。在该发明的算法中，时间被离散化为一个个小的时间段；在每个时段τ内，每个ECD(表示为e_m)统计收集到的来自车辆不同车辆的服务，形成服务集

每个ECD有自己的管辖范围，它们只接受所在辖区的道路上的车辆的请求,因此假设每个ECD的中的服务互不重复，表示为

此外，由于5G技术对于通信效果的保障，本发明假设从服务请求的提交到服务执行完毕，车辆都能与同一ECD保持稳定连接。ECD的决策任务是不仅决定对于当前服务集中的某个服务，应该由自己来计算还是卸载到云服务器执行。若在ECD中执行，卸载决策需要告知为服务分配多少计算资源和信道；若卸载到云执行，则卸载决策需要确定分配的信道数。

基于深度强化学习的节能型自动互联车辆服务卸载方法，基于由各车辆、各边缘计算设备、以及云服务器构成的端-边-云协同系统下，各边缘计算设备分别与各预设区域一一对应，针对预设时间段内各预设区域中的服务请求，端-边-云协同系统执行以下步骤，得到各边缘计算设备分别对应的车辆服务卸载模型，实现各边缘计算设备为对应预设区域的服务请求提供相应的服务卸载决策。

步骤A：针对端-边-云协同系统，基于各边缘计算设备的服务卸载决策模型要求服务卸载到边缘计算设备执行时的时延模型和能耗模型，以及各边缘计算设备的服务卸载决策模型要求服务卸载到云服务器执行时的时延模型和能耗模型，构建端-边-云协同系统的目标函数与约束条件。

所述步骤A中各边缘计算设备执行服务卸载决策时由步骤A1至步骤A3,得到各边缘计算设备的服务卸载决策模型要求服务卸载到边缘计算设备执行时的时延模型和能耗模型，以及各边缘计算设备的服务卸载决策模型要求服务卸载到云服务器执行时的时延模型和能耗模型。

步骤A1：针对预设时间段内任意边缘计算设备中的第i个服务s_i，服务表示为一个四元组，即s_i＝＜d_i,c_i,w_i,v_i＞，其中d_i表示服务的数据量，c_i表示服务的计算量，w_i表示服务的延迟敏感度，最后v_i表示产生服务请求的车辆。这是影响决策结果的四个因素，其中v_i决定了CAV与ECD间的传输功率p_i和信道增益g_i。

车辆到边缘计算设备的最大通信速率表示为：

当服务在车辆本地计算，总时延表示为：

其中，

车辆本地的能耗

表示为：

其中，k表示能量因子；

步骤A2.1：针对服务s_i被服务卸载决策模型要求服务卸载到边缘计算设备执行时，那么分配给该服务的信道数和计算资源数也已确定。如前所述，由于该发明的CAVs模型将RSU上升为了ECD，数据从车辆到ECD的传输视作一步到位的；

车辆到边缘计算设备的传输时延

表示为：

式中，d_i表示服务s_i的数据量；

车辆到边缘计算设备对应的传输能耗

表示为：

式中，p_i表示车辆到边缘计算设备的传输功率，

表示车辆到边缘计算设备的传输时间；由于服务的计算结果大小要远远小于原始数据大小，返程时的代价可以忽略不记。

其中

为：

该服务的计算能耗

为：

个子计算资源算力的时延

式中，

表示服务开始执行的时刻，而

表示服务数据全部卸载到边缘计算设备中的时刻；

表示为：

整个端-边-云协同系统的总能耗

表示为：

步骤A3.1：针对服务s_i被服务卸载决策模型要求服务卸载到云服务器执行时，先将服务数据卸载到边缘计算设备中，再从边缘计算设备卸载到云服务器中；由于ECD由RSUs升级而成，卸载时以一个ECD为中间通信设备，即先将数据卸载到ECD中，再从ECD卸载到云服务器中，所以会产生两次数据传输时间。在这两个传输过程中，服务始终占用最初被分配到的信道数。此外，云服务器通常与ECD距离较远，因此它们之间存在一个不可忽略的物理传输时延，它与任务类型、数据量大小无关，且往返过程的时延相近，所以该发明中直接考虑整个过程的物理传输时延，即Round-Trip Time，RTT。

此外，还应考虑从边缘计算设备到云服务器之间的数据传输时延

表示为：

其中，

表示边云之间的传输功率，

表示边云之间的信道增益；

云服务器执行过程的计算能耗

为：

式中，C^cloud表示云服务器的算力；

步骤A3.2：综上，云服务器处理任务的优势在于算力资源充足、计算高效，因此该发明忽略服务在云中执行的耗时和服务排队等待计算资源的时间。但是执行过程中的能耗不可忽略。当服务卸载到云服务器执行时，整个端-边-云协同系统的总时延

表示为：

整个端-边-云协同系统的总能耗

表示为：

为了体现卸载方案的优势，本地计算的时延和能耗被作为基础,用δt_i和δe_i分别表示本地和卸载后服务所需时延和能耗的差值。同时为了动态权衡不同时延敏感度的服务时延和能耗的关系，形成最后的卸载评价，令est_i表示为s_i卸载决策的得分，即在当下时刻的卸载优势大小，基于各边缘计算设备的服务卸载决策模型要求服务卸载到边缘计算设备执行时的时延模型和能耗模型，以及各边缘计算设备的服务卸载决策模型要求服务卸载到云服务器执行时的时延模型和能耗模型，构建端-边-云协同系统的目标函数与约束条件；

算法最终目标是找到一种卸载方法

使得某个端-边-云协同的系统能在给定时间段T内取得最大的平均卸载优势，目标函数为：

其中，

表示卸载方法为s_i分配的信道数，

est_i表示为服务s_i卸载决策的得分：,

est_i＝w_i·δt_i+ζ·(1-w_i)·δe_i

其中，δt_i表示本地和卸载后服务所需时延的差值，δe_i表示本地和卸载后服务所需能耗的差值，ζ是时延-能耗修正的超参数，用来修正能耗和时间之间的量纲不同带来的数量级偏差，同时用于表示不同车联网系统对于时延和能耗考虑的比重的不同；w_i表示服务的延迟敏感度；

约束条件如下：

代表卸载到云服务器处理；

表示服务的时延敏感度必须为0到1之间的数；

步骤B：基于端-边-云协同系统的目标函数与约束条件，针对预设时间段内各预设区域中的服务请求，采用异步强化学习方法对各边缘计算设备的服务卸载决策模型进行优化，得到各边缘计算设备分别一一对应的车辆服务卸载模型。

所述步骤B中，基于各边缘计算设备内包括策略网络、价值网络，采用异步强化学习方法，即异步优势行动者-评论家算法，各边缘计算设备针对预设时间段内对应预设区域中的各服务请求执行步骤B1至B4,分别对各边缘计算设备的服务卸载决策进行优化，直到模型收敛或达到预设迭代次数，得到各边缘计算设备分别一一对应的车辆服务卸载模型：

异步优势行动者-评论家(A3C)是优势行动者-评论家算法(A2C)的异步化改进，它较其它深度强化学习方法有许多性能优势。早期的DRL算法中，智能体对于环境连续的观测数据间通常是强相关的，这会导致了训练结果的不稳定。A3C通过对环境信息的异步提取和训练，可以解决这种连续样本间的相关性。并且相较于DQN等采用经验回放技术的算法，A3C不需要额外的内存开销来记录经验数据，这降低了将RSUs升级为ECDs或有决策能力的智能设备的成本。在ECAC中，为每个ECD内置一个智能体(agent)，智能体中含有本地网络，而云服务器中内中中央网络，所有网络结构相同。此外，A3C是一种分布式方法，可以完美契合边缘协同的车联网场景，即将ECD视作每个异步更新的智能体(agent)，将云服务器视作统筹所有ECDs进行参数整合和更新的中央网络。因此它被使用在ECAC中。CAVs场景中的ECAC算法运行框架如图3所示。ECAC方法是policy-based和value-based方法的结合，每个ECD存储一个参数独立的策略网络和价值网络，这两个网络共享一部分参数。训练阶段行动者依靠策略网络输出的概率分布来随机选择动作进行卸载决策，这保证了模型对未知动作的探索性；评论家依靠价值网络来评价动作执行后环境的状态价值。

步骤B2：策略网络基于当前边缘计算设备状态，输出边缘计算设备服务卸载决策的概率分布，边缘计算设备基于策略网络输出的概率分布执行服务卸载决策，并为该服务分配信道和计算资源；所述策略网络以当前边缘计算设备状态为输入，以服务卸载决策的概率分布为输出，采用策略梯度算法引导边缘计算设备做出得到更高状态价值V(state)的决策，基于V(state)对于策略网络参数θ的梯度，采用梯度上升算法更新策略网络；

基于系统中采用的多动作-单向量表示法，策略梯度改写为：

其中，

为服务分配的信道数，

为服务分配的计算资源数。

所述即时奖励r_i为：

r_i＝est_i-b

其中,b是超参数。

由于服务s_i的卸载优势est_i可以很好地表示一次决策的优劣性，最初它被考虑直接作为即时奖励r_i使用。而前期实验的结果证明这存在一定的不稳定性：若ECAC算法能在前几轮游戏中取得相对较高的成绩，它就能在未来学得越来越好；而若ECAC算法在前几轮游戏中取得相对较低的成绩，它在未来就会学得越来越糟糕。这是因为：由于服务计算较本地计算的优越性，在大部分时候，即使一个不好的决策也会取得大于零的分数，即哪怕资源分配不够合理，卸载到边和云执行的服务也很可能比在本地执行效果要好。这就会影响网络的判断，误导策略网络学习那些不够好却能取得正分的动作、同时误导价值网络为不够好的状态打高分。尽管Actor-Critic的模型中，策略网络属于policy-based，它能保留对所有动作的探索性，但不足以完全解决上述问题。因此，本发明中，即时奖励被修改为r_i＝est_i-b。这么做是为了让r_i有明显的正负之分。负分动作被认为是坏动作，网络一定会避而远之。这成功地避免了上述问题。

在ECAC中，决定最后模型训练结果的是ζ。它不仅用于弥补时延和能耗的量纲差异，同时也反应了CAVs系统的实际需求。当系统更倾向于节省能耗，那ζ应适当调大，同时系统的均分会降低，因为无论服务卸载到云端还是边缘段，都会比本地计算更耗能。经过长期学习，价值网络能够给当前状态打出一个客观的分数，而策略网络对任何状态则能够给出一个让价值网络打高分得卸载决策。这就意味着，ECD总能采取长期最优的策略，这个策略不仅保证当前服务卸载的质量，也能为未来服务的卸载创造优势；更重要的是，它动态地兼顾了时延和能耗。

步骤B4：基于边缘计算设备执行服务卸载决策后，价值网络对当前边缘计算设备的状态价值进行评价。所述价值网络以当前边缘计算设备状态为输入，当前边缘计算设备的状态价值为输出，采用多步时间差分误差来拟合目标模型，即经过n次交互得到的包含n次即时奖励的状态价值与边缘计算设备对当前状态的价值评价接近；以第i个服务s_i为起点，多步时间差分误差δ_i表示为：

其中，n表示步数，γ为超参数，r_i+j表示环境为第i+j个服务的卸载决策取得的奖励，state_i表示第i个服务卸载决策后边缘计算设备状态，V(state_i)表示表示第i个服务卸载决策后边缘计算设备状态价值。

.所述边缘计算设备的服务卸载决策过程满足马尔可夫决策过程。ECAC中的马尔可夫决策过程(MDP)模型如下：

在ECAC中，每个ECD对应一个agent，而云服务器中存有中央网络。e_m不停地从服务队列中顺序取出请求，直至没有待处理的请求为止。e_m将服务请求的参数(数据量、计算量、时延敏感度等)结合e_m中当前剩余资源(剩余信道数、计算资源)形成状态state_i。显然，尽管所有ECD的服务请求来自同一区域内的车辆，即它们共享同一个环境，但它们从环境中观测到的状态各有不同。如图2所示,所有e_m重复做同一件事：确定状态state_i,将state_i输入到DRL的agent中、根据agent输出的动作a_i决定服务在云端还是在边缘执行以及为服务分配的资源数目、完成服务的计算并统计时延和能耗，得到r_i。当决策完成，e_m取出下一个服务并形成下一步状态state_i+1，进行下一步决策。此过程中，直接决定当前动作a_i的只有当前状态s_i，因此该CAVs服务卸载过程满足马尔可夫决策过程(MDP)。DRL的决策目标是取得全局最优解，对于CAVs卸载决策而言是平均奖励取得最大值。

ECAC的状态空间至少为5维向量，由剩余信道数、计算资源数和待处理服务的数据量、计算量、时延敏感度构成。对于不同车辆和ECD间的传输功率与信道增益有明显差异的CAVs网络，也只需要在状态空间额外扩展2个维度进行描述即可。策略网络输出的是执行每一种动作的概率分布，而agent共能执行选择资源数和选择信道数两类动作，每类动作分别有N^b和N^c+1种可能，用独热向量表示。为了降低动作空间维度数，进而提升模型训练和决策的效率，该发明采用多动作-单向量表示法(而非采用子动作的笛卡尔积)。因此，神经网络输出维度为N^b+N^c+1的向量，并分别将其切割为长度为N^b和N^c+1的两段，分别用激活函数转化为两个子动作的概率密度。

ECAC卸载决策的总体流程如表2中所示。在每一次的决策中，除了获得请求和处理服务外，ECD存储状态、动作、即时奖励到一个buffer中(line 11–line 15)。每当一轮游戏结束，结尾状态的状态价值即为0，而不再是价值网络的输出(line 17)。

表2

每当一个buffer填满，需要通过Multi-Step TD-Error和策略梯度计算ECD中所有网络的梯度。根据A3C的异步特性，ECAC中每个ECD内两个网络独立地计算出各自梯度后，不直接更新自身参数，而是将参数传递至云端并更新中央网络的参数；每次更新结束后从中央网络拷贝参数到提交梯度的ECD中。这样做的好处是，由于每个ECD所观测到的环境状态各不相同，很好地消除了相邻状态间的相关性；同时并行化也提高的网络学习的效率。所有服务器异步、并行地重复执行上述操作，直到模型收敛。

所述各边缘计算设备中策略网络参数和价值网络参数的更新为将参数传递至云服务器中进行整合更新，再将云服务器的参数拷贝到对应的边缘计算设备中更新策略网络参数和价值网络参数。

本发明设计了基于深度强化学习的节能型自动互联车辆服务卸载方法，该发明提出名为ECAC的分布式服务卸载方法。ECAC基于异步深度强化学习方法——异步优势行动者-评论家(A3C)算法，将A3C映射到了端-边-云协同的CAV模型中。其核心思想是将ECD映射为A3C中的agent，指导自己对于CAV车辆服务的卸载决策；将云服务器映射为A3C中的中央网络，用于统筹和归纳各agent的学习结果，并在每次参数更新后将自身参数拷贝到对应的ECD中。整个算法具备根据CAVs系统的需求动态学习、自动调整卸载策略的特征，能够满足不同时延敏感度的服务的需求。同时，该发明提出自动互联车辆(CAVs)中服务时延敏感度的机制，即让CAVs在发送服务请求时提供一位对于服务时延忍受能力的表述，用0-1之间的小数表示，用于指导卸载决策。还给出一种CAVs系统中可以客观评价一次决策优劣性的评价标准，它与服务计算的消耗较本地计算消耗的差值、服务的时延敏感度、系统对于卸载决策的要求有关。以及给出端-边-云协同的分布式CAVs系统中，服务卸载的马尔可夫决策过程(MDP)模型。包括对于动作空间、状态空间、环境、交互过程、即时奖励的设计。其中的即时奖励可以兼顾时延和能耗，并能反应系统对于时延和能耗的考虑比重。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：基于由各车辆、各边缘计算设备、以及云服务器构成的端-边-云协同系统下，各边缘计算设备分别与各预设区域一一对应，针对预设时间段内各预设区域中的服务请求，端-边-云协同系统执行以下步骤，得到各边缘计算设备分别对应的车辆服务卸载模型，实现各边缘计算设备为对应预设区域的服务请求提供相应的服务卸载决策：

2.根据权利要求1所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述步骤A中各边缘计算设备执行服务卸载决策时由步骤A1至步骤A3,得到各边缘计算设备的服务卸载决策模型要求服务卸载到边缘计算设备执行时的时延模型和能耗模型，以及各边缘计算设备的服务卸载决策模型要求服务卸载到云服务器执行时的时延模型和能耗模型；

当服务在车辆本地计算，总时延表示为：

其中，f_i ^loc表示产生服务s_i的自动车辆的本地计算速率，c_i表示服务s_i的计算量；

车辆本地的能耗

表示为：

其中，k表示能量因子；

车辆到边缘计算设备的传输时延

表示为：

式中，d_i表示服务s_i的数据量；

车辆到边缘计算设备对应的传输能耗

表示为：

式中，p_i表示车辆到边缘计算设备的传输功率，

表示车辆到边缘计算设备的传输时间；

其中

为：

该服务的计算能耗

为：

个子计算资源算力的时延

式中，

表示服务开始执行的时刻，而

表示服务数据全部卸载到边缘计算设备中的时刻；

表示为：

整个端-边-云协同系统的总能耗

表示为：

从边缘计算设备到云服务器之间的数据传输时延

表示为：

其中，

表示边云之间的传输功率，

表示边云之间的信道增益；

云服务器执行过程的计算能耗

为：

式中，C^cloud表示云服务器的算力；

表示为：

整个端-边-云协同系统的总能耗

表示为：

3.根据权利要求2所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：基于各边缘计算设备的服务卸载决策模型要求服务卸载到边缘计算设备执行时的时延模型和能耗模型，以及各边缘计算设备的服务卸载决策模型要求服务卸载到云服务器执行时的时延模型和能耗模型，构建端-边-云协同系统的目标函数与约束条件；

目标函数为：

其中，

表示卸载方法为s_i分配的信道数，

est_i表示为服务s_i卸载决策的得分：,

est_i＝w_i·δt_i+ζ·(1-w_i)·δe_i

约束条件如下：

代表卸载到云服务器处理；

表示服务的时延敏感度必须为0到1之间的数；

4.根据权利要求1所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述步骤B中，基于各边缘计算设备内包括策略网络、价值网络，采用异步强化学习方法，即异步优势行动者-评论家算法，各边缘计算设备针对预设时间段内对应预设区域中的各服务请求执行步骤B1至B4,分别对各边缘计算设备的服务卸载决策进行优化，直到模型收敛或达到预设迭代次数，得到各边缘计算设备分别一一对应的车辆服务卸载模型：

5.根据权利要求4所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述价值网络以当前边缘计算设备状态为输入，当前边缘计算设备的状态价值为输出，采用多步时间差分误差来拟合目标模型，即经过n次交互得到的包含n次即时奖励的状态价值与边缘计算设备对当前状态的价值评价接近；以第i个服务s_i为起点，多步时间差分误差δ_i表示为：

其中，n表示步数，γ为超参数，r_i+j为环境为第i+j个服务的卸载决策取得的奖励，state_i表示第i个服务卸载决策后边缘计算设备状态，V(state_i)表示第i个服务卸载决策后边缘计算设备的状态价值。

6.根据权利要求4所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述策略网络以当前边缘计算设备状态为输入，以服务卸载决策的概率分布为输出，采用策略梯度算法引导边缘计算设备做出得到更高状态价值V(state)的决策，基于V(state)对于策略网络参数θ的梯度，采用梯度上升算法更新策略网络；

基于系统中采用的多动作-单向量表示法，策略梯度改写为：

其中，

为服务分配的信道数，

为服务分配的计算资源数。

7.根据权利要求4所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述即时奖励r_i为：

r_i＝est_i-b

其中,b是超参数；

est_i表示为服务卸载决策的得分：

est_i＝w_i·δt_i+ζ·(1-w_i)·δe_i

8.根据权利要求4所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述各边缘计算设备中策略网络参数和价值网络参数的更新为将参数传递至云服务器中进行整合更新，再将云服务器的参数拷贝到对应的边缘计算设备中更新策略网络参数和价值网络参数。

9.根据权利要求1所述的基于深度强化学习的节能型自动互联车辆服务卸载方法，其特征在于：所述边缘计算设备的服务卸载决策过程满足马尔可夫决策过程。