CN117939505B

CN117939505B - 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统

Info

Publication number: CN117939505B
Application number: CN202410333763.1A
Authority: CN
Inventors: 郭永安; 程瑶; 王宇翱
Original assignee: Edge Intelligence Research Institute Nanjing Co ltd; Nanjing University of Posts and Telecommunications
Current assignee: Edge Intelligence Research Institute Nanjing Co ltd; Nanjing University of Posts and Telecommunications
Priority date: 2024-03-22
Filing date: 2024-03-22
Publication date: 2024-05-24
Anticipated expiration: 2044-03-22
Also published as: CN117939505A

Abstract

本发明属于移动边缘协作缓存技术领域，公开了一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统，缓存方法包括：步骤1、构建面向移动边缘计算场景激励赋能的边缘协作缓存系统模型；步骤2、提出集成注意力层的离散Soft Actor‑Critic(ADSAC)算法，制定基于深度强化学习的最优协同缓存替换决策，减少内容传输成本，缓存系统包括系统场景及架构、车辆移动模型、系统成本模型、奖励与惩罚模型以及缓存替换模型。本发明构建了一个边缘协作缓存系统模型，综合考虑了车辆的移动性和公平性，将影响用户请求服务质量的因素建模为综合系统成本，提高了缓存决策的准确性和效率，提升缓存系统整体的性能和效益。

Description

一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统

技术领域

本发明属于移动边缘协作缓存技术领域，具体的说是一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统。

背景技术

车辆边缘网络（Vehicle Edge Network，VEN）是智能交通系统不可或缺的一部分，为车辆提供自动驾驶、交通管理、娱乐等服务。然而，传统的云缓存方案在处理大量移动车辆时可能导致通信拥塞和高传输延迟。为应对这一问题，车辆边缘计算（Vehicle EdgeCache，VEC）崭露头角，通过利用边缘设备的缓存服务，显著降低车辆的内容获取成本。

在VEC中，协作缓存方案扮演关键角色，需要解决预测流行内容的缓存位置选择问题。传统的缓存策略，如最近最少使用（Least Recently Used，LRU）和最不频繁使用（LeastFrequently Used，LFU），往往难以适应高度动态的车辆环境，因为车辆请求的内容可能迅速过时。协作缓存方案分为非协作和协作两类。在非协作缓存中，各个边缘设备独立决定缓存内容和策略，导致缓存更新频繁、冗余等问题。相较之下，协作缓存通过多个边缘设备间的信息共享，协调缓存资源，有效避免了非协作缓存的弊端。

由于车辆较频繁移动，先前请求的内容可能很快过时，因此预测的流行内容应被及时缓存在边缘设备中，以确保低传输延迟。信道条件的变化也影响了车辆的内容获取时延，而信道条件又受车辆移动性的制约。此外，从目前的缓存系统来角度来看，提供的内容服务具有相对的不公平性。因此，在设计协作缓存决策时，必须充分考虑车辆的移动性和服务公平性。

在面对这一复杂环境时，深度强化学习（Deep Reinforcement Learning，DRL）崭露头角，成为解决协作缓存决策问题的有力工具。DRL能够构建决策框架，并优化在多变车辆环境下的协作缓存。目前大多数研究在VEC中只考虑单智能体的集中式训练，无法观察到局部的重要特征信息。此外，未能考虑协作缓存节点的缓存状态对缓存决策的极大影响，导致智能体难以根据当前环境做出正确的协作决策。这些都将极大程度限制最佳协作缓存决策的制定。

发明内容

为了解决上述技术问题，本发明提供了一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统，本发明综合考虑了车辆的移动性和公平性，提高了缓存决策的准确性和效率，有助于提升缓存系统整体的性能和效益。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种车辆边缘网络中基于激励机制的边缘协作缓存方法，该方法包括如下步骤：

步骤1、构建面向移动边缘计算场景激励赋能的边缘协作缓存系统模型，具体包括以下步骤：

步骤11、在车联网边缘缓存系统中，考虑了一个城市场景中的三层车辆边缘计算架构；

步骤12、车辆从本地路侧单元RSU、相邻路侧单元RSU或宏基MBS站获取所请求的内容；

步骤13、虑了车辆数量、位置、速度的移动性特征的变化，设计一个车辆移动模型，所述车辆移动模型的关键参数包括车辆的初始位置、移动速度和移动距离；

步骤14、建立一个综合系统成本模型，反映车辆用户的内容请求服务质量，所述综合系统成本模型包括内容获取成本和用户公平服务成本；

步骤15、考虑车辆用户的高移动性对内容获取带来的延迟敏感，建立奖励与惩罚模型；

步骤16、将路侧单元的缓存通过缓存替换模型替换建模为多智能体马尔可夫决策过程，多智能体马尔可夫决策过程是缓存替换模型做决策的过程。

步骤2、提出集成注意力层的离散Soft Actor-Critic 即ADSAC算法，制定基于深度强化学习的最优协同缓存替换决策，减少内容传输成本；

所述步骤2具体包括如下步骤：

步骤21、提出一个多智能体离散变量的SAC，所述多智能体离散变量的SAC包括一个行动网络和一个评论网络，通过观察获得环境状态信息，所述行动网络负责探索环境状态以做出替换动作，所述评论网络负责评估策略，提高训练效率，行动网络与评论网络与注意力机制结合，提高神经网络性能，根据设计的奖励函数，计算预期长期贴现报酬为：

，

其中，用来更新已找到最大总奖励的策略；/>是平衡熵与奖励的相对重要性的温度参数；/>是可以度量随机变量的不确定性的熵，/>表示长期时间尺度；/>是贴现因子；/>是路侧单元/>的奖励； />是路侧单元/>的状态，/>是车辆，/>是时隙；

将策略输出从密度到离散场景的概率/>，称为DSAC模型，DSAC模型的策略/>最大化奖励和熵，即：

；

步骤22、在DSAC模型中引入关键的注意力机制，允许每个智能体动态地调整其对邻居节点的关注；

步骤23、集成注意力层的离散Soft Actor-Critic即ADSAC算法的训练：建立目标行动-评论网络，目标行动-评论网络具有与原始行动网络和一个评论网络相同的结构和初始化，在训练网络参数的同时，目标行动-评论网络估计未来的动作，在DRL中，目标是找到最优策略；

步骤24、集成注意力层的离散Soft Actor-Critic (ADSAC)算法更新：在集成注意力层的离散Soft Actor-Critic (ADSAC)算法中，每个路侧单元RSU都部署有代理即局部ADSAC模型，独立地训练局部模型并且协作地聚合模型参数，多智能体观察其局部状态并生成决策动作/>，包括替换动作/>和请求处理动作/>，获得当前奖励/>和下一状态/>，并将其存储在重放缓冲器中，基于批量历史经验/>学习和更新行动网络和评论网络，在多次迭代之后，当情节数等于聚合数量的倍数时，所有多智能体将它们的评论网络的参数 />上传给全局评论网络，宏基站MBS计算全局评论参数/>，全局评论参数被分发到所有多智能体的评论网络进行更新。

本发明的进一步改进在于：步骤11中的所述三层车辆边缘计算架构包括一个附着云的宏基站层、多个路侧单元层和在所述路侧单元覆盖范围内移动的车辆用户层，

在宏基站MBS上部署中央控制器作为所有路侧单元的管理器，进行存储交互和同步信息；

多个路侧单元组成边缘网络，为车辆用户提供内容服务，路侧单元的集合表示为，路侧单元RSU的总数是/>，且/>是路侧单元/>的最大存储容量，路侧单元收集车辆用户的状态，包括内容请求信息、车辆的位置和速度、网络拓扑和状态。

车辆用户将请求发送给所属范围内的路侧单元来获取内容，对于时隙内，在路侧单元/>的覆盖区域中行驶的车辆集合表示为/>，车辆的数量是/>。

本发明的进一步改进在于：步骤12中，车辆的内容请求是随机的，每个路侧单元具有边缘缓存能力，其缓存的内容由表示，令/>表示请求的内容集合，在时隙/>的开始，车辆用户/>从请求的内容集合/>中请求内容/>表示为/>，其中/>为车辆用户/>请求内容/>，否则/>，具体的车辆用户从本地路侧单元、相邻路侧单元或宏基站获取所请求的内容具体包括：

如果所请求的内容缓存在本地路侧单元中，车辆直接从本地路侧单元获取内容；

如果所请求的内容未缓存在本地路侧单元中，本地路侧单元将请求传递给相邻路侧单元RSU；

如果相邻路侧单元缓存了所请求的内容，相邻路侧单元将内容发送回本地路侧单元RSU，然后本地路侧单元将内容发送回车辆用户；

如果所请求的内容在本地路侧单元和相邻路侧单元的缓存中都不可用，车辆用户将向宏基站发送请求，并直接从宏基站获取所需的内容。

本发明的进一步改进在于：步骤13中车辆移动模型的构建方法具体包括如下步骤：

步骤131、设定车辆的初始化位置和移动速度；

步骤132、设定路侧单元覆盖范围内所有车辆沿相同方向移动，并基于泊松分布到达路侧单元/>，其中平均到达率为/>；

步骤133、不同车辆的速度服从独立同分布，每辆车的速度由截断的高斯分布生成；

步骤134、根据步骤133车辆的移动速度确定车辆在训练时间步长内的移动距离；

步骤135、模拟车辆在道路网络中的移动，根据移动方向和移动距离更新车辆的位置，每个车辆在一轮内保持相同的移动性特征，包括位置和速度，并且在每轮开始时改变其移动性特征，即重复步骤132-步骤134，

在车辆移动模型中，令表示在路测单元/>中行驶的所有车辆的速度，其中/>是在路测单元/>中行驶的车辆/>的速度，车辆速度/>的概率密度函数为：

，

其中和/>分别是每个车辆的最大速度阈值和最小速度阈值，是/>在均值μ和方差/>下的高斯误差函数，令/>表示在路测单元/>的覆盖范围内的车辆/>的遍历距离，计算为：

，

其中是时隙/>的持续时间，/>是车辆/>在时隙/>的移动速度。

本发明的进一步改进在于：步骤14具体包括以下步骤：

步骤141、内容获取成本，具体为：

内容请求车辆通过向路侧单元发送内容请求来获得内容，称为V2R，内容请求车辆通过向宏基站发送内容请求来获得内容，称为V2B，在车辆边缘网络中，路侧单元通过车辆到路侧单元即V2R链路与其覆盖区域中的车辆通信，宏基站通过车辆到基站即V2B链路与车辆通信，对于车辆在时隙/>的信道增益/>，建模为：

，

其中分别表示路侧单元/>和宏基站，/>表示路侧单元/>、宏基站与车辆/>之间的传输距离，/>表示包括路径损耗和阴的大尺度衰落效应，/>表示小尺度衰落效应；

根据香农定理，V2R链路和V2B链路下的传输速率计算为：

，

其中表示路侧单元/>和车辆/>之间的传输速率，/>表示宏基站和车辆/>之间的传输速率，/>表示路侧单元/>使用的发射功率，/>表示宏基站使用的发射功率，表示噪声功率，/>表示信道增益，/>表示宏基站的固定信道带宽，/>表示采用相等功率分配方案从路侧单元/>分配给车辆/>的可用带宽，/>其满足约束，其中/>是路侧单元/>的总信道带宽；

请求内容被缓存在路侧单元/>中，内容获取成本为/>，请求内容/>被缓存在相邻力促额单元/>中，内容获取成本为/>，请求内容/>既没有缓存在路侧单元/>中也没有缓存在相邻路侧单元/>中，内容获取成本为/>：

，

其中表示路侧单元/>与车辆/>之间的传输速率，/>表示路侧单元/>和相邻路侧单元/>之间的传输速率，/>表示宏基站MBS与车辆/>之间的传输速率，/>表示无线链路通信的单位价格，/>表示有线链路通信的单位价格，/>表示表示内容/>的数据大小；

定义作为满足用户所有内容请求的请求处理动作，其中表示车辆/>所请求内容分别由路侧单元/>、相邻路侧单元/>和宏基站提供，请求处理动作满足约束/>，将内容获取成本/>计算为：

，

其中表示在路侧单元/>的覆盖区域中行驶的车辆集合，/>表示请求的内容集合；

步骤142、用户公平服务成本，具体为：

使用 Jain的公平指数来评估车辆之间的公平性：

，

其中表示车辆/>在时隙/>期间从路侧单元接收请求内容的缓存命中率，车辆之间的缓存命中率差异越大，公平性指数越小，/>表示车辆的数量；

为了平衡系统总成本和车辆之间的公平性，将用户公平服务成本定义为：

。

本发明的进一步改进在于：所述步骤15具体为：

定义请求内容的价值函数：

，

其中表示请求内容/>的价值随时间衰减的线性函数，/>表示衰减因子；

为请求内容是否在其最可容忍延迟范围内完成设置索引/>，如果请求内容/>任务完成，则分发奖励，索引/>等于1，如果请求内容/>任务未完成，则处以惩罚，索引/>等于-1，表示为：

，

其中表示获取请求内容/>等待时延，/>表示请求内容/>任务最大可容忍延迟，将奖励与惩罚模型定义为

，

其中为每个请求内容/>的合同收入，/>为车辆用户/>从请求的内容集合/>中请求内容/>。

本发明的进一步改进在于：步骤16中多智能体马尔可夫决策过程包括状态、动作和奖励，具体包括如下步骤：

步骤161、状态：路侧单元通过观察其已缓存内容和所服务的区域中的车辆来进行替换动作，状态/>表示为：

，

其中表示本地缓存状态，/>表示所有路侧单元的当前缓存内容状态，/>表示每个时隙中的请求状态，/>表示为频率向量，其中/>表示路侧单元/>所有用户请求内容/>的数量；

步骤162、动作：路侧单元的缓存替换动作/>和请求处理动作/>，假设每个路侧单元从请求的内容集合/>中选择多个内容在每个时隙中替换，把动作/>记为/>和的组合，表示为：

，

其中表示所有路侧单元的缓存替换动作，当/>时，路侧单元/>的请求内容/>应当被缓存，否则/>，如果/>并且，则表示时隙/>内路侧单元/>不替换任何缓存内容，请求处理动作，其中/>；

步骤163、奖励：根据综合系统成本模型和奖励与惩罚模型，定义奖励函数：

，

其中，表示用户公平服务成本，/>表示奖励与惩罚模型；

根据奖励函数，通过最大化预期的长期贴现累积回报来学习最优策略/>，即：

，

其中表示为折扣因子，路侧单元/>的策略/>是从其状态到动作的映射即 />，/>表示不同的时隙/>。

本发明的进一步改进在于：所述步骤22具体为：

步骤221、对所述行动网络引入一个注意力机制，所述注意力机制基于自身状态和邻居节点的状态来计算节点的权重，生成一个注意力权重向量，用于根据邻居节点的信息进行加权汇总，即：

，

其中，表示第/>个智能体的注意力权重，/>是用于计算注意力权重的线性权重矩阵，/>表示将自身状态和相邻状态连接成的特征表示，/>表示自身状态，/>表示相邻状态，/>表示经过状态扩展后的新状态，/>表示与第/>个智能体相邻的智能体的集合，/>表示第/>个智能体的注意力权重，/>表示第/>个智能体的状态特征表示；

对行动网络进行了相应的修改，以适应新的状态表示。对神经网络架构进行了调整，将扩展后的状态表示作为输入，并输出相应的动作，在训练过程中，确保注意力机制的权重是根据模型的训练数据进行动态计算；

步骤222、在评论网络中集成一个注意力层，以处理多智能体环境中每个智能体的观察和动作，具体为：

引入一个注意力权重向量，注意力权重向量/>包含每个智能体的观察和动作对全局状态的贡献权重，通过以下方式计算：

，

其中，是用于注意力计算的线性权重矩阵，/>是将观察和动作连接成的特征表示，/>表示第/>个智能体的贡献，/>表示第/>个智能体的观察和动作的特征表示；

将递给全局评论网络估计全局的/>值：

，

其中，表示全局评论网络对于全局状态/>和动作/>的/>值估计。

本发明的边缘协作缓存方法通过边缘协作缓存系统实现，所述边缘协作缓存系统包括系统场景及架构、车辆移动模型、系统成本模型、奖励与惩罚模型以及缓存替换模型。

本发明的进一步改进在于：所述系统场景包括一个附着云的宏基站MBS、多个路侧单元RSU和在路侧单元RSU覆盖范围内移动的车辆，

宏基站MBS作为整个系统的核心节点，承载着云并提供计算和存储能力；

多个位于道路边缘的路侧单元RSU，覆盖到范围内的车辆；

路侧单元RSU通过无线通信与宏基站MBS和车辆进行连接；

车辆在路侧单元RSU的覆盖区域内行驶，通过与路侧单元RSU建立无线连接来访问网络和获取服务。

本发明的有益效果是：

本发明构建了一个车辆边缘网络中激励赋能的边缘协作缓存系统模型，综合考虑了车辆的移动性和公平性。

本发明将影响用户请求服务质量的因素建模为综合系统成本，并充分考虑了缓存系统的公平服务质量。同时，还根据请求任务的完成情况设计了相应的奖励机制。

本发明将协作缓存问题描述为一个多智能体马尔可夫决策过程（MDP），旨在最大化期望的长期系统收入。这是第一个在车辆协作缓存中提出的考虑服务公平性的工作。

本发明提出了一种创新的集成注意力层的离散Soft Actor-Critic (ADSAC)算法，该算法集成了注意力层，用于对Actor网络和Critic网络进行注意力加权，从而增强了RSU的协作缓存性能。与传统方法相比，ADSAC算法能够更加智能地调整智能体对邻居节点的关注，提高了缓存决策的准确性和效率。

本发明通过在联邦框架下全局聚合Critic网络梯度并更新网络参数，进一步改进了ADSAC算法的性能，提高了其在不同环境下的适应性和泛化能力，有助于提升缓存系统整体的性能和效益。

本发明采用激励机制的边缘协作缓存系统在优化资源利用的同时，还能够有效提高用户体验和服务质量。通过激励机制，系统能够激发RSU之间的合作行为，促进数据的共享和缓存资源的有效利用，从而降低了数据获取延迟和服务响应时间。这种协作与激励相结合的机制不仅提高了系统整体的性能和效率，也使得用户在车辆网络环境中能够更加顺畅地获取所需内容，进而提升了用户体验和满意度。

附图说明

图1是本发明的系统场景及架构示意图。

图2是本发明的每个RSU处集成注意力机制的DSAC代理示意图。

图3是本发明所提协作缓存ADSAC算法流程图。

图4是本发明的算法与三个基于DRL的缓存算法的收敛性能对比图。

图5是本发明所提方法在不同RSU缓存容量时对平均系统收入的影响对比图。

图6是本发明所提方法在不同RSU缓存容量时对缓存命中率的影响对比图。

图7是本发明所提方法的不同RSU指标对平均系统收入的影响对比图。

图8是本发明所提方法的不同RSU指标对缓存命中率的影响对比图。

图9是本发明所提方法从不同VU密度方面对平均系统收入的影响对比图。

图10是本发明所提方法从不同VU密度方面对缓存命中率的影响对比图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

本发明提供了一种车辆边缘网络中基于激励机制的边缘协作缓存方法，所述边缘协作缓存方法通过边缘协作缓存系统实现，所述边缘协作缓存系统包括系统场景及架构、车辆移动模型、系统成本模型、奖励与惩罚模型以及缓存替换模型，边缘协作缓存方法包括如下步骤：

步骤11、系统场景及架构：在车联网边缘缓存系统中，如图1所示，考虑了一个城市场景中的三层车辆边缘计算架构；这种架构的设计可以实现车辆与边缘资源的紧密连接，提供快速的数据传输和计算能力，以满足车辆对服务和信息的需求。同时，该架构也能降低对中心云服务器的依赖，减少网络传输延迟，提高车辆的响应性和用户体验。

该系统场景包括一个附着云的宏基站MBS、多个路侧单元RSU和在路侧单元RSU覆盖范围内移动的车辆用户层，位于城市中心的宏基站MBS作为整个系统的核心节点，承载着云并提供计算和存储能力；多个位于道路边缘的路侧单元RSU，覆盖到范围内的车辆；路侧单元RSU通过无线通信与宏基站MBS和车辆进行连接；车辆在路侧单元RSU的覆盖区域内行驶，通过与路侧单元RSU建立无线连接来访问网络和获取服务。在所考虑的网络中，设置了时隙。系统中各部分的具体功能说明如下。

MBS层：在宏基站MBS上部署中央控制器作为所有路侧单元的管理器，进行存储交互和同步信息；与RSU相比，MBS拥有更大的存储资源，可以认为其存储资源是无限的。当RSU没有缓存用户所需的数据时，它可以通过RSU从MBS请求数据。由于MBS存储资源足够大，假设任何用户所需的数据都可以从MBS中获得。

RSU层：多个路侧单元组成边缘网络，为车辆用户提供内容服务，为了有效地执行任务，RSU中缓存了一些经常使用的内容，并可以与相邻RSU共享这些数据。路侧单元的集合表示为，路侧单元RSU的总数是/>，且/>是路侧单元/>的最大存储容量，路侧单元收集车辆用户的状态，包括内容请求信息、车辆的位置和速度、网络拓扑和状态。

车辆用户层：作为缓存内容的请求者，车辆用户将请求发送给所属范围内的路侧单元来获取内容，对于时隙内，在路侧单元/>的覆盖区域中行驶的车辆集合表示为，车辆的数量是/>。

步骤12、车辆从本地路侧单元RSU、相邻路侧单元RSU或宏基MBS站获取所请求的内容，车辆的内容请求是随机的，每个路侧单元具有边缘缓存能力，其缓存的内容由表示，令/>表示请求的内容集合，每个内容由三个特征描述，即/>，其中/>表示内容/>的大小，其中/>表示内容/>的最大可容忍递送延迟，其中/>表示内容/>的流行度。此外，为每个内容分发都有一个唯一的索引，并在移动车辆请求内容时使用该索引作为内容ID。在该系统中，车辆移动性、通信状态、内容流行度、最大交付延迟和RSU缓存能力被联合考虑，移动的车辆可以自适应地做出内容请求决策。一般来说，本发明考虑一个现实的场景，车辆的内容请求是随机的，近似遵循Zipf分布。

在时隙的开始，车辆用户/>从请求的内容集合/>中请求内容/>表示为，其中/>为车辆用户/>求内容/>，否则/>。因此，根据不同的条件，车辆用户从本地路侧单元、相邻路侧单元或宏基站获取所请求的内容。具体为：

步骤13、车辆移动模型：为了模拟车辆在路侧单元覆盖范围内的移动行为虑了车辆数量、位置、速度的移动性特征的变化，设计一个车辆移动模型，所述车辆移动模型的关键参数包括车辆的初始位置、移动速度和移动距离；车辆移动模型的构建方法具体包括如下步骤：

步骤131、初始化，设定车辆的初始化位置和移动速度；

步骤132、移动方向，设定路侧单元覆盖范围内所有车辆沿相同方向移动，并基于泊松分布到达路侧单元/>，其中平均到达率为/>；/>

步骤133、移动速度，不同车辆的速度服从独立同分布，每辆车的速度由截断的高斯分布生成；

步骤134、移动距离，根据步骤133车辆的移动速度确定车辆在训练时间步长内的移动距离；

步骤135、更新位置，模拟车辆在道路网络中的移动，根据移动方向和移动距离更新车辆的位置，每个车辆在一轮内保持相同的移动性特征，包括位置和速度，并且在每轮开始时改变其移动性特征，即重复步骤132-步骤134，

在车辆移动模型中，车辆进入路侧单元的覆盖范围后，会向其发送请求信息。为了简化模型。假设在一轮期间没有车辆进入或离开路侧单元/>的覆盖区域，因此路侧单元中的车辆数量保持不变，令/>表示在路测单元/>中行驶的所有车辆的速度，其中/>是在路测单元/>中行驶的车辆/>的速度，车辆速度/>的概率密度函数为：

，

其中是时隙/>的持续时间，/>是车辆/>在时隙/>的移动速度。

步骤14、由于所提出的系统支持本地RSU和相邻RSU的缓存命中，使用户获取准确的低传输延迟的请求内容。此外，一个低缓存的命中率意味着大量用户的内容请求从云服务器获取，这导致骨干网络拥塞。因此，建立一个综合系统成本模型，反映车辆用户的内容请求服务质量，所述综合系统成本模型包括内容获取成本和用户公平服务成本，具体的构建方法包括以下步骤：

步骤141、内容获取成本，具体为：

用户在获取内容过程中，存在两种传输等待时延包括从MBS获取内容的延迟和从RSU获取内容的延迟。在车辆边缘网络中，考虑车辆采用正交频分复用（OFDM）技术与RSU进行无干扰的通信。本地RSU与相邻RSU之间采用有线链路进行通信。每个车辆在同一时隙期间保持相同的通信网络模型，并根据不同的时隙更改其通信网络模型

内容请求车辆通过向路侧单元发送内容请求来获得内容，称为V2R，内容请求车辆通过向宏基站发送内容请求来获得内容，称为V2B，在车辆边缘网络中，路测单元通过车辆到路侧单元即V2R链路与其覆盖区域中的车辆通信，宏基站通过车辆到基站即V2B链路与车辆通信，由于，路测单元/> /MBS和V2R/V2B之间的距离在不同时隙中不同，V2R/V2B链路会遭受不同的信道损伤，并且因此在不同时隙中以不同的传输速率进行传输。对于车辆/>在时隙/>的信道增益，建模为：

，

其中分别表示路侧单元/>和宏基站，/>表示路侧单元/>、宏基站与车辆/>之间的传输距离，/>表示包括路径损耗和阴的大尺度衰落效应；/>是小尺度衰落效应，假设其以单位均值呈指数分布。

使用表示路测单元/>和车辆/>间的传输速率，/>表示MBS和车辆/>间的传输速率。根据香农定理，V2R链路和V2B链路下的传输速率计算为：

，

为了清楚区分不同条件下的内容获取成本，义作为满足用户所有内容请求的请求处理动作，其中/>表示车辆/>所请求内容分别由路侧单元/>、相邻路侧单元/>和宏基站MBS提供，请求处理动作满足约束，将内容获取成本/>计算为：

，

步骤142、用户公平服务成本，具体为：

现有的研究大多集中在最小化内容交付时延和最大化缓存命中率上，而忽略了缓存服务的公平性，尤其是用户级的公平性。本发明使用 Jain的公平指数来评估车辆之间的公平性：

，

其中表示车辆/>在时隙/>期间从路侧单元接收请求内容的缓存命中率，根据Cauchy-Buniakowsky-Schwarz不等式，可以很容易地得到/>。车辆用户之间的缓存命中率差异越大，公平性指数将越小，即较大的公平性指数意味着更公平的缓存服务。

。

步骤15、考虑车辆用户的高移动性对内容获取带来的延迟敏感，建立奖励与惩罚模型。

在现有研究中，延迟敏感通常可以理解为：（1）每个任务都有一个最大可容忍延迟要求；（2）在任务完成之前，任务的价值随着任务的完成时间而减少。由于车辆用户的高移动性，所以对内容获取具有一定的延迟敏感，因此在优化过程中应该仔细考虑它们的特性。定义请求内容的价值函数：

，

其中表示请求内容/>的价值随时间衰减的线性函数，/>表示衰减因子。

由于任务的异质性和收入最大化的目标，从缓存系统的角度来看，每个内容请求任务都应该有额外的奖励，并且这个特征应该反映在优化过程中。因此，为请求内容是否在其最可容忍延迟范围内完成设置索引/>，如果请求内容/>任务完成，则分发奖励，索引/>等于1，如果请求内容/>任务未完成，则处以惩罚，索引/>等于-1，因此可以表示为：

，

其中表示获取请求内容/>等待时延，/>表示请求内容/>任务最大可容忍延迟，如前所述，将每个请求任务的合同收入定义为/>。因此，将奖励与惩罚模型定义为

，

步骤16、将路侧单元的缓存通过缓存替换模型替换建模为多智能体马尔可夫决策过程；多智能体马尔可夫决策过程是缓存替换模型做决策的过程，多智能体马尔可夫决策过程包括状态、动作和奖励，具体包括如下步骤：

步骤161、状态：由于路侧单元通过观察其已缓存内容和所服务的区域中的车辆来进行替换动作，认为该状态由本地缓存状态/>和每个时隙中的请求状态/>组成，因此将状态/>表示为：

，

步骤162、动作：路侧单元应确定替换哪些内容以及如何满足内容请求，即缓存替换动作/>和请求处理动作/>，假设每个路侧单元从请求的内容集合/>中选择多个内容在每个时隙中替换，把动作/>记为/>和/>的组合，表示为：

，

其中表示所有路侧单元的缓存替换动作，当/>时，路侧单元/>的请求内容/>应当被缓存，否则/>。如果/>并且，则表示时隙/>内路侧单元/>不替换任何缓存内容，请求处理动作，其中/>表示车辆用户/>所请求内容分别由本地路侧单元/>、相邻路侧单元/>和MBS提供，因此令/>；

步骤163、奖励：奖励函数被设计为最大化系统总收入以提高车辆的内容请求服务质量。根据综合系统成本模型和奖励与惩罚模型，定义奖励函数/>：

。

其中，表示用户公平服务成本，/>表示奖励与惩罚模型。

本发明专注于提高车辆用户的内容请求服务质量的最小化系统成本。因此缓存替换模型需要为每个RSU（视为代理）设计一个策略，以生成最佳动作。路侧单元的策略/>是从其状态到动作的映射，即/>，/>表示不同的时隙/>。令/>表示为折扣因子。因此，根据奖励函数/>，本发明的目标是通过最大化预期的长期贴现累积回报来学习最优策略/>，即：

其中是对时变系统参数的期望，如车辆用户的内容请求以及终端设备与RSU之间的关联。(b)中的约束保证带宽和缓存容量的限制。(d)和(e)中的约束保证每个内容请求只能由一个位置满足。其中(g)保证任务的状态总是在代理的意识范围内。该优化问题根据 />、/>、系统成本/>和系统奖励/>，包括整数变量/>和/>。

步骤2、提出集成注意力层的离散Soft Actor-Critic (ADSAC)算法，制定基于深度强化学习的最优协同缓存替换决策，主要目标是基于DRL找到一个最佳的协作缓存策略，以最大限度地减少内容传输成本。

本发明认为每个RSU的计算能力是强大的，可以在很短的时间内确定协作缓存。Soft Actor-Critic (SAC)，旨在通过引入最大熵来最大化未来累积奖励，但其在多智能体协同决策中的应用存在局限性。MASAC是处理多代理交互的SAC的扩展，但它不能完全满足我们在VEC中高效缓存决策的要求。本发明提出了一种注意力机制增强的MASAC算法（ADSAC），它对复杂的代理协作有着强大的建模能力，可以更好地处理VEC中的实时变化，从而得到自适应的缓存决策。具体包括如下步骤：

步骤21、离散Soft Actor-Critic：提出一个多智能体离散变量的SAC，所述多智能体离散变量的SAC包括一个行动网络Actor和一个评论网络Critic，通过观察获得环境状态信息，所述行动网络负责探索环境状态以做出替换动作，所述评论网络负责评估策略，提高训练效率。改进的行动网络与评论网络与注意力机制结合，提高神经网络性能。

（1）Observation：令表示观察结果，智能体可以在其服务区域的覆盖范围内获得本地缓存状态和用户请求。此外，由于不同的RSU可以建立通信链路，因此智能体也可以获得关于相邻RSU的一些信息。

（2）Actor网络：每个本地智能体观察其服务区域的本地状态，然后根据其本地状态做出缓存决策。在Actor网络中，可选的行动包括所有当前缓存的内容，并主要基于其局部观察来选择行动，其中的策略梯度用于更新参数。

（3）Critic网络：缓存动作的决策由部署在每个智能体中的Actor网络根据本地信息选择。在Actor网络中进行行动选择后，评价网络根据所有RSU的观察和行动，通过价值函数评估策略的期望回报。

根据设计的奖励函数，计算预期长期贴现报酬为：

，

其中，用来更新已找到最大总奖励的策略；/>是平衡熵与奖励的相对重要性的温度参数；/>表示长期时间尺度；/>是贴现因子；/>是路侧单元/>的奖励； />是路侧单元/>的状态，/>是车辆，/>是时隙；/>是可以度量随机变量的不确定性的熵，熵值越大，智能体对环境的探索度越大，使智能体能够找到一个更高效的策略，有助于加快后续的策略学习。

SAC具有相等的概率来探索未知状态空间，即所有行动都将得到有效探索和利用。为了克服SAC对于连续动作的限制，将策略输出从密度到离散场景的概率，称为DSAC模型，DSAC模型的策略/>最大化奖励和熵，即：

；

步骤22、集成注意力机制：注意力机制是一种计算机科学和机器学习中的关键概念，受到人类感知与认知的启发。它使模型能够动态地关注输入数据中的重要部分，而不是均匀处理整个输入。尤其对于多智能体环境或需要考虑周围环境信息的问题，有助于提高模型性能和智能化处理信息。在多智能体强化学习环境中，每个智能体都有自己的Actor网络来选择动作，而Critic网络能够考虑所有智能体的观察和动作，同时使用一种注意力机制来模拟其他代理的复杂影响。如图2所示，在DSAC模型中引入关键的注意力机制，允许每个智能体动态地调整其对邻居节点的关注，从而更好地适应不同环境。

首先，对现有的神经网络进行扩展，在所述行动网络引入一个注意力机制，所述注意力机制基于自身状态和邻居节点的状态来计算节点的权重，生成一个注意力权重向量，用于根据邻居节点的信息进行加权汇总，即：

，

其中，表示第/>个智能体的注意力权重，/>是用于计算注意力权重的线性权重矩阵，/>表示将自身状态和相邻状态连接成的特征表示，/>表示自身状态，/>表示相邻状态。接下来，将这些注意力权重与相应的智能体或邻居节点的信息进行加权求和，以生成一个新的状态表示，这可以表示为：

，

其中，表示经过状态扩展后的新状态，/>表示与第/>个智能体相邻的智能体的集合，/>表示第/>个智能体的注意力权重，/>表示第/>个智能体的状态特征表示；

这样，就得到了一个更加丰富的状态表示，其中包括了自身和邻居节点的信息。接着，对Actor网络进行了相应的修改，以适应新的状态表示。对神经网络架构进行了调整，将扩展后的状态表示作为输入，并输出相应的动作。在训练过程中，确保注意力机制的权重是根据模型的训练数据进行动态计算。

然后，在Critic网络中也集成一个专门的注意力层，以处理多智能体环境中每个智能体的观察和动作。这个注意力机制模拟了每个智能体对全局状态的影响。

在新的Critic网络中，通过将观察和动作传递给注意力层，然后使用得到的注意力权重对每个智能体的贡献进行加权求和，最终将结果传递给全局Critic网络。通过集成注意力层，这个模型能够更好地学习每个智能体对观察和动作的贡献，并将这些贡献动态整合到全局的 Q 值估计中。这在多智能体强化学习中具有重要意义，因为每个智能体的行为可能会对整个系统的性能产生影响，而注意力机制有助于更好地理解和建模这种影响。

首先，引入一个注意力权重向量，注意力权重向量/>包含每个智能体的观察和动作对全局状态的贡献权重，通过以下方式计算：

，

其中，是用于注意力计算的线性权重矩阵，/>是将观察和动作连接成的特征表示。接下来，使用注意力权重/>对每个智能体的观察和动作进行加权求和，得到全局状态的表示：

，

其中，是用于注意力计算的线性权重矩阵，/>是将观察和动作连接成的特征表示，/>是注意力权重向量中的第/>个元素，表示第/>个智能体的贡献。表示第/>个智能体的观察和动作的特征表示；

最后将递给全局评论网络估计全局的/>值：

，

这个过程通过注意力层动态地学习每个智能体在不同情况下对全局状态的贡献，并在全局Critic网络中综合这些贡献，以更好地估计全局值。这有助于多智能体系统更好地理解和优化其整体性能。

步骤23、集成注意力层的离散Soft Actor-Critic (ADSAC)算法的训练：DRL的每一次迭代都需要给定一个策略评价函数，并根据该函数值更新策略。因此，除了原始Actor-Critic网络之外，还建立了与原始网络相同结构的目标Actor-Critic网络用于估计未来的动作。DRL的目标是找到最优策略，函数被用来表示在状态中采取行动后，智能体在未来可以获得的总奖励的期望。

为了评估所有有限离散动作，软函数应该输出每个可能动作的/>值，即从到/>。因此，软/>函数被重新定义为

，

其中，表示具有熵增强累积收益的软价值函数。对于固定策略π，其软/>值可以通过软Bellman备份算子/>迭代计算，即。

在策略更新期间，有，即两个变量成正比。与传统的通过最大化/>值的off-policy方法不同，在DSAC中策略更新是向正比于/>的指数分布更新的。但在实际操作中，为了便于策略处理，仍然将策略输出为高斯分布，并通过Kullback-Leibler（KL）散度去最小化两个分布之间的差距，即，

，

其中是KL散度；/>是用于归一化/>值分布。由于最小化策略分布与/>函数的指数分布之间的KL散度等价于最大化上述目标函数。上述公式中的新策略满足/>，这样保证每次更新的策略至少是优于旧策略的。

总的来说，DSAC中包含 5 个神经网络：策略网络，软状态价值函数，目标状态函数/>，两个软Q函数/>。它们分别由/>参数化。为了分别找到最优策略，将随机梯度下降法应用于它们的目标函数中。类似于规范DRL的策略迭代解，软策略评估和软策略更新的两个过程可以迭代求解以最终找到最优策略。该方案确保了最优策略在状态-动作空间中是离散的，并且可以在有限的迭代内找到。

步骤24、集成注意力层的离散Soft Actor-Critic (ADSAC)算法更新：在集成注意力层的离散Soft Actor-Critic (ADSAC)算法中，每个路侧单元RSU都部署有代理即局部ADSAC模型，独立地训练局部模型并且协作地聚合模型参数。

首先，多智能体观察其局部状态并生成决策动作/>，包括替换动作/>和请求处理动作/>。进一步的可以获得当前奖励/>和下一状态/>，并将其存储在重放缓冲器中。

然后，基于批量历史经验学习和更新行动网络和评论网络。

在多次迭代之后，当情节数等于聚合数量的倍数时，所有多智能体将它们的评论网络的参数上传给全局评论网络，宏基站MBS计算全局评论参数/>。

最后，全局评论参数被分发到所有多智能体的评论网络进行更新。为了便于理解，协作缓存算法ADSAC的具体流程如图3所示。

本发明评估了一种车辆边缘网络中基于激励机制的边缘协作缓存系统及方法的整体性能。具体如下：

首先，本发明在城市道路上模拟了一个VEC环境，包括60个VU和4个路侧单元RSU的场景，每个边缘服务器覆盖半径为1 km的圆形区域。车辆与RSU/MBS之间的通信采用第三代合作伙伴计划（3GPP）蜂窝V2X（C-V2X）架构，其中参数根据3GPP标准设置。Actor网络由一个输入层、一个输出层、两个隐藏层和一个注意力层组成。Critic网络的架构与Actor网络相同。实验基于64位Windows 11系统在GTX1050-Ti GPU上进行。编程工具是Python 3.10和深度学习库PyTorch 1.12。

然后，设置对比算法的基线：

·Random：随机选择流行内容进行缓存替换。

·FIFO：先进先出，即首先替换RSU中最旧的内容。

·TS：Thompson采样。缓存在RSU中的内容基于前一时隙中的缓存命中和缓存未命中的数量进行更新，并且选择具有最高值的流行内容进行缓存替换。

·DDQN：DDQN是一种经典的RL，可以在小规模设置中获得接近最优的结果。

·DDPG：DDPG是一种具有确定性策略的DRL算法，已广泛用于现有研究。

·SAC：SAC是一种基于最大熵的无模型的DRL算法，SAC算法的效率非常高，它在解决离散动作空间和连续性动作空间的强化学习问题上具有优秀的表现。

最后，进行试验并分析如下：

图4展示了算法训练的ADSAC、SAC、DDQN和DDPG的收敛曲线。X轴和Y轴分别是episode和reward。显然，随着episode的增加，与SAC、DDQN和DDPG相比，所提出的ADSAC算法收敛的reward值更大。特别地，可以看到ADSAC在前150个episode中急剧上升并收敛最终达到62左右。对于DDPG和DDQN，DDPG优于DDQN，能收敛到较高的reward值。这是因为DDPG集成了Actor-Critic结构，所以性能优于DDQN。对于SAC和DDPG，SAC优于DDPG。这是因为具有最大熵目标的SAC具有探索更多动作空间的能力。此外，虽然所提出的ADSAC、SAC和DDPG的波动性和不稳定性更大，并且DDQN收敛最快，但是其收敛reward最低，不能很好地工作，因为它更难以从真实的复杂场景中学习。

为了验证注意力层的有效性，在图4中说明了注意力层对缓存决策算法的影响。提出的ADSAC比没有注意力层的SAC性能更好。具体而言，使用注意力层的ADSAC收敛速度更快，收敛reward更高，这是因为注意力层可以加速Actor网络和Critic网络的训练。并且所提出的具有注意力层的ADSAC很容易捕获来自不同状态重要特征信息，以学习关于缓存决策动作的更好策略。

图5和图6从平均系统收入和缓存命中率与RSU不同缓存大小两个方面将所提出的ADSAC算法的性能与基线算法进行比较。对于不同的缓存大小，ADSAC的平均系统收入总是优于其他六个基线算法。与此同时，在图5和图6中，随着每个RSU缓存大小的增加，每个算法的平均系统收入和缓存命中率增加，因为具有更大缓存容量的RSU可以为车辆用户缓存更多内容，进一步满足更多的用户请求。

图5中，与其他三个基于DRL的算法相比，ADSAC有一个更平缓的上升过程，说明ADSAC具有较高的性能和稳定性。特别的，当每个RSU的缓存大小增加到300 Mbit时，不同算法的平均系统收入增长幅度较小。这可能是因为RSU具有300 Mbit的缓存大小足以使它们做出最佳的缓存策略。可以看到，更大的缓存大小对增大系统收入有很小的贡献，而太小的缓存容量会导致平均系统收入为亏损状态。

此外，图6中四种基于DRL的算法和Thompson sampling（TS）算法的缓存命中率上升趋势最大，说明这五种决策算法在更大的缓存容量下能够提供更好的用户请求服务。总之，对于不同的RSU缓存的大小，相比于基线ADSAC的性能是更好的。

图7和图8分别示出了不同RSU指标对七种决策算法的平均系统收入和缓存命中率的影响。在图7中，将RSU指标从1变化到4。通常，可以看到，在不同RSU指标的所有情况下，与三种基于规则的缓存决策算法相比，四种基于DRL的缓存决策算法在平均系统收入方面具有更好的性能。这是因为四种基于DRL的算法具有生成更明智的缓存替换动作的学习能力。特别地，ADSAC以最高的平均系统收入表现最好。DDQN表现不佳。在RSU指标= 4时， DDQN和ADSAC之间的平均系统收入的差分别从19增加到27。增长率为42%。由于DDQN具有比较简单的结构和策略，它不能很好地捕获和学习复杂的真实的环境缓存状态特征。随着RSU指标的增加，七种缓存决策算法的平均系统收入也增加，因为所提出的缓存系统会处理更多的缓存请求，能够获得更多的系统收入。

在图8中，基于DRL的缓存决策算法的缓存命中率要明显大于基于固定缓存规则的算法。并且随着RSU指标的增加，不同算法的缓存命中率也在随之增大。这是因为随着RSU增多，相邻RSU之间会产生协作缓存，相互协助完成车辆用户的内容请求，一定程度上提高了缓存命中率。一般而言，对于RSU指标更多的复杂环境，ADSAC在平均系统收入和缓存命中率方面具有更高的稳定性和更好的性能。

此外，图9和图10展示了不同VU密度即每个RSU服务的VU的数量对协作缓存系统的影响。将VU密度设置从6到42不等。在图9中，随着VU密度从6增加到18时，平均系统收入呈明显上升趋势，ADSAC、DDPG、DDQN和SAC的平均系统成本增长率相对较大。当VU密度=24时，算法性能最佳，而当VU密度>24时，算法性能会略微下降。这是因为VU增多，系统满足的用户请求增加，会带来系统收入的提高。然而在VU密度较大时，可能由于RSU传输带宽的限制，许多VU的请求无法及时满足，导致平均系统收入降低。注意到，ADSAC始终实现了比其他决策算法更高的平均系统收入。说明注意力层的辅助可以使ADSAC捕获不同RSU状态的特征信息，以做出更适当的动作，使ADSAC可以更有效地适应大规模VU的动态场景。

在图10中，在VU密度[6，42]的期间，基于DRL的算法的缓存命中率都高于基于规则的算法。其中ADSAC、DDPG、DDQN和SAC的缓存命中率近似，且增长速率几乎相同。说明VU密度的变化对于缓存系统性能的影响不大。虽然三个基于规则的算法具有较低的缓存命中率，但是TS和DDQN的表现近似。对于不同的VU密度，ADSAC始终保持较好的算法性能，这可能是因为ADSAC可以同时捕获VU请求偏好。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。

Claims

1.一种车辆边缘网络中基于激励机制的边缘协作缓存方法，其特征在于：所述边缘协作缓存方法包括如下步骤：

步骤11、在车联网边缘缓存系统中，考虑一个城市场景中的三层车辆边缘计算架构；

步骤13、根据车辆数量、位置、速度的移动性特征的变化，设计一个车辆移动模型，所述车辆移动模型的关键参数包括车辆的初始位置、移动速度和移动距离；

步骤15、根据车辆用户的高移动性对内容获取带来的延迟敏感，建立奖励与惩罚模型；

步骤16、将路侧单元m的缓存通过缓存替换模型替换建模为多智能体马尔可夫决策过程；

步骤2、提出集成注意力层的离散Soft Actor-Critic即ADSAC算法，制定基于深度强化学习的最优协同缓存替换决策，减少内容传输成本；

所述步骤2具体包括如下步骤：

步骤21、提出一个多智能体离散变量的SAC，所述多智能体离散变量的SAC包括一个行动网络和一个评论网络，通过观察获得环境状态信息，所述行动网络负责探索环境状态以做出替换动作，所述评论网络负责评估策略，提高训练效率，行动网络与评论网络与注意力机制结合，提高神经网络性能，根据设计的奖励函数，计算预期长期贴现报酬J(π)为：

其中，π用来更新已找到最大总奖励的策略；δ是平衡熵与奖励的相对重要性的温度参数；是度量随机变量的不确定性的熵，∞表示长期时间尺度；ζ是贴现因子；r(m)是路侧单元m的奖励；(S(m))是路侧单元m的状态，i是车辆，t是时隙；

将策略输出从密度π(A(t)∣S(t))到离散场景的概率π(S(t))，称为DSAC模型，DSAC模型的策略π最大化奖励和熵，即：

π^*＝arg max_πJ(π)；

步骤23、集成注意力层的离散Soft Actor-Critic即ADSAC算法的训练：建立目标行动-评论网络，目标行动-评论网络具有与原始行动网络和一个评论网络相同的结构和初始化，在训练网络参数的同时，目标行动-评论网络估计未来的动作，在深度强化学习中，目标是找到最优策略；

步骤24、集成注意力层的离散Soft Actor-Critic算法更新：在集成注意力层的离散Soft Actor-Critic算法中，每个路侧单元RSU都部署有代理即局部ADSAC模型，独立地训练局部模型并且协作地聚合模型参数，多智能体观察其局部状态S_m(t)并生成决策动作A_m(t)，包括替换动作和请求处理动作/>获得当前奖励/>和下一状态/>并将其存储在重放缓冲器中，基于批量历史经验/>学习和更新行动网络和评论网络，在多次迭代之后，当情节数等于聚合数量的倍数时，所有多智能体将它们的评论网络的参数{θ_m}_m∈G上传给全局评论网络，宏基站MBS计算全局评论参数θ_global，全局评论参数被分发到所有多智能体的评论网络进行更新；

其中：

步骤11中的所述三层车辆边缘计算架构包括一个附着云的宏基站层、多个路侧单元层和在所述路侧单元覆盖范围内移动的车辆用户层，

多个路侧单元组成边缘网络，为车辆用户提供内容服务，路侧单元的集合表示为路侧单元RSU的总数是M，且S_m是路侧单元m的最大存储容量，路侧单元收集车辆用户的状态，包括内容请求信息、车辆的位置和速度、网络拓扑和状态；

车辆用户将请求发送给所属范围内的路侧单元m来获取内容，对于时隙t内，在路侧单元m的覆盖区域中行驶的车辆集合表示为K表示车辆的数量；

步骤12中，车辆的内容请求是随机的，每个路侧单元具有边缘缓存能力，其缓存的内容由表示，令/>表示请求的内容集合，在时隙的开始，车辆用户/>从请求的内容集合/>中请求内容f表示为/>其中为车辆用户i求内容f，否则/>具体的，车辆用户从本地路侧单元、相邻路侧单元或宏基站获取所请求的内容具体包括：

如果所请求的内容在本地路侧单元和相邻路侧单元的缓存中都不可用，车辆用户将向宏基站发送请求，并直接从宏基站获取所需的内容；

步骤13中车辆移动模型的构建方法具体包括如下步骤：

步骤131、设定车辆的初始化位置和移动速度；

步骤132、设定路侧单元m覆盖范围内所有车辆沿相同方向移动，并基于泊松分布到达路侧单元m，其中平均到达率为λ_v；

在车辆移动模型中，令表示在路测单元m中行驶的所有车辆的速度，其中/>是在路测单元m中行驶的车辆i的速度，车辆速度/>的概率密度函数为：

其中v_max和v_min分别是每个车辆的最大速度阈值和最小速度阈值，是/>在均值μ和方差σ²下的高斯误差函数，令/>表示在路测单元m的覆盖范围内的车辆i的遍历距离，计算为：

其中T^t是时隙t的持续时间，是车辆i在时隙t的移动速度；

步骤14具体包括以下步骤：

步骤141、内容获取成本具体为：

内容请求车辆通过向路侧单元发送内容请求来获得内容，称为V2R，内容请求车辆通过向宏基站发送内容请求来获得内容，称为V2B，在车辆边缘网络中，路侧单元m通过车辆到路侧单元即V2R链路与其覆盖区域中的车辆通信，宏基站通过车辆到基站即V2B链路与车辆通信，对于车辆i在时隙t的信道增益，建模为：

其中x＝S，M分别表示路侧单元m和宏基站，d(x，i)表示路侧单元m、宏基站与车辆i之间的传输距离，表示包括路径损耗和阴影大尺度衰落效应，/>表示小尺度衰落效应；

根据香农定理，V2R链路和V2B链路下的传输速率计算为：

其中表示路侧单元m和车辆i之间的传输速率，/>表示宏基站和车辆i之间的传输速率，p_m表示路侧单元m使用的发射功率，p_B表示宏基站使用的发射功率，N²表示噪声功率，表示信道增益，B表示宏基站的固定信道带宽，/>表示采用相等功率分配方案从路侧单元m分配给车辆i的可用带宽，/>其满足约束/>其中W是路侧单元m的总信道带宽；

请求内容f被缓存在路侧单元m中，内容获取成本为请求内容f被缓存在相邻路侧单元n中，内容获取成本为/>请求内容f既没有缓存在路侧单元m中也没有缓存在相邻路侧单元n中，内容获取成本为/>

其中表示路侧单元m与车辆i之间的传输速率，/>表示路侧单元m和相邻路侧单元n之间的传输速率，/>表示宏基站MBS与车辆i之间的传输速率，ζ_w表示无线链路通信的单位价格，ζ_l表示有线链路通信的单位价格，s_f表示内容f的数据大小；

定义作为满足用户所有内容请求的请求处理动作，其中表示车辆i所请求内容分别由路侧单元m、相邻路侧单元n和宏基站提供，请求处理动作满足约束/>将内容获取成本/>计算为：

其中表示在路侧单元m的覆盖区域中行驶的车辆集合，/>表示请求的内容集合；

步骤142、用户公平服务成本具体为：

使用Jain的公平指数来评估车辆之间的公平性：

其中u_i(t)表示车辆i在时隙t期间从路侧单元接收请求内容的缓存命中率，车辆之间的缓存命中率差异越大，公平性指数越小；K表示车辆的数量；

所述步骤15具体为：

定义请求内容f的价值函数：

I_f＝τv(t)∈(0，1]

其中v(t)表示请求内容f的价值随时间衰减的线性函数，τ表示衰减因子；

为请求内容f是否在其最可容忍延迟范围内完成设置索引IN_f，如果请求内容f任务完成，则分发奖励，索引IN_f等于1，如果请求内容f任务未完成，则处以惩罚，索引IN_f等于-1，表示为：

其中D_f表示获取请求内容f等待时延，δ_f表示请求内容f任务最大可容忍延迟，将奖励与惩罚模型定义为

其中w_f为每个请求内容f的合同收入；为车辆用户/>从请求的内容集合/>中请求内容f；

步骤16中多智能体马尔可夫决策过程即缓存替换模型做决策的过程包括状态、动作和奖励，具体包括如下步骤：

步骤161、状态：路侧单元m通过观察其已缓存内容和所服务的区域中的车辆来进行替换动作，状态S(t)表示为：

S(t)＝(s(t)，n(t))

其中s(t)表示本地缓存状态，表示所有路侧单元的当前缓存内容状态，n(t)表示每个时隙中的请求状态，/>表示为频率向量，其中/>表示路侧单元m所有用户请求内容f的数量；

步骤162、动作：路侧单元m的缓存替换动作a(t)和请求处理动作z(t)，假设每个路侧单元从请求的内容集合中选择多个内容在每个时隙中替换，把动作A(t)记为a(t)和z(t)的组合，表示为：

A(t)＝(a(t)，z(t))

其中表示所有路侧单元的缓存替换动作，当时，路侧单元m的请求内容f应当被缓存，否则/>如果f＝0并且/>则表示时隙t内路侧单元m不替换任何缓存内容，请求处理动作其中/>

步骤163、奖励：根据综合系统成本模型和奖励与惩罚模型，定义奖励函数r(t)：

其中，表示用户公平服务成本，H(t)表示奖励与惩罚模型；

根据奖励函数通过最大化预期的长期贴现累积回报来学习最优策略/>即：

其中λ∈(0，1]表示为折扣因子，路侧单元m的策略π_m是从其状态到动作的映射即π_m：S→A，j表示不同的时隙j；

所述步骤22具体为：

其中，α_m表示第m个智能体的注意力权重，W_α是用于计算注意力权重的线性权重矩阵，表示将自身状态和相邻状态连接成的特征表示，s_m表示自身状态，s_neihh表示相邻状态，/>表示经过状态扩展后的新状态，N(m)表示与第m个智能体相邻的智能体的集合，α_j表示第j个智能体的注意力权重，/>表示第j个智能体的状态特征表示；

对行动网络进行了修改，以适应新的状态表示，对神经网络架构进行了调整，将扩展后的状态表示作为输入，并输出相应的动作，在训练过程中，确保注意力机制的权重是根据模型的训练数据进行动态计算；

引入一个注意力权重向量β_m，注意力权重向量β_m包含每个智能体的观察和动作对全局状态的贡献权重，通过以下方式计算：

其中，W_β是用于注意力计算的线性权重矩阵，是将观察和动作连接成的特征表示，β_m表示第m个智能体的贡献，/>表示第m个智能体的观察和动作的特征表示；

将S^global递给全局评论网络估计全局的Q值：

Q^global＝Q(S^global，a)

其中，Q(S^global，a)表示全局评论网络对于全局状态S^global和动作a的Q值估计。

2.根据权利要求1所述的一种车辆边缘网络中基于激励机制的边缘协作缓存方法，其特征在于：所述边缘协作缓存方法通过边缘协作缓存系统实现，所述边缘协作缓存系统包括系统场景及架构、车辆移动模型、系统成本模型、奖励与惩罚模型以及缓存替换模型。

3.根据权利要求2所述的一种车辆边缘网络中基于激励机制的边缘协作缓存方法，其特征在于：所述系统场景包括一个附着云的宏基站MBS、多个路侧单元RSU和在路侧单元RSU覆盖范围内移动的车辆，

多个位于道路边缘的路侧单元RSU，覆盖到范围内的车辆；

路侧单元RSU通过无线通信与宏基站MBS和车辆进行连接；