CN113094982A

CN113094982A - 一种基于多智能体深度强化学习的车联网边缘缓存方法

Info

Publication number: CN113094982A
Application number: CN202110332326.4A
Authority: CN
Inventors: 张德干; 倪辰昊; 张婷; 杜金玉; 张捷; 陈露
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-07-09
Anticipated expiration: 2041-03-29
Also published as: CN113094982B

Abstract

一种基于多智能体深度强化学习的车联网边缘缓存方法，通过以下步骤实现，第1、系统模型与数学模型的构建；第2、建立基于多智能体的执行者‑评价家结构的协同内容分发的边缘缓存策略。本发明首先采用Zipf分布请求内容，每个智能体根据自己的策略网络及其过程中的噪声选择相应动作并执行，之后判断是否超出缓存，超出则删除流行度较低内容。然后，每个智能体获得环境奖励，获得新的观测空间，并将相应数据放入经验池中。最后，更新每个智能体的目标网络参数。结果表明本方法所提出的车联网边缘缓存方案与其他方法相比，在减少内容内容分发过程中的时延、提高内容命中率和成功率方面有较好的表现。

Description

一种基于多智能体深度强化学习的车联网边缘缓存方法

【技术领域】

本发明属于边缘车辆网络领域，具体涉及一种基于多智能体深度强化学习的车联网边缘缓存方案。

【背景技术】

边缘缓存可以通过在无线访问网络上提供存储功能来减轻对大型回程带宽的需求并减少内容交付延迟。需要指出的是，通过在网络边缘上缓存内容，最多可以减少35％的回程流量。受到边缘节点存储大小的限制，无法在本地缓存所有内容，为了提高对边缘节点的存储空间的利用率，对边缘节点的内容缓存策略进行研究就变得尤为重要。但是，车辆的可变参与和短暂交互增加了边缘缓存系统的操作复杂性，当系统状态空间变大时，难以在可容忍的时间内获得最佳解。车联网的这些固有特性要求通过利用一些有效的解决方案来适应协作边缘缓存。深度强化学习最近在边缘缓存和内容交付方面引起了很多关注，在解决边缘计算和云计算的优化问题中显示出巨大的潜力。因而，将车联网的边缘缓存与深度强化学习算法结合进行研究，在提供低延迟和高可靠性的环境，促进车联网的发展等方面具有重要的理论价值和实际意义。

【发明内容】

本发明的目的是为了解决车联网中数据流量大幅度增长所导致的响应时延过高的问题，提出了基于多智能体深度强化学习的车联网边缘缓存方案。我们建立了一个协同内容分发的车联网边缘缓存方案，车辆之间可以相互协作，有选择的缓存内容，从而最大程度减少内容分发过程中的时延。另外，该方案还考虑了不同路边单元覆盖范围下内容流行的程度可能不同的情况，以及车辆在不同的位置会受到不同的信道损伤的情况。该方案中，车辆可以根据自己对于环境的观察，自主的做出内容访问和缓存决策，使自身奖励最大化。

本发明提供的基于多智能体深度强化学习的车联网边缘缓存方法，主要包括如下关键步骤：

第1、系统模型与数学模型的构建：

第1.1、建立系统模型；

第1.2、建立内容缓存数学模型；

第1.3、建立内容获取数学模型；

第2、建立基于多智能体的执行者-评价家结构的协同内容分发的边缘缓存策略：

第2.1、策略设计；

第2.2、训练分布式执行的多智能体执行者-评价家框架；

第2.3、基于多智能体强化学习的协同内容分发的边缘缓存算法的描述。

步骤第1.1中建立的系统模型由1个宏基站(MBS)、多个路边单元(RSU)和多辆车辆组成；车辆间可以相互通信也可以缓存部分内容，考虑在不同的RSU覆盖范围下的内容具有不同的流行度，因此需要考虑不同的RSU覆盖范围下的车辆，假定各个RSU覆盖范围内的车辆到相应的RSU的位置服从泊松分布，每个内容f都由3个特征来进行描述，其中s_f表示内容f的大小，d_f表示内容f的最大容忍交付时延，ρ_f表示内容f的流行度；另外，为每个内容分配一个唯一的索引，并在车辆请求内容时将该索引用作内容ID；假定MBS中缓存了所有车辆请求的内容，并在MBS上部署一个中央控制器，充当所有边缘服务器的管理器，存储着交互和同步信息；RSU和车辆都具有边缘缓存能力，减少内容交付过程中的时延。

步骤第1.2中建立内容缓存数学模型的方法如下，

假定所有内容的流行度遵循Zipf分布，内容用集合F＝{1，2,3,......,F}表示，所以车辆请求内容f的概率表示为：

其中，ρ_f表示内容f的流行度，ε是控制内容相对流行的内容请求系数，该系数越大表示内容重复使用率越高；在该模型中MBS缓存了用户需要的所有内容，并且在MBS中部署有中央控制器，存储着其管理范围内的所有车辆和RSU的缓存内容，用矩阵表示为：

其中，

j≠0的情况，j表示车辆的编号，

表示车辆的缓存情况：

j＝0的情况，j为标签，

表示RSU的缓存情况：

当车辆发出内容请求时，如果本地没有缓存则车辆或者接受请求的RSU根据自身缓存的内容自主决策是缓存内容还是保持原状不变；其中RSU用集合R＝{r₁，r₂，r₃，......，r_I}表示，r_i覆盖下的车辆用集合

表示，车辆

的缓存决策用caf_i,j表示：

另外，由于车辆和RSU具有有限的缓存容量，缓存的内容总量不能超过车辆和RSU的缓存能力，

表示车辆缓存容量，

表示RSU缓存容量，即满足下述约束条件：

其中s_f表示内容f的大小，当车辆或者RSU的缓存空间已满时，为了提高内容命中率并减少内容分发过程中的时延，采取的策略是删除已缓存的内容中流行度较低的内容，内容的流行度可以通过Zipf分布得到。

步骤第1.3中建立内容获取数学模型的方法如下：

当车辆请求内容时，先检查自身是否缓存了所请求的内容，如果缓存了则直接从缓存中获得，否则车辆自主做出决策是通过V2V获得内容或通过V2R获得内容，V2V是指通过向周围车辆请求获得内容，V2R是指通过向其连接的RSU请求获得内容，车辆

的内容访问方式决策用wv_i,j表示：

车辆

的通信范围为TR_i,j，可以通信的车辆用集合

表示；目标车辆与内容请求车辆之间数据传输速率为：

其中，

表示车辆与车辆之间的带宽，

表示车辆

的发送功率，

是车辆与车辆之间的信道增益，

是目标车辆

与内容请求车辆

之间的距离，δ是损耗因子，高斯白噪声功率用符号N₀表示，如果目标车辆缓存了内容

则请求车辆直接从目标车辆获得所请求的内容，其传输时延为：

其中

表示请求内容

的大小，

目标车辆

的缓存内容变量，如果内容请求车辆的周围车辆都没有缓存请求的内容，则直接向MBS请求内容，其传输时延为：

其中，

表示MBS与内容请求车辆

之间可达到的数据传输速率；本发明将正交频分多址(OFDMA)用于MBS与车辆之间的无线传输，MBS的信道带宽为

可以分为W个正交子载波，与MBS连接的每个车辆被分配一个正交子载波，内容请求车辆

通过V2V方式获得内容f的时延表示为：

当车辆

做出决策通过V2R的方式访问内容

时，车辆

向其连接的固定位置的RSU请求内容

如果RSU缓存了请求内容的副本，则直接将请求内容的副本发送给内容请求车辆

如果没有相应内容，则向没有相应内容的RSU周围连接的RSU请求内容

如果周围连接的RSU缓存了该请求内容的副本，则将请求内容发送给请求内容的RSU，然后请求内容的RSU再将该请求内容发给内容请求车辆

如果周围的RSU都没有缓存请求的内容，则直接向MBS请求内容

其传输时延通过公式(12)计算；

RSU缓存了请求内容的情况，车辆在不同的位置到RSU的距离不同，车辆会受到不同的信道损伤，数据传输的速率也会不同；本发明将车辆经过的区域划分为M个具有不同传输速率的区域，在区域m、m＝1,...,M中，车辆

及其连接的RSU之间的数据传输速率

由车辆所在的区域确定，在RSU覆盖范围内的不同移动性区域，RSU到内容请求车辆的数据传输速率不同，RSU覆盖范围内的第m个区域中的内容由

表示；

内容请求车辆可以从RSU中获得内容f的所有字节数，那么需要满足：

在RSU覆盖范围内的第m+1个区域，车辆

从RSU获得内容的时延为：

则内容请求车辆从RSU获得内容f的总的时延为：

RSU没有缓存车辆请求的内容的情况，RSU向周围连接的RSU请求内容，则请求内容的RSU从拥有相应内容的RSU获得内容的时延为：

其中，参数

表示从请求内容的RSU到拥有相应内容的RSU数据传输路径的平均带宽，参数

表示从RSU到RSU数据传输的最短路径长度亦即跳数；

RSU收到请求内容副本后，发送给内容请求车辆，则内容请求车辆获得请求内容的总的时延为：

则，内容请求车辆

通过V2R方式获得请求内容的时延表示为：

请求内容分发过程中，如果RSU缓存了请求内容则时延置为0，反之如果车辆缓存了请求内容且车辆通过V2V方式获取则时延使用公式(12)计算，如果车辆通过V2R方式获取则时延使用公式(18)计算；当选择时延最小的分发方式时要满足缓存内容总量不能超过车辆和RSU的缓存能力。

步骤第2.1中策略设计的方法如下：

将多智能体强化学习的场景设置为车辆自身获取内容时间最短且不考虑其他车辆，在该系统中，每辆内容请求车辆所作出的内容访问和内容缓存的决策都是基于使自身获得内容的时延最小而做出的，而根据决策作出的动作会造成环境改变，从而会影响其他智能体获得内容的时延；强化学习将问题抽象成一个马尔科夫过程，此过程中最重要的三个元素为状态、动作和回报；动作就是每一个任务中智能体做出的选择，状态是做出选择的基础，回报则是评价这个选择好不好的基础；

本发明提出的基于多智能体的执行者-评价家结构的协同内容分发的边缘缓存策略是基于部分可观测的马尔可夫决策过程的；每个智能体只能观测到自身的请求内容和自身、周围车辆以及与自身连接的RSU的内容缓存情况；每个智能体根据自己的观测结果可以自主的选择是否缓存请求的内容以及获得请求内容的方式；请求内容的方式有两种，通过V2V或V2R的方式；每个智能体采取的动作都会对其他智能体的观测结果产生影响；本策略的目标是使请求的内容在交付过程中内容请求车辆获得内容的时延最小；在该策略中，智能体在时隙采取动作后会获得系统给与即时奖励；如果内容请求车辆不能在最大内容交付时延内获得请求的内容，系统会给与该智能体惩罚；智能体的回报是从某一时刻开始到计算回报时智能体获得的所有奖励的加权和，智能体的回报依赖于从这一时刻开始的所有的动作。

步骤第2.2中训练分布式执行的多智能体执行者-评价家框架的方法如下：

多智能体执行者-评价家框架是基于部分可观测的马尔可夫决策过程的，每个智能体有自己的策略网络，中央控制器有G个价值网络，每个价值网络对应一个智能体，本发明采用的学习算法结构是集中式训练-分布式执行；

通过策略可以将智能体的观测结果映射到有效的动作空间；在每个时隙，智能体会根据自己的观测结果和策略选择合适的动作，价值网络是用来估计每个智能体的状态-动作函数的，每一个智能体执行自己的策略网络选择的动作之后，都会把动作以及从环境的反馈、对当前环境的观测结果和获得的奖励发送给中央控制器，然后在中央控制器上训练价值网络的参数，价值网络的输出会发送给对应的智能体的策略网络，用来训练策略网络的参数；本发明采用策略梯度算法来训练策略网络，采用TD算法训练价值网络，集中式的价值网络的参数更新方法借鉴了DQN中TD与目标网络思想，其他智能体的策略可以采用拟合逼近的方式得到，而不需要通信交互；由于智能体的个数为G个，所以每个智能体维护(G-1)个策略逼近函数，其逼近代价为对数代价函数，并且加上策略的熵，只要最小化代价函数，就能得到其他智能体策略的逼近；在更新目标网络之前，利用经验回放池中一个批次的采样更新策略的函数逼近。

步骤第2.3中基于多智能体强化学习的协同内容分发的边缘缓存算法的描述如下：

步骤1：初始化状态空间，每个智能体的目标策略网络，主价值网络和主策略网络的参数，智能体的个数，智能体的最大缓存容量，内容集合，采样批次大小；

步骤2：初始化一个随机过程以便进行探索，初始化接收的状态空间；

步骤3：按照Zipf分布获得内容的流行度并且按照流行度请求内容；

步骤4：每个智能体根据自己的策略网络以及过程中的噪声选择动作并执行，

步骤5：执行动作后判断缓存的内容是否超出了缓存容量，若超出了，删除缓存区中流行度较低的内容，并获得环境奖励和新的观测空间，将每个智能体的当前状态、执行动作、奖励、下一状态存入到对应的经验回放池中；

步骤6：将新的环境观测空间赋值给原来的观测结果，从经验回放池P中随机选择p条数据，每个智能体根据公式更新策略网络的参数和价值网络的参数，并更新每个智能体的目标网络的参数。

本发明的优点和积极效果

本方案提出了一个基于多智能体深度强化学习的车联网边缘缓存方案来解决车联网中数据流量大幅度增长所导致的响应时延过高的问题。首先方案联合考虑动态环境中的内容分发和缓存，将车联网中的每一辆移动车辆都看成一个智能体，通信范围内的智能体可以相互协作，根据环境变化自适应的做出内容缓存和内容访问决策，最大程度减少内容分发过程中的时延。此外，每一个移动车辆可以根据自己对于环境的观察，自主的做出内容访问和缓存决策，使自身奖励最大化。理想实验结果和实际场景实验结果表明，本方案提出的方法在平均传输时延、系统能耗以及内容覆盖率等方面表现出很好的效果。

【附图说明】

图1是Zipf分布参数ε一定时不同缓存容量下的系统总时延；其中，(a)为ε＝0.9时不同缓存容量下的系统总时延，(b)为ε＝1.1时不同缓存容量下的系统总时延，(c)为ε＝1.3时不同缓存容量下的系统总时延，(d)为ε＝1.5时不同缓存容量下的系统总时延；

图2是不同Zipf分布参数ε下的系统总时延；

图3是Zipf分布参数ε一定时不同缓存容量下的内容命中率；其中，(a)为ε＝0.9时不同缓存容量下的内容命中率，(b)为ε＝1.1时不同缓存容量下的内容命中率，(c)为ε＝1.3时不同缓存容量下的内容命中率，(d)为ε＝1.5时不同缓存容量下的内容命中率；

图4是不同Zipf分布参数ε下的内容命中率；

图5是Zipf分布参数ε一定时不同缓存容量下的内容获取成功率；其中，(a)为ε＝0.9时不同缓存容量下的内容获取成功率，(b)为ε＝1.1时不同缓存容量下的内容获取成功率，(c)为ε＝1.3时不同缓存容量下的内容获取成功率，(d)为ε＝1.5时不同缓存容量下的内容获取成功率；

图6是不同Zipf分布参数ε下的内容获取成功率；

图7是不同Zipf分布参数下的系统平均时延

图8是不同Zipf分布参数下的平均内容命中率

图9是不同Zipf分布参数下的平均内容获取成功率

图10是基于多智能体深度强化学习的车联网边缘缓存方案的流程图。

【具体实施方式】

实施例1

本实施例设计的方法是基于python和tensorflow来构建本方法的仿真实验。性能评估的主要目标是查看本方法在系统总时延、请求内容命中率以及内容获取成功率。将本发明提出的算法ECSMADRL与传统的缓存算法最少频繁使用算法(LFU)、最近最少使用算法(LRU)、先进先出算法(FIFO)以及仅考虑内容缓存的多智能体深度强化学习策略(OCMADRL)进行了比较。

参见附图10，本实施例基于多智能体深度强化学习的车联网边缘缓存方法，主要包括如下关键步骤：

第1、系统模型与数学建模的构建：

第1.1、建立系统模型；

该系统模型由1个宏基站(MBS)、多个路边单元(RSU)和多辆车辆组成；车辆间可以相互通信也可以缓存部分内容，考虑在不同的RSU覆盖范围下的内容具有不同的流行度，因此需要考虑不同的RSU覆盖范围下的车辆，假定各个RSU覆盖范围内的车辆到相应的RSU的位置服从泊松分布，每个内容f都由3个特征来进行描述，其中s_f表示内容f的大小，d_f表示内容f的最大容忍交付时延，ρ_f表示内容f的流行度；另外，为每个内容分配一个唯一的索引，并在车辆请求内容时将该索引用作内容ID；假定MBS中缓存了所有车辆请求的内容，并在MBS上部署一个中央控制器，充当所有边缘服务器的管理器，存储着交互和同步信息；RSU和车辆都具有边缘缓存能力，减少内容交付过程中的时延。

第1.2、建立内容缓存数学模型，方法如下：

假定所有内容的流行度遵循Zipf分布，内容用集合F＝{1，2,3,......,F}表示，所以车辆请求内容的概率表示为：

其中，

j≠0的情况，j表示车辆的编号，

表示车辆的缓存情况：

j＝0的情况，j为标签，

表示RSU的缓存情况：

表示，车辆

的缓存决策用caf_i,j表示：

表示车辆缓存容量，

表示RSU缓存容量，即满足下述约束条件：

第1.3、建立内容获取数学模型，方法如下：

的内容访问方式决策用wv_i,j表示：

车辆

的通信范围为TR_i,j，可以通信的车辆用集合

表示；目标车辆与内容请求车辆之间数据传输速率为：

其中，

表示车辆与车辆之间的带宽，

表示车辆

的发送功率，

是车辆与车辆之间的信道增益，

是目标车辆

与内容请求车辆

其中

表示请求内容

的大小，

目标车辆

其中，

表示MBS与内容请求车辆

通过V2V方式获得内容f的时延表示为：

当车辆

做出决策通过V2R的方式访问内容

时，车辆

向其连接的固定位置的RSU请求内容

如果周围的RSU都没有缓存请求的内容，则直接向MBS请求内容

其传输时延通过公式(12)计算；

及其连接的RSU之间的数据传输速率

表示；

在RSU覆盖范围内的第m+1个区域，车辆

从RSU获得内容的时延为：

则内容请求车辆从RSU获得内容f的总的时延为：

其中，参数

表示从RSU到RSU数据传输的最短路径长度亦即跳数；

则，内容请求车辆

通过V2R方式获得请求内容的时延表示为：

第2.1、策略设计，方法如下：

第2.2、训练分布式执行的多智能体执行者-评价家框架，方法如下：

第2.3、基于多智能体强化学习的协同内容分发的边缘缓存算法的描述：

下面将进行两个实验对本发明的可行性及效果进行验证。

实验A：该系统包括1个MBS、4个RSU以及每个RSU覆盖范围下有10个移动车辆。各个RSU覆盖范围内的车辆到相应的RSU的位置服从泊松分布，且所有的RSUs通过无线连接与MBS通信，所有的RSUs之间通过有线连接通信，车辆与车辆之间以及车辆与RSU之间通过使用专用的短距离通信技术进行通信。系统中有50个内容，每个内容的大小为2MB，内容的最大交付时延在[0.5,3]s范围内。RSU的缓存能力是30MB，移动车辆的缓存能力从集合{5,10,15,20}MB中取值。移动车辆根据具有参数为ε的Zipf分布产生内容请求，ε从集合{0.9,1.1,1.3,1.5}中取值。车辆之间的传输速率设置为6Mbps，这是根据车辆通信的传输速率的最佳值确定的。根据区域模型确定移动车辆连接到固定RSU时的传输速率，其中每个RSU的覆盖范围分为7个区域，相应的传输速率为[125.5115.521]Mbps。RSU之间的传输速率为15Mbps。本方案在仿真实验中部署了2个隐藏层，第一个隐藏层有40个神经元，第二个隐藏层有30个神经元，并使用Tanh作为激活函数。在仿真实验中，最大回合数设置为2000，每个回合的最大步数设置为200。另外，执行者神经网络的学习速率设置为10-4，评论家神经网络的学习速率设置为10-3，折扣因子γ为0.999，惩罚设为100。

实验B：将实际场景设置在车流量变化较大的街区道路，RSU坐落在每个路口拐角处，车辆随机分布在道路上，通过路段划分将街区道路划分为500m×200m的块，另外，在此不考虑RSU之间的协作通信行为。RSU的最大通信范围为200m，RSU的带宽为12MHZ，车辆节点带宽为6MHZ，路径损耗因子为4，价格因子γ_in,γ_out,γ_cost分别为0.9,0.5,0.3。

本实例的实验结果如下：

1.理想情况下

1)延时与缓存容量和Zipf分布参数的关系

如图1(a)-(d)所示，其中，(a)为ε＝0.9时不同缓存容量下的系统总时延，(b)为ε＝1.1时不同缓存容量下的系统总时延，(c)为ε＝1.3时不同缓存容量下的系统总时延，(d)为ε＝1.5时不同缓存容量下的系统总时延，在Zipf分布参数ε一定的情况下，系统总时延如何随移动车辆的缓存容量变化。所有的算法的系统总时延都随着缓存容量的增加而降低，并且本方案提出的算法ECSMADRL系统总时延要低于其他算法。这主要是因为常规算法仅将单个功能用于缓存决策，本方案提出的算法考虑了可捕获数据项的各个方面以做出最优决策。图2和图1(a)-(d)所示，随着ε的增大整体的系统总时延有降低的趋势。这是因为ε越大，表示内容重复使用率越高，即请求的数据项变得集中，在这种情况下，所有算法都倾向于以较大的请求频率存储数据项，从而导致系统总时延降低。

2)内容命中率与缓存容量和Zipf分布参数的关系

内容命中率是指在一个回合中所有的车辆请求内容时内容命中的次数占总的请求内容的次数的比例。如图3(a)-(d)所示，Zipf参数一定的情况下，其中，(a)为ε＝0.9时不同缓存容量下的内容命中率，(b)为ε＝1.1时不同缓存容量下的内容命中率，(c)为ε＝1.3时不同缓存容量下的内容命中率，(d)为ε＝1.5时不同缓存容量下的内容命中率，系统总体的内容命中率有整体随缓存容量增加而增大的趋势。并且本方案提出的ECSMADRL算法内容命中率高于其他算法。不难理解随着缓存容量的增大，移动车辆自身可以缓存更多的内容，在一定程度上增加了内容命中率。另外如图4和图3(a)-(d)所示，在缓存容量不变得情况下，系统总的内容命中率有随着Zipf分布参数增大而增加的趋势，且ECSMADRL算法的内容命中率要高于其他算法，这是因为随着参数的变大，请求的内容更加集中，移动车辆请求重复内容的可能性增大，所以内容命中率有增加的趋势。

3)内容获取成功率与缓存容量和Zipf分布参数的关系

内容获取成功率是指在一个回合中内容请求车辆成功获取请求的内容的次数占所有车辆请求内容的总和。如图5(a)-(d)所示，其中，(a)为ε＝0.9时不同缓存容量下的内容获取成功率，(b)为ε＝1.1时不同缓存容量下的内容获取成功率，(c)为ε＝1.3时不同缓存容量下的内容获取成功率，(d)为ε＝1.5时不同缓存容量下的内容获取成功率，Zipf参数一定的情况下，整体的内容获取成功率有随着缓存容量的增大有增加的趋势，并且本方案提出的算法内容获取成功率高于其他算法。如图6和图5(a)-(d)所示，在缓存容量不变的情况下，系统总的获取内容成功率整体随Zipf分布参数增大呈增大的趋势，另外在Zipf分布参数较低的情况下，本方案提出的算法优势越明显。

2.实际场景情况下

4)内容命中率

测试结果如图7-9所示。从真实场景测试结果可以看出，相比于其他四种缓存策略，ECSMADRL有更好的性能。

仿真结果表明，在所有测试中，相比于其他四种缓存策略，本方法有更好的性能。

Claims

1.一种基于多智能体深度强化学习的车联网边缘缓存方法，其特征在于该方法包括如下步骤：

第1、系统模型与数学模型的构建：

第1.1、建立系统模型；

第1.2、建立内容缓存数学模型；

第1.3、建立内容获取数学模型；

第2.1、策略设计；

第2.2、训练分布式执行的多智能体执行者-评价家框架；

2.如权利要求1所述的基于多智能体深度强化学习的车联网边缘缓存方法，其特征在于，步骤第1.1中建立的系统模型由1个宏基站(MBS)、多个路边单元(RSU)和多辆车辆组成；车辆间可以相互通信也可以缓存部分内容，考虑在不同的RSU覆盖范围下的内容具有不同的流行度，因此需要考虑不同的RSU覆盖范围下的车辆，假定各个RSU覆盖范围内的车辆到相应的RSU的位置服从泊松分布，每个内容f都由3个特征来进行描述，其中s_f表示内容f的大小，d_f表示内容f的最大容忍交付时延，ρ_f表示内容f的流行度；另外，为每个内容分配一个唯一的索引，并在车辆请求内容时将该索引用作内容ID；假定MBS中缓存了所有车辆请求的内容，并在MBS上部署一个中央控制器，充当所有边缘服务器的管理器，存储着交互和同步信息；RSU和车辆都具有边缘缓存能力，减少内容交付过程中的时延。

3.如权利要求2所述的基于多智能体深度强化学习的车联网边缘缓存方法，其特征在于，步骤第1.2中建立内容缓存数学模型的方法如下，假定所有内容的流行度遵循Zipf分布，内容用集合F＝{1，2,3,......,F}表示，所以车辆请求内容f的概率表示为：

其中，

j≠0的情况，j表示车辆的编号，

表示车辆的缓存情况：

j＝0的情况，j为标签，

表示RSU的缓存情况：

表示，车辆

的缓存决策用caf_i,j表示：

表示车辆缓存容量，

表示RSU缓存容量，即满足下述约束条件：

4.如权利要求1所述的基于多智能体深度强化学习的车联网边缘缓存方法，其特征在于，步骤第1.3中建立内容获取数学模型的方法如下：当车辆请求内容时，先检查自身是否缓存了所请求的内容，如果缓存了则直接从缓存中获得，否则车辆自主做出决策是通过V2V获得内容或通过V2R获得内容，V2V是指通过向周围车辆请求获得内容，V2R是指通过向其连接的RSU请求获得内容，车辆

的内容访问方式决策用wv_i,j表示：

车辆v_i ^j的通信范围为TR_i,j，可以通信的车辆用集合

表示；目标车辆与内容请求车辆之间数据传输速率为：

其中，

表示车辆与车辆之间的带宽，

表示车辆

的发送功率，

是车辆与车辆之间的信道增益，

是目标车辆

与内容请求车辆

其中

表示请求内容

的大小，

目标车辆

其中，

表示MBS与内容请求车辆

通过V2V方式获得内容f的时延表示为：

当车辆

做出决策通过V2R的方式访问内容

时，车辆

向其连接的固定位置的RSU请求内容

如果周围的RSU都没有缓存请求的内容，则直接向MBS请求内容

其传输时延通过公式(12)计算；

及其连接的RSU之间的数据传输速率

表示；

在RSU覆盖范围内的第m+1个区域，车辆

从RSU获得内容的时延为：

则内容请求车辆从RSU获得内容f的总的时延为：

其中，参数

表示从RSU到RSU数据传输的最短路径长度亦即跳数；

则，内容请求车辆

通过V2R方式获得请求内容的时延表示为：

5.如权利要求1所述的基于多智能体深度强化学习的车联网边缘缓存方法，其特征在于，步骤第2.1中策略设计的方法如下：将多智能体强化学习的场景设置为车辆自身获取内容时间最短且不考虑其他车辆，在该系统中，每辆内容请求车辆所作出的内容访问和内容缓存的决策都是基于使自身获得内容的时延最小而做出的，而根据决策作出的动作会造成环境改变，从而会影响其他智能体获得内容的时延；强化学习将问题抽象成一个马尔科夫过程，此过程中最重要的三个元素为状态、动作和回报；动作就是每一个任务中智能体做出的选择，状态是做出选择的基础，回报则是评价这个选择好不好的基础；

6.如权利要求2所述的基于多智能体深度强化学习的车联网边缘缓存方法，其特征在于，步骤第2.2中训练分布式执行的多智能体执行者-评价家框架的方法如下：多智能体执行者-评价家框架是基于部分可观测的马尔可夫决策过程的，每个智能体有自己的策略网络，中央控制器有G个价值网络，每个价值网络对应一个智能体，本发明采用的学习算法结构是集中式训练-分布式执行；

7.如权利要求1所述的基于多智能体深度强化学习的车联网边缘缓存方法，其特征在于，步骤第2.3中基于多智能体强化学习的协同内容分发的边缘缓存算法的描述如下：