CN115277845A

CN115277845A - 基于多智能体近端策略的车联网分布式边缘缓存决策方法

Info

Publication number: CN115277845A
Application number: CN202210867388.XA
Authority: CN
Inventors: 陈孟骐; 林艳; 包金鸣; 张一晋; 李骏; 束锋
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-01

Abstract

本发明公开了一种基于多智能体近端策略的车联网分布式边缘缓存决策方法，具体为：输入车辆边缘网络环境，初始化执行者‑评估者网络参数；各车辆用户观测自身坐标及各边缘接入点剩余存储空间；各车辆用户根据策略选择边缘接入点，执行边缘缓存动作；各车辆用户计算时延相关奖励，根据广义优势估计方法计算回报与优势；根据收集的动作、观测和奖励信息，各车辆用户通过共享的策略网络进行集中式训练，以截断方法约束策略的更新，计算执行者‑评估者网络的损失函数且更新共享策略，实现分布式车联网边缘缓存决策。本发明使得车联网用户中每个车辆用户智能体能够充分利用自身观测信息，协同分配系统边缘缓存资源，从而降低缓存内容传输时延。

Description

基于多智能体近端策略的车联网分布式边缘缓存决策方法

技术领域

本发明属于无线通信技术领域，具体涉及一种基于多智能体近端策略的车联网分布式边缘缓存决策方法。

背景技术

随着汽车工业和无线通信技术的进步，车联网已成为智能交通服务的关键推动者，而车载传感器和车载信息应用将产生海量数据和内容(Ullah A,Yao X,Shaheen S,Ning H.Advances in Position Based Routing Towards ITS Enabled FoG-OrientedVANET–A Survey[J].IEEE Transactions on Intelligent Transportation Systems,2020,21(2):828-840.)。车辆可以收集和共享彼此共同感兴趣的数据，涉及与交通相关的客观信息(如道路和天气状况、停车场占用情况等),以及与用户体验有关的主观信息(如酒店评级和车辆服务质量等)(Yang Q,Zhu B,Wu S.An Architecture of Cloud-AssistedInformation Dissemination in Vehicular Networks[J].IEEE Access,2016,4:2764-2770.)。上述车联网数据的共享，进一步提高了驾驶安全性，并使用户得以在旅行中获得更高的服务质量。

然而，由于车辆的计算与缓存资源有限，车辆无法支持海量数据存储和计算，为解决车联网中资源紧张问题，移动边缘计算(Mobile Edge Computing,MEC)技术被广泛应用于车联网。MEC技术的基本思想是在边缘网络部署相对轻量级的节点，如在路边单元上部署边缘计算服务器，为附近的用户提供服务，从而降低能耗，缩短传输时延。通过结合MEC，车辆可以从边缘服务器获取计算和缓存资源，用于处理生成的大量数据，减轻网络的繁重负载(Lin Y,Zhang Y,Li J,Shu F,Li C.Popularity-Aware Online Task Offloading forHeterogeneous Vehicular Edge Computing Using Contextual Clustering of Bandits[J].IEEE Internet of Things Journal,2022,9(7):5422-5433.)。鉴于上述特点，移动边缘计算减轻了车联网系统的负载，使得车联网进一步的发展成为可能。

由于车联网具有高度的动态变化的特性，车联网边缘缓存决策问题是一个在各时隙下动态变化的问题。为求解该类问题，强化学习方法通过迭代评估所有可能的状态和各种动作对应的奖励函数，从而获得最优解。进一步，深度强化学习结合了深度学习在识别数据特征方面的优势和强化学习在动态规划方面的优势,可以应对时变环境并生成最优策略以最大化长期奖励，近年其被广泛应用于边缘网络资源分配(Chen M,Wu G, Zhang Y,LinY,Zhang Y,Li J.Distributed Deep Reinforcement Learning-Based Content Cachingin Edge Computing-Enabled Blockchain Networks[C].2021International Conferenceon Wireless Communications and Signal Processing(WCSP),2021,1-5.)。但是由于车联网和边缘计算结合环境下建立的马尔可夫决策过程模型的状态空间和动作空间维度随着车辆数量呈指数增长。因此，许多学者针对此场景提出了使用多智能体深度强化学习的方案(Yuan Q,Li J,Zhou H,Lin T,Luo G,Shen X.A Joint Service Migration andMobility Optimization Approach for Vehicular Edge Computing[J].IEEETransactions on Vehicular Technology,2020,69(8):9041-9052.)。其中一些学者们利用多智能体强化学习分配该场景下的网络资源时，仅将单智能体算法扩展至多智能体场景，未充分地考虑车联网环境下各车辆用户的通信能力以及环境的部分可观测性，因此不能最大化利用环境信息，并高效作出缓存部署决策。

发明内容

本发明的目的在于提供一种种基于多智能体近端策略的车联网分布式边缘缓存决策方法，使得每个车辆用户智能体充分利用自身观测信息，协同利用系统边缘缓存资源，降低了缓存内容传输时延。

实现本发明目的的技术解决方案为：一种基于多智能体近端策略的车联网分布式边缘缓存决策方法，包括以下步骤：

步骤1、输入车辆边缘网络环境，初始化执行者-评估者网络参数；

步骤2、各车辆用户观测自身坐标及各边缘接入点剩余存储空间；

步骤3、各车辆用户制定缓存策略，根据策略选择边缘接入点，执行边缘缓存动作；

步骤4、各车辆用户计算时延相关奖励，根据广义优势估计方法计算回报与优势；

步骤5、根据收集的动作、观测和奖励信息，各车辆用户通过共享的策略网络进行集中式训练，以截断方法约束策略的更新，计算执行者-评估者网络的损失函数且更新共享策略；

步骤6、判断是否所有车辆抵达设定路段终点：如果否，则返回步骤2；如果是，则结束当前回合，进入步骤7；

步骤7、判断算法是否收敛：如果否，则返回步骤1；如果是，则算法结束，得到最终的车联网分布式边缘缓存决策。

本发明与现有技术相比，其显著优点为：

(1)采用基于多智能体近端策略优化的车联网分布式边缘缓存决策方案，协同利用有限系统边缘缓存资源，收敛速度快且训练开销小，能够实现在未知车联网环境下大幅降低系统缓存内容的传输时延；

(2)基于多智能体近端策略优化的车联网分布式边缘缓存决策方案，采用多智能体近端策略优化算法，利用收集的动作、观测和奖励信息，以及通过广义优势估计计算得到的优势，计算策略梯度，引入重要性采样以提高采样效率，再以截断方法设计损失函数以避免重要性采样产生误差，进而分别对执行者网络损失函数进行梯度上升和对评估值网络损失函数进行梯度下降，以实现策略更新，使得每个车辆用户智能体充分利用自身观测信息，在车联网场景下更具优越性；

(3)对于车联网边缘缓存决策问题，充分考虑多智能体环境特性，应用多智能体近端策略优化算法，能够使执行者及评估者网络的损失函数更稳定，保证方案更为稳定地探索到最优缓存策略；

(4)当车辆用户达到20时，多智能体近端策略优化算法的车联网分布式边缘缓存方案仍具有最高的奖励，说明在缓存资源紧缺的情况下，各车辆用户能够利用各自的观测协同制定最小化系统传输时延的决策。

附图说明

图1是本发明基于多智能体近端策略的车联网分布式边缘缓存决策方法的流程图。

图2为本发明实施例的网络模型示意图。

图3为本发明实施例中不同方案的学习收敛效果示意图。

图4为本发明实施例中不同方案执行者网络收敛效果示意图。

图5为本发明实施例中不同方案评估者网络收敛效果示意图。

图6为本发明实施例中不同算法收敛平均值与用户数目的关系图。

具体实施方式

本发明基于多智能体近端策略的车联网分布式边缘缓存决策方法，包括以下步骤：

进一步地，步骤1中所述输入车辆边缘网络环境，其中车辆边缘网络环境包含：

(1)时隙模型：将连续的训练时间离散化为多个时隙，用正整数t∈{1,2,...,T}来表示第t个时隙；假设单个时隙内车辆用户完成一次边缘缓存决策以及位置移动，且单个时隙内发射功率和信道噪声等环境状态不发生改变，而当车辆用户全部抵达设定的道路终点时称为一个回合。

(2)网络模型：建立城市单向车道模型，假设网络中有N个车辆用户和M个边缘接入点，边缘接入点包括路边单元和宏基站；车辆用户沿单向车道行驶，表示为φ_U＝{u₁,u₂,...,u_N}；边缘接入点为车辆用户提供缓存服务，宏基站覆盖全路段范围，路边单元均匀分布在道路两侧，表示为φ_R＝{R₀,R₁,R₂,...,R_M}，其中R₀表示宏基站， {R₁,R₂,...,R_M}表示路边单元。

(3)通信模型：假设车辆用户和边缘接入点之间的信道增益由路径损耗和瑞利衰减组成；令d_m,n表示车辆用户u_n和边缘接入点R_m之间的距离，

表示车辆用户u_n和边缘接入点R_m之间的信道的路径损耗，其中τ为路径损耗指数；此外，令h_m,n～exp(μ)表示u_n和R_m之间的瑞利衰减，其中μ为相应的比例系数，且对于所有边缘接入点R_m与车辆用户u_n，h_m,n相互独立；令信道增益为

假设车辆用户u_n以发射功率P_n在带宽为B的信道上进行通信；根据香农公式，车辆用户u_n将请求内容缓存到边缘接入点R_m的上行传输速率ζ_n,m(t)表示为

其中，σ²为高斯白噪声功率。

令车辆用户的请求文件的内容大小为α_n(bytes)。因此，车辆用户u_n的数据传输时延可表示为D_n＝α_n/ζ_n,m，数据的总传输时延可表示为D_total＝∑_n∈ND_n。此外，令ddl_n(s) 为车辆用户请求内容容许的最大传输时延。各车辆用户传输时延应小等于其请求内容所容许的最大传输时延，表示为D_n≤ddl_n。

(4)缓存模型：令

表示为车辆用户请求的内容集合；定义(P_f)_N×1为全局流行度，表示系统中各车辆用户请求内容f_n的概率分布，其中p_n为车辆用户u_n请求内容f_n的局部流行度；假设(P_f)_N×1遵循Mandelbrot-Zipf即MZipf分布：

其中I_f是内容f_n按内容流行度降序排列的排名，δ和β分别表示平台因子和偏度因子。

(5)车辆移动模型：车辆用户的速度被建模为高斯-马尔科夫随机过程；

具体而言，当车辆用户u_n以初始速度v_n,0行驶时，根据时隙t-1处的速度v_n,t-1和渐近速度可计算车辆用户u_n在时隙t处的速度v_n,t，表示为

其中，

和

是车辆用户u_n速度的相应渐近均值和标准差。参数η_n∈[0,1]表示过去速度的记忆深度，决定车辆用户u_n移动的时间相关性。值得注意的是，η_n趋近于1 时，车辆用户u_n时隙t下的速度变得更加依赖于先前的速度。此外，k是一个均值为零、方差为

的独立随机高斯过程。

进一步地，步骤2所述各车辆用户观测自身坐标及各边缘接入点剩余存储空间，具体为：

根据时隙t下的环境状态，各车辆用户u_n得到所需的观测

可表示为

其中x_n(t)和y_n(t)表示当前车辆用户u_n在时隙t下的x坐标和y坐标，

表示路边单元R_m在时隙t下的缓存状态；具体而言，

时，路边单元R_m的剩余存储空间能够处理用户的缓存请求，而如果

路边单元R_m因存储空间不足无法处理任何缓存请求。

进一步地，步骤3所述各车辆用户根据策略选择边缘接入点，执行边缘缓存动作，具体为：

时隙t下，车辆u_n的动作

为车辆u_n的缓存策略，表示为

其中，当

时，车辆用户将内容缓存于宏基站，而当

时，车辆用户将内容缓存至路边单元R_m。

进一步地，步骤4所述各车辆用户计算时延相关奖励，根据广义优势估计方法计算回报与优势，具体为：

(4.1)各车辆用户的奖励

为了最小化各用户缓存文件传输时延，各车辆用户的奖励函数r_n(t)定义为

其中D_n是在相应动作下进行缓存的时间成本；

如果各用户的决策满足约束条件，则直接获得奖励，否则，奖励为0；

(4.2)计算优势与回报

令V(s_t)为马尔可夫决策过程中的状态值函数，即为估计智能体在一状态下的预期回报的函数；令γ为折扣因子，r_t为时隙t下的奖励，s_t为时隙t下的状态，优势函数将状态值函数归一化，在后续用于计算损失函数，表示为

回报函数计算为

进一步地，步骤5所述根据收集的动作、观测和奖励信息，各车辆用户通过共享的策略网络进行集中式训练，以截断方法约束策略的更新，计算执行者-评估者网络的损失函数且更新共享策略，具体为：

近端策略优化算法利用收集的动作、观测和奖励信息，以及通过广义优势估计计算得到的优势，计算策略梯度，引入重要性采样以提高采样效率，再以截断方法设计损失函数以避免重要性采样产生误差，进而对损失函数进行梯度上升以更新策略。

(5.1)近端策略优化算法利用收集的动作、观测和奖励信息，以及通过广义优势估计计算得到的优势，计算策略梯度，具体如下：

策略梯度算法计算梯度估计，然后使用随机梯度下降算法得到最优策略，使用的梯度估计表示为

其中，θ为策略参数，π_θ是一个随机梯度函数，

是时隙t的优势函数，a_t为时隙 t下的动作；

进行梯度更新时，构建一个梯度的损失函数，然后对该损失函数进行梯度上升或梯度下降；

(2)引入重要性采样以提高采样效率，重要性采样具体如下：

传统on-policy方法的缺点是采样效率低，这意味着采样的数据只能用于更新一次策略。因此，近端策略优化算法引入了另一个策略q，令f(x)为策略梯度，p(x)与q(x)为两个策略，计算策略梯度有以下公式推导：

其中，来自策略q的样本能够用于多次更新策略p；但只有当p和q分布相似时，期望才能近似相等；否则，可能会出现很大的误差。

(5.3)以截断方法设计损失函数以避免重要性采样产生误差，具体如下：

近端策略优化算法使用截断方法来约束策略的更新，降低对迭代步长的敏感度，保证每次得出的新策略与原策略相近，将损失函数定义为

其中，

ε为一个超参数，clip()为截断函数。如果

意味着当前动作产生的回报大于基准动作的预期回报，故更新策略增加该动作出现的概率，此概率不能高于原策略的1+ε倍。反之若

说明当前动作的回报小于基准动作预期回报，降低该动作出现概率，不低于原策略的1-ε倍。

(5.4)建立多智能体集中训练分散执行框架，具体如下：

多智能体强化学习通常使用两种框架：集中式学习与分布式学习。集中式方法通常假设一个合作型博弈，并通过学习统一的策略以将单智能体强化学习算法扩展至多智能体场景，从而同时产生多智能体的联合动作。而在分布式学习中，每个智能体独立优化自身的奖励。

单纯的集中式学习与分布式学习可以解决一般的求和博弈，但即使面对简单的矩阵博弈也可能表现不稳定。集中训练分散执行方法通过采用执行者-评估者框架并使用一个集中式的评估者来解决这一问题。

多智能体近端策略优化为使用集中式值函数的集中训练分散执行算法。令所有车辆用户共享相同的执行者-评估者网络参数θ和φ，利用收集的动作、观测和奖励信息对网络进行更新。

(5.5)多智能体近端策略优化，具体如下：

多智能体近端策略优化算法在利用单智能体近端策略优化算法的基础上，使用值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽五个处理过程，对损失函数进行梯度上升以更新策略。

其中，值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽，具体如下：

a.值归一化

通过平均值函数的估计值来对值函数进行归一化，稳定了对值函数的学习。具体来说，在学习过程中，标准化价值网络。在计算优势时，将反归一化价值网络的输出，适当缩放价值网络输出。

b.针对智能体的全局状态

多智能体近端策略优化算法中，对于智能体u_n，将全局状态与该智能体观测拼接为 {s,o_n}，避免忽略某些状态信息，其中s为全局状态，o_n为智能体u_n的局部观测，为进一步减小输入维度，将全局状态和局部观测间重复的信息裁切。

c.训练数据处理

由于多智能体强化学习的非平稳性，过于频繁的样本复用将降低多智能体近端策略优化的性能，故使用与单智能体近端策略优化算法相比较少回合的样本进行训练；此外，由于在估计梯度时使用更多数据会提升算法性能，故默认不将数据拆分为小批量。

d.动作屏蔽

根据算法应用的环境，或存在不可能被执行的动作，例如车辆用户选择缓存至存储容量已满的路边单元。在多智能体近端策略优化算法中，直接屏蔽这些无法执行的动作，提高算法效率。

e.死亡屏蔽

根据场景，智能体可能出现死亡的情况，例如车联网环境中车辆驶出场景范围。在多智能体近端策略优化算法中，屏蔽已死亡的智能体相关信息。

进一步地，多智能体近端策略优化，结合了单智能体近端策略优化和以上的改进，基于步骤2～步骤4收集的动作、观测和奖励信息，训练执行者-评估者网络；

设定所有智能体共享执行者和评估者网络，集中训练共享的策略，设样本批量大小为Bs，执行者网络在损失函数中增加了策略的熵，通过最大化熵，增加策略的随机性，鼓励对策略的探索，避免过早陷入局部最优解，令θ为执行者网络的参数，通过最大化以下函数进行训练：

其中，

为策略熵，κ为熵系数超参数；

令φ为评估者网络的参数，评估者网络通过最小化以下函数进行训练：

通过对L_MAPPO(θ)进行梯度上升，对L_MAPPO(φ)进行梯度下降，完成对策略网络的更新。

下面结合附图及具体实施例对本发明做进一步详细描述。

实施例

本发明提出了一种基于多智能体近端策略的车联网分布式边缘缓存决策方法，通过多智能体近端策略优化算法，使得每个车辆用户智能体充分利用自身观测信息，协同利用系统边缘缓存资源，降低了缓存内容传输时延，结合图1～图2，包括以下步骤：

步骤3、各车辆用户根据策略选择边缘接入点，执行边缘缓存动作；

步骤6、当所有车辆抵达设定路段终点时，结束当前回合，开始下一回合，重新输入车辆边缘网络环境，重复步骤2～步骤5；

步骤7、重复步骤6，直至算法收敛。

(1)时隙模型：将连续的训练时间离散化为多个时隙，用正整数t∈{1,2,...,T}来表示第t个时隙。假设单个时隙内车辆用户完成一次边缘缓存决策以及位置移动，且单个时隙内发射功率和信道噪声等环境状态不发生改变，而当车辆用户全部抵达设定的道路终点时称为一个回合。

(2)网络模型：建立城市单向车道模型，假设网络中有N个车辆用户和M个边缘接入点(包括路边单元和宏基站)。车辆用户沿单向车道行驶，表示为φ_U＝{u₁,u₂,...,u_N}；边缘接入点为车辆用户提供缓存服务，宏基站覆盖全路段范围，路边单元均匀分布在道路两侧，表示为φ_R＝{R₀,R₁,R₂,...,R_M}，其中R₀表示宏基站，{R₁,R₂,...,R_M}表示路边单元。

(3)通信模型：假设车辆用户和边缘接入点之间的信道增益由路径损耗和瑞利衰减组成。令d_m,n表示车辆用户u_n和边缘接入点R_m之间的距离，

表示车辆用户u_n和边缘接入点R_m之间的信道的路径损耗，其中τ为路径损耗指数。此外，令h_m,n～exp(μ)表示u_n和R_m之间的瑞利衰减，其中μ为相应的比例系数，且对于所有边缘接入点R_m与车辆用户u_n，h_m,n相互独立。令信道增益为

假设车辆用户u_n以发射功率P_n在带宽为B的信道上进行通信。因此，根据香农公式，车辆用户u_n将请求内容缓存到边缘接入点R_m的上行传输速率表示为

其中，σ²为高斯白噪声功率。

(4)缓存模型：令

表示为车辆用户请求的内容集合。定义(P_f)_N×1为全局流行度，表示系统中各车辆用户请求内容f_n的概率分布，其中p_n为车辆用户u_n请求内容f_n的局部流行度。假设(P_f)_N×1遵循Mandelbrot-Zipf(MZipf)分布:

其中，

和

的独立随机高斯过程。

进一步地，步骤2所述各车辆用户观测更新后的自身坐标及各边缘接入点剩余存储空间，具体为：

根据时隙t下的环境状态，各车辆用户u_n得到所需的观测

可表示为

表示路边单元R_m在时隙t下的缓存状态。具体而言，

路边单元R_m因存储空间不足无法处理任何缓存请求。

时隙t下，车辆u_n的动作

为其缓存卸载决策，可表示为

其中，当

时，车辆用户将内容缓存于宏基站，而当

时，车辆用户将内容缓存至路边单元R_m。

(1)各车辆用户的奖励

其中D_n是在相应动作下进行缓存的时间成本。如果各用户的决策满足约束条件，则直接获得奖励，否则，奖励为0。

(2)计算优势与回报

广义优势估计能够有效减少梯度估计的方差，被应用在近端策略优化算法中。令V_φ(s_t)为马尔可夫决策过程中的状态值函数，即为估计智能体在某一状态下的预期回报的函数。令γ为折扣因子。优势函数将状态值函数归一化，在后续用于计算损失函数，表示为

回报函数计算为

(1)策略梯度方法

策略梯度算法计算梯度估计，然后使用随机梯度下降算法得到最优策略。最广泛使用的梯度估计表示为

其中，π_θ是一个随机梯度函数，

是时隙t的优势函数。进行梯度更新时，通常会构建一个梯度的损失函数，然后对该损失函数进行梯度上升或梯度下降。

(2)重要性采样

传统on-policy方法的缺点是采样效率低，这意味着采样的数据只能用于更新一次策略。因此，近端策略优化算法引入了另一个策略q。有以下公式推导：

其中，来自策略q的样本可用于多次更新策略p。但只有当p和q分布相似时，期望才能近似相等。否则，可能会出现很大的误差。

(3)截断方法

近端策略优化算法使用截断方法来约束策略的更新，降低了对迭代步长的敏感度，保证每次得出的新策略与原策略相近，将损失函数定义为

其中，

ε为一个超参数。clip()为截断函数，如果

(4)多智能体集中训练分散执行框架

(5)多智能体近端策略优化

多智能体近端策略优化算法在利用单智能体近端策略优化算法的基础上，使用值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽五个技巧提升了算法性能。

a.值归一化

b.针对智能体的全局状态

多智能体近端策略优化算法中，对于智能体u_n，将全局状态与该智能体观测拼接为 {s,o_n}，避免忽略某些状态信息，为进一步减小输入维度，裁切其中重复的信息后使用。

c.训练数据处理

由于多智能体强化学习的非平稳性，过于频繁的样本复用将降低多智能体近端策略优化的性能，故使用较少回合的样本进行训练。此外，由于在估计梯度时使用更多数据会提升算法性能，故避免将数据拆分为小批量。

d.动作屏蔽

e.死亡屏蔽

多智能体近端策略优化算法结合了单智能体近端策略优化和以上改进，基于步骤2～步骤3收集的动作、观测和奖励等信息，训练执行者-评估者网络。设定所有智能体共享执行者和评估者网络，集中训练共享的策略。执行者网络在损失函数中增加了策略的熵，通过最大化熵，增加策略的随机性，鼓励对策略的探索，避免过早陷入局部最优解。

设样本批量大小为Bs，通过最大化以下函数进行训练：

其中，

为策略熵，κ为熵系数超参数。

评估者网络通过最小化以下函数进行训练：

本实施例仿真采用python编程，参数设定不影响一般性。与所述方法进行对比的方法有：

(1)随机车联网边缘缓存决策方法；

(2)基于多智能体独立深度双Q网络的车联网分布式边缘缓存决策方法；

(3)基于单智能体近端策略优化的车联网集中式边缘缓存决策方法。

车辆边缘网络模型如图2所示。假设在长度为1千米的单向车道上有10辆车辆行驶，道路两侧各均匀分布5个路边单元，各路边单元广播覆盖范围为500米，一个宏基站覆盖全道路范围，所有用户与其距离约等于1千米。表1列出了其它的仿真参数。

表1主要仿真参数

如图3所示，相较于各对比方案，基于多智能体近端策略优化的车联网分布式边缘缓存决策方案收敛速度最快且收敛后的性能最优，验证了该方案能够大幅降低系统的传输时延且训练开销小。相比下，基于单智能体近端策略优化的车联网集中式边缘缓存决策方案收敛奖励较低且收敛速度较慢，原因在于近端策略优化算法作为on-policy算法，面对复杂的车联网环境，采样效率较低，与多智能体算法相比不具备优势。而基于多智能体近端策略优化的车联网分布式边缘缓存决策方案针对多智能体场景对近端策略优化算法作出多个改进，在车联网场景下更具优越性。

如图4～图5所示，多智能体近端策略算法的执行者和评估者网络均能得到更稳定的损失，说明对于车联网边缘缓存决策问题，充分考虑多智能体环境特性，应用基于多智能体近端策略优化的分布式边缘缓存决策方案，能够使执行者评估者网络的损失函数更稳定，保证方案更为稳定地探索到最优缓存策略。

如图6所示，随着用户数量增多，各方案的平均收敛奖励逐渐下降，其原因是边缘缓存资源紧张，使得车辆用户难以作出最小化传输时延的缓存部署决策。而当车辆用户达到20时，多智能体近端策略优化算法的车联网分布式边缘缓存方案仍具有最高的奖励。该现象说明在缓存资源紧缺的情况下，各车辆用户能够利用各自的观测协同制定最小化系统传输时延的决策，进一步验证了其在车辆网络复杂情况下的优越性。

Claims

1.一种基于多智能体近端策略的车联网分布式边缘缓存决策方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法，其特征在于，步骤1中所述输入车辆边缘网络环境，其中车辆边缘网络环境包含：

(1.1)时隙模型：将连续的训练时间离散化为多个时隙，用正整数t∈{1,2,...,T}来表示第t个时隙；假设单个时隙内车辆用户完成一次边缘缓存决策以及位置移动，且单个时隙内发射功率和信道噪声等环境状态不发生改变，而当车辆用户全部抵达设定的道路终点时称为一个回合；

(1.2)网络模型：建立城市单向车道模型，假设网络中有N个车辆用户和M个边缘接入点，边缘接入点包括路边单元和宏基站；车辆用户沿单向车道行驶，表示为φ_U＝{u₁,u₂,...,u_N}；边缘接入点为车辆用户提供缓存服务，宏基站覆盖全路段范围，路边单元均匀分布在道路两侧，表示为φ_R＝{R₀,R₁,R₂,...,R_M}，其中R₀表示宏基站，{R₁,R₂,...,R_M}表示路边单元；

(1.3)通信模型：假设车辆用户和边缘接入点之间的信道增益由路径损耗和瑞利衰减组成；令d_m,n表示车辆用户u_n和边缘接入点R_m之间的距离，

其中，σ²为高斯白噪声功率；

令车辆用户的请求文件的内容大小为α_n(bytes)，车辆用户u_n的数据传输时延表示为D_n＝α_n/ζ_n,m，数据的总传输时延表示为D_total＝Σ_n∈ND_n；此外，令ddl_n(s)为车辆用户请求内容容许的最大传输时延，各车辆用户传输时延应小等于其请求内容所容许的最大传输时延，表示为D_n≤ddl_n；

(1.4)缓存模型：令

表示为车辆用户请求的内容集合；定义(P_f)_N×1为全局流行度，表示系统中各车辆用户请求内容f_n的概率分布，其中p_n为车辆用户u_n请求内容f_n的局部流行度；假设(P_f)_N×1遵循Mandelbrot-Zipf即MZipf分布:

其中I_f是内容f_n按内容流行度降序排列的排名，δ和β分别表示平台因子和偏度因子；

(1.5)车辆移动模型：车辆用户的速度被建模为高斯-马尔科夫随机过程；

具体而言，当车辆用户u_n以初始速度v_n,0行驶时，根据时隙t-1处的速度v_n,t-1和渐近速度计算车辆用户u_n在时隙t处的速度v_n,t，表示为

其中，

和

是车辆用户u_n速度的相应渐近均值和标准差；参数η_n∈[0,1]表示过去速度的记忆深度，决定车辆用户u_n移动的时间相关性；η_n趋近于1时，车辆用户u_n时隙t下的速度变得更加依赖于先前的速度；k是一个均值为零、方差为

的独立随机高斯过程。

3.根据权利要求2所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法，其特征在于，步骤2所述各车辆用户观测自身坐标及各边缘接入点剩余存储空间，具体为：

根据时隙t下的环境状态，各车辆用户u_n得到所需的观测

表示为

表示路边单元R_m在时隙t下的缓存状态；具体而言，

路边单元R_m因存储空间不足无法处理任何缓存请求。

4.根据权利要求3所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法，其特征在于，步骤3所述各车辆用户制定缓存策略，根据策略选择边缘接入点，执行边缘缓存动作，具体为：

时隙t下，车辆u_n的动作

为车辆u_n的缓存策略，表示为

其中，当

时，车辆用户将内容缓存于宏基站，而当

时，车辆用户将内容缓存至路边单元R_m。

5.根据权利要求4所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法，其特征在于，步骤4所述各车辆用户计算时延相关奖励，根据广义优势估计方法计算回报与优势，具体为：

(4.1)各车辆用户的奖励

其中D_n是在相应动作下进行缓存的时间成本；

(4.2)计算优势与回报

回报函数计算为

6.根据权利要求5所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法，其特征在于，步骤5所述根据收集的动作、观测和奖励信息，各车辆用户通过共享的策略网络进行集中式训练，以截断方法约束策略的更新，计算执行者-评估者网络的损失函数且更新共享策略，具体为：

其中，θ为策略参数，π_θ是一个随机梯度函数，

是时隙t的优势函数，a_t为时隙t下的动作；

(5.2)引入重要性采样以提高采样效率，重要性采样具体如下：

近端策略优化算法引入了另一个策略q，令f(x)为策略梯度，p(x)与q(x)为两个策略，计算策略梯度有以下公式推导：

其中，来自策略q的样本能够用于多次更新策略p；但只有当p和q分布相似时，期望才能近似相等；

其中，

ε为一个超参数，clip()为截断函数；

如果

意味着当前动作产生的回报大于基准动作的预期回报，故更新策略增加该动作出现的概率，此概率不能高于原策略的1+ε倍；反之若

说明当前动作的回报小于基准动作预期回报，降低该动作出现概率，不低于原策略的1-ε倍；

(5.4)建立多智能体集中训练分散执行框架，具体如下：

多智能体近端策略优化为使用集中式值函数的集中训练分散执行算法，令所有车辆用户共享相同的执行者-评估者网络参数θ和φ，利用收集的动作、观测和奖励信息对网络进行更新；

(5.5)多智能体近端策略优化，具体如下：

7.根据权利要求6所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法，其特征在于，(5.5)中，值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽，具体如下：

a.值归一化

通过平均值函数的估计值来对值函数进行归一化，稳定对值函数的学习，具体来说，在学习过程中，标准化价值网络；在计算优势时，将反归一化价值网络的输出，缩放价值网络输出；

b.针对智能体的全局状态

多智能体近端策略优化算法中，对于智能体u_n，将全局状态与该智能体观测拼接为{s,o_n}，其中s为全局状态，o_n为智能体u_n的局部观测，为进一步减小输入维度，将全局状态和局部观测间重复的信息裁切；

c.训练数据处理

由于多智能体强化学习的非平稳性，过于频繁的样本复用将降低多智能体近端策略优化的性能，故使用与单智能体近端策略优化算法相比较少回合的样本进行训练；此外，由于在估计梯度时使用更多数据会提升算法性能，故默认不将数据拆分为小批量；

d.动作屏蔽

根据算法应用的环境，或存在不可能被执行的动作，在多智能体近端策略优化算法中，直接屏蔽无法执行的动作；

e.死亡屏蔽

根据场景，智能体可能出现死亡的情况，在多智能体近端策略优化算法中，屏蔽已死亡的智能体相关信息。

8.根据权利要求7所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法，其特征在于，多智能体近端策略优化，结合了单智能体近端策略优化和(5.5)中的改进，基于步骤2～步骤4收集的动作、观测和奖励信息，训练执行者-评估者网络；

其中，

为策略熵，κ为熵系数超参数；