CN114374741B

CN114374741B - Mec环境下基于强化学习的动态分组车联网缓存方法

Info

Publication number: CN114374741B
Application number: CN202210038806.4A
Authority: CN
Inventors: 韩龙哲; 李胜; 赵嘉; 张翼英; 祝文军; 包学才; 梁琨; 敖晨晨; 王思宁
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2024-04-19
Anticipated expiration: 2042-01-13
Also published as: CN114374741A

Abstract

本发明公开了MEC环境下基于强化学习的动态分组车联网缓存方法，包括以下步骤：S1：获取待分组的所有车辆信息、路侧单元信息、宏基站信息、核心网、缓存内容信息；S2：确定移动车组缓存池和中心车辆；S3：根据移动车组缓存池、路侧单元和宏基站信息，构建系统内容缓存和交付模型；S4：根据车组内全部车辆获取内容总延迟最小为目标函数，建立基于演员‑评论家框架的多智能体协同边缘缓存模型；S5：通过训练模型得到相应缓存策略，选择系统延时最小的策略进行内容缓存。可解决车辆频繁与路侧基站通信导致基站负载过大，端到端内容获取的延时过长问题。

Description

MEC环境下基于强化学习的动态分组车联网缓存方法

技术领域

本发明涉及移动边缘计算技术以及车联网领域，特别涉及一种MEC环境下基于强化学习的动态分组车联网缓存方法，尤其涉及到一种动态分组——将不同方向行驶的车辆进行分组形成动态缓存池，结合多智能体强化学习得出最优缓存策略。

背景技术

车联网已经成为5G通信技术下的重要应用场景，通过车辆联网来支持车辆相关应用的执行，这些应用需要稳定的通信环境和低延迟数据传输，这为车联网建设提出了大规模链接、高吞吐量支持的相关需求。为了保证车辆应用执行的安全性和准确性，车联网技术需要“车联万物”的先进移动通信系统来保证信息的及时响应和任务的高效计算。

由于自动驾驶技术对低延时的超高要求，车辆发出内容请求至云端，核心网在将车辆请求内容回传的时延过长，无法满足低时延要求，所以移动边缘计算概念被提出。将基站部署在网络边缘，车辆从边缘计算基站获取内容将很大的减少传输时延。为降低传输时延，将流行内容缓存至位于网络边缘的路侧单元(Road side units，RSU)，车辆在获取内容时不用从核心网请求，可有效降低车辆获取内容的时延。但由于RSU的计算能力和存储能力有限，面对越来越复杂且时延要求更低的流行内容，内容缓存与传输的效率问题日益突出，并且受到了社会广泛的关注。

为了降低车辆获取内容的延时，对边缘节点和移动车辆内容缓存策略的研究尤为重要。目前对缓存策略的研究通常考虑通过(Vehicle-to-Vehicle，V2V)和(Vehicle-to-Infrastructure，V2I)的通信方式获取内容，但是由于车辆数量的不断增加，V2V和V2I的通信频率不断增大，而路侧基站的通信带宽和传输能力有限，从而对整个网络的传输带来巨大压力。

发明内容

本发明的目的在于，为了解决网络传输压力导致的时延过高问题，提出一种MEC环境下基于强化学习的动态分组车联网缓存方法，该方法可缓解现有技术中边缘服务器与中心云的传输与存储压力，降低传输时延。

为实现上述目的，本发明采取的技术方案为：

本发明提供的MEC环境下基于强化学习的动态分组车联网缓存方法，包括：

S1：获取待分组所有的车辆信息、路侧单元信息、宏基站信息、核心网和缓存内容信息；

S2：根据获取待分组的所有车辆信息划分车组，确定移动车组缓存池和中心车辆；

S3：根据移动车组缓存池、路侧单元信息和宏基站信息，构建系统架构模型、内容缓存模型和交付模型；

S4：基于所述系统内容缓存和交付模型，根据车组内所有车辆获取内容总延迟最小为目标函数，建立基于演员-评论家框架的多智能体协同边缘缓存模型；

S5：根据模型训练得出相应缓存策略，选择总延迟最小的内容缓存策略进行内容的缓存。

进一步地，步骤S1中待分组的所有车辆信息，包括：

车辆m的位置信息L_m；车辆n的位置信息L_n；车辆之间的通信距离D_v2v；第m辆车的缓存容量c_vm；车辆访问本地车载单元内容的延迟d_local；车辆访问其他车组内任意车载单元内容的延迟d_others；车辆获取本地车载单元内容的传输速度车辆获取组内任意车载单元内容的传输速度/>

进一步地，步骤S1中路侧单元信息，包括：

车辆访问路侧单元内容的延迟d_RSU；车辆获取路侧单元内容的传输速度路侧单元的缓存容量c_rsu。

进一步地，步骤S1中宏基站信息，包括：路侧单元RSU访问宏基站MBS内容延迟d_MBS；宏基站MBS内容的传输速度宏基站MBS的缓存容量c_mbs；

步骤S1中核心网信息，包括：宏基站MBS访问核心网内容的延迟d_cloud；获取核心网内容的传输速度V_cloud；

步骤S1中缓存内容信息，包括：名称f，流行度ρ_f，大小s_f，最大交付时延d_f。

进一步地，步骤S2中根据获取待分组的所有车辆信息划分车组，包括：

根据所述车辆信息中车辆m、车辆n的位置信息L_m和L_n，车辆之间的通信距离D_v2v，计算车辆m和车辆n之间的距离D_m,n：

其中，a＝(L_m纬度-L_n纬度)，b＝(L_m经度-L_n经度)，R表示地球半径，利用上式(1)依此计算车辆m与其他车辆之间的距离，记录与车辆m间通信距离小于D_v2v的车辆数量，将此类车辆合并为一个车组G_i；

所述车组G_i的最大容忍车辆为N，由车组G_i确定车组缓存池C_group,缓存池容量C_group＝c_v1+…+c_vN；所述车组G_i的中心车辆为车组中缓存能力最大的车辆k，车组内其他车辆记为g_i。

进一步地，步骤S3中系统架构模型由一个核心网Cloud、一个宏基站、多个路侧单元和多组双向行驶的车组组成；

在每一个车组内，车辆之间通过V2V通信，每辆车均缓存内容且车辆之间内容共享；

在车组外，车组G_i与车组G_j之间由中心车辆通过G_ik2G_jk通信的方式请求或交付内容；其中k表示各自车组的中心车辆。

进一步地，步骤S3系统架构模型中，根据不同路侧单元RSU覆盖范围下的车组，对于不同路侧单元RSU覆盖范围内的车组，假设每个路侧单元RSU覆盖范围内，车组的位置服从泊松分布，且内容f由其大小s_f，流行度ρ_f，最大交付时延d_f三个特征来描述；

每个宏基站部署有中央控制器用于管理所有的边缘服务器，同样存储相关流行内容；路侧单元具有一定的计算能力和存储能力。

进一步地，步骤S3中，所述内容缓存模型的处理过程包括：

假设所有内容的流行度服从Zipf分布，内容表示为F＝{1,2,…,F}，则车组请求内容f的概率表示为：

其中，ρ_f表示内容f的流行度，ε表示流行内容请求的系数，该系数越大表明内容重复请求率越高；index表示内容的索引序号；

车组缓存池和路侧单元的缓存情况表示为：

H_j,k＝{h_j,1,h_j,2,……,h_j,f} (3)

当j≠0，j表示车组G缓存池编号，h_j,f表示车组缓存池的缓存情况：

当j＝0，j表示路侧单元标识，h_j,f表示路侧单元的缓存情况：

由于车组缓存池和路侧单元RSU均有缓存容量限制，缓存内容的总量不得超过车组缓存池的最大容量和路侧单元RSU的最大容量，需满足约束条件：

(6)式中，C_groupj表示缓存池编号为j的缓存容量；

(7)式中，c_rsu表示RSU的缓存容量；

如果车组缓存池或路侧单元的缓存空间不足，在确保缓存命中率的前提下，采取的策略为：删除缓存池或路侧单元缓存空间中流行度较低的内容，内容流行度由Zipf分布得到。

进一步地，在步骤S3中，所述内容交付模型的处理过程包括：

如果车组内没有缓存请求车辆所需的内容时，车组内中心车辆k₁首先向附近车组G通过G_i,k2G_j,k请求内容，若附近车组G缓存有车辆k₁请求的内容，则由被请求车组的中心车辆k₂交付请求内容给k₁，请求车辆从车组缓存池中获取交付的内容；

若附近车组也没有缓存请求车组所需内容，则由请求车组的中心车辆k₁通过V2I向其连接的RSU请求内容，车组G_i的内容访问内容的决策方式用表示：

如果目标车组缓存了请求车组中心车辆k_m请求的内容则请求车辆k_m直接从目标车辆k_n获得所请求的内容，其传输延迟为：

其中表示车组G_i中心车辆k_m请求内容/>的大小，/>表示内容传输速度，表示目标车组G_i的缓存池缓存内容变量，d_others表示访问其他车组内任意车载单元内容的延迟,如果内容请求车辆附近车组缓存池中都没有缓存请求的内容，则请求车辆k_m从其连接的RSU获取所请求内容/>RSU获取内容的决策方式用/>表示：

若RSU缓存了所请求的内容，则直接将请求内容发送给请求车辆k_m，传输延迟为：

其中表示车组G_i中心车辆k_m请求内容/>的大小，/>表示内容传输速度，表示目标RSU的缓存情况，d_RSU表示访问RSU内容的延迟，如果当前RSU₁没有缓存该请求车辆所需内容，则由该RSU₁向其附近连接的RSU₂发出内容请求，如果被请求RSU₂缓存有请求RSU₁所需内容，则将请求内容发送给RSU₁，然后再由RSU₁将内容发送给车组中心车辆k_m，传输延迟为：

其中表示车组G_i中心车辆k_m请求内容/>的大小，/>和/>分别表示和/>的内容传输速度，/>表示目标RSU的缓存情况，d_RSU表示访问路侧单元RSU内容的延迟，如果当前RSU₁附近的其他RSU₂均没有缓存请求内容/>则RSU₁直接向MBS请求内容。

进一步地，在步骤S4中，所述最小目标函数为：

其中，M表示车组总数，i表示车组序号，表示车辆k_m直接从目标车辆k_n获得所请求内容的传输时延，D_RSU表示车辆k_m直接从本地RSU获取所请求内容的传输时延，表示车辆k_m从非本地RSU获取请求内容的传输时延。

与现有技术相比，本发明具有如下有益效果：

本发明提供的一种MEC环境下基于强化学习的动态分组车联网缓存方法，可解决车辆频繁与路侧基站通信导致基站负载过大，端到端内容获取延时过长等问题。首先，将不同方向行驶的车辆进行动态分组，形成车组缓存池，将每个缓存池都抽象为一个智能体，在可通信范围内，智能体之间可以相互协作；其次，结合RSU建立内容缓存模型，根据环境的不断变化自适应做出相应内容请求与缓存决策；最后，使用多智能体强化学习方法进行求解，得出最优缓存策略，对系统整体而言，可以最大程度的减少内容分发与请求过程中的时延。

附图说明

图1为本发明实施例提供的MEC环境下基于强化学习的动态分组车联网缓存方法流程图。

图2为本发明实施例提供的MEC环境下基于强化学习的动态分组车联网缓存方法场景图。

图3为本发明实施例提供的基于Actor-Critic框架的多智能体内容缓存架构图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

在本发明的描述中，需要说明的是，术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“设置有”、“连接”等，应做广义理解，例如“连接”，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

参照图1所示，本发明提供的MEC环境下基于强化学习的动态分组车联网缓存方法，包括：

S1：获取待分组的所有车辆信息、路侧单元信息、宏基站信息、核心网和缓存内容信息；

S2：根据获取待分组的所有车辆信息划分车组，确定移动的车组缓存池和中心车辆；

S3：根据移动的车组缓存池、路侧单元信息和宏基站信息，构建系统架构模型、内容缓存模型和交付模型；

相关技术中，以移动边缘计算为基础的缓存已成为一种能够缓解未来车联网中冗余流量和内容访问延迟的很有前途的解决方案。MEC服务器部署在路侧单元和车载单元，可以为车辆提供存储空间和计算资源。虽然MEC服务器提供了类似于云计算的服务，但是仍然存在缓存分配的问题。本发明实施例旨在对车辆动态分组的条件下，将不同方向行驶的移动车组、车组缓存池容量、RSU缓存容量以及基站的结构联合建立系统内容缓存和交付模型，使用多智能体强化学习方法进行求解，得出最优缓存策略，以缓解MEC服务器与中心云的传输与存储压力。此方法结合配备MEC能力的RSU以及不同的车组，将车组划分为不同的缓存池，车组之间互相通信，在最大化设备缓存效率的同时，不仅能降低车辆移动性对数据传输的影响和RSU的传输压力，还能降低车辆获取内容的延时。

下面分别对上述各个步骤进行详细的说明。

在步骤S1中，车辆信息包括车辆m的位置L_m；车辆n的位置L_n；车辆之间的通信距离D_v2v；第m辆车的缓存容量c_vm；车辆访问本地车载单元内容的延迟d_local；车辆访问其他车组内任意车载单元内容的延迟d_others；车辆获取本地车载单元内容的传输速度车辆获取组内任意车载单元内容的传输速度/>

在步骤S1中，路侧单元信息包括车辆访问RSU内容的延迟d_RSU，车辆获取路侧单元内容的传输速度路侧单元的缓存容量c_rsu。

在步骤S1中，宏基站信息包括RSU访问MBS内容延迟d_MBS；MBS内容的传输速度MBS的缓存容量c_mbs。

核心网信息包括MBS访问核心网内容的延迟d_cloud；获取核心网内容的传输速度V_cloud。

内容信息包括内容名称f，流行度ρ_f，大小s_f，最大交付时延d_f。

在步骤S2中，根据获取待分组的所有车辆信息划分车组，具体过程为：

根据所得车辆m、车辆n的位置信息L_m和L_n，车辆之间的通信距离D_v2v，

计算车辆m和车辆n之间的距离D_m,n：

其中，a＝(L_m纬度-L_n纬度)，b＝(L_m经度-L_n经度)，R表示地球半径，利用上式(1)依此计算车辆m与其他车辆之间的距离，记录与车辆m间通信距离小于D_v2v的车辆数量，将通信距离小于D_v2v的车辆划分为一个车组G_i；

车组G_i的最多可容纳N辆车，由G_i确定车组缓存池C_group，N辆车组成的车组缓存池大小表示为C_group＝c_v1+…+c_vN；所述车组G_i的中心车辆为车组中缓存能力最大的车辆k，车组内其他车辆记为g_i。

在步骤S3中，系统架构模型由一个核心网Cloud、一个宏基站、多个路侧单元和多组双向行驶的车组构成；

在车组内，车辆之间通过V2V通信，每辆车均可以缓存内容且车辆之间内容共享；在车组外，车组与车组之间由中心车辆通过G_ik2G_jk(Group i to Groupj)通信的方式请求或者交付内容。考虑不同区域内容流行度的差异，因此需要考虑不同RSU覆盖范围下的车组，对于不同RSU覆盖范围内的车组，假设每个RSU覆盖范围内，车组位置服从泊松分布，且内容f由内容大小s_f，流行度ρ_f，最大交付时延d_f三个特征来描述；每个MBS部署有中央控制器用于管理所有的边缘服务器，同样存储相关流行内容；RSU部署边缘计算能力和存储能力。

在步骤S3中，建立内容缓存模型，假设所有内容的流行度服从Zipf分布，内容表示为F＝{1,2,…,F}，所以车组请求内容f的概率表示为：

其中，ρ_f表示内容f的流行度，ε表示流行内容请求的系数，该系数越大表明内容重复请求率越高；index表示内容的索引序号；车组缓存池和RSU的缓存情况：

H_j,k＝{h_j,1,h_j,2,……,h_j,f} (3)

当j＝0，j表示RSU标识，h_j,f表示RSU的缓存情况：

由于车组缓存池和RSU均有缓存容量限制，缓存内容的总量不得超过车组缓存池的最大容量和RSU的最大容量，需满足约束条件：

(6)式中，C_groupj表示缓存池编号为J的缓存容量；

(7)式中，c_rsu表示路侧单元RSU的缓存容量；

如果车组缓存池或RSU的缓存空间不足，在确保缓存命中率的前提下，采取的策略是：删除缓存池或RSU缓存空间中流行度较低的内容，内容流行度由Zipf分布得到。

在步骤S3中，建立内容交付模型，如果车组内没有缓存请求车辆所需的内容时，车组内中心车辆k₁首先向附近车组通过G_i,k2G_j,k请求内容，若附近车组缓存有中心车辆k₁请求的内容，则由被请求车组的中心车辆k₂交付请求内容给k₁，请求车辆从车组缓存池中获取交付的内容；若附近车组也没有缓存请求车组所需内容，则由请求车组的中心车辆k₁通过V2I向其连接的RSU请求内容，车组G_i的内容决策方式用表示：

其中，表示车组G_i中心车辆k_m请求内容/>的大小，/>表示内容传输速度，表示目标车组G_i的缓存池缓存内容变量，如果内容请求车辆附近车组缓存池中都没有缓存请求的内容，则请求车辆k_m从其连接的路侧单元RSU获取所请求内容/>若RSU缓存了所请求的内容，则直接将请求内容发送给内容请求车辆k_m，传输延迟通过公式(10)计算；

如果当前RSU₁没有缓存该请求车辆所需内容，则由该RSU₁向其附近连接的RSU₂发出内容请求，如果被请求RSU₂缓存有请求RSU₁所需内容，则将请求内容发送给RSU₁，然后再由RSU₁将内容发送给车组中心车辆k_m，传输延迟通过公式(11)计算，如果RSU₁附近的其他RSU均没有缓存请求内容则直接向MBS请求内容。

其中表示车组G_i中心车辆k_m请求内容/>的大小，/>表示内容传输速度，表示目标RSU的缓存情况，d_RSU表示访问路侧单元RSU内容的延迟，如果当前RSU₁没有缓存该请求车辆所需内容，则由该RSU₁向其附近连接的RSU₂发出内容请求，如果被请求的RSU₂缓存有发出请求的RSU₁所需内容，则将请求内容发送给RSU₁，然后再由RSU₁将内容发送给车组中心车辆k_m，传输延迟为：

在步骤S4中，所述最小化延迟的目标函数为：

基于演员-评论家框架的协同缓存策略方法如下：

首先，将多智能体强化学习的学习场景设定为车组获取内容的时间最短，并且只考虑自身情况，忽略其他车组对自身环境造成的影响，在该系统下，将每一个动态移动的车组或缓存池定义为一个智能体，智能体之间彼此独立且可以相互协作；其次，每个车组中心车辆所做出的内容请求和内容缓存决策都是基于自身获得内容的时延最小而做出，决策必然导致环境发生改变，从而影响其他智能体获取内容时延；在强化学习中，将上述问题抽象为一个马尔科夫决策过程，该过程包含三个重要的元素，环境状态、智能体动作和奖励；智能体的动作为一个任务中智能体所做出的选择，环境状态是做决策的基础，奖励则是用于评价决策的好坏。

本发明所提出的基于演员-评论家框架的多智能体协同边缘缓存方法抽象为一个部分可观测马尔科夫决策过程；智能体只能观测到自身请求内容、自身缓存情况、周围车组或缓存池情况、以及与自身连接路侧单元的内容缓存情况；智能体可以根据自身的观测结果自主选择内容交付决策、内容请求决策；内容交付决策包括本地RSU传输、异地RSU传输，内容请求决策包括V2V和V2I；智能体采取相应动作之后都会对环境产生影响，从而影响其他智能体的观测结果；本策略的目标是在内容交付过程中最小化车组内车辆请求内容的时延；智能体在一个时隙采取相应动作后获得及时奖励；若内容请求车组不能在最大交付容忍时延内获得请求的内容，系统将给该智能体惩罚奖励；智能体的奖励从某一时刻开始计算智能体获得所有奖励的加权和。

在步骤S5中，最优策略训练过程如下：基于演员-评论家框架的多智能体强化学习建立在部分可观测马尔科夫决策过程的基础之上，每个智能体有自己的策略网络(PolicyNetwork)和价值网络(Value Network)，训练方式采用集中式训练，执行方式为分布式执行；通过策略网络可以将智能体的观测映射到有效动作空间；在每一个时隙，智能体根据自身观测结果以及策略选择相应动作，通过价值网络来估计每个智能体的动作值函数Q(S,A)，智能体执行策略网络选择的动作之后，将执行的动作以及环境的观测结果发送给Critic评论家网络，从而通过Critic评论家网络训练价值网络模型参数，策略网络通过价值网络的输出训练得到；在本发明中，策略网络通过策略梯度(Policy Gradient)的思想训练，价值网络采用时间差分(Temporal-Difference)的方法进行训练，主网络参数更新采用经验回放(Replay Memory)和目标固定(Fixed Q-target)。

参照图2所示，为移动边缘计算环境下基于多智能体强化学习的动态分组车联网缓存方法场景示意；如图2所示，网络架构由部署在道路上的RSU、装载了车载单元OBU的车辆以及内容提供商(Content providers)的中心网络组成，RSU与MBS通过有线连接，经过动态分组的车辆由车组中心车辆通过V2I与路侧单元通信请求内容，车组中的车辆通过V2V通信。

数据中心有足够的存储容量来缓存所有的内容，每一个RSU和相应的车组缓存池具有固定的缓存容量，且所有RSU都连接到内容提供商的中心服务器，在一个给定的时间段，车辆和车组在不断变化，对于在RSU覆盖的重叠区域的车组可以由任意RSU提供服务。在每一个时间段，车组只能请求一个内容，车辆对不同流行内容有不同的偏好，假设车辆请求的内容流行度服从Zipf分布。当车组向MBS覆盖范围内的本地RSU发送特定内容请求时，本地RSU将首先搜索其缓存空间确保自身请求内容是否缓存于本地。如果在缓存中没有缓存请求的内容，本地路侧单元RSU可以从相邻路侧单元RSU获取，或者通过回程链接直接从MBS下载，然后交付到车组。同时，所有RSU可以根据每个时段车组的请求做出缓存决策。

路侧单元以及车组缓存池的缓存替换过程可以表示为一个马尔科夫决策过程(Markov decision process，MDP)，本发明将单智能体MDP扩展为多智能体系统，进一步将MDP推广为马尔科夫博弈过程(Markov game process，MGP)，在MGP中，由于智能体之间的相互作用，单个智能体的最优决策不能保证系统的全局最优解。多智能体系统中的主体不仅必须观察自身奖励，而且还必须观察其它智能体的奖励。所有智能体之间都需要做出联合决定，以最大化整个系统的总回报。

MGP的标准形式定义可以由一个元组{Z,D₁,…,D_N,p,r₁,…,r_N,γ}来描述，其中N表示智能体的数量；Z表示系统状态空间；D_i表示第i个智能体离散动作空间，系统联合动作空间表示为D＝D₁×···×D_N；p表示状态转移概率分布p:Z×D×Z→[0,1]，r表示智能体的奖励函数，γ表示折扣因子。

参考图3为基于Actor-Critic框架的多智能体内容缓存架构。考虑N个智能体的部分可观测马尔科夫决策过程，其中包括评论家(Critic)网络V(x)和N个演员(Actor)网络。

Actor：定义为一个寻找缓存策略π＝{π₁,π₂,…,π_N}的函数，它可以将智能体的观测映射到动作空间A，并且中选择的有效动作。在每一个时间隙t，智能体将根据自己的观测o_i和相应的策略π_i选择动作a_i:a_i＝π_i(o_i)。

Critic：定义为评估值函数V(x)的标准，其中x表示所有智能体的观测x＝{o₁,…,o_N}，在t时间段隙Actor网络选择了a_t＝{a_1,t,…,a_N,t}的动作后，智能体将执行相应的动作，并发送当前观察x_t以及来自环境的反馈给评论家(Critic)。反馈包括t时刻的及时奖励r_t以及下一个时刻的观测x_t+1，进而Critic可以计算时间差分误差：

其中，r_t表示当前时刻的及时奖励，γ为折扣因子，V(x_t+1)表示t+1时刻的状态值函数，V(x_t)表示t时刻的状态值函数。

通过最小均方误差来更新Critic网络，最优状态值函数V^*可表示为：

Actor i通过策略梯度进行更新。使用时间差分误差(TD)计算策略梯度，通过最大化J(θ)来寻找最优策略：

其中/>表示函数的梯度，θ_i表示需要更新的参数，π_θ(o,a)表示在观测o下执行动作a的概率；

更新Actor网络和Critic网络。

其中，θ_Actor和θ_Critic分别表示Actor网络和Critic网络的网络参数，α为学习率。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.MEC环境下基于强化学习的动态分组车联网缓存方法，其特征在于，包括：

S4：基于所述内容缓存模型和交付模型，根据车组内所有车辆获取内容总延迟最小为目标函数，建立基于演员-评论家框架的多智能体协同边缘缓存模型；

S5：根据模型训练得出的相应缓存策略，选择总延迟最小的内容缓存策略进行内容缓存；

其中，在步骤S3中，所述交付模型的处理过程包括：

如果车组内没有缓存请求车辆所需内容时，车组内中心车辆k₁首先向附近车组G通过G_i,k2G_j,k请求内容，若附近车组G缓存有车辆k₁请求的内容，则由被请求车组的中心车辆k₂交付请求内容给k₁，请求车辆从车组缓存池中获取交付的内容；

若附近车组也没有缓存请求车组所需内容，则由请求车组的中心车辆k₁通过V2I向其连接的RSU请求内容，车组G获取内容的决策方式用表示：

其中表示车组G中心车辆k_m请求内容/>的大小，/>表示请求车辆与目标车辆之间内容传输速度，/>表示目标车组的缓存池缓存内容变量，dx_thers表示访问其他车组内任意车载单元内容的延迟,如果内容请求车辆附近车组缓存池中都没有缓存请求的内容，则请求车辆k_m从其连接的路侧单元RSU获取所请求内容/>RSU获取内容的决策方式用表示：

其中表示车组G中心车辆k_m请求内容/>的大小，/>表示请求车辆与RSU之间内容传输速度，/>表示目标RSU的缓存情况，d_RSU表示访问路侧单元RSU内容的延迟，如果当前RSU₁没有缓存该请求车辆所需内容，则由该RSU₁向其附近连接的RSU₂发出内容请求，如果被请求的RSU₂缓存有发出请求的RSU₁所需内容，则将请求内容发送给RSU₁，然后再由RSU₁将内容发送给车组中心车辆k_m，传输延迟为：

其中表示车组G_i中心车辆k_m请求内容/>的大小，/>表示请求车辆与RSU₁之间的内容传输速度；/>表示RSU₁与RSU₂之间的内容传输速度；/>表示目标RSU的缓存情况，d_RSU表示访问路侧单元RSU内容的延迟，如果当前RSU₁附近的其他RSU₂均没有缓存请求内容/>则RSU₁直接向MBS请求内容；

其中，在步骤S4中，所述目标函数为：

其中，M表示车组总数，i表示车组序号，表示车辆k_m直接从目标车辆k_n获得所请求内容的传输时延，D_RSU表示车辆k_m直接从本地RSU获取所请求内容的传输时延，/>表示车辆k_m从非本地RSU获取请求内容的传输时延。

2.根据权利要求1所述的MEC环境下基于强化学习的动态分组车联网缓存方法，其特征在于，步骤S1中待分组的所有车辆信息，包括：

车辆m的位置L_m；车辆n的位置L_n；车辆之间的通信距离D_v2v；第m辆车的缓存容量c_vm；车辆访问本地车载单元内容的延迟d_local；车辆访问其他车组内任意车载单元内容的延迟d_others；车辆获取本地车载单元内容的传输速度车辆获取组内任意车载单元内容的传输速度/>

3.根据权利要求2所述的MEC环境下基于强化学习的动态分组车联网缓存方法，其特征在于，步骤S1中路侧单元信息，包括：

4.根据权利要求3所述的MEC环境下基于强化学习的动态分组车联网缓存方法，其特征在于，步骤S1中宏基站信息，包括：路侧单元RSU访问宏基站MBS内容延迟d_MBS；宏基站MBS内容的传输速度宏基站MBS的缓存容量c_mbs；

5.根据权利要求4所述的MEC环境下基于强化学习的动态分组车联网缓存方法，其特征在于，步骤S2中根据获取待分组的所有车辆信息划分车组，包括：

根据车辆m、车辆n的位置信息L_m和L_n，车辆之间的通信距离D_v2v，计算车辆m和车辆n之间的距离D_n,n：

其中，a＝(L_m纬度-L_n纬度)，b＝(L_m经度-L_n经度)，R表示地球半径，利用上式(1)依此计算车辆m与其他车辆之间的距离，记录与车辆m间通信距离小于D_v2v的车辆数量，将通信距离小于D_v2v的车辆划分为一个车组G；

所述车组G的最多可容纳N辆车，由G确定车组缓存池C_group，N辆车组成的车组缓存池大小表示为C_group＝c_v1+…+c_vN；所述车组G的中心车辆为车组中缓存能力最大的车辆k，车组内其他车辆记为g。

6.根据权利要求5所述的MEC环境下基于强化学习的动态分组车联网缓存方法，其特征在于，步骤S3中系统架构模型由一个核心网Cloud、一个宏基站、多个路侧单元和多组双向行驶的车组组成；

在车组外，车组G_i与车组G_j之间由中心车辆通过G_i,k2G_j,k通信的方式请求或交付内容；其中k表示各自车组的中心车辆。

7.根据权利要求6所述的MEC环境下基于强化学习的动态分组车联网缓存方法，其特征在于，步骤S3的系统架构模型中，对于不同路侧单元,假设每个路侧单元覆盖范围内，车组的位置服从泊松分布，且内容f由内容大小s_f，流行度ρ_f，最大交付时延d_f三个特征来描述；

每个宏基站部署有中央控制器用于管理所有的边缘服务器，同样存储相关流行内容；路侧单元具有计算能力和存储能力。

8.根据权利要求7所述的MEC环境下基于强化学习的动态分组车联网缓存方法，其特征在于，步骤S3的系统架构模型中，所述内容缓存模型的处理过程包括：

所有内容的流行度服从Zipf分布，内容表示为F＝{1,2,....,F}，所以车组请求内容f的概率表示为：

其中，ρ_f表示内容f的流行度，ε表示流行内容的请求系数，该系数越大表明内容重复请求率越高；index表示内容的索引序号；

车组缓存池和路侧单元的缓存情况表示为：

H_j,k＝{h_j,1,h_j,2,……,h_j,f} (3)

由于车组缓存池和路侧单元均有缓存容量限制，缓存内容的总量不得超过车组缓存池的最大容量和路侧单元的最大容量，需满足约束条件：

(6)式中，C_groupj表示缓存池编号为j的缓存容量；

(7)式中，c_rsu表示RSU的缓存容量；