CN115297170A

CN115297170A - 一种基于异步联邦和深度强化学习的协作边缘缓存方法

Info

Publication number: CN115297170A
Application number: CN202210680654.8A
Authority: CN
Inventors: 吴琼; 赵宇
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-11-04

Abstract

本发明公开了一种基于异步联邦和深度强化学习的协作边缘缓存方法，该方法首先使用异步联邦学习框架进行边缘内容缓存，可以使车辆用户的数据都在本地训练从而降低车辆用户的隐私风险，降低通信成本，适应高度动态的车辆网络环境，其次，使用自动编码器模型预测内容流行度，每个车辆用户使用基于自动编码器的内容流行度预测算法从车辆用户历史请求内容和上下文信息学习数据中潜在的相关性，从而提高每个边缘设备的缓存性能，最后，使用dueling DQN强化学习算法来学习每个边缘设备中车辆用户的请求内容数据，基于自动编码器模型预测出来的内容流行度，dueling DQN可以做出最优的缓存决策，降低车辆平均请求时延和提高每个边缘设备的缓存性能。

Description

一种基于异步联邦和深度强化学习的协作边缘缓存方法

技术领域

本发明涉及属于车联网联邦深度强化学习技术领域，具体涉及一种基于异步联邦和深度强化学习进行车辆边缘缓存方法。

背景技术

自动驾驶车辆支持一系列的车载应用，比如自动巡航、图像识别、多媒体娱乐等等，这些应用需要车载用户通过请求获得所需要的数据、视频和网页等内容，由于车辆具有高速移动的特性，车载用户需要在短时间内获得请求的内容。传统的请求方式是用户首先和基站通信，然后通过接入核心骨干网来访问存放数据的数据中心，之后数据中心再将请求的数据回传给用户。这种请求方式存在端到端延时长、回传带宽受限、低效冗余传输等问题。车辆边缘计算(VEC)的出现可以有效解决这些问题，该技术将数据缓存在与车载用户距离最近的路侧单元(RSU)中，其中，RSU作为边缘服务器提供计算和存储服务，车载用户可以在一跳通信范围内向RSU通信获取所需的内容。这样可以减轻回程网络负担和服务延迟，从而能够提高应用的服务质量(QoS)。

由于边缘服务器的存储能力有限，如何缓存最流行的内容是边缘缓存的主要挑战。传统的缓存方案基于用户的请求来缓存内容，也就是说内容只有被用户请求以后才会被缓存，但是在车辆高速移动的复杂车载环境中，车载用户之前请求的内容会很快过时，内容流行度动态变化，导致传统的基于请求的缓存方案不能满足用户的需求。机器学习(ML)技术能够使得边缘服务器从用户的数据中提取隐藏的特征来有效地预测内容流行度，并缓存预测的流行内容，这样没有被用户请求的内容也会被缓存，从而达到动态管理缓存内容的目的。基于RL框架，网络可以根据车载用户请求的内容信息和每个RSU中的内容流行度，动态、高效地找到最优缓存策略，从而优化内容交付问题。其中，RSU收集大量车载用户的数据，通过训练数据的方式更新模型，并采用收敛的模型来预测内容流行度。但是车载应用中的数据会涉及到个人隐私信息，车载用户间往往不愿意相互分享这些数据，给RSU收集数据造成困难。

联邦学习(FL)可以解决隐私性的挑战。具体来说，每个用户对其本地数据进行训练来更新本地模型，然后RSU聚合每个用户的本地模型来更新全局模型，之后每个用户再采用更新的全局模型来更新本地模型，这样的过程不断迭代直到全局模型收敛。相比较其他ML方法，RSU采用聚合用户的本地模型的方式替代收集用户数据，可以在避免多个用户共享含有隐私信息的数据的同时更新全局模型。RSU需要在聚合前等待所有用户发送更新的模型，如果有用户向RSU延迟传输更新的模型，这种用户称为stragglers，将会增加全局模型的收敛时间。当用户的更新时间超过了最大时间阈值，RSU不得不放弃该用户的模型，甚至RSU接收到的用户模型过少时，RSU不得不放弃已经收到的模型重新开始下一轮次的更新，这些情况可能会导致最终无法得到精确的全局模型。在车载环境中车辆高速移动，车辆会以很快的速度穿过RSU的覆盖范围，一旦车辆驶出覆盖范围车载用户更新的模型就会失效，从而很容易形成stragglers，使得基于同步联邦学习的方法难以得到精确的模型。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于异步联邦和深度强化学习进行车辆边缘缓存方法，该方法解决了上述出现的技术问题。

技术方案：本发明所述的基于异步联邦和深度强化学习进行车辆边缘缓存方法，该方法使用的通信网络架构为：最高层为核心网络和宏基站MBS，中间层包括多个路侧单元RSU，其作为边缘服务器缓存内容，底层包括车辆和车辆请求内容，该方法包括以下步骤：

(1)RSU覆盖范围内包含有多个车辆，计算每轮通信回合中基于车辆速度的运动模型，在所述运动模型中，所有车辆朝着同一个方向行驶，车辆行驶通过不同RSU的覆盖范围时，车辆在当前时刻连接与其通信的RSU后，移交给下一个相邻的RSU；

(2)依据某通信回合中每辆车的信道增益得到在t时刻RSU与其覆盖范围内的移动车辆的无线传输速率，所述移动车辆由MBS提供服务；

(3)车辆获取请求内容，从而得到某通信回合中所有车辆的内容请求时延，并依据所述请求时延描述协作缓存策略问题；

(4)应用异步联邦学习框架来聚合在高度动态的车联网环境下来自每个车辆的本地模型，从而得到全局模型，经过多次迭代训练出高效收敛的全局模型；

(5)利用全局模型对各个车辆用户的流行内容进行预测，并进行聚合比较，得到内容流行度最高的多个内容；

(6)采用dueling DQN解决协作缓存策略问题并确定将流行度最高的多个内容中的哪些内容主动缓存在适当的RSU中。

进一步的，包括：

所述步骤(1)具体包括：

在第r个通信回合，RSU覆盖范围内有N^r个移动车辆

假设车辆的到达遵循Poisson分布，其到达率λ_v；每轮通信回合，车辆的速度服从独立同分布，由集合

表示；

考虑速度限制在[U_min,U_max]内的自由驾驶车辆，也就是说，RSU覆盖范围内的车辆V_i ^r行驶速度受最小或最大速度限制，即

假设在第r个通信回合，车辆的速度

由截断高斯分布产生：

其中，σ²是方差，μ(-∞＜μ＜+∞)是均值，erf()是高斯误差函数。

进一步的，包括：

步骤(2)具体包括：

在第r轮通信回合，对车辆V_i ^r的信道增益进行了建模：

其中，

和

分别代表信道路径损失和路径阴影；

由于在不同通信回合车辆V_i ^r与RSU的距离不同，车辆将遭受不同的信道损伤，从而在不同时刻以不同的数据传输速率进行传输，因此，在r个通信回合，RSU与其覆盖范围内的移动车辆V_i ^r之间的无线传输速率定义为

其中，

是车辆V_i ^r分配的带宽，

是车辆V_i ^r的传输能量，

是噪声能量，如果V_i ^r由MBS提供服务,将在t时刻的无线传输速率定义为

其中，p_T是MBS的传输能量。

进一步的，包括：

所述步骤(3)包括以下步骤：

(31)通过以下三种方式获取车辆请求的内容：首先，车辆从为其服务的本地RSU获取缓存内容；

如果车辆请求的内容缓存在本地的RSU中，则本地RSU直接将内容传递给车辆，让

代表在第r轮通信回合，所有车辆从本地RSU获取所有车辆请求内容的时延；

其中，Nr是在第r轮通信回合参与内容请求的车辆数，F_i是车辆V_i ^r请求内容的数目，

是一个二进制变量，表示在第r轮通信回合，车辆是否从为其服务的本地RSU获取请求的内容，

表示在第r轮通信回合，车辆从本地RSU获取请求的内容，否则，

在第r轮通信回合，每个RSU以内容传输时延

从本地缓存向车辆传输请求的内容；

s_f是内容f的大小；

其次，车辆从其他相邻的RSU获取请求的内容；

如果车辆请求的内容没有缓存在本地的RSU，车辆需要从其他相邻的RSU获取请求内容；

在第r轮通信回合，所有车辆从相邻RSU获取请求内容的时延用

表示：

其中，

是一个二进制变量，表示在第r轮通信回合，车辆是否从相邻的RSUs获取请求的内容，

表示在第r轮通信回合，车辆可以从相邻的RSUs获取请求的内容，否则,

是两个RSUs之间的传输时延：

其中，R_R-R代表两个RSUs之间的传输速率；

最后，车辆从MBS获取请求内容：如果请求的内容没有缓存在本地RSU和相邻RSUs，车辆需要从MBS获取请求内容；用

代表在第r轮通信回合，所有车辆从MBS获得请求内容的时延，有：

其中，

是一个二进制变量，表示在第r轮通信回合，车辆是否从MBS获取请求的内容，

表示在第r轮通信回合，车辆可以从MBS获取请求的内容，否则，

在通信回合t，V_i ^r和MBS之间的传输时延用

来表示，有：

其中，

是V_i ^r和MBS之间的传输速率；

(32)在第r轮通信回合，对于本地RSU中给定的缓存状态，所有车辆的内容请求时延可以表示为：

(33)考虑到RSU有限的存储空间和缓存决策变量的整数特性，协作缓存问题描述如下：

约束是为了确保每个RSU中本地缓存的内容量不能超过其最大存储容量。

进一步的，包括：

所述步骤(4)具体包括以下步骤：

(41)选择车辆：在车辆选择的过程中考虑的因素是行驶过程中的车辆在RSU覆盖范围内的停留时间，在第t个通信回合，每一辆连接的车辆在当前RSU覆盖范围内的停留时间如下：

其中，P_i ^r是在第t个通信回合车辆V_i ^r离RSU入口的距离，L_s是RSUs的覆盖范围大小。

假设每轮通信的平均训练时间和测试时间为T_training和T_inference，如果

说明这辆车满足参与异步联邦学习的条件，并且被选中进行异步联邦学习模型训练；

(42)全局模型下载：在第r轮通信回合，被选择的车辆参与异步联邦学习模型训练；被选中的车辆从当前的RSU中下载全局模型，每个通信回合RSU都会保存之前通信车辆参与异步联邦学习训练的模型，并在其基础上进行模型更新；

(43)异步联邦学习模型训练：定义

为每一轮通信回合中被选择的车辆所存储的数据，N_r为第r个通信回合RSU覆盖范围的车辆总数，

是第

辆车的数据，其长度为

d是所有被选择车辆所存数据的总和，即

其中，d_i是车辆V_i ^r存储数据的长度；

最小化全局目标函数F(ω)定义为：

其中，f_i(ω_i)是车辆V_i ^r的本地损失函数：

其中，l_i(x_k；ω_i)是经验本地损失函数，x_k是数据样本，ω_i是车辆的本地模型参数；采用一种正则化损失函数的基于梯度的更新方法，定义如下：

其中，ρ是正则化参数，ω^r是第r轮通信回合全局模型参数，ω_i是车辆V_i ^r的本地模型参数，使用随机梯度下降来进行优化：

其中，

是在第r个通信回合的本地参数的本地学习率，且

其中，η_l是本地学习率的初始值；

当聚合本地模型时，使用第r个通信回合时，经过聚合V_i ^r本地模型：

其中，

是车辆V_i ^r训练的本地模型参数，

是车辆V_i ^r之前的本地模型参数，β为衰减系数；

(44)上传更新模型：在局部模型训练完成后，把车辆的局部模型从车辆用户上传到RSU服务器；

(45)RSU服务器和车辆进行异步更新，即在r轮通信回合，RSU服务器接收来自车辆V_i ^r的本地模型，并且通过权重平均更新全局模型，

χ_i是车辆V_i ^r权重聚合的参数：

其中，μ₁+μ₂＝1，

是第r个通信回合车辆V_i ^r的位置权重，取决于车辆V_i ^r的位置；

是第r个通信回合车辆V_i ^r的数据传输权重，取决于车辆V_i ^r的数据传输率，经过多次迭代更新，训练出一个较为高效收敛的全局模型。

进一步的，包括：

所述步骤(5)中预测某个车辆用户的流行内容具体包括以下步骤：

(51)数据预处理：依据每个连接的车辆用户内容请求历史，建立车辆请求内容评分矩阵X；

(52)数据特征表达：将评分矩阵X作为自动编码器的输入数据，自动编码器发现车辆用户之间、请求内容之间关联性的潜在的特征，考虑到潜在特征与车辆用户信息，分别计算出车辆用户、文件内容的相似性矩阵；

历史请求矩阵的构造：假设当前车辆是活跃的车辆，基于当前车辆用户的相似度矩阵，确定该车辆用户相邻K个的车辆用户，K个被选中的相邻车辆用户的历史请求内容与当前车辆的历史请求内容结合构造一个历史检索矩阵K^*；

(53)获得相似性：当前车辆用户的历史请求矩阵被称为A^*，通过文件相似矩阵来计算A^*与K^*之间相似性的均值；

(54)内容流行度聚合：选择相似度最高的Fc个内容作为本车辆用户的推荐内容，接着执行预测文件流行度的聚合方法，用以生成流行文件的推荐列表以进行内容缓存，每个连接的车辆用户将他们的推荐列表上传到RSU服务器，RSU服务器接收到推荐列表后，将所有上传列表车辆用户的推荐列表进行聚合比较，选择内容流行度最高的Fc个内容。

进一步的，包括：

所述步骤(6)包括：在获得Fc流行的内容之后，下一个挑战是确定在每个时间段之前，Fc个内容中的哪些内容应该主动缓存在适当的RSU中，在DQN基础上，dueling DQN将action-state值函数Q分解为状态值函数V和动作优势函数A，形成dueling DQN神经网络，状态值函数V与动作无关，动作优势函数A与动作有关，它是在状态s(t)下执行动作a(t)来解决奖励偏差问题的平均回报，动作Q-value函数写成：

Q(s(t),a(t)；θ)＝V(s(t)；θ)+A(s(t),a(t)；θ)

动作优势通常被设置为单个动作优势函数减去特定状态下所有动作优势函数的平均值，动作Q-value函数计算如下：

因此，使用dueling DQN来解决内容缓存问题，状态空间、动作空间和奖励函数描述如下：

状态空间s(t)：状态空间s(t)被定义为s(t)＝(s₁,s₂,...,s_c)，在这里s(t)代表本地RSU缓存的具体内容，c是RSU的缓存容量；

动作空间a(t)：动作空间代表是否需要替换RSU中的缓存内容，那些没有缓存在本地RSU的流行内容服从集合κ，如果a(t)＝1，将从集合κ中随机选择k(k<c)内容并且交换缓存在本地RSU的索引最低的k个内容，然后再基于内容流行度对状态空间的内容索引进行降序排序，得到s(t+1)，这样一来可以确保在时间t，在本地RSU中被替换的内容是最不流行的内容，a(t)＝0代表在本地RSU缓存的内容不会被替换；

奖励函数r(t)：当本地RSU缓存状态是s(t)，执行完动作a(t)后将获得奖励函数r(t)；为了最小化总的内容请求时延和系统奖励，设计了奖励函数如下：

是在时间t，车辆V_i ^r请求内容f的奖励；

λ₁+λ₂+λ₃＝1,λ₁＜λ₂≤λ₃，

是车辆从本地RSU获得请求内容f的奖励；

是车辆从相邻RSU获得请求内容f的奖励；

是车辆从MBS获得请求内容f的奖励，RSU根据本地内容流行度和车辆的请求内容信息，通过最大化奖励函数r(t)来优化缓存策略π*。

有益效果：本发明与现有技术相比，其显著优点是：1、首先使用异步联邦学习框架进行边缘内容缓存，可以使车辆用户的数据都在本地训练从而降低车辆用户的隐私风险，降低通信成本，适应高度动态的车辆网络环境；2、使用自动编码器模型预测内容流行度。每个车辆用户使用基于自动编码器的内容流行度预测算法从车辆用户历史请求内容和上下文信息学习数据中潜在的相关性，从而提高每个边缘设备的缓存性能；3、使用dueling DQN强化学习算法来学习每个边缘设备中车辆用户的请求内容数据，基于自动编码器模型预测出来的内容流行度，dueling DQN可以做出最优的缓存决策，降低车辆平均请求时延和提高每个边缘设备的缓存性能；4、本发明提出的基于异步联邦和深度强化学习的协作缓存方案(CAFR)极大的提高边缘缓存性能，保护用户隐私，降低车辆平均请求时延，降低通信成本。且实验结果表明，CAFR在高度动态的车辆网络环境中其缓存命中率和车辆平均请求时延优于其他基线缓存方案。

附图说明

图1为本发明所述的缓存方法与其它三种算法在RSU缓存容量为50-400时缓存命中率的比较示意图；

图2为本发明所述的缓存方法以及其它三种算法在RSU缓存容量为50-400时每辆车平均请求时延的比较示意图；

图3为本发明所述的缓存方法在不同车辆密度情况下缓存命中率和每辆车平均请求时延的比较示意图；

图4为本发明所述的缓存方法与典型的同步联邦学习训练(FedAVG)缓存命中率与通信回合的关系图；

图5为本发明所述的缓存方法与FedAVG在每个通信回合的训练时间比较示意图；

图6为本发明所述的缓存方法在基于dueling DQN的缓存替换策略中，每个episode缓存命中率与车辆平均请求时延的关系图；

图7为本发明所述的缓存方法与去除深度强化学习(DRL)后的缓存策略关于缓存命中率的比较示意图；

图8为本发明所述的缓存方法与去除DRL后的缓存策略关于请求时延的比较示意图；

图9为本发明所述的缓存方法使用的架构图。

具体实施方式

下面结合说明书附图和实施例对本发明异步联邦和深度强化学习的协作边缘缓存方案做进一步的详细说明，本发明的实施方式包括但不限于下列实施例。

本发明基于异步联邦和深度强化学习的协作边缘缓存方案，其具体步骤如下：

步骤(1)：该方案是一个三层架构，如图9所示，最高层包括核心网络和MBS；中间层包括RSUs，作为边缘服务器缓存内容；底层包括车辆和车辆请求内容。这三层基于异步联邦和深度强化学习框架，车辆从RSU服务器下载的全局模型，使用本地数据计算本地模型，并且发送到RSU，RSU从一个车辆接收到车辆的本地模型后聚合并更新全局模型，而不用等待其他车辆完成模型训练。RSU边缘服务器经过多次迭代训练出一个收敛的全局模型。参与训练的本地车辆所请求过的内容作为全局模型的输入，输出预测的内容流行度。

按照预测的内容流行度进行排序，获取F_c个最流行的内容，接下来是确定在每个时间段之前在适当的边缘设备中主动缓存哪些内容。Dueling DQN网络能够根据车辆请求的内容信息和每个RSU中预测的内容流行度做出最优的缓存决策。但是由于车辆的高度移动性，可能会导致：由于车辆速度较快且RSU覆盖范围有限，车辆可能没有足够的时间进行上述步骤，所以可能需要相邻RSU的协助才能从边缘设备中得到请求的内容，否则要到MBS获取请求内容，这会提高车辆请求时延，增加网络损耗。

因此在基于异步联邦和深度强化学习模型的基础上开发了移动感知高效缓存策略来解决可能会出现的问题。MBS通过对连接车辆的运动特征和在其覆盖范围内RSU缓存内容的了解，动态的更新管理每个RSU的缓存。当车辆从当前的RSU进入到下一个RSU覆盖范围时，MBS将该车辆预测出的流行内容传递到下一个RSU。

步骤(2)：考虑了每轮通信回合中的车辆运动模型。在第r个通信回合，RSU覆盖范围内有N^r个移动车辆

假设车辆的到达遵循Poisson分布，其到达率λ_v。每轮通信回合，车辆的速度服从独立同分布，由集合

表示。为了表征真实的高速公路环境，考虑速度限制在[U_min,U_max]内的自由驾驶车辆，也就是说，RSU覆盖范围内的车辆V_i ^r行驶速度受最小或最大速度限制，即

假设在第r个通信回合，车辆的速度

由截断高斯分布产生：

其中σ²是方差，μ(-∞＜μ＜+∞)是均值，erf()是高斯误差函数。

车辆速度服从截断高斯分布，与普通高斯分布或者是固定值相比，车辆行驶更加的灵活而且更加符合真实的动态车辆网络环境。在我们的模型中，所有车辆朝着同一个方向行驶。由于车辆的移动性，车辆行驶通过不同RSUs的覆盖范围时，车辆在当前时刻连接与其通信的RSU，然后移交给下一个相邻的RSU。

步骤(3)：本发明考虑的车辆通信网络基于3GPP C-V2X架构中定义的Mode 4。RSUs通过V2R链路与覆盖范围内的车辆交换信息，MBS通过V2B链路与覆盖范围内的RSUs和车辆交换信息。车辆通信网络中的RSU被认为是一个固定节点，它通过网络边缘的有线链接连接其他的RSUs，从而可以交换不同RSUs中缓存内容的信息。

在第r轮通信回合，我们对车辆V_i ^r的信道增益进行了建模：

其中，

和

分别代表信道路径损失和路径阴影。由于在不同通信回合车辆V_i ^r与RSU的距离不同，车辆将遭受不同的信道损伤，从而在不同时刻以不同的数据传输速率进行传输。因此，在r个通信回合，RSU与其覆盖范围内的移动车辆V_i ^r之间的无线传输速率定义为

其中，

是车辆V_i ^r分配的带宽，

是车辆V_i ^r的传输能量，

是噪声能量。如果V_i ^r由MBS提供服务,我们将在t时刻的无线传输速率定义为

其中，p_T是MBS的传输能量。

步骤(4)：对于车辆来说有三种方式可以获取请求的内容：

1)车辆从为其服务的本地RSU获取缓存内容。如果车辆请求的内容缓存在本地的RSU中，则本地RSU直接将内容传递给车辆。让

代表在第r轮通信回合，所有车辆从本地RSU获取所有车辆请求内容的时延。

表示在第r轮通信回合，车辆可以从本地RSU获取请求的内容，否则，

在第r轮通信回合，每个RSU以内容传输时延

从本地缓存向车辆传输请求的内容。

s_f是内容f的大小。

2)车辆从其他相邻的RSU获取请求的内容。如果车辆请求的内容没有缓存在本地的RSU，车辆需要从其他相邻的RSU获取请求内容。在第r轮通信回合，所有车辆从相邻RSU获取请求内容的时延用

表示：

其中，

是两个RSUs之间的传输时延：

其中，R_R-R代表两个RSUs之间的传输速率。

3)车辆从MBS获取请求内容。如果请求的内容没有缓存在本地RSU和相邻RSUs，车辆需要从MBS获取请求内容。用

其中，

在通信回合t，V_i ^r和MBS之间的传输时延用

来表示，有：

其中，

是V_i ^r和MBS之间的传输速率。

在第r轮通信回合，对于本地RSU中给定的缓存状态，所有车辆的内容请求时延可以表示为：

目标是找到最佳的缓存策略π*，以实现最小化网络中的内容请求时延的目标。因此，考虑到RSU有限的存储空间和缓存决策变量的整数特性，协作缓存问题描述如下：

约束是为了确保每个RSU中本地缓存的内容量不能超过其最大存储容量，这提高了每个RSU中本地缓存内容的多样性。

在我们讨论的协作缓存网络中，缓存命中率被认为是评估网络性能的一个很好的指标。每个RSU的缓存命中率计算如下：

缓存命中率表示从为车辆提供服务的RSU的本地缓存中获取车辆请求内容的概率。

步骤(5)：我们在RSU中，应用异步联邦学习框架来聚合在高度动态的车联网环境下，来自每个车辆的本地模型，从而得到全局模型，经过多次迭代训练出的全局模型被用来预测移动感知缓存方案的内容流行度。我们设计的异步联邦学习方案具体如下：

1)选择车辆：因为RSU的覆盖范围有限以及高速公路上的车辆都具有较高的速度，所以可能会存在一些车辆在穿过当前RSU时，由于停留时间过短而不能完成异步联邦学习训练，这种情况的产生会导致在RSU中异步联邦学习训练出来低效率的全局模型，从而使得缓存性能低下。在每个RSU服务器中对高质量的车辆模型进行更新聚合可以训练一个更加精确的全局模型，被选择的车辆会作为一个节点计算本地的数据用来更新全局模型。

在车辆选择的过程中主要考虑的因素是行驶过程中的车辆在RSU覆盖范围内的停留时间，这极大的取决于连接的车辆的位置和速度。在RSU覆盖范围内充足的停留时间可以实现完整训练过程并且训练出来的结果也可以传递到车辆。可以得到在第t个通信回合，每一辆连接的车辆在当前RSU覆盖范围内的停留时间如下：

其中P_i ^r是在第t个通信回合车辆V_i ^r离RSU入口的距离，L_s是RSUs的覆盖范围大小。

假设每轮通信的平均训练时间和测试时间为T_training和T_inference，这取决于数据集的大小和深度学习模型。如果

说明这辆车满足参与异步联邦学习(FL)的条件，并且被选中进行异步FL训练。

2)全局模型下载：在第r轮通信回合，被选择的车辆参与异步联邦学习训练。被选中的车辆从当前的RSU中下载全局模型，具体来说，下载全局模型的参数。每个通信回合RSU都会保存之前通信车辆参与FL训练的模型，并在其基础上进行模型更新。使用先前的模型可以提高模型训练的效率并且可以节约训练时间。

3)异步联邦学习模型训练：定义

为每一轮通信回合中被选择的车辆所存储的数据。N_r为第r个通信回合RSU覆盖范围的车辆总数，

是第

辆车的数据，其长度为

d是所有被选择车辆所存数据的总和，即

其中d_i是车辆V_i ^r存储数据的长度。

类似于同步FL，我们所提出的异步FL的目标也是最小化全局目标函数F(ω)：

其中f_i(ω_i)是车辆V_i ^r的本地损失函数：

l_i(x_k；ω_i)是经验本地损失函数，其中x_k是数据样本，ω_i是车辆的本地模型参数。为了减小车辆本地模型与全局模型的偏差，从而提高异步联邦学习算法的收敛性，采用一种正则化损失函数的基于梯度的更新方法，定义如下：

其中，ρ是正则化参数，ω^r是第r轮通信回合全局模型参数，ω_i是车辆V_i ^r的本地模型参数。我们使用随机梯度下降(SGD)来进行优化：

其中，

是在第r个通信回合的本地参数的本地学习率：

其中，η_l是本地学习率的初始值。在异步FL中，在之前几个通信回合中没有传输的本地梯度会被聚合到当前通信回合的本地梯度中。这种在前几轮中没有传输的本地梯度称为延迟的本地梯度，具有这种延迟的本地梯度的设备被称为stragglers，它们会对模型收敛产生不利影响，因为用于计算延迟的本地梯度的参数与用于计算当前本地梯度的本地参数不同。为了解决这个问题，我们需要平衡之前本地梯度和当前的本地梯度。当聚合本地模型时，我们使用β作为衰减系数。第r个通信回合时，经过聚合V_i ^r本地模型：

其中，

是车辆V_i ^r训练的本地模型参数，

是车辆V_i ^r之前的本地模型参数。

4)上传更新模型：在局部模型训练完成后，车辆的局部模型从车辆用户上传到RSU服务器。将每个车辆用户的本地模型而不是本地数据上传到RSU服务器，这极大地保护了车辆用户的隐私，并降低了车辆网络中的通信成本。

5)异步聚合：RSU服务器和车辆进行异步更新，换句话说，只要RSU服务器接收到本地模型，服务器就会立即更新全局模型。因此RSU服务器和车辆可以在异步的情况下随时进行模型更新，这对处于异构条件的车辆用户十分适用。具体来说，在r轮通信回合，RSU服务器接收来自车辆V_i ^r的本地模型，并且通过权重平均更新全局模型，表达如下：

考虑到车辆的移动性和V2R(vehicle to RSU)的传输速率，我们改进了全局参数聚合的权重。然后，我们可以将聚合方法重写为：

χ_i是车辆V_i ^r权重聚合的参数：

其中μ₁+μ₂＝1，

是第r个通信回合车辆V_i ^r的数据传输权重，取决于车辆V_i ^r的数据传输率。

经过多次迭代更新，训练出一个较为高效收敛的全局模型，每个RSU服务器利用所训练出来的全局模型预测内容流行度。

步骤(6)：自动编码器能够将数据中潜在的相关性在这个转换链中挖掘出来，并作为模型中可训练的参数集被保存下来，可用来预测内容流行度。我们使用自动编码器提取车辆和文件的特征来计算相似性。基于请求活跃的车辆的请求内容和其他K个相邻车辆的请求内容生成流行内容，K个相邻车辆的请求内容代表在该RSU覆盖范围下大部分车辆可能会请求的内容。计算车辆用户之间的相似性是因为相邻车辆用户请求的历史内容也在一定程度上反应当前车辆用户偏好。当知道车辆用户请求的历史内容和相邻车辆请求的历史内容，依据车辆用户之间的相似性和请求内容间的相似性生成该车辆用户推荐的流行的内容，换句话说，主要依据对内容感兴趣的程度和车辆用户个人信息来预测内容流行度。预测某个车辆用户的流行内容的过程，执行以下五个步骤具体如下：

1)数据预处理：依据每个连接的车辆用户内容请求历史，建立车辆请求内容评分矩阵X。车辆对内容的评分代表对内容偏好程度。与此同时，车辆用户的个人信息，比如性别，年龄也被考虑在其中。

2)数据特征表达：将评分矩阵X作为自动编码器的输入数据，自动编码器发现车辆用户之间、请求内容之间关联性的潜在的特征，考虑到潜在特征与车辆用户信息，分别计算出车辆用户、文件内容的相似性矩阵。相似性矩阵可以反映出两两特征之间的相关性，车辆的相似性矩阵和文件的相似性矩阵分别代表每个车辆，每个文件之间的距离。

3)历史请求矩阵的构造：我们假设当前车辆是活跃的车辆。基于当前车辆用户的相似度矩阵，确定该车辆用户相邻K个的车辆用户，K个被选中的相邻车辆用户的历史请求内容与当前车辆的历史请求内容结合构造一个历史检索矩阵K^*。

4)获得相似性:当前车辆用户的历史请求矩阵被称为A^*。通过文件相似矩阵来计算A^*与K^*之间相似性的均值。

5)内容流行度聚合:选择相似度最高的Fc个内容作为本车辆用户的推荐内容，接着执行预测文件流行度的聚合方法，用以生成流行文件的推荐列表以进行内容缓存。每个连接的车辆用户将他们的推荐列表上传到RSU服务器。RSU服务器接收到推荐列表后，将所有上传列表车辆用户的推荐列表进行聚合比较，选择内容流行度最高的Fc个内容。

步骤(7)：在获得Fc流行的内容之后，下一个挑战是确定在每个时间段之前，Fc个内容中的哪些内容应该主动缓存在适当的RSU中。我们使用dueling DQN来解决内容缓存问题。在DQN基础上，dueling DQN将action-state值函数Q分解为状态值函数V和动作优势函数A，形成dueling DQN神经网络。状态值函数V与动作无关，动作优势函数A与动作有关，它是在状态s(t)下执行动作a(t)来解决奖励偏差问题的平均回报。动作Q-value函数改写成：

Q(s(t),a(t)；θ)＝V(s(t)；θ)+A(s(t),a(t)；θ) (24)

事实上，动作优势通常被设置为单个动作优势函数减去特定状态下所有动作优势函数的平均值。动作Q-value函数计算如下：

这样可以保证在这种状态下每个动作的主导功能相对不变。该方法的优点是它减小了Q-value范围并消除了多余的自由度，从而提高了算法的稳定性。因此，我们使用dueling DQN来解决内容缓存问题。状态空间、动作空间和奖励函数描述如下：

1)状态空间s(t):状态空间s(t)被定义为s(t)＝(s₁,s₂,...,s_c),在这里s(t)代表本地RSU缓存的具体内容，c是RSU的缓存容量。我们根据内容流行度对状态空间中的内容索引进行降序排序，这可以降低低频内容索引出现在状态空间中的频率。

2)动作空间a(t):动作空间代表是否需要替换RSU中的缓存内容。那些没有缓存在本地RSU的流行内容服从集合κ。如果a(t)＝1，将从κ中随机选择k(k<c)内容并且交换缓存在本地RSU的索引最低的k个内容，然后再基于内容流行度对状态空间的内容索引进行降序排序，得到s(t+1)，这样一来可以确保在时间t，在本地RSU中被替换的内容是最不流行的内容。a(t)＝0代表在本地RSU缓存的内容不会被替换。

3)奖励函数r(t):当本地RSU缓存状态是s(t)，执行完动作a(t)后将获得奖励函数r(t)。为了最小化总的内容请求时延和系统奖励，我们设计了奖励函数如下：

是在时间t，车辆V_i ^r请求内容f的奖励。

λ₁+λ₂+λ₃＝1,λ₁＜λ₂≤λ₃，

是车辆从本地RSU获得请求内容f的奖励；

是车辆从相邻RSU获得请求内容f的奖励；

是车辆从MBS获得请求内容f的奖励。RSU根据本地内容流行度和车辆的请求内容信息，通过最大化奖励函数r(t)来优化缓存策略π*。

其中，基于异步联邦学习的内容预测算法和基于dueling DQN内容缓存放置算法伪代码如下所示：

对本发明所述的缓存方法做了仿真实验，结果如下：图1描述了RSU缓存容量从50到400个内容的缓存命中率。random算法提供了一个最坏的缓存命中率。随着缓存容量的增加，所有算法的缓存命中率都随之增加。我们提出的算法都优于其他的缓存算法。因为Random和Thompson Sampling算法不会从车辆用户过去请求内容中学习，而CAFR和c-ε-greedy通过观察过去的请求内容决定缓存内容。CAFR算法性能优于c-ε-greedy，因为CAFR考虑用户的上下文信息，会从数据中捕捉有用的特征，并将数据聚集在潜在空间中。图2描述了RSU缓存容量从50到400个内容的每个车辆的平均内容请求时延。random算法提供了一个时间最长的内容请求时延。随着缓存容量的增加，所有算法的内容请求时间都随之降低。我们提出的方法的车辆平均内容请求时延比其他缓存算法要低，结合图1，2，可以得出在缓存命中率和请求时延两个性能下，CAFR算法优于其他的缓存算法。

图3展示了在RSU缓存容量为100的条件下，提出的CAFR算法在不同的车辆密度情况下的缓存集中率。由图3可知，随着车辆密度的增加，缓存命中率也随之增加,这是因为随着越来越多的车辆进入到RSU的覆盖范围，这些车辆能够训练更多的数据从而车辆网络有更好的计算能力，所以就会有更准的内容预测。除此以外，随着RSU覆盖范围内车辆密度越来越大，车辆平均请求时延越低，这是因为当车辆密度增加时，缓存命中率随之增加，这就使得更多的车辆直接从RSU获取内容。

图4表示使用MovieLens 1M数据集情况下我们提出的CAFR算法与典型的同步联邦学习训练(FedAVG)缓存命中率与通信轮次的关系。仿真中，15辆车协同参与了一个全局模型训练，结果图显示我们提出的CAFR方法在三十轮通信回合中的缓存命中率都是在22.5％～24％之间波动；FedAVG方法的缓存命中率在三十轮通信回合中的缓存命中率都是在22％～23.5％之间波动。这就表明了CAFR方法比FedAVG要好，这是因为CAFR方法考虑了车辆的移动性(位置和速度)来选择车辆并且聚合本地模型，从而提高了全局模型的准确性。

图5表明当车辆密度为15vehicles/km和每个RSU的缓存能力为100个内容时，CAFR方法和FedAVG方法在每个回合的训练时间。我们可以看到CAFR方法每个回合的训练时间在1s到2s，而FedAVG方法每个回合的训练时间从22s到24s。这表明CAFR方法每个回合训练时间远远小于FedAVG方法，这是因为FedAVG方法在每个回合都需要聚合所有车辆的本地模型，然而CAFR方法只需要聚合一个车辆的本地模型。

图6表明基于dueling DQN的缓存替换策略中，缓存命中率，车辆平均请求时延和episode的关系。在实验中，15辆车基于异步联邦学习协作训练出一个全局模型，在得到预测的内容流行度后，RSU采用dueling DQN的DRL算法来确定哪些内容应该缓存在RSU中。随着episode的提高，缓存命中率逐渐提高，平均车辆请求时延逐渐降低。大约10个回合，缓存命中率和平均车辆请求时延收敛。

图7和图8分别展示了基于dueling DQN的缓存替换策略的有效性，我们分别比较了CAFR和CAFR without DRL的缓存命中率和平均车辆请求时延。如图7所示，CAFR的缓存命中率优于CAFR without DRL。如图8所示，CAFR的平均车辆请求时延少于CAFR withoutDRL。结合图7和图8实验结果表明，提出的基于dueling DQN的缓存替换策略能够进一步提高在高度动态的车联网环境中边缘缓存方案的缓存性能。

本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于异步联邦和深度强化学习的协作边缘缓存方法，其特征在于，该方法使用的通信网络架构为：最高层为核心网络和宏基站MBS，中间层包括多个路侧单元RSU，其作为边缘服务器缓存内容，底层包括车辆和车辆请求内容，该方法包括以下步骤：

(2)依据某通信回合中每辆车的信道增益得到在某时刻RSU与其覆盖范围内的移动车辆的无线传输速率，所述移动车辆由MBS提供服务；

2.根据权利要求1所述的基于异步联邦和深度强化学习的协作边缘缓存方法，其特征在于，所述步骤(1)具体包括：

在第r个通信回合，RSU覆盖范围内有N^r个移动车辆

表示；

假设在第r个通信回合，车辆的速度

由截断高斯分布产生：

3.根据权利要求2所述的基于异步联邦和深度强化学习的协作边缘缓存方法，其特征在于，步骤(2)具体包括：

在第r轮通信回合，对车辆V_i ^r的信道增益进行了建模：

其中，

和

分别代表信道路径损失和路径阴影；

其中，

是车辆V_i ^r分配的带宽，

是车辆V_i ^r的传输能量，

其中，p_T是MBS的传输能量。

4.根据权利要求3所述的基于异步联邦和深度强化学习的协作边缘缓存方法，其特征在于，所述步骤(3)包括以下步骤：

在第r轮通信回合，每个RSU以内容传输时延

从本地缓存向车辆传输请求的内容；

s_f是内容f的大小；

其次，车辆从其他相邻的RSU获取请求的内容；

在第r轮通信回合，所有车辆从相邻RSU获取请求内容的时延用

表示：

其中，

是两个RSUs之间的传输时延：

R_R-R代表两个RSUs之间的传输速率；

其中，

在通信回合t，V_i ^r和MBS之间的传输时延用

来表示，有：

其中，

是V_i ^r和MBS之间的传输速率；

5.根据权利要求4所述的基于异步联邦和深度强化学习的协作边缘缓存方法，其特征在于，所述步骤(4)具体包括以下步骤：

(43)异步联邦学习模型训练：定义

是第

辆车的数据，其长度为

d是所有被选择车辆所存数据的总和，即

其中，d_i是车辆V_i ^r存储数据的长度；

最小化全局目标函数F(ω)定义为：

其中，f_i(ω_i)是车辆V_i ^r的本地损失函数：

其中，l_i(x_k；ω_i)是经验本地损失函数，x_k是数据样本，ω_i是车辆的本地模型参数；

采用一种正则化损失函数的基于梯度的更新方法，定义如下：

其中，

是在第r个通信回合的本地参数的本地学习率，且

其中，η_l是本地学习率的初始值；

其中，

是车辆V_i ^r训练的本地模型参数，

是车辆V_i ^r之前的本地模型参数，β为衰减系数；

χ_i是车辆V_i ^r权重聚合的参数：

其中，μ₁+μ₂＝1，

6.根据权利要求5所述的基于异步联邦和深度强化学习的协作边缘缓存方法，其特征在于，所述步骤(5)中预测某个车辆用户的流行内容具体包括以下步骤：

7.根据权利要求6所述的基于异步联邦和深度强化学习的协作边缘缓存方法，其特征在于，所述步骤(6)包括：在获得Fc流行的内容之后，下一个挑战是确定在每个时间段之前，Fc个内容中的哪些内容应该主动缓存在适当的RSU中，在DQN基础上，dueling DQN将action-state值函数Q分解为状态值函数V和动作优势函数A，形成dueling DQN神经网络，状态值函数V与动作无关，动作优势函数A与动作有关，它是在状态s(t)下执行动作a(t)来解决奖励偏差问题的平均回报，动作Q-value函数写成：

Q(s(t),a(t)；θ)＝V(s(t)；θ)+A(s(t),a(t)；θ)

是在时间t，车辆V_i ^r请求内容f的奖励；

λ₁+λ₂+λ₃＝1,λ₁＜λ₂≤λ₃，

是车辆从本地RSU获得请求内容f的奖励；

是车辆从相邻RSU获得请求内容f的奖励；