CN115297170A - 一种基于异步联邦和深度强化学习的协作边缘缓存方法 - Google Patents

一种基于异步联邦和深度强化学习的协作边缘缓存方法 Download PDF

Info

Publication number
CN115297170A
CN115297170A CN202210680654.8A CN202210680654A CN115297170A CN 115297170 A CN115297170 A CN 115297170A CN 202210680654 A CN202210680654 A CN 202210680654A CN 115297170 A CN115297170 A CN 115297170A
Authority
CN
China
Prior art keywords
vehicle
content
rsu
local
round
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210680654.8A
Other languages
English (en)
Inventor
吴琼
赵宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202210680654.8A priority Critical patent/CN115297170A/zh
Publication of CN115297170A publication Critical patent/CN115297170A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于异步联邦和深度强化学习的协作边缘缓存方法,该方法首先使用异步联邦学习框架进行边缘内容缓存,可以使车辆用户的数据都在本地训练从而降低车辆用户的隐私风险,降低通信成本,适应高度动态的车辆网络环境,其次,使用自动编码器模型预测内容流行度,每个车辆用户使用基于自动编码器的内容流行度预测算法从车辆用户历史请求内容和上下文信息学习数据中潜在的相关性,从而提高每个边缘设备的缓存性能,最后,使用dueling DQN强化学习算法来学习每个边缘设备中车辆用户的请求内容数据,基于自动编码器模型预测出来的内容流行度,dueling DQN可以做出最优的缓存决策,降低车辆平均请求时延和提高每个边缘设备的缓存性能。

Description

一种基于异步联邦和深度强化学习的协作边缘缓存方法
技术领域
本发明涉及属于车联网联邦深度强化学习技术领域,具体涉及一种基于异步联邦和深度强化学习进行车辆边缘缓存方法。
背景技术
自动驾驶车辆支持一系列的车载应用,比如自动巡航、图像识别、多媒体娱乐等等,这些应用需要车载用户通过请求获得所需要的数据、视频和网页等内容,由于车辆具有高速移动的特性,车载用户需要在短时间内获得请求的内容。传统的请求方式是用户首先和基站通信,然后通过接入核心骨干网来访问存放数据的数据中心,之后数据中心再将请求的数据回传给用户。这种请求方式存在端到端延时长、回传带宽受限、低效冗余传输等问题。车辆边缘计算(VEC)的出现可以有效解决这些问题,该技术将数据缓存在与车载用户距离最近的路侧单元(RSU)中,其中,RSU作为边缘服务器提供计算和存储服务,车载用户可以在一跳通信范围内向RSU通信获取所需的内容。这样可以减轻回程网络负担和服务延迟,从而能够提高应用的服务质量(QoS)。
由于边缘服务器的存储能力有限,如何缓存最流行的内容是边缘缓存的主要挑战。传统的缓存方案基于用户的请求来缓存内容,也就是说内容只有被用户请求以后才会被缓存,但是在车辆高速移动的复杂车载环境中,车载用户之前请求的内容会很快过时,内容流行度动态变化,导致传统的基于请求的缓存方案不能满足用户的需求。机器学习(ML)技术能够使得边缘服务器从用户的数据中提取隐藏的特征来有效地预测内容流行度,并缓存预测的流行内容,这样没有被用户请求的内容也会被缓存,从而达到动态管理缓存内容的目的。基于RL框架,网络可以根据车载用户请求的内容信息和每个RSU中的内容流行度,动态、高效地找到最优缓存策略,从而优化内容交付问题。其中,RSU收集大量车载用户的数据,通过训练数据的方式更新模型,并采用收敛的模型来预测内容流行度。但是车载应用中的数据会涉及到个人隐私信息,车载用户间往往不愿意相互分享这些数据,给RSU收集数据造成困难。
联邦学习(FL)可以解决隐私性的挑战。具体来说,每个用户对其本地数据进行训练来更新本地模型,然后RSU聚合每个用户的本地模型来更新全局模型,之后每个用户再采用更新的全局模型来更新本地模型,这样的过程不断迭代直到全局模型收敛。相比较其他ML方法,RSU采用聚合用户的本地模型的方式替代收集用户数据,可以在避免多个用户共享含有隐私信息的数据的同时更新全局模型。RSU需要在聚合前等待所有用户发送更新的模型,如果有用户向RSU延迟传输更新的模型,这种用户称为stragglers,将会增加全局模型的收敛时间。当用户的更新时间超过了最大时间阈值,RSU不得不放弃该用户的模型,甚至RSU接收到的用户模型过少时,RSU不得不放弃已经收到的模型重新开始下一轮次的更新,这些情况可能会导致最终无法得到精确的全局模型。在车载环境中车辆高速移动,车辆会以很快的速度穿过RSU的覆盖范围,一旦车辆驶出覆盖范围车载用户更新的模型就会失效,从而很容易形成stragglers,使得基于同步联邦学习的方法难以得到精确的模型。
发明内容
发明目的:为了克服现有技术的不足,本发明提供一种基于异步联邦和深度强化学习进行车辆边缘缓存方法,该方法解决了上述出现的技术问题。
技术方案:本发明所述的基于异步联邦和深度强化学习进行车辆边缘缓存方法,该方法使用的通信网络架构为:最高层为核心网络和宏基站MBS,中间层包括多个路侧单元RSU,其作为边缘服务器缓存内容,底层包括车辆和车辆请求内容,该方法包括以下步骤:
(1)RSU覆盖范围内包含有多个车辆,计算每轮通信回合中基于车辆速度的运动模型,在所述运动模型中,所有车辆朝着同一个方向行驶,车辆行驶通过不同RSU的覆盖范围时,车辆在当前时刻连接与其通信的RSU后,移交给下一个相邻的RSU;
(2)依据某通信回合中每辆车的信道增益得到在t时刻RSU与其覆盖范围内的移动车辆的无线传输速率,所述移动车辆由MBS提供服务;
(3)车辆获取请求内容,从而得到某通信回合中所有车辆的内容请求时延,并依据所述请求时延描述协作缓存策略问题;
(4)应用异步联邦学习框架来聚合在高度动态的车联网环境下来自每个车辆的本地模型,从而得到全局模型,经过多次迭代训练出高效收敛的全局模型;
(5)利用全局模型对各个车辆用户的流行内容进行预测,并进行聚合比较,得到内容流行度最高的多个内容;
(6)采用dueling DQN解决协作缓存策略问题并确定将流行度最高的多个内容中的哪些内容主动缓存在适当的RSU中。
进一步的,包括:
所述步骤(1)具体包括:
在第r个通信回合,RSU覆盖范围内有Nr个移动车辆
Figure BDA0003698234680000031
假设车辆的到达遵循Poisson分布,其到达率λv;每轮通信回合,车辆的速度服从独立同分布,由集合
Figure BDA0003698234680000032
表示;
考虑速度限制在[Umin,Umax]内的自由驾驶车辆,也就是说,RSU覆盖范围内的车辆Vi r行驶速度受最小或最大速度限制,即
Figure BDA0003698234680000033
假设在第r个通信回合,车辆的速度
Figure BDA0003698234680000034
由截断高斯分布产生:
Figure BDA0003698234680000035
其中,σ2是方差,μ(-∞<μ<+∞)是均值,erf()是高斯误差函数。
进一步的,包括:
步骤(2)具体包括:
在第r轮通信回合,对车辆Vi r的信道增益进行了建模:
Figure BDA0003698234680000036
其中,
Figure BDA0003698234680000037
Figure BDA0003698234680000038
分别代表信道路径损失和路径阴影;
由于在不同通信回合车辆Vi r与RSU的距离不同,车辆将遭受不同的信道损伤,从而在不同时刻以不同的数据传输速率进行传输,因此,在r个通信回合,RSU与其覆盖范围内的移动车辆Vi r之间的无线传输速率定义为
Figure BDA0003698234680000039
Figure BDA00036982346800000310
其中,
Figure BDA00036982346800000311
是车辆Vi r分配的带宽,
Figure BDA00036982346800000312
是车辆Vi r的传输能量,
Figure BDA00036982346800000313
是噪声能量,如果Vi r由MBS提供服务,将在t时刻的无线传输速率定义为
Figure BDA0003698234680000041
Figure BDA0003698234680000042
其中,pT是MBS的传输能量。
进一步的,包括:
所述步骤(3)包括以下步骤:
(31)通过以下三种方式获取车辆请求的内容:首先,车辆从为其服务的本地RSU获取缓存内容;
如果车辆请求的内容缓存在本地的RSU中,则本地RSU直接将内容传递给车辆,让
Figure BDA0003698234680000043
代表在第r轮通信回合,所有车辆从本地RSU获取所有车辆请求内容的时延;
Figure BDA0003698234680000044
其中,Nr是在第r轮通信回合参与内容请求的车辆数,Fi是车辆Vi r请求内容的数目,
Figure BDA0003698234680000045
是一个二进制变量,表示在第r轮通信回合,车辆是否从为其服务的本地RSU获取请求的内容,
Figure BDA0003698234680000046
表示在第r轮通信回合,车辆从本地RSU获取请求的内容,否则,
Figure BDA0003698234680000047
在第r轮通信回合,每个RSU以内容传输时延
Figure BDA0003698234680000048
从本地缓存向车辆传输请求的内容;
Figure BDA0003698234680000049
sf是内容f的大小;
其次,车辆从其他相邻的RSU获取请求的内容;
如果车辆请求的内容没有缓存在本地的RSU,车辆需要从其他相邻的RSU获取请求内容;
在第r轮通信回合,所有车辆从相邻RSU获取请求内容的时延用
Figure BDA00036982346800000410
表示:
Figure BDA00036982346800000411
其中,
Figure BDA0003698234680000051
是一个二进制变量,表示在第r轮通信回合,车辆是否从相邻的RSUs获取请求的内容,
Figure BDA0003698234680000052
表示在第r轮通信回合,车辆可以从相邻的RSUs获取请求的内容,否则,
Figure BDA0003698234680000053
是两个RSUs之间的传输时延:
Figure BDA0003698234680000054
其中,RR-R代表两个RSUs之间的传输速率;
最后,车辆从MBS获取请求内容:如果请求的内容没有缓存在本地RSU和相邻RSUs,车辆需要从MBS获取请求内容;用
Figure BDA0003698234680000055
代表在第r轮通信回合,所有车辆从MBS获得请求内容的时延,有:
Figure BDA0003698234680000056
其中,
Figure BDA0003698234680000057
是一个二进制变量,表示在第r轮通信回合,车辆是否从MBS获取请求的内容,
Figure BDA0003698234680000058
表示在第r轮通信回合,车辆可以从MBS获取请求的内容,否则,
Figure BDA0003698234680000059
在通信回合t,Vi r和MBS之间的传输时延用
Figure BDA00036982346800000510
来表示,有:
Figure BDA00036982346800000511
其中,
Figure BDA00036982346800000512
是Vi r和MBS之间的传输速率;
(32)在第r轮通信回合,对于本地RSU中给定的缓存状态,所有车辆的内容请求时延可以表示为:
Figure BDA00036982346800000513
(33)考虑到RSU有限的存储空间和缓存决策变量的整数特性,协作缓存问题描述如下:
Figure BDA0003698234680000061
Figure BDA0003698234680000062
Figure BDA0003698234680000063
Figure BDA0003698234680000064
约束是为了确保每个RSU中本地缓存的内容量不能超过其最大存储容量。
进一步的,包括:
所述步骤(4)具体包括以下步骤:
(41)选择车辆:在车辆选择的过程中考虑的因素是行驶过程中的车辆在RSU覆盖范围内的停留时间,在第t个通信回合,每一辆连接的车辆在当前RSU覆盖范围内的停留时间如下:
Figure BDA0003698234680000065
其中,Pi r是在第t个通信回合车辆Vi r离RSU入口的距离,Ls是RSUs的覆盖范围大小。
假设每轮通信的平均训练时间和测试时间为Ttraining和Tinference,如果
Figure BDA00036982346800000612
说明这辆车满足参与异步联邦学习的条件,并且被选中进行异步联邦学习模型训练;
(42)全局模型下载:在第r轮通信回合,被选择的车辆参与异步联邦学习模型训练;被选中的车辆从当前的RSU中下载全局模型,每个通信回合RSU都会保存之前通信车辆参与异步联邦学习训练的模型,并在其基础上进行模型更新;
(43)异步联邦学习模型训练:定义
Figure BDA0003698234680000066
为每一轮通信回合中被选择的车辆所存储的数据,Nr为第r个通信回合RSU覆盖范围的车辆总数,
Figure BDA0003698234680000067
是第
Figure BDA0003698234680000068
辆车的数据,其长度为
Figure BDA0003698234680000069
Figure BDA00036982346800000610
d是所有被选择车辆所存数据的总和,即
Figure BDA00036982346800000611
其中,di是车辆Vi r存储数据的长度;
最小化全局目标函数F(ω)定义为:
Figure BDA0003698234680000071
其中,fii)是车辆Vi r的本地损失函数:
Figure BDA0003698234680000072
其中,li(xk;ωi)是经验本地损失函数,xk是数据样本,ωi是车辆的本地模型参数;采用一种正则化损失函数的基于梯度的更新方法,定义如下:
Figure BDA0003698234680000073
其中,ρ是正则化参数,ωr是第r轮通信回合全局模型参数,ωi是车辆Vi r的本地模型参数,使用随机梯度下降来进行优化:
Figure BDA0003698234680000074
其中,
Figure BDA0003698234680000075
是在第r个通信回合的本地参数的本地学习率,且
Figure BDA0003698234680000076
其中,ηl是本地学习率的初始值;
当聚合本地模型时,使用第r个通信回合时,经过聚合Vi r本地模型:
Figure BDA0003698234680000077
其中,
Figure BDA0003698234680000078
是车辆Vi r训练的本地模型参数,
Figure BDA0003698234680000079
是车辆Vi r之前的本地模型参数,β为衰减系数;
(44)上传更新模型:在局部模型训练完成后,把车辆的局部模型从车辆用户上传到RSU服务器;
(45)RSU服务器和车辆进行异步更新,即在r轮通信回合,RSU服务器接收来自车辆Vi r的本地模型,并且通过权重平均更新全局模型,
Figure BDA00036982346800000710
χi是车辆Vi r权重聚合的参数:
Figure BDA0003698234680000081
其中,μ12=1,
Figure BDA0003698234680000082
是第r个通信回合车辆Vi r的位置权重,取决于车辆Vi r的位置;
Figure BDA0003698234680000083
是第r个通信回合车辆Vi r的数据传输权重,取决于车辆Vi r的数据传输率,经过多次迭代更新,训练出一个较为高效收敛的全局模型。
进一步的,包括:
所述步骤(5)中预测某个车辆用户的流行内容具体包括以下步骤:
(51)数据预处理:依据每个连接的车辆用户内容请求历史,建立车辆请求内容评分矩阵X;
(52)数据特征表达:将评分矩阵X作为自动编码器的输入数据,自动编码器发现车辆用户之间、请求内容之间关联性的潜在的特征,考虑到潜在特征与车辆用户信息,分别计算出车辆用户、文件内容的相似性矩阵;
历史请求矩阵的构造:假设当前车辆是活跃的车辆,基于当前车辆用户的相似度矩阵,确定该车辆用户相邻K个的车辆用户,K个被选中的相邻车辆用户的历史请求内容与当前车辆的历史请求内容结合构造一个历史检索矩阵K*
(53)获得相似性:当前车辆用户的历史请求矩阵被称为A*,通过文件相似矩阵来计算A*与K*之间相似性的均值;
(54)内容流行度聚合:选择相似度最高的Fc个内容作为本车辆用户的推荐内容,接着执行预测文件流行度的聚合方法,用以生成流行文件的推荐列表以进行内容缓存,每个连接的车辆用户将他们的推荐列表上传到RSU服务器,RSU服务器接收到推荐列表后,将所有上传列表车辆用户的推荐列表进行聚合比较,选择内容流行度最高的Fc个内容。
进一步的,包括:
所述步骤(6)包括:在获得Fc流行的内容之后,下一个挑战是确定在每个时间段之前,Fc个内容中的哪些内容应该主动缓存在适当的RSU中,在DQN基础上,dueling DQN将action-state值函数Q分解为状态值函数V和动作优势函数A,形成dueling DQN神经网络,状态值函数V与动作无关,动作优势函数A与动作有关,它是在状态s(t)下执行动作a(t)来解决奖励偏差问题的平均回报,动作Q-value函数写成:
Q(s(t),a(t);θ)=V(s(t);θ)+A(s(t),a(t);θ)
动作优势通常被设置为单个动作优势函数减去特定状态下所有动作优势函数的平均值,动作Q-value函数计算如下:
Figure BDA0003698234680000091
因此,使用dueling DQN来解决内容缓存问题,状态空间、动作空间和奖励函数描述如下:
状态空间s(t):状态空间s(t)被定义为s(t)=(s1,s2,...,sc),在这里s(t)代表本地RSU缓存的具体内容,c是RSU的缓存容量;
动作空间a(t):动作空间代表是否需要替换RSU中的缓存内容,那些没有缓存在本地RSU的流行内容服从集合κ,如果a(t)=1,将从集合κ中随机选择k(k<c)内容并且交换缓存在本地RSU的索引最低的k个内容,然后再基于内容流行度对状态空间的内容索引进行降序排序,得到s(t+1),这样一来可以确保在时间t,在本地RSU中被替换的内容是最不流行的内容,a(t)=0代表在本地RSU缓存的内容不会被替换;
奖励函数r(t):当本地RSU缓存状态是s(t),执行完动作a(t)后将获得奖励函数r(t);为了最小化总的内容请求时延和系统奖励,设计了奖励函数如下:
Figure BDA0003698234680000092
Figure BDA0003698234680000093
是在时间t,车辆Vi r请求内容f的奖励;
Figure BDA0003698234680000094
λ123=1,λ1<λ2≤λ3
Figure BDA0003698234680000101
是车辆从本地RSU获得请求内容f的奖励;
Figure BDA0003698234680000102
是车辆从相邻RSU获得请求内容f的奖励;
Figure BDA0003698234680000103
是车辆从MBS获得请求内容f的奖励,RSU根据本地内容流行度和车辆的请求内容信息,通过最大化奖励函数r(t)来优化缓存策略π*。
有益效果:本发明与现有技术相比,其显著优点是:1、首先使用异步联邦学习框架进行边缘内容缓存,可以使车辆用户的数据都在本地训练从而降低车辆用户的隐私风险,降低通信成本,适应高度动态的车辆网络环境;2、使用自动编码器模型预测内容流行度。每个车辆用户使用基于自动编码器的内容流行度预测算法从车辆用户历史请求内容和上下文信息学习数据中潜在的相关性,从而提高每个边缘设备的缓存性能;3、使用dueling DQN强化学习算法来学习每个边缘设备中车辆用户的请求内容数据,基于自动编码器模型预测出来的内容流行度,dueling DQN可以做出最优的缓存决策,降低车辆平均请求时延和提高每个边缘设备的缓存性能;4、本发明提出的基于异步联邦和深度强化学习的协作缓存方案(CAFR)极大的提高边缘缓存性能,保护用户隐私,降低车辆平均请求时延,降低通信成本。且实验结果表明,CAFR在高度动态的车辆网络环境中其缓存命中率和车辆平均请求时延优于其他基线缓存方案。
附图说明
图1为本发明所述的缓存方法与其它三种算法在RSU缓存容量为50-400时缓存命中率的比较示意图;
图2为本发明所述的缓存方法以及其它三种算法在RSU缓存容量为50-400时每辆车平均请求时延的比较示意图;
图3为本发明所述的缓存方法在不同车辆密度情况下缓存命中率和每辆车平均请求时延的比较示意图;
图4为本发明所述的缓存方法与典型的同步联邦学习训练(FedAVG)缓存命中率与通信回合的关系图;
图5为本发明所述的缓存方法与FedAVG在每个通信回合的训练时间比较示意图;
图6为本发明所述的缓存方法在基于dueling DQN的缓存替换策略中,每个episode缓存命中率与车辆平均请求时延的关系图;
图7为本发明所述的缓存方法与去除深度强化学习(DRL)后的缓存策略关于缓存命中率的比较示意图;
图8为本发明所述的缓存方法与去除DRL后的缓存策略关于请求时延的比较示意图;
图9为本发明所述的缓存方法使用的架构图。
具体实施方式
下面结合说明书附图和实施例对本发明异步联邦和深度强化学习的协作边缘缓存方案做进一步的详细说明,本发明的实施方式包括但不限于下列实施例。
本发明基于异步联邦和深度强化学习的协作边缘缓存方案,其具体步骤如下:
步骤(1):该方案是一个三层架构,如图9所示,最高层包括核心网络和MBS;中间层包括RSUs,作为边缘服务器缓存内容;底层包括车辆和车辆请求内容。这三层基于异步联邦和深度强化学习框架,车辆从RSU服务器下载的全局模型,使用本地数据计算本地模型,并且发送到RSU,RSU从一个车辆接收到车辆的本地模型后聚合并更新全局模型,而不用等待其他车辆完成模型训练。RSU边缘服务器经过多次迭代训练出一个收敛的全局模型。参与训练的本地车辆所请求过的内容作为全局模型的输入,输出预测的内容流行度。
按照预测的内容流行度进行排序,获取Fc个最流行的内容,接下来是确定在每个时间段之前在适当的边缘设备中主动缓存哪些内容。Dueling DQN网络能够根据车辆请求的内容信息和每个RSU中预测的内容流行度做出最优的缓存决策。但是由于车辆的高度移动性,可能会导致:由于车辆速度较快且RSU覆盖范围有限,车辆可能没有足够的时间进行上述步骤,所以可能需要相邻RSU的协助才能从边缘设备中得到请求的内容,否则要到MBS获取请求内容,这会提高车辆请求时延,增加网络损耗。
因此在基于异步联邦和深度强化学习模型的基础上开发了移动感知高效缓存策略来解决可能会出现的问题。MBS通过对连接车辆的运动特征和在其覆盖范围内RSU缓存内容的了解,动态的更新管理每个RSU的缓存。当车辆从当前的RSU进入到下一个RSU覆盖范围时,MBS将该车辆预测出的流行内容传递到下一个RSU。
步骤(2):考虑了每轮通信回合中的车辆运动模型。在第r个通信回合,RSU覆盖范围内有Nr个移动车辆
Figure BDA0003698234680000111
假设车辆的到达遵循Poisson分布,其到达率λv。每轮通信回合,车辆的速度服从独立同分布,由集合
Figure BDA0003698234680000121
表示。为了表征真实的高速公路环境,考虑速度限制在[Umin,Umax]内的自由驾驶车辆,也就是说,RSU覆盖范围内的车辆Vi r行驶速度受最小或最大速度限制,即
Figure BDA0003698234680000122
假设在第r个通信回合,车辆的速度
Figure BDA0003698234680000123
由截断高斯分布产生:
Figure BDA0003698234680000124
其中σ2是方差,μ(-∞<μ<+∞)是均值,erf()是高斯误差函数。
车辆速度服从截断高斯分布,与普通高斯分布或者是固定值相比,车辆行驶更加的灵活而且更加符合真实的动态车辆网络环境。在我们的模型中,所有车辆朝着同一个方向行驶。由于车辆的移动性,车辆行驶通过不同RSUs的覆盖范围时,车辆在当前时刻连接与其通信的RSU,然后移交给下一个相邻的RSU。
步骤(3):本发明考虑的车辆通信网络基于3GPP C-V2X架构中定义的Mode 4。RSUs通过V2R链路与覆盖范围内的车辆交换信息,MBS通过V2B链路与覆盖范围内的RSUs和车辆交换信息。车辆通信网络中的RSU被认为是一个固定节点,它通过网络边缘的有线链接连接其他的RSUs,从而可以交换不同RSUs中缓存内容的信息。
在第r轮通信回合,我们对车辆Vi r的信道增益进行了建模:
Figure BDA0003698234680000125
其中,
Figure BDA0003698234680000126
Figure BDA0003698234680000127
分别代表信道路径损失和路径阴影。由于在不同通信回合车辆Vi r与RSU的距离不同,车辆将遭受不同的信道损伤,从而在不同时刻以不同的数据传输速率进行传输。因此,在r个通信回合,RSU与其覆盖范围内的移动车辆Vi r之间的无线传输速率定义为
Figure BDA0003698234680000128
Figure BDA0003698234680000129
其中,
Figure BDA0003698234680000131
是车辆Vi r分配的带宽,
Figure BDA0003698234680000132
是车辆Vi r的传输能量,
Figure BDA0003698234680000133
是噪声能量。如果Vi r由MBS提供服务,我们将在t时刻的无线传输速率定义为
Figure BDA0003698234680000134
Figure BDA0003698234680000135
其中,pT是MBS的传输能量。
步骤(4):对于车辆来说有三种方式可以获取请求的内容:
1)车辆从为其服务的本地RSU获取缓存内容。如果车辆请求的内容缓存在本地的RSU中,则本地RSU直接将内容传递给车辆。让
Figure BDA0003698234680000136
代表在第r轮通信回合,所有车辆从本地RSU获取所有车辆请求内容的时延。
Figure BDA0003698234680000137
其中,Nr是在第r轮通信回合参与内容请求的车辆数,Fi是车辆Vi r请求内容的数目,
Figure BDA0003698234680000138
是一个二进制变量,表示在第r轮通信回合,车辆是否从为其服务的本地RSU获取请求的内容,
Figure BDA0003698234680000139
表示在第r轮通信回合,车辆可以从本地RSU获取请求的内容,否则,
Figure BDA00036982346800001310
在第r轮通信回合,每个RSU以内容传输时延
Figure BDA00036982346800001311
从本地缓存向车辆传输请求的内容。
Figure BDA00036982346800001312
sf是内容f的大小。
2)车辆从其他相邻的RSU获取请求的内容。如果车辆请求的内容没有缓存在本地的RSU,车辆需要从其他相邻的RSU获取请求内容。在第r轮通信回合,所有车辆从相邻RSU获取请求内容的时延用
Figure BDA00036982346800001313
表示:
Figure BDA00036982346800001314
其中,
Figure BDA00036982346800001315
是一个二进制变量,表示在第r轮通信回合,车辆是否从相邻的RSUs获取请求的内容,
Figure BDA0003698234680000141
表示在第r轮通信回合,车辆可以从相邻的RSUs获取请求的内容,否则,
Figure BDA0003698234680000142
是两个RSUs之间的传输时延:
Figure BDA0003698234680000143
其中,RR-R代表两个RSUs之间的传输速率。
3)车辆从MBS获取请求内容。如果请求的内容没有缓存在本地RSU和相邻RSUs,车辆需要从MBS获取请求内容。用
Figure BDA0003698234680000144
代表在第r轮通信回合,所有车辆从MBS获得请求内容的时延,有:
Figure BDA0003698234680000145
其中,
Figure BDA0003698234680000146
是一个二进制变量,表示在第r轮通信回合,车辆是否从MBS获取请求的内容,
Figure BDA0003698234680000147
表示在第r轮通信回合,车辆可以从MBS获取请求的内容,否则,
Figure BDA0003698234680000148
在通信回合t,Vi r和MBS之间的传输时延用
Figure BDA0003698234680000149
来表示,有:
Figure BDA00036982346800001410
其中,
Figure BDA00036982346800001411
是Vi r和MBS之间的传输速率。
在第r轮通信回合,对于本地RSU中给定的缓存状态,所有车辆的内容请求时延可以表示为:
Figure BDA00036982346800001412
目标是找到最佳的缓存策略π*,以实现最小化网络中的内容请求时延的目标。因此,考虑到RSU有限的存储空间和缓存决策变量的整数特性,协作缓存问题描述如下:
Figure BDA00036982346800001413
Figure BDA00036982346800001414
Figure BDA0003698234680000151
Figure BDA0003698234680000152
约束是为了确保每个RSU中本地缓存的内容量不能超过其最大存储容量,这提高了每个RSU中本地缓存内容的多样性。
在我们讨论的协作缓存网络中,缓存命中率被认为是评估网络性能的一个很好的指标。每个RSU的缓存命中率计算如下:
Figure BDA0003698234680000153
缓存命中率表示从为车辆提供服务的RSU的本地缓存中获取车辆请求内容的概率。
步骤(5):我们在RSU中,应用异步联邦学习框架来聚合在高度动态的车联网环境下,来自每个车辆的本地模型,从而得到全局模型,经过多次迭代训练出的全局模型被用来预测移动感知缓存方案的内容流行度。我们设计的异步联邦学习方案具体如下:
1)选择车辆:因为RSU的覆盖范围有限以及高速公路上的车辆都具有较高的速度,所以可能会存在一些车辆在穿过当前RSU时,由于停留时间过短而不能完成异步联邦学习训练,这种情况的产生会导致在RSU中异步联邦学习训练出来低效率的全局模型,从而使得缓存性能低下。在每个RSU服务器中对高质量的车辆模型进行更新聚合可以训练一个更加精确的全局模型,被选择的车辆会作为一个节点计算本地的数据用来更新全局模型。
在车辆选择的过程中主要考虑的因素是行驶过程中的车辆在RSU覆盖范围内的停留时间,这极大的取决于连接的车辆的位置和速度。在RSU覆盖范围内充足的停留时间可以实现完整训练过程并且训练出来的结果也可以传递到车辆。可以得到在第t个通信回合,每一辆连接的车辆在当前RSU覆盖范围内的停留时间如下:
Figure BDA0003698234680000154
其中Pi r是在第t个通信回合车辆Vi r离RSU入口的距离,Ls是RSUs的覆盖范围大小。
假设每轮通信的平均训练时间和测试时间为Ttraining和Tinference,这取决于数据集的大小和深度学习模型。如果
Figure BDA0003698234680000155
说明这辆车满足参与异步联邦学习(FL)的条件,并且被选中进行异步FL训练。
2)全局模型下载:在第r轮通信回合,被选择的车辆参与异步联邦学习训练。被选中的车辆从当前的RSU中下载全局模型,具体来说,下载全局模型的参数。每个通信回合RSU都会保存之前通信车辆参与FL训练的模型,并在其基础上进行模型更新。使用先前的模型可以提高模型训练的效率并且可以节约训练时间。
3)异步联邦学习模型训练:定义
Figure BDA0003698234680000161
为每一轮通信回合中被选择的车辆所存储的数据。Nr为第r个通信回合RSU覆盖范围的车辆总数,
Figure BDA0003698234680000162
是第
Figure BDA0003698234680000163
辆车的数据,其长度为
Figure BDA0003698234680000164
Figure BDA0003698234680000165
d是所有被选择车辆所存数据的总和,即
Figure BDA0003698234680000166
其中di是车辆Vi r存储数据的长度。
类似于同步FL,我们所提出的异步FL的目标也是最小化全局目标函数F(ω):
Figure BDA0003698234680000167
其中fii)是车辆Vi r的本地损失函数:
Figure BDA0003698234680000168
li(xk;ωi)是经验本地损失函数,其中xk是数据样本,ωi是车辆的本地模型参数。为了减小车辆本地模型与全局模型的偏差,从而提高异步联邦学习算法的收敛性,采用一种正则化损失函数的基于梯度的更新方法,定义如下:
Figure BDA0003698234680000169
其中,ρ是正则化参数,ωr是第r轮通信回合全局模型参数,ωi是车辆Vi r的本地模型参数。我们使用随机梯度下降(SGD)来进行优化:
Figure BDA00036982346800001610
其中,
Figure BDA00036982346800001611
是在第r个通信回合的本地参数的本地学习率:
Figure BDA00036982346800001612
其中,ηl是本地学习率的初始值。在异步FL中,在之前几个通信回合中没有传输的本地梯度会被聚合到当前通信回合的本地梯度中。这种在前几轮中没有传输的本地梯度称为延迟的本地梯度,具有这种延迟的本地梯度的设备被称为stragglers,它们会对模型收敛产生不利影响,因为用于计算延迟的本地梯度的参数与用于计算当前本地梯度的本地参数不同。为了解决这个问题,我们需要平衡之前本地梯度和当前的本地梯度。当聚合本地模型时,我们使用β作为衰减系数。第r个通信回合时,经过聚合Vi r本地模型:
Figure BDA0003698234680000171
其中,
Figure BDA0003698234680000172
是车辆Vi r训练的本地模型参数,
Figure BDA0003698234680000173
是车辆Vi r之前的本地模型参数。
4)上传更新模型:在局部模型训练完成后,车辆的局部模型从车辆用户上传到RSU服务器。将每个车辆用户的本地模型而不是本地数据上传到RSU服务器,这极大地保护了车辆用户的隐私,并降低了车辆网络中的通信成本。
5)异步聚合:RSU服务器和车辆进行异步更新,换句话说,只要RSU服务器接收到本地模型,服务器就会立即更新全局模型。因此RSU服务器和车辆可以在异步的情况下随时进行模型更新,这对处于异构条件的车辆用户十分适用。具体来说,在r轮通信回合,RSU服务器接收来自车辆Vi r的本地模型,并且通过权重平均更新全局模型,表达如下:
Figure BDA0003698234680000174
考虑到车辆的移动性和V2R(vehicle to RSU)的传输速率,我们改进了全局参数聚合的权重。然后,我们可以将聚合方法重写为:
Figure BDA0003698234680000175
χi是车辆Vi r权重聚合的参数:
Figure BDA0003698234680000176
其中μ12=1,
Figure BDA0003698234680000177
是第r个通信回合车辆Vi r的位置权重,取决于车辆Vi r的位置;
Figure BDA0003698234680000181
是第r个通信回合车辆Vi r的数据传输权重,取决于车辆Vi r的数据传输率。
经过多次迭代更新,训练出一个较为高效收敛的全局模型,每个RSU服务器利用所训练出来的全局模型预测内容流行度。
步骤(6):自动编码器能够将数据中潜在的相关性在这个转换链中挖掘出来,并作为模型中可训练的参数集被保存下来,可用来预测内容流行度。我们使用自动编码器提取车辆和文件的特征来计算相似性。基于请求活跃的车辆的请求内容和其他K个相邻车辆的请求内容生成流行内容,K个相邻车辆的请求内容代表在该RSU覆盖范围下大部分车辆可能会请求的内容。计算车辆用户之间的相似性是因为相邻车辆用户请求的历史内容也在一定程度上反应当前车辆用户偏好。当知道车辆用户请求的历史内容和相邻车辆请求的历史内容,依据车辆用户之间的相似性和请求内容间的相似性生成该车辆用户推荐的流行的内容,换句话说,主要依据对内容感兴趣的程度和车辆用户个人信息来预测内容流行度。预测某个车辆用户的流行内容的过程,执行以下五个步骤具体如下:
1)数据预处理:依据每个连接的车辆用户内容请求历史,建立车辆请求内容评分矩阵X。车辆对内容的评分代表对内容偏好程度。与此同时,车辆用户的个人信息,比如性别,年龄也被考虑在其中。
2)数据特征表达:将评分矩阵X作为自动编码器的输入数据,自动编码器发现车辆用户之间、请求内容之间关联性的潜在的特征,考虑到潜在特征与车辆用户信息,分别计算出车辆用户、文件内容的相似性矩阵。相似性矩阵可以反映出两两特征之间的相关性,车辆的相似性矩阵和文件的相似性矩阵分别代表每个车辆,每个文件之间的距离。
3)历史请求矩阵的构造:我们假设当前车辆是活跃的车辆。基于当前车辆用户的相似度矩阵,确定该车辆用户相邻K个的车辆用户,K个被选中的相邻车辆用户的历史请求内容与当前车辆的历史请求内容结合构造一个历史检索矩阵K*
4)获得相似性:当前车辆用户的历史请求矩阵被称为A*。通过文件相似矩阵来计算A*与K*之间相似性的均值。
5)内容流行度聚合:选择相似度最高的Fc个内容作为本车辆用户的推荐内容,接着执行预测文件流行度的聚合方法,用以生成流行文件的推荐列表以进行内容缓存。每个连接的车辆用户将他们的推荐列表上传到RSU服务器。RSU服务器接收到推荐列表后,将所有上传列表车辆用户的推荐列表进行聚合比较,选择内容流行度最高的Fc个内容。
步骤(7):在获得Fc流行的内容之后,下一个挑战是确定在每个时间段之前,Fc个内容中的哪些内容应该主动缓存在适当的RSU中。我们使用dueling DQN来解决内容缓存问题。在DQN基础上,dueling DQN将action-state值函数Q分解为状态值函数V和动作优势函数A,形成dueling DQN神经网络。状态值函数V与动作无关,动作优势函数A与动作有关,它是在状态s(t)下执行动作a(t)来解决奖励偏差问题的平均回报。动作Q-value函数改写成:
Q(s(t),a(t);θ)=V(s(t);θ)+A(s(t),a(t);θ) (24)
事实上,动作优势通常被设置为单个动作优势函数减去特定状态下所有动作优势函数的平均值。动作Q-value函数计算如下:
Figure BDA0003698234680000191
这样可以保证在这种状态下每个动作的主导功能相对不变。该方法的优点是它减小了Q-value范围并消除了多余的自由度,从而提高了算法的稳定性。因此,我们使用dueling DQN来解决内容缓存问题。状态空间、动作空间和奖励函数描述如下:
1)状态空间s(t):状态空间s(t)被定义为s(t)=(s1,s2,...,sc),在这里s(t)代表本地RSU缓存的具体内容,c是RSU的缓存容量。我们根据内容流行度对状态空间中的内容索引进行降序排序,这可以降低低频内容索引出现在状态空间中的频率。
2)动作空间a(t):动作空间代表是否需要替换RSU中的缓存内容。那些没有缓存在本地RSU的流行内容服从集合κ。如果a(t)=1,将从κ中随机选择k(k<c)内容并且交换缓存在本地RSU的索引最低的k个内容,然后再基于内容流行度对状态空间的内容索引进行降序排序,得到s(t+1),这样一来可以确保在时间t,在本地RSU中被替换的内容是最不流行的内容。a(t)=0代表在本地RSU缓存的内容不会被替换。
3)奖励函数r(t):当本地RSU缓存状态是s(t),执行完动作a(t)后将获得奖励函数r(t)。为了最小化总的内容请求时延和系统奖励,我们设计了奖励函数如下:
Figure BDA0003698234680000192
Figure BDA0003698234680000201
是在时间t,车辆Vi r请求内容f的奖励。
Figure BDA0003698234680000202
λ123=1,λ1<λ2≤λ3
Figure BDA0003698234680000203
是车辆从本地RSU获得请求内容f的奖励;
Figure BDA0003698234680000204
是车辆从相邻RSU获得请求内容f的奖励;
Figure BDA0003698234680000205
是车辆从MBS获得请求内容f的奖励。RSU根据本地内容流行度和车辆的请求内容信息,通过最大化奖励函数r(t)来优化缓存策略π*。
其中,基于异步联邦学习的内容预测算法和基于dueling DQN内容缓存放置算法伪代码如下所示:
Figure BDA0003698234680000206
Figure BDA0003698234680000211
Figure BDA0003698234680000212
对本发明所述的缓存方法做了仿真实验,结果如下:图1描述了RSU缓存容量从50到400个内容的缓存命中率。random算法提供了一个最坏的缓存命中率。随着缓存容量的增加,所有算法的缓存命中率都随之增加。我们提出的算法都优于其他的缓存算法。因为Random和Thompson Sampling算法不会从车辆用户过去请求内容中学习,而CAFR和c-ε-greedy通过观察过去的请求内容决定缓存内容。CAFR算法性能优于c-ε-greedy,因为CAFR考虑用户的上下文信息,会从数据中捕捉有用的特征,并将数据聚集在潜在空间中。图2描述了RSU缓存容量从50到400个内容的每个车辆的平均内容请求时延。random算法提供了一个时间最长的内容请求时延。随着缓存容量的增加,所有算法的内容请求时间都随之降低。我们提出的方法的车辆平均内容请求时延比其他缓存算法要低,结合图1,2,可以得出在缓存命中率和请求时延两个性能下,CAFR算法优于其他的缓存算法。
图3展示了在RSU缓存容量为100的条件下,提出的CAFR算法在不同的车辆密度情况下的缓存集中率。由图3可知,随着车辆密度的增加,缓存命中率也随之增加,这是因为随着越来越多的车辆进入到RSU的覆盖范围,这些车辆能够训练更多的数据从而车辆网络有更好的计算能力,所以就会有更准的内容预测。除此以外,随着RSU覆盖范围内车辆密度越来越大,车辆平均请求时延越低,这是因为当车辆密度增加时,缓存命中率随之增加,这就使得更多的车辆直接从RSU获取内容。
图4表示使用MovieLens 1M数据集情况下我们提出的CAFR算法与典型的同步联邦学习训练(FedAVG)缓存命中率与通信轮次的关系。仿真中,15辆车协同参与了一个全局模型训练,结果图显示我们提出的CAFR方法在三十轮通信回合中的缓存命中率都是在22.5%~24%之间波动;FedAVG方法的缓存命中率在三十轮通信回合中的缓存命中率都是在22%~23.5%之间波动。这就表明了CAFR方法比FedAVG要好,这是因为CAFR方法考虑了车辆的移动性(位置和速度)来选择车辆并且聚合本地模型,从而提高了全局模型的准确性。
图5表明当车辆密度为15vehicles/km和每个RSU的缓存能力为100个内容时,CAFR方法和FedAVG方法在每个回合的训练时间。我们可以看到CAFR方法每个回合的训练时间在1s到2s,而FedAVG方法每个回合的训练时间从22s到24s。这表明CAFR方法每个回合训练时间远远小于FedAVG方法,这是因为FedAVG方法在每个回合都需要聚合所有车辆的本地模型,然而CAFR方法只需要聚合一个车辆的本地模型。
图6表明基于dueling DQN的缓存替换策略中,缓存命中率,车辆平均请求时延和episode的关系。在实验中,15辆车基于异步联邦学习协作训练出一个全局模型,在得到预测的内容流行度后,RSU采用dueling DQN的DRL算法来确定哪些内容应该缓存在RSU中。随着episode的提高,缓存命中率逐渐提高,平均车辆请求时延逐渐降低。大约10个回合,缓存命中率和平均车辆请求时延收敛。
图7和图8分别展示了基于dueling DQN的缓存替换策略的有效性,我们分别比较了CAFR和CAFR without DRL的缓存命中率和平均车辆请求时延。如图7所示,CAFR的缓存命中率优于CAFR without DRL。如图8所示,CAFR的平均车辆请求时延少于CAFR withoutDRL。结合图7和图8实验结果表明,提出的基于dueling DQN的缓存替换策略能够进一步提高在高度动态的车联网环境中边缘缓存方案的缓存性能。
本发明申请书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (7)

1.一种基于异步联邦和深度强化学习的协作边缘缓存方法,其特征在于,该方法使用的通信网络架构为:最高层为核心网络和宏基站MBS,中间层包括多个路侧单元RSU,其作为边缘服务器缓存内容,底层包括车辆和车辆请求内容,该方法包括以下步骤:
(1)RSU覆盖范围内包含有多个车辆,计算每轮通信回合中基于车辆速度的运动模型,在所述运动模型中,所有车辆朝着同一个方向行驶,车辆行驶通过不同RSU的覆盖范围时,车辆在当前时刻连接与其通信的RSU后,移交给下一个相邻的RSU;
(2)依据某通信回合中每辆车的信道增益得到在某时刻RSU与其覆盖范围内的移动车辆的无线传输速率,所述移动车辆由MBS提供服务;
(3)车辆获取请求内容,从而得到某通信回合中所有车辆的内容请求时延,并依据所述请求时延描述协作缓存策略问题;
(4)应用异步联邦学习框架来聚合在高度动态的车联网环境下来自每个车辆的本地模型,从而得到全局模型,经过多次迭代训练出高效收敛的全局模型;
(5)利用全局模型对各个车辆用户的流行内容进行预测,并进行聚合比较,得到内容流行度最高的多个内容;
(6)采用dueling DQN解决协作缓存策略问题并确定将流行度最高的多个内容中的哪些内容主动缓存在适当的RSU中。
2.根据权利要求1所述的基于异步联邦和深度强化学习的协作边缘缓存方法,其特征在于,所述步骤(1)具体包括:
在第r个通信回合,RSU覆盖范围内有Nr个移动车辆
Figure FDA0003698234670000011
假设车辆的到达遵循Poisson分布,其到达率λv;每轮通信回合,车辆的速度服从独立同分布,由集合
Figure FDA0003698234670000012
表示;
考虑速度限制在[Umin,Umax]内的自由驾驶车辆,也就是说,RSU覆盖范围内的车辆Vi r行驶速度受最小或最大速度限制,即
Figure FDA0003698234670000013
假设在第r个通信回合,车辆的速度
Figure FDA0003698234670000014
由截断高斯分布产生:
Figure FDA0003698234670000021
其中,σ2是方差,μ(-∞<μ<+∞)是均值,erf()是高斯误差函数。
3.根据权利要求2所述的基于异步联邦和深度强化学习的协作边缘缓存方法,其特征在于,步骤(2)具体包括:
在第r轮通信回合,对车辆Vi r的信道增益进行了建模:
Figure FDA0003698234670000022
其中,
Figure FDA0003698234670000023
Figure FDA0003698234670000024
分别代表信道路径损失和路径阴影;
由于在不同通信回合车辆Vi r与RSU的距离不同,车辆将遭受不同的信道损伤,从而在不同时刻以不同的数据传输速率进行传输,因此,在r个通信回合,RSU与其覆盖范围内的移动车辆Vi r之间的无线传输速率定义为
Figure FDA0003698234670000025
Figure FDA0003698234670000026
其中,
Figure FDA0003698234670000027
是车辆Vi r分配的带宽,
Figure FDA0003698234670000028
是车辆Vi r的传输能量,
Figure FDA0003698234670000029
是噪声能量,如果Vi r由MBS提供服务,将在t时刻的无线传输速率定义为
Figure FDA00036982346700000210
Figure FDA00036982346700000211
其中,pT是MBS的传输能量。
4.根据权利要求3所述的基于异步联邦和深度强化学习的协作边缘缓存方法,其特征在于,所述步骤(3)包括以下步骤:
(31)通过以下三种方式获取车辆请求的内容:首先,车辆从为其服务的本地RSU获取缓存内容;
如果车辆请求的内容缓存在本地的RSU中,则本地RSU直接将内容传递给车辆,让
Figure FDA0003698234670000031
代表在第r轮通信回合,所有车辆从本地RSU获取所有车辆请求内容的时延;
Figure FDA0003698234670000032
其中,Nr是在第r轮通信回合参与内容请求的车辆数,Fi是车辆Vi r请求内容的数目,
Figure FDA0003698234670000033
是一个二进制变量,表示在第r轮通信回合,车辆是否从为其服务的本地RSU获取请求的内容,
Figure FDA0003698234670000034
表示在第r轮通信回合,车辆从本地RSU获取请求的内容,否则,
Figure FDA0003698234670000035
在第r轮通信回合,每个RSU以内容传输时延
Figure FDA0003698234670000036
从本地缓存向车辆传输请求的内容;
Figure FDA0003698234670000037
sf是内容f的大小;
其次,车辆从其他相邻的RSU获取请求的内容;
如果车辆请求的内容没有缓存在本地的RSU,车辆需要从其他相邻的RSU获取请求内容;
在第r轮通信回合,所有车辆从相邻RSU获取请求内容的时延用
Figure FDA0003698234670000038
表示:
Figure FDA0003698234670000039
其中,
Figure FDA00036982346700000310
是一个二进制变量,表示在第r轮通信回合,车辆是否从相邻的RSUs获取请求的内容,
Figure FDA00036982346700000311
表示在第r轮通信回合,车辆可以从相邻的RSUs获取请求的内容,否则,
Figure FDA00036982346700000312
是两个RSUs之间的传输时延:
Figure FDA00036982346700000313
RR-R代表两个RSUs之间的传输速率;
最后,车辆从MBS获取请求内容:如果请求的内容没有缓存在本地RSU和相邻RSUs,车辆需要从MBS获取请求内容;用
Figure FDA00036982346700000314
代表在第r轮通信回合,所有车辆从MBS获得请求内容的时延,有:
Figure FDA0003698234670000041
其中,
Figure FDA0003698234670000042
是一个二进制变量,表示在第r轮通信回合,车辆是否从MBS获取请求的内容,
Figure FDA0003698234670000043
表示在第r轮通信回合,车辆可以从MBS获取请求的内容,否则,
Figure FDA0003698234670000044
在通信回合t,Vi r和MBS之间的传输时延用
Figure FDA0003698234670000045
来表示,有:
Figure FDA0003698234670000046
其中,
Figure FDA0003698234670000047
是Vi r和MBS之间的传输速率;
(32)在第r轮通信回合,对于本地RSU中给定的缓存状态,所有车辆的内容请求时延可以表示为:
Figure FDA0003698234670000048
(33)考虑到RSU有限的存储空间和缓存决策变量的整数特性,协作缓存问题描述如下:
Figure FDA0003698234670000049
Figure FDA00036982346700000410
Figure FDA00036982346700000411
Figure FDA00036982346700000412
约束是为了确保每个RSU中本地缓存的内容量不能超过其最大存储容量。
5.根据权利要求4所述的基于异步联邦和深度强化学习的协作边缘缓存方法,其特征在于,所述步骤(4)具体包括以下步骤:
(41)选择车辆:在车辆选择的过程中考虑的因素是行驶过程中的车辆在RSU覆盖范围内的停留时间,在第t个通信回合,每一辆连接的车辆在当前RSU覆盖范围内的停留时间如下:
Figure FDA0003698234670000051
其中,Pi r是在第t个通信回合车辆Vi r离RSU入口的距离,Ls是RSUs的覆盖范围大小。
假设每轮通信的平均训练时间和测试时间为Ttraining和Tinference,如果
Figure FDA0003698234670000052
说明这辆车满足参与异步联邦学习的条件,并且被选中进行异步联邦学习模型训练;
(42)全局模型下载:在第r轮通信回合,被选择的车辆参与异步联邦学习模型训练;被选中的车辆从当前的RSU中下载全局模型,每个通信回合RSU都会保存之前通信车辆参与异步联邦学习训练的模型,并在其基础上进行模型更新;
(43)异步联邦学习模型训练:定义
Figure FDA0003698234670000053
为每一轮通信回合中被选择的车辆所存储的数据,Nr为第r个通信回合RSU覆盖范围的车辆总数,
Figure FDA0003698234670000054
是第
Figure FDA0003698234670000055
辆车的数据,其长度为
Figure FDA0003698234670000056
Figure FDA0003698234670000057
d是所有被选择车辆所存数据的总和,即
Figure FDA0003698234670000058
其中,di是车辆Vi r存储数据的长度;
最小化全局目标函数F(ω)定义为:
Figure FDA0003698234670000059
其中,fii)是车辆Vi r的本地损失函数:
Figure FDA00036982346700000510
其中,li(xk;ωi)是经验本地损失函数,xk是数据样本,ωi是车辆的本地模型参数;
采用一种正则化损失函数的基于梯度的更新方法,定义如下:
Figure FDA0003698234670000061
其中,ρ是正则化参数,ωr是第r轮通信回合全局模型参数,ωi是车辆Vi r的本地模型参数,使用随机梯度下降来进行优化:
Figure FDA0003698234670000062
其中,
Figure FDA0003698234670000063
是在第r个通信回合的本地参数的本地学习率,且
Figure FDA0003698234670000064
其中,ηl是本地学习率的初始值;
当聚合本地模型时,使用第r个通信回合时,经过聚合Vi r本地模型:
Figure FDA0003698234670000065
其中,
Figure FDA0003698234670000066
是车辆Vi r训练的本地模型参数,
Figure FDA0003698234670000067
是车辆Vi r之前的本地模型参数,β为衰减系数;
(44)上传更新模型:在局部模型训练完成后,把车辆的局部模型从车辆用户上传到RSU服务器;
(45)RSU服务器和车辆进行异步更新,即在r轮通信回合,RSU服务器接收来自车辆Vi r的本地模型,并且通过权重平均更新全局模型,
Figure FDA0003698234670000068
χi是车辆Vi r权重聚合的参数:
Figure FDA0003698234670000069
其中,μ12=1,
Figure FDA00036982346700000610
是第r个通信回合车辆Vi r的位置权重,取决于车辆Vi r的位置;
Figure FDA00036982346700000611
是第r个通信回合车辆Vi r的数据传输权重,取决于车辆Vi r的数据传输率,经过多次迭代更新,训练出一个较为高效收敛的全局模型。
6.根据权利要求5所述的基于异步联邦和深度强化学习的协作边缘缓存方法,其特征在于,所述步骤(5)中预测某个车辆用户的流行内容具体包括以下步骤:
(51)数据预处理:依据每个连接的车辆用户内容请求历史,建立车辆请求内容评分矩阵X;
(52)数据特征表达:将评分矩阵X作为自动编码器的输入数据,自动编码器发现车辆用户之间、请求内容之间关联性的潜在的特征,考虑到潜在特征与车辆用户信息,分别计算出车辆用户、文件内容的相似性矩阵;
历史请求矩阵的构造:假设当前车辆是活跃的车辆,基于当前车辆用户的相似度矩阵,确定该车辆用户相邻K个的车辆用户,K个被选中的相邻车辆用户的历史请求内容与当前车辆的历史请求内容结合构造一个历史检索矩阵K*
(53)获得相似性:当前车辆用户的历史请求矩阵被称为A*,通过文件相似矩阵来计算A*与K*之间相似性的均值;
(54)内容流行度聚合:选择相似度最高的Fc个内容作为本车辆用户的推荐内容,接着执行预测文件流行度的聚合方法,用以生成流行文件的推荐列表以进行内容缓存,每个连接的车辆用户将他们的推荐列表上传到RSU服务器,RSU服务器接收到推荐列表后,将所有上传列表车辆用户的推荐列表进行聚合比较,选择内容流行度最高的Fc个内容。
7.根据权利要求6所述的基于异步联邦和深度强化学习的协作边缘缓存方法,其特征在于,所述步骤(6)包括:在获得Fc流行的内容之后,下一个挑战是确定在每个时间段之前,Fc个内容中的哪些内容应该主动缓存在适当的RSU中,在DQN基础上,dueling DQN将action-state值函数Q分解为状态值函数V和动作优势函数A,形成dueling DQN神经网络,状态值函数V与动作无关,动作优势函数A与动作有关,它是在状态s(t)下执行动作a(t)来解决奖励偏差问题的平均回报,动作Q-value函数写成:
Q(s(t),a(t);θ)=V(s(t);θ)+A(s(t),a(t);θ)
动作优势通常被设置为单个动作优势函数减去特定状态下所有动作优势函数的平均值,动作Q-value函数计算如下:
Figure FDA0003698234670000071
因此,使用dueling DQN来解决内容缓存问题,状态空间、动作空间和奖励函数描述如下:
状态空间s(t):状态空间s(t)被定义为s(t)=(s1,s2,...,sc),在这里s(t)代表本地RSU缓存的具体内容,c是RSU的缓存容量;
动作空间a(t):动作空间代表是否需要替换RSU中的缓存内容,那些没有缓存在本地RSU的流行内容服从集合κ,如果a(t)=1,将从集合κ中随机选择k(k<c)内容并且交换缓存在本地RSU的索引最低的k个内容,然后再基于内容流行度对状态空间的内容索引进行降序排序,得到s(t+1),这样一来可以确保在时间t,在本地RSU中被替换的内容是最不流行的内容,a(t)=0代表在本地RSU缓存的内容不会被替换;
奖励函数r(t):当本地RSU缓存状态是s(t),执行完动作a(t)后将获得奖励函数r(t);为了最小化总的内容请求时延和系统奖励,设计了奖励函数如下:
Figure FDA0003698234670000081
Figure FDA0003698234670000082
是在时间t,车辆Vi r请求内容f的奖励;
Figure FDA0003698234670000083
λ123=1,λ1<λ2≤λ3
Figure FDA0003698234670000084
是车辆从本地RSU获得请求内容f的奖励;
Figure FDA0003698234670000085
是车辆从相邻RSU获得请求内容f的奖励;
Figure FDA0003698234670000086
是车辆从MBS获得请求内容f的奖励,RSU根据本地内容流行度和车辆的请求内容信息,通过最大化奖励函数r(t)来优化缓存策略π*。
CN202210680654.8A 2022-06-16 2022-06-16 一种基于异步联邦和深度强化学习的协作边缘缓存方法 Pending CN115297170A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210680654.8A CN115297170A (zh) 2022-06-16 2022-06-16 一种基于异步联邦和深度强化学习的协作边缘缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210680654.8A CN115297170A (zh) 2022-06-16 2022-06-16 一种基于异步联邦和深度强化学习的协作边缘缓存方法

Publications (1)

Publication Number Publication Date
CN115297170A true CN115297170A (zh) 2022-11-04

Family

ID=83820386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210680654.8A Pending CN115297170A (zh) 2022-06-16 2022-06-16 一种基于异步联邦和深度强化学习的协作边缘缓存方法

Country Status (1)

Country Link
CN (1) CN115297170A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116055489A (zh) * 2023-01-10 2023-05-02 江南大学 一种基于ddpg算法选择车辆的异步联邦优化方法
CN116362345A (zh) * 2023-02-20 2023-06-30 江南大学 基于多智能体强化学习和联邦学习的边缘缓存方法及系统
CN116546429A (zh) * 2023-06-06 2023-08-04 江南大学 一种车联网联邦学习中的车辆选择方法和系统
CN116915781A (zh) * 2023-09-14 2023-10-20 南京邮电大学 一种基于区块链的边缘协作缓存系统及方法
CN117873402A (zh) * 2024-03-07 2024-04-12 南京邮电大学 一种基于异步联邦学习和感知聚类的协作边缘缓存优化方法
CN117979259A (zh) * 2024-04-01 2024-05-03 华东交通大学 一种移动边缘协作缓存的异步联邦深度学习方法及系统
CN117979259B (zh) * 2024-04-01 2024-06-28 华东交通大学 一种移动边缘协作缓存的异步联邦深度学习方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116055489A (zh) * 2023-01-10 2023-05-02 江南大学 一种基于ddpg算法选择车辆的异步联邦优化方法
CN116362345A (zh) * 2023-02-20 2023-06-30 江南大学 基于多智能体强化学习和联邦学习的边缘缓存方法及系统
CN116546429A (zh) * 2023-06-06 2023-08-04 江南大学 一种车联网联邦学习中的车辆选择方法和系统
CN116546429B (zh) * 2023-06-06 2024-01-16 杭州一诺科创信息技术有限公司 一种车联网联邦学习中的车辆选择方法和系统
CN116915781A (zh) * 2023-09-14 2023-10-20 南京邮电大学 一种基于区块链的边缘协作缓存系统及方法
CN116915781B (zh) * 2023-09-14 2023-12-12 南京邮电大学 一种基于区块链的边缘协作缓存系统及方法
CN117873402A (zh) * 2024-03-07 2024-04-12 南京邮电大学 一种基于异步联邦学习和感知聚类的协作边缘缓存优化方法
CN117873402B (zh) * 2024-03-07 2024-05-07 南京邮电大学 一种基于异步联邦学习和感知聚类的协作边缘缓存优化方法
CN117979259A (zh) * 2024-04-01 2024-05-03 华东交通大学 一种移动边缘协作缓存的异步联邦深度学习方法及系统
CN117979259B (zh) * 2024-04-01 2024-06-28 华东交通大学 一种移动边缘协作缓存的异步联邦深度学习方法及系统

Similar Documents

Publication Publication Date Title
CN115297170A (zh) 一种基于异步联邦和深度强化学习的协作边缘缓存方法
Yu et al. Proactive content caching for internet-of-vehicles based on peer-to-peer federated learning
CN111385734B (zh) 一种车联网内容缓存决策优化方法
CN113094982B (zh) 一种基于多智能体深度强化学习的车联网边缘缓存方法
CN112565377B (zh) 车联网中一种面向用户服务体验的内容分级优化缓存方法
CN113283177B (zh) 一种基于异步联邦学习的移动感知缓存方法
CN114143346B (zh) 一种车联网任务卸载和服务缓存的联合优化方法及系统
CN113158544B (zh) 车载内容中心网络下基于联邦学习的边缘预缓存策略
CN116156455A (zh) 一种基于联邦强化学习的车联网边缘内容缓存决策方法
CN111491331B (zh) 一种雾计算网络中基于迁移学习的网络感知自适应缓存方法
WO2023159986A1 (zh) 一种分层网络体系结构中的协作缓存方法
CN114374949B (zh) 一种车联网中基于信息新鲜度优化的功率控制机制
CN113873534A (zh) 一种雾计算中区块链协助的联邦学习主动内容缓存方法
Liu et al. Mobility-aware coded edge caching in vehicular networks with dynamic content popularity
CN115052262A (zh) 一种基于势博弈的车联网计算卸载与功率优化方法
CN113993168B (zh) 一种雾无线接入网中基于多智能体强化学习的协作缓存方法
CN111447506B (zh) 云边环境下基于延迟和成本均衡的流媒体内容放置方法
CN117459112A (zh) 基于图卷积网络的leo卫星网络中的移动边缘缓存方法及设备
CN114979145B (zh) 一种车联网中集成感知、通信与缓存的内容分发方法
Khanal et al. Proactive content caching at self-driving car using federated learning with edge cloud
CN115587266A (zh) 一种空天地一体化互联网智能边缘缓存方法
CN116362345A (zh) 基于多智能体强化学习和联邦学习的边缘缓存方法及系统
CN113766540B (zh) 低时延的网络内容传输方法、装置、电子设备及介质
Lyu et al. Service-driven resource management in vehicular networks based on deep reinforcement learning
CN115484314A (zh) 一种移动边缘计算网络下推荐赋能的边缘缓存优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination