CN116249162A - 车载边缘网络中基于深度强化学习的协作缓存方法 - Google Patents

车载边缘网络中基于深度强化学习的协作缓存方法 Download PDF

Info

Publication number
CN116249162A
CN116249162A CN202310159612.4A CN202310159612A CN116249162A CN 116249162 A CN116249162 A CN 116249162A CN 202310159612 A CN202310159612 A CN 202310159612A CN 116249162 A CN116249162 A CN 116249162A
Authority
CN
China
Prior art keywords
content
vehicle
vehicles
cluster
roadside
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310159612.4A
Other languages
English (en)
Inventor
吴红海
金继冲
邢玲
马华红
赵东
刘亮
傅慧源
冀保峰
张高远
谢萍
王白冰
程洋博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Science and Technology
Original Assignee
Henan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Science and Technology filed Critical Henan University of Science and Technology
Priority to CN202310159612.4A priority Critical patent/CN116249162A/zh
Publication of CN116249162A publication Critical patent/CN116249162A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/24Connectivity information management, e.g. connectivity discovery or connectivity update
    • H04W40/32Connectivity information management, e.g. connectivity discovery or connectivity update for defining a routing cluster membership
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种车载边缘网络中基于深度强化学习的协作缓存方法,路边单元预测车辆轨迹并将其覆盖范围内的车辆划分为车辆集群,筛选出每个车辆集群中的簇头车辆,由簇头车辆为集群中车辆分配不同流行内容进行预缓存,同时路边单元也进行流行内容预缓存,针对每种通信情况分别计算车辆的内容传输速率,每当协作缓存决策到来时,每个路边单元分别进行一次深度强化学习,得到协作缓存决策,在深度强化学习中,设置状态为当前缓存内容集合,设置动作表示是否需要对当前缓存内容集合中的内容进行替换,奖励函数为缓存内容集合对应的延迟。采用本发明可以降低车辆的内容传输延时,提高缓存命中率。

Description

车载边缘网络中基于深度强化学习的协作缓存方法
技术领域
本发明属于车载边缘网络技术领域,更为具体地讲,涉及一种车载边缘网络中基于深度强化学习的协作缓存方法。
背景技术
随着大量计算资源密集型应用程序和各种内容交付服务的出现,车联网中的数据呈爆炸式增长。数以万计的智能车辆会产生海量的数据和服务请求,包括各种娱乐服务、数据安全与隐私保护等需求。然而,在高度动态的环境中,很难实现长期的车对车和车对基础设施的连接。同时由于有限的通信范围和高移动性导致连接频繁的中断和重建将引入沉重的网络流量开销和内容检索延迟。目前,边缘缓存技术已经成为解决上述问题的一种有效的解决方案,其中车辆获取服务过程的连通性和延迟成为影响用户体验质量的关键因素,为缓存策略的研究带来了阻碍。现有的缓存策略往往存在较高的计算和通信开销,而且不能很好地捕捉车载网络的动态变化。车载边缘网络中缓存策略的制定需要考虑车辆的高移动性,过程中如果忽略了智能车辆间的协作,只能得到局部次最优解。同时,集中式的学习策略大多缺乏有效的协作和对动态网络环境的适应能力,在数据传输过程中会消耗大量的网络资源,还可能会产生一系列的数据隐私和安全问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种车载边缘网络中基于深度强化学习的协作缓存方法,将车载边缘网络中的路边单元和车辆作为缓存节点,构建车辆集群并在集群内进行流行内容预缓存,采用深度强化学习来确定最优的协作缓存策略,从而降低车辆的内容传输延时,提高缓存命中率。
为了实现上述发明目的,本发明车载边缘网络中基于深度强化学习的协作缓存方法包括以下步骤:
S1:记车载边缘网络包含1个云端服务器和N个路边单元,记路边单元集合RSU={S1,S2,…,SN},其中Sn表示第n个路边单元,n=1,2,…,N;记内容索引集合为Y={y1,y2,…,yQ},yq表示第q个内容,q=1,2,…,Q,Q表示车载边缘网络中可请求的内容数量,记内容yq的大小为xq
S2:每个路边单元Sn获取当前其覆盖范围内的车辆集合
Figure BDA0004093708970000024
其中vn,m表示路边单元Sn覆盖范围内第m个车辆,m=1,2,…,Mn,Mn表示路边单元Sn覆盖范围内车辆数量;每个路边单元Sn对其覆盖范围内的车辆进行集群划分,记路边单元Sn划分得到的车辆集群数量为Kn,第k个车辆集群记为An,k
S3:路边单元Sn获取车辆集群An,k的车辆拓扑图topn,k,根据车辆拓扑图topn,k获取车辆集群An,k中所有车辆之间可能的路径集合Sn,k,对于车辆集群An,k中的车辆vn,k,p,p=1,2,…,|An,k|,|An,k|表示车辆集群An,k中车辆数量,获取车辆vn,k,p在车辆拓扑图topn,k的度数dn,k,p,以及路径集合Sn,k中通过车辆vn,k,p的路径集合sn,k,p,然后采用如下公式计算得到车辆vn,k,p的桥接中心度bn,k,p
Figure BDA0004093708970000021
其中,|sn,k,p|、|Sn,k|分别表示路径集合sn,k,p和路径集合Sn,k中的路径数量;
然后筛选车辆集群An,k中桥接中心度最大的车辆作为簇头车辆,筛选出桥接中心度大于预设阈值的车辆作为协作车辆;
S4:每个集群中的簇头车辆从内容索引集合Y中筛选出流行内容,然后为集群中协作车辆分配不同的流行内容,对流行内容进行预缓存;路边单元从内容索引集合Y中筛选出若干流行内容并进行预缓存;
S5:针对不同通信情况分别计算车辆的内容传输速率:
当车辆vn,m从集群内协作车辆vc处获取内容,其内容传输速率R(vn,m,vc)为:
Figure BDA0004093708970000022
其中,B表示可用带宽,PV表示集群内车辆的发射功率,σ2表示噪声功率,h(vn,m,vc)表示车辆vn,m和协作车辆vc之间的信道增益;
当车辆vn,m从路边单元Sn处获取内容,其内容传输速率R(vn,m,Sn)为:
Figure BDA0004093708970000023
其中,PB表示路边单元Sn的发射功率,h(vn,m,Sn)表示车辆vn,m和路边单元Sn之间的信道增益;
当车辆vn,m从云端服务器处获取内容,其内容传输速率R(vn,m,C)为:
Figure BDA0004093708970000031
其中,PC表示云端服务器的发射功率,h(vn,m,C)表示车辆vn,m和云端服务器之间的信道增益;
当路边单元Sn需要向其他路边单元Sn′处请求内容协作时,路边单元Sn和路边单元Sn′的内容传输速率R(Sn,Sn′)为:
Figure BDA0004093708970000032
其中,PB′表示路边单元Sn′的发射功率,h(Sn,Sn′)表示路边单元Sn和路边单元Sn′之间的信道增益;
S6:每当协作缓存决策到来,每个路边单元Sn分别进行一次深度强化学习,得到协作缓存决策,在深度强化学习中,设置状态s为路边单元和其覆盖范围内车辆的当前缓存内容集合,设置动作a表示是否需要对当前缓存内容集合中的内容进行替换,当a=1,则表示需要进行替换,从未缓存内容中随机选择H个内容,替换当前缓存内容集合中流行度最低的H个内容,当a=0,则表示不需要进行替换;奖励函数R为当前缓存内容集合对应的延迟,采用如下方法进行计算:
对于路边单元Sn覆盖范围内的车辆vn,m,记其当前请求内容集合为wn,m,对于内容yq′∈wn,m,按照车辆自身缓存、集群内协作车辆、所属路边单元Sn、其他路边单元、云端服务器的优先顺序,确定该内容的获取方式,然后按照如下公式计算车辆vn,m获取该内容的奖励rn,m(yq′):
Figure BDA0004093708970000033
其中,e表示自然常数,λ1234表示预设的权重,λ1234=1且0<λ1<λ2≤λ3<λ4
然后如下公式计算奖励函数R:
Figure BDA0004093708970000041
S7:路边单元Sn将步骤S6得到的更新后的请求内容集合发送至每个车辆集群的簇头车辆,簇头车辆从更新后的请求内容集合中筛选出未缓存内容集合,然后从本集群请求内容集合中筛选出流行度值最低的G个待替换内容,从未缓存内容集合中随机筛选流行度值大于待替换内容的未缓存内容对待替换内容进行替换,如果未缓存内容集合中不存在流行度值大于待替换内容的未缓存内容,则保留该待替换内容不进行替换。
本发明车载边缘网络中基于深度强化学习的协作缓存方法,路边单元预测车辆轨迹后将其覆盖范围内的车辆划分为车辆集群,筛选出每个车辆集群中的簇头车辆,由簇头车辆为集群中车辆分配不同流行内容进行预缓存,同时路边单元也进行流行内容预缓存,针对每种通信情况分别计算车辆的内容传输速率,每当协作缓存决策到来时,每个路边单元分别进行一次深度强化学习,得到协作缓存决策,在深度强化学习中,设置状态为当前缓存内容集合,设置动作表示是否需要对当前缓存内容集合中的内容进行替换,奖励函数为缓存内容集合对应的延迟。
本发明具有以下有益效果:
1)本发明考虑车辆移动性,将同一区域内路径、移动方向和速度类似的车辆进行聚类,生成协作集群,选择簇头车辆对集群进行管理,并选择桥接中心度较高的车辆作为协作缓存车辆,提高缓存有效性;
2)本发明以最小化内容传输延时作为目标,采用深度强化学习确定协作缓存决策,从而提高协作缓存决策的有效性。
附图说明
图1是本发明车载边缘网络中基于深度强化学习的协作缓存方法的具体实施方式流程图;
图2是本发明和三种对比方法在不同缓存空间大小下的缓存传输时延对比图;
图3是本发明和三种对比方法的缓存命中率对比图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明车载边缘网络中基于深度强化学习的协作缓存方法的具体实施方式流程图。如图1所示,本发明车载边缘网络中基于联邦的深度强化学习协作缓存方法的具体步骤包括:
S101:获取车载边缘网络信息:
记车载边缘网络包含1个云端服务器和N个路边单元,记路边单元集合RSU={S1,S2,…,SN},其中Sn表示第n个路边单元,n=1,2,…,N。记内容索引集合为Y={y1,y2,…,yQ},yq表示第q个内容,q=1,2,…,Q,Q表示车载边缘网络中可请求的内容数量,记内容yq的大小为xq
S102:车辆集群划分:
每个路边单元Sn获取当前其覆盖范围内的车辆集合Vn={vn,1,vn,2,…,vn,Mn},其中vn,m表示路边单元Sn覆盖范围内第m个车辆,m=1,2,…,Mn,Mn表示路边单元Sn覆盖范围内车辆数量。每个路边单元Sn对其覆盖范围内的车辆进行集群划分,记路边单元Sn划分得到的车辆集群数量为Kn,第k个车辆集群记为An,k
集群划分的具体方法可以根据实际需要确定,本实施例中的集群划分方法为:
预先将车载边缘网络的覆盖区域划分为若干网格,路边单元Sn分别获取其覆盖范围内每个车辆vn,m的移动轨迹,对每个车辆vn,m的移动轨迹按照预设的时间间隔进行采样,确定每个采样时刻车辆vn,m的网格编码,从而得到车辆vn,m的网格轨迹Pn,m={pn,m,t-T+1,pn,m,t-T+2,…,pn,m,t},其中pn,m,t表示车辆vn,m在时刻t的网格编码,T表示网格轨迹长度,根据车辆vn,m的网格轨迹Pm进行轨迹预测得到下一时刻车辆vn,m所在的网格编码pn,m,t+1。路边单元Sn获取每个车辆vn,m在时刻t的移动速度sn,m和移动方向dn,m,然后将(pn,m,t+1,sn,m,dn,m)作为车辆vn,m的行驶特征,对Mn个车辆进行聚类,从而得到Kn个车辆集群。轨迹预测的具体方法可以根据需要选择,本实施例中采用部分匹配预测方法。
S103:簇头车辆筛选:
集群建立后需要一个稳定的簇头节点来维护和管理集群。本发明中使用桥接中心度作为车辆连通性的度量,因为桥接中心度较高的车辆节点可以与其他车辆节点保持相对稳定的关系,所以为了保持缓存内容和缓存节点之间的稳定性,在集群内选择桥接中心度最高的车辆作为簇头车辆,具体方法如下:
路边单元Sn获取车辆集群An,k的车辆拓扑图topn,k,根据车辆拓扑图topn,k获取车辆集群An,k中所有车辆之间可能的路径集合Sn,k,对于车辆集群An,k中的车辆vn,k,p,p=1,2,…,|An,k|,|An,k|表示车辆集群An,k中车辆数量,获取车辆vn,k,p在车辆拓扑图topn,k的度数dn,k,p(即相连的邻居车辆数量,本实施例中邻居车辆为一跳邻居车辆),以及路径集合Sn,k中通过车辆vn,k,p的路径集合sn,k,p,然后采用如下公式计算得到车辆vn,k,p的桥接中心度bn,k,p
Figure BDA0004093708970000061
其中,|sn,k,p|、|Sn,k|分别表示路径集合sn,k,p和路径集合Sn,k中的路径数量。
然后筛选车辆集群An,k中桥接中心度最大的车辆作为簇头车辆,,筛选出桥接中心度大于预设阈值的车辆作为协作车辆。
S104:流行内容预缓存:
每个集群中的簇头车辆从内容索引集合Y中筛选出流行内容,然后为集群中协作车辆分配不同的流行内容,对流行内容进行预缓存。路边单元从内容索引集合Y中筛选出若干流行内容并进行预缓存。
为了更好地筛选流行内容,本实施例中采用基于联邦学习的流行内容筛选方法,其具体方法为:
根据实际需要设置流行内容获取模型。本实施例中流行内容获取模型采用自动编码器(AE)实现,其输入为内容请求数据,输出为内容的流行度值,流行度值越大内容越流行。本实施例中内容请求数据包括内容请求次数向量和请求内容类型,其中内容请求次数向量的获取方法为:将历史时间段划分为若干个子时间段,获取每个子时间段内内容的请求次数,然后将请求次数按照子时间段的顺序排列得到内容请求次数向量。采用上述方法得到的内容请求次数向量可以一定程度反映车辆对内容请求的变化趋势,使得到的流行度值更加准确。
每个路边单元Sn初始化流行内容获取模型,然后将流行内容获取模型下发至其覆盖范围内的各个车辆vn,m,各个车辆vn,m分别采用本地的内容请求数据对流行内容获取模型进行训练,然后将训练完成的流行内容获取模型参数上传至路边单元Sn。自动编码器模型是一种常用的学习模型,其具体训练过程在此不再赘述。各个车辆进行本地训练时的损失函数可以根据需要自行设置,本实施例中采用梯度下降算法进行流行内容获取模型的参数更新。
路边单元Sn对其覆盖范围内所有车辆上传的流行内容获取模型参数进行聚合,得到聚合后的模型参数,再下发至各个车辆进行本地的流行内容获取模型参数更新。经过若干轮车辆本地模型训练和路边单元模型聚合,完成流行内容获取模型的联邦学习。通过联邦学习可以分布式的训练模型减少通信开销。
本实施例中模型参数聚合采用加权平均聚合,其计算公式如下:
Figure BDA0004093708970000071
其中,
Figure BDA0004093708970000072
分别表示第r轮模型参数聚合后和第r-1轮模型参数聚合后的路边单元Sn上流行内容获取模型的参数,/>
Figure BDA0004093708970000073
表示第r轮模型训练时车辆vn,m所使用的本地数据量,/>
Figure BDA0004093708970000074
表示第r轮模型训练时路边单元Sn覆盖范围内所有车辆所使用的数据总量,
Figure BDA0004093708970000075
表示第r轮模型训练时车辆vn,m所得到的流行内容获取模型参数。
每当需要进行流行内容预缓存时,每个集群中的簇头车辆获取该集群车辆的内容请求数据,然后输入至簇头车辆的流行内容获取模型,得到每个内容的流行度值,将内容按照流行度值进行降序排列,选择排列在前的若干个流行内容进行预缓存。路边单元获取该路边单元覆盖范围内车辆的内容请求数据,然后输入至路边单元上的流行内容模型,将内容按照流行度值进行降序排列,选择排列在前的若干个流行内容进行预缓存。
为了避免集群中相邻车辆之间的缓存内容重复,本实施例在进行流行内容分配时,簇头车辆采用一致性哈希算法为集群中协作车辆分配不同的流行内容。一致性哈希算法是分布式存储的一种常用算法,其具体过程在此不再赘述。借助一致性哈希算法,可以提高集群内缓存资源利用率,降低相邻节点之间的缓存冗余。
S105:计算内容传输速率:
在车载边缘网络中,每个车辆都可以通过无线通信与集群内的邻居车辆或者通信范围内的路边单元进行通信。路边单元之间通过光纤通信连接,且都部署了用于计算和缓存的边缘服务器,因此路边单元可以缓存各种内容,来满足车辆用户的内容服务需求。当车辆需要自身未缓存的内容时,车辆首先发送包含所需内容名称的请求,并将其广播给邻居。车辆会寻找附近已缓存请求内容的车辆或路边单元,并建立通信获取内容,否则该车辆所属路边单元会从已缓存该内容的邻居路边单元或者直接从云服务器下载内容为车辆提供服务。因此,每个车辆可能会和集群内车辆、路边单元和云端服务器进行通信,需要针对不同通信情况分别计算车辆的内容传输速率。
当车辆vn,m从集群内协作车辆vc处获取内容,其内容传输速率R(vn,m,vc)为:
Figure BDA0004093708970000081
其中,B表示可用带宽,PV表示集群内车辆的发射功率,σ2表示噪声功率,h(vn,m,vc)表示车辆vn,m和协作车辆vc之间的信道增益。
当车辆vn,m从路边单元Sn处获取内容,其内容传输速率R(vn,m,Sn)为:
Figure BDA0004093708970000082
其中,PB表示路边单元Sn的发射功率,h(vn,m,Sn)表示车辆vn,m和路边单元Sn之间的信道增益。
当车辆vn,m从云端服务器处获取内容,其内容传输速率R(vn,m,C)为:
Figure BDA0004093708970000083
其中,PC表示云端服务器的发射功率,h(vn,m,C)表示车辆vn,m和云端服务器之间的信道增益。
此外,路边单元Sn还可以向其他路边单元请求内容协作,当路边单元Sn需要向其他路边单元Sn′处请求内容协作时,路边单元Sn和路边单元Sn′的内容传输速率R(Sn,Sn′)为:
Figure BDA0004093708970000091
其中,PB′表示路边单元Sn′的发射功率,h(Sn,Sn′)表示路边单元Sn和路边单元Sn′之间的信道增益。
S106:基于深度强化学习进行协作缓存决策:
本发明需要制定最优的协作缓存策略,以最小化内容的总传输延迟。深度强化学习是一种有效的算法,在车载边缘网络中可以使车辆与环境交互并智能地做出决策。本发明中,每当协作缓存决策到来,每个路边单元Sn分别进行一次深度强化学习,得到协作缓存决策,在深度强化学习中,设置状态s为路边单元和其覆盖范围内车辆的当前缓存内容集合,设置动作a表示是否需要对当前缓存内容集合中的内容进行替换,当a=1,则表示需要进行替换,从未缓存内容中随机选择H个内容,替换当前缓存内容集合中流行度最低的H个内容,当a=0,则表示不需要进行替换。奖励函数R为当前缓存内容集合对应的延迟,采用如下方法进行计算:
对于路边单元Sn覆盖范围内的车辆vn,m,记其当前请求内容集合为wn,m,对于内容yq′∈wn,m,按照车辆自身缓存、集群内协作车辆、所属路边单元Sn、其他路边单元、云端服务器的优先顺序,确定该内容的获取方式,然后按照如下公式计算车辆vn,m获取该内容的奖励rn,m(yq′):
Figure BDA0004093708970000092
其中,e表示自然常数,λ1234表示预设的权重,λ1234=1且0<λ1<λ2≤λ3<λ4
然后如下公式计算奖励函数R:
Figure BDA0004093708970000093
由于边缘节点的缓存空间有限,所以本实施例使用DDQN(Double Deep QNetwork,双深度强化学习网络)算法来制定最优的协作缓存策略,通过解耦目标Q值动作的选择和目标Q值的计算这两步,来消除过度估计的问题。也就是说,将下一个状态s′输入到当前的Q网络中,得到动作a′对应的最优目标Q值。然后,通过动作a′和下一个状态s′得到目标Q网络中的目标Q值Qtarget,其具体方法为:
当时刻t的动作at=1时,下一个时刻状态st+1将更改。将路边单元Sn覆盖范围内所有车辆请求的内容合集
Figure BDA0004093708970000101
作为输入。目标Q值的更新如下:
Figure BDA0004093708970000102
其中γ∈[0,1]是折扣系数,用于评估未来奖励的重要性。θt和θ′t分别为当前时刻Q网络Q()和目标Q网络Q′()的参数,Rt+1表示下一时刻状态st+1的奖励函数,at+1表示下一时刻动作,st、at分别表示当前时刻t的状态和动作。
Q网络的目标函数是最小化损失函数L(θt),其表示为:
Figure BDA0004093708970000103
其中,使用Adam梯度下降法来优化损失函数。损失函数的梯度可以描述为:
Figure BDA0004093708970000104
通过以下公式可以将目标Q网络的参数θ′t可以由当前Q网络的最新参数θt定期更新为:
θ′t=ηθ′t-1+(1-η)θt
其中η是预设的学习率。当episode数达到预设最大次数E时,算法将终止。然后,车辆和RSU根据最优协作缓存策略更新缓存的内容,在每辆车得到更新的内容后开始下一轮。
S107:更新内容缓存:
路边单元Sn将步骤S106得到的更新后的请求内容集合发送至每个车辆集群的簇头车辆,簇头车辆从更新后的请求内容集合中筛选出未缓存内容集合,然后从本集群请求内容集合中筛选出流行度值最低的G个待替换内容,从未缓存内容集合中随机筛选流行度值大于待替换内容的未缓存内容对待替换内容进行替换,如果未缓存内容集合中不存在流行度值大于待替换内容的未缓存内容,则保留该待替换内容不进行替换。
为了更好地说明本发明的技术效果,采用具体实例对本发明进行实验验证。本次实验验证中采用两种现有的缓存策略以及随机缓存策略作为对比方法,两种现有的缓存策略分别为:c-ε-greedy(参见文献“SUTTONRS,BARTO AG.Reinforcement learning.anintroduction[J].IEEE Transactions on Neural Networks,1998,9(5):1054—1054.”)和Thomps sampling(汤普森采样,参见文献“L.Cui,X.Su,Z.Ming,Z.Chen,S.Yang,Y.Zhouand W.Xiao,"CREA T:Blockchain-assisted Compression Algorithm of FederatedLearning for Content Caching in Edge Computing,"IEEE J-IoT,doi:10.1109/JIOT.2020.3014370.”)。
图2是本发明和三种对比方法在不同缓存空间大小下的缓存传输时延对比图。如图2所示,在不同的缓存空间大小中本发明在缓存传输时延上均优于三种对比方法,说明了本发明的能够有效降低用户获取内容的平均时延。
图3是本发明和三种对比方法的缓存命中率对比图。如图3所示,在不同的缓存空间大小中本发明在缓存命中率上均优于三种对比方法。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (5)

1.一种车载边缘网络中基于深度强化学习的协作缓存方法,其特征在于,包括以下步骤:
S1:记车载边缘网络包含1个云端服务器和N个路边单元,记路边单元集合RSU={S1,S2,…,SN},其中Sn表示第n个路边单元,n=1,2,…,N;记内容索引集合为Y={y1,y2,…,yQ},yq表示第q个内容,q=1,2,…,Q,Q表示车载边缘网络中可请求的内容数量,记内容yq的大小为xq
S2:每个路边单元Sn获取当前其覆盖范围内的车辆集合
Figure FDA0004093708960000011
其中vn,m表示路边单元Sn覆盖范围内第m个车辆,m=1,2,…,Mn,Mn表示路边单元Sn覆盖范围内车辆数量;每个路边单元Sn对其覆盖范围内的车辆进行集群划分,记路边单元Sn划分得到的车辆集群数量为Kn,第k个车辆集群记为An,k
S3:路边单元Sn获取车辆集群An,k的车辆拓扑图topn,k,根据车辆拓扑图topn,k获取车辆集群An,k中所有车辆之间可能的路径集合Sn,k,对于车辆集群An,k中的车辆vn,k,p,p=1,2,…,|An,k|,|An,k|表示车辆集群An,k中车辆数量,获取车辆vn,k,p在车辆拓扑图topn,k的度数dn,k,p,以及路径集合Sn,k中通过车辆vn,k,p的路径集合sn,k,p,然后采用如下公式计算得到车辆vn,k,p的桥接中心度bn,k,p
Figure FDA0004093708960000012
其中,|sn,k,p|、|Sn,k|分别表示路径集合sn,k,p和路径集合Sn,k中的路径数量;
然后筛选车辆集群An,k中桥接中心度最大的车辆作为簇头车辆,筛选出桥接中心度大于预设阈值的车辆作为协作车辆;
S4:每个集群中的簇头车辆从内容索引集合Y中筛选出流行内容,然后为集群中协作车辆分配不同的流行内容,对流行内容进行预缓存;路边单元从内容索引集合Y中筛选出若干流行内容并进行预缓存;
S5:针对不同通信情况分别计算车辆的内容传输速率:
当车辆vn,m从集群内协作车辆vc处获取内容,其内容传输速率R(vn,m,vc)为:
Figure FDA0004093708960000013
其中,B表示可用带宽,PV表示集群内车辆的发射功率,σ2表示噪声功率,h(vn,m,vc)表示车辆vn,m和协作车辆vc之间的信道增益;
当车辆vn,m从路边单元Sn处获取内容,其内容传输速率R(vn,m,Sn)为:
Figure FDA0004093708960000021
其中,PB表示路边单元Sn的发射功率,h(vn,m,Sn)表示车辆vn,m和路边单元Sn之间的信道增益;
当车辆vn,m从云端服务器处获取内容,其内容传输速率R(vn,m,C)为:
Figure FDA0004093708960000022
其中,PC表示云端服务器的发射功率,h(vn,m,C)表示车辆vn,m和云端服务器之间的信道增益;
当路边单元Sn需要向其他路边单元Sn′处请求内容协作时,路边单元Sn和路边单元Sn′的内容传输速率R(Sn,Sn′)为:
Figure FDA0004093708960000023
其中,PB′表示路边单元Sn′的发射功率,h(Sn,Sn′)表示路边单元Sn和路边单元Sn′之间的信道增益;
S6:每当协作缓存决策到来,每个路边单元Sn分别进行一次深度强化学习,得到协作缓存决策,在深度强化学习中,设置状态s为路边单元和其覆盖范围内车辆的当前缓存内容集合,设置动作a表示是否需要对当前缓存内容集合中的内容进行替换,当a=1,则表示需要进行替换,从未缓存内容中随机选择H个内容,替换当前缓存内容集合中流行度最低的H个内容,当a=0,则表示不需要进行替换;奖励函数R为当前缓存内容集合对应的延迟,采用如下方法进行计算:
对于路边单元Sn覆盖范围内的车辆vn,m,记其当前请求内容集合为wn,m,对于内容yq′∈wn,m,按照车辆自身缓存、集群内协作车辆、所属路边单元Sn、其他路边单元、云端服务器的优先顺序,确定该内容的获取方式,然后按照如下公式计算车辆vn,m获取该内容的奖励rn,m(yq′):
Figure FDA0004093708960000031
其中,λ1234表示预设的权重,λ1234=1且0<λ1<λ2≤λ3<λ4
然后如下公式计算奖励函数R:
Figure FDA0004093708960000032
S7:路边单元Sn将步骤S6得到的更新后的请求内容集合发送至每个车辆集群的簇头车辆,簇头车辆从更新后的请求内容集合中筛选出未缓存内容集合,然后从本集群请求内容集合中筛选出流行度值最低的G个待替换内容,从未缓存内容集合中随机筛选流行度值大于待替换内容的未缓存内容对待替换内容进行替换,如果未缓存内容集合中不存在流行度值大于待替换内容的未缓存内容,则保留该待替换内容不进行替换。
2.根据权利要求1所述的协作缓存方法,其特征在于,所述步骤S2中集群划分的具体方法为:
预先将车载边缘网络的覆盖区域划分为若干网格,路边单元Sn分别获取其覆盖范围内每个车辆vn,m的移动轨迹,对每个车辆vn,m的移动轨迹按照预设的时间间隔进行采样,确定每个采样时刻车辆vn,m的网格编码,从而得到车辆vn,m的网格轨迹Pn,m={pn,m,t-T+1,pn,m,t-T+2,…,pn,m,t},其中pn,m,t表示车辆vn,m在时刻t的网格编码,T表示网格轨迹长度,根据车辆vn,m的网格轨迹Pm进行轨迹预测得到下一时刻车辆vn,m所在的网格编码pn,m,t+1;路边单元Sn获取每个车辆vn,m在时刻t的移动速度sn,m和移动方向dn,m,然后将(pn,m,t+1,sn,m,dn,m)作为车辆vn,m的行驶特征,对Mn个车辆进行聚类,从而得到Kn个车辆集群。
3.根据权利要求1所述的协作缓存方法,其特征在于,所述步骤S4中筛选流行内容是采用基于联邦学习的流行内容筛选方法,其具体方法为:根据实际需要设置流行内容获取模型,其输入为内容请求数据,输出为内容的流行度值;
每个路边单元Sn初始化流行内容获取模型,然后将流行内容获取模型下发至其覆盖范围内的各个车辆vn,m,各个车辆vn,m分别采用本地的内容请求数据对流行内容获取模型进行训练,然后将训练完成的流行内容获取模型参数上传至路边单元Sn
路边单元Sn对其覆盖范围内所有车辆上传的流行内容获取模型参数进行聚合,得到聚合后的模型参数,再下发至各个车辆进行本地的流行内容获取模型参数更新;经过若干轮车辆本地模型训练和路边单元模型聚合,完成流行内容获取模型的联邦学习;
每当需要进行流行内容预缓存时,每个集群中的簇头车辆获取该集群车辆的内容请求数据,然后输入至簇头车辆的流行内容获取模型,得到每个内容的流行度值,将内容按照流行度值进行降序排列,选择排列在前的若干个流行内容进行预缓存;路边单元获取该路边单元覆盖范围内车辆的内容请求数据,然后输入至路边单元上的流行内容模型,将内容按照流行度值进行降序排列,选择排列在前的若干个流行内容进行预缓存。
4.根据权利要求3所述的协作缓存方法,其特征在于,所述内容请求数据包括内容请求次数向量和请求内容类型,其中内容请求次数向量的获取方法为:将历史时间段划分为若干个子时间段,获取每个子时间段内内容的请求次数,然后将请求次数按照子时间段的顺序排列得到内容请求次数向量。
5.根据权利要求1所述的协作缓存方法,其特征在于,所述步骤S4中在进行流行内容分配时,簇头车辆采用一致性哈希算法为集群中协作车辆分配不同的流行内容。
CN202310159612.4A 2023-02-23 2023-02-23 车载边缘网络中基于深度强化学习的协作缓存方法 Pending CN116249162A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310159612.4A CN116249162A (zh) 2023-02-23 2023-02-23 车载边缘网络中基于深度强化学习的协作缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310159612.4A CN116249162A (zh) 2023-02-23 2023-02-23 车载边缘网络中基于深度强化学习的协作缓存方法

Publications (1)

Publication Number Publication Date
CN116249162A true CN116249162A (zh) 2023-06-09

Family

ID=86634630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310159612.4A Pending CN116249162A (zh) 2023-02-23 2023-02-23 车载边缘网络中基于深度强化学习的协作缓存方法

Country Status (1)

Country Link
CN (1) CN116249162A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116761152A (zh) * 2023-08-14 2023-09-15 合肥工业大学 路侧单元边缘缓存放置及内容交付方法
CN117979259A (zh) * 2024-04-01 2024-05-03 华东交通大学 一种移动边缘协作缓存的异步联邦深度学习方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116761152A (zh) * 2023-08-14 2023-09-15 合肥工业大学 路侧单元边缘缓存放置及内容交付方法
CN116761152B (zh) * 2023-08-14 2023-11-03 合肥工业大学 路侧单元边缘缓存放置及内容交付方法
CN117979259A (zh) * 2024-04-01 2024-05-03 华东交通大学 一种移动边缘协作缓存的异步联邦深度学习方法及系统
CN117979259B (zh) * 2024-04-01 2024-06-28 华东交通大学 一种移动边缘协作缓存的异步联邦深度学习方法及系统

Similar Documents

Publication Publication Date Title
CN111031102B (zh) 一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法
Fu et al. Soft actor–critic DRL for live transcoding and streaming in vehicular fog-computing-enabled IoV
CN116249162A (zh) 车载边缘网络中基于深度强化学习的协作缓存方法
CN114143891B (zh) 移动边缘网络中基于fdql的多维资源协同优化方法
CN111741495B (zh) 异构网络中高能效编码缓存内容放置方案设计方法
Wang et al. Learn to compress CSI and allocate resources in vehicular networks
CN109587519B (zh) 基于q学习的异构网络多径视频传输控制系统及方法
CN108834080B (zh) 异构网络中基于多播技术的分布式缓存和用户关联方法
CN116156455A (zh) 一种基于联邦强化学习的车联网边缘内容缓存决策方法
CN113012013B (zh) 一种在车联网中基于深度强化学习的协同边缘缓存方法
CN113158544B (zh) 车载内容中心网络下基于联邦学习的边缘预缓存策略
CN113315978B (zh) 一种基于联邦学习的协作式在线视频边缘缓存方法
CN112954385A (zh) 一种基于控制论和数据驱动的自适应分流决策方法
WO2023159986A1 (zh) 一种分层网络体系结构中的协作缓存方法
CN114374949B (zh) 一种车联网中基于信息新鲜度优化的功率控制机制
CN106230550A (zh) 车联网环境下具有缓存能力的编码传输方法
CN115587266A (zh) 一种空天地一体化互联网智能边缘缓存方法
CN116582860A (zh) 一种基于信息年龄约束的链路资源分配方法
Chen et al. Engineering link utilization in cellular offloading oriented VANETs
CN115714814B (zh) 一种基于多智能体强化学习的边缘缓存替换方法
CN110913239B (zh) 一种精细化的移动边缘计算的视频缓存更新方法
CN116634396A (zh) 基于图注意力的车联网多智能体边缘计算内容缓存决策方法
CN115314944A (zh) 基于移动车辆社会关系感知的车联网协作缓存方法
CN115119233A (zh) 一种分簇的无线通信方法和系统
Wu et al. Federation-based deep reinforcement learning cooperative cache in vehicular edge networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination