CN114374741B - Mec环境下基于强化学习的动态分组车联网缓存方法 - Google Patents
Mec环境下基于强化学习的动态分组车联网缓存方法 Download PDFInfo
- Publication number
- CN114374741B CN114374741B CN202210038806.4A CN202210038806A CN114374741B CN 114374741 B CN114374741 B CN 114374741B CN 202210038806 A CN202210038806 A CN 202210038806A CN 114374741 B CN114374741 B CN 114374741B
- Authority
- CN
- China
- Prior art keywords
- content
- vehicle
- rsu
- cache
- vehicles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000002787 reinforcement Effects 0.000 title claims abstract description 25
- 238000004891 communication Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 8
- 230000005540 biological transmission Effects 0.000 claims description 51
- 239000003795 chemical substances by application Substances 0.000 claims description 49
- 239000000872 buffer Substances 0.000 claims description 23
- 230000003139 buffering effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims 4
- 230000009471 action Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 241000497429 Obus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/44—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/46—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Mobile Radio Communication Systems (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了MEC环境下基于强化学习的动态分组车联网缓存方法,包括以下步骤:S1:获取待分组的所有车辆信息、路侧单元信息、宏基站信息、核心网、缓存内容信息;S2:确定移动车组缓存池和中心车辆;S3:根据移动车组缓存池、路侧单元和宏基站信息,构建系统内容缓存和交付模型;S4:根据车组内全部车辆获取内容总延迟最小为目标函数,建立基于演员‑评论家框架的多智能体协同边缘缓存模型;S5:通过训练模型得到相应缓存策略,选择系统延时最小的策略进行内容缓存。可解决车辆频繁与路侧基站通信导致基站负载过大,端到端内容获取的延时过长问题。
Description
技术领域
本发明涉及移动边缘计算技术以及车联网领域,特别涉及一种MEC环境下基于强化学习的动态分组车联网缓存方法,尤其涉及到一种动态分组——将不同方向行驶的车辆进行分组形成动态缓存池,结合多智能体强化学习得出最优缓存策略。
背景技术
车联网已经成为5G通信技术下的重要应用场景,通过车辆联网来支持车辆相关应用的执行,这些应用需要稳定的通信环境和低延迟数据传输,这为车联网建设提出了大规模链接、高吞吐量支持的相关需求。为了保证车辆应用执行的安全性和准确性,车联网技术需要“车联万物”的先进移动通信系统来保证信息的及时响应和任务的高效计算。
由于自动驾驶技术对低延时的超高要求,车辆发出内容请求至云端,核心网在将车辆请求内容回传的时延过长,无法满足低时延要求,所以移动边缘计算概念被提出。将基站部署在网络边缘,车辆从边缘计算基站获取内容将很大的减少传输时延。为降低传输时延,将流行内容缓存至位于网络边缘的路侧单元(Road side units,RSU),车辆在获取内容时不用从核心网请求,可有效降低车辆获取内容的时延。但由于RSU的计算能力和存储能力有限,面对越来越复杂且时延要求更低的流行内容,内容缓存与传输的效率问题日益突出,并且受到了社会广泛的关注。
为了降低车辆获取内容的延时,对边缘节点和移动车辆内容缓存策略的研究尤为重要。目前对缓存策略的研究通常考虑通过(Vehicle-to-Vehicle,V2V)和(Vehicle-to-Infrastructure,V2I)的通信方式获取内容,但是由于车辆数量的不断增加,V2V和V2I的通信频率不断增大,而路侧基站的通信带宽和传输能力有限,从而对整个网络的传输带来巨大压力。
发明内容
本发明的目的在于,为了解决网络传输压力导致的时延过高问题,提出一种MEC环境下基于强化学习的动态分组车联网缓存方法,该方法可缓解现有技术中边缘服务器与中心云的传输与存储压力,降低传输时延。
为实现上述目的,本发明采取的技术方案为:
本发明提供的MEC环境下基于强化学习的动态分组车联网缓存方法,包括:
S1:获取待分组所有的车辆信息、路侧单元信息、宏基站信息、核心网和缓存内容信息;
S2:根据获取待分组的所有车辆信息划分车组,确定移动车组缓存池和中心车辆;
S3:根据移动车组缓存池、路侧单元信息和宏基站信息,构建系统架构模型、内容缓存模型和交付模型;
S4:基于所述系统内容缓存和交付模型,根据车组内所有车辆获取内容总延迟最小为目标函数,建立基于演员-评论家框架的多智能体协同边缘缓存模型;
S5:根据模型训练得出相应缓存策略,选择总延迟最小的内容缓存策略进行内容的缓存。
进一步地,步骤S1中待分组的所有车辆信息,包括:
车辆m的位置信息Lm;车辆n的位置信息Ln;车辆之间的通信距离Dv2v;第m辆车的缓存容量cvm;车辆访问本地车载单元内容的延迟dlocal;车辆访问其他车组内任意车载单元内容的延迟dothers;车辆获取本地车载单元内容的传输速度车辆获取组内任意车载单元内容的传输速度/>
进一步地,步骤S1中路侧单元信息,包括:
车辆访问路侧单元内容的延迟dRSU;车辆获取路侧单元内容的传输速度路侧单元的缓存容量crsu。
进一步地,步骤S1中宏基站信息,包括:路侧单元RSU访问宏基站MBS内容延迟dMBS;宏基站MBS内容的传输速度宏基站MBS的缓存容量cmbs;
步骤S1中核心网信息,包括:宏基站MBS访问核心网内容的延迟dcloud;获取核心网内容的传输速度Vcloud;
步骤S1中缓存内容信息,包括:名称f,流行度ρf,大小sf,最大交付时延df。
进一步地,步骤S2中根据获取待分组的所有车辆信息划分车组,包括:
根据所述车辆信息中车辆m、车辆n的位置信息Lm和Ln,车辆之间的通信距离Dv2v,计算车辆m和车辆n之间的距离Dm,n:
其中,a=(Lm纬度-Ln纬度),b=(Lm经度-Ln经度),R表示地球半径,利用上式(1)依此计算车辆m与其他车辆之间的距离,记录与车辆m间通信距离小于Dv2v的车辆数量,将此类车辆合并为一个车组Gi;
所述车组Gi的最大容忍车辆为N,由车组Gi确定车组缓存池Cgroup,缓存池容量Cgroup=cv1+…+cvN;所述车组Gi的中心车辆为车组中缓存能力最大的车辆k,车组内其他车辆记为gi。
进一步地,步骤S3中系统架构模型由一个核心网Cloud、一个宏基站、多个路侧单元和多组双向行驶的车组组成;
在每一个车组内,车辆之间通过V2V通信,每辆车均缓存内容且车辆之间内容共享;
在车组外,车组Gi与车组Gj之间由中心车辆通过Gik2Gjk通信的方式请求或交付内容;其中k表示各自车组的中心车辆。
进一步地,步骤S3系统架构模型中,根据不同路侧单元RSU覆盖范围下的车组,对于不同路侧单元RSU覆盖范围内的车组,假设每个路侧单元RSU覆盖范围内,车组的位置服从泊松分布,且内容f由其大小sf,流行度ρf,最大交付时延df三个特征来描述;
每个宏基站部署有中央控制器用于管理所有的边缘服务器,同样存储相关流行内容;路侧单元具有一定的计算能力和存储能力。
进一步地,步骤S3中,所述内容缓存模型的处理过程包括:
假设所有内容的流行度服从Zipf分布,内容表示为F={1,2,…,F},则车组请求内容f的概率表示为:
其中,ρf表示内容f的流行度,ε表示流行内容请求的系数,该系数越大表明内容重复请求率越高;index表示内容的索引序号;
车组缓存池和路侧单元的缓存情况表示为:
Hj,k={hj,1,hj,2,……,hj,f} (3)
当j≠0,j表示车组G缓存池编号,hj,f表示车组缓存池的缓存情况:
当j=0,j表示路侧单元标识,hj,f表示路侧单元的缓存情况:
由于车组缓存池和路侧单元RSU均有缓存容量限制,缓存内容的总量不得超过车组缓存池的最大容量和路侧单元RSU的最大容量,需满足约束条件:
(6)式中,Cgroupj表示缓存池编号为j的缓存容量;
(7)式中,crsu表示RSU的缓存容量;
如果车组缓存池或路侧单元的缓存空间不足,在确保缓存命中率的前提下,采取的策略为:删除缓存池或路侧单元缓存空间中流行度较低的内容,内容流行度由Zipf分布得到。
进一步地,在步骤S3中,所述内容交付模型的处理过程包括:
如果车组内没有缓存请求车辆所需的内容时,车组内中心车辆k1首先向附近车组G通过Gi,k2Gj,k请求内容,若附近车组G缓存有车辆k1请求的内容,则由被请求车组的中心车辆k2交付请求内容给k1,请求车辆从车组缓存池中获取交付的内容;
若附近车组也没有缓存请求车组所需内容,则由请求车组的中心车辆k1通过V2I向其连接的RSU请求内容,车组Gi的内容访问内容的决策方式用表示:
如果目标车组缓存了请求车组中心车辆km请求的内容则请求车辆km直接从目标车辆kn获得所请求的内容,其传输延迟为:
其中表示车组Gi中心车辆km请求内容/>的大小,/>表示内容传输速度,表示目标车组Gi的缓存池缓存内容变量,dothers表示访问其他车组内任意车载单元内容的延迟,如果内容请求车辆附近车组缓存池中都没有缓存请求的内容,则请求车辆km从其连接的RSU获取所请求内容/>RSU获取内容的决策方式用/>表示:
若RSU缓存了所请求的内容,则直接将请求内容发送给请求车辆km,传输延迟为:
其中表示车组Gi中心车辆km请求内容/>的大小,/>表示内容传输速度,表示目标RSU的缓存情况,dRSU表示访问RSU内容的延迟,如果当前RSU1没有缓存该请求车辆所需内容,则由该RSU1向其附近连接的RSU2发出内容请求,如果被请求RSU2缓存有请求RSU1所需内容,则将请求内容发送给RSU1,然后再由RSU1将内容发送给车组中心车辆km,传输延迟为:
其中表示车组Gi中心车辆km请求内容/>的大小,/>和/>分别表示和/>的内容传输速度,/>表示目标RSU的缓存情况,dRSU表示访问路侧单元RSU内容的延迟,如果当前RSU1附近的其他RSU2均没有缓存请求内容/>则RSU1直接向MBS请求内容。
进一步地,在步骤S4中,所述最小目标函数为:
其中,M表示车组总数,i表示车组序号,表示车辆km直接从目标车辆kn获得所请求内容的传输时延,DRSU表示车辆km直接从本地RSU获取所请求内容的传输时延,表示车辆km从非本地RSU获取请求内容的传输时延。
与现有技术相比,本发明具有如下有益效果:
本发明提供的一种MEC环境下基于强化学习的动态分组车联网缓存方法,可解决车辆频繁与路侧基站通信导致基站负载过大,端到端内容获取延时过长等问题。首先,将不同方向行驶的车辆进行动态分组,形成车组缓存池,将每个缓存池都抽象为一个智能体,在可通信范围内,智能体之间可以相互协作;其次,结合RSU建立内容缓存模型,根据环境的不断变化自适应做出相应内容请求与缓存决策;最后,使用多智能体强化学习方法进行求解,得出最优缓存策略,对系统整体而言,可以最大程度的减少内容分发与请求过程中的时延。
附图说明
图1为本发明实施例提供的MEC环境下基于强化学习的动态分组车联网缓存方法流程图。
图2为本发明实施例提供的MEC环境下基于强化学习的动态分组车联网缓存方法场景图。
图3为本发明实施例提供的基于Actor-Critic框架的多智能体内容缓存架构图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“设置有”、“连接”等,应做广义理解,例如“连接”,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
参照图1所示,本发明提供的MEC环境下基于强化学习的动态分组车联网缓存方法,包括:
S1:获取待分组的所有车辆信息、路侧单元信息、宏基站信息、核心网和缓存内容信息;
S2:根据获取待分组的所有车辆信息划分车组,确定移动的车组缓存池和中心车辆;
S3:根据移动的车组缓存池、路侧单元信息和宏基站信息,构建系统架构模型、内容缓存模型和交付模型;
S4:基于所述系统内容缓存和交付模型,根据车组内所有车辆获取内容总延迟最小为目标函数,建立基于演员-评论家框架的多智能体协同边缘缓存模型;
S5:根据模型训练得出相应缓存策略,选择总延迟最小的内容缓存策略进行内容的缓存。
相关技术中,以移动边缘计算为基础的缓存已成为一种能够缓解未来车联网中冗余流量和内容访问延迟的很有前途的解决方案。MEC服务器部署在路侧单元和车载单元,可以为车辆提供存储空间和计算资源。虽然MEC服务器提供了类似于云计算的服务,但是仍然存在缓存分配的问题。本发明实施例旨在对车辆动态分组的条件下,将不同方向行驶的移动车组、车组缓存池容量、RSU缓存容量以及基站的结构联合建立系统内容缓存和交付模型,使用多智能体强化学习方法进行求解,得出最优缓存策略,以缓解MEC服务器与中心云的传输与存储压力。此方法结合配备MEC能力的RSU以及不同的车组,将车组划分为不同的缓存池,车组之间互相通信,在最大化设备缓存效率的同时,不仅能降低车辆移动性对数据传输的影响和RSU的传输压力,还能降低车辆获取内容的延时。
下面分别对上述各个步骤进行详细的说明。
在步骤S1中,车辆信息包括车辆m的位置Lm;车辆n的位置Ln;车辆之间的通信距离Dv2v;第m辆车的缓存容量cvm;车辆访问本地车载单元内容的延迟dlocal;车辆访问其他车组内任意车载单元内容的延迟dothers;车辆获取本地车载单元内容的传输速度车辆获取组内任意车载单元内容的传输速度/>
在步骤S1中,路侧单元信息包括车辆访问RSU内容的延迟dRSU,车辆获取路侧单元内容的传输速度路侧单元的缓存容量crsu。
在步骤S1中,宏基站信息包括RSU访问MBS内容延迟dMBS;MBS内容的传输速度MBS的缓存容量cmbs。
核心网信息包括MBS访问核心网内容的延迟dcloud;获取核心网内容的传输速度Vcloud。
内容信息包括内容名称f,流行度ρf,大小sf,最大交付时延df。
在步骤S2中,根据获取待分组的所有车辆信息划分车组,具体过程为:
根据所得车辆m、车辆n的位置信息Lm和Ln,车辆之间的通信距离Dv2v,
计算车辆m和车辆n之间的距离Dm,n:
其中,a=(Lm纬度-Ln纬度),b=(Lm经度-Ln经度),R表示地球半径,利用上式(1)依此计算车辆m与其他车辆之间的距离,记录与车辆m间通信距离小于Dv2v的车辆数量,将通信距离小于Dv2v的车辆划分为一个车组Gi;
车组Gi的最多可容纳N辆车,由Gi确定车组缓存池Cgroup,N辆车组成的车组缓存池大小表示为Cgroup=cv1+…+cvN;所述车组Gi的中心车辆为车组中缓存能力最大的车辆k,车组内其他车辆记为gi。
在步骤S3中,系统架构模型由一个核心网Cloud、一个宏基站、多个路侧单元和多组双向行驶的车组构成;
在车组内,车辆之间通过V2V通信,每辆车均可以缓存内容且车辆之间内容共享;在车组外,车组与车组之间由中心车辆通过Gik2Gjk(Group i to Groupj)通信的方式请求或者交付内容。考虑不同区域内容流行度的差异,因此需要考虑不同RSU覆盖范围下的车组,对于不同RSU覆盖范围内的车组,假设每个RSU覆盖范围内,车组位置服从泊松分布,且内容f由内容大小sf,流行度ρf,最大交付时延df三个特征来描述;每个MBS部署有中央控制器用于管理所有的边缘服务器,同样存储相关流行内容;RSU部署边缘计算能力和存储能力。
在步骤S3中,建立内容缓存模型,假设所有内容的流行度服从Zipf分布,内容表示为F={1,2,…,F},所以车组请求内容f的概率表示为:
其中,ρf表示内容f的流行度,ε表示流行内容请求的系数,该系数越大表明内容重复请求率越高;index表示内容的索引序号;车组缓存池和RSU的缓存情况:
Hj,k={hj,1,hj,2,……,hj,f} (3)
当j≠0,j表示车组G缓存池编号,hj,f表示车组缓存池的缓存情况:
当j=0,j表示RSU标识,hj,f表示RSU的缓存情况:
由于车组缓存池和RSU均有缓存容量限制,缓存内容的总量不得超过车组缓存池的最大容量和RSU的最大容量,需满足约束条件:
(6)式中,Cgroupj表示缓存池编号为J的缓存容量;
(7)式中,crsu表示路侧单元RSU的缓存容量;
如果车组缓存池或RSU的缓存空间不足,在确保缓存命中率的前提下,采取的策略是:删除缓存池或RSU缓存空间中流行度较低的内容,内容流行度由Zipf分布得到。
在步骤S3中,建立内容交付模型,如果车组内没有缓存请求车辆所需的内容时,车组内中心车辆k1首先向附近车组通过Gi,k2Gj,k请求内容,若附近车组缓存有中心车辆k1请求的内容,则由被请求车组的中心车辆k2交付请求内容给k1,请求车辆从车组缓存池中获取交付的内容;若附近车组也没有缓存请求车组所需内容,则由请求车组的中心车辆k1通过V2I向其连接的RSU请求内容,车组Gi的内容决策方式用表示:
如果目标车组缓存了请求车组中心车辆km请求的内容则请求车辆km直接从目标车辆kn获得所请求的内容,其传输延迟为:
其中,表示车组Gi中心车辆km请求内容/>的大小,/>表示内容传输速度,表示目标车组Gi的缓存池缓存内容变量,如果内容请求车辆附近车组缓存池中都没有缓存请求的内容,则请求车辆km从其连接的路侧单元RSU获取所请求内容/>若RSU缓存了所请求的内容,则直接将请求内容发送给内容请求车辆km,传输延迟通过公式(10)计算;
如果当前RSU1没有缓存该请求车辆所需内容,则由该RSU1向其附近连接的RSU2发出内容请求,如果被请求RSU2缓存有请求RSU1所需内容,则将请求内容发送给RSU1,然后再由RSU1将内容发送给车组中心车辆km,传输延迟通过公式(11)计算,如果RSU1附近的其他RSU均没有缓存请求内容则直接向MBS请求内容。
其中表示车组Gi中心车辆km请求内容/>的大小,/>表示内容传输速度,表示目标RSU的缓存情况,dRSU表示访问路侧单元RSU内容的延迟,如果当前RSU1没有缓存该请求车辆所需内容,则由该RSU1向其附近连接的RSU2发出内容请求,如果被请求的RSU2缓存有发出请求的RSU1所需内容,则将请求内容发送给RSU1,然后再由RSU1将内容发送给车组中心车辆km,传输延迟为:
其中表示车组Gi中心车辆km请求内容/>的大小,/>和/>分别表示和/>的内容传输速度,/>表示目标RSU的缓存情况,dRSU表示访问路侧单元RSU内容的延迟,如果当前RSU1附近的其他RSU2均没有缓存请求内容/>则RSU1直接向MBS请求内容。
在步骤S4中,所述最小化延迟的目标函数为:
其中,M表示车组总数,i表示车组序号,表示车辆km直接从目标车辆kn获得所请求内容的传输时延,DRSU表示车辆km直接从本地RSU获取所请求内容的传输时延,表示车辆km从非本地RSU获取请求内容的传输时延。
基于演员-评论家框架的协同缓存策略方法如下:
首先,将多智能体强化学习的学习场景设定为车组获取内容的时间最短,并且只考虑自身情况,忽略其他车组对自身环境造成的影响,在该系统下,将每一个动态移动的车组或缓存池定义为一个智能体,智能体之间彼此独立且可以相互协作;其次,每个车组中心车辆所做出的内容请求和内容缓存决策都是基于自身获得内容的时延最小而做出,决策必然导致环境发生改变,从而影响其他智能体获取内容时延;在强化学习中,将上述问题抽象为一个马尔科夫决策过程,该过程包含三个重要的元素,环境状态、智能体动作和奖励;智能体的动作为一个任务中智能体所做出的选择,环境状态是做决策的基础,奖励则是用于评价决策的好坏。
本发明所提出的基于演员-评论家框架的多智能体协同边缘缓存方法抽象为一个部分可观测马尔科夫决策过程;智能体只能观测到自身请求内容、自身缓存情况、周围车组或缓存池情况、以及与自身连接路侧单元的内容缓存情况;智能体可以根据自身的观测结果自主选择内容交付决策、内容请求决策;内容交付决策包括本地RSU传输、异地RSU传输,内容请求决策包括V2V和V2I;智能体采取相应动作之后都会对环境产生影响,从而影响其他智能体的观测结果;本策略的目标是在内容交付过程中最小化车组内车辆请求内容的时延;智能体在一个时隙采取相应动作后获得及时奖励;若内容请求车组不能在最大交付容忍时延内获得请求的内容,系统将给该智能体惩罚奖励;智能体的奖励从某一时刻开始计算智能体获得所有奖励的加权和。
在步骤S5中,最优策略训练过程如下:基于演员-评论家框架的多智能体强化学习建立在部分可观测马尔科夫决策过程的基础之上,每个智能体有自己的策略网络(PolicyNetwork)和价值网络(Value Network),训练方式采用集中式训练,执行方式为分布式执行;通过策略网络可以将智能体的观测映射到有效动作空间;在每一个时隙,智能体根据自身观测结果以及策略选择相应动作,通过价值网络来估计每个智能体的动作值函数Q(S,A),智能体执行策略网络选择的动作之后,将执行的动作以及环境的观测结果发送给Critic评论家网络,从而通过Critic评论家网络训练价值网络模型参数,策略网络通过价值网络的输出训练得到;在本发明中,策略网络通过策略梯度(Policy Gradient)的思想训练,价值网络采用时间差分(Temporal-Difference)的方法进行训练,主网络参数更新采用经验回放(Replay Memory)和目标固定(Fixed Q-target)。
参照图2所示,为移动边缘计算环境下基于多智能体强化学习的动态分组车联网缓存方法场景示意;如图2所示,网络架构由部署在道路上的RSU、装载了车载单元OBU的车辆以及内容提供商(Content providers)的中心网络组成,RSU与MBS通过有线连接,经过动态分组的车辆由车组中心车辆通过V2I与路侧单元通信请求内容,车组中的车辆通过V2V通信。
数据中心有足够的存储容量来缓存所有的内容,每一个RSU和相应的车组缓存池具有固定的缓存容量,且所有RSU都连接到内容提供商的中心服务器,在一个给定的时间段,车辆和车组在不断变化,对于在RSU覆盖的重叠区域的车组可以由任意RSU提供服务。在每一个时间段,车组只能请求一个内容,车辆对不同流行内容有不同的偏好,假设车辆请求的内容流行度服从Zipf分布。当车组向MBS覆盖范围内的本地RSU发送特定内容请求时,本地RSU将首先搜索其缓存空间确保自身请求内容是否缓存于本地。如果在缓存中没有缓存请求的内容,本地路侧单元RSU可以从相邻路侧单元RSU获取,或者通过回程链接直接从MBS下载,然后交付到车组。同时,所有RSU可以根据每个时段车组的请求做出缓存决策。
路侧单元以及车组缓存池的缓存替换过程可以表示为一个马尔科夫决策过程(Markov decision process,MDP),本发明将单智能体MDP扩展为多智能体系统,进一步将MDP推广为马尔科夫博弈过程(Markov game process,MGP),在MGP中,由于智能体之间的相互作用,单个智能体的最优决策不能保证系统的全局最优解。多智能体系统中的主体不仅必须观察自身奖励,而且还必须观察其它智能体的奖励。所有智能体之间都需要做出联合决定,以最大化整个系统的总回报。
MGP的标准形式定义可以由一个元组{Z,D1,…,DN,p,r1,…,rN,γ}来描述,其中N表示智能体的数量;Z表示系统状态空间;Di表示第i个智能体离散动作空间,系统联合动作空间表示为D=D1×···×DN;p表示状态转移概率分布p:Z×D×Z→[0,1],r表示智能体的奖励函数,γ表示折扣因子。
参考图3为基于Actor-Critic框架的多智能体内容缓存架构。考虑N个智能体的部分可观测马尔科夫决策过程,其中包括评论家(Critic)网络V(x)和N个演员(Actor)网络。
Actor:定义为一个寻找缓存策略π={π1,π2,…,πN}的函数,它可以将智能体的观测映射到动作空间A,并且中选择的有效动作。在每一个时间隙t,智能体将根据自己的观测oi和相应的策略πi选择动作ai:ai=πi(oi)。
Critic:定义为评估值函数V(x)的标准,其中x表示所有智能体的观测x={o1,…,oN},在t时间段隙Actor网络选择了at={a1,t,…,aN,t}的动作后,智能体将执行相应的动作,并发送当前观察xt以及来自环境的反馈给评论家(Critic)。反馈包括t时刻的及时奖励rt以及下一个时刻的观测xt+1,进而Critic可以计算时间差分误差:
其中,rt表示当前时刻的及时奖励,γ为折扣因子,V(xt+1)表示t+1时刻的状态值函数,V(xt)表示t时刻的状态值函数。
通过最小均方误差来更新Critic网络,最优状态值函数V*可表示为:
Actor i通过策略梯度进行更新。使用时间差分误差(TD)计算策略梯度,通过最大化J(θ)来寻找最优策略:
其中/>表示函数的梯度,θi表示需要更新的参数,πθ(o,a)表示在观测o下执行动作a的概率;
更新Actor网络和Critic网络。
其中,θActor和θCritic分别表示Actor网络和Critic网络的网络参数,α为学习率。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (8)
1.MEC环境下基于强化学习的动态分组车联网缓存方法,其特征在于,包括:
S1:获取待分组的所有车辆信息、路侧单元信息、宏基站信息、核心网和缓存内容信息;
S2:根据获取待分组的所有车辆信息划分车组,确定移动车组缓存池和中心车辆;
S3:根据移动车组缓存池、路侧单元信息和宏基站信息,构建系统架构模型、内容缓存模型和交付模型;
S4:基于所述内容缓存模型和交付模型,根据车组内所有车辆获取内容总延迟最小为目标函数,建立基于演员-评论家框架的多智能体协同边缘缓存模型;
S5:根据模型训练得出的相应缓存策略,选择总延迟最小的内容缓存策略进行内容缓存;
其中,在步骤S3中,所述交付模型的处理过程包括:
如果车组内没有缓存请求车辆所需内容时,车组内中心车辆k1首先向附近车组G通过Gi,k2Gj,k请求内容,若附近车组G缓存有车辆k1请求的内容,则由被请求车组的中心车辆k2交付请求内容给k1,请求车辆从车组缓存池中获取交付的内容;
若附近车组也没有缓存请求车组所需内容,则由请求车组的中心车辆k1通过V2I向其连接的RSU请求内容,车组G获取内容的决策方式用表示:
如果目标车组缓存了请求车组中心车辆km请求的内容则请求车辆km直接从目标车辆kn获得所请求的内容,其传输延迟为:
其中表示车组G中心车辆km请求内容/>的大小,/>表示请求车辆与目标车辆之间内容传输速度,/>表示目标车组的缓存池缓存内容变量,dxthers表示访问其他车组内任意车载单元内容的延迟,如果内容请求车辆附近车组缓存池中都没有缓存请求的内容,则请求车辆km从其连接的路侧单元RSU获取所请求内容/>RSU获取内容的决策方式用表示:
若RSU缓存了所请求的内容,则直接将请求内容发送给请求车辆km,传输延迟为:
其中表示车组G中心车辆km请求内容/>的大小,/>表示请求车辆与RSU之间内容传输速度,/>表示目标RSU的缓存情况,dRSU表示访问路侧单元RSU内容的延迟,如果当前RSU1没有缓存该请求车辆所需内容,则由该RSU1向其附近连接的RSU2发出内容请求,如果被请求的RSU2缓存有发出请求的RSU1所需内容,则将请求内容发送给RSU1,然后再由RSU1将内容发送给车组中心车辆km,传输延迟为:
其中表示车组Gi中心车辆km请求内容/>的大小,/>表示请求车辆与RSU1之间的内容传输速度;/>表示RSU1与RSU2之间的内容传输速度;/>表示目标RSU的缓存情况,dRSU表示访问路侧单元RSU内容的延迟,如果当前RSU1附近的其他RSU2均没有缓存请求内容/>则RSU1直接向MBS请求内容;
其中,在步骤S4中,所述目标函数为:
其中,M表示车组总数,i表示车组序号,表示车辆km直接从目标车辆kn获得所请求内容的传输时延,DRSU表示车辆km直接从本地RSU获取所请求内容的传输时延,/>表示车辆km从非本地RSU获取请求内容的传输时延。
2.根据权利要求1所述的MEC环境下基于强化学习的动态分组车联网缓存方法,其特征在于,步骤S1中待分组的所有车辆信息,包括:
车辆m的位置Lm;车辆n的位置Ln;车辆之间的通信距离Dv2v;第m辆车的缓存容量cvm;车辆访问本地车载单元内容的延迟dlocal;车辆访问其他车组内任意车载单元内容的延迟dothers;车辆获取本地车载单元内容的传输速度车辆获取组内任意车载单元内容的传输速度/>
3.根据权利要求2所述的MEC环境下基于强化学习的动态分组车联网缓存方法,其特征在于,步骤S1中路侧单元信息,包括:
车辆访问路侧单元内容的延迟dRSU;车辆获取路侧单元内容的传输速度路侧单元的缓存容量crsu。
4.根据权利要求3所述的MEC环境下基于强化学习的动态分组车联网缓存方法,其特征在于,步骤S1中宏基站信息,包括:路侧单元RSU访问宏基站MBS内容延迟dMBS;宏基站MBS内容的传输速度宏基站MBS的缓存容量cmbs;
步骤S1中核心网信息,包括:宏基站MBS访问核心网内容的延迟dcloud;获取核心网内容的传输速度Vcloud;
步骤S1中缓存内容信息,包括:名称f,流行度ρf,大小sf,最大交付时延df。
5.根据权利要求4所述的MEC环境下基于强化学习的动态分组车联网缓存方法,其特征在于,步骤S2中根据获取待分组的所有车辆信息划分车组,包括:
根据车辆m、车辆n的位置信息Lm和Ln,车辆之间的通信距离Dv2v,计算车辆m和车辆n之间的距离Dn,n:
其中,a=(Lm纬度-Ln纬度),b=(Lm经度-Ln经度),R表示地球半径,利用上式(1)依此计算车辆m与其他车辆之间的距离,记录与车辆m间通信距离小于Dv2v的车辆数量,将通信距离小于Dv2v的车辆划分为一个车组G;
所述车组G的最多可容纳N辆车,由G确定车组缓存池Cgroup,N辆车组成的车组缓存池大小表示为Cgroup=cv1+…+cvN;所述车组G的中心车辆为车组中缓存能力最大的车辆k,车组内其他车辆记为g。
6.根据权利要求5所述的MEC环境下基于强化学习的动态分组车联网缓存方法,其特征在于,步骤S3中系统架构模型由一个核心网Cloud、一个宏基站、多个路侧单元和多组双向行驶的车组组成;
在每一个车组内,车辆之间通过V2V通信,每辆车均缓存内容且车辆之间内容共享;
在车组外,车组Gi与车组Gj之间由中心车辆通过Gi,k2Gj,k通信的方式请求或交付内容;其中k表示各自车组的中心车辆。
7.根据权利要求6所述的MEC环境下基于强化学习的动态分组车联网缓存方法,其特征在于,步骤S3的系统架构模型中,对于不同路侧单元,假设每个路侧单元覆盖范围内,车组的位置服从泊松分布,且内容f由内容大小sf,流行度ρf,最大交付时延df三个特征来描述;
每个宏基站部署有中央控制器用于管理所有的边缘服务器,同样存储相关流行内容;路侧单元具有计算能力和存储能力。
8.根据权利要求7所述的MEC环境下基于强化学习的动态分组车联网缓存方法,其特征在于,步骤S3的系统架构模型中,所述内容缓存模型的处理过程包括:
所有内容的流行度服从Zipf分布,内容表示为F={1,2,....,F},所以车组请求内容f的概率表示为:
其中,ρf表示内容f的流行度,ε表示流行内容的请求系数,该系数越大表明内容重复请求率越高;index表示内容的索引序号;
车组缓存池和路侧单元的缓存情况表示为:
Hj,k={hj,1,hj,2,……,hj,f} (3)
当j≠0,j表示车组G缓存池编号,hj,f表示车组缓存池的缓存情况:
当j=0,j表示路侧单元标识,hj,f表示路侧单元的缓存情况:
由于车组缓存池和路侧单元均有缓存容量限制,缓存内容的总量不得超过车组缓存池的最大容量和路侧单元的最大容量,需满足约束条件:
(6)式中,Cgroupj表示缓存池编号为j的缓存容量;
(7)式中,crsu表示RSU的缓存容量;
如果车组缓存池或路侧单元的缓存空间不足,在确保缓存命中率的前提下,采取的策略为:删除缓存池或路侧单元缓存空间中流行度较低的内容,内容流行度由Zipf分布得到。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210038806.4A CN114374741B (zh) | 2022-01-13 | 2022-01-13 | Mec环境下基于强化学习的动态分组车联网缓存方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210038806.4A CN114374741B (zh) | 2022-01-13 | 2022-01-13 | Mec环境下基于强化学习的动态分组车联网缓存方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114374741A CN114374741A (zh) | 2022-04-19 |
CN114374741B true CN114374741B (zh) | 2024-04-19 |
Family
ID=81143165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210038806.4A Active CN114374741B (zh) | 2022-01-13 | 2022-01-13 | Mec环境下基于强化学习的动态分组车联网缓存方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114374741B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114979145B (zh) * | 2022-05-23 | 2023-01-20 | 西安电子科技大学 | 一种车联网中集成感知、通信与缓存的内容分发方法 |
CN114697394B (zh) * | 2022-05-27 | 2022-08-16 | 合肥工业大学 | 基于离散maddpg的边缘缓存决策模型、方法和系统 |
CN115022937B (zh) * | 2022-07-14 | 2022-11-11 | 合肥工业大学 | 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法 |
CN115277845B (zh) * | 2022-07-22 | 2024-07-19 | 南京理工大学 | 基于多智能体近端策略的车联网分布式边缘缓存决策方法 |
CN115314944A (zh) * | 2022-08-10 | 2022-11-08 | 西南科技大学 | 基于移动车辆社会关系感知的车联网协作缓存方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292001A (zh) * | 2020-02-24 | 2020-06-16 | 清华大学深圳国际研究生院 | 基于强化学习的联合决策方法及装置 |
CN112104999A (zh) * | 2020-08-03 | 2020-12-18 | 广东工业大学 | 一种异构边缘车联网内多层缓存方法 |
CN113094982A (zh) * | 2021-03-29 | 2021-07-09 | 天津理工大学 | 一种基于多智能体深度强化学习的车联网边缘缓存方法 |
CN113115368A (zh) * | 2021-04-02 | 2021-07-13 | 南京邮电大学 | 基于深度强化学习的基站缓存替换方法、系统及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11102630B2 (en) * | 2019-10-25 | 2021-08-24 | Telefonaktiebolaget Lm Ericsson (Publ) | Method for service placement in a multi-access/mobile edge computing (MEC) system |
-
2022
- 2022-01-13 CN CN202210038806.4A patent/CN114374741B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111292001A (zh) * | 2020-02-24 | 2020-06-16 | 清华大学深圳国际研究生院 | 基于强化学习的联合决策方法及装置 |
CN112104999A (zh) * | 2020-08-03 | 2020-12-18 | 广东工业大学 | 一种异构边缘车联网内多层缓存方法 |
CN113094982A (zh) * | 2021-03-29 | 2021-07-09 | 天津理工大学 | 一种基于多智能体深度强化学习的车联网边缘缓存方法 |
CN113115368A (zh) * | 2021-04-02 | 2021-07-13 | 南京邮电大学 | 基于深度强化学习的基站缓存替换方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114374741A (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114374741B (zh) | Mec环境下基于强化学习的动态分组车联网缓存方法 | |
CN113094982B (zh) | 一种基于多智能体深度强化学习的车联网边缘缓存方法 | |
CN110213796B (zh) | 一种车联网中的智能资源分配方法 | |
CN111385734B (zh) | 一种车联网内容缓存决策优化方法 | |
US11607971B2 (en) | Method for scheduling multi agent and unmanned electric vehicle battery swap based on internet of vehicles | |
Kumar et al. | Peer-to-peer cooperative caching for data dissemination in urban vehicular communications | |
CN109391681A (zh) | 基于mec的v2x移动性预测与内容缓存卸载方案 | |
CN110312231A (zh) | 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法 | |
Althamary et al. | A survey on multi-agent reinforcement learning methods for vehicular networks | |
CN112995950B (zh) | 一种车联网中基于深度强化学习的资源联合分配方法 | |
CN114979145B (zh) | 一种车联网中集成感知、通信与缓存的内容分发方法 | |
Xu et al. | Distributed online caching for high-definition maps in autonomous driving systems | |
CN112752308B (zh) | 一种基于深度强化学习的移动预测无线边缘缓存方法 | |
CN113055488A (zh) | 多层联邦深度强化学习的车辆边缘协作缓存方法及系统 | |
CN116017348B (zh) | 一种基于5g通信的大数据云计算实时分发运维系统及方法 | |
CN106376041B (zh) | 一种应用elm预测的命名数据网络移动性切换方法 | |
CN114666842B (zh) | 一种基于车辆分簇的协作缓存方法 | |
CN114666843A (zh) | 一种分层网络体系结构中的协作缓存方法 | |
Yu et al. | Mobility-aware proactive edge caching for large files in the internet of vehicles | |
Elsayed et al. | Proactive caching at parked vehicles for social networking | |
Shin et al. | Particle Swarm Optimization Video Streaming Service in Vehicular Ad-Hoc Networks | |
Wu et al. | Federation-based deep reinforcement learning cooperative cache in vehicular edge networks | |
CN116489668A (zh) | 一种基于高空通信平台辅助的边缘计算任务卸载方法 | |
CN115643176A (zh) | 社交车联网去中心化协作缓存方法 | |
CN115904731A (zh) | 一种边缘协作式副本放置方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |