CN113094982A - 一种基于多智能体深度强化学习的车联网边缘缓存方法 - Google Patents

一种基于多智能体深度强化学习的车联网边缘缓存方法 Download PDF

Info

Publication number
CN113094982A
CN113094982A CN202110332326.4A CN202110332326A CN113094982A CN 113094982 A CN113094982 A CN 113094982A CN 202110332326 A CN202110332326 A CN 202110332326A CN 113094982 A CN113094982 A CN 113094982A
Authority
CN
China
Prior art keywords
content
vehicle
rsu
agent
requesting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110332326.4A
Other languages
English (en)
Other versions
CN113094982B (zh
Inventor
张德干
倪辰昊
张婷
杜金玉
张捷
陈露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Technology
Original Assignee
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology filed Critical Tianjin University of Technology
Priority to CN202110332326.4A priority Critical patent/CN113094982B/zh
Publication of CN113094982A publication Critical patent/CN113094982A/zh
Application granted granted Critical
Publication of CN113094982B publication Critical patent/CN113094982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • H04L67/1078Resource delivery mechanisms
    • H04L67/1082Resource delivery mechanisms involving incentive schemes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Computational Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Optimization (AREA)
  • Information Transfer Between Computers (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于多智能体深度强化学习的车联网边缘缓存方法,通过以下步骤实现,第1、系统模型与数学模型的构建;第2、建立基于多智能体的执行者‑评价家结构的协同内容分发的边缘缓存策略。本发明首先采用Zipf分布请求内容,每个智能体根据自己的策略网络及其过程中的噪声选择相应动作并执行,之后判断是否超出缓存,超出则删除流行度较低内容。然后,每个智能体获得环境奖励,获得新的观测空间,并将相应数据放入经验池中。最后,更新每个智能体的目标网络参数。结果表明本方法所提出的车联网边缘缓存方案与其他方法相比,在减少内容内容分发过程中的时延、提高内容命中率和成功率方面有较好的表现。

Description

一种基于多智能体深度强化学习的车联网边缘缓存方法
【技术领域】
本发明属于边缘车辆网络领域,具体涉及一种基于多智能体深度强化学习的车联网边缘缓存方案。
【背景技术】
边缘缓存可以通过在无线访问网络上提供存储功能来减轻对大型回程带宽的需求并减少内容交付延迟。需要指出的是,通过在网络边缘上缓存内容,最多可以减少35%的回程流量。受到边缘节点存储大小的限制,无法在本地缓存所有内容,为了提高对边缘节点的存储空间的利用率,对边缘节点的内容缓存策略进行研究就变得尤为重要。但是,车辆的可变参与和短暂交互增加了边缘缓存系统的操作复杂性,当系统状态空间变大时,难以在可容忍的时间内获得最佳解。车联网的这些固有特性要求通过利用一些有效的解决方案来适应协作边缘缓存。深度强化学习最近在边缘缓存和内容交付方面引起了很多关注,在解决边缘计算和云计算的优化问题中显示出巨大的潜力。因而,将车联网的边缘缓存与深度强化学习算法结合进行研究,在提供低延迟和高可靠性的环境,促进车联网的发展等方面具有重要的理论价值和实际意义。
【发明内容】
本发明的目的是为了解决车联网中数据流量大幅度增长所导致的响应时延过高的问题,提出了基于多智能体深度强化学习的车联网边缘缓存方案。我们建立了一个协同内容分发的车联网边缘缓存方案,车辆之间可以相互协作,有选择的缓存内容,从而最大程度减少内容分发过程中的时延。另外,该方案还考虑了不同路边单元覆盖范围下内容流行的程度可能不同的情况,以及车辆在不同的位置会受到不同的信道损伤的情况。该方案中,车辆可以根据自己对于环境的观察,自主的做出内容访问和缓存决策,使自身奖励最大化。
本发明提供的基于多智能体深度强化学习的车联网边缘缓存方法,主要包括如下关键步骤:
第1、系统模型与数学模型的构建:
第1.1、建立系统模型;
第1.2、建立内容缓存数学模型;
第1.3、建立内容获取数学模型;
第2、建立基于多智能体的执行者-评价家结构的协同内容分发的边缘缓存策略:
第2.1、策略设计;
第2.2、训练分布式执行的多智能体执行者-评价家框架;
第2.3、基于多智能体强化学习的协同内容分发的边缘缓存算法的描述。
步骤第1.1中建立的系统模型由1个宏基站(MBS)、多个路边单元(RSU)和多辆车辆组成;车辆间可以相互通信也可以缓存部分内容,考虑在不同的RSU覆盖范围下的内容具有不同的流行度,因此需要考虑不同的RSU覆盖范围下的车辆,假定各个RSU覆盖范围内的车辆到相应的RSU的位置服从泊松分布,每个内容f都由3个特征来进行描述,其中sf表示内容f的大小,df表示内容f的最大容忍交付时延,ρf表示内容f的流行度;另外,为每个内容分配一个唯一的索引,并在车辆请求内容时将该索引用作内容ID;假定MBS中缓存了所有车辆请求的内容,并在MBS上部署一个中央控制器,充当所有边缘服务器的管理器,存储着交互和同步信息;RSU和车辆都具有边缘缓存能力,减少内容交付过程中的时延。
步骤第1.2中建立内容缓存数学模型的方法如下,
假定所有内容的流行度遵循Zipf分布,内容用集合F={1,2,3,......,F}表示,所以车辆请求内容f的概率表示为:
Figure BDA0002996647680000021
其中,ρf表示内容f的流行度,ε是控制内容相对流行的内容请求系数,该系数越大表示内容重复使用率越高;在该模型中MBS缓存了用户需要的所有内容,并且在MBS中部署有中央控制器,存储着其管理范围内的所有车辆和RSU的缓存内容,用矩阵表示为:
Figure BDA0002996647680000022
其中,
Figure BDA0002996647680000023
j≠0的情况,j表示车辆的编号,
Figure BDA0002996647680000024
表示车辆的缓存情况:
Figure BDA0002996647680000025
j=0的情况,j为标签,
Figure BDA0002996647680000031
表示RSU的缓存情况:
Figure BDA0002996647680000032
当车辆发出内容请求时,如果本地没有缓存则车辆或者接受请求的RSU根据自身缓存的内容自主决策是缓存内容还是保持原状不变;其中RSU用集合R={r1,r2,r3,......,rI}表示,ri覆盖下的车辆用集合
Figure BDA0002996647680000033
表示,车辆
Figure BDA0002996647680000034
的缓存决策用cafi,j表示:
Figure BDA0002996647680000035
另外,由于车辆和RSU具有有限的缓存容量,缓存的内容总量不能超过车辆和RSU的缓存能力,
Figure BDA0002996647680000036
表示车辆缓存容量,
Figure BDA0002996647680000037
表示RSU缓存容量,即满足下述约束条件:
Figure BDA0002996647680000038
其中sf表示内容f的大小,当车辆或者RSU的缓存空间已满时,为了提高内容命中率并减少内容分发过程中的时延,采取的策略是删除已缓存的内容中流行度较低的内容,内容的流行度可以通过Zipf分布得到。
步骤第1.3中建立内容获取数学模型的方法如下:
当车辆请求内容时,先检查自身是否缓存了所请求的内容,如果缓存了则直接从缓存中获得,否则车辆自主做出决策是通过V2V获得内容或通过V2R获得内容,V2V是指通过向周围车辆请求获得内容,V2R是指通过向其连接的RSU请求获得内容,车辆
Figure BDA0002996647680000039
的内容访问方式决策用wvi,j表示:
Figure BDA00029966476800000310
车辆
Figure BDA00029966476800000311
的通信范围为TRi,j,可以通信的车辆用集合
Figure BDA00029966476800000312
表示;目标车辆与内容请求车辆之间数据传输速率为:
Figure BDA00029966476800000313
其中,
Figure BDA00029966476800000314
表示车辆与车辆之间的带宽,
Figure BDA00029966476800000315
表示车辆
Figure BDA00029966476800000316
的发送功率,
Figure BDA00029966476800000317
是车辆与车辆之间的信道增益,
Figure BDA00029966476800000318
是目标车辆
Figure BDA00029966476800000319
与内容请求车辆
Figure BDA00029966476800000320
之间的距离,δ是损耗因子,高斯白噪声功率用符号N0表示,如果目标车辆缓存了内容
Figure BDA0002996647680000041
则请求车辆直接从目标车辆获得所请求的内容,其传输时延为:
Figure BDA0002996647680000042
其中
Figure BDA0002996647680000043
表示请求内容
Figure BDA0002996647680000044
的大小,
Figure BDA0002996647680000045
目标车辆
Figure BDA0002996647680000046
的缓存内容变量,如果内容请求车辆的周围车辆都没有缓存请求的内容,则直接向MBS请求内容,其传输时延为:
Figure BDA0002996647680000047
其中,
Figure BDA0002996647680000048
表示MBS与内容请求车辆
Figure BDA0002996647680000049
之间可达到的数据传输速率;本发明将正交频分多址(OFDMA)用于MBS与车辆之间的无线传输,MBS的信道带宽为
Figure BDA00029966476800000410
可以分为W个正交子载波,与MBS连接的每个车辆被分配一个正交子载波,内容请求车辆
Figure BDA00029966476800000411
通过V2V方式获得内容f的时延表示为:
Figure BDA00029966476800000412
当车辆
Figure BDA00029966476800000413
做出决策通过V2R的方式访问内容
Figure BDA00029966476800000414
时,车辆
Figure BDA00029966476800000415
向其连接的固定位置的RSU请求内容
Figure BDA00029966476800000416
如果RSU缓存了请求内容的副本,则直接将请求内容的副本发送给内容请求车辆
Figure BDA00029966476800000417
如果没有相应内容,则向没有相应内容的RSU周围连接的RSU请求内容
Figure BDA00029966476800000418
如果周围连接的RSU缓存了该请求内容的副本,则将请求内容发送给请求内容的RSU,然后请求内容的RSU再将该请求内容发给内容请求车辆
Figure BDA00029966476800000419
如果周围的RSU都没有缓存请求的内容,则直接向MBS请求内容
Figure BDA00029966476800000420
其传输时延通过公式(12)计算;
RSU缓存了请求内容的情况,车辆在不同的位置到RSU的距离不同,车辆会受到不同的信道损伤,数据传输的速率也会不同;本发明将车辆经过的区域划分为M个具有不同传输速率的区域,在区域m、m=1,...,M中,车辆
Figure BDA00029966476800000421
及其连接的RSU之间的数据传输速率
Figure BDA00029966476800000422
由车辆所在的区域确定,在RSU覆盖范围内的不同移动性区域,RSU到内容请求车辆的数据传输速率不同,RSU覆盖范围内的第m个区域中的内容由
Figure BDA00029966476800000423
表示;
内容请求车辆可以从RSU中获得内容f的所有字节数,那么需要满足:
Figure BDA0002996647680000051
在RSU覆盖范围内的第m+1个区域,车辆
Figure BDA0002996647680000052
从RSU获得内容的时延为:
Figure BDA0002996647680000053
则内容请求车辆从RSU获得内容f的总的时延为:
Figure BDA0002996647680000054
RSU没有缓存车辆请求的内容的情况,RSU向周围连接的RSU请求内容,则请求内容的RSU从拥有相应内容的RSU获得内容的时延为:
Figure BDA0002996647680000055
其中,参数
Figure BDA0002996647680000056
表示从请求内容的RSU到拥有相应内容的RSU数据传输路径的平均带宽,参数
Figure BDA0002996647680000057
表示从RSU到RSU数据传输的最短路径长度亦即跳数;
RSU收到请求内容副本后,发送给内容请求车辆,则内容请求车辆获得请求内容的总的时延为:
Figure BDA0002996647680000058
则,内容请求车辆
Figure BDA0002996647680000059
通过V2R方式获得请求内容的时延表示为:
Figure BDA00029966476800000510
请求内容分发过程中,如果RSU缓存了请求内容则时延置为0,反之如果车辆缓存了请求内容且车辆通过V2V方式获取则时延使用公式(12)计算,如果车辆通过V2R方式获取则时延使用公式(18)计算;当选择时延最小的分发方式时要满足缓存内容总量不能超过车辆和RSU的缓存能力。
步骤第2.1中策略设计的方法如下:
将多智能体强化学习的场景设置为车辆自身获取内容时间最短且不考虑其他车辆,在该系统中,每辆内容请求车辆所作出的内容访问和内容缓存的决策都是基于使自身获得内容的时延最小而做出的,而根据决策作出的动作会造成环境改变,从而会影响其他智能体获得内容的时延;强化学习将问题抽象成一个马尔科夫过程,此过程中最重要的三个元素为状态、动作和回报;动作就是每一个任务中智能体做出的选择,状态是做出选择的基础,回报则是评价这个选择好不好的基础;
本发明提出的基于多智能体的执行者-评价家结构的协同内容分发的边缘缓存策略是基于部分可观测的马尔可夫决策过程的;每个智能体只能观测到自身的请求内容和自身、周围车辆以及与自身连接的RSU的内容缓存情况;每个智能体根据自己的观测结果可以自主的选择是否缓存请求的内容以及获得请求内容的方式;请求内容的方式有两种,通过V2V或V2R的方式;每个智能体采取的动作都会对其他智能体的观测结果产生影响;本策略的目标是使请求的内容在交付过程中内容请求车辆获得内容的时延最小;在该策略中,智能体在时隙采取动作后会获得系统给与即时奖励;如果内容请求车辆不能在最大内容交付时延内获得请求的内容,系统会给与该智能体惩罚;智能体的回报是从某一时刻开始到计算回报时智能体获得的所有奖励的加权和,智能体的回报依赖于从这一时刻开始的所有的动作。
步骤第2.2中训练分布式执行的多智能体执行者-评价家框架的方法如下:
多智能体执行者-评价家框架是基于部分可观测的马尔可夫决策过程的,每个智能体有自己的策略网络,中央控制器有G个价值网络,每个价值网络对应一个智能体,本发明采用的学习算法结构是集中式训练-分布式执行;
通过策略可以将智能体的观测结果映射到有效的动作空间;在每个时隙,智能体会根据自己的观测结果和策略选择合适的动作,价值网络是用来估计每个智能体的状态-动作函数的,每一个智能体执行自己的策略网络选择的动作之后,都会把动作以及从环境的反馈、对当前环境的观测结果和获得的奖励发送给中央控制器,然后在中央控制器上训练价值网络的参数,价值网络的输出会发送给对应的智能体的策略网络,用来训练策略网络的参数;本发明采用策略梯度算法来训练策略网络,采用TD算法训练价值网络,集中式的价值网络的参数更新方法借鉴了DQN中TD与目标网络思想,其他智能体的策略可以采用拟合逼近的方式得到,而不需要通信交互;由于智能体的个数为G个,所以每个智能体维护(G-1)个策略逼近函数,其逼近代价为对数代价函数,并且加上策略的熵,只要最小化代价函数,就能得到其他智能体策略的逼近;在更新目标网络之前,利用经验回放池中一个批次的采样更新策略的函数逼近。
步骤第2.3中基于多智能体强化学习的协同内容分发的边缘缓存算法的描述如下:
步骤1:初始化状态空间,每个智能体的目标策略网络,主价值网络和主策略网络的参数,智能体的个数,智能体的最大缓存容量,内容集合,采样批次大小;
步骤2:初始化一个随机过程以便进行探索,初始化接收的状态空间;
步骤3:按照Zipf分布获得内容的流行度并且按照流行度请求内容;
步骤4:每个智能体根据自己的策略网络以及过程中的噪声选择动作并执行,
步骤5:执行动作后判断缓存的内容是否超出了缓存容量,若超出了,删除缓存区中流行度较低的内容,并获得环境奖励和新的观测空间,将每个智能体的当前状态、执行动作、奖励、下一状态存入到对应的经验回放池中;
步骤6:将新的环境观测空间赋值给原来的观测结果,从经验回放池P中随机选择p条数据,每个智能体根据公式更新策略网络的参数和价值网络的参数,并更新每个智能体的目标网络的参数。
本发明的优点和积极效果
本方案提出了一个基于多智能体深度强化学习的车联网边缘缓存方案来解决车联网中数据流量大幅度增长所导致的响应时延过高的问题。首先方案联合考虑动态环境中的内容分发和缓存,将车联网中的每一辆移动车辆都看成一个智能体,通信范围内的智能体可以相互协作,根据环境变化自适应的做出内容缓存和内容访问决策,最大程度减少内容分发过程中的时延。此外,每一个移动车辆可以根据自己对于环境的观察,自主的做出内容访问和缓存决策,使自身奖励最大化。理想实验结果和实际场景实验结果表明,本方案提出的方法在平均传输时延、系统能耗以及内容覆盖率等方面表现出很好的效果。
【附图说明】
图1是Zipf分布参数ε一定时不同缓存容量下的系统总时延;其中,(a)为ε=0.9时不同缓存容量下的系统总时延,(b)为ε=1.1时不同缓存容量下的系统总时延,(c)为ε=1.3时不同缓存容量下的系统总时延,(d)为ε=1.5时不同缓存容量下的系统总时延;
图2是不同Zipf分布参数ε下的系统总时延;
图3是Zipf分布参数ε一定时不同缓存容量下的内容命中率;其中,(a)为ε=0.9时不同缓存容量下的内容命中率,(b)为ε=1.1时不同缓存容量下的内容命中率,(c)为ε=1.3时不同缓存容量下的内容命中率,(d)为ε=1.5时不同缓存容量下的内容命中率;
图4是不同Zipf分布参数ε下的内容命中率;
图5是Zipf分布参数ε一定时不同缓存容量下的内容获取成功率;其中,(a)为ε=0.9时不同缓存容量下的内容获取成功率,(b)为ε=1.1时不同缓存容量下的内容获取成功率,(c)为ε=1.3时不同缓存容量下的内容获取成功率,(d)为ε=1.5时不同缓存容量下的内容获取成功率;
图6是不同Zipf分布参数ε下的内容获取成功率;
图7是不同Zipf分布参数下的系统平均时延
图8是不同Zipf分布参数下的平均内容命中率
图9是不同Zipf分布参数下的平均内容获取成功率
图10是基于多智能体深度强化学习的车联网边缘缓存方案的流程图。
【具体实施方式】
实施例1
本实施例设计的方法是基于python和tensorflow来构建本方法的仿真实验。性能评估的主要目标是查看本方法在系统总时延、请求内容命中率以及内容获取成功率。将本发明提出的算法ECSMADRL与传统的缓存算法最少频繁使用算法(LFU)、最近最少使用算法(LRU)、先进先出算法(FIFO)以及仅考虑内容缓存的多智能体深度强化学习策略(OCMADRL)进行了比较。
参见附图10,本实施例基于多智能体深度强化学习的车联网边缘缓存方法,主要包括如下关键步骤:
第1、系统模型与数学建模的构建:
第1.1、建立系统模型;
该系统模型由1个宏基站(MBS)、多个路边单元(RSU)和多辆车辆组成;车辆间可以相互通信也可以缓存部分内容,考虑在不同的RSU覆盖范围下的内容具有不同的流行度,因此需要考虑不同的RSU覆盖范围下的车辆,假定各个RSU覆盖范围内的车辆到相应的RSU的位置服从泊松分布,每个内容f都由3个特征来进行描述,其中sf表示内容f的大小,df表示内容f的最大容忍交付时延,ρf表示内容f的流行度;另外,为每个内容分配一个唯一的索引,并在车辆请求内容时将该索引用作内容ID;假定MBS中缓存了所有车辆请求的内容,并在MBS上部署一个中央控制器,充当所有边缘服务器的管理器,存储着交互和同步信息;RSU和车辆都具有边缘缓存能力,减少内容交付过程中的时延。
第1.2、建立内容缓存数学模型,方法如下:
假定所有内容的流行度遵循Zipf分布,内容用集合F={1,2,3,......,F}表示,所以车辆请求内容的概率表示为:
Figure BDA0002996647680000091
其中,ρf表示内容f的流行度,ε是控制内容相对流行的内容请求系数,该系数越大表示内容重复使用率越高;在该模型中MBS缓存了用户需要的所有内容,并且在MBS中部署有中央控制器,存储着其管理范围内的所有车辆和RSU的缓存内容,用矩阵表示为:
Figure BDA0002996647680000092
其中,
Figure BDA0002996647680000093
j≠0的情况,j表示车辆的编号,
Figure BDA0002996647680000094
表示车辆的缓存情况:
Figure BDA0002996647680000095
j=0的情况,j为标签,
Figure BDA0002996647680000096
表示RSU的缓存情况:
Figure BDA0002996647680000097
当车辆发出内容请求时,如果本地没有缓存则车辆或者接受请求的RSU根据自身缓存的内容自主决策是缓存内容还是保持原状不变;其中RSU用集合R={r1,r2,r3,......,rI}表示,ri覆盖下的车辆用集合
Figure BDA0002996647680000098
表示,车辆
Figure BDA0002996647680000099
的缓存决策用cafi,j表示:
Figure BDA00029966476800000910
另外,由于车辆和RSU具有有限的缓存容量,缓存的内容总量不能超过车辆和RSU的缓存能力,
Figure BDA00029966476800000911
表示车辆缓存容量,
Figure BDA00029966476800000912
表示RSU缓存容量,即满足下述约束条件:
Figure BDA00029966476800000913
其中sf表示内容f的大小,当车辆或者RSU的缓存空间已满时,为了提高内容命中率并减少内容分发过程中的时延,采取的策略是删除已缓存的内容中流行度较低的内容,内容的流行度可以通过Zipf分布得到。
第1.3、建立内容获取数学模型,方法如下:
当车辆请求内容时,先检查自身是否缓存了所请求的内容,如果缓存了则直接从缓存中获得,否则车辆自主做出决策是通过V2V获得内容或通过V2R获得内容,V2V是指通过向周围车辆请求获得内容,V2R是指通过向其连接的RSU请求获得内容,车辆
Figure BDA00029966476800001024
的内容访问方式决策用wvi,j表示:
Figure BDA0002996647680000101
车辆
Figure BDA0002996647680000102
的通信范围为TRi,j,可以通信的车辆用集合
Figure BDA0002996647680000103
表示;目标车辆与内容请求车辆之间数据传输速率为:
Figure BDA0002996647680000104
其中,
Figure BDA0002996647680000105
表示车辆与车辆之间的带宽,
Figure BDA0002996647680000106
表示车辆
Figure BDA0002996647680000107
的发送功率,
Figure BDA0002996647680000108
是车辆与车辆之间的信道增益,
Figure BDA0002996647680000109
是目标车辆
Figure BDA00029966476800001010
与内容请求车辆
Figure BDA00029966476800001011
之间的距离,δ是损耗因子,高斯白噪声功率用符号N0表示,如果目标车辆缓存了内容
Figure BDA00029966476800001012
则请求车辆直接从目标车辆获得所请求的内容,其传输时延为:
Figure BDA00029966476800001013
其中
Figure BDA00029966476800001014
表示请求内容
Figure BDA00029966476800001015
的大小,
Figure BDA00029966476800001016
目标车辆
Figure BDA00029966476800001017
的缓存内容变量,如果内容请求车辆的周围车辆都没有缓存请求的内容,则直接向MBS请求内容,其传输时延为:
Figure BDA00029966476800001018
其中,
Figure BDA00029966476800001019
表示MBS与内容请求车辆
Figure BDA00029966476800001020
之间可达到的数据传输速率;本发明将正交频分多址(OFDMA)用于MBS与车辆之间的无线传输,MBS的信道带宽为
Figure BDA00029966476800001021
可以分为W个正交子载波,与MBS连接的每个车辆被分配一个正交子载波,内容请求车辆
Figure BDA00029966476800001022
通过V2V方式获得内容f的时延表示为:
Figure BDA00029966476800001023
当车辆
Figure BDA0002996647680000111
做出决策通过V2R的方式访问内容
Figure BDA0002996647680000112
时,车辆
Figure BDA0002996647680000113
向其连接的固定位置的RSU请求内容
Figure BDA0002996647680000114
如果RSU缓存了请求内容的副本,则直接将请求内容的副本发送给内容请求车辆
Figure BDA0002996647680000115
如果没有相应内容,则向没有相应内容的RSU周围连接的RSU请求内容
Figure BDA0002996647680000116
如果周围连接的RSU缓存了该请求内容的副本,则将请求内容发送给请求内容的RSU,然后请求内容的RSU再将该请求内容发给内容请求车辆
Figure BDA0002996647680000117
如果周围的RSU都没有缓存请求的内容,则直接向MBS请求内容
Figure BDA0002996647680000118
其传输时延通过公式(12)计算;
RSU缓存了请求内容的情况,车辆在不同的位置到RSU的距离不同,车辆会受到不同的信道损伤,数据传输的速率也会不同;本发明将车辆经过的区域划分为M个具有不同传输速率的区域,在区域m、m=1,...,M中,车辆
Figure BDA00029966476800001120
及其连接的RSU之间的数据传输速率
Figure BDA0002996647680000119
由车辆所在的区域确定,在RSU覆盖范围内的不同移动性区域,RSU到内容请求车辆的数据传输速率不同,RSU覆盖范围内的第m个区域中的内容由
Figure BDA00029966476800001110
表示;
内容请求车辆可以从RSU中获得内容f的所有字节数,那么需要满足:
Figure BDA00029966476800001111
在RSU覆盖范围内的第m+1个区域,车辆
Figure BDA00029966476800001112
从RSU获得内容的时延为:
Figure BDA00029966476800001113
则内容请求车辆从RSU获得内容f的总的时延为:
Figure BDA00029966476800001114
RSU没有缓存车辆请求的内容的情况,RSU向周围连接的RSU请求内容,则请求内容的RSU从拥有相应内容的RSU获得内容的时延为:
Figure BDA00029966476800001115
其中,参数
Figure BDA00029966476800001116
表示从请求内容的RSU到拥有相应内容的RSU数据传输路径的平均带宽,参数
Figure BDA00029966476800001117
表示从RSU到RSU数据传输的最短路径长度亦即跳数;
RSU收到请求内容副本后,发送给内容请求车辆,则内容请求车辆获得请求内容的总的时延为:
Figure BDA00029966476800001118
则,内容请求车辆
Figure BDA00029966476800001119
通过V2R方式获得请求内容的时延表示为:
Figure BDA0002996647680000121
请求内容分发过程中,如果RSU缓存了请求内容则时延置为0,反之如果车辆缓存了请求内容且车辆通过V2V方式获取则时延使用公式(12)计算,如果车辆通过V2R方式获取则时延使用公式(18)计算;当选择时延最小的分发方式时要满足缓存内容总量不能超过车辆和RSU的缓存能力。
第2、建立基于多智能体的执行者-评价家结构的协同内容分发的边缘缓存策略:
第2.1、策略设计,方法如下:
将多智能体强化学习的场景设置为车辆自身获取内容时间最短且不考虑其他车辆,在该系统中,每辆内容请求车辆所作出的内容访问和内容缓存的决策都是基于使自身获得内容的时延最小而做出的,而根据决策作出的动作会造成环境改变,从而会影响其他智能体获得内容的时延;强化学习将问题抽象成一个马尔科夫过程,此过程中最重要的三个元素为状态、动作和回报;动作就是每一个任务中智能体做出的选择,状态是做出选择的基础,回报则是评价这个选择好不好的基础;
本发明提出的基于多智能体的执行者-评价家结构的协同内容分发的边缘缓存策略是基于部分可观测的马尔可夫决策过程的;每个智能体只能观测到自身的请求内容和自身、周围车辆以及与自身连接的RSU的内容缓存情况;每个智能体根据自己的观测结果可以自主的选择是否缓存请求的内容以及获得请求内容的方式;请求内容的方式有两种,通过V2V或V2R的方式;每个智能体采取的动作都会对其他智能体的观测结果产生影响;本策略的目标是使请求的内容在交付过程中内容请求车辆获得内容的时延最小;在该策略中,智能体在时隙采取动作后会获得系统给与即时奖励;如果内容请求车辆不能在最大内容交付时延内获得请求的内容,系统会给与该智能体惩罚;智能体的回报是从某一时刻开始到计算回报时智能体获得的所有奖励的加权和,智能体的回报依赖于从这一时刻开始的所有的动作。
第2.2、训练分布式执行的多智能体执行者-评价家框架,方法如下:
多智能体执行者-评价家框架是基于部分可观测的马尔可夫决策过程的,每个智能体有自己的策略网络,中央控制器有G个价值网络,每个价值网络对应一个智能体,本发明采用的学习算法结构是集中式训练-分布式执行;
通过策略可以将智能体的观测结果映射到有效的动作空间;在每个时隙,智能体会根据自己的观测结果和策略选择合适的动作,价值网络是用来估计每个智能体的状态-动作函数的,每一个智能体执行自己的策略网络选择的动作之后,都会把动作以及从环境的反馈、对当前环境的观测结果和获得的奖励发送给中央控制器,然后在中央控制器上训练价值网络的参数,价值网络的输出会发送给对应的智能体的策略网络,用来训练策略网络的参数;本发明采用策略梯度算法来训练策略网络,采用TD算法训练价值网络,集中式的价值网络的参数更新方法借鉴了DQN中TD与目标网络思想,其他智能体的策略可以采用拟合逼近的方式得到,而不需要通信交互;由于智能体的个数为G个,所以每个智能体维护(G-1)个策略逼近函数,其逼近代价为对数代价函数,并且加上策略的熵,只要最小化代价函数,就能得到其他智能体策略的逼近;在更新目标网络之前,利用经验回放池中一个批次的采样更新策略的函数逼近。
第2.3、基于多智能体强化学习的协同内容分发的边缘缓存算法的描述:
步骤1:初始化状态空间,每个智能体的目标策略网络,主价值网络和主策略网络的参数,智能体的个数,智能体的最大缓存容量,内容集合,采样批次大小;
步骤2:初始化一个随机过程以便进行探索,初始化接收的状态空间;
步骤3:按照Zipf分布获得内容的流行度并且按照流行度请求内容;
步骤4:每个智能体根据自己的策略网络以及过程中的噪声选择动作并执行,
步骤5:执行动作后判断缓存的内容是否超出了缓存容量,若超出了,删除缓存区中流行度较低的内容,并获得环境奖励和新的观测空间,将每个智能体的当前状态、执行动作、奖励、下一状态存入到对应的经验回放池中;
步骤6:将新的环境观测空间赋值给原来的观测结果,从经验回放池P中随机选择p条数据,每个智能体根据公式更新策略网络的参数和价值网络的参数,并更新每个智能体的目标网络的参数。
下面将进行两个实验对本发明的可行性及效果进行验证。
实验A:该系统包括1个MBS、4个RSU以及每个RSU覆盖范围下有10个移动车辆。各个RSU覆盖范围内的车辆到相应的RSU的位置服从泊松分布,且所有的RSUs通过无线连接与MBS通信,所有的RSUs之间通过有线连接通信,车辆与车辆之间以及车辆与RSU之间通过使用专用的短距离通信技术进行通信。系统中有50个内容,每个内容的大小为2MB,内容的最大交付时延在[0.5,3]s范围内。RSU的缓存能力是30MB,移动车辆的缓存能力从集合{5,10,15,20}MB中取值。移动车辆根据具有参数为ε的Zipf分布产生内容请求,ε从集合{0.9,1.1,1.3,1.5}中取值。车辆之间的传输速率设置为6Mbps,这是根据车辆通信的传输速率的最佳值确定的。根据区域模型确定移动车辆连接到固定RSU时的传输速率,其中每个RSU的覆盖范围分为7个区域,相应的传输速率为[125.5115.521]Mbps。RSU之间的传输速率为15Mbps。本方案在仿真实验中部署了2个隐藏层,第一个隐藏层有40个神经元,第二个隐藏层有30个神经元,并使用Tanh作为激活函数。在仿真实验中,最大回合数设置为2000,每个回合的最大步数设置为200。另外,执行者神经网络的学习速率设置为10-4,评论家神经网络的学习速率设置为10-3,折扣因子γ为0.999,惩罚设为100。
实验B:将实际场景设置在车流量变化较大的街区道路,RSU坐落在每个路口拐角处,车辆随机分布在道路上,通过路段划分将街区道路划分为500m×200m的块,另外,在此不考虑RSU之间的协作通信行为。RSU的最大通信范围为200m,RSU的带宽为12MHZ,车辆节点带宽为6MHZ,路径损耗因子为4,价格因子γinoutcost分别为0.9,0.5,0.3。
本实例的实验结果如下:
1.理想情况下
1)延时与缓存容量和Zipf分布参数的关系
如图1(a)-(d)所示,其中,(a)为ε=0.9时不同缓存容量下的系统总时延,(b)为ε=1.1时不同缓存容量下的系统总时延,(c)为ε=1.3时不同缓存容量下的系统总时延,(d)为ε=1.5时不同缓存容量下的系统总时延,在Zipf分布参数ε一定的情况下,系统总时延如何随移动车辆的缓存容量变化。所有的算法的系统总时延都随着缓存容量的增加而降低,并且本方案提出的算法ECSMADRL系统总时延要低于其他算法。这主要是因为常规算法仅将单个功能用于缓存决策,本方案提出的算法考虑了可捕获数据项的各个方面以做出最优决策。图2和图1(a)-(d)所示,随着ε的增大整体的系统总时延有降低的趋势。这是因为ε越大,表示内容重复使用率越高,即请求的数据项变得集中,在这种情况下,所有算法都倾向于以较大的请求频率存储数据项,从而导致系统总时延降低。
2)内容命中率与缓存容量和Zipf分布参数的关系
内容命中率是指在一个回合中所有的车辆请求内容时内容命中的次数占总的请求内容的次数的比例。如图3(a)-(d)所示,Zipf参数一定的情况下,其中,(a)为ε=0.9时不同缓存容量下的内容命中率,(b)为ε=1.1时不同缓存容量下的内容命中率,(c)为ε=1.3时不同缓存容量下的内容命中率,(d)为ε=1.5时不同缓存容量下的内容命中率,系统总体的内容命中率有整体随缓存容量增加而增大的趋势。并且本方案提出的ECSMADRL算法内容命中率高于其他算法。不难理解随着缓存容量的增大,移动车辆自身可以缓存更多的内容,在一定程度上增加了内容命中率。另外如图4和图3(a)-(d)所示,在缓存容量不变得情况下,系统总的内容命中率有随着Zipf分布参数增大而增加的趋势,且ECSMADRL算法的内容命中率要高于其他算法,这是因为随着参数的变大,请求的内容更加集中,移动车辆请求重复内容的可能性增大,所以内容命中率有增加的趋势。
3)内容获取成功率与缓存容量和Zipf分布参数的关系
内容获取成功率是指在一个回合中内容请求车辆成功获取请求的内容的次数占所有车辆请求内容的总和。如图5(a)-(d)所示,其中,(a)为ε=0.9时不同缓存容量下的内容获取成功率,(b)为ε=1.1时不同缓存容量下的内容获取成功率,(c)为ε=1.3时不同缓存容量下的内容获取成功率,(d)为ε=1.5时不同缓存容量下的内容获取成功率,Zipf参数一定的情况下,整体的内容获取成功率有随着缓存容量的增大有增加的趋势,并且本方案提出的算法内容获取成功率高于其他算法。如图6和图5(a)-(d)所示,在缓存容量不变的情况下,系统总的获取内容成功率整体随Zipf分布参数增大呈增大的趋势,另外在Zipf分布参数较低的情况下,本方案提出的算法优势越明显。
2.实际场景情况下
4)内容命中率
测试结果如图7-9所示。从真实场景测试结果可以看出,相比于其他四种缓存策略,ECSMADRL有更好的性能。
仿真结果表明,在所有测试中,相比于其他四种缓存策略,本方法有更好的性能。

Claims (7)

1.一种基于多智能体深度强化学习的车联网边缘缓存方法,其特征在于该方法包括如下步骤:
第1、系统模型与数学模型的构建:
第1.1、建立系统模型;
第1.2、建立内容缓存数学模型;
第1.3、建立内容获取数学模型;
第2、建立基于多智能体的执行者-评价家结构的协同内容分发的边缘缓存策略:
第2.1、策略设计;
第2.2、训练分布式执行的多智能体执行者-评价家框架;
第2.3、基于多智能体强化学习的协同内容分发的边缘缓存算法的描述。
2.如权利要求1所述的基于多智能体深度强化学习的车联网边缘缓存方法,其特征在于,步骤第1.1中建立的系统模型由1个宏基站(MBS)、多个路边单元(RSU)和多辆车辆组成;车辆间可以相互通信也可以缓存部分内容,考虑在不同的RSU覆盖范围下的内容具有不同的流行度,因此需要考虑不同的RSU覆盖范围下的车辆,假定各个RSU覆盖范围内的车辆到相应的RSU的位置服从泊松分布,每个内容f都由3个特征来进行描述,其中sf表示内容f的大小,df表示内容f的最大容忍交付时延,ρf表示内容f的流行度;另外,为每个内容分配一个唯一的索引,并在车辆请求内容时将该索引用作内容ID;假定MBS中缓存了所有车辆请求的内容,并在MBS上部署一个中央控制器,充当所有边缘服务器的管理器,存储着交互和同步信息;RSU和车辆都具有边缘缓存能力,减少内容交付过程中的时延。
3.如权利要求2所述的基于多智能体深度强化学习的车联网边缘缓存方法,其特征在于,步骤第1.2中建立内容缓存数学模型的方法如下,假定所有内容的流行度遵循Zipf分布,内容用集合F={1,2,3,......,F}表示,所以车辆请求内容f的概率表示为:
Figure FDA0002996647670000011
其中,ρf表示内容f的流行度,ε是控制内容相对流行的内容请求系数,该系数越大表示内容重复使用率越高;在该模型中MBS缓存了用户需要的所有内容,并且在MBS中部署有中央控制器,存储着其管理范围内的所有车辆和RSU的缓存内容,用矩阵表示为:
Figure FDA0002996647670000021
其中,
Figure FDA0002996647670000022
j≠0的情况,j表示车辆的编号,
Figure FDA0002996647670000023
表示车辆的缓存情况:
Figure FDA0002996647670000024
j=0的情况,j为标签,
Figure FDA0002996647670000025
表示RSU的缓存情况:
Figure FDA0002996647670000026
当车辆发出内容请求时,如果本地没有缓存则车辆或者接受请求的RSU根据自身缓存的内容自主决策是缓存内容还是保持原状不变;其中RSU用集合R={r1,r2,r3,......,rI}表示,ri覆盖下的车辆用集合
Figure FDA0002996647670000027
表示,车辆
Figure FDA0002996647670000028
的缓存决策用cafi,j表示:
Figure FDA0002996647670000029
另外,由于车辆和RSU具有有限的缓存容量,缓存的内容总量不能超过车辆和RSU的缓存能力,
Figure FDA00029966476700000210
表示车辆缓存容量,
Figure FDA00029966476700000211
表示RSU缓存容量,即满足下述约束条件:
Figure FDA00029966476700000212
其中sf表示内容f的大小,当车辆或者RSU的缓存空间已满时,为了提高内容命中率并减少内容分发过程中的时延,采取的策略是删除已缓存的内容中流行度较低的内容,内容的流行度可以通过Zipf分布得到。
4.如权利要求1所述的基于多智能体深度强化学习的车联网边缘缓存方法,其特征在于,步骤第1.3中建立内容获取数学模型的方法如下:当车辆请求内容时,先检查自身是否缓存了所请求的内容,如果缓存了则直接从缓存中获得,否则车辆自主做出决策是通过V2V获得内容或通过V2R获得内容,V2V是指通过向周围车辆请求获得内容,V2R是指通过向其连接的RSU请求获得内容,车辆
Figure FDA00029966476700000213
的内容访问方式决策用wvi,j表示:
Figure FDA00029966476700000214
车辆vi j的通信范围为TRi,j,可以通信的车辆用集合
Figure FDA0002996647670000031
表示;目标车辆与内容请求车辆之间数据传输速率为:
Figure FDA0002996647670000032
其中,
Figure FDA0002996647670000033
表示车辆与车辆之间的带宽,
Figure FDA0002996647670000034
表示车辆
Figure FDA0002996647670000035
的发送功率,
Figure FDA0002996647670000036
是车辆与车辆之间的信道增益,
Figure FDA0002996647670000037
是目标车辆
Figure FDA0002996647670000038
与内容请求车辆
Figure FDA0002996647670000039
之间的距离,δ是损耗因子,高斯白噪声功率用符号N0表示,如果目标车辆缓存了内容
Figure FDA00029966476700000310
则请求车辆直接从目标车辆获得所请求的内容,其传输时延为:
Figure FDA00029966476700000311
其中
Figure FDA00029966476700000312
表示请求内容
Figure FDA00029966476700000313
的大小,
Figure FDA00029966476700000314
目标车辆
Figure FDA00029966476700000315
的缓存内容变量,如果内容请求车辆的周围车辆都没有缓存请求的内容,则直接向MBS请求内容,其传输时延为:
Figure FDA00029966476700000316
其中,
Figure FDA00029966476700000317
表示MBS与内容请求车辆
Figure FDA00029966476700000318
之间可达到的数据传输速率;本发明将正交频分多址(OFDMA)用于MBS与车辆之间的无线传输,MBS的信道带宽为
Figure FDA00029966476700000319
可以分为W个正交子载波,与MBS连接的每个车辆被分配一个正交子载波,内容请求车辆
Figure FDA00029966476700000320
通过V2V方式获得内容f的时延表示为:
Figure FDA00029966476700000321
当车辆
Figure FDA00029966476700000322
做出决策通过V2R的方式访问内容
Figure FDA00029966476700000323
时,车辆
Figure FDA00029966476700000324
向其连接的固定位置的RSU请求内容
Figure FDA00029966476700000325
如果RSU缓存了请求内容的副本,则直接将请求内容的副本发送给内容请求车辆
Figure FDA00029966476700000326
如果没有相应内容,则向没有相应内容的RSU周围连接的RSU请求内容
Figure FDA00029966476700000327
如果周围连接的RSU缓存了该请求内容的副本,则将请求内容发送给请求内容的RSU,然后请求内容的RSU再将该请求内容发给内容请求车辆
Figure FDA00029966476700000328
如果周围的RSU都没有缓存请求的内容,则直接向MBS请求内容
Figure FDA00029966476700000329
其传输时延通过公式(12)计算;
RSU缓存了请求内容的情况,车辆在不同的位置到RSU的距离不同,车辆会受到不同的信道损伤,数据传输的速率也会不同;本发明将车辆经过的区域划分为M个具有不同传输速率的区域,在区域m、m=1,...,M中,车辆
Figure FDA00029966476700000413
及其连接的RSU之间的数据传输速率
Figure FDA0002996647670000041
由车辆所在的区域确定,在RSU覆盖范围内的不同移动性区域,RSU到内容请求车辆的数据传输速率不同,RSU覆盖范围内的第m个区域中的内容由
Figure FDA0002996647670000042
表示;
内容请求车辆可以从RSU中获得内容f的所有字节数,那么需要满足:
Figure FDA0002996647670000043
在RSU覆盖范围内的第m+1个区域,车辆
Figure FDA0002996647670000044
从RSU获得内容的时延为:
Figure FDA0002996647670000045
则内容请求车辆从RSU获得内容f的总的时延为:
Figure FDA0002996647670000046
RSU没有缓存车辆请求的内容的情况,RSU向周围连接的RSU请求内容,则请求内容的RSU从拥有相应内容的RSU获得内容的时延为:
Figure FDA0002996647670000047
其中,参数
Figure FDA0002996647670000048
表示从请求内容的RSU到拥有相应内容的RSU数据传输路径的平均带宽,参数
Figure FDA0002996647670000049
表示从RSU到RSU数据传输的最短路径长度亦即跳数;
RSU收到请求内容副本后,发送给内容请求车辆,则内容请求车辆获得请求内容的总的时延为:
Figure FDA00029966476700000410
则,内容请求车辆
Figure FDA00029966476700000411
通过V2R方式获得请求内容的时延表示为:
Figure FDA00029966476700000412
请求内容分发过程中,如果RSU缓存了请求内容则时延置为0,反之如果车辆缓存了请求内容且车辆通过V2V方式获取则时延使用公式(12)计算,如果车辆通过V2R方式获取则时延使用公式(18)计算;当选择时延最小的分发方式时要满足缓存内容总量不能超过车辆和RSU的缓存能力。
5.如权利要求1所述的基于多智能体深度强化学习的车联网边缘缓存方法,其特征在于,步骤第2.1中策略设计的方法如下:将多智能体强化学习的场景设置为车辆自身获取内容时间最短且不考虑其他车辆,在该系统中,每辆内容请求车辆所作出的内容访问和内容缓存的决策都是基于使自身获得内容的时延最小而做出的,而根据决策作出的动作会造成环境改变,从而会影响其他智能体获得内容的时延;强化学习将问题抽象成一个马尔科夫过程,此过程中最重要的三个元素为状态、动作和回报;动作就是每一个任务中智能体做出的选择,状态是做出选择的基础,回报则是评价这个选择好不好的基础;
本发明提出的基于多智能体的执行者-评价家结构的协同内容分发的边缘缓存策略是基于部分可观测的马尔可夫决策过程的;每个智能体只能观测到自身的请求内容和自身、周围车辆以及与自身连接的RSU的内容缓存情况;每个智能体根据自己的观测结果可以自主的选择是否缓存请求的内容以及获得请求内容的方式;请求内容的方式有两种,通过V2V或V2R的方式;每个智能体采取的动作都会对其他智能体的观测结果产生影响;本策略的目标是使请求的内容在交付过程中内容请求车辆获得内容的时延最小;在该策略中,智能体在时隙采取动作后会获得系统给与即时奖励;如果内容请求车辆不能在最大内容交付时延内获得请求的内容,系统会给与该智能体惩罚;智能体的回报是从某一时刻开始到计算回报时智能体获得的所有奖励的加权和,智能体的回报依赖于从这一时刻开始的所有的动作。
6.如权利要求2所述的基于多智能体深度强化学习的车联网边缘缓存方法,其特征在于,步骤第2.2中训练分布式执行的多智能体执行者-评价家框架的方法如下:多智能体执行者-评价家框架是基于部分可观测的马尔可夫决策过程的,每个智能体有自己的策略网络,中央控制器有G个价值网络,每个价值网络对应一个智能体,本发明采用的学习算法结构是集中式训练-分布式执行;
通过策略可以将智能体的观测结果映射到有效的动作空间;在每个时隙,智能体会根据自己的观测结果和策略选择合适的动作,价值网络是用来估计每个智能体的状态-动作函数的,每一个智能体执行自己的策略网络选择的动作之后,都会把动作以及从环境的反馈、对当前环境的观测结果和获得的奖励发送给中央控制器,然后在中央控制器上训练价值网络的参数,价值网络的输出会发送给对应的智能体的策略网络,用来训练策略网络的参数;本发明采用策略梯度算法来训练策略网络,采用TD算法训练价值网络,集中式的价值网络的参数更新方法借鉴了DQN中TD与目标网络思想,其他智能体的策略可以采用拟合逼近的方式得到,而不需要通信交互;由于智能体的个数为G个,所以每个智能体维护(G-1)个策略逼近函数,其逼近代价为对数代价函数,并且加上策略的熵,只要最小化代价函数,就能得到其他智能体策略的逼近;在更新目标网络之前,利用经验回放池中一个批次的采样更新策略的函数逼近。
7.如权利要求1所述的基于多智能体深度强化学习的车联网边缘缓存方法,其特征在于,步骤第2.3中基于多智能体强化学习的协同内容分发的边缘缓存算法的描述如下:
步骤1:初始化状态空间,每个智能体的目标策略网络,主价值网络和主策略网络的参数,智能体的个数,智能体的最大缓存容量,内容集合,采样批次大小;
步骤2:初始化一个随机过程以便进行探索,初始化接收的状态空间;
步骤3:按照Zipf分布获得内容的流行度并且按照流行度请求内容;
步骤4:每个智能体根据自己的策略网络以及过程中的噪声选择动作并执行,
步骤5:执行动作后判断缓存的内容是否超出了缓存容量,若超出了,删除缓存区中流行度较低的内容,并获得环境奖励和新的观测空间,将每个智能体的当前状态、执行动作、奖励、下一状态存入到对应的经验回放池中;
步骤6:将新的环境观测空间赋值给原来的观测结果,从经验回放池P中随机选择p条数据,每个智能体根据公式更新策略网络的参数和价值网络的参数,并更新每个智能体的目标网络的参数。
CN202110332326.4A 2021-03-29 2021-03-29 一种基于多智能体深度强化学习的车联网边缘缓存方法 Active CN113094982B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110332326.4A CN113094982B (zh) 2021-03-29 2021-03-29 一种基于多智能体深度强化学习的车联网边缘缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110332326.4A CN113094982B (zh) 2021-03-29 2021-03-29 一种基于多智能体深度强化学习的车联网边缘缓存方法

Publications (2)

Publication Number Publication Date
CN113094982A true CN113094982A (zh) 2021-07-09
CN113094982B CN113094982B (zh) 2022-12-16

Family

ID=76670257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110332326.4A Active CN113094982B (zh) 2021-03-29 2021-03-29 一种基于多智能体深度强化学习的车联网边缘缓存方法

Country Status (1)

Country Link
CN (1) CN113094982B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113596160A (zh) * 2021-07-30 2021-11-02 电子科技大学 一种基于迁移学习的无人机内容缓存决策方法
CN113676513A (zh) * 2021-07-15 2021-11-19 东北大学 一种深度强化学习驱动的网内缓存优化方法
CN113905354A (zh) * 2021-11-11 2022-01-07 南京邮电大学 一种基于区域内容流行度的车载网络内容传递方法及系统
CN113992706A (zh) * 2021-09-09 2022-01-28 北京信息科技大学 车联网场景下请求内容放置的方法、装置及电子设备
CN114374741A (zh) * 2022-01-13 2022-04-19 南昌工程学院 Mec环境下基于强化学习的动态分组车联网缓存方法
CN114449477A (zh) * 2022-03-08 2022-05-06 天津理工大学 一种基于边缘缓存和免疫克隆策略的车联网内容分发方法
CN114697394A (zh) * 2022-05-27 2022-07-01 合肥工业大学 基于离散maddpg的边缘缓存决策模型、方法和系统
CN114996278A (zh) * 2022-06-27 2022-09-02 华中科技大学 一种基于强化学习的路网最短路径距离计算方法
CN115633380A (zh) * 2022-11-16 2023-01-20 合肥工业大学智能制造技术研究院 一种考虑动态拓扑的多边缘服务缓存调度方法和系统
CN116761152A (zh) * 2023-08-14 2023-09-15 合肥工业大学 路侧单元边缘缓存放置及内容交付方法
CN117294640A (zh) * 2023-10-13 2023-12-26 北京亿美芯科技有限公司 一种基于ppo算法的车载机会路由节点选择方法及系统
CN117939505A (zh) * 2024-03-22 2024-04-26 南京邮电大学 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110213796A (zh) * 2019-05-28 2019-09-06 大连理工大学 一种车联网中的智能资源分配方法
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
US20200160168A1 (en) * 2018-11-16 2020-05-21 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN111901833A (zh) * 2020-07-13 2020-11-06 哈尔滨工业大学(深圳) 一种面向不可靠信道传输的联合服务调度以及内容缓存方法
CN111970733A (zh) * 2020-08-04 2020-11-20 河海大学常州校区 超密集网络中基于深度强化学习的协作式边缘缓存算法
CN112565377A (zh) * 2020-11-30 2021-03-26 北京邮电大学 车联网中一种面向用户服务体验的内容分级优化缓存方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200160168A1 (en) * 2018-11-16 2020-05-21 Honda Motor Co., Ltd. Cooperative multi-goal, multi-agent, multi-stage reinforcement learning
CN110213796A (zh) * 2019-05-28 2019-09-06 大连理工大学 一种车联网中的智能资源分配方法
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN111786713A (zh) * 2020-06-04 2020-10-16 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN111901833A (zh) * 2020-07-13 2020-11-06 哈尔滨工业大学(深圳) 一种面向不可靠信道传输的联合服务调度以及内容缓存方法
CN111970733A (zh) * 2020-08-04 2020-11-20 河海大学常州校区 超密集网络中基于深度强化学习的协作式边缘缓存算法
CN112565377A (zh) * 2020-11-30 2021-03-26 北京邮电大学 车联网中一种面向用户服务体验的内容分级优化缓存方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
S. CHEN, Z. YAO, X. JIANG, J. YANG AND L. HANZO: "Multi-Agent Deep Reinforcement Learning-Based Cooperative Edge Caching for Ultra-Dense Next-Generation Networks", 《IEEE TRANSACTIONS ON COMMUNICATIONS》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113676513A (zh) * 2021-07-15 2021-11-19 东北大学 一种深度强化学习驱动的网内缓存优化方法
CN113676513B (zh) * 2021-07-15 2022-07-01 东北大学 一种深度强化学习驱动的网内缓存优化方法
CN113596160B (zh) * 2021-07-30 2022-09-13 电子科技大学 一种基于迁移学习的无人机内容缓存决策方法
CN113596160A (zh) * 2021-07-30 2021-11-02 电子科技大学 一种基于迁移学习的无人机内容缓存决策方法
CN113992706A (zh) * 2021-09-09 2022-01-28 北京信息科技大学 车联网场景下请求内容放置的方法、装置及电子设备
CN113992706B (zh) * 2021-09-09 2023-05-23 北京信息科技大学 车联网场景下请求内容放置的方法、装置及电子设备
CN113905354A (zh) * 2021-11-11 2022-01-07 南京邮电大学 一种基于区域内容流行度的车载网络内容传递方法及系统
CN113905354B (zh) * 2021-11-11 2023-09-26 南京邮电大学 一种基于区域内容流行度的车载网络内容传递方法及系统
CN114374741A (zh) * 2022-01-13 2022-04-19 南昌工程学院 Mec环境下基于强化学习的动态分组车联网缓存方法
CN114374741B (zh) * 2022-01-13 2024-04-19 南昌工程学院 Mec环境下基于强化学习的动态分组车联网缓存方法
CN114449477A (zh) * 2022-03-08 2022-05-06 天津理工大学 一种基于边缘缓存和免疫克隆策略的车联网内容分发方法
CN114697394B (zh) * 2022-05-27 2022-08-16 合肥工业大学 基于离散maddpg的边缘缓存决策模型、方法和系统
CN114697394A (zh) * 2022-05-27 2022-07-01 合肥工业大学 基于离散maddpg的边缘缓存决策模型、方法和系统
CN114996278A (zh) * 2022-06-27 2022-09-02 华中科技大学 一种基于强化学习的路网最短路径距离计算方法
CN115633380A (zh) * 2022-11-16 2023-01-20 合肥工业大学智能制造技术研究院 一种考虑动态拓扑的多边缘服务缓存调度方法和系统
CN116761152A (zh) * 2023-08-14 2023-09-15 合肥工业大学 路侧单元边缘缓存放置及内容交付方法
CN116761152B (zh) * 2023-08-14 2023-11-03 合肥工业大学 路侧单元边缘缓存放置及内容交付方法
CN117294640A (zh) * 2023-10-13 2023-12-26 北京亿美芯科技有限公司 一种基于ppo算法的车载机会路由节点选择方法及系统
CN117294640B (zh) * 2023-10-13 2024-05-24 北京亿美芯科技有限公司 一种基于ppo算法的车载机会路由节点选择方法及系统
CN117939505A (zh) * 2024-03-22 2024-04-26 南京邮电大学 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统
CN117939505B (zh) * 2024-03-22 2024-05-24 南京邮电大学 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统

Also Published As

Publication number Publication date
CN113094982B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN113094982B (zh) 一种基于多智能体深度强化学习的车联网边缘缓存方法
CN111385734B (zh) 一种车联网内容缓存决策优化方法
CN110312231A (zh) 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN112995950B (zh) 一种车联网中基于深度强化学习的资源联合分配方法
CN112565377B (zh) 车联网中一种面向用户服务体验的内容分级优化缓存方法
Zhao et al. Towards cooperative caching for vehicular networks with multi-level federated reinforcement learning
CN113055488B (zh) 多层联邦深度强化学习的车辆边缘协作缓存方法及系统
CN116156455A (zh) 一种基于联邦强化学习的车联网边缘内容缓存决策方法
CN114374741B (zh) Mec环境下基于强化学习的动态分组车联网缓存方法
CN113158544B (zh) 车载内容中心网络下基于联邦学习的边缘预缓存策略
CN113411826B (zh) 一种基于注意力机制强化学习的边缘网络设备缓存方法
CN115297170A (zh) 一种基于异步联邦和深度强化学习的协作边缘缓存方法
CN113012013B (zh) 一种在车联网中基于深度强化学习的协同边缘缓存方法
CN114973673B (zh) 车路协同系统中结合noma和内容缓存的任务卸载方法
Xing et al. Deep reinforcement learning for cooperative edge caching in vehicular networks
CN116321307A (zh) 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法
Xu et al. Distributed online caching for high-definition maps in autonomous driving systems
CN114449477A (zh) 一种基于边缘缓存和免疫克隆策略的车联网内容分发方法
Liu et al. Mobility-aware coded edge caching in vehicular networks with dynamic content popularity
CN114374949B (zh) 一种车联网中基于信息新鲜度优化的功率控制机制
CN113141634B (zh) 基于移动边缘计算网络的vr内容缓存方法
CN116137724A (zh) 一种基于移动边缘计算的任务卸载及资源分配方法
CN116249162A (zh) 车载边缘网络中基于深度强化学习的协作缓存方法
CN114979145A (zh) 一种车联网中集成感知、通信与缓存的内容分发方法
Khanal et al. Proactive content caching at self-driving car using federated learning with edge cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant