CN115277845A - 基于多智能体近端策略的车联网分布式边缘缓存决策方法 - Google Patents
基于多智能体近端策略的车联网分布式边缘缓存决策方法 Download PDFInfo
- Publication number
- CN115277845A CN115277845A CN202210867388.XA CN202210867388A CN115277845A CN 115277845 A CN115277845 A CN 115277845A CN 202210867388 A CN202210867388 A CN 202210867388A CN 115277845 A CN115277845 A CN 115277845A
- Authority
- CN
- China
- Prior art keywords
- strategy
- vehicle user
- vehicle
- network
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Optimization (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于多智能体近端策略的车联网分布式边缘缓存决策方法,具体为:输入车辆边缘网络环境,初始化执行者‑评估者网络参数;各车辆用户观测自身坐标及各边缘接入点剩余存储空间;各车辆用户根据策略选择边缘接入点,执行边缘缓存动作;各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势;根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者‑评估者网络的损失函数且更新共享策略,实现分布式车联网边缘缓存决策。本发明使得车联网用户中每个车辆用户智能体能够充分利用自身观测信息,协同分配系统边缘缓存资源,从而降低缓存内容传输时延。
Description
技术领域
本发明属于无线通信技术领域,具体涉及一种基于多智能体近端策略的车联网分布式边缘缓存决策方法。
背景技术
随着汽车工业和无线通信技术的进步,车联网已成为智能交通服务的关键推动者,而车载传感器和车载信息应用将产生海量数据和内容(Ullah A,Yao X,Shaheen S,Ning H.Advances in Position Based Routing Towards ITS Enabled FoG-OrientedVANET–A Survey[J].IEEE Transactions on Intelligent Transportation Systems,2020,21(2):828-840.)。车辆可以收集和共享彼此共同感兴趣的数据,涉及与交通相关的客观信息(如道路和天气状况、停车场占用情况等),以及与用户体验有关的主观信息(如酒店评级和车辆服务质量等)(Yang Q,Zhu B,Wu S.An Architecture of Cloud-AssistedInformation Dissemination in Vehicular Networks[J].IEEE Access,2016,4:2764-2770.)。上述车联网数据的共享,进一步提高了驾驶安全性,并使用户得以在旅行中获得更高的服务质量。
然而,由于车辆的计算与缓存资源有限,车辆无法支持海量数据存储和计算,为解决车联网中资源紧张问题,移动边缘计算(Mobile Edge Computing,MEC)技术被广泛应用于车联网。MEC技术的基本思想是在边缘网络部署相对轻量级的节点,如在路边单元上部署边缘计算服务器,为附近的用户提供服务,从而降低能耗,缩短传输时延。通过结合MEC,车辆可以从边缘服务器获取计算和缓存资源,用于处理生成的大量数据,减轻网络的繁重负载(Lin Y,Zhang Y,Li J,Shu F,Li C.Popularity-Aware Online Task Offloading forHeterogeneous Vehicular Edge Computing Using Contextual Clustering of Bandits[J].IEEE Internet of Things Journal,2022,9(7):5422-5433.)。鉴于上述特点,移动边缘计算减轻了车联网系统的负载,使得车联网进一步的发展成为可能。
由于车联网具有高度的动态变化的特性,车联网边缘缓存决策问题是一个在各时隙下动态变化的问题。为求解该类问题,强化学习方法通过迭代评估所有可能的状态和各种动作对应的奖励函数,从而获得最优解。进一步,深度强化学习结合了深度学习在识别数据特征方面的优势和强化学习在动态规划方面的优势,可以应对时变环境并生成最优策略以最大化长期奖励,近年其被广泛应用于边缘网络资源分配(Chen M,Wu G, Zhang Y,LinY,Zhang Y,Li J.Distributed Deep Reinforcement Learning-Based Content Cachingin Edge Computing-Enabled Blockchain Networks[C].2021International Conferenceon Wireless Communications and Signal Processing(WCSP),2021,1-5.)。但是由于车联网和边缘计算结合环境下建立的马尔可夫决策过程模型的状态空间和动作空间维度随着车辆数量呈指数增长。因此,许多学者针对此场景提出了使用多智能体深度强化学习的方案(Yuan Q,Li J,Zhou H,Lin T,Luo G,Shen X.A Joint Service Migration andMobility Optimization Approach for Vehicular Edge Computing[J].IEEETransactions on Vehicular Technology,2020,69(8):9041-9052.)。其中一些学者们利用多智能体强化学习分配该场景下的网络资源时,仅将单智能体算法扩展至多智能体场景,未充分地考虑车联网环境下各车辆用户的通信能力以及环境的部分可观测性,因此不能最大化利用环境信息,并高效作出缓存部署决策。
发明内容
本发明的目的在于提供一种种基于多智能体近端策略的车联网分布式边缘缓存决策方法,使得每个车辆用户智能体充分利用自身观测信息,协同利用系统边缘缓存资源,降低了缓存内容传输时延。
实现本发明目的的技术解决方案为:一种基于多智能体近端策略的车联网分布式边缘缓存决策方法,包括以下步骤:
步骤1、输入车辆边缘网络环境,初始化执行者-评估者网络参数;
步骤2、各车辆用户观测自身坐标及各边缘接入点剩余存储空间;
步骤3、各车辆用户制定缓存策略,根据策略选择边缘接入点,执行边缘缓存动作;
步骤4、各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势;
步骤5、根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略;
步骤6、判断是否所有车辆抵达设定路段终点:如果否,则返回步骤2;如果是,则结束当前回合,进入步骤7;
步骤7、判断算法是否收敛:如果否,则返回步骤1;如果是,则算法结束,得到最终的车联网分布式边缘缓存决策。
本发明与现有技术相比,其显著优点为:
(1)采用基于多智能体近端策略优化的车联网分布式边缘缓存决策方案,协同利用有限系统边缘缓存资源,收敛速度快且训练开销小,能够实现在未知车联网环境下大幅降低系统缓存内容的传输时延;
(2)基于多智能体近端策略优化的车联网分布式边缘缓存决策方案,采用多智能体近端策略优化算法,利用收集的动作、观测和奖励信息,以及通过广义优势估计计算得到的优势,计算策略梯度,引入重要性采样以提高采样效率,再以截断方法设计损失函数以避免重要性采样产生误差,进而分别对执行者网络损失函数进行梯度上升和对评估值网络损失函数进行梯度下降,以实现策略更新,使得每个车辆用户智能体充分利用自身观测信息,在车联网场景下更具优越性;
(3)对于车联网边缘缓存决策问题,充分考虑多智能体环境特性,应用多智能体近端策略优化算法,能够使执行者及评估者网络的损失函数更稳定,保证方案更为稳定地探索到最优缓存策略;
(4)当车辆用户达到20时,多智能体近端策略优化算法的车联网分布式边缘缓存方案仍具有最高的奖励,说明在缓存资源紧缺的情况下,各车辆用户能够利用各自的观测协同制定最小化系统传输时延的决策。
附图说明
图1是本发明基于多智能体近端策略的车联网分布式边缘缓存决策方法的流程图。
图2为本发明实施例的网络模型示意图。
图3为本发明实施例中不同方案的学习收敛效果示意图。
图4为本发明实施例中不同方案执行者网络收敛效果示意图。
图5为本发明实施例中不同方案评估者网络收敛效果示意图。
图6为本发明实施例中不同算法收敛平均值与用户数目的关系图。
具体实施方式
本发明基于多智能体近端策略的车联网分布式边缘缓存决策方法,包括以下步骤:
步骤1、输入车辆边缘网络环境,初始化执行者-评估者网络参数;
步骤2、各车辆用户观测自身坐标及各边缘接入点剩余存储空间;
步骤3、各车辆用户制定缓存策略,根据策略选择边缘接入点,执行边缘缓存动作;
步骤4、各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势;
步骤5、根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略;
步骤6、判断是否所有车辆抵达设定路段终点:如果否,则返回步骤2;如果是,则结束当前回合,进入步骤7;
步骤7、判断算法是否收敛:如果否,则返回步骤1;如果是,则算法结束,得到最终的车联网分布式边缘缓存决策。
进一步地,步骤1中所述输入车辆边缘网络环境,其中车辆边缘网络环境包含:
(1)时隙模型:将连续的训练时间离散化为多个时隙,用正整数t∈{1,2,...,T}来表示第t个时隙;假设单个时隙内车辆用户完成一次边缘缓存决策以及位置移动,且单个时隙内发射功率和信道噪声等环境状态不发生改变,而当车辆用户全部抵达设定的道路终点时称为一个回合。
(2)网络模型:建立城市单向车道模型,假设网络中有N个车辆用户和M个边缘接入点,边缘接入点包括路边单元和宏基站;车辆用户沿单向车道行驶,表示为φU={u1,u2,...,uN};边缘接入点为车辆用户提供缓存服务,宏基站覆盖全路段范围,路边单元均匀分布在道路两侧,表示为φR={R0,R1,R2,...,RM},其中R0表示宏基站, {R1,R2,...,RM}表示路边单元。
(3)通信模型:假设车辆用户和边缘接入点之间的信道增益由路径损耗和瑞利衰减组成;令dm,n表示车辆用户un和边缘接入点Rm之间的距离,表示车辆用户un和边缘接入点Rm之间的信道的路径损耗,其中τ为路径损耗指数;此外,令hm,n~exp(μ)表示un和Rm之间的瑞利衰减,其中μ为相应的比例系数,且对于所有边缘接入点Rm与车辆用户un,hm,n相互独立;令信道增益为
假设车辆用户un以发射功率Pn在带宽为B的信道上进行通信;根据香农公式,车辆用户un将请求内容缓存到边缘接入点Rm的上行传输速率ζn,m(t)表示为
其中,σ2为高斯白噪声功率。
令车辆用户的请求文件的内容大小为αn(bytes)。因此,车辆用户un的数据传输时延可表示为Dn=αn/ζn,m,数据的总传输时延可表示为Dtotal=∑n∈NDn。此外,令ddln(s) 为车辆用户请求内容容许的最大传输时延。各车辆用户传输时延应小等于其请求内容所容许的最大传输时延,表示为Dn≤ddln。
(4)缓存模型:令表示为车辆用户请求的内容集合;定义(Pf)N×1为全局流行度,表示系统中各车辆用户请求内容fn的概率分布,其中pn为车辆用户un请求内容fn的局部流行度;假设(Pf)N×1遵循Mandelbrot-Zipf即MZipf分布:
其中If是内容fn按内容流行度降序排列的排名,δ和β分别表示平台因子和偏度因子。
(5)车辆移动模型:车辆用户的速度被建模为高斯-马尔科夫随机过程;
具体而言,当车辆用户un以初始速度vn,0行驶时,根据时隙t-1处的速度vn,t-1和渐近速度可计算车辆用户un在时隙t处的速度vn,t,表示为
其中,和是车辆用户un速度的相应渐近均值和标准差。参数ηn∈[0,1]表示过去速度的记忆深度,决定车辆用户un移动的时间相关性。值得注意的是,ηn趋近于1 时,车辆用户un时隙t下的速度变得更加依赖于先前的速度。此外,k是一个均值为零、方差为的独立随机高斯过程。
进一步地,步骤2所述各车辆用户观测自身坐标及各边缘接入点剩余存储空间,具体为:
其中xn(t)和yn(t)表示当前车辆用户un在时隙t下的x坐标和y坐标,表示路边单元Rm在时隙t下的缓存状态;具体而言,时,路边单元Rm的剩余存储空间能够处理用户的缓存请求,而如果路边单元Rm因存储空间不足无法处理任何缓存请求。
进一步地,步骤3所述各车辆用户根据策略选择边缘接入点,执行边缘缓存动作,具体为:
进一步地,步骤4所述各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势,具体为:
(4.1)各车辆用户的奖励
为了最小化各用户缓存文件传输时延,各车辆用户的奖励函数rn(t)定义为
其中Dn是在相应动作下进行缓存的时间成本;
如果各用户的决策满足约束条件,则直接获得奖励,否则,奖励为0;
(4.2)计算优势与回报
令V(st)为马尔可夫决策过程中的状态值函数,即为估计智能体在一状态下的预期回报的函数;令γ为折扣因子,rt为时隙t下的奖励,st为时隙t下的状态,优势函数将状态值函数归一化,在后续用于计算损失函数,表示为
回报函数计算为
进一步地,步骤5所述根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略,具体为:
近端策略优化算法利用收集的动作、观测和奖励信息,以及通过广义优势估计计算得到的优势,计算策略梯度,引入重要性采样以提高采样效率,再以截断方法设计损失函数以避免重要性采样产生误差,进而对损失函数进行梯度上升以更新策略。
(5.1)近端策略优化算法利用收集的动作、观测和奖励信息,以及通过广义优势估计计算得到的优势,计算策略梯度,具体如下:
策略梯度算法计算梯度估计,然后使用随机梯度下降算法得到最优策略,使用的梯度估计表示为
进行梯度更新时,构建一个梯度的损失函数,然后对该损失函数进行梯度上升或梯度下降;
(2)引入重要性采样以提高采样效率,重要性采样具体如下:
传统on-policy方法的缺点是采样效率低,这意味着采样的数据只能用于更新一次策略。因此,近端策略优化算法引入了另一个策略q,令f(x)为策略梯度,p(x)与q(x)为两个策略,计算策略梯度有以下公式推导:
其中,来自策略q的样本能够用于多次更新策略p;但只有当p和q分布相似时,期望才能近似相等;否则,可能会出现很大的误差。
(5.3)以截断方法设计损失函数以避免重要性采样产生误差,具体如下:
近端策略优化算法使用截断方法来约束策略的更新,降低对迭代步长的敏感度,保证每次得出的新策略与原策略相近,将损失函数定义为
其中,ε为一个超参数,clip()为截断函数。如果意味着当前动作产生的回报大于基准动作的预期回报,故更新策略增加该动作出现的概率,此概率不能高于原策略的1+ε倍。反之若说明当前动作的回报小于基准动作预期回报,降低该动作出现概率,不低于原策略的1-ε倍。
(5.4)建立多智能体集中训练分散执行框架,具体如下:
多智能体强化学习通常使用两种框架:集中式学习与分布式学习。集中式方法通常假设一个合作型博弈,并通过学习统一的策略以将单智能体强化学习算法扩展至多智能体场景,从而同时产生多智能体的联合动作。而在分布式学习中,每个智能体独立优化自身的奖励。
单纯的集中式学习与分布式学习可以解决一般的求和博弈,但即使面对简单的矩阵博弈也可能表现不稳定。集中训练分散执行方法通过采用执行者-评估者框架并使用一个集中式的评估者来解决这一问题。
多智能体近端策略优化为使用集中式值函数的集中训练分散执行算法。令所有车辆用户共享相同的执行者-评估者网络参数θ和φ,利用收集的动作、观测和奖励信息对网络进行更新。
(5.5)多智能体近端策略优化,具体如下:
多智能体近端策略优化算法在利用单智能体近端策略优化算法的基础上,使用值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽五个处理过程,对损失函数进行梯度上升以更新策略。
其中,值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽,具体如下:
a.值归一化
通过平均值函数的估计值来对值函数进行归一化,稳定了对值函数的学习。具体来说,在学习过程中,标准化价值网络。在计算优势时,将反归一化价值网络的输出,适当缩放价值网络输出。
b.针对智能体的全局状态
多智能体近端策略优化算法中,对于智能体un,将全局状态与该智能体观测拼接为 {s,on},避免忽略某些状态信息,其中s为全局状态,on为智能体un的局部观测,为进一步减小输入维度,将全局状态和局部观测间重复的信息裁切。
c.训练数据处理
由于多智能体强化学习的非平稳性,过于频繁的样本复用将降低多智能体近端策略优化的性能,故使用与单智能体近端策略优化算法相比较少回合的样本进行训练;此外,由于在估计梯度时使用更多数据会提升算法性能,故默认不将数据拆分为小批量。
d.动作屏蔽
根据算法应用的环境,或存在不可能被执行的动作,例如车辆用户选择缓存至存储容量已满的路边单元。在多智能体近端策略优化算法中,直接屏蔽这些无法执行的动作,提高算法效率。
e.死亡屏蔽
根据场景,智能体可能出现死亡的情况,例如车联网环境中车辆驶出场景范围。在多智能体近端策略优化算法中,屏蔽已死亡的智能体相关信息。
进一步地,多智能体近端策略优化,结合了单智能体近端策略优化和以上的改进,基于步骤2~步骤4收集的动作、观测和奖励信息,训练执行者-评估者网络;
设定所有智能体共享执行者和评估者网络,集中训练共享的策略,设样本批量大小为Bs,执行者网络在损失函数中增加了策略的熵,通过最大化熵,增加策略的随机性,鼓励对策略的探索,避免过早陷入局部最优解,令θ为执行者网络的参数,通过最大化以下函数进行训练:
令φ为评估者网络的参数,评估者网络通过最小化以下函数进行训练:
通过对LMAPPO(θ)进行梯度上升,对LMAPPO(φ)进行梯度下降,完成对策略网络的更新。
下面结合附图及具体实施例对本发明做进一步详细描述。
实施例
本发明提出了一种基于多智能体近端策略的车联网分布式边缘缓存决策方法,通过多智能体近端策略优化算法,使得每个车辆用户智能体充分利用自身观测信息,协同利用系统边缘缓存资源,降低了缓存内容传输时延,结合图1~图2,包括以下步骤:
步骤1、输入车辆边缘网络环境,初始化执行者-评估者网络参数;
步骤2、各车辆用户观测自身坐标及各边缘接入点剩余存储空间;
步骤3、各车辆用户根据策略选择边缘接入点,执行边缘缓存动作;
步骤4、各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势;
步骤5、根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略;
步骤6、当所有车辆抵达设定路段终点时,结束当前回合,开始下一回合,重新输入车辆边缘网络环境,重复步骤2~步骤5;
步骤7、重复步骤6,直至算法收敛。
进一步地,步骤1中所述输入车辆边缘网络环境,其中车辆边缘网络环境包含:
(1)时隙模型:将连续的训练时间离散化为多个时隙,用正整数t∈{1,2,...,T}来表示第t个时隙。假设单个时隙内车辆用户完成一次边缘缓存决策以及位置移动,且单个时隙内发射功率和信道噪声等环境状态不发生改变,而当车辆用户全部抵达设定的道路终点时称为一个回合。
(2)网络模型:建立城市单向车道模型,假设网络中有N个车辆用户和M个边缘接入点(包括路边单元和宏基站)。车辆用户沿单向车道行驶,表示为φU={u1,u2,...,uN};边缘接入点为车辆用户提供缓存服务,宏基站覆盖全路段范围,路边单元均匀分布在道路两侧,表示为φR={R0,R1,R2,...,RM},其中R0表示宏基站,{R1,R2,...,RM}表示路边单元。
(3)通信模型:假设车辆用户和边缘接入点之间的信道增益由路径损耗和瑞利衰减组成。令dm,n表示车辆用户un和边缘接入点Rm之间的距离,表示车辆用户un和边缘接入点Rm之间的信道的路径损耗,其中τ为路径损耗指数。此外,令hm,n~exp(μ)表示un和Rm之间的瑞利衰减,其中μ为相应的比例系数,且对于所有边缘接入点Rm与车辆用户un,hm,n相互独立。令信道增益为
假设车辆用户un以发射功率Pn在带宽为B的信道上进行通信。因此,根据香农公式,车辆用户un将请求内容缓存到边缘接入点Rm的上行传输速率表示为
其中,σ2为高斯白噪声功率。
令车辆用户的请求文件的内容大小为αn(bytes)。因此,车辆用户un的数据传输时延可表示为Dn=αn/ζn,m,数据的总传输时延可表示为Dtotal=∑n∈NDn。此外,令ddln(s) 为车辆用户请求内容容许的最大传输时延。各车辆用户传输时延应小等于其请求内容所容许的最大传输时延,表示为Dn≤ddln。
(4)缓存模型:令表示为车辆用户请求的内容集合。定义(Pf)N×1为全局流行度,表示系统中各车辆用户请求内容fn的概率分布,其中pn为车辆用户un请求内容fn的局部流行度。假设(Pf)N×1遵循Mandelbrot-Zipf(MZipf)分布:
其中If是内容fn按内容流行度降序排列的排名,δ和β分别表示平台因子和偏度因子。
(5)车辆移动模型:车辆用户的速度被建模为高斯-马尔科夫随机过程;
具体而言,当车辆用户un以初始速度vn,0行驶时,根据时隙t-1处的速度vn,t-1和渐近速度可计算车辆用户un在时隙t处的速度vn,t,表示为
其中,和是车辆用户un速度的相应渐近均值和标准差。参数ηn∈[0,1]表示过去速度的记忆深度,决定车辆用户un移动的时间相关性。值得注意的是,ηn趋近于1 时,车辆用户un时隙t下的速度变得更加依赖于先前的速度。此外,k是一个均值为零、方差为的独立随机高斯过程。
进一步地,步骤2所述各车辆用户观测更新后的自身坐标及各边缘接入点剩余存储空间,具体为:
其中xn(t)和yn(t)表示当前车辆用户un在时隙t下的x坐标和y坐标,表示路边单元Rm在时隙t下的缓存状态。具体而言,时,路边单元Rm的剩余存储空间能够处理用户的缓存请求,而如果路边单元Rm因存储空间不足无法处理任何缓存请求。
进一步地,步骤3所述各车辆用户根据策略选择边缘接入点,执行边缘缓存动作,具体为:
进一步地,步骤4所述各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势,具体为:
(1)各车辆用户的奖励
为了最小化各用户缓存文件传输时延,各车辆用户的奖励函数rn(t)定义为
其中Dn是在相应动作下进行缓存的时间成本。如果各用户的决策满足约束条件,则直接获得奖励,否则,奖励为0。
(2)计算优势与回报
广义优势估计能够有效减少梯度估计的方差,被应用在近端策略优化算法中。令Vφ(st)为马尔可夫决策过程中的状态值函数,即为估计智能体在某一状态下的预期回报的函数。令γ为折扣因子。优势函数将状态值函数归一化,在后续用于计算损失函数,表示为
回报函数计算为
进一步地,步骤5所述根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略,具体为:
近端策略优化算法利用收集的动作、观测和奖励信息,以及通过广义优势估计计算得到的优势,计算策略梯度,引入重要性采样以提高采样效率,再以截断方法设计损失函数以避免重要性采样产生误差,进而对损失函数进行梯度上升以更新策略。
(1)策略梯度方法
策略梯度算法计算梯度估计,然后使用随机梯度下降算法得到最优策略。最广泛使用的梯度估计表示为
(2)重要性采样
传统on-policy方法的缺点是采样效率低,这意味着采样的数据只能用于更新一次策略。因此,近端策略优化算法引入了另一个策略q。有以下公式推导:
其中,来自策略q的样本可用于多次更新策略p。但只有当p和q分布相似时,期望才能近似相等。否则,可能会出现很大的误差。
(3)截断方法
近端策略优化算法使用截断方法来约束策略的更新,降低了对迭代步长的敏感度,保证每次得出的新策略与原策略相近,将损失函数定义为
其中,ε为一个超参数。clip()为截断函数,如果意味着当前动作产生的回报大于基准动作的预期回报,故更新策略增加该动作出现的概率,此概率不能高于原策略的1+ε倍。反之若说明当前动作的回报小于基准动作预期回报,降低该动作出现概率,不低于原策略的1-ε倍。
(4)多智能体集中训练分散执行框架
多智能体强化学习通常使用两种框架:集中式学习与分布式学习。集中式方法通常假设一个合作型博弈,并通过学习统一的策略以将单智能体强化学习算法扩展至多智能体场景,从而同时产生多智能体的联合动作。而在分布式学习中,每个智能体独立优化自身的奖励。
单纯的集中式学习与分布式学习可以解决一般的求和博弈,但即使面对简单的矩阵博弈也可能表现不稳定。集中训练分散执行方法通过采用执行者-评估者框架并使用一个集中式的评估者来解决这一问题。
多智能体近端策略优化为使用集中式值函数的集中训练分散执行算法。令所有车辆用户共享相同的执行者-评估者网络参数θ和φ,利用收集的动作、观测和奖励信息对网络进行更新。
(5)多智能体近端策略优化
多智能体近端策略优化算法在利用单智能体近端策略优化算法的基础上,使用值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽五个技巧提升了算法性能。
a.值归一化
通过平均值函数的估计值来对值函数进行归一化,稳定了对值函数的学习。具体来说,在学习过程中,标准化价值网络。在计算优势时,将反归一化价值网络的输出,适当缩放价值网络输出。
b.针对智能体的全局状态
多智能体近端策略优化算法中,对于智能体un,将全局状态与该智能体观测拼接为 {s,on},避免忽略某些状态信息,为进一步减小输入维度,裁切其中重复的信息后使用。
c.训练数据处理
由于多智能体强化学习的非平稳性,过于频繁的样本复用将降低多智能体近端策略优化的性能,故使用较少回合的样本进行训练。此外,由于在估计梯度时使用更多数据会提升算法性能,故避免将数据拆分为小批量。
d.动作屏蔽
根据算法应用的环境,或存在不可能被执行的动作,例如车辆用户选择缓存至存储容量已满的路边单元。在多智能体近端策略优化算法中,直接屏蔽这些无法执行的动作,提高算法效率。
e.死亡屏蔽
根据场景,智能体可能出现死亡的情况,例如车联网环境中车辆驶出场景范围。在多智能体近端策略优化算法中,屏蔽已死亡的智能体相关信息。
多智能体近端策略优化算法结合了单智能体近端策略优化和以上改进,基于步骤2~步骤3收集的动作、观测和奖励等信息,训练执行者-评估者网络。设定所有智能体共享执行者和评估者网络,集中训练共享的策略。执行者网络在损失函数中增加了策略的熵,通过最大化熵,增加策略的随机性,鼓励对策略的探索,避免过早陷入局部最优解。
设样本批量大小为Bs,通过最大化以下函数进行训练:
评估者网络通过最小化以下函数进行训练:
通过对LMAPPO(θ)进行梯度上升,对LMAPPO(φ)进行梯度下降,完成对策略网络的更新。
本实施例仿真采用python编程,参数设定不影响一般性。与所述方法进行对比的方法有:
(1)随机车联网边缘缓存决策方法;
(2)基于多智能体独立深度双Q网络的车联网分布式边缘缓存决策方法;
(3)基于单智能体近端策略优化的车联网集中式边缘缓存决策方法。
车辆边缘网络模型如图2所示。假设在长度为1千米的单向车道上有10辆车辆行驶,道路两侧各均匀分布5个路边单元,各路边单元广播覆盖范围为500米,一个宏基站覆盖全道路范围,所有用户与其距离约等于1千米。表1列出了其它的仿真参数。
表1主要仿真参数
如图3所示,相较于各对比方案,基于多智能体近端策略优化的车联网分布式边缘缓存决策方案收敛速度最快且收敛后的性能最优,验证了该方案能够大幅降低系统的传输时延且训练开销小。相比下,基于单智能体近端策略优化的车联网集中式边缘缓存决策方案收敛奖励较低且收敛速度较慢,原因在于近端策略优化算法作为on-policy算法,面对复杂的车联网环境,采样效率较低,与多智能体算法相比不具备优势。而基于多智能体近端策略优化的车联网分布式边缘缓存决策方案针对多智能体场景对近端策略优化算法作出多个改进,在车联网场景下更具优越性。
如图4~图5所示,多智能体近端策略算法的执行者和评估者网络均能得到更稳定的损失,说明对于车联网边缘缓存决策问题,充分考虑多智能体环境特性,应用基于多智能体近端策略优化的分布式边缘缓存决策方案,能够使执行者评估者网络的损失函数更稳定,保证方案更为稳定地探索到最优缓存策略。
如图6所示,随着用户数量增多,各方案的平均收敛奖励逐渐下降,其原因是边缘缓存资源紧张,使得车辆用户难以作出最小化传输时延的缓存部署决策。而当车辆用户达到20时,多智能体近端策略优化算法的车联网分布式边缘缓存方案仍具有最高的奖励。该现象说明在缓存资源紧缺的情况下,各车辆用户能够利用各自的观测协同制定最小化系统传输时延的决策,进一步验证了其在车辆网络复杂情况下的优越性。
Claims (8)
1.一种基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,包括以下步骤:
步骤1、输入车辆边缘网络环境,初始化执行者-评估者网络参数;
步骤2、各车辆用户观测自身坐标及各边缘接入点剩余存储空间;
步骤3、各车辆用户制定缓存策略,根据策略选择边缘接入点,执行边缘缓存动作;
步骤4、各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势;
步骤5、根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略;
步骤6、判断是否所有车辆抵达设定路段终点:如果否,则返回步骤2;如果是,则结束当前回合,进入步骤7;
步骤7、判断算法是否收敛:如果否,则返回步骤1;如果是,则算法结束,得到最终的车联网分布式边缘缓存决策。
2.根据权利要求1所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,步骤1中所述输入车辆边缘网络环境,其中车辆边缘网络环境包含:
(1.1)时隙模型:将连续的训练时间离散化为多个时隙,用正整数t∈{1,2,...,T}来表示第t个时隙;假设单个时隙内车辆用户完成一次边缘缓存决策以及位置移动,且单个时隙内发射功率和信道噪声等环境状态不发生改变,而当车辆用户全部抵达设定的道路终点时称为一个回合;
(1.2)网络模型:建立城市单向车道模型,假设网络中有N个车辆用户和M个边缘接入点,边缘接入点包括路边单元和宏基站;车辆用户沿单向车道行驶,表示为φU={u1,u2,...,uN};边缘接入点为车辆用户提供缓存服务,宏基站覆盖全路段范围,路边单元均匀分布在道路两侧,表示为φR={R0,R1,R2,...,RM},其中R0表示宏基站,{R1,R2,...,RM}表示路边单元;
(1.3)通信模型:假设车辆用户和边缘接入点之间的信道增益由路径损耗和瑞利衰减组成;令dm,n表示车辆用户un和边缘接入点Rm之间的距离,表示车辆用户un和边缘接入点Rm之间的信道的路径损耗,其中τ为路径损耗指数;此外,令hm,n~exp(μ)表示un和Rm之间的瑞利衰减,其中μ为相应的比例系数,且对于所有边缘接入点Rm与车辆用户un,hm,n相互独立;令信道增益为
假设车辆用户un以发射功率Pn在带宽为B的信道上进行通信;根据香农公式,车辆用户un将请求内容缓存到边缘接入点Rm的上行传输速率ζn,m(t)表示为
其中,σ2为高斯白噪声功率;
令车辆用户的请求文件的内容大小为αn(bytes),车辆用户un的数据传输时延表示为Dn=αn/ζn,m,数据的总传输时延表示为Dtotal=Σn∈NDn;此外,令ddln(s)为车辆用户请求内容容许的最大传输时延,各车辆用户传输时延应小等于其请求内容所容许的最大传输时延,表示为Dn≤ddln;
(1.4)缓存模型:令表示为车辆用户请求的内容集合;定义(Pf)N×1为全局流行度,表示系统中各车辆用户请求内容fn的概率分布,其中pn为车辆用户un请求内容fn的局部流行度;假设(Pf)N×1遵循Mandelbrot-Zipf即MZipf分布:
其中If是内容fn按内容流行度降序排列的排名,δ和β分别表示平台因子和偏度因子;
(1.5)车辆移动模型:车辆用户的速度被建模为高斯-马尔科夫随机过程;
具体而言,当车辆用户un以初始速度vn,0行驶时,根据时隙t-1处的速度vn,t-1和渐近速度计算车辆用户un在时隙t处的速度vn,t,表示为
5.根据权利要求4所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,步骤4所述各车辆用户计算时延相关奖励,根据广义优势估计方法计算回报与优势,具体为:
(4.1)各车辆用户的奖励
为了最小化各用户缓存文件传输时延,各车辆用户的奖励函数rn(t)定义为
其中Dn是在相应动作下进行缓存的时间成本;
如果各用户的决策满足约束条件,则直接获得奖励,否则,奖励为0;
(4.2)计算优势与回报
令V(st)为马尔可夫决策过程中的状态值函数,即为估计智能体在一状态下的预期回报的函数;令γ为折扣因子,rt为时隙t下的奖励,st为时隙t下的状态,优势函数将状态值函数归一化,在后续用于计算损失函数,表示为
回报函数计算为
6.根据权利要求5所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,步骤5所述根据收集的动作、观测和奖励信息,各车辆用户通过共享的策略网络进行集中式训练,以截断方法约束策略的更新,计算执行者-评估者网络的损失函数且更新共享策略,具体为:
(5.1)近端策略优化算法利用收集的动作、观测和奖励信息,以及通过广义优势估计计算得到的优势,计算策略梯度,具体如下:
策略梯度算法计算梯度估计,然后使用随机梯度下降算法得到最优策略,使用的梯度估计表示为
进行梯度更新时,构建一个梯度的损失函数,然后对该损失函数进行梯度上升或梯度下降;
(5.2)引入重要性采样以提高采样效率,重要性采样具体如下:
近端策略优化算法引入了另一个策略q,令f(x)为策略梯度,p(x)与q(x)为两个策略,计算策略梯度有以下公式推导:
其中,来自策略q的样本能够用于多次更新策略p;但只有当p和q分布相似时,期望才能近似相等;
(5.3)以截断方法设计损失函数以避免重要性采样产生误差,具体如下:
近端策略优化算法使用截断方法来约束策略的更新,降低对迭代步长的敏感度,保证每次得出的新策略与原策略相近,将损失函数定义为
如果意味着当前动作产生的回报大于基准动作的预期回报,故更新策略增加该动作出现的概率,此概率不能高于原策略的1+ε倍;反之若说明当前动作的回报小于基准动作预期回报,降低该动作出现概率,不低于原策略的1-ε倍;
(5.4)建立多智能体集中训练分散执行框架,具体如下:
多智能体近端策略优化为使用集中式值函数的集中训练分散执行算法,令所有车辆用户共享相同的执行者-评估者网络参数θ和φ,利用收集的动作、观测和奖励信息对网络进行更新;
(5.5)多智能体近端策略优化,具体如下:
多智能体近端策略优化算法在利用单智能体近端策略优化算法的基础上,使用值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽五个处理过程,对损失函数进行梯度上升以更新策略。
7.根据权利要求6所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,(5.5)中,值归一化、针对智能体的全局状态、训练数据处理、动作屏蔽和死亡屏蔽,具体如下:
a.值归一化
通过平均值函数的估计值来对值函数进行归一化,稳定对值函数的学习,具体来说,在学习过程中,标准化价值网络;在计算优势时,将反归一化价值网络的输出,缩放价值网络输出;
b.针对智能体的全局状态
多智能体近端策略优化算法中,对于智能体un,将全局状态与该智能体观测拼接为{s,on},其中s为全局状态,on为智能体un的局部观测,为进一步减小输入维度,将全局状态和局部观测间重复的信息裁切;
c.训练数据处理
由于多智能体强化学习的非平稳性,过于频繁的样本复用将降低多智能体近端策略优化的性能,故使用与单智能体近端策略优化算法相比较少回合的样本进行训练;此外,由于在估计梯度时使用更多数据会提升算法性能,故默认不将数据拆分为小批量;
d.动作屏蔽
根据算法应用的环境,或存在不可能被执行的动作,在多智能体近端策略优化算法中,直接屏蔽无法执行的动作;
e.死亡屏蔽
根据场景,智能体可能出现死亡的情况,在多智能体近端策略优化算法中,屏蔽已死亡的智能体相关信息。
8.根据权利要求7所述的基于多智能体近端策略的车联网分布式边缘缓存决策方法,其特征在于,多智能体近端策略优化,结合了单智能体近端策略优化和(5.5)中的改进,基于步骤2~步骤4收集的动作、观测和奖励信息,训练执行者-评估者网络;
设定所有智能体共享执行者和评估者网络,集中训练共享的策略,设样本批量大小为Bs,执行者网络在损失函数中增加了策略的熵,通过最大化熵,增加策略的随机性,鼓励对策略的探索,避免过早陷入局部最优解,令θ为执行者网络的参数,通过最大化以下函数进行训练:
令φ为评估者网络的参数,评估者网络通过最小化以下函数进行训练:
通过对LMAPPO(θ)进行梯度上升,对LMAPPO(φ)进行梯度下降,完成对策略网络的更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210867388.XA CN115277845A (zh) | 2022-07-22 | 2022-07-22 | 基于多智能体近端策略的车联网分布式边缘缓存决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210867388.XA CN115277845A (zh) | 2022-07-22 | 2022-07-22 | 基于多智能体近端策略的车联网分布式边缘缓存决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115277845A true CN115277845A (zh) | 2022-11-01 |
Family
ID=83768071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210867388.XA Pending CN115277845A (zh) | 2022-07-22 | 2022-07-22 | 基于多智能体近端策略的车联网分布式边缘缓存决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115277845A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115802465A (zh) * | 2023-02-01 | 2023-03-14 | 中国传媒大学 | 基于强化学习框架的d2d边缘缓存网络能耗管理方法 |
CN115809147A (zh) * | 2023-01-16 | 2023-03-17 | 合肥工业大学智能制造技术研究院 | 多边缘协作缓存调度优化方法、系统及模型训练方法 |
CN116597672A (zh) * | 2023-06-14 | 2023-08-15 | 南京云创大数据科技股份有限公司 | 基于多智能体近端策略优化算法的区域信号灯控制方法 |
CN116993028A (zh) * | 2023-09-27 | 2023-11-03 | 美云智数科技有限公司 | 车间排产方法、装置、存储介质及电子设备 |
-
2022
- 2022-07-22 CN CN202210867388.XA patent/CN115277845A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115809147A (zh) * | 2023-01-16 | 2023-03-17 | 合肥工业大学智能制造技术研究院 | 多边缘协作缓存调度优化方法、系统及模型训练方法 |
CN115809147B (zh) * | 2023-01-16 | 2023-04-25 | 合肥工业大学智能制造技术研究院 | 多边缘协作缓存调度优化方法、系统及模型训练方法 |
CN115802465A (zh) * | 2023-02-01 | 2023-03-14 | 中国传媒大学 | 基于强化学习框架的d2d边缘缓存网络能耗管理方法 |
CN116597672A (zh) * | 2023-06-14 | 2023-08-15 | 南京云创大数据科技股份有限公司 | 基于多智能体近端策略优化算法的区域信号灯控制方法 |
CN116597672B (zh) * | 2023-06-14 | 2024-02-13 | 南京云创大数据科技股份有限公司 | 基于多智能体近端策略优化算法的区域信号灯控制方法 |
CN116993028A (zh) * | 2023-09-27 | 2023-11-03 | 美云智数科技有限公司 | 车间排产方法、装置、存储介质及电子设备 |
CN116993028B (zh) * | 2023-09-27 | 2024-01-23 | 美云智数科技有限公司 | 车间排产方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115277845A (zh) | 基于多智能体近端策略的车联网分布式边缘缓存决策方法 | |
CN112601197B (zh) | 一种基于非正交多址的车联网络中资源优化方法 | |
Tian et al. | CoPace: Edge computation offloading and caching for self-driving with deep reinforcement learning | |
CN111132074B (zh) | 车联网环境下多接入边缘计算卸载和帧时隙资源分配方法 | |
Zhang et al. | Novel edge caching approach based on multi-agent deep reinforcement learning for internet of vehicles | |
Wu et al. | Load balance guaranteed vehicle-to-vehicle computation offloading for min-max fairness in VANETs | |
CN115134242B (zh) | 一种基于深度强化学习策略的车载计算任务卸载方法 | |
CN114449482B (zh) | 基于多智能体深度强化学习的异构车联网用户关联方法 | |
CN113382383A (zh) | 一种基于策略梯度的公交车辆计算任务卸载方法 | |
CN116782296A (zh) | 一种基于数字孪生的车联网边缘计算卸载多目标决策方法 | |
CN115052262A (zh) | 一种基于势博弈的车联网计算卸载与功率优化方法 | |
CN114626298A (zh) | 无人机辅助车联网中高效缓存和任务卸载的状态更新方法 | |
Lv et al. | Edge computing task offloading for environmental perception of autonomous vehicles in 6G networks | |
Hazarika et al. | Multi-agent DRL-based computation offloading in multiple RIS-aided IoV networks | |
Wang et al. | Research on V2I/V2V hybrid multi-hop edge computing offloading algorithm in IoV environment | |
CN114374949A (zh) | 一种车联网中基于信息新鲜度优化的功率控制机制 | |
Koshimizu et al. | Normalized multi-dimensional parameter based affinity propagation clustering for cellular V2X | |
Zhao et al. | DRL Connects Lyapunov in Delay and Stability Optimization for Offloading Proactive Sensing Tasks of RSUs | |
CN116546429B (zh) | 一种车联网联邦学习中的车辆选择方法和系统 | |
Maleki et al. | Reinforcement learning-based decision-making for vehicular edge computing | |
CN117580063A (zh) | 一种车联网络中多维资源协同管理方法 | |
Zhu et al. | Federated deep reinforcement learning-based spectrum access algorithm with warranty contract in intelligent transportation systems | |
CN115118783A (zh) | 基于异构通信技术超可靠低时延强化学习的任务卸载方法 | |
Lu et al. | Enhancing vehicular edge computing system through cooperative computation offloading | |
Ma et al. | Deep Reinforcement Learning-based Edge Caching and Multi-link Cooperative Communication in Internet-of-Vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |