CN113993168A - 一种雾无线接入网中基于多智能体强化学习的协作缓存方法 - Google Patents

一种雾无线接入网中基于多智能体强化学习的协作缓存方法 Download PDF

Info

Publication number
CN113993168A
CN113993168A CN202111255936.5A CN202111255936A CN113993168A CN 113993168 A CN113993168 A CN 113993168A CN 202111255936 A CN202111255936 A CN 202111255936A CN 113993168 A CN113993168 A CN 113993168A
Authority
CN
China
Prior art keywords
node
cache
file
cache node
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111255936.5A
Other languages
English (en)
Other versions
CN113993168B (zh
Inventor
蒋雁翔
常琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202111255936.5A priority Critical patent/CN113993168B/zh
Publication of CN113993168A publication Critical patent/CN113993168A/zh
Application granted granted Critical
Publication of CN113993168B publication Critical patent/CN113993168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/10Flow control between communication endpoints
    • H04W28/14Flow control between communication endpoints using intermediate storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种雾无线接入网中基于多智能体强化学习的协作缓存方法,包括:根据缓存节点的区域文件流行度,初始化各节点的缓存状态向量、动作向量、历史缓存记录向量以及深度强化学习参数;根据用户请求文件,每个节点的学习模型做出缓存决策;每个节点根据缓存决策更新其历史缓存记录,并与邻近的节点进行通信;缓存节点根据当前的缓存状态和邻近节点状态,选择传输路径应答用户请求,并且计算用户需求的传输时延;根据传输延迟,缓存节点计算全局的价值函数,对自身学习和邻近节点的学习模型参数进行更新;在遍历所有缓存节点后,一个训练周期结束。本发明加强缓存节点之间的交互,进一步的降低用户需求时延。

Description

一种雾无线接入网中基于多智能体强化学习的协作缓存方法
技术领域
本发明涉及移动通信系统中边缘网络的协作缓存领域,特别是涉及一种雾无线接入网中基于多智能体强化学习的协作缓存方法。
背景技术
随着5G时代的到来,智能设备和移动应用服务的不断发展,产生的海量信息数据给无线蜂窝网络带了巨大的流量压力。雾无线接入网络作为5G通信系统中的新型系统架构在提高带宽效率解决链路堵塞具有广阔的前景。在雾无线接入网络中,边缘缓存可以通过将流行的内容放在离用户更近的边缘节点,也称为缓存节点,降低回程链路的负载压力和传输延迟。由于缓存节点的缓存容量以及节点之间的通信资源限制,缓存内容决策问题是目前边缘缓存研究的重要方向。
近年来,强化学习已经成为在雾无线接入网络中优化协作缓存问题的重要算法。但是,大多数强化学习算法都是直接对所有缓存节点进行训练,缺乏缓存节点之间交互。此外,这些算法将学习代理部署在云服务器中,这将导致算法学习速度下降,且对缓存节点之间的协作能力考虑不足。如果能够在缓存节点之间建立通信过程,使每个缓存节点的缓存决策充分考虑其他协作节点的缓存状态。同时,将学习代理部署在每个缓存节点上,使节点通过对用户需求的预测和邻近节点的状态信息交互做出动态的缓存决策,降低用户请求延迟。
发明内容
有鉴于此,本发明的目的在于提供一种雾无线接入网中基于多智能体强化学习的协作缓存方法,以解决用户内容请求延迟高,缓存节点协作能力不充分的技术问题。
为了实现上述目的,本发明采用如下技术方案:
一种雾无线接入网中基于多智能体强化学习的协作缓存方法,所述协作缓存方法包括如下步骤:
步骤S1、根据所有缓存节点的区域内容流行度[P1,P2,...,Pn,...,PN],初始化缓存节点n的状态空间
Figure BDA0003324143580000011
历史缓存记录
Figure BDA0003324143580000012
对协作节点m的观测值
Figure BDA0003324143580000013
以及深度强化学习的当前网络参数
Figure BDA0003324143580000014
并设定深度强化学习的目标网络参数
Figure BDA0003324143580000015
得到所有缓存节点的联合状态空间
Figure BDA0003324143580000016
其中,N为雾无线接入网中的缓存节点的总个数,
Figure BDA0003324143580000017
协作节点m为通过后传链路与缓存节点n建立连接的节点;
步骤S2、在第t个时隙,定义缓存节点n的状态空间
Figure BDA0003324143580000021
Figure BDA0003324143580000022
其中,
Figure BDA0003324143580000023
表示缓存节点n的存储空间中第s个位置存储的文件索引,F表示文件库中文件总数,
Figure BDA0003324143580000024
表示缓存节点n所收集到的用户请求内容,S表示缓存节点n可缓存的文件最大数量;
并且定义缓存节点n的动作空间
Figure BDA0003324143580000025
其中,
Figure BDA0003324143580000026
表示缓存节点n将用收集到的用户请求文件
Figure BDA0003324143580000027
替代存储空间中的第s个文件,
Figure BDA0003324143580000028
表示缓存节点n所收集到的用户请求文件
Figure BDA0003324143580000029
不需要被缓存;
步骤S3、缓存节点n收集用户的文件请求,基于本地内容缓存信息,进行缓存动作
Figure BDA00033241435800000210
的选择,做出缓存决策:
步骤S4、缓存节点n根据选择的动作,更新缓存节点的历史缓存记录
Figure BDA00033241435800000211
并与邻近的节点建立通信过程,传递缓存节点的历史缓存记录,得到对协作节点的观察值
Figure BDA00033241435800000212
步骤S5、基于步骤S4中缓存节点n做出的缓存决策计算用户的文件传输时延,建立文件传输的优化问题,并转化为多智能体学习模型中的全局价值函数Rt进行求解;
步骤S6、利用梯度下降法对缓存节点n和其协作节点m的强化学习模型参数
Figure BDA00033241435800000213
Figure BDA00033241435800000214
进行训练,进入下一个缓存节点n=n+1,遍历所有缓存节点,一个训练周期结束,t=t+1。
进一步的,所述步骤S3具体包括:
步骤S301、缓存节点n获取其覆盖区域内的所有用户发送的文件请求,再根据获取的文件请求概率得到该区域内的文件流行度,其中,该文件请求为用户根据其自身文件喜好度来决定的,定义
Figure BDA00033241435800000215
为缓存节点n中的用户u对文件f的文件请求概率,则,缓存节点n根据所有用户的文件请求概率得到该区域内的文件流行度,表达式为:
Figure BDA00033241435800000216
公式中,Un为缓存节点n覆盖区域内的用户集合,内容流行度向量为
Figure BDA00033241435800000217
步骤S302、缓存节点n的强化学习模型会根据事先设定的贪婪算法的贪婪因子ε,进行缓存动作
Figure BDA0003324143580000031
的选取:
Figure BDA0003324143580000032
公式中,
Figure BDA0003324143580000033
是缓存节点n中深度强化学习的当前网络的动作价值函数,
Figure BDA0003324143580000034
为深度强化学习的当前网络的参数;
步骤S303、缓存节点n根据选取的动作
Figure BDA0003324143580000035
进行缓存替代操作,得到一个新的状态空间
Figure BDA0003324143580000036
进一步的,所述步骤S4具体包括:
步骤S401、缓存节点n根据所选择的动作
Figure BDA0003324143580000037
计算缓存节点n的历史缓存记录,具体包括:
Figure BDA0003324143580000038
则表示缓存节点n不会发生文件的替换,即缓存节点n对文件f的历史缓存记录为
Figure BDA0003324143580000039
Figure BDA00033241435800000310
则表示缓存节点n将存储空间中的第
Figure BDA00033241435800000311
个文件替换为请求文件f,即缓存节点n对文件f的历史缓存记录为
Figure BDA00033241435800000312
同时被替换的文件进行更新
Figure BDA00033241435800000313
步骤S402、缓存节点n在完成对历史缓存记录的更新后,通过与邻近的节点的通信过程交互,得到对邻近的节点缓存状态信息:
Figure BDA00033241435800000314
公式中,Nn为可与缓存节点n进行协作的节点集合。
进一步的,所述步骤S5具体包括:
步骤S501、判断缓存节点n以及其邻近的节点是否有缓存文件f,其中,
若缓存节点n已经缓存文件f,则缓存节点n直接将内容发送给用户,产生的文件传输延迟为
Figure BDA00033241435800000315
其中,
Figure BDA00033241435800000316
表示将文件f发送给用户所需要的时间;
若缓存节点n没有缓存文件f,但缓存节点n的邻近节点m∈Nn缓存了文件f,则邻近节点m将文件f传输给缓存节点n,再通过缓存节点n发送给用户,产生的文件传输延迟为
Figure BDA0003324143580000041
其中,
Figure BDA0003324143580000042
表示将文件f从节点m发送到节点n所需要的时间;
若缓存节点n和其邻近的节点都没有缓存文件f,则文件f将从云服务器的文件库中发送给节点n,再由节点发送给用户,产生的文件传输时延为
Figure BDA0003324143580000043
其中,
Figure BDA0003324143580000044
表示将文件f从云服务器发送到节点n所需要的时间;
步骤S502、根据缓存节点n的缓存策略,在时隙t时,用户请求文件的平均时延为:
Figure BDA0003324143580000045
公式中,xn,f为指示缓存节点n是否缓存文件f的二值变量,xn,f=1表示缓存节点n是否缓存文件f,否则,xn,f=0;
步骤S503、基于步骤S502中的用户请求时延得到如下的整数规划并求解:
Figure BDA0003324143580000046
Figure BDA0003324143580000047
公式中,S表示节点可缓存的文件数量上限;
步骤S504、缓存节点n根据用户请求的时延计算多智能学习中全局价值函数:
Figure BDA0003324143580000048
公式中,λ为保证价值函数归一化而设定的参数。
进一步的,所述步骤S6具体包括:
步骤S601、根据全局回报函数得到状态价值函数:
Figure BDA0003324143580000049
公式中,
Figure BDA0003324143580000051
为缓存节点n中深度强化学习目标网络的状态价值函数,γ定义为价值衰落因子,
Figure BDA0003324143580000052
为根据深度强化学习当前网络的状态价值函数选择的动作;
步骤S602、利用梯度下降法,对缓存节点n以及其邻近节点m(m∈Nn)的深度强化学习参数进行更新:
Figure BDA0003324143580000053
公式中,i=n,m;
步骤S603、令n=n+1,回到步骤S2进行下一个缓存节点的优化,当n>N时,一个训练周期结束,n=1,t=t+1,进行下一时隙的训练。
本发明的有益效果是:
1、本发明通过在每个节点搭载一个深度强化学习模型进行缓存决策的学习,使得缓存节点可以根据用户内容请求和缓存内容即可做出最优的缓存决策,从而实现动态的缓存内容部署;
2、本发明通过引入缓存节点之间的通信过程,使缓存节点得到邻近节点的缓存状态信息,在决策中充分考虑协作节点的缓存内容,增强了节点之间的缓存协作,避免缓存内容的冗余;
3、本发明根据每个节点的缓存决策对缓存节点和其协作的节点进行的联合训练,加快了算法的收敛速度。
附图说明
图1为实施例1中提供的一种雾无线接入网中基于多智能体强化学习的协作缓存方法的流程示意图;
图2为实施例1中提供的协作缓存方法与传统边缘缓存策略在平均传输时延方面的仿真对比示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1和图2,本实施例提供一种雾无线接入网中基于多智能体强化学习的协作缓存方法,该方法具体包括:
步骤S1、根据所有缓存节点的区域内容流行度[P1,P2,...,Pn,...,PN],初始化缓存节点n的状态空间
Figure BDA0003324143580000061
历史缓存记录
Figure BDA0003324143580000062
对协作节点m的观测值
Figure BDA0003324143580000063
以及深度强化学习的当前网络参数
Figure BDA0003324143580000064
并设定深度强化学习的目标网络参数
Figure BDA0003324143580000065
得到所有缓存节点的联合状态空间
Figure BDA0003324143580000066
其中,N为雾无线接入网中的缓存节点的总个数,
Figure BDA0003324143580000067
协作节点m为通过后传链路与缓存节点n建立连接的节点;
步骤S2、在第t个时隙,定义缓存节点n的状态空间
Figure BDA0003324143580000068
Figure BDA0003324143580000069
其中,
Figure BDA00033241435800000610
表示缓存节点n的存储空间中第s个位置存储的文件索引,F表示文件库中文件总数,
Figure BDA00033241435800000611
表示缓存节点n所收集到的用户请求内容,S表示缓存节点n可缓存的文件最大数量;
定义缓存节点n的动作空间
Figure BDA00033241435800000612
其中,
Figure BDA00033241435800000613
表示缓存节点n将用收集到的用户请求文件
Figure BDA00033241435800000614
替代存储空间中的第s个文件,
Figure BDA00033241435800000615
表示缓存节点n所收集到的用户请求文件
Figure BDA00033241435800000616
不需要被缓存;
步骤S3、缓存节点n收集用户的文件请求,基于本地内容缓存信息,进行缓存动作
Figure BDA00033241435800000617
的选择,做出缓存决策:
具体的说,在本实施例中,该步骤S3具体包括:
步骤S301、缓存节点n获取其覆盖区域内的所有用户发送的文件请求,再根据获取的文件请求概率得到该区域内的文件流行度,其中,该文件请求为用户根据其自身文件喜好度来决定的,定义
Figure BDA00033241435800000618
为缓存节点n中的用户u对文件f的文件请求概率,则,缓存节点n根据所有用户的文件请求概率得到该区域内的文件流行度,表达式为:
Figure BDA00033241435800000619
公式中,Un为缓存节点n覆盖区域内的用户集合,内容流行度向量为
Figure BDA00033241435800000620
步骤S302、缓存节点n的强化学习模型会根据事先设定的贪婪算法的贪婪因子ε,进行缓存动作
Figure BDA0003324143580000071
的选取:
Figure BDA0003324143580000072
公式中,
Figure BDA0003324143580000073
是缓存节点n中深度强化学习的当前网络的动作价值函数,
Figure BDA0003324143580000074
为深度强化学习的当前网络的参数;
步骤S303、缓存节点n根据选取的动作
Figure BDA0003324143580000075
进行缓存替代操作,得到一个新的状态空间
Figure BDA0003324143580000076
步骤S4、缓存节点n根据选择的动作,更新缓存节点的历史缓存记录
Figure BDA0003324143580000077
并与邻近的节点建立通信过程,传递缓存节点的历史缓存记录,得到对协作节点的观察值
Figure BDA0003324143580000078
具体的说,在本实施例中,该步骤S4具体包括:
步骤S401、缓存节点n根据所选择的动作
Figure BDA0003324143580000079
计算缓存节点n的历史缓存记录,具体包括:
Figure BDA00033241435800000710
则表示缓存节点n不会发生文件的替换,即缓存节点n对文件f的历史缓存记录为
Figure BDA00033241435800000711
Figure BDA00033241435800000712
则表示缓存节点n将存储空间中的第
Figure BDA00033241435800000713
个文件替换为请求文件f,即缓存节点n对文件f的历史缓存记录为
Figure BDA00033241435800000714
同时被替换的文件进行更新
Figure BDA00033241435800000715
步骤S402、缓存节点n在完成对历史缓存记录的更新后,通过与邻近的节点的通信过程交互,得到对邻近的节点缓存状态信息:
Figure BDA00033241435800000716
公式中,Nn为可与缓存节点n进行协作的节点集合。
步骤S5、基于步骤S4中缓存节点n做出的缓存决策计算用户的文件传输时延,建立文件传输的优化问题,并转化为多智能体学习模型中的全局价值函数Rt进行求解;
具体的说,本实施例中,该步骤S5具体包括:
步骤S501、判断缓存节点n以及其邻近的节点是否有缓存文件f,其中,
若缓存节点n已经缓存文件f,则缓存节点n直接将内容发送给用户,产生的文件传输延迟为
Figure BDA0003324143580000081
其中,
Figure BDA0003324143580000082
表示将文件f发送给用户所需要的时间;
若缓存节点n没有缓存文件f,但缓存节点n的邻近节点m∈Nn缓存了文件f,则邻近节点m将文件f传输给缓存节点n,再通过缓存节点n发送给用户,产生的文件传输延迟为
Figure BDA0003324143580000083
其中,
Figure BDA0003324143580000084
表示将文件f从节点m发送到节点n所需要的时间;
若缓存节点n和其邻近的节点都没有缓存文件f,则文件f将从云服务器的文件库中发送给节点n,再由节点发送给用户,产生的文件传输时延为
Figure BDA0003324143580000085
其中,
Figure BDA0003324143580000086
表示将文件f从云服务器发送到节点n所需要的时间;
步骤S502、根据缓存节点n的缓存策略,在时隙t时,用户请求文件的平均时延为:
Figure BDA0003324143580000087
公式中,xn,f为指示缓存节点n是否缓存文件f的二值变量,xn,f=1表示缓存节点n是否缓存文件f,否则,xn,f=0;
步骤S503、基于步骤S502中的用户请求时延得到如下的整数规划并求解:
Figure BDA0003324143580000088
Figure BDA0003324143580000089
公式中,S表示节点可缓存的文件数量上限;
步骤S504、缓存节点n根据用户请求的时延计算多智能学习中全局价值函数:
Figure BDA00033241435800000810
公式中,λ为保证价值函数归一化而设定的参数。
步骤S6、利用梯度下降法对缓存节点n和其协作节点m的强化学习模型参数
Figure BDA00033241435800000811
Figure BDA00033241435800000812
进行训练,进入下一个缓存节点n=n+1,遍历所有缓存节点,一个训练周期结束,t=t+1。
具体的说,在本实施例中,该步骤S6具体包括:
步骤S601、根据全局回报函数得到状态价值函数:
Figure BDA0003324143580000091
公式中,
Figure BDA0003324143580000092
为缓存节点n中深度强化学习目标网络的状态价值函数,γ定义为价值衰落因子,
Figure BDA0003324143580000093
为根据深度强化学习当前网络的状态价值函数选择的动作;
步骤S602、利用梯度下降法,对缓存节点n以及其邻近节点m(m∈Nn)的深度强化学习参数进行更新:
Figure BDA0003324143580000094
公式中,i=n,m;
步骤S603、令n=n+1,回到步骤S2进行下一个缓存节点的优化,当n>N时,一个训练周期结束,n=1,t=t+1,进行下一时隙的训练。
为了验证本实施例提供的一种雾无线接入网中基于多智能体强化学习的协作缓存方法的先进性,因此将本实施例提供的方法与最近最少使用缓存方法(Least RecentlyUsed,LRU),独立Q学习缓存方法(Independent QLearning,IQL)和深度Q网络缓存方法(Deep Q network,DQN)这三种缓存方法进行比较分析,具体的仿真结果如图2所示。
本实施例基于的多智能体强化学习方法的平均传输时延性能明显更优,其中多智能体强化学习方法具体为基于双层深度Q网络(Double Deep Q Network,DDQN)和多智能体系统(Multi Agent System,MAS)的协作缓存方法。
本发明未详述之处,均为本领域技术人员的公知技术。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (5)

1.一种雾无线接入网中基于多智能体强化学习的协作缓存方法,其特征在于,所述协作缓存方法包括如下步骤:
步骤S1、根据所有缓存节点的区域内容流行度[P1,P2,...,Pn,...,PN],初始化缓存节点n的状态空间
Figure FDA0003324143570000011
历史缓存记录
Figure FDA0003324143570000012
对协作节点m的观测值
Figure FDA0003324143570000013
以及深度强化学习的当前网络参数
Figure FDA0003324143570000014
并设定深度强化学习的目标网络参数
Figure FDA0003324143570000015
得到所有缓存节点的联合状态空间
Figure FDA0003324143570000016
其中,N为雾无线接入网中的缓存节点的总个数,
Figure FDA0003324143570000017
协作节点m为通过后传链路与缓存节点n建立连接的节点;
步骤S2、在第t个时隙,定义缓存节点n的状态空间
Figure FDA0003324143570000018
Figure FDA0003324143570000019
其中,
Figure FDA00033241435700000110
表示缓存节点n的存储空间中第s个位置存储的文件索引,F表示文件库中文件总数,
Figure FDA00033241435700000111
表示缓存节点n所收集到的用户请求内容,S表示缓存节点n可缓存的文件最大数量;
并且定义缓存节点n的动作空间
Figure FDA00033241435700000112
其中,
Figure FDA00033241435700000113
表示缓存节点n将用收集到的用户请求文件
Figure FDA00033241435700000114
替代存储空间中的第s个文件,
Figure FDA00033241435700000115
表示缓存节点n所收集到的用户请求文件
Figure FDA00033241435700000116
不需要被缓存;
步骤S3、缓存节点n收集用户的文件请求,基于本地内容缓存信息,进行缓存动作
Figure FDA00033241435700000117
的选择,做出缓存决策:
步骤S4、缓存节点n根据选择的动作,更新缓存节点的历史缓存记录
Figure FDA00033241435700000118
并与邻近的节点建立通信过程,传递缓存节点的历史缓存记录,得到对协作节点的观察值
Figure FDA00033241435700000119
步骤S5、基于步骤S4中缓存节点n做出的缓存决策计算用户的文件传输时延,建立文件传输的优化问题,并转化为多智能体学习模型中的全局价值函数Rt进行求解;
步骤S6、利用梯度下降法对缓存节点n和其协作节点m的强化学习模型参数
Figure FDA00033241435700000120
Figure FDA00033241435700000121
进行训练,进入下一个缓存节点n=n+1,遍历所有缓存节点,一个训练周期结束,t=t+1。
2.根据权利要求1所述的一种雾无线接入网中基于多智能体强化学习的协作缓存方法,其特征在于,所述步骤S3具体包括:
步骤S301、缓存节点n获取其覆盖区域内的所有用户发送的文件请求,再根据获取的文件请求概率得到该区域内的文件流行度,其中,该文件请求为用户根据其自身文件喜好度来决定的,定义
Figure FDA0003324143570000021
为缓存节点n中的用户u对文件f的文件请求概率,则,缓存节点n根据所有用户的文件请求概率得到该区域内的文件流行度,表达式为:
Figure FDA0003324143570000022
公式中,Un为缓存节点n覆盖区域内的用户集合,内容流行度向量为
Figure FDA0003324143570000023
步骤S302、缓存节点n的强化学习模型会根据事先设定的贪婪算法的贪婪因子ε,进行缓存动作
Figure FDA0003324143570000024
的选取:
Figure FDA0003324143570000025
公式中,
Figure FDA0003324143570000026
是缓存节点n中深度强化学习的当前网络的动作价值函数,
Figure FDA0003324143570000027
为深度强化学习的当前网络的参数;
步骤S303、缓存节点n根据选取的动作
Figure FDA0003324143570000028
进行缓存替代操作,得到一个新的状态空间
Figure FDA0003324143570000029
3.根据权利要求2所述的一种雾无线接入网中基于多智能体强化学习的协作缓存方法,其特征在于,所述步骤S4具体包括:
步骤S401、缓存节点n根据所选择的动作
Figure FDA00033241435700000210
计算缓存节点n的历史缓存记录,具体包括:
Figure FDA00033241435700000211
则表示缓存节点n不会发生文件的替换,即缓存节点n对文件f的历史缓存记录为
Figure FDA00033241435700000212
Figure FDA00033241435700000213
则表示缓存节点n将存储空间中的第
Figure FDA00033241435700000214
个文件替换为请求文件f,即缓存节点n对文件f的历史缓存记录为
Figure FDA00033241435700000215
同时被替换的文件进行更新
Figure FDA00033241435700000216
步骤S402、缓存节点n在完成对历史缓存记录的更新后,通过与邻近的节点的通信过程交互,得到对邻近的节点缓存状态信息:
Figure FDA0003324143570000031
公式中,Nn为可与缓存节点n进行协作的节点集合。
4.根据权利要求3所述的一种雾无线接入网中基于多智能体强化学习的协作缓存方法,其特征在于,所述步骤S5具体包括:
步骤S501、判断缓存节点n以及其邻近的节点是否有缓存文件f,其中,
若缓存节点n已经缓存文件f,则缓存节点n直接将内容发送给用户,产生的文件传输延迟为
Figure FDA0003324143570000032
其中,
Figure FDA0003324143570000033
表示将文件f发送给用户所需要的时间;
若缓存节点n没有缓存文件f,但缓存节点n的邻近节点m∈Nn缓存了文件f,则邻近节点m将文件f传输给缓存节点n,再通过缓存节点n发送给用户,产生的文件传输延迟为
Figure FDA0003324143570000034
其中,
Figure FDA0003324143570000035
表示将文件f从节点m发送到节点n所需要的时间;
若缓存节点n和其邻近的节点都没有缓存文件f,则文件f将从云服务器的文件库中发送给节点n,再由节点发送给用户,产生的文件传输时延为
Figure FDA0003324143570000036
其中,
Figure FDA0003324143570000037
表示将文件f从云服务器发送到节点n所需要的时间;
步骤S502、根据缓存节点n的缓存策略,在时隙t时,用户请求文件的平均时延为:
Figure FDA0003324143570000038
公式中,xn,f为指示缓存节点n是否缓存文件f的二值变量,xn,f=1表示缓存节点n是否缓存文件f,否则,xn,f=0;
步骤S503、基于步骤S502中的用户请求时延得到如下的整数规划并求解:
Figure FDA0003324143570000039
Figure FDA00033241435700000310
公式中,S表示节点可缓存的文件数量上限;
步骤S504、缓存节点n根据用户请求的时延计算多智能学习中全局价值函数:
Figure FDA0003324143570000041
公式中,λ为保证价值函数归一化而设定的参数。
5.根据权利要求4所述的一种雾无线接入网中基于多智能体强化学习的协作缓存方法,其特征在于,所述步骤S6具体包括:
步骤S601、根据全局回报函数得到状态价值函数:
Figure FDA0003324143570000042
公式中,
Figure FDA0003324143570000043
为缓存节点n中深度强化学习目标网络的状态价值函数,γ定义为价值衰落因子,
Figure FDA0003324143570000044
为根据深度强化学习当前网络的状态价值函数选择的动作;
步骤S602、利用梯度下降法,对缓存节点n以及其邻近节点m(m∈Nn)的深度强化学习参数进行更新:
Figure FDA0003324143570000045
公式中,i=n,m;
步骤S603、令n=n+1,回到步骤S2进行下一个缓存节点的优化,当n>N时,一个训练周期结束,n=1,t=t+1,进行下一时隙的训练。
CN202111255936.5A 2021-10-27 2021-10-27 一种雾无线接入网中基于多智能体强化学习的协作缓存方法 Active CN113993168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111255936.5A CN113993168B (zh) 2021-10-27 2021-10-27 一种雾无线接入网中基于多智能体强化学习的协作缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111255936.5A CN113993168B (zh) 2021-10-27 2021-10-27 一种雾无线接入网中基于多智能体强化学习的协作缓存方法

Publications (2)

Publication Number Publication Date
CN113993168A true CN113993168A (zh) 2022-01-28
CN113993168B CN113993168B (zh) 2024-02-09

Family

ID=79742568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111255936.5A Active CN113993168B (zh) 2021-10-27 2021-10-27 一种雾无线接入网中基于多智能体强化学习的协作缓存方法

Country Status (1)

Country Link
CN (1) CN113993168B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115065728A (zh) * 2022-06-13 2022-09-16 福州大学 一种基于多策略强化学习的多目标内容存储方法
CN115714814A (zh) * 2022-05-11 2023-02-24 重庆大学 一种基于多智能体强化学习的边缘缓存替换方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109587715A (zh) * 2018-12-13 2019-04-05 广州大学 一种基于多智能体强化学习的分布式缓存策略
CN109873869A (zh) * 2019-03-05 2019-06-11 东南大学 一种雾无线接入网中基于强化学习的边缘缓存方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109587715A (zh) * 2018-12-13 2019-04-05 广州大学 一种基于多智能体强化学习的分布式缓存策略
CN109873869A (zh) * 2019-03-05 2019-06-11 东南大学 一种雾无线接入网中基于强化学习的边缘缓存方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MIN ZHANG 等: "Cooperative Edge Caching via Federated Deep Reinforcement Learning in Fog-RANs", 2021 IEEE INTERNATIONAL CONFERENCE ON COMMUNICATIONS WORKSHOPS *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115714814A (zh) * 2022-05-11 2023-02-24 重庆大学 一种基于多智能体强化学习的边缘缓存替换方法
CN115714814B (zh) * 2022-05-11 2024-05-07 重庆大学 一种基于多智能体强化学习的边缘缓存替换方法
CN115065728A (zh) * 2022-06-13 2022-09-16 福州大学 一种基于多策略强化学习的多目标内容存储方法
CN115065728B (zh) * 2022-06-13 2023-12-08 福州大学 一种基于多策略强化学习的多目标内容存储方法

Also Published As

Publication number Publication date
CN113993168B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN109391681B (zh) 基于mec的v2x移动性预测与内容缓存卸载方案
EP3605329B1 (en) Connected cache empowered edge cloud computing offloading
CN112020103B (zh) 一种移动边缘云中的内容缓存部署方法
CN112995950B (zh) 一种车联网中基于深度强化学习的资源联合分配方法
CN112218337B (zh) 一种移动边缘计算中的缓存策略决策方法
CN111836283A (zh) 一种基于mec多服务器的车联网资源分配方法
CN111031102A (zh) 一种多用户、多任务的移动边缘计算系统中可缓存的任务迁移方法
CN108093435B (zh) 基于缓存流行内容的蜂窝下行链路网络能效优化系统及方法
CN113993168A (zh) 一种雾无线接入网中基于多智能体强化学习的协作缓存方法
CN108600998A (zh) 超密度蜂窝与d2d异构融合网络缓存优化决策方法
CN113382059A (zh) 一种雾无线接入网中基于联邦强化学习的协作缓存方法
CN115065728B (zh) 一种基于多策略强化学习的多目标内容存储方法
CN114615730B (zh) 回程受限密集无线网络面向内容覆盖的功率分配方法
Li et al. Learning-based hierarchical edge caching for cloud-aided heterogeneous networks
Li et al. DQN-enabled content caching and quantum ant colony-based computation offloading in MEC
Ouyang Task offloading algorithm of vehicle edge computing environment based on Dueling-DQN
CN116916390A (zh) 一种结合资源分配的边缘协作缓存优化方法及装置
CN117459112A (zh) 基于图卷积网络的leo卫星网络中的移动边缘缓存方法及设备
CN111556531A (zh) 一种微蜂窝无线网中的协作缓存优化方法
CN113810933A (zh) 一种基于能量采集与用户移动性的缓存方法
CN112261628A (zh) 一种应用于d2d设备的内容边缘缓存架构方法
Ma Communication Resource Allocation Strategy of Internet of Vehicles Based on MEC.
CN118102386B (zh) D2d辅助mec网络中的服务缓存和任务卸载联合优化方法及系统
CN115696296B (zh) 一种基于社区发现和加权联邦学习的主动边缘缓存方法
CN115051999B (zh) 基于云边协同的能耗最优任务卸载方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant