CN115714814A - 一种基于多智能体强化学习的边缘缓存替换方法 - Google Patents

一种基于多智能体强化学习的边缘缓存替换方法 Download PDF

Info

Publication number
CN115714814A
CN115714814A CN202210513240.6A CN202210513240A CN115714814A CN 115714814 A CN115714814 A CN 115714814A CN 202210513240 A CN202210513240 A CN 202210513240A CN 115714814 A CN115714814 A CN 115714814A
Authority
CN
China
Prior art keywords
network
agent
cache
user
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210513240.6A
Other languages
English (en)
Other versions
CN115714814B (zh
Inventor
范琪琳
史若涵
李秀华
付澍
陈蒙
王悦阳
刘奇峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210513240.6A priority Critical patent/CN115714814B/zh
Publication of CN115714814A publication Critical patent/CN115714814A/zh
Application granted granted Critical
Publication of CN115714814B publication Critical patent/CN115714814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种基于多智能体强化学习的边缘缓存替换方法,包括以下步骤:1)从网络中获取基站覆盖范围下多名用户的请求内容;2)根据网络链路资源消耗量和用户本地缓存列表确定获取请求内容的方式,并计算网络中消耗的总传输链路资源K;3)用户在获得请求内容后,对比请求内容和自身当前缓存空间,利用多智能体强化学习算法生成缓存替换策略,并进行缓存更新;4)获取新的请求序列,并返回步骤2)。本发明在考虑满足总传输链路资源最小的状态下,研究了一种高效的边缘缓存替换算法,该算法基于多智能体强化学习,更好的贴合了用户需求,减少了链路资源消耗。

Description

一种基于多智能体强化学习的边缘缓存替换方法
技术领域
本发明涉及网络边缘缓存替换领域,具体是一种基于多智能体强化学习的边缘缓存替换方法。
背景技术
云服务计算在计算能力上是强大的,但很难满足人们对实时性的需求。为了应对日益增长的流量需求和更加严格的服务质量需求,移动边缘计算成为最有效的解决方案之一。
移动边缘计算的核心思想是通过将服务器部署在网络的“边缘”(即移动边缘),将受欢迎的内容和计算资源分发到更靠近移动用户的地方,从而实现快速的数据处理和分析。边缘节点具有一定存储容量,节点在获取请求的内容后可以直接在本地进行存储。当本地用户再次请求相同的内容时,可以直接从本地列表中获取数据资源,而不是从上层服务器请求,这可以显著减少在请求过程中数据传输所需要的网络流量。
但是,目前的移动边缘计算方法大多没有考虑实际应用场景,会出现多次单播同一内容的情况,造成了不必要的网络资源浪费。
发明内容
本发明的目的是提供一种基于多智能体强化学习的边缘缓存替换方法,包括以下步骤:
1)从网络中获取基站覆盖范围下多名用户的请求内容;
2)根据网络链路资源消耗量和用户本地缓存列表确定获取请求内容的方式,并计算网络中消耗的总传输链路资源K;
3)用户在获得请求内容后,对比请求内容和自身当前缓存空间,利用多智能体强化学习算法生成缓存替换策略,并进行缓存更新;
4)获取新的请求序列,并返回步骤2)。
进一步的,所述请求内容包括多媒体视频文件。
进一步的,根据网络链路资源消耗量和用户本地缓存列表确定获取请求内容的方式的步骤包括:
1)获取每个用户的本地缓存列表,并判断当前请求内容是否存在于本地缓存列表中,若是,则进入步骤2),否则。进入步骤3);
2)利用本地传输从本地缓存列表中获取请求内容;
3)向上层服务器发送多媒体视频文件获取请求,使上层服务器将请求内容传输至用户的客户端。
进一步的,向上层服务器发送多媒体视频文件获取请求的步骤包括:
1)判断多名用户是否请求同一多媒体视频文件的多名用户,若是,则上层服务器通过组播传输方式将请求内容传输至基站覆盖范围内的用户客户端,否则,进入步骤2);
2)判断基站覆盖范围下任意用户是否都存储了其他用户请求的多媒体视频文件,若是,则进入步骤3),否则进入步骤4);
3)上层服务器对所有用户的请求内容进行异或加密处理,并将加密后的请求内容通过组播传输方式传输给覆盖范围内的用户客户端;
每个客户端接收到加密的请求内容后,对请求内容进行解码处理获取自身请求的多媒体视频文件;
4)上层服务器通过点对点单播传输方式向每个用户传输请求内容,每次单播传输消耗一次网络传输链路资源。
进一步的,网络中消耗的总传输链路资源K如下所示:
K=KLC+KMC+KXC+KUC(1)
式中,KLC为通过本地传输获得的视频文件数目;KMC为通过组播传输方式获得的视频文件数目;KXC为在异或加密后通过组播传输方式的视频文件数目;KUC为通过点对点单播传输获得的视频文件数目。
进一步的,进行缓存更新的步骤包括:
1)判断请求内容是否已在当前本地缓存列表中,若是,则保持本地缓存列表不变,否则,进入步骤2);
2)判断当前本地缓存列表是否存满,若否,则将请求内容加入本地缓存列表中,若是,则利用多智能体强化学习算法生成最优缓存策略,并根据最优缓存策略进行缓存替换。
进一步的,利用多智能体强化学习算法生成最优缓存策略的步骤包括:
1)在基站覆盖范围内,将每个用户作为一个学习智能体;每个学习智能体均具有一个参与者网络和一个评论家网络;第i个用户的邻居记为
Figure SMS_1
2)客户端读取当前物理网络和请求内容,获取当前每个智能体的观测值;
所述智能体观测值包括当前全局状态和其他智能体在上一个时刻的最优缓存策略,记为
Figure SMS_2
全局状态
Figure SMS_3
包括当前智能体的请求状态
Figure SMS_4
和本地缓存状态
Figure SMS_5
Figure SMS_6
为缓存策略;
3)智能体的参与者网络将网络中消耗的总传输链路资源K的负值作为奖励,通过使奖励最大化来得到缓存策略
Figure SMS_7
智能体的评论家网络利用状态价值函数Vπ(s)和动作价值函数Qπ(s,a)选择出最优缓存策略。
进一步的,所述状态价值函数Vπ(s)和动作价值函数Qπ(s,a)分别如下所示:
Figure SMS_8
Figure SMS_9
式中,At、a为动作;
Figure SMS_10
为不同策略下的期望;Gt为从t时刻开始环境获得的总回报;s为状态值;γ为折扣因子;Rt+k+1为第t+k+1时刻环境获得的奖励值;
进一步的,最优缓存策略的状态价值函数V*(s)和动作价值函数Q*(s,a)分别如下所示:
Figure SMS_11
Figure SMS_12
式中,p(s′,r∣s,a)为从状态s经过动作a后转移为状态s′,并得到奖励r的概率;r为从当前状态s到状态s′,环境反馈获得的奖励值;Q*(s′,a′)为从状态s′经过动作a’后的动作价值函数;V*(s′)为状态s′的状态价值函数;
Figure SMS_13
为动作价值函数。
进一步的,所述学习智能体通过小批量梯度下降算法进行了训练;
其中,参与者网络的参数θi和评论家网络的参数ωi更新如下:
Figure SMS_14
Figure SMS_15
式中,β′为一个超参数;ηθ为参与者网络的更新参数;ηω为评论家网络的更新参数;
Figure SMS_16
为多智能体强化学习环境下第i个智能体在t时刻获得的奖励值;θi、θi’为更新前后的参与者网络参数;ωi、ωi’为更新前后的评论家网络参数;
学习智能体训练评价器为优势函数
Figure SMS_17
即:
Figure SMS_18
式中,
Figure SMS_19
为价值函数。
4)获取新的请求序列,并返回步骤2)。
本发明的技术效果是毋庸置疑的,本发明具有以下有益效果:
1)将资源约束、边缘缓存替换、组播算法这几种因素共同结合,结合了实际场景,避免了数据传输资源冗余的问题。
2)保证了组播传输在网络传输中的应用,避免了多次单播同一内容导致不必要的网络资源消耗。
3)考虑在满足组播传输的同时,选择总传输链路资源最小的方案进行传输。
4)在考虑满足总传输链路资源最小的状态下,研究了一种高效的边缘缓存替换算法,该算法基于多智能体强化学习,更好的贴合了用户需求,减少了链路资源消耗。
附图说明
图1为基于多智能体强化学习的边缘缓存替换算法方法的流程图;
图2为多智能体强化学习算法流程图;
图3为用户请求已缓存在本地列表的本地传输;
图4为多用户请求同一资源状态下的组播传输;
图5为多用户请求经过异或聚合状态下的组播传输;
图6为多用户通过单播传输获取资源;
具体实施方式
下面结合实施例对本发明作进一步说明,但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下,根据本领域普通技术知识和惯用手段,做出各种替换和变更,均应包括在本发明的保护范围内。
实施例1:
参见图1至图6,一种基于多智能体强化学习的边缘缓存替换方法,包括以下步骤:
1)从网络中获取基站覆盖范围下多名用户的请求内容;所述请求内容包括多媒体视频文件。
2)根据网络链路资源消耗量和用户本地缓存列表确定获取请求内容的方式,并计算网络中消耗的总传输链路资源K;
根据网络链路资源消耗量和用户本地缓存列表确定获取请求内容的方式的步骤包括:
2.1)获取每个用户的本地缓存列表,并判断当前请求内容是否存在于本地缓存列表中,若是,则进入步骤2.2),否则。进入步骤2.3);
2.2)利用本地传输从本地缓存列表中获取请求内容;
2.3)向上层服务器发送多媒体视频文件获取请求,使上层服务器将请求内容传输至用户的客户端。
向上层服务器发送多媒体视频文件获取请求的步骤包括:
2.3.1)判断多名用户是否请求同一多媒体视频文件的多名用户,若是,则上层服务器通过组播传输方式将请求内容传输至基站覆盖范围内的用户客户端,否则,进入步骤2.3.2);
2.3.2)判断基站覆盖范围下任意用户是否都存储了其他用户请求的多媒体视频文件,若是,则进入步骤2.3.3),否则进入步骤2.3.4);
2.3.3)上层服务器对所有用户的请求内容进行异或加密处理,并将加密后的请求内容通过组播传输方式传输给覆盖范围内的用户客户端;
每个客户端接收到加密的请求内容后,对请求内容进行解码处理获取自身请求的多媒体视频文件;
2.3.4)上层服务器通过点对点单播传输方式向每个用户传输请求内容,每次单播传输消耗一次网络传输链路资源。
网络中消耗的总传输链路资源K如下所示:
K=KLC+KMC+KXC+KUC(1)
式中,KLC为通过本地传输获得的视频文件数目;KMC为通过组播传输方式获得的视频文件数目;KXC为在异或加密后通过组播传输方式的视频文件数目;KUC为通过点对点单播传输获得的视频文件数目。
3)用户在获得请求内容后,对比请求内容和自身当前缓存空间,利用多智能体强化学习算法生成缓存替换策略,并进行缓存更新;
进行缓存更新的步骤包括:
3.1)判断请求内容是否已在当前本地缓存列表中,若是,则保持本地缓存列表不变,否则,进入步骤3.2);
3.2)判断当前本地缓存列表是否存满,若否,则将请求内容加入本地缓存列表中,若是,则利用多智能体强化学习算法生成最优缓存策略,并根据最优缓存策略进行缓存替换。
利用多智能体强化学习算法生成最优缓存策略的步骤包括:
3.2.1)在基站覆盖范围内,将每个用户作为一个学习智能体;每个学习智能体均具有一个参与者网络和一个评论家网络;第i个用户的邻居记为
Figure SMS_20
3.2.2)客户端读取当前物理网络和请求内容,获取当前每个智能体的观测值;
所述智能体观测值包括当前全局状态和其他智能体在上一个时刻的最优缓存策略,记为
Figure SMS_21
全局状态
Figure SMS_22
包括当前智能体的请求状态
Figure SMS_23
和本地缓存状态
Figure SMS_24
Figure SMS_25
为缓存策略;
3.2.3)智能体的参与者网络将网络中消耗的总传输链路资源K的负值作为奖励,通过使奖励最大化来得到缓存策略
Figure SMS_26
智能体的评论家网络利用状态价值函数Vπ(s)和动作价值函数Qπ(s,a)选择出最优缓存策略。
所述状态价值函数Vπ(s)和动作价值函数Qπ(s,a)分别如下所示:
Figure SMS_27
Figure SMS_28
式中,At、a为动作;
Figure SMS_29
为不同策略下的期望;Gt为从t时刻开始环境获得的总回报;s为状态值;γ为折扣因子;Rt+k+1为第t+k+1时刻环境获得的奖励值;
最优缓存策略的状态价值函数V*(s)和动作价值函数Q*(s,a)分别如下所示:
Figure SMS_30
Figure SMS_31
式中,p(s′,r∣s,a)为从状态s经过动作a后转移为状态s′,并得到奖励r的概率;r为从当前状态s到状态s′,环境反馈获得的奖励值;Q*(s′,a′)为从状态s′经过动作a’后的动作价值函数;V*(s′)为状态s′的状态价值函数;
Figure SMS_32
为动作价值函数。
其中,参与者网络的参数θi和评论家网络的参数ωi更新如下:
Figure SMS_33
Figure SMS_34
式中,β′为一个超参数;ηθ为参与者网络的更新参数;ηω为评论家网络的更新参数;
Figure SMS_35
为多智能体强化学习环境下第i个智能体在t时刻获得的奖励值;θi、θi’为更新前后的参与者网络参数;ωi、ωi’为更新前后的评论家网络参数;
学习智能体训练评价器为优势函数
Figure SMS_36
即:
Figure SMS_37
式中,
Figure SMS_38
为价值函数。
4)获取新的请求序列,并返回步骤2)。
实施例2:
一种基于多智能体强化学习的边缘缓存替换方法,包括以下步骤:
1)当前时刻t,从网络中读取基站覆盖范围内n个用户对视频内容的请求
Figure SMS_39
2)检查各个用户的本地缓存列表,考虑不同传播方式消耗不同链路资源。选择消耗网络链路资源最少的方式来获取请求内容:
2.1)对于当前请求内容已经被缓存在本地缓存列表中的用户,可以通过本地传输(Local-cast,LC)从本地存储列表获取视频内容,不消耗网络传输链路资源,通过本地传输获得的视频流数目记为KLC。本地传输过程如图1所示。
2.2)如果多名用户同时请求同一视频流文件,则可以通过组播(Multicast,MC)传输方式,上层服务器将内容一次性传输给覆盖范围内的多个客户端,一次组播传输消耗一次网络传输链路资源,通过组播传输获得的视频流数记为KMC。如图2所示,多名用户同时访问同一内容,则上层服务器通过组播传输将内容一次性发给多个用户。
2.3)对于一个多用户集合,并未请求同一视频流文件,如果集合中每个用户都存储了所有其他集合用户请求的视频文件,则上层服务器通过将这些用户需要的视频流进行异或加密处理,将加密后的流文件内容一次性传输给覆盖范围内的多个客户端,在每个客户端本地,每个客户端进行解码处理获取需要的视频内容,一次组播传输消耗一次网络传输链路资源,在异或加密后通过组播传输的视频流数记为KXC。组播传输组成用户请求的内容能够通过异或操作加密,并能在传输完根据本地信息进行解密操作。
2.4)不同用户之间并未存在组播传输联系,则该用户群体直接向上层服务器获取视频内容,服务器通过单播传输向每个用户传输内容,每次单播传输消耗一次网络传输链路资源,通过点对点单播传输获得的视频流数记为KUC。对于无法通过服务器组播传输获取资源的用户,服务器将通过单播传输将内容发给用户。
3)计算当前时刻网络中消耗的总传输链路资源K,计算为:
K=KLC+KMC+KXC+KUC(1)
4)各个客户端在获得请求的内容之后,对比请求内容和自身当前缓存空间,结合缓存替换策略进行缓存更新。
4.1)请求内容缓存已在当前列表中,保持列表缓存不变。
4.2)当前缓存列表未满,将请求内容直接加入缓存列表。
4.3)缓存空间已经存满,根据缓存替换算法进行缓存替换。
5)基于MA2C(多智能体强化学习算法)做出策略
5)当需要进行缓存更新时,基于MA2C训练得到策略,制定缓存替换决策。
5.1)在基站覆盖范围内,考虑将每个用户作为一个学习智能体,具有一个参与者网络(actor)和一个评论家网络(critic)。参与者网络用于训练一个策略,用于制定缓存决策,而评论家网络则训练学习一个值函数,对预期总报酬进行估计,从而评价当前策略好坏。每个智能体共同工作。全局的奖励值和状态共享。
5.2)在读取了当前物理网络和请求内容后,可以获得当前每个智能体所能观测到的状态。每个智能体的状态包括当前智能体的请求状态和本地缓存状态,记为
Figure SMS_40
回报奖励在全局共享。每个智能体将全局状态作为自己的观测值。智能体的观测值包括当前全局状态和其他智能体在上一个时刻的策略,记为
Figure SMS_41
Figure SMS_42
第i个用户的邻居记为
Figure SMS_43
5.3)用MA2C算法来选择每次需要替换的内容。智能体的缓存大小为C,动作空间大小为C+1,动作空间A(t,i)={0,1,2,...,C},表示每次选择从当前缓存列表中逐出某项缓存内容或是不做改变。
5.4)将网络中消耗的总传输链路资源K的负值作为奖励,通过使奖励最大化来得到最优缓存策略。
5.5)每个用户作为一个学习智能体,具有一个参与者网络(actor)和一个评论家网络(critic)。每个智能体通过actor网络得到自己的缓存策略
Figure SMS_44
并通过critic网络得到对应的价值函数
Figure SMS_45
5.6)每个智能体通过得到的缓存策略
Figure SMS_46
随机抽样得到动作a,根据动作值对该部分缓存进行逐出,同时将当前请求内容加入缓存列表,计算得到当前奖励值。同时获取下一个时刻请求,重复该步骤。
5.8)每个智能体按照其本地策略收集经验,直到收集到足够样本进行小批量更新。
5.9)当收集到足够样本之后,对于每个智能体,通过小批量随机采样数据,通过策略梯度下降算法对每个智能体进行训练。
5.10)强化学习中使用了两种类型的价值函数来学习最优策略:状态价值函数Vπ(s)和动作价值函数Qπ(s,a)。对于基于价值的生成策略方法来说,它是根据动作价值函数Qπ(s,a),寻找能使得Q值最大的动作a。
5.11)状态价值函数用来描述当前状态的好坏,与动作无关。表示智能体从当前状态出发,使用策略π表示未来所获得的累计回报值,表示为:
Figure SMS_47
根据当前状态下的最优动作可以选出最优策略,即:
Figure SMS_48
动作价值函数也叫动作状态价值函数,用来描述当前动作的好坏。表示在当前状态下,根据策略π,执行某个动作的价值。表示为:
Figure SMS_49
可以得到最优动作价值函数为:
Figure SMS_50
5.12)对每次模型训练,用优势函数作为评价器,通过减少采样偏差来拟合策略。计算优势函数的估计值为:
Figure SMS_51
5.13)应用小批量梯度,以自适应地学习速率更新每个智能体的actor网络参数和critic网络参数。
5.14)actor网络的参数更新为:
Figure SMS_52
5.15)应用时序差分方法更新critic网络的参数为:
Figure SMS_53
6)根据同步更新下的MA2C算法,动态的生成最优缓存策略。
6.1)在同步更新下,每个智能体通过actor网络和critic网络,actor网络生成策略,并通过动作价值函数选择最优缓存动作。
6.2)在同步更新下,每个智能体通过actor网络和critic网络,critic网络对当前策略进行评估。
6.3)智能体在获得缓存策略之后,执行缓存动作,并更新当前环境状态。
7)用户继续向网络获取请求,如果缓存请求没有终止,回到步骤1)。

Claims (10)

1.一种基于多智能体强化学习的边缘缓存替换方法,其特征在于,包括以下步骤:
1)从网络中获取基站覆盖范围下多名用户的所述请求内容;
2)根据网络链路资源消耗量和用户本地缓存列表确定获取请求内容的方式,并计算网络中消耗的总传输链路资源K。
3)用户在获得请求内容后,对比请求内容和自身当前缓存空间,利用多智能体强化学习算法生成缓存替换策略,并进行缓存更新。
4)获取新的请求序列,并返回步骤2)。
2.根据权利要求1所述的一种基于多智能体强化学习的边缘缓存替换方法,其特征在于,所述请求内容包括多媒体视频文件。
3.根据权利要求1所述的一种基于多智能体强化学习的边缘缓存替换方法,其特征在于,根据网络链路资源消耗量和用户本地缓存列表确定获取请求内容的方式的步骤包括:
1)获取每个用户的本地缓存列表,并判断当前请求内容是否存在于本地缓存列表中,若是,则进入步骤2),否则。进入步骤3);
2)利用本地传输从本地缓存列表中获取请求内容;
3)向上层服务器发送多媒体视频文件获取请求,使上层服务器将请求内容传输至用户的客户端。
4.根据权利要求3所述的一种基于多智能体强化学习的边缘缓存替换方法,其特征在于,向上层服务器发送多媒体视频文件获取请求的步骤包括:
1)判断多名用户是否请求同一多媒体视频文件的多名用户,若是,则上层服务器通过组播传输方式将请求内容传输至基站覆盖范围内的用户客户端,否则,进入步骤2);
2)判断基站覆盖范围下任意用户是否都存储了其他用户请求的多媒体视频文件,若是,则进入步骤3),否则进入步骤4);
3)上层服务器对所有用户的请求内容进行异或加密处理,并将加密后的请求内容通过组播传输方式传输给覆盖范围内的用户客户端;
每个客户端接收到加密的请求内容后,对请求内容进行解码处理获取自身请求的多媒体视频文件;
4)上层服务器通过点对点单播传输方式向每个用户传输请求内容,每次单播传输消耗一次网络传输链路资源。
5.根据权利要求1所述的一种基于多智能体强化学习的边缘缓存替换方法,其特征在于,网络中消耗的总传输链路资源K如下所示:
K=KLC+KMC+KXC+KUC (1)
式中,KLC为通过本地传输获得的视频文件数目;KMC为通过组播传输方式获得的视频文件数目;KXC为在异或加密后通过组播传输方式的视频文件数目;KUC为通过点对点单播传输获得的视频文件数目。
6.根据权利要求1所述的一种基于多智能体强化学习的边缘缓存替换方法,其特征在于,进行缓存更新的步骤包括:
1)判断请求内容是否已在当前本地缓存列表中,若是,则保持本地缓存列表不变,否则,进入步骤2);
2)判断当前本地缓存列表是否存满,若否,则将请求内容加入本地缓存列表中,若是,则利用多智能体强化学习算法生成最优缓存策略,并根据最优缓存策略进行缓存替换。
7.根据权利要求1所述的一种基于多智能体强化学习的边缘缓存替换方法,其特征在于,利用多智能体强化学习算法生成最优缓存策略的步骤包括:
1)在基站覆盖范围内,将每个用户作为一个学习智能体;每个学习智能体均具有一个参与者网络和一个评论家网络;第i个用户的邻居记为
Figure QLYQS_1
2)客户端读取当前物理网络和请求内容,获取当前每个智能体的观测值;
所述智能体观测值包括当前全局状态和其他智能体在上一个时刻的最优缓存策略,记为
Figure QLYQS_2
全局状态
Figure QLYQS_3
包括当前智能体的请求状态
Figure QLYQS_4
和本地缓存状态
Figure QLYQS_5
Figure QLYQS_6
为缓存策略;
3)智能体的参与者网络将网络中消耗的总传输链路资源K的负值作为奖励,通过使奖励最大化来得到缓存策略
Figure QLYQS_7
智能体的评论家网络利用状态价值函数Vπ(s)和动作价值函数Qπ(s,a)选择出最优缓存策略。
8.根据权利要求7所述的一种基于多智能体强化学习的边缘缓存替换方法,其特征在于,所述状态价值函数Vπ(s)和动作价值函数Qπ(s,a)分别如下所示:
Figure QLYQS_8
Figure QLYQS_9
式中,At、a为动作;
Figure QLYQS_10
为不同策略下的期望;Gt为从t时刻开始环境获得的总回报;s为状态值;γ为折扣因子;Rt+k+1为第t+k+1时刻环境获得的奖励值。
9.根据权利要求7所述的一种基于多智能体强化学习的边缘缓存替换方法,其特征在于,最优缓存策略的状态价值函数V*(s)和动作价值函数Q*(s,a)分别如下所示:
Figure QLYQS_11
Figure QLYQS_12
式中,p(s′,r|s,a)为从状态s经过动作a后转移为状态s′,并得到奖励r的概率;r为从当前状态s到状态s′,环境反馈获得的奖励值;Q*(s′,a′)为从状态s′经过动作a’后的动作价值函数;V*(s′)为状态s′的状态价值函数;
Figure QLYQS_13
为动作价值函数。
10.根据权利要求7所述的一种基于多智能体强化学习的边缘缓存替换方法,其特征在于,所述学习智能体通过小批量梯度下降算法进行了训练;
其中,参与者网络的参数θi和评论家网络的参数ωi更新如下:
Figure QLYQS_14
Figure QLYQS_15
式中,β′为一个超参数;ηθ为参与者网络的更新参数;ηω为评论家网络的更新参数;
Figure QLYQS_16
为多智能体强化学习环境下第i个智能体在t时刻获得的奖励值;θi、θi′为更新前后的参与者网络参数;ωi、ωi′为更新前后的评论家网络参数;
学习智能体训练评价器为优势函数
Figure QLYQS_17
即:
Figure QLYQS_18
式中,
Figure QLYQS_19
为价值函数。
CN202210513240.6A 2022-05-11 2022-05-11 一种基于多智能体强化学习的边缘缓存替换方法 Active CN115714814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210513240.6A CN115714814B (zh) 2022-05-11 2022-05-11 一种基于多智能体强化学习的边缘缓存替换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210513240.6A CN115714814B (zh) 2022-05-11 2022-05-11 一种基于多智能体强化学习的边缘缓存替换方法

Publications (2)

Publication Number Publication Date
CN115714814A true CN115714814A (zh) 2023-02-24
CN115714814B CN115714814B (zh) 2024-05-07

Family

ID=85230497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210513240.6A Active CN115714814B (zh) 2022-05-11 2022-05-11 一种基于多智能体强化学习的边缘缓存替换方法

Country Status (1)

Country Link
CN (1) CN115714814B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521584A (zh) * 2023-06-26 2023-08-01 信联科技(南京)有限公司 一种基于多智能体的mpc缓存更新方法及系统
CN117939505A (zh) * 2024-03-22 2024-04-26 南京邮电大学 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002320805A1 (en) * 1996-11-12 2003-04-03 Starguide Digital Networks High Bandwidth Broadcast System Having Localized Multicast Access to Broadcast Content
CN113115368A (zh) * 2021-04-02 2021-07-13 南京邮电大学 基于深度强化学习的基站缓存替换方法、系统及存储介质
CN113395333A (zh) * 2021-05-31 2021-09-14 电子科技大学 基于智能体深度增强学习的多边缘基站联合缓存替换方法
CN113687960A (zh) * 2021-08-12 2021-11-23 华东师范大学 一种基于深度强化学习的边缘计算智能缓存方法
CN113993168A (zh) * 2021-10-27 2022-01-28 东南大学 一种雾无线接入网中基于多智能体强化学习的协作缓存方法
CN114185677A (zh) * 2021-12-14 2022-03-15 杭州电子科技大学 基于多智能体强化学习模型的边缘缓存方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002320805A1 (en) * 1996-11-12 2003-04-03 Starguide Digital Networks High Bandwidth Broadcast System Having Localized Multicast Access to Broadcast Content
CN113115368A (zh) * 2021-04-02 2021-07-13 南京邮电大学 基于深度强化学习的基站缓存替换方法、系统及存储介质
CN113395333A (zh) * 2021-05-31 2021-09-14 电子科技大学 基于智能体深度增强学习的多边缘基站联合缓存替换方法
CN113687960A (zh) * 2021-08-12 2021-11-23 华东师范大学 一种基于深度强化学习的边缘计算智能缓存方法
CN113993168A (zh) * 2021-10-27 2022-01-28 东南大学 一种雾无线接入网中基于多智能体强化学习的协作缓存方法
CN114185677A (zh) * 2021-12-14 2022-03-15 杭州电子科技大学 基于多智能体强化学习模型的边缘缓存方法和装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
H.LI ET AL.: ""Intelligent Content Caching and User Association in Mobile Edge Computing Networks for Smart Cities"", 《IN IEEE TRANSACTIONS ON NETWORK SCIENCE AND ENGINEERING》, 6 September 2023 (2023-09-06) *
L.CHEN, B. HU, Z. -H. GUAN, L. ZHAO AND X. SHEN: ""Multiagent Meta-Reinforcement Learning for Adaptive Multipath Routing Optimization"", 《IN IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》, 21 April 2021 (2021-04-21) *
N.K. SINGH NAYAK AND B. BHATTACHARYYA: ""Machine Learning-Based Medium Access Control Protocol for Heterogeneous Wireless Networks: A Review"", 《2021 INNOVATIONS IN POWER AND ADVANCED COMPUTING TECHNOLOGIES (I-PACT)》, 29 November 2021 (2021-11-29) *
REZAEI, ELAHE, HAFEZ ESLAMI MANOOCHEHRI, AND BABAK HOSSEIN KHALAJ.: ""Multi-agent learning for cooperative large-scale caching networks"", 《ARXIV PREPRINT ARXIV:1807.00207 (2018)》, 30 June 2018 (2018-06-30) *
S.QIU, Q. FAN, X. LI, X. ZHANG, G. MIN AND Y. LYU,: ""OA-Cache: Oracle Approximation-Based Cache Replacement at the Network Edge"", 《IN IEEE TRANSACTIONS ON NETWORK AND SERVICE MANAGEMENT》, 25 January 2023 (2023-01-25) *
SHI, RUOHAN, ET AL.: ""COCAM: A Cooperative Video Edge Caching and Multicasting Approach Based on Multi-Agent Deep Reinforcement Learning"", 《EUROPE PMC》, 3 January 2023 (2023-01-03) *
SOMUYIWA, SAMUEL O., ANDRÁS GYÖRGY, AND DENIZ GÜNDÜZ.: ""Multicast-aware proactive caching in wireless networks with deep reinforcement learning"", 《2019 IEEE 20TH INTERNATIONAL WORKSHOP ON SIGNAL PROCESSING ADVANCES IN WIRELESS COMMUNICATIONS (SPAWC)》, 31 July 2019 (2019-07-31) *
姚振: ""基于网内缓存的视频传输建模与优化"", 《中国博士学位论文全文数据库 信息科技辑》, 15 September 2020 (2020-09-15) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521584A (zh) * 2023-06-26 2023-08-01 信联科技(南京)有限公司 一种基于多智能体的mpc缓存更新方法及系统
CN116521584B (zh) * 2023-06-26 2023-10-13 信联科技(南京)有限公司 一种基于多智能体的mpc缓存更新方法及系统
CN117939505A (zh) * 2024-03-22 2024-04-26 南京邮电大学 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统
CN117939505B (zh) * 2024-03-22 2024-05-24 南京邮电大学 一种车辆边缘网络中基于激励机制的边缘协作缓存方法及系统

Also Published As

Publication number Publication date
CN115714814B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
Zhang et al. Cooperative edge caching: A multi-agent deep learning based approach
Yao et al. Joint content placement and storage allocation in C-RANs for IoT sensing service
CN115714814B (zh) 一种基于多智能体强化学习的边缘缓存替换方法
Baccour et al. PCCP: Proactive video chunks caching and processing in edge networks
CN114528304A (zh) 一种自适应客户端参数更新的联邦学习方法、系统及存储介质
He et al. Meta-hierarchical reinforcement learning (MHRL)-based dynamic resource allocation for dynamic vehicular networks
Majidi et al. Hfdrl: An intelligent dynamic cooperate cashing method based on hierarchical federated deep reinforcement learning in edge-enabled iot
WO2023159986A1 (zh) 一种分层网络体系结构中的协作缓存方法
Farahani et al. ES-HAS: an edge-and SDN-assisted framework for HTTP adaptive video streaming
Chua et al. Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach
CN114818454A (zh) 模型训练方法、数据处理方法、电子设备和程序产品
Aghazadeh et al. Proactive content caching in edge computing environment: A review
Radenkovic et al. Cognitive caching at the edges for mobile social community networks: A multi-agent deep reinforcement learning approach
Khanal et al. Route-based proactive content caching using self-attention in hierarchical federated learning
Wan et al. Deep Reinforcement Learning‐Based Collaborative Video Caching and Transcoding in Clustered and Intelligent Edge B5G Networks
CN116916390A (zh) 一种结合资源分配的边缘协作缓存优化方法及装置
Nguyen et al. Information fusion on delivery: A survey on the roles of mobile edge caching systems
Ma et al. Deep reinforcement learning for pre-caching and task allocation in internet of vehicles
Huang et al. Reinforcement learning for cost-effective IoT service caching at the edge
Liu et al. Rendered tile reuse scheme based on FoV prediction for MEC-assisted wireless VR service
Pu et al. Ems: Erasure-coded multi-source streaming for uhd videos within cloud native 5g networks
Gao et al. Edge intelligence empowered cross-modal streaming transmission
Li et al. Video caching and scheduling with edge cooperation
Wu et al. Ptf: Popularity-topology-freshness-based caching strategy for icn-iot networks
Almobaideen et al. Application based caching in fog computing to improve quality of service

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant