CN116346921B - 面向流域大坝安全管控的多服务器协同缓存更新方法和装置 - Google Patents
面向流域大坝安全管控的多服务器协同缓存更新方法和装置 Download PDFInfo
- Publication number
- CN116346921B CN116346921B CN202310316643.6A CN202310316643A CN116346921B CN 116346921 B CN116346921 B CN 116346921B CN 202310316643 A CN202310316643 A CN 202310316643A CN 116346921 B CN116346921 B CN 116346921B
- Authority
- CN
- China
- Prior art keywords
- cache
- edge server
- time
- network
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012544 monitoring process Methods 0.000 claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000004044 response Effects 0.000 claims abstract description 13
- 238000013507 mapping Methods 0.000 claims abstract description 8
- 239000003795 chemical substances by application Substances 0.000 claims description 109
- 230000009471 action Effects 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 49
- 230000003993 interaction Effects 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 30
- 230000005540 biological transmission Effects 0.000 claims description 24
- 239000000872 buffer Substances 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000002452 interceptive effect Effects 0.000 claims description 10
- 125000004122 cyclic group Chemical group 0.000 claims description 8
- 238000012804 iterative process Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 230000007774 longterm Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 239000002245 particle Substances 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 9
- 238000005457 optimization Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000006424 Flood reaction Methods 0.000 description 1
- 239000007853 buffer solution Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009133 cooperative interaction Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
- H04L67/5682—Policies or rules for updating, deleting or replacing the stored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/10—Flow control between communication endpoints
- H04W28/14—Flow control between communication endpoints using intermediate storage
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种面向流域大坝安全管控的多服务器协同缓存更新方法,构造大坝应急响应系统中用户请求大坝监测内容的缓存模型和时延模型;构造最大化用户请求节省时延的目标函数;将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程;将不同水电站的边缘服务器映射为不同的智能体,利用多智能体循环深度确定性策略梯度算法通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态,组合成一个系统状态;将系统状态信息作为每个智能体的输入;找出最优协同缓存更新方案。本发明提出的多智能体循环深度确定性策略梯度缓存更新方法,降低了服务器通信成本,满足大坝用户请求监测内容的时延和合理安全管控措施的需求。
Description
技术领域
本发明涉及一种面向流域大坝安全管控的多服务器协同缓存更新方法和装置,在应急响应时为大坝用户提供实时快速的监测内容访问服务,具体当大坝遇到应急事件时,为大坝用户查询监测数据提供低时延的协同缓存服务,属于移动边缘计算协同缓存技术领域。
背景技术
协同边缘缓存的任务是通过不同边缘服务器之间的协同交互,充分感知用户请求的偏好以及移动性的变化,及时更新服务器中的缓存内容,从而为用户提供极低时延的请求体验。
水利工程领域中,大坝设施所提供的防洪,防凌,蓄水,供水和发电等诸多功能使其成为中国水利事业的主力军。大坝在长周期数十年的运行中会遭遇洪水,地震和暴雨等多种自然风险事件,这些自然风险事件可能危害大坝结构安全和大坝下游群众生命财产安全。因此,大坝管理人员在出现应急事件时,都要向大坝内的服务器请求大坝监测内容,及时了解大坝在应急事件中的各种情况。然而,通常存在多个边缘服务器在不同水电站的不同区域进行监测,水电站一般包括小湾、漫湾、景洪等水电站,主要监测区域分为大坝,升船机,厂区等,这些区域将其监测内容缓存至对应水电站的边缘服务器中,并将其上传至流域中央服务器中保存。当应急事件发生时,大坝工作人员会要求低时延地获取各水电站中各区域的监测内容,从而及时进行检修与维护,确保大坝设施的安全性。通过对大坝设施监测区域的监测内容进行协同缓存更新,能够为大坝工作人员提供极低时延的缓存服务,在应急事件发生后尽快解决大坝设施出现的问题,保证大坝的安全性。
在移动边缘计算(Mobile Edge Computing,MEC)环境协同缓存过程中,时延过高会限制需要实时响应的用户请求,边缘服务器间交互缓存信息频次过高会增加服务器间通信成本,因此时延和通信成本都会影响缓存系统的整体性能,而边缘协同缓存策略也多以时延衡量指标。然而,现有工作多只关注最小化整体时延,并不能对服务器间的过高通信成本进行更有针对性的协同缓存策略制定。
发明内容
发明目的:为了解决现有技术存在的问题,需要考虑用户请求时延和服务器间通信成本需求。针对大坝运行过程中遇到的各种自然事件及其应对措施事件,本方法研究内容聚焦于大坝多用户多服务器协同缓存场景,提出一种面向流域大坝安全管控的多服务器协同缓存更新方法和装置,解决上述时延和通信成本的需求问题。考虑了当大坝应急响应事件发生时,大坝工作人员请求各区域监测视频的低时延需求,将最大化大坝工作人员请求的节省时延作为优化目标,将该问题表示为部分可观测马尔科夫决策过程,提出面向流域大坝安全管控的多服务器协同缓存更新方法求解最优协同缓存方案,满足用户请求的低时延需求,确保及时对水电站各区域实施安全管控措施。
技术方案:一种面向流域大坝安全管控的多服务器协同缓存更新方法,面向流域大坝应急响应系统,包括如下步骤:
(1)构造大坝应急响应系统中用户请求大坝监测内容的缓存模型和时延模型;
(2)构造最大化用户请求节省时延的目标函数;
(3)将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程(POMDP);
(4)将不同水电站的边缘服务器映射为不同的智能体,利用多智能体循环深度确定性策略梯度算法(MARDDPG)通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态,组合成一个系统状态;
(5)随机初始化Actor网络与Critic网络的参数,并将系统状态信息作为每个智能体的输入;
(6)仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互,并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息,在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态;
(7)每个智能体在每一训练轮次的时隙t根据当前策略和随机探索噪声选择动作,执行动作后得到奖励和下一观测状态;
(8)将交互经验存储到经验回放池中,从中随机抽取若干个经验样本,根据样本数据训练两个网络;
(9)对目标网络参数进行更新;
(10)重复步骤4-9,直到迭代过程结束,找出最优协同缓存更新方案。
进一步的,所述步骤(2)中构造最大化用户请求节省时延的目标函数的具体步骤如下:
节省的传输时延具体是指相对于从流域中央服务器获取内容所节省的时延,具体步骤如下:
1)当终端用户u请求的内容从本地服务器i中获取时,节省时延为:
Du,i=dh,u-di,u
其中,dh,u表示终端用户u从流域中央服务器h中获取内容的时延,di,u表示终端用户u从本地服务器i中获取内容的时延。
2)当终端用户u请求的内容从邻近服务器j中获取时,节省时延为:
Du,j=dh,u-dj,u
其中,dj,u表示终端用户u从邻近服务器j中获取内容的时延。
因此,在一个运行周期中,平均节省的传输时延为:
其中,终端用户u来自于用户集合
综上,目标函数为在边缘服务器缓存空间约束下最小化用户请求的平均传输时延,同时为了便于求解,将协同缓存问题转化为最大化用户请求的平均节省传输时延问题,即:
其中,Φ是一个M×F缓存状态矩阵,它记录了M个边缘服务器的缓存状态,缓存状态矩阵中的每个元素φi,f表示内容是否被缓存的指示器,t∈{1,…,T}表示每一时刻t的节省时延都包括在内,i∈M表示存在每个i都属于边缘服务器集合M,φi,fFf≤C表示每个边缘服务器中,缓存文件的总大小不能超过边缘服务器自身最大缓存容量C,约束条件(1)是边缘服务器的覆盖约束,表示所服务的用户均在边缘服务器服务范围内,约束条件(2)是边缘服务器的缓存空间约束,表示边缘服务器内缓存的内容大小不能超过自身最大缓存容量C,约束条件(3)是缓存决策变量的非负性和完整性约束。其中ξi,u是一个指示用户u是否在边缘服务器i所覆盖范围内的指示器,具体表示为:
进一步的,所述步骤(3)中将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程(POMDP)中的状态空间、动作空间和奖励函数具体表示为:
状态空间:第t时刻的系统状态由每一个边缘服务器所服务用户的内容请求信息内容请求特征和边缘服务器缓存状态组成。用户内容请求信息表示为用户请求内容特征表示为边缘服务器缓存状态是指在边缘服务器在不同时间节点时缓存了哪些内容,表示为则边缘缓存系统的状态空间表示为
动作空间:第t时刻做出的动作包括每个边缘服务器的协同缓存决策。因此,该边缘缓存系统的动作空间表示为其中为每个边缘服务器的缓存决策,表示每个智能体的本地观测信息。每个边缘服务器在接收到用户的内容请求后,计算每个内容的请求特征信息,并基于服务器缓存空间的约束来确定需要缓存或替换哪些内容。表示每个智能体的动作策略函数,其参数为θi。
奖励函数:奖励函数通常与目标函数相关,因此由目标函数可以得到在第t次更新后的奖励rt具体表示为rt=ΔDt+1,其中ΔDt+1表示第t次更新后用户的平均节省时延。
进一步的,所述步骤(6)中仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互,并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息,在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态,具体为:
为了有效地利用智能体之间交互的历史时序缓存信息,MARDDPG算法在MADDPG算法的基础上将GRU网络嵌入到Actor网络和Critic网络中。其中,和分别表示t时刻Actor网络和Critic网络中的历史信息,利用GRU网络依据历史交互信息合理估计下一时刻其他智能体的动作策略和状态信息:
其中,和分别表示t时刻Actor网络和Critic网络中的历史交互信息,ot+1表示t+1时刻每个智能体的本地观测信息,at表示t时刻智能体的动作策略。
进一步的,所述步骤(8)中将经验存储到经验回放池中,从中随机抽取Bb个经验样本,表示用户和边缘服务器每次交互时产生的奖励,奖励具体指每时刻t更新后用户的节省时延:rt=ΔDt+1。根据样本数据训练两个网络的具体步骤为:
(8.1)Critic网络通过最小化其损失函数来更新其参数ωi,具体表示为:
其中,是智能体i的Critic网络在时刻t所获得的Q值,ωi为智能体i的Critic网络的参数。表示对于每个智能体i,Critic网络对每个样本数据计算出的近似Q值,其具体计算公式为:
其中,γ为折扣因子,为智能体i的目标Critic网络产生的Q值,ω′i为目标Critic网络的参数,θ′M为目标Actor网络的参数,为智能体的动作策略。
(8.2)每个智能体通过直接优化策略参数θi来最大化奖励函数值,因此,Actor网络中的目标函数J(θi)为使其累计奖励函数最大化:
进一步的,所述步骤(9)中按照参数τ的比例更新目标网络参数θ′和ω′,具体更新公式为:
θ′i←τθi+(1-τ)θ′i
ω′i←τωi+(1-τ)ω′i
其中更新系数τ取值0.01,θ′i和ω′i分别为目标Actor网络和目标Critic网络中的参数。
一种面向流域大坝安全管控的多服务器协同缓存更新装置,包括:
第一模块,构造大坝应急响应系统中用户请求大坝监测内容的缓存模型和时延模型。
第二模块,构造最大化用户请求节省时延的目标函数。
第三模块,将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程(POMDP)。
第四模块,将不同水电站的边缘服务器映射为不同的智能体,利用多智能体循环深度确定性策略梯度算法(MARDDPG)通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态,组合成一个系统状态;
随机初始化Actor网络与Critic网络的参数,并将系统状态信息作为每个智能体的输入;
仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互,并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息,在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态;
每个智能体在每一训练轮次的时隙t根据当前策略和随机探索噪声选择动作,执行动作后得到奖励和下一观测状态;
将交互经验存储到经验回放池中,从中随机抽取若干个经验样本,根据样本数据训练两个网络;
对目标网络参数进行更新;直到迭代过程结束,找出最优协同缓存更新方案。
装置的实现过程与方法相同,不在赘述。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的面向流域大坝安全管控的多服务器协同缓存更新方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的面向流域大坝安全管控的多服务器协同缓存更新方法的计算机程序。
在水电站的移动边缘计算环境下,移动设备有限的存储空间无法缓存较多有实时性需求的监测内容,如果从与私有云中心相连接的流域中央服务器获取缓存内容则会造成较高的时延,而无线网络边缘提供就近缓存服务,达到减少时延目的。针对有限的边缘服务器缓存资源难以满足大坝用户在应急响应时的低时延需求问题,提出一种面向流域大坝安全管控的多服务器协同缓存更新方法。首先将最大化大坝用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程(POMDP)。其次,通过利用循环神经网络记忆并估计其他服务器缓存信息的方式,来降低服务器间的交互频次和通信成本,最后,基于多智能体循环深度确定性策略梯度(MARDDPG)的算法求解最优协同缓存策略。
有益效果:本发明与现有技术相比具有以下优点:
本发明针对移动边缘计算环境下一种面向流域大坝安全管控的多服务器协同缓存更新方法,考虑了大坝应急管控事件发生时,大坝工作人员请求各区域监测视频的低时延需求,将最大化大坝工作人员请求的节省时延作为优化目标,将该问题表示为部分可观测马尔科夫决策过程,提出面向流域大坝安全管控的多服务器协同缓存更新方法求解最优协同缓存方案,本发明在减少服务器通信频次的基础上,具有比LRU(Least RecentlyUsed)、DRL(DeepReinforcement Learning)、MAAC(Multi-Agent Actor-Critic)缓存方案平均高出9.3%的节省时延比,能更好地满足用户请求低时延需求的场景,确保能够及时对水电站各区域实施安全管控措施。
附图说明
图1为本发明实施例的基于MARDDPG的多智能体循环协同缓存算法基本框架图;
图2为本发明实施例的水电站边缘环境中多用户多服务器协同缓存场景图;
图3为本发明实施例的MARDDPG算法中基于GRU网络进行缓存信息交互的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种面向流域大坝安全管控的多服务器协同缓存更新方法,考虑了大坝应急管控事件发生时,大坝工作人员请求各水电站中各区域监测视频的低时延需求,将最大化大坝工作人员请求的节省时延作为优化目标,将该问题表示为部分可观测马尔科夫决策过程,提出面向流域大坝安全管控的多服务器协同缓存更新方法,求解最优协同缓存方案。
图1为本发明的基于MARDDPG的多智能体循环协同缓存算法框架图,首先,该算法通过智能体收集大坝用户的内容请求信息、内容请求特征和边缘服务器缓存状态组成系统状态,将系统状态作为MARDDPG网络的输入,其次,每个智能体在每一训练轮次的时隙t根据当前策略和随机探索噪声选择动作,执行动作后得到奖励和下一观测状态然后,在每一训练轮次的最后时隙t,采用GRU循环神经网络记忆其他智能体的缓存信息,在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态,之后,将经验存储到经验回放池中,从中随机抽取Bb个经验样本,根据样本数据训练两个网络。最终,输出多用户多服务器场景下的最优协同缓存方案。
图2为本发明的面向大坝安全管控的多用户多服务器协同缓存的场景图,从图2可以看出每个水电站区域有多个大坝工作人员,多个分别与小湾、漫湾、景洪等水电站中监测区域相关联的边缘服务器,以及一个与所有边缘服务器相连接的流域中央服务器。每个边缘服务器收集关于不同水电站中不同区域的监测视频,并上传至流域中央服务器,保存到私有云中心内,当应急事件发生时,大坝工作人员将需要低时延的获取各个水电站中各区域的实时监测视频,以便尽快了解水电站运行情况,及时对其进行维护,保证水电站设施的安全性。图3为本发明实施例的基于MARDDPG算法的多服务器间利用GRU网络交互缓存信息的具体流程图。定义服务器缓存状态信息为所服务用户的内容请求信息、内容请求特征和边缘服务器缓存状态组成。采用的循环神经网络为GRU网络,相比于流行的LSTM网络具有更少的参数,更有利于网络的学习训练。Nepisode表示回合数,初始化为0,边缘服务器在每一回合的每一时刻t都会接收用户请求,并组成服务器缓存信息。然后利用GRU网络根据历史交互信息估计其他服务器的缓存信息,ot=oterminαl表示到了某一回合的最后时刻t,此时服务器间将会进行缓存信息的交互,并利用GRU网络记忆交互的缓存信息,其中估计的缓存信息包括其它服务器的缓存状态信息和服务器的缓存策略信息。Nmax-episode表示设置的最大回合数,当Nepisode≥Nmax-episode时,结束迭代过程,反之将会重复以上流程。
(1)构造大坝应急响应系统中用户请求大坝监测内容的缓存模型和时延模型;
(2)构造最大化用户请求节省时延的目标函数;
(3)将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程(POMDP);
(4)将不同水电站的边缘服务器映射为不同的智能体,利用多智能体循环深度确定性策略梯度算法(MARDDPG)通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态,组合成一个系统状态;
(5)随机初始化Actor网络与Critic网络的参数,并将系统状态信息作为每个智能体的输入;
(6)仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互,并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息,在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态;
(7)每个智能体在每一训练轮次的时隙t根据当前策略和随机探索噪声选择动作,执行动作后得到奖励和下一观测状态。
(8)将交互经验存储到经验回放池中,从中随机抽取若干个经验样本,根据样本数据训练两个网络;
(9)对目标网络参数进行更新;
(10)重复步骤4-9,直到迭代过程结束,找出最优协同缓存更新方案。
步骤1:面向流域大坝安全管控的移动边缘缓存要面临监测内容的分散性和多样性,对于大坝用户来说,当应急事件发生时,为了确保及时对水电站各区域实施安全管控措施,向多个边缘服务器请求监测内容时有着明显的低时延需求。同时,在整个系统中服务器间交互缓存信息的通信成本也是需要考虑的重要因素之一。针对这些问题,本发明构造了有关最大化用户请求节省时延的目标函数来制定最佳协同缓存决策,满足用户的低时延和服务器间的低通信成本需求。在求解协同边缘缓存方案之前要对边缘协同缓存更新系统的缓存模型进行构建:
(1.1)缓存模型
集群中边缘服务器集合表示为S,总数量为M。边缘服务器的缓存空间大小记为Sizei,i∈{1,2,…,M}。终端用户被表示为集合其中一个流域中央服务器与私有云相连,流域中央服务器中缓存的内容总数量为F,缓存内容记为f,f∈{1,2,…,F},其中每项缓存内容的大小表示为Ff。缓存文件在边缘服务器中的缓存状态用维度为M×F的矩阵Φ表示,矩阵中元素φf,i表示缓存文件f在边缘服务器si中的缓存状态,φf,i=0表示在边缘服务器si的缓存空间中不存在文件f,φf,i=1表示在边缘服务器si的缓存空间中存在文件f。
当边缘服务器si收到终端用户对缓存文件f的请求时,首先会在本地边缘服务器si中查找是否缓存文件f,若查找成功,则为本地命中;若查找失败,则从邻近边缘服务器请求是否缓存文件f,若查找成功,则为邻近命中,将相邻边缘服务器中的文件f通过本地边缘服务器向终端用户进行回传;在上述条件均不满足的条件下,则为未命中,将从流域中央服务器获取文件f并返回至终端用户。
之后,对用户请求时延模型进行构建,具体步骤如下:
(1.2)时延模型
用户请求监测内容时传输延迟定义为传输内容的时间帧数,可表示如下:
其中Ff表示要传输的内容的大小,T0为每个时间段的持续时间,C(κ)为第κ时间段的瞬时通道容量。通道容量C(κ)表示为:
其中,Pt为传输功率,B为带宽,σ2为噪声功率频谱密度,zκ为在κth时相应的衰减系数。在边缘缓存系统中,有两种类型的发射机:云数据中心和基站。假设所有的发射机都以其最大功率电平传输以使传输速率最大化,传输功率定义为:
因此,终端用户请求内容时三种不同情况下的时延开销为:
1)如果终端用户u请求的内容缓存在本地服务器si中,则为本地命中,此时,本地服务器将内容发送给终端用户,传输时延表示为:
其中,di,u表示本地服务器si和终端用户u之间的传输延迟,Ri,u表示本地服务器与终端用户的无线下行信道传输速率,具体表示为:
2)如果终端用户u所请求的内容文件未缓存在本地服务器si中,但在可连接的邻近服务器中缓存有该文件,则为邻近命中,此时,邻近服务器将文件发送给本地服务器,并通过本地服务器传送给终端用户,传输时延表示为:
dj,u=di,u+di,j
其中,表示本地服务器si与邻近服务器sj之间的传输延迟。Ri,j表示本地服务器si与邻近服务器sj之间的数据传输速率,具体表示为:
3)如果终端用户所请求的内容文件在本地服务器和邻近服务器中均未命中,不能通过上述两种方式获得文件,则需要通过回程链路从流域中央服务器下载到本地服务器,然后再发送给终端用户,此时,内容传输延迟表示为:
dh,u=di,u+di,h
其中,表示流域中央服务器sh与本地服务器si之间的回程传输延迟,Ri,h为回程链路网络上的数据传输速率,具体表示为:
步骤2:协同缓存的目标是考虑用户请求的节省时延,提高整个系统内的用户满意度。根据优化目标,构建目标计算函数具体表示为:
节省的传输时延具体是指相对于从流域中央服务器获取内容所节省的时延:
1)当终端用户u请求的内容从本地服务器i中获取时,节省时延为:
Du,i=dh,u-di,u
2)当终端用户u请求的内容从邻近服务器j中获取时,节省时延为:
Du,j=dh,u-dj,u
因此,在一个运行周期中,平均节省的传输时延为:
综上,目标函数为在边缘服务器缓存空间约束下最小化用户请求的平均传输时延,同时为了便于求解,将协同缓存问题转化为最大化用户请求的平均节省传输时延问题,即:
其中,约束条件(1)是边缘服务器的覆盖约束,表示所服务的用户均在边缘服务器服务范围内,约束条件(2)是边缘服务器的缓存空间约束,表示边缘服务器内缓存的内容大小不能超过自身最大缓存容量,约束条件(3)是缓存决策变量的非负性和完整性约束。其中ξi,u是一个指示用户u是否在边缘服务器i所覆盖范围内的指示器,具体表示为:
然而,求解目标函数是一个经典的协同缓存优化问题,用传统的方法需要将问题拆成几个小问题求解,而随着用户设备的增加,协同缓存问题的决策空间会爆炸式增长。基于无模型的深度强化学习框架可以通过环境反馈来调整策略以达到最佳的长期回报,能应对上述决策空间过大的问题。
步骤3:将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程(POMDP)中的状态空间、动作空间和奖励函数具体表示为:
状态空间:第t时刻的系统状态由每一个边缘服务器所服务用户的内容请求信息内容请求特征和边缘服务器缓存状态组成。用户内容请求信息表示为用户请求内容特征表示为其中表示短期特征,计算公式为 表示中期特征,计算公式为 表示长期特征,计算公式为其中表示在时刻t用户u向边缘服务器si请求内容f的累计次数,τ表示不同长度的时间段,τl表示短期时间段,τm表示中期时间段,τh表示长期时间段,并且有τl<τm<τh。边缘服务器缓存状态是指在边缘服务器在不同时间节点时缓存了哪些内容,表示为则边缘缓存系统的状态空间表示为
动作空间:第t时刻做出的动作包括每个边缘服务器的协同缓存决策。因此,该边缘缓存系统的动作空间表示为其中为每个边缘服务器的缓存决策。每个边缘服务器在接收到用户的内容请求后,计算每个内容的请求特征信息,并基于服务器缓存空间的约束来确定需要缓存或替换哪些内容。
奖励函数:奖励函数通常与目标函数相关,因此由目标函数可以得到在第t次更新后的奖励rt具体表示为rt=ΔDt+1,其中ΔDt+1表示第t次更新后用户的平均节省时延。
步骤4:将不同水电站的边缘服务器映射为不同的智能体,利用多智能体循环深度确定性策略梯度算法(MARDDPG)通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态,组合成一个系统状态;
步骤5:随机初始化Actor网络与Critic网络的参数,并将系统状态信息作为每个智能体的输入:
初始化每个智能体Actor网络的随机参数θ和Critic网络 的随机参数ω。初始化相应的目标网络的网络参数θ′←θ、ω′←ω。
步骤6:仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互,并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息,在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态,具体为:
为了有效地利用智能体之间交互的历史时序缓存信息,MARDDPG算法在MADDPG算法的基础上将GRU网络嵌入到Actor网络和Critic网络中。其中,和分别表示t时刻Actor网络和Critic网络中的历史信息,利用GRU网络依据历史交互信息合理估计下一时刻其他智能体的动作策略和状态信息:
其中,和分别表示t时刻Actor网络和Critic网络中的历史交互信息,ot+1表示t+1时刻每个智能体的本地观测信息,at表示t时刻智能体的动作策略。
步骤7:每个智能体在每一训练轮次的时隙t根据当前策略和随机探索噪声选择动作,执行动作后得到奖励和下一观测状态则对应的则Q值函数表示为:
步骤8:将经验存储到经验回放池中,从中随机抽取Bb个经验样本,根据样本数据训练两个网络的具体公式为:
(8.1)Critic网络通过最小化其损失函数来更新其参数ωi,具体表示为:
其中,是智能体i的Critic网络在时刻t所获得的Q值,ωi为智能体i的Critic网络的参数。表示对于每个智能体i,Critic网络对每个样本数据计算出的近似Q值,其具体计算公式为:
其中,γ为折扣因子,为智能体V的目标Critic网络产生的Q值,ω′i为目标Critic网络的参数,θ′M为目标Actor网络的参数,为智能体的动作策略。
(8.2)每个智能体通过直接优化策略参数θi来最大化奖励函数值,因此,Actor网络中的目标函数J(θi)为使其累计奖励函数最大化:
步骤9:按照参数τ的比例更新目标网络参数θ′和ω′,具体更新公式为:
θ′i←τθi+(1-τ)θ′i
ω′i←τωi+(1-τ)ω′i
其中更新系数τ取值很小,θ′i和ω′i分别为目标Actor网络和目标Critic网络中的参数。
步骤10:重复步骤4-9,直到迭代过程结束,找出最优协同缓存更新方案。
一种面向流域大坝安全管控的多服务器协同缓存更新装置,包括:
第一模块,构造大坝应急响应系统中用户请求大坝监测内容的缓存模型和时延模型;
第二模块,构造最大化用户请求节省时延的目标函数;
第三模块,将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程(POMDP);
第四模块,将不同水电站的边缘服务器映射为不同的智能体,利用多智能体循环深度确定性策略梯度算法(MARDDPG)通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态,组合成一个系统状态;随机初始化Actor网络与Critic网络的参数,并将系统状态信息作为每个智能体的输入;仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互,并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息,在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态;每个智能体在每一训练轮次的时隙t根据当前策略和随机探索噪声选择动作,执行动作后得到奖励和下一观测状态。将交互经验存储到经验回放池中,从中随机抽取若干个经验样本,根据样本数据训练两个网络;对目标网络参数进行更新;直到迭代过程结束,找出最优协同缓存更新方案。
显然,本领域的技术人员应该明白,上述的本发明实施例的面向流域大坝安全管控的多服务器协同缓存更新方法各步骤或面向流域大坝安全管控的多服务器协同缓存更新装置各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
Claims (4)
1.一种面向流域大坝安全管控的多服务器协同缓存更新方法,面向流域大坝应急响应系统,其特征在于,包括如下步骤:
(1)构造大坝应急响应系统中用户请求大坝监测内容的缓存模型和时延模型;
对缓存模型进行构建为:边缘服务器集合表示为S,总数量为M;边缘服务器的缓存空间大小记为Sizei,i∈{1,2,…,M};终端用户被表示为集合其中一个流域中央服务器与私有云相连,流域中央服务器中缓存的内容总数量为F,缓存内容记为f,f∈{1,2,…,F},其中每项缓存内容的大小表示为Ff;缓存文件在边缘服务器中的缓存状态用维度为M×F的矩阵Φ表示,矩阵中元素φf,i表示缓存文件f在边缘服务器si中的缓存状态,φf,i=0表示在边缘服务器si的缓存空间中不存在文件f,φf,i=1表示在边缘服务器si的缓存空间中存在文件f;
当边缘服务器si收到终端用户对缓存文件f的请求时,首先会在本地边缘服务器si中查找是否缓存文件f,若查找成功,则为本地命中;若查找失败,则从邻近边缘服务器请求是否缓存文件f,若查找成功,则为邻近命中,将相邻边缘服务器中的文件f通过本地边缘服务器向终端用户进行回传;在上述条件均不满足的条件下,则为未命中,将从流域中央服务器获取文件f并返回至终端用户;
(2)构造最大化用户请求节省时延的目标函数;
(3)将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程;
(4)将不同水电站的边缘服务器映射为不同的智能体,利用多智能体循环深度确定性策略梯度算法通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态,组合成一个系统状态;
(5)随机初始化Actor网络与Critic网络的参数,并将系统状态信息作为每个智能体的输入;
(6)仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互,并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息,在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态;
(7)每个智能体在每一训练轮次的时隙t根据当前策略和随机探索噪声选择动作,执行动作后得到奖励和下一观测状态;
(8)将交互经验存储到经验回放池中,从中随机抽取若干个经验样本,根据样本数据训练两个网络;
(9)对目标网络参数进行更新;
(10)重复步骤4-9,直到迭代过程结束,找出最优协同缓存更新方案;
所述步骤(2)中构造最大化用户请求节省时延的目标函数,节省的传输时延具体是指相对于从流域中央服务器获取内容所节省的时延,在一个运行周期中,平均节省的传输时延为:
其中,终端用户u来自于用户集合Du,i表示当终端用户u请求的内容从本地服务器i中获取时的节省时延,Du,j表示当终端用户u请求的内容从邻近服务器j中获取时的节省时延;
所述目标函数为在边缘服务器缓存空间约束下最小化用户请求的平均传输时延,将协同缓存问题转化为最大化用户请求的平均节省传输时延问题,即:
其中,Φ是一个M×F缓存状态矩阵,它记录了M个边缘服务器的缓存状态,缓存状态矩阵中的每个元素φi,f表示内容是否被缓存的指示器,表示每一时刻t的节省时延都包括在内,i∈M表示存在每个i都属于边缘服务器集合M,φi,fFf≤C表示每个边缘服务器中,缓存文件的总大小不能超过边缘服务器自身最大缓存容量C,约束条件(1)是边缘服务器的覆盖约束,表示所服务的用户均在边缘服务器服务范围内,约束条件(1)是边缘服务器的覆盖约束,表示所服务的用户均在边缘服务器服务范围内,约束条件(2)是边缘服务器的缓存空间约束,表示边缘服务器内缓存的内容大小不能超过自身最大缓存容量C,约束条件(3)是缓存决策变量的非负性和完整性约束;其中ξi,u是一个指示用户u是否在边缘服务器i所覆盖范围内的指示器,具体表示为:
所述步骤(3)中将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程中的状态空间、动作空间和奖励函数具体表示为:
状态空间:第t时刻的系统状态由每一个边缘服务器所服务用户的内容请求信息内容请求特征和边缘服务器缓存状态组成;用户内容请求信息表示为用户请求内容特征表示为边缘服务器缓存状态是指在边缘服务器在不同时间节点时缓存了哪些内容,表示为则边缘缓存系统的状态空间表示为其中表示短期特征,计算公式为 表示中期特征,计算公式为 表示长期特征,计算公式为 表示在时刻t用户u向边缘服务器si请求内容f的累计次数,τ表示不同长度的时间段,τl表示短期时间段,τm表示中期时间段,τh表示长期时间段;
动作空间:第t时刻做出的动作包括每个边缘服务器的协同缓存决策;边缘缓存系统的动作空间表示为其中为每个边缘服务器的缓存决策,表示每个智能体的本地观测信息;
奖励函数:由目标函数得到在第t次更新后的奖励rt具体表示为rt=ΔDt+1,其中ΔDt+1表示第t次更新后用户的平均节省时延;
所述步骤(6)中仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互,并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息,在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态,具体为:
为了有效地利用智能体之间交互的历史时序缓存信息,多智能体循环深度确定性策略梯度算法在MADDPG算法的基础上将GRU网络嵌入到Actor网络和Critic网络中,MADDPG算法指多智能体循环深度确定性策略梯度算法,利用GRU网络依据历史交互信息合理估计下一时刻其他智能体的动作策略和状态信息:
其中,和分别表示t时刻Actor网络和Critic网络中的历史交互信息,ot+1表示t+1时刻每个智能体的本地观测信息,at表示t时刻智能体的动作策略;
所述步骤(8)中将交互经验存储到经验回放池中,从中随机抽取Bb个经验样本,根据样本数据训练两个网络的具体步骤为:
(8.1)Critic网络通过最小化其损失函数来更新其参数ωi,具体表示为:
其中,是智能体i的Critic网络在时刻t所获得的Q值,ωi为智能体i的Critic网络的参数,表示对于每个智能体i,Critic网络对每个样本数据计算出的近似Q值,其具体计算公式为:
其中,γ为折扣因子,为智能体i的目标Critic网络产生的Q值,ω′i为目标Critic网络的参数,θ′M为目标Actor网络的参数,为智能体的动作策略;
(8.2)每个智能体通过直接优化策略参数θi来最大化奖励函数值,因此,Actor网络中的目标函数J(θi)为使其累计奖励函数最大化:
所述步骤(9)中按照参数τ的比例更新目标网络参数θ′和ω′,具体更新公式为:
θ′i←τθi+(1-τ)θ′i
ω′i←τωi+(1-τ)ω′i
其中τ为更新系数,θ′i和ω′i分别为目标Actor网络和目标Critic网络中的参数。
2.一种面向流域大坝安全管控的多服务器协同缓存更新装置,其特征在于,包括:
第一模块,构造大坝应急响应系统中用户请求大坝监测内容的缓存模型和时延模型;
第二模块,构造最大化用户请求节省时延的目标函数;
第三模块,将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程;
第四模块,将不同水电站的边缘服务器映射为不同的智能体,利用多智能体循环深度确定性策略梯度算法通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态,组合成一个系统状态;
随机初始化Actor网络与Critic网络的参数,并将系统状态信息作为每个智能体的输入;
仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互,并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息,在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态;
每个智能体在每一训练轮次的时隙t根据当前策略和随机探索噪声选择动作,执行动作后得到奖励和下一观测状态;
将交互经验存储到经验回放池中,从中随机抽取若干个经验样本,根据样本数据训练两个网络;
对目标网络参数进行更新;直到迭代过程结束,找出最优协同缓存更新方案;
所述第一模块中对缓存模型进行构建为:边缘服务器集合表示为S,总数量为M;边缘服务器的缓存空间大小记为Sizei,i∈{1,2,…,M};终端用户被表示为集合其中一个流域中央服务器与私有云相连,流域中央服务器中缓存的内容总数量为F,缓存内容记为f,f∈{1,2,…,F},其中每项缓存内容的大小表示为Ff;缓存文件在边缘服务器中的缓存状态用维度为M×F的矩阵Φ表示,矩阵中元素φf,i表示缓存文件f在边缘服务器si中的缓存状态,φf,i=0表示在边缘服务器si的缓存空间中不存在文件f,φf,i=1表示在边缘服务器si的缓存空间中存在文件f;
当边缘服务器si收到终端用户对缓存文件f的请求时,首先会在本地边缘服务器si中查找是否缓存文件f,若查找成功,则为本地命中;若查找失败,则从邻近边缘服务器请求是否缓存文件f,若查找成功,则为邻近命中,将相邻边缘服务器中的文件f通过本地边缘服务器向终端用户进行回传;在上述条件均不满足的条件下,则为未命中,将从流域中央服务器获取文件f并返回至终端用户;
所述第二模块中构造最大化用户请求节省时延的目标函数,节省的传输时延具体是指相对于从流域中央服务器获取内容所节省的时延,在一个运行周期中,平均节省的传输时延为:
其中,终端用户u来自于用户集合Du,i表示当终端用户u请求的内容从本地服务器i中获取时的节省时延,Du,j表示当终端用户u请求的内容从邻近服务器j中获取时的节省时延;
所述目标函数为在边缘服务器缓存空间约束下最小化用户请求的平均传输时延,将协同缓存问题转化为最大化用户请求的平均节省传输时延问题,即:
其中,Φ是一个M×F缓存状态矩阵,它记录了M个边缘服务器的缓存状态,缓存状态矩阵中的每个元素φi,f表示内容是否被缓存的指示器,表示每一时刻t的节省时延都包括在内,i∈M表示存在每个i都属于边缘服务器集合M,φi,fFf≤C表示每个边缘服务器中,缓存文件的总大小不能超过边缘服务器自身最大缓存容量C,约束条件(1)是边缘服务器的覆盖约束,表示所服务的用户均在边缘服务器服务范围内,约束条件(1)是边缘服务器的覆盖约束,表示所服务的用户均在边缘服务器服务范围内,约束条件(2)是边缘服务器的缓存空间约束,表示边缘服务器内缓存的内容大小不能超过自身最大缓存容量C,约束条件(3)是缓存决策变量的非负性和完整性约束;其中ξi,u是一个指示用户u是否在边缘服务器i所覆盖范围内的指示器,具体表示为:
所述第三模块中将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程中的状态空间、动作空间和奖励函数具体表示为:
状态空间:第t时刻的系统状态由每一个边缘服务器所服务用户的内容请求信息内容请求特征和边缘服务器缓存状态组成;用户内容请求信息表示为用户请求内容特征表示为边缘服务器缓存状态是指在边缘服务器在不同时间节点时缓存了哪些内容,表示为则边缘缓存系统的状态空间表示为其中表示短期特征,计算公式为 表示中期特征,计算公式为 表示长期特征,计算公式为 表示在时刻t用户u向边缘服务器si请求内容f的累计次数,τ表示不同长度的时间段,τl表示短期时间段,τm表示中期时间段,τh表示长期时间段;
动作空间:第t时刻做出的动作包括每个边缘服务器的协同缓存决策;边缘缓存系统的动作空间表示为其中为每个边缘服务器的缓存决策,表示每个智能体的本地观测信息;
奖励函数:由目标函数得到在第t次更新后的奖励rt具体表示为rt=ΔDt+1,其中ΔDt+1表示第t次更新后用户的平均节省时延;
所述第四模块中仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互,并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息,在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态,具体为:
为了有效地利用智能体之间交互的历史时序缓存信息,多智能体循环深度确定性策略梯度算法在MADDPG算法的基础上将GRU网络嵌入到Actor网络和Critic网络中,MADDPG算法指多智能体循环深度确定性策略梯度算法,利用GRU网络依据历史交互信息合理估计下一时刻其他智能体的动作策略和状态信息:
其中,和分别表示t时刻Actor网络和Critic网络中的历史交互信息,ot+1表示t+1时刻每个智能体的本地观测信息,at表示t时刻智能体的动作策略;
所述第四模块中将交互经验存储到经验回放池中,从中随机抽取Bb个经验样本,根据样本数据训练两个网络的具体步骤为:
(8.1)Critic网络通过最小化其损失函数来更新其参数ωi,具体表示为:
其中,是智能体i的Critic网络在时刻t所获得的Q值,ωi为智能体i的Critic网络的参数,表示对于每个智能体i,Critic网络对每个样本数据计算出的近似Q值,其具体计算公式为:
其中,γ为折扣因子,为智能体i的目标Critic网络产生的Q值,ω′i为目标Critic网络的参数,θ′M为目标Actor网络的参数,为智能体的动作策略;
(8.2)每个智能体通过直接优化策略参数θi来最大化奖励函数值,因此,Actor网络中的目标函数J(θi)为使其累计奖励函数最大化:
所述第四模块中按照参数τ的比例更新目标网络参数θ′和ω′,具体更新公式为:
θ′i←τθi+(1-τ)θ′i
ω′i←τωi+(1-τ)ω′i
其中τ为更新系数,θ′i和ω′i分别为目标Actor网络和目标Critic网络中的参数。
3.一种计算机设备,其特征在于:该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1所述的面向流域大坝安全管控的多服务器协同缓存更新方法。
4.一种计算机可读存储介质,其特征在于:该计算机可读存储介质存储有执行如权利要求1所述的面向流域大坝安全管控的多服务器协同缓存更新方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310316643.6A CN116346921B (zh) | 2023-03-29 | 2023-03-29 | 面向流域大坝安全管控的多服务器协同缓存更新方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310316643.6A CN116346921B (zh) | 2023-03-29 | 2023-03-29 | 面向流域大坝安全管控的多服务器协同缓存更新方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116346921A CN116346921A (zh) | 2023-06-27 |
CN116346921B true CN116346921B (zh) | 2024-06-11 |
Family
ID=86894548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310316643.6A Active CN116346921B (zh) | 2023-03-29 | 2023-03-29 | 面向流域大坝安全管控的多服务器协同缓存更新方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116346921B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113873022A (zh) * | 2021-09-23 | 2021-12-31 | 中国科学院上海微系统与信息技术研究所 | 一种可划分任务的移动边缘网络智能资源分配方法 |
CN114143891A (zh) * | 2021-11-30 | 2022-03-04 | 南京工业大学 | 移动边缘网络中基于fdql的多维资源协同优化方法 |
CN114449584A (zh) * | 2022-02-09 | 2022-05-06 | 湖南大学 | 基于深度强化学习的分布式计算卸载方法及装置 |
CN115022937A (zh) * | 2022-07-14 | 2022-09-06 | 合肥工业大学 | 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法 |
CN115633380A (zh) * | 2022-11-16 | 2023-01-20 | 合肥工业大学智能制造技术研究院 | 一种考虑动态拓扑的多边缘服务缓存调度方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11403525B2 (en) * | 2020-06-01 | 2022-08-02 | Dell Products, L.P. | Using reinforcement learning to dynamically tune cache policy parameters |
-
2023
- 2023-03-29 CN CN202310316643.6A patent/CN116346921B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113873022A (zh) * | 2021-09-23 | 2021-12-31 | 中国科学院上海微系统与信息技术研究所 | 一种可划分任务的移动边缘网络智能资源分配方法 |
CN114143891A (zh) * | 2021-11-30 | 2022-03-04 | 南京工业大学 | 移动边缘网络中基于fdql的多维资源协同优化方法 |
CN114449584A (zh) * | 2022-02-09 | 2022-05-06 | 湖南大学 | 基于深度强化学习的分布式计算卸载方法及装置 |
CN115022937A (zh) * | 2022-07-14 | 2022-09-06 | 合肥工业大学 | 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法 |
CN115633380A (zh) * | 2022-11-16 | 2023-01-20 | 合肥工业大学智能制造技术研究院 | 一种考虑动态拓扑的多边缘服务缓存调度方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116346921A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
Wei et al. | Joint user scheduling and content caching strategy for mobile edge networks using deep reinforcement learning | |
CN112598150B (zh) | 一种在智能电厂中基于联邦学习提升火灾检测效果的方法 | |
CN111629380B (zh) | 面向高并发多业务工业5g网络的动态资源分配方法 | |
CN110839075A (zh) | 边缘计算环境下基于粒子群的服务迁移方法 | |
CN109831808B (zh) | 一种基于机器学习的混合供电c-ran的资源分配方法 | |
CN110580199B (zh) | 边缘计算环境下基于粒子群的服务迁移方法 | |
CN114340016A (zh) | 一种电网边缘计算卸载分配方法及系统 | |
CN114968404B (zh) | 一种位置隐私保护的计算任务分布式卸载方法 | |
CN115310360A (zh) | 基于联邦学习的数字孪生辅助工业物联网可靠性优化方法 | |
CN114390057A (zh) | Mec环境下基于强化学习的多接口自适应数据卸载方法 | |
CN116260871A (zh) | 一种基于本地和边缘协同缓存的独立任务卸载方法 | |
CN115633380B (zh) | 一种考虑动态拓扑的多边缘服务缓存调度方法和系统 | |
CN115766089B (zh) | 一种能量采集认知物联网络抗干扰最优传输方法 | |
CN117580105B (zh) | 一种面向电网巡检的无人机任务卸载优化方法 | |
CN116346921B (zh) | 面向流域大坝安全管控的多服务器协同缓存更新方法和装置 | |
Guo et al. | Reinforcement learning-enabled reliable wireless sensor networks in dynamic underground environments | |
CN117749794A (zh) | 一种面向空天地一体化网络的边缘协同缓存方法和系统 | |
Puviarasu et al. | Dynamic uneven clustering protocol for efficient energy management in EH-WSNs | |
CN111065121B (zh) | 一种考虑小区差异的密集网络能耗及能效联合优化方法 | |
CN117114113A (zh) | 一种基于排队论的协同推理加速方法 | |
CN117353453A (zh) | 基于资源利用率、时延和无人机轨迹的电力信息采集方法 | |
CN116962187A (zh) | 一种多耦合算法边缘网关的云响应方法、装置及介质 | |
Sun et al. | Semantic-driven computation offloading and resource allocation for uav-assisted monitoring system in vehicular networks | |
CN114166228B (zh) | 无人机持续监测路径规划方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |