CN116346921A

CN116346921A - 面向流域大坝安全管控的多服务器协同缓存更新方法和装置

Info

Publication number: CN116346921A
Application number: CN202310316643.6A
Authority: CN
Inventors: 毛莺池; 李梦菲; 李黎; 徐小坤; 庞天富; 戚荣志; 陈有勤; 张鹏; 郭锐; 刘海波; 字陈波; 余意; 尹川; 樊牧
Original assignee: Hohai University HHU; Huaneng Lancang River Hydropower Co Ltd
Current assignee: Hohai University HHU; Huaneng Lancang River Hydropower Co Ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-06-27
Anticipated expiration: 2043-03-29

Abstract

本发明公开一种面向流域大坝安全管控的多服务器协同缓存更新方法，构造大坝应急响应系统中用户请求大坝监测内容的缓存模型和时延模型；构造最大化用户请求节省时延的目标函数；将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程；将不同水电站的边缘服务器映射为不同的智能体，利用多智能体循环深度确定性策略梯度算法通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态，组合成一个系统状态；将系统状态信息作为每个智能体的输入；找出最优协同缓存更新方案。本发明提出的多智能体循环深度确定性策略梯度缓存更新方法，降低了服务器通信成本，满足大坝用户请求监测内容的时延和合理安全管控措施的需求。

Description

面向流域大坝安全管控的多服务器协同缓存更新方法和装置

技术领域

本发明涉及一种面向流域大坝安全管控的多服务器协同缓存更新方法和装置，在应急响应时为大坝用户提供实时快速的监测内容访问服务，具体当大坝遇到应急事件时，为大坝用户查询监测数据提供低时延的协同缓存服务，属于移动边缘计算协同缓存技术领域。

背景技术

协同边缘缓存的任务是通过不同边缘服务器之间的协同交互，充分感知用户请求的偏好以及移动性的变化，及时更新服务器中的缓存内容，从而为用户提供极低时延的请求体验。

水利工程领域中，大坝设施所提供的防洪，防凌，蓄水，供水和发电等诸多功能使其成为中国水利事业的主力军。大坝在长周期数十年的运行中会遭遇洪水，地震和暴雨等多种自然风险事件，这些自然风险事件可能危害大坝结构安全和大坝下游群众生命财产安全。因此，大坝管理人员在出现应急事件时，都要向大坝内的服务器请求大坝监测内容，及时了解大坝在应急事件中的各种情况。然而，通常存在多个边缘服务器在不同水电站的不同区域进行监测，水电站一般包括小湾、漫湾、景洪等水电站，主要监测区域分为大坝，升船机，厂区等，这些区域将其监测内容缓存至对应水电站的边缘服务器中，并将其上传至流域中央服务器中保存。当应急事件发生时，大坝工作人员会要求低时延地获取各水电站中各区域的监测内容，从而及时进行检修与维护，确保大坝设施的安全性。通过对大坝设施监测区域的监测内容进行协同缓存更新，能够为大坝工作人员提供极低时延的缓存服务，在应急事件发生后尽快解决大坝设施出现的问题，保证大坝的安全性。

在移动边缘计算(Mobile Edge Computing，MEC)环境协同缓存过程中，时延过高会限制需要实时响应的用户请求，边缘服务器间交互缓存信息频次过高会增加服务器间通信成本，因此时延和通信成本都会影响缓存系统的整体性能，而边缘协同缓存策略也多以时延衡量指标。然而，现有工作多只关注最小化整体时延，并不能对服务器间的过高通信成本进行更有针对性的协同缓存策略制定。

发明内容

发明目的：为了解决现有技术存在的问题，需要考虑用户请求时延和服务器间通信成本需求。针对大坝运行过程中遇到的各种自然事件及其应对措施事件，本方法研究内容聚焦于大坝多用户多服务器协同缓存场景，提出一种面向流域大坝安全管控的多服务器协同缓存更新方法和装置，解决上述时延和通信成本的需求问题。考虑了当大坝应急响应事件发生时，大坝工作人员请求各区域监测视频的低时延需求，将最大化大坝工作人员请求的节省时延作为优化目标，将该问题表示为部分可观测马尔科夫决策过程，提出面向流域大坝安全管控的多服务器协同缓存更新方法求解最优协同缓存方案，满足用户请求的低时延需求，确保及时对水电站各区域实施安全管控措施。

技术方案：一种面向流域大坝安全管控的多服务器协同缓存更新方法，面向流域大坝应急响应系统，包括如下步骤：

(1)构造大坝应急响应系统中用户请求大坝监测内容的缓存模型和时延模型；

(2)构造最大化用户请求节省时延的目标函数；

(3)将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程(POMDP)；

(4)将不同水电站的边缘服务器映射为不同的智能体，利用多智能体循环深度确定性策略梯度算法(MARDDPG)通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态，组合成一个系统状态；

(5)随机初始化Actor网络与Critic网络的参数，并将系统状态信息作为每个智能体的输入；

(6)仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互，并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息，在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态；

(7)每个智能体在每一训练轮次的时隙t根据当前策略和随机探索噪声选择动作，执行动作后得到奖励和下一观测状态；

(8)将交互经验存储到经验回放池中，从中随机抽取若干个经验样本，根据样本数据训练两个网络；

(9)对目标网络参数进行更新；

(10)重复步骤4-9，直到迭代过程结束，找出最优协同缓存更新方案。

进一步的，所述步骤(2)中构造最大化用户请求节省时延的目标函数的具体步骤如下：

节省的传输时延具体是指相对于从流域中央服务器获取内容所节省的时延，具体步骤如下：

1)当终端用户u请求的内容从本地服务器i中获取时，节省时延为：

D_u,i＝d_h,u-d_i,u

其中，d_h,u表示终端用户u从流域中央服务器h中获取内容的时延，d_i,u表示终端用户u从本地服务器i中获取内容的时延。

2)当终端用户u请求的内容从邻近服务器j中获取时，节省时延为：

D_u,j＝d_h,u-d_j,u

其中，d_j,u表示终端用户u从邻近服务器j中获取内容的时延。

因此，在一个运行周期中，平均节省的传输时延为：

其中，终端用户u来自于用户集合

综上，目标函数为在边缘服务器缓存空间约束下最小化用户请求的平均传输时延，同时为了便于求解，将协同缓存问题转化为最大化用户请求的平均节省传输时延问题，即：

其中，Φ是一个M×F缓存状态矩阵，它记录了M个边缘服务器的缓存状态，缓存状态矩阵中的每个元素φ_i,f表示内容是否被缓存的指示器，

表示每一时刻t的节省时延都包括在内，i∈M表示存在每个i都属于边缘服务器集合M，φ_i,fF_f≤C表示每个边缘服务器中，缓存文件的总大小不能超过边缘服务器自身最大缓存容量C，约束条件(1)是边缘服务器的覆盖约束，表示所服务的用户均在边缘服务器服务范围内，约束条件(2)是边缘服务器的缓存空间约束，表示边缘服务器内缓存的内容大小不能超过自身最大缓存容量C，约束条件(3)是缓存决策变量的非负性和完整性约束。其中ξ_i,u是一个指示用户u是否在边缘服务器i所覆盖范围内的指示器，具体表示为：

进一步的，所述步骤(3)中将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程(POMDP)中的状态空间、动作空间和奖励函数具体表示为：

状态空间：第t时刻的系统状态

由每一个边缘服务器所服务用户的内容请求信息/>

内容请求特征/>

和边缘服务器缓存状态/>

组成。用户内容请求信息表示为

用户请求内容特征表示为/>

边缘服务器缓存状态是指在边缘服务器在不同时间节点时缓存了哪些内容，表示为/>

则边缘缓存系统的状态空间表示为/>

动作空间：第t时刻做出的动作

包括每个边缘服务器的协同缓存决策。因此，该边缘缓存系统的动作空间表示为/>

其中/>

为每个边缘服务器的缓存决策，/>

表示每个智能体的本地观测信息。每个边缘服务器在接收到用户的内容请求后，计算每个内容的请求特征信息，并基于服务器缓存空间的约束来确定需要缓存或替换哪些内容。/>

表示每个智能体的动作策略函数，其参数为θ_i。

奖励函数：奖励函数通常与目标函数相关，因此由目标函数可以得到在第t次更新后的奖励r_t具体表示为r_t＝ΔD^t+1，其中ΔD^t+1表示第t次更新后用户的平均节省时延。

进一步的，所述步骤(6)中仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互，并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息，在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态，具体为：

为了有效地利用智能体之间交互的历史时序缓存信息，MARDDPG算法在MADDPG算法的基础上将GRU网络嵌入到Actor网络和Critic网络中。其中，

和/>

分别表示t时刻Actor网络和Critic网络中的历史信息，利用GRU网络依据历史交互信息合理估计下一时刻其他智能体的动作策略和状态信息：

其中，

和/>

分别表示t时刻Actor网络和Critic网络中的历史交互信息，o^t+1表示t+1时刻每个智能体的本地观测信息，a^t表示t时刻智能体的动作策略。

进一步的，所述步骤(8)中将经验

存储到经验回放池D中，从中随机抽取B_b个经验样本，/>

表示用户和边缘服务器每次交互时产生的奖励，奖励具体指每时刻t更新后用户的节省时延：r_t＝ΔD^t+1。根据样本数据训练两个网络的具体步骤为：

(8.1)Critic网络通过最小化其损失函数

来更新其参数ω_i，/>

具体表示为：

其中，

是智能体i的Critic网络在时刻t所获得的Q值，ω_i为智能体i的Critic网络/>

的参数。/>

表示对于每个智能体i，Critic网络对每个样本数据计算出的近似Q值，其具体计算公式为：

其中，γ为折扣因子，

为智能体i的目标Critic网络产生的Q值，ω′_i为目标Critic网络的参数，θ^′ _M为目标Actor网络的参数，/>

为智能体的动作策略。

(8.2)每个智能体通过直接优化策略参数θ_i来最大化奖励函数值，因此，Actor网络中的目标函数J(θ_i)为使其累计奖励函数最大化：

进一步的，所述步骤(9)中按照参数τ的比例更新目标网络参数θ′和ω′，具体更新公式为：

θ_i ⁱ←τθ_i+(1-τ)θ_i ^′

ω^′ _i←τω_i+(1-τ)ω_i ^′

其中更新系数τ取值0.01，θ_i ^′和ω^′ _i分别为目标Actor网络和目标Critic网络中的参数。

一种面向流域大坝安全管控的多服务器协同缓存更新装置，包括：

第一模块，构造大坝应急响应系统中用户请求大坝监测内容的缓存模型和时延模型。

第二模块，构造最大化用户请求节省时延的目标函数。

第三模块，将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程(POMDP)。

第四模块，将不同水电站的边缘服务器映射为不同的智能体，利用多智能体循环深度确定性策略梯度算法(MARDDPG)通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态，组合成一个系统状态；

随机初始化Actor网络与Critic网络的参数，并将系统状态信息作为每个智能体的输入；

仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互，并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息，在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态；

每个智能体在每一训练轮次的时隙t根据当前策略和随机探索噪声选择动作，执行动作后得到奖励和下一观测状态；

将交互经验存储到经验回放池中，从中随机抽取若干个经验样本，根据样本数据训练两个网络；

对目标网络参数进行更新；直到迭代过程结束，找出最优协同缓存更新方案。

装置的实现过程与方法相同，不在赘述。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的面向流域大坝安全管控的多服务器协同缓存更新方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的面向流域大坝安全管控的多服务器协同缓存更新方法的计算机程序。

在水电站的移动边缘计算环境下，移动设备有限的存储空间无法缓存较多有实时性需求的监测内容，如果从与私有云中心相连接的流域中央服务器获取缓存内容则会造成较高的时延，而无线网络边缘提供就近缓存服务，达到减少时延目的。针对有限的边缘服务器缓存资源难以满足大坝用户在应急响应时的低时延需求问题，提出一种面向流域大坝安全管控的多服务器协同缓存更新方法。首先将最大化大坝用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程(POMDP)。其次，通过利用循环神经网络记忆并估计其他服务器缓存信息的方式，来降低服务器间的交互频次和通信成本，最后，基于多智能体循环深度确定性策略梯度(MARDDPG)的算法求解最优协同缓存策略。

有益效果：本发明与现有技术相比具有以下优点：

本发明针对移动边缘计算环境下一种面向流域大坝安全管控的多服务器协同缓存更新方法，考虑了大坝应急管控事件发生时，大坝工作人员请求各区域监测视频的低时延需求，将最大化大坝工作人员请求的节省时延作为优化目标，将该问题表示为部分可观测马尔科夫决策过程，提出面向流域大坝安全管控的多服务器协同缓存更新方法求解最优协同缓存方案，本发明在减少服务器通信频次的基础上，具有比LRU(Least RecentlyUsed)、DRL(Deep Reinforcement Learning)、MAAC(Multi-Agent Actor-Critic)缓存方案平均高出9.3％的节省时延比，能更好地满足用户请求低时延需求的场景，确保能够及时对水电站各区域实施安全管控措施。

附图说明

图1为本发明实施例的基于MARDDPG的多智能体循环协同缓存算法基本框架图；

图2为本发明实施例的水电站边缘环境中多用户多服务器协同缓存场景图；

图3为本发明实施例的MARDDPG算法中基于GRU网络进行缓存信息交互的流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种面向流域大坝安全管控的多服务器协同缓存更新方法，考虑了大坝应急管控事件发生时，大坝工作人员请求各水电站中各区域监测视频的低时延需求，将最大化大坝工作人员请求的节省时延作为优化目标，将该问题表示为部分可观测马尔科夫决策过程，提出面向流域大坝安全管控的多服务器协同缓存更新方法，求解最优协同缓存方案。

图1为本发明的基于MARDDPG的多智能体循环协同缓存算法框架图，首先，该算法通过智能体收集大坝用户的内容请求信息、内容请求特征和边缘服务器缓存状态组成系统状态，将系统状态作为MARDDPG网络的输入，其次，每个智能体在每一训练轮次的时隙t根据当前策略

和随机探索噪声/>

选择动作，执行动作后得到奖励和下一观测状态

然后，在每一训练轮次的最后时隙t，采用GRU循环神经网络记忆其他智能体的缓存信息，在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态，之后，将经验/>

存储到经验回放池D中，从中随机抽取B_b个经验样本，根据样本数据训练两个网络。最终，输出多用户多服务器场景下的最优协同缓存方案。

图2为本发明的面向大坝安全管控的多用户多服务器协同缓存的场景图，从图2可以看出每个水电站区域有多个大坝工作人员，多个分别与小湾、漫湾、景洪等水电站中监测区域相关联的边缘服务器，以及一个与所有边缘服务器相连接的流域中央服务器。每个边缘服务器收集关于不同水电站中不同区域的监测视频，并上传至流域中央服务器，保存到私有云中心内，当应急事件发生时，大坝工作人员将需要低时延的获取各个水电站中各区域的实时监测视频，以便尽快了解水电站运行情况，及时对其进行维护，保证水电站设施的安全性。图3为本发明实施例的基于MARDDPG算法的多服务器间利用GRU网络交互缓存信息的具体流程图。定义服务器缓存状态信息为所服务用户的内容请求信息、内容请求特征和边缘服务器缓存状态组成。采用的循环神经网络为GRU网络，相比于流行的LSTM网络具有更少的参数，更有利于网络的学习训练。N_episode表示回合数，初始化为0，边缘服务器在每一回合的每一时刻t都会接收用户请求，并组成服务器缓存信息。然后利用GRU网络根据历史交互信息估计其他服务器的缓存信息，o^t＝o^terminal表示到了某一回合的最后时刻t，此时服务器间将会进行缓存信息的交互，并利用GRU网络记忆交互的缓存信息，其中估计的缓存信息包括其它服务器的缓存状态信息和服务器的缓存策略信息。N_max-episode表示设置的最大回合数，当N_episode≥N_max-episode时，结束迭代过程，反之将会重复以上流程。

(2)构造最大化用户请求节省时延的目标函数；

(7)每个智能体在每一训练轮次的时隙t根据当前策略和随机探索噪声选择动作，执行动作后得到奖励和下一观测状态。

(9)对目标网络参数进行更新；

步骤1：面向流域大坝安全管控的移动边缘缓存要面临监测内容的分散性和多样性，对于大坝用户来说，当应急事件发生时，为了确保及时对水电站各区域实施安全管控措施，向多个边缘服务器请求监测内容时有着明显的低时延需求。同时，在整个系统中服务器间交互缓存信息的通信成本也是需要考虑的重要因素之一。针对这些问题，本发明构造了有关最大化用户请求节省时延的目标函数来制定最佳协同缓存决策，满足用户的低时延和服务器间的低通信成本需求。在求解协同边缘缓存方案之前要对边缘协同缓存更新系统的缓存模型进行构建：

(1.1)缓存模型

集群中边缘服务器集合表示为S，总数量为M。边缘服务器的缓存空间大小记为Size_i，i∈{1,2,…,M}。终端用户被表示为集合

其中一个流域中央服务器与私有云相连，流域中央服务器中缓存的内容总数量为F，缓存内容记为f，f∈{1,2,…,F}，其中每项缓存内容的大小表示为F_f。缓存文件在边缘服务器中的缓存状态用维度为M×F的矩阵Φ表示，矩阵中元素φ_f,i表示缓存文件f在边缘服务器s_i中的缓存状态，φ_f,i＝0表示在边缘服务器s_i的缓存空间中不存在文件f，φ_f,i＝1表示在边缘服务器s_i的缓存空间中存在文件f。

当边缘服务器s_i收到终端用户对缓存文件f的请求时，首先会在本地边缘服务器s_i中查找是否缓存文件f，若查找成功，则为本地命中；若查找失败，则从邻近边缘服务器请求是否缓存文件f，若查找成功，则为邻近命中，将相邻边缘服务器中的文件f通过本地边缘服务器向终端用户进行回传；在上述条件均不满足的条件下，则为未命中，将从流域中央服务器获取文件f并返回至终端用户。

之后，对用户请求时延模型进行构建，具体步骤如下：

(1.2)时延模型

用户请求监测内容时传输延迟定义为传输内容的时间帧数，可表示如下：

其中F_f表示要传输的内容的大小，T₀为每个时间段的持续时间，C(κ)为第κ时间段的瞬时通道容量。通道容量C(κ)表示为：

其中，P_t为传输功率，B为带宽，σ²为噪声功率频谱密度，z_κ为在k^th时相应的衰减系数。在边缘缓存系统中，有两种类型的发射机：云数据中心和基站。假设所有的发射机都以其最大功率电平传输以使传输速率最大化，传输功率定义为：

因此，终端用户请求内容时三种不同情况下的时延开销为：

1)如果终端用户u请求的内容缓存在本地服务器s_i中，则为本地命中，此时，本地服务器将内容发送给终端用户，传输时延表示为：

其中，d_i,u表示本地服务器s_i和终端用户u之间的传输延迟，R_i,u表示本地服务器与终端用户的无线下行信道传输速率，具体表示为：

2)如果终端用户u所请求的内容文件未缓存在本地服务器s_i中，但在可连接的邻近服务器中缓存有该文件，则为邻近命中，此时，邻近服务器将文件发送给本地服务器，并通过本地服务器传送给终端用户，传输时延表示为：

d_j,u＝d_i,u+d_i,j

其中，

表示本地服务器s_i与邻近服务器s_j之间的传输延迟。R_i,j表示本地服务器s_i与邻近服务器s_j之间的数据传输速率，具体表示为：

3)如果终端用户所请求的内容文件在本地服务器和邻近服务器中均未命中，不能通过上述两种方式获得文件，则需要通过回程链路从流域中央服务器下载到本地服务器，然后再发送给终端用户，此时，内容传输延迟表示为：

d_h,u＝d_i,u+d_i,h

其中，

表示流域中央服务器s_h与本地服务器s_i之间的回程传输延迟，R_i,h为回程链路网络上的数据传输速率，具体表示为：

步骤2：协同缓存的目标是考虑用户请求的节省时延，提高整个系统内的用户满意度。

根据优化目标，构建目标计算函数具体表示为：

节省的传输时延具体是指相对于从流域中央服务器获取内容所节省的时延：

D_u,i＝d_h,u-d_i,u

D_u,j＝d_h,u-d_j,u

因此，在一个运行周期中，平均节省的传输时延为：

其中，约束条件(1)是边缘服务器的覆盖约束，表示所服务的用户均在边缘服务器服务范围内，约束条件(2)是边缘服务器的缓存空间约束，表示边缘服务器内缓存的内容大小不能超过自身最大缓存容量，约束条件(3)是缓存决策变量的非负性和完整性约束。其中ξ_i,u是一个指示用户u是否在边缘服务器i所覆盖范围内的指示器，具体表示为：

然而，求解目标函数是一个经典的协同缓存优化问题，用传统的方法需要将问题拆成几个小问题求解，而随着用户设备的增加，协同缓存问题的决策空间会爆炸式增长。基于无模型的深度强化学习框架可以通过环境反馈来调整策略以达到最佳的长期回报，能应对上述决策空间过大的问题。

步骤3：将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程(POMDP)中的状态空间、动作空间和奖励函数具体表示为：

状态空间：第t时刻的系统状态

由每一个边缘服务器所服务用户的内容请求信息/>

内容请求特征/>

和边缘服务器缓存状态/>

组成。用户内容请求信息表示为

用户请求内容特征表示为/>

其中/>

表示短期特征，计算公式为/>

表示中期特征，计算公式为/>

表示长期特征，计算公式为/>

其中/>

表示在时刻t用户u向边缘服务器s_i请求内容f的累计次数，τ表示不同长度的时间段，τ_l表示短期时间段，τ_m表示中期时间段，τ_h表示长期时间段，并且有τ_l<τ_m<τ_h。边缘服务器缓存状态是指在边缘服务器在不同时间节点时缓存了哪些内容，表示为/>

则边缘缓存系统的状态空间表示为/>

动作空间：第t时刻做出的动作

其中/>

为每个边缘服务器的缓存决策。每个边缘服务器在接收到用户的内容请求后，计算每个内容的请求特征信息，并基于服务器缓存空间的约束来确定需要缓存或替换哪些内容。

步骤4：将不同水电站的边缘服务器映射为不同的智能体，利用多智能体循环深度确定性策略梯度算法(MARDDPG)通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态，组合成一个系统状态；

步骤5：随机初始化Actor网络与Critic网络的参数，并将系统状态信息作为每个智能体的输入：

初始化每个智能体Actor网络

的随机参数θ和Critic网络

的随机参数ω。初始化相应的目标网络/>

的网络参数θ′←θ、ω′←ω。

步骤6：仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互，并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息，在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态，具体为：

和/>

其中，

和/>

步骤7：每个智能体在每一训练轮次的时隙t根据当前策略

和随机探索噪声/>

选择动作，执行动作后得到奖励和下一观测状态/>

则对应的则Q值函数表示为：

步骤8：将经验

存储到经验回放池D中，从中随机抽取B_b个经验样本，根据样本数据训练两个网络的具体公式为：

(8.1)Critic网络通过最小化其损失函数

来更新其参数ω_i，/>

具体表示为：

/>

其中，

的参数。/>

其中，γ为折扣因子，

为智能体i的目标Critic网络产生的Q值，ω′_i为目标Critic网络的参数，θ′_M为目标Actor网络的参数，/>

为智能体的动作策略。

步骤9：按照参数τ的比例更新目标网络参数θ′和ω′，具体更新公式为：

θ′_i←τθ_i+(1-τ)θ′_i

ω′_i←τω_i+(1-τ)ω′_i

其中更新系数τ取值很小，θ′_i和ω′_i分别为目标Actor网络和目标Critic网络中的参数。

步骤10：重复步骤4-9，直到迭代过程结束，找出最优协同缓存更新方案。

第一模块，构造大坝应急响应系统中用户请求大坝监测内容的缓存模型和时延模型；

第二模块，构造最大化用户请求节省时延的目标函数；

第三模块，将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程(POMDP)；

第四模块，将不同水电站的边缘服务器映射为不同的智能体，利用多智能体循环深度确定性策略梯度算法(MARDDPG)通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态，组合成一个系统状态；随机初始化Actor网络与Critic网络的参数，并将系统状态信息作为每个智能体的输入；仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互，并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息，在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态；每个智能体在每一训练轮次的时隙t根据当前策略和随机探索噪声选择动作，执行动作后得到奖励和下一观测状态。将交互经验存储到经验回放池中，从中随机抽取若干个经验样本，根据样本数据训练两个网络；对目标网络参数进行更新；直到迭代过程结束，找出最优协同缓存更新方案。

显然，本领域的技术人员应该明白，上述的本发明实施例的面向流域大坝安全管控的多服务器协同缓存更新方法各步骤或面向流域大坝安全管控的多服务器协同缓存更新装置各模块可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

1.一种面向流域大坝安全管控的多服务器协同缓存更新方法，面向流域大坝应急响应系统，其特征在于，包括如下步骤：

(2)构造最大化用户请求节省时延的目标函数；

(3)将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程；

(4)将不同水电站的边缘服务器映射为不同的智能体，利用多智能体循环深度确定性策略梯度算法通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态，组合成一个系统状态；

(9)对目标网络参数进行更新；

2.根据权利要求1所述的面向流域大坝安全管控的多服务器协同缓存更新方法，其特征在于，所述步骤(2)中构造最大化用户请求节省时延的目标函数，节省的传输时延具体是指相对于从流域中央服务器获取内容所节省的时延，在一个运行周期中，平均节省的传输时延为：

其中，终端用户u来自于用户集合

D_u,i表示当终端用户u请求的内容从本地服务器i中获取时的节省时延，D_u,j表示当终端用户u请求的内容从邻近服务器j中获取时的节省时延。

3.根据权利要求2所述的面向流域大坝安全管控的多服务器协同缓存更新方法，其特征在于，所述目标函数为在边缘服务器缓存空间约束下最小化用户请求的平均传输时延，将协同缓存问题转化为最大化用户请求的平均节省传输时延问题，即：

其中，约束条件(1)是边缘服务器的覆盖约束，表示所服务的用户均在边缘服务器服务范围内，约束条件(2)是边缘服务器的缓存空间约束，表示边缘服务器内缓存的内容大小不能超过自身最大缓存容量C，约束条件(3)是缓存决策变量的非负性和完整性约束；其中ξ_i,u是一个指示用户u是否在边缘服务器i所覆盖范围内的指示器，具体表示为：

4.根据权利要求1所述的面向流域大坝安全管控的多服务器协同缓存更新方法，其特征在于，所述步骤(3)中将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程中的状态空间、动作空间和奖励函数具体表示为：

状态空间：第t时刻的系统状态

由每一个边缘服务器所服务用户的内容请求信息/>

内容请求特征/>

和边缘服务器缓存状态/>

组成；用户内容请求信息表示为

用户请求内容特征表示为/>

则边缘缓存系统的状态空间表示为/>

动作空间：第t时刻做出的动作

包括每个边缘服务器的协同缓存决策；边缘缓存系统的动作空间表示为/>

其中/>

为每个边缘服务器的缓存决策，/>

表示每个智能体的本地观测信息；

奖励函数：由目标函数得到在第t次更新后的奖励r_t具体表示为r_t＝ΔD^t+1，其中ΔD^t+1表示第t次更新后用户的平均节省时延。

5.根据权利要求1所述的面向流域大坝安全管控的多服务器协同缓存更新方法，其特征在于，所述步骤(6)中仅在每一训练轮次的最后时间t进行每个智能体之间的缓存信息交互，并利用GRU循环神经网络记忆历史交互的全局状态信息和动作信息，在下一回合的每一时隙t通过GRU网络合理估计其它智能体可能的缓存状态，具体为：

为了有效地利用智能体之间交互的历史时序缓存信息，多智能体循环深度确定性策略梯度算法在MADDPG算法的基础上将GRU网络嵌入到Actor网络和Critic网络中，利用GRU网络依据历史交互信息合理估计下一时刻其他智能体的动作策略和状态信息：

其中，

和/>

6.根据权利要求1所述的面向流域大坝安全管控的多服务器协同缓存更新方法，其特征在于，所述步骤(8)中将交互经验存储到经验回放池D中，从中随机抽取B_b个经验样本，根据样本数据训练两个网络的具体步骤为：

(8.1)Critic网络通过最小化其损失函数

来更新其参数ω_i，/>

具体表示为：

其中，

是智能体i的Critic网络在时刻t所获得的Q值，ω_i为智能体i的Critic网络

的参数，/>

其中，γ为折扣因子，

为智能体i的目标Critic网络产生的Q值，ω^′ _i为目标Critic网络的参数，θ^′ _M为目标Actor网络的参数，/>

为智能体的动作策略；

7.根据权利要求1所述的面向流域大坝安全管控的多服务器协同缓存更新方法，其特征在于，所述步骤(9)中按照参数τ的比例更新目标网络参数θ′和ω′，具体更新公式为：

θ_i ^′←τθ_i+(1-τ)θ_i ^′

ω^′ _i←τω_i+(1-τ)ω_i ^′

其中τ为更新系数，θ_i ^′和ω^′ _i分别为目标Actor网络和目标Critic网络中的参数。

8.一种面向流域大坝安全管控的多服务器协同缓存更新装置，其特征在于，包括：

第二模块，构造最大化用户请求节省时延的目标函数；

第三模块，将最大化用户请求节省时延的协同缓存问题表示为部分可观测马尔科夫决策过程；

第四模块，将不同水电站的边缘服务器映射为不同的智能体，利用多智能体循环深度确定性策略梯度算法通过智能体收集用户内容请求信息、内容请求特征和边缘服务器的缓存状态，组合成一个系统状态；

9.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-7中任一项所述的面向流域大坝安全管控的多服务器协同缓存更新方法。

10.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求1-7中任一项所述的面向流域大坝安全管控的多服务器协同缓存更新方法的计算机程序。