CN117544680B

CN117544680B - 一种基于电力物联网缓存放置方法、系统、设备及介质

Info

Publication number: CN117544680B
Application number: CN202410008013.7A
Authority: CN
Inventors: 柯洪昌; 吴桐; 佘向飞; 赵慧玲; 于萍
Original assignee: Changchun Institute of Applied Chemistry of CAS
Current assignee: Changchun Institute of Applied Chemistry of CAS
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-04-05
Anticipated expiration: 2044-01-04
Also published as: CN117544680A

Abstract

一种电力物联网缓存放置方法、系统、设备及介质，属于无线网络领域，解决了电力物联网节点特定任务完成需求与移动边缘计算设备计算资源不均衡之间的矛盾的问题。所述方法包括：获取电力物联网设备产生的任务和卸载的任务，并进行聚类分组；获取边缘服务器与云服务器的信道增益状态信息，生成通信模型；根据边缘服务器主控的缓存类别，获取本地计算模型和卸载处理模型；设置加权平均代价最小化问题及约束条件，将所述最小化问题转换为马尔科夫模型，并设置状态空间、动作空间和奖励函数；采用改进的深度强化学习算法训练所述边缘服务器得到最优缓存放置策略。本发明适用于自动控制家居控能、智能自动驾驶车路协同、全自动交通控制等场景。

Description

一种基于电力物联网缓存放置方法、系统、设备及介质

技术领域

本发明属于无线网络移动边缘计算领域，具体涉及一种电力物联网缓存放置技术。

背景技术

泛在电力物联网的提出和发展，需要大量连接的传感器和设备，而节点和设备会产生大量的数据并消耗大量能量，需要实时监测它们的状态并将数据进行处理，而节点的处理能力是有限的，需要这些物联网节点将部分数据卸载到云端或上层服务端。

移动边缘计算（MEC）是一种新型的处理设备，与传统的云计算不同，MEC可以有效解决数据传输回程延时，有助于位于电网附近的服务器上的数据收集和处理，同时降低数据计算的传输成本和处理时间，同时大大减少了数据处理延迟和功耗。

然而，电力物联网设备处理的任务通常需要特定的应用程序（服务缓存）处理，服务缓存中的动态内容即是针对特殊工作负载的特定可执行程序。例如，来自电动车辆终端的实时在线数据（摄像头、雷达采集数据）需要计算资源（可执行程序）。由于电动车辆终端的处理能力有限，在线数据需要卸载到托管服务缓存的MEC服务器，即用于完成的计算资源。当前，在MEC环境中有一些关于服务缓存的相关研究，但是这些研究都是针对延迟进行优化，或是利用传统凸优化或启发式搜索算法进行处理，而没有针对移动边缘计算环境的电力物联网研究或使用深度强化学习算法进行优化处理的研究。

发明内容

本发明为了解决电力物联网节点特定任务完成需求与移动边缘计算设备计算资源不均衡之间的矛盾的问题，从而提出了一种基于移动边缘计算的电力物联网缓存放置方法、系统计算机设备及介质。

本发明所述的一种基于电力物联网缓存放置方法包括：

一种电力物联网缓存放置方法，其特征在于，所述方法包括：

获取电力物联网设备产生的任务，对所述任务进行聚类分组；

获取电力物联网设备卸载的任务；

配置边缘服务器主控的特定类别的缓存；

获取边缘服务器与云服务器之间的信道增益状态信息，生成通信模型；

根据边缘服务器主控的缓存类别，分别获取本地计算模型和卸载处理模型，并将所述卸载的任务输入到所述本地计算模型或所述卸载处理模型中并执行；

设置加权平均代价最小化问题及约束条件，将所述最小化问题转换为马尔科夫模型，并设置状态空间、动作空间和奖励函数；

采用改进的深度强化学习算法训练所述边缘服务器得到最优缓存放置策略。

更进一步地，提供优选方案：所述电力物联网缓存为服务缓存，为可执行任务的应用程序，所述电力物联网设备产生的任务为所述电力物联网设备自身不能处理的任务。

更进一步地，提供优选方案：所述电力物联网设备自身不能处理的任务定义为：

其中，为t时刻电力物联网e产生的需要由缓存c处理的请求任务，/>是请求任务/>的总大小，/>代表请求任务/>的计算密度，/>表示完成时间的约束。

更进一步地，提供优选方案：所述对所述任务信息进行聚类分组，采用K-Means方法实现。

更进一步地，提供优选方案：所述电力物联网设备卸载的任务传输到所述边缘服务器中进行卸载。

更进一步地，提供优选方案：所述并将所述卸载的任务输入到所述本地计算模型或所述卸载处理模型中并执行，具体为：当边缘服务器主控所述任务完成需要的缓存时，输入到所述本地计算模型；当边缘服务器未主控所述任务完成需要的缓存时，输入到所述卸载处理模型。

更进一步地，提供优选方案：所述改进的深度强化学习算法基于自适应DoubleDueling Deep-Q-Learning 算法实现，具体为：针对于每一个边缘服务器m设置为学习智能体m，通过训练所述学习智能体m，获得最优服务缓存决策策略，然后对所有M个智能体的奖励结果进行平均，得到全局最优解，其中，。

本发明所述的一种电力物联网缓存放置系统包括：

信息聚类分组模块：用于获取电力物联网设备产生的任务信息，对所述任务信息进行聚类分组；

卸载任务获取模块：用于获取电力物联网设备卸载的任务；

缓存配置模块：用于配置边缘服务器主控的特定类别的缓存；

通信模型构建模块：用于获取边缘服务器与云服务器之间的信道增益状态信息，生成通信模型；

卸载任务执行模块：用于根据边缘服务器主控的缓存类别，分别获取本地计算模型和卸载处理模型，并将所述卸载的任务输入到所述本地计算模型或所述卸载处理模型中并执行；

问题转化模块：用于设置加权平均代价最小化问题及约束条件，将所述最小化问题转换为马尔科夫模型，并设置状态空间、动作空间和奖励函数；

训练模块：用于采用改进的深度强化学习算法训练所述边缘服务器得到最优缓存放置策略。

本发明还提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据上述任意一种方案组合所述的一种电力物联网缓存放置方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行根据上述任意一种方案组合所述的一种电力物联网缓存放置方法。

与现有技术相比，本发明有以下技术优势：

1. 本发明所述的方法利用K-Means算法对产生同类任务的设备进行聚类分组，以降低深度强化学习的状态空间和动作空间的维数，提高最优策略的学习效果。

2. 本发明所述的方法利用深度强化学习的D3QN算法，解决传统DQN的输出奖励过估计问题，提升了算法的收敛效果。

3. 本发明所述的方法在选择训练样本时，并没有在经验回放池中采用传统的随机选择方式；而是提出了一种基于差分和训练回合数的优先级选择样本方式，从而提高了方法的收敛速度。

本发明适用于自动控制家居控能、智能自动驾驶车路协同、全自动交通控制等场景。

附图说明

图1为实施方式一所述的一种基于移动边缘计算的电力物联网缓存放置方法的流程图；

图2为实施方式六所述的一种基于移动边缘计算的电力物联网缓存放置系统的框架结构示意图；

图3为实施方式五所述的一种基于移动边缘计算的电力物联网缓存放置方法收敛性能示意图；

图4为实施方式五所述的提出方法与其他基线在电力物联网终端不同任务到达概率下算法性能对比示意图；

图5为实施方式五所述的提出方法与其他基线算法不同电力物联网终端数量下性能对比示意图；

图6为实施方式六所述的一种基于移动边缘计算的电力物联网缓存放置系统的示意图。

具体实施方式

下面将结合本发明的附图对本发明实施方式中的技术方案进行清楚、完整地描述。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

实施方式一

参照图1说明本实施方式。

本实施方式所述的一种电力物联网缓存放置方法包括：

获取电力物联网设备卸载的任务；

配置边缘服务器主控的特定类别的缓存；

具体地：

所述电力物联网设备包括移动电子设备、无人驾驶电动汽车等设备，所述电力物联网缓存为服务缓存，为可执行任务的应用程序，所述电力物联网设备产生的任务为所述电力物联网设备自身不能处理的任务，任务定义为：

其中，为t时刻电力物联网e产生的需要由缓存c处理的请求任务，/>是请求任务/>的总大小，/>代表请求任务/>的计算密度，/>表示完成时间的约束（完成请求任务/>的截止时间）。

不同类型任务由不同类别的缓存执行，所有类别的缓存在云服务器上，所述边缘服务器仅放置有限类别的缓存。

根据所述电力物联网设备产生的任务的特征，利用K-Means聚类算法对来自无线设备的计算任务的类别进行预分类，以降低深度强化学习的状态空间和动作空间的维数，提高最优策略的学习效果。

所述电力物联网设备卸载的任务传输到所述边缘服务器中进行卸载，所述边缘计算服务器由地面边缘服务器（MEC Server）和无人机（UAV）组成。

假设边缘服务器所覆盖范围不重合，即电力物联网设备仅能选择一个边缘服务器卸载任务。定义边缘服务器总任务大小为：

其中为缓存c（/>）决定，取值为[0, 1];/>为缓存c到第n个边缘服务器的决定，取值为[1,…,n]。

并且本实施方式将连续持续时间离散化为等长时间间隔（时隙）T={1，2，...，T}，即存在T个时隙，总持续时间为T，并且一个时隙被设置为t。

本实施方式考虑边缘服务器端与云服务器端的通信模型，即边缘服务器经由无线信道向云服务器发送（卸载）任务，因此，它们之间的信道状态直接影响着通信效果。

本实施方式定义边缘服务器n和云服务器m之间的信道状态为：

其中，是路径损耗，是一个常数。/>是边缘服务器 n和云服务器m之间的距离，是遵循马尔可夫分布的转移矩阵。

因此，根据香农定律，边缘服务器n和云服务器m之间的数据传输速率为：

其中表示传输功率。/>表示零均值的加性高斯白噪声（AWGN）的方差。/>表示总带宽，K是子带宽大小。

当边缘服务器n获得由连接的电力物联网终端e（）卸载的所有请求任务/>时：

（1）边缘服务器n主控电力物联网终端e卸载的所有请求任务所需缓存，可以选择本地执行。

在时隙t内，执行任务的本地延迟可表示为：

其中，为执行任务/>分配的CPU时钟数，其与边缘服务器的性能有关，/>为移动边缘服务器可以缓存任务的最大数量。

相应的，在时隙t内，执行任务的本地能耗可表示为：

其中，为边缘服务器n的有效开关电容容量。

（2）边缘服务器n并未主控电力物联网终端e卸载的所有请求任务所需缓存，必须选择卸载到云服务器执行。

在时隙t内，卸载任务的传输延迟可表示为：

其中，表示从边缘服务器n卸载到云服务器的所有任务之和，定义为

。

相应的，在时隙t内，卸载任务的传输能耗可表示为：

其中，为卸载任务时的传输功率。

本实施方式提出一种结合聚类方法和深度强化学习方法处理加权平均代价最小化问题。方法能够得到最优的缓存放置策略，提高了电力物联网节点的任务处理代价，即减少了任务处理的延迟和能耗代价。

实施方式二

本实施方式是对实施方式一所述的一种电力物联网缓存放置方法中所述的设置加权平均代价最小化问题及约束条件，将所述最小化问题转换为马尔科夫模型，并设置状态空间、动作空间和奖励函数；采用改进的深度强化学习算法训练所述边缘服务器得到最优缓存放置策略的进一步举例说明。

服务缓存卸载包括两个步骤：是否缓存，以及针对所有MEC-BS上的计算工作负载缓存哪些服务。

对于所有的边缘服务器，在时隙t中，在来自电力物联网终端的所有请求任务都完成的前提下，可以得到总的时延：

相应的，总的能耗为：

因此，完成任务的加权总代价由延迟和能耗组成，可以表示为：

所以，最小化问题及其约束条件为：

P1

s.t.

约束条件1表示是否将服务缓存分配给边缘服务器的决策，将缓存托管到哪个边缘服务器的决策。约束条件2中规定了本地执行的总延迟的延迟限制，并且计算卸载必须不超过完成工作负载的最后期限。约束条件2定义分配给边缘服务器n的CPU时钟周期数不能超过最大CPU周期数。

因为，选择最优服务缓存策略以最小化加权平均成本（P1）是一个NP-Hard问题，难以使用传统的启发式方法或凸优化方案来解决。本发明将P1优化问题转换为马尔可夫模型，即定义状态空间、动作空间、奖励函数。

对于边缘服务器n，所述状态由所有个连接的电力物联网终端的到达任务的概率、所有/>个连接的电力物联网终端的到达请求任务大小、所需CPU时钟周期数，边缘服务器n与云服务器之间的信道状态、以及边缘服务器n托管的服务缓存组成，具体如下：

对于边缘服务器n，动作空间是一组服务缓存选择决策变量。边缘服务器n从云服务器获得指令，即是否托管服务高速缓存以及哪些服务缓存被托管。服务缓存的配置决策直接影响系统的加权平均代价。

因此，动作空间定义为：

在时隙t 内，根据当前状态，基于服务缓存决策策略，选择的动作/>，可以从环境中获得立即奖励。

本实施方式将奖励函数定义为，为全局成本/>的平均值。获得最小平均成本被转换为获得所有智能体（边缘服务器）的最大平均累积奖励。

本实施方式找到最优的服务缓存卸载方案，以最小化加权平均成本，包括延迟，能消成本的时间间隔。

实施方式三

本实施方式是对实施方式一所述的一种电力物联网缓存放置方法中所述的K-Means方法的进一步举例说明。

本实施方式所述的K-Means方法进行聚类分组的步骤如下：

S11：初始化所有电力物联网设备卸载的任务的参数，包括：任务特征、位置信息/>、任务到达概率/>，并设定参数权重；

S12：对每个设备做E次训练，训练的过程如S13至S15所示：

S13：初始化所有边缘服务器接收的卸载任务的所有参数加权均值；

S14：初始化聚类数和误差/>；

S15：根据参数加权均值选择的/>个聚类中心;

S16：对每个设备做E次训练，训练的过程如S17至S112所示：

S17：计算当前任务与聚类中心的距离；

S18：将每个任务分配给离质心最近的聚类集；

S19：更新生成所有聚类的质心; 计算两次迭代的差值；

S110：如果，执行S111，否则继续返回S17执行；

S111：输出聚类结果，/>。

实施方式四

本实施方式是对实施方式一所述的一种电力物联网缓存放置方法中所述的改进的深度强化学习算法的进一步举例说明。

本实施方式采用基于自适应Double Dueling Deep-Q-Learning（D3QN）算法，针对于每一个边缘服务器n设置为学习智能体m，通过训练智能体m来获得最优服务缓存决策策略，然后再对所有M个智能体（）的奖励结果进行平均，得到全局最优解。

每一个边缘服务器n都看做为一个智能体m，边缘服务器n与智能体m一一对应，即边缘服务器n对应智能体n，所以智能体m也可以表示为智能体n。

具体地：

本实施方式所述的改进的深度强化学习算法，针对样本选择基于自适应比例的优先经验重放来稳定和加速深度强化学习算法（D3QN）的训练过程。在训练期间，从经验重放缓冲器采样小批量训练样本。为此，采用随机优先级排序，这也允许具有低优先级值的经验有机会被选择。以这种自适应方式，增加了重放的样本的多样性，并且避免了边缘计算学习智能体对具有高优先级值的样本的过拟合。

本实施方式设置每个小批量重放样本的选择概率与其优先级值成比例，计算如下：

其中，为经验池中样本i的优先级，本实施方式将其值设置为与算法训练时的时间差分大小和训练回合数相关，具体为：

,

其中，为真实值与预测值的时间差分的大小，/>为算法当前训练的回合数，为算法单次训练总回合数。

所述深度强化学习算法（D3QN）执行步骤如下：

S71：针对每一个训练智能体n，初始化其主网络和目标网络的神经网络参数:，；

S72：初始化经验回放池；

S73：对提出缓存放置方法的神经网络模型进行次训练，每次训练的过程如S74至S712：

S74：初始化边缘计算训练环境，根据所述K-Means方法得到电力物联网设备分组，每个智能体n得到分组后卸载的任务，然后每个智能体n与环境进行交互；

S75：针对第1至第N个智能设备，依次做如S76至S712：

S76：从第1个时隙开始到第T个时隙，依次做如S77至S712：

S77：当前时隙t，智能体根据当前状态，执行缓存放置动作/>；

S78：得到立即奖励，然后继续观察下一个状态/>；

S79：在经验回放池不溢出时，将训练样本<，/>，/>，/>>存储到经验回放池/>中；

S710：基于提出的自适应比例的优先经验重放策略选择最小批训练样本；

S711：基于目标网络，计算预测值y,其值如下：

S712：计算预测值与真实值的误差，如下：

S713：计算所有N个智能体的平均奖励；

基于梯度下降法更新主网络的参数；

循环执行步骤3-步骤11共次（即执行一轮训练）；

S714：判断是否得到最优策略，如果否，则返回S73，继续在当前回合进行迭代处理，直到获得最优策略为止。

实施方式五

参照图3、图4、图5说明本实施方式。

本实施方式是对实施方式一至四所述的一种电力物联网缓存放置方法的进一步举例说明。

图3为本实施方式提供的一种电力物联网缓存放置方法收敛性能示意图。

本实施方式假设移动边缘服务器的数量为N=4（2个地面边缘服务器和2个UAV无人机）。在距每个边缘服务器80~100 米距离范围处散布W=10个电力物联网终端，并且移动边缘服务器通过光纤链路连接到宏基站，每个电力物联网终端的初始任务到达概率设置为0.7，时隙设置为t = 1ms，此外，所有功率设置为2W，MHz。为了平衡延迟和功耗的成本，将调整系数/>均设置为0.5。也就是说，总延迟的成本等于平均消耗能量的成本。提出perD3QN的神经网络由一个输入层，两个完全连接的隐藏层和一个输出层构成。

本实施方式提出方法的神经网络的部分超参数设置如下：将两个隐藏层中的神经元数分别设置为300和200。将的学习率设置为。缓冲池的总大小为50000。用于训练的最大回合/>分别设置为1000。用于训练的时隙/>的边界分别设置为100。最小批/>的大小设置为64。复制到目标网络/>的频率设置为2048。无法在截止时间内完成任务的惩罚/>。

从图3中可以明显看出，提出算法的收敛速度明显强于对比算法，这是因为本实施方式提出了改进的深度强化学习算法，针对样本选择基于自适应比例的优先经验重放来稳定和加速所述深度强化学习算法（D3QN）的训练过程，并且提出算法的性能（平均累计奖励）要明显优于对比算法，这是因为本实施方式在进行训练之前，首先利用K-Means算法对电力物联网进行聚类，以提高边缘服务器智能体的学习效率。

图4为本实施方式提供的所述方法与其他基线在电力物联网终端不同任务到达概率下算法性能对比示意图。

如图4所示，给出了本实施方式提出的方法（perD3QN）与其他两种算法（D3QN、perD3QN-无缓存）相比的平均累积奖励曲线，其中D3QN算法为（Double Dueling Deep Q-Learning）传统深度强化学习算法、perD3QN-无缓存为在边缘服务器没有缓存放置的条件下本实施方式提出算法。

平均累积奖励为本发明所述的加权平均代价的负值，因此平均累积奖励越大代表总代价越小，算法越优越。本实施方式提出算法-perD3QN的加权平均代价均小于其他两种算法。尽管在任务到达概率不大的情况下本发明提出算法-perD3QN的加权平均代价并不比D3QN算法低太多，但是随着任务到达的增加，边缘服务器需要处理的任务也增多，此时本实施方式提出算法-perD3QN的优势逐渐明显。就perD3QN-无缓存算法而言，对于所有电力物联网产生任务而言，边缘服务器没有缓存，因此所有达到任务必须卸载到云服务器处理，因此导致在任务完成截止期限约束下无法完成任务而导致的罚款太大，并且累积的奖励较少（加权平均代价越来越多），这会严重影响perD3QN-无缓存的性能，这样体现了服务缓存对任务处理的重要性。

图5为本实施方式提供的所述方法与其他基线算法不同电力物联网终端数量下性能对比示意图。与其他两种算法相比，因为本实施方式提出算法有K-Means电力物联网聚类和优先选择样本的优势，因此其性能最佳。电力物联网终端数量多意味着产生的任务多，这势必会影响算法的性能。但是随着终端设备增加本发明提出算法-perD3QN的性能优势体现出来。

实施方式六

参照图2、图6说明本实施方式

本实施方式提出一种电力物联网缓存放置系统，所述系统基于实施方式一至五所述的一种电力物联网缓存放置方法实现，所述系统包括：

卸载任务获取模块：用于获取电力物联网设备卸载的任务；

具体地：

所述系统的执行过程如图6所示，所述系统包括多个电力物联网终端节点、UAV，边缘服务器、云服务器。

所述系统在云服务器上训练，在每个边缘服务器上执行，训练参数定期通过云服务器传输到边缘服务器上进行更新，以保证缓存满足电力物联网任务需求。

如图2所示，针对基于移动边缘计算的电力物联网任务处理场景，共分为3层，电力物联网终端层，包括E个电力物联网节点，移动边缘计算层，包括N个移动边缘计算设备，云服务层，包括1个云服务器。其中云服务器上承载着电力物联网终端任务所需的所有服务缓存，但是因为边缘服务器的承载能力有限，因此其所主控的电力物联网终端任务所需的服务缓存数量有限（本实施方式规定仅能主控2类服务缓存），因此需要根据电力物联网终端任务产生的任务不同而不断更新移动边缘服务器主控的缓存类型。电力物联网终端任务需要通过无线通信进行卸载传输，包括从电力物联网终端到移动边缘服务器端，移动边缘服务器端到云服务器端。

Claims

1.一种电力物联网缓存放置方法，其特征在于，所述方法包括：

获取电力物联网设备卸载的任务；

配置边缘服务器主控的特定类别的缓存；

采用改进的深度强化学习算法训练所述边缘服务器得到最优缓存放置策略；

具体地：

所述电力物联网设备包括移动电子设备、无人驾驶电动汽车，电力物联网缓存为服务缓存，为可执行任务的应用程序，所述电力物联网设备产生的任务为所述电力物联网设备自身不能处理的任务，任务定义为：

其中，r_e,c(t)为t时刻电力物联网e产生的需要由缓存c处理的请求任务，是请求任务r_e,c(t)的总大小，/>代表请求任务r_e,c(t)的计算密度，/>表示完成时间的约束；

根据所述电力物联网设备产生的任务的特征，利用K-Means聚类算法对来自电力物联网设备的计算任务的类别进行预分类；

所述电力物联网设备卸载的任务传输到所述边缘服务器中进行卸载，所述边缘服务器由地面边缘服务器和无人机组成；

定义边缘服务器总任务大小为：

其中β_c为缓存c，c∈C决定，取值为[0,1]；β_c,n为缓存c到第n个边缘服务器的决定，取值为[1,…,n]；

将连续持续时间离散化为等长时间间隔T＝{1，2，...，T}，即存在T个时隙，总持续时间为T，并且一个时隙被设置为t；

定义边缘服务器n和云服务器m之间的信道状态为：

其中，ρ_n是路径损耗，是一个常数；d_n,m是边缘服务器n和云服务器m之间的距离，P_n,m是遵循马尔可夫分布的转移矩阵；

根据香农定律，边缘服务器n和云服务器m之间的数据传输速率为：

其中p_n,m表示传输功率；σ_n(t)表示零均值的加性高斯白噪声的方差；W_n表示总带宽，K是子带宽大小；

当边缘服务器n获得由连接的电力物联网终端e，e∈E，卸载的所有请求任务A_n时：

边缘服务器n主控电力物联网设备e卸载的所有请求任务所需缓存，选择本地执行A_n；

在时隙t内，执行任务A_n的本地延迟表示为：

其中，f_n为执行任务A_n分配的CPU时钟数，

在时隙t内，执行任务A_n的本地能耗表示为：

其中，κ_n为边缘服务器n的有效开关电容容量；

边缘服务器n并未主控电力物联网设备e卸载的所有请求任务所需缓存，选择卸载到云服务器执行A_n；

在时隙t内，卸载任务A_n的传输延迟表示为：

其中，A'_n(t)表示从边缘服务器n卸载到云服务器的所有任务之和；

在时隙t内，卸载任务A′_n的传输能耗表示为：

其中，为卸载任务时的传输功率；

对于所有的边缘服务器，在时隙t中，在来自电力物联网设备的所有请求任务都完成的前提下，得到总的时延：

相应的，总的能耗为：

完成任务的加权总代价由延迟和能耗组成，表示为：

最小化问题及其约束条件为：

P1

s.t.β_c(t)∈[0,1],β_c,n(t)∈[0,1]

约束条件1表示是否将服务缓存分配给边缘服务器的决策，将缓存托管到哪个边缘服务器的决策；

约束条件2中规定了本地执行的总延迟的延迟限制，并且计算卸载必须不超过完成工作负载的最后期限；约束条件2定义分配给边缘服务器n的CPU时钟周期数不能超过最大CPU周期数；

对于边缘服务器n，所述状态由所有E_n个连接的电力物联网设备的到达任务的概率、所有E_n个连接的电力物联网设备的到达请求任务大小、所需CPU时钟周期数，边缘服务器n与云服务器之间的信道状态、以及边缘服务器n托管的服务缓存组成，具体如下：

对于边缘服务器n，动作空间是一组服务缓存选择决策变量；边缘服务器n从云服务器获得指令，即是否托管服务高速缓存以及哪些服务缓存被托管；

动作空间定义为：

a_n(t)＝{β_c(t),β_c,n(t)}；

在时隙t内，根据当前状态s_n(t)，基于服务缓存决策策略，选择的动作a_n(t)，可以从环境中获得立即奖励；

将奖励函数定义为r_n(t)＝-C(t)/N，为全局成本C(t)的平均值；获得最小平均成本被转换为获得所有边缘服务器的最大平均累积奖励；

所述的K-Means聚类算法进行聚类分组的步骤如下：

S11：初始化所有电力物联网设备卸载的任务的参数，包括：任务特征r_e,c(t)、位置信息l_e(t)、任务到达概率ν_e，并设定参数权重；

S12：对每个设备做E次训练，训练的过程如S13至S15所示：

S13：初始化所有边缘服务器接收的卸载任务的所有参数加权均值

S14：初始化聚类数K_e和误差ε；

S15：根据参数加权均值选择的K_e个聚类中心；

S16：对每个设备做E次训练，训练的过程如S17至S112所示：

S17：计算当前任务与聚类中心的距离；

S18：将每个任务r_e,c(t)分配给离质心最近的聚类集；

S19：更新生成所有聚类的质心；计算两次迭代的差值Δd；

S110：如果Δd＜ε，执行S111，否则继续返回S17执行；

S111：输出聚类结果

采用基于自适应Double Dueling Deep-Q-Learning算法，针对于每一个边缘服务器n设置为学习智能体m，通过训练智能体m来获得最优服务缓存决策策略，然后再对所有M个智能体m∈M的奖励结果进行平均，得到全局最优解；

每一个边缘服务器n都看做为一个智能体；

设置每个小批量重放样本的选择概率P_n(i)与其优先级值成比例，计算如下：

其中，q_n(i)为经验池中样本i的优先级，将其值设置为与算法训练时的时间差分大小和训练回合数相关，具体为：

q_n(i)＝|δ_i|+e_n(i)/Epi^max,

其中，|δ_i|为真实值与预测值的时间差分的大小，e_n(i)为算法当前训练的回合数，Epi^max为算法单次训练总回合数；

所述改进的深度强化学习算法执行步骤如下：

S71：针对每一个训练智能体n，初始化其主网络和目标网络的神经网络参数:θ_n，θ′_n；

S72：初始化经验回放池；

S73：对提出缓存放置方法的神经网络模型进行Epi^max次训练，每次训练的过程如S74至S712：

S75：针对第1至第N个智能设备，依次做如S76至S712：

S76：从第1个时隙开始到第T个时隙，依次做如S77至S712：

S77：当前时隙t，智能体根据当前状态s_n(t)，执行缓存放置动作a_n(t)；

S78：得到立即奖励r_n(t)，然后继续观察下一个状态s'_n(t)；

S79：在经验回放池不溢出时，将训练样本<s_n(t)，a_n(t)，r_n(t)，s'_n(t)>存储到经验回放池B_n中；

S710：基于自适应比例的优先经验重放策略选择最小批训练样本；

S711：基于目标网络，计算预测值y,其值如下：

y_n＝r_n+γ_nQ′(s′_n,argmaxQ(s′_n,a_n|θ_n)|θ′_n)

S712：计算预测值与真实值的误差，如下：

S713：计算所有N个智能体的平均奖励；

基于梯度下降法更新主网络的参数θ_n；

循环执行S74-S712共Epi^max次；

2.一种电力物联网缓存放置系统，其特征在于，所述系统包括：

卸载任务获取模块：用于获取电力物联网设备卸载的任务；

训练模块：用于采用改进的深度强化学习算法训练所述边缘服务器得到最优缓存放置策略

具体地：

定义边缘服务器总任务大小为：

定义边缘服务器n和云服务器m之间的信道状态为：

在时隙t内，执行任务A_n的本地延迟表示为：

其中，f_n为执行任务A_n分配的CPU时钟数，

在时隙t内，执行任务A_n的本地能耗表示为：

其中，κ_n为边缘服务器n的有效开关电容容量；

在时隙t内，卸载任务A_n的传输延迟表示为：

在时隙t内，卸载任务A′_n的传输能耗表示为：

其中，为卸载任务时的传输功率；

相应的，总的能耗为：

完成任务的加权总代价由延迟和能耗组成，表示为：

最小化问题及其约束条件为：

P1

s.t.β_c(t)∈[0,1],β_c,n(t)∈[0,1]

动作空间定义为：

a_n(t)＝{β_n(t),β_c,n(t)}

所述的K-Means聚类算法进行聚类分组的步骤如下：

S12：对每个设备做E次训练，训练的过程如S13至S15所示：

S14：初始化聚类数K_e和误差ε；

S15：根据参数加权均值选择的K_e个聚类中心；

S16：对每个设备做E次训练，训练的过程如S17至S112所示：

S17：计算当前任务与聚类中心的距离；

S18：将每个任务r_e,c(t)分配给离质心最近的聚类集；

S19：更新生成所有聚类的质心；计算两次迭代的差值Δd；

S110：如果Δd＜ε，执行S111，否则继续返回S17执行；

S111：输出聚类结果

每一个边缘服务器n都看做为一个智能体；

q_n(i)＝|δ_i|+e_n(i)/Epi^max,

所述改进的深度强化学习算法执行步骤如下：

S72：初始化经验回放池；

S75：针对第1至第N个智能设备，依次做如S76至S712：

S76：从第1个时隙开始到第T个时隙，依次做如S77至S712：

S78：得到立即奖励r_n(t)，然后继续观察下一个状态s'_n(t)；

S711：基于目标网络，计算预测值y,其值如下：

y_n＝r_n+γ_nQ′(s′_n,argmaxQ(s′_n,a_n|θ_n)|θ′_n)；

S712：计算预测值与真实值的误差，如下：

S713：计算所有N个智能体的平均奖励；

基于梯度下降法更新主网络的参数θ_n；

循环执行S74-S712共Epi^max次；

3.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据权利要求1所述的一种电力物联网缓存放置方法。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行权利要求1所述的一种电力物联网缓存放置方法。