CN115802465A

CN115802465A - 基于强化学习框架的d2d边缘缓存网络能耗管理方法

Info

Publication number: CN115802465A
Application number: CN202310050550.3A
Authority: CN
Inventors: 严明; 李水晶; 任慧; 靳聪
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-03-14
Anticipated expiration: 2043-02-01
Also published as: CN115802465B

Abstract

本发明属于通讯技术领域，具体涉及一种基于强化学习框架的D2D边缘缓存网络能耗管理方法、系统，旨在解决现有D2D边缘缓存网络的碰撞率和网络能耗不平衡的问题。本方法包括：获取第一用户设备、一或多个第二用户设备的环境状态数据，作为输入数据；所述第一用户设备为请求内容的D2D用户设备；所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备；基于所述输入数据，通过训练好的演员‑评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备。本发明完成网络中每个用户设备的内容分配，提高缓存命中率，并实现对网络吞吐量和能耗的优化。

Description

基于强化学习框架的D2D边缘缓存网络能耗管理方法

技术领域

本发明属于通信技术领域，具体涉及一种基于强化学习框架的D2D边缘缓存网络能耗管理方法、系统。

背景技术

5G通信技术的成熟和5G基站的大量部署大幅度提高了无线接入网络的吞吐量，刺激了高清视频、VR等大流量应用的消费。但是，这也给骨干网络的数据流量带来了巨大的压力[1]。D2D通信技术可以通过用户设备间直接通信降低蜂窝无线通信的使用量，来达到减少频带资源使用的作用。具有存储能力的移动设备可以缓存并共享从蜂窝网络获取的资源来提高资源利用率，这也能有效缓解骨干网络压力[2]。由于移动用户设备的存储空间和电量有限，基于不同深度学习方法的主动预测式缓存更新策略已经被提出用来提升资源限制条件下的缓存命中率[3-6]。考虑到D2D用户的移动性以及缓存方案的差异，即使主动预测式缓存更新策略被应用，有可能会出现内容请求时无法找到最优的D2D链接或者发生碰撞，使通信的效率大大降低。D2D网络的动态拓扑结构和难以保证平稳的网络链路，这使通信链路的选择以及网络的能耗管理成为复杂的问题[7-8]。

近年来，多种深度学习方法被用来改善D2D通信网络的能效性能。在对支持缓存的D2D通信网络研究中，循环神经网络算法被用来对用户喜好进行预测，这样最可能被请求的内容就可以被预先缓存在用户设备中[9]。在对数据中心的优化研究中，根据优化模型输出的链路裕度比对数据中心网络的流量进行调整，使得调整过程同时兼顾了数据流时间波动性与数据流的空间分布特性，实现了在保证FCT的同时提高数据中心网络的能效，但主要对数据中心的网络能耗进行优化，而没有考虑接入网以及边缘网络的能耗[14]。从离散动作空间的视角来使用深度强化学习技术优化数据中心网络能耗，不仅在能耗节约方面效果显著，在应对流传输时间限制，可靠性要求，链路应对突发，智能网络带宽分配方面也有较好表现，但采用强化学习的方法对网络能耗进行优化，也是针对的数据中心，而不是分布式的接入网络[15]。此外，基于D2D网络特性，可以为每个用户设备设计个性化内容放置策略，从而提高缓存的命中率并降低通信功耗与时延[10]。但是，内容放置策略只是用来解决D2D传输前合理利用存储空间的问题。即使内容放置策略使D2D通信达到优秀的缓存命中率，也不能够保证用户设备请求的内容能够成功地通过D2D传输获得。例如，当多个用户设备向同一个用户设备发送缓存内容请求时，就会发生碰撞，这使通信的效率大大降低[8]。选择与设备距离较近的另一设备进行D2D通信可以降低通信能耗，但只考虑通信距离有可能导致其他设备的连接失败[12-13]。

内容放置及读取策略既要考虑用户设备间的碰撞概率，又要考虑整体通信网络的能耗。在缓存内容的读取中，基于深度强化学习和深度确定性梯度的动态调度策略已经被证明具有较好的作用[10]。例如，通过分析随机任务的多用户缓存辅助系统中动态缓存、内容卸载和资源分配等问题，这些策略可以对能量消耗、延时等性能进行优化。基于深度强化学习中的演员评论家算法被提出用于网络服务功能链资源分配的算法[11]。但是，由于D2D用户的移动性和用户设备资源的限制，如何平衡资源消耗和用户体验之间的矛盾还存在着许多不确定性。

为了提升D2D网络的缓存资源利用率并对网络能耗进行管理，本发明提出了一种基于强化学习框架的D2D边缘缓存网络能耗管理方法。

以下文献是与本发明相关的技术背景资料：

[1] M. Chen, Y. Qian, Y. Hao, Y. Li, and J. Song, "Data-drivencomputing and caching in 5G networks: Architecture and delay analysis,"IEEE Wireless Commun., vol. 25, no. 1, pp. 70-75, 2018；

[2]Y. Fu, L. Salaün, X. Yang, W.Wen, and T. Q. S. Quek, "CachingEfficiency Maximization for Device-to-Device Communication Networks: ARecommend to Cache Approach,"IEEE Trans. Wireless Commun., vol. 20, no. 10,pp. 6580-6594, 2021；

[3]H. H. Chang, L. Liu, and Y. Yi, "Deep Echo State Q-Network(DEQN)and Its Application in Dynamic Spectrum Sharing for 5G and Beyond," IEEETrans. Neural Netw. Learn. Syst., vol. 33, no. 3, pp. 929-939, 2022;

[4]L. Ale, N. Zhang, H. Wu, D. Chen, and T. Han, "OnlineProactiveCaching in Mobile Edge Computing Using Bidirectional Deep Recurrent NeuralNetwork," IEEE Internet Things J., vol. 6, no. 3, pp. 5520-5530,2019;

[5]M. Yan, W. Li, C. A. Chan, S. Bian, I. C, and A. F. Gygax,"PECS:Towards personalized edge caching for future service-centric networks," ChinaCommun., vol. 16, no. 8, pp. 93-106, 2019;

[6]Z. Yu, J. Hu, G. Min, Z. Zhao, W. Miao, and M. S. Hossain,"Mobility-Aware Proactive Edge Caching for Connected Vehicles Using FederatedLearning," IEEE Trans. Intell. Transp. Syst., vol. 22, no. 8, pp.5341-5351,2021;

[7]S. He, S. Xiong, W. Zhang, Y. Yang, J. Ren, and Y. Huang,"GBLinks: GNN-Based Beam Selection and Link Activation for Ultra-Dense D2DmmWave Networks," IEEE Trans. Commun., vol. 70, no. 5, pp. 3451-3466,2022;

[8]E. Zihan, K. W. Choi, and D. I. Kim, "Distributed RandomAccessScheme for Collision Avoidance in Cellular Device-to-Device Communication,"IEEE Trans. Wireless Commun., vol. 14, no. 7, pp.3571-3585, 2015;

[9]L. Li, Y. Hu, H. Zhang, W. Liang, and A. Gao, "Deep learningbasedphysical layer security of D2D underlay cellular network," China Commun.,vol. 17, no. 2, pp. 93-106, 2020;

[10] L. Li et al., "Deep Reinforcement Learning ApproachesforContent Caching in Cache-Enabled D2D Networks," IEEE Internet Things J.,vol. 7, no. 1, pp. 544-557, 2020;

[11] P. Khuntia and R. Hazra, "An Actor-Critic ReinforcementLearningfor Device-to-Device Communication Underlaying Cellular Network," in TENCON2018 - 2018 IEEE Region 10 Conference, 28-31 Oct. 2018 2018, pp.50-55;

[12] M. Hamdi, A. B. Hamed, D. Yuan, and M. Zaied,"Energy-EfficientJoint Task Assignment and Power Control in Energy-Harvesting D2D OffloadingCommunications," IEEE Internet Things J.,vol. 9, no. 8, pp. 6018-6031, 2022;

[13] M. Sengly, K. Lee, and J. R. Lee, "Joint OptimizationofSpectral Efficiency and Energy Harvesting in D2D Networks Using Deep NeuralNetwork," IEEE Trans. Veh. Technol., vol. 70, no. 8, pp. 8361-8366, 2021;

[14]郭泽华，基于强化学习的数据中心网络能耗和服务质量优化方法，2020-04-19，CN111555907A；

[15] 王廷，李博，范熙，一种基于参数化动作空间的网络能耗两级控制方法，2021-08-20，CN113783720A。

发明内容

为了解决现有技术中的上述问题，即为了解决现有D2D边缘缓存网络的碰撞率和网络能耗不平衡的问题，即现有D2D通信过程中，请求信号会出现碰撞或传输中途连接断开，用户设备发出了请求信号却不能成功连接，造成无端的电量、流量和时间的浪费的问题，本发明提供了一种基于强化学习框架的D2D边缘缓存网络能耗管理方法，应用于D2D通信网络，所述D2D通信网络为由基站和D2D用户设备组成的通信网络，该方法包括以下步骤：

步骤S100，获取第一用户设备、一或多个第二用户设备的环境状态数据，作为输入数据；所述第一用户设备为请求内容的D2D用户设备；所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备；

步骤S200，基于所述输入数据，通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备；

其中，所述演员-评论家强化学习模型包括策略近似器、值函数近似器；所述演员-评论家强化学习模型的训练方法为：

步骤A100，获取训练数据集；所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据；

步骤A200，将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中，获取第一用户设备选择D2D通信的第二用户设备，即动作；

步骤A300，基于所述环境状态数据、所述动作，通过所述值函数近似器中的双级策略改进奖励函数，得到奖励值；

步骤A400，根据所述环境状态数据、所述奖励值，计算策略评估值；结合所述策略评估值、所述奖励值，计算时间差分算法误差，进而通过所述策略近似器，计算策略梯度值；

步骤A500，结合所述策略梯度值、所述策略评估值、所述时间差分算法误差，对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新；

步骤A600，循环步骤A100-A500，直至得到训练好的演员-评论家强化学习模型。

在一些优选的实施方式中，设学习迭代次数为

，每一次迭代中的请求次数为

；所述环境状态数据表示为：

其中，

表示迭代

次的环境状态轨迹，即迭代

次的环境状态数据；

表示第

次迭代时的环境状态数据；

表示第

次迭代时D2D网络请求第

次后的环境状态数据；

表示第

次请求时第一用户设备

的发射功率，

和

表示第

次请求内容的第一用户设备

以及与其连接的第二用户设备

的编号下标；

第

次请求时第一用户设备

与第二用户设备

之间的表示信道增益，指的是信道自身的传输能力，因时间和传输频率的变化而变化；

表示第一用户设备

与第二用户设备

的距离。

在一些优选的实施方式中，所述动作概率空间包括基于信道选择的动作概率空间和基于发射功率选择的动作概率空间，所述基于信道选择的动作概率空间

为：

所述基于发射功率选择的动作概率空间

为：

其中，

表示第一用户设备

请求的内容可以在第二用户设备

内请求、且

在

的D2D通信范围内的概率；

表示第一用户设备

与第二用户设备

之间的信号与干扰加噪声比；

表示用户设备需要的最小信号与干扰加噪声比阈值；

所述信号与干扰加噪声比是指在通信的过程中设备接收到有用的信号强度与接收到的干扰信号强度的比值；所述信号与干扰加噪声比通过设备的发射功率和信道增益计算，其计算公式为：

其中，

表示高斯白噪声，

、

分别表示第

次请求时第一用户设备

的发射功率、第

次请求时第一用户设备

与第二用户设备

之间的信道增益。

在一些优选的实施方式中，通过所述值函数近似器中的双级策略改进奖励函数，得到奖励值，其计算方法为：

其中，

表示第

次请求得到的奖励值；

和

均为0到1间的常数，且

与

的和为1；

表示通信带宽；

表示用户设备的最大发射功率。

在一些优选的实施方式中，在所述演员-评论家强化学习模型整个训练过程中，总奖励值的最大值为：

其中，

表示第

次请求时的长期收益折扣因子，为0到1间的常数。

在一些优选的实施方式中，所述策略评估值其计算方法为：

其中，

表示第

次迭代时的策略评估值，

表示每一个

的折扣率，

表示第

次请求得到的奖励值，

表示期望值。

在一些优选的实施方式中，所述时间差分算法误差其计算方法为：

其中，

表示时间差分算法误差，

表示第

次迭代时的策略评估值，是根据

次迭代得到的环境状态数据

作为第

次迭代的环境状态数据

来估算的。

在一些优选的实施方式中，所述策略梯度值其计算方法为：

其中，

表示策略梯度值，

表示策略近似器对其参数的梯度，

表示策略近似器，

表示第

次迭代时第

次请求时所构成的动作空间，

表示第

次迭代时D2D网络请求第

次后的环境状态数据，

表示第

次迭代时第

次请求时的时间差分算法误差。

在一些优选的实施方式中，对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新，其方法为：

预设策略参数

，值函数参数

；

所述策略参数更新公式为：

所述值函数参数更新公式为：

其中，

为策略参数的学习率，

为值函数参数的学习率，

表示第

次迭代时请求第

次后的策略参数，

表示第

次迭代时请求第

次后的值函数参数。

本发明的第二方面，提出了一种基于强化学习框架的D2D边缘缓存网络能耗管理系统，该系统包括：数据获取模块100、策略选择模块200；

所述数据获取模块100，配置为获取第一用户设备、一或多个第二用户设备的环境状态数据，作为输入数据；所述第一用户设备为请求内容的D2D用户设备；所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备；

所述策略选择模块200，配置为基于所述输入数据，通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备；

本发明的有益效果：

本发明完成网络中每个用户设备的内容分配，提高缓存命中率，并实现对网络吞吐量和能耗的优化。

1）本发明通过搭建基于D2D通信网络的内容读取策略的深度强化学习架构，并利用双级演员评论家算法对内容读取策略进行优化（即在信道选择的基础上添加对设备发射功率级别的选择），提高算法的性能寻找使网络吞吐量达到最高的通信链路，从而对整体的网络能耗进行管理，并提高缓存命中率。

2）本发明为了平衡碰撞率和网络能耗之间的矛盾，采取了正奖励与负惩罚相结合的激励方法对双级策略中的奖励函数进行改进，并对改进的奖励函数中的正向和负向奖励增加了权重因子，平衡碰撞率和能耗间的相对重要性；这样可以了解不同因素对网络能耗的影响，从而实现对网络能耗的优化管理。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理方法的流程示意图；

图2是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理方法的模型训练示意图；

图3是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理方法的通信系统示意图；

图4是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理方法的能耗对比示意图；

图5是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理系统的框架示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明提供了一种基于强化学习框架的D2D边缘缓存网络能耗管理方法，应用于D2D通信网络，所述D2D通信网络为由基站和D2D用户设备组成的通信网络，如图1所示，该方法包括以下步骤：

为了更清晰地对本发明基于强化学习框架的D2D边缘缓存网络能耗管理方法进行说明，下面结合附图对本发明方法实施例中各步骤展开详述。

在下述实施例中，先对演员-评论家强化学习模型的训练过程进行说明，再对基于强化学习框架的D2D边缘缓存网络能耗管理过程进行详述。

1、演员-评论家强化学习模型的训练过程，如图2所示，具体步骤如下：

在本实施例中，所用模型均为由基站和D2D用户设备组成的通信网络。为了方便计算，设模型内每个文件的大小相同，D2D通信网络为半双工工作模式，同一时刻内设备只能做请求或发送中的一个工作，传输数据和接收数据不能同时进行。设本实施例的环境中请求方用户设备数量为

，

，发送方用户设备数量为

，

。每个设备按照内容放置策略缓存内容, 设备放置在学校、公司、商场等人员密集的场所。

D2D通信网络中的内容放置策略相当于将每个用户设备作为可移动的微型基站，完成网络中每个用户设备的内容分配，提高缓存命中率的作用是保证通信过程中有更大的可能通过D2D通信的方式找到目标文件。但找到目标文件不能代表可以成功建立D2D通信，建立D2D连接的过程中还有可能出现以下几种情况：

（1）一个用户设备请求的内容在多个设备内同时存有；

（2）一个设备内缓存的内容同时被多个用户设备请求；

（3）建立起D2D通信后由于用户移动导致两个设备的距离超过最远通信距离。

这些问题的出现会导致请求信号碰撞或传输中途连接断开，设备发出了请求信号却不能成功连接，造成无端的电量、流量和时间的浪费。在图3中，设备1-3为存有目标内容的用户设备，4-6为请求内容的用户设备。图3中的(a)为用户请求内容的场景，设备1和2中都存有设备4需要的目标内容，设备4和5都有可能同时向设备1发出请求。将这种情况转化为二分图即有图3中的(b)表示。

基于D2D通信网络的内容获取策略搭建深度强化学习架构，设学习迭代次数为

，每一次迭代中的请求次数为

。D2D通信的环境状态数据由公式（1）至（3）表示：

（1）

（2）

（3）

其中，

表示迭代

次的环境状态轨迹，即迭代

次的环境状态数据；

表示第

次迭代时的环境状态数据；

表示第

次迭代时D2D网络请求第

次后的环境状态数据；

表示第

次请求时第一用户设备

的发射功率，是在用户设备

和

之间信道衰落下能够成功传输内容需要的最小传输功率，

和

表示第

次请求内容的第一用户设备

以及与其连接的第二用户设备

的编号下标；

第

次请求时第一用户设备

与第二用户设备

之间的表示信道增益，指的是信道自身的传输能力，传输能力强弱与信道内的输入和输出没有关系，而是受时间和传输频率的变化而变化；

表示第一用户设备

与第二用户设备

的距离。

智能体结合当前环境状态和策略来判定下一次执行的动作，在内容获取策略中动作表示用户设备选择的信道。第

次迭代时的D2D网络动作空间

，由公式（4）表示：

（4）

其中，

表示D2D网络请求

次所构成的动作空间。

D2D缓存内容抓取策略第

次迭代时D2D网络的奖励值

，由公式（5）表示：

（5）

其中，

表示第

次请求得到的奖励值。

奖励函数的目的是让整个学习过程的总奖励值达到最大，而不是使某一步动作的选择的奖励最大。在所述演员-评论家强化学习模型整个训练过程中，总奖励值的最大值为公式（6）：

（6）

其中，

表示D2D网络第

次请求时的长期收益折扣因子，为0到1间的常数。

公式（6）表明，演员评论家算法的目的是达到更大的奖励值总和。其中奖励值总和的提高是通过演员网络得到的奖励值反馈给评论家的值函数，值函数结合奖励值和状态评定演员网络该次动作选择的优劣。通过演员和评论家网络中的策略近似器和值函数共同作用，不断学习得到优化的动作概率空间。演员能够选择使网络吞吐量增大的信道相连接，从而提高奖励总值。

在多个用户间随机请求或发送内容的D2D网络中，如果多个用户同时向一个用户发出请求，就会产生传输碰撞而导致传输失败。

在本实施例中，每个智能体都包含自己的策略近似器

，和值函数近似器

。两者的协作同时解决了梯度全面更新的高延时难收敛以及连续空间难选择动作的问题。当用户设备

请求的内容在多个用户设备内同时存有，策略近似器根据当前环境选择的动作

，即为与存有目标内容的设备组中的哪一个设备建立D2D通信连接。而值函数近似器则是通过动作

带给环境状态的变化得到奖励值，用奖励值更新动作

发生的概率分布，奖励值由奖励函数计算得来。

动作

是根据动作概率空间选择的，动作概率空间由公式（7）表示：

（7）

其中，

和

表示第

次请求内容的第一用户设备

以及与其连接的第二用户设备

的编号下标，

表示第一用户设备

请求的内容可以在第二用户设备

内请求、且

在

的D2D通信范围内的概率，可以建立D2D通信则概率为1，否则为0；

则根据策略近似器不断进行改进，本文设

为用sigmoid函数处理后的信号与干扰加噪声比（Signal to Interference plus Noise Ratio，SINR）。SINR是指在通信的过程中设备接收到有用的信号强度与接收到的干扰信号强度的比值，第一用户设备

与其连接的第二用户设备

之间的SINR用

表示，SINR数值越大说明通信网络的抗干扰能力更强；SINR通过设备的发射功率和信道增益计算。

所述演员-评论家强化学习模型采用双级策略，包括信道选择策略和发射功率选择策略；

所述动作是根据动作概率空间选择的，所述动作概率空间分为基于信道选择的动作概率空间和基于发射功率选择的动作概率空间，所述基于信道选择的动作概率空间

为：

（8）

所述基于发射功率选择的动作概率空间

为：

（9）

所述信号与干扰加噪声比通过设备的发射功率和信道增益计算，其计算公式为：

（10）

其中，

表示高斯白噪声，

、

分别表示第

次请求时第一用户设备

的发射功率、第

次请求时第一用户设备

与第二用户设备

之间的信道增益。

在本实施例中，所述奖励函数先设为公式（11）如下：

（11）

其中，

表示第

次请求得到的奖励值；

表示负奖励的值，为大于等于0的常数。若成功建立连接则给予环境的正向奖励，用网络吞吐量计算。若没能成功连接则需要给出负奖励值，也可以看作是一种惩罚，每产生一次失败请求则给予

的惩罚。智能体希望尽快地达到正奖励的状态，以此来使奖励值快速趋近正值。

所述奖励函数的两个约束条件如公式（12）所示：

（12）

其中，

表示用户设备需要的最小信号与干扰加噪声比阈值，

表示用户设备的最大发射功率。计算每一次迭代的奖励值时，设备发射功率要满足用户设备需要的最小阈值，且不能大于最大功率。

上述奖励函数仅考虑信道选择，接下来添加对设备发射功率级别的选择，采用双级策略进一步改进奖励函数，如公式（13）所示：

（13）

正向奖励为连接成功的D2D通信用户设备对产生的吞吐量，负向惩罚为由于发生碰撞或者发射功率选择不合适的动作导致未能建立D2D通信的设备发送连接信号造成的资源浪费。

给改进奖励函数（13）中的正负奖励增添加权值

和

，可以用于平衡碰撞率和能耗间的相对重要性。如果应用场景需要低能耗，则增大β值比重，得到双级策略改进奖励函数，如公式（14）所示：

（14）

其中，

和

均为0到1间的常数，且

与

的和为1；

表示通信带宽；通过改变加权参数的大小控制正负奖励以实现不同的系统目标。

通过改变奖励函数等式（14）中的加权值，可以达到改变网络综合性能的目的。图4给出了几个典型的权重因子的平均功耗数据。随着负向奖励值

变大，平均功耗会有一定的下降，并随着迭代次数的增长稳定在较低的水平。但是这会牺牲一定的D2D链路建立的成功率。在实际的网络优化中，可以根据用户的特征进行动态调整，实现对网络吞吐量和能耗的优化。

在本实施例中，评论家在神经网络中的作用即为给误差的计算提供估计的状态值来帮助训练，其输出是一个可以提供值函数估计的未被激活的单元。当计算奖励值后，根据当前环境状态数据

来估计未来的奖励值

的期望，所述策略评估值其计算方法为：

（15）

其中，

表示第

次迭代时的策略评估值，

表示每一个

的折扣率，

表示第

次请求得到的奖励值，

表示期望值。

用时间差分算法（Temporal-difference, TD）生成反映当前动作执行情况的误差，根据奖励值和策略评估值计算时间差分算法误差，其计算方法为：

（16）

其中，

表示时间差分算法误差，

表示第

次迭代时的策略评估值，是根据

次迭代得到的环境状态数据

作为第

次迭代的环境状态数据

来估算的。

结合时间差分算法误差和策略近似器计算策略梯度值，其计算方法为：

（17）

其中，

表示策略梯度值，

表示策略近似器对其参数的梯度，

表示第

次迭代时第

次请求时所构成的动作空间，

表示第

次迭代时D2D网络请求第

次后的环境状态数据，

表示第

次迭代时第

次请求时的时间差分算法误差。

在本实施例中，策略近似器和值函数的参数更新则是基于策略梯度法和时间差分算法误差使用梯度上升的方式实现的，预设策略参数

，值函数参数

；所述策略参数更新公式为：

（18）

所述值函数参数更新公式为：

（19）

其中

为策略参数的学习率，

表示时间差分算法误差，

为值函数参数的学习率。这两组参数更新函数经过多次的迭代最终得到最大化的目标函数。

表示第

次迭代时请求第

次后的策略参数，

表示第

次迭代时请求第

次后的值函数参数。

在本实施例中，设学习迭代次数为

，每一次迭代中的请求次数为

。

2、基于强化学习框架的D2D边缘缓存网络能耗管理过程

步骤S200，基于所述输入数据，通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备。

本发明第二实施例的一种基于强化学习框架的D2D边缘缓存网络能耗管理系统，如图5所示，包括：数据获取模块100、策略选择模块200；

步骤A400，根据所述环境状态数据、所述奖励值，计算策略评估值；结合所述策略评估值、所述奖励值，计算时间差分算法误差，进而通过策略近似器，计算策略梯度值；

步骤A500，结合所述策略梯度值、所述策略评估值、所述时间差分算法误差，对策略近似器中的策略参数、值函数近似器中的值函数参数进行更新；

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的一种基于强化学习框架的D2D边缘缓存网络能耗管理系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的一种从低空间分辨率图像到高分辨率图像的MPI重建方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的一种从低空间分辨率图像到高分辨率图像的MPI重建方法。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”、“第三”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。