CN115802465A - 基于强化学习框架的d2d边缘缓存网络能耗管理方法 - Google Patents

基于强化学习框架的d2d边缘缓存网络能耗管理方法 Download PDF

Info

Publication number
CN115802465A
CN115802465A CN202310050550.3A CN202310050550A CN115802465A CN 115802465 A CN115802465 A CN 115802465A CN 202310050550 A CN202310050550 A CN 202310050550A CN 115802465 A CN115802465 A CN 115802465A
Authority
CN
China
Prior art keywords
user equipment
strategy
value
reinforcement learning
approximator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310050550.3A
Other languages
English (en)
Other versions
CN115802465B (zh
Inventor
严明
李水晶
任慧
靳聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202310050550.3A priority Critical patent/CN115802465B/zh
Publication of CN115802465A publication Critical patent/CN115802465A/zh
Application granted granted Critical
Publication of CN115802465B publication Critical patent/CN115802465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于通讯技术领域,具体涉及一种基于强化学习框架的D2D边缘缓存网络能耗管理方法、系统,旨在解决现有D2D边缘缓存网络的碰撞率和网络能耗不平衡的问题。本方法包括:获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;基于所述输入数据,通过训练好的演员‑评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备。本发明完成网络中每个用户设备的内容分配,提高缓存命中率,并实现对网络吞吐量和能耗的优化。

Description

基于强化学习框架的D2D边缘缓存网络能耗管理方法
技术领域
本发明属于通信技术领域,具体涉及一种基于强化学习框架的D2D边缘缓存网络能耗管理方法、系统。
背景技术
5G通信技术的成熟和5G基站的大量部署大幅度提高了无线接入网络的吞吐量,刺激了高清视频、VR等大流量应用的消费。但是,这也给骨干网络的数据流量带来了巨大的压力[1]。D2D通信技术可以通过用户设备间直接通信降低蜂窝无线通信的使用量,来达到减少频带资源使用的作用。具有存储能力的移动设备可以缓存并共享从蜂窝网络获取的资源来提高资源利用率,这也能有效缓解骨干网络压力[2]。由于移动用户设备的存储空间和电量有限,基于不同深度学习方法的主动预测式缓存更新策略已经被提出用来提升资源限制条件下的缓存命中率[3-6]。考虑到D2D用户的移动性以及缓存方案的差异,即使主动预测式缓存更新策略被应用,有可能会出现内容请求时无法找到最优的D2D链接或者发生碰撞,使通信的效率大大降低。D2D网络的动态拓扑结构和难以保证平稳的网络链路,这使通信链路的选择以及网络的能耗管理成为复杂的问题[7-8]。
近年来,多种深度学习方法被用来改善D2D通信网络的能效性能。在对支持缓存的D2D通信网络研究中,循环神经网络算法被用来对用户喜好进行预测,这样最可能被请求的内容就可以被预先缓存在用户设备中[9]。在对数据中心的优化研究中,根据优化模型输出的链路裕度比对数据中心网络的流量进行调整,使得调整过程同时兼顾了数据流时间波动性与数据流的空间分布特性,实现了在保证FCT的同时提高数据中心网络的能效,但主要对数据中心的网络能耗进行优化,而没有考虑接入网以及边缘网络的能耗[14]。从离散动作空间的视角来使用深度强化学习技术优化数据中心网络能耗,不仅在能耗节约方面效果显著,在应对流传输时间限制,可靠性要求,链路应对突发,智能网络带宽分配方面也有较好表现,但采用强化学习的方法对网络能耗进行优化,也是针对的数据中心,而不是分布式的接入网络[15]。此外,基于D2D网络特性,可以为每个用户设备设计个性化内容放置策略,从而提高缓存的命中率并降低通信功耗与时延[10]。但是,内容放置策略只是用来解决D2D传输前合理利用存储空间的问题。即使内容放置策略使D2D通信达到优秀的缓存命中率,也不能够保证用户设备请求的内容能够成功地通过D2D传输获得。例如,当多个用户设备向同一个用户设备发送缓存内容请求时,就会发生碰撞,这使通信的效率大大降低[8]。选择与设备距离较近的另一设备进行D2D通信可以降低通信能耗,但只考虑通信距离有可能导致其他设备的连接失败[12-13]。
内容放置及读取策略既要考虑用户设备间的碰撞概率,又要考虑整体通信网络的能耗。在缓存内容的读取中,基于深度强化学习和深度确定性梯度的动态调度策略已经被证明具有较好的作用[10]。例如,通过分析随机任务的多用户缓存辅助系统中动态缓存、内容卸载和资源分配等问题,这些策略可以对能量消耗、延时等性能进行优化。基于深度强化学习中的演员评论家算法被提出用于网络服务功能链资源分配的算法[11]。但是,由于D2D用户的移动性和用户设备资源的限制,如何平衡资源消耗和用户体验之间的矛盾还存在着许多不确定性。
为了提升D2D网络的缓存资源利用率并对网络能耗进行管理,本发明提出了一种基于强化学习框架的D2D边缘缓存网络能耗管理方法。
以下文献是与本发明相关的技术背景资料:
[1] M. Chen, Y. Qian, Y. Hao, Y. Li, and J. Song, "Data-drivencomputing and caching in 5G networks: Architecture and delay analysis,"IEEE Wireless Commun., vol. 25, no. 1, pp. 70-75, 2018;
[2]Y. Fu, L. Salaün, X. Yang, W.Wen, and T. Q. S. Quek, "CachingEfficiency Maximization for Device-to-Device Communication Networks: ARecommend to Cache Approach,"IEEE Trans. Wireless Commun., vol. 20, no. 10,pp. 6580-6594, 2021;
[3]H. H. Chang, L. Liu, and Y. Yi, "Deep Echo State Q-Network(DEQN)and Its Application in Dynamic Spectrum Sharing for 5G and Beyond," IEEETrans. Neural Netw. Learn. Syst., vol. 33, no. 3, pp. 929-939, 2022;
[4]L. Ale, N. Zhang, H. Wu, D. Chen, and T. Han, "OnlineProactiveCaching in Mobile Edge Computing Using Bidirectional Deep Recurrent NeuralNetwork," IEEE Internet Things J., vol. 6, no. 3, pp. 5520-5530,2019;
[5]M. Yan, W. Li, C. A. Chan, S. Bian, I. C, and A. F. Gygax,"PECS:Towards personalized edge caching for future service-centric networks," ChinaCommun., vol. 16, no. 8, pp. 93-106, 2019;
[6]Z. Yu, J. Hu, G. Min, Z. Zhao, W. Miao, and M. S. Hossain,"Mobility-Aware Proactive Edge Caching for Connected Vehicles Using FederatedLearning," IEEE Trans. Intell. Transp. Syst., vol. 22, no. 8, pp.5341-5351,2021;
[7]S. He, S. Xiong, W. Zhang, Y. Yang, J. Ren, and Y. Huang,"GBLinks: GNN-Based Beam Selection and Link Activation for Ultra-Dense D2DmmWave Networks," IEEE Trans. Commun., vol. 70, no. 5, pp. 3451-3466,2022;
[8]E. Zihan, K. W. Choi, and D. I. Kim, "Distributed RandomAccessScheme for Collision Avoidance in Cellular Device-to-Device Communication,"IEEE Trans. Wireless Commun., vol. 14, no. 7, pp.3571-3585, 2015;
[9]L. Li, Y. Hu, H. Zhang, W. Liang, and A. Gao, "Deep learningbasedphysical layer security of D2D underlay cellular network," China Commun.,vol. 17, no. 2, pp. 93-106, 2020;
[10] L. Li et al., "Deep Reinforcement Learning ApproachesforContent Caching in Cache-Enabled D2D Networks," IEEE Internet Things J.,vol. 7, no. 1, pp. 544-557, 2020;
[11] P. Khuntia and R. Hazra, "An Actor-Critic ReinforcementLearningfor Device-to-Device Communication Underlaying Cellular Network," in TENCON2018 - 2018 IEEE Region 10 Conference, 28-31 Oct. 2018 2018, pp.50-55;
[12] M. Hamdi, A. B. Hamed, D. Yuan, and M. Zaied,"Energy-EfficientJoint Task Assignment and Power Control in Energy-Harvesting D2D OffloadingCommunications," IEEE Internet Things J.,vol. 9, no. 8, pp. 6018-6031, 2022;
[13] M. Sengly, K. Lee, and J. R. Lee, "Joint OptimizationofSpectral Efficiency and Energy Harvesting in D2D Networks Using Deep NeuralNetwork," IEEE Trans. Veh. Technol., vol. 70, no. 8, pp. 8361-8366, 2021;
[14]郭泽华,基于强化学习的数据中心网络能耗和服务质量优化方法,2020-04-19,CN111555907A;
[15] 王廷,李博,范熙,一种基于参数化动作空间的网络能耗两级控制方法,2021-08-20,CN113783720A。
发明内容
为了解决现有技术中的上述问题,即为了解决现有D2D边缘缓存网络的碰撞率和网络能耗不平衡的问题,即现有D2D通信过程中,请求信号会出现碰撞或传输中途连接断开,用户设备发出了请求信号却不能成功连接,造成无端的电量、流量和时间的浪费的问题,本发明提供了一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,应用于D2D通信网络,所述D2D通信网络为由基站和D2D用户设备组成的通信网络,该方法包括以下步骤:
步骤S100,获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;
步骤S200,基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备;
其中,所述演员-评论家强化学习模型包括策略近似器、值函数近似器;所述演员-评论家强化学习模型的训练方法为:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
步骤A300,基于所述环境状态数据、所述动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过所述策略近似器,计算策略梯度值;
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新;
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型。
在一些优选的实施方式中,设学习迭代次数为
Figure SMS_1
,每一次迭代中的请求次数为
Figure SMS_2
;所述环境状态数据表示为:
Figure SMS_3
Figure SMS_4
Figure SMS_5
其中,
Figure SMS_14
表示迭代
Figure SMS_7
次的环境状态轨迹,即迭代
Figure SMS_10
次的环境状态数据;
Figure SMS_18
表示第
Figure SMS_22
次迭代时的环境状态数据;
Figure SMS_23
表示第
Figure SMS_26
次迭代时D2D网络请求第
Figure SMS_15
次后的环境状态数据;
Figure SMS_19
表示第
Figure SMS_6
次请求时第一用户设备
Figure SMS_11
的发射功率,
Figure SMS_9
Figure SMS_12
表示第
Figure SMS_16
次请求内容的第一用户设备
Figure SMS_20
以及与其连接的第二用户设备
Figure SMS_24
的编号下标;
Figure SMS_27
Figure SMS_25
次请求时第一用户设备
Figure SMS_28
与第二用户设备
Figure SMS_8
之间的表示信道增益,指的是信道自身的传输能力,因时间和传输频率的变化而变化;
Figure SMS_13
表示第一用户设备
Figure SMS_17
与第二用户设备
Figure SMS_21
的距离。
在一些优选的实施方式中,所述动作概率空间包括基于信道选择的动作概率空间和基于发射功率选择的动作概率空间,所述基于信道选择的动作概率空间
Figure SMS_29
为:
Figure SMS_30
所述基于发射功率选择的动作概率空间
Figure SMS_31
为:
Figure SMS_32
其中,
Figure SMS_34
表示第一用户设备
Figure SMS_36
请求的内容可以在第二用户设备
Figure SMS_39
内请求、且
Figure SMS_33
Figure SMS_38
的D2D通信范围内的概率;
Figure SMS_40
表示第一用户设备
Figure SMS_41
与第二用户设备
Figure SMS_35
之间的信号与干扰加噪声比;
Figure SMS_37
表示用户设备需要的最小信号与干扰加噪声比阈值;
所述信号与干扰加噪声比是指在通信的过程中设备接收到有用的信号强度与接收到的干扰信号强度的比值;所述信号与干扰加噪声比通过设备的发射功率和信道增益计算,其计算公式为:
Figure SMS_42
其中,
Figure SMS_45
表示高斯白噪声,
Figure SMS_47
Figure SMS_49
分别表示第
Figure SMS_44
次请求时第一用户设备
Figure SMS_46
的发射功率、第
Figure SMS_48
次请求时第一用户设备
Figure SMS_50
与第二用户设备
Figure SMS_43
之间的信道增益。
在一些优选的实施方式中,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值,其计算方法为:
Figure SMS_51
Figure SMS_52
Figure SMS_53
其中,
Figure SMS_55
表示第
Figure SMS_58
次请求得到的奖励值;
Figure SMS_60
Figure SMS_56
均为0到1间的常数,且
Figure SMS_57
Figure SMS_59
的和为1;
Figure SMS_61
表示通信带宽;
Figure SMS_54
表示用户设备的最大发射功率。
在一些优选的实施方式中,在所述演员-评论家强化学习模型整个训练过程中,总奖励值的最大值为:
Figure SMS_62
其中,
Figure SMS_63
表示第
Figure SMS_64
次请求时的长期收益折扣因子,为0到1间的常数。
在一些优选的实施方式中,所述策略评估值其计算方法为:
Figure SMS_65
其中,
Figure SMS_66
表示第
Figure SMS_67
次迭代时的策略评估值,
Figure SMS_68
表示每一个
Figure SMS_69
的折扣率,
Figure SMS_70
表示第
Figure SMS_71
次请求得到的奖励值,
Figure SMS_72
表示期望值。
在一些优选的实施方式中,所述时间差分算法误差其计算方法为:
Figure SMS_73
其中,
Figure SMS_74
表示时间差分算法误差,
Figure SMS_75
表示第
Figure SMS_76
次迭代时的策略评估值,是根据
Figure SMS_77
次迭代得到的环境状态数据
Figure SMS_78
作为第
Figure SMS_79
次迭代的环境状态数据
Figure SMS_80
来估算的。
在一些优选的实施方式中,所述策略梯度值其计算方法为:
Figure SMS_81
其中,
Figure SMS_84
表示策略梯度值,
Figure SMS_87
表示策略近似器对其参数的梯度,
Figure SMS_90
表示策略近似器,
Figure SMS_85
表示第
Figure SMS_86
次迭代时第
Figure SMS_89
次请求时所构成的动作空间,
Figure SMS_92
表示第
Figure SMS_82
次迭代时D2D网络请求第
Figure SMS_88
次后的环境状态数据,
Figure SMS_91
表示第
Figure SMS_93
次迭代时第
Figure SMS_83
次请求时的时间差分算法误差。
在一些优选的实施方式中,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新,其方法为:
预设策略参数
Figure SMS_94
,值函数参数
Figure SMS_95
所述策略参数更新公式为:
Figure SMS_96
所述值函数参数更新公式为:
Figure SMS_97
其中,
Figure SMS_100
为策略参数的学习率,
Figure SMS_101
为值函数参数的学习率,
Figure SMS_103
表示第
Figure SMS_99
次迭代时请求第
Figure SMS_102
次后的策略参数,
Figure SMS_104
表示第
Figure SMS_105
次迭代时请求第
Figure SMS_98
次后的值函数参数。
本发明的第二方面,提出了一种基于强化学习框架的D2D边缘缓存网络能耗管理系统,该系统包括:数据获取模块100、策略选择模块200;
所述数据获取模块100,配置为获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;
所述策略选择模块200,配置为基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备;
其中,所述演员-评论家强化学习模型包括策略近似器、值函数近似器;所述演员-评论家强化学习模型的训练方法为:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
步骤A300,基于所述环境状态数据、所述动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过所述策略近似器,计算策略梯度值;
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新;
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型。
本发明的有益效果:
本发明完成网络中每个用户设备的内容分配,提高缓存命中率,并实现对网络吞吐量和能耗的优化。
1)本发明通过搭建基于D2D通信网络的内容读取策略的深度强化学习架构,并利用双级演员评论家算法对内容读取策略进行优化(即在信道选择的基础上添加对设备发射功率级别的选择),提高算法的性能寻找使网络吞吐量达到最高的通信链路,从而对整体的网络能耗进行管理,并提高缓存命中率。
2)本发明为了平衡碰撞率和网络能耗之间的矛盾,采取了正奖励与负惩罚相结合的激励方法对双级策略中的奖励函数进行改进,并对改进的奖励函数中的正向和负向奖励增加了权重因子,平衡碰撞率和能耗间的相对重要性;这样可以了解不同因素对网络能耗的影响,从而实现对网络能耗的优化管理。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理方法的流程示意图;
图2是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理方法的模型训练示意图;
图3是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理方法的通信系统示意图;
图4是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理方法的能耗对比示意图;
图5是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理系统的框架示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供了一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,应用于D2D通信网络,所述D2D通信网络为由基站和D2D用户设备组成的通信网络,如图1所示,该方法包括以下步骤:
步骤S100,获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;
步骤S200,基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备;
其中,所述演员-评论家强化学习模型包括策略近似器、值函数近似器;所述演员-评论家强化学习模型的训练方法为:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
步骤A300,基于所述环境状态数据、所述动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过所述策略近似器,计算策略梯度值;
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新;
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型。
为了更清晰地对本发明基于强化学习框架的D2D边缘缓存网络能耗管理方法进行说明,下面结合附图对本发明方法实施例中各步骤展开详述。
在下述实施例中,先对演员-评论家强化学习模型的训练过程进行说明,再对基于强化学习框架的D2D边缘缓存网络能耗管理过程进行详述。
1、演员-评论家强化学习模型的训练过程,如图2所示,具体步骤如下:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
在本实施例中,所用模型均为由基站和D2D用户设备组成的通信网络。为了方便计算,设模型内每个文件的大小相同,D2D通信网络为半双工工作模式,同一时刻内设备只能做请求或发送中的一个工作,传输数据和接收数据不能同时进行。设本实施例的环境中请求方用户设备数量为
Figure SMS_106
Figure SMS_107
,发送方用户设备数量为
Figure SMS_108
Figure SMS_109
。每个设备按照内容放置策略缓存内容, 设备放置在学校、公司、商场等人员密集的场所。
D2D通信网络中的内容放置策略相当于将每个用户设备作为可移动的微型基站,完成网络中每个用户设备的内容分配,提高缓存命中率的作用是保证通信过程中有更大的可能通过D2D通信的方式找到目标文件。但找到目标文件不能代表可以成功建立D2D通信,建立D2D连接的过程中还有可能出现以下几种情况:
(1)一个用户设备请求的内容在多个设备内同时存有;
(2)一个设备内缓存的内容同时被多个用户设备请求;
(3)建立起D2D通信后由于用户移动导致两个设备的距离超过最远通信距离。
这些问题的出现会导致请求信号碰撞或传输中途连接断开,设备发出了请求信号却不能成功连接,造成无端的电量、流量和时间的浪费。在图3中,设备1-3为存有目标内容的用户设备,4-6为请求内容的用户设备。图3中的(a)为用户请求内容的场景,设备1和2中都存有设备4需要的目标内容,设备4和5都有可能同时向设备1发出请求。将这种情况转化为二分图即有图3中的(b)表示。
基于D2D通信网络的内容获取策略搭建深度强化学习架构,设学习迭代次数为
Figure SMS_110
,每一次迭代中的请求次数为
Figure SMS_111
。D2D通信的环境状态数据由公式(1)至(3)表示:
Figure SMS_112
(1)
Figure SMS_113
(2)
Figure SMS_114
(3)
其中,
Figure SMS_132
表示迭代
Figure SMS_135
次的环境状态轨迹,即迭代
Figure SMS_137
次的环境状态数据;
Figure SMS_116
表示第
Figure SMS_120
次迭代时的环境状态数据;
Figure SMS_124
表示第
Figure SMS_128
次迭代时D2D网络请求第
Figure SMS_118
次后的环境状态数据;
Figure SMS_122
表示第
Figure SMS_126
次请求时第一用户设备
Figure SMS_130
的发射功率,是在用户设备
Figure SMS_133
Figure SMS_136
之间信道衰落下能够成功传输内容需要的最小传输功率,
Figure SMS_138
Figure SMS_139
表示第
Figure SMS_123
次请求内容的第一用户设备
Figure SMS_127
以及与其连接的第二用户设备
Figure SMS_131
的编号下标;
Figure SMS_134
Figure SMS_115
次请求时第一用户设备
Figure SMS_121
与第二用户设备
Figure SMS_125
之间的表示信道增益,指的是信道自身的传输能力,传输能力强弱与信道内的输入和输出没有关系,而是受时间和传输频率的变化而变化;
Figure SMS_129
表示第一用户设备
Figure SMS_117
与第二用户设备
Figure SMS_119
的距离。
智能体结合当前环境状态和策略来判定下一次执行的动作,在内容获取策略中动作表示用户设备选择的信道。第
Figure SMS_140
次迭代时的D2D网络动作空间
Figure SMS_141
,由公式(4)表示:
Figure SMS_142
(4)
其中,
Figure SMS_143
表示D2D网络请求
Figure SMS_144
次所构成的动作空间。
D2D缓存内容抓取策略第
Figure SMS_145
次迭代时D2D网络的奖励值
Figure SMS_146
,由公式(5)表示:
Figure SMS_147
(5)
其中,
Figure SMS_148
表示第
Figure SMS_149
次请求得到的奖励值。
奖励函数的目的是让整个学习过程的总奖励值达到最大,而不是使某一步动作的选择的奖励最大。在所述演员-评论家强化学习模型整个训练过程中,总奖励值的最大值为公式(6):
Figure SMS_150
(6)
其中,
Figure SMS_151
表示D2D网络第
Figure SMS_152
次请求时的长期收益折扣因子,为0到1间的常数。
公式(6)表明,演员评论家算法的目的是达到更大的奖励值总和。其中奖励值总和的提高是通过演员网络得到的奖励值反馈给评论家的值函数,值函数结合奖励值和状态评定演员网络该次动作选择的优劣。通过演员和评论家网络中的策略近似器和值函数共同作用,不断学习得到优化的动作概率空间。演员能够选择使网络吞吐量增大的信道相连接,从而提高奖励总值。
在多个用户间随机请求或发送内容的D2D网络中,如果多个用户同时向一个用户发出请求,就会产生传输碰撞而导致传输失败。
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
在本实施例中,每个智能体都包含自己的策略近似器
Figure SMS_153
,和值函数近似器
Figure SMS_154
。两者的协作同时解决了梯度全面更新的高延时难收敛以及连续空间难选择动作的问题。当用户设备
Figure SMS_155
请求的内容在多个用户设备内同时存有,策略近似器根据当前环境选择的动作
Figure SMS_156
,即为与存有目标内容的设备组中的哪一个设备建立D2D通信连接。而值函数近似器则是通过动作
Figure SMS_157
带给环境状态的变化得到奖励值,用奖励值更新动作
Figure SMS_158
发生的概率分布,奖励值由奖励函数计算得来。
动作
Figure SMS_159
是根据动作概率空间选择的,动作概率空间由公式(7)表示:
Figure SMS_160
(7)
其中,
Figure SMS_162
Figure SMS_165
表示第
Figure SMS_169
次请求内容的第一用户设备
Figure SMS_164
以及与其连接的第二用户设备
Figure SMS_167
的编号下标,
Figure SMS_171
表示第一用户设备
Figure SMS_174
请求的内容可以在第二用户设备
Figure SMS_161
内请求、且
Figure SMS_168
Figure SMS_172
的D2D通信范围内的概率,可以建立D2D通信则概率为1,否则为0;
Figure SMS_175
则根据策略近似器不断进行改进,本文设
Figure SMS_163
为用sigmoid函数处理后的信号与干扰加噪声比(Signal to Interference plus Noise Ratio,SINR)。SINR是指在通信的过程中设备接收到有用的信号强度与接收到的干扰信号强度的比值,第一用户设备
Figure SMS_166
与其连接的第二用户设备
Figure SMS_170
之间的SINR用
Figure SMS_173
表示,SINR数值越大说明通信网络的抗干扰能力更强;SINR通过设备的发射功率和信道增益计算。
所述演员-评论家强化学习模型采用双级策略,包括信道选择策略和发射功率选择策略;
所述动作是根据动作概率空间选择的,所述动作概率空间分为基于信道选择的动作概率空间和基于发射功率选择的动作概率空间,所述基于信道选择的动作概率空间
Figure SMS_176
为:
Figure SMS_177
(8)
所述基于发射功率选择的动作概率空间
Figure SMS_178
为:
Figure SMS_179
(9)
所述信号与干扰加噪声比通过设备的发射功率和信道增益计算,其计算公式为:
Figure SMS_180
(10)
其中,
Figure SMS_182
表示高斯白噪声,
Figure SMS_184
Figure SMS_186
分别表示第
Figure SMS_183
次请求时第一用户设备
Figure SMS_185
的发射功率、第
Figure SMS_187
次请求时第一用户设备
Figure SMS_188
与第二用户设备
Figure SMS_181
之间的信道增益。
步骤A300,基于所述环境状态数据、所述动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
在本实施例中,所述奖励函数先设为公式(11)如下:
Figure SMS_189
(11)
其中,
Figure SMS_190
表示第
Figure SMS_191
次请求得到的奖励值;
Figure SMS_192
表示负奖励的值,为大于等于0的常数。若成功建立连接则给予环境的正向奖励,用网络吞吐量计算。若没能成功连接则需要给出负奖励值,也可以看作是一种惩罚,每产生一次失败请求则给予
Figure SMS_193
的惩罚。智能体希望尽快地达到正奖励的状态,以此来使奖励值快速趋近正值。
所述奖励函数的两个约束条件如公式(12)所示:
Figure SMS_194
Figure SMS_195
(12)
其中,
Figure SMS_196
表示用户设备需要的最小信号与干扰加噪声比阈值,
Figure SMS_197
表示用户设备的最大发射功率。计算每一次迭代的奖励值时,设备发射功率要满足用户设备需要的最小阈值,且不能大于最大功率。
上述奖励函数仅考虑信道选择,接下来添加对设备发射功率级别的选择,采用双级策略进一步改进奖励函数,如公式(13)所示:
Figure SMS_198
(13)
正向奖励为连接成功的D2D通信用户设备对产生的吞吐量,负向惩罚为由于发生碰撞或者发射功率选择不合适的动作导致未能建立D2D通信的设备发送连接信号造成的资源浪费。
给改进奖励函数(13)中的正负奖励增添加权值
Figure SMS_199
Figure SMS_200
,可以用于平衡碰撞率和能耗间的相对重要性。如果应用场景需要低能耗,则增大β值比重,得到双级策略改进奖励函数,如公式(14)所示:
Figure SMS_201
(14)
其中,
Figure SMS_202
Figure SMS_203
均为0到1间的常数,且
Figure SMS_204
Figure SMS_205
的和为1;
Figure SMS_206
表示通信带宽;通过改变加权参数的大小控制正负奖励以实现不同的系统目标。
通过改变奖励函数等式(14)中的加权值,可以达到改变网络综合性能的目的。图4给出了几个典型的权重因子的平均功耗数据。随着负向奖励值
Figure SMS_207
变大,平均功耗会有一定的下降,并随着迭代次数的增长稳定在较低的水平。但是这会牺牲一定的D2D链路建立的成功率。在实际的网络优化中,可以根据用户的特征进行动态调整,实现对网络吞吐量和能耗的优化。
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过所述策略近似器,计算策略梯度值;
在本实施例中,评论家在神经网络中的作用即为给误差的计算提供估计的状态值来帮助训练,其输出是一个可以提供值函数估计的未被激活的单元。当计算奖励值后,根据当前环境状态数据
Figure SMS_208
来估计未来的奖励值
Figure SMS_209
的期望,所述策略评估值其计算方法为:
Figure SMS_210
(15)
其中,
Figure SMS_211
表示第
Figure SMS_212
次迭代时的策略评估值,
Figure SMS_213
表示每一个
Figure SMS_214
的折扣率,
Figure SMS_215
表示第
Figure SMS_216
次请求得到的奖励值,
Figure SMS_217
表示期望值。
用时间差分算法(Temporal-difference, TD)生成反映当前动作执行情况的误差,根据奖励值和策略评估值计算时间差分算法误差,其计算方法为:
Figure SMS_218
(16)
其中,
Figure SMS_219
表示时间差分算法误差,
Figure SMS_220
表示第
Figure SMS_221
次迭代时的策略评估值,是根据
Figure SMS_222
次迭代得到的环境状态数据
Figure SMS_223
作为第
Figure SMS_224
次迭代的环境状态数据
Figure SMS_225
来估算的。
结合时间差分算法误差和策略近似器计算策略梯度值,其计算方法为:
Figure SMS_226
(17)
其中,
Figure SMS_228
表示策略梯度值,
Figure SMS_230
表示策略近似器对其参数的梯度,
Figure SMS_234
表示第
Figure SMS_227
次迭代时第
Figure SMS_232
次请求时所构成的动作空间,
Figure SMS_235
表示第
Figure SMS_237
次迭代时D2D网络请求第
Figure SMS_229
次后的环境状态数据,
Figure SMS_231
表示第
Figure SMS_233
次迭代时第
Figure SMS_236
次请求时的时间差分算法误差。
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新;
在本实施例中,策略近似器和值函数的参数更新则是基于策略梯度法和时间差分算法误差使用梯度上升的方式实现的,预设策略参数
Figure SMS_238
,值函数参数
Figure SMS_239
;所述策略参数更新公式为:
Figure SMS_240
(18)
所述值函数参数更新公式为:
Figure SMS_241
(19)
其中
Figure SMS_243
为策略参数的学习率,
Figure SMS_246
表示时间差分算法误差,
Figure SMS_248
为值函数参数的学习率。这两组参数更新函数经过多次的迭代最终得到最大化的目标函数。
Figure SMS_244
表示第
Figure SMS_247
次迭代时请求第
Figure SMS_249
次后的策略参数,
Figure SMS_250
表示第
Figure SMS_242
次迭代时请求第
Figure SMS_245
次后的值函数参数。
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型。
在本实施例中,设学习迭代次数为
Figure SMS_251
,每一次迭代中的请求次数为
Figure SMS_252
2、基于强化学习框架的D2D边缘缓存网络能耗管理过程
步骤S100,获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;
步骤S200,基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备。
本发明第二实施例的一种基于强化学习框架的D2D边缘缓存网络能耗管理系统,如图5所示,包括:数据获取模块100、策略选择模块200;
所述数据获取模块100,配置为获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;
所述策略选择模块200,配置为基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备;
其中,所述演员-评论家强化学习模型包括策略近似器、值函数近似器;所述演员-评论家强化学习模型的训练方法为:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
步骤A300,基于所述环境状态数据、所述动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过策略近似器,计算策略梯度值;
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对策略近似器中的策略参数、值函数近似器中的值函数参数进行更新;
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的一种基于强化学习框架的D2D边缘缓存网络能耗管理系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的一种从低空间分辨率图像到高分辨率图像的MPI重建方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的一种从低空间分辨率图像到高分辨率图像的MPI重建方法。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,应用于D2D通信网络,所述D2D通信网络为由基站和D2D用户设备组成的通信网络,其特征在于,该方法包括以下步骤:
步骤S100,获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;
步骤S200,基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备;
其中,所述演员-评论家强化学习模型包括策略近似器、值函数近似器;所述演员-评论家强化学习模型的训练方法为:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
步骤A300,基于所述环境状态数据、所述动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过所述策略近似器,计算策略梯度值;
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新;
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型。
2.根据权利要求1所述的一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,其特征在于,设学习迭代次数为
Figure QLYQS_1
,每一次迭代中的请求次数为
Figure QLYQS_2
;所述环境状态数据表示为:
Figure QLYQS_3
Figure QLYQS_20
Figure QLYQS_24
;其中,
Figure QLYQS_26
表示迭代
Figure QLYQS_5
次的环境状态轨迹,即迭代
Figure QLYQS_9
次的环境状态数据;
Figure QLYQS_17
表示第
Figure QLYQS_21
次迭代时的环境状态数据;
Figure QLYQS_6
表示第
Figure QLYQS_11
次迭代时D2D网络请求第
Figure QLYQS_14
次后的环境状态数据;
Figure QLYQS_18
表示第
Figure QLYQS_7
次请求时第一用户设备
Figure QLYQS_10
的发射功率,
Figure QLYQS_13
Figure QLYQS_16
表示第
Figure QLYQS_19
次请求内容的第一用户设备
Figure QLYQS_23
以及与其连接的第二用户设备
Figure QLYQS_25
的编号下标;
Figure QLYQS_28
Figure QLYQS_4
次请求时第一用户设备
Figure QLYQS_8
与第二用户设备
Figure QLYQS_12
之间的表示信道增益,指的是信道自身的传输能力,因时间和传输频率的变化而变化;
Figure QLYQS_15
表示第一用户设备
Figure QLYQS_22
与第二用户设备
Figure QLYQS_27
的距离。
3.根据权利要求2所述的一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,其特征在于,所述动作概率空间包括基于信道选择的动作概率空间和基于发射功率选择的动作概率空间;所述基于信道选择的动作概率空间
Figure QLYQS_29
为:
Figure QLYQS_31
;所述基于发射功率选择的动作概率空间
Figure QLYQS_36
为:
Figure QLYQS_38
;其中,
Figure QLYQS_32
表示第一用户设备
Figure QLYQS_34
请求的内容可以在第二用户设备
Figure QLYQS_37
内请求、且
Figure QLYQS_40
Figure QLYQS_30
的D2D通信范围内的概率;
Figure QLYQS_35
表示第一用户设备
Figure QLYQS_39
与连接的第二用户设备
Figure QLYQS_41
之间的信号与干扰加噪声比;
Figure QLYQS_33
表示用户设备需要的最小信号与干扰加噪声比阈值;
所述信号与干扰加噪声比是指在通信的过程中设备接收到有用的信号强度与接收到的干扰信号强度的比值;所述信号与干扰加噪声比通过设备的发射功率和信道增益计算,其计算方法为:
Figure QLYQS_42
;其中,
Figure QLYQS_46
表示高斯白噪声,
Figure QLYQS_48
Figure QLYQS_44
分别表示第
Figure QLYQS_47
次请求时第一用户设备
Figure QLYQS_49
的发射功率、第
Figure QLYQS_50
次请求时第一用户设备
Figure QLYQS_43
与第二用户设备
Figure QLYQS_45
之间的信道增益。
4.根据权利要求3所述的一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,其特征在于,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值,其方法为:
Figure QLYQS_52
Figure QLYQS_56
Figure QLYQS_59
;其中,
Figure QLYQS_53
表示第
Figure QLYQS_54
次请求得到的奖励值;
Figure QLYQS_57
Figure QLYQS_60
均为0到1间的常数,且
Figure QLYQS_51
Figure QLYQS_55
的和为1;
Figure QLYQS_58
表示通信带宽;
Figure QLYQS_61
表示用户设备的最大发射功率。
5.根据权利要求4所述的一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,其特征在于,在所述演员-评论家强化学习模型整个训练过程中,总奖励值的最大值为:
Figure QLYQS_62
;其中,
Figure QLYQS_63
表示第
Figure QLYQS_64
次请求时的长期收益折扣因子。
6.根据权利要求2所述的一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,其特征在于,所述策略评估值,其计算方法为:
Figure QLYQS_66
;其中,
Figure QLYQS_68
表示第
Figure QLYQS_70
次迭代时的策略评估值,
Figure QLYQS_67
表示每一个
Figure QLYQS_69
的折扣率,
Figure QLYQS_71
表示第
Figure QLYQS_72
次请求得到的奖励值,
Figure QLYQS_65
表示期望值。
7.根据权利要求6所述的一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,其特征在于,所述时间差分算法误差,其计算方法为:
Figure QLYQS_75
;其中,
Figure QLYQS_76
表示时间差分算法误差,
Figure QLYQS_78
表示第
Figure QLYQS_74
次迭代时的策略评估值,是根据
Figure QLYQS_77
次迭代得到的环境状态数据
Figure QLYQS_79
作为第
Figure QLYQS_80
次迭代的环境状态数据
Figure QLYQS_73
来估算的。
8.根据权利要求7所述的一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,其特征在于,所述策略梯度值,其计算方法为:
Figure QLYQS_81
;其中,
Figure QLYQS_85
表示策略梯度值,
Figure QLYQS_90
表示策略近似器对其参数的梯度,
Figure QLYQS_83
表示策略近似器,
Figure QLYQS_88
表示第
Figure QLYQS_91
次迭代时第
Figure QLYQS_93
次请求时所构成的动作空间,
Figure QLYQS_82
表示第
Figure QLYQS_86
次迭代时D2D网络请求第
Figure QLYQS_89
次后的环境状态数据,
Figure QLYQS_92
表示第
Figure QLYQS_84
次迭代时第
Figure QLYQS_87
次请求时的时间差分算法误差。
9.根据权利要求8所述的一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,其特征在于,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新,其方法为:预设策略参数
Figure QLYQS_94
,值函数参数
Figure QLYQS_99
;所述策略参数更新公式为:
Figure QLYQS_101
;所述值函数参数更新公式为:
Figure QLYQS_96
;其中,
Figure QLYQS_103
为策略参数的学习率,
Figure QLYQS_104
为值函数参数的学习率,
Figure QLYQS_105
表示第
Figure QLYQS_95
次迭代时请求第
Figure QLYQS_98
次后的策略参数,
Figure QLYQS_100
表示第
Figure QLYQS_102
次迭代时请求第
Figure QLYQS_97
次后的值函数参数。
10.一种基于强化学习框架的D2D边缘缓存网络能耗管理系统,应用于D2D通信网络,所述D2D通信网络为由基站和D2D用户设备组成的通信网络,其特征在于,该系统包括:数据获取模块100、策略选择模块200;
所述数据获取模块100,配置为获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;
所述策略选择模块200,配置为基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备;
其中,所述演员-评论家强化学习模型包括策略近似器、值函数近似器;所述演员-评论家强化学习模型的训练方法为:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
步骤A300,基于所述环境状态数据、动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过策略近似器,计算策略梯度值;
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对策略近似器中的策略参数、值函数近似器中的值函数参数进行更新;
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型。
CN202310050550.3A 2023-02-01 2023-02-01 基于强化学习框架的d2d边缘缓存网络能耗管理方法 Active CN115802465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310050550.3A CN115802465B (zh) 2023-02-01 2023-02-01 基于强化学习框架的d2d边缘缓存网络能耗管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310050550.3A CN115802465B (zh) 2023-02-01 2023-02-01 基于强化学习框架的d2d边缘缓存网络能耗管理方法

Publications (2)

Publication Number Publication Date
CN115802465A true CN115802465A (zh) 2023-03-14
CN115802465B CN115802465B (zh) 2023-04-21

Family

ID=85429451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310050550.3A Active CN115802465B (zh) 2023-02-01 2023-02-01 基于强化学习框架的d2d边缘缓存网络能耗管理方法

Country Status (1)

Country Link
CN (1) CN115802465B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200302323A1 (en) * 2019-03-20 2020-09-24 Sony Corporation Reinforcement learning through a double actor critic algorithm
CN113435606A (zh) * 2021-07-01 2021-09-24 吉林大学 强化学习模型的优化方法、装置、存储介质及电子设备
CN113784410A (zh) * 2021-09-24 2021-12-10 吉林大学 基于强化学习td3算法的异构无线网络垂直切换方法
CN114205791A (zh) * 2021-12-13 2022-03-18 西安电子科技大学 一种基于深度q学习的社交感知d2d协同缓存方法
CN115277845A (zh) * 2022-07-22 2022-11-01 南京理工大学 基于多智能体近端策略的车联网分布式边缘缓存决策方法
WO2022257348A1 (zh) * 2021-06-08 2022-12-15 重庆邮电大学 一种不确定网络环境中的任务卸载和资源分配方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200302323A1 (en) * 2019-03-20 2020-09-24 Sony Corporation Reinforcement learning through a double actor critic algorithm
WO2022257348A1 (zh) * 2021-06-08 2022-12-15 重庆邮电大学 一种不确定网络环境中的任务卸载和资源分配方法
CN113435606A (zh) * 2021-07-01 2021-09-24 吉林大学 强化学习模型的优化方法、装置、存储介质及电子设备
CN113784410A (zh) * 2021-09-24 2021-12-10 吉林大学 基于强化学习td3算法的异构无线网络垂直切换方法
CN114205791A (zh) * 2021-12-13 2022-03-18 西安电子科技大学 一种基于深度q学习的社交感知d2d协同缓存方法
CN115277845A (zh) * 2022-07-22 2022-11-01 南京理工大学 基于多智能体近端策略的车联网分布式边缘缓存决策方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SADMAN ARAF等: "UAV Assisted Cooperative Caching on Network Edge Using Multi-Agent Actor-Critic Reinforcement Learning" *
XIAOPING ZHOU等: "SACC: A Size Adaptive Content Caching Algorithm in Fog/Edge Computing Using Deep Reinforcement Learning" *

Also Published As

Publication number Publication date
CN115802465B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
Fadlullah et al. HCP: Heterogeneous computing platform for federated learning based collaborative content caching towards 6G networks
CN107766135B (zh) 移动朵云中基于粒子群和模拟退火优化的任务分配方法
CN109862610B (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
Yang et al. Joint multi-user computation offloading and data caching for hybrid mobile cloud/edge computing
CN109194763B (zh) 一种超密集网络中基于小型基站自组织协作的缓存方法
He et al. Resource allocation based on graph neural networks in vehicular communications
CN111182570A (zh) 提高运营商效用的用户关联和边缘计算卸载方法
CN110492955B (zh) 基于迁移学习策略的频谱预测切换方法
CN111565380B (zh) 车联网中基于noma-mec混合卸载方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
Zhu et al. Computing offloading strategy using improved genetic algorithm in mobile edge computing system
Feng et al. Energy-efficient user selection and resource allocation in mobile edge computing
Lan et al. Deep reinforcement learning for computation offloading and caching in fog-based vehicular networks
CN116744311B (zh) 基于per-ddqn的用户组频谱接入方法
Balakrishnan et al. Deep reinforcement learning based traffic-and channel-aware OFDMA resource allocation
CN110191489A (zh) 一种超密集网络中基于强化学习的资源分配方法及装置
CN115802380A (zh) 动态不确定场景下认知工业物联网的资源分配方法及装置
CN113747507B (zh) 一种面向5g超密集网络的计算资源管理方法及装置
Bai et al. Deep reinforcement learning for joint offloading and resource allocation in fog computing
CN116828534B (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法
Ren et al. Joint spectrum allocation and power control in vehicular communications based on dueling double DQN
Yan et al. Energy-efficient content fetching strategies in cache-enabled D2D networks via an Actor-Critic reinforcement learning structure
CN110177383B (zh) 移动边缘计算中基于任务调度和功率分配的效率优化方法
Ye et al. Genetic spectrum assignment model with constraints in cognitive radio networks
CN115802465B (zh) 基于强化学习框架的d2d边缘缓存网络能耗管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant