CN115802465B - 基于强化学习框架的d2d边缘缓存网络能耗管理方法 - Google Patents

基于强化学习框架的d2d边缘缓存网络能耗管理方法 Download PDF

Info

Publication number
CN115802465B
CN115802465B CN202310050550.3A CN202310050550A CN115802465B CN 115802465 B CN115802465 B CN 115802465B CN 202310050550 A CN202310050550 A CN 202310050550A CN 115802465 B CN115802465 B CN 115802465B
Authority
CN
China
Prior art keywords
user equipment
value
steps
strategy
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310050550.3A
Other languages
English (en)
Other versions
CN115802465A (zh
Inventor
严明
李水晶
任慧
靳聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202310050550.3A priority Critical patent/CN115802465B/zh
Publication of CN115802465A publication Critical patent/CN115802465A/zh
Application granted granted Critical
Publication of CN115802465B publication Critical patent/CN115802465B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于通讯技术领域,具体涉及一种基于强化学习框架的D2D边缘缓存网络能耗管理方法、系统,旨在解决现有D2D边缘缓存网络的碰撞率和网络能耗不平衡的问题。本方法包括:获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;基于所述输入数据,通过训练好的演员‑评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备。本发明完成网络中每个用户设备的内容分配,提高缓存命中率,并实现对网络吞吐量和能耗的优化。

Description

基于强化学习框架的D2D边缘缓存网络能耗管理方法
技术领域
本发明属于通信技术领域,具体涉及一种基于强化学习框架的D2D边缘缓存网络能耗管理方法、系统。
背景技术
5G通信技术的成熟和5G基站的大量部署大幅度提高了无线接入网络的吞吐量,刺激了高清视频、VR等大流量应用的消费。但是,这也给骨干网络的数据流量带来了巨大的压力[1]。D2D通信技术可以通过用户设备间直接通信降低蜂窝无线通信的使用量,来达到减少频带资源使用的作用。具有存储能力的移动设备可以缓存并共享从蜂窝网络获取的资源来提高资源利用率,这也能有效缓解骨干网络压力[2]。由于移动用户设备的存储空间和电量有限,基于不同深度学习方法的主动预测式缓存更新策略已经被提出用来提升资源限制条件下的缓存命中率[3-6]。考虑到D2D用户的移动性以及缓存方案的差异,即使主动预测式缓存更新策略被应用,有可能会出现内容请求时无法找到最优的D2D链接或者发生碰撞,使通信的效率大大降低。D2D网络的动态拓扑结构和难以保证平稳的网络链路,这使通信链路的选择以及网络的能耗管理成为复杂的问题[7-8]。
近年来,多种深度学习方法被用来改善D2D通信网络的能效性能。在对支持缓存的D2D通信网络研究中,循环神经网络算法被用来对用户喜好进行预测,这样最可能被请求的内容就可以被预先缓存在用户设备中[9]。在对数据中心的优化研究中,根据优化模型输出的链路裕度比对数据中心网络的流量进行调整,使得调整过程同时兼顾了数据流时间波动性与数据流的空间分布特性,实现了在保证FCT的同时提高数据中心网络的能效,但主要对数据中心的网络能耗进行优化,而没有考虑接入网以及边缘网络的能耗[14]。从离散动作空间的视角来使用深度强化学习技术优化数据中心网络能耗,不仅在能耗节约方面效果显著,在应对流传输时间限制,可靠性要求,链路应对突发,智能网络带宽分配方面也有较好表现,但采用强化学习的方法对网络能耗进行优化,也是针对的数据中心,而不是分布式的接入网络[15]。此外,基于D2D网络特性,可以为每个用户设备设计个性化内容放置策略,从而提高缓存的命中率并降低通信功耗与时延[10]。但是,内容放置策略只是用来解决D2D传输前合理利用存储空间的问题。即使内容放置策略使D2D通信达到优秀的缓存命中率,也不能够保证用户设备请求的内容能够成功地通过D2D传输获得。例如,当多个用户设备向同一个用户设备发送缓存内容请求时,就会发生碰撞,这使通信的效率大大降低[8]。选择与设备距离较近的另一设备进行D2D通信可以降低通信能耗,但只考虑通信距离有可能导致其他设备的连接失败[12-13]。
内容放置及读取策略既要考虑用户设备间的碰撞概率,又要考虑整体通信网络的能耗。在缓存内容的读取中,基于深度强化学习和深度确定性梯度的动态调度策略已经被证明具有较好的作用[10]。例如,通过分析随机任务的多用户缓存辅助系统中动态缓存、内容卸载和资源分配等问题,这些策略可以对能量消耗、延时等性能进行优化。基于深度强化学习中的演员评论家算法被提出用于网络服务功能链资源分配的算法[11]。但是,由于D2D用户的移动性和用户设备资源的限制,如何平衡资源消耗和用户体验之间的矛盾还存在着许多不确定性。
为了提升D2D网络的缓存资源利用率并对网络能耗进行管理,本发明提出了一种基于强化学习框架的D2D边缘缓存网络能耗管理方法。
以下文献是与本发明相关的技术背景资料:
[1] M. Chen, Y. Qian, Y. Hao, Y. Li, and J. Song, "Data-drivencomputing and caching in 5G networks: Architecture and delay analysis,"IEEE Wireless Commun., vol. 25, no. 1, pp. 70-75, 2018;
[2]Y. Fu, L. Salaün, X. Yang, W.Wen, and T. Q. S. Quek, "CachingEfficiency Maximization for Device-to-Device Communication Networks: ARecommend to Cache Approach,"IEEE Trans. Wireless Commun., vol. 20, no. 10,pp. 6580-6594, 2021;
[3]H. H. Chang, L. Liu, and Y. Yi, "Deep Echo State Q-Network(DEQN)and Its Application in Dynamic Spectrum Sharing for 5G and Beyond," IEEETrans. Neural Netw. Learn. Syst., vol. 33, no. 3, pp. 929-939, 2022;
[4]L. Ale, N. Zhang, H. Wu, D. Chen, and T. Han, "OnlineProactiveCaching in Mobile Edge Computing Using Bidirectional Deep Recurrent NeuralNetwork," IEEE Internet Things J., vol. 6, no. 3, pp. 5520-5530,2019;
[5]M. Yan, W. Li, C. A. Chan, S. Bian, I. C, and A. F. Gygax,"PECS:Towards personalized edge caching for future service-centric networks," ChinaCommun., vol. 16, no. 8, pp. 93-106, 2019;
[6]Z. Yu, J. Hu, G. Min, Z. Zhao, W. Miao, and M. S. Hossain,"Mobility-Aware Proactive Edge Caching for Connected Vehicles Using FederatedLearning," IEEE Trans. Intell. Transp. Syst., vol. 22, no. 8, pp.5341-5351,2021;
[7]S. He, S. Xiong, W. Zhang, Y. Yang, J. Ren, and Y. Huang,"GBLinks:GNN-Based Beam Selection and Link Activation for Ultra-Dense D2D mmWaveNetworks," IEEE Trans. Commun., vol. 70, no. 5, pp. 3451-3466,2022;
[8]E. Zihan, K. W. Choi, and D. I. Kim, "Distributed RandomAccessScheme for Collision Avoidance in Cellular Device-to-Device Communication,"IEEE Trans. Wireless Commun., vol. 14, no. 7, pp.3571-3585, 2015;
[9]L. Li, Y. Hu, H. Zhang, W. Liang, and A. Gao, "Deep learningbasedphysical layer security of D2D underlay cellular network," China Commun.,vol. 17, no. 2, pp. 93-106, 2020;
[10] L. Li et al., "Deep Reinforcement Learning Approaches forContentCaching in Cache-Enabled D2D Networks," IEEE Internet Things J., vol. 7, no.1, pp. 544-557, 2020;
[11] P. Khuntia and R. Hazra, "An Actor-Critic ReinforcementLearningfor Device-to-Device Communication Underlaying Cellular Network," in TENCON2018 - 2018 IEEE Region 10 Conference, 28-31 Oct. 2018 2018, pp.50-55;
[12] M. Hamdi, A. B. Hamed, D. Yuan, and M. Zaied,"Energy-EfficientJoint Task Assignment and Power Control in Energy-Harvesting D2D OffloadingCommunications," IEEE Internet Things J.,vol. 9, no. 8, pp. 6018-6031, 2022;
[13] M. Sengly, K. Lee, and J. R. Lee, "Joint Optimization ofSpectralEfficiency and Energy Harvesting in D2D Networks Using Deep Neural Network,"IEEE Trans. Veh. Technol., vol. 70, no. 8, pp. 8361-8366, 2021;
[14]郭泽华,基于强化学习的数据中心网络能耗和服务质量优化方法,2020-04-19,CN111555907A;
[15] 王廷,李博,范熙,一种基于参数化动作空间的网络能耗两级控制方法,2021-08-20,CN113783720A。
发明内容
为了解决现有技术中的上述问题,即为了解决现有D2D边缘缓存网络的碰撞率和网络能耗不平衡的问题,即现有D2D通信过程中,请求信号会出现碰撞或传输中途连接断开,用户设备发出了请求信号却不能成功连接,造成无端的电量、流量和时间的浪费的问题,本发明提供了一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,应用于D2D通信网络,所述D2D通信网络为由基站和D2D用户设备组成的通信网络,该方法包括以下步骤:
步骤S100,获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;
步骤S200,基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备;
其中,所述演员-评论家强化学习模型包括策略近似器、值函数近似器;所述演员-评论家强化学习模型的训练方法为:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
步骤A300,基于所述环境状态数据、所述动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过所述策略近似器,计算策略梯度值;
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新;
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型。
在一些优选的实施方式中,设学习迭代次数为
Figure SMS_1
,每一次迭代中的请求次数为
Figure SMS_2
;所述环境状态数据表示为:
Figure SMS_3
Figure SMS_4
Figure SMS_5
其中,
Figure SMS_14
表示迭代
Figure SMS_7
次的环境状态轨迹,即迭代
Figure SMS_10
次的环境状态数据;
Figure SMS_18
表示第
Figure SMS_22
次迭代时的环境状态数据;
Figure SMS_23
表示第
Figure SMS_26
次迭代时D2D网络请求第
Figure SMS_15
次后的环境状态数据;
Figure SMS_19
表示第
Figure SMS_6
次请求时第一用户设备
Figure SMS_11
的发射功率,
Figure SMS_9
Figure SMS_12
表示第
Figure SMS_16
次请求内容的第一用户设备
Figure SMS_20
以及与其连接的第二用户设备
Figure SMS_24
的编号下标;
Figure SMS_27
Figure SMS_25
次请求时第一用户设备
Figure SMS_28
与第二用户设备
Figure SMS_8
之间的表示信道增益,指的是信道自身的传输能力,因时间和传输频率的变化而变化;
Figure SMS_13
表示第一用户设备
Figure SMS_17
与第二用户设备
Figure SMS_21
的距离。
在一些优选的实施方式中,所述动作概率空间包括基于信道选择的动作概率空间和基于发射功率选择的动作概率空间,所述基于信道选择的动作概率空间
Figure SMS_29
为:
Figure SMS_30
所述基于发射功率选择的动作概率空间
Figure SMS_31
为:
Figure SMS_32
其中,
Figure SMS_34
表示第一用户设备
Figure SMS_36
请求的内容可以在第二用户设备
Figure SMS_39
内请求、且
Figure SMS_33
Figure SMS_38
的D2D通信范围内的概率;
Figure SMS_40
表示第一用户设备
Figure SMS_41
与第二用户设备
Figure SMS_35
之间的信号与干扰加噪声比;
Figure SMS_37
表示用户设备需要的最小信号与干扰加噪声比阈值;
所述信号与干扰加噪声比是指在通信的过程中设备接收到有用的信号强度与接收到的干扰信号强度的比值;所述信号与干扰加噪声比通过设备的发射功率和信道增益计算,其计算公式为:
Figure SMS_42
其中,
Figure SMS_45
表示高斯白噪声,
Figure SMS_47
Figure SMS_49
分别表示第
Figure SMS_44
次请求时第一用户设备
Figure SMS_46
的发射功率、第
Figure SMS_48
次请求时第一用户设备
Figure SMS_50
与第二用户设备
Figure SMS_43
之间的信道增益。
在一些优选的实施方式中,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值,其计算方法为:
Figure SMS_51
Figure SMS_52
Figure SMS_53
其中,
Figure SMS_55
表示第
Figure SMS_58
次请求得到的奖励值;
Figure SMS_60
Figure SMS_56
均为0到1间的常数,且
Figure SMS_57
Figure SMS_59
的和为1;
Figure SMS_61
表示通信带宽;
Figure SMS_54
表示用户设备的最大发射功率。
在一些优选的实施方式中,在所述演员-评论家强化学习模型整个训练过程中,总奖励值的最大值为:
Figure SMS_62
其中,
Figure SMS_63
表示第
Figure SMS_64
次请求时的长期收益折扣因子,为0到1间的常数。
在一些优选的实施方式中,所述策略评估值其计算方法为:
Figure SMS_65
其中,
Figure SMS_66
表示第
Figure SMS_67
次迭代时的策略评估值,
Figure SMS_68
表示每一个
Figure SMS_69
的折扣率,
Figure SMS_70
表示第
Figure SMS_71
次请求得到的奖励值,
Figure SMS_72
表示期望值。
在一些优选的实施方式中,所述时间差分算法误差其计算方法为:
Figure SMS_73
其中,
Figure SMS_74
表示时间差分算法误差,
Figure SMS_75
表示第
Figure SMS_76
次迭代时的策略评估值,是根据
Figure SMS_77
次迭代得到的环境状态数据
Figure SMS_78
作为第
Figure SMS_79
次迭代的环境状态数据
Figure SMS_80
来估算的。
在一些优选的实施方式中,所述策略梯度值其计算方法为:
Figure SMS_81
其中,
Figure SMS_84
表示策略梯度值,
Figure SMS_87
表示策略近似器对其参数的梯度,
Figure SMS_90
表示策略近似器,
Figure SMS_85
表示第
Figure SMS_86
次迭代时第
Figure SMS_89
次请求时所构成的动作空间,
Figure SMS_92
表示第
Figure SMS_82
次迭代时D2D网络请求第
Figure SMS_88
次后的环境状态数据,
Figure SMS_91
表示第
Figure SMS_93
次迭代时第
Figure SMS_83
次请求时的时间差分算法误差。
在一些优选的实施方式中,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新,其方法为:
预设策略参数
Figure SMS_94
,值函数参数
Figure SMS_95
所述策略参数更新公式为:
Figure SMS_96
所述值函数参数更新公式为:
Figure SMS_97
其中,
Figure SMS_100
为策略参数的学习率,
Figure SMS_101
为值函数参数的学习率,
Figure SMS_103
表示第
Figure SMS_99
次迭代时请求第
Figure SMS_102
次后的策略参数,
Figure SMS_104
表示第
Figure SMS_105
次迭代时请求第
Figure SMS_98
次后的值函数参数。
本发明的第二方面,提出了一种基于强化学习框架的D2D边缘缓存网络能耗管理系统,该系统包括:数据获取模块100、策略选择模块200;
所述数据获取模块100,配置为获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;
所述策略选择模块200,配置为基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备;
其中,所述演员-评论家强化学习模型包括策略近似器、值函数近似器;所述演员-评论家强化学习模型的训练方法为:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
步骤A300,基于所述环境状态数据、所述动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过所述策略近似器,计算策略梯度值;
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新;
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型。
本发明的有益效果:
本发明完成网络中每个用户设备的内容分配,提高缓存命中率,并实现对网络吞吐量和能耗的优化。
1)本发明通过搭建基于D2D通信网络的内容读取策略的深度强化学习架构,并利用双级演员评论家算法对内容读取策略进行优化(即在信道选择的基础上添加对设备发射功率级别的选择),提高算法的性能寻找使网络吞吐量达到最高的通信链路,从而对整体的网络能耗进行管理,并提高缓存命中率。
2)本发明为了平衡碰撞率和网络能耗之间的矛盾,采取了正奖励与负惩罚相结合的激励方法对双级策略中的奖励函数进行改进,并对改进的奖励函数中的正向和负向奖励增加了权重因子,平衡碰撞率和能耗间的相对重要性;这样可以了解不同因素对网络能耗的影响,从而实现对网络能耗的优化管理。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理方法的流程示意图;
图2是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理方法的模型训练示意图;
图3是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理方法的通信系统示意图;
图4是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理方法的能耗对比示意图;
图5是本发明一种实施例的基于强化学习框架的D2D边缘缓存网络能耗管理系统的框架示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供了一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,应用于D2D通信网络,所述D2D通信网络为由基站和D2D用户设备组成的通信网络,如图1所示,该方法包括以下步骤:
步骤S100,获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;
步骤S200,基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备;
其中,所述演员-评论家强化学习模型包括策略近似器、值函数近似器;所述演员-评论家强化学习模型的训练方法为:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
步骤A300,基于所述环境状态数据、所述动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过所述策略近似器,计算策略梯度值;
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新;
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型。
为了更清晰地对本发明基于强化学习框架的D2D边缘缓存网络能耗管理方法进行说明,下面结合附图对本发明方法实施例中各步骤展开详述。
在下述实施例中,先对演员-评论家强化学习模型的训练过程进行说明,再对基于强化学习框架的D2D边缘缓存网络能耗管理过程进行详述。
1、演员-评论家强化学习模型的训练过程,如图2所示,具体步骤如下:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
在本实施例中,所用模型均为由基站和D2D用户设备组成的通信网络。为了方便计算,设模型内每个文件的大小相同,D2D通信网络为半双工工作模式,同一时刻内设备只能做请求或发送中的一个工作,传输数据和接收数据不能同时进行。设本实施例的环境中请求方用户设备数量为
Figure SMS_106
Figure SMS_107
,发送方用户设备数量为
Figure SMS_108
Figure SMS_109
。每个设备按照内容放置策略缓存内容, 设备放置在学校、公司、商场等人员密集的场所。
D2D通信网络中的内容放置策略相当于将每个用户设备作为可移动的微型基站,完成网络中每个用户设备的内容分配,提高缓存命中率的作用是保证通信过程中有更大的可能通过D2D通信的方式找到目标文件。但找到目标文件不能代表可以成功建立D2D通信,建立D2D连接的过程中还有可能出现以下几种情况:
(1)一个用户设备请求的内容在多个设备内同时存有;
(2)一个设备内缓存的内容同时被多个用户设备请求;
(3)建立起D2D通信后由于用户移动导致两个设备的距离超过最远通信距离。
这些问题的出现会导致请求信号碰撞或传输中途连接断开,设备发出了请求信号却不能成功连接,造成无端的电量、流量和时间的浪费。在图3中,设备1-3为存有目标内容的用户设备,4-6为请求内容的用户设备。图3中的(a)为用户请求内容的场景,设备1和2中都存有设备4需要的目标内容,设备4和5都有可能同时向设备1发出请求。将这种情况转化为二分图即有图3中的(b)表示。
基于D2D通信网络的内容获取策略搭建深度强化学习架构,设学习迭代次数为
Figure SMS_110
,每一次迭代中的请求次数为
Figure SMS_111
。D2D通信的环境状态数据由公式(1)至(3)表示:
Figure SMS_112
(1)
Figure SMS_113
(2)
Figure SMS_114
(3)
其中,
Figure SMS_132
表示迭代
Figure SMS_135
次的环境状态轨迹,即迭代
Figure SMS_137
次的环境状态数据;
Figure SMS_116
表示第
Figure SMS_120
次迭代时的环境状态数据;
Figure SMS_124
表示第
Figure SMS_128
次迭代时D2D网络请求第
Figure SMS_118
次后的环境状态数据;
Figure SMS_122
表示第
Figure SMS_126
次请求时第一用户设备
Figure SMS_130
的发射功率,是在用户设备
Figure SMS_133
Figure SMS_136
之间信道衰落下能够成功传输内容需要的最小传输功率,
Figure SMS_138
Figure SMS_139
表示第
Figure SMS_123
次请求内容的第一用户设备
Figure SMS_127
以及与其连接的第二用户设备
Figure SMS_131
的编号下标;
Figure SMS_134
Figure SMS_115
次请求时第一用户设备
Figure SMS_121
与第二用户设备
Figure SMS_125
之间的表示信道增益,指的是信道自身的传输能力,传输能力强弱与信道内的输入和输出没有关系,而是受时间和传输频率的变化而变化;
Figure SMS_129
表示第一用户设备
Figure SMS_117
与第二用户设备
Figure SMS_119
的距离。
智能体结合当前环境状态和策略来判定下一次执行的动作,在内容获取策略中动作表示用户设备选择的信道。第
Figure SMS_140
次迭代时的D2D网络动作空间
Figure SMS_141
,由公式(4)表示:
Figure SMS_142
(4)
其中,
Figure SMS_143
表示D2D网络请求
Figure SMS_144
次所构成的动作空间。
D2D缓存内容抓取策略第
Figure SMS_145
次迭代时D2D网络的奖励值
Figure SMS_146
,由公式(5)表示:
Figure SMS_147
(5)
其中,
Figure SMS_148
表示第
Figure SMS_149
次请求得到的奖励值。
奖励函数的目的是让整个学习过程的总奖励值达到最大,而不是使某一步动作的选择的奖励最大。在所述演员-评论家强化学习模型整个训练过程中,总奖励值的最大值为公式(6):
Figure SMS_150
(6)
其中,
Figure SMS_151
表示D2D网络第
Figure SMS_152
次请求时的长期收益折扣因子,为0到1间的常数。
公式(6)表明,演员评论家算法的目的是达到更大的奖励值总和。其中奖励值总和的提高是通过演员网络得到的奖励值反馈给评论家的值函数,值函数结合奖励值和状态评定演员网络该次动作选择的优劣。通过演员和评论家网络中的策略近似器和值函数共同作用,不断学习得到优化的动作概率空间。演员能够选择使网络吞吐量增大的信道相连接,从而提高奖励总值。
在多个用户间随机请求或发送内容的D2D网络中,如果多个用户同时向一个用户发出请求,就会产生传输碰撞而导致传输失败。
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
在本实施例中,每个智能体都包含自己的策略近似器
Figure SMS_153
,和值函数近似器
Figure SMS_154
。两者的协作同时解决了梯度全面更新的高延时难收敛以及连续空间难选择动作的问题。当用户设备
Figure SMS_155
请求的内容在多个用户设备内同时存有,策略近似器根据当前环境选择的动作
Figure SMS_156
,即为与存有目标内容的设备组中的哪一个设备建立D2D通信连接。而值函数近似器则是通过动作
Figure SMS_157
带给环境状态的变化得到奖励值,用奖励值更新动作
Figure SMS_158
发生的概率分布,奖励值由奖励函数计算得来。
动作
Figure SMS_159
是根据动作概率空间选择的,动作概率空间由公式(7)表示:
Figure SMS_160
(7)
其中,
Figure SMS_162
Figure SMS_165
表示第
Figure SMS_169
次请求内容的第一用户设备
Figure SMS_164
以及与其连接的第二用户设备
Figure SMS_167
的编号下标,
Figure SMS_171
表示第一用户设备
Figure SMS_174
请求的内容可以在第二用户设备
Figure SMS_161
内请求、且
Figure SMS_168
Figure SMS_172
的D2D通信范围内的概率,可以建立D2D通信则概率为1,否则为0;
Figure SMS_175
则根据策略近似器不断进行改进,本文设
Figure SMS_163
为用sigmoid函数处理后的信号与干扰加噪声比(Signal to Interference plus Noise Ratio,SINR)。SINR是指在通信的过程中设备接收到有用的信号强度与接收到的干扰信号强度的比值,第一用户设备
Figure SMS_166
与其连接的第二用户设备
Figure SMS_170
之间的SINR用
Figure SMS_173
表示,SINR数值越大说明通信网络的抗干扰能力更强;SINR通过设备的发射功率和信道增益计算。
所述演员-评论家强化学习模型采用双级策略,包括信道选择策略和发射功率选择策略;
所述动作是根据动作概率空间选择的,所述动作概率空间分为基于信道选择的动作概率空间和基于发射功率选择的动作概率空间,所述基于信道选择的动作概率空间
Figure SMS_176
为:
Figure SMS_177
(8)
所述基于发射功率选择的动作概率空间
Figure SMS_178
为:
Figure SMS_179
(9)
所述信号与干扰加噪声比通过设备的发射功率和信道增益计算,其计算公式为:
Figure SMS_180
(10)
其中,
Figure SMS_182
表示高斯白噪声,
Figure SMS_184
Figure SMS_186
分别表示第
Figure SMS_183
次请求时第一用户设备
Figure SMS_185
的发射功率、第
Figure SMS_187
次请求时第一用户设备
Figure SMS_188
与第二用户设备
Figure SMS_181
之间的信道增益。
步骤A300,基于所述环境状态数据、所述动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
在本实施例中,所述奖励函数先设为公式(11)如下:
Figure SMS_189
(11)
其中,
Figure SMS_190
表示第
Figure SMS_191
次请求得到的奖励值;
Figure SMS_192
表示负奖励的值,为大于等于0的常数。若成功建立连接则给予环境的正向奖励,用网络吞吐量计算。若没能成功连接则需要给出负奖励值,也可以看作是一种惩罚,每产生一次失败请求则给予
Figure SMS_193
的惩罚。智能体希望尽快地达到正奖励的状态,以此来使奖励值快速趋近正值。
所述奖励函数的两个约束条件如公式(12)所示:
Figure SMS_194
Figure SMS_195
(12)
其中,
Figure SMS_196
表示用户设备需要的最小信号与干扰加噪声比阈值,
Figure SMS_197
表示用户设备的最大发射功率。计算每一次迭代的奖励值时,设备发射功率要满足用户设备需要的最小阈值,且不能大于最大功率。
上述奖励函数仅考虑信道选择,接下来添加对设备发射功率级别的选择,采用双级策略进一步改进奖励函数,如公式(13)所示:
Figure SMS_198
(13)
正向奖励为连接成功的D2D通信用户设备对产生的吞吐量,负向惩罚为由于发生碰撞或者发射功率选择不合适的动作导致未能建立D2D通信的设备发送连接信号造成的资源浪费。
给改进奖励函数(13)中的正负奖励增添加权值
Figure SMS_199
Figure SMS_200
,可以用于平衡碰撞率和能耗间的相对重要性。如果应用场景需要低能耗,则增大β值比重,得到双级策略改进奖励函数,如公式(14)所示:
Figure SMS_201
(14)
其中,
Figure SMS_202
Figure SMS_203
均为0到1间的常数,且
Figure SMS_204
Figure SMS_205
的和为1;
Figure SMS_206
表示通信带宽;通过改变加权参数的大小控制正负奖励以实现不同的系统目标。
通过改变奖励函数等式(14)中的加权值,可以达到改变网络综合性能的目的。图4给出了几个典型的权重因子的平均功耗数据。随着负向奖励值
Figure SMS_207
变大,平均功耗会有一定的下降,并随着迭代次数的增长稳定在较低的水平。但是这会牺牲一定的D2D链路建立的成功率。在实际的网络优化中,可以根据用户的特征进行动态调整,实现对网络吞吐量和能耗的优化。
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过所述策略近似器,计算策略梯度值;
在本实施例中,评论家在神经网络中的作用即为给误差的计算提供估计的状态值来帮助训练,其输出是一个可以提供值函数估计的未被激活的单元。当计算奖励值后,根据当前环境状态数据
Figure SMS_208
来估计未来的奖励值
Figure SMS_209
的期望,所述策略评估值其计算方法为:
Figure SMS_210
(15)
其中,
Figure SMS_211
表示第
Figure SMS_212
次迭代时的策略评估值,
Figure SMS_213
表示每一个
Figure SMS_214
的折扣率,
Figure SMS_215
表示第
Figure SMS_216
次请求得到的奖励值,
Figure SMS_217
表示期望值。
用时间差分算法(Temporal-difference, TD)生成反映当前动作执行情况的误差,根据奖励值和策略评估值计算时间差分算法误差,其计算方法为:
Figure SMS_218
(16)
其中,
Figure SMS_219
表示时间差分算法误差,
Figure SMS_220
表示第
Figure SMS_221
次迭代时的策略评估值,是根据
Figure SMS_222
次迭代得到的环境状态数据
Figure SMS_223
作为第
Figure SMS_224
次迭代的环境状态数据
Figure SMS_225
来估算的。
结合时间差分算法误差和策略近似器计算策略梯度值,其计算方法为:
Figure SMS_226
(17)
其中,
Figure SMS_228
表示策略梯度值,
Figure SMS_230
表示策略近似器对其参数的梯度,
Figure SMS_234
表示第
Figure SMS_227
次迭代时第
Figure SMS_232
次请求时所构成的动作空间,
Figure SMS_235
表示第
Figure SMS_237
次迭代时D2D网络请求第
Figure SMS_229
次后的环境状态数据,
Figure SMS_231
表示第
Figure SMS_233
次迭代时第
Figure SMS_236
次请求时的时间差分算法误差。
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新;
在本实施例中,策略近似器和值函数的参数更新则是基于策略梯度法和时间差分算法误差使用梯度上升的方式实现的,预设策略参数
Figure SMS_238
,值函数参数
Figure SMS_239
;所述策略参数更新公式为:
Figure SMS_240
(18)
所述值函数参数更新公式为:
Figure SMS_241
(19)
其中
Figure SMS_243
为策略参数的学习率,
Figure SMS_246
表示时间差分算法误差,
Figure SMS_248
为值函数参数的学习率。这两组参数更新函数经过多次的迭代最终得到最大化的目标函数。
Figure SMS_244
表示第
Figure SMS_247
次迭代时请求第
Figure SMS_249
次后的策略参数,
Figure SMS_250
表示第
Figure SMS_242
次迭代时请求第
Figure SMS_245
次后的值函数参数。
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型。
在本实施例中,设学习迭代次数为
Figure SMS_251
,每一次迭代中的请求次数为
Figure SMS_252
2、基于强化学习框架的D2D边缘缓存网络能耗管理过程
步骤S100,获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;
步骤S200,基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备。
本发明第二实施例的一种基于强化学习框架的D2D边缘缓存网络能耗管理系统,如图5所示,包括:数据获取模块100、策略选择模块200;
所述数据获取模块100,配置为获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;
所述策略选择模块200,配置为基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备;
其中,所述演员-评论家强化学习模型包括策略近似器、值函数近似器;所述演员-评论家强化学习模型的训练方法为:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
步骤A300,基于所述环境状态数据、所述动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过策略近似器,计算策略梯度值;
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对策略近似器中的策略参数、值函数近似器中的值函数参数进行更新;
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的一种基于强化学习框架的D2D边缘缓存网络能耗管理系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适用于由处理器加载并实现上述的一种从低空间分辨率图像到高分辨率图像的MPI重建方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的一种从低空间分辨率图像到高分辨率图像的MPI重建方法。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (2)

1.一种基于强化学习框架的D2D边缘缓存网络能耗管理方法,应用于D2D通信网络,所述D2D通信网络为由基站和D2D用户设备组成的通信网络,其特征在于,该方法包括以下步骤:
步骤S100,获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;所述环境状态数据包括所述第一用户设备的发射功率、所述第一用户设备与各第二用户设备之间的信道增益、所述第一用户设备与各第二用户设备的距离;
步骤S200,基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备;
其中,所述演员-评论家强化学习模型包括策略近似器、值函数近似器;所述演员-评论家强化学习模型的训练方法为:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
设学习迭代次数为
Figure QLYQS_17
,每一次迭代中的请求次数为
Figure QLYQS_21
;所述环境状态数据表示为:
Figure QLYQS_24
Figure QLYQS_3
Figure QLYQS_6
;其中,
Figure QLYQS_10
表示迭代
Figure QLYQS_13
次的环境状态轨迹,即迭代
Figure QLYQS_4
次的环境状态数据;
Figure QLYQS_7
表示第
Figure QLYQS_11
次迭代时的环境状态数据;
Figure QLYQS_15
表示第
Figure QLYQS_19
次迭代时D2D网络请求第
Figure QLYQS_22
次后的环境状态数据;
Figure QLYQS_25
表示第
Figure QLYQS_27
次请求时第一用户设备
Figure QLYQS_20
的发射功率,
Figure QLYQS_23
Figure QLYQS_26
表示第
Figure QLYQS_28
次请求内容的第一用户设备
Figure QLYQS_1
以及与其连接的第二用户设备
Figure QLYQS_8
的编号下标;
Figure QLYQS_12
表示第
Figure QLYQS_16
次请求时第一用户设备
Figure QLYQS_2
与第二用户设备
Figure QLYQS_5
之间的信道增益,指的是信道自身的传输能力,因时间和传输频率的变化而变化;
Figure QLYQS_9
表示第一用户设备
Figure QLYQS_14
与第二用户设备
Figure QLYQS_18
的距离;
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
所述动作概率空间包括基于信道选择的动作概率空间和基于发射功率选择的动作概率空间;所述基于信道选择的动作概率空间
Figure QLYQS_30
为:
Figure QLYQS_33
;所述基于发射功率选择的动作概率空间
Figure QLYQS_37
为:
Figure QLYQS_31
;其中,
Figure QLYQS_35
表示第一用户设备
Figure QLYQS_39
请求的内容在第二用户设备
Figure QLYQS_41
内请求、且
Figure QLYQS_29
Figure QLYQS_34
的D2D通信范围内的概率;
Figure QLYQS_38
表示第一用户设备
Figure QLYQS_40
与连接的第二用户设备
Figure QLYQS_32
之间的信号与干扰加噪声比;
Figure QLYQS_36
表示用户设备需要的最小信号与干扰加噪声比阈值;
所述信号与干扰加噪声比是指在通信的过程中设备接收到有用的信号强度与接收到的干扰信号强度的比值;所述信号与干扰加噪声比通过设备的发射功率和信道增益计算,其计算方法为:
Figure QLYQS_44
;其中,
Figure QLYQS_47
表示高斯白噪声,
Figure QLYQS_49
Figure QLYQS_42
分别表示第
Figure QLYQS_46
次请求时第一用户设备
Figure QLYQS_48
的发射功率、第
Figure QLYQS_50
次请求时第一用户设备
Figure QLYQS_43
与第二用户设备
Figure QLYQS_45
之间的信道增益;
步骤A300,基于所述环境状态数据、所述动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值,其方法为:
Figure QLYQS_53
Figure QLYQS_56
任意nj;
Figure QLYQS_59
任意nj;其中,
Figure QLYQS_52
表示第
Figure QLYQS_55
次请求得到的奖励值;
Figure QLYQS_58
Figure QLYQS_61
均为0到1间的常数,且
Figure QLYQS_51
Figure QLYQS_54
的和为1;
Figure QLYQS_57
表示通信带宽;
Figure QLYQS_60
表示用户设备的最大发射功率;
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过所述策略近似器,计算策略梯度值;
所述策略评估值,其计算方法为:
Figure QLYQS_64
;其中,
Figure QLYQS_66
表示第
Figure QLYQS_68
次迭代时的策略评估值,
Figure QLYQS_63
表示每一个
Figure QLYQS_65
的折扣率,
Figure QLYQS_67
表示第
Figure QLYQS_69
次请求得到的奖励值,
Figure QLYQS_62
表示期望值;
所述时间差分算法误差,其计算方法为:
Figure QLYQS_71
;其中,
Figure QLYQS_73
表示时间差分算法误差,
Figure QLYQS_75
表示第
Figure QLYQS_72
次迭代时的策略评估值,是根据
Figure QLYQS_74
次迭代得到的环境状态数据
Figure QLYQS_76
作为第
Figure QLYQS_77
次迭代的环境状态数据
Figure QLYQS_70
来估算的;
所述策略梯度值,其计算方法为:
Figure QLYQS_79
;其中,
Figure QLYQS_83
表示策略梯度值,
Figure QLYQS_87
表示策略近似器对其参数的梯度,
Figure QLYQS_80
为策略近似器,
Figure QLYQS_82
表示第
Figure QLYQS_86
次迭代时第
Figure QLYQS_89
次请求时所构成的动作空间,
Figure QLYQS_78
表示第
Figure QLYQS_84
次迭代时D2D网络请求第
Figure QLYQS_88
次后的环境状态数据,
Figure QLYQS_90
表示第
Figure QLYQS_81
次迭代时第
Figure QLYQS_85
次请求时的时间差分算法误差;
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新;
对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新,其方法为:
预设策略参数
Figure QLYQS_91
,值函数参数
Figure QLYQS_92
所述策略参数更新公式为:
Figure QLYQS_94
;所述值函数参数更新公式为:
Figure QLYQS_96
;其中,
Figure QLYQS_99
为策略参数的学习率,
Figure QLYQS_95
为值函数参数的学习率,
Figure QLYQS_98
表示第
Figure QLYQS_101
次迭代时请求第
Figure QLYQS_102
次后的策略参数,
Figure QLYQS_93
表示第
Figure QLYQS_97
次迭代时请求第
Figure QLYQS_100
次后的值函数参数;
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型;
在所述演员-评论家强化学习模型整个训练过程中,总奖励值的最大值为:
Figure QLYQS_103
;其中,
Figure QLYQS_104
表示第
Figure QLYQS_105
次请求时的长期收益折扣因子。
2.一种基于强化学习框架的D2D边缘缓存网络能耗管理系统,应用于D2D通信网络,所述D2D通信网络为由基站和D2D用户设备组成的通信网络,其特征在于,该系统包括:数据获取模块100、策略选择模块200;
所述数据获取模块100,配置为获取第一用户设备、一或多个第二用户设备的环境状态数据,作为输入数据;所述第一用户设备为请求内容的D2D用户设备;所述第二用户设备为存储有第一用户设备请求内容的D2D用户设备;所述环境状态数据包括所述第一用户设备的发射功率、所述第一用户设备与各第二用户设备之间的信道增益、所述第一用户设备与各第二用户设备的距离;
所述策略选择模块200,配置为基于所述输入数据,通过训练好的演员-评论家强化学习模型中的策略近似器获取所述第一用户设备选择D2D通信的第二用户设备;
其中,所述演员-评论家强化学习模型包括策略近似器、值函数近似器;所述演员-评论家强化学习模型的训练方法为:
步骤A100,获取训练数据集;所述训练数据集中的训练数据包括第一用户设备、一或多个第二用户设备的环境状态数据;
设学习迭代次数为
Figure QLYQS_122
,每一次迭代中的请求次数为
Figure QLYQS_126
;所述环境状态数据表示为:
Figure QLYQS_129
Figure QLYQS_107
Figure QLYQS_113
;其中,
Figure QLYQS_117
表示迭代
Figure QLYQS_121
次的环境状态轨迹,即迭代
Figure QLYQS_108
次的环境状态数据;
Figure QLYQS_112
表示第
Figure QLYQS_116
次迭代时的环境状态数据;
Figure QLYQS_120
表示第
Figure QLYQS_109
次迭代时D2D网络请求第
Figure QLYQS_110
次后的环境状态数据;
Figure QLYQS_114
表示第
Figure QLYQS_118
次请求时第一用户设备
Figure QLYQS_123
的发射功率,
Figure QLYQS_127
Figure QLYQS_130
表示第
Figure QLYQS_132
次请求内容的第一用户设备
Figure QLYQS_106
以及与其连接的第二用户设备
Figure QLYQS_111
的编号下标;
Figure QLYQS_115
表示第
Figure QLYQS_119
次请求时第一用户设备
Figure QLYQS_124
与第二用户设备
Figure QLYQS_128
之间的信道增益,指的是信道自身的传输能力,因时间和传输频率的变化而变化;
Figure QLYQS_131
表示第一用户设备
Figure QLYQS_133
与第二用户设备
Figure QLYQS_125
的距离;
步骤A200,将所述环境状态数据输入预构建的演员-评论家强化学习模型的策略近似器的动作概率空间中,获取第一用户设备选择D2D通信的第二用户设备,即动作;
所述动作概率空间包括基于信道选择的动作概率空间和基于发射功率选择的动作概率空间;所述基于信道选择的动作概率空间
Figure QLYQS_135
为:
Figure QLYQS_139
;所述基于发射功率选择的动作概率空间
Figure QLYQS_143
为:
Figure QLYQS_137
;其中,
Figure QLYQS_138
表示第一用户设备
Figure QLYQS_142
请求的内容在第二用户设备
Figure QLYQS_145
内请求、且
Figure QLYQS_134
Figure QLYQS_140
的D2D通信范围内的概率;
Figure QLYQS_144
表示第一用户设备
Figure QLYQS_146
与连接的第二用户设备
Figure QLYQS_136
之间的信号与干扰加噪声比;
Figure QLYQS_141
表示用户设备需要的最小信号与干扰加噪声比阈值;
所述信号与干扰加噪声比是指在通信的过程中设备接收到有用的信号强度与接收到的干扰信号强度的比值;所述信号与干扰加噪声比通过设备的发射功率和信道增益计算,其计算方法为:
Figure QLYQS_148
;其中,
Figure QLYQS_152
表示高斯白噪声,
Figure QLYQS_154
Figure QLYQS_149
分别表示第
Figure QLYQS_150
次请求时第一用户设备
Figure QLYQS_153
的发射功率、第
Figure QLYQS_155
次请求时第一用户设备
Figure QLYQS_147
与第二用户设备
Figure QLYQS_151
之间的信道增益;
步骤A300,基于所述环境状态数据、动作,通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值;
通过所述值函数近似器中的双级策略改进奖励函数,得到奖励值,其方法为:
Figure QLYQS_157
Figure QLYQS_161
任意nj;
Figure QLYQS_164
任意nj;其中,
Figure QLYQS_158
表示第
Figure QLYQS_160
次请求得到的奖励值;
Figure QLYQS_163
Figure QLYQS_166
均为0到1间的常数,且
Figure QLYQS_156
Figure QLYQS_159
的和为1;
Figure QLYQS_162
表示通信带宽;
Figure QLYQS_165
表示用户设备的最大发射功率;
步骤A400,根据所述环境状态数据、所述奖励值,计算策略评估值;结合所述策略评估值、所述奖励值,计算时间差分算法误差,进而通过策略近似器,计算策略梯度值;
所述策略评估值,其计算方法为:
Figure QLYQS_168
;其中,
Figure QLYQS_170
表示第
Figure QLYQS_172
次迭代时的策略评估值,
Figure QLYQS_169
表示每一个
Figure QLYQS_171
的折扣率,
Figure QLYQS_173
表示第
Figure QLYQS_174
次请求得到的奖励值,
Figure QLYQS_167
表示期望值;
所述时间差分算法误差,其计算方法为:
Figure QLYQS_176
;其中,
Figure QLYQS_178
表示时间差分算法误差,
Figure QLYQS_180
表示第
Figure QLYQS_177
次迭代时的策略评估值,是根据
Figure QLYQS_179
次迭代得到的环境状态数据
Figure QLYQS_181
作为第
Figure QLYQS_182
次迭代的环境状态数据
Figure QLYQS_175
来估算的;
所述策略梯度值,其计算方法为:
Figure QLYQS_185
;其中,
Figure QLYQS_190
表示策略梯度值,
Figure QLYQS_193
表示策略近似器对其参数的梯度,
Figure QLYQS_186
为策略近似器,
Figure QLYQS_188
表示第
Figure QLYQS_191
次迭代时第
Figure QLYQS_194
次请求时所构成的动作空间,
Figure QLYQS_183
表示第
Figure QLYQS_189
次迭代时D2D网络请求第
Figure QLYQS_192
次后的环境状态数据,
Figure QLYQS_195
表示第
Figure QLYQS_184
次迭代时第
Figure QLYQS_187
次请求时的时间差分算法误差;
步骤A500,结合所述策略梯度值、所述策略评估值、所述时间差分算法误差,对策略近似器中的策略参数、值函数近似器中的值函数参数进行更新;
对所述策略近似器中的策略参数、所述值函数近似器中的值函数参数进行更新,其方法为:预设策略参数
Figure QLYQS_196
,值函数参数
Figure QLYQS_197
所述策略参数更新公式为:
Figure QLYQS_200
;所述值函数参数更新公式为:
Figure QLYQS_203
;其中,
Figure QLYQS_206
为策略参数的学习率,
Figure QLYQS_199
为值函数参数的学习率,
Figure QLYQS_201
表示第
Figure QLYQS_204
次迭代时请求第
Figure QLYQS_207
次后的策略参数,
Figure QLYQS_198
表示第
Figure QLYQS_202
次迭代时请求第
Figure QLYQS_205
次后的值函数参数;
步骤A600,循环步骤A100-A500,直至得到训练好的演员-评论家强化学习模型;
在所述演员-评论家强化学习模型整个训练过程中,总奖励值的最大值为:
Figure QLYQS_208
;其中,
Figure QLYQS_209
表示第
Figure QLYQS_210
次请求时的长期收益折扣因子。
CN202310050550.3A 2023-02-01 2023-02-01 基于强化学习框架的d2d边缘缓存网络能耗管理方法 Active CN115802465B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310050550.3A CN115802465B (zh) 2023-02-01 2023-02-01 基于强化学习框架的d2d边缘缓存网络能耗管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310050550.3A CN115802465B (zh) 2023-02-01 2023-02-01 基于强化学习框架的d2d边缘缓存网络能耗管理方法

Publications (2)

Publication Number Publication Date
CN115802465A CN115802465A (zh) 2023-03-14
CN115802465B true CN115802465B (zh) 2023-04-21

Family

ID=85429451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310050550.3A Active CN115802465B (zh) 2023-02-01 2023-02-01 基于强化学习框架的d2d边缘缓存网络能耗管理方法

Country Status (1)

Country Link
CN (1) CN115802465B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205791A (zh) * 2021-12-13 2022-03-18 西安电子科技大学 一种基于深度q学习的社交感知d2d协同缓存方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113574547B (zh) * 2019-03-20 2024-01-19 索尼集团公司 通过双演员评论家算法进行强化学习
CN113242568B (zh) * 2021-06-08 2022-05-03 重庆邮电大学 一种不确定网络环境中的任务卸载和资源分配方法
CN113435606A (zh) * 2021-07-01 2021-09-24 吉林大学 强化学习模型的优化方法、装置、存储介质及电子设备
CN113784410B (zh) * 2021-09-24 2022-09-23 吉林大学 基于强化学习td3算法的异构无线网络垂直切换方法
CN115277845B (zh) * 2022-07-22 2024-07-19 南京理工大学 基于多智能体近端策略的车联网分布式边缘缓存决策方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114205791A (zh) * 2021-12-13 2022-03-18 西安电子科技大学 一种基于深度q学习的社交感知d2d协同缓存方法

Also Published As

Publication number Publication date
CN115802465A (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN107766135B (zh) 移动朵云中基于粒子群和模拟退火优化的任务分配方法
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
Zhang et al. Energy-efficient mode selection and resource allocation for D2D-enabled heterogeneous networks: A deep reinforcement learning approach
CN109194763B (zh) 一种超密集网络中基于小型基站自组织协作的缓存方法
CN111405569A (zh) 基于深度强化学习的计算卸载和资源分配方法及装置
CN109600178B (zh) 一种边缘计算中能耗与时延和最小化的优化方法
CN110492955B (zh) 基于迁移学习策略的频谱预测切换方法
CN111565380B (zh) 车联网中基于noma-mec混合卸载方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
Feng et al. Energy-efficient user selection and resource allocation in mobile edge computing
CN116744311B (zh) 基于per-ddqn的用户组频谱接入方法
CN110191489A (zh) 一种超密集网络中基于强化学习的资源分配方法及装置
CN116634500A (zh) 基于超图匹配计算与通信容量增强的d2d计算卸载方法
Giri et al. Deep Q-learning based optimal resource allocation method for energy harvested cognitive radio networks
Di Pietro et al. An optimal low-complexity policy for cache-aided computation offloading
Li et al. Joint access point selection and resource allocation in MEC-assisted network: A reinforcement learning based approach
CN116828534B (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法
CN110177383B (zh) 移动边缘计算中基于任务调度和功率分配的效率优化方法
CN115802465B (zh) 基于强化学习框架的d2d边缘缓存网络能耗管理方法
Ye et al. Genetic spectrum assignment model with constraints in cognitive radio networks
CN107995034B (zh) 一种密集蜂窝网络能量与业务协作方法
Liu et al. Dynamic multiple access based on deep reinforcement learning for Internet of Things
Yan et al. Energy-Efficient Content Fetching Strategies in Cache-Enabled D2D Networks via an Actor-Critic Reinforcement Learning Structure
Yao et al. Attention cooperative task offloading and service caching in edge computing
Wu et al. NOMA-Enabled Multiuser Offloading in Multicell Edge Computing Networks: A Coalition Game Based Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant