CN114126021A - 一种基于深度强化学习的绿色认知无线电的功率分配方法 - Google Patents
一种基于深度强化学习的绿色认知无线电的功率分配方法 Download PDFInfo
- Publication number
- CN114126021A CN114126021A CN202111425954.3A CN202111425954A CN114126021A CN 114126021 A CN114126021 A CN 114126021A CN 202111425954 A CN202111425954 A CN 202111425954A CN 114126021 A CN114126021 A CN 114126021A
- Authority
- CN
- China
- Prior art keywords
- state
- power distribution
- cognitive radio
- energy
- time slot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001149 cognitive effect Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000002787 reinforcement Effects 0.000 title claims abstract description 13
- 230000009471 action Effects 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims abstract description 6
- 238000003306 harvesting Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 10
- 238000012546 transfer Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000007704 transition Effects 0.000 abstract 1
- 238000001228 spectrum Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/06—TPC algorithms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/38—TPC being performed in particular situations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Abstract
本发明涉及一种基于深度强化学习的绿色认知无线电的功率分配方法,首先建立功率分配模型,并按如下步骤对其进行训练:S1、初始化回合训练次数、记忆池的容量以及深度神经网络随机参数;S2、在每个回合开始时,初始化状态;S3、在每个回合的第t步,根据贪婪策略选择动作;S4、将动作输入到认知无线环境中,环境返回回报,更新电池可用能量,更新状态,并把状态转移存储到记忆池;S5、从记忆池中随机采样设定批量的状态转移,执行梯度下降步骤;然后通过训练好的功率分配模型进行功率分配。该方法有利于根据环境的变化做出最优的功率控制和分配。
Description
技术领域
本发明属于无线通信领域,具体涉及一种基于深度强化学习的绿色认知无线电的功率分配方法。
背景技术
无线通信业务的发展使得频谱资源愈发紧张,而现有的频谱利用效率却不高,这一矛盾很大程度归结为频谱的静态分配策略。从目前来看,这种固定的无线电频谱分配方式不能将频谱资源充分利用,因此考虑将认知无线电技术通过执行动态频谱接入,为无线设备提供灵活使用未授权频谱的能力,被广泛认为是解决频谱静态分配问题的可行方案。
一般来说,认知无线电网络有三种常用的DSA策略,分别为underlay、overlay和interweave。在底层频谱共享(underlay)模式中,SU与PU可以同时共用同一频谱,因此,SU不需要进行频谱感知操作,但为确保对PU造成的干扰在可容忍的范围内,引入了干扰温度的概念来确定主接收机(PR)的可容忍干扰水平。资源分配分为频谱分配和功率分配两类。
为了解决无线网络中传统电池寿命有限以及传统供电方式造成的环境污染问题,能量收集技术被提出来。区别于传统的电网供电认知无线电系统,能量收集认知无线电(EH-CRN)最大的特点就是所收集能量的不确定性。另外,对于无线通信的信道来说,它常常存在着各种衰落,这使得通信系统的信道参数处于随机变化状态。如果事先不知道所处环境,包括能量到达过程和信道变化过程,认知无线电系统就无法做出合理的功率分配以获得系统的最优性能。
发明内容
本发明的目的在于提供一种基于深度强化学习的绿色认知无线电的功率分配方法,该方法有利于根据环境的变化做出最优的功率控制和分配。
为实现上述目的,本发明采用的技术方案是:一种基于深度强化学习的绿色认知无线电的功率分配方法,首先建立功率分配模型,并按如下步骤对其进行训练:
S1、初始化回合训练次数N,记忆池D的容量以及深度神经网络随机参数θ0;
S2、在每个回合开始时,初始化状态s0;
S3、在每个回合的第t步,根据贪婪策略选择动作at;
其中,ωt表示第t个时隙的信道占用情况,Et表示第t个时隙电池收集到的能量,Bt表示第t个时隙电池的可用能量,和表示第t个时隙各链路的信道功率增益,γ为折扣因子,ε为概率阈值,A为可选动作集合,Q(sj+1,a′;θ′)表示参数为θ′的神经网络输出的下一个状态sj+1和动作a′对应的状态-动作函数值;
然后通过训练好的功率分配模型进行功率分配。
进一步地,所述步骤S4中,按如下方法更新状态、能量以及获取回报:
将动作at输入到认知无线环境中,环境返回回报rt,然后根据以下公式更新电池可用能量:
进一步地,所述步骤S5中,按如下方法更新神经网络参数:
从记忆池D中随机采样设定批量的样本(sj,aj,rj,sj+1),计算 进而计算损失函数L(θ)=E[(yj-Q(sj,aj;θ))2],再采用随机梯度下降法SGD更新参数来缩小L(θ),更新规则为其中α表示学习率,α∈(0,1),从而完成神经网络参数更新。
与现有技术相比,本发明具有以下有益效果:提供了一种基于深度强化学习的绿色认知无线电的功率分配方法,在信道占用情况随机变化的情况下,运用深度Q学习来解决认知无线电的功率最优分配问题。该方法通过利用深度Q网络对次用户发射功率进行控制,针对信道占用和空闲两种情况设置不同的奖励函数,智能体通过与环境交互,能够根据环境的变化做出最优功率控制,以使SU的和速率最大。
附图说明
图1为本发明实施例中在underlay模式下的能量收集认知无线电网络系统模型;
图2为本发明实施例中功率分配模型的训练流程;
图3为本发明实施例中在underlay模式下能量收集认知无线电网络模型下不同折扣因子γ对SU的平均和速率的影响;
图4为本发明实施例中在underlay模式下能量收集认知无线电网络模型下不同策略对SU的平均和速率的影响;
图5为本发明实施例中在underlay模式下能量收集认知无线电网络模型下不同电池容量对平均和速率的影响;
图6为本发明实施例中在underlay模式下能量收集认知无线电网络模型下PU处干扰门限PI对SU的平均和速率的影响。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,在underlay模式下的能量收集认知无线电网络系统模型包括三部分:认知无线电网络模型、信道模型和能量到达模型。其中PT为主发射机,ST为次发射机,PU为主用户,SU为次用户,PR为主无线电,SR为次无线电,假设每个时隙收集到的能量
在认知无线电网络模型中,SU从周围环境中收集能量并将其存储在一个容量有限的电池中。PU和SU以时隙方式运行,假设有N个时隙,每个时隙长度τ为1秒。在前M个时隙内,PU占用信道,主发射机(PT)在传输时隙以固定的发射功率Pp传输。此外,当PU和SU同时进行传输时,PU有一个干扰限制PI需要被满足,以确保SU的接入不会对PU的传输产生影响。在剩下的N-M个时隙内,信道空闲,次发射机(ST)根据当前信道状况调整传输策略。ST在每个时隙只能执行一种操作,收集能量或者以发射功率P进行自身的数据传输。
在信道模型中,PT-PR、PT-SR、ST-PR、ST-SR的信号链路为带有路径损耗的瑞利衰落信道,相应的信道功率增益gpp、gps、gsp、gss均服从i.i.d的单位均值指数分布。定义信道增益的有限集合gpp,gss∈H,gsp,gps∈Γ。假设各用户端的噪声设为均值为0,方差为σ2的循环对称复高斯变量;在一个时隙τ内,各链路的信道功率增益保持不变,在第t个时隙,从H集合中随机选取数值,从Γ集合中随机选取数值。定义一个指示函数ωt来表示当前时隙的信道占用情况:
在能量到达模型中,将能量收集过程建模为每个时隙具有独立同分布的能量到达模型。假设每个时隙收集到的能量服从0~Emax的均匀分布,即从有限集合 随机取值,Emax为每个时隙能收集的最大能量值。假设初始时刻收集的能量E0=0,ST处的电池初始可用能量为B0,最大容量为Bmax。在每个时隙的开始,电池的可用能量的大小取决于上一时隙ST收集或者消耗的能量大小,故定义一个指示函数It来表征ST进行收集或传输决策:
Bt表示在第t个时隙的开始时刻的电池可用能量,则在第t+1个时隙的开始时刻,电池的可用能量更新为:
ST可以使用的能量需要满足限制条件:
基于认知无线电网络系统模型,本发明的目标是在可用能量约束和最大干扰约束下,最大化ST在所有时隙的总速率。优化问题如下:
本发明将顺序决策问题公式化为马尔科夫决策过程(MDP)问题并解决。
如图2所示,本实施例提供了一种基于深度强化学习的绿色认知无线电的功率分配方法,首先建立功率分配模型,并按如下步骤对其进行训练:
S1、初始化回合训练次数N,记忆池D的容量以及深度神经网络随机参数θ0。
S3、一个回合有T个时隙,在第t个时隙内做以下操作:将当前状态st输入到神经网络中,输出多个状态-动作值Q;然后根据贪婪策略选择动作at:随机生成概率p,若p≤ε,则随机选择动作at,否则根据公式选择at;其中ST在第t个时隙采取的动作at由两个变量组成,即其中
将动作at输入到认知无线环境中,环境返回回报rt,然后根据以下公式更新电池可用能量:
其中,ωt表示第t个时隙的信道占用情况,Et表示第t个时隙电池收集到的能量,Bt表示第t个时隙电池的可用能量,和表示第t个时隙各链路的信道功率增益,γ为折扣因子,ε为概率阈值,A为可选动作集合,Q(sj+1,a′;θ′)表示参数为θ′的神经网络输出的下一个状态sj+1和动作a′对应的状态-动作函数值。具体为:
从记忆池D中随机取出小批量的样本(sj,aj,rj,sj+1),计算在当前状态为sj+1、动作为a′,神经网络参数为θ下对应的状态-动作函数值的标签值进而计算损失函数L(θ)=E[(yj-Q(sj,aj;θ))2],再采用随机梯度下降法(SGD)更新参数来缩小L(θ),更新规则为其中α表示学习率,α∈(0,1),决定了梯度下降算法更新的速度。从而完成神经网络参数更新。
通过训练好的功率分配模型进行功率分配。
通过以下仿真进一步说明本发明方法的可行性和有效性。
图3示出了在underlay模式下的能量收集认知无线电网络系统模型下不同折扣因子γ对SU的平均和速率的影响。当γ=0.99时,系统的性能最好。当γ取较小值时,SU和速率性能较差。折扣因子表示未来回报对当前回报的重要程度。γ越小,智能体越注重眼前收益,y越大,智能体往前考虑的步数越多,更加敢于探索环境从而获得更优的策略。因此,随着γ的增大,N个时隙内SU的总速率变大。
图4示出了在underlay模式下的能量收集认知无线电网络系统模型下不同策略对SU的平均和速率的影响。观察到本方法(DQN)优于其他方法,因为该方法可以适应动态变化的无线环境。随着时隙数的增多,offline policy方法会导致PU退出信道后,电池的能量不足,因此SU只能以较小发射功率进行数据传输,而本发明所提策略不受PU的影响,在每个时隙均能做出最优决策。另一方面,本方法采用贪婪机制选择最优动作,不仅可以搜索已经出现过的情况,还可以探索未出现的情况,因此,本方法的性能要优于随机动作选择策略。
图5示出了在underlay模式下的能量收集认知无线电网络系统模型下不同电池容量对平均和速率的影响。从图中可以看出,随着Bmax的增大,平均和速率也会增加,这是因为增大电池容量,SU会选择收集更多的能量以满足SU后续使用更大的发射功率传输数据。随着Bmax继续增大,SU学习到收集能量获得的奖励较小,因此会选择更多的时隙进行数据传输。因为收集的能量不再增加,所以发射功率趋于平稳,使得SU的平均和速率趋于稳定。
图6示出了在underlay模式下的能量收集认知无线电网络系统模型下PU处干扰门限PI对SU平均和速率的影响。随着PI增大,SU则可以更大的发射功率进行数据传输,因此SU的平均和速率会逐渐增大。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (5)
1.一种基于深度强化学习的绿色认知无线电的功率分配方法,其特征在于,首先建立功率分配模型,并按如下步骤对其进行训练:
S1、初始化回合训练次数N,记忆池D的容量以及深度神经网络随机参数θ0;
S2、在每个回合开始时,初始化状态s0;
S3、在每个回合的第t步,根据贪婪策略选择动作at;
其中,ωt表示第t个时隙的信道占用情况,Et表示第t个时隙电池收集到的能量,Bt表示第t个时隙电池的可用能量,表示第t个时隙次用户发射机ST到次用户接收机SR的信道功率增益,表示第t个时隙次用户发射机ST到主用户接收机PR的信道功率增益,表示第t个时隙主用户发射机PT到次用户接收机SR的信道功率增益,γ为折扣因子,ε为概率阈值,A为可选动作集合,Q(sj+1,a';θ')表示参数为θ'的神经网络输出的下一个状态sj+1和动作a'对应的状态-动作函数值;
然后通过训练好的功率分配模型进行功率分配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111425954.3A CN114126021B (zh) | 2021-11-26 | 2021-11-26 | 一种基于深度强化学习的绿色认知无线电的功率分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111425954.3A CN114126021B (zh) | 2021-11-26 | 2021-11-26 | 一种基于深度强化学习的绿色认知无线电的功率分配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114126021A true CN114126021A (zh) | 2022-03-01 |
CN114126021B CN114126021B (zh) | 2024-04-09 |
Family
ID=80370815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111425954.3A Active CN114126021B (zh) | 2021-11-26 | 2021-11-26 | 一种基于深度强化学习的绿色认知无线电的功率分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114126021B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114928549A (zh) * | 2022-04-20 | 2022-08-19 | 清华大学 | 基于强化学习的非授权频段的通信资源分配方法及装置 |
CN115766089A (zh) * | 2022-10-18 | 2023-03-07 | 福州大学 | 一种能量采集认知物联网络抗干扰最优传输方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2566273A1 (en) * | 2011-09-02 | 2013-03-06 | Université Libre de Bruxelles | Method for dynamically determining sensing time in cognitive radio network |
US8909950B1 (en) * | 2010-04-18 | 2014-12-09 | Aptima, Inc. | Systems and methods of power management |
CN106788810A (zh) * | 2016-12-12 | 2017-05-31 | 哈尔滨工程大学 | 一种绿色认知无线电的无线能量采集和分配方法 |
WO2018083532A1 (en) * | 2016-11-03 | 2018-05-11 | Deepmind Technologies Limited | Training action selection neural networks |
CN109039504A (zh) * | 2018-09-14 | 2018-12-18 | 重庆邮电大学 | 基于非正交多址接入的认知无线电能效功率分配方法 |
US20200134445A1 (en) * | 2018-10-31 | 2020-04-30 | Advanced Micro Devices, Inc. | Architecture for deep q learning |
US20200153535A1 (en) * | 2018-11-09 | 2020-05-14 | Bluecom Systems and Consulting LLC | Reinforcement learning based cognitive anti-jamming communications system and method |
CN111491358A (zh) * | 2020-04-23 | 2020-08-04 | 电子科技大学 | 基于能量采集的自适应调制和功率控制系统与优化方法 |
CN111885671A (zh) * | 2020-07-17 | 2020-11-03 | 燕山大学 | 一种基于深度强化学习的水下联合中继选择和功率分配方法 |
CN112367132A (zh) * | 2020-10-27 | 2021-02-12 | 西北工业大学 | 基于强化学习解决认知无线电中的功率分配算法 |
CN112383922A (zh) * | 2019-07-07 | 2021-02-19 | 东北大学秦皇岛分校 | 一种基于优先经验重放的深度强化学习频谱共享方法 |
CN113225794A (zh) * | 2021-04-29 | 2021-08-06 | 成都中科微信息技术研究院有限公司 | 一种基于深度强化学习的全双工认知通信功率控制方法 |
CN113395757A (zh) * | 2021-06-10 | 2021-09-14 | 中国人民解放军空军通信士官学校 | 基于改进回报函数的深度强化学习认知网络功率控制方法 |
CN113423110A (zh) * | 2021-06-22 | 2021-09-21 | 东南大学 | 基于深度强化学习的多用户多信道动态频谱接入方法 |
CN113691334A (zh) * | 2021-08-23 | 2021-11-23 | 广东工业大学 | 一种基于次用户群体协作的认知无线电动态功率分配方法 |
US20210368437A1 (en) * | 2020-05-25 | 2021-11-25 | Samsung Electronics Co., Ltd. | Method and apparatus for power control for network energy optimization |
-
2021
- 2021-11-26 CN CN202111425954.3A patent/CN114126021B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8909950B1 (en) * | 2010-04-18 | 2014-12-09 | Aptima, Inc. | Systems and methods of power management |
EP2566273A1 (en) * | 2011-09-02 | 2013-03-06 | Université Libre de Bruxelles | Method for dynamically determining sensing time in cognitive radio network |
WO2018083532A1 (en) * | 2016-11-03 | 2018-05-11 | Deepmind Technologies Limited | Training action selection neural networks |
CN106788810A (zh) * | 2016-12-12 | 2017-05-31 | 哈尔滨工程大学 | 一种绿色认知无线电的无线能量采集和分配方法 |
CN109039504A (zh) * | 2018-09-14 | 2018-12-18 | 重庆邮电大学 | 基于非正交多址接入的认知无线电能效功率分配方法 |
US20200134445A1 (en) * | 2018-10-31 | 2020-04-30 | Advanced Micro Devices, Inc. | Architecture for deep q learning |
US20200153535A1 (en) * | 2018-11-09 | 2020-05-14 | Bluecom Systems and Consulting LLC | Reinforcement learning based cognitive anti-jamming communications system and method |
CN112383922A (zh) * | 2019-07-07 | 2021-02-19 | 东北大学秦皇岛分校 | 一种基于优先经验重放的深度强化学习频谱共享方法 |
CN111491358A (zh) * | 2020-04-23 | 2020-08-04 | 电子科技大学 | 基于能量采集的自适应调制和功率控制系统与优化方法 |
US20210368437A1 (en) * | 2020-05-25 | 2021-11-25 | Samsung Electronics Co., Ltd. | Method and apparatus for power control for network energy optimization |
CN111885671A (zh) * | 2020-07-17 | 2020-11-03 | 燕山大学 | 一种基于深度强化学习的水下联合中继选择和功率分配方法 |
CN112367132A (zh) * | 2020-10-27 | 2021-02-12 | 西北工业大学 | 基于强化学习解决认知无线电中的功率分配算法 |
CN113225794A (zh) * | 2021-04-29 | 2021-08-06 | 成都中科微信息技术研究院有限公司 | 一种基于深度强化学习的全双工认知通信功率控制方法 |
CN113395757A (zh) * | 2021-06-10 | 2021-09-14 | 中国人民解放军空军通信士官学校 | 基于改进回报函数的深度强化学习认知网络功率控制方法 |
CN113423110A (zh) * | 2021-06-22 | 2021-09-21 | 东南大学 | 基于深度强化学习的多用户多信道动态频谱接入方法 |
CN113691334A (zh) * | 2021-08-23 | 2021-11-23 | 广东工业大学 | 一种基于次用户群体协作的认知无线电动态功率分配方法 |
Non-Patent Citations (5)
Title |
---|
HUAN XIE; RUIQUAN LIN; JUN WANG; MIN ZHANG; CHANGCHUN CHENG: "Power Allocation of Energy Harvesting Cognitive Radio Based on Deep Reinforcement Learning", 2021 5TH INTERNATIONAL CONFERENCE ON COMMUNICATION AND INFORMATION SYSTEMS (ICCIS), pages 1 - 5 * |
李孜恒;孟超;: "基于深度强化学习的无线网络资源分配算法", 通信技术, no. 08 * |
杨洁?;金光;朱家骅;: "基于深度强化学习的智能频谱分配策略研究", 数据通信, no. 03 * |
赵显煜; 王俊; 邢新华: "基于改进蚁群算法的认知无线电频谱分配的策略研究", 通信技术, no. 10 * |
陈前斌;管令进;李子煜;王兆堃;杨恒;唐伦;: "基于深度强化学习的异构云无线接入网自适应无线资源分配算法", 电子与信息学报, no. 06, 15 June 2020 (2020-06-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114928549A (zh) * | 2022-04-20 | 2022-08-19 | 清华大学 | 基于强化学习的非授权频段的通信资源分配方法及装置 |
CN115766089A (zh) * | 2022-10-18 | 2023-03-07 | 福州大学 | 一种能量采集认知物联网络抗干扰最优传输方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114126021B (zh) | 2024-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kwon et al. | Multiagent DDPG-based deep learning for smart ocean federated learning IoT networks | |
Ortiz et al. | Reinforcement learning for energy harvesting point-to-point communications | |
Li et al. | Competitive spectrum access in cognitive radio networks: Graphical game and learning | |
CN109600178B (zh) | 一种边缘计算中能耗与时延和最小化的优化方法 | |
CN114126021B (zh) | 一种基于深度强化学习的绿色认知无线电的功率分配方法 | |
Li et al. | Optimal power allocation for wireless sensor powered by dedicated RF energy source | |
CN113316154B (zh) | 一种授权和免授权d2d通信资源联合智能分配方法 | |
CN110519849B (zh) | 一种针对移动边缘计算的通信和计算资源联合分配方法 | |
Vu et al. | Multi-agent reinforcement learning for channel assignment and power allocation in platoon-based c-v2x systems | |
CN112153744B (zh) | 一种icv网络中物理层安全资源分配方法 | |
CN104168661A (zh) | 一种满足公平性条件的最大化网络生存期传输调度方法 | |
CN105792218A (zh) | 具有射频能量收集能力的认知无线电网络的优化方法 | |
Zhong et al. | Joint optimal energy-efficient cooperative spectrum sensing and transmission in cognitive radio | |
CN115866787A (zh) | 融合终端直传通信和多接入边缘计算的网络资源分配方法 | |
CN111132348A (zh) | 移动边缘计算的资源调度方法及移动边缘计算系统 | |
CN114501667A (zh) | 一种考虑业务优先级的多信道接入建模及分布式实现方法 | |
CN117119486B (zh) | 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法 | |
Azoulay et al. | Transmission power control using deep neural networks in TDMA-based ad-hoc network clusters | |
CN103249050B (zh) | 基于业务需求的多尺度频谱接入方法 | |
Tan et al. | A hybrid architecture of cognitive decision engine based on particle swarm optimization algorithms and case database | |
Bhattarai et al. | Improved bandwidth allocation in Cognitive Radio Networks based on game theory | |
Saied et al. | Resource management based on reinforcement learning for D2D communication in cellular networks | |
Xu et al. | Q‐Learning Based Interference‐Aware Channel Handoff for Partially Observable Cognitive Radio Ad Hoc Networks | |
Peng et al. | Interval type-2 fuzzy logic based radio resource management in multi-radio WSNs | |
Tashman et al. | Performance Optimization of Energy-Harvesting Underlay Cognitive Radio Networks Using Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |