CN114126021A - 一种基于深度强化学习的绿色认知无线电的功率分配方法 - Google Patents

一种基于深度强化学习的绿色认知无线电的功率分配方法 Download PDF

Info

Publication number
CN114126021A
CN114126021A CN202111425954.3A CN202111425954A CN114126021A CN 114126021 A CN114126021 A CN 114126021A CN 202111425954 A CN202111425954 A CN 202111425954A CN 114126021 A CN114126021 A CN 114126021A
Authority
CN
China
Prior art keywords
state
power distribution
cognitive radio
energy
time slot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111425954.3A
Other languages
English (en)
Other versions
CN114126021B (zh
Inventor
林瑞全
丘航丁
王俊
谢欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202111425954.3A priority Critical patent/CN114126021B/zh
Publication of CN114126021A publication Critical patent/CN114126021A/zh
Application granted granted Critical
Publication of CN114126021B publication Critical patent/CN114126021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/06TPC algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/38TPC being performed in particular situations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Abstract

本发明涉及一种基于深度强化学习的绿色认知无线电的功率分配方法,首先建立功率分配模型,并按如下步骤对其进行训练:S1、初始化回合训练次数、记忆池的容量以及深度神经网络随机参数;S2、在每个回合开始时,初始化状态;S3、在每个回合的第t步,根据贪婪策略选择动作;S4、将动作输入到认知无线环境中,环境返回回报,更新电池可用能量,更新状态,并把状态转移存储到记忆池;S5、从记忆池中随机采样设定批量的状态转移,执行梯度下降步骤;然后通过训练好的功率分配模型进行功率分配。该方法有利于根据环境的变化做出最优的功率控制和分配。

Description

一种基于深度强化学习的绿色认知无线电的功率分配方法
技术领域
本发明属于无线通信领域,具体涉及一种基于深度强化学习的绿色认知无线电的功率分配方法。
背景技术
无线通信业务的发展使得频谱资源愈发紧张,而现有的频谱利用效率却不高,这一矛盾很大程度归结为频谱的静态分配策略。从目前来看,这种固定的无线电频谱分配方式不能将频谱资源充分利用,因此考虑将认知无线电技术通过执行动态频谱接入,为无线设备提供灵活使用未授权频谱的能力,被广泛认为是解决频谱静态分配问题的可行方案。
一般来说,认知无线电网络有三种常用的DSA策略,分别为underlay、overlay和interweave。在底层频谱共享(underlay)模式中,SU与PU可以同时共用同一频谱,因此,SU不需要进行频谱感知操作,但为确保对PU造成的干扰在可容忍的范围内,引入了干扰温度的概念来确定主接收机(PR)的可容忍干扰水平。资源分配分为频谱分配和功率分配两类。
为了解决无线网络中传统电池寿命有限以及传统供电方式造成的环境污染问题,能量收集技术被提出来。区别于传统的电网供电认知无线电系统,能量收集认知无线电(EH-CRN)最大的特点就是所收集能量的不确定性。另外,对于无线通信的信道来说,它常常存在着各种衰落,这使得通信系统的信道参数处于随机变化状态。如果事先不知道所处环境,包括能量到达过程和信道变化过程,认知无线电系统就无法做出合理的功率分配以获得系统的最优性能。
发明内容
本发明的目的在于提供一种基于深度强化学习的绿色认知无线电的功率分配方法,该方法有利于根据环境的变化做出最优的功率控制和分配。
为实现上述目的,本发明采用的技术方案是:一种基于深度强化学习的绿色认知无线电的功率分配方法,首先建立功率分配模型,并按如下步骤对其进行训练:
S1、初始化回合训练次数N,记忆池D的容量以及深度神经网络随机参数θ0
S2、在每个回合开始时,初始化状态s0
S3、在每个回合的第t步,根据贪婪策略选择动作at
S4、将动作at输入到认知无线环境中,环境返回回报rt,更新电池可用能量Bt,更新状态
Figure BDA0003378449620000021
并把状态转移(st,at,rt,st+1)存储到记忆池D;
S5、从记忆池D中随机采样设定批量的(sj,aj,rj,sj+1),计算
Figure BDA0003378449620000022
Figure BDA0003378449620000023
以(yj-Q(sj,aj;θ))2执行梯度下降步骤;
其中,ωt表示第t个时隙的信道占用情况,Et表示第t个时隙电池收集到的能量,Bt表示第t个时隙电池的可用能量,
Figure BDA0003378449620000024
Figure BDA0003378449620000025
表示第t个时隙各链路的信道功率增益,γ为折扣因子,ε为概率阈值,A为可选动作集合,Q(sj+1,a′;θ′)表示参数为θ′的神经网络输出的下一个状态sj+1和动作a′对应的状态-动作函数值;
然后通过训练好的功率分配模型进行功率分配。
进一步地,所述步骤S2中,在每个回合开始时,初始化状态
Figure BDA0003378449620000026
Figure BDA0003378449620000027
其中ω0表示当前时隙的信道占用情况,E0表示初始时刻收集到的能量,B0表示初始时刻的可用能量,
Figure BDA0003378449620000028
Figure BDA0003378449620000029
表示各链路的信道功率增益。
进一步地,所述步骤S3中,在每个回合的第t步,根据贪婪策略选择动作at的具体方法为:随机生成概率p,若p≤ε,则随机选择动作at,否则根据公式
Figure BDA00033784496200000210
Figure BDA00033784496200000211
选择at
进一步地,所述步骤S4中,按如下方法更新状态、能量以及获取回报:
将动作at输入到认知无线环境中,环境返回回报rt,然后根据以下公式更新电池可用能量:
Figure BDA00033784496200000212
其中,Bmax为电池的最大容量,It=1时表示第t个时隙进行能量采集,It=0时表示第t个时隙传输数据;然后更新状态
Figure BDA00033784496200000213
并把状态转移(st,at,rt,st+1)存储到记忆池D;相关参数的定义如下:
Figure BDA0003378449620000031
Figure BDA0003378449620000032
Figure BDA0003378449620000033
Figure BDA0003378449620000034
Figure BDA0003378449620000035
进一步地,所述步骤S5中,按如下方法更新神经网络参数:
从记忆池D中随机采样设定批量的样本(sj,aj,rj,sj+1),计算
Figure BDA0003378449620000036
Figure BDA0003378449620000037
进而计算损失函数L(θ)=E[(yj-Q(sj,aj;θ))2],再采用随机梯度下降法SGD更新参数来缩小L(θ),更新规则为
Figure BDA0003378449620000038
其中α表示学习率,α∈(0,1),从而完成神经网络参数更新。
与现有技术相比,本发明具有以下有益效果:提供了一种基于深度强化学习的绿色认知无线电的功率分配方法,在信道占用情况随机变化的情况下,运用深度Q学习来解决认知无线电的功率最优分配问题。该方法通过利用深度Q网络对次用户发射功率进行控制,针对信道占用和空闲两种情况设置不同的奖励函数,智能体通过与环境交互,能够根据环境的变化做出最优功率控制,以使SU的和速率最大。
附图说明
图1为本发明实施例中在underlay模式下的能量收集认知无线电网络系统模型;
图2为本发明实施例中功率分配模型的训练流程;
图3为本发明实施例中在underlay模式下能量收集认知无线电网络模型下不同折扣因子γ对SU的平均和速率的影响;
图4为本发明实施例中在underlay模式下能量收集认知无线电网络模型下不同策略对SU的平均和速率的影响;
图5为本发明实施例中在underlay模式下能量收集认知无线电网络模型下不同电池容量对平均和速率的影响;
图6为本发明实施例中在underlay模式下能量收集认知无线电网络模型下PU处干扰门限PI对SU的平均和速率的影响。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,在underlay模式下的能量收集认知无线电网络系统模型包括三部分:认知无线电网络模型、信道模型和能量到达模型。其中PT为主发射机,ST为次发射机,PU为主用户,SU为次用户,PR为主无线电,SR为次无线电,假设每个时隙收集到的能量
Figure BDA0003378449620000041
在认知无线电网络模型中,SU从周围环境中收集能量并将其存储在一个容量有限的电池中。PU和SU以时隙方式运行,假设有N个时隙,每个时隙长度τ为1秒。在前M个时隙内,PU占用信道,主发射机(PT)在传输时隙以固定的发射功率Pp传输。此外,当PU和SU同时进行传输时,PU有一个干扰限制PI需要被满足,以确保SU的接入不会对PU的传输产生影响。在剩下的N-M个时隙内,信道空闲,次发射机(ST)根据当前信道状况调整传输策略。ST在每个时隙只能执行一种操作,收集能量或者以发射功率
Figure BDA0003378449620000042
P进行自身的数据传输。
在信道模型中,PT-PR、PT-SR、ST-PR、ST-SR的信号链路为带有路径损耗的瑞利衰落信道,相应的信道功率增益gpp、gps、gsp、gss均服从i.i.d的单位均值指数分布。定义信道增益的有限集合
Figure BDA0003378449620000043
gpp,gss∈H,gsp,gps∈Γ。假设各用户端的噪声设为均值为0,方差为σ2的循环对称复高斯变量;在一个时隙τ内,各链路的信道功率增益保持不变,在第t个时隙,
Figure BDA0003378449620000044
从H集合中随机选取数值,
Figure BDA0003378449620000045
从Γ集合中随机选取数值。定义一个指示函数ωt来表示当前时隙的信道占用情况:
Figure BDA0003378449620000051
在第t个时隙,SU的瞬时可达速率
Figure BDA0003378449620000052
其中当ωt=0时,ST的瞬时可达速率为:
Figure BDA0003378449620000053
当ωt=1时,ST的瞬时可达速率
Figure BDA0003378449620000054
Figure BDA0003378449620000055
在能量到达模型中,将能量收集过程建模为每个时隙具有独立同分布的能量到达模型。假设每个时隙收集到的能量
Figure BDA0003378449620000056
服从0~Emax的均匀分布,即
Figure BDA0003378449620000057
从有限集合
Figure BDA0003378449620000058
Figure BDA0003378449620000059
随机取值,Emax为每个时隙能收集的最大能量值。假设初始时刻收集的能量E0=0,ST处的电池初始可用能量为B0,最大容量为Bmax。在每个时隙的开始,电池的可用能量的大小取决于上一时隙ST收集或者消耗的能量大小,故定义一个指示函数It来表征ST进行收集或传输决策:
Figure BDA00033784496200000510
Bt表示在第t个时隙的开始时刻的电池可用能量,则在第t+1个时隙的开始时刻,电池的可用能量更新为:
Figure BDA00033784496200000511
ST可以使用的能量需要满足限制条件:
Figure BDA00033784496200000512
Figure BDA00033784496200000513
基于认知无线电网络系统模型,本发明的目标是在可用能量约束和最大干扰约束下,最大化ST在所有时隙的总速率。优化问题如下:
Figure BDA00033784496200000514
Figure BDA00033784496200000515
Figure BDA00033784496200000516
Figure BDA00033784496200000517
Figure BDA00033784496200000518
Figure BDA0003378449620000061
Figure BDA0003378449620000062
本发明将顺序决策问题公式化为马尔科夫决策过程(MDP)问题并解决。
如图2所示,本实施例提供了一种基于深度强化学习的绿色认知无线电的功率分配方法,首先建立功率分配模型,并按如下步骤对其进行训练:
S1、初始化回合训练次数N,记忆池D的容量以及深度神经网络随机参数θ0
S2、在每个回合开始时,初始化状态
Figure BDA0003378449620000063
其中ω0表示当前时隙的信道占用情况,E0表示初始时刻收集到的能量,B0表示初始时刻的可用能量,
Figure BDA0003378449620000064
Figure BDA0003378449620000065
表示各链路的信道功率增益。
S3、一个回合有T个时隙,在第t个时隙内做以下操作:将当前状态st输入到神经网络中,输出多个状态-动作值Q;然后根据贪婪策略选择动作at:随机生成概率p,若p≤ε,则随机选择动作at,否则根据公式
Figure BDA0003378449620000066
选择at;其中ST在第t个时隙采取的动作at由两个变量组成,即
Figure BDA0003378449620000067
其中
Figure BDA0003378449620000068
S4、将动作at输入到认知无线环境中,环境返回回报rt,更新电池可用能量Bt,更新状态
Figure BDA0003378449620000069
并把状态转移(st,at,rt,st+1)存储到记忆池D。具体为:
将动作at输入到认知无线环境中,环境返回回报rt,然后根据以下公式更新电池可用能量:
Figure BDA00033784496200000610
其中,Bmax为电池的最大容量,It=1时表示第t个时隙进行能量采集,It=0时表示第t个时隙传输数据;然后更新状态
Figure BDA00033784496200000611
并把状态转移(st,at,rt,st+1)存储到记忆池D;相关参数的定义如下:
Figure BDA00033784496200000612
Figure BDA00033784496200000613
Figure BDA0003378449620000071
Figure BDA0003378449620000072
Figure BDA0003378449620000073
S5、从记忆池D中随机采样小批量的(sj,aj,rj,sj+1),计算
Figure BDA0003378449620000074
Figure BDA0003378449620000075
以(yj-Q(sj,aj;θ))2执行梯度下降步骤。
其中,ωt表示第t个时隙的信道占用情况,Et表示第t个时隙电池收集到的能量,Bt表示第t个时隙电池的可用能量,
Figure BDA0003378449620000076
Figure BDA0003378449620000077
表示第t个时隙各链路的信道功率增益,γ为折扣因子,ε为概率阈值,A为可选动作集合,Q(sj+1,a′;θ′)表示参数为θ′的神经网络输出的下一个状态sj+1和动作a′对应的状态-动作函数值。具体为:
从记忆池D中随机取出小批量的样本(sj,aj,rj,sj+1),计算在当前状态为sj+1、动作为a′,神经网络参数为θ下对应的状态-动作函数值的标签值
Figure BDA0003378449620000078
进而计算损失函数L(θ)=E[(yj-Q(sj,aj;θ))2],再采用随机梯度下降法(SGD)更新参数来缩小L(θ),更新规则为
Figure BDA0003378449620000079
其中α表示学习率,α∈(0,1),决定了梯度下降算法更新的速度。从而完成神经网络参数更新。
通过训练好的功率分配模型进行功率分配。
通过以下仿真进一步说明本发明方法的可行性和有效性。
图3示出了在underlay模式下的能量收集认知无线电网络系统模型下不同折扣因子γ对SU的平均和速率的影响。当γ=0.99时,系统的性能最好。当γ取较小值时,SU和速率性能较差。折扣因子表示未来回报对当前回报的重要程度。γ越小,智能体越注重眼前收益,y越大,智能体往前考虑的步数越多,更加敢于探索环境从而获得更优的策略。因此,随着γ的增大,N个时隙内SU的总速率变大。
图4示出了在underlay模式下的能量收集认知无线电网络系统模型下不同策略对SU的平均和速率的影响。观察到本方法(DQN)优于其他方法,因为该方法可以适应动态变化的无线环境。随着时隙数的增多,offline policy方法会导致PU退出信道后,电池的能量不足,因此SU只能以较小发射功率进行数据传输,而本发明所提策略不受PU的影响,在每个时隙均能做出最优决策。另一方面,本方法采用贪婪机制选择最优动作,不仅可以搜索已经出现过的情况,还可以探索未出现的情况,因此,本方法的性能要优于随机动作选择策略。
图5示出了在underlay模式下的能量收集认知无线电网络系统模型下不同电池容量对平均和速率的影响。从图中可以看出,随着Bmax的增大,平均和速率也会增加,这是因为增大电池容量,SU会选择收集更多的能量以满足SU后续使用更大的发射功率传输数据。随着Bmax继续增大,SU学习到收集能量获得的奖励较小,因此会选择更多的时隙进行数据传输。因为收集的能量不再增加,所以发射功率趋于平稳,使得SU的平均和速率趋于稳定。
图6示出了在underlay模式下的能量收集认知无线电网络系统模型下PU处干扰门限PI对SU平均和速率的影响。随着PI增大,SU则可以更大的发射功率进行数据传输,因此SU的平均和速率会逐渐增大。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (5)

1.一种基于深度强化学习的绿色认知无线电的功率分配方法,其特征在于,首先建立功率分配模型,并按如下步骤对其进行训练:
S1、初始化回合训练次数N,记忆池D的容量以及深度神经网络随机参数θ0
S2、在每个回合开始时,初始化状态s0
S3、在每个回合的第t步,根据贪婪策略选择动作at
S4、将动作at输入到认知无线环境中,环境返回回报rt,更新电池可用能量Bt,更新状态
Figure FDA0003378449610000011
并把状态转移(st,at,rt,st+1)存储到记忆池D;
S5、从记忆池D中随机采样设定批量的(sj,aj,rj,sj+1),计算
Figure FDA0003378449610000012
Figure FDA0003378449610000013
以(yj-Q(sj,aj;θ))2执行梯度下降步骤;
其中,ωt表示第t个时隙的信道占用情况,Et表示第t个时隙电池收集到的能量,Bt表示第t个时隙电池的可用能量,
Figure FDA0003378449610000014
表示第t个时隙次用户发射机ST到次用户接收机SR的信道功率增益,
Figure FDA0003378449610000015
表示第t个时隙次用户发射机ST到主用户接收机PR的信道功率增益,
Figure FDA0003378449610000016
表示第t个时隙主用户发射机PT到次用户接收机SR的信道功率增益,γ为折扣因子,ε为概率阈值,A为可选动作集合,Q(sj+1,a';θ')表示参数为θ'的神经网络输出的下一个状态sj+1和动作a'对应的状态-动作函数值;
然后通过训练好的功率分配模型进行功率分配。
2.根据权利要求1所述的一种基于深度强化学习的绿色认知无线电的功率分配方法,其特征在于,所述步骤S2中,在每个回合开始时,初始化状态
Figure FDA0003378449610000017
Figure FDA0003378449610000018
其中ω0表示当前时隙的信道占用情况,E0表示初始时刻收集到的能量,B0表示初始时刻的可用能量,
Figure FDA0003378449610000019
Figure FDA00033784496100000110
表示各链路的信道功率增益。
3.根据权利要求1所述的一种基于深度强化学习的绿色认知无线电的功率分配方法,其特征在于,所述步骤S3中,在每个回合的第t步,根据贪婪策略选择动作at的具体方法为:随机生成概率p,若p≤ε,则随机选择动作at,否则根据公式
Figure FDA00033784496100000111
Figure FDA00033784496100000112
选择at
4.根据权利要求1所述的一种基于深度强化学习的绿色认知无线电的功率分配方法,其特征在于,所述步骤S4中,按如下方法更新状态、能量以及获取回报:
将动作at输入到认知无线环境中,环境返回回报rt,然后根据以下公式更新电池可用能量:
Figure FDA0003378449610000021
其中,Bmax为电池的最大容量,It=1时表示第t个时隙进行能量采集,It=0时表示第t个时隙传输数据;然后更新状态
Figure FDA0003378449610000022
并把状态转移(st,at,rt,st+1)存储到记忆池D;相关参数的定义如下:
Figure FDA0003378449610000023
Figure FDA0003378449610000024
Figure FDA0003378449610000025
Figure FDA0003378449610000026
Figure FDA0003378449610000027
5.根据权利要求1所述的一种基于深度强化学习的绿色认知无线电的功率分配方法,其特征在于,所述步骤S5中,按如下方法更新神经网络参数:
从记忆池D中随机采样设定批量的样本(sj,aj,rj,sj+1),计算
Figure FDA0003378449610000028
Figure FDA0003378449610000029
进而计算损失函数L(θ)=E[(yj-Q(sj,aj;θ))2],再采用随机梯度下降法SGD更新参数来缩小L(θ),更新规则为
Figure FDA00033784496100000210
其中α表示学习率,α∈(0,1),从而完成神经网络参数更新。
CN202111425954.3A 2021-11-26 2021-11-26 一种基于深度强化学习的绿色认知无线电的功率分配方法 Active CN114126021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111425954.3A CN114126021B (zh) 2021-11-26 2021-11-26 一种基于深度强化学习的绿色认知无线电的功率分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111425954.3A CN114126021B (zh) 2021-11-26 2021-11-26 一种基于深度强化学习的绿色认知无线电的功率分配方法

Publications (2)

Publication Number Publication Date
CN114126021A true CN114126021A (zh) 2022-03-01
CN114126021B CN114126021B (zh) 2024-04-09

Family

ID=80370815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111425954.3A Active CN114126021B (zh) 2021-11-26 2021-11-26 一种基于深度强化学习的绿色认知无线电的功率分配方法

Country Status (1)

Country Link
CN (1) CN114126021B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114928549A (zh) * 2022-04-20 2022-08-19 清华大学 基于强化学习的非授权频段的通信资源分配方法及装置
CN115766089A (zh) * 2022-10-18 2023-03-07 福州大学 一种能量采集认知物联网络抗干扰最优传输方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2566273A1 (en) * 2011-09-02 2013-03-06 Université Libre de Bruxelles Method for dynamically determining sensing time in cognitive radio network
US8909950B1 (en) * 2010-04-18 2014-12-09 Aptima, Inc. Systems and methods of power management
CN106788810A (zh) * 2016-12-12 2017-05-31 哈尔滨工程大学 一种绿色认知无线电的无线能量采集和分配方法
WO2018083532A1 (en) * 2016-11-03 2018-05-11 Deepmind Technologies Limited Training action selection neural networks
CN109039504A (zh) * 2018-09-14 2018-12-18 重庆邮电大学 基于非正交多址接入的认知无线电能效功率分配方法
US20200134445A1 (en) * 2018-10-31 2020-04-30 Advanced Micro Devices, Inc. Architecture for deep q learning
US20200153535A1 (en) * 2018-11-09 2020-05-14 Bluecom Systems and Consulting LLC Reinforcement learning based cognitive anti-jamming communications system and method
CN111491358A (zh) * 2020-04-23 2020-08-04 电子科技大学 基于能量采集的自适应调制和功率控制系统与优化方法
CN111885671A (zh) * 2020-07-17 2020-11-03 燕山大学 一种基于深度强化学习的水下联合中继选择和功率分配方法
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法
CN113225794A (zh) * 2021-04-29 2021-08-06 成都中科微信息技术研究院有限公司 一种基于深度强化学习的全双工认知通信功率控制方法
CN113395757A (zh) * 2021-06-10 2021-09-14 中国人民解放军空军通信士官学校 基于改进回报函数的深度强化学习认知网络功率控制方法
CN113423110A (zh) * 2021-06-22 2021-09-21 东南大学 基于深度强化学习的多用户多信道动态频谱接入方法
CN113691334A (zh) * 2021-08-23 2021-11-23 广东工业大学 一种基于次用户群体协作的认知无线电动态功率分配方法
US20210368437A1 (en) * 2020-05-25 2021-11-25 Samsung Electronics Co., Ltd. Method and apparatus for power control for network energy optimization

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8909950B1 (en) * 2010-04-18 2014-12-09 Aptima, Inc. Systems and methods of power management
EP2566273A1 (en) * 2011-09-02 2013-03-06 Université Libre de Bruxelles Method for dynamically determining sensing time in cognitive radio network
WO2018083532A1 (en) * 2016-11-03 2018-05-11 Deepmind Technologies Limited Training action selection neural networks
CN106788810A (zh) * 2016-12-12 2017-05-31 哈尔滨工程大学 一种绿色认知无线电的无线能量采集和分配方法
CN109039504A (zh) * 2018-09-14 2018-12-18 重庆邮电大学 基于非正交多址接入的认知无线电能效功率分配方法
US20200134445A1 (en) * 2018-10-31 2020-04-30 Advanced Micro Devices, Inc. Architecture for deep q learning
US20200153535A1 (en) * 2018-11-09 2020-05-14 Bluecom Systems and Consulting LLC Reinforcement learning based cognitive anti-jamming communications system and method
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法
CN111491358A (zh) * 2020-04-23 2020-08-04 电子科技大学 基于能量采集的自适应调制和功率控制系统与优化方法
US20210368437A1 (en) * 2020-05-25 2021-11-25 Samsung Electronics Co., Ltd. Method and apparatus for power control for network energy optimization
CN111885671A (zh) * 2020-07-17 2020-11-03 燕山大学 一种基于深度强化学习的水下联合中继选择和功率分配方法
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN113225794A (zh) * 2021-04-29 2021-08-06 成都中科微信息技术研究院有限公司 一种基于深度强化学习的全双工认知通信功率控制方法
CN113395757A (zh) * 2021-06-10 2021-09-14 中国人民解放军空军通信士官学校 基于改进回报函数的深度强化学习认知网络功率控制方法
CN113423110A (zh) * 2021-06-22 2021-09-21 东南大学 基于深度强化学习的多用户多信道动态频谱接入方法
CN113691334A (zh) * 2021-08-23 2021-11-23 广东工业大学 一种基于次用户群体协作的认知无线电动态功率分配方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HUAN XIE; RUIQUAN LIN; JUN WANG; MIN ZHANG; CHANGCHUN CHENG: "Power Allocation of Energy Harvesting Cognitive Radio Based on Deep Reinforcement Learning", 2021 5TH INTERNATIONAL CONFERENCE ON COMMUNICATION AND INFORMATION SYSTEMS (ICCIS), pages 1 - 5 *
李孜恒;孟超;: "基于深度强化学习的无线网络资源分配算法", 通信技术, no. 08 *
杨洁?;金光;朱家骅;: "基于深度强化学习的智能频谱分配策略研究", 数据通信, no. 03 *
赵显煜; 王俊; 邢新华: "基于改进蚁群算法的认知无线电频谱分配的策略研究", 通信技术, no. 10 *
陈前斌;管令进;李子煜;王兆堃;杨恒;唐伦;: "基于深度强化学习的异构云无线接入网自适应无线资源分配算法", 电子与信息学报, no. 06, 15 June 2020 (2020-06-15) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114928549A (zh) * 2022-04-20 2022-08-19 清华大学 基于强化学习的非授权频段的通信资源分配方法及装置
CN115766089A (zh) * 2022-10-18 2023-03-07 福州大学 一种能量采集认知物联网络抗干扰最优传输方法

Also Published As

Publication number Publication date
CN114126021B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
Kwon et al. Multiagent DDPG-based deep learning for smart ocean federated learning IoT networks
Ortiz et al. Reinforcement learning for energy harvesting point-to-point communications
Li et al. Competitive spectrum access in cognitive radio networks: Graphical game and learning
CN109600178B (zh) 一种边缘计算中能耗与时延和最小化的优化方法
CN114126021B (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
Li et al. Optimal power allocation for wireless sensor powered by dedicated RF energy source
CN113316154B (zh) 一种授权和免授权d2d通信资源联合智能分配方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
Vu et al. Multi-agent reinforcement learning for channel assignment and power allocation in platoon-based c-v2x systems
CN112153744B (zh) 一种icv网络中物理层安全资源分配方法
CN104168661A (zh) 一种满足公平性条件的最大化网络生存期传输调度方法
CN105792218A (zh) 具有射频能量收集能力的认知无线电网络的优化方法
Zhong et al. Joint optimal energy-efficient cooperative spectrum sensing and transmission in cognitive radio
CN115866787A (zh) 融合终端直传通信和多接入边缘计算的网络资源分配方法
CN111132348A (zh) 移动边缘计算的资源调度方法及移动边缘计算系统
CN114501667A (zh) 一种考虑业务优先级的多信道接入建模及分布式实现方法
CN117119486B (zh) 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法
Azoulay et al. Transmission power control using deep neural networks in TDMA-based ad-hoc network clusters
CN103249050B (zh) 基于业务需求的多尺度频谱接入方法
Tan et al. A hybrid architecture of cognitive decision engine based on particle swarm optimization algorithms and case database
Bhattarai et al. Improved bandwidth allocation in Cognitive Radio Networks based on game theory
Saied et al. Resource management based on reinforcement learning for D2D communication in cellular networks
Xu et al. Q‐Learning Based Interference‐Aware Channel Handoff for Partially Observable Cognitive Radio Ad Hoc Networks
Peng et al. Interval type-2 fuzzy logic based radio resource management in multi-radio WSNs
Tashman et al. Performance Optimization of Energy-Harvesting Underlay Cognitive Radio Networks Using Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant