CN114126021B - 一种基于深度强化学习的绿色认知无线电的功率分配方法 - Google Patents

一种基于深度强化学习的绿色认知无线电的功率分配方法 Download PDF

Info

Publication number
CN114126021B
CN114126021B CN202111425954.3A CN202111425954A CN114126021B CN 114126021 B CN114126021 B CN 114126021B CN 202111425954 A CN202111425954 A CN 202111425954A CN 114126021 B CN114126021 B CN 114126021B
Authority
CN
China
Prior art keywords
power distribution
state
energy
round
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111425954.3A
Other languages
English (en)
Other versions
CN114126021A (zh
Inventor
林瑞全
丘航丁
王俊
谢欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202111425954.3A priority Critical patent/CN114126021B/zh
Publication of CN114126021A publication Critical patent/CN114126021A/zh
Application granted granted Critical
Publication of CN114126021B publication Critical patent/CN114126021B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/06TPC algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/38TPC being performed in particular situations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于深度强化学习的绿色认知无线电的功率分配方法,首先建立功率分配模型,并按如下步骤对其进行训练:S1、初始化回合训练次数、记忆池的容量以及深度神经网络随机参数;S2、在每个回合开始时,初始化状态;S3、在每个回合的第t步,根据贪婪策略选择动作;S4、将动作输入到认知无线环境中,环境返回回报,更新电池可用能量,更新状态,并把状态转移存储到记忆池;S5、从记忆池中随机采样设定批量的状态转移,执行梯度下降步骤;然后通过训练好的功率分配模型进行功率分配。该方法有利于根据环境的变化做出最优的功率控制和分配。

Description

一种基于深度强化学习的绿色认知无线电的功率分配方法
技术领域
本发明属于无线通信领域,具体涉及一种基于深度强化学习的绿色认知无线电的功率分配方法。
背景技术
无线通信业务的发展使得频谱资源愈发紧张,而现有的频谱利用效率却不高,这一矛盾很大程度归结为频谱的静态分配策略。从目前来看,这种固定的无线电频谱分配方式不能将频谱资源充分利用,因此考虑将认知无线电技术通过执行动态频谱接入,为无线设备提供灵活使用未授权频谱的能力,被广泛认为是解决频谱静态分配问题的可行方案。
一般来说,认知无线电网络有三种常用的DSA策略,分别为underlay、overlay和interweave。在底层频谱共享(underlay)模式中,SU与PU可以同时共用同一频谱,因此,SU不需要进行频谱感知操作,但为确保对PU造成的干扰在可容忍的范围内,引入了干扰温度的概念来确定主接收机(PR)的可容忍干扰水平。资源分配分为频谱分配和功率分配两类。
为了解决无线网络中传统电池寿命有限以及传统供电方式造成的环境污染问题,能量收集技术被提出来。区别于传统的电网供电认知无线电系统,能量收集认知无线电(EH-CRN)最大的特点就是所收集能量的不确定性。另外,对于无线通信的信道来说,它常常存在着各种衰落,这使得通信系统的信道参数处于随机变化状态。如果事先不知道所处环境,包括能量到达过程和信道变化过程,认知无线电系统就无法做出合理的功率分配以获得系统的最优性能。
发明内容
本发明的目的在于提供一种基于深度强化学习的绿色认知无线电的功率分配方法,该方法有利于根据环境的变化做出最优的功率控制和分配。
为实现上述目的,本发明采用的技术方案是:一种基于深度强化学习的绿色认知无线电的功率分配方法,首先建立功率分配模型,并按如下步骤对其进行训练:
S1、初始化回合训练次数N,记忆池D的容量以及深度神经网络随机参数θ0
S2、在每个回合开始时,初始化状态s0
S3、在每个回合的第t步,根据贪婪策略选择动作at
S4、将动作at输入到认知无线环境中,环境返回回报rt,更新电池可用能量Bt,更新状态并把状态转移(st,at,rt,st+1)存储到记忆池D;
S5、从记忆池D中随机采样设定批量的(sj,aj,rj,sj+1),计算 以(yj-Q(sjj;θ))2执行梯度下降步骤;
其中,ωt表示第t个时隙的信道占用情况,Et表示第t个时隙电池收集到的能量,Bt表示第t个时隙电池的可用能量,和/>表示第t个时隙各链路的信道功率增益,γ为折扣因子,ε为概率阈值,A为可选动作集合,Q(sj+1,a';θ')表示参数为θ'的神经网络输出的下一个状态sj+1和动作a'对应的状态-动作函数值;
然后通过训练好的功率分配模型进行功率分配。
进一步地,所述步骤S2中,在每个回合开始时,初始化状态 其中ω0表示当前时隙的信道占用情况,E0表示初始时刻收集到的能量,B0表示初始时刻的可用能量,/>和/>表示各链路的信道功率增益。
进一步地,所述步骤S3中,在每个回合的第t步,根据贪婪策略选择动作at的具体方法为:随机生成概率p,若p≤ε,则随机选择动作at,否则根据公式 选择at
进一步地,所述步骤S4中,按如下方法更新状态、能量以及获取回报:
将动作at输入到认知无线环境中,环境返回回报rt,然后根据以下公式更新电池可用能量:
其中,Bmax为电池的最大容量,It=1时表示第t个时隙进行能量采集,It=0时表示第t个时隙传输数据;然后更新状态并把状态转移(st,at,rt,st+1)存储到记忆池D;相关参数的定义如下:
进一步地,所述步骤S5中,按如下方法更新神经网络参数:
从记忆池D中随机采样设定批量的样本(sj,aj,rj,sj+1),计算 进而计算损失函数L(θ)=E[(yj-Q(sj,aj;θ))2],再采用随机梯度下降法SGD更新参数来缩小L(θ),更新规则为/>其中α表示学习率,α∈(0,1),从而完成神经网络参数更新。
与现有技术相比,本发明具有以下有益效果:提供了一种基于深度强化学习的绿色认知无线电的功率分配方法,在信道占用情况随机变化的情况下,运用深度Q学习来解决认知无线电的功率最优分配问题。该方法通过利用深度Q网络对次用户发射功率进行控制,针对信道占用和空闲两种情况设置不同的奖励函数,智能体通过与环境交互,能够根据环境的变化做出最优功率控制,以使SU的和速率最大。
附图说明
图1为本发明实施例中在underlay模式下的能量收集认知无线电网络系统模型;
图2为本发明实施例中功率分配模型的训练流程;
图3为本发明实施例中在underlay模式下能量收集认知无线电网络模型下不同折扣因子γ对SU的平均和速率的影响;
图4为本发明实施例中在underlay模式下能量收集认知无线电网络模型下不同策略对SU的平均和速率的影响;
图5为本发明实施例中在underlay模式下能量收集认知无线电网络模型下不同电池容量对平均和速率的影响;
图6为本发明实施例中在underlay模式下能量收集认知无线电网络模型下PU处干扰门限PI对SU的平均和速率的影响。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,在underlay模式下的能量收集认知无线电网络系统模型包括三部分:认知无线电网络模型、信道模型和能量到达模型。其中PT为主发射机,ST为次发射机,PU为主用户,SU为次用户,PR为主无线电,SR为次无线电,假设每个时隙收集到的能量
在认知无线电网络模型中,SU从周围环境中收集能量并将其存储在一个容量有限的电池中。PU和SU以时隙方式运行,假设有N个时隙,每个时隙长度τ为1秒。在前M个时隙内,PU占用信道,主发射机(PT)在传输时隙以固定的发射功率Pp传输。此外,当PU和SU同时进行传输时,PU有一个干扰限制PI需要被满足,以确保SU的接入不会对PU的传输产生影响。在剩下的N-M个时隙内,信道空闲,次发射机(ST)根据当前信道状况调整传输策略。ST在每个时隙只能执行一种操作,收集能量或者以发射功率P进行自身的数据传输。
在信道模型中,PT-PR、PT-SR、ST-PR、ST-SR的信号链路为带有路径损耗的瑞利衰落信道,相应的信道功率增益gpp、gps、gsp、gss均服从i.i.d的单位均值指数分布。定义信道增益的有限集合gpp,gs∈H,gsp,gps∈Γc假设各用户端的噪声设为均值为0,方差为σ2的循环对称复高斯变量;在一个时隙τ内,各链路的信道功率增益保持不变,在第t个时隙,/>从Η集合中随机选取数值,/>从Γ集合中随机选取数值。定义一个指示函数ωt来表示当前时隙的信道占用情况:
在第t个时隙,SU的瞬时可达速率其中当ωt=0时,ST的瞬时可达速率为:/>当ωt=1时,ST的瞬时可达速率/>
在能量到达模型中,将能量收集过程建模为每个时隙具有独立同分布的能量到达模型。假设每个时隙收集到的能量服从0~emax的均匀分布,即/>从有限集合/> 随机取值,emax为每个时隙能收集的最大能量值。假设初始时刻收集的能量E0=0,ST处的电池初始可用能量为B0,最大容量为Bmax。在每个时隙的开始,电池的可用能量的大小取决于上一时隙ST收集或者消耗的能量大小,故定义一个指示函数It来表征ST进行收集或传输决策:
Bt表示在第t个时隙的开始时刻的电池可用能量,则在第t+1个时隙的开始时刻,电池的可用能量更新为:
ST可以使用的能量需要满足限制条件:
基于认知无线电网络系统模型,本发明的目标是在可用能量约束和最大干扰约束下,最大化ST在所有时隙的总速率。优化问题如下:
s.t.
本发明将顺序决策问题公式化为马尔科夫决策过程(MDP)问题并解决。
如图2所示,本实施例提供了一种基于深度强化学习的绿色认知无线电的功率分配方法,首先建立功率分配模型,并按如下步骤对其进行训练:
S1、初始化回合训练次数N,记忆池D的容量以及深度神经网络随机参数θ0
S2、在每个回合开始时,初始化状态其中ω0表示当前时隙的信道占用情况,E0表示初始时刻收集到的能量,B0表示初始时刻的可用能量,/>和/>表示各链路的信道功率增益。
S3、一个回合有T个时隙,在第t个时隙内做以下操作:将当前状态st输入到神经网络中,输出多个状态-动作值Q;然后根据贪婪策略选择动作at:随机生成概率p,若p≤ε,则随机选择动作at,否则根据公式选择at;其中ST在第t个时隙采取的动作at由两个变量组成,即/>其中/>
S4、将动作at输入到认知无线环境中,环境返回回报rt,更新电池可用能量Bt,更新状态并把状态转移(st,at,rt,st+1)存储到记忆池D。具体为:
将动作at输入到认知无线环境中,环境返回回报rt,然后根据以下公式更新电池可用能量:
其中,Bmax为电池的最大容量,It=1时表示第t个时隙进行能量采集,It=0时表示第t个时隙传输数据;然后更新状态并把状态转移(st,at,rt,st+1)存储到记忆池D;相关参数的定义如下:
S5、从记忆池D中随机采样小批量的(sj,aj,rj,sj+1),计算 以(yj-Q(sj,aj;θ))2执行梯度下降步骤。
其中,ωt表示第t个时隙的信道占用情况,Et表示第t个时隙电池收集到的能量,Bt表示第t个时隙电池的可用能量,和/>表示第t个时隙各链路的信道功率增益,γ为折扣因子,ε为概率阈值,A为可选动作集合,Q(sj+1,a';θ')表示参数为θ'的神经网络输出的下一个状态sj+1和动作a'对应的状态-动作函数值。具体为:
从记忆池D中随机取出小批量的样本(sj,aj,rj,sj+1),计算在当前状态为sj+1、动作为a',神经网络参数为θ下对应的状态-动作函数值的标签值进而计算损失函数L(θ)=E[(yj-Q(sj,aj;θ))2],再采用随机梯度下降法(SGD)更新参数来缩小L(θ),更新规则为/>其中α表示学习率,α∈(0,1),决定了梯度下降算法更新的速度。从而完成神经网络参数更新。
通过训练好的功率分配模型进行功率分配。
通过以下仿真进一步说明本发明方法的可行性和有效性。
图3示出了在underlay模式下的能量收集认知无线电网络系统模型下不同折扣因子γ对SU的平均和速率的影响。当γ=0.99时,系统的性能最好。当γ取较小值时,SU和速率性能较差。折扣因子表示未来回报对当前回报的重要程度。γ越小,智能体越注重眼前收益,γ越大,智能体往前考虑的步数越多,更加敢于探索环境从而获得更优的策略。因此,随着γ的增大,N个时隙内SU的总速率变大。
图4示出了在underlay模式下的能量收集认知无线电网络系统模型下不同策略对SU的平均和速率的影响。观察到本方法(DQN)优于其他方法,因为该方法可以适应动态变化的无线环境。随着时隙数的增多,offline policy方法会导致PU退出信道后,电池的能量不足,因此SU只能以较小发射功率进行数据传输,而本发明所提策略不受PU的影响,在每个时隙均能做出最优决策。另一方面,本方法采用贪婪机制选择最优动作,不仅可以搜索已经出现过的情况,还可以探索未出现的情况,因此,本方法的性能要优于随机动作选择策略。
图5示出了在underlay模式下的能量收集认知无线电网络系统模型下不同电池容量对平均和速率的影响。从图中可以看出,随着Bmax的增大,平均和速率也会增加,这是因为增大电池容量,SU会选择收集更多的能量以满足SU后续使用更大的发射功率传输数据。随着Bmax继续增大,SU学习到收集能量获得的奖励较小,因此会选择更多的时隙进行数据传输。因为收集的能量不再增加,所以发射功率趋于平稳,使得SU的平均和速率趋于稳定。
图6示出了在underlay模式下的能量收集认知无线电网络系统模型下SU处干扰门限PI对SU平均和速率的影响。随着PI增大,SU则可以更大的发射功率进行数据传输,因此SU的平均和速率会逐渐增大。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。

Claims (1)

1.一种基于深度强化学习的绿色认知无线电的功率分配方法,其特征在于,首先建立功率分配模型,并按如下步骤对其进行训练:
S1、初始化回合训练次数N,记忆池D的容量以及深度神经网络随机参数θ0
S2、在每个回合开始时,初始化状态s0
S3、在每个回合的第t步,根据贪婪策略选择动作at
S4、将动作at输入到认知无线环境中,环境返回回报rt,更新电池可用能量Bt,更新状态并把状态转移(st,at,rt,st+1)存储到记忆池D;
S5、从记忆池D中随机采样设定批量的(sj,aj,rj,sj+1),计算 以(yj-Q(sj,aj;θ))2执行梯度下降步骤;
其中,ωt表示第t个时隙的信道占用情况,Et表示第t个时隙电池收集到的能量,Bt表示第t个时隙电池的可用能量,表示第t个时隙次用户发射机ST到次用户接收机SR的信道功率增益,/>表示第t个时隙次用户发射机ST到主用户接收机PR的信道功率增益,/>表示第t个时隙主用户发射机PT到次用户接收机SR的信道功率增益,γ为折扣因子,ε为概率阈值,A为可选动作集合,Q(sj+1,a';θ')表示参数为θ'的神经网络输出的下一个状态sj+1和动作a'对应的状态-动作函数值;
然后通过训练好的功率分配模型进行功率分配;
所述步骤S2中,在每个回合开始时,初始化状态其中ω0表示当前时隙的信道占用情况,E0表示初始时刻收集到的能量,B0表示初始时刻的可用能量,和/>表示各链路的信道功率增益;
所述步骤S3中,在每个回合的第t步,根据贪婪策略选择动作at的具体方法为:随机生成概率p,若p≤ε,则随机选择动作at,否则根据公式选择at
所述步骤S4中,按如下方法更新状态、能量以及获取回报:
将动作at输入到认知无线环境中,环境返回回报rt,然后根据以下公式更新电池可用能量:
其中,Bmax为电池的最大容量,It=1时表示第t个时隙进行能量采集,It=0时表示第t个时隙传输数据;然后更新状态并把状态转移(st,at,rt,st+1)存储到记忆池D;相关参数的定义如下:
所述步骤S5中,按如下方法更新神经网络参数:
从记忆池D中随机采样设定批量的样本(sj,aj,rj,sj+1),计算 进而计算损失函数L(θ)=E[(yj-Q(sj,aj;θ))2],再采用随机梯度下降法SGD更新参数来缩小L(θ),更新规则为/>其中α表示学习率,α∈(0,1),从而完成神经网络参数更新。
CN202111425954.3A 2021-11-26 2021-11-26 一种基于深度强化学习的绿色认知无线电的功率分配方法 Active CN114126021B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111425954.3A CN114126021B (zh) 2021-11-26 2021-11-26 一种基于深度强化学习的绿色认知无线电的功率分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111425954.3A CN114126021B (zh) 2021-11-26 2021-11-26 一种基于深度强化学习的绿色认知无线电的功率分配方法

Publications (2)

Publication Number Publication Date
CN114126021A CN114126021A (zh) 2022-03-01
CN114126021B true CN114126021B (zh) 2024-04-09

Family

ID=80370815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111425954.3A Active CN114126021B (zh) 2021-11-26 2021-11-26 一种基于深度强化学习的绿色认知无线电的功率分配方法

Country Status (1)

Country Link
CN (1) CN114126021B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114928549A (zh) * 2022-04-20 2022-08-19 清华大学 基于强化学习的非授权频段的通信资源分配方法及装置
CN115766089A (zh) * 2022-10-18 2023-03-07 福州大学 一种能量采集认知物联网络抗干扰最优传输方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2566273A1 (en) * 2011-09-02 2013-03-06 Université Libre de Bruxelles Method for dynamically determining sensing time in cognitive radio network
US8909950B1 (en) * 2010-04-18 2014-12-09 Aptima, Inc. Systems and methods of power management
CN106788810A (zh) * 2016-12-12 2017-05-31 哈尔滨工程大学 一种绿色认知无线电的无线能量采集和分配方法
WO2018083532A1 (en) * 2016-11-03 2018-05-11 Deepmind Technologies Limited Training action selection neural networks
CN109039504A (zh) * 2018-09-14 2018-12-18 重庆邮电大学 基于非正交多址接入的认知无线电能效功率分配方法
CN111491358A (zh) * 2020-04-23 2020-08-04 电子科技大学 基于能量采集的自适应调制和功率控制系统与优化方法
CN111885671A (zh) * 2020-07-17 2020-11-03 燕山大学 一种基于深度强化学习的水下联合中继选择和功率分配方法
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法
CN113225794A (zh) * 2021-04-29 2021-08-06 成都中科微信息技术研究院有限公司 一种基于深度强化学习的全双工认知通信功率控制方法
CN113395757A (zh) * 2021-06-10 2021-09-14 中国人民解放军空军通信士官学校 基于改进回报函数的深度强化学习认知网络功率控制方法
CN113423110A (zh) * 2021-06-22 2021-09-21 东南大学 基于深度强化学习的多用户多信道动态频谱接入方法
CN113691334A (zh) * 2021-08-23 2021-11-23 广东工业大学 一种基于次用户群体协作的认知无线电动态功率分配方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200134445A1 (en) * 2018-10-31 2020-04-30 Advanced Micro Devices, Inc. Architecture for deep q learning
US20200153535A1 (en) * 2018-11-09 2020-05-14 Bluecom Systems and Consulting LLC Reinforcement learning based cognitive anti-jamming communications system and method
KR20210145514A (ko) * 2020-05-25 2021-12-02 삼성전자주식회사 네트워크 에너지 최적화를 위한 전력 제어 방법 및 장치

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8909950B1 (en) * 2010-04-18 2014-12-09 Aptima, Inc. Systems and methods of power management
EP2566273A1 (en) * 2011-09-02 2013-03-06 Université Libre de Bruxelles Method for dynamically determining sensing time in cognitive radio network
WO2018083532A1 (en) * 2016-11-03 2018-05-11 Deepmind Technologies Limited Training action selection neural networks
CN106788810A (zh) * 2016-12-12 2017-05-31 哈尔滨工程大学 一种绿色认知无线电的无线能量采集和分配方法
CN109039504A (zh) * 2018-09-14 2018-12-18 重庆邮电大学 基于非正交多址接入的认知无线电能效功率分配方法
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法
CN111491358A (zh) * 2020-04-23 2020-08-04 电子科技大学 基于能量采集的自适应调制和功率控制系统与优化方法
CN111885671A (zh) * 2020-07-17 2020-11-03 燕山大学 一种基于深度强化学习的水下联合中继选择和功率分配方法
CN112367132A (zh) * 2020-10-27 2021-02-12 西北工业大学 基于强化学习解决认知无线电中的功率分配算法
CN113225794A (zh) * 2021-04-29 2021-08-06 成都中科微信息技术研究院有限公司 一种基于深度强化学习的全双工认知通信功率控制方法
CN113395757A (zh) * 2021-06-10 2021-09-14 中国人民解放军空军通信士官学校 基于改进回报函数的深度强化学习认知网络功率控制方法
CN113423110A (zh) * 2021-06-22 2021-09-21 东南大学 基于深度强化学习的多用户多信道动态频谱接入方法
CN113691334A (zh) * 2021-08-23 2021-11-23 广东工业大学 一种基于次用户群体协作的认知无线电动态功率分配方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Huan Xie ; Ruiquan Lin ; Jun Wang ; Min Zhang ; Changchun Cheng.Power Allocation of Energy Harvesting Cognitive Radio Based on Deep Reinforcement Learning.2021 5th International Conference on Communication and Information Systems (ICCIS).2021,第1-5部分. *
基于改进蚁群算法的认知无线电频谱分配的策略研究;赵显煜; 王俊; 邢新华;通信技术(第10期);全文 *
基于深度强化学习的异构云无线接入网自适应无线资源分配算法;陈前斌;管令进;李子煜;王兆堃;杨恒;唐伦;;电子与信息学报;20200615(第06期);全文 *
基于深度强化学习的无线网络资源分配算法;李孜恒;孟超;;通信技术(第08期);全文 *
基于深度强化学习的智能频谱分配策略研究;杨洁祎;金光;朱家骅;;数据通信(第03期);全文 *

Also Published As

Publication number Publication date
CN114126021A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
Ortiz et al. Reinforcement learning for energy harvesting point-to-point communications
Wang et al. DRL-based energy-efficient resource allocation frameworks for uplink NOMA systems
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
Jiang et al. Reinforcement learning for real-time optimization in NB-IoT networks
CN114126021B (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN110958680A (zh) 面向能量效率的无人机群多智能体深度强化学习优化方法
CN106358308A (zh) 一种超密集网络中的强化学习的资源分配方法
CN112383922A (zh) 一种基于优先经验重放的深度强化学习频谱共享方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN111182549B (zh) 一种基于深度强化学习的抗干扰无线通信方法
CN104168661A (zh) 一种满足公平性条件的最大化网络生存期传输调度方法
Zabaleta et al. Quantum game application to spectrum scarcity problems
CN110267274A (zh) 一种根据用户间社会信誉度选择传感用户的频谱共享方法
CN105792218A (zh) 具有射频能量收集能力的认知无线电网络的优化方法
CN113795050B (zh) 一种基于Sum Tree采样的深度双Q网络动态功率控制方法
CN111132348A (zh) 移动边缘计算的资源调度方法及移动边缘计算系统
CN117119486B (zh) 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法
CN114501667A (zh) 一种考虑业务优先级的多信道接入建模及分布式实现方法
CN112738849B (zh) 应用于多跳环境反向散射无线网络的负载均衡调控方法
Wang et al. Resource allocation in multi-cell NOMA systems with multi-agent deep reinforcement learning
CN113890653B (zh) 面向多用户利益的多智能体强化学习功率分配方法
Chu et al. Reinforcement learning based multi-access control with energy harvesting
Xie et al. Power allocation of energy harvesting cognitive radio based on deep reinforcement learning
Saied et al. Resource management based on reinforcement learning for D2D communication in cellular networks
CN115915454A (zh) Swipt辅助的下行资源分配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant