CN113395757B - 基于改进回报函数的深度强化学习认知网络功率控制方法 - Google Patents

基于改进回报函数的深度强化学习认知网络功率控制方法 Download PDF

Info

Publication number
CN113395757B
CN113395757B CN202110647638.4A CN202110647638A CN113395757B CN 113395757 B CN113395757 B CN 113395757B CN 202110647638 A CN202110647638 A CN 202110647638A CN 113395757 B CN113395757 B CN 113395757B
Authority
CN
China
Prior art keywords
neural network
secondary user
network
power
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110647638.4A
Other languages
English (en)
Other versions
CN113395757A (zh
Inventor
汤春瑞
张维思
张音捷
李一兵
郝向宁
栾磊
张驰
贺平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Air Force Communication Sergeant School Of Pla
Original Assignee
Air Force Communication Sergeant School Of Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Air Force Communication Sergeant School Of Pla filed Critical Air Force Communication Sergeant School Of Pla
Priority to CN202110647638.4A priority Critical patent/CN113395757B/zh
Publication of CN113395757A publication Critical patent/CN113395757A/zh
Application granted granted Critical
Publication of CN113395757B publication Critical patent/CN113395757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/28TPC being performed according to specific parameters using user profile, e.g. mobile speed, priority or network state, e.g. standby, idle or non transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • H04W52/34TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种基于改进回报函数的深度强化学习认知网络功率控制方法,属于认知无线电技术领域,为了解决增加频谱的利用率的问题,要点是建立两个相同结构的神经网络;次用户通过辅助传感节点与环境互动进行学习,并基于改进后的回报函数取得细致反馈,最终获得序列样本,而后将序列样本存储至记忆库中;记忆库的存储达到额度时,对记忆库中样本进行均匀抽样,表现神经网络目标为最小化表现网络输出与目标网络输出的平方差,次用户进行新的互动之后,最新的序列样本会取代最旧的序列样本;每经过一定次数迭代,将表现网络参数赋予目标网络;完成所有迭代循环后获得完整神经网络模型,效果是次用户能够智能调整自己功率保证主次用户都能成功进行数据传输。

Description

基于改进回报函数的深度强化学习认知网络功率控制方法
技术领域
本发明属于认知无线电技术领域,具体涉及基于改进回报函数的深度强化学习认知网络功率控制。
背景技术
随着5G技术和物联网技术的快速发展,新技术对于频谱资源的需求量急速增多。而现行静态分割,独占式的频谱管理规则过于限制频谱接入机会,严重阻碍了无线通信网络的部署和运行。因此,如何提高频谱资源的利用率成为目前研究重点。认知无线电于1999由John Mitola提出,通过频谱复用的方式,在保证主用户正常使用频段的前提下,次用户动态地使用频谱,提高频谱资源的利用率。
在主次用户频谱复用下,由于主用户发射功率并非一成不变,极有可能随着时间环境进行调整以满足自己的通信需求,因此次用户需要在未知主用户功率策略的前提下,短时间内调整自己的发射功率来同时保证主用户与自己的顺利传输。深度强化学习可以在未知主用户功率策略的条件下,通过次用户与环境动态交互,从过往经验中进行学习。然而在深度学习中经常遇到由于回报函数设计不合理而造成的稀疏回报问题,进而导致学习速率慢,学习效果差,最终难以收敛,在认知网络中功率控制体现的是,次用户无法在规定的时间内调整至合适的功率,最终难以实现有效传输,甚至影响主用户的传输。因此针对主次用户复用的功率控制问题设计合理的回报函数也十分重要。
现有技术中,公开号为CN102333362A提出了一种基于分布式价格算法的认知无线电功率控制的方法,但是其需知主用户发射功率,以及次用户在不对主用户造成干扰的最大发射功率等先验信息。公开号CN107947878A提出了一种基于能效和谱效联合优化的认知无线电功率分配的方法,然而其设定主用户所能忍受的最大干扰功率不变,实际环境中随着主用户功率的变化,主用户对干扰的容忍程度也会变化。Li Xingjian等人发表于《IEEEAccess》的“Intelligent Power Control for Spectrum Sharing in CognitiveRadios:ADeep Reinforcement LearningApproach”一文中次用户通过强化学习动态调整发射功率保证双方成功传输,但是其回报函数设计存在不足,容易造成稀疏回报问题。
发明内容
针对功率控制问题,本发明的提出一种基于改进回报函数的深度强化学习认知网络功率控制方法,对回报函数进行合理优化设计,次用户能够在未知主用户功率策略的前提下,通过深度强化学习与环境进行互动进行学习,最终次用户能够智能调整自己功率保证主次用户都能成功进行数据传输,最终增加频谱利用率。
本发明的目的是这样实现的:一种基于改进回报函数的深度强化学习认知网络功率控制方法,步骤如下:
步骤1:系统环境与两个神经网络参数初始化,两个神经网络是表现神经网络和目标神经网络;
步骤2:次用户通过辅助传感器获得环境状态,次用户通过辅助传感节点与环境互动进行学习,并根据改进回报函数取得相应回报,从而获得序列样本,并将序列样本存储至记忆库;
步骤3:从记忆库中均匀采样获得序列样本用于训练表现神经网络参数,表现神经网络目标为表现神经网络输出与目标神经网络输出的平方差最小化;
步骤4:每经过若干轮迭代,序列样本达到记忆库存储量,将表现神经网络的参数赋予目标神经网络;
进行下一阶段学习:次用户通过辅助传感节点与环境产生新互动进行学习,根据改进回报函数取得相应回报,从而获得新的序列样本,并将新的序列样本存储至记忆库,最新的序列样本取代最旧的序列样本;
步骤5:循环执行步骤3和步骤4,直至完成所有循环次数后,获得完整神经网络模型。
进一步的,步骤1具体包括:
步骤1.1:神经网络初始化包括两个网络,表现神经网络的参数为θ与目标神经网络的参数为θ-,目标神经网络与表现神经网络结构相同。
进一步的,目标神经网络与表现神经网络,其网络结构包含三个隐藏层,其中一个网络的神经元数目为100,激活函数为线性整流函数;另一个网络的神经元数目为200,激活函数为双曲正切函数。
进一步的,步骤2具体包括:
步骤2.1:次用户通过辅助传感器来获得环境状态s(k),
Figure BDA0003109780870000021
其中
Figure BDA0003109780870000022
表示第n个辅助传感器接受到的功率;
步骤2.2:次用户与环境互动具体为:次用户在环境状态是s(k)下,通过表现神经网络获得L2个输出,其中L2为次用户可选择的功率数目,其为一个有限集合;
次用户以εk的概率选择在L2个输出中值最大的功率作为发射功率,
或者
次用户以(1-εk)的概率随机选择发射功率,
设次用户选择的发射功率为a(k),其中εk初始为0,随着时隙数不断增大,在达到时隙数一定后不变;
步骤2.3:根据回报函数获得回报r(k),并达到下一个状态s(k+1),回报函数为:
Figure BDA0003109780870000031
其中SINR1和SINR2分别为主用户和次用户的信干噪比,η1和η2为传输门限,只有SINR大于传输门限才能进行数据传输;T为单个时隙次用户调整发射功率的最大次数;
其中
a=10表示双方传输成功时次用户获得正反馈;
b=-10表示双方传输失败次用户获得负反馈;
c=0.01表示虽然次用户传输失败,但主用户传输成功,依然给予少量正反馈,相较于传输成功的正反馈,数值较小,用于保护主用户;
d=-0.01表示虽然次用户传输失败,但是主用户传输失败,给予少量负反馈惩罚,相较于传输失败的负反馈,数值较小,也用于保护主用户;
因为信道传输时间有限,若在规定次数T内次用户未调整至使得双方成功传输功率,也给予负反馈惩罚,其值等于双方传输失败的负反馈。
进一步的,
Figure BDA0003109780870000032
进一步的,步骤3目标神经网络输出Qtarget为:
Figure BDA0003109780870000033
其中表现神经网络其参数为θ、目标神经网络其参数为θ-、γ为回报延迟,
表现网络训练的目标函数为:
Figure BDA0003109780870000034
其中,Q(s(k),a(k);θ)为表现神经网络输出。
本发明具有的有益效果:本发明中次用户首先基于改进后的回报函数与环境交互获得序列样本。改进后的回报函数使得在主用户功率不断变化的时候,次用户每个发射功率都有细致的正负反馈,以此避免稀疏回报问题。本发明中次用户能够在未知主用户功率策略的前提下,基于深度强化学习通过与环境进行互动进行学习,并且针对功率控制问题对回报函数进行合理优化设计,最终次用户能够智能调整自己功率保证主次用户都能成功进行数据传输。
附图说明
图1为本发明方法流程图;
图2为本发明提出的改进回报函数和传统回报函数的每五个时隙平均收敛次数的比较,为了使仿真结果更加清晰,图2经过平滑化处理。
图3为本发明提出的改进回报函数和传统回报函数的每五个时隙平均回报的比较。
具体实施方式
下面结合附图和具体实施例对本文作进一步具体说明:
如图1所示,本发明基于改进回报函数的深度强化学习认知网络功率控制,方法流程图包括以下步骤:
步骤1:系统环境与神经网络参数初始化。
步骤1.1:初始化分为环境初始化和神经网络初始化两个部分。其中环境初始化部分包括设置辅助传感器位置,其随机分布于环境内;初始化主次用户发射功率,在各自功率集合P1和P2随机选择作为初始发射功率。神经网络初始化包括两个网络,表现神经网络其参数为θ与目标神经网络其参数为θ-,目标神经网络与表现神经网络结构相同,其中包含三个隐藏层,其神经元个数目和激活函数分别为100,线性整流函数;100,线性整流函数;200,双曲正切。
步骤2:次用户通过辅助传感节点与环境互动进行学习,根据改进回报函数获得相应回报,获得序列样本d(k)={s(k),a(k),r(k),s(k+1)},并将序列样本存储至记忆库D。
步骤2.1:次用户通过辅助传感器获得环境状态s(k)。
Figure BDA0003109780870000041
其中
Figure BDA0003109780870000042
表示第n个辅助传感器接受到的功率。p1(k)和p2(k)分别代表主用户和次用户在第k个时隙的发射功率。wn(k)表示在第n个辅助感知器在第k个时隙收到的均值为0,方差为/>
Figure BDA0003109780870000043
高斯白噪声。g1n和g2n分别代表第n个辅助传感器到主用户和次用户之间的路径衰落,则路径衰落gin
Figure BDA0003109780870000044
对于公式(2)中,λ为信号波长,din为第n个辅助传感器到主用户或次用户的距离。
环境状态s(k)表示为:
Figure BDA0003109780870000051
步骤2.2:次用户与环境互动具体为:次用户在环境状态是s(k)下,通过表现神经网络获得L2个输出,其中L2为次用户可选择的功率数目,其为一个有限集合。次用户以εk的概率选择在L2个输出中值最大的功率作为发射功率,或者以(1-εk)的概率随机选择发射功率,设其选择的发射功率为a(k)。
其中εk初始为0,随着时隙数不断增大,并且达到一定时隙数后不变。
Figure BDA0003109780870000052
步骤2.3:根据回报函数获得回报r(k),并达到下一个状态s(k+1)。其中回报函数为:
Figure BDA0003109780870000053
其中SINR1和SINR2分别为主用户和次用户的信干噪比,η1和η2为传输门限,只有SINR大于传输门限才能进行数据传输。T为单个时隙次用户调整发射功率的最大次数。其中a=10表示双方传输成功时次用户获得正反馈;b=-10表示双方传输失败次用户获得负反馈;c=0.01表示虽然次用户传输失败,但主用户传输成功,依然给予少量正反馈,用于保护主用户;d=-0.01表示虽然次用户传输失败,但是主用户传输失败,给予少量负反馈惩罚,也用于保护主用户;因为信道传输时间有限,若在规定次数T内次用户未调整至使得双方成功传输功率,也给予负反馈惩罚,其值等于传输失败的负反馈。
其中SINR由下式计算获得:
Figure BDA0003109780870000054
式中p1,p2分别表示主次用户的发射功率,hij表示主(次)用户到次(主)用户之间的信道增益,Ni表示用户收到的噪声功率。
步骤2.3:由上述步骤获得序列样本d(k)={s(k),a(k),r(k),s(k+1)},并将序列样本存储至记忆库D。
步骤3:从记忆库D中均匀采样获得Nbatch个样本用于训练表现神经网络参数,表现神经网络目标为表现神经网络输出与目标网络输出的平方差最小化。
步骤4:对于上述步骤,每经过M轮迭代,序列样本达到记忆库D存储量,将表现神经网络的参数赋予目标神经网络,并进行下一阶段的学习。
在下一阶段学习中,通过步骤2.1-2.3,次用户与环境进行新的互动学习之后,最新的序列样本会取代最旧的序列样。即只有序列样本达到记忆库存储量时进入下一阶段开始学习,并且进行新的互动后,会产生新的序列样本,使用最新的序列样本代替最旧的序列样本,保证学习样本的时效性。
其中表现网络训练的目标函数为:
Figure BDA0003109780870000061
其中Qtarget,Q(s(k),a(k);θ)分别为目标网络输出和表现神经网络输出。目标网络输出可由下式表示:
Figure BDA0003109780870000062
其中γ为回报延迟,用于控制历史回报对下一步动作的影响;Q(s(k+1),a(k+1);θ-)为目标神经网络输出,目标神经网络输出后经过公式(8)计算后作为最后的目标网络输出。
该步骤中,定期更新目标网络参数减少模型本身波动性,使得模型能够更快收敛。
步骤5:完成所有循环次数后,获得完整神经网络模型。
在一种方案中,基于改进回报函数的深度强化学习认知网络功率控制方法的具体参数设置为:
主次用户功率集合分别为P1={4.0,4.5,5.0,...,8.0}和P2={1.0,1.5,2.0,...,6.0},单位为W;主用户与次用户受到的噪声功率为N1=N2=0.05W.为了不失一般性,表示主(次)用户到次(主)用户之间的信道增益hij设为1.主用户与次用户SINR门限分别为η1=1.2和η2=0.7。辅助传感器数量为10,其至主次用户的距离服从为米的均匀分布。
表现网络其参数为θ与目标网络其参数为θ-,目标网络与表现网络结构相同,其中包含三个隐藏层,其神经元个数目和激活函数分别为1100,线性整流函数;100,线性整流函数;200,双曲正切。线性整流函数函数在输入小于0时取0,否则输出原数值。记忆库D的容量为400,进行抽样学习的Nbatch=256。整体时隙循环数为1000,单个时隙内能尝试的最多次数T为35。
从图2改进回报函数和传统回报函数的每五个时隙平均收敛次数的比较中可以看出在迭代500次后,本发明提出的改进回报函数比传统回报函数在单个时隙内达到收敛的步数更少;从图3改进回报函数和传统回报函数的每五个时隙平均回报的比较中可以看出,在迭代500次后,本发明提出的改进回报函数已经收敛,而传统回报函数还存在较大的波动性。
综上,本发明提供的一种基于改进回报函数的深度强化学习认知网络功率控制方法,它涉及认知无线电、智能处理和神经网络三个领域。它解决了现有认知无线电功率控制中次用户次用户传输对主用户造成干扰的问题,并且针对强化学习在功率控制领域的应用提出改进后回报函数,解决了回报稀疏的问题,进而提高学习速率和最后的学习效果,实现了次用户在未知主用户功率策略的前提下,通过智能调整自己的发射功率,最终保证两者都能顺利进行数据传输。本发明包括:建立两个相同结构的神经网络,表现网络和目标网络;次用户与环境互动获得,基于改进后的回报函数取得细致反馈,最终获得序列样本,而后将序列样本存储至记忆库中;记忆库的存储达到额度时,对记忆库中样本进行均匀抽样,次用户进行新的互动之后,最新的序列样本会取代最旧的序列样本;抽样后的样本用于表现神经网络训练,表现神经网络目标为最小化表现网络输出与目标网络输出的平方差;每经过一定次数迭代,将表现网络参数赋予目标网络;完成所有迭代循环后获得完整神经网络模型。本发明有着更广泛的使用范围,次用户能够快速智能调整自身发射功率,减少认知无线电系统中次用户对主用户的干扰,使得双方都能成功进行数据传输。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (1)

1.一种基于改进回报函数的深度强化学习认知网络功率控制方法,其特征步骤如下:
步骤1:系统环境与两个神经网络参数初始化,两个神经网络是表现神经网络和目标神经网络;
步骤2:次用户通过辅助传感器获得环境状态,次用户通过辅助传感节点与环境互动进行学习,并根据改进回报函数取得相应回报,从而获得序列样本,并将序列样本存储至记忆库;
步骤3:从记忆库中均匀采样获得序列样本用于训练表现神经网络参数,表现神经网络目标为表现神经网络输出与目标神经网络输出的平方差最小化;
步骤4:每经过若干轮迭代,序列样本达到记忆库存储量,将表现神经网络的参数赋予目标神经网络;
进行下一阶段学习:次用户通过辅助传感节点与环境产生新互动进行学习,根据改进回报函数取得相应回报,从而获得新的序列样本,并将新的序列样本存储至记忆库,最新的序列样本取代最旧的序列样本;
步骤5:循环执行步骤3和步骤4,直至完成所有循环次数后,获得完整神经网络模型;
步骤1具体包括:
步骤1.1:神经网络初始化包括两个网络,表现神经网络的参数为θ与目标神经网络的参数为θ-,目标神经网络与表现神经网络结构相同;
目标神经网络与表现神经网络,其网络结构包含三个隐藏层,其中一个网络的神经元数目为100,激活函数为线性整流函数;另一个网络的神经元数目为200,激活函数为双曲正切函数;
步骤2具体包括:
步骤2.1:次用户通过辅助传感器来获得环境状态s(k),
Figure FDA0004177760860000011
其中
Figure FDA0004177760860000012
表示第n个辅助传感器接受到的功率;
步骤2.2:次用户与环境互动具体为:次用户在环境状态是s(k)下,通过表现神经网络获得L2个输出,其中L2为次用户可选择的功率数目,其为一个有限集合;
次用户以εk的概率选择在L2个输出中值最大的功率作为发射功率,
或者
次用户以(1-εk)的概率随机选择发射功率,
设次用户选择的发射功率为a(k),其中εk初始为0,随着时隙数不断增大,在达到时隙数一定后不变;
步骤2.3:根据回报函数获得回报r(k),并达到下一个状态s(k+1),回报函数为:
Figure FDA0004177760860000021
其中SINR1和SINR2分别为主用户和次用户的信干噪比,η1和η2为传输门限,只有SINR大于传输门限才能进行数据传输;T为单个时隙次用户调整发射功率的最大次数;
其中
a=10表示双方传输成功时次用户获得正反馈;
b=-10表示双方传输失败次用户获得负反馈;
c=0.01表示虽然次用户传输失败,但主用户传输成功,依然给予少量正反馈,相较于传输成功的正反馈,数值较小,用于保护主用户;
d=-0.01表示虽然次用户传输失败,但是主用户传输失败,给予少量负反馈惩罚,相较于传输失败的负反馈,数值较小,也用于保护主用户;
因为信道传输时间有限,若在规定次数T内次用户未调整至使得双方成功传输功率,也给予负反馈惩罚,其值等于双方传输失败的负反馈;
Figure FDA0004177760860000022
步骤3目标神经网络输出Qtarget为:
Figure FDA0004177760860000023
其中表现神经网络其参数为θ、目标神经网络其参数为θ-、γ为回报延迟,
表现网络训练的目标函数为:
Figure FDA0004177760860000024
其中,Q(s(k),a(k);θ)为表现神经网络输出。
CN202110647638.4A 2021-06-10 2021-06-10 基于改进回报函数的深度强化学习认知网络功率控制方法 Active CN113395757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110647638.4A CN113395757B (zh) 2021-06-10 2021-06-10 基于改进回报函数的深度强化学习认知网络功率控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110647638.4A CN113395757B (zh) 2021-06-10 2021-06-10 基于改进回报函数的深度强化学习认知网络功率控制方法

Publications (2)

Publication Number Publication Date
CN113395757A CN113395757A (zh) 2021-09-14
CN113395757B true CN113395757B (zh) 2023-06-30

Family

ID=77620237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110647638.4A Active CN113395757B (zh) 2021-06-10 2021-06-10 基于改进回报函数的深度强化学习认知网络功率控制方法

Country Status (1)

Country Link
CN (1) CN113395757B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114126021B (zh) * 2021-11-26 2024-04-09 福州大学 一种基于深度强化学习的绿色认知无线电的功率分配方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109474980A (zh) * 2018-12-14 2019-03-15 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN111726811A (zh) * 2020-05-26 2020-09-29 国网浙江省电力有限公司嘉兴供电公司 一种用于认知无线网络的切片资源分配方法及系统
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10929743B2 (en) * 2016-09-27 2021-02-23 Disney Enterprises, Inc. Learning to schedule control fragments for physics-based character simulation and robots using deep Q-learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109474980A (zh) * 2018-12-14 2019-03-15 北京科技大学 一种基于深度增强学习的无线网络资源分配方法
CN112383922A (zh) * 2019-07-07 2021-02-19 东北大学秦皇岛分校 一种基于优先经验重放的深度强化学习频谱共享方法
CN111726811A (zh) * 2020-05-26 2020-09-29 国网浙江省电力有限公司嘉兴供电公司 一种用于认知无线网络的切片资源分配方法及系统

Also Published As

Publication number Publication date
CN113395757A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN109962728B (zh) 一种基于深度增强学习的多节点联合功率控制方法
CN112367132B (zh) 基于强化学习解决认知无线电中的功率分配算法
CN110233755B (zh) 一种物联网中雾计算的计算资源和频谱资源分配方法
CN110167176B (zh) 一种基于分布式机器学习的无线网络资源分配方法
CN113038612B (zh) 基于深度学习的认知无线电功率控制方法
CN113225794B (zh) 一种基于深度强化学习的全双工认知通信功率控制方法
CN109787696B (zh) 基于案例推理与合作q学习的认知无线电资源分配方法
CN113395757B (zh) 基于改进回报函数的深度强化学习认知网络功率控制方法
US12117849B2 (en) UAV-assisted federated learning resource allocation method
Han et al. Balancing fairness and energy efficiency in SWIPT-based D2D networks: Deep reinforcement learning based approach
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN111930501B (zh) 一种面向多小区网络的基于无监督学习的无线资源分配方法
Chen et al. Intelligent control of cognitive radio parameter adaption: Using evolutionary multi-objective algorithm based on user preference
Liang et al. Energy efficient transmission in underlay CR-NOMA networks enabled by reinforcement learning
CN117119486A (zh) 一种保障多小区蜂窝网长期用户速率的深度无监督学习资源分配方法
Hou et al. Multicell power control under QoS requirements with CNet
Pu et al. A Multi-Parameter Intelligent Communication Anti-Jamming Method Based on Three-Dimensional Q-Learning
CN114051205B (zh) 基于强化学习动态多用户无线通信场景下边缘优化方法
AU2021101111A4 (en) Multivariate Resource Allocation Method for Heterogeneous Massive MIMO System Based on Network Slicing
CN108901074A (zh) 一种基于布谷鸟搜索算法的移动用户频谱分配方法
Anzaldo et al. Buffer transference strategy for power control in B5G-ultra-dense wireless cellular networks
Wang et al. Dynamic multichannel access for 5G and beyond with fast time-varying channel
Sun et al. Resource Allocation in Heterogeneous Network with Supervised GNNs
Tian et al. Application of Spectrum State Prediction Method based on CNN-LSTM Network in Communication Interference
Zhang et al. Distributed DNN Based User Association and Resource Optimization in mmWave Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant