CN111342920A - 一种基于q学习的信道选择方法 - Google Patents

一种基于q学习的信道选择方法 Download PDF

Info

Publication number
CN111342920A
CN111342920A CN202010024557.4A CN202010024557A CN111342920A CN 111342920 A CN111342920 A CN 111342920A CN 202010024557 A CN202010024557 A CN 202010024557A CN 111342920 A CN111342920 A CN 111342920A
Authority
CN
China
Prior art keywords
channel
action
learning
node
sensing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010024557.4A
Other languages
English (en)
Other versions
CN111342920B (zh
Inventor
裴二荣
刘珊
易鑫
鹿逊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010024557.4A priority Critical patent/CN111342920B/zh
Publication of CN111342920A publication Critical patent/CN111342920A/zh
Application granted granted Critical
Publication of CN111342920B publication Critical patent/CN111342920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种基于Q学习的信道选择方法,属于认知无线电技术领域。本发明包括以下步骤:S1:设置传感器节点的信道状态集合和动作集合;S2:初始化节点的状态和行为Q值,令迭代次数k=1;S3:随机感应一个信道;S4:判定感应信道的结果。若感知信道忙碌,则节点从周围无线电信号中收集能量,若感知为空闲,则估计该信道的可用时间;S5:计算执行该动作后的奖励值,并选择下一动作;S6:根据公式更新Q值函数;S7:令k←k+1,重复执行步S3~S6,直至Q矩阵收敛。本发明使SU能学习并适应信道的动态行为,通过Q学习选择单位能耗检测到的信道可用时间更大的信道优先感知,最大化频谱资源检测率,提高了频谱感知能效。

Description

一种基于Q学习的信道选择方法
技术领域
本发明属于认知无线电领域,涉及一种基于Q学习的信道选择方法。
背景技术
基于能量收集的认知无线传感器网络(EH-CRSN)是一种将认知无线电(CR)技术和能量收集(EH)技术引入传统WSN中的新型网络。传感器节点的认知功能可机会性检测空闲的授权频谱并进行接入,提高频谱利用率。但同时也增加了节点能耗。能量收集技术日益引起研究学者的关注,它从周围环境中汲取能量并转化为电能,特别适合于低能耗设备,不仅绿色环保无污染,更能极大的延长系统寿命。目前,基于射频能量收集的无线传感器网络更是比较活跃的研究领域。
Q-learning算法是一种可以确定最优决策策略的强化学习算法,同时也是一种异步动态规划方法,无需环境模型。将Q-learning应用于认知无线电传感器网络中,通过与环境交互,在环境的奖励或惩罚反馈之下,通过试错学习逐步调整策略,最终可产生符合预期的最优策略。不同于其他的模型策略,基于Q-learning的信道选择策略不用预先知道复杂的认知无线电环境,并能根据历史信息做出实时决策,可进行快速有效的频谱选择,进而降低频谱扫描开销,因此把Q-learning引入到EH-CRSN中有重要的研究意义。
在EH-CRSN中,目前常用的信道选择策略主要包括随机搜索、串行搜索等方法,采用Q-learning方法以提高频谱感知能效的信道选择策略比较匮乏。已有的频谱感知的信道选择算法缺乏动态学习的过程,且不能根据主用户实时的业务状态调整频谱感知信道序列的选择,客观上限制了信道频谱利用率的提高。而且频谱感知过程增加了节点能耗,充分利用能量收集技术,补充节点能量以延长网络的生命周期也是很有必要的。因此,设计一种能够适用于信道动态行为,同时提高频谱感知能效的信道选择方法,具有现实意义。
发明内容
有鉴于此,本发明提供了一种基于Q学习的信道选择方法,以解决基于能量收集无线认知传感器网络频谱感知中信道选择的问题。
为达到上述目的,本发明提供如下技术方案:
基于Q学习的信道选择方法,包括以下步骤:
S1:设置传感器节点的信道状态集合和动作集合;
S2:初始化传感器节点的状态和行为Q值,令迭代次数k=1;
S3:随机选择一个动作,即随机感应一个信道;
S4:判定感应信道的结果。若感知信道忙碌,则节点从周围无线电信号中收集能量,若感知为空闲,则估计该信道的可用时间;
S5:根据感应结果计算执行该动作后的环境奖励值,根据动作选择策略进行下一动作选择,随即节点进入下一状态;
S6:根据公式更新传感器节点的行为Q值函数;
S7:令k←k+1,重复执行步S3~S6,直至Q矩阵收敛,根据Q矩阵选择出最优的信道感知序列。
进一步,在步骤S1中,假设有i个授权信道,传感器节点可对这些授权信道进行频谱感知,当PU不在的时候可机会性接入。基于能量收集的认知无线传感器节点的状态集合表示为授权信道集合S={s1,s2,…si},即把SU当前所在信道视为一个状态。将传感器节点下次决定感知的信道作为动作,动作集合A={a1,a2,…ai},表示在给定状态下感知信道的任务。认知用户执行动作aj则代表下次感应j信道,同时智能体进入状态sj
进一步,在步骤S2中,给定PU业务负载,迭代次数最大值kmax,学习速率α和折扣因子γ,感知单个信道的能耗e等。设置节点能选择进行频谱感知的授权信道行为Q值Q(s,a)为零矩阵,从授权信道集合S中随机选择一个状态作为节点初始状态,令迭代次数为1,开始进入迭代。
在Q学习过程中,传感器节点作为智能体,学习目标是寻找一个最优策略,最大化学习者的长期累积回报,评价当前策略优劣的状态值函数表示为:
Figure BDA0002361986550000021
其中r(sk,ak)表示传感器节点从环境中获取的奖励值,p(sk+1|sk,ak)表示节点处于当前状态下sk时选择动作ak后转移到状态sk+1的概率。
进一步,在步骤S3中,随机选择感应一个信道。感应该信道后,可得到信道目前的占用情况。在信道业务方面,假设每个频段上的授权用户的业务流分布服从泊松过程。假设授权信道j的主用户PU分别以速率λj和μj的泊松过程到达和离开信道,易知信道忙碌和空闲的持续时间服从均值为
Figure BDA0002361986550000031
Figure BDA0002361986550000032
的指数分布。为模拟PU实时的信道使用规律,我们令PU驻留时间参数
Figure BDA0002361986550000033
是[10,100]的随机数。
进一步,在步骤S4中,考虑到实时的频谱感知会不可避免地带来较高的虚警概率,可根据节点感应信道的概率判断信道的情况。一个SU感知信道为空闲的概率包括两种情况,即信道被正确感知为空闲的概率和信道被错误感知为空闲的概率。因此,SU感应信道为空闲的概率可表示为:pidle=(1-pf)(1-pbs)+(1-pd)pbs,其中pd和pf分别表示检测概率和虚警概率,pbs表示信道实际忙碌的概率,这可以从信道流量模型中得到。为保证PU业务的服务质量,我们假设各信道的检测概率均大于最低的检测概率。
根据每个信道节点感知的情况判断感应信道的结果。若感知信道j忙碌,则传感器节点可利用该信道上PU的存在,收集射频信号能量以补充节点能量。若感知信道j为空闲,则估计该信道的可用时间。感应到信道j的可用时间表示为:
Figure BDA0002361986550000034
其中
Figure BDA0002361986550000035
表示为信道实际空闲概率:
Figure BDA0002361986550000036
Figure BDA0002361986550000037
信道空闲的平均可用时间可表示为:
Figure BDA0002361986550000038
进一步,在步骤S5中,根据感应结果计算执行该动作后的环境奖励值。我们的目标是为了提高频谱感知能效,通过Q学习优化频谱感应阶段感应到的信道持续时间,选择单位能耗检测到的信道可用时间更大的信道进行感知,最终在频谱感知的时间内得到最优的信道感知序列,以最大化数据传输的时间,也进一步提高了吞吐量。我们把节点单位能耗感知到的空闲信道时间作为回报函数,定义奖励值函数为:
Figure BDA0002361986550000039
其中
Figure BDA00023619865500000310
若回报值不为0,根据动作选择策略进行下一动作选择。动作选择策略采用ε贪婪选择策略。在Q-learning框架下,智能体在每次平衡探索和利用的过程中根据该策略以概率ε进行随机动作选择,以概率1-ε选择最大效用的动作以增快Q矩阵的收敛。随即节点进入下一状态。我们把节点当前感应的信道作为节点下一个状态。
进一步,在步骤S6中,根据公式更新行为Q值函数:
Figure BDA0002361986550000041
式中α表示学习速率且0<α<1,学习速率越大,表明保留之前训练的效果就越少。
Figure BDA0002361986550000042
表示折扣因子且
Figure BDA0002361986550000043
r(sk,ak)表示传感器节点在状态sk选择动作ak时所获得的即时奖励。学习速率和折扣因子协同作用调节Q矩阵的更新,进而影响Q算法的学习性能,α取值0.5,
Figure BDA0002361986550000044
取值0.8。
进一步,在步骤S7中,增加迭代次数,令i←i+1,重复执行步S3~S6,直至Q矩阵收敛,根据Q矩阵可选择出最优的信道感知序列。在稳定状态下,当频谱感知需求出现时,SU根据优先级列表选择信道进行扫描。
本发明的有益效果在于:考虑到现有EH-CRSN中基于频谱感知中信道选择的算法缺乏动态学习的过程,本发明设计了一种EH-CRSN中基于Q学习的提高频谱感知能效的信道选择方法。通过Q-learning方法学习并适应信道的动态行为,智能的进行信道选择,通过探索选择单位能耗检测到的信道可用时间更长的信道优先感知,更新相应Q值,准备信道的动态优先级列表,得到频谱感知的最优信道序列。而且从传感器认知功能能耗大的角度,提出了在频谱感知过程中利用PU忙碌时的射频信号收集能量,以补充节点能量的方案。
本发明适用于动态的无线电环境,最大化频谱资源检测率,提高了频谱感知能效,有利于节省能量,从而延长网络寿命。同时本方法能快速有效的进行频谱序列选择,可以减少频谱扫描开销。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明实施例的流程示意图;
图2为本发明实施例所述的Q-learning与信道交互过程模型。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
本发明针对动态环境中传感器节点频谱感知序列选择的问题,提出一种基于Q学习的信道选择方法。与一般的信道选择方法相比,能有效提高频谱感知能效,且通过Q学习能快速进行频谱感知序列的选择,降低频谱扫描的开销。基于Q-learning算法与变化的信道环境交互过程的模型如图2所示。
如图1所示,基于Q学习的信道选择方法,该方法包括以下步骤:
S1:设置传感器节点的信道状态集合和动作集合;
S2:初始化传感器节点的状态和行为Q值,令迭代次数k=1;
S3:随机选择一个动作,即随机感应一个信道;
S4:判定感应信道的结果。若感知信道忙碌,则节点从周围无线电信号中收集能量,若感知为空闲,则估计该信道的可用时间;
S5:根据感应结果计算执行该动作后的环境奖励值,根据动作选择策略进行下一动作选择,随即节点进入下一状态;
S6:根据公式更新传感器节点的行为Q值函数;
S7:令k←k+1,重复执行步S3~S6,直至Q矩阵收敛,根据Q矩阵选择出最优的信道感知序列。
假设有i个授权信道,传感器节点可对这些授权信道进行频谱感知,当PU不在的时候可机会性接入。基于能量收集的认知无线传感器节点的状态集合表示为授权信道集合S={s1,s2,…si},即把SU当前所在信道视为一个状态。将传感器节点下次决定感知的信道作为动作,动作集合A={a1,a2,…ai},表示在给定状态下感知信道的任务。认知用户执行动作aj则代表下次感应j信道,同时智能体进入状态sj
给定PU业务负载,迭代次数最大值kmax,学习速率α和折扣因子γ,感知单个信道的能耗e等。设置节点能选择进行频谱感知的授权信道行为Q值Q(s,a)为零矩阵,从授权信道集合S中随机选择一个状态作为节点初始状态,令迭代次数为1,开始进入迭代。
在Q学习过程中,传感器节点作为智能体,学习目标是寻找一个最优策略,最大化学习者的长期累积回报,评价当前策略优劣的状态值函数表示为:
Figure BDA0002361986550000061
其中r(sk,ak)表示传感器节点从环境中获取的奖励值,p(sk+1|sk,ak)表示节点处于当前状态下sk时选择动作ak后转移到状态sk+1的概率。
随机选择感应一个信道。感应该信道后,可得到信道目前的占用情况。在信道业务方面,假设每个频段上的授权用户的业务流分布服从泊松过程。假设授权信道j的主用户PU分别以速率λj和μj的泊松过程到达和离开信道,易知信道忙碌和空闲的持续时间服从均值为
Figure BDA0002361986550000062
Figure BDA0002361986550000063
的指数分布。为模拟PU实时的信道使用规律,我们令PU驻留时间参数
Figure BDA0002361986550000064
是[10,100]的随机数。
考虑到实时的频谱感知会不可避免地带来较高的虚警概率,可根据节点感应信道的概率判断信道的情况。一个SU感知信道为空闲的概率包括两种情况,即信道被正确感知为空闲的概率和信道被错误感知为空闲的概率。因此,SU感应信道为空闲的概率可表示为:pidle=(1-pf)(1-pbs)+(1-pd)pbs,其中pd和pf分别表示检测概率和虚警概率,pbs表示信道实际忙碌的概率,这可以从信道流量模型中得到。为保证PU业务的服务质量,我们假设各信道的检测概率均大于最低的检测概率。
根据每个信道节点感知的情况判断感应信道的结果。若感知信道j忙碌,则传感器节点可利用该信道上PU的存在,收集射频信号能量以补充节点能量。若感知信道j为空闲,则估计该信道的可用时间。感应到信道j的可用时间表示为:
Figure BDA0002361986550000065
其中
Figure BDA0002361986550000066
表示为信道实际空闲概率:
Figure BDA0002361986550000067
Figure BDA0002361986550000068
信道空闲的平均可用时间可表示为:
Figure BDA0002361986550000069
根据感应结果计算执行该动作后的环境奖励值。我们的目标是为了提高频谱感知能效,通过Q学习优化频谱感应阶段感应到的信道持续时间,选择单位能耗检测到的信道可用时间更大的信道进行感知,最终在频谱感知的时间内得到最优的信道感知序列,以最大化数据传输的时间,也进一步提高了吞吐量。我们把节点单位能耗感知到的空闲信道时间作为回报函数,定义奖励值函数为:
Figure BDA00023619865500000610
其中
Figure BDA0002361986550000071
若回报值不为0,根据动作选择策略进行下一动作选择。动作选择策略采用ε贪婪选择策略。在Q-learning框架下,智能体在每次平衡探索和利用的过程中根据该策略以概率ε进行随机动作选择,以概率1-ε选择最大效用的动作以增快Q矩阵的收敛。随即节点进入下一状态。我们把节点当前感应的信道作为节点下一个状态。
根据公式更新行为Q值函数:
Figure BDA0002361986550000072
式中α表示学习速率且0<α<1,学习速率越大,表明保留之前训练的效果就越少。
Figure BDA0002361986550000073
表示折扣因子且
Figure BDA0002361986550000074
r(sk,ak)表示传感器节点在状态sk选择动作ak时所获得的即时奖励。学习速率和折扣因子协同作用调节Q矩阵的更新,进而影响Q算法的学习性能,α取值0.5,
Figure BDA0002361986550000075
取值0.8。
增加迭代次数,令k←k+1,重复执行步S3~S6,直至Q矩阵收敛,根据Q矩阵可选择出最优的信道感知序列。在稳定状态下,当频谱感知需求出现时,SU根据优先级列表选择信道进行扫描。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (8)

1.一种基于Q学习的信道选择方法,其特征在于:具体步骤如下:
S1:设置传感器节点的信道状态集合和动作集合;
S2:初始化传感器节点的状态和行为Q值,令迭代次数k=1;
S3:随机选择一个动作,即随机感应一个信道;
S4:判定感应信道的结果。若感知信道忙碌,则节点从周围无线电信号中收集能量,若感知为空闲,则估计该信道的可用时间;
S5:根据感应结果计算执行该动作后的环境奖励值,根据动作选择策略进行下一动作选择,随即节点进入下一状态;
S6:根据公式更新传感器节点的行为Q值函数;
S7:令k←k+1,重复执行步S3~S6,直至Q矩阵收敛,根据Q矩阵选择出最优的信道感知序列。
2.根据权利要求1所述的基于Q学习的信道选择方法,其特征在于:在步骤S1中,假设有i个授权信道,基于能量收集的认知无线传感器节点的状态集合表示为授权信道集合S={s1,s2,…si},即把SU当前所在信道视为一个状态。将传感器节点下次决定感知的信道作为动作,动作集合A={a1,a2,…ai}。认知用户执行动作aj则代表下次感应j信道,同时智能体进入状态sj
3.根据权利要求2所述的基于Q学习的信道选择方法,其特征在于:在步骤S2中,设置节点能选择进行频谱感知的授权信道行为Q值Q(s,a)为零矩阵,从授权信道集合S中随机选择一个状态作为节点初始状态,令迭代次数为1,开始进入迭代。
在Q学习过程中,传感器节点作为智能体,学习目标是寻找一个最优策略,最大化学习者的长期累积回报,评价当前策略优劣的状态值函数表示为:
Figure FDA0002361986540000011
其中r(sk,ak)表示传感器节点从环境中获取的奖励值,p(sk+1|sk,ak)表示节点处于当前状态下sk时选择动作ak后转移到状态sk+1的概率。
4.根据权利要求3所述的基于Q学习的信道选择方法,其特征在于:在步骤S3中,随机选择感应一个信道。感应该信道后,可得到信道目前的占用情况。在信道业务方面,假设每个频段上的授权用户的业务流分布服从泊松过程。假设授权信道j的主用户PU分别以速率λj和μj的泊松过程到达和离开信道。为模拟PU实时的信道使用规律,我们令PU驻留时间参数
Figure FDA0002361986540000028
是[10,100]的随机数。
5.根据权利要求4所述的基于Q学习的信道选择方法,其特征在于:在步骤S4中,根据每个信道节点感知的情况判断感应信道的结果。一个SU感知信道为空闲的概率包括两种情况,即信道被正确感知为空闲的概率和信道被错误感知为空闲的概率。因此,SU感应信道为空闲的概率可表示为:pidle=(1-pf)(1-pbs)+(1-pd)pbs,其中pd和pf分别表示检测概率和虚警概率,pbs表示信道实际忙碌的概率,这可以从信道流量模型中得到。为保证PU业务的服务质量,我们假设各信道的检测概率均大于最低的检测概率。
若感知信道j忙碌,则传感器节点可利用该信道上PU的存在,收集射频信号能量以补充节点能量。若感知信道j为空闲,则估计该信道的可用时间。感应到信道j的可用时间表示为:
Figure FDA0002361986540000021
其中
Figure FDA0002361986540000022
表示为信道实际空闲概率:
Figure FDA0002361986540000023
Figure FDA0002361986540000024
信道空闲的平均可用时间可表示为:
Figure FDA0002361986540000025
6.根据权利要求5所述的基于Q学习的信道选择方法,其特征在于:在步骤S5中,根据感应结果计算执行该动作后的环境奖励值。我们的目标是为了提高频谱感知能效,通过Q学习优化频谱感应阶段感应到的信道持续时间,选择单位能耗检测到的信道可用时间更大的信道进行感知,最终在频谱感知的时间内得到最优的信道感知序列。我们把节点单位能耗感知到的空闲信道时间作为回报函数,定义奖励值函数为:
Figure FDA0002361986540000026
其中
Figure FDA0002361986540000027
若回报值不为0,根据动作选择策略进行下一动作选择。动作选择策略采用ε贪婪选择策略。在Q-learning框架下,智能体在每次平衡探索和利用的过程中根据该策略以概率ε进行随机动作选择,以概率1-ε选择最大效用的动作以增快Q矩阵的收敛。随即节点进入下一状态。我们把节点当前感应的信道作为节点下一个状态。
7.根据权利要求6所述的基于Q学习的信道选择方法,其特征在于:在步骤S6中,根据公式更新行为Q值函数:
Figure FDA0002361986540000031
式中α表示学习速率且0<α<1,学习速率越大,表明保留之前训练的效果就越少。Υ表示折扣因子且0≤Υ<1。r(sk,ak)表示传感器节点在状态st选择动作at时所获得的即时奖励。学习速率和折扣因子协同作用调节Q矩阵的更新,进而影响Q算法的学习性能,α取值0.5,Υ取值0.8。
8.根据权利要求7所述的基于Q学习的信道选择方法,其特征在于:在步骤S7中,增加迭代次数,令k←k+1,重复执行步S3~S6,直至Q矩阵收敛,根据Q矩阵可选择出最优的信道感知序列。在稳定状态下,当频谱感知需求出现时,SU根据优先级列表选择信道进行扫描。
CN202010024557.4A 2020-01-10 2020-01-10 一种基于q学习的信道选择方法 Active CN111342920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010024557.4A CN111342920B (zh) 2020-01-10 2020-01-10 一种基于q学习的信道选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010024557.4A CN111342920B (zh) 2020-01-10 2020-01-10 一种基于q学习的信道选择方法

Publications (2)

Publication Number Publication Date
CN111342920A true CN111342920A (zh) 2020-06-26
CN111342920B CN111342920B (zh) 2021-11-02

Family

ID=71187006

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010024557.4A Active CN111342920B (zh) 2020-01-10 2020-01-10 一种基于q学习的信道选择方法

Country Status (1)

Country Link
CN (1) CN111342920B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367131A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于强化学习的跳跃式频谱感知方法
CN112888071A (zh) * 2021-01-22 2021-06-01 中国人民解放军国防科技大学 基于快速强化学习的干扰规避方法、装置、设备及介质
CN114205053A (zh) * 2021-11-15 2022-03-18 北京邮电大学 卫星通信系统强化学习自适应编码调制方法、系统及装置
CN117500015A (zh) * 2023-11-02 2024-02-02 中国人民解放军国防科技大学 一种基于q学习的无线自组网抗干扰路由智能决策方法
WO2024055739A1 (zh) * 2022-09-16 2024-03-21 青岛海尔智能技术研发有限公司 用于确定上行信道的方法及终端、网络设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102256261A (zh) * 2011-07-14 2011-11-23 东北大学 一种具有网络认知能力的动态频谱接入方法
CN106358203A (zh) * 2016-08-30 2017-01-25 湖南大学 一种分布式认知无线传感器网络中基于q学习的频谱分配方法
CN108924944A (zh) * 2018-07-19 2018-11-30 重庆邮电大学 基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法
CN110190918A (zh) * 2019-04-25 2019-08-30 广西大学 基于深度q学习的认知无线传感器网络频谱接入方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102256261A (zh) * 2011-07-14 2011-11-23 东北大学 一种具有网络认知能力的动态频谱接入方法
CN106358203A (zh) * 2016-08-30 2017-01-25 湖南大学 一种分布式认知无线传感器网络中基于q学习的频谱分配方法
CN108924944A (zh) * 2018-07-19 2018-11-30 重庆邮电大学 基于Q-learning算法的LTE与WiFi共存竞争窗口值的动态优化方法
CN110190918A (zh) * 2019-04-25 2019-08-30 广西大学 基于深度q学习的认知无线传感器网络频谱接入方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IBRAHIM MUSTAPHA等: "An energy efficient Reinforcement Learning based Cooperative Channel Sensing for Cognitive Radio Sensor Networks", 《PERVASIVE AND MOBILE COMPUTING》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367131A (zh) * 2020-10-08 2021-02-12 大连理工大学 基于强化学习的跳跃式频谱感知方法
CN112367131B (zh) * 2020-10-08 2021-09-24 大连理工大学 基于强化学习的跳跃式频谱感知方法
CN112888071A (zh) * 2021-01-22 2021-06-01 中国人民解放军国防科技大学 基于快速强化学习的干扰规避方法、装置、设备及介质
CN114205053A (zh) * 2021-11-15 2022-03-18 北京邮电大学 卫星通信系统强化学习自适应编码调制方法、系统及装置
CN114205053B (zh) * 2021-11-15 2023-04-07 北京邮电大学 卫星通信系统强化学习自适应编码调制方法、系统及装置
WO2024055739A1 (zh) * 2022-09-16 2024-03-21 青岛海尔智能技术研发有限公司 用于确定上行信道的方法及终端、网络设备
CN117500015A (zh) * 2023-11-02 2024-02-02 中国人民解放军国防科技大学 一种基于q学习的无线自组网抗干扰路由智能决策方法

Also Published As

Publication number Publication date
CN111342920B (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN111342920B (zh) 一种基于q学习的信道选择方法
CN110809306B (zh) 一种基于深度强化学习的终端接入选择方法
CN102546059B (zh) 认知自组织网络中基于无监督聚类的分布式合作频谱感知方法
CN102638802B (zh) 一种分层协作联合频谱感知算法
CN103929255B (zh) 一种基于多信道的认知用户能效优化方法
CN109525956B (zh) 无线传感网中基于数据驱动的分簇的节能的数据收集方法
CN110119545B (zh) 一种基于栈式自编码器的非侵入式电力负荷识别方法
CN103702401B (zh) 基于用户行为分析的移动网络节能方法
CN113922899B (zh) 基于神经网络和Welch变换的频谱感知接入方法
CN111278161B (zh) 基于能量采集与深度强化学习的wlan协议设计与优化方法
CN105188124A (zh) 多用户ofdma中继系统中非完美csi下的鲁棒博弈功率控制方法
CN111465023B (zh) 一种基于历史能量信息的自适应双门限频谱感知方法
CN113365323A (zh) 一种用于无线传感网络中的低能耗多径传输方法
Zhong et al. Joint optimal energy-efficient cooperative spectrum sensing and transmission in cognitive radio
CN102857938A (zh) 认知无线电中频谱环境学习与预测
CN105813123A (zh) 基于预测呼叫阻塞率预筛选网络的异构网络接入选择方法
CN113141616B (zh) O+b域数据+业务场景自适应识别的节能基站选择及节能模式选取的方法、装置和系统
CN110461006A (zh) 降低wlan干扰方法、装置及终端设备
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN113709592A (zh) 基于智能电表的用电信息采集系统及其运行方法
CN106954268A (zh) 一种sdn架构下接入网资源分配方法
CN104394599B (zh) 一种应用于m2m网络的csma/ca协议的设计方法
CN106301627A (zh) 一种认知自组织网络中分布式协作频谱感知方法
CN114884595A (zh) 一种基于强化学习的认知无人机频谱感知方法
CN111313990B (zh) 基于信号实时似然比的频谱感知方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant