CN108076467B - 频谱资源受限下的广义感知模型及分布式q学习接入方法 - Google Patents

频谱资源受限下的广义感知模型及分布式q学习接入方法 Download PDF

Info

Publication number
CN108076467B
CN108076467B CN201711477471.1A CN201711477471A CN108076467B CN 108076467 B CN108076467 B CN 108076467B CN 201711477471 A CN201711477471 A CN 201711477471A CN 108076467 B CN108076467 B CN 108076467B
Authority
CN
China
Prior art keywords
channel
perception
user
sequence
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711477471.1A
Other languages
English (en)
Other versions
CN108076467A (zh
Inventor
徐煜华
李利旺
方韬
陈学强
杨旸
张玉立
孔利君
李文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN201711477471.1A priority Critical patent/CN108076467B/zh
Publication of CN108076467A publication Critical patent/CN108076467A/zh
Application granted granted Critical
Publication of CN108076467B publication Critical patent/CN108076467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/14Spectrum sharing arrangements between different networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/002Transmission of channel access control information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W74/00Wireless channel access
    • H04W74/08Non-scheduled access, e.g. ALOHA
    • H04W74/0833Random access procedures, e.g. with 4-step access
    • H04W74/0841Random access procedures, e.g. with 4-step access with collision treatment
    • H04W74/085Random access procedures, e.g. with 4-step access with collision treatment collision avoidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种频谱资源受限下的广义感知模型及分布式Q学习感知接入方法。所述模型为:考虑频谱资源受限和网络环境的动态性,针对多时隙信道感知顺序优化问题,提出一种基于添零拉丁方矩阵的信道感知机制。所述方法步骤如下:首先构建博弈模型,参与者是网络内所有认知用户;基于所述广义感知模型,各个用户从相应的添零拉丁方矩阵中随机选择一个信道感知顺序策略并进行感知;每个活跃用户计算当前状态的回报值并以此为依据进行下一时隙的Q值更新和概率更新;认知用户循环进行时隙感知,直至所有认知用户的信道感知顺序策略选择全部实现收敛。本发明在频谱资源受限条件下,有效降低了多时隙信道感知顺序冲突,提高了系统认知用户的吞吐量。

Description

频谱资源受限下的广义感知模型及分布式Q学习接入方法
技术领域
本发明属于无线通信技术领域,提出了一种频谱资源受限情况下的广义信道感知模型及分布式Q学习算法。
背景技术
频谱需求的急剧增长和某些频段的低效利用促生了机会频谱接入技术(Opportunistic Spectrum Access,OSA)。机会频谱接入需要可重新配置的网络设备,被称为认知无线电(Cognitive Radio,CR)设备,它可以根据其相应环境刺激而改变行为(参考文献J.Mitola III and G.Q.Maguire Jr.,“Cognitive Radio:Making Software Radiomore Personal,”IEEE Pers.Communications,vol.6,no.4,pp.13–18,Aug.1999)。这些认知设备或认知用户(Secondary User,SU)需要通过频谱检测确保当主用户(Primary User,PU)活跃时不占用该频段,从而避免对主用户造成干扰。因此,机会频谱接入技术可以更高效利用授权频谱。
在机会频谱接入中,用户采用多时隙传输模式。次级用户在每个时隙的第一阶段感知信道,第二阶段用来接入空闲信道(参考文献Z.Khan,J.
Figure GDA0001606843070000011
L.DaSilva,andM.Latva-aho,“Autonomous sensing order selection strategies exploiting channelaccess information,”IEEE Trans.Mobile Comput.,vol.12,no.2,pp.274–288,Feb.2013.)。同时为了确保不影响主用户工作,即当主用户要工作时,认知用户应立即让出该信道(参考文献Q.Zhao,S.Geirhofer,L.Tong,and B.M.Sadler,“Opportunisticspectrum access via periodic channel sensing,”IEEE Transactions on SignalProcessing,vol.56,no.2,pp.785–796,Feb.2008.),主用户需要对频谱进行周期感知。目前的周期感知策略主要分为两类:单信道周期感知策略和信道顺序周期感知策略。在单信道周期感知策略下,认知用户在每个时隙首先选择单个信道进行感知,如果发现空闲则立即接入,否则在该时隙剩余时间保持静默。在信道顺序周期感知策略下,次级用户首先选择一个信道感知顺序,然后在多时隙内按照信道感知顺序对信道依次感知。在信道顺序周期感知策略相关研究中,R.Fan等人针对两个次级用户网络通过一个协调器实现最佳感知顺序(参考文献R.Fan and H.Jiang,“Channel sensing-order setting in cognitiveradio networks:a two-user case,”IEEE Transactions on Vehicular Technology,vol.58,no.9,pp.4997–5008,Nov.2009.),但是当认知网络中存在大量用户时,协调难度很大。H.T.Cheng等人假设认知用户知道每个信道的增益,并且每个认知用户根据信道速率降序依次排列信道(参考文献H.T.Cheng and W.Zhuang,“Simple channel sensing orderin cognitive radio networks,”IEEE Journal on Selected Areas inCommunications,vol.29,no.4,pp.676–688,2011.)。Z.Khan等人为了避免认知用户之间发生碰撞,提出了一种自适应持续策略算法(参考文献Z.Khan,J.
Figure GDA0001606843070000021
L.DaSilva,andM.Latva-aho,“Autonomous sensing order selection strategies exploiting channelaccess information,”IEEE Trans.Mobile Comput.,vol.12,no.2,pp.274–288,Feb.2013.)。Y.Xu等人考虑用户动态性、网络环境不确定信息等,将问题建模为非合作博弈模型,并提出了一种在线随机学习算法(参考文献Y.Xu,Q.Wu,J.Wang,L.Shen,andA.Anpalagan,“Robust multiuser sequential channel sensing and access indynamic cognitive radio networks:Potential games and stochastic leraning,”IEEE Transactions on Vehicular Technology,vol.64,no.2,pp.3594-3607,August.2015.)。
然而,上述提到的研究中大多数忽略了频谱资源受限(认知用户数大于信道数)和网络环境动态性改变的问题,而在实际的通信场景中,系统资源并非时刻充足,用户并不是时刻活跃的,同时认知网络中信道占用情况也是时变的。
发明内容
本发明的目的在于提供一种能够降低多时隙信道感知顺序冲突,提高了系统认知用户吞吐量的频谱资源受限下的广义感知模型以及分布式Q学习感知接入方法。
实现本发明目的的技术解决方案为:
一种频谱资源受限下的广义感知模型,信道感知顺序周期由多个时隙周期组成。时隙周期分为两个阶段:感知阶段和传输阶段;网络内所有认知用户,在资源受限情况下,即认知用户数大于信道数时,每个时隙内选择单个信道进行感知;认知用户根据信道感知情况,判断在当前时隙剩余时间内选择接入或者保持静默;所有用户从添零拉丁方矩阵中选择信道感知顺序策略进行感知;各个认知用户受到的信道感知顺序冲突水平为,该认知用户与其它认知用户同时接入同一个空闲信道所造成的累积冲突。
一种基于所述频谱资源受限下广义感知模型的分布式Q学习感知接入方法,包括以下步骤:
步骤1,将多时隙信道感知优化问题建模为势能博弈模型,博弈的参与者是网络内所有认知用户;
步骤2,初始化所有用户的策略空间集,Q值以及用户对于每个策略的选择概率;
步骤3,每个活跃用户依照概率从自身策略空间集中选择一个信道感知顺序策略,并进行信道感知、竞争和数据传输过程,计算在当前信道感知顺序周期选择此时信道感知顺序策略的效用函数值,并以此作为选择当前策略的回报值;
步骤4,每个活跃用户根据回报值更新Q值,并进一步更新每个策略的选择概率;
步骤5,循环步骤3~步骤5进行信道感知,直至每个认知用户选择策略收敛至稳定,循环结束。
进一步地,步骤1中将多时隙信道感知顺序优化问题建模为势能博弈模型,该博弈模型
Figure GDA00016068430700000310
定义为:
Figure GDA0001606843070000031
该博弈模型
Figure GDA0001606843070000032
中包含三个组成部分,
Figure GDA0001606843070000033
为活跃认知用户集合,即博弈参与者;An为活跃认知用户n的信道感知顺序策略空间集合;un为活跃认知用户n的效用函数。
进一步地,步骤3中每个活跃用户计算在当前信道感知顺序周期选择此时感知顺序策略的效用函数值,具体如下:
一个信道感知顺序周期由多个时隙周期组成;一个时隙周期分为两个阶段:感知阶段和传输阶段;网络内所有认知用户,在每个时隙内选择单个信道进行感知,并根据感知情况决定在剩余时间内接入信道或者保持静默;定义τ表示每个时隙内用户感知单个信道所需的归一化时长;定义用户n的吞吐量
Figure GDA0001606843070000034
为每个时隙用来传输数据的归一化时长,且
Figure GDA0001606843070000035
的定义如式(1)所示:
Figure GDA0001606843070000037
其中ji表示第j个信道感知顺序周期中第i个时隙。
定义用户n在第j个信道感知顺序周期的平均吞吐量则为
Figure GDA0001606843070000038
Figure GDA0001606843070000039
的定义如式(2)所示:
Figure GDA0001606843070000041
其中N为所有认知用户的个数。
记此时认知用户n选择的信道感知顺序策略为an=(qn1,qn2,...,qnN),定义任意用户n在第k个信道感知顺序周期时选择信道感知顺序策略rn的效用函数为
Figure GDA0001606843070000042
Figure GDA0001606843070000043
的定义如式(3)所示:
Figure GDA0001606843070000044
进一步地,步骤4中每个活跃用户根据回报值更新Q值,并进一步更新每个策略的选择概率,具体如下:
用户利用如下公式更新Q值:
Figure GDA0001606843070000045
其中
Figure GDA0001606843070000046
表示用户n在第k个信道感知顺序周期选择信道感知顺序策略an的更新后的Q值,
Figure GDA0001606843070000047
表示用户n在第k个信道感知顺序周期时选择信道感知顺序策略an的效用函数。
更新Q值后,用户进一步更新每个策略的选择概率,选择概率更新如式(5)如示:
Figure GDA0001606843070000048
其中
Figure GDA0001606843070000049
表示用户n在接下来的第k+1个信道感知顺序周期选择信道感知顺序策略an的概率,γ为学习参数。
本发明与现有技术相比,其显著优点在于:(1)充分考虑频谱资源受限(认知用户数大于信道数)和网络环境的动态性,针对多时隙信道感知顺序优化问题,提出一种基于添零拉丁方矩阵的信道感知机制和受限情况下的广义感知模型,更好地刻画了频谱资源受限下多用户感知信道的竞争与干扰问题;(2)将多时隙信道感知顺序优化问题构建为势能博弈,并利用分布式Q学习算法求解问题,达到系统存在的纳什均衡点,从而降低资源受限下多时隙信道感知顺序冲突,提高了系统认知用户的吞吐量。
附图说明
图1是本发明频谱资源受限情况下的广义感知模型的系统示意图。
图2是本发明M=3时的拉丁方阵。
图3是本发明添零拉丁方矩阵生成信道感知顺序策略选择的过程示意图。
图4是本发明实施例中系统用户的干扰拓扑示意图。
图5是本发明实施例中模型方法与现有模型方法的网络吞吐量性能比较示意图。
具体实施方式
本发明频谱资源受限情况下的广义感知模型,旨在对多时隙信道感知顺序优化问题进行更加精确地刻画。考虑频谱资源受限(认知用户数大于信道数)和网络环境的动态性,针对多时隙信道感知顺序优化问题,提出一种基于添零拉丁方矩阵的信道感知机制。信道感知顺序周期由多个时隙周期组成。时隙周期分为两个阶段:感知阶段和传输阶段。网络内所有认知用户根据感知情况选择接入信道或者保持静默。
图1是本发明所提出的频谱资源受限下的广义感知模型,对多时隙信道感知进行如下刻画:考虑频谱资源受限(认知用户数大于信道数)和网络环境的动态性,即认知用户并非时刻活跃,只有在有数据传输的时候才活跃,认知网络中信道占用情况也是时变的。信道感知顺序周期由多个时隙周期组成。时隙周期分为两个阶段:感知阶段和传输阶段。网络内所有认知用户根据感知情况选择接入信道或者保持静默。
在该模型中,包括1个宏基站,N个微蜂窝,N个认知用户,M个正交可用信道,且N>M。在用户数大于信道数时,必然存在多个用户选择相同的信道感知顺序策略从而发生冲突,结合图2与图3,本发明提出一种添零拉丁方矩阵来避免冲突。拉丁方矩阵指的是每个信道索引在矩阵的每一行和每一列中只出现一次的矩阵。为了便于理解,图2给出了信道数M=3时的拉丁方矩阵。但频谱资源受限下,即N>M时,由于信道感知顺序策略空间集合拉丁方矩阵中共有M种策略,必然存在大于或等于两个用户选择相同的信道感知顺序策略从而发生碰撞。为解决该问题,构想在信道感知顺序策略空间集合拉丁方矩阵中第一行添加(N-M)个0,0代表用户不感知信道,从而生成新的策略空间集合,共有N种策略。则此时用户n的信道感知顺序rn=(qn1,qn2,...,qnM)变为rn=(qn1,qn2,...,qnN),即用户在第一个时隙感知信道感知顺序策略中的第一个信道,第二个时隙感知信道感知顺序策略中的第二个信道,依次进行感知。因此可实现每个用户选择的信道感知顺序策略互不相同,从而避免发生碰撞。
本发明基于干扰水平与吞吐量之间的近似反比例关系,将优化目标设计为最小化全网累积干扰水平,以达到最大化网络吞吐量的目标。本发明基于所述频谱资源受限下广义感知模型的分布式Q学习感知接入方法,包括以下步骤:
步骤1,将多用户多时隙接入信道问题建模为势能博弈模型,博弈的参与者是网络内所有认知用户;
步骤2,初始化所有用户的策略空间集,Q值以及用户对于每个策略的选择概率;
步骤3,每个活跃用户依照概率从自身策略空间集中选择一个信道感知顺序策略,并进行信道感知、竞争和数据传输过程,计算在当前信道感知顺序周期选择此时信道感知顺序策略的效用函数值,并以此作为选择当前策略的回报值;
步骤4,每个活跃用户根据回报值更新Q值,并进一步更新每个策略的选择概率;
步骤5,循环步骤3~步骤5进行信道感知,直至每个认知用户选择策略收敛至稳定,循环结束。
本发明的具体实施如下:
一、步骤1中所述将多时隙信道感知顺序优化问题建模为势能博弈模型,该博弈模型
Figure GDA0001606843070000061
定义为:
Figure GDA0001606843070000062
该博弈模型
Figure GDA0001606843070000063
中包含三个组成部分:
Figure GDA0001606843070000064
为活跃认知用户集合,即博弈参与者;An为活跃认知用户n的信道感知顺序策略空间集合;un为活跃认知用户n的效用函数。
二、步骤3所述每个活跃用户计算在当前信道感知顺序周期选择此时信道感知顺序策略的效用函数值,具体如下:
一个信道感知顺序周期由多个时隙周期组成;一个时隙周期分为两个阶段:感知阶段和传输阶段;网络内所有认知用户,在每个时隙内选择单个信道进行感知,并根据感知情况决定在剩余时间内接入信道或者保持静默;定义τ表示每个时隙内用户感知单个信道所需的归一化时长;定义用户n的吞吐量
Figure GDA0001606843070000071
为每个时隙用来传输数据的归一化时长,且
Figure GDA0001606843070000072
的定义如式(1)所示:
Figure GDA0001606843070000073
其中ji表示第j个信道感知顺序周期中第i个时隙。
定义用户n在第j个信道感知顺序周期的平均吞吐量则为
Figure GDA0001606843070000074
Figure GDA0001606843070000075
的定义如式(2)所示:
Figure GDA0001606843070000076
其中N为所有认知用户的个数。
记此时认知用户n选择的信道感知顺序策略为an=(qn1,qn2,...,qnN),定义任意用户n在第k个信道感知顺序周期时选择信道感知顺序策略rn的效用函数为
Figure GDA00016068430700000712
Figure GDA0001606843070000077
的定义如式(3)所示:
Figure GDA0001606843070000078
三、步骤4所述每个活跃用户根据回报值更新Q值,并进一步更新每个策略的选择概率,具体如下:
用户利用如下公式更新Q值:
Figure GDA0001606843070000079
其中
Figure GDA00016068430700000710
表示用户n在第k个信道感知顺序周期选择信道感知顺序策略an的更新后的Q值,
Figure GDA00016068430700000711
表示用户n在第k个信道感知顺序周期时选择信道感知顺序策略an的效用函数。
更新Q值后,用户进一步更新每个策略的选择概率,选择概率更新如式(5)如示:
Figure GDA0001606843070000081
其中
Figure GDA0001606843070000082
表示用户n在接下来的第k+1个信道感知顺序周期选择信道感知顺序策略an的概率,γ为学习参数。
四、博弈的优化目标:考虑到不完美信道感知情况,即漏检情况和误检情况,记Pα和Pβ分别为误检概率和漏检概率,Pc为信道c空闲概率。在不完美信道感知情况下,信道c被用户n感知为空闲的概率为Pc(1-Pα)Pβ。同时,考虑到用户并不是时刻活跃的,只有活跃用户才参与上述过程,记
Figure GDA0001606843070000089
为当前时隙活跃用户的集合,an=(qn1,qn2,...,qnN)和am=(qm1,qm2,...,qmN)分别为用户n和用户m的信道感知顺序。活跃用户集合
Figure GDA0001606843070000083
中用户n的冲突水平定义为:
Figure GDA0001606843070000084
其中,
Figure GDA0001606843070000085
⊙是位异或符号,
Figure GDA0001606843070000086
是用户n信道感知序列中信道qnl空闲的概率,Pα是误检概率,Pβ是漏检概率,δ是指示函数,满足:
Figure GDA0001606843070000087
其中,dnm为活跃用户n与m之间的实际距离,d0为邻居用户距判别门限值。
由于用户选择信道感知顺序策略后的效用值受其他活跃用户的策略影响,因此用户n的效用函数可表示为
Figure GDA0001606843070000088
如式(9)所示:
Figure GDA0001606843070000091
用户以(9)的效用函数为优化目标进行多时隙信道感知选择,最终可以实现全网累积干扰水平最小化的优化目标如式(10)所示:
Figure GDA0001606843070000092
公式(10)说明,多时隙信道感知的博弈优化目标为最小化全网累积干扰水平。以公式(10)为优化目标进行多时隙信道感知选择,能够实现最小化全网累积干扰水平。
进一步地,进行多时隙信道感知,步骤如下:
1)初始化:每个用户
Figure GDA0001606843070000093
随机从添零拉丁方矩阵中选择一个信道感知顺序策略进行感知。
2)感知:各个用户根据自身选择的信道感知顺序策略an=(qn1,qn2,...,qnN)依次对信道进行感知,即用户在第一个时隙感知信道感知顺序策略中的第一个信道,第二个时隙感知信道感知顺序策略中的第二个信道,依次进行感知。各认知用户根据感知情况选择接入信道或者保持静默,计算在当前迭代次数时选择当前策略得到的回报值。
3)计算回报:各认知用户根据感知情况选择接入信道或者保持静默,并按照公式(3)计算选择当前策略得到的回报值。
4)Q值更新和概率更新:各个用户根据当前状态分别按照公式(4)和(5)进行Q值更新和概率更新。
实施例1
本发明的一个具体实施例如下:系统仿真采用Matlab软件,参数设定不影响一般性。该实施例验证所提模型与方法的有效性和与收敛性。场景设置为在100m×100m的区域内,用户数N=10,信道数M=4,该网络中干扰距离门限值d0=30m。每个时隙时长为T=100ms,感知单个信道时长为Tsense=5ms,归一化后感知时长为τ=0.05。仿真中加入了不完美信道感知的情况,误检概率Pα=0.05,漏检概率Pβ=0.1。Q学习算法参数γ=1000,无悔学习算法参数μ=4。
本发明提出的频谱资源受限情况下的广义感知模型的分布式Q学习算法,具体步骤如下:
步骤1,初始化:初始化迭代次数k=0,每个认知用户
Figure GDA0001606843070000101
从添零拉丁方矩阵中随机选择一个信道感知顺序策略进行感知。
步骤2,计算回报值:每个活跃用户根据感知结果计算选择各自效用函数值,并以此作为选择当前策略的回报值。
步骤3,Q值更新和概率更新:各个用户根据回报值进行Q值更新和概率更新。
步骤4,策略收敛:循环执行步骤2、3多次后,直至每个认知用户选择一个信道感知顺序策略均接近1时(大于0.99),系统实现收敛。
图4为系统用户的干扰拓扑示意图。图中圆点表示认知用户,其覆盖半径为10m,虚线表示认知用户之间因为距离小于干扰距离门限值而产生的干扰。从图4中可以看出,当前认知用户分布密集,认知用户之间的干扰关系复杂。优化全网吞吐量为目标,图5展示了所提方法模型与传统方法模型的比较。从图5可以看出,所提模型与方法在频谱资源受限条件下有效降低了感知顺序冲突,且系统用户总吞吐量性能明显优于随机选择算法。
综上,本发明提出的频谱资源受限情况下的广义感知模型考虑频谱资源受限(认知用户数大于信道数)和网络环境的动态性,针对多时隙信道感知顺序优化问题,提出一种基于添零拉丁方矩阵的信道感知机制,解决了资源受限下多时隙信道感知顺序优化问题,降低了全网累积干扰水平,增加了全网吞吐量;在达到相同效果的同时,提升了优化问题的收敛速度;利用分布式Q学习感知接入方法实现了完全分布式的时隙接入,避免了集中式方式存在的计算量大的缺陷,更加适用于超密集网络场景。

Claims (4)

1.一种基于频谱资源受限下的广义感知模型的分布式Q学习感知接入方法,其特征在于,考虑频谱资源受限和网络环境的动态性,针对多时隙信道感知顺序优化问题,建立一种基于添零拉丁方矩阵的信道感知机制,信道感知顺序周期由多个时隙周期组成,时隙周期分为两个阶段:感知阶段和传输阶段;网络内所有认知用户在资源受限情况下,即认知用户数大于信道数时,每个时隙内选择单个信道进行感知;认知用户根据信道感知情况,判断在当前时隙剩余时间内选择接入或者保持静默;所有用户从添零拉丁方矩阵中选择信道感知顺序策略进行感知;各个认知用户受到的信道感知顺序冲突水平为,该认知用户与其它认知用户同时接入同一个空闲信道所造成的累积冲突;
具体包括以下步骤:
步骤1,将多时隙信道感知顺序优化问题建模为势能博弈,博弈的参与者是网络内所有认知用户;
步骤2,初始化所有用户的策略空间集,Q值以及用户对于每个策略的选择概率;
步骤3,每个活跃用户依照概率从自身策略空间集中选择一个信道感知顺序策略,并进行信道感知、竞争和数据传输过程,计算在当前信道感知顺序周期选择此时信道感知顺序策略的效用函数值,并以此作为当前策略选择的回报值;
步骤4,每个活跃用户根据回报值更新Q值,并进一步更新每个策略的选择概率;
步骤5,循环步骤3~步骤5进行信道感知,直至每个认知用户选择策略收敛至稳定,循环结束。
2.根据权利要求1所述基于频谱资源受限下广义感知模型的分布式Q学习感知接入方法,其特征在于,步骤1中将多时隙信道感知顺序优化问题建模为势能博弈模型,该博弈模型
Figure FDA0002286213210000011
定义为:
Figure FDA0002286213210000012
该博弈模型
Figure FDA0002286213210000013
中包含三个组成部分,
Figure FDA0002286213210000014
为活跃认知用户集合,即博弈参与者;An为活跃认知用户n的信道感知顺序策略空间集合;un为活跃认知用户n的效用函数。
3.根据权利要求1所述基于频谱资源受限下广义感知模型的分布式Q学习感知接入方法,其特征在于,步骤3中每个活跃用户计算在当前信道感知顺序周期选择当前信道感知顺序策略的效用函数值,具体如下:
一个信道感知顺序周期由多个时隙周期组成;一个时隙周期分为两个阶段:感知阶段和传输阶段;网络内所有认知用户,在每个时隙内选择单个信道进行感知,并根据感知情况决定在剩余时间内接入信道或者保持静默;定义τ表示每个时隙内用户感知单个信道所需的归一化时长;定义用户n的吞吐量
Figure FDA0002286213210000021
为每个时隙用来传输数据的归一化时长,且
Figure FDA0002286213210000022
的定义如式(1)所示:
Figure FDA0002286213210000023
其中ji表示第j个信道感知顺序周期中第i个时隙;
定义用户n在第j个信道感知顺序周期的平均吞吐量则为
Figure FDA0002286213210000024
Figure FDA0002286213210000025
的定义如式(2)所示:
Figure FDA0002286213210000026
其中N为所有认知用户的个数;
记此时认知用户n选择的信道感知顺序策略为an=(qn1,qn2,...,qnN),定义任意用户n在第k个信道感知顺序周期时选择信道感知顺序策略an的效用函数为
Figure FDA0002286213210000027
Figure FDA0002286213210000028
的定义如式(3)所示:
Figure FDA0002286213210000029
4.根据权利要求1所述基于频谱资源受限下广义感知模型的分布式Q学习感知接入方法,其特征在于,步骤4中每个活跃用户根据回报值更新Q值,并进一步更新每个策略的选择概率,具体如下:
用户利用如下公式更新Q值:
Figure FDA00022862132100000210
其中
Figure FDA0002286213210000031
表示用户n在第k个信道感知顺序周期选择信道感知顺序策略an的更新后的Q值,
Figure FDA0002286213210000032
表示用户n在第k个信道感知顺序周期时选择信道感知顺序策略an的效用函数;
更新Q值后,用户进一步更新每个策略的选择概率,选择概率更新如式(5)如示:
Figure FDA0002286213210000033
其中
Figure FDA0002286213210000034
表示用户n在接下来的第k+1个信道感知顺序周期选择信道感知顺序策略an的概率,γ为学习参数。
CN201711477471.1A 2017-12-29 2017-12-29 频谱资源受限下的广义感知模型及分布式q学习接入方法 Active CN108076467B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711477471.1A CN108076467B (zh) 2017-12-29 2017-12-29 频谱资源受限下的广义感知模型及分布式q学习接入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711477471.1A CN108076467B (zh) 2017-12-29 2017-12-29 频谱资源受限下的广义感知模型及分布式q学习接入方法

Publications (2)

Publication Number Publication Date
CN108076467A CN108076467A (zh) 2018-05-25
CN108076467B true CN108076467B (zh) 2020-04-10

Family

ID=62156305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711477471.1A Active CN108076467B (zh) 2017-12-29 2017-12-29 频谱资源受限下的广义感知模型及分布式q学习接入方法

Country Status (1)

Country Link
CN (1) CN108076467B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108880709B (zh) * 2018-07-06 2019-05-07 西北工业大学 一种认知无线网络中分布式多用户动态频谱接入方法
CN109361482A (zh) * 2018-09-04 2019-02-19 中国人民解放军陆军工程大学 一种基于非合作博弈确定多用户选择信道感知顺序的方法
CN109327514B (zh) * 2018-09-26 2019-12-27 中国人民解放军陆军工程大学 一种基于内容复用的数据下载开销博弈优化模型及方法
CN109348484B (zh) * 2018-11-28 2022-02-18 中国人民解放军陆军工程大学 一种多用户短波通信网络模型及信道探测方法
CN109587519B (zh) * 2018-12-28 2021-11-23 南京邮电大学 基于q学习的异构网络多径视频传输控制系统及方法
CN110855389B (zh) * 2019-11-20 2022-02-01 长江师范学院 一种业务驱动的本地合作分布式频谱接入方法
CN113098641B (zh) * 2021-03-26 2022-09-09 天津(滨海)人工智能军民融合创新中心 一种能量受限情况下的机会频谱接入方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8094610B2 (en) * 2008-02-25 2012-01-10 Virginia Tech Intellectual Properties, Inc. Dynamic cellular cognitive system
US8140085B2 (en) * 2008-09-30 2012-03-20 Motorola Solutions, Inc. Method and apparatus for optimizing spectrum utilization by a cognitive radio network
US20110263209A1 (en) * 2010-04-22 2011-10-27 Nokia Corporation Quiet period formation and maintenance in radio systems
CN103281734B (zh) * 2013-04-25 2017-02-22 西安电子科技大学 一种分布式认知无线网络中主动频谱切换的方法
CN103442368B (zh) * 2013-09-09 2016-03-30 哈尔滨工业大学 认知无线系统中基于潜在博弈的频谱分配方法
CN103796211B (zh) * 2014-03-07 2017-06-06 国家电网公司 一种认知无线网络中联合功率和信道分配方法
CN104796991B (zh) * 2015-04-08 2018-03-09 南京邮电大学 基于势博弈的ofdma系统的资源分配方法
CN107094060B (zh) * 2017-04-24 2019-03-05 东南大学 基于非合作博弈的分布式超密集异构网络干扰协调方法

Also Published As

Publication number Publication date
CN108076467A (zh) 2018-05-25

Similar Documents

Publication Publication Date Title
CN108076467B (zh) 频谱资源受限下的广义感知模型及分布式q学习接入方法
Xing et al. Spectrum prediction in cognitive radio networks
Bkassiny et al. Distributed Reinforcement Learning based MAC protocols for autonomous cognitive secondary users
Berthold et al. Detection of spectral resources in cognitive radios using reinforcement learning
CN113316154A (zh) 一种授权和免授权d2d通信资源联合智能分配方法
CN101359941A (zh) 认知无线电技术中基于归一化博弈模型的功率控制方法
Soorki et al. Stochastic coalitional games for cooperative random access in M2M communications
CN109361482A (zh) 一种基于非合作博弈确定多用户选择信道感知顺序的方法
CN111741450A (zh) 网络流量预测方法、装置和电子设备
Wang et al. Two-dimensional POMDP-based opportunistic spectrum access in time-varying environment with fading channels
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
Salem et al. A quality of service distributed optimizer for Cognitive Radio Sensor Networks
Venkatraman et al. Cooperative Q-learning for multiple secondary users in dynamic spectrum access
Baidas et al. Altruistic coalition formation in cooperative wireless networks
Qiao et al. Topology-transparent scheduling based on reinforcement learning in self-organized wireless networks
Liu et al. A stochastic game framework for joint frequency and power allocation in dynamic decentralized cognitive radio networks
CN111313994B (zh) 公平性原则下基于多臂赌博机模型的多用户频谱接入方法
Wu et al. Cooperation policy selection for energy-constrained ad hoc networks using correlated equilibrium
CN110049436A (zh) 基于异构频谱的分布式信道分配与共享方法和系统
JP7388634B2 (ja) 無線通信システムの最適化方法、無線通信システムおよび無線通信システム用プログラム
Zhang et al. A potential game approach for decentralized resource coordination in coexisting IWNs
Liu et al. Dynamic multiple access based on deep reinforcement learning for Internet of Things
Bennaceur et al. Hierarchical game-based secure data collection with trust and reputation management in the cognitive radio network
Sirhan et al. Cognitive Radio Resource Scheduling using Multi agent QLearning for LTE
Liu et al. A negotiation game for multichannel access in cognitive radio networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Xu Yuhua

Inventor after: Li Liwang

Inventor after: Fang Tao

Inventor after: Chen Xueqiang

Inventor after: Yang Yang

Inventor after: Zhang Yuli

Inventor after: Kong Lijun

Inventor after: Li Wen

Inventor before: Li Liwang

Inventor before: Fang Tao

Inventor before: Chen Xueqiang

Inventor before: Yang Yang

Inventor before: Zhang Yuli

Inventor before: Kong Lijun

Inventor before: Li Wen

GR01 Patent grant
GR01 Patent grant