CN108833040A - 基于强化学习的智能频谱协同感知方法 - Google Patents
基于强化学习的智能频谱协同感知方法 Download PDFInfo
- Publication number
- CN108833040A CN108833040A CN201810647284.1A CN201810647284A CN108833040A CN 108833040 A CN108833040 A CN 108833040A CN 201810647284 A CN201810647284 A CN 201810647284A CN 108833040 A CN108833040 A CN 108833040A
- Authority
- CN
- China
- Prior art keywords
- channel
- value
- user
- tested
- cooperative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001514 detection method Methods 0.000 claims abstract description 73
- 208000001613 Gambling Diseases 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 230000008447 perception Effects 0.000 claims abstract 5
- 230000002787 reinforcement Effects 0.000 claims description 18
- 230000009471 action Effects 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 2
- 230000000903 blocking effect Effects 0.000 abstract description 6
- 230000004927 fusion Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000001149 cognitive effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000013468 resource allocation Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- AYEKAHBGWYNCKW-LTCKWSDVSA-L dipotassium;4-[[(1s)-1-carboxylato-2-(1h-indol-3-yl)ethyl]amino]-4-oxobutanoate Chemical compound [K+].[K+].C1=CC=C2C(C[C@H](NC(=O)CCC(=O)[O-])C([O-])=O)=CNC2=C1 AYEKAHBGWYNCKW-LTCKWSDVSA-L 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/382—Monitoring; Testing of propagation channels for resource allocation, admission control or handover
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/04—Arrangements for maintaining operational condition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开一种基于强化学习的智能频谱协同感知方法,应用于频谱感知领域,本发明的方法对每个次用户SUk,当到达一个呼叫请求时,首先根据基于Q‑Learning技术学习各次用户最近的信道状态得到的信道优先级列表,做出感知信道的决定以最小化扫描开销;其次,节点在检测信道时可以请求其他SU进行协作频谱感知来提高检测概率,通过bandit赌博机机制选取检测能力强的次用户进行协作来提高检测概率;一旦信道被检测完成,则广播被检测信道的状态和检测权重以通知其他次用户,本发明方法有效减少了信道的平均扫描次数并且降低了呼叫阻塞率,提高了检测概率。
Description
技术领域
本发明属于无线移动通信网络中的频谱感知技术领域,具体涉及无线移动通信网络中的协作频谱感知方法。
背景技术
随着信息产业尤其是无线移动通信业的迅猛发展,无线频谱资源的需求量剧增,频谱资源的稀缺性与现有固定的无线电频谱资源分配策略的低效性之间的矛盾日趋明显,提高频谱利用率已经成为无线通信亟待解决的核心问题。面对无线通信频谱资源稀缺问题的严峻挑战,改变传统的固定资源分配为动态资源分配,从而有效提高频谱资源利用率得到越来越广泛的研究。
在现有的认知无线电网络中,用户可以分为两类:主用户(Primary User,PU)和次用户(Secondary User,SU)。其中主用户具有频谱的优先使用权,是被授权使用频谱的用户;次用户在不对主用户正常通信构成威胁的情况下,可以和主用户共用频谱资源,从而实现频谱共享,提高频谱利用率。
传统的本地频谱感知主要有基于发射机的检测算法,其中能量检测算法不需要任何先验信息,根据特定频段特定观测时间内接收信号的总能量判断可用频谱;匹配滤波器方法,此方法需知授权用户信号先验信息,采用检测信噪比最大化,只可以用来检测一些特定的信号;循环平稳特征检测算法利用信号的周期自相关特性和噪声信号的无相关特性可实现信号与噪声分离,即通过分析循环自相关函数或者二维频谱相关函数的方法得到信号频谱相关统计特性;还有协方差矩阵检测算法,利用主信号的相关性建立信号样本协方差矩阵,并以计算矩阵最大、最小特征值比率的方法做出判决。
协作频谱感知是多个用户同时对频谱进行本地检测,每个协作用户都将检测结果发送给融合中心,融合中心采取一定的融合准则对协作用户的认知结果进行合并处理,并进行频谱决策,以降低单个用户检测的不准确性来提高检测性能。决策硬融合算法对协作用户的一位二进制决策信息0/1进行合并处理,传送开销较小但准确性较低。决策软融合算法是根据不同信道条件下各节点检测结果的置信度不同,将检测信息进行决策加权或者其他形式的处理后再进行融合,实现了检测性能和传送开销之间的折中。
在认知无线电网络中,首先由于PU对信道的占用情况对SU来说是未知的,故SU需要逐次检测PU对每个信道的占用情况,故上述传统算法都会造成过度的扫描开销和延迟,适当选择授权信道的感知和接入序列对决定平均时延和有效吞吐量起着至关重要的作用;其次由于节点检测能力易受衰弱和阴影效应的影响,节点的检测能力是动态变化的,如何在节点检测能力动态变化的情况下选取合适的次用户进行合作也是一个值得关注的问题。为了缓解上述两个问题,近年来,基于强化学的研究越来越广泛,强化学习是一种在线学习算法,智能体和外部环境通过奖励机制进行交互,根据在环境中得到的奖励值来调整自身行为,使得智能体学习并适应外部环境,促使智能体选择能够在环境中获得使自身最大奖励的行为。可将强化学习的这种学习并适应于外部环境的特性应用于认知无线电网络,使智能体分别对变化的信道状态和协作用户的动态检测能力进行学习,最终选择空闲可能性大的信道和检测能力强的次用户进行协作频谱感知,以减少信道状态扫描开销并提高信道检测概率。
发明内容
为解决上述技术问题,本发明提出一种基于强化学习的频谱感知方法,有效减少了信道的平均扫描次数并且降低了呼叫阻塞率,提高了检测概率。
本发明采用的技术方案为:一种基于强化学习的频谱感知方法,当一个呼叫请求到达次用户SUk时,具体包括以下步骤:
S1、采用ε-greedy决策策略确定待测信道;
S2、采用UBC策略确定协作次用户SUf;
S3、根据步骤S1确定的待测信道与步骤S2确定的协作次用户SUf,更新信道优先级列表;
S4、更新待测信道的信道状态和协作次用户SUf检测能力估计值;
S5、循环步骤S1-S4,当次用户SUk成功接入待测信道,停止迭代,并且次用户SUk将当前迭代的待测信道的信道状态、该待测信道对应的权重值以及协作次用户SUf检测能力估计值进行广播;或者当达到最大检测次数,停止迭代,并宣告阻塞;
其中,k、f均为次用户的序号,k=1,2,…,N,f=1,2,…,N且f≠k,N表示次用户的总数。
进一步地,步骤S1具体为:
S11.每个次用户分别维护一张Q表,Q表中对每条信道都用一个Q值代表其空闲可能性大小,初始时将Q表中Q值初始化为0;
S12.当一个呼叫到达节点SUk时,Q-Learning按照ε-greedy决策策略来采取行动,得到待检测信道ci。
进一步地,步骤S2具体为:选择待测信道ci后,运行UCB算法,根据待测信道检测能力的估计值和估计过程中的不确定性,确定协作次用户SUf。
进一步地,步骤S3具体为:
S31、协作次用户SUf对待测信道进行本地能量检测,若检测结果为待测信道空闲且SUk成功接入,则更新该信道状态为1,否则更新该信道状态为0,然后执行步骤S32;
S32、次用户SUk学习其他次用户对待测信道的占用情况,从而计算待测信道奖励点;
S33、根据奖励点更新待测信道Q值;
S34、按照Q值递减顺序重新排列信道的动态优先级列表。
更进一步地,步骤S33所述待测信道Q值的更新具体为:通过Q-Learning机制根据邻居对待测信道占用的最近历史和最近的行动回馈更新检测信道Q值;更新表达式为:
Qk(st,ci)=(1-α)Qk(st,ci)+α{rk(st,ci)-γ(exp-τ*m)}
其中,α表示学习率,0≤α≤1,γ为折扣因子,表示对未来奖励的衰减值,0≤γ≤1,τ是一个固定常数,0≤τ≤1,m表示当前扫描信道的尝试次数。
进一步地,步骤S4具体包括以下分步骤:
S41、次用户SUk尝试接入待测信道,若成功接入,则执行步骤S42;否则执行步骤S434;
S42、更新该待测信道奖励值为1,并根据奖励值更新协作次用户SUf检测能力估计值;
S43、更新该待测信道奖励值为0,并根据奖励值更新协作次用户SUf检测能力估计值。
更进一步地,步骤S4所述协作次用户SUf检测能力估计值具体采用bandit赌博机算法进行计算:
其中,代表t时刻对协作次用户检测能力的估计值,Rt表示t时刻协作次用户SUf对应的奖励值,β表示对每个奖励值的权重,β∈(0,1]。
更进一步地,所述β满足
本发明的有益效果:各次用户仅当呼叫到达时去选择待测信道,步骤S3中通过Q-Learning机制根据邻居对信道占用的最近历史和最近的行动回馈更新检测信道Q值,形成信道优先级列表,减少了扫描开销;步骤S4中通过bandit赌博机机制对协作次用户的检测能力进行估计,故可用UCB算法选择检测能力强的协作次用户进行协作频谱感知,更新次用户的检测权重,提高检测概率;更新的检测权重和信道状态在步骤S5中进行广播进行次用户间的交互。仿真结果表明,S3步骤可对信道优先级实现排序,且使用S1、S2和S4中的协作频谱感知算法可进一步减少平均信道扫描次数,与使用K秩准则相比降低了了19%;平均阻塞率降低了10%以上。本发明的方法减少了信道的平均扫描次数并且降低了呼叫阻塞率,提高了检测概率。
附图说明
图1为本发明的方案流程图。
具体实施方式
为了便于本领域的普通技术人员理解本发明,首先对技术术语做出如下定义:
主用户:具有频谱的优先使用权,是被授权使用频谱的用户。
次用户:在不对主用户正常通信构成威胁的情况下,可以和主用户共用频谱资源的用户。
协作次用户:帮助其他次用户进行频谱感知的次用户。
Q-Learning:一种强化学习算法,智能体通过在环境中执行动作获得一定的奖励来感知环境,从而学习到由状态到动作的映射策略来最大化奖励值。
bandit赌博机:一种强化学习算法,有n个臂,每个臂都以一定的未知概率产生一个奖励,算法的目的是通过一定的选择臂的策略获得最大化的累积奖励。
检测能力估计值:利用bandit赌博机算法得到的对次用户感知空闲信道状态正确率的估计值。
阻塞:当需要通话的用户找不到通信链路时,宣布阻塞。
下面结合附图对本发明内容进一步阐释。
假设在一个主用户无线网络中,有10条潜在可用频谱。在次用户网络中,次用户用SU1~SUN表示,每个SUf(f=1,2,…,N)随机分布其中并且有N-1个邻居。每个SUf可以通过公共ISM频带的单个信道在它们之间传送控制分组。因次用户网络中每个节点SUf随机分布,故每个节点到主用户网络的距离是不同的,信号传输过程中所经历的衰弱和阴影效应各异,所以受环境的影响,每个节点接收到的主用户相同信号的瞬时信噪比不一样,导致各个节点的检测结果存在可信度的差异。用表示每个节点SUf与瞬时信噪比相关的权重的估计值,代表对节点SUf在t时刻的检测能力的估计,bandit赌博机算法中的表达式如下:
其中,代表t时刻对SUf检测能力的估计值。β表示对每个奖励值的权重,离当前时刻越近则权重越大,且对β∈(0,1]满足这样估计值更加注重当前的奖励而忽略较早时刻的奖励,以适用于次用户检测能力动态变化的环境。
每个次用户分别维护一张Q表,Q表中对每条信道都用一个Q值代表其空闲可能性大小,利用Q-Learning机制对信道状态进行学习。在t时刻当呼叫到达时,首先SUk采用ε-greedy决策策略确定待测信道,再按bandit赌博机机制中的UCB算法选择SUf检测待测信道状态,尝试接入得到信道反馈信息;利用Q-Learning机制学习其他次用户对ci的历史占用情况,计算被检测信道的奖励点,奖励点rk(st,ci)按如下方式更新:
其中,st代表实际网络环境,N代表SUk及其邻居的数量。sj(ci)表示在t时刻SUj检测到的信道ci的忙闲状态,1代表空闲,0代表繁忙。代表SUj在t时刻对ci的检测能力,此时因SUk选择次用户SUf帮助其进行频谱感知,故SUk的检测权重
其次,在计算得奖励点后,按照下式计算SUk的Q表中信道ci的Q值:
Qk(st,ci)=(1-α)Qk(st,ci)+α{rk(st,ci)-γ(exp-τ*m)} (3)
其中,α表示学习率,0≤α≤1,当α越接近1,表示智能体更倾向于即时奖励;α越接近0,表示历史占主导地位,智能体从即时回报中学到的很少。γ为折扣因子,表示对未来奖励的衰减值,0≤γ≤1,τ是一个固定常数,0≤τ≤1,m表示当前扫描信道的尝试次数。
最后,按照Q值对信道排序,可得到信道优先级列表。
本发明实施例提供了一种基于强化学习的频谱感知方法,对每个次用户SUk,当到达一个呼叫请求时,首先根据基于Q-Learning技术学习各次用户最近的信道状态得到的信道优先级列表,做出感知信道的决定以最小化扫描开销;其次,节点在检测信道时可以请求其他SU进行协作频谱感知来提高检测概率,通过bandit赌博机机制选取检测能力强的次用户进行协作来提高检测概率;一旦信道被检测完成,则广播被检测信道的状态和检测权重以通知其他次用户。当一个呼叫请求到达次用户SUk时,具体流程图如图1所示,包括以下步骤:
S1、采用ε-greedy决策策略确定待测信道;
S2、采用UBC策略确定协作次用户;
S3、根据步骤S1确定的待测信道与步骤S2确定的协作次用户,更新信道优先级列表;
S4、更新待测信道的信道状态和次用户检测能力估计值;
S5、将当前迭代的待测信道的信道状态、权重和次用户检测能力估计值进行广播。
在本实例中步骤S1的实施过程如下所示:
S11.每个次用户分别维护一张Q表,Q表中对每条信道都用一个Q值代表其空闲可能性大小,Q值越大的信道,其处于空闲状态的可能性越大,若算法初次运行,所有用户对主用户网络中信道的空闲程度并不了解,则将Q表中Q值初始化为0。
S12.当一个呼叫到达节点SUk时,Q-Learning按照ε-greedy决策策略来采取行动,即以ε的概率选择信道优先级最大的信道,以1-ε的概率随机进行信道选择,目的是适应主用户网络中信道状态动态变化的特点,最终得到待检测信道ci。
步骤S2具体为:选择信道ci后,运行置信上界(upper confidence bound,UCB)算法选择协作次用户SUf,UCB算法同时考虑新到检测能力的估计值和估计过程中的不确定性,选择协作次用户公式如下:
其中,时间步t代表进行的协作频谱感知次数总和;c控制探索程度,c越大,探索程度越大。代表当前t时刻次用户SUf检测能力的估计值,初值为0,具体更新方式在S4中进行。表示在t时刻前协作次用户SUf被选择的次数,越大说明SUf的估计值被更新的次数越多,如果则SUf首先被选择。目的是根据估计值接近最大值的程度与估计的不确定程度选择一个最有潜质的次用户进行协作频谱感知。
该实例中,步骤S3的实施过程如下所示:
S31.协作次用户SUf对待检测信道ci进行本地能量检测,得到0/1检测结果,1代表ci空闲,0代表ci被PU占用;当SUf对ci检测结果为1时,SUk尝试接入ci,若接入成功则说明ci确实处于空闲状态,更新SUk得到的信道状态sk(ci)=1;否则更新信道状态sk(ci)=0。
S32.在t时刻,SUk学习其他次用户对ci的占用情况,计算被检测检测信道的奖励点,奖励点rk(st,ci)按式(2)更新;
S33.节点SUk计算得到奖励后,更新相应信道ci的Q值,Qk(st,ci)值代表了信道ci的空闲可能性大小,Qk(st,ci)值按式(3)更新。
S34.按照Q值的递减顺序重新排列信道的动态优先级列表。
步骤S4继续利用由环境得到的接入反馈,更新选择的协作次用户SUf的估计值;具体的实施过程如下所示:
首先,当SUf对ci的检测结果为1且SUk成功接入,代表SUf检测正确,奖励值Rt=1;否则,SUf对ci的检测结果为1但SUk没有成功接入,代表SUf检测错误,奖励值Rt=0;然后,利用修正的样本平均方法更新次用户SUf检测能力的估计值,以适应检测能力动态变化的情景下对SUf检测能力的估计,SUf检测能力的估计值更新公式如式(1)。
步骤S5的实施过程如下所示:
S51.SUk将本轮检测得到的信道状态sk(ci)和相应权重Wt k(ci)和协作次用户检测能力估计值广播,使所有邻居都能更新它们的值。
S52.若成功接入,数据被传送,结束本轮频谱感知;否则循环S1-S4直到检测到可用信道成功接入或达到最大检测次数宣告阻塞。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.基于强化学习的智能频谱协同感知方法,其特征在于,对每个次用户,当到达一个呼叫请求时,首先根据基于Q-Learning技术学习各次用户最近的信道状态得到的信道优先级列表,以最小化扫描开销为目的做出感知信道的决定;其次,节点在检测信道时请求其他次用户进行协作频谱感知,具体通过bandit赌博机机制选取检测能力强的次用户进行协作;最后信道被检测完成,则广播被检测信道的状态和检测权重通知其他次用户。
2.根据权利要求1所述的基于强化学习的智能频谱协同感知方法,其特征在于,当一个呼叫请求到达次用户SUk时,具体包括以下步骤:
S1、采用ε-greedy决策策略确定待测信道;
S2、采用UBC策略确定协作次用户SUf;
S3、根据步骤S1确定的待测信道与步骤S2确定的协作次用户SUf,更新信道优先级列表;
S4、更新待测信道的信道状态和协作次用户SUf检测能力估计值;
S5、循环步骤S1-S4,当次用户SUk成功接入待测信道,停止迭代,并且次用户SUk将当前迭代的待测信道的信道状态、该待测信道对应的权重值以及协作次用户SUf检测能力估计值进行广播;或者当达到最大检测次数,停止迭代,并宣告阻塞;
其中,k、f均为次用户的序号,k=1,2,…,N,f=1,2,…,N且f≠k,N表示次用户的总数。
3.根据权利要求2所述的基于强化学习的智能频谱协同感知方法,其特征在于,步骤S1具体为:
S11.每个次用户分别维护一张Q表,Q表中对每条信道都用一个Q值代表其空闲可能性大小,初始时将Q表中Q值初始化为0;
S12.当一个呼叫到达节点SUk时,Q-Learning按照ε-greedy决策策略来采取行动,得到待检测信道ci。
4.根据权利要求3所述的基于强化学习的智能频谱协同感知方法,其特征在于,步骤S2具体为:选择待测信道ci后,运行UCB算法,根据待测信道检测能力的估计值和估计过程中的不确定性,确定协作次用户SUf。
5.根据权利要求4所述的基于强化学习的智能频谱协同感知方法,其特征在于,步骤S3具体为:
S31、协作次用户SUf对待测信道进行本地能量检测,若检测结果为待测信道空闲且SUk成功接入,则更新该信道状态为1,否则更新该信道状态为0,然后执行步骤S32;
S32、次用户SUk学习其他次用户对待测信道的占用情况,从而计算待测信道奖励点;
S33、根据奖励点更新待测信道Q值;
S34、按照Q值递减顺序重新排列信道的动态优先级列表。
6.根据权利要求5所述的基于强化学习的智能频谱协同感知方法,其特征在于,步骤S33所述待测信道Q值的更新具体为:通过Q-Learning机制根据邻居对待测信道占用的最近历史和最近的行动回馈更新检测信道Q值;更新表达式为:
Qk(st,ci)=(1-α)Qk(st,ci)+α{rk(st,ci)-γ(exp-τ*m)}
其中,α表示学习率,0≤α≤1,γ为折扣因子,表示对未来奖励的衰减值,0≤γ≤1,τ是一个固定常数,0≤τ≤1,m表示当前扫描信道的尝试次数。
7.根据权利要求2所述的基于强化学习的智能频谱协同感知方法,其特征在于,步骤S4具体包括以下分步骤:
S41、次用户SUk尝试接入待测信道,若成功接入,则执行步骤S42;否则执行步骤S43;
S42、更新该待测信道奖励值为1,并根据奖励值更新协作次用户SUf检测能力估计值;
S43、更新该待测信道奖励值为0,并根据奖励值更新协作次用户SUf检测能力估计值。
8.根据权利要求7所述的基于强化学习的智能频谱协同感知方法,其特征在于,步骤S4所述协作次用户SUf检测能力估计值具体采用bandit赌博机算法进行计算:
其中,代表t时刻对协作次用户检测能力的估计值,Rt表示t时刻协作次用户SUf对应的奖励值,β表示对每个奖励值的权重,β∈(0,1]。
9.根据权利要求2所述的基于强化学习的智能频谱协同感知方法,其特征在于,所述β满足
10.根据权利要求1所述的基于强化学习的智能频谱协同感知方法,其特征在于,步骤S5所述待测信道对应的权重值等于协作次用户SUf检测能力估计值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810647284.1A CN108833040B (zh) | 2018-06-22 | 2018-06-22 | 基于强化学习的智能频谱协同感知方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810647284.1A CN108833040B (zh) | 2018-06-22 | 2018-06-22 | 基于强化学习的智能频谱协同感知方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108833040A true CN108833040A (zh) | 2018-11-16 |
CN108833040B CN108833040B (zh) | 2021-02-02 |
Family
ID=64143160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810647284.1A Active CN108833040B (zh) | 2018-06-22 | 2018-06-22 | 基于强化学习的智能频谱协同感知方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108833040B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109787696A (zh) * | 2018-12-11 | 2019-05-21 | 杭州电子科技大学 | 基于案例推理与合作q学习的认知无线电资源分配方法 |
CN110225525A (zh) * | 2019-06-06 | 2019-09-10 | 广东工业大学 | 一种基于认知无线电网络的频谱共享方法、装置及设备 |
CN110351886A (zh) * | 2019-06-29 | 2019-10-18 | 中国人民解放军军事科学院国防科技创新研究院 | 基于边带观测信息多臂老虎机模型的机会频谱接入方法 |
CN111542068A (zh) * | 2020-06-18 | 2020-08-14 | 南京邮电大学 | 一种面向认知网络模拟主用户攻击的协同感知优化方法 |
WO2020194322A1 (en) * | 2019-03-23 | 2020-10-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Apparatus, program, and method, for resource control |
CN112367131A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于强化学习的跳跃式频谱感知方法 |
CN113207129A (zh) * | 2021-05-10 | 2021-08-03 | 重庆邮电大学 | 基于置信区间上界算法与drl算法的动态频谱接入方法 |
CN115209508A (zh) * | 2021-04-13 | 2022-10-18 | 中国移动通信集团设计院有限公司 | 频谱接入方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102307351A (zh) * | 2011-08-29 | 2012-01-04 | 中山大学 | 一种基于博弈论下的频谱分配方法及通信设备和系统 |
CN104993890A (zh) * | 2015-07-14 | 2015-10-21 | 福建师范大学 | 基于信誉机制和动态博弈的安全协作频谱感知方法 |
CN106358203A (zh) * | 2016-08-30 | 2017-01-25 | 湖南大学 | 一种分布式认知无线传感器网络中基于q学习的频谱分配方法 |
-
2018
- 2018-06-22 CN CN201810647284.1A patent/CN108833040B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102307351A (zh) * | 2011-08-29 | 2012-01-04 | 中山大学 | 一种基于博弈论下的频谱分配方法及通信设备和系统 |
CN104993890A (zh) * | 2015-07-14 | 2015-10-21 | 福建师范大学 | 基于信誉机制和动态博弈的安全协作频谱感知方法 |
CN106358203A (zh) * | 2016-08-30 | 2017-01-25 | 湖南大学 | 一种分布式认知无线传感器网络中基于q学习的频谱分配方法 |
Non-Patent Citations (2)
Title |
---|
JIANG ZHU: "Multi-Armed Bandit Channel Access Scheme With Cognitive Radio Te", 《IEEE ACCESS》 * |
黄云霞: "基于改进Q学习的认知无线网络动态频谱接入算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊 )》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109787696B (zh) * | 2018-12-11 | 2021-05-11 | 杭州电子科技大学 | 基于案例推理与合作q学习的认知无线电资源分配方法 |
CN109787696A (zh) * | 2018-12-11 | 2019-05-21 | 杭州电子科技大学 | 基于案例推理与合作q学习的认知无线电资源分配方法 |
CN113711250A (zh) * | 2019-03-23 | 2021-11-26 | 瑞典爱立信有限公司 | 用于资源控制的设备、程序和方法 |
WO2020194322A1 (en) * | 2019-03-23 | 2020-10-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Apparatus, program, and method, for resource control |
CN110225525A (zh) * | 2019-06-06 | 2019-09-10 | 广东工业大学 | 一种基于认知无线电网络的频谱共享方法、装置及设备 |
CN110225525B (zh) * | 2019-06-06 | 2022-06-24 | 广东工业大学 | 一种基于认知无线电网络的频谱共享方法、装置及设备 |
CN110351886A (zh) * | 2019-06-29 | 2019-10-18 | 中国人民解放军军事科学院国防科技创新研究院 | 基于边带观测信息多臂老虎机模型的机会频谱接入方法 |
CN111542068A (zh) * | 2020-06-18 | 2020-08-14 | 南京邮电大学 | 一种面向认知网络模拟主用户攻击的协同感知优化方法 |
CN112367131A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于强化学习的跳跃式频谱感知方法 |
CN112367131B (zh) * | 2020-10-08 | 2021-09-24 | 大连理工大学 | 基于强化学习的跳跃式频谱感知方法 |
CN115209508A (zh) * | 2021-04-13 | 2022-10-18 | 中国移动通信集团设计院有限公司 | 频谱接入方法、装置、设备及存储介质 |
CN115209508B (zh) * | 2021-04-13 | 2023-09-19 | 中国移动通信集团设计院有限公司 | 频谱接入方法、装置、设备及存储介质 |
CN113207129A (zh) * | 2021-05-10 | 2021-08-03 | 重庆邮电大学 | 基于置信区间上界算法与drl算法的动态频谱接入方法 |
CN113207129B (zh) * | 2021-05-10 | 2022-05-20 | 重庆邮电大学 | 基于置信区间上界算法与drl算法的动态频谱接入方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108833040B (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108833040B (zh) | 基于强化学习的智能频谱协同感知方法 | |
Ning et al. | Reinforcement learning enabled cooperative spectrum sensing in cognitive radio networks | |
Alias | Cognitive radio networks: A survey | |
CN106507370B (zh) | 主动式频谱感知切换的方法 | |
CN109474980A (zh) | 一种基于深度增强学习的无线网络资源分配方法 | |
CN111935722B (zh) | 基于用户在线学习与低开销合作的动态频谱共享方法 | |
CN113038616B (zh) | 一种基于联邦学习的频谱资源管理分配方法 | |
CN102362516A (zh) | 无线通信系统中基于概率的资源分配系统和方法 | |
JP2002044718A (ja) | チャネルを割り当てるための方法およびワイヤレスサービスのリクエストを処理するための方法 | |
CN108809452B (zh) | 动态频谱接入系统中最佳感知信道选择方法 | |
CN107094060A (zh) | 基于非合作博弈的分布式超密集异构网络干扰协调方法 | |
Hawa et al. | Distributed opportunistic spectrum sharing in cognitive radio networks | |
CN101729164B (zh) | 无线资源分配方法和认知无线电用户设备 | |
CN113423110A (zh) | 基于深度强化学习的多用户多信道动态频谱接入方法 | |
CN110798273A (zh) | 一种基于次用户效用最优的协作频谱感知方法 | |
Gharib et al. | Distributed learning-based multi-band multi-user cooperative sensing in cognitive radio networks | |
KR20110094983A (ko) | 무선 인지 시스템에서 마코프 모델을 이용한 가중치 할당 협력 스펙트럼 센싱 방법 | |
CN105375997B (zh) | 基于次用户数目优化的多用户协作频谱感知方法 | |
CN104301964A (zh) | 基于组合预测的自适应机会协作控制方法 | |
Lee et al. | Weighted-cooperative spectrum sensing scheme using clustering in cognitive radio systems | |
EP3340707A1 (en) | Channel selection device and method for wireless local area network | |
CN102014507B (zh) | 一种hsupa系统中用户的上行资源调度方法 | |
KR20110052154A (ko) | 무선 인지 시스템을 위한 유전자 알고리즘 기반의 동적 주파수 선택 시스템 및 방법 | |
CN105515698A (zh) | 基于动态调整的多频段协作频谱感知方法 | |
WO2022001650A1 (zh) | 干扰协同方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |