CN102238555A - 认知无线电中基于协作学习的多用户动态频谱接入方法 - Google Patents

认知无线电中基于协作学习的多用户动态频谱接入方法 Download PDF

Info

Publication number
CN102238555A
CN102238555A CN2011102004253A CN201110200425A CN102238555A CN 102238555 A CN102238555 A CN 102238555A CN 2011102004253 A CN2011102004253 A CN 2011102004253A CN 201110200425 A CN201110200425 A CN 201110200425A CN 102238555 A CN102238555 A CN 102238555A
Authority
CN
China
Prior art keywords
user
value
cognitive
action
cognitive user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102004253A
Other languages
English (en)
Inventor
朱琦
朱洪波
杨龙祥
李晓静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN2011102004253A priority Critical patent/CN102238555A/zh
Publication of CN102238555A publication Critical patent/CN102238555A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明的目的在于提供一种认知无线电系统中基于协作学习的多用户动态频谱接入方法,该方法将黑板模型、融合算法以及强化学习方法结合起来,先对各个状态-动作对函数值用Boltzmann机进行非线性化,再采用轮盘赌算法进行动作选择,然后确定奖赏函数,实现黑板模型,即所有认知用户将各自当前的Q值通过公共控制信道发送到黑板,并且可以从黑板中获取其它认知用户的Q值,然后利用融合算法进行计算,在此基础上,每个认知用户都根据融合后的Q值进行动作选择。本发明中的每个认知用户独立执行强化学习算法,同时它们之间进行相互合作,共享状态、策略和奖赏,从而加快学习速度。

Description

认知无线电中基于协作学习的多用户动态频谱接入方法
技术领域
本发明涉及一种特别用于认知无线电系统中多用户动态频谱接入的方法,属于通信技术领域。
背景技术
无线电频谱是全人类共享的有限自然资源,各国对无线频谱的管制都很严格,一般都是由国家统一分配。随着信息时代的到来,无线通信的各种新业务发展迅速,无线设备被广泛使用,无线频谱资源日趋紧张。
事实上在许多频段,频谱接入问题比频谱物理稀缺问题更为显著,大部分原因是由于法定的分配规则限制了用户的接入能力。2002年11月,美国联邦通信委员会(FCC)发布了一项由Spectrum-Policy Task Force提交的旨在有效管理美国频谱资源的报告。该报告明确指出:“在许多频带,频谱的准入是一个比频谱本身稀缺更加重要的问题,频谱的稀缺很大程度上是由于法规限制了这些频谱上的潜在用户获得准入。”事实确实如此,如果统计一下包括郊区在内的各类地域的频谱占有率,将会发现一些频带在绝大数时间是未被占据的;一些频带是部分时间被占据的;而另外一些频带则是被密集使用的。这种频谱利用的不均的情况引导了通信业界研究人员去思考“频谱空穴”(Spectrum Holes)这样一个崭新的概念,即“一个频谱空穴是分配给授权用户的频带,但是,在某一指定时间和空间,在授权用户不占用这一频带的情况下,此频带可以被其他用户使用。”这样,频谱资源的潜在利用率可以得到明显提高。认知无线电(CR:Cognitive Radio)技术被认为是未来探测频谱空穴特性、高效利用无线频谱的主要手段,是能够有效缓解频谱分配与利用这对矛盾的技术。
认知无线电的概念起源于1999年Joseph Mitola博士的奠基性工作,他的博士论文中是这样描述认知无线电的:无线个人数字助理和相关的网络在无线电资源和通信方面具有充分的计算智能来探测用户的通信需求,并根据这些需求来提供相应最合适的无线电资源和无线服务。著名通信理论学者、人工智能大师Simom Haykin教授从数字信号处理、网络、人工智能和计算机软硬件实现等角度出发定义了认知无线电,即“认知无线电是一个智能的无线通信系统,可以感知无线环境,通过对环境的理解、主动学习实现在特定的无线操作参数(如功率、载波调制和编码等方案)实时改变和调整它的内部状态。适应外部环境的变化,具有在不影响其他授权用户(主用户,Primary user,Licensed user)的前提下智能地利用大量空闲频谱并且随时随地、智能、高可靠性通信的潜能。”FCC定义认知无线电是一种可通过与其运行环境交互而改变其发射机参数的无线电。国际电信联盟ITU(International Telecommunication Union)定义认知无线电为可感知或了解其操作的环境从而动态、自治地调整其操作参数的无线电或系统。总的来说,认知无线电可认为是一种可以依靠人工智能的支持,感知环境,根据一定的学习和决策算法,实时、自适应地改变系统工作参数,动态地检测和有效地利用空闲频谱的无线电。研究认知无线电对于解决无线频谱资源紧张的问题具有十分重要的意义。
学习是人类智能的重要表现之一,人所以能够适应环境的变化并提高解决问题的能力,其原因在于人能通过学习积累经验,总结规律,以增长知识和才能。人工智能大师Simon认为:学习就是系统在不断重复的工作中对本身能力的增强或改进,使得系统在下一次执行相同任务或相类似的任务时,会比现在做的更好或效率更高。学习是认知无线电系统的一个重要环节,认知无线电系统能够感知周围环境(如无线电环境,信道环境等),并能从环境中学习,通过实时的改变相应的固定参量(如发送功率,发送频率和调制策略等),来达到通信的可靠性和更有效的频谱利用率这两个主要目的。
发明内容
技术问题:本发明的目的在于提供一种认知无线电系统中基于协作学习的多用户动态接入方法,单个智能体(认知用户)可以独立地解决各种简单的问题,但是当问题变复杂时,单智能体独立学习却越来越无能为力,因此此时必须得依靠多个智能体共同工作来解决这些复杂的问题。本发明将黑板模型、融合算法和强化学习结合起来,可以提高多认知用户系统的学习速率。
技术方案:本发明中,基于协作学习的多用户动态频谱接入方法的思路是:每个认知用户都采用单Agent强化学习算法独立地进行学习,为了加快学习速度、提高学习效率,多个认知用户通过黑板模型进行策略的共享,一段学习时间后,利用融合算法对多个策略进行融合来改进策略,然后利用融合后的策略进行再学习。这相当于给每个认知用户增加了先验知识,从而能使其更快地学习。方法框架如图1所示:
动作选择器:根据Q值和选定的动作选择策略来选择动作。
执行器:执行动作选择器选择的动作,作用于环境,使得环境状态st转移到下一状态st+1
Q学习:根据环境状态s,采取的动作a和奖赏函数r,通过Q-learning算法进行学习,从而智能地调整认知用户的动作策略。
黑板模型:每学习N步之后,每个认知用户将自己当前的Q值发布到黑板上,同时从黑板上获取其他认知用户的Q值,从而实现策略共享。
融合算法:对从黑板获得的策略进行融合,以期能获得更高奖赏值的策略。
该方法的具体内容为:
a、初始化:随机初始化每个认知用户的状态-动作对函数值Q(s,a),s表示认知用户的状态,a表示认知用户所采取的动作,设定初始学习速率α0、温度参数T和迭代次数N;
b、状态空间的构建:状态空间 S = { s 1 , s 2 , · · · , s K , s d 1 , s d 2 , · · · , s d M } , 其中sk=0表示信道被授权用户k占用;sk=1表示信道未被占用;s1~sK表示授权用户占用的信道,K为授权用户数,
Figure BDA0000076411540000032
表示被认知用户占用的信道,d1~dM表示M个认知用户数;
c、动作选择策略:对状态-动作函数值Q(st,at)用玻耳兹曼法进行非线性化,然后再采用轮盘赌算法进行选择,用Boltzmann机分布选择动作的概率 p ( a i / s t , Q ) = e Q ( s t , a i ) / T Σ a j ∈ A e Q ( s t , a j ) / T , 其中,Q(st,ai)是每个状态-动作对的函数值,A为认知用户作用于环境的动作集合,p(ai/st,Q)表示在状态st选择动作ai的概率,i和j为动作的序号,T为可调节的温度参数,T的大小代表了随机性的大小,T越大则选择动作的随机性越强;
d、确定奖赏函数:系统中存在一个信道同时被两个用户占用即冲突时,奖赏函数r为“-6”,是一种惩罚;不存在即没有冲突时r为“2”,反映了降低冲突概率的要求。
e、实现黑板模型:在迭代了N次以后,所有认知用户将各自当前的Q值通过公共控制信道发送到黑板即控制中心,并且可以从黑板中获取其它认知用户的Q值,然后利用融合方法进行计算,在此基础上,每个认知用户都根据融合后的Q值进行动作选择。
对Q值利用融合方法进行计算的过程为:
步骤1:设N次迭代为一个学习周期,在每个学习周期结束之后,各认知用户将自己当前的Q值发送到黑板,并且分享黑板中其它认知用户的Q值,找出拥有最大Q值的认知用户 Q t * ( s , a ) = max 1 ≤ m ≤ M { Q t m ( s , a ) } , M为认知用户数,m∈{1,2,...,M};
步骤2:计算差值 Δ = Q t * ( s , a ) - Q t m ( s , a )
步骤3:计算 Q t m ( s , a ) = Q t m ( s , a ) / 2 , Δ > 0 2 Q t m ( s , a ) , Δ = 0 .
有益效果:本发明提供一种认知无线电中基于协作学习的多用户动态频谱接入方法。基于分布式独立学习的多用户动态频谱接入算法可以解决多用户动态频谱接入的问题,但是如果存在的认知用户数较多时,其收敛速度比较慢,将会发生维数灾难。本发明将黑板模型、融合算法以及强化学习方法结合起来,每个认知用户独立地执行单智能体强化学习算法,同时彼此之间进行相互合作,共享状态、共享策略和共享奖赏函数等,从而加快了系统的收敛速度。
附图说明
图1多认知用户协作学习模型,
图2基于Q值动作选择示意图,
图3黑板协作示意图,
图4融合算法模型。
具体实施方式
在基于协作学习的多用户动态频谱接入方法中,各个认知用户独立地执行Q学习,所有认知用户在学习了N次后,相互交流学习成果(即交换Q值),并将它们各自的学习结果进行融合,融合后的结果为所有认知用户共享,作为以后学习的基础。同时采用一致的奖赏函数,每个认知用户的目标都是一样的(降低系统的冲突概率),系统发生冲突时每个认知用户获得的奖赏值是负值,是一种惩罚;当系统不发生冲突时,每个认知用户获得的奖赏值是正值,是一种鼓励。
下面具体说明基于协作学习的多用户动态频谱接入方法中的几个要素:
(1)状态空间S
本发明状态空间S与第四章一致, S = { s 1 , s 2 , · · · , s k , s d 1 , s d 2 , · · · , s d M } , 其中sk=0表示频谱k被占用;sk=1表示频谱k未被占用。s1~sk表示主用户占用的频点,k为主用户数,
Figure BDA0000076411540000052
被认知用户占用的频点,d1~dm表示m个认知用户,本发明中m为2,即仅考虑两个认知用户的情况。两个认知用户的状态空间是一致的。
(2)动作选择策略
能影响系统状态的动作有2种:一种是认知用户选择频点时的动作a1,它占用频点b1,影响系统状态;还有一种就是系统内部主用户对频谱的占用,可认为它是一种动作a2。其中a2是系统内部动作,与Q值的大小无关,即是授权用户对频谱的占用是以一种简单的、无智能、已经设计好的方式进行,比如以一定序列方式占用频谱。a1的选择是依据Q值的大小的,但是这里存在一个探索和利用的问题。Q强化学习算法中,在当前状态st选择动作at的依据是Q(st,at)的值,即选择能获得最大Q(st,at)的at。但是刚开始时学习没有先验经验,即每一个Q(st,at)值都是不成熟的,也就是说Q(st,at)值不能准确地表示at对st的适用程度。因此选择最高Q(st,at)值的动作导致了系统总是沿着相同的方向进行搜索而不可能探索到更好值,即容易造成系统停滞在局部最小值上。因此认知用户要尽可能的选择不同的动作,来寻求没有尝试但可能带来丰厚奖赏的动作,以找到最优的策略,即探索。但是也不可以盲目去探索,过度的探索将导致以前的经验无法利用,学习没有进步,降低系统的性能,影响学习的速度。所以学习开始时应该采用随机动作选择策略,然后随着学习过程逐步转向按照Q(st,at)值大小选择动作。
为了能够实现这种先随机选择,然后选择具有最大Q(st,at)的at的动作选择模式,本发明采用的方法是先对各个Q(st,at)用Boltzmann机(玻尔兹曼机)进行非线性化,然后再采用轮盘赌算法进行选择。如图2所示。
用Boltzmann分布选择动作的概率 p ( a i / s t , Q ) = e Q ( s t , a i ) / T Σ b ∈ A e Q ( s t , b ) / T - - - ( 1 )
其中,Q(st,ai)是每个状态-动作对的Q值;p(ai/st,Q)表示在状态st选择动作a的概率;T为可调节的温度参数,T的大小代表了随机性的大小,T越大则选择动作的随机性越强。在学习的初始阶段,由于学习的经验较少,需要增加探索能力,所以T取较高的值,使得每个动作被选择的概率大致相同;在学习过程中,应当逐渐降低温度T,保证以前的学习效果不被破坏。学习刚开始时温度T较大,动作选择倾向于随机选择,当温度T较小时,动作选择倾向于Q值的大小。
(3)奖赏函数r
奖赏函数应该体现学习目标,系统中的所有的认知用户的学习目标都是一致的,即降低系统的冲突概率。该算法设计当系统发生冲突时,奖赏函数r=-6;当系统不发生冲突时,r=2。
(4)黑板模型
用基于协作学习的多用户动态频谱接入方法来解决多个认知用户动态接入系统的问题,学习过程中最重要的就是Q值,也就是累积的知识。本发明所设计的黑板协作方法模型如图3所示,在每执行N步动作后,所有认知用户将各自当前的Q值通过公共控制信道发送到黑板,并且可以从黑板中获取其他认知用户的Q值,然后利用融合算法进行计算,在此基础上,每个认知用户都根据融合后的Q值进行动作选择。该方法实现了信息共享,达到了实现协作和加速学习的目标。
(5)融合算法
融合算法考虑了认知用户间的交互和通信,目的就是通过认知用户之间的协作尽可能的消除策略中的冗余动作,然后以比较高效的方式实现最终目标,从而提高系统的执行效率和收敛性能。
常用的融合算法有和积规则法、投票法、Bayes方法、平均值原则法、概率加权方法和最小最大原则等等。本发明选用的是最小最大原则融合法,模型如图4所示。
融合过程如下:
Step1:设N步为一个学习周期,在每个学习周期结束之后,各认知用户将自己当前的Q值发送到黑板,并且分享黑板中其他认知用户的Q值,找出拥有最大Q值的认知用户, Q t * ( s , a ) = max 1 ≤ i ≤ M { Q t i ( s , a ) } - - - ( 2 )
Step2:计算 Δ = Q t * ( s , a ) - Q t i ( s , a ) - - - ( 3 )
Step3:计算 Q t i ( s , a ) = Q t i ( s , a ) / 2 , Δ > 0 2 Q t i ( s , a ) , Δ = 0 - - - ( 4 )
Step4:对于所有认知用户i∈{1,2,...,M}有 Q t + 1 i ( s , a ) = Q t i ( s , a ) - - - ( 5 )
该融合算法表明,在多个认知用户处于同一状态下,为了避免发生冲突,一个频点只能被一个用户占用,因此最大化拥有最大Q值的用户,而其他用户则减小自己的Q值从而让该用户能够独自占用该频点,降低了发生冲突的概率。交流和共享策略确实极大地提高了系统的学习速度和学习效果,加快了系统的收敛速度。
(6)Q值的更新
该方法中,每个认知用户都有一份自己的Q值表,它们彼此互斥独立地修改各自的Q值表:
Q t + 1 i ( s , a 1 , a 2 ) = max { ( Q t i ( s , a 1 , a 2 ) , r t ( s t , a t u , a 2 ) + γ max a 1 ′ ∈ A Q t i ( s ′ , a 1 ′ , a 2 ′ ) } - - - ( 6 )
但是在一定的学习N步后,所有的认知用户采用黑板模型与融合算法共享各自的Q值表。该方法增强了认知用户的学习经验,提高了协作效率进而加快了学习速度。

Claims (2)

1.一种认知无线电系统中基于协作学习的多用户动态频谱接入方法,其特征在于该方法的具体内容为:
a、初始化:随机初始化每个认知用户的状态-动作对函数值Q(s,a),s表示认知用户的状态,a表示认知用户所采取的动作,设定初始学习速率α0、温度参数T和迭代次数N;
b、状态空间的构建:状态空间 S = { s 1 , s 2 , · · · , s K , s d 1 , s d 2 , · · · , s d M } , 其中sk=0表示信道被授权用户k占用;sk=1表示信道未被占用;s1~sK表示授权用户占用的信道,K为授权用户数,
Figure FDA0000076411530000012
表示被认知用户占用的信道,d1~dM表示M个认知用户数;
c、动作选择策略:对状态-动作函数值Q(st,at)用玻耳兹曼法进行非线性化,然后再采用轮盘赌算法进行选择,用Boltzmann机分布选择动作的概率 p ( a i / s t , Q ) = e Q ( s t , a i ) / T Σ a j ∈ A e Q ( s t , a j ) / T , 其中,Q(st,ai)是每个状态-动作对的函数值,A为认知用户作用于环境的动作集合,p(ai/st,Q)表示在状态st选择动作ai的概率,i和j为动作的序号,T为可调节的温度参数,T的大小代表了随机性的大小,T越大则选择动作的随机性越强;
d、确定奖赏函数:系统中存在一个信道同时被两个用户占用即冲突时,奖赏函数r为“-6”,是一种惩罚;不存在即没有冲突时r为“2”,反映了降低冲突概率的要求。
e、实现黑板模型:在迭代了N次以后,所有认知用户将各自当前的Q值通过公共控制信道发送到黑板即控制中心,并且可以从黑板中获取其它认知用户的Q值,然后利用融合方法进行计算,在此基础上,每个认知用户都根据融合后的Q值进行动作选择。
2.如权利要求1所述的认知无线电系统中基于协作学习的多用户动态频谱接入方法,其特征在于对Q值利用融合方法进行计算的过程为:
步骤1:设N次迭代为一个学习周期,在每个学习周期结束之后,各认知用户将自己当前的Q值发送到黑板,并且分享黑板中其它认知用户的Q值,找出拥有最大Q值的认知用户 Q t * ( s , a ) = max 1 ≤ m ≤ M { Q t m ( s , a ) } , M为认知用户数,m∈{1,2,…,M};
步骤2:计算差值 Δ = Q t * ( s , a ) - Q t m ( s , a )
步骤3:计算 Q t m ( s , a ) = Q t m ( s , a ) / 2 , Δ > 0 2 Q t m ( s , a ) , Δ = 0 .
CN2011102004253A 2011-07-18 2011-07-18 认知无线电中基于协作学习的多用户动态频谱接入方法 Pending CN102238555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102004253A CN102238555A (zh) 2011-07-18 2011-07-18 认知无线电中基于协作学习的多用户动态频谱接入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102004253A CN102238555A (zh) 2011-07-18 2011-07-18 认知无线电中基于协作学习的多用户动态频谱接入方法

Publications (1)

Publication Number Publication Date
CN102238555A true CN102238555A (zh) 2011-11-09

Family

ID=44888655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102004253A Pending CN102238555A (zh) 2011-07-18 2011-07-18 认知无线电中基于协作学习的多用户动态频谱接入方法

Country Status (1)

Country Link
CN (1) CN102238555A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103209035A (zh) * 2012-01-16 2013-07-17 普天信息技术研究院有限公司 一种基于策略库选择的频谱感知方法
CN103248693A (zh) * 2013-05-03 2013-08-14 东南大学 基于多智能体强化学习的大规模服务组合优化方法
CN103338453A (zh) * 2013-06-21 2013-10-02 北京邮电大学 一种用于分层无线网络的动态频谱接入方法及系统
CN105391490A (zh) * 2015-10-20 2016-03-09 中国人民解放军理工大学 一种基于认知的卫星通信网络选择算法
CN108604314A (zh) * 2015-12-01 2018-09-28 渊慧科技有限公司 使用强化学习选择动作名单
CN108712748A (zh) * 2018-04-12 2018-10-26 天津大学 一种基于强化学习的认知无线电抗干扰智能决策的方法
CN108880709A (zh) * 2018-07-06 2018-11-23 西北工业大学 一种认知无线网络中分布式多用户动态频谱接入方法
CN109861773A (zh) * 2019-03-01 2019-06-07 军事科学院系统工程研究院网络信息研究所 一种基于在线学习的多用户多信道网络动态频谱接入方法
CN110084375A (zh) * 2019-04-26 2019-08-02 东南大学 一种基于深度强化学习的多agent协作框架
CN110830560A (zh) * 2019-10-25 2020-02-21 东华大学 一种基于强化学习的多用户移动边缘计算迁移方法
CN111225380A (zh) * 2020-01-13 2020-06-02 东方红卫星移动通信有限公司 一种空天地海一体化多用户协作学习动态接入方法
CN111654342A (zh) * 2020-06-03 2020-09-11 中国人民解放军国防科技大学 基于有先验知识强化学习的动态频谱接入方法
CN112836822A (zh) * 2021-02-26 2021-05-25 浙江工业大学 基于宽度学习的联邦学习策略优化方法和装置
CN113207127A (zh) * 2021-04-27 2021-08-03 重庆邮电大学 一种noma系统中基于分层深度强化学习的动态频谱接入方法
WO2022217781A1 (zh) * 2021-04-15 2022-10-20 腾讯云计算(北京)有限责任公司 数据处理方法、装置、设备以及介质
CN116828534A (zh) * 2023-06-06 2023-09-29 中电佰联通信科技南京有限公司 基于强化学习的密集网络大规模终端接入与资源分配方法
CN112836822B (zh) * 2021-02-26 2024-05-28 浙江工业大学 基于宽度学习的联邦学习策略优化方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴启晖: "基于DAQL算法的动态频谱接入方案", 《解放军理工大学学报(自然科学版)》 *
薛丽华: "《中国优秀硕士学位论文全文数据库》", 31 January 2009 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103209035A (zh) * 2012-01-16 2013-07-17 普天信息技术研究院有限公司 一种基于策略库选择的频谱感知方法
CN103248693A (zh) * 2013-05-03 2013-08-14 东南大学 基于多智能体强化学习的大规模服务组合优化方法
CN103338453A (zh) * 2013-06-21 2013-10-02 北京邮电大学 一种用于分层无线网络的动态频谱接入方法及系统
CN103338453B (zh) * 2013-06-21 2016-05-04 北京邮电大学 一种用于分层无线网络的动态频谱接入方法及系统
CN105391490B (zh) * 2015-10-20 2019-02-05 中国人民解放军理工大学 一种基于认知的卫星通信网络选择算法
CN105391490A (zh) * 2015-10-20 2016-03-09 中国人民解放军理工大学 一种基于认知的卫星通信网络选择算法
CN108604314A (zh) * 2015-12-01 2018-09-28 渊慧科技有限公司 使用强化学习选择动作名单
CN108604314B (zh) * 2015-12-01 2022-08-19 渊慧科技有限公司 使用强化学习选择动作名单
CN108712748A (zh) * 2018-04-12 2018-10-26 天津大学 一种基于强化学习的认知无线电抗干扰智能决策的方法
CN108712748B (zh) * 2018-04-12 2021-04-27 天津大学 一种基于强化学习的认知无线电抗干扰智能决策的方法
CN108880709A (zh) * 2018-07-06 2018-11-23 西北工业大学 一种认知无线网络中分布式多用户动态频谱接入方法
CN109861773A (zh) * 2019-03-01 2019-06-07 军事科学院系统工程研究院网络信息研究所 一种基于在线学习的多用户多信道网络动态频谱接入方法
CN109861773B (zh) * 2019-03-01 2021-05-07 军事科学院系统工程研究院网络信息研究所 一种基于在线学习的多用户多信道网络动态频谱接入方法
CN110084375A (zh) * 2019-04-26 2019-08-02 东南大学 一种基于深度强化学习的多agent协作框架
CN110830560A (zh) * 2019-10-25 2020-02-21 东华大学 一种基于强化学习的多用户移动边缘计算迁移方法
CN111225380A (zh) * 2020-01-13 2020-06-02 东方红卫星移动通信有限公司 一种空天地海一体化多用户协作学习动态接入方法
CN111654342A (zh) * 2020-06-03 2020-09-11 中国人民解放军国防科技大学 基于有先验知识强化学习的动态频谱接入方法
CN112836822A (zh) * 2021-02-26 2021-05-25 浙江工业大学 基于宽度学习的联邦学习策略优化方法和装置
CN112836822B (zh) * 2021-02-26 2024-05-28 浙江工业大学 基于宽度学习的联邦学习策略优化方法和装置
WO2022217781A1 (zh) * 2021-04-15 2022-10-20 腾讯云计算(北京)有限责任公司 数据处理方法、装置、设备以及介质
CN113207127A (zh) * 2021-04-27 2021-08-03 重庆邮电大学 一种noma系统中基于分层深度强化学习的动态频谱接入方法
CN113207127B (zh) * 2021-04-27 2022-04-12 重庆邮电大学 一种noma系统中基于分层深度强化学习的动态频谱接入方法
CN116828534A (zh) * 2023-06-06 2023-09-29 中电佰联通信科技南京有限公司 基于强化学习的密集网络大规模终端接入与资源分配方法
CN116828534B (zh) * 2023-06-06 2024-01-02 中电佰联通信科技南京有限公司 基于强化学习的密集网络大规模终端接入与资源分配方法

Similar Documents

Publication Publication Date Title
CN102238555A (zh) 认知无线电中基于协作学习的多用户动态频谱接入方法
Khan et al. Self organizing federated learning over wireless networks: A socially aware clustering approach
Mlika et al. Network slicing with MEC and deep reinforcement learning for the Internet of Vehicles
Yang et al. Deep-reinforcement-learning-based energy-efficient resource management for social and cognitive Internet of Things
Luo et al. Dynamic resource allocations based on Q-learning for D2D communication in cellular networks
US20210326695A1 (en) Method and apparatus employing distributed sensing and deep learning for dynamic spectrum access and spectrum sharing
Xu et al. Resource allocation based on quantum particle swarm optimization and RBF neural network for overlay cognitive OFDM System
CN103916355B (zh) 一种认知ofdm网络中子载波的分配方法
Wang et al. Joint resource allocation and power control for D2D communication with deep reinforcement learning in MCC
Zhang et al. Team learning-based resource allocation for open radio access network (O-RAN)
CN113316154A (zh) 一种授权和免授权d2d通信资源联合智能分配方法
WO2023179010A1 (zh) 一种noma-mec系统中的用户分组和资源分配方法及装置
CN114885426B (zh) 一种基于联邦学习和深度q网络的5g车联网资源分配方法
Zabaleta et al. Quantum game application to spectrum scarcity problems
CN102665219B (zh) 一种基于ofdma的家庭基站系统的动态频谱分配方法
Le et al. Enhanced resource allocation in D2D communications with NOMA and unlicensed spectrum
Sohaib et al. Intelligent Resource Management for eMBB and URLLC in 5G and beyond Wireless Networks
Jere et al. Distributed learning meets 6G: A communication and computing perspective
Moubayed et al. Machine learning towards enabling spectrum-as-a-service dynamic sharing
Boutiba et al. Optimal radio resource management in 5G NR featuring network slicing
Khairy et al. Data-driven random access optimization in multi-cell IoT networks using NOMA
Kaur et al. Intelligent spectrum management based on reinforcement learning schemes in cooperative cognitive radio networks
Das et al. Reinforcement learning-based resource allocation for M2M communications over cellular networks
AlQwider et al. Deep Q-network for 5G NR downlink scheduling
CN110392377A (zh) 一种5g超密集组网资源分配方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20111109