CN102256262A - 基于分布式独立学习的多用户动态频谱接入方法 - Google Patents

基于分布式独立学习的多用户动态频谱接入方法 Download PDF

Info

Publication number
CN102256262A
CN102256262A CN2011101970660A CN201110197066A CN102256262A CN 102256262 A CN102256262 A CN 102256262A CN 2011101970660 A CN2011101970660 A CN 2011101970660A CN 201110197066 A CN201110197066 A CN 201110197066A CN 102256262 A CN102256262 A CN 102256262A
Authority
CN
China
Prior art keywords
cognitive user
user
function
action
cognitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101970660A
Other languages
English (en)
Other versions
CN102256262B (zh
Inventor
朱琦
朱洪波
杨龙祥
李晓静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Nanyou Information Industry Technology Research Institute Co. Ltd.
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN 201110197066 priority Critical patent/CN102256262B/zh
Publication of CN102256262A publication Critical patent/CN102256262A/zh
Application granted granted Critical
Publication of CN102256262B publication Critical patent/CN102256262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Mobile Radio Communication Systems (AREA)

Abstract

本发明的目的在于提供一种认知无线电系统中基于分布式独立学习的多用户动态频谱接入方法,该方法将分布式独立强化学习算法应用到多认知用户动态频谱接入环境中,同时将各个用户所接入信道的信噪比引入到奖赏函数中。在频谱分配中,每个认知用户都是一个独立的学习体,它利用当前状态信息、自己的行动策略和状态变迁所得到的奖赏进行学习,维护自己的一个关于状态-行动对的Q值表。本发明可以使得认知用户智能地占用信噪比高的空闲频谱,从而提高了系统的平均容量。

Description

基于分布式独立学习的多用户动态频谱接入方法
技术领域
本发明涉及一种特别用于认知无线电系统中多用户动态频谱接入的方法,属于通信技术领域。
背景技术
随着飞速演进的无线技术不断朝着宽带化、无缝化、智能化等趋势发展,尤其是随着无线局域网(WLAN, Wireless Local Access Network)技术、第三代移动通信技术以及第四代移动通信技术的发展,越来越多的人通过这些技术以无线的方式接入互联网,在无线通信的技术发展上我们不得不面对的瓶颈之一与挑战之一就是频谱资源的不足。根据美国联邦通信委员会FCC(Federal Commnications Committee)关于美国3~6GHz频谱资源分配情况的研究结果表明:与日俱增的用户需求使得无线频谱资源面临紧缺的危险。无线电通信在频谱使用上面临频谱资源匮乏和部署调度困难两大主要难题。
传统无线通信系统对频谱的利用基于固定频谱分配策略,无线通信系统只能严格按照频谱的划分来使用授权的频段,这些法定的分配规则严重限制了用户的接入能力,导致了严重的频谱资源的浪费。以美国为例,FCC在2003年提供的统计数据显示已分配频谱的资源利用率为15%~85%;而另外一份2003年的调查报告则指出,授权频段在大多数的时候使用率只有6%。一方面大量授权频段被闲置,频谱利用率极低,浪费现象严重;另一方面无线频谱资源的需求日益增长,无线资源的匮乏大大限制了无线通信技术的进一步发展。这种现象产生的原因是FCC对频谱资源的使用采取了一种频谱所有权“独占”的授权分配政策—即使授权用户没有使用授权频谱,其他非授权用户也不能使用。这一政策造成频谱资源的巨大浪费。因此,FCC的这种频谱所有权“独占”的授权分配政策已经不适应当前无线接入技术的发展要求,不少经济学家相信若这些“独占”频谱拥有者再次出售或出租他们的频段,建立频谱的二级市场,将会消除频谱资源紧缺的现象,或者至少可以大幅度提高频谱利用率。
正是基于无线通信领域频谱资源越来越紧缺的事实以及无线系统性能亟待提高的需求,认知无线电CR(Cognitive Radio)被提了出来,并得到学术界及IEEE标准化组织越来越广泛的重视,被成为未来无线通信领域的“下一个大事件”。认知无线电技术的核心思想是:在对取得频谱使用权的授权用户及其他非授权用户不产生干扰的前提下,认知用户通过感知周围的无线电环境,伺机进行频谱接入以提高频谱利用率。该技术的普及应用将会极大地缓解无线频谱资源日益紧缺的现状,为人们提供更加丰富、灵活的无线通信手段。
人工智能大师Simon Haykin在其认知无线电综述文章中明确提到学习是认知无线电系统的一个重要环节。在机器学习领域现在研究比较热门的强化学习RL(Reinforcement Learning,又称加强学习、增强学习等)是一种以环境反馈作为输入、适应环境的特殊学习方法。强化学习是一种从动物学习、自适应策略等理论发展而来的机器学习方法,它的在线学习能力与自适应学习能力使其成为解决策略寻优问题的有力工具。Q学习是强化学习中的一种,它利用状态-动作对的值函数Q ( s , a) 进行迭代,利用其奖赏并作为估计函数来选择下一动作,即直接优化Q函数。Q学习算法已被应用于单个次用户的动态频谱接入系统中,但是却不能解决多认知用户情况下的动态频谱接入问题。本发明基于分布式独立强化学习,解决了多认知用户情况下基于强化学习的频谱接入问题。
发明内容
技术问题:本发明的目的在于提供一种认知无线电系统中基于分布式独立强化学习的多用户动态频谱接入方法,该方法在频谱分配中,各个认知用户采取独立学习的方式,每个认知用户都是一个独立的学习体,它仅利用当前状态信息、自己的行动策略和状态变迁所得到的奖赏进行学习。在保证了系统的收敛性的同时,提高了系统的容量。
技术方案:本发明将基于分布式独立学习多智能体协作决策应用到多用户动态频谱接入问题中,同时将信道的信噪比考虑到基于分布式独立学习的多认知用户动态频谱接入方法的奖赏函数中,提出了一种优化系统容量的新方案。
该方法的具体内容为:
a、初始化:初始化每个认知用户                                                
Figure 2011101970660100002DEST_PATH_IMAGE001
的状态-动作函数值
Figure 103193DEST_PATH_IMAGE002
 ,其中s
Figure 453403DEST_PATH_IMAGE003
S,S为认知用户感知到的环境状态,
Figure 153506DEST_PATH_IMAGE004
为认知用户的动作,
Figure 771306DEST_PATH_IMAGE005
为系统中授权用户的动作;
b、状态构建:每个认知用户由状态感知模块感知频谱环境,根据感知到的授权用户占用频谱的情况和每个认知用户自身占用的情况构建状态空间S,S = {,
Figure 1748DEST_PATH_IMAGE007
,…,
Figure 505541DEST_PATH_IMAGE008
,,
Figure 535826DEST_PATH_IMAGE010
,…,
Figure 860628DEST_PATH_IMAGE011
},其中表示主用户占用的频点,k为主用户数,
Figure 494926DEST_PATH_IMAGE013
表示认知用户占用的频点,
Figure 229664DEST_PATH_IMAGE014
表示m个认知用户,=0表示频谱k被占用;
Figure 887359DEST_PATH_IMAGE008
=1表示频谱k未被占用;
c、状态-动作函数值获取:每个认知用户根据构建的状态和动作预测模块预测的授权用户将要采取的动作, 从自己的状态-动作函数值表征模块获取的值;
d、动作选择和执行:各个认知用户根据
Figure 334258DEST_PATH_IMAGE002
和动作选择策略更新规则, 采用贪婪算法从A中选择两个动作
Figure 239897DEST_PATH_IMAGE015
并执行,其中A为认知用户作用于环境的动作集合,
Figure 657420DEST_PATH_IMAGE015
为其中一个认知用户执行的动作,
Figure 224406DEST_PATH_IMAGE016
为另一个认知用户执行的动作;
e、获取回报:设定当系统发生冲突时, 系统的奖赏函数,不冲突时,  系统的奖赏函数
Figure 884374DEST_PATH_IMAGE018
;奖赏函数前面一部分的参数反映降低冲突概率的要求,当认知用户与主用户或者其他认知用户发生冲突时,即两者占用同一频点,奖赏函数为-5;当认知用户与主用户或者其他认知用户没有发生冲突时,即两者占用不同的频点,奖赏函数为1;奖赏函数后一部分
Figure 71773DEST_PATH_IMAGE019
反映了认知用户占用该信道时信噪比对奖赏函数的影响,其中
Figure 994730DEST_PATH_IMAGE020
为第j个信道的信噪比占系统总信噪比的百分比,p(n)为第n个信道的信噪比,N为系统的信道数,a,b为常数;
f、状态-动作函数值更新:各个认知用户维护自己的状态-动作函数值,动作执行后, 新的状态及其所有的状态-动作函数值
Figure 754973DEST_PATH_IMAGE022
就能够由步骤b和c得到。
有益效果:本发明提供一种认知无线电中基于分布式独立学习的多用户动态频谱接入方法,该方法将分布式强化学习应用到多用户动态频谱接入问题中,同时将信道的信噪比引入到认知用户的奖赏函数中,各个认知用户通过分布式独立学习算法的学习,可以智能地占用空闲频谱,降低系统发生冲突概率。同时将信道的信噪比考虑到认知用户的奖赏函数中,可以使得认知用户智能地占用信噪比高的空闲频谱,从而提高了系统的平均容量。
附图说明
图1是本发明的系统模型图。
图2是本发明的方法流程图。
具体实施方式
本发明考虑的系统环境模型如图1所示,系统内部有多个授权用户,包括固定占用频谱的用户、跳频用户以及间断式占用频谱的用户等各种类型的用户。同时系统内部有多个认知用户,每个认知用户可以独立学习、决策,同时认知用户之间可以互相通信、交互,共享各种信息。
本发明将分布式独立强化学习算法应用到多认知用户动态频谱接入环境中,在各认知用户不知道其他认知用户具体频谱分配情况下, 各认知用户采取独立学习的方式。它们只维护自己的一个关于状态-行动对的Q 值表 , 并且每个认知用户i各自采取独立的迭代过程,其Q值表更新公式如下:
Figure 585843DEST_PATH_IMAGE023
 
Figure 4186DEST_PATH_IMAGE024
                                       (1)
其中
Figure 732845DEST_PATH_IMAGE025
,S为认知用户感知到的环境状态;
Figure 527626DEST_PATH_IMAGE026
,A为认知用户作用于环境的动作集合;为系统中授权用户的动作;
Figure 811157DEST_PATH_IMAGE028
为所有认知用户的一个联合行动; 
Figure 794156DEST_PATH_IMAGE029
为环境对联合行动的奖赏函数; t表示状态-行动对的迭代次数。Q值更新采用式(1)。动作选择策略采用以下的更新规则
Figure 625584DEST_PATH_IMAGE030
  
Figure 112060DEST_PATH_IMAGE004
任取
  
Figure 137785DEST_PATH_IMAGE031
         (2)              
基于分布式独立学习的多认知用户动态频谱接入方法是为了获得一种从状态到动作的映射关系, 使每次经历这个状态时, 都能利用以前学习的经验和知识, 做出最优的动作决策。认知用户能为每个感知到的环境状态和自己的动作对建立一个Q 值函数, 并不断根据学习到的经验进行更新。通过一段时间的学习过程, 认知用户能够在没有人为干预的情况下自己选择合适的频率进行通信, 使得在通信时对已存在的主用户产生的干扰最小。
同时为了提高系统的平均容量,在奖赏函数r中引入了各信道的信噪比,即
Figure 342501DEST_PATH_IMAGE032
                               (3)     
系统的容量C定义为                    (4)    
系统的平均容量
Figure 318602DEST_PATH_IMAGE034
定义为                        (5)    
其中B为频点的带宽,SNR为信道的信噪比,c(i)为认知用户i占用信道时的容量,m为次用户数。
假设多用户动态频谱接入问题中状态为S,动作集合为A,奖赏回报函数为R,下面具体描述该方法学习几个要素和实际环境模型的映射关系:
1) 环境状态S
  S = {,, …, 
Figure 859117DEST_PATH_IMAGE008
 ,
Figure 961066DEST_PATH_IMAGE009
,
Figure 140374DEST_PATH_IMAGE010
,…, 
Figure 117295DEST_PATH_IMAGE011
},其中
Figure 432870DEST_PATH_IMAGE008
=0表示频谱k被占用;
Figure 33616DEST_PATH_IMAGE008
=1表示频谱k未被占用。
Figure 434641DEST_PATH_IMAGE006
~
Figure 716718DEST_PATH_IMAGE008
表示主用户占用的频点,k为主用户数,
Figure 650914DEST_PATH_IMAGE009
~
Figure 94664DEST_PATH_IMAGE011
表示认知用户占用的频点,
Figure 248565DEST_PATH_IMAGE036
~
Figure 68754DEST_PATH_IMAGE037
表示m个认知用户,本发明m为2,即仅考虑两个认知用户的情况。
2) 可选动作集合A
影响系统状态的动作有2种: 一种是认知用户选择频点时的动作,它占用频点
Figure 472108DEST_PATH_IMAGE039
; 还有一种就是授权用户占用频点时动作
Figure 847726DEST_PATH_IMAGE040
。本发明中授权用户可能是以固定占用方式占用频谱,也可能以跳频等其他方式占用频谱,另外系统环境中有2个认知用户,因此此时系统是多Agent模型的。
3) 即时回报R
 该方法在奖赏函数r中同样引入了各频点的信噪比。设定认知用户与主用户所选用频点相同(冲突)或者各认知用户所选用频点相同(冲突)时, 系统的奖赏函数r为 “
Figure 471605DEST_PATH_IMAGE041
”; 不相同(没有冲突)时, r 为 “” ,参数的具体含义同第三章所描述的改进的DAQL算法中的奖赏函数。通过引入频点的信噪比,可以使得认知用户智能地选择信噪比高的频点,从而提高系统的平均容量。
 4) 评价方式
该方法在奖赏函数r中引入了各频点的信噪比。设定认知用户与授权用户所选用信道相同(冲突)或者各认知用户所选用信道相同(冲突)时,系统的奖赏函数r为 “
Figure 171806DEST_PATH_IMAGE041
”; 不相同(没有冲突)时, r 为 “
Figure 34720DEST_PATH_IMAGE042
” ,奖赏函数前面一部分的参数反映降低冲突概率的要求,当认知用户与主用户或者其他认知用户发生冲突时,即两者占用同一频点,奖赏函数为-5;当认知用户与主用户或者其他认知用户没有发生冲突时,即两者占用不同的频点,奖赏函数为1。奖赏函数后一部分
Figure 259027DEST_PATH_IMAGE043
反映了认知用户占用该频点时信噪比对奖赏函数的影响,其中
Figure 523787DEST_PATH_IMAGE020
为第j个信道的信噪比占系统总信噪比的百分比,p(n)为第n个信道的信噪比,N为系统的信道数,a,b为常数。
 具体的方法流程图如图2所示,两个认知用户通过共同的奖赏函数r建立协调策略,共同完成降低系统冲突概率这一目标。实现过程如下:
1)初始化参数
初始化Q 值,设定折扣因子
Figure 244356DEST_PATH_IMAGE044
2)构建状态S
由状态感知模块感知到的授权用户占用系统频谱的情况和认知用户自身占用的情况来构建状态空间S。
3)获取Q值
根据状态S和授权用户将要采取的动作A, 从Q 值表中获取Q 值。
4)选择和执行动作
 动作选择模块根据每一个
Figure 328986DEST_PATH_IMAGE045
和式(4) , 采用贪婪算法从A中选择两个动作
Figure 294668DEST_PATH_IMAGE046
并执行,其中
Figure 413934DEST_PATH_IMAGE047
为认知用户一执行的动作,
Figure 243088DEST_PATH_IMAGE048
为认知用户二执行的动作。本发明采用的贪婪算法并不是完全执行Q值最大所对应的动作,而是大部分时间选择能得到最高回报的动作,偶尔也以小概率随机选择与动作估计值无关的工作。但随着学习时间的推移,最终要选择所处状态的Q值最大所对应的动作,只有这样,最终才能完全收敛,这是探索和利用的平衡问题。
5)获取回报
本发明设定当认知用户选择占用的频率与主用户或者其他认知用户冲突时,  
Figure 80594DEST_PATH_IMAGE017
; 不冲突时,
6)更新Q 值
动作执行后, 新的状态s′及其所有的Q 值就能够由步骤(2) (3)得到,
Figure 682848DEST_PATH_IMAGE050
可由式(1)更新为
Figure 679754DEST_PATH_IMAGE051
7)更新参数
每轮迭代结束时, 折扣因子
Figure 987239DEST_PATH_IMAGE044
都需要更新。本发明设置它以负指数规律随着学习的过程逐渐减小为0, 以满足收敛性要求。

Claims (1)

1.一种基于分布式独立学习的多用户动态频谱接入方法,其特征在于该方法的具体内容为:
a、初始化:初始化每个认知用户                                                
Figure 955319DEST_PATH_IMAGE002
的状态-动作函数值
Figure 2011101970660100001DEST_PATH_IMAGE003
 ,其中s
Figure 559607DEST_PATH_IMAGE004
S,S为认知用户感知到的环境状态,
Figure 2011101970660100001DEST_PATH_IMAGE005
为认知用户的动作,
Figure 12323DEST_PATH_IMAGE006
为系统中授权用户的动作;
b、状态构建:每个认知用户由状态感知模块感知频谱环境,根据感知到的授权用户占用频谱的情况和每个认知用户自身占用的情况构建状态空间S,S = {
Figure 2011101970660100001DEST_PATH_IMAGE007
,,…,
Figure 2011101970660100001DEST_PATH_IMAGE009
,
Figure 265635DEST_PATH_IMAGE010
,
Figure 2011101970660100001DEST_PATH_IMAGE011
,…,
Figure 357219DEST_PATH_IMAGE012
},其中
Figure 2011101970660100001DEST_PATH_IMAGE013
表示主用户占用的频点,k为主用户数,
Figure 619485DEST_PATH_IMAGE014
表示认知用户占用的频点,
Figure 2011101970660100001DEST_PATH_IMAGE015
表示m个认知用户,=0表示频谱k被占用;
Figure 789884DEST_PATH_IMAGE009
=1表示频谱k未被占用;
c、状态-动作函数值获取:每个认知用户根据构建的状态和动作预测模块预测的授权用户将要采取的动作, 从自己的状态-动作函数值表征模块获取的值;
d、动作选择和执行:各个认知用户根据
Figure 165501DEST_PATH_IMAGE003
和动作选择策略更新规则, 采用贪婪算法从A中选择两个动作
Figure 586118DEST_PATH_IMAGE016
Figure 2011101970660100001DEST_PATH_IMAGE017
并执行,其中A为认知用户作用于环境的动作集合,为其中一个认知用户执行的动作,
Figure 218143DEST_PATH_IMAGE017
为另一个认知用户执行的动作;
e、获取回报:设定当系统发生冲突时, 系统的奖赏函数
Figure 143374DEST_PATH_IMAGE018
,不冲突时,  系统的奖赏函数
Figure 2011101970660100001DEST_PATH_IMAGE019
;奖赏函数前面一部分的参数反映降低冲突概率的要求,当认知用户与主用户或者其他认知用户发生冲突时,即两者占用同一频点,奖赏函数为-5;当认知用户与主用户或者其他认知用户没有发生冲突时,即两者占用不同的频点,奖赏函数为1;奖赏函数后一部分反映了认知用户占用该信道时信噪比对奖赏函数的影响,其中为第j个信道的信噪比占系统总信噪比的百分比,p(n)为第n个信道的信噪比,N为系统的信道数,a,b为常数;
f、状态-动作函数值更新:各个认知用户维护自己的状态-动作函数值,动作执行后, 新的状态
Figure 6342DEST_PATH_IMAGE022
及其所有的状态-动作函数值
Figure 2011101970660100001DEST_PATH_IMAGE023
就能够由步骤b和c得到。
CN 201110197066 2011-07-14 2011-07-14 基于分布式独立学习的多用户动态频谱接入方法 Active CN102256262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110197066 CN102256262B (zh) 2011-07-14 2011-07-14 基于分布式独立学习的多用户动态频谱接入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110197066 CN102256262B (zh) 2011-07-14 2011-07-14 基于分布式独立学习的多用户动态频谱接入方法

Publications (2)

Publication Number Publication Date
CN102256262A true CN102256262A (zh) 2011-11-23
CN102256262B CN102256262B (zh) 2013-09-25

Family

ID=44983192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110197066 Active CN102256262B (zh) 2011-07-14 2011-07-14 基于分布式独立学习的多用户动态频谱接入方法

Country Status (1)

Country Link
CN (1) CN102256262B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102448070A (zh) * 2012-01-11 2012-05-09 中国人民解放军理工大学 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
WO2013104120A1 (zh) * 2012-01-11 2013-07-18 中国人民解放军理工大学 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
CN104853360A (zh) * 2014-02-17 2015-08-19 中兴通讯股份有限公司 一种分配空闲频谱的方法、装置及终端
CN105391490A (zh) * 2015-10-20 2016-03-09 中国人民解放军理工大学 一种基于认知的卫星通信网络选择算法
CN106535244A (zh) * 2015-09-11 2017-03-22 上海贝尔股份有限公司 一种无线通信方法和设备
CN108347744A (zh) * 2018-01-19 2018-07-31 厦门大学 一种设备接入方法、装置及接入控制设备
CN108737266A (zh) * 2018-04-28 2018-11-02 国网江苏省电力有限公司苏州供电分公司 基于双估计器的动态路由选择方法
CN111211831A (zh) * 2020-01-13 2020-05-29 东方红卫星移动通信有限公司 一种多波束低轨卫星智能动态信道资源分配方法
CN111225380A (zh) * 2020-01-13 2020-06-02 东方红卫星移动通信有限公司 一种空天地海一体化多用户协作学习动态接入方法
CN111245541A (zh) * 2020-03-07 2020-06-05 重庆邮电大学 一种基于强化学习的信道多址接入方法
CN112543038A (zh) * 2020-11-02 2021-03-23 杭州电子科技大学 基于haql-pso的跳频系统智能抗干扰决策方法
CN113207129A (zh) * 2021-05-10 2021-08-03 重庆邮电大学 基于置信区间上界算法与drl算法的动态频谱接入方法
CN114928549A (zh) * 2022-04-20 2022-08-19 清华大学 基于强化学习的非授权频段的通信资源分配方法及装置
CN115412105A (zh) * 2022-05-06 2022-11-29 南京邮电大学 基于usrp rio的强化学习通信干扰方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080089279A1 (en) * 2006-10-16 2008-04-17 Stmicroelectronics, Inc. Method of inter-system coexistence and spectrum sharing for dynamic spectrum access networks-on-demand spectrum contention
CN101466111A (zh) * 2009-01-13 2009-06-24 中国人民解放军理工大学通信工程学院 基于政策规划约束q学习的动态频谱接入方法
CN102083101A (zh) * 2011-01-25 2011-06-01 东南大学 一种认知无线电传感器网络信息传输方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080089279A1 (en) * 2006-10-16 2008-04-17 Stmicroelectronics, Inc. Method of inter-system coexistence and spectrum sharing for dynamic spectrum access networks-on-demand spectrum contention
CN101466111A (zh) * 2009-01-13 2009-06-24 中国人民解放军理工大学通信工程学院 基于政策规划约束q学习的动态频谱接入方法
CN102083101A (zh) * 2011-01-25 2011-06-01 东南大学 一种认知无线电传感器网络信息传输方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013104120A1 (zh) * 2012-01-11 2013-07-18 中国人民解放军理工大学 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
CN102448070A (zh) * 2012-01-11 2012-05-09 中国人民解放军理工大学 动态频谱环境中基于多智能体强化学习的频率功率联合分配方法
CN104853360A (zh) * 2014-02-17 2015-08-19 中兴通讯股份有限公司 一种分配空闲频谱的方法、装置及终端
WO2015120711A1 (zh) * 2014-02-17 2015-08-20 中兴通讯股份有限公司 一种分配空闲频谱的方法、装置及终端
CN106535244A (zh) * 2015-09-11 2017-03-22 上海贝尔股份有限公司 一种无线通信方法和设备
CN105391490B (zh) * 2015-10-20 2019-02-05 中国人民解放军理工大学 一种基于认知的卫星通信网络选择算法
CN105391490A (zh) * 2015-10-20 2016-03-09 中国人民解放军理工大学 一种基于认知的卫星通信网络选择算法
CN108347744A (zh) * 2018-01-19 2018-07-31 厦门大学 一种设备接入方法、装置及接入控制设备
CN108737266A (zh) * 2018-04-28 2018-11-02 国网江苏省电力有限公司苏州供电分公司 基于双估计器的动态路由选择方法
CN111211831A (zh) * 2020-01-13 2020-05-29 东方红卫星移动通信有限公司 一种多波束低轨卫星智能动态信道资源分配方法
CN111225380A (zh) * 2020-01-13 2020-06-02 东方红卫星移动通信有限公司 一种空天地海一体化多用户协作学习动态接入方法
CN111245541A (zh) * 2020-03-07 2020-06-05 重庆邮电大学 一种基于强化学习的信道多址接入方法
CN112543038A (zh) * 2020-11-02 2021-03-23 杭州电子科技大学 基于haql-pso的跳频系统智能抗干扰决策方法
CN112543038B (zh) * 2020-11-02 2022-03-11 杭州电子科技大学 基于haql-pso的跳频系统智能抗干扰决策方法
CN113207129A (zh) * 2021-05-10 2021-08-03 重庆邮电大学 基于置信区间上界算法与drl算法的动态频谱接入方法
CN113207129B (zh) * 2021-05-10 2022-05-20 重庆邮电大学 基于置信区间上界算法与drl算法的动态频谱接入方法
CN114928549A (zh) * 2022-04-20 2022-08-19 清华大学 基于强化学习的非授权频段的通信资源分配方法及装置
CN115412105A (zh) * 2022-05-06 2022-11-29 南京邮电大学 基于usrp rio的强化学习通信干扰方法
CN115412105B (zh) * 2022-05-06 2024-03-12 南京邮电大学 基于usrp rio的强化学习通信干扰方法

Also Published As

Publication number Publication date
CN102256262B (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
CN102256262B (zh) 基于分布式独立学习的多用户动态频谱接入方法
CN109862610A (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
Fayaz et al. Transmit power pool design for grant-free NOMA-IoT networks via deep reinforcement learning
CN108076467B (zh) 频谱资源受限下的广义感知模型及分布式q学习接入方法
CN113316154B (zh) 一种授权和免授权d2d通信资源联合智能分配方法
CN103209419B (zh) 一种面向用户需求和提升网络性能的动态频谱接入的方法
CN101466111A (zh) 基于政策规划约束q学习的动态频谱接入方法
CN101359941A (zh) 认知无线电技术中基于归一化博弈模型的功率控制方法
CN102448159B (zh) 基于干扰管理的功率速率联合控制博弈方法
Shi et al. Make smart decisions faster: Deciding D2D resource allocation via stackelberg game guided multi-agent deep reinforcement learning
CN102711115A (zh) 认知无线网络中机会频谱资源的多用户分布式接入方法
CN111262638B (zh) 基于高效样本学习的动态频谱接入方法
Ren et al. Cognitive radio made practical: Forward-lookingness and calculated competition
CN104780007A (zh) 基于联盟博弈的多用户协作频谱感知方法
CN113795049A (zh) 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法
CN108880709A (zh) 一种认知无线网络中分布式多用户动态频谱接入方法
CN113784359A (zh) 一种基于改进bp神经网络算法的动态信道接入方法
CN102932801A (zh) 一种多用户认知无线电网络中的被动协同频谱感知方法
CN111669759A (zh) 一种基于深度q网络的动态多信道协作感知方法
CN102186177A (zh) 基于需求因子的频谱共享博弈方法
CN114051252A (zh) 无线接入网中多用户智能发射功率控制方法
CN108882377A (zh) 基于认知的lte-r中资源分配方法
Xu et al. Social welfare maximization for SRSNs using bio-inspired community cooperation mechanism
Balcı et al. Fairness aware deep reinforcement learning for grant-free NOMA-IoT networks
Yang et al. Task-driven semantic-aware green cooperative transmission strategy for vehicular networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NANJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS

Free format text: FORMER OWNER: NANJING POST + TELECOMMUNICATION UNIV.

Effective date: 20140815

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140815

Address after: 210003 Nanjing City, Jiangsu Province, the new model road No. 66

Patentee after: Nanjing University of Posts and Telecommunications Asset Management Co., Ltd.

Address before: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Patentee before: Nanjing Post & Telecommunication Univ.

ASS Succession or assignment of patent right

Owner name: NANJING NUPT INFORMATION INDUSTRY TECHNOLOGY RESEA

Free format text: FORMER OWNER: NANJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS ASSET MANAGEMENT CO., LTD.

Effective date: 20150423

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 210003 NANJING, JIANGSU PROVINCE TO: 210000 NANJING, JIANGSU PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20150423

Address after: 210000 No. 6-3 Xing Zhi Road, Nanjing economic and Technological Development Zone, Jiangsu, China

Patentee after: Nanjing Nanyou Information Industry Technology Research Institute Co. Ltd.

Address before: 210003 Nanjing City, Jiangsu Province, the new model road No. 66

Patentee before: Nanjing University of Posts and Telecommunications Asset Management Co., Ltd.