CN106358203A - 一种分布式认知无线传感器网络中基于q学习的频谱分配方法 - Google Patents
一种分布式认知无线传感器网络中基于q学习的频谱分配方法 Download PDFInfo
- Publication number
- CN106358203A CN106358203A CN201610772003.6A CN201610772003A CN106358203A CN 106358203 A CN106358203 A CN 106358203A CN 201610772003 A CN201610772003 A CN 201610772003A CN 106358203 A CN106358203 A CN 106358203A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- cognitive
- learning
- node
- time slot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000019771 cognition Effects 0.000 title 1
- 230000001149 cognitive effect Effects 0.000 claims abstract description 103
- 230000008569 process Effects 0.000 claims abstract description 14
- 230000004044 response Effects 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims abstract description 8
- 239000003795 chemical substances by application Substances 0.000 claims description 47
- 230000006870 function Effects 0.000 claims description 15
- 230000009471 action Effects 0.000 claims description 14
- 238000005265 energy consumption Methods 0.000 claims description 7
- 230000009191 jumping Effects 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 4
- 238000012804 iterative process Methods 0.000 claims description 2
- 230000001052 transient effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 5
- 230000008859 change Effects 0.000 abstract description 3
- 230000002093 peripheral effect Effects 0.000 abstract description 2
- 238000013475 authorization Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003920 cognitive function Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/14—Spectrum sharing arrangements between different networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L27/00—Modulated-carrier systems
- H04L27/0006—Assessment of spectral gaps suitable for allocating digitally modulated signals, e.g. for carrier allocation in cognitive radio
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/18—Self-organising networks, e.g. ad-hoc networks or sensor networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种分布式认知无线传感器网络中基于Q学习的频谱分配方法,以最大化分布式认知无线传感器网络的平均吞吐量和平均能量效率比为目标,认知无线传感器网络中各节点针对周围授权频谱状态变化以及其他节点分配策略相互学习并最终适应,将该过程映射成分布式多智能体Q学习的过程,并通过执行时序轮替机制下的最佳响应Q学习迭代算法来逼近最佳频谱分配策略。本发明具有收敛速度快、计算复杂度低、改善认知无线传感器网络平均吞吐量和平均能量效率比的特点。
Description
技术领域
本发明涉及认知无线传感器网络和频谱分配技术,具体是一种分布式认知无线传感器网络中基于Q学习的频谱分配方法。
背景技术
传统的无线传感器网络所工作的免授权频谱资源被日益增长的其他无线通信技术设备所挤占,由此带来的频谱资源短缺问题也越加严峻。得益于认知无线电理论的成熟和技术的进步,为缓解频谱资源紧张带来了新的契机。具备认知无线电技术的无线传感器网络可根据自身需求,通过对周围利用率不高且空闲的授权频谱实现实时感知和动态接入,从而在提升授权频谱利用效率的同时缓解无线传感器网络频谱资源紧张的压力。但认知功能的引入也会增加相应资源开销,例如过多的频谱竞争和频谱切换等,而无线传感器网络本身是一种运算、存储以及电量等资源受限的网络,因此不论从缓解频谱资源短缺还是节约能耗的角度,寻求一个更加适用于认知无线传感器网络特点的动态频谱分配算法来改善网络的平均吞吐量以及平均能量效率比则是迫切的现实需求。
现有的认知无线电网络频谱分配技术主要通过图论上色、微观经济学、人工智能以及马尔科夫判决等算法来实现。具体实现中,有启发式集中频谱分配算法、纳什Q学习算法、遗传算法以及多臂赌博机等频谱分配算法。以往算法多针对集中式的网络环境,此类网络结构的中心节点一旦无法工作将面临整个网络传输中断的风险。随着科技的进步,分布式无线传感器网络在高抗毁性能以及低成本等方面的优势,使得传感器网络正朝着分布式的方向发展。虽然出现了针对分布式网络的相关算法,但计算复杂度相对较高。
考虑到认知无线传感器网络本身是一种资源有限的网络,因此,结合分布式认知无线传感器网络的特点来最大化网络的平均吞吐量和平均能量效率比则非常有意义。
发明内容
本发明提出一种分布式认知无线传感器网络中基于Q学习的频谱分配方法,该方法结合分布式认知无线传感器网络的特点来最大化网络的平均吞吐量和平均能量效率比,采用Q学习算法,是一种收敛速度快、计算开销小、能效利用较高的频谱分配方法。
一种分布式认知无线传感器网络中基于Q学习的频谱分配方法,以网络平均吞吐量或网络平均能量效率比作为目标函数,以认知传感器节点作为智能体,以联合频谱状态S(t)=[s1(t),...,sj(t),...,sM(t)]作为Q学习的环境状态集合S,任一时隙内认知传感器节点频谱的分配动作A(t)作为智能体Agent的动作集合A,以认知传感器节点与授权频谱和其他节点之间的对应关系作为智能体的瞬时反馈奖励函数,采用时序轮替机制下的最佳响应Q学习迭代算法对网络中各节点频谱进行分配,在迭代过程中设定探索利用率为et;
其中,sj(t)∈{0,1},sj(t)=1表示授权频谱Cj在时隙t处于占用状态,M表示授权频谱数量;sj(t)=0则表示授权频谱Cj在时隙t处于空闲状态。
在环境状态变化服从或具备马尔科夫性的情况下,转移概率公式和Q值函数的迭代公式属于已知公式。
在同一时隙,若有多个认知传感器节点感知到同一授权频谱为空闲状态,最终只有一个节点成功并独占接入使用,其余竞争失败的节点均进入休眠省电模式,假设单个时隙长度为Tslot,认知传感器节点执行一次频谱感知的平均时长和平均功率分别为τs、εs,认知传感器节点的数据平均发送速率和平均发射功率分别为R、εtr,认知传感器节点频谱切换时间很短,对应的频谱切换能量平均消耗为Eh。
在给定时隙t内,单个认知无线传感器节点SUi的吞吐量Ri(t)和能量消耗Ei(t)的计算方式如表所示:
从图2中的时隙结构来看,多次感知将会压缩数据传输的时间,当传输速率R恒定的时候,会直接影响认知节点的数据吞吐量。
以最大化网络平均吞吐量和网络平均能量效率比η作为目标函数,具体计算公式如下:
所述目标函数包括两种表达形式,具体如下:
其中,aij(t)表示在时隙t,认知传感器节点频谱的分配动作A(t)中授权频谱Cj被网络中的认知节点SUi分配的情况;aij(t)=1表示在t时隙内,认知传感器节点SUi将Cj作为第一选择频谱用来感知并接入,aij(t)=2表示认知传感器节点SUi将Cj作为第二选择频谱用来感知并接入,aij(t)=0则表示认知传感器节点SUi在t时隙内未将Cj作为第一或第二选择频谱用来感知并接入;
N表示认知传感器节点数量,且N≤M,Λ表示将M个授权频谱按照各自的空闲概率值θ从大到小排序后,取前N个空闲概率最高的授权频谱所构成的集合,剩余M-N个频谱则构成集合Cp表示任一属于集合Λ的授权频谱,aip(t)表示在时隙t,授权频谱Cp被网络中的认知节点SUi分配的情况,Cq表示任意一个属于集合的授权频谱。aiq(t)表示在时隙t时,在集合中的授权频谱Cq被网络中的任一认知节点SUi分配的情况。
所述探索利用率按以下公式设定:
et+1=f(et)=μet,0<μ<1。
“探索”是为了对“状态动作”空间实现遍历,从而避免算法收敛于一个局部最优解,而“利用”可防止学习过程过于震荡而不收敛。
所述采用时序轮替机制下的最佳响应Q学习迭代算法对网络中各节点频谱进行分配的具体过程如下:
步骤1:初始化,在时隙t=0时刻,令所有认知传感器节点的“状态动作”Q值函数Qt(S,ai)=0,概率
设定在时隙t,网络具有唯一学习权限的认知传感器节点标识为current_agent(t),初始化为1,current_agent(t)的取值表示当前具有学习权限的节点为第几个认知传感器节点,取值范围为1~N;
步骤2:在时隙t内,依次对每个认知传感器节点进行如下操作;
步骤3:判断认知传感器节点SUi是否为当前唯一具有学习权限的智能体,若认知传感器节点SUi为当前具有学习权限的智能体,则执行步骤4,若认知传感器节点SUi不具有学习权限,则执行步骤9;
步骤4:产生一个随机数e用于比较探索利用率et的大小,若随机数e小于et,则执行步骤5,若随机数e大于等于et,则执行步骤6;
步骤5:认知传感器节点SUi执行“探索”过程,随机分配一个授权频谱ai=random(M),计算随后跳转步骤7;
t表示从0时隙到t时隙的长度,也可表示当前处于第几个时隙,例如t=5既可以理解为第5个时隙,也可以认为从初始化到当前经历的5个时隙的时间长度;
其中,当处于t时隙,若此时状态为S,当认知节点SUi分配授权频谱为ai时,其概率更新可通过等号右边的sum(ai|S)/t来估算;sum(ai|S)表示在状态S下,SUi分配授权频谱为ai的历史次数;
步骤6:认知传感器节点SUi执行“利用”过程,当前节点SUi根据公式分配最佳频谱ai,计算随后跳转步骤7;
步骤7:根据频谱分配后的结果,观测环境的下一联合状态S′,将获得的瞬时反馈奖励函数r(S,ai)代入式迭代更新Qt+1(S,ai);
步骤8:计算t时隙认知传感器节点SUi的学习充分性因子比较与门限值ξ的大小,若current_agent(t)保持不变,否则,current_agent(t)值加1;若current_agent(t)等于N,则令current_agent(t)等于1;
步骤9:不具备学习权限的认知传感器节点SUk直接根据公式分配最佳频谱ak;
授权频谱空闲可利用率为[θ1,...,θM],单个时隙长度为Tslot,认知传感器节点执行一次频谱感知的平均时长和平均功率分别为τs、εs,且频谱感知无误差,认知传感器节点的数据平均发送速率和平均发射功率分别为R、εtr,认知传感器节点频谱切换能量平均消耗为Eh;学习速率为αt,折扣因子为γ,探索利用率为et,学习充分性门限值为ξ。
给定时隙t内具备学习权限的认知传感器节点SUi的“学习充分性因子”按以下公式计算:
在时隙t,不具备学习权限的认知传感器节点SUk,最佳频谱分配策略所对应的概率为按如下公式设置:
若认知传感器节点SUk无学习权限,则其对应的最佳频谱分配策略以概率1保持静态,也即此时具备学习权限的节点SUi的频谱分配策略则为其他节点的最佳响应。
根据认知传感器节点SUi采用不同频谱分配动作aij(t)所产生的不同结果,瞬时反馈奖励函数r(S,ai)设定如下:
其中,参数δ为正整数,δ≤10。
其他的设置值也能达到类似效果,但不同结果下对应的取值大小规律必须按照上面的规律来设定,也即反馈奖励负的越大,说明结果越严重,越不是网络性能所期望的。上面的值的取值只是表明一个相对的量,例如也可设置如下:
有益效果
本发明提出了一种分布式认知无线传感器网络中基于Q学习的频谱分配方法,以最大化分布式认知无线传感器网络的平均吞吐量和平均能量效率比为目标,认知无线传感器网络中各节点针对周围授权频谱状态变化以及其他节点分配策略相互学习并最终适应,将该过程映射成分布式多智能体Q学习的过程,并通过执行时序轮替机制下的最佳响应Q学习迭代算法来逼近最佳频谱分配策略。本发明具有收敛速度快、计算复杂度低、改善认知无线传感器网络平均吞吐量和平均能量效率比的特点。
附图说明
图1是本发明实施方式中分布式认知无线传感器网络模型示意图;
图2是本发明实施方式时隙结构和节点在相同授权频谱竞争过程示意图;
图3是本发明实施方式中分布式多智能体Q学习过程示意图;
图4是本发明实施方式中各智能体学习权限进行时序轮替的示意图;
图5是本发明实施方式的基于时序轮替机制下的最佳响应Q学习迭代频谱分配算法流程示意图;
图6是本发明实施例在授权频谱数M为8,参数δ为1的情况下,各算法的网络平均吞吐量随时间变化示意图;
图7是本发明实施例在图6的给定的相同参数条件下,各算法的网络平均能量效率比随时间变化示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
本发明给定N个认知传感器节点,M个授权频谱(M≥N),其中授权频谱空闲可利用率为[θ1,...,θM],单个时隙长度为Tslot,认知传感器节点执行一次频谱感知的平均时长和平均功率分别为τs、εs,且频谱感知无误差,认知传感器节点的数据平均发送速率和平均发射功率分别为R、εtr,认知传感器节点频谱切换时间很短,对应的频谱切换能量平均消耗为Eh。学习速率为αt,折扣因子为γ,探索利用率为et,学习充分性门限值为ξ,所使用的网络模型如图1所示,认知无线传感器网络是一种无基站、控制中心等基础服务设施的分布式网络,其中各认知传感器采用Overlay模式机会地利用授权频谱来完成数据的传输。
本发明一种分布式认知无线传感器网络中基于Q学习的频谱分配方法,如图5所示,具体步骤如下:
1、初始化,在时隙t=0时刻,令所有认知传感器节点的“状态动作”Q值函数Qt(S,ai)=0,概率设定当前具有学习权限的智能体current_agent(t)初始化为1;
2、在时隙t内,对于所有i=1,2,…,N,重复下面第3~9步;
3、判断认知传感器节点SUi是否为当前具有学习权限的智能体,若认知传感器节点SUi为当前具有学习权限的智能体(i=current_agent(t)),则执行第4步,若认知传感器节点SUi不具有学习权限(i≠current_agent(t)),则执行第9步
4、产生一个随机数e用于比较探索利用率et的大小,若随机数e小于et,则执行第5步,若随机数e大于等于et,则执行第6步
5、认知传感器节点SUi执行“探索”过程,也即随机分配一个授权频谱ai=random(M),计算随后跳转第7步
6、认知传感器节点SUi执行“利用”过程,也即当前节点SUi根据公式分配最佳频谱ai,计算随后跳转第7步
7、根据频谱分配后的结果,观测环境的下一联合状态S′,将获得的瞬时反馈奖励函数r(S,ai)代入式迭代更新Qt+1(S,ai)
8、计算当前时隙认知传感器节点SUi的学习充分性因子比较与门限值ξ的大小,若current_agent(t)保持不变,否则,current_agent(t)值加1;若current_agent(t)等于N,则重新令current_agent(t)等于1;该轮替过程如图4所示。
9、不具备学习权限的认知传感器节点SUk直接根据公式分配最佳频谱ak,且令
用来对照的“MCGA”理想频谱分配算法出自“Opportunistic Spectrum Accesswith Two Channel Sensing in Cognitive Radio Networks”(认知无线电网络中连续两信道感知的机会式频谱接入,IEEE TRANSACTIONS ON MOBILE COMPUTING 2015),其网络模型为带有基础服务设施的(例如基站)集中式结构,各节点的频谱分配由基础服务设施来完成,随后在马尔科夫链环境下采用基于贪婪的频谱分配算法将空闲利用率最高的授权频谱分配给各节点,因此是一种较为理想的频谱分配方式,可将该算法所对应的网络平均吞吐量和平均能效比作为一个理想的理论上界。
用来对照的“WoLF-PHC”算法出自“Multiagent learning using a variablelearning rate”(可变学习速率下的多智能体增强学习算法,Artificial Intelligence2002)该算法被证明是一种收敛的、有效的分布式多智能体迭代Q学习算法,因此可将该算法用来对比所提发明的有效性和收敛速度。
用来对照的“TIQL”(Traditional Independent Q-Learning)算法为传统的分布式多智能体独立Q学习迭代算法,也即各智能体在同一时隙均具有学习权限,可独立地进行环境学习,但各智能体频谱分配动作不是最佳响应,且缺乏有效的协调机制,彼此频谱分配策略容易受到影响。
用来对照的“随机频谱分配算法”中各认知传感器节点随机分配某一授权频谱进行感知和接入,其分配策略最为简单,算法对应的网络平均吞吐量和平均能效比随机性较大,因此可将其作为一种理论下界。
图6是本发明实施例在授权频谱数M为8,对应空闲可利用率θ分别为0.9/0.8/0.7/0.6/0.5/0.4/0.3/0.2,认知传感器节点数N为4,单个时隙长度Tslot为22ms,认知传感器节点执行一次频谱感知的平均时长τs和平均功率εs分别为2ms、3mW,认知传感器节点的数据平均发送速率R和平均发射功率εtr分别为10Mb/s、10mW,认知传感器节点频谱切换能量消耗Eh为3×10-6J。学习速率αt为0.8/(1+t),折扣因子γ为常数0.6,探索利用率et为0.6×0.7t,学习充分性门限值ξ为常数0.4,参数δ为1的情况下,各算法的网络平均吞吐量随时间变化示意图。
可以看到,在最开始一段的时间,各算法的网络平均吞吐量都急剧上升,主要是计算平均吞吐量的公式中分母t相对分子过小:
但随着算法持续进行,图3中本发明提出的算法与WoLF-PHC算法分别大约从第390时隙和第630时隙开始出现曲线正常增长的过程,这说明本文算法收敛性相比较WoLF-PHC算法有优势,对环境变化适应更快。经过遍历后,TIQL算法直到第2790时隙才开始有所增长,这正说明TIQL算法中各传感器节点缺乏对周围环境和其他节点动作的最佳响应,导致算法收敛性差。而采用随机频谱分配的方式,平均吞吐量在图中很难有明显增长,说明该算法对网络的平均吞吐量性能没有改善,对环境的适应能力也比其他算法差。从图中还可以看到,在经历长时间的算法演进后,本发明算法、WoLF-PHC算法以及TIQL算法都有一个趋近最优值的过程,而本发明算法所获得的平均吞吐量更接近于MCGA理想频谱分配算法,相比于WoLF-PHC算法有4.16%的改善,相比于TIQL算法则有8.85%的提升。
图7是本发明实施例在图6相同参数设置下的各算法的网络平均能量效率比随时间变化示意图。和图6类似,本发明算法和WoLF-PHC算法分别大约从第390时隙和第630时隙开始正常增长,说明这两种算法能带来更高的网络平均能效比以及具有更好的环境适应性,可花费较少的时间即可学习到针对周围环境的频谱分配策略,随着时间的推移,两者都趋于收敛,但本文算法收敛策略显然更好,更加逼近最佳情况。TIQL算法经过遍历之后大约在第2790时隙开始也有所增长,但收敛效果显然不及前两种算法。由于随机频谱分配算法节点间缺乏内在的协调性和针对环境变化的反馈信息,所以在提高能量效率上能力同样十分有限。从图7中可以得到本发明所提算法的平均能量效率比相比WoLF-PHC算法改善了2%,比TIQL算法提高了6%。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种分布式认知无线传感器网络中基于Q学习的频谱分配方法,其特征在于,以网络平均吞吐量或网络平均能量效率比作为目标函数,以认知传感器节点作为智能体,以联合频谱状态S(t)=[s1(t),...,sj(t),...,sM(t)]作为Q学习的环境状态集合S,任一时隙内认知传感器节点频谱的分配动作A(t)作为智能体Agent的动作集合A,以认知传感器节点与授权频谱和其他节点之间的对应关系作为智能体的瞬时反馈奖励函数,采用时序轮替机制下的最佳响应Q学习迭代算法对网络中各节点频谱进行分配,在迭代过程中设定探索利用率为et;
其中,sj(t)∈{0,1},sj(t)=1表示授权频谱Cj在时隙t处于占用状态,M表示授权频谱数量;sj(t)=0则表示授权频谱Cj在时隙t处于空闲状态。
2.根据权利要求1所述的方法,其特征在于,所述目标函数包括两种表达形式,具体如下:
(1)
(2)
其中,aij(t)表示在时隙t,认知传感器节点频谱的分配动作A(t)中授权频谱Cj被网络中的认知节点SUi分配的情况;aij(t)=1表示在t时隙内,认知传感器节点SUi将Cj作为第一选择频谱用来感知并接入,aij(t)=2表示认知传感器节点SUi将Cj作为第二选择频谱用来感知并接入,aij(t)=0则表示认知传感器节点SUi在t时隙内未将Cj作为第一或第二选择频谱用来感知并接入;
N表示认知传感器节点数量,且N≤M,Λ表示将M个授权频谱按照各自的空闲概率值θ从大到小排序后,取前N个空闲概率最高的授权频谱所构成的集合,剩余M-N个频谱则构成集合Cp表示任一属于集合Λ的授权频谱,aip(t)表示在时隙t,授权频谱Cp被网络中的认知节点SUi分配的情况,Cq表示任意一个属于集合的授权频谱。aiq(t)表示在时隙t时,在集合中的授权频谱Cq被网络中的任一认知节点SUi分配的情况。
3.根据权利要求2所述的方法,其特征在于,所述探索利用率按以下公式设定:
et+1=f(et)=μet,0<μ<1。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述采用时序轮替机制下的最佳响应Q学习迭代算法对网络中各节点频谱进行分配的具体过程如下:
步骤1:初始化,在时隙t=0时刻,令所有认知传感器节点的“状态动作”Q值函数Qt(S,ai)=0,概率
设定在时隙t,网络具有唯一学习权限的认知传感器节点标识为current_agent(t),初始化为1,current_agent(t)的取值表示当前具有学习权限的节点为第几个认知传感器节点,取值范围为1~N;
步骤2:在时隙t内,依次对每个认知传感器节点进行如下操作;
步骤3:判断认知传感器节点SUi是否为当前唯一具有学习权限的智能体,若认知传感器节点SUi为当前具有学习权限的智能体,则执行步骤4,若认知传感器节点SUi不具有学习权限,则执行步骤9;
步骤4:产生一个随机数e用于比较探索利用率et的大小,若随机数e小于et,则执行步骤5,若随机数e大于等于et,则执行步骤6;
步骤5:认知传感器节点SUi执行“探索”过程,随机分配一个授权频谱ai=random(M),计算随后跳转步骤7;
其中,表示当处于t时隙,若此时状态为S,且认知节点SUi分配的授权频谱为ai时,其概率更新可通过等号右边的sum(ai|S)/t来估算;sum(ai|S)表示在状态S下,SUi分配授权频谱为ai的历史次数;
步骤6:认知传感器节点SUi执行“利用”过程,当前节点SUi根据公式分配最佳频谱ai,计算随后跳转步骤7;
步骤7:根据频谱分配后的结果,观测环境的下一联合状态S′,将获得的瞬时反馈奖励函数r(S,ai)代入式迭代更新Qt+1(S,ai);
步骤8:计算t时隙认知传感器节点SUi的学习充分性因子比较与门限值ξ的大小,若current_agent(t)保持不变,否则,current_agent(t)值加1;若current_agent(t)等于N,则令current_agent(t)等于1;
步骤9:不具备学习权限的认知传感器节点SUk直接根据公式分配最佳频谱ak;
授权频谱空闲可利用率为[θ1,...,θM],单个时隙长度为Tslot,认知传感器节点执行一次频谱感知的平均时长和平均功率分别为τs、εs,且频谱感知无误差,认知传感器节点的数据平均发送速率和平均发射功率分别为R、εtr,认知传感器节点频谱切换能量平均消耗为Eh;学习速率为αt,折扣因子为γ,探索利用率为et,学习充分性门限值为ξ。
5.根据权利要求4所述的方法,其特征在于,给定时隙t内具备学习权限的认知传感器节点SUi的“学习充分性因子”按以下公式计算:
6.根据权利要求3所述的方法,其特征在于,在时隙t,不具备学习权限的认知传感器节点SUk,最佳频谱分配策略所对应的概率为按如下公式设置:
7.根据权利要求4所述的方法,其特征在于,根据认知传感器节点SUi采用不同频谱分配动作aij(t)所产生的不同结果,反馈奖励值r(S,ai)设定如下:
其中,参数δ为正整数,δ≤10。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610772003.6A CN106358203A (zh) | 2016-08-30 | 2016-08-30 | 一种分布式认知无线传感器网络中基于q学习的频谱分配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610772003.6A CN106358203A (zh) | 2016-08-30 | 2016-08-30 | 一种分布式认知无线传感器网络中基于q学习的频谱分配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106358203A true CN106358203A (zh) | 2017-01-25 |
Family
ID=57857858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610772003.6A Pending CN106358203A (zh) | 2016-08-30 | 2016-08-30 | 一种分布式认知无线传感器网络中基于q学习的频谱分配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106358203A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106843220A (zh) * | 2017-02-27 | 2017-06-13 | 同济大学 | 一种多Agent围捕‑觅食行为控制方法 |
CN107105466A (zh) * | 2017-03-14 | 2017-08-29 | 南京邮电大学 | 一种基于增强学习算法的移动Sink数据收集方法 |
CN107690176A (zh) * | 2017-09-30 | 2018-02-13 | 南京南瑞集团公司 | 一种基于q学习算法的网络选择方法 |
CN108401254A (zh) * | 2018-02-27 | 2018-08-14 | 苏州经贸职业技术学院 | 一种基于强化学习的无线网络资源分配方法 |
CN108712760A (zh) * | 2018-03-29 | 2018-10-26 | 北京邮电大学 | 基于随机自动学习机与模糊算法的高吞吐量中继选择方法 |
CN108833040A (zh) * | 2018-06-22 | 2018-11-16 | 电子科技大学 | 基于强化学习的智能频谱协同感知方法 |
CN108882377A (zh) * | 2018-06-08 | 2018-11-23 | 苏州大学 | 基于认知的lte-r中资源分配方法 |
CN109462858A (zh) * | 2017-11-08 | 2019-03-12 | 北京邮电大学 | 一种无线传感器网络参数自适应调节方法 |
CN109698738A (zh) * | 2017-10-24 | 2019-04-30 | 华为技术有限公司 | 通信方法和通信装置 |
CN110337082A (zh) * | 2019-04-22 | 2019-10-15 | 北京邮电大学 | 基于环境感知学习策略的家禽饲养监测无线传感网络发送速率调整方法 |
CN111262638A (zh) * | 2020-01-17 | 2020-06-09 | 合肥工业大学 | 基于高效样本学习的动态频谱接入方法 |
CN111342920A (zh) * | 2020-01-10 | 2020-06-26 | 重庆邮电大学 | 一种基于q学习的信道选择方法 |
CN112367131A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于强化学习的跳跃式频谱感知方法 |
CN112888071A (zh) * | 2021-01-22 | 2021-06-01 | 中国人民解放军国防科技大学 | 基于快速强化学习的干扰规避方法、装置、设备及介质 |
CN114356535A (zh) * | 2022-03-16 | 2022-04-15 | 北京锦诚世纪咨询服务有限公司 | 无线传感器网络的资源管理方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101466111A (zh) * | 2009-01-13 | 2009-06-24 | 中国人民解放军理工大学通信工程学院 | 基于政策规划约束q学习的动态频谱接入方法 |
CN105897585A (zh) * | 2016-04-11 | 2016-08-24 | 电子科技大学 | 一种自组织网络基于时延约束的q学习分组传输方法 |
-
2016
- 2016-08-30 CN CN201610772003.6A patent/CN106358203A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101466111A (zh) * | 2009-01-13 | 2009-06-24 | 中国人民解放军理工大学通信工程学院 | 基于政策规划约束q学习的动态频谱接入方法 |
CN105897585A (zh) * | 2016-04-11 | 2016-08-24 | 电子科技大学 | 一种自组织网络基于时延约束的q学习分组传输方法 |
Non-Patent Citations (1)
Title |
---|
FANZI ZENG ; HANSHAN LIU ; JISHENG XU: ""Sequential channel selection for decentralized cognitive radio sensor network based on modified Q-Learning algorithm"", 《2016 12TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (ICNC-FSKD)》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106843220A (zh) * | 2017-02-27 | 2017-06-13 | 同济大学 | 一种多Agent围捕‑觅食行为控制方法 |
CN107105466A (zh) * | 2017-03-14 | 2017-08-29 | 南京邮电大学 | 一种基于增强学习算法的移动Sink数据收集方法 |
CN107690176B (zh) * | 2017-09-30 | 2020-08-25 | 南京南瑞集团公司 | 一种基于q学习算法的网络选择方法 |
CN107690176A (zh) * | 2017-09-30 | 2018-02-13 | 南京南瑞集团公司 | 一种基于q学习算法的网络选择方法 |
CN109698738A (zh) * | 2017-10-24 | 2019-04-30 | 华为技术有限公司 | 通信方法和通信装置 |
CN109698738B (zh) * | 2017-10-24 | 2022-04-29 | 华为技术有限公司 | 通信方法和通信装置 |
CN109462858A (zh) * | 2017-11-08 | 2019-03-12 | 北京邮电大学 | 一种无线传感器网络参数自适应调节方法 |
CN108401254A (zh) * | 2018-02-27 | 2018-08-14 | 苏州经贸职业技术学院 | 一种基于强化学习的无线网络资源分配方法 |
CN108712760A (zh) * | 2018-03-29 | 2018-10-26 | 北京邮电大学 | 基于随机自动学习机与模糊算法的高吞吐量中继选择方法 |
CN108712760B (zh) * | 2018-03-29 | 2019-11-19 | 北京邮电大学 | 基于随机自动学习机与模糊算法的高吞吐量中继选择方法 |
CN108882377A (zh) * | 2018-06-08 | 2018-11-23 | 苏州大学 | 基于认知的lte-r中资源分配方法 |
CN108882377B (zh) * | 2018-06-08 | 2023-01-17 | 苏州大学 | 基于认知的lte-r中资源分配方法 |
CN108833040A (zh) * | 2018-06-22 | 2018-11-16 | 电子科技大学 | 基于强化学习的智能频谱协同感知方法 |
CN110337082A (zh) * | 2019-04-22 | 2019-10-15 | 北京邮电大学 | 基于环境感知学习策略的家禽饲养监测无线传感网络发送速率调整方法 |
CN111342920A (zh) * | 2020-01-10 | 2020-06-26 | 重庆邮电大学 | 一种基于q学习的信道选择方法 |
CN111342920B (zh) * | 2020-01-10 | 2021-11-02 | 重庆邮电大学 | 一种基于q学习的信道选择方法 |
CN111262638B (zh) * | 2020-01-17 | 2021-09-24 | 合肥工业大学 | 基于高效样本学习的动态频谱接入方法 |
CN111262638A (zh) * | 2020-01-17 | 2020-06-09 | 合肥工业大学 | 基于高效样本学习的动态频谱接入方法 |
CN112367131A (zh) * | 2020-10-08 | 2021-02-12 | 大连理工大学 | 基于强化学习的跳跃式频谱感知方法 |
CN112367131B (zh) * | 2020-10-08 | 2021-09-24 | 大连理工大学 | 基于强化学习的跳跃式频谱感知方法 |
CN112888071A (zh) * | 2021-01-22 | 2021-06-01 | 中国人民解放军国防科技大学 | 基于快速强化学习的干扰规避方法、装置、设备及介质 |
CN112888071B (zh) * | 2021-01-22 | 2022-05-17 | 中国人民解放军国防科技大学 | 基于快速强化学习的干扰规避方法、装置、设备及介质 |
CN114356535A (zh) * | 2022-03-16 | 2022-04-15 | 北京锦诚世纪咨询服务有限公司 | 无线传感器网络的资源管理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106358203A (zh) | 一种分布式认知无线传感器网络中基于q学习的频谱分配方法 | |
Wang et al. | Intelligent cognitive radio in 5G: AI-based hierarchical cognitive cellular networks | |
Yang et al. | Learning-based energy-efficient resource management by heterogeneous RF/VLC for ultra-reliable low-latency industrial IoT networks | |
Goudarzi et al. | A fast hybrid multi-site computation offloading for mobile cloud computing | |
CN107690176B (zh) | 一种基于q学习算法的网络选择方法 | |
CN111124531B (zh) | 一种车辆雾计算中基于能耗和延迟权衡的计算任务动态卸载方法 | |
CN113490184B (zh) | 一种面向智慧工厂的随机接入资源优化方法及装置 | |
CN103916355B (zh) | 一种认知ofdm网络中子载波的分配方法 | |
CN111262638B (zh) | 基于高效样本学习的动态频谱接入方法 | |
CN109787696B (zh) | 基于案例推理与合作q学习的认知无线电资源分配方法 | |
CN113810910B (zh) | 基于深度强化学习的4g与5g网络间动态频谱共享方法 | |
Fawaz et al. | Cooperation for spreading factor assignment in a multioperator lorawan deployment | |
He et al. | Dynamic channel assignment using ant colony optimization for cognitive radio networks | |
Kaur et al. | Intelligent spectrum management based on reinforcement learning schemes in cooperative cognitive radio networks | |
Giupponi et al. | From cognition to docition: The teaching radio paradigm for distributed & autonomous deployments | |
CN104540203A (zh) | 基于独立集的无线体域网能效优化方法 | |
CN114126021A (zh) | 一种基于深度强化学习的绿色认知无线电的功率分配方法 | |
Liu et al. | Spectrum allocation optimization for cognitive radio networks using binary firefly algorithm | |
Dzikowski et al. | An agent-based simulation framework for cognitive radio studies | |
CN115915454A (zh) | Swipt辅助的下行资源分配方法及装置 | |
Yang et al. | Dynamic spectrum allocation algorithm based on matching scheme for smart grid communication network | |
Rohoden et al. | Evolutionary game theoretical model for stable femtocells’ clusters formation in hetnets | |
Chu et al. | Reinforcement learning based multi-access control with energy harvesting | |
CN115250156A (zh) | 一种基于联邦学习的无线网络多信道频谱接入方法 | |
CN102026204A (zh) | 一种认知无线电蜂窝网动态频率分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170125 |