CN111740794A - 一种多用户能量收集认知无线电系统 - Google Patents
一种多用户能量收集认知无线电系统 Download PDFInfo
- Publication number
- CN111740794A CN111740794A CN202010502102.9A CN202010502102A CN111740794A CN 111740794 A CN111740794 A CN 111740794A CN 202010502102 A CN202010502102 A CN 202010502102A CN 111740794 A CN111740794 A CN 111740794A
- Authority
- CN
- China
- Prior art keywords
- user
- spectrum
- action
- sub
- spectrum sensing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001149 cognitive effect Effects 0.000 title claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 104
- 230000009471 action Effects 0.000 claims abstract description 56
- 230000005540 biological transmission Effects 0.000 claims abstract description 47
- 238000000034 method Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims description 25
- 238000003306 harvesting Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000011664 signaling Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 5
- 238000005265 energy consumption Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/382—Monitoring; Testing of propagation channels for resource allocation, admission control or handover
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/14—Spectrum sharing arrangements between different networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0453—Resources in frequency domain, e.g. a carrier in FDMA
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/50—Allocation or scheduling criteria for wireless resources
- H04W72/54—Allocation or scheduling criteria for wireless resources based on quality criteria
- H04W72/542—Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本专利针对多用户认知无线电中的频谱不确定问题,多用户频谱接入选择问题以及频谱感知、接入和能量收集动作选择问题,提出一种多用户能量收集认知无线电系统。本专利包括与分布式合作次宽带频谱感知相结合的频谱接入策略、以及频谱感知、接入和能量收集动作选择策略学习方法及策略实施方法。该系统方案适用于分布式能量收集次用户系统,包含从感知得到的子频带中选择最优子频带进行接入、智能化决定每个时隙适合用于能量收集还是信息传输、智能化合理跳过某些频谱感知过程等功能,因此具有低控制信道开销、低能量消耗、高数据传输率等明显优势,对于实际能量收集认知无线电系统设计和实现有着一定的工程参考价值。
Description
技术领域
本发明涉及无线通信领域,更具体地,涉及一种多用户能量收集认知无线电系统。
背景技术
随着第五代移动通信技术(5G)的发展,通信系统中的用户接入需求与日俱增,频谱资源日益匮乏,次用户需要在一段高带宽频带上感知出空闲的子频带进行接入,由于当前实际工程系统中的采样技术无法满足高带宽信号的奈奎斯特采样率,因此在进行宽带频谱感知时需要以低于奈奎斯特率的采样频率进行采样,同时,为了抑制信道衰落和采样噪声,需要有效的多用户合作次奈奎斯特频谱感知算法。在多用户系统中,每个用户在感知出空闲的子频带后,需要决定接入到哪个子频带进行信息传输,从系统层面上看,结合上述分布式合作次奈奎斯特频谱感知算法,设计有效的频谱接入方案,最大化系统中每个用户的数据传输质量,是提高多用户系统的系统性能的一个关键部分。另外,在将认知无线电与能量收集技术相结合时,需要决定用户是进行频谱感知和接入还是进行能量收集,以保证系统正常供能的同时,最大化提高系统的吞吐量,满足用户的需求,因此,设计有效的频谱感知、接入和能量收集策略,以有效提高系统的频谱效率和能量效率,是系统设计的又一重要部分。
对比文件(2012100076711)通过频谱感知得到信道状态的观测值,基于隐马尔可夫模型得到耗能最小的频谱接入策略,从而降低了频谱接入过程的能量消耗。然而,上述对比文件无法实现在将认知无线电与能量收集技术相结合时,需要决定用户是进行频谱感知和接入还是进行能量收集,以保证系统正常供能的同时,最大化提高系统的吞吐量的问题。
发明内容
为克服上述现有技术与方法的不足,本发明提出了一种多用户能量收集认知无线电系统。本发明中每个次用户可以通过频谱感知和频谱接入选择最佳的子频带进行信息传输,可以在不同的状态下选择最优回报的动作,也可以跳过频谱感知进行能量收集或者直接进行信息传输,节省了频繁进行频谱感知所需消耗的能量,在最小化对主用户系统的影响的同时,最大化次用户的信息传输速率,具有较高的工程实用价值。
为解决上述技术问题,本发明的技术方案如下:
一种多用户能量收集认知无线电系统,包括频谱感知模块、频谱接入模块、能量收集模块和动作选择策略模块,其中,
所述的频谱感知模块通过频谱感知算法得到宽带频谱上的空闲子频带;
所述的频谱接入模块通过Thompson抽样算法和MBA模型,结合频谱感知模块的感知结果,接入信道;
所述的能量收集模块用于给次用户存储每个时隙的能量;
所述的动作选择策略模块用于决定定每个时隙是用于信息传输还是能量收集。
本发明中每个次用户可以通过频谱感知和频谱接入选择最佳的子频带进行信息传输,可以在不同的状态下选择最优回报的动作,也可以跳过频谱感知进行能量收集或者直接进行信息传输,节省了频繁进行频谱感知所需消耗的能量,在最小化对主用户系统的影响的同时,最大化次用户的信息传输速率,具有较高的工程实用价值。
在一种优选的方案中,所述的频谱感知模块包括以下工作流程:
S1:每个SU维持一段投票缓存区,然后进行多陪集采样和降噪;
S2:在压缩感知领域中,通过SOMP算法进行频谱感知,同时通过更新与相邻节点交换投票缓存区中的数据,以实现合作式频谱感知,得到宽带频谱上的空闲子频带。
在一种优选的方案中,所述的频谱接入模块包括以下工作流程:
步骤1:对频谱感知模块感知的每个空闲的子频带对应的Beta分布进行采样;
步骤2:选择采样结果最大的子频带;
步骤3:接入步骤2选择的最大子频带的接收机进行信息传输;
步骤4:在收到相应的反馈信息后开始计算单个回报,并根据单个回报计算成功因子和失败因子。
在一种优选的方案中,所述的步骤4的单个回报包括以下内容:
定义步骤4中的单个回报是0-1回报;
若满足以下任一条件,则单个回报的值为0;否则单个回报的值为1:
当前时隙中次用户的传输与主用户的传输或者其它次用户的传输发生碰撞;
接收机的信噪比小于预设值。
在一种优选的方案中,所述的步骤4的成功因子包括以下内容:
若单个回报的值为1,则成功因子=成功因子+1;
若单个回报的值为0,则成功因子维持不变;
所述的步骤4的失败因子包括以下内容:
若单个回报的值为0,则失败因子=失败因子+1;
若单个回报的值为1,则失败因子维持不变。
在一种优选的方案中,所述的动作选择策略模块包括以下工作流程:
定义Q-Learning算法中用到的状态集合和动作集合;
对以下参数进行初始化:
空置信状态、Q函数、成功因子和失败因子、待接入的子频带;
进行策略学习迭代,在每一次迭代的开始,首先利用ε-贪婪策略和当前估计得到的Q函数的值来选择动作;
选择了动作后,则根据该动作进行频谱感知、频谱接入和能量收集;
执行完动作后,进行MAB模型和Q-Learning的回报计算。
在一种优选的方案中,所述的“选择动作”需要满足以下条件:
发射功率小于最大允许的功率;
频谱感知和信息传输将使用的能量低于电池中的电量;
如果决定进行频谱感知,则发射功率必须大于0。
在一种优选的方案中,所述的“选择了动作后,则根据该动作进行频谱感知、频谱接入和能量收集”包括以下内容:
若选择的动作表示不进行频谱感知且发射功率为0,则进行能量收集;若发射功率大于0,则接入到上次接入的子频带中进行信息传输;
若选择的动作表示进行频谱感知,得到空闲子频带后,则通过对每个空闲子频带对应的Beta分布进行抽样并选择最大样本对应的子频带进行接入和信息传输。
在一种优选的方案中,所述的“执行完动作后,进行MAB模型和Q-Learning的回报计算”包括以下内容:
当发射功率大于0时,根据0-1回报模型得到MAB模型的回报,然后根据该回报更新成功因子和失败因子的值;在每个迭代中,都需要计算Q-Learning的回报,其计算方法分为以下几种情况:
如果该次迭代中只进行了能量收集,则回报为0;
如果该次迭代中向接收机成功发送了信息,则回报定义为可实现的数据率,用来使得得到的策略能最大化可实现的数据率;
如果该次迭代中向接收机发送了信息但与主用户的信息发生了碰撞,则回报定义为与一个常数因子κ和发射功率pt的乘积成反比-κpt。
在一种优选的方案中,所述的动作选择策略模块还包括以下工作流程:
计算MAB模型和Q-Learning的回报后,进行以下判断:
如果在该次迭代中发送了信息且成功被接收,表示对应的子频带上的主用户在当前时隙处于静默状态,将置信状态为主用户保持静默状态;
如果该次迭代中发送了信息但与主用户发生了碰撞,表示对应的子频带上的主用户在当前时隙处于活跃状态,将置信状态更新为主用户由活跃状态转化为静默状态;
如果该次迭代进行了能量收集没有发射信息,无法获得当前时隙主用户的确切状态,将当前的空置信状态作为先验概率更新空置信状态,即
vt+1=vtp00+(1-vt)p10
式中,所述的p00和p10是预设值;
最后,更新Q函数在当前状态st和动作at下的函数值,公式如下:
其中,αt为学习率,γ为折扣因子。
与现有技术相比,本发明技术方案的有益效果是:
与传统的能量收集认知无线电系统的频谱接入方案和能量收集策略(随机接入方式,短视化策略),侧重短期内的效果,不够注重历史信息和长期效果的缺陷。本发明能够从有效利用历史信息出发进行智能化频谱接入和能量收集选择,从而在无任何先验信息的情况下提高长期意义下的传输性能,其结果具有更高的频谱效率和能量效率。
附图说明
图1为实施例的模块图。
图2为次用户发射机网络模型。
图3为实施例的频谱感知算法流程图。
图4为实施例的频谱介入算法流程图。
图5为实施例的动作选择策略算法流程图。
图6为实施例的流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例
如图1~图6所示所示,一种多用户能量收集认知无线电系统,包括频谱感知模块、频谱接入模块、能量收集模块和动作选择策略模块,其中,
所述的频谱感知模块通过频谱感知算法得到宽带频谱上的空闲子频带;
所述的频谱接入模块通过Thompson抽样算法和MBA模型,结合频谱感知模块的感知结果,接入信道;
所述的能量收集模块用于给次用户存储每个时隙的能量;
所述的动作选择策略模块用于决定每个时隙是用于信息传输还是能量收集。
本实施例中每个次用户可以通过频谱感知和频谱接入选择最佳的子频带进行信息传输,可以在不同的状态下选择最优回报的动作,也可以跳过频谱感知进行能量收集或者直接进行信息传输,节省了频繁进行频谱感知所需消耗的能量,在最小化对主用户系统的影响的同时,最大化次用户的信息传输速率,具有较高的工程实用价值。
在实施例中,还可以进行以下扩展:所述的频谱感知模块包括以下工作流程:
S1:每个SU维持一段投票缓存区,然后进行多陪集采样和降噪;
S2:在压缩感知领域中,通过SOMP算法进行频谱感知,同时通过更新与相邻节点交换投票缓存区中的数据,以实现合作式频谱感知,得到宽带频谱上的空闲子频带。
本改进实施例中,网络中每个SU都维持一段投票缓存区,在进行多陪集采样和降噪后,利用压缩感知领域中,同时性正交匹配追踪(SimultaneousOrthogonal MatchingPursuit,SOMP)算法进行频谱感知,同时通过更新和与相邻节点交换投票缓存区中的数据,以实现合作式频谱感知,得到宽带频谱上的空闲子频带。
在实施例及上述改进实施例中,还可以进行以下扩展:所述的频谱接入模块包括以下工作流程:
步骤1:对频谱感知模块感知的每个空闲的子频带对应的Beta分布进行采样;
步骤2:选择采样结果最大的子频带;
步骤3:接入步骤2选择的最大子频带的接收机进行信息传输;
步骤4:在收到相应的反馈信息后开始计算单个回报,并根据单个回报计算成功因子和失败因子。
在实施例及上述改进实施例中,还可以进行以下扩展:所述的步骤4的单个回报包括以下内容:
定义步骤4中的单个回报是0-1回报;
若满足以下任一条件,则单个回报的值为0;否则单个回报的值为1:
当前时隙中次用户的传输与主用户的传输或者其它次用户的传输发生碰撞;
接收机的信噪比小于预设值。
在实施例及上述改进实施例中,还可以进行以下扩展:所述的步骤4的成功因子包括以下内容:
若单个回报的值为1,则成功因子=成功因子+1;
若单个回报的值为0,则成功因子维持不变;
所述的步骤4的失败因子包括以下内容:
若单个回报的值为0,则失败因子=失败因子+1;
若单个回报的值为1,则失败因子维持不变。
本改进实施例中,频谱接入模块则基于增强学习中的MAB模型和Thompson抽样算法进行设计,其基本流程如图4所示。接下来详细描述此方案每个次用户节点进行的操作,在此方案中,每个次用户节点u对每个子频带i分别保存两个参数:成功因子Su,i和失败因子Fu,i,分别初始化为0。在通过图3的过程进行频谱感知得到空闲的子频带,对所有的空闲子频带对应的Beta分布(Beta(Su,i+1,Fu,i+1))进行抽样,得到一个抽样序列,然后选择抽样序列中最大元素所对应的子频带进行接入,在收到相应的反馈信息后开始计算回报。本方案中将回报定义为0-1回报:如果当前时隙中次用户的传输与主用户的传输或者其它次用户的传输发生碰撞,或者接收机的信噪比小于某个阈值,则该时隙的回报为0,否则,该时隙的回报为1。得到该时隙的回报后,根据该回报的值更新Su,i和Fu,i的值,如果回报为1,则将Su,i加1,否则,将Fu,i加1。至此,完成一个时隙的操作,根据传输是否结束选择是否进入下一个时隙。通过概率性抽样的动作选择,可以与环境进行不断交互,随着Su,i和Fu,i的增大,对应的Beta分布的概率密度将会集中于其均值附近(Beta(α,β)分布的均值为),对其进行抽样后得到的最优化子频带也将逐渐收敛,从而得到有效的子频带选择方案。通过上述方案所选择的最优子频带综合考虑了以下几个方面:
1)次用户收发机在每个子频带上面的信道增益;
2)每个子频带上主用户的占用情况;
3)每个子频带上其它次用户的占用情况。
在选择信道条件最好的子信道的同时,尽可能避免与主用户和其它次用户产生碰撞,从而能够有效提高数据传输率。值得注意的是,这种方案在做频谱接入选择时不需要次用户之间传递任何信息,可以有效节省控制信道资源和次用户节点的能量,同时,这种方案不需要用户获得任何先验信息,使得其具有较高的工程实用性。
在实施例及上述改进实施例中,还可以进行以下扩展:所述的动作选择策略模块包括以下工作流程:
定义Q-Learning算法中用到的状态集合和动作集合;
对以下参数进行初始化:
空置信状态、Q函数、成功因子和失败因子、待接入的子频带;
进行策略学习迭代,在每一次迭代的开始,首先利用ε-贪婪策略和当前估计得到的Q函数的值来选择动作;
选择了动作后,则根据该动作进行频谱感知、频谱接入和能量收集;
执行完动作后,进行MAB模型和Q-Learning的回报计算。
在实施例及上述改进实施例中,还可以进行以下扩展:所述的“选择动作”需要满足以下条件:
发射功率小于最大允许的功率;
频谱感知和信息传输将使用的能量低于电池中的电量;
如果决定进行频谱感知,则发射功率必须大于0。
在实施例及上述改进实施例中,还可以进行以下扩展:述的“选择了动作后,则根据该动作进行频谱感知、频谱接入和能量收集”包括以下内容:
若选择的动作表示不进行频谱感知且发射功率为0,则进行能量收集;若发射功率大于0,则接入到上次接入的子频带中进行信息传输;
若选择的动作表示进行频谱感知,得到空闲子频带后,则通过对每个空闲子频带对应的Beta分布进行抽样并选择最大样本对应的子频带进行接入和信息传输。
在实施例及上述改进实施例中,还可以进行以下扩展:所述的“执行完动作后,进行MAB模型和Q-Learning的回报计算”包括以下内容:
当发射功率大于0时,根据0-1回报模型得到MAB模型的回报,然后根据该回报更新成功因子和失败因子的值;在每个迭代中,都需要计算Q-Learning的回报,其计算方法分为以下几种情况:
如果该次迭代中只进行了能量收集,则回报为0;
如果该次迭代中向接收机成功发送了信息,则回报定义为可实现的数据率,用来使得得到的策略能最大化可实现的数据率;
如果该次迭代中向接收机发送了信息但与主用户的信息发生了碰撞,则回报定义为与一个常数因子κ和发射功率pt的乘积成反比-κpt。
在实施例及上述改进实施例中,还可以进行以下扩展:所述的动作选择策略模块还包括以下工作流程:
计算MAB模型和Q-Learning的回报后,进行以下判断:
如果在该次迭代中发送了信息且成功被接收,表示对应的子频带上的主用户在当前时隙处于静默状态,将置信状态为主用户保持静默状态;
如果该次迭代中发送了信息但与主用户发生了碰撞,表示对应的子频带上的主用户在当前时隙处于活跃状态,将置信状态更新为主用户由活跃状态转化为静默状态;
如果该次迭代进行了能量收集没有发射信息,无法获得当前时隙主用户的确切状态,将当前的空置信状态作为先验概率更新空置信状态,即
vt+1=vtp00+(1-vt)p10
式中,所述的p00和p10是预设值;
最后,更新Q函数在当前状态st和动作at下的函数值,公式如下:
其中,αt为学习率,γ为折扣因子。
本改进实施例中,每个次用户节点u的策略学习过程如图5所示。我们首先定义Q-Learning算法中用到的状态集合和动作集合:状态集合包括空置信状态(次用户对将要接入的子频带为空闲状态的置信度)、电池电量状态和信道增益状态;动作状态包括是否进行频谱感知(0:不进行感知,1:进行感知)和发射功率pt(发射功率为0表示进行能量收集)。
在学习过程开始时,需要进行初始化,需要初始化的参数主要包括:空置信状态(初始化为0.5)、Q函数(Q-Learning算法中定义用来表示在某个转态采取某个动作后的长期回报的估计值,初始化为任意值)、成功因子和失败因子(初始化为0),待接入的子频带(初始化为任意的子频带)。
在上述具体实施方式的具体内容中,各技术特征可以进行任意不矛盾的组合,为使描述简洁,未对上述各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;例如实施例中离子电导率的计算公式并不仅限于实施例中举例的公式,不同的种类的离子电导率的计算公式各不相同。上述的是实施例的限定并不能理解为对本专利的限制。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种多用户能量收集认知无线电系统,其特征在于,包括频谱感知模块、频谱接入模块、能量收集模块和动作选择策略模块,其中,
所述的频谱感知模块通过频谱感知算法得到宽带频谱上的空闲子频带;
所述的频谱接入模块通过Thompson抽样算法和MBA模型,结合频谱感知模块的感知结果,接入信道;
所述的能量收集模块用于给次用户存储每个时隙的能量;
所述的动作选择策略模块用于决定定每个时隙是用于信息传输还是能量收集。
2.根据权利要求1所述的多用户能量收集认知无线电系统,其特征在于,所述的频谱感知模块包括以下工作流程:
S1:每个SU维持一段投票缓存区,然后进行多陪集采样和降噪;
S2:在压缩感知领域中,通过SOMP算法进行频谱感知,同时通过更新与相邻节点交换投票缓存区中的数据,以实现合作式频谱感知,得到宽带频谱上的空闲子频带。
3.根据权利要求1或2所述的多用户能量收集认知无线电系统,其特征在于,所述的频谱接入模块包括以下工作流程:
步骤1:对频谱感知模块感知的每个空闲的子频带对应的Beta分布进行采样;
步骤2:选择采样结果最大的子频带;
步骤3:接入步骤2选择的最大子频带的接收机进行信息传输;
步骤4:在收到相应的反馈信息后开始计算单个回报,并根据单个回报计算成功因子和失败因子。
4.根据权利要求3所述的多用户能量收集认知无线电系统,其特征在于,所述的步骤4的单个回报包括以下内容:
定义步骤4中的单个回报是0-1回报;
若满足以下任一条件,则单个回报的值为0;否则单个回报的值为1:
当前时隙中次用户的传输与主用户的传输或者其它次用户的传输发生碰撞;
接收机的信噪比小于预设值。
5.根据权利要求4所述的多用户能量收集认知无线电系统,其特征在于,所述的步骤4的成功因子包括以下内容:
若单个回报的值为1,则成功因子=成功因子+1;
若单个回报的值为0,则成功因子维持不变;
所述的步骤4的失败因子包括以下内容:
若单个回报的值为0,则失败因子=失败因子+1;
若单个回报的值为1,则失败因子维持不变。
6.根据权利要求4或5所述的多用户能量收集认知无线电系统,其特征在于,所述的动作选择策略模块包括以下工作流程:
定义Q-Learning算法中用到的状态集合和动作集合;
对以下参数进行初始化:
空置信状态、Q函数、成功因子和失败因子、待接入的子频带;
进行策略学习迭代,在每一次迭代的开始,首先利用ε-贪婪策略和当前估计得到的Q函数的值来选择动作;
选择了动作后,则根据该动作进行频谱感知、频谱接入和能量收集;
执行完动作后,进行MAB模型和Q-Learning的回报计算。
7.根据权利要求6所述的多用户能量收集认知无线电系统,其特征在于,所述的“选择动作”需要满足以下条件:
发射功率小于最大允许的功率;
频谱感知和信息传输将使用的能量低于电池中的电量;
如果决定进行频谱感知,则发射功率必须大于0。
8.根据权利要求6所述的多用户能量收集认知无线电系统,其特征在于,所述的“选择了动作后,则根据该动作进行频谱感知、频谱接入和能量收集”包括以下内容:
若选择的动作表示不进行频谱感知且发射功率为0,则进行能量收集;若发射功率大于0,则接入到上次接入的子频带中进行信息传输;
若选择的动作表示进行频谱感知,得到空闲子频带后,则通过对每个空闲子频带对应的Beta分布进行抽样并选择最大样本对应的子频带进行接入和信息传输。
9.根据权利要求6所述的多用户能量收集认知无线电系统,其特征在于,所述的“执行完动作后,进行MAB模型和Q-Learning的回报计算”包括以下内容:
当发射功率大于0时,根据0-1回报模型得到MAB模型的回报,然后根据该回报更新成功因子和失败因子的值;在每个迭代中,都需要计算Q-Learning的回报,其计算方法分为以下几种情况:
如果该次迭代中只进行了能量收集,则回报为0;
如果该次迭代中向接收机成功发送了信息,则回报定义为可实现的数据率,用来使得得到的策略能最大化可实现的数据率;
如果该次迭代中向接收机发送了信息但与主用户的信息发生了碰撞,则回报定义为与一个常数因子κ和发射功率pt的乘积成反比-κpt。
10.根据权利要求6至9中任一权利要求所述的多用户能量收集认知无线电系统,其特征在于,所述的动作选择策略模块还包括以下工作流程:
计算MAB模型和Q-Learning的回报后,进行以下判断:
如果在该次迭代中发送了信息且成功被接收,表示对应的子频带上的主用户在当前时隙处于静默状态,将置信状态为主用户保持静默状态;
如果该次迭代中发送了信息但与主用户发生了碰撞,表示对应的子频带上的主用户在当前时隙处于活跃状态,将置信状态更新为主用户由活跃状态转化为静默状态;
如果该次迭代进行了能量收集没有发射信息,无法获得当前时隙主用户的确切状态,将当前的空置信状态作为先验概率更新空置信状态,即
vt+1=vtp00+(1-vt)p10
式中,所述的p00和p10是预设值;
最后,更新Q函数在当前状态st和动作at下的函数值,公式如下:
其中,αt为学习率,γ为折扣因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010502102.9A CN111740794B (zh) | 2020-06-04 | 2020-06-04 | 一种多用户能量收集认知无线电系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010502102.9A CN111740794B (zh) | 2020-06-04 | 2020-06-04 | 一种多用户能量收集认知无线电系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111740794A true CN111740794A (zh) | 2020-10-02 |
CN111740794B CN111740794B (zh) | 2021-07-09 |
Family
ID=72649989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010502102.9A Active CN111740794B (zh) | 2020-06-04 | 2020-06-04 | 一种多用户能量收集认知无线电系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111740794B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112104410A (zh) * | 2020-11-06 | 2020-12-18 | 北京隆普智能科技有限公司 | 一种多无人机调度通信端口分配方法及系统 |
CN113098641A (zh) * | 2021-03-26 | 2021-07-09 | 天津(滨海)人工智能军民融合创新中心 | 一种能量受限情况下的机会频谱接入方法 |
CN113271339A (zh) * | 2021-04-25 | 2021-08-17 | 复旦大学 | 一种用户偏好未知的边缘基站缓存部署方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105792218A (zh) * | 2016-02-25 | 2016-07-20 | 中山大学 | 具有射频能量收集能力的认知无线电网络的优化方法 |
CN108242961A (zh) * | 2017-12-29 | 2018-07-03 | 南京航空航天大学 | 基于集成学习的全双工认知无线电网络合作频谱感知方法 |
CN109120362A (zh) * | 2018-10-24 | 2019-01-01 | 南京航空航天大学 | 一种具有能量采集功能的认知无线电网络的信道选择方法 |
CN111132299A (zh) * | 2019-12-06 | 2020-05-08 | 中山大学 | 中继系统的资源分配方法和装置 |
-
2020
- 2020-06-04 CN CN202010502102.9A patent/CN111740794B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105792218A (zh) * | 2016-02-25 | 2016-07-20 | 中山大学 | 具有射频能量收集能力的认知无线电网络的优化方法 |
CN108242961A (zh) * | 2017-12-29 | 2018-07-03 | 南京航空航天大学 | 基于集成学习的全双工认知无线电网络合作频谱感知方法 |
CN109120362A (zh) * | 2018-10-24 | 2019-01-01 | 南京航空航天大学 | 一种具有能量采集功能的认知无线电网络的信道选择方法 |
CN111132299A (zh) * | 2019-12-06 | 2020-05-08 | 中山大学 | 中继系统的资源分配方法和装置 |
Non-Patent Citations (2)
Title |
---|
FATIH ALAGÖZ等: "CooperativeQ: Energy-efficient channel access based on cooperative reinforcement learning", 《PUBLISHED IN: 2015 IEEE INTERNATIONAL CONFERENCE ON COMMUNICATION WORKSHOP (ICCW) 》 * |
郭伟: "无线能量收集异构网络中基于Q-Learning的自适应优化", 《CNKI中国优秀硕士论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112104410A (zh) * | 2020-11-06 | 2020-12-18 | 北京隆普智能科技有限公司 | 一种多无人机调度通信端口分配方法及系统 |
CN112104410B (zh) * | 2020-11-06 | 2021-04-27 | 北京隆普智能科技有限公司 | 一种多无人机调度通信端口分配方法及系统 |
CN113098641A (zh) * | 2021-03-26 | 2021-07-09 | 天津(滨海)人工智能军民融合创新中心 | 一种能量受限情况下的机会频谱接入方法 |
CN113271339A (zh) * | 2021-04-25 | 2021-08-17 | 复旦大学 | 一种用户偏好未知的边缘基站缓存部署方法 |
CN113271339B (zh) * | 2021-04-25 | 2022-03-18 | 复旦大学 | 一种用户偏好未知的边缘基站缓存部署方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111740794B (zh) | 2021-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111740794B (zh) | 一种多用户能量收集认知无线电系统 | |
Zhang et al. | V2X offloading and resource allocation in SDN-assisted MEC-based vehicular networks | |
CN110784882B (zh) | 一种基于强化学习的能量采集d2d通信资源分配方法 | |
CN111654342B (zh) | 基于有先验知识强化学习的动态频谱接入方法 | |
CN111314894B (zh) | 一种面向noma与携能d2d融合网络的鲁棒资源分配方法 | |
CN110267274B (zh) | 一种根据用户间社会信誉度选择传感用户的频谱共享方法 | |
CN108738151B (zh) | 一种基于粗略信息的无线预测资源分配方法 | |
Ji et al. | Power optimization in device-to-device communications: A deep reinforcement learning approach with dynamic reward | |
Liu et al. | Reinforcement learning based dynamic spectrum access in cognitive internet of vehicles | |
Zhao et al. | Deep reinforcement learning aided intelligent access control in energy harvesting based WLAN | |
CN112566261A (zh) | 一种基于深度强化学习的上行noma资源分配方法 | |
WO2021003709A1 (zh) | 一种无人机的能量分配优化方法 | |
CN115175220B (zh) | 基于无人机自组网的通信资源分配方法及装置 | |
CN113453358B (zh) | 一种无线携能d2d网络的联合资源分配方法 | |
CN104301964A (zh) | 基于组合预测的自适应机会协作控制方法 | |
CN106912059B (zh) | 支持互信息积累的认知中继网络联合中继选择及资源分配方法 | |
CN113507716A (zh) | 一种基于swipt的cr-noma网络中断与能效的优化方法 | |
CN113301637A (zh) | 一种基于q学习和神经网络的d2d通信功率控制算法 | |
CN110061826B (zh) | 一种最大化多载波分布式天线系统能效的资源分配方法 | |
CN115361734B (zh) | 基于信息时效性的功率和irs相移联合优化方法及装置 | |
CN111372313A (zh) | 基于LoRa上行传输系统的高能效资源分配方法 | |
Lai et al. | Optimal wireless information and energy transmissions for UAV-enabled cognitive communication systems | |
Ren et al. | Joint spectrum allocation and power control in vehicular communications based on dueling double DQN | |
CN115915454A (zh) | Swipt辅助的下行资源分配方法及装置 | |
CN114374977A (zh) | 一种非协作下基于q学习的共存方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |