CN111740794A

CN111740794A - 一种多用户能量收集认知无线电系统

Info

Publication number: CN111740794A
Application number: CN202010502102.9A
Authority: CN
Inventors: 翁浩生; 夏明华
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2020-10-02
Anticipated expiration: 2040-06-04
Also published as: CN111740794B

Abstract

本专利针对多用户认知无线电中的频谱不确定问题，多用户频谱接入选择问题以及频谱感知、接入和能量收集动作选择问题，提出一种多用户能量收集认知无线电系统。本专利包括与分布式合作次宽带频谱感知相结合的频谱接入策略、以及频谱感知、接入和能量收集动作选择策略学习方法及策略实施方法。该系统方案适用于分布式能量收集次用户系统，包含从感知得到的子频带中选择最优子频带进行接入、智能化决定每个时隙适合用于能量收集还是信息传输、智能化合理跳过某些频谱感知过程等功能，因此具有低控制信道开销、低能量消耗、高数据传输率等明显优势，对于实际能量收集认知无线电系统设计和实现有着一定的工程参考价值。

Description

一种多用户能量收集认知无线电系统

技术领域

本发明涉及无线通信领域，更具体地，涉及一种多用户能量收集认知无线电系统。

背景技术

随着第五代移动通信技术(5G)的发展，通信系统中的用户接入需求与日俱增，频谱资源日益匮乏，次用户需要在一段高带宽频带上感知出空闲的子频带进行接入，由于当前实际工程系统中的采样技术无法满足高带宽信号的奈奎斯特采样率，因此在进行宽带频谱感知时需要以低于奈奎斯特率的采样频率进行采样，同时，为了抑制信道衰落和采样噪声，需要有效的多用户合作次奈奎斯特频谱感知算法。在多用户系统中，每个用户在感知出空闲的子频带后，需要决定接入到哪个子频带进行信息传输，从系统层面上看，结合上述分布式合作次奈奎斯特频谱感知算法，设计有效的频谱接入方案，最大化系统中每个用户的数据传输质量，是提高多用户系统的系统性能的一个关键部分。另外，在将认知无线电与能量收集技术相结合时，需要决定用户是进行频谱感知和接入还是进行能量收集，以保证系统正常供能的同时，最大化提高系统的吞吐量，满足用户的需求，因此，设计有效的频谱感知、接入和能量收集策略，以有效提高系统的频谱效率和能量效率，是系统设计的又一重要部分。

对比文件(2012100076711)通过频谱感知得到信道状态的观测值，基于隐马尔可夫模型得到耗能最小的频谱接入策略，从而降低了频谱接入过程的能量消耗。然而，上述对比文件无法实现在将认知无线电与能量收集技术相结合时，需要决定用户是进行频谱感知和接入还是进行能量收集，以保证系统正常供能的同时，最大化提高系统的吞吐量的问题。

发明内容

为克服上述现有技术与方法的不足，本发明提出了一种多用户能量收集认知无线电系统。本发明中每个次用户可以通过频谱感知和频谱接入选择最佳的子频带进行信息传输，可以在不同的状态下选择最优回报的动作，也可以跳过频谱感知进行能量收集或者直接进行信息传输，节省了频繁进行频谱感知所需消耗的能量，在最小化对主用户系统的影响的同时，最大化次用户的信息传输速率，具有较高的工程实用价值。

为解决上述技术问题，本发明的技术方案如下：

一种多用户能量收集认知无线电系统，包括频谱感知模块、频谱接入模块、能量收集模块和动作选择策略模块，其中，

所述的频谱感知模块通过频谱感知算法得到宽带频谱上的空闲子频带；

所述的频谱接入模块通过Thompson抽样算法和MBA模型，结合频谱感知模块的感知结果，接入信道；

所述的能量收集模块用于给次用户存储每个时隙的能量；

所述的动作选择策略模块用于决定定每个时隙是用于信息传输还是能量收集。

本发明中每个次用户可以通过频谱感知和频谱接入选择最佳的子频带进行信息传输，可以在不同的状态下选择最优回报的动作，也可以跳过频谱感知进行能量收集或者直接进行信息传输，节省了频繁进行频谱感知所需消耗的能量，在最小化对主用户系统的影响的同时，最大化次用户的信息传输速率，具有较高的工程实用价值。

在一种优选的方案中，所述的频谱感知模块包括以下工作流程：

S1：每个SU维持一段投票缓存区，然后进行多陪集采样和降噪；

S2：在压缩感知领域中，通过SOMP算法进行频谱感知，同时通过更新与相邻节点交换投票缓存区中的数据，以实现合作式频谱感知，得到宽带频谱上的空闲子频带。

在一种优选的方案中，所述的频谱接入模块包括以下工作流程：

步骤1：对频谱感知模块感知的每个空闲的子频带对应的Beta分布进行采样；

步骤2：选择采样结果最大的子频带；

步骤3：接入步骤2选择的最大子频带的接收机进行信息传输；

步骤4：在收到相应的反馈信息后开始计算单个回报，并根据单个回报计算成功因子和失败因子。

在一种优选的方案中，所述的步骤4的单个回报包括以下内容：

定义步骤4中的单个回报是0-1回报；

若满足以下任一条件，则单个回报的值为0；否则单个回报的值为1：

当前时隙中次用户的传输与主用户的传输或者其它次用户的传输发生碰撞；

接收机的信噪比小于预设值。

在一种优选的方案中，所述的步骤4的成功因子包括以下内容：

若单个回报的值为1，则成功因子＝成功因子+1；

若单个回报的值为0，则成功因子维持不变；

所述的步骤4的失败因子包括以下内容：

若单个回报的值为0，则失败因子＝失败因子+1；

若单个回报的值为1，则失败因子维持不变。

在一种优选的方案中，所述的动作选择策略模块包括以下工作流程：

定义Q-Learning算法中用到的状态集合和动作集合；

对以下参数进行初始化：

空置信状态、Q函数、成功因子和失败因子、待接入的子频带；

进行策略学习迭代，在每一次迭代的开始，首先利用ε-贪婪策略和当前估计得到的Q函数的值来选择动作；

选择了动作后，则根据该动作进行频谱感知、频谱接入和能量收集；

执行完动作后，进行MAB模型和Q-Learning的回报计算。

在一种优选的方案中，所述的“选择动作”需要满足以下条件：

发射功率小于最大允许的功率；

频谱感知和信息传输将使用的能量低于电池中的电量；

如果决定进行频谱感知，则发射功率必须大于0。

在一种优选的方案中，所述的“选择了动作后，则根据该动作进行频谱感知、频谱接入和能量收集”包括以下内容：

若选择的动作表示不进行频谱感知且发射功率为0，则进行能量收集；若发射功率大于0，则接入到上次接入的子频带中进行信息传输；

若选择的动作表示进行频谱感知，得到空闲子频带后，则通过对每个空闲子频带对应的Beta分布进行抽样并选择最大样本对应的子频带进行接入和信息传输。

在一种优选的方案中，所述的“执行完动作后，进行MAB模型和Q-Learning的回报计算”包括以下内容：

当发射功率大于0时，根据0-1回报模型得到MAB模型的回报，然后根据该回报更新成功因子和失败因子的值；在每个迭代中，都需要计算Q-Learning的回报，其计算方法分为以下几种情况：

如果该次迭代中只进行了能量收集，则回报为0；

如果该次迭代中向接收机成功发送了信息，则回报定义为可实现的数据率，用来使得得到的策略能最大化可实现的数据率；

如果该次迭代中向接收机发送了信息但与主用户的信息发生了碰撞，则回报定义为与一个常数因子κ和发射功率p_t的乘积成反比-κp_t。

在一种优选的方案中，所述的动作选择策略模块还包括以下工作流程：

计算MAB模型和Q-Learning的回报后，进行以下判断：

如果在该次迭代中发送了信息且成功被接收，表示对应的子频带上的主用户在当前时隙处于静默状态，将置信状态为主用户保持静默状态；

如果该次迭代中发送了信息但与主用户发生了碰撞，表示对应的子频带上的主用户在当前时隙处于活跃状态，将置信状态更新为主用户由活跃状态转化为静默状态；

如果该次迭代进行了能量收集没有发射信息，无法获得当前时隙主用户的确切状态，将当前的空置信状态作为先验概率更新空置信状态，即

v_t+1＝v_tp₀₀+(1-v_t)p₁₀

式中，所述的p₀₀和p₁₀是预设值；

最后，更新Q函数在当前状态s_t和动作a_t下的函数值，公式如下：

其中，α_t为学习率，γ为折扣因子。

与现有技术相比，本发明技术方案的有益效果是：

与传统的能量收集认知无线电系统的频谱接入方案和能量收集策略(随机接入方式，短视化策略)，侧重短期内的效果，不够注重历史信息和长期效果的缺陷。本发明能够从有效利用历史信息出发进行智能化频谱接入和能量收集选择，从而在无任何先验信息的情况下提高长期意义下的传输性能，其结果具有更高的频谱效率和能量效率。

附图说明

图1为实施例的模块图。

图2为次用户发射机网络模型。

图3为实施例的频谱感知算法流程图。

图4为实施例的频谱介入算法流程图。

图5为实施例的动作选择策略算法流程图。

图6为实施例的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例

如图1～图6所示所示，一种多用户能量收集认知无线电系统，包括频谱感知模块、频谱接入模块、能量收集模块和动作选择策略模块，其中，

所述的能量收集模块用于给次用户存储每个时隙的能量；

所述的动作选择策略模块用于决定每个时隙是用于信息传输还是能量收集。

本实施例中每个次用户可以通过频谱感知和频谱接入选择最佳的子频带进行信息传输，可以在不同的状态下选择最优回报的动作，也可以跳过频谱感知进行能量收集或者直接进行信息传输，节省了频繁进行频谱感知所需消耗的能量，在最小化对主用户系统的影响的同时，最大化次用户的信息传输速率，具有较高的工程实用价值。

在实施例中，还可以进行以下扩展：所述的频谱感知模块包括以下工作流程：

本改进实施例中，网络中每个SU都维持一段投票缓存区，在进行多陪集采样和降噪后，利用压缩感知领域中，同时性正交匹配追踪(SimultaneousOrthogonal MatchingPursuit,SOMP)算法进行频谱感知，同时通过更新和与相邻节点交换投票缓存区中的数据，以实现合作式频谱感知，得到宽带频谱上的空闲子频带。

在实施例及上述改进实施例中，还可以进行以下扩展：所述的频谱接入模块包括以下工作流程：

步骤2：选择采样结果最大的子频带；

在实施例及上述改进实施例中，还可以进行以下扩展：所述的步骤4的单个回报包括以下内容：

定义步骤4中的单个回报是0-1回报；

接收机的信噪比小于预设值。

在实施例及上述改进实施例中，还可以进行以下扩展：所述的步骤4的成功因子包括以下内容：

若单个回报的值为1，则成功因子＝成功因子+1；

若单个回报的值为0，则成功因子维持不变；

所述的步骤4的失败因子包括以下内容：

若单个回报的值为0，则失败因子＝失败因子+1；

若单个回报的值为1，则失败因子维持不变。

本改进实施例中，频谱接入模块则基于增强学习中的MAB模型和Thompson抽样算法进行设计，其基本流程如图4所示。接下来详细描述此方案每个次用户节点进行的操作，在此方案中，每个次用户节点u对每个子频带i分别保存两个参数：成功因子S_u,i和失败因子F_u,i，分别初始化为0。在通过图3的过程进行频谱感知得到空闲的子频带，对所有的空闲子频带对应的Beta分布(Beta(S_u,i+1,F_u,i+1))进行抽样，得到一个抽样序列，然后选择抽样序列中最大元素所对应的子频带进行接入，在收到相应的反馈信息后开始计算回报。本方案中将回报定义为0-1回报：如果当前时隙中次用户的传输与主用户的传输或者其它次用户的传输发生碰撞，或者接收机的信噪比小于某个阈值，则该时隙的回报为0，否则，该时隙的回报为1。得到该时隙的回报后，根据该回报的值更新S_u,i和F_u,i的值，如果回报为1，则将S_u,i加1，否则，将F_u,i加1。至此，完成一个时隙的操作，根据传输是否结束选择是否进入下一个时隙。通过概率性抽样的动作选择，可以与环境进行不断交互，随着S_u,i和F_u,i的增大，对应的Beta分布的概率密度将会集中于其均值附近(Beta(α,β)分布的均值为

)，对其进行抽样后得到的最优化子频带也将逐渐收敛，从而得到有效的子频带选择方案。通过上述方案所选择的最优子频带综合考虑了以下几个方面：

1)次用户收发机在每个子频带上面的信道增益；

2)每个子频带上主用户的占用情况；

3)每个子频带上其它次用户的占用情况。

在选择信道条件最好的子信道的同时，尽可能避免与主用户和其它次用户产生碰撞，从而能够有效提高数据传输率。值得注意的是，这种方案在做频谱接入选择时不需要次用户之间传递任何信息，可以有效节省控制信道资源和次用户节点的能量，同时，这种方案不需要用户获得任何先验信息，使得其具有较高的工程实用性。

在实施例及上述改进实施例中，还可以进行以下扩展：所述的动作选择策略模块包括以下工作流程：

定义Q-Learning算法中用到的状态集合和动作集合；

对以下参数进行初始化：

执行完动作后，进行MAB模型和Q-Learning的回报计算。

在实施例及上述改进实施例中，还可以进行以下扩展：所述的“选择动作”需要满足以下条件：

发射功率小于最大允许的功率；

频谱感知和信息传输将使用的能量低于电池中的电量；

如果决定进行频谱感知，则发射功率必须大于0。

在实施例及上述改进实施例中，还可以进行以下扩展：述的“选择了动作后，则根据该动作进行频谱感知、频谱接入和能量收集”包括以下内容：

在实施例及上述改进实施例中，还可以进行以下扩展：所述的“执行完动作后，进行MAB模型和Q-Learning的回报计算”包括以下内容：

如果该次迭代中只进行了能量收集，则回报为0；

在实施例及上述改进实施例中，还可以进行以下扩展：所述的动作选择策略模块还包括以下工作流程：

计算MAB模型和Q-Learning的回报后，进行以下判断：

v_t+1＝v_tp₀₀+(1-v_t)p₁₀

式中，所述的p₀₀和p₁₀是预设值；

其中，α_t为学习率，γ为折扣因子。

本改进实施例中，每个次用户节点u的策略学习过程如图5所示。我们首先定义Q-Learning算法中用到的状态集合和动作集合：状态集合包括空置信状态(次用户对将要接入的子频带为空闲状态的置信度)、电池电量状态和信道增益状态；动作状态包括是否进行频谱感知(0：不进行感知，1：进行感知)和发射功率p_t(发射功率为0表示进行能量收集)。

在学习过程开始时，需要进行初始化，需要初始化的参数主要包括：空置信状态(初始化为0.5)、Q函数(Q-Learning算法中定义用来表示在某个转态采取某个动作后的长期回报的估计值，初始化为任意值)、成功因子和失败因子(初始化为0)，待接入的子频带(初始化为任意的子频带)。

在上述具体实施方式的具体内容中，各技术特征可以进行任意不矛盾的组合，为使描述简洁，未对上述各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；例如实施例中离子电导率的计算公式并不仅限于实施例中举例的公式，不同的种类的离子电导率的计算公式各不相同。上述的是实施例的限定并不能理解为对本专利的限制。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种多用户能量收集认知无线电系统，其特征在于，包括频谱感知模块、频谱接入模块、能量收集模块和动作选择策略模块，其中，

所述的能量收集模块用于给次用户存储每个时隙的能量；

2.根据权利要求1所述的多用户能量收集认知无线电系统，其特征在于，所述的频谱感知模块包括以下工作流程：

3.根据权利要求1或2所述的多用户能量收集认知无线电系统，其特征在于，所述的频谱接入模块包括以下工作流程：

步骤2：选择采样结果最大的子频带；

4.根据权利要求3所述的多用户能量收集认知无线电系统，其特征在于，所述的步骤4的单个回报包括以下内容：

定义步骤4中的单个回报是0-1回报；

接收机的信噪比小于预设值。

5.根据权利要求4所述的多用户能量收集认知无线电系统，其特征在于，所述的步骤4的成功因子包括以下内容：

若单个回报的值为1，则成功因子＝成功因子+1；

若单个回报的值为0，则成功因子维持不变；

所述的步骤4的失败因子包括以下内容：

若单个回报的值为0，则失败因子＝失败因子+1；

若单个回报的值为1，则失败因子维持不变。

6.根据权利要求4或5所述的多用户能量收集认知无线电系统，其特征在于，所述的动作选择策略模块包括以下工作流程：

定义Q-Learning算法中用到的状态集合和动作集合；

对以下参数进行初始化：

执行完动作后，进行MAB模型和Q-Learning的回报计算。

7.根据权利要求6所述的多用户能量收集认知无线电系统，其特征在于，所述的“选择动作”需要满足以下条件：

发射功率小于最大允许的功率；

频谱感知和信息传输将使用的能量低于电池中的电量；

如果决定进行频谱感知，则发射功率必须大于0。

8.根据权利要求6所述的多用户能量收集认知无线电系统，其特征在于，所述的“选择了动作后，则根据该动作进行频谱感知、频谱接入和能量收集”包括以下内容：

9.根据权利要求6所述的多用户能量收集认知无线电系统，其特征在于，所述的“执行完动作后，进行MAB模型和Q-Learning的回报计算”包括以下内容：

如果该次迭代中只进行了能量收集，则回报为0；

10.根据权利要求6至9中任一权利要求所述的多用户能量收集认知无线电系统，其特征在于，所述的动作选择策略模块还包括以下工作流程：

计算MAB模型和Q-Learning的回报后，进行以下判断：

v_t+1＝v_tp₀₀+(1-v_t)p₁₀

式中，所述的p₀₀和p₁₀是预设值；

其中，α_t为学习率，γ为折扣因子。