CN111342920A

CN111342920A - 一种基于q学习的信道选择方法

Info

Publication number: CN111342920A
Application number: CN202010024557.4A
Authority: CN
Inventors: 裴二荣; 刘珊; 易鑫; 鹿逊
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-06-26
Anticipated expiration: 2040-01-10
Also published as: CN111342920B

Abstract

本发明涉及一种基于Q学习的信道选择方法，属于认知无线电技术领域。本发明包括以下步骤：S1：设置传感器节点的信道状态集合和动作集合；S2：初始化节点的状态和行为Q值，令迭代次数k＝1；S3：随机感应一个信道；S4：判定感应信道的结果。若感知信道忙碌，则节点从周围无线电信号中收集能量，若感知为空闲，则估计该信道的可用时间；S5：计算执行该动作后的奖励值，并选择下一动作；S6：根据公式更新Q值函数；S7：令k←k+1，重复执行步S3～S6，直至Q矩阵收敛。本发明使SU能学习并适应信道的动态行为，通过Q学习选择单位能耗检测到的信道可用时间更大的信道优先感知，最大化频谱资源检测率，提高了频谱感知能效。

Description

一种基于Q学习的信道选择方法

技术领域

本发明属于认知无线电领域，涉及一种基于Q学习的信道选择方法。

背景技术

基于能量收集的认知无线传感器网络(EH-CRSN)是一种将认知无线电(CR)技术和能量收集(EH)技术引入传统WSN中的新型网络。传感器节点的认知功能可机会性检测空闲的授权频谱并进行接入，提高频谱利用率。但同时也增加了节点能耗。能量收集技术日益引起研究学者的关注，它从周围环境中汲取能量并转化为电能，特别适合于低能耗设备，不仅绿色环保无污染，更能极大的延长系统寿命。目前，基于射频能量收集的无线传感器网络更是比较活跃的研究领域。

Q-learning算法是一种可以确定最优决策策略的强化学习算法，同时也是一种异步动态规划方法，无需环境模型。将Q-learning应用于认知无线电传感器网络中，通过与环境交互，在环境的奖励或惩罚反馈之下，通过试错学习逐步调整策略，最终可产生符合预期的最优策略。不同于其他的模型策略，基于Q-learning的信道选择策略不用预先知道复杂的认知无线电环境，并能根据历史信息做出实时决策，可进行快速有效的频谱选择，进而降低频谱扫描开销，因此把Q-learning引入到EH-CRSN中有重要的研究意义。

在EH-CRSN中，目前常用的信道选择策略主要包括随机搜索、串行搜索等方法，采用Q-learning方法以提高频谱感知能效的信道选择策略比较匮乏。已有的频谱感知的信道选择算法缺乏动态学习的过程，且不能根据主用户实时的业务状态调整频谱感知信道序列的选择，客观上限制了信道频谱利用率的提高。而且频谱感知过程增加了节点能耗，充分利用能量收集技术，补充节点能量以延长网络的生命周期也是很有必要的。因此，设计一种能够适用于信道动态行为，同时提高频谱感知能效的信道选择方法，具有现实意义。

发明内容

有鉴于此，本发明提供了一种基于Q学习的信道选择方法，以解决基于能量收集无线认知传感器网络频谱感知中信道选择的问题。

为达到上述目的，本发明提供如下技术方案：

基于Q学习的信道选择方法，包括以下步骤：

S1：设置传感器节点的信道状态集合和动作集合；

S2：初始化传感器节点的状态和行为Q值，令迭代次数k＝1；

S3：随机选择一个动作，即随机感应一个信道；

S4：判定感应信道的结果。若感知信道忙碌，则节点从周围无线电信号中收集能量，若感知为空闲，则估计该信道的可用时间；

S5：根据感应结果计算执行该动作后的环境奖励值，根据动作选择策略进行下一动作选择，随即节点进入下一状态；

S6：根据公式更新传感器节点的行为Q值函数；

S7：令k←k+1，重复执行步S3～S6，直至Q矩阵收敛，根据Q矩阵选择出最优的信道感知序列。

进一步，在步骤S1中，假设有i个授权信道，传感器节点可对这些授权信道进行频谱感知，当PU不在的时候可机会性接入。基于能量收集的认知无线传感器节点的状态集合表示为授权信道集合S＝{s₁,s₂,…s_i}，即把SU当前所在信道视为一个状态。将传感器节点下次决定感知的信道作为动作，动作集合A＝{a₁,a₂,…a_i}，表示在给定状态下感知信道的任务。认知用户执行动作a_j则代表下次感应j信道，同时智能体进入状态s_j。

进一步，在步骤S2中，给定PU业务负载，迭代次数最大值k_max,学习速率α和折扣因子γ，感知单个信道的能耗e等。设置节点能选择进行频谱感知的授权信道行为Q值Q(s,a)为零矩阵，从授权信道集合S中随机选择一个状态作为节点初始状态，令迭代次数为1，开始进入迭代。

在Q学习过程中，传感器节点作为智能体，学习目标是寻找一个最优策略，最大化学习者的长期累积回报，评价当前策略优劣的状态值函数表示为：

其中r(s_k,a_k)表示传感器节点从环境中获取的奖励值，p(s_k+1|s_k,a_k)表示节点处于当前状态下s_k时选择动作a_k后转移到状态s_k+1的概率。

进一步，在步骤S3中，随机选择感应一个信道。感应该信道后，可得到信道目前的占用情况。在信道业务方面，假设每个频段上的授权用户的业务流分布服从泊松过程。假设授权信道j的主用户PU分别以速率λ_j和μ_j的泊松过程到达和离开信道，易知信道忙碌和空闲的持续时间服从均值为

和

的指数分布。为模拟PU实时的信道使用规律，我们令PU驻留时间参数

是[10,100]的随机数。

进一步，在步骤S4中，考虑到实时的频谱感知会不可避免地带来较高的虚警概率，可根据节点感应信道的概率判断信道的情况。一个SU感知信道为空闲的概率包括两种情况，即信道被正确感知为空闲的概率和信道被错误感知为空闲的概率。因此，SU感应信道为空闲的概率可表示为：p_idle＝(1-p_f)(1-p_bs)+(1-p_d)p_bs，其中p_d和p_f分别表示检测概率和虚警概率，p_bs表示信道实际忙碌的概率，这可以从信道流量模型中得到。为保证PU业务的服务质量，我们假设各信道的检测概率均大于最低的检测概率。

根据每个信道节点感知的情况判断感应信道的结果。若感知信道j忙碌，则传感器节点可利用该信道上PU的存在，收集射频信号能量以补充节点能量。若感知信道j为空闲，则估计该信道的可用时间。感应到信道j的可用时间表示为：

其中

表示为信道实际空闲概率：

信道空闲的平均可用时间可表示为：

进一步，在步骤S5中，根据感应结果计算执行该动作后的环境奖励值。我们的目标是为了提高频谱感知能效，通过Q学习优化频谱感应阶段感应到的信道持续时间，选择单位能耗检测到的信道可用时间更大的信道进行感知，最终在频谱感知的时间内得到最优的信道感知序列，以最大化数据传输的时间，也进一步提高了吞吐量。我们把节点单位能耗感知到的空闲信道时间作为回报函数，定义奖励值函数为：

其中

若回报值不为0，根据动作选择策略进行下一动作选择。动作选择策略采用ε贪婪选择策略。在Q-learning框架下，智能体在每次平衡探索和利用的过程中根据该策略以概率ε进行随机动作选择，以概率1-ε选择最大效用的动作以增快Q矩阵的收敛。随即节点进入下一状态。我们把节点当前感应的信道作为节点下一个状态。

进一步，在步骤S6中，根据公式更新行为Q值函数：

式中α表示学习速率且0＜α＜1，学习速率越大，表明保留之前训练的效果就越少。

表示折扣因子且

r(s_k,a_k)表示传感器节点在状态s_k选择动作a_k时所获得的即时奖励。学习速率和折扣因子协同作用调节Q矩阵的更新，进而影响Q算法的学习性能，α取值0.5，

取值0.8。

进一步，在步骤S7中，增加迭代次数，令i←i+1，重复执行步S3～S6，直至Q矩阵收敛，根据Q矩阵可选择出最优的信道感知序列。在稳定状态下，当频谱感知需求出现时，SU根据优先级列表选择信道进行扫描。

本发明的有益效果在于：考虑到现有EH-CRSN中基于频谱感知中信道选择的算法缺乏动态学习的过程，本发明设计了一种EH-CRSN中基于Q学习的提高频谱感知能效的信道选择方法。通过Q-learning方法学习并适应信道的动态行为，智能的进行信道选择，通过探索选择单位能耗检测到的信道可用时间更长的信道优先感知，更新相应Q值，准备信道的动态优先级列表，得到频谱感知的最优信道序列。而且从传感器认知功能能耗大的角度，提出了在频谱感知过程中利用PU忙碌时的射频信号收集能量，以补充节点能量的方案。

本发明适用于动态的无线电环境，最大化频谱资源检测率，提高了频谱感知能效，有利于节省能量，从而延长网络寿命。同时本方法能快速有效的进行频谱序列选择，可以减少频谱扫描开销。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明实施例的流程示意图；

图2为本发明实施例所述的Q-learning与信道交互过程模型。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

本发明针对动态环境中传感器节点频谱感知序列选择的问题，提出一种基于Q学习的信道选择方法。与一般的信道选择方法相比，能有效提高频谱感知能效，且通过Q学习能快速进行频谱感知序列的选择，降低频谱扫描的开销。基于Q-learning算法与变化的信道环境交互过程的模型如图2所示。

如图1所示，基于Q学习的信道选择方法，该方法包括以下步骤：

S1：设置传感器节点的信道状态集合和动作集合；

S2：初始化传感器节点的状态和行为Q值，令迭代次数k＝1；

S3：随机选择一个动作，即随机感应一个信道；

S6：根据公式更新传感器节点的行为Q值函数；

假设有i个授权信道，传感器节点可对这些授权信道进行频谱感知，当PU不在的时候可机会性接入。基于能量收集的认知无线传感器节点的状态集合表示为授权信道集合S＝{s₁,s₂,…s_i}，即把SU当前所在信道视为一个状态。将传感器节点下次决定感知的信道作为动作，动作集合A＝{a₁,a₂,…a_i}，表示在给定状态下感知信道的任务。认知用户执行动作a_j则代表下次感应j信道，同时智能体进入状态s_j。

给定PU业务负载，迭代次数最大值k_max,学习速率α和折扣因子γ，感知单个信道的能耗e等。设置节点能选择进行频谱感知的授权信道行为Q值Q(s,a)为零矩阵，从授权信道集合S中随机选择一个状态作为节点初始状态，令迭代次数为1，开始进入迭代。

随机选择感应一个信道。感应该信道后，可得到信道目前的占用情况。在信道业务方面，假设每个频段上的授权用户的业务流分布服从泊松过程。假设授权信道j的主用户PU分别以速率λ_j和μ_j的泊松过程到达和离开信道，易知信道忙碌和空闲的持续时间服从均值为

和

是[10,100]的随机数。

考虑到实时的频谱感知会不可避免地带来较高的虚警概率，可根据节点感应信道的概率判断信道的情况。一个SU感知信道为空闲的概率包括两种情况，即信道被正确感知为空闲的概率和信道被错误感知为空闲的概率。因此，SU感应信道为空闲的概率可表示为：p_idle＝(1-p_f)(1-p_bs)+(1-p_d)p_bs，其中p_d和p_f分别表示检测概率和虚警概率，p_bs表示信道实际忙碌的概率，这可以从信道流量模型中得到。为保证PU业务的服务质量，我们假设各信道的检测概率均大于最低的检测概率。

其中

表示为信道实际空闲概率：

信道空闲的平均可用时间可表示为：

根据感应结果计算执行该动作后的环境奖励值。我们的目标是为了提高频谱感知能效，通过Q学习优化频谱感应阶段感应到的信道持续时间，选择单位能耗检测到的信道可用时间更大的信道进行感知，最终在频谱感知的时间内得到最优的信道感知序列，以最大化数据传输的时间，也进一步提高了吞吐量。我们把节点单位能耗感知到的空闲信道时间作为回报函数，定义奖励值函数为：

其中

根据公式更新行为Q值函数：

表示折扣因子且

取值0.8。

增加迭代次数，令k←k+1，重复执行步S3～S6，直至Q矩阵收敛，根据Q矩阵可选择出最优的信道感知序列。在稳定状态下，当频谱感知需求出现时，SU根据优先级列表选择信道进行扫描。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于Q学习的信道选择方法，其特征在于：具体步骤如下：

S1：设置传感器节点的信道状态集合和动作集合；

S2：初始化传感器节点的状态和行为Q值，令迭代次数k＝1；

S3：随机选择一个动作，即随机感应一个信道；

S6：根据公式更新传感器节点的行为Q值函数；

2.根据权利要求1所述的基于Q学习的信道选择方法，其特征在于：在步骤S1中，假设有i个授权信道，基于能量收集的认知无线传感器节点的状态集合表示为授权信道集合S＝{s₁,s₂,…s_i}，即把SU当前所在信道视为一个状态。将传感器节点下次决定感知的信道作为动作，动作集合A＝{a₁,a₂,…a_i}。认知用户执行动作a_j则代表下次感应j信道，同时智能体进入状态s_j。

3.根据权利要求2所述的基于Q学习的信道选择方法，其特征在于：在步骤S2中，设置节点能选择进行频谱感知的授权信道行为Q值Q(s,a)为零矩阵，从授权信道集合S中随机选择一个状态作为节点初始状态，令迭代次数为1，开始进入迭代。

4.根据权利要求3所述的基于Q学习的信道选择方法，其特征在于：在步骤S3中，随机选择感应一个信道。感应该信道后，可得到信道目前的占用情况。在信道业务方面，假设每个频段上的授权用户的业务流分布服从泊松过程。假设授权信道j的主用户PU分别以速率λ_j和μ_j的泊松过程到达和离开信道。为模拟PU实时的信道使用规律，我们令PU驻留时间参数

是[10,100]的随机数。

5.根据权利要求4所述的基于Q学习的信道选择方法，其特征在于：在步骤S4中，根据每个信道节点感知的情况判断感应信道的结果。一个SU感知信道为空闲的概率包括两种情况，即信道被正确感知为空闲的概率和信道被错误感知为空闲的概率。因此，SU感应信道为空闲的概率可表示为：p_idle＝(1-p_f)(1-p_bs)+(1-p_d)p_bs，其中p_d和p_f分别表示检测概率和虚警概率，p_bs表示信道实际忙碌的概率，这可以从信道流量模型中得到。为保证PU业务的服务质量，我们假设各信道的检测概率均大于最低的检测概率。

若感知信道j忙碌，则传感器节点可利用该信道上PU的存在，收集射频信号能量以补充节点能量。若感知信道j为空闲，则估计该信道的可用时间。感应到信道j的可用时间表示为：

其中

表示为信道实际空闲概率：

信道空闲的平均可用时间可表示为：

6.根据权利要求5所述的基于Q学习的信道选择方法，其特征在于：在步骤S5中，根据感应结果计算执行该动作后的环境奖励值。我们的目标是为了提高频谱感知能效，通过Q学习优化频谱感应阶段感应到的信道持续时间，选择单位能耗检测到的信道可用时间更大的信道进行感知，最终在频谱感知的时间内得到最优的信道感知序列。我们把节点单位能耗感知到的空闲信道时间作为回报函数，定义奖励值函数为：

其中

7.根据权利要求6所述的基于Q学习的信道选择方法，其特征在于：在步骤S6中，根据公式更新行为Q值函数：

式中α表示学习速率且0＜α＜1，学习速率越大，表明保留之前训练的效果就越少。Υ表示折扣因子且0≤Υ＜1。r(s_k,a_k)表示传感器节点在状态s_t选择动作a_t时所获得的即时奖励。学习速率和折扣因子协同作用调节Q矩阵的更新，进而影响Q算法的学习性能，α取值0.5，Υ取值0.8。

8.根据权利要求7所述的基于Q学习的信道选择方法，其特征在于：在步骤S7中，增加迭代次数，令k←k+1，重复执行步S3～S6，直至Q矩阵收敛，根据Q矩阵可选择出最优的信道感知序列。在稳定状态下，当频谱感知需求出现时，SU根据优先级列表选择信道进行扫描。