CN108833040A

CN108833040A - 基于强化学习的智能频谱协同感知方法

Info

Publication number: CN108833040A
Application number: CN201810647284.1A
Authority: CN
Inventors: 吴凡; 宁文丽; 黄晓燕; 马立香; 冷甦鹏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-06-22
Filing date: 2018-06-22
Publication date: 2018-11-16
Anticipated expiration: 2038-06-22
Also published as: CN108833040B

Abstract

本发明公开一种基于强化学习的智能频谱协同感知方法，应用于频谱感知领域，本发明的方法对每个次用户SU_k，当到达一个呼叫请求时，首先根据基于Q‑Learning技术学习各次用户最近的信道状态得到的信道优先级列表，做出感知信道的决定以最小化扫描开销；其次，节点在检测信道时可以请求其他SU进行协作频谱感知来提高检测概率，通过bandit赌博机机制选取检测能力强的次用户进行协作来提高检测概率；一旦信道被检测完成，则广播被检测信道的状态和检测权重以通知其他次用户，本发明方法有效减少了信道的平均扫描次数并且降低了呼叫阻塞率，提高了检测概率。

Description

基于强化学习的智能频谱协同感知方法

技术领域

本发明属于无线移动通信网络中的频谱感知技术领域，具体涉及无线移动通信网络中的协作频谱感知方法。

背景技术

随着信息产业尤其是无线移动通信业的迅猛发展，无线频谱资源的需求量剧增，频谱资源的稀缺性与现有固定的无线电频谱资源分配策略的低效性之间的矛盾日趋明显，提高频谱利用率已经成为无线通信亟待解决的核心问题。面对无线通信频谱资源稀缺问题的严峻挑战，改变传统的固定资源分配为动态资源分配，从而有效提高频谱资源利用率得到越来越广泛的研究。

在现有的认知无线电网络中，用户可以分为两类：主用户(Primary User,PU)和次用户(Secondary User,SU)。其中主用户具有频谱的优先使用权，是被授权使用频谱的用户；次用户在不对主用户正常通信构成威胁的情况下，可以和主用户共用频谱资源，从而实现频谱共享，提高频谱利用率。

传统的本地频谱感知主要有基于发射机的检测算法，其中能量检测算法不需要任何先验信息，根据特定频段特定观测时间内接收信号的总能量判断可用频谱；匹配滤波器方法，此方法需知授权用户信号先验信息，采用检测信噪比最大化，只可以用来检测一些特定的信号；循环平稳特征检测算法利用信号的周期自相关特性和噪声信号的无相关特性可实现信号与噪声分离，即通过分析循环自相关函数或者二维频谱相关函数的方法得到信号频谱相关统计特性；还有协方差矩阵检测算法，利用主信号的相关性建立信号样本协方差矩阵，并以计算矩阵最大、最小特征值比率的方法做出判决。

协作频谱感知是多个用户同时对频谱进行本地检测，每个协作用户都将检测结果发送给融合中心，融合中心采取一定的融合准则对协作用户的认知结果进行合并处理，并进行频谱决策，以降低单个用户检测的不准确性来提高检测性能。决策硬融合算法对协作用户的一位二进制决策信息0/1进行合并处理，传送开销较小但准确性较低。决策软融合算法是根据不同信道条件下各节点检测结果的置信度不同，将检测信息进行决策加权或者其他形式的处理后再进行融合，实现了检测性能和传送开销之间的折中。

在认知无线电网络中，首先由于PU对信道的占用情况对SU来说是未知的，故SU需要逐次检测PU对每个信道的占用情况，故上述传统算法都会造成过度的扫描开销和延迟，适当选择授权信道的感知和接入序列对决定平均时延和有效吞吐量起着至关重要的作用；其次由于节点检测能力易受衰弱和阴影效应的影响，节点的检测能力是动态变化的，如何在节点检测能力动态变化的情况下选取合适的次用户进行合作也是一个值得关注的问题。为了缓解上述两个问题，近年来，基于强化学的研究越来越广泛，强化学习是一种在线学习算法，智能体和外部环境通过奖励机制进行交互，根据在环境中得到的奖励值来调整自身行为，使得智能体学习并适应外部环境，促使智能体选择能够在环境中获得使自身最大奖励的行为。可将强化学习的这种学习并适应于外部环境的特性应用于认知无线电网络，使智能体分别对变化的信道状态和协作用户的动态检测能力进行学习，最终选择空闲可能性大的信道和检测能力强的次用户进行协作频谱感知，以减少信道状态扫描开销并提高信道检测概率。

发明内容

为解决上述技术问题，本发明提出一种基于强化学习的频谱感知方法，有效减少了信道的平均扫描次数并且降低了呼叫阻塞率，提高了检测概率。

本发明采用的技术方案为：一种基于强化学习的频谱感知方法，当一个呼叫请求到达次用户SU_k时，具体包括以下步骤：

S1、采用ε-greedy决策策略确定待测信道；

S2、采用UBC策略确定协作次用户SU_f；

S3、根据步骤S1确定的待测信道与步骤S2确定的协作次用户SU_f，更新信道优先级列表；

S4、更新待测信道的信道状态和协作次用户SU_f检测能力估计值；

S5、循环步骤S1-S4，当次用户SU_k成功接入待测信道，停止迭代，并且次用户SU_k将当前迭代的待测信道的信道状态、该待测信道对应的权重值以及协作次用户SU_f检测能力估计值进行广播；或者当达到最大检测次数，停止迭代，并宣告阻塞；

其中，k、f均为次用户的序号，k＝1,2,…,N，f＝1,2,…,N且f≠k，N表示次用户的总数。

进一步地，步骤S1具体为：

S11.每个次用户分别维护一张Q表，Q表中对每条信道都用一个Q值代表其空闲可能性大小，初始时将Q表中Q值初始化为0；

S12.当一个呼叫到达节点SU_k时，Q-Learning按照ε-greedy决策策略来采取行动，得到待检测信道c_i。

进一步地，步骤S2具体为：选择待测信道c_i后，运行UCB算法，根据待测信道检测能力的估计值和估计过程中的不确定性，确定协作次用户SU_f。

进一步地，步骤S3具体为：

S31、协作次用户SU_f对待测信道进行本地能量检测，若检测结果为待测信道空闲且SU_k成功接入，则更新该信道状态为1，否则更新该信道状态为0，然后执行步骤S32；

S32、次用户SU_k学习其他次用户对待测信道的占用情况，从而计算待测信道奖励点；

S33、根据奖励点更新待测信道Q值；

S34、按照Q值递减顺序重新排列信道的动态优先级列表。

更进一步地，步骤S33所述待测信道Q值的更新具体为：通过Q-Learning机制根据邻居对待测信道占用的最近历史和最近的行动回馈更新检测信道Q值；更新表达式为：

Q^k(s_t,c_i)＝(1-α)Q^k(s_t,c_i)+α{r^k(s_t,c_i)-γ(exp^-τ*m)}

其中，α表示学习率，0≤α≤1，γ为折扣因子，表示对未来奖励的衰减值，0≤γ≤1，τ是一个固定常数，0≤τ≤1，m表示当前扫描信道的尝试次数。

进一步地，步骤S4具体包括以下分步骤：

S41、次用户SU_k尝试接入待测信道，若成功接入，则执行步骤S42；否则执行步骤S434；

S42、更新该待测信道奖励值为1，并根据奖励值更新协作次用户SU_f检测能力估计值；

S43、更新该待测信道奖励值为0，并根据奖励值更新协作次用户SU_f检测能力估计值。

更进一步地，步骤S4所述协作次用户SU_f检测能力估计值具体采用bandit赌博机算法进行计算：

其中，代表t时刻对协作次用户检测能力的估计值，R_t表示t时刻协作次用户SU_f对应的奖励值，β表示对每个奖励值的权重，β∈(0,1]。

更进一步地，所述β满足

本发明的有益效果：各次用户仅当呼叫到达时去选择待测信道，步骤S3中通过Q-Learning机制根据邻居对信道占用的最近历史和最近的行动回馈更新检测信道Q值，形成信道优先级列表，减少了扫描开销；步骤S4中通过bandit赌博机机制对协作次用户的检测能力进行估计，故可用UCB算法选择检测能力强的协作次用户进行协作频谱感知，更新次用户的检测权重，提高检测概率；更新的检测权重和信道状态在步骤S5中进行广播进行次用户间的交互。仿真结果表明，S3步骤可对信道优先级实现排序，且使用S1、S2和S4中的协作频谱感知算法可进一步减少平均信道扫描次数，与使用K秩准则相比降低了了19％；平均阻塞率降低了10％以上。本发明的方法减少了信道的平均扫描次数并且降低了呼叫阻塞率，提高了检测概率。

附图说明

图1为本发明的方案流程图。

具体实施方式

为了便于本领域的普通技术人员理解本发明，首先对技术术语做出如下定义：

主用户：具有频谱的优先使用权，是被授权使用频谱的用户。

次用户：在不对主用户正常通信构成威胁的情况下，可以和主用户共用频谱资源的用户。

协作次用户：帮助其他次用户进行频谱感知的次用户。

Q-Learning：一种强化学习算法，智能体通过在环境中执行动作获得一定的奖励来感知环境，从而学习到由状态到动作的映射策略来最大化奖励值。

bandit赌博机：一种强化学习算法，有n个臂，每个臂都以一定的未知概率产生一个奖励，算法的目的是通过一定的选择臂的策略获得最大化的累积奖励。

检测能力估计值：利用bandit赌博机算法得到的对次用户感知空闲信道状态正确率的估计值。

阻塞：当需要通话的用户找不到通信链路时，宣布阻塞。

下面结合附图对本发明内容进一步阐释。

假设在一个主用户无线网络中，有10条潜在可用频谱。在次用户网络中，次用户用SU₁～SU_N表示，每个SU_f(f＝1,2,…,N)随机分布其中并且有N-1个邻居。每个SU_f可以通过公共ISM频带的单个信道在它们之间传送控制分组。因次用户网络中每个节点SU_f随机分布，故每个节点到主用户网络的距离是不同的，信号传输过程中所经历的衰弱和阴影效应各异，所以受环境的影响，每个节点接收到的主用户相同信号的瞬时信噪比不一样，导致各个节点的检测结果存在可信度的差异。用表示每个节点SU_f与瞬时信噪比相关的权重的估计值，代表对节点SU_f在t时刻的检测能力的估计，bandit赌博机算法中的表达式如下：

其中，代表t时刻对SU_f检测能力的估计值。β表示对每个奖励值的权重，离当前时刻越近则权重越大，且对β∈(0,1]满足这样估计值更加注重当前的奖励而忽略较早时刻的奖励，以适用于次用户检测能力动态变化的环境。

每个次用户分别维护一张Q表，Q表中对每条信道都用一个Q值代表其空闲可能性大小，利用Q-Learning机制对信道状态进行学习。在t时刻当呼叫到达时，首先SU_k采用ε-greedy决策策略确定待测信道，再按bandit赌博机机制中的UCB算法选择SU_f检测待测信道状态，尝试接入得到信道反馈信息；利用Q-Learning机制学习其他次用户对c_i的历史占用情况，计算被检测信道的奖励点，奖励点r^k(s_t,c_i)按如下方式更新：

其中，s_t代表实际网络环境，N代表SU_k及其邻居的数量。s^j(c_i)表示在t时刻SU_j检测到的信道c_i的忙闲状态，1代表空闲，0代表繁忙。代表SU_j在t时刻对c_i的检测能力，此时因SU_k选择次用户SU_f帮助其进行频谱感知，故SU_k的检测权重

其次，在计算得奖励点后，按照下式计算SU_k的Q表中信道c_i的Q值：

Q^k(s_t,c_i)＝(1-α)Q^k(s_t,c_i)+α{r^k(s_t,c_i)-γ(exp^-τ*m)} (3)

其中，α表示学习率，0≤α≤1，当α越接近1，表示智能体更倾向于即时奖励；α越接近0，表示历史占主导地位，智能体从即时回报中学到的很少。γ为折扣因子，表示对未来奖励的衰减值，0≤γ≤1，τ是一个固定常数，0≤τ≤1，m表示当前扫描信道的尝试次数。

最后，按照Q值对信道排序，可得到信道优先级列表。

本发明实施例提供了一种基于强化学习的频谱感知方法，对每个次用户SU_k，当到达一个呼叫请求时，首先根据基于Q-Learning技术学习各次用户最近的信道状态得到的信道优先级列表，做出感知信道的决定以最小化扫描开销；其次，节点在检测信道时可以请求其他SU进行协作频谱感知来提高检测概率，通过bandit赌博机机制选取检测能力强的次用户进行协作来提高检测概率；一旦信道被检测完成，则广播被检测信道的状态和检测权重以通知其他次用户。当一个呼叫请求到达次用户SU_k时，具体流程图如图1所示，包括以下步骤：

S1、采用ε-greedy决策策略确定待测信道；

S2、采用UBC策略确定协作次用户；

S3、根据步骤S1确定的待测信道与步骤S2确定的协作次用户，更新信道优先级列表；

S4、更新待测信道的信道状态和次用户检测能力估计值；

S5、将当前迭代的待测信道的信道状态、权重和次用户检测能力估计值进行广播。

在本实例中步骤S1的实施过程如下所示：

S11.每个次用户分别维护一张Q表，Q表中对每条信道都用一个Q值代表其空闲可能性大小，Q值越大的信道，其处于空闲状态的可能性越大，若算法初次运行，所有用户对主用户网络中信道的空闲程度并不了解，则将Q表中Q值初始化为0。

S12.当一个呼叫到达节点SU_k时，Q-Learning按照ε-greedy决策策略来采取行动，即以ε的概率选择信道优先级最大的信道，以1-ε的概率随机进行信道选择，目的是适应主用户网络中信道状态动态变化的特点，最终得到待检测信道c_i。

步骤S2具体为：选择信道c_i后，运行置信上界(upper confidence bound,UCB)算法选择协作次用户SU_f，UCB算法同时考虑新到检测能力的估计值和估计过程中的不确定性，选择协作次用户公式如下：

其中，时间步t代表进行的协作频谱感知次数总和；c控制探索程度，c越大，探索程度越大。代表当前t时刻次用户SU_f检测能力的估计值，初值为0，具体更新方式在S4中进行。表示在t时刻前协作次用户SU_f被选择的次数，越大说明SU_f的估计值被更新的次数越多，如果则SU_f首先被选择。目的是根据估计值接近最大值的程度与估计的不确定程度选择一个最有潜质的次用户进行协作频谱感知。

该实例中，步骤S3的实施过程如下所示：

S31.协作次用户SU_f对待检测信道c_i进行本地能量检测，得到0/1检测结果，1代表c_i空闲，0代表c_i被PU占用；当SU_f对c_i检测结果为1时，SU_k尝试接入c_i，若接入成功则说明c_i确实处于空闲状态，更新SU_k得到的信道状态s^k(c_i)＝1；否则更新信道状态s^k(c_i)＝0。

S32.在t时刻，SU_k学习其他次用户对c_i的占用情况，计算被检测检测信道的奖励点，奖励点r^k(s_t,c_i)按式(2)更新；

S33.节点SU_k计算得到奖励后，更新相应信道c_i的Q值，Q^k(s_t,c_i)值代表了信道c_i的空闲可能性大小，Q^k(s_t,c_i)值按式(3)更新。

S34.按照Q值的递减顺序重新排列信道的动态优先级列表。

步骤S4继续利用由环境得到的接入反馈，更新选择的协作次用户SU_f的估计值；具体的实施过程如下所示：

首先，当SU_f对c_i的检测结果为1且SU_k成功接入，代表SU_f检测正确，奖励值R_t＝1；否则，SU_f对c_i的检测结果为1但SU_k没有成功接入，代表SU_f检测错误，奖励值R_t＝0；然后，利用修正的样本平均方法更新次用户SU_f检测能力的估计值，以适应检测能力动态变化的情景下对SU_f检测能力的估计，SU_f检测能力的估计值更新公式如式(1)。

步骤S5的实施过程如下所示：

S51.SU_k将本轮检测得到的信道状态s^k(c_i)和相应权重W_t ^k(c_i)和协作次用户检测能力估计值广播，使所有邻居都能更新它们的值。

S52.若成功接入，数据被传送，结束本轮频谱感知；否则循环S1-S4直到检测到可用信道成功接入或达到最大检测次数宣告阻塞。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.基于强化学习的智能频谱协同感知方法，其特征在于，对每个次用户，当到达一个呼叫请求时，首先根据基于Q-Learning技术学习各次用户最近的信道状态得到的信道优先级列表，以最小化扫描开销为目的做出感知信道的决定；其次，节点在检测信道时请求其他次用户进行协作频谱感知，具体通过bandit赌博机机制选取检测能力强的次用户进行协作；最后信道被检测完成，则广播被检测信道的状态和检测权重通知其他次用户。

2.根据权利要求1所述的基于强化学习的智能频谱协同感知方法，其特征在于，当一个呼叫请求到达次用户SU_k时，具体包括以下步骤：

S1、采用ε-greedy决策策略确定待测信道；

S2、采用UBC策略确定协作次用户SU_f；

3.根据权利要求2所述的基于强化学习的智能频谱协同感知方法，其特征在于，步骤S1具体为：

4.根据权利要求3所述的基于强化学习的智能频谱协同感知方法，其特征在于，步骤S2具体为：选择待测信道c_i后，运行UCB算法，根据待测信道检测能力的估计值和估计过程中的不确定性，确定协作次用户SU_f。

5.根据权利要求4所述的基于强化学习的智能频谱协同感知方法，其特征在于，步骤S3具体为：

S33、根据奖励点更新待测信道Q值；

S34、按照Q值递减顺序重新排列信道的动态优先级列表。

6.根据权利要求5所述的基于强化学习的智能频谱协同感知方法，其特征在于，步骤S33所述待测信道Q值的更新具体为：通过Q-Learning机制根据邻居对待测信道占用的最近历史和最近的行动回馈更新检测信道Q值；更新表达式为：

Q^k(s_t,c_i)＝(1-α)Q^k(s_t,c_i)+α{r^k(s_t,c_i)-γ(exp-^τ*m)}

7.根据权利要求2所述的基于强化学习的智能频谱协同感知方法，其特征在于，步骤S4具体包括以下分步骤：

S41、次用户SU_k尝试接入待测信道，若成功接入，则执行步骤S42；否则执行步骤S43；

8.根据权利要求7所述的基于强化学习的智能频谱协同感知方法，其特征在于，步骤S4所述协作次用户SU_f检测能力估计值具体采用bandit赌博机算法进行计算：

9.根据权利要求2所述的基于强化学习的智能频谱协同感知方法，其特征在于，所述β满足

10.根据权利要求1所述的基于强化学习的智能频谱协同感知方法，其特征在于，步骤S5所述待测信道对应的权重值等于协作次用户SU_f检测能力估计值。