CN106358203A

CN106358203A - 一种分布式认知无线传感器网络中基于q学习的频谱分配方法

Info

Publication number: CN106358203A
Application number: CN201610772003.6A
Authority: CN
Inventors: 曾凡仔; 刘翰山
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-01-25

Abstract

本发明公开了一种分布式认知无线传感器网络中基于Q学习的频谱分配方法，以最大化分布式认知无线传感器网络的平均吞吐量和平均能量效率比为目标，认知无线传感器网络中各节点针对周围授权频谱状态变化以及其他节点分配策略相互学习并最终适应，将该过程映射成分布式多智能体Q学习的过程，并通过执行时序轮替机制下的最佳响应Q学习迭代算法来逼近最佳频谱分配策略。本发明具有收敛速度快、计算复杂度低、改善认知无线传感器网络平均吞吐量和平均能量效率比的特点。

Description

一种分布式认知无线传感器网络中基于Q学习的频谱分配方法

技术领域

本发明涉及认知无线传感器网络和频谱分配技术，具体是一种分布式认知无线传感器网络中基于Q学习的频谱分配方法。

背景技术

传统的无线传感器网络所工作的免授权频谱资源被日益增长的其他无线通信技术设备所挤占，由此带来的频谱资源短缺问题也越加严峻。得益于认知无线电理论的成熟和技术的进步，为缓解频谱资源紧张带来了新的契机。具备认知无线电技术的无线传感器网络可根据自身需求，通过对周围利用率不高且空闲的授权频谱实现实时感知和动态接入，从而在提升授权频谱利用效率的同时缓解无线传感器网络频谱资源紧张的压力。但认知功能的引入也会增加相应资源开销，例如过多的频谱竞争和频谱切换等，而无线传感器网络本身是一种运算、存储以及电量等资源受限的网络，因此不论从缓解频谱资源短缺还是节约能耗的角度，寻求一个更加适用于认知无线传感器网络特点的动态频谱分配算法来改善网络的平均吞吐量以及平均能量效率比则是迫切的现实需求。

现有的认知无线电网络频谱分配技术主要通过图论上色、微观经济学、人工智能以及马尔科夫判决等算法来实现。具体实现中，有启发式集中频谱分配算法、纳什Q学习算法、遗传算法以及多臂赌博机等频谱分配算法。以往算法多针对集中式的网络环境，此类网络结构的中心节点一旦无法工作将面临整个网络传输中断的风险。随着科技的进步，分布式无线传感器网络在高抗毁性能以及低成本等方面的优势，使得传感器网络正朝着分布式的方向发展。虽然出现了针对分布式网络的相关算法，但计算复杂度相对较高。

考虑到认知无线传感器网络本身是一种资源有限的网络，因此，结合分布式认知无线传感器网络的特点来最大化网络的平均吞吐量和平均能量效率比则非常有意义。

发明内容

本发明提出一种分布式认知无线传感器网络中基于Q学习的频谱分配方法，该方法结合分布式认知无线传感器网络的特点来最大化网络的平均吞吐量和平均能量效率比，采用Q学习算法，是一种收敛速度快、计算开销小、能效利用较高的频谱分配方法。

一种分布式认知无线传感器网络中基于Q学习的频谱分配方法，以网络平均吞吐量或网络平均能量效率比作为目标函数，以认知传感器节点作为智能体，以联合频谱状态S(t)＝[s₁(t),...,s_j(t),...,s_M(t)]作为Q学习的环境状态集合S，任一时隙内认知传感器节点频谱的分配动作A(t)作为智能体Agent的动作集合A，以认知传感器节点与授权频谱和其他节点之间的对应关系作为智能体的瞬时反馈奖励函数，采用时序轮替机制下的最佳响应Q学习迭代算法对网络中各节点频谱进行分配，在迭代过程中设定探索利用率为e_t；

其中，s_j(t)∈{0,1}，s_j(t)＝1表示授权频谱C_j在时隙t处于占用状态，M表示授权频谱数量；s_j(t)＝0则表示授权频谱C_j在时隙t处于空闲状态。

在环境状态变化服从或具备马尔科夫性的情况下，转移概率公式和Q值函数的迭代公式属于已知公式。

在同一时隙，若有多个认知传感器节点感知到同一授权频谱为空闲状态，最终只有一个节点成功并独占接入使用，其余竞争失败的节点均进入休眠省电模式，假设单个时隙长度为T_slot，认知传感器节点执行一次频谱感知的平均时长和平均功率分别为τ_s、ε_s，认知传感器节点的数据平均发送速率和平均发射功率分别为R、ε_tr，认知传感器节点频谱切换时间很短，对应的频谱切换能量平均消耗为E_h。

在给定时隙t内，单个认知无线传感器节点SU_i的吞吐量Rⁱ(t)和能量消耗Eⁱ(t)的计算方式如表所示：

从图2中的时隙结构来看，多次感知将会压缩数据传输的时间，当传输速率R恒定的时候，会直接影响认知节点的数据吞吐量。

以最大化网络平均吞吐量和网络平均能量效率比η作为目标函数，具体计算公式如下：

\underset{π_{η}^{*} (t)}{m a x} η = E_{π} [\lim_{T &RightArrow; \infty} \frac{Σ_{t = 1}^{T} Σ_{i = 1}^{N} R^{i} (A_{η}^{*} (t), S (t) | S (1))}{Σ_{t = 1}^{T} Σ_{i = 1}^{N} E^{i} (A_{η}^{*} (t), S (t) | S (1))}]

所述目标函数包括两种表达形式，具体如下：

(1) - - - \begin{matrix} \max_{π (t)} η \\ s . t . & C_{1} : A (t) = {[a_{i j} (t)]}_{N \times M}, &ForAll; a_{i j} (t) &Element; {0, 1, 2}, \\ C_{2} : &ForAll; i &Element; N, i f a_{i p} (t) = 1, t h e n C_{p} &Element; Λ, a n d Σ_{i = 1}^{N} a_{i p} (t) = 1, \\ C_{3} : &ForAll; i &Element; N, i f a_{i p} (t) = 1, a_{i q} (t) &NotEqual; 1, t h e n C_{q} &Element; \overset{&OverBar;}{Λ}, \\ a n d (Σ_{q &NotEqual; p}^{M} a_{i q} (t) = 2 o r Σ_{q &NotEqual; p}^{M} a_{i q} (t) = 0) \end{matrix}

其中，a_ij(t)表示在时隙t，认知传感器节点频谱的分配动作A(t)中授权频谱C_j被网络中的认知节点SU_i分配的情况；a_ij(t)＝1表示在t时隙内，认知传感器节点SU_i将C_j作为第一选择频谱用来感知并接入，a_ij(t)＝2表示认知传感器节点SU_i将C_j作为第二选择频谱用来感知并接入，a_ij(t)＝0则表示认知传感器节点SU_i在t时隙内未将C_j作为第一或第二选择频谱用来感知并接入；

N表示认知传感器节点数量，且N≤M，Λ表示将M个授权频谱按照各自的空闲概率值θ从大到小排序后，取前N个空闲概率最高的授权频谱所构成的集合，剩余M-N个频谱则构成集合C_p表示任一属于集合Λ的授权频谱，a_ip(t)表示在时隙t，授权频谱C_p被网络中的认知节点SU_i分配的情况，C_q表示任意一个属于集合的授权频谱。a_iq(t)表示在时隙t时，在集合中的授权频谱C_q被网络中的任一认知节点SU_i分配的情况。

所述探索利用率按以下公式设定：

e_t+1＝f(e_t)＝μe_t，0<μ<1。

“探索”是为了对“状态动作”空间实现遍历，从而避免算法收敛于一个局部最优解，而“利用”可防止学习过程过于震荡而不收敛。

所述采用时序轮替机制下的最佳响应Q学习迭代算法对网络中各节点频谱进行分配的具体过程如下：

步骤1：初始化，在时隙t＝0时刻，令所有认知传感器节点的“状态动作”Q值函数Q_t(S,a_i)＝0，概率

设定在时隙t，网络具有唯一学习权限的认知传感器节点标识为current_agent(t)，初始化为1，current_agent(t)的取值表示当前具有学习权限的节点为第几个认知传感器节点，取值范围为1～N；

步骤2：在时隙t内，依次对每个认知传感器节点进行如下操作；

步骤3：判断认知传感器节点SU_i是否为当前唯一具有学习权限的智能体，若认知传感器节点SU_i为当前具有学习权限的智能体，则执行步骤4，若认知传感器节点SU_i不具有学习权限，则执行步骤9；

步骤4：产生一个随机数e用于比较探索利用率e_t的大小，若随机数e小于e_t，则执行步骤5，若随机数e大于等于e_t，则执行步骤6；

步骤5：认知传感器节点SU_i执行“探索”过程，随机分配一个授权频谱a_i＝random(M)，计算随后跳转步骤7；

t表示从0时隙到t时隙的长度，也可表示当前处于第几个时隙，例如t＝5既可以理解为第5个时隙，也可以认为从初始化到当前经历的5个时隙的时间长度；

其中，当处于t时隙，若此时状态为S，当认知节点SU_i分配授权频谱为a_i时，其概率更新可通过等号右边的sum(a_i|S)/t来估算；sum(a_i|S)表示在状态S下，SU_i分配授权频谱为a_i的历史次数；

步骤6：认知传感器节点SU_i执行“利用”过程，当前节点SU_i根据公式分配最佳频谱a_i，计算随后跳转步骤7；

步骤7：根据频谱分配后的结果，观测环境的下一联合状态S′，将获得的瞬时反馈奖励函数r(S,a_i)代入式迭代更新Q_t+1(S,a_i)；

步骤8：计算t时隙认知传感器节点SU_i的学习充分性因子比较与门限值ξ的大小，若current_agent(t)保持不变，否则，current_agent(t)值加1；若current_agent(t)等于N，则令current_agent(t)等于1；

步骤9：不具备学习权限的认知传感器节点SU_k直接根据公式分配最佳频谱a_k；

授权频谱空闲可利用率为[θ₁,...,θ_M]，单个时隙长度为T_slot，认知传感器节点执行一次频谱感知的平均时长和平均功率分别为τ_s、ε_s，且频谱感知无误差，认知传感器节点的数据平均发送速率和平均发射功率分别为R、ε_tr，认知传感器节点频谱切换能量平均消耗为E_h；学习速率为α_t，折扣因子为γ，探索利用率为e_t，学习充分性门限值为ξ。

给定时隙t内具备学习权限的认知传感器节点SU_i的“学习充分性因子”按以下公式计算：

Δ_{i}^{t} = | \underset{a_{i}}{Σ} P [π_{i}^{*} (S) = a_{i}] [Q_{t + 1} (S, a_{i}) - Q_{t} (S, a_{i})] | .

在时隙t，不具备学习权限的认知传感器节点SU_k，最佳频谱分配策略所对应的概率为按如下公式设置：

P [π_{k}^{*} (S) = a_{k}] = 1, &ForAll; k &NotEqual; c u r r e n t_a g e n t (t)

若认知传感器节点SU_k无学习权限，则其对应的最佳频谱分配策略以概率1保持静态，也即此时具备学习权限的节点SU_i的频谱分配策略则为其他节点的最佳响应。

根据认知传感器节点SU_i采用不同频谱分配动作a_ij(t)所产生的不同结果，瞬时反馈奖励函数r(S,a_i)设定如下：

其中，参数δ为正整数，δ≤10。

其他的设置值也能达到类似效果，但不同结果下对应的取值大小规律必须按照上面的规律来设定，也即反馈奖励负的越大，说明结果越严重，越不是网络性能所期望的。上面的值的取值只是表明一个相对的量，例如也可设置如下：

有益效果

本发明提出了一种分布式认知无线传感器网络中基于Q学习的频谱分配方法，以最大化分布式认知无线传感器网络的平均吞吐量和平均能量效率比为目标，认知无线传感器网络中各节点针对周围授权频谱状态变化以及其他节点分配策略相互学习并最终适应，将该过程映射成分布式多智能体Q学习的过程，并通过执行时序轮替机制下的最佳响应Q学习迭代算法来逼近最佳频谱分配策略。本发明具有收敛速度快、计算复杂度低、改善认知无线传感器网络平均吞吐量和平均能量效率比的特点。

附图说明

图1是本发明实施方式中分布式认知无线传感器网络模型示意图；

图2是本发明实施方式时隙结构和节点在相同授权频谱竞争过程示意图；

图3是本发明实施方式中分布式多智能体Q学习过程示意图；

图4是本发明实施方式中各智能体学习权限进行时序轮替的示意图；

图5是本发明实施方式的基于时序轮替机制下的最佳响应Q学习迭代频谱分配算法流程示意图；

图6是本发明实施例在授权频谱数M为8，参数δ为1的情况下，各算法的网络平均吞吐量随时间变化示意图；

图7是本发明实施例在图6的给定的相同参数条件下，各算法的网络平均能量效率比随时间变化示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明给定N个认知传感器节点，M个授权频谱(M≥N)，其中授权频谱空闲可利用率为[θ₁,...,θ_M]，单个时隙长度为T_slot，认知传感器节点执行一次频谱感知的平均时长和平均功率分别为τ_s、ε_s，且频谱感知无误差，认知传感器节点的数据平均发送速率和平均发射功率分别为R、ε_tr，认知传感器节点频谱切换时间很短，对应的频谱切换能量平均消耗为E_h。学习速率为α_t，折扣因子为γ，探索利用率为e_t，学习充分性门限值为ξ，所使用的网络模型如图1所示，认知无线传感器网络是一种无基站、控制中心等基础服务设施的分布式网络，其中各认知传感器采用Overlay模式机会地利用授权频谱来完成数据的传输。

本发明一种分布式认知无线传感器网络中基于Q学习的频谱分配方法，如图5所示，具体步骤如下：

1、初始化，在时隙t＝0时刻，令所有认知传感器节点的“状态动作”Q值函数Q_t(S,a_i)＝0，概率设定当前具有学习权限的智能体current_agent(t)初始化为1；

2、在时隙t内，对于所有i＝1,2,…,N，重复下面第3～9步；

3、判断认知传感器节点SU_i是否为当前具有学习权限的智能体，若认知传感器节点SU_i为当前具有学习权限的智能体(i＝current_agent(t))，则执行第4步，若认知传感器节点SU_i不具有学习权限(i≠current_agent(t))，则执行第9步

4、产生一个随机数e用于比较探索利用率e_t的大小，若随机数e小于e_t，则执行第5步，若随机数e大于等于e_t，则执行第6步

5、认知传感器节点SU_i执行“探索”过程，也即随机分配一个授权频谱a_i＝random(M)，计算随后跳转第7步

6、认知传感器节点SU_i执行“利用”过程，也即当前节点SU_i根据公式分配最佳频谱a_i，计算随后跳转第7步

7、根据频谱分配后的结果，观测环境的下一联合状态S′，将获得的瞬时反馈奖励函数r(S,a_i)代入式迭代更新Q_t+1(S,a_i)

8、计算当前时隙认知传感器节点SU_i的学习充分性因子比较与门限值ξ的大小，若current_agent(t)保持不变，否则，current_agent(t)值加1；若current_agent(t)等于N，则重新令current_agent(t)等于1；该轮替过程如图4所示。

9、不具备学习权限的认知传感器节点SU_k直接根据公式分配最佳频谱a_k，且令

用来对照的“MCGA”理想频谱分配算法出自“Opportunistic Spectrum Accesswith Two Channel Sensing in Cognitive Radio Networks”(认知无线电网络中连续两信道感知的机会式频谱接入，IEEE TRANSACTIONS ON MOBILE COMPUTING 2015),其网络模型为带有基础服务设施的(例如基站)集中式结构，各节点的频谱分配由基础服务设施来完成，随后在马尔科夫链环境下采用基于贪婪的频谱分配算法将空闲利用率最高的授权频谱分配给各节点，因此是一种较为理想的频谱分配方式，可将该算法所对应的网络平均吞吐量和平均能效比作为一个理想的理论上界。

用来对照的“WoLF-PHC”算法出自“Multiagent learning using a variablelearning rate”(可变学习速率下的多智能体增强学习算法，Artificial Intelligence2002)该算法被证明是一种收敛的、有效的分布式多智能体迭代Q学习算法，因此可将该算法用来对比所提发明的有效性和收敛速度。

用来对照的“TIQL”(Traditional Independent Q-Learning)算法为传统的分布式多智能体独立Q学习迭代算法，也即各智能体在同一时隙均具有学习权限，可独立地进行环境学习，但各智能体频谱分配动作不是最佳响应，且缺乏有效的协调机制，彼此频谱分配策略容易受到影响。

用来对照的“随机频谱分配算法”中各认知传感器节点随机分配某一授权频谱进行感知和接入，其分配策略最为简单，算法对应的网络平均吞吐量和平均能效比随机性较大，因此可将其作为一种理论下界。

图6是本发明实施例在授权频谱数M为8，对应空闲可利用率θ分别为0.9/0.8/0.7/0.6/0.5/0.4/0.3/0.2，认知传感器节点数N为4，单个时隙长度T_slot为22ms，认知传感器节点执行一次频谱感知的平均时长τ_s和平均功率ε_s分别为2ms、3mW，认知传感器节点的数据平均发送速率R和平均发射功率ε_tr分别为10Mb/s、10mW，认知传感器节点频谱切换能量消耗E_h为3×10^-6J。学习速率α_t为0.8/(1+t)，折扣因子γ为常数0.6，探索利用率e_t为0.6×0.7^t，学习充分性门限值ξ为常数0.4，参数δ为1的情况下，各算法的网络平均吞吐量随时间变化示意图。

可以看到，在最开始一段的时间，各算法的网络平均吞吐量都急剧上升，主要是计算平均吞吐量的公式中分母t相对分子过小：

但随着算法持续进行，图3中本发明提出的算法与WoLF-PHC算法分别大约从第390时隙和第630时隙开始出现曲线正常增长的过程，这说明本文算法收敛性相比较WoLF-PHC算法有优势，对环境变化适应更快。经过遍历后，TIQL算法直到第2790时隙才开始有所增长，这正说明TIQL算法中各传感器节点缺乏对周围环境和其他节点动作的最佳响应，导致算法收敛性差。而采用随机频谱分配的方式，平均吞吐量在图中很难有明显增长，说明该算法对网络的平均吞吐量性能没有改善，对环境的适应能力也比其他算法差。从图中还可以看到，在经历长时间的算法演进后，本发明算法、WoLF-PHC算法以及TIQL算法都有一个趋近最优值的过程，而本发明算法所获得的平均吞吐量更接近于MCGA理想频谱分配算法，相比于WoLF-PHC算法有4.16％的改善，相比于TIQL算法则有8.85％的提升。

图7是本发明实施例在图6相同参数设置下的各算法的网络平均能量效率比随时间变化示意图。和图6类似，本发明算法和WoLF-PHC算法分别大约从第390时隙和第630时隙开始正常增长，说明这两种算法能带来更高的网络平均能效比以及具有更好的环境适应性，可花费较少的时间即可学习到针对周围环境的频谱分配策略，随着时间的推移，两者都趋于收敛，但本文算法收敛策略显然更好，更加逼近最佳情况。TIQL算法经过遍历之后大约在第2790时隙开始也有所增长，但收敛效果显然不及前两种算法。由于随机频谱分配算法节点间缺乏内在的协调性和针对环境变化的反馈信息，所以在提高能量效率上能力同样十分有限。从图7中可以得到本发明所提算法的平均能量效率比相比WoLF-PHC算法改善了2％，比TIQL算法提高了6％。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种分布式认知无线传感器网络中基于Q学习的频谱分配方法，其特征在于，以网络平均吞吐量或网络平均能量效率比作为目标函数，以认知传感器节点作为智能体，以联合频谱状态S(t)＝[s₁(t),...,s_j(t),...,s_M(t)]作为Q学习的环境状态集合S，任一时隙内认知传感器节点频谱的分配动作A(t)作为智能体Agent的动作集合A，以认知传感器节点与授权频谱和其他节点之间的对应关系作为智能体的瞬时反馈奖励函数，采用时序轮替机制下的最佳响应Q学习迭代算法对网络中各节点频谱进行分配，在迭代过程中设定探索利用率为e_t；

2.根据权利要求1所述的方法，其特征在于，所述目标函数包括两种表达形式，具体如下：

(1)

(2)

3.根据权利要求2所述的方法，其特征在于，所述探索利用率按以下公式设定：

e_t+1＝f(e_t)＝μe_t，0<μ<1。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述采用时序轮替机制下的最佳响应Q学习迭代算法对网络中各节点频谱进行分配的具体过程如下：

其中，表示当处于t时隙，若此时状态为S，且认知节点SU_i分配的授权频谱为a_i时，其概率更新可通过等号右边的sum(a_i|S)/t来估算；sum(a_i|S)表示在状态S下，SU_i分配授权频谱为a_i的历史次数；

5.根据权利要求4所述的方法，其特征在于，给定时隙t内具备学习权限的认知传感器节点SU_i的“学习充分性因子”按以下公式计算：

Δ_{i}^{t} = | \underset{a_{i}}{Σ} P [π_{i}^{*} (S) = a_{i}] [Q_{t + 1} (S, a_{i}) - Q_{t} (S, a_{i})] | .

6.根据权利要求3所述的方法，其特征在于，在时隙t，不具备学习权限的认知传感器节点SU_k，最佳频谱分配策略所对应的概率为按如下公式设置：

P [π_{k}^{*} (S) = a_{k}] = 1, &ForAll; k &NotEqual; c u r r e n t_a g e n t (t) .

7.根据权利要求4所述的方法，其特征在于，根据认知传感器节点SU_i采用不同频谱分配动作a_ij(t)所产生的不同结果，反馈奖励值r(S,a_i)设定如下：

其中，参数δ为正整数，δ≤10。