CN103686755A

CN103686755A - 一种认知无线电实现最优传输的在线学习方法

Info

Publication number: CN103686755A
Application number: CN201310733518.1A
Authority: CN
Inventors: 张娟; 蒋和松; 江虹; 陈春梅
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2014-03-26

Abstract

认知无线电中实现最优传输的在线学习方法的设计由信道未知环境建模和多臂赌博机模型组成。主要包括：(1)G-E信道的转移概率(2)非授权用户在保守发送(SC)时的建模(3)保守发送下的期望回报(4)K步保守策略的参数设置(5)近似最优臂对最优臂的替代(6)UCB-TUNED算法对最优臂的选择(7)相同信道状态下最优臂的选择(8)不同信道状态下最优臂的收敛性。本发明解决了认知无线电最优传输的在线学习问题，涉及的方案主要是将信道未知环境下的最优传输建模为多臂赌博机模型，并与单门限最优离线传输策略相比，同样能获得最优K步策略。同时，通过UCB-TUNED方法改善了最优传输的K步保守策略的收敛性。

Description

一种认知无线电实现最优传输的在线学习方法

技术领域

本发明是一种提高认知无线电传输性能的在线学习方法，属于无线通信和信息传播技术领域。

背景技术

认知无线电(Cognitive Radio，CR)是建立在软件无线电平台上的一种内容认知型的智能无线电，通过在无线域建模来扩展软件无线电的功能，它通过学习实现自我重配置，动态自适应通信环境的变化。认知无线电的出现是为了解决频谱资源匮乏的问题，尽量提高现有频谱的利用率。认知无线电的核心思想就是通过频谱感知(Spectrum Sensing)和系统的智能学习能力，实现动态频谱分配(DSA：dynamic spectrumallocation)和频谱共享(Spectrum Sharing)。

近年来无线设备(智能手机和平板电脑)的普及导致了对更多频谱带宽需求的急剧增加，可供分配的频谱资源越来越少，造成目前频谱资源紧张，但另一方面，无线频谱的利用率却相当低。被分配的频谱中超过90％的频谱利用率严重不足。动态频谱接入技术的出现，解决了大量的频谱利用不足和频谱短缺之间的矛盾。动态频谱中最有前途的实现方式是认知无线电。频谱共享是认知无线电系统中有效利用空闲频隙以提高频谱利用率的关键技术。

在线学习算法通过感知环境状态和从环境中获得不确定的信息来学习动态系统的最优策略。环境仅对某一动作的好坏做出评价，并不告知如何产生最优动作。

目前国内外研究人员已经提出了多种频谱共享模型：基于图着色和生物学的启发式算法；基于经济学的拍卖机制和博弈论；跨层优化的频谱共享模型；在参数未知情况下通过在线学习达到近似对数后悔值的非贝叶斯感知问题；通过单门限策略离线分析各种参数GE(Gilbert-Elliot)衰减信道中最小化传输能力和延迟。

本发明是针对未知Gilbert-Elliott信道模型最优传输提出的在线学习方案：基于部分可观察马尔科夫决策过程POMDP(Partially Observable Markov Decision Processes)对网络信道建模，将K臂赌博机算法转化为K步信道保守策略，并采用UCB算法求解及UCB-Tuned算法优化。

发明内容

本发明的目的在于解决认知无线电环境不完全感知情况下的传输问题，该方法将信道建模为POMDP模型，利用多臂赌博机在线学习实现了最优传输。

一、基于POMDP的信道建模

在POMDP中，非授权用户(SU)须利用现有的部分信息、历史动作和立即回报值来进行策略决策。如图1为POMDP模型的框架，b为信念状态，是状态集合S中所有状态的概率分布。SU处于某一状态s的概率为b(s)，且有∑_s∈Sb(s)=1.0，则所有可能的信念状态构成的信念空间表示为B(S)={b：∑_s∈Sb(s)=1.0，

,b(s)≥0}，信念状态为求解最优动作策略A^*的一个充分统计量。模型描述为：1)状态估计器(SE)：P×A×B(S)→B(S)，其中P为置信概率，即状态估计器(SE)负责根据上一次动作和信念状态以及当前观察更新当前的信念b；2)策略π：B(S)→A，即在当前信念状态b下使用策略π从而选择动作a，其回报为r(b，a)，表示为r(b，s)=∑_s∈Sb(s)r(s，a)。

假设在授权用户网络中，每个信道只有两种状态S，即二值的Gilbert-Elliott(G-E)马尔科夫链：如图2所示，当S=1时，表示当前信道处于空闲，对于SU而言信道状态较好，能够成功地高速传输数据；当S=0时，表示当前信道忙碌，对SU而言信道状态较差，SU只有以较低的速率传输才能成功。该图中λ0为信道的状态从忙到空闲的转移概率，(1-λ1)为信道的状态从空闲到忙碌的转移概率。转移概率为：

P = [\begin{matrix} P_{00} & P_{01} \\ P_{10} & P_{11} \end{matrix}] = [\begin{matrix} 1 - λ_{0} & λ_{0} \\ 1 - λ_{1} & λ_{1} \end{matrix}] - - - (1)

令α=λ1-λ0，假设信道为正相关，则α>0。

在每一次时隙的开始，SU需要做出动作选择：

(1)保守发送(SC)：SU低速数据传输。在该动作下，不管当前信道处于何种状态，SU传输数据均能取得成功，并取得回报R1。因此，在该动作下SU不能对信道状态进行学习。

(2)激进发送(SA)：SU高速数据传输。如果信道状态好，SU高速数据传输获得成功，并得到回报R2，且有R2>R1；如果信道状态差，高速数据传输将导致很高的错误率和丢包率，并获得惩罚值C。因此，在该动作下SU可以通过学习获得信道下一时刻的状态。

当保守发送时，信道的状态并不能直接观察，因此本发明将该问题建模为POMDP模型。信念状态为求解最优动作策略A^*的一个充分统计量，在给定所有历史的动作和观察的情况下信道状态为好的条件概率，表示为b=Pr[St=1|Ht]，Ht为第t时隙前所有动作和观察的历史信息。激进发送时，SU能够学习信道状态。因此信道状态好时，信念为λ1，信道状态差时，信念为λ0。期望回报表示为：

其中，b_t为t时刻信道状态好时的信念，A_t为t时刻采取的动作。

二、信道状态未知的K臂赌博机在线学习算法

最典型的多臂赌博机问题为：对一个拥有K个手臂(multi-arms)的赌博机，赌博者要从这K个手臂中选择一个手臂进行操作来获得奖励(reward)，该奖励从与该手臂相关的分布中得出，赌博者不知道每个手臂奖励分布期望值的大小。在一个特定的时间段内，赌博者只能操作一个手臂，赌博者要尽快找到使自己获得最大奖励的手臂，并且进行赌博。

2.1K步保守策略结构建模

K步保守策略结构模型如图3所示，在激进发送失败后在接下来的K个时隙保守发送数据。如图在马尔科夫链中有K+2个状态，状态0表示激进发送失败后重新返回到保守发送。状态K-1表示在保守发送K个时隙后，下一步将进入激进发送。如果第K个状态的激进发送成功，则进入到SA状态，否则回到0状态继续K步保守发送。如果状态一直保持在SA，表示信道状态一直处于好的状态即S=1，由(1)式可得的连续激进发送的概率为λ1；由于保守发送K步后才能激进发送，因此当0≤i<k时，状态从i到i+1的概率为1。

在K+2个状态中，每个状态对应一个信念和动作，信念和动作决定了期望总的折扣回报，因此有K+2种不同的折扣回报。K臂赌博机建模参数设置：

(1)保守发送(SC)：总能发送成功，获得的回报为R1；

(2)激进发送(SA)：发送成功时获得的回报为R2(R2>R1)，发送失败时得到的惩罚为C；

(3)不同K步保守发送建模为多臂赌博机的不同的臂。如K=2，即臂(arm)为2，表示保守发送2次后再激进发送。

2.2k步保守策略面临的挑战

当信道的传输概率未知时，在寻找最优K步保守策略面临两个挑战：(1)臂无穷，(2)为了获得总的折扣回报，臂需要被不断的选择直到时间无穷。为了解决这两个问题，本发明寻找近似最优的臂(OPT-ε-δ)替代最优臂。

通过定理1和定理2得出：可以通过近似最优的臂(OPT-ε-δ)替代最优臂，从而解决将系统建模为K臂赌博机策略的臂无穷和时间无穷的两个挑战。

定理1：对于给定的ε和边界α的B即α<B，有，在臂的集合中C={0，1，...，K,SC}，(OPT-ε)是最优臂。

证明：1)当K>Kopt时，臂的集合C中包含了最优臂；

2)当Kopt=∞时，一直保守发送SC,包含在集合C中；

3)当K<Kopt<∞时，

\begin{matrix} V^{π_{Kopt}} (p) - V^{π_{k}} (p) \\ = [R_{1} \frac{1 - β^{Kopt}}{1 - β} + β^{Kopt} V_{SA} (T^{Kopt} (p))] - [R_{1} \frac{1 - β^{K}}{1 - β} + β^{K} V_{SA} (T^{K} (p))] \\ = β^{K} \frac{R_{1}}{1 - β} (1 - β^{Kopt - K}) + β^{Kopt} V_{SA} (T^{Kopt} (p)) - β^{K} V_{SA} (T^{K} (p)) \end{matrix}

当T(ρ)>ρ时的激进发送的值函数V(T(ρ))=V_SA(T(ρ))；

当T(ρ)≤ρ时激进发送的值函数V(T(ρ))=R₁／(1-β)；

由于V_SA(T(ρ))>R₁/(1-β)，所以转化为：

\begin{matrix} V^{π_{Kopt}} (p) - V^{π_{k}} (p) < β^{K} [V_{SA} (T^{Kopt} (p)) - V_{SA} (T^{K} (p))] \\ = β^{K} (T^{Kopt} (p) - T^{K} (p)) (R_{2} + C + β (V (λ_{1}) - V (λ_{0}))) \end{matrix}

令p=λ0，C’=R2+C+β(V(λ1)-V(λ0))，

V^{π_{Kopt}} (p) - V^{π_{k}} (p) < β^{K} (T^{Kopt} (λ_{0}) - T^{K} (λ_{0})) (R_{2} + C + β (V (λ_{1}) - V (λ_{0})))

由于α<B，

T^{n} (λ_{0}) = T (T^{n - 1} (λ_{0})) = λ_{0} \frac{1 - α^{n + 1}}{1 - α},

λ_s=λ₀/(1-α)可得

V^{π_{Kopt}} (p) - V^{π_{k}} (p) < β^{K} (T^{Kopt} (λ_{0}) - T^{K} (λ_{0})) C^{'} < B^{K + 1} C^{'} = ϵ

由于B^K+1C′=ε，因此

当

K &GreaterEqual; \log_{B} \frac{ϵ}{C^{'}} - 1

时，

V^{π_{Kopt}} (p) - V^{π_{k}} (p) < ϵ .

定理2：给定的δ，有

一个臂在有限时间Tmax的总的折扣回报与无限时间T的折扣回报最多相差δ。

证明：

E_{π} [Σ_{t = 0}^{\infty} β^{t} R (b_{t}, A_{t}) | b_{0} = p] - E_{π} [Σ_{t = 0}^{T_{\max}} β^{t} R (b_{t}, A_{t}) | b_{0} = p] = E_{π} [Σ_{t = T_{\max} + 1}^{\infty} β^{t} R (b_{t}, A_{t}) | b_{0} = p]

保守发送回报为R1，激进发送成功为R2，失败为C，因此：

R(b_t，A_t)≤R₂

又由于：

Σ_{t = T_{\max} + 1}^{\infty} β^{t} = \frac{β^{T_{\max} + 1}}{1 - β}

E_{π} [Σ_{t = 0}^{\infty} β^{t} R (b_{t}, A_{t}) | b_{0} = p] - E_{π} [Σ_{t = 0}^{T_{\max}} β^{t} R (b_{t}, A_{t}) | b_{0} = p] \leq \frac{β^{T_{\max} + 1}}{1 - β} R_{2}

令

\frac{β^{T_{\max} + 1}}{1 - β} R_{2} = δ,

则

T_{\max} = \log_{β} \frac{δ (1 - β)}{R_{2}} - 1

所以当

T &GreaterEqual; \log_{β} \frac{δ (1 - β)}{R_{2}} - 1,

有：

E_{π} [Σ_{t = 0}^{\infty} β^{t} R (b_{t}, A_{t}) | b_{0} = p] - E_{π} [Σ_{t = 0}^{T_{\max}} β^{t} R (b_{t}, A_{t}) | b_{0} = p] < δ

2.3UCB算法

UCB(Upper Confidence Bound)算法是一类解决多臂赌博机算法的总称，UCB根据目前获得的信息，配合上一个调整值，试图在利用(exploitation)和探索(exploration)之间达成平衡的ExE(exploitation vs.exploration)问题。

大致上来说，每一次运行时，UCB会根据每个臂目前的平均收益值(亦即其到目前为止的表现)，加上一个额外的参数，得出本次运行此臂的UCB值，然后根据此值，挑选出拥有最大UCB值的臂，作为本次运行所要选择的臂。其中，所谓额外参数，会随每个臂被选择的次数增加而相对减少，其目的在于让选择臂时，不过分拘泥于旧有的表现，而可以适度地探索其他臂。UCB公式表示如下：

{\overset{&OverBar;}{X}}_{i} + \sqrt{\frac{2 \ln (n)}{n_{i}}} - - - (3)

{\overset{&OverBar;}{X}}_{i} = \frac{(1 - β) {\overset{&OverBar;}{A}}_{i} + C}{R_{2} + C} - - - (4)

是第i个臂到目前为止的平均收益，n_i是第i个臂被测试的次数，n是所有臂目前被测试的总次数。让公式(3)的值最大的臂将是下一个被选择的臂。前项即为此臂的过去表现，即利用值(exploitation)；后项则是调整参数，即探索部分(exploration)。

而UCB-TUNED是相对于UCB实验较佳的配置策略。UCB-TUNED的公式如下：

V_{j} (s) = (\frac{1}{s} Σ_{γ = 1}^{s} {\overset{&OverBar;}{X}}_{j, γ}^{2}) - {\overset{&OverBar;}{X}}_{j, s}^{2} + \sqrt{\frac{2 \log n}{s}} - - - (5)

{\overset{&OverBar;}{X}}_{i} + \sqrt{\frac{\log n}{n_{i}} \min {\frac{1}{4}, V_{i} (n_{i}))}} - - - (6)

由(4)，(5)，(6)可得：

V_{i} (s) = (\frac{1}{n_{i}} Σ_{γ = 1}^{n_{i}} {(\frac{(1 - β) {\overset{&OverBar;}{A}}_{i, γ} + C}{R_{2} + C})}^{2}) - {(\frac{(1 - β) {\overset{&OverBar;}{A}}_{i} + C}{R_{2} + C})}^{2} + \sqrt{\frac{\log n}{n_{i}} \min {\frac{1}{4}, V_{i} (n_{i}))}} - - - (7)

让公式(7)的值最大的臂将是下一个被选择来测试的臂。

附图说明

图1描绘POMDP模型框图；

图2描绘G-E信道模型示意图；

图3描绘多臂赌博机K步保守策略示意图；

图4是门限结构最优策略参数的设置；

图5描绘的是门限结构最优策略的期望折扣总回报；

图6是在不同信道状态下门限结构最优策离线略获得的最优传输值；

图7是在线K臂赌博机学习算法的参数设置；

图8是相同信道状态下最优臂的选择；

图9是不同信道状态下最优臂的选择；

图10是相同信道状态下通过UCB-TUNED优化后最优臂的选择的收敛性；

图11是不同信道状态下通过UCB-TUNED优化后最优臂的选择的收敛性；

具体实施方式

本发明对比了两种最优传输的方法，一种是最优传输门限策略的离线算法，另一种是本发明提出的基于K臂赌博机在线学习算法。

1、最优传输门限策略的离线算法

参数设置：

表1所示为对门限结构最优策略仿真所采用的参数配置。假设信道是正相关的，所以λ1≥λ0，λ1的取值如表1所示λ0(1)≤λ1≤0.99，不同运行的时隙数(1∶10000)范围下的V(λ0)的最大值。在不同λ0、λ1计算出对应的保守发送的最优时隙数(0，1，2，3，4)。

由上图4及表2可得如下结论：

·当λ0=0.01，λ1=0.06时，随着运行时隙n的增长，在n→∞时，Tⁿ(λ₀)→λ_s，那么总是保守发送，K_opt→∞；

·当λ0=0.61，λ1=0.66时，表示信道状态较好，总是激进发送，K_opt=0；

·当λ0=0.16，λ1=0.91时，得到K_opt=4，表示保守发送4个时隙后，再次激进发送，在该策略下，得到的总的折扣回报最大。

·通过单门限最优策略，在不同的信道状态下(λ0和λ1不同取值)离线获得对应的最优K步传输值。

2、信道状态未知的在线K臂赌博机学习算法

本发明提出的在线K臂赌博机学习算法，具体仿真环境设置如下：

参数设置：

如表3所示为在线K臂赌博机学习算法的参数设置，考虑到本算法的收敛性，故总的运行时隙设为T^*inter=10⁹。ε=0.02和δ=0.02分别用于解决臂无穷和时间无穷的问题，通过附录中的定理1，2得出，TMAX=20、KMAX=26。为了更精确的获取最优臂，本发明取值TMAX=100，KMAX=30。

算法步骤：

步骤1：初始化参数λ0、λ1，T，TMAX，armnu，ts，NI；

步骤2：由于本算法是基于POMDP模型未知信道状态下的在线学习方法。故根据λ0和λ1产生信道的随机状态states，每个臂在产生动作后，根据观察到的状态获取一个回报或惩罚；

步骤3：初始化各个臂的UCB值；

步骤4：for kk=1：inter do

for ts=1：T-TMAX

根据

UCB = \frac{(1 - β) {\overset{&OverBar;}{A}}_{i} + C}{R_{2} + C} + \sqrt{\frac{2 \ln (n)}{n_{i}}}

或

UCB - Tuned = (\frac{1}{n_{i}} Σ_{γ = 1}^{n_{i}} {(\frac{(1 - β) {\overset{&OverBar;}{A}}_{i, γ}}{R_{2} + C})}^{2}) - {(\frac{(1 - β) \overset{&OverBar;}{A_{i}} + C}{R_{2} + C})}^{2} + \sqrt{\frac{\log n}{n_{i}} \min {\frac{1}{4}, V_{t} (n_{i}))}}

选择最大的UCB或UCB-Tuned的值作为当前的最优臂，并运行当前最优臂。

end for

仿真分析：

根据以上算法步骤得出图5-8：

如图5所示为通过UCB算法，获得同一个λ0=0.36和λ1=0.91信道状态下所有臂的表现，其中当臂为1时是该信道状态下的最优臂，随着运行时间增加，臂1被选中运行的时间比趋向于1，而其他臂的使用率趋向于0，从而找到最优臂。同样的方法可得到其他λ0和λ1对应的最优臂。

图6所示为通过UCB算法，获得不同的λ0和λ1信道状态下对应最优臂的收敛性，从图中可见，随着时间的增加，最优臂被选中运行的时间比逐渐趋于1。

图7所示为通过UCB-turned算法，同一个λ0和λ1信达状态下，所有臂的表现，与图5UCB算法相比较，收敛速度更快。

图8所示为通过UCB-turned算法，不同的λ0和λ1信道状态下，臂的收敛性与图6UCB算法相比较，收敛速度更快。

算法对比分析

本发明提出的在线K臂赌博机学习算法与单门限最优策略相比，从图4可以看出当λ0=0.36和λ1=0.91时，通过最优策略得到最优K步值为1。从图5得到，当λ0=0.36和λ1=0.91时，利用最优在线K臂赌博算法，同样得到最优传输K步值为1，并通过UCB-TUNED算法，提高了收敛速度。从图7和图8可得知，在t＝10⁸s时，算法收敛。

Claims

1.一种认知无线电实现最优传输的在线学习方法，其特征在于该在线学习方法包括：面向特定的G-E信道的应用；针对信道不完全可知环境下的建模；K步保守策略的建模；近似最优臂对最优臂的替代；相同信道状态下最优臂的选择；不同信道状态下最优臂的收敛性；最优臂收敛速度的提高。

2.如权利要求1所述的一种认知无线电实现最优传输的在线学习方法，特征在于：所述的特定的G-E信道为只有两种状态的信道，即二值的G-E马尔科夫链。当状态为1时，表示当前信道空闲；当状态为0时表示当前信道忙碌。

3.如权利要求1所述的一种认知无线电实现最优传输的在线学习方法，特征在于：所述的不完全感知为非授权用户进行低速数据传输即保守发送时，信道的状态不能直接观察。

4.如权利要求1所述的一种认知无线电实现最优传输的在线学习方法，特征在于：所述的K步保守策略为激进发送失败后在接下来的K个时隙保守发送数据。

5.如权利要求1所述的一种认知无线电实现最优传输的在线学习方法，特征在于：所述的K步保守策略，状态0为激进发送失败后立即进入保守发送，状态K-1为保守发送K个时隙后，下一步将进入激进发送。

6.如权利要求1所述的一种认知无线电实现最优传输的在线学习方法，特征在于：所述的近似最优臂的选择，在臂的集合中C={0，1，...，K,SC}，(OPT-ε)是最优臂。

7.如权利要求1所述的一种认知无线电实现最优传输的在线学习方法，特征在于：所述的近似最优臂的选择，给定的δ，有

，一个臂在有限时间Tmax的总的折扣回报与无限时间T的折扣回报最多相差δ。

8.如权利要求1所述的一种认知无线电实现最优传输的在线学习方法，特征在于：所述的相同信道状态下最优臂的选择，随着运行时间的增加，最优臂的使用率趋向于1，其它臂的使用率趋向于0。

9.如权利要求1所述的一种认知无线电实现最优传输的在线学习方法，特征在于：所述的不同信道状态下最优臂的收敛性是被选中的最优臂的运行时间比逐渐趋于1。

10.如权利要求1所述的一种认知无线电实现最优传输的在线学习方法，特征在于：所述的最优臂的收敛速度可通过UCB-tumed得到提高。