CN102238555A

CN102238555A - 认知无线电中基于协作学习的多用户动态频谱接入方法

Info

Publication number: CN102238555A
Application number: CN2011102004253A
Authority: CN
Inventors: 朱琦; 朱洪波; 杨龙祥; 李晓静
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2011-07-18
Filing date: 2011-07-18
Publication date: 2011-11-09

Abstract

本发明的目的在于提供一种认知无线电系统中基于协作学习的多用户动态频谱接入方法，该方法将黑板模型、融合算法以及强化学习方法结合起来，先对各个状态-动作对函数值用Boltzmann机进行非线性化，再采用轮盘赌算法进行动作选择，然后确定奖赏函数，实现黑板模型，即所有认知用户将各自当前的Q值通过公共控制信道发送到黑板，并且可以从黑板中获取其它认知用户的Q值，然后利用融合算法进行计算，在此基础上，每个认知用户都根据融合后的Q值进行动作选择。本发明中的每个认知用户独立执行强化学习算法，同时它们之间进行相互合作，共享状态、策略和奖赏，从而加快学习速度。

Description

认知无线电中基于协作学习的多用户动态频谱接入方法

技术领域

本发明涉及一种特别用于认知无线电系统中多用户动态频谱接入的方法，属于通信技术领域。

背景技术

无线电频谱是全人类共享的有限自然资源，各国对无线频谱的管制都很严格，一般都是由国家统一分配。随着信息时代的到来，无线通信的各种新业务发展迅速，无线设备被广泛使用，无线频谱资源日趋紧张。

事实上在许多频段，频谱接入问题比频谱物理稀缺问题更为显著，大部分原因是由于法定的分配规则限制了用户的接入能力。2002年11月，美国联邦通信委员会(FCC)发布了一项由Spectrum-Policy Task Force提交的旨在有效管理美国频谱资源的报告。该报告明确指出：“在许多频带，频谱的准入是一个比频谱本身稀缺更加重要的问题，频谱的稀缺很大程度上是由于法规限制了这些频谱上的潜在用户获得准入。”事实确实如此，如果统计一下包括郊区在内的各类地域的频谱占有率，将会发现一些频带在绝大数时间是未被占据的；一些频带是部分时间被占据的；而另外一些频带则是被密集使用的。这种频谱利用的不均的情况引导了通信业界研究人员去思考“频谱空穴”(Spectrum Holes)这样一个崭新的概念，即“一个频谱空穴是分配给授权用户的频带，但是，在某一指定时间和空间，在授权用户不占用这一频带的情况下，此频带可以被其他用户使用。”这样，频谱资源的潜在利用率可以得到明显提高。认知无线电(CR：Cognitive Radio)技术被认为是未来探测频谱空穴特性、高效利用无线频谱的主要手段，是能够有效缓解频谱分配与利用这对矛盾的技术。

认知无线电的概念起源于1999年Joseph Mitola博士的奠基性工作，他的博士论文中是这样描述认知无线电的：无线个人数字助理和相关的网络在无线电资源和通信方面具有充分的计算智能来探测用户的通信需求，并根据这些需求来提供相应最合适的无线电资源和无线服务。著名通信理论学者、人工智能大师Simom Haykin教授从数字信号处理、网络、人工智能和计算机软硬件实现等角度出发定义了认知无线电，即“认知无线电是一个智能的无线通信系统，可以感知无线环境，通过对环境的理解、主动学习实现在特定的无线操作参数(如功率、载波调制和编码等方案)实时改变和调整它的内部状态。适应外部环境的变化，具有在不影响其他授权用户(主用户，Primary user，Licensed user)的前提下智能地利用大量空闲频谱并且随时随地、智能、高可靠性通信的潜能。”FCC定义认知无线电是一种可通过与其运行环境交互而改变其发射机参数的无线电。国际电信联盟ITU(International Telecommunication Union)定义认知无线电为可感知或了解其操作的环境从而动态、自治地调整其操作参数的无线电或系统。总的来说，认知无线电可认为是一种可以依靠人工智能的支持，感知环境，根据一定的学习和决策算法，实时、自适应地改变系统工作参数，动态地检测和有效地利用空闲频谱的无线电。研究认知无线电对于解决无线频谱资源紧张的问题具有十分重要的意义。

学习是人类智能的重要表现之一，人所以能够适应环境的变化并提高解决问题的能力，其原因在于人能通过学习积累经验，总结规律，以增长知识和才能。人工智能大师Simon认为：学习就是系统在不断重复的工作中对本身能力的增强或改进，使得系统在下一次执行相同任务或相类似的任务时，会比现在做的更好或效率更高。学习是认知无线电系统的一个重要环节，认知无线电系统能够感知周围环境(如无线电环境，信道环境等)，并能从环境中学习，通过实时的改变相应的固定参量(如发送功率，发送频率和调制策略等)，来达到通信的可靠性和更有效的频谱利用率这两个主要目的。

发明内容

技术问题：本发明的目的在于提供一种认知无线电系统中基于协作学习的多用户动态接入方法，单个智能体(认知用户)可以独立地解决各种简单的问题，但是当问题变复杂时，单智能体独立学习却越来越无能为力，因此此时必须得依靠多个智能体共同工作来解决这些复杂的问题。本发明将黑板模型、融合算法和强化学习结合起来，可以提高多认知用户系统的学习速率。

技术方案：本发明中，基于协作学习的多用户动态频谱接入方法的思路是：每个认知用户都采用单Agent强化学习算法独立地进行学习，为了加快学习速度、提高学习效率，多个认知用户通过黑板模型进行策略的共享，一段学习时间后，利用融合算法对多个策略进行融合来改进策略，然后利用融合后的策略进行再学习。这相当于给每个认知用户增加了先验知识，从而能使其更快地学习。方法框架如图1所示：

动作选择器：根据Q值和选定的动作选择策略来选择动作。

执行器：执行动作选择器选择的动作，作用于环境，使得环境状态s_t转移到下一状态s_t+1。

Q学习：根据环境状态s，采取的动作a和奖赏函数r，通过Q-learning算法进行学习，从而智能地调整认知用户的动作策略。

黑板模型：每学习N步之后，每个认知用户将自己当前的Q值发布到黑板上，同时从黑板上获取其他认知用户的Q值，从而实现策略共享。

融合算法：对从黑板获得的策略进行融合，以期能获得更高奖赏值的策略。

该方法的具体内容为：

a、初始化：随机初始化每个认知用户的状态-动作对函数值Q(s，a)，s表示认知用户的状态，a表示认知用户所采取的动作，设定初始学习速率α₀、温度参数T和迭代次数N；

b、状态空间的构建：状态空间

S = {s_{1}, s_{2}, \cdot \cdot \cdot, s_{K}, s_{d_{1}}, s_{d_{2}}, \cdot \cdot \cdot, s_{d_{M}}},

其中s_k＝0表示信道被授权用户k占用；s_k＝1表示信道未被占用；s₁～s_K表示授权用户占用的信道，K为授权用户数，

表示被认知用户占用的信道，d₁～d_M表示M个认知用户数；

c、动作选择策略：对状态-动作函数值Q(s_t，a_t)用玻耳兹曼法进行非线性化，然后再采用轮盘赌算法进行选择，用Boltzmann机分布选择动作的概率

p (a^{i} / s_{t}, Q) = \frac{e^{Q (s_{t}, a^{i}) / T}}{Σ_{a^{j} &Element; A} e^{Q (s_{t}, a^{j}) / T}},

其中，Q(s_t，a_i)是每个状态-动作对的函数值，A为认知用户作用于环境的动作集合，p(aⁱ/s_t，Q)表示在状态s_t选择动作aⁱ的概率，i和j为动作的序号，T为可调节的温度参数，T的大小代表了随机性的大小，T越大则选择动作的随机性越强；

d、确定奖赏函数：系统中存在一个信道同时被两个用户占用即冲突时，奖赏函数r为“-6”，是一种惩罚；不存在即没有冲突时r为“2”，反映了降低冲突概率的要求。

e、实现黑板模型：在迭代了N次以后，所有认知用户将各自当前的Q值通过公共控制信道发送到黑板即控制中心，并且可以从黑板中获取其它认知用户的Q值，然后利用融合方法进行计算，在此基础上，每个认知用户都根据融合后的Q值进行动作选择。

对Q值利用融合方法进行计算的过程为：

步骤1：设N次迭代为一个学习周期，在每个学习周期结束之后，各认知用户将自己当前的Q值发送到黑板，并且分享黑板中其它认知用户的Q值，找出拥有最大Q值的认知用户

Q_{t}^{*} (s, a) = \max_{1 \leq m \leq M} {Q_{t}^{m} (s, a)},

M为认知用户数，m∈{1，2，...，M}；

步骤2：计算差值

Δ = Q_{t}^{*} (s, a) - Q_{t}^{m} (s, a)

步骤3：计算

Q_{t}^{m} (s, a) = \{\begin{matrix} Q_{t}^{m} (s, a) / 2, Δ > 0 \\ 2 Q_{t}^{m} (s, a), Δ = 0 \end{matrix} .

有益效果：本发明提供一种认知无线电中基于协作学习的多用户动态频谱接入方法。基于分布式独立学习的多用户动态频谱接入算法可以解决多用户动态频谱接入的问题，但是如果存在的认知用户数较多时，其收敛速度比较慢，将会发生维数灾难。本发明将黑板模型、融合算法以及强化学习方法结合起来，每个认知用户独立地执行单智能体强化学习算法，同时彼此之间进行相互合作，共享状态、共享策略和共享奖赏函数等，从而加快了系统的收敛速度。

附图说明

图1多认知用户协作学习模型，

图2基于Q值动作选择示意图，

图3黑板协作示意图，

图4融合算法模型。

具体实施方式

在基于协作学习的多用户动态频谱接入方法中，各个认知用户独立地执行Q学习，所有认知用户在学习了N次后，相互交流学习成果(即交换Q值)，并将它们各自的学习结果进行融合，融合后的结果为所有认知用户共享，作为以后学习的基础。同时采用一致的奖赏函数，每个认知用户的目标都是一样的(降低系统的冲突概率)，系统发生冲突时每个认知用户获得的奖赏值是负值，是一种惩罚；当系统不发生冲突时，每个认知用户获得的奖赏值是正值，是一种鼓励。

下面具体说明基于协作学习的多用户动态频谱接入方法中的几个要素：

(1)状态空间S

本发明状态空间S与第四章一致，

S = {s_{1}, s_{2}, \cdot \cdot \cdot, s_{k}, s_{d_{1}}, s_{d_{2}}, \cdot \cdot \cdot, s_{d_{M}}},

其中s_k＝0表示频谱k被占用；s_k＝1表示频谱k未被占用。s₁～s_k表示主用户占用的频点，k为主用户数，

被认知用户占用的频点，d₁～d_m表示m个认知用户，本发明中m为2，即仅考虑两个认知用户的情况。两个认知用户的状态空间是一致的。

(2)动作选择策略

能影响系统状态的动作有2种：一种是认知用户选择频点时的动作a¹，它占用频点b₁，影响系统状态；还有一种就是系统内部主用户对频谱的占用，可认为它是一种动作a²。其中a²是系统内部动作，与Q值的大小无关，即是授权用户对频谱的占用是以一种简单的、无智能、已经设计好的方式进行，比如以一定序列方式占用频谱。a¹的选择是依据Q值的大小的，但是这里存在一个探索和利用的问题。Q强化学习算法中，在当前状态s_t选择动作a_t的依据是Q(s_t，a_t)的值，即选择能获得最大Q(s_t，a_t)的a_t。但是刚开始时学习没有先验经验，即每一个Q(s_t，a_t)值都是不成熟的，也就是说Q(s_t，a_t)值不能准确地表示a_t对s_t的适用程度。因此选择最高Q(s_t，a_t)值的动作导致了系统总是沿着相同的方向进行搜索而不可能探索到更好值，即容易造成系统停滞在局部最小值上。因此认知用户要尽可能的选择不同的动作，来寻求没有尝试但可能带来丰厚奖赏的动作，以找到最优的策略，即探索。但是也不可以盲目去探索，过度的探索将导致以前的经验无法利用，学习没有进步，降低系统的性能，影响学习的速度。所以学习开始时应该采用随机动作选择策略，然后随着学习过程逐步转向按照Q(s_t，a_t)值大小选择动作。

为了能够实现这种先随机选择，然后选择具有最大Q(s_t，a_t)的a_t的动作选择模式，本发明采用的方法是先对各个Q(s_t，a_t)用Boltzmann机(玻尔兹曼机)进行非线性化，然后再采用轮盘赌算法进行选择。如图2所示。

用Boltzmann分布选择动作的概率

p (a_{i} / s_{t}, Q) = \frac{e^{Q (s_{t}, a_{i}) / T}}{Σ_{b &Element; A} e^{Q (s_{t}, b) / T}} - - - (1)

其中，Q(s_t，a_i)是每个状态-动作对的Q值；p(a_i/s_t，Q)表示在状态s_t选择动作a的概率；T为可调节的温度参数，T的大小代表了随机性的大小，T越大则选择动作的随机性越强。在学习的初始阶段，由于学习的经验较少，需要增加探索能力，所以T取较高的值，使得每个动作被选择的概率大致相同；在学习过程中，应当逐渐降低温度T，保证以前的学习效果不被破坏。学习刚开始时温度T较大，动作选择倾向于随机选择，当温度T较小时，动作选择倾向于Q值的大小。

(3)奖赏函数r

奖赏函数应该体现学习目标，系统中的所有的认知用户的学习目标都是一致的，即降低系统的冲突概率。该算法设计当系统发生冲突时，奖赏函数r＝-6；当系统不发生冲突时，r＝2。

(4)黑板模型

用基于协作学习的多用户动态频谱接入方法来解决多个认知用户动态接入系统的问题，学习过程中最重要的就是Q值，也就是累积的知识。本发明所设计的黑板协作方法模型如图3所示，在每执行N步动作后，所有认知用户将各自当前的Q值通过公共控制信道发送到黑板，并且可以从黑板中获取其他认知用户的Q值，然后利用融合算法进行计算，在此基础上，每个认知用户都根据融合后的Q值进行动作选择。该方法实现了信息共享，达到了实现协作和加速学习的目标。

(5)融合算法

融合算法考虑了认知用户间的交互和通信，目的就是通过认知用户之间的协作尽可能的消除策略中的冗余动作，然后以比较高效的方式实现最终目标，从而提高系统的执行效率和收敛性能。

常用的融合算法有和积规则法、投票法、Bayes方法、平均值原则法、概率加权方法和最小最大原则等等。本发明选用的是最小最大原则融合法，模型如图4所示。

融合过程如下：

Step1：设N步为一个学习周期，在每个学习周期结束之后，各认知用户将自己当前的Q值发送到黑板，并且分享黑板中其他认知用户的Q值，找出拥有最大Q值的认知用户，

Q_{t}^{*} (s, a) = \max_{1 \leq i \leq M} {Q_{t}^{i} (s, a)} - - - (2)

Step2：计算

Δ = Q_{t}^{*} (s, a) - Q_{t}^{i} (s, a) - - - (3)

Step3：计算

Q_{t}^{i} (s, a) = \{\begin{matrix} Q_{t}^{i} (s, a) / 2, Δ > 0 \\ 2 Q_{t}^{i} (s, a), Δ = 0 \end{matrix} - - - (4)

Step4：对于所有认知用户i∈{1，2，...，M}有

Q_{t + 1}^{i} (s, a) = Q_{t}^{i} (s, a) - - - (5)

该融合算法表明，在多个认知用户处于同一状态下，为了避免发生冲突，一个频点只能被一个用户占用，因此最大化拥有最大Q值的用户，而其他用户则减小自己的Q值从而让该用户能够独自占用该频点，降低了发生冲突的概率。交流和共享策略确实极大地提高了系统的学习速度和学习效果，加快了系统的收敛速度。

(6)Q值的更新

该方法中，每个认知用户都有一份自己的Q值表，它们彼此互斥独立地修改各自的Q值表：

Q_{t + 1}^{i} (s, a_{1}, a_{2}) = \max {(Q_{t}^{i} (s, a_{1}, a_{2}), r_{t} (s_{t}, a_{t}^{u}, a_{2}) + γ \max_{{a_{1}}^{'} &Element; A} Q_{t}^{i} (s^{'}, {a_{1}}^{'}, {a_{2}}^{'})} - - - (6)

但是在一定的学习N步后，所有的认知用户采用黑板模型与融合算法共享各自的Q值表。该方法增强了认知用户的学习经验，提高了协作效率进而加快了学习速度。

Claims

1.一种认知无线电系统中基于协作学习的多用户动态频谱接入方法，其特征在于该方法的具体内容为：

b、状态空间的构建：状态空间

S = {s_{1}, s_{2}, \cdot \cdot \cdot, s_{K}, s_{d_{1}}, s_{d_{2}}, \cdot \cdot \cdot, s_{d_{M}}},

表示被认知用户占用的信道，d₁～d_M表示M个认知用户数；

p (a^{i} / s_{t}, Q) = \frac{e^{Q (s_{t}, a^{i}) / T}}{Σ_{a^{j} &Element; A} e^{Q (s_{t}, a^{j}) / T}},

2.如权利要求1所述的认知无线电系统中基于协作学习的多用户动态频谱接入方法，其特征在于对Q值利用融合方法进行计算的过程为：

Q_{t}^{*} (s, a) = \max_{1 \leq m \leq M} {Q_{t}^{m} (s, a)},

M为认知用户数，m∈{1，2，…，M}；

步骤2：计算差值

Δ = Q_{t}^{*} (s, a) - Q_{t}^{m} (s, a)

步骤3：计算

Q_{t}^{m} (s, a) = \{\begin{matrix} Q_{t}^{m} (s, a) / 2, Δ > 0 \\ 2 Q_{t}^{m} (s, a), Δ = 0 \end{matrix} .