CN111262638B

CN111262638B - 基于高效样本学习的动态频谱接入方法

Info

Publication number: CN111262638B
Application number: CN202010052242.0A
Authority: CN
Inventors: 郎文辉; 从前宏; 唐亚玲; 杨学志
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2021-09-24
Anticipated expiration: 2040-01-17
Also published as: CN111262638A

Abstract

本发明提供了一种基于高效样本学习的动态频谱接入方法，次级用户感知授权信道状态，伺机接入空闲的授权信道进行通信。本发明将高效样本学习应用到动态频谱接入中，根据信道状态和策略采取动作；判断选择接入的信道是否和授权用户冲突；若不发生冲突则获得奖励，否则获得惩罚；针对动态频谱接入中状态不依赖于动作这一特征，根据前后时刻状态和奖励结构计算期望动作；使用贪心算法，倾向性地更新最优状态动作对的值函数；根据值函数更新策略；重复上述部分步骤，直至次级用户不存在数据需要传输时结束。本发明使得次级用户智能地占用空闲频谱，满足了次级用户的通信需求，进而提高了授权信道的频谱利用率。

Description

基于高效样本学习的动态频谱接入方法

技术领域

本发明属于通信技术领域频谱资源分配，更具体地说，本发明涉及一种提升次级用户吞吐量的动态频谱接入方法。

背景技术

无线频谱是一种有限而宝贵的资源。随着移动互联网、物联网等新一代网络技术的迅猛发展，频谱资源短缺问题日益加剧。目前频谱资源的分配主要采用独占授权方式，该方式存在着因授权用户独占频段造成的频谱闲置、利用不充分等问题，加剧了频谱供需矛盾。动态频谱接入技术被认为是缓解上述矛盾的有效解决方案，它根据次级用户的频谱感知信息作出决策，从而接入空闲的授权信道，极大地提高了频谱利用率。

在授权频段中，获得信道授权的用户称为主用户,未获得频谱授权的用户称为次级用户。主用户对频谱拥有优先使用权，可随时使用频谱。在保证主用户所受干扰有限的前提下，次级用户可以使用空闲的授权频段。具体而言，当信道没被主用户占用而处于空闲的状态时，次级用户可以接入空闲信道进行通信；当信道被主用户占用而处于忙碌的状态时，次级用户则立即停止在此信道的通信并且切换到其他空闲信道继续数据通信。

作为未知环境下处理决策问题的重要方法，强化学习已经成功地在许多领域得到了应用，如机器人、工业制造、电子游戏以及移动通信系统领域的动态频谱分配问题。强化学习是Agent通过试错法和动态环境交互而获得行为的方法，根据模型是否已知可以分为有模型学习和免模型学习。有模型学习的学习效率相对较高，但通常会因模型偏差而产生较高的渐近偏差。免模型学习可以实现更低的渐近偏差，然而其样本学习效率较低，需要大量样本用于训练，限制了在真实环境下的应用。Q学习是一种重要的免模型强化学习算法，由1989年C.Watkins在其博士论文“Learning from delayed rewards”中首次提出，是动态规划的有关理论与动物学习心理学的有力相互结合，以求解未知环境模型下的决策问题为目标。

Y.Yao等人在文章“Centralized channel and power allocation forcognitive radio networks:A Q-learning solution”(2010 Future Network&MobileSummit,中文名称为“认知无线电网络中集中式信道与功率分配：一种Q学习方案”)提出使用Q学习来实现次级用户自主选择信道以及发射功率的分配。然而在解决信道分配方案中，Q学习不能很好地利用主用户使用授权信道不受次级用户影响这一特征，进而不能快速地学习到主用户使用授权信道的特征，发现到更多的空闲信道。

发明内容

本发明的目的针对背景技术的状况，针对动态频谱接入中主用户使用授权信道不受次级用户影响这一特征，设计了基于高效样本学习的动态频谱接入方法，将动态频谱接入建模为有N个授权信道，每个信道只有忙碌和空闲两种状态，次级用户连续感知所有授权信道状态，从中动态地获得并接入空闲的授权用户频谱。

为了实现上述目的，本发明提供一种基于高效样本学习的动态频谱接入方法，该方法包括以下步骤：

步骤1、制定规则

将认知无线电通信的授权信道分为N个互不重叠的信道，N个授权信道中主用户可随时使用N个信道中的任意多个信道而不受次级用户影响，次级用户动态地选择N个授权信道中的一个信道进行数据传输，每个授权信道被主用户占用时为忙碌状态，否则为空闲状态，次级用户选择的授权信道仅当其为空闲状态时数据才能传输成功；

步骤2、建立值函数Q

对N个授权信道进行编号，j为授权信道序号，j∈{1,2,3…,N}，将主用户使用授权信道的情况定义为状态，共计2^N种状态，对2^N种状态进行排序，序号为i的状态为s_i，i∈{1,2,3,…,2^N}，状态空间为

令s_ij为状态s_i中序号为j的授权信道的状态，s_i＝[s_i1,…,s_ij,...,s_iN]，且s_ij∈{0,1}，s_ij＝0表示对应的授权信道处于空闲状态，s_ij＝1表示对应的授权信道处于忙碌状态；

将次级用户选择序号为j的授权信道进行数据传输的情况定义为动作a_j，其中：j∈{1,2,3,...,N}，则动作空间A＝{a₁,a₂,…,a_j,...,a_N}

令Q(s_i,a_j)＝q_ij，表示所处状态为s_i，采取动作为a_j时，值函数Q的大小为q_ij，值函数Q以如下的形式存储：

步骤3、建立映射关系

令当前时刻状态为s_t时可令对应值函数Q取得最大值的授权信道选择操作定义为对应的策略π_t，即π(s_t)＝π_t，且π_t∈{1,2,...,N}，次级用户感知s_t后根据策略π_t获得下一时刻状态s_t+1的应执行动作

在进入下一时刻后执行

建立策略空间

步骤4、建立奖励机制

若次级用户执行应执行动作

后数据传输成功，则获得+1奖励，否则获得-1奖励，且奖励结果在进入下一时刻后得出，即奖励

其中

代表t+1时刻状态s_t+1中第π_t个信道的状态

令可令次级用户获得最大奖励的应执行动作为期望动作c_t

即：

步骤5、建立更新机制

步骤5.1、令值函数Q的更新公式为：

0≤α<1表示学习速率，学习速率越接近1，奖励变化越快速，0≤γ≤1表示折扣因子，代表了未来回报对当前汇报的重要性

步骤5.2、当执行完应执行动作

后，以ε的概率采用公式(5)更新

以1-ε的概率采用公式(5)更新Q_t(s_t,c_t)

ε大于0小于1，ε越小，Q_t(s_t,c_t)被更新的概率就越大

步骤5.3、当更新完值函数Q后更新策略

令策略更新机制为

步骤6、动态频谱接入

步骤6.1、初始时刻，执行动作a₀

步骤6.2、感知初始时刻状态s₀，根据策略π₀，确定下一时刻t的应执行动作

步骤6.3、进入t时刻，执行本时刻应执行动作，然后判断t+1时刻次级用户是否仍进行数据传输，若是则进入步骤6.4，否则结束

步骤6.4、感知t时刻状态s_t，计算对应奖励和期望动作，并更新值函数Q_t，然后更新策略π_t，根据更新后的策略，确认t+1时刻的应执行动作

返回步骤6.3。

进一步，a₀和

均为任选一个授权信道作为应执行动作。

进一步，初始时刻，任一q_ij均为0，任一π_t均被随机初始化为集合{1,2,...,N}中的一个数。

进一步，π₀为集合{1,2,...,N}中的任一个数。

与现有技术相比，本发明具有以下优点：

本发明在Q学习算法的基础上，针对动态频谱接入中动作不控制状态这一特征，优化了Q值迭代的方法，提升了算法的决策性能。在没有或缺乏足够训练数据的情况下，本发明可以使次级用户快速寻找到空闲频谱。

附图说明

图1是16个信道按信道标号顺序分成若干子集情况下本发明动态频谱接入方法和经典QL算法平均奖励对比图。

图2是16个信道随机分成若干子集情况下本发明动态频谱接入方法和经典QL算法平均奖励对比图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书中的术语“包括”，意图在于覆盖不排他的包含，例如，包含了一系列步骤的方法不必限于清楚地列出的那些步骤，而是可包括没有清楚地列出的或对于这些方法固有的其它步骤。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考实施例来详细说明本申请。

实施例

如图1所示，以授权信道数N＝16的跳频通信环境为例，将16个信道按编号顺序分成若干个子集k₁,k₂,…,k_M(M∈{2,4,8,16})，每个子集都有相同数量的信道。在任何时刻，只有一个子集中的所有信道都是空闲信道，其余子集中的信道均处于忙碌状态。若t时刻子集k_i中的信道均为空闲信道，则t+1时刻以0.1的概率仅有子集k_i中的信道仍为空闲信道，以0.9的概率仅有子集k_i的下一子集中的信道均为空闲信道。我们研究了M＝2,4,8,16的情况，如在100个时隙中，将16个信道按信道标号顺序分成4个子集见图1，其中白色代表空闲信道，黑色代表忙碌信道，横轴代表信道标号，纵轴代表时隙。

图2是16个信道按顺序分成若干子集情况下本发明动态频谱接入方法和经典QL算法在5000个时刻上的平均奖励对比图。图2横轴代表可用信道数，即每个子集中包含的信道数大小

纵轴代表平均奖励，即次级用户根据奖励机制获得的总奖励除以总时刻数。随着每个子集中信道数增加，即同一时隙中空闲信道数增多，发现空闲信道的机会就会增加，因此在相同时刻数内获得的平均奖励就高。

以图1为例，对16个授权信道进行编号，j为授权信道序号，j∈{1,2,3...,16}，将16个信道按编号顺序分为4个子集，分别为k₁＝{1,2,3,4}、k₂＝{5,6,7,8}、k₃＝{9,10,11,12}、k₄＝{13,14,15,16}。首先将值函数Q初始化为

任一π_i均被随机初始化为集合{1,2,...,N}中的一个数。

在t＝0时刻，子集k₂中的信道处于空闲状态，其余子集中的信道处于忙碌状态。因此t＝0时刻，次级用户所感知到的状态为s_t＝{1,1,1,1,0,0,0,0,1,1,1,1,1,1,1,1}，以初始化后策略π_t＝5为例，根据策略π执行动作a_j＝a₅，即在t＝1时刻，次级用户将占用序号为5的信道进行数据传输。

在t＝1时刻，子集k₃中的信道处于空闲状态，其余子集中的信道处于忙碌状态。因此t＝1时刻，状态s_t+1＝{1,1,1,1,1,1,1,1,0,0,0,0,1,1,1,1}，由于序号为5的信道在t＝1时刻处于忙碌状态，

次级用户获得的瞬时奖励

未能成功传输数据。

根据公式

计算期望动作c_t∈{9,10,11,12}，随机从{9,10,11,12}中选择其中一个信道，以取c_t＝a₉＝9为例。

接下来进行值函数Q的更新，取ε＝0.1，γ＝0.1，

以ε＝0.1的概率更新基于当前状态s_t和所执行动作a₅的值函数Q(s_t,a₅)，以1-ε＝0.9的概率更新基于当前状态s_t和期望动作a₉的值函数Q(s_t,a₉)。取以更新基于当前状态s_t和期望动作a₉的值函数Q(s_t,a₉)为例，则有

更新之后的值函数Q除了Q(s_t,a₉)＝0.707>0，其余皆为0

然后根据公式

更新策略，则有

依此重复上述步骤直至第5000个时刻，次级用户停止数据传输，得到图2中可用信道数为4时本发明动态频谱接入方法的平均奖励结果。图2表明与Q学习相比，本发明可以显著提升平均奖励，由奖励规则可知，平均奖励的提高意味着本发明能够在更多的时隙中占用空闲信道，增加了次级用户的传输数据量。随着可用信道数的增加，即同一时隙中空闲信道数的增加，则有更多的机会找到空闲信道，因此平均奖励会随之增加。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

本发明不限于以上对实施例的描述，本领域技术人员根据本发明揭示的内容，在本发明基础上不必经过创造性劳动所进行的改进和修改，都应该在本发明的保护范围之内。