CN111262638B - 基于高效样本学习的动态频谱接入方法 - Google Patents
基于高效样本学习的动态频谱接入方法 Download PDFInfo
- Publication number
- CN111262638B CN111262638B CN202010052242.0A CN202010052242A CN111262638B CN 111262638 B CN111262638 B CN 111262638B CN 202010052242 A CN202010052242 A CN 202010052242A CN 111262638 B CN111262638 B CN 111262638B
- Authority
- CN
- China
- Prior art keywords
- state
- channel
- action
- authorized
- secondary user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/382—Monitoring; Testing of propagation channels for resource allocation, admission control or handover
Landscapes
- Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供了一种基于高效样本学习的动态频谱接入方法,次级用户感知授权信道状态,伺机接入空闲的授权信道进行通信。本发明将高效样本学习应用到动态频谱接入中,根据信道状态和策略采取动作;判断选择接入的信道是否和授权用户冲突;若不发生冲突则获得奖励,否则获得惩罚;针对动态频谱接入中状态不依赖于动作这一特征,根据前后时刻状态和奖励结构计算期望动作;使用贪心算法,倾向性地更新最优状态动作对的值函数;根据值函数更新策略;重复上述部分步骤,直至次级用户不存在数据需要传输时结束。本发明使得次级用户智能地占用空闲频谱,满足了次级用户的通信需求,进而提高了授权信道的频谱利用率。
Description
技术领域
本发明属于通信技术领域频谱资源分配,更具体地说,本发明涉及一种提升次级用户吞吐量的动态频谱接入方法。
背景技术
无线频谱是一种有限而宝贵的资源。随着移动互联网、物联网等新一代网络技术的迅猛发展,频谱资源短缺问题日益加剧。目前频谱资源的分配主要采用独占授权方式,该方式存在着因授权用户独占频段造成的频谱闲置、利用不充分等问题,加剧了频谱供需矛盾。动态频谱接入技术被认为是缓解上述矛盾的有效解决方案,它根据次级用户的频谱感知信息作出决策,从而接入空闲的授权信道,极大地提高了频谱利用率。
在授权频段中,获得信道授权的用户称为主用户,未获得频谱授权的用户称为次级用户。主用户对频谱拥有优先使用权,可随时使用频谱。在保证主用户所受干扰有限的前提下,次级用户可以使用空闲的授权频段。具体而言,当信道没被主用户占用而处于空闲的状态时,次级用户可以接入空闲信道进行通信;当信道被主用户占用而处于忙碌的状态时,次级用户则立即停止在此信道的通信并且切换到其他空闲信道继续数据通信。
作为未知环境下处理决策问题的重要方法,强化学习已经成功地在许多领域得到了应用,如机器人、工业制造、电子游戏以及移动通信系统领域的动态频谱分配问题。强化学习是Agent通过试错法和动态环境交互而获得行为的方法,根据模型是否已知可以分为有模型学习和免模型学习。有模型学习的学习效率相对较高,但通常会因模型偏差而产生较高的渐近偏差。免模型学习可以实现更低的渐近偏差,然而其样本学习效率较低,需要大量样本用于训练,限制了在真实环境下的应用。Q学习是一种重要的免模型强化学习算法,由1989年C.Watkins在其博士论文“Learning from delayed rewards”中首次提出,是动态规划的有关理论与动物学习心理学的有力相互结合,以求解未知环境模型下的决策问题为目标。
Y.Yao等人在文章“Centralized channel and power allocation forcognitive radio networks:A Q-learning solution”(2010 Future Network&MobileSummit,中文名称为“认知无线电网络中集中式信道与功率分配:一种Q学习方案”)提出使用Q学习来实现次级用户自主选择信道以及发射功率的分配。然而在解决信道分配方案中,Q学习不能很好地利用主用户使用授权信道不受次级用户影响这一特征,进而不能快速地学习到主用户使用授权信道的特征,发现到更多的空闲信道。
发明内容
本发明的目的针对背景技术的状况,针对动态频谱接入中主用户使用授权信道不受次级用户影响这一特征,设计了基于高效样本学习的动态频谱接入方法,将动态频谱接入建模为有N个授权信道,每个信道只有忙碌和空闲两种状态,次级用户连续感知所有授权信道状态,从中动态地获得并接入空闲的授权用户频谱。
为了实现上述目的,本发明提供一种基于高效样本学习的动态频谱接入方法,该方法包括以下步骤:
步骤1、制定规则
将认知无线电通信的授权信道分为N个互不重叠的信道,N个授权信道中主用户可随时使用N个信道中的任意多个信道而不受次级用户影响,次级用户动态地选择N个授权信道中的一个信道进行数据传输,每个授权信道被主用户占用时为忙碌状态,否则为空闲状态,次级用户选择的授权信道仅当其为空闲状态时数据才能传输成功;
步骤2、建立值函数Q
对N个授权信道进行编号,j为授权信道序号,j∈{1,2,3…,N},将主用户使用授权信道的情况定义为状态,共计2N种状态,对2N种状态进行排序,序号为i的状态为si,i∈{1,2,3,…,2N},状态空间为
令sij为状态si中序号为j的授权信道的状态,si=[si1,…,sij,...,siN],且sij∈{0,1},sij=0表示对应的授权信道处于空闲状态,sij=1表示对应的授权信道处于忙碌状态;
将次级用户选择序号为j的授权信道进行数据传输的情况定义为动作aj,其中:j∈{1,2,3,...,N},则动作空间A={a1,a2,…,aj,...,aN}
令Q(si,aj)=qij,表示所处状态为si,采取动作为aj时,值函数Q的大小为qij,值函数Q以如下的形式存储:
步骤3、建立映射关系
令当前时刻状态为st时可令对应值函数Q取得最大值的授权信道选择操作定义为对应的策略πt,即π(st)=πt,且πt∈{1,2,...,N},次级用户感知st后根据策略πt获得下一时刻状态st+1的应执行动作在进入下一时刻后执行
步骤4、建立奖励机制
令可令次级用户获得最大奖励的应执行动作为期望动作ct
步骤5、建立更新机制
步骤5.1、令值函数Q的更新公式为:
0≤α<1表示学习速率,学习速率越接近1,奖励变化越快速,0≤γ≤1表示折扣因子,代表了未来回报对当前汇报的重要性
ε大于0小于1,ε越小,Qt(st,ct)被更新的概率就越大
步骤5.3、当更新完值函数Q后更新策略
步骤6、动态频谱接入
步骤6.1、初始时刻,执行动作a0
步骤6.3、进入t时刻,执行本时刻应执行动作,然后判断t+1时刻次级用户是否仍进行数据传输,若是则进入步骤6.4,否则结束
进一步,初始时刻,任一qij均为0,任一πt均被随机初始化为集合{1,2,...,N}中的一个数。
进一步,π0为集合{1,2,...,N}中的任一个数。
与现有技术相比,本发明具有以下优点:
本发明在Q学习算法的基础上,针对动态频谱接入中动作不控制状态这一特征,优化了Q值迭代的方法,提升了算法的决策性能。在没有或缺乏足够训练数据的情况下,本发明可以使次级用户快速寻找到空闲频谱。
附图说明
图1是16个信道按信道标号顺序分成若干子集情况下本发明动态频谱接入方法和经典QL算法平均奖励对比图。
图2是16个信道随机分成若干子集情况下本发明动态频谱接入方法和经典QL算法平均奖励对比图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书中的术语“包括”,意图在于覆盖不排他的包含,例如,包含了一系列步骤的方法不必限于清楚地列出的那些步骤,而是可包括没有清楚地列出的或对于这些方法固有的其它步骤。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考实施例来详细说明本申请。
实施例
如图1所示,以授权信道数N=16的跳频通信环境为例,将16个信道按编号顺序分成若干个子集k1,k2,…,kM(M∈{2,4,8,16}),每个子集都有相同数量的信道。在任何时刻,只有一个子集中的所有信道都是空闲信道,其余子集中的信道均处于忙碌状态。若t时刻子集ki中的信道均为空闲信道,则t+1时刻以0.1的概率仅有子集ki中的信道仍为空闲信道,以0.9的概率仅有子集ki的下一子集中的信道均为空闲信道。我们研究了M=2,4,8,16的情况,如在100个时隙中,将16个信道按信道标号顺序分成4个子集见图1,其中白色代表空闲信道,黑色代表忙碌信道,横轴代表信道标号,纵轴代表时隙。
图2是16个信道按顺序分成若干子集情况下本发明动态频谱接入方法和经典QL算法在5000个时刻上的平均奖励对比图。图2横轴代表可用信道数,即每个子集中包含的信道数大小纵轴代表平均奖励,即次级用户根据奖励机制获得的总奖励除以总时刻数。随着每个子集中信道数增加,即同一时隙中空闲信道数增多,发现空闲信道的机会就会增加,因此在相同时刻数内获得的平均奖励就高。
以图1为例,对16个授权信道进行编号,j为授权信道序号,j∈{1,2,3...,16},将16个信道按编号顺序分为4个子集,分别为k1={1,2,3,4}、k2={5,6,7,8}、k3={9,10,11,12}、k4={13,14,15,16}。首先将值函数Q初始化为
任一πi均被随机初始化为集合{1,2,...,N}中的一个数。
在t=0时刻,子集k2中的信道处于空闲状态,其余子集中的信道处于忙碌状态。因此t=0时刻,次级用户所感知到的状态为st={1,1,1,1,0,0,0,0,1,1,1,1,1,1,1,1},以初始化后策略πt=5为例,根据策略π执行动作aj=a5,即在t=1时刻,次级用户将占用序号为5的信道进行数据传输。
在t=1时刻,子集k3中的信道处于空闲状态,其余子集中的信道处于忙碌状态。因此t=1时刻,状态st+1={1,1,1,1,1,1,1,1,0,0,0,0,1,1,1,1},由于序号为5的信道在t=1时刻处于忙碌状态,次级用户获得的瞬时奖励未能成功传输数据。
接下来进行值函数Q的更新,取ε=0.1,γ=0.1,以ε=0.1的概率更新基于当前状态st和所执行动作a5的值函数Q(st,a5),以1-ε=0.9的概率更新基于当前状态st和期望动作a9的值函数Q(st,a9)。取以更新基于当前状态st和期望动作a9的值函数Q(st,a9)为例,则有
更新之后的值函数Q除了Q(st,a9)=0.707>0,其余皆为0
依此重复上述步骤直至第5000个时刻,次级用户停止数据传输,得到图2中可用信道数为4时本发明动态频谱接入方法的平均奖励结果。图2表明与Q学习相比,本发明可以显著提升平均奖励,由奖励规则可知,平均奖励的提高意味着本发明能够在更多的时隙中占用空闲信道,增加了次级用户的传输数据量。随着可用信道数的增加,即同一时隙中空闲信道数的增加,则有更多的机会找到空闲信道,因此平均奖励会随之增加。
上述实施例只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰,都应涵盖在本发明的保护范围之内。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
本发明不限于以上对实施例的描述,本领域技术人员根据本发明揭示的内容,在本发明基础上不必经过创造性劳动所进行的改进和修改,都应该在本发明的保护范围之内。
Claims (4)
1.一种基于高效样本学习的动态频谱接入方法,其特征在于,该方法包括以下步骤:
步骤1、制定规则
将认知无线电通信的授权信道分为N个互不重叠的信道,N个授权信道中主用户可随时使用N个信道中的任意多个信道而不受次级用户影响,次级用户动态地选择N个授权信道中的一个信道进行数据传输,每个授权信道被主用户占用时为忙碌状态,否则为空闲状态,次级用户选择的授权信道仅当其为空闲状态时数据才能传输成功;
步骤2、建立值函数Q
对N个授权信道进行编号,j为授权信道序号,j∈{1,2,3…,N},将主用户使用授权信道的情况定义为状态,共计2N种状态,对2N种状态进行排序,序号为i的状态为si,i∈{1,2,3,…,2N},状态空间为
令sij为状态si中序号为j的授权信道的状态,si=[si1,…,sij,...,siN],且sij∈{0,1},sij=0表示对应的授权信道处于空闲状态,sij=1表示对应的授权信道处于忙碌状态;
将次级用户选择序号为j的授权信道进行数据传输的情况定义为动作aj,其中:j∈{1,2,3,...,N},则动作空间A={a1,a2,…,aj,...,aN};
令Q(si,aj)=qij,表示所处状态为si,采取动作为aj时,值函数Q的大小为qij,值函数Q以如下的形式存储:
步骤3、建立映射关系
令当前时刻状态为st时可令对应值函数Q取得最大值的授权信道选择操作定义为对应的策略πt,即π(st)=πt,且πt∈{1,2,...,N},次级用户感知st后根据策略πt获得下一时刻状态st+1的应执行动作在进入下一时刻后执行;
步骤4、建立奖励机制
令可令次级用户获得最大奖励的应执行动作为期望动作ct;
步骤5、建立更新机制
步骤5.1、令值函数Q的更新公式为:
0≤α<1表示学习速率,学习速率越接近1,奖励变化越快速,0≤γ≤1表示折扣因子,代表了未来回报对当前回报的重要性;
ε大于0小于1,ε越小,Qt(st,ct)被更新的概率就越大;
步骤5.3、当更新完值函数Q后更新策略;
步骤6、动态频谱接入
步骤6.1、初始时刻,执行动作a0;
步骤6.3、进入t时刻,执行本时刻应执行动作,然后判断t+1时刻次级用户是否仍进行数据传输,若是则进入步骤6.4,否则结束;
3.根据权利要求1所述的方法,其特征在于,初始时刻,任一qij均为0,任一πt均被随机初始化为集合{1,2,...,N}中的一个数。
4.根据权利要求1所述的方法,其特征在于,π0为集合{1,2,...,N}中的任意一个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010052242.0A CN111262638B (zh) | 2020-01-17 | 2020-01-17 | 基于高效样本学习的动态频谱接入方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010052242.0A CN111262638B (zh) | 2020-01-17 | 2020-01-17 | 基于高效样本学习的动态频谱接入方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111262638A CN111262638A (zh) | 2020-06-09 |
CN111262638B true CN111262638B (zh) | 2021-09-24 |
Family
ID=70954197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010052242.0A Active CN111262638B (zh) | 2020-01-17 | 2020-01-17 | 基于高效样本学习的动态频谱接入方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111262638B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111935722B (zh) * | 2020-08-20 | 2021-04-30 | 中国人民解放军国防科技大学 | 基于用户在线学习与低开销合作的动态频谱共享方法 |
CN112367131B (zh) * | 2020-10-08 | 2021-09-24 | 大连理工大学 | 基于强化学习的跳跃式频谱感知方法 |
CN112954814B (zh) * | 2021-01-27 | 2022-05-20 | 哈尔滨工程大学 | 一种认知无线电中信道质量性接入方法 |
CN113438723B (zh) * | 2021-06-23 | 2023-04-28 | 广东工业大学 | 一种高额奖励惩罚的竞争深度q网络功率控制方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101466111A (zh) * | 2009-01-13 | 2009-06-24 | 中国人民解放军理工大学通信工程学院 | 基于政策规划约束q学习的动态频谱接入方法 |
EP2437533A1 (en) * | 2010-09-30 | 2012-04-04 | Deutsche Telekom AG | Opportunistic spectrum access in mobile cognitive radio networks |
CN106358203A (zh) * | 2016-08-30 | 2017-01-25 | 湖南大学 | 一种分布式认知无线传感器网络中基于q学习的频谱分配方法 |
-
2020
- 2020-01-17 CN CN202010052242.0A patent/CN111262638B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101466111A (zh) * | 2009-01-13 | 2009-06-24 | 中国人民解放军理工大学通信工程学院 | 基于政策规划约束q学习的动态频谱接入方法 |
EP2437533A1 (en) * | 2010-09-30 | 2012-04-04 | Deutsche Telekom AG | Opportunistic spectrum access in mobile cognitive radio networks |
CN106358203A (zh) * | 2016-08-30 | 2017-01-25 | 湖南大学 | 一种分布式认知无线传感器网络中基于q学习的频谱分配方法 |
Non-Patent Citations (1)
Title |
---|
基于Q-learning的动态频谱接入算法研究;张亚洲等;《海南大学学报(自然科学版)》;20180325(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111262638A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111262638B (zh) | 基于高效样本学习的动态频谱接入方法 | |
Li et al. | Multi-armed-bandit-based spectrum scheduling algorithms in wireless networks: A survey | |
CN112188503B (zh) | 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法 | |
Zhang et al. | Spectrum allocation in cognitive radio networks using swarm intelligence | |
CN110856268B (zh) | 一种无线网络动态多信道接入方法 | |
Kang et al. | Low-complexity learning for dynamic spectrum access in multi-user multi-channel networks | |
CN112512070B (zh) | 一种基于图注意力机制强化学习的多基站协同无线网络资源分配方法 | |
Gai et al. | On the combinatorial multi-armed bandit problem with Markovian rewards | |
CN109787696B (zh) | 基于案例推理与合作q学习的认知无线电资源分配方法 | |
Kim | Multi-leader multi-follower Stackelberg model for cognitive radio spectrum sharing scheme | |
Balakrishnan et al. | Deep reinforcement learning based traffic-and channel-aware OFDMA resource allocation | |
Krishnan et al. | Optimizing throughput performance in distributed MIMO Wi-Fi networks using deep reinforcement learning | |
Jiang et al. | Q-learning for non-cooperative channel access game of cognitive radio networks | |
CN113613332B (zh) | 基于协作分布式dqn联合模拟退火算法的频谱资源分配方法和系统 | |
US20240155356A1 (en) | Resolution method for intent-based wireless network resource conflicts and apparatus thereof | |
CN113891327A (zh) | 一种基于深度多用户drqn的动态频谱接入方法 | |
Ye et al. | Genetic algorithm based spectrum assignment model in cognitive radio networks | |
CN109743780A (zh) | 信道选择和传输时间联合优化的分层强化学习抗干扰算法 | |
Liu et al. | Spectrum allocation optimization for cognitive radio networks using binary firefly algorithm | |
CN108471619B (zh) | 认知无线传感器网络的信道选择方法 | |
Cong et al. | Double deep recurrent reinforcement learning for centralized dynamic multichannel access | |
Wen et al. | Genetic algorithm based spectrum allocation for cognitive radio networks | |
Gao et al. | Membrane quantum particle swarm optimisation for cognitive radio spectrum allocation | |
Eskandari et al. | Smart interference management xApp using deep reinforcement learning | |
Lu et al. | Dynamic channel access via meta-reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |