CN112367131A - 基于强化学习的跳跃式频谱感知方法 - Google Patents

基于强化学习的跳跃式频谱感知方法 Download PDF

Info

Publication number
CN112367131A
CN112367131A CN202011067956.5A CN202011067956A CN112367131A CN 112367131 A CN112367131 A CN 112367131A CN 202011067956 A CN202011067956 A CN 202011067956A CN 112367131 A CN112367131 A CN 112367131A
Authority
CN
China
Prior art keywords
channel
action
sensing
state
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011067956.5A
Other languages
English (en)
Other versions
CN112367131B (zh
Inventor
李轩衡
董一锋
张雨浩
孙弘毅
张仁浩
丁海川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202011067956.5A priority Critical patent/CN112367131B/zh
Publication of CN112367131A publication Critical patent/CN112367131A/zh
Application granted granted Critical
Publication of CN112367131B publication Critical patent/CN112367131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0453Resources in frequency domain, e.g. a carrier in FDMA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Electromagnetism (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种基于强化学习的跳跃式频谱感知方法,属于无线通信领域,特别涉及认知无线电技术,为频谱的动态接入提供了一种低开销、智能化的频谱感知方法。考虑频谱空闲状态的持续特性,该方法允许设备在接入信道时跳过部分感知时隙,相比传统周期型感知策略,其可以减小感知开销,提高传输效率。该方法采用强化学习算法,以信道占用情况为状态,信道选择及感知跳过时隙为动作,通过对不同状态下的不同动作进行评估,设备能够智能化地制定最优策略。该方法不依赖具体的频谱状态统计模型,设备可以通过对环境的学习自适应的确定最优接入和感知策略。

Description

基于强化学习的跳跃式频谱感知方法
技术领域
本发明属于无线通信技术领域,涉及一种基于强化学习算法的跳跃式频谱感知方法,特别涉及到认知无线电与动态频谱接入。
背景技术
近年来,随着物联网的快速发展,移动无线网络所需要承载的数据量与日俱增,频谱逐渐成为一种稀缺且重要的自然资源。认知无线电技术能够通过频谱感知和动态频谱接入,在不影响频谱拥有者(主用户)使用的前提下,允许次用户接入空闲频带,从而有效利用空闲频谱资源,提升频谱利用效率,扩充网络容量,被视为移动无线网络未来重要的使能技术之一。
频谱感知是认知无线电实现动态频谱接入的重要环节,其通过监听各频带的使用状态,使得认知无线电能够有效捕捉空闲频带,进而实现对空闲频谱的动态占用。目前广泛采用的方法主要是基于周期式的频谱感知,即将整个传输过程分为多个等长时隙,每个时隙都进行一次感知操作以确认频谱状态,依此执行接入或断开操作。在每个时隙传输前均进行感知虽然可以有效控制次用户对主用户的干扰,但频繁的频谱感知会缩减传输数据的时间,影响传输的有效性,同时也会带来巨大的感知能耗开销。
大量频谱监测结果表明,频谱占用状态通常具有连续性,即其一旦处于空闲状态,则该状态将大概率持续一段时间。因此,若能够有效捕捉空闲状态的持续特性,就能够在传输过程中避免某些时隙的感知操作,而是对部分时隙更有针对性的进行频谱感知,从而降低感知所带来的能量和时间开销,提高传输效率。
强化学习属于机器学习的一个重要分支,其可以使智能体对过去行为及执行结果进行知识积累,从而学习到环境的动态特性,并依此制定最优策略。本发明基于强化学习算法为认知无线电的动态频谱接入设计跳跃式的频谱感知方法。该方法对频谱环境没有特别要求,能够自适应地捕获空闲状态的持续特性,有效降低感知开销,大幅度提高认知无线电的数据传输效率。
发明内容
本发明基于强化学习算法提出一种跳跃式的频谱感知方法,根据频谱空闲状态的持续特性,在每次接入和感知结束之后跳过一段时间再进行接入和感知,相比周期式的传统感知方法,该方法具有更高的传输效率和更低的感知开销。
本发明针对一对认知无线电收发机,假设有M个信道可用,发射机受硬件条件限制最多可同时感知和接入N个信道(N≤M),基于强化学习发明的跳跃式频谱感知方法具体步骤如下:
第1、定义状态集、动作集、动作结束判断原则和奖励函数。
定义1:对于任意时隙,发射机的状态集定义为
Figure BDA0002714389010000021
包括设备接入和感知的信道编号
Figure BDA0002714389010000022
以及对应第
Figure BDA0002714389010000023
个信道的状态
Figure BDA0002714389010000024
其中0表示信道空闲,1表示信道被占用,i=[1,2…,N]。
定义2:对于任意时隙,发射机的动作集a={ν,γ},其中ν∈{1,…,M}表示选择接入和感知的信道编号,γ∈{1,…ωmax}表示选择跳过感知的时隙数,ωmax为发射机可跳过时隙数的最大值。
定义3:定义两个判断动作是否结束的原则:1、接入的某个信道在感知跳过期间一直空闲,即设备成功跳过所选择的感知时隙。2、设备未能成功跳过所选跳过感知时隙,即在跳过感知的过程中信道被主用户占用,产生冲突。当上述两种原则任意一种发生时,认为对应动作结束。
定义4:奖励函数定义为
Figure BDA0002714389010000025
其中δ=0表示成功传输即定义3的原则1,δ=1表示传输失败即定义3的原则2。目的是在成功传输时给予一个正的奖励值,传输失败时则给予一个负的奖励值。
Figure BDA0002714389010000031
表示在情况1时跳过的时隙数越多,节省的感知开销越多,奖励值越大;在情况2时跳过的时隙数越多,对主用户造成的影响可能越大,即奖励值应该越小。Bν表示信道ν的带宽。
第2、基于步骤1中定义的状态集、动作集、动作结束判断原则和奖励函数,发射机在每次处于某个状态下执行某个动作结束之后都会对该状态下执行该动作进行评价,亦称为Q值,随着算法逐渐收敛,Q值将指导发射机在动态环境下选择最优动作,具体步骤如下:
第2.1、为了记录所有“状态-动作”的Q值,建立二维Q表,并将所有值初始化为0。假设初始化状态为全部信道空闲。
第2.2、判断目前接入的信道数量,若接入Z个,则需要选择N-Z个动作执行,即选择N-Z个信道接入。对于每个动作选择,遵循如下方式:以概率1-ε选择Q表对应状态s下的所有动作中Q值最大的动作,即
Figure BDA0002714389010000032
(已经接入的信道排除在外);以概率ε随机选择动作。该选择执行N-Z次,确定N-Z个接入信道。
第2.3、执行步骤2.2中选择的动作a。设备感知第ν个信道,若该信道空闲,则接入该信道,同时在接下来的γ个时隙持续接入该信道并不执行感知;若该信道被占用,则不接入该信道。
第2.4、对于任意接入频带,基于定义3中的原则判断是否有动作结束。对于结束的动作基于定义4计算其在对应状态下的奖励值,并得到该动作结束时的状态s',s'中的
Figure BDA0002714389010000033
Figure BDA0002714389010000034
即为在此时设备接入的信道的编号和其对应的占用情况。
第2.5、根据奖励值更新Q表中对应的“状态-动作”Q值,对于每一个状态s下做出动作a的Q值更新公式如下:
Figure BDA0002714389010000041
其中α为学习率,η为折扣因子。
第2.6、重复2.2-2.5,直到传输任务结束。
本发明的有益效果在于:
(1)本发明的方法可以使设备跳过部分感知过程,相比传统的周期式频谱感知方法,本发明能够减少不必要的感知次数,从而减少感知开销,提高数据传输效率。
(2)本发明设计了一种基于强化学习的方法,相比于传统的基于模型的方法,本发明使得设备能够根据动态变化的环境自适应地进行频带选择和接入时长选择,克服了环境动态性对策略制定带来的难题。
具体实施方式
下面结合具体实施例详细阐述本发明具体实施方式,本发明方法并不局限于该具体实施例。考虑一对认知无线电收发机构成的时隙系统,有4个信道供动态接入,发射机可从中选择2个信道进行数据传输。设置最大跳过时隙数为5。本发明方法的具体步骤如下:
1、针对所有“状态-动作”对建立Q表,初始化Q表中所有值为0,设定初始状态为4个信道全部空闲;
2、选择2个信道接入,选择方式如下:以概率1-ε选择Q表对应状态s下的所有动作中Q值最大的动作,即
Figure BDA0002714389010000042
以概率ε随机选择一个动作。该操作执行2次,第二次执行时,第一次选择的信道被排除在外;
3、执行动作,根据定义3判断动作是否结束,对于每一个结束的动作计算其奖励值;
4、根据奖励值更新Q表中对应的“状态-动作”Q值;
5、判断步骤3中有几个动作结束,若1个,则需要选择1个新的动作,若2个,则需要选择2个新的动作,选择方式同步骤2。更新概率ε;
6、重复步骤3-5,直至任务结束。
本发明方法整体实施步骤总结如下表所示:
Figure BDA0002714389010000051

Claims (1)

1.一种基于强化学习的跳跃式频谱感知方法,其特征在于,与已有的周期性频谱感知方法不同,设备在感知信道的同时会决定在接下来的一段时间不感知信道,从而大幅度减小感知开销;具体步骤如下:
(1)定义状态集、动作集、动作结束判断原则和奖励函数
定义1:对于任意时隙,发射机的状态集定义为
Figure FDA0002714387000000011
包括设备接入和感知的信道编号
Figure FDA0002714387000000012
以及对应第
Figure FDA0002714387000000013
个信道的状态
Figure FDA0002714387000000014
其中0表示信道空闲,1表示信道被占用,i=[1,2…,N];
定义2:对于任意时隙,发射机的动作集a={ν,γ},其中ν∈{1,…,M}表示选择接入和感知的信道编号,γ∈{1,…ωmax}表示选择跳过感知的时隙数,ωmax为发射机可跳过时隙数的最大值;
定义3:定义两个判断动作是否结束的原则:1)接入的某个信道在感知跳过期间一直空闲,即设备成功跳过所选择的感知时隙;2)设备未能成功跳过所选跳过感知时隙,即在跳过感知的过程中信道被主用户占用,产生冲突;当上述两种原则任意一种发生时,认为对应动作结束;
定义4:奖励函数定义为
Figure FDA0002714387000000015
其中δ=0表示成功传输即定义3的原则1),δ=1表示传输失败即定义3的原则2)目的是在成功传输时给予一个正的奖励值,传输失败时则给予一个负的奖励值;
Figure FDA0002714387000000016
表示在情况1时跳过的时隙数越多,节省的感知开销越多,奖励值越大;在情况2时跳过的时隙数越多,对主用户造成的影响可能越大,即奖励值应该越小;Bν表示信道ν的带宽;
(2)基于步骤(1)中定义的状态集、动作集、动作结束判断原则和奖励函数,发射机在每次处于某个状态下执行某个动作结束之后都会对该状态下执行该动作进行评价,亦称为Q值,随着算法逐渐收敛,Q值将指导发射机在动态环境下选择最优动作;
(2.1)为了记录所有“状态-动作”的Q值,建立二维Q表,并将所有值初始化为0;假设初始化状态为全部信道空闲;
(2.2)判断目前接入的信道数量,若接入Z个,则需要选择N-Z个动作执行,即选择N-Z个信道接入;对于每个动作选择,遵循如下方式:以概率1-ε选择Q表对应状态s下的所有动作中Q值最大的动作,即
Figure FDA0002714387000000021
以概率ε随机选择动作;该选择执行N-Z次,确定N-Z个接入信道;
(2.3)执行步骤(2.2)中选择的动作a;设备感知第ν个信道,若该信道空闲,则接入该信道,同时在接下来的γ个时隙持续接入该信道并不执行感知;若该信道被占用,则不接入该信道;
(2.4)对于任意接入频带,基于定义3中的原则判断是否有动作结束;对于结束的动作基于定义4计算其在对应状态下的奖励值,并得到该动作结束时的状态s',s'中的
Figure FDA0002714387000000022
Figure FDA0002714387000000023
即为在此时设备接入的信道的编号和其对应的占用情况;
(2.5)根据奖励值更新Q表中对应的“状态-动作”Q值,对于每一个状态s下做出动作a的Q值更新公式如下:
Figure FDA0002714387000000024
其中α为学习率,η为折扣因子;
(2.6)重复步骤(2.2)-(2.5),直到传输任务结束。
CN202011067956.5A 2020-10-08 2020-10-08 基于强化学习的跳跃式频谱感知方法 Active CN112367131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011067956.5A CN112367131B (zh) 2020-10-08 2020-10-08 基于强化学习的跳跃式频谱感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011067956.5A CN112367131B (zh) 2020-10-08 2020-10-08 基于强化学习的跳跃式频谱感知方法

Publications (2)

Publication Number Publication Date
CN112367131A true CN112367131A (zh) 2021-02-12
CN112367131B CN112367131B (zh) 2021-09-24

Family

ID=74507070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011067956.5A Active CN112367131B (zh) 2020-10-08 2020-10-08 基于强化学习的跳跃式频谱感知方法

Country Status (1)

Country Link
CN (1) CN112367131B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113747447A (zh) * 2021-09-07 2021-12-03 中国人民解放军国防科技大学 基于先验知识的双动作强化学习频谱接入方法和系统
CN116704823A (zh) * 2023-06-12 2023-09-05 大连理工大学 基于强化学习的无人机智能轨迹规划和通感资源分配方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106358203A (zh) * 2016-08-30 2017-01-25 湖南大学 一种分布式认知无线传感器网络中基于q学习的频谱分配方法
CN108833040A (zh) * 2018-06-22 2018-11-16 电子科技大学 基于强化学习的智能频谱协同感知方法
CN109548032A (zh) * 2018-12-19 2019-03-29 北京交通大学 一种面向密集网络全频段检测的分布式协作频谱认知方法
CN111262638A (zh) * 2020-01-17 2020-06-09 合肥工业大学 基于高效样本学习的动态频谱接入方法
CN111342920A (zh) * 2020-01-10 2020-06-26 重庆邮电大学 一种基于q学习的信道选择方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106358203A (zh) * 2016-08-30 2017-01-25 湖南大学 一种分布式认知无线传感器网络中基于q学习的频谱分配方法
CN108833040A (zh) * 2018-06-22 2018-11-16 电子科技大学 基于强化学习的智能频谱协同感知方法
CN109548032A (zh) * 2018-12-19 2019-03-29 北京交通大学 一种面向密集网络全频段检测的分布式协作频谱认知方法
CN111342920A (zh) * 2020-01-10 2020-06-26 重庆邮电大学 一种基于q学习的信道选择方法
CN111262638A (zh) * 2020-01-17 2020-06-09 合肥工业大学 基于高效样本学习的动态频谱接入方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAICHUAN DING等: "Intelligent Data Transportation in Smart Cities: A Spectrum-Aware Approach", 《IEEE/ACM TRANSACTIONS ON NETWORKING》 *
李轩衡: "认知无线网络中频谱共享方法研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113747447A (zh) * 2021-09-07 2021-12-03 中国人民解放军国防科技大学 基于先验知识的双动作强化学习频谱接入方法和系统
CN113747447B (zh) * 2021-09-07 2024-06-25 中国人民解放军国防科技大学 基于先验知识的双动作强化学习频谱接入方法和系统
CN116704823A (zh) * 2023-06-12 2023-09-05 大连理工大学 基于强化学习的无人机智能轨迹规划和通感资源分配方法
CN116704823B (zh) * 2023-06-12 2023-12-19 大连理工大学 基于强化学习的无人机智能轨迹规划和通感资源分配方法

Also Published As

Publication number Publication date
CN112367131B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN112367131B (zh) 基于强化学习的跳跃式频谱感知方法
CN108809452B (zh) 动态频谱接入系统中最佳感知信道选择方法
CN112188503B (zh) 一种应用于蜂窝网络的基于深度强化学习的动态多信道接入方法
CN110856268B (zh) 一种无线网络动态多信道接入方法
CN110972120A (zh) 一种低功耗蓝牙设备多链路管理方法、系统及装置
CN111050413B (zh) 一种基于自适应调整策略的无人机csma接入方法
CN113423110B (zh) 基于深度强化学习的多用户多信道动态频谱接入方法
CN111262638B (zh) 基于高效样本学习的动态频谱接入方法
CN111787543A (zh) 一种基于改进灰狼优化算法的5g通信系统资源分配方法
CN111601398B (zh) 一种基于增强学习的自组织网介质访问控制方法
CN113810910A (zh) 基于深度强化学习的4g与5g网络间动态频谱共享方法
CN114126021A (zh) 一种基于深度强化学习的绿色认知无线电的功率分配方法
CN108282888B (zh) 一种基于改进模糊聚类的d2d资源分配方法
CN117858124A (zh) 一种异构化语义和比特通信网络的多资源优化方法
Yadav et al. Deep Q-network based reinforcement learning for distributed dynamic spectrum access
CN103686755A (zh) 一种认知无线电实现最优传输的在线学习方法
CN111246502B (zh) 一种基于q学习的能量阈值动态优化方法
CN115515101A (zh) 一种用于scma-v2x系统的解耦q学习智能码本选择方法
CN114051280A (zh) 一种基于深度强化学习的csma优化方法
CN111818633B (zh) 星型接入网络中的动态节点接纳方法
CN118400752A (zh) 基于强化学习的固定数据传输dsa方法
CN110719637B (zh) 一种用户活跃下的信号监测及智能化功率分配方法,设备及计算机可读存储介质
CN109714778B (zh) 一种用于认知无线电网络的多选竞争解决方法
CN113207129B (zh) 基于置信区间上界算法与drl算法的动态频谱接入方法
CN113438744B (zh) 一种基于加权式强化学习的分段式退避算法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant