CN112367131A

CN112367131A - 基于强化学习的跳跃式频谱感知方法

Info

Publication number: CN112367131A
Application number: CN202011067956.5A
Authority: CN
Inventors: 李轩衡; 董一锋; 张雨浩; 孙弘毅; 张仁浩; 丁海川
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-10-08
Filing date: 2020-10-08
Publication date: 2021-02-12
Anticipated expiration: 2040-10-08
Also published as: CN112367131B

Abstract

本发明提供了一种基于强化学习的跳跃式频谱感知方法，属于无线通信领域，特别涉及认知无线电技术，为频谱的动态接入提供了一种低开销、智能化的频谱感知方法。考虑频谱空闲状态的持续特性，该方法允许设备在接入信道时跳过部分感知时隙，相比传统周期型感知策略，其可以减小感知开销，提高传输效率。该方法采用强化学习算法，以信道占用情况为状态，信道选择及感知跳过时隙为动作，通过对不同状态下的不同动作进行评估，设备能够智能化地制定最优策略。该方法不依赖具体的频谱状态统计模型，设备可以通过对环境的学习自适应的确定最优接入和感知策略。

Description

基于强化学习的跳跃式频谱感知方法

技术领域

本发明属于无线通信技术领域，涉及一种基于强化学习算法的跳跃式频谱感知方法，特别涉及到认知无线电与动态频谱接入。

背景技术

近年来，随着物联网的快速发展，移动无线网络所需要承载的数据量与日俱增，频谱逐渐成为一种稀缺且重要的自然资源。认知无线电技术能够通过频谱感知和动态频谱接入，在不影响频谱拥有者(主用户)使用的前提下，允许次用户接入空闲频带，从而有效利用空闲频谱资源，提升频谱利用效率，扩充网络容量，被视为移动无线网络未来重要的使能技术之一。

频谱感知是认知无线电实现动态频谱接入的重要环节，其通过监听各频带的使用状态，使得认知无线电能够有效捕捉空闲频带，进而实现对空闲频谱的动态占用。目前广泛采用的方法主要是基于周期式的频谱感知，即将整个传输过程分为多个等长时隙，每个时隙都进行一次感知操作以确认频谱状态，依此执行接入或断开操作。在每个时隙传输前均进行感知虽然可以有效控制次用户对主用户的干扰，但频繁的频谱感知会缩减传输数据的时间，影响传输的有效性，同时也会带来巨大的感知能耗开销。

大量频谱监测结果表明，频谱占用状态通常具有连续性，即其一旦处于空闲状态，则该状态将大概率持续一段时间。因此，若能够有效捕捉空闲状态的持续特性，就能够在传输过程中避免某些时隙的感知操作，而是对部分时隙更有针对性的进行频谱感知，从而降低感知所带来的能量和时间开销，提高传输效率。

强化学习属于机器学习的一个重要分支，其可以使智能体对过去行为及执行结果进行知识积累，从而学习到环境的动态特性，并依此制定最优策略。本发明基于强化学习算法为认知无线电的动态频谱接入设计跳跃式的频谱感知方法。该方法对频谱环境没有特别要求，能够自适应地捕获空闲状态的持续特性，有效降低感知开销，大幅度提高认知无线电的数据传输效率。

发明内容

本发明基于强化学习算法提出一种跳跃式的频谱感知方法，根据频谱空闲状态的持续特性，在每次接入和感知结束之后跳过一段时间再进行接入和感知，相比周期式的传统感知方法，该方法具有更高的传输效率和更低的感知开销。

本发明针对一对认知无线电收发机，假设有M个信道可用，发射机受硬件条件限制最多可同时感知和接入N个信道(N≤M)，基于强化学习发明的跳跃式频谱感知方法具体步骤如下：

第1、定义状态集、动作集、动作结束判断原则和奖励函数。

定义1：对于任意时隙，发射机的状态集定义为

包括设备接入和感知的信道编号

以及对应第

个信道的状态

其中0表示信道空闲，1表示信道被占用，i＝[1,2…,N]。

定义2：对于任意时隙，发射机的动作集a＝{ν,γ}，其中ν∈{1,…,M}表示选择接入和感知的信道编号，γ∈{1，…ω_max}表示选择跳过感知的时隙数，ω_max为发射机可跳过时隙数的最大值。

定义3：定义两个判断动作是否结束的原则：1、接入的某个信道在感知跳过期间一直空闲，即设备成功跳过所选择的感知时隙。2、设备未能成功跳过所选跳过感知时隙，即在跳过感知的过程中信道被主用户占用，产生冲突。当上述两种原则任意一种发生时，认为对应动作结束。

定义4：奖励函数定义为

其中δ＝0表示成功传输即定义3的原则1，δ＝1表示传输失败即定义3的原则2。目的是在成功传输时给予一个正的奖励值，传输失败时则给予一个负的奖励值。

表示在情况1时跳过的时隙数越多，节省的感知开销越多，奖励值越大；在情况2时跳过的时隙数越多，对主用户造成的影响可能越大，即奖励值应该越小。B_ν表示信道ν的带宽。

第2、基于步骤1中定义的状态集、动作集、动作结束判断原则和奖励函数，发射机在每次处于某个状态下执行某个动作结束之后都会对该状态下执行该动作进行评价，亦称为Q值，随着算法逐渐收敛，Q值将指导发射机在动态环境下选择最优动作，具体步骤如下：

第2.1、为了记录所有“状态-动作”的Q值，建立二维Q表，并将所有值初始化为0。假设初始化状态为全部信道空闲。

第2.2、判断目前接入的信道数量，若接入Z个，则需要选择N-Z个动作执行，即选择N-Z个信道接入。对于每个动作选择，遵循如下方式：以概率1-ε选择Q表对应状态s下的所有动作中Q值最大的动作，即

(已经接入的信道排除在外)；以概率ε随机选择动作。该选择执行N-Z次，确定N-Z个接入信道。

第2.3、执行步骤2.2中选择的动作a。设备感知第ν个信道，若该信道空闲，则接入该信道，同时在接下来的γ个时隙持续接入该信道并不执行感知；若该信道被占用，则不接入该信道。

第2.4、对于任意接入频带，基于定义3中的原则判断是否有动作结束。对于结束的动作基于定义4计算其在对应状态下的奖励值，并得到该动作结束时的状态s'，s'中的

和

即为在此时设备接入的信道的编号和其对应的占用情况。

第2.5、根据奖励值更新Q表中对应的“状态-动作”Q值，对于每一个状态s下做出动作a的Q值更新公式如下：

其中α为学习率，η为折扣因子。

第2.6、重复2.2-2.5，直到传输任务结束。

本发明的有益效果在于：

(1)本发明的方法可以使设备跳过部分感知过程，相比传统的周期式频谱感知方法，本发明能够减少不必要的感知次数，从而减少感知开销，提高数据传输效率。

(2)本发明设计了一种基于强化学习的方法，相比于传统的基于模型的方法，本发明使得设备能够根据动态变化的环境自适应地进行频带选择和接入时长选择，克服了环境动态性对策略制定带来的难题。

具体实施方式

下面结合具体实施例详细阐述本发明具体实施方式，本发明方法并不局限于该具体实施例。考虑一对认知无线电收发机构成的时隙系统，有4个信道供动态接入，发射机可从中选择2个信道进行数据传输。设置最大跳过时隙数为5。本发明方法的具体步骤如下：

1、针对所有“状态-动作”对建立Q表，初始化Q表中所有值为0，设定初始状态为4个信道全部空闲；

2、选择2个信道接入，选择方式如下：以概率1-ε选择Q表对应状态s下的所有动作中Q值最大的动作，即

以概率ε随机选择一个动作。该操作执行2次，第二次执行时，第一次选择的信道被排除在外；

3、执行动作，根据定义3判断动作是否结束，对于每一个结束的动作计算其奖励值；

4、根据奖励值更新Q表中对应的“状态-动作”Q值；

5、判断步骤3中有几个动作结束，若1个，则需要选择1个新的动作，若2个，则需要选择2个新的动作，选择方式同步骤2。更新概率ε；

6、重复步骤3-5，直至任务结束。

本发明方法整体实施步骤总结如下表所示：

Claims

1.一种基于强化学习的跳跃式频谱感知方法，其特征在于，与已有的周期性频谱感知方法不同，设备在感知信道的同时会决定在接下来的一段时间不感知信道，从而大幅度减小感知开销；具体步骤如下：

(1)定义状态集、动作集、动作结束判断原则和奖励函数

定义1：对于任意时隙，发射机的状态集定义为

包括设备接入和感知的信道编号

以及对应第

个信道的状态

其中0表示信道空闲，1表示信道被占用，i＝[1,2…,N]；

定义2：对于任意时隙，发射机的动作集a＝{ν,γ}，其中ν∈{1,…,M}表示选择接入和感知的信道编号，γ∈{1，…ω_max}表示选择跳过感知的时隙数，ω_max为发射机可跳过时隙数的最大值；

定义3：定义两个判断动作是否结束的原则：1)接入的某个信道在感知跳过期间一直空闲，即设备成功跳过所选择的感知时隙；2)设备未能成功跳过所选跳过感知时隙，即在跳过感知的过程中信道被主用户占用，产生冲突；当上述两种原则任意一种发生时，认为对应动作结束；

定义4：奖励函数定义为

其中δ＝0表示成功传输即定义3的原则1)，δ＝1表示传输失败即定义3的原则2)目的是在成功传输时给予一个正的奖励值，传输失败时则给予一个负的奖励值；

表示在情况1时跳过的时隙数越多，节省的感知开销越多，奖励值越大；在情况2时跳过的时隙数越多，对主用户造成的影响可能越大，即奖励值应该越小；B_ν表示信道ν的带宽；

(2)基于步骤(1)中定义的状态集、动作集、动作结束判断原则和奖励函数，发射机在每次处于某个状态下执行某个动作结束之后都会对该状态下执行该动作进行评价，亦称为Q值，随着算法逐渐收敛，Q值将指导发射机在动态环境下选择最优动作；

(2.1)为了记录所有“状态-动作”的Q值，建立二维Q表，并将所有值初始化为0；假设初始化状态为全部信道空闲；

(2.2)判断目前接入的信道数量，若接入Z个，则需要选择N-Z个动作执行，即选择N-Z个信道接入；对于每个动作选择，遵循如下方式：以概率1-ε选择Q表对应状态s下的所有动作中Q值最大的动作，即

以概率ε随机选择动作；该选择执行N-Z次，确定N-Z个接入信道；

(2.3)执行步骤(2.2)中选择的动作a；设备感知第ν个信道，若该信道空闲，则接入该信道，同时在接下来的γ个时隙持续接入该信道并不执行感知；若该信道被占用，则不接入该信道；

(2.4)对于任意接入频带，基于定义3中的原则判断是否有动作结束；对于结束的动作基于定义4计算其在对应状态下的奖励值，并得到该动作结束时的状态s'，s'中的

和

即为在此时设备接入的信道的编号和其对应的占用情况；

(2.5)根据奖励值更新Q表中对应的“状态-动作”Q值，对于每一个状态s下做出动作a的Q值更新公式如下：

其中α为学习率，η为折扣因子；

(2.6)重复步骤(2.2)-(2.5)，直到传输任务结束。