CN114884595A

CN114884595A - 一种基于强化学习的认知无人机频谱感知方法

Info

Publication number: CN114884595A
Application number: CN202210384112.6A
Authority: CN
Inventors: 李轩衡; 张怡冉; 吕志远; 周炜淋
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-08-09
Anticipated expiration: 2042-04-13
Also published as: CN114884595B

Abstract

本发明属于移动通信技术领域，提供一种基于强化学习的认知无人机频谱感知方法，涉及认知无线电技术，为空闲频谱的高效利用提供了一种有效频谱感知方法。由于无人机具有部署方便、灵活性高等特点，本发明利用无人机搭载认知无线电设备感知网络中的空闲频谱，相比传统基站式感知方法，该方法可以有效对局部地区的频谱进行感知。本发明基于强化学习算法设计最优无人机飞行轨迹，以无人机位置和频谱感知结果为状态，飞行为动作，通过对不同状态下的不同动作进行评估，同时考虑感知的虚警和误警概率，智能化地制定和改进轨迹策略，最大化感知到的空闲频谱带宽。该方法不依靠具体的频谱状态统计模型，无人机飞行感知轨迹可以自适应频谱环境的动态变化。

Description

一种基于强化学习的认知无人机频谱感知方法

技术领域

本发明属于移动通信技术领域，具体涉及一种基于强化学习的认知无人机频谱感知方法。

背景技术

随着5G时代的到来，大量智能终端设备接入移动通信网络，带来了海量数据传输需求，这需要大量的频谱资源作为支撑，频谱短缺已成为移动通信网络发展的痛点问题。

根据频谱监测结果显示，目前网络对频谱的利用率偏低，在不同时间、不同地点都存在大量频谱闲置现象，这与网络对频谱的巨大需求形成强烈矛盾，如何有效挖掘这些频谱空洞并进行合理使用是提高频谱利用效率的关键。

认知无线电能够感知和利用在空间的可用频谱，并限制和降低冲突的发生。频谱感知是认知无线电的重要环节，其通过监听各频带的使用状态，使得认知无线电能够有效捕捉空闲频带，进而实现对空闲频谱的动态占用。频谱使用的主用户被定义为授权用户，是指获得频带使用许可的个人或团体，该发明就是对一定范围内主用户的频谱使用情况进行感知，尽可能多的发现空闲频段，实现对空闲频段的高效利用。目前广泛采用的方法是设置基站来进行频谱感知，或者利用终端设备自己进行频谱感知。如果采用固定基站或移动基站来感知空闲频谱供设备使用的话，由于是一种大范围的粗略感知，难以捕捉局部地区的频谱空洞，会存在利用率较低的缺点。如果采用终端设备自己感知的方法，由于终端设备硬件条件有限，可能会难以承担感知需要的大量能耗。

考虑到无人机具有移动性强、部署能力好、灵活性高等优点，本发明利用无人机搭载认知无线电设备进行频谱感知，以发现网络不同区域的空闲频谱，并将相关信息汇报给基站和终端设备，用于网络中的数据传输。

然而，认知无线电的感知结果有时候会不太准确，可能会把频带实际空闲判断成被占用，也可能把实际被占用判断成空闲。本发明设定频带空闲为0，频带被占用为1。把0判断成1的概率被定义为虚警概率，它与接收的信噪比有关，当信噪比较小时，认知无线电可能会误将噪声判断成信号，造成感知错误。把1判断成0的概率被定义为漏警概率，它与信号功率和判决设置的门限值(门限值是指当信号功率大于该值时，认为有信号存在)有关，当无人机感知设备距离目标频带较远时，可能会因为接收到的信号功率较低，低于设置的接收门限，将实际被占用判断成空闲，造成感知错误。

发明内容

本发明提出了一种基于强化学习的认知无人机频谱感知方法，利用无人机搭载认知无线电设备在网络中飞行，并对各区域频谱进行感知，捕捉空闲频谱供设备动态接入。在实际网络中，由于环境的动态性，不同区域的电磁环境和噪声分布情况各不相同，也会带来不同的虚警概率和漏警概率。同时，不同区域的频谱占用情况不同，且会动态变化。因此，为了最大化无人机在飞行过程中感知到的空闲频谱带宽，本发明设计了基于强化学习的最优无人机飞行轨迹策略，使无人机在与环境的交互过程中不断学习，自适应地规划轨迹，尽可能多的感知空闲频段。为了使无人机尽可能为多个地点进行服务，本发明中加入了Jain平滑指数来提高无人机服务的公平性，避免了无人机只在一个地点或者少数几个地点进行频谱感知的情况。该方法具有更高的现实适用性和更高的频谱感知效率，能够根据不同地点主用户的分布和频谱使用特征更灵活地设计频谱感知策略。

本发明的技术方案：

一种基于强化学习的认知无人机频谱感知方法，

建立于以下系统环境：考虑一个单基站覆盖的蜂窝网络，网络中包含M个主用户，每个主用户占用一个频带，基站覆盖区域内有N个无人机进行频谱感知的位置。无人机的感知半径为r，即在每个感知位置处，无人机只能感知到以该点为中心，r为半径的圆形区域内主用户的频谱情况。在本发明中，无人机会根据强化学习算法自主探索出在N个感知位置间的飞行轨迹，在保证不同地点感知公平性的情况下，尽可能多地发现空闲频带。

具体步骤如下：

第1、定义状态集、动作集和奖励函数。

定义1：将状态定义为s＝{s₁,s₂,···,s_N,x}，表示无人机当前所在位置，在第i个位置时，对应s_i＝1,s_j＝0(i≠j)，x表示在当前位置所感知到的空闲频带数目。

定义2：将动作定义为a＝{a₁,a₂,···,a_n}，表示无人机下一个要去往的位置，要去第i个位置时，对应a_i＝1,a_j＝0(i≠j)。

定义3：由于无人机电池供电有限，飞行和感知的过程都需要消耗能量，所以每隔一定时间无人机需要回到基站进行充电。在本发明中，无人机每执行完H次动作都会回到基站一次，每H次动作叫做一个执行周期，总执行周期为T，无人机当前所在周期为t(1≤t≤T)，无人机在当前周期当前时刻的动作次数为h(0≤h≤H)。

定义4：将B定义为无人机能感知的范围内客观存在的空闲频带数量。由于虚警概率和漏警概率的存在，客观存在的空闲频带数量和无人机实际感知到的空闲频带数量之间存在差别，它们的关系可以表示为：

其中

为无人机感知的总频带数量，x在定义1中已给出，表示无人机在当前位置实际感知到的空闲频带数量，p_d为漏警概率，p_f为虚警概率。

定义5：将奖励函数定义为R＝B*(1+f)，其中B在定义4中指出，f为公平性因子，其表达式为

其中k为无人机感知位置标号，取值为1～N，φ(k)为本周期内截至目前无人机飞到第k个感知点进行频谱感知的次数。

第2、基于步骤1中定义的状态集、动作集和奖励函数，无人机在每次处于某个状态下执行某个动作结束之后都会对该状态下执行该动作进行评价，亦称为Q值，随着算法逐渐收敛，Q值将指导无人机在动态环境下选择最优动作，具体步骤如下：

第2.1、为了记录所有“状态-动作”的Q值，建立二维Q表，横纵坐标分别设为状态s和动作a并将所有值初始化为0。

第2.2、无人机根据当前状态，遵循如下方式选择飞行动作：以1-ε概率选择Q表对应状态s下的所有动作中Q值最大的动作，即

A表示所有动作对应的动作空间集合，以概率ε随机选择动作。其中ε为贪婪系数，ε越大，意味着对环境探索的概率越大。执行完动作后，无人机在该地点以扫频的方式感知周围的空闲频带数，得到定义1中的x。无人机在这一执行周期内当前时刻的动作次数h加1，若总次数达到H，则进入下一周期，将t加1，并将h初始化为0。

第2.3、动作结束后，基于定义5计算其在对应状态下执行该动作的奖励值，并得到该动作结束时的状态s'。

第2.4、根据奖励值更新Q表中对应的“状态-动作”Q值，对于每一个状态s下做出动作a的Q值更新公式如下：

其中α为学习率，范围是0～1，它表示得到的奖励对Q值更新的影响程度，较小时表示得到的奖励对Q值更新影响较小，即学到信息较少。η为折扣因子，范围是0～1，它表示预期奖励对奖励的影响程度，较小即接近0时表现为重视短期奖励，较大即接近1时表现为重视预期奖励。

第2.5、更新状态，令s＝s'。

第2.6、重复2.2-2.5，直至无人机进行完T个执行周期。

综上，无人机将在观察到的状态下持续执行动作，与环境不断进行交互，并通过在此过程中获得的奖励值进行学习。在训练的初始阶段，无人机会设置较大的探索率ε去保证对未知环境的探索，随着其不断地与环境进行交互，探索率会逐渐下降，训练的网络也将逐渐收敛，最终找到最优的飞行轨迹。

本发明的效果和益处：

(1)面对复杂多变的频谱环境，与设置固定或移动基站频谱感知和终端设备自行感知相比，无人机可以更高效地捕捉局部地区出现的空闲频谱，且能够更灵活的改变感知频谱的位置，在频谱变化的环境中及时作出反应，效率更高的完成空闲频带检测的任务。

(2)本发明利用了强化学习方法来为无人机频谱感知设计精确自主高效的感知轨迹，使得无人机在感知过程中可以自适应频谱的动态变化，最大化网络空闲频带利用效率，满足频谱利用的实效性。

(3)本发明考虑了频谱感知中因虚警概率和漏警概率存在而导致的误差问题，通过引入虚警误警概率的计算，能够尽可能增强无人机的感知结果的稳健性，减小可能产生的误判带来的影响，引导无人机更为准确地适应真实频谱状况的感知。

具体实施方式

下面结合具体实施例详细阐述本发明具体实施方式，本发明方法并不局限于该具体实施例。考虑一个单基站覆盖的蜂窝网络，网络半径500m，网络中包含100个主用户，基站覆盖区域内有10个无人机进行频谱感知的位置，位置标号k为1～10。无人机感知半径为R＝50m，令无人机服务20个地点为一个执行周期，设置无人机总执行周期数为100。本发明方法的具体步骤如下：

1、将无人机进行频谱感知位置各放置一个计数器，记录本周期内截至目前无人机飞到第k个感知点进行频谱感知的次数φ(k)，并初始化为1，动作选择概率初始化为ε＝0.9，学习率α＝0.9，折扣因子η＝0.8，针对所有“状态-动作”对建立二维Q表，初始化Q表中所有值为0。

2、选择飞行动作，遵循如下方式：以概率1-ε选择Q表对应状态s下的所有动作中Q值最大的动作，即

以概率ε随机选择动作。根据执行周期数t更新ε：令ε＝0.9-0.009*t。

3、基于定义5计算其在对应状态下的奖励值，并得到该动作结束时的状态s'。

4、根据公式(1)更新Q表中对应的“状态-动作”Q值；

5、重复步骤2-4，直至执行周期数t达到100，任务结束。

本发明方法整体实施步骤总结如下表所示：

Claims

1.一种基于强化学习的认知无人机频谱感知方法，其特征在于，步骤如下：

(1)定义状态集、动作集和奖励函数

定义1：将状态定义为s＝{s₁,s₂,···,s_N,x}，表示无人机当前所在位置，在第i个位置时，对应s_i＝1,s_j＝0,i≠j，x表示在当前位置所感知到的空闲频带数目；

定义2：将动作定义为a＝{a₁,a₂,···,a_N}，表示无人机下一个要去往的位置，要去第i个位置时，对应a_i＝1,a_j＝0,i≠j；

定义3：由于无人机电池供电有限，飞行和感知的过程都需要消耗能量，所以每隔一定时间无人机需要回到基站进行充电；在本方法中，无人机每执行完H次动作都会回到基站一次，每H次动作叫做一个执行周期，总执行周期为T，无人机当前所在周期为t,1≤t≤T，无人机在当前周期当前时刻的动作次数为h，0≤h≤H；

定义4：将B定义为无人机能感知的范围内客观存在的空闲频带数量；由于虚警概率和漏警概率的存在，客观存在的空闲频带数量和无人机实际感知到的空闲频带数量之间存在差别，它们的关系表示为：

其中

为无人机感知的总频带数量，p_d为漏警概率，p_f为虚警概率；

定义5：将奖励函数定义为R＝B*(1+f)，f为公平性因子，其表达式为

其中k为无人机感知位置标号，取值为1～N，φ(k)为本周期内截至目前无人机飞到第k个感知点进行频谱感知的次数；

(2)基于步骤1中定义的状态集、动作集和奖励函数，无人机在每次处于某个状态下执行某个动作结束之后都会对该状态下执行该动作进行评价，亦称为Q值，随着算法逐渐收敛，Q值将指导无人机在动态环境下选择最优动作：

(2.1)为了记录所有“状态-动作”的Q值，建立二维Q表，横纵坐标分别设为状态s和动作a并将所有值初始化为0；

(2.2)无人机根据当前状态，遵循如下方式选择飞行动作：以1-ε概率选择Q表对应状态s下的所有动作中Q值最大的动作，即

A表示所有动作对应的动作空间集合，以概率ε随机选择动作；其中，ε为贪婪系数，ε越大，意味着对环境探索的概率越大；执行完动作后，无人机在该地点以扫频的方式感知周围的空闲频带数，得到定义1中的x；无人机在这一执行周期内当前时刻的动作次数h加1，若总次数达到H，则进入下一周期，将t加1，并将h初始化为0；

(2.3)动作结束后，基于定义5计算其在对应状态下执行该动作的奖励值，并得到该动作结束时的状态s'；

(2.4)根据奖励值更新Q表中对应的“状态-动作”Q值，对于每一个状态s下做出动作a的Q值更新公式如下：

其中，α为学习率，范围是0～1，它表示得到的奖励对Q值更新的影响程度，较小时表示得到的奖励对Q值更新影响较小，即学到信息较少；η为折扣因子，范围是0～1，它表示预期奖励对奖励的影响程度，较小即接近0时表现为重视短期奖励，较大即接近1时表现为重视预期奖励；

(2.5)更新状态，令s＝s'；

(2.6)重复(2.2)-(2.5)，直至无人机进行完T个执行周期。