CN114884595A - 一种基于强化学习的认知无人机频谱感知方法 - Google Patents

一种基于强化学习的认知无人机频谱感知方法 Download PDF

Info

Publication number
CN114884595A
CN114884595A CN202210384112.6A CN202210384112A CN114884595A CN 114884595 A CN114884595 A CN 114884595A CN 202210384112 A CN202210384112 A CN 202210384112A CN 114884595 A CN114884595 A CN 114884595A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
action
state
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210384112.6A
Other languages
English (en)
Other versions
CN114884595B (zh
Inventor
李轩衡
张怡冉
吕志远
周炜淋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210384112.6A priority Critical patent/CN114884595B/zh
Publication of CN114884595A publication Critical patent/CN114884595A/zh
Application granted granted Critical
Publication of CN114884595B publication Critical patent/CN114884595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Electromagnetism (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于移动通信技术领域,提供一种基于强化学习的认知无人机频谱感知方法,涉及认知无线电技术,为空闲频谱的高效利用提供了一种有效频谱感知方法。由于无人机具有部署方便、灵活性高等特点,本发明利用无人机搭载认知无线电设备感知网络中的空闲频谱,相比传统基站式感知方法,该方法可以有效对局部地区的频谱进行感知。本发明基于强化学习算法设计最优无人机飞行轨迹,以无人机位置和频谱感知结果为状态,飞行为动作,通过对不同状态下的不同动作进行评估,同时考虑感知的虚警和误警概率,智能化地制定和改进轨迹策略,最大化感知到的空闲频谱带宽。该方法不依靠具体的频谱状态统计模型,无人机飞行感知轨迹可以自适应频谱环境的动态变化。

Description

一种基于强化学习的认知无人机频谱感知方法
技术领域
本发明属于移动通信技术领域,具体涉及一种基于强化学习的认知无人机频谱感知方法。
背景技术
随着5G时代的到来,大量智能终端设备接入移动通信网络,带来了海量数据传输需求,这需要大量的频谱资源作为支撑,频谱短缺已成为移动通信网络发展的痛点问题。
根据频谱监测结果显示,目前网络对频谱的利用率偏低,在不同时间、不同地点都存在大量频谱闲置现象,这与网络对频谱的巨大需求形成强烈矛盾,如何有效挖掘这些频谱空洞并进行合理使用是提高频谱利用效率的关键。
认知无线电能够感知和利用在空间的可用频谱,并限制和降低冲突的发生。频谱感知是认知无线电的重要环节,其通过监听各频带的使用状态,使得认知无线电能够有效捕捉空闲频带,进而实现对空闲频谱的动态占用。频谱使用的主用户被定义为授权用户,是指获得频带使用许可的个人或团体,该发明就是对一定范围内主用户的频谱使用情况进行感知,尽可能多的发现空闲频段,实现对空闲频段的高效利用。目前广泛采用的方法是设置基站来进行频谱感知,或者利用终端设备自己进行频谱感知。如果采用固定基站或移动基站来感知空闲频谱供设备使用的话,由于是一种大范围的粗略感知,难以捕捉局部地区的频谱空洞,会存在利用率较低的缺点。如果采用终端设备自己感知的方法,由于终端设备硬件条件有限,可能会难以承担感知需要的大量能耗。
考虑到无人机具有移动性强、部署能力好、灵活性高等优点,本发明利用无人机搭载认知无线电设备进行频谱感知,以发现网络不同区域的空闲频谱,并将相关信息汇报给基站和终端设备,用于网络中的数据传输。
然而,认知无线电的感知结果有时候会不太准确,可能会把频带实际空闲判断成被占用,也可能把实际被占用判断成空闲。本发明设定频带空闲为0,频带被占用为1。把0判断成1的概率被定义为虚警概率,它与接收的信噪比有关,当信噪比较小时,认知无线电可能会误将噪声判断成信号,造成感知错误。把1判断成0的概率被定义为漏警概率,它与信号功率和判决设置的门限值(门限值是指当信号功率大于该值时,认为有信号存在)有关,当无人机感知设备距离目标频带较远时,可能会因为接收到的信号功率较低,低于设置的接收门限,将实际被占用判断成空闲,造成感知错误。
发明内容
本发明提出了一种基于强化学习的认知无人机频谱感知方法,利用无人机搭载认知无线电设备在网络中飞行,并对各区域频谱进行感知,捕捉空闲频谱供设备动态接入。在实际网络中,由于环境的动态性,不同区域的电磁环境和噪声分布情况各不相同,也会带来不同的虚警概率和漏警概率。同时,不同区域的频谱占用情况不同,且会动态变化。因此,为了最大化无人机在飞行过程中感知到的空闲频谱带宽,本发明设计了基于强化学习的最优无人机飞行轨迹策略,使无人机在与环境的交互过程中不断学习,自适应地规划轨迹,尽可能多的感知空闲频段。为了使无人机尽可能为多个地点进行服务,本发明中加入了Jain平滑指数来提高无人机服务的公平性,避免了无人机只在一个地点或者少数几个地点进行频谱感知的情况。该方法具有更高的现实适用性和更高的频谱感知效率,能够根据不同地点主用户的分布和频谱使用特征更灵活地设计频谱感知策略。
本发明的技术方案:
一种基于强化学习的认知无人机频谱感知方法,
建立于以下系统环境:考虑一个单基站覆盖的蜂窝网络,网络中包含M个主用户,每个主用户占用一个频带,基站覆盖区域内有N个无人机进行频谱感知的位置。无人机的感知半径为r,即在每个感知位置处,无人机只能感知到以该点为中心,r为半径的圆形区域内主用户的频谱情况。在本发明中,无人机会根据强化学习算法自主探索出在N个感知位置间的飞行轨迹,在保证不同地点感知公平性的情况下,尽可能多地发现空闲频带。
具体步骤如下:
第1、定义状态集、动作集和奖励函数。
定义1:将状态定义为s={s1,s2,···,sN,x},表示无人机当前所在位置,在第i个位置时,对应si=1,sj=0(i≠j),x表示在当前位置所感知到的空闲频带数目。
定义2:将动作定义为a={a1,a2,···,an},表示无人机下一个要去往的位置,要去第i个位置时,对应ai=1,aj=0(i≠j)。
定义3:由于无人机电池供电有限,飞行和感知的过程都需要消耗能量,所以每隔一定时间无人机需要回到基站进行充电。在本发明中,无人机每执行完H次动作都会回到基站一次,每H次动作叫做一个执行周期,总执行周期为T,无人机当前所在周期为t(1≤t≤T),无人机在当前周期当前时刻的动作次数为h(0≤h≤H)。
定义4:将B定义为无人机能感知的范围内客观存在的空闲频带数量。由于虚警概率和漏警概率的存在,客观存在的空闲频带数量和无人机实际感知到的空闲频带数量之间存在差别,它们的关系可以表示为:
Figure BDA0003594046630000041
其中
Figure BDA0003594046630000042
为无人机感知的总频带数量,x在定义1中已给出,表示无人机在当前位置实际感知到的空闲频带数量,pd为漏警概率,pf为虚警概率。
定义5:将奖励函数定义为R=B*(1+f),其中B在定义4中指出,f为公平性因子,其表达式为
Figure BDA0003594046630000043
其中k为无人机感知位置标号,取值为1~N,φ(k)为本周期内截至目前无人机飞到第k个感知点进行频谱感知的次数。
第2、基于步骤1中定义的状态集、动作集和奖励函数,无人机在每次处于某个状态下执行某个动作结束之后都会对该状态下执行该动作进行评价,亦称为Q值,随着算法逐渐收敛,Q值将指导无人机在动态环境下选择最优动作,具体步骤如下:
第2.1、为了记录所有“状态-动作”的Q值,建立二维Q表,横纵坐标分别设为状态s和动作a并将所有值初始化为0。
第2.2、无人机根据当前状态,遵循如下方式选择飞行动作:以1-ε概率选择Q表对应状态s下的所有动作中Q值最大的动作,即
Figure BDA0003594046630000044
A表示所有动作对应的动作空间集合,以概率ε随机选择动作。其中ε为贪婪系数,ε越大,意味着对环境探索的概率越大。执行完动作后,无人机在该地点以扫频的方式感知周围的空闲频带数,得到定义1中的x。无人机在这一执行周期内当前时刻的动作次数h加1,若总次数达到H,则进入下一周期,将t加1,并将h初始化为0。
第2.3、动作结束后,基于定义5计算其在对应状态下执行该动作的奖励值,并得到该动作结束时的状态s'。
第2.4、根据奖励值更新Q表中对应的“状态-动作”Q值,对于每一个状态s下做出动作a的Q值更新公式如下:
Figure BDA0003594046630000051
其中α为学习率,范围是0~1,它表示得到的奖励对Q值更新的影响程度,较小时表示得到的奖励对Q值更新影响较小,即学到信息较少。η为折扣因子,范围是0~1,它表示预期奖励对奖励的影响程度,较小即接近0时表现为重视短期奖励,较大即接近1时表现为重视预期奖励。
第2.5、更新状态,令s=s'。
第2.6、重复2.2-2.5,直至无人机进行完T个执行周期。
综上,无人机将在观察到的状态下持续执行动作,与环境不断进行交互,并通过在此过程中获得的奖励值进行学习。在训练的初始阶段,无人机会设置较大的探索率ε去保证对未知环境的探索,随着其不断地与环境进行交互,探索率会逐渐下降,训练的网络也将逐渐收敛,最终找到最优的飞行轨迹。
本发明的效果和益处:
(1)面对复杂多变的频谱环境,与设置固定或移动基站频谱感知和终端设备自行感知相比,无人机可以更高效地捕捉局部地区出现的空闲频谱,且能够更灵活的改变感知频谱的位置,在频谱变化的环境中及时作出反应,效率更高的完成空闲频带检测的任务。
(2)本发明利用了强化学习方法来为无人机频谱感知设计精确自主高效的感知轨迹,使得无人机在感知过程中可以自适应频谱的动态变化,最大化网络空闲频带利用效率,满足频谱利用的实效性。
(3)本发明考虑了频谱感知中因虚警概率和漏警概率存在而导致的误差问题,通过引入虚警误警概率的计算,能够尽可能增强无人机的感知结果的稳健性,减小可能产生的误判带来的影响,引导无人机更为准确地适应真实频谱状况的感知。
具体实施方式
下面结合具体实施例详细阐述本发明具体实施方式,本发明方法并不局限于该具体实施例。考虑一个单基站覆盖的蜂窝网络,网络半径500m,网络中包含100个主用户,基站覆盖区域内有10个无人机进行频谱感知的位置,位置标号k为1~10。无人机感知半径为R=50m,令无人机服务20个地点为一个执行周期,设置无人机总执行周期数为100。本发明方法的具体步骤如下:
1、将无人机进行频谱感知位置各放置一个计数器,记录本周期内截至目前无人机飞到第k个感知点进行频谱感知的次数φ(k),并初始化为1,动作选择概率初始化为ε=0.9,学习率α=0.9,折扣因子η=0.8,针对所有“状态-动作”对建立二维Q表,初始化Q表中所有值为0。
2、选择飞行动作,遵循如下方式:以概率1-ε选择Q表对应状态s下的所有动作中Q值最大的动作,即
Figure BDA0003594046630000061
以概率ε随机选择动作。根据执行周期数t更新ε:令ε=0.9-0.009*t。
3、基于定义5计算其在对应状态下的奖励值,并得到该动作结束时的状态s'。
4、根据公式(1)更新Q表中对应的“状态-动作”Q值;
5、重复步骤2-4,直至执行周期数t达到100,任务结束。
本发明方法整体实施步骤总结如下表所示:
Figure BDA0003594046630000062
Figure BDA0003594046630000071

Claims (1)

1.一种基于强化学习的认知无人机频谱感知方法,其特征在于,步骤如下:
(1)定义状态集、动作集和奖励函数
定义1:将状态定义为s={s1,s2,···,sN,x},表示无人机当前所在位置,在第i个位置时,对应si=1,sj=0,i≠j,x表示在当前位置所感知到的空闲频带数目;
定义2:将动作定义为a={a1,a2,···,aN},表示无人机下一个要去往的位置,要去第i个位置时,对应ai=1,aj=0,i≠j;
定义3:由于无人机电池供电有限,飞行和感知的过程都需要消耗能量,所以每隔一定时间无人机需要回到基站进行充电;在本方法中,无人机每执行完H次动作都会回到基站一次,每H次动作叫做一个执行周期,总执行周期为T,无人机当前所在周期为t,1≤t≤T,无人机在当前周期当前时刻的动作次数为h,0≤h≤H;
定义4:将B定义为无人机能感知的范围内客观存在的空闲频带数量;由于虚警概率和漏警概率的存在,客观存在的空闲频带数量和无人机实际感知到的空闲频带数量之间存在差别,它们的关系表示为:
Figure FDA0003594046620000011
其中
Figure FDA0003594046620000012
为无人机感知的总频带数量,pd为漏警概率,pf为虚警概率;
定义5:将奖励函数定义为R=B*(1+f),f为公平性因子,其表达式为
Figure FDA0003594046620000013
其中k为无人机感知位置标号,取值为1~N,φ(k)为本周期内截至目前无人机飞到第k个感知点进行频谱感知的次数;
(2)基于步骤1中定义的状态集、动作集和奖励函数,无人机在每次处于某个状态下执行某个动作结束之后都会对该状态下执行该动作进行评价,亦称为Q值,随着算法逐渐收敛,Q值将指导无人机在动态环境下选择最优动作:
(2.1)为了记录所有“状态-动作”的Q值,建立二维Q表,横纵坐标分别设为状态s和动作a并将所有值初始化为0;
(2.2)无人机根据当前状态,遵循如下方式选择飞行动作:以1-ε概率选择Q表对应状态s下的所有动作中Q值最大的动作,即
Figure FDA0003594046620000021
A表示所有动作对应的动作空间集合,以概率ε随机选择动作;其中,ε为贪婪系数,ε越大,意味着对环境探索的概率越大;执行完动作后,无人机在该地点以扫频的方式感知周围的空闲频带数,得到定义1中的x;无人机在这一执行周期内当前时刻的动作次数h加1,若总次数达到H,则进入下一周期,将t加1,并将h初始化为0;
(2.3)动作结束后,基于定义5计算其在对应状态下执行该动作的奖励值,并得到该动作结束时的状态s';
(2.4)根据奖励值更新Q表中对应的“状态-动作”Q值,对于每一个状态s下做出动作a的Q值更新公式如下:
Figure FDA0003594046620000022
其中,α为学习率,范围是0~1,它表示得到的奖励对Q值更新的影响程度,较小时表示得到的奖励对Q值更新影响较小,即学到信息较少;η为折扣因子,范围是0~1,它表示预期奖励对奖励的影响程度,较小即接近0时表现为重视短期奖励,较大即接近1时表现为重视预期奖励;
(2.5)更新状态,令s=s';
(2.6)重复(2.2)-(2.5),直至无人机进行完T个执行周期。
CN202210384112.6A 2022-04-13 2022-04-13 一种基于强化学习的认知无人机频谱感知方法 Active CN114884595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210384112.6A CN114884595B (zh) 2022-04-13 2022-04-13 一种基于强化学习的认知无人机频谱感知方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210384112.6A CN114884595B (zh) 2022-04-13 2022-04-13 一种基于强化学习的认知无人机频谱感知方法

Publications (2)

Publication Number Publication Date
CN114884595A true CN114884595A (zh) 2022-08-09
CN114884595B CN114884595B (zh) 2023-01-03

Family

ID=82669515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210384112.6A Active CN114884595B (zh) 2022-04-13 2022-04-13 一种基于强化学习的认知无人机频谱感知方法

Country Status (1)

Country Link
CN (1) CN114884595B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704823A (zh) * 2023-06-12 2023-09-05 大连理工大学 基于强化学习的无人机智能轨迹规划和通感资源分配方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190208112A1 (en) * 2017-01-23 2019-07-04 DGS Global Systems, Inc. Systems, methods, and devices for unmanned vehicle detection
CN111432433A (zh) * 2020-03-04 2020-07-17 大连理工大学 基于强化学习的无人机中继智能流量卸载方法
CN111786711A (zh) * 2020-05-29 2020-10-16 中国人民解放军空军工程大学 一种基于无人机边缘计算的高效能频谱感知方法、系统及应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190208112A1 (en) * 2017-01-23 2019-07-04 DGS Global Systems, Inc. Systems, methods, and devices for unmanned vehicle detection
CN111432433A (zh) * 2020-03-04 2020-07-17 大连理工大学 基于强化学习的无人机中继智能流量卸载方法
CN111786711A (zh) * 2020-05-29 2020-10-16 中国人民解放军空军工程大学 一种基于无人机边缘计算的高效能频谱感知方法、系统及应用

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HONGYI SUN等: "A Cost-Efficient Skipping Based Spectrum Sensing Scheme Via Reinforcement Learning", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
XIAOPENG LIANG等: "Joint Trajectory Optimization and Spectrum Access for Cognitive UAV Networks", 《IEEE ACCESS》 *
张宏伟等: "基于协作频谱感知的多无人机通信网络谱效优化研究", 《北京理工大学学报》 *
张曾等: "基于信噪比估计的无人机频谱感知算法", 《现代电子技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116704823A (zh) * 2023-06-12 2023-09-05 大连理工大学 基于强化学习的无人机智能轨迹规划和通感资源分配方法
CN116704823B (zh) * 2023-06-12 2023-12-19 大连理工大学 基于强化学习的无人机智能轨迹规划和通感资源分配方法

Also Published As

Publication number Publication date
CN114884595B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
Yang et al. Machine learning techniques and a case study for intelligent wireless networks
Thilina et al. Machine learning techniques for cooperative spectrum sensing in cognitive radio networks
CN102546059B (zh) 认知自组织网络中基于无监督聚类的分布式合作频谱感知方法
CN101711032B (zh) 对未知环境模型特性的认知无线电动态智能频谱接入方法
Elnahas et al. Game theoretic approaches for cooperative spectrum sensing in energy-harvesting cognitive radio networks
CN108242961B (zh) 基于集成学习的全双工认知无线电网络合作频谱感知方法
CN105682224B (zh) 一种免离线训练的分布式无线指纹定位方法
CN101610567A (zh) 一种基于无线传感器网络的动态群组调度方法
CN105263149B (zh) 移动无线传感器网络中节点自适应分布式重聚类方法
Mustapha et al. An energy efficient reinforcement learning based cooperative channel sensing for cognitive radio sensor networks
CN102883429B (zh) 基于定向天线的传感器网络内移动物体跟踪方法及装置
Balieiro et al. A multi-objective genetic optimization for spectrum sensing in cognitive radio
Cao et al. Energy-efficient cooperative spectrum sensing strategy for cognitive wireless sensor networks based on particle swarm optimization
CN113779247B (zh) 基于意图驱动的网络故障诊断方法及系统
Rajaguru et al. A hybrid spectrum sensing approach to select suitable spectrum band for cognitive users
CN113283169B (zh) 一种基于多头注意力异步强化学习的三维群体探索方法
CN114884595B (zh) 一种基于强化学习的认知无人机频谱感知方法
CN113365323A (zh) 一种用于无线传感网络中的低能耗多径传输方法
Gao et al. Deep learning based location prediction with multiple features in communication network
Li et al. Mobile user location prediction based on user classification and markov model
Zheng et al. A hybrid communication scheme for throughput maximization in backscatter-aided energy harvesting cognitive radio networks
CN103428724A (zh) 基于地理位置信息的频谱资源协作接入方法和系统
CN113141616A (zh) O+b域数据+业务场景自适应识别的节能基站选择及节能模式选取的方法、装置和系统
CN114980156A (zh) 一种无蜂窝毫米波大规模mimo系统的ap开关切换方法
Chen et al. Support vector machine based mobility prediction scheme in heterogeneous wireless networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant