CN111381499A - 基于三维空间射频地图学习的网联飞行器自适应控制方法 - Google Patents

基于三维空间射频地图学习的网联飞行器自适应控制方法 Download PDF

Info

Publication number
CN111381499A
CN111381499A CN202010160686.6A CN202010160686A CN111381499A CN 111381499 A CN111381499 A CN 111381499A CN 202010160686 A CN202010160686 A CN 202010160686A CN 111381499 A CN111381499 A CN 111381499A
Authority
CN
China
Prior art keywords
radio frequency
frequency map
aircraft
dimensional space
internet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010160686.6A
Other languages
English (en)
Other versions
CN111381499B (zh
Inventor
曾勇
徐晓莉
金石
张瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202010160686.6A priority Critical patent/CN111381499B/zh
Publication of CN111381499A publication Critical patent/CN111381499A/zh
Application granted granted Critical
Publication of CN111381499B publication Critical patent/CN111381499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种上述基于三维空间射频地图学习的网联飞行器自适应控制方法,其中蜂窝网络端构建三维空间射频地图,使网联飞行器用户在执行飞行任务前获取三维空间射频地图,规划飞行路径和通信策略,以保障在完成任务的情况下维持与蜂窝网络的通信连接,网联飞行器可以执行飞行路径和通信策略,在飞行过程中测量射频地图数据,将射频地图数据反馈至蜂窝网络端,使蜂窝网络端获取射频地图数据,更新三维空间射频地图,以解决网联飞行器面临的空中通信覆盖不连续的问题,通过利用射频地图学习,避免了传统的基于优化方法的模型不准确、参数难获取、问题难求解等实际问题,实现环境自适应网联飞行器控制和通信,以提高对网联飞行器的控制效果。

Description

基于三维空间射频地图学习的网联飞行器自适应控制方法
技术领域
本发明涉及通信技术领域,尤其涉及一种基于三维空间射频地图学习的网联飞行器自适应控制方法。
背景技术
无人飞行器,特别是无人机(UAV),近年来在军事、民用及商业等领域获得了突飞猛进的发展,已成为支撑空中侦察、航空拍摄、遥感监测、精准农业、设施巡检、交通疏导、物流快递、紧急救援等应用的重要工具。在无人飞行器行业飞速发展的同时,也对飞行器通信链路提出了更高的要求。一般来讲,不同于传统的地面通信终端,飞行器通信涉及两类基本需求:控制与非载荷通信(control and non-payload communication,CNPC),以及载荷通信。前者主要用于传输支持飞行器安全、可靠和高效飞行的相关信息,如地面站对飞行器的控制命令、飞行器对地面站的状态汇报信息等,而后者则是与飞行器所执行的任务紧密相关的信息传输,如航空拍摄获取的实时图片和影像数据等。CNPC和载荷通信通常具有不同的通信速率、时延、可靠性、安全性等通信要求。然而,现有市场上的无人飞行器主要依赖基于非授权频谱(如ISM 2.4GHz)的点对点通信,具有通信容量低、作用距离短、可靠性差、安全性弱、抗干扰能力差、监管规范难等缺点。
为了解决上述问题,近年来网联飞行器技术受到了学术界和工业界越来越多的关注,即通过利用蜂窝网络基站和蜂窝通信技术支持飞行器的各种通信需求。相较于简单的点对点飞行器通信,网联飞行器通信具有显著的优点。(一)超远距离操控:通过利用世界范围内几乎无处不在的蜂窝基站、回传链路及骨干通信网络,网联飞行器可以实现超远距离通信,使得飞行器的控制理论上不再受距离限制;(二)高容量载荷信息传输:成熟高效的蜂窝移动网络技术及资源调配方案为支撑高可靠、高安全、高容量的飞行器信息传输奠定了基础;(三)易于监管规范:将所有飞行器接入网络有助于监管部门实施有效的空中交通监管和规范,减少黑飞事件,降低安全隐患;(四)更稳健的定位:目前飞行器主要依赖卫星进行定位,易受建筑物阻挡、恶劣天气等影响。蜂窝信号可以辅助卫星增强定位性能。因此,网联飞行器被认为是对无人飞行器和蜂窝产业双赢的技术,一方面有望打破制约无人飞行器大规模广泛应用的通信瓶颈,另一方面可以极大拓展蜂窝通信运营商的用户来源,创造新的商业机会。
然而,尽管其具有广阔的前景,但网联飞行器通信也面临着诸多新的挑战。尤其是,由于蜂窝网络主要被设计为面向地面用户,所以基站天线和信号通常向下倾斜,导致现有的长期演进(LTE)网络不能保证对空中实现无处不在的连续三维立体覆盖。实际上,即使对于正在商业部署的5G以及未来6G网络,以满足无处不在的空中连续覆盖(即使在某些中等高度范围内)为目标的设计,也可能因为经济效益和技术挑战而难以实现。此外,空中用户由于其位置高,往往与地面许多基站具有很强的视距链路,因而容易受到相邻非关联基站更严重的干扰,这加剧了空中覆盖盲区的问题,成为了制约实现网联飞行器广泛应用的重要瓶颈。
但另一方面,需要注意到,不同于传统的地面用户,飞行器用户的移动性具有更可预测性甚至是完全可控性,这为网联飞行器通信性能的提升提供了额外的设计自由度,在一定程度上可以解决蜂窝网络空中覆盖盲区的问题。具体而言,飞行器可以利用其所获信息,通过设计覆盖感知的轨迹规划和通信策略,以避开覆盖盲区并提高通信性能。该方法不需要对蜂窝网络进行大规模升级改造即可服务空中用户。学术界已对该方法进行了一些初步的研究。然而,已有方法主要是基于解决优化问题的算法,面临着严重的局限性和实用性问题。首先,建模优化问题需要精确且可分析处理的端到端通信模型,包括天线模型、信道模型、以及信号实际传播环境模型。其次,基于优化的设计还需要获取建模参数的全局精准值,在实践中难以实现。最后,即使有精确的建模和所有相关参数的精准值,现代通信系统中的大多数优化问题也是高度非凸的,难以有效地获得最优解,从而影响相应飞行器的控制效果。
发明内容
针对以上问题,本发明提出一种基于三维空间射频地图学习的网联飞行器自适应控制方法。
为实现本发明的目的,提供一种基于三维空间射频地图学习的网联飞行器自适应控制方法,包括如下步骤:
S10,蜂窝网络端构建三维空间射频地图;所述三维空间射频地图用深度神经网络进行表征;
S20,网联飞行器用户在执行飞行任务前获取三维空间射频地图,并根据飞行任务和三维空间射频地图规划飞行路径和通信策略,以保障在完成任务的情况下维持与蜂窝网络的通信连接;
S30,网联飞行器执行飞行路径和通信策略,并在飞行过程中测量射频地图数据,将所述射频地图数据反馈至蜂窝网络端;
S40,蜂窝网络端获取所述射频地图数据,利用所述射频地图数据进行深度学习,以更新三维空间射频地图。
进一步地,上述基于三维空间射频地图学习的网联飞行器自适应控制方法,还包括:
S50,网联飞行器获取蜂窝网络端更新后的三维空间射频地图,以修正飞行路径和通信策略。
进一步地,网联飞行器用户在执行飞行任务前获取三维空间射频地图,并根据飞行任务和三维空间射频地图规划飞行路径和通信策略包括:
网联飞行器根据探索系数ε对应的贪婪策略选择选择动作
Figure BDA0002405667650000031
进一步地,网联飞行器根据探索系数ε对应的贪婪策略选择选择动作
Figure BDA0002405667650000032
之前,还包括:
网联飞行器初始化学习步长N1,探索系数ε,探索系数衰减因子α,虚拟和实际飞行次数比N2,任务完成奖励Rdes,从蜂窝网络端获取三维空间射频地图Pout(qn;ξ),记蜂窝网络端已存储的所有射频地图相关实测数据为{q,Pmeas(q)},构建数据库E,初始化经验回放存储器D,初始化表征飞行器状态动作函数值的Dueling DQN神经网络的参数θ,目标神经网络参数θ-=θ,初始化容量为N1的滑动窗口队列W,初始化实际飞行经历初始状态q0,q0对应时隙n←0,初始化虚拟飞行经历初始状态qV,0,qV,0对应时隙i←0。
进一步地,网联飞行器执行飞行路径和通信策略,并在飞行过程中测量射频地图数据,将所述射频地图数据反馈至蜂窝网络端包括:
网联飞行器执行动作
Figure BDA0002405667650000033
观察下一个状态qn+1及当前获得的奖励Rn,并测量射频地图数据{qn+1,Pmeas(qn+1)},将射频地图数据{qn+1,Pmeas(qn+1)}反馈至蜂窝网络端,并将射频地图数据{qn+1,Pmeas(qn+1)}存储至数据库E,将经历
Figure BDA0002405667650000034
存储至滑动窗口队列W。
进一步地,在将射频地图数据{qn+1,Pmeas(qn+1)}存储至数据库E,将经历
Figure BDA0002405667650000035
存储至滑动窗口队列W之后,还包括:
网联飞行器检测到n≥N1,利用存储在W中的数据计算N1步长累计回报
Figure BDA0002405667650000041
并将对应的N1步长经历
Figure BDA0002405667650000042
存储至经验回放器D;
网联飞行器从经验回放器D中任意选择若干数据
Figure BDA0002405667650000043
Figure BDA0002405667650000044
对应任务完成时的目标终点位置,设
Figure BDA0002405667650000045
否则设
Figure BDA0002405667650000046
其中
Figure BDA0002405667650000047
Q(q,k,θ)代表Dueling DQN神经网络的输出;
网联飞行器利用梯度下降法更新神经网络参数θ,最小化损失函数
Figure BDA0002405667650000048
更新时间系数索引n←n+1,更新探索系数ε←εα。
进一步地,蜂窝网络端获取所述射频地图数据,利用所述射频地图数据进行深度学习,以更新三维空间射频地图包括:
蜂窝网络端从数据库E任意选择若干测量数据,通过标准的梯度下降法更新三维空间射频地图的神经网络参数ξ。
上述基于三维空间射频地图学习的网联飞行器自适应控制方法中,蜂窝网络端构建三维空间射频地图,使网联飞行器用户在执行飞行任务前获取三维空间射频地图,并根据飞行任务和三维空间射频地图规划飞行路径和通信策略,以保障在完成任务的情况下维持与蜂窝网络的通信连接,网联飞行器可以执行飞行路径和通信策略,并在飞行过程中测量射频地图数据,将所述射频地图数据反馈至蜂窝网络端,使蜂窝网络端获取射频地图数据进行相应学习以更新三维空间射频地图,以解决网联飞行器面临的空中通信覆盖不连续的问题,通过利用射频地图学习,避免了传统的基于优化方法的模型不准确、参数难获取、问题难求解等实际问题,实现环境自适应网联飞行器控制和通信,以提高对网联飞行器的控制效果。
附图说明
图1是一个实施例的基于三维空间射频地图学习的网联飞行器自适应控制方法流程示意图;
图2是一个实施例的城市环境中网联飞行器示意图;
图3是一个实施例的覆盖感知飞行器路径规划示意图;
图4是一个实施例的表征飞行器状态动作函数值的Dueling DQN神经网络示意图;
图5是一个实施例的飞行器、蜂窝网络以及环境之间的交互示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了解决网联飞行器用户面临的空中通信覆盖不连续的问题,通过利用射频地图学习,避免了传统的基于优化方法的模型不准确、参数难获取、问题难求解等实际问题,实现环境自适应网联飞行器控制和通信。在一个实施例中,参考图1所示,提供一种基于三维空间射频地图学习的网联飞行器自适应控制方法,包括如下步骤:
S10,蜂窝网络端构建三维空间射频地图。
上述三维空间射频地图包含三维空间地理位置、时间、频率、蜂窝小区身份、接收信号强度、干扰强度、信号质量等信息。具体地,蜂窝网络端可以构建并及时更新包含三维空间地理位置、时间、频率、蜂窝小区身份、接收信号强度、干扰强度、信号质量等信息的三维空间射频地图。
S20,网联飞行器用户在执行飞行任务前获取三维空间射频地图,并根据飞行任务和三维空间射频地图规划飞行路径和通信策略,以保障在完成任务的情况下维持与蜂窝网络的通信连接。
上述步骤中,网联飞行器用户在执行飞行任务前获取射频地图,并根据具体任务规划其飞行路径和优化通信策略,以保障在完成任务的情况下维持与蜂窝网络的通信连接。
S30,网联飞行器执行飞行路径和通信策略,并在飞行过程中测量射频地图数据,将所述射频地图数据反馈至蜂窝网络端。
网联飞行器执行接下来时长为T的路径和通信规划,并在飞行过程中测量射频地图相关数据且反馈至网络,如参考信号接收功率(Reference Signal Received Power,RSRP),参考信号接收质量(Reference Signal Received Quality,RSRQ),参考信号信干噪比(RS SINR)。
S40,蜂窝网络端获取所述射频地图数据,利用所述射频地图数据进行深度学习,以更新三维空间射频地图。
蜂窝网络端构建并及时更新其所服务各区域的三维空间射频地图,网联飞行器(如无人机等)利用射频地图进行飞行路径和通信策略规划,并将任务执行过程中实测的射频地图相关数据反馈至网络,供其进一步更新射频地图,提高准确度,更新后的射频地图又可帮助飞行器修正其路径和通信策略,形成良性循环。相较于传统的蜂窝连接飞行器通信,通过利用三维空间射频地图学习和飞行器的可控移动性,所提方法能够主动规避蜂窝网络空中覆盖盲区,解决蜂窝网络空中覆盖不连续的问题,实现射频环境自适应网联飞行器通信和控制。
上述基于三维空间射频地图学习的网联飞行器自适应控制方法中,蜂窝网络端构建三维空间射频地图,使网联飞行器用户在执行飞行任务前获取三维空间射频地图,并根据飞行任务和三维空间射频地图规划飞行路径和通信策略,以保障在完成任务的情况下维持与蜂窝网络的通信连接,网联飞行器可以执行飞行路径和通信策略,并在飞行过程中测量射频地图数据,将所述射频地图数据反馈至蜂窝网络端,使蜂窝网络端获取射频地图数据进行相应学习以更新三维空间射频地图,以解决网联飞行器面临的空中通信覆盖不连续的问题,通过利用射频地图学习,避免了传统的基于优化方法的模型不准确、参数难获取、问题难求解等实际问题,实现环境自适应网联飞行器控制和通信,以提高对网联飞行器的控制效果。
在一个实施例中,上述基于三维空间射频地图学习的网联飞行器自适应控制方法,还包括:
S50,网联飞行器获取蜂窝网络端更新后的三维空间射频地图,以修正飞行路径和通信策略。
本实施例中,网联飞行器获取蜂窝网络端更新后的三维空间射频地图,以修正飞行路径和通信策略,以依据修正后的飞行路径和通信策略进行作业,进一步保证其作业的有效性。
进一步地,可以重复上述步骤S10至步骤S50,直至任务完成或超时,以保证所执行的飞行任务的完整性。
在一个实施例中,图2是根据一示例性实施例示出的一种城市环境中网联飞行器控制和通信场景,可以看出,飞行器和地面基站的信号传播链路受周围环境、特别是建筑物的阻挡影响较大。图3是根据一示例性实施例示出的覆盖感知飞行器路径规划示意图。飞行器需从各自的起始点位置,以最短时间飞至终点位置,但飞行过程中需要尽量保障与蜂窝网络的良好通信。本实施例用qn表示飞行器在时隙n的状态,包含飞行器(网联飞行器)的三维空间坐标、剩余能量、当前时间等。假设在每个状态,飞行器有K种可能的动作选择,包括飞行控制和通信策略,如飞行方向、速度、关联基站、信道选择等。根据飞行器本身执行任务的性质,用Dueling DQN深度神经网络表征飞行器的状态动作函数值,如图4所示。该神经网络包括一个输入层、若干隐藏层、和一个输出层,网络中可训练参数用θ表示。输入层以飞行器的状态qn作为输入信息,输出层对应每个可能动作在该状态下的函数值,即Q值,表示为Q(qn,k;θ)。通过训练神经网络的参数θ,可不断完善飞行器的控制和通信策略。
另一方面,蜂窝网络端构建的三维空间射频地图也可用深度神经网络进行表征,包含一个输入层、若干隐藏层以及一个输出层。网络输入层输入三维空间位置坐标、时间、频率等信息,输出层对应从不同蜂窝小区接收到的信号强度、干扰强度、信号质量、通信中断率等。在本示例中,网络输入设为q,其包含三维位置坐标和时间信息,输出设为飞行器的通信中断率。用ξ表示该神经网络的可训练参数,则其网络输出值Pout(q;ξ)给出在任意三维空间和时间q的中断率预测值。
基于以上定义,上述网联飞行器用户在执行飞行任务前获取三维空间射频地图,并根据飞行任务和三维空间射频地图规划飞行路径和通信策略包括:
网联飞行器根据探索系数ε对应的贪婪策略选择选择动作
Figure BDA0002405667650000071
进一步地,网联飞行器根据探索系数ε对应的贪婪策略选择选择动作
Figure BDA0002405667650000072
之前,还包括:
网联飞行器初始化学习步长N1,探索系数ε,探索系数衰减因子α,虚拟和实际飞行次数比N2,任务完成奖励Rdes,从蜂窝网络端获取三维空间射频地图Pout(qn;ξ),记蜂窝网络端已存储的所有射频地图相关实测数据为{q,Pmeas(q)},构建数据库E,初始化经验回放存储器D,初始化表征飞行器状态动作函数值的Dueling DQN神经网络的参数θ,目标神经网络参数θ-=θ,初始化容量为N1的滑动窗口队列W,初始化实际飞行经历初始状态q0,q0对应时隙n←0,初始化虚拟飞行经历初始状态qV,0,qV,0对应时隙i←0;其中符号←表示将左边的参数设置为右边的值。
进一步地,网联飞行器执行飞行路径和通信策略,并在飞行过程中测量射频地图数据,将所述射频地图数据反馈至蜂窝网络端包括:
网联飞行器执行动作
Figure BDA0002405667650000081
观察下一个状态qn+1及当前获得的奖励Rn,并测量射频地图数据{qn+1,Pmeas(qn+1)},将射频地图数据{qn+1,Pmeas(qn+1)}反馈至蜂窝网络端,并将射频地图数据{qn+1,Pmeas(qn+1)}存储至数据库E,将经历
Figure BDA0002405667650000082
存储至滑动窗口队列W。
进一步地,在将射频地图数据{qn+1,Pmeas(qn+1)}存储至数据库E,将经历
Figure BDA0002405667650000083
存储至滑动窗口队列W之后,还包括:
网联飞行器检测到n≥N1,利用存储在W中的数据计算N1步长累计回报
Figure BDA0002405667650000084
并将对应的N1步长经历
Figure BDA0002405667650000085
存储至经验回放器D;
网联飞行器从经验回放器D中任意选择若干数据
Figure BDA0002405667650000086
Figure BDA0002405667650000087
对应任务完成时的目标终点位置,设
Figure BDA0002405667650000088
否则设
Figure BDA0002405667650000089
其中
Figure BDA00024056676500000810
Q(q,k,θ)代表Dueling DQN神经网络的输出;
网联飞行器利用梯度下降法更新神经网络参数θ,最小化损失函数
Figure BDA00024056676500000811
更新时间系数索引n←n+1,更新探索系数ε←εα。
进一步地,蜂窝网络端获取所述射频地图数据,利用所述射频地图数据进行深度学习,以更新三维空间射频地图包括:
蜂窝网络端从数据库E任意选择若干测量数据,通过标准的梯度下降法更新三维空间射频地图的神经网络参数ξ。
在一个示例中,上述基于三维空间射频地图学习的网联飞行器自适应控制方法的完整实现过程可以包括:
(1)初始化学习步长N1,探索系数ε,探索系数衰减因子α,虚拟和实际飞行次数比N2,任务完成奖励Rdes
(2)飞行器从网络端获取目前三维空间射频地图Pout(qn;ξ),另记网络端已存储的所有射频地图相关实测数据为{q,Pmeas(q)},其所组成的数据库为E。
(3)初始化经验回放存储器D。
(4)初始化如图4所示的Dueling DQN神经网络参数θ,目标神经网络参数θ-=θ;
(5)初始化容量为N1的滑动窗口队列W。
(6)初始化实际飞行经历初始状态q0,对应时隙n←0。
(7)初始化虚拟飞行经历初始状态qV,0,对应时隙i←0。
(8)根据ε贪婪策略选择当前动作,即从所有K的可能动作中选择动作
Figure BDA0002405667650000091
Figure BDA0002405667650000092
有概率ε取值randi(K),概率1-ε取值argmaxk=1,...,KQ(qn,k;θ)。
(9)飞行器执行动作
Figure BDA0002405667650000093
观察到下一个状态qn+1及获得的奖励Rn,并测量射频地图相关数据{qn+1,Pmeas(qn+1)}反馈给网络,存储至数据库E。
(10)将经历
Figure BDA0002405667650000094
存储至W。
(11)如果n≥N1,利用存储在W中的数据计算N1步长累计回报
Figure BDA0002405667650000095
并将对应的N1步长经历
Figure BDA0002405667650000096
存储至经验回放器D。
(12)从经验回放器D中任意选择若干数据
Figure BDA0002405667650000097
Figure BDA0002405667650000098
对应任务完成时的目标终点位置,设
Figure BDA0002405667650000099
否则设
Figure BDA00024056676500000910
其中
Figure BDA00024056676500000911
(13)利用梯度下降法更新神经网络参数θ,最小化损失函数
Figure BDA00024056676500000912
(14)更新时间系数索引n←n+1,探索系数ε←εα。
(15)网络端从数据库E任意选择若干测量数据,通过标准的梯度下降法更新三维空间射频地图的神经网络参数ξ。
(16)根据类似于步骤(8)的ε贪婪策略,对虚拟飞行经历的当前状态qV,i选择动作,并得到对应的下一状态。根据三维空间射频地图预测下一状态的信号中断率,并由此预测相应的奖励。
(17)对上述虚拟经历,执行类似于步骤(10)-(13)的算法。
(18)更新虚拟经历时隙索引i←i+1。
(19)如果虚拟任务完成或超时,依照步骤(7)重新初始化虚拟飞行经历。
(20)重复步骤(16)-(19)N2次。
(21)重复步骤(8)-(20)直至实际飞行任务完成或超时。
(22)每完成若干次飞行任务,更新目标神经网络参数θ-←θ。
(23)重复步骤(5)-(22)。
本示例既利用了飞行器的实际飞行经历和其测量的数据,也利用了根据三维空间射频地图获得的虚拟仿真经历数据(步骤(16)-(20))。飞行器在实际飞行过程中测得的数据一方面直接用于训练其控制和通信策略(步骤(10)-(13)),另一方面又用于更新网络端的三维空间射频地图,提高其精确度(步骤(15))。
在一个实施例中,对网联飞行器、相应蜂窝网络以及环境进行介绍,图5是本实施例提供的飞行器、蜂窝网络以及环境之间的交互示意图。在相应的通信环境中,三维空间射频地图可以一个或多个相邻基站为基本单元进行构建和更新,可对其服务区域内所有三维空间位置在不同时间、不同频率、从不同蜂窝小区接收到的信号强度、干扰强度、信号质量等信息进行预测;不同基本单元之间可通过回程链路进行射频地图共享。三维空间射频地图可以深度神经网络进行表征,包含一个输入层、若干隐藏层、一个输出层。网络输入层输入三维空间位置坐标、时间、频率等信息,输出层对应从不同蜂窝小区接收到的信号强度、干扰强度、信号质量等。
网联飞行器在执行飞行任务过程中,可利用蜂窝网络标准中定义的参考信号接收功率(Reference Signal Received Power,RSRP),参考信号接收质量(Reference SignalReceived Quality,RSRQ),参考信号信干噪比(RS SINR)等测量数据得到射频地图的相关数据。网络端(蜂窝网络端)的基本单元构建一个数据库,用于存储从网联飞行器用户获取的测量数据。网络端更新射频地图时,从数据库中随机选择若干数据,利用监督学习算法进行一次或多次网络训练,更新射频地图深度神经网络中的参数。
根据三维空间射频地图和飞行器的飞行任务性质,可通过动态规划、旅行商算法、迪杰斯特拉(Dijkstra)最短路径算法、时序差分状态函数学习、Q学习等算法进行路径规划和通信策略学习或优化,确定飞行器的飞行路径、信道选择、小区关联、信号发送功率等。飞行器端通过深度强化学习,结合三维空间射频地图进行飞行路径和通信策略的规划和修正(具体实施方式见以下实施例说明)。通过构建和训练Dueling深度Q网络(Dueling Deep QNetwork,Dueling DQN)来表征飞行器的飞行控制和通信策略。神经网络包括一个输入层、若干隐藏层、一个输出层。输入层输入飞行器的状态信息,包括其所在三维空间位置坐标、时间、任务完成情况、剩余能量等,输出层对应于每个可能动作(包括飞行状态控制如方向改变、通信信道选择等)在该状态下的函数值,即Q值。飞行器端构建一个经验回放缓存器,用于存储其飞行经历。飞行器在当前状态,选择并执行完一个动作之后,记录其当前状态、动作、获得的奖励、和观测到的下一状态等并存入经验回放缓存器。经验回放缓存器也用于存储基于三维空间射频地图而获得的虚拟仿真经验,即通过虚拟飞行器的飞行状态和执行动作,并根据三维空间射频地图预测其获得的奖励、下一状态等信息而获得的经验,并不需要实际执行飞行和通信动作。当飞行器训练上述的Dueling深度Q网络时,从经验回放缓存器中随机选择若干经验,通过Double Dueling DQN和Dyna算法进行参数更新。飞行器在飞行过程中所测量的射频地图相关数据,可以通过无线链路实时反馈至网络,亦可先在飞行器端缓存,待时机成熟或飞行器返回后再线下反馈至网络端。
上述基于三维空间射频地图学习的网联飞行器自适应控制方法适用于多飞行器用户场景,不同飞行器用户向网络端更新测量数据不必时间同步。具体具有如下优点:
能够充分利用飞行器的可控移动性,结合三维空间射频地图知识,规划飞行器路径和通信策略(详细步骤见具体实施方式的示例性说明),规避空中覆盖盲区并提高通信性能,解决网联飞行器空中覆盖不连续的问题。
利用深度学习训练三维空间射频地图,以及深度强化学习不断完善飞行器的飞行路径和通信策略,避免了传统基于优化设计方法所面临的模型不准确、参数难获取、问题难求解等实际问题,实现环境自适应网联飞行器控制和通信。
能够充分利用蜂窝通信标准中已有的参考信号接收功率(Reference SignalReceived Power,RSRP),参考信号接收质量(Reference Signal Received Quality,RSRQ),参考信号信干噪比(RS SINR)等测量数据训练三维空间射频地图,具有很强的兼容性。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
需要说明的是,本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本申请实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种基于三维空间射频地图学习的网联飞行器自适应控制方法,其特征在于,包括如下步骤:
S10,蜂窝网络端构建三维空间射频地图;所述三维空间射频地图用深度神经网络进行表征;
S20,网联飞行器用户在执行飞行任务前获取三维空间射频地图,并根据飞行任务和三维空间射频地图规划飞行路径和通信策略,以保障在完成任务的情况下维持与蜂窝网络的通信连接;
S30,网联飞行器执行飞行路径和通信策略,并在飞行过程中测量射频地图数据,将所述射频地图数据反馈至蜂窝网络端;
S40,蜂窝网络端获取所述射频地图数据,利用所述射频地图数据进行深度学习,以更新三维空间射频地图。
2.根据权利要求1所述的基于三维空间射频地图学习的网联飞行器自适应控制方法,其特征在于,还包括:
S50,网联飞行器获取蜂窝网络端更新后的三维空间射频地图,以修正飞行路径和通信策略。
3.根据权利要求1所述的基于三维空间射频地图学习的网联飞行器自适应控制方法,其特征在于,网联飞行器用户在执行飞行任务前获取三维空间射频地图,并根据飞行任务和三维空间射频地图规划飞行路径和通信策略包括:
网联飞行器根据探索系数ε对应的贪婪策略选择选择动作
Figure FDA0002405667640000011
4.根据权利要求3所述的基于三维空间射频地图学习的网联飞行器自适应控制方法,其特征在于,网联飞行器根据探索系数ε对应的贪婪策略选择选择动作
Figure FDA0002405667640000012
之前,还包括:
网联飞行器初始化学习步长N1,探索系数ε,探索系数衰减因子α,虚拟和实际飞行次数比N2,任务完成奖励Rdes,从蜂窝网络端获取三维空间射频地图Pout(qn;ξ),记蜂窝网络端已存储的所有射频地图相关实测数据为{q,Pmeas(q)},构建数据库E,初始化经验回放存储器D,初始化表征飞行器状态动作函数值的Dueling DQN神经网络的参数θ,目标神经网络参数θ-=θ,初始化容量为N1的滑动窗口队列W,初始化实际飞行经历初始状态q0,q0对应时隙n←0,初始化虚拟飞行经历初始状态qV,0,qV,0对应时隙i←0。
5.根据权利要求4所述的基于三维空间射频地图学习的网联飞行器自适应控制方法,其特征在于,网联飞行器执行飞行路径和通信策略,并在飞行过程中测量射频地图数据,将所述射频地图数据反馈至蜂窝网络端包括:
网联飞行器执行动作
Figure FDA0002405667640000021
观察下一个状态qn+1及当前获得的奖励Rn,并测量射频地图数据{qn+1,Pmeas(qn+1)},将射频地图数据{qn+1,Pmeas(qn+1)}反馈至蜂窝网络端,并将射频地图数据{qn+1,Pmeas(qn+1)}存储至数据库E,将经历
Figure FDA0002405667640000022
存储至滑动窗口队列W。
6.根据权利要求5所述的基于三维空间射频地图学习的网联飞行器自适应控制方法,其特征在于,在将射频地图数据{qn+1,Pmeas(qn+1)}存储至数据库E,将经历
Figure FDA0002405667640000023
存储至滑动窗口队列W之后,还包括:
网联飞行器检测到n≥N1,利用存储在W中的数据计算N1步长累计回报
Figure FDA0002405667640000024
并将对应的N1步长经历
Figure FDA0002405667640000025
存储至经验回放器D;
网联飞行器从经验回放器D中任意选择若干数据
Figure FDA0002405667640000026
Figure FDA0002405667640000027
对应任务完成时的目标终点位置,设
Figure FDA0002405667640000028
否则设
Figure FDA0002405667640000029
其中
Figure FDA00024056676400000210
Q(q,k,θ)代表Dueling DQN神经网络的输出;
网联飞行器利用梯度下降法更新神经网络参数θ,最小化损失函数
Figure FDA00024056676400000211
更新时间系数索引n←n+1,更新探索系数ε←εα。
7.根据权利要求1至6任一项所述的基于三维空间射频地图学习的网联飞行器自适应控制方法,其特征在于,蜂窝网络端获取所述射频地图数据,利用所述射频地图数据进行深度学习,以更新三维空间射频地图包括:
蜂窝网络端从数据库E任意选择若干测量数据,通过标准的梯度下降法更新三维空间射频地图的神经网络参数ξ。
CN202010160686.6A 2020-03-10 2020-03-10 基于三维空间射频地图学习的网联飞行器自适应控制方法 Active CN111381499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010160686.6A CN111381499B (zh) 2020-03-10 2020-03-10 基于三维空间射频地图学习的网联飞行器自适应控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010160686.6A CN111381499B (zh) 2020-03-10 2020-03-10 基于三维空间射频地图学习的网联飞行器自适应控制方法

Publications (2)

Publication Number Publication Date
CN111381499A true CN111381499A (zh) 2020-07-07
CN111381499B CN111381499B (zh) 2022-09-27

Family

ID=71217173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010160686.6A Active CN111381499B (zh) 2020-03-10 2020-03-10 基于三维空间射频地图学习的网联飞行器自适应控制方法

Country Status (1)

Country Link
CN (1) CN111381499B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112783192A (zh) * 2019-11-11 2021-05-11 中国移动通信集团上海有限公司 无人机路径规划方法、装置、设备和存储介质
CN113342030A (zh) * 2021-04-27 2021-09-03 湖南科技大学 基于强化学习的多无人机协同自组织控制方法及系统
CN113645567A (zh) * 2021-07-28 2021-11-12 北京三快在线科技有限公司 通信状态地图的构建方法以及无人设备控制方法及装置
CN113776531A (zh) * 2021-07-21 2021-12-10 电子科技大学长三角研究院(湖州) 无线自供电通信网络的多无人机自主导航及任务分配算法
CN114826459A (zh) * 2022-03-08 2022-07-29 南京航空航天大学 基于跨域推理的频谱地图精确构建方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109625333A (zh) * 2019-01-03 2019-04-16 西安微电子技术研究所 一种基于深度增强学习的空间非合作目标捕获方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110488872A (zh) * 2019-09-04 2019-11-22 中国人民解放军国防科技大学 一种基于深度强化学习的无人机实时路径规划方法
CN110531617A (zh) * 2019-07-30 2019-12-03 北京邮电大学 多无人机3d悬停位置联合优化方法、装置和无人机基站
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109625333A (zh) * 2019-01-03 2019-04-16 西安微电子技术研究所 一种基于深度增强学习的空间非合作目标捕获方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110531617A (zh) * 2019-07-30 2019-12-03 北京邮电大学 多无人机3d悬停位置联合优化方法、装置和无人机基站
CN110488872A (zh) * 2019-09-04 2019-11-22 中国人民解放军国防科技大学 一种基于深度强化学习的无人机实时路径规划方法
CN110673637A (zh) * 2019-10-08 2020-01-10 福建工程学院 一种基于深度强化学习的无人机伪路径规划的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHENG ZHAN.ETC: "Trajectory Design for Distributed Estimation in UAV Enabled Wireless Sensor Network", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
余瑶等: "有向图下非线性无人机群自适应合围控制", 《控制理论与应用》 *
管禹: "基于局部信息对不确定环境的多无人机协同搜索方法研究", 《万方学位论文》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112783192A (zh) * 2019-11-11 2021-05-11 中国移动通信集团上海有限公司 无人机路径规划方法、装置、设备和存储介质
CN112783192B (zh) * 2019-11-11 2022-11-22 中国移动通信集团上海有限公司 无人机路径规划方法、装置、设备和存储介质
CN113342030A (zh) * 2021-04-27 2021-09-03 湖南科技大学 基于强化学习的多无人机协同自组织控制方法及系统
CN113776531A (zh) * 2021-07-21 2021-12-10 电子科技大学长三角研究院(湖州) 无线自供电通信网络的多无人机自主导航及任务分配算法
CN113645567A (zh) * 2021-07-28 2021-11-12 北京三快在线科技有限公司 通信状态地图的构建方法以及无人设备控制方法及装置
CN114826459A (zh) * 2022-03-08 2022-07-29 南京航空航天大学 基于跨域推理的频谱地图精确构建方法
CN114826459B (zh) * 2022-03-08 2023-02-03 南京航空航天大学 基于跨域推理的频谱地图精确构建方法

Also Published As

Publication number Publication date
CN111381499B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN111381499B (zh) 基于三维空间射频地图学习的网联飞行器自适应控制方法
You et al. Hybrid offline-online design for UAV-enabled data harvesting in probabilistic LoS channels
Srivastava et al. Future FANET with application and enabling techniques: Anatomization and sustainability issues
Zhang et al. Energy-efficient trajectory optimization for UAV-assisted IoT networks
Rovira-Sugranes et al. A review of AI-enabled routing protocols for UAV networks: Trends, challenges, and future outlook
Ruan et al. Energy-efficient multi-UAV coverage deployment in UAV networks: A game-theoretic framework
Liu et al. Average AoI minimization in UAV-assisted data collection with RF wireless power transfer: A deep reinforcement learning scheme
Al-Ahmed et al. Optimal 3D UAV base station placement by considering autonomous coverage hole detection, wireless backhaul and user demand
Huang et al. Deployment of heterogeneous UAV base stations for optimal quality of coverage
Zhan et al. Energy minimization for cellular-connected UAV: From optimization to deep reinforcement learning
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
Zhang et al. UAV aided integrated sensing and communications
EP3900267B1 (en) Parameter selection for network communication links using reinforcement learning
Zhan et al. Energy-efficient trajectory optimization for aerial video surveillance under QoS constraints
US12015937B2 (en) Operation of sectorized communications from aerospace platforms using reinforcement learning
Liu et al. Deployment and movement for multiple aerial base stations by reinforcement learning
You et al. 3D trajectory design for UAV-enabled data harvesting in probabilistic LoS channel
CN114142908B (zh) 一种面向覆盖侦察任务的多无人机通信资源分配方法
Dang et al. AoI oriented UAV trajectory planning in wireless powered IoT networks
Parvaresh et al. A continuous actor–critic deep Q-learning-enabled deployment of UAV base stations: Toward 6G small cells in the skies of smart cities
Li et al. Deep reinforcement learning for real-time trajectory planning in UAV networks
Akin et al. Multiagent Q-learning based UAV trajectory planning for effective situationalawareness
Zhan et al. Tradeoff between age of information and operation time for uav sensing over multi-cell cellular networks
Shamsoshoara et al. Joint path planning and power allocation of a cellular-connected uav using apprenticeship learning via deep inverse reinforcement learning
Soorki et al. Catch me if you can: Deep meta-rl for search-and-rescue using lora uav networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant