CN111385806B - 一种无人机基站路径规划和带宽资源分配方法及装置 - Google Patents

一种无人机基站路径规划和带宽资源分配方法及装置 Download PDF

Info

Publication number
CN111385806B
CN111385806B CN202010099715.2A CN202010099715A CN111385806B CN 111385806 B CN111385806 B CN 111385806B CN 202010099715 A CN202010099715 A CN 202010099715A CN 111385806 B CN111385806 B CN 111385806B
Authority
CN
China
Prior art keywords
base station
aerial vehicle
unmanned aerial
vehicle base
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010099715.2A
Other languages
English (en)
Other versions
CN111385806A (zh
Inventor
高飞飞
丁瑞金
张煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010099715.2A priority Critical patent/CN111385806B/zh
Publication of CN111385806A publication Critical patent/CN111385806A/zh
Application granted granted Critical
Publication of CN111385806B publication Critical patent/CN111385806B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18504Aircraft used as relay or high altitude atmospheric platform
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/04Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources
    • H04W40/10Communication route or path selection, e.g. power-based or shortest path routing based on wireless node resources based on available power or energy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/542Allocation or scheduling criteria for wireless resources based on quality criteria using measured or perceived quality

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Astronomy & Astrophysics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明实施例公开了一种无人机基站路径规划和带宽资源分配方法及装置,方法包括:获取当前环境状态;基于所述当前环境状态和预置的动作网络,确定无人机基站的相关动作;根据所述相关动作,确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽。本发明实施例基于获取的当前环境状态和预置的动作网络,确定无人机基站的相关动作;根据相关动作,确定无人机基站的飞行路径和无人机基站分配给各个用户的带宽。这种将深度强化学习用于无人机基站路径规划和带宽资源分配的方法,为用户提供了较好的通信服务,计算复杂度低,并且即使用户是移动的,无人机基站也能通过调整飞行路径很好地处理用户移动等问题。

Description

一种无人机基站路径规划和带宽资源分配方法及装置
技术领域
本发明涉及无人机基站通信技术领域,具体涉及一种无人机基站路径规划和带宽资源分配方法及装置。
背景技术
无人机基站由于其高移动性,可以在发生自然灾害后建立起应急通信。但是无人机基站却有着电池能量受限的缺点,无法长时间提供通信服务,因此,需要无人机基站提供高能效的服务。但是,相关的轨迹优化和资源分配问题往往是NP-Hard(Non-deterministicPolynomial hard problem,NP困难问题)问题,很难直接解决。
目前的无人机基站轨迹优化以及资源分配方法主要将原始难以优化的复杂的非凸的,通过不断地近似简化转变为可以通过迭代求解的凸的子问题,再借助CVX等工具解凸优化问题。然而,基于传统凸优化理论的计算方法复杂度大,对于问题有大量简化,以及难以处理用户移动等问题,很难在实际中进行应用。
发明内容
由于现有方法存在上述问题,本发明实施例提出一种无人机基站路径规划和带宽资源分配方法及装置。
第一方面,本发明实施例提出一种无人机基站路径规划和带宽资源分配方法,包括:
获取当前环境状态;
基于所述当前环境状态和预置的动作网络,确定无人机基站的相关动作;
根据所述相关动作,确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽。
可选地,所述当前环境状态至少包括:所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息。
所述基于所述当前环境状态和预置的动作网络,确定无人机基站的相关动作,包括:
将所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息输入预置的动作网络中,得到所述无人机基站的相关动作。
可选地,所述相关动作至少包括:所述无人机基站的飞行速度、所述无人机基站的飞行方向和所述无人机基站分配给各个用户的带宽资源比例。
所述根据所述相关动作,确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽,包括:
根据所述飞行速度和所述飞行方向,确定所述无人机基站飞行路径;
根据所述无人机基站分配给各个用户的带宽资源比例,确定所述无人机基站分配给所述各个用户的带宽。
可选地,所述预置的动作网络,是以环境状态作为动作网络的输入,在评价网络对其输出进行评价的基础上,进行训练得到。
可选地,所述无人机基站路径规划和带宽资源分配方法还包括:
在训练所述动作网络之前,复制所述无人机基站的电池剩余能量维度,直到所述无人机基站的电池剩余能量维度多于预设能量维度阈值。
可选地,所述无人机基站路径规划和带宽资源分配方法还包括:
在训练所述动作网络过程中,所述动作网络的前K-1个输出神经元与一个固定的值为0的参考神经元拼接;其中,K为所述动作网络的输出神经元的个数。
可选地,所述无人机基站路径规划和带宽资源分配方法还包括:
在训练所述动作网络过程中,在所述动作网络的损失函数中添加激活前神经元值大于预设阈值的损失,具体为
Figure BDA0002386538910000031
其中,κυ,
Figure BDA0002386538910000032
为损失系数,χυ,
Figure BDA0002386538910000033
分别为λυ
Figure BDA0002386538910000034
激活前的值,
Figure BDA0002386538910000035
第二方面,本发明实施例还提出一种无人机基站路径规划和带宽资源分配装置,包括:状态获取模块、动作确定模块及路径和带宽确定模块;
所述状态获取模块,用于获取当前环境状态;
所述动作确定模块,用于基于所述当前环境状态和预置的动作网络,确定无人机基站的相关动作;
所述路径和带宽确定模块,用于根据所述相关动作,确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽。
可选地,所述当前环境状态至少包括:所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息。
所述动作确定模块,具体用于:
将所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息输入预置的动作网络中,得到所述无人机基站的相关动作。
可选地,所述相关动作至少包括:所述无人机基站的飞行速度、所述无人机基站的飞行方向和所述无人机基站分配给各个用户的带宽资源比例。
所述路径和带宽确定模块,具体用于:
根据所述飞行速度和所述飞行方向,确定所述无人机基站飞行路径;
根据所述无人机基站分配给各个用户的带宽资源比例,确定所述无人机基站分配给所述各个用户的带宽。
可选地,所述预置的动作网络,是以环境状态作为动作网络的输入,在评价网络对其输出进行评价的基础上,进行训练得到。
可选地,所述无人机基站路径规划和带宽资源分配装置还包括:复制模块;
所述复制模块,用于在训练所述动作网络之前,复制所述无人机基站的电池剩余能量维度,直到所述无人机基站的电池剩余能量维度多于预设能量维度阈值。
可选地,所述无人机基站路径规划和带宽资源分配装置还包括:拼接模块;
所述拼接模块,用于在训练所述动作网络过程中,所述动作网络的前K-1个输出神经元与一个固定的值为0的参考神经元拼接;其中,K为所述动作网络的输出神经元的个数。
可选地,所述无人机基站路径规划和带宽资源分配装置还包括:添加模块;
所述添加模块,用于在训练所述动作网络过程中,在所述动作网络的损失函数中添加激活前神经元值大于预设阈值的损失,具体为
Figure BDA0002386538910000051
其中,κυ,
Figure BDA0002386538910000052
为损失系数,χυ,
Figure BDA0002386538910000053
分别为λυ
Figure BDA0002386538910000054
激活前的值,
Figure BDA0002386538910000055
第三方面,本发明实施例还提出一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述方法。
第四方面,本发明实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述方法。
由上述技术方案可知,本发明实施例通过基于获取的当前环境状态和预置的动作网络,确定无人机基站的相关动作;根据相关动作,确定无人机基站的飞行路径和无人机基站分配给各个用户的带宽。这种将深度强化学习用于无人机基站路径规划和带宽资源分配的方法,为用户提供了较好的通信服务,计算复杂度低,并且即使用户是移动的,无人机基站也能通过调整飞行路径很好地处理用户移动等问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明一实施例提供的一种无人机基站路径规划和带宽资源分配方法的流程示意图;
图2为本发明一实施例提供的一种无人机基站路径规划和带宽资源分配装置的结构示意图;
图3为本发明一实施例提供的电子设备的逻辑框图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1示出了本实施例提供的一种无人机基站路径规划和带宽资源分配方法的流程示意图,包括:
S11,获取当前环境状态。
在本发明实施例中,要使无人机基站进行路径规划和带宽资源分配,首先需要获取当前环境状态。无人机基站根据获取的当前环境状态,确定飞行路径以及向各个用户分配带宽资源。
在本发明实施例中,所述当前环境状态至少包括:所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息。
S12,基于所述当前环境状态和预置的动作网络,确定无人机基站的相关动作。
在本发明实施例中,所述预置的动作网络通过训练神经网络得到。基于所述当前环境状态和预置的动作网络,确定无人机基站的相关动作。具体地,将所述当前环境状态输入所述预置的动作网络中,得到所述无人机基站的相关动作。
在本发明实施例中,所述相关动作至少包括:所述无人机基站的飞行速度、所述无人机基站的飞行方向和所述无人机基站分配给各个用户的带宽资源比例。
S13,根据所述相关动作,确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽。
在本发明实施例中,根据S12中得到的所述无人机基站的相关动作可以确定出所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽。具体地,根据所述无人机基站的相关动作,例如飞行速度和飞行方向,可以确定出所述无人机基站的飞行路径。根据所述无人机基站的相关动作,例如所述无人机基站分配给各个用户的带宽资源比例,可以确定出所述无人机基站分配给各个用户的带宽。
本发明实施例基于获取的当前环境状态和预置的动作网络,确定无人机基站的相关动作;根据相关动作,确定无人机基站的飞行路径和无人机基站分配给各个用户的带宽。这种将深度强化学习用于无人机基站路径规划和带宽资源分配的方法,为用户提供了较好的通信服务,计算复杂度低,并且即使用户是移动的,无人机基站也能通过调整飞行路径很好地处理用户移动等问题。
进一步地,在上述方法实施例的基础上,所述当前环境状态至少包括:所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息。
所述基于所述当前环境状态和预置的动作网络,确定无人机基站的相关动作,包括:
将所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息输入预置的动作网络中,得到所述无人机基站的相关动作。
在本发明实施例中,所述当前环境状态至少包括:所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息。
在本发明实施例中,所述各个用户的位置信息由用户设备搭载的GPS传感器检测得到。所述无人机基站从所述用户设备搭载的GPS传感器获取各个用户的位置信息。所述无人机基站的当前位置信息由无人机基站的GPS传感器检测得到。所述无人机基站的当前飞行速度由所述无人机基站的速度传感器检测得到。所述无人机基站的当前电池剩余电量由所述无人机基站的电量检测传感器检测得到。所述无人机基站的目标位置信息是根据实际需要预先设定好的位置信息。
在本发明实施例中,n时刻当前环境状态s(n)表达式为
Figure BDA0002386538910000081
其中,
Figure BDA0002386538910000082
是所有用户的位置信息,
Figure BDA0002386538910000083
是用户集合,数量为k,u(n)为无人机基站的当前位置信息,υ(n)为无人机基站的当前飞行速度,uc为无人机基站的目标位置信息,E(n)为无人机基站的当前电池剩余电量。
在本发明实施例中,将所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息作为预置的动作网络的输入,所述预置的动作网络的输出即为所述无人机基站的相关动作。
本发明实施例基于当前环境状态和预置的动作网络,确定无人机基站的相关动作。这种将预置的动作网络应用于无人机基站的方法,为用户提供了较好的通信服务。
进一步地,在上述方法实施例的基础上,所述相关动作至少包括:所述无人机基站的飞行速度、所述无人机基站的飞行方向和所述无人机基站分配给各个用户的带宽资源比例。
所述根据所述相关动作,确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽,包括:
根据所述飞行速度和所述飞行方向,确定所述无人机基站飞行路径;
根据所述无人机基站分配给各个用户的带宽资源比例,确定所述无人机基站分配给所述各个用户的带宽。
在本发明实施例中,所述相关动作至少包括:所述无人机基站的飞行速度、所述无人机基站的飞行方向和所述无人机基站分配给各个用户的带宽资源比例。其中,所述各个用户的带宽资源比例为无人机基站分配给用户的带宽占总带宽的比例。
在本发明实施例中,根据所述飞行速度和所述飞行方向,确定所述无人机基站飞行路径;根据所述无人机基站分配给各个用户的带宽资源比例,确定所述无人机基站分配给所述各个用户的带宽。具体地,有了无人机基站的飞行速度和飞行方向,可以确定无人机基站的飞行路径。无人机基站会为各个用户分配相应的带宽资源比例,将各个用户的相应的带宽资源比例分别乘以总的带宽,即可得到各个用户的带宽。
本发明实施例根据相关动作,确定无人机基站的飞行路径和无人机基站分配给各个用户的带宽,为各个用户提供了高能效且公平的服务。
进一步地,在上述方法实施例的基础上,所述预置的动作网络,是以环境状态作为动作网络的输入,在评价网络对其输出进行评价的基础上,进行训练得到。
在本发明实施例中,具体地,训练所述动作网络的过程如下:
将环境状态输入所述动作网络的输入层,并复制无人机基站的电池剩余能量维度,以解决环境状态中维度不平衡问题。将环境状态输入到所述动作网络中,经过神经元个数分别为100,150,150,50的四层隐藏层网络提取特征后,再经由所述动作网络的输出层输出所述无人机基站的相关动作a(n),其表达式为
Figure BDA0002386538910000101
其中,
Figure BDA0002386538910000102
是用户集合,υ(n+1)为无人机基站下一时刻的速度矢量,其包括飞行速度大小和飞行方向,采用球坐标系
Figure BDA0002386538910000103
表示;飞行速度利用Sigmoid函数进行激活,输出λυ∈(0,1),激活后乘上无人机基站最大速度υmax得到无人机基站的飞行速度,即υ=λυ·υmax;飞行方向采用球坐标系表示,其中
Figure BDA0002386538910000104
为极角,利用Sigmoid函数进行激活,输出
Figure BDA0002386538910000105
Figure BDA0002386538910000106
为方位角,利用Tanh函数进行激活,输出
Figure BDA0002386538910000107
带宽分配比例
Figure BDA0002386538910000108
表示无人机基站分给用户k的带宽占总带宽B的比例,利用Softmax函数进行激活,最终分配给用户k的带宽为
Figure BDA0002386538910000109
所述动作网络输出神经元数量为(K-1),与一个固定的值为0的参考神经元拼接,再经由Softmax函数激活,得到
Figure BDA00023865389100001010
以稳定训练过程。
无人机基站执行上述相关动作,根据传感器获取下一状态s(n+1),然后计算奖励值。奖励值的设计充分考虑用户的吞吐量,用户之间的公平,无人机基站飞行至目标位置的飞行任务,高度和速度约束。具体地,将奖励值分为三部分,公平吞吐量部分,飞行任务部分,以及约束部分。
首先,公平吞吐量部分
Figure BDA0002386538910000111
综合考虑吞吐量和用户之间公平性,κth为该部分奖励值常系数,
Figure BDA0002386538910000112
为当前时刻用户之间公平系数,Rc(n)为当前信道总容量,δt为相邻时刻时间间隔。公平系数
Figure BDA0002386538910000113
定义为
Figure BDA0002386538910000114
其中,fk(n)为当前时刻前用户k的吞吐量占总吞吐量的比重。
其次,飞行任务部分的奖励值旨在引导无人机在电量耗尽时抵达目标位置,目标位置可以是无人机基站的充电桩。
Figure BDA0002386538910000115
其中,ddis是相邻时刻无人机基站与目标位置之间的距离差,ζrd是无人机基站电池剩余能量分级间隔,当无人机基站电池剩余能量充裕时,该部分奖励值较小,无人机基站更集中于优化公平吞吐量,当无人机基站电池剩余能量较小时,该部分奖励值增大,无人机基站更倾向于飞向目标位置。κrd为常系数,用以调整缩放比例,∈rd是用来防止分母为0的量。除此之外,飞行任务部分还需要能够体现无人机基站电池剩余能量耗尽时是否抵达目标位置。
Figure BDA0002386538910000116
其中,Nt表示无人机基站电池剩余能量耗尽的时间,ξar为1时,表示在无人机基站电池剩余能量耗尽时,无人机基站到达目标位置,反之为0。κar为正常数,用以鼓励到达目标位置,而κnar为负常数来惩罚未到达目标位置的情况。
最后,约束部分的奖励值用来惩罚违反违法高度,加速度约束的情况。
rac(n)=ξac_υ(n)·κac
ral(n)=ξal_υ(n)·κal
ξac_υ(n)是加速度约束指示器,ξac_υ(n)为1表示前后时刻速度差超过加速度限制,反之为0。类似地,ξal_υ(n)为高度约束指示器。κac和κal为两个负常数,用来惩罚违反约束的情况。
综上,奖励值r(n)的表达式为
r(n)=rth(n)+rrd(n)+rar(n)+rac(n)+ral(n)
将产生的经验(s,a,r,s′)存入记忆库中。当记忆库中的经验足够多后,开始随机抽取小批量经验对评价网络和动作网络进行更新。
需要说明的是,评价网络与动作网络隐藏层结构一致,即神经元数量分别为100,150,100,50的四层隐藏层网络。输入层输入环境状态以及相关动作,经由隐藏层提取特征后,再由输出层输出对于该状态下选择该动作的评价。
需要说明的是,网络分为动作网络和评价网络两种,并且动作网络和评价网络均含有对应的目标网络。动作网络输入环境状态,输出无人机基站的相关动作,即π(s;θπ),网络权重为θπ;评价网络输入环境状态以及相关动作,输出对于该状态下选择该动作的评价,即Q(s;a;θQ),网络权重为θQ。动作目标网络和评价目标网络,π′(s;θπ′)和Q′(s;a;θQ′),是为了减少训练时数据之间的相关性以提高训练稳定性。其网络结构与其对应原网络一致,网络权重分别为θπ′和θQ′,其初始化权重与原网络一致。当记忆库中经验存满后,从中随机抽取Nb条经验(s(i);a(i);r(i);s(i+1))用于训练。首先利用自举法计算评价网络更新目标网络
yt(i)=r(i)+γQ′(s(i+1);π′(s(i+1);θπ′);θQ′)
对于评价网络来说,其损失函数为均方误差函数,具体为
Figure BDA0002386538910000121
利用Adam算法对损失函数进行优化,不断改进评价网络权重。动作网络的损失函数计算依赖于评价网络,利用策略梯度方法计算动作网络的更新梯度,其基础损失函数为
Figure BDA0002386538910000131
动作网络的输出层由于应用了Sigmoid和Tanh函数激活,会面临饱和问题,导致梯度消失。因此,在训练所述动作网络过程中,在所述动作网络损失函数中添加激活前神经元值大于预设阈值的损失,具体为
Figure BDA0002386538910000132
其中,κυ,
Figure BDA0002386538910000133
为损失系数,用以平衡各类损失之间的关系。χυ,
Figure BDA0002386538910000134
分别为λυ
Figure BDA0002386538910000135
激活前的值,即
Figure BDA0002386538910000136
也就是说,在训练所述动作网络过程中,在所述动作网络中添加激活前惩罚机制。动作网络也利用Adam算法对损失函数进行优化,不断改进动作网络权重。再对动作目标网络和评价目标网络进行软更新,即
θQ′=τθQ+(1-τ)θQ′
θπ′=τθπ+(1-τ)θπ′
其中,τ为软更新系数。
经过充足的训练后,单次任务累积奖励值不再有明显增加,则停止训练。训练好的动作网络,即预置的动作网络,可直接应用于无人机基站平台,给用户提供高能效且公平的服务,而评价网络只在训练阶段有效,实际部署并不需要。
本发明实施例通过对动作网络进行训练,将深度强化学习应用于无人机基站路径规划和带宽资源分配,为用户提供了较好的通信服务。
进一步地,在上述方法实施例的基础上,所述无人机基站路径规划和带宽资源分配方法还包括:
在训练所述动作网络之前,复制所述无人机基站的电池剩余能量维度,直到所述无人机基站的电池剩余能量维度多于预设能量维度阈值。
在本发明实施例中,若所述无人机基站的电池剩余能量维度较小,则可能被其他维度淹没。因此,在训练所述动作网络之前,先复制无人机基站的电池剩余能量维度,直到所述无人机基站的电池剩余能量维度多于所述预设能量维度阈值,从而防止了所述无人机基站的电池剩余能量维度被其他维度淹没。
本发明实施例通过在训练动作网络之前,复制无人机基站的电池剩余能量维度,使网络重视剩余能量信息,保证了在无人机基站电池剩余能量消耗前飞到终点。
进一步地,在上述方法实施例的基础上,所述无人机基站路径规划和带宽资源分配方法还包括:
在训练所述动作网络过程中,所述动作网络的前K-1个输出神经元与一个固定的值为0的参考神经元拼接;其中,K为所述动作网络的输出神经元的个数。
在本发明实施例中,为稳定训练过程,在训练所述动作网络过程中,将所述动作网络的前K-1个输出神经元与一个固定的值为0的参考神经元进行拼接;其中,K为所述动作网络的输出神经元的个数。
本发明实施例通过将所述动作网络的前K-1个输出神经元与一个固定的值为0的参考神经元进行拼接,稳定了动作网络训练过程。
进一步地,在上述方法实施例的基础上,所述无人机基站路径规划和带宽资源分配方法还包括:
在训练所述动作网络过程中,在所述动作网络的损失函数中添加激活前神经元值大于预设阈值的损失,具体为
Figure BDA0002386538910000151
其中,κυ,
Figure BDA0002386538910000152
为损失系数,χυ,
Figure BDA0002386538910000153
分别为λυ
Figure BDA0002386538910000154
激活前的值,
Figure BDA0002386538910000155
在本发明实施例中,为避免无人机基站乱飞以及提供较差的通信服务,在训练所述动作网络过程中,在所述动作网络的损失函数中添加激活前神经元值大于预设阈值的损失,具体为
Figure BDA0002386538910000156
其中,κυ,
Figure BDA0002386538910000157
为损失系数,χυ,
Figure BDA0002386538910000158
分别为λυ
Figure BDA0002386538910000159
激活前的值,
Figure BDA00023865389100001510
也就是说,在训练所述动作网络过程中,添加激活前惩罚机制。
本发明实施例通过添加激活前惩罚机制,避免了无人机基站乱飞,为用户提供了较好的通信服务。
图2示出了本实施例提供的一种无人机基站路径规划和带宽资源分配装置的结构示意图,所述装置包括:状态获取模块21、动作确定模块22及路径和带宽确定模块23;
所述状态获取模块21,用于获取当前环境状态;
所述动作确定模块22,用于基于所述当前环境状态和预置的动作网络,确定无人机基站的相关动作;
所述路径和带宽确定模块23,用于根据所述相关动作,确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽。
进一步地,在上述装置实施例的基础上,所述当前环境状态至少包括:所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息。
所述动作确定模块22,具体用于:
将所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息输入预置的动作网络中,得到所述无人机基站的相关动作。
进一步地,在上述装置实施例的基础上,所述相关动作至少包括:所述无人机基站的飞行速度、所述无人机基站的飞行方向和所述无人机基站分配给各个用户的带宽资源比例。
所述路径和带宽确定模块23,具体用于:
根据所述飞行速度和所述飞行方向,确定所述无人机基站飞行路径;
根据所述无人机基站分配给各个用户的带宽资源比例,确定所述无人机基站分配给所述各个用户的带宽。
进一步地,在上述装置实施例的基础上,所述预置的动作网络,是以环境状态作为动作网络的输入,在评价网络对其输出进行评价的基础上,进行训练得到。
进一步地,在上述装置实施例的基础上,所述无人机基站路径规划和带宽资源分配装置还包括:复制模块;
所述复制模块,用于在训练所述动作网络之前,复制所述无人机基站的电池剩余能量维度,直到所述无人机基站的电池剩余能量维度多于预设能量维度阈值。
进一步地,在上述装置实施例的基础上,所述无人机基站路径规划和带宽资源分配装置还包括:拼接模块;
所述拼接模块,用于在训练所述动作网络过程中,所述动作网络的前K-1个输出神经元与一个固定的值为0的参考神经元拼接;其中,K为所述动作网络的输出神经元的个数。
进一步地,在上述装置实施例的基础上,所述无人机基站路径规划和带宽资源分配装置还包括:添加模块;
所述添加模块,用于在训练所述动作网络过程中,在所述动作网络的损失函数中添加激活前神经元值大于预设阈值的损失,具体为
Figure BDA0002386538910000171
其中,κυ,
Figure BDA0002386538910000172
为损失系数,χυ,
Figure BDA0002386538910000173
分别为λυ
Figure BDA0002386538910000174
激活前的值,
Figure BDA0002386538910000175
本实施例所述的无人机基站路径规划和带宽资源分配装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
参照图3,所述电子设备,包括:处理器(processor)31、存储器(memory)32和总线33;
其中,
所述处理器31和存储器32通过所述总线33完成相互间的通信;
所述处理器31用于调用所述存储器32中的程序指令,以执行上述各方法实施例所提供的方法。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种无人机基站路径规划和带宽资源分配方法,其特征在于,包括:
获取当前环境状态;
基于所述当前环境状态和预置的动作网络,确定无人机基站的相关动作;
根据所述相关动作,确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽;
所述当前环境状态至少包括:所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息;
所述基于所述当前环境状态和预置的动作网络,确定无人机基站的相关动作,包括:
将所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息输入预置的动作网络中,得到所述无人机基站的相关动作;
所述无人机基站路径规划和带宽资源分配方法还包括:
在训练所述动作网络之前,复制所述无人机基站的电池剩余能量维度,直到所述无人机基站的电池剩余能量维度多于预设能量维度阈值。
2.根据权利要求1所述的无人机基站路径规划和带宽资源分配方法,其特征在于,所述相关动作至少包括:所述无人机基站的飞行速度、所述无人机基站的飞行方向和所述无人机基站分配给各个用户的带宽资源比例;
所述根据所述相关动作,确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽,包括:
根据所述飞行速度和所述飞行方向,确定所述无人机基站飞行路径;
根据所述无人机基站分配给各个用户的带宽资源比例,确定所述无人机基站分配给所述各个用户的带宽。
3.根据权利要求1所述的无人机基站路径规划和带宽资源分配方法,其特征在于,所述预置的动作网络,是以环境状态作为动作网络的输入,在评价网络对其输出进行评价的基础上,进行训练得到。
4.根据权利要求3所述的无人机基站路径规划和带宽资源分配方法,其特征在于,所述无人机基站路径规划和带宽资源分配方法还包括:
在训练所述动作网络过程中,所述动作网络的前K-1个输出神经元与一个固定的值为0的参考神经元拼接;其中,K为所述动作网络的输出神经元的个数。
5.根据权利要求3所述的无人机基站路径规划和带宽资源分配方法,其特征在于,所述无人机基站路径规划和带宽资源分配方法还包括:
在训练所述动作网络过程中,在所述动作网络的损失函数中添加激活前神经元值大于预设阈值的损失,具体为
Figure 159856DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
为网络权重,
Figure 820645DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
Figure 697334DEST_PATH_IMAGE006
为损失系数,
Figure DEST_PATH_IMAGE007
Figure 582113DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
分别为
Figure 914393DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
Figure 175610DEST_PATH_IMAGE012
激活前的 值,
Figure DEST_PATH_IMAGE013
Figure 703543DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
6.一种无人机基站路径规划和带宽资源分配装置,其特征在于,包括:状态获取模块、动作确定模块及路径和带宽确定模块;
所述状态获取模块,用于获取当前环境状态;所述当前环境状态至少包括:各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息;
所述动作确定模块,用于基于所述当前环境状态和预置的动作网络,确定无人机基站的相关动作;所述基于所述当前环境状态和预置的动作网络,确定无人机基站的相关动作,包括:
将所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息输入预置的动作网络中,得到所述无人机基站的相关动作;
在训练所述动作网络之前,复制所述无人机基站的电池剩余能量维度,直到所述无人机基站的电池剩余能量维度多于预设能量维度阈值;
所述路径和带宽确定模块,用于根据所述相关动作,确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一所述的无人机基站路径规划和带宽资源分配方法。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一所述的无人机基站路径规划和带宽资源分配方法。
CN202010099715.2A 2020-02-18 2020-02-18 一种无人机基站路径规划和带宽资源分配方法及装置 Active CN111385806B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010099715.2A CN111385806B (zh) 2020-02-18 2020-02-18 一种无人机基站路径规划和带宽资源分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010099715.2A CN111385806B (zh) 2020-02-18 2020-02-18 一种无人机基站路径规划和带宽资源分配方法及装置

Publications (2)

Publication Number Publication Date
CN111385806A CN111385806A (zh) 2020-07-07
CN111385806B true CN111385806B (zh) 2021-10-26

Family

ID=71217028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010099715.2A Active CN111385806B (zh) 2020-02-18 2020-02-18 一种无人机基站路径规划和带宽资源分配方法及装置

Country Status (1)

Country Link
CN (1) CN111385806B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112161626B (zh) * 2020-09-21 2022-05-17 北京航空航天大学 一种基于航路跟踪映射网络的高可飞性航路规划方法
CN114142908B (zh) * 2021-09-17 2022-12-09 北京航空航天大学 一种面向覆盖侦察任务的多无人机通信资源分配方法
CN116704823B (zh) * 2023-06-12 2023-12-19 大连理工大学 基于强化学习的无人机智能轨迹规划和通感资源分配方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109032168A (zh) * 2018-05-07 2018-12-18 西安电子科技大学 一种基于dqn的多无人机协同区域监视的航路规划方法
CN110213796A (zh) * 2019-05-28 2019-09-06 大连理工大学 一种车联网中的智能资源分配方法
CN110381444A (zh) * 2019-06-24 2019-10-25 广东工业大学 一种无人机轨迹优化及资源分配方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9818303B2 (en) * 2015-06-16 2017-11-14 Verizon Patent And Licensing Inc. Dynamic navigation of UAVs using three dimensional network coverage information
CN107479368B (zh) * 2017-06-30 2021-09-21 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109032168A (zh) * 2018-05-07 2018-12-18 西安电子科技大学 一种基于dqn的多无人机协同区域监视的航路规划方法
CN110213796A (zh) * 2019-05-28 2019-09-06 大连理工大学 一种车联网中的智能资源分配方法
CN110381444A (zh) * 2019-06-24 2019-10-25 广东工业大学 一种无人机轨迹优化及资源分配方法
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Intelligent Trajectory Design in UAV-Aided Communications With Reinforcement Learning";Sixing Yin;《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》;20190617;第68卷(第8期);全文 *
"空地协作组网的无人机位置部署及能量优化机制研究";郜富晓;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20200115;全文 *

Also Published As

Publication number Publication date
CN111385806A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN111385806B (zh) 一种无人机基站路径规划和带宽资源分配方法及装置
CN111694365B (zh) 一种基于深度强化学习的无人船艇编队路径跟踪方法
CN111061277B (zh) 一种无人车全局路径规划方法和装置
WO2022007179A1 (zh) 一种多agv运动规划方法、装置和系统
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN109884897B (zh) 一种基于深度强化学习的无人机任务匹配与计算迁移方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN111399541A (zh) 无监督学习型神经网络的无人机全区域侦察路径规划方法
CN114415735B (zh) 面向动态环境的多无人机分布式智能任务分配方法
CN111813144B (zh) 一种基于改进羊群算法的多无人机协同航路规划方法
CN113561986A (zh) 自动驾驶汽车决策方法及装置
CN114721429A (zh) 基于改进差分进化算法的三维无人机航迹规划方法及装置
CN113962390B (zh) 基于深度强化学习网络构建多样化搜索策略的模型的方法
CN113110546B (zh) 一种基于离线强化学习的无人机自主飞行控制方法
CN114074680B (zh) 基于深度强化学习的车辆换道行为决策方法及系统
CN115270506B (zh) 一种人群沿楼梯上行的通行时间预测方法及系统
CN110427690A (zh) 一种基于全局粒子群算法生成ato速度曲线的方法及装置
Tagliaferri et al. A real-time strategy-decision program for sailing yacht races
CN114167756A (zh) 多无人机协同空战决策自主学习及半实物仿真验证方法
CN115019523A (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
CN113239472A (zh) 一种基于强化学习的导弹制导方法和装置
CN112034880A (zh) 一种新型多无人机协同航路规划方法
CN113708982B (zh) 一种基于群体学习的服务功能链部署方法及系统
CN115743248A (zh) 列车时刻表确定方法、装置、设备及介质
CN109658742B (zh) 基于前序飞行信息的密集飞行自主冲突解脱方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant