CN110531617B - 多无人机3d悬停位置联合优化方法、装置和无人机基站 - Google Patents
多无人机3d悬停位置联合优化方法、装置和无人机基站 Download PDFInfo
- Publication number
- CN110531617B CN110531617B CN201910695765.4A CN201910695765A CN110531617B CN 110531617 B CN110531617 B CN 110531617B CN 201910695765 A CN201910695765 A CN 201910695765A CN 110531617 B CN110531617 B CN 110531617B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- strategy
- gradient
- aerial vehicle
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000005457 optimization Methods 0.000 title claims abstract description 43
- 230000006870 function Effects 0.000 claims abstract description 82
- 230000002787 reinforcement Effects 0.000 claims abstract description 39
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000004891 communication Methods 0.000 claims description 52
- 230000009471 action Effects 0.000 claims description 42
- 238000011156 evaluation Methods 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000009795 derivation Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 abstract description 5
- 230000007613 environmental effect Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000033001 locomotion Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
- G05B13/027—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/048—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators using a predictor
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/04—Control of altitude or depth
- G05D1/042—Control of altitude or depth specially adapted for aircraft
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W56/00—Synchronisation arrangements
- H04W56/001—Synchronization between nodes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W64/00—Locating users or terminals or network equipment for network management purposes, e.g. mobility management
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Mobile Radio Communication Systems (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了多无人机3D悬停位置联合优化方法、装置和无人机基站。该方法首先获取无人机所处的异构网络的状态信息;将状态信息输入预先构建的深度强化学习网络,通过当前策略决策下一时刻的悬停位置,并从环境中获得无人机在当前时刻的悬停位置的回报函数值;基于异策略深度确定梯度策略算法,求取更新的梯度,多个无人机同步更新策略参数;根据更新梯度,迭代执行从获取状态信息到同步更新多个无人机的策略参数的步骤,使目标策略函数逐渐收敛,直至得到最优策略。该装置包括状态获取单元、回报单元、梯度更新单元和训练单元。无人机基站,其处理器可执行本发明方法。本发明实现了多无人机在环境中自主学习,可以适应动态、非平稳的环境变化。
Description
技术领域
本发明涉及无线通信技术领域,特别涉及多无人机3D悬停位置联合优化方法、装置和无人机基站。
背景技术
多无人机悬停位置优化技术是无人机通信系统中不可或缺的一个关键技术,无线通信系统正在向多元化、异构的形式发展。在异构网络中,宏基站、小基站以及无人机基站同时存在。无人机基站的悬停位置决定了无人机与地面通信终端的通信速率,以及对通信系统中其他基站的干扰噪声,并间接影响了地面基站的通信负载。
目前用于多无人机悬停位置优化的方法主要为博弈均衡的方法。如一篇申请号为“201810766194.4”的中国专利申请,公开了一种基于离散平均场博弈的多无人机空对地无线通信方法。该方法首先根据通信链路传输速率阈值以及无人机能耗构造出相应的成本函数,并制定出一个使长期平均成本函数最小的优化问题。其次建立离散时间平均场博弈模型,通过不断迭代更新得到功率和速度的最优控制。该发明在进行多无人机功率和速度优化时,运用离散时间场博弈的方法,综合无人机传输速率的阈值和无人机耗能构造目标成本函数,最小化平均成本函数得到最优功率控制和最优速度控制,解决了现有技术中多无人机通信链路成功率和能量效率低的问题。
然而该现有方案在运用博弈均衡方法进行优化时,通常对无线通信环境有着极强的假设,如下述假设:1)地面通信终端静止,因此得到的无人机优化控制仅仅是针对一个真实网络的瞬间状态;2)无人机与地面通信终端仅建立一对一的静态链接;3)假设无人机仅在竖直方向上运动,水平方向上保持静止,以及二维状态的联合估计取定值;4)单一基站类型等。以上假设极大地限制了无人机系统的运作机制,无法适用于多基站类型的异构网络,与真实场景差距较大。
综上,现有技术中的无人机悬停位置优化方法,由于受限制因素较多,无法适用于实际通信环境。
发明内容
本发明的目的是提出一种多无人机3D悬停位置联合优化方法、装置和无人机基站,以解决上述技术问题。
为实现上述目的,本发明提供了如下方案:
本发明实施例的第一个方面,提供了一种多无人机3D悬停位置联合优化方法,包括如下步骤:
获取无人机所处的异构网络的状态信息;
将状态信息输入预先构建的深度强化学习网络,通过当前策略决策下一时刻的悬停位置,并从环境中获得无人机在当前时刻的悬停位置的回报函数值;
基于异策略深度确定梯度策略算法,求取更新的梯度,多个无人机同步更新策略参数;
根据梯度,迭代执行从获取状态信息到同步更新多个无人机的策略参数的步骤,使目标策略函数逐渐收敛,直至得到最优策略。
可选的,基于异策略深度确定梯度策略算法,求取更新梯度,多个无人机同步更新策略参数,包括:
利用异策略深度确定梯度策略算法,计算目标策略函数更新的梯度;
基于预先建立的多无人机共享一服务器的分布式平行学习框架,多个无人机将计算得到的梯度上传至同一服务器;
根据服务器进行全局参数更新后反馈的策略参数,多个无人机进行同步更新。
可选的,获取无人机所处的异构网络的状态信息,包括获取如下状态信息:每个无人机与地面基站的欧氏距离、每个地面基站的通信负载、地面基站的平均负载和每个无人机拥有的边缘用户的比例;
和/或,从环境中获得无人机在当前时刻的悬停位置的回报函数值,包括对吞吐量回报和能量回报进行求和,得到回报函数值:
其中,表示t时刻的吞吐量回报;表示t时刻的能量回报,等同于传输信息需要的发射功率;α是平衡吞吐量最大和能量损耗最小的参数;表示t时刻的通信终端u连接地面基站所需要的物理资源块;表示t时刻的通信终端u连接无人机所需要的物理资源块。
可选的,在获取无人机所处的异构网络的状态信息,之前还包括步骤:将强化学习网络和深度神经网络相结合,预先构建深度强化学习网络;所述深度强化学习网络包括评价网络和行动网络;
利用异策略深度确定梯度策略算法,计算目标策略函数的梯度,包括步骤:评价网络通过目标策略函数拟合出状态-行动值函数,并向行动网络提供状态-行动值函数的更新梯度;行动网络,根据评价网络提供的更新梯度,对目标策略函数进行梯度更新,得到当前待执行的目标策略。
可选的,应用经验回放和小批量学习,估算出评价网络的第一参数梯度,包括:
在t时刻,无人机m当前状态由经动作转换到状态并得到回报函数生成状态转换元组并存储在本地经验回放池Dm;从所述经验回放池中随机取出预设数量的训练样本,用于更新评价网络的第二参数ωm;运用基于小批量学习的随机梯度下降方法估算出第二参数ωm的梯度为:
其中为第二参数梯度;K为随机取出的训练样本的数量;为拟合出的状态-行为值函数;γ为折扣因子,取值范围γ∈[0,1];si+1表示下一时刻的状态;表示下一时刻状态下的策略;表示在状态si、动作条件下的回报函数值;为基于当前回报函数值和状态-行为值函数估计出的修正值;表示对ωm求导;
和/或,行动网络得到的第一参数θ的梯度如下:
可选的,该方法还包括步骤:
其中τ为固定更新步长,上式中加上右上角标t均表示在t时刻的对应各参数。
本发明实施例的第二个方面,还提供一种多无人机3D悬停位置联合优化装置,包括状态获取单元、回报单元、梯度更新单元和训练单元;
状态获取单元,用于获取无人机所处的异构网络的状态信息;
回报单元,用于将状态信息输入预先构建的深度强化学习网络,通过当前策略决策下一时刻的悬停位置,并从环境中获得无人机在当前时刻的所述悬停位置的回报函数值;
梯度更新单元,用于基于异策略深度确定梯度策略算法,求取更新梯度,对多个无人机的策略参数进行同步更新;
训练单元,用于根据梯度,迭代执行从获取状态信息到同步更新多个无人机的策略参数的步骤,使目标策略函数逐渐收敛,直至得到最优策略。
可选的,梯度更新单元,用于:
利用异策略深度确定梯度策略算法,计算目标策略函数更新的梯度;
基于预先建立的多无人机共享一服务器的分布式平行学习框架,多个无人机将计算得到的梯度上传至同一服务器;
根据服务器进行全局参数更新后反馈的策略参数,对多个无人机的策略参数进行同步更新。
可选的,状态获取单元,用于获取如下状态信息:每个无人机与地面基站的欧氏距离、每个地面基站的通信负载、地面基站的平均负载和每个无人机拥有的边缘用户的比例;
回报单元,用于对吞吐量回报和能量回报进行求和,得到回报函数:
其中,表示t时刻的吞吐量回报;表示t时刻的能量回报,等同于传输信息需要的发射功率;α是平衡吞吐量最大和能量损耗最小的参数;表示t时刻的通信终端u连接地面基站所需要的物理资源块;表示t时刻的通信终端u连接无人机所需要的物理资源块。
本发明实施例的第三个方面,还提供一种无人机基站,包括处理器,该处理器用于执行上述多无人机3D悬停位置联合优化方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了多无人机3D悬停位置联合优化方法、装置和无人机基站,实时获取异构网络的状态信息,以该状态信息作为深度强化学习网络的输入,并从通信环境获得在当前状态下执行当前策略后的下一时刻的悬停位置的回报函数,根据异策略深度确定梯度策略算法求取出更新梯度,对深度强化学习网络进行训练,使目标策略函数逐渐收敛,进而得到下一时刻使回报最大化的悬停策略。本发明在多无人机悬停位置优化中引入了深度强化学习技术,具体通过异策略深度确定梯度策略算法,实现多无人机在环境中自主学习并更新策略,减小样本之间的相关性,快速高效输出新的优化后的悬停位置,同时还可以适应动态、非平稳的环境变化;同时,该方法能够适用于异构网络的通信环境,不受通信基站为单一类型等因素的限制,更具实际应用价值;
进一步地,本发明建立了多无人机分布式平行学习的框架,其中使用了中心化的同于更新策略参数的服务器进行全局参数的更新,共享了无人机之间的学习经验,提升了整体的学习效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明多无人机3D悬停位置联合优化方法的一个实施例的流程示意图;
图2为本发明多无人机3D悬停位置联合优化方法的另一个实施例中整体结构及相关数据交互示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例1提供了一种多无人机3D悬停位置联合优化方法,如图1所示,该方法包括如下步骤:
S101,获取无人机所处的异构网络的状态信息。
S102,将状态信息输入预先构建的深度强化学习网络,通过当前策略决策下一时刻的悬停位置。
策略即从状态到动作的映射。
S103,并从环境中获得无人机在当前时刻的悬停位置的回报函数值。
S104,基于异策略深度确定梯度策略算法,求取更新的梯度。
S105,多个无人机同步更新策略参数。
S106,根据步骤S104求取出的梯度,迭代执行从获取状态信息到同步更新多个无人机的策略参数的步骤,使目标策略函数逐渐收敛,直至得到最优策略。
本发明将深度强化学习技术引入多无人机悬停位置优化中,融合了基于异策略确定策略梯度OPDPG算法的强化学习方法和深度神经网络;使无人机拥有通过大量飞行数据进行自我学习的能力,实现了对多无人机的悬停位置进行联合优化,完成信息的更高能效传输,且该方案能够适用于异构网络,更贴合实际应用需求。
实施例2
本发明实施例2提供一种多无人机3D悬停位置联合优化方法的另一个实施例。
本发明实施例2提供的优化方法的主体流程图如图2所示。本发明实施例应用的场景为地面宏基站、地面微基站、无人机基站同时存在的异构网络,地面通信终端通过判决信号接收功率(RSRP)的大小,选择进行连接的基站。当相邻的基站信号接收功率满足切换条件时,终端切换连接的基站。
在该实施例中,首先获取异构网络的环境的状态信息,输入预先建立的深度强化学习网络,网络通过当前策略函数决策下一个时刻的悬停位置,并从环境中获得无人机在此行为下的回报函数。每个无人机分布式地利用异策略深度确定梯度策略算法(off-policy deterministic policy gradient,OPDPG)计算目标策略函数的梯度,同时无人机之间共用一个参数服务器,上传策略函数的梯度联合进行全局参数的更新,经过多次状态输入、行动决策、奖励回报、参数更新的过程,目标优化策略逐渐收敛,适应环境并得到最优策略。
具体地,该实施例提供的优化方法包括步骤:
S200,初始化深度强化学习的各个参数,随机分布无人机基站的初始悬停位置。
S201,获取状态信息。
为应对不同基站类型,首先需要观测计算无人机此时所处的通信环境的状态,实时获取每个无人机与地面基站的欧氏距离、每个地面基站的通信负载、地面基站的平均负载以及每个无人机拥有的边缘用户的比例,作为状态信息,并输入预见构建的深度强化学习网络。
S202,通过当前策略决策下一时刻的悬停位置,并从环境中获得无人机在当前时刻的悬停位置的回报函数值。
S203,将当前时刻、根据当前策略所采取的动作、无人机与环境交互获得的回报函数以及下一个时刻的状态,以(当前时刻,采取行动,奖励回报,下一个时刻状态)转换元组的形式储存,作为历史转换元祖存入经验回放池。
S204,无人机从历史转换元组中随机选择一小部分,利用小批量转换元组对深度强化学习网络进行训练,计算评价网络以及行动网络的相关参数的梯度,并将梯度传送至参数服务器。
选取的小批量转换元组的数目可由本领域技术人员根据实际需要具体设定。
S205得到所有无人机的网络参数梯度后,全局联合更新得到新的网络参数。
返回步骤S201重复上述操作,直至无人机任务结束。
在本发明实施例2中,利用参数服务器中的参数值,同步更新每一个无人机基站中深度强化学习网络的参数,共享了无人机之间的学习经验,提升了整体的学习效率。
实施例3
本发明实施例3提供一种多无人机3D悬停位置联合优化方法的再一个优选实施例。
在OPDPG算法中,采用异策略学习方式,因此训练得到的此目标策略和探索环境的行动策略互不相同。目标策略是一个确定方程,在给定状态si下ai=π(si),用于无人机贪婪地选取最优行动。然而贪婪算法无法保证对环境状态进行充分探索学习,因此引入行动策略β(a|s),以随机过程的方式采取行动,用于无人机探索未知的环境。
在本发明实施例中,OPDPG算法运用了行动-评价方法。行动-评价的方法结合了基于值函数和基于策略梯度的强化学习方法,继承了策略梯度算法可以在连续动作空间做出动作决策的优点,同时改善了其基于回合更新的低效率学习特点。
该实施例提供的优化方法主要包括步骤:
S300,预先构建深度强化学习网络。
首先需要在无人机飞行前构建模型基础网络结构,将强化学习网络和深度神经网络相结合,得到深度强化学习网络,由行动网络和评价网络两部分组成。
S301,获取异构网络的状态信息。
本发明实施例考虑的场景仍为基于多无人机基站的异构网络。假设该异构网络中有M个无人机基站,K个地面基站,U个地面通信终端,分别用集合M,K,U表示。
该步骤S301用于获取每个无人机与地面基站的欧氏距离、每个地面基站的通信负载、地面基站的平均负载和每个无人机拥有的边缘用户的比例。
作为一种可实施方式,边缘用户根据用户的接收SINR(信号与干扰加噪声比,Signal to Interference plus Noise Ratio)大小来定义。简单来说,信号接收质量差的用户即为边缘用户。实际操作中可将接收SINR低于特定值的用户判定为边缘用户,但具体判定的SINR阈值需根据环境参数与仿真结果来调整,并不唯一,本发明不一一列举。
具体步骤如下:
S3011,计算路径损耗。
无人机基站与地面通信终端连接的通信信道,使用sub-6GHz频段的频率,视线传输(LoS)在该无线链路中占主导地位。无人机基站m∈M与地面通信终端u∈U的平均路径损耗可以表示为:
地面基站k∈K与地面通信终端u的平均路径损耗可以表示为:
S3012,计算吞吐量。
地面通信终端u接收来自无人机基站m信息的信噪比(SINR)可以表示为:
其中代表无人机基站m的传输功率,代表t时刻无人机基站m与地面设备u之间信道的增益,N0为噪声功率。假定所有设备的传输功率和噪声功率相同,信道增益只受路径损耗决定,所以而且无人机移动带来的多普勒效应可以用现有技术完美补偿,如锁相环技术。因此,设备u向无人机传输的最大速率可以表示为:
B代表信道带宽,假定所有终端的带宽相同。
S3013,计算地面基站的通信负载。
其中Nc是防止信道质量过低导致占用大量物理资源块的常数限制。最终,地面基站的通信负载可以定义为:
地面基站的平均负载即多个地面基站的通信负载的均值。
S3014,将各状态信息量化表示。
异构网络的状态可以被特征化为如下:
地面基站的通信负载ρk,k∈K;
边缘用户的比例Ek,k∈K。
因此,异构网络的状态可以表示为:
S302,以当前状态信息作为深度强化学习网络模型的输入,基于当前策略得到下一时刻的悬停位置,并求取回报函数。
强化学习的目标是通过选择行为最大化累计回报,寻找最优策略。通常面对未知的动态环境利用马尔科夫决策过程(MDP)进行建模,其包含状态空间S,行动空间A,回报函数r:S×A→R1,以及满足马尔可夫性的状态转移概率p(st+1|s1,a1,…,st,at)=p(st+1|st,at)。在每个状态st,无人机用户通过策略与环境交互,策略是指状态到动作的映射。
在建模过程中,需要将动作进行量化表示。考虑无人机在三维空间内的x轴、y轴、z轴方向均可以移动。特别的,无人机基站m在t时刻的动作包括:i)x轴方向的移动距离ii)y轴方向的移动距离iii)z轴方向的移动距离在每个方向上,无人机移动的距离是连续、有界的。在t时刻,所有无人机采取的动作用符号表示。
在本发明实施例中,回报函数由吞吐量回报和能量回报组合构成。吞吐量回报部分定义为用户从连接地面基站到连接无人机基站所需要的物理资源块减少量,可以表示为:
其中Um'代表选择连接无人机基站的地面通信终端集合。能量回报部分定义为传输信息需要的发射功率,可以表示为:
总回报可以表示为吞吐量回报和能量回报的求和:
其中α是平衡吞吐量最大和能量损耗最小的参数,最终实现提升通信系统的能量效率。
S303,建立目标方程。
在强化学习中,状态s在策略πθ下的状态值方程被定义为长期累积的回报。当状态为s时,无人机基站m的价值方程可以定义为:
γ为折扣因子,取值范围γ∈[0,1]。相似的,状态-行为值方程可以定义为:
无人机m的强化学习的目标方程定义为:
因此,基于深度强化学习的高能效无人机3D悬停位置优化问题为:
其中,C1,C2,C3限制了无人机动作的界限,C4,C5,C6限制了无人机在三维空间可以悬停位置的边界,C7限制了用户只能与一个基站建立连接。
S304,求取更新梯度。
为解决目标问题得到目标策略,需要计算目标方程的梯度,在确定策略πθ下,目标方程(即目标策略函数)的梯度可以计算得到:
评价网络和行动网络分别包括对应的深度神经网络,评价网络中的深度神经网络拟合状态行动函数,行动网络中的深度神经网络表示确定性目标策略,更新时评价网络向行动网络提供状态行动函数的策略梯度作为联系。
具体地,评价网络通过目标策略函数π(s)估计状态-行动值函数而行动网络基于预测的状态-行动值函数进行梯度更新目标策略。深度神经网络作为函数估计器,用于对状态-行动值函数的估计,以及对目标策略πθ(s)的优化,其中ωm和θ分别为深度强化学习的参数。状态行动函数即Q函数,表示在π策略条件下对应的Q函数,这个函数是待拟合函数;则正是对的拟合,其中ωm是Q函数中的待优化参数,θ为目标策略函数π的待优化参数。
优选地,深度神经网络应用经验回放和小批量学习,可以很好的克服经验数据的相关性和非平稳分布并高效利用历史数据。
应用经验回放和小批量学习的具体过程如下:
在t时刻,无人机m的行动学习机基于行动策略采取行动当前状态由转换到并得到回报于是生成状态转换元组并存储在本地经验回放池Dm。从经验回放池中随机取出小批量训练样本,用于更新评价网络的参数ωm,首先定义损失函数为:
其中,
接下来,运用基于小批量学习的随机梯度下降方法估算目标方程的梯度,
其中K为随机取出的训练样本的数量,即小批量数据的数目大小。其中为第二参数梯度;K为随机取出的训练样本的数量;为拟合出的状态-行为值函数;γ为折扣因子,取值范围γ∈[0,1];si+1表示下一时刻的状态;表示下一时刻状态下的策略;表示在状态si、动作条件下的回报函数值;为基于当前回报函数值和状态-行为值函数(Q函数)估计出的修正值;
S305,多无人机同步更新。
更优地,在本发明实施例中引入引导状态-行为值函数和引导目标策略其中和分别是两个深度神经网络的参数,并与ωm和θm相互独立,可以进一步减小数据的相关性,从而减小策略梯度参数更新时的方差,降低迭代更新时的计算复杂度,提升学习效率。
具体地,额外应用两个和上述结构相同的深度神经网络,分别是引导评价网络和引导行动网络,分别用于表示得出引导状态-行为值函数和引导目标策略在实现中,两个深度神经网络的参数更新应比较缓慢,使策略更容易收敛,参数更新如下:
其中τ作为固定更新步长,τ<<1。
本发明实施例在多无人机悬停位置优化中引入了深度强化学习技术,具体采用深度确定策略梯度算法,使多无人机在环境中自主学习,更新策略,并且减小样本之间的相关性,快速高效输出新的优化后的悬停位置,同时还可以适应动态、非平稳的环境变化;
本发明实施例通过采用多无人机间平行探索学习的框架,在所有无人机采取行动后,获得状态转换元组,通过深度神经网络得到参数更新梯度;使用了中心化的参数服务器进行全局参数的更新,共享了无人机之间的学习经验,提升了整体的学习效率;并缓慢更新引导目标网络,使目标策略函数更易收敛。
实施例4
本发明实施例还提供一种基于深度强化学习的无人机轨迹优化装置,包括状态获取单元、回报单元、梯度更新单元和训练单元。
状态获取单元,用于获取无人机所处的异构网络的状态信息。
回报单元,用于将状态信息输入预先构建的深度强化学习网络,通过当前策略决策下一时刻的悬停位置,并从环境中获得无人机在当前时刻的悬停位置的回报函数值。
梯度更新单元,用于基于异策略深度确定梯度策略算法,求取更新梯度,对多个无人机的策略参数进行同步更新。
训练单元,用于根据更新梯度,迭代执行从获取状态信息到同步更新多个无人机的策略参数的步骤,使目标策略函数逐渐收敛,直至得到最优策略。
实施例5
本发明实施例还提供一种无人机基站,包括处理器,该处理器用于执行本发明提供的基于深度强化学习的无人机轨迹优化方法。
综上,本发明引入了深度强化学习技术,提出了基于异策略的深度确定策略梯度算法的联合学习方案,相比于现有技术中的无人机悬停位置优化方法,本发明达到了如下技术效果:
首先,本发明在适应场景及环境的能力强于现有技术中的“一种基于离散平均场博弈的多无人机空对地无线通信方法”。由于本发明引入深度强化学习算法,在学习的过程中不断优化策略函数,而不是采用固定形式的平均场函数,因此具有更强的灵活性,面对变化、非平稳的环境也可以自主学习进行适应;
其次,本发明通过采用多无人机间平行探索学习的框架,在所有无人机采取行动后,获得状态转换元组,通过深度神经网络得到参数更新梯度,参数服务器综合所有无人机的更新梯度,对参数进行全局优化,相比现有技术提升了优化学习效率;
再者,本发明训练过程的输入以及输出的数据对象均可为三维连续数据,不限制地面通信终端是否移动,即本发明提供的优化方案适用于连续三维空间下的无人机悬停位置优化、异构基站组成、终端动态移动等应用场景,对比现有技术更符合真实场景需求,实用性更强。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外先、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
Claims (10)
1.多无人机3D悬停位置联合优化方法,其特征在于,包括如下步骤:
获取无人机所处的异构网络的状态信息;
将所述状态信息输入预先构建的深度强化学习网络,通过当前策略决策下一时刻的悬停位置,并从环境中获得无人机在当前时刻的所述悬停位置的回报函数值;
基于异策略深度确定梯度策略算法,求取更新的梯度,多个所述无人机同步更新策略参数;
根据所述梯度,迭代执行从获取所述状态信息到同步更新多个所述无人机的策略参数的步骤,使目标策略函数逐渐收敛,直至得到最优策略。
2.根据权利要求1所述的多无人机3D悬停位置联合优化方法,其特征在于,所述基于异策略深度确定梯度策略算法,求取更新梯度,多个所述无人机同步更新策略参数,包括:
利用异策略深度确定梯度策略算法,计算所述目标策略函数更新的梯度;
基于预先建立的多无人机共享一服务器的分布式平行学习框架,多个所述无人机将计算得到的所述梯度上传至同一服务器;
根据所述服务器进行全局参数更新后反馈的策略参数,多个所述无人机进行同步更新。
3.根据权利要求1所述的多无人机3D悬停位置联合优化方法,其特征在于:
所述获取无人机所处的异构网络的状态信息,包括获取如下状态信息:每个无人机与地面基站的欧氏距离、每个地面基站的通信负载、地面基站的平均负载和每个无人机拥有的边缘用户的比例;
和/或,所述从环境中获得无人机在当前时刻的所述悬停位置的回报函数值,包括对吞吐量回报和能量回报进行求和,得到回报函数值:
rt m=rt m,throughput+α·rt m,power;
4.根据权利要求2所述的多无人机3D悬停位置联合优化方法,其特征在于:
在获取无人机所处的异构网络的状态信息,之前还包括步骤:将强化学习网络和深度神经网络相结合,预先构建深度强化学习网络;所述深度强化学习网络包括评价网络和行动网络;
所述利用异策略深度确定梯度策略算法,计算所述目标策略函数更新的梯度包括步骤:所述评价网络通过所述目标策略函数拟合出状态-行动值函数,并向所述行动网络提供所述状态-行动值函数的更新梯度;所述行动网络,根据所述评价网络提供的更新梯度,对所述目标策略函数进行梯度更新,得到当前待执行的目标策略。
5.根据权利要求4所述的多无人机3D悬停位置联合优化方法,其特征在于:
所述方法还包括应用经验回放和小批量学习,估算出所述评价网络的第二参数梯度,具体包括:
在t时刻,无人机m当前状态由经动作转换到状态并得到回报函数rt m,生成状态转换元组并存储在本地经验回放池Dm;从所述经验回放池中随机取出预设数量的训练样本,用于更新评价网络的第二参数ωm;运用基于小批量学习的随机梯度下降方法估算出第二参数ωm的梯度为:
其中为第二参数梯度;K为随机取出的训练样本的数量;为拟合出的状态-行为值函数;γ为折扣因子,取值范围γ∈[0,1];si+1表示下一时刻的状态;表示下一时刻状态下的策略;表示在状态si、动作条件下的回报函数值;为基于当前回报函数值和状态-行为值函数估计出的修正值;表示对ωm求导;表示无人机m的目标策略;表示当前时刻状态si对应的策略;
和/或,所述行动网络得到的第一参数θ的梯度如下:
7.多无人机3D悬停位置联合优化装置,其特征在于,包括状态获取单元、回报单元、梯度更新单元和训练单元;
所述状态获取单元,用于获取无人机所处的异构网络的状态信息;
所述回报单元,用于将所述状态信息输入预先构建的深度强化学习网络,通过当前策略决策下一时刻的悬停位置,并从环境中获得无人机在当前时刻的所述悬停位置的回报函数值;
所述梯度更新单元,用于基于异策略深度确定梯度策略算法,求取更新梯度,对多个所述无人机的策略参数进行同步更新;
所述训练单元,用于根据所述梯度,迭代执行从获取所述状态信息到同步更新多个所述无人机的策略参数的步骤,使目标策略函数逐渐收敛,直至得到最优策略。
8.根据权利要求7所述的多无人机3D悬停位置联合优化装置,其特征在于,所述梯度更新单元,用于:
利用异策略深度确定梯度策略算法,计算目标策略函数更新的梯度;
基于预先建立的多无人机共享一服务器的分布式平行学习框架,多个所述无人机将计算得到的所述梯度上传至同一服务器;
根据所述服务器进行全局参数更新后反馈的策略参数,对多个所述无人机的策略参数进行同步更新。
9.根据权利要求7所述的多无人机3D悬停位置联合优化装置,其特征在于:
所述状态获取单元,用于获取如下状态信息:每个无人机与地面基站的欧氏距离、每个地面基站的通信负载、地面基站的平均负载和每个无人机拥有的边缘用户的比例;
所述回报单元,用于对吞吐量回报和能量回报进行求和,得到回报函数:
rt m=rt m,throughput+α·rt m,power;
10.一种无人机基站,包括处理器,其特征在于,所述处理器用于执行权利要求1-6任一项所述的多无人机3D悬停位置联合优化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910695765.4A CN110531617B (zh) | 2019-07-30 | 2019-07-30 | 多无人机3d悬停位置联合优化方法、装置和无人机基站 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910695765.4A CN110531617B (zh) | 2019-07-30 | 2019-07-30 | 多无人机3d悬停位置联合优化方法、装置和无人机基站 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110531617A CN110531617A (zh) | 2019-12-03 |
CN110531617B true CN110531617B (zh) | 2021-01-08 |
Family
ID=68662132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910695765.4A Active CN110531617B (zh) | 2019-07-30 | 2019-07-30 | 多无人机3d悬停位置联合优化方法、装置和无人机基站 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110531617B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111381499B (zh) * | 2020-03-10 | 2022-09-27 | 东南大学 | 基于三维空间射频地图学习的网联飞行器自适应控制方法 |
CN111565065B (zh) * | 2020-03-24 | 2021-06-04 | 北京邮电大学 | 一种无人机基站部署方法、装置及电子设备 |
CN111479226B (zh) * | 2020-05-22 | 2022-03-11 | 南京邮电大学 | 无人机通信系统及基于用户轨迹的无人机通信优化方法 |
CN111786713B (zh) * | 2020-06-04 | 2021-06-08 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN112512115B (zh) * | 2020-11-20 | 2022-02-11 | 北京邮电大学 | 一种空中基站位置确定方法、装置及电子设备 |
CN112511250B (zh) * | 2020-12-03 | 2022-06-03 | 中国人民解放军火箭军工程大学 | 一种基于drl的多无人机空中基站动态部署方法及系统 |
CN112865897B (zh) * | 2021-01-13 | 2022-08-02 | 山东师范大学 | 一种无人机对地面场景的非平稳信道仿真方法及系统 |
CN112965369B (zh) * | 2021-01-29 | 2022-02-01 | 电子科技大学 | 无人机三维无线通信网络的分布式部署方法 |
CN113660681B (zh) * | 2021-05-31 | 2023-06-06 | 西北工业大学 | 一种应用于无人机集群辅助传输的多智能体资源优化方法 |
CN113660304A (zh) * | 2021-07-07 | 2021-11-16 | 北京邮电大学 | 一种基于双向拍卖博弈的无人机群分布式学习资源管控方法 |
CN113467248A (zh) * | 2021-07-22 | 2021-10-01 | 南京大学 | 基于强化学习的无人机传感器故障时容错控制方法 |
CN113589842B (zh) * | 2021-07-26 | 2024-04-19 | 中国电子科技集团公司第五十四研究所 | 一种基于多智能体强化学习的无人集群任务协同方法 |
CN113890564B (zh) * | 2021-08-24 | 2023-04-11 | 浙江大学 | 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置 |
CN114222251A (zh) * | 2021-11-30 | 2022-03-22 | 中山大学·深圳 | 一种多无人机的自适应网络成型和轨迹优化方法 |
CN114942653B (zh) * | 2022-07-26 | 2022-10-25 | 北京邮电大学 | 无人集群飞行策略的确定方法、装置和电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107438805B (zh) * | 2016-09-27 | 2019-07-30 | 深圳市大疆创新科技有限公司 | 无人机控制方法及装置 |
JP6227813B1 (ja) * | 2017-01-25 | 2017-11-08 | 株式会社Preferred Networks | 分散深層学習装置及び分散深層学習システム |
CN108108822B (zh) * | 2018-01-16 | 2020-06-26 | 中国科学技术大学 | 并行训练的异策略深度强化学习方法 |
CN108521673B (zh) * | 2018-04-09 | 2022-11-01 | 湖北工业大学 | 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法 |
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN109193075B (zh) * | 2018-09-28 | 2020-06-05 | 合肥工业大学 | 基于强化学习的纯电动汽车动力电池冷却系统控制方法 |
CN109669474B (zh) * | 2018-12-21 | 2022-02-15 | 国网安徽省电力有限公司淮南供电公司 | 基于先验知识的多旋翼无人机自适应悬停位置优化算法 |
CN109992000B (zh) * | 2019-04-04 | 2020-07-03 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
-
2019
- 2019-07-30 CN CN201910695765.4A patent/CN110531617B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110531617A (zh) | 2019-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110531617B (zh) | 多无人机3d悬停位置联合优化方法、装置和无人机基站 | |
CN113162679B (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
Bayerlein et al. | Trajectory optimization for autonomous flying base station via reinforcement learning | |
CN111666149A (zh) | 基于深度强化学习的超密边缘计算网络移动性管理方法 | |
CN113162682B (zh) | 一种基于pd-noma的多波束leo卫星系统资源分配方法 | |
CN111050330B (zh) | 移动网络自优化方法、系统、终端及计算机可读存储介质 | |
CN110809306A (zh) | 一种基于深度强化学习的终端接入选择方法 | |
Donevski et al. | Federated learning with a drone orchestrator: Path planning for minimized staleness | |
Qi et al. | Energy-efficient resource allocation for UAV-assisted vehicular networks with spectrum sharing | |
US11871251B2 (en) | Method of association of user equipment in a cellular network according to a transferable association policy | |
Chua et al. | Resource allocation for mobile metaverse with the Internet of Vehicles over 6G wireless communications: A deep reinforcement learning approach | |
Hajiakhondi-Meybodi et al. | Deep reinforcement learning for trustworthy and time-varying connection scheduling in a coupled UAV-based femtocaching architecture | |
Nasr-Azadani et al. | Single-and multiagent actor–critic for initial UAV’s deployment and 3-D trajectory design | |
CN114980169A (zh) | 一种基于轨迹与相位联合优化的无人机辅助地面通信方法 | |
CN114339842B (zh) | 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置 | |
Parvaresh et al. | A continuous actor–critic deep Q-learning-enabled deployment of UAV base stations: Toward 6G small cells in the skies of smart cities | |
CN114051252B (zh) | 无线接入网中多用户智能发射功率控制方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN116723470B (zh) | 空中基站的移动轨迹预测模型的确定方法、装置和设备 | |
CN116866974A (zh) | 一种基于深度强化学习的联邦学习客户选择方法 | |
CN116827846A (zh) | 路由、路由路径、多播路由路径决策方法及电子设备 | |
Saravanan et al. | Performance analysis of digital twin edge network implementing bandwidth optimization algorithm | |
Lei | A study of wireless communications with reinforcement learning | |
Wu et al. | Mobility-aware deep reinforcement learning with seq2seq mobility prediction for offloading and allocation in edge computing | |
Si et al. | Uav-assisted semantic communication with hybrid action reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |