CN114942653B - 无人集群飞行策略的确定方法、装置和电子设备 - Google Patents

无人集群飞行策略的确定方法、装置和电子设备 Download PDF

Info

Publication number
CN114942653B
CN114942653B CN202210881139.6A CN202210881139A CN114942653B CN 114942653 B CN114942653 B CN 114942653B CN 202210881139 A CN202210881139 A CN 202210881139A CN 114942653 B CN114942653 B CN 114942653B
Authority
CN
China
Prior art keywords
base station
aerial vehicle
unmanned aerial
target
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210881139.6A
Other languages
English (en)
Other versions
CN114942653A (zh
Inventor
姚海鹏
黄山
吴巍
买天乐
忻向军
张尼
袁菀迈
刘全占
韩宝磊
吴迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202210881139.6A priority Critical patent/CN114942653B/zh
Publication of CN114942653A publication Critical patent/CN114942653A/zh
Application granted granted Critical
Publication of CN114942653B publication Critical patent/CN114942653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种无人集群飞行策略的确定方法、装置和电子设备,涉及通信的技术领域,包括:获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量;无人集群包括多个无人机基站;基于每个无人机基站的位置信息和所有地面用户的位置信息,确定每个无人机基站的状态信息;利用目标混合网络模型对所有无人机基站的状态信息和正常地面基站的通信吞吐量进行处理,得到每个无人机基站的动作信息,以确定无人集群的飞行策略。目标混合网络模型为每个无人机基站都设有相应的单智能体网络模型,避免了环境非平稳的问题;目标混合网络模型基于联合动作价值函数进行训练,解决了动作空间维度爆炸的技术问题。

Description

无人集群飞行策略的确定方法、装置和电子设备
技术领域
本发明涉及通信的技术领域,尤其是涉及一种无人集群飞行策略的确定方法、装置和电子设备。
背景技术
得益于无人机(Unmanned Aerial Vehicle,UAV)的一些优点,例如很高的机动性、可按需部署、成本较低等,可以将其作为无人机基站(UAV Base Station,U-BS)与地面用户建立无线连接以提供通信服务,增强网络的覆盖范围以及数据传输性能。目前无人机基站辅助地面通信轨迹规划采用单智能体强化学习算法,但是,单智能体强化学习算法在解决多无人机协同问题时,会引起动作空间的维度爆炸与环境状态不平稳问题,增加了网络的收敛难度。也即,现有技术中无人集群飞行策略的确定方法存在耗时较长的技术问题。
发明内容
本发明的目的在于提供一种无人集群飞行策略的确定方法、装置和电子设备,以缓解了现有技术中无人集群飞行策略的确定方法存在的环境非平稳以及动作空间维度爆炸的技术问题。
第一方面,本发明提供一种无人集群飞行策略的确定方法,包括:获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量;其中,所述无人集群包括多个无人机基站;基于每个所述无人机基站的位置信息和所有地面用户的位置信息,确定每个所述无人机基站的状态信息;利用目标混合网络模型对所有所述无人机基站的状态信息和所述正常地面基站的通信吞吐量进行处理,得到每个所述无人机基站的动作信息;其中,所述目标混合网络模型中包括多个单智能体网络模型,所述单智能体网络模型与所述无人机基站一一对应,且所述目标混合网络模型是基于联合动作价值函数训练的,所述联合动作价值函数用于表征所有所述无人机基站的联合动作价值;基于所有所述无人机基站的动作信息确定所述无人集群的飞行策略。
在可选的实施方式中,基于每个所述无人机基站的位置信息和所有地面用户的位置信息,确定每个所述无人机基站的状态信息,包括:获取通信强度阈值和目标无人机基站的发射功率;其中,所述目标无人机基站表示所述无人集群中的任一无人机基站;基于所述目标无人机基站的位置信息与目标地面用户的位置信息,计算所述目标无人机基站与所述目标地面用户之间的距离;所述目标地面用户表示所述所有地面用户中的任一地面用户;基于所述目标无人机基站与所述目标地面用户之间的距离、所述发射功率和所述通信强度阈值,确定所述目标无人机基站与所述目标地面用户的通信链接状态;基于所述目标无人机基站与所有地面用户的通信链接状态、所述目标无人机基站的位置信息和所有地面用户的位置信息确定所述目标无人机基站的状态信息。
在可选的实施方式中,基于所述目标无人机基站与所述目标地面用户之间的距离、所述发射功率和所述通信强度阈值,确定所述目标无人机基站与所述目标地面用户的通信链接状态,包括:基于所述目标无人机基站与所述目标地面用户之间的距离,确定所述目标无人机基站与所述目标地面用户的信号传输损失;基于所述信号传输损失和所述发射功率确定所述目标地面用户的目标接收信号强度;基于所述目标接收信号强度和所述通信强度阈值确定所述目标无人机基站与所述目标地面用户的通信链接状态。
在可选的实施方式中,还包括:获取训练样本集合;其中,所述训练样本集合中包括多组训练样本,每组训练样本中包括:当前时刻无人集群的状态信息集合,当前时刻无人集群的动作集合,下一时刻目标区域的通信吞吐量和下一时刻无人集群的状态信息集合;利用训练样本集合对初始混合网络模型进行训练,得到所述目标混合网络模型。
在可选的实施方式中,获取训练样本集合,包括:重复执行下述步骤,直至得到指定数量的训练样本:随机初始化所述目标区域的网络环境信息和所述目标区域内正常地面基站的训练通信吞吐量;其中,所述网络环境信息包括:当前时刻无人集群的训练位置信息和当前时刻所有地面用户的训练位置信息;基于所述网络环境信息确定当前时刻所述无人集群的状态信息集合;其中,所述状态信息集合为每个所述无人机基站的训练状态信息的集合;利用初始单智能体网络模型对相应的无人机基站的训练状态信息进行处理,以确定使得无人机基站的动作价值函数值最大的目标动作,和所述目标动作下每个无人机基站在下一时刻的训练状态信息;基于所有无人机基站的目标动作确定当前时刻所述无人集群的动作集合,以及,基于所有无人机基站在下一时刻的训练状态信息确定下一时刻所述无人集群的状态信息集合;基于所有无人机基站在下一时刻的训练状态信息和所述正常地面基站的训练通信吞吐量,确定下一时刻所述目标区域的通信吞吐量。
在可选的实施方式中,所述网络环境信息包括还包括:当前时刻每个无人机基站的训练发射功率、所述无人机基站与地面用户之间的通信信道带宽和每个所述地面用户的高斯白噪声;基于所有无人机基站在下一时刻的训练状态信息和所述正常地面基站的训练通信吞吐量,确定下一时刻所述目标区域的通信吞吐量,包括:基于当前时刻无人集群的训练位置信息、当前时刻所有地面用户的训练位置信息和当前时刻每个无人机基站的训练发射功率,确定每个所述地面用户的目标接收信号强度集合;基于每个所述地面用户的目标接收信号强度集合、所述高斯白噪声和所述通信信道带宽,确定每个所述无人机基站与每个所述地面用户的无线传输速率;基于每个所述无人机基站与每个所述地面用户的无线传输速率和每个所述无人机基站与每个所述地面用户的通信链接状态,计算下一时刻所述无人集群的通信吞吐量;基于下一时刻所述无人集群的通信吞吐量和所述正常地面基站的训练通信吞吐量,确定下一时刻所述目标区域的通信吞吐量。
在可选的实施方式中,对初始混合网络模型进行训练的损失函数表示为:
Figure P_220706170214851_851693001
;其中,
Figure P_220706170214867_867330002
Figure P_220706170214898_898551003
表示第i个训练样本中的通信吞吐量,
Figure P_220706170214929_929817004
表示衰减因子,
Figure P_220706170214945_945447005
表示第i个训练样本中下一时刻无人集群的状态信息集合对应的联合动作价值函数值,
Figure P_220706170214976_976688006
表示第i个训练样本对应的联合动作价值函数训练值,k表示训练样本的总数。
第二方面,本发明提供一种无人集群飞行策略的确定装置,包括:第一获取模块,用于获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量;其中,所述无人集群包括多个无人机基站;第一确定模块,用于基于每个所述无人机基站的位置信息和所有地面用户的位置信息,确定每个所述无人机基站的状态信息;处理模块,用于利用目标混合网络模型对所有所述无人机基站的状态信息和所述正常地面基站的通信吞吐量进行处理,得到每个所述无人机基站的动作信息;其中,所述目标混合网络模型中包括多个单智能体网络模型,所述单智能体网络模型与所述无人机基站一一对应,且所述目标混合网络模型是基于联合动作价值函数训练的,所述联合动作价值函数用于表征所有所述无人机基站的联合动作价值;第二确定模块,用于基于所有所述无人机基站的动作信息确定所述无人集群的飞行策略。
第三方面,本发明提供一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述实施方式中任一项所述的无人集群飞行策略的确定方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现前述实施方式中任一项所述的无人集群飞行策略的确定方法。
本发明提供了一种无人集群飞行策略的确定方法,包括:获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量;其中,无人集群包括多个无人机基站;基于每个无人机基站的位置信息和所有地面用户的位置信息,确定每个无人机基站的状态信息;利用目标混合网络模型对所有无人机基站的状态信息和正常地面基站的通信吞吐量进行处理,得到每个无人机基站的动作信息;其中,目标混合网络模型中包括多个单智能体网络模型,单智能体网络模型与无人机基站一一对应,且目标混合网络模型是基于联合动作价值函数训练的,联合动作价值函数用于表征所有无人机基站的联合动作价值;基于所有无人机基站的动作信息确定无人集群的飞行策略。
本发明提供的方法所使用的目标混合网络模型属于一种团队合作博弈模型,每个无人机基站都设有相应的单智能体网络模型,因此,每个单智能体网络模型只需维护自身的动作价值函数,从而避免了环境非平稳的问题;目标混合网络模型将所有单智能体网络模型的动作价值函数进行融合,并基于联合动作价值函数进行训练,因此可以有效地解决动作空间维度爆炸的技术问题。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种用于无人机基站应急通信的UAV部署示意图;
图2为本发明实施例提供的一种无人集群飞行策略的确定方法的流程图;
图3为本发明实施例提供的一种目标混合网络模型的整体结构图;
图4为本发明实施例提供的一种单智能体强化学习算法在模型训练过程中的损失示意图;
图5为本发明实施例提供的一种本发明方法在模型训练过程中的损失示意图;
图6为本发明实施例提供的一种无人集群飞行策略的确定装置的功能模块图;
图7为本发明实施例提供的一种电子设备的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
无人机基站被部署在一定高度的空中,相较于传统地面基站能够有更大的机会与地面用户建立视距链路连接(Line-of-Sight,LoS)。无人机基站有很多实际应用场景,例如在地面基站受损的灾害环境中提供稳定可靠的无线通信服务,以及在传统地面网络出现拥塞时作为辅助通信基站。
用于无人机基站应急通信的UAV部署如图1所示,在突发情况发生之前,用户是由地面基站(G-SB)提供通信服务的。一旦地面基站(G-SB)因为灾难而崩溃,它们就不能继续为用户(UEs)提供服务。此时,未损毁的基站将继续为用户提供通信服务,但由于部分地面基站无法正常工作导致覆盖范围减小,部分用户不能得到有效的通信服务,通过部署无人机基站来保证这部分用户可以得到通信服务。为此,无人机辅助通信的系统架构包括无人机基站、核心机房、地面基站、用户组成。无人机基站为用户提供通信服务建立通信链接,将数据信息通过无线链路传到未损毁的基站,未损毁的基站通过光纤链路传到远端的核心机房从而实现与外界的通信。云计算负责收集地面未损毁基站和无人机基站提供的算法训练数据进行模型训练,未损毁的地面基站和云服务器只存在单向链路(传输训练MDT(Minimization of Drive-tests,最小化路测)数据),无人机基站和云服务器之间是双工链路负责上传模型训练数据和下发无人机移动策略。
无人机基站辅助通信的相关研究可以通过移动性进行分类:1.无人机基站和用户都静止;2.无人机基站移动,用户静止;3.用户和无人机基站都移动。现有的相关研究很少考虑无人机基站和用户同时移动的场景,然而在现实应用场景中,地面用户的活动往往呈现动态性和随机性。地面用户持续移动且无人机基站的通信范围有限,可能降低移动地面用户与无人机基站间的无线通信速率,从而造成网络性能的损失。故在部署无人机基站的无线通信网络中考虑地面用户的移动是必要的。
得益于无人机的机动性和可控制特性,可以通过动态调整无人机的飞行距离和飞行方向角(即规划无人机的飞行路径)实时追踪移动地面用户,提高用户与无人机基站间的无线通信速率,增强无人机网络性能。在考虑地面用户移动的无人机网络中规划无人机基站飞行路径的挑战主要有两点:一是无人机的飞行距离和飞行方向角都是连续变量,在连续空间内寻找最优的飞行动作比较困难;二是在实时追踪持续移动的地面用户时,很难保持优化算法的较高性能。
目前无人机基站辅助地面通信轨迹规划采用单智能体强化学习算法,由于单智能体强化学习算法在解决多无人机协同问题时,会引起动作空间的维度爆炸与环境状态的不确定问题,增加了网络的收敛难度,进而导致无人集群飞行策略的确定需要消耗较长时间。有鉴于此,本发明实施例提供了一种无人集群飞行策略的确定方法,用以缓解上文中所提出的技术问题。
实施例一
图2为本发明实施例提供的一种无人集群飞行策略的确定方法的流程图,如图2所示,该方法具体包括如下步骤:
步骤S102,获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量。
具体的,为了确定无人集群的飞行策略,首先需要获取目标区域内无人集群的位置信息和所有地面用户的位置信息,其中,无人集群包括多个无人机基站,因此,无人集群的位置信息即所属于该无人集群的每一个无人机基站的位置信息。鉴于已经与地面基站建立通信连接的用户仅影响正常地面基站(也即,未损毁的基站)的通信吞吐量,且本发明研究的是无人机基站辅助通信的应用场景,因此,上述地面用户即为未能与正常地面基站建立通信连接的用户。
假定一个无人机基站有为地面用户提供网络通信服务的任务,该任务时长为T个时隙,每个时隙的时间间隔均相同。在任务初始时刻,每个基站无人机在随机位置起飞,并以固定高度H飞行,随后将根据本发明是实施例所提供的飞行策略不断调整自己的飞行轨迹,记无人机基站数量为F,其移动可以通过一个二元组
Figure P_220706170214992_992317001
来表达其移动模型,其中
Figure P_220706170215024_024507002
表示无人机基站的移动速度,
Figure P_220706170215040_040654003
表示无人机基站的移动方向。由此可得无人机基站的位置更新公式如下:
Figure P_220706170215071_071897004
(1),其中,t表示第t个时隙,△t为时隙的大小。因为无人机基站速度是变化的,所以用
Figure P_220706170215103_103142005
标记t-1时刻无人机基站f的速度;f表示第f个无人机基站,公式(1)说明了无人机基站在t-1时刻到t时刻的位置变化,
Figure P_220706170215118_118775006
表示无人机基站f在t时隙的位置信息。
若地面用户数量为N,地面用户可以通过一个二元组
Figure P_220706170215150_150052001
来表达其移动模型,其中
Figure P_220706170215165_165669002
表示用户的移动速度,
Figure P_220706170215196_196928003
表示用户的移动方向。若每个人的移动速度相同,那么v是一个固定的常数值。由此可得,地面用户的位置更新公式如下:
Figure P_220706170215229_229583004
(2)。
Figure P_220706170215261_261376005
表示地面用户n在t时隙的位置信息。
本发明实施例考虑了地面基站与无人机基站共存,用户和无人机基站同时具有移动性的灾后场景,将正常地面基站提供的通信服务能力考虑进来,以降低无人机基站的能耗。因此,除了需要获取无人集群的位置信息和所有地面用户的位置信息之外,还需要获取正常地面基站的通信吞吐量。正常地面基站的吞吐量可由正常状态的地面基站通过MDT协议测量得到。
步骤S104,基于每个无人机基站的位置信息和所有地面用户的位置信息,确定每个无人机基站的状态信息。
在获取到每个无人机基站的位置信息以及每个地面用户的位置信息之后,根据当前情况下无人机基站与地面用户的位置信息,结合基站可为用户提供通信服务的条件,即可确定出每个无人机基站的状态信息。在无人机基站辅助通信场景中,无人机基站的飞行动作主要由地面用户的位置所决定。无人机需要尽可能为更多的地面用户提供无线通信服务且需要提高用户的无线传输速率。
因此,在本发明实施例中,无人机基站的状态信息考虑了基站无人机和地面用户之间的相对位置关系,无人机基站的状态信息使用
Figure P_220706170215277_277004001
进行表示,其中,
Figure P_220706170215308_308213002
表示t时隙下无人机基站f的状态信息,
Figure P_220706170215339_339475003
表示t时隙下无人机基站f与地面用户n的通信链接状态,也即,地面用户n在t时隙内能否获得无人机基站f的通信服务,
Figure P_220706170215355_355151004
Figure P_220706170215386_386363005
表示t时隙下无人机基站f与地面用户n建立了通信链接,也即,t时隙无人机基站f为地面用户n提供通信服务;
Figure P_220706170215401_401987006
表示t时隙下无人机基站f与地面用户n未建立通信链接,若
Figure P_220706170215434_434199007
,则表示没有无人机基站和地面用户n建立通信链接;
Figure P_220706170215450_450317008
表示当前时隙所有地面用户的位置信息的集合,
Figure P_220706170215481_481618009
,N表示地面用户的总数;
Figure P_220706170215512_512851010
表示当前时隙无人机基站f的位置信息。
步骤S106,利用目标混合网络模型对所有无人机基站的状态信息和正常地面基站的通信吞吐量进行处理,得到每个无人机基站的动作信息。
步骤S108,基于所有无人机基站的动作信息确定无人集群的飞行策略。
在确定出无人集群中每个无人机基站的状态信息之后,本发明实施例利用目标混合网络模型对所有无人机基站的状态信息和正常地面基站的通信吞吐量进行处理,从而确定出每个无人机基站的动作信息,进而确定出无人集群的飞行策略。无人机基站接收到相应的动作指令(携带动作信息)之后,即可根据动作指令对自身的飞行状态进行调整,上述动作信息包括:移动方向
Figure P_220706170215544_544092001
和速度e。在本发明实施例中,无人机基站对于飞行状态的调整,也即,动作的执行是在一个时隙t内完成的,因此,无人机基站的速度决定了其移动的距离。其中,
Figure P_220706170215575_575344002
Figure P_220706170215590_590996003
表示当前时隙无人机基站f的飞行方向角;
Figure P_220706170215624_624627004
Figure P_220706170215640_640755005
表示当前时隙无人机基站f的飞行速度,
Figure P_220706170215672_672025006
表示无人机基站在每个时隙能够飞行的最大速度。值得注意的是,如果
Figure P_220706170215703_703290007
,则表示无人机基站f在当前时隙内保持悬停状态。
在本发明实施例中,目标混合网络模型中包括多个单智能体网络模型,单智能体网络模型与无人机基站一一对应,且目标混合网络模型是基于联合动作价值函数训练的,联合动作价值函数用于表征所有无人机基站的联合动作价值。
具体的,上述目标混合网络模型采用了基于动作价值函数的多智能体强化学习算法QMIX,也即,运用QMIX算法规划无人机基站的飞行路径,多个无人机基站对一片区域的用户提供通信服务是一个合作问题,QMIX采用联合动作价值函数的方法在解决这种团队合作问题有较好的性能表现。训练完成的QMIX模型(也即,目标混合网络模型)可以根据不同的地面用户位置直接计算出对应的无人机基站飞行策略。QMIX算法相较于传统启发式算法,能够避免在应对变化的地面用户位置时重新初始化和运行整个算法。
一个完全协作的多智能体任务可以用一个分布式部分可观测马尔可夫模型(Dec-POMDP)来表示。该模型由元组
Figure P_220706170215718_718907001
组成,其中,S表示全局观察信息,
Figure P_220706170215750_750137002
Figure P_220706170215781_781390003
Figure P_220706170215812_812652004
表示t时隙下QMIX智能体f环境的真实状态,也即,t时隙下无人机基站f的状态信息,F表示QMIX智能体的总数;r表示所有QMIX智能体获得奖励值总和;每个时间步长中的任一QMIX智能体
Figure P_220706170215850_850732005
均会选择自己独立的动作
Figure P_220706170215881_881995006
,由F个独立动作构成联合动作
Figure P_220706170215928_928855007
,而环境则会根据状态转移函数
Figure P_220706170215944_944502008
进行变化,所有智能体均共用同一个奖励函数
Figure P_220706170215975_975724009
,其中γ为衰减因子γ∈[0,1)。一个QMIX算法全局最优解等于每一个QMIX智能体个体最优解集合,也即:
Figure P_220706170216006_006967010
,其中,
Figure P_220706170216055_055303011
表示在
Figure P_220706170216070_070956012
状态下选择动作
Figure P_220706170216102_102181013
获得的价值。
鉴于本发明实施例将每个QMIX智能体(也即,无人机基站)的动作价值函数融合,利用联合动作价值函数将多智能体的联合动作价值表征出来并指导训练,因此,本发明方法可以有效地解决单智能体强化学习算法在处理多无人机协同问题时存在的收敛速度慢和维度爆炸的技术问题。
本发明方法的目标是在无人集群(多个无人机基站)与地面基站共存的场景下,提高目标区域的通信吞吐量,也即,通信容量,进而提升所有地面用户的通信服务质量。因此,在本发明实施例定义目标混合网络模型(也即,QMIX模型)中的所有无人机基站(也即,QMIX智能体)在时隙t采取了动作
Figure P_220706170216117_117816001
后得到的动作奖励为上述目标区域的通信吞吐量。也即,
Figure P_220706170216133_133445002
,其中,奖励值
Figure P_220706170216164_164688003
表示无人机辅助通信网络子在t时隙的通信吞吐量,该通信吞吐量由两部分组成,一部分是所有无人机基站为用户提供的通信服务(也即,通信吞吐量)
Figure P_220706170216195_195956004
;另一部分是未损毁的地面基站为用户提供的通信服务
Figure P_220706170216227_227458005
,也即,正常地面基站的通信吞吐量。
本发明方法将无人机辅助地面通信模型抽象成一个团队合作博弈模型,多个无人机基站合作实现目标区域的通信吞吐量最大。团队博弈中,每个单智能体网络模型只负责对一个无人机基站的状态信息进行处理,也即,每个单智能体网络模型只需要维护自身的动作价值函数,而且动作价值函数只取决于智能体当前的状态和动作,从而避免了考虑联合动作时的环境非平稳和维度爆炸问题。
本发明实施例所提供的方法,其执行主体为云服务器,因此,方法的实施流程可以理解为:无人机基站周期性地收集地面环境数据(地面用户位置),并将其发送给云服务器,然后由云服务器基于接收到的地面环境数据计算出每个时隙t无人机基站最优的飞行动作,并通过指令将动作信息发送给正在提供无线通信服务的无人机基站,无人机基站根据接收到的动作指令对其自身飞行状态做出相应的调整。
本发明实施例提供的方法所使用的目标混合网络模型属于一种团队合作博弈模型,每个无人机基站都设有相应的单智能体网络模型,因此,每个单智能体网络模型只需维护自身的动作价值函数,从而避免了环境非平稳的问题;目标混合网络模型将所有单智能体网络模型的动作价值函数进行融合,并基于联合动作价值函数进行训练,因此可以有效地解决动作空间维度爆炸的技术问题。
在一个可选的实施方式中,上述步骤S104,基于每个无人机基站的位置信息和所有地面用户的位置信息,确定每个无人机基站的状态信息,具体包括如下步骤:
步骤S1041,获取通信强度阈值和目标无人机基站的发射功率。
其中,目标无人机基站表示无人集群中的任一无人机基站;
步骤S1042,基于目标无人机基站的位置信息与目标地面用户的位置信息,计算目标无人机基站与目标地面用户之间的距离。
其中,目标地面用户表示所有地面用户中的任一地面用户。
根据上文中的描述可知,无人机基站f在t时隙的位置信息表示为
Figure P_220706170216244_244245001
,地面用户n在t时隙的位置信息表示为
Figure P_220706170216259_259924002
,因此,若目标无人机基站为f,目标地面用户为n,则根据距离算式可知,t时隙目标无人机基站f与目标地面用户n之间的距离可表示为:
Figure P_220706170216291_291161003
步骤S1043,基于目标无人机基站与目标地面用户之间的距离、发射功率和通信强度阈值,确定目标无人机基站与目标地面用户的通信链接状态。
具体的,在已知目标无人机基站f的发射功率,以及目标无人机基站f与目标地面用户n之间的距离之后,根据距离即可推算出功率在该距离上的信号传输损失,进而可计算出目标无人机基站f在发射出功率之后,目标地面用户n实际接收的信号强度(也即,接收信号功率)
Figure P_220706170216322_322424001
通信强度阈值
Figure P_220706170216338_338028001
表示无人机基站可以和地面用户建立通信链接的最低信号强度要求,当目标无人机基站f提供给目标地面用户n实际接收的信号强度
Figure P_220706170216369_369275002
大于通信强度阈值
Figure P_220706170216384_384927003
时,目标无人机基站f和目标地面用户n建立通信链接,也即,目标无人机基站f为目标地面用户n提供通信服务。使用二进制变量
Figure P_220706170216400_400500004
表示t时隙下目标无人机基站f与目标地面用户n的通信链接状态,
Figure P_220706170216433_433196005
。也就是说,如果存在一个无人机基站f提供的用户实际接收强度
Figure P_220706170216464_464990006
大于通信链接的最低信号强度要求
Figure P_220706170216480_480597007
,即无人机基站f为地面用户n提供了通信服务,否则没有无人机基站为该地面用户提供通信服务。
步骤S1044,基于目标无人机基站与所有地面用户的通信链接状态、目标无人机基站的位置信息和所有地面用户的位置信息确定目标无人机基站的状态信息。
在一个可选的实施方式中,上述步骤S1043,基于目标无人机基站与目标地面用户之间的距离、发射功率和通信强度阈值,确定目标无人机基站与目标地面用户的通信链接状态,具体包括如下步骤:
步骤S10431,基于目标无人机基站与目标地面用户之间的距离,确定目标无人机基站与目标地面用户的信号传输损失。
无人机基站网络属于无线通信网络,在无线通信网络中,信号传输受到发射机和接收机之间传输环境的影响。由于无人机基站部署在空中,无人机基站和地面用户之间的信道是空对地信道。空对地信道直接影响了无人机基站网络的系统性能。因此,在研究无人机基站网络时,针对具体问题建立合适的信道模型十分重要。空对地信道受高度、环境、以及角度等的影响很大,目前已有许多的工作对空对地信道进行研究,针对不同的无人机部署高度、不同的遮挡物环境等进行建模。
在本发明实施例中,设定自由传输模型下,目标无人机基站f对目标地面用户n的视距链路损失为:
Figure P_220706170216496_496213001
;目标无人机基站f对目标地面用户n的非视距链路损失为:
Figure P_220706170216527_527468002
;其中,
Figure P_220706170216558_558717003
表示目标无人机基站f与目标地面用户n之间信号传输的载波频率,
Figure P_220706170216589_589962004
表示t时隙目标无人机基站f与目标地面用户n之间的距离,c表示光速,
Figure P_220706170216605_605586005
表示第一预设常数,
Figure P_220706170216622_622191006
表示第二预设常数。
由于地面用户的移动会改变信号传输的状态,当存在障碍物遮挡时,则选用非视距链路传输模型;当用户在较为空旷的地方时,则选用视距链路传输模型,因此,本发明实施例设定目标地面用户n和目标无人机基站f之间是视距链路传输的概率
Figure P_220706170216653_653946001
为:
Figure P_220706170216669_669576002
;非视距链路传输概率
Figure P_220706170216700_700824003
为:
Figure P_220706170216732_732069004
;其中,o和b是根据实际场景(例如城市,农村)确定的两个参数。
在计算出目标无人机基站f对目标地面用户n的视距链路损失
Figure P_220706170216747_747681001
、非视距链路损失
Figure P_220706170216778_778922002
、视距链路传输概率
Figure P_220706170216794_794578003
和非视距链路传输概率
Figure P_220706170216830_830164004
之后,利用算式
Figure P_220706170216846_846314005
即可计算出目标无人机基站与目标地面用户的信号传输损失
Figure P_220706170216877_877100006
步骤S10432,基于信号传输损失和发射功率确定目标地面用户的目标接收信号强度。
已知目标无人机基站的发射功率
Figure P_220706170216908_908859001
,目标无人机基站与目标地面用户的信号传输损失
Figure P_220706170216924_924455002
,那么目标地面用户实际接收的(目标无人机基站提供的)信号强度
Figure P_220706170216955_955715003
,也即,目标地面用户n的目标接收信号强度
Figure P_220706170216986_986974004
可通过算式进行计算:
Figure P_220706170217002_002612005
步骤S10433,基于目标接收信号强度和通信强度阈值确定目标无人机基站与目标地面用户的通信链接状态。
如果目标接收信号强度
Figure P_220706170217037_037250001
大于通信强度阈值
Figure P_220706170217068_068524002
,则目标无人机基站与目标地面用户的通信链接状态
Figure P_220706170217099_099755003
,否则,
Figure P_220706170217115_115378004
上文中对如何确定无人集群的飞行策略,以及其中具体如何确定目标无人机基站的状态信息的方法进行了详细的描述,下面对如何得到目标混合网络模型的方法进行介绍。
在一个可选的实施方式中,本发明方法还包括如下步骤:
步骤S201,获取训练样本集合。
其中,训练样本集合中包括多组训练样本,每组训练样本中包括:当前时刻无人集群的状态信息集合,当前时刻无人集群的动作集合,下一时刻目标区域的通信吞吐量和下一时刻无人集群的状态信息集合;
步骤S202,利用训练样本集合对初始混合网络模型进行训练,得到目标混合网络模型。
具体的,在本发明实施例中,对初始混合网络模型进行训练时,所使用的每组训练样本中需包括:当前时刻无人集群的状态信息集合s,当前时刻无人集群的动作集合
Figure P_220706170217146_146635001
,下一时刻目标区域的通信吞吐量r和下一时刻无人集群的状态信息集合
Figure P_220706170217177_177910002
。其中,无人集群的状态信息集合就是指所属于无人集群的多个无人机基站的状态信息的集合;无人集群的动作集合就是指所属于无人集群的多个无人机基站的动作的集合。
在一个可选的实施方式中,上述步骤S201,获取训练样本集合,具体包括如下内容:
重复执行下述步骤S2011-S2015,直至得到指定数量的训练样本:
步骤S2011,随机初始化目标区域的网络环境信息和目标区域内正常地面基站的训练通信吞吐量。
其中,网络环境信息包括:当前时刻无人集群的训练位置信息和当前时刻所有地面用户的训练位置信息。
步骤S2012,基于网络环境信息确定当前时刻无人集群的状态信息集合。
具体的,为了区分训练过程与应用过程,本发明实施例将训练样本中的数据都使用了定语“训练”进行区分,但是其物理含义是与上文中所介绍的含义相同的,因此,在通过初始化得到当前时刻所有地面用户的训练位置信息和无人集群的训练位置信息(也即,所属于无人集群的多个无人机基站的训练位置信息)之后,参考上文中步骤S104所描述的“基于每个无人机基站的位置信息和所有地面用户的位置信息,确定每个无人机基站的状态信息”的方法,即可确定出当前时刻无人集群的状态信息集合,其中,状态信息集合为每个无人机基站的训练状态信息的集合。
步骤S2013,利用初始单智能体网络模型对相应的无人机基站的训练状态信息进行处理,以确定使得无人机基站的动作价值函数值最大的目标动作,和目标动作下每个无人机基站在下一时刻的训练状态信息。
图3为本发明实施例提供的目标混合网络模型的整体结构图,在本发明实施例中,初始混合网络模型中包括多个初始单智能体网络模型,且初始单智能体网络模型与所述无人机基站一一对应,因此,在得到每个无人机基站的训练状态信息之后,利用初始单智能体网络模型对相应的无人机基站的训练状态信息进行处理,以确定使得无人机基站的动作价值函数值最大的目标动作。
深度动作价值学习网络(DQN)算法指在Q learning算法基础上将其动作价值函数由一个带参数
Figure P_220706170217193_193532001
的深度神经网络来表示,本发明实施例中,单智能体网络模型为DQN网络,每个无人机基站的Q值神经网络函数可以描述为:
Figure P_220706170217226_226178002
,其中,
Figure P_220706170217257_257952003
表示无人机基站f的Q值网络参数,
Figure P_220706170217289_289215004
是无人机基站f在t时刻的动作,
Figure P_220706170217316_316494005
是无人机基站f在t时刻的状态,通过神经网络生成在
Figure P_220706170217339_339493006
状态下执行
Figure P_220706170217370_370782007
动作的期望回报价值。全局Q值函数可以表示为:
Figure P_220706170217386_386382008
,其中,
Figure P_220706170217417_417632009
Figure P_220706170217451_451792010
表示混合网络参数。
在通过初始单智能体网络模型确定出可使得无人机基站的动作价值函数值最大的目标动作之后,结合当前时刻无人机基站的训练状态信息,即可得到目标动作下每个无人机基站在下一时刻的训练状态信息。
步骤S2014,基于所有无人机基站的目标动作确定当前时刻无人集群的动作集合,以及,基于所有无人机基站在下一时刻的训练状态信息确定下一时刻无人集群的状态信息集合。
步骤S2015,基于所有无人机基站在下一时刻的训练状态信息和正常地面基站的训练通信吞吐量,确定下一时刻目标区域的通信吞吐量。
通过上文中的介绍可知,目标区域的通信吞吐量由两部分组成,一部分是所有无人机基站(无人集群)的通信吞吐量
Figure P_220706170217467_467438001
,另一部分是未损毁的地面基站(正常地面基站)的通信吞吐量
Figure P_220706170217498_498674002
。在本发明实施例中,无人机基站的通信吞吐量可通过其下一时刻的训练状态信息进行计算。
在一个可选的实施方式中,网络环境信息包括还包括:当前时刻每个无人机基站的训练发射功率、无人机基站与地面用户之间的通信信道带宽和每个地面用户的高斯白噪声;
上述步骤S2015,基于所有无人机基站在下一时刻的训练状态信息和正常地面基站的训练通信吞吐量,确定下一时刻目标区域的通信吞吐量,具体包括如下步骤:
步骤S20151,基于当前时刻无人集群的训练位置信息、当前时刻所有地面用户的训练位置信息和当前时刻每个无人机基站的训练发射功率,确定每个地面用户的目标接收信号强度集合。
上文中步骤S1042,S10431-步骤S10432已经详细介绍了如何根据目标无人机基站的位置信息、目标地面用户的位置信息和目标无人机基站的发射功率计算目标地面用户的目标接收信号强度,具体可参考上文,此处不再赘述。
步骤S20152,基于每个地面用户的目标接收信号强度集合、高斯白噪声和通信信道带宽,确定每个无人机基站与每个地面用户的无线传输速率。
具体的,为了确定无人集群的通信吞吐量,首先需要计算出每个无人机基站与每个地面用户的无线传输速率,根据香农公式,t时隙目标地面用户n与无人机基站f之间的无线传输速率
Figure P_220706170217529_529937001
(单位bit/s)表示为:
Figure P_220706170217561_561194002
,其中,
Figure P_220706170217592_592459003
表示目标无人机基站f和目标地面用户n之间的通信信道带宽,
Figure P_220706170217608_608047004
表示信噪比,
Figure P_220706170217641_641249005
Figure P_220706170217672_672517006
表示目标地面用户n的高斯白噪声,
Figure P_220706170217703_703781007
表示目标地面用户n的目标接收信号强度。
步骤S20153,基于每个无人机基站与每个地面用户的无线传输速率和每个无人机基站与每个地面用户的通信链接状态,计算下一时刻无人集群的通信吞吐量。
通过上文中的描述可知,无人机基站的训练状态信息中包括无人机基站与所有地面用户的通信链接状态,因此,在得到所有无人机基站在下一时刻的训练状态信息之后,即可从中获取每个无人机基站与所有地面用户的通信链接状态,在本发明实施例中,单时隙所有无人机基站的通信吞吐量通过以下算式计算:
Figure P_220706170217719_719373001
步骤S20154,基于下一时刻无人集群的通信吞吐量和正常地面基站的训练通信吞吐量,确定下一时刻目标区域的通信吞吐量。
具体的,下一时刻目标区域的通信吞吐量为:
Figure P_220706170217766_766281001
。本发明实施例的目标是最大化整个区域的通信吞吐量
Figure P_220706170217781_781900002
,也即,
Figure P_220706170217816_816101003
通过重复执行上述步骤S2011-S2015,即可得到指定数量的训练样本,本发明实施例将上述样本(历史经验)存储于过渡组
Figure P_220706170217834_834090001
,其中,状态
Figure P_220706170217865_865874002
是在状态s的情况下采取动作
Figure P_220706170217897_897094003
得到的下一步状态,而r是状态s情况下采取动作
Figure P_220706170217928_928368004
得到的奖励,在本发明实施例中,奖励即为下一时刻目标区域的通信吞吐量。通过采样上述历史经验并最小化时序差分(TD)误差的平方项,并利用下述损失函数学习得到网络参数。
在一个可选的实施方式中,对初始混合网络模型进行训练的损失函数表示为:
Figure P_220706170217944_944014001
;其中,
Figure P_220706170217975_975235002
Figure P_220706170218006_006461003
表示第i个训练样本中的通信吞吐量,
Figure P_220706170218039_039673004
表示衰减因子,
Figure P_220706170218055_055317005
表示第i个训练样本中下一时刻无人集群的状态信息集合对应的联合动作价值函数值,
Figure P_220706170218086_086551006
表示第i个训练样本对应的联合动作价值函数训练值,k表示训练样本的总数。
上文中所描述的得到目标混合网络模型的流程,可通过下述QMIX无人机基站辅助通信伪代码得到:
输入:无人机基站和地面用户位置;
输出:每一个智能体的移动动作;
初始化无人机基站和地面用户位置,无人机基站发射信号功率
Figure P_220706170218117_117795001
,过渡组大小buff,无人机基站高度H,环境参数o,b,单智能体网络和混合网络参数
Figure P_220706170218133_133440002
,最大迭代步数U,载波频率
Figure P_220706170218164_164696003
For i=1,2,3,…,U
For i=1,2,3,…,buff,do:
计算每个无人机基站与地面用户的通信链接状态;
确定初始
Figure P_220706170218180_180288001
,根据当前
Figure P_220706170218211_211546002
为每一个无人机基站根据单智能体网络结构网络的输出选择动作
Figure P_220706170218231_231063003
(选择Q值最大的动作);
获取下一时刻状态
Figure P_220706170218262_262863001
与奖励r;
得到的经验序列存入过渡组
Figure P_220706170218278_278454001
End for
For i=1,2,3,…,buff:
根据当前状态
Figure P_220706170218309_309725001
,单智能体网络为每一个无人机基站选择Q值最大的动作,这些动作组合成动作集
Figure P_220706170218325_325325002
所有无人机基站的状态组成状态集合
Figure P_220706170218356_356556001
,将
Figure P_220706170218372_372196002
Figure P_220706170218403_403439003
输入混合网络得到
Figure P_220706170218421_421474004
在过渡组中找到相同状态
Figure P_220706170218453_453246001
的样本
Figure P_220706170218468_468917002
,得到r;
计算损失函数,根据策略梯度更新单智能体网络和混合网络参数
Figure F_220706170213617_617310001
End for
End for
目前无人机基站辅助地面通信轨迹规划采用单智能体强化学习算法如DQN,由于单智能体强化学习算法在解决多无人机协同问题时,会引起动作空间的维度爆炸与环境状态的不确定问题,增加了网络的收敛难度。针对上述问题,本发明中采用基于值函数的多智能体强化学习算法QMIX,将每个智能体的动作值函数融合,利用联合动作值函数将多智能体的联合动作价值表征出来并指导训练,解决了收敛速度慢,维度爆炸的问题。
除此之外,采用多智能体强化学习算法的一个难点时如何抽象问题的数学模型,本发明实施例将无人机辅助地面通信模型抽象成一个团队合作博弈模型,多个无人机基站合作实现区域的网络吞吐量最大。团队博弈中,每个智能体只需要维护自己的值函数,而且值函数只取决于当前的状态和动作,从而避免了考虑联合动作时的环境非平稳和维度爆炸问题。
最后,本发明实施例还考虑了地面基站和无人机基站共存,地面用户和无人机基站同时具有移动性的灾后场景,将未损毁的地面基站提供的通信服务能力考虑进模型,以降低无人机基站的能耗。
发明人对本发明实施例所提供的方法进行了对比验证,图4为单智能体强化学习算法在模型训练过程中的损失示意图,图5为本发明方法在模型训练过程中的损失示意图,从实验结果中可以看出QMIX算法(本发明方法)用于无人机辅助通信轨迹规划优化收敛速度远快于DQN,DQN这种单智能体强化学习算法引起动作空间的维度爆炸与环境状态的不确定问题,增加了网络的收敛难度。将无人机辅助通信抽象成一个团队合作问题,并采用多智能体强化学习算法QMIX解决了动作空间的维度爆炸与环境状态的不确定问题,使得算法收敛速度变快而且预测Q值与真实值的Loss损失更小。
实施例二
本发明实施例还提供了一种无人集群飞行策略的确定装置,该无人集群飞行策略的确定装置主要用于执行上述实施例一所提供的无人集群飞行策略的确定方法,以下对本发明实施例提供的无人集群飞行策略的确定装置做具体介绍。
图6是本发明实施例提供的一种无人集群飞行策略的确定装置的功能模块图,如图6所示,该装置主要包括:第一获取模块10,第一确定模块20,处理模块30,第二确定模块40,其中:
第一获取模块10,用于获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量;其中,无人集群包括多个无人机基站。
第一确定模块20,用于基于每个无人机基站的位置信息和所有地面用户的位置信息,确定每个无人机基站的状态信息。
处理模块30,用于利用目标混合网络模型对所有无人机基站的状态信息和正常地面基站的通信吞吐量进行处理,得到每个无人机基站的动作信息;其中,目标混合网络模型中包括多个单智能体网络模型,单智能体网络模型与无人机基站一一对应,且目标混合网络模型是基于联合动作价值函数训练的,联合动作价值函数用于表征所有无人机基站的联合动作价值。
第二确定模块40,用于基于所有无人机基站的动作信息确定无人集群的飞行策略。
本发明提供的无人集群飞行策略的确定装置所使用的目标混合网络模型属于一种团队合作博弈模型,每个无人机基站都设有相应的单智能体网络模型,因此,每个单智能体网络模型只需维护自身的动作价值函数,从而避免了环境非平稳的问题;目标混合网络模型将所有单智能体网络模型的动作价值函数进行融合,并基于联合动作价值函数进行训练,因此可以有效地解决动作空间维度爆炸的技术问题。
可选地,第一确定模块20,包括:
获取单元,用于获取通信强度阈值和目标无人机基站的发射功率;其中,目标无人机基站表示无人集群中的任一无人机基站。
计算单元,用于基于目标无人机基站的位置信息与目标地面用户的位置信息,计算目标无人机基站与目标地面用户之间的距离;目标地面用户表示所有地面用户中的任一地面用户。
第一确定单元,用于基于目标无人机基站与目标地面用户之间的距离、发射功率和通信强度阈值,确定目标无人机基站与目标地面用户的通信链接状态。
第二确定单元,用于基于目标无人机基站与所有地面用户的通信链接状态、目标无人机基站的位置信息和所有地面用户的位置信息确定目标无人机基站的状态信息。
可选地,第一确定单元具体用于:
基于目标无人机基站与目标地面用户之间的距离,确定目标无人机基站与目标地面用户的信号传输损失。
基于信号传输损失和发射功率确定目标地面用户的目标接收信号强度。
基于目标接收信号强度和通信强度阈值确定目标无人机基站与目标地面用户的通信链接状态。
可选地,该装置还包括:
第二获取模块,用于获取训练样本集合;其中,训练样本集合中包括多组训练样本,每组训练样本中包括:当前时刻无人集群的状态信息集合,当前时刻无人集群的动作集合,下一时刻目标区域的通信吞吐量和下一时刻无人集群的状态信息集合。
训练模块,用于利用训练样本集合对初始混合网络模型进行训练,得到目标混合网络模型。
可选地,第二获取模块,包括:
重复执行单元,用于重复执行下述步骤A-E,直至得到指定数量的训练样本:
步骤A,随机初始化目标区域的网络环境信息和目标区域内正常地面基站的训练通信吞吐量;其中,网络环境信息包括:当前时刻无人集群的训练位置信息和当前时刻所有地面用户的训练位置信息。
步骤B,基于网络环境信息确定当前时刻无人集群的状态信息集合;其中,状态信息集合为每个无人机基站的训练状态信息的集合。
步骤C,利用初始单智能体网络模型对相应的无人机基站的训练状态信息进行处理,以确定使得无人机基站的动作价值函数值最大的目标动作,和目标动作下每个无人机基站在下一时刻的训练状态信息。
步骤D,基于所有无人机基站的目标动作确定当前时刻无人集群的动作集合,以及,基于所有无人机基站在下一时刻的训练状态信息确定下一时刻无人集群的状态信息集合。
步骤E,基于所有无人机基站在下一时刻的训练状态信息和正常地面基站的训练通信吞吐量,确定下一时刻目标区域的通信吞吐量。
可选地,网络环境信息包括还包括:当前时刻每个无人机基站的训练发射功率、无人机基站与地面用户之间的通信信道带宽和每个地面用户的高斯白噪声;步骤E具体用于:
基于当前时刻无人集群的训练位置信息、当前时刻所有地面用户的训练位置信息和当前时刻每个无人机基站的训练发射功率,确定每个地面用户的目标接收信号强度集合。
基于每个地面用户的目标接收信号强度集合、高斯白噪声和通信信道带宽,确定每个无人机基站与每个地面用户的无线传输速率。
基于每个无人机基站与每个地面用户的无线传输速率和每个无人机基站与每个地面用户的通信链接状态,计算下一时刻无人集群的通信吞吐量。
基于下一时刻无人集群的通信吞吐量和正常地面基站的训练通信吞吐量,确定下一时刻目标区域的通信吞吐量。
可选地,对初始混合网络模型进行训练的损失函数表示为:
Figure P_220706170218500_500122001
;其中,
Figure P_220706170218531_531368002
Figure P_220706170218562_562632003
表示第i个训练样本中的通信吞吐量,
Figure P_220706170218578_578242004
表示衰减因子,
Figure P_220706170218609_609501005
表示第i个训练样本中下一时刻无人集群的状态信息集合对应的联合动作价值函数值,
Figure P_220706170218627_627554006
表示第i个训练样本对应的联合动作价值函数训练值,k表示训练样本的总数。
实施例三
参见图7,本发明实施例提供了一种电子设备,该电子设备包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的一种无人集群飞行策略的确定方法、装置和电子设备的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种无人集群飞行策略的确定方法,其特征在于,包括:
获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量;其中,所述无人集群包括多个无人机基站;
基于每个所述无人机基站的位置信息和所有地面用户的位置信息,确定每个所述无人机基站的状态信息;
利用目标混合网络模型对所有所述无人机基站的状态信息和所述正常地面基站的通信吞吐量进行处理,得到每个所述无人机基站的动作信息;其中,所述目标混合网络模型中包括多个单智能体网络模型,所述单智能体网络模型与所述无人机基站一一对应,且所述目标混合网络模型是基于联合动作价值函数训练的,所述联合动作价值函数用于表征所有所述无人机基站的联合动作价值;
基于所有所述无人机基站的动作信息确定所述无人集群的飞行策略;
还包括:
获取训练样本集合;其中,所述训练样本集合中包括多组训练样本,每组训练样本中包括:当前时刻无人集群的状态信息集合,当前时刻无人集群的动作集合,下一时刻目标区域的通信吞吐量和下一时刻无人集群的状态信息集合;
利用训练样本集合对初始混合网络模型进行训练,得到所述目标混合网络模型;
其中,获取训练样本集合,包括:
重复执行下述步骤,直至得到指定数量的训练样本:
随机初始化所述目标区域的网络环境信息和所述目标区域内正常地面基站的训练通信吞吐量;其中,所述网络环境信息包括:当前时刻无人集群的训练位置信息和当前时刻所有地面用户的训练位置信息;
基于所述网络环境信息确定当前时刻所述无人集群的状态信息集合;其中,所述状态信息集合为每个所述无人机基站的训练状态信息的集合;
利用初始单智能体网络模型对相应的无人机基站的训练状态信息进行处理,以确定使得无人机基站的动作价值函数值最大的目标动作,和所述目标动作下每个无人机基站在下一时刻的训练状态信息;
基于所有无人机基站的目标动作确定当前时刻所述无人集群的动作集合,以及,基于所有无人机基站在下一时刻的训练状态信息确定下一时刻所述无人集群的状态信息集合;
基于所有无人机基站在下一时刻的训练状态信息和所述正常地面基站的训练通信吞吐量,确定下一时刻所述目标区域的通信吞吐量;
其中,所述网络环境信息包括还包括:当前时刻每个无人机基站的训练发射功率、所述无人机基站与地面用户之间的通信信道带宽和每个所述地面用户的高斯白噪声;
基于所有无人机基站在下一时刻的训练状态信息和所述正常地面基站的训练通信吞吐量,确定下一时刻所述目标区域的通信吞吐量,包括:
基于当前时刻无人集群的训练位置信息、当前时刻所有地面用户的训练位置信息和当前时刻每个无人机基站的训练发射功率,确定每个所述地面用户的目标接收信号强度集合;
基于每个所述地面用户的目标接收信号强度集合、所述高斯白噪声和所述通信信道带宽,确定每个所述无人机基站与每个所述地面用户的无线传输速率;
基于每个所述无人机基站与每个所述地面用户的无线传输速率和每个所述无人机基站与每个所述地面用户的通信链接状态,计算下一时刻所述无人集群的通信吞吐量;
基于下一时刻所述无人集群的通信吞吐量和所述正常地面基站的训练通信吞吐量,确定下一时刻所述目标区域的通信吞吐量。
2.根据权利要求1所述的确定方法,其特征在于,基于每个所述无人机基站的位置信息和所有地面用户的位置信息,确定每个所述无人机基站的状态信息,包括:
获取通信强度阈值和目标无人机基站的发射功率;其中,所述目标无人机基站表示所述无人集群中的任一无人机基站;
基于所述目标无人机基站的位置信息与目标地面用户的位置信息,计算所述目标无人机基站与所述目标地面用户之间的距离;所述目标地面用户表示所述所有地面用户中的任一地面用户;
基于所述目标无人机基站与所述目标地面用户之间的距离、所述发射功率和所述通信强度阈值,确定所述目标无人机基站与所述目标地面用户的通信链接状态;
基于所述目标无人机基站与所有地面用户的通信链接状态、所述目标无人机基站的位置信息和所有地面用户的位置信息确定所述目标无人机基站的状态信息。
3.根据权利要求2所述的确定方法,其特征在于,基于所述目标无人机基站与所述目标地面用户之间的距离、所述发射功率和所述通信强度阈值,确定所述目标无人机基站与所述目标地面用户的通信链接状态,包括:
基于所述目标无人机基站与所述目标地面用户之间的距离,确定所述目标无人机基站与所述目标地面用户的信号传输损失;
基于所述信号传输损失和所述发射功率确定所述目标地面用户的目标接收信号强度;
基于所述目标接收信号强度和所述通信强度阈值确定所述目标无人机基站与所述目标地面用户的通信链接状态。
4.根据权利要求1所述的确定方法,其特征在于,对初始混合网络模型进行训练的损失函数表示为:
Figure P_220914181341209_209444001
;其中,
Figure P_220914181341256_256323002
Figure P_220914181341288_288092003
表示第i个训练样本中的通信吞吐量,
Figure P_220914181341305_305151004
表示衰减因子,
Figure P_220914181341320_320765005
表示第i个训练样本中下一时刻无人集群的状态信息集合对应的联合动作价值函数值,
Figure P_220914181341352_352029006
表示第i个训练样本对应的联合动作价值函数训练值,k表示训练样本的总数,
Figure P_220914181341367_367663007
Figure P_220914181341398_398900008
表示无人机基站f的Q值网络参数,F表示无人机基站数量,
Figure P_220914181341414_414516009
表示混合网络参数。
5.一种无人集群飞行策略的确定装置,其特征在于,包括:
第一获取模块,用于获取目标区域内无人集群的位置信息、所有地面用户的位置信息和正常地面基站的通信吞吐量;其中,所述无人集群包括多个无人机基站;
第一确定模块,用于基于每个所述无人机基站的位置信息和所有地面用户的位置信息,确定每个所述无人机基站的状态信息;
处理模块,用于利用目标混合网络模型对所有所述无人机基站的状态信息和所述正常地面基站的通信吞吐量进行处理,得到每个所述无人机基站的动作信息;其中,所述目标混合网络模型中包括多个单智能体网络模型,所述单智能体网络模型与所述无人机基站一一对应,且所述目标混合网络模型是基于联合动作价值函数训练的,所述联合动作价值函数用于表征所有所述无人机基站的联合动作价值;
第二确定模块,用于基于所有所述无人机基站的动作信息确定所述无人集群的飞行策略;
还包括:
第二获取模块,用于获取训练样本集合;其中,所述训练样本集合中包括多组训练样本,每组训练样本中包括:当前时刻无人集群的状态信息集合,当前时刻无人集群的动作集合,下一时刻目标区域的通信吞吐量和下一时刻无人集群的状态信息集合;
训练模块,用于利用训练样本集合对初始混合网络模型进行训练,得到所述目标混合网络模型;
其中,第二获取模块,包括:
重复执行单元,用于重复执行下述步骤A-E,直至得到指定数量的训练样本:
步骤A,随机初始化所述目标区域的网络环境信息和所述目标区域内正常地面基站的训练通信吞吐量;其中,所述网络环境信息包括:当前时刻无人集群的训练位置信息和当前时刻所有地面用户的训练位置信息;
步骤B,基于所述网络环境信息确定当前时刻所述无人集群的状态信息集合;其中,所述状态信息集合为每个所述无人机基站的训练状态信息的集合;
步骤C,利用初始单智能体网络模型对相应的无人机基站的训练状态信息进行处理,以确定使得无人机基站的动作价值函数值最大的目标动作,和所述目标动作下每个无人机基站在下一时刻的训练状态信息;
步骤D,基于所有无人机基站的目标动作确定当前时刻所述无人集群的动作集合,以及,基于所有无人机基站在下一时刻的训练状态信息确定下一时刻所述无人集群的状态信息集合;
步骤E,基于所有无人机基站在下一时刻的训练状态信息和所述正常地面基站的训练通信吞吐量,确定下一时刻所述目标区域的通信吞吐量;
其中,所述网络环境信息包括还包括:当前时刻每个无人机基站的训练发射功率、所述无人机基站与地面用户之间的通信信道带宽和每个所述地面用户的高斯白噪声;
步骤E具体用于:
基于当前时刻无人集群的训练位置信息、当前时刻所有地面用户的训练位置信息和当前时刻每个无人机基站的训练发射功率,确定每个所述地面用户的目标接收信号强度集合;
基于每个所述地面用户的目标接收信号强度集合、所述高斯白噪声和所述通信信道带宽,确定每个所述无人机基站与每个所述地面用户的无线传输速率;
基于每个所述无人机基站与每个所述地面用户的无线传输速率和每个所述无人机基站与每个所述地面用户的通信链接状态,计算下一时刻所述无人集群的通信吞吐量;
基于下一时刻所述无人集群的通信吞吐量和所述正常地面基站的训练通信吞吐量,确定下一时刻所述目标区域的通信吞吐量。
6.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至4中任一项所述的无人集群飞行策略的确定方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现上述权利要求1至4中任一项所述的无人集群飞行策略的确定方法。
CN202210881139.6A 2022-07-26 2022-07-26 无人集群飞行策略的确定方法、装置和电子设备 Active CN114942653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210881139.6A CN114942653B (zh) 2022-07-26 2022-07-26 无人集群飞行策略的确定方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210881139.6A CN114942653B (zh) 2022-07-26 2022-07-26 无人集群飞行策略的确定方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN114942653A CN114942653A (zh) 2022-08-26
CN114942653B true CN114942653B (zh) 2022-10-25

Family

ID=82911571

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210881139.6A Active CN114942653B (zh) 2022-07-26 2022-07-26 无人集群飞行策略的确定方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN114942653B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116772811B (zh) * 2023-06-25 2024-03-26 爱生无人机试验测试靖边有限公司 一种基于无人机网络拓扑优化的测绘方法
CN116723470B (zh) * 2023-08-10 2023-11-07 中国电信股份有限公司 空中基站的移动轨迹预测模型的确定方法、装置和设备

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110531617B (zh) * 2019-07-30 2021-01-08 北京邮电大学 多无人机3d悬停位置联合优化方法、装置和无人机基站
CN111786713B (zh) * 2020-06-04 2021-06-08 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法
CN113645589B (zh) * 2021-07-09 2024-05-17 北京邮电大学 一种基于反事实策略梯度的无人机集群路由计算方法
CN114442670A (zh) * 2021-11-23 2022-05-06 中国人民解放军军事科学院国防科技创新研究院 一种无人机集群自组织飞行方法、系统及无人机
CN114339842B (zh) * 2022-01-06 2022-12-20 北京邮电大学 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置
CN114611660A (zh) * 2022-01-25 2022-06-10 北京邮电大学 应急无人机群轨迹调控方法及相关设备
CN114626499A (zh) * 2022-05-11 2022-06-14 之江实验室 用稀疏化注意力辅助决策的嵌入式多智能体强化学习方法

Also Published As

Publication number Publication date
CN114942653A (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN114942653B (zh) 无人集群飞行策略的确定方法、装置和电子设备
CN109885088B (zh) 边缘计算网络中基于机器学习的无人机飞行轨迹优化方法
CN108616303B (zh) 无人机基站通信系统的控制方法、系统、装置及存储介质
CN113395654A (zh) 一种边缘计算系统的多无人机任务卸载和资源分配的方法
EP3900267B1 (en) Parameter selection for network communication links using reinforcement learning
CN111935303A (zh) 空地一体化车联网中基于意图感知的任务卸载方法
CN115696211A (zh) 一种基于信息年龄的无人机轨迹自适应优化方法
Zhang et al. UAV-aided data dissemination protocol with dynamic trajectory scheduling in VANETs
CN112714416B (zh) 一种基于信任的任务卸载方法
US20220066475A1 (en) Unmanned aerial vehicle grouping
JP2024010185A (ja) アンテナシステムおよびデータ処理方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN114339842B (zh) 基于深度强化学习无人机集群在时变场景下动态轨迹设计方法和装置
CN114372612B (zh) 面向无人机移动边缘计算场景的路径规划和任务卸载方法
CN116700343A (zh) 一种无人机路径规划方法、设备和存储介质
CN115037751A (zh) 一种无人机辅助的异构车联网任务迁移与资源分配方法
US10477418B1 (en) Operation of sectorized communications from aerospace platforms using reinforcement learning
Lee et al. Optimal frequency reuse and power control in multi-UAV wireless networks: Hierarchical multi-agent reinforcement learning perspective
Shi et al. Age of information optimization with heterogeneous uavs based on deep reinforcement learning
CN113776531A (zh) 无线自供电通信网络的多无人机自主导航及任务分配算法
Mestoukirdi et al. UAV-aided multi-community federated learning
Cui et al. Model-free based automated trajectory optimization for UAVs toward data transmission
Li et al. Intelligent uav navigation: A DRL-QiER solution
CN113727278A (zh) 一种路径规划方法、接入网设备及飞行控制设备
He et al. Intelligent terahertz medium access control (MAC) for highly dynamic airborne networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant