CN114727323A

CN114727323A - 无人机基站控制方法及装置、模型训练方法及装置

Info

Publication number: CN114727323A
Application number: CN202210243338.4A
Authority: CN
Inventors: 徐齐钱; 陈海军; 何春龙
Original assignee: Zhejiang Yizheng Communication Technology Co ltd
Current assignee: Zhejiang Yizheng Communication Technology Co ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-07-08

Abstract

本申请涉及一种无人机基站控制方法及装置、模型训练方法及装置。无人机基站控制方法包括：确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息，状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、俯仰角、通信完成量；利用预先训练好的飞行轨迹优化模型，根据状态信息，确定下一时隙的调整动作；调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个；以使无人机基站根据调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时以调整后的参数进行通信，以使无人机完成与若干待通信设备通信的总时长小于预设值。

Description

无人机基站控制方法及装置、模型训练方法及装置

技术领域

本申请涉及通信技术领域，尤其是涉及一种无人机基站控制方法及装置、模型训练方法及装置。

背景技术

无人机基站能够快速组网，不仅可以用于增强5G无线通信系统的信号、扩大信号覆盖范围，还可以用于提供应急通信。

但是，由于无人机的电池续航技术没有突破性的进展，无人机的飞行时间受限，无人机基站在有限的时间和能量下能够服务的用户数量也是有限的。所以，如何通过设计无人机的飞行轨迹，让无人机基站能够在有限的时间和能量下服务更多的用户，是无人机基站能否广泛应用的关键之一。

目前，一般采用基于快速坐标下降和连续凸逼近算法来解决无人机基站的飞行轨迹优化问题。但是，无人机通信系统对控制算法的实时性有着很高要求。而基于快坐标下降和连续凸逼近算法的复杂度高，导致基于该算法的实时性低，真正被应用在实际的无人机通信系统中时，轨迹优化效率较低。

发明内容

本申请提供一种无人机基站控制方法及装置、模型训练方法及装置，以提高无人机控制的实时性，提高轨迹优化效率。

第一方面，本申请提供一种无人机基站控制方法，包括：

确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量；

利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时以调整后的参数进行通信，以使无人机完成与若干待通信设备通信的总时长小于预设值。

可选的，所述飞行轨迹优化模型包括：采样策略神经网络、目标策略神经网络和评论家神经网络；

所述方法还包括：

初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络；初始化经验回放池；

循环执行如下训练过程，直至达到预设训练次数：

基于所述采样策略神经网络，生成若干组训练样本；

根据所述训练样本，确定所述目标策略神经网络的梯度；

基于梯度上升法，根据所述目标策略神经网络的梯度，更新所述目标策略神经网络的参数；

根据所述训练样本，确定所述评论家神经网络的损失；

基于梯度下降法，根据所述评论家神经网络的损失，更新所述评论家神经网络的参数；

根据所述更新的目标策略神经网络的参数，更新所述采样策略神经网络的参数。

可选的，所述基于所述采样策略神经网络，生成若干组训练样本，包括：

初始化所述无人机基站的状态信息，随机生成若干待通信设备的地理位置，初始化时间t＝0；

在达到最大时间t_max之前，循环执行如下步骤生成样本：

确定所述无人机基站的状态信息s_t；

基于所述采样策略神经网络，选择调整动作a_t；

根据所述调整动作a_t，确定所述无人机基站在下一时隙的位置、所述无人机基站在下一时隙对应的状态信息s_t+1；

根据预先设定的奖励函数，确定调整动作a_t对应的奖励值r_t；

将s_t、a_t、r_t、s_t+1生成一组新样本[s_t,a_t,r_t,s_t+1]，放入经验回放池；

更新时间t。

可选的，所述根据所述训练样本，确定所述目标策略神经网络的梯度，包括：

根据所述训练样本，利用所述采样策略神经网络和所述评论家神经网络，确定优势函数；

根据所述优势函数，确定所述目标策略神经网络的梯度。

可选的，所述基于梯度上升法，根据所述目标策略神经网络的梯度，更新所述目标策略神经网络的参数，包括：

基于梯度上升法，根据所述目标策略神经网络的学习率和所述目标策略神经网络的梯度，更新所述目标策略神经网络的参数。

可选的，所述根据所述训练样本，确定所述评论家神经网络的损失，包括：

根据所述训练样本，利用所述采样策略神经网络和所述评论家神经网络，确定所述评论家神经网络的损失。

第二方面，本申请提供一种模型训练方法，用于对飞行轨迹优化模型进行训练，所述飞行轨迹优化模型包括采样策略神经网络、目标策略神经网络和评论家神经网络；所述方法包括：

循环执行如下训练过程，直至达到预设训练次数：

基于所述采样策略神经网络，生成若干组训练样本；

根据所述训练样本，确定所述目标策略神经网络的梯度；

根据所述训练样本，确定所述评论家神经网络的损失；

初始化所述无人机基站的状态信息，随机生成若干待通信设备的地理位置，初始化时间t＝0；在达到最大时间t_max之前，循环执行如下步骤生成样本：

确定所述无人机基站的状态信息s_t；

基于所述采样策略神经网络，选择调整动作a_t；

更新时间t。

根据所述优势函数，确定所述目标策略神经网络的梯度。

第三方面，本申请提供一种无人机基站控制装置，包括：

信息确定模块，用于确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量；

调整动作确定模块，用于利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时以调整后的参数进行通信，以使无人机完成与若干待通信设备通信的总时长小于预设值。

所述装置还包括模型训练模块，用于：

循环执行如下训练过程，直至达到预设训练次数：

基于所述采样策略神经网络，生成若干组训练样本；

根据所述训练样本，确定所述目标策略神经网络的梯度；

基于梯度上升法，根据所述目标策略神经网络的梯度，更新所述目标策略神经网络的参数；根据所述训练样本，确定所述评论家神经网络的损失；

可选的，所述模型训练模块在基于所述采样策略神经网络，生成若干组训练样本时，具体用于：

确定所述无人机基站的状态信息s_t；

基于所述采样策略神经网络，选择调整动作a_t；

更新时间t。

可选的，所述模型训练模块在根据所述训练样本，确定所述目标策略神经网络的梯度时，具体用于：

根据所述训练样本，利用所述采样策略神经网络和所述评论家神经网络，确定优势函数；根据所述优势函数，确定所述目标策略神经网络的梯度。

可选的，所述模型训练模块在基于梯度上升法，根据所述目标策略神经网络的梯度，更新所述目标策略神经网络的参数时，具体用于：

可选的，所述模型训练模块在根据所述训练样本，确定所述评论家神经网络的损失时，具体用于：

第四方面，本申请提供一种模型训练装置，包括：

初始化模块，用于初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络；初始化经验回放池；

训练模块，用于循环执行如下训练过程，直至达到预设训练次数：基于所述采样策略神经网络，生成若干组训练样本；根据所述训练样本，确定所述目标策略神经网络的梯度；基于梯度上升法，根据所述目标策略神经网络的梯度，更新所述目标策略神经网络的参数；根据所述训练样本，确定所述评论家神经网络的损失；基于梯度下降法，根据所述评论家神经网络的损失，更新所述评论家神经网络的参数；根据所述更新的目标策略神经网络的参数，更新所述采样策略神经网络的参数。

可选的，所述训练模块在基于所述采样策略神经网络，生成若干组训练样本时，具体用于：

确定所述无人机基站的状态信息s_t；

基于所述采样策略神经网络，选择调整动作a_t；

更新时间t。

可选的，所述训练模块在根据所述训练样本，确定所述目标策略神经网络的梯度时，具体用于：

根据所述优势函数，确定所述目标策略神经网络的梯度。

可选的，所述训练模块在基于梯度上升法，根据所述目标策略神经网络的梯度，更新所述目标策略神经网络的参数时，具体用于：

可选的，所述训练模块在根据所述训练样本，确定所述评论家神经网络的损失时，具体用于：

第五方面，本申请提供一种电子设备，包括：存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于调用并执行所述存储器中的程序指令，执行如第一方面任一项或第二方面任一项所述的方法。

第六方面，本申请提供一种计算机可读存储介质，存储有能够被处理器加载并执行第一方面任一项或第二方面任一项的方法的计算机程序。

本申请提供了一种无人机基站控制方法及装置、模型训练方法及装置。其中，无人机基站控制方法包括：确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量；利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时以调整后的参数进行通信，以使无人机完成与若干待通信设备通信的总时长小于预设值。通过预先的训练，可以使飞行轨迹优化模型达到轨迹优化的效果。在无人机基站控制时，通过确定待通信设备的相关信息和无人机基站的相关信息，并输入到飞行轨迹优化模型中，即可输出对应的调整动作。无人机执行调整动作，即可到达下一位置点并进行通信。遵循飞行轨迹优化模型的轨迹指导，可以实时调整无人机的飞行轨迹，以提高无人机控制的实时性，提高轨迹优化效率。同时可以在最短的时间内完成与若干待通信设备的通信。

附图说明

图1为本申请一实施例提供的一种应用场景示意图；

图2为本申请一实施例提供的一种无人机基站控制方法的流程图；

图3为本申请一实施例提供的另一种应用场景的示意图；

图4为本申请一实施例提供的一种基于深度强化学习PPO算法的无人机基站轨迹优化模型算法的系统框架的示意图；

图5为本申请一实施例提供的一种无人机基站控制装置的结构示意图；

图6为本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本申请实施例作进一步详细描述。

目前，无人机基站已成为人们研究的重点之一。它具有成本低廉、移动性强、灵活性高、易于布置以及拥有大概率的视距通信。这些优点一直是传统基站所无法达到的。所以无人机基站在未来5G通信系统中被广泛应用起来。第一，增强无线蜂窝网络的5G覆盖范围和容量。第二，满足动态变化的移动网络流量需求。第三，实现应急通信。第四，采集物联网设备信息。

但是无人机基站电池技术发展比较慢，无人机基站不可能无限增加电池数量。因为随着电池数量增加，无人机载重也随之增加，无人机能量消耗也随之增加。

因此，本申请集中于设计一个用于无人机基站的飞行轨迹、用户调度和功率分配的算法，该算法能够让无人机能够根据用户地理位置信息，自动调整自己的飞行轨迹，进行用户调度和功率分配，从而在完成飞行任务和通信任务的前提下，最小化无人机基站的飞行时间和能量消耗。

目前，关于无人机基站轨迹优化的算法一般包括传统凸优化算法，如块坐标下降和连续凸逼近算法等。但是基于块坐标下降和连续凸逼近算法的复杂度高、实时性低。无人机通信系统对控制算法的实时性有着很高要求。所以，目前研究的算法的实用性很低，很难真正被应用在实际通信系统中。

基于此，本申请提供一种无人机基站控制方法及装置、模型训练方法及装置，以提高无人机控制的实时性，提高轨迹优化效率。

图1为本申请提供的一种应用场景示意图。如图1所示的，有若干个待通信设备随机分布在一定区域范围内，一个无人机基站(UAV-BS)负责与该区域内的这些待通信设备(在本场景中，待通信设备为物联网设备Internet of Device Thing,IoDT)进行通信。其中，虚线所示为其中一条下行通信链路。在通信过程中，无人机基站采用本申请提供的方法进行飞行动作调节，可以使无人机基站与各物联网设备的通信效率达到最大，尽快完成在该区域范围内的通信任务。

在另一些场景中，还可以由另一控制设备基于本申请提供的方法对无人机基站进行飞行姿态调节。

无人机基站进行飞行姿态调节的具体实现过程可以参考以下实施例。

图2为本申请一实施例提供的一种无人机基站控制方法的流程图，本实施例的方法可以应用于以上场景中的无人机基站或控制设备，本实施例的方法包括：

S201、确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量。

其中，待通信设备可以通过自身配备的GPS定位模块进行定位，并将定位信息发送给无人机基站。相对应的，无人机基站则可以获取并确定各待通信设备的位置信息。

通信完成量信息指截止到执行本方法的时刻，每一待通信设备累计的通信量。

在一些实现方式中，可以通过从无人机基站设备的飞行控制系统中获取当前时隙的状态信息。其中，无人机基站的位置信息可以由无人机基站设备上设置的GPS定位模块确定，并传输到无人机基站设备的飞行控制系统中；速度信息、加速度信息、航向角信息、俯仰角信息则可以通过无人机基站设备上设置的IMU惯性测量单元来确定，并传输到无人机基站设备的飞行控制系统中；无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角，可以在确定待通信设备的位置信息和无人机基站的位置信息后计算得到；无人机基站与任一通信设备之间的通信完成量信息可以通过无人机基站设备上设置的通信单元来确定，并传输到无人机基站设备的飞行控制系统中。

S202、利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时以调整后的参数进行通信，以使无人机完成与若干待通信设备通信的总时长小于预设值。

本实施例中的飞行轨迹优化模型通过训练，具备了根据待通信设备的位置信息和无人机基站当前时隙的状态信息，确定下一时隙调整动作的能力。在本实施例中，调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个。无论输出调整动作是什么，其均为飞行轨迹优化模型为保证整体通信耗时最小而所确定的动作。

因此，在确定了待通信设备的位置信息和无人机基站当前时隙的状态信息后，即可将这些数据输入预先训练好的飞行轨迹优化模型。模型通过算法处理，可以输出一个与当前状态对应的下一时隙可以执行的飞行动作调整量、下一时隙进行通信的设备、下一时隙通信功率的调整量中的至少一个。无人机基站可以根据飞行动作调整量调整飞行动作；根据通信功率调整量调整通信功率；根据进行通信的设备，与对应的待通信设备建立通信连接。无论是否调整飞行动作，无人机基站在下一时隙都会到达新的轨迹点，在新轨迹点上，与待通信设备进行通信。若输出的调整动作中包括进行通信的设备，则在新轨迹点上与对应的待通信设备进行通信；若输出的调整动作中包括通信功率调整量，则在新轨迹点上以调整后的通信功率待通信设备进行通信。

对应于不同的执行主体，本实施例的方案的执行过程有细微的差别。

当本方法的执行主体为无人机基站时，无人机基站可以获取若干待通信设备的位置信息和自身的状态信息，并输入到飞行轨迹优化模型中。再根据飞行轨迹优化模型的输出结果做出相应的调整。

当本方法的执行主体为控制设备时，控制设备可以获取若干待通信设备的位置信息和从无人机基站处获取无人机基站的状态信息，并输入到飞行轨迹优化模型中。再根据行轨迹优化模型的输出结果控制无人机基站做出相应的调整。

本实施例提供的无人机基站控制方法包括：确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量；利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时以调整后的参数进行通信，以使无人机完成与若干待通信设备通信的总时长小于预设值。通过预先的训练，可以使飞行轨迹优化模型达到轨迹优化的效果。在无人机基站控制时，通过确定待通信设备的相关信息和无人机基站的相关信息，并输入到飞行轨迹优化模型中，即可输出对应的调整动作。无人机执行调整动作，即可到达下一位置点并进行通信。遵循飞行轨迹优化模型的轨迹指导，可以实时调整无人机的飞行轨迹，以提高无人机控制的实时性，提高轨迹优化效率。同时可以在最短的时间内完成与若干待通信设备的通信。

在一些实施例中，上述的飞行轨迹优化模型可以包括：采样策略神经网络、目标策略神经网络和评论家神经网络。相对应的，上述方法还可以包括飞行轨迹优化模型的训练过程：初始化所述采样策略神经网络、所述目标策略神经网络和所述评论家神经网络；初始化经验回放池；循环执行如下训练过程，直至达到预设训练次数：基于所述采样策略神经网络，生成若干组训练样本；根据所述训练样本，确定所述目标策略神经网络的梯度；基于梯度上升法，根据所述目标策略神经网络的梯度，更新所述目标策略神经网络的参数；根据所述训练样本，确定所述评论家神经网络的损失；基于梯度下降法，根据所述评论家神经网络的损失，更新所述评论家神经网络的参数；根据所述更新的目标策略神经网络的参数，更新所述采样策略神经网络的参数。

基于提高无人机基站控制实时性的目的，本申请提出基于深度强化学习PPO算法的飞行轨迹优化模型。该模型可以由三个网络构成，采样策略神经网络、目标策略神经网络和评论家神经网络。

模型涉及三个主要的函数，状态信息函数、调整动作函数、奖励函数。其中，状态信息函数主要与无人机基站的通信场景相关，根据场景中若干待通信设备的位置信息、无人机基站的位置、速度、加速度、航向，无人机基站与待通信设备的距离、俯仰角、通信量等信息，可以确定状态信息函数；调整动作函数主要与无人机基站的可调控的飞行动作相关，根据无人机基站的实际型号及其可控飞行动作，可以确定调整动作函数，可以包括速度、加速度、航向等动作；奖励函数则与通信总时长最小的优化目标相关，鉴于缩短通信时长的目标，可以将奖励函数设置为与通信时长正相关的函数。

以图1对应场景为例说明模型构建过程。为便于描述，在该场景中建立如图3所示的坐标系来对无人机基站和物联网设备的位置进行描述。

在此场景中，有一个无人机基站和随机分布的N个物联网设备。该无人机的任务就是从一个补给点(起飞点)起飞，然后在其工作范围内飞行并执行通信任务。在每个时隙中，无人机从通信信号覆盖范围内所有物联网设备中选择未完成通信任务的物联网设备进行通信，被选择的物联网设备发送其基本信息到无人机。无人机收集到工作范围内所有物联网设备的最低数据容量需求之后，飞行返回到降落点(补给点)。为了更加节省无人机基站的飞行时间，这个模型的优化目标就是最小化无人机与物联网设备的通信时间和飞行时间。

其中，(x_D[t],y_D[t],z_D[t])代表无人机在第t个时隙的飞行坐标，(x_i,y_i,z_i)代表第i个物联网设备的坐标。无人机的补给点的坐标可以表示为

图中未示出。因为需要确保无人机处于安全的飞行范围以免无人机碰撞到建筑物，并且需要确保无人机与控制塔保持连接，所以限制无人机的飞行高度处于一定的范围之内，可以表示为：

其中，

代表无人机的飞行高度z_D[t]的最小值，其补给点的高度

为不同参数。不过，在实际场景中，为了方便计算可以设定为相同数值，此数值可以设定为0或其它数值。

同时，物联网设备的高度也处于一个范围之间，可以表示为：

另外，为了简化模型，可以规定无人机的飞行高度比物联网设备高，可以表示为：

在无人机执行任务的第t时隙中，无人机与第i个物联网设备之间的空对地视距概率可以表示为：

其中，a和b为常数，与场景对应的实际环境相关；r_i[t]代表无人机与第i个物联网设备在第t个时隙的水平距离；h_i[t]代表无人机与第i个物联网设备在第t个时隙的垂直距离；P_LoS(h_i[t],r_i[t])表示无人机与第i个物联网设备在第t个时隙通信时属于视距概率通信的概率。

那么，无人机与第i个物联网设备在第t个时隙通信时属于非视距概率通信的概率可以表示为：

除了自由空间传播损失外，无线电信号还会由于城市环境的遮蔽和散射而遭受损失。因此LoS链路和NLoS链路的路径损耗模型如下：

其中，f_c代表载波频率；c代表光速；d_i[t]代表无人机与第i个物联网设备在第t个时隙的实际距离。

所以，无人机与第i个物联网设备之间在第t个时隙的平均路径损耗可以表示为:

综合上式(4)-(10)可以得到：

A＝η_LoS-η_NLoS

其中，θ_i[t]代表无人机在第t个时隙与第i个物联网设备通信的俯仰角，范围可以表示为0≤θ_i[t]＜90°。

第i个物联网设备在第t个时隙接收到的功率可以表示为：

其中，P_D[t]代表无人机在第t时隙的发射功率。

为了保证无人机与第i个物联网设备的通信质量，必须保证第i个物联网设备接收到的功率超过阈值P_min。换言之，当第i个物联网设备接收到的功率P_i ^r[t]大于等于P_min，则可认为第i个物联网设备在第t个时隙处于无人机的覆盖范围中，这个条件属于优化问题的限制条件之一。

无人机选择物联网设备的策略如下：无人机与覆盖范围内的所有没有完成通信任务的物联网设备进行通信。无人机是否与物联网设备进行通信可以表示为：

其中，c_i[t]＝0代表无人机决定在第t个时隙中与第i个物联网设备不进行通信；c_i[t]＝1代表无人机决定在第t个时隙中与第i个物联网设备进行通信。

无人机的飞行坐标可以表示为：

其中，t_end代表无人机完成通信任务之后返回补给点的时隙。

无人机从补给点起飞又回到补给点，因此有：

C3:q[1]＝q[t_end] (18)

另外，考虑到无人机的电池能量和飞行时间有限的问题，无人机在收集完物联网设备的信息之后，应当在限制的飞行时间内飞回起飞点(补给点)，否则视为任务失败。则t_end需满足：

C4:t_end≤t_max (19)

无人机第t+1时隙的运动方程可以表示为：

其中，φ[t]代表无人机在第t时隙的航向角；

代表无人机在第t时隙的俯仰角；V[t]代表无人机在第t时隙的速度。

无人机可调的航向角、俯仰角、速度都是有极限的，因此，φ[t]、

V[t]有一定的范围限制，可以通过如下公式表示：

其中，V_max代表无人机最大的飞行速度。

同时，无人机在两个时隙之间的移动距离也是有限的，具体可以表示为：

其中，S_max代表无人机在第t时隙内可飞行的最远距离，可以通过以下公式计算：

另外，无人机在第t时隙的速度变化可以表示为：

其中，a_D[t]代表无人机在第t时隙的加速度。无人机的加速度与无人机的性能相关，因此，a_D[t]也有一定的范围限制。同时，无人机的加速度具有方向性，加速度为正，则加速；加速度为负，则减速。a_D[t]的取值可以通过如下公式表示：

其中，

代表无人机的最大飞行加速度。

在这个场景中，无人机与第i个物联网设备在第t个时隙通信的信噪比可以表示为：

其中，σ²代表高斯加性白噪声；P_i ^r[t]代表第i个物联网设备在第t时隙中接收到的功率。因为环境中存在各种衰落系数，所以物联网设备收到的功率小于最大的无人机发射功率P_max，可以表示为：

如果第i个物联网设备在第t时隙处于无人机的覆盖范围内，并且还没有完成数据传输任务，那么第i个物联网设备就会在第t时隙给无人机发送数据。无人机在第t个时隙与第i个物联网设备之间的通信速率可以表示为：

其中，B代表通信的带宽。

无人机的飞行任务可以分为两部分，第一部分就是完成所有物联网设备的通信任务(即对每个物联网设备收集足够的数据)，第二部分就是自主飞回补给点(起飞点/降落点)。

对于第一部分的任务，从第i个物联网设备收集的数据可以表示为：

其中，η_min代表每个物联网设备必须发送的最少信息容量。

这个场景下的优化目标就是最小化无人机执行任务的飞行时间，具体可以表示为：

策略函数可以用来描述智能体在状态s_t下采取动作a_t的概率，在深度神经网络中，就是使用一个神经网络来拟合这个策略函数。由于PPO是属于演说家-评论家结构和异策略的深度强化学习算法，所以PPO中的策略函数通常有两个函数。一个用来采集学习样本，被称为采样策略函数；另外一个作为时刻更新的参数，叫目标策略函数。两者都是通过神经网络拟合得到的，分别称为采样策略神经网络和目标策略神经网络。目标策略神经网络和采样策略神经网络的参数可以分别表示为θ和θ'，目标策略神经网络和采样策略神经网络可以通过数学式分别表示为π_θ(a_t|s_t)和π_θ'(a_t|s_t)。另外，对于深度强化学习PPO算法，还需要一个评论家函数。其实评论家函数就是一个状态值函数，用来评判当前出现这个状态的价值。同样也可以使用一个神经网络来拟合这个状态值函数，这个神经网络可以被称为状态值函数网络，也可以被称为评论家神经网络，这个神经网络可以表示为V_ω(s_t)，这个神经网络的参数可以表示为ω。

上述的根据所述训练样本，确定所述目标策略神经网络的梯度，具体可以包括：根据所述训练样本，利用所述采样策略神经网络和所述评论家神经网络，确定优势函数；根据所述优势函数，确定所述目标策略神经网络的梯度。基于梯度上升法，根据所述目标策略神经网络的梯度，更新所述目标策略神经网络的参数，具体可以包括：基于梯度上升法，根据所述目标策略神经网络的学习率和所述目标策略神经网络的梯度，更新所述目标策略神经网络的参数。根据所述训练样本，确定所述评论家神经网络的损失，具体可以包括：根据所述训练样本，利用所述采样策略神经网络和所述评论家神经网络，确定所述评论家神经网络的损失。

深度强化学习PPO算法的演说家神经网络(目标策略神经网络)的梯度计算公式可以表示为：

其中，A^θ′(s_t,a_t)代表优势函数，指的是，在状态s_t下，动作a_t相对于平均而言的优势，可以通过以下公式计算：

A^θ′(s_t,a_t)＝δ_t+βδ_t+1+…+(β)^T-tδ_T (34)

其中，β代表折扣因子，δ_t可以通过以下公式计算：

δ_t＝R(s_t,a_t|θ')+βV_ω(s_t+1)-V_ω(s_t) (35)

其中，R(s_t,a_t|θ')代表奖励函数。

目标策略神经网络的参数更新公式可以表示为：

其中，o为目标策略神经网络的学习率，

即为目标策略神经网络的梯度

评论家神经网络(状态值函数网络)参数的损失函数可以表示为：

评论家神经网络参数ω的更新公式为：

其中，w代表评论家神经网络的学习率。

综上，基于深度强化学习PPO算法的无人机基站轨迹优化算法的系统框架可以如图4所示。

在一些实施例中，上述的基于所述采样策略神经网络，生成若干组训练样本，包括：初始化所述无人机基站的状态信息，随机生成若干待通信设备的地理位置，初始化时间t＝0；在达到最大时间t_max之前，循环执行如下步骤生成样本：确定所述无人机基站的状态信息s_t；基于所述采样策略神经网络，选择调整动作a_t；根据所述调整动作a_t，确定所述无人机基站在下一时隙的位置、所述无人机基站在下一时隙对应的状态信息s_t+1；根据预先设定的奖励函数，确定调整动作a_t对应的奖励值r_t；将s_t、a_t、r_t、s_t+1生成一组新样本[s_t,a_t,r_t,s_t+1]，放入经验回放池；更新时间t。

由于无人机的问题属于多维的连续动作空间问题，所以本申请的方案选择使用深度强化学习PPO(Proximal Policy Optimization)算法来解决上述优化问题。

如何使用深度强化学习PPO算法来解决无人机基站环境下的轨迹优化问题是本申请的关键。深度强化学习最重要的三个部分分别是状态空间设计、动作空间设计和奖励函数设计。

状态空间设计。在上述的无人机基站场景中，状态向量应该包含这个环境里面的所有信息。那么无人机基站在第t时隙从环境中所观察到的状态s_t可以表示为：

其中，(x_D[t],y_D[t],z_D[t])代表无人机在第t时隙的位置；V[t]代表无人机在第t时隙的飞行速度；φ[t]代表无人机的航向角；

代表无人机的俯仰角；(x_i,y_i,z_i)代表第i物联网设备的坐标；θ_i[t]代表无人机与第i个物联网设备之间的俯仰角；d_i[t]代表无人机与第i个物联网设备之间的真实距离；η_i[t]代表第i个物联网设备已经完成的通信任务；N_f代表无人机已经完成通信任务的物联网设备数量；N代表无人机工作范围里的总用户数量；t代表无人机飞行在第t工作时隙；t_max代表无人机的最大飞行时间。

状态s_t中所有的特征在输入神经网络之前都会被归一化到[-1,1]。整个状态向量s_t包含了6+7N+4维度。

动作空间设计。动作向量的设计决定无人机(智能体)的飞行动作，所以动作空间应该包括智能体在环境中可能采取的所有操作。对于本申请的场景，动作空间a_t可以表示为：

其中，a_D[t]代表无人机在第t时隙的加速度；

代表无人机在第t时隙的航向角转角；

代表无人机在第t时隙的俯仰角转角；

代表无人机的传输功率。每个向量的值都处于不同的范围，分别可以表示为：

a_D[t]∈[-1,1] (40)

通过简单的映射函数，把动作空间映射到实际的无人机操作中，四个元素对应的映射和作用到动作空间的函数分别可以表示为：

其中，(x)mod(y)代表x对y取余。

奖励函数设计。奖励函数的设计对于神经网络的训练起着至关重要的作用。因为奖励函数的设计直接影响智能体学习到在某个状态下应该执行某个动作，所以奖励函数的设计可能直接影响整个神经网络的训练情况。在本申请中，为了让无人机通过训练，能够按照要求完成指定的飞行任务，所以奖励函数设计的比较复杂，分别由五个部分组成。奖励函数详细的设计过程如下所示。

首先，第一项奖励值的设置如下：

其中，reward₁表示无人机完成了与所有用户的通信任务之后，飞回补给点结束整个飞行任务所得到的奖励；r_b代表一个常数；t_end代表无人机结束飞行任务的时间。

所以，整个reward₁奖励项代表的是，一个无人机越早完成通信任务和飞行任务，得到的奖励就越多。无人机基于这个奖励项进行训练学习后，能够学会越早完成通信任务和飞行任务就能得到越多的奖励。

reward₁属于稀疏奖励。只有稀疏奖励，智能体很难通过训练得到奖励，也就很难学习到正确的方法。所以还需要增加中间奖励。

其中，r_fc代表一个常数；N_fc[t]代表第t时隙完成通信任务的物联网设备的数量；N_fc[t-1]代表第t-1时隙完成通信任务的物联网设备的数量。

reward₂代表越早完成一个物联网设备的通信任务就能够得到更多的奖励。

除此之外，还设计了一个reward₃奖励项。这个奖励项代表无人机越早完成与所有物联网设备的通信任务就能获得越多奖励值。

其中，t_fc代表无人机完成通信任务的时隙。

当无人机基站完成了通信任务之后，需要执行回到起飞点的任务。也要对应设置一个中间过程的奖励，这个中间奖励的设计理念就是离起飞点越近受到的惩罚就越少。

其中，D_p代表无人机离起飞点(补给点)的距离。

当无人机在最大飞行时间之内没有完成所有用户的通信任务，则视为任务失败，给予相应的惩罚。

其中，η_i代表物联网设备与无人机已完成的通信量。

reward＝reward₁+reward₂+reward₃+reward₄+reward₅ (52)

本申请基于深度强化学习PPO算法的无人机轨迹规划训练过程算法如下表所示。

从上表可以看出来，基于深度强化学习PPO算法的无人机路径规划算法的训练过程如下。

首先，在算法开始阶段，用参数ω初始化评论家神经网络V_ω(s)，用参数θ初始化目标策略神经网络π_θ(a|s)。然后，用目标策略神经网络π_θ(a|s)的参数θ初始化采样策略神经网络π_θ'(a|s)的参数θ'。完成初始化后，即可进入训练过程。

在每次训练过程开始，都要初始化无人机的环境、无人机的初始位置、物联网设备的位置。接着初始化短期记忆回放池B。无人机从环境中观察到s_t，进入无人机飞行任务的循环。

根据采样策略神经网络π_θ'(a|s)选择动作a_t，并执行动作a_t改变无人机的动作。具体的，若a_t为加速度，则根据式(41)改变无人机的加速度a_D[t]和速度V[t]；若a_t为航向角，则根据式(42)改变无人机的航向角φ[t]；若a_t为俯仰角，则根据式(43)改变无人机的俯仰角

若a_t为发送功率，则根据式(44)改变无人机的发送功率P_D[t]。改变动作后，确定无人机在第t个时隙的运动状态，执行对应的飞行动作，改变无人机的坐标。通过计算无人机在新坐标的通信覆盖范围，选择处于通信覆盖范围内并且没有完成通信任务的物联网设备进行通信。计算这些物联网设备与无人机的通信速率，然后根据奖励函数得到r_t，储存序列(s_t,a_t,r_t,s_t+1)到记忆回放池中。

重复循环过程，直至无人机飞行时隙t等于t_max或者无人机已经完成所有飞行任务，结束这次训练。然后，通过式(33)来计算目标策略神经网络的梯度，并且使用梯度上升的方式去更新参数。同样地，通过式(37)来计算评论家神经网络的梯度，并且使用梯度下降的方式去更新参数。然后，使用目标策略神经网络的参数θ来更新采样策略神经网络的参数θ'。至此完成一次完整的训练。

不断地重复以上步骤，直至训练次数达到预设的次数M次。

本申请的方案，同时考虑了无人机基站飞行轨迹、用户选择策略、功率分配策略、无人机覆盖范围、无人机基站飞行高度等问题，制定了无人机基站的飞行时间优化问题。同时，采用深度强化学习PPO算法实现了轨迹优化。

在实际情况中，由于用户设备的地理位置是随机产生的，如果无人机基站轨迹优化算法要真正地被应用在实际操作系统中，那么对无人机基站的轨迹优化算法的实时性和算法复杂度有着很高的要求。传统凸优化算法中的块坐标下降和连续凸逼近算法复杂度高，导致无人机基站轨迹优化算法很难被真正地应用起来。而机器学习，特别是神经网络已经在很多领域被广泛应用起来，如自动驾驶等。神经网络能够被看作成一个函数拟合器，神经网络通过训练，可以有很好的拟合性能，并且具有很低的时间复杂度。因此，通过深度强化学习PPO算法能够训练出一个神经网络，这个神经网络也能被称为策略函数。无人机基站能够根据这个神经网络和用户地理位置信息实时地、自适应地调整自身的飞行轨迹、用户选择和资源分配策略。使得无人机基站的轨迹优化算法能够真正地被应用在实际的无人机通信系统中，保证无人机基站在完成基本任务的同时，能够最小化无人机基站的飞行时间，从而最小化无人机基站的能量消耗。

图5为本申请一实施例提供的一种无人机基站控制装置的结构示意图，如图5所示的，本实施例的无人机基站控制装置500包括：信息确定模块501、调整动作确定模块502。

信息确定模块501，用于确定若干待通信设备的位置信息和当前时隙无人机基站的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、无人机基站与任一通信设备之间的距离、无人机基站与任一通信设备之间的俯仰角、无人机基站与任一通信设备之间的通信完成量；

调整动作确定模块502，用于利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时以调整后的参数进行通信，以使无人机完成与若干待通信设备通信的总时长小于预设值。

所述装置还包括模型训练模块503，用于：

循环执行如下训练过程，直至达到预设训练次数：

基于所述采样策略神经网络，生成若干组训练样本；

根据所述训练样本，确定所述目标策略神经网络的梯度；

根据所述训练样本，确定所述评论家神经网络的损失；

可选的，所述模型训练模块503在基于所述采样策略神经网络，生成若干组训练样本时，具体用于：

确定所述无人机基站的状态信息s_t；

基于所述采样策略神经网络，选择调整动作a_t；

更新时间t。

可选的，所述模型训练模块503在根据所述训练样本，确定所述目标策略神经网络的梯度时，具体用于：

根据所述优势函数，确定所述目标策略神经网络的梯度。

可选的，所述模型训练模块503在基于梯度上升法，根据所述目标策略神经网络的梯度，更新所述目标策略神经网络的参数时，具体用于：

可选的，所述模型训练模块503在根据所述训练样本，确定所述评论家神经网络的损失时，具体用于：

本实施例的装置，可以用于执行上述任一实施例的方法，其实现原理和技术效果类似，此处不再赘述。

图6为本申请一实施例提供的一种电子设备的结构示意图，如图6所示，本实施例的电子设备600可以包括：存储器601和处理器602。

存储器601上存储有能够被处理器602加载并执行上述实施例中方法的计算机程序。

其中，处理器602和存储器601相连，如通过总线相连。

可选地，电子设备600还可以包括收发器。需要说明的是，实际应用中收发器不限于一个，该电子设备600的结构并不构成对本申请实施例的限定。

处理器602可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器602也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线可包括一通路，在上述组件之间传送信息。总线可以是PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器601可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器601用于存储执行本申请方案的应用程序代码，并由处理器602来控制执行。处理器602用于执行存储器601中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图6示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本实施例的电子设备，可以用于执行上述任一实施例的方法，其实现原理和技术效果类似，此处不再赘述。

本申请还提供一种计算机可读存储介质，存储有能够被处理器加载并执行如上实施例中的方法的计算机程序。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种无人机基站控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述飞行轨迹优化模型包括：采样策略神经网络、目标策略神经网络和评论家神经网络；

所述方法还包括：

循环执行如下训练过程，直至达到预设训练次数：

基于所述采样策略神经网络，生成若干组训练样本；

根据所述训练样本，确定所述目标策略神经网络的梯度；

根据所述训练样本，确定所述评论家神经网络的损失；

3.根据权利要求2所述的方法，其特征在于，所述基于所述采样策略神经网络，生成若干组训练样本，包括：

确定所述无人机基站的状态信息s_t；

基于所述采样策略神经网络，选择调整动作a_t；

更新时间t。

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述训练样本，确定所述目标策略神经网络的梯度，包括：

根据所述优势函数，确定所述目标策略神经网络的梯度。

5.根据权利要求2或3所述的方法，其特征在于，所述基于梯度上升法，根据所述目标策略神经网络的梯度，更新所述目标策略神经网络的参数，包括：

6.根据权利要求2或3所述的方法，其特征在于，所述根据所述训练样本，确定所述评论家神经网络的损失，包括：

7.一种模型训练方法，其特征在于，用于对飞行轨迹优化模型进行训练，所述飞行轨迹优化模型包括采样策略神经网络、目标策略神经网络和评论家神经网络；所述方法包括：

循环执行如下训练过程，直至达到预设训练次数：

基于所述采样策略神经网络，生成若干组训练样本；

根据所述训练样本，确定所述目标策略神经网络的梯度；

根据所述训练样本，确定所述评论家神经网络的损失；

8.一种无人机基站控制装置，其特征在于，包括：

9.一种模型训练装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序指令；

所述处理器，用于调用并执行所述存储器中的程序指令，执行如权利要求1-7任一项所述的方法。