CN114785397A

CN114785397A - 无人机基站控制方法、飞行轨迹优化模型构建、训练方法

Info

Publication number: CN114785397A
Application number: CN202210243339.9A
Authority: CN
Inventors: 徐齐钱; 陈海军; 何春龙
Original assignee: Zhejiang Yizheng Communication Technology Co ltd
Current assignee: Chengdu Sanyuan Optical Communication Technology Co ltd
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-07-22
Anticipated expiration: 2042-03-11
Also published as: CN114785397B

Abstract

本申请涉及通信技术领域，尤其是涉及一种无人机基站控制方法、飞行轨迹优化模型构建、训练方法。其中，无人机基站控制方法包括：确定若干待通信设备的位置信息和无人机基站当前时隙的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、通信完成量信息；利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备的数量m、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时通信速率大于或等于预设值。

Description

无人机基站控制方法、飞行轨迹优化模型构建、训练方法

技术领域

本申请涉及通信技术领域，尤其是涉及一种无人机基站控制方法、飞行轨迹优化模型构建、训练方法。

背景技术

目前，无人机基站已成为人们关注和研究的重点之一。它具有成本低廉、移动性强、灵活性高、易于布置以及拥有大概率的视距通信等优点，而这些优点恰恰也是传统基站所不具备的。所以无人机基站在未来5G通信系统中将被广泛应用起来，作为传统基站的补充，实现增强无线蜂窝网络的5G覆盖范围和容量、满足动态变化的移动网络流量需求、实现应急通信、采集物联网设备信息等丰富的功能。

无人机基站一般使用电池供电。但是，无人机基站所使用的电池的续航技术一直没有突破性的进展。而无人机基站也不可能无限增加电池数量，因为随着电池数量增加，无人机基站的载重和能量消耗也将随之增加。这就对无人机基站的单机单次服务时长造成限制，导致无人机基站的服务效率较低。

发明内容

本申请提供一种无人机基站控制方法、飞行轨迹优化模型构建、训练方法。对无人机基站的飞行轨迹、用户调度、资源分配策略进行调整和控制，以使得无人机基站在有限的服务时长内服务效率最大化。

第一方面，本申请提供一种无人机基站控制方法，包括：

确定若干待通信设备的位置信息和无人机基站当前时隙的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、通信完成量信息；

利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备的数量m、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时通信速率大于或等于预设值。

可选的，所述飞行轨迹优化模型的构建过程包括：

将无人机基站的通信速率最大化，作为优化目标；

构建两个相同结构的深度Q网络，分别作为所述轨迹优化模型中的评估网络和目标网络；

基于所述无人机基站的通信场景，确定所述轨迹优化模型的状态信息函数；

基于所述无人机基站的可控飞行动作，确定所述轨迹优化模型的调整动作函数；

基于所述优化目标，确定所述轨迹优化模型的奖励函数。

可选的，所述基于所述无人机基站的通信场景，确定所述轨迹优化模型的状态信息函数，包括：

基于所述无人机基站的通信场景，确定所述轨迹优化模型的状态信息函数如下：

其中，t代表第t时隙；(x_D[t],y_D[t],z_D[t])代表无人机在第t时隙的坐标；v[t]代表无人机在第t时隙的速度；a[t]代表无人机在第t时隙的加速度；φ[t]代表无人机在第t时隙的航向角；

代表无人机在第t时隙的俯仰角；η_i代表第i用户的已完成的通信量。

可选的，所述基于所述无人机基站的可控飞行动作，确定所述轨迹优化模型的调整动作函数，包括：

基于所述无人机基站的可控飞行动作，确定所述轨迹优化模型的调整动作函数如下：

N_c∈{i,i＝0,...,N-1}；

其中，{Δφ[t]}代表控制无人机的航向角的动作向量；

代表控制无人机俯仰角的动作向量；{Δa_D[t]}代表无人机的加速度动作向量；N_c代表无人机选择通信的用户数；Δp[t]代表无人机的通信发送功率；N^φ代表无人机的航向角的等份分割参数；

代表无人机的俯仰角的等份分割参数；N^a代表无人机的加速度的等份分割参数；N^p代表无人机的功率的等份分割参数。

可选的，所述基于所述优化目标，确定所述轨迹优化模型的奖励函数，包括：

基于所述优化目标，确定所述轨迹优化模型的奖励函数如下：

其中，r_i[t]代表第t时隙无人机与待通信设备i之间的通信速率，λ₁*r_i[t]代表第t时隙无人机与待通信设备i进行通信的速率所决定的奖励；

代表第t时隙无人机与待通信设备i之间的通信的链路状态为非视距链路的概率，

代表第t时隙无人机与待通信设备i进行通信的链路状态所决定的奖励；η_i代表截止到第t时隙第i用户已完成的通信量，

代表待通信设备i的通信量所决定的奖励。

可选的，所述飞行轨迹优化模型的训练过程包括：

初始化所述评估网络和所述目标网络；初始化经验回放池大小m^max；

在所述经验回放池中生成若干组样本；

循环执行如下训练过程，直至损失函数收敛：

随机从所述经验回放池中抽取K组样本；

利用所述K组样本，分别计算所述评估网络的Q值和所述目标网络的Q值；

根据所述评估网络的Q值和所述目标网络的Q值，计算损失函数；

根据所述损失函数，更新所述评估网络的参数所述目标网络的参数。

可选的，所述根据所述评估网络的Q值和所述目标网络的Q值，计算损失函数，包括：

利用如下公式计算损失函数：

可选的，所述在所述经验回放池中生成若干组样本，包括：

初始化所述无人机基站的状态信息，随机生成待通信设备的地理位置，初始化时间t＝0；在达到最大时间t_max之前，循环执行如下步骤生成样本：

确定所述无人机基站的状态信息s_t；

按照贪心策略选择调整动作a_t；

根据所述调整动作a_t，确定所述无人机基站的新位置、对应的新的状态信息s_t+1和对应的通信速率r_i[t]；

根据所述奖励函数，计算对应的奖励值r_t；

将s_t、a_t、reward_t、s_t+1生成一组新样本[s_t,a_t,r_t,s_t+1]，放入经验回放池。

可选的，所述在所述经验回放池中生成若干组样本，包括：

若经验回放池中的样本量达到最大值m^max，则根据样本生成的时间顺序，利用最新生成的样本替换经验回放池中的最早生成的样本。

第二方面，本申请提供一种飞行轨迹优化模型构建方法，包括：

将无人机基站的通信速率最大化，作为优化目标；

基于所述优化目标，确定所述轨迹优化模型的奖励函数。

N_c∈{i,i＝0,...,N-1}；

其中，{Δφ[t]}代表控制无人机的航向角的动作向量；

代表控制无人机俯仰角的动作向量；{Δa_D[t]}代表无人机的加速度动作向量；N_c代表无人机选择通信的用户数；p[t]代表无人机的通信发送功率；N^φ代表无人机的航向角的等份分割参数；

代表待通信设备i的通信量所决定的奖励。

第三方面，本申请提供一种飞行轨迹优化模型训练方法，用于对利用第二方面所述的方法构建的飞行轨迹优化模型进行训练，所述方法包括：

在所述经验回放池中生成若干组样本；

循环执行如下训练过程，直至损失函数收敛：

随机从所述经验回放池中抽取K组样本；

利用如下公式计算损失函数：

可选的，所述在所述经验回放池中生成若干组样本，包括：

初始化所述无人机基站的状态信息，随机生成待通信设备的地理位置，初始化时间t＝0；

在达到最大时间t_max之前，循环执行如下步骤生成样本：

确定所述无人机基站的状态信息s_t；

按照贪心策略选择调整动作a_t；

根据所述奖励函数，计算对应的奖励值r_t；

可选的，所述在所述经验回放池中生成若干组样本，包括：

第四方面，本申请提供一种无人机基站控制装置，包括：

信息确定模块，用于若干待通信设备的位置信息和无人机基站当前时隙的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、通信完成量信息；调整动作确定模块，用于利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备的数量m、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时通信速率大于或等于预设值。

可选的，所述无人机基站控制装置还包括飞行轨迹优化模型构建模块，用于：

将无人机基站的通信速率最大化，作为优化目标；

基于所述优化目标，确定所述轨迹优化模型的奖励函数。

可选的，所述飞行轨迹优化模型构建模块在基于所述无人机基站的通信场景，确定所述轨迹优化模型的状态信息函数时，具体用于：

可选的，所述飞行轨迹优化模型构建模块在基于所述无人机基站的可控飞行动作，确定所述轨迹优化模型的调整动作函数时，具体用于：

N_c∈{i,i＝0,...,N-1}；

其中，{Δφ[t]}代表控制无人机的航向角的动作向量；

可选的，所述飞行轨迹优化模型构建模块在基于所述优化目标，确定所述轨迹优化模型的奖励函数，包括时，具体用于：

代表待通信设备i的通信量所决定的奖励。

可选的，所述无人机基站控制装置还包括飞行轨迹优化模型训练模块，用于：

在所述经验回放池中生成若干组样本；

循环执行如下训练过程，直至损失函数收敛：

随机从所述经验回放池中抽取K组样本；

可选的，所述飞行轨迹优化模型训练模块在根据所述评估网络的Q值和所述目标网络的Q值，计算损失函数时，具体用于：

利用如下公式计算损失函数：

可选的，所述飞行轨迹优化模型训练模块在所述经验回放池中生成若干组样本时，具体用于：

在达到最大时间t_max之前，循环执行如下步骤生成样本：

确定所述无人机基站的状态信息s_t；

按照贪心策略选择调整动作a_t；

根据所述奖励函数，计算对应的奖励值r_t；

可选的，所述飞行轨迹优化模型训练模块还用于：

第五方面，本申请提供一种飞行轨迹优化模型构建装置，包括：

优化目标确定模块，用于将无人机基站的通信速率最大化，作为优化目标；

模型结构确定模块，用于构建两个相同结构的深度Q网络，分别作为所述轨迹优化模型中的评估网络和目标网络；

状态信息函数确定模块，用于基于所述无人机基站的通信场景，确定所述轨迹优化模型的状态信息函数；

调整动作函数确定模块，用于基于所述无人机基站的可控飞行动作，确定所述轨迹优化模型的调整动作函数；

奖励函数确定模块，用于基于所述优化目标，确定所述轨迹优化模型的奖励函数。

可选的，所述状态信息函数确定模块，具体用于：

可选的，所述调整动作函数确定模块，具体用于：

N_c∈{i,i＝0,...,N-1}；

其中，{Δφ[t]}代表控制无人机的航向角的动作向量；

可选的，所述奖励函数确定模块，具体用于：

代表待通信设备i的通信量所决定的奖励。

第六方面，本申请提供一种飞行轨迹优化模型训练装置，用于对利用第二方面所述的方法构建的飞行轨迹优化模型进行训练，所述装置包括：

初始化模块，用于初始化所述评估网络和所述目标网络；初始化经验回放池大小m^max；

样本生成模块，用于在所述经验回放池中生成若干组样本；

训练模块，用于循环执行如下训练过程，直至损失函数收敛：随机从所述经验回放池中抽取K组样本；利用所述K组样本，分别计算所述评估网络的Q值和所述目标网络的Q值；根据所述评估网络的Q值和所述目标网络的Q值，计算损失函数；根据所述损失函数，更新所述评估网络的参数所述目标网络的参数。

可选的，所述训练模块在根据所述评估网络的Q值和所述目标网络的Q值，计算损失函数时，具体用于：

利用如下公式计算损失函数：

可选的，所述样本生成模块，具体用于：

在达到最大时间t_max之前，循环执行如下步骤生成样本：

确定所述无人机基站的状态信息s_t；

按照贪心策略选择调整动作a_t；

根据所述奖励函数，计算对应的奖励值r_t；

可选的，所述样本生成模块，具体用于：

第七方面，本申请提供一种电子设备，包括：存储器和处理器，所述存储器上存储有能够被处理器加载并执行如第一方面或第二方面或第三方面的方法的计算机程序。

第八方面，本申请提供一种计算机可读存储介质，存储有能够被处理器加载并执行如第一方面或第二方面或第三方面的计算机程序。

本申请提供了一种无人机基站控制方法、装置、电子设备及飞行轨迹优化模型构建、训练方法。其中，无人机基站控制方法包括：确定若干待通信设备的位置信息和无人机基站当前时隙的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、通信完成量信息；利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备的数量m、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时通信速率大于或等于预设值。本申请提供的方案，使得无人机基站可以基于飞行轨迹优化模型进行飞行动作调整，以便于在到达的每一个轨迹点上都保证通信的最小速率。进而可以使无人机基站的服务效率大大提升。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的一种应用场景的示意图。

图2为本申请一实施例提供的一种无人机基站控制方法的流程图。

图3为本申请一实施例提供的另一种应用场景的示意图。

图4为本申请一实施例提供的一种深度强化学习DQN算法的框架示意图。

图5为本申请一实施例提供的一种样本生成过程的流程图。

图6a-图6c为本申请一实施例提供的一种无人机基站飞行轨迹的示意图。

图6d为本申请一实施例提供的两种算法下无人机基站的吞吐量的对比示意图。

图7为本申请一实施例提供的一种无人机基站控制装置的结构示意图。

图8为本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本申请实施例作进一步详细描述。

目前，无人机基站已成为人们研究的重点之一。它具有成本低廉、移动性强、灵活性高、易于布置以及拥有大概率的视距通信等优点。这些优点一直是传统基站所无法达到的。所以无人机基站可以在未来5G通信系统中被广泛应用起来。第一，可用于增强无线蜂窝网络的5G覆盖范围和容量。第二，可满足动态变化的移动网络流量需求。第三，可实现应急通信。第四，可采集待通信设备信息。

但是无人机基站电池技术发展比较慢，无人机基站不可能无限增加电池数量。因为随着电池数量增加，无人机载重也随之增加，无人机能量消耗也随之增加。

基于此，本申请提供一种无人机基站控制方法、装置、电子设备及飞行轨迹优化模型构建、训练方法。通过调整无人机基站的飞行姿态，达到优化飞行轨迹、最大化通信速率、提高服务效率的目的。

图1为本申请提供的一种应用场景示意图。如图1所示的，有若干个待通信设备随机分布在一定区域范围内，一个无人机基站(UAV-BS)负责与该区域内的这些待通信设备(在本场景中，待通信设备为物联网设备Internet of Device Thing,IoDT)进行通信。其中，虚线所示为其中一条下行通信链路。在通信过程中，无人机基站采用本申请提供的方法进行飞行动作调节，可以使无人机基站与各物联网设备的通信效率达到最大，尽快完成在该区域范围内的通信任务。

在另一些场景中，还可以由另一控制设备基于本申请提供的方法对无人机基站进行飞行姿态调节。

无人机基站进行飞行姿态调节的具体实现过程可以参考以下实施例。

图2为本申请一实施例提供的一种无人机基站控制方法的流程图，本实施例的方法可以应用于以上场景中的无人机基站或控制设备，本实施例的方法包括：

S201、确定若干待通信设备的位置信息和无人机基站当前时隙的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、通信完成量信息。

其中，待通信设备可以通过自身配备的GPS定位模块进行定位，并将定位信息发送给无人机基站。相对应的，无人机基站则可以获取并确定各待通信设备的位置信息。

通信完成量信息指截止到执行本方法的时刻，每一待通信设备累计的通信量。

在一些实现方式中，可以通过从无人机基站设备的飞行控制系统中获取当前时隙的状态信息。其中，无人机基站的位置信息可以由无人机基站设备上设置的GPS定位模块确定，并传输到无人机基站设备的飞行控制系统中；速度信息、加速度信息、航向角信息、俯仰角信息则可以通过无人机基站设备上设置的IMU惯性测量单元来确定，并传输到无人机基站设备的飞行控制系统中；通信完成量信息可以通过无人机基站设备上设置的通信单元来确定，并传输到无人机基站设备的飞行控制系统中。

S202、利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备的数量m、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时通信速率大于或等于预设值。

本实施例中的飞行轨迹优化模型通过训练，具备了根据待通信设备的位置信息和无人机基站当前时隙的状态信息，确定下一时隙调整动作的能力。在本实施例中，调整动作包括飞行动作调整量、进行通信的设备的数量m、通信功率调整量中的至少一个。无论输出调整动作是什么，其均为飞行轨迹优化模型所确定的最能保证在新的轨迹点上的通信速率的动作。

因此，在确定了待通信设备的位置信息和无人机基站当前时隙的状态信息后，即可将这些数据输入预先训练好的飞行轨迹优化模型。模型通过算法处理，可以输出一个与当前状态对应的下一时隙可以执行的飞行动作调整量、下一时隙进行通信的设备的数量m、下一时隙通信功率的调整量中的至少一个。无人机基站可以根据飞行动作调整量调整飞行动作；根据通信功率调整量调整通信功率；根据进行通信的设备的数量m，与m个待通信设备建立通信连接。无论是否调整飞行动作，无人机基站在下一时隙都会到达新的轨迹点，在新轨迹点上，与待通信设备进行通信。若输出的调整动作中包括进行通信的设备的数量m，则在新轨迹点上与m个待通信设备进行通信；若输出的调整动作中包括通信功率调整量，则在新轨迹点上以调整后的通信功率待通信设备进行通信。

对应于不同的执行主体，本实施例的方案的执行过程有细微的差别。

当本方法的执行主体为无人机基站时，无人机基站可以获取若干待通信设备的位置信息和自身的状态信息，并输入到飞行轨迹优化模型中。再根据飞行轨迹优化模型的输出结果做出相应的调整。

当本方法的执行主体为控制设备时，控制设备可以获取若干待通信设备的位置信息和从无人机基站处获取无人机基站的状态信息，并输入到飞行轨迹优化模型中。再根据行轨迹优化模型的输出结果控制无人机基站做出相应的调整。

本实施例提供的无人机基站控制方法包括：确定若干待通信设备的位置信息和无人机基站当前时隙的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、通信完成量信息；利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备的数量m、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时通信速率大于或等于预设值。本申请提供的方案，使得无人机基站可以基于飞行轨迹优化模型进行飞行动作调整，以便于在到达的每一个轨迹点上都保证通信的最小速率。进而可以使无人机基站的服务效率大大提升。

在一些实施例中，上述的飞行轨迹优化模型的构建过程可以包括：将无人机基站的通信速率最大化，作为优化目标；构建两个相同结构的深度Q网络，分别作为所述轨迹优化模型中的评估网络和目标网络；基于所述无人机基站的通信场景，确定所述轨迹优化模型的状态信息函数；基于所述无人机基站的可控飞行动作，确定所述轨迹优化模型的调整动作函数；基于所述优化目标，确定所述轨迹优化模型的奖励函数。

基于提高无人机基站服务效率的目的，可以将提高每个时隙的通信量(即通信速率)作为无人机基站飞行动作调整的目标。这个优化问题的解决可以依赖于深度Q网络——深度强化学习中的DQN算法。模型中包括两个网络，评估网络和目标网络，网络的结构相同。模型涉及三个主要的函数，状态信息函数、调整动作函数、奖励函数。其中，状态信息函数主要与无人机基站的通信场景相关，根据场景中无人机基站的位置、速度、加速度、航向，无人机基站与待通信设备的通信量等信息，可以确定状态信息函数；调整动作函数主要与无人机基站的可调控的飞行动作相关，根据无人机基站的实际型号及其可控飞行动作，可以确定调整动作函数，可以包括速度、加速度、航向等动作；奖励函数则与优化目标相关，鉴于提高通信速率的目标，可以将奖励函数设置为与通信速率正相关的函数。

以图1对应场景为例进行说明。为便于描述，在该场景中建立如图3所示的坐标系来对无人机基站和物联网设备的位置进行描述。可以将第i物联网设备的坐标用(x_i,y_i,z_i)来表示，则N个物联网设备的坐标满足下式：

将第t时隙的无人机基站坐标用(x_D[t],y_D[t],z_D[t])来表示。为了防止无人机在飞行过程中与建筑物碰撞，并且保证无人机基站能够与控制塔保持联系，所以无人机的飞行高度需要处于一定的范围内。该区域中无人机基站的飞行工作区域可以表示为：

为了简化模型，在本实施例中设定无人机与物联网设备都是单天线的设备。则物联网设备是否发送数据给无人机基站可以表示为：

当c_i[t]＝1时，代表无人机与第i个物联网设备在第t个时隙进行通信；当c_i[t]＝0时，代表无人机与第i个物联网设备在第t个时隙不进行通信。

另外，无人机一般采用时分多址技术与物联网设备进行通信，这代表无人机一个时隙只服务一个物联网设备。可以用下述公式表示：

另外，无人机的飞行速度有上限，所以无人机在两个时隙之间的移动距离也有上限，具体可以表示为：

S_max＝V_maxt (9a)

q[t]＝[x_D[t],y_D[t],z_D[t]]^T (9b)

其中，V_max代表无人机的最大飞行速度；S_max代表无人机在第t个时隙内最大的移动距离；q[t]表示无人机飞行轨迹的坐标序列。

第i个物联网设备在第t个时隙与无人机的水平距离可以表示为：

第i个物联网设备在第t个时隙与无人机的实际距离可以表示为：

无人机在第t个时隙与第t-1个时隙之间的位置移动公式如下：

其中，φ[t]表示无人机在第t时隙的航向角；

代表无人机在第t时隙的俯仰角；v[t]代表无人机在第t时隙的速度。

在毫米波的场景里，通信设备高度依赖视距链路通信。因此，为了保证无人机基站与所有物联网设备的通信质量，必须保证无人机基站与物联网设备进行视距链路通信。在本实施例的场景中，3-D信道模型的视距概率可以表示为：

其中，

表示无人机和物联网设备的空对地信道的视距概率属于视距链路通信的概率阈值。只要把

设置成无限接近1的数值，就可以确保无人机与物联网设备之间的通信链路属于视距链路。

无人机在第t个时隙与第i物联网设备之间视距链路通信的信道增益为：

其中，ρ₀代表参考距离为1米的信道增益。

第i物联网设备接收到的信噪比可以表示为：

其中，σ²代表高斯加性白噪声；p[t]代表无人机的发射功率；S_max代表无人机的最大发送功率。

如果无人机决定在第t时隙上发送数据到第i物联网设备，它们之间的通信速率可以通过以下式子计算：

因此，优化目标可以表示为：

为了实现优化目标，可以采用深度强化学习模型对优化目标进行求解。深度强化学习模型可以采用深度Q网络(deep Q network,DQN)算法。

深度强化学习模型的状态空间设计。智能体(无人机基站)从环境中观察到的状态应该包含环境中所有信息，所以针对这个场景，环境空间设计如下：

深度强化学习模型的动作空间设计。智能体选择的动作决定了无人机的飞行动作，针对这个场景，动作空间设计如下：

其中，{Δφ[t]}代表控制无人机的航向角的动作向量；

代表控制无人机俯仰角的动作向量；{Δa_D[t]}代表无人机的加速度动作向量；N_c代表无人机选择通信的用户数；Δp[t]代表无人机的通信发送功率。

由于DQN算法只能处理低维离散动作空间的算法，所以，这里对无人机的飞行动作空间进行离散化。

N_c∈{i,i＝0,...,N-1} (25)

其中，N^φ代表无人机的航向角的等份分割参数；

对应于飞行轨迹优化模型输出的调整动作a_t，无人机基站结合调整动作a_t进行飞行姿态调整、资源调度调整的过程可以用以下公式来说明：

p[t]＝Δp[t] (31)

需要说明的是，输出的a_t为一个常数，其代表的是调整动作在动作空间中的顺序。

深度强化学习模型的奖励空间设计。奖励函数决定了智能体在某个状态下执行某个行动的价值。奖励函数直接影响了无人机基站的训练效果，决定了无人机基站是否能够根据人类的要求，完成指定的通信任务和飞行任务。所以针对优化目标，奖励函数的设计如下：

其中，r_i[t]代表第t时隙无人机与物联网设备i之间的通信速率，λ₁*r_i[t]代表第t时隙无人机与物联网设备i进行通信的速率所决定的奖励，如果每个时隙无人机与物联网设备通信的速率越高，那么获得的奖励就越大，鼓励无人机选择合理的物联网设备进行通信；

代表第t时隙无人机与物联网设备i之间的通信的链路状态为非视距链路的概率，

代表第t时隙无人机与物联网设备i进行通信的链路状态所决定的奖励，当无人机与物联网设备进行非视距链路通信的时候，那么无人机智能体将获得负面奖励；η_i代表截止到第t时隙第i用户已完成的通信量，

代表物联网设备i的通信量所决定的奖励，把物联网设备中所有不满足最低通信数据量要求的部分作为负面奖励反馈给智能体，相当于给一个惩罚。

深度强化学习DQN算法的框架如图4所示，存在一个控制无人机与环境交互的智能体，有两个深度Q网络，分别是评估网络和目标网络。目标网络和评估网络具有相同的结构，但是更新参数的机制不一样。目标网络是实时更新网络参数的，而评估网络是定期更新网络参数。评估网络用于评价在某个状态s_t的情况下采取动作a_t的价值。智能体通过观察环境获得状态s_t，按照贪心策略(ε-greedy policy)选择动作a_t，然后把s_t、a_t发送到评估网络中，评估网络生成所有动作的Q值，记为Q(s_t,a_t)。然后，从环境中获得奖励r_t。

在一些实施例中，上述的飞行轨迹优化模型的训练过程包括：初始化所述评估网络和所述目标网络；初始化经验回放池大小m^max；在所述经验回放池中生成若干组样本；循环执行如下训练过程，直至损失函数收敛：随机从所述经验回放池中抽取K组样本；利用所述K组样本，分别计算所述评估网络的Q值和所述目标网络的Q值；根据所述评估网络的Q值和所述目标网络的Q值，计算损失函数；根据所述损失函数，更新所述评估网络的参数所述目标网络的参数。

对应于图4所示的网络结构，训练过程如下。由[s_t,a_t,r_t,s_t+1]组成的信息被储存到经验回放池中，当经验回放池储存足够样本后，训练过程就可以开始了。从经验回放池中随机采样K组数据来训练DQN。根据每一组样本数据确定评估网络的Q值后，即可根据目标网络的最大Q值maxQ(s',a')，计算损失函数来更新评估网络，可以表示为：

Loss_i(ω_i)＝E_s,a[(r+γmaxQ(s',a'|ω_i-1)-Q(s,a|ω_i)²] (33)

其中，ω代表DQN神经网络的参数，i代表迭代的次数。Q(s,a|ω_i)²是实时更新的Q网络(目标Q网络)得出的Q值；γmaxQ(s',a'|ω_i-1)是评估网络的Q值。

在一些实施例中，上述的在所述经验回放池中生成若干组样本，包括：初始化所述无人机基站的状态信息，随机生成物联网设备的地理位置，初始化时间t＝0；在达到最大时间t_max之前，循环执行如下步骤生成样本：确定所述无人机基站的状态信息s_t；按照贪心策略选择调整动作a_t；根据所述调整动作a_t，确定所述无人机基站的新位置、对应的新的状态信息s_t+1和对应的通信速率r_i[t]；根据所述奖励函数，计算对应的奖励值r_t；将s_t、a_t、reward_t、s_t+1生成一组新样本[s_t,a_t,r_t,s_t+1]，放入经验回放池。

如图5所示的，样本生成过程如下：

1、用参数ω来初始化评估网络和目标网络；初始化经验回放池大小为m^max。

其中，ω为初始化参数，可以根据经验设定；m^max是经验回放池的最大容量。这两步初始化的操作并没有明确的顺序要求，可以同时进行。

设定循环次数，在达到循环次数之前(episode＜N^eps时)，循环执行后续的训练步骤。

初始化环境。

初始化无人机位置，随机生成物联网设备地理位置，初始化时间t＝0。

4、在没有达到最大时间之前(t＜t_max时)，执行下述小循环。

5、从环境中观察得到s_t。

6、当概率为ε时，选择a_t＝argmaxQ(s_t,a_t)。

即，从之前的经验中选择最大a_t值。

7、当概率为1-ε时，从空间状态A中随机选择a_t

8、根据a_t的输出值，确定对无人机基站进行对应的调整。

如果0≤a_t＜N^φ(在本实施例中N^φ＝4)，说明需要调整航向角，则执行式子(27)来改变无人机的航向角φ[t]；

如果

(在本实施例中

)，说明需要调整俯仰角，则执行式子(28)来改变无人机的俯仰角

如果

(在本实施例中N^a＝2)，说明需要调整加速度，则执行式子(29)和来改变无人机的加速度a_D[t]和速度v[t]；

如果

(在本实施例中N＝4)，说明需要调整无人机选择的用户数，则执行式子(30)来改变无人机选择的用户N_c；

如果

说明需要调整无人机的功率，则执行式子(31)来改变无人机选择的功率p[t]。

9、在确定调整动作后，执行公式(12)来更新无人机的坐标。

10、根据式子(18)来计算N_c个物联网设备与无人机的通信速率r_i[t]。

11、根据式子(27)得到奖励函数reward_t。

12、储存序列[s_t,a_t,r_t,s_t+1]到经验回放池中。经验池中存放的样本可用于后续的训练过程，以更新目标网络参数和评估网络参数。

在一些具体的实施例中，上述的在所述经验回放池中生成若干组样本，包括：若经验回放池中的样本量达到最大值m^max，则根据样本生成的时间顺序，利用最新生成的样本替换经验回放池中的最早生成的样本。

对应于图5所示的流程，当储存序列[s_t,a_t,r_t,s_t+1]到经验回放池时，发现经验回放池已经达到最大容量m^max，则可以用[s_t,a_t,r_t,s_t+1]替换掉经验池中最早生成的样本。

在另一些实施例中，当储存序列[s_t,a_t,r_t,s_t+1]到经验回放池时，发现经验回放池已经达到最大容量m^max，也可以用[s_t,a_t,r_t,s_t+1]替换掉经验池中对应的reward_t值最小的样本。

基于本申请一实施例提供的DQN深度强化学习算法优化的无人机飞行轨迹分别可以如图6a、图6b和图6c所示。图中·所示为物联网设备的位置，×所示为无人机基站的轨迹点。从图中可以看到，通过DQN算法训练之后的无人机能够根据物联网设备地理位置坐标来自适应地调整自己的飞行高度，以保证与物联网设备的通信属于视距链路通信。当无人机越靠近需要通信的物联网设备的时候，无人机就降低自身的飞行高度，如果无人机离需要通信的物联网设备较远的时候，无人机就会提升自己的飞行高度。通过上述的调整方案，能够达到在保证无人机与物联网设备进行视距链路通信的同时，尽量地提高系统的总吞吐量。

图6d为本申请一实施例提供的基于DQN算法与基于传统BCD和SCA凸优化算法的吞吐量随着飞行时隙变化的关系图。总时隙T＝100s，两种算法对应的无人机与物联网设备的吞吐量随着飞行时隙的变化如图所示。从图中可以得出发现，基于DQN路径规划算法的总吞吐量比基于BCD和SCA路径规划算法的总吞吐量要大。

两种算法对应的无人机的运行时间如表1所示。通过表格可以发现，基于深度强化学习DQN的无人机轨迹优化算法比基于BCD和SCA凸优化的无人机轨迹优化算法的运行效率快很多。尽管基于深度强化学习DQN算法的线下训练时间很长，但是训练好的模型就非常具有实时性。

表1运行时间对比

对于传统凸优化BCD和SCA算法，大致的求解过程如下。可以把具体问题分为轨迹优化、用户调度、资源分配三个子问题，分别固定其他两个子问题的变量，然后优化另外一个子问题的变量。例如，将轨迹优化和资源分配子问题使用连续凸逼近SCA算法转化成凸问题，然后使用内点法进行求解，其算法时间复杂度都是O(n³)。需要运行循环的次数为T_max，每个时隙的循环次数是N_iter。用户调度子问题属于标准的线性规划问题，如果使用内点法进行梯度下降，那么算法的时间复杂度为O(n³)。综上所述，可以得到传统BCD和SCA算法的无人机基站轨迹优化算法的算法复杂度是O{T_max[N+T_max+N_iter(7NT_max+2N+T_max+3O(n³))]}。这里的N代表用户的数量，T_max代表最大的飞行时隙，N_iter表示BCD和SCA的迭代次数，L代表多项式的项数。

对于基于DQN算法的无人机基站轨迹优化算法，因为一次轨迹优化计算中，总循环次数为O(T_max)。在每一次循环中，需要进行一次深度神经网络的前馈运算，运算一次深度神经网络的时间复杂度为O(L_iL₂+L₂L₃+L₃L_o)。每一个时隙要计算一次无人机基站与所有用户的水平距离、实际距离、无人机基站与用户之间的俯仰角、无人机基站与用户的路径损耗系数，所以这里的时间复杂度是O(4N)。综上所述，所以基于DQN算法的无人机及站轨迹优化算法的时间复杂度为O[T_max(L_iL₂+L₂L₃+L₃L_o+4N)]。

两种算法对应的时间复杂度的对比如表2所示。

表2两种算法的时间复杂度对比

本申请方案的有益效果：

1.实现了保证每个待通信设备的基本通信需求和视距链路通信需求的前提下，最大化无人机基站与所有待通信设备的总通信速率。

2.实现了无人机基站针对不同目标条件下优化飞行轨迹、用户调度、资源分配的方案。

3.降低了无人机基站控制算法的时间复杂度，增强实用性和实时性。

图7为本申请一实施例提供的一种无人机基站控制装置的结构示意图，如图7所示的，本实施例的无人机基站控制装置700包括：信息确定模块701、调整动作确定模块702。

信息确定模块701，用于若干待通信设备的位置信息和无人机基站当前时隙的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、通信完成量信息；

调整动作确定模块702，用于利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备的数量m、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时通信速率大于或等于预设值。

可选的，所述无人机基站控制装置还包括飞行轨迹优化模型构建模块703，用于：

将无人机基站的通信速率最大化，作为优化目标；

基于所述优化目标，确定所述轨迹优化模型的奖励函数。

可选的，所述飞行轨迹优化模型构建模块703在基于所述无人机基站的通信场景，确定所述轨迹优化模型的状态信息函数时，具体用于：

可选的，所述飞行轨迹优化模型构建模块703在基于所述无人机基站的可控飞行动作，确定所述轨迹优化模型的调整动作函数时，具体用于：

N_c∈{i,i＝0,...,N-1}；

其中，{Δφ[t]}代表控制无人机的航向角的动作向量；

可选的，所述飞行轨迹优化模型构建模块703在基于所述优化目标，确定所述轨迹优化模型的奖励函数，包括时，具体用于：

代表待通信设备i的通信量所决定的奖励。

可选的，所述无人机基站控制装置还包括飞行轨迹优化模型训练模块704，用于：初始化所述评估网络和所述目标网络；初始化经验回放池大小m^max；

在所述经验回放池中生成若干组样本；

循环执行如下训练过程，直至损失函数收敛：

随机从所述经验回放池中抽取K组样本；

可选的，所述飞行轨迹优化模型训练模块704在根据所述评估网络的Q值和所述目标网络的Q值，计算损失函数时，具体用于：

利用如下公式计算损失函数：

可选的，所述飞行轨迹优化模型训练模块704在所述经验回放池中生成若干组样本时，具体用于：

在达到最大时间t_max之前，循环执行如下步骤生成样本：

确定所述无人机基站的状态信息s_t；

按照贪心策略选择调整动作a_t；

根据所述奖励函数，计算对应的奖励值r_t；

可选的，所述飞行轨迹优化模型训练模块704还用于：

本实施例的装置，可以用于执行上述任一实施例的无人机基站控制方法，其实现原理和技术效果类似，此处不再赘述。

图8为本申请一实施例提供的一种电子设备的结构示意图，如图8所示，本实施例的电子设备800可以包括：存储器801和处理器802。

存储器801上存储有能够被处理器802加载并执行上述实施例中方法的计算机程序。

其中，处理器802和存储器801相连，如通过总线相连。

可选地，电子设备800还可以包括收发器。需要说明的是，实际应用中收发器不限于一个，该电子设备800的结构并不构成对本申请实施例的限定。

处理器802可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器802也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线可包括一通路，在上述组件之间传送信息。总线可以是PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器801可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器801用于存储执行本申请方案的应用程序代码，并由处理器802来控制执行。处理器802用于执行存储器801中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图8示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本实施例的电子设备，可以用于执行上述任一实施例的方法，其实现原理和技术效果类似，此处不再赘述。

本申请还提供一种计算机可读存储介质，存储有能够被处理器加载并执行如上实施例中的方法的计算机程序。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种无人机基站控制方法，其特征在于，包括：

利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备的数量m、通信功率调整量中的至少一个；

以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时通信速率大于或等于预设值。

2.根据权利要求1所述的方法，其特征在于，所述飞行轨迹优化模型的构建过程包括：

将无人机基站的通信速率最大化，作为优化目标；

基于所述优化目标，确定所述轨迹优化模型的奖励函数。

3.根据权利要求2所述的方法，其特征在于，所述飞行轨迹优化模型的训练过程包括：

在所述经验回放池中生成若干组样本；

循环执行如下训练过程，直至损失函数收敛：

随机从所述经验回放池中抽取K组样本；

4.根据权利要求3所述的方法，其特征在于，所述在所述经验回放池中生成若干组样本，包括：

在达到最大时间t_max之前，循环执行如下步骤生成样本：

确定所述无人机基站的状态信息s_t；

按照贪心策略选择调整动作a_t；

根据所述奖励函数，计算对应的奖励值r_t；

5.根据权利要求3或4所述的方法，其特征在于，所述在所述经验回放池中生成若干组样本，包括：

6.一种飞行轨迹优化模型构建方法，其特征在于，包括：

将无人机基站的通信速率最大化，作为优化目标；

基于所述优化目标，确定所述轨迹优化模型的奖励函数。

7.一种飞行轨迹优化模型训练方法，其特征在于，用于对利用权利要求6所述的方法构建的飞行轨迹优化模型进行训练，所述方法包括：

在所述经验回放池中生成若干组样本；

循环执行如下训练过程，直至损失函数收敛：

随机从所述经验回放池中抽取K组样本；

8.一种无人机基站控制装置，其特征在于，包括：

信息确定模块，用于若干待通信设备的位置信息和无人机基站当前时隙的状态信息，所述状态信息包括位置信息、速度信息、加速度信息、航向角信息、俯仰角信息、通信完成量信息；

调整动作确定模块，用于利用预先训练好的飞行轨迹优化模型，根据所述状态信息，确定下一时隙的调整动作；所述调整动作包括飞行动作调整量、进行通信的设备的数量m、通信功率调整量中的至少一个；以使所述无人机基站根据所述调整动作对相应的参数进行调整，并在下一时隙到达新的轨迹点时通信速率大于或等于预设值。

9.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器上存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。

10.一种计算机可读存储介质，其特征在于，存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。