CN116723470A

CN116723470A - 空中基站的移动轨迹预测模型的确定方法、装置和设备

Info

Publication number: CN116723470A
Application number: CN202311002265.0A
Authority: CN
Inventors: 李思瑶; 李凌; 向勇; 刘嘉裕; 冯冬冬
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2023-08-10
Filing date: 2023-08-10
Publication date: 2023-09-08
Anticipated expiration: 2043-08-10
Also published as: CN116723470B

Abstract

本申请涉及一种空中基站的移动轨迹预测模型的确定方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：构建地面用户移动模型和空中用户移动模型，以及构建空中基站与地面用户之间的第一信道模型和空中基站与空中用户之间的第二信道模型；根据地面用户移动模型、空中用户移动模型、第一信道模型和第二信道模型，确定上传速率计算模型；上传速率计算模型用于确定空中用户和地面用户向空中基站上传数据的速率；基于上传速率计算模型，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。采用本方法能够提高空中基站提供的通信服务的质量。

Description

空中基站的移动轨迹预测模型的确定方法、装置和设备

技术领域

本申请涉及人工智能技术领域，特别是涉及一种空中基站的移动轨迹预测模型的确定方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着通信技术的发展，对网络致密化的要求也日益提高，在城市中流量热点密集的地区需要搭建临时基站，在发生通信故障的灾区也需要搭建临时基站用于应急通信。如今无人机已经可以作为空中基站的载体，因此，可将搭建的临时基站部署在无人机中，实现由无人机搭载的空中基站对地面用户提供通信服务。

在现有的技术中，无人机搭载的空中基站对地面用户提供通信服务，往往是假设所有地面用户的位置都是静态固定的，基于该假设设计无人机的飞行路径。然而，地面用户的位置静态固定的假设这在大多数情况下是不成立的，因此，无人机按照该假设设计的飞行路径飞行时，所提供的通信服务的质量较低。

发明内容

基于此，有必要针对上述方法提供的通信服务的质量较低的技术问题，提供一种空中基站的移动轨迹预测模型的确定方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种空中基站的移动轨迹预测模型的确定方法。所述方法包括：

构建地面用户移动模型和空中用户移动模型，以及构建空中基站与地面用户之间的第一信道模型和所述空中基站与空中用户之间的第二信道模型；其中，所述第一信道模型表示所述地面用户与所述空中基站之间的上行链路路径损耗，所述第二信道模型表示所述空中用户与所述空中基站之间的上行链路路径损耗；

根据所述地面用户移动模型、所述空中用户移动模型、所述第一信道模型和所述第二信道模型，确定上传速率计算模型；所述上传速率计算模型用于确定所述空中用户和所述地面用户向所述空中基站上传数据的速率；

基于所述上传速率计算模型，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。

在其中一个实施例中，所述构建空中基站的服务区域内的地面用户移动模型和空中用户移动模型，包括：

按照地面用户的移动方式，将地面用户划分为单独移动用户和群体移动用户；

针对单独移动用户，构建随机路径点移动模型，作为所述单独移动用户的移动模型，以及针对所述群体移动用户，构建参考点群体移动模型，作为所述群体移动用户的移动模型；

针对空中用户，构建随机路径点移动模型，作为所述空中用户的移动模型。

在其中一个实施例中，所述构建所述空中基站与地面用户之间的第一信道模型和所述空中基站与空中用户之间的第二信道模型，包括：

确定所述空中基站与地面用户之间的第一信道类型，以及确定所述空中基站与空中用户之间的第二信道类型；

根据所述第一信道类型构建所述第一信道模型，以及根据所述第二信道类型构建所述第二信道模型。

在其中一个实施例中，所述第一信道类型包括视距信道和非视距信道；所述根据所述第一信道类型构建所述第一信道模型，包括：

当所述第一信道类型为视距信道时，根据所述地面用户的载波频率、所述地面用户与所述空中基站之间的距离，以及所述视距信道的链路参数，构建所述第一信道模型；

当所述第一信道类型为非视距信道时，根据所述地面用户的载波频率、所述地面用户与所述空中基站之间的距离，以及所述非视距信道的链路参数，构建所述第一信道模型；

所述第二信道类型包括视距信道；所述根据所述第二信道类型构建所述第二信道模型，包括：

根据所述空中用户的载波频率、所述空中用户与所述空中基站之间的距离，以及所述视距信道的链路参数，构建所述第二信道模型。

在其中一个实施例中，所述基于所述上传速率计算模型，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型，包括：

确定所述空中基站的动作空间和状态空间；

以所述上传速率计算模型为奖励函数，根据所述奖励函数、所述动作空间、所述状态空间和历史数据集，对所述待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。

在其中一个实施例中，所述根据所述奖励函数、所述动作空间、所述状态空间和历史数据集，对所述待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型，包括：

确定所述空中基站的移动区域，对所述移动区域进行离散化处理，得到网格区域；

确定所述空中基站的多个移动方向，以及确定所述空中基站的飞行时长，将所述飞行时长离散化为多个时隙；

以所述历史数据集中，所述空中基站在当前时隙下，在所述网格区域中的位置为输入状态，以所述空中基站在所述当前时隙的下一时隙下的移动方向为预测目标，以最大化所述奖励函数为训练目标，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。

第二方面，本申请还提供了一种空中基站的移动轨迹预测方法，所述方法包括：

获取空中基站的当前位置信息；

将所述当前位置信息，输入训练完成的移动轨迹预测模型，得到所述空中基站的预测动作；所述移动轨迹预测模型通过上述第一方面的方法中任一实施例所述的方法训练得到；

按照所述预测动作，控制所述空中基站的移动。

第三方面，本申请还提供了一种空中基站的移动轨迹预测模型的确定装置。所述装置包括：

模型构建模块，用于构建地面用户移动模型和空中用户移动模型，以及构建空中基站与地面用户之间的第一信道模型和所述空中基站与空中用户之间的第二信道模型；其中，所述第一信道模型表示所述地面用户与所述空中基站之间的上行链路路径损耗，所述第二信道模型表示所述空中用户与所述空中基站之间的上行链路路径损耗；

速率计算模块，用于根据所述地面用户移动模型、所述空中用户移动模型、所述第一信道模型和所述第二信道模型，确定上传速率计算模型；所述上传速率计算模型用于确定所述空中用户和所述地面用户向所述空中基站上传数据的速率；

模型训练模块，用于基于所述上传速率计算模型，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。

第四方面，本申请还提供了一种空中基站的移动轨迹预测装置，其特征在于，所述装置包括：

信息获取模块，用于获取空中基站的当前位置信息；

动作预测模块，用于将所述当前位置信息，输入训练完成的移动轨迹预测模型，得到所述空中基站的预测动作；所述移动轨迹预测模型通过权利要求1-6任一项所述的方法训练得到；

动作控制模块，用于按照所述预测动作，控制所述空中基站的移动。

第五方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第六方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第七方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述空中基站的移动轨迹预测模型的确定方法、装置、计算机设备、存储介质和计算机程序产品，该方法通过给地面用户和空中用户构建移动模型，预测地面用户和空中用户的移动轨迹，用于为空中基站的移动轨迹做参考，并构建空中基站与地面用户和空中用户之间的信道模型，即空中基站与地面用户和空中用户的上行链路路径损耗，根据用户的移动轨迹和上行链路路径损耗计算得到空中基站与用户之间的上传数据的速率，以得到最大的上传数据的速率为目的对轨迹预测模型进行训练，从而能预测得到空中基站最优移动轨迹，实现提高空中基站提供的通信服务的质量的效果。

附图说明

图1为一个实施例中空中基站的移动轨迹预测模型的确定方法的应用环境图；

图2为一个实施例中空中基站的移动轨迹预测模型的确定方法的流程示意图；

图3为一个实施例中信道模型构建步骤的流程示意图；

图4为一个实施例中空中基站移动区域的结构示意图；

图5为一个实施例中利用DDQN算法对移动轨迹预测模型的训练的流程示意图；

图6为另一个实施例中空中基站的移动轨迹预测方法的流程示意图；

图7为另一个实施例中基于深度强化学习的空中基站动态感知路径规划方法的流程示意图；

图8为一个实施例中空中基站的移动轨迹预测模型的确定装置的结构框图；

图9为一个实施例中空中基站的移动轨迹预测装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的空中基站的移动轨迹预测模型的确定方法，可以应用于如图1所示的应用环境中。其中，空中基站102分别向空中用户104和地面用户106提供通信服务。空中基站102通过网络与服务器108进行通信，服务器108构建地面用户106的移动模型和空中用户104的移动模型，以及构建空中基站102与地面用户106之间的第一信道模型和空中基站102与空中用户104之间的第二信道模型；根据地面用户106的移动模型、空中用户104的移动模型、第一信道模型和第二信道模型，确定上传速率计算模型；上传速率计算模型用于确定空中用户104和所述地面用户106向空中基站102上传数据的速率；基于上传速率计算模型，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。服务器108可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种空中基站的移动轨迹预测模型的确定方法，以该方法应用于图1中的服务器108为例进行说明，包括以下步骤：

步骤S202，构建地面用户移动模型和空中用户移动模型，以及构建空中基站与地面用户之间的第一信道模型和空中基站与空中用户之间的第二信道模型；其中，第一信道模型表示地面用户与空中基站之间的上行链路路径损耗，第二信道模型表示空中用户与空中基站之间的上行链路路径损耗。

其中，移动模型是指对移动对象未来位置预测，主要以移动对象的历史行为数据，即轨迹数据作为研究对象，通过挖掘个体和群体运动中潜在的时空规律性以及移动对象运动中的交互情况来认识个体行为偏好，从而达到准确预测目的。

其中，上行链路是指信号从移动台到基站的物理通道。

其中，路径损耗是指是无线电波在空间中传播的衰减，其描述电磁波能量因在空间中扩散而稀释。信号强度随距离增大而下降，路径损耗随距离增大而增大。

可选地，服务器分别构建地面用户移动模型和空中用户移动模型，用于预测地面用户和空中用户的未来移动轨迹，以及服务器构建空中基站与地面用户之间的第一信道模型，用于表示空中基站与地面用户之间的上行链路路径损耗；构建空中基站与空中用户之间的第二信道模型，用于表示空中基站与空中用户之间的上行链路路径损耗。

步骤S204，根据地面用户移动模型、空中用户移动模型、第一信道模型和第二信道模型，确定上传速率计算模型；上传速率计算模型用于确定空中用户和地面用户向空中基站上传数据的速率。

其中，上传数据的数据上传速率通过将各模型确定的数据代入预设的公式计算得到。公式可以为：

其中，和/>分别为地面和空中用户的发射功率，/>是噪声功率，/>和分别是地面用户和空中用户在第n时隙的路径功率损耗。

可选地，服务器根据地面用户移动模型和空中用户移动模型确定的用户未来位置信息、第一信道模型和第二信道模型确定的空中基站分别与地面用户和空中用户间的上行链路路径损耗，构建上传速率的计算模型，服务器通过上传速率计算模型计算空中用户和地面用户向空中基站上传数据的速率。

步骤S206，基于上传速率计算模型，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。

其中，强化学习训练是指基于环境的反馈而行动，通过不断与环境的交互、试错，最终完成待定目的或者使得整体行动收益最大化。

服务器基于上传速率计算模型得到的上传数据的速率，对待训练的移动轨迹模型每一次进行空中基站的动作预测结果进行不同奖励值的反馈的强化学习训练，得到训练完成的移动轨迹预测模型。

上述空中基站的移动轨迹预测模型的确定方法中，该方法通过给地面用户和空中用户构建移动模型，预测地面用户和空中用户的移动轨迹，用于为空中基站的移动轨迹做参考，并构建空中基站与地面用户和空中用户之间的信道模型，即空中基站与地面用户和空中用户的上行链路路径损耗，根据用户的移动轨迹和上行链路路径损耗计算得到空中基站与用户之间的上传数据的速率，以得到最大的上传数据的速率为目的对轨迹预测模型进行训练，从而能预测得到空中基站最优移动轨迹，实现提高空中基站提供的通信服务的质量。

在一个实施例中，步骤S202构建空中基站的服务区域内的地面用户移动模型和空中用户移动模型，包括：

按照地面用户的移动方式，将地面用户划分为单独移动用户和群体移动用户；针对单独移动用户，构建随机路径点移动模型，作为单独移动用户的移动模型，以及针对群体移动用户，构建参考点群体移动模型，作为群体移动用户的移动模型；针对空中用户，构建随机路径点移动模型，作为空中用户的移动模型。

其中，随机路径点移动模型是指移动节点随机选择一个方向和速度来从当前位置移动到新的位置。新的速度和方向分别从预定义的范围中选择。移动节点的每次移动会以恒定的时间间隔或恒定的行进距离进行，结束后会计算新的方向和速度。如果此模型的移动节点到达模拟边界，则它将从模拟边界“弹回”，其角度有入射方向确定，然后沿着这条路径继续移动。

其中，参考点群体移动模型是指每个节点群都有个逻辑中心称为参考点RP。RP的运动定义了群内节点的运动行为，包括位置、速度、方向和加速度。因此，一旦给出RP的轨迹，就可以确定群节点大体上的轨迹，而群节点会在大体的轨迹上随机变化位置、速度等运动行为。

可选地，服务器按照地面用户的移动方式，将其中一部分用户划分为单独移动用户，剩余的划分为群体移动用户；针对单独移动用户构建随机路径点移动模型作为单独移动用户的移动模型，例如，节点在区域内随机选择一个目的地作为路径点，在区间内随机选择一个速度，其中/>表示该节点最小速度，/>表示该节点最大速度。到达后，节点停留一段随机长度是时间，然后选择下一个路径点，再次移动。针对群体移动用户构建参考点群体移动模型作为群体移动用户的移动模型，例如，节点群的RP在时刻t从R(t)移动到时刻t+1时的R（t+1），运动向量/>。因此时刻t群内节点i的运动向量是/>其中/>的方向在0到360度之间均匀分布，均匀分布在一个特定范围内。因此，一旦给出RP的轨迹，就可以确定群节点大体上的轨迹，而群节点会在大体的轨迹上随机变化位置、速度等运动行为。并针对空中用户构建随即路径点移动模型作为空中用户的移动模型。

本实施例中，通过为地面用户和空中用户，以用户不同的移动方式划分为不同的群体并为其构建相应的移动模型，提高了移动模型预测用户的移动轨迹的准确性。

在一个实施例中，步骤S202构建空中基站与地面用户之间的第一信道模型和空中基站与空中用户之间的第二信道模型，包括：

步骤S202a，确定空中基站与地面用户之间的第一信道类型，以及确定空中基站与空中用户之间的第二信道类型；根据第一信道类型构建第一信道模型，以及根据第二信道类型构建第二信道模型。

其中，信道是指一种物理介质，通过它传输信号。例如，固话通信系统中的电缆（由铜制成）是信道，现在的办公局域网，一台终端可以是发射器，另一台终端可以是接收器，网线就是信道。而像手机这样的移动通信，用户设备和基站可以是发射器和接收器，它们之间的空气和所有其他障碍物（如山、建筑物等）也是信道。

其中，信道类型可以按传输信号特点分类，分为数字信道和模拟信道，也可以按传输的随机变量进行分类，分为单符号信道和多符号信道，根据信道上有无遮挡进行分类，分为非视距信道和视距信道等。

可选地，服务器确定空中基站与地面用户之间的第一信道类型，以及确定空中基站与空中用户的第二信道类型，根据第一信道类型构建空中基站与地面用户间的第一信道模型，并根据第二信道类型构建空中基站与空中用户间的第二信道模型。

本实施例中，通过判断空中基站与用户间不同的信道类型，并构建相应的信道模型，提高了信道模型确定上链路路径损耗的准确性。

在一个实施例中，如图3所示，步骤S202a根据第一信道类型构建第一信道模型，以及根据第二信道类型构建第二信道模型，包括：

步骤S302，当第一信道类型为视距信道时，根据地面用户的发射功率、地面用户与空中基站之间的距离，以及视距信道的链路参数，构建第一信道模型。

其中，视距信道是指无线信号无遮挡地在发送端与接收端之间进行直线传播，这要求在第一菲涅尔区内不存在对无线电波造成遮挡的物体，这种利用视距传播的无线电波进行信息传输的通信就是视距通信。

可选地，当第一信道类型为视距信道时，服务器获取地面用户的载波频率、地面用户和空中基站之间的距离和视距信道的链路参数，设置公式作为第一信道模型，例如当第一信道类型为视距信道时，空中基站与地面用户之间的上行链路路径损耗，即第一信道模型定义为：

其中，指地面用户的额载波频率，/>指地面用户与空中基站的距离，/>指视距信道的链路参数。

步骤S304，当第一信道类型为非视距信道时，根据地面用户的载波频率、地面用户与空中基站之间的距离，以及非视距信道的链路参数，构建第一信道模型。

其中，非视距信道是指在第一菲涅尔区内存在对无线电波造成遮挡的物体，无线电波只能通过反射、散射和衍射的方式到达接收端。

可选地，当第一信道类型为非视距信道时，服务器获得地面用户的载波频率、地面用户和空中基站之间的距离和非视距信道的链路参数，设置公式作为第一信道模型，例如当第一信道类型为视距信道时，空中基站与地面用户之间的上行链路路径损耗，即第一信道模型定义为：

其中，指地面用户的额载波频率，/>指地面用户与空中基站的距离，/>指非视距信道的链路参数。

步骤S306，第二信道类型包括视距信道；根据第二信道类型构建第二信道模型，包括：

根据空中用户的载波频率、空中用户与空中基站之间的距离，以及视距信道的链路参数，构建第二信道模型。

其中，载波频率是指一个特定频率的无线电波，在无线通信上使用载波传递信息，将数字信号调制到一个高频载波上然后再在空中发射和接收。

可选地，第二信道类型为视距信道，服务器获得地面用户的载波频率、空中用户和空中基站之间的距离和非视距信道的链路参数，设置公式作为第二信道模型，例如第二信道类型为视距信道，空中基站与空中用户之间的上行链路路径损耗，即第二信道模型定义为：

其中，指地面用户的额载波频率，/>指空中用户与空中基站的距离，/>指视距信道的链路参数。

本实施例中，通过根据不同的信道类型，构建对应的信道模型，达到了减小计算误差的效果。

在一个实施例中，步骤S206基于上传速率计算模型，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型，包括：

步骤S206a，确定空中基站的动作空间和状态空间；以上传速率计算模型为奖励函数，根据奖励函数、动作空间、状态空间和历史数据集，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。

其中，动作空间可以为空间基站下一时刻可选的动作，例如悬停、右、前、左、后、左前、左后、右前、右后。

其中，状态空间可以为空间基站所处的位置。

其中，奖励函数可以为如下函数：

可选地，服务器确定空中基站在下一时刻能采取的动作空间和所处的位置，根据奖励函数计算选择下一时刻采取动作之后，返回的奖励值，并将此次运算过程涉及的数据放入经验池作为历史数据，根据上述的数据对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。

本实施例中，通过利用空中基站的动作空间和状态空间，并利用奖励函数计算得到采取动作对应的奖励值，将每时刻的动作空间和状态空间和奖励值作为历史数据集，对待训练的移动轨迹预测模型进行强化学习训练，实现了得到对空中基站的移动轨迹预测模型，为空中基站的采用动作做出决策的效果。

在一个实施例中，步骤S206a根据奖励函数、动作空间、状态空间和历史数据集，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型，包括：

步骤S2061，确定空中基站的移动区域，对移动区域进行离散化处理，得到网格区域。确定空中基站的多个移动方向，以及确定空中基站的飞行时长，将飞行时长离散化为多个时隙；

其中，离散化处理是指，将空间上的计算区域划分为许多区域，离散化后得到4种几何因素：节点、控制容积、界面和网格线。

其中，多个移动方向可以为悬停、右、前、左、后、左前、左后、右前、右后。

可选地，服务器设置空中基站的起始点和终止点，建立矩形移动区域，对移动区域进行离散化处理得到网格区域。服务器确定空中基站的多个移动方向，以及在空中飞行时间间隔，将整个飞行时间间隔离散化为多个时隙。例如，如图4所示，展示了空中基站的移动区域结构图，假设应用于本文服务器的系统为频分多址系统，每个地面用户以及空中用户等分信道带宽。其中，本专利将空中基站飞行时间间隔T离散化为N个等长时间片，时隙 n(1,2,3,…,N)将矩形区域D离散化为M*M的网格世界，假设空中基站在第n时隙的水平二维坐标位置为正方形网格的中心，在此时间段忽略其运动。在这里空中基站被认为是一个与无线网络环境互动的agent（一个人工智能术语，指能自主活动的软件或者硬件实体）。在这个网格世界中，agent在第n时隙釆取的动作定义为：a_n={0,1,2,3,4,5,6,7,8}, 这九个动作分别代表空中基站的移动方向：悬停、右、前、左、后、左前、左后、右前、右后。

步骤S2062，以历史数据集中，空中基站在当前时隙下，在网格区域中的位置为输入状态，以空中基站在当前时隙的下一时隙下的移动方向为预测目标，以最大化奖励函数为训练目标，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。

其中，进行强化学习训练可采用DQN算法（Deep Q Network适用于动作离散的强化学习任务）或者DDQN算法（double deep Q network能收敛至最佳价值函数的算法）。

其中，历史数据集是指用于模型训练的经验池，例如已知一个状态，DQN算法通过Q网络得到各种动作的Q值，然后用贪婪策略/>选择动作/>（贪婪策略是为了保证一定的探索，大概率会选择Q值最大的那个动作），然后将输入到环境中，得到/>和/>，这样就得到一个experience（经验）:/>，然后将experience放入经验池中。

可选地，服务器将历史数据集中，空中基站在当前的时隙下，在网格区域中的位置信息作为输入移动轨迹训练模型的输入状态，以空中基站在当前的时隙的下一个时隙的移动方向作为模型的预测目标，以最大化输入状态后返回的奖励函数为训练目标，对待训练的移动轨迹预测模型进行强化学习，得到训练完成的移动轨迹预测模型。例如，如图5展示了利用DDQN算法对移动轨迹预测模型的训练流程，过程包括：首先是根据（状态空间）和（动作空间）是可以确定当前的/>值的，这里假设为/>。然后将下一状态/>输入到Q网络（待训练的移动轨迹预测模型）中，得到各种不同的动作的Q值，接下来选择最大的Q值对应的动作，这里假设选择了动作/>。接着将状态/>输入到TargetQ网络（训练后的移动轨迹预测模型）中，找到动作/>对应/>值。最后，以作为网络的预测值，而/>作为网络的实际值，进行误差反向传播。损失函数可以选择方差等，作为有监督学习进行训练,过一段时间后，将Q网络中的参数硬拷贝到Target Q网络中。综上可以进一步训练出Q网络，用于决策推理。

本实施例中，通过将空中基站的移动区域和飞行时间进行离散，得到每个时隙对应的空中基站位置信息，再利用该位置信息作为输入，利用强化学习算法对轨迹移动模型进行强化学习训练，得到训练后的移动轨迹预测模型，实现了对空中基站的任一时刻位置信息的精准定位，在经过强化学习训练后，模型能较准确地预测出提供最佳通信服务质量的空中基站下一时隙的移动方向。

在另一个实施例中，如图6所示，提供了一种空中基站的移动轨迹预测方法，该方法包括：

步骤S602，获取空中基站的当前位置信息。

其中，位置信息可以通过获取空中基站的起始点和终止点，构建矩形区域离散化处理，得到网格世界，空中基站的高度为固定高度，根据网格世界和固定高度建立空中基站的三维坐标作为位置信息。

可选地，服务器获取空中基站在网格区域中的三维坐标作为位置信息。

步骤S604，将当前位置信息，输入训练完成的移动轨迹预测模型，得到空中基站的预测动作；移动轨迹预测模型通过上述空中基站的移动轨迹预测模型的确定方法的任一实施例所述的方法训练得到。

其中，预测动作是指通过移动轨迹预测模型预测得到的空中基站下一时刻采取的动作。

可选地，服务器将空中基站当前的位置信息，输入训练完成的移动轨迹预测模型，得到空中基站下一时刻采取的动作。该移动轨迹预测模型基于马尔可夫决策过程(MarkovDecision Process, MDP)建模。通过上述空中基站的移动轨迹预测模型的确定方法的任一实施例所述的方法训练得到。

步骤S606，按照预测动作，控制空中基站的移动。

其中，控制空中基站的移动即控制无人机的移动，对无人机的水平位置控制和高度控制两个控制同时进行，达到对三维坐标系内无人机准确飞行的控制目的。

可选地，服务器按照移动轨迹预测模型预测的动作，控制空中基站的移动。

本实施例中，通过获取空中基站的位置信息，将其输入训练完成移动轨迹预测模型中得到预测的动作，然后根据预测动作控制空中基站的移动，能够达到使空中基站按照经过移动轨迹预测模型预测的能提供最佳质量的通信服务的移动方向移动的效果。

在另一个实施例中，提供了一种基于深度强化学习的空中基站动态感知路径规划方法，如图7所示，具体步骤包括：

步骤S702，按照地面用户的移动方式，将地面用户划分为单独移动用户和群体移动用户；针对单独移动用户，构建随机路径点移动模型，作为单独移动用户的移动模型，以及针对群体移动用户，构建参考点群体移动模型，作为群体移动用户的移动模型；针对空中用户，构建随机路径点移动模型，作为空中用户的移动模型。

具体地，服务器按照地面用户的移动方式，将其中一部分用户划分为单独移动用户，剩余的划分为群体移动用户；针对单独移动用户构建随机路径点移动模型作为单独移动用户的移动模型，例如，节点在区域内随机选择一个目的地作为路径点，在区间内随机选择一个速度，其中/>表示该节点最小速度，/>表示该节点最大速度。到达后，节点停留一段随机长度是时间，然后选择下一个路径点，再次移动。针对群体移动用户构建参考点群体移动模型作为群体移动用户的移动模型，例如，节点群的RP在时刻t从R（t）移动到时刻t+1时的R（t+1），运动向量/>。因此时刻t群内节点i的运动向量是/>其中/>的方向在0到360度之间均匀分布，均匀分布在一个特定范围内。因此，一旦给出RP的轨迹，就可以确定群节点大体上的轨迹，而群节点会在大体的轨迹上随机变化位置、速度等运动行为。并针对空中用户构建随即路径点移动模型作为空中用户的移动模型。

步骤S704，确定空中基站与地面用户之间的第一信道类型，以及确定空中基站与空中用户之间的第二信道类型；当第一信道类型为视距信道时，根据根据地面用户的发射功率、地面用户与空中基站之间的距离，以及视距信道的链路参数，构建第一信道模型；当第一信道类型为非视距信道时，根据地面用户的载波频率、地面用户与空中基站之间的距离，以及非视距信道的链路参数，构建第一信道模型。第二信道类型包括视距信道；根据第二信道类型构建第二信道模型，包括：根据空中用户的载波频率、空中用户与空中基站之间的距离，以及视距信道的链路参数，构建第二信道模型。

具体地，当第一信道类型为视距信道时，服务器获取地面用户的载波频率、地面用户和空中基站之间的距离和视距信道的链路参数，设置公式作为第一信道模型；当第一信道类型为非视距信道时，服务器获得地面用户的载波频率、地面用户和空中基站之间的距离和非视距信道的链路参数，设置公式作为第一信道模型；第二信道类型为视距信道，服务器获得地面用户的载波频率、空中用户和空中基站之间的距离和非视距信道的链路参数，设置公式作为第二信道模型。

步骤S706，根据地面用户移动模型、空中用户移动模型、第一信道模型和第二信道模型，确定上传速率计算模型；上传速率计算模型用于确定空中用户和地面用户向空中基站上传数据的速率。

具体地，务器根据地面用户移动模型和空中用户移动模型确定的用户未来位置信息、第一信道模型和第二信道模型确定的空中基站分别与地面用户和空中用户间的上行链路路径损耗，构建上传速率的计算模型，服务器通过上传速率计算模型计算空中用户和地面用户向空中基站上传数据的速率。

步骤S708，确定空中基站的动作空间和状态空间；以上传速率计算模型为奖励函数确定空中基站的移动区域，对移动区域进行离散化处理，得到网格区域；确定空中基站的多个移动方向，以及确定空中基站的飞行时长，将飞行时长离散化为多个时隙。

具体地，服务器设置空中基站的起始点和终止点，建立矩形移动区域，对移动区域进行离散化处理得到网格区域。服务器确定空中基站的多个移动方向，以及在空中飞行时间间隔，将整个飞行时间间隔离散化为多个时隙。

步骤S710，以历史数据集中，空中基站在当前时隙下，在网格区域中的位置为输入状态，以空中基站在当前时隙的下一时隙下的移动方向为预测目标，以最大化奖励函数为训练目标，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。

具体地，服务器将历史数据集中，空中基站在当前的时隙下，在网格区域中的位置信息作为输入移动轨迹训练模型的输入状态，以空中基站在当前的时隙的下一个时隙的移动方向作为模型的预测目标，以最大化输入状态后返回的奖励函数为训练目标，对待训练的移动轨迹预测模型进行强化学习，得到训练完成的移动轨迹预测模型。

步骤S712，获取空中基站的当前位置信息.

具体地，服务器获取空中基站在网格区域中的三维坐标作为位置信息。

步骤S714，将当前位置信息，输入训练完成的移动轨迹预测模型，得到空中基站的预测动作；移动轨迹预测模型通过步骤S710训练得到。

具体地，服务器将空中基站当前的位置信息，输入训练完成的移动轨迹预测模型，得到空中基站下一时刻采取的动作。该移动轨迹预测模型基于马尔可夫决策过程(MarkovDecision Process, MDP)建模。通过上述步骤S710训练得到。

步骤S716，按照预测动作，控制空中基站的移动。

具体地，服务器按照移动轨迹预测模型预测的动作，控制空中基站的移动。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的空中基站的移动轨迹预测模型的确定方法的空中基站的移动轨迹预测模型的确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个空中基站的移动轨迹预测模型的确定装置实施例中的具体限定可以参见上文中对于空中基站的移动轨迹预测模型的确定方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种空中基站的移动轨迹预测模型的确定装置800，包括：模型构建模块802、速率计算模块804和模型训练模块806，其中：

模型构建模块802，用于构建地面用户移动模型和空中用户移动模型，以及构建空中基站与地面用户之间的第一信道模型和空中基站与空中用户之间的第二信道模型；其中，第一信道模型表示地面用户与空中基站之间的上行链路路径损耗，第二信道模型表示空中用户与空中基站之间的上行链路路径损耗。

速率计算模块804，用于根据地面用户移动模型、空中用户移动模型、第一信道模型和第二信道模型，确定上传速率计算模型；上传速率计算模型用于确定空中用户和地面用户向空中基站上传数据的速率。

模型训练模块806，用于基于上传速率计算模型，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。

进一步地，在一个实施例中，模型构建模块702，还用于按照地面用户的移动方式，将地面用户划分为单独移动用户和群体移动用户；针对单独移动用户，构建随机路径点移动模型，作为单独移动用户的移动模型，以及针对群体移动用户，构建参考点群体移动模型，作为群体移动用户的移动模型；针对空中用户，构建随机路径点移动模型，作为空中用户的移动模型。

进一步地，在一个实施例中，模型构建模块802，还用于确定空中基站与地面用户之间的第一信道类型，以及确定空中基站与空中用户之间的第二信道类型；根据第一信道类型构建第一信道模型，以及根据第二信道类型构建第二信道模型。

进一步地，在一个实施例中，模型构建模块802，还用于当第一信道类型为视距信道时，根据地面用户的发射功率、地面用户与空中基站之间的距离，以及视距信道的链路参数，构建第一信道模型；当第一信道类型为非视距信道时，根据地面用户的载波频率、地面用户与空中基站之间的距离，以及非视距信道的链路参数，构建第一信道模型。第二信道类型包括视距信道；根据第二信道类型构建第二信道模型，包括：根据空中用户的载波频率、空中用户与空中基站之间的距离，以及视距信道的链路参数，构建第二信道模型。

进一步地，在一个实施例中，模型训练模块806，还用于确定空中基站的动作空间和状态空间；以上传速率计算模型为奖励函数，根据奖励函数、动作空间、状态空间和历史数据集，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。

进一步地，在一个实施例中，模型训练模块806，还用于确定空中基站的移动区域，对移动区域进行离散化处理，得到网格区域；确定空中基站的多个移动方向，以及确定空中基站的飞行时长，将飞行时长离散化为多个时隙；以历史数据集中，空中基站在当前时隙下，在网格区域中的位置为输入状态，以空中基站在当前时隙的下一时隙下的移动方向为预测目标，以最大化奖励函数为训练目标，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。

在一个实施例中，如图9所示，提供了一种空中基站的移动轨迹预测装置900，包括：信息获取模块902、动作预测模块904和动作控制模块906，其中：

信息获取模块902，用于获取空中基站的当前位置信息。

动作预测模块904，用于将当前位置信息，输入训练完成的移动轨迹预测模型，得到空中基站的预测动作；移动轨迹预测模型通过上述空中基站的移动轨迹预测模型的确定装置800训练得到。

动作控制模块906，用于按照预测动作，控制空中基站的移动。

上述移动轨迹预测模型的确定装置和空中基站的移动轨迹预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户的位置信息、空中基站的动作空间、状态空间、路径损耗、奖励值和历史数据集等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种空中基站的移动轨迹预测模型的确定方法和一种空中基站的移动轨迹预测方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种空中基站的移动轨迹预测模型的确定方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述构建地面用户移动模型和空中用户移动模型，包括：

按照地面用户的移动方式，将所述地面用户划分为单独移动用户和群体移动用户；

针对所述单独移动用户，构建随机路径点移动模型，作为所述单独移动用户的移动模型，以及针对所述群体移动用户，构建参考点群体移动模型，作为所述群体移动用户的移动模型；

针对所述空中用户，构建随机路径点移动模型，作为所述空中用户的移动模型。

3.根据权利要求1所述的方法，其特征在于，所述以及构建所述空中基站与地面用户之间的第一信道模型和所述空中基站与空中用户之间的第二信道模型，包括：

确定所述空中基站与所述地面用户之间的第一信道类型，以及确定所述空中基站与所述空中用户之间的第二信道类型；

4.根据权利要求3所述的方法，其特征在于，所述第一信道类型包括视距信道和非视距信道；所述根据所述第一信道类型构建所述第一信道模型，包括：

5.根据权利要求1所述的方法，其特征在于，所述基于所述上传速率计算模型，对待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型，包括：

确定所述空中基站的动作空间和状态空间；

6.根据权利要求5所述的方法，其特征在于，所述根据所述奖励函数、所述动作空间、所述状态空间和历史数据集，对所述待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型，包括：

以所述历史数据集中，所述空中基站在当前时隙下，在所述网格区域中的位置为输入状态，以所述空中基站在所述当前时隙的下一时隙下的移动方向为预测目标，以最大化所述奖励函数为训练目标，对所述待训练的移动轨迹预测模型进行强化学习训练，得到训练完成的移动轨迹预测模型。

7.一种空中基站的移动轨迹预测方法，其特征在于，所述方法包括：

获取空中基站的当前位置信息；

将所述当前位置信息，输入训练完成的移动轨迹预测模型，得到所述空中基站的预测动作；所述移动轨迹预测模型通过权利要求1-6任一项所述的方法训练得到；

按照所述预测动作，控制所述空中基站的移动。

8.一种空中基站的移动轨迹预测模型的确定装置，其特征在于，所述装置包括：

9.一种空中基站的移动轨迹预测装置，其特征在于，所述装置包括：

信息获取模块，用于获取空中基站的当前位置信息；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。