CN117729555B

CN117729555B - 空中基站部署方法、协同系统及相关设备

Info

Publication number: CN117729555B
Application number: CN202410179685.4A
Authority: CN
Inventors: 黄超; 刘椿枫; 柴超
Original assignee: Beijing Zhongdian Feihua Communication Co Ltd
Current assignee: Beijing Zhongdian Feihua Communication Co Ltd
Priority date: 2024-02-18
Filing date: 2024-02-18
Publication date: 2024-04-26
Anticipated expiration: 2044-02-18
Also published as: CN117729555A

Abstract

本申请提供的一种空中基站部署方法、协同系统及相关设备，包括：响应于获取到对至少一个空中基站的移动部署请求，确定空中基站的状态信息；其中，状态信息至少包括：对空中基站服务的目标区域范围栅格化后，确定的每个空中基站所在的栅格位置，以及空中基站对每个栅格的服务时隙；将状态信息输入至完成训练的马尔可夫决策模型中，以根据马尔可夫决策模型确定空中基站在栅格位置实现奖励最大化的移动策略；其中，马尔可夫决策模型的奖励函数由能效奖励、及时性奖励及传输奖励组成；输出移动策略，使空中基站能够根据移动策略进行移动部署。

Description

空中基站部署方法、协同系统及相关设备

技术领域

本申请涉及通信网络技术领域，尤其涉及一种空中基站部署方法、协同系统及相关设备。

背景技术

目前，电力系统地面网络由有数据通信方式和无线通信方式组成，有线数据通信方式主要是光纤通信，无线数据通信方式主要包括电力无线专网通信和电力无线公网通信。其中，光纤通信易受雷电、地震、洪水、飓风等自然灾害和盗窃、破坏等人为因素的影响，且光缆不易铺设在偏远山区、牧区；无线公网通信主要面向人口密集地区进行网络信号覆盖，但在偏远地区和易受自然灾害影响的地区，电力无线专网、无线公网信号无法完全覆盖，通信质量不稳定，这些通信方式无法保证电力服务的可靠性和安全性，因此，这些主流的电力通信方式已不能满足特殊电力场景的实际需求。

与地面网络相比，空中基站具有成本低、易于部署、能够按需部署等特点，是一种可以有效覆盖电力行业偏远地区巡检、应急救援等特殊需求的网络。然而，空中基站在空中的能量有限，制约着空中基站的覆盖能力，因此，如何在有限的续航时间内制定更为合理的部署、移动策略，成为了提升空中基站覆盖能力的关键问题。

发明内容

有鉴于此，本申请提出一种空中基站部署方法、协同系统及相关设备，以解决或部分解决上述问题。

基于上述目的，本申请提供了一种空中基站部署方法，包括：

响应于获取到对至少一个空中基站的移动部署请求，确定所述空中基站的状态信息；其中，所述状态信息至少包括：对所述空中基站服务的目标区域范围栅格化后，确定的每个所述空中基站所在的栅格位置，以及所述空中基站对每个栅格的服务时隙；

将所述状态信息输入至完成训练的马尔可夫决策模型中，以根据所述马尔可夫决策模型确定所述空中基站在所述栅格位置实现奖励最大化的移动策略；其中，所述马尔可夫决策模型的奖励函数由能效奖励、及时性奖励及传输奖励组成；

输出所述移动策略，使所述空中基站能够根据所述移动策略进行移动部署。

在一些示例性实施例中，所述对所述空中基站服务的目标区域范围栅格化，包括：

确定所述空中基站的飞行高度及信号波束宽度；

根据所述飞行高度及所述信号波束宽度确定所述空中基站的覆盖范围，根据所述覆盖范围进行栅格划分；

所述覆盖范围，具体为

；

其中，表示覆盖范围的半径，/>表示所述飞行高度，/>表示所述信号波束宽度；

所述栅格划分的栅格大小，具体为

；

其中，表示一个栅格的边长大小。

在一些示例性实施例中，所述空中基站对每个栅格的服务时隙，具体为：

；

其中，表示在一个栅格中的所述服务时隙，/>表示预设的所述空中基站在栅格中的悬停时间，/>表示所述空中基站的预设飞行速度。

在一些示例性实施例中，所述马尔可夫决策模型，具体为：由组成的六元组模型；其中，/>表示作为智能体的空中基站的集合，/>表示空中基站的状态集合，/>表示空中基站/>的状态集合，/>表示空中基站的行动集合，/>表示空中基站/>的行动集合，/>表示状态转移概率集合，/>表示空中基站的奖励集合，/>表示空中基站/>的奖励集合，/>表示所有服务时隙的集合。

在一些示例性实施例中，所述奖励函数，具体为：

；

其中，表示在状态集合/>下空中基站/>在服务时隙/>的奖励函数，/>表示能效奖励，/>表示及时性奖励，/>表示传输奖励，/>和/>表示预设的奖励权重，表示在服务时隙/>时空中基站/>的舒适度，/>表示对应栅格内的用户集合，/>表示用户集合内的用户，/>表示在服务时隙/>时空中基站/>对用户/>的服务系数，/>表示在服务时隙/>时空中基站/>对用户/>的能效，/>表示服务时隙/>时所述目标区域范围内进行网络连接的用户总人数，/>表示在服务时隙/>时用户/>的传输内容大小，。

在一些示例性实施例中，所述马尔可夫决策模型的训练过程，包括：

将预设智能体及对应训练状态信息的集合作为训练集；

选取所述训练集中任意所述智能体及对应的所述训练状态信息，输入所述马尔可夫决策模型进行强化学习训练，判断输出的部署路线是否符合预设的奖励条件，根据判断结果对所述马尔可夫决策模型的模型参数进行调整，以此循环，直至满足预设停止条件，以完成所述马尔可夫决策模型的训练。

在一些示例性实施例中，所述直至满足预设停止条件，包括：

循环达到预设次数；

或

所述马尔可夫决策模型输出的部署路线达到奖励值最大化。

基于同一构思，本申请还提供了一种协同系统，包括：

至少一个用户终端；

至少一个地面基站，用于与覆盖范围内的所述用户终端建立连接；

至少一个空中基站，用于在所述地面基站的覆盖范围内辅助进行与所述用户终端的连接，在所述地面基站的覆盖范围外与所述用户终端建立连接，并执行如上任一项所述的空中基站部署方法。

基于同一构思，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任一项所述的方法。

基于同一构思，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机实现如上任一项所述的方法。

从上面所述可以看出，本申请提供的一种空中基站部署方法、协同系统及相关设备，包括：响应于获取到对至少一个空中基站的移动部署请求，确定空中基站的状态信息；其中，状态信息至少包括：对空中基站服务的目标区域范围栅格化后，确定的每个空中基站所在的栅格位置，以及空中基站对每个栅格的服务时隙；将状态信息输入至完成训练的马尔可夫决策模型中，以根据马尔可夫决策模型确定空中基站在栅格位置实现奖励最大化的移动策略；其中，马尔可夫决策模型的奖励函数由能效奖励、及时性奖励及传输奖励组成；输出移动策略，使空中基站能够根据移动策略进行移动部署。本申请通过对目标区域范围进行栅格化，以此来确定空中基站的服务范围及部署节点，之后利用马尔可夫决策模型进行移动部署策略奖励最大化的计算，其利用能效奖励、及时性奖励及传输奖励组成的奖励函数能够使规划后的空中基站的移动策略能够显著提高覆盖能效，有效提高覆盖性能，从而为空中基站提供了更为合理的部署策略，最终提升了空中基站的用户使用体验。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的示例性空中基站部署方法的流程示意图。

图2为本申请实施例提供的示例性协同系统的结构示意图。

图3为本申请实施例提供的电子设备结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本说明书进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件、物件或者方法步骤涵盖出现在该词后面列举的元件、物件或者方法步骤及其等同，而不排除其他元件、物件或者方法步骤。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如背景技术部分所述，空中基站等机载网络的加入不仅带来了无线覆盖和网络容量的变化，而且空中基站有限的空中能量也带来了网络能耗模式的变化。因此，在相关技术中，提出了改善空地协同网络覆盖的思路和方法，仿真结果也证实了这些方法的有效性和优势。空中网络具有覆盖范围广、按需部署等优点，但也带来了能源和回程链路容量有限、服务时间连续性难以保证等问题。然而，地面基站虽然不够灵活，但正好弥补了空中网络的问题。因此，研究如何将空中网络与地面网络协同起来，实现优势互补，对提高覆盖性能具有重要意义。基于此，可以构建相应的空地协同网络，以满足电力行业的需求。但是，在建立空地协同网络系统的过程中，由于当前空中基站有限的能量供应，如何在有限的续航时间内完成更为合理、覆盖能效更高的部署方案，则成为了当前领域亟待解决的核心问题。

结合上述实际情况，本申请实施例提供了一种空中基站部署方案。本申请通过对目标区域范围进行栅格化，以此来确定空中基站的服务范围及部署节点，之后利用马尔可夫决策模型进行移动部署策略奖励最大化的计算，其利用能效奖励、及时性奖励及传输奖励组成的奖励函数能够使规划后的空中基站的移动策略能够显著提高覆盖能效，有效提高覆盖性能，从而为空中基站提供了更为合理的部署策略，最终提升了空中基站的用户使用体验。

参考图1，其为本申请示例性实施例提供的一种空中基站部署方法的流程示意图。

所述空中基站部署方法，具体包括以下步骤：

步骤102，响应于获取到对至少一个空中基站的移动部署请求，确定所述空中基站的状态信息；其中，所述状态信息至少包括：对所述空中基站服务的目标区域范围栅格化后，确定的每个所述空中基站所在的栅格位置，以及所述空中基站对每个栅格的服务时隙。

在本步骤中，空中基站与地面基站在功能上相类似，仅是由固定的地面设施转变成了能够在空中移动的空中移动设施，其载体可以是卫星也可以是无人机等。之后，对于一次服务任务，一般会设置一个预设的范围区域，即目标区域范围，空中基站会在目标区域范围内进行移动部署，执行相应的任务，而空中基站本身的覆盖范围有限，从而为了保证或提示空中基站的能效，需要进行移动，进而在开始部署执行任务之前或每次进行移动前，空中基站可以生成一个移动部署请求，以此来确定其具体移动的路线或方式。在一些实施例中，空中基站可以设置一个或多个，在大部分应用场景中，空中基站为多个进行联合执行任务。

在一些实施例中，空中基站可以在每次进行移动之前生成一个请求，来询问接下来的移动方式，以此期望能够实时的保证更高的服务质量和覆盖性能。获取到请求之后，首先可以确定对应的空中基站的状态信息。这里的状态信息主要可以包括当前的位置信息、时隙信息等等。对于位置信息的确定，为了方便规划部署，可以对空中基站服务的目标区域范围进行栅格化处理，将目标区域范围按照一定的边长划分为多个栅格，空中基站每次停留在一个栅格的中心位置，为整个栅格提供服务，移动也是从一个栅格中心到另一个栅格中心的移动。以此，可以将空中基站的位置信息，表示为其当前所处的栅格的信息，而在此之前，需要先完成栅格的划分。

进而，在一些实施例中，栅格的大小可以是事先设定好的预设值，也可以根据空中基站的实际情况进行设置。例如，在一些应用场景中，空中基站会在一个固定的高度进行飞行及水平移动，同时对于每个空中基站其信号的波束宽度一般为可知的，从而可以以此来确定空中基站的信号覆盖范围，并最终以此确定出栅格的具体大小，只有当空中基站和地面用户位于同一栅格内时，才能进行数据传输。具体的，所述覆盖范围，具体可以为；其中，/>表示覆盖范围的半径，/>表示空中基站的飞行高度，/>表示空中基站的信号波束宽度；所述栅格划分的栅格大小，具体为/>；其中，/>表示一个栅格的边长大小。

即，在一些实施例中，所述对所述空中基站服务的目标区域范围栅格化，包括：确定所述空中基站的飞行高度及信号波束宽度；根据所述飞行高度及所述信号波束宽度确定所述空中基站的覆盖范围，根据所述覆盖范围进行栅格划分。

以此，在完成栅格划分之后，根据预设策略，只要确定了当前空中基站所在的栅格位置即可确定其位置信息。

之后，在一些实施例中，空中基站在执行任务期间一般存在两种状态，即悬停状态及移动状态，进而可以将空中基站在一个栅格中的悬停时间加上在该栅格中的移动/飞行时间，作为空中基站对一个栅格的服务时隙，即时隙信息。可以预设空中基站的移动速度，使空中基站在空中移动时均以此速度进行匀速移动。同时还可以预设空中基站每次进行悬停的时间。以此可以确定出空中基站对每个栅格的具体服务时隙。即，在一些实施例中，所述空中基站对每个栅格的服务时隙，具体为：；其中，/>表示在一个栅格中的所述服务时隙，/>表示预设的所述空中基站在栅格中的悬停时间，/>表示所述空中基站的预设飞行速度。

步骤104将所述状态信息输入至完成训练的马尔可夫决策模型中，以根据所述马尔可夫决策模型确定所述空中基站在所述栅格位置实现奖励最大化的移动策略；其中，所述马尔可夫决策模型的奖励函数由能效奖励、及时性奖励及传输奖励组成。

在本步骤中，在获取到相应的空中基站的状态信息之后，即可通过马尔科夫决策模型进行强化学习，从全部行动策略中选择出要执行的行动策略，以实现收益最大化。在具体场景中，为了方便对空中基站的管控，一般对所有的空中基站都是统一进行移动，即服务时隙相同，并且开始时间也相同。以此，在进行马尔可夫决策模型强化学习时，一般为多个空中基站同时进行移动部署，进而选出行动策略一般为多个空中基站的联合行动策略。

在具体实施例中，可以将空中基站视为深度强化学习过程中的智能体，它通过与环境交互，不断完善和优化空中基站的高动态部署策略。同时，每个空中基站都可以通过卫星或地面回程等链路接入地面核心网络。因此，可以在地面部署一个接入核心网络的服务器，并通过核心网络将地面服务器与基站连接起来。地面服务器利用汇聚的信息来训练每个空中基站的高动态部署策略来进行强化学习。同时，由于空中基站的行动选择策略仅基于自身当前的状态，不涉及过去的其他状态，因此它具有马尔可夫性，可以利用马尔可夫决策模型进行部署策略的生成。

具体的，在本实施例中的马尔科夫决策模型可以为由组成的六元组模型；其中，/>表示作为智能体的空中基站的集合，/>表示空中基站的状态集合，/>表示空中基站/>的状态集合，/>表示空中基站的行动集合，/>表示空中基站/>的行动集合，/>表示状态转移概率集合，/>表示空中基站的奖励集合，/>表示空中基站/>的奖励集合，/>表示所有服务时隙的集合。具体的，/>即为一共有多少个空中基站参与决策的集合。/>主要表示对应的空中基站当前所在的位置等信息，即状态信息。这里可以将每个空中基站在/>时隙的状态定义为/>，空中基站/>的单个状态即为/>。因此，每个空中基站在/>时隙的联合状态可以为。/>主要表示空中基站能够进行的行动的集合，例如向前、向后移动或保持不动等等。同状态集合/>相应的解释，对于每个空中基站在/>时隙的联合行动可以为/>。/>主要表示空中基站从一个状态转变为另一个状态的概率，这些概率可以是预设好的。具体的可以通过/>进行表示，表示空中基站采取联合行动/>从联合状态/>到联合状态/>的转移概率。/>为具体每个空中基站的奖励集。主要表示总的服务时隙集合，例如空中基站总共要进行5个小时的任务执行，而服务时隙为/>，则可以将5个小时按照服务时隙/>进行切分，切分后的结果即可构成服务时隙集合/>。

之后，具体到马尔科夫决策模型在具体场景中的应用，根据前述的六元组模型。其中，可以是事先设定好的，或是收到每个空中基站的部署请求时，就能确定的。/>对应输入的状态信息，其一般由空中基站的服务时隙等时间信息和栅格位置信息组成。从而，状态集合可以表示为/>，其中，/>表示服务时隙/>时空中基站/>的位置状态信息。/>同样可以是事先设定好的，根据前述对空中基站的设定，空中基站的行动集一般会有5个动作组成，包括向前移动、向后移动、向左移动、向右移动和保持不动。从而使。之后，对于/>和/>同样是事先设定的。最后，为了能够提升覆盖能效，对于奖励函数，则综合考虑了能效指标、及时性指标和传输指标。在本实施例的具体场景中，服务器可以通过核心网获取所有基站对用户的服务信息。因此，在设计奖励函数时，可以利用全局信息来求解优化目标。因此，可以将空中基站/>在服务时隙/>中的奖励设置为

；

其中，表示在状态集合/>下空中基站/>在服务时隙/>的奖励函数；/>表示能效奖励；/>表示及时性奖励；/>表示传输奖励；/>和/>表示预设的奖励权重，即奖励折扣；/>表示在服务时隙/>时空中基站/>的舒适度；/>表示对应栅格内的用户集合，/>表示用户集合内的用户；/>表示在服务时隙/>时空中基站/>对用户/>的服务系数；/>表示在服务时隙/>时空中基站/>对用户/>的能效；/>表示服务时隙/>时所述目标区域范围内进行网络连接的用户总人数；/>表示在服务时隙/>时用户/>的传输内容大小；，表示截至当前的服务时隙/>时刻，每个用户传输内容大小的平均值。

之后，对于马尔科夫决策模型的学习更新过程，其类似于一个更新迭代过程，其具体的更新过程可以表示为：

；

其中，表示空中基站/>的行动状态矩阵，/>表示空中基站的状态，/>表示空中基站执行的行动。这里可以理解为/>是一个叠加更新的过程，即是在原有的基础上加上相应的值，生成新的/>。/>为预设的学习率，/>。/>为奖励值，为空中基站在状态/>时执行动作/>获得的奖励值，其与前述公式中的/>对应。/>为折扣系数，一般为0.8。/>是使/>的值达到最大对应的/>值，/>表示空中基站在/>状态下执行/>行动后达到的下一个状态，/>表示空中基站在/>状态下的动作。可以看出，具体的更新过程即为对奖励值叠加的过程，并在最终完成叠加后使奖励值为不同行动策略对应的最终奖励值里的最大值。

从而，可以看出，对于马尔可夫决策模型的训练过程，即为在训练过程中，使训练输出的结果逐渐调整为奖励值最大的过程。从而，在其训练强化学习过程中，并不会对马尔可夫决策模型的六元组的相关参数进行调整，其调整的是每一次选择的每个动作的权重，通过该调整，使选出的每个时隙的动作，为最终得到的总体的奖励值最大服务。即，在一些实施例中，所述马尔可夫决策模型的训练过程，包括：将预设智能体及对应训练状态信息的集合作为训练集；选取所述训练集中任意所述智能体及对应的所述训练状态信息，输入所述马尔可夫决策模型进行强化学习训练，判断输出的部署路线是否符合预设的奖励条件，根据判断结果对所述马尔可夫决策模型的模型参数进行调整，以此循环，直至满足预设停止条件，以完成所述马尔可夫决策模型的训练。其中，预设的奖励条件即为整体叠加完成后的奖励值是否为不同行动策略方案中的最大值。基于此，对于训练或循环的终止，其可以是在达到训练条件时终止，即输出的部署路线达到奖励值最大化。当然，在一些具体场景中，为了防止训练或循环无限期的执行，可以设置一个最大的循环次数，例如1000次等，当循环达到该次数时，同样认为完成了训练。即，在一些实施例中，所述直至满足预设停止条件，包括：循环达到预设次数；或所述马尔可夫决策模型输出的部署路线达到奖励值最大化。

步骤106，输出所述移动策略，使所述空中基站能够根据所述移动策略进行移动部署。

在本步骤中，在得到相应的移动策略之后，即可进行输出操作，同时更新行动策略矩阵。这里的输出方式可以是给对应的空中基站，是其执行相应的移动。当然在另一些实施例中，对于移动策略的输出方式可以不仅限于输出给相应空中基站，其还可以用以存储、使用或再加工该移动策略。根据不同的应用场景和实施需要，具体的对于移动策略的输出方式可以灵活选择。

例如，对于本实施例的方法在单一设备上执行的应用场景，可以将移动策略直接在当前设备的显示部件（显示器、投影仪等）上以数据文件的方式显示输出，使得当前设备的操作者能够从显示部件上直接看到移动策略的内容。

又如，对于本实施例的方法在多个设备组成的系统上执行的应用场景，可以将移动策略通过任意的数据通信方式（有线连接、NFC、蓝牙、wifi、蜂窝移动网络等）发送至系统内的其他作为接收方的预设设备上，即同步终端上，以使得同步终端可以对其进行后续处理。可选的，该同步终端可以是预设的服务器，服务器一般设置在云端，作为数据的处理和存储中心，其能够对移动策略进行存储和分发；其中，分发的接收方是终端设备，该些终端设备的持有者或操作者可以是空中基站的维修人员、整个通讯网络的维修人员、监管人员等等。

再如，对于本实施例的方法在多个设备组成的系统上执行的应用场景时，可以将移动策略通过任意的数据通信方式直接发送至预设的终端设备，终端设备可以是前述段落列举中的一种或多种。

从上述实施例可以看出，本申请实施例提供的一种空中基站部署方法，包括：响应于获取到对至少一个空中基站的移动部署请求，确定空中基站的状态信息；其中，状态信息至少包括：对空中基站服务的目标区域范围栅格化后，确定的每个空中基站所在的栅格位置，以及空中基站对每个栅格的服务时隙；将状态信息输入至完成训练的马尔可夫决策模型中，以根据马尔可夫决策模型确定空中基站在栅格位置实现奖励最大化的移动策略；其中，马尔可夫决策模型的奖励函数由能效奖励、及时性奖励及传输奖励组成；输出移动策略，使空中基站能够根据移动策略进行移动部署。本申请通过对目标区域范围进行栅格化，以此来确定空中基站的服务范围及部署节点，之后利用马尔可夫决策模型进行移动部署策略奖励最大化的计算，其利用能效奖励、及时性奖励及传输奖励组成的奖励函数能够使规划后的空中基站的移动策略能够显著提高覆盖能效，有效提高覆盖性能，从而为空中基站提供了更为合理的部署策略，最终提升了空中基站的用户使用体验。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本申请实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一构思，与上述任意实施例方法相对应的，本申请还提供了一种协同系统。

参考图2，所述协同系统，包括：

至少一个用户终端210；

至少一个地面基站220，用于与覆盖范围内的所述用户终端210建立连接；

至少一个空中基站230，用于在所述地面基站220的覆盖范围内辅助进行与所述用户终端210的连接，在所述地面基站220的覆盖范围外与所述用户终端210建立连接，并执行如上任意一实施例所述的空中基站部署方法。

在一些实施例中，对于地面基站220，在最大发射功率范围内，覆盖半径为/>的区域，在每个时隙下，随机为/>范围内的用户提供服务，如图2所示，其中椭圆范围即为对应的地面基站220的覆盖范围。此外，为了保证服务同步，空中基站230和地面基站220的一个服务时隙大小相同，且空中基站230和地面基站220之间不存在同信道干扰。同时，如图2所示，虚线表示为对应的空中基站230的覆盖范围。

之后，上述实施例的协同系统用于实现前述实施例中相应的空中基站部署方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

最后，在一些具体场景中，为了验证本实施例系统的能效及覆盖增强的性能，进行了相应的模拟实验进行对比参照。具体的，模拟场景区域的大小设定为15km×15km，空中基站和地面基站的初始位置随机设定。地面用户服从泊松簇分布，每个地面用户将遵循移动模型的设置。在每个时隙随机选择一个方向并移动一个步长，地面基站的数量设置为5个。将地面用户的用户终端的每个内容块的大小设置为25Mbits。所有地面用户的用户终端的内容块数量为60。这意味着每个地面用户必须获得至少60个服务时隙来传输所有内容块。

在模拟实验中，将空中基站的部署高度设为1.5km，空中基站的波束宽度为60度。因此，将网络区域划分为1km×1km的栅格网格。仿真实验的软硬件平台为Wins 10和Spyder软件，CPU为8核Intel(R) Core(TM) i7，主频为2.4GHz，内存为32GB。

为了验证示例性方法的性能，在前述模拟场景中，进行了不同基站数量下覆盖能效与用户数量的模拟实验。

在仅使用地面基站提供覆盖服务的情况下，实验结果表明网络覆盖能效基本不随用户数量的增加而变化。然而，在使用空中基站提供覆盖服务时的实验结果表明，网络覆盖能效随着用户数量的增加而增加。具体来说，在用户数量分别为200和1000的情况下，5个空中基站的覆盖能效比5个地面基站分别提高了30%和147.7%。此外，网络中的空中基站数量越多，覆盖能效就越高，这是因为在广域覆盖场景中，地面基站需要增加发射功率来克服路径损耗，以覆盖距离较远的用户，因此会导致更高的能耗。然而，空中基站具有高度动态性，可以按需部署到任何有服务需求的地方，此外，它还可以通过优化部署策略进一步提高覆盖能效。实验结果表明，在提供广域覆盖服务的情况下，与地面网络提供的覆盖服务相比，通过在网络中加入空中基站可以显著提高覆盖能效，同时还能有效提高覆盖性能。

为了进一步验证提出的示例性方法的性能，将该方法与顺序服务算法进行了比较，即在不同数量的空中基站上，覆盖能效随用户数量的变化而变化。在顺序服务算法中，每个空中基站从起点出发，顺序移动到每个有用户分布的栅格进行服务，而地面基站只服务覆盖范围内的用户。

从进一步的模拟实验的结果可以看出，不同方式下的覆盖能效随网络中用户数量的增加而同步增加。在不同用户数量下，提出的示例性方法所获得的覆盖能效始终远高于顺序服务算法。当用户数量为800时，示例性方法比使用7个空中基站的顺序服务算法提高了92.6%的覆盖效率。在使用5个空中基站的情况下，示例性方法比顺序服务算法的覆盖效率提高了96%。这是因为示例性方法在空中和地面网络之间进行了协同计算，能够更敏锐地捕捉到网络的动态变化，从而大大提高了覆盖能效。此外，与顺序服务算法相比，示例性方法的覆盖能效增益随着网络用户数量的增加而同步增长。这一结果表明，示例性方法能更好地适应网络动态变化的场景。此外，与顺序服务算法相比，示例性方法大大提高了覆盖能效。

基于同一构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一实施例所述的空中基站部署方法。

图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备、动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的空中基站部署方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任意一实施例所述的空中基站部署方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的空中基站部署方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一构思，与上述任意实施例方法相对应的，本申请还提供了一种计算机程序产品，其包括计算机程序指令。在一些实施例中，所述计算机程序指令可以由计算机的一个或多个处理器执行以使得所述计算机和/或所述处理器执行所述的空中基站部署方法。对应于所述的空中基站部署方法各实施例中各步骤对应的执行主体，执行相应步骤的处理器可以是属于相应执行主体的。

上述实施例的计算机程序产品用于使所述计算机和/或所述处理器执行如上任一实施例所述的空中基站部署方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围（包括权利要求）被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路（IC）芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的（即，这些细节应当完全处于本领域技术人员的理解范围内）。在阐述了具体细节（例如，电路）以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构（例如，动态RAM（DRAM））可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种空中基站部署方法，其特征在于，包括：

输出所述移动策略，使所述空中基站能够根据所述移动策略进行移动部署；

其中，所述奖励函数，具体为：

；

其中，表示在状态集合/>下空中基站/>在服务时隙/>的奖励函数，/>表示能效奖励，/>表示及时性奖励，/>表示传输奖励，/>和/>表示预设的奖励权重，/>表示在服务时隙/>时空中基站/>的舒适度，/>表示对应栅格内的用户集合，/>表示用户集合内的用户，/>表示在服务时隙/>时空中基站/>对用户/>的服务系数，/>表示在服务时隙时空中基站/>对用户/>的能效，/>表示服务时隙/>时所述目标区域范围内进行网络连接的用户总人数，/>表示在服务时隙/>时用户/>的传输内容大小，。

2.根据权利要求1所述的方法，其特征在于，所述对所述空中基站服务的目标区域范围栅格化，包括：

确定所述空中基站的飞行高度及信号波束宽度；

所述覆盖范围，具体为

；

所述栅格划分的栅格大小，具体为

；

其中，表示一个栅格的边长大小。

3.根据权利要求2所述的方法，其特征在于，所述空中基站对每个栅格的服务时隙，具体为：

；

4.根据权利要求1所述的方法，其特征在于，所述马尔可夫决策模型，具体为：由组成的六元组模型；其中，/>表示作为智能体的空中基站的集合，表示空中基站的状态集合，/>表示空中基站/>的状态集合，表示空中基站的行动集合，/>表示空中基站/>的行动集合，/>表示状态转移概率集合，/>表示空中基站的奖励集合，/>表示空中基站/>的奖励集合，/>表示所有服务时隙的集合。

5.根据权利要求4所述的方法，其特征在于，所述马尔可夫决策模型的训练过程，包括：

将预设智能体及对应训练状态信息的集合作为训练集；

6.根据权利要求5所述的方法，其特征在于，所述直至满足预设停止条件，包括：

循环达到预设次数；

或

所述马尔可夫决策模型输出的部署路线达到奖励值最大化。

7.一种协同系统，其特征在于，包括：

至少一个用户终端；

至少一个空中基站，用于在所述地面基站的覆盖范围内辅助进行与所述用户终端的连接，在所述地面基站的覆盖范围外与所述用户终端建立连接，并执行如权利要求1至6任一项所述的空中基站部署方法。

8.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至6任一项所述的方法。

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机实现权利要求1至6任一项所述的方法。