CN114630335B

CN114630335B - 时效性保障的低能耗高动态空中网络覆盖方法

Info

Publication number: CN114630335B
Application number: CN202210239072.6A
Authority: CN
Inventors: 盛敏; 骆文磊; 刘俊宇; 李建东; 史琰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2023-09-08
Anticipated expiration: 2042-03-11
Also published as: CN114630335A

Abstract

本发明公开了一种时效性保障的低能耗高动态空中网络覆盖方法，主要解决现有技术无法保障高动态空中网络通信覆盖下用户服务时效性的问题。其方案是：组装配置m个空中基站，并构建能与空中基站通信的中心节点；在中心节点中根据目标网络场景的时效性要求设置不同权重的时效保障因子，并定义覆盖服务质量奖励函数；栅格化空中基站的服务区域，并在栅格中初始化空中基站的起始点；中心节点与各个空中基站进行交互并利用交互信息和奖励函数进行强化学习训练；各空中基站按照中心节点训练出来的覆盖策略对地面用户进行覆盖。本发明能保障不同业务场景下的能耗和时效性要求，可用于空中无线通信网络中的空中基站的高动态部署策略设计。

Description

时效性保障的低能耗高动态空中网络覆盖方法

技术领域

本发明属于无线通信技术领域，更进一步涉及一种空中网络覆盖方法，可用于空中无线通信网络中的空中基站的高动态部署策略设计。

背景技术

利用无人机搭载通信基站构成的空中基站由于其高动态性弥补了地面基站位置受限的缺点，所以空中基站能够更加灵活的部署在地面基站受限的地方以提供通信覆盖。但同时也带来了负载和能量受限的问题。此外，由于空中基站的覆盖范围具有局限性，使得网络中的用户在服务过程中并不连续，而不同的网络场景对服务过程中的时效性要求不同，所以如何在覆盖过程中保障用户服务时效性的同时降低网络能耗，对于空中网络在具体实际场景中的应用具有重要意义。

时效性主要从用户侧和网络侧两个方面来体现：从用户侧来说，时效性表示单用户得到服务的时间间隔长短，时效性越高，单用户得到服务的时间间隔越短，时效性越低，单用户得到服务的时间间隔越长；从网络侧来说，时效性表示当前网络下的所有用户得到的均匀程度，时效性越高，代表所有用户得到的服务越均匀，时效性越低，代表所有用户得到的服务次数的差距越大。

北京理工大学在其申请号为：202010340648.9的专利文献中公开了“一种集群无人机区域覆盖的空中基站网络部署方法”，该方法通过无人机不断的获取目标区域的信息量分布，并对目标区域的信息量进行评估，然后不断的更新无人机的位置，得到当前信息量分布下的最优部署方式，以实现对目标区域信息的动态覆盖。但是该方法的不足之处在于不适用于未知的网络环境以及动态的网络场景，而且在覆盖过程中没有考虑到无人机的能耗问题，大大降低了无人机的续航时间，使其应用大大受限。

北京信息科技大学在申请号为：202111092233.5的专利文献中，公开了“一种基于无人机群覆盖优化的智能集群方法”，提出了以群智能优化算法来优化无人机基站的部署问题,使得无人机的对地覆盖最大化，可找出无人机对地覆盖率的最优解。该方法的不足之处在于在覆盖过程中只考虑了吞吐量提升而没有考虑到无人机的能耗问题，因为空中基站的能量是十分有限的，所以在对地覆盖的过程中考虑如何降低无人机的能耗从而延长无人机的续航服务服务时间很有必要。

湖南智领通信科技有限公司在其申请号为202010197732.X的专利文献中公开了一种“辅助智能物联网覆盖增强的无人机轨迹优化方法及系统”，该方法通过结合已知的地面物联网终端设备位置、服务质量需求等信息，得出无人机的最佳轨迹以保障服务质量；同时还通过协调系统内的总能量消耗和系统总吞吐量之间的关系，实现对无人机轨迹的优化。该方法虽然考虑到了无人机能耗以及各终端设备的服务质量需求这些信息，但由于该覆盖方法是建立在已知终端设备位置以及服务质量需求之上的，因而使得其应用大受限制。

此外，上述方法均没有考虑不同业务场景下通信覆盖的时效保障性要求，因为不同业务场景下对数据服务的时效性有不同的要求，比如在保障网络中多用户的数据通信时，强调的是用户之间得到服务的公平性；而在类似物联网数据采集的这种场景下，更多的是强调单用户完成服务的快速性，根据不同业务场景动态调整数据服务的时效性，可以提升网络性能并扩大方法的应用范围，如不能保障数据服务的时效性，将对网络性能造成很大的影响。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种时效性保障的低能耗高动态空中网络覆盖方法，，通过设置不同权重的时效保障因子，并根据空中基站与外部环境的交互，不断优化空中基站的部署策略，保障不同业务场景下的能耗和时效性要求，提高覆盖性能。

为实现上述目的，本发明的实现方案包括如下：

(1)在m个无人机上均搭载基站模块、微型处理器模块、收发台以及存储模块，构成m个空中基站，并调试飞行；

(2)从m个空中基站中任选出一个作为中心节点或在地面构建中心节点，并调试中心节点与空中基站之间的通信；

(3)对中心节点初始化：

(3a)在中心节点中初始化空中基站的状态动作矩阵，同时根据目标网络场景的时效性要求设置不同权重的用户侧时效保障因子α₁和网络侧时效保障因子α₂，并定义覆盖服务质量奖励函数：R^T＝α₁S₁ ^T+α₂S₂ ^T+S₃ ^T,

其中，S₁ ^T表示从用户侧得到的奖励大小；S₂ ^T表示从网络侧得到的奖励大小；S₃ ^T是奖励基础项，其表示空中基站在当前时隙进行服务得到的能效大小；

(3b)设置最大学习次数λ，并设置当前学习次数为η＝0；

(4)对空中基站的服务区域采用栅格法将其分割成N×N的栅格；

(5)在栅格中初始化各空中基站的起始点；

(6)中心节点与各个空中基站进行信息交互，并利用交互获取到的信息进行强化学习：

(6a)各个空中基站将当前位置坐标以及当前时刻作为空中基站的当前状态信息发送给中心节点；

(6b)中心节点根据各个空中基站的当前状态信息以及状态动作矩阵，采用ε-greedy策略为空中基站选择下一步动作；

(6c)空中基站执行所选择的动作，到达下一个栅格中心处并为位于该栅格内的用户进行数据服务，再将这些用户的硬件地址信息以及当前时刻发送给中心节点；

(6d)中心节点根据空中基站返回的信息通过覆盖服务质量奖励函数进行计算，获得相应的奖励；

(6e)中心节点结合当前状态动作矩阵以及获得的奖励按照强化学习更新策略对状态动作矩阵进行更新；

(7)判断所有用户的数据服务需求是否被满足:

如果所有用户的数据服务需求得到满足，则本轮学习结束，当前学习次数η＝η+1，执行步骤(8)

否则，所有用户的服务需求没有被满足，返回步骤(6)。

(8)判断当前学习次数是否达到最大次数：

如果是，则各空中基站按照状态动作矩阵对地面进行覆盖；

否则，返回步骤(5)。

本发明与现有技术相比，具有以下优点：

第一，本发明由于在强化学习的奖励函数设计中，综合考虑了空中基站能耗与时效性之间的关系，因而可在降低能耗的同时保障业务的时效性要求，进一步提升了覆盖性能。

第二，本发明可以通过设置不同权重的用户侧时效保障因子α₁和网络侧时效保障因子α₂，对时效性进行动态调整，进而可为不同业务场景下的时效性提供保障，大大提高了应用范围。

附图说明

图1是本发明的实现总流程图；

图2是本发明中进行强化学习训练的子流程图；

图3是本发明和现有方法的仿真结果图。

具体实施方式

下面结合附图对本发明的实施例和效果作进一步的详细描述。

参照图1，本实例的实现步骤如下：

步骤1，组装配置空中基站。

1.1)选择旋翼无人机，其包括机身主体、动力装置、电源装置，存储装置及处理器；

1.2)构建由基站控制器和基站收发台组成基站模块，用于对地面用户进行数据服务；

1.3)选取微型处理器模块，用于计算调整空中基站的动态覆盖策略，及空中基站飞行轨迹的控制；

1.4)构建由天线和通信模块组成收发台，用于无人机之间的数据传输，并通过回程接入地面核心网；

1.5)选取存储模块，用于存储采集到的数据；

1.6)将基站模块、微型处理器模块、收发台以及存储模块，搭载在旋翼无人机上，构成空中基站，本实例共设m个空中基站，m≥2。

步骤2，构建中心节点，并调试空中基站与中心节点之间的通信。

2.1)构建中心节点：

中心节点的构建下面有以下两种方式：

方式一：从m个空中基站中任选出一个定为中心节点，然后调试中心节点与其它空中基站之间的通信，该中心节点亦是对用户进行数据服务的空中基站之一；

方式二：通过在地面部署一台接入核心网的处理器构建成中心节点，该中心节点通过卫星或地面回程等方式与空中基站进行通信；

2.2)通过调试收发台，使得中心节点能够与其它各个空中基站之间相互通信。

步骤3，对中心节点初始化。

3.1)在中心节点中初始化空中基站的状态动作矩阵，同时根据目标网络场景的时效性要求设置不同权重的用户侧时效保障因子α₁和网络侧时效保障因子α₂，并定义覆盖服务质量奖励函数：R^T＝α₁S₁ ^T+α₂S₂ ^T+S₃ ^T,

其中，S₁ ^T表示从用户侧得到的奖励大小；S₂ ^T表示从网络侧得到的奖励大小；S₃ ^T是奖励基础项，其表示空中基站在当前时隙进行服务得到的能效大小；分别定义如下：

S₂ ^T＝(STD(C₀ ^T-1,C₁ ^T-1,...,C_i ^T-1,...,C_n ^T-1)-STD(C₀ ^T,C₁ ^T,...,C_i ^T,...,C_n ^T))，

其中，G_i ^T为第i个用户到时刻T为止，每次得到服务与上一次得到服务的时间间隔；C_i ^T为第i个用户到时刻T为止得到服务的次数，i＝0,1,...,n,n表示用户总数，N(T)表示到时刻T为止所有空中基站提供数据服务的总比特数，E(T)表示到时刻T为止所有空中基站所消耗的能量，MEAN()表示平均值计算公式，STD()表示标准差计算公式。

3.2)设置最大学习次数λ，并设置当前学习次数为η＝0。

步骤4，将服务区域进行栅格化处理并定义空中基站的动作集合。

4.1)将服务区域划分为10×10的栅格，共10行、共10列；

4.2)将空中基站往前移动一个栅格的动作行为定义为u，将空中基站往后移动一个栅格的动作行为定义为d，将空中基站往左移动一个栅格的动作行为定义为l，将空中基站往右移动一个栅格的动作行为定义为r，将空中基站保持原位置不动的行为定义为h，移动时只能从当前栅格中心移动到下一栅格中心；

4.3)将空中基站移动动作不同动作定义空中基站的动作集合a，即a∈{u,d,l,r,h}。

步骤5，在栅格中初始化各空中基站的起始点。

随机初始化m个空中基站的初始栅格，即将每个初始位置位于栅格中心的正上方；空中基站飞行到初始栅格中心的正上方，并开始为栅格内的用户进行数据服务。

步骤6，中心节点与各个空中基站进行信息交互，并利用交互获取到的信息进行强化学习训练。

参照图2，本步骤具体实现如下：

6.1)各个空中基站将当前位置坐标以及当前时刻作为空中基站的当前状态信息发送给中心节点；

6.2)中心节点根据各个空中基站的当前状态信息以及状态动作矩阵，采用ε-greedy策略为空中基站选择下一步动作：

(6.2.1)中心节点设定概率ε∈[0,1]，并生成随机数k∈[0,1]；

(6.2.2)判断k是否大于ε：

若k≤ε，则中心节点依据空中基站的状态信息从状态动作矩阵中选择收益最大的动作来执行，对于存在多个动作都能获得最大收益的情况,则从所有能够获得最大收益的动作中随机选择一个来执行；

否则，中心节点随机选择一个动作来执行。

6.3)空中基站执行所选择的动作，到达下一个栅格中心处并为位于该栅格内的用户提供数据服务；

(6.3.1)空中基站执行所选择的动作并达到下一个栅格中心；

(6.3.2)空中基站为当前栅格内的用户提供数据服务；

(6.3.3)服务完成后将用户的硬件地址信息、提供数据服务的总比特数、能量消耗以及当前时刻发送给中心节点；

6.4)中心节点根据空中基站返回的信息，对G_i ^T和C_i ^T进行更新，并根据覆盖服务质量奖励函数计算奖励。

6.5)中心节点结合当前状态动作矩阵以及获得的奖励按照强化学习更新策略对状态动作矩阵按如下公式进行更新：

Q′(s,a)＝(1-α)·Q(s,a)+ω·(r(s,a)+γ·Q(s′,argmax_a′Q(s′,a′)))

其中，Q(s,a)为状态s下空中基站采取动作a在状态动作矩阵中对应的值；

s′为空中基站采取动作a之后到达的下一个状态；

a′为空中基站在s′要采取的下一个动作；

r(s,a)为步骤6.5)中空中基站在状态s按照ε-greedy策略执行动作a所获得的奖励；

ω为学习率，是一个大于0小于1的正数；

γ为折现因子，值为0.7；

argmax_a′Q(s′,a′)为使得Q(s′,a′)值最大时对应的a′值；

Q′(s,a)为Q(s,a)更新后的值。

步骤7，判断所有用户的对数据服务需求的满足情况。

7.1)判断所有用户的服务需求是否被满足：

如果所有用户的数据全部上传完毕，则所有用户的服务需求得到满足，本轮学习结束，当前学习次数加1，执行步骤7.2)

否则，则返回步骤6。

7.2)判断当前学习次数是否达到最大次数：

如果是，则执行步骤8；

否则，返回步骤5。

步骤8，空中基站按照学习到的状态动作矩阵对地面进行覆盖，完成空中基站的对地面用户覆盖服务。

8.1)各个空中基站从各自的初始点开始，根据当前自己所处的状态从状态动作矩阵中进行当前状态下奖励最大的一个动作来执行，并进入到下一个状态；

8.2)在服务完当前栅格的用户之后，重复执行8.1)，直至所有用户都服务完成。

下面结合仿真实验对本发明方法的效果做进一步的说明：

1.仿真实验条件：

仿真实验的应用平台为：处理器为4核Intel(R)Core(TM)i5-1135G7，主频为2.4GHz，内存16GB。

仿真实验的软件平台为：Windows10操作系统和Spyder软件。

仿真实例的目标区域大小设为10km×10km，在该区域中部署了3个空中基站对200个用户进行跟踪覆盖，每个用户需要被覆盖50个时隙才算服务完成，空中基站对地覆盖的天线方位角设计为60°，空中基站的部署高度约为850米，此时空中基站对地覆盖的区域大小约为1km×1km的区域。为模拟实际场景，20％的用户在场景中随机分布，其余用户在随机确定的10个点的周围分布。空中基站的初始位置随机产生，上升到指定高度之后按照算法的策略进行服务和部署。

在仿真中，网络能耗的指标用能量效率来体现，能量效率越高，表示系统的能耗越低，能量效率越低，表示系统的能耗越高。网络侧的时效性用网络侧方差来体现，统计的是各用户完成服务所用时间的方差，方差越大，表示各用户完成服务所用时间的差异性越大，时效性越低；方差越小，表示各用户完成服务所用时间的差异性越小，时效性越高；用户侧的时效性用用户侧方差来体现，统计的是单用户得到服务时间间隔的方差，方差越大，表示单用户得到服务的时间间隔越大，时效性越低；方差越小，表示单用户得到服务的时间间隔越大，时效性越低。

2.仿真内容与结果分析：

在上述仿真条件下，分别用本发明在三种不同权重下的与现有循环遍历算法对网络中的用户进行覆盖服务，并对能效、用户侧方差以及网络侧方差进行对比，其中第一种权重中设α₁＝0,α₂＝1，第二种权重中设α₁＝0.5,α₂＝0.5，第三种权重中设α₁＝1,α₂＝0，结果如图3，其中：

图3(a)表示本发明在三种不同权重下的方法与对比算法之间的能效对比图。从图3(a)中可以看出，在不同的权重下，本发明方法的能效始终高于对比算法，而且随着用户侧时效保障因子α₁权重的上升，网络的能效越高。

图3(b)为本发明在三种不同权重下的方法与对比算法的用户侧方差对比图。从图3(b)中可以看出，在不同的权重下，本发明方法的用户侧方差始终低于对比算法，而且随着用户侧时效保障因子α₁权重的上升，方差变小，时效性也越好。

图3(c)为本发明在三种不同权重下的方法与对比算法的网络侧方差对比图。从图3(c)中可以看出，在不同的权重下，本发明方法的网络侧方差始终低于对比算法，而且随着网络侧时效保障因子α₂权重的上升，方差变小，时效性也越好。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种时效性保障的低能耗高动态空中网络覆盖方法，其特征在于，包括如下步骤：

(1)在m个无人机上均搭载基站模块、微型处理器模块、收发台以及存储模块，构成m个空中基站；

(3)对中心节点初始化：

其中服务质量奖励函数所涉及的三种奖励，分别定义如下：

其中，G_i ^T为第i个用户到时刻T为止，每次得到服务与上一次得到服务的时间间隔；C_i ^T为第i个用户到时刻T为止得到服务的次数，i＝0,1,...,n,n表示用户总数，N(T)表示到时刻T为止所有空中基站提供数据服务的总比特数，E(T)表示到时刻T为止所有空中基站所消耗的能量，MEAN()表示平均值计算公式，STD()表示标准差计算公式；

(3b)设置最大学习次数λ，并设置当前学习次数为η＝0；

(4)对空中基站的服务区域采用栅格法将其分割成N×N的栅格；

(5)在栅格中初始化各空中基站的起始点；

(6)中心节点与各个空中基站进行信息交互，并利用交互获取到的信息进行强化学习训练：

(6c)空中基站执行所选择的动作，到达下一个栅格中心处并为位于该栅格内的用户进行数据服务，再将用户硬件地址等信息发送给中心节点；

(7)判断所有用户的数据服务需求是否被满足：

否则，所有用户的服务需求没有被满足，返回步骤(6)；

(8)判断当前学习次数是否达到最大次数：

如果是，则各空中基站按照状态动作矩阵对地面进行覆盖；

否则，返回步骤(5)。

2.根据权利要求1所述的方法，其特征在于，(1)中构成空中基站的无人机及各模块结构如下：

所述无人机，为旋翼无人机，其包括机身主体、动力装置、电源装置，存储装置及处理器；

所述基站模块，包括基站控制器和基站收发台，用于对地面用户进行数据服务；

所述微型处理器模块，用于计算调整空中基站的动态覆盖策略，及空中基站飞行轨迹的控制；

所述收发台，包括天线和通信模块，可用于无人机之间的数据传输，并通过回程接入地面核心网；

所述存储模块，用于存储采集到的数据。

3.根据权利要求1所述的方法，其特征在于，步骤(2)中在地面构建中心节点，是通过在地面部署一台接入核心网的处理器构建成中心节点,空中基站通过卫星或地面回程的方式接入核心网与中心节点进行通信。

4.根据权利要求1所述的方法，其特征在于，(3a)中的状态动作矩阵，表示为Q(S,A)，其中S表示空中基站所有可能处于的状态,A表示空中基站所有可能执行的动作,其值表示空中基站在不同状态下执行不同动作所能够获得的收益大小。

5.根据权利要求1所述的方法，其特征在于，(6b)中的ε-greedy策略依次选择下一步动作，实现如下：

(6b1)中心节点设定概率ε∈[0,1]，并生成随机数x∈[0,1]；

(6b2)判断x是否大于ε：

若x≤ε，则中心节点依据空中基站的状态信息从状态动作矩阵中选择收益最大的动作来执行，对于存在多个动作都能获得最大收益的情况,则从所有能够获得最大收益的动作中随机选择一个来执行；