CN116634450A

CN116634450A - 一种基于强化学习的动态空地异构网络用户关联增强方法

Info

Publication number: CN116634450A
Application number: CN202310493523.3A
Authority: CN
Inventors: 杨清海; 艾宝; 冯旭旸
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-08-22

Abstract

本申请涉及通信网络技术领域，具体而言，涉及一种基于强化学习的动态空地异构网络用户关联增强方法，可以解决在空地一体化的异构网络动态场景下，用户与基站的关联问题。所述方法包括：构建空地异构网络，并初始化网络的参数，所述空地异构网络包括地面宏基站、地面小基站、空中基站及地面用户；基于所述空地异构网络对系统信道及信道容量进行建模；确定最大化网络容量的最优化问题及限定条件；通过Q学习增强算法，对所述最优化问题进行求解，得到最优用户关联解。

Description

一种基于强化学习的动态空地异构网络用户关联增强方法

技术领域

本申请涉及通信网络技术领域，具体而言，涉及一种基于强化学习的动态空地异构网络用户关联增强方法。

背景技术

随着通信技术的发展，网络架构逐渐变化，空天一体化网络被提出，将采用多层次、异构化的网络架构；空地一体化异构网络是一种结合了地面网络和空中网络的新型网络体系，面向无线通信领域，新型的空地异构的网络结构，能有效提高网络的可靠性，增加网络的带宽及信道容量，解决爆炸的用户服务需求。

然而，空地异构网络场景下的用户关联、资源分配问题依然备受关注，新型的网络结构下存在多种不同类型的基站和终端，会产生复杂的用户关联问题，新型网络结构的优势和特点需要新的用户关联策略来发挥其效益，用户关联策略能够优化用户的接入选择，最大化系统效益，同时避免资源的浪费，提高整体网络的覆盖范围和质量。

但是，网络结构的变化为用户关联策略带来了新的挑战，在空地一体化的异构网络场景中，用户分布的非均匀性引起了地面基站部署的非均匀性，这导致用户与基站的空间相关性变得十分复杂，同时，空中基站与用户的双重移动性、网络结构的异构性和多频带的交织都为用户关联策略带来一定的困难。

因此，如何在新的新的网络环境中对网络系统资源进行合理的分配，如何使用户在复杂的网络结构中选择合适的接入点，是提升网络整体性能，保障用户服务质量不可忽视的问题。

发明内容

为了解决在空地一体化的异构网络动态场景下，用户与基站的关联问题，本申请提供了一种基于强化学习的动态空地异构网络用户关联增强方法。

本申请的实施例是这样实现的：

本申请提供一种基于强化学习的动态空地异构网络用户关联增强方法，包括：

构建空地异构网络，并初始化网络的参数，所述空地异构网络包括地面宏基站、地面小基站、空中基站及地面用户；

基于所述空地异构网络对系统信道及信道容量进行建模；

确定最大化网络容量的最优化问题及限定条件；

通过Q学习增强算法，对所述最优化问题进行求解，得到最优用户关联解。

在一种可能的实现方式中，所述构建空地异构网络，并初始化网络的参数，所述空地异构网络包括地面宏基站、地面小基站、空中基站及地面用户，包括：

给定所述空中基站的集合为UAV＝{UAV_m,m＝1,2,...,N_UAV}，所述地面基站的集合为GBS＝{GBS_g,g＝1,2,...,N_GBS}，总体基站的集合为BS＝{BS_i,i＝1,2,...,N_GBS+N_UAV}，所述地面用户的集合为US＝{US_k,k＝1,2,...,N_US}；

其中，N_UAV为所述空中基站的数量，N_GBS为所述地面基站的数量，N_US为所述地面用户的数量，所述地面基站包括所地面宏基站及所述地面小基站，所述总体基站包括所述地面基站及所述空中基站。

在一种可能的实现方式中，在所述构建空地异构网络，并初始化网络的参数，所述空地异构网络包括地面宏基站、地面小基站、空中基站及地面用户，包括：

给定所述空中基站的波束宽度为φ，所述空中基站对于地面的覆盖范围半径为r＝H₂tan(φ/₂)；

其中，H₂为无人机的飞行高度；

所述空中基站的运动轨迹为以所述地面宏基站为圆心，半径为R₁的圆周运动，(x_m(t),y_m(t))为t时刻的所述空中基站的位置坐标，为所述空中基站在t时刻的位置，所空中基站的速度为/>

其中，R₁为地面宏基站的覆盖半径，为单个所述空中基站的移动速度。

在一种可能的实现方式中，所述构建空地异构网络，并初始化网络的参数，所述空地异构网络包括地面宏基站、地面小基站、空中基站及地面用户，还包括：

给定每个所述地面用户的移动速度为移动角度为/>所述用户的移动速度及所述移动角度实时更新，设置参数T为所述空地异构网络的更新时隙，每T秒更新所述地面宏基站、所述地面小基站、所述空中基站及所述地面用户的速度及角度，并重新生成网络拓扑。

在一种可能的实现方式中，所述基于所述空地异构网络对系统信道及信道容量进行建模，包括：

给定所述地面用户在t时刻的位置为US_k(t)及所述地面基站在t时刻的位置为GBS_g(t)，所述地面用户与所述地面基站之间的距离为

其中，H₁为所述地面基站的高度；

基于网络的跨域性与异构性，地面通信的信道增益需要同时考虑大尺度衰落与小尺度衰落，在t时刻，所述地面用户与所述地面基站之间的独立信道增益为其中，/>为小尺度衰落分量；

根据Jakes模型，将小尺度衰落分量表示为一阶复高斯马尔可夫过程：

其中，ρ＝J₀2πf_dT，J₀(·)是第一类零阶贝塞尔函数，y^t _(g→k)是具有单位方差的独立且同分布的圆对称复高斯随机变量；

所述大尺度衰落分量为所述大尺度衰落分量与所述地面基站与所述地面用户之间的距离呈反相关；

其中，β₀为参考的单位距离的信道功率增益，c表示光速，f_c表示载频。α₁表示地面用户与地面基站信道链路的路径衰落系数。

在一种可能的实现方式中，所述基于所述空地异构网络对系统信道及信道容量进行建模，还包括：

为保持一致性，所述空中基站的服务信道同样考虑大尺度衰落和小尺度衰落，给定所述空中基站在t时刻的位置为UAV_m(t)，所述地面用户与所述空中基站之间的距离为

其中，H₂为空中基站的高度；

类比所述地面基站的信道模型定义，在t时刻，所述地面用户与所述空中基站之间的信道增益为

其中，α₂为地面用户与空中基站信道链路的路径衰落系数，满足关系α₁＞α₂≥2。

所述地面用户与所述总体基站之间的信噪比为

其中，P_i ^t为所述总体基站在时隙t的发射功率，表示在t时隙，所述总体基站在所述地面用户处接收到的干扰功率；

其中，则表示所述地面用户，所受到的来自所述总体基站的接收功率，N₀表示加性高斯白噪声功率，所述空地异构网络中接入所述总体基站的所述地面用户数量表示为/>

所述总体基站与所述地面用户之间的传输速率为

其中，W_i表示所述总体基站分得的频谱资源；

在同一个基站下的所有用户均分带宽资源，系统的总信道容量为

在一种可能的实现方式中，所述确定最大化网络容量的最优化问题及限定条件，包括：

给定所述总体基站与所述地面用户关联问题的解为矩阵A：

其中，a_i,k表示所述地面用户与所述总体基站关联的二进制参数，当所述地面用户关联所述总体基站时,a_i,k＝1，否则a_i,k＝0；

确定所述最大化网络容量的最优化问题为：

其中，C1为对所述空中基站的运动轨迹的限定，C2为对所述总体基站所服务的用户数量不能超过当前基站的最大连接数MA_i的限定，C3为对用户的关联进行的限定，保证同一时隙每个用户有且仅有一个基站进行下行数据传输。

11.在一种可能的实现方式中，所述通过Q学习增强算法，对所述最优化问题进行求解，得到最优用户关联解，包括：

将用户关联问题分解为元组所述元组/>为马尔可夫决策过程中的多个部分，其中，/>表示智能体，/>表示空地基站所收集的用户关联状态，/>表示智能体的采取的动作，/>表示即时奖励函数；

将Q值函数表设计为Z_max×E格式的表格，其中，表格行数为Z_max，表示总体的状态空间数，E为表格列数，表示某一状态S_z下总体的动作选择个数，E＝N_US(N_GBS+N_UVA)，而则表示状态/>下，动作/>被选择的Q值；

基于元组及Q值函数表，得到所述地面用户与所述总体基站的最优用户关联解。

本申请提供的技术方案至少可以达到以下有益效果：

本申请提供的基于强化学习的动态空地异构网络用户关联增强方法，上述基于强化学习的动态空地异构网络用户关联增强方法，考虑了空地异构网络场景中，空中基站与地面基站的联合处理，特别考虑了空中基站与地面用户的双重移动性，通过强化学习的方法对空地异构网络的用户关联问题进行求解，通过Q值表的训练迭代，获得最大化信道容量的用户关联解，并能够在空地异构网络基站覆盖范围重叠的情况下，保证最优整体网络容量的用户关联问题，并且还对Q学习中Q值函数表、动作选择、奖励函数进行了改进，加速了用户关联算法的收敛，降低了算法的耗时，有效的加快了收敛速度、提升了网络整体容量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一示例性实施例示出的一种基于强化学习的动态空地异构网络用户关联增强方法的流程示意图；

图2是本申请一示例性实施例示出的构建空地异构网络，并初始化网络的参数的流程示意图；

图3是本申请一示例性实施例示出的基于空地异构网络对系统信道及信道容量进行建模的流程示意图；

图4是本申请一示例性实施例示出的确定最大化网络容量的最优化问题及限定条件的流程示意图；

图5是本申请一示例性实施例示出的通过Q学习增强算法，对所述最优化问题进行求解，得到最优用户关联解的流程示意图；

图6是本申请一示例性实施例示出的通过Q学习增强算法得到最优用户关联解的流程示意图；

图7是本申请一示例性实施例示出的一种基于强化学习的动态空地异构网络用户关联增强方法的系统模型示意图；

图8是本申请一示例性实施例示出的一种Q学习增强算法的流程示意图；

图9是本申请一示例性实施例的Q学习增强算法与Q学习普适算法对比示意图；

图10是本申请一示例性实施例与现有技术的系统信道容量对比示意图。

具体实施方式

为了使本申请的目的、实施方式和优点更加清楚明白，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，所描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例，应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

在对本申请实施例提供的基于强化学习的动态空地异构网络用户关联增强方法进行解释说明之前，先对本申请实施例的应用场景和实施环境进行介绍。

随着通信技术的发展，网络架构逐渐变化，空天一体化网络被提出，将采用多层次、异构化的网络架构。

空地一体化异构网络是一种结合了地面网络和空中网络的新型网络体系，面向无线通信领域，其与传统的蜂窝网络相比，具有以下几个优势：

首先，空地一体化异构网络可以通过空中网络的部署，实现更广泛的覆盖范围。同时，空中网络的灵活性和高可靠性，可以保障网络在各种复杂环境下的连通性。

其次，空地一体化异构网络集成了地面网络和空中网络，可以更充分地利用频谱资源，实现更高的数据速率和容量。尤其是在高密度用户区域和临时场景中，空中网络可以提供更大的容量和更高的速率。

最后，空地一体化异构网络可以根据不同的应用场景，选择最优的通信方式，从而实现更低的延迟和能耗。比如，在高速移动的车辆场景下，空中网络可以提供更低的延迟和更高的带宽。

综上所述，新型的空地异构的网络结构，能有效提高网络的可靠性，增加网络的带宽及信道容量，解决爆炸的用户服务需求。

但是，在空地异构网络场景下的用户关联、资源分配问题依然备受关注，新型的网络结构下存在多种不同类型的基站和终端，会产生复杂的用户关联问题。

新型网络结构的优势和特点需要新的用户关联策略来发挥其效益，用户关联策略能够优化用户的接入选择，最大化系统效益，同时避免资源的浪费，提高整体网络的覆盖范围和质量。

然而，网络结构的变化为用户关联策略带来了新的挑战，在空地一体化的异构网络场景中，用户分布的非均匀性引起了地面基站部署的非均匀性，这导致用户与基站的空间相关性变得十分复杂。

同时，空中基站与用户的双重移动性、网络结构的异构性和多频带的交织都为用户关联策略带来一定的困难。

现有关于空地异构网络下用户关联策略的研究指标主要集中在空中基站的覆盖范围以及能量消耗，且多数研究考虑的场景为静态场景，对空中基站和地面用户的双重移动性考虑较少。

面对愈发复杂的网络结构，考虑一种新型的场景对于当今无线通信有着重要意义。

空地一体化异构的无线通信网络，与地面网络有着显著的差异，其存在多种不同类型的基站，基站覆盖重叠问题更为复杂。

空地网络需要考虑不同的信道，分别构建不同的信道信息模型。同时新型空地异构网络的动态特性更加明显，空中基站以及地面用户移动迅速，需要快速策略产出。新型的网络场景需要与之适配的用户关联策略，以匹配其动态场景，提高整体网络信道容量。

基于此，本申请提供了一种基于强化学习的动态空地异构网络用户关联增强方法，针对于空地一体化异构网络场景，考虑复杂网络结构下的用户关联方法。即在空中基站和地面蜂窝异构网络同时存在的场景下进行用户关联，考虑了空地网络不同的信道特征，考虑了地面用户与空中基站的双重移动性，制定了网络容量最大化的优化问题，并提出了一种动态空地异构网络下的基于Q学习的用户关联算法，通过Q学习的训练，获得场景模型下的最优用户关联解。

考虑的场景主要包含空中无人机基站、地面宏基站、地面小基站、以及移动用户，基站覆盖的重叠性和非对称性以及空中基站与地面基站的双重移动性是该场景下提升信道容量的主要挑战。

接下来，将通过实施例并结合附图具体地对本申请的技术方案，以及本申请的技术方案如何解决上述技术问题进行详细说明。各实施例之间可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。显然，所描述的实施例是本申请实施例一部分实施例，而不是全部的实施例。

图1是本申请一示例性实施例示出的一种基于强化学习的动态空地异构网络用户关联增强方法的流程示意图。

在一个示例性实施例中，如图1所示，提供了一种基于强化学习的动态空地异构网络用户关联增强方法，本实施例中，该方法可以包括以下步骤：

步骤100：构建空地异构网络，并初始化网络的参数，所述空地异构网络包括地面宏基站、地面小基站、空中基站及地面用户；

步骤200：基于所述空地异构网络对系统信道及信道容量进行建模；

步骤300：确定最大化网络容量的最优化问题及限定条件；

步骤400：通过Q学习增强算法，对所述最优化问题进行求解，得到最优用户关联解。

可以看出，本实施例基于强化学习的方法对空地异构网络的用户关联问题进行求解。通过Q值表的训练迭代，获得最大化信道容量的用户关联解，该方法对Q学习中Q值函数表、动作选择、奖励函数进行了改进。有效的加快了收敛速度、提升了网络整体容量。

图2是本申请一示例性实施例示出的构建空地异构网络，并初始化网络的参数的流程示意图，图7是本申请一示例性实施例示出的一种基于强化学习的动态空地异构网络用户关联增强方法的系统模型示意图。

在一种可能的实现方式中，如图2所示，所述构建空地异构网络，并初始化网络的参数，所述空地异构网络包括地面宏基站、地面小基站、空中基站及地面用户，包括：

步骤110：给定所述空中基站的集合为UAV＝{UAV_m,m＝1,2,...,N_UAV}，所述地面基站的集合为GBS＝{GBS_g,g＝1,2,...,N_GBS}，总体基站的集合为BS＝{BS_i,i＝1,2,...,N_GBS+N_UAV}，所述地面用户的集合为US＝{US_k,k＝1,2,...,N_US}。

其中，在初始化网络的各个参数时，需要设定一个空地一体化的多层异构，网络场景，如图7所示，在本实施例的空地异构网络中，包括地面宏基站、地面小基站、空中基站及地面用户，空中基站使用无人机提供，N_UAV为所述空中基站的数量，N_GBS为所述地面基站的数量，N_US为所述地面用户的数量，所述地面基站包括所地面宏基站及所述地面小基站，所述总体基站包括所地面基站及所述空中基站，在本实施例的网络中，空中基站主要起到扩大通信覆盖范围的作用，为场景的边缘地带进行服务。

步骤120：给定所述空中基站的波束宽度为φ，所述空中基站对于地面的覆盖范围半径为r＝H₂tan(^φ/₂)；

步骤130：所述空中基站的运动轨迹为以所述地面宏基站为圆心，半径为R₁的圆周运动，(x_m(t),y_m(t))为t时刻的所述空中基站的位置坐标，为所述空中基站在t时刻的位置，所空中基站的速度由速度集合/>来进行确定。

其中，H₂为无人机的飞行高度，R₁为地面宏基站的覆盖半径，为单个所述空中基站的移动速度。

在一种可能的实现方式中，如图2所示，所述构建空地异构网络，并初始化网络的参数，所述空地异构网络包括地面宏基站、地面小基站、空中基站及地面用户，还包括：

步骤140：给定每个所述地面用户的移动速度为移动角度为/>所述用户的移动速度及所述移动角度实时更新，设置参数T为所述空地异构网络的更新时隙，每T秒更新所述地面宏基站、所述地面小基站、所述空中基站及所述地面用户的速度及角度，并重新生成网络拓扑。

其中，用户的移动速度及角度都会实时更新，且遇到边缘后，假设用户将往反方向运动。

可以看出，通过以上假设所处地区海拔一致，不存在盆地或山峰的情况，并假设无人机基站飞行高度固定，能够模拟空中基站与地面用户的双重移动性。

图3是本申请一示例性实施例示出的基于空地异构网络对系统信道及信道容量进行建模的流程示意图。

在一种可能的实现方式中，如图3所示，所述基于所述空地异构网络对系统信道及信道容量进行建模，包括：

步骤210：给定所述地面用户在t时刻的位置为US_k(t)及所述地面基站在t时刻的位置为GBS_g(t)，所述地面用户与所述地面基站之间的距离为

步骤220：基于网络的跨域性与异构性，地面通信的信道增益需要同时考虑大尺度衰落与小尺度衰落，在t时刻，所述地面用户与所述地面基站之间的独立信道增益为

步骤230：根据Jakes模型，将小尺度衰落分量表示为一阶复高斯马尔可夫过程：/>

步骤240：所述大尺度衰落分量为所述大尺度衰落分量与所述地面基站与所述地面用户之间的距离呈反相关。

其中，H₁为所述地面基站的高度，为小尺度衰落分量，||是绝对值运算，ρ＝J₀2πf_dT，J₀(·)是第一类零阶贝塞尔函数，/>是具有单位方差的独立且同分布的圆对称复高斯随机变量，β₀为参考的单位距离的信道功率增益，c表示光速，f_c表示载频。α₁表示地面用户与地面基站信道链路的路径衰落系数。

在一种可能的实现方式中，如图3所示，所述基于所述空地异构网络对系统信道及信道容量进行建模，还包括：

步骤250：为保持一致性，所述空中基站的服务信道同样考虑大尺度衰落和小尺度衰落，给定所述空中基站在t时刻的位置为UAV_m(t)，所述地面用户与所述空中基站之间的距离为

步骤260：类比所述地面基站的信道模型定义，在t时刻，所述地面用户与所述空中基站之间的信道增益为

其中，H₂为空中基站的高度，α₂为地面用户与空中基站信道链路的路径衰落系数，满足关系α₁＞α₂≥2。

步骤270：所述地面用户与所述总体基站之间的信噪比为

其中，P_i ^t为所述总体基站在时隙t的发射功率，表示在t时隙，所述总体基站在所述地面用户处接收到的干扰功率，/>则表示所述地面用户，所受到的来自所述总体基站的接收功率，N₀表示加性高斯白噪声功率，所述空地异构网络中接入所述总体基站的所述地面用户数量表示为/>

步骤280：所述总体基站与所述地面用户之间的传输速率为：

步骤290：在同一个基站下的所有用户均分带宽资源，系统的总信道容量为：

其中，W_i表示所述总体基站分得的频谱资源。

图4是本申请一示例性实施例示出的确定最大化网络容量的最优化问题及限定条件的流程示意图。

在一种可能的实现方式中，如图4所示，所述确定最大化网络容量的最优化问题及限定条件，包括：

步骤310：给定所述总体基站与所述地面用户关联问题的解为矩阵A：

步骤320：确定所述最大化网络容量的最优化问题及限定条件为：

C1为对所述空中基站的运动轨迹的限定，对无人机的运动轨迹进行了限定，假设无人机运动轨迹先验已知，围绕场景边缘进行迅速圆周运动。此外，本发明考虑动态场景，对时隙进行分割化处理，场景信息每T秒进行一次更新；

C2为对所述总体基站所服务的用户数量不能超过当前基站的最大连接数MA_i的限定；

C3为对用户的关联进行的限定，保证同一时隙每个用户有且仅有一个基站进行下行数据传输。

图5是本申请一示例性实施例示出的通过Q学习增强算法，对所述最优化问题进行求解，得到最优用户关联解的流程示意图。

在一种可能的实现方式中，如图5所示，所述通过Q学习增强算法，对所述最优化问题进行求解，得到最优用户关联解，包括：

步骤410：将用户关联问题分解为元组所述元组/>为马尔可夫决策过程中的多个部分；

步骤420：将Q值函数表设计为Z_max×E格式的表格；

步骤430：基于元组及Q值函数表，得到所述地面用户与所述总体基站的最优用户关联解。

其中，表示智能体，本策略由核心网来承担决策者的任务。将用户关联问题看作是每个用户与所有基站的多对一的相互连接问题，整个网络的用户关联状态信息由空中基站和地面基站进行收集，决策者的任务就是在每次的迭代过程中通过算法流程更新Q值函数表；

表示空地基站所收集的用户关联状态，这里的状态由网络整体的关联矩阵A来承担，从而保证关联状态的连续性。其中Z表示状态上限个数，通过计算可以得出/>状态空间的元素组成Q值函数表的每一行，状态空间的个数即为Q值函数表的总行数；

表示智能体的采取的动作，每个元素的含义为某个用户US_k选择了某一个基站BS_i进行接入。其中，E表示动作空间的个数，经计算可得到动作空间总个数为E＝N_US(N_GBS+N_UVA)。动作空间的元素构成Q值函数表的每一列，动作空间元素的个数即为Q值函数表的总列数；

表示即时奖励函数，奖励函数正相关于前后两次迭代的整体网络容量的差值，且会随着时间以及迭代次数的增长逐步下降；

图6是本申请一示例性实施例示出的通过Q学习增强算法得到最优用户关联解的流程示意图，图8是本申请一示例性实施例示出的一种Q学习增强算法的流程示意图。

如图6及图8所示，通过Q学习增强算法得到最优用户关联解的整体流程包括：

步骤431：初始化网络场景以及Q-Learning的相关参数，相关参数包括用户和基站的数量和位置、训练次数EPOCH、迭代次数LOOP、学习率α、折扣因子γ、动作选择概率ε等；

步骤432：判断迭代次数，如果是第一次迭代，通过最近关联算法生成当前状态，并将作为初始状态。否则将上一次的迭代状态作为当前状态；

步骤433：对空中基站、地面基站进行数据收集，并将将当前状态输入至智能体/>中，智能体/>根据Q值函数表，执行本发明提出的增强的动作选择策略，输出当前所改变的用户US_k以及该用户改变后的基站选择BS_i，即最优用户关联解。

在上述实施例中，增强的动作选择策略分为两个部分：

随机选择要改变的用户US_k；

选择用户US_k将要更换的基站。

基站选择策略包括随机探索基站选择策略、信噪比最大的贪心基站选择策略、Q值最大的基站选择策略，三种策略的概率分布分别为P_a，P_b，P_c，并且P_a+P_b+P_c＝1，三种策略的概率通过如下公式确定：

其中，ε为动作选择概率，θ为调节参数，与场景规模有关，cnt表示当前迭代次数，即cnt＝(EPCHO*loop)+epcho。CNT表示循环次数的上限，即CNT＝EPCHO*LOOP。

在一种可能的实现方式中，所述信噪比最大的贪心基站选择策略，包括每个用户US_k对动作BS_i的选择概率为：

通过QQ学习增强算法对以上选择的动作进行判断，如果通过该动作的改变，整体的信道容量有所提升，返回该动作。否则，返回旧动作，保证整体的信道容量不断提升。

利用如下公式计算前后系统的整体信道容量的差值，作为当前状态执行所选择动作后的奖励值。

其中，F表示计算整体网络系统信道容量的函数，A_t表示动作执行前的关联矩阵，而A_t+1表示动作策略执行后的关联矩阵。

若若奖励为正数，对奖励值取整并作为奖励，通过如下公式更新Q值表。当奖励值为负数时，令R_t＝-1，同样通过如下公式进行Q值函数表的更新。

通过饱和判断方法进行判断，如果判定当前环境已饱和则直接退出循环。当迭代次数达到上限后，同样退出循环，结束算法流程。否则，保存当前状态S_z回到算法的状态选择环节，并以所保存的状态S_z继续进行循环迭代，直到结束退出得到最终Q值函数表。

Q值函数表的行代表某一时刻的状态信息，也就是关联矩阵A_t，而Q值函数表的列则代表当前状态将改变的用户US_k所能够选择的动作基站，Q值即为用户US_k选择该动作基站的期望值，经过奖励函数的约束，Q值的最大值就对应着最优的基站动作选择，按照Q表最大值，将关联矩阵A_t按照Q表最大值进行遍历更新，即可得到最佳的用户关联策略，即最优用户关联解。

本申请的一些实施例，应用于动态空地异构网络场景下，基于Q学习的用户关联方法，建立了空地一体化的异构网络下行传输链路模型，网络主要包括空中基站、地面小基站、地面宏基站、移动用户，着重考虑了空中基站与用户的双重移动性，以最大化系统网络容量为目标，优化用户和基站的关联结果，提升网络整体性能。

并且在空地异构网络场景下，基于Q学习的用户关联增强方法。本发明针对空地异构网络场景的特殊性以及地面用户与空中基站的双重移动性，对Q学习算法进行了增强设计，以适应动态场景，更快的提升网络容量，加速收敛过程。

与现有技术对比，为体现本申请的有效性，在相同的空地异构场景下，将本申请的一些实施例与文献《Prioritized User Association for Sum-Rate Maximization inUAV-Assisted Emergency Communication:A Reinforcement Learning Approach》所提出的用户关联算法进行对比，主要体现为二者在整体信道方面的差异，仿真参数如表1所示，由于其算法具有一定普适性，暂称之为Q学习普适算法，

表1仿真参数

图9是本申请一示例性实施例的Q学习增强算法与Q学习普适算法对比示意图，如图9所示，为100个用户下，基于Q学习的用户关联增强算法与Q学习普适算法的收敛对比图，结果证明了本发明算法在动态场景下的稳定性和适应性。

本申请的一些实施例在适应设定的场景时进行了三个方面的优化，一是初始用户关联的Q表，二是动作选择策略，三是奖励回报函数。本发明仿真实验场景在仿真区域为1000m×1000m的网络场景下，共设置一个宏基站和三个小基站，并设置三个空中基站。用户分布同时考虑随机性以及用户的群集属性。60％部分用户服从泊松分布，随机生成在网络的各个区域，模拟用户分布的随机性。而40％的用户密集的分布在小基站周围，模拟小区存在的情况。

图10是本申请一示例性实施例与现有技术的系统信道容量对比示意图，如图10所示，给出四种关联方式的网络容量性能比较，随着用户数目的增多，Q学习增强算法和Q学习普适算法的网络容量相对较高，远大于传统的最近关联和最大信噪比关联算法，在用户为100时基本达到饱和。本发明提出的Q学习增强算法的信道容量到达了1361.1(Mbps)，Q学习普适算法的信道容量达到了1345(Mbps)，而最大信噪比的连接算法仅有892(Mbps)。Q学习增强算法较最大信噪比关联算法，提升了68％的信道容量，对比最近关联策略有着72％的提升，对比Q学习普适算法，也有着1.5％的提升。

应该理解的是，虽然上述实施例所涉及的流程图中的各个步骤按照指示依次显示，但是这些步骤并不是必然按照指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述的实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的动态空地异构网络用户关联增强方法，其特征在于，包括：

基于所述空地异构网络对系统信道及信道容量进行建模；

确定最大化网络容量的最优化问题及限定条件；

2.如权利要求1所述的基于强化学习的动态空地异构网络用户关联增强方法，其特征在于，所述构建空地异构网络，并初始化网络的参数，所述空地异构网络包括地面宏基站、地面小基站、空中基站及地面用户，包括：

3.如权利要求2所述的基于强化学习的动态空地异构网络用户关联增强方法，其特征在于，在所述构建空地异构网络，并初始化网络的参数，所述空地异构网络包括地面宏基站、地面小基站、空中基站及地面用户，包括：

给定所述空中基站的波束宽度为φ，所述空中基站对于地面的覆盖范围半径为r＝H₂tan(φ/2)；

其中，H₂为无人机的飞行高度；

4.如权利要求1所述的基于强化学习的动态空地异构网络用户关联增强方法，其特征在于，所述构建空地异构网络，并初始化网络的参数，所述空地异构网络包括地面宏基站、地面小基站、空中基站及地面用户，还包括：

5.如权利要求2所述的基于强化学习的动态空地异构网络用户关联增强方法，其特征在于，所述基于所述空地异构网络对系统信道及信道容量进行建模，包括：

其中，H₁为所述地面基站的高度；

6.如权利要求5所述的基于强化学习的动态空地异构网络用户关联增强方法，其特征在于，所述基于所述空地异构网络对系统信道及信道容量进行建模，还包括：

其中，H₂为空中基站的高度；

7.如权利要求6所述的基于强化学习的动态空地异构网络用户关联增强方法，其特征在于，所述基于所述空地异构网络对系统信道及信道容量进行建模，还包括：

所述地面用户与所述总体基站之间的信噪比为

且

其中，则表示所述地面用户，所受到的来自所述总体基站的接收功率，N₀表示加性高斯白噪声功率，所述空地异构网络中接入所述总体基站的所述地面用户数量表示为

8.如权利要求7所述的基于强化学习的动态空地异构网络用户关联增强方法，其特征在于，所述基于所述空地异构网络对系统信道及信道容量进行建模，包括：

所述总体基站与所述地面用户之间的传输速率为

其中，W_i表示所述总体基站分得的频谱资源；

9.如权利要求2所述的基于强化学习的动态空地异构网络用户关联增强方法，其特征在于，所述确定最大化网络容量的最优化问题及限定条件，包括：

给定所述总体基站与所述地面用户关联问题的解为矩阵A：

确定所述最大化网络容量的最优化问题为：

10.如权利要求9所述的基于强化学习的动态空地异构网络用户关联增强方法，其特征在于，所述通过Q学习增强算法，对所述最优化问题进行求解，得到最优用户关联解，包括：