CN113286314A

CN113286314A - 一种基于q学习算法的无人机基站部署及用户关联方法

Info

Publication number: CN113286314A
Application number: CN202110572664.5A
Authority: CN
Inventors: 柴蓉; 高艺帆; 赵兰馨; 陈前斌
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-20
Anticipated expiration: 2041-05-25
Also published as: CN113286314B

Abstract

本发明涉及一种基于Q学习算法的无人机基站部署及用户关联方法，属于无线通信技术领域。该方法包括：S1：建模用户关联标识；S2：建模用户及基站位置；S3：建模用户移动模型；S4：建模用户传输速率；S5：建模系统回报函数；S6：建模用户关联及传输速率限制条件；S7：建模满足限制条件的系统长期回报函数优化问题；S8：基于Q学习算法确定优化策略。本发明可以有效保证用户数据速率要求前提下，实现无人机部署及用户关联策略的优化设计。

Description

一种基于Q学习算法的无人机基站部署及用户关联方法

技术领域

本发明属于无线通信技术领域，涉及一种基于Q学习算法的无人机基站部署及用户关联方法。

背景技术

近年来，由于无人机制造技术的发展和成本的降低，无人机已广泛应用于民用和商业领域。在无线通信系统中使用无人机基站已经受到越来越多的关注，与传统地面通信系统相比，通过对无人机基站的灵活高效部署可以有效提升通信系统性能以及用户业务体验。相关研究表明，无人机基站的部署位置将对系统性能产生显著的影响。

目前已有文献针对无人机基站部署问题进行研究，如提出了一种基于覆盖用户数量最大化的无人机部署策略；但现有研究较少考虑动态环境中蜂窝网络联合无人机基站部署及用户关联问题；此外，现有研究较少考虑无人机基站位置部署的长期优化，以实现系统长期性能优化。

发明内容

有鉴于此，本发明的目的在于提供一种基于Q学习算法的无人机基站部署及用户关联方法，针对包含多个基站(Base Station，BS)、一个无人机基站以及多个用户(UserEquipment，UE)的蜂窝移动通信系统，建模系统长期回报函数为优化目标，实现无人机基站部署及用户关联策略。

为达到上述目的，本发明提供如下技术方案：

一种基于Q学习算法的无人机基站部署及用户关联方法，包括以下步骤：

S1：建模用户关联标识；

S2：建模用户及基站位置；

S3：建模用户移动模型；

S4：建模用户传输速率；

S5：建模系统回报函数；

S6：建模用户关联及传输速率限制条件；

S7：建模满足限制条件的系统长期回报函数优化问题；

S8：基于Q学习算法确定优化策略。

进一步，步骤S1中，建模用户关联标识，具体包括：令Ω＝{UE₁,...,UE_m,...,UE_M}表示用户集合，其中UE_m表示第m个用户，1≤m≤M，M为用户数目；令Γ＝{BS₁,…,BS_n,…,BS_N}表示蜂窝基站集合，其中BS_n表示第n个蜂窝基站，1≤n≤N，N为蜂窝基站数目；令β_mn∈{0,1}表示用户关联蜂窝基站标识，β_mn＝1表示用户UE_m关联蜂窝基站BS_n进行数据传输，否则β_mn＝0；令

表示用户关联无人机基站标识，

表示用户UE_m关联无人机基站进行数据传输，否则

进一步，步骤S2中，建模用户及基站位置，具体包括：将系统空间进行三维离散化处理，令x_max、y_max、h_max分别为三维网格中行、列、高的最大点数，用户与蜂窝基站的高度均为0，故可用二维网格点描述，令(x_m,y_m)表示用户UE_m的二维空间位置，0≤x_m≤x_max，0≤y_m≤y_max；令

表示蜂窝基站BS_n的位置，

建模无人机基站位置为(x^u,y^u,h^u)，0≤x^u≤x_max，0≤y^u≤y_max，h_min≤h^u≤h_max，h_min为无人机允许的最低高度。

进一步，步骤S3中，建模用户移动模型为随机移动模型，令v_m,t表示时隙t用户UE_m的移动速率，θ_m,t表示时隙t用户UE_m的移动方向，v_m与θ_m均为均匀分布随机变量，v_m取值范围为[0,v_max]，θ_m取值范围为[0,2π]。

进一步，步骤S4中，建模用户传输速率，具体包括：

1)建模时隙t用户UE_m与蜂窝基站BS_n之间链路的传输速率为R_m,n,t＝B log₂(1+SINR_m,n,t)，其中B为蜂窝基站BS_n分配给用户UE_m的信道带宽，SINR_m,n,t表示t时刻用户UE_m与蜂窝基站BS_n之间链路的信干噪比，定义为

其中P_m表示用户UE_m的发送功率，σ²表示噪声功率，h_m,n,t表示时隙t用户UE_m与基站BS_n之间的信道增益，定义为h_m,n,t＝c(d_m,n,t)^-2，c为常数，

I_m,n,t表示基站间的同频干扰，建模为

2)建模时隙t用户UE_m与无人机基站之间的传输速率为

其中

表示t时刻用户UE_m与无人机基站之间链路的信干噪比，

表示t时刻用户UE_m与无人机基站之间的信道增益，定义为

c为常数，

为无人机基站处的干扰，建模为

进一步，步骤S5中，建模系统回报函数，具体包括：建模t时刻系统回报函数为t时刻用户总传输速率R_t，即

建模系统长期的平均回报函数

进一步，步骤S6中，建模用户关联及传输速率限制条件，具体包括：用户关联标识需满足

用户传输速率限制条件为

其中

为满足用户UE_m需求的门限值，R_m,t建模为

进一步，步骤S7中，建模满足限制条件的系统长期回报函数优化问题，具体包括：在满足用户关联标识及传输速率限制条件下，以系统长期平均回报函数R最大化为目标，确定无人机基站的最优位置及用户关联策略，即

进一步，步骤S8中，确定优化策略，具体包括：基于Q学习算法求解满足限制条件的系统长期平均回报函数最大化问题，建模系统动态变化为马尔可夫决策过程(MarkovDecision Process，MDP)模型；定义状态空间

为时隙t各用户的位置，定义动作空间为

其中，若β_mn＝1，z_m＝n；若

z_m＝N+1，1≤m≤M；定义Q函数为Q(s_t,a_t)＝α[R_t+1+γmaxQ(s_t+1,a)-Q(s_t,a_t)]，其中s_t为t时刻系统状态，a_t为t时刻采取的动作，a为系统采取的动作，α∈(0,1)为学习速率，γ∈(0,1)为折扣因子，各时刻对Q函数迭代更新，可确定对应长期平均回报函数优化的无人机基站部署及用户关联策略，即

本发明的有益效果在于：本发明可以有效保证每个请求用户最小数据速率要求前提下，无人机部署及用户关联策略最优，实现系统长期平均回报函数最大化。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为具有无人机基站的蜂窝网络场景示意图；

图2为本发明基于Q学习算法的无人机基站部署及用户关联方法的流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图2，图1为具有无人机基站的蜂窝移动网络场景示意图，如图1所示，本实施网络中存在多个基站，多个请求用户，一个无人机基站，网络中请求用户可以根据信道条件和服务质量等灵活选择关联策略，同时，无人机基站根据系统长期平均回报函数最大化选择最优位置。

图2为本发明基于Q学习算法的无人机基站部署及用户关联方法的流程示意图，如图2所示，该方法具体包括以下步骤：

1)建模用户关联标识

建模用户关联标识，令Ω＝{UE₁,...,UE_M}表示用户集合，其中UE_m表示第m个用户，1≤m≤M，M为用户数目；令Γ＝{BS₁,...,BS_N}表示蜂窝基站集合，其中BS_n表示第n个蜂窝基站，1≤n≤N，N为蜂窝基站数目；令β_mn∈{0,1}表示用户关联蜂窝基站标识，β_mn＝1表示用户UE_m关联蜂窝基站BS_n进行数据传输，否则β_mn＝0；令

表示用户关联无人机基站标识，

表示用户UE_m关联无人机基站进行数据传输，否则

2)建模用户及基站位置

建模用户及基站位置，将系统空间进行三维离散化处理，令x_max、y_max、h_max分别为三维网格中行、列、高的最大点数，用户与蜂窝基站的高度均为0，故可用二维网格点描述，令(x_m,y_m)表示用户UE_m的二维空间位置，0≤x_m≤x_max，0≤y_m≤y_max；令

表示蜂窝基站BS_n的位置，

3)建模用户移动模型

建模用户移动模型为随机移动模型，令v_m,t表示时隙t用户UE_m的移动速率，θ_m,t表示时隙t用户UE_m的移动方向，v_m与θ_m均为均匀分布随机变量，v_m取值范围为[0,v_max]，θ_m取值范围为[0,2π]。

4)建模用户传输速率

建模用户传输速率，时隙t用户UE_m与蜂窝基站BS_n之间链路的传输速率为R_m,n,t＝Blog₂(1+SINR_m,n,t)，其中B为蜂窝基站BS_n分配给用户UE_m的信道带宽，SINR_m,n,t表示t时刻用户UE_m与蜂窝基站BS_n之间链路的信干噪比，定义为

其中P_m表示用户UE_m的发送功率，h_m,n,t表示t时刻用户UE_m与基站BS_n之间的信道增益，定义为h_m,n,t＝c(d_m,n,t)^-2，c为常数，

σ²表示噪声功率，I_m,n,t表示基站间的同频干扰，建模为

时隙t用户UE_m与无人机基站之间的传输速率为

表示t时刻用户UE_m与无人机基站之间链路的信干噪比，

表示t时刻用户UE_m与无人机基站之间的信道增益，定义为

c为常数，

为无人机基站处的干扰，建模为

5)建模系统回报函数

建模系统回报函数，令R_t为t时刻系统回报函数，建模R_t为t时刻用户总传输速率，即

为确定无人机基站的最优位置及用户关联策略，建模系统长期平均回报函数

6)建模用户关联及传输速率限制条件

建模用户关联及传输速率限制条件，用户关联标识需满足

用户传输速率限制条件为

其中

为满足用户UE_m需求的门限值，R_m,t建模为

7)建模满足限制条件的系统长期回报函数优化问题

建模满足限制条件的系统长期回报函数优化问题，在满足用户关联及传输速率限制条件下，以系统长期平均回报函数最大化为目标，确定无人机基站的最优位置及用户关联策略，即

8)基于Q学习算法确定优化策略

基于Q学习确定满足限制条件的系统长期平均回报函数最大化策略，建模系统动态变化为马尔可夫决策过程(Markov Decision Process，MDP)模型；定义状态空间

为时隙t各用户的位置，定义动作空间为

其中，若β_mn＝1，z_m＝n；若

z_m＝N+1，1≤m≤M；定义Q函数为

其中s_t为t时刻系统状态，a_t为t时刻采取的动作，a为系统采取的动作，α∈(0,1)为学习速率，γ∈(0,1)为折扣因子，各时刻对Q函数迭代更新，可确定对应长期回报函数优化的无人机基站部署及用户关联策略，即

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于Q学习算法的无人机基站部署及用户关联方法，其特征在于，该方法包括以下步骤：

S1：建模用户关联标识；

S2：建模用户及基站位置；

S3：建模用户移动模型；

S4：建模用户传输速率；

S5：建模系统回报函数；

S6：建模用户关联及传输速率限制条件；

S7：建模满足限制条件的系统长期回报函数优化问题；

S8：基于Q学习算法确定优化策略。

2.根据权利要求1所述的无人机基站部署及用户关联方法，其特征在于，步骤S1中，建模用户关联标识，具体包括：令Ω＝{UE₁,...,UE_m,...,UE_M}表示用户集合，其中UE_m表示第m个用户，1≤m≤M，M为用户数目；令Γ＝{BS₁,…,BS_n,…,BS_N}表示蜂窝基站集合，其中BS_n表示第n个蜂窝基站，1≤n≤N，N为蜂窝基站数目；令β_mn∈{0,1}表示用户关联蜂窝基站标识，β_mn＝1表示用户UE_m关联蜂窝基站BS_n进行数据传输，否则β_mn＝0；令

表示用户关联无人机基站标识，

表示用户UE_m关联无人机基站进行数据传输，否则

3.根据权利要求2所述的无人机基站部署及用户关联方法，其特征在于，步骤S2中，建模用户及基站位置，具体包括：将系统空间进行三维离散化处理，令x_max、y_max、h_max分别为三维网格中行、列、高的最大点数，用户与蜂窝基站的高度均为0，故用二维网格点描述，令(x_m,y_m)表示用户UE_m的二维空间位置，0≤x_m≤x_max，0≤y_m≤y_max；令

表示蜂窝基站BS_n的位置，

4.根据权利要求3所述的无人机基站部署及用户关联方法，其特征在于，步骤S3中，建模用户移动模型为随机移动模型，令v_m,t表示时隙t用户UE_m的移动速率，θ_m,t表示时隙t用户UE_m的移动方向，v_m与θ_m均为均匀分布随机变量，v_m取值范围为[0,v_max]，θ_m取值范围为[0,2π]。

5.根据权利要求4所述的无人机基站部署及用户关联方法，其特征在于，步骤S4中，建模用户传输速率，具体包括：

I_m,n,t表示基站间的同频干扰，建模为

2)建模时隙t用户UE_m与无人机基站之间的传输速率为

其中

表示t时刻用户UE_m与无人机基站之间链路的信干噪比，

表示t时刻用户UE_m与无人机基站之间的信道增益，定义为

c为常数，

为无人机基站处的干扰，建模为

6.根据权利要求5所述的无人机基站部署及用户关联方法，其特征在于，步骤S5中，建模系统回报函数，具体包括：建模t时刻系统回报函数为t时刻用户总传输速率R_t，即

建模系统长期的平均回报函数

7.根据权利要求6所述的无人机基站部署及用户关联方法，其特征在于，步骤S6中，建模用户关联及传输速率限制条件，具体包括：用户关联标识需满足

用户传输速率限制条件为

其中

为满足用户UE_m需求的门限值，R_m,t建模为

8.根据权利要求7所述的无人机基站部署及用户关联方法，其特征在于，步骤S7中，建模满足限制条件的系统长期回报函数优化问题，具体包括：在满足用户关联标识及传输速率限制条件下，以系统长期平均回报函数R最大化为目标，确定无人机基站的最优位置及用户关联策略，即

9.根据权利要求8所述的无人机基站部署及用户关联方法，其特征在于，步骤S8中，确定优化策略，具体包括：基于Q学习算法求解满足限制条件的系统长期平均回报函数最大化问题，建模系统动态变化为马尔可夫决策过程模型；定义状态空间

为时隙t各用户的位置，定义动作空间为

(x^u,y^u,h^u)}，其中，若β_mn＝1，z_m＝n；若

z_m＝N+1，1≤m≤M；定义Q函数为Q(s_t,a_t)＝α[R_t+1+γmax Q(s_t+1,a)-Q(s_t,a_t)]，其中s_t为t时刻系统状态，a_t为t时刻采取的动作，a为系统采取的动作，α∈(0,1)为学习速率，γ∈(0,1)为折扣因子，各时刻对Q函数迭代更新，确定对应长期平均回报函数优化的无人机基站部署及用户关联策略，即