CN109495952B

CN109495952B - 一种蜂窝和无人机一体化网络的选择方法及装置

Info

Publication number: CN109495952B
Application number: CN201811353219.4A
Authority: CN
Inventors: 曹先彬; 杜文博; 席星; 杨朋; 肖振宇; 吴大鹏
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2020-04-24
Anticipated expiration: 2038-11-14
Also published as: US11102717B2; CN109495952A; US20200154349A1

Abstract

本发明提供了一种蜂窝和无人机一体化网络的选择方法及装置，方法包括：获取动态网络模型和动态用户模型；其中，动态网络模型至少包括：无人机网络的位置模型、蜂窝网络的容量模型以及无人机网络的容量模型，动态用户模型至少包括：用户的位置模型、传输速率模型；根据无人机网络的位置模型和用户的位置模型生成用户可接入网络集合；根据蜂窝网络的容量模型、无人机网络的容量模型、用户可接入网络集合以及传输速率模型生成随机事件向量；根据随机事件向量生成动作向量；根据动作向量和随机事件向量获得每个用户的个体效益；构建第一选择模型；根据第一选择模型获得动作概率的数值，以根据动作概率的数值确定用户选择接入的网络。

Description

一种蜂窝和无人机一体化网络的选择方法及装置

技术领域

本发明属于网络选择技术领域，更具体地，涉及一种蜂窝和无人机一体化网络的选择方法及装置。

背景技术

为了提供更好的网络数据服务，避免蜂窝网络出现拥塞现象，可以采用借助配备了收发机的低空无人机来卸载拥塞的蜂窝网络上的业务的方案。针对蜂窝和无人机一体化网络，为了充分地利用无人机资源，一个重要的挑战是如何进行高效公平的网络选择。

一种解决网络选择问题的方法是基于博弈论的方法。在基于博弈论的方法中，首先将网络选择问题构建为一个博弈，然后通过集中式/分布式的方法实现均衡。例如，Man等人在用户移动信息不完整的条件下，将网络选择问题构建为一个贝叶斯博弈。然后他们提出了一种具有良好收敛性的分布式方法来实现贝叶斯纳什均衡。

现有的基于博弈论的方法考虑了用户间的相互影响和竞争，然而，他们中绝大多数是在准静态或可预测的网络状态条件下研究网络选择问题。而蜂窝和无人机一体化网络具有高动态性并且网络状态难以预测，导致现有的基于博弈论的方法无法解决蜂窝和无人机一体化网络的选择问题。

发明内容

本发明提供一种蜂窝和无人机一体化网络的选择方法及装置，旨在解决由于蜂窝和无人机一体化网络具有高动态性并且网络状态难以预测，导致现有的基于博弈论的方法无法解决蜂窝和无人机一体化网络的选择问题。

第一方面，本发明提供一种蜂窝和无人机一体化网络的选择方法，包括：获取动态网络模型和动态用户模型；其中，动态网络模型至少包括：无人机网络的位置模型、蜂窝网络的容量模型以及无人机网络的容量模型，动态用户模型至少包括：用户的位置模型、传输速率模型；根据无人机网络的位置模型和用户的位置模型生成用户可接入网络集合；根据蜂窝网络的容量模型、无人机网络的容量模型、用户可接入网络集合以及传输速率模型生成随机事件向量，其中，用户可接入网络集合包括无人机网络和/或蜂窝网络；根据随机事件向量生成动作向量，动作向量用于表示用户选择接入无人机网络和/或蜂窝网络；根据动作向量和随机事件向量获得每个用户的个体效益；构建第一选择模型；其中，第一选择模型包括：第一目标函数和第一约束，第一目标函数为以个体效益的时间平均值为自变量的比例公平函数，第一约束至少包括：第一粗相关均衡约束、第一最小个体时间平均效益约束以及第一动作概率约束，第一粗相关均衡约束用于对个体效益的时间平均值和第一辅助变量进行约束，第一最小个体时间平均效益约束用于对个体效益的时间平均值进行约束，第一动作概率约束用于对在随机事件向量的条件下的动作概率进行约束；个体效益的时间平均值根据个体效益、随机事件概率和在随机事件向量的条件下的动作概率获得，在随机事件向量的条件下的动作概率为用户在随机事件向量发生的条件下执行动作向量的概率；随机事件的概率为随机事件发生的概率；根据第一选择模型获得动作概率的数值，以根据动作概率的数值确定用户选择接入的网络。

在本发明提供的网络选择方法中，获取动态网络模型和动态用户模型，基于获取动态网络模型和动态用户模型生成随机事件向量，根据随机事件向量和动作向量构建第一选择模型，根据第一选择模型获得动作概率的数值，以根据动作概率的数值确定用户选择接入的网络。解决了由于蜂窝和无人机一体化网络具有高动态性并且网络状态难以预测，导致现有的基于博弈论的方法无法解决蜂窝和无人机一体化网络的选择问题。

第二方面，本发明提供一种蜂窝和无人机一体化网络的选择装置，包括：收发机，用于获取无人机网络的容量信息、蜂窝网络的容量信息、用户可接入网络集合信息以及传输速率信息，以及向用户发送动作向量信息，以使用户根据动作向量信息确定接入网络；处理器，根据无人机网络的容量信息、蜂窝网络的容量信息、用户可接入网络集合信息、传输速率信息以及第四选择模型生成动作向量信息；其中，第四选择模型为总违反量的漂移与收益的差值小于等于惩罚上界量；总违反量的漂移根据总违反量的当前时隙的数值和总违反量的后一时隙的数值获得；总违反量的当前时隙的数值根据当前时隙第一虚拟量、当前时隙第二虚拟量以及当前时隙第三虚拟量获得；第一虚拟队列中当前时隙第一虚拟量根据第二粗相关均衡约束的前一时隙违反量和第一虚拟队列中前一时隙第一虚拟量生成，第二虚拟队列的当前时隙第二虚拟量根据第三辅助变量约束的前一时隙违反量和第二虚拟队列中前一时隙第二虚拟量生成，第三虚拟队列的当前时隙第三虚拟量根据第二最小个体时间平均效益约束的前一时隙违反量和第三虚拟队列中前一时隙第三虚拟量生成，其中，初始时隙第一虚拟量、初始时隙第二虚拟量以及初始时隙第三虚拟量均为零；其中，第三选择模型包括第三目标函数和第三约束，第三目标函数为以第三辅助变量为自变量的比例公平函数的时间平均期望，第三约束至少包括第二粗相关均衡约束、第二最小个体时间平均效益约束、第二辅助变量约束以及第三辅助变量约束，第二粗相关均衡约束用于对个体效益的时间平均期望和第二辅助变量的时间平均期望进行约束，第二最小个体时间平均效益约束用于对个体效益的时间平均期望进行约束，第二辅助变量约束用于对第二辅助变量进行约束，第三辅助变量约束用于对第三辅助变量的时间平均期望与个体效益的时间平均期望进行约束；其中，第一选择模型包括：第一目标函数和第一约束，第一目标函数为以个体效益的时间平均值为自变量的比例公平函数，第一约束至少包括：第一粗相关均衡约束、第一最小个体时间平均效益约束以及第一动作概率约束，第一粗相关均衡约束用于对个体效益的时间平均值和第一辅助变量进行约束，第一最小个体时间平均效益约束用于对个体效益的时间平均值进行约束，第一动作概率约束对约束用于对在随机事件向量的条件下的动作概率进行约束；个体效益的时间平均值根据个体效益、随机事件概率和在随机事件向量的条件下的动作概率动获得，在随机事件向量的条件下的动作概率为用户在随机事件向量发生的条件下执行动作向量的概率；每个用户的个体效益根据动作向量和随机事件向量获得；动作向量根据随机事件向量生成，随机事件向量根据蜂窝网络的容量模型、无人机网络的容量模型、用户可接入网络集合以及传输速率模型生成，用户可接入网络集合根据无人机网络的位置模型和用户的位置模型生成。

本发明提供的网络选择方法及装置，网络选择方法获取动态网络模型和动态用户模型，基于获取动态网络模型和动态用户模型生成随机事件向量，根据随机事件向量和动作向量构建第一选择模型，根据第一选择模型获得动作概率的数值，以根据动作概率的数值确定用户选择接入的网络。本发明构建了动态网络模型和动态用户模型，仿真了无人机和用户连接的高动态性，网络容量的波动性，和用户业务的时变性等特性。将网络选择问题构建为一个重复随机博弈问题，很好地仿真了用户间的相互竞争与相互影响。这种方法可以最大化总的用户效益，同时保证用户间的公平性。解决了由于蜂窝和无人机一体化网络具有高动态性并且网络状态难以预测，导致现有的基于博弈论的方法无法解决蜂窝和无人机一体化网络的选择问题的问题。

附图说明

图1为本发明提供的网络选择方法所基于网络的场景图；

图2为本发明根据一示例性实施例示出的网络选择方法的流程图；

图3为根据图2所示实施例示出的网络选择方法所服从的重复随机博弈结构的示意图；

图4为本发明根据一示例性实施例示出的蜂窝和无人机一体化网络的选择装置的结构示意图；

图5为本发明图4所示实施例示出的蜂窝和无人机一体化网络的选择装置中处理器所执行方法的流程图；

图6是用户数N＝50，无人机的架数M_d＝6时，采用本发明提供的网络选择方法时稳定变量随时间的变化情况的示意图；

图7是无人机的架数M_d＝6时，用户数N对本发明提出的网络选择方法运行时间的影响的示意图；

图8是用户数N＝50时，无人机的架数M_d对本发明提出的网络选择方法运行时间的影响的示意图；

图9是无人机的架数M_d＝6时，用户数N对本发明提出的网络选择方法及对比方法获得总的用户效益的影响的示意图；

图10是用户数N＝50时，无人机的架数M_d对本发明提出的网络选择方法及对比方法获得总的用户效益的影响的示意图；

图11是无人机的架数M_d＝6时，用户数N对本发明提出的网络选择方法及对比方法获得简氏公平性指标的影响的示意图；

图12是用户数N＝50时，无人机的架数M_d对本发明提出的网络选择方法及对比方法获得简氏公平性指标的影响的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的网络选择方法所基于网络的场景图。如图1所示，本发明考虑一个蜂窝和无人机一体化网络的网络选择场景，在一个给定的面积为L×W m²的区域内，一组用户

在无限的时隙序列t＝{0,1,2,...}上随机独立地移动，一个蜂窝网络103用于给这些用户提供无线接入，同时，一组无人机101被部署用于缓解蜂窝网络的拥塞情况。同时，本发明假设每架无人机都与地面站直接连接，独立地移动，并部署在相同固定的高度h。令

表示网络的集合，其中，j＝1表示蜂窝网络；

表示第j个无人机网络；j＝0表示空网络，代表用户没有接入任何网络。在每个时隙t，用户可以从可接入的网络集合中选择一个网络接入。同时，本发明不考虑当用户改变其接入状态时的切换代价。

图2为本发明根据一示例性实施例示出的网络选择方法的流程图。如图2所示，本发明提供的网络选择方法包括：

S101、获取动态网络模型和动态用户模型。

更具体地，动态网络模型至少包括：无人机网络的位置模型、蜂窝网络的容量模型以及无人机网络的容量模型，动态用户模型至少包括：用户的位置模型、传输速率模型。

针对网络覆盖特性，本实施例假设蜂窝网络可以覆盖整个给定区域，而一个无人机网络只能覆盖一个小的区域。具体地，每个无人机网络具有相同并有限的覆盖半径，记为R_d。令r_ij代表第i个用户和第j架无人机间的水平距离。若r_ij≤R_d，则第i个用户可以接入第j个无人机网络；否则，不能接入。

针对无人机网络的位置模型，本实施例引入一个具有反射边界的平滑转向移动模型。在此模型中，每架无人机以平滑、随机的轨迹飞行。具体地，假设无人机以恒定的前向速度V_d(单位：米每秒)飞行，并且随机地改变其向心加速度。无人机保持当前向心加速度的持续时间(单位：秒)服从均值为1/λ_d的指数分布。同时，无人机转弯半径(单位：米)的倒数服从均值为0，方差为

的高斯分布。

针对网络容量模型，本实施例假设蜂窝网络在时隙t的网络容量，记为C₁(t)，服从限制在区间[μ_b-2σ_b,μ_b+2σ_b]上的截断高斯分布

其中2σ_b＜μ_b。同时本实施例假设，对于每个无人机网络

其时隙t的网络容量C_j(t)是独立同分布，并且服从限制在区间[μ_c-2σ_c,μ_c+2σ_c]上的截断高斯分布

其中2σ_c＜μ_c。

针对用户的位置模型，本实施例基于高斯-马尔科夫移动模型设计了一个有界高斯-马尔科夫移动模型。具体地，在高斯-马尔科夫移动模型的基础上，本实施例考虑用户在一个矩形区域

内移动，并在边界处反射。从而，在有界高斯-马尔科夫移动模型中，用户的位置l_u(t)＝((x_u(t),y_u(t))和用户的速度

满足如下的更新公式：

l_u(t+1)＝(-1)^k⊙(l_u(t)+v_u(t)-k⊙(L,W)) (1)

其中，

⊙表示哈达马积(Hadamard product)，

表示向下取整运算，α_u＝(α_ux,α_uy)为二维记忆级别向量，σ_u＝(σ_ux,σ_uy)为速度的二维渐进标准差向量，二维记忆级别向量和速度的二维渐进标准差向量均为常量，

表示一个二维不相关高斯过程，并且

和

相互独立，均为零均值和单位方差。

针对用户的传输速率模型，本实施例假设在时隙t，每个用户

的所需数据传输速率记为R_i(t)满足独立同分布，并且服从限制在区间[μ_R(t)-2σ_R(t),μ_R(t)+2σ_R(t)]上的截断高斯分布

其中σ_R(t)＝ρ_Rμ_R(t)，

此外，μ_R(t)是一个在有限集合

上取值的马尔科夫过程，并且本实施例定义它的一步转移概率矩阵为

其中

为给定其当前值为

下一个时隙将转移到值

的概率。

S102、根据无人机网络的位置模型和用户的位置模型生成用户可接入网络集合；根据蜂窝网络的容量模型、无人机网络的容量模型、用户可接入网络集合以及传输速率模型生成随机事件向量。

更具体地，假设本实施例提出的网络选择为一个重复随机博弈问题，图3为根据图2所示实施例示出的网络选择方法所服从的重复随机博弈结构的示意图。如图3所示，重复随机博弈结构包括环境201，博弈管理者202和若干博弈者203。本实施例中将N个用户视为博弈者203，将用户采取的网络选择策略视为动作。在每个时隙t∈{0,1,2,...}，每个博弈者

可以从环境201中观察到一个随机事件ω_i(t)∈Ω_i，而博弈管理者202可以从环境201中观察到全部的随机事件向量ω(t)＝(ω₀(t),ω₁(t),...,ω_N(t))∈Ω，其中，ω₀(t)∈Ω₀表示仅博弈管理者202知道的随机事件，Ω＝Ω₀×Ω₁×…×Ω_N。具体地，在本实施例中，仅博弈管理者202知道的随机事件ω₀(t)包括蜂窝网络的容量和无人机网络的容量，即ω₀(t)＝(C₁(t),C₂(t),...,C_M(t))，并对于所有的

令

其中，

表示博弈者203-i可接入的非空网络的集合，即

S103、根据随机事件向量生成动作向量。

更具体地，动作向量用于表示用户选择接入无人机网络和/或蜂窝网络。当博弈管理者202在时隙t观察到随机事件向量ω(t)后，它向每个博弈者203-i发送一个建议

其中，

表示博弈者203-i可采用的动作的有限集合。例如，s_i(t)＝j表示博弈管理者202建议博弈者203-i选择网络j。此外，为了方便表述，本实施例将

简化为

对于每个博弈者

它将基于建议s_i(t)选择动作

例如，α_i(t)＝j表示博弈者203-i选择接入网络j。本实施例令s(t)＝(s₁(t),s₂(t),...,s_N(t))和α(t)＝(α₁(t),α₂(t),...,α_N(t))分别表示建议向量和动作向量，并定义

S104、根据动作向量和随机事件向量获得每个用户个体效益。

在时隙t，随机事件向量ω(t)和动作向量α(t)确定了每个博弈者203-i的个体效益u_i(t)。形式上，个体效益u_i(t)的表达式如下：

更明确地，本实施例采用如下表达式定义u_i(t)。

定义1：对于所有的

个体效益u_i(t)可以被定义为：

其中，f(x)为有效传输比例函数，定义为：

x_b是一个代表网络繁忙比例阈值的常数。

1{α_k(t)＝α_i(t)}表示一个0-1指示函数。若α_k(t)＝α_i(t)，该指数函数等于1；否则，等于0。

表示α_i(t)所对应网络的容量。

本实施例假设对于每个博弈者203-i，其所需数据传输速率R_i(t)的上界为

则由定义1，可以得到：

S105、构建第一选择模型。

更具体地，随机事件向量ω(t)的概率密度函数，记为π(ω)，定义如下：

其中，

表示“定义为等于”。

本实施例进一步将动作概率Pr[α|ω]定义为

和ω∈Ω上的条件概率密度函数，其中，

由概率论，该动作概率满足第一动作概率约束：

其中，

表示观察到随机事件ω_i后博弈者203-i可采用的动作的有限集合。

由Pr[α|ω]的定义，本实施例定义变量

表示个体效益u_i(t)的时间平均值。由大数定理，若在每个时隙t，动作向量α(t)是根据相同的条件概率密度函数Pr[α|ω]独立地选择的，则可以保证，对于所有的

可以以概率1地(with probability 1,w.p.1)表达为如下形式：

此外，考虑到博弈管理者202的目标是制定Pr[α|ω]以最大化总的用户效益，同时保证用户间的公平性，本实施例为博弈管理者202设计了一个递增的，上凸的比例公平函数

作为第一选择模型的第一目标函数。明确地，本实施例假设比例公平函数

为对数函数的和：

然而，每个博弈者203-i的目标是最大化自己的时间平均效益

因此，博弈者203可以选择是否接受博弈管理者202的建议。对于每个博弈者203-i，存在如下两种类型的选择：

参与：若博弈者203-i在每个时隙t∈{0,1,2,...}总是选择接受建议s_i(t)，则称其为参与。也就是说，对于所有的t∈{0,1,2,...}，α_i(t)＝s_i(t)。

不参与：若博弈者203-i在每个时隙t∈{0,1,2,...}通过其观察到的随机事件ω_i(t)选择动作α_i(t)，则称其为不参与。

本实施例假设不参与的博弈者203不会收到建议s_i(t)。

为了激励所有博弈者203参与，博弈管理者202制定的Pr[α|ω]需要是一个粗相关均衡，其定义如下：

定义2：对于随机博弈，如果存在第一辅助变量

使得对于所有的

满足如下条件，则Pr[α|ω]是一个粗相关均衡：

其中，

表示动作向量α中除了α_i的所有元素，

为不参与的博弈者203-i预设的特定动作，υ_i∈Ω_i为不参与的博弈者203-i预设的特定事件。直观地，

表示不参与的博弈者203-i当观察到ω_i＝υ_i时，可以得到的最大条件期望效益。

由定义2，粗相关均衡约束(13)和(14)的总个数为

是关于集合Ω_i和

大小的线性函数，其中|·|表示集合中元素数量。然而，在本实施例的系统模型中，

的值过大，意味着粗相关均衡约束的计算复杂度很高。本实施例接下来讨论如何减少

的值。

首先，本实施例简化预设事件υ_i的取值空间Ω_i。根据本实施例中网络模型的描述，所有的无人机都是同质的。因此，针对预设事件υ_i，本实施例仅考虑用户

可接入无人机网络的数量而不是它们索引的不同。并且，用户i被超过两架无人机同时覆盖的可能性较小，从而，

的集合可以被简化为{0,1,2+}，其中“0”，“1”和“2+”分别表示覆盖用户i的数量为0，1和不小于2。此外，针对预设事件υ_i，本实施例将区间

分为K_R段。若

其中，i_k＝1,2,...,K_R，则称R_i(t)属于第i_k段。综上所述，本实施例将预设事件υ_i的取值空间Ω_i简化为

注：ω_i的取值空间仍为Ω_i，对于所有的ω_i∈Ω_i和

约束(14)中的ω_i＝υ_i表示ω_i为υ_i简化前的形式，约束(13)中的

其中υ_i＝ω_i表示υ_i为ω_i简化后的形式。

然后，本实施例简化预设动作β_i的取值空间

由于无人机的同质性，针对预设动作β_i，本实施例不区分用户i选择接入的无人机网络的索引。同时由于当用户i在时隙t接入空网络时，由定义1，其个体效益u_i(t)＝0，因此本实施例不考虑接入空网络的预设动作，即β_i≠0。从而，本实施例可以将预设动作β_i的取值空间

简化为

其中“蜂窝”和“无人机”分别代表用户i选择接入蜂窝网络和无人机网络。此外，当用户i选择接入无人机网络时，其等概率地接入一个可接入的无人机网络。注：α_i的取值空间仍为

从而，

的值被减少为

同时，当用户i没有可接入的无人机网络时，预设动作β_i＝无人机不可行。因此，本实施例忽略如下的预设事件-预设动作匹配：

通过这种方式，

的值被进一步减少为6K_R-K_R＝5K_R。最终，粗相关均衡(13)和(14)的总个数被减少为

在实际场景中，某些用户存在最小个体时间平均效益需求，本实施例将这些用户的集合记为S_u。因此，博弈管理者202必须保证这些用户的效益满足最小时间平均效益约束：

基于上述分析，所构建的第一选择模型包括：第一目标函数和第一约束。第一约束包括：第一粗相关均衡约束、第一最小个体时间平均效益约束以及第一动作概率约束，第一选择模型具体如下：

S106、根据第一选择模型获得动作概率的数值，以根据动作概率的数值确定用户选择接入的网络。

博弈管理者202的目的是求解第一选择模型得到动作概率Pr[α|ω]，并根据Pr[α|ω]选择建议向量s(t)＝α(t)，依据建议向量确定用户选择接入的网络。

在本实施例提供的网络选择方法中，获取动态网络模型和动态用户模型，基于获取动态网络模型和动态用户模型生成随机事件向量，根据随机事件向量和动作向量构建第一选择模型，根据第一选择模型获得动作概率的数值，以根据动作概率的数值确定用户选择接入的网络。解决了由于蜂窝和无人机一体化网络具有高动态性并且网络状态难以预测，导致现有的基于博弈论的方法无法解决蜂窝和无人机一体化网络的选择问题的问题。

尽管上述问题(16)是一个凸优化问题，但由于以下两个原因，其求解仍非常具有挑战性：1)π[ω]对于求解问题(16)是必不可少的，然而，由于π[ω]受网络容量，无人机和用户的移动，用户业务等各种因素的影响，其可能无法得到。2)变量Pr[α|ω]的规模为

其随着用户数呈指数增长。为了解决这些问题，本实施例将这个具有挑战性的问题转换为一个新问题，新问题的规模大大降低，并且不需要知道π[ω]。

本实施例根据另一示例性实施例示出的网络选择方法，其与图2所示实施例存在的区别在于：在S104之后包括：

S1051、构建第二选择模型。

更具体地，对于一个时隙t∈{0,1,2,...}上的实值随机过程u(t)，本实施例定义其前t时隙的时间平均期望为：

对于所有的

和

本实施例定义：

利用随机过程理论，本实施例将第一选择模型(16)等价转换为第二选择模型，其中，第二选择模型包括第二目标函数和第二约束，第二目标函数为以个体效益的时间平均期望为自变量的比例公平函数，第二约束至少包括第二粗相关均衡约束、第二最小个体时间平均效益约束以及第二辅助变量约束，第二粗相关均衡约束用于对个体效益的时间平均期望和第二辅助变量的时间平均期望进行约束，第二最小个体时间平均效益约束用于对个体效益的时间平均期望进行约束，第二辅助变量约束用于对第二辅助变量进行约束。在每个时隙t∈{0,1,2,...}，博弈管理者202观察到随机事件向量ω(t)∈Ω，并对动作向量

和变量

求解，其中，

表示在时隙t的第二辅助变量。

S106、根据第二选择模型获得动作向量的数值，以根据动作向量的数值确定用户选择接入的网络。

在本实施例提供的网络选择方法中，构建的第二选择模型基于个体效益的时间平均期望，可以在随机事件向量概率未知的情况下获得动作向量，以根据动作向量的数值确定用户选择接入的网络。

本实施例根据又一示例性实施例示出的网络选择方法，其与上一实施例存在的区别在于：在S1051之后，还包括：

S1052、构建第三选择模型；

更具体地，上述问题(19)的目标是最大化一个关于时间平均的非线性函数，为将其等价转换为最大化一个关于非线性函数的时间平均，本实施例引入第三辅助向量γ(t)＝(γ₁(t),...,γ_N(t))，其中，对于所有的

并定义g(t)＝φ(γ₁(t),...,γ_N(t))。由琴生不等式，可以得到：

利用琴生不等式，本实施例将第二选择模型(19)等价转换为第三选择模型(21)。其中，第三选择模型包括第三目标函数和第三约束，第三目标函数(22.1)为以第三辅助变量为自变量的比例公平函数的时间平均期望，第三约束至少包括第二粗相关均衡约束(21.4)和(21.5)、第二最小个体时间平均效益约束(21.7)、第二辅助变量约束(21.6)以及第三辅助变量约束(21.2)和(21.3)。在每个时隙t∈{0,1,2,...}，博弈管理者202观察到随机事件向量ω(t)∈Ω，并对动作向量

变量

和辅助向量γ(t)求解：

满足如下约束：

其中，第二粗相关均衡约束(21.4)和(21.5)对个体效益的时间平均期望和第二辅助变量的时间平均期望进行约束，第二最小个体时间平均效益约束(21.7)用于对个体效益的时间平均期望进行约束，第二辅助变量约束(21.6)用于对第二辅助变量进行约束，第三辅助变量约束(21.2)和(21.3)用于对第三辅助变量的时间平均期望与个体效益的时间平均期望进行约束；

S106、根据第三选择模型获得动作向量的数值，以根据动作向量的数值确定用户选择接入的网络。

在本实施例提供的网络选择方法中，以第三辅助变量为自变量的比例公平函数的时间平均期望作为第三目标函数，可以简化目标函数，便于根据第三选择模型获得动作向量。

本实施例根据另一示例性实施例示出的网络选择方法，其与上一实施例存在的区别在于：在S1052之后包括：

S1053、利用漂移加惩罚技术将第三选择模型转化为第四选择模型。

考虑漂移加惩罚技术的原理，针对约束(21.4)，本实施例对于所有的

定义第一虚拟队列第一项Q_i(t)：

若以下平均速率稳定条件成立，则约束(21.1)满足：

其中，非负运算[x]⁺＝max{x,0}。

同样的，针对约束(21.5)，(21.2)和(21.7)，本实施例分别定义其他三种类型的虚拟队列。对于所有的

和

定义第一虚拟队列第二项

对于所有的

定义第二虚拟队列Z_i(t)：

Z_i(t+1)＝Z_i(t)+γ_i(t)-u_i(t) (25)

对于所有的

定义第三虚拟队列H_i(t)：

若以下平均速率稳定条件成立，则约束(21.5)，(21.2)和(21.7)满足：

为了简单起见，本实施例假设所有虚拟队列均初始化为0。

由公式(22)，(24)，(25)和(26)可知，第一虚拟队列中当前时隙第一虚拟量根据第二粗相关均衡约束的前一时隙违反量和第一虚拟队列中前一时隙第一虚拟量生成。第二虚拟队列的当前时隙第二虚拟量根据第三辅助变量约束的前一时隙违反量和第二虚拟队列中前一时隙第二虚拟量生成，第三虚拟队列的当前时隙第三虚拟量根据第二最小个体时间平均效益约束的前一时隙违反量和第三虚拟队列中前一时隙第三虚拟量生成。

本实施例将函数L(t)定义为在时隙t，四种类型的队列[Q_i(t)]⁺，

Z_i(t)和[H_i(t)]⁺的平方和(为方便起见，除以2)，称其为李雅普诺夫函数，作为总违反量：

其中，对于所有的

令H_i(t)＝0。

此外，本实施例定义漂移加惩罚表达式为Δ(t)-Vg(t)，其中，Δ(t)＝L(t+1)-L(t)表示李雅普诺夫漂移，即总违反量的漂移量，-g(t)代表“惩罚”，g(t)表示以第三辅助变量为自变量的比例公平函数，V为非负惩罚系数，其影响约束违反和最优性之间的权衡。漂移加惩罚表达式满足如下条件：最小化约束违反，最大化目标。因此，构建如下第四选择模型：

其中，惩罚上界量包括：常数项、第一惩罚上界项、第二惩罚上界项以及第三惩罚上界项，常数项为

第一惩罚上界项为

第二惩罚上界项为

第三惩罚上界项为

S106、根据第四选择模型获得动作向量的数值，以根据动作向量的数值确定用户选择接入的网络。

在本实施例提供的网络选择方法中，第四选择模型为不等式形式，模型简单，便于根据第四选择模型获得动作向量。

本实施例根据再又一示例性实施例示出的网络选择方法，其与上一实施例存在的区别在于：S106、根据第四选择模型获得动作向量的数值，以根据动作向量的数值确定用户选择接入的网络，具体包括如下步骤：

S1061、在每个时隙t，博弈管理者202观察到第一虚拟队列中当前时隙第一虚拟量第一项Q_i(t)，第一虚拟队列中当前时隙第一虚拟量第二项

第二虚拟队列中当前时隙第二虚拟量Z_i(t)，第三虚拟队列中当前时隙第三虚拟量H_i(t)和随机事件向量ω(t)∈Ω。

本实施例通过在每个时隙t贪婪地最小化Δ(t)-Vg(t)的上界求解问题(21.1)。同时，Δ(t)-Vg(t)的上界可以分解为四个独立的项。在每个时隙t，第一项是常数，第二项关于第三辅助向量γ(t)的函数，第三项是关于第二辅助变量

的函数，第四项是关于个体效益u_i(t)和

的函数。

S1062、对于所有的

根据当前时隙第二虚拟量以及第一惩罚上界项选择求解第三辅助变量γ_i(t)的数值：

问题(32)的闭式解为，对于所有的

S1063、对于所有的

和

根据当前时隙的随机事件向量、当前时隙第一虚拟量以及第二惩罚上界项选择求解第二辅助变量

的数值：

问题(34)的闭式解为，对于所有的

和

S1064、根据当前时隙的随机事件向量、当前时隙第一虚拟量、当前时隙第二虚拟量、当前时隙第三虚拟量以及第三惩罚上界项选择求解动作向量α(t)的数值：

S1065、向每个博弈者203-i发送α_i(t)，以使博弈者203-i根据动作α_i(t)确定选择接入的网络。

分别根据公式(4)和(18)计算个体效益u_i(t)和

分别根据公式(22)，(24)，(25)和(26)更新虚拟队列Q_i(t)，

Z_i(t)和H_i(t)。

问题(36)是一个非线性整数规划问题，其中，u_i(t)和

是关于α(t)的复杂的非线性函数。求解问题(36)的遍历算法的复杂度是

其随着用户数呈指数增长。尽管可以利用启发式算法(如遗传算法)近似求解该问题，但由于启发式算法收敛速度慢，可能需要较长的时间。为了加速优化过程，本实施例针对问题(36)，设计了一种线性近似机制。

由定义1，若

则网络

拥塞。为了避免这种情况，博弈管理者202制定的建议动作向量α(t)应满足如下第一动作向量约束：

对于每个参与的博弈者

若α_i(t)＝0，则由定义1，u_i(t)＝0。若α_i(t)≠0，则由约束(37)和定义1，u_i(t)＝R_i(t)。因此，两种情况下的效益函数u_i(t)可以通过如下方式计算，进而形成参与的博弈者的个体效益与传输速率之间映射表：

u_i(t)＝1{α_i(t)≠0}R_i(t) (38)

对于每个不参与的博弈者

每个

和

(β_i≠0)，本实施例考虑

的定义(18)。若υ_i≠ω_i(t)，则

若υ_i＝ω_i(t)，则

此时本实施例根据以下两种不同的情况估计

进而形成不参与的博弈者的个体效益与传输速率之间映射表。

1)若博弈者203-i接入的网络恰好与博弈管理者202建议的网络相同，即β_i＝α_i(t)，则

2)若博弈者203-i接入的网络与博弈管理者202建议的网络不同，即β_i≠α_i(t)，则本实施例估计博弈者203-i在时隙t接入网络j＝β_i的有效传输比例

具体地，定义时隙t网络

的剩余容量为

并假设

则：

其中，

表示β_i对应网络的容量。

因此，

可以通过如下方式估计：

接下来，本实施例讨论如何通过引入一组辅助变量a_ij，其中，{a_ij}为建议矩阵，进而将问题(36)转换为一个整数线性规划问题。对于所有的

和

定义建议矩阵与动作向量的映射关系为：

其中a_ij＝1表示博弈管理者202建议博弈者203-i接入网络j，a_ij＝0表示博弈管理者202建议博弈者203-i不接入网络j。由a_ij的定义和约束

可以得到建议矩阵约束：

然后，利用变量a_ij代替(37)中的α(t)，可以得到第二动作向量约束：

然后，利用变量a_ij代替(38)中的α(t)，可以得到参与的博弈者的个体效益为：

此外，对于所有的

和

本实施例令

利用变量a_ij代替(40)中的α(t)，可以得到不参与的博弈者的个体效益：

根据(41)-(46)，本实施例将问题(36)转换为如下整数线性规划问题：

其中，c_ij被定义为：

其中，E_i(t)＝[Q_i(t)]⁺+Z_i(t)+[H_i(t)]⁺，

为第四惩罚上界项，

构成第二动作向量约束，

构成建议矩阵约束。

在初始时隙(t＝0)，由于所有的虚拟队列被初始化为零，因此所有权重c_ij将为零。为了解决这一问题，本实施例定义在时隙t＝0的权重c_ij为：

问题(47)是一种关于辅助变量a_ij的整数线性规划问题，其可以利用MOSEK数学优化软件包(Mosek Optimization Tools)求解。此外，在MOSEK中，其利用分支定界法松弛整数变量，从而将整数线性优化问题松弛为可解的线性优化问题。

本实施例利用李雅普诺夫优化方法和线性近似机制对构建的问题进行转换，不需要预先知道网络和用户的状态概率π(ω)，并极大地降低了问题的计算复杂度。

在求解问题(21.1)的主要框架的基础上，结合问题(32)，(34)和(36)的求解方法，本发明提出了一种基于图4所示的高效公平的网络选择(Efficient and Fair NetworkSelection,EFNS)方法的蜂窝和无人机一体化网络的选择装置。

图4为本发明根据一示例性实施例示出的蜂窝和无人机一体化网络的选择装置的结构示意图。如图4所示，网络选择装置300包括收发机311和存储器312，收发机311用于收集无人机网络容量信息C_j(t)，

蜂窝网络容量信息C₁(t)、用户可接入网络集合信息

以及传输速率信息R_i(t)，

以形成随机事件向量ω(t)。此外，收发机311负责将博弈管理者202制定的建议动作信息发送到每个用户设备330。存储器312可以是任意形式的计算机可读入介质，用于存储参数，状态数据，动作数据和虚拟队列数据等信息。网络选择装置300还包括处理器313，处理器313可以是任意形式的中央处理单元，用于处理EFNS方法中的数据。具体地，处理器313根据无人机网络的容量信息、蜂窝网络的容量信息、用户可接入网络集合信息、数据传输速率信息以及第四选择模型获得动作向量。每个用户设备330中包含网络接入系统331，该系统用于根据接收到的动作向量，控制用户设备330选择网络接入。其中，第四选择模型已经在上述实施例中详细描述，在此不再赘述。

继续参考图4，本实施例提供的网络选择装置，还包括：人机交互模块314，人机交互模块314包括显示器和操作员输入接口，显示器可以向计算机操作员340显示结果，操作员输入接口可以从一个或多个输入设备(如键盘和鼠标等)获取计算机操作员340的输入信息。

继续参考图4，本实施例提供网络装置还包括：网络320。图5为本发明图4所示实施例示出的网络选择装置中处理器313所执行EFNS方法的流程图，如图5所示，处理器313执行如下动作：

接收当前时隙t的状态信息ω(t)和虚拟队列信息Q_i(t)，

Z_i(t)，H_i(t)，输出信息为当前时隙t博弈管理者202的建议动作向量α(t)和下一时隙t+1的虚拟队列信息Q_i(t+1)，

Z_i(t+1)，H_i(t+1)。

S201、获取数据传输速率的上界

分段值K_R、惩罚系数V并初始化第一虚拟队列至第三虚拟队列。

更具体地，将其存储于存储器312中，这些参数可以预先给定默认值，并且计算机操作员340可以通过人机交互模块314修改这些参数。初始化虚拟队列Q_i(0)＝0，

Z_i(0)＝0和H_i(0)＝0，存储于存储器312。

在每个时隙t＝0,1,...,T-1，重复步骤2-7，其中，T为总时隙数。

S202、收集网络和用户的状态信息以形成随机事件向量。

更具体地，处理器313通过收发机311收集网络和用户的状态信息ω(t)∈Ω。

具体地，ω(t)将暂时存储于存储器312直到步骤6结束。

S203、根据当前时隙第二虚拟量以及第一惩罚上界项获取第三辅助变量γ_i(t)。

更具体地，对于每个

处理器313根据公式(33)计算第三辅助变量γ_i(t)，第三辅助变量γ_i(t)将暂时存储于存储器312直到步骤6结束。

S204、根据当前时隙的随机事件向量、当前时隙第一虚拟量以及第二惩罚上界项选择获取第二辅助变量。

更具体地，对于每个

和

处理器313根据公式(35)计算第二辅助变量

第二辅助变量

将暂时存储于存储器312直到步骤6结束。

S205、根据第四惩罚上界项、第二动作向量约束以及建议矩阵约束获取建议矩阵，根据建议矩阵获取动作向量。

更具体地，处理器313通过求解问题(47)得到建议矩阵{a_ij}，根据建议矩阵{a_ij}获得动作向量α(t)，然后收发机311将建议动作α_i(t)发送给每个用户设备330-i的网络接入系统331，建议动作向量α(t)将暂时存储于存储器312直到步骤6结束。

S206、计算个体效益和第一虚拟队列至第三虚拟队列。

更具体地，处理器313分别根据公式(4)和(18)计算u_i(t)和

并分别根据公式(22)，(24)，(25)和(26)计算Q_i(t+1)，

Z_i(t+1)和H_i(t+1)，更新存储器312中的虚拟队列。

S207、判断时隙t是否达到预设时隙值，若否，转入S208，否则，停止循环。

S208、更新时隙t，并转入步骤S201。

下面是利用本实施例提供的EFNS方法，实现针对蜂窝和无人机一体化网络的网络选择的一个仿真。

为了验证网络选择方法的有效性，本实施例设计了三个基准对比方法，只接入蜂窝(cellular-only，CO)方法，随机接入(random access，RA)方法与即时卸载(on-the-spotoffloading，OTSO)方法。对于CO方法，在每个时隙，每个用户总是选择接入蜂窝网络。对于RA方法，在每个时隙，每个用户总是等概率地随机接入可接入的网络。对于OTSO方法，在每个时隙，每个用户检查是否可以接入无人机网络，如果可以，则其等概率地随机接入一个可接入的无人机网络；否则，接入蜂窝网络。

仿真中的参数设置如下：所考虑的几何区域的大小为500×500m²，即，L＝500m，W＝500m。重复随机博弈持续1000秒，每个时隙的持续时间为1秒，因此，仿真运行1000个循环，即，T＝1000。在无人机网络的位置模型中，无人机的初始位置独立均匀地分布在所考虑区域，初始方向独立均匀地分布在[0,2π)上，参数

在网络容量模型中，蜂窝网络的容量(Mb/s)服从一个截断的高斯分布N_tru(200,20²,±40)，每个无人机网络的容量独立并服从一个截断的高斯分布N_tru(30,3²,±6)。此外，无人机的覆盖半径R_d＝100m。

在用户的位置模型中，用户的初始位置独立均匀地分布在所考虑区域，初始速度独立并服从二维高斯分布N(0,0；2²,2²,0)，参数α_u＝(0.73,0.73)，σ_u＝(2,2)。在用户的传输速率模型中，参数ρ_R＝0.2，过程μ_R(t)(Mb/s)从集合{μ₁,μ₂,...,μ₅}＝{2.5,5,7.5,10,12.5}中取值，μ_R(t)的一步转移概率矩阵P如表1所示：

表1 μ_R(t)的一步转移概率矩阵P

0.8	0.2	0	0	0
					0.2	0.6	0.2	0	0
0	0.2	0.6	0.2	0
					0	0	0.2	0.6	0.2
0	0	0	0.2	0.8

对于定义1中的函数f(x)，令网络繁忙比例阈值x_b＝0.9。对于最小时间平均效益约束，令

并对所有的

令

对于本发明中提供的网络选择方法，对所有的

令

并令K_R＝5，惩罚系数V＝100。

同时，本实施例采用如下四个指标评价所提出方法的性能，包括：

队列稳定性：本实施例使用定义在时隙t＝1,2,...,T-1上的稳定变量

和

来度量EFNS方法的队列稳定性。

运行时间：执行EFNS方法T＝1000次循环的总时间。

总效益：整个仿真过程所有用户的总效益，即，

公平性：本实施例使用简氏公平性指标(Jain’s fairness index，定义为

来度量网络资源分配的公平性，其中

代表整个仿真过程中，用户i的时间平均效益，即，

在仿真中，本实施例在随机生成的100组数据集上测试所有的比较方法。对于每个比较方法，本实施例可以得到100个结果，并且最终结果是它们的平均值。

图6给出了用户数N＝50，无人机的架数M_d＝6时，采用本发明提供的网络选择方法时稳定变量随时间的变化情况，由图6可知：

随着时隙t的增长，所有的稳定变量的值迅速降低，经过一段很长的时间，所有的稳定变量趋于0。这一结果说明EFNS方法可以保证所有队列平均速率稳定，从而约束(21.2)、(21.4)、(21.5)和(21.7)得以满足。

图7给出了无人机的架数M_d＝6时，用户数N对本发明提出的网络选择方法运行时间的影响；图8给出了用户数N＝50时，无人机的架数M_d对本发明提出的网络选择方法运行时间的影响。由图7和图8可知：

EFNS方法的平均运行时间随着N或M_d的增加而增加。这是因为当N或M_d增加时，问题的规模变大。EFNS方法可以实现在线的网络选择。

图9给出了无人机的架数M_d＝6时，用户数N对本发明提出的网络选择方法及对比方法获得总效益的影响；图10给出了用户数N＝50时，无人机的架数M_d对本发明提出的网络选择方法及对比方法获得总效益的影响。由图9和图10可知：

EFNS方法总可以实现最高的总效益。这是因为EFNS方法在避免网络拥塞的同时充分利用了网络资源。

EFNS方法的总效益随着N的增加而增长，但因为当N较大时，网络容量限制总效益的增长，因此其增长速率下降。其他三种方法的总效益随着N的增加很快开始下降，这是因为这三种方法没有避免网络拥塞的机制而大量的用户将会导致网络拥塞。

除了CO方法，所有方法的总效益随着M_d的增加单调增加，这是因为用户可以将业务卸载到无人机网络上。

图11给出了无人机的架数M_d＝6时，用户数N对本发明提出的网络选择方法及对比方法获得简氏公平性指标的影响；图12给出了用户数N＝50时，无人机的架数M_d对本发明提出的网络选择方法及对比方法获得简氏公平性指标的影响。由图11和图12可知：

EFNS方法可以实现高的公平性。具体地，因为在比例公平函数(12)中考虑了网络资源的公平分配，EFNS方法的公平性指标接近1。然而，随着N的增加或M_d的减少，EFNS方法的公平性指标逐渐下降，这是因为较大的N或较小的M_d会激活最小时间平均效益约束。

尽管RA和OTSO方法没有考虑公平性，这两种方法依然可以实现高的公平性。这是因为在本实施例的模型中，用户具有同质性，因此在一段很长的时间后，用户的平均效益接近。

CO方法可以实现最高的公平性。这是因为在每个时隙，所有的用户总是具有相同的有效传输比例。然而，CO方法的总效益最低。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种蜂窝和无人机一体化网络的选择方法，其特征在于，包括：

获取动态网络模型和动态用户模型；其中，所述动态网络模型至少包括：无人机网络的位置模型、蜂窝网络的容量模型以及无人机网络的容量模型，所述动态用户模型至少包括：用户的位置模型、传输速率模型；

根据所述无人机网络的位置模型和所述用户的位置模型生成用户可接入网络集合；根据所述蜂窝网络的容量模型、所述无人机网络的容量模型、所述用户可接入网络集合以及所述传输速率模型生成随机事件向量；其中，所述用户可接入网络集合包括所述无人机网络和/或所述蜂窝网络；

根据所述随机事件向量生成动作向量；其中，所述动作向量用于表示所述用户选择接入所述无人机网络和/或所述蜂窝网络；

根据所述动作向量和所述随机事件向量获得每个用户的个体效益；

构建第一选择模型；其中，所述第一选择模型包括：第一目标函数和第一约束，所述第一目标函数为以所述个体效益的时间平均值为自变量的比例公平函数，所述第一约束至少包括：第一粗相关均衡约束、第一最小个体时间平均效益约束以及第一动作概率约束，所述第一粗相关均衡约束用于对所述个体效益的时间平均值和第一辅助变量进行约束，所述第一最小个体时间平均效益约束用于对所述个体效益的时间平均值进行约束，所述第一动作概率约束用于对在随机事件向量的条件下的动作概率进行约束；所述个体效益的时间平均值根据所述个体效益、随机事件概率和在随机事件向量的条件下的动作概率获得，所述在随机事件向量的条件下的动作概率为所述用户在随机事件向量发生的条件下执行所述动作向量的概率；所述随机事件概率为随机事件向量发生的概率；

根据所述第一选择模型获得所述动作概率的数值，以根据所述动作概率的数值确定用户选择接入的网络；

所述第一目标函数具体包括：

其中，f₁表示第一目标函数，

表示第i个用户的个体效益的时间平均值，

表示比例公平函数；

所述第一粗相关均衡约束具体包括：

其中，ω表示所述随机事件向量，α表示所述动作向量，π[ω]表示所述随机事件向量概率，Pr[α|ω]表示所述在随机事件向量的条件下的动作概率，

表示第i个用户的个体效益，

和

均表示第一辅助变量，

α_i表示第i个用户选择接入网络j＝α_i，ω_i表示随机事件向量中第i个元素，υ_i表示第i个用户的预设事件，β_i表示第i个用户的预设动作，

表示动作向量的可选集，Ω表示随机事件向量的可选集，

表示第i个用户的预设动作的简化后可选集，

表示第i个用户的预设事件的简化后可选集；

所述第一最小个体时间平均效益约束具体包括：

表示第一最小个体时间平均效益，

表示存在最小个体时间平均效益需求的用户的集合；

所述第一动作概率约束具体包括：

其中，

表示随机事件向量ω下的动作向量的可选集。

2.根据权利要求1所述的方法，其特征在于，在所述根据所述动作向量和所述随机事件向量获得每个用户的个体效益之后，还包括：

构建第二选择模型，其中，所述第二选择模型包括第二目标函数和第二约束，所述第二目标函数为以所述个体效益的时间平均期望为自变量的比例公平函数，所述第二约束至少包括第二粗相关均衡约束、第二最小个体时间平均效益约束以及第二辅助变量约束，所述第二粗相关均衡约束用于对所述个体效益的时间平均期望和所述第二辅助变量的时间平均期望进行约束，所述第二最小个体时间平均效益约束对所述个体效益的时间平均期望进行约束，所述第二辅助变量约束用于对所述第二辅助变量进行约束；

根据所述第二选择模型获得所述动作向量的数值，以根据所述动作向量的数值确定用户选择接入的网络。

3.根据权利要求2所述的方法，其特征在于，在所述根据所述动作向量和所述随机事件向量获得每个用户的个体效益之后，还包括：

根据第二选择模型构建第三选择模型；其中，所述第三选择模型包括第三目标函数和第三约束，所述第三目标函数为以第三辅助变量为自变量的比例公平函数的时间平均期望，所述第三约束至少包括第二粗相关均衡约束、第二最小个体时间平均效益约束、第二辅助变量约束以及第三辅助变量约束，所述第二辅助变量约束用于对所述第二辅助变量进行约束，所述第三辅助变量约束用于对所述第三辅助变量的时间平均期望与所述个体效益的时间平均期望进行约束；

根据所述第三选择模型获得所述动作向量的数值，以根据所述动作向量的数值确定用户选择接入的网络。

4.根据权利要求3所述的方法，其特征在于，在所述构建第三选择模型之后，还包括：

构建第四选择模型；

根据所述第四选择模型获得所述动作向量的数值，以根据所述动作向量的数值确定用户选择接入的网络；

其中，所述第四选择模型为总违反量的漂移与收益的差值小于等于惩罚上界量；

所述总违反量的漂移根据所述总违反量的当前时隙的数值和所述总违反量的后一时隙的数值获得；所述总违反量的当前时隙的数值根据当前时隙第一虚拟量、当前时隙第二虚拟量以及当前时隙第三虚拟量获得；所述第一虚拟队列中当前时隙第一虚拟量根据所述第二粗相关均衡约束的前一时隙违反量和第一虚拟队列中前一时隙第一虚拟量生成，所述第二虚拟队列的当前时隙第二虚拟量根据所述第三辅助变量约束的前一时隙违反量和第二虚拟队列中前一时隙第二虚拟量生成，所述第三虚拟队列的当前时隙第三虚拟量根据所述第二最小个体时间平均效益约束的前一时隙违反量和第三虚拟队列中前一时隙第三虚拟量生成，其中，初始时隙第一虚拟量、初始时隙第二虚拟量以及初始时隙第三虚拟量均为零；

所述收益包括：以第三辅助变量为自变量的比例公平函数和惩罚系数；

所述惩罚上界量包括：常数项、第一惩罚上界项、第二惩罚上界项以及第三惩罚上界项，所述第一惩罚上界项包括所述第三辅助变量和所述第二虚拟量，所述第二惩罚上界项包括所述第二辅助变量和所述第一虚拟量，第三惩罚上界项包括所述个体效益、所述第一虚拟量、所述第二虚拟量以及所述第三虚拟量。

5.根据权利要求4所述的方法，其特征在于，所述根据所述第四选择模型获得所述动作向量的数值，以根据所述动作向量的数值确定用户选择接入的网络，具体包括：

获取所述当前时隙第一虚拟量、所述当前时隙第二虚拟量、所述当前时隙第三虚拟量以及所述当前时隙的随机事件向量；

根据所述当前时隙第二虚拟量以及所述第一惩罚上界项获得所述第三辅助变量的数值；

根据所述当前时隙的随机事件向量、所述当前时隙第一虚拟量以及所述第二惩罚上界项获得所述第二辅助变量的数值；

根据所述当前时隙的随机事件向量、所述当前时隙第一虚拟量、所述当前时隙第二虚拟量、所述当前时隙第三虚拟量以及所述第三惩罚上界项获得所述动作向量的数值，以根据所述动作向量的数值确定用户选择接入的网络；

所述根据所述当前时隙的随机事件向量、所述当前时隙第一虚拟量、所述当前时隙第二虚拟量、所述当前时隙第三虚拟量以及所述第三惩罚上界项获得所述动作向量的数值，具体包括：

构建建议矩阵约束和第一动作向量约束，其中，所述建议矩阵表示建议用户接入所述无人机网络和/或所述蜂窝网络，所述建议矩阵约束用于对所述建议矩阵进行约束；

利用所述个体效益与所述传输速率之间映射表和所述建议矩阵与所述动作向量的映射关系对所述第三惩罚上界项进行处理，生成第四惩罚上界项；

利用所述建议矩阵与所述动作向量的映射关系对所述第一动作向量约束进行处理，获得第二动作向量约束；

根据所述第四惩罚上界项、所述建议矩阵约束以及所述第二动作向量约束获得所述建议矩阵的数值，根据所述建议矩阵的数值确定用户选择接入的网络。

6.根据权利要求3所述的方法，其特征在于，

所述第二目标函数具体包括：

其中，

表示第i个用户的个体效益的时间平均期望；

所述第二粗相关均衡约束具体包括：

其中，

表示第二辅助变量的时间平均期望，

1{·}表示指示函数；

所述第二最小个体时间平均效益约束具体包括：

所述第二辅助变量约束具体包括：

所述第三目标函数具体包括：

其中，g(t)＝φ(γ₁(t),...,γ_N(t))，

γ_i(t)表示第三辅助变量，

表示第i个用户所需数据传输速率的上界；

所述第二粗相关均衡约束具体包括：

所述第二最小个体时间平均效益约束具体包括：

所述第二辅助变量约束具体包括：

所述第三辅助变量约束具体包括：

其中，

表示第三辅助变量的时间平均期望。

7.根据权利要求4所述的方法，其特征在于，

所述第四选择模型具体包括：

其中，

Δ(t)＝L(t+1)-L(t)，[x]⁺＝max{x,0}，Q_i(t)表示的第一虚拟量的第一项在时隙t的数值，

表示第一虚拟量的第二项在时隙t的数值，

表示第二辅助变量在时隙t的数值，Z_i(t)表示第二虚拟量在时隙t的数值，Z_i(t+1)＝Z_i(t)+γ_i(t)-u_i(t)，u_i(t)表示第i个用户在时隙t的个体效益，

|·|表示集合中元素数量，H_i(t)表示第三虚拟量在时隙t的数值，

8.根据权利要求5所述的方法，其特征在于，

所述第四惩罚上界项具体包括：

所述建议矩阵约束具体包括：

其中，

E_i(t)＝[Q_i(t)]⁺+Z_i(t)+[H_i(t)]⁺，

a_ij表示建议矩阵中元素，

表示网络的集合，j表示网络的序号，

为第i个用户在时隙t接入网络j＝β_i的有效传输比例，R_i(t)表示第i个用户在时隙t的传输速率，C_j(t)表示第j个网络在时隙t的容量，

表示第i个用户在时隙t的动作的可选集。

9.一种蜂窝和无人机一体化网络的选择装置，其特征在于，包括：

收发机，用于获取无人机网络的容量信息、蜂窝网络的容量信息、用户可接入网络集合信息以及传输速率信息，以及向用户发送动作向量信息，以使用户根据动作向量信息确定接入网络；

处理器，根据所述无人机网络的容量信息、所述蜂窝网络的容量信息、所述用户可接入网络集合信息、所述传输速率信息以及第四选择模型生成所述动作向量信息；

其中，所述第四选择模型为总违反量的漂移与收益的差值小于等于惩罚上界量；所述总违反量的漂移根据所述总违反量的当前时隙的数值和所述总违反量的后一时隙的数值获得；所述总违反量的当前时隙的数值根据当前时隙第一虚拟量、当前时隙第二虚拟量以及当前时隙第三虚拟量获得；所述第一虚拟队列中当前时隙第一虚拟量根据第二粗相关均衡约束的前一时隙违反量和第一虚拟队列中前一时隙第一虚拟量生成，所述第二虚拟队列的当前时隙第二虚拟量根据第三辅助变量约束的前一时隙违反量和第二虚拟队列中前一时隙第二虚拟量生成，所述第三虚拟队列的当前时隙第三虚拟量根据第二最小个体时间平均效益约束的前一时隙违反量和第三虚拟队列中前一时隙第三虚拟量生成，其中，初始时隙第一虚拟量、初始时隙第二虚拟量以及初始时隙第三虚拟量均为零；

第三选择模型包括第三目标函数和第三约束，所述第三目标函数为以第三辅助变量为自变量的比例公平函数的时间平均期望，所述第三约束至少包括第二粗相关均衡约束、第二最小个体时间平均效益约束、第二辅助变量约束以及第三辅助变量约束，所述第二粗相关均衡约束用于对所述个体效益的时间平均期望和所述第二辅助变量的时间平均期望进行约束，所述第二最小个体时间平均效益约束用于对所述个体效益的时间平均期望进行约束，所述第二辅助变量约束用于对所述第二辅助变量进行约束，所述第三辅助变量约束用于对所述第三辅助变量的时间平均期望与所述个体效益的时间平均期望进行约束；

第一选择模型包括：第一目标函数和第一约束，所述第一目标函数为以个体效益的时间平均值为自变量的比例公平函数，所述第一约束至少包括：第一粗相关均衡约束、第一最小个体时间平均效益约束以及第一动作概率约束，所述第一粗相关均衡约束用于对所述个体效益的时间平均值和第一辅助变量进行约束，所述第一最小个体时间平均效益约束用于对所述个体效益的时间平均值进行约束，所述第一动作概率约束用于对在随机事件向量的条件下的动作概率进行约束；所述个体效益的时间平均值根据所述个体效益、随机事件概率和在随机事件向量的条件下的动作概率获得，所述在随机事件向量的条件下的动作概率为所述用户在随机事件向量发生的条件下执行所述动作向量的概率；每个用户的个体效益根据动作向量和随机事件向量获得；所述动作向量根据所述随机事件向量生成，随机事件向量根据所述蜂窝网络的容量模型、所述无人机网络的容量模型、所述用户可接入网络集合以及所述传输速率模型生成，所述用户可接入网络集合根据所述无人机网络的位置模型和所述用户的位置模型生成；

所述第一目标函数具体包括：