CN113919188A

CN113919188A - 一种基于上下文-mab的中继无人机路径规划方法

Info

Publication number: CN113919188A
Application number: CN202110847795.XA
Authority: CN
Inventors: 赵乐; 卢继华; 冯立辉; 闫磊; 聂振钢; 尹俪橦
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2022-01-11
Anticipated expiration: 2041-07-27
Also published as: CN113919188B

Abstract

本发明涉及一种基于上下文‑MAB的中继无人机路径规划方法，属于基于强化学习的路径规划技术领域。所述方法，先获取任务区域的用户数据，构建任务区域模型；获取用户、无人机与子网格特征，优化无人机与子网格特征权重矩阵，得到无人机与子网格上下文特征；而后对用户、无人机与子网格进行聚类，对无人机、子网格特征进行降维，得到无人机与子网格降维特征；随后基于此进行上下文‑MAB推荐，并依据用户分类结果估计连接情况反馈值，得到无人机路径；所述中继无人机路径规划方法，有效减少了推荐目标的数量；减小了服务用户数目达到最大值需要的无人机架次，并提高了服务用户总数与平均收益。

Description

一种基于上下文-MAB的中继无人机路径规划方法

技术领域

本发明涉及一种基于上下文-MAB的中继无人机路径规划方法，基于上下文匪徒算法的空地网络中继无人机的路径规划方法，属于基于强化学习的路径规划技术领域。

背景技术

相对于传统飞机，由于无人机拥有更长的航行时间，能够比飞行员驾驶执行时间更长、难度更大的任务，因此在各种应用场景中已经获取了人们的广泛关注。此外，无人机便于维护、成本低廉的特点也推动了无人机向科学应用领域与娱乐应用领域更加广泛与深入的发展。

近年来，无人机已被引入到动态中继、大面积环境传感和应急通信的无线通信系统中，称为无人机辅助网络。在环境传感系统中，无人机作为数据收集器，飞过大面积无人区，收集部署在考察区域内的环境传感器的数据。在移动中继系统中，利用无人机作为动态中继来代替固定中继节点，从而实现最佳中继位置的确定，尽可能的动态调整以匹配通信场景。在应急通信系统中，UAV可以成为配备小型基站(BS)的平台为紧急事件和重点体育比赛、或者灾后现场等应用场景提供无线宽带服务。

现有技术下无人机通常通过在任务区域上方固定悬停或定期盘旋的方法执行中继任务，电量耗尽后返回充能，执行效率低下，并且无人机轮换时可能会出现某些区域网络断开的情况。要改善这种情况的一种方法是应用更多的无人机，成本过于高昂，且在广地域范围、大数量用户的情况中劣势更为明显。

本发明将空地网络中继无人机路径规划问题建模为一个MAB问题。MAB问题是机器学习中的一个经典范式，在这个范式中，一个在线算法在一连串的试验中从一组策略中选择，以使所选策略的总回报最大化。MAB问题将应用场景中的选择问题转化为收益问题，从宏观的角度看待某个特定的应用场景，通过不同的算法来平衡探索与利用。常用的算法包括contextual-free的ε-贪婪算法、Softmax算法、UCB算法、以及基于上下文的汤普森采样法和LinUCB算法等。本问题上下文-MAB，即上下文-多臂匪徒问题与空地网络中继无人机路径规划问题结合，并考虑了无人机与用户无法获知用户连接情况的情形，通过用户分段的方法估计用户的连接情况。以期提高无人机路径规划效率、获取更高的平均收益。

发明内容

本发明的目的是针对现有空地网络中继无人机路径规划方法存在的用户连接率不高、无人机飞行成本高的问题，提出了一种基于上下文-MAB的中继无人机路径规划方法。

为了达到上述目的，本发明所采用如下技术方案：

所述路径规划方法，包括如下步骤：

步骤1、划分任务区域并保存划分好的子网格位置信息，初始化无人机航行路径；

其中，任务区域即为空地网络的服务地域，该区域被划分为K×K个相等的子网格；无人机航行路径为一列向量，向量元素是无人机服务过的子网格；

步骤2、对用户、无人机与子网格进行特征编码，得到用户、无人机与子网格的二进制特征向量；

具体为：对用户、无人机或子网格的特征按照大小分段，对应分段的特征进行二进制编码，并将得到的二进制编码作为该特征对应的二进制特征向量，连接不同特征所得二进制编码得到完整的二进制特征向量；

其中，用户特征包括用户所在地理位置与用户终端收发功率；

无人机特征包括：无人机电量、无人机所在位置与出发点距离、无人机用户占有率以及无人机传输功率；

子网格特征包括：子网格内用户数量、子网格内用户距离子网格中心距离、子网格与出发点距离及子网格用户连接率；

通过步骤2，得到了用户、无人机与子网格的二进制特征向量；

步骤3、获取优化后的无人机与子网格特征的权重矩阵，得到无人机的交互特征向量；

步骤3具体包括如下子步骤：

步骤3.1、对无人机与子网格的二进制特征向量归一化，得到无人机与子网格的归一化特征向量；

其中，二进制特征向量归一化，具体为：特征向量各元素除以该向量的模值；

步骤3.2、基于步骤3.1得到的无人机与子网格的归一化特征向量建立目标函数并进行优化，获取优化后的无人机与子网格特征的权重矩阵，具体包括如下子步骤：

步骤3.2.1、建立目标函数；

其中，目标函数为式(3)；

其中，W为无人机与子网格特征的权重矩阵，初始化权重矩阵W为全“1”矩阵；

为权重矩阵的元素服从的高斯先验分布的方差，即，权重矩阵W的元素服从

||·||₂为矩阵·的L2范数；p(r_ij|s_ij)为在当前张量指示的参考函数下交互数据r_ij的似然函数；

其中，r_ij为第i架无人机与第j个子网格的连接情况反馈值，为维度为D×C的交互矩阵r中的第i行、第j列元素；连接情况的集合表示为：

为根据不同特征的无人机在不同特征的子网格提供服务时的连接效果得到的训练集，s_ij表示第i架无人机与第j个子网格的加权特征融合值，计算为公式(4)：

其中，x_i|_{i∈[1，2，...，M]}为第i架无人机的归一化特征向量；

为第j个子网格的归一化特征向量；

步骤3.2.2、对目标函数梯度下降优化，得到优化后的无人机与子网格特征的权重矩阵W；

步骤3.3、获取无人机交互特征向量，具体为：无人机的归一化特征向量与优化后的无人机与子网格特征的权重矩阵融合得到无人机交互特征向量；

其中，无人机交互特征为一种联合了子网格与无人机交互数据的无人机特征表示，通过式(5)得到，

其中，

为第i架无人机交互特征向量，维度与参考函数中的z_j一致，为K²，W为步骤3.2得到的优化后的无人机与子网格特征的权重矩阵，x_i为步骤3.1得到的无人机的归一化特征向量；

至此，得到了无人机交互特征向量；

步骤4、对无人机交互特征向量进行特征降维，得到降维交互特征向量，具体包括：确定聚类中心，对无人机交互特征向量进行高斯核映射并归一化；具体包括如下子步骤：

步骤4.1、对无人机交互特征向量进行K-means聚类，得到无人机交互特征向量聚类中心；

其中，聚类中心的个数S的范围为6到10；

步骤4.2、对步骤3得到的无人机交互特征向量进行高斯核映射，得到无人机映射距离向量；

具体为：分别用步骤3得到的无人机交互特征向量对应步骤4.1得到的S个无人机交互特征的聚类中心，计算高斯核映射距离，将交互特征向量距离不同聚类中心的距离编码为映射距离向量；

其中，通过式(6)计算无人机交互特征向量与步骤4.1得到的无人机交互特征向量聚类中心的映射距离；

其中，k(y，o)表示向量y与向量o的高斯核映射距离；σ为高斯核映射的参数，取值范围为0.5到1；||·||为向量·的L1范数，即为·的模值；

步骤4.3、对无人机映射距离向量归一化，得到降维交互特征向量；

其中，无人机映射距离向量归一化，具体为：将无人机映射距离向量中的各元素除以该向量的模值，得到无人机降维特征向量表示为：

i＝(1，2，...，M)，维度为S×1，模值为1；

至此，通过步骤4得到了降维交互特征向量；

步骤5、归一化步骤2得到的用户的二进制特征向量，并对用户进行K-means聚类，得到用户的聚类中心及用户簇；

步骤6、根据步骤5得到的降维交互特征向量，为执行任务的无人机推荐子网格，保存无人机路径，具体包括如下子步骤：

步骤6.1、获取每个子网格的用户连网效果收益的估计；

具体为：第g个子网格用户连网效果收益的估计通过式(7)计算：

其中，p_t，g表示第t架次无人机与第g个子网格用户连接收益的估计；

为岭回归估计参数；α为参数，取值范围为0.5到1；

为降维交互特征向量，作为子网格特征；D_g为该架次无人机之前输入的m个降维交互特征向量组成的训练矩阵，维度为m×S；b_g为反馈向量，b_g初始化为0向量；

其中，

根据式(8)计算：

其中，θ^*为岭回归的优化结果，I为单位矩阵；

步骤6.2、为执行任务的无人机推荐子网格，作为该轮架次无人机的任务区域

其中，各个用户连网效果收益的估计通过步骤6.1得到，在K²个子网格中选择用户连网效果收益的估计最大的子网格

作为第t架次无人机的任务区域；

步骤6.3、更新反馈向量与训练矩阵；

其中，反馈向量通过式(9)更新，训练矩阵更新为步骤6.1中的D_g与对应第t架次无人机的降维交互特征向量的融合矩阵；

b_g′＝b_g+r^*x_t (9)

其中，b_g′为更新后的反馈向量，r^*为第t架次无人机在选中的子网格实际用户连接收益；

其中，子网格实际用户连接收益r^*为0或1，根据子网格用户连接率V％判断；若V∈[80，100]，则r^*为1；否则为0；

其中，V为子网格内所有用户连接情况反馈值求和结果与子网格内用户数目的比；

其中，用户连接情况反馈值为0或1，即当用户成功联网时为1，否则为0；

而对于有些用户的连接情况无法获知的情况，通过步骤6.4对其连接情况反馈值进行估计；

步骤6.4、估计无人机在选中子网格内情况未知的用户的连接情况反馈值，具体为：计算该子网格内各用户簇的平均连接情况反馈值，得到该用户的连接情况反馈值；

步骤6.4具体包括如下子步骤：

步骤6.4.1、获得本子网格内用户各用户簇平均连接情况反馈值；

其中，用户簇为步骤5得到；

步骤6.4.2、使用该用户所在用户簇在该子网格内的平均反馈值作为该用户的连接情况反馈值；

至此，通过步骤6.4得到了连接情况未知的用户的连接情况反馈值估计，结果反馈至步骤6.3；

步骤6.5、保存无人机路径，具体为：

无人机任务中依次被推荐的子网格组成的集合表示为

v为该无人机服务过子网格的个数，保存为该无人机的航行路径；

至此，完成了基于上下文-MAB的中继无人机路径规划方法。

有益效果

所述一种基于上下文-MAB的中继无人机的路径规划方法，与现有路径规划方法相比，具有如下有益效果：

1.所述方法创造性的将上下文-MAB问题引入到无人机组网路径规划问题中，为该问题提出了一种全新的解决方案，相较于随机推荐任务区域的方法减少了达到最大服务用户数量所需的无人机架次；

2.所述方法针对无人机在面向大量用户所在地域的情况，采用按照子网格特征与子网格推荐的方法来取代直接面向用户的推荐方法，减小了推荐目标的数量；

3.所述方法创造性提出了无人机与任务区域子网格特征编码方法，并通过训练集的用户连接结果配置不同特征的权重，得到了有效整合的无人机与任务区域连接情况的交互特征，提高了平均收益；

4.所述方法针对在联网状态下有些用户连接情况未知的情况，通过采取对用户分类的方法估计用户在未来的连接情况，相比于其他MAB路径规划方法提高了用户连接状况反馈值的准确率，进一步提高了平均收益；

附图说明

图1是本发明所述一种基于上下文-MAB的中继无人机的路径规划方法的流程图；

图2是本发明所述基于上下文-MAB的中继无人机的路径规划方法中任务区域划分示意图；

图3是本发明所述基于上下文-MAB的中继无人机的路径规划方法中步骤6.4中连接状况未知的用户反馈值估计流程图；

图4是本发明所述基于上下文-MAB的中继无人机的路径规划方法中服务用户数量与其他方法的对比；

图5是本发明所述基于上下文-MAB的中继无人机的路径规划方法中与其他MAB-路径规划方法平均收益的对比。

具体实施方式

下面结合附图和实施例对本发明一种基于上下文-MAB的中继无人机的路径规划方法做进一步说明和详细描述。

实施例1

本发明基于上下文-MAB方法，实现了在特定区域进行无人机自组网路径规划算法。应用场景包括洪水、地震、火灾等灾害，以及其他需要快速建立应急网络通信的场景。在类似场景中，无人机利用自身机动能力强，任务时间长等优势，能够发挥重要作用。无人机应急通信服务质量的提升也逐渐为人们所关注，本发明针对应急通信中无人机系统的路径规划问题，引入了强化学习中的MAB方法，将无人机执行任务点的选择与路径规划问题建模为MAB问题。通过为无人机与子网格特征编码、交互与降维，引入了上下文-MAB。针对用户连接情况反馈值结果未知的情形，提出了解决方案。本发明主要所述一种基于上下文-MAB的中继无人机的路径规划方法的流程图见附图1所示；

本实例为本发明在灾害等应急通信场景中的应用实例，在实施例中任务区域假设为10km×10km的正方形区域，不考虑区域的海拔高低和因建筑物遮挡造成的连接失败情况，并在区域中设置无人机充能点。无人机架次为12架，12架无人机依次进入任务区域执行任务后充电，并重复进入任务区域中执行任务。在本发明中，无人机相当于MAB问题的Bandit，子网格相当于MAB问题中的Arm。在用户连接数与无人机连接效率等指标上展示了良好效果。

主要包含如下步骤：

其中，任务区域即为空地网络的服务地域，该区域被划分为K×K个相等的子网格，实例中K＝5；用户随机分布，用户总数为2294，每架无人机服务范围恰好包括一个子网格；无人机任务区域划分示意如图2所示；

通过步骤1，需要推荐的目标数量有2294减少到25个；

所有的子网格集合表示为

任务区域第s行和第t列的子网格的中心坐标表示为(s_x，t_y)，组成的集合，记为：C＝[s_x，t_y]_{s，t∈[1，K]}；

步骤2、提取用户特征，再对用户特征进行编码得到用户的二进制特征向量，具体包括如下子步骤：

步骤2.1、提取用户特征，具体包括：用户位置的x坐标、用户位置的y坐标及用户终端收发功率；

步骤2.1，具体包括如下子步骤：

步骤2.1.1、保存用户位置的x、y坐标；

其中，用户位置的x、y坐标根据历史记录得到；

步骤2.1.2、保存用户终端的收发功率；

其中，用户终端的收发功率在实例中随机赋予用户，作为用户的特征；

步骤2.2、对用户特征进行编码；

步骤2.2.1、对用户位置x、y坐标编码，得到二进制编码并保存，具体为：

根据子网格内用户位置x、y坐标进行分段二进制编码；

其中，二进制编码，具体为：对用户位置x、y坐标按照大小分段，对坐标值大小按照分段数进行二进制编码，并将得到的二进制编码作为用户特征的一部分保存；

步骤2.2.2、对用户终端收发功率进行编码，并将编码所得与步骤2.2.1所得编码相连，得到二进制特征向量并保存；

其中，用户终端手法功率进行编码，与步骤2.2.1方法相同，具体为：根据用户终端收发功率进行二进制编码；

步骤2.2.2的编码所得与步骤2.2.1所得编码相连，得到的二进制特征向量，即任务区域子网格的二进制特征向量；

步骤3、提取子网格特征，再对子网格特征进行编码得到任务区域子网格的二进制特征向量，具体包括如下子步骤：

步骤3.1、提取子网格特征，具体包括：用户数量、用户及子网格距离信息；

步骤3.1，具体包括如下子步骤：

步骤3.1.1、保存子网格内用户数量与位置坐标；

其中，子网格内用户数量与根据历史记录得到，结果按网格顺序保存为

位置坐标表示为：

其中，num_i为第i个网格中的用户数量；{[Position_x，Position_y]_{num_i}}_i为第i个子网格中第i个用户位置的位置坐标；

步骤3.1.2、通过式(1)计算并保存子网格内用户与子网格中心距离；

D_{user_i}＝{||[Position_x，Position_y]_{num_i}-[center_x，center_y]_i||₂}_i (1)

其中，D_{user_i}表示第i个用户与其所在子网格中心的距离；||·||₂为向量·的L₂范数，子网格内用户与子网格中心距离按照任务区域子网格顺序保存为：

其中，

为第i个子网格中所有用户距离子网格中心的距离；

步骤3.1.3、通过式(2)计算并保存子网格与出发点的距离；

D_{grid_center}＝{||[x_s，x_t]-[x₀，y₀]||₂}_{s，t∈[1，K]} (2)

其中，[x₀，y₀]表示出发点坐标，子网格与出发点之间的距离按照任务区域子网格顺序保存为D_grid-center＝{D_[s，t]}_{s，t∈[1，K]}，表示子网格与出发点的距离；

子网格内用户与子网格中心距离和子网格与出发点的距离信息统称为用户及子网格距离信息；

步骤3.2、对子网格特征进行编码，具体包括如下子步骤：

步骤3.2.1、对子网格内用户数量编码，得到二进制编码并保存，具体为：

根据子网格内用户数目

进行分段二进制编码；

其中，二进制编码，具体为：对用户数目N按照大小分段，对所在分段的用户数目按照分段数进行二进制编码，并将得到的二进制编码作为子网格特征的一部分保存；

步骤3.2.2、对子网格内用户距离子网格中心距离进行编码，并将编码所得与步骤3.2.1得到的二进制编码相连；

其中，对子网格内用户距离子网格中心距离进行编码，与步骤3.2.1相同，具体为：根据子网格内用户距离子网格中心距离D_user-center进行分段二进制编码；

步骤3.2.3、对子网格与出发点之间的距离进行编码，并将编码所得与步骤3.2.2所得编码相连，得到二进制特征向量并保存；

其中，对子网格与出发点之间的距离进行编码，与步骤3.2.1方法相同，具体为：根据子网格与出发点之间的距离D_grid-center进行分段二进制编码；

步骤3.2.3的编码所得与步骤3.2.2所得编码相连，得到的二进制特征向量，即任务区域子网格的二进制特征向量；

其中，二进制特征向量的保存，具体为：按照子网格顺序G＝{1，2，...，K²}保存，共有K²个，保存为：

维度为C×1，实例中C＝40；

步骤4、提取无人机特征，再对无人机特征进行编码得到无人机的二进制特征向量；

其中，无人机特征包括无人机电量、位置信息及与无人机连接的用户情况信息；

步骤4，具体包括如下子步骤：

步骤4.1、提取无人机特征，具体包括如下子步骤：

步骤4.1.1、提取无人机电量、当前位置信息；

其中，无人机电量按照无人机编号，记为P＝[power₁，power₂，...，power_M]，1，2，...，M为无人机编号，无人机当前位置通过无人机当前所在网格表示；

其中，无人机当前位置信息表示为按顺序保存的无人机所在子网格的序号，即P_UAV＝[UAV₁，UAV₂，...，UAV_M]，由此得到无人机距离出发点距离D_UAV-center；

其中，M为执行任务的无人机数量，D_UAV-center为按照无人机顺序保存的各无人机所在子网格与出发点的距离；

步骤4.1.2、提取与无人机连接的用户情况信息；

其中，与无人机连接用户数由无人机用户占有率R_UAV-user，具体为：按照实际连接人数与无人机连接最大用户数的比例保存，即R_UAV-user＝[r₁，r₂，...，r_M]；

步骤4.2、对无人机特征进行编码，具体包括如下子步骤；

步骤4.2.1、对无人机电量进行编码，得到二进制编码并保存，具体为：

根据无人机电量P＝[power₁，power₂，...，power_M]进行分段二进制编码；

其中，分段二进制编码，具体为：对无人机电量按照大小分段，对所在分段的用户数目按照分段数进行二进制编码，并将得到的二进制编码作为无人机特征的一部分保存；

步骤4.2.2、对无人机所在位置与出发点距离编码，并将编码所得与步骤4.2.1得到的二进制编码相连；

其中，对无人机所在位置与出发点距离编码，与步骤4.2.1相同，具体为根据无人机与出发点距离进行分段二进制编码；

步骤4.2.3、对无人机用户占有率编码，并将编码所得与步骤4.2.2得到的二进制编码相连；

其中，对无人机用户占有率编码，与步骤4.2.1相同，具体为：根据无人机用户占有率进行二进制分段编码；

步骤4.2.4、对无人机传输功率编码，并将编码所得与步骤4.2.3得到的二进制编码相连，得到二进制特征向量并保存；

其中，无人机传输功率为每架无人机特有，对无人机传输功率编码，与步骤4.2.1相同，具体为：根据无人机传输功率进行二进制分段编码；

步骤4.2.4的编码所得与步骤4.2.3所得编码相连，得到的二进制特征向量，即无人机的二进制特征向量；

其中，二进制特征向量的保存，具体为按照无人机编号顺序保存，共有M个，保存为：x_i|_{i∈[1，2，...，M]}，维度为D×1，实例中，D＝80；

至此，通过步骤2、3、4，得到了用户、无人机与子网格的二进制特征向量；

步骤5、获取优化后的无人机与子网格特征的权重矩阵，得到无人机的交互特征向量；

步骤5具体包括如下子步骤：

步骤5.1、对无人机与子网格的二进制特征向量归一化，得到无人机与子网格的归一化特征向量；

其中，二进制特征向量归一化，具体为：特征向量各元素除以该向量的模值，子网格的归一化特征向量也称为子网格交互特征向量；

步骤5.2、获取优化后的无人机与子网格特征的权重矩阵，具体包括如下子步骤：

步骤5.2.1、计算无人机与子网格的加权特征融合值，具体通过式(3)所示：

其中，s_ij表示第i架无人机与第j个子网格的加权特征融合值，x_i，b表示无人机的归一化特征向量x_i|_{i∈[1，2，...，M]}的第b个元素，z_j，a表示子网格的归一化特征向量

的第a个元素；W为维度为D×C的权重矩阵，w_a，b为W的第a行第b列元素，与无人机和子网格的特征有关，·^T表示对向量·的转置；

步骤5.2.2、建立目标函数，并对其进行梯度下降，得到优化的权重矩阵W：

其中，目标函数为式(4)：

其中，r_ij为第i架无人机与第j个子网格的连接情况反馈值，为维度为D×C的交互矩阵r中的第i行、第j列元素；以联网覆盖子网格区域内用户比例作为评价标准，超过V％为连接成功，否则为连接失败，V的取值范围为80到100；连接情况的集合表示为：

为根据不同特征的无人机x_i|_{i∈[1，2，...，M]}在不同特征的子网格

提供服务时的连接效果得到的训练集，

为权重矩阵服从的高斯先验分布的方差，即权重矩阵W的元素w_ab服从

p(r_ij|s_ij)为在当前张量指示的参考函数下交互数据r_ij的似然函数，w_ab为权重矩阵W的元素；

目标函数梯度为式(5)：

通过梯度下降，得到优化的权重矩阵W；

步骤5.3、获取无人机交互特征向量；

其中，无人机交互特征向量为一种联合了子网格与无人机交互数据的无人机特征表示；通过式(6)得到，

其中，

的维度与参考函数中的z_j一致，为K²；

为第i架无人机交互特征向量，W为步骤5.2得到的优化后的无人机与子网格特征的权重矩阵，x_i为步骤5.1得到的无人机的归一化特征向量；

至此，得到了无人机交互特征向量；

步骤6、对无人机交互特征向量进行特征降维，得到降维交互特征向量，具体包括：确定聚类中心，对无人机交互特征向量进行高斯核映射并归一化；具体包括如下子步骤：

步骤6.1、对无人机交互特征向量进行K-means聚类，得到无人机交互特征向量的聚类中心；

其中，K-means聚类方法得到的聚类中心满足式(6)：

其中，||·||为向量·的L1范数，即为·的模值；

其中，o.为通过K-means得到的聚类中心，聚类中心集合表示为{o._{_k}}|_{k∈(1，2，...，S)}；S为聚类中心的个数，实例中设置为6；

步骤6.2、对步骤5得到的无人机交互特征向量，得到无人机映射距离向量；

其中，通过式(7)计算无人机与子网格特征向量与步骤5.1得到的聚类中心的映射距离；

其中，k(y，o)表示向量y与向量o的高斯核映射距离；||·||为向量·的L1范数，即为·的模值；σ为高斯核映射的参数，实例中设置为1；

步骤6.3、对无人机映射距离向量归一化，得到降维交互特征向量；

i＝(1，2，...，M)，维度为S×1，模值为1；

至此，通过步骤4得到了降维交互特征向量；

步骤7、归一化步骤2得到的用户的二进制特征向量，并对用户进行K-means聚类，得到用户的聚类中心及用户簇；

步骤8、根据步骤6得到的降维交互特征向量，为执行任务的无人机推荐子网格，保存无人机路径，具体包括如下子步骤：

步骤8.1、获取每个子网格的用户连网效果收益的估计；

具体为：第g个子网格用户连网效果收益的估计通过式(8)计算：

为岭回归估计参数；α为参数，取值范围为0.5到1；

其中，

根据式(8)计算：

其中，θ^*为岭回归的优化结果，I为单位矩阵；

步骤8.2、为执行任务的无人机推荐子网格，作为该轮架次无人机的任务区域；

其中，各个用户连网效果收益的估计通过步骤6.1得到，在K²个子网格中选择用户连网效果收益的估计最大的子网格g_t ^*，作为第t架次无人机的任务区域；

步骤8.3、更新反馈向量与训练矩阵；

b_g′＝b_g+r^*x_t (9)

步骤8.4、估计无人机在选中子网格内情况未知的用户的连接情况反馈值，具体为：计算该子网格内各用户簇的平均连接情况反馈值，得到该用户的连接情况反馈值；流程图如图3所示；

步骤8.4具体包括如下子步骤：

步骤8.4.1、获得本子网格内用户各用户簇平均连接情况反馈值；

其中，用户簇为步骤7得到；

步骤8.4.2、使用该用户所在用户簇在该子网格内的平均反馈值作为该用户的连接情况反馈值；

至此，通过步骤8.4得到了连接情况未知的用户的连接情况反馈值估计，结果反馈至步骤8.3；

步骤8.5、保存无人机路径，具体为；

无人机任务中依次被推荐的子网格组成的集合表示为

至此，完成了基于上下文-MAB的中继无人机路径规划方法。

为了评估发明所述基于上下文-MAB的中继无人机路径规划方法，实例中将随机派遣无人机执行任务的服务用户数量与contextual-free的ε-贪婪算法、UCB算法，及本方法所述基于上下文-MAB方法比较，观察服务用户数量与无人机架次的关系，结果如图4所示；

由图4可知，看到本发明所述基于上下文-MAB方法相比随机派遣方法及其他MAB路径规划方法，能够用更少的无人机起飞架次达到更大的服务用户总数，各个方法达到的服务用户总数最大值与达到最大用户连接数所需架次如表(1)所示：

表1服务用户总数最大值与所需无人机架次表

另外，实例还计算了各MAB算法执行中继无人机路径规划任务的平均收益与无人机飞行架次关系，结果如图5所示；

由图5可知，本发明所述基于上下文-MAB方法相比其他路径规划方法，对比其他MAB-路径规划方法，具有更高的平均收益。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于上下文-MAB的中继无人机路径规划方法，其特征在于：包括如下步骤：

步骤3具体包括如下子步骤：

步骤3.2、基于步骤3.1得到的无人机与子网格的归一化特征向量建立目标函数并进行优化，获取优化后的无人机与子网格特征的权重矩阵；

步骤6、根据步骤4得到的降维交互特征向量，为执行任务的无人机推荐子网格，保存无人机路径；具体包括如下子步骤：

步骤6.1、获取每个子网格的用户连网效果收益的估计；

步骤6.2、为执行任务的无人机推荐子网格，作为该轮架次无人机的任务区域；

作为第t架次无人机的任务区域；

步骤6.3、若用户连接情况可知，更新反馈向量与训练矩阵，若用户连接情况不可知，则根据步骤6.4估计用户的连接情况反馈值，再更新反馈向量与训练矩阵；

步骤6.5、保存无人机路径，具体为：

获取无人机任务中依次被推荐的子网格集合，保存为该无人机的航行路径；

至此，完成了基于上下文-MAB的中继无人机路径规划方法。

2.根据权利要求1所述的一种基于上下文-MAB的中继无人机路径规划方法，其特征在于：步骤1中，任务区域即为空地网络的服务地域，该区域被划分为K×K个相等的子网格；无人机航行路径为一列向量，向量元素是无人机服务过的子网格。

3.根据权利要求2所述的一种基于上下文-MAB的中继无人机路径规划方法，其特征在于：步骤2、具体为：对用户、无人机或子网格的特征按照大小分段，对应分段的特征进行二进制编码，并将得到的二进制编码作为该特征对应的二进制特征向量，连接不同特征所得二进制编码得到完整的二进制特征向量；

通过步骤2，得到了用户、无人机与子网格的二进制特征向量。

4.根据权利要求3所述的一种基于上下文-MAB的中继无人机路径规划方法，其特征在于：步骤3.1中，二进制特征向量归一化，具体为：特征向量各元素除以该向量的模值。

5.根据权利要求4所述的一种基于上下文-MAB的中继无人机路径规划方法，其特征在于：步骤3.2，具体包括如下子步骤：

步骤3.2.1、建立目标函数；

其中，目标函数为式(3)；

其中，x_i|_{i∈[1,2,...,M]}为第i架无人机的归一化特征向量；

为第j个子网格的归一化特征向量；

步骤3.2.2、对目标函数梯度下降优化，得到优化后的无人机与子网格特征的权重矩阵W。

6.根据权利要求5所述的一种基于上下文-MAB的中继无人机路径规划方法，其特征在于：步骤3.3中，无人机交互特征为一种联合了子网格与无人机交互数据的无人机特征表示，通过式(5)得到，

其中，

为第i架无人机交互特征向量，维度与参考函数中的z_j一致，为K²，W为步骤4.2得到的优化后的无人机与子网格特征的权重矩阵，x_i为步骤3.1得到的无人机的归一化特征向量；

至此，得到了无人机交互特征向量。

7.根据权利要求6所述的一种基于上下文-MAB的中继无人机路径规划方法，其特征在于：步骤4.1中，聚类中心的个数S的范围为6到10；

步骤4.2，具体为：分别用步骤3得到的无人机交互特征向量对应步骤4.1得到的S个无人机交互特征的聚类中心，计算高斯核映射距离，将交互特征向量距离不同聚类中心的距离编码为映射距离向量；

其中，k(y,o)表示向量y与向量o的高斯核映射距离；σ为高斯核映射的参数，取值范围为0.5到1；||·||为向量·的L1范数，即为·的模值。

8.根据权利要求7所述的一种基于上下文-MAB的中继无人机路径规划方法，其特征在于：步骤4.3中，无人机映射距离向量归一化，具体为：将无人机映射距离向量中的各元素除以该向量的模值，得到无人机降维特征向量表示为：

维度为S×1，模值为1；

至此，通过步骤4得到了降维交互特征向量。

9.根据权利要求8所述的一种基于上下文-MAB的中继无人机路径规划方法，其特征在于：步骤6.1、具体为：第g个子网格用户连网效果收益的估计通过式(7)计算：

其中，p_t,g表示第t架次无人机与第g个子网格用户连接收益的估计；

为岭回归估计参数；α为参数，取值范围为0.5到1；

其中，

根据式(8)计算：

其中，θ^*为岭回归的优化结果，I为单位矩阵。

10.根据权利要求9所述的一种基于上下文-MAB的中继无人机路径规划方法，其特征在于：步骤6.3，具体为：反馈向量通过式(9)更新，训练矩阵更新为步骤6.1中的D_g与对应第t架次无人机的降维交互特征向量的融合矩阵；

b_g′＝b_g+r^*x_t (9)

其中，子网格实际用户连接收益r^*为0或1，根据子网格用户连接率V％判断；若V∈[80,100]，则r^*为1；否则为0；

步骤6.4具体包括如下子步骤：

其中，用户簇为步骤5得到；

至此，通过步骤6.4得到了连接情况未知的用户的连接情况反馈值估计，结果反馈至步骤6.3。