CN113919188B - 一种基于上下文-mab的中继无人机路径规划方法 - Google Patents
一种基于上下文-mab的中继无人机路径规划方法 Download PDFInfo
- Publication number
- CN113919188B CN113919188B CN202110847795.XA CN202110847795A CN113919188B CN 113919188 B CN113919188 B CN 113919188B CN 202110847795 A CN202110847795 A CN 202110847795A CN 113919188 B CN113919188 B CN 113919188B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- sub
- grid
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 239000011159 matrix material Substances 0.000 claims abstract description 51
- 230000009467 reduction Effects 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 180
- 230000003993 interaction Effects 0.000 claims description 76
- 238000013507 mapping Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 23
- 230000000694 effects Effects 0.000 claims description 17
- 230000008901 benefit Effects 0.000 claims description 14
- 230000006855 networking Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 10
- 238000003064 k means clustering Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 230000002787 reinforcement Effects 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/23—Design optimisation, verification or simulation using finite element methods [FEM] or finite difference methods [FDM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Traffic Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于上下文‑MAB的中继无人机路径规划方法,属于基于强化学习的路径规划技术领域。所述方法,先获取任务区域的用户数据,构建任务区域模型;获取用户、无人机与子网格特征,优化无人机与子网格特征权重矩阵,得到无人机与子网格上下文特征;而后对用户、无人机与子网格进行聚类,对无人机、子网格特征进行降维,得到无人机与子网格降维特征;随后基于此进行上下文‑MAB推荐,并依据用户分类结果估计连接情况反馈值,得到无人机路径;所述中继无人机路径规划方法,有效减少了推荐目标的数量;减小了服务用户数目达到最大值需要的无人机架次,并提高了服务用户总数与平均收益。
Description
技术领域
本发明涉及一种基于上下文-MAB的中继无人机路径规划方法,基于上下文匪徒算法的空地网络中继无人机的路径规划方法,属于基于强化学习的路径规划技术领域。
背景技术
相对于传统飞机,由于无人机拥有更长的航行时间,能够比飞行员驾驶执行时间更长、难度更大的任务,因此在各种应用场景中已经获取了人们的广泛关注。此外,无人机便于维护、成本低廉的特点也推动了无人机向科学应用领域与娱乐应用领域更加广泛与深入的发展。
近年来,无人机已被引入到动态中继、大面积环境传感和应急通信的无线通信系统中,称为无人机辅助网络。在环境传感系统中,无人机作为数据收集器,飞过大面积无人区,收集部署在考察区域内的环境传感器的数据。在移动中继系统中,利用无人机作为动态中继来代替固定中继节点,从而实现最佳中继位置的确定,尽可能的动态调整以匹配通信场景。在应急通信系统中,UAV可以成为配备小型基站(BS)的平台为紧急事件和重点体育比赛、或者灾后现场等应用场景提供无线宽带服务。
现有技术下无人机通常通过在任务区域上方固定悬停或定期盘旋的方法执行中继任务,电量耗尽后返回充能,执行效率低下,并且无人机轮换时可能会出现某些区域网络断开的情况。要改善这种情况的一种方法是应用更多的无人机,成本过于高昂,且在广地域范围、大数量用户的情况中劣势更为明显。
本发明将空地网络中继无人机路径规划问题建模为一个MAB问题。MAB问题是机器学习中的一个经典范式,在这个范式中,一个在线算法在一连串的试验中从一组策略中选择,以使所选策略的总回报最大化。MAB问题将应用场景中的选择问题转化为收益问题,从宏观的角度看待某个特定的应用场景,通过不同的算法来平衡探索与利用。常用的算法包括contextual-free的ε-贪婪算法、Softmax算法、UCB算法、以及基于上下文的汤普森采样法和LinUCB算法等。本问题上下文-MAB,即上下文-多臂匪徒问题与空地网络中继无人机路径规划问题结合,并考虑了无人机与用户无法获知用户连接情况的情形,通过用户分段的方法估计用户的连接情况。以期提高无人机路径规划效率、获取更高的平均收益。
发明内容
本发明的目的是针对现有空地网络中继无人机路径规划方法存在的用户连接率不高、无人机飞行成本高的问题,提出了一种基于上下文-MAB的中继无人机路径规划方法。
为了达到上述目的,本发明所采用如下技术方案:
所述路径规划方法,包括如下步骤:
步骤1、划分任务区域并保存划分好的子网格位置信息,初始化无人机航行路径;
其中,任务区域即为空地网络的服务地域,该区域被划分为K×K个相等的子网格;无人机航行路径为一列向量,向量元素是无人机服务过的子网格;
步骤2、对用户、无人机与子网格进行特征编码,得到用户、无人机与子网格的二进制特征向量;
具体为:对用户、无人机或子网格的特征按照大小分段,对应分段的特征进行二进制编码,并将得到的二进制编码作为该特征对应的二进制特征向量,连接不同特征所得二进制编码得到完整的二进制特征向量;
其中,用户特征包括用户所在地理位置与用户终端收发功率;
无人机特征包括:无人机电量、无人机所在位置与出发点距离、无人机用户占有率以及无人机传输功率;
子网格特征包括:子网格内用户数量、子网格内用户距离子网格中心距离、子网格与出发点距离及子网格用户连接率;
通过步骤2,得到了用户、无人机与子网格的二进制特征向量;
步骤3、获取优化后的无人机与子网格特征的权重矩阵,得到无人机的交互特征向量;
步骤3具体包括如下子步骤:
步骤3.1、对无人机与子网格的二进制特征向量归一化,得到无人机与子网格的归一化特征向量;
其中,二进制特征向量归一化,具体为:特征向量各元素除以该向量的模值;
步骤3.2、基于步骤3.1得到的无人机与子网格的归一化特征向量建立目标函数并进行优化,获取优化后的无人机与子网格特征的权重矩阵,具体包括如下子步骤:
步骤3.2.1、建立目标函数;
其中,目标函数为式(3);
其中,W为无人机与子网格特征的权重矩阵,初始化权重矩阵W为全“1”矩阵;为权重矩阵的元素服从的高斯先验分布的方差,即,权重矩阵W的元素服从||·||2为矩阵·的L2范数;p(rij|sij)为在当前张量指示的参考函数下交互数据rij的似然函数;
其中,rij为第i架无人机与第j个子网格的连接情况反馈值,为维度为D×C的交互矩阵r中的第i行、第j列元素;连接情况的集合表示为: 为根据不同特征的无人机在不同特征的子网格提供服务时的连接效果得到的训练集,sij表示第i架无人机与第j个子网格的加权特征融合值,计算为公式(4):
其中,xi|i∈[1,2,...,M]为第i架无人机的归一化特征向量;为第j个子网格的归一化特征向量;
步骤3.2.2、对目标函数梯度下降优化,得到优化后的无人机与子网格特征的权重矩阵W;
步骤3.3、获取无人机交互特征向量,具体为:无人机的归一化特征向量与优化后的无人机与子网格特征的权重矩阵融合得到无人机交互特征向量;
其中,无人机交互特征为一种联合了子网格与无人机交互数据的无人机特征表示,通过式(5)得到,
其中,为第i架无人机交互特征向量,维度与参考函数中的zj一致,为K2,W为步骤3.2得到的优化后的无人机与子网格特征的权重矩阵,xi为步骤3.1得到的无人机的归一化特征向量;
至此,得到了无人机交互特征向量;
步骤4、对无人机交互特征向量进行特征降维,得到降维交互特征向量,具体包括:确定聚类中心,对无人机交互特征向量进行高斯核映射并归一化;具体包括如下子步骤:
步骤4.1、对无人机交互特征向量进行K-means聚类,得到无人机交互特征向量聚类中心;
其中,聚类中心的个数S的范围为6到10;
步骤4.2、对步骤3得到的无人机交互特征向量进行高斯核映射,得到无人机映射距离向量;
具体为:分别用步骤3得到的无人机交互特征向量对应步骤4.1得到的S个无人机交互特征的聚类中心,计算高斯核映射距离,将交互特征向量距离不同聚类中心的距离编码为映射距离向量;
其中,通过式(6)计算无人机交互特征向量与步骤4.1得到的无人机交互特征向量聚类中心的映射距离;
其中,k(y,o)表示向量y与向量o的高斯核映射距离;σ为高斯核映射的参数,取值范围为0.5到1;||·||为向量·的L1范数,即为·的模值;
步骤4.3、对无人机映射距离向量归一化,得到降维交互特征向量;
其中,无人机映射距离向量归一化,具体为:将无人机映射距离向量中的各元素除以该向量的模值,得到无人机降维特征向量表示为:i=(1,2,...,M),维度为S×1,模值为1;
至此,通过步骤4得到了降维交互特征向量;
步骤5、归一化步骤2得到的用户的二进制特征向量,并对用户进行K-means聚类,得到用户的聚类中心及用户簇;
步骤6、根据步骤5得到的降维交互特征向量,为执行任务的无人机推荐子网格,保存无人机路径,具体包括如下子步骤:
步骤6.1、获取每个子网格的用户连网效果收益的估计;
具体为:第g个子网格用户连网效果收益的估计通过式(7)计算:
其中,pt,g表示第t架次无人机与第g个子网格用户连接收益的估计;为岭回归估计参数;α为参数,取值范围为0.5到1;为降维交互特征向量,作为子网格特征;Dg为该架次无人机之前输入的m个降维交互特征向量组成的训练矩阵,维度为m×S;bg为反馈向量,bg初始化为0向量;
其中,根据式(8)计算:
其中,θ*为岭回归的优化结果,I为单位矩阵;
步骤6.2、为执行任务的无人机推荐子网格,作为该轮架次无人机的任务区域
其中,各个用户连网效果收益的估计通过步骤6.1得到,在K2个子网格中选择用户连网效果收益的估计最大的子网格作为第t架次无人机的任务区域;
步骤6.3、更新反馈向量与训练矩阵;
其中,反馈向量通过式(9)更新,训练矩阵更新为步骤6.1中的Dg与对应第t架次无人机的降维交互特征向量的融合矩阵;
bg′=bg+r*xt (9)
其中,bg′为更新后的反馈向量,r*为第t架次无人机在选中的子网格实际用户连接收益;
其中,子网格实际用户连接收益r*为0或1,根据子网格用户连接率V%判断;若V∈[80,100],则r*为1;否则为0;
其中,V为子网格内所有用户连接情况反馈值求和结果与子网格内用户数目的比;
其中,用户连接情况反馈值为0或1,即当用户成功联网时为1,否则为0;
而对于有些用户的连接情况无法获知的情况,通过步骤6.4对其连接情况反馈值进行估计;
步骤6.4、估计无人机在选中子网格内情况未知的用户的连接情况反馈值,具体为:计算该子网格内各用户簇的平均连接情况反馈值,得到该用户的连接情况反馈值;
步骤6.4具体包括如下子步骤:
步骤6.4.1、获得本子网格内用户各用户簇平均连接情况反馈值;
其中,用户簇为步骤5得到;
步骤6.4.2、使用该用户所在用户簇在该子网格内的平均反馈值作为该用户的连接情况反馈值;
至此,通过步骤6.4得到了连接情况未知的用户的连接情况反馈值估计,结果反馈至步骤6.3;
步骤6.5、保存无人机路径,具体为:
无人机任务中依次被推荐的子网格组成的集合表示为v为该无人机服务过子网格的个数,保存为该无人机的航行路径;
至此,完成了基于上下文-MAB的中继无人机路径规划方法。
有益效果
所述一种基于上下文-MAB的中继无人机的路径规划方法,与现有路径规划方法相比,具有如下有益效果:
1.所述方法创造性的将上下文-MAB问题引入到无人机组网路径规划问题中,为该问题提出了一种全新的解决方案,相较于随机推荐任务区域的方法减少了达到最大服务用户数量所需的无人机架次;
2.所述方法针对无人机在面向大量用户所在地域的情况,采用按照子网格特征与子网格推荐的方法来取代直接面向用户的推荐方法,减小了推荐目标的数量;
3.所述方法创造性提出了无人机与任务区域子网格特征编码方法,并通过训练集的用户连接结果配置不同特征的权重,得到了有效整合的无人机与任务区域连接情况的交互特征,提高了平均收益;
4.所述方法针对在联网状态下有些用户连接情况未知的情况,通过采取对用户分类的方法估计用户在未来的连接情况,相比于其他MAB路径规划方法提高了用户连接状况反馈值的准确率,进一步提高了平均收益;
附图说明
图1是本发明所述一种基于上下文-MAB的中继无人机的路径规划方法的流程图;
图2是本发明所述基于上下文-MAB的中继无人机的路径规划方法中任务区域划分示意图;
图3是本发明所述基于上下文-MAB的中继无人机的路径规划方法中步骤6.4中连接状况未知的用户反馈值估计流程图;
图4是本发明所述基于上下文-MAB的中继无人机的路径规划方法中服务用户数量与其他方法的对比;
图5是本发明所述基于上下文-MAB的中继无人机的路径规划方法中与其他MAB-路径规划方法平均收益的对比。
具体实施方式
下面结合附图和实施例对本发明一种基于上下文-MAB的中继无人机的路径规划方法做进一步说明和详细描述。
实施例1
本发明基于上下文-MAB方法,实现了在特定区域进行无人机自组网路径规划算法。应用场景包括洪水、地震、火灾等灾害,以及其他需要快速建立应急网络通信的场景。在类似场景中,无人机利用自身机动能力强,任务时间长等优势,能够发挥重要作用。无人机应急通信服务质量的提升也逐渐为人们所关注,本发明针对应急通信中无人机系统的路径规划问题,引入了强化学习中的MAB方法,将无人机执行任务点的选择与路径规划问题建模为MAB问题。通过为无人机与子网格特征编码、交互与降维,引入了上下文-MAB。针对用户连接情况反馈值结果未知的情形,提出了解决方案。本发明主要所述一种基于上下文-MAB的中继无人机的路径规划方法的流程图见附图1所示;
本实例为本发明在灾害等应急通信场景中的应用实例,在实施例中任务区域假设为10km×10km的正方形区域,不考虑区域的海拔高低和因建筑物遮挡造成的连接失败情况,并在区域中设置无人机充能点。无人机架次为12架,12架无人机依次进入任务区域执行任务后充电,并重复进入任务区域中执行任务。在本发明中,无人机相当于MAB问题的Bandit,子网格相当于MAB问题中的Arm。在用户连接数与无人机连接效率等指标上展示了良好效果。
主要包含如下步骤:
步骤1、划分任务区域并保存划分好的子网格位置信息,初始化无人机航行路径;
其中,任务区域即为空地网络的服务地域,该区域被划分为K×K个相等的子网格,实例中K=5;用户随机分布,用户总数为2294,每架无人机服务范围恰好包括一个子网格;无人机任务区域划分示意如图2所示;
通过步骤1,需要推荐的目标数量有2294减少到25个;
所有的子网格集合表示为任务区域第s行和第t列的子网格的中心坐标表示为(sx,ty),组成的集合,记为:C=[sx,ty]s,t∈[1,K];
步骤2、提取用户特征,再对用户特征进行编码得到用户的二进制特征向量,具体包括如下子步骤:
步骤2.1、提取用户特征,具体包括:用户位置的x坐标、用户位置的y坐标及用户终端收发功率;
步骤2.1,具体包括如下子步骤:
步骤2.1.1、保存用户位置的x、y坐标;
其中,用户位置的x、y坐标根据历史记录得到;
步骤2.1.2、保存用户终端的收发功率;
其中,用户终端的收发功率在实例中随机赋予用户,作为用户的特征;
步骤2.2、对用户特征进行编码;
步骤2.2.1、对用户位置x、y坐标编码,得到二进制编码并保存,具体为:
根据子网格内用户位置x、y坐标进行分段二进制编码;
其中,二进制编码,具体为:对用户位置x、y坐标按照大小分段,对坐标值大小按照分段数进行二进制编码,并将得到的二进制编码作为用户特征的一部分保存;
步骤2.2.2、对用户终端收发功率进行编码,并将编码所得与步骤2.2.1所得编码相连,得到二进制特征向量并保存;
其中,用户终端手法功率进行编码,与步骤2.2.1方法相同,具体为:根据用户终端收发功率进行二进制编码;
步骤2.2.2的编码所得与步骤2.2.1所得编码相连,得到的二进制特征向量,即任务区域子网格的二进制特征向量;
步骤3、提取子网格特征,再对子网格特征进行编码得到任务区域子网格的二进制特征向量,具体包括如下子步骤:
步骤3.1、提取子网格特征,具体包括:用户数量、用户及子网格距离信息;
步骤3.1,具体包括如下子步骤:
步骤3.1.1、保存子网格内用户数量与位置坐标;
其中,子网格内用户数量与根据历史记录得到,结果按网格顺序保存为
位置坐标表示为:
其中,numi为第i个网格中的用户数量;{[Position_x,Position_y]num_i}i为第i个子网格中第i个用户位置的位置坐标;
步骤3.1.2、通过式(1)计算并保存子网格内用户与子网格中心距离;
Duser_i={||[Position_x,Position_y]num_i-[center_x,center_y]i||2}i (1)
其中,Duser_i表示第i个用户与其所在子网格中心的距离;||·||2为向量·的L2范数,子网格内用户与子网格中心距离按照任务区域子网格顺序保存为:
其中,为第i个子网格中所有用户距离子网格中心的距离;
步骤3.1.3、通过式(2)计算并保存子网格与出发点的距离;
Dgrid_center={||[xs,xt]-[x0,y0]||2}s,t∈[1,K] (2)
其中,[x0,y0]表示出发点坐标,子网格与出发点之间的距离按照任务区域子网格顺序保存为Dgrid-center={D[s,t]}s,t∈[1,K],表示子网格与出发点的距离;
子网格内用户与子网格中心距离和子网格与出发点的距离信息统称为用户及子网格距离信息;
步骤3.2、对子网格特征进行编码,具体包括如下子步骤:
步骤3.2.1、对子网格内用户数量编码,得到二进制编码并保存,具体为:
根据子网格内用户数目进行分段二进制编码;
其中,二进制编码,具体为:对用户数目N按照大小分段,对所在分段的用户数目按照分段数进行二进制编码,并将得到的二进制编码作为子网格特征的一部分保存;
步骤3.2.2、对子网格内用户距离子网格中心距离进行编码,并将编码所得与步骤3.2.1得到的二进制编码相连;
其中,对子网格内用户距离子网格中心距离进行编码,与步骤3.2.1相同,具体为:根据子网格内用户距离子网格中心距离Duser-center进行分段二进制编码;
步骤3.2.3、对子网格与出发点之间的距离进行编码,并将编码所得与步骤3.2.2所得编码相连,得到二进制特征向量并保存;
其中,对子网格与出发点之间的距离进行编码,与步骤3.2.1方法相同,具体为:根据子网格与出发点之间的距离Dgrid-center进行分段二进制编码;
步骤3.2.3的编码所得与步骤3.2.2所得编码相连,得到的二进制特征向量,即任务区域子网格的二进制特征向量;
其中,二进制特征向量的保存,具体为:按照子网格顺序G={1,2,...,K2}保存,共有K2个,保存为:维度为C×1,实例中C=40;
步骤4、提取无人机特征,再对无人机特征进行编码得到无人机的二进制特征向量;
其中,无人机特征包括无人机电量、位置信息及与无人机连接的用户情况信息;
步骤4,具体包括如下子步骤:
步骤4.1、提取无人机特征,具体包括如下子步骤:
步骤4.1.1、提取无人机电量、当前位置信息;
其中,无人机电量按照无人机编号,记为P=[power1,power2,...,powerM],1,2,...,M为无人机编号,无人机当前位置通过无人机当前所在网格表示;
其中,无人机当前位置信息表示为按顺序保存的无人机所在子网格的序号,即PUAV=[UAV1,UAV2,...,UAVM],由此得到无人机距离出发点距离DUAV-center;
其中,M为执行任务的无人机数量,DUAV-center为按照无人机顺序保存的各无人机所在子网格与出发点的距离;
步骤4.1.2、提取与无人机连接的用户情况信息;
其中,与无人机连接用户数由无人机用户占有率RUAV-user,具体为:按照实际连接人数与无人机连接最大用户数的比例保存,即RUAV-user=[r1,r2,...,rM];
步骤4.2、对无人机特征进行编码,具体包括如下子步骤;
步骤4.2.1、对无人机电量进行编码,得到二进制编码并保存,具体为:
根据无人机电量P=[power1,power2,...,powerM]进行分段二进制编码;
其中,分段二进制编码,具体为:对无人机电量按照大小分段,对所在分段的用户数目按照分段数进行二进制编码,并将得到的二进制编码作为无人机特征的一部分保存;
步骤4.2.2、对无人机所在位置与出发点距离编码,并将编码所得与步骤4.2.1得到的二进制编码相连;
其中,对无人机所在位置与出发点距离编码,与步骤4.2.1相同,具体为根据无人机与出发点距离进行分段二进制编码;
步骤4.2.3、对无人机用户占有率编码,并将编码所得与步骤4.2.2得到的二进制编码相连;
其中,对无人机用户占有率编码,与步骤4.2.1相同,具体为:根据无人机用户占有率进行二进制分段编码;
步骤4.2.4、对无人机传输功率编码,并将编码所得与步骤4.2.3得到的二进制编码相连,得到二进制特征向量并保存;
其中,无人机传输功率为每架无人机特有,对无人机传输功率编码,与步骤4.2.1相同,具体为:根据无人机传输功率进行二进制分段编码;
步骤4.2.4的编码所得与步骤4.2.3所得编码相连,得到的二进制特征向量,即无人机的二进制特征向量;
其中,二进制特征向量的保存,具体为按照无人机编号顺序保存,共有M个,保存为:xi|i∈[1,2,...,M],维度为D×1,实例中,D=80;
至此,通过步骤2、3、4,得到了用户、无人机与子网格的二进制特征向量;
步骤5、获取优化后的无人机与子网格特征的权重矩阵,得到无人机的交互特征向量;
步骤5具体包括如下子步骤:
步骤5.1、对无人机与子网格的二进制特征向量归一化,得到无人机与子网格的归一化特征向量;
其中,二进制特征向量归一化,具体为:特征向量各元素除以该向量的模值,子网格的归一化特征向量也称为子网格交互特征向量;
步骤5.2、获取优化后的无人机与子网格特征的权重矩阵,具体包括如下子步骤:
步骤5.2.1、计算无人机与子网格的加权特征融合值,具体通过式(3)所示:
其中,sij表示第i架无人机与第j个子网格的加权特征融合值,xi,b表示无人机的归一化特征向量xi|i∈[1,2,...,M]的第b个元素,zj,a表示子网格的归一化特征向量的第a个元素;W为维度为D×C的权重矩阵,wa,b为W的第a行第b列元素,与无人机和子网格的特征有关,·T表示对向量·的转置;
步骤5.2.2、建立目标函数,并对其进行梯度下降,得到优化的权重矩阵W:
其中,目标函数为式(4):
其中,rij为第i架无人机与第j个子网格的连接情况反馈值,为维度为D×C的交互矩阵r中的第i行、第j列元素;以联网覆盖子网格区域内用户比例作为评价标准,超过V%为连接成功,否则为连接失败,V的取值范围为80到100;连接情况的集合表示为: 为根据不同特征的无人机xi|i∈[1,2,...,M]在不同特征的子网格提供服务时的连接效果得到的训练集,为权重矩阵服从的高斯先验分布的方差,即权重矩阵W的元素wab服从p(rij|sij)为在当前张量指示的参考函数下交互数据rij的似然函数,wab为权重矩阵W的元素;
目标函数梯度为式(5):
通过梯度下降,得到优化的权重矩阵W;
步骤5.3、获取无人机交互特征向量;
其中,无人机交互特征向量为一种联合了子网格与无人机交互数据的无人机特征表示;通过式(6)得到,
其中,的维度与参考函数中的zj一致,为K2;为第i架无人机交互特征向量,W为步骤5.2得到的优化后的无人机与子网格特征的权重矩阵,xi为步骤5.1得到的无人机的归一化特征向量;
至此,得到了无人机交互特征向量;
步骤6、对无人机交互特征向量进行特征降维,得到降维交互特征向量,具体包括:确定聚类中心,对无人机交互特征向量进行高斯核映射并归一化;具体包括如下子步骤:
步骤6.1、对无人机交互特征向量进行K-means聚类,得到无人机交互特征向量的聚类中心;
其中,K-means聚类方法得到的聚类中心满足式(6):
其中,||·||为向量·的L1范数,即为·的模值;
其中,o.为通过K-means得到的聚类中心,聚类中心集合表示为{o._k}|k∈(1,2,...,S);S为聚类中心的个数,实例中设置为6;
步骤6.2、对步骤5得到的无人机交互特征向量,得到无人机映射距离向量;
具体为:分别用步骤3得到的无人机交互特征向量对应步骤4.1得到的S个无人机交互特征的聚类中心,计算高斯核映射距离,将交互特征向量距离不同聚类中心的距离编码为映射距离向量;
其中,通过式(7)计算无人机与子网格特征向量与步骤5.1得到的聚类中心的映射距离;
其中,k(y,o)表示向量y与向量o的高斯核映射距离;||·||为向量·的L1范数,即为·的模值;σ为高斯核映射的参数,实例中设置为1;
步骤6.3、对无人机映射距离向量归一化,得到降维交互特征向量;
其中,无人机映射距离向量归一化,具体为:将无人机映射距离向量中的各元素除以该向量的模值,得到无人机降维特征向量表示为:i=(1,2,...,M),维度为S×1,模值为1;
至此,通过步骤4得到了降维交互特征向量;
步骤7、归一化步骤2得到的用户的二进制特征向量,并对用户进行K-means聚类,得到用户的聚类中心及用户簇;
步骤8、根据步骤6得到的降维交互特征向量,为执行任务的无人机推荐子网格,保存无人机路径,具体包括如下子步骤:
步骤8.1、获取每个子网格的用户连网效果收益的估计;
具体为:第g个子网格用户连网效果收益的估计通过式(8)计算:
其中,pt,g表示第t架次无人机与第g个子网格用户连接收益的估计;为岭回归估计参数;α为参数,取值范围为0.5到1;为降维交互特征向量,作为子网格特征;Dg为该架次无人机之前输入的m个降维交互特征向量组成的训练矩阵,维度为m×S;bg为反馈向量,bg初始化为0向量;
其中,根据式(8)计算:
其中,θ*为岭回归的优化结果,I为单位矩阵;
步骤8.2、为执行任务的无人机推荐子网格,作为该轮架次无人机的任务区域;
其中,各个用户连网效果收益的估计通过步骤6.1得到,在K2个子网格中选择用户连网效果收益的估计最大的子网格gt *,作为第t架次无人机的任务区域;
步骤8.3、更新反馈向量与训练矩阵;
其中,反馈向量通过式(9)更新,训练矩阵更新为步骤6.1中的Dg与对应第t架次无人机的降维交互特征向量的融合矩阵;
bg′=bg+r*xt (9)
其中,bg′为更新后的反馈向量,r*为第t架次无人机在选中的子网格实际用户连接收益;
其中,子网格实际用户连接收益r*为0或1,根据子网格用户连接率V%判断;若V∈[80,100],则r*为1;否则为0;
其中,V为子网格内所有用户连接情况反馈值求和结果与子网格内用户数目的比;
其中,用户连接情况反馈值为0或1,即当用户成功联网时为1,否则为0;
而对于有些用户的连接情况无法获知的情况,通过步骤6.4对其连接情况反馈值进行估计;
步骤8.4、估计无人机在选中子网格内情况未知的用户的连接情况反馈值,具体为:计算该子网格内各用户簇的平均连接情况反馈值,得到该用户的连接情况反馈值;流程图如图3所示;
步骤8.4具体包括如下子步骤:
步骤8.4.1、获得本子网格内用户各用户簇平均连接情况反馈值;
其中,用户簇为步骤7得到;
步骤8.4.2、使用该用户所在用户簇在该子网格内的平均反馈值作为该用户的连接情况反馈值;
至此,通过步骤8.4得到了连接情况未知的用户的连接情况反馈值估计,结果反馈至步骤8.3;
步骤8.5、保存无人机路径,具体为;
无人机任务中依次被推荐的子网格组成的集合表示为v为该无人机服务过子网格的个数,保存为该无人机的航行路径;
至此,完成了基于上下文-MAB的中继无人机路径规划方法。
为了评估发明所述基于上下文-MAB的中继无人机路径规划方法,实例中将随机派遣无人机执行任务的服务用户数量与contextual-free的ε-贪婪算法、UCB算法,及本方法所述基于上下文-MAB方法比较,观察服务用户数量与无人机架次的关系,结果如图4所示;
由图4可知,看到本发明所述基于上下文-MAB方法相比随机派遣方法及其他MAB路径规划方法,能够用更少的无人机起飞架次达到更大的服务用户总数,各个方法达到的服务用户总数最大值与达到最大用户连接数所需架次如表(1)所示:
表1服务用户总数最大值与所需无人机架次表
另外,实例还计算了各MAB算法执行中继无人机路径规划任务的平均收益与无人机飞行架次关系,结果如图5所示;
由图5可知,本发明所述基于上下文-MAB方法相比其他路径规划方法,对比其他MAB-路径规划方法,具有更高的平均收益。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (10)
1.一种基于上下文-MAB的中继无人机路径规划方法,其特征在于:包括如下步骤:
步骤1、划分任务区域并保存划分好的子网格位置信息,初始化无人机航行路径;
步骤2、对用户、无人机与子网格进行特征编码,得到用户、无人机与子网格的二进制特征向量;
步骤3、获取优化后的无人机与子网格特征的权重矩阵,得到无人机的交互特征向量;
步骤3具体包括如下子步骤:
步骤3.1、对无人机与子网格的二进制特征向量归一化,得到无人机与子网格的归一化特征向量;
步骤3.2、基于步骤3.1得到的无人机与子网格的归一化特征向量建立目标函数并进行优化,获取优化后的无人机与子网格特征的权重矩阵;
步骤3.3、获取无人机交互特征向量,具体为:无人机的归一化特征向量与优化后的无人机与子网格特征的权重矩阵融合得到无人机交互特征向量;
步骤4、对无人机交互特征向量进行特征降维,得到降维交互特征向量,具体包括:确定聚类中心,对无人机交互特征向量进行高斯核映射并归一化;具体包括如下子步骤:
步骤4.1、对无人机交互特征向量进行K-means聚类,得到无人机交互特征向量聚类中心;
步骤4.2、对步骤3得到的无人机交互特征向量进行高斯核映射,得到无人机映射距离向量;
步骤4.3、对无人机映射距离向量归一化,得到降维交互特征向量;
步骤5、归一化步骤2得到的用户的二进制特征向量,并对用户进行K-means聚类,得到用户的聚类中心及用户簇;
步骤6、根据步骤4得到的降维交互特征向量,为执行任务的无人机推荐子网格,保存无人机路径;具体包括如下子步骤:
步骤6.1、获取每个子网格的用户连网效果收益的估计;
步骤6.2、为执行任务的无人机推荐子网格,作为该轮架次无人机的任务区域;
其中,各个用户连网效果收益的估计通过步骤6.1得到,在K2个子网格中选择用户连网效果收益的估计最大的子网格作为第t架次无人机的任务区域;
步骤6.3、若用户连接情况可知,更新反馈向量与训练矩阵,若用户连接情况不可知,则根据步骤6.4估计用户的连接情况反馈值,再更新反馈向量与训练矩阵;
步骤6.4、估计无人机在选中子网格内情况未知的用户的连接情况反馈值,具体为:计算该子网格内各用户簇的平均连接情况反馈值,得到该用户的连接情况反馈值;
步骤6.5、保存无人机路径,具体为:
获取无人机任务中依次被推荐的子网格集合,保存为该无人机的航行路径;
至此,完成了基于上下文-MAB的中继无人机路径规划方法。
2.根据权利要求1所述的一种基于上下文-MAB的中继无人机路径规划方法,其特征在于:步骤1中,任务区域即为空地网络的服务地域,该区域被划分为K×K个相等的子网格;无人机航行路径为一列向量,向量元素是无人机服务过的子网格。
3.根据权利要求2所述的一种基于上下文-MAB的中继无人机路径规划方法,其特征在于:步骤2、具体为:对用户、无人机或子网格的特征按照大小分段,对应分段的特征进行二进制编码,并将得到的二进制编码作为该特征对应的二进制特征向量,连接不同特征所得二进制编码得到完整的二进制特征向量;
其中,用户特征包括用户所在地理位置与用户终端收发功率;
无人机特征包括:无人机电量、无人机所在位置与出发点距离、无人机用户占有率以及无人机传输功率;
子网格特征包括:子网格内用户数量、子网格内用户距离子网格中心距离、子网格与出发点距离及子网格用户连接率;
通过步骤2,得到了用户、无人机与子网格的二进制特征向量。
4.根据权利要求3所述的一种基于上下文-MAB的中继无人机路径规划方法,其特征在于:步骤3.1中,二进制特征向量归一化,具体为:特征向量各元素除以该向量的模值。
5.根据权利要求4所述的一种基于上下文-MAB的中继无人机路径规划方法,其特征在于:步骤3.2,具体包括如下子步骤:
步骤3.2.1、建立目标函数;
其中,目标函数为式(3);
其中,W为无人机与子网格特征的权重矩阵,初始化权重矩阵W为全“1”矩阵;为权重矩阵的元素服从的高斯先验分布的方差,即,权重矩阵W的元素服从||·||2为矩阵·的L2范数;p(rij|sij)为在当前张量指示的参考函数下交互数据rij的似然函数;
其中,rij为第i架无人机与第j个子网格的连接情况反馈值,为维度为D×C的交互矩阵r中的第i行、第j列元素;连接情况的集合表示为: 为根据不同特征的无人机在不同特征的子网格提供服务时的连接效果得到的训练集,sij表示第i架无人机与第j个子网格的加权特征融合值,计算为公式(4):
其中,xi|i∈[1,2,...,M]为第i架无人机的归一化特征向量;为第j个子网格的归一化特征向量;
步骤3.2.2、对目标函数梯度下降优化,得到优化后的无人机与子网格特征的权重矩阵W。
6.根据权利要求5所述的一种基于上下文-MAB的中继无人机路径规划方法,其特征在于:步骤3.3中,无人机交互特征为一种联合了子网格与无人机交互数据的无人机特征表示,通过式(5)得到,
其中,为第i架无人机交互特征向量,维度与参考函数中的zj一致,为K2,W为步骤4.2得到的优化后的无人机与子网格特征的权重矩阵,xi为步骤3.1得到的无人机的归一化特征向量;
至此,得到了无人机交互特征向量。
7.根据权利要求6所述的一种基于上下文-MAB的中继无人机路径规划方法,其特征在于:步骤4.1中,聚类中心的个数S的范围为6到10;
步骤4.2,具体为:分别用步骤3得到的无人机交互特征向量对应步骤4.1得到的S个无人机交互特征的聚类中心,计算高斯核映射距离,将交互特征向量距离不同聚类中心的距离编码为映射距离向量;
其中,通过式(6)计算无人机交互特征向量与步骤4.1得到的无人机交互特征向量聚类中心的映射距离;
其中,k(y,o)表示向量y与向量o的高斯核映射距离;σ为高斯核映射的参数,取值范围为0.5到1;||·||为向量·的L1范数,即为·的模值。
8.根据权利要求7所述的一种基于上下文-MAB的中继无人机路径规划方法,其特征在于:步骤4.3中,无人机映射距离向量归一化,具体为:将无人机映射距离向量中的各元素除以该向量的模值,得到无人机降维特征向量表示为:维度为S×1,模值为1;
至此,通过步骤4得到了降维交互特征向量。
9.根据权利要求8所述的一种基于上下文-MAB的中继无人机路径规划方法,其特征在于:步骤6.1、具体为:第g个子网格用户连网效果收益的估计通过式(7)计算:
其中,pt,g表示第t架次无人机与第g个子网格用户连接收益的估计;为岭回归估计参数;α为参数,取值范围为0.5到1;为降维交互特征向量,作为子网格特征;Dg为该架次无人机之前输入的m个降维交互特征向量组成的训练矩阵,维度为m×S;bg为反馈向量,bg初始化为0向量;
其中,根据式(8)计算:
其中,θ*为岭回归的优化结果,I为单位矩阵。
10.根据权利要求9所述的一种基于上下文-MAB的中继无人机路径规划方法,其特征在于:步骤6.3,具体为:反馈向量通过式(9)更新,训练矩阵更新为步骤6.1中的Dg与对应第t架次无人机的降维交互特征向量的融合矩阵;
bg′=bg+r*xt (9)
其中,bg′为更新后的反馈向量,r*为第t架次无人机在选中的子网格实际用户连接收益;
其中,子网格实际用户连接收益r*为0或1,根据子网格用户连接率V%判断;若V∈[80,100],则r*为1;否则为0;
其中,V为子网格内所有用户连接情况反馈值求和结果与子网格内用户数目的比;
其中,用户连接情况反馈值为0或1,即当用户成功联网时为1,否则为0;
步骤6.4具体包括如下子步骤:
步骤6.4.1、获得本子网格内用户各用户簇平均连接情况反馈值;
其中,用户簇为步骤5得到;
步骤6.4.2、使用该用户所在用户簇在该子网格内的平均反馈值作为该用户的连接情况反馈值;
至此,通过步骤6.4得到了连接情况未知的用户的连接情况反馈值估计,结果反馈至步骤6.3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110847795.XA CN113919188B (zh) | 2021-07-27 | 2021-07-27 | 一种基于上下文-mab的中继无人机路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110847795.XA CN113919188B (zh) | 2021-07-27 | 2021-07-27 | 一种基于上下文-mab的中继无人机路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113919188A CN113919188A (zh) | 2022-01-11 |
CN113919188B true CN113919188B (zh) | 2024-05-24 |
Family
ID=79232971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110847795.XA Active CN113919188B (zh) | 2021-07-27 | 2021-07-27 | 一种基于上下文-mab的中继无人机路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113919188B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114760646B (zh) * | 2022-04-18 | 2024-06-18 | 北京理工大学 | 一种基于多层聚合上下文mab的链路决策方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180099969A (ko) * | 2017-02-27 | 2018-09-06 | 서울대학교산학협력단 | 구동기 능력을 고려한 안전 비행 운송 시스템 및 실시간 경로 계획 방법 |
CN109829573A (zh) * | 2019-01-15 | 2019-05-31 | 宁波洁程汽车科技有限公司 | 一种融合用户驾驶习惯的智能路径规划方法 |
CN110929646A (zh) * | 2019-11-22 | 2020-03-27 | 国网福建省电力有限公司 | 一种基于无人机航拍图像的配电杆塔倒断信息快速识别方法 |
CN111158401A (zh) * | 2020-01-20 | 2020-05-15 | 北京理工大学 | 一种分布式鼓励时空数据探索的无人机路径规划系统及方法 |
CN112902969A (zh) * | 2021-02-03 | 2021-06-04 | 重庆大学 | 一种无人机在数据收集过程中的路径规划方法 |
-
2021
- 2021-07-27 CN CN202110847795.XA patent/CN113919188B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180099969A (ko) * | 2017-02-27 | 2018-09-06 | 서울대학교산학협력단 | 구동기 능력을 고려한 안전 비행 운송 시스템 및 실시간 경로 계획 방법 |
CN109829573A (zh) * | 2019-01-15 | 2019-05-31 | 宁波洁程汽车科技有限公司 | 一种融合用户驾驶习惯的智能路径规划方法 |
CN110929646A (zh) * | 2019-11-22 | 2020-03-27 | 国网福建省电力有限公司 | 一种基于无人机航拍图像的配电杆塔倒断信息快速识别方法 |
CN111158401A (zh) * | 2020-01-20 | 2020-05-15 | 北京理工大学 | 一种分布式鼓励时空数据探索的无人机路径规划系统及方法 |
CN112902969A (zh) * | 2021-02-03 | 2021-06-04 | 重庆大学 | 一种无人机在数据收集过程中的路径规划方法 |
Non-Patent Citations (1)
Title |
---|
基于遗传算法的无人机三维航迹规划研究;何光勤;朱一飞;张才然;;价值工程;20200308(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113919188A (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | UAV-assisted emergency communications: An extended multi-armed bandit perspective | |
Bayerlein et al. | UAV path planning for wireless data harvesting: A deep reinforcement learning approach | |
CN112902969B (zh) | 一种无人机在数据收集过程中的路径规划方法 | |
CN113162679A (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
CN113395654A (zh) | 一种边缘计算系统的多无人机任务卸载和资源分配的方法 | |
Dai et al. | AoI-minimal UAV crowdsensing by model-based graph convolutional reinforcement learning | |
Savkin et al. | Range-based reactive deployment of autonomous drones for optimal coverage in disaster areas | |
CN114142908B (zh) | 一种面向覆盖侦察任务的多无人机通信资源分配方法 | |
Sharma | Evolution of unmanned aerial vehicles (UAVs) with machine learning | |
Parvaresh et al. | A continuous actor–critic deep Q-learning-enabled deployment of UAV base stations: Toward 6G small cells in the skies of smart cities | |
CN113919188B (zh) | 一种基于上下文-mab的中继无人机路径规划方法 | |
CN115278698B (zh) | 基于动态用户分布预测的无人机基站动态部署方法及装置 | |
CN113485409A (zh) | 一种面向地理公平性的无人机路径规划分配方法及系统 | |
Gupta et al. | Optimal path planning for UAV using NSGA-II based metaheuristic for sensor data gathering application in wireless sensor networks | |
CN112381298A (zh) | 空港旅客智能导航导乘自助服务系统 | |
CN117389290A (zh) | 基于图神经网络的通感一体多无人机路径规划方法 | |
CN117119489A (zh) | 一种基于多无人机辅助的无线供能网络的部署和资源优化方法 | |
Gad et al. | Communication-efficient federated learning in drone-assisted IoT networks: Path planning and enhanced knowledge distillation techniques | |
Shi et al. | Age of information optimization with heterogeneous uavs based on deep reinforcement learning | |
Mashhadi et al. | Collaborative learning with a drone orchestrator | |
Bhandarkar et al. | User coverage maximization for a uav-mounted base station using reinforcement learning and greedy methods | |
CN117369485A (zh) | 无人机路径协同规划方法、装置、电子设备及存储介质 | |
Tarekegn et al. | Channel Quality Estimation in 3D Drone Base Station for Future Wireless Network | |
CN114879726A (zh) | 一种基于多无人机辅助数据收集的路径规划方法 | |
Lu et al. | Trajectory design for unmanned aerial vehicles via meta-reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |