CN115861591B

CN115861591B - 基于transformer关键纹理编码匹配的无人机定位方法

Info

Publication number: CN115861591B
Application number: CN202211578582.2A
Authority: CN
Inventors: 吴启晖; 王浩洋; 周福辉; 赵世瑾; 董超
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2024-02-02
Anticipated expiration: 2042-12-09
Also published as: CN115861591A

Abstract

本发明公开了一种基于transformer关键纹理编码匹配的无人机定位方法，主要解决了现有视觉定位方案在特征稀疏和特征变化场景下匹配准确率低，位置估计误差大等问题。其实现步骤是：生成纹理训练数据集，构建并训练关键纹理识别网络；建立图片匹配数据集，构建并训练基于transformer关键纹理编码匹配网络；将航拍图片和裁剪的卫星图输入训练好的网络模型中，根据匹配结果计算出无人机坐标。本发明能够适应多种场景下的无人机视觉定位问题，具有较强泛化性，且位置估计误差较小。

Description

基于transformer关键纹理编码匹配的无人机定位方法

技术领域

本发明属于计算机视觉领域，更进一步涉及基于transformer关键纹理编码匹配的无人机定位方法。

背景技术

GPS信号由于电磁干扰、大气影响、干扰或敌对区域的对策而变得不可用或不可靠，GPS丢失是一种普遍现象。在这些限制范围内，需要独立的被动替代导航(NAV)系统。在这些限制下，依赖于视觉的基于图像的导航系统是理想的选择。目前从航空或卫星来源获得的大量高分辨率地球观测图像覆盖了全球大部分地区，促进了新应用的出现。在自主视觉无人机导航中，将无人机的相机帧与空中/卫星图像进行比较，以推断无人机的位置。在这个典型的图像识别和定位问题中，存在几个典型的挑战：(1)在图像采集阶段，由于天气时间和拍摄角度变化的影响，捕捉帧中物体形状的阴影可能会大大降低基于特征点的局部匹配精度。(2)不同源图像之间存在分辨率角度偏差。(3)由于物体的出现/消失，图像采集历史的差异可能导致图像对之间的不匹配，使匹配更加困难。

Huitai Hou,Qing Xu,Chaozhen Lan,Wanjie Lu,YongxianZhang,Zhixiang Cui,and Jianqi Qin等人发表的论文“UAV Pose Estimationin GNSS-denied EnvironmentAssisted by Satellite Imagery Deep Learning Features”中根据具有地理坐标的卫星图像和数字高程模型(DEM)实现定位，利用无人机帧与卫星影像的差异，利用卷积神经网络提取两幅图像之间的深度学习特征，实现配准。但考虑文章没有考虑受到天气影响条件下的视觉匹配能否达到稳定定位。Mathias Mantelli,Diego Pittol等人等人在其发表的论文“A novel measurement model based on abBRIEF for global localization of aUAVover satellite images”中提出了一种基于BRIEF描述符的新版本的新测量模型并将其应用于蒙特卡洛定位系统，该系统估计无人机在4个自由度下的姿态，这模型用于比较从无人机向下查看的相机获得的图像与补丁卫星图像，根据特征匹配来估计无人机的位置，然而该方法主要在城市地区进行测试，并不能在特征稀疏场景下以及特征变化场景下完成定位。

电子科技大学提出的专利申请“一种用于无人机图像和卫星图像跨视角图像匹配方法”(申请号CN202011553525.X申请公布号CN112580546A)中一种用于无人机图像和卫星图像之间的跨视角图像匹配方法。基于图像特征向量，计算请求匹配的图像和候选图像库中的每幅图像之间的图像特征相似度，将最高图像特征相似度作为请求匹配的图像的匹配结果。然而，基于全局特征的图像匹配对图片之间的重叠度要求较高，在特征不明显或者特征变化的区域容易导致错误匹配。中国电子科技集团公司第五十四研究所提出的专利“基于矢量地图特征表达的大场景无人机图像快速定位方法”(申请号CN202210541307.7公开号CN114637876A)中使用以足球场、篮球场、建筑单体、水体区域四类典型目标的矢量斑块作为参考实现快速定位，然而在郊区山区等不具备上述典型目标的区域无法实现准确定位，具有一定局限性。

发明内容

本发明针对现有方案在地貌变化和特征稀疏场景下视觉定位困难的现状，提出了一种基于transformer关键纹理编码匹配的无人机定位方法。本发明引入纹理权重和相对位置信息，通过识别图像中的关键纹理信息，编码特征块之间的相对位置信息，极大提升了特征稀疏和环境变化场景下图片识别的准确率，有效降低了无人机位置估计坐标的误差。

本发明的技术方法包括如下步骤：

S1：使用卫星图片生成对应的纹理二值图，生成图片纹理数据集；

S2：构建关键纹理识别网络模型，利用S1中的图片纹理数据集对关键纹理识别网络模型进行训练；

S3：利用同一区域不同时间拍摄的卫星地图，生成图片特征匹配数据集；

S4：构建基于transformer关键纹理编码匹配网络模型，使用S3中的图片特征匹配数据集和S2中训练好的关键纹理识别网络模型对基于transformer关键纹理编码匹配网络模型进行训练；

S5：根据S1至S4所述的步骤，对无人机进行视觉定位，

S51，无人机以平稳姿态飞行拍摄所给区域得到航拍图片U，同时获取飞行相对高度height和飞行方向φ；

S52，根据所给区域的卫星地图，裁剪得到卫星图片集；

S53，对无人机航拍图片U与卫星图片集中的图片相匹配；

S54，根据匹配结果计算无人机坐标。

进一步的，S1中，

将卫星图片转为灰度图，裁剪灰度图尺寸为256×256像素，使用Canny边缘检测算子对裁剪好的图片提取轮廓信息为二值图，保留建筑、道路、河岸和树林边缘的纹理轮廓，删去多余纹理，将二值图调整尺寸为16×16的矩阵形式储存。

进一步的，S2中，

关键纹理识别网络模型是在ResNet18基础上进行改进，在第一个卷积层中，将通道1转为128，在接下来的残差块中通道数分别转为128、128、196和256，在最后一个残差块后面接上两个卷积核为1×1的卷积层，通道数分别转为256和1，输入S1中维度为1×256×256的灰度图片，最终输出维度为1×16×16，

训练关键纹理识别网络模型时，随机初始化网络参数，AdamW优化算法作为关键纹理识别网络模型训练优化器，选用对数损失函数计算关键纹理识别网络模型输出与对应二值图之间的差距。

进一步的，S3中，

同一区域不同时间拍摄的卫星地图通过仿射变换生成不同视角下的图片，模拟无人机拍摄图片，根据图片之间的映射关系得到图片对应像素点的位置，对应像素点以矩阵形式存储，作为基于transformer关键纹理编码匹配网络模型的目标输出结果。

进一步的，S4中，

构建基于transformer关键纹理编码匹配网络模型，其中编码层包含两部分，

第一部分为相对位置编码层，通过编码特征之间的相对位置得到，由两个全连接层和中间的Relu激活函数组成，将二维相对位置映射到256维特征空间，得到相对位置编码R，

第二部分为注意力编码层，由四个重复的注意力模块组成，其中每个注意力模块由自注意力和互注意力组成，在自注意力中，分别对特征序列f^A和f^B编码，首先将特征序列f^A和f^B线性变换得到查询序列Q、键序列K和值序列V，将K、V、R经过纹理权重筛选：

其中，M_i表示第i个特征的纹理权重，K_i表示第i个键,表示筛选后的键序列，V_i表示第i个值,/>表示筛选后的值序列，R_*，i表示所有特征与第i个特征之间的相对位置编码，/>表示筛选后的相对位置编码，选择纹理权重大于0.2的部分后，将Q、/>送入多头注意力进行编码，自注意力中多头注意力的计算由下式表示：

其中，self(i)表示对特征序列中第i个特征的编码，Q_i表示第i个查询，表示经过筛选后的第j个键，/>表示经过筛选后的第l个键，/>表示经过筛选后的第j个值，/>表示筛选后的第i个特征和第j个特征之间的相对位置编码，

在互注意力中，f^A的编码如下：首先由f^A线性变换生成查询序列Q,由f^B线性变换生成键序列K和值序列V,将K和V经过M^B的纹理权重筛选得到和/>M^B为f^B的纹理权重序列，将Q、/>送入多头注意力进行编码，互注意力中的多头注意力的计算由下式表示：

其中，cross(i)表示对特征序列中第i个特征的编码，

f^B的编码如下：首先由f^B线性变换生成查询序列Q,由f^A线性变换生成键序列K和值序列V,将K和V经过M^A的纹理权重筛选得到和/>M^A为f^A的纹理权重序列，将Q、/>送入多头注意力进行编码，

训练基于transformer关键纹理编码匹配网络模型时，随机初始化网络参数，AdamW优化算法作为网络训练优化器，选用对数损失函数计算基于transformer关键纹理编码匹配网络模型输出与对应匹配矩阵的差距。

进一步的，S51中，

所给区域的卫星地图信息中，设置lat为地图左上角像素对应的X地坐标,long为地图左上角像素对应的Y地坐标,F^X为X方向上的像素分辨率，F^Y为Y方向上的像素分辨率，G为平移系数，T为旋转系数，

计算无人机地面采样距离的高度GSDh和宽度GSDw：

其中Uh和Uw分别为航拍图片U的像素高度和宽度，Sh和Sw分别为相机传感器元件的高度和宽度，f为相机焦距。

进一步的，S52中，

根据无人机飞行方向φ得到矩阵H：

根据H所给区域的卫星地图进行旋转变换，使卫星地图方向与图片U拍摄方向一致，取分辨率将卫星地图切割成尺寸为(GSDh/F，GSDw/F)的卫星图片，调整为256×256像素的灰度图，得到卫星图片集{I_k},其中I_k表示第k个卫星图片，并记录卫星图片左上角像素点对应切割前地图像素位置坐标{(x_k，y_k)}，(x_k，y_k)表示第k个卫星图片左上角像素对应的位置坐标。

进一步的，S53中，

将航拍图片U分别与卫星图片集{I_k}中的卫星图片分别进行匹配，将U，I_k调整为256×256像素的灰度图，输入S4中训练好的基于transformer关键纹理编码匹配网络模型中，得到匹配矩阵P，计算匹配矩阵P中可靠的特征对：

matches(k)＝{(m，n)|P(m，n)＞0.2}

其中P(m，n)表示两个特征序列中第m个特征和第n个特征的匹配分数，matches(k)记录了U和I_k匹配结果中所有可靠匹配对应的特征序号。

进一步的，S54中，

根据S3中匹配数量最多的卫星图片I_r作为无人机参考区域，其中I_r左上角像素对应裁剪前地图像素坐标为(x_r，y_r)，将matches(r)中特征序号还原成像素坐标，使用OpenCV计算仿射矩阵W即图片间像素坐标映射关系，RANSAC作为过滤器，计算U中心像素点对应I_r中的像素坐标(Ix，Iy)：

[Ix，Iy，1]＝[128，128，1]W

其中图片U中心像素坐标为(128，128)，将坐标(Ix，Iy)转换为原始卫星地图上的像素坐标(SMx，SMy)：

最后计算像素坐标对应的地坐标(Gx，Gy):

Gx＝F^X×SMx+G×SMy+lat

Gy＝F^Y×SMy+T×SMx+long

输出无人机的坐标估计(Gx,Gy)。

本发明与现有技术相比具有以下优点：

第一，本发明提出的关键纹理识别网络，能抓住图片纹理中的关键特征，有效解决了变化环境中的图片匹配问题，提升了图片检索正确率。

第二，相较于传统的全局特征匹配或者特征点匹配方法，本发明提出的基于transformer关键纹理编码匹配网络兼具了全局信息和局部信息并且融入了相对位置关系，特征点匹配更加准确。

第三，本发明提出视觉定位方案将图片检索和特征点匹配融合，提升了定位效率和准确率，同时实现较低误差的位置估计。

附图说明

图1是本发明完整技术方法示意图；

图2是本发明关键纹理识别网络结构示意图；

图3是本发明图像匹配方法总体框架图；

图4是本发明中自注意力框架图；

图5是本发明中互注意力框架图；

图6是仿真测试中采用本发明和其他算法的误差折线图；

图7是采用本发明的图片匹配结果图；

图8是仿真测试中采用本发明得到的无人机飞行路线图。

具体实施方式

下面结合附图对发明做进一步描述。

本发明方法的具体步骤描述如下。

步骤1，生成图片纹理数据集，使用卫星图片生成对应的纹理二值图。

将卫星图片转为灰度图，裁剪尺寸为256×256，使用Canny边缘检测算子对灰度图提取轮廓信息为二值图，其中保留建筑、道路、河岸、树林边缘等稳定的纹理轮廓，人为删去多余纹理，将二值图调整尺寸为16×16的矩阵形式储存。

步骤2，构建关键纹理识别网络模型，利用步骤1生成的数据集进行训练。

本发明构建的关键纹理识别网络在ResNet18的基础上做了以下改进，如图2所示，在第一个卷积层中，将通道1转为128，在接下来的残差块中通道数分别转为128、128、196、256，在最后一个残差块后面接上两个卷积核为1×1的卷积层，通道数分别转为256和1。输入维度为1×256×256的灰度图片，最终输出维度为1×16×16。

训练纹理网络时，随机初始化网络参数，AdamW优化算法作为网络训练优化器。选用对数损失函数计算网络输出与对应二值图之间的差距。

步骤3，利用同一区域不同时间拍摄的卫星地图，生成图片特征匹配数据集。

对同一片区域的地图，通过仿射变换生成不同视角下的图片，以此来模拟无人机拍摄图片，根据仿射矩阵得到两张图片对应像素点的位置，对应点以矩阵形式存储，作为匹配网络的目标输出结果。

步骤4，构建基于transformer关键纹理编码匹配网络模型，利用步骤3中生成的数据集和步骤2中训练好的关键纹理识别网络完成训练。

图3展示了包含关键纹理编码匹配网络以及关键纹理识别网络的整个图片匹配框架,输入无人机拍摄的图片A和卫星图片B经过关键纹理识别网络得到纹理权重序列M^A和M^B，再将其与图片送入关键纹理编码匹配网络得到最终的匹配结果。其中关键纹理编码匹配网络由卷积特征层，特征编码层，匹配层组成，通过对现有LoFTR网络改进而来。

卷积特征层相较于关键纹理识别网络缺少最后一个卷积层，输入维度为1×256×256，输出维度为256×16×16。

编码层输入为两个图片经过卷积特征层提取的两个特征序列f^A和f^B，以及对应的纹理权重序列M^A和M^B。编码层包含两个部分，第一个部分为相对位置编码，通过编码特征之间的相对位置得到，由两个全连接层和中间的Relu激活函数组成，将二维相对位置映射到256维特征空间，得到相对位置编码R。第二个部分为注意力编码，基于transformer改进而来，由四个重复的注意力模块组成，每个注意力模块由自注意力和互注意力组成。在自注意力中(如图4所示)，分别对特征序列f^A和f^B编码，首先将特征序列线性变换得到查询序列Q，键序列K和值序列V，将K，V，R经过纹理权重筛选：

其中M_i表示对应纹理权重序列中第i个纹理权重，K_i表示第i个键，表示筛选后的键序列，V_i表示第i个值，/>表示筛选后的值序列，R_*，i表示所有特征与第i个特征之间的相对位置编码，/>表示筛选后的相对位置编码。选择纹理权重大于0.2的部分后，将Q、/> 和/>送入多头注意力进行编码，其中自注意力中多头注意力的计算由下式表示：

其中self(i)表示对特征序列中第i个特征的编码，Q_i表示第i个查询，表示经过筛选后的第j个键，/>同理，/>表示经过筛选后的第j个值，/>表示筛选后的第i个特征和第j个特征之间的相对位置编码。在互注意力中(如图5所示)，f^A的编码如下：首先由f^A线性变换生成查询序列Q,由f^B线性变换生成键序列K和值序列V,将K和V经过M^B的纹理权重筛选得到/>和/>将Q、/>送入多头注意力进行编码。其中互注意力中多头注意力的计算由下式表示：

其中cross(i)表示对特征序列中第i个特征的编码。f^B的编码同理：首先由f^B线性变换生成查询序列Q，由f^A线性变换生成键序列K和值序列V，将K和V经过M^A的纹理权重筛选得到和/>将Q、/>和/>送入多头注意力进行编码。

在匹配层使用Optimal matching layer(Paul-Edouard Sarlin,Daniel DeTone,Tomasz Malisiewicz,Andrew Rabinovich,"SuperGlue:Learning Feature MatchingWith Graph Neural Networks")对编码后的特征匹配得到最终的匹配分数矩阵P。

训练匹配网络时，随机初始化网络参数，AdamW优化算法作为网络训练优化器，选用对数损失函数计算网络输出与对应匹配矩阵的差距。

步骤5，无人机视觉定位方法：

(1)所给相关区域卫星地图的信息中，lat为地图左上角像素对应的X地坐标,long为地图左上角像素对应的Y地坐标,F^X为X方向上的像素分辨率，F^Y为Y方向上的像素分辨率,G和T为平移和旋转系数。

无人机以平稳姿态飞行拍摄得到图片U，同时获取飞行相对高度height和飞行方向φ。计算地面采样距离的高度GSDh和宽度GSDw：

其中Uh和Uw分别为图片U的像素高度和宽度，Sh和Sw为相机传感器元件的高度和宽度，f为相机焦距。

(2)根据无人机飞行方向φ得到矩阵H：

根据H所给相关区域卫星地图进行旋转变换，使地图方向与图片U拍摄方向一致。取分辨率将地图切割成尺寸为(GSDh/F，GSDw/F)的图片，调整为256×256像素的灰度图，得到图片集{I_k},其中I_k表示第k个图片，并记录图片左上角像素点对应切割前地图像素位置坐标{(x_k，y_k)}，(x_k，y_k)表示第k个图片左上角像素对应的位置坐标。

(3)航拍图片U分别与{I_k}中的图片分别进行匹配，将U和I_k调整为256×256像素的灰度图，输入匹配网络，得到匹配矩阵P。根据下式计算匹配矩阵中可靠的特征对：

matches(k)＝{(m，n)|P(m，n)＞0.2}

(4)根据(3)将匹配数量最多的卫星图片I_r作为无人机参考区域，其中I_r左上角像素对应裁剪前地图像素坐标为(x_r，y_r)。将matches(r)中特征序号还原成像素坐标，使用OpenCV计算仿射矩阵W，其中RANSAC作为过滤器。计算U中心像素点对应I_r中的像素坐标(Ix，Iy)：

[Ix，Iy，1]＝[128，128，1]W

其中图片U中心像素坐标为(128，128)。将坐标(Ix，Iy)转换为原始卫星地图上的像素坐标(SMx，SMy)：

最后计算像素坐标对应的地坐标(Gx，Gy):

Gx＝F^X×SMx+G×SMy+lat

Gy＝F^Y×SMy+T×SMx+long

输出无人机的坐标估计(Gx，Gy)。

下面结合数据集测试和仿真实验对本发明做进一步说明。

1.测试集测试

本发明在多种数据集上得到了测试结果。使用不同时间拍摄的谷歌地图生成三类测试集：城市数据(Towns)、郊区数据(Environs)和季节性变化数据(Seasons)。郊区数据包括海岸、河流、田野、沙漠等(包含2052条数据，约6万张图片)，存在较少的人类建筑。在季节性变化数据中(包含1732条数据，约5万张图片)，自然环境有明显变化，例如积雪覆盖，河流枯竭，用肉眼难以辨别。城市数据主要来自于城市地区的卫星图像(包括1403条数据，约4万张图片)，主要为建筑物和道路。另一个公开数据集VLTO(Cisneros,Ivan andYin,PengandZhang,Ji andChoset,Howie and Scherer,Sebastian，“ALTO:A Large-Scale Datasetfor UAV Visual Place Recognition and Localization”)包含无人机拍摄图片以及对应的卫星图片，共生成了1030条数据。以上数据集中每条数据包含一张查询图片和30张卫星图片，其中只有一张卫星图片为正确的检索图片，图片尺寸都为256×256。

表1

表1中展示本发明提出的匹配方法与其他先进方法的测试结果。R@1表示目标图片匹配相似度排第1的平均占比，R@5表示目标图片匹配相似度排前5的平均占比，R@10表示目标图片匹配相似度排前10的平均占比，表中Ours表示本发明提出的匹配算法，Ours(no WS)表示在匹配算法中不使用纹理权重筛选，SuperGlue(Wang,Alex and Pruksachatkun,Yadaand Nangia,Nikita and Singh,Amanpreet and Michael,Julian and Hill,Felix andLevy,Omer and Bowman,Samuel，“SuperGLUE:A Stickier Benchmark for General-Purpose Language Understanding Systems”)和Patch-NetVLAD(Hausler,Stephen andGarg,Sourav and Xu,Ming and Milford,Michael and Fischer,Tobias,“Patch-NetVLAD:Multi-Scale Fusion of Locally-Global Descriptors for PlaceRecognition”)以及LoFTR(Sun,Jiaming and Shen,Zehong and Wang,Yuang and Bao,Hujun and Zhou,Xiaowei，“LoFTR:Detector-Free Local Feature Matching withTransformers”)均为先进的图像匹配算法，其中LoFTR使用了本发明在步骤3生成的数据进行训练后得到了所有的测试结果。季节变化、郊区、城镇三个数据集识别难度依次递减，VLTO数据集拍摄于城镇和森林区域，其难度居于郊区数据集和城镇数据集之间。本发明提出的匹配算法在表中所有数据集上表现均优于现有技术，其中权重筛选抓住图片中更显著的纹理特征，这使得匹配算法能够适应特征稀疏和特征变化的场景，在季节变化和郊区数据上取得了最高的正确率。VLTO数据中查询图片与目标图片重合率较高，在使用纹理筛选后一定程度上减少了特征编码的有效信息，这导致了Ours的正确率低于Ours(no WS)。而在实际情况中，无人机航拍图片与提供的卫星图片并不能保证大面积的重叠，因此纹理权重筛选是具有意义的。

以上结果表明，本发明提出的关键纹理编码匹配网络在视觉识别任务有更好的表现，一方面，在特征明显且稳定区域(建筑区域)有最高的识别率，另一方面，在特征稀疏或特征变化(郊区、季节变化)能够实现有效的识别，正确率能达到70％以上。

2.仿真环境测试

表2

仿真实验是在gazebo仿真平台上测试的，表2为仿真设置。模拟的无人机配备了镜头向下的摄像头，拍摄像素大小为512×512的图片。测试中构建了一个面积为2.3km²的模拟区，在积雪环境中，无人机飞行了约2km，高度为300m，速度为4m/s，参考地图为2019年晴朗天气拍摄的卫星图片。第二次测试构建了4.6km²的模拟区域，积雪天气，无人机飞行约4km，高度为400m，速度为4m/s，参考地图为2019年晴朗天气拍摄的卫星地图。

表3

图6为第一次仿真测试估计坐标误差折线图，横坐标为图片帧(frames)，纵坐标为误差值(errors，单位为米，其中误差值超过500的记作500)。当图片与参考图片特征差异较大时，现有技术视觉识别正确率较低，导致了较高的定位误差，本发明提出的匹配算法，在第一次测试中检索正确率达到了97.7％，第二次测试达到了100％。在给定正确的参考卫星图片情况下，使用本发明提出的视觉定位方案得到了表3，由表中数据可以看出，本发明在视觉定位上能达到最低平均误差。图7展示了部分匹配结果，可以看到本发明提出的匹配算法，在积雪的情况下仍然保证了良好的性能。图8中蓝色轨迹为标准飞行轨迹，红色为使用本发明得到的飞行轨迹，最右端为起始点，最左端为终点，可以看到预测轨迹与标准轨迹重合度较高，说明本发明计算得到比较精确的位置坐标。

综上，本发明构建的匹配算法，与现有的SuperGlue，Patch-NetVLAD，LOFTR算法相比，能够得到更好的匹配结果和定位效果，能够适应多种困难场景下的视觉定位，具有更强的泛化能力。同时本发明提出的视觉定位方法结合匹配算法在只凭借视觉信息的条件下达到一个较低的定位误差，具有较强的实用性，可以有效解决GPS信号丢失情况下的定位问题。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.基于transformer关键纹理编码匹配的无人机定位方法，其特征在于，包括以下步骤：

所述的S3中，同一区域不同时间拍摄的卫星地图通过仿射变换生成不同视角下的图片，模拟无人机拍摄图片，根据图片之间的映射关系得到图片对应像素点的位置，对应像素点以矩阵形式存储，作为基于transformer关键纹理编码匹配网络模型的目标输出结果；

所述的S4中，构建基于transformer关键纹理编码匹配网络模型，其中编码层包含两部分，

第二部分为注意力编码层，由四个重复的注意力模块组成，其中每个注意力模块由自注意力和互注意力组成，所述的自注意力中，分别对特征序列f^A和f^B编码，首先将特征序列f^A和f^B线性变换得到查询序列Q、键序列K和值序列V，将K、V、R经过纹理权重筛选：

其中，M_i表示第i个特征的纹理权重，K_i表示第i个键，表示筛选后的键序列，V_i表示第i个值，/>表示筛选后的值序列，R_*，i表示所有特征与第i个特征之间的相对位置编码，/>表示筛选后的相对位置编码，选择纹理权重大于0.2的部分后，将/>送入多头注意力进行编码，所述的自注意力中多头注意力的计算由下式表示：

所述的互注意力中，f^A的编码如下：首先由f^A线性变换生成查询序列Q，由f^B线性变换生成键序列K和值序列V，将K和V经过M^B的纹理权重筛选得到和/>M^B为f^B的纹理权重序列，将送入多头注意力进行编码，所述的互注意力中的多头注意力的计算由下式表示：

其中，cross(i)表示对特征序列中第i个特征的编码，

f^B的编码如下：首先由f^B线性变换生成查询序列Q，由f^A线性变换生成键序列K和值序列V，将K和V经过M^A的纹理权重筛选得到和/>M^A为f^A的纹理权重序列，将/>送入多头注意力进行编码，

训练基于transformer关键纹理编码匹配网络模型时，随机初始化网络参数，AdamW优化算法作为网络训练优化器，选用对数损失函数计算基于transformer关键纹理编码匹配网络模型输出与对应匹配矩阵的差距；

S5：根据S1至S4所述的步骤，对无人机进行视觉定位，

S52，根据所给区域的卫星地图，裁剪得到卫星图片集；

S53，对无人机航拍图片U与卫星图片集中的图片相匹配；

所述的S53中，

matches(k)＝{(m，n)|P(m，n)＞0.2}

其中P(m，n)表示两个特征序列中第m个特征和第n个特征的匹配分数，matches(k)记录了U和I_k匹配结果中所有可靠匹配对应的特征序号；

S54，根据匹配结果计算无人机坐标；

所述的S54中，

[Ix，Iy，1]＝[128，128，1]W

最后计算像素坐标对应的地坐标(Gx，Gy)：

Gx＝F^X×SMx+G×SMy+lat

Gy＝F^Y×SMy+T×SMx+long

输出无人机的坐标估计(Gx，Gy)。

2.根据权利要求1所述的基于transformer关键纹理编码匹配的无人机定位方法，其特征在于，所述的S1中，将卫星图片转为灰度图，裁剪灰度图尺寸为256×256像素，使用Canny边缘检测算子对裁剪好的图片提取轮廓信息为二值图，保留建筑、道路、河岸和树林边缘的纹理轮廓，删去多余纹理，将二值图调整尺寸为16×16的矩阵形式储存。

3.根据权利要求2所述的基于transformer关键纹理编码匹配的无人机定位方法，其特征在于，所述的S2中，关键纹理识别网络模型是在ResNet18基础上进行改进，在第一个卷积层中，将通道1转为128，在接下来的残差块中通道数分别转为128、128、196和256，在最后一个残差块后面接上两个卷积核为1×1的卷积层，通道数分别转为256和1，输入S1中维度为1×256×256的灰度图片，最终输出维度为1×16×16，

4.根据权利要求3所述的基于transformer关键纹理编码匹配的无人机定位方法，其特征在于，所述的S51中，

所述的所给区域的卫星地图信息中，设置lat为地图左上角像素对应的X地坐标，long为地图左上角像素对应的Y地坐标，F^X为X方向上的像素分辨率，F^Y为Y方向上的像素分辨率，G为平移系数，T为旋转系数，

计算无人机地面采样距离的高度GSDh和宽度GSDw：

5.根据权利要求4所述的基于transformer关键纹理编码匹配的无人机定位方法，其特征在于，所述的S52中，

根据无人机飞行方向φ得到矩阵H：

根据H所给区域的卫星地图进行旋转变换，使卫星地图方向与航拍图片U拍摄方向一致，取分辨率F＝将卫星地图切割成尺寸为(GSDh/F，GSDw/F)的卫星图片，调整为256×256像素的灰度图，得到卫星图片集{I_k}，其中I_k表示第k个卫星图片，并记录卫星图片左上角像素点对应切割前地图像素位置坐标{(x_k，y_k)}，(x_k，y_k)表示第k个卫星图片左上角像素对应的位置坐标。