CN116740488B

CN116740488B - 一种用于视觉定位的特征提取模型的训练方法及装置

Info

Publication number: CN116740488B
Application number: CN202310550775.5A
Authority: CN
Inventors: 李艳凤; 张又; 陈后金; 孙嘉; 陈紫微
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2024-01-05
Anticipated expiration: 2043-05-16
Also published as: CN116740488A

Abstract

本发明涉及一种用于视觉定位的特征提取模型的训练方法，所述训练方法包括如下步骤：将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像，所述无标签的真实训练集图像包括景深图像和雾图像；根据所述真实训练集图像得到第一图像对并将其输入融合自注意力和卷积混合模块的模型得到第一特征点概率图；通过自监督的方式同时提取图像特征点和描述子，将3DCC变换应用于训练阶段，通过模拟现实世界中计算机视觉模型将遇到的自然分布变化进行离线数据增强，提高了模型的健壮性；使用融合了自注意力和卷积混合模块的SP‑AC模型推理真实训练集的伪标签,增强了伪标签的质量，从而提高了模型特征提取的质量且保持计算成本不变。

Description

一种用于视觉定位的特征提取模型的训练方法及装置

技术领域

本发明涉及视觉定位技术领域，具体涉及一种用于视觉定位的特征提取模型的训练方法及装置。

背景技术

视觉定位是一个估计6自由度(DoF)相机姿态的问题，由此获取一幅图像相对于给定的参考场景的表示。相机姿态用于描述相机在世界坐标系(3D空间)中的位置和方向。相较于全球定位系统(GPS)、激光雷达、毫米波雷达，将摄像头作为传感器部署在车辆上成本较低，且摄像头所拍摄的视觉内容丰富。因此视觉定位成为目前最主流的辅助自动驾驶定位技术之一。除了应用于自动驾驶外，视觉定位也是增强、混合虚拟现实的关键技术，还可以为环境感知和路径规划等提供参考和指导。增强现实(AR)技术可以通过投影将三维(3D)虚拟对象叠加到真实环境的图像上，以增强实时图像。增强现实在军事训练、教育、游戏和娱乐等方面具有广泛的应用前景。对于AR游戏来说，相机姿态的准确估计可以改善AR游戏体验。对于AR导航系统来说，视觉定位技术可以提供更高精度的定位来实现精确的AR交互显示，带来更加身临其境的实景导航体验。除此之外，视觉定位还可以应用于无人机驾驶，确保无人机稳定悬停，保证飞机姿态修正和基准定位。

综上所述，视觉定位是自动驾驶和增强虚拟现实等领域的核心技术之一，其在现实生活中有着广泛的应用前景。视觉定位方法主要包括基于图像检索的定位方法、基于结构的定位方法和基于分层的定位方法等。基于图像的检索定位方法精度较差，无法满足高精度应用场景的需求。基于结构的定位方法通常从数据库图像中建立SfM模型，在查询图像和点云之间建立2D-3D对应关系，然后利用这些对应关系进行相机姿态估计，从而计算查询图像的摄像机姿态。然而，其需要搜索每个3D点以查询特征，效率并不高。基于分层的定位方法简单有效，结合了基于图像检索和基于结构的定位方法的优点。基于分层的定位方法将定位问题划分为特征提取、全局检索、局部特征匹配和精细位姿估计四部分。通常，训练CNN网络用于特征提取，回归图像的局部描述子用于2D-3D匹配，使用先进的全局描述子用于图像检索，最后利用基于RANSAC的方法进行相机姿态估计。这种从粗到细的分层定位方法可以较好地平衡了定位过程中准确性和效率的问题。

近年来，视觉定位研究在一些公开数据集上取得了良好的效果，但仍面临着来自光照和环境变化的挑战。针对同一个场景，假设建图的时间是白天，而定位的时间是晚上，方法的定位精度较低。同样地，当建图与定位遇到的天气状况、季节不同时，视觉定位系统的精度也难以满足要求。其原因是在大的条件变化下，特征提取任务能够提取到的特征信息数量和质量是不稳定的。

发明内容

本发明的目的在于提供一种用于视觉定位的特征提取模型的训练方法及装置，旨在解决现有技术中特征提取任务能够提取到的特征信息数量和质量不稳定的问题。

为实现上述目的，本发明提供如下技术方案：

一方面提供了一种用于视觉定位的特征提取模型的训练方法，所述训练方法包括如下步骤：

将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像，所述无标签的真实训练集图像包括景深图像和雾图像；

根据所述真实训练集图像得到第一图像对并将其输入融合自注意力和卷积混合模块的模型得到第一特征点概率图；

将所述真实训练集图像输入所述特征提取基础模块得到第二特征点概率图和描述子；

根据所述第一特征点概率图、所述描述子以及所述第二特征点概率图计算得到最终损失。

另一方面提供了一种用于视觉定位的特征提取模型的训练系统，所述训练系统包括至少一个处理器；以及存储器，其存储有指令，当通过至少一个处理器来执行该指令时，实施按照前述的方法的步骤。

本发明的有益效果在于，通过自监督的方式同时提取图像特征点和描述子，将3DCC变换应用于训练阶段，通过模拟现实世界中计算机视觉模型将遇到的自然分布变化进行离线数据增强，提高了模型的健壮性；使用融合了自注意力和卷积混合模块的SP-AC模型推理真实训练集的伪标签，增强了伪标签的质量，从而提高了模型特征提取的质量且保持计算成本不变；应用于视觉定位中的特征提取任务，使得定位技术能够提取到的特征信息的数量和质量大大提高，从而有效提高了定位精度；本发明在提高定位精度的同时仅消耗较小的定位时间，较好地权衡了定位过程中准确性和效率。

附图说明

图1是本发明中训练系统的示意图；

图2是本发明中特征提取模型的训练过程示意图；

图3是本发明中训练步骤的示意图；

图4是本发明中实现定位的流程示意图；

图5是本发明中SP-AC模型的结构示意图；

图6是本发明中ACmix层的结构示意图；

图7是本发明中SuperPoint模型的结构示意图。

具体实施方式

下面将结合本发明的附图及实施方式，对本发明的技术方案进行清楚、完整地描述。

在目前相关的视觉定位方法中，视觉定位方法包括全局检索模型、特征提取模型、局部特征匹配模型和精细位姿估计模型，所述全局检索模型包括获取查询图像后得到所述查询图像在3D地图中的地理位置，所述特征提取模型包括获取查询图像后得到特征点及描述子，所述局部特征匹配模型包括获取所述地理位置和所述特征点及描述子后得到图像对应关系，所述精细位姿估计模型包括获取所述图形对应关系后得到6自由度相机姿态。

本发明的一些实施方式涉及一种用于视觉定位的特征提取模型的训练系统，如图1所示，所述训练系统包括至少一个处理器1；以及存储器2，其存储有指令，当通过至少一个处理器1来执行该指令时，用于实施以下方法实施方式中的所有步骤。

在一些用于视觉定位的特征提取模型的训练方法实施方式中，训练方法包括如如下步骤：

在一些用于视觉定位的特征提取模型的训练方法实施方式中，将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像包括：

将所述原始训练集图像中的场景分割为若干个层，并获取焦点区域；

根据所述若干个层与所述焦点区域的距离计算得到每个层的相应模糊级别得到若干个模糊图像层，将若干个所述模糊图像层进行合成得到景深图像。

在一些用于视觉定位的特征提取模型的训练方法实施方式中，将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像还包括：

将所述原始训练集图像以及所述原始训练集图像的深度图基于雾的标准光学模型得到雾图像；

所述雾的标准光学模型的表达式如式(1)所示：

I(x)＝R(x)t(x)+A(1-t(x)) (1)

其中，I(x)表示像素x处生成的雾图像；R(x)表示原始训练集图像；A表示大气光；

式(1)中，t(x)表示到达相机的光量的传输函数，其表达式如式(2)所示：

t(x)＝exp(-βd(x)) (2)

其中，d(x)表示原始训练集图像的深度图；β表示控制雾厚度的衰减系数。

在一些用于视觉定位的特征提取模型的训练方法实施方式中，根据所述真实训练集图像得到第一图像对并将其输入融合自注意力和卷积混合模块的模型得到第一特征点概率图包括：

将所述真实训练集图像通过几何变换得到变换训练集图像，每张所述真实训练集图像与其相应的变换训练集图像构成第一图像对；

将所述第一图像对输入第一共享编码器模块得到降维特征图；

将所述降维特征图输入第一特征点检测解码器模块得到第一特征点概率图。

在一些用于视觉定位的特征提取模型的训练方法实施方式中，第一共享编码器模块包括ACmix层、第一Conv层、MaxPool层、第一非线性函数Relu层和第一BatchNorm归一化层，所述ACmix层被配置为：

接收初始特征并通过卷积运算进行投影并重塑得到中间特征；

将所述中间特征输入全连接层得到全层特征；

将所述中间特征输入自注意力层得到组别特征；

将所述全层特征和所述组别特征相加得到融合特征，并将融合特征进行输出。

在一些用于视觉定位的特征提取模型的训练方法实施方式中，第一特征点检测解码器模块被配置为：

将降维特征图输入CRB模块得到第一特征图；

将所述第一特征图输入Softmax层得到第二特征图；

将所述第二特征图输入Reshape层得到第一特征点概率图；

所述CRB模块包括第二Conv层、第二非线性函数Relu层和第二BatchNorm归一化层。

在一些用于视觉定位的特征提取模型的训练方法实施方式中，将所述真实训练集图像输入所述特征提取基础模块得到第二特征点概率图和描述子包括：

根据所述真实训练集图像随机截取若干张尺寸相同的小图，并将其转换为灰度图；

将所述灰度图依次通过随机高斯模糊、运动模糊和亮度变化得到若干张训练图像；

将所述若干张训练图像通过几何变换得到若干张变换图像，每张所述训练图像与其相应的变换图像构成第二图像对；

将所述第二图像对输入基础模块得到第二特征点概率图和描述子，所述基础模块包括SuperPoint模型。

在一些用于视觉定位的特征提取模型的训练方法实施方式中，最终损失的计算表达式如式(3)所示：

L(X,X',D,D',Y,Y',S)＝L_p(X,Y)+L_p(X',Y')+λL_d(D,D',S) (3)

其中，X表示训练图像的第二特征点概率图；X'表示变换图像的第二特征点概率图；D表示训练图像的描述子；D'表示变换图像的描述子；Y表示真实训练集图像的第一特征点概率图；Y'表示变换训练集图像的第一特征点概率图；S表示全部对应关系集合；λ表示平衡L_p损失和L_d损失的权重。

式(3)中，L_p表示特征点损失函数，其表达式如式(4)所示：

其中，H_c表示特征图的高；W_c表示特征图的宽；x_hw表示X在(h,w)处的值；y_hw表示Y在(h,w)处的值；

式(4)中，

其中，x_hwy表示x_hw在y_hw所对应的通道上的值；x_hwk表示x_hw在第k个通道的值；

式(3)中，L_d表示描述子损失函数，其表达式如式(5)所示：

其中，d_hw∈D且来自训练图像；d'_h'w'∈D'且来自变换图像；s_hwh'w'表示训练图像(h,w)单元和变换图像(h',w')单元中所有对应关系的集合；

式(5)中，l_d(d_hw,d'_h'w'；s_hwh'w')＝λ_d*s_hwh'w'*max(0,m_p-d_hw ^Td'_h'w')+(1-s_hwh'w')*max(0,d_hw ^Td'_h'w'-m_n)

其中，*表示相乘；λ_d表示权重；m_p表示正边缘对应阈值；m_n表示负边缘对应阈值；T表示矩阵的转置。

在一些用于视觉定位的特征提取模型的训练方法实施方式中，式(5)中，训练图像(h,w)单元和变换图像(h',w')单元中所有对应关系的集合的关系表达式如式(6)所示：

其中，Hp_hw表示将单元中心位置p_hw乘以单应性矩阵H并除以后者的坐标；p_h'w'表示变换图像(h',w')单元的中心位置。

在一些用于视觉定位的特征提取模型的训练方法实施方式中，特征提取模型的训练过程包括以下步骤：

步骤1：通过3DCC变换(3DCC变换为现有技术，在本发明中对其不再详细描述)对无标签的原始训练集图像进行离线数据增强，包括通过景深变化得到的景深图像和通过天气变化得到的雾图像，组成无标签的真实训练集图像。

1)通过离散场景深度图将场景分割为多个层，然后选择一个区域保持对焦。使用针孔相机模型，根据它们与焦点区域的距离，计算每个层的相应模糊级别。通过对模糊图像层进行合成，得到最终的重新聚焦后的景深图像。

2)针对天气变化的数据增强，选择雾天气进行模拟。雾的标准光学模型为Ix＝Rxtx+A1-tx，其中Ix表示像素x处生成的雾图像，Rx表示原始训练集图像，A是大气光，tx是描述到达相机的光量的传输函数。当介质均匀时，传输取决于与相机的距离：tx＝exp-βdx，其中dx表示原始训练集图像的深度图，β是控制雾厚度的衰减系数。

步骤2：将无标签的真实训练集图像通过几何变换得到变换训练集图像，每张所述真实训练集图像与其相应的变换训练集图像构成第一图像对，将第一图像对输入SP-AC模型即融合自注意力和卷积混合模块的模型，推理得到特征点伪标签即第一特征点概率图。SP-AC模型通过第一共享编码器模块来降低输入图像的维数并提取特征。在第一共享编码器模块之后，通过第一特征点检测解码器模块用于特征点检测。

1)第一共享编码器模块从输入图像中提取特征图，输入图像大小从(C×H×W)变为(C₂×H/8×W/8)。第一共享编码器模块具体由依次连接的Conv3×3×C×C₁(其中“3×3”表示卷积核大小，“×C”表示输入通道数，“×C₁”表示输出通道数)、Conv3×3×C₁×C₁、MaxPool(2)、ACmix(C₁,C₁)、MaxPool(2)、ACmix(C₁,C₂)、MaxPool(2)、ACmix(C₂,C₂)构成，每个卷积层后均设置非线性函数Relu层和BatchNorm归一化层。

i.ACmix层包括两个阶段。在第一阶段中，输入的初始特征通过三个1×1卷积运算进行投影并重塑，得到3×N个丰富的中间特征。在第二阶段，它们被不同的范式使用，首先采用全连接层生成k²个特征映射，移动和聚合生成的这些特征得到全层特征。然后，采用自注意力层将中间特征分成N组得到组别特征，每组包含3个特征映射，分别为查询、键和值。最后，将两条路径输出的全层特征和组别特征加在一起得到融合特征，强度由两个可学习标量控制。

2)第一特征点检测解码器模块中，CRB模块具体由依次连接的Conv3×3×C₂×C₃、Conv1×1×C₃×C₄组成，每个卷积层后均设置非线性函数Relu层和BatchNorm归一化层。输入大小从(C₂×H/8×W/8)变为(C₄×H/8×W/8)，然后通过Softmax层操作丢弃一个通道，变成(C₄-1×H/8×W/8)。最后使用Reshape层操作进行维度切换，得到第一特征点概率图(H×W×1)。

步骤3：从增强后的真实训练集图像中随机截取尺寸为n₁×n₂的小图，并转换为灰度图。通过随机高斯模糊、运动模糊和亮度变化来对图像进行预处理，得到同一批训练b张的训练图像。

步骤4：对训练图像进行几何变换得到变换图像，得到二者之间的单应性矩阵，每张训练图像与其相应的变换图像构成第二图像对，这样就拥有了已知位姿关系的第二图像对。

步骤5：把已知位姿关系的第二图像对输入基础模块，优选的，基础模块为SuperPoint模型(基础模块还可以由LIFT模型、SIFT模型和ORB模型中的其中任意一个模型代替)，使用自监督的方式进行联合训练，提取特征即第二特征点概率图和描述子，完成前向传播。SuperPoint模型通过一个第二共享编码器模块来降低输入图像的维数并提取特征。在第二共享编码器模块之后，通过第二特征点检测解码器模块和描述子解码器模块学习特定任务的权重，第二特征点检测解码器模块用于特征点检测，描述子解码器模块用于生成描述子。

1)第二共享编码器模块从输入图像中提取特征图，输入图像大小从(1×H×W)变为(C₂×H/8×W/8)。第二共享编码器模块具体由依次连接的Conv3×3×1×C₁、Conv3×3×C₁×C₁、MaxPool(2)、Conv3×3×C₁×C₁、Conv3×3×C₁×C₁、MaxPool(2)、Conv3×3×C₁×C₂、Conv3×3×C₂×C₂、MaxPool(2)、Conv3×3×C₂×C₂、Conv3×3×C₂×C₂构成，每个卷积层后均设置非线性函数Relu层和BatchNorm归一化层。

2)第二特征点检测解码器模块具体由依次连接的Conv3×3×C₂×C₃、Conv1×1×C₃×C₄组成，每个卷积层后均设置非线性函数Relu层和BatchNorm归一化层。输入大小从(C₂×H/8×W/8)变为(C₄×H/8×W/8)，然后通过Softmax操作丢弃一个通道，变成(C₄-1×H/8×W/8)。最后使用Reshape操作进行维度切换，得到第二特征点概率图(H×W×1)。

3)描述子解码器模块具体由依次连接的Conv3×3×C₂×C₃、Conv1×1×C₃×C₄组成，每个卷积层后均设置非线性函数Relu层和BatchNorm归一化层。输入大小从(C₂×H/8×W/8)变为(C₄×H/8×W/8)，然后进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量(C₄×H×W)。

步骤6：计算特征点损失和描述子损失，将同一批次b张图像的损失求和平均后作为最终损失。训练过程中使用一对图像，第二张图像是对第一张图像进行几何变换生成的。由于已知这一对图像的特征点伪标签和二者之间的单应性变换矩阵H，这允许模型同时优化两种损失，使用λ平衡两种损失，即L(X,X',D,D',Y,Y',S)＝L_p(X,Y)+L_p(X',Y')+λL_d(D,D',S)。X表示训练图像的第二特征点概率图；X'表示变换图像的第二特征点概率图；D表示训练图像的描述子；D'表示变换图像的描述子；Y表示真实训练集图像的第一特征点概率图；Y'表示变换训练集图像的第一特征点概率图；S表示全部对应关系集合；λ表示平衡L_p损失和L_d损失的权重。

1)L_p表示特征点损失函数，其表达式如式(4)所示：

式(4)中，

其中，x_hwy表示x_hw在y_hw所对应的通道上的值；x_hwk表示x_hw在第k个通道的值。

2)L_d表示描述子损失函数，其表达式如式(5)所示：

其中，d_hw∈D且来自训练图像；d'_h'w'∈D'且来自变换图像；s_hwhw'表示训练图像(h,w)单元和变换图像(h',w')单元中所有对应关系的集合；

其中，*表示相乘；λ_d表示权重,可以平衡负对应比正对应多的问题；m_p表示正边缘对应阈值；m_n表示负边缘对应阈值；T表示矩阵的转置。

训练图像(h,w)单元和变换图像(h',w')单元中所有对应关系的集合的关系表达式如式(6)所示：

步骤7：根据步骤6得到的损失结果进行反向传播，更新网络权重，继续下一次训练。

步骤8：重复以上步骤，使损失趋近于零，直至网络收敛。保存验证效果最好的网络模型。

在一些用于视觉定位的特征提取模型的训练方法实施方式中，基于特征提取模型实现视觉定位的具体流程，包括以下步骤：

步骤1：考虑到内存的限制，对查询图像进行下采样处理，得到m×m大小的图像。使用NetVLAD模型(NetVLAD模型为现有技术，在本发明中对其不再详细描述)对查询图像提取全局描述子，全局描述子为d_global×1维度的特征向量。使用所述特征提取模型对查询图像提取特征点和局部描述子，对查询图像中检测到的关键点应用半径为q的非极大值抑制，并最大保留p个关键点。局部描述子为d_local×1维度的特征向量。

步骤2：根据NetVLAD全局描述子使用NNSearch检索(NNSearch检索为现有技术，在本发明中对其不再详细描述)，距离阈值设为t，得到查询图像的前K个相似图像(先验帧)。根据先验帧的共同特征点，在3D地图中得到一组不同的位置，这些位置应当与查询图像的位置很接近。

步骤3：对于每个位置，从3D地图中提取一个局部3D模型，将查询图像每个特征点对应的局部描述子与局部3D模型的细节特征进行匹配，即在参考场景与查询图像之间建立2D-3D的对应关系。

步骤4：根据2D-3D的几何约束进行位姿估计。应用Perspective-n-Point(PnP)求解6DoF摄像机姿态，使用Locally optimized Random Sample Consensus(Lo_RANSAC)方法去除异常值。

在一些用于视觉定位的特征提取模型的训练方法实施方式中，特征提取模型的训练过程具体包括以下步骤：

步骤1：通过3DCC变换(3DCC变换为现有技术，在本发明中对其不再详细描述)对无标签的原始训练集图像进行离线数据增强，包括通过景深变化得到的景深图像和通过天气变化得到的雾图像，组成无标签的真实训练集图像，设置控制雾厚度的衰减系数β＝[1,2,3,4,8,1,2,3,4,8]。

1)第一共享编码器模块从输入图像中提取特征图，输入图像大小从(3×240×320)变为(128×30×40)。第一共享编码器模块具体由依次连接的Conv3×3×3×64、Conv3×3×64×64、MaxPool(2)、ACmix(64,64)、MaxPool(2)、ACmix(64,128)、MaxPool(2)、ACmix(128,128)构成，每个卷积层后均设置非线性函数Relu层和BatchNorm归一化层。

i.ACmix层包括两个阶段。在第一阶段中，输入的初始特征通过三个1×1卷积运算进行投影并重塑，得到3×N个丰富的中间特征，B＝4。在第二阶段，它们被不同的范式使用。首先采用全连接层，生成k²个特征映射，移动和聚合生成的这些特征得到全层特征，其中k＝3。然后，采用自注意力层将中间特征分成N组得到组别特征，每组包含3个特征映射，分别为查询、键和值。最后，将两条路径输出的全层特征和组别特征加在一起得到融合特征，强度由两个可学习标量控制。

2)第一特征点检测解码器模块中，CRB模块具体由依次连接的Conv3×3×128×256、Conv1×1×256×65组成，每个卷积层后均设置非线性函数Relu层和BatchNorm归一化层。输入大小从(128×30×40)变为(65×30×40)，然后通过Softmax层操作丢弃一个通道，变成(64×30×40)。最后使用Reshape层操作进行维度切换，得到第一特征点概率图(240×320×1)。

步骤3：从增强后的真实训练集图像中随机截取尺寸为240×320的小图，并转换为灰度图。通过随机高斯模糊、运动模糊和亮度变化来对图像进行预处理，得到同一批训练b张的训练图像。

步骤5：把第二图像对输入SuperPoint模型，使用自监督的方式进行联合训练，得到第二特征点概率图和描述子，完成前向传播。SuperPoint模型通过一个第二共享编码器模块来降低输入图像的维数并提取特征。在第二共享编码器模块之后，通过第二特征点检测解码器模块和描述子解码器模块学习特定任务的权重，第二特征点检测解码器模块用于特征点检测，描述子解码器模块用于生成描述子。

1)第二共享编码器模块从输入图像中提取特征图，输入图像大小从(1×240×320)变为(128×30×40)。第二共享编码器模块具体由依次连接的Conv3×3×3×64、Conv3×3×64×64、MaxPool(2)、Conv3×3×64×64、Conv3×3×64×64、MaxPool(2)、Conv3×3×64×128、Conv3×3×128×128、MaxPool(2)、Conv3×3×128×128、Conv3×3×128×128构成，每个卷积层后均设置非线性函数Relu层和BatchNorm归一化层。输入图像从大小为(1×240×320)变为(128×30×40)。

2)第二特征点检测解码器模块具体由依次连接的Conv3×3×128×256、Conv1×1×256×65组成，每个卷积层后均设置非线性函数Relu层和BatchNorm归一化层。输入大小从(128×30×40)变为(65×30×40)，然后通过Softmax操作丢弃一个通道，变成(64×30×40)。最后使用Reshape操作进行维度切换，得到第二特征点概率图(240×320×1)。

3)描述子解码器模块具体由依次连接的Conv3×3×128×256、Conv1×1×128×256组成，每个卷积层后均设置非线性函数Relu层和BatchNorm归一化层。输入大小从(128×30×40)变为(256×30×40)，然后进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量(256×240×320)。

步骤6：计算特征点损失和描述子损失，将同一批次4张图像的损失求和平均得到最终损失。训练的过程中使用一对图像，第二张图像是对第一张图像进行几何变换生成的。同时已知这一对图像的特征点伪标签和二者之间的单应性变换矩阵H，这允许模型同时优化两种损失，使用λ平衡两种损失：L(X,X',D,D',Y,Y',S)＝L_p(X,Y)+L_p(X',Y')+λL_d(D,D',S)。X表示训练图像的第二特征点概率图；X'表示变换图像的第二特征点概率图；D表示训练图像的描述子；D'表示变换图像的描述子；Y表示真实训练集图像的第一特征点概率图；Y'表示变换训练集图像的第一特征点概率图；S表示全部对应关系集合；λ表示平衡L_p损失和L_d损失的权重。损失函数中参数设置为λ_d＝250，m_p＝1，m_n＝0.2。

步骤8：重复以上步骤，使损失趋近于零，直至网络收敛。保存验证效果最好的网络模型。使用Adam优化器，学习率为0.0001。训练迭代20万次。

在一些用于视觉定位的特征提取模型的训练方法实施方式中，基于特征提取模型实现视觉定位的具体流程，具体包括以下步骤：

步骤1：考虑到内存的限制，对查询图像进行下采样处理，得到1024×1024大小的图像。使用NetVLAD模型对查询图像提取全局描述子，全局描述子为4096×1维度的特征向量。使用训练好的所述特征提取模型对查询图像提取特征点和局部描述子，对查询图像中检测到的关键点应用半径为4的非极大值抑制，并最大保留4096个关键点。局部描述子为256×1维度的特征向量。

步骤2：根据NetVLAD全局描述子使用NNSearch检索，距离阈值设为0.7，得到查询图像的前10个相似图像(先验帧)。根据先验帧的共同特征点，在3D地图中得到一组不同的位置，这些位置应当与查询图像的位置很接近。

本说明书中描述的主题的实施方式和功能性操作可以在以下中实施：数字电子电路，有形实施的计算机软件或者固件，计算机硬件，包括本说明书中公开的结构及其结构等同体，或者上述中的一者以上的组合。本说明书中描述的主题的实施方式可以被实施为一个或多个计算机程序，即，一个或多个有形非暂时性程序载体上编码的计算机程序指令的一个或多个模块，用以被数据处理设备执行或者控制数据处理设备的操作。

作为替代或者附加，程序指令可以被编码在人工生成的传播信号上，例如，机器生成的电信号、光信号或者电磁信号，上述信号被生成为编码信息以传递到用数据处理设备执行的适当的接收器设备。计算机存储介质可以是机器可读存储装置、机器可读的存储基片、随机或者串行存取存储器装置或者上述装置中的一种或多种的组合。

术语“数据处理设备”包含所有种类的用于处理数据的设备、装置以及机器，作为实例，包括可编程处理器、计算机或者多重处理器或者多重计算机。设备可以包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或者ASIC(专用集成电路)。设备除了包括硬件之外，还可以包括创建相关计算机程序的执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一种或多种的组合代码。

Claims

1.一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述训练方法包括如下步骤：

将所述真实训练集图像输入特征提取基础模块得到第二特征点概率图和描述子；根据所述第一特征点概率图、所述描述子以及所述第二特征点概率图计算得到最终损失；

所述根据所述真实训练集图像得到第一图像对并将其输入融合自注意力和卷积混合模块的模型得到第一特征点概率图包括：

2.根据权利要求1所述的一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像包括：

3.根据权利要求1所述的一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述将无标签的原始训练集图像进行数据增强得到无标签的真实训练集图像还包括：

所述雾的标准光学模型的表达式如式(1)所示：

I(x)＝R(x)t(x)+A(1-t(x)) (1)

其中，I(x)表示像素x处生成的雾图像；R(x)表示原始训练集图像；A表示大气光；式(1)中，t(x)表示到达相机的光量的传输函数，其表达式如式(2)所示：

t(x)＝exp(-βd(x)) (2)

4.根据权利要求1所述的一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述第一共享编码器模块包括ACmix层、第一Conv层、MaxPool层、第一非线性函数Relu层和第一BatchNorm归一化层，所述ACmix层被配置为：

将所述中间特征输入全连接层得到全层特征；

将所述中间特征输入自注意力层得到组别特征；

5.根据权利要求4所述的一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述第一特征点检测解码器模块被配置为：

将降维特征图输入CRB模块得到第一特征图；

将所述第一特征图输入Softmax层得到第二特征图；

将所述第二特征图输入Reshape层得到第一特征点概率图；

6.根据权利要求5所述的一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述将所述真实训练集图像输入特征提取基础模块得到第二特征点概率图和描述子包括：

根据所述真实训练集图像随机截取若干张尺寸相同的小图，并将其转换为灰度图；将所述灰度图依次通过随机高斯模糊、运动模糊和亮度变化得到若干张训练图像；将所述若干张训练图像通过几何变换得到若干张变换图像，每张所述训练图像与其相应的变换图像构成第二图像对；

7.根据权利要求6所述的一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述最终损失的计算表达式如式(3)所示：

L(X,X',D,D',Y,Y',S)＝L_p(X,Y)+L_p(X',Y')+λL_d(D,D',S) (3)

其中，X表示训练图像的第二特征点概率图；X'表示变换图像的第二特征点概率图；D表示训练图像的描述子；D'表示变换图像的描述子；Y表示真实训练集图像的第一特征点概率图；Y'表示变换训练集图像的第一特征点概率图；S表示全部对应关系集合；λ表示平衡L_p损失和L_d损失的权重；

式(3)中，L_p表示特征点损失函数，其表达式如式(4)所示：

其中，H_c表示特征图的高；W_c表示特征图的宽；x_hw表示X在(h，w)处的值；y_hw表示Y在(h，w)处的值；

式(4)中，

式(3)中，L_d表示描述子损失函数，其表达式如式(5)所示：

其中，d_hw∈D且来自训练图像；d′_h′w′∈D′且来自变换图像；s_hwh′w′表示训练图像(h，w)单元和变换图像(h′，w′)单元中所有对应关系的集合；

式(5)中，l_d(d_hw，d′_h′w′；S_hwh′w′)＝λ_d*S_hwh′w′*max(0，m_p-d_hw ^Td′_h′w′)+(1-S_hwh′w′)*max(0，d_hw ^Td_h′w′-m_n)

8.根据权利要求7所述的一种用于视觉定位的特征提取模型的训练方法，其特征在于，所述式(5)中，训练图像(h，w)单元和变换图像(h′，w′)单元中所有对应关系的集合的关系表达式如式(6)所示：

其中，Hp_hw表示将单元中心位置p_hw乘以单应性矩阵H并除以后者的坐标；p_h′w′表示变换图像(h′，w′)单元的中心位置。

9.一种用于视觉定位的特征提取模型的训练系统，其特征在于，所述训练系统包括至少一个处理器；以及存储器，其存储有指令，当通过至少一个处理器来执行该指令时，实施按照权利要求1-8任一项所述的方法的步骤。