CN116664867A

CN116664867A - 一种基于多证据融合选取训练样本的特征提取方法及装置

Info

Publication number: CN116664867A
Application number: CN202310582786.1A
Authority: CN
Inventors: 樊彬; 刘传巾; 刘红敏
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-05-22
Filing date: 2023-05-22
Publication date: 2023-08-29

Abstract

本发明公开了一种基于多证据融合选取训练样本的特征提取方法及装置，该方法包括：在特征提取网络的训练阶段引入多种不同的图像检索算法；对特征提取网络进行训练；训练过程包括：在输入图像中确定锚点、正样本点和负样本点；分别利用每一图像检索算法计算锚点和正样本点之间的正样本相似度，以及锚点与负样本点之间的负样本相似度；基于计算出的正样本相似度和负样本相似度更新负样本点，得到更新后的负样本点；将利用多种不同的图像检索算法所得到的更新后的负样本点进行融合，计算损失函数；利用训练好的特征提取网络对待处理图像进行特征提取，得到提取结果。本发明可提高描述子可靠性，进而提高匹配准确率和数量，有利于视觉定位等下游任务。

Description

一种基于多证据融合选取训练样本的特征提取方法及装置

技术领域

本发明涉及图像局部特征提取及匹配技术和图像检索技术领域，特别涉及一种基于多证据融合选取训练样本的特征提取方法及装置。

背景技术

视觉定位技术是以计算机视觉为基础的一项定位技术，它的主要目的是在给定一幅查询图像的情况下估计相对于参考场景六自由度的相机位置和姿态。相对于GPS定位，视觉定位能够实现3D定位，并且能广泛的应用在各种场景，如室内，大型复杂的室外环境。同时，视觉定位还能够应用在增强现实、混合现实和虚拟现实以及自动驾驶汽车等方面。视觉定位主要流程分为特征提取与匹配、图像检索、三维重建、位姿解算等部分，图像特征提取的质量对视觉定位等下游任务有决定作用。(Toft C,Maddern W,Torii A,et al.Long-term visual localization revisited[J].IEEE Transactions on Pattern Analysisand Machine Intelligence,2020,44(4):2074-2088.)。近些年基于深度学习的方法聚焦于辨别力强的特征描述子的学习，以期望获得在昼夜和季节变化、大视角变化、弱纹理场景下的鲁棒匹配。然而在已有数据集上往往存在一些本质不可分的弱纹理场景和重复结构，为训练带来了一些噪声，影响描述子的学习效果。如何在训练时规避拍摄中常出现的不可分样本，是进一步提升描述子性能的重要技术。

目前主流的特征提取方法一般是通过卷积神经网络端到端的学习特征点检测器和描述子，能够在很多日常场景中良好地匹配。但是涉及到时间、昼夜和季节这种外观较大的场景，或者弱纹理区域这种很难检测特征点的场景，特征匹配的数量和质量会大幅降低，导致定位精度下降。比较流行的特征提取算法之一是D2-Net(Dusmanu M,Rocco I,PajdlaT,et al.D2-net:A trainable cnn for joint description and detection of localfeatures[C].Proceedings of the ieee/cvf conference on computer vision andpattern recognition.2019:8092-8101.)，其通过特征图空间特性建模特征点分数，并添加到描述子损失当中。其得到的特征点不局限于边缘位置，往往是描述子可靠性比较高的区域，在弱纹理区域也有一些分布，但这种模型特征点精度不高。Fan等人提出一个域不变特征提取方法(Fan B,Yang Y,Feng W,et al.Seeing through darkness:Visuallocalization at night via weakly supervised learning of domain invariantfeatures[J].IEEE Transactions on Multimedia,2022.)，其通过对抗学习提高局部特征对具有剧烈复杂光照变化的昼夜图像的匹配性能，但其结构更加复杂，训练难度加大，对抗学习引入了额外的计算负担。Li等人提出了一种解耦的局部特征学习框架(Li K,Wang L,Liu L,et al.Decoupling makes weakly supervised local feature better[C].Proceedings of the IEEE/CVF Conference on Computer Vision and PatternRecognition.2022:15838-15848.)，通过从线到窗的方式搜索样本学习描述子，然后在学好的描述子网络上学习特征点，这种方式生成的样本更具有信息量，但此方法模型较大，测试速度较慢。

发明内容

本发明提供了一种基于多证据融合选取训练样本的特征提取方法及装置，以解决现有技术所存在的特征提取质量差或模型较大的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种基于多证据融合选取训练样本的特征提取方法，所述基于多证据融合选取训练样本的特征提取方法包括：

在特征提取网络的训练阶段引入多种不同的图像检索算法；

对特征提取网络进行训练；其中，训练过程包括：在输入图像中确定锚点、正样本点和负样本点；分别利用每一图像检索算法计算锚点和正样本点之间的正样本相似度，以及锚点与负样本点之间的负样本相似度；基于计算出的正样本相似度和负样本相似度，更新负样本点，得到更新后的负样本点；将利用多种不同的图像检索算法所得到的更新后的负样本点进行融合，计算损失函数；

利用训练好的特征提取网络对待处理图像进行特征提取，得到提取结果。

进一步地，在对特征提取网络进行训练时，特征提取网络的输入图像为同一场景下的图像对，并且训练用的数据集具有对应的深度信息和相机参数信息。

进一步地，所述在输入图像中确定锚点、正样本点和负样本点，包括：

采样锚点，并根据输入图像对之间的相机变换得到锚点所对应的正样本点；

将以正样本点为中心的矩形窗外的所有点作为负样本集；

根据所述负样本集中各点的描述子与正样本点的描述子之间的匹配程度，选取一个与正样本点最相近的点，作为负样本点。

进一步地，在对特征提取网络进行训练时，初始的锚点由随机采样网格点得到，各数据点的描述子由特征提取网络的主干网络输出的特征图归一化得到。

进一步地，所述将以正样本点为中心的矩形窗外的所有点作为负样本集；根据所述负样本集中各点的描述子与正样本点的描述子之间的匹配程度，选取一个与正样本点最相近的点，作为负样本点，包括：

通过设置距离K，将目标图像内与正样本点的距离大于K的点所组成的集合作为负样本集，在所述负样本集中选取一个与正样本点最相似的点，作为负样本点，以实现负样本选取；其中，数据点之间的距离指的是相应数据点的描述子之间的欧式距离，欧式距离越小，代表相应的两个点越相似。

进一步地，所述利用每一图像检索算法计算锚点和正样本点之间的正样本相似度，以及锚点与负样本点之间的负样本相似度；基于计算出的正样本相似度和负样本相似度，更新负样本点，得到更新后的负样本点，包括：

获取以锚点为中心的方形区域、以正样本点为中心的方形区域，以及以负样本点为中心的方形区域；

利用图像检索算法计算以锚点为中心的方形区域与以正样本点为中心的方形区域之间的相似度，得到锚点和正样本点之间的正样本相似度s_pos，以及计算以锚点为中心的方形区域与以负样本点为中心的方形区域之间的相似度，得到锚点与负样本点之间的负样本相似s_neg；

当s_pos/s_neg>1时，更新K值，更新公式为：K＝K·s_pos/s_neg，然后基于更新后的K值，重复选取负样本的过程，得到更新后的负样本点。

进一步地，所述损失函数表示为：

其中，L_desc表示损失函数，m表示三元组损失的边际值，g(·)表示样本聚合函数，d₁表示锚点对应的描述子，表示利用第i种图像检索算法所得到的更新后的负样本点的描述子，i＝1,2,…,δ；δ表示图像检索算法的种类数，d_pos表示锚点对应的描述子与正样本点对应的描述子之间的欧氏距离。

另一方面，本发明还提供了一种基于多证据融合选取训练样本的特征提取装置，所述基于多证据融合选取训练样本的特征提取装置包括：

特征提取网络训练模块，用于：

在特征提取网络的训练阶段引入多种不同的图像检索算法；

特征提取网络测试模块，用于：

本发明提供的技术方案带来的有益效果至少包括：

本发明的技术方案通过在特征提取网络的训练阶段引入多种图像检索算法，更新负样本，提高了样本的信息量，进而增强了描述子的训练效果，能够提高描述子的可靠性，从而在匹配阶段获得更精确更多的匹配对，而且，本发明的技术方案只在训练时引入更多的计算量，利用训练好的特征提取网络提取局部特征时，和一般的特征提取网络相同，因此，并不会增加额外的计算负担。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于多证据融合选取训练样本的特征提取方法的执行流程示意图；

图2是本发明实施例提供的特征提取网络的结构示意图；

图3是本发明实施例提供的多证据选取负样本点示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

针对现有技术所存在的特征提取质量差或模型较大的技术问题，本实施例提供了一种基于多证据融合选取训练样本的特征提取方法，该方法在提高特征匹配的精度和数量的同时，不会增加额外的推理时间，并可推广到任何端到端特征提取网络的训练中，例如可用于视觉定位任务中的特征提取网络的训练。

该方法的执行流程如图1所示，包括以下步骤：

S1，在特征提取网络的训练阶段引入多种不同的图像检索算法；

其中，需要说明的是，在本实施例中，图像检索算法会选取多种，以获得稳定的结果。例如，从时效性考虑，早期的非学习图像检索方法感知哈希算法(ZaunerC.Implementation and benchmarking of perceptual image hash functions[J].2010.)基于离散傅里叶变化得到图像哈希码，根据哈希码之间的汉明距离快速实现相似度计算；扩展的基于深度学习的哈希算法CSQ(Yuan L,Wang T,Zhang X,et al.Centralsimilarity quantization for efficient image and video retrieval[C].Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2020:3083-3092.)具有更高的精度和对变化场景的鲁棒性；基于聚合的全局图像表征方法NetVLAD(Arandjelovic R,Gronat P,Torii A,et al.NetVLAD:CNNarchitecture for weakly supervised place recognition[C].Proceedings of theIEEE conference on computer vision and pattern recognition.2016:5297-5307.)更适用于场景识别等任务。

而特征提取网络D则为现有网络，作为训练的对象并参与初步选取负样本，特征提取网络D可以选用D2-Net、ASLFeat(Luo Z,Zhou L,Bai X,et al.Aslfeat:Learning localfeatures of accurate shape and localization[C].Proceedings of the IEEE/CVFconference on computer vision and pattern recognition.2020:6589-6598.)等特征提取网络，如图2所示，特征提取网络输出的描述子图用来预测两点的匹配度，选取负样本，进行损失函数的计算。

S2，对特征提取网络进行训练；训练过程包括：在输入图像中确定锚点、正样本点和负样本点；分别利用每一图像检索算法计算锚点和正样本点之间的正样本相似度，以及锚点与负样本点之间的负样本相似度；基于计算出的正样本相似度和负样本相似度，更新负样本点，得到更新后的负样本点；将利用多种不同的图像检索算法所得到的更新后的负样本点进行融合，计算损失函数；

其中，需要说明的是，在本实施例中，数据集可以使用MegaDepth数据集(Li Z,Snavely N.Megadepth:Learning single-view depth prediction from internetphotos[C].Proceedings of the IEEE conference on computer vision and patternrecognition.2018:2041-2050.)，其包含118个场景下共327k个图像对作为训练集，78个场景作为验证集，并且每张图像都有对应的深度信息和相机参数信息。

基于上述，本实施例将特征提取网络根据描述子分支选取的负样本计算相似度，然后通过与正样本的相似度比对，确认样本难度以及是否需要更新，对不同难度的样本根据预先设计好的规则再选取新的负样本。

具体地，在本实施例中，特征提取网络的训练过程如下：

S21，预加载特征提取网络D的参数，准备图像检索方法；其中，训练时，图像检索算法只做推理不更新参数，只更新特征提取网络D的权重参数；

S22，将图像输入到特征提取网络；其中，在本实施例中，输入图像为同一场景下的图像对，图像对具有大量的共视区域，且数据集具有对应的深度信息和相机参数信息，以通过相机变换获取真实对应点；

S23，采样锚点，并根据输入图像对之间的相机变换得到锚点所对应的正样本点；将以正样本点为中心的矩形窗外的所有点作为负样本集；根据负样本集中各点的描述子与正样本点的描述子之间的匹配程度，选取最困难的点(与正样本点最相近的点)作为负样本点；其中，初始的锚点由随机采样网格点得到，各数据点的描述子由特征提取网络的主干网络输出的特征图L₂归一化得到；

S24，将以锚点为中心的方形区域、以正样本点为中心的方形区域，以负样本点为中心的方形区域对应的图像块输入到图像检索算法中，计算正样本相似度和负样本相似度，根据计算出的正负样本相似度重新确定负样本选取范围，根据重新确定的负样本选取范围重复负样本选取过程，更新负样本点，将采用多种图像检索算法更新得到的负样本点融合到损失函数L中；具体过程如下：

S241，利用现有的特征提取网络D的描述子分支提取输入图像对I₁和I₂的描述子特征图F₁,F₂∈R^{BatchSize×H×W×C}，对提取的特征图F₁和F₂分别进行通道维的L₂归一化，获得稠密的描述子图F’₁＝L₂normalization(F₁)，F’₂＝L₂normalization(F₂)，在描述子图上采样锚点对应的描述子d₁∈R^c和正样本点的描述子d₂∈R^c，计算两者之间的欧氏距离d_pos＝||d₁-d₂||₂，其越小代表两者之间的描述子越相似，通过设置距离K(也即设置一个固定的空间安全距离)，将对应点邻近区域视为安全范围，在安全范围外选取一个最相似的困难负样本，也即：将图像I₂内到正样本点在描述子空间内欧式距离大于K的点集合作为负样本集，在其中选取一个最相似的困难负样本，其对应描述子d_n2∈R^c，即满足负样本距离d_neg＝||d₁-d_n2||₂在负样本集里是最小的，其中R表示数域，H为特征图高度，W为特征图宽度，C为特征图的通道维数，L₂normalization(.)表示L₂归一化，||.||₂表示两个描述子向量之间的欧氏距离；距离K用来形成一个以对应点为中心的方形区域，以避免选取空间上太近太相似的点作为负样本；

S242，采样分别以锚点、正样本点和负样本点为中心的N×N方形区域P₁、P₂和P_n2，利用图像检索算法计算方形区域之间的相似度，包括锚点和正样本点之间的正样本相似度s_pos＝Similarity(P₁,P₂)，以及锚点与负样本点之间的负样本相似度s_neg＝Similarity(P₁,P_n2)，相似度值越大，代表两幅图越相似，其中，Similarity(·)代表图像检索算法，用于计算两幅图像的相似度；

S243，将使用图像检索算法得到的正样本相似度s_pos和负样本相似度s_neg对比，当负样本点要比对应点更相似时，有s_pos/s_neg>1，表明这对三元组是本质上不可区分的，负样本的选择失败，此时，根据相似的程度更新得到新的更大的距离，即更新K值，K＝K·s_pos/s_neg，然后重复选取负样本的过程；

其中，需要说明的是，在本实施例中，采用多种方法计算相似度，如图3所示，更新安全范围的距离，并分别选取负样本，以获得更有信息量的三元组；

S244，将使用不同的图像检索算法更新选取后的多个负样本添加到三元组损失函数中，用以同时优化多个负样本，多个负样本融合的三元组损失表示为：

其中，L_desc表示损失函数，m表示三元组损失的边际值，边际值m用来截断负样本距离远大于正样本距离情况下的梯度，使网络不再优化已经学习充分的样本，在训练中m设置为1；g(·)表示样本聚合函数，可以使用典型的平均值。d₁表示锚点对应的描述子，表示利用第i种图像检索算法所得到的更新后的负样本点的描述子，i＝1,2,…,δ；δ表示图像检索算法的种类数，δ个负样本都与锚点的描述子之间计算欧氏距离，并使用样本聚合函数g(·)联合优化，d_pos表示锚点对应的描述子与正样本点对应的描述子之间的欧氏距离。

当多种方法寻找到同一个负样本时，按照上述损失，相当于此负样本占据更大的权重，当所有方法确立同一个负样本时，相当于原始的三元组损失。

S3，利用训练好的特征提取网络对待处理图像进行特征提取，得到提取结果。

其中，需要说明的是，在本实施例中，上述S3是将测试图像输入训练好的特征提取网络中，输出提取好的局部特征，包含特征点和其描述子。

综上，本实施例通过在特征提取网络的训练阶段引入多种图像检索算法，更新负样本，通过多证据选取多个负样本提升描述子学习的效果，提高了样本的信息量，提高描述子的可靠性，从而在匹配阶段获得更精确更多的匹配对，而且，本实施例的技术方案只在训练时引入更多的计算量，利用训练好的特征提取网络提取局部特征时，和一般的特征提取网络相同，因此，并不会增加额外的计算负担。改进后的特征提取网络的描述子具有更强的辨别能力，能够为三维重建、视觉定位等下游任务提供更多更稳定的匹配。

第二实施例

本实施例提供了一种基于多证据融合选取训练样本的特征提取装置，包括：

特征提取网络训练模块，用于：

在特征提取网络的训练阶段引入多种不同的图像检索算法；

特征提取网络测试模块，用于：

本实施例的基于多证据融合选取训练样本的特征提取装置与第一实施例的基于多证据融合选取训练样本的特征提取方法相对应；其中，该基于多证据融合选取训练样本的特征提取装置中的各功能模块所实现的功能与基于多证据融合选取训练样本的特征提取方法中的各流程步骤一一对应；故，在此不再赘述。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种基于多证据融合选取训练样本的特征提取方法，其特征在于，包括：

在特征提取网络的训练阶段引入多种不同的图像检索算法；

2.如权利要求1所述的基于多证据融合选取训练样本的特征提取方法，其特征在于，在对特征提取网络进行训练时，特征提取网络的输入图像为同一场景下的图像对，并且训练用的数据集具有对应的深度信息和相机参数信息。

3.如权利要求2所述的基于多证据融合选取训练样本的特征提取方法，其特征在于，所述在输入图像中确定锚点、正样本点和负样本点，包括：

将以正样本点为中心的矩形窗外的所有点作为负样本集；

4.如权利要求3所述的基于多证据融合选取训练样本的特征提取方法，其特征在于，在对特征提取网络进行训练时，初始的锚点由随机采样网格点得到，各数据点的描述子由特征提取网络的主干网络输出的特征图归一化得到。

5.如权利要求3所述的基于多证据融合选取训练样本的特征提取方法，其特征在于，所述将以正样本点为中心的矩形窗外的所有点作为负样本集；根据所述负样本集中各点的描述子与正样本点的描述子之间的匹配程度，选取一个与正样本点最相近的点，作为负样本点，包括：

6.如权利要求1所述的基于多证据融合选取训练样本的特征提取方法，其特征在于，所述利用每一图像检索算法计算锚点和正样本点之间的正样本相似度，以及锚点与负样本点之间的负样本相似度；基于计算出的正样本相似度和负样本相似度，更新负样本点，得到更新后的负样本点，包括：

7.如权利要求1所述的基于多证据融合选取训练样本的特征提取方法，其特征在于，所述损失函数表示为：

8.一种基于多证据融合选取训练样本的特征提取装置，其特征在于，包括：

特征提取网络训练模块，用于：

在特征提取网络的训练阶段引入多种不同的图像检索算法；

特征提取网络测试模块，用于：