CN114154576B

CN114154576B - 一种基于混合监督的特征选择模型训练方法及系统

Info

Publication number: CN114154576B
Application number: CN202111471191.6A
Authority: CN
Inventors: 岳昊嵩; 苗津毓; 田雨鑫; 王薇; 王磊; 陈伟海
Original assignee: Beihang University
Current assignee: Beihang University
Filing date: 2021-12-03
Publication date: 2024-07-02
Anticipated expiration: 2041-12-03

Abstract

本发明公开了一种基于混合监督的特征选择模型训练方法及系统，涉及计算机视觉技术领域，本发明使用图像语义信息和图像特征的注意力信息对特征选择模型的训练提供混合监督作用。基于该训练方法训练特征选择模型，进而将该模型用于图像检索，能够准确地检索出数据库中与输入的检索图像相匹配的历史图像。本发明的训练方法结合了语义信息和注意力信息进行混合优化，优化方法更易收敛，适用于不同特征的特征选择模型，模型预测的准确性更好。

Description

一种基于混合监督的特征选择模型训练方法及系统

技术领域

本发明涉及计算机视觉技术领域，更具体的说是涉及一种基于混合监督的特征选择模型训练方法及系统。

背景技术

同时定位与建图(Simultaneous Localization and Mapping，SLAM)技术在智能机器人的定位、导航和建图任务有着极其重要的研究意义。在同时定位与建图技术中，场景识别(Place Recognition)算法发挥着重要作用。场景识别算法旨在通过当前传感器获得的信息，在机器人采集到的历史信息中检索最相似的场景，来检测当前位置是否已被访问过。

根据所使用的传感器不同，场景识别算法可以被分为基于三维点云的场景识别算法和基于二维图像的场景识别算法。其中基于图像的场景识别算法，也称视觉场景识别算法，逐渐成为SLAM领域的热门研究。在视觉场景识别算法中，为了减少在保存和检索图像时消耗的大量内存空间和计算资源，基于图像特征的算法通过特征提取算法提取图像的特征信息，作为对图像的降维表示，然后以此计算两张图像之间的相似度，检索相似度最大的匹配图像，进行场景识别。

显然地，在视觉场景识别算法乃至视觉同时定位与建图算法中，特征算法发挥着至关重要的作用，为了应对真实场景中的各种干扰，算法需要首先从图像中提取鲁棒的局部特征，来表征图像。局部特征包括关键点位置和描述子两方面的信息，算法从图像中提取出若干显著的像素点，作为关键点，并通过一些规则描述关键点周围邻域的像素信息，作为描述子。近年来，研究者们开始用卷积神经网络来设计特征算法，这些特征在更广泛的训练数据上进行了训练，通过学习的方法来检测关键点和提取描述子，在各种场景下获得了超过传统算法的优异表现。但是，在同时定位与建图算法中，这些特征大都容易受到动态物体等的干扰，原因在于，这些特征只考虑图像中每个像素作为特征的可信度，专注于寻找像素梯度变化明显的点作为特征点，而没有考虑更高层的语义信息，对于图像中所有区域都给予了相同的关注度。而这策略显然是不合理的，会引起后续特征匹配环境的错误匹配。

为了解决这一问题，一些特征选择算法被提出，用于选择已提取的局部特征中较为稳定、鲁棒的特征子集。其中，一些较为简单的算法直接使用语义分割模型来获得图像中各区域的语义标签，进而根据人工经验来判断每个区域是否是静态、稳定的。但是这样的做法过于依赖人工经验，并且在一些复杂场景、复杂任务中，相同语义类别的不同目标可能具有不同的动静属性，并且语义信息难以评估特征是否具有代表性(可区分性)，进而会影响到后续算法的效果。

为了让特征选择模型更准确地判断图像区域的动静属性，并评估特征的质量，一些基于深度学习的算法开始利用注意力机制来训练模型，一般在设计一个新的特征算法时，针对性的加入一个注意力模块，通过对更大感受野内的信息进行处理，对图像中的每个像素估计关注度，该关注度一般反映了像素位于静态、稳定、有代表性区域的概率，根据关注度来筛选网络其他分支输出的局部特征。这些算法一般采用度量学习的方法，从数据集中构建包含检索图像、匹配图像、非匹配图像的三元组数据，让模型自动学习特征和特征选择机制，使得检索图像与匹配图像的相似度更高，检索图像与非匹配图像的相似度更低。但是，这一训练策略需要较多的训练技巧，模型一般很难收敛，并且模型输出结果的可解释性不高。而且，这一类算法一般只对特定特征有效，普适性较差，难以作为一个泛化的模块嵌入到成熟的同时定位与建图或场景识别算法中。

综上所述，现有技术的客观缺点在于：

1、现有的局部特征算法只考虑了像素作为特征的可信度，没有考虑特征所在区域是否是静态的、稳定的、利于场景识别算法工作的；

2、人为规定的语义动静属性过于绝对，无法更准确地分辨相同语义类别目标的动静属性，并且无法判断特征的质量，无法很好地适应不同任务、不同场景对特征选择的需求；

3、现有的基于注意力机制的特征选择模型训练不易收敛，并且无法普适地应用于不同特征。

因此，如何提供一种能够使训练的模型更加收敛，模型优化效果更好，进而适用于不同特征的特征选择模型训练方法，是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于混合监督的特征选择模型训练方法及系统。

为了实现上述目的，本发明提供如下技术方案：

一种基于混合监督的特征选择模型训练方法，在训练过程中，同时使用图像语义信息和注意力信息进行监督；

具体的，所述训练方法包括以下步骤：

获取带有语义标签和图像匹配标签的图像作为训练数据；

使用所述训练数据，通过图像之间的语义一致性训练所述特征选择模型；同时使用图像的注意力信息，根据图像特征训练所述特征选择模型。

可选的，所述获取带有语义标签和图像匹配标签的图像作为训练数据的具体步骤为：

步骤1.1，获取图像数据；

步骤1.2，对所述图像数据设置用于优化语义信息的语义标签和用于优化注意力信息的图像匹配标签，所述图像匹配标签包括检索图像、匹配图像和非匹配图像；

步骤1.3，从图像数据中选取带有语义标签的检索图像、匹配图像和非匹配图像作为训练数据。

可选的，依据图像的拍摄位置和拍摄角度，确定检索图像的匹配图像和非匹配图像。

可选的，所述使用所述训练数据，通过图像之间的语义一致性训练所述特征选择模型的具体步骤为：

步骤2.1.1，获取任意两幅图像像素间的稠密对应关系；

步骤2.1.2，依据图像的语义一致性，确定在两幅图像中对应位置上具有相同语义类别的像素区域为图像的静态稳定区域；

步骤2.1.3，依据像素区域是否处于静态稳定区域以进行权重设置。

可选的，所述步骤2.1.1中，若两幅图像为匹配图像，则两幅图像像素间的稠密对应关系为：

其中，两幅匹配图像分别为I¹、I²，p表示图像I¹上的坐标(x,y)，p′表示图像I²上的坐标(x′,y′)，π(p,K,d)为由像素平面坐标系的坐标到相机坐标系的坐标的投影函数，π^-1(p,K,d)为π(p,K,d)的反函数，R¹²∈R^3×3为图像I²到图像I¹的旋转矩阵，t¹²∈R^3×1为图像I²到图像I¹的平移向量，K¹∈R^3×3为图像I¹的相机内参矩阵，K²∈R^3×3为图像I²的相机内参矩阵，为图像I¹中p点处的对应深度，为图像I²中p′点处的对应深度，R^a×b表示维度为a×b的实数矩阵；

若两幅图像为非匹配图像，则对两幅图像提取稠密的局部特征，进行局部特征匹配，并通过预设阈值比率验证来筛选出高质量的匹配特征点，由匹配的特征点定义两幅非匹配图像间的像素对应关系。

可选的，所述使用图像的注意力信息，根据图像特征训练所述特征选择模型的具体步骤为：

步骤2.2.1，对所述训练数据中的图像进行特征提取，获取图像的局部特征；

步骤2.2.2，依据局部特征的区分效果以及是否位于静态稳定区域，以进行权重设置。

一种基于混合监督的特征选择模型训练系统，包括以下模块：

训练数据获取模块，用于获取带有语义标签和图像匹配标签的图像作为训练数据；

模型训练模块，用于训练所述特征选择模型，包括语义信息训练模块和注意力信息训练模块；所述语义信息训练模块用于使用所述训练数据，通过图像之间的语义一致性训练所述特征选择模型；所述注意力信息训练模块，用于使用图像的注意力信息，根据图像特征训练所述特征选择模型。

经由上述的技术方案可知，本发明公开提供了一种基于混合监督的特征选择模型训练方法及系统，与现有技术相比，具有以下有益效果：

(1)本发明公开了一种基于混合监督的特征选择模型训练方法及系统，结合语义信息和注意力信息进行混合优化特征选择模型。相比常用的使用注意力信息的优化方法，本发明的优化方法更易收敛，模型预测的准确性更好，适用于不同特征的特征选择模型，模型的可解释性更强。

(2)本发明使用语义一致性来利用语义信息进行模型训练，而非直接的语义信息，无需人工对语义类别进行动静属性的划分，对于静态、稳定区域的选择具有更好的鲁棒性、准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明一种实施例的局部特征选择模型图；

图2为本发明一种特征选择模型的训练方法步骤图；

图3(a)-图3(c)为一组图像匹配标签示例图，其中图3(a)为检索图像，图3(b)为匹配图像，图3(c)为非匹配图像；

图4为本发明系统结构示意图；

图5为本发明一种图像检索方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术的不足，本发明实施例提供了一种适用于多种特征的局部特征选择模型，参见图1。

该特征选择模型以三通道的RGB彩色图像为输入，输出单通道的权重图，权重图中每个像素对应的值在0到1之间，指示该像素点位于静态、稳定、有代表性区域的概率。为了综合地考虑低层的图像细节信息和高层的语义信息，本实施例公开了如图1所示的一种神经网络特征选择模型，在模型的前面部分，用卷积层、ReLU非线性激活层和最大池化层堆叠成四个模块，四个模块分别输出原分辨率、1/2分辨率、1/4分辨率和1/8分辨率大小的特征，分别对每个特征图进行上采样处理，得到相同原分辨率大小的特征，在通道维度进行拼接，再输入卷积层和ReLU非线性激活函数，对特征进行融合和降维，最后，使用带有Sigmoid非线性激活函数的卷积层来输出单通道的权重图，并限制其值域为(0,1)。其中，ReLU激活函数和Sigmoid激活函数的计算方法分别为：

通过上述实施例中的模型，三通道的RGB彩色图I∈R^H×W×3被转换为一个单通道的、相同分辨率的权重图A∈R^H×W。该模型无需针对特征进行分析，而是以图像作为输入，分析其高层次视觉信息，估计得到每个像素位于静态、稳定、有代表性区域的概率。该特征选择模型可以作为一个独立的模块嵌入任何基于局部特征的视觉应用，实现普适的特征选择功能。相比现有特征选择模型，具有很好的泛化能力，实用价值更高。

值得注意的是，特征选择模型的网络结构不局限于上述实施例所提到的网络结构，包含但不限于U-Net、SegNet等语义分割、全景分割网络模型，所有输出与输入分辨率相同的网络结构都可以应用于本发明所提出的方案中。

针对特征选择模型，本发明实施例公开了一种基于混合监督的特征选择模型训练方法，在训练过程中，同时使用图像语义信息和注意力信息进行监督；

具体的，所述训练方法包括以下步骤，参见图2：

步骤1，获取带有语义标签和图像匹配标签的图像作为训练数据；

步骤1.1，获取图像数据；

步骤1.2，对所述图像数据设置用于优化语义信息的语义标签和用于优化注意力信息的图像匹配标签；

对于语义标签：使用高性能全景分割网络HRNet来获得像素级别的语义分割结果，并根据经典的Common Objects in Context(COCO)数据集的语义分割标准，选择考虑常见的21个语义类别，参见表1。在本实施例中令得到的语义标签为S∈R^H×W。

表1

对于图像匹配标签：构建包含检索图像、匹配图像和非匹配图像的三元组数据，如图3所示，图3(a)为检索图像，图3(b)为匹配图像，图3(c)为非匹配图像。对于每张图像，我们将其视为检索图像，根据图像的位置坐标，检索其50米范围的所有图像，得到候选图像后，对每对检索图像和候选图像进行验证，判断其是否具备重叠的视野，即图像是否拍摄于相近位置、相近视角，如果候选图像通过了人工验证，则认为该候选图像是当前检索图像的一张匹配图像；相似的，对于每张图像，将其视为检索图像，根据图像位置坐标，随机选择一张距离50米以外的图像作为当前检索图像的非匹配图像。

步骤2，包括语义信息训练步骤2.1和注意力信息训练步骤2.2；

所述语义信息训练步骤2.1中使用所述训练数据，通过图像之间的语义一致性训练所述特征选择模型，具体步骤为：

步骤2.1.1，获取任意两幅图像像素间的稠密对应关系；

若两幅图像为匹配图像，则两幅图像像素间的稠密对应关系为：

其中，两幅匹配图像分别为I¹、I²，p表示图像I¹上的坐标(x,y)，p′表示图像I²上的坐标(x′,y′)，π(p,K,d)为由像素平面坐标系的坐标到相机坐标系的坐标的投影函数，π^-1(p,K,d)为π(p,K,d)的反函数，R¹²∈R^3×3为图像I²到图像I¹的旋转矩阵，t¹²∈R^3×1为图像I²到图像I¹的平移向量，K¹∈R^3×3为图像I¹的相机内参矩阵，K²∈R^3×3为图像I²的相机内参矩阵，为图像I¹中p点处的对应深度，为图像I²中p′点处的对应深度，R^a×b表示维度为a×b的实数矩阵；π(p,K,d)的公式如下：

若两幅图像为非匹配图像，则对两幅图像提取稠密的局部特征，进行局部特征匹配，并通过预设阈值比率(优选采用0.7)验证来筛选出高质量的匹配特征点，由匹配的特征点定义两幅非匹配图像间的像素对应关系。

步骤2.1.3，依据像素区域是否处于静态稳定区域以进行权重设置。具体的，使特征选择模型输出的权重图的高权重区域集中在所述静态稳定区域，对于随处可见的语义区域应当预测为低权重，转而关注每个地点中更具代表性、区分性的语义区域(即在检索图像和匹配图像中出现，而在非匹配图像中不出现的语义区域)，由此模型获得区域级别的显著性评估。

因此，使用语义一致性训练所述特征选择模型之后，对于图像I¹、I²，输入模型中，即可获得两张值域为(0，1)的权重图A¹∈R^H×W、A²∈R^H×W。

注意力信息训练步骤2.2中，使用图像的注意力信息，根据图像特征训练所述特征选择模型，具体步骤为：

步骤2.2.2，依据局部特征的区分效果以及是否位于静态稳定区域，以进行权重设置。具体的，对位于所述静态稳定区域的、有较好区分效果的局部特征赋予高权重，对位于动态区域的、不易分辨的局部特征赋予低权重。

所述步骤2中，语义信息训练步骤和注意力信息训练步骤同时进行。

本发明实施例还公开一种基于混合监督的特征选择模型训练系统，参见图4，包括以下模块：

在具体实施例中，使用比率损失函数(ratio loss)作为模型训练所需的损失函数，所述比率损失函数的计算方法为：

步骤一、计算图像之间的语义一致性距离：

其中，表示图像I₁在p处的模型预测概率值，表示图像I²在p′处的模型预测概率值，表示图像I¹在p处的语义真值标签，表示图像I²在p′处的语义真值标签，<p,p′>表示图像I¹、图像I²中的对应像素集合；

步骤二、计算图像之间的特征距离：以权重图作为权重，将整张图像的局部特征加权求和，作为描述图像全局信息的一个向量，通过向量之间的距离来度量图像的特征距离；

其中，表示图像I¹在(i,j)处的特征描述子，表示图像I²在(i,j)处的特征描述子，表示图像I¹在(i,j)处的模型预测概率值，表示图像I²在(i,j)处的模型预测概率值，W为图像宽度，H为图像高度；

步骤三、获取图像距离度量函数：

d(I¹,I²)＝d_s(I¹,I²)+d_f(I¹,I²)，

由此，即可得到任意两幅图像I¹和I²之间的距离度量函数；

步骤四、计算检索图像I_a与匹配图像I_p之间的图像距离d(I_a,I_p)和检索图像I_a与非匹配图像I_n间的图像距离d(I_a,I_n)，以计算得到比率损失函数L_m：

由该公式可以得知，该损失函数旨在让趋于0，即令检索图像I_a与匹配图像I_p之间的距离趋于0，检索图像I_a与非匹配图像I_n之间的距离趋于无穷，因此可以很好地满足对于模型学习语义一致性和特征注意力信息的需求，并且损失函数中没有其他超参数，无需人工干预训练过程。

在其他具体实施例中，所述步骤四中还可以使用三元组边缘损失函数(tripletmargin loss)等度量学习中常见损失函数，本发明对此不做限制。

本发明还提出了一种图像检索方法，采用了上述训练方法训练特征选择模型。该检索方法能够更准确地检索出数据库中相匹配的历史图像，为同时定位与建图技术提供重要的技术支持。方法流程参见图5，具体为：

步骤A，分别将图像进行特征提取，获取图像局部特征；所述特征提取方法可以使用任一现有的特征提取算法，本发明对此不做限制。

步骤B，分别将图像输入到使用所述训练方法训练后的特征选择模型中，获取图像权重图；

依据所述局部特征在权重图中对应位置的权重分数，选取若干具有较高权重分数的特征；

步骤C，依据上述步骤A和步骤B，分别获取检索图像和数据库中历史图像的具有较高权重分数的特征；

步骤D，依据所述具有较高权重分数的特征，进行相似度计算；

步骤E，以最高相似度对应的历史图像作为检索图像的匹配图像。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于混合监督的特征选择模型训练方法，其特征在于，在训练过程中，同时使用图像语义信息和注意力信息进行监督；

具体的，所述训练方法包括以下步骤：

获取带有语义标签和图像匹配标签的图像作为训练数据；

使用所述训练数据，通过图像之间的语义一致性训练所述特征选择模型；同时使用图像的注意力信息，根据图像特征训练所述特征选择模型；

所述使用所述训练数据，通过图像之间的语义一致性训练所述特征选择模型的具体步骤为：

步骤2.1.1，获取任意两幅图像像素间的稠密对应关系；

若两幅图像为非匹配图像，则对两幅图像提取稠密的局部特征，进行局部特征匹配，并通过预设阈值比率验证来筛选出高质量的匹配特征点，由匹配的特征点定义两幅非匹配图像间的像素对应关系；

步骤2.1.3，依据像素区域是否处于静态稳定区域来进行权重设置；

所述使用图像的注意力信息，根据图像特征训练所述特征选择模型的具体步骤为：

步骤2.2.2，依据局部特征的区分效果以及是否位于静态稳定区域，来进行权重设置。

2.根据权利要求1所述的一种基于混合监督的特征选择模型训练方法，其特征在于，所述获取带有语义标签和图像匹配标签的图像作为训练数据的具体步骤为：

步骤1.1，获取图像数据；

3.根据权利要求2所述的一种基于混合监督的特征选择模型训练方法，其特征在于，依据图像的拍摄位置和拍摄角度，确定检索图像的匹配图像和非匹配图像。

4.一种基于混合监督的特征选择模型训练系统，其特征在于，包括以下模块：

模型训练模块，用于训练所述特征选择模型，包括语义信息训练模块和注意力信息训练模块；

所述语义信息训练模块用于使用所述训练数据，通过图像之间的语义一致性训练所述特征选择模型，具体的：

获取任意两幅图像像素间的稠密对应关系；

依据图像的语义一致性，确定在两幅图像中对应位置上具有相同语义类别的像素区域为图像的静态稳定区域；

依据像素区域是否处于静态稳定区域来进行权重设置；

所述注意力信息训练模块用于使用图像的注意力信息，根据图像特征训练所述特征选择模型，具体的：

对所述训练数据中的图像进行特征提取，获取图像的局部特征；

依据局部特征的区分效果以及是否位于静态稳定区域，来进行权重设置。