CN111931720A

CN111931720A - 跟踪图像特征点的方法、装置、计算机设备和存储介质

Info

Publication number: CN111931720A
Application number: CN202011005087.3A
Authority: CN
Inventors: 程飞洋; 郑伟; 杨广; 刘国清
Original assignee: Shenzhen Minieye Innovation Technology Co Ltd
Current assignee: Shenzhen Youjia Innovation Technology Co.,Ltd.
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-11-13
Anticipated expiration: 2040-09-23
Also published as: CN111931720B

Abstract

本申请涉及计算机视觉技术领域，提供了一种跟踪图像特征点的方法、装置、计算机设备和存储介质。本申请能够提高对图像特征点进行跟踪的鲁棒性。该方法包括：获取相邻两帧图像，确定前帧图像上的待跟踪图像特征点以及位于后帧图像的跟踪区域中的多个候选跟踪点，然后从前帧图像对应的第一特征图中获取该待跟踪图像特征点的特征数据，从后帧图像对应的第二特征图中获取多个候选跟踪点的特征数据，基于该待跟踪图像特征点的特征数据分别与多个候选跟踪点的特征数据之间的特征比对，获取待跟踪图像特征点在相邻两帧图像上的跟踪结果。

Description

跟踪图像特征点的方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种跟踪图像特征点的方法、装置、计算机设备和存储介质。

背景技术

在计算机视觉技术领域中，图像的特征点检测和匹配具有广泛的应用，例如图像配准、图像检索、三维重建和视觉SLAM（Simultaneous Localization and Mapping，同步定位与建图）等。其中，图像的特征点一般是指图像中纹理特征明显，在连续的图像序列中易于匹配跟踪的像素点；视觉SLAM系统是一种在相机运动的过程中，能够定位相机的运动位置并且根据相机的运动轨迹建立所路过场景的地图的系统。

对图像特征点的处理一般包括对图像特征点的检测和对图像特征点的描述两个方面，图像特征点检测即定位图像特征点的位置，图像特征点描述即计算图像特征点的特征。其中，图像特征点检测要求图像特征点在不同图像中具备高重复性，图像特征点描述要求同一图像特征点在不同图像中的特征是相似的，而不同图像特征点的特征则具备区分性，以便于匹配图像特征点。

然而，传统技术所提供的对图像特征点进行跟踪的方案，主要都是基于手动设计的特征进行分析，通常只用到了低阶特征，对图像噪声、光线变化等不利因素比较敏感，存在对图像特征点跟踪的鲁棒性低的技术问题，同时这种技术需要计算机设备承受的计算负担较大，难以满足实时低功耗的应用需求。

发明内容

基于此，有必要针对上述技术问题，提供一种跟踪图像特征点的方法、装置、计算机设备和存储介质。

一种跟踪图像特征点的方法，所述方法包括：

获取相邻两帧图像；

确定所述相邻两帧图像的前帧图像上的待跟踪图像特征点，以及确定位于后帧图像的跟踪区域中的多个候选跟踪点；所述跟踪区域在所述后帧图像中以所述待跟踪图像特征点对应的位置为中心占据预设图像区域范围；

从所述前帧图像对应的第一特征图中获取所述待跟踪图像特征点的特征数据，从所述后帧图像对应的第二特征图中获取所述多个候选跟踪点的特征数据；

基于所述待跟踪图像特征点的特征数据分别与所述多个候选跟踪点的特征数据之间的特征比对，获取所述待跟踪图像特征点在所述相邻两帧图像上的跟踪结果。

一种跟踪图像特征点的装置，包括：

图像获取模块，用于获取相邻两帧图像；

点确定模块，用于确定所述相邻两帧图像的前帧图像上的待跟踪图像特征点，以及确定位于后帧图像的跟踪区域中的多个候选跟踪点；所述跟踪区域在所述后帧图像中以所述待跟踪图像特征点对应的位置为中心占据预设图像区域范围；

数据获取模块，用于从所述前帧图像对应的第一特征图中获取所述待跟踪图像特征点的特征数据，从所述后帧图像对应的第二特征图中获取所述多个候选跟踪点的特征数据；

结果获取模块，用于基于所述待跟踪图像特征点的特征数据分别与所述多个候选跟踪点的特征数据之间的特征比对，获取所述待跟踪图像特征点在所述相邻两帧图像上的跟踪结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取相邻两帧图像；确定所述相邻两帧图像的前帧图像上的待跟踪图像特征点，以及确定位于后帧图像的跟踪区域中的多个候选跟踪点；所述跟踪区域在所述后帧图像中以所述待跟踪图像特征点对应的位置为中心占据预设图像区域范围；从所述前帧图像对应的第一特征图中获取所述待跟踪图像特征点的特征数据，从所述后帧图像对应的第二特征图中获取所述多个候选跟踪点的特征数据；基于所述待跟踪图像特征点的特征数据分别与所述多个候选跟踪点的特征数据之间的特征比对，获取所述待跟踪图像特征点在所述相邻两帧图像上的跟踪结果。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述跟踪图像特征点的方法、装置、计算机设备和存储介质，获取相邻两帧图像，确定前帧图像上的待跟踪图像特征点以及位于后帧图像的跟踪区域中的多个候选跟踪点，然后从前帧图像对应的第一特征图中获取该待跟踪图像特征点的特征数据，从后帧图像对应的第二特征图中获取多个候选跟踪点的特征数据，基于该待跟踪图像特征点的特征数据分别与多个候选跟踪点的特征数据之间的特征比对，获取待跟踪图像特征点在相邻两帧图像上的跟踪结果。该方案首先能够在后帧图像的跟踪区域中寻找针对待跟踪图像特征点的跟踪结果而无需在整张后帧图像上进行特征点匹配，提高匹配效率，还从特征图中抽取待跟踪点与多个候选跟踪点的特征数据进行比对，从而能够利用特征图中所呈现各特征点的高阶特征的比对结果进行跟踪，提高了对图像特征点进行跟踪的鲁棒性。

附图说明

图1为一个实施例中跟踪图像特征点的方法的应用环境图；

图2为一个实施例中跟踪图像特征点的方法的流程示意图；

图3为一个实施例中待跟踪特征点筛选的示意图；

图4（a）为一个实施例中样本图像上各种图像特征点的标注结果示意图；

图4（b）为一个实施例中样本图像上各种图像特征点的标注结果示意图；

图4（c）为一个实施例中样本图像上各种图像特征点的标注结果示意图；

图4（d）为一个实施例中样本图像上各种图像特征点的标注结果示意图；

图5为一个实施例中一种样本图像块的示意图；

图6为一个实施例中相邻两帧样本图像光流的示意图；

图7为一个实施例中另一种样本图像块的示意图；

图8为一个实施例中网络模型的结构示意图；

图9为一个实施例中图像序列特征点筛选及光流跟踪的流程示意图；

图10（a）为一个实施例中特征点光流跟踪的结果示意图；

图10（b）为一个实施例中特征点光流跟踪的结果示意图；

图10（c）为一个实施例中特征点光流跟踪的结果示意图；

图11为一个实施例中跟踪图像特征点的装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的跟踪图像特征点的方法，可以应用于如图1所示的应用环境中。该应用场景可以包括通信连接的图像采集设备和车载终端。该图像采集设备可以在车辆行驶过程中实时采集图像序列，将图像序列发送至车载终端进行处理，车载终端可以接收图像采集设备实时采集的图像序列，针对于图像序列中相邻两帧图像进行图像特征点跟踪，其中，相邻两帧图像包括前帧图像和后帧图像，车载终端可以在前帧图像中选取待跟踪特征点，在后帧图像上确定与该待跟踪特征点对应的目标特征点从而完成对该待跟踪特征点在该相邻两帧图像上的跟踪过程，基于此方式可在连续帧图像中对特征点进行持续跟踪。

具体的，车载终端可通过图像采集设备获取相邻两帧图像，然后确定相邻两帧图像的前帧图像上的待跟踪图像特征点以及位于后帧图像的跟踪区域中的多个候选跟踪点；接着，车载终端可从前帧图像对应的第一特征图中获取待跟踪图像特征点的特征数据，从后帧图像对应的第二特征图中获取多个候选跟踪点的特征数据；最后车载终端即可基于待跟踪图像特征点的特征数据分别与多个候选跟踪点的特征数据之间的特征比对，获取待跟踪图像特征点在相邻两帧图像上的跟踪结果。该方案可针对图像序列中每两帧相邻图像执行，车载终端可首先在后帧图像的跟踪区域中寻找针对待跟踪图像特征点的跟踪结果，从而无需在特征点匹配时从整张后帧图像中进行匹配，提高匹配效率，另一方面还可以从特征图中抽取待跟踪点与多个候选跟踪点的特征数据进行比对，由此可利用特征图中所呈现各特征点的高阶特征的比对结果进行跟踪，提高了对图像特征点进行跟踪的鲁棒性。

在一个实施例中，如图2所示，提供了一种跟踪图像特征点的方法，以该方法应用于图1中的车载终端为例进行说明，包括以下步骤：

步骤S201，获取相邻两帧图像；

本步骤中，车载终端可以通过车载的如摄像头等图像采集设备实时采集视频图像序列，得到相邻两帧图像。该相邻两帧图像包括前帧图像和后帧图像。

步骤S202，确定相邻两帧图像的前帧图像上的待跟踪图像特征点，以及确定位于后帧图像的跟踪区域中的多个候选跟踪点。

本步骤中，车载终端一方面在前述前帧图像中选取待跟踪的图像特征点，称为待跟踪图像特征点，另一方面还确定位于后帧图像的跟踪区域中的多个候选跟踪点。其中，该跟踪区域是在后帧图像中以待跟踪图像特征点对应的位置为中心且占据预设图像区域范围的图像区域。示例性的，设待跟踪图像特征点在前帧图像的位置坐标为[x1，y1]，则可以在后帧图像中以[x1，y1]为中心占据预设图像区域范围为[x1±16，y1±16]的图像区域为跟踪区域，也即可以在[x1，y1]的周边精准搜索待跟踪图像特征点对应的光流跟踪点，而位于后帧图像的该跟踪区域中的所有像素点作为多个候选跟踪点。

步骤S203，从前帧图像对应的第一特征图中获取待跟踪图像特征点的特征数据，从后帧图像对应的第二特征图中获取多个候选跟踪点的特征数据。

本步骤中，车载终端可以分别获取前帧图像对应的第一特征图以及后帧图像对应的第二特征图。其中，车载终端可以分别将前帧图像和后帧图像输入到神经网络模型以使得神经网络模型输出前述第一特征图和第二特征图，这些特征图具有前帧图像和后帧图像上各像素点的高阶特征。示例性的，设输入到神经网络模型的前帧图像和后帧图像的图像尺寸均为1×Ｈ×Ｗ，代表1通道分辨率为Ｈ×Ｗ的灰度图像，该灰度图像可以输入到预先训练好的卷积神经网络当中，以使得卷积神经网络输出例如32×Ｈ×Ｗ的第一特征图和第二特征图，这些特征图中每一个像素点对应32维的特征，也即在前帧图像和后帧图像上的每一个像素点均在相应的特征图上具有32×1×1特征数据。其中，卷积神经网络(Convolutional Neural Networks，CNN)，是一种通过不同神经网络层深度连接构建高复杂度模型，从而学习高层图像特征的机器学习方法，针对特定的任务，设计相应的神经网络模型结构，利用设计的损失函数和基于反向传播算法训练，能够达到提取任务相关高层特征和输出任务对应的回归和分类结果的目的。

车载终端在得到第一特征图和第二特征图后，可从前帧图像对应的第一特征图中获取待跟踪图像特征点的32×1×1的特征数据，从后帧图像对应的第二特征图中获取多个候选跟踪点的特征数据，当所选取的候选跟踪点对应的跟踪区域的大小为32×32时，车载终端可获取到多个候选跟踪点的32×32×32的特征数据。

步骤S204，基于待跟踪图像特征点的特征数据分别与多个候选跟踪点的特征数据之间的特征比对，获取待跟踪图像特征点在相邻两帧图像上的跟踪结果。

本步骤中，车载终端可将待跟踪图像特征点的32×1×1的特征数据分别与多个候选跟踪点的32×32×32的特征数据进行特征比对，从而可以实现将待跟踪特征点的高阶特征与各候选特征点的高阶特征进行比对确定待跟踪图像特征点在相邻两帧图像上的跟踪结果。

上述跟踪图像特征点的方法，确定前帧图像上的待跟踪图像特征点以及位于后帧图像的跟踪区域中的多个候选跟踪点，然后从前帧图像对应的第一特征图中获取该待跟踪图像特征点的特征数据，从后帧图像对应的第二特征图中获取多个候选跟踪点的特征数据，基于该待跟踪图像特征点的特征数据分别与多个候选跟踪点的特征数据之间的特征比对，获取待跟踪图像特征点在相邻两帧图像上的跟踪结果。该方案首先能够在后帧图像的跟踪区域中寻找针对待跟踪图像特征点的跟踪结果而无需在整张后帧图像上进行特征点匹配，提高匹配效率，还从特征图中抽取待跟踪点与多个候选跟踪点的特征数据进行比对，从而能够利用特征图中所呈现各特征点的高阶特征的比对结果进行跟踪，提高了对图像特征点进行跟踪的鲁棒性。

在一个实施例中，步骤S204中的基于待跟踪图像特征点的特征数据分别与多个候选跟踪点的特征数据之间的特征比对，获取待跟踪图像特征点在相邻两帧图像上的跟踪结果，包括：

将待跟踪图像特征点的特征数据分别与多个候选跟踪点的特征数据进行作差，得到待跟踪图像特征点的特征数据分别与多个候选跟踪点的特征数据的特征比对数据；将特征比对数据输入至预先构建的特征点跟踪网络，以使特征点跟踪网络根据特征比对数据输出各候选跟踪点对应的跟踪点匹配概率；将多个候选跟踪点中对应于跟踪点匹配概率大于或者等于设定跟踪点匹配概率阈值的候选跟踪点，作为后帧图像上的目标跟踪点；根据目标跟踪点获取跟踪结果。

本实施例主要是车载终端可以将待跟踪图像特征点的32×1×1的特征数据分别与多个候选跟踪点的32×32×32的特征数据进行作差，得到一个32×32×32的特征数据称为特征比对数据，接着将该特征比对数据输入到预先构建的特征点跟踪网络，该特征点跟踪网络可以根据这些特征比对数据输出各候选跟踪点对应的跟踪点匹配概率，该跟踪点匹配概率用于表征跟踪区域中的各个候选跟踪点可以作为与待跟踪特征点相匹配的特征点的概率，该概率可以用匹配得分图（Match Score Map）来表示，然后，车载终端可将多个候选跟踪点中对应于跟踪点匹配概率大于或者等于设定跟踪点匹配概率阈值（如0.95）的候选跟踪点作为后帧图像上的目标跟踪点，最后即可根据该目标跟踪点得到跟踪结果。

具体的，车载终端可一次性对前帧图像上的多个待跟踪特征点进行跟踪，假设车载终端在前帧图像上一共提取了400个待跟踪特征点，按照前述步骤可提取出对应的400个32×32×32特征比对数据作为特征点跟踪网络的输入。而车载终端可先将这400个跟踪区域进行20×20的区域方块拼接，则形成32×640×640的输入特征图，作为特征点跟踪网络的输入，该特征点跟踪网络可对应输出为一个1×640×640的匹配得分图（Match ScoreMap），一个待跟踪特征点[x1，y1]则对应其中一个1×32×32的匹配得分数据。这里，特征点跟踪网络采用卷积核为1×1的全卷积网络结构，因此可以采用此方式并行完成全部待跟踪特征点的光流跟踪，加快嵌入式设备的推理速度。其中，光流是指同一三维空间点在前后帧图像成像，分别对应不同的像素点，其中这两个像素点在图像平面内的位移即为光流大小，光流描述了不同图像间像素的对应关系。

进一步的，在一些实施例中目标跟踪点的数量可以为多个，在这种情况下，上述实施例中的根据目标跟踪点获取跟踪结果，具体包括如下步骤：

当多个目标跟踪点的位移方差大于设定位移方差阈值时，确定待跟踪图像特征点在相邻两帧图像上的跟踪结果为跟踪失败；当位移方差小于或者等于设定位移方差阈值时，将后帧图像上对应于多个目标跟踪点的中值坐标的像素点作为与待跟踪图像特征点匹配的目标跟踪点，并根据与待跟踪图像特征点匹配的目标跟踪点获取跟踪结果。

本实施例主要是车载终端可以进一步判断是否在该相邻两帧图像中完成了对待跟踪特征点的可靠的光流跟踪。具体的，如果车载终端从多个候选跟踪点中选取得到的目标跟踪点的数量为多个，可以获取该多个目标特征点相对于待跟踪特征点的位移方差，当该位移方差大于设定的位移方差阈值时，说明后帧图像上具有与待跟踪特征点对应的多个可疑光流点，这种情况下判断对待跟踪图像特征点在相邻两帧图像上的跟踪结果为跟踪失败；当该位移方差小于或者等于设定的位移方差阈值时，车载终端可以计算这些目标特征点在该后帧图像上的中值坐标，将该后帧图像上对应于该中值坐标的像素点作为与待跟踪图像特征点匹配的目标跟踪点，以提高跟踪稳定性。

示例性的，车载终端如果判断1×32×32的匹配得分数据中只有一个候选跟踪点的匹配得分数据大于设定的跟踪点匹配概率阈值0.95，则表明该候选跟踪点为后帧图像中唯一可信的对应待跟踪图像特征点的光流点。如果车载终端判断1×32×32的匹配得分数据中有多个候选跟踪点的匹配得分数据大于跟踪点匹配概率阈值0.95，则进一步判断这些候选跟踪点的位移方差是否有大于设定的位移方差阈值2，若是，则表明后帧图像中存在有多个与待跟踪图像特征点对应的光流点，跟踪失败；若否，则在后帧图像中取这些候选跟踪点的中值坐标对应的像素点作为与待跟踪图像特征点匹配的目标跟踪点。

在一个实施例中，步骤S202中的确定前帧图像上的待跟踪图像特征点，具体包括：

当前帧图像为图像序列的首帧图像时，从均匀划分于前帧图像的图像块所包含的像素点中，选取对应于特征点概率最大且特征点概率大于或者等于设定特征点概率阈值的像素点作为图像块中的待跟踪图像特征点；当前帧图像为图像序列的非首帧图像时，判断图像块中是否有上一帧图像跟踪成功的特征点；若是，则将上一帧图像跟踪成功的特征点作为图像块中的待跟踪图像特征点；若否，则从图像块所包含的像素点中，选取对应于特征点概率最大且特征点概率大于或者等于设定特征点概率阈值的像素点作为图像块中的待跟踪图像特征点。

本实施例中，车载终端可根据前帧图像是否为图像序列的首帧图像决定如何选取待跟踪图像特征点。具体的，车载终端可先将前帧图像均匀划分为多个相同大小的图像块，例如以32×32为一个图像块的大小进行划分，接着车载终端可从每一个图像块中选取待跟踪图像特征点，这样可以使得所选的待跟踪图像特征点均匀地分布在图像的不同区域。针对每一图像块而言，车载终端均可以采用相同的方式选取待跟踪图像特征点。具体的，车载终端可先获取前帧图像上的每一个像素点对应的特征点概率，该特征点概率用于表征该像素点属于图像特征点的概率值，该概率值也可以用特征点的得分图（Score Map）来表示，一般来说，车载终端可以将前帧图像输入到神经网络，由该神经网络输出该帧图像对应的特征点的得分图，该得分图的每一个值用于表征相应像素点的特征点概率。

基于此，当前帧图像为图像序列的首帧图像时，车载终端可在每一个图像块中选取特征点概率最大且特征点概率大于或者等于设定特征点概率阈值（如0.5）的像素点作为该图像块中的待跟踪图像特征点。当该前帧图像为图像序列的非首帧图像时，车载终端先判断该图像块中是否有上一帧图像跟踪成功的特征点，如果有则维持该跟踪成功的特征点为该图像块的待跟踪特征点进行向后持续跟踪，如果没有，则采用首帧图像的选点方式对特征点进行增补，也即选取对应于特征点概率最大且特征点概率大于或者等于设定特征点概率阈值的像素点作为图像块中的待跟踪图像特征点。如图3中的310部分所示为前帧图像上各像素点对应的得分图，320部分所示为各图像块的待跟踪特征点筛选结果，其中，为了说明320部分所示为各图像块中的各待跟踪特征点筛选结果，进一步对320部分中所示的两个图像块321所包含的两个待跟踪特征点进行了放大示意，对两个图像块321的放大示意部分示出了该两个图像块321的其中一个图像块中包含的第一待跟踪特征点3211和另一图像块中包含的第二待跟踪特征点3212。本实施例采用可信的跟踪进行特征点筛选以及宽松的补增特征点策略，可保证序列图像长时间稳定、均匀分布的光流跟踪输出。

在一个实施例中，在步骤S201中的获取相邻两帧图像之后，上述方法还可以包括如下步骤：

将相邻两帧图像输入至预先构建的特征点检测网络，以使特征点检测网络输出第一特征图和第二特征图，和/或，以使特征点检测网络输出第一特征图、第二特征图和前帧图像上各像素点对应的特征点概率。

本实施例主要是车载终端可以通过将相邻两帧图像输入至预先构建的特征点检测网络，使得该特征点检测网络输出前帧图像对应的第一特征图、后帧图像对应的第二特征图和前帧图像上各像素点对应的特征点概率（或特征点的得分图）。其中，该特征点检测网络可以基于卷积神经网络构建，可以用于检测前帧图像和后帧图像上的图像特征点，该图像特征点可以用特征点的得分图进行表征。具体的，本实施例所限定的步骤可看作对相邻两帧图像的特征点的检测阶段，设每一帧图像大小为1×Ｈ×Ｗ，将图像输入至特征点检测网络之前，可以先进行归一化处理(P－127.5)/127.5，P表示每一帧图像的像素值，从而将输入值范围控制在[-1，1]范围内，将归一化后的图像输入特征点检测网络，特征点检测网络输出为1×Ｈ×Ｗ的特征点的得分图和32×Ｈ×Ｗ的特征图。其中，1×Ｈ×Ｗ的特征点的得分图中每一个值代表输出的特征点分数，32×Ｈ×Ｗ的特征图中每一个像素点对应32维的特征，该特征可以作为共享特征，既作为特征点检测的特征，也作为用于对特征点进行光流跟踪的特征点跟踪网络的输入。

如上所述，通过将前后两帧图像输入特征点检测网络，可以得到的输出包括：第一特征图（FeatureMap1）、第二特征图（FeatureMap2）和前帧图像上各像素点对应的特征点概率（ScoreMap1），以及还可以包括后帧图像上各像素点对应的特征点概率（ScoreMap2）。

进一步的，假设在ScoreMap1上选取了一个待跟踪特征点坐标为[x1，y1]，该待跟踪特征点在FeatureMap1上的对应特征提取出来为32×1×1维的特征f(x1)，同样以[x1,y1]为中心，在FeatureMap2上提取一个32×32×32的特征块f(P2)，代表[-16, +16)的周边精准光流点搜索范围，将f(P2)减去f(x1)完成待跟踪特征点和候选跟踪点的特征对比，得到一个32×32×32的特征数据，作为最终特征点跟踪网络的输入。而如果在前帧图像上一共提取400个待跟踪特征点，按照前述步骤可提取出对应的400个32×32×32特征比对数据作为特征点跟踪网络的输入。而车载终端可先将这400个跟踪区域进行20×20的区域方块拼接，则形成32×640×640的输入特征图，作为特征点跟踪网络的输入，该特征点跟踪网络可对应输出为一个1×640×640的匹配得分图（Match Score Map），一个待跟踪特征点[x1，y1]则对应其中一个1×32×32的匹配得分数据。这里，特征点跟踪网络采用卷积核为1×1的全卷积网络结构，因此可以采用此方式同时完成全部待跟踪特征点的光流跟踪，加快嵌入式设备的推理速度。

在一些实施例中，可以采用如下步骤训练得到特征点检测网络和特征点跟踪网络，具体包括：

首先可以获取相邻两帧样本图像以及针对该相邻两帧样本图像的样本图像特征点标注结果，然后分别以在相邻两帧样本图像中相互匹配的样本图像特征点为中心，还可以在此基础上进一步加上随机位移偏差，从相邻两帧样本图像中获取相邻两帧样本图像块。其中，所述样本图像的特征点标注结果可以包括特征点位置及特征点光流跟踪两种数据。

上述步骤主要是针对特征点检测网络和特征点跟踪网络的训练数据的获取。其中，对于特征点检测的训练数据获取，如图4（a）至4（d）分别表示FAST、ORB、SIFT和AKAZE四种手动设计的图像特征点在同一图像中的分布情况，由于算法设计的不同，图像特征点的位置分布也有着较大的差别。对于视觉SLAM系统，重点是能够可靠的跟踪选取的特征点且特征点能够均匀分布在图像的不同区域，因此本实施例可以将所有手动设计特征点检测结果，包括SIFT、FAST、ORB和AKAZE，作为特征点检测训练的正样本，而图像上的其他像素点则作为负样本，以此训练神经网络学习统一的特征点高阶特征。对于特征点跟踪的训练数据，可以选用FAST特征点和LK光流作为基础前端，通过完善的视觉SLAM系统获取重建成功的三维地图点作为光流训练数据，如附图6所示，图中线段的长度代表前后帧针对同一图像特征点对应的光流。

具体的，可以获取多组相邻两帧样本图像，并采用上述各种特征点检测方式形成对各组相邻两帧样本图像的样本图像特征点标注结果。而具体在对网络进行训练的过程中，则可以进一步采取在图像中随机截取图像块的方式进行训练，这样可以保证用比较大的数据批次（batch）进行训练，加快神经网络模型的收敛。示例性的，如图5的510部分表示一个图像块的训练数据及其图像特征点对应的位置，520部分则表示该图像块对应的训练真值，即图像特征点对应的标签为1（白色像素），非特征点对应的标签为0（黑色像素）。

接着，对于前后两帧样本图像I1和I2，如附图7所示，在前帧样本图像I1中选取一个第一样本图像特征点X1并以其为中心截取第一样本图像块P1（如图7中的710部分所示），同时在后帧样本图像I2中，以与第一样本图像特征点X1匹配的第二样本图像跟踪点X2加上一定位移偏差后为中心，截取第二样本图像块P2（如图7中的720部分所示），特征点跟踪的训练数据如图7中的730部分所示。其中，特征点跟踪为一个二分类问题，即只有(X1，X2)为正样本，(X1，X*)皆为负样本，其中X*为第二样本图像块P2中除X2的其他像素点。其中，考虑到跟踪过程中X1跟踪到X2附近要好于完全偏离X2的位置，所以采用的特征点跟踪的训练标签可以是：

其中，σ＝1为超参数，当X=X2时，标签y=1，当X离X2越远时，标签y则趋近于0。

参考图8，进一步的，可将相邻两帧样本图像块输入至特征点检测网络，以使特征点检测网络输出对应于前帧样本图像块的第一预测特征图、对应于后帧样本图像块的第二预测特征图和前帧样本图像块中各像素点对应的特征点概率；将第一预测特征图中对应于第一样本图像特征点的样本特征数据与第二预测特征图的样本特征数据进行作差，得到第一样本图像特征点的样本特征数据分别与后帧样本图像块的样本特征数据的样本特征比对数据；将样本特征比对数据输入至特征点跟踪网络，以使特征点跟踪网络输出后帧样本图像块上各像素点的跟踪点匹配概率；基于前帧样本图像块中各像素点对应的特征点概率、后帧样本图像块上各像素点的跟踪点匹配概率以及样本图像特征点标注结果，对特征点检测网络和特征点跟踪网络进行联合训练。

具体的，整个网络模型的输入为获取的前后两帧图像块P1和P2，整个网络模型的输出为前后两帧图像块P1和P2的特征点分布以及第一样本图像块P1的待跟踪特征点到第二样本图像块P2的光流分布。

其中，整个网络模型包括特征点检测网络和特征点跟踪网络两个分支网络；对于特征点检测网络，将前后两帧图像块P1和P2上的所有图像特征点作为正样本，非图像特征点作为负样本，该特征点检测任务即为一个针对每个像素的二分类问题，从而依据特征点检测网络输出的前帧样本图像块中各像素点对应的特征点概率和样本图像特征点标注结果可对特征点检测网络进行训练；对于特征点跟踪网络，特征点检测网络最后的特征层输出一个和输入具有相同分辨率的第一预测特征图f(P1)和第二预测特征图f(P2)，从而特征点跟踪网络可共享该特征提取结果，在第一预测特征图f(P1)中取第一样本图像特征点x1的位置对应的样本特征数据f(x1)，与第二预测特征图的样本特征数据f(P2)相减，得到第一样本图像特征点x1点和第二样本图像块P2中所有候选跟踪点的样本特征比对数据，如附图7的730部分所示，将匹配的像素点对(x1，x2)作为正样本，其他皆为负样本，从而光流计算任务也构成一个针对每个像素点的二分类问题，由此可基于后帧样本图像块上各像素点的跟踪点匹配概率以及样本图像特征点标注结果对特征点跟踪网络进行训练。

本实施例中，上述特征点检测网络和特征点跟踪网络两个分支网络组成一个端到端可训练的，同输入多输出的统一神经网络模型，且共享第一段特征提取的结果，降低了计算量，训练两个分类任务的损失函数都采用交叉熵损失函数。其中，端到端学习（End-to-End Learning）是指，通过设定输入，模型的输出即为需求的结果，所有中间环节都包含在神经网络学习框架中，能够直接优化输入输出的映射关系。进一步的，可以通过如下方式构建相应的损失函数对两个分支网络进行联合训练，具体包括：

根据样本图像特征点标注结果确定第一样本图像特征点在前帧样本图像块的位置，基于第一样本图像特征点在前帧样本图像块的位置和前帧样本图像块中各像素点对应的特征点概率，构建针对特征点检测网络的第一损失函数；

其中，可以基于样本图像特征点标注结果，确定第一样本图像特征点在前帧样本图像块的位置，将前帧样本图像块位于该位置上的像素点标注为正样本，将不位于该位置上的像素点标注为负样本，特征点检测网络可针对每一前帧样本图像块上的每一像素点进行预测，输出特征点的得分图，也即得到各像素点的特征点概率，基于前述对相应位置上的像素点的正负样本标注以及预测的特征点概率，构建针对特征点检测网络的第一损失函数，该第一损失函数可具体采用交叉熵损失函数构建。

根据样本图像特征点标注结果确定与第一样本图像特征点相匹配的第二样本图像跟踪点在后帧样本图像块的位置，基于第二样本图像跟踪点在后帧样本图像块的位置和后帧样本图像块上各像素点的跟踪点匹配概率，构建针对特征点跟踪网络的第二损失函数；

类似的，如图7的710部分所示，可基于样本图像特征点标注结果，确定与第一样本图像特征点相匹配的第二样本图像跟踪点在后帧样本图像块的位置，将匹配的像素点对(X1，X2)作为正样本，其他皆为负样本，这样光流计算任务也构成一个针对每个像素点的二分类问题，即只有(X1，X2)为正样本，(X1，X*)皆为负样本，其中X*为后帧样本图像块中除X2的其他像素点。其中，考虑到跟踪过程中X1跟踪到X2附近要好于完全偏离X2的位置，所以采用的特征点跟踪的训练标签可以是：

。

然后即可基于该训练标签和特征点跟踪网络，针对每一组样本特征比对数据输出后帧样本图像块上各像素点的跟踪点匹配概率，基于前述训练标签和该跟踪点匹配概率，构建针对特征点跟踪网络的第二损失函数，该第二损失函数也可采用交叉熵损失函数构建。最后，即可结合第一损失函数和第二损失函数联合训练特征点检测网络和特征点跟踪网络。

上述实施例可将多任务网络模型的训练都简化为二分类问题，且两个分支网络组成一个端到端可训练的，同输入多输出的统一神经网络模型，且共享第一段特征提取的结果，降低了计算量。

由此，如图9所示为网络模型的应用阶段，车载终端通过摄像头获取场景的图像序列，由于上述网络模型均可采用全卷积网络结构，因此在应用阶段可以直接采用全图作为输入，每相邻两帧进入特征点筛选和特征点光流跟踪的步骤，可实现对包含有多组相邻帧图像的图像序列的光流点持续跟踪，以完成多特征点的检测和光流跟踪，加快了应用阶段的推理速度。

如图10（a）至10（c）分别示出了一应用示例中对连续四帧图像的光流跟踪结果，图10（a）所示为第1至第2帧光流跟踪结果，图10（b）所示为第2至第3帧光流跟踪结果，图10（c）所示为第3至第4帧光流跟踪结果，其中，线段越长，代表成功跟踪的帧数越多。

本申请实施例提供的跟踪图像特征点的方法具有如下技术效果：

(1)计算效率方面：轻量级端到端的特征点检测及特征点跟踪神经网络结构，可在嵌入式计算设备上能够实现实时运算；

(2)持续跟踪方面：基于卷积神经网络学习的高阶特征，利用光流实现特征点跟踪，鲁棒性较高；

(3)可信的跟踪筛选和宽松的补增特征点策略，保证视觉SLAM系统的整体优化效果，保证了长时间光流跟踪的可靠性。

应该理解的是，虽然图1-9中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种跟踪图像特征点的装置，该装置1100可以包括：

图像获取模块1101，用于获取相邻两帧图像；

点确定模块1102，用于确定所述相邻两帧图像的前帧图像上的待跟踪图像特征点，以及确定位于后帧图像的跟踪区域中的多个候选跟踪点；所述跟踪区域在所述后帧图像中以所述待跟踪图像特征点对应的位置为中心占据预设图像区域范围；

数据获取模块1103，用于从所述前帧图像对应的第一特征图中获取所述待跟踪图像特征点的特征数据，从所述后帧图像对应的第二特征图中获取所述多个候选跟踪点的特征数据；

结果获取模块1104，用于基于所述待跟踪图像特征点的特征数据分别与所述多个候选跟踪点的特征数据之间的特征比对，获取所述待跟踪图像特征点在所述相邻两帧图像上的跟踪结果。

在一个实施例中，结果获取模块1104，进一步用于将所述待跟踪图像特征点的特征数据分别与所述多个候选跟踪点的特征数据进行作差，得到所述待跟踪图像特征点的特征数据分别与所述多个候选跟踪点的特征数据的特征比对数据；将所述特征比对数据输入至预先构建的特征点跟踪网络，以使所述特征点跟踪网络根据所述特征比对数据输出各候选跟踪点对应的跟踪点匹配概率；将所述多个候选跟踪点中对应于所述跟踪点匹配概率大于或者等于设定跟踪点匹配概率阈值的候选跟踪点，作为所述后帧图像上的目标跟踪点；根据所述目标跟踪点获取所述跟踪结果。

在一个实施例中，所述目标跟踪点的数量为多个；结果获取模块1104，进一步用于当多个目标跟踪点的位移方差大于设定位移方差阈值时，确定所述待跟踪图像特征点在所述相邻两帧图像上的跟踪结果为跟踪失败；当所述位移方差小于或者等于设定位移方差阈值时，将所述后帧图像上对应于所述多个目标跟踪点的中值坐标的像素点作为与所述待跟踪图像特征点匹配的目标跟踪点，并根据所述与所述待跟踪图像特征点匹配的目标跟踪点获取所述跟踪结果。

在一个实施例中，点确定模块1102，进一步用于当所述前帧图像为图像序列的首帧图像时，从均匀划分于所述前帧图像的图像块所包含的像素点中，选取对应于特征点概率最大且特征点概率大于或者等于设定特征点概率阈值的像素点作为所述图像块中的待跟踪图像特征点；当所述前帧图像为所述图像序列的非首帧图像时，判断所述图像块中是否有对所述前帧图像的上一帧图像跟踪成功的特征点；若是，则将所述对所述前帧图像的上一帧图像跟踪成功的特征点作为所述图像块中的待跟踪图像特征点；若否，则从所述图像块所包含的像素点中，选取对应于特征点概率最大且特征点概率大于或者等于设定特征点概率阈值的像素点作为所述图像块中的待跟踪图像特征点。

在一个实施例中，上述装置1100还可以包括：特征图获取单元，用于将所述相邻两帧图像输入至预先构建的特征点检测网络，以使所述特征点检测网络输出所述第一特征图和第二特征图，和/或，以使所述特征点检测网络输出所述第一特征图、第二特征图和所述前帧图像上各像素点对应的特征点概率。

在一个实施例中，上述装置1100还可以包括：模型训练单元，用于获取相邻两帧样本图像以及针对所述相邻两帧样本图像的样本图像特征点标注结果；分别以在所述相邻两帧样本图像中相互匹配的样本图像特征点为中心，从所述相邻两帧样本图像中获取相邻两帧样本图像块；将所述相邻两帧样本图像块输入至特征点检测网络，以使所述特征点检测网络输出对应于前帧样本图像块的第一预测特征图、对应于后帧样本图像块的第二预测特征图和所述前帧样本图像块中各像素点对应的特征点概率；将所述第一预测特征图中对应于第一样本图像特征点的样本特征数据与所述第二预测特征图的样本特征数据进行作差，得到所述第一样本图像特征点的样本特征数据分别与所述后帧样本图像块的样本特征数据的样本特征比对数据；将所述样本特征比对数据输入至特征点跟踪网络，以使所述特征点跟踪网络输出所述后帧样本图像块上各像素点的跟踪点匹配概率；基于所述前帧样本图像块中各像素点对应的特征点概率、所述后帧样本图像块上各像素点的跟踪点匹配概率以及所述样本图像特征点标注结果，对所述特征点检测网络和所述特征点跟踪网络进行联合训练。

在一个实施例中，模型训练单元，进一步用于根据所述样本图像特征点标注结果确定所述第一样本图像特征点在所述前帧样本图像块的位置，基于所述第一样本图像特征点在所述前帧样本图像块的位置和所述前帧样本图像块中各像素点对应的特征点概率，构建针对所述特征点检测网络的第一损失函数；根据所述样本图像特征点标注结果确定与所述第一样本图像特征点相匹配的第二样本图像跟踪点在所述后帧样本图像块的位置，基于第二样本图像跟踪点在所述后帧样本图像块的位置和所述后帧样本图像块上各像素点的跟踪点匹配概率，构建针对所述特征点跟踪网络的第二损失函数；基于所述第一损失函数和第二损失函数联合训练所述特征点检测网络和所述特征点跟踪网络。

关于跟踪图像特征点的装置的具体限定可以参见上文中对于跟踪图像特征点的方法的限定，在此不再赘述。上述跟踪图像特征点的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是车载终端，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种跟踪图像特征点的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种跟踪图像特征点的方法，其特征在于，所述方法包括：

获取相邻两帧图像；

2.根据权利要求1所述的方法，其特征在于，所述基于所述待跟踪图像特征点的特征数据分别与所述多个候选跟踪点的特征数据之间的特征比对，获取所述待跟踪图像特征点在所述相邻两帧图像上的跟踪结果，包括：

将所述待跟踪图像特征点的特征数据分别与所述多个候选跟踪点的特征数据进行作差，得到所述待跟踪图像特征点的特征数据分别与所述多个候选跟踪点的特征数据的特征比对数据；

将所述特征比对数据输入至预先构建的特征点跟踪网络，以使所述特征点跟踪网络根据所述特征比对数据输出各候选跟踪点对应的跟踪点匹配概率；

将所述多个候选跟踪点中对应于所述跟踪点匹配概率大于或者等于设定跟踪点匹配概率阈值的候选跟踪点，作为所述后帧图像上的目标跟踪点；

根据所述目标跟踪点获取所述跟踪结果。

3.根据权利要求2所述的方法，其特征在于，所述目标跟踪点的数量为多个；所述根据所述目标跟踪点获取所述跟踪结果，包括：

当多个目标跟踪点的位移方差大于设定位移方差阈值时，确定所述待跟踪图像特征点在所述相邻两帧图像上的跟踪结果为跟踪失败；

当所述位移方差小于或者等于设定位移方差阈值时，将所述后帧图像上对应于所述多个目标跟踪点的中值坐标的像素点作为与所述待跟踪图像特征点匹配的目标跟踪点，并根据所述与所述待跟踪图像特征点匹配的目标跟踪点获取所述跟踪结果。

4.根据权利要求1所述的方法，其特征在于，所述确定前帧图像上的待跟踪图像特征点，包括：

当所述前帧图像为图像序列的首帧图像时，从均匀划分于所述前帧图像的图像块所包含的像素点中，选取对应于特征点概率最大且特征点概率大于或者等于设定特征点概率阈值的像素点作为所述图像块中的待跟踪图像特征点；

当所述前帧图像为所述图像序列的非首帧图像时，判断所述图像块中是否有对所述前帧图像的上一帧图像跟踪成功的特征点；

若是，则将所述对所述前帧图像的上一帧图像跟踪成功的特征点作为所述图像块中的待跟踪图像特征点；

若否，则从所述图像块所包含的像素点中，选取对应于特征点概率最大且特征点概率大于或者等于设定特征点概率阈值的像素点作为所述图像块中的待跟踪图像特征点。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述获取相邻两帧图像之后，所述方法还包括：

将所述相邻两帧图像输入至预先构建的特征点检测网络，以使所述特征点检测网络输出所述第一特征图和第二特征图，和/或，以使所述特征点检测网络输出所述第一特征图、第二特征图和所述前帧图像上各像素点对应的特征点概率。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取相邻两帧样本图像以及针对所述相邻两帧样本图像的样本图像特征点标注结果；

分别以在所述相邻两帧样本图像中相互匹配的样本图像特征点为中心，从所述相邻两帧样本图像中获取相邻两帧样本图像块；

将所述相邻两帧样本图像块输入至特征点检测网络，以使所述特征点检测网络输出对应于前帧样本图像块的第一预测特征图、对应于后帧样本图像块的第二预测特征图和所述前帧样本图像块中各像素点对应的特征点概率；

将所述第一预测特征图中对应于第一样本图像特征点的样本特征数据与所述第二预测特征图的样本特征数据进行作差，得到所述第一样本图像特征点的样本特征数据分别与所述后帧样本图像块的样本特征数据的样本特征比对数据；

将所述样本特征比对数据输入至特征点跟踪网络，以使所述特征点跟踪网络输出所述后帧样本图像块上各像素点的跟踪点匹配概率；

基于所述前帧样本图像块中各像素点对应的特征点概率、所述后帧样本图像块上各像素点的跟踪点匹配概率以及所述样本图像特征点标注结果，对所述特征点检测网络和所述特征点跟踪网络进行联合训练。

7.根据权利要求6所述的方法，其特征在于，所述基于所述前帧样本图像块中各像素点对应的特征点概率、所述后帧样本图像块上各像素点的跟踪点匹配概率以及所述样本图像特征点标注结果，对所述特征点检测网络和所述特征点跟踪网络进行联合训练，包括：

根据所述样本图像特征点标注结果确定所述第一样本图像特征点在所述前帧样本图像块的位置，基于所述第一样本图像特征点在所述前帧样本图像块的位置和所述前帧样本图像块中各像素点对应的特征点概率，构建针对所述特征点检测网络的第一损失函数；

根据所述样本图像特征点标注结果确定与所述第一样本图像特征点相匹配的第二样本图像跟踪点在所述后帧样本图像块的位置，基于第二样本图像跟踪点在所述后帧样本图像块的位置和所述后帧样本图像块上各像素点的跟踪点匹配概率，构建针对所述特征点跟踪网络的第二损失函数；

基于所述第一损失函数和第二损失函数联合训练所述特征点检测网络和所述特征点跟踪网络。

8.一种跟踪图像特征点的装置，其特征在于，包括：

图像获取模块，用于获取相邻两帧图像；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。