CN111914878A

CN111914878A - 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN111914878A
Application number: CN202010550224.5A
Authority: CN
Inventors: 罗孙锋; 王光甫; 陈远鹏; 刘帅成
Original assignee: Chengdu Kuangshi Jinzhi Technology Co ltd; Beijing Megvii Technology Co Ltd
Current assignee: Chengdu Kuangshi Jinzhi Technology Co ltd; Beijing Megvii Technology Co Ltd
Priority date: 2020-06-16
Filing date: 2020-06-16
Publication date: 2020-11-10
Anticipated expiration: 2040-06-16
Also published as: CN111914878B; WO2021253686A1

Abstract

本发明提供了一种特征点跟踪训练及跟踪方法、装置、电子设备及存储介质，该跟踪训练方法包括：获取样本视频中的相邻两帧，将一帧作为初始帧，将另一帧作为目标帧；对初始帧进行特征点检测，得到特征点坐标；通过孪生的特征提取神经网络得到初始帧对应的特征张量和目标帧对应的特征张量；从初始帧对应的特征张量中确定特征点坐标对应的特征向量，并将特征向量与目标帧对应的特征张量进行局部匹配，得到匹配得分图；将匹配得分图输入特征点跟踪神经网络，得到特征点坐标对应的预测坐标；确定预测坐标与匹配得分图中最高得分对应坐标的损失值；根据损失值，对网络参数进行调整，循环执行上述步骤，直至损失值收敛。本发明减少了对数据标注的依赖。

Description

特征点跟踪训练及跟踪方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种特征点跟踪训练及跟踪方法、装置、电子设备及存储介质。

背景技术

特征点跟踪算法作为一个基础算法，在图像对齐、SLAM(simultaneouslocalization and mapping，即时定位与地图构建)、自动驾驶等领域得到广泛的应用。点跟踪算法通过计算视频中相邻两帧中对应点的偏移量来预测点的位置。

传统的特征点跟踪算法，如LK算法，基于相邻两帧的灰度图求稀疏光流，对于密集、相似的特征点跟踪效果较差。在深度学习领域，利用基于图像特征点匹配的神经网络也可以实现特征点跟踪，但是这类网络往往是基于大视差的图像数据进行训练，对于跟踪任务来说并不适合。基于光流估计的神经网络也可实现特征点跟踪，但是这类模型往往是在虚拟图像数据集上做预训练，再到真实场景数据集上做第二次训练，这类模型对于数据标注精度要求较高，整个训练过程较为繁琐。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种特征点跟踪训练及跟踪方法、装置、电子设备及存储介质。

依据本发明实施例的第一方面，提供了一种特征点跟踪训练方法，包括：

获取样本视频中的相邻两帧，将其中一帧作为初始帧，并将另一帧作为目标帧；

对所述初始帧进行特征点检测，得到所述初始帧的特征点坐标；

通过孪生的特征提取神经网络分别对所述初始帧和目标帧进行特征提取，得到所述初始帧对应的特征张量和所述目标帧对应的特征张量；

从所述初始帧对应的特征张量中确定所述特征点坐标对应的特征向量，并将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到匹配得分图；

将所述匹配得分图输入特征点跟踪神经网络，得到特征点坐标在匹配得分图中对应的预测坐标；

确定所述预测坐标与所述匹配得分图中最高得分对应的坐标的损失值，作为第一损失值；

根据所述第一损失值，对所述孪生的特征提取神经网络和所述特征点跟踪神经网络的网络参数进行调整，循环执行上述步骤，直至第一损失值收敛。

依据本发明实施例的第二方面，提供了一种特征点跟踪方法，包括：

获取待进行特征点跟踪的视频中的相邻两帧，将其中一帧作为初始帧，并将另一帧作为目标帧；

从所述初始帧对应的特征张量中确定所述特征点坐标对应的特征向量，并将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到第一匹配得分图；

将所述第一匹配得分图输入特征点跟踪神经网络，得到特征点坐标在第一匹配得分图中对应的第一预测坐标；

根据所述第一预测坐标和特征点坐标，确定特征点坐标在所述目标帧中的第一跟踪坐标。

依据本发明实施例的第三方面，提供了一种特征点跟踪训练装置，包括：

待跟踪帧获取模块，用于获取样本视频中的相邻两帧，将其中一帧作为初始帧，并将另一帧作为目标帧；

特征点检测模块，用于对所述初始帧进行特征点检测，得到所述初始帧的特征点坐标；

特征提取模块，用于通过孪生的特征提取神经网络分别对所述初始帧和目标帧进行特征提取，得到所述初始帧对应的特征张量和所述目标帧对应的特征张量；

局部匹配模块，用于从所述初始帧对应的特征张量中确定所述特征点坐标对应的特征向量，并将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到匹配得分图；

特征点跟踪模块，用于将所述匹配得分图输入特征点跟踪神经网络，得到特征点坐标在匹配得分图中对应的预测坐标；

第一损失计算模块，用于确定所述预测坐标与所述匹配得分图中最高得分对应的坐标的损失值，作为第一损失值；

训练控制模块，用于根据所述第一损失值，对所述孪生的特征提取神经网络和所述特征点跟踪神经网络的网络参数进行调整，循环执行上述步骤，直至第一损失值收敛。

依据本发明实施例的第四方面，提供了一种特征点跟踪装置，包括：

待跟踪帧获取模块，用于获取待进行特征点跟踪的视频中的相邻两帧，将其中一帧作为初始帧，并将另一帧作为目标帧；

第一特征提取模块，用于通过孪生的特征提取神经网络分别对所述初始帧和目标帧进行特征提取，得到所述初始帧对应的特征张量和所述目标帧对应的特征张量；

第一局部匹配模块，用于从所述初始帧对应的特征张量中确定所述特征点坐标对应的特征向量，并将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到第一匹配得分图；

第一特征点跟踪模块，用于将所述第一匹配得分图输入特征点跟踪神经网络，得到特征点坐标在第一匹配得分图中对应的第一预测坐标；

第一跟踪坐标确定模块，用于根据所述第一预测坐标和特征点坐标，确定特征点坐标在所述目标帧中的第一跟踪坐标。

依据本发明实施例的第五方面，提供了一种电子设备，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面中所述的特征点跟踪训练方法，或者实现如第二方面所述的特征点跟踪方法。

依据本发明实施例的第六方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的特征点跟踪训练方法或者实现如第二方面所述的特征点跟踪方法。

本发明实施例提供的特征点跟踪训练及跟踪方法、装置、电子设备及存储介质，通过对相邻两帧中初始帧进行特征点检测，得到初始帧的特征点坐标，通过孪生的特征提取神经网络分别对初始帧和目标帧进行特征提取，得到初始帧对应的特征张量和目标帧对应的特征张量，根据特征点坐标，对目标帧对应的特征张量进行局部匹配，得到匹配得分图，将匹配得分图输入特征点跟踪神经网络，得到特征点坐标在匹配得分图中对应的预测坐标，从而计算预测坐标与匹配得分图中最高得分对应的坐标的损失值，根据该损失值对孪生的特征提取神经网络和特征点跟踪神经网络的网络参数进行调整，从而可以不需要对样本视频进行数据标注，减少了对数据标注的依赖，而且可以直接在真实场景数据集上进行训练，简化了训练过程，避免了光流模型在虚拟数据集训练的过程，可以提高模型的泛化能力。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。

图1是本发明实施例提供的一种特征点跟踪训练方法的步骤流程图；

图2是本发明实施例中孪生的特征提取神经网络中一个子网络的结构图；

图3是本发明实施例中特征点跟踪神经网络的结构图；

图4是本发明实施例提供的一种特征点跟踪训练方法的步骤流程图；

图5是本发明实施例提供的一种特征点跟踪方法的步骤流程图；

图6是本发明实施例提供的一种特征点跟踪方法的步骤流程图；

图7是本发明实施例提供的一种特征点跟踪训练装置的结构框图；

图8是本发明实施例提供的一种特征点跟踪装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是本发明实施例提供的一种特征点跟踪训练方法的步骤流程图，如图1所示，该方法可以包括：

步骤101，获取样本视频中的相邻两帧，将其中一帧作为初始帧，并将另一帧作为目标帧。

从样本视频中读取前后相邻两帧，将其中一帧作为初始帧，将另一帧作为目标帧。其中，样本视频的帧率大于预设帧率，可以保证相邻两帧在亮度上保持一致，移动点的偏移量也可以保持在一个较小的范围内。初始帧可以为相邻两帧中的第一帧，目标帧可以为相邻两帧中的第二帧；或者，初始帧也可以为相邻两帧中的第二帧，目标帧为相邻两帧中的第一帧。

步骤102，对所述初始帧进行特征点检测，得到所述初始帧的特征点坐标。

通过特征点检测算法对初始帧进行特征点检测，得到初始帧的特征点坐标。在初始帧中有多个特征点时，通过进行特征点检测，会得到初始帧中多个特征点的特征点坐标。

其中，特征点检测算法例如可以是使用FAST(Features From AcceleratedSegment Test，加速段测试的特征)算法，也可以使用其它传统的特征点检测算法。

步骤103，通过孪生的特征提取神经网络分别对所述初始帧和目标帧进行特征提取，得到所述初始帧对应的特征张量和所述目标帧对应的特征张量。

其中，所述孪生的特征提取神经网络有两个结构相同，且共享权值的子网络，有两个输入(Input1 and Input2)，每个子网络对应一个输入，将两个输入feed分别进入两个子神经网络(Network1 and Network2)，这两个子神经网络分别将输入映射到新的空间，形成输入在新的空间中的表示。

为了使得相邻两帧能够进行准确得特征点匹配，使用孪生的特征提取神经网络分别对初始帧和目标帧中的每个像素点进行特征提取，输出两个宽与高和输入图像一致的128维张量，即原图上每一个像素点对应一个128维的向量。其中，孪生的特征提取神经网络采用两个权值共享的孪生卷积神经网络，卷积神经网络为点匹配模型，一个卷积神经网络为孪生神经网络的子网络。

图2是本发明实施例中孪生的特征提取神经网络中一个子网络的结构图，如图2所示，一个子网络对输入进行9层的卷积处理，之后进行L2归一化，得到与输入对应的128维张量，其中，第一层卷积层采用3×3的卷积核，输入为3通道的图像，输出为32通道的特征图，采用扩张卷积，扩张率(dialation)为1；第二层卷积层采用3×3的卷积核，输入为32通道的特征图，输出为32通道的特征图，采用扩张卷积，扩张率为1；第三层卷积层采用3×3的卷积核，输入为32通道的特征图，输出为64通道的特征图，采用扩张卷积，扩张率为2；第四层卷积层采用3×3的卷积核，输入为64通道的特征图，输出为64通道的特征图，采用扩张卷积，扩张率为1；第五层卷积层采用3×3的卷积核，输入为64通道的特征图，输出为128通道的特征图，采用扩张卷积，扩张率为2；第六层卷积层采用3×3的卷积核，输入为128通道的特征图，输出为128通道的特征图，采用扩张卷积，扩张率为1；第七层卷积层采用2×2的卷积核，输入为128通道的特征图，输出为128通道的特征图，采用扩张卷积，扩张率为2；第八层卷积层采用2×2的卷积核，输入为128通道的特征图，输出为128通道的特征图，采用扩张卷积，扩张率为2；第九层卷积层采用2×2的卷积核，输入为128通道的特征图，输出为128通道的特征图，采用扩张卷积，扩张率为2。

步骤104，从所述初始帧对应的特征张量中确定所述特征点坐标对应的特征向量，并将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到匹配得分图。

从初始帧对应的特征张量中确定特征点坐标对应的特征向量，以特征点坐标为准，从目标帧对应的特征张量确定特征点坐标周围预设尺寸的张量，作为匹配张量，将特征点坐标对应的特征向量与匹配张量进行匹配，得到匹配得分图。匹配得分图中数值越高的点代表匹配的程度越高。

在本发明的一个实施例中，所述将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到匹配得分图，可选包括：以所述特征点坐标为中心，在所述目标帧对应的特征张量上提取预设尺寸的张量，作为匹配张量；计算所述特征向量与所述匹配张量的相似度，得到匹配得分图。

在进行局部匹配时，首先以特征点坐标为中心，在目标帧对应的特征张量上提取预设尺寸的张量，作为匹配张量，计算特征向量与匹配张量中每一个匹配向量的相似度，从而得到预设尺寸的匹配得分图。以特征点坐标为中心来截取匹配张量，可以得到较为准确的匹配得分图，从而提高点跟踪的准确性。其中，预设尺寸例如可以是31×31，具体可以根据需要设置。相似度可以为余弦相似度，也可以是其他相似度。

步骤105，将所述匹配得分图输入特征点跟踪神经网络，得到特征点坐标在匹配得分图中对应的预测坐标。

通过特征点跟踪神经网络来实现特征点跟踪，即将匹配得分图输入特征点跟踪神经网络，通过特征点跟踪神经网络对匹配得分图进行处理，输出特征点坐标在匹配得分图中对应的预测坐标。其中，图3是本发明实施例中特征点跟踪神经网络的结构图，如图3所示，特征点跟踪神经网络为一个小型的卷积神经网络，包括两个卷积层、一个全连接层和一个tanh归一化层，其中，第一层卷积层采用3×3的卷积核，输入为1通道的匹配得分图，输出为64通道的特征图，卷积步长(stride)为2，填充度(padding)为1；第二层卷积层采用3×3的卷积核，输入为64通道的特征图，输出为64通道的特征图，卷积步长为1，填充度为1；全连接层的输入为尺寸为31×31且通道为64通道的特征图，输出为x和y两个坐标值；tanh归一化层进行处理后，得到跟踪坐标。

在本发明的一个实施例中，在所述将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到匹配得分图之后，还包括：对所述匹配得分图进行softmax归一化处理，得到归一化得分图；

所述将所述匹配得分图输入特征点跟踪神经网络，包括：将所述归一化得分图输入特征点跟踪神经网络。

在得到匹配得分图后，对匹配得分图进行softmax归一化处理，得到归一化得分图，在进行特征点跟踪时，将归一化得分图输入特征点跟踪神经网络，得到特征点坐标在匹配得分图中对应的预测坐标。通过对匹配得分图进行softmax归一化处理，可以避免匹配得分图中匹配得分高低没有上下限的问题，通过softmax归一化将匹配得分限制在0和1之间，使得匹配得分更加合理，有利于网络的训练。

步骤106，确定所述预测坐标与所述匹配得分图中最高得分对应的坐标的损失值，作为第一损失值。

其中，计算第一损失值的损失函数采用L1损失函数，L1损失函数也称为最小绝对值偏差或最小绝对值误差，它是把目标值与估计值的绝对差值的总和最小化。

对于每个特征点坐标，会得到各自对应的预测坐标，将一个特征点坐标对应的匹配得分图中最高得分对应的坐标认为是该特征点的跟踪坐标，计算每个预测坐标与对应的匹配得分图中最高得分对应的坐标的损失值，将该损失值作为第一损失值，可以根据该第一损失值对孪生的特征提取神经网络和特征点跟踪神经网络的网络参数进行调整。

步骤107，判断第一损失值是否收敛，如果不收敛，则执行步骤108，如果收敛，则结束训练。

可以将本次训练得到的第一损失值与前次训练得到的第一损失值进行对比，判断第一损失值是否收敛，若本次训练得到的第一损失值与前次训练得到的第一损失值相同，则确定第一损失值收敛，若本次训练得到的第一损失值与前次训练得到的第一损失值不同，则确定第一损失值不收敛。除了上述比较相邻两次的第一损失值来判断第一损失值是否收敛外，与可以采取其他方式来进行判断，比如可以判断预设相邻次数训练后的相邻两次的第一损失值的差值是否小于阈值。

步骤108，根据所述第一损失值，对所述孪生的特征提取神经网络和所述特征点跟踪神经网络的网络参数进行调整，之后执行步骤101。

根据第一损失值，进行反向传播，并对孪生的特征提取神经网络和特征点跟踪神经网络的网络参数进行调整，之后执行步骤101至步骤108，再次对获取到的相邻两帧进行点跟踪训练。

本实施例提供的特征点跟踪训练方法，通过对相邻两帧中初始帧进行特征点检测，得到初始帧的特征点坐标，通过孪生的特征提取神经网络分别对初始帧和目标帧进行特征提取，得到初始帧对应的特征张量和目标帧对应的特征张量，根据特征点坐标，对目标帧对应的特征张量进行局部匹配，得到匹配得分图，将匹配得分图输入特征点跟踪神经网络，得到特征点坐标在匹配得分图中对应的预测坐标，从而计算预测坐标与匹配得分图中最高得分对应的坐标的损失值，根据该损失值对孪生的特征提取神经网络和特征点跟踪神经网络的网络参数进行调整，实现了通过自监督的方式进行训练，从而可以不需要对样本视频进行数据标注，减少了对数据标注的依赖，而且可以直接在真实场景数据集上进行训练，简化了训练过程，避免了光流模型在虚拟数据集训练的过程，可以提高模型的泛化能力。

图4是本发明实施例提供的一种特征点跟踪训练方法的步骤流程图，如图4所示，该方法可以包括：

步骤401，获取样本视频中的相邻两帧，将其中一帧作为初始帧，并将另一帧作为目标帧。

步骤402，对所述初始帧进行特征点检测，得到所述初始帧的特征点坐标。

步骤403，通过孪生的特征提取神经网络分别对所述初始帧和目标帧进行特征提取，得到所述初始帧对应的特征张量和所述目标帧对应的特征张量。

步骤404，从所述初始帧对应的特征张量中确定所述特征点坐标对应的特征向量，并将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到匹配得分图。

步骤405，将所述匹配得分图输入特征点跟踪神经网络，得到特征点坐标在匹配得分图中对应的预测坐标。

步骤406，确定所述预测坐标与所述匹配得分图中最高得分对应的坐标的损失值，作为第一损失值。

步骤407，从所述目标帧对应的特征张量中确定所述预测坐标对应的特征向量，并将该特征向量与所述初始帧对应的特征张量进行局部匹配，得到反向匹配得分图。

为了避免局部匹配得到的匹配得分图中最高得分对应的坐标不精确，可以再根据预测坐标进行反向跟踪来进行校正。这时，先将预测坐标转换为在目标帧中的坐标，从目标帧对应的特征张量中确定转换后的坐标对应的特征向量，作为预测坐标对应的特征向量，并以转换后的坐标为中心，在初始帧对应的特征张量中提取预设尺寸的张量，作为反向匹配张量，计算预测坐标对应的特征向量与反向匹配张量的余弦相似度，得到反向匹配得分图。

需要说明的是，步骤407和步骤406的执行顺序不限于上述顺序，步骤407和步骤406还可以同时执行。

步骤408，将所述反向匹配得分图输入所述特征点跟踪神经网络，得到特征点坐标在所述初始帧中的反向跟踪坐标。

对反向匹配得分图进行softmax归一化处理，将归一化处理后的反向匹配得分图输入特征点跟踪神经网络，得到特征点坐标在初始帧中的反向跟踪坐标。

步骤409，计算所述反向跟踪坐标与所述特征点坐标的损失值，作为第二损失值。

计算反向跟踪坐标与特征点坐标的误差，作为第二损失值。其中，计算第二损失值的损失函数和计算第一损失值的损失函数相同，也可以为L1损失函数。

步骤410，判断第一损失值和第二损失值是否收敛，若不收敛则执行步骤411，若收敛则结束训练。

将本次训练得到的第一损失值和第二损失值分别与前次训练得到的第一损失值和第二损失值进行对比，确定第一损失值和第二损失值是否均收敛，如果均收敛，则可以结束训练，如果有一个不收敛则执行步骤411，以对网络参数进行调整并再次训练。

步骤411，根据所述第一损失值和第二损失值，对所述孪生的特征提取神经网络和所述特征点跟踪神经网络的网络参数进行调整，之后执行步骤401。

根据第一损失值和第二损失值，进行反向传播，以对孪生的特征提取神经网络和特征点跟踪神经网络的网络参数进行调整，执行步骤401至步骤411，再次获取样本视频中的相邻两帧并进行训练。

本实施例提供的特征点跟踪训练方法，在上述实施例的基础上，在得到特征点坐标在匹配得分图中的预测坐标后，再在目标帧上提取特征向量并在初始帧上提取特征张量，进行局部匹配并输入特征点跟踪神经网络，进行一次反向跟踪，此次跟踪到的点为反向跟踪点，得到反向跟踪坐标，并计算反向跟踪坐标与特征点坐标的损失值，作为第二损失值，从而可以校正第一次局部匹配得到的最高得分对应坐标点和一次跟踪的误差，从而可以使得网络快速收敛，提高训练速度，并可以提高特征点跟踪结果的精确性。

图5是本发明实施例提供的一种特征点跟踪方法的步骤流程图，如图5所示，该方法可以包括：

步骤501，获取待进行特征点跟踪的视频中的相邻两帧，将其中一帧作为初始帧，并将另一帧作为目标帧。

获取待进行特征点跟踪的视频，从该视频中获取相邻两帧，将其中一帧作为初始帧，并将另一帧作为目标帧，例如可以将第一帧作为初始帧，将第二帧作为目标帧。

步骤502，对所述初始帧进行特征点检测，得到所述初始帧的特征点坐标。

使用特征点检测算法对初始帧进行特征点检测，得到初始帧中各个特征点的特征点坐标。其中，特征点检测算法可以是FAST算法，也可以是其他特征点检测算法。

步骤503，通过孪生的特征提取神经网络分别对所述初始帧和目标帧进行特征提取，得到所述初始帧对应的特征张量和所述目标帧对应的特征张量。

通过孪生的特征提取神经网络中的一个特征提取神经网络对初始帧中的各个像素点进行特征提取，得到初始帧对应的特征张量，通过孪生的特征提取神经网络中的另一个特征提取神经网络对目标帧中的各个像素点进行特征提取，得到目标帧对应的特征张量。其中，孪生的特征提取神经网络已经训练完成，可以是经过上述实施例训练得到。每个特征提取神经网络的结构如图2所示。

步骤504，从所述初始帧对应的特征张量中确定所述特征点坐标对应的特征向量，并将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到第一匹配得分图。

从初始帧对应的特征张量中确定特征点坐标对应的特征向量，以特征点坐标为准，从目标帧对应的特征张量中确定特征点坐标周围预设尺寸的张量，作为匹配张量，将特征点坐标对应的特征向量与匹配张量进行匹配，得到第一匹配得分图。第一匹配得分图中数值越高的点代表匹配的程度越高。

在本发明的一个实施例中，所述将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到第一匹配得分图，可选包括：以所述特征点坐标为中心，在所述目标帧对应的特征张量上提取预设尺寸的张量，作为第一匹配张量；计算所述特征向量与所述第一匹配张量的相似度，得到第一匹配得分图。

在进行局部匹配时，首先以特征点坐标为中心，在目标帧对应的特征张量上提取预设尺寸的张量，作为第一匹配张量，计算特征向量与第一匹配张量中每一个第一匹配向量的相似度，从而得到预设尺寸的第一匹配得分图。以特征点坐标为中心来截取第一匹配张量，可以得到较为准确的第一匹配得分图，从而提高特征点跟踪的准确性。其中，预设尺寸例如可以是31×31，具体可以根据需要设置。相似度可以是余弦相似度，也可以其他相似度。

步骤505，将所述第一匹配得分图输入特征点跟踪神经网络，得到特征点坐标在第一匹配得分图中对应的第一预测坐标。

将第一匹配得分图输入特征点跟踪神经网络，通过特征点跟踪神经网络对第一匹配得分图进行处理，输出特征点坐标在第一匹配得分图中对应的第一预测坐标。

在本发明的一个实施例中，在所述将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到第一匹配得分图之后，还包括：对所述第一匹配得分图进行softmax归一化处理，得到第一归一化得分图；

所述将所述第一匹配得分图输入特征点跟踪神经网络，包括：将所述归一化得分图输入特征点跟踪神经网络。

在得到第一匹配得分图后，对第一匹配得分图进行softmax归一化处理，得到第一归一化得分图，在进行特征点跟踪时，将第一归一化得分图输入特征点跟踪神经网络，得到特征点坐标在第一匹配得分图中对应的第一预测坐标。通过对第一匹配得分图进行softmax归一化处理，可以避免第一匹配得分图中匹配得分高低没有上下限的问题，通过softmax归一化将匹配得分限制在0和1之间，使得匹配得分更加合理。

步骤506，根据所述第一预测坐标和特征点坐标，确定特征点坐标在所述目标帧中的第一跟踪坐标。

第一预测坐标为相对于特征点坐标的相对坐标，从而根据第一预测坐标和特征点坐标，可以将第一预测坐标转换为在目标帧中的跟踪坐标，即得到特征点坐标在目标帧中的第一跟踪坐标。

其中，所述第一预测坐标是相对于所述特征点坐标的偏移坐标；

根据所述第一预测坐标和特征点坐标，确定特征点坐标在所述目标帧中的第一跟踪坐标，包括：将所述第一预测坐标与所述特征点坐标进行相加计算，得到所述特征点坐标在所述目标帧中的第一跟踪坐标。

在进行局部匹配时，由于是以特征点坐标为准进行的局部匹配，从而得到的第一预测坐标是相对于特征点坐标的偏移坐标，从而将第一预测坐标与特征点坐标进行相加计算，得到特征点坐标在目标帧中的第一跟踪坐标。例如，第一预测坐标为(2,5)，特征点坐标为(51,52)，则得到特征点坐标在目标帧中的第一跟踪坐标为(53,57)。

本实施例提供的特征点跟踪方法，通过获取待进行特征点跟踪的视频中的相邻两帧，将其中一帧作为初始帧，将另一帧作为目标帧，对初始帧进行特征点检测，得到初始帧的特征点坐标，通过孪生的特征提取神经网络分别对初始帧和目标帧进行特征提取，得到初始帧对应的特征张量和目标帧对应的特征张量，根据特征点坐标，从初始帧对应的特征张量中提取特征向量并对目标帧对应的特征张量进行局部匹配，得到第一匹配得分图，将第一匹配得分图输入特征点跟踪神经网络，进行特征点跟踪，得到特征点坐标在第一匹配得分图中对应的第一预测坐标，从而根据第一预测坐标和特征点坐标确定特征点坐标在目标帧中的跟踪坐标，即通过深度学习对特征点计算局部匹配得分图，再利用得分图回归预测特征点在目标帧中的跟踪坐标，提高了特征点跟踪的准确度，而且解决了传统LK算法难以跟踪密集、相似角点的问题。

图6是本发明实施例提供的一种特征点跟踪方法的步骤流程图，如图6所示，该方法可以包括：

步骤601，获取待进行特征点跟踪的视频中的相邻两帧，将其中一帧作为初始帧，并将另一帧作为目标帧。

步骤602，对所述初始帧进行特征点检测，得到所述初始帧的特征点坐标。

步骤603，通过孪生的特征提取神经网络分别对所述初始帧和目标帧进行特征提取，得到所述初始帧对应的特征张量和所述目标帧对应的特征张量。

步骤604，从所述初始帧对应的特征张量中确定所述特征点坐标对应的特征向量，并将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到第一匹配得分图。

步骤605，将所述第一匹配得分图输入特征点跟踪神经网络，得到特征点坐标在第一匹配得分图中对应的第一预测坐标。

步骤606，根据所述第一预测坐标和特征点坐标，确定特征点坐标在所述目标帧中的第一跟踪坐标。

步骤607，从所述初始帧对应的特征张量中确定所述第一跟踪坐标对应的特征向量，并将该特征向量与所述目标帧对应的特征张量进行局部匹配，得到第二匹配得分图。

采用两级预测的方式，级联同一个特征点跟踪神经网络，可以更精准地跟踪较大位移的特征点。即在确定特征点坐标在目标帧中的第一跟踪坐标后，再进行一次级联跟踪，以第一跟踪坐标为准进行跟踪，即从初始帧对应的特征张量中确定第一跟踪坐标对应的特征向量，以第一跟踪坐标为中心，从目标帧对应的特征张量中确定预设尺寸的特征张量，作为第二匹配张量，计算第二匹配张量与第一跟踪坐标对应的特征向量的相似度，得到第二匹配得分图。

步骤608，将所述第二匹配得分图输入所述特征点跟踪神经网络，得到特征点坐标在第二匹配得分图中对应的第二预测坐标。

对第二匹配得分图进行softmax归一化处理，得到第二归一化得分图，将第二归一化得分图输入特征点跟踪神经网络，得到特征点坐标在第二匹配得分图中对应的第二预测坐标。

步骤609，根据所述第一跟踪坐标和第二预测坐标，确定特征点坐标在所述目标帧中的第二跟踪坐标。

第二预测坐标为相对于第一跟踪坐标的偏移坐标，从而将第一跟踪坐标与第二预测坐标进行相加计算，可以将第二预测坐标转换为在目标帧中的第二跟踪坐标，即得到特征点坐标在目标帧中的第二跟踪坐标，将第二跟踪坐标作为特征点在目标帧中的跟踪结果。

需要说明的是，对于较大位移的跟踪点，还可以采取多级级联预测的方式，即对局部匹配和特征点跟踪进行多级级联，以提高较大位移点跟踪的准确性。

本实施例提供的特征点跟踪方法，通过在得到特征点坐标在目标帧中的第一跟踪坐标后，进行一次级联跟踪，可以跟踪较大位移的特征点，提高了较大位移点跟踪的准确性。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

图7是本发明实施例提供的一种特征点跟踪训练装置的结构框图，如图7所示，该特征点跟踪训练装置可以包括：

待跟踪帧获取模块701，用于获取样本视频中的相邻两帧，将其中一帧作为初始帧，并将另一帧作为目标帧；

特征点检测模块702，用于对所述初始帧进行特征点检测，得到所述初始帧的特征点坐标；

特征提取模块703，用于通过孪生的特征提取神经网络分别对所述初始帧和目标帧进行特征提取，得到所述初始帧对应的特征张量和所述目标帧对应的特征张量；

局部匹配模块704，用于从所述初始帧对应的特征张量中确定所述特征点坐标对应的特征向量，并将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到匹配得分图；

特征点跟踪模块705，用于将所述匹配得分图输入特征点跟踪神经网络，得到特征点坐标在匹配得分图中对应的预测坐标；

第一损失计算模块706，用于确定所述预测坐标与所述匹配得分图中最高得分对应的坐标的损失值，作为第一损失值；

训练控制模块707，用于根据所述第一损失值，对所述孪生的特征提取神经网络和所述特征点跟踪神经网络的网络参数进行调整，循环执行上述步骤，直至第一损失值收敛。

可选的，所述装置还包括：

反向局部匹配模块，用于从所述目标帧对应的特征张量中确定所述预测坐标对应的特征向量，并将该特征向量与所述初始帧对应的特征张量进行局部匹配，得到反向匹配得分图；

反向跟踪模块，用于将所述反向匹配得分图输入所述特征点跟踪神经网络，得到特征点坐标在所述初始帧中的反向跟踪坐标；

第二损失计算模块，用于计算所述反向跟踪坐标与所述特征点坐标的损失值，作为第二损失值；

所述训练控制模块具体用于：

根据所述第一损失值和第二损失值，对所述孪生的特征提取神经网络和所述特征点跟踪神经网络的网络参数进行调整，循环执行上述步骤，直至第一损失值和第二损失值收敛。

可选的，所述局部匹配模块包括：

匹配张量确定单元，用于以所述特征点坐标为中心，在所述目标帧对应的特征张量上提取预设尺寸的张量，作为匹配张量；

局部匹配单元，用于计算所述特征向量与所述匹配张量的相似度，得到匹配得分图。

可选的，所述装置还包括：

softmax归一化模块，用于对所述匹配得分图进行softmax归一化处理，得到归一化得分图；

所述点跟踪模块具体用于：

将所述归一化得分图输入特征点跟踪神经网络，得到特征点坐标在匹配得分图中对应的预测坐标。

本实施例提供的特征点跟踪训练装置，通过对相邻两帧中初始帧进行特征点检测，得到初始帧的特征点坐标，通过孪生的特征提取神经网络分别对初始帧和目标帧进行特征提取，得到初始帧对应的特征张量和目标帧对应的特征张量，根据特征点坐标，对目标帧对应的特征张量进行局部匹配，得到匹配得分图，将匹配得分图输入特征点跟踪神经网络，得到特征点坐标在匹配得分图中对应的预测坐标，从而计算预测坐标与匹配得分图中最高得分对应的坐标的损失值，作为第一损失值，根据该第一损失值对孪生的特征提取神经网络和特征点跟踪神经网络的网络参数进行调整，从而可以不需要对样本视频进行数据标注，减少了对数据标注的依赖，而且可以直接在真实场景数据集上进行训练，简化了训练过程，避免了光流模型在虚拟数据集训练的过程，可以提高模型的泛化能力。

图8是本发明实施例提供的一种特征点跟踪装置的结构框图，如图8所示，该特征点跟踪训练装置可以包括：

待跟踪帧获取模块801，用于获取待进行特征点跟踪的视频中的相邻两帧，将其中一帧作为初始帧，并将另一帧作为目标帧；

特征点检测模块802，用于对所述初始帧进行特征点检测，得到所述初始帧的特征点坐标；

第一特征提取模块803，用于通过孪生的特征提取神经网络分别对所述初始帧和目标帧进行特征提取，得到所述初始帧对应的特征张量和所述目标帧对应的特征张量；

第一局部匹配模块804，用于从所述初始帧对应的特征张量中确定所述特征点坐标对应的特征向量，并将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到第一匹配得分图；

第一特征点跟踪模块805，用于将所述第一匹配得分图输入特征点跟踪神经网络，得到特征点坐标在第一匹配得分图中对应的第一预测坐标；

第一跟踪坐标确定模块806，用于根据所述第一预测坐标和特征点坐标，确定特征点坐标在所述目标帧中的第一跟踪坐标。

可选的，所述第一局部匹配模块包括：

第一匹配张量确定单元，用于以所述特征点坐标为中心，在所述目标帧对应的特征张量上提取预设尺寸的张量，作为第一匹配张量；

第一局部匹配单元，用于计算所述特征向量与所述第一匹配张量的相似度，得到第一匹配得分图。

可选的，所述第一预测坐标是相对于所述特征点坐标的偏移坐标；

所述第一跟踪坐标确定模块具体用于：

将所述第一预测坐标与所述特征点坐标进行相加计算，得到所述特征点坐标在所述目标帧中的第一跟踪坐标。

可选的，所述装置还包括：

第一softmax归一化模块，用于对所述第一匹配得分图进行softmax归一化处理，得到第一归一化得分图；

所述第一特征点跟踪模块具体用于：

将所述归一化得分图输入特征点跟踪神经网络，得到特征点坐标在第一匹配得分图中对应的第一预测坐标。

可选的，所述装置还包括：

第二局部匹配模块，用于从所述初始帧对应的特征张量中确定所述第一跟踪坐标对应的特征向量，并将该特征向量与所述目标帧对应的特征张量进行局部匹配，得到第二匹配得分图；

第二特征点跟踪模块，用于将所述第二匹配得分图输入所述特征点跟踪神经网络，得到特征点坐标在第二匹配得分图中对应的第二预测坐标；

第二跟踪坐标确定模块，用于根据所述第一跟踪坐标和第二预测坐标，确定特征点坐标在所述目标帧中的第二跟踪坐标。

本实施例提供的特征点跟踪装置，通过获取待进行特征点跟踪的视频中的相邻两帧，将其中一帧作为初始帧，将另一帧作为目标帧，对初始帧进行特征点检测，得到初始帧的特征点坐标，通过孪生的特征提取神经网络分别对初始帧和目标帧进行特征提取，得到初始帧对应的特征张量和目标帧对应的特征张量，根据特征点坐标，从初始帧对应的特征张量中提取特征向量并对目标帧对应的特征张量进行局部匹配，得到第一匹配得分图，将第一匹配得分图输入特征点跟踪神经网络，进行特征点跟踪，得到特征点坐标在第一匹配得分图中对应的第一预测坐标，从而根据第一预测坐标和特征点坐标确定特征点坐标在目标帧中的跟踪坐标，即通过深度学习对特征点计算局部匹配得分图，再利用得分图回归预测特征点在目标帧中的跟踪坐标，提高了特征点跟踪的准确度，而且解决了传统LK算法难以跟踪密集、相似角点的问题。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

进一步地，根据本发明的一个实施例，提供了一种电子设备，所述电子设备包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现前述实施例所述的特征点跟踪训练方法或者实现前述实施例所述的特征点跟踪方法。

根据本发明的一个实施例，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现前述实施例所述的特征点跟踪训练方法或者实现前述实施例所述的特征点跟踪方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种特征点跟踪训练及跟踪方法、装置、电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种特征点跟踪训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述将所述匹配得分图输入特征点跟踪神经网络，得到特征点坐标在匹配得分图中对应的预测坐标之后，还包括：

从所述目标帧对应的特征张量中确定所述预测坐标对应的特征向量，并将该特征向量与所述初始帧对应的特征张量进行局部匹配，得到反向匹配得分图；

将所述反向匹配得分图输入所述特征点跟踪神经网络，得到特征点坐标在所述初始帧中的反向跟踪坐标；

计算所述反向跟踪坐标与所述特征点坐标的损失值，作为第二损失值；

所述根据所述第一损失值，对所述孪生的特征提取神经网络和所述特征点跟踪神经网络的网络参数进行调整，循环执行上述步骤，直至第一损失值收敛，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到匹配得分图，包括：

以所述特征点坐标为中心，在所述目标帧对应的特征张量上提取预设尺寸的张量，作为匹配张量；

计算所述特征向量与所述匹配张量的相似度，得到匹配得分图。

4.根据权利要求1所述的方法，其特征在于，在所述将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到匹配得分图之后，还包括：

对所述匹配得分图进行softmax归一化处理，得到归一化得分图；

所述将所述匹配得分图输入特征点跟踪神经网络，包括：

将所述归一化得分图输入特征点跟踪神经网络。

5.一种特征点跟踪方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到第一匹配得分图，包括：

以所述特征点坐标为中心，在所述目标帧对应的特征张量上提取预设尺寸的张量，作为第一匹配张量；

计算所述特征向量与所述第一匹配张量的相似度，得到第一匹配得分图。

7.根据权利要求5所述的方法，其特征在于，所述第一预测坐标是相对于所述特征点坐标的偏移坐标；

根据所述第一预测坐标和特征点坐标，确定特征点坐标在所述目标帧中的第一跟踪坐标，包括：

8.根据权利要求5所述的方法，其特征在于，在所述将所述特征向量与所述目标帧对应的特征张量进行局部匹配，得到第一匹配得分图之后，还包括：

对所述第一匹配得分图进行softmax归一化处理，得到第一归一化得分图；

所述将所述第一匹配得分图输入特征点跟踪神经网络，包括：

将所述归一化得分图输入特征点跟踪神经网络。

9.根据权利要求5所述的方法，其特征在于，在所述根据所述第一预测坐标和特征点坐标，确定特征点坐标在所述目标帧中的第一跟踪坐标之后，还包括：

从所述初始帧对应的特征张量中确定所述第一跟踪坐标对应的特征向量，并将该特征向量与所述目标帧对应的特征张量进行局部匹配，得到第二匹配得分图；

将所述第二匹配得分图输入所述特征点跟踪神经网络，得到特征点坐标在第二匹配得分图中对应的第二预测坐标；

根据所述第一跟踪坐标和第二预测坐标，确定特征点坐标在所述目标帧中的第二跟踪坐标。

10.一种特征点跟踪训练装置，其特征在于，包括：

11.一种特征点跟踪装置，其特征在于，包括：

第一点跟踪模块，用于将所述第一匹配得分图输入特征点跟踪神经网络，得到特征点坐标在第一匹配得分图中对应的第一预测坐标；

12.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-4任一项所述的特征点跟踪训练方法，或者实现如权利要求5-9任一项所述的特征点跟踪方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述的特征点跟踪训练方法，或者实现如权利要求5-9任一项所述的特征点跟踪方法。