CN109074657B

CN109074657B - 一种目标跟踪方法、装置、电子设备和可读存储介质

Info

Publication number: CN109074657B
Application number: CN201880001302.7A
Authority: CN
Inventors: 杨文超; 王恺; 廉士国
Original assignee: Cloudminds Robotics Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2022-04-08
Anticipated expiration: 2038-07-18
Also published as: CN109074657A; WO2020014901A1

Abstract

本申请涉及计算机视觉领域，尤其涉及一种目标跟踪方法、装置、电子设备和可读存储介质。该目标跟踪方法包括：获取一帧视频图像，以及获取目标在视频图像中的预测位置；根据缩小的模板图像和预测位置，确定视频图像的缩小比例，并将视频图像按照缩小比例缩小，得到缩小的视频图像；根据预测位置确定目标在缩小的视频图像中的预测位置；根据目标在缩小的视频图像中的预测位置，采用缩小的模板图像与缩小的视频图像进行匹配，确定缩小的模板图像在缩小的视频图像中的粗略定位位置的信息；根据粗略定位位置的信息，确定目标在视频图像中的精确定位位置。该方法可以快速、且准确的实现对目标在该视频图像中的定位位置，提高用户对AR的体验效果。

Description

一种目标跟踪方法、装置、电子设备和可读存储介质

技术领域

本申请涉及计算机视觉领域，尤其涉及一种目标跟踪方法、装置、电子设备和可读存储介质。

背景技术

增强现实技术(Augmented Reality，简称“AR”)，是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术，该技术的目标是在屏幕上把虚拟世界套在现实世界并进行互动。

目标检测和目标跟踪是增强现实中的关键技术，目标检测可以检测视频图像中模板图(平面目标)的精确位置，但是，目标检测的计算非常耗时。为了克服该缺陷，在移动终端的AR应用中，通常通过目标检测获取模板图在视频图像中的初始位置，后续通过目标跟踪方法确定模板图在视频图像中的精确位置。

其中，目标跟踪方法的通常处理过程为：提取模板图的特征点，并在待匹配图像中搜寻该特征点，得到从模板图到待匹配图像的单应矩阵，从而确定出模板图在待匹配图像中的精确位置；根据确定的精确位置和模板图的历史位置，预测模板图在下一待匹配图像中的位置，根据预测的位置继续对模板图进行跟踪。

发明人在研究现有技术过程中发现，目前针对高分辨率的图像进行平面目标跟踪通常采用以下两种方式：第一，采用大搜索半径的方式搜寻平面目标的特征点，但是该方法耗时严重；第二，采用小搜索半径的方式搜寻平面目标的特征点，但是这种方式很容易出现搜寻失败的情况，从而导致对平面目标跟踪失败的情况。以上两种方式中，在对平面目标进行实时跟踪时，若出现平面目标相对于摄像机运动较快情况，则往往会导致对平面目标跟踪丢失的情况或者导致叠加的图像出现抖动的现象，降低了用户对AR的体验效果。

发明内容

本申请部分实施例所要解决的技术问题在于提供一种目标跟踪方法、装置、电子设备和可读存储介质，使得对视频图像中的目标进行实时跟踪时，可以快速、且准确的实现对目标在该视频图像中的定位位置，提高用户对AR的体验效果。

本申请的一个实施例提供了一种目标跟踪方法，包括：获取一帧视频图像，以及获取目标在视频图像中的预测位置；获取目标的缩小的模板图像；根据缩小的模板图像和预测位置，确定视频图像的缩小比例，并将视频图像按照缩小比例缩小，得到缩小的视频图像；根据预测位置确定目标在缩小的视频图像中的预测位置；根据目标在缩小的视频图像中的预测位置，采用缩小的模板图像与缩小的视频图像进行匹配，确定缩小的模板图像在缩小的视频图像中的粗略定位位置的信息；根据粗略定位位置的信息，确定目标在视频图像中的精确定位位置。

本申请的一个实施例还提供了一种目标跟踪装置，包括：第一获取模块、第二获取模块、图像缩小模块、预测位置缩小模块、粗略定位模块和精确定位模块；第一获取模块用于获取一帧视频图像，以及获取目标在视频图像中的预测位置；第二获取模块用于获取该目标的缩小的模板图像；图像缩小模块用于根据缩小的模板图像和预测位置，确定视频图像的缩小比例，并将视频图像按照缩小比例缩小，得到缩小的视频图像；预测位置缩小模块用于根据预测位置确定目标在缩小的视频图像中的预测位置；粗略定位模块用于根据目标在缩小的视频图像中的预测位置，采用缩小的模板图像与缩小的视频图像进行匹配，确定缩小的模板图像在所述缩小的视频图像中的粗略定位位置的信息；精确定位模块用于根据所述粗略定位位置的信息，确定目标在所述视频图像中的精确定位位置。

本申请实施例还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行上述的目标跟踪方法。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述的目标跟踪方法。

相对于现有技术而言，本申请部分实施例中将目标的模板图像和获取得到的视频图像进行缩小，极大程度的降低模板图像和视频图像的分辨率，使得模板图像和视频图像在进行匹配时，可以快速确定出缩小后的模板图像在缩小后的视频图像中的粗略定位位置的信息；通过粗略定位位置的信息，使得确定目标在视频图像中的精确定位位置的过程中，缩小了在视频图像中搜寻模板图像的范围，进而大大提高了确定精确定位位置的速度，缩短确定目标在视频图像中的精确定位位置的时间；且在预测位置出现了错误的情况下，由于缩小的模板图像和缩小的视频图像分辨率低、图像尺寸小，使得在不改变搜寻模板图像的范围的情况下，也可以快速确定出粗略定位位置的信息，进而不会跟丢目标的模板图像，提高了对目标跟踪的准确性，提高用户对AR的体验效果。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请第一实施例中目标跟踪方法的具体流程图；

图2是本申请第二实施例中目标跟踪方法中确定目标在视频图像中精确定位位置的具体流程示意图；

图3是本申请第三实施例中目标跟踪方法中亚像素处理的具体流程示意图；

图4是本申请第四实施例中目标跟踪装置的具体结构示意图；

图5是本申请第五实施例中电子设备的具体结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请部分实施例进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。然而，本领域的普通技术人员可以理解，在本申请的各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本申请的第一实施例涉及一种目标跟踪方法，该目标跟踪方法适用于终端，尤其是移动终端，如：智能手机、智能平板等。该目标跟踪方法的具体流程如图1中所示：

步骤101：获取一帧视频图像，以及获取目标在视频图像中的预测位置。

具体的说，视频图像由终端通过摄像头采集获得，如，智能手机通过摄像头获取、头戴式设备通过自带的摄像头或者外接摄像头采集获得。由于视频是由一帧一帧的连续图像组成，在AR中对目标的跟踪即是通过对连续帧图像中的目标进行跟踪实现的。在视频图像中的目标是指该视频图像中的二维物体(如一个盆栽的图像、一个灯的图像)，获取目标在视频图像中的预测位置的方式可以通过该目标在上一帧视频图像中的位置估测获得；当然，该预测位置还可以是通过检测方法获取。需要说明的是，对于第一帧图像而言，目标在该视频图像中的预测位置是由检测方法获取得到，检测方法在本实施例中不再进行赘述。

步骤102：获取目标的缩小的模板图像。

一个具体实现中，缩小的模板图像为预存的目标的缩小的模板图像；或者，缩小的模板图像为目标的模板图像按照预设分辨率缩小后得到。

具体的说，目标的模板图像是指目标的二维图像，例如，一个目标的模板图像可以是一个灯的图像、一个盆栽的图像等。模板图像的获取方式有多种，例如，可以从云端服务器中获取，还可以是终端自身采集获取。本实施例中不限制模板图像的获取方式，可以根据实际需要进行选择。

其中，缩小的模板图像可以是以固定分辨率预先存储在终端中，由于直接获取缩小的模板图，大大提到了获取缩小的模板图像的速度。

当然，也可以不预存缩小的模板图像，而是根据预设分辨率对全分辨率的模板图像进行缩小，例如，预设分辨率为25×25像素，模板图像的全分辨率为720×720像素，则将全频率的模板图像缩小到25×25像素，得到缩小的模板图像。

步骤103：根据缩小的模板图像和预测位置，确定该视频图像的缩小比例，并将该视频图像按照缩小比例缩小，得到缩小的视频图像。

一个具体的实现中，根据预测位置，确定模板图像在视频图像中预估像素面积；根据缩小的模板图像的像素面积和预估像素面积，确定视频图像的缩小比例。

具体的说，预测位置为模板图像在视频图像中预测的位置，即可计算出该模板图像在视频图像中的预估像素面积，计算缩小的模板图像的像素面积，那么视频图像的缩小比例等于缩小的模板图像的像素面积除以预估像素面积的商的平方根，例如，缩小的模板图像的像素面积为sm，该全分辨率的模板图像在该视频图像中的预估像素面积为sf，那么缩小比例t等于(sm/sf)的平方根。本实施例中并不限制计算缩小比例的方法。

步骤104：根据预测位置确定目标在缩小的视频图像中的预测位置。

具体的说，将目标在视频图像中预测位置按照视频图像缩小的缩小比例进行缩小，得到目标在缩小的视频图像中的预测位置。

步骤105：根据目标在缩小的视频图像中的预测位置，采用缩小的模板图像与缩小的视频图像进行匹配，确定缩小的模板图像在缩小的视频图像中的粗略定位位置的信息。

一个具体的实现中，以目标在缩小的视频图像中的预测位置为起点，在缩小的视频图像中搜寻与缩小的模板图像匹配的图像块，根据匹配的图像块确定粗略定位位置的信息。

具体的说，在缩小的模板图像中提取特征点，并根据特征点确定缩小的模板图像上的待匹配的图像块，之后，以缩小的模板图像在缩小的视频图像中的预测位置为起点，并以预设半径在缩小的视频图像中搜寻与缩小的模板图像匹配的图像块，预设半径可以根据缩小的视频图像的分辨率确定，本实施例中不对此作限制。当然，在缩小的视频图像中匹配的图像块为包含有缩小的模板图像特征点的图像，且该图像块的尺寸与缩小的模板图像上的待匹配的图像块尺寸相同。

缩小的视频图像中搜寻到的与缩小的模板图像匹配的图像块，默认与模板图像中的图像块为同一个图像，从而根据搜寻的图像块中的特征点以及缩小的模板图像中对应的特征点，确定出缩小的模板图像映射到缩小的视频图像中单应矩阵。本实施例中可以将搜寻到的与缩小的模板图像匹配的图像块的位置，作为确定缩小的模板图像在缩小的视频图像中的粗略定位位置的信息；也可以将确定出缩小的模板图像映射到缩小的视频图像中单应矩阵，作为确定缩小的模板图像在缩小的视频图像中的粗略定位位置的信息。

需要说明的是，由于缩小的模板图像已经非常小了，因而本实施例中在缩小的模板图像中提取较少数量的特征点(如提取4个特征点)后，直接以该缩小的模板图像作为待匹配的图像块，因而在缩小的视频图像中搜寻到与缩小的模板图像匹配的图像块的位置，即为缩小的模板图像在缩小的视频图像中的位置。

步骤106：根据粗略定位位置的信息，确定目标在视频图像中的精确定位位置。

具体的说，本实施例中以缩小的模板图像在缩小的视频图像中的位置，作为粗略定位位置的信息为例进行说明。根据粗略定位位置信息，可以确定出缩小的模板图像映射至缩小的视频图像的初始单应矩阵，将该初始单应矩阵作为全分辨率的模板图像映射至全分辨率的视频图像的单应矩阵，从而根据初始单应矩阵，计算出全分辨率的模板图像在全分辨的视频图像中的初始位置，并根据分辨率的模板图像在全分辨的视频图像中的初始位置，采用全分辨率的模板图像与全分辨率的视频图像进行匹配，确定全分辨率的模板图像在全分辨率的视频图像中的位置，并将该位置作为目标在视频图像中的精确定位位置，其中匹配的过程与步骤104中的匹配过程大致相同，此处不再进行赘述。

步骤107：输出精确定位位置。

具体的说，输出精确定位位置，终端可以根据输出的目标在当前帧的视频图像上的精确定位位置，在该视频图像中的目标上叠加其他图像。当然，根据目标在当前帧的视频图像上的精确定位位置，以及该目标在历史帧的视频图像上的精确定位位置，预测出该目标在下一帧视频图像中的预测位置，预测方法在此处将不再进行赘述。

本申请的第二实施例涉及一种目标跟踪方法，第二实施例是对第一实施例的进一步改进，主要改进之处在于：本实施例中根据粗略定位位置的信息，确定目标在视频图像中的精确定位位置的过程中采用了金字塔匹配的方式。该过程的具体流程如图2所示。

步骤201：根据粗略定位位置的信息，确定将缩小的模板图像映射至缩小的视频图像的初始单应矩阵。

具体的说，本步骤201与第一实施例中的步骤106中确定单应矩阵的过程大致相同，即通过根据粗略定位位置信息以及缩小的模板图像的位置，可以确定出缩小的模板图像映射至缩小的视频图像的初始单应矩阵。

步骤202：根据初始单应矩阵，确定金字塔匹配过程中需要的N级分辨率，N为大于1的整数。

一个具体的实现中，根据初始单应矩阵，确定拍摄视频图像的使用情境，使用情境包括：拍摄的角度以及拍摄的距离；根据使用情境，确定金字塔匹配过程中需要的N级分辨率。

具体的说，根据初始单应矩阵可以获取到缩小的模板图像在缩小视频图像中的姿态信息，根据粗略定位位置信息可以获知缩小的模板图像在缩小的视频图像中的位置，根据缩小的模板图像在缩小的视频图像中的位置以及缩小的模板图像在缩小的视频图像中的姿态，判断拍摄视频图像的使用情境，根据使用情境，确定金字塔匹配过程中需要的N级分辨率。例如，若确定出使用情境为大角度拍摄，那么确定两级分辨率，第一级分辨率为1/2分辨率，第二级分辨率为全分辨率；若使用情境为近距离拍摄，那么确定三级分辨率，第一级分辨率为1/4分辨率，第二级分辨率为1/2分辨率，第三级分辨率为全分辨率。

步骤203：根据初始单应矩阵以及确定的N级分辨率，对视频图像进行金字塔匹配，根据金字塔匹配的结果确定目标在视频图像中的精确定位位置。

一个具体的实现中，按照N级分辨率对视频图像进行缩放，得到N级分辨率各自对应的N级视频图像，以及从预存的不同分辨率的模板图像中选取与得到的各级视频图像各自对应的N级模板图像；按照分辨率从低到高的顺序进行以下处理：根据第i+1级分辨率对应的初始位置，将第i+1级模板图像与第i+1级视频图像进行匹配，确定第i+1级模板图像映射至第i+1级视频图像的单应矩阵，其中，第1级分辨率为N级分辨率中的最低分辨率，第1级分辨率对应的初始位置根据初始单应矩阵确定，第i+1级分辨率对应的初始位置为根据第i级分辨率对应的单应矩阵确定，N>1，1≤i≤N-1；根据第N级分辨率对应的单应矩阵，确定目标在视频图像中的精确定位位置。

具体的说，在确定了分辨率级数以及每级的分辨率，则可以根据初始单应矩阵，对视频图像进行金字塔匹配。下面将以一个具体的例子进行说明金字塔匹配的过程。

例如，若使用情境为大角度拍摄，确定第一级分辨率为1/2分辨率，第二级分辨率为全分辨率。按照第一级分辨率对视频图像进行缩放，获得1/2分辨率的视频图像。在金子塔匹配中，预先存储有各级分辨率的模板图像，根据初始单应矩阵H0，计算模板图像在1/2分辨率的视频图像中的像素面积S1，从预存的各级分辨率的模板图像中选出与像素面积S1最接近的模板图像1，并将模板图像1作为与1/2分辨率的视频图像对应1/2分辨率的模板图像，由于第二级分辨率为全分辨率，则无需对视频图像进行缩放，直接选取全分辨率的模板图像作为全分辨率的视频图像对应的模板图像。

按照分辨率从低到高的顺序进行处理：根据初始单应矩阵H0，将1/2分辨率的模板图像映射到1/2分辨率的视频图像中，获取1/2分辨率的模板图像在1/2分辨率的视频图像中的初始位置，根据第一级分辨率对应的初始位置，将第一级模板图像与第一级视频图像进行匹配，确定第一级模板图像映射至第一级视频图像的单应矩阵H1，匹配过程与第一实施例中的匹配过程大致相同，此处将不再进行赘述。根据单应矩阵H1，将全分辨率的模板图像映射至全分辨率的视频图像中，获得第二级模板图像在第二级视频图像中的初始位置，根据第二级分辨率对应的初始位置，将第二级模板图像与第二级视频图像进行匹配，确定第二级模板图像映射至第二级视频图像的单应矩阵H2，通过单应矩阵H2，即可确定出第二级模板图像在第二级视频图像中的定位位置。

一个具体的实现中，确定了第N级分辨率对应的单应矩阵后，判断第N级分辨率是否为视频图像的全分辨率；若不是，则根据第N级分辨率对应的单应矩阵，采用全分辨率的模板图像与全分辨率的视频图像进行匹配，得到全分辨率对应的单应矩阵，并根据全分辨率对应的单应矩阵确定全分辨率的模板图像在全分辨率视频图像中的定位位置，并作为目标在视频图像中的精确定位位置；若是，则根据第N级分辨率对应的单应矩阵，确定全分辨率的模板图像在全分辨率视频图像中的定位位置，并作为目标在视频图像中的精确定位位置。

具体的说，若在金字塔匹配过程中，第N级分辨率不是全分辨率，则需要确定全分辨率的模板图像在全分辨率的视频图像中的定位位置。

如上述的例子，在确定出第二级分辨率对应的单应矩阵后，判断第二级分辨是否为全分辨率，由于判断出为第二级分辨率为全分辨率，因而可以直接将全分辨率的模板图像在全分辨率视频图像中的定位位置，作为目标在视频图像中的精确定位位置。

值得一提的是，将第i+1级模板图像与第i+1级视频图像进行匹配过程为：在第i+1级视频图像中搜寻与第i+1级模板图匹配的图像块，根据图像块确定第i+1级模板图像映射至第i+1级视频图像的单应矩阵，其中，匹配过程中使用图像块中的部分像素进行匹配。

具体的说，在第i+1级视频图像中搜寻与第i+1级模板图像匹配的图像块的过程，在第i+1级模板图像中找出一定数量的稳定特征点(如使用Harris角点的方式找寻特征点)，可以理解的是，为了便于快速在第i+1级视频图像中搜寻第i+1级模板图像中的特征点，匹配的图像块可以使用预设的形状，如圆形、矩形等。当然，为了进一步提高匹配的速度，匹配过程中使用图像块中的部分像素进行匹配，其中，使用图像块中的部分像素呈米字型或者X型分布，通过米字形或X型的像素分布。

与现有技术相比，本实施例提供的目标跟踪方法，在确定目标在视频图像中的精确定位位置的过程中采用金字塔匹配的方式，由于金字塔匹配的方式是一种分层级的匹配方式，先对低分辨率的视频图像进行匹配，再对高分辨率的视频图像进行匹配，不停更新该目标映射到视频图像中的单应矩阵，从而可以精确地确定出目标在视频该图像中的精确定位，同时，由于不是直接在全分辨的视频图像中搜寻全分辨率的模板图像，而是从低分辨率开始，并根据低分辨率级视频匹配获得的单应矩阵，可以快速地确定出全分辨的模板图像在全分辨率视频图像中初始位置，从而加快确定目标在视频图像中的精确定位位置。

本申请的第三实施例涉及一种目标跟踪方法，第三实施例是第二实施例的进一步改进，主要改进之处在于：本实施例中若精确定位位置为像素级坐标位置，则根据第N级分辨率对应的单应矩阵，确定目标在视频图像中的精确定位位置之后，获得亚像素级别的精确定位位置，获得亚像素级别的精确定位位置的具体流程如图3所示：

步骤301：获取精确定位位置的匹配度值，其中，匹配度值为目标的特征点与视频图像中图像块的特征点匹配的相似度值。

具体的说，由于视频图像是以像素为单位组成，确定的目标在视频图像中的精确定位置也为像素级坐标位置，但是，由于在实际中目标的特征点与视频图像中图像块的特征点匹配度值最高的位置可能是亚像素，因而，为了提高目标在视频图像中的精确定位位置的精确度，对像素级进行处理。精确定位位置的匹配度值可以在匹配过程获取。

步骤302：根据匹配度值，对精确定位位置进行亚像素处理，获得亚像素级别的精确定位位置。

一个具体的实现中，选取匹配度值最高的特征点对应的坐标；

根据选取的坐标构建高斯曲面；对高斯曲面进行拟合，获得亚像素级别的精确定位。

具体的说，根据选取匹配度值最高的特征点对应的像素级坐标构建二维高斯曲面，比如在匹配度值最高点周围取点，构建二维高斯曲面。并对构建的二维高斯曲面进行拟合，即可确定出亚像素级别的精确定位。像素级坐标变为亚像素级别坐标的效果如：点A为像素级坐标A(3,5)，经过处理后得到的亚像素级坐标A’(3.212，4.867)。

与现有技术相比，本实施例提供的方法，通过对精确定位位置进行亚像素处理，得到亚像素级精确定位位置，提高了精确定位位置的精度，进一步提高了确定的精确定位位置的精确度。

本申请的第四实施例涉及一种目标跟踪装置40，包括：第一获取模块401、第二获取模块402、图像缩小模块403、预测位置缩小模块404、粗略定位模块405和精确定位模块406，具体的结构如图4所示。

第一获取模块401用于获取一帧视频图像，以及获取目标在视频图像中的预测位置；第二获取模块402用于获取该目标的缩小的模板图像；图像缩小模块403根据缩小的模板图像和预测位置，确定视频图像的缩小比例，并将视频图像按照缩小比例缩小，得到缩小的视频图像；预测位置缩小模块404用于根据预测位置确定目标在缩小的视频图像中的预测位置；粗略定位模块405用于根据目标在缩小的视频图像中的预测位置，采用缩小的模板图像与缩小的视频图像进行匹配，确定缩小的模板图像在所述缩小的视频图像中的粗略定位位置的信息；精确定位模块406用于根据粗略定位位置的信息，确定目标在视频图像中的精确定位位置。

本实施例是与上述方法对应的虚拟装置实施例，上述方法实施例中技术细节在本实施例中依然适用，此处不再赘述。

需要说明的是，以上所述的装置实施例仅仅是示意性的，并不对本申请的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的，此处不做限制。

本申请的第五实施例涉及一种电子设备50，其结构如图5所示。包括：至少一个处理器501；以及，与至少一个处理器501通信连接的存储器502。存储器502存储有可被至少一个处理器501执行的指令。指令被至少一个处理器501执行，以使至少一个处理器501能够执行上述的目标跟踪方法。

存储器502和处理器501采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器501和存储器502的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器501。

处理器501负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器在执行操作时所使用的数据。

需要说明的是，本实施例中的处理器能够执行上述的方法实施例中实施步骤，具体的执行功能并未详细说明，可参见方法实施例中的技术细节，此处不再赘述。

本申请的第六实施例涉及一种计算机可读存储介质，该可读存储介质为计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，该计算机指令使计算机能够执行本申请第一或第二方法实施例中涉及的目标跟踪方法。

需要说明的是，本领域的技术人员能够理解，上述实施例中显示方法是通过程序来指令相关的硬件来完成的，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random-Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种目标跟踪方法，其中，包括：

获取一帧视频图像，以及获取目标在所述视频图像中的预测位置；

获取所述目标的缩小的模板图像；

根据所述缩小的模板图像和所述预测位置，确定所述视频图像的缩小比例，并将所述视频图像按照所述缩小比例缩小，得到缩小的视频图像；

其中，根据缩小的模板图像和所述预测位置，确定所述视频图像的缩小比例，具体包括：

根据所述预测位置，确定所述模板图像在所述视频图像中预估像素面积；

根据所述缩小的模板图像的像素面积和所述预估像素面积，确定所述视频图像的缩小比例；

根据所述预测位置确定所述目标在所述缩小的视频图像中的预测位置；

根据所述目标在所述缩小的视频图像中的预测位置，采用所述缩小的模板图像与所述缩小的视频图像进行匹配，确定所述缩小的模板图像在所述缩小的视频图像中的粗略定位位置的信息；

根据所述粗略定位位置的信息，确定所述目标在所述视频图像中的精确定位位置；

其中，所述根据所述目标在所述缩小的视频图像中的预测位置，采用所述缩小的模板图像与所述缩小的视频图像进行匹配，确定所述缩小的模板图像在所述缩小的视频图像中的粗略定位位置的信息，具体包括：

以所述目标在所述缩小的视频图像中的预测位置为起点，在所述缩小的视频图像中搜寻与所述缩小的模板图像匹配的图像块，根据所述匹配的图像块确定所述粗略定位位置的信息。

2.根据权利要求1所述的目标跟踪方法，其中，根据所述粗略定位位置的信息，确定所述目标在所述视频图像中的精确定位位置，具体包括：

根据所述粗略定位位置的信息，确定将所述缩小的模板图像映射至所述缩小的视频图像的初始单应矩阵；

根据所述初始单应矩阵，确定金字塔匹配过程中需要的N级分辨率，N为大于1的整数；

根据初始单应矩阵以及确定的N级分辨率，对所述视频图像进行所述金字塔匹配，根据所述金字塔匹配的结果确定所述目标在所述视频图像中的精确定位位置。

3.根据权利要求2所述的目标跟踪方法，其中，根据初始单应矩阵以及确定的N级分辨率，对所述视频图像进行金字塔匹配，确定所述目标在所述视频图像中的精确定位位置，具体包括：

按照所述N级分辨率对所述视频图像进行缩放，得到N级分辨率各自对应的N级视频图像，以及从预存的不同分辨率的模板图像中选取与得到的各级视频图像各自对应的N级模板图像；

按照分辨率从低到高的顺序进行以下处理：根据第i+1级分辨率对应的初始位置，将第i+1级模板图像与第i+1级视频图像进行匹配，确定第i+1级模板图像映射至第i+1级视频图像的单应矩阵，其中，第1级分辨率为所述N级分辨率中的最低分辨率，第1级分辨率对应的初始位置根据所述初始单应矩阵确定，第i+1级分辨率对应的初始位置为根据第i级分辨率对应的单应矩阵确定，N>1,1≤i≤N-1；

根据第N级分辨率对应的单应矩阵，确定所述目标在所述视频图像中的精确定位位置。

4.根据权利要求2所述的目标跟踪方法，其中，根据所述初始单应矩阵，确定金字塔匹配过程中需要的N级分辨率，具体包括：

根据所述初始单应矩阵，确定拍摄所述视频图像的使用情境，所述使用情境包括：拍摄的角度以及拍摄的距离；

根据所述使用情境，确定所述金字塔匹配过程中需要的N级分辨率。

5.根据权利要求3所述的目标跟踪方法，其中，根据第N级分辨率对应的单应矩阵，确定所述目标在所述视频图像中的精确定位位置，具体包括：

判断第N级分辨率是否为所述视频图像的全分辨率；

若不是，则根据所述第N级分辨率对应的单应矩阵，采用全分辨率的模板图像与全分辨率的视频图像进行匹配，得到全分辨率对应的单应矩阵，并根据所述全分辨率对应的单应矩阵确定全分辨率的模板图像在全分辨率视频图像中的定位位置，并作为所述目标在所述视频图像中的精确定位位置；

若是，则根据所述第N级分辨率对应的单应矩阵，确定全分辨率的模板图像在全分辨率视频图像中的定位位置，并作为所述目标在所述视频图像中的精确定位位置。

6.根据权利要求3所述的目标跟踪方法，其中，若所述精确定位位置为像素级坐标位置，则根据第N级分辨率对应的单应矩阵，确定所述目标在所述视频图像中的精确定位位置之后，所述目标的跟踪方法还包括：

获取所述精确定位位置的匹配度值，其中，匹配度值为所述目标的特征点与所述视频图像中图像块的特征点匹配的相似度值；

根据所述匹配度值，对所述精确定位位置进行亚像素处理，获得亚像素级别的精确定位位置。

7.根据权利要求6所述的目标跟踪方法，其中，根据所述匹配度值，对所述精确定位位置进行亚像素处理，获得亚像素级别的精确定位位置，具体包括：

选取匹配度值最高的特征点对应的坐标；

根据选取的坐标构建高斯曲面；

对所述高斯曲面进行拟合，获得亚像素级别的精确定位。

8.根据权利要求1所述的目标跟踪方法，其中，在确定所述目标在所述视频图像中的精确定位位置之后，所述目标的跟踪方法还包括：输出精确定位位置。

9.根据权利要求3所述的目标跟踪方法，其中，所述将第i+1级模板图像与第i+1级视频图像进行匹配，具体包括：

在所述第i+1级视频图像中搜寻与所述第i+1级模板图匹配的图像块，根据所述图像块确定第i+1级模板图像映射至第i+1级视频图像的单应矩阵，其中，匹配过程中使用所述图像块中的部分像素进行匹配。

10.根据权利要求8所述的目标跟踪方法，其中，所述匹配过程中使用所述图像块中的部分像素呈米字型或者X型分布。

11.根据权利要求1至10中任一项所述的目标跟踪方法，其中，所述缩小的模板图像为预存的所述目标的缩小的模板图像；

或者，

所述缩小的模板图像为目标的模板图像按照预设分辨率缩小后得到。

12.一种目标跟踪装置，其中，包括：第一获取模块、第二获取模块、图像缩小模块、预测位置缩小模块、粗略定位模块和精确定位模块；

所述第一获取模块用于获取一帧视频图像，以及获取目标在所述视频图像中的预测位置；

所述第二获取模块用于获取所述目标的缩小的模板图像；

所述图像缩小模块用于根据所述缩小的模板图像和所述预测位置，确定所述视频图像的缩小比例，并将所述视频图像按照所述缩小比例缩小，得到缩小的视频图像；其中，根据缩小的模板图像和所述预测位置，确定所述视频图像的缩小比例，具体包括：

预测位置缩小模块用于根据所述预测位置确定所述目标在所述缩小的视频图像中的预测位置；

粗略定位模块用于根据所述目标在所述缩小的视频图像中的预测位置，采用所述缩小的模板图像与所述缩小的视频图像进行匹配，确定所述缩小的模板图像在所述缩小的视频图像中的粗略定位位置的信息；

精确定位模块用于根据所述粗略定位位置的信息，确定所述目标在所述视频图像中的精确定位位置；

其中，所述粗略定位模块根据所述目标在所述缩小的视频图像中的预测位置，采用所述缩小的模板图像与所述缩小的视频图像进行匹配，确定所述缩小的模板图像在所述缩小的视频图像中的粗略定位位置的信息，具体包括：

13.一种电子设备，其中，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1~11任一项所述的目标跟踪方法。

14.一种计算机可读存储介质，存储有计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1~11任一项所述的目标跟踪方法。