CN109816694A

CN109816694A - 目标跟踪方法、装置及电子设备

Info

Publication number: CN109816694A
Application number: CN201910082670.5A
Authority: CN
Inventors: 韦昭
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-05-28
Anticipated expiration: 2039-01-28
Also published as: CN109816694B

Abstract

本发明提供了一种目标跟踪方法、装置及电子设备，属于图像处理技术领域。本发明提供的目标跟踪方法、装置及电子设备，可以通过获取包含待跟踪的目标对象的参考图像，然后对参考图像进行特征提取，得到目标对象的特征模板，根据特征模板，确定目标对象在当前视频图像帧中的图像坐标，进而确定目标对象的世界坐标。与现有技术的连通域轮询的方法相比，该方法的计算量小，计算速度快，可以提高目标跟踪的效率。

Description

目标跟踪方法、装置及电子设备

技术领域

本发明属于图像处理技术领域，尤其是涉及一种目标跟踪方法、装置及电子设备。

背景技术

在航天任务等一些应用中，为了更准确地对目标对象进行跟踪，通常在目标对象上设置靶标，通过图像处理的方式跟踪靶标。现有的目标跟踪方法主要采用如下步骤实现跟踪：对视频中的图像帧进行二值化处理和滤波等操作，得到噪声较少的二值图像，再通过全图范围的连通域轮询的方式筛选符合预设条件的连通域，该连通域即为目标对象对应的连通域，如果目标对象为靶标，预设条件可以根据靶标的几何形状或面积等参数确定。根据筛选出的连通域在二值图像中的坐标可以确定目标对象的图像坐标，再根据目标对象的图像坐标可以进一步确定目标对象的世界坐标。

采用上述方法进行目标跟踪时，对于视频中的每一个图像帧，都要进行一次二值化处理和连通域轮询计算，计算过程复杂，计算量大，因此会消耗较长的时间。

发明内容

有鉴于此，本发明的目的在于提供一种目标跟踪方法、装置及电子设备，可以提高目标跟踪的效率。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种目标跟踪方法，包括：

获取包含待跟踪的目标对象的参考图像；

对所述参考图像进行特征提取，得到所述目标对象的特征模板；

根据所述特征模板，确定所述目标对象在当前视频图像帧中的图像坐标；所述当前视频图像帧为待处理视频中包含所述目标对象的图像帧；

根据所述目标对象的图像坐标和采集所述待处理视频的图像采集设备的标定参数，确定所述目标对象的世界坐标。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，

获取包含待跟踪的目标对象的参考图像的步骤，包括：

将所述待处理视频中的图像帧展示给用户；

接收用户在所述待处理视频中的图像帧中选定的跟踪框；所述跟踪框中包含待跟踪的目标对象；

将所述跟踪框内的图像作为所述目标对象的参考图像。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，对所述参考图像进行特征提取，得到所述目标对象的特征模板的步骤，包括：

将所述参考图像输入特征提取模型中，得到所述目标对象的参考特征；所述目标对象的参考特征至少包括以下之一或组合：方向梯度直方图特征、颜色特征、深度特征；

根据所述目标对象的参考特征，生成所述目标对象的特征模板。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，所述特征提取模型包括并行的方向梯度直方图提取子模型、颜色特征提取子模型和/或深度特征提取子模型；将所述参考图像输入特征提取模型中，得到所述目标对象的参考特征的步骤，包括以下子步骤之一或组合：

通过所述方向梯度直方图提取子模型，从所述参考图像中提取所述目标对象的方向梯度直方图特征；

通过所述颜色特征提取子模型，从所述参考图像中提取所述目标对象的颜色特征；

通过所述深度特征提取子模型，从所述参考图像中提取所述目标对象的深度特征。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第四种可能的实施方式，其中，如果所述目标对象的参考特征包括以下任意两种或三种的组合：方向梯度直方图特征、颜色特征、深度特征；根据所述目标对象的参考特征，生成所述目标对象的特征模板的步骤，包括：

将所述目标对象的每个参考特征进行加权融合，得到所述目标对象的特征模板。

结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，根据所述特征模板，确定所述目标对象在当前视频图像帧中的图像坐标的步骤，包括：

根据所述特征模板，确定所述当前视频图像帧的特征响应图；所述特征响应图中包括多个特征响应值；

在所述特征响应图中选择最大的特征响应值；

将所述特征响应图映射至与所述当前视频图像帧相同的尺寸，确定所述最大的特征响应值在所述当前视频图像帧中对应的目标区域的位置；

根据所述目标区域的位置，确定所述目标对象的图像坐标。

结合第一方面的第五种可能的实施方式，本发明实施例提供了第一方面的第六种可能的实施方式，其中，根据所述特征模板，确定所述当前视频图像帧的特征响应图的步骤，包括：

分别将所述特征模板和所述当前视频图像帧映射至频域，得到频域特征模板和频域图像；

将所述频域特征模板和所述频域图像进行点积，得到所述当前视频图像帧的特征响应图。

结合第一方面的第五种可能的实施方式，本发明实施例提供了第一方面的第七种可能的实施方式，其中，根据所述特征模板，确定所述当前视频图像帧的特征响应图的步骤，包括：

将所述特征模板和所述当前视频图像帧进行循环卷积，得到所述当前视频图像帧的特征响应图。

结合第一方面，本发明实施例提供了第一方面的第八种可能的实施方式，其中，根据所述目标对象的图像坐标和采集所述待处理视频的图像采集设备的标定参数，确定所述目标对象的世界坐标的步骤，包括：

建立所述图像采集设备的相机坐标系、世界坐标系以及图像坐标系；

将所述目标对象在所述图像坐标系中的图像坐标转变为所述目标对象在所述相机坐标系中的相机坐标；

获取所述图像采集设备的内参和外参；

根据所述内参和外参，将所述目标对象在所述相机坐标系中的相机坐标转变为所述目标对象在所述世界坐标系中的世界坐标。

第二方面，本发明实施例还提供一种目标跟踪装置，包括：

参考图像获取模块，用于获取包含待跟踪的目标对象的参考图像；

特征模板生成模块，用于对所述参考图像进行特征提取，得到所述目标对象的特征模板；

图像坐标确定模块，用于根据所述特征模板，确定所述目标对象在当前视频图像帧中的图像坐标；所述当前视频图像帧为待处理视频中的图像帧；

世界坐标确定模块，用于根据所述目标对象的图像坐标和采集所述待处理视频的图像采集设备的标定参数，确定所述目标对象的世界坐标。

第三方面，本发明实施例提供了一种电子设备，包括存储器和处理器；所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。

本发明实施例提供了一种目标跟踪方法、装置及电子设备，可以通过获取包含待跟踪的目标对象的参考图像，然后对参考图像进行特征提取，得到目标对象的特征模板，根据特征模板，确定目标对象在当前视频图像帧中的图像坐标，进而确定目标对象的世界坐标。与现有技术的连通域轮询的方法相比，该方法的计算量小，计算速度快，可以提高目标跟踪的效率。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子设备的结构示意图；

图2示出了本发明实施例所提供的一种目标跟踪方法的流程图；

图3示出了本发明实施例所提供的一种确定图像坐标的方法的流程图；

图4示出了本发明实施例所提供的一种得到特征响应图的执行过程示意图；

图5示出了本发明实施例所提供的一种目标跟踪装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有的目标跟踪方法采用连通域重复轮询的方式获取目标对象的位置，该方法不仅计算量大而且耗时。为了提高目标跟踪的效率，本发明实施例提供了一种目标跟踪方法、装置及电子设备。其中，目标跟踪方法可以用于跟踪任意的目标对象，如人脸、人体的其它部位、车辆、动物、植物或者其它感兴趣的目标等。本发明实施例并不对具体的应用场景作限制，任何使用本发明实施例提供的目标跟踪方法进行目标跟踪或使用本发明实施例提供的网络模型进行目标跟踪的方案均在本发明保护范围内。

实施例一：

首先，参照图1来描述用于实现本发明实施例的目标跟踪方法的示例电子设备100。该示例电子设备100可以是监控设备，如道路监控设备；也可以是智能手机、平板电脑、相机等移动终端；还可以是计算机或服务器等其它设备。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及图像采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理器(CPU)、图形处理器(Graphics ProcessingUnit，GPU)或者具有数据处理能力、图像处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的图像分割功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种图像等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集设备110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储器104中以供其它组件使用。

实施例二：

本实施例提供了一种目标跟踪方法，可以提高目标跟踪方法的计算效率，图2示出了该目标跟踪方法的流程图；该需要说明的是，在图2的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。以下对本实施例进行详细介绍，另外，本发明提供的目标跟踪方法可以以跟踪目标对象在一段视频中的位置为目的进行跟踪。

如图2所示，本实施例提供的目标跟踪方法，包括如下步骤：

步骤S202，获取包含待跟踪的目标对象的参考图像。

在不同的实施例中，可以通过不同的方式获取参考图像。其中一种方式可以是获取预先存储的待跟踪的目标对象的参考图像。例如，可以获取预先存储在电子设备上的参考图像，也可以通过网络或其它方式获取预先存储在其它设备上的参考图像。另一种方式可以是通过电子设备的图像采集装置即时拍摄目标对象的参考图像。还有一种方式可以是直接从待处理视频中获取目标对象的参考图像。此处的待处理视频可以是预先存储的视频，也可以是电子设备的图像采集装置正在拍摄的视频。具体地，可以将待处理视频中的图像帧展示给用户，用户可以通过人机交互界面观看待处理视频的图像，并且可以在人机交互界面所展示的图像上拖拽出一个跟踪框。接收用户在待处理视频中的图像帧中选定的跟踪框，跟踪框中包含待跟踪的目标对象，将跟踪框内的图像作为目标对象的参考图像。其中，跟踪框可以为任意几何形状的图形，例如，方形、矩形等。

步骤S204，对参考图像进行特征提取，得到目标对象的特征模板。

可以采用卷积神经网络对参考图像进行特征提取，获取目标对象的特征模板。

步骤S206，根据特征模板，确定目标对象在当前视频图像帧中的图像坐标；当前视频图像帧为待处理视频中包含所述目标对象的图像帧。

根据特征模板，可以在当前视频图像帧中查找与特征模板相匹配的图像区域，将与特征模板相匹配的图像区域的坐标作为目标对象在当前视频图像帧中的图像坐标。

步骤S208，根据目标对象的图像坐标和采集待处理视频的图像采集设备的标定参数，确定目标对象的世界坐标。

其中，采集待处理视频的图像采集设备的标定参数为预先保存的已知数据，该标定参数可以包括图像采集设备的内参和外参。其中，内参是与图像采集设备的自身特性相关的参数，比如相机的焦距等。外参是图像采集设备在世界坐标系中的参数，比如安装位置、旋转方向等。

已知目标对象的图像坐标和图像采集设备的标定参数，通过坐标变换，可以确定目标对象的世界坐标。

本发明实施例提供的目标跟踪方法，可以通过获取包含待跟踪的目标对象的参考图像，然后对参考图像进行特征提取，得到目标对象的特征模板，根据特征模板，确定目标对象在当前视频图像帧中的图像坐标，进而确定目标对象的世界坐标。与现有技术的连通域轮询的方法相比，该方法的计算量小，计算速度快，可以提高目标跟踪的效率。

在一些实施例中，可以采用如下方法对参考图像进行特征提取：将参考图像输入特征提取模型中，得到目标对象的参考特征，根据目标对象的参考特征，生成目标对象的特征模板。其中，目标对象的参考特征可以包括以下至少之一或组合：方向梯度直方图特征、颜色特征、深度特征。

其中，方向梯度直方图(Histogram of Oriented Gradients，HOG)特征为一种在计算机视觉和图像处理中用来进行物体检测的特征描述子，通过计算图像的梯度直方图来描述物体的表观特征，包括图像的局部特征和全局特征。

特征提取模型可以包括方向梯度直方图提取子模型，通过方向梯度直方图提取子模型，可以从参考图像中提取目标对象的方向梯度直方图特征。方向梯度直方图提取子模型从参考图像中提取目标对象的方向梯度直方图特征的过程如下：

将参考图像进行颜色的归一化，以降低图像局部的阴影和光照变化所造成的影响。将归一化后的参考图像划分成多个子图，计算每个子图中像素的梯度值，综合多个子图的梯度值可以得到方向梯度直方图特征。方向梯度直方图特征对目标对象的特征描述准确，不易受到环境光线的影响，并且采用上述的方法计算方向梯度直方图特征，计算速度快。

颜色(Color Name，CN)特征在目标识别和检测领域已经得到广泛应用，将颜色特征应用于目标跟踪过程中，可以增强特征模板对目标对象的表征能力，并且颜色特征也具有一定的光学不变性。同时，颜色特征对目标对象具有一定的形变不变性，并且在目标对象模糊时仍具有一定的判别能力。特征提取模型可以包括颜色特征提取子模型，通过颜色特征提取子模型，可以从参考图像中提取目标对象的颜色特征。譬如，颜色特征提取子模型可以采用RGB颜色特征提取子模型、YUV颜色特征提取子模型或者HSV颜色特征提取子模型，本发明对此不做具体限制。以RGB颜色特征提取子模型为例，其工作过程为从参考图像中提取red、green、blue三个分量形成RGB颜色直方图，即颜色特征。

目标对象的深度特征可以通过深度特征提取子模型来获取。即特征提取模型可以包括深度特征提取子模型，通过深度特征提取子模型，可以从参考图像中提取目标对象的深度特征。深度特征提取子模型可以采用卷积神经网络(如CNN网络、VGG网络等)实现，卷积神经网络可以包括多个卷积层和连接在卷积层之后的全连接层。将参考图像输入到卷积神经网络中，可以得到目标对象的深度特征。另外，针对不同的目标对象，在进行目标跟踪的过程中，可以根据对当前视频图像帧的处理结果对卷积神经网络中的全连接层的参数进行微调，以使卷积神经网络在处理下一视频图像帧时可以取得更好的效果。

上述的方向梯度直方图特征、颜色特征和深度特征均可以理解为特征向量。

示例性的，特征提取模型可以仅包括方向梯度直方图提取子模型、颜色特征提取子模型或者深度特征提取子模型中的任意一个子模型，在该情况下，将参考图像输入特征提取模型中，得到目标对象的参考特征的步骤，可以包括：

或者，通过所述颜色特征提取子模型，从所述参考图像中提取所述目标对象的颜色特征；

或者，通过深度特征提取子模型，从所述参考图像中提取所述目标对象的深度特征。

根据得到的方向梯度直方图特征、颜色特征或者深度特征，可以生成目标对象的特征模板。

为了使特征模板可以将目标对象的特征表现得更完备，同时使特征模板对目标跟踪的影响因素判别能力更加全面，可以根据多个特征的组合，生成特征模板。示例性的，目标对象的参考特征可以包括以下任意一种组合：方向梯度直方图特征和颜色特征的组合、或者颜色特征和深度特征的组合、或者方向梯度直方图和深度特征的组合。对应的，特征提取模型可以包括并行的方向梯度直方图提取子模型和颜色特征提取子模型、或者颜色特征提取子模型和深度特征提取子模型、或者方向梯度直方图提取子模型和深度特征提取子模型。将参考图像输入特征提取模型中，得到目标对象的参考特征的步骤，可以包括：

通过所述方向梯度直方图提取子模型，从所述参考图像中提取所述目标对象的方向梯度直方图特征；并通过所述颜色特征提取子模型，从所述参考图像中提取所述目标对象的颜色特征。

或者，通过所述颜色特征提取子模型，从所述参考图像中提取所述目标对象的颜色特征；并通过所述深度特征提取子模型，从所述参考图像中提取所述目标对象的深度特征。

或者，通过所述方向梯度直方图提取子模型，从所述参考图像中提取所述目标对象的方向梯度直方图特征；并通过所述深度特征提取子模型，从所述参考图像中提取所述目标对象的深度特征。

在一种可选的实施例中，目标对象的参考特征可以包括以下三种参考特征的组合：方向梯度直方图特征、颜色特征和深度特征。即特征提取模型包括并行的方向梯度直方图提取子模型、颜色特征提取子模型和深度特征提取子模型。将参考图像输入特征提取模型中，得到目标对象的参考特征的步骤，可以包括：通过所述方向梯度直方图提取子模型，从所述参考图像中提取所述目标对象的方向梯度直方图特征；通过所述颜色特征提取子模型，从所述参考图像中提取所述目标对象的颜色特征；通过所述深度特征提取子模型，从所述参考图像中提取所述目标对象的深度特征。

如果目标对象的参考特征包括任意两种参考特征或三种参考特征的组合时，可以将目标对象的每个参考特征进行加权融合，得到目标对象的特征模板。其中，可以通过预先设定的权重值或注意力网络对目标对象的每个参考特征进行加权，其中，预先设定的权重值可以是经多次试验后得到不同参考特征对应的权重值。然后通过通道融合的方式将加权后的每个参考特征融合成一个特征模板。

采用多个参考特征融合形成的特征模板，与使用单一的参考特征相比，可以将目标对象的参考特征表达得更全面和更完备，提高特征模板对多种不同场景的判别力，提高目标跟踪的鲁棒性。

需要说明的是，本发明上述实施例中提到的参考特征的种类仅为示例性的，本发明还可以在此基础上增加其他的参考特征来形成特征模板，例如：SIFT特征、SURF特征、LBP特征、Haar特征等等。

上述特征模板生成过程中所使用的特征提取模型为预先训练好的，可以采用预先获取的训练图像样本集对特征提取模型进行训练。具体过程如下：获取训练图像样本集；训练图像样本集包括训练图像和训练图像对应的标定特征，每张训练图像中均包含目标对象；采用训练图像样本集对特征提取模型进行训练。由上文的描述可知，特征提取模型可以包括方向梯度直方图提取子模型、颜色特征提取子模型、深度特征提取子模型中的任意一个或者并行的组合，当其为并行的组合时，可以逐一对各个子模型进行训练或者模型整体进行训练，本发明对此并不作具体限制。

以下通过一个具体实例说明训练过程，在一种实施例中，特征提取模型包括并行的方向梯度直方图提取子模型、颜色特征提取子模型和深度特征提取子模型。从训练图像样本集中随机选择一张训练图像，获取该训练图像对应的标定特征。所述标定特征包括预先标定好的方向梯度直方图特征(以下称第一标定特征)、颜色特征(以下称第二标定特征)和深度特征(以下称第三标定特征)。将训练图像输入特征提取模型，通过方向梯度直方图提取子模型提取训练图像的方向梯度直方图特征，基于提取的方向梯度直方图特征和第一标定特征确定第一损失值。通过颜色特征提取子模型提取训练图像的颜色特征，基于提取的颜色特征和第二标定特征确定第二损失值。通过深度特征提取子模型提取训练图像的深度特征，基于提取的深度特征和第三标定特征确定第三损失值。基于第一损失值、第二损失值和第三损失值对特征提取模型进行训练。例如，可以计算第一损失值、第二损失值和第三损失值的加权和，作为整体损失值，即分别对第一损失值、第二损失值和第三损失值进行加权后求和，得到整体损失值；基于整体损失值调整特征提取模型的参数，所述参数可以包括方向梯度直方图提取子模型、颜色特征提取子模型和深度特征提取子模型的权重值。

得到目标对象的特征模板后，可以通过图3所示的步骤确定目标对象在当前视频图像帧中的图像坐标，包括：

步骤S2061：根据特征模板，确定当前视频图像帧的特征响应图。

其中，特征响应图中包括多个特征响应值。

在一种可选的实施例中，可以将特征模板和当前视频图像帧做循环卷积，得到当前视频图像帧的特征响应图。

在另一种可选的实施例中，可以采用图4的方式得到特征响应图，包括：首先分别将特征模板和当前视频图像帧映射至频域，例如，可以通过傅立叶变换将特征模板和当前视频图像帧映射至频域，得到频域特征模板和频域图像。然后将频域特征模板和频域图像进行点积，得到当前视频图像帧的特征响应图。其中，频域特征模板和频域图像进行点积是指按照频域特征模板和频域图像中相对应的元素进行相乘的方式进行点积，采用该方式可以极大的减少计算量，提供计算速度，节约时间成本。该方法根据卷积定理设计，卷积定理指出，函数卷积的傅立叶变换是函数傅立叶变换的乘积，由此可以得出，时域中的卷积对应于频域中的点积。

步骤S2062：在特征响应图中选择最大的特征响应值。

步骤S2063：将特征响应图映射至与当前视频图像帧相同的尺寸，确定最大的特征响应值在当前视频图像帧中对应的目标区域的位置。

一般情况下，得到的特征响应图的尺寸小于当前视频图像帧的原有尺寸，可以通过上采样的方式，将特征响应图的尺寸放大，映射至原有尺寸，进而可以根据最大的特征响应值在放大后的特征响应图中的位置，确定在当前视频图像帧中对应的目标区域的位置。

步骤S2064：根据目标区域的位置，确定目标对象的图像坐标。

其中，目标对象的图像坐标可以理解为目标对象在图像中的像素坐标。例如，可以将目标区域的中心像素点的坐标作为目标对象的图像坐标。在一些实施例中，如果目标对象为预先设定的靶标图形，可以将靶标图形中指定的靶标点的坐标作为目标对象的图像坐标，所述指定的靶标点可以包括多个靶标点。可以采用基于设定的靶标图形预先训练的靶标点检测网络，根据目标区域的位置，确定靶标点在当前视频图像帧中的坐标作为目标对象的图像坐标。

在一些实施例中，上述步骤S208可以通过如下的步骤实现：首先建立图像采集设备的相机坐标系、世界坐标系以及图像坐标系；然后将目标对象在图像坐标系中的图像坐标转变为目标对象在相机坐标系中的相机坐标；再获取图像采集设备的内参和外参；根据内参和外参，将目标对象在所述相机坐标系中的相机坐标转变为所述目标对象在所述世界坐标系中的世界坐标。可选地，通过上述方法还可以确定目标对象对应的各个像素点的坐标，根据目标对象对应的各个像素点的坐标，可以确定目标对象的位姿。

实施例三：

对应于上述方法实施例，本实施例提供了一种目标跟踪装置，参见图5所示的一种目标跟踪装置的结构示意图，该装置包括：

参考图像获取模块51，用于获取包含待跟踪的目标对象的参考图像；

特征模板生成模块52，用于对所述参考图像进行特征提取，得到所述目标对象的特征模板；

图像坐标确定模块53，用于根据所述特征模板，确定所述目标对象在当前视频图像帧中的图像坐标；所述当前视频图像帧为待处理视频中包含所述目标对象的图像帧；

世界坐标确定模块54，用于根据所述目标对象的图像坐标和采集所述待处理视频的图像采集设备的标定参数，确定所述目标对象的世界坐标。

其中，参考图像获取模块51，具体用于：

将所述待处理视频中的图像帧展示给用户；

将所述跟踪框内的图像作为所述目标对象的参考图像。

可选的，特征模板生成模块52，包括：

参考特征提取子模块，用于将所述参考图像输入特征提取模型中，得到所述目标对象的参考特征；所述目标对象的参考特征至少包括以下之一或组合：方向梯度直方图特征、颜色特征、深度特征；

特征模板生成子模块，用于根据所述目标对象的参考特征，生成所述目标对象的特征模板。

可选的，所述特征提取模型包括并行的方向梯度直方图提取子模型、颜色特征提取子模型和深度特征提取子模型；参考特征提取子模块，用于：

可选的，如果所述目标对象的参考特征包括以下任意两种或三种的组合：方向梯度直方图特征、颜色特征、深度特征；特征模板生成子模块，用于：

可选的，图像坐标确定模块53，包括：

特征响应图获取子模块，用于根据所述特征模板，确定所述当前视频图像帧的特征响应图；所述特征响应图中包括多个特征响应值；在所述特征响应图中选择最大的特征响应值；

图像坐标确定子模块，用于将所述特征响应图映射至与所述当前视频图像帧相同的尺寸，确定所述最大的特征响应值在所述当前视频图像帧中对应的目标区域的位置；根据所述目标区域的位置，确定所述目标对象的图像坐标。

可选的，特征响应图获取子模块，用于：

将所述特征模板和所述当前视频图像帧做循环卷积，得到所述当前视频图像帧的特征响应图。

可选的，世界坐标确定模块54，包括：

建立坐标系子模块，用于建立所述图像采集设备的相机坐标系、世界坐标系以及图像坐标系；

第一转变子模块，用于将所述目标对象在所述图像坐标系中的图像坐标转变为所述目标对象在所述相机坐标系中的相机坐标；

内外参获取子模块，用于获取所述图像采集设备的内参和外参；

第二转变子模块，用于根据所述内参和外参，将所述目标对象在所述相机坐标系中的相机坐标转变为所述目标对象在所述世界坐标系中的世界坐标。

可选的，所述装置还包括：

训练模块，用于获取训练图像样本集，所述训练图像样本集包括训练图像和所述训练图像对应的标定特征，采用所述训练图像样本集对特征提取模型进行训练。

本发明实施例提供了一种目标跟踪装置，可以通过获取包含待跟踪的目标对象的参考图像，然后对参考图像进行特征提取，得到目标对象的特征模板，根据特征模板，确定目标对象在当前视频图像帧中的图像坐标，当前视频图像帧为待处理视频中的图像帧，根据目标对象的图像坐标和采集待处理视频的图像采集设备的标定参数，确定目标对象的世界坐标，通过上述的过程，避免使用重复轮询的方式访问图像致使计算量增加的问题，可以提高目标跟踪方法的计算效率。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例还提供了一种电子设备，包括存储器和处理器。所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方法实施例所记载的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

进一步，本实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述前述方法实施例所提供的方法的步骤，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。

Claims

1.一种目标跟踪方法，其特征在于，包括：

获取包含待跟踪的目标对象的参考图像；

2.根据权利要求1所述的方法，其特征在于，获取包含待跟踪的目标对象的参考图像的步骤，包括：

将所述待处理视频中的图像帧展示给用户；

将所述跟踪框内的图像作为所述目标对象的参考图像。

3.根据权利要求1所述的方法，其特征在于，对所述参考图像进行特征提取，得到所述目标对象的特征模板的步骤，包括：

4.根据权利要求3所述的方法，其特征在于，所述特征提取模型包括并行的方向梯度直方图提取子模型、颜色特征提取子模型和/或深度特征提取子模型；将所述参考图像输入特征提取模型中，得到所述目标对象的参考特征的步骤，包括以下子步骤之一或组合：

5.根据权利要求3所述的方法，其特征在于，如果所述目标对象的参考特征包括以下任意两种或三种的组合：方向梯度直方图特征、颜色特征、深度特征；根据所述目标对象的参考特征，生成所述目标对象的特征模板的步骤，包括：

6.根据权利要求1所述的方法，其特征在于，根据所述特征模板，确定所述目标对象在当前视频图像帧中的图像坐标的步骤，包括：

在所述特征响应图中选择最大的特征响应值；

根据所述目标区域的位置，确定所述目标对象的图像坐标。

7.根据权利要求6所述的方法，其特征在于，根据所述特征模板，确定所述当前视频图像帧的特征响应图的步骤，包括：

8.根据权利要求6所述的方法，其特征在于，根据所述特征模板，确定所述当前视频图像帧的特征响应图的步骤，包括：

9.根据权利要求1所述的方法，其特征在于，根据所述目标对象的图像坐标和采集所述待处理视频的图像采集设备的标定参数，确定所述目标对象的世界坐标的步骤，包括：

获取所述图像采集设备的内参和外参；

10.一种目标跟踪装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括存储器和处理器；所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述权利要求1～9中任一项所述的方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至9中任一项所述的方法的步骤。