CN110796686A

CN110796686A - 目标跟踪方法及设备、存储装置

Info

Publication number: CN110796686A
Application number: CN201911037112.3A
Authority: CN
Inventors: 杨希; 李平生; 朱树磊
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-14
Anticipated expiration: 2039-10-29
Also published as: CN110796686B

Abstract

本申请公开了一种目标跟踪方法及设备、存储装置。其中，目标跟踪方法包括：获得至少一个目标分别在多帧参考图像的位置信息；基于每个目标的位置信息，利用预测模型预测得到目标在待跟踪图像中的预测位置，其中，待跟踪图像为参考图像后面的图像；基于预测位置，在待跟踪图像中搜索出目标的确定位置。上述方案，可实现利用少量参考图像即可预测目标在下一帧的预测位置，并使用该预测位置搜索出目标在待跟踪图像中的确定位置，提高了目标最终确定位置的准确性。

Description

目标跟踪方法及设备、存储装置

技术领域

本申请涉及图像处理技术领域，特别是涉及一种目标跟踪方法及设备、存储装置。

背景技术

目标跟踪可被定义为估计关注区域内目标个数和状态的过程，其中目标状态包括运动分量和属性信息，例如运动分量中的位置。目标跟踪主要任务中是给定一个图像序列，找到图像序列中的目标，并将不同帧的目标进行识别，也就是给定一个确定准确的ID，当然这些物体可以是任意的，如行人、车辆、各种动物等等。目标跟踪的应用领域包括智能监控、虚拟现实、高级人机交互、动作分析、自主导航及机器人视觉等，例如：智能监控应用领域的具体应用包括公共安全监控、停车场、超市、小区等。

由于实际场景的复杂多变，目标数量可能较多且流动随意性较大，导致目标的跟踪的连续性不佳，跟踪目标丢失或混淆的情况，进而影响后续目标位置的确定。有鉴于此，如何在图像序列中实现准确的目标跟踪，成为亟待解决的问题。

发明内容

本申请主要解决的技术问题是提供一种目标跟踪方法及设备、存储装置，能够实现准确的目标跟踪。

为了解决上述问题，本申请第一方面提供了一种目标跟踪方法，包括：获得至少一个目标分别在多帧参考图像的位置信息；基于每个目标的位置信息，利用预测模型预测得到目标在待跟踪图像中的预测位置，其中，待跟踪图像为参考图像后面的图像；基于预测位置，在待跟踪图像中搜索出目标的确定位置。

为解决上述问题，本申请第二方面提供了一种目标跟踪设备，包括：相互耦接的存储器和处理器；处理器用于执行存储器存储的程序指令，以实现上述第一方面的图像融合方法。

为解决上述问题，本申请第三方面提供了一种存储装置，其上存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面的图像融合方法。

上述方案中，获得至少一个目标分别在多帧参考图像的位置信息；基于每个目标的位置信息，利用预测模型预测得到目标在待跟踪图像中的预测位置，其中，待跟踪图像为参考图像后面的图像；基于预测位置，在待跟踪图像中搜索出目标的确定位置。通过上述方式，利用多帧参考图像的位置信息预测得到目标在下一帧的大致的预测位置，再使用该预测位置进一步搜索出目标在待跟踪图像中的确定位置，提高了目标最终确定位置的准确性。

附图说明

图1是本申请目标跟踪方法一实施例的流程示意图；

图2是本申请目标跟踪方法又一实施例的流程示意图；

图3是一实施例的一维位置轨迹序列示意图；

图4是图1中步骤S102一实施例的流程示意图；

图5是图1中步骤S103一实施例的流程示意图；

图6是本申请目标跟踪方法再一实施例的流程示意图；

图7是本申请目标跟踪设备一实施例的框架示意图；

图8是本申请目标跟踪设备一实施例的结构示意图；

图9是本申请存储装置一实施例的框架示意图；

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

请参阅图1，图1是本申请目标跟踪方法一实施例的流程示意图。具体而言，本实施例方法包括以下步骤：

步骤S101：获得至少一个目标分别在多帧参考图像的位置信息。

本文所述的参考图像指已确定目标的位置信息的图像。故，在参考图像中，可以明确知道目标所在的具体位置。在一些实施例中，可以选取待跟踪图像相邻的前面多帧图像作为本步骤中的多帧参考图像，例如，多帧参考图像是摄像器件拍摄的图像序列中的第1-5帧图像，待跟踪图像为第6帧图像。或者，也可以选择待跟踪图像间隔的前面多帧图像作为参考图像，例如，多帧参考图像是摄像器件拍摄的图像序列中的第1-4帧图像，待跟踪图像为第6帧图像。

使用本实施例方法进行目标跟踪时，初始的多帧参考图像，可以是由设定检测算法检测得到的，也可以是人为输入的。图像的获取方式可以是目标跟踪设备连接外部摄像器件后，通过该外部摄像器件拍摄得到；也可以是目标跟踪设备内设拍摄器件；还可以是其他现有的图像获取方式。其中，摄像器件用于拍摄得到包含目标的图像。

在利用本实施例方法根据多帧初始的参考图像预测得到下一帧图像的目标位置之后，该参考图像即可以为利用本方法实现目标跟踪的图像。也即，除首次的多帧参考图像为预先获得的外，后续在进行任意一帧图像的位置信息的预测时，参考图像可以包含利用本方法获得的图像。初始的参考图像数据，已经是较成熟的运算算法得到的或者人为输入较为准确的数据，而后续的参考图像数据中部分或者全部由利用本方法获得的图像，所以无需人工判别方法剔出错误数据。

可以理解的是，利用本实施例方法进行目标跟踪时，目标的数量可以是一个或多个，即，每帧参考图像和后续的待跟踪图像可以存在一个或多个目标。且目标的类型也不做任何限定，可以为行人、车辆、各种动物等等。

步骤S102：基于每个所述目标的所述位置信息，利用预测模型预测得到所述目标在所述待跟踪图像中的预测位置，其中，所述待跟踪图像为所述参考图像后面的图像。

本实施例中，预测模型可以实现时间序列信息的预测，建立目标在帧间的时空关系，根据目标位置在时间维度的序列预测未来的位置信息。预测模型可以是已进行离线预训练的应用模型，具体地，获取不同目标样本图像，其中，样本图像中的目标不作限定，可以是如行人、车辆、各种动物等等；获取不同目标连续多帧样本图像的位置信息作为样本数据，并对样本该样本数据进行标注，利用标注后的样本数据进行训练得到该预测模型。

本文所述的位置信息指用于表示目标在图像中位置的信息，例如为目标在图像中的坐标信息，另外，当目标对应在图像中多个像素点时，可选择目标的某些位置(如中心位置)上的像素点的坐标信息作为该目标的位置信息。例如，本步骤可包括：获取每个目标在每帧图像的至少两个边角位置信息；利用目标在每帧图像的至少两个边角位置信息，得到目标在对应图像中的中心位置信息。

在一实施例中，可以选择目标的左上角和右下角为边角位置信息，也可以选择左下角和右上角为边角位置信息，还可以是选择其他两个边角位置信息或者选择三个以上的边角位置信息的方式，在此不作限定。虽然边角位置信息的具体选择不同，但是均可以在对应图像中根据位置信息获得中心位置信息。中心位置信息是目标的中心位置。可以理解的是，本实施例是以目标的中心位置代表目标的位置，在其他实施例中，也可选择目标上任一位置代表目标的位置，在此不做限定。

步骤S103：基于所述预测位置，在所述待跟踪图像中搜索出所述目标的确定位置。

例如，基于预测位置在待跟踪图像中确定出一搜索区域，并在该搜索区域中搜索出与参考图像中的目标的图像信息匹配的位置，作为该目标在待跟踪区域确定位置，此时，即实现了待跟踪图像的目标跟踪。本实施例中，在待跟踪图像中搜索出目标的确定位置，该确定位置并非简单地通过时间序列预测后直接确定，而是通过搜索后在待跟踪图像中最终得以确定，更加贴合目标的实际位置情况，提高确定位置的准确性。在参考图像的基础上预测的预测位置仅作为产生提取表观的搜索区域，实质上仅为确定位置的初步预测。基于预测位置在待跟踪图像中搜索出目标的确定位置，避免使用单一时空信息得到目标的确定位置时产生误差逐帧累计，而最终丢失跟踪目标的情况。

可以理解的是，在得到该待跟踪图像的确定位置后，可将该待跟踪图像的下一帧图像作为新的待跟踪图像，且原来的待跟踪图像与其之前的一些参考图像组成新的参考图像，以继续执行本实施例方法以利用该新的参考图像的位置信息确定得到新的待跟踪图像的确定位置，以此类推，可不断迭代实现对除初始的参考图像以外的后续所有帧图像的目标跟踪。

本实施例中，利用多帧参考图像的位置信息，结合设有帧间的时空关系的预测模型，实现在已知轨迹信息中的时空关联来预测目标在下一帧的预测位置，并使用该预测位置搜索出目标在待跟踪图像中的确定位置。因为每一次下一帧图像中目标的确定位置的获取，都是基于预测位置在待跟踪图像中搜索得到的，协同使用时间序列和空间位置，所以每一帧图像中的确定位置都更加接近目标的实际位置情况，不会出现单一时空信息得到目标确定位置时误差逐渐变大、甚至丢失跟踪目标，因而提高了目标最终的确定位置的准确性。并且本方法仅利用少量几帧参考图像，就可以得到下一帧图像中目标的确定位置，明显降低了计算成本。

另外，当参考图像和待跟踪图像中包含的多个目标时，同样可以利用本实施例方法实现每个目标的跟踪，进而实现多个目标的准确跟踪，即使是复杂场景下多个目标的跟踪，因为并非简单地根据时间序列信息得到预测位置后直接用于待预测图像中的目标确定位置，而是利用预测位置还要进行搜索，协同使用时间序列和空间位置，大大提高了目标跟踪的准确性，所以目标数量增多，本方法依旧能够进行准确跟踪。

下面请参考图2来具体说明本申请目标跟踪方法另一实施例的具体实施步骤。本实施例方法包括以下步骤：

步骤S201：获得至少一个目标分别在多帧参考图像的位置信息。

本实施例中，位置信息包括第一轴坐标和第二轴坐标，例如第一轴坐标为平面直角坐标系中的x轴，第二轴坐标为平面直角坐标系中的y轴，其余描述与上述步骤S101相同。

步骤S202：将每个目标分别在所述多帧参考图像的位置信息组成所述目标的所述多帧参考图像中的位置轨迹数据。

本实施例中以跟踪A、B、C三个目标，参考图像有5帧，位置信息为选择目标的左上角和右下角得到中心位置信息进行举例说明。具体到单个目标在一帧图像中，目标左上角的位置信息坐标为(x₁,y₁)，目标右下角的位置信息坐标为(x₁’,y₁’)，若中心位置信息用P表示,则P＝[(x₁+x₁’)/2，(y₁+y₁’)/2]或简写为P＝(x₁_c，y₁_c)，同样获取其余帧图像中目标的中心位置信息，就可以得到单个目标在多帧参考图像中的位置信息，组成目标的多帧参考图像中的位置轨迹数据。

在一实施例中，将每个目标分别在多帧参考图像的第一轴坐标组成目标的多帧参考图像中的第一位置轨迹数据；以及将每个目标分别在多帧参考图像的第二轴坐标组成目标的多帧参考图像中的第二位置轨迹数据。

以本实施例的A目标以5帧参考图像获取位置轨迹数据为例，A目标在第一轴坐标x轴上的第一位置轨迹数据分别为x₁_c，x₂_c，x₃_c，x₄_c，x₅_c；A目标在第二轴坐标y轴上的第二位置轨迹数据分别为y₁_c，y₂_c，y₃_c，y₄_c，y₅_c。

步骤S203：将所述至少一个目标的位置轨迹数据组成至少一维的位置轨迹序列。

本实施例中，将至少一个目标的第一位置轨迹数据组成至少一维的第一位置轨迹序列；以及将至少一个目标的第二位置轨迹数据组成至少一维的第二位置轨迹序列。

用T_raj表示一目标的位置轨迹序列，T表示参考图像的帧数，P_T表示第T帧目标的中心位置信息，例如P_1＝[x₁_c，y₁_c]，那么可以得到T_raj＝[P_1,P_2,…,P_T]。单个目标在5帧图像的一维位置轨迹序列如图3所示，T表示参考图像的帧数，c_x,c_y分别代表目标轨迹的x,y坐标，图3中第二列即为一维的第一位置轨迹序列，第三列即为一维的第二位置轨迹序列。当目标为多个时，即由多个位置轨迹序列T_raj组成多维的位置轨迹序列。

本实施例中，待跟踪目标数量为A、B、C这3个，轨迹长度为5帧，预测变量包括x轴坐标和y轴坐标2个，所以最终数据维度为[3,5,2]。假设待跟踪的目标数量为N，轨迹数据长度为S，预测变量数为V，则输入的数据维度为[N,S,V]。

进一步地，位置轨迹数据在输入到预测模型之前，可以使用标准化方法对位置轨迹数据进行数据处理。由于每一帧图像的尺寸大小可能存在差异，在进行不同帧图像对比获得目标的位置信息时，容易产生错误，位置信息的变化状态不够直观，所以标准化位置轨迹数据让数据更直观。例如，一帧图像的尺寸大小为256*256，目标在该图像中的位置信息为40*40；靠后的另一帧图像的尺寸大小为512*512，目标在该图像中的位置信息为80*100。此时，如果直接用这两帧图像的位置信息就存在比例差异，于是，可以任意选择图像的某一点作为直角坐标系的原点，例如，每帧图像的左下角，并将每帧图像按比例调整为相同尺寸大小，在上述例子中，将一帧图像的尺寸大小调整为512*512，相应地，该图像中的位置信息变为80*80，此时两帧图像的尺寸大小一致，就可以清晰的知道，目标的位置从80*80变化到80*100。

步骤S204：将所述至少一维的位置轨迹序列输入至位置预测模型中进行预测，输出得到所述至少一个目标分别在所述多帧参考图像的待跟踪图像中的预测位置。

在一些实施例中，将至少一维的第一位置轨迹序列输入至预测模型中进行预测，输出得到至少一个目标分别在多帧参考图像的待跟踪图像中的第一轴预测坐标；以及将至少一维的第二位置轨迹序列输入至预测模型中进行预测，输出得到至少一个目标分别在多帧参考图像的待跟踪图像中的第二轴预测坐标。

当跟踪目标的数量为多个时，将多个目标的轨迹融合成多维的数据，在输入网络前分离成x，y两个方向进行预测。

本实施例中，位置预测模型为LSTM_RNN模型，该LSTM_RNN模型即为在RNN(Recurrent Neural Network，循环神经网络)基础上加入LSTM(Long Short-Term Memory，长短期记忆网络)结构的改进循环神经网络，可以学习连接长距离信息，可解决长序列训练过程中的梯度消失和梯度爆炸问题，并且支持多变量输入。使用LSTM_RNN预测的预测位置作为初步预测的参考，产生做表观特征的搜索区域。既有效利用了参考图像包含的时空信息，又避免了仅以此为预测最终结果的误差累计。另外，可以使用LSTM-RNN离线预训练在线更新用于产生提取表观的搜索区域的预测位置。

在一具体应用中，LSTM_RNN模型隐层含有50个神经元，输入多维的轨迹数据，损失函数采用MAE(Mean Absolute Error，平均绝对误差)，优化算法采用Adam，预训练1000步得到预训练模型，可达到较好的预测效果。以第一轴坐标x轴方向信息长度为5的序列输入为例，第一位置轨迹序列[x₁_c,x₂_c,x₃_c,x₄_c,x₅_c]输入到LSTM_RNN网络作为学习样本，预测得到x₆_c，即为目标在第6帧的x方向第一轴预测坐标。同理，对第二轴坐标y轴方向进行预测，可以预测得到目标的第二轴预测坐标，综合第一轴预测坐标和第二轴预测坐标，即可得到目标在二维平面上的预测位置。

步骤S205：基于所述预测位置，在所述待跟踪图像中搜索出所述目标的确定位置。

本步骤S205的说明可参阅上图1所示的步骤S103的具体描述，在此不做赘述。

本实施例，利用多帧参考图像在两个轴坐标的位置信息，在已知轨迹信息先组成位置轨迹数据，再组成位置轨迹序列，结合位置预测模型得到预测位置，并使用该预测位置搜索出目标在待跟踪图像中的确定位置。当然，在其他实施例中，目标在图像中的位置信息也可不为两个轴坐标，可以为三维坐标或采用其他信息来表示。另外，本实施例在目标为多个时，将多个目标的位置信息组合形成多维的位置轨迹序列，并输入至位置预测模型中，以直接输出多个目标在下一帧的预测位置，故可实现一次输入即可得到多目标的预测位置。

图2所示实施例给出一种实现上述步骤S102的方式，即预测模型为位置预测模型，该位置预测模型直接利用目标在参考图像中的位置信息预测得到目标在待跟踪图像中的预测位置。在另一实施例亦提供另一种实现上述步骤S102的方式，即该预测模型也可为速度预测模型，该速度预测模型利用目标在参考图像中的速度预测得到目标在待跟踪图像中的预测速度，进而利用该预测速度以及目标在参考图像中的位置信息确定目标在待跟踪图像中的预测位置。具体请参阅图4，上述步骤S102可以通过如下步骤进行实施：

步骤S1021：获取每个目标在多帧参考图像中的速度，并将每个目标分别在所述多帧参考图像的速度组成所述目标的所述多帧参考图像中的速度轨迹数据。

速度是一个矢量，有大小和方向。在一目标跟踪的应用中，被跟踪目标的速度也是一个比较重要的因素。

本实施例中以参考图像有5帧进行举例说明。具体到单个目标在5帧图像中的速度组成目标的多帧参考图像中的速度轨迹数据v₁，v₂，v₃，v₄，v₅。

步骤S1022：将所述至少一个目标的速度轨迹数据组成至少一维的速度轨迹序列。

与上述将至少一个目标的位置轨迹数据组成至少一维的位置轨迹序列类似，本实施例中，将位置轨迹数据换成速度轨迹数据，期望得到速度轨迹序列。

步骤S1023：将所述至少一维的速度轨迹序列输入至速度预测模型中进行预测，输出得到所述至少一个目标分别在所述多帧参考图像的待跟踪图像中的预测速度。

速度预测模型，可以选择实现时间序列信息的速度预测的网络模型，本领域的技术人员可根据现有技术进行速度预测模型选择，在此不作限定。速度预测模型可以仅利用少量帧的速度轨迹信息即可完成对下一帧的速度信息进行较为准确地预测。

步骤S1024：利用每个所述目标在多帧参考图像中的位置信息以及所述预测速度，得到每个所述目标在所述多帧参考图像的待跟踪图像中位置信息。

与上述实施例中，仅通过利用每个目标在多帧参考图像中的位置信息获得待跟踪图像中位置信息不同的是，本实施例获取跟踪目标的速度轨迹数据组成速度轨迹序列，并结合速度预测模型得到待跟踪图像中的预测速度后，最终待跟踪图像中的位置信息是其余帧的位置信息和预测速度共同获得，实现另一种待跟踪图像中位置信息的获取方式。例如，利用1-5帧参考图像中的速度，得到第6帧待预测图像中的预测速度，获取第5帧参考图像中目标的位置信息，基于此，以第5帧的目标的位置信息作为起点，利用预测速度的矢量特征，就可以得到第6帧待预测图像中的位置信息。

请参阅图5，图5为在另一实施例步骤S103的具体细化，本实施例中，步骤S103可以通过如下步骤进行实施：

步骤S1031：获取所述目标的参考图像信息，其中，所述参考图像信息为所述目标在一帧所述图像中对应的目标区域的图像信息。

在一具体应用中，获取参考图像信息时，可以选择任意一帧参考图像中的目标区域的图像信息作为参考图像信息，例如可与待跟踪图像相邻的一帧参考图像中的目标区域的图像信息作为参考图像信息。

参考图像信息可以每次迭代更新进行一次获取，也即进行一次待跟踪图像中目标确定位置的确定，就进行一次参考图像信息的获取(例如获取本次待跟踪图像相邻的一帧参考图像的目标区域的图像信息)，基于此，每次待跟踪图像中目标的位置确定时，参考图像信息在时间维度上更接近待跟踪图像，可以提高目标跟踪的准确性。参考图像信息的获取是一个动态过程，每次进行位置预测之前，都以参考图像中的任意一帧图像中目标区域作为参考图像信息。

参考图像信息也可以在首次利用本方法对一图像序列进行目标跟踪时，以初始的参考图像中的任意一帧图像(例如选择初始的多帧参考图像中的最后一帧参考图像)的目标区域的图像信息作为该图像序列中后续每一帧待跟踪图像的标准参考图像信息，也即，一旦第一次确定一个标准参考图像信息后，后续所有待跟踪图像中目标的确定位置获取操作中，都以该标准参考图像信息为参考图像信息。所有目标区域的图像信息只需要一次前向，将参考图像信息固定化，每一次迭代都统一参考图像信息，便可以节约大量的获取参考图像信息的处理时间和处理资源。

步骤S1032：在所述待跟踪图像中确定以所述目标的预测位置为中心的搜索区域，其中，所述搜索区域的尺寸大于所述目标区域。

例如，以目标的预测位置为中心，向外扩大一定倍数后得到比目标区域大的搜索区域。一方面，搜索区域的中心是前序步骤中通过预测模型得到的预测位置，这样有效利用了目标轨迹包含的时空信息；另一方面，本方法利用预测位置为中心得到搜索区域，避免仅以预测位置为最终确定位置的误差累计。

利用预测位置作为中心位置得到搜索区域时，表明目标实际存在的位置就在预测位置的附近，此时将搜索区域与参考图像信息进行比对，已经将最终确定位置的可能区域范围缩小了一部分，相对于全图像对比节省了大量时间，同时也大大提高确定位置的获取精度。

步骤S1033：将所述参考图像信息和所述搜索区域中的图像信息输入至匹配模型进行对比，以从所述搜索区域中查找出与所述目标区域之间的特征相似度符合预设条件的确定区域。

本实施例中，匹配模型可以是共享卷积网络权重的全卷积网络。例如，可利用孪生卷积(Siamese)网络可以对比参考图像信息和搜索区域中的图像信息的特征相似度，具体地，以参考图像信息作为一路输入，以搜索区域中的图像信息作为另一路输入，经过作为匹配模型的孪生卷积网络，输出对比处理后的数据，便于从搜索区域中查找出确定区域。使用精简的孪生网络，使用目标区域在搜索区域特征图上滑动产生相关响应，找到最大响应，相比于大而深的深度网络，简化的孪生网络在线预测计算量小，速度快，最大响应定位准确，更适合目标跟踪对于实时性的要求。

匹配模型在对比过程中，可以将相似度最高作为预设条件，也可以将参考图像信息和搜索区域中的图像信息的匹配误差小于设定阈值作为预设条件，因而预设条件可根据具体情况进行设置，不作特别限定。

在一些实施例中，将参考图像信息和搜索区域中的图像信息输入至匹配模型进行深度特征对比，以输出得到反映搜索区域中的不同子区域与目标区域之间相似度的相关响应图，其中，相关响应图的响应值越大，搜索区域的对应子区域与目标区域的相似度越高；将相关响应图进行双线性插值，得到与搜索区域尺寸相同的特征图；将特征图中响应值最大对应的区域作为目标在搜索区域内的确定区域。

通常在进行目标描述时，目标的特征包括颜色、边缘、纹理和光流等。不同图像区域，对应像素的灰阶值不同，从而可以提取图像的特征信息对不同目标加以区别。匹配模型将参考图像信息和搜索区域中的图像信息的深度特征进行对比，利用深度特征信息可以更加准确地形成对比，输出相关响应图。

相关响应图可以反映整个搜索区域中不同子区域与目标区域的相似度大小，可视化地呈现出与目标区域相似度最大的区域位置，使得目标最终位置的确定更加方便。相关响应图经过双线性插值后，得到与搜索区域尺寸相同的特征图，在该图上找到最大响应值即为目标在搜索区域内的确定区域。

在一具体应用中，以使用孪生卷积网络来获得确定区域为例。例如，目标区域有目标的深度特征信息。目标区域的尺寸为127*127，搜索区域的尺寸为255*255，经过孪生卷积网络后分别得到6*6的对应目标区域的相关滤波核和22*22的对应搜索区域的搜索区域特征图，相比于最初127*127的目标区域在255*255的搜索区域进行相似度对比而言，现在仅需要6*6的相关滤波核在22*22的搜索区域特征图进行相似度对比，实际对比区域面积明显缩小，有效节省了处理时间。利用精简的孪生卷积网络进行相似度比较时，相关滤波核在搜索区域特征图中进行相关滤波操作，按照一定滑动规律完成所有区域对比，得到17*17的相关响应图，将该相关响应图经过双线性插值为255*255的与搜索区域尺寸相同的特征图，在该图上找到最大响应值即为目标在搜索区域内的确定区域。其中，相关滤波核和搜索区域特征图的尺寸大小与网络结构相关，孪生卷积网络的网络结构为本领域中的现有技术，本实施例在此也不再赘述。

另外，对于多目标只需要在初始参考图像的待跟踪目标进行一次特征提取，将该特征一一保存作为目标的目标区域。此后每帧只需要对目标对应的搜索区域经过孪生卷积网络的一个分支提取特征得到搜索区域特征图，再使用目标区域的相关滤波核在搜索区域特征图上进行相关滤波。单分支更新的孪生卷积网络，将提取目标表观特征的成本降低，经过最大响应位置的搜索，准确定位目标在搜索区域的确定区域。

步骤S1034：基于所述目标的确定区域得到所述目标在所述待跟踪图像中的确定位置。

在本实施例中，将目标在搜索区域内的确定区域映射到待跟踪图像上，得到目标在待跟踪图像中的确定位置。承接步骤步骤S1033中的实际应用举例，本步骤将步骤S1033中确定区域相对于255*255的搜索区域的位置关系，映射为确定位置相对于待跟踪图像的位置关系，由此得到目标最终的确定位置。

本实施例中，利用预测位置作为中心位置得到搜索区域时，表明目标实际存在的位置就在预测位置的附近，此时将搜索区域与参考图像信息进行比对，已经将最终确定位置的可能区域范围缩小了一部分，相对于全图像对比节省了大量时间，同时也大大提高确定位置的获取精度。实际应用孪生卷积网络中，在前述基础上，又将目标区域和搜索区域再次进行缩小，得到相关滤波核和搜索区域特征图。利用相关滤波核在搜索区域特征图中进行相关滤波得到相关响应图。相关响应图中最大响应值对应的位置为目标所在区域，将相关响应图经过双线性插值为搜索区域，搜索区域最大响应值处即为目标在搜索区域内的相对位置，再经过映射即可得到目标在全局图像上的确定位置。

本申请还提供再一实施例，请参阅图6，本实施例方法包括如下步骤：

步骤S301：获得至少一个目标分别在多帧参考图像的位置信息。

步骤S302：基于每个所述目标的所述位置信息，利用预测模型预测得到所述目标在所述待跟踪图像中的预测位置，其中，所述待跟踪图像为所述参考图像后面的图像。

步骤S303：基于所述预测位置，在所述待跟踪图像中搜索出所述目标的确定位置。

上述步骤S301-步骤S303与上述步骤S101-步骤S103相同，在此不再赘述。

步骤S304：将所述待跟踪图像作为新的参考图像，并利用所述新的参考图像以及前面N-1帧参考图像组成新的所述N帧参考图像。

除初始的多帧参考图像为预先直接获得的外，后续在进行任意一帧图像的位置信息的预测时，参考图像可以包含利用本方法获得的图像。例如，每次利用5帧图像作为参考图像时，最初1-5帧作为参考图像，获得第6帧图像后，第6帧图像与2-5帧图像一起作为第7帧图像的参考图像。

步骤S305：利用每个所述目标在原来的所述N帧图像中的位置形成所述目标的参考轨迹，以及利用每个所述目标在新的所述N帧图像中的位置形成预测轨迹。

参考轨迹由原参考图像中的位置信息连接形成，例如，参考轨迹涉及的图像为最初的1-5帧参考图像。预测轨迹由新参考图像中的位置信息连接形成，预测轨迹其实质是原参考图像形成的图像和与其邻近的部分原参考图像的位置信息连接形成，例如预测轨迹涉及的图像为2-6帧参考图像，其中，第6帧图像是1-5帧图像作为参考图像预测得到的。

步骤S306：按照重合度将所述参考轨迹和所述预测轨进行匹配，并将匹配的参考轨迹和所述预测轨迹的位置信息确定为同一目标的位置信息。

可以理解的，目标跟踪过程中，影响预测位置准确性的因素非常多，例如，目标的数量、流动变化、跟踪时间、复杂的外部环境等，因而目标跟踪设备可能无法准确判断轨迹与目标的对应关系，或者每条轨迹对应于多个目标中的具体哪一个。不同目标的轨迹不完全相同，利用参考轨迹和预测轨迹匹配的重合度，确定位置信息是否归属于同一目标，以及明确轨迹与目标的对应关系，进一步提高了目标跟踪的准确性。

在一实施例中，所述按照重合度将所述参考轨迹和所述预测轨进行匹配，包括：利用LCSS算法将每条所述参考轨迹与每条所述预测轨迹进行比较，得到每条所述参考轨迹与每条所述预测轨迹之间的最大公共子串；将存在长度为N-1的最大公共子串的参考轨迹和预测轨迹确定为匹配的所述参考轨迹和预测轨迹。

LCSS算法是一种基于轨迹数据衡量相似度的算法，可以计算每条所述参考轨迹与每条所述预测轨迹之间的最大公共子串，满足多目标轨迹匹配的需求。以一个目标为例，1-5帧的位置数据组成参考轨迹，1-5帧作为参考图像并利用步骤S301-步骤S303得到第6帧的确定位置，从而2-6帧的位置数据组成预测轨迹，将1-5帧的参考轨迹与2-6帧的预测轨迹输入LCSS算法进行比较，若存在2-5帧的最大公共子串，则1-5帧的参考轨迹与2-6帧的预测轨迹是匹配的，为同一目标的轨迹，从而完成目标与轨迹的关联。设计基于LCSS算法的轨迹匹配策略进行数据筛选与目标关联，以实现准确地目标跟踪。

步骤S307：执行所述获得至少一个目标分别在多帧参考图像的位置信息及其后续步骤。

循环执行获得至少一个目标分别在多帧参考图像的位置信息及其后续步骤，仅需要少量帧图像，就可以利用本方法预测得到后续待跟踪图像中目标的确定位置，实现目标的跟踪。很明显采用本方法的目标跟踪，参考图像数据少，节省了计算量，提高了处理速度。

请参阅图7，图7为本申请目标跟踪设备一实施例的框架示意图。具体而言，本实施例中目标跟踪设备包括相互耦接的存储器710和处理器720。其中，存储器710用于存储的程序指令以及处理器720处理时所需存储的数据。

处理器720控制存储器710及其自身以实现上述目标跟踪方法任一实施例的步骤。处理器720还可以称为CPU(Central Processing Unit，中央处理单元)。处理器720可能是一种集成电路芯片，具有信号的处理能力。处理器720还可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器720可以由多个成电路芯片共同实现。

在一实施例中，目标跟踪设备还可以进一步包括摄像器件730，处理器720还用于控制摄像器件730，以使摄像器件730对目标场景拍摄，得到包含所述目标的图像。在另一实施例中，目标跟踪设备也可以不包括摄像器件730，目标跟踪设备包括通信电路，处理器720通过通信电路与外部摄像器件连接，以获取得到摄像器件拍摄得到的包含目标的图像。

请参阅图8，图8为本申请目标跟踪设备一实施例的结构示意图。如图8所示，该装置800包括获取模块810、预测模块820和搜索模块83。

获取模块810用于获得至少一个目标分别在多帧参考图像的位置信息。

预测模块820用于基于每个所述目标的所述位置信息，利用预测模型预测得到所述目标在所述待跟踪图像中的预测位置，其中，所述待跟踪图像为所述参考图像后面的图像。

搜索模块830用于基于所述预测位置，在所述待跟踪图像中搜索出所述目标的确定位置。

在一实施例中，预测模块820包括：第一组成单元，用于将每个目标分别在所述多帧参考图像的位置信息组成所述目标的所述多帧参考图像中的位置轨迹数据；第二组成单元，用于将所述至少一个目标的位置轨迹数据组成至少一维的位置轨迹序列；预测单元，用于将所述至少一维的位置轨迹序列输入至位置预测模型中进行预测，输出得到所述至少一个目标分别在所述多帧参考图像的待跟踪图像中的预测位置。

其中，当采用LSTM_RNN网络作为位置预测模型时，第一组成单元可具体用于：将每个目标分别在所述多帧参考图像的第一轴坐标组成所述目标的所述多帧参考图像中的第一位置轨迹数据；以及将每个目标分别在所述多帧参考图像的第二轴坐标组成所述目标的所述多帧参考图像中的第二位置轨迹数据；第二组成单元可具体用于：将所述至少一个目标的第一位置轨迹数据组成至少一维的第一位置轨迹序列；以及将所述至少一个目标的第二位置轨迹数据组成至少一维的第二位置轨迹序列；预测单元可具体用于：将所述至少一维的第一位置轨迹序列输入至所述预测模型中进行预测，输出得到所述至少一个目标分别在所述多帧参考图像的待跟踪图像中的第一轴预测坐标；以及将所述至少一维的第二位置轨迹序列输入至所述预测模型中进行预测，输出得到所述至少一个目标分别在所述多帧参考图像的待跟踪图像中的第二轴预测坐标。

在一实施例中，预测模块820还用于：获取每个所述目标在多帧参考图像中的速度，并将每个目标分别在所述多帧参考图像的速度组成所述目标的所述多帧参考图像中的速度轨迹数据；将所述至少一个目标的速度轨迹数据组成至少一维的速度轨迹序列；将所述至少一维的速度轨迹序列输入至速度预测模型中进行预测，输出得到所述至少一个目标分别在所述多帧参考图像的待跟踪图像中的预测速度；利用每个所述目标在多帧参考图像中的位置信息以及所述预测速度，得到每个所述目标在所述多帧参考图像的待跟踪图像中位置信息。

在一实施例中，获取模块810可具体用于：获取每个目标在每帧图像的至少两个边角位置信息；利用所述目标在每帧图像的至少两个边角位置信息，得到所述目标在对应所述图像中的中心位置信息。

在一实施例中，搜索模块830包括：第一获取单元，用于获取所述目标的参考图像信息，其中，所述参考图像信息为所述目标在一帧所述图像中对应的目标区域的图像信息；确定单元，在所述待跟踪图像中确定以所述目标的预测位置为中心的搜索区域，其中，所述搜索区域的尺寸大于所述目标区域；对比单元，用于将所述参考图像信息和所述搜索区域中的图像信息输入至匹配模型进行对比，以从所述搜索区域中查找出与所述目标区域之间的特征相似度符合预设条件的确定区域；第二获取单元，用于基于所述目标的确定区域得到所述目标在所述待跟踪图像中的确定位置。

其中，对比单元具体用于：所述将所述参考图像信息和所述搜索区域中的图像信息输入至所述匹配模型进行深度特征对比，以输出得到反映所述搜索区域中的不同子区域与所述目标区域之间相似度的相关响应图，其中，所述相关响应图的响应值越大，所述搜索区域的对应子区域与所述目标区域的相似度越高；将所述相关响应图进行双线性插值，得到与所述搜索区域尺寸相同的特征图；将所述特征图中响应值最大对应的区域作为所述目标在所述搜索区域内的确定区域。第二获取单元可具体用于：将所述目标在所述搜索区域内的确定区域映射到所述待跟踪图像上，得到所述目标在所述待跟踪图像中的确定位置。

在一实施例中，所述多帧参考图像的帧数为N，所述N为大于1的整数；所述图像中的目标数量为多个时，装置800还包括匹配模块(图未示)，在搜索模块830在所述待跟踪图像中搜索出所述目标的确定位置之后，匹配模块具体用于：将所述待跟踪图像作为新的参考图像，并利用所述新的参考图像以及前面N-1帧参考图像组成新的所述N帧参考图像；利用每个所述目标在原来的所述N帧图像中的位置形成所述目标的参考轨迹，以及利用每个所述目标在新的所述N帧图像中的位置形成预测轨迹；按照重合度将所述参考轨迹和所述预测轨进行匹配，并将匹配的参考轨迹和所述预测轨迹的位置信息确定为同一目标的位置信息；执行所述获得至少一个目标分别在多帧参考图像的位置信息及其后续步骤。

其中，匹配模块用于按照重合度将所述参考轨迹和所述预测轨进行匹配时，具体为：利用LCSS算法将每条所述参考轨迹与每条所述预测轨迹进行比较，得到每个所述参考轨迹与每条所述预测轨迹之间的最大公共子串；将存在长度为N-1的最大公共子串的参考轨迹和预测轨迹确定为匹配的所述参考轨迹和预测轨迹。

请参阅图9，图9为本申请存储装置900一实施例的框架示意图。本申请存储装置900存储有能够被处理器运行的程序指令910，程序指令910用于实现上述任一目标跟踪方法的实施例中步骤。

该存储装置900具体可以为U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等可以存储程序指令910的介质，或者也可以为存储有该程序指令910的服务器，该服务器可将存储的程序指令910发送给其他设备运行，或者也可以自运行该存储的程序指令910。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种目标跟踪方法，其特征在于，包括：

获得至少一个目标分别在多帧参考图像的位置信息；

基于每个所述目标的所述位置信息，利用预测模型预测得到所述目标在所述待跟踪图像中的预测位置，其中，所述待跟踪图像为所述参考图像后面的图像；

基于所述预测位置，在所述待跟踪图像中搜索出所述目标的确定位置。

2.根据权利要求1所述的方法，其特征在于，所述基于每个所述目标的所述位置信息，利用预测模型预测得到所述目标在所述多帧参考图像的待跟踪图像中的预测位置，包括：

将每个目标分别在所述多帧参考图像的位置信息组成所述目标的所述多帧参考图像中的位置轨迹数据；

将所述至少一个目标的位置轨迹数据组成至少一维的位置轨迹序列；

将所述至少一维的位置轨迹序列输入至位置预测模型中进行预测，输出得到所述至少一个目标分别在所述多帧参考图像的待跟踪图像中的预测位置。

3.根据权利要求2所述的方法，其特征在于，所述位置预测模型为LSTM_RNN模型；所述位置信息包括第一轴坐标和第二轴坐标；所述将每个目标分别在所述多帧参考图像的位置信息组成所述目标的所述多帧参考图像中的位置轨迹数据，包括：

将每个目标分别在所述多帧参考图像的第一轴坐标组成所述目标的所述多帧参考图像中的第一位置轨迹数据；以及将每个目标分别在所述多帧参考图像的第二轴坐标组成所述目标的所述多帧参考图像中的第二位置轨迹数据；

所述将所述至少一个目标的位置轨迹数据组成至少一维的位置轨迹序列，包括：

将所述至少一个目标的第一位置轨迹数据组成至少一维的第一位置轨迹序列；以及将所述至少一个目标的第二位置轨迹数据组成至少一维的第二位置轨迹序列；

所述将所述至少一维的位置轨迹序列输入至所述预测模型中进行预测，输出得到所述至少一个目标分别在所述多帧参考图像的待跟踪图像中的预测位置，包括：

将所述至少一维的第一位置轨迹序列输入至所述预测模型中进行预测，输出得到所述至少一个目标分别在所述多帧参考图像的待跟踪图像中的第一轴预测坐标；以及将所述至少一维的第二位置轨迹序列输入至所述预测模型中进行预测，输出得到所述至少一个目标分别在所述多帧参考图像的待跟踪图像中的第二轴预测坐标。

4.根据权利要求1所述的方法，其特征在于，所述基于每个所述目标的所述位置信息，利用预测模型预测得到所述目标在所述多帧参考图像的待跟踪图像中的预测位置，包括：

获取每个所述目标在多帧参考图像中的速度，并将每个目标分别在所述多帧参考图像的速度组成所述目标的所述多帧参考图像中的速度轨迹数据；

将所述至少一个目标的速度轨迹数据组成至少一维的速度轨迹序列；

将所述至少一维的速度轨迹序列输入至速度预测模型中进行预测，输出得到所述至少一个目标分别在所述多帧参考图像的待跟踪图像中的预测速度；

利用每个所述目标在多帧参考图像中的位置信息以及所述预测速度，得到每个所述目标在所述多帧参考图像的待跟踪图像中位置信息。

5.根据权利要求1所述的方法，其特征在于，所述获得每个所述目标分别在所述多帧参考图像的位置信息，包括：

获取每个目标在每帧图像的至少两个边角位置信息；

利用所述目标在每帧图像的至少两个边角位置信息，得到所述目标在对应所述图像中的中心位置信息。

6.根据权利要求1所述的方法，其特征在于，所述基于所述预测位置，在所述待跟踪图像中搜索出所述目标的确定位置，包括：

获取所述目标的参考图像信息，其中，所述参考图像信息为所述目标在一帧所述图像中对应的目标区域的图像信息；

在所述待跟踪图像中确定以所述目标的预测位置为中心的搜索区域，其中，所述搜索区域的尺寸大于所述目标区域；

将所述参考图像信息和所述搜索区域中的图像信息输入至匹配模型进行对比，以从所述搜索区域中查找出与所述目标区域之间的特征相似度符合预设条件的确定区域；

基于所述目标的确定区域得到所述目标在所述待跟踪图像中的确定位置。

7.根据权利要求6所述的方法，其特征在于，所述将所述参考图像数据和所述搜索区域中的图像数据输入至所述匹配模型进行对比，以从所述搜索区域中查找出与所述目标区域之间的特征相似度符合预设条件的确定区域，包括：

所述将所述参考图像信息和所述搜索区域中的图像信息输入至所述匹配模型进行深度特征对比，以输出得到反映所述搜索区域中的不同子区域与所述目标区域之间相似度的相关响应图，其中，所述相关响应图的响应值越大，所述搜索区域的对应子区域与所述目标区域的相似度越高；

将所述相关响应图进行双线性插值，得到与所述搜索区域尺寸相同的特征图；

将所述特征图中响应值最大对应的区域作为所述目标在所述搜索区域内的确定区域；

所述基于所述目标的确定区域得到所述目标在所述待跟踪图像中的确定位置，包括：

将所述目标在所述搜索区域内的确定区域映射到所述待跟踪图像上，得到所述目标在所述待跟踪图像中的确定位置。

8.根据权利要求1所述的方法，其特征在于，所述多帧参考图像的帧数为N，所述N为大于1的整数；所述图像中的目标数量为多个；

在所述基于所述预测位置，在所述待跟踪图像中搜索出所述目标的确定位置之后，所述方法还包括：

将所述待跟踪图像作为新的参考图像，并利用所述新的参考图像以及前面N-1帧参考图像组成新的所述N帧参考图像；

利用每个所述目标在原来的所述N帧图像中的位置形成所述目标的参考轨迹，以及利用每个所述目标在新的所述N帧图像中的位置形成预测轨迹；

按照重合度将所述参考轨迹和所述预测轨进行匹配，并将匹配的参考轨迹和所述预测轨迹的位置信息确定为同一目标的位置信息；

执行所述获得至少一个目标分别在多帧参考图像的位置信息及其后续步骤。

9.根据权利要求8所述的方法，其特征在于，所述按照重合度将所述参考轨迹和所述预测轨进行匹配，包括：

利用LCSS算法将每条所述参考轨迹与每条所述预测轨迹进行比较，得到每条所述参考轨迹与每条所述预测轨迹之间的最大公共子串；

将存在长度为N-1的最大公共子串的参考轨迹和预测轨迹确定为匹配的所述参考轨迹和预测轨迹。

10.一种目标跟踪设备，其特征在于，包括相互耦接的存储器和处理器；

所述处理器用于执行所述存储器存储的程序指令，以实现权利要求1至9任一项所述的方法。

11.根据权利要求10所述的设备，其特征在于，还包括摄像器件，用于拍摄得到包含所述目标的图像。

12.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至9任一项所述的方法。