CN113989695A

CN113989695A - 目标跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN113989695A
Application number: CN202111103457.1A
Authority: CN
Inventors: 崔书刚; 林凡雨
Original assignee: Beijing Yuandu Internet Technology Co ltd
Current assignee: Beijing Yuandu Internet Technology Co ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2022-01-28
Anticipated expiration: 2041-09-18
Also published as: CN113989695B

Abstract

本申请提供了一种目标跟踪方法、装置、电子设备及存储介质，该方法包括：基于视频采集设备采集到的第一图像帧中的目标位置，确定目标的第一尺寸参数以及第一图像帧中的目标所在区域；获取视频采集设备在采集第一图像帧时的第一变焦倍数，以及视频采集设备在采集第二图像帧时的第二变焦倍数；当第一变焦倍数与第二变焦倍数之间的差异大于或等于预设的差异阈值时，基于检测算法在第二图像帧中检测，得到第二图像帧中的第二检测框；计算第二检测框与第一图像帧中的目标所在区域的重叠度，并基于最高重叠度的第二检测框，确定第二图像帧中的目标所在区域。本申请实施例能够提高目标跟踪的效率。

Description

目标跟踪方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理领域，具体涉及一种目标跟踪方法、装置、电子设备及存储介质。

背景技术

随着图像处理技术的高速发展，在众多领域的应用中，均需要对图像中的目标进行跟踪。例如：在工业领域中，为精准控制机械手的动作，需要对监控视频中的机械手以及被机械手所操作的进行跟踪。

实际应用中，由于视频采集设备在采集图像帧时会受到多种因素的影响，从而导致相关技术中为保证目标跟踪的连续性，常常会牺牲一部分目标跟踪的效率，导致目标跟踪的效率降低。

发明内容

本申请的一个目的在于提出一种目标跟踪的方法、装置、电子设备及存储介质，能够提高目标跟踪的效率。

基于本申请实施例的一方面，公开了一种目标跟踪方法，所述方法包括：

基于视频采集设备采集到的第一图像帧中的目标位置，确定目标的第一尺寸参数以及所述第一图像帧中的目标所在区域；

获取所述视频采集设备在采集所述第一图像帧时的第一变焦倍数，以及所述视频采集设备在采集第二图像帧时的第二变焦倍数，其中，所述第二图像帧为所述视频采集设备采集到的所述第一图像帧之后的图像帧；

当所述第一变焦倍数与所述第二变焦倍数之间的差异大于或等于预设的差异阈值时，基于检测算法在所述第二图像帧中检测，得到所述第二图像帧中的第二检测框；

计算所述第二检测框与所述第一图像帧中的目标所在区域的重叠度，并基于最高重叠度的第二检测框，确定所述第二图像帧中的目标所在区域。

基于本申请实施例的一方面，公开了一种目标跟踪装置，所述装置包括：

确定模块，配置为基于视频采集设备采集到的第一图像帧中的目标位置，确定目标的第一尺寸参数以及所述第一图像帧中的目标所在区域；

获取模块，配置为获取所述视频采集设备在采集所述第一图像帧时的第一变焦倍数，以及所述视频采集设备在采集第二图像帧时的第二变焦倍数，其中，所述第二图像帧为所述视频采集设备采集到的所述第一图像帧之后的图像帧；

检测模块，配置为当所述第一变焦倍数与所述第二变焦倍数之间的差异大于或等于预设的差异阈值时，基于检测算法在所述第二图像帧中检测，得到所述第二图像帧中的第二检测框；

计算模块，配置为计算所述第二检测框与所述第一图像帧中的目标所在区域的重叠度，并基于最高重叠度的第二检测框，确定所述第二图像帧中的目标所在区域。

在本申请的一示例性实施例中，若所述第一图像帧为所述视频采集设备采集到的初始帧，所述确定模块配置为：

获取所述视频采集设备采集到的用户在所述第一图像帧中选定的所述目标位置；

基于所述检测算法在所述第一图像帧中的以所述目标位置为中心的第一范围进行检测，得到所述第一图像帧中的第一检测框；

基于与所述目标位置距离最小的第一检测框，确定所述第一尺寸参数以及所述第一图像帧中的目标所在区域。

在本申请的一示例性实施例中，若所述第一图像帧为所述视频采集设备采集到的初始帧之外的图像帧，所述确定模块配置为：

基于所述第一图像帧的前一图像帧中的目标所在区域，确定所述第一图像帧中的目标位置；

在所述第一图像帧中的以所述目标位置为中心的第二范围，提取得到候选区域；

计算每一候选区域与所述前一图像帧中的目标所在区域的相似度；

将超过阈值且最大的相似度对应的候选区域的尺寸参数作为所述第一尺寸参数，并将超过阈值且最大的相似度对应的候选区域作为所述第一图像帧中的目标所在区域。

在本申请的一示例性实施例中，所述计算模块配置为：

在所述第二图像帧中筛选得到以所述目标位置为中心的第三范围内的第二检测框；

计算所述第三范围内的第二检测框与所述第一图像帧中的目标所在区域的重叠度。

在本申请的一示例性实施例中，所述计算模块配置为：

若所述最高重叠度大于或者等于预设重叠度阈值，则将所述最高重叠度的第二检测框作为目标框以确定所述第二图像帧中的目标所在区域。

在本申请的一示例性实施例中，所述计算模块配置为：

若所述最高重叠度小于预设重叠度阈值，则基于所述第一变焦倍数、所述第二变焦倍数以及所述第一尺寸参数，生成所述目标的第二尺寸参数；

基于所述第二尺寸参数，确定所述第二图像帧中的目标所在区域。

在本申请的一示例性实施例中，所述计算模块配置为：

计算所述第二变焦倍数除以所述第一变焦倍数所得到的比值；

基于所述第一尺寸参数中的每一轮廓线与所述比值的乘积，计算得到所述第二尺寸参数中的每一轮廓线。

在本申请的一示例性实施例中，所述装置还包括训练模块，所述训练模块配置为：

以所述第二图像帧中的目标所在区域为新样本对机器学习模型进行训练，以通过所述机器学习模型在所述第二图像帧之后的图像帧中检测目标所在区域。

在本申请的一示例性实施例中，所述训练模块还配置为：

当连续出现相邻图像帧之间的所述差异小于所述差异阈值的次数达到预设次数时，将所述相邻图像帧中最后一个图像帧作为所述第二图像帧，计算所述第二图像帧中的目标所在区域与其前一图像帧中的目标所在区域的第一相似度，并计算至少两个历史图像帧中的目标所在区域与其各自对应的前一图像帧中的目标所在区域的平均相似度，其中，所述历史图像帧为所述视频采集设备采集到的处于所述第二图像帧之前的图像帧；

若所述第一相似度大于或等于所述平均相似度的k倍，则通过所述机器学习模型在所述第二图像帧中检测到目标所在区域后，以所述第二图像帧中的目标所在区域为新样本对所述机器学习模型进行训练，以通过所述机器学习模型在所述第二图像帧之后的图像帧中检测目标所在区域，其中，所述k大于0且小于等于1。

在本申请的一示例性实施例中，所述训练模块配置为：

在第一线程中通过所述机器学习模型在所述第二图像帧检测到目标所在区域后，在第二线程中以所述第二图像帧中的目标所在区域为新样本对所述机器学习模型进行训练；

在所述第二线程中训练得到所述机器学习模型后，将所述机器学习模型传递至所述第一线程，以在所述第一线程中通过所述机器学习模型在所述第二图像帧之后的图像帧中检测目标所在区域。

基于本申请实施例的一方面，公开了一种电子设备，包括：存储器，存储有计算机可读指令；处理器，读取存储器存储的计算机可读指令，以执行以上权利要求中的任一个所述的方法。

基于本申请实施例的一方面，公开了一种计算机程序介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行以上权利要求中的任一个所述的方法。

基于本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

本申请实施例中，针对前后相邻的两个图像帧，对在后图像帧进行目标跟踪时，当该两个图像帧的变焦倍数之间的差异大于或等于预设的差异阈值时，于在后图像帧中得到检测框，进而基于与在前图像帧中的目标所在区域的重叠度最高的检测框确定第二图像帧中的目标所在区域，从而实现对在后图像帧的目标跟踪。通过这种方法，当前后相邻的两个图像帧的变焦倍数之间的差异大于或等于预设的差异阈值时，保证目标跟踪连续性的同时，提高了目标跟踪的效率。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

通过参考附图详细描述其示例实施例，本申请的上述和其它目标、特征及优点将变得更加显而易见。

图1示出了基于本申请一个实施例的目标跟踪方法的流程图。

图2示出了基于本申请一个实施例的训练跟踪器的流程示意图。

图3示出了基于本申请一个实施例的目标跟踪的流程图。

图4示出了基于本申请一个实施例的目标跟踪装置的框图。

图5示出了基于本申请一个实施例的电子设备的硬件图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些示例实施方式使得本申请的描述将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本申请的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中，提供许多具体细节从而给出对本申请的示例实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、步骤等。在其它情况下，不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本申请的各方面变得模糊。

附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本申请提出了一种目标跟踪方法，主要用于在监控视频中对目标进行跟踪。具体的，通过确定监控视频的图像帧中的目标所在区域，实现对目标的跟踪。

在一实施例中，通过带有摄像头的无人机对运动中或静止的目标进行跟踪。该无人机在飞行过程中，通过摄像头拍摄该目标的监控视频，并基于本申请所提出的目标跟踪方法进行目标跟踪，确定该监控视频的图像帧中目标所在区域。

图1示出了本申请一实施例的目标跟踪方法的流程图。该方法包括：

步骤S10、基于视频采集设备采集到的第一图像帧中的目标位置，确定目标的第一尺寸参数以及第一图像帧中的目标所在区域；

步骤S11、获取视频采集设备在采集第一图像帧时的第一变焦倍数，以及视频采集设备在采集第二图像帧时的第二变焦倍数，其中，第二图像帧为视频采集设备采集到的第一图像帧之后的图像帧；

步骤S12、当第一变焦倍数与第二变焦倍数之间的差异大于或等于预设的差异阈值时，基于检测算法在第二图像帧中检测，得到第二图像帧中的第二检测框；

步骤S13、计算第二检测框与第一图像帧中的目标所在区域的重叠度，并基于最高重叠度的第二检测框，确定第二图像帧中的目标所在区域。

本申请实施例中，对于视频采集设备采集到的第一图像帧，基于该第一图像帧中的目标位置，确定目标的第一尺寸参数，并确定该第一图像帧中的目标所在区域。

目标的尺寸参数指的是用于描述目标所在区域的轮廓线的具体尺寸大小的参数。一般的，目标所在区域为框选出目标所在区域的矩形框所围合区域，这种情况下，尺寸参数通常用于描述目标所在区域的水平轮廓线的宽度以及竖直轮廓线的高度。

视频采集设备采集到的第二图像帧为第一图像帧之后的图像帧，为在该第二图像帧中检测目标所在区域，需要确定在该第二图像帧中的目标所在区域，以便根据该目标所在区域对第二图像帧之后的图像帧进行跟踪。

考虑到视频采集设备在采集视频的过程中可能会更改变焦倍数，变焦倍数的更改幅度较大时会导致继续沿用之前的目标框可能会无法成功跟踪到目标。其中，区别于使用检测算法得到的检测框，目标框指的是供跟踪算法进行跟踪以确定目标所在区域的封闭框。

因此，确定第一变焦倍数与第二变焦倍数之间的差异，当该差异大于或等于预设的差异阈值时，基于检测算法在第二图像帧中检测，得到第二检测框。进而基于与第一图像帧中的目标所在区域的重叠度最高的第二检测框，确定第二图像帧中的目标所在区域。

需要指出的是，考虑到目标跟踪的效率以及计算过程中所占用的系统资源，本发明实施例中指出若第一变焦倍数与第二变焦倍数之间的差异大于或等于预设的差异阈值时，采用本发明实施例所提供的目标跟踪方法，但是本发明并不限于此，在不考虑目标跟踪效率以及计算过程中所占用的系统资源的情况下，若第一变焦倍数与第二变焦倍数之间的差异小于预设的差异阈值，则依然可以使用本发明实施例中提出的目标跟踪方法，基于检测算法在第二图像帧中检测，得到第二检测框。

由此可见，本申请实施例中，针对前后两个图像帧，对在后图像帧进行目标跟踪时，当该两个图像帧的变焦倍数之间的差异大于或等于预设的差异阈值时，于在后图像帧中得到检测框，进而基于与在前图像帧中的目标所在区域的重叠度最高的检测框确定第二图像帧中的目标所在区域，从而实现对在后图像帧的目标跟踪。通过这种方法，当前后两个图像帧的变焦倍数之间的差异大于或等于预设的差异阈值时，保证目标跟踪连续性的同时，提高了目标跟踪的效率。

在一实施例中，对于为初始帧的第一图像帧，目标位置由用户选定。

该实施例中，若第一图像帧为视频采集设备采集到的初始帧，获取视频采集设备采集到的用户在第一图像帧中选定的目标位置。基于检测算法在该第一图像帧中的以该目标位置为中心的第一范围进行检测，得到第一图像帧中的第一检测框。进而基于与该目标位置距离最小的第一检测框，确定该第一尺寸参数以及第一图像中的目标所在区域。

具体的，若第一图像帧为初始帧，用户可通过监控视频的显示终端在第一图像帧中手动选定目标位置。目标位置可以为一个点，也可以为一个区域。

为保证目标跟踪的准确性，在第一图像帧中的以该目标位置为中心的第一范围内进行目标跟踪。可以将以该目标位置为几何中心的预设半径的圆形区域所在范围，作为第一范围；也可以将以该目标位置为几何中心的预设长度以及宽度的矩形区域所在范围，作为第一范围。

进而基于检测算法在该第一范围内检测，得到第一检测框。检测算法在第一范围内检测得到的第一检测框一般包括有多个，每个第一检测框选取有一个对象。

进而若一第一检测框与目标位置之间的距离最小，说明该第一检测框与目标所在区域距离最小，则可以将该第一检测框作为第一图像帧中的目标框，将其尺寸参数作为第一尺寸参数，并将其所围合区域作为第一图像帧中的目标所在区域。

在一实施例中，采用yolov(You Only Look Once)系列检测算法于第一图像帧中进行检测，进而得到第一检测框。其中，yolov系列算法包括：yolov1、yolov2以及yolov3等。

在一实施例中，对于非初始帧的第一图像帧，目标位置根据前一图像帧中的目标所在区域确定。

该实施例中，若第一图像帧为视频采集设备采集到的初始帧之外的图像帧，根据跟踪算法确定第一图像帧中的目标所在区域。具体的，基于第一图像帧的前一图像帧的目标所在区域，确定第一图像帧中的目标位置，然后在第一图像帧中的以目标位置为中心的第二范围，提取得到候选区域。计算每一候选区域与前一图像帧中的目标所在区域的相似度。将超过阈值且最大的相似度对应的候选区域的尺寸参数作为第一尺寸参数，并将超过阈值且最大的相似度对应的候选区域作为第一图像帧中的目标所在区域。

在一实施例中，跟踪算法可以是ECO(Efficient Convolution Operators forTracking)算法。具体的，若第一图像帧为非初始帧，可以直接将其前一图像帧中的目标所在区域，或者该前一图像帧中的目标所在区域的中心作为第一图像帧中的目标位置。

需要注意的是，在基于第一图像帧的前一图像帧的目标所在区域确定第一图像帧中的目标位置时，除了上述跟踪算法中提供的方法，也可以将前一图像帧中的目标所在区域平移预设距离后，将得到的平移后区域，或者该平移后区域的中心作为第一图像帧中的目标位置。

进而在第一图像帧中的以该目标位置为中心的第二范围内，提取得到候选区域。进而计算每一候选区域与前一图像帧中的目标所在区域的相似度。其中，区域之间的相似度也可被称为区域之间的响应值。

若某一候选区域对应的相似度最大，则将该候选区域作为第一图像帧中的目标所在区域，并将该候选区域的尺寸参数作为第一尺寸参数。

其中，同理于确定第一范围的实施过程，在此不再赘述确定第二范围的实施过程。

需要说明的是，第一图像帧为非初始帧，但是若第一图像帧与其前一图像帧的变焦倍数之间的差异也达到差异阈值时，确定第一图像帧中的目标的尺寸参数以及目标所在区域的方法，可以参考确定第二图像帧中的目标的尺寸参数以及目标所在区域的方法。

一实施例中，第二图像帧为视频采集设备采集到的第一图像帧的后一图像帧。即，第一图像帧与第二图像帧为前后相邻的两个图像帧。

该实施例中，基于前一图像帧的变焦倍数、当前图像帧的变焦倍数以及前一图像帧对应的尺寸参数，生成当前图像帧对应的尺寸参数。进而基于当前图像帧对应的尺寸参数，确定当前图像帧中的目标所在区域。

在一实施例中，第二图像帧为作为目标跟踪来源的图像帧，第一图像帧为在第二图像帧前L帧处的图像帧，其中，L大于等于2，且L在同一实施例中为一个常量。即，第一图像帧与第二图像帧为前后间隔(L-1)帧的两个图像帧。

在一实施例中，记监控视频中N个连续图像帧的编号依次为F₁、F₂、F₃......F_N。第二图像帧为作为目标跟踪来源的图像帧，第一图像帧为在第二图像帧前(L-1)帧处的图像帧。

例如，若L＝3，在图像帧F₃进行目标跟踪，则以F₃为第二图像帧，以F₁为第一图像帧。基于F₁的变焦倍数、F₃的变焦倍数以及F₁对应的尺寸参数，生成F₃对应的尺寸参数。进而基于F₃对应的尺寸参数，确定F₃中的目标所在区域。

又例如，若L＝3，对图像帧F₄进行目标跟踪，则以F₄为第二图像帧，以F₂为第一图像帧。基于F₂的变焦倍数、F₄的变焦倍数以及F₂对应的尺寸参数，生成F₄对应的尺寸参数。进而基于F₄对应的尺寸参数，确定F₄中的目标所在区域。

同理，不再赘述在其他图像帧中进行目标跟踪的实施过程。

在一实施例中，第一图像帧固定不变。随着视频采集设备不断采集新的图像帧，第二图像帧不断更新，第二图像帧与第一图像帧之间间隔的帧数不断更新。

在一实施例中，第一图像帧为固定的初始帧，第二图像帧为当前图像帧。

记监控视频中N个连续图像帧的编号依次为F₁、F₂、F₃......F_N。第一图像帧固定地为F₁。

当前图像帧为F₂时，即，在第二图像帧F₂中进行目标跟踪时，基于F₁的变焦倍数、F₂的变焦倍数以及F₁对应的尺寸参数，生成F₂对应的尺寸参数。进而基于F₂对应的尺寸参数，确定F₂中的目标所在区域。

当前图像帧为F₃时，即，对第二图像帧F₃中进行目标跟踪时，基于F₁的变焦倍数、F₃的变焦倍数以及F₁对应的尺寸参数，生成F₃对应的尺寸参数。进而基于F₃对应的尺寸参数，确定F₃中的目标所在区域。

同理，不再赘述在其他图像帧中进行目标跟踪的实施过程。

在一实施例中，第一变焦倍数与第二变焦倍数之间的差异，可以为二者之间的距离差值，也可以为二者之间的相对比例。

在一实施例中，计算第一变焦倍数与第二变焦倍数之间的距离差值。当该距离差值大于或等于预设距离阈值时，说明第一变焦倍数与第二变焦倍数之间的差异大于预设的差异阈值。

具体的，记第一图像帧的第一变焦倍数为z1，第二图像帧的第二变焦倍数为z2，预设的距离阈值为N。计算|z1-z2|，并将|z1-z2|与N进行对比。当|z1-z2|≥N时，说明二者之间的差异大于预设的差异阈值。

在一实施例中，计算第一变焦倍数与第二变焦倍数之间大于等于1的比例值。当第一变焦倍数大于第二变焦倍数时，通过第一变焦倍数除以第二变焦倍数得到该比例值；当第二变焦倍数大于第一变焦倍数时，通过第二变焦倍数除以第一变焦倍数得到该比例值。当该比例值大于或等于预设比例阈值时，说明第一变焦倍数与第二变焦倍数之间的差异大于预设的差异阈值。

具体的，记第一图像帧的第一变焦倍数为z1，第二图像帧的第二变焦倍数为z2，预设的比例阈值为M，M大于1。计算z1/z2以及z2/z1，并将z1/z2以及z2/z1分别与M进行对比。当z1/z2≥M或者z2/z1≥M时，说明二者之间的差异大于预设的差异阈值。

在一实施例中，可以在第一变焦倍数与所述第二变焦倍数之间的差异大于或等于预设的差异阈值时，基于检测算法在第二图像帧中检测，得到第二图像帧中的第二检测框。其中，基于检测算法可以在第二图像帧中检测得到多个第二检测框。

在一实施例中，在得到第二图像帧中的第二检测框后，可以在第二图像帧中筛选得到以目标位置(该目标位置为第一图像帧中的目标位置)为中心的第三范围内的第二检测框。计算第三范围内的第二检测框与第一图像帧中的目标所在区域的重叠度。

具体的，基于在第二图像帧中检测得到第二检测框后，进一步地筛选出第三范围内的第二检测框，并仅计算第三范围内的第二检测框与第一图像帧中的目标所在区域的重叠度。

其中，同理于确定第一范围的实施过程，在此不再赘述确定第三范围的实施过程。

该实施例的优点在于，考虑到目标的移动是连续的，前后两个图像帧中目标的位置变化在一定限度之内。因此在计算重叠度之前对第二检测框进行筛选，保证能够确定最高重叠度的第二检测框的同时，合理地减少了在计算重叠度之时的计算量，从而提升目标跟踪的效率。

需要指出的是，除了上述先由检测算法在整个第二图像帧中检测得到第二检测框，之后对第二检测框进行筛选得到处于第三范围内的第二检测框的方法，也可以先在第二图像帧中筛选得到以目标位置为中心的第三范围内的区域，然后基于检测算法在该区域进行检测，得到该区域内的第二检测框，从而计算第三范围内的第二检测框与第一图像帧中的目标所在区域的重叠度。

在一实施例中，可以将第二检测框与第一图像帧中的目标所在区域的交并比作为对应的重叠度。也可以按照预设的映射函数将该交并比转换为对应的重叠度，其中，重叠度与交并比呈正相关。

在一实施例中，若最高重叠度大于或者等于预设重叠度阈值，则将最高重叠度的第二检测框作为目标框以确定第二图像帧中的目标所在区域。

具体的，若大于或者等于预设重叠度阈值，说明对应的第二检测框与第一图像帧中的目标所在区域之间有着较大的重叠度，说明对应的第二检测框能够在第二图像帧中框选住目标。因此在这种情况下，将最高重叠度对应的第二检测框作为第二图像帧中的目标所在区域。通过这种方法，使得目标跟踪的过程中，视频采集设备发生变焦幅度较大时，无法成功根据检测算法得到的检测框完成目标跟踪时，则通过快速调整目标的尺寸完成目标跟踪，保证了变焦幅度较大时对目标的跟踪成功率，同时提高了变焦幅度较大时对目标的跟踪效率。

在一实施例中，若在第二图像帧中没有检测到第二检测框，或者在第二图像帧中的以目标位置(该目标位置为第一图像帧中的目标位置)为中心的第三范围内没有检测到第二检测框，或者第二检测框中的最高重叠度小于预设重叠度阈值，则可以通过第一变焦倍数、第二变焦倍数以及第一尺寸参数，生成第二图像帧中的目标所在区域。需要说明的是，目标所在区域为一般为矩形区域，其尺寸参数包含水平轮廓线的宽度尺寸以及竖直轮廓线的高度尺寸。

记在第一图像帧中，第一变焦倍数为z1，光学镜头的焦距为f1(单位为厘米)，视场角为α(单位为度)，目标所在区域的水平轮廓线的宽度尺寸为w1(单位为像素)，竖直轮廓线的高度尺寸为h1(单位为像素)。记在第二图像帧中，第二变焦倍数为z2，光学镜头的焦距为f2(单位为厘米)，视场角为β，待确定的目标所在区域的水平轮廓线的宽度尺寸为w2，竖直轮廓线的高度尺寸为h2。记沿视场方向上靶面尺寸为L(单位为毫米)。

可以得到：

由此可以得到：

w2＝w1*z2/z1

h2＝h1*z2/z1

在一实施例中，计算第一变焦倍数与第二变焦倍数之间的距离差值。

当该距离差值大于或等于预设距离阈值时，计算第二变焦倍数除以第一变焦倍数所得到的比值。进而基于第一尺寸参数中的每一轮廓线与该比值的乘积，计算得到第二尺寸参数中的每一轮廓线。

在一实施例中，目标区域为矩形区域，其尺寸参数包含水平轮廓线的宽度尺寸以及竖直轮廓线的高度尺寸。

记在第一图像帧中，第一变焦倍数为z1，水平轮廓线的宽度尺寸为w1，竖直轮廓线的高度尺寸为h1。记在第二图像帧中，第二变焦倍数为z2，待确定的水平轮廓线的宽度尺寸为w2，待确定的竖直轮廓线的高度尺寸为h2。

预设的距离阈值为N。计算|z1-z2|，并将|z1-z2|与N进行对比。

当|z1-z2|≥N时，通过如下公式计算得到w2以及h2，从而得到第二图像帧对应的第二尺寸参数。

w2＝w1*z2/z1

h2＝h1*z2/z1

在一实施例中，计算第一变焦倍数与第二变焦倍数之间大于等于1的比例值。当第一变焦倍数大于第二变焦倍数时，通过第一变焦倍数除以第二变焦倍数得到该比例值；当第二变焦倍数大于第一变焦倍数时，通过第二变焦倍数除以第一变焦倍数得到该比例值。

当该比例值大于或等于预设比例阈值时，计算第二变焦倍数除以第一变焦倍数所得到的比值。进而基于第一尺寸参数中的每一轮廓线与该比值的乘积，计算得到第二尺寸参数中的每一轮廓线。

预设的比例阈值为M，M大于1。计算z1/z2以及z2/z1，并将z1/z2以及z2/z1分别与M进行对比。

当z1/z2≥M或者z2/z1≥M时，通过如下公式计算得到w2以及h2，从而得到第二图像帧对应的第二尺寸参数。

w2＝w1*z2/z1

h2＝h1*z2/z1

在一实施例中，通过跟踪算法检测目标所在区域。

具体的，根据样本对跟踪算法进行训练，使得该跟踪算法自动检测图像帧中的目标所在区域。

在一实施例中，将用于目标跟踪的机器学习模型称为跟踪器。

图2示出了本申请一实施例中训练跟踪器的流程示意图。

该实施例中，样本图像帧中目标的位置坐标以及目标的尺寸事先已确定。

S20、获取目标位置以及目标所在区域的尺寸。

S21、基于目标位置以及目标所在区域的尺寸，从该样本图像帧中提取出目标所在区域的特征。

S22、通过初始化投影矩阵对目标所在区域的特征进行降维处理，从而提高跟踪器的训练效率。

S23、对目标所在区域的特征进行余弦窗处理、傅里叶变换等预处理操作。

S24、将预处理操作后的特征作为新样本添加至跟踪器的训练集中。

S25、采用添加了新样本的训练集对跟踪器进行训练，得到训练完成的跟踪器。

在一实施例中，目标所在区域的特征为HOG(Histogram of Oriented Gradient，梯度直方图)特征以及CN(Color Name，颜色)特征。

在一实施例中，训练完成的跟踪器按照ECO跟踪(Efficient ConvolutionOperators for Tracking，高效卷积跟踪)算法自动跟踪监控视频中的目标。

在一实施例中，确定第二图像帧中的目标所在区域后，以第二图像帧中的目标所在区域为新样本对机器学习模型进行训练，以通过机器学习模型在第二图像帧之后的图像帧中检测目标所在区域。

具体的，第一变焦倍数与第二变焦倍数之间的差异大于或等于预设差异阈值，说明相比于第一变焦倍数，第二变焦倍数发生了较大程度的变化。而在第二图像帧之前，机器学习模型主要用于对第一变焦倍数下的目标进行检测。为了提高机器学习模型对第二变焦倍数下的目标的检测精准度，故以第二图像帧中的目标所在区域为新样本对该机器学习模型再次进行训练，进而通过该机器学习模型在第二图像帧之后的图像帧中检测目标所在区域。

该实施例的优点在于，当变焦倍数发生较大程度的变化后，通过以变化后变焦倍数下的目标所在区域的图像为新样本对机器学习模型再次进行训练，使得所得到的更新后机器学习模型能够更为精准地对该变化后变焦倍数下的目标进行检测。

在一实施例中，确定第二图像帧中的目标所在区域后，以第二图像帧中的目标所在区域为新样本对机器学习模型进行训练。并且，当连续出现相邻图像帧之间的该差异小于该差异阈值的次数达到预设次数时，将相邻图像帧中最后一个图像帧作为第二图像帧，计算第二图像帧中的目标所在区域的图像与其前一图像帧中的目标所在区域的第一相似度，并计算至少两个历史图像帧中的目标所在区域与其各自对应的前一图像帧中的目标所在区域的平均相似度，其中，历史图像帧为视频采集设备采集到的处于第二图像帧之前的图像帧。

若第一相似度大于或等于平均相似度的k倍，则通过机器学习模型在第二图像帧中检测到目标所在区域后，以第二图像帧中的目标所在区域为新样本对机器学习模型进行训练，以通过该机器学习模型在第二图像帧之后的图像帧中检测目标所在区域，其中，k大于0且小于等于1。

具体的，相邻图像帧之间目标所在区域的相似度越大，则说明当前图像帧中的目标所在区域所包含特征越有利于检测目标，故用于训练机器学习模型时，当前图像帧中的目标所在区域属于更为优质的样本。

并且，相邻图像帧之间的变焦倍数的差异小于预设差异阈值，说明相邻图像帧之间的变焦倍数并未出现较大程度的变化。仅就一对相邻图像帧来看，可以不对机器学习模型进行更新。

但当这种情况连续出现时，则说明这期间始终未对机器学习模型进行更新。长时间的未更新，可能会导致机器学习模型的检测精准度下降。

故当这种情况连续出现的次数达到预设次数阈值(例如：达到T次)，且第二图像帧对应的第一相似度大于或等于历史图像帧对应的平均相似度时，说明相比于历史图像帧中的目标所在区域，第二图像帧中的目标所在区域属于更为优质的样本。故以第二图像帧中的目标所在区域为新样本对该机器学习模型进行训练，使得该机器学习模型能够更为精准地对目标进行检测。

在一实施例中，记连续出现相邻图像帧之间的变焦倍数的差异小于预设差异阈值的次数为f。记预设次数阈值为T。记第二图像帧对应的第一相似度为pv。记历史图像帧对应的平均相似度为apv，k为预设的比例因子。

当标志位flag_model为1时，以第二图像帧中的目标所在区域为新样本更新跟踪器。当标志位flag_model为0时，不更新跟踪器。

在一实施例中，第一图像帧与第二图像帧为前后相邻的两个图像帧。

记监控视频中N张连续图像帧的编号依次为F₁、F₂、F₃......F_N。其中，任意两个相邻图像帧的变焦倍数之间的差异均小于预设的差异阈值，即，任意两个相邻图像帧的变焦倍数均未出现较大程度的变化。

在以F₂为第二图像帧，F₁为第一图像帧时，由于F₁与F₂的变焦倍数未出现较大程度的变化，故仅考虑F₁与F₂时，可以不对跟踪器进行更新。

在以F₃为第二图像帧，F₂为第一图像帧时，由于F₂与F₃的变焦倍数也未出现较大程度的变化，故仅考虑F₂与F₃时，也可以不对跟踪器进行更新。

同理，仅考虑F_N-1与F_N时，也可以不对跟踪器进行更新。

但将这N张图像帧作为一个整体考虑时，可见，可能会导致从F₂到F_N的过程中始终未对跟踪器进行过更新。为避免这种情况的发生，可以针对性地设置次数阈值为T，T为大于等于1的正整数。

若所设T为3：在以F₃为第一图像帧，通过跟踪器对第二图像帧F₄进行目标跟踪时，虽然F₃与F₄的变焦倍数未出现较大程度的变化，但由于变焦倍数未出现较大程度的变化已连续出现3次，故在确定F₄中的目标所在区域后，计算F₄中的目标所在区域与F₃中的目标所在区域的第一相似度pv。并可以将F₁至F₃作为历史图像帧，计算F₂中的目标所在区域与F₁中的目标所在区域的相似度pv1，F₃中的目标所在区域与F₂中的目标所在区域的相似度pv2，得到历史图像帧对应的平均相似度apv＝(pv1+pv2)/2。

若pv大于或等于k*apv，则以F₄中的目标所在区域对跟踪器进行更新。若pv小于k*apv，则仍旧不更新跟踪器；同理，以相同逻辑对F₄之后的图像帧进行处理。其中，k为预设的比例因子，k大于0且小于等于1。

在一实施例中，在第一线程中通过机器学习模型在第二图像帧检测到目标所在区域后，在第二线程中以第二图像帧中的目标所在区域为新样本对机器学习模型进行训练。

在第二线程中训练得到该机器学习模型后，将该机器学习模型传递至第一线程，以在第一线程中通过该机器学习模型在第二图像帧之后的图像帧中检测目标所在区域。

具体的，第一线程与第二线程并列工作。第一线程主要负责机器学习模型的使用，即，在第一线程中通过机器学习模型对目标进行跟踪。第二线程主要负责机器学习的训练。即，在第二线程中对机器学习模型进行训练。

该实施例的优点在于，通过两个线程分别执行机器学习模型的使用以及机器学习模型的训练，可以边使用机器学习模型，边训练机器学习模型，实现了目标跟踪的不间断在线更新。

在一实施例中，第一线程为用于实现本申请所提供目标跟踪方法的进程的主线程，第二线程为该进程的子线程。

图3示出了本申请一实施例的目标跟踪的流程图。

S30、获取到当前图像帧。

S31、基于前一图像帧的目标位置，在当前图像帧的该目标位置附近提取特征。

S32、对所提取特征进行特征降维处理。

S33、对降维处理后的特征再进行余弦窗处理、傅里叶变换等预处理操作。

S34、跟踪器基于预处理操作所得到的特征，计算得到当前图像帧中与前一图像帧中的目标所在区域相似度最大的区域。将最大相似度的区域确定为当前图像帧中的目标所在区域，并将该最大相似度记为当前图像帧中的目标所在区域与前一图像帧中的目标所在区域的第一相似度。

S35、确定当前图像帧的变焦倍数与前一图像帧的变焦倍数之间的差异是否大于或等于预设差异阈值。

若大于或等于该预设差异阈值，则执行S361，否则执行S362。

S361、基于二者的变焦倍数更新当前图像帧中目标所在区域的尺寸。

从S361转至S381、结合当前图像帧中的目标位置，得到当前图像帧中的目标所在区域。并将当前图像帧中的目标所在区域作为新样本添加至跟踪器的训练集中，进而对跟踪器进行更新；继续转至S382、返回当前图像帧中的目标位置以及尺寸。

S362、将前一图像帧中的目标所在区域的尺寸作为当前图像帧中的目标所在区域的尺寸，并计算历史图像帧中的目标所在区域与其各自对应的前一图像帧中的目标区域的平均相似度。

从S362转至S37、基于历史图像帧对应的平均相似度确定是否更新跟踪器。

若差异小于预设差异阈值连续出现的次数达到预设次数，且当前图像帧中的目标所在区域与其前一图像帧中的目标所在区域的第一相似度大于或等于历史图像帧对应的平均相似度的k倍，则从S37转至S381，将当前图像帧中的目标所在区域作为新样本添加至跟踪器的训练集中，进而对跟踪器进行更新；继续转至S382、返回当前图像帧中的目标位置以及尺寸。其中，k大于0且小于等于1。

若差异小于预设差异阈值连续出现的次数未达到预设次数T，则从S37转至S382，不对跟踪器进行更新，并返回当前图像帧中的目标位置以及尺寸。

图4示出了基于本申请一实施例的目标跟踪装置，所述装置包括：

确定模块40，配置为基于视频采集设备采集到的第一图像帧中的目标位置，确定目标的第一尺寸参数以及所述第一图像帧中的目标所在区域；

获取模块41，配置为获取所述视频采集设备在采集所述第一图像帧时的第一变焦倍数，以及所述视频采集设备在采集第二图像帧时的第二变焦倍数，其中，所述第二图像帧为所述视频采集设备采集到的所述第一图像帧之后的图像帧；

检测模块42，配置为当所述第一变焦倍数与所述第二变焦倍数之间的差异大于或等于预设的差异阈值时，基于检测算法在所述第二图像帧中检测，得到所述第二图像帧中的第二检测框；

计算模块43，配置为计算所述第二检测框与所述第一图像帧中的目标所在区域的重叠度，并基于最高重叠度的第二检测框，确定所述第二图像帧中的目标所在区域。

在本申请的一示例性实施例中，所述计算模块配置为：

在本申请的一示例性实施例中，所述训练模块还配置为：

在本申请的一示例性实施例中，所述训练模块配置为：

下面参考图5来描述基于本申请实施例的电子设备50。图5显示的电子设备50仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，电子设备50以通用计算设备的形式表现。电子设备50的组件可以包括但不限于：上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元510执行，使得所述处理单元510执行本说明书上述示例性方法的描述部分中描述的基于本发明各种示例性实施方式的步骤。例如，所述处理单元510可以执行如图1中所示的各个步骤。

存储单元520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202，还可以进一步包括只读存储单元(ROM)5203。

存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204，这样的程序模块5205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备50也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备50交互的设备通信，和/或与使得该电子设备50能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。输入/输出(I/O)接口550与显示单元540相连。并且，电子设备50还可以通过网络适配器360与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器560通过总线530与电子设备50的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备50使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，基于本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行基于本申请实施方式的方法。

在本申请的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行上述方法实施例部分描述的方法。

基于本申请的一个实施例，还提供了一种用于实现上述方法实施例中的方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向的程序设计语言—诸如JAVA、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，基于本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，基于本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行基于本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由所附的权利要求指出。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，若所述第一图像帧为所述视频采集设备采集到的初始帧，基于视频采集设备采集到的第一图像帧中的目标位置，确定目标的第一尺寸参数以及所述第一图像帧中的目标所在区域，包括：

3.根据权利要求1所述的方法，其特征在于，若所述第一图像帧为所述视频采集设备采集到的初始帧之外的图像帧，基于视频采集设备采集到的第一图像帧中的目标位置，确定目标的第一尺寸参数以及目标所在区域，包括：

4.根据权利要求1所述的方法，其特征在于，计算所述第二检测框与所述第一图像帧中的目标所在区域的重叠度，包括：

5.根据权利要求1所述的方法，其特征在于，基于最高重叠度的第二检测框，确定所述第二图像帧中的目标所在区域，包括：

6.根据权利要求1所述的方法，其特征在于，基于最高重叠度的第二检测框，确定所述第二图像帧中的目标所在区域，包括：

7.根据权利要求6所述的方法，其特征在于，基于所述第一变焦倍数、所述第二变焦倍数以及所述第一尺寸参数，生成所述第二尺寸参数，包括：

8.根据权利要求1所述的方法，其特征在于，确定所述第二图像帧中的目标所在区域后，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求8所述的方法，其特征在于，以所述第二图像帧中的目标所在区域为新样本对所述机器学习模型进行训练，以通过所述机器学习模型在所述第二图像帧之后的图像帧中检测目标所在区域，包括：

11.一种目标跟踪装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1-10中的任一个所述的方法。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-10中的任一个所述的方法。