CN116091784A

CN116091784A - 一种目标跟踪方法、设备及存储介质

Info

Publication number: CN116091784A
Application number: CN202211716743.XA
Authority: CN
Inventors: 张杨; 殷俊; 朱树磊; 李平生
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-05-09

Abstract

本申请实施例提供了一种目标跟踪方法、设备及存储介质，该方法包括：分别对模板图像和当前帧对应的待搜索图像进行深层特征和浅层特征的提取；基于预设的融合系数，对得到的特征进行特征融合，获得融合特征图；对融合特征图进行目标分类和目标回归，得到待搜索图像中各像素各自的第一评分参数，以及待跟踪目标所在的多个候选区域；根据基于质量评估得到的待搜索图像中各像素各自的第二评分参数与相应的第一评分参数，从多个候选区域中确定待追踪目标在待搜索图像中所在的目标区域，通过上述方法，将不同层次包含不同信息的特征加以融合，提高模型识别和定位的能力；通过建立对分类结果进行评估的机制，从而提高跟踪精度。

Description

一种目标跟踪方法、设备及存储介质

技术领域

本申请涉及图像处理和计算机视觉技术领域，尤其涉及一种目标跟踪方法、设备及存储介质。

背景技术

随着人工智能相关技术的不断发展，作为人工智能领域一个重要分支的目标跟踪得到了越来越多的关注，在许多领域中发挥着重要的作用，其中包括：视频监控、自动驾驶、医学成像等，多领域的成功应用表明该技术有着重要的现实价值和较好的发展前景。但是，视频序列具有多样性，视频中目标的形状可能会发生变化，目标的快速移动会导致其在画面中会呈现出模糊现象，光照条件的改变会导致目标出现忽明忽暗的变化，目标可能被物体遮挡等，这些复杂的情况使得目标跟踪成为一项具有挑战性的任务。

在目前基于孪生网络的单目标跟踪算法中，特征提取是算法模型的关键步骤，一般情况下，使用神经网络来提取待跟踪目标和后续帧图像的单一特征。单一的特征信息在某些场景下往往不会表现得很好，如果仅使用单一的特征来进行目标跟踪，跟踪结果会出现偏差。

发明内容

本申请实施例提供了一种目标跟踪方法、设备及存储介质，通过提取多层次的特征，并将多层次的特征进行融合来进行目标的跟踪，提高了跟踪结果的准确性。

第一方面，本申请实施例提供了一种目标跟踪方法，所述方法包括：

分别对模板图像和当前帧对应的待搜索图像进行深层特征和浅层特征的提取，获得所述模板图像对应的多个层次的第一特征图，以及所述待搜索图像对应的多个层次的第二特征图；所述模板图像是通过提取视频的参考帧中的待跟踪目标得到的，所述待搜索图像是基于所述待跟踪目标在上一帧中的所在区域确定的；

基于预设的融合系数，对各第一特征图和各第二特征图进行特征融合，获得融合特征图；

基于所述融合特征图进行目标分类和目标回归，得到所述待搜索图像中各像素各自的第一评分参数，以及所述待跟踪目标所在的多个候选区域；所述第一评分参数表征相应像素位于所述待追踪目标所在目标区域的第一概率；

根据基于质量评估得到的待搜索图像中各像素各自的第二评分参数与相应的第一评分参数，从所述多个候选区域中确定所述待追踪目标在所述待搜索图像中所在的目标区域；所述第二评分参数表征相应像素位于所述待追踪目标所在目标区域的第二概率。

在上述实施例中，分别对模板图和代搜索图提取多个层次的特征，然后将多个层次的特征进行融合，利用融合特征图进行后续的目标跟踪。由于基于多个层次的特征图得到的融合特征图中，既包含图像的颜色、边缘、棱角等浅层特征息，又包含了语义等深层特征，因此适应于大部分场景下的目标跟踪。另外还引入了质量评估的方法，进一步地提高了目标的跟踪精度。

在一种可能的实施方式中，所述基于预设的融合系数，对各第一特征图和各第二特征图进行特征融合，获得融合特征图，包括：

基于预设的第一融合系数，对所述各第一特征图和各第二融合特征图进行特征融合，获得用于目标分类的第一融合特征图；

基于预设的第二融合系数，对所述各第一特征图和各第二融合特征图进行特征融合，获得用于目标回归的第二融合特征图。

在上述实施例中，由于目标分类是为了区分目标与背景，目标回归是为了准确的定位目标所在区域，因此用于目标分类的融合系数和用于目标回归的融合系数不相同。

在一种可能的实施方式中，所述基于预设的第一融合系数，对所述各第一特征图和各第二融合特征图进行特征融合，获得用于目标分类的第一融合特征图，包括：

针对每个第一特征图，以及与所述每个第一特征图相同层次的每个第二特征图，将所述第一特征图与所述第二特征图进行卷积处理，得到第一卷积特征图；

将各层次的第一卷积特征图根据预设第一融合系数进行加权求和，获得用于目标分类的第一融合特征图。

在一种可能的实施方式中，所述基于预设的第二融合系数，对所述各第一特征图和各第二融合特征图进行特征融合，获得用于目标回归的第二融合特征图，包括：

针对每个第一特征图，以及与所述每个第一特征图相同层次的每个第二特征图，将所述第一特征图与所述第二特征图进行卷积处理，得到第二卷积特征图；

将各层次的第二卷积特征图根据第二融合系数进行加权求和，获得用于目标回归的第二融合特征图。

在上述实施例中，基于不同的任务，利用不同的融合系数将不同层次的特征进行融合，得到的第一融合特征图和第二特征图中不仅包含语义信息等高层特征，还包含颜色、纹理等信息的低层特征，进而可以提升目标跟踪的准确度。

在一种可能的实施方式中，所述分别对所述模板图像、所述待搜索图像进行深层特征和浅层特征的提取，获得所述模板图像对应的多个层次的第一特征图，以及所述待搜索图像对应的多个层次的第二特征图，包括：

利用多个层次的卷积网络分别对所述模板图像、所述待搜索图像进行深层特征和浅层特征的提取；所述不同层次的卷积网络中卷积层数量与卷积核数量中的至少一类不相同；

将所述多个层次中至少两个层次的卷积网络的输出作为所述模板图像对应的至少两个第一特征图，以及将所述多个层次中至少两个层次的卷积网络的输出作为所述待搜索图像对应的至少两个第二特征图。

在上述实施例中，利用卷积层构建特征提取网络，仅通过该特征提取网络不同层次的网络输出，即可得到浅层特征和深层特征，网络结构简单，无需将模板和待搜索图像分别输入浅层特征提取网络和深层特征提取网络进行特征的提取。

在一种可能的实施方式中，所述根据基于质量评估得到的待搜索图像中各像素各自的第二评分参数与相应的第一评分参数，从所述多个候选区域中确定所述待追踪目标在所述待搜索图像中所在的目标区域，包括：

基于质量评估得到的待搜索图像中各像素各自的第二评分参数与相应的第一评分参数的乘积，确定待搜索图像中各像素位于所述待追踪目标所在目标区域的总概率；

将所述多个候选区域中总概率最高的区域，作为所述待搜索区域中所述待追踪目标所在的目标区域。

在上述实施例中，通过建立质量评估机制，能够更准确地得到待搜索图像中各像素位于所述待追踪目标所在目标区域的概率，进而提高目标跟踪的精度，另外，在确定目标区域的过程中，是基于目标分类的结果和质量评估的结果，没有引入先验数据，进而提高了整个目标跟踪算法的泛化能力。

在一种可能的实施方式中，基于所述融合特征图进行目标回归，得到所述待跟踪目标所在的多个候选区域，包括：

针对所述待搜索图像中的每个像素，将所述融合特征图输入回归网络，得到所述像素对应的一组待选距离值，所述一组待选距离值用于描述所述像素坐标与所述像素目标对应的候选区域各边界之间的距离；

基于所述一组待选距离值，确定所述像素对应的候选区域。

在一种可能的实施方式中，所述基于所述一组待选距离值，确定所述像素对应的候选区域，包括：

将所述像素坐标的纵坐标与第一距离的差，作为所述像素坐标对应待选区域第一边角位置的纵坐标，所述第一距离用于表征所述像素坐标与相应的候选区域第一边界的距离；

将所述像素坐标的横坐标与第二距离的差，作为所述像素坐标对应待选区域第一边角位置的横坐标，所述第二距离用于表征所述像素坐标与相应的候选区域第二边界的距离；

将所述像素坐标的纵坐标与第三距离的和，作为所述像素坐标对应待选区域第二边角位置的纵坐标，所述第三距离用于表征所述像素坐标与相应的候选区域第三边界的距离；

将所述像素坐标的横坐标与第四距离的和，作为所述像素坐标对应待选区域第二边角位置的横坐标，所述第四距离用于表征所述像素坐标与相应的候选区域第四边界的距离。

在上述实施例中，在确定候选区域的过程中，是基于待搜索图像中各像素的坐标确定的，没有引入预设锚(先验数据)，进而提高了整个目标跟踪算法的泛化能力。

第二方面，本申请实施例提供了一种目标跟踪装置，所述装置包括：

特征提取模块，用于分别对模板图像和当前帧对应的待搜索图像进行深层特征和浅层特征的提取，获得所述模板图像对应的多个层次的第一特征图，以及所述待搜索图像对应的多个层次的第二特征图；所述模板图像是通过提取视频的参考帧中的待跟踪目标得到的，所述待搜索图像是基于所述待跟踪目标在上一帧中的所在区域确定的；

特征融合模块，用于基于预设的融合系数，对各第一特征图和各第二特征图进行特征融合，获得融合特征图；

分类回归模块，用于基于所述融合特征图进行目标分类和目标回归，得到所述待搜索图像中各像素各自的第一评分参数，以及所述待跟踪目标所在的多个候选区域；所述第一评分参数表征相应像素位于所述待追踪目标所在目标区域的第一概率；

确定目标区域模块，用于根据基于质量评估得到的待搜索图像中各像素各自的第二评分参数与相应的第一评分参数，从所述多个候选区域中确定所述待追踪目标在所述待搜索图像中所在的目标区域，所述第二评分参数表征相应像素位于所述待追踪目标所在目标区域的第二概率。

第三方面，本申请实施例提供了一种目标跟踪设备，所述设备包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上述第一方面的方法。

第四方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行如上述第一方面的方法。

附图说明

图1为本申请实施例提供的一种目标跟踪方法应用场景示意图；

图2为本申请实施例提供的一种目标跟踪方法流程示意图；

图3为本申请实施例提供的一种特征提取网络的结构示意图；

图4为本申请实施例提供的一种目标跟踪方法的算法结构示意图；

图5为本申请实施例提供的一种候选区域示意图；

图6为本申请实施例提供的一种目标跟踪方法具体流程示意图；

图7为本申请实施例提供的一种目标跟踪装置示意图；

图8为本申请实施例提供的一种目标跟踪设备示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以按不同于此处的顺序执行所示出或描述的步骤。

如图1所示为本申请实施例提供的一种目标跟踪方法的应用场景示意图，该应用场景中包括：服务器101、数据库102、参考帧图像103_1和参考帧图像后至少一帧图像(图中示出的参考帧后第一帧图像103_2和参考帧后第一帧图像103_3)。其中服务器101用于基于参考帧图像103_1和参考帧图像后的至少一帧图像，进行目标跟踪；通过参考帧图像103_3提取待跟踪目标，以该目标为基准，在参考帧后的各帧图像中确定该目标所在区域；数据库102用于存储执行缺陷检测方法所需要的数据和程序。

目前基于孪生网络的单目标跟踪算法中，特征提取是算法模型的关键步骤，现有的特征提取中，单一层次的深度特征不能很好地代表目标，低层的特征往往只能表达简单的特征，随着网络层数的加深，深度特征的抽象程度越来越高，高层特征的语义信息越来越丰富。如果只使用低层特征或者只使用高层特征来进行目标跟踪，单一的特征信息在某些场景下，其跟踪结果会出现偏差。为了解决上述问题，本申请实施例提供了一种目标跟踪方法，如图2所示，所述方法包括：

S201：分别对模板图像和当前帧对应的待搜索图像进行深层特征和浅层特征的提取，获得所述模板图像对应的多个层次的第一特征图，以及所述待搜索图像对应的多个层次的第二特征图。

在进行特征提取之前，需要对参考帧图像和当前帧图像进行处理。通过提取视频的参考帧中的待跟踪目标得到模板图像，模板图像为固定的，在本申请实施例中，在初始帧不包含待跟踪目标，或者初始帧待跟踪目标不够明确的情况下，可以选择其它帧进行待跟踪目标的提取；基于上一帧图像中的目标区域对当前帧图像进行剪裁，得到一个比上一帧图像目标区域尺寸大的待搜索区域。

在本申请实施例中，利用多个层次的卷积网络分别对所述模板图像、所述待搜索图像进行深层特征和浅层特征的提取；所述不同层次的卷积网络中卷积层数量与卷积核数量中的至少一类不相同；

将所述多个层次中至少两个层次的卷积网络的输出作为所述模板图像对应的至少两个第一特征图，以及将所述多个层次中至少两个层次的卷积网络的输出作为所述待搜索图像对应的至少两个第二特征图，本申请实施例不对特征提取网络的层次数量，各层次网络中的各项参数(卷积核的大小、卷积核的数量、步长等)进行具体限定，保证输出至少一个浅层特征(像素点信息，例如图像的颜色、纹理、边缘、棱角、位置和细节等信息)，以及至少一个深层信息(抽象信息，例如语义信息)。

如图3所示为本申请实施例提供的一种特征提取网络的结构图(残差网络-50)，共包括5层次的网络结构，其中，第3层次网络、第4层次网络、第5层次网络分别输出特征图。

第1层次为1个卷积层和1个池化层，步长均为2；第2层次一共有9个卷积层，3个卷积层为一组且每组有着相同的结构，每个卷积层的步长都为1；第3层次一共有12个卷积层，3个卷积层为一组，除了第1组中的第2个卷积层的步长为2，其余卷积层的步长均为1；第4层次一共有18个卷积层，3个卷积层为一组且每组有着相同的结构，每个卷积层的步长均为1；第5层次一共有9个卷积层，3个卷积层为一组且每组有着相同的结构，每个卷积层的步长均为1，特征提取网络的总步长为8。

图3所示的网络在保证网络结构简洁的基础上，还能保证仅利用一个网络结构便可以同时提取深层特征和浅层特征。

S202：基于预设的融合系数，对各第一特征图和各第二特征图进行特征融合，获得融合特征图。

在一种可能的实施方式中，基于预设的第一融合系数，对所述各第一特征图和各第二融合特征图进行特征融合，获得用于目标分类的第一融合特征图，其具体过程如图4所示。

利用公式1确定第一卷积特征图，将各层次网络对应的第一卷积特征图根据预设第一融合系数进行加权求和，获得用于目标分类的第一融合特征图，如公式2所示。

其中，C_i表示第i个层次网络对应的第一卷积特征图，

表示经第i个层次的网络提取特征，进而输出的第i个第一特征图，

表示经第i个层次的网络提取特征，进而输出的第i个第二特征图；C_total表示第一融合特征图，γ_i表示用于目标分类的第i层次网络对应的融合系数，对于不同层次的网络，对应的融合系数可以设置为相同，也可以设置为不同。例如，若对于模板图像来说，语义信息比较重要，则将深层特征提取网络对应的第一融合系数设置大于浅层特征提取网络对应的第一融合系数，且各第一融合系数的加和为1。

如图4所示，基于预设的第二融合系数，对所述各第一特征图和各第二融合特征图进行特征融合，获得用于目标回归的第二融合特征图。

利用公式3确定第二卷积特征图，将各层次网络对应的第二卷积特征图根据预设第二融合系数进行加权求和，获得用于目标回归的第二融合特征图，如公式4所示。

其中，B_i表示第i个层次网络对应的第二卷积特征图，

表示经第i个层次的网络提取特征，进而输出的第i个第二特征图，

表示经第i个层次的网络提取特征，进而输出的第i个第二特征图；B_total表示第二融合特征图，λ_i表示用于目标回归的第i层次网络对应的融合系数，对于不同层次的网络，对应的融合系数可以设置为相同，也可以设置为不同。例如，若对于待搜索图像来说，颜色、边缘信息比较重要，则将浅层特征提取网络对应的第二融合系数设置大于深层特征提取网络对应的第二融合系数，且各第二融合系数的加和为1。

图4中对模板图像提取特征的网络结构和对待搜索图像进行特征提取的网络结构相同。以图3所示的网络结构为例，第3层次网络、第4层次网络和第5层次网络结构的输出为从浅层特征到深层特征的特征图。

S203：基于所述融合特征图进行目标分类和目标回归，得到所述待搜索图像中各像素各自的第一评分参数，以及所述待跟踪目标所在的多个候选区域。

如图4所示，经特征融合后包括分类和回归两个任务分支，目标分类的目的是为了区分待跟踪目标与背景，目标回归是为了确定待跟踪目标在待搜索图像中的区域。

(1)在分类分支中。

将第一特征融合图输入分类网络，得到待搜索图像中各像素各自的第一评分参数，其中，第一评分参数表征相应像素位于所述待追踪目标所在目标区域的第一概率。

为了提高网络的运行效率，特征提取步骤对模板图像和待搜索图像根据网络总步长(本申请实施例设置为8，也可以设置为其它)进行下采样，因此经分类网络输出的结果对应的元素坐标，按照公式5还原为待搜索区域中像素的坐标。

x’＝s/2+xs、y’＝s/2+ys 公式5

其中，(x’,y’)为待搜索图像中像素的坐标，(x,y)为分类网络输出的结果中对应的坐标。由于分类网络输出的结果，其尺寸与待搜索区域不同，因此(x,y)对应的第一评分参数，在待搜索图像中对应的是以(x’,y’)为中心的多个像素所在区域(总步长*总步长)。以总步长为8为例，(x,y)为(0,0)，则(x’,y’)＝(4,4)，则在待搜素图像中，以(4,4)为中心周围8*8的像素均为候选区域中的一部分。

从分类网络输出的结果为一个w*h的第一评分参数矩阵(在0～1之间)，如

为一个3*3的第一评分参数矩阵，其中最大评分为0.95，其在第一评分参数矩阵中的坐标为(1,1)(以左下方“0.15”的位置为原点)，则对应待搜索图像中像素的坐标(以总步长8为例)为(8/2+8，8/2+8)＝(12,12)，则以(12,12)为中心的8*8的像素均在候选区域中。

(2)在回归分支中。

将第二融合特征图输入回归网络中，得到所述像素对应的一组待选距离值(l,t,r,b)。一组待选距离值用于描述所述像素坐标与所述像素目标对应的候选区域各边界之间的距离，l表示像素坐标与所述像素目标对应的候选区域左边界之间的距离；t表示像素坐标与所述像素目标对应的候选区域上边界之间的距离；r表示像素坐标与所述像素目标对应的候选区域右边界之间的距离；b表示像素坐标与所述像素目标对应的候选区域下边界之间的距离。

通过(l,t,r,b)确定所述像素对应的候选区域的具体实施方式如下：

将所述像素坐标的纵坐标与第一距离的差，作为所述像素坐标对应待选区域第一边角位置的纵坐标，所述第一距离用于表征所述像素坐标与相应的候选区域第一边界的距离。即通过公式6计算，y₀’为候选区域左上角位置的纵坐标，y’为像素在待搜索区域中的纵坐标，t^reg为通过回归网络输出的距离值。

y′₀＝y′-t^reg 公式6

将所述像素坐标的横坐标与第二距离的差，作为所述像素坐标对应待选区域第一边角位置的横坐标，所述第二距离用于表征所述像素坐标与相应的候选区域第二边界的距离。即通过公式7计算，x₀’为候选区域左上角位置的横坐标，x’为像素在待搜索区域中的横坐标，t^reg为通过回归网络输出的距离值。

x′₀＝x′-l^reg 公式7

将所述像素坐标的纵坐标与第三距离的和，作为所述像素坐标对应待选区域第二边角位置的纵坐标，所述第三距离用于表征所述像素坐标与相应的候选区域第三边界的距离。即通过公式8计算，y₁’为候选区域右下角位置的纵坐标，y’为像素在待搜索区域中的纵坐标，b^reg为通过回归网络输出的距离值。

y′₁＝y′+b^reg 公式8

将所述像素坐标的横坐标与第四距离的和，作为所述像素坐标对应待选区域第二边角位置的横坐标，所述第四距离用于表征所述像素坐标与相应的候选区域第四边界的距离。即通过公式9计算，x₁’为候选区域右下角位置的横坐标，x’为像素在待搜索区域中的横坐标，r^reg为通过回归网络输出的距离值。

x′₁＝x′+r^reg 公式9

其中，如图5所示的候选区域，上述第一边界和第二边界互相垂直，第二边界和第四边界互相平行，第三边界和第四边界互相垂直，第一边界和第三边界互相平行。

通过上述实施方式最后可以得到候选区域左上角位置在待搜索区域中的坐标(x₀’,y₀’)，以及候选区域右下角位置在待搜索区域中的坐标(x₁’,y₁’)。

在上述目标分类和目标回归的过程中，没有预先设置锚(先验框)，即没有在待搜索区域预先设置多个不同尺寸的矩形框，而是直接根据像素点的位置确定候选区域，使得回归网络和分类网络的泛化能力提高。

S204：根据基于质量评估得到的待搜索图像中各像素各自的第二评分参数与相应的第一评分参数，从所述多个候选区域中确定所述待追踪目标在所述待搜索图像中所在的目标区域。

采用公式10，利用回归网络输出的一组距离值，对待搜索图像中的每个像素进行质量评估，得到第二评分参数。

第二评分参数表征相应像素位于所述待追踪目标所在目标区域的第二概率。

基于质量评估得到的待搜索图像中各像素各自的第二评分参数与相应的第一评分参数的乘积，确定待搜索图像中各像素位于所述待追踪目标所在目标区域的总概率。

例如，对于某一像素，其第一评分参数为0.8，第二评分参数为0.9，则该像素位于所述待追踪目标所在目标区域的总概率为0.8*0.9＝0.72。

待搜索图像中的每个像素均对应一个总概率和一个候选区域，若某一像素的总概率最高，则其对应的候选区域即为目标区域。

另外，若基于当前帧得到的待搜索图像不是最后一帧(下一帧还包括待跟踪目标)，则下一帧图像继续进行S201～S204；若下一帧不包括待跟踪目标，则停止进行S201～S204。

下面通过图6对本申请实施例提供的一种目标跟踪方法的整体流程进行介绍。

首先，分别对模板图像和当前帧对应的待搜索图像进行深层特征和浅层特征的提取，获得所述模板图像对应的多个层次的第一特征图，以及所述待搜索图像对应的多个层次的第二特征图，并进行对应特征融合；然后，基于所述融合特征图进行目标分类和目标回归，得到所述待搜索图像中各像素各自的第一评分参数，以及所述待跟踪目标所在的多个候选区域；另外，根据基于质量评估得到的待搜索图像中各像素各自的第二评分参数与相应的第一评分参数，从所述多个候选区域中确定所述待追踪目标在所述待搜索图像中所在的目标区域；最后判断下一帧是否包括待跟踪目标，若包括，则对下一帧执行上述过程，若不包括，则输出跟踪结果。

在本申请实施例中，通过特征融合将不同层次包含不同信息的特征加以融合，并分别输入分类分支与回归分支中，提高模型识别和定位的能力；通过建立对分类结果进行评估的机制，抑制距离中心位置较远的矩形框的得分，从而提高跟踪精度；而且对于现有技术中基于锚的跟踪算法，由于锚框的设定，会有引入对数据分布的先验知识，这会对模型的泛化能力产生影响，且多个锚框的引入带来不必要的计算负担，本申请实施例没有设置锚框，直接通过像素坐标预测该坐标对应的候选区域，减弱先验知识对跟踪结果的影响。

基于相同的发明构思，本申请提供了一种目标跟踪装置，如图7所示，所述装置700包括：

特征提取模块701，用于分别对模板图像和当前帧对应的待搜索图像进行深层特征和浅层特征的提取，获得所述模板图像对应的多个层次的第一特征图，以及所述待搜索图像对应的多个层次的第二特征图；所述模板图像是通过提取视频的参考帧中的待跟踪目标得到的，所述待搜索图像是基于所述待跟踪目标在上一帧中的所在区域确定的；

特征融合模块702，用于基于预设的融合系数，对各第一特征图和各第二特征图进行特征融合，获得融合特征图；

分类回归模块703，用于基于所述融合特征图进行目标分类和目标回归，得到所述待搜索图像中各像素各自的第一评分参数，以及所述待跟踪目标所在的多个候选区域；所述第一评分参数表征相应像素位于所述待追踪目标所在目标区域的第一概率；

确定目标区域模块704，用于根据基于质量评估得到的待搜索图像中各像素各自的第二评分参数与相应的第一评分参数，从所述多个候选区域中确定所述待追踪目标在所述待搜索图像中所在的目标区域；所述第二评分参数表征相应像素位于所述待追踪目标所在目标区域的第二概率。

在一种可能的实施方式中，特征融合模块702用于基于预设的融合系数，对各第一特征图和各第二特征图进行特征融合，获得融合特征图，包括：

在一种可能的实施方式中，特征融合模块702用于基于预设的第一融合系数，对所述各第一特征图和各第二融合特征图进行特征融合，获得用于目标分类的第一融合特征图，包括：

在一种可能的实施方式中，特征融合模块702用于基于预设的第二融合系数，对所述各第一特征图和各第二融合特征图进行特征融合，获得用于目标回归的第二融合特征图，包括：

在一种可能的实施方式中，特征提取模块701用于分别对所述模板图像、所述待搜索图像进行深层特征和浅层特征的提取，获得所述模板图像对应的多个层次的第一特征图，以及所述待搜索图像对应的多个层次的第二特征图，包括：

在一种可能的实施方式中，确定目标区域模块704用于根据基于质量评估得到的待搜索图像中各像素各自的第二评分参数与相应的第一评分参数，从所述多个候选区域中确定所述待追踪目标在所述待搜索图像中所在的目标区域，包括：

在一种可能的实施方式中，分类回归模块703用于基于所述融合特征图进行目标回归，得到所述待跟踪目标所在的多个候选区域，包括：

基于所述一组待选距离值，确定所述像素对应的候选区域。

在一种可能的实施方式中，分类回归模块703用于基于所述一组待选距离值，确定所述像素对应的候选区域，包括：

基于相同的发明构思，本申请实施例还提供了一种目标跟踪设备，所述设备包括至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例中的任一目标跟踪方法。

下面参照图8来描述根据本申请的这种实施方式的目标跟踪设备80。图8显示的目标跟踪设备80仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，目标跟踪设备80以通用目标跟踪设备的形式表现。目标跟踪设备80的组件可以包括但不限于：上述至少一个处理器81、上述至少一个存储器82、连接不同系统组件(包括存储器82和处理器81)的总线83。

所述处理器81用于读取所述存储器82中的指令并执行，以使所述至少一个处理器能够执行上述实施例提供的目标跟踪方法。

总线83表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器82可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)821和/或高速缓存存储器822，还可以进一步包括只读存储器(ROM)823。

存储器82还可以包括具有一组(至少一个)程序模块824的程序/实用工具825，这样的程序模块824包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

目标跟踪设备80也可以与一个或多个外部设备84(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与目标跟踪设备80交互的设备通信，和/或与使得该目标跟踪设备80能与一个或多个其它目标跟踪设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口85进行。并且，目标跟踪设备80还可以通过网络适配器86与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器86通过总线83与用于目标跟踪设备80的其它模块通信。应当理解，尽管图中未示出，可以结合目标跟踪设备80使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本申请提供的一种目标跟踪方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种目标跟踪方法的步骤。

另外，本申请还提供一种计算机可读存储介质，所述计算机存储介质存储有计算机程序所述计算机程序用于使计算机执行上述实施例中任何一项所述的方法。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种目标跟踪方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预设的融合系数，对各第一特征图和各第二特征图进行特征融合，获得融合特征图，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于预设的第一融合系数，对所述各第一特征图和各第二融合特征图进行特征融合，获得用于目标分类的第一融合特征图，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于预设的第二融合系数，对所述各第一特征图和各第二融合特征图进行特征融合，获得用于目标回归的第二融合特征图，包括：

5.根据权利要求1所述的方法，其特征在于，所述分别对所述模板图像、所述待搜索图像进行深层特征和浅层特征的提取，获得所述模板图像对应的多个层次的第一特征图，以及所述待搜索图像对应的多个层次的第二特征图，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据基于质量评估得到的待搜索图像中各像素各自的第二评分参数与相应的第一评分参数，从所述多个候选区域中确定所述待追踪目标在所述待搜索图像中所在的目标区域，包括：

7.根据权利要求1所述的方法，其特征在于，基于所述融合特征图进行目标回归，得到所述待跟踪目标所在的多个候选区域，包括：

基于所述一组待选距离值，确定所述像素对应的候选区域。

8.根据权利要求7所述的方法，其特征在于，所述基于所述一组待选距离值，确定所述像素对应的候选区域，包括：

9.一种目标跟踪设备，其特征在于，所述设备包括：

至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-8中任何一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序用于使计算机执行如权利要求1-8任何一项所述的方法。