CN109741364A

CN109741364A - 目标跟踪方法及装置

Info

Publication number: CN109741364A
Application number: CN201811378140.7A
Authority: CN
Inventors: 刘彬; 张默
Original assignee: Beijing Moshanghua Technology Co Ltd
Current assignee: Beijing Moshanghua Technology Co Ltd
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-05-10
Anticipated expiration: 2038-11-19
Also published as: CN109741364B

Abstract

本申请公开了一种目标跟踪方法及装置。该方法包括在视频帧的图像目标候选区中提取图像特征，并输出初始响应值；平滑所述视频帧的初始响应值；以及更新响应值，确定目标在视频帧中的位置信息。本申请解决了目标跟踪方法的效果不佳的技术问题。通过本申请的方法，对于网络的输出响应会经常因为尺度变换、突然运动等复杂的目标状态而出现多峰、漂移等现象，通过充分考虑了图像相邻超像素块之间的相似性关系，利用该关系约束了初始响应值，抑制了跟踪过程中的漂移现象，进而校正目标的位置信息。进而提升了标跟踪方法的跟踪精度和跟踪效率。

Description

目标跟踪方法及装置

技术领域

本申请涉及计算机视觉领域，具体而言，涉及一种目标跟踪方法及装置。

背景技术

目标跟踪是计算机视觉领域研究的热点之一，当前广泛应用于视频监控、人机交互等实际问题中，具有重要的研究价值。但是受限于实际环境的复杂性，例如遮挡、光照变化、目标形变以及背景相似干扰等，当相关滤波的跟踪方法在准确性、鲁棒性以及实时性上可以在一定程度的满足实际应用需求。

发明人发现，在相关滤波的跟踪方法，跟踪过程中会产生漂移现象，进一步影响到跟踪准确性。

针对相关技术中目标跟踪方法的效果不佳的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种目标跟踪方法及装置，以解决目标跟踪方法的效果不佳的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种目标跟踪方法。

根据本申请的目标跟踪方法包括：在视频帧的图像目标候选区中提取图像特征，并输出初始响应值；平滑所述视频帧的初始响应值；以及更新响应值，确定目标在视频帧中的位置信息。

进一步地，在视频帧的图像目标候选区中提取图像特征，并输出初始响应值包括：训练轻量级网络模型对图像目标候选区进行特征提取；根据特征提取结果得到滤波器；以及通过滤波器输出初始响应值。

进一步地，平滑所述视频帧的初始响应值包括：通过网络提取目标候选区域的图像块；对图像块超像素化处理，得到相邻超像素块之间的相似性关系；根据所述相似性关系构建相似度矩阵，并通过所述相似矩阵平滑初始响应值。

进一步地，更新响应值，确定目标在视频帧中的位置信息包括：根据所述初始响应值和相似度矩阵更新响应图，确认目标位置。

进一步地，更新响应值，确定目标在视频帧中的位置信息包括：通过训练卷积神经网络得到图像目标候选区的响应值；校正目标的位置信息，得到校正后的响应值；根据所述校正后的响应值确定视频帧中的位置信息。

为了实现上述目的，根据本申请的另一方面，提供了一种目标跟踪装置。

根据本申请的目标跟踪装置包括：响应模块，用于在视频帧的图像目标候选区中提取图像特征，并输出初始响应值；平滑模块，用于平滑所述视频帧的初始响应值；以及学习更新模块，用于更新响应值，确定目标在视频帧中的位置信息。

进一步地，所述响应模块包括：提取单元，用于训练轻量级网络模型对图像目标候选区进行特征提取；滤波单元，用于根据特征提取结果得到滤波器；以及输出单元，用于通过滤波器输出初始响应值。

进一步地，所述平滑模块包括：图像块单元，用于通过网络提取目标候选区域的图像块；相似性关系单元，用于对图像块超像素化处理，得到相邻超像素块之间的相似性关系；平滑单元，用于根据所述相似性关系构建相似度矩阵，并通过所述相似矩阵平滑初始响应值。

进一步地，所述平滑模块包括：更新单元，用于根据所述初始响应值和相似度矩阵更新响应图，确认目标位置。

进一步地，所述学习更新模块包括：响应单元，用于通过训练卷积神经网络得到图像目标候选区的响应值；校正单元，用于校正目标的位置信息，得到校正后的响应值；确定单元，用于根据所述校正后的响应值确定视频帧中的位置信息。

在本申请实施例中，采用在视频帧的图像目标候选区中提取图像特征，并输出初始响应值的方式，通过平滑所述视频帧的初始响应值，达到了更新响应值，确定目标在视频帧中的位置信息的目的，从而实现了抑制了跟踪过程中的漂移现象的技术效果，进而解决了目标跟踪方法的效果不佳的技术问题。本申请通过将连续CRF模型运用到目标跟踪中，通过对CRF模型中单个势结点和相邻势结点之间的关系建模，优化了基于深度学习的DCF跟踪算法，有效缓解了不同情况下的跟踪漂移问题，特别是在目标尺度变化时，明显提高了跟踪的成功率。

此外，本申请在OTB-2013的五十个视频序列和OTB-2015的一百个视频序列上进行了大量的实验与测试，在统一环境下，使用通用评测标准，与九种近年来在国际上具有代表性的相关算法进行了对比分析，显著性实验结果验证了算法的有效性，准确性和鲁棒性。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请第一实施例的目标跟踪方法示意图；

图2是根据本申请第二实施例的目标跟踪方法示意图；

图3是根据本申请第三实施例的目标跟踪方法示意图；

图4是根据本申请第四实施例的目标跟踪方法示意图；

图5是根据本申请第一实施例的目标跟踪装置示意图；

图6是根据本申请第二实施例的目标跟踪装置示意图；

图7是根据本申请第三实施例的目标跟踪装置示意图；

图8是根据本申请第四实施例的目标跟踪装置示意图；

图9是根据本申请实施例的目标跟踪模型架构示意图；

图10是根据本申请实施例的图像超像化过程示意图；

图11是根据本申请实施例的深度网络模块中网络设计细节示意图；

图12是根据本申请实施例的滤波器随着时间步长迭代更新的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

在本申请中结合连续条件随机场CRF模型提出了一种新的端到端的目标跟踪方法，充分考虑了图像相邻超像素块之间的相似性关系，利用该关系约束了初始响应值，抑制了跟踪过程中的漂移现象。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S102至步骤S104：

步骤S102，在视频帧的图像目标候选区中提取图像特征，并输出初始响应值；

目标跟踪的主要目的在于确定目标在视频帧中的位置信息，需要通过相应的目标表观特征描述方法将其中相对稳定的统计特征或某些不变的特征提取出来，一般通过相关滤波器来获取目标候选区域的响应，作为判断目标位置的标准，与背景加以区分。

在深度网络中对图像目标候选区进行特征提取，并且可以通过相关滤波层输出初始响应值。具体地，使用一元状态函数对进行建模，目的是通过训练深度网络获取图像目标候选区域的特征，得到理想的滤波器，输出初始响应。

步骤S104，平滑所述视频帧的初始响应值；

通过网络输出一组一维向量，利用该向量建立相邻超像素块之间的相似性关系，用来约束一元状态函数中的初始图像响应。通过相邻超像素块之间的相似性关系平滑视频帧的输出响应。相邻超像素块是指，由于视频中的每一帧图像都由若干个像素组成，假设可以将每一张图像分割成若干个超像素块，并且认为图像模型是由很多超像素块所构成。

步骤S106，更新响应值，确定目标在视频帧中的位置信息。

结合初始响应值和的相似度矩阵更新响应图，最终确认目标位置。更新初始响应矩阵，校正目标的位置信息，得到校正后的响应。

通过一个端到端的网络框架，将连续CRF模型嵌入深度卷积神经网络中，使用反向传播优化网络参数，在保持算法实时性的前提下，提升了算法的跟踪精度和跟踪效率。

从以上的描述中，可以看出，本申请实现了如下技术效果：

在本申请实施例中，采用在视频帧的图像目标候选区中提取图像特征，并输出初始响应值的方式，通过平滑所述视频帧的初始响应值，达到了更新响应值，确定目标在视频帧中的位置信息的目的，从而实现了抑制了跟踪过程中的漂移现象的技术效果，进而解决了目标跟踪方法的效果不佳的技术问题。

根据本申请实施例，作为本实施例中的优选，如图2所示，在视频帧的图像目标候选区中提取图像特征，并输出初始响应值包括：

步骤S202，训练轻量级网络模型对图像目标候选区进行特征提取；

本申请提出的轻量级网络模型经过训练之后，不仅可以应用于传统的相关滤波目标跟踪方法，也可以应用于许多其他类型的目标跟踪方法。每跟踪一个新的视频帧，网络就会输出该帧的特征再输入到相关滤波层，根据上一帧的特征来更新一个新的滤波器w。

步骤S204，根据特征提取结果得到滤波器；

通过相关滤波器来获取目标候选区域的响应，作为判断目标位置的标准，与背景加以区分。

步骤S206，通过滤波器输出初始响应值。

输出的初始响应值，可利用相邻超像素块之间的关系约束初始响应值，从而抑制跟踪过程中的漂移现象。

根据本申请实施例，作为本实施例中的优选，如图3所示，平滑所述视频帧的初始响应值包括：

步骤S302，通过网络提取目标候选区域的图像块；

由于视频中的每一帧图像都由若干个像素组成，假设可以将每一张图像分割成若干个超像素块，并且认为图像模型是由很多超像素块所构成。

具体地，先对图像整体进行卷积运算，再对结果进行分割，从而提高网络训练的速度和准确率。该模块中的特征提取部分主要由两个卷积层、一个修正线性单元和一个局部响应归一化层构成。

步骤S304，对图像块超像素化处理，得到相邻超像素块之间的相似性关系；

步骤S306，根据所述相似性关系构建相似度矩阵，并通过所述相似矩阵平滑初始响应值。

优选地，还包括步骤S308，根据所述初始响应值和相似度矩阵更新响应图，确认目标位置。

具体地，其中，C_ij表示相邻超像素块v_i和v_j之间的依赖关系，可以用全连接层来表示：其中，β是网络参数，S^(k)表示相邻超像素块之间的第k种相似性关系矩阵。可以用位置信息、HoG特征等建立相邻超像素块之间的相似性关系，本发明将这k种相似性关系的模型表示为：

其中，和表示相邻超像素块v_i和v_j对应的特征值，γ是常数，用来调节关系的弹性。

根据本申请实施例，作为本实施例中的优选，如图4所示，更新响应值，确定目标在视频帧中的位置信息包括：

步骤S402，通过训练卷积神经网络得到图像目标候选区的响应值；

步骤S404，校正目标的位置信息，得到校正后的响应值；

步骤S406，根据所述校正后的响应值确定视频帧中的位置信息。

具体地，对相邻超像素块间的位置信息构建相似度矩阵，并更新响应图，根据更新目标的位置信息。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本申请实施例，还提供了一种用于实施上述目标跟踪方法的装置，如图5所示，该装置包括：响应模块10，用于在视频帧的图像目标候选区中提取图像特征，并输出初始响应值；平滑模块20，用于平滑所述视频帧的初始响应值；以及学习更新模块30，用于更新响应值，确定目标在视频帧中的位置信息。

本申请实施例的响应模块10中目标跟踪的主要目的在于确定目标在视频帧中的位置信息，需要通过相应的目标表观特征描述方法将其中相对稳定的统计特征或某些不变的特征提取出来，一般通过相关滤波器来获取目标候选区域的响应，作为判断目标位置的标准，与背景加以区分。

本申请实施例的平滑模块20中通过网络输出一组一维向量，利用该向量建立相邻超像素块之间的相似性关系，用来约束一元状态函数中的初始图像响应。通过相邻超像素块之间的相似性关系平滑视频帧的输出响应。相邻超像素块是指，由于视频中的每一帧图像都由若干个像素组成，假设可以将每一张图像分割成若干个超像素块，并且认为图像模型是由很多超像素块所构成。

本申请实施例的学习更新模块30中结合初始响应值和的相似度矩阵更新响应图，最终确认目标位置。更新初始响应矩阵，校正目标的位置信息，得到校正后的响应。

根据本申请实施例，作为本实施例中的优选，如图6所示，所述响应模块10包括：提取单元101，用于训练轻量级网络模型对图像目标候选区进行特征提取；滤波单元102，用于根据特征提取结果得到滤波器；以及输出单元103，用于通过滤波器输出初始响应值。

本申请实施例的提取单元101中本申请提出的轻量级网络模型经过训练之后，不仅可以应用于传统的相关滤波目标跟踪方法，也可以应用于许多其他类型的目标跟踪方法。每跟踪一个新的视频帧，网络就会输出该帧的特征再输入到相关滤波层，根据上一帧的特征来更新一个新的滤波器w。

本申请实施例的滤波单元102中通过相关滤波器来获取目标候选区域的响应，作为判断目标位置的标准，与背景加以区分。

本申请实施例的输出单元103中输出的初始响应值，可利用相邻超像素块之间的关系约束初始响应值，从而抑制跟踪过程中的漂移现象。

根据本申请实施例，作为本实施例中的优选，如图7所示，所述平滑模块20包括：图像块单元201，用于通过网络提取目标候选区域的图像块；相似性关系单元202，用于对图像块超像素化处理，得到相邻超像素块之间的相似性关系；平滑单元203，用于根据所述相似性关系构建相似度矩阵，并通过所述相似矩阵平滑初始响应值。

优选地，所述平滑模块20还包括：更新单元204，用于根据所述初始响应值和相似度矩阵更新响应图，确认目标位置。

本申请实施例的图像块单元201中由于视频中的每一帧图像都由若干个像素组成，假设可以将每一张图像分割成若干个超像素块，并且认为图像模型是由很多超像素块所构成。

根据本申请实施例，作为本实施例中的优选，如图8所示，所述学习更新模块30包括：响应单元301，用于通过训练卷积神经网络得到图像目标候选区的响应值；校正单元302，用于校正目标的位置信息，得到校正后的响应值；确定单元303，用于根据所述校正后的响应值确定视频帧中的位置信息。

具体地，对相邻超像素块间的位置信息构建相似度矩阵，并更新响应图，根据更新目标的位置信息。基于图像相邻超像素块之间位置关系的相似度矩阵，利用连续随机校验场模型中极大似然对数存在的闭式解，推导出了图像目标响应值与相邻超像素块相似度之间的理论相关性，利用这种相关性在响应图中校正了目标的相对位置，减少了目标周边背景噪声的影响。

本申请的实现原理如下：

请参考图3是本申请提出的基于条件随机场和基于判别式相关滤波的深度目标跟踪模型，整个跟踪模型包括一元特征模块，二元关系模块和学习更新模块三个部分。其中，一元特征模块实现了在深度网络中对图像目标候选区的特征提取，并且通过相关滤波层输出初始响应值；二元关系模块通过网络输出一组一维向量，利用该向量建立相邻超像素块之间的相似性关系，用来约束一元特征模块中的初始图像响应；学习更新模块结合一元特征模块中的初始响应值和二元关系模块中的相似度矩阵更新响应图，最终确认目标位置。

本申请通过将条件随机场CRF和基于深度学习的相关跟踪滤波跟踪网络DCF结合，设计了一个新的端到端的网络框架。为了使模型的跟踪效果更优，算法鲁棒性更强，在离线训练时，本申请使用了基于随机梯度下降的反向传播来优化网络参数。

根据传统的CRF参数化模型，在随机变量X取值为x的条件下，随机变量Y取值为y的条件概率密度函数可以表示为：

式中，i，j＝1，2，...，n，s_l和t_k是特征函数，μ_l和λ_k是对应的权值，求和是在所有可能的输出序列上进行的。根据公式(1)，本申请将特征表示部分用能量函数G(y，x)来表示，因此条件概率密度函数可以写为：

式中，Z(x)表示规范化因子：

Z(x)＝∫_yexp{-G(y，x)}dy (3)

由于这里的y是连续值，与离散的情况不同，因此需要用积分来替换原来的求和运算，为了预测目标位置，可用模型的最大后验概率(MAP)来推断视频帧的响应，具体表示为：

由于概率图模型是由图表示的概率分布，图(graph)是由结点(node)及连接结点的边(edge)组成的集合，结点和边分别表示为v和e，结点和边的集合记作V和E，图G可表示为G＝(V，E)，本申请中能量函数G(y，x)可由一元状态函数V和二元转移函数E构成，这里V对应于图像中n个超像素块，旨在回归每个超像素块对应的响应；E依赖于图像中S对相邻超像素块之间的关系，该关系的相似性有约束响应值的作用，超像素块间的相似度越高，对应的响应值越接近。根据公式(1)可以将这里的函数V和函数E表示为：

因此，能量函数G(y，x)也可以表示为：

本申请将一元状态函数V和二元转移函数E嵌入到统一的卷积神经网络(CNN)框架中，结合相关滤波建立一个深度网络来得到图像目标候选区的响应值，从而准确地预测目标的位置信息。

请参考图3，本申请使用一元状态函数V对一元特征模块进行建模，目的是通过训练深度网络获取图像目标候选区域的特征，得到理想的滤波器，输出初始响应。

其中，y_i表示理想状态下的响应，R_i(α)表示网络输出的响应，α是网络中的参数。

将图像分为n个超像素块之后，每个超像素块的区域对应CRF中的结点信息，其中(a_i，b_i)表示超像素块的中心位置，(w_i，h_i)表示超像素块的宽度和高度，考虑到对每一个超像素块单独进行卷积运算会存在大量的内存消耗，导致计算效率降低，本申请利用Fast R-CNN的思想，先对图像整体进行卷积运算，再对结果进行分割，从而提高网络训练的速度和准确率。具体地，网络设计细节可参考图11，该一元特征模块中的特征提取部分主要由两个卷积层、一个修正线性单元和一个局部响应归一化层构成，

网络的输入表示为视频帧在第一个卷积层中，为了能够更好的利用位置对应信息，本申请在图片x的外侧进行填补，填补的尺寸为1。图片x通过一个权重矩阵W¹得到96个特征映射，W¹包含96个子矩阵，即其中表示第一个卷积层中每个卷积核对应的参数，卷积核的通道数和尺寸分别为3和3×3，采样间隔为1。因此输出的96个特征映射是通过对x⁰卷积响应和经过激励函数计算得到的。每个通过下式进行计算：

本申请选用修正线性单元(Rectified Linear Unit，ReLU)作为激活函数f(·)＝max(0，·)。代表卷积运算，W_i ¹和分别表示权重矩阵与偏置项，通过将所有的连接在一起，可以得到一个完整的特征映射

在第二个卷积层中，为了能更充分地利用输入信息对的外侧进行填补，填补的尺寸为1。之后将与32个卷积核依次进行卷积，对应的权重参数为每个卷积核的通道数和尺寸分别为96和3×3，采样间隔为1，可得：

将所有的特征映射组成

为了对局部神经元的活动创建竞争机制，使其中响应较大的值变得更加明显，并且抑制其他反馈较小的神经元，增强训练的稳定性和模型的泛化能力，本申请选用局部响应归一化(Local Response Normalization，LRN)层s(·)来实现，其表达式为：

其中

对于训练数据中的所有样本，该模块可以得到一个特征集合其中m表示训练样本的数量，表示每一个视频帧的特征值，上标2表示卷积层数。

本申请提出的轻量级网络模型经过训练之后，不仅可以应用于传统的相关滤波目标跟踪方法，也可以应用于许多其他类型的目标跟踪方法。在该模块中，每跟踪一个新的视频帧，网络就会输出该帧的特征再输入到相关滤波层，根据上一帧的特征来更新一个新的滤波器w，从而得到当前帧目标候选区域的初始响应图R(z)：

这里表示CNN中提取特征的第l个通道，代表循环矩阵的卷积运算，w^l表示第l个理想的滤波器，可以表示为：

这里y表示目标位置的真实值，表示离散傅里叶变换*表示变量的复共轭，⊙表示矩阵的哈达玛积。

请参考图9是深度目标跟踪模型中还包括了二元关系模块。

在本申请中使用二元转移函数E对二元关系模块进行建模，目的是为了通过相邻超像素块之间的相似性关系平滑视频帧的输出响应。

其中表示相邻超像素块v_i和v_j之间的依赖关系，可以用全连接层来表示：

这里β是网络参数，S^(k)表示相邻超像素块之间的第k种相似性关系矩阵。可以用位置信息、HoG特征等建立相邻超像素块之间的相似性关系，本发明将这k种相似性关系的模型表示为：

请参考图9是深度目标跟踪模型中还包括了学习更新模块。

学习更新模块根据公式(8)一元状态函数V和公式(14)二元转移函数E的定义，能量函数G(y，x)可以表示为：

为了便于函数表达和计算，这里定义矩阵A：

A＝I+D-C (18)

其中I表示n×n的单位阵，D表示由组成的度矩阵，它是一个对角阵，C表示由组成的邻接矩阵，D-C是一个图拉普拉斯矩阵，因此，这里的矩阵A是一个正则化拉普拉斯矩阵，能量函数G(y，x)可以替换为：

由于上式中关于y的二次项系数是矩阵A，这里的A是正定阵，结合均值θ服从先验norm分布，且θ～N(μ₀，∑₀)的多维高斯分布的公式：

规范化因子Z(x)的积分可推算得到：

根据公式(2)、公式(19)和公式(21)，可以推出CRF的先验概率模型为：

这里R＝[R₁，...，R_n]^T，是在初始响应的基础上做池化后得到的矩阵，|·|表示矩阵的行列式，A^-1是矩阵A的逆矩阵。因此，根据公式(4)可以得到目标候选区域的响应值为：

根据公式(18)中对矩阵A的定义，矩阵A是对称阵，即A^T＝A，令：

因此，公式(23)的闭式解为：

y^★＝A^-1R (25)

当不考虑二元关系模块中相邻超像素块之间的关系时，即C_ij＝0时，上式可以表示为y^★＝R，这是一般的CNN回归模型。本发明将矩阵A定为位置关系矩阵，利用相邻超像素块v_i＝{a_i，b_i，w_i，h_i}和v_j＝{a_j，b_j，w_j，h_j}之间的欧式距离建立相似性关系C_ij和度矩阵D可以表示为：

根据公式(18)将矩阵A带入式(25)可以更新初始响应矩阵，校正目标的位置信息，得到校正后的响应y^★，从而确定目标的位置。

为了使模型的跟踪效果更优，算法鲁棒性更强，在离线训练时，本发明使用了基于随机梯度下降的反向传播来优化网络参数。

具体地，假设通过网络获取的当前帧响应为y^★，理想的响应值为定义损失函数为：

其中，θ表示网络中的所有参数，γ用来约束正则化项，函数中的变量逐层表示为：

y^★＝A^-1R

根据，离散傅里叶变换与离散傅里叶逆变换的梯度可用下述公式计算：

在学习更新模块中，前向传播过程只包含一般矩阵乘法，因此可计算矩阵的导数：

在二元转移模块中，由于关系矩阵A可以通过位置信息直接构建，因此这支网络无需从响应更新层反向传播更新参数。在一元状态模块中，响应更新层的反向传播可以表示为：

在该模块中，网络的输入分别为当前帧图片z和前一帧图片x对应网络的检测分支与学习分支。对于检测分支的反向传播可以表示为：

对于学习分支的反向传播，将和看作两个独立的变量：

误差经过反向传播到有实值的特征图后，余下的传播过程可以看作是传统的卷积神经网络优化问题，这里不再赘述。由于本发明方法中反向传播涉及的运算只是复频域中的哈达玛积以及一般的矩阵乘法，因此可以在大量数据集中进行离线训练，再通过网络模型进行在线跟踪。

当跟踪器在线跟踪时，滤波器会随着时间步长迭代更新，如图12所示，根据公式(13)可得，在时间T范围内，滤波器w在复频域可以表示为：

其中ζ_t≥0是常数，D表示有D个通道数。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种目标跟踪方法，其特征在于，包括：

在视频帧的图像目标候选区中提取图像特征，并输出初始响应值；

平滑所述视频帧的初始响应值；以及

更新响应值，确定目标在视频帧中的位置信息。

2.根据权利要求1所述的目标跟踪方法，其特征在于，在视频帧的图像目标候选区中提取图像特征，并输出初始响应值包括：

训练轻量级网络模型对图像目标候选区进行特征提取；

根据特征提取结果得到滤波器；以及

通过滤波器输出初始响应值。

3.根据权利要求1所述的目标跟踪方法，其特征在于，平滑所述视频帧的初始响应值包括：

通过网络提取目标候选区域的图像块；

对图像块超像素化处理，得到相邻超像素块之间的相似性关系；

根据所述相似性关系构建相似度矩阵，并通过所述相似矩阵平滑初始响应值。

4.根据权利要求3所述的目标跟踪方法，其特征在于，更新响应值，确定目标在视频帧中的位置信息包括：

根据所述初始响应值和相似度矩阵更新响应图，确认目标位置。

5.根据权利要求1所述的目标跟踪方法，其特征在于，更新响应值，确定目标在视频帧中的位置信息包括：

通过训练卷积神经网络得到图像目标候选区的响应值；

校正目标的位置信息，得到校正后的响应值；

根据所述校正后的响应值确定视频帧中的位置信息。

6.一种目标跟踪装置，其特征在于，包括：

响应模块，用于在视频帧的图像目标候选区中提取图像特征，并输出初始响应值；

平滑模块，用于平滑所述视频帧的初始响应值；以及

学习更新模块，用于更新响应值，确定目标在视频帧中的位置信息。

7.根据权利要求6所述的目标跟踪装置，其特征在于，所述响应模块包括：

提取单元，用于训练轻量级网络模型对图像目标候选区进行特征提取；

滤波单元，用于根据特征提取结果得到滤波器；以及

输出单元，用于通过滤波器输出初始响应值。

8.根据权利要求6所述的目标跟踪装置，其特征在于，所述平滑模块包括：

图像块单元，用于通过网络提取目标候选区域的图像块；

相似性关系单元，用于对图像块超像素化处理，得到相邻超像素块之间的相似性关系；

平滑单元，用于根据所述相似性关系构建相似度矩阵，并通过所述相似矩阵平滑初始响应值。

9.根据权利要求8所述的目标跟踪装置，其特征在于，所述平滑模块包括：

更新单元，用于根据所述初始响应值和相似度矩阵更新响应图，确认目标位置。

10.根据权利要求6所述的目标跟踪装置，其特征在于，所述学习更新模块包括：

响应单元，用于通过训练卷积神经网络得到图像目标候选区的响应值；

校正单元，用于校正目标的位置信息，得到校正后的响应值；确定单元，用于根据所述校正后的响应值确定视频帧中的位置信息。