CN110472594B

CN110472594B - 目标跟踪方法、信息插入方法及设备

Info

Publication number: CN110472594B
Application number: CN201910768099.2A
Authority: CN
Inventors: 秦淮; 宋奕兵; 黄浩智; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2022-12-06
Anticipated expiration: 2039-08-20
Also published as: CN110472594A

Abstract

公开了目标跟踪方法、信息插入方法及设备。所述目标跟踪方法包括：确定在初始帧图像中与目标物体对应的目标框；在当前帧图像中预测与所述目标框对应的预测框；关于当前帧图像执行物体检测，并产生分别与当前帧图像中的物体对应的至少一个检测框；基于与所述预测框重叠的检测框，修正所述预测框；以及基于修正的预测框，跟踪所述目标物体。

Description

目标跟踪方法、信息插入方法及设备

技术领域

本公开涉及计算机视觉领域，更具体地说，涉及目标跟踪方法、信息插入方法及设备。

背景技术

视觉目标跟踪是计算机视觉中的一个重要研究方向，有着广泛的应用，如：视频监控、人机交互、无人驾驶等。

视觉目标跟踪任务就是在给定某视频序列初始帧的目标大小与位置(可由目标框表示)的情况下，预测后续帧中该目标的大小与位置(可由预测框表示)。在所述视频序列包括的后续帧图像中，目标可能会呈现一些图像上的变化，比如姿态或形状的变化、尺度的变化、背景遮挡或光线亮度的变化等。然而，在这种情况下，现有的目标跟踪算法会产生跟踪漂移甚至丢失。也就是说，在现有的目标跟踪算法中，当发生跟踪漂移时没有有效的补偿方案。

发明内容

鉴于以上情形，期望提供新的目标跟踪方法和设备，其能够在发生跟踪漂移时执行有效的更新或重置处理。在此基础之上，还期望提供新的信息插入方法和设备，其能够在一段视频序列中，在指定的跟踪目标的位置处持续地插入特定信息。

根据本公开的一个方面，提供了一种目标跟踪方法，包括：确定在初始帧图像中与目标物体对应的目标框；在当前帧图像中预测与所述目标框对应的预测框；关于当前帧图像执行物体检测，并产生分别与当前帧图像中的物体对应的至少一个检测框；基于与所述预测框重叠的检测框，修正所述预测框；以及基于修正的预测框，跟踪所述目标物体。

另外，在根据本公开实施例的方法中，基于与所述预测框重叠的检测框，修正所述预测框进一步包括：确定所述预测框与所述检测框重叠的交并比，其中所述交并比为所述预测框与所述检测框的交集区域与并集区域的比值；以及基于所述交并比和与所述交并比对应的检测框，修正所述预测框。

另外，在根据本公开实施例的方法中，基于所述交并比和与所述交并比对应的检测框，修正所述预测框进一步包括：当所述交并比大于等于第一阈值且小于等于第二阈值时，以与所述交并比对应的检测框来替换预测框。

另外，在根据本公开实施例的方法中，在当前帧图像中预测与所述目标框对应的预测框是通过跟踪器来实现的，其中所述跟踪器的参数在初始帧为初始值，并且所述跟踪器的参数进一步基于后续帧的预测数据而在所述初始值的基础上进行调整，并且，其中所述方法进一步包括：将当前帧重新设置为初始帧，将与所述交并比对应的检测框重新设置为与目标物体对应的目标框，并且对所述跟踪器的参数进行初始化。

另外，在根据本公开实施例的方法中，所述跟踪器通过神经网络来实现。

另外，在根据本公开实施例的方法中，在当前帧图像中预测与所述目标框对应的预测框进一步包括：基于在上一帧图像中预测得到的预测框，在当前帧图像中采样多个候选框；分别将所述多个候选框输入至所述神经网络，并从所述神经网络输出每一个候选框对应于所述目标框的概率；以及选择概率最高的一个候选框作为当前帧图像中的预测框。

另外，在根据本公开实施例的方法中，所述神经网络包括卷积层和全连接层，所述卷积层中各节点的权重在目标跟踪过程中不变，并且所述全连接层中各节点的参数在初始帧为初始值，且进一步基于后续帧的预测数据而在所述初始值的基础上进行调整，并且，对所述跟踪器的参数进行初始化包括：将所述全连接层中各节点的权重重置为所述初始值，并且所述方法进一步包括：基于重新设置的所述目标框产生指示目标区域的正样本和指示背景区域的负样本，用于监督后续帧中所述全连接层中各节点的权重的调整。

另外，在根据本公开实施例的方法中，所述跟踪器通过相关滤波器来实现，基于与目标物体对应的目标框确定相关滤波器的参数作为初始值，且进一步基于后续帧图像的预测数据，逐帧地更新所述相关滤波器的参数，并且，对所述跟踪器的参数进行初始化包括：基于重新设置的目标框，确定相关滤波器的参数作为初始值。

另外，在根据本公开实施例的方法中，基于所述交并比和与所述交并比对应的检测框，修正所述预测框进一步包括：当所述交并比大于等于第二阈值且小于等于1时，基于与所述交并比对应的检测框，更新所述预测框。

另外，在根据本公开实施例的方法中，更新所述预测框进一步包括：将与所述交并比对应的检测框和所述预测框进行加权平均，以产生加权平均框；以及以所述加权平均框来更新所述预测框。

根据本公开的另一方面，提供了一种信息插入方法，包括：确定在初始帧图像中与目标物体对应的目标框；在当前帧图像中预测与所述目标框对应的预测框；关于当前帧图像执行物体检测，并产生分别与当前帧图像中的物体对应的至少一个检测框；基于与所述预测框重叠的检测框，修正所述预测框；以及在与修正后的所述预测框相关的位置处，插入特定信息。

根据本公开的再一方面，提供了一种目标跟踪设备，包括：目标框确定装置，用于确定在初始帧图像中与目标物体对应的目标框；预测框确定装置，用于在当前帧图像中预测与所述目标框对应的预测框；检测框确定装置，用于关于当前帧图像执行物体检测，并产生分别与当前帧图像中的物体对应的至少一个检测框；预测框修正装置，用于基于与所述预测框重叠的检测框，修正所述预测框；以及跟踪装置，用于基于修正的预测框，跟踪所述目标物体。

另外，在根据本公开实施例的设备中，所述预测框修正装置进一步包括：交并比确定单元，用于确定所述预测框与所述检测框重叠的交并比，其中所述交并比为所述预测框与所述检测框的交集区域与并集区域的比值；以及修正单元，用于基于所述交并比和与所述交并比对应的检测框，修正所述预测框。

另外，在根据本公开实施例的设备中，所述修正单元进一步被配置为：当所述交并比确定单元确定的所述交并比大于等于第一阈值且小于等于第二阈值时，以与所述交并比对应的检测框来替换预测框。

另外，在根据本公开实施例的设备中，所述预测框确定装置通过跟踪器来实现在当前帧图像中预测与所述目标框对应的预测框，其中所述跟踪器的参数在初始帧为初始值，并且所述跟踪器的参数进一步基于后续帧的预测数据而在所述初始值的基础上进行调整，并且，其中所述设备进一步包括：初始化装置，用于当所述交并比确定单元确定的所述交并比大于等于第一阈值且小于等于第二阈值时，将当前帧重新设置为初始帧，将与所述交并比对应的检测框重新设置为与目标物体对应的目标框，并且对所述跟踪器的参数进行初始化。

另外，在根据本公开实施例的设备中，所述跟踪器通过神经网络来实现。

另外，在根据本公开实施例的设备中，所述预测框确定装置进一步被配置为：基于在上一帧图像中预测得到的预测框，在当前帧图像中采样多个候选框；分别将所述多个候选框输入至所述神经网络，并从所述神经网络输出每一个候选框对应于所述目标框的概率；以及选择概率最高的一个候选框作为当前帧图像中的预测框。

另外，在根据本公开实施例的设备中，所述神经网络包括卷积层和全连接层，所述卷积层中各节点的权重在目标跟踪过程中不变，并且所述全连接层中各节点的参数在初始帧为初始值，且进一步基于后续帧的预测数据而在所述初始值的基础上进行调整，并且，所述初始化装置进一步被配置为：将所述全连接层中各节点的权重重置为所述初始值，并且所述预测框确定装置进一步被配置为：基于重新设置的所述目标框产生指示目标区域的正样本和指示背景区域的负样本，用于监督后续帧中所述全连接层中各节点的权重的调整。

另外，在根据本公开实施例的设备中，所述跟踪器通过相关滤波器来实现，基于与目标物体对应的目标框确定相关滤波器的参数作为初始值，且进一步基于后续帧图像的预测数据，逐帧地更新所述相关滤波器的参数，并且，所述初始化装置进一步被配置为：基于重新设置的目标框，确定相关滤波器的参数作为初始值。

另外，在根据本公开实施例的设备中，所述修正单元进一步被配置为：当所述交并比确定单元确定的所述交并比大于等于第二阈值且小于等于1时，基于与所述交并比对应的检测框，更新所述预测框。

另外，在根据本公开实施例的设备中，所述修正单元进一步被配置为通过执行以下处理来更新所述预测框包括：将与所述交并比对应的检测框和所述预测框进行加权平均，以产生加权平均框；以及以所述加权平均框来更新所述预测框。

根据本公开的又一方面，提供了一种信息插入设备，包括：目标框确定装置，用于确定在初始帧图像中与目标物体对应的目标框；预测框确定装置，用于在当前帧图像中预测与所述目标框对应的预测框；检测框确定装置，用于关于当前帧图像执行物体检测，并产生分别与当前帧图像中的物体对应的至少一个检测框；预测框修正装置，用于基于与所述预测框重叠的检测框，修正所述预测框；以及插入装置，用于在与修正后的所述预测框相关的位置处，插入特定信息。

根据本公开的又一方面，提供了一种计算机可读记录介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求1-11中任一项所述的方法。

通过根据本公开实施例的目标跟踪方法和设备，提供了跟踪轻微漂移时的更新机制以及跟踪严重漂移时的重置机制。通过充分地利用通过物体检测技术而检测到的检测框，来检验当前跟踪的可靠性。当产生跟踪的轻微漂移时，利用检测到的检测框来修正、更新预测框。当产生跟踪的严重漂移时，重置跟踪器。从而，通过根据本公开的目标跟踪方法，在进行目标跟踪时能够实时地适应目标的变化，同时在跟踪发生严重漂移时能够及时地重新开始一段跟踪，进而获得鲁棒的跟踪性能。通过根据本公开实施例的信息插入方法和设备，能够在跟踪的目标物体的相关位置处，自动地插入特定信息。

附图说明

图1是图示根据本公开的实施例的目标跟踪方法的具体过程的流程图；

图2是图示基于神经网络的跟踪器来确定预测框的具体过程的流程图；

图3示出了基于MDNet的CNN的示意性结构图；

图4是图示基于所述交并比和与所述交并比对应的检测框来修正所述预测框的具体过程的流程图；

图5是图示根据本公开的实施例的信息插入方法的具体过程的流程图；

图6是图示根据本公开实施例的目标跟踪设备的具体配置的功能性框图；

图7是图示根据本公开实施例的信息插入设备的具体配置的功能性框图；以及

图8示出了根据本公开实施例的一种示例性的计算设备的架构的示意图。

具体实施方式

下面将参照附图对本发明的各个优选的实施方式进行描述。提供以下参照附图的描述，以帮助对由权利要求及其等价物所限定的本发明的示例实施方式的理解。其包括帮助理解的各种具体细节，但它们只能被看作是示例性的。因此，本领域技术人员将认识到，可对这里描述的实施方式进行各种改变和修改，而不脱离本发明的范围和精神。而且，为了使说明书更加清楚简洁，将省略对本领域熟知功能和构造的详细描述。

将参照图1描述根据本公开的实施例的目标跟踪方法的具体过程。如图1所示，目标跟踪方法包括以下步骤。

首先，在步骤S101，确定在初始帧图像中与目标物体对应的目标框。这里，目标物体就是在目标跟踪方法中期望跟踪的对象。目标物体可以由用户在初始帧指定。具体来说，在初始帧，用户可以仅指定目标物体。例如，用户通过点击图像中的某个物体上的点来选中该物体。然后，基于用户选中的该物体，自动地确定包围该物体的目标框。或者，在初始帧，用户也可以直接指定目标框。

然后，在步骤S102，在当前帧图像中预测与所述目标框对应的预测框。

具体来说，在当前帧图像中预测与所述目标框对应的预测框是通过跟踪器来实现的。其中，所述跟踪器的参数在初始帧为初始值，并且所述跟踪器的参数进一步基于后续帧的预测数据而在所述初始值的基础上进行调整。

例如，作为一种可能的实施方式，跟踪器通过神经网络来实现。将参照图2描述通过基于神经网络的跟踪器来确定预测框的具体过程。

如图2所示，首先，在步骤S201，基于在上一帧图像中预测得到的预测框，在当前帧图像中采样多个候选框。当然，这里需要指出的是，如果将初始帧作为第一帧，那么在第二帧，基于在初始帧确定的目标框，在第二帧中采样多个候选框。并且，在接下来的后续帧中，分别基于在上一帧图像中预测得到的预测框，在当前帧图像中采样多个候选框。例如，可以以上一帧图像中预测得到的预测框为中心，选取预定数量的候选框。

然后，在步骤S202，分别将所述多个候选框输入至所述神经网络，并从所述神经网络输出每一个候选框对应于所述目标框的概率。

最后，在步骤S203，选择概率最高的一个候选框作为当前帧图像中的预测框。

接下来，将详细描述用于在目标跟踪过程中确定对应于目标物体的预测框的神经网络的具体结构。

为了在目标跟踪任务中充分利用卷积神经网络(Convolutional NeuralNetwork,CNN)的表示力(representation power)，需要对它们在目标跟踪的大规模数据上进行专门的训练，并且这些数据中涵盖目标和背景组合的各种变化。然而，在具有完全不同特征的视频序列上学习统一的特征表示具有挑战性。更加值得注意的是，跟踪算法受特殊序列挑战，包括遮挡，变形，光照条件变化，运动模糊等。这使得CNN的训练更加困难，因为同一类型的对象可能在一个视频序列中为目标而在另一个视频序列中却是背景。

鉴于以上问题，可以采用一种被称为多域网络(MDNet)的新型CNN体系结构(下文中简称为基于MDNet的CNN)，用于在离线训练过程中从多个注释视频序列(训练视频)中学习目标的共享表示(shared representation)，即下文中所述的域独立信息，并且在跟踪期间通过在线学习获取域特定信息以进行目标跟踪，其中每个视频被视为一个单独的域(domain)。

图3示出了基于MDNet的CNN的示意性结构图。如图2所示，网络具有5个隐藏层，并且具体包括3个卷积层(conv1、conv2、conv3)和2个全连接层(fc4和fc5)。另外，网络最后对于K个域(K个训练序列)对应的全连接层具有K个分支(fc6.1-fc6.K)，并且共享从前面层中捕获的用来学习通用表示特征的共同信息。每个分支包含一个具有softmax交叉熵损失的二分类层，它负责区分每个域(训练视频)中的目标和背景。这里，将fc6.1-fc6.K称为域特定层(domain-specific)，将之前的所有层称为共享层(shared layers)。网络的输入为特定尺寸(例如，107*107)的候选框的图像，经过网络后输出一个二维向量，表示输入的候选框的图像对应于目标框的得分概率。最终，选取得分概率最高的一个候选框作为预测框。

学习算法的目标是训练一个基于MDNet的CNN，使其可以在任意域中辨别目标和背景。然而，这个目标并不能直接实现，因为来自不同域的训练数据对目标和背景有不同的概念。不过，对于所有域中的目标表示仍然存在一些常见描述属性，例如对照明变化的鲁棒性、运动模糊、尺度变化等。为了提取满足这些公共属性的有用特征，通过结合多域学习框架将域独立(domain-independent)信息与域特定(domain-specific)信息分开。

首先，在离线训练过程中，CNN通过随机梯度下降(SGD)方法进行训练，其中每个域都在每个迭代中专门处理。例如，对于某一视频，训练的数据是从该视频中随机截取若干帧图像，再从每一帧图像上选取预定数量(如，32个)的正样本和预定数量(如，96个)的负样本进行训练。

可见，在离线训练的时候，对每一个域单独进行训练，同时更新共享层的参数，使得共享层的参数能够适应所有的数据集。通过这种离线训练过程，域独立信息在共享层中建模，从中获得有用的通用特征表示。

在离线训练过程结束之后，保存共享层的参数，并且在离线训练过程中的K个分支fc6.1-fc6.K被取消。

在目标跟踪阶段，当给出一个需要执行目标跟踪任务的测试序列时，构造新的单个分支fc6，来计算测试序列中输入的候选框图像对应于目标的概率分数。然后，在目标跟踪过程中对新构造的域特定层fc6和共享层内的全连接层fc4、fc5进行微调，以适应新的域。在线更新是为了模拟目标的长期和短期外观变化以分别提高鲁棒性和适应性。

网络的在线更新包括两种方法，分别是长期(long-term)更新和短期(short-term)更新。其中，长期更新是在固定时间间隔做一次更新，例如10帧一次。短期更新是每当目标得分低于0.5时就会进行。其中，更新用的是基于先前帧预测框而选取的正负样本和基于初始帧确定的目标框而选取的正负样本，正样本是指作为目标的样本，而负样本是指作为背景的样本。

在上文中描述了基于MDNet的CNN的结构和学习过程。可以看出，基于MDNet的CNN包括卷积层和全连接层，所述卷积层中各节点的权重在离线训练过程中进行调整，且在训练完成后，在目标跟踪过程中保持不变。相比之下，在目标跟踪过程中，所述全连接层中各节点的参数在初始帧为初始值，且进一步基于后续帧的预测数据而在所述初始值的基础上进行调整。通过这样的神经网络，可以对所有候选框进行打分，并选取分数最高的候选框作为目标物体的预测框。

当然，除了基于MDNet的CNN之外，还可以采用一种基于RT-MDNet的CNN来实现目标跟踪。RT-MDNet是在MDNet的基础上，通过引入Mask-RCNN的ROIAlign缩减网络大小从而达到实时的目的。具体来说，MDNet在原图上提取候选框(ROI)，相比之下，在RT-MDNet中，先从原图上提取特征，然后在特征图上提取候选框。此外，MDNet仅仅是在每一个域中区分目标和背景，而当目标们具有相似的外观时就不能有效判别不同域中的目标，因此在RT-MDNet的损失函数中嵌入了其他视频(其他域)中的目标来使相互之间更有判别力。

另外，作为另一种可能的实施方式，所述跟踪器也可以通过相关滤波器来实现。

相关滤波源于信号处理领域，相关性用于标识两个信号之间的相似程度，通常用卷积标识相关操作。基于相关滤波的跟踪方法的基本思想就是，寻找一个滤波模板，让下一帧的图像与滤波模板做卷积操作，响应最大的区域则是预测的目标。然而，由于时域的卷积运算量是很大的，因此可以通过快速傅里叶变换(FFT)变换到频域，从而使得卷积操作变为点乘操作，极大地减小了计算量。

具体来说，假设初始帧为第一帧，基于与目标物体对应的目标框，确定相关滤波器的参数作为初始值。例如，可以对目标框进行随机仿射变换，获取一系列的训练样本f_i，然后通过高斯函数产生g_i，且g_i的峰值位置是在f_i的中心位置。可以通过以下公式(1)来确定相关滤波器的参数。

其中H^*表示相关滤波器的参数，F_i、G_i分别表示f_i和g_i的FFT变换，G_i ^*和F_i ^*分别表示G_i和F_i的共轭。

对于之后的每一帧，对于上一帧得到的预测框进行特征提取，这些特征经过cos窗函数之后，做FFT变换，然后与相关滤波器相乘，将结果做IFFT之后，最大响应点所在的区域即为要跟踪目标的新的预测框。然后再用新的预测框更新以得到新的相关滤波器的参数，用于后续帧的预测框的预测。可以通过公式(2)-(4)来逐帧地更新相关滤波器的参数。

其中，η为设置的学习率，A_i和A_i-1分别为当前帧和上一帧的滤波器的分子，B_i和B_i-1分别为当前帧和上一帧的滤波器的分母。并且，在更新当前帧的滤波器参数时，对当前帧的预测框进行随机仿射变换，获取一系列样本这里的f_i，然后通过高斯函数产生g_i，且g_i的峰值位置是在f_i的中心位置。这里的F_i、G_i分别表示f_i和g_i的FFT变换，G_i ^*和F_i ^*分别表示G_i和F_i的共轭。

也就是说，在初始帧，基于与目标物体对应的目标框，确定初始的相关滤波器参数。然后，在后续帧，进一步基于后续帧图像的预测数据，逐帧地更新所述相关滤波器的参数。

在上文中，列举了在执行目标跟踪任务时如何确定与目标框对应的预测框的几种不同的实施方式。例如，可以采用基于神经网络的跟踪器的方法，或者也可以采用基于相关滤波器的跟踪器的方法。然而，本发明并不仅限于此，并且上文中所描述的具体实施方式并非穷举。本领域的技术人员可以理解，任何其他的目标跟踪算法也可以类似地应用于本公开。

接下来，返回参照图1，在步骤S102之后，处理进行到步骤S103。在步骤S103，关于当前帧图像执行物体检测，并产生分别与当前帧图像中的物体对应的至少一个检测框。这里，不特别限定执行物体检测的具体算法。通过物体检测，能够将当前帧图像中的物体用检测框的形式圈选出来。通常来说，例如，一个物体对应于一个检测框。

然后，在步骤S104，基于与所述预测框重叠的检测框，修正所述预测框。

本公开的发明构思在于，通过物体检测技术来检验当前跟踪的可靠性。当产生跟踪轻微漂移时，可以使用检测到的检测框来修正、更新当前的跟踪器。当发现跟踪严重漂移时，及时停止跟踪，并重置跟踪器。

具体来说，对于与所述预测框重叠的检测框，可以计算表征检测框与预测框重叠比率的交并比，其中所述交并比为所述预测框与所述检测框的交集区域与并集区域的比值。可以将所述交并比作为判断是否发生跟踪严重漂移或轻微漂移的标准。

一般而言，与所述预测框重叠的检测框只有一个。如果出现多个检测框与所述预测框重叠，那么选取交并比最大的一个进行后续处理。然后，基于所述交并比和与所述交并比对应的检测框，修正所述预测框。

接下来，将参照图4描述基于所述交并比和与所述交并比对应的检测框来修正所述预测框的具体细节。

首先，在步骤S401，判断所述交并比x是否处于0到第一阈值A的取值区间内，即判断x∈[0，A]是否成立。如果是，那么意味着检测框与预测框之间的重叠比率很小。在这种情况下，认为检测框与预测框可能不属于同一目标。或者说，认为此时物体检测结果不一定准确。因此，在这种情况下，不需要检验当前跟踪的可靠性，进而不对预测框进行修正，并且处理进行到步骤S406。在步骤S406，判断是否为最后一帧。如果不是，则继续针对下一帧图像数据，处理返回到步骤S401，并对下一帧图像执行重复的处理。

另一方面，如果在步骤S401判断为否，那么处理进行到步骤S402。在步骤S402，判断所述交并比x∈[A，B]是否成立，即：判断所述交并比是否大于等于第一阈值且小于等于第二阈值。

如果在步骤S402判断为是，即：当所述交并比大于等于第一阈值且小于等于第二阈值时，认为检测框与预测框属于同一目标，但跟踪发生严重漂移。例如，可能由于上文中所述的目标图像上的变化，比如姿态或形状的变化、尺度的变化、背景遮挡或光线亮度的变化等，使得跟踪器的当前参数已经不能适应这种变化，从而发生跟踪漂移。在这种情况下，处理进行到步骤S403。在步骤S403，以与所述交并比对应的检测框来替换预测框，以便及时纠正跟踪漂移。

然而，如果仅简单地执行步骤S403的替换，那么由于跟踪器的参数不再适合与当前的目标变化，所以在接下来的帧的预测中依然会发生跟踪漂移。因此，在步骤S403之后，处理进行到步骤S404。

在步骤S404，将当前帧重新设置为初始帧，将与所述交并比对应的检测框重新设置为与目标物体对应的目标框，并且对所述跟踪器的参数进行初始化。也就是说，重新启动目标跟踪算法。

如上文中所述，在当前帧图像中预测与所述目标框对应的预测框是通过跟踪器来实现的，其中所述跟踪器的参数在初始帧为初始值，并且所述跟踪器的参数进一步基于后续帧的预测数据而在所述初始值的基础上进行调整。通过步骤S404中的初始化，将跟踪器的参数重置为在初始帧确定的初始值。

例如，在上文中所述的跟踪器基于神经网络来实现的情况下，由于卷积层中各节点的参数在离线训练完成后就固定不变，因此步骤S404中的对所述跟踪器的参数进行初始化包括：将所述全连接层中各节点的权重重置为所述初始值。也就是说，将神经网络恢复为离线训练完成后刚开始执行目标跟踪时的状态。具体地，将全连接层fc4和fc5中各节点的值重置为离线训练完成后的值，并且将新构建的全连接层fc6中各节点的值重置为构建该层时初始化的值。

并且，所述方法进一步包括：基于重新设置的所述目标框产生指示目标区域的正样本和指示背景区域的负样本，用于监督后续帧中所述全连接层中各节点的权重的调整。

又如，在上文中所述的跟踪器基于相关滤波器来实现的情况下，步骤S404中的对所述跟踪器的参数进行初始化包括：基于重新设置的初始帧图像以及重新设置的目标框，确定相关滤波器的参数作为初始值。具体地，与上文中类似地，例如，可以对重新设置的目标框进行随机仿射变换，获取一系列的训练样本f_i，然后通过高斯函数产生g_i，且g_i的峰值位置是在f_i的中心位置。然后，通过上文中所述的公式(1)，确定相关滤波器的参数作为初始值。

当然，在采用其他的目标跟踪算法时，基于本公开的发明构思，本领域的技术人员可以理解，如果所述交并比大于等于第一阈值且小于等于第二阈值，那么类似地，可以通过重新设置初始帧和目标框，将目标跟踪算法中的涉及的各参数恢复至与初始帧对应的初始值。本公开所要强调的不是具体采用何种目标跟踪算法。相反，本公开所要强调的是，在判断出跟踪漂移时，能够以当前帧作为初始帧，且以检测到的检测框作为目标框，重新开始执行目标跟踪算法。

另一方面，如果在步骤S402判断为否，即：所述交并比没有落在第一阈值到第二阈值的范围内，另外由于交并比的最大值为1且处理进行到步骤S402的前提是交并比没有落在0到第一阈值的范围内，因此，可以得到，所述交并比必然大于等于第二阈值且小于1，即x∈[B，1]，那么认为检测框与预测框属于同一目标，且跟踪稳定，未发生明显漂移。在这种情况下，处理进行到步骤S405。在步骤S405，基于与所述交并比对应的检测框，更新所述预测框，以便均衡物体检测和目标跟踪二者之间的误差。

具体来说，假设检测框的坐标为(x₁，y₁，w₁，h₁)，其中x₁，y₁为检测框的中心点坐标，且w₁，h₁分别为检测框的宽度和高度。并且，预测框的坐标为(x₂，y₂，w₂，h₂)，其中x₂，y₂为预测框的中心点坐标，且w₂，h₂分别为预测框的宽度和高度。更新后的预测框可以表示为：

以上为通过将检测框与预测框进行平均的方式来更新预测框。或者，可替代地，也可以采用加权平均的方式来更新预测框。

第一阈值A和第二阈值B可以根据实际实验结果进行适当调整。例如，作为一种可能的示例，第一阈值和第二阈值可以分别设置为0.1和0.7。

最后，返回图1，在步骤S105，基于修正的预测框，跟踪所述目标物体。

另外，这里需要指出的是，在图1中，步骤S102至步骤S105仅描述关于当前帧的处理。然而，事实上，对于一段视频序列，分别针对每一帧图像重复地执行步骤S102至步骤S105的处理，直至该段视频序列的最后一帧为止。

并且，在上文中，描述了通过跟踪器来跟踪单目标的情况。然而，通过设置多个跟踪器也可以实现多目标跟踪，其中每一个跟踪器分别对应于每一个目标。

在上文中参照图1至图4详细描述了根据本公开的目标跟踪方法。在根据本公开的目标跟踪方法中，提供了跟踪轻微漂移时的更新机制以及跟踪严重漂移时的重置机制。通过充分地利用通过物体检测技术而检测到的检测框，来检验当前跟踪的可靠性。当产生跟踪的轻微漂移时，利用检测到的检测框来修正、更新预测框。当产生跟踪的严重漂移时，重置跟踪器。从而，通过根据本公开的目标跟踪方法，在进行目标跟踪时能够实时地适应目标的变化，同时在跟踪发生严重漂移时能够及时地重新开始一段跟踪。

接下来，将参照图5描述根据本公开的实施例的一种信息插入方法。所述信息插入方法是在上文中描述的目标跟踪方法的基础上，进一步插入特定信息的方法。如图5所示，所述方法包括以下步骤。

首先，在步骤S501，确定在初始帧图像中与目标物体对应的目标框。

然后，在步骤S502，在当前帧图像中预测与所述目标框对应的预测框。

接下来，在步骤S503，关于当前帧图像执行物体检测，并产生分别与当前帧图像中的物体对应的至少一个检测框。

然后，在步骤S504，基于与所述预测框重叠的检测框，修正所述预测框。

最后，在步骤S505，在与修正后的所述预测框相关的位置处，插入特定信息。例如，与修正后的所述预测框相关的位置处可以是预测框的中心点，可以是预测框的上端、下端、左端、右端上的任意位置，也可以是预测框内部的任意位置等等。

例如，所述信息插入方法可以适用于视频场景中的广告智能植入。具体来说，在初始帧可以确定与希望插入广告的目标物体(如，汽车)对应的目标框，然后在后续帧对目标物体持续地跟踪，产生并修正预测框。最后，在与各帧的预测框相关的位置处(如，预测框的上端，对应于车顶)插入特定广告(如，与汽车相关的广告)。从而，与在视频场景的固定位置处插入广告的现有技术相比，能够以与视频场景更融合的方式来插入广告，提高用户的观看体验。

下面，将参照图6描述根据本公开实施例的目标跟踪设备。如图6所示，目标跟踪设备600包括：目标框确定装置601、预测框确定装置602、检测框确定装置603、预测框修正装置604和跟踪装置605。

目标框确定装置601用于确定在初始帧图像中与目标物体对应的目标框。这里，目标物体就是在目标跟踪方法中期望跟踪的对象。目标物体可以由用户在初始帧指定。具体来说，在初始帧，用户可以仅指定目标物体。例如，用户通过点击图像中的某个物体上的点来选中该物体。然后，基于用户选中的该物体，自动地确定包围该物体的目标框。或者，在初始帧，用户也可以直接指定目标框。

预测框确定装置602用于在当前帧图像中预测与所述目标框对应的预测框。如上文中所述，所述预测框确定装置602可以通过跟踪器来实现在当前帧图像中预测与所述目标框对应的预测框。并且，所述跟踪器可以通过神经网络来实现，如MDNet算法或RT-MDNet。在这种情况下，所述预测框确定装置602进一步被配置为：基于在上一帧图像中预测得到的预测框，在当前帧图像中采样多个候选框；分别将所述多个候选框输入至所述神经网络，并从所述神经网络输出每一个候选框对应于所述目标框的概率；以及选择概率最高的一个候选框作为当前帧图像中的预测框。

或者，所述跟踪器也可以通过相关滤波器来实现。其中，所述跟踪器的参数在初始帧为初始值，并且所述跟踪器的参数进一步基于后续帧的预测数据而在所述初始值的基础上进行调整。

然而，本发明并不仅限于此，并且上文中所描述的具体实施方式并非穷举。本领域的技术人员可以理解，预测框确定装置602也可以类似地采用任何其他的目标跟踪算法。

检测框确定装置603用于关于当前帧图像执行物体检测，并产生分别与当前帧图像中的物体对应的至少一个检测框。这里，不特别限定执行物体检测的具体算法。通过物体检测，能够将当前帧图像中的物体用检测框的形式圈选出来。通常来说，例如，一个物体对应于一个检测框。

预测框修正装置604用于基于与所述预测框重叠的检测框，修正所述预测框。

本公开的发明构思在于，通过物体检测技术来检验当前跟踪的可靠性。当产生跟踪轻微漂移时，预测框修正装置604可以使用检测到的检测框来修正、更新当前的跟踪器。当发现跟踪严重漂移时，预测框修正装置604及时停止跟踪，并重置跟踪器。

具体来说，预测框修正装置604进一步包括：交并比确定单元6041和修正单元6042。

交并比确定单元6041用于确定所述预测框与所述检测框重叠的交并比，其中所述交并比为所述预测框与所述检测框的交集区域与并集区域的比值。可以将所述交并比作为判断是否发生跟踪严重漂移或轻微漂移的标准。

修正单元6042用于基于所述交并比和与所述交并比对应的检测框，修正所述预测框。

当交并比确定单元6041确定的所述交并比大于等于第一阈值且小于等于第二阈值时，认为检测框与预测框属于同一目标，但跟踪发生严重漂移。例如，可能由于上文中所述的目标图像上的变化，比如姿态或形状的变化、尺度的变化、背景遮挡或光线亮度的变化等，使得跟踪器的当前参数已经不能适应这种变化，从而发生跟踪漂移。在这种情况下，修正单元6042以与所述交并比对应的检测框来替换预测框，以便及时纠正跟踪漂移。

然而，如果修正单元6042仅简单地执行预测框的替换，那么由于跟踪器的参数不再适合与当前的目标变化，所以在接下来的帧的预测中依然会发生跟踪漂移。

因此，所述设备进一步包括：初始化装置606，用于当所述交并比确定单元6041确定的所述交并比大于等于第一阈值且小于等于第二阈值时，将当前帧重新设置为初始帧，将与所述交并比对应的检测框重新设置为与目标物体对应的目标框，并且对所述跟踪器的参数进行初始化。也就是说，通过初始化装置606，重新启动预测框确定装置602中的跟踪器的目标跟踪算法。

例如，在上文中所述的跟踪器基于神经网络来实现的情况下，由于卷积层中各节点的参数在离线训练完成后就固定不变，因此所述初始化装置进一步被配置为：将所述全连接层中各节点的权重重置为所述初始值。也就是说，将神经网络恢复为离线训练完成后刚开始执行目标跟踪时的状态。具体地，将全连接层fc4和fc5中各节点的值重置为离线训练完成后的值，并且将新构建的全连接层fc6中各节点的值重置为构建该层时初始化的值。

并且，所述预测框确定装置602进一步被配置为：基于重新设置的所述目标框产生指示目标区域的正样本和指示背景区域的负样本，用于监督后续帧中所述全连接层中各节点的权重的调整。

又如，在上文中所述的跟踪器基于相关滤波器来实现的情况下，所述初始化装置进一步被配置为：基于重新设置的目标框，确定相关滤波器的参数作为初始值。具体地，与上文中类似地，例如，可以对重新设置的目标框进行随机仿射变换，获取一系列的训练样本f_i，然后通过高斯函数产生g_i，且g_i的峰值位置是在f_i的中心位置。然后，通过上文中所述的公式(1)，确定相关滤波器的参数作为初始值。

当然，在采用其他的目标跟踪算法时，基于本公开的发明构思，本领域的技术人员可以理解，如果所述交并比大于等于第一阈值且小于等于第二阈值，那么类似地，初始化装置606可以通过重新设置初始帧和目标框，将目标跟踪算法中的涉及的各参数恢复至与初始帧对应的初始值。本公开所要强调的不是具体采用何种目标跟踪算法。相反，本公开所要强调的是，在判断出跟踪漂移时，能够以当前帧作为初始帧，且以检测到的检测框作为目标框，重新开始执行目标跟踪算法。

另一方面，当所述交并比确定单元6041确定的所述交并比大于等于第二阈值且小于等于1时，认为检测框与预测框属于同一目标，且跟踪稳定，未发生明显漂移。在这种情况下，所述修正单元6042基于与所述交并比对应的检测框，更新所述预测框。

如上文中所述，所述修正单元可以将与所述交并比对应的检测框和所述预测框进行平均，以产生平均框；然后以所述加权平均框来更新所述预测框。或者，可替代地，所述修正单元也可以将与所述交并比对应的检测框和所述预测框进行加权平均，以产生加权平均框；然后以所述加权平均框来更新所述预测框。

最后，跟踪装置605用于基于修正的预测框，跟踪所述目标物体。

另外，这里需要指出的是，对于一段视频序列，预测框确定装置602、检测框确定装置603和预测框修正装置604分别针对每一帧图像重复地执行处理，直至该段视频序列的最后一帧为止。

在上文中参照图6详细描述了根据本公开的目标跟踪设备。在根据本公开的目标跟踪设备中，提供了跟踪轻微漂移时的更新机制以及跟踪严重漂移时的重置机制。通过充分地利用通过物体检测技术而检测到的检测框，来检验当前跟踪的可靠性。当产生跟踪的轻微漂移时，利用检测到的检测框来修正、更新预测框。当产生跟踪的严重漂移时，重置跟踪器。从而，通过根据本公开的目标跟踪方法，在进行目标跟踪时能够实时地适应目标的变化，同时在跟踪发生严重漂移时能够及时地重新开始一段跟踪。

接下来，将参照图7描述根据本公开实施例的信息插入设备。所述信息插入设备是在上文中描述的目标跟踪设备的基础上，进一步插入特定信息的设备。如图7所示，信息插入设备700包括：目标框确定装置701，用于确定在初始帧图像中与目标物体对应的目标框；预测框确定装置702，用于在当前帧图像中预测与所述目标框对应的预测框；检测框确定装置703，用于关于当前帧图像执行物体检测，并产生分别与当前帧图像中的物体对应的至少一个检测框；预测框修正装置704，用于基于与所述预测框重叠的检测框，修正所述预测框；以及插入装置705，用于在与修正后的所述预测框相关的位置处，插入特定信息。

例如，所述信息插入设备可以适用于视频场景中的广告智能植入。具体来说，在初始帧可以确定与希望插入广告的目标物体(如，汽车)对应的目标框，然后在后续帧对目标物体持续地跟踪，产生并修正预测框。最后，在与各帧的预测框相关的位置处(如，预测框的上端，对应于车顶)插入特定广告(如，与汽车相关的广告)。从而，与在视频场景的固定位置处插入广告的现有技术相比，能够以与视频场景更融合的方式来插入广告，提高用户的观看体验。

此外，根据本公开实施例的方法或设备也可以借助于图8所示的计算设备800的架构来实现。如图8所示，计算设备800可以包括总线810、一个或多个CPU820、只读存储器(ROM)830、随机存取存储器(RAM)840、连接到网络的通信端口850、输入/输出组件860、硬盘870等。计算设备800中的存储设备，例如ROM 830或硬盘870可以存储本公开提供的目标跟踪方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。当然，图8所示的架构只是示例性的，在实现不同的设备时，根据实际需要，可以省略图8示出的计算设备中的一个或多个组件。

本公开的实施例也可以被实现为计算机可读存储介质。根据本公开实施例的计算机可读存储介质上存储有计算机可读指令。当所述计算机可读指令由处理器运行时，可以执行参照以上附图描述的根据本公开实施例的目标跟踪方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。

迄今为止，已经参照图1至图8详细描述了根据本公开实施例的目标跟踪方法、信息插入方法及设备。通过根据本公开实施例的目标跟踪方法和设备，提供了跟踪轻微漂移时的更新机制以及跟踪严重漂移时的重置机制。通过充分地利用通过物体检测技术而检测到的检测框，来检验当前跟踪的可靠性。当产生跟踪的轻微漂移时，利用检测到的检测框来修正、更新预测框。当产生跟踪的严重漂移时，重置跟踪器。从而，通过根据本公开的目标跟踪方法，在进行目标跟踪时能够实时地适应目标的变化，同时在跟踪发生严重漂移时能够及时地重新开始一段跟踪，进而获得鲁棒的跟踪性能。通过根据本公开实施例的信息插入方法和设备，能够在跟踪的目标物体的相关位置处，自动地插入特定信息。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后，还需要说明的是，上述一系列处理不仅包括以这里所述的顺序按时间序列执行的处理，而且包括并行或分别地、而不是按时间顺序执行的处理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过软件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种目标跟踪方法，包括：

确定在初始帧图像中与目标物体对应的目标框；

在当前帧图像中预测与所述目标框对应的预测框；

关于当前帧图像执行物体检测，并产生分别与当前帧图像中的物体对应的至少一个检测框；

基于与所述预测框重叠的检测框，修正所述预测框；以及

基于修正的预测框，跟踪所述目标物体，

其中，基于与所述预测框重叠的检测框，修正所述预测框进一步包括：确定所述预测框与所述检测框重叠的交并比，其中所述交并比为所述预测框与所述检测框的交集区域与并集区域的比值；以及基于所述交并比和与所述交并比对应的检测框，修正所述预测框，并且

其中，基于所述交并比和与所述交并比对应的检测框，修正所述预测框进一步包括：当所述交并比大于等于第一阈值且小于等于第二阈值时，以与所述交并比对应的检测框来替换预测框。

2.根据权利要求1所述的方法，其中在当前帧图像中预测与所述目标框对应的预测框是通过跟踪器来实现的，其中所述跟踪器的参数在初始帧为初始值，并且所述跟踪器的参数进一步基于后续帧的预测数据而在所述初始值的基础上进行调整，

并且，其中所述方法进一步包括：

将当前帧重新设置为初始帧，将与所述交并比对应的检测框重新设置为与目标物体对应的目标框，并且对所述跟踪器的参数进行初始化。

3.根据权利要求2所述的方法，其中所述跟踪器通过神经网络来实现。

4.根据权利要求3所述的方法，其中在当前帧图像中预测与所述目标框对应的预测框进一步包括：

基于在上一帧图像中预测得到的预测框，在当前帧图像中采样多个候选框；

分别将所述多个候选框输入至所述神经网络，并从所述神经网络输出每一个候选框对应于所述目标框的概率；以及

选择概率最高的一个候选框作为当前帧图像中的预测框。

5.根据权利要求3所述的方法，其中所述神经网络包括卷积层和全连接层，所述卷积层中各节点的权重在目标跟踪过程中不变，并且所述全连接层中各节点的参数在初始帧为初始值，且进一步基于后续帧的预测数据而在所述初始值的基础上进行调整，

并且，对所述跟踪器的参数进行初始化包括：将所述全连接层中各节点的权重重置为所述初始值，

并且所述方法进一步包括：基于重新设置的所述目标框产生指示目标区域的正样本和指示背景区域的负样本，用于监督后续帧中所述全连接层中各节点的权重的调整。

6.根据权利要求2所述的方法，其中所述跟踪器通过相关滤波器来实现，基于与目标物体对应的目标框确定相关滤波器的参数作为初始值，且进一步基于后续帧图像的预测数据，逐帧地更新所述相关滤波器的参数，

并且，对所述跟踪器的参数进行初始化包括：基于重新设置的目标框，确定相关滤波器的参数作为初始值。

7.根据权利要求1所述的方法，其中基于所述交并比和与所述交并比对应的检测框，修正所述预测框进一步包括：

当所述交并比大于等于第二阈值且小于等于1时，基于与所述交并比对应的检测框，更新所述预测框。

8.根据权利要求7所述的方法，其中更新所述预测框进一步包括：

将与所述交并比对应的检测框和所述预测框进行加权平均，以产生加权平均框；以及

以所述加权平均框来更新所述预测框。

9.一种信息插入方法，包括：

确定在初始帧图像中与目标物体对应的目标框；

在当前帧图像中预测与所述目标框对应的预测框；

基于与所述预测框重叠的检测框，修正所述预测框；以及

在与修正后的所述预测框相关的位置处，插入特定信息，

10.一种目标跟踪设备，包括：

目标框确定装置，用于确定在初始帧图像中与目标物体对应的目标框；

预测框确定装置，用于在当前帧图像中预测与所述目标框对应的预测框；

检测框确定装置，用于关于当前帧图像执行物体检测，并产生分别与当前帧图像中的物体对应的至少一个检测框；

预测框修正装置，用于基于与所述预测框重叠的检测框，修正所述预测框；以及

跟踪装置，用于基于修正的预测框，跟踪所述目标物体，

其中，所述预测框修正装置进一步包括：交并比确定单元，用于确定所述预测框与所述检测框重叠的交并比，其中所述交并比为所述预测框与所述检测框的交集区域与并集区域的比值；以及修正单元，用于基于所述交并比和与所述交并比对应的检测框，修正所述预测框，并且

其中，所述修正单元进一步被配置为：当所述交并比确定单元确定的所述交并比大于等于第一阈值且小于等于第二阈值时，以与所述交并比对应的检测框来替换预测框。

11.一种信息插入设备，包括：

插入装置，用于在与修正后的所述预测框相关的位置处，插入特定信息，

12.一种计算机可读记录介质，其上存储有指令，所述指令在被处理器执行时，使得所述处理器执行如权利要求1-9中任一项所述的方法。