CN110738687A

CN110738687A - 对象跟踪方法、装置、设备及存储介质

Info

Publication number: CN110738687A
Application number: CN201910991222.7A
Authority: CN
Inventors: 周康明; 丁子凡
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-01-31

Abstract

本申请公开了一种对象跟踪方法、装置、设备及存储介质，属于计算机技术领域。所述方法包括：将第一视频帧、第二视频帧以及初始位置信息输入至第一神经网络，获取第一神经网络输出的预测动作信息；将第一视频帧、第二视频帧、初始位置信息和预测动作信息输入至第二神经网络，获取第二神经网络输出的第一概率信息，第一概率信息用于指示根据预测动作信息得到的目标对象在第二视频帧中的预测位置准确的概率；当第一概率信息指示的概率大于等于预设概率阈值时，根据预测动作信息获取目标对象在第二视频帧中的预测位置。本申请实施例提供的技术方案可以对视频中的对象进行跟踪。

Description

对象跟踪方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种对象跟踪方法、装置、设备及存储介质。

背景技术

在许多实际的应用场景中，都有对视频中的对象进行跟踪的需求，所谓“对视频中的对象进行跟踪”指的是在确定某一对象在某一视频帧中的位置后，对该对象在后续视频帧中的位置进行预测，从而基于预测到的位置对该对象进行跟踪，以得到该对象的运动轨迹。例如，在安防领域，就存在着对监控视频中的嫌疑车辆或者嫌疑人进行跟踪的需求，以根据跟踪得到嫌疑车辆或者嫌疑人的运动轨迹，从而对该嫌疑车辆或者嫌疑人进行抓捕。其中，如何对视频中的对象进行跟踪以满足实际需求，已经成为了目前一个亟待解决的问题。

发明内容

基于此，本申请实施例提供了一种对象跟踪方法、装置、设备及存储介质，可以对视频中的对象进行跟踪。

第一方面，提供了一种对象跟踪方法，该方法包括：

将第一视频帧、第二视频帧以及初始位置信息输入至第一神经网络，获取该第一神经网络输出的预测动作信息，该第一视频帧和该第二视频帧在时序上相邻，该初始位置信息用于指示待跟踪的目标对象在该第一视频帧中的位置，该预测动作信息用于指示该目标对象在该第二视频帧中的预测位置与该目标对象在该第一视频帧中的位置的相对关系；将该第一视频帧、该第二视频帧、该初始位置信息和该预测动作信息输入至第二神经网络，获取该第二神经网络输出的第一概率信息，该第一概率信息用于指示根据该预测动作信息得到的该目标对象在该第二视频帧中的预测位置准确的概率；当该第一概率信息指示的概率大于等于预设概率阈值时，根据该预测动作信息获取该目标对象在该第二视频帧中的预测位置。

在其中一个实施例中，该方法还包括：

当第一概率信息指示的概率小于预设概率阈值时，在第二视频帧中获取至少一个对象框，并获取对象框的位置信息；根据对象框的位置信息和初始位置信息，获取对象框对应的动作信息，动作信息用于指示对象框的位置与目标对象在第一视频帧中的位置的相对关系；将动作信息、第一视频帧、第二视频帧和初始位置信息输入至第二神经网络，获取第二神经网络输出的第二概率信息；将目标第二概率信息对应的对象框的位置确定为目标对象在第二视频帧中的预测位置，目标第二概率信息指示的概率是第二概率信息中的最大值。

在其中一个实施例中，将第一视频帧、第二视频帧以及初始位置信息输入至第一神经网络之前，该方法还包括：

获取多个训练视频，对训练视频中的每个训练视频帧中的训练对象的位置进行标注，根据标注结果得到多个训练数组，其中，训练数组与训练视频帧相对应，训练数组包括当前位置信息、训练动作信息和下一位置信息，当前位置信息用于指示训练对象在训练数组对应的训练视频帧中的位置，下一位置信息用于指示训练对象在训练数组对应的训练视频帧的下一训练视频帧中的位置，训练动作信息用于指示当前位置信息指示的位置与下一位置信息指示的位置的相对关系；基于多个训练数组对第一初始神经网络和第二初始神经网络进行训练，得到第一训练神经网络和第二训练神经网络；将第一训练神经网络作为第一神经网络；根据第二训练神经网络获取第二神经网络。

在其中一个实施例中，基于该多个训练数组对第一初始神经网络和第二初始神经网络进行训练之前，该方法还包括：

基于已经训练好的VGG-M神经网络中的参数设置该第一初始神经网络的初始参数和该第二初始神经网络的初始参数，分别得到第一候选神经网络和第二候选神经网络；基于该多个训练数组对第一初始神经网络和第二初始神经网络进行训练，具体为：基于该多个训练数组对该第一候选神经网络和该第二候选神经网络进行训练。

在其中一个实施例中，基于该多个训练数组对该第一候选神经网络和该第二候选神经网络进行训练之前，该方法还包括：

获取多个训练视频首帧，训练视频首帧是训练视频中的第一个训练视频帧；对于各训练视频首帧，获取至少一个训练对象框，并根据训练对象框的位置与训练对象在训练视频首帧中的位置的相对关系得到训练视频首帧对应的首帧动作信息集合；根据各首帧动作信息集合对第一候选神经网络的初始参数进行调整；基于该多个训练数组对该第一候选神经网络和该第二候选神经网络进行训练，具体为：基于多个训练数组对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练。

在其中一个实施例中，根据各首帧动作信息集合对第一候选神经网络的初始参数进行调整，包括：

根据各首帧动作信息集合以及第一损失函数对第一候选神经网络的初始参数进行调整；

第一损失函数为：

其中，N为多个训练视频首帧的个数，M为从各训练视频首帧中获取的训练对象框的个数，net(s_n|θ^a)为第一候选神经网络输出的第n个动作信息，其中，s_n为第n个训练对象框中的图片块，θ^a表示第一候选神经网络的参数，a_n为首帧动作信息集合中第n个训练对象框对应的动作信息。

在其中一个实施例中，基于多个训练数组对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练，包括：

基于多个训练数组，以及第二损失函数和第三损失函数对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练进行训练；

第二损失函数为：

第三损失函数为：

其中，K为多个训练数组的个数，net(s_j|θ^b)为初始参数调整后的第一候选神经网络输出的第j个动作信息，s_j为第j个训练数组对应位置的图片块，θ^b为初始参数调整后的第一候选神经网络的参数，a_j为第j个训练数组中的训练动作信息，Q为时间差分目标，net(s_i,a_i|θ^c)为第二候选神经网络输出的第i个状态行为值函数，s_i为第i个训练数组对应位置的图片块，θ^c为第二候选神经网络的参数，a_i为初始参数调整后的第一候选神经网络输出的第i个动作信息。

在其中一个实施例中，根据该第二训练神经网络获取该第二神经网络，包括：

基于目标全连接层替换第二训练神经网络的最后一个全连接层，得到第二神经网络；其中，目标全连接层根据训练样本的交并比得到。

在其中一个实施例中，该第一神经网络为Actor神经网络，该第二神经网络为Critic神经网络。

第二方面，提供了一种对象跟踪装置，其特征在于，该装置包括：

第一获取模块，用于将第一视频帧、第二视频帧以及初始位置信息输入至第一神经网络，获取该第一神经网络输出的预测动作信息，该第一视频帧和该第二视频帧在时序上相邻，该初始位置信息用于指示待跟踪的目标对象在该第一视频帧中的位置，该预测动作信息用于指示该目标对象在该第二视频帧中的预测位置与该目标对象在该第一视频帧中的位置的相对关系；

第二获取模块，用于将该第一视频帧、该第二视频帧、该初始位置信息和该预测动作信息输入至第二神经网络，获取该第二神经网络输出的第一概率信息，该第一概率信息用于指示根据该预测动作信息得到的该目标对象在该第二视频帧中的预测位置准确的概率；

第三获取模块，用于在该第一概率信息指示的概率大于等于预设概率阈值时，根据该预测动作信息获取该目标对象在该第二视频帧中的预测位置。

在其中一个实施例中，该装置还包括第四获取模块；

其中，该第四获取模块，用于当第一概率信息指示的概率小于预设概率阈值时，在第二视频帧中获取至少一个对象框，并获取对象框的位置信息；根据对象框的位置信息和初始位置信息，获取对象框对应的动作信息，动作信息用于指示对象框的位置与目标对象在第一视频帧中的位置的相对关系；将动作信息、第一视频帧、第二视频帧和初始位置信息输入至第二神经网络，获取第二神经网络输出的第二概率信息；将目标第二概率信息对应的对象框的位置确定为目标对象在第二视频帧中的预测位置，目标第二概率信息指示的概率是第二概率信息中的最大值。

在其中一个实施例中，该装置还包括训练模块；

该训练模块，用于获取多个训练视频，对训练视频中的每个训练视频帧中的训练对象的位置进行标注，根据标注结果得到多个训练数组，其中，训练数组与训练视频帧相对应，训练数组包括当前位置信息、训练动作信息和下一位置信息，当前位置信息用于指示训练对象在训练数组对应的训练视频帧中的位置，下一位置信息用于指示训练对象在训练数组对应的训练视频帧的下一训练视频帧中的位置，训练动作信息用于指示当前位置信息指示的位置与下一位置信息指示的位置的相对关系；基于多个训练数组对第一初始神经网络和第二初始神经网络进行训练，得到第一训练神经网络和第二训练神经网络；将第一训练神经网络作为第一神经网络；根据第二训练神经网络获取第二神经网络。

在其中一个实施例中，该训练模块，具体用于：基于已经训练好的VGG-M神经网络中的参数设置该第一初始神经网络的初始参数和该第二初始神经网络的初始参数，分别得到第一候选神经网络和第二候选神经网络；基于该多个训练数组对该第一候选神经网络和该第二候选神经网络进行训练。

在其中一个实施例中，该训练模块，具体用于：获取多个训练视频首帧，训练视频首帧是训练视频中的第一个训练视频帧；对于各训练视频首帧，获取至少一个训练对象框，并根据训练对象框的位置与训练对象在训练视频首帧中的位置的相对关系得到训练视频首帧对应的首帧动作信息集合；根据各首帧动作信息集合对第一候选神经网络的初始参数进行调整；基于多个训练数组对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练。

在其中一个实施例中，该训练模块，具体用于：根据各首帧动作信息集合以及第一损失函数对第一候选神经网络的初始参数进行调整；

第一损失函数为：

在其中一个实施例中，该训练模块，具体用于：基于多个训练数组，以及第二损失函数和第三损失函数对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练进行训练；

第二损失函数为：

第三损失函数为：

其中，K为多个训练数组的个数，net(s_j|θ^b)为初始参数调整后的第一候选神经网络输出的第j个动作信息，s_j为第j个训练数组对应位置的图像，θ^b为初始参数调整后的第一候选神经网络的参数，a_j为第j个训练数组中的训练动作信息，Q为时间差分目标，net(s_i,a_i|θ^c)为第二候选神经网络输出的第i个状态行为值函数，s_i为第i个训练数组对应位置的图像，θ^c为第二候选神经网络的参数，a_i为初始参数调整后的第一候选神经网络输出的第i个动作信息。

在其中一个实施例中，该训练模块，具体用于：基于目标全连接层替换第二训练神经网络的最后一个全连接层，得到第二神经网络；其中，目标全连接层根据训练样本的交并比得到。

第三方面，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该计算机程序被该处理器执行时实现上述第一方面任一所述的对象跟踪方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面任一所述的对象跟踪方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过将时序上相邻的第一视频帧和第二视频帧以及用于表征待跟踪的目标对象在第一视频帧中的位置的初始位置信息输入至第一神经网络，获取第一神经网络输出的预测动作信息，接着，将该预测动作信息、该第一视频帧、该第二视频帧和该初始位置信息输入至第二神经网络，获取该第二神经网络输出的概率信息，其中，该概率信息用于指示根据该预测动作信息得到的目标对象在第二视频帧中的预测位置准确的概率，当该概率信息指示的概率大于等于预设概率阈值时，根据该预测动作信息获取目标对象在第二视频帧中的预测位置，这样，根据第一视频帧中目标对象所在的位置就能实现对第二视频帧中目标对象所在的位置的预测，从而就可以实现对该目标对象的跟踪。

附图说明

图1a为本申请实施例提供的一种对象跟踪方法的流程图；

图1b为本申请实施例提供的一种强化学习的原理的示意图；

图1c为本申请实施例提供的一种第一神经网络和第二神经网络的架构的示意图；

图2为本申请实施例提供的另一种对象跟踪方法的流程图；

图3为本申请实施例提供的训练第一神经网络和第二神经网络的流程图；

图4为本申请实施例提供的一种对象跟踪装置的框图；

图5为本申请实施例提供的另一种对象跟踪装置的框图；

图6为本申请实施例提供的一种计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1a，其示出了本申请实施例提供的一种对象跟踪方法的流程图，该对象跟踪方法可以应用于服务器或者监控摄像机中。如图1a所示，该对象跟踪方法可以包括以下步骤：

步骤101、将第一视频帧、第二视频帧以及初始位置信息输入至第一神经网络，获取第一神经网络输出的预测动作信息。

第一视频帧和第二视频帧为目标视频中在时序上相邻的任意两个视频帧，其中，该目标视频为包含待跟踪的目标对象的视频。例如，若目标对象为嫌疑车辆，则该目标视频可以为拍摄到该嫌疑车辆的监控视频，该第一视频帧和该第二视频帧可以为该监控视频中在时序上相邻的任意的两个视频帧。

该初始位置信息用于指示目标对象在第一视频帧中的位置(以下简称为初始位置)。可选的，该初始位置信息可以指示第一视频帧中目标对象所在的对象框的位置，例如，该初始位置信息可以包括第一视频帧中目标对象所在的对象框的中心点坐标以及第一视频帧中目标对象所在的对象框的长和宽。

在一种可能的实现方式中，该初始位置信息可以是由技术人员对第一视频帧中的目标对象进行标定得到的，例如，若第一视频帧为目标视频的第一个视频帧，则技术人员可以在该第一视频帧中对目标对象进行标定，根据技术人员的标定即可得到该初始位置信息。

在另一种可能的实现方式中，该初始位置信息也可以是基于本申请实施例提供的对象跟踪方法得到的，例如，若第三视频帧为目标视频中与第一视频帧在时序上相邻的且位于第一视频帧之前的视频帧，则可以根据第三视频帧、第一视频帧以及目标对象在该第三视频帧中的位置，基于本申请实施例提供的对象跟踪方法得到该初始位置信息。

将第一视频帧、第二视频帧以及初始位置信息输入至第一神经网络，可以得到第一神经网络输出的预测动作信息。可选的，该第一神经网络可以为Actor神经网络。

其中，该预测动作信息用于指示目标对象在第二视频帧中的预测位置(以下简称为预测位置)与初始位置的相对关系。可选的，该预测动作信息可以包括预测位置与初始位置相比在水平方向上的移动比例、预测位置与初始位置相比在竖直方向上的移动比例，以及目标对象在第二视频帧的大小相较于目标对象在第一视频帧中的大小的比例。

可选的，该预测位置可以为第二视频帧中目标对象所在的对象框的位置，与上文所述类似的，“第二视频帧中目标对象所在的对象框的位置”可以用第二视频帧中目标对象所在的对象框的中心点坐标，以及第二视频帧中目标对象所在的对象框的长和宽来进行表征。

由于预测动作信息可以指示预测位置和初始位置的相对关系，则在后续步骤中，根据该预测动作信息以及初始位置信息(用于指示初始位置)即可得到预测位置，从而实现对目标对象的跟踪。

需要指出的是，本申请实施例中，第一神经网络可以基于强化学习的方式输出预测动作信息，为了使读者能够更加理解本申请的技术方案，下面，本申请实施例将对强化学习的原理进行简要说明。

请参考图1b，智能体通过动作at与环境进行交互，同时环境会给出一个奖励rt。如此循环下去，智能体与环境进行不断地交互从而产生很多数据。强化学习算法利用产生的数据修改自身的动作，再与环境交互，产生新的数据，并利用新的数据进一步改善自身的动作，经过数次迭代学习后，智能体能最终地学到完成相应任务的最优动作。

其中，智能体可以用移动的框来表示，例如，移动的框可以是本申请实施例中的对象框，状态st可以定义为移动的框b＝[x，y，h，w]内的图片块，其中：(x，y)表示移动的框的中心位置，h、w分别表示移动的框的宽度和高度。动作at＝[Δx，Δy，Δs]，其用来描述移动的框的相对运动比例，Δx表示移动的框的水平移动比例，Δy表示移动的框的垂直方向移动比例，Δs表示移动的框的放缩比例。那么，智能体的下一个时刻可以表示为b'＝[x+Δx×h,y+Δy×w,h+Δs×h,w+Δs×w]。其中：Δx×h为移动的框的水平移动比例与移动的框的宽度相乘得到的该移动的框在水平方向上的实际偏移量，Δy×w为移动的框的竖直移动比例与移动的框的高度相乘得到的该移动的框在竖直方向上的实际偏移量，Δs×h为移动的框的放缩比例与移动的框的宽度相乘得到的该移动的框在水平方向上的放缩尺寸，Δs×w为移动的框的放缩比例与移动的框的高度相乘得到的该移动的框在竖直方向上的放缩尺寸。奖励rt：移动的框与目标框之间的交并比(简称：IOU)，IOU大于给定阈值，奖励为1，否则为0，该目标框指的是移动的框所应当处于的位置所在的框。

步骤102、将第一视频帧、第二视频帧、初始位置信息和预测动作信息输入至第二神经网络，获取第二神经网络输出的第一概率信息。

实际应用中，根据第一神经网络输出的预测动作信息得到的预测位置可能是不准确的，此时就会出现对目标对象跟丢的现象。为了避免跟丢目标对象，在本申请实施例中，可以将第一视频帧、第二视频帧、初始位置信息和预测动作信息输入至第二神经网络，以获取第二神经网络输出的第一概率信息，该第一概率信息可以表征根据预测动作信息得到的预测位置准确的概率，也即是可以表征根据该预测动作信息能够准确跟踪到目标对象的概率。

在后续技术过程中，可以根据第一概率信息表征的概率执行不同的获取预测位置的策略，从而保证获取到的预测位置的准确性，继而避免跟丢目标对象。可选的，该第二神经网络可以为Critic神经网络。

请参考图1c，其示出了第一神经网络为Actor神经网络，第二神经网络为Critic神经网络的情况下，第一神经网络和第二神经网络的架构，其中，第一神经网络可以包括3个卷积层和3个全连接层，其中，该3个卷积层分别为卷积层a1、a2和a3，该3个全连接层分别为af1、af2和af3，第二神经网络也可以包括3个卷积层和3个全连接层，其中，该3个卷积层分别为卷积层c1、c2和c3，该3个全连接层分别为cf1、cf2和cf3，其中，第二神经网络的最后的全连接层可以为一个分类器。

如图1c所示，本申请实施例可以向第一神经网络输入第一视频帧Z1、第二视频帧Z2和初始位置信息W，第一神经网络可以输出预测动作信息A，本申请实施例可以向第二神经网络输入第一视频帧Z1、第二视频帧Z2、初始位置信息W和预测动作信息A，第二神经网络可以输出第一概率信息g。

步骤103、当第一概率信息指示的概率大于等于预设概率阈值时，根据预测动作信息获取目标对象在第二视频帧中的预测位置。

在第一概率信息指示的概率较大(大于等于预设概率阈值)时，说明根据预测动作信息得到的预测位置是准确的，也即是，根据该预测动作信息能够准确跟踪到目标对象。在这种情况下，就可以根据预测动作信息以及初始位置信息(用于指示初始位置)获取预测位置，以根据该预测位置实现对目标对象的跟踪。

需要指出的是，该预设概率阈值可以由技术人员进行设定，本申请实施例对其不做具体限定。

在本申请实施例提供的对象跟踪方法中，通过将时序上相邻的第一视频帧和第二视频帧以及用于表征待跟踪的目标对象在第一视频帧中的位置的初始位置信息输入至第一神经网络，获取第一神经网络输出的预测动作信息，接着，将该预测动作信息、该第一视频帧、该第二视频帧和该初始位置信息输入至第二神经网络，获取该第二神经网络输出的概率信息，其中，该概率信息用于指示根据该预测动作信息得到的目标对象在第二视频帧中的预测位置准确的概率，当该概率信息指示的概率大于等于预设概率阈值时，根据该预测动作信息获取目标对象在第二视频帧中的预测位置，这样，根据第一视频帧中目标对象所在的位置就能实现对第二视频帧中目标对象所在的位置的预测，从而就可以实现对该目标对象的跟踪。

在上文实施例的基础上，本申请实施例还提供了另一种对象跟踪方法，请参考图2，其示出了本申请实施例提供的该另一种对象跟踪方法的流程图，该另一种对象跟踪方法可以应用于服务器或者监控摄像机中。如图2所示，在上文所述实施例的基础上，该另一种对象跟踪方法可以包括以下步骤：

步骤201、当第一概率信息指示的概率小于预设概率阈值时，在第二视频帧中获取至少一个对象框，并获取对象框的位置信息。

在第一概率信息指示的概率较小(小于预设概率阈值)时，说明根据预测动作信息得到的预测位置是不准确的，也即是，根据该预测动作信息无法准确跟踪到目标对象。在这种情况下，就不使用根据预测动作信息以及初始位置信息获取预测位置的策略，而是采用步骤201至步骤204提供的策略获取预测位置，从而保证获取到的预测位置的准确性，继而避免跟丢目标对象。

可选的，在步骤201中，可以采用高斯采样或者选择性搜索(英文：SelectiveSearch)的方式从第二视频帧中截取至少一个对象框，并获取每个截取到的对象框的位置信息，其中，截取到的对象框的位置信息可以包括截取到的对象框的中心点的坐标以及截取到的对象框的长和宽。

步骤202、根据获取到的对象框的位置信息和初始位置信息，获取对象框对应的动作信息。

其中，对象框对应的动作信息用于指示对象框的位置与目标对象在第一视频帧中的位置(也即是初始位置)的相对关系。

步骤203、将动作信息、第一视频帧、第二视频帧和初始位置信息输入至第二神经网络，获取第二神经网络输出的第二概率信息。

步骤204、将目标第二概率信息对应的对象框的位置确定为目标对象在第二视频帧中的预测位置，目标第二概率信息指示的概率是第二概率信息中的最大值。

在上文所述实施例的基础上，本申请还对第一神经网络和第二神经网络的训练过程进行了说明，请参考图3，该训练过程可以包括以下步骤：

步骤301、基于已经训练好的VGG-M神经网络中的参数设置第一初始神经网络的初始参数和第二初始神经网络的初始参数，分别得到第一候选神经网络和第二候选神经网络。

在本申请实施例中，可以通过caffe工具构建未经过训练的第一初始神经网络和未经过训练的第二初始神经网络，其中，该第一初始神经网络的架构可以为Actor神经网络的架构，该第二初始神经网络的架构可以为Critic神经网络的架构。该第一初始神经网络和第二初始神经网络的架构可以如图1c所示的架构。

在构建得到第一初始神经网络和第二初始神经网络后，可以使用已经训练好的VGG-M神经网络中的参数对该第一初始神经网络和第二初始神经网络的初始参数进行设置。

使用已经训练好的VGG-M神经网络中的参数对第一初始神经网络的初始参数和第二初始神经网络的初始参数进行设置的方式，可以加快第一初始神经网络和第二初始神经网络在训练过程中收敛的速度，从而可以减少第一初始神经网络和第二初始神经网络的训练时长，同时也可以减少对第一初始神经网络和第二初始神经网络进行训练所需的训练样本的数量。

步骤302、获取多个训练视频首帧。

在得到第一候选神经网络和第二候选神经网络之后，就需要对该第一候选神经网络和第二候选神经网络进行训练。在训练的过程中，需要获取多个用于训练的训练视频，其中，每个训练视频都包括多个训练视频帧，每个训练视频都包括训练对象，这里所谓的训练对象指的可以是人、车等能够运动且能够被跟踪的物体。

在获取到多个用于训练的训练视频后，可以对每个训练视频的每个训练视频帧中的训练对象进行标定，从而根据标定得到每个训练视频的每个训练视频帧中训练对象的位置信息。

在对每个训练视频中的每个训练视频帧中的训练对象进行标定之后，可以从该多个训练视频中获取多个训练视频首帧，这里所谓的训练视频首帧是训练视频中的第一个训练视频帧。

步骤303、对于各训练视频首帧，在该训练视频首帧中获取至少一个训练对象框。

在得到多个训练视频首帧之后，对于每个训练视频首帧，可以在其中截取至少一个训练对象框。可选的，可以采用高斯采样或者选择性搜索的方式从每个训练视频首帧中截取训练对象框。

步骤304、对于各训练视频首帧，根据各训练对象框的位置与训练对象在训练视频首帧中的位置的相对关系得到训练视频首帧对应的首帧动作信息集合。

对于各训练视频首帧，可以获取截取的各训练对象框对应的动作信息，其中，训练对象框对应的动作信息用于指示该训练对象框的位置与训练对象在该训练视频首帧中的位置的相对关系。

对于各训练视频首帧，在获取到截取的各训练对象框对应的动作信息之后，可以基于各训练对象框对应的动作信息组成该训练视频首帧对应的首帧动作信息集合。

步骤305、根据各训练视频首帧对应的首帧动作信息集合对第一候选神经网络的初始参数进行调整。

由于视频的首个视频帧在对象的跟踪过程中起到决定性的作用，因此，在对第一候选神经网络进行训练的过程中，本申请实施例可以基于各训练视频首帧对应的首帧动作信息集合对第一候选神经网络的初始参数进行调整，这样可以提高训练后的网络的健壮性，使得训练后的网络的输出更加准确。

在本申请实施例中，可以根据各训练视频首帧对应的首帧动作信息集合以及第一损失函数对第一候选神经网络的初始参数进行调整。

其中，该第一损失函数为：

N为多个训练视频首帧的个数，M为从各训练视频首帧中截取的训练对象框的个数，net(s_n|θ^a)为第一候选神经网络输出的第n个动作信息，其中，s_n为第n个训练对象框中的图片块，θ^a表示第一候选神经网络的参数，a_n为首帧动作信息集合中第n个训练对象框对应的动作信息。

步骤306、获取多个训练数组。

在本申请实施例中，通过步骤302中对每个训练视频的每个训练视频帧中的训练对象进行标定，可以得到多个训练数组。其中，训练数组与训练视频帧相对应，各训练数组包括当前位置信息，训练动作信息和下一位置信息，当前位置信息用于指示训练对象在该训练数组对应的训练视频帧中的位置，下一位置信息用于指示训练对象在该训练数组对应的训练视频帧的下一训练视频帧中的位置，训练动作信息用于指示当前位置信息指示的位置与下一位置信息指示的位置的相对关系。

步骤307、基于多个训练数组对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练，得到第一训练神经网络和第二训练神经网络。

可选的，在本申请实施例中，可以基于强化学习的方式对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练。

可选的，在强化学习过程中，可以基于多个训练数组，以及第二损失函数和第三损失函数对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练。

其中，第二损失函数为：

第三损失函数为：

其中，第三损失函数中的时间差分目标Q可以根据下述公式计算得到：

Q＝r_i+1+γnet(s_i+1,net(s_i+1|θ^b)|θ^c)。

其中，γ为折扣因子，net(s_i+1|θ^b)为初始参数调整后的第一候选神经网络输出的第i+1个动作信息，net(s_i+1,net(s_i+1|θ^b)|θ^c)为第二候选神经网络输出的第i+1个状态行为值函数，s_i+1为第i+1个训练数组对应位置的图片块，r_i+1为第i+1个奖励数值，该奖励数值根据由第i+1个动作信息得到的位置信息与第i+1个训练数组中的下一位置信息的相似程度确定，可选的，当由第i+1个动作信息得到的位置信息所指示的位置与第i+1个训练数组中的下一位置信息所指示的位置的交并比大于等于目标交并比阈值时，该奖励数值为1，当由第i+1个动作信息得到的位置信息所指示的位置与第i+1个训练数组中的下一位置信息所指示的位置的交并比小于目标交并比阈值时，该奖励数值为-1。

需要指出的是，该第i+1个奖励数值可以根据与其临近的其他奖励数值得到，例如，该第i+1个奖励数值可以根据第i个奖励数值得到，且，该第i+1个奖励数值可以等于第i个奖励数值。例如，第50个训练视频帧对应的奖励数值为+1，第61个训练视频帧对应的奖励数值为+1，第68个训练视频帧对应的奖励数值为-1，则，可以将第50-61个训练视频帧之间的每一训练视频帧对应的奖励数值都确定为+1，将第61-68各训练视频帧之间的每一训练视频帧对应的奖励数值设置为-1。这样，可以在奖励数值标注不全的情况下，尽可能实现对神经网络的训练。

步骤308、将第一训练神经网络作为第一神经网络。

步骤309、根据第二训练神经网络获取第二神经网络。

基于目标全连接层替换第二训练神经网络的最后一个全连接层，得到第二神经网络，其中，目标全连接层是根据训练样本的交并比得到的，可选的，在本申请实施例中，可以根据交并比得到多个正样本和多个负样本，而后，根据该多个正样本和多个负样本训练得到该目标全连接层，其中，正样本为与训练对象所在的训练对象框的交并比大于等于预设阈值(例如，0.5)的训练对象框，负样本为与训练对象所在的训练对象框的交并比小于预设阈值的训练对象框。

需要指出的是，在本申请实施例中，在构建得到第一初始神经网络和第二初始神经网络后，可以不对第一初始神经网络和第二初始神经网络的参数进行调整或者赋值，而是可以直接基于多个训练数组对该第一初始神经网络和该第二初始神经网络进行训练，分别得到第一训练神经网络和第二训练神经网络。

请参考图4，其示出了本申请实施例提供的一种对象跟踪装置400的框图，该对象跟踪装置400可以配置于服务器或者监控摄像机中。如图4所示，该对象跟踪装置400可以包括：第一获取模块401、第二获取模块402和第三获取模块403。

其中，该第一获取模块401，用于将第一视频帧、第二视频帧以及初始位置信息输入至第一神经网络，获取该第一神经网络输出的预测动作信息，该第一视频帧和该第二视频帧在时序上相邻，该初始位置信息用于指示待跟踪的目标对象在该第一视频帧中的位置，该预测动作信息用于指示该目标对象在该第二视频帧中的预测位置与该目标对象在该第一视频帧中的位置的相对关系。

该第二获取模块402，用于将该第一视频帧、该第二视频帧、该初始位置信息和该预测动作信息输入至第二神经网络，获取该第二神经网络输出的第一概率信息，该第一概率信息用于指示根据该预测动作信息得到的该目标对象在该第二视频帧中的预测位置准确的概率。

该第三获取模块403，用于在该第一概率信息指示的概率大于等于预设概率阈值时，根据该预测动作信息获取该目标对象在该第二视频帧中的预测位置。

在本申请的一个实施例中，该第一神经网络为Actor神经网络，该第二神经网络为Critic神经网络。

请参考图5，本申请实施例还提供了另外一种对象跟踪装置500，该对象跟踪装置500除了包括对象跟踪装置400包括的各模块外，可选的，该对象跟踪装置500还可以包括第四获取模块404和训练模块405。

其中，该第四获取模块404，用于当第一概率信息指示的概率小于预设概率阈值时，在第二视频帧中获取至少一个对象框，并获取对象框的位置信息；根据对象框的位置信息和初始位置信息，获取对象框对应的动作信息，动作信息用于指示对象框的位置与目标对象在第一视频帧中的位置的相对关系；将动作信息、第一视频帧、第二视频帧和初始位置信息输入至第二神经网络，获取第二神经网络输出的第二概率信息；将目标第二概率信息对应的对象框的位置确定为目标对象在第二视频帧中的预测位置，目标第二概率信息指示的概率是第二概率信息中的最大值。

该训练模块405，用于获取多个训练视频，对训练视频中的每个训练视频帧中的训练对象的位置进行标注，根据标注结果得到多个训练数组，其中，训练数组与训练视频帧相对应，训练数组包括当前位置信息、训练动作信息和下一位置信息，当前位置信息用于指示训练对象在训练数组对应的训练视频帧中的位置，下一位置信息用于指示训练对象在训练数组对应的训练视频帧的下一训练视频帧中的位置，训练动作信息用于指示当前位置信息指示的位置与下一位置信息指示的位置的相对关系；基于多个训练数组对第一初始神经网络和第二初始神经网络进行训练，得到第一训练神经网络和第二训练神经网络；将第一训练神经网络作为第一神经网络；根据第二训练神经网络获取第二神经网络。

在本申请的一个实施例中，该训练模块405，具体用于：基于已经训练好的VGG-M神经网络中的参数设置该第一初始神经网络的初始参数和该第二初始神经网络的初始参数，分别得到第一候选神经网络和第二候选神经网络；基于该多个训练数组对该第一候选神经网络和该第二候选神经网络进行训练。

在本申请的一个实施例中，该训练模块405，具体用于：获取多个训练视频首帧，训练视频首帧是训练视频中的第一个训练视频帧；对于各训练视频首帧，获取至少一个训练对象框，并根据训练对象框的位置与训练对象在训练视频首帧中的位置的相对关系得到训练视频首帧对应的首帧动作信息集合；根据各首帧动作信息集合对第一候选神经网络的初始参数进行调整；基于多个训练数组对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练。

在本申请的一个实施例中，该训练模块405，具体用于：根据各首帧动作信息集合以及第一损失函数对第一候选神经网络的初始参数进行调整；

第一损失函数为：

在本申请的一个实施例中，该训练模块405，具体用于：基于多个训练数组，以及第二损失函数和第三损失函数对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练进行训练；

第二损失函数为：

第三损失函数为：

在本申请的一个实施例中，该训练模块405，具体用于：基于目标全连接层替换第二训练神经网络的最后一个全连接层，得到第二神经网络；其中，目标全连接层根据训练样本的交并比得到。

本申请实施例提供的对象跟踪装置，可以实现上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

关于对象跟踪装置的具体限定可以参见上文中对于对象跟踪方法的限定，在此不再赘述。上述对象跟踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在本申请的一个实施例中，提供了一种计算机设备，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器和存储器。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种对象跟踪方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请的一个实施例中，提供了一种计算机设备，该计算机设备可以为服务器或者监控摄像机，该计算机设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：当第一概率信息指示的概率小于预设概率阈值时，在第二视频帧中获取至少一个对象框，并获取对象框的位置信息；根据对象框的位置信息和初始位置信息，获取对象框对应的动作信息，动作信息用于指示对象框的位置与目标对象在第一视频帧中的位置的相对关系；将动作信息、第一视频帧、第二视频帧和初始位置信息输入至第二神经网络，获取第二神经网络输出的第二概率信息；将目标第二概率信息对应的对象框的位置确定为目标对象在第二视频帧中的预测位置，目标第二概率信息指示的概率是第二概率信息中的最大值。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：获取多个训练视频，对训练视频中的每个训练视频帧中的训练对象的位置进行标注，根据标注结果得到多个训练数组，其中，训练数组与训练视频帧相对应，训练数组包括当前位置信息、训练动作信息和下一位置信息，当前位置信息用于指示训练对象在训练数组对应的训练视频帧中的位置，下一位置信息用于指示训练对象在训练数组对应的训练视频帧的下一训练视频帧中的位置，训练动作信息用于指示当前位置信息指示的位置与下一位置信息指示的位置的相对关系；基于多个训练数组对第一初始神经网络和第二初始神经网络进行训练，得到第一训练神经网络和第二训练神经网络；将第一训练神经网络作为第一神经网络；根据第二训练神经网络获取第二神经网络。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：基于已经训练好的VGG-M神经网络中的参数设置该第一初始神经网络的初始参数和该第二初始神经网络的初始参数，分别得到第一候选神经网络和第二候选神经网络；基于该多个训练数组对该第一候选神经网络和该第二候选神经网络进行训练。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：获取多个训练视频首帧，训练视频首帧是训练视频中的第一个训练视频帧；对于各训练视频首帧，获取至少一个训练对象框，并根据训练对象框的位置与训练对象在训练视频首帧中的位置的相对关系得到训练视频首帧对应的首帧动作信息集合；根据各首帧动作信息集合对第一候选神经网络的初始参数进行调整；基于多个训练数组对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：根据各首帧动作信息集合以及第一损失函数对第一候选神经网络的初始参数进行调整；

第一损失函数为：

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：基于多个训练数组，以及第二损失函数和第三损失函数对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练进行训练；

第二损失函数为：

第三损失函数为：

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：基于目标全连接层替换第二训练神经网络的最后一个全连接层，得到第二神经网络；其中，目标全连接层根据训练样本的交并比得到。

本申请实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：当第一概率信息指示的概率小于预设概率阈值时，在第二视频帧中获取至少一个对象框，并获取对象框的位置信息；根据对象框的位置信息和初始位置信息，获取对象框对应的动作信息，动作信息用于指示对象框的位置与目标对象在第一视频帧中的位置的相对关系；将动作信息、第一视频帧、第二视频帧和初始位置信息输入至第二神经网络，获取第二神经网络输出的第二概率信息；将目标第二概率信息对应的对象框的位置确定为目标对象在第二视频帧中的预测位置，目标第二概率信息指示的概率是第二概率信息中的最大值。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取多个训练视频，对训练视频中的每个训练视频帧中的训练对象的位置进行标注，根据标注结果得到多个训练数组，其中，训练数组与训练视频帧相对应，训练数组包括当前位置信息、训练动作信息和下一位置信息，当前位置信息用于指示训练对象在训练数组对应的训练视频帧中的位置，下一位置信息用于指示训练对象在训练数组对应的训练视频帧的下一训练视频帧中的位置，训练动作信息用于指示当前位置信息指示的位置与下一位置信息指示的位置的相对关系；基于多个训练数组对第一初始神经网络和第二初始神经网络进行训练，得到第一训练神经网络和第二训练神经网络；将第一训练神经网络作为第一神经网络；根据第二训练神经网络获取第二神经网络。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于已经训练好的VGG-M神经网络中的参数设置该第一初始神经网络的初始参数和该第二初始神经网络的初始参数，分别得到第一候选神经网络和第二候选神经网络；基于该多个训练数组对该第一候选神经网络和该第二候选神经网络进行训练。

在其中一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取多个训练视频首帧，训练视频首帧是训练视频中的第一个训练视频帧；对于各训练视频首帧，获取至少一个训练对象框，并根据训练对象框的位置与训练对象在训练视频首帧中的位置的相对关系得到训练视频首帧对应的首帧动作信息集合；根据各首帧动作信息集合对第一候选神经网络的初始参数进行调整；基于多个训练数组对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据各首帧动作信息集合以及第一损失函数对第一候选神经网络的初始参数进行调整；

第一损失函数为：

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于多个训练数组，以及第二损失函数和第三损失函数对第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练进行训练；

第二损失函数为：

第三损失函数为：

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：基于目标全连接层替换第二训练神经网络的最后一个全连接层，得到第二神经网络；其中，目标全连接层根据训练样本的交并比得到。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种对象跟踪方法，其特征在于，所述方法包括：

将第一视频帧、第二视频帧以及初始位置信息输入至第一神经网络，获取所述第一神经网络输出的预测动作信息，所述第一视频帧和所述第二视频帧在时序上相邻，所述初始位置信息用于指示待跟踪的目标对象在所述第一视频帧中的位置，所述预测动作信息用于指示所述目标对象在所述第二视频帧中的预测位置与所述目标对象在所述第一视频帧中的位置的相对关系；

将所述第一视频帧、所述第二视频帧、所述初始位置信息和所述预测动作信息输入至第二神经网络，获取所述第二神经网络输出的第一概率信息，所述第一概率信息用于指示根据所述预测动作信息得到的所述目标对象在所述第二视频帧中的预测位置准确的概率；

当所述第一概率信息指示的概率大于等于预设概率阈值时，根据所述预测动作信息获取所述目标对象在所述第二视频帧中的预测位置。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述第一概率信息指示的概率小于所述预设概率阈值时，在所述第二视频帧中获取至少一个对象框，并获取所述对象框的位置信息；

根据所述对象框的位置信息和所述初始位置信息，获取所述对象框对应的动作信息，所述动作信息用于指示所述对象框的位置与所述目标对象在所述第一视频帧中的位置的相对关系；

将所述动作信息、所述第一视频帧、所述第二视频帧和所述初始位置信息输入至所述第二神经网络，获取所述第二神经网络输出的第二概率信息；

将目标第二概率信息对应的对象框的位置确定为所述目标对象在所述第二视频帧中的预测位置，所述目标第二概率信息指示的概率是所述第二概率信息中的最大值。

3.根据权利要求1所述的方法，其特征在于，所述将第一视频帧、第二视频帧以及初始位置信息输入至第一神经网络之前，所述方法还包括：

获取多个训练视频，对所述训练视频中的每个训练视频帧中的训练对象的位置进行标注，根据标注结果得到多个训练数组，其中，所述训练数组与训练视频帧相对应，所述训练数组包括当前位置信息、训练动作信息和下一位置信息，所述当前位置信息用于指示所述训练对象在所述训练数组对应的训练视频帧中的位置，所述下一位置信息用于指示所述训练对象在所述训练数组对应的训练视频帧的下一训练视频帧中的位置，所述训练动作信息用于指示所述当前位置信息指示的位置与所述下一位置信息指示的位置的相对关系；

基于所述多个训练数组对第一初始神经网络和第二初始神经网络进行训练，得到第一训练神经网络和第二训练神经网络；

将所述第一训练神经网络作为所述第一神经网络；

根据所述第二训练神经网络获取所述第二神经网络。

4.根据权利要求3所述的方法，其特征在于，所述基于所述多个训练数组对第一初始神经网络和第二初始神经网络进行训练之前，所述方法还包括：

基于已经训练好的VGG-M神经网络中的参数设置所述第一初始神经网络的初始参数和所述第二初始神经网络的初始参数，分别得到第一候选神经网络和第二候选神经网络；

所述基于所述多个训练数组对第一初始神经网络和第二初始神经网络进行训练，具体为：

基于所述多个训练数组对所述第一候选神经网络和所述第二候选神经网络进行训练。

5.根据权利要求4所述的方法，其特征在于，所述基于所述多个训练数组对所述第一候选神经网络和所述第二候选神经网络进行训练之前，所述方法还包括：

获取多个训练视频首帧，所述训练视频首帧是所述训练视频中的第一个训练视频帧；

对于各所述训练视频首帧，获取至少一个训练对象框，并根据所述训练对象框的位置与所述训练对象在所述训练视频首帧中的位置的相对关系得到所述训练视频首帧对应的首帧动作信息集合；

根据各所述首帧动作信息集合对所述第一候选神经网络的初始参数进行调整；

所述基于所述多个训练数组对所述第一候选神经网络和所述第二候选神经网络进行训练，具体为：

基于所述多个训练数组对所述第二候选神经网络以及初始参数调整后的第一候选神经网络进行训练。

6.根据权利要求5所述的方法，其特征在于，所述根据各所述首帧动作信息集合对所述第一候选神经网络的初始参数进行调整，包括：

根据各所述首帧动作信息集合以及第一损失函数对所述第一候选神经网络的初始参数进行调整；

所述第一损失函数为：

其中，N为所述多个训练视频首帧的个数，M为从各所述训练视频首帧中获取的训练对象框的个数，net(s_n|θ^a)为所述第一候选神经网络输出的第n个动作信息，其中，s_n为第n个训练对象框中的图片块，θ^a表示所述第一候选神经网络的参数，a_n为所述首帧动作信息集合中第n个训练对象框对应的动作信息。

7.根据权利要求3所述的方法，其特征在于，所述根据所述第二训练神经网络获取所述第二神经网络，包括：

基于目标全连接层替换所述第二训练神经网络的最后一个全连接层，得到所述第二神经网络；

其中，所述目标全连接层根据训练样本的交并比得到。

8.一种对象跟踪装置，其特征在于，所述装置包括：

第一获取模块，用于将第一视频帧、第二视频帧以及初始位置信息输入至第一神经网络，获取所述第一神经网络输出的预测动作信息，所述第一视频帧和所述第二视频帧在时序上相邻，所述初始位置信息用于指示待跟踪的目标对象在所述第一视频帧中的位置，所述预测动作信息用于指示所述目标对象在所述第二视频帧中的预测位置与所述目标对象在所述第一视频帧中的位置的相对关系；

第二获取模块，用于将所述第一视频帧、所述第二视频帧、所述初始位置信息和所述预测动作信息输入至第二神经网络，获取所述第二神经网络输出的第一概率信息，所述第一概率信息用于指示根据所述预测动作信息得到的所述目标对象在所述第二视频帧中的预测位置准确的概率；

第三获取模块，用于在所述第一概率信息指示的概率大于等于预设概率阈值时，根据所述预测动作信息获取所述目标对象在所述第二视频帧中的预测位置。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的对象跟踪方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7任一所述的对象跟踪方法。