CN110400332B

CN110400332B - 一种目标检测跟踪方法、装置及计算机设备

Info

Publication number: CN110400332B
Application number: CN201810379134.7A
Authority: CN
Inventors: 虞抒沁; 谭文明
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2021-11-05
Anticipated expiration: 2038-04-25
Also published as: CN110400332A

Abstract

本发明实施例提供了一种目标检测跟踪方法、装置及计算机设备，其中，目标检测跟踪方法包括：从获取的视频中提取关键帧，关键帧为连续的多个视频帧中的第一个视频帧；利用预设目标检测方法，对关键帧进行目标检测，得到关键帧中目标所处检测框的位置信息；将当前帧与关键帧进行融合，并对融合后的图像进行光流分析，得到当前帧相对于关键帧的特征位移信息，当前帧为连续的多个视频帧中除关键帧以外的任一个视频帧；根据检测框在关键帧中的位置信息，以及特征位移信息，确定当前帧中预测框的位置信息；基于预测框的位置信息，对目标进行跟踪。通过本方案，可以在降低计算量、保证目标检测跟踪的实时性前提下，提高目标检测跟踪的准确率。

Description

一种目标检测跟踪方法、装置及计算机设备

技术领域

本发明涉及视频处理技术领域，特别是涉及一种目标检测跟踪方法、装置及计算机设备。

背景技术

随着社会的不断进步，以及对社会治安的要求不断提高，视频监控系统的应用越来越普遍。当前的视频监控系统已远远不能满足于许多应用场合的需求，主要存在的问题是智能化程度不高。例如，视频监控系统中，传统的目标检测跟踪方法多以人工构造特征进行搜索匹配的方式进行，这种方式实现复杂，并且人工构造的特征类型有限、特征相对较为固定，如果目标行为变化大、背景变化大或者光照条件变化大，检测跟踪的结果会出现较大的误差。

近些年，深度学习方法的出现及发展，使得目标检测的检出率和准确率得以大幅度提高，通过将视频中的每一个视频帧分别输入预先训练好的目标检测模型中，能够得到目标检测的结果，对每一个视频帧的目标检测结果进行跟踪，深度学习的方法可以使得用于匹配的特征表达能力大幅增强，对于背景和光照的鲁棒性有很大提高，进而提高了目标跟踪的准确性。但是，由于深度学习方法的计算量较大，且每一个视频帧都需要参与目标检测的运算，使得该方法的计算量过于庞大，影响目标检测跟踪的实时性。

为了降低上述目标检测跟踪方法的计算量，多采用跳帧的方式进行目标检测，即每间隔一定数量的视频帧进行一次目标检测，由于丢失了一定数量的视频帧中目标的信息，目标检测跟踪结果与实际的目标运动情况之间存在误差，尤其是针对目标位移变化过大的情况，极易出现目标丢失的现象。

发明内容

本发明实施例的目的在于提供一种目标检测跟踪方法、装置及计算机设备，以在降低计算量、保证目标检测跟踪的实时性前提下，提高目标检测跟踪的准确率。具体技术方案如下：

第一方面，本发明实施例提供了一种目标检测跟踪方法，所述方法包括：

从获取的视频中提取关键帧，其中，所述关键帧为连续的多个视频帧中的第一个视频帧；

利用预设目标检测方法，对所述关键帧进行目标检测，得到所述关键帧中目标所处检测框的位置信息；

将当前帧与所述关键帧进行融合，并对融合后的图像进行光流分析，得到所述当前帧相对于所述关键帧的特征位移信息，其中，所述当前帧为所述连续的多个视频帧中除所述关键帧以外的任一个视频帧；

根据所述检测框在所述关键帧中的位置信息，以及所述特征位移信息，确定所述当前帧中预测框的位置信息；

基于所述预测框的位置信息，对所述目标进行跟踪。

可选的，所述预设目标检测方法包括，基于深度学习的目标检测方法；

所述利用预设目标检测方法，对所述关键帧进行目标检测，得到所述关键帧中目标所处检测框的位置信息，包括：

通过预先训练得到的基于深度学习的目标检测网络，对所述关键帧进行目标检测，得到所述关键帧中目标所处检测框的位置信息。

可选的，所述根据所述检测框在所述关键帧中的位置信息，以及所述特征位移信息，确定所述当前帧中预测框的位置信息，包括：

将所述检测框映射至所述当前帧，得到映射框；

在所述当前帧中，按照所述特征位移信息移动所述映射框，得到所述当前帧中预测框的位置信息。

可选的，在所述从获取的视频中提取关键帧之后，所述方法还包括：

利用所述预设目标检测方法中的特征提取策略，提取所述关键帧的图像特征；

在所述利用预设目标检测方法，对所述关键帧进行目标检测，得到所述关键帧中目标所处检测框的位置信息之后，所述方法还包括：

基于所述检测框的位置信息，提取所述图像特征中处于所述检测框内的第一特征；

对所述第一特征进行池化操作，得到第一池化结果；

在所述将当前帧与所述关键帧进行融合之后，所述方法还包括：

基于融合后的图像中所述目标的幅度变化，确定所述当前帧相对于所述关键帧的特征迁移系数；

将所述特征迁移系数与所述图像特征中的各特征进行相乘操作，并按照所述特征位移信息移动各乘积结果，得到所述当前帧的预测图像特征；

在所述根据所述检测框在所述关键帧中的位置信息，以及所述特征位移信息，确定所述当前帧中预测框的位置信息之后，所述方法还包括：

基于所述预测框的位置信息，提取所述预测图像特征中处于所述预测框内的第二特征；

对所述第二特征进行池化操作，得到与所述第一池化结果相同维度的第二池化结果；

所述基于所述预测框的位置信息，对所述目标进行跟踪，包括：

将所述第一池化结果与所述第二池化结果进行连接，并通过预设位移预测方法，确定所述当前帧中所述目标所处跟踪框相对于所述预测框的相对位移信息；

根据所述预测框在所述当前帧中的位置信息，以及所述相对位移信息，确定所述当前帧中所述目标所处跟踪框的位置信息；

基于所述跟踪框的位置信息，在所述当前帧中对所述目标进行跟踪。

可选的，所述预设位移预测方法包括，基于深度学习的位移预测方法；

所述通过预设位移预测方法，确定所述当前帧中所述目标所处跟踪框相对于所述预测框的相对位移信息，包括：

通过预先训练得到的基于深度学习的位移预测网络，预测得到所述当前帧中所述目标所处跟踪框相对于所述预测框的相对位移信息。

可选的，所述基于深度学习的位移预测网络的训练方式，包括：

获取所述当前帧中所述目标所处真值框的位置信息；

对所述真值框的位置信息与所述跟踪框的位置信息进行损失计算，得到损失参数；

基于所述损失参数，通过调整所述位移预测网络中的神经元参数，训练所述位移预测网络。

可选的，在所述从获取的视频中提取关键帧之前，所述方法还包括：

将视频中连续的多个视频帧划分为一个视频帧间隔；

所述从获取的视频中提取关键帧，包括：

将当前视频帧间隔中的最后一个视频帧作为下一个视频帧间隔的关键帧；

基于所述当前视频帧间隔中的最后一个视频帧中预测框的位置信息，以及所述下一个视频帧间隔的关键帧中目标所处检测框的位置信息，通过比对得到所述预测框与所述检测框的交并比；

如果所述交并比大于预设阈值，则确定所述预测框与所述检测框中的目标相同；

基于所述下一个视频帧间隔的关键帧中目标所处检测框的位置信息，在所述下一个视频帧间隔的关键帧中对所述目标进行跟踪。

第二方面，本发明实施例提供了一种目标检测跟踪装置，所述装置包括：

关键帧提取模块，用于从获取的视频中提取关键帧，其中，所述关键帧为连续的多个视频帧中的第一个视频帧；

检测模块，用于利用预设目标检测方法，对所述关键帧进行目标检测，得到所述关键帧中目标所处检测框的位置信息；

光流分析模块，用于将当前帧与所述关键帧进行融合，并对融合后的图像进行光流分析，得到所述当前帧相对于所述关键帧的特征位移信息，其中，所述当前帧为所述连续的多个视频帧中除所述关键帧以外的任一个视频帧；

位置信息确定模块，用于根据所述检测框在所述关键帧中的位置信息，以及所述特征位移信息，确定所述当前帧中预测框的位置信息；

跟踪模块，用于基于所述预测框的位置信息，对所述目标进行跟踪。

所述检测模块，具体用于：

可选的，所述位置信息确定模块，具体用于：

将所述检测框映射至所述当前帧，得到映射框；

可选的，所述装置还包括：

图像特征提取模块，用于利用所述预设目标检测方法中的特征提取策略，提取所述关键帧的图像特征；

第一特征提取模块，用于基于所述检测框的位置信息，提取所述图像特征中处于所述检测框内的第一特征；

第一池化模块，用于对所述第一特征进行池化操作，得到第一池化结果；

特征迁移系数确定模块，用于基于融合后的图像中所述目标的幅度变化，确定所述当前帧相对于所述关键帧的特征迁移系数；

迁移模块，用于将所述特征迁移系数与所述图像特征中的各特征进行相乘操作，并按照所述特征位移信息移动各乘积结果，得到所述当前帧的预测图像特征；

第二特征提取模块，用于基于所述预测框的位置信息，提取所述预测图像特征中处于所述预测框内的第二特征；

第二池化模块，用于对所述第二特征进行池化操作，得到与所述第一池化结果相同维度的第二池化结果；

所述跟踪模块，具体用于：

可选的，所述装置还包括：

训练模块，用于获取所述当前帧中所述目标所处真值框的位置信息；对所述真值框的位置信息与所述跟踪框的位置信息进行损失计算，得到损失参数；基于所述损失参数，通过调整所述位移预测网络中的神经元参数，训练所述位移预测网络。

可选的，所述装置还包括：

划分模块，用于将视频中连续的多个视频帧划分为一个视频帧间隔；

所述关键帧提取模块，具体用于将当前视频帧间隔中的最后一个视频帧作为下一个视频帧间隔的关键帧；

比对模块，用于基于所述当前视频帧间隔中的最后一个视频帧中预测框的位置信息，以及所述下一个视频帧间隔的关键帧中目标所处检测框的位置信息，通过比对得到所述预测框与所述检测框的交并比；

判别模块，用于如果所述交并比大于预设阈值，则确定所述预测框与所述检测框中的目标相同；

所述跟踪模块，还用于基于所述下一个视频帧间隔的关键帧中目标所处检测框的位置信息，在所述下一个视频帧间隔的关键帧中对所述目标进行跟踪。

第三方面，本发明实施例提供了一种计算机设备，包括处理器和存储器，其中，

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现本发明实施例第一方面所述的方法步骤。

本发明实施例提供的一种目标检测跟踪方法、装置及计算机设备，利用预设目标检测方法，对从视频中提取的关键帧进行目标检测，得到关键帧中目标所处检测框的位置信息，将当前帧与关键帧进行融合，并对融合后的图像进行光流分析，得到当前帧相对于关键帧的特征位移信息，根据检测框在关键帧中的位置信息以及特征位移信息，确定当前帧中预测框的位置信息，基于预测框的位置信息，即可实现对目标的跟踪。关键帧为连续的多个视频帧中的第一个视频帧，当前帧为连续的多个视频帧中除关键帧以外的任一个视频帧，只需要对关键帧进行目标检测，利用光流分析的方法能够很简单的得到当前帧中预测框的位置信息，不需要对每个视频帧进行目标检测，降低了计算量、保证了目标检测跟踪的实时性；并且，基于光流分析的方法可以得到当前帧中的预测框的位置信息，即得到当前帧中目标的大致位置，能够有效的跟踪目标，降低了目标跟丢的概率，从而提高了目标检测跟踪的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例的目标检测跟踪方法的流程示意图；

图2为本发明另一实施例的目标检测跟踪方法的流程示意图；

图3为本发明再一实施例的目标检测跟踪方法的流程示意图；

图4为本发明一实施例的目标检测跟踪装置的结构示意图；

图5为本发明另一实施例的目标检测跟踪装置的结构示意图；

图6为本发明再一实施例的目标检测跟踪装置的结构示意图；

图7为本发明实施例的计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了在降低计算量、保证目标检测跟踪的实时性前提下，提高目标检测跟踪的准确率，本发明实施例提供了一种目标检测跟踪方法、装置及计算机设备。

下面，首先对本发明实施例所提供的一种目标检测跟踪方法进行介绍。

本发明实施例所提供的一种目标检测跟踪方法的执行主体可以为执行智能算法的计算机设备，该计算机设备可以为具有智能检测跟踪功能的摄像机，也可以为远程服务器设备，为了能够实现目标检测跟踪的目的，执行主体中应该至少包括搭载有核心处理芯片的处理器。实现本发明实施例所提供的一种目标检测跟踪方法的方式可以为设置于执行主体中的软件、硬件电路和逻辑电路中的至少一种方式。

如图1所示，本发明实施例所提供的一种目标检测跟踪方法，该目标检测跟踪方法可以包括如下步骤：

S101，从获取的视频中提取关键帧。

其中，视频为网络摄像机IPC、智能摄像机等视频采集设备采集的数据，视频采集设备将采集到的视频数据发送至本发明实施例的执行主体计算机设备中，由计算机设备对视频进行目标检测跟踪处理。关键帧是连接两段不同的内容的视频帧，即关键帧为连续的多个视频帧中的第一个视频帧。关键帧可以为传统意义上的一段视频内容的第一个视频帧；也可以是对视频进行分段，即一定数目的视频帧组成一个视频间隔，每个视频间隔内的第一视频帧设定为关键帧。例如，可以将每N个视频帧划分为一个视频间隔，一个视频间隔中，第一个视频帧确定为关键帧，其余的N-1个视频帧确定为当前帧。

S102，利用预设目标检测方法，对关键帧进行目标检测，得到关键帧中目标所处检测框的位置信息。

对于关键帧，利用预设目标检测方法进行目标检测，预设目标检测方法可以为基于深度学习的目标检测方法，例如，卷积神经网络CNN方法、基于区域的卷积神经网络方法RCNN、基于区域的快速卷积神经网络方法Fast-RCNN等；预设目标检测方法还可以为特征点匹配的方法。在对关键帧进行目标检测时，会在关键帧中产生一个检测框，该检测框中覆盖了目标所处的区域，目标检测的结果中会携带该检测框的位置信息，检测框的位置信息可以包括：检测框的中心点坐标、检测框的顶点坐标、检测框的长度、宽度等信息。

可选的，预设目标检测方法可以包括：基于深度学习的目标检测方法。

为了保证目标检测的准确性和目标的检出率，预设目标检测方法可以选择使用基于深度学习的目标检测方法，更为具体的，可以使用卷积神经网络模型的方式对关键帧中的目标进行检测。

可选的，利用预设目标检测方法，对关键帧进行目标检测，得到关键帧中目标所处检测框的位置信息的步骤，具体可以包括：

通过预先训练得到的基于深度学习的目标检测网络，对关键帧进行目标检测，得到关键帧中目标所处检测框的位置信息。

针对采用基于深度学习的目标检测方法对关键帧进行目标检测，需要预先对目标检测网络进行训练，训练的过程包括：获取多个包含有目标的样本图像，利用卷积神经网络算法对各样本图像进行训练，得到能够准确识别目标的目标检测网络的网络结构及网络参数，通过将关键帧输入该目标检测网络，即可以输出关键帧中目标所处检测框的位置信息，具体网络结构及网络参数的训练过程是传统的不断迭代、实验、损失计算的过程，这里不再赘述。

可选的，在从获取的视频中提取关键帧之后，还可以包括如下步骤：

利用预设目标检测方法中的特征提取策略，提取关键帧的图像特征。

预设目标检测方法中，尤其是基于深度学习的目标检测方法中，往往包含有特征提取策略，目标检测的结果是基于提取的图像特征，再进行分类识别得到的，因此，利用预设目标检测方法，还可以提取得到关键帧的图像特征。

S103，将当前帧与关键帧进行融合，并对融合后的图像进行光流分析，得到当前帧相对于关键帧的特征位移信息。

其中，当前帧为连续的多个视频帧中除关键帧以外的任一个视频帧。对于当前帧，可以不再进行目标检测，而是将当前帧与关键帧进行融合，融合可以将两个视频帧中的像素点进行简单的叠放，在一个图像中展现出两个视频帧的像素信息，再对融合后的图像进行光流分析，进行光流分析的方式可以是将融合后的图像输入光流网，光流网通过对像素信息或者特征信息的分析，即可得到当前帧相对于关键帧的特征位移信息。光流表征了视频中像素点的变化情况，例如，某一个像素点在不同的两个视频帧中的位移变化、幅度变化等。特征位移信息表征了当前帧的特征图中各像素点相对于关键帧的特征图中对应的各像素点的位移信息，对应的，检测框在关键帧和当前帧中也会发生移动。

S104，根据检测框在关键帧中的位置信息，以及特征位移信息，确定当前帧中预测框的位置信息。

在得到检测框在关键帧中的位置信息后，可以确定在当前帧中相对应的位置信息，根据特征位移信息，将该位置信息进行移动，可以得到当前帧中预测框的位置信息。例如，检测框在关键帧中的位置信息为：检测框的中心点的坐标为(x,y)，检测框的高度为h、宽度为w，且特征位移信息为向左移动l，设定向左移动为加，则当前帧中预测框的位置信息为：预测框的中心点的坐标为(x+l,y+l)，预测框的高度为h，宽度为w。

可选的，根据检测框在关键帧中的位置信息，以及特征位移信息，确定当前帧中预测框的位置信息的步骤，具体可以包括：

将检测框映射至当前帧，得到映射框；

在当前帧中，按照特征位移信息移动映射框，得到当前帧中预测框的位置信息。

为了减少运算量，可以直接将检测框映射至当前帧，即在当前帧中与关键帧中检测框所处位置相同的位置处，映射检测框至当前帧的特征图得到映射框，按照特征位移移动该映射框，移动后的映射框作为预测框，且映射框的位置信息即为当前帧中预测框的位置信息。

S105，基于预测框的位置信息，对目标进行跟踪。

预测框的位置信息即为当前帧中目标的大致位置信息，在步骤S102中，得到了关键帧中检测框的位置信息，对于多个视频帧中每个当前帧都可以基于关键帧计算得到目标在该当前帧中的大致位置，基于这些位置信息，即可以实现对目标的跟踪。

应用本实施例，利用预设目标检测方法，对从视频中提取的关键帧进行目标检测，得到关键帧中目标所处检测框的位置信息，将当前帧与关键帧进行融合，并对融合后的图像进行光流分析，得到当前帧相对于关键帧的特征位移信息，根据检测框在关键帧中的位置信息以及特征位移信息，确定当前帧中预测框的位置信息，基于预测框的位置信息，即可实现对目标的跟踪。关键帧为连续的多个视频帧中的第一个视频帧，当前帧为连续的多个视频帧中除关键帧以外的任一个视频帧，只需要对关键帧进行目标检测，利用光流分析的方法能够很简单的得到当前帧中预测框的位置信息，不需要对每个视频帧进行目标检测，降低了计算量、保证了目标检测跟踪的实时性；并且，基于光流分析的方法可以得到当前帧中的预测框的位置信息，即得到当前帧中目标的大致位置，能够有效的跟踪目标，降低了目标跟丢的概率，从而提高了目标检测跟踪的准确率。

基于图1所示实施例，本发明实施例还提供了一种目标检测跟踪方法，如图2所示，该目标检测跟踪方法可以包括如下步骤：

S201，从获取的视频中提取关键帧。

S202，利用预设目标检测方法，对关键帧进行目标检测，得到关键帧中目标所处检测框的位置信息，并利用预设目标检测方法中的特征提取策略，提取关键帧的图像特征。

S203，基于检测框的位置信息，提取图像特征中处于检测框内的第一特征。

图像特征为对关键帧进行特征提取后得到的特征信息，为关键帧中各特征点的信息，由于检测框中覆盖了目标所处的区域，因此，基于检测框的位置信息，提取图像特征中处于检测框内的第一特征。

S204，对第一特征进行池化操作，得到第一池化结果。

在图像特征中提取检测框内的第一特征之后，希望利用特征来描述大的图像，可以对不同位置的特征进行聚合统计，例如，可以计算图像一个区域上的某个特定特征的平均值或最大值。这些概要统计特征不仅具有低得多的维度，同时还会改善结果。这种聚合的操作就叫做池化。假设网路降采样倍数为16，则其在特征层的位置即为原始坐标的1/16，该缩放的过程采用池化操作。

S205，将当前帧与关键帧进行融合。

S206，对融合后的图像进行光流分析，得到当前帧相对于关键帧的特征位移信息，并基于融合后的图像中目标的幅度变化，确定当前帧相对于关键帧的特征迁移系数。

对融合后的图像进行光流分析，不仅可以得到当前帧相对于关键帧的特征位移信息，还可以基于目标的幅度变化得到当前帧相对于关键帧的特征迁移系数，特征迁移系数反映了视频中目标特征的幅度变化情况，基于特征位移信息及特征迁移系数，可以得到近似的当前帧图像特征，即当前帧的预测图像特征。

S207，将特征迁移系数与图像特征中的各特征进行相乘操作，并按照特征位移信息移动各乘积结果，得到当前帧的预测图像特征。

通过对融合后的图像进行光流分析，可以得到两个信息，一个是2通道的位移矩阵，两个通道分别代表X方向和Y方向的位移，另一个是特征迁移系数，预测图像特征要达到较好的效果需要对位移后的特征进行调幅。对于预测图像特征中每个位置，找到上述位移矩阵中对应的位置X和Y值，这两个值指示了关键帧图像特征中对应的特征点位置，取该点周围4个点进行采样，例如(x,y)＝(5.3,1.2)，则取四个点(5,1)，(6,1)，(5,2)，(6,2)，利用例如双线性差值算法等采样算法，进行采样，例如Sample(input[flownet[i,j]])＝input[5,1]*0.7*0.8+input[6,1]*0.3*0.8+input[5,2]*0.7*0.2+input[6.2]*0.3*0.2，对于采样得到的每个特征值乘以对应的特征迁移系数，再按照特征位移信息移动各乘积结果，得到当前帧的预测图像特征。

S208，根据检测框在关键帧中的位置信息，以及特征位移信息，确定当前帧中预测框的位置信息。

S209，基于预测框的位置信息，提取预测图像特征中处于预测框内的第二特征。

预测图像特征为基于关键帧预测得到的当前帧的特征信息，为预测的当前帧中各特征点的信息，由于预测框指示了目标在当前帧中的大致位置，因此，基于预测框的位置信息，提取预测图像特征中处于预测框内的第二特征。

S210，对第二特征进行池化操作，得到与第一池化结果相同维度的第二池化结果。

对第二特征进行池化操作，实际就是根据预测框的大小进行背景信息扩展，保证特征信息的一致性，对于扩展后的图像重新计算其在特征层上的位置信息，假设网路降采样倍数为16，则其在特征层的位置即为原始坐标的1/16，对第二特征进行缩放至第一池化结果相同维度大小，该缩放采用池化操作。池化的方式为：Bin_size＝roi_size/pooled_size，其中，roi_size为池化前预测框的宽、高，pooled_size为池化后结果的宽、高，得到Bin_size后，对每个Bin_size中取最大值进行最大池化。

S211，将第一池化结果与第二池化结果进行连接，并通过预设位移预测方法，确定当前帧中目标所处跟踪框相对于预测框的相对位移信息。

第一池化结果与第二池化结果的连接，可以为沿着图块的深度方向进行拼接，拼接的方式可以为concat方式，通过第一池化结果与第二池化结果的联系，通过预设位移预测方法，确定当前帧中目标所处跟踪框相对于预测框的相对位移信息，用于对预测框的位置进行调整。由于在预测的过程中，预测框的预测结果可能会出现误差，不同当前帧如果均出现误差，会导致误差不断累积，为了保证结果的准确性，提高方案的实现性，利用S211中连接第一池化结果与第二池化结果的方式，对跟踪框相对于预测框的相对位移信息进行预测。

可选的，预设位移预测方法可以包括：基于深度学习的位移预测方法。

则通过预设位移预测方法，确定当前帧中目标所处跟踪框相对于预测框的相对位移信息的步骤，具体可以包括：

通过预先训练得到的基于深度学习的位移预测网络，预测得到当前帧中目标所处跟踪框相对于预测框的相对位移信息。

预设位移预测方法可以为基于深度学习的位移预测方法，基于与目标检测方法相同的思路，基于深度学习的位移预测方法中位移预测网络是预先训练得到的，可选的，基于深度学习的位移预测网络的训练方式，可以包括如下步骤：

第一步，获取当前帧中目标所处真值框的位置信息；

第二步，对真值框的位置信息与跟踪框的位置信息进行损失计算，得到损失参数；

第三步，基于损失参数，通过调整位移预测网络中的神经元参数，训练位移预测网络。

训练位移预测网络的目的是使得预测得到的跟踪框尽可能的接近于目标所处的真值框，可以将真值框的位置信息与跟踪框的位置信息的偏差定义为损失，通过损失计算对位移预测网络的参数进行调整。其中，获取当前帧中目标所处真值框的位置信息的方式可以通过上述的预设目标检测方法实现，这里不再赘述，损失计算可以通过公式(1)至公式(4)进行。

Δx＝GT(x)-(predict(x)*bbox(w)+bbox(x)) (1)

Δy＝GT(y)-(predict(y)*bbox(h)+bbox(y)) (2)

Δw＝GT(w)-(predict(w)*bbox(w)+bbox(w)) (3)

Δh＝GT(h)-(predict(h)*bbox(h)+bbox(h)) (4)

其中，bbox(x)为预测框的中心点坐标的X轴坐标，bbox(y)为预测框的中心点坐标的Y轴坐标，bbox(w)为预测框的宽，bbox(h)为预测框的高，predict(x)为跟踪框相对于预测框的中心点坐标的X轴坐标的偏移量，predict(y)为跟踪框相对于预测框的中心点坐标的Y轴坐标的偏移量，predict(w)为跟踪框相对于预测框的宽的偏移量，predict(h)为跟踪框相对于预测框的高的偏移量，GT(x)为当前帧中与关键帧同一ID的目标所处真值框中心点坐标的X轴坐标，GT(y)为当前帧中与关键帧同一ID的目标所处真值框中心点坐标的Y轴坐标，GT(w)为当前帧中与关键帧同一ID的目标所处真值框的宽，GT(h)为当前帧中与关键帧同一ID的目标所处真值框的高，Δx、Δy、Δw和Δh为计算得到的位置信息中各参量对应的损失参数。基于损失参数，通过调整位移预测网络中的神经元参数，可以达到训练位移预测网络的目的，调整神经元参数的过程，可以是如果损失参数为负数，则相应的增加对应的神经元参数，如果损失参数为正数，则相应的减小对应的神经元参数。

S212，根据预测框在当前帧中的位置信息，以及相对位移信息，确定当前帧中目标所处跟踪框的位置信息。

可选的，根据预测框在当前帧中的位置信息，以及相对位移信息，确定当前帧中目标所处跟踪框的位置信息的步骤，可以包括：

根据预测框在当前帧中的位置信息，以及相对位移信息，经过损失参数的损失计算，确定当前帧中目标所处跟踪框的位置信息。

在得到损失参数后，根据预测框在当前帧中的位置信息，以及相对位移信息，经过损失参数的损失计算，即可得到当前帧中目标所处跟踪框的位置信息。

S213，基于跟踪框的位置信息，在当前帧中对目标进行跟踪。

应用本实施例，利用预设目标检测方法，对从视频中提取的关键帧进行目标检测，得到关键帧中目标所处检测框的位置信息，将当前帧与关键帧进行融合，并对融合后的图像进行光流分析，得到当前帧相对于关键帧的特征位移信息，根据检测框在关键帧中的位置信息以及特征位移信息，确定当前帧中预测框的位置信息，基于预测框的位置信息，即可实现对目标的跟踪。关键帧为连续的多个视频帧中的第一个视频帧，当前帧为连续的多个视频帧中除关键帧以外的任一个视频帧，只需要对关键帧进行目标检测，利用光流分析的方法能够很简单的得到当前帧中预测框的位置信息，不需要对每个视频帧进行目标检测，降低了计算量、保证了目标检测跟踪的实时性；并且，基于光流分析的方法可以得到当前帧中的预测框的位置信息，即得到当前帧中目标的大致位置，能够有效的跟踪目标，降低了目标跟丢的概率，从而提高了目标检测跟踪的准确率。并且，基于检测框和预测框分别在图像特征和预测图像特征中提取特征，减少了目标在跟踪阶段的特征提取时间，使得目标检测跟踪具有较好的实时性。利用分别池化后的池化结果进行位移预测，得到准确的跟踪框的位置信息，目标检测跟踪的准确率得以提升。由于预测结果是通过光流产生的运动信息和特征提取的特征信息生成的，针对目标交错的情况，具有较高的鲁棒性。

基于图1所示实施例，本发明实施例还提供了一种目标检测跟踪方法，如图3所示，该目标检测跟踪方法可以包括如下步骤：

S301，将视频中连续的多个视频帧划分为一个视频帧间隔。

S302，将当前视频帧间隔中的最后一个视频帧作为下一个视频帧间隔的关键帧。

S303，利用预设目标检测方法，对下一个视频帧间隔的关键帧进行目标检测，得到该关键帧中目标所处检测框的位置信息。

S304，基于当前视频帧间隔中的最后一个视频帧中预测框的位置信息，以及下一个视频帧间隔的关键帧中目标所处检测框的位置信息，通过比对得到该预测框与该检测框的交并比。

其中，当前视频帧间隔中的最后一个视频帧中预测框的位置信息，执行如图1所示实施例的步骤得到。

S305，如果交并比大于预设阈值，则确定预测框与检测框中的目标相同。

S306，基于下一个视频帧间隔的关键帧中目标所处检测框的位置信息，在下一个视频帧间隔的关键帧中对目标进行跟踪。

由于经过多个视频帧后，当前帧中目标相较于关键帧中目标的位移变化较大，如果仍基于该关键帧进行当前帧的目标跟踪误差会很大，因此，需要重新选定关键帧，本实施例中，设定连续的多个视频帧为一个视频帧间隔，将一个视频帧间隔中的第一个视频帧作为关键帧，并且，由于如图1所示实施例的目标检测跟踪方法跟踪结果具有较高的精度，因此，可以设置每个视频帧间隔的最后一个视频帧为下一个视频帧间隔的关键帧，为了保证视频帧间隔间的目标跟踪的准确性，对于每一个视频帧间隔的最后一个视频帧的预测框结果，需要与下一个视频帧间隔的关键帧的检测框结果进行一一比对，得到预测框与检测框之间的交并比，如果交并比大于阈值，则认为是同一个目标。对于新生成的目标，由于新目标从视频帧边缘生成，当ID在视频帧边缘出现目标交换，认为不会对应用造成影响。

响应于上述方法实施例，本发明实施例提供了一种目标检测跟踪装置，如图4所示，该目标检测跟踪装置可以包括：

关键帧提取模块410，用于从获取的视频中提取关键帧，其中，所述关键帧为连续的多个视频帧中的第一个视频帧；

检测模块420，用于利用预设目标检测方法，对所述关键帧进行目标检测，得到所述关键帧中目标所处检测框的位置信息；

光流分析模块430，用于将当前帧与所述关键帧进行融合，并对融合后的图像进行光流分析，得到所述当前帧相对于所述关键帧的特征位移信息，其中，所述当前帧为所述连续的多个视频帧中除所述关键帧以外的任一个视频帧；

位置信息确定模块440，用于根据所述检测框在所述关键帧中的位置信息，以及所述特征位移信息，确定所述当前帧中预测框的位置信息；

跟踪模块450，用于基于所述预测框的位置信息，对所述目标进行跟踪。

可选的，所述预设目标检测方法可以包括，基于深度学习的目标检测方法；

所述检测模块420，具体可以用于：

可选的，所述位置信息确定模块440，具体可以用于：

将所述检测框映射至所述当前帧，得到映射框；

基于图4所示实施例，本发明实施例还提供了一种目标检测跟踪装置，如图5所示，该目标检测跟踪装置可以包括：

关键帧提取模块510，用于从获取的视频中提取关键帧，其中，所述关键帧为连续的多个视频帧中的第一个视频帧；

检测模块520，用于利用预设目标检测方法，对所述关键帧进行目标检测，得到所述关键帧中目标所处检测框的位置信息；

图像特征提取模块530，用于利用所述预设目标检测方法中的特征提取策略，提取所述关键帧的图像特征；

第一特征提取模块540，用于基于所述检测框的位置信息，提取所述图像特征中处于所述检测框内的第一特征；

第一池化模块550，用于对所述第一特征进行池化操作，得到第一池化结果；

光流分析模块560，用于将当前帧与所述关键帧进行融合，并对融合后的图像进行光流分析，得到所述当前帧相对于所述关键帧的特征位移信息，其中，所述当前帧为所述连续的多个视频帧中除所述关键帧以外的任一个视频帧；

特征迁移系数确定模块570，用于基于融合后的图像中所述目标的幅度变化，确定所述当前帧相对于所述关键帧的特征迁移系数；

迁移模块580，用于将所述特征迁移系数与所述图像特征中的各特征进行相乘操作，并按照所述特征位移信息移动各乘积结果，得到所述当前帧的预测图像特征；

位置信息确定模块590，用于根据所述检测框在所述关键帧中的位置信息，以及所述特征位移信息，确定所述当前帧中预测框的位置信息；

第二特征提取模块5100，用于基于所述预测框的位置信息，提取所述预测图像特征中处于所述预测框内的第二特征；

第二池化模块5110，用于对所述第二特征进行池化操作，得到与所述第一池化结果相同维度的第二池化结果；

跟踪模块5120，用于将所述第一池化结果与所述第二池化结果进行连接，并通过预设位移预测方法，确定所述当前帧中所述目标所处跟踪框相对于所述预测框的相对位移信息；根据所述预测框在所述当前帧中的位置信息，以及所述相对位移信息，确定所述当前帧中所述目标所处跟踪框的位置信息；基于所述跟踪框的位置信息，在所述当前帧中对所述目标进行跟踪。

所述跟踪模块5120，具体可以用于：

可选的，所述装置还可以包括：

本发明实施例还提供了一种目标检测跟踪装置，如图6所示，该目标检测跟踪装置可以包括：

划分模块610，用于将视频中连续的多个视频帧划分为一个视频帧间隔；

关键帧提取模块620，具体用于将当前视频帧间隔中的最后一个视频帧作为下一个视频帧间隔的关键帧；

比对模块630，用于基于所述当前视频帧间隔中的最后一个视频帧中预测框的位置信息，以及所述下一个视频帧间隔的关键帧中目标所处检测框的位置信息，通过比对得到所述预测框与所述检测框的交并比；

判别模块640，用于如果所述交并比大于预设阈值，则确定所述预测框与所述检测框中的目标相同；

跟踪模块650，用于基于所述下一个视频帧间隔的关键帧中目标所处检测框的位置信息，在所述下一个视频帧间隔的关键帧中对所述目标进行跟踪。

应用本实施例，对于每一个视频帧间隔的最后一个视频帧的预测框结果，与下一个视频帧间隔的关键帧的检测框结果进行一一比对，得到预测框与检测框之间的交并比，如果交并比大于阈值，则认为是同一个目标，从而保证了视频帧间隔间的目标跟踪的准确性。对于新生成的目标，由于新目标从视频帧边缘生成，当ID在视频帧边缘出现目标交换，认为不会对应用造成影响。

本发明实施例还提供了一种计算机设备，如图7所示，包括处理器701和存储器702，其中，

所述存储器702，用于存放计算机程序；

所述处理器701，用于执行所述存储器702上所存放的程序时，实现上述目标检测跟踪方法的所有步骤。

上述存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

计算机设备中处理器701与存储器702之间可以通过有线连接、也可以通过无线连接，并且计算机设备与外部设备可以通过通信接口进行数据通信，数据通信方式也可以为有线方式或者无线方式，这里不做限定。

本实施例中，该计算机设备中的处理器通过读取存储器中存储的计算机程序，并通过运行该计算机程序，能够实现：利用预设目标检测方法，对从视频中提取的关键帧进行目标检测，得到关键帧中目标所处检测框的位置信息，将当前帧与关键帧进行融合，并对融合后的图像进行光流分析，得到当前帧相对于关键帧的特征位移信息，根据检测框在关键帧中的位置信息以及特征位移信息，确定当前帧中预测框的位置信息，基于预测框的位置信息，即可实现对目标的跟踪。关键帧为连续的多个视频帧中的第一个视频帧，当前帧为连续的多个视频帧中除关键帧以外的任一个视频帧，只需要对关键帧进行目标检测，利用光流分析的方法能够很简单的得到当前帧中预测框的位置信息，不需要对每个视频帧进行目标检测，降低了计算量、保证了目标检测跟踪的实时性；并且，基于光流分析的方法可以得到当前帧中的预测框的位置信息，即得到当前帧中目标的大致位置，能够有效的跟踪目标，降低了目标跟丢的概率，从而提高了目标检测跟踪的准确率。

另外，相应于上述实施例所提供的目标检测跟踪方法，本发明实施例提供了一种存储介质，用于存储计算机程序，所述计算机程序被处理器执行时，实现上述目标检测跟踪方法的所有步骤。

本实施例中，存储介质存储有在运行时执行本发明实施例所提供的目标检测跟踪方法的应用程序，因此能够实现：利用预设目标检测方法，对从视频中提取的关键帧进行目标检测，得到关键帧中目标所处检测框的位置信息，将当前帧与关键帧进行融合，并对融合后的图像进行光流分析，得到当前帧相对于关键帧的特征位移信息，根据检测框在关键帧中的位置信息以及特征位移信息，确定当前帧中预测框的位置信息，基于预测框的位置信息，即可实现对目标的跟踪。关键帧为连续的多个视频帧中的第一个视频帧，当前帧为连续的多个视频帧中除关键帧以外的任一个视频帧，只需要对关键帧进行目标检测，利用光流分析的方法能够很简单的得到当前帧中预测框的位置信息，不需要对每个视频帧进行目标检测，降低了计算量、保证了目标检测跟踪的实时性；并且，基于光流分析的方法可以得到当前帧中的预测框的位置信息，即得到当前帧中目标的大致位置，能够有效的跟踪目标，降低了目标跟丢的概率，从而提高了目标检测跟踪的准确率。

对于计算机设备以及存储介质实施例而言，由于其所涉及的方法内容基本相似于前述的方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、计算机设备及存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种目标检测跟踪方法，其特征在于，所述方法包括：

基于所述检测框的位置信息，提取关键帧的图像特征中处于所述检测框内的第一特征；对所述第一特征进行池化操作，得到第一池化结果；

将当前帧与所述关键帧进行融合，并对融合后的图像进行光流分析，得到所述当前帧相对于所述关键帧的特征位移信息及当前帧相对于关键帧的特征迁移系数，其中，所述当前帧为所述连续的多个视频帧中除所述关键帧以外的任一个视频帧；

基于特征位移信息及特征迁移系数，得到当前帧的预测图像特征；

2.根据权利要求1所述的方法，其特征在于，所述预设目标检测方法包括，基于深度学习的目标检测方法；

3.根据权利要求1所述的方法，其特征在于，所述根据所述检测框在所述关键帧中的位置信息，以及所述特征位移信息，确定所述当前帧中预测框的位置信息，包括：

将所述检测框映射至所述当前帧，得到映射框；

4.根据权利要求1所述的方法，其特征在于，在所述从获取的视频中提取关键帧之后，所述方法还包括：

所述得到当前帧相对于关键帧的特征迁移系数，包括：

所述基于特征位移信息及特征迁移系数，得到当前帧的预测图像特征，包括：

将所述特征迁移系数与所述图像特征中的各特征进行相乘操作，并按照所述特征位移信息移动各乘积结果，得到所述当前帧的预测图像特征。

5.根据权利要求4所述的方法，其特征在于，所述预设位移预测方法包括，基于深度学习的位移预测方法；

6.根据权利要求5所述的方法，其特征在于，所述基于深度学习的位移预测网络的训练方式，包括：

获取所述当前帧中所述目标所处真值框的位置信息；

7.根据权利要求1所述的方法，其特征在于，在所述从获取的视频中提取关键帧之前，所述方法还包括：

将视频中连续的多个视频帧划分为一个视频帧间隔；

所述从获取的视频中提取关键帧，包括：

8.一种目标检测跟踪装置，其特征在于，所述装置包括：

第一特征提取模块，用于基于所述检测框的位置信息，提取所述关键帧的图像特征中处于所述检测框内的第一特征；对所述第一特征进行池化操作，得到第一池化结果；

光流分析模块，用于将当前帧与所述关键帧进行融合，并对融合后的图像进行光流分析，得到所述当前帧相对于所述关键帧的特征位移信息及当前帧相对于关键帧的特征迁移系数，其中，所述当前帧为所述连续的多个视频帧中除所述关键帧以外的任一个视频帧；

迁移模块，用于基于特征位移信息及特征迁移系数，得到当前帧的预测图像特征；

跟踪模块，用于将所述第一池化结果与所述第二池化结果进行连接，并通过预设位移预测方法，确定所述当前帧中所述目标所处跟踪框相对于所述预测框的相对位移信息；根据所述预测框在所述当前帧中的位置信息，以及所述相对位移信息，确定所述当前帧中所述目标所处跟踪框的位置信息；基于所述跟踪框的位置信息，在所述当前帧中对所述目标进行跟踪。

9.根据权利要求8所述的装置，其特征在于，所述预设目标检测方法包括，基于深度学习的目标检测方法；

所述检测模块，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述位置信息确定模块，具体用于：

将所述检测框映射至所述当前帧，得到映射框；

11.根据权利要求8所述的装置，其特征在于，所述装置还包括：

所述迁移模块，具体用于将所述特征迁移系数与所述图像特征中的各特征进行相乘操作，并按照所述特征位移信息移动各乘积结果，得到所述当前帧的预测图像特征。

12.根据权利要求11所述的装置，其特征在于，所述预设位移预测方法包括，基于深度学习的位移预测方法；

所述跟踪模块，具体用于：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求8所述的装置，其特征在于，所述装置还包括：

15.一种计算机设备，其特征在于，包括处理器和存储器，其中，

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-7任一所述的方法步骤。