CN108509876B

CN108509876B - 针对视频的物体检测方法、装置、设备、存储介质及程序

Info

Publication number: CN108509876B
Application number: CN201810220899.6A
Authority: CN
Inventors: 刘俊; 卢宇
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2020-11-27
Anticipated expiration: 2038-03-16
Also published as: CN108509876A

Abstract

本申请实施方式公开了一种针对视频的物体检测方法、装置、电子设备、计算机可读存储介质以及计算机程序，其中的方法包括：获取视频序列中的当前待检测帧的初始检测框检测结果；根据所述当前待检测帧的参照帧的检测框检测结果以及所述初始检测框检测结果，执行检测框漏检处理，以获得当前待检测帧的漏检检测框检测结果；根据所述初始检测框检测结果以及所述漏检检测框检测结果，形成所述当前待检测帧最终的检测框检测结果；其中，所述当前待检测帧的参照帧包括：与所述当前待检测帧在时序上满足预定时序要求的视频帧。

Description

针对视频的物体检测方法、装置、设备、存储介质及程序

技术领域

本申请涉及计算机视觉技术，尤其是涉及针对视频的物体检测方法、针对视频的物体检测装置、电子设备、计算机可读存储介质以及计算机程序。

背景技术

利用基于深度学习的物体检测技术，通常能够较为准确的检测出静态图片中的物体。由于视频会存在物体形变、物体被遮挡、抖动、镜头切换以及画面模糊等现象，因此，在针对视频进行物体检测时，往往会存在漏检以及误检等问题。

如何在保证针对视频的物体检测效率的同时，提高针对视频的物体检测结果的准确性，是计算机视觉领域中一个值得关注的技术问题。

发明内容

本申请实施方式提供一种针对视频的物体检测的技术方案。

根据本申请实施方式其中一方面，提供一种针对视频的物体检测方法，所述方法包括：获取视频序列中的当前待检测帧的初始检测框检测结果；根据所述当前待检测帧的参照帧的检测框检测结果以及所述初始检测框检测结果，执行检测框漏检处理，以获得当前待检测帧的漏检检测框检测结果；根据所述初始检测框检测结果以及所述漏检检测框检测结果，形成所述当前待检测帧最终的检测框检测结果；其中，所述当前待检测帧的参照帧包括：与所述当前待检测帧在时序上满足预定时序要求的视频帧。

在本申请一实施方式中，所述获取视频序列中的当前待检测帧的初始检测框检测结果包括：将视频序列中的当前待检测帧提供给物体检测模型，获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果。

在本申请又一实施方式中，所述获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果包括：经由物体检测模型中的特征提取模块，根据所述当前待检测帧，获得所述当前待检测帧的特征图；经由物体检测模型中的备选框检测模块，根据所述当前待检测帧的特征图，获得所述当前待检测帧中的备选框检测结果；经由物体检测模型中的分类回归后处理模块，根据所述当前待检测帧中的备选框检测结果，获得所述当前待检测帧的初始检测框检测结果。

在本申请再一实施方式中，所述将视频序列中的当前待检测帧提供给物体检测模型，获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果包括：将视频序列中的当前待检测帧以及所述参照帧的检测框检测结果，提供给物体检测模型，获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果。

在本申请再一实施方式中，所述获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果包括：经由物体检测模型中的特征提取模块，根据所述当前待检测帧，获得所述当前待检测帧的特征图；经由物体检测模型中的备选框检测模块，根据所述当前待检测帧的特征图，获得所述当前待检测帧中的备选框检测结果；经由物体检测模型中的分类回归后处理模块，根据所述当前待检测帧中的备选框检测结果以及所述参照帧的检测框检测结果，获得所述当前待检测帧的初始检测框检测结果。

在本申请再一实施方式中，所述检测框检测结果包括：检测框位置以及检测框类别。

在本申请再一实施方式中，所述根据所述当前待检测帧的参照帧的检测框检测结果以及所述初始检测框检测结果，执行检测框漏检处理包括：针对所述参照帧的检测框检测结果中的一检测框，判断当前待检测帧的初始检测框中是否存在与该检测框类别相同的初始检测框；在不存在与该检测框类别相同的初始检测框的情况下，对所述检测框进行跟踪处理，以获得当前待检测帧的漏检检测框检测结果。

在本申请再一实施方式中，所述根据所述当前待检测帧的参照帧的检测框检测结果以及所述初始检测框，执行检测框漏检处理还包括：在存在与该检测框类别相同的初始检测框的情况下，计算当前待检测帧的初始检测框中的与该检测框类别相同的初始检测框，与该检测框之间的交并比，在所述交并比不满足预定要求的情况下，对所述检测框进行跟踪处理，以获得当前待检测帧的漏检检测框检测结果。

在本申请再一实施方式中，所述对所述检测框进行跟踪处理包括：根据预定跟踪算法，获得所述检测框出现在当前待检测帧中的相应位置处的概率，在所述概率满足预定要求的情况下，根据所述检测框形成所述当前待检测帧的漏检检测框。

在本申请再一实施方式中，所述参照帧包括：所述当前待检测帧的前一帧。

在本申请再一实施方式中，所述方法还包括：根据当前待检测帧的前一帧的检测框检测结果，对当前待检测帧最终的检测框检测结果中的至少一检测框进行平滑处理。

在本申请再一实施方式中，所述物体检测模型是利用带有检测框标注信息的视频序列样本训练而成的。

在本申请再一实施方式中，训练所述物体检测模型的过程包括：将视频序列样本中的当前待检测帧样本提供给待训练的物体检测模型，获得所述待训练的物体检测模型输出的所述当前待检测帧样本的初始检测框检测结果；以所述初始检测框检测结果与所述视频序列样本中的当前待检测帧样本的检测框标注信息之间的差异为指导信息，对所述待训练的物体检测模型进行监督学习。

在本申请再一实施方式中，所述将视频序列样本中的当前待检测帧样本提供给待训练的物体检测模型，获得所述待训练的物体检测模型输出的所述当前待检测帧样本的初始检测框检测结果包括：将视频序列样本中的当前待检测帧样本和所述当前待检测帧样本的参照帧样本的检测框检测结果提供给待训练的物体检测模型；经由待训练的物体检测模型中的特征提取模块，根据所述当前待检测帧样本，获得所述当前待检测帧样本的特征图；经由待训练的物体检测模型中的备选框检测模块，根据所述当前待检测帧样本的特征图，获得所述当前待检测帧样本中的备选框检测结果；经由待训练的物体检测模型中的分类回归后处理模块，根据所述当前待检测帧样本中的备选框检测结果以及所述参照帧样本的检测框检测结果，获得所述当前待检测帧样本的初始检测框检测结果。

根据本申请实施方式的其中另一方面，提供一种针对视频的物体检测装置，所述装置包括：初始检测模块，用于获取视频序列中的当前待检测帧的初始检测框检测结果；漏检处理模块，用于根据所述当前待检测帧的参照帧的检测框检测结果以及所述初始检测框检测结果，执行检测框漏检处理，以获得当前待检测帧的漏检检测框检测结果；形成检测结果模块，用于根据所述初始检测框检测结果以及所述漏检检测框检测结果，形成所述当前待检测帧最终的检测框检测结果；其中，所述当前待检测帧的参照帧包括：与所述当前待检测帧在时序上满足预定时序要求的视频帧。

在本申请一实施方式中，所述初始检测模块具体用于，将视频序列中的当前待检测帧提供给物体检测模型，获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果。

在本申请又一实施方式中，所述初始检测模块将视频序列中的当前待检测帧提供给物体检测模型；经由物体检测模型中的特征提取模块，根据所述当前待检测帧，获得所述当前待检测帧的特征图；经由物体检测模型中的备选框检测模块，根据所述当前待检测帧的特征图，获得所述当前待检测帧中的备选框检测结果；经由物体检测模型中的分类回归后处理模块，根据所述当前待检测帧中的备选框检测结果，获得所述当前待检测帧的初始检测框检测结果。

在本申请再一实施方式中，所述初始检测模块具体用于，将视频序列中的当前待检测帧以及所述参照帧的检测框检测结果，提供给物体检测模型，获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果。

在本申请再一实施方式中，所述初始检测模块将视频序列中的当前待检测帧以及所述参照帧的检测框检测结果，提供给物体检测模型；经由物体检测模型中的特征提取模块，根据所述当前待检测帧，获得所述当前待检测帧的特征图；经由物体检测模型中的备选框检测模块，根据所述当前待检测帧的特征图，获得所述当前待检测帧中的备选框检测结果；经由物体检测模型中的分类回归后处理模块，根据所述当前待检测帧中的备选框检测结果以及所述参照帧的检测框检测结果，获得所述当前待检测帧的初始检测框检测结果。

在本申请再一实施方式中，所述漏检处理模块具体用于：针对所述参照帧的检测框检测结果中的一检测框，判断当前待检测帧的初始检测框中是否存在与该检测框类别相同的初始检测框；在不存在与该检测框类别相同的初始检测框的情况下，对所述检测框进行跟踪处理，以获得当前待检测帧的漏检检测框检测结果。

在本申请再一实施方式中，所述漏检处理模块还具体用于：在存在与该检测框类别相同的初始检测框的情况下，计算当前待检测帧的初始检测框中的与该检测框类别相同的初始检测框，与该检测框之间的交并比，在所述交并比不满足预定要求的情况下，对所述检测框进行跟踪处理，以获得当前待检测帧的漏检检测框检测结果。

在本申请再一实施方式中，所述漏检处理模块所执行的对所述检测框进行跟踪处理包括：根据预定跟踪算法，获得所述检测框出现在当前待检测帧中的相应位置处的概率，在所述概率满足预定要求的情况下，根据所述检测框形成所述当前待检测帧的漏检检测框。

在本申请再一实施方式中，所述装置还包括：平滑处理模块，用于根据当前待检测帧的前一帧的检测框检测结果，对当前待检测帧最终的检测框检测结果中的至少一检测框进行平滑处理。

在本申请再一实施方式中，所述物体检测模型是训练装置利用带有检测框标注信息的视频序列样本训练而成的。

在本申请再一实施方式中，所述训练装置包括：获取检测结果模块，用于将视频序列样本中的当前待检测帧样本提供给待训练的物体检测模型，获得所述待训练的物体检测模型输出的所述当前待检测帧样本的初始检测框检测结果；监督模块，用于以所述初始检测框检测结果与所述视频序列样本中的当前待检测帧样本的检测框标注信息之间的差异为指导信息，对所述待训练的物体检测模型进行监督学习。

在本申请再一实施方式中，所述获取检测结果模块具体用于：将视频序列样本中的当前待检测帧样本和所述当前待检测帧样本的参照帧样本的检测框检测结果提供给待训练的物体检测模型；经由待训练的物体检测模型中的特征提取模块，根据所述当前待检测帧样本，获得所述当前待检测帧样本的特征图；经由待训练的物体检测模型中的备选框检测模块，根据所述当前待检测帧样本的特征图，获得所述当前待检测帧样本中的备选框检测结果；经由待训练的物体检测模型中的分类回归后处理模块，根据所述当前待检测帧样本中的备选框检测结果以及所述参照帧样本的检测框检测结果，获得所述当前待检测帧样本的初始检测框检测结果。

根据本申请实施方式再一个方面，提供一种电子设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本申请任一方法实施方式。

根据本申请实施方式再一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现本申请任一方法实施方式。

根据本申请实施方式的再一个方面，提供一种计算机程序，包括计算机指令，当所述计算机指令在设备的处理器中运行时，实现本申请任一方法实施方式。

基于本申请提供的针对视频的物体检测方法、装置、电子设备、计算机可读存储介质及计算机程序，本申请通过在获得了初始检测框检测结果的基础上，执行检测框漏检处理，从而可以利用初始检测框检测结果以及漏检检测框检测结果，形成视频序列中的视频帧最终的检测框检测结果，进而有利于避免视频序列中出现物体形变、物体被遮挡、镜头抖动、镜头切换以及画面模糊等现象，而导致的漏检以及误检等问题。由此可知，本申请提供的技术方案有利于提高物体检测的准确性。

下面通过附图和实施方式，对本申请的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本申请的实施方式，并且连同描述一起用于解释本申请的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本申请，其中：

图1为本申请的针对视频的物体检测方法一个实施方式的流程图；

图2为本申请的利用物体检测模型对输入的当前待检测帧，进行处理，以获得当前待检测帧的初始检测框检测结果的一个实施方式的流程图；

图3为本申请的利用物体检测模型对输入的当前待检测帧，进行处理，以获得当前待检测帧的初始检测框检测结果的另一个实施方式的流程图；

图4为本申请的针对视频的物体检测方法再一个实施方式的流程图；

图5为本申请的对物体检测模型进行训练的一个实施方式的流程图；

图6为本申请的对物体检测模型进行训练的另一个实施方式的流程图；

图7为本申请的针对视频的物体检测装置一个实施方式的结构示意图；

图8为实现本申请实施方式的一示例性设备的框图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法以及设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应当注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于终端设备、计算机系统及服务器等电子设备，其可与众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子，包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑以及数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性实施例

本申请的物体检测方法通常可以实现通用物体检测，即本申请的物体检测方法可以针对预先设置的N(N大于1)类物体，实现物体检测。例如，本申请可以针对预先设置的人、狗、桌子、椅子、汽车以及电视等多种类型的物体实现物体检测。本申请不限制物体的具体表现形式。

图1为本申请的针对视频的物体检测方法的一个实施例的流程图。如图1所示，该实施例方法主要包括：步骤S100、步骤S110以及步骤S120。下面对图1中的各步骤进行详细说明。

S100、获取视频序列中的当前待检测帧的初始检测框检测结果。

在一个可选示例中，本申请中的视频序列可以是自动驾驶汽车中的摄像头实时摄取的视频序列，也可以是监控摄像头等所摄取的视频序列。本申请不限制视频序列的具体表现形式。本申请提供的物体检测技术可以应用于车辆自动驾驶、人物监控以及行为分析等领域中。

在一个可选示例中，本申请可以利用物体检测模型来获得视频序列中的当前待检测帧的初始检测框检测结果。该物体检测模型可以具体为基于深度学习的神经网络，本申请的基于深度学习的神经网络可以包括但不限于卷积层、非线性Relu层、池化层以及全连接层等，该神经网络所包含的层数越多，则网络越深。本申请中的物体检测模型可以具体为Faster RCNN(Regions with Convolutional Neural Network，区域卷积神经网络)或VGG16(Visual Geometry Group，可视几何组)等，本申请不限制物体检测模型的具体表现形式。现有的物体检测模型的性能已经日渐提高，因此，本申请获得初始检测框检测结果的过程，在效率以及准确性等方面可以得到一定程度的保证。

在一个可选示例中，本申请可以将视频序列中的当前待检测帧提供给物体检测模型，该物体检测模型会针对输入的当前待检测帧，进行处理，从而输出处理结果，本申请可以根据物体检测模型输出的处理结果，获得当前待检测帧的初始检测框检测结果。本申请利用物体检测模型对输入的当前待检测帧，进行处理，以获得当前待检测帧的初始检测框检测结果的一个具体例子如图2所示。

图2中，S200、物体检测模型(如物体检测模型中的特征提取模块)根据输入的当前待检测帧，进行特征提取操作，从而可以获得当前待检测帧的特征图。

S210、物体检测模型(如物体检测模型中的备选框检测模块)以其当前提取出的当前待检测帧的特征图为基础，进行备选框提取操作，从而可以获得当前待检测帧中的备选框检测结果(如各个备选框位置等)；本申请中的备选框也可以称为候选区域或者备选区域或者候选框等。在一个可选示例中，本申请可以由物体检测模型中的RPN(Region ProposalNetwork，区域推荐网络，即备选框检测模块可以由RPN实现)来执行基于特征图提取备选框的操作。

S220、物体检测模型(如物体检测模型中的分类回归后处理模块)针对其当前提取出各备选框，分别进行分类以及回归等处理操作，从而会针对每一个备选框，均形成检测框信息，如检测框位置以及检测框类别等。

S230、针对上述形成的各个备选框对应的检测框信息，物体检测模型(如物体检测模型中的分类回归后处理模块)进行NMS(Non Maximum Suppression，非极大值抑制)后处理以及阈值判断等处理操作，从而会确定出当前待检测帧的检测框，本次确定出的检测框形成初始检测框检测结果。

在一个可选示例中，本申请可以将视频序列中的当前待检测帧以及该当前待检测帧的参考帧的检测框检测结果，均提供给物体检测模型，该物体检测模型会针对输入的当前待检测帧以及参考帧的检测框检测结果，进行处理，从而输出处理结果，本申请可以根据物体检测模型输出的处理结果，获得当前待检测帧的初始检测框检测结果。本申请利用物体检测模型对输入的当前待检测帧和参考帧的检测框检测结果，进行处理，以获得当前待检测帧的初始检测框检测结果的一个具体例子如图3所示。

图3中，S300、物体检测模型(如物体检测模型中的特征提取模块)会根据输入的当前待检测帧，进行特征提取操作，从而可以获得当前待检测帧的特征图。

S310、物体检测模型(如物体检测模型中的备选框检测模块)以其当前提取出的当前待检测帧的特征图为基础，进行备选框提取操作，从而可以获得当前待检测帧中的备选框检测结果(如各个备选框位置等)；本申请中的备选框也可以称为候选区域或者备选区域或者候选框等。在一个可选示例中，本申请可以由物体检测模型中的RPN(即备选框检测模块可以由RPN实现)来执行基于特征图提取备选框的操作。

S320、物体检测模型(如物体检测模型中的分类回归后处理模块)在考虑参照帧的检测框检测结果的情况下，针对其当前提取出各备选框，分别进行分类以及回归等处理操作，从而会针对每一个备选框，均形成检测框信息，如检测框位置以及检测框类别等。

S330、针对上述形成的各个备选框对应的检测框信息，物体检测模型(如物体检测模型中的分类回归后处理模块)进行NMS后处理以及阈值判断等处理操作，从而会确定出当前待检测帧的检测框，本次确定出的检测框形成初始检测框检测结果。

本申请通过在利用物体检测模型，获得当前待检测帧的初始检测框检测结果的过程中，将当前待检测帧的参照帧的检测框检测结果，提供给物体检测模型，可以为物体检测模型提供参考信息，从而有利于提高初始检测框检测结果的准确性。本申请不限制利用物体检测模型，获取当前待检测帧的初始检测框检测结果的具体实现方式。

在一个可选示例中，本申请中的参照帧通常是与当前待检测帧在时序上关联性比较大的视频帧，例如，在当前待检测帧不是视频序列中的第一帧的情况下，当前待检测帧的参照帧可以为当前待检测帧的前一帧。也就是说，本申请中的当前待检测帧的参照帧可以是视频序列中的与当前待检测帧在时序上满足预定时序要求的视频帧，其中的预定时序要求通常为前一个时序。当然，本申请也不排除预定时序要求为前两个时序的可能性。

在一个可选示例中，本申请中的参照帧的检测框检测结果可以具体为：当前待检测帧的前一帧的最终的检测框检测结果，例如，当前待检测帧的前一帧的最终的检测框位置以及检测框类别等。检测框位置主要用于表示检测框在参照帧中的位置。检测框类别主要用于表示检测框内的参照帧的物体的所属类别，如人、电视、桌子或者椅子等。当然，本申请也不排除参照帧的检测框检测结果具体为：当前待检测帧的前一帧的初始检测框检测结果的可能性。

在一个可选示例中，本申请中的当前待检测帧的初始检测框检测结果可以包括：当前待检测帧的初始检测框位置以及初始检测框类别等。初始检测框位置主要用于表示初始检测框在当前待检测帧中的位置。初始检测框类别主要用于表示初始检测框内的当前待检测帧的物体的所属类别，如人、电视、桌子或者椅子等。

S110、根据当前待检测帧的参照帧的检测框检测结果以及初始检测框检测结果，执行检测框漏检处理，以获得当前待检测帧的漏检检测框检测结果。

在一个可选示例中，本申请会针对上述获得的当前待检测帧的初始检测框检测结果，执行漏检处理操作，漏检处理操作的基础信息通常包括：当前待检测帧的初始检测框检测结果以及参照帧的检测框检测结果(例如，当前待检测帧的前一帧的最终检测框检测结果)。本申请执行漏检处理操作的一个具体例子如图4所示。

图4中，S400、开始本申请的漏检处理操作。

S410、判断参照帧的检测框检测结果中是否存在未经漏检处理操作的检测框，如果存在，则到步骤S420，而如果不存在，则到步骤S490。

S420、从参照帧的检测框检测结果中获取一未经漏检处理操作的检测框(下述称为参考检测框)。到步骤S430。

S430、判断当前待检测帧的初始检测框检测结果中，是否存在，与该参考检测框类别相同的初始检测框，如果不存在类别相同的初始检测框，则到步骤S460。而如果存在类别相同的初始检测框，则到S440。与参考检测框类别相同的初始检测框的数量存在为多个的可能性。

S440、根据参考检测框位置以及与该参考检测框类别相同的各初始检测框位置，计算与该参考检测框类别相同的各初始检测框，分别与该参考检测框之间的IoU(Intersection over Union，交并比)，到步骤S450。

S450、判断是否存在符合预定要求的IoU，如果不存在符合预定要求的IoU，则到步骤S460，如果存在符合预定要求的IoU，则返回到步骤S410。

S460、将上述参考检测框作为待跟踪检测框。到步骤S470。

S470、在当前待检测帧的特征图的基础上，利用预定跟踪算法(也可以称为目标跟踪算法)，对上述待跟踪检测框进行跟踪处理，从而可以获得待跟踪检测框出现在当前待检测帧中的相应位置的概率。到步骤S480。本申请中的预定跟踪算法可以采用现有的多种跟踪算法，本申请不对目标跟踪算法的具体实现方式进行限制。

S480、判断上述概率是否满足预定概率要求(例如，概率最高，且超过或者达到预定概率等)，如果满足预定概率要求，则确定当前待检测帧存在该参考检测框对应的漏检检测框，到步骤S481。如果不满足预定概率要求，则确定当前待检测帧不存在该参考检测框对应的漏检检测框，返回步骤S410。

S481、根据满足预定概率要求的概率所对应的位置，获得漏检检测框。返回步骤S410。

S490、本次漏检处理操作结束。

S120、根据初始检测框检测结果以及漏检检测框检测结果，形成当前待检测帧最终的检测框检测结果。

在一个可选示例中，本申请可以将步骤S110所获得各初始检测框以及步骤S110所获得的各漏检检测框一起，均作为当前待检测帧中的检测框。在不存在漏检检测框的情况下，本申请可以将步骤S100所获得各初始检测框作为当前待检测帧中的检测框。

在一个可选示例中，本申请可以根据当前待检测帧的前一帧的物体检测结果，对当前待检测帧最终的物体检测结果中的至少一检测框(如当前待检测帧最终的物体检测结果中的所有检测框)进行平滑处理，从而可以避免检测框的视觉跳跃现象。本申请可以采用现有的多种平滑处理方式，对检测框进行平滑处理操作，本申请不限制平滑处理的具体实现方式。

图5为本申请训练物体检测模型的一个实施例的流程图。如图5所示，该实施例方法包括：步骤S500以及步骤S510。下面对图5中的各步骤进行详细说明。

S500、将视频序列样本中的当前待检测帧样本提供给待训练的物体检测模型，获得物体检测模型输出的当前待检测帧样本的初始检测框检测结果。

在一个可选示例中，本申请中的视频序列样本中的每一帧，通常都设置有至少一个检测框标注信息。视频序列样本可以采用现有的带有检测框标注信息的视频序列，也可以通过人工标注方式对视频序列中的帧进行检测框标注，形成视频序列样本。通常情况下，本申请应按照视频序列样本中各帧从前到后的排列顺序，依次将帧作为当前待检测帧样本提供给待训练的物体检测模型。

在一个可选示例中，待训练的物体检测模型(如待训练的物体检测模型中的特征提取模块)可以先根据输入的当前待检测帧样本，进行特征提取操作，从而获得当前待检测帧样本的特征图；其次，待训练的物体检测模型(如待训练的物体检测模型中的备选框检测模块，该备选框检测模块可以由RPN实现)以当前提取出的当前待检测帧样本的特征图为基础，进行备选框提取操作，从而可以获得当前待检测帧样本中的备选框检测结果；再次，待训练的物体检测模型(如待训练的物体检测模型中的分类回归后处理模块)针对当前提取出各备选框，分别进行分类以及回归等处理操作，从而会针对每一个备选框，均形成检测框信息，如检测框位置以及检测框类别等；最后，针对上述所形成的各个备选框对应的检测框信息，待训练的物体检测模型(如待训练的物体检测模型中的分类回归后处理模块)进行NMS后处理以及阈值判断等处理操作，从而确定出当前待检测帧样本的检测框，本次确定出的检测框形成初始检测框检测结果。初始检测框检测结果如各初始检测框位置以及类别等。

S510、以初始检测框检测结果与视频序列样本中的当前待检测帧样本的检测框标注信息之间的差异为指导信息，对待训练的物体检测模型进行监督学习。

在一个可选示例中，本申请可以以减小待训练的物体检测模型输出的初始检测框检测结果与视频序列样本中的当前待检测帧样本的检测框标注信息(例如，检测框位置标注以及检测框类别标注等)之间的差异为目的，通过调整待训练的物体检测模型中的网络参数(如卷积核的权值等)，从而实现对待训练的物体检测模型进行监督学习。例如，针对视频序列样本中的多个帧，本申请可以利用损失函数(如L1损失函数等)，以减小待训练的物体检测模型输出的各检测框位置和类别与相应的帧样本的检测框标注位置和标注类别之间的差异为目的，进行相应的计算，从而形成一反向传播过程，在该反向传播过程中，调整待训练的物体检测模型中的网络参数。

在一个可选示例中，在针对待训练的物体检测模型的训练达到预定迭代条件时，本次训练过程结束。本申请中的预定迭代条件可以包括：根据待训练的物体检测模型的输出形成的初始检测框检测结果与相应的帧的检测框标注信息之间的差异满足预定差异要求。在差异满足该预定差异要求的情况下，本次对待训练的物体检测模型成功训练完成。本申请中的预定迭代条件也可以包括：对该待训练的物体检测模型进行训练，所使用的帧的数量达到预定数量要求等。在使用的帧的数量达到预定数量要求，然而，差异并未满足预定差异要求的情况下，本次对待训练的物体检测模型并未训练成功。成功训练完成的物体检测模型可以用于对视频序列进行物体检测处理。

图6为本申请训练物体检测模型的另一个实施例的流程图。如图6所示，该实施例方法包括：步骤S600、步骤S610、步骤S620、步骤S630以及步骤S640。下面对图6中的各步骤进行详细说明。

S600、将视频序列样本中的当前待检测帧样本和当前待检测帧样本的参照帧样本的检测框检测结果提供给待训练的物体检测模型。

在一个可选示例中，当前待检测帧样本的参照帧样本通常为当前待检测帧样本的前一帧样本，且当前待检测帧样本的参照帧样本的检测框检测结果通常为当前待检测帧样本的前一帧样本的初始检测框检测结果。

S610、经由待训练的物体检测模型(如待训练的物体检测模型中的特征提取模块)，根据当前待检测帧样本，获得当前待检测帧样本的特征图。

S620、经由待训练的物体检测模型(如待训练的物体检测模型中的备选框检测模块)，根据当前待检测帧样本的特征图，获得当前待检测帧样本中的备选框检测结果。例如，待训练的物体检测模型中的的RPN以当前提取出的当前待检测帧样本的特征图为基础，进行备选框提取操作，从而可以获得当前待检测帧样本中的备选框检测结果。

S630、经由待训练的物体检测模型(如待训练的物体检测模型中的分类回归后处理模块)，根据当前待检测帧样本中的备选框检测结果以及参照帧样本的检测框检测结果，获得当前待检测帧样本的初始检测框检测结果。通过将参照帧样本的检测框检测结果提供给待训练的物体检测模型，使待训练的物体检测模型可以基于一定的参照信息形成输出信息，从而有利于提高获得当前待检测帧样本的初始检测框检测结果。

S640、以初始检测框检测结果与视频序列样本中的当前待检测帧样本的检测框标注信息之间的差异为指导信息，对待训练的物体检测模型进行监督学习。

图7为本申请的针对视频的物体检测装置一个实施例的结构示意图。如图7所示，该实施例的装置主要包括：初始检测模块700、漏检处理模块710以及形成检测结果模块720。可选的，该实施例的装置还可以包括：平滑处理模块730以及训练装置740。

初始检测模块700主要用于获取视频序列中的当前待检测帧的初始检测框检测结果。

在一个可选示例中，初始检测模块700可以将视频序列中的当前待检测帧提供给物体检测模型，获得物体检测模型输出的当前待检测帧的初始检测框检测结果。例如，初始检测模块700将视频序列中的当前待检测帧提供给物体检测模型，经由物体检测模型中的特征提取模块，根据当前待检测帧，获得当前待检测帧的特征图，经由物体检测模型中的备选框检测模块，根据当前待检测帧的特征图，获得当前待检测帧中的备选框检测结果，经由物体检测模型中的分类回归后处理模块，根据当前待检测帧中的备选框检测结果，获得当前待检测帧的初始检测框检测结果。

在另一个可选示例中，初始检测模块700可以将视频序列中的当前待检测帧以及参照帧的检测框检测结果，提供给物体检测模型，获得物体检测模型输出的当前待检测帧的初始检测框检测结果。例如，初始检测模块700将视频序列中的当前待检测帧以及参照帧的检测框检测结果，提供给物体检测模型，经由物体检测模型中的特征提取模块，根据当前待检测帧，获得当前待检测帧的特征图，之后，经由物体检测模型中的备选框检测模块，根据当前待检测帧的特征图，获得当前待检测帧中的备选框检测结果，然后，经由物体检测模型中的分类回归后处理模块，根据当前待检测帧中的备选框检测结果以及参照帧的检测框检测结果，获得当前待检测帧的初始检测框检测结果。本申请中的当前待检测帧的参照帧可以包括：与当前待检测帧在时序上满足预定时序要求的视频帧，例如，当前待检测帧的前一帧。

在一个可选示例中，当前待检测帧的初始检测框检测结果可以包括：当前待检测帧的初始检测框位置以及初始检测框类别等。

初始检测模块700具体执行的操作，可以参见上述方法实施方式中针对图1中的S100、图2以及图3的描述，在此不再重复说明。

漏检处理模块710主要用于根据当前待检测帧的参照帧的检测框检测结果以及初始检测框检测结果，执行检测框漏检处理，以获得当前待检测帧的漏检检测框检测结果。

在一个可选示例中，漏检处理模块710可以针对参照帧的检测框检测结果中的一检测框，判断当前待检测帧的初始检测框中是否存在与该检测框类别相同的初始检测框。在不存在与该检测框类别相同的初始检测框的情况下，漏检处理模块710对检测框进行跟踪处理，以获得当前待检测帧的漏检检测框检测结果。在存在与该检测框类别相同的初始检测框的情况下，漏检处理模块710计算当前待检测帧的初始检测框中的与该检测框类别相同的初始检测框，与该检测框之间的交并比，在计算出的交并比不满足预定要求的情况下，漏检处理模块710对检测框进行跟踪处理，以获得当前待检测帧的漏检检测框检测结果。

在一个可选示例中，漏检处理模块710可以根据预定跟踪算法，获得检测框出现在当前待检测帧中的相应位置处的概率，在概率满足预定要求的情况下，漏检处理模块710根据检测框形成当前待检测帧的漏检检测框，从而实现跟踪处理。漏检处理模块710具体执行的操作，可以参见上述方法实施方式中针对图1中的S110以及图4的描述，在此不再重复说明。

形成检测结果模块720主要用于根据初始检测框检测结果以及漏检检测框检测结果，形成当前待检测帧最终的检测框检测结果。形成检测结果模块720所形成的当前待检测帧最终的检测框检测结果可以包括：当前待检测帧的最终的检测框位置以及最终的检测框类别等。形成检测结果模块720具体执行的操作，可以参见上述方法实施方式中针对图1中的S120的描述，在此不再重复说明。

平滑处理模块730主要用于根据当前待检测帧的前一帧的检测框检测结果，对当前待检测帧的最终的检测框检测结果中的至少一检测框(如当前待检测帧最终的物体检测结果中的所有检测框)进行平滑处理。平滑处理模块730可以采用现有的多种平滑处理方式，对检测框进行平滑处理操作，本申请不限制平滑处理模块730进行平滑处理的具体实现方式。

训练装置740主要用于利用带有检测框标注信息的视频序列样本，对待训练的物体检测模型进行训练。

在一个可选示例中，训练装置740可以包括：获取检测结果模块以及监督模块(图7中未示出)。获取检测结果模块主要用于将视频序列样本中的当前待检测帧样本提供给待训练的物体检测模型，获得物体检测模型输出的当前待检测帧样本的初始检测框检测结果。监督模块主要用于以初始检测框检测结果与视频序列样本中的当前待检测帧样本的检测框标注信息之间的差异为指导信息，对待训练的物体检测模型进行监督学习。

在一个可选示例中，获取检测结果模块可以将视频序列样本中的当前待检测帧样本和当前待检测帧样本的参照帧样本的检测框检测结果提供给待训练的物体检测模型；经由待训练的物体检测模型中的特征提取模块，根据当前待检测帧样本，获得当前待检测帧样本的特征图；经由待训练的物体检测模型中的备选框检测模块，根据当前待检测帧样本的特征图，获得当前待检测帧样本中的备选框检测结果；经由待训练的物体检测模型中的分类回归后处理模块，根据当前待检测帧样本中的备选框检测结果以及参照帧样本的检测框检测结果，获得当前待检测帧样本的初始检测框检测结果。

训练装置740中的获取检测结果模块具体执行的操作可以参见上述方法实施方式中针对图5中的S500以及图6中的S600-S630的描述。训练装置740中的监督模块所具体执行的操作，可以参见上述方法实施方式中针对图5中的S510以及图6中的S640的描述。在此均不再重复说明。

示例性设备

图8示出了适于实现本申请的示例性设备800，设备800可以是汽车中配置的控制系统/电子系统、移动终端(例如，智能移动电话等)、个人计算机(即PC，例如，台式计算机或者笔记型计算机等)、平板电脑以及服务器等。图8中，设备800包括一个或者多个处理器、通信部等，所述一个或者多个处理器可以为：一个或者多个中央处理单元(CPU)801，和/或，一个或者多个利用神经网络进行针对视频的物体检测的图像处理器(GPU)813等，处理器可以根据存储在只读存储器(ROM)802中的可执行指令或者从存储部分808加载到随机访问存储器(RAM)803中的可执行指令而执行各种适当的动作和处理。通信部812可以包括但不限于网卡，所述网卡可以包括但不限于IB(Infiniband)网卡。处理器可与只读存储器802和/或随机访问存储器830中通信以执行可执行指令，通过总线804与通信部812相连、并经通信部812与其他目标设备通信，从而完成本申请中的相应步骤。

上述各指令所执行的操作可以参见上述方法实施例中的相关描述，在此不再详细说明。

此外，在RAM 803中，还可以存储有装置操作所需的各种程序以及数据。CPU801、ROM802以及RAM803通过总线804彼此相连。在有RAM803的情况下，ROM802为可选模块。RAM803存储可执行指令，或在运行时向ROM802中写入可执行指令，可执行指令使中央处理单元801执行上述物体分割方法所包括的步骤。输入/输出(I/O)接口805也连接至总线804。通信部812可以集成设置，也可以设置为具有多个子模块(例如，多个IB网卡)，并分别与总线连接。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装在存储部分808中。

需要特别说明的是，如图8所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图8的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如，GPU和CPU可分离设置，再如理，可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上等。这些可替换的实施方式均落入本申请的保护范围。

特别地，根据本申请的实施方式，下文参考流程图描述的过程可以被实现为计算机软件程序，例如，本申请实施方式包括一种计算机程序产品，其包含有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的步骤的程序代码，程序代码可包括对应执行本申请提供的方法中的步骤对应的指令。

在这样的实施方式中，该计算机程序可以通过通信部分809从网络上被下载及安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请中记载的实现上述相应步骤的指令。

在一个或多个可选实施方式中，本公开实施例还提供了一种计算机程序程序产品，用于存储计算机可读指令，所述指令被执行时使得计算机执行上述任意实施例中所述的针对视频的物体检测方法或者神经网络的训练方法。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选例子中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选例子中，所述计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

在一个或多个可选实施方式中，本公开实施例还提供了另一种针对视频的物体检测方法和神经网络的训练方法及其对应的装置和电子设备、计算机存储介质、计算机程序以及计算机程序产品，其中，该方法包括：第一装置向第二装置发送针对视频的物体检测指示或者训练神经网络指示，该指示使得第二装置执行上述任一可能的实施例中的针对视频的物体检测方法或者训练神经网络方法；第一装置接收第二装置发送的针对视频的物体检测结果或者神经网络训练结果。

在一些实施例中，该针对视频的物体检测指示或者训练神经网络指示可以具体为调用指令，第一装置可以通过调用的方式指示第二装置执行针对视频的物体检测操作或者训练神经网络操作，相应地，响应于接收到调用指令，第二装置可以执行上述针对视频的物体检测方法或者训练神经网络的方法中的任意实施例中的步骤和/或流程。

应理解，本公开实施例中的“第一”、“第二”等术语仅仅是为了区分，而不应理解成对本公开实施例的限定。

还应理解，在本公开中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

可能以许多方式来实现本申请的方法和装置、电子设备以及计算机可读存储介质。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本申请的方法和装置、电子设备以及计算机可读存储介质。用于方法的步骤的上述顺序仅是为了进行说明，本申请的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施方式中，还可将本申请实施为记录在记录介质中的程序，这些程序包括用于实现根据本申请的方法的机器可读指令。因而，本申请还覆盖存储用于执行根据本申请的方法的程序的记录介质。

本申请的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本申请限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言，是显然的。选择和描述实施方式是为了更好说明本申请的原理以及实际应用，并且使本领域的普通技术人员能够理解本申请实施例可以从而设计适于特定用途的带有各种修改的各种实施方式。

Claims

1.一种针对视频的物体检测方法，其特征在于，包括：

获取视频序列中的当前待检测帧的初始检测框检测结果；

根据所述当前待检测帧的参照帧的检测框检测结果以及所述初始检测框检测结果，执行检测框漏检处理，以获得当前待检测帧的漏检检测框检测结果；

根据所述初始检测框检测结果以及所述漏检检测框检测结果，形成所述当前待检测帧最终的检测框检测结果；

其中，所述当前待检测帧的参照帧包括：与所述当前待检测帧在时序上满足预定时序要求的视频帧；

所述检测框检测结果包括：检测框位置以及检测框类别；

所述根据所述当前待检测帧的参照帧的检测框检测结果以及所述初始检测框检测结果，执行检测框漏检处理包括：

针对所述参照帧的检测框检测结果中的一检测框，判断当前待检测帧的初始检测框中是否存在与该检测框类别相同的初始检测框；

在不存在与该检测框类别相同的初始检测框的情况下，对所述检测框进行跟踪处理，以获得当前待检测帧的漏检检测框检测结果。

2.根据权利要求1所述的方法，其特征在于，所述获取视频序列中的当前待检测帧的初始检测框检测结果包括：

将视频序列中的当前待检测帧提供给物体检测模型，获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果。

3.根据权利要求2所述的方法，其特征在于，所述获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果包括：

经由物体检测模型中的特征提取模块，根据所述当前待检测帧，获得所述当前待检测帧的特征图；

经由物体检测模型中的备选框检测模块，根据所述当前待检测帧的特征图，获得所述当前待检测帧中的备选框检测结果；

经由物体检测模型中的分类回归后处理模块，根据所述当前待检测帧中的备选框检测结果，获得所述当前待检测帧的初始检测框检测结果。

4.根据权利要求2所述的方法，其特征在于，所述将视频序列中的当前待检测帧提供给物体检测模型，获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果包括：

将视频序列中的当前待检测帧以及所述参照帧的检测框检测结果，提供给物体检测模型，获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果。

5.根据权利要求4所述的方法，其特征在于，所述获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果包括：

经由物体检测模型中的分类回归后处理模块，根据所述当前待检测帧中的备选框检测结果以及所述参照帧的检测框检测结果，获得所述当前待检测帧的初始检测框检测结果。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述当前待检测帧的参照帧的检测框检测结果以及所述初始检测框，执行检测框漏检处理还包括：

在存在与该检测框类别相同的初始检测框的情况下，计算当前待检测帧的初始检测框中的与该检测框类别相同的初始检测框，与该检测框之间的交并比，在所述交并比不满足预定要求的情况下，对所述检测框进行跟踪处理，以获得当前待检测帧的漏检检测框检测结果。

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述对所述检测框进行跟踪处理包括：

根据预定跟踪算法，获得所述检测框出现在当前待检测帧中的相应位置处的概率，在所述概率满足预定要求的情况下，根据所述检测框形成所述当前待检测帧的漏检检测框。

8.根据权利要求1至5中任一项所述的方法，其特征在于，所述参照帧包括：所述当前待检测帧的前一帧。

9.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：

根据当前待检测帧的前一帧的检测框检测结果，对当前待检测帧最终的检测框检测结果中的至少一检测框进行平滑处理。

10.根据权利要求2至5中任一项所述的方法，其特征在于，所述物体检测模型是利用带有检测框标注信息的视频序列样本训练而成的。

11.根据权利要求10所述的方法，其特征在于，训练所述物体检测模型的过程包括：

将视频序列样本中的当前待检测帧样本提供给待训练的物体检测模型，获得所述待训练的物体检测模型输出的所述当前待检测帧样本的初始检测框检测结果；

以所述初始检测框检测结果与所述视频序列样本中的当前待检测帧样本的检测框标注信息之间的差异为指导信息，对所述待训练的物体检测模型进行监督学习。

12.根据权利要求11所述的方法，其特征在于，所述将视频序列样本中的当前待检测帧样本提供给待训练的物体检测模型，获得所述待训练的物体检测模型输出的所述当前待检测帧样本的初始检测框检测结果包括：

将视频序列样本中的当前待检测帧样本和所述当前待检测帧样本的参照帧样本的检测框检测结果提供给待训练的物体检测模型；

经由待训练的物体检测模型中的特征提取模块，根据所述当前待检测帧样本，获得所述当前待检测帧样本的特征图；

经由待训练的物体检测模型中的备选框检测模块，根据所述当前待检测帧样本的特征图，获得所述当前待检测帧样本中的备选框检测结果；

经由待训练的物体检测模型中的分类回归后处理模块，根据所述当前待检测帧样本中的备选框检测结果以及所述参照帧样本的检测框检测结果，获得所述当前待检测帧样本的初始检测框检测结果。

13.一种针对视频的物体检测装置，其特征在于，包括：

初始检测模块，用于获取视频序列中的当前待检测帧的初始检测框检测结果；

漏检处理模块，用于根据所述当前待检测帧的参照帧的检测框检测结果以及所述初始检测框检测结果，执行检测框漏检处理，以获得当前待检测帧的漏检检测框检测结果；

形成检测结果模块，用于根据所述初始检测框检测结果以及所述漏检检测框检测结果，形成所述当前待检测帧最终的检测框检测结果；

所述检测框检测结果包括：检测框位置以及检测框类别；

所述漏检处理模块具体用于：

14.根据权利要求13所述的装置，其特征在于，所述初始检测模块具体用于，将视频序列中的当前待检测帧提供给物体检测模型，获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果。

15.根据权利要求14所述的装置，其特征在于：

所述初始检测模块将视频序列中的当前待检测帧提供给物体检测模型；

16.根据权利要求14所述的装置，其特征在于，所述初始检测模块具体用于，将视频序列中的当前待检测帧以及所述参照帧的检测框检测结果，提供给物体检测模型，获得所述物体检测模型输出的所述当前待检测帧的初始检测框检测结果。

17.根据权利要求16所述的装置，其特征在于：

所述初始检测模块将视频序列中的当前待检测帧以及所述参照帧的检测框检测结果，提供给物体检测模型；

18.根据权利要求13至17中任一项所述的装置，其特征在于，所述漏检处理模块还具体用于：

19.根据权利要求13至17中任一项所述的装置，其特征在于，所述漏检处理模块所执行的对所述检测框进行跟踪处理包括：

20.根据权利要求13至17中任一项所述的装置，其特征在于，所述参照帧包括：所述当前待检测帧的前一帧。

21.根据权利要求13至17中任一项所述的装置，其特征在于，所述装置还包括：

平滑处理模块，用于根据当前待检测帧的前一帧的检测框检测结果，对当前待检测帧最终的检测框检测结果中的至少一检测框进行平滑处理。

22.根据权利要求14至17中任一项所述的装置，其特征在于，所述物体检测模型是训练装置利用带有检测框标注信息的视频序列样本训练而成的。

23.根据权利要求22所述的装置，其特征在于，所述训练装置包括：

获取检测结果模块，用于将视频序列样本中的当前待检测帧样本提供给待训练的物体检测模型，获得所述待训练的物体检测模型输出的所述当前待检测帧样本的初始检测框检测结果；

监督模块，用于以所述初始检测框检测结果与所述视频序列样本中的当前待检测帧样本的检测框标注信息之间的差异为指导信息，对所述待训练的物体检测模型进行监督学习。

24.根据权利要求23所述的装置，其特征在于，所述获取检测结果模块具体用于：

25.一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-12中任一项所述的方法。

26.一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述权利要求1-12中任一项所述的方法。