CN108885684A

CN108885684A - 用于检测视频中的对象的方法和系统

Info

Publication number: CN108885684A
Application number: CN201680084129.2A
Authority: CN
Inventors: 王晓刚; 康恺; 李鸿升; 闫俊杰; 欧阳万里
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2018-11-23
Anticipated expiration: 2036-03-30
Also published as: CN108885684B; WO2017166098A1

Abstract

本公开涉及一种用于检测视频中的对象的方法和系统，所述方法包括：获取视频；生成对象的边界框；确定对象类和对应于对象类的检测置信度得分，从而产生检测信息集；通过抑制与对象类对应的检测置信度得分来修改检测信息集，该对象类具有低于第一阈值的检测置信度得分；跟踪对象类，产生第一小块；用与小块边界框重叠的边界框替换小块边界框，产生第二小块；通过重新评分与第二小块中的对象类对应的检测置信度得分来调整检测信息集；组合修改后的检测信息集和调整后的检测信息集；以及定位帧中的对象。

Description

用于检测视频中的对象的方法和系统

技术领域

本公开涉及用于检测视频中的对象的方法和系统。

背景技术

多类对象检测在计算机视觉中是个基本问题。具体地说，检测视频中的对象时需要系统在视频的每一帧中自动检测多个类的实例。

在多类对象检测领域，静态图像对象检测已被广泛研究和探究。现有技术中用于检测一般类的对象的方法主要基于深度卷积神经网络(CNN)。

然而，将静态图像检测框架直接应用于视频时存在诸多限制。主要限制是：(a)因未考虑时间一致性和约束，静态图像检测器的检测含有较大时间波动；(b)基于单个帧的信息，静态图像检测器可能会生成误报，而这些误报可通过考虑整个视频的上下文信息来加以辨别。

同时，检测视频中的对象具有若干重要应用。举例来说，对于例如YouTube等视频网站，自动检测多类对象可有助于对视频剪辑进行准确分类并向目标用户推荐视频。对于视频监控来说，检测汽车、公交车和行人能实现智能场景的理解和交通的管理。对于近年来作为热门话题的自动驾驶，通过视频对象检测，车辆可检测交通标志、地标和其它车辆。

因此，需要在视频中用于减少漏报和误报的检测对象方法或系统。

发明内容

以下给出本公开的简化概述，以提供对本公开的一些方面的基本理解。此概述并非本公开的详尽综述。这些概述内容既不是用来指出本公开的重要或关键要素，也并不是用来界定本公开的特定实施方式的任何范围，或权利要求书的任何范围。其唯一目的是以简化形式呈现本公开的一些概念，作为后文详细描述的序言。

一方面，本申请公开了一种用于检测视频中对象的方法，该方法包括：获取具有多个帧的视频，每个帧具有多个对象；生成每个对象的边界框；针对每个对象，确定对象类和对应于对象类的检测置信度得分，产生包含分别与每个对象相关联的检测信息的检测信息集，其中，所述检测信息包含边界框、对象类和对应于对象类的检测置信度得分；通过抑制与对象类对应的检测置信度得分来修改检测信息集，该对象类具有低于第一阈值的检测置信度得分；从帧中具有高于第二阈值的检测置信度得分的对象类开始，沿着多个帧双向跟踪对象类产生第一小块(tubelet)，其中，第一小块包括对应于多个帧中所跟踪的对象类的多个小块边界框；在多个帧的每个帧中，用与小块边界框重叠的边界框替换小块边界框产生第二小块，其中，用于替换小块边界框的边界框的对象类具有最高检测置信度得分；通过对与第二小块中的对象类对应的检测置信度得分进行重新评分来调整检测信息集；组合修改后的检测信息集和调整后的检测信息集；以及基于组合的检测信息集来定位帧中的对象。

在本申请的一个实施方式中，上述方法还包括：基于对象的运动信息将多个帧中的一个帧中的对象的检测信息传播到邻近帧。

在本申请的一个实施方式中，上述运动信息是光流。

在本申请的一个实施方式中，上述确定的步骤包括：通过多个神经网络生成与每个对象的对象类相对应的检测置信度得分；以及针对每个对象类，对由多个神经网络生成的检测置信度得分求平均值。

在本申请的一个实施方式中，上述抑制的步骤包括：使用第一阈值将对象类划分为高置信度类和低置信度类，其中，高置信度类是具有比第一阈值高的检测置信度得分的对象类，且低置信度类是具有比第一阈值低的检测置信度得分的对象类；以及将对应于低置信度类的检测置信度得分减去常数。

在本申请的一个实施方式中，上述边界框是由静态图像检测器生成。

在本申请的一个实施方式中，上述边界框的生成还包括级联选择。

在本申请的一个实施方式中，调整与被替换的小块中的对象类对应的检测置信度得分包括：基于对应于第二小块中的对象类的检测置信度得分，将第二小块划分为正小块和负小块，正小块表示小块检测置信度得分高于小块阈值的小块，负小块表示小块检测置信度得分低于小块阈值的小块，其中，根据对应于第二小块中的对象类的检测置信度得分来确定小块检测置信度得分；以及提高与正小块中的对象类对应的检测置信度得分，以及抑制与负小块中的对象类对应的检测置信度得分。

在本申请的一个实施方式中，通过对与每个小块中的对象类相对应的检测置信度得分求平均值来获得所述小块检测置信度得分。

在本申请的一个实施方式中，根据高于阈值得分的检测置信度得分的比例来获得所小块检测置信度得分。

在本申请的一个实施方式中，提高与正小块中的对象类对应的检测置信度得分以及抑制与负小块中的对象类对应的检测置信度得分还包括：将与正小块中的对象类对应的检测置信度得分和与负小块中的对象类对应的检测置信度得分分别最小-最大映射到两个连续数值范围中。

在本申请的一个实施方式中，所述组合的步骤包括：将修改后的检测信息集和调整后的检测信息集中包含的检测置信度得分最小-最大映射到相同数值范围中；以及根据最小-最大映射后的检测置信度得分，对重叠区域大于阈值的相同对象类的边界框进行非最大抑制。

本申请的另一方面公开了一种用于检测视频中对象的系统，包括：存储器，存储可执行组件；以及处理器，电联接到所述存储器，所述处理器执行可执行组件以：获取具有多个帧的视频，每个帧具有多个对象；生成每个对象的边界框；针对每个对象，确定对象类和对应于对象类的检测置信度得分，产生包含分别与每个对象相关联的检测信息的检测信息集，其中，检测信息包含边界框、对象类和对应于对象类的检测置信度得分；通过抑制对象类对应的检测置信度得分来修改检测信息集，该对象类具有低于第一阈值的检测置信度得分；从帧中具有高于第二阈值的检测置信度得分的对象类开始，沿着多个帧双向跟踪对象类产生第一小块，其中，第一小块包括对应于多个帧中所跟踪的对象类的多个小块边界框；在多个帧的每个帧中，用与小块边界框重叠的边界框替换小块边界框产生第二小块，其中，用于替换小块边界框的边界框的对象类具有最高检测置信度得分；通过对与第二小块中的对象类对应的检测置信度得分进行重新评分来调整检测信息集；组合修改后的检测信息集和调整后的检测信息集；以及基于组合的检测信息集来定位帧中的对象。

附图说明

下文参照附图描述本申请的示例性非限制性实施方式。附图是说明性的，且一般未按确切比例绘制。不同图上的相同或相似元件用相同附图标号进行标记。

图1示出根据本申请的实施方式的用于检测视频中对象的系统；

图2是示出根据本申请的实施方式的用于检测视频中对象的方法流程图；

图3是示出根据本申请的实施方式的用于静态图像检测的方法流程图；

图4是示出根据本申请的实施方式的用于上下文合并的方法流程图；

图5示出根据本申请的实施方式的多个帧中的示例性对象；

图6示出根据本申请的实施方式的将检测信息传播到邻近帧的示例；

图7是示出根据本申请的实施方式的用于小块重新评分的方法流程图；

图8示出根据本申请的实施方式的小块的示例；

图9示出根据本申请的实施方式的非最大抑制的示例。

具体实施方式

现将详细参照本发明中用于执行本发明的一些具体实施方式。附图中示出这些具体实施方式的示例。尽管结合这些具体的实施方式描述了本发明，但本领域技术人员应该理解这些描述并不是用来将本发明限制为所描述的实施方式。相反，其用意是希望涵盖如所附权利要求书限定的本发明的精神和范围内的替代方案、修改和等同方案。在以下描述中，阐述众多具体细节以便提供对本申请的透彻理解。在没有这些具体细节中的一些或全部的情况下，可实践本申请。在其它情况下，对公知的过程操作没有进行详细的描述以免不必要地混淆本申请。

本文中所使用的术语仅用作描述特定实施方式的目的，而不在于限制本发明。在本文中所使用时，除非上下文另外清楚地表示，否则单数形式“一”和“所述”还可包含复数形式。应进一步理解，术语“包括”在用于本说明书中时指定所陈述的特征、整体、步骤、操作、元件和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组的存在或添加。

图1示出了根据本申请的实施方式的用于检测视频中对象的系统100。如图1所示，系统100可包括静态图像检测装置101、上下文合并装置102、小块重新评分装置103和组合装置104。

为了检测视频中的对象，首先，静态图像检测装置101可获取具有帧序列的视频，其中，每个帧具有多个对象。接着在每个帧中，静态图像检测装置101可通过静态图像方法为每个对象生成边界框，以及通过多个神经网络确定每个对象的对象类和对应于该对象类的检测置信度得分，其中，检测置信度得分表示对象属于该对象类的可能性。在一些实施方式中，静态图像检测装置101可以是采用DeepID-Net和CRAFT的静态图像检测器。在静态图像检测装置101的处理之后，静态图像检测装置101的结果输入到上下文合并装置102和小块重新评分装置103中，通过使用整个视频或连续帧中的对象之间的关系来抑制漏报和误报检测，之后，来自上下文合并装置102和小块重新评分装置103的结果输入到组合装置104中，在组合装置104中，来自上下文合并装置102和小块重新评分装置103的结果组合到一起以获得视频的最终对象检测结果。

图2是示出了根据本申请的实施方式的用于检测视频中对象的方法流程图。在步骤S201，可对视频进行静态图像检测以获得对象的边界框、对象的对象类、以及与该对象类对应的检测置信度得分。在步骤S202，合并上下文信息以减少误报和漏报。在步骤S203，通过小块(tubelet)对步骤S201的结果施加时间约束。最后，在步骤S204组合步骤S202和203的结果。

下文将参考图3到9描述步骤S201到S204的细节。

图3是示出了根据本申请的实施方式的用于静态图像检测的方法流程图。在步骤S301，可从例如盒式录像机、硬盘等等记录装置或存储器装置获取待检测的视频。视频具有多个帧，且每个帧具有多个对象。在步骤S302，使用视觉法和神经网络来为帧中对象生成边界框，其中，视觉法可以是例如SelectiveSearch和Edge Boxes等低等级视觉法，而神经网络可以是RPN(Region Proposal Network，区域提议网络)。在步骤S303，针对每个对象，确定对象类和对应于该对象类的检测置信度得分。例如，通过多个神经网络来进行，其中，检测置信度得分指示对象属于某一对象类的可能性。在一些实施方式中，边界框、对象类和检测置信度得分可通过至少一个神经网络一起生成，以及在一些其它实施方式中，对从至少一个神经网络获得的每个对象类的检测置信度得分求平均值以获得每个对象类的最终静态图像检测置信度得分。可通过采用DeepID-Net和CRAFT的静态图像检测器获得边界框、对象类和检测置信度得分。在一些实施方式中，静态图像检测可包括在确定对象类和检测置信度得分之前的级联选择以减少误检边界框的发生率。误检边界框是极有可能不含有任何实际对象的边界框。举例来说，在级联选择期间，所有边界框通过例如AlexNet模型等预先训练后的模型标记有200个ImageNet检测类得分，且接着，所有200个类的最大预测得分低于阈值的边界框被视作误检样本而被消除，其中，阈值可由用户预定。在步骤S303之后，获得包含分别与每个对象相关联的检测信息的检测信息集，其中，与每个对象相关联的检测信息包含边界框、对象类和与每个对象的对象类对应的检测置信度得分。换句话说，对于一个对象，其边界框、对象类和检测置信度得分是相关联的。可在静态图像检测装置101中执行步骤S301到S303。

在步骤S201之后，可并行或串行地执行步骤S202和S203。在步骤S202，对与具有低于抑制阈值的检测置信度得分的对象类对应的检测置信度得分进行抑制，其中，该抑制阈值也称为第一阈值；在步骤S203，可通过跟踪具有高检测置信度得分的对象类来获得小块，且可调整与该小块中的对象类对应的检测置信度得分。

图4是示出了根据本申请实施方式的用于上下文合并的方法流程图。在步骤S401，对视频中的所有对象类根据其检测置信度得分进行排序。在步骤S402，使用第一阈值将对象类划分成高置信度类和低置信度类。对于步骤S401和步骤S402，举例来说，假设视频中存在两个帧且每个帧中有一个边界框，因此一共存在两个边界框。进一步假设可从步骤S201获得的每个边界框中有三个可能的对象类，例如猴子、猫和桌子。在第一帧中，猴子、猫和桌子的检测置信度得分分别是0.9、0.8和0.4；在第二帧中，猴子、猫和桌子的检测置信度得分分别是0.8、0.5和0.2。排序结果是：猴子(0.9)、猫(0.8)、猴子(0.8)、猫(0.5)、桌子(0.4)和桌子(0.2)。根据可由用户预先确定的第一阈值，可将这些对象类划分成高置信度类和低置信度类。在此情况下，假设第一阈值为0.6，则具有大于第一阈值的检测置信度得分的对象类是猴子(0.9)、猫(0.8)和猴子(0.8)，因此猴子和猫的对象类划分为高置信度类，而桌子的对象类划分为低置信度类。应注意，如果一个对象类在任一边界框中具有高于第一阈值的检测置信度得分，则所述对象类在整个视频中被标记为高置信度类。因此，尽管猫存在0.5的检测置信度得分且因此低于第一阈值，但还是将猫划分为高置信度类。在步骤S403，抑制低置信度类的检测置信度得分。举例来说，低置信度类的检测置信度得分可减去常数。该常数例如是0.1，且由此桌子在两个帧中的检测置信度得分分别变成0.3和0.1。在步骤S403之后，抑制一些对象类的检测置信度得分，且修改检测信息集。

步骤S401到S403的目的是为了减少步骤S201的结果中的误报。图5示出了根据本申请实施方式的多个帧中的对象的示例。在第一行，帧中存在的主要对象是猴子和家猫，因此这两个对象很有可能在至少一个帧中以高清晰度呈现，因此导致这两个对象类的检测置信度得分较高，而其它对象，例如桌子，可能在帧中具有低清晰度且对象类的检测置信度得分较低。具有低清晰度的对象可能容易导致误报。为了减少误报，抑制这些对象类的检测置信度得分是有利的。为此目的，在第二行到第三行，汽车、家猫和自行车的对象类被视为高置信度类，且其它对象的检测置信度得分被抑制。

在一些实施方式中，上下文信息合并包括传播处理。在步骤S404，根据帧中对象的运动信息将该对象的检测信息传播到至少一个邻近帧。由于仅基于单个帧的信息，静态图像检测可能生成误报，因此为了减少误报和漏报，可基于连续帧之间的对象关系来实施检测。图6示出了根据本申请实施方式的将检测信息传播到邻近帧的示例。如图6所示，在传播之前，通过仅基于单个帧的静态图像对象检测方法获得对象检测信息。可看出，在t＝T-1和t＝T+1处的帧中并未检测到多个飞机，其中t表示时间。在将帧t＝T中的检测信息传播到其邻近帧(在t＝T-1和t＝T+1处)之后，未在t＝T-1和t＝T+1处的帧中检测到但在t＝T处的帧(在实线框中)中检测到的飞机现在在t＝T-1和t＝T+1处的帧(在虚线框中)中被检测到。可根据对象的运动信息实施传播。例如，通过使用在t＝T和t＝T-1处的两个帧中检测到的飞机的相对位置改变，可根据t＝T处的帧确定飞机在t＝T+1处的可能位置，且接着通过使用这一运动趋势，可在t＝T+1处的帧中确定在t＝T处的帧中检测到的但未在t＝T+1处的帧中检测到的飞机的可能位置，且可将此飞机在t＝T处的帧中的检测信息传播到使用运动趋势确定的位置。在一些实施方式中，可通过光流(optical flow)实施该传播。可在上下文合并装置102中执行步骤S401到S404。

图7是示出根据本申请实施方式的用于小块重新评分的方法流程图。在步骤S701，在时间维度上双向跟踪具有高于跟踪阈值的检测置信度得分的对象类，例如沿着多个连续帧双向跟踪，以获得高置信度类的小块，其中，跟踪阈值也称为第二阈值，小块由连续帧上的所述类的边界框构成。小块中所含的边界框也称为小块边界框。第二阈值可由用户预先确定。一般来说，具有高于第二阈值的检测置信度得分的对象类存在于多个连续帧中，因此对此类对象类的跟踪有利于提高视频中的对象检测的准确度。在静态图像检测结果上合并长期约束(long-term constraint)还能够使检测结果在示出时具有连续性。

图8示出了根据本申请实施方式的小块的示例。如图8所示，假设星形为高置信类。对连续帧(如图8中所示的五个帧)中的星形的双向跟踪可由跟踪器从高置信对象类(在中心帧中)开始。对于跟踪器，其从称作“锚点(anchor)”的高置信度类的边界框开始跟踪。从锚点开始，跟踪器双向跟踪以获得两个小块且将其串接以获得完整小块。在沿着时间维度进行跟踪时，被跟踪的框可能漂移到背景或其它对象，或可能不适应目标对象的尺度和位姿改变。因此，跟踪在跟踪置信度低于阈值时提早停止以减少误报小块。在获得一个小块之后，从其余检测中选出新锚点以开始新的跟踪。通常，高置信度检测往往会在空间上和时间上集群，且因此，直接跟踪下一最高置信度检测往往会产生在相同对象上相互重叠较大的小块。为了减小冗余，执行类似于非最大抑制(non-maximum suppression)的抑制过程。与现有跟踪重叠的超出某一阈值的检测将不被选作新锚点。反复执行跟踪-抑制过程，直到所有其余检测的置信度值低于阈值。在跟踪之后，获得由五个边界框(图8中的虚线框)构成的小块，此类小块也称为第一小块。

在获得第一小块之后，每个帧中存在一个小块边界框，此类小块边界框有时与帧中小块的对象类对应的边界框重叠。因此，可能需要修改处理步骤。在步骤S702，找出重叠的对应于第一小块的对象类的边界框。图8中示出了第一帧的较大视图。在图8中，找出重叠的与第一小块中的对象类相同的对象类的边界框。在一些实施方式中，存在许多此类重叠的边界框，且选择重叠区域大于重叠阈值的重叠边界框，其中，可由用户预先确定重叠阈值。在步骤S703，从先前步骤中选择的重叠边界框中选出具有最高检测置信度得分的重叠边界框，以及使用这些重叠边界框替换帧中的小块边界框，如图8中所示，从而通过修改第一小块而获得第二小块。

在步骤S703之后，获得不同类的多个第二小块。在步骤S704，可评估每个第二小块的小块检测置信度得分，其中，这些小块检测置信度得分可以是例如与第二小块中的对象类对应的所有检测置信度得分的平均值，或在第二小块中大于阈值得分的对象类的检测置信度得分的比例。接着，根据第二小块的小块检测置信度得分将第二小块划分成正小块和负小块。正小块和负小块分别表示小块检测置信度得分高于和低于小块阈值的小块。小块阈值可由用户预定。在一些实施方式中，可通过贝叶斯分类器(Bayesian classifier)实施划分。在步骤S705，分别提高和抑制正小块和负小块中的对象类的检测置信度得分。在一些实施方式中，将正小块和负小块中的对象类的检测置信度得分最小-最大映射到两个连续数值范围中。例如，正小块和负小块中的类的检测置信度得分可分别最小-最大映射到[0.5，1]和[0，0.5]。换句话说，正小块中的对象类的检测置信度得分当中的最高检测置信度得分被设置成1且最低检测置信度得分被设置成0.5，最高和最低得分之间的得分分布在1与0.5之间，其中，每对检测置信度得分之间的距离与每对之间在最小-最大映射之前的距离成正比。负小块以类似方式映射，不同之处在于，负小块中的类的检测置信度得分当中的最高检测置信度得分被设置成0.5且最低检测置信度得分被设置成0。可在小块重新评分装置103中执行步骤S601到S605。

在S202和S203的处理之后，在S204步骤中对在这两个步骤中修改的检测结果，即检测信息集，进行组合以形成视频中的最终对象检测结果。在一些实施方式中，步骤S202和S203中获得的检测置信度得分被最小-最大映射到相同数值范围以将来自两个不同步骤的检测置信度得分置于相同评估系统，以及对重叠区域大于阈值的相同类的边界框执行非最大抑制。一般来说，从步骤S202和S203获得的相同类的边界框可能并不准确地位于一个帧中的相同位置。因此，非最大抑制用于减少此类多余的结果。具体地说，在一些实施方式中，对于一个类，可找出彼此重叠的具有大于阈值的重叠区域的边界框，其中，可由用户确定阈值，接着针对该对象类，使用具有最高检测置信度得分的边界框替换彼此重叠的所有边界框(如图9中所示)。接着，获得最终检测结果。通过组合的检测结果，即组合的检测信息集，可定位视频中的对象。可在组合装置中实施步骤S203。

如本领域技术人员应该理解的那样，本申请可实现为系统、方法或计算机程序产品。因此，本申请可采取完全为硬件的实施方式和方面，而在本文中硬件通常被称为“单元”、“电路”、“模块”或“系统”。在在实施时，许多发明功能和许多发明原理能够通过例如数字信号处理器的集成电路(IC)及其软件或者专用IC来得到最好地支持。可以预期的是，本领域普通技术人员根据本文公开的概念和原理的教导能够通过最少的实验容易地生成IC，而不必考虑例如由时间、当前技术和经济考量等驱使的可能的繁重工作量和许多其它设计选项。因此，为了减少并最小化对本申请原理和概念进行混淆的任何风险，对此类软件和IC(如果存在的话)的进一步论述将被限制为对于在优选实施方式中使用的原理和概念而言必要的部分。

虽然已经描述了本申请的优选示例，但是本领域技术人员可在知晓基本发明概念后对这些示例作出变化或修改。所附权利要求书可被理解为包括落在本申请范围内的优选示例及其所有变化或修改。

显然，本领域技术人员可在不背离本申请精神和范围的情况下对本申请作出变化或修改。因而，如果这些变化或修改属于权利要求书和等同技术的范围，那么其也落在本申请的范围内。

Claims

1.一种用于检测视频中的对象的方法，包括：

获取具有多个帧的视频，每个所述帧具有多个对象；

生成每个所述对象的边界框；

针对每个所述对象，确定对象类和与所述对象类对应的检测置信度得分，产生包含分别与每个所述对象相关联的检测信息的检测信息集，其中，所述检测信息包含所述边界框、所述对象类和对应于所述对象类的检测置信度得分；

通过抑制与对象类对应的检测置信度得分来修改所述检测信息集，该对象类具有低于第一阈值的检测置信度得分；

从帧中具有高于第二阈值的检测置信度得分的对象类开始，沿着多个帧双向跟踪所述对象类产生第一小块，所述第一小块包括与所述多个帧中所跟踪的对象类对应的多个小块边界框；

在每个所述帧中，用与所述小块边界框重叠的边界框替换所述小块边界框，产生第二小块，其中，具有用于替换所述小块边界框的所述边界框的对象类具有最高检测置信度得分；

通过对与所述第二小块中的对象类相对应的检测置信度重新进行评分来调整所述检测信息集；

组合修改后的所述检测信息集和调整后的所述检测信息集；以及

基于组合的检测信息集来定位所述帧中的所述对象。

2.根据权利要求1所述的方法，还包括：基于所述对象的运动信息将所述多个帧中的一个帧中的对象的所述检测信息传播到邻近帧。

3.根据权利要求2所述的方法，其中，所述运动信息是光流。

4.根据权利要求1所述的方法，其中，所述确定包括：

通过多个神经网络生成对应于每个所述对象的对象类的检测置信度得分；以及

针对每个所述对象类，对由所述多个神经网络生成的检测置信度得分求平均值。

5.根据权利要求1所述的方法，其中，所述抑制包括：

使用所述第一阈值将所述对象类划分为高置信度类和低置信度类，其中，所述高置信度类是检测置信度得分高于所述第一阈值的的对象类，且所述低置信度类检测置信度得分低于所述第一阈值的对象类；以及

将对应于所述低置信度类的检测置信度得分减去常数。

6.根据权利要求1所述的方法，其中，所述边界框是由静态图像检测器生成。

7.根据权利要求1所述的方法，其中，生成所述边界框还包括级联选择。

8.根据权利要求1所述的方法，其中，调整与所述第二小块中的所述对象类对应的所述检测置信度得分包括：

基于与所述第二小块中的对象类对应的所述检测置信度得分，将所述第二小块划分为正小块和负小块，所述正小块表示具有比小块阈值高的小块检测置信度得分的小块，所述负小块表示具有比小块阈值低的小块检测置信度得分的小块，其中，根据与所述第二小块中的对象类对应的检测置信度得分来确定所述小块检测置信度得分；以及

提高与所述正小块中的对象类对应的检测置信度得分，且抑制与所述负小块中的对象类对应的检测置信度得分。

9.根据权利要求8所述的方法，其中，通过对与每个小块中的对象类对应的检测置信度得分求平均值来获得所述小块检测置信度得分。

10.根据权利要求8所述的方法，其中，根据高于阈值得分的检测置信度得分的比例来获得所述小块检测置信度得分。

11.根据权利要求8所述的方法，其中，提高与所述正小块中的对象类对应的检测置信度得分，且抑制与所述负小块中的对象类对应的检测置信度得分包括：

将与所述正小块中的对象类对应的检测置信度得分和与所述负小块中的对象类对应的检测置信度得分分别最小-最大映射到两个连续数值范围中。

12.根据权利要求1所述的方法，其中，所述组合包括：

将修改后的检测信息集和调整后的检测信息集中包含的检测置信度得分最小-最大映射到相同数值范围中；以及

根据最小-最大映射后的检测置信度得分，对重叠区域大于阈值的相同对象类的边界框进行非最大抑制。

13.一种用于检测视频中的对象的系统，包括：

存储器，存储可执行组件；以及

处理器，电联接到所述存储器以执行所述可执行组件以：

获取具有多个帧的视频，每个所述帧具有多个对象；

生成每个所述对象的边界框；

针对每个所述对象，确定对象类和对应于所述对象类的检测置信度得分，从而产生包含分别与每个所述对象相关联的检测信息的检测信息集，其中，所述检测信息包含所述边界框、所述对象类和对应于所述对象类的检测置信度得分；

从帧中具有高于第二阈值的检测置信度得分的对象类开始，沿着多个帧双向跟踪所述对象类，产生第一小块，所述第一小块包括与所述多个帧中所跟踪的对象类对应的多个小块边界框；

基于组合的检测信息集来定位所述帧中的所述对象。