CN103914702A

CN103914702A - 用于提高视频中的对象检测性能的系统和方法

Info

Publication number: CN103914702A
Application number: CN201410001472.9A
Authority: CN
Inventors: A.达塔; R.S.菲利斯; S.U.潘坎蒂; 翟昀
Original assignee: International Business Machines Corp
Current assignee: Qindarui Co.
Priority date: 2013-01-02
Filing date: 2014-01-02
Publication date: 2014-07-09
Anticipated expiration: 2034-01-02
Also published as: CN103914702B; US8948454B2; US20140185925A1

Abstract

一种用于训练特殊对象检测器辨别出现在用于目标域的帧序列中的前景对象的方法和系统。该帧序列描述不均匀背景中的前景对象的运动。在该序列的初始帧的高置信度子窗口中检测前景对象，其包括计算高置信度子窗口包括前景对象的置信度量并确定该置信度量超过指定置信度阈值。在出现在初始帧之后的后续帧的各正子窗口中跟踪前景对象。后续帧在指定短时间段内。使用正子窗口来训练特殊对象检测器检测目标域中的前景对象。正子窗口包括初始帧的子窗口和后续帧的各子窗口。

Description

用于提高视频中的对象检测性能的系统和方法

技术领域

本发明一般地涉及视频中的对象检测且更具体地涉及提高视频中的对象检测的性能。

背景技术

对象检测在智能视频监控系统中起到基础作用。作为前提条件，在大视频数据库中或在实时视频流中自动地搜索感兴趣的对象的能力常常涉及到视频帧中的对象的检测和局部化。

传统监控系统通常应用背景建模技术[(C.Stauffer和W.Grimson,Adaptive background mixture models for real-time tracking,CVPR,1998,1);(Y.Tian,M.Lu和A.Hampapur,Robust and efficient foreground analysis forreal-time video surveillance,CVPR,2005,1)]，用于检测场景中的移动对象，其在低活动性情形中是高效的且相当好地工作。然而，传统监控系统在其处理典型市区条件（诸如拥挤场景）和环境变化（像雨、雪、反射以及阴影）的能力方面是有限的。在拥挤场景中，多个对象被频繁地合并成单个运动斑点，从而损害较高水平的任务，诸如对象分类和属性的提取。

基于外观的对象检测器[(N.Dalal和B.Triggs.Histograms of orientedgradients for human detection,CVPR,2005,1);(P.Felzenszwalb,R.Girshick,D.McAllester和D.Ramanan,Object detection with discriminatively trained partbased models,IEEE Transactions on PAMI,2010,1)]作为用以应对这些有挑战性的条件的很有前景的方向而出现。具体地，对于要求实时处理的应用而言，基于类哈尔（Haar-like）特征的级联检测器已被广泛地用于人脸[P.Viola和M.Jones.Robust Real-time Object Detection,International Journal of ComputerVision,2004,1,2,3,4],行人[P.Viola,M.Jones和D.Snowi,Detectingpedestrians using patterns of motion and appearance,ICCV,2003,1]和车辆[R.S.Feris,B.Siddiquie,Y.Zhai,J.Petterson,L.Brown和S.Pankanti,Attribute-basedvehicle search in crowded surveillance videos,ICMR,2011,1]的检测。虽然在此领域中已经实现的显著的进步，但现有技术对象检测器仍不能很好地一般化至不同的相机角度和照明条件。由于实际部署常常涉及到大量的监控相机，所以训练每个相机的检测器由于标注成本而是不可能的。已经提出了在线自适应方法[(V.Jain和E.Learned-Miller,Online domain adaptation of a pre-trainedcascade of classifiers,CVPR,2011,1,2);(S.Pan,I.Tsang,J.Kwok和Q.Yang,Domain adaptation via transfer component analysis,IEEE Transactions on NeuralNetworks,2011,1,2)]以使一般检测器适应于特定的域，但是该在线自适应方法通常要求来自目标域的少量的手动标签。大多数方法仅仅依赖于权值的自适应，同时保持原始检测器的相同的特征和相同的计算复杂性。

已经提出了用于图像和视频中的对象检测的各种方法。基于可变形部分的模型[P.Felzenszwalb,R.Girshick,D.McAllester和D.Ramanan,Objectdetection with discriminatively trained part based models,IEEE Transactions onPAMI,2010,1],基于取向梯度特征的直方图的分类器[N.Dalal和B.Triggs.Histograms of oriented gradients for human detection,CVPR,2005,1]以及卷积神经网络[Y.LeCun,K.Kavukvuoglu和C.Farabet,Convolutional networks andapplications in vision,ISCAS,2010,1]是已在多个标准数据集中实现现有技术成果的成功方法的示例。然而，一般地，这些方法在常规机器上运行小于15帧每秒，并且因此可能不适用于要求每个服务器处理许多视频通道的监控应用。

级联检测器[(P.Felzenszwalb,R.Girshick和D.McAllester,Cascade objectdetection with deformable part models,CVPR,2010,2);(P.Viola和M.Jones.Robust Real-time Object Detection,International Journal of Computer Vision,2004,1,2,3,4)]已被普遍地采用以获得高效的处理。Viola和Jones[P.Viola和M.Jones,Robust Real-time Object Detection,International Journal of ComputerVision,2004,1,2,3,4]介绍了一种基于Adaboost分类器、使用快速至计算机的类哈尔特征的鲁棒且高效的检测器。在过去几年中已经提出了此算法的许多变体，包括不同的提高模型和不同的特征。用于级联检测器的置信度量尚未被很好地研究。

共同训练技术[(O.Javed,S.Ali和M.Shah,Online detection andclassification of moving objects using progressively improving detectors,CVPR,2005,2);(P.Roth,H.Grabner,D.Skocaj,H.Bischof和Leonardis,On-lineconservative learning for person detection,PETS Workshop,2005,2)]已通过在数据的不同视图上训练单独分类器，应用于提高特定域中的对象检测的性能。来自第一分类器的可信标记样本被用来补充第二分类器的训练集且反之亦然。共同训练的底层假设是数据的两个视图是统计独立的，其尤其是在从单个模态提取特征时可能被违背。

已经提出了多个在线自适应方法[(V.Jain和E.Learned-Miller.Onlinedomain adaptation of a pre-trained cascade of classifiers,CVPR,2011,1,2);(S.Pan,I.Tsang,J.Kwok和Q.Yang,Domain adaptation via transfer componentanalysis,IEEE Transactions on Neural Networks,2011,1,2)]以使一般检测器适应于特定的域。通常，这些技术要求来自目标域的少数手动标签或者遭受捕捉在线数据以正确地更新分类器方面的不准确性。除少数例外[H.Grabner和H.Bischof,Online boosting and vision,CVPR,2006,2]，只有特征权值是自适应的且特征本身并不是。结果，自适应分类器一般地至少如原始检测器那样昂贵。在线学习已被应用于改善跟踪[(H.Grabner,C.Leistner和H.Bischof,Semi-supervised on-line boosting for robust tracking,ECCV,2008,2);(S.Avidan,Ensemble tracking,IEEE Transactions on PAMI,2007,2)]，假设对象仅出现在一个位置上。

Feris等人[R.S.Feris,J.Petterson,B.Siddiquie,L.Brown和S.Pankanti,Large-scale vehicle detection in challenging urban surveillance environments,WACV,2011,2]提出了一种用以自动地从目标域收集训练数据并学习分类器的技术。然而，该技术要求用户输入以指定感兴趣区域和属性，诸如感兴趣对象的运动方向和可接受Δs。最近，Siddiquie等人[B.Siddiquie,R.Feris,A.Datta和L.Davis,Unsupervised model selection for view-invariant objectdetection in surveillance environments,ICPR,2012,2]提出了一种将场景几何约束考虑在内以从源域向目标域转移知识的方法。这种方法甚至能够实现比用来自目标域的样本训练的检测器更好的性能，但是要求覆盖不同姿势和照明条件的源域检测器的大电池。

存在用以基于超过可见光谱（诸如红外线）的亮度、色彩以及特征而将前景对象与背景区别开的现有算法。这些算法通常依赖于阈值（例如亮度阈值）来指示前景对象的存在。例如，可以由人来手动地调整阈值以解决照明的变化、相机响应等以确保车辆的图像胜过用以将车辆与背景区别开的可应用阈值。然而，手动调整过程是低效的且经受人为误差。

发明内容

本发明提供了一种用于训练特殊对象检测器，以辨别出现在用于目标域的帧序列中的前景对象的方法和系统。该帧序列描述不均匀背景中的前景对象的运动。在序列中的最后一个帧之前的序列中的每个帧对应于比序列中的紧接着的下一个帧所对应的时间更早的时间。前景对象在序列的初始帧的高置信度子窗口中被检测到。检测前景对象包括计算子窗口包括前景对象的置信度量，并确定该置信度量超过指定置信度阈值。在出现于帧序列中的初始帧之后的多个后续帧的各正子窗口中跟踪前景对象，其中，后续帧在指定的短时间段内。该正子窗口被馈送到学习引擎以供在训练特殊对象检测器检测目标域中的前景对象时使用，其中，正子窗口包括初始帧的子窗口和所述多个后续帧的各子窗口。

附图说明

图1描述了根据本发明的实施例的用于级联检测器的置信度量的确定。

图2描述了根据本发明的实施例的高置信度检测和相应轨迹片段的示例。

图3描述了根据本发明的实施例的从拥挤交通场景自动提取的负补丁（patch）的示例。

图4描述了由使用本发明的置信度量的一般检测器选择的高置信度样本的示例。

图5A和5B描述了根据本发明的实施例的低活动性（图5A）和拥挤场景（图5B）中的一般域检测器与目标域中的自动生成检测器的比较。

图6描述了根据本发明的实施例用于一般检测器和特殊化检测器的特征数对比级数的图。

图7图示出根据本发明的实施例的用于训练特殊对象检测器辨别出现在用于目标域的帧序列中的前景对象的计算机系统。

图8是描述根据本发明的实施例的用于训练特殊对象检测器辨别出现在用于目标域的帧序列中的前景对象的特殊对象检测器的方法的流程图。

图9和10是描述根据本发明的实施例的用于计算用于高置信度子窗口的置信度量的方法的流程图。

图11和12是描述根据本发明的实施例的负子窗口的生成的流程图。

图13描述了根据本发明的实施例的在序列的帧中所描述的背景中具有前景对象的帧序列。

图14A-14D图示出根据本发明的实施例的直至发现包括前景对象的子窗口为止的从图14A至图14D的帧中的滑动窗口的连续移动。

图15A描述了根据本发明的实施例的初始帧中的高置信度子窗口。

图15B描述了根据本发明的实施例的相对于图15A的高置信度子窗口的多个相邻子窗口。

具体实施方式

本发明提出了一种用以使用借助于更昂贵的一般域检测器获取的样本来自动地从视频创建高效且准确的特定域对象检测器的新型方法。本发明的方法不要求来自目标域的手动标签（例如，来自新相机的视场）。使用短时间段内的跟踪而从由一般检测器选择的高置信度样本自动地收集训练数据。在此背景下，基于常常被用于要求实时处理的计算机视觉应用的分类器的级联而针对检测器提出新型置信度量。本发明的新型方法在拥挤监控视频中的车辆检测的问题上得到证明，表明自动生成的检测器明显优于具有少得多的特征计算的原始一般检测器。

用于创建特定域对象检测器的本发明的新型方法可以在不要求来自目标域的手动标签的情况下实现，并且提供用于级联检测器的置信度量。这在计算机视觉中是个在很大程度上未解决的问题，因为当前工作仅仅将级联检测器视为没有关联置信度的二进制输出分类器。本发明的新型方法自动地从目标域收集训练样本。置信度量从目标域中的一般检测器选择高置信度检测样本，并且然后从短时间内的跟踪收集正样本（包含高置信度子窗口的初始帧之后的连续帧的轨迹片段）。这些正样本包含变化，诸如可以补充一般检测器的遮挡。还通过使用高置信度样本以及具有感兴趣对象的不同纵横比的样本周围的区域来生成负样本。通过根据自动收集的数据来训练特定域对象检测器，本发明相比于具有少得多的特征计算的一般检测器获得显著的准确度改善。实验分析显示出提出的方法对拥挤监控视频中的车辆检测问题的有用性。

本文中的详细描述包括以下小节：

A.用于级联检测器的置信度量

B.学习特定域检测器

B1.来自轨迹片段的正样本

B2.负样本

C.检测器学习

D.实验

E.未来工作

F.计算机系统

G.实施方式

A.用于级联检测器的置信度量

级联检测器包括连续地（即，分级地）应用于将特定图像样本分类的一组级分类器。在此过程期间，如果任何级检测器将样本分类为负，则过程结束且样本理解被视为负的。只有当级联中的所有级检测器都将样本分类为负时，该结果才是正的。

本发明提出了一种与级联检测器的输出相关联的置信度量，允许根据置信度来将结果排序。置信度量确保高置信度证样本是真为正的，其能够用于自动数据收集。检测器FF(x)包括N个级分类器f_i(x)，i＝1...N，其中，N表示分类的级数，并且N至少为2，并且其中，x表示帧的子窗口（即，图像样本）。用于级i（i=1…N）的级分类器可以在一个实施例中可以基于Boosting，其在等式（1）中被表示为用于具有用于级i的偏置θⁱ的输入图像样本x的弱分类器的线性组合，其中，偏置θⁱ充当阈值，并且其中，T是弱分类器hⁱ _t(x)的总数且t指示级i处的第t弱分类器hⁱ _t(x)。

f_{i} (x) = Σ_{t = 1}^{T} w_{t}^{i} h_{t}^{i} (x) - θ^{i} - - - (1)

弱分类器hⁱ _t(x)是二进制分类器。权值wⁱ _t是在一个实施例中基于Boosting而确定的标量。

并未基于Boosting的分类器在本发明的范围内。

给定输入图像样本x，级分类器fi(x)生成标量输出，其极性（即fi(x)的符号）确定类隶属关系。可以将量值||fi(x)||解释为进行的判定中的信任或确定性的度量。用这些术语，能够查看几乎所有二进制分类器。对于基于密度的分类器（线性、二次和Fisher）而言，输出函数fi(x)是对数似然比，而对于基于核的分类器（最近邻、RBF和SVM）而言，输出是和与分离边界的距离有关的“位场”。

根据级联原理，如果单级fi具有低置信度||fi(x)||，则级联输出置信度不能是高的，即使其他各级具有高置信度分数。换言之，高置信度样本必须在所有级分类器中具有高置信度。根据此性质，本发明不使用诸如最大置信度或者甚至置信度的和的测量结果，如果此类度量未被适当地加权的话。

本发明采用一种使用所有级分类器分数中的最小值的策略，其确保高置信度样本将在所有级分类器中一致地做得很好。假设输出图像x前进通过级联的所有级，根据等式（2）来定义中间级联置信度分数δ(x)。

δ (x) = w_{d} (\min_{1 \leq i \leq N} | | f_{i} (x) | |) - - - (2)

在一个实施例中，w_d是与最小级分类器分数的深度成比例的权值，使得在较早的各级中具有低置信度的样本受罚。深度“d”是级分类器指数且对应于等式（1）中的“i”。另外，非最大抑制步幅被考虑在内以改善置信度量。附近图像位置中的多个检测窗口和比例被集中在一起以产生单个输出检测窗口。事实上，大多数实施方式要求用于开启检测器的最小数目的相邻检测窗口。对于特定图像样本x而言，根据等式（3）来确定集合Δ。

Δ = {δ (x)} \cup {δ_{m_{1}}, δ_{m_{2}}, . . ., δ_{m_{M}}} - - - (3)

其中，δ(x)是来自等式（2）的用于样本x的置信度分数，{δ_m1}（i＝1...M）对应于M个相邻检测窗口的分数的集合。让topK(.)为返回集合的K个最大元素并在该集合的基数小于K的情况下用零填写的函数。对于图像样本x的定义置信度α(x)分数定义为:

α(x)＝min{topK(Δ)} (4)

可以预期的是高置信度示例应具有至少K个高置信度相邻窗口分数。在一个实施例中，K＝3。一般地，K在1至M+1的范围内。

通过将分数α(x)归一化至指定范围、诸如0至1的范围来获得用于级联检测器的最终置信度量C(x)。在一个实施例中，这通过使用根据等式（5）的Platt缩放[J.Platt.Probabilistic outputs for support vector machines and comparison toregularized likelihood methods,Advances in Large Margin Classifiers,1999,3]来完成，其中，使输出通过S型分别以获得已校准概率。

C (x) = \frac{1}{1 + \exp (Aα (x) + B)} - - - (5)

可以使用来自训练集的最大似然估计来拟合参数A和B。

一般地，可以用任何已知的缩放技术（特别地，输入线性缩放）来将α(x)归一化至指定范围。

图1描述了根据本发明的实施例的用于级联检测器的置信度量C(x)的确定。图1总结了用于计算C(x)的上述步骤。

B.学习特定域检测器

给定一般检测器（例如，用来自多个相机的图像训练的汽车检测器）以及来自特定目标域的视频（例如，来自特定监控相机的视频的图像场），本发明创建了用于目标域的更高效且更准确的检测器。使用一般检测器自动地从目标域收集正和负样本，并且然后使用所收集的样本来生成用于目标域的新特殊对象检测器。下面的小节B.1和B.2描述了自动数据收集和检测器再训练。在一个实施例中，将增强级联检测器[P.Viola和M.Jones.Robust Real-timeObject Detection,International Journal of Computer Vision,2004,1,2,3,4[用于一般和特殊化检测器两者。

B1.来自轨迹片段的正样本

图2描述了根据本发明的实施例的高置信度检测和相应轨迹片段的示例。收集的样本包含目标域所特定的附加信息，诸如遮挡和背景纹理。

目标域中的正样本的自动提取包括两个步骤：1）使用一般检测器来检测高置信度样本；以及2）针对每个高置信度检测，在包含高置信度子窗口的帧之后的少数（F个）帧（轨迹片段）内执行跟踪。对于图3中的每个轨迹片段而言，F＝3。在一个实施例中，F在1至10的范围内。在一个实施例中，F在5至20的范围内。轨迹片段的F个帧被添加到正训练数据的集合。此过程在图2中示出，其描述了根据本发明的实施例的高置信度检测和相应轨迹片段的示例。收集的样本包含目标域所特定的附加信息，诸如遮挡和背景纹理。可预期轨迹片段样本具有目标域所特定的且潜在地不同于一般检测器的训练数据分布的变化。如在图2中能够看到的，轨迹片段样本包括来自原始高置信度检测窗口的不同信息，诸如杂乱背景和遮挡。因此，本发明用针对目标域的拥挤场景和特定背景纹理的更大稳健性来训练检测器。

通过对在小节A中描述的置信度量确定阈值来选择高置信度检测窗口。基于确认集合来调谐置信度量阈值，在容忍更多假负的同时实行零或非常少的假警报。

给定高置信度检测窗口，跟踪此类KLT的特征[J.Shi和C.Tomasi,Goodfeatures to track,CVPR,1994,3]跨视频跟随对象。对标准KLT特征跟踪的以下三个改进被包括在本发明中。第一改进认识到检测窗口内的并非所有像素都属于对象，因为某些像素属于背景。跟踪窗口内的所有特征可能误导轨迹片段。因此，利用背景减法来仅跟踪落在前景上的特征。第二改进认识到在忙碌场景中存在用料与来自轨迹片段的相邻帧的遮挡的潜在可能。因此，可以使用随机样本一致（RANSAC）来执行运动的稳健估计[M.Fischler和R.Bolles,Random sample consensus:A paradigm for model fitting with applications toimage analysis and automated cartography,Communications of the ACM,1981,3]。第三改进认识到由于车辆的某些部分可能没有纹理或模糊不清，所以某些特征可能不如其他的可靠。通过在跟踪时间内累积归于每个特征的错误并在RANSAC稳健运动估计期间向更易于出错的特征分配较少权值来检测不那么可靠的特征。

在长时间段内跟踪对象是非常有挑战性的问题。在一个实施例中，涵盖10个帧的短轨迹产生非常可靠的结果。在以下小节D中描述的实验分析布通过将高置信度检测与轨迹片段组合而在没有假警报的情况下从目标域获得许多正样本。

B2.负样本

从不包含感兴趣对象的约1000个网络图像的集合提取不定以创建负样本的大型集合。另外，使用以下两个策略从目标域自动地捕捉负样本。第一策略是提取与对象的群组或部分有关的样本。第二策略是提取具有所考虑对象的不同纵横比的样本。

第一策略包括提取接近于高置信度检测窗口定位但具有不同尺寸的窗口。作为示例，在如以下所讨论的图3中所描述的拥挤交通场景中，包含高置信度检测的负窗口可以包含一群车辆。捕捉此类负样本是相关的，因为车辆群组或部分的假警报在交通场景中是典型的。

第二策略是用所考虑对象的不同纵横比使用其中的子窗口对来自视频帧的负补丁进行采样并将子窗口尺寸重新确定为对象尺寸。重新确定尺寸的窗口可以潜在地类似于具有对象尺寸的场景中的假警报。由于存在将在帧内被视为负样本的许多可能窗口，所以选择被视为“硬示例”（即，具有高检测置信度的负窗口）的窗口。图3描述了根据本发明的实施例的从拥挤交通场景自动提取的负补丁（patch）的示例。

实际上，由于负样本的子窗口不包含对象，所以根据定义，关于负样本的纵横比是相对于负样本的子窗口的相互正交维度。子窗口的纵横比被定义为Dmax/Dmin，其中，Dmax和Dmin是子窗口的最大和最小相互正交线性维度。

C.检测器学习

使用任何已知框架、诸如类似于Viola和Jones的工作的框架[P.Viola和M.Jones,Robust Real-time Object Detection,International Journal of ComputerVision,2004,1,2,3,4]来训练一般和特殊化检测器两者。Viola和Jones架构包括Adaboost分类器的级联，其中，弱学习者是类哈尔特征上的简单阈值。对级联的每个级进行调谐以便以较大数目的假正为代价来使假负最小化，这允许通过快速地丢弃背景图像来进行快速推理。通过选择其中前面的各级已经失败的负样本，还采用自助法（bootstrapping）。本发明的发明人使用GentleAdaboost学习而不是传统离散Adaboost分类器且已用决策树实现了卓越的结果[(R.Lienhart,A.Kuranov和V.Pisarevsky,Empirical analysis of detectioncascades of boosted classifiers for rapid object detection,DAGM25th PatternRecognition Symposium,2003,4);(J.Friedman,T.Hastie和R.Tibshirani,Additive logistic regression:a statistical view of boosting,Annals of Statistics,38(2):337–374,2000,4)]。同时，使用标准滑动窗口方案来应用检测器。

D.实验

本小节举例说明本发明对监控视频中的车辆检测问题的方法。一般域检测器是用从20+个监控相机获得的4000个车辆图像训练的级联Adaboost检测器。本研究仅考虑单个车辆姿势，具有轻微的变化（约30度最大姿势变化）。负集合包括在其中在场景中不存在车辆的选定时间从网络以及从监控视频获得的约1000个图像。在训练期间执行多个自助巡回以改善准确度，获得具有40个级的检测器。

图4描述了由一般检测器使用本发明的置信度量选择的高置信度样本的示例。等式（5）的置信度量C(x)使得能够在没有假警报的情况下实现用于训练的有用数据的自动收集，如下面将描述的。用被测试的其他置信度量未达到相同水平的准确度，诸如仅仅依赖于最后一级分类器的置信度，其集中于与类似于车辆的图案的辨别。

为了评估本发明的方法，从包含单个姿势的229个图像和374个车辆的特定监控相机（目标域）收集挑战性测试集。在不同的月份中捕捉图像，覆盖包括晴天和雨天的不同气象条件、诸如阴影和高光的不同照明效果以及诸如早晨和夜晚的不同时间段。另外，将测试集分成两个群组：高活动性（104个图像和217个车辆）和低活动性（125个图像和157个车辆）。

上文所述的自动数据收集技术被应用于同一相机的五小时（从2pm至7pm）视频序列，但是在用来捕捉测试图像的时段的不同天/月内。以这种方式，在没有任何假警报的情况下自动地收集4000个正训练样本。针对负数据，自动数据收集技术利用被用来训练一般检测器（约1000个图像）的同一组非车辆图像加上从目标域自动地收集的几千个负样本。使用从目标域收集的这些训练样本，学习20级级联Adaboost分类器。此检测器在本文中被称为特殊化或特定域对象检测器。

图5A和5B描述了根据本发明的实施例的低活动性（图5A）和拥挤场景（图5B）中的一般域检测器与目标域中的自动生成检测器的比较。应注意的是本发明的方法在低活动性和拥挤场景两者中都优于一般检测器。事实上，本发明的数据收集技术能够在高度拥挤的情形中捕捉数据。

本发明的方法的关键优点是在目标域中已获得改善的准确度，就效率而言具有显著的增益。本发明的特殊化检测器仅用20级实现了卓越的性能，其为一半检测器的级数的一半。

图6描述了根据本发明的实施例用于一般检测器和特殊化检测器的特征数对比级数的图。图6将一般检测器的初始20级的特征数目与特殊化检测器的相比较。特定域检测器与一般检测器相比在每个级中具有少得多的特征，并且因此明显更加高效。该一般检测器具有在图6的图中未示出的附加20个级。用于此计算增益的原因是目标域数据与一般域相比具有基本上较少的外观变化，因此要求用于辨别的少得多的特征。相比于趋向于在不改善效率的情况下保持原始分类器的复杂性的在线自适应方法，这是优点。

E.未来工作

本发明提供了一种用于学习监控视频中的特定域检测器的新型方法。本发明的方法依赖于一般域检测器且不采取来自目标域的标签。提供了用于级联对象检测器的新型置信度量，其被用来使用一般检测器而选择目标域中的高置信度示例。然后在短时间段内执行跟踪以收集新样本，其可以包括新信息，诸如遮挡、背景纹理以及对象姿势的轻微变化，其全部是目标域特定的。还可以自动地从目标域收集负样本。本发明的方法已经在复杂监控视频中的车辆检测的问题上得到证明，表明自动生成的特定域检测器不仅在准确度方面、而且在效率方面明显优于原始一般检测器，因为其要求少得多的特征计算。

未来工作可以调查通过背景减法而获得的高置信度轨迹的使用以用更多样化的数据来补充数据收集。尤其是在低活动性情形中，背景建模技术非常可靠地工作。从通过背景减法获得的轨迹片段和运动点两者提取样本可以在目标域中产生更丰富的数据收集机制，并且潜在地改善准确度。

本发明使用来自一天的自动收集数据来训练特定域检测器。在延长的时间段内收集更多的训练数据可以改善生成的分类器的稳健性。

F.计算机系统

图7图示出根据本发明的实施例的用于训练特殊对象检测器辨别出现在用于目标域的帧序列中的前景对象的计算机系统10。计算机系统10包括处理器11、耦合到处理器11的输入设备12、耦合到处理器11的输出设备13、耦合到处理器11的存储器14以及每个耦合到处理器11的存储设备15。输入设备12特别地可以是键盘、鼠标等。输出设备13特别地可以是打印机、绘图仪、计算机屏幕、磁带、可移动硬盘、软盘等。存储器14可以特别地是随机存取存储器（RAM）。存储设备15特别地可以是硬盘、软盘、磁带、光学储存器，诸如光盘（CD）或数字视频磁盘（DVD）等。存储设备15包括程序代码，其被配置成由处理器11经由存储器14来执行以执行用于训练特殊对象检测器以辨别出现在用于目标域的帧序列中的前景对象。

该程序代码包括软件程序，每个软件程序包括程序指令。软件程序包括高置信度检测程序21、对象跟踪程序22、学习引擎程序23、特殊对象检测器程序24以及负子窗口生成程序25。高置信度检测程序21检测用于目标域的帧序列的初始帧的高置信度子窗口中的前景对象。对象跟踪程序22跟踪在帧序列中的初始帧之后出现的多个后续帧的各正子窗口中的前景对象。学习引擎程序23训练特殊对象检测器以检测目标域中的前景对象。特殊对象检测器程序24在被训练之后检测目标域中的前景对象。负子窗口选择程序25选择随机选择的窗口的负子窗口以便检测目标域中的前景对象。

处理器11执行程序21-25。存储器14可以包括输入数据16。输入数据16包括程序21-25所需的输入数据。输出设备13显示来自程序21-25的输出。存储设备15可以表示有形计算机可读存储设备，或者替换地多个有形计算机可读存储设备，存储用于由处理器11或者替换地由多个处理器经由存储器14来执行的程序21-25。一般地，可以将程序21-25存储在单个存储设备上，或者可以通过以本领域中已知的任何方式分布在多个存储设备之间来存储。计算机系统10的计算机程序产品（或者，替换地，一件制品）可以包括存储设备15或多个存储设备，存储用于由处理器11或替换地由多个处理器经由存储器14来执行的程序21-25。“计算机可读存储设备”的范围不包括信号传播介质。

虽然图7示出了作为硬件和软件的特定配置的计算机系统10，但如本领域的技术人员将认识到的，可以出于上文结合图7的特定计算机系统10所述的目的利用硬件和软件的任何配置。例如，存储设备15可以表示用于由处理器11或者替换地由多个处理器经由存储器14来执行的一个或多个有形计算机可读存储设备。

G.实施方式

图8-12描述了可以由在图7中描述的软件程序21-25实现的本发明所提供的方法。

图8是描述根据本发明的实施例的用于训练特殊对象检测器辨别出现在用于目标域的帧序列中的前景对象的特殊对象检测器的方法的流程图。目标域是特定视场，特别地，诸如新相机的视场。该帧序列描述不均匀背景中的前景对象的运动。在序列中的最后一个帧之前的序列中的每个帧对应于比序列中的紧接着的下一个帧所对应的时间更早的时间。图8包括步骤31-37。

图13描述了根据本发明的实施例的在序列的帧101中所描述的背景106中具有前景对象107的帧101、102、103、...的序列100。在一个实施例中，帧101是初始帧，并且帧102、103、...是轨迹片段的后续帧。

在图8的步骤31中，高置信度检测器程序检测图13中的序列100的初始帧101的高置信度子窗口5中的前景对象107。

高置信度检测器程序21在输入图像上应用滑动子窗口，并且针对滑动子窗口的每个位置/比例，程序21通过使用具有如上文在小节A中描述的分类器的级联检测来检查特定位置是否具有对象。输出是一组边界框（即，被分类为例如包含汽车的紫装口的子窗口）。

返回图8，前景对象的检测包括计算高置信度子窗口包括前景对象的置信度量并确定该置信度量超过指定置信度阈值。图9-10在下面描述了置信度量的计算。

在步骤32中，对象跟踪程序22跟踪在帧序列中的初始帧之后出现的多个后续帧（即，上文所述图2中所示的轨迹片段）的各正子窗口中的前景对象，其中，厚度帧在指定的短时间段内，其是足够短的，使得背景的变化在该短时间段内是不太可能的。该短时间段是上下文相关的。例如，如果对象是汽车，则该短时间段可以对应于汽车以极限速度移动的小于10英尺、30英尺等的距离。在一个实施例中，指定短时间段内的轨迹片段的后续帧的数目可以是1个帧和10个帧或者在5个帧与20个帧之间等的任何帧数。

给定高置信度窗口的帧和检测边界框B1，对象跟踪程序22搜索边界框B2（在B1周围的半径中），其与前景对象的子图像（即，子窗口）在边界框B1中的出现匹配。针对轨迹片段的每个后续帧重复此过程，使得前景对象被“跟随”。根据定义，轨迹片段的后续帧中的子窗口是“正”子窗口，因为这些子窗口包括前景对象。上文所讨论的小节B1提供了关于使用轨迹片段以实现步骤32中的跟踪的附加信息。

在一个实施例中，轨迹片段的后续帧的被跟踪子窗口不经受其中计算置信度量并确定为超过指定置信度阈值的置信度量测试。

在一个实施例中，轨迹片段的后续帧中的一个或多个的各子窗口（例如，所有后续帧、初始帧之后的第一后续帧、初始帧之后的最后后续帧）经受其中计算置信度量并确定为超过指定置信度阈值的置信度量测试。

在步骤33中，学习引擎23接收在步骤32中跟踪的正子窗口，以便在训练特殊对象检测器程序24检测目标域中的前景对象时使用，其中，正子窗口包括初始帧的子窗口和多个后续帧的各子窗口。

在一个实施例中，执行步骤34和35。

在步骤34中，负子窗口生成程序25相对于前景对象生成负子窗口，如下面结合图11-12所讨论的。

在步骤35中，学习引擎23接收在步骤34中生成的负子窗口，以便在训练特色胡对象检测器程序24检测目标域中的前景对象时使用。

在步骤36中，学习引擎程序23使用接收到的正子窗口以及负子窗口（如果接收到的话）来训练特殊对象检测器程序24检测目标域中的前景对象。如上文在小节A中所述，被用于检测前景对象的分类器还可以用于由学习引擎程序23来训练特殊对象检测器。同样地，可以将本领域中已知的任何学习引擎用于此训练，诸如在P.Viola和M.Jones在International Journal of ComputerVision,2004，1、2、3、4中的Robust Real-time Object Detection中所述的学习引擎。

下面描述的图11和12提供了用于生成负子窗口的实施例。

在图8的步骤37中，特殊对象检测器程序24在已在步骤36中训练之后检测目标域中的前景对象。在一个实施例中，可以通过根据步骤36来训练而将高置信度检测器程序21变换成特殊对象检测器程序24。

在一个实施例中，特殊对象检测器程序24包括一组亮度阈值。通过用从目标域自动收集的数据再训练，特殊对象检测器程序24获取新的亮度阈值，其导致更稳健的检测。例如，前景对象可以是在柏油马路上移动的车辆，其是黑色的且不具有任何白色人行横道或马路标记（例如，箭头等）。经由对象跟踪程序22，从经由高置信度检测器程序21来确定高置信度子窗口的位置处，在不同的后续时间后续帧跟踪车辆。当车辆在并未如此高度地形成对比的街道区域上通过时，例如白色人行横道或马路标记（例如，箭头等），通过经由学习引擎程序23对特殊对象检测器程序24进行再训练来调整阈值，以将车辆与白色人行横道区别开，但是并未单独地基于人行横道作为前景对象而触发。在对对象检测器程序24进行再训练之前，原始亮度阈值可以落在黑色街道与更亮的车辆之间，但是在白色人行横道的亮度以下。因此，基于白色人行横道上的车辆的图像，由于特殊对象检测器程序24的再训练而自动地调整亮度阈值。根据特殊对象检测器程序24的再训练，增加亮度阈值，使得亮度阈值将不会触发单独地触发白色人行横道上的前景对象，而是替代地基于车辆来触发前景对象。

图9和10是描述根据本发明的实施例的用于计算用于高置信度子窗口的置信度量的方法的流程图。描述图8的步骤31中的置信度量的计算的图9包括步骤41-43。更详细地描述图9的步骤43的图10包括步骤51-54。上文在小节A中描述了根据图9和10实现的方法。

在图9的步骤41中，高置信度检测器程序21相对于初始帧中的高置信度子窗口选择多个相邻子窗口。每个相邻子窗口部分地而并非完全地与高置信度子窗口重叠且相邻子窗口彼此或相互不同。在一个实施例中，可以接收相邻子窗口的数目（M）作为到高置信度检测器程序21的输入，但是可以如下面结合图10的步骤54所述地改变。M的值至少为2。

在一个实施例中，随机地（例如，从根据均匀概率分布）选择相邻子窗口。在一个实施例中，相邻子窗口的随机选择可以经受约束。此类约束的示例是每个相邻子窗口必须至少与高置信度子窗口的面积的指定百分比（例如，80%、90%等）重叠。

图15A描述了根据本发明的实施例的处置帧中的高置信度子窗口。

在图9的步骤42中，高置信度检测器程序计算用于高置信度子窗口和用于每个相邻子窗口的置信度分数。置信度分数将N级分类器（N＞1）分别地用于高置信度子窗口中和每个相邻子窗口中的前景对象。

在步骤43中，高置信度检测器程序21根据用于高置信度子窗口和用于每个相邻子窗口的置信度分数的比较分析来计算置信度量C(x)。

更详细地描述了图9的比较分析步骤的图10包括步骤51-54。

在步骤51中，高置信度检测器程序21从由用于高置信度子窗口的置信度分数和用于每个相邻子窗口的置信度分数的联合形成的集合中选择K个最高置信度分数，其中，K是在1至M+1范围内的任何正整数，并且其中，M表示相对于高置信度子窗口的相邻子窗口的总数。

在步骤52中，高置信度检测器程序21选择K个置信度分数中的最小置信度分数。

在步骤53中，高置信度检测器程序21将最小自信度分数归一化成在指定范围（例如，0至1的范围）内，其中，最小置信度分数变成置信度量。

在步骤54中，高置信度检测器程序21确认置信度量超过指定置信度阈值。如果置信度量已被归一化至在从0至1的范围内，则在一个实施例中，置信度阈值可以在0.65至0.99的范围内，特别地，诸如0.65、0.70、0.75、0.80、0.85、0.90、0.95、0.99。

在一个实施例中，如果最初在步骤54中确定置信度量不超过指定置信度阈值，则可以迭代地增加（特别地，诸如在每次迭代中增加1）相邻子窗口的总数（M），重复图9的步骤41-43的执行，以在每次连续迭代中增加置信度量，直至该置信度量超过图10的步骤54中的指定置信阈值。

以下示例图示置信度量的计算。在本示例中，存在5个相邻子窗口X1、X2、X3、X4、X5（M＝5）和4个分类器级（N＝4）。假设用于第二相邻子窗口X2的4级分类器||fi(X2)||(i=1,2,3,4)是：

||f1(X2)||=1.6

||f2(X2)||=1.5

||f3(X2)||=1.7

||f4(X2)||=1.1

经由来自最小分类器和作为对应于最小分类器||fi(x)||的分类器级的深度“d”的等式（2）针对给定子窗口x确定分类器分数δ(x)。在本示例中，用于分类器i的权值wd与级水平成比例，并且是：w1＝0.25、w2＝0.50、w3＝0.75以及w4＝1.0。用于X2的最小分类器在级水平4处是||f4(X2)||=1.1，并且各权值是w4＝1.0。因此

δ(X2)=w4*||f4(X2)||=1.0*1.4=1.1

同样地向高置信度子窗口X和5个相邻子窗口X1、X2、X3、X4、X5应用等式（2），假设结果是：

δ(X)=1.4

δ(X1)=0.6

δ(X2)=1.1

δ(X3)=1.2

δ(X4)=0.4

δ(X5)=0.4

假设在等式（2）中K＝3，则topK＝{1.4,1.2,1.1}的集合，使得来自等式（4）的α(X)是1.1。然后在本示例中将α(X)归一化至0至1的指定范围以便计算C(X)。可以使用归一化的任何适用方法，诸如等式（5）的Platt缩放。在本示例中，使用线性缩放。假设在考虑X和X1-X5的情况下，的范围是[0.2，1.5]且注意到，从线性缩放将C(x)归一化为。

图11和12是描述根据本发明的实施例的负子窗口的生成的流程图。负子窗口被定义为不包含前景对象的任何面积或体积的子窗口。图11和12每个提供用于生成负子窗口的图8的步骤34的不同实施例。

图11包括在一个实施例中表示图8的步骤34的步骤61-62。

在步骤61中，负子窗口生成程序25随机地选择初始帧中的多个负子窗口（例如，根据均匀概率分布）。所述多个负子窗口中的每一个负子窗口具有超过高置信度子窗口的总面积的总面积。所述多个负子窗口中的每一个负子窗口位于小于与高置信度子窗口的指定距离阈值处。所述多个负子窗口中的每个负子窗口可以碰触高置信度子窗口或从其移位。所述多个负子窗口中的每个负子窗口不包括前景对象。

在步骤62中，负子窗口生成程序25将所述多个负子窗口中的每个负子窗口重新确定尺寸以变得与高置信度子窗口一致。在定义上，如果任何两个子窗口具有相同形状和尺寸且因此在被相互叠加地放置时重合，则两个子窗口是一致的。

在执行步骤62之后，程序控制分叉至图8的步骤35以向学习引擎馈送多个负子窗口以便连同正子窗口一起在训练特殊对象检测器检测目标域中的前景对象时使用。

图12包括在一个实施例中表示图8的步骤34的步骤71-73。

在步骤71中，负子窗口生成程序25随机地（例如，从均匀概率分布）选择关于目标域的一组窗口。

在步骤72中，负子窗口生成程序25随机地（例如，从均匀概率分布）选择该组窗口中的每个窗口中的负子窗口。该组窗口中的每个窗口中的负子窗口具有不同于高置信度子窗口的纵横比的纵横比。该组窗口中的每个窗口中的负子窗口不包括前景对象。

在步骤73中，负子窗口生成程序25将该组窗口中的每个窗口中的负子窗口变得与高置信度子窗口一致。

在执行步骤73之后，程序控制分叉至图8的步骤35以向学习引擎馈送多个负子窗口以便连同正子窗口一起在训练特殊对象检测器检测目标域中的前景对象时使用。

为了执行图8的方法，可以执行图11和12的实施例中的任一者或两者以在步骤图8的步骤35中向学习引擎馈送负子窗口。

虽然在本文中已出于举例说明的目的描述了本发明的特定实施例，但许多修改和变更对于本领域的技术人员而言将变得显而易见。相应地，所附权利要求意图涵盖落在本发明的主旨的范围内的所有此类修改和变更。

Claims

1.一种用于训练特殊对象检测器以辨别出现在用于目标域的帧序列中的前景对象的方法，该帧序列描述了不均匀背景中的前景对象的运动，在序列中的最后一个帧之前的序列中的每个帧对应于比序列中的紧接着下一个帧所对应的时间更早的时间，该方法包括：

计算机系统的一个或多个处理器检测序列的初始帧的高置信度子窗口中的前景对象，其中，检测前景对象包括计算高置信度子窗口包括前景对象的置信度量，并确定置信度量超过指定置信度阈值；

所述一个或多个处理器跟踪在帧序列中的初始帧之后出现的多个后续帧的各正子窗口中的前景对象，其中，该后续帧在指定短时间段内；以及

所述一个或多个处理器向学习引擎馈送正子窗口，以便在训练特殊对象检测器检测目标域中的前景对象时使用，其中，所述正子窗口包括初始帧的子窗口和所述多个后续帧的各子窗口。

2.如权利要求1所述的方法，其中，该方法还包括：

所述一个或多个处理器随机地选择初始帧中的多个负子窗口，其中，所述多个负子窗口中的每个负子窗口具有超过高置信度子窗口的总面积的总面积，其中，所述多个负子窗口中的每个负子窗口位于小于距高置信度子窗口的指定距离阈值处，并且其中，所述多个负子窗口中的每个负子窗口不包括前景对象；

所述一个或多个处理器将所述多个负子窗口中的每个负子窗口重新确定尺寸，以变得与高置信度子窗口一致；以及

所述一个或多个处理器向学习引擎馈送所述多个负子窗口以便连同正子窗口一起在训练特殊对象检测器检测目标域中的前景对象时使用。

3.如权利要求1所述的方法，其中，该方法还包括：

所述一个或多个处理器随机地选择关于目标域的一组窗口；

所述一个或多个处理器随机地选择该组窗口中的每个窗口中的负子窗口，其中，该组窗口中的每个窗口中的负子窗口具有不同于高置信度子窗口的纵横比的纵横比，并且其中，该组窗口中的每个窗口中的负子窗口不包括前景对象；

所述一个或多个处理器将该组窗口中的每个窗口中的每个子窗口重新确定尺寸，以变得与高置信度子窗口一致；以及

所述一个或多个处理器向该组窗口中的每个窗口中的负子窗口馈送学习引擎，以便连同正子窗口一起在训练特殊对象检测器检测目标域中的前景对象时使用。

4.如权利要求1所述的方法，其中，计算置信度量包括；

相对于初始帧中的高置信度子窗口选择多个相邻子窗口，其中，每个相邻子窗口部分地而不是完全地与高置信度子窗口重叠，并且其中，相邻子窗口相互不同；

计算用于高置信度子窗口和用于每个相邻子窗口的置信度分数，其中，用于高置信度子窗口中和每个相邻子窗口中的前景对象的置信度分数级分类器；以及

从用于高置信度子窗口和每个相邻子窗口的置信度分数的比较分析来计算置信度量。

5.如权利要求4所述的方法，其中，确定所述置信度量超过指定置信度阈值包括最初确定置信度量不超过指定置信度阈值，随后迭代地执行选择多个相邻子窗口，计算置信度分数以及计算置信度量，其中，所述多个相邻子窗口中的相邻子窗口的总数在每次迭代中增加，直至确定置信度量超过指定置信度阈值。

6.如权利要求4所述的方法，其中，从比较分析来计算置信度量包括：

从由用于高置信度子窗口的置信度分数和用于每个相邻子窗口的置信度分数的联合形成的集合中选择K个最高置信度分数，其中，K在1至M+1范围内，并且其中，M表示相对于高置信度子窗口的相邻子窗口的总数；

选择K个置信度分数的最小置信度分数；

将最小置信度分数归一化至在指定范围内，其中，所述最小置信度分数变成置信度量；以及

确认所述置信度量超过指定置信度阈值。

7.如权利要求6所述的方法，其中，K在2至M的范围内。

8.如权利要求4所述的方法，其中，每个相邻子窗口的面积以至少指定百分比与每个高置信度子窗口的面积重叠。

9.一种用于训练特殊对象检测器以辨别出现在用于目标域的帧序列中的前景对象的计算机系统，该帧序列描述了不均匀背景中的前景对象的运动，在序列中的最后一个帧之前的序列中的每个帧对应于比序列中的紧接着下一个帧所对应的时间更早的时间，该计算机系统包括：

一个或多个处理器；

计算机可读存储器；

计算机可读存储设备；

第一程序指令，用以检测序列的初始帧的高置信度子窗口中的前景对象，其中，检测前景对象包括计算高置信度子窗口包括前景对象的置信度量，并确定置信度量超过指定置信度阈值；

第二程序指令，用以跟踪在帧序列中的初始帧之后出现的多个后续帧的各正子窗口中的前景对象，其中，该后续帧在指定短时间段内；以及

第三程序指令，用以向学习引擎馈送正子窗口，以便在训练特殊对象检测器检测目标域中的前景对象时使用，其中，所述正子窗口包括初始帧的子窗口和所述多个后续帧的各子窗口，

其中，所述第一程序指令、所述第二程序指令以及所述第三程序指令被存储在计算机可读存储设备上，以便经由计算机可读存储器由一个或多个处理器来执行。

10.如权利要求9所述的计算机系统，其中，所述计算机系统还包括：

第四程序指令，用以随机地选择初始帧中的多个负子窗口，其中，所述多个负子窗口中的每个负子窗口具有超过高置信度子窗口的总面积的总面积，其中，所述多个负子窗口中的每个负子窗口位于小于距高置信度子窗口的指定距离阈值处，并且其中，所述多个负子窗口中的每个负子窗口不包括前景对象；

第五程序指令，用以将所述多个负子窗口中的每个负子窗口重新确定尺寸，以变得与高置信度子窗口一致；以及

第六程序指令，用以向学习引擎馈送所述多个负子窗口以便连同正子窗口一起在训练特殊对象检测器检测目标域中的前景对象时使用，

其中，所述第四程序指令、所述第五程序指令以及所述第六程序指令被存储在计算机可读存储设备上，以便经由计算机可读存储器由一个或多个处理器来执行。

11.如权利要求9所述的计算机系统，其中，所述计算机系统还包括：

第四程序指令，用以随机地选择关于目标域的一组窗口；

第五程序指令，用以随机地选择该组窗口中的每个窗口中的负子窗口，其中，该组窗口中的每个窗口中的负子窗口具有不同于高置信度子窗口的纵横比的纵横比，并且其中，该组窗口中的每个窗口中的负子窗口不包括前景对象；

第六程序指令，用以将该组窗口中的每个窗口中的负子窗口重新确定尺寸，以变得与高置信度子窗口一致；以及

第七程序指令，用以向该组窗口中的每个窗口中的负子窗口馈送学习引擎以便连同正子窗口一起在训练特殊对象检测器检测目标域中的前景对象时使用，

其中，所述第四程序指令、所述第五程序指令、所述第六程序指令以及第七程序指令被存储在计算机可读存储设备上，以便经由计算机可读存储器由一个或多个处理器来执行。

12.如权利要求9所述的计算机系统，其中，计算置信度量包括：

13.如权利要求12所述的计算机系统，其中，确定所述置信度量超过指定置信度阈值包括最初确定置信度量不超过指定置信度阈值，随后迭代地执行选择多个相邻子窗口，计算置信度分数以及计算置信度量，其中，所述多个相邻子窗口中的相邻子窗口的总数在每次迭代中增加，直至确定置信度量超过指定置信度阈值。

14.如权利要求12所述的计算机系统，其中，从比较分析来计算置信度量包括：

选择K个置信度分数的最小置信度分数；

确认所述置信度量超过指定置信度阈值。