CN105359186A

CN105359186A - 用于检测场景中的感兴趣的对象的系统

Info

Publication number: CN105359186A
Application number: CN201480032086.4A
Authority: CN
Inventors: T·N·蒙德亨克; A·A·弗洛雷斯; S·Y·陈; H·N·尼利三世; M·J·戴利
Original assignee: HRL Laboratories LLC
Current assignee: HRL Laboratories LLC
Priority date: 2013-06-04
Filing date: 2014-05-30
Publication date: 2016-02-24
Anticipated expiration: 2034-05-30
Also published as: US9378420B1; WO2014197331A1; EP3005297B1; EP3005297A4; EP3005297A1; CN105359186B

Abstract

本发明涉及一种用于检测场景中的感兴趣的对象的系统。该系统通过接收场景的图像帧并且从该图像帧提取特征来操作，该特征是描述符。该描述符被量化以生成PHOW特征。实现滑动窗口协议，以使窗口在图像上滑动，并且分析落入窗口内的PHOW特征。最后，该系统确定该PHOW特征是否表示感兴趣的对象，并且如果是的话，则指定该窗口作为检测到的感兴趣的对象在图像中的位置。

Description

用于检测场景中的感兴趣的对象的系统

政府权利

本发明是在美国政府的REFASPS项目(合同号为154318)下由政府支持做出的。政府对本发明具有特定权利。

相关申请的交叉参考

这是于2013年6月4日提交的标题为“Adevicefordetectingpedestriansinanoutdoorsceneutilizingan‘AnyAttention’mechanism”的美国临时申请No.61/830896的非临时专利申请。

本发明的背景

(1)技术领域

本发明涉及一种检测系统，并且更具体地，涉及一种用于在场景的图像中检测特定对象的系统。

(2)背景技术

视频系统和其它场景监测系统通常用于在特定场景中检测和识别对象。对象识别接收输入图像并输出图像类别，然而对象检测(也称为对象定位)接收输入图像并且输出在图像中的检测到特定对象类别的位置。例如，安全系统理想地检测人或物体在特定视场内的存在，并且通知相关人员该入侵。然而，如果动物(例如鹿)进入安全区域，则通知警报将被视为假警报。如可以想到的，假警报(或误报)趋向于使用户不敏感并且基本上使安全系统贬值。因此，希望具有一种可以提供快速和有效的对象检测的系统。现有系统趋向于在对象检测时具有一定程度的误差，如上所述，该误差使对象检测系统贬值。因此，一直需要一种用于有效地检测场景中的感兴趣的对象的系统。

发明内容

描述了一种用于检测场景中的感兴趣的对象的系统。该系统包括存储器和一个或更多个处理器。在存储器上编码有可执行指令，使得当执行指令时，所述一个或更多个处理器执行如本文中列出的操作。例如，系统接收场景的图像帧，并且从该图像帧提取特征，这些特征为描述符。描述符被量化以产生视觉词(PHOW)特征的金字塔直方图。实现滑动窗口协议，以使窗口在图像上滑动并且分析落入窗口内的PHOW特征。然后，该系统确定PHOW特征是否表示感兴趣的对象，并且如果是的话，则将窗口指定为检测到的感兴趣的对象在图像中的位置。

确定PHOW特征是否表示感兴趣的对象要求多个操作，诸如，将窗口细分为一组网格(bin)。在每个网格中编译PHOW特征的直方图，直方图表示在每个网格中发现的PHOW特征的计数。通过卡方同质内核变换(Chi-Squarehomogeneouskerneltransform)来变换直方图。然后，将变换后的直方图馈送到支持向量机(SVM)分类器，以针对每个特征生成SVM分数，该SVM分数表示图像中的对象与目标对象的相似度。利用正切S型曲线(sigmoid)压缩(squash)SVM分数，使得SVM分数的范围在-1.0至1.0。然后，SMV分数被收集到分数列表中。使用非极大值抑制缩减分数列表，以生成缩减的分数列表。最后，阈值被应用至缩减的分数列表，以消除低于预定阈值的任何分数并且生成对象分数，该对象分数表示场景中的特定对象是感兴趣的对象的可能性。

在另一方面，被提取的特征是密集尺度不变特征变换(SIFT)描述符(DSIFT)。

在又一方面，在提取特征时，以三个独立尺度提取特征。

在另一方面，量化描述符以生成PHOW特征还包括以下操作：针对每个描述符执行KD-树查询以识别与描述符最相似的学习的特征，所识别的特征为PHOW特征。

此外，在实现滑动窗口协议时，图像帧被划分成多个条带，使得每个条带内均是在图像帧中的该位置处能够运行的窗口。

此外，该系统实现显著性掩码，以确定所述图像帧中的用于利用所述滑动窗口协议进行处理的关注区域和所述图像帧中的将被所述滑动窗口协议忽略的区域。

最后，如上所述，本发明还包括计算机程序产品和计算机实现方法。计算机程序产品包括存储在非暂时性计算机可读介质上的可由具有一个或更多个处理器的计算机执行的计算机可读指令，使得当执行指令时，所述一个或多个处理器执行本文中列出的操作。另选地，该计算机实现方法包括以下动作：使计算机执行这种指令并且执行所产生的操作。

附图说明

本发明的目标、特征和优点将从结合参考以下附图的本发明的多个方面的以下详细描述变得明显，其中：

图1是示出根据本发明的原理的系统的组件的框图；

图2是具体实现根据本发明的原理的一方面的计算机程序产品的图解；

图3是示出当在自然场景中检测到两个人时的检测器系统的图像；

图4是示出根据本发明的原理的检测器系统的处理流程的框图；

图5是示出根据本发明的原理的同质内核变换的处理流程的框图；

图6是示出根据本发明的原理的多线程处理的图解；

图7是针对根据本发明的原理的多线程化的DSIFT组件的框图；

图8是针对根据本发明的原理的多线程化的描述符量化组件的框图；

图9是针对根据本发明的原理的多线程滑动窗口组件的框图；以及

图10是示出具有显著性掩码的关注模型的图解。

具体实施方式

本发明涉及一种检测系统，并且更具体地，涉及一种用于在场景的图像中检测特定对象的系统。提供以下描述以使本领域普通技术人员能够制造和使用本发明并且将其结合到特定应用的上下文中。各种修改以及在不同应用中的各种使用对于本领域技术人员将是显而易见的，并且在此定义的一般原理可以被应用至大范围的实施方式。因此，本发明不旨在限于所提供的实施方式，而是旨在将符合与本文中公开的原理和新特征一致的最广范围。

在以下详细描述中，阐述大量具体细节以便提供对本发明的更彻底理解。然而，对于本领域技术人员而言明显的是，本发明可以被实践，而不用必须限制于这些具体细节。在其它实例中，以框图形式而不是详细地示出公知结构和设备，以便避免使本发明模糊。

读者的注意力在于与本说明书同时提交并且与本说明书一起公开供公众检验的所有论文和文件，并且所有这样的论文和文件的内容在此通过参考被结合。在本说明书中公开的所有特征(包括任何所附权利要求、摘要和附图)都可以由用于相同、等效或类似目的的可选特征来代替，除非另外明确说明。因此，除非明确说明，否则所公开的每个特征仅是一系列等效或类似特征的一个示例。

此外，在不明确说明用于执行特定功能的“装置”或用于执行特定功能的“步骤”的权利要求中的任何元件都不被解释为如在35U.S.C.部分112的第6段中规定的“装置”或“步骤”条款。具体地，在权利要求中的“步骤”或“动作”的使用在本文中不旨在援引35U.S.C.112的第6段的规定。

在详细描述本发明之前，提供了本发明的多个主要方面的描述。接着，介绍给读者提供对本发明的一般理解。最后，提供本发明的具体细节以给出特定方面的理解。

(1)主要方面

本发明具有三个“主要”方面。第一方面是用于在场景中检测感兴趣的对象(例如，行人)的系统。该系统通常为计算机系统操作软件的形式或为“硬编码”指令集的形式。该系统可以被结合到提供不同功能的广泛多种设备中。第二个主要方面是通常为软件形式的使用数据处理系统(计算机)操作的方法。第三个主要方面是计算机程序产品。该计算机程序产品通常表示存储在非暂时性计算机可读介质(诸如，光存储设备(例如，光盘(CD)或数字多功能光盘(DVD))、或磁存储设备(诸如，软盘或磁带))中的计算机可读指令。另外，计算机可读介质的非限制性示例包括硬盘、只读存储器(ROM)、以及闪存型存储器。这些方面将在下面更详细地描述。

在图1中提供示出本发明的系统(即，计算机系统100)的示例的框图。计算机系统100被配置成执行计算、处理、操作和/或与程序或算法相关联的功能。在一方面，本文中论述的特定处理和步骤被实现为驻留在计算机可读存储器单元内并且由计算机系统100的一个或更多个处理器执行的一系列指令(例如，软件程序)。当被执行时，所述指令使得计算机系统100执行特定动作，并且表现出特定行为，如本文中所述的。

计算机系统100可以包括被配置成传输信息的地址/数据总线102。此外，一个或更多个数据处理单元(诸如，处理器104(或处理器))与地址/数据总线102连接。处理器104被配置成处理信息和指令。在一方面，处理器104是微处理器。另选地，处理器104可以是不同类型的处理器(诸如，并行处理器或现场可编程门阵列)。

计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102连接的易失性存储器单元106(例如，随机存取存储器(“RAM”)、静态RAM、动态RAM等)，其中，易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102连接的非易失性存储器单元108(例如，只读存储器(“RAM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪存等)，其中，非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地，计算机系统100可以诸如在“云”计算时执行从在线数据存储单元恢复的指令。在一方面，计算机系统100还可以包括与地址/数据总线102连接的一个或更多个接口(诸如，接口110)。一个或更多个接口被配置成使计算机系统100与其它电子设备和计算机系统交互。由一个或更多个接口实现的通信接口可以包括有线(例如，串行电缆、调制解调器、网络适配器等)和/或无线(例如，无线调制解调器、无线网络适配器等)通信技术。

在一方面，计算机系统100可以包括与地址/数据总线102连接的输入设备112，其中，输入设备112被配置成将信息和命令选择传输到处理器100。根据一方面，输入设备112是可以包括字母数字和/或功能键的字母数字输入设备(诸如，键盘)。另选地，输入设备112可以是除了字母数字输入设备之外的输入设备。在一方面，计算机系统100可以包括与地址/数据总线102连接的光标控制设备114，其中，光标控制设备114被配置成将用户输入信息和命令选择传输到处理器100。在一方面，使用诸如鼠标、跟踪球、跟踪板、光学跟踪设备、或触摸屏的设备来实现光标控制设备114。尽管如此，在一方面，诸如响应于特殊键和与输入设备112相关的键序列命令的使用，光标控制设备114经由来自输入设备112的输入被引导和/或激活。在可选方面，光标控制设备114被配置成通过语音命令被引导或操纵。

在一方面，计算机系统100还可以包括与地址/数据总线102连接的一个或更多个可选计算机可用数据存储设备(诸如，存储设备116)。存储设备116被配置成存储信息和/或计算机可执行指令。在一方面，存储设备116是诸如磁盘或光盘驱动器(例如，硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字多功能盘(“DVD”))的存储设备。根据一方面，显示设备118与地址/数据总线102连接，其中，显示设备118被配置成显示视频和/或图形。在一方面，显示设备118可以包括阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器、或适用于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其它显示设备。

本文中所提出的计算机系统100是根据一方面的示例性计算环境。然而，计算机系统100的非限制性示例不严格限于计算机系统。例如，一方面提供了计算机系统100表示可以根据本文中描述的多个方面使用的一种类型的数据处理分析。此外，其它计算系统也可以被实现。事实上，本技术的精神和范围不限于任何单一数据处理环境。因此，在一方面，使用由计算机执行的计算机可执行指令(诸如，程序模块)控制或实现本技术的多个方面的一个或更多个操作。在一种实现中，这种程序模块包括例程、程序、对象、组件和/或被配置成执行特定任务或实现特定抽象数据类型的数据结构。另外，一方面提供了通过利用一个或更多个分布式计算环境(诸如，由通过通信网络链接的远程处理设备执行任务，或诸如各种程序模块被定位在包括内存存储设备的本地和远程计算机存储介质两者中)来实现本技术的一个或更多个方面。

在图2中示出了具体实现本发明的一方面的计算机程序产品(即，存储设备)的示意图。计算机程序产品被描述为软盘200或光盘202(诸如，CD或DVD)。然而，如前面所提到的，计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质中的计算机可读指令。关于本发明使用的术语“指令”通常指示将在计算机上执行的一组操作，并且可以表示整个程序段或单独可分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码的”电子设备(即，编码到计算机芯片中的计算机操作)。“指令”可以被存储在计算机的存储器中或在计算机可读介质(诸如，软盘、CD-ROM、以及闪存驱动器)上。在任一事件中，在非暂时性计算机可读介质上对指令进行编码。

(2)介绍

本发明涉及一种用于在场景的图像中检测(多个)特定对象的检测器系统。该系统相对于现有技术显著改善了用于处理寻找对象的帧所花费的时间量并且另外显著改进了检测误差。根据本发明的原理的系统使用“任何关注”接口不可知地集成关注模型，“任何关注”接口允许该系统使用广泛多种关注设备。代码和线程化也被优化，以与“任何关注”接口一起工作。这些增强中的大多数被设计成提高检测设备的速度，并且包括：

a.用于扫描整个场景的“任何关注”准备就绪的滑动窗口协议；

b.新的增强内核变换；

c.以下多线程化：

i.KD-树查询(按特征矢量)；

ii.PHOW特征提取(按尺度)；以及

iii.“任何关注”准备就绪的滑动窗口执行(按条带)。

为了进一步理解，将在下面进一步详细地描述根据本发明的原理连同以上列出的每个方面的检测器。

(3)本发明的特定方面

(3.1)检测器系统

检测器系统被设计成检测特定类型的对象。因此，它被设计成发现自然场景中的事物(诸如车或人)。一般来说，检测器系统通过从图像提取特征并且然后分析这些特征以查看它们是否在统计上与对象的目标类型相似来工作。这通过使滑动窗口在场景之上移动来进行。在滑动窗口内，特征从图像中被提取并被测试，以查看它们是否与检测器被训练以检测的对象相匹配。例如，图3是示出当在自然场景304中检测到两个人300和302时的检测器系统的图像。框306示出了检测到它们的滑动窗口的轮廓。数字308示出检测器认为目标对象是人的程度的置信分数。在该非限制性示例中，分数的范围在-1.0至1.0。因此，该示例中的分数示出检测器关于其评估是相当肯定的(例如，0.890和0.826)。

检测器系统在多个阶段工作。例如，图4提供示出检测器系统的处理流程的框图。第一步骤(在接收到新图像帧400之后)是在整个图像之上提取特征。被提取的特征被称为密集尺度不变特征变换(SIFT)描述符(DSIFT)402。DSIFT描述符402从图像400中的梯度获得，并且给出在图像中的每个位置处路线像什么的思想。接着，使用任何合适的量化技术量化404DSIFT描述符，由Bosch,A.、Zisserman，A、&Munoz,X.在如ICCV(2007)中所提出的“Imageclassifcationusingrandomforestsandferns”中描述了该量化技术的非限制性示例，其通过参考被结合于此，如同在本文中完全阐述那样。量化404是每个描述符被分类为就像训练检测器系统的另一个描述符的处理。最直接地，该系统基本上识别每个DSIFT描述的样子。这通过使用KD-树查询406来进行。KD-树包含具有数千个先前学习的特征的词典。KD-树查询406查找该词典，以找到与特定描述符最像的所学习的样本。针对从图像400提取的所有DSIFT描述符402重复该处理。新的量化特征被称为PHOW特征(视觉词的金字塔直方图)。

一旦计算出在整个图像之上的所有PHOW特征，就重新检查PHOW特征，以查看它们是否描述目标对象。这通过使用滑动窗口来进行。使窗口在图像之上移动，并且将来自图像的落在窗口区域内的部分的所有PHOW特征聚集在一起并且进行分析。尽管该系统可以使用滑动窗口扫描整个场景，但是希望仅针对最显著的图像的检查区域使用选择性窗口以提高速度(如下进一步详细论述的)。由于针对与窗口的尺寸大致相同的对象训练分类器，所以用不同尺度的窗口执行滑动窗口协议，以便以许多不同尺寸检测目标。滑动窗口是我们从其提取特征的感兴趣的区域。例如，滑动窗口可能是尺寸为128×64个像素的区域。这在许多图像中仅足够容纳行人那么大。因为当窗口与图像中观察到的行人的尺寸相同时获得最佳结果，所以使用不同尺寸的窗口。

在滑动窗口协议期间，在每个窗口408(针对每个尺度410)内，该系统聚集关于PHOW特征的统计信息，并且尝试基于那些统计信息对窗口中的对象进行分类。在这样做时，该系统仔细检查每个描述符，如下。在每个窗口408中，该系统聚集描述符412(顺序地移动以获得描述符)。换句话说，每个窗口408收集在该窗口内的所有描述符。在窗口内的描述符被一次聚集。窗口408本身顺序地移动。每次窗口408移动时，它就在其位置上聚集特征。

如下面关于“任何关注”模块进一步详细描述的，关注组件416确定描述符412是否足够显著。在这样做时，使用显著性掩码414来确定描述符412是否足够显著，用于进一步处理。显著性掩码414是遮挡图像中的每特定掩码不充分显著的区域的掩码。如果描述符412不足够显著，则该系统移动到下一个描述符，并且重复显著性确定处理。如果描述符412足够显著，则该处理继续，如下所述。

窗口被细分为一组网格(bin)，描述符被分类418到网格中，如下。作为非限制性示例，窗口被细分为3×3网格集，类似于如由Lazebnik,S.、Schmid,C.和Ponce,J.在CVPR(2006)所提出的“BeyondBagsofFeatures:SpatialPyramidMatchingforRecognizingNaturalSceneCategories”中所描述的，其通过参考被结合于此，如同在本文中完全阐述那样。在每个网格中，直方图420由PHOW特征编译。在所有网格之上这样做创建9个独立直方图。直方图是在每个网格中找到每种类型的多少PHOW特征的计数。然后，直方图由卡方同质内核变换422来变换。卡方同质内核变换422通常被本领域技术人员理解，并且还被描述为VLFeat，并且可以经由在2014年5月15日获得的www.vlfeat.org/overview/svm.html的开源库被发现，并且其通过参考结合于此，如同在本文中完全阐述那样。

一旦直方图被变换，所有九个直方图就被馈送到支持向量机(SVM)分类器424以计算SVM分数426。SVM分类器是任何合适的SVM分类器，其非限制性示例包括如由Singer,Y.和Srebro,N.在ICML(2007)提出的论文“Pegasos:Primalestimatedsub-gradientsolverforSVM”中所描述的针对SVM的PEGASOS方法，其通过参考结合于此，如同在本文中完全阐述那样。

当变换与支持向量机分类器相结合时，它具有对直方图进行径向分类但具有灵活半径尺寸的效果。也就是说，SVM基于它们与哪个对象最相似而对直方图特征的集合进行分类。

SVM返回针对对象有多像目标对象(它被训练以识别的对象)的SVM分数426。如果该分数为负，则窗口中的对象与训练后的对象不像。该系统使用正切S型曲线(参见www.en.wikipedia.org/wiki/Sigmoid_function或者www.mathworks.com/help/nnet/ref/tansig.html)压缩SVM输出分数，使得其范围在-1.0到1.0。对于本领域的技术人员来说，正切S型曲线(sigmoid)还被已知为双曲正切S型曲线。一旦SVM分数被压缩，就针对由滑动窗口例程分析的所有窗口一起收集428分数。由于滑动窗口在每个图像中的数千个位置之上滑动，所以需要将分数列表(所收集的分数428)缩减到仅几个很可能的检测。使用非极大值抑制(NMS)430缩减分数列表。最简单地，NMS430消除了来自与具有更高分数的另一个窗口重叠的窗口的任何分数。所以，通过在场景中存在非常接近它的更好得分窗口的事实来消除很多低分数窗口。此外，应用阈值432，使得低于预定阈值的分数也被消除，得到被提供用于进一步处理的对象分数434。在非限制性示例中，阈值可以被设置为零，这是因为低于零的任何分数指示SVM将确定该窗口中的对象不是目标对象。系统通过将分数放在网格中添加对NMS的优化，这缩减了需要比较的分数化窗口的数量。

(3.2)增强的内核变换

同质内核变换表示主要瓶颈并且占用10％至20％之间的计算开销。因此，本发明相对于传统内核变换得到改善，使得通过优化同质内核变换，花费少于传统内核变换的总开销时间的量的一半。

内核变换组件422计算多个数学函数的近似值。它使用查找表并且进行快速微分(quickderivative)。正在讨论的数学函数是计算卡方内核变换的三个等式。通过输入值具有有限且已知的范围的事实，可以部分地进行近似。

如图5中所示，变换422提取输入500浮点值x的尾数m和指数p，如下：

(1)(m,p)＝frexp(x)，这将在下面进一步描述。

通过观察出输入到所述变换的大量数字是零做出一个主要改进。因此，该系统通过首先检查零，提供超过现有技术的实质计算提升。通过数学变换的规则，输入值零应当返回零。系统首先确定502输入值500是否为零，并且如果是，则用memset504将三个返回值设置为零，然后返回506。所返回的三个值是输入到变换的卡方内核变换。因此，变换返回三个值。这允许系统针对特定输入完全跳过变换处理。

如果输入值500不为零，则变换通过被称为快速frexp508的frexp的唯一版本继续，这消除了诸如次常态数检查的不必要浮点检查。快速frexp508的示例性C++源代码片段如下：

快速frexp508仅经由比特位移返回指数和尾数。然后，调节尾数(m)和指数(p)(初始化后的510)，如下：

(2)m_c＝2*sign(m)-1，其中，*表示乘法；

(3)p_c＝p-1

然后，将基本偏移计算到查找表中：

(4)v＝(p_c-p_min)*s_n。

这里，p_min是可能的最小指数，并且s_n是关于查找表的输入数的细分的数量。然后，系统从其最接近的估计值计算数量的偏移(o)，如下：

(5)o＝floor(m_c/S_size)

这里，S_size是细分的尺寸。然后，系统计算一些附加值以获得地址和最终值，如下：

(6)m_o＝m_c-S_size*o，

(7)v_o＝v+o。

然后，最终值512被计算为：

针对三个返回值中的每个计算最终值512。每个是存储器中的针对所计算的三个值中的一个的查找表，具有由偏移确定的到存储器中的值(其是值的阵列)。

总之，一组三个方程通过使用查找表近似。该处理考虑一个单一数并且将其插入所有三个等式中，并且产生一组三个输出数。输入数是直方图化的PHOW值。输出是被馈送到SVM的量化后的PHOW特征的直方图的卡方变换。

(3.3)多线程化

多线程化根据哪些组件被线程化的几种不同方法来完成。如图6所示，三个主要组件被多线程化，以利用目前位于大多数个人电脑上的多核中央处理单元(CPU)。通过在它们自己的线程中运行不同尺度操作，线程化DSIFT描述符402组件。描述符以每像素方式被量化404，这是因为每次量化都独立于所有其它量化。滑动窗口408线程化图像的每一条带，但是，由于如果关注图空出整行则一些条带进行非常少的处理，创建很多线程。以下更详细地描述这些方面中的每个方面。

(3.3.1)获得DSIFT描述符的多线程化

获得DSIFT描述符402的处理通过在它们各自的线程中运行不同尺度来增强。真正并行化是困难的，这是因为DSIFT特征处理在图像内的相互依存组件之上运行。然而，以三个独立尺度提取DSIFT特征。如图6所示，然后，在其自己的线程(例如，线程1、线程2和线程3)中运行每一个DSIFT特征。然后，父线程聚集结果。使用这种方法，DSIFT特征提取花费与最长尺度线程一样长来完成。

如上所述并且如图7所示，以三个不同尺度处理DSIFT描述符。每个尺度处理都独立地进行，这使得很容易将这些组件分离到它们自己的线程。这如下进行。当调用DSIFT创建方法时，它创建三个线程700、702和704，每个线程针对一个尺度。给予每个线程到输入图像的链接706和一组运行参数。然后启动每个线程，并且父线程708将等待所有三个线程(700、702和704)完成。一旦最后线程完成，父线程就将来自线程的结果聚集到DSIFT描述符710的全集中。该方法具有以最慢线程的速度运行和不同时支持多于三个作业的限制。然而，这种方法在程序上是简单的，并且将计算所需时间有效地缩减了一半。

(3.3.2)多线程化的量化描述符

DSIFT特征到PHOW特征的量化404几乎完全可以被线程化为平行组件。这是因为存在每个都必须被单独处理的DSIFT特征的大列表。因此，将所有DSIFT特征的列表简单地细分成N个相等尺寸的子集是有效的，其中，N为内核或虚拟内核的数量。这通过将开始和停止地址索引的kd-树查询的每个实例分配给所有DSIFT特征的列表来进行。然后，每个线程处理索引范围内的那些特征。然后，每个线程以针对每个线程保留的索引，将PHOW结果放入相同结果存储器中。

换句话说，如图8所示，线程化通过给每个线程分配DSIFT描述符800的相等尺寸的连续块来工作。如图6和图8两者所示，由于DSIFT描述符800被布置存储器中与输入场景图像对齐，这将每个图像帧的连续区域(即，作业参数801)有效地分配给每个线程，创建N个线程803(描述为图6中的4个线程)。然后，线程805开始在所分配的块上工作。父线程将等待所有线程完成。然后，每个线程805将使用KD-树804量化802其列表中的每个DSIFT特征800。这返回量化后的特征806的列表，量化后的特征806本质上是通过先前学习的特征词典分类的每个DSIFT特征。

因为每个DSIFT描述符800都独立于所有其它描述符被量化，描述符量化404被更理想地并行化。作为示例，如果存在4个内核，则系统将创建4个线程，并且将DSIFT描述符800的四分之一发送到将每个线程以被量化。每个DSIFT描述符的量化都花费可变时间，但是存在数千个描述符，并且处理时间变化基本是随机的。因此，这以与CPU内核的数量线性的方式有效缩减了处理时间。因此，希望将线程的数量限制为与CPU内核的数量相同。

(3.3.3)多线程化的滑动窗口

如图9所示，通过将每个窗口处理分配给不同线程，多线程化滑动窗口408组件。因此，目标是将所有独立窗口处理的集合划分为每个线程的集合。然而，由于使用关注机制来确定哪些窗口运行，导致并行化不是直截了当的。如图6所示，为了解决该难题，系统将图像600分成若干条带602。条带602的数量比内核的数量大得多。在每个条带内均是能够在该位置处运行的窗口。所以，线程被分配为运行在其条带内的所有滑动窗口。在一些情况下，由于关注机制，导致在条带内可能不存在窗口运行。这也是为什么存在比CPU内核多很多的条带线程的原因。

提供以下示例用于进一步理解。一种处理滑动窗口的理想方式是将图像帧划分成相等部分，并且使每个线程处理其自己的部分。应当明确地理解，以下实例仅用于说明目的，并且本发明不旨在也不应被解释为或以其他方式解释为限于此。因此例如，如果存在具有1024×768个像素的尺寸和4个CPU内核的输入帧，则行1至256将被分配给线程1，行257至512将被分配给线程2，行513到768将被分配给线程3，并且行769至1024将被分配给线程4。然而，图像的大部分被关注比特掩码遮挡(如下面关于显著性比特掩码进一步详细描述的)。所以，行1至800可能不是感兴趣的并且基本上被关闭。在该示例中，线程1至3将不做任何事，并且由于仅一个线程完成所有工作，所以将不存在处理速度增加。

如上所述，一种解决方案是创建大量条带。因此，不是如该示例中创建四个条带，而是可能希望创建32个更小的条带。这降低了仅一个条带将包含所有可处理窗口的可能性。然而，不希望所有32个线程都同时运行，因为这可能影响上下文切换效率。同样地，系统将限制同时运行的线程的数量，得到一些运行的线程和一些等待的线程。信号量(semaphore)被用于每次仅运行M个线程900。理想地，M是CPU内核的数量。因此，在条带上运行每个线程902。当每个条带线程完成时，它用信号通知904已完成，并且允许执行新线程。如果条带中没有区域要处理，则线程终止并且允许新线程启动。这具有保持CPU内核忙碌的效果。以这种方式进行的工作划分仍然不是线性的，并且在四核机器上提供例如两次至三次计算加速。

(3.4)滑动窗口的“任何关注”关注优化

通过使用关注机制以使得系统避免处理场景中的特定位置，获得处理时间和检测精度的显著性能。根据所使用的关注机制的类型，滑动窗口组件可以忽略75％至94％之间的场景。所忽略的场景的量直接对应于通过不处理那些部分所节省的时间。再次参照图4，示出关注组件416被标记为“显著？”。

关注组件416使用显著性比特掩码414来操作。显著性比特掩码414是例如16×16比特掩码(或任何其它希望尺寸的掩码)。然后，该显著性比特掩码414被映射到当前场景图像，在输入场景帧中创建例如256个关注区域。

换言之，如果在图像中(在该区域中)存在显著特征，则显著性将趋于更高并且在特定关注区域中超过阈值。所以，例如，如果在绿色森林中存在红色停止标记，则对于人类观察者来说很容易立即认出该停止标记。系统仿真该现象。具有唯一或鲜明颜色、形状或者运动的一些事物是显著的。所以在该示例中，红色停止标记将突出表示为显著的并且超过阈值。单调背景将趋向于被忽略并被设置为0。当人们移动时，他们将变得显著。因此，人的运动使得它们显著并且趋向于超过阈值。一些不重要的事物可以是显著的。然而，这是可以的。显著性仅用于使需要应用对象识别的范围变窄。

如果显著性比特掩码被设置为1，则场景的该部分是显著的并且将由滑动窗口处理。如果显著性比特掩码被设置为0，则场景的该部分被忽略并且滑动窗口处理将行进到下一个位置。进行该处理的一种可能方式是通过阈值化显著性图，并且如果显著性超过特定阈值，则将位置标记为1，并且否则标记为0。

注意，窗口被确定为在窗口的中心位置处叠加显著性比特掩码414。因此，系统主要对滑动窗口的中心处的显著性比特掩码414的值感兴趣。

例如，图10示出了如何应用显著性比特掩码的示例。关注组件416操作被用于基于显著特征(诸如颜色、线方向和运动)确定对场景1000的哪些部分感兴趣的关注模型。场景1000的不感兴趣的部分被16×16显著性比特掩码1002遮挡。只有不被遮挡的部分(在图10中的框区域内示出)将由检测系统进一步处理。因此，如图4所示，检测系统将继续处理场景的感兴趣部分，直到它提供针对场景中的任何特定的感兴趣的对象的置信度分数434为止。置信度(或对象)分数434表示场景中的特定对象是感兴趣的对象的可能性。

Claims

1.一种用于检测场景中的感兴趣的对象的系统，所述系统包括：

存储器和一个或更多个处理器，在所述存储器上编码有可执行指令，使得当执行所述指令时，所述一个或更多个处理器执行以下操作：

接收场景的图像帧；

从所述图像帧提取特征，所述特征是描述符；

量化所述描述符，以生成视觉词(PHOW)特征的金字塔直方图；

实现滑动窗口协议，以使窗口在所述图像上滑动并且分析落入所述窗口内的PHOW特征；以及

确定所述PHOW特征是否表示所述感兴趣的对象，并且如果是的话，则将所述窗口指定为检测到的感兴趣的对象在所述图像中的位置。

2.根据权利要求1所述的系统，其中，确定所述PHOW特征是否表示所述感兴趣的对象还包括以下操作：

将所述窗口细分为一组网格；

在每个网格中编译所述PHOW特征的直方图，所述直方图表示在每个网格中发现的PHOW特征的计数；

通过卡方同质内核变换来变换所述直方图；

将变换后的直方图馈送到支持向量机(SVM)分类器，以针对每个特征生成SVM分数，所述SVM分数表示所述图像中的对象与目标对象的相似度；

用正切S型曲线压缩所述SVM分数，使得所述SVM分数的范围在-1.0至1.0；

将所述SMV分数收集到分数列表中；

使用非极大值抑制缩减所述分数列表，以生成缩减的分数列表；以及

将阈值应用至所述缩减的分数列表，以消除低于预定阈值的任何分数并且生成对象分数，所述对象分数表示所述场景中的特定对象是所述感兴趣的对象的可能性。

3.根据权利要求2所述的系统，其中，被提取的特征是密集尺度不变特征变换(SIFT)描述符(DSIFT)；

其中，在提取所述特征时，以三个独立尺度提取所述特征；

其中，量化所述描述符以生成PHOW特征还包括以下操作：

针对每个描述符，执行KD-树查询以识别与所述描述符最相似的学习的特征，所识别的特征是所述PHOW特征；

其中，在实现所述滑动窗口协议时，所述图像帧被划分成多个条带，使得每个条带内均是在所述图像帧中的该位置处能够运行的窗口；并且

还包括以下操作：实现显著性掩码，以确定所述图像帧中的用于利用所述滑动窗口协议进行处理的关注区域和所述图像帧中的将被所述滑动窗口协议忽略的区域。

4.根据权利要求1所述的系统，其中，被提取的所述特征是密集尺度不变特征变换(SIFT)描述符(DSIFT)。

5.根据权利要求1所述的系统，其中，在提取所述特征时，以三个独立尺度提取所述特征。

6.根据权利要求1所述的系统，其中，量化所述描述符以生成PHOW特征还包括以下操作：

针对每个描述符，执行KD-树查询以识别与所述描述符最相似的学习的特征，所识别的特征是所述PHOW特征。

7.根据权利要求1所述的系统，其中，在实现所述滑动窗口协议时，所述图像帧被划分成多个条带，使得每个条带内均是在所述图像帧中的该位置处能够运行的窗口。

8.根据权利要求1所述的系统，还包括以下操作：实现显著性掩码，以确定所述图像帧中的用于利用所述滑动窗口协议进行处理的关注区域和所述图像帧中的将被所述滑动窗口协议忽略的区域。

9.一种用于检测场景中的感兴趣的对象的计算机程序产品，所述计算机程序产品包括：

非暂时性计算机可读介质，在所述非暂时性计算机可读介质上编码有可执行指令，使得当由一个或更多个处理器执行所述指令时，所述一个或更多个处理器执行以下操作：

接收场景的图像帧；

从所述图像帧提取特征，所述特征是描述符；

量化所述描述符，以生成视觉词(PHOW)特征的金字塔直方图；

10.根据权利要求9所述的计算机程序产品，其中，确定所述PHOW特征是否表示所述感兴趣的对象还包括以下操作：

将所述窗口细分为一组网格；

通过卡方同质内核变换来变换所述直方图；

将所述SMV分数收集到分数列表中；

11.根据权利要求10所述的计算机程序产品，其中，被提取的特征是密集尺度不变特征变换(SIFT)描述符(DSIFT)；

其中，在提取所述特征时，以三个独立尺度提取所述特征；

其中，量化所述描述符以生成PHOW特征还包括以下操作：

12.根据权利要求9所述的计算机程序产品，其中，被提取的所述特征是密集尺度不变特征变换(SIFT)描述符(DSIFT)。

13.根据权利要求9所述的计算机程序产品，其中，在提取所述特征时，以三个独立尺度提取所述特征。

14.根据权利要求9所述的计算机程序产品，其中，量化所述描述符以生成PHOW特征的所述操作还包括以下操作：

15.根据权利要求9所述的计算机程序产品，其中，在实现所述滑动窗口协议时，所述图像帧被划分成多个条带，使得每个条带内均是在所述图像帧中的该位置处能够运行的窗口。

16.根据权利要求9所述的计算机程序产品，其中，还包括以下操作：实现显著性掩码，以确定所述图像帧中的用于利用所述滑动窗口协议进行处理的关注区域和所述图像帧中的将被所述滑动窗口协议忽略的区域。

17.一种用于检测场景中的感兴趣的对象的计算机实现方法，所述方法包括以下动作：使一个或更多个处理器执行在非暂时性计算机可读介质上编码的指令，使得当执行所述指令时，所述一个或更多个处理器执行以下操作：

接收场景的图像帧；

从所述图像帧提取特征，所述特征是描述符；

量化所述描述符，以生成视觉词(PHOW)特征的金字塔直方图；

18.根据权利要求17所述的计算机实现方法，其中，确定所述PHOW特征是否表示所述感兴趣的对象还包括以下操作：

将所述窗口细分为一组网格；

通过卡方同质内核变换来变换所述直方图；

将所述SMV分数收集到分数列表中；

19.根据权利要求18所述的计算机实现方法，其中，被提取的特征是密集尺度不变特征变换(SIFT)描述符(DSIFT)；

其中，在提取所述特征时，以三个独立尺度提取所述特征；

其中，量化所述描述符以生成PHOW特征还包括以下操作：

20.根据权利要求17所述的计算机实现方法，其中，被提取的所述特征是密集尺度不变特征变换(SIFT)描述符(DSIFT)。

21.根据权利要求17所述的计算机实现方法，其中，在提取所述特征时，以三个独立尺度提取所述特征。

22.根据权利要求17所述的计算机实现方法，其中，量化所述描述符以生成PHOW特征还包括以下操作：

23.根据权利要求17所述的计算机实现方法，其中，在实现所述滑动窗口协议时，所述图像帧被划分成多个条带，使得每个条带内均是在所述图像帧中的该位置处能够运行的窗口。

24.根据权利要求17所述的计算机实现方法，还包括以下操作：实现显著性掩码，以确定所述图像帧中的用于利用所述滑动窗口协议进行处理的关注区域和所述图像帧中的将被所述滑动窗口协议忽略的区域。