CN105338236A

CN105338236A - 用于在图像中检测物体的方法、装置以及电子设备

Info

Publication number: CN105338236A
Application number: CN201410372776.6A
Authority: CN
Inventors: 姜晓恒
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2014-07-25
Filing date: 2014-07-25
Publication date: 2016-02-17
Also published as: WO2016012655A1

Abstract

本发明实施方式公开了一种用于在图像中检测物体的方法、装置以及电子设备。该方法包括：将第一滑动窗口定位到图像中的起始采样点处；重复以下步骤：根据该第一滑动窗口中的像素点对物体的预定特征的匹配程度，计算响应值；依赖于该响应值，按照预定滑动方向确定该图像中的下一采样点的位置；将该第一滑动窗口定位到该下一采样点处；直至完成对该图像的遍历，从而获得包括该第一滑动窗口定位过的采样点的第一组采样点；以及根据该第一组采样点及其相应的响应值，检测物体的位置。该方法能够有效缩短图像搜索的时间，提高计算机视觉的效率。

Description

用于在图像中检测物体的方法、装置以及电子设备

技术领域

本发明实施方式涉及计算机视觉领域，具体而言，涉及一种用于在图像中检测物体的方法、装置以及电子设备。

背景技术

随着移动设备的普及，移动交互和服务正在促进移动解决方案和移动用户界面的计算机视觉的更广泛使用。例如，手势跟踪与识别正在成为可穿戴设备的重要交互推动者。

然而，与人类视觉相比，计算机视觉的效率仍然很低，其还不能满足许多实际移动使用情况的需要。其原因主要在于以下两个方面：

(1)物体检测非常耗时。与人类视觉总是可以以并行方式搜索视野中的物体不同，大多数现有计算机视觉是以遍历方式搜索物体。该遍历方式因为待检测物体的大小和方向都是未知的所以常采用穷举搜索。

(2)目标识别是不稳定的并且识别错误经常发生。因为待检测物体的大小和方向通常都是未知的，所以如果该物体的模型刚好将物体漏检则不能正确识别物体。

由此可见，一方面，大量穷举搜索中很多计算是冗余的，采用穷举搜索非常耗时。另一方面，虽然用不同尺度和方向训练了很多模型，但是总有一些尺度和方向不能被覆盖，这使得在穷举搜索中将一些物体漏检。

发明内容

为了克服现有技术中的上述问题，本发明实施方式旨在提供一种用于在图像中检测物体的方法、装置以及电子设备。

根据本发明的一个方面，提供一种用于在图像中检测物体的方法。所述方法包括：将第一滑动窗口定位到所述图像中的起始采样点处；重复以下步骤：根据所述第一滑动窗口中的像素点对所述物体的预定特征的匹配程度，计算响应值；依赖于所述响应值，按照预定滑动方向确定所述图像中的下一采样点的位置；将所述第一滑动窗口定位到所述下一采样点处；直至完成对所述图像的遍历，从而获得包括所述第一滑动窗口定位过的采样点的第一组采样点；以及根据所述第一组采样点及其相应的响应值，检测所述物体的位置。根据本发明的这一方面的实施方式还包括相应的计算机程序产品和电子设备。

根据本发明的另一个方面，提供一种用于在图像中检测物体的装置。所述装置包括：起始采样点定位单元，用于将第一滑动窗口定位到所述图像中的起始采样点处；重复执行单元，用于重复执行以下单元：响应值计算单元，用于根据所述第一滑动窗口中的像素点对所述物体的预定特征的匹配程度，计算响应值；下一采样点位置确定单元，用于依赖于所述响应值，按照预定滑动方向确定所述图像中的下一采样点的位置；下一采样点定位单元，用于将所述第一滑动窗口定位到所述下一采样点处；直至完成对所述图像的遍历，从而获得包括所述第一滑动窗口定位过的采样点的第一组采样点；以及物体位置确定单元，用于根据所述第一组采样点及其相应的响应值，检测所述物体的位置。

通过下文描述将会理解，根据本发明实施方式，通过引入自适应搜索，即，依赖于响应值从而确定该图像中的下一采样点的位置，能够聚焦于较大概率存在物体的区域，避免对不存在该物体的区域的冗余计算，从而能够有效缩短图像搜索的时间，提高计算机视觉的效率。

附图说明

通过参考附图阅读下文的详细描述，本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1是本发明实施方式可实现于其中的电子设备的示意图；

图2是根据本发明实施方式的用于在图像中检测物体的方法的流程图；

图3是根据本发明实施方式的依赖于响应值从而确定该图像中的下一采样点的位置的示意图；

图4是根据本发明实施方式的通过不同数目的滑动窗口来覆盖物体的预定尺度范围的第一示意图；

图5是根据本发明实施方式的通过不同数目的滑动窗口来覆盖物体的预定尺度范围的第二示意图；

图6是根据本发明实施方式的通过不同数目的滑动窗口来覆盖物体的预定尺度范围的第三示意图；

图7是根据本发明实施方式的对于给定响应值v0的通过最少数目的滑动窗口来覆盖物体的预定尺度范围的示意图；

图8是根据本发明实施方式的对于给定响应值v0＝0.5的具有9个滑动窗口的具体实例的示意图；

图9是根据本发明实施方式的在80×80像素点的滑动窗口接近相同大小的物体时响应值等于0.5的位置分布的示意图；

图10是根据本发明实施方式的插入中间滑动窗口的示意图；

图11是根据本发明实施方式的用于在图像中检测物体的装置的示意图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考附图中示出的若干示例性实施方式来描述本发明的原理和精神。应当理解，描述这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

正如上文概述以及下面将要详细讨论的，本发明实施方式提供了一种用于在图像中检测物体的方法。其中，所使用的术语“图像”既包括例如照片的静态图像，也包括例如照相机取景框中的动态图像。并且其中，所使用的术语“物体”既可以包括例如汽车的具有特定颜色、特定形状的物体，也可以包括例如人脸的具有非特定颜色、非特定形状的物体。以及其中，该物体(如果有)可以位于该图像中的任何位置。

首先参考图1，其示出了本发明实施方式可实现于其中的电子设备100的示意图。根据本发明实施方式，电子设备100可以是移动电话之类的便携式电子设备。然而，应当理解，这仅仅是示例性和非限制性的。其他的用户设备类型也可以容易地采取本发明实施方式，诸如个人数字助理(PDA)、寻呼机、移动计算机、移动TV、游戏装置、膝上式计算机、照相机、视频照相机、GPS设备和其他类型的语音和文本通信系统。

电子设备100可以具有通信功能。为此，如图1所示，电子设备100可以包括一个或多个可操作与发射器114和接收器116通信的天线112。电子设备100还包括至少一个处理器控制器120。应当理解，控制器120包括实现电子设备100的所有功能所需要的电路。例如，控制器120可以包括数字信号处理器设备、微处理器设备、A/D转换器、D/A转换器以及其他支持电路。电子设备100的控制和信号处理功能根据这些设备各自的能力分配。电子设备100还可以包括用户接口，例如可以包括振铃器122、扬声器124、扩音器126、显示器或取景器128以及小键盘130，所有以上设备都耦合至控制器120。

特别地，电子设备100包括用于捕获静态图像和/或动态图像的相机136、摄像头或类似的图像获取装置。电子设备也可以只有另外一个相机、摄像头或类似的图像获取装置。

另外，电子设备100还包括电池134，诸如振动电池组，用于向操作电子设备100所需要的各种电路供电，并且备选地提供机械振动作为可检测的输出。电子设备100还包括用户识别模块(UIM)138。UIM138通常是具有内置的处理器的存储器设备。UIM138可以例如包括订户识别模块(SIM)、通用集成电路卡(UICC)、通用用户识别模块(USIM)或可移动用户识别模块(R-UIM)等等。UIM138可以包括根据本发明实施方式的卡连接检测装置。

电子设备100还包括存储设备。例如，电子设备100可以包括易失性存储器140，例如，包括高速缓存区域中的用于临时存储数据的易失性随机存取存储器(RAM)。电子设备100还可以包括其他的可以是嵌入的或可移动的非易失性存储器142。非易失性存储器142可以附加地或备选地例如包括EEPROM和闪存等。存储器可以存储多个信息片段中的任意项和电子设备100使用的数据程序等，以便实现电子设备100的功能，例如后文参照图2至图11中的一个或多个来举例说明的功能。

应当理解，图1中的结构框图仅仅示出用于说明目的，并非旨在限制本发明的范围。在某些情况下，某些组件可以按照具体需要而增加或者减少。

图2是根据本发明实施方式的用于在图像中检测物体的方法200的流程图。可以理解，方法200可以由上文参考图1描述的电子设备100执行，例如由控制器120来执行。为讨论方便，在下文描述中将参考图1所示的电子设备100来描述方法200。

方法200开始之后，在步骤S202，将第一滑动窗口定位到图像中的起始采样点处。

接下来，方法200进行到步骤S204，重复以下步骤：

根据该第一滑动窗口中的像素点对该物体的预定特征的匹配程度，计算响应值；

依赖于该响应值，按照预定滑动方向确定该图像中的下一采样点的位置；

将该第一滑动窗口定位到该下一采样点处；

直至完成对该图像的遍历，从而获得包括该第一滑动窗口定位过的采样点的第一组采样点。

方法200继而进行到步骤S206，根据该第一组采样点及其相应的响应值，检测该物体的位置。

如上述在背景技术部分讨论的，现有技术中，等间隔穷举搜索的使用造成计算机视觉的效率相对较低。本领域技术人员可以理解，所谓等间隔穷举搜索是指在图像中以固定间隔(其可以是图像中的像素点间隔的整数倍，例如3倍)来布置许多点，将滑动窗口分别定位到这些点中的每个点处以计算响应值，该响应值指示有该滑动窗口中的像素点对物体的预定特征的匹配程度。显然，在等间隔穷举搜索中，大量定位、计算步骤是冗余的，这使得采用穷举搜索非常耗时。

为了解决这一问题，本发明实施方式引入了自适应搜索，即，依赖于响应值从而确定该图像中的下一采样点的位置。具体来说，在响应值随着滑动窗口中的像素点对物体的预定特征的匹配程度的提高而相应增大的实施方式中，如果在当前采样点处所计算的响应值相对较小，则说明该物体在该滑动窗口中或者附近的概率相对较小。因此，如果确定下一采样点的位置使得该下一采样点与当前采样点之间的距离相对较远，也就是说排除该下一采样点与当前采样点之间的一些点，避免在这些点上的定位、计算步骤，则能够有效缩短图像搜索的时间，从而提高计算机视觉的效率。

图3是根据本发明实施方式的依赖于响应值从而确定该图像中的下一采样点的位置的示意图。在图3中，存在有以固定间隔布置的许多黑点，这些黑点可以被理解为对应于现有技术中的以固定间隔来布置的许多采样点。假设所有采样点(以带圈黑点所图示)都选自这些黑点中(虽然这一假设这并不是必须的)。下面以采样点1、2和3为例对上述实施方式进行详细说明。

假设采样点1与物体距离很远，因此第一滑动窗口中的像素点与该物体的预定特征匹配较差，所计算的响应值很小。根据本发明实施方式，由于响应值很小，因此确定下一采样点2的位置使得该下一采样点2与当前采样点1之间的距离相对较远，也就是说被排除的该下一采样点2与当前采样点1之间的像素点(其中包括3个黑点)数目较多。

然后，假设采样点2在物体附近，因此第一滑动窗口中的像素点与该物体的预定特征匹配较好，所计算的响应值增大。根据本发明实施方式，由于响应值增大，因此确定下一采样点3的位置使得该下一采样点3与当前采样点2之间的距离缩短，也就是说被排除的该下一采样点3与当前采样点2之间的像素点(其中包括2个黑点)数目较少。

备选地或附加地，在某些实施例中，将重复上述步骤直至完成对该图像的遍历，即，重复上述步骤直至该图像中的所有像素点都已经被遍历，也就是说，该所有像素点都已经由该第一滑动窗口进行定位或者按照如下排除方式进行排除，其中该排除方式包括将所有像素点中的位于当前采样点与下一采样点之间的像素点排除。

备选地或附加地，在某些实施例中，为了进一步缩短图像搜索的时间，还可以进一步排除更多像素点，例如，排除采样点1所在的虚线框中的所有像素点(其中包括15个黑点)，其中该虚线框是包括该采样点1所在的行和列的、以采样点1与采样点2之间的距离作为边长的正方形框之内最大正方形框。在这一实施方式中，与采用现有技术中的等间距穷举搜索方法而将在图3中采样216(即18×12)次相比较，采用本发明实施方式的方法仅仅需要在图3中采样34次，从而大幅缩短图像搜索的时间，提高了计算机视觉的效率。

需要说明的是，虽然图3中描述了各个采样点的采样次序(即，滑动窗口的预定滑动方向)是从左到右、从上到下，但是本发明实施方式并不限于这样。其他任何滑动方向例如从右到左、从下到上都是可能的，其都应当纳入本发明的保护范围。

还需要说明的是，本发明实施方式并不限于被应用至图中仅仅存在一个物体的情形。换句话说，即便图中存在多个物体，本发明实施方式也能高效、精确进行确定。例如，在图3中，除了在中心处可能存在一个物体之外，在右下角还可能存在另一个物体。

另外，本领域技术人员能够理解，其它实施方式例如响应值随着滑动窗口中的像素点对物体的预定特征的匹配程度的提高而相应减小的实施方式同样是可行的。在这一实施方式中，如果在当前采样点处所计算的响应值相对较大，则说明该物体在该滑动窗口中或者附近的概率相对较小。因此，如果确定下一采样点的位置使得该下一采样点与当前采样点之间的距离相对较远，也就是说排除更多的该下一采样点与当前采样点之间的一些点的定位、计算步骤，则能够有效缩短图像搜索的时间，从而提高计算机视觉的效率。

备选地或附加地，在某些实施例中，可以预先设置多个响应值区间，其中每个响应值区间分别对应一个预定距离，并且响应值大的响应值区间所对应的预定距离小于响应值小的响应值区间所对应的预定距离。在这一实施方式中，可以通过如下方式来实现依赖于响应值确定下一采样点的位置，在该方式中，首先在上述预先设置的多个响应值区间确定该响应值所属的响应值区间，其次确定该响应值区间所对应的预定距离，最后按照所确定的预定距离来确定下一采样点的位置，即，使得该下一采样点与当前采样点之间的距离等于或者近似于所确定的预定距离。在这一实施方式中，在确定下一采样点的过程中，借助于响应值区间与预定距离的对应关系，无需对响应值进行过多换算，而只需要例如通过查表即可确定该距离，从而能够有效缩短下一采样点的定位时间，进而有效缩短图像搜索的时间，提高计算机视觉的效率。

备选地或附加地，在某些实施例中，根据第一组采样点及其相应的响应值，检测物体的位置可以实现如下：确定这些响应值中的大于预定响应值阈值的响应值；从该第一组采样点中确定一个或多个采样点，其中该一个或多个采样点具有该大于预定响应值阈值的响应值；以及确定物体位于该一个或多个采样点处并且该物体的尺度等于或近似于与该第一滑动窗口的尺度。本领域技术人员能够理解，这一实施方式虽然采用一个给定尺度的滑动窗口，但是，滑动窗口的尺度是可以根据需要变化的。

为了适应不同大小的物体，本发明实施方式可以利用上述的滑动方法、采用不同大小的滑动窗口先后在图像中进行滑动。具体来说，这些不同大小的滑动窗口可以分别基于第一滑动窗口的大小而按照预定比例进行设置，其中该预定比例被设置为使得能够用最少数目的滑动窗口来覆盖物体的预定尺度范围，其中该预定尺度范围通常是在图像处理前对该图像中的物体预估的尺度范围，例如从30像素点至300像素点。下面结合图4至图6对如何设置该预定比例进行详细说明。

图4至图6是通过不同数目的滑动窗口来覆盖物体的预定尺度范围的示意图，其中横坐标x代表物体尺度，纵坐标y代表响应值。由此可见，为了覆盖相同的预定尺度范围，图4采用了7个滑动窗口(分别标记为M1至M7)，图5采用了3个滑动窗口(相应标记为M1、M4和M7)，图6采用了2个滑动窗口(相应标记为M1和M5)。

显然，在图4中，由于在相邻两个滑动窗口(例如M1和M2)之间存在有大量重叠，因此存在有大量冗余的定位、计算步骤，从而非常耗时。然而另一方面，在图6中，由于在仅有的两个滑动窗口M1和M5之间存在未被覆盖的尺度范围，因此有可能造成将恰好处于该没被覆盖的尺度范围之中的物体漏检。由此可见，当图5采用适当的3个滑动窗口M1、M4和M7来覆盖预定尺度范围(即最少数目的滑动窗口来覆盖该预定尺度范围)时，既不会存在有大量重叠，又不会存在未被覆盖的尺度范围，从而能够从整体上兼顾计算机视觉的高效与避免将物体漏检。

然后，可以根据该多组采样点及其相应的响应值，检测物体的位置。具体来说，其可以实现如下：确定这些响应值中的大于预定响应值阈值的响应值；从该多组采样点中确定第二组采样点，其中该第二组采样点包括具有该大于预定响应值阈值的响应值的一个或多个采样点；以及确定物体位于该一个或多个采样点处并且该物体的尺度等于或近似于与该第二组采样点关联的滑动窗口的尺度。

进而，为了进一步避免将物体漏检，本发明实施方式还提出在上述按照预定比例所设置的相邻的两个滑动窗口之间插入中间滑动窗口。同时，为了仍然保证计算机视觉的高效，这一实施方式既不采用该中间滑动窗口进行穷举搜索，也不采用该中间滑动窗口进行本发明实施方式所提出的自适应搜索(如果进行自适应搜索则将不满足上述所提及的最少数目)，而是采用该中间滑动窗口仅仅在从前述已经确定的多组采样点中所选择的采样点处进行定位和计算响应值。这样，可以在几乎不增加图像搜索时间的情况下进一步避免将物体漏检。下面通过步骤(1)至步骤(4)来详细描述这一实施方式。

步骤(1)，从多组采样点中选择响应值大于预定响应值阈值的采样点，其中该采样点是已经由多个滑动窗口中的相应滑动窗口定位过的采样点并且具有相应响应值。其中，该预定响应值阈值被设置用来过滤多组采样点所对应的响应值中的较小值，以避免在这些较小值所对应的采样点处都采用上述插入中间滑动窗口的方式，从而避免增加过多图像搜索时间。

步骤(2)，将中间滑动窗口定位到该采样点处，其中该中间滑动窗口的尺度与上述相应滑动窗口的尺度的比例与上述预定比例相比较更接近于1。本领域技术人员可以理解，考虑到上述多个滑动窗口的尺度既可能逐步增大而设置也可能逐步减小而设置，即，上述预定比例既可能大于1也可能小于1，因此，在这一实施方式中，将该中间滑动窗口的尺度与上述相应滑动窗口的尺度的比例与上述预定比例相比较而言设置为更接近于1，能够更清楚地限定上述中间滑动窗口以避免不必要的混淆。

步骤(3)，确定根据该中间滑动窗口中的像素点对预定特征的匹配程度所计算的响应值与上述相应响应值中的最大响应值。

步骤(4)，确定物体位于该采样点处并且该物体的尺度等于或近似于上述最大响应值所对应的滑动窗口的尺度。

本领域技术人员可以理解，步骤(3)至步骤(4)所描述的技术内容在上述本发明实施方式中已有所描述，所以在此处不再赘述。

现在，返回上述对如何设置该预定比例的说明，其中该预定比例可以进一步被设置为使得上述多个滑动窗口中的两个相邻的滑动窗口覆盖该物体的相应尺度范围时相互重叠的部分所对应的响应值能够大于或等于上述步骤(2)中所使用的预定响应值阈值，以便让上述多个滑动窗口中的两个相邻滑动窗口能够完全覆盖相应的物体尺度(即，两个滑动窗口之间不会遗漏掉一部分物体尺度)，如图7所示。

为了实现对上述本发明实施方式的透彻理解，本发明还提供了一个用于在图像中检测人脸的具体实例，下面对其进行详细描述。

(1)确定滑动窗口的数目

在这一实例中，假设所估计的人脸在图像中的尺度范围在20像素点至240像素点之间，因此，对于现有方法中通常采用的滑动窗口比例1.2，至少需要14个不同尺度的滑动窗口(20×1.2^L≤240，L≤log_1.212)。

然而，参见图8，对于本发明实施方式所提出的方法，将采用滑动窗口比例1.34以得到9个不同尺度的滑动窗口，其与使用14个不同尺度的滑动窗口的现有方法具有相同的尺度范围。其中，该比例1.34是基于下述最低风险条件而预先计算得到的，例如，假设利用分类器确定一个预定响应值阈值以便得到将物体漏检最低风险，因此与该最低风险所对应地能够在图7中确定V₀＝0.5，进而能够根据v₀＝0.5来确定该比例1.34以及采用9个不同尺度的滑动窗口。

(2)通过自适应搜索创建对应于滑动窗口的置信图

对于上述步骤(1)中所确定的不同尺度的滑动窗口，本实例分别对每个滑动窗口应用上述自适应搜索来创建对应于该滑动窗口的置信图，从而获得多组采样点及其相应的采样值。

首先，确定水平步长Δx和竖直步长Δy。具体来说，这些步长可以基于相应滑动窗口的尺度S、在所计算的响应值等于上述预定响应值阈值时所确定的等值线之中的最大内接矩形的尺度P₁、P₂。例如：

Δx＝P1×S×0.5(像素点)

Δy＝P2×S×0.5(像素点)

其中，参见图9，P1和P2通过XY平面上从响应值分布得到的伸出的等值线来确定。在图9中，椭圆是与相应滑动窗口的尺度(例如80×80像素点)对应的等值线，该等值线采用等于预定响应值阈值的值，即v0＝0.5。基于此，在测试集上进行统计就能够计算出P1＝0.09375并且P2＝0.0625。然后，能够计算出Δx并将其取整得到3，计算出Δy并将其取整得到2。

基于上述确定的步长，能够建立下表1所示的多个响应值区间和预定距离的对应关系。例如，对于在x方向中的响应值区间0.15至0.3内的响应值，可以采用3倍步长，即9个像素点。

表1响应值区间和预定距离的对应关系表

响应值(RV)	0＜RV≤0.15	0.15＜RV≤0.3	0.3＜RV≤0.5	RV＞0.5
					x方向的距离	4×Δx	3×Δx	2×Δx	Δx
y方向的距离	4×Δy	3×Δy	2×Δy	Δy

然后，对于上述滑动窗口，如果在起始采样点处计算得到的响应值是RV(i，j)，其中(i，j)代表该点的坐标，则基于该响应值来决定下一采样点在哪，即，响应值越小，下一采样点将更远；与此相反，响应值越大，例如大于上述v0，则下一采样点将更近或者紧邻当前采样点。如果用该滑动窗口将本发明实施方式所提出的自适应搜索跨越整个图像实施，则可以建立对于该滑动窗口的置信图，该置信图可以如图3所示。

(3)插入中间滑动窗口

首先，从上述多组采样点中选择响应值大于预定响应值阈值的采样点，如图10所示，假设该采样点(i，j)为滑动窗口S中的黑点，并且所对应的响应值为RV(S，i，j)。其中，该预定响应值阈值小于v0，在本实例中为0.4。

然后，插入中间滑动窗口S-1，该中间滑动窗口S-1具有更大的尺度，并且该尺度与上述滑动窗口S的尺度的比例与上述比例1.2相比较来说更接近于1，例如等于1.1。进而，将该中间滑动窗口S-1定位到该采样点(i，j)处并且计算得到所对应的响应值为RV(S-1，i，j)。

假设RV(S-1，i，j)＞RV(S，i，j)，则根据本发明实施方式，将确定在该采样点(i，j)处存在有物体并且该物体的尺度等于或近似于该中间滑动窗口S-1的尺度。

类似地，还可以插入尺度更小的中间滑动窗口S+1，其处理方式与上述中间滑动窗口S-1类似，在此不再赘述。

另外，还可以将滑动窗口S定位到与采样点(i，j)相邻的像素点(i，k)处并且计算得到所对应的响应值为RV(S，i，k)。并且，假设RV(S，i，k)＞RV(S，i，j)，则根据本发明实施方式，将确定在该像素点(i，k)处存在有物体并且该物体的尺度等于或近似于该滑动窗口S的尺度。

(4)性能比较

通过将现有技术中的等间距穷举搜索与本发明实施方式中的自适应搜索分别应用于包括130幅图像的MIT+CMU正面测试组，能够得出以下对比结果：

表2穷举搜索与自适应搜索的结果对比表

从表2中可以看出，在相似检测性能的情况下，自适应搜索需要使用滑动窗口的次数仅仅是穷举搜索的大约四分之一，并且运行时间比穷举搜索快2.83倍。

综上，本发明具有如下优点：首先，在尺度域中，采用最少数目的滑动窗口以减少用于使用滑动窗口的次数。其次，在空间域中，对于每个滑动窗口，采用自适应搜索以减少采样点的数目。最后，在空间域和尺度域中都执行更好的评估以确保性能。因此，本发明实施方式能够聚焦于较大概率存在物体的区域，避免对不存在该物体的区域的冗余计算，从而能够有效缩短图像搜索的时间，提高计算机视觉的效率。

现在参考图11，其示出了根据本发明实施方式的用于在图像中检测物体的装置1100的示意图。如图11所示，根据本发明实施方式，装置1100包括：起始采样点定位单元1102，用于将第一滑动窗口定位到所述图像中的起始采样点处；重复执行单元1104，用于重复执行以下单元：响应值计算单元11042，用于根据所述第一滑动窗口中的像素点对所述物体的预定特征的匹配程度，计算响应值；下一采样点位置确定单元11044，用于依赖于所述响应值，按照预定滑动方向确定所述图像中的下一采样点的位置；下一采样点定位单元11046，用于将所述第一滑动窗口定位到所述下一采样点处；直至完成对所述图像的遍历，从而获得包括所述第一滑动窗口定位过的采样点的第一组采样点；以及物体位置确定单元1106，用于根据所述第一组采样点及其相应的响应值，检测所述物体的位置。

在某些实施例中，所述下一采样点位置确定单元11044包括用于确定所述下一采样点的位置使得在所述响应值越小的情况下所述下一采样点与当前采样点之间的距离越远。

在某些实施例中，所述下一采样点位置确定单元11044还包括：响应值区间确定单元，用于在多个响应值区间中确定所述响应值所属的响应值区间，其中所述多个响应值区间中的每个响应值区间分别对应一个预定距离，其中响应值大的响应值区间所对应的预定距离小于响应值小的响应值区间所对应的预定距离；以及距离确定单元，用于确定所述下一采样点的位置使得所述下一采样点与所述当前采样点之间的距离是所述响应值所属的响应值区间所对应的预定距离。

在某些实施例中，所述响应值大的响应值区间所对应的预定距离是步长的第一整数倍，所述响应值小的响应值区间所对应的预定距离是所述步长的第二整数倍，所述第一整数小于所述第二整数。

在某些实施例中，所述步长根据如下两项中的至少一项确定：所述第一滑动窗口的尺度、在所计算的响应值等于预定响应值阈值时所确定的等值线之中的最大内接矩形的尺度。

在某些实施例中，所述步长是所述图像中的相邻像素点之间的距离的整数倍。

在某些实施例中，所述预定滑动方向是从左到右、从上到下。

在某些实施例中，完成对所述图像的遍历包括所述图像中的所有像素点都已经由所述第一滑动窗口进行定位或者按照如下排除方式进行排除，其中所述排除方式包括将所述所有像素点中的位于当前采样点与所述下一采样点之间的像素点排除。

在某些实施例中，所述排除方式还包括将所述所有像素点中的位于所述当前采样点所属的如下正方形框中的像素点排除，其中所述正方形框是包括所述当前采样点所在的行和列的、以所述当前采样点与所述下一采样点之间的距离作为边长的正方形框之内最大正方形框。

在某些实施例中，所述响应值计算单元11042用于计算所述响应值使得在所述第一滑动窗口中的与所述预定特征匹配的像素点越多的情况下所述响应值越大。

在某些实施例中，所述下一采样点确定单元11044还用于确定其他组采样点，从而获得包括所述第一组采样点的多组采样点，其中所述多组采样点中的每组采样点包括多个滑动窗口中的一个相应滑动窗口定位过的采样点，其中所述多个滑动窗口中的每个滑动窗口的尺度分别基于所述第一滑动窗口的尺度、按照预定比例设置；所述物体位置确定单元1106还用于根据所述多组采样点及其相应的响应值，检测所述物体的位置。

在某些实施例中，所述预定比例被设置为使得能够用最少数目的所述多个滑动窗口来覆盖所述物体的预定尺度范围。

在某些实施例中，所述预定比例被设置为使得能够用最少数目的所述多个滑动窗口来覆盖所述物体的预定尺度范围包括：所述预定比例被设置为使得所述多个滑动窗口中的任何两个相邻的滑动窗口覆盖所述物体的相应尺度范围时相互重叠的部分所对应的响应值能够大于或等于预定响应值阈值。

在某些实施例中，所述装置还包括；采样点选择单元，用于从所述多组采样点中选择响应值大于预定响应值阈值的采样点，其中所述采样点是已经由所述多个滑动窗口中的相应滑动窗口定位过的采样点并且具有相应响应值；采样点定位单元，用于将中间滑动窗口定位到所述采样点处，其中所述中间滑动窗口的尺度与所述相应滑动窗口的尺度的比例与所述预定比例相比较更接近于1；以及响应值比较单元，用于将根据所述中间滑动窗口中的像素点对所述预定特征的匹配程度所计算的响应值与所述相应响应值进行比较；所述物体位置确定单元1106还用于确定所述物体位于所述采样点处并且所述物体的尺度等于或近似于所述中间滑动窗口的尺度。

应当理解，上文参考图1-图10所描述的各个特征同样适用于装置1100，因而没有赘述。

并且，应当理解，为清晰起见，在图11中没有示出装置1100某些可选单元和子单元。此外，这里所用的术语“单元”既可以是硬件模块，也可以是软件单元模块。相应地，装置1100可以通过各种方式实现。例如，在某些实施例中，装置1100可以部分或者全部利用软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，装置1100可以部分或者全部基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本发明的范围在此方面不受限制。

仅出于说明目的，上文已经描述了本发明的若干示例性实施例。本发明的实施例可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。特别地，上文参考图1和图10描述的方法均可被实施为一种用于在图像中检测物体的计算机程序产品，所述计算机程序产品可以被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行时使机器执行方法200的步骤。

本领域的普通技术人员可以理解上述的系统和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明系统可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

应当注意，尽管在上文详细描述中提及了装置的若干单元，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施例，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。类似地，尽管在附图中以特定顺序描述了本发明方法的操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施例描述了本发明，但是应该理解，本发明并不限于所公开的具体实施例。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种用于在图像中检测物体的方法，包括：

将第一滑动窗口定位到所述图像中的起始采样点处；

重复以下步骤：

根据所述第一滑动窗口中的像素点对所述物体的预定特征的匹配程度，计算响应值；

依赖于所述响应值，按照预定滑动方向确定所述图像中的下一采样点的位置；

将所述第一滑动窗口定位到所述下一采样点处；

直至完成对所述图像的遍历，从而获得包括所述第一滑动窗口定位过的采样点的第一组采样点；以及

根据所述第一组采样点及其相应的响应值，检测所述物体的位置。

2.根据权利要求1所述的方法，其中依赖于所述响应值，按照预定滑动方向确定所述图像中的下一采样点的位置包括：确定所述下一采样点的位置使得在所述响应值越小的情况下所述下一采样点与当前采样点之间的距离越远。

3.根据权利要求2所述的方法，其中依赖于所述响应值，按照预定滑动方向确定所述图像中的下一采样点的位置还包括：

在多个响应值区间中确定所述响应值所属的响应值区间，其中所述多个响应值区间中的每个响应值区间分别对应一个预定距离，其中响应值大的响应值区间所对应的预定距离小于响应值小的响应值区间所对应的预定距离；以及

确定所述下一采样点的位置使得所述下一采样点与所述当前采样点之间的距离是所述响应值所属的响应值区间所对应的预定距离。

4.根据权利要求3所述的方法，其中所述响应值大的响应值区间所对应的预定距离是步长的第一整数倍，所述响应值小的响应值区间所对应的预定距离是所述步长的第二整数倍，所述第一整数小于所述第二整数。

5.根据权利要求4所述的方法，其中所述步长根据如下两项中的至少一项确定：所述第一滑动窗口的尺度、在所计算的响应值等于预定响应值阈值时所确定的等值线之中的最大内接矩形的尺度。

6.根据权利要求4所述的方法，其中所述步长是所述图像中的相邻像素点之间的距离的整数倍。

7.根据权利要求1所述的方法，其中所述预定滑动方向是从左到右、从上到下。

8.根据权利要求1所述的方法，其中完成对所述图像的遍历包括所述图像中的所有像素点都已经由所述第一滑动窗口进行定位或者按照如下排除方式进行排除，其中所述排除方式包括将所述所有像素点中的位于当前采样点与所述下一采样点之间的像素点排除。

9.根据权利要求8所述的方法，其中所述排除方式还包括将所述所有像素点中的位于所述当前采样点所属的如下正方形框中的像素点排除，其中所述正方形框是包括所述当前采样点所在的行和列的、以所述当前采样点与所述下一采样点之间的距离作为边长的正方形框之内最大正方形框。

10.根据权利要求1所述的方法，其中根据所述第一滑动窗口中的像素点对所述预定特征的匹配程度，计算所述响应值包括：计算所述响应值使得在所述第一滑动窗口中的与所述预定特征匹配的像素点越多的情况下所述响应值越大。

11.根据权利要求1至10中任一项所述的方法，在确定所述第一组采样点之后，还包括：

确定其他组采样点，从而获得包括所述第一组采样点的多组采样点，其中所述多组采样点中的每组采样点包括多个滑动窗口中的一个相应滑动窗口定位过的采样点，其中所述多个滑动窗口中的每个滑动窗口的尺度分别基于所述第一滑动窗口的尺度、按照预定比例设置；

根据所述多组采样点及其相应的响应值，检测所述物体的位置。

12.根据权利要求11所述的方法，其中所述预定比例被设置为使得能够用最少数目的所述多个滑动窗口来覆盖所述物体的预定尺度范围。

13.根据权利要求12所述的方法，其中所述预定比例被设置为使得能够用最少数目的所述多个滑动窗口来覆盖所述物体的预定尺度范围包括：所述预定比例被设置为使得所述多个滑动窗口中的任何两个相邻的滑动窗口覆盖所述物体的相应尺度范围时相互重叠的部分所对应的响应值能够大于或等于预定响应值阈值。

14.根据权利要求11所述的方法，根据所述多组采样点及其相应的响应值，检测所述物体的位置包括：

从所述多组采样点中选择响应值大于预定响应值阈值的采样点，其中所述采样点是已经由所述多个滑动窗口中的相应滑动窗口定位过的采样点并且具有相应响应值；

将中间滑动窗口定位到所述采样点处，其中所述中间滑动窗口的尺度与所述相应滑动窗口的尺度的比例与所述预定比例相比较更接近于1；

将根据所述中间滑动窗口中的像素点对所述预定特征的匹配程度所计算的响应值与所述相应响应值进行比较；以及

确定所述物体位于所述采样点处并且所述物体的尺度等于或近似于所述中间滑动窗口的尺度。

15.一种用于在图像中检测物体的装置，包括：

起始采样点定位单元，用于将第一滑动窗口定位到所述图像中的起始采样点处；

重复执行单元，用于重复执行以下单元：

响应值计算单元，用于根据所述第一滑动窗口中的像素点对所述物体的预定特征的匹配程度，计算响应值；

下一采样点位置确定单元，用于依赖于所述响应值，按照预定滑动方向确定所述图像中的下一采样点的位置；

下一采样点定位单元，用于将所述第一滑动窗口定位到所述下一采样点处；

物体位置确定单元，用于根据所述第一组采样点及其相应的响应值，检测所述物体的位置。

16.根据权利要求15所述的装置，其中所述下一采样点位置确定单元包括用于确定所述下一采样点的位置使得在所述响应值越小的情况下所述下一采样点与当前采样点之间的距离越远。

17.根据权利要求16所述的装置，其中所述下一采样点位置确定单元还包括：

响应值区间确定单元，用于在多个响应值区间中确定所述响应值所属的响应值区间，其中所述多个响应值区间中的每个响应值区间分别对应一个预定距离，其中响应值大的响应值区间所对应的预定距离小于响应值小的响应值区间所对应的预定距离；以及

距离确定单元，用于确定所述下一采样点的位置使得所述下一采样点与所述当前采样点之间的距离是所述响应值所属的响应值区间所对应的预定距离。

18.根据权利要求17所述的装置，其中所述响应值大的响应值区间所对应的预定距离是步长的第一整数倍，所述响应值小的响应值区间所对应的预定距离是所述步长的第二整数倍，所述第一整数小于所述第二整数。

19.根据权利要求18所述的装置，其中所述步长根据如下两项中的至少一项确定：所述第一滑动窗口的尺度、在所计算的响应值等于预定响应值阈值时所确定的等值线之中的最大内接矩形的尺度。

20.根据权利要求18所述的装置，其中所述步长是所述图像中的相邻像素点之间的距离的整数倍。

21.根据权利要求15所述的装置，其中所述预定滑动方向是从左到右、从上到下。

22.根据权利要求15所述的装置，其中完成对所述图像的遍历包括所述图像中的所有像素点都已经由所述第一滑动窗口进行定位或者按照如下排除方式进行排除，其中所述排除方式包括将所述所有像素点中的位于当前采样点与所述下一采样点之间的像素点排除。

23.根据权利要求22所述的装置，其中所述排除方式还包括将所述所有像素点中的位于所述当前采样点所属的如下正方形框中的像素点排除，其中所述正方形框是包括所述当前采样点所在的行和列的、以所述当前采样点与所述下一采样点之间的距离作为边长的正方形框之内最大正方形框。

24.根据权利要求15所述的装置，其中所述响应值计算单元用于计算所述响应值使得在所述第一滑动窗口中的与所述预定特征匹配的像素点越多的情况下所述响应值越大。

25.根据权利要求15至24中任一项所述的装置，其中

所述下一采样点确定单元还用于确定其他组采样点，从而获得包括所述第一组采样点的多组采样点，其中所述多组采样点中的每组采样点包括多个滑动窗口中的一个相应滑动窗口定位过的采样点，其中所述多个滑动窗口中的每个滑动窗口的尺度分别基于所述第一滑动窗口的尺度、按照预定比例设置；

所述物体位置确定单元还用于根据所述多组采样点及其相应的响应值，检测所述物体的位置。

26.根据权利要求25所述的装置，其中所述预定比例被设置为使得能够用最少数目的所述多个滑动窗口来覆盖所述物体的预定尺度范围。

27.根据权利要求26所述的装置，其中所述预定比例被设置为使得能够用最少数目的所述多个滑动窗口来覆盖所述物体的预定尺度范围包括：所述预定比例被设置为使得所述多个滑动窗口中的任何两个相邻的滑动窗口覆盖所述物体的相应尺度范围时相互重叠的部分所对应的响应值能够大于或等于预定响应值阈值。

28.根据权利要求25所述的装置，还包括；

采样点选择单元，用于从所述多组采样点中选择响应值大于预定响应值阈值的采样点，其中所述采样点是已经由所述多个滑动窗口中的相应滑动窗口定位过的采样点并且具有相应响应值；

采样点定位单元，用于将中间滑动窗口定位到所述采样点处，其中所述中间滑动窗口的尺度与所述相应滑动窗口的尺度的比例与所述预定比例相比较更接近于1；以及

响应值比较单元，用于将根据所述中间滑动窗口中的像素点对所述预定特征的匹配程度所计算的响应值与所述相应响应值进行比较；

所述物体位置确定单元还用于确定所述物体位于所述采样点处并且所述物体的尺度等于或近似于所述中间滑动窗口的尺度。

29.一种用于在图像中检测物体的计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令，所述机器可执行指令在被执行时使机器执行根据权利要求1至14中任一项所述的方法的步骤。

30.一种电子设备，包括存储器和处理器，所述处理器被配置为执行根据权利要求1至14中任一项所述的方法。