CN102803991A

CN102803991A - 物体检测设备

Info

Publication number: CN102803991A
Application number: CN2010800244415A
Authority: CN
Inventors: 藤吉弘亘
Original assignee: NANO OPTONICS ENERGY Inc
Current assignee: NANO OPTONICS ENERGY Inc; Chubu University Educational Foundation
Priority date: 2009-06-03
Filing date: 2010-06-02
Publication date: 2012-11-28
Anticipated expiration: 2030-06-02
Also published as: JP5500559B2; CN102803991B; US20120076361A1; JPWO2010140613A1; US8611604B2; WO2010140613A1

Abstract

提供了一种改善从输入图像检测物体的物体检测设备中的物体检测精度的装置。获得表示到被摄物体的距离的深度信息，获得其中各个像素的信息是深度信息的深度图像。通过按照指定的深度，对包含在局部区域中的各个像素的深度信息分组，生成深度图像的多个局部区域中的每个局部区域的深度直方图。计算在深度图像中的不同位置的两个特定区域的两个深度直方图之间的相似度作为特征。具有高确信度的训练用深度图像被定义为正例，具有低确信度的训练用深度图像被定义为负例，构成适合于对正例和负例分类的分类器，并利用所述分类器，根据所述特征，在深度图像中检测作为检测目标的物体。

Description

物体检测设备

技术领域

本发明涉及根据输入图像检测物体的物体检测设备。

背景技术

近年来，一直期待实现可理解在诸如办公室、住宅和公共设施之类空间内的人的意图并帮助其行动的技术。为了使按照这种方式监测人的技术得以实现，必须知道人在所述空间内的什么地方，因此实现先进的人体检测已成为课题。

已经对人体检测进行了许多研究并提出了各种方法。使用已知的可见光照相机的人体检测方法包括多种方法，其中涉及利用局部特征和提升(boosting)的统计训练。还提出了使用梯度方向直方图(HOG)特征的人体检测方法，所述梯度方向直方图(HOG)特征是以直方图的形式，把亮度梯度方向表示成局部特征的特征(例如，参见非专利文献1)。

[引用列表]

[非专利文献]

[NPL1]

Yuji Yamauchi，Hironobu Fujiyoshi，Bon-Woo Hwang，TakeoKanade，“People Detection Based on Co-occurrence of Appearance andSpatiotemporal Features”，Meeting on Image Recognition andUnderstanding(MIRU2007)，第1492-1497页，2007。

发明内容

不过，就使用亮度梯度方向的已知人体检测方法来说，难以相对于复杂背景辨别人体形状，从而检测精度有时降低。在发生人体形状重叠和遮挡的情况下，也难以辨别人体形状，从而检测精度有时降低。此外，就利用可见光照相机的已知人体检测方法来说，出现由于图像内的人体的大小未知，因此当检测物体时，随着检测窗口的比例尺的变化，要进行图像的多轮光栅扫描，从而会增大处理成本和使实时处理变得困难的问题。

鉴于上面所述，本发明的一个目的是提高根据输入图像检测物体的物体检测设备的物体检测精度。本发明的另一个目的是提高物体检测设备的物体检测速度。

为了实现上述目的，按照本发明的第一方面的发明包括深度图像获取装置，深度直方图生成装置，特征计算装置，和分类装置。深度图像获取装置获得表示到被摄物体的距离的深度信息，并获得其中各个像素的信息是深度信息的深度图像。深度直方图生成装置通过按照指定的深度对包含在局部区域中的各个像素的深度信息分组，来生成深度图像的多个局部区域中的每个局部区域的深度直方图。特征计算装置计算在深度图像中的不同位置的两个局部区域的两个深度直方图之间的相似度，作为特征。分类装置把具有高确信度的训练用深度图像定义为正例，把具有低确信度的训练用深度图像定义为负例，构成适合于对正例和负例分类的分类器，并利用所述分类器，根据所述特征，在深度图像中检测作为检测目标的物体。

按照这种方式，使用利用深度图像识别局部区域之间的深度关系的深度图像的深度直方图特征使得即使在背景高度复杂的情况下，也能够识别检测目标和背景之间的边界，从而使得能够提高物体检测的精度。

此外，按照第二方面的发明的特征在于分类装置包括遮挡判定装置，遮挡率计算装置，和分类器构成装置。在包含在局部区域之一中的像素之一的深度信息指示小于规定阈值的深度的情况下，遮挡判定装置判定该像素代表遮挡。遮挡率计算装置计算遮挡率，遮挡率是局部区域中，已被确定为代表遮挡的像素的比例。分类器构成装置利用遮挡率，构成分类器。

利用出自深度图像的深度信息从而使得能够容易地识别遮挡区域，从而能够在考虑到遮挡区域的同时，进行物体检测。这使得能够更进一步地提高物体检测的精度。

另外，按照第三方面的发明的特征在于深度图像生成装置位于三维空间中的固定位置，获得包含深度图像的全空间深度图像，并通过光栅扫描三维空间，从全空间深度图像获得与物体对应的深度图像。

利用包括深度信息的深度图像使得能够按照三维空间中的深度，指定检测物体的大小。于是，在三维空间中进行光栅扫描的情况下，能够排除与物体的大小不相符的深度图像，从而与在二维空间中进行光栅扫描的情况相比，能够提高检测物体的速度。

此外，按照第四方面的发明的特征在于分类装置是飞行时间(TOF)照相机。TOF照相机不要求像立体照相机所需那样计算图像之间的对应，从而能够提高检测物体的速度。

附图说明

图1是按照本发明的实施例的人体检测设备的概念图。

图2是扫描深度图像中的检测窗口的程序的说明图。

图3是表示计算深度直方图的程序的概念图。

图4是表示利用积分直方图，计算深度直方图的程序的说明图。

图5是表示利用深度信息的人体检测的流程的说明图。

图6是表示Real AdaBoost算法的说明图。

图7是表示在使用其中人体相互重叠的输入深度图像的情况下的弱分类器的响应的说明图。

图8是表示利用均值漂移聚类的检测窗口的积分结果的说明图。

图9是表示利用深度直方图特征的人体检测设备的评估实验的结果的说明图。

图10是表示利用深度直方图特征的人体检测设备的评估实验的结果的说明图。

具体实施方式

下面，说明使用按照本发明的物体检测设备的实施例。按照本实施例的物体检测设备分析包括每个像素的深度信息的深度图像，并检测包含在深度图像中的物体。在本实施例中，所述物体检测设备将用作检测人体的人体检测设备。

图1是按照本实施例的人体检测设备1的概念图。如图1中所示，按照本实施例的物体检测设备具备深度图像获取部分10和计算处理部分20。计算处理部分20由输入深度图像获取部分21，深度直方图特征计算部分22和分类部分23构成。

深度图像获取部分10是能够检测由构成深度图像的各个像素表示的距离的深度测量装置，比如照相机或传感器等。在本实施例中，飞行时间(TOP)照相机被用作深度图像获取部分10。在本实施例中，深度图像获取部分10被配置成三维坐标被固定的固定照相机。

通过测量从位于照相机周围的LED发射的红外光被物体反射，然后被照相机观测到为止所需的时间，TOP照相机能够测量到物体的距离。TOP照相机能够测量由构成获得的图像的各个像素表示的距离。在用TOF照相机产生的深度图像中，用与到照相机的距离相应的不同亮度表示每个像素。和使用立体照相机的情况不同，就TOF照相机来说，不必利用照相机校准和立体匹配来计算图像之间的对应，从而处理成本较低，实时处理是切实可行的。在本实施例中，使用MESA SR-3000作为TOF照相机。SR-3000能够实时地获得0.3米-7.5米的深度信息(3米远的分辨率为22毫米)。

具备诸如ROM和RAM之类的存储器，CPU和诸如硬盘之类的存储装置的已知计算机可用作计算处理部分20，它可被配置成使得按照保存在存储装置中的程序，进行各种计算处理。计算处理部分20的CPU可被配置成获得已由深度图像获取部分10获得的深度图像，作为输入图像，并利用深度图像进行各种处理以检测人体。

按照本实施例的计算处理部分20被配置成通过利用TOF照相机获得的深度信息确定人体和背景之间的深度关系，根据输入的深度图像检测人体。因而，在按照本实施例的计算处理部分20中，输入深度图像获取部分21获得输入深度图像，深度直方图特征计算部分22根据输入深度图像中的两个局部区域之间的深度分布的相似度，计算深度直方图特征，分类部分23利用深度直方图特征检测输入深度图像中的人体。深度直方图按照指定的深度范围，对输入深度图像的局部区域中的各个像素的深度信息分组，并以直方图的形式表示出现频度。深度直方图特征以特征量的形式，表示根据输入深度图像中的两个局部区域产生的深度直方图之间的相似度。

图2是表示输入深度图像获取部分21从深度图像获得检测窗口的程序的说明图。在图2中，y是高度方向的距离，x是宽度方向的距离，z是深度方向的距离。在本实施例中，TOF照相机被置于在2.5米高度的位置，并获得4米高×5米宽×7.5米深的室内空间中的全空间深度图像。全空间深度图像是用与整个室内空间对应的宽范围创建的，并且从深度图像提取对应于人体大小的检测窗口。分类部分23按照是否存在人体对每个检测窗口分类。在本实施例中，利用光栅扫描，从TOF照相机获得的全空间深度图像中提取检测窗口。

在图2中所示的例子中，通过把地面高度定义为坐标y_w等于0，随后一边改变离TOF照相机的距离z，一边沿着x_w方向反复扫描规定大小的检测窗口，来在地面高度上光栅扫描实际的三维空间。在本实施例中，检测窗口被定义为0.6米宽×1.8米高，以对应于作为检测目标的人体的大小。利用等式(1)，用实际的三维空间的光栅扫描产生的检测窗口的三维坐标可被投射到坐标空间[u，v]T。

等式1

[\begin{matrix} u \\ v \\ 1 \end{matrix}] = P [\begin{matrix} x_{w} \\ y_{w} \\ z_{w} \end{matrix}]

P＝A[R|T]

这种情况下，矩阵P是根据通过照相机校准获得的内部参数A、作为外部参数的旋转矩阵R和平移向量T计算的透视投影矩阵。由于能够获得与图像坐标(u，v)对应的4米×5米×7米空间中的全局坐标(x_w，y_w，z_w)，因此能够容易地进行TOF照相机的照相机校准。随后通过把投影坐标空间中的每个检测窗口看作独立的输入深度图像，计算深度直方图。

图3是表示深度直方图计算部分22用于计算深度直方图的程序的概念图。在本实施例中，每个输入深度图像被定义成128像素(竖直方向)×64像素(水平方向)，每个输入深度图像被分成8像素×8像素的单元。从而，每个输入深度图像被分成16单元×8单元。

随后，从输入深度图像中选择将对其计算深度直方图特征的两个局部区域。在本实施例中，当计算深度直方图时进行归一化，从而能够计算不同大小的区域的深度直方图之间的相似度。通过改变对其计算深度直方图的相似度的区域的大小，能够确定在诸如不能表现在单一单元中的人的肩部和头部之类区域中的深度关系。所述区域均由至少一个单元构成，并且在本实施例中，所述区域是矩形。如果每次1个单元地把矩形的大小从1单元×1单元改变成8单元×8单元，那么在16单元×8单元输入深度图像中，总共存在492个矩形区域，从而由一个输入深度图像能够产生矩形区域的120786种组合(深度直方图特征的候选)。

随后，根据包含在每个所选区域中的各个像素的深度信息，计算深度直方图。如上所述，深度直方图按照指定的深度范围，对各个像素的深度信息分组，并以直方图的形式表示出现频度。例如，对于单个单元之中的64个像素中的每个像素，都存在深度信息，从而根据64组深度信息，产生与单个单元对应的深度直方图。

图4是表示利用积分直方图，计算深度直方图的程序的说明图。在本实施例中，利用积分直方图高速计算深度直方图，以限制计算深度直方图的成本。积分直方图的有关信息，参见F.Porikli，“Integral Histogram：AFast Way to Extract Histograms in Cartesian Spaces”，IEEE ComputerVisio and Pattern Recognition，第829-836页(2005)。

如图4中所示，首先，每隔规定距离，量化构成深度图像的各个像素的深度信息。从而单位比规定间隔小的深度信息是以每隔规定间隔来聚集的。所述规定间隔可按照要检测的物体的大小酌情设定，在其中要检测的物体是人体的本实施例中，所述规定间隔被设定为0.3米。在本实施例中，从0到7.5米的范围被分成0.3米的间隔，从而计算的深度直方图均包括单位为0.3米(0.3米，0.6米，0.9米，...，7.5米)的25个分箱(区段)。

随后，产生25个量化图像iⁿ，每个量化图像对应于第n个分箱，下面的等式2用于根据每个量化图像iⁿ(u，v)，计算积分图像iiⁿ(u，v)。

等式2

sⁿ(u，v)＝sⁿ(u，v-1)+iⁿ(u，v)

iiⁿ(u，v)＝iiⁿ(u-1，v)+sⁿ(u，v)

这种情况下，sⁿ(u，v)表示分箱n的各行中的像素的总数，iiⁿ(u，v)表示各列的sⁿ的总和。不过，假定sⁿ(u，-1)＝0，iiⁿ(-1，v)＝0。在以图4中的积分图像的区域D为基础的深度直方图的第n个分箱Dⁿ的计算中，利用等式3，从第n个积分图像iiⁿ的4个点足以得到所述总和。

等式3

Dⁿ＝iiⁿ(u，v)+iiⁿ(u-W,v-H))-

(iiⁿ(u-W，v)+iiⁿ(u，v-H))

如上所述，利用积分直方图来计算深度直方图使得能够高速计算深度直方图的第n个分箱的值，而不管区域的大小。

随后，每个区域的深度直方图被归一化，使得在每个深度直方图中，各个分箱的频度的总和为1，归一化的深度直方图是通过把每个深度直方图中的各个分箱的频度除以对应区域中的像素的数目产生的。

随后，均包括计算的25个分箱两个归一化深度直方图p和q中的各个分箱被识别为pⁿ和qⁿ，计算这两个区域的归一化深度直方图之间的相似度S。在本实施例中，按照在等式4中所示的Bhattacharyya距离，计算相似度S。有关Bhattacharyya距离的信息，参见Bhattacharyya的“Ona Measure of Divergence between Two Statistical Populations Defined byProbability Distributions”，Bull，Calcutta Math.Soc.，vol.35，第99-109，(1943)。

等式4

S = Σ_{n = 1}^{m} \sqrt{p_{n} q_{n}}

利用等式4计算的相似度S被定义为深度直方图特征。对于矩形区域的所有组合，通过利用等式4计算任意两个单元的深度直方图之间的相似度S，来计算深度直方图特征向量。深度直方图特征是从不同区域之间的相似度得到的特征，从而是与离照相机的距离无关地表示两个区域之间的相对深度关系的特征。

图5是表示分类部分23利用深度信息进行人体检测的流程的说明图。如图5中所示，分类部分23利用深度直方图特征来判定在输入深度图像中是否包括人体。按照本实施例的分类部分23被配置成利用已知的RealAdaBoost的级联式分类器。

图6是表示Real AdaBoost算法的说明图。利用Real AdaBoost的分类器通过强调对其来说，分类函数已造成错误分类的数据来实现再训练。在所述处理已被再训练T轮之后，利用生成的一组分类器的分类函数的集合，生成最终的分类函数。

在Real AdaBoost分类器中，所有弱分类器的判定结果(对作为检测目标的图像来说为1，对不是检测目标的图像来说为0)被提供给组合函数。组合函数通过利用在每个对应的弱分类器的训练期间计算的可信度权值，计算所有判定结果的加权和，随后输出加权的多数决结果。通过评估组合函数的输出值，做出已被输入的图像是否显现检测目标的判定。级联地构成分类器使得能够降低误检率，而不降低检测目标的检测率。

训练样本(训练用深度图像)用于训练分类部分23。训练样本包括作为检测目标的图像(人体的图像)的正类样本，和作为不是检测目标的图像(除人体外的物品的图像)的负类样本。正类样本是存在检测目标的确信度高的正例，而负类样本是存在检测目标的确信度低的负例。就Real AdaBoost来说，从各维的概率密度得到正类特征和负类特征之间的分离度，使正类和负类之间的间隔最大的特征被选为弱分类器。由于在该处理期间，分离度被视为评估值，因此能够以实数形式输出分类结果。

为了得到被输入特征x的Real AdaBoost弱分类器的输出h(x)，对于正类特征生成概率密度分布W+，对于负类特征生成概率密度分布W-(图6中的3.1)。概率密度分布W±用一维直方图表示，是根据训练样本的权值D_t生成的。通过根据第n个训练样本计算特征，随后通过使训练样本的权值D_t(i)相加直到与特征的值对应的一维直方图中的分箱的编号j，可生成概率密度分布W±。利用概率密度分布W±，计算Real AdaBoost弱分类器的输出h_t(x)(图6中的3.2)。这种情况下，ε是防止分母变成0的计数。用于选择弱分类器的评估值Z_m也是利用概率密度分布W±计算的(图6中的3.3)。

随后，从m个弱分类器中选择评估值Z_m最小的弱分类器(图6中的4)，更新训练样本权值D_t(i)(图6中的5)，使训练样本权值D_t(i)归一化(图6中的6)。如果通过训练选择的弱分类器为h_t(x)，那么建立的最终分类器用等式5表示。

等式5

H (x) = sign (Σ_{t = 1}^{T} h_{t} (x))

按照本实施例的分类部分23考虑到遮挡来建立最终分类器。在多个人体体现重叠的拥挤场景中，有时会出现在作为检测目标的人体所存在于的区域中，发生遮挡的情况。从遮挡区域提取的深度信息会导致弱分类器输出错误的响应。于是，包含这种遮挡区域的弱分类器的输出并不原样积分到最终分类器中。在本实施例中，在实际的三维空间中光栅扫描检测窗口，使得知道检测窗口的全局坐标。因而，比较从TOF照相机获得的各组深度信息，与检测窗口相比，更接近于照相机的物体区域被判断为遮挡，这种判断被用于识别人体。

利用实际三维空间中的光栅扫描期间的检测窗口的深度z_w，设定用于判定是否存在遮挡的阈值。在本实施例中，用于判定是否存在遮挡的阈值被定义为z_w-0.3米。换句话说，比检测窗口的深度z_w近0.3m的位置被定义为阈值，比所述阈值更近的任何东西被判断为遮挡。如果检测窗口中的每个像素被指定为(u，v)，并且每个像素的深度图为d(u，v)，那么任意一组特定坐标的遮挡标记O(u，v)用等式6表示。

等式6

O (u, v) = \{\begin{matrix} 1 & if d (u, v) < z_{w} - 0.3 m \\ 0 & otherwise \end{matrix}

在图5中从左侧起的第二个检测窗口中，遮挡区域被表示成黑色。

在存在于作为第t个弱分类器h_t(x)的对象的矩形区域B_t内的遮挡区域的比例被定义为遮挡比OR_t的情况下，可用等式7得到OR_t。

等式7

{OR}_{t} = \frac{1}{B_{t}} \underset{(u, v) &Element; B_{t}}{Σ} O (u, v)

通过利用用等式7计算的遮挡比OR_t，考虑到遮挡区域的最终分类器H′(x)用等式8表示。

等式8

H^{'} (x) = sign (Σ_{t = 1}^{T} h_{t} (x) \cdot (1 - {OR}_{t}))

在矩形区域B_t内的遮挡区域的比例为100％(所述区域被完全重叠)的情况下，1-OR_t变成0，从而不使用该弱分类器的分类结果。在矩形区域B_t内的遮挡区域的比例为0％(所述区域完全未被重叠)的情况下，1-OR_t变成1，从而使用该弱分类器的分类结果。在矩形区域B_t内的遮挡区域的比例大于0％，但小于100％(所述区域被部分重叠)的情况下，1-OR_t变成大于0，但小于1，从而部分使用该弱分类器的分类结果。

图7是表示在使用其中人体相互重叠的输入深度图像的情况下，弱分类器的响应的说明图，(a)表示不考虑遮挡区域的情况，(b)表示考虑遮挡区域的情况。图7(a)表示其中使用等式5中所示的不考虑遮挡区域的弱分类器的例子，图7(b)表示其中使用等式8中所示的考虑遮挡区域的弱分类器的例子。图7(a)和7(b)表示其中使用500个弱分类器，并且各个弱分类器的响应从+1(人体)变化到-1(不同于人体)的例子。各个弱分类器的响应的合计值是最终分类器的响应。

在图7(a)中所示的例子中，最终分类器的响应为-0.27。即，在用不考虑遮挡区域的最终分类器进行分类的情况下，多数弱分类器的输出为负(被分类为非人体)，从而最终结果是非人体的错误分类。在图7(b)中所示的例子中，最终分类器的响应为+15.15。换句话说，在利用考虑遮挡区域的最终分类器进行分类的情况下，图7(a)中各个弱分类器的为负(被分类为非人体)的所有或部分响应不被使用，从而产生作为人体的正确分类。

按照本实施例的分类部分23被配置成使用实际三维空间中的均值漂移聚类对分类为代表人体的检测窗口积分，和定义全空间深度图像中的人体区域。

三维均值漂移聚类利用等式9，计算均值漂移向量m(x)。这种情况下，x表示移动的检测窗口的中心坐标，x_i表示每个数据项的三维坐标，k是核函数，h是带宽，在本实施例中被定义为0.3米。

等式9

m (x) = \frac{Σ_{i = 1}^{n} x_{i} k ({| | \frac{x - x_{i}}{h} | |}^{2})}{Σ_{i = 1}^{n} k ({| | \frac{x - x_{i}}{h} | |}^{2})} - x

图8是表示利用均值漂移聚类的检测窗口的积分结果的说明图。在图8中，上部表示利用图像空间中的二维均值漂移聚类的检测窗口的积分，下部表示利用三维空间中的三维均值漂移聚类的检测窗口的积分。

在背景技术中列举的非专利文献1中，发明人提出利用已知的可见光照相机检测人体，和通过利用均值漂移聚类对已被分类成表示人体的检测窗口积分，用公式表示检测结果。不过，如在图8的上部中所示，就图像空间中的均值漂移聚类来说，检测窗口被积分到3个区域中，而不顾在全空间深度图像中存在5个人体的事实。换句话说，就图像空间中的均值漂移聚类来说，在人体形状重叠的情况下，存在不正确地积分检测窗口的可能性。

相反，在本实施例中，在实际的三维空间中进行均值漂移聚类。如在图8的下部中所示，就实际三维空间中的均值漂移聚类来说，在5个人体存在于全空间深度图像中的情况下，检测窗口被积分到5个区域中。即，就实际三维空间中的均值漂移聚类来说，即使在人体形状重叠的情况下，也能够按照深度信息分离聚类，从而能够抑制检测窗口的错误积分。

下面，将解释利用按照本实施例的人体检测设备1的评估实验的结果，对评估实验来说，TOF照相机被安装在室内2.5米高度处，研究人走动的场面，和其中多个人重叠的场面。用于训练的深度图像包括都从在室内拍摄的序列图像中选择的1364个训练正例和10000个训练负例。在所述评估中，使用分别根据训练例子生成的2206个评估正例和8100个评估负例。TOF照相机被设置成拍摄最大深度7.5米的室内图像，从而难以使用该照相机拍摄多人的全身图像。于是，在评估实验中，人体的上半身(全身的上部60％)是检测对象。

图9是表示按照本实施例的人体检测设备1的评估实验的结果的说明图。在图9中，表示了对于其中使按照本实施例的人体检测设备1中的矩形区域大小可变的情况，和其中不使所述矩形区域大小可变的情况的评估实验结果。为了比较，表示了其中人体检测方法使用深度图像的HOG特征(亮度梯度特征)的评估实验，和其中人体检测方法使用深度直方图特征和HOG特征的组合的评估实验的结果。

在图9中，接收器操作特征(ROC)曲线被用于实验结果的比较。ROC曲线在水平轴上标示假正率，在垂直轴上标示检测率。通过改变分类器阈值，可比较检测率和假正率。朝着图9的左上方，检测率增大，而假正率减小，从而可见检测性能较高。

如图9中所示，在使用深度直方图特征(矩形区域大小不可变)的情况下，当假正率为5.0％时，检测率为96.8％，与使用深度图像的HOG特征的情况相比，分类率提高2.8％。从而，使用深度直方图特征使得能够识别检测目标和背景之间的边界，从而与使用亮度梯度特征的情况相比，能够提高人体检测的精度。

此外，在使用深度直方图特征(矩形区域大小可变)的情况下，当假正率为5.0％时，检测率为98.9％，与使用深度直方图特征(矩形区域大小不可变)的情况相比，分类率提高2.1％。从而，改变对其计算深度直方图之间的相似度的局部区域大小使得能够确定在诸如不能表现在单一单元中的人的肩部和头部之类区域中的深度关系，从而能够提高人体检测的精度。

此外，在使用HOG特征和深度直方图特征(矩形区域大小可变)的组合的情况下，和只使用深度直方图特征(矩形区域大小可变)的情况一样，获得相同种类的分类结果。

图10表示在考虑和不考虑遮挡的情况下，按照本实施例的人体检测设备1的评估实验的结果。在图10中所示的评估实验中，即使人体检测方法使用HOG特征和深度直方图特征的组合，评估实验也是在考虑和不考虑遮挡的情况下进行的。在图10中，按照和图9中相同的方式使用ROC曲线。

如图10中所示，在使用深度直方图特征(同时考虑遮挡)的情况下，当假正率为5.0％时，检测率为96.9％，与使用深度直方图特征(不考虑遮挡)的情况相比，分类率提高3％。类似地，在使用HOG特征和深度直方图特征的组合(同时考虑遮挡)的情况下，当假正率为5.0％时，检测率为96.4％，与使用HOG特征和深度直方图特征的组合(同时不考虑遮挡)的情况相比，分类率提高2.3％。从而，通过利用遮挡率对适用于分类的弱分类器加权，确定最终分类器的输出，能够抑制遮挡区域的影响。

下面，解释按照本实施例的使用深度直方图特征的人体检测方法的特征的选择特性。就利用HOG特征的人体检测方法来说，选择人体头部和肩部的边缘的事实意味着选择特征使得识别人体轮廓。相反，在RealAdaBoost分类器的初始训练期间选择的特征之中，选择人体区域和背景区域的多种组合，然后识别人体和背景之间的边界线。此外，借助深度直方图特征(同时矩形区域大小可变)，这样选择区域，使得在任何特定的区域大小下识别人体和背景之间的边界线。这被认为是因为通过识别人体轮廓区域之间的深度关系，识别了粗略的人体形状。

下面，解释按照本实施例的人体检测设备1的处理时间。在二维空间中光栅扫描检测窗口的情况下，图像中的人体的大小未知，从而必须一边改变检测窗口的大小，一边多次光栅扫描图像。于是难以进行实时处理，因为检测窗口的数目较大，从而处理成本较高。相反，在本实施例中，在实际三维空间中进行检测窗口的光栅扫描。借助这种三维光栅扫描，能够按照其到照相机的距离，规定图像中的人体的大小，因而能够排除和人体的大小不符的检测窗口，结果能够减少检测窗口的数目。于是，与借助二维光栅扫描相比，借助三维光栅扫描能够显著减少检测窗口的数目。

就按照本实施例的人体检测设备1来说，在使用Intel CPU(3.00GHzXeon)的情况下，一帧(361个检测窗口)的处理时间为特征计算用时24.31毫秒(每个检测窗口0.067毫秒)，分类用时45.34毫秒(每个检测窗口0.125毫秒)，和积分检测窗口用时31.97毫秒。于是，借助按照本实施例的人体检测设备1，能够在约100ms内处理一帧，从而使得能够每秒约10帧地进行实时处理。

其它实施例

上面说明了本发明的一个实施例，不过本发明并不局限于该实施例，在能够容易地被本领域的技术人员置换的范围内，根据本领域的普通技术人员通常拥有的知识，能够酌情做出各种改进，而不受附加权利要求中记载的文字限制，只要所述改进在附加权利要求的范围之内。

例如，在上面说明的实施例中，物体检测设备的检测目标是人体，不过本发明并不局限于此，检测目标也可以是除人体外的物体，比如动物、汽车等。此外，物体检测设备的检测目标不一定必须是整个物体，也可以是物体的一部分，比如人脸。

在上面说明的实施例中，使用TOF照相机作为深度图像获取部分10，不过本发明并不局限于此，例如，立体照相机也可用作深度图像获取部分10，只要能够测量由获得的图像中的各个像素表示的到照相机的距离。

在上面说明的实施例中，解释了其中固定照相机被用作深度图像获取部分10的例子，不过本发明并不局限于此，除三维空间的光栅扫描以外，即使在使用移动照相机作为深度图像获取部分10的情况下，也能够应用本发明。

在上面说明的实施例中，分类部分23由利用Real AdaBoost的分类器构成，不过本发明并不局限于此，分类部分23也可由已知的支持向量机(SVM)或神经网络构成。

在上面说明的实施例中，两个所选区域的深度直方图之间的相似度是利用Bhattacharyya距离计算的，不过本发明并不局限于此，也可用另一种方法计算深度直方图之间的相似度。

在上面说明的实施例中，深度直方图特征是利用深度图像中的矩形区域计算的，不过，本发明并不局限于此，也可利用深度图像内的任意形状的区域计算深度直方图特征。

[附图标记列表]

1人体检测设备

10深度图像获取部分

20计算处理部分

21输入深度图像获取部分

22深度直方图计算部分

23分类部分

Claims

1.一种物体检测设备，包括：

深度图像获取装置，其获得表示到被摄物体的距离的深度信息，并获得其中各个像素的信息是深度信息的深度图像；

深度直方图生成装置，其通过按照指定的深度对包含在局部区域中的各个像素的深度信息分组，来生成深度图像的多个局部区域中的每个局部区域的深度直方图；

特征计算装置，其计算在深度图像中的不同位置的两个局部区域的两个深度直方图之间的相似度作为特征；和

分类装置，其把具有高确信度的训练用深度图像定义为正例，把具有低确信度的训练用深度图像定义为负例，构成适合于对正例和负例分类的分类器，并利用所述分类器，根据所述特征，在深度图像中检测作为检测目标的物体。

2.根据权利要求1所述的物体检测设备，

其中分类装置包括

遮挡判定装置，其在包含在局部区域之一中的像素之一的深度信息指示小于规定阈值的深度的情况下，判定该像素代表遮挡，

遮挡率计算装置，其计算遮挡率，遮挡率是局部区域中已被确定为代表遮挡的像素的比例，和

分类器构成装置，其利用遮挡率构成所述分类器。

3.根据权利要求1或2所述的物体检测设备，

其中深度图像生成装置位于三维空间中的固定位置，获得包含深度图像的全空间深度图像，并通过光栅扫描三维空间，从全空间深度图像获得与物体对应的深度图像。

4.根据权利要求1-3任意之一所述的物体检测设备，

其中分类装置是飞行时间照相机。