CN110651300A

CN110651300A - 物体检测装置、物体检测方法、以及程序

Info

Publication number: CN110651300A
Application number: CN201880030654.5A
Authority: CN
Inventors: 酒井俊
Original assignee: Omron Corp
Current assignee: Omron Corp
Priority date: 2017-07-14
Filing date: 2018-07-11
Publication date: 2020-01-03
Anticipated expiration: 2038-07-11
Also published as: WO2019013246A1; JP6907774B2; CN110651300B; US20210357708A1; US11334775B2; JP2019021001A

Abstract

物体检测装置从图像中检测规定的物体。物体检测装置包括：第一检测部件，从所述图像中检测存在所述物体的多个候选区域；区域整合部件，基于由所述第一检测部件检测出的多个候选区域，决定1个或者多个整合区域；以及第二检测部件，将所述整合区域作为对象，通过与所述第一检测部件不同的检测算法来检测所述物体。由此，能够进行与以往相比高速且高精度的物体检测。

Description

物体检测装置、物体检测方法、以及程序

技术领域

本发明涉及从图像中检测物体的技术。

背景技术

以往，已知从图像中检测人的面部等规定的物体的技术。例如，已知使用Haar-like(类哈尔)特征量作为图像特征量、使用AdaBoost(自适应提升算法)作为学习算法的方法(专利文献1、专利文献2)。AdaBoost是通过将许多个单个而言辨别能力并不那么高的弱识别器连接而制作强识别器的学习/辨别算法。

近年来，因深度学习(deep learning)的出现，图像检测精度飞跃提高。但是，深度学习使用被称为卷积神经网络(CNN：Convolutional Neural Network)的多层网络，计算量比以往方法多出许多。

如上述，由于深度学习的计算负荷高，所以被认为不适合于移动设备那样的嵌入式设备。即使考虑到近年来的技术革新，在嵌入式设备中执行深度学习算法也不容易。考虑到这样的状况，寻求即使是在嵌入式设备这样的计算资源缺乏的设备中也能够进行动作的、高速且高精度的物体检测算法。

现有技术文献

专利文献

专利文献1：日本特开2007－133840号公报

专利文献2：日本特开2008－102611号公报

发明内容

发明要解决的课题

本发明的目的在于，提供能够实现高速且高精度的物体检测的技术。

用于解决课题的方案

本发明具有根据互相不同的检测算法从图像中检测规定的物体的第一检测部件以及第二检测部件，将由第一检测部件检测出的候选区域整合，仅对于整合后的候选区域执行基于第二检测部件的物体检测。

更具体而言，本发明的物体检测装置是从图像中检测规定的物体的物体检测装置，其包括第一检测部件、第二检测部件、以及区域整合部件。第一检测部件以及第二检测部件均构成为从图像中检测规定的物体，但是各自的检测算法不同。这里，第二检测部件的检测算法也可以是与第一检测部件相比检测精度更高但计算量更多的检测算法。

第一检测部件构成为从图像中检测被推定为存在物体的多个候选区域。区域整合部件构成为基于这些多个候选区域来决定1个或者多个整合区域。第二检测部件构成为将该整合区域作为对象进行物体检测。

根据这样的结构，由于可以限定在整合区域进行基于第二检测部件的物体检测，所以能够实现处理的高速化，并且能够维持第二检测部件的检测精度。即，根据本发明的物体检测装置，能够实现高速且高精度的物体识别。

本发明中的区域整合部件能够构成为像以下那样决定整合区域。区域整合部件能够构成为，首先，从多个候选区域之中决定代表区域，接着，基于规定的基准从多个候选区域之中决定与该代表区域关联的区域(以下，也称为关联区域)，然后，通过将代表区域和关联区域整合来决定整合区域。

区域整合部件也可以决定多个整合区域。在该情况下，区域整合部件构成为，在决定了1个整合区域后，从由第一检测部件检测出的多个候选区域中，将去除代表区域和关联区域后的候选区域作为对象进行上述的处理来决定其他整合区域。通过将该处理反复进行N次，能够决定N个整合区域。

作为决定代表区域的基准，能够采用第一检测部件的检测结果的可靠度、或者候选区域的尺寸(大小)。例如，也可以将可靠度最高的候选区域决定为代表区域。此外，也可以将尺寸最大的候选区域决定为代表区域，或者将与规定的大小最接近的候选区域决定为代表区域。此外，也可以根据基于可靠度的评价(得分)和基于尺寸的评价(得分)的平均或者加权平均来决定代表区域。

通过采用这样的基准，能够将含有规定物体的可能性高的区域决定为代表区域。

作为决定关联区域的基准，能够采用代表区域和候选区域的距离。例如，区域整合部件也可以将与代表区域的距离为规定值以下的候选区域决定为关联区域，或者将与代表区域的距离最短的规定数目的候选区域决定为关联区域。

作为决定关联区域的基准，也可以采用第一检测部件的检测结果的类似度。检测结果的类似度的例子可以举出检测结果的可靠度的类似度、检测区域的尺寸的类似度、图像内的检测物体的朝向的类似度、检测出的物体的属性的类似度等。这里，检测出的物体的属性是指能够对检测物体进行分类的任意的性质。例如，在检测物体是人类(包含面部或人体)的情况下，可以举出年龄、性别、人种、表情等作为属性的非限定性的例子。

在关注多个着眼点(例如，区域间距离、可靠度、区域尺寸、属性之中的多个)来决定关联区域的情况下，区域整合部件基于与各着眼点有关的评价(得分)的平均或者加权平均来决定关联区域即可。这里，区域整合部件也可以将加权平均得分(包含平均得分)的位次最高的规定数目的候选区域决定为关联区域。或者，区域整合部件也可以不限定数目而将平均得分为阈值以上的全部候选区域决定为关联区域。

在图像中包含对象物体的情况下，第一检测部件有时判定为在对象物体附近检测出了多个候选区域。通过如上述那样决定关联区域，能够将针对1个对象物体而检测出的多个候选区域决定为关联区域。

区域整合部件根据代表区域和关联区域来决定整合区域的方法并不特别限定。例如，区域整合部件也可以将代表区域自身决定为整合区域。或者，区域整合部件也可以将对代表区域和关联区域进行平均或者加权平均而得到的区域决定为整合区域。通过针对区域中心位置或区域尺寸或区域的朝向等用于确定区域的各个参数进行平均化，从而进行平均区域的决定即可。

本发明中的物体检测装置可以将静止图像作为对象进行物体检测，也可以将动态图像中包含的帧图像作为对象进行物体检测。在将构成动态图像的帧图像作为对象进行物体检测的情况下，区域整合部件也可以将对当前帧中的代表区域以及关联区域、和过去帧中的代表区域以及关联区域进行平均或者加权平均而得到的区域决定为整合区域。

通过像这样使用过去帧中的检测结果来决定整合区域，即使在当前帧中的检测不准确的情况下，也能够决定适当的整合区域。

还优选本发明中的物体检测装置还包括输出部件，该输出部件用于输出表示检测出了规定物体的检测结果信息。输出部件构成为，针对第二检测部件的检测结果的可靠度为阈值以上的整合区域，判断为检测出了物体，输出针对该整合区域的检测结果信息。优选在检测结果信息中包含物体的检测位置或尺寸。还优选在检测结果信息中还包含可靠度或物体的属性等信息。

上述的检测结果信息可以是第一检测部件的检测结果，也可以是第二检测部件的检测结果，还可以是对第一检测部件和第二检测部件的检测结果进行整合而得到的结果。这里，第一检测部件的检测结果可以是针对代表区域的检测结果，也可以是对关于代表区域和关联区域的检测结果进行平均或者加权平均而得到的结果。在对第一检测部件和第二检测部件的检测结果进行整合时，可以进行单纯平均也可以进行加权平均。

另外，本发明能够被理解为包含上述部件中的至少一部分的物体检测装置。此外，本发明还能够被理解为物体检测方法。此外，还能够理解为用于使计算机执行这些方法的各步骤的计算机程序、或非暂态地存储该程序的计算机可读取的存储介质。只要上述结构以及处理中的各个结构以及处理不会发生技术上的矛盾，就能够互相组合而构成本发明。

发明效果

根据本发明，能够实现高速且高精度的物体检测，即使在计算资源匮乏的计算机中也能够利用高精度的物体检测。

附图说明

图1A是表示第一实施方式的面部检测装置的硬件结构的图，图1B是表示第一实施方式的面部检测装置的功能块的图。

图2是表示第一实施方式中的面部检测处理的流程的流程图。

图3A、图3B是对第一检测部进行说明的概念图。

图4A是表示输入图像的例子的图，图4B是表示第一检测部对输入图像进行的面部检测的结果的例子的图。

图5是表示区域整合处理的流程的流程图。

图6A、图6B是表示根据代表区域和关联区域决定整合区域的处理的例子的流程图。

图7A是对区域整合处理的一例进行说明的图，并表示候选区域的例子。

图7B是对区域整合处理的一例进行说明的图，并表示代表区域以及关联区域的决定结果的例子。

图7C是对区域整合处理的一例进行说明的图，并表示代表区域以及关联区域的决定结果的例子。

图7D是对区域整合处理的一例进行说明的图，并表示最终决定的整合区域的例子。

图8A、图8B、图8C是对区域整合处理的其他例子进行说明的图，图8A表示输入图像的例子，图8B表示第一检测部的面部检测结果的例子，图8C表示代表区域和关联区域的决定结果的例子。

图9A表示第二检测部对整合区域进行的面部检测的结果的例子，图9B是表示由结果输出部输出的检测结果信息的例子的图。

具体实施方式

(第一实施方式)

在以下说明的实施方式涉及被搭载在智能电话那样的便携信息终端中且从图像中检测面部的面部检测装置(物体检测装置)。但是，这不过是例示，从图像中检测的物体不一定非得是面部，也可以是任意的物体。此外，面部检测装置(物体检测装置)也可以被搭载于便携信息终端以外的任意的信息处理装置(计算机)。

本实施方式的面部检测装置具有使用了Haar-like特征量和adaboost的第一面部检测部、以及使用了深度学习的第二面部检测部。但是，若对输入图像整体进行深度学习型的面部检测，则处理时间变得很长。因此，本实施方式的面部检测装置对输入图像整体进行基于第一面部检测部的检测来决定可能存在面部的区域(将不可能存在面部的区域除外)，仅对所决定的区域进行基于第二面部检测部的面部检测。由此，使得能够在短时间内实现使用了深度学习的高精度的面部检测。另外，在希望进一步缩短第二面部检测部的处理时间的情况下，也可以对第二面部检测部处理的区域的数目施加限制。即，也可以由第二面部检测部仅对由第一面部检测部决定的多个区域中的一部分进行处理。在该情况下，例如，由第二面部检测部按基于第一面部检测部的检测所决定出的区域的决定顺序对N个(N为1以上的整数)区域进行处理，或者由第二面部检测部对按区域的尺寸从大到小的顺序对N个区域进行处理。

＜结构＞

图1A是表示本实施方式的面部检测装置100的硬件结构的图。面部检测装置100包含图像输入部101、运算装置102、存储装置103、通信装置104、输入装置105、输出装置106。图像输入部101是从照相机110接受图像数据的接口。另外，在本实施方式中，从照相机110直接接受图像数据，但是也可以经由通信装置104接受图像数据，或者经由记录介质接受图像数据。运算装置102是CPU(中央处理单元(Central Processing Unit))等通用的处理器，执行在存储装置103中存储的程序，从而实现后述的功能。存储装置103包含主存储装置以及辅助存储装置，存储由运算装置102执行的程序，并且存储图像数据或程序执行中的临时数据。通信装置104是用于面部检测装置10与外部的计算机进行通信的装置。通信方式可以是有线也可以是无线，通信标准也可以是任意的。输入装置105由触摸屏、按钮、键盘等中的任一种构成，是用于用户向面部检测装置输入指示的装置。输出装置106由显示装置或扬声器等构成，是用于面部检测装置进行对用户的输出的装置。

＜面部检测装置的功能和处理＞

运算装置102通过执行程序，实现如图1B所示那样的功能。即，运算装置102作为图像输入部111、第一检测部112、整合部113、第二检测部114、结果输出部115发挥作用。关于各部件的处理内容，在以下进行说明。

图2是表示面部检测装置100进行的面部检测处理的整体的流程的流程图。以下，基于图2的流程图，对面部检测装置100的详细情况进行说明。

[S1：图像输入处理]

在步骤S1中，面部检测装置100取得图像(输入图像)。输入图像可以经由图像输入部101从照相机20取得，也可以经由通信装置104从其他计算机取得，还可以经由存储装置103从存储介质取得。

[S2：第一面部检测处理]

在步骤S2中，第一检测部112从输入图像中检测面部候选区域(被推定为存在面部的区域)。第一检测部112构成为，从输入图像中，能够检测各种大小、方向、属性(性别、年龄、人种等)的面部。第一检测部112在检测面部候选区域时，还推定置信度、面部朝向、属性。

在本实施方式中，第一检测部112构成为，使用Haar-like特征量作为图像特征量，使用AdaBoost作为学习算法。以下，使用图3A、3B，对本实施方式中的第一检测部112进行说明。

如图3A所示，第一检测部112为了检测各种大小的面部，从将输入图像以多个倍率进行缩小后的缩小图像301～303中的每一个缩小图像中剪切规定尺寸的矩形区域310，使用识别器320来辨别在该区域中是否包含面部。通过在缩小图像301～303内对矩形区域310进行搜索，能够检测在图像中包含的各种尺寸的面部。另外，在本实施方式中剪切矩形区域，但是剪切的区域也可以是除了矩形以外的任意形状的区域。

如图3B所示，识别器320辨别由矩形区域310剪切出的对照图案是否是面部。识别器320从对照图案中的多个局部区域中分别提取基于明暗的关系的特征量(Haar-like特征量)。识别器320具有多个弱识别器，各个弱识别器基于少数特征量辨别对照图案是否是面部。弱识别器各自的辨别性能低，但是通过将这些多个弱识别器组合，能够高精度地辨别是否是面部。另外，识别器320输出对照图案是面部图案的可能性(可靠度)作为输出值。因此，可靠度为规定的阈值以上的区域被作为面部候选区域进行处理。

参照图4A、4B，对步骤S2的基于第一检测部112的面部检测处理的具体例进行说明。图4A表示输入图像400。在输入图像400中拍摄有人物401、402。当将这样的输入图像400作为对象进行基于第一检测部112的面部检测处理时，在人物401、402的面部周边，检测出多个面部候选区域。其原因在于，在面部的周边，即使对照图案的位置或大小稍微变化，对照图案也会被判断为是面部。

图4B表示对于输入图像400的例示性的检测结果。在人物401的面部周边，检测出3个面部候选区域411、412、413，在人物402的面部周边，检测出3个面部候选区域414、415、416。此外，从实际上不存在面部的区域中，检测出面部候选区域417。该情形在背景的样子偶然与面部类似的情况下发生。

[S3：整合区域决定处理]

在步骤S3中，整合部113将在步骤S2中检测出的多个候选区域整合，决定进行基于第二检测部114的检测的整合区域。整合部113将多个候选区域分组，从各组的候选区域中决定1个整合区域。图5是表示由整合部113进行的整合区域决定处理的详细情况的流程图。以下，基于图5的流程图进行说明。

在步骤S31中，整合部113从在步骤S2中检测出的多个候选区域之中选择可靠度最大的候选区域作为代表区域。另外，代表区域的决定不必仅基于可靠度进行，也可以考虑到区域尺寸、面部朝向等其他信息进行。在考虑区域尺寸时，可以使大尺寸的区域优先，也可以使接近规定的尺寸的区域优先。此外，在决定代表区域时，也可以不使用可靠度而基于区域尺寸或其他信息来进行。

对检测出的多个候选区域之中的除了代表区域以外的候选区域执行步骤S32～S34的处理循环L1。这里，将循环L1中作为处理对象的候选区域称为关注候选区域。

在步骤S32中，整合部113计算代表区域和关注候选区域之间的关联得分。关联得分是用于表示代表区域和关注候选区域是相同面部的区域的可能性的得分。关联得分能够基于区域间的距离(例如，区域中心间的距离)或候选区域的尺寸来计算。例如，区域间的距离越近，则计算出的关联得分越大。此外，区域尺寸之差越小，则计算出的关联得分越大。

可将区域间的距离或区域尺寸的类似度视为第一检测部112的检测结果的类似度的例子。关联得分也可以基于第一检测部112的检测结果中的其他项目的类似度来决定。例如，也可以基于检测出的面部朝向的类似度、检测出的面部的属性(例如，年龄、性别、人种、表情等)的类似度来计算关联得分。在考虑到多个要素来决定关联得分的情况下，使用包含这些多个要素作为变量的函数即可。单纯而言，根据各要素的类似度的平均或者加权平均而决定关联得分即可。加权平均时的权重适当决定即可。

在步骤S33中，整合部113判定关注候选区域的关联得分是否为阈值T1以上。在关联得分为阈值T1以上的情况下(步骤S33－是)，在步骤S34中，整合部113将关注候选区域决定为代表区域的关联区域。即，关注候选区域被分组到与代表区域相同的组。

通过对全部候选区域进行上述的步骤S32～S34的处理，能够决定与代表区域关联的候选区域。

另外，在这里，将关联得分为阈值T1以上的候选区域决定为关联区域，但是也可以将关联得分最大的规定个数的候选区域决定为关联区域。或者，也可以将关联得分为阈值T1以上且关联得分位次最高的规定数目的候选区域决定为关联区域。

在步骤S35中，整合部113将代表区域及其关联区域整合来决定整合区域。整合区域的决定方法不特别受限定。这里，参照图6A、6B，对2种整合区域决定方法进行说明。

例如，如图6A所示，在整合区域决定处理S35中，也可以将代表区域自身决定为整合区域(步骤S351)。或者，如图6B所示，整合区域决定处理S35也可以由如下步骤构成。首先，取得属于与代表区域相同的组的关联区域(步骤S352)。接着，将代表区域和关联区域作为对象，来计算用于决定区域的参数各自的平均值。(步骤S353)。最后，将具有计算出的平均值作为参数的区域决定为整合区域(步骤S354)。作为参数的例子，可以举出区域中心的平均值、区域尺寸的平均值。作为其他参数的例子，包含可靠度、面部朝向、年龄、性别、人种、表情等。

在步骤S36中，判断是否有可靠度为阈值T2以上的候选区域剩余。详细而言，判断由第一检测部112检测出的候选区域之中的、除了被判断为是代表区域或关联区域的区域以外的候选区域之中是否存在可靠度为阈值T2以上的候选区域。在存在可靠度为阈值G2以上的候选区域的情况下，返回步骤S31反复进行上述处理。此时，在将被判断为是代表区域或关联区域的区域从处理对象中排除的后，进行步骤S31～S35的处理。

这里，参照图7A～7D、图8A、8B，基于具体例对候选区域的分组进行说明。

图7A与图4B所示的第一检测部112的检测结果相同，作为候选区域示出7个候选区域411～417。这里，用矩形包围的数字表示各区域的可靠度(设1000点为满)。即，候选区域411的可靠度为920，候选区域412的可靠度为950。

在步骤S31中，选择可靠度最大的候选区域。在本例中，选择候选区域412作为代表区域。这里，假定仅基于区域间的距离来计算关联得分。这样，接近代表区域412的候选区域411、413的关联得分为阈值以上，但是其他区域的关联得分小于阈值。因此，将候选区域411、413判断为代表区域412的关联区域，如图7B所示，由候选区域411～413形成1个组421。并且，基于候选区域411～413，决定1个整合区域。

接着，将候选区域414～417作为对象，反复进行与上述同样的处理。这一次，将候选区域415决定为代表区域，将候选区域414、416决定为其关联区域，由候选区域414～416形成1个组422。并且，根据这些候选区域决定1个整合区域。

再次反复进行同样的处理，将候选区域417决定为代表区域。由于不存在与候选区域417的关联得分为阈值以上那样的候选区域，所以仅由候选区域417形成1个组423。并且，基于候选区域417，决定1个整合区域。

图7C表示如上述那样决定的各组421～423的代表区域(粗线)和关联区域(细线)。图7D是表示针对各组421～423而决定的整合区域431～433的图。

图8A、8B是对除考虑区域间距离以外还考虑第一检测部112的检测结果的类似性来进行分组的例子进行说明的图。这里，说明关注检测结果之中的区域的大小的例子。

图8A表示输入图像的例子，这里，人物801、802这两个人的面部被拍摄在图像内的相近位置。图8B是表示将图8A的输入图像作为对象的基于第一检测部112的检测结果的图。这里，与人物801的面部对应地检测候选区域811、812，与人物802的面部对应地检测候选区域813、814。

这里，若单纯地关注区域间距离来决定关联区域，则可能会将全部候选区域811～814归到1个组。但是，在关联得分的计算中，通过不仅考虑区域间距离，而且还考虑区域尺寸的类似性，能够如图8C所示那样将候选区域811、812和候选区域813、814分组到分别不同的组821、822中。即，即使在图像内人物801、802的位置接近，也能够适当地生成与各个人物对应的整合区域。

这里，作为检测结果的类似性而关注于区域尺寸的例子进行说明，但是显然关注区域尺寸、年龄、性别、人种、表情、面部朝向等属性之中的1个或者多个来计算关联得分即可。

[S4：第二面部检测处理]

在步骤S4中，第二检测部114判定在步骤S3中决定出的整合区域中是否分别包含面部。第二检测部114是使用被称为卷积神经网络(CNN)的多层神经网络进行学习后的识别器。通过异构学习(Heterogeneous learning)，不仅能够进行面部/非面部的辨别，还能够进行面部朝向、年龄、性别、人种、表情等多个任务的辨别。本实施方式的第二检测部114还实现这些辨别任务。

图9A表示对3个整合区域901～903进行了基于第二检测部114的检测的结果。在图中示出第二检测部114的可靠度。这里，整合区域901、902的可靠度分别高达980、960，与此相对，整合区域903的可靠度低至230。因此，面部检测装置100能够判断为整合区域901、902是面部区域，与此相对，能够判断为整合区域903不是面部区域。

[S5：检测结果输出处理]

在步骤S5中，结果输出部115针对通过第二面部检测处理检测出面部的区域输出检测结果。结果输出部115针对第二面部检测区域的检测结果的可靠度为阈值以上的整合区域，输出表示检测出面部的结果信息。针对可靠度小于阈值的整合区域，也可以不包含在结果信息中。检测结果信息至少包含面部区域，在此基础上，优选包含可靠度、面部朝向、年龄、性别、人种、表情等中的1个以上。

输出的检测结果信息可以是第二检测部114的检测结果。即，检测结果信息也可以是作为第二检测部114以整合区域为对象进行的检测的结果而得到的可靠度、面部朝向、年龄、性别、人种、表情等。

输出的检测结果信息也可以是第一检测部112的检测结果。第一检测部112的检测结果可以是第一检测部112以成为生成整合区域的基础的代表区域作为对象进行的检测的结果，也可以是第一检测部112以代表区域以及关联区域为对象进行的检测的结果的平均或者加权平均。

输出的检测结果信息也可以是第二检测部114的检测结果和第一检测部112的检测结果的平均或者加权平均。加权平均时的权重使用预先规定的值即可。

结果输出部115也可以以任何方式输出检测结果信息。例如，结果输出部115可以将检测结果信息显示在画面上，也可以存储在存储装置中，还可以通知给其他模块或其他装置，还可以进行这些之中的多个。

＜本实施方式的效果＞

若对Haar-like特征量+adaboost学习的面部检测处理、和深度学习(CNN)的面部检测处理进行比较，则后者的精度更高，但是运算量也更多。因此，在便携信息终端那样的运算资源比较缺乏的计算机中，若对输入图像整体进行深度学习型的面部检测，则处理时间变得很长。对此，本实施方式首先使用简易型的面部检测处理来筛选出可能存在面部的区域，并仅对该区域进行深度学习型的面部检测，从而能够同时兼顾检测精度和检测速度。此外，在本实施方式中，由于不是将通过简易型面部检测处理得到的全部候选区域作为对象进行深度学习型的面部检测，而是仅将对候选区域进行分组、整合而得到的区域作为对象，所以检测速度进一步提高。

(第二实施方式)

在第一实施方式中，说明了对1幅图像进行面部检测的情况。在本实施方式中，对构成动态图像的多个帧图像连续地进行面部检测。对各帧图像的面部检测处理基本上与第一实施方式相同，但是整合区域的制作处理(图2的步骤S3)不同。在连续的帧图像中，由于相同物体存在于相同位置，所以在本实施方式中，在决定整合区域时，考虑与当前帧有关的信息和与过去帧有关的信息。

作为具体的整合区域的决定方法，设想若干方法。例如，设想下述方法：针对当前帧和过去帧(最近的帧)，通过与第一实施方式同样的方法决定整合区域(以下，称为暂定整合区域)，将它们进行平均或者加权平均，从而决定对于当前帧的整合区域。加权平均的权重适当决定即可。

此外，也可以通过对当前帧的暂定整合区域和过去帧的整合区域进行平均或者加权平均来决定当前帧的整合区域。由于过去帧的整合区域进一步使用过去的帧的信息，所以能够考虑到更为过去的信息而决定当前帧的整合区域。

此外，也可以对当前帧的代表区域及关联区域和过去帧的代表区域及关联区域进行平均或者加权平均来决定当前帧的整合区域。

此外，在将从当前帧中决定代表区域时的阈值T2(步骤S36)设定得低而暂且决定整合区域、且该整合区域的可靠度为阈值T3(＞T2)的情况下，也可以采用该整合区域。这样，在当前帧中，即使在面部的一部分被遮掩、或者照明条件差而无法进行高可靠度的检测的情况下，若在过去帧中能够高可靠度地检测面部，就能够决定为整合区域。即，通过考虑过去帧的信息，即使在面部检测精度暂时性地降低的状况下，也能够防止漏检测。

(第三实施方式)

在第一实施方式中，第二检测部114仅考虑到整合区域的图像信息(像素值)进行面部检测。本实施方式的第二检测部114将与整合区域有关的第一检测部112的检测结果也作为输入而进行面部检测处理。在“与整合区域有关的第一检测部112的检测结果”中包含面部朝向、年龄、性别、人种、表情等。

为了使第二检测部114能够进行这样的识别，在第二检测部114的学习处理(生成处理)中，使用包含图像数据和第一检测部112对该图像数据的检测结果(面部朝向、年龄、性别、人种、表情等)的学习数据即可。

这样，通过使用第一检测部112的检测结果进行检测处理，能够提高第二检测部114的检测精度。

(其他实施方式)

在上述说明中，第一检测部112是使用Haar-like特征量和adaboost学习的检测器，但不限于此。例如，作为特征量，能够使用HoG(梯度直方图，Histgram of Gradient)特征量、SIFT(尺度不变特征变换，Scale Invariant Feature Transform)特征量、SURF(快速鲁棒性特征，Speeded Up Robust Features)特征量、Sparse(稀疏)特征量等任意的特征量。此外，学习部件也是能够使用除了adaboost以外的boosting(提升)手法、或SVM(支持向量机，Support Vector Machine)、神经网络、决策树学习等任意的学习方法。

此外，第二检测部114也是不限于CNN而也可以是基于RNN(循环神经网络，Recurrent Neural Network)或SAE(堆栈自动编码器(Stacked Auto Encoder))、DBN(深度信念网络，Deep Belief Network)等任意的方法的检测器。此外，第二检测部114也可以不是利用深度学习的检测器。但是，期望第二检测部114的检测算法与第一检测部112的检测算法相比能够进行更高精度的检测且计算量更大。

此外，在上述的说明中检测对象的物体是面部，但是检测对象物体也可以是任意的物体。即，本发明能够应用于对任意的规定物体进行检测的物体检测装置。作为检测对象物体的极少数的例子，可以举出人体、特定的动物、汽车、特定的商品等。

此外，在上述的说明中，物体检测装置被搭载于智能电话等便携信息终端，但是也可以被搭载于任何装置。本发明的物体检测装置能够实现在台式计算机、笔记本计算机、平板计算机(slate computer)、智能电话、便携电话机、数码相机、数码摄像机等任意的信息处理装置(计算机)中。但是，通过搭载于运算资源较为缺乏的装置，本发明的效果更为显著。

标号说明

100：面部检测装置，111：图像输入部，112：第一检测部

113：整合部，114：第二检测部，115：结果输出部

400：输入图像，411～417：候选区域

421～423：组，431～433：整合区域

711～714：候选区域，721～722：组

901～902：整合区域。

Claims

1.一种物体检测装置，从图像中检测规定的物体，其中，所述物体检测装置包括：

第一检测部件，从所述图像中检测存在所述物体的多个候选区域；

区域整合部件，基于由所述第一检测部件检测出的多个候选区域，决定1个或者多个整合区域；以及

第二检测部件，将所述整合区域作为对象，通过与所述第一检测部件不同的检测算法来检测所述物体。

2.如权利要求1所述的物体检测装置，其中，

所述区域整合部件从所述多个候选区域之中决定代表区域；

所述区域整合部件基于规定的基准，从除了所述代表区域以外的所述多个候选区域之中，决定与所述代表区域关联的区域；

所述区域整合部件通过将所述代表区域以及与该代表区域关联的区域整合，决定所述整合区域。

3.如权利要求2所述的物体检测装置，其中，

所述区域整合部件在决定了1个所述整合区域后，将由所述第一检测部件检测出的所述多个候选区域中去除所述代表区域和与该代表区域关联的区域后的候选区域作为对象，决定其他整合区域。

4.如权利要求2或3所述的物体检测装置，其中，

所述区域整合部件基于所述第一检测部件的检测结果的可靠度、或者所述候选区域的尺寸中的至少任一者，决定所述代表区域。

5.如权利要求2至4中任一项所述的物体检测装置，其中，

所述区域整合部件基于所述代表区域和候选区域的距离，决定所述候选区域是否是与所述代表区域关联的区域。

6.如权利要求5所述的物体检测装置，其中，

所述区域整合部件基于第一检测部件对所述代表区域的检测结果、与所述第一检测部件对所述候选区域的检测结果的类似度，决定所述候选区域是否是与所述代表区域关联的区域。

7.如权利要求2至6中任一项所述的物体检测装置，其中，

所述区域整合部件将所述代表区域决定为所述整合区域。

8.如权利要求2至6中任一项所述的物体检测装置，其中，

所述区域整合部件将对所述代表区域和与该代表区域关联的候选区域进行平均或者加权平均而得到的区域决定为所述整合区域。

9.如权利要求2至6中任一项所述的物体检测装置，其中，

所述图像是动态图像，

所述物体检测装置是从所述动态图像的多个帧中检测所述物体的物体检测装置，

所述区域整合部件将对当前帧的所述代表区域及与该代表区域关联的区域、和过去帧的所述代表区域及与该代表区域关联的区域进行平均或者加权平均而得到的区域决定为所述整合区域。

10.如权利要求1至9中任一项所述的物体检测装置，其中，

还包括输出部件，所述输出部件针对所述第二检测部件的检测结果的可靠度为阈值以上的所述整合区域，输出表示检测出了所述物体的检测结果信息。

11.如权利要求10所述的物体检测装置，其中，

所述检测结果信息包含所述第一检测部件的检测结果、所述第二检测部件的检测结果、或者对所述第一检测部件的检测结果和所述第二检测部件的检测结果进行整合而得到的结果、中的至少任一个。

12.如权利要求1至11中任一项所述的物体检测装置，其中，

所述第二检测部件的检测算法与所述第一检测部件的检测算法相比计算量更大。

13.如权利要求1至12中任一项所述的物体检测装置，其中，

所述规定的物体是人的面部或者人体。

14.一种物体检测方法，用于从图像中检测规定的物体，其中，所述物体检测方法包括：

第一检测步骤，计算机从所述图像中检测存在所述物体的多个候选区域；

整合区域决定步骤，计算机基于在所述第一检测步骤中检测出的多个候选区域，决定1个或者多个整合区域；以及

第二检测步骤，计算机将所述整合区域作为对象，通过与所述第一检测步骤不同的检测算法来检测所述物体。

15.一种程序，

用于使计算机执行权利要求14所述的方法的各步骤。