CN108664889A

CN108664889A - 对象物检测装置、对象物检测方法以及记录介质

Info

Publication number: CN108664889A
Application number: CN201810249342.5A
Authority: CN
Inventors: 山谷崇史; 中込浩; 中込浩一; 岛田敬辅
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2017-03-28
Filing date: 2018-03-23
Publication date: 2018-10-16
Anticipated expiration: 2038-03-23
Also published as: US20180285672A1; JP6708154B2; CN108664889B; US10713513B2; JP2018165881A

Abstract

本发明提供一种对象物检测装置、对象物检测方法以及记录介质。本发明缩短从完成机器人的头部或者躯体的旋转时起到检测出对象物所需的时间。机器人(100)具备：照相机(111)；以及控制部(127)，判别照相机(111)在第一定时进行摄像得到的第一图像与照相机(111)在比第一定时靠后的第二定时进行摄像得到的第二图像的重复的区域，并检测第二图像中的除了判别出的重复的区域以外的区域所包含的对象物。

Description

对象物检测装置、对象物检测方法以及记录介质

本申请要求以2017年3月28日申请的日本专利申请特愿2017-062621为基础的优先权，并将该基础申请的内容全部引入到本申请中。

技术领域

本发明涉及对象物检测装置、对象物检测方法以及记录介质。

背景技术

已知有具有模拟人类、动物等的形态且能够与人类进行会话等交流的机器人。在这样的机器人中还有如下的机器人，即，基于搭载于本机的照相机、传声器等传感器的输出来进行面部识别，通过面部识别来判别本机周边有人，并对这个人进行搭话、挥手等动作。

在日本特开2004-198656号公报记载了如下内容，即，机器人通过面部识别来确定正对的说话人是谁，并对确定的说话人的回答进行语音识别。

日本特开2004-198656号公报记载的那样的面部识别需要在机器人与人正对的状态下进行。因此，在机器人与人未正对的状态下，机器人在检测到周围有人发出声音时，需要将自身的头部的方向或者躯体整体的方向朝向发出声音的方向，然后使用通过照相机进行摄像的图像来进行面部检测，之后进行面部识别。

像这样，在进行面部检测之前，需要等到机器人的头部或者躯体完成旋转。因而，存在直到完成面部检测处理为止耗费时间的问题。

发明内容

发明要解决的课题

本发明是鉴于上述实际情况而完成的，其目的在于，缩短从完成机器人的头部或者躯体的旋转时起到面部检测所需的时间。

用于解决课题的技术方案

本发明提供一种对象物检测装置，其具备：

判别部，判别摄像部在第一定时进行摄像得到的第一图像与所述摄像部在比所述第一定时靠后的第二定时进行摄像得到的第二图像的重复的区域；以及

对象物检测部，检测所述第二图像中的除了所述判别部判别出的所述重复的区域以外的区域所包含的对象物。

本发明提供一种对象物检测方法，其具备：

判别步骤，判别在第一定时进行摄像得到的第一图像与在比所述第一定时靠后的第二定时进行摄像得到的第二图像的重复的区域；以及

对象物检测步骤，检测所述第二图像中的除了在所述判别步骤中判别出的所述重复的区域以外的区域的图像所包含的对象物。

本发明提供一种计算机可读取的记录介质，记录有程序，其中，

所述程序使计算机实现如下功能：

判别功能，判别在第一定时进行摄像得到的第一图像与在比所述第一定时靠后的第二定时进行摄像得到的第二图像的重复的区域；以及

对象物检测功能，检测所述第二图像中的除了通过所述判别功能判别的所述重复的区域以外的区域的图像所包含的对象物。

附图说明

若配合以下的附图来考虑以下的详细的记述，则可得到对本申请的更深的理解。

图1是本发明的实施方式涉及的机器人的外观图。

图2是用于说明机器人的头部的自由度的图。

图3是示出机器人的结构的框图。

图4是示出房间内的机器人与用户的位置的一个例子的图。

图5是呼唤响应处理的流程图。

图6是声源定位的处理的流程图。

图7是用于说明假定的声源位置的图。

图8A是示出房间内的机器人与用户各自的位置的一个例子的图。

图8B是用于说明旋转中途的摄像图像与旋转完成时的摄像图像的重复范围的图。

图8C是用于说明旋转中途的摄像图像与旋转完成时的摄像图像的重复范围的图。

图8D是用于说明旋转中途的摄像图像与旋转完成时的摄像图像的重复范围的图。

图9是分散面部检测的处理的流程图。

图10A是用于说明旋转中途的面部检测的对象的区域的图。

图10B是用于说明旋转中途的面部检测的对象的区域的图。

图10C是用于说明旋转中途的面部检测的对象的区域的图。

具体实施方式

(实施方式)

以下，参照附图对本发明的实施方式进行说明。图1是示意性地示出从正面观察实施方式涉及的机器人100的情况下的外观的图。机器人100是具备头部110和躯体120的人型的交流机器人。机器人100设置在住宅内，当被居住者呼唤时，与进行呼唤的居住者进行会话。

如图1所示，在机器人100的头部110设置有照相机111、传声器112、以及扬声器113。

照相机111(摄像部)设置在头部110的前表面的下侧，且设置在以人的面部来说的鼻子的位置。照相机111在后述的控制部127的控制下进行摄像。

传声器112(声音检测部)包含13个传声器。13个传声器中的8个传声器配置在以人的面部来说的额头的高度的位置，且以等间隔配置在头部110的周围。在比这8个传声器靠上侧，4个传声器以等间隔配置在头部110的周围。进而，一个传声器配置在头部110的头顶部。传声器112检测在机器人100的周围产生的声音。

扬声器113设置在比照相机111靠下侧、以人的面部来说的口部的位置。扬声器113在后述的控制部127的控制下输出各种语音。

颈关节121是连结头部110和躯体120的构件。头部110通过用虚线示出的颈关节121与躯体120连结。颈关节121包含多个电机。当后述的控制部127对这些多个电机进行驱动时，机器人100的头部110旋转。在图2示出示意性地表示了机器人100的头部110的旋转的自由度的图。通过颈关节121，机器人100的头部110能够相对于躯体120绕俯仰轴Xm旋转、绕横滚轴Zm旋转、绕偏航轴Ym旋转。颈关节121与后述的行走部126一同起到作为使机器人100的各部位进行动作的动作部的作用。

参照图3。除了上述的结构以外，机器人100还具备操作按钮122、传感器组123、电源部124、存储部125、行走部126、以及控制部127。

操作按钮122设置在躯体120的背部(在图1中未图示)。操作按钮122是用于对机器人100进行操作的各种按钮，包含电源按钮、扬声器113的音量调节按钮等。

如图1所示，传感器组123设置在以人的面部来说的眼睛的位置和耳朵的位置。传感器组123包含加速度传感器、障害物感测传感器等，用于机器人100的姿势控制、安全性的确保。

参照图3。电源部124是内置于躯体120的充电电池，对机器人100的各部分供给电力。

存储部125包含硬盘驱动器、闪速存储器等，设置在躯体120的内部。存储部125对包含由后述的控制部127执行的程序、照相机111进行摄像得到的图像数据等在内的各种数据进行存储。在存储部125存储的程序中包含后述的呼唤响应处理涉及的呼唤响应程序1251。

行走部126包含设置在躯体120的下侧的4个车轮(wheel)。如图1所示，4个车轮之中，两个配置在躯体120的前侧，剩余两个配置在后侧(未图示)。作为车轮，例如可使用万向轮、麦克纳姆轮(Mecanum wheel)。当后述的控制部127使行走部126的车轮旋转时，机器人100移动。行走部126与前述的颈关节121一同起到作为使机器人100的各部位进行动作的动作部的作用。

参照图3。控制部127由处理器、RAM(Random Access Memory，随机存取存储器)等构成。控制部127与上述的机器人100的各部分连接，通过将RAM作为工作区而执行存储在存储部125的程序，从而对机器人100的各部分进行控制。

如上所述，当被居住者(用户)呼唤时，机器人100进行会话，因此当判别被呼唤时，需要进行进行了呼唤的对象物检测处理。对象物可以是居住者(用户)的面部、居住者(用户)的身体、发出声音的物体、或能够摄像的物体，以下，以检测居住者(用户)的面部的情况为例对机器人100进行的对象物检测的处理进行说明。在此，在响应用户的呼唤的一系列的处理(呼唤响应处理)之中，对机器人100进行用户的面部检测的例子进行说明。如图4所示，在房间R内有机器人100和用户P，设想机器人100与用户P未正对的情况。当用户P呼唤机器人100时，机器人100将头部朝向用户P的方向，进行用户P的面部识别。进而，机器人100移动到能够与用户P进行对话的距离，并与用户P进行对话。另外，在此设想如下场景，即，房间R内的电视机的电源是断开的，门铃电话也未响起，听不见来自室外的任何声音。即，设想声源仅为用户P的场景。

在本实施方式中，为了使面部检测处理的完成时间点提前，不是在机器人100的头部110的旋转结束之后进行面部检测，而是在机器人100的头部110旋转的期间进行面部检测处理的一部分的处理(以下，称为分散面部检测处理)。

控制部127通过执行存储在存储部125的呼唤响应程序1251，从而进行以下的呼唤响应处理，并作为判别传声器112的输入语音的声源的方向的声源方向判别部、判别在不同的时间进行摄像得到的摄像图像的重复的区域的判别部、检测摄像图像包含的人的面部的面部检测部而发挥功能。

参照图5的流程图对呼唤响应处理进行说明。控制部127判别是否在机器人100的周边检测到了某种程度的大小的声音(步骤S101)。具体地，控制部127判别是否对一个以上的传声器112输入了给定的阈值以上的振幅的声音。另外，设给定的大小取决于传声器112的输入灵敏度。

在未能通过传声器112检测到给定的大小的声音的情况下(步骤S101；否)，控制部127等待至检测到声音。

另一方面，在判别为检测到了某种程度的大小的声音的情况下(步骤S101；是)，控制部127判别由传声器112检测到的声音是否为人类的声音(步骤S102)。具体地，控制部127判别在步骤S101中检测到的声音是否为特定的频带的声音(人的声音的频率模式)。在步骤S101中检测到的声音不是人类的声音的情况下(步骤S102；否)，控制部127返回到步骤S101，等待至检测到声音。

另一方面，当判别为是人类的声音时(步骤S102；是)，控制部127为了求出声源的位置(在此，是用户P发出声音的位置)而进行语音定位(步骤S103)。在此，假设为了推定声源的位置而采用了作为声源定位的一种方法的MUSIC(Multiple Signal Classification，多重信号分类)。另外，假设在声源定位的过程中作为声源的用户P不移动而静止。

在图6示出采用了MUSIC的声源定位的处理的流程图。以下，参照图6对声源定位的处理进行说明。

首先，对输入到传声器112的语音进行时间频率变换(步骤S10301)。在此，作为时间频率变换，进行STFT(Short-Time Fourier Transform)(短时间傅里叶变换)。

当将声源数设为N时，第n个声源的信号Sn可用下述式(1)表示。

Sn(ω，f)(n＝1，2，…，N)…(1)

ω是角频率，f是帧编号(在以下的说明中也相同)。

当将传声器112的数量设为M时，用传声器112观测的信号可用下述式(2)表示。

Xm(ω，f)(m＝1，2，…，M)…(2)

从声源发出的声音在空气中传播而被传声器112观测，当将此时的传递函数设为Hnm(ω)时，通过对表示声源的信号的数学式乘以传递函数，从而能够求出在传声器112中观测到的信号。在第m个传声器112中观测到的信号Xm(ω，f)可表示为下述式(3)。

[数学式1]

机器人100具有多个传声器112，因此在传声器112整体中观测到的信号x(ω，f)能够用下述式4表示。

[数学式2]

同样地，全部声源的信号s(ω，f)也能够用下述式(5)表示。

[数学式3]

同样地，第n个声源的传递函数hn(ω)能够用下述式(6)表示。

[数学式4]

将全部的传递函数记载为下述式(7)。

h(ω)＝[h1(ω)，h2(ω)，…hN(ω)]…(7)

当将用上述的式(7)表示的传递函数应用于上述的式(3)时，可表示为下述式(8)。

x(ω，f)＝h(ω)s(ω，f)…(8)

hn(ω)按每个声源位置是独立的，如果以某种程度的帧数(例如，将帧数设为L)来看，则Sn(ω，f)可视为不相关的，因此x(ω，f)构成将声源数N作为RANK的超平面。此时，分布容易在用距离进行了归一化的音量大的声源的传递函数方向上扩展。因此，可考虑分解为子空间和零空间。

再次参照图6。像下式(9)那样计算相关矩阵(步骤S10302)。在此，＊意味着复共轭转置。

[数学式5]

接下来，进行特征值分解(步骤S10303)。在此，假设特征值λm(ω，f)和本征向量em(ω，f)被重新排序，使得特征值成为降序。

原理上，hn(ω)能够从子空间的本征向量em(ω，f)(m＝1～N)的加权相加进行复原，但是实际上难以复原，因此使用构成零空间的本征向量em(ω，f)(m＝N+1～M)与hn(ω)正交来实现声源定位。

但是，作为声源的用户P有可能会在房间R内移动，因此不能预先知道声源位置，难以预先获取声源位置的传递函数。因此，决定假定的声源位置，预先准备假定的声源位置的传递函数，进行声源定位。

在图7示出假定的声源位置与传声器的配置的一个例子。在图7中，粗线的圆表示机器人100的头部110，粗线上的实心圆表示传声器112。另外，在此，方便起见，未显示13个传声器112的全部。假设在机器人100的周围有4个假定的声源位置。

多个传声器112因为配置在机器人100的头部110，所以能够视为沿着圆周配置。将X轴的正向与分别连结了传声器112所构成的圆的中心(相当于机器人100的头部110的中心位置)和假定的声源1～4的线所成的角度设为θ1、θ2、θ3、θ4，并预先计算各自的传递函数hθ(ω)。

虽然在图7中示出了声源为4个的例子，但是在声源数为N个的情况下，只要预先计算θ1、θ2、…θN各自的传递函数hθ(ω)即可。此外，或者也可以不准备假定的声源位置的传递函数，而是基于几何信息预先计算传递函数。

接着，使用式(10)计算每个频带的MUSIC谱(步骤S10304)。

[数学式6]

在此，式(10)的分母由于噪声、误差、STFT的频带间的信号泄漏的影响等而不会成为零。此外，在声源的方向与预先决定的角度θ(θ1、θ2、…θN)中的任一个接近的情况下，即，在hn(ω)与hθ(ω3)接近的情况下，式(10)的值会变得极大。在图7所示的例子中，因为作为声源的人与假定的声源2的位置接近，所以在使用了θ2的传递函数的情况下，可设想式(10)的值会变得极大。

然后，为了求出合并的MUSIC的功率，如式(11)所示地将每个频带的MUSIC谱进行加权相加(步骤S10305)。

[数学式7]

如果特征值λm(ω，f)越大，就将加权系数设得越大，则还能够进行与Sn(ω，f)包含的功率相应的计算。在该情况下，能够减轻在Sn(ω，f)几乎没有功率的情况下的不良影响。

接下来，从功率谱选择适当的峰(极大值)(步骤S10306)。具体地，首先，求出多个峰，从其中选择适当的峰，将选择出的峰处的θ作为声源方向。在此，基于如下的理由求出峰。因为原本的声源方向的θ的功率未必最大，接近原本的声源方向的θ的功率总的来说会变大，所以声源方向在多个峰中的某一个存在正解。

此外，即使在电视机开着、门铃电话响起等在房间R内存在其它声源的情况下，也可认为在许多的情况下人会以比电视机、门铃电话等周围的声音大的声音呼唤机器人100。因而，可设想人的声音的功率比从人以外的电视机、门铃电话等声源发出的声音的功率更大。因而，即使单纯地选择表示功率成为最大的假定的声源位置的θ作为声源方向也没有问题。但是，根据周围的环境等，也存在不选择功率成为最大的假定的声源位置作为声源方向，而是选择功率为第二大或者其以后的假定的声源位置作为声源方向更合适的情况。这样，能够判别声源方向，在此为从机器人100的位置观察的用户P所在方向。

声源定位的处理如上。在此，虽然假定平面进行了说明，但是即使假定三维，上述说明也成立。

再次参照图5。当执行步骤S103的声源定位来判别声源方向时，控制部127作为示出声源方向的信息而将示出声源相对于机器人100所朝方向的方向的角度θ存储到存储部125。接下来，控制部127前进到步骤S104，执行分散面部检测的处理。在分散面部检测的处理中，机器人100的头部110开始旋转，在直到完成旋转为止的期间，照相机111进行一次或多次摄像，并对摄像得到的图像进行面部检测的处理。

因为在机器人100的头部朝向声源方向时完成旋转，所以在机器人100的头部110完成旋转之前进行摄像得到的图像包含完成旋转时进行摄像得到的图像的一部分，或者完全不包含。

参照图8对具体的例子进行说明。图8A示出房间R内的机器人100与用户P的位置关系的一个例子。在此，在开始旋转之前，机器人100的照相机111的镜头朝向纸面上侧。设想当检测到用户P的声音时，机器人100顺时针旋转大致90度，将照相机111的镜头朝向用户P。

假定在作为开始了旋转的时间点的时刻t1、比时刻t1靠后的时刻t2、比时刻t2靠后的时刻t3分别进行了摄像。时刻t4是完成了旋转的时刻。

关于时刻t1的摄像图像，在图8B示出时刻t1的摄像图像与预测在完成了旋转的时刻t4由照相机111进行摄像的图像重复的区域。用斜线涂满的范围为相互重复的区域。关于重复的区域，基于照相机111的视角、根据当前的照相机111的摄像方向和声源方向求出的应使头部110旋转的角度、机器人100的姿势、颈关节121的旋转的速度等求出。

在图8C，示出时刻t2的摄像图像与预测在完成了旋转的时刻t4由照相机111进行摄像的图像重复的区域。用斜线涂满的范围是相互重复的区域。因为正在进行头部110的旋转，所以时刻t2与时刻t4的重复范围(图8C斜线范围)比时刻t1与时刻t4的重复范围(图8B的斜线范围)宽。

在图8D，示出时刻t3的摄像图像与预测在完成了旋转的时刻t4由照相机111进行摄像的图像重复的区域。用斜线涂满的范围是相互重复的区域。因为正在进行头部110的旋转，所以时刻t3与时刻t4的重复范围(图8D的斜线范围)比时刻t2与时刻t4的重复范围(图8C的斜线范围)宽。

在本实施方式中，在时刻t1进行摄像之后，对摄像得到的图像中的、与预测在时刻t4由照相机111进行摄像的图像重叠的区域(图8B的斜线的范围)执行面部检测的处理。

在时刻t2进行摄像之后，对摄像得到的图像中的、与预测在时刻t4由照相机111进行摄像的图像重叠的区域(图8C的斜线部分)中的、除去了与在时刻t1的摄像之后处理过的范围重复的部分的区域执行面部检测的处理。

在时刻t3进行摄像之后，对摄像得到的图像中的、与预测在时刻t4由照相机111进行摄像的图像重叠的区域(图8D的斜线部分)中的、除去了与在比其靠前的时刻(时刻t1、时刻t2)的摄像之后处理过的范围重复的部分的区域执行面部检测的处理。

像这样，判别在旋转中途的某个定时(第一定时)进行摄像得到的图像(第一图像)与在完成旋转之后(第二定时)进行摄像得到的图像(第二图像)重复的区域。在旋转中途，对重复的区域且未进行面部检测的处理的区域执行面部检测的处理。然后，在完成旋转之后，对判别出的重复的区域以外执行面部检测的处理。

参照图9的分散面部检测的处理的流程图对控制部127执行的分散面部检测的具体的处理进行说明。

首先，控制部127进行存储在存储部125中的检测完成区域数据的初始化(步骤S10401)。检测完成区域数据包含示出已完成面部检测的处理的范围的信息。如上所述，在旋转中途多次执行面部检测的处理，因此这是为了不对已经完成了面部检测的范围重复进行处理。

在此，在检测完成区域数据中包含表示如下范围的坐标的信息，即，预测在完成旋转的位置处由照相机111进行摄像的图像(旋转完成时的预测摄像图像)的范围、和该范围中使用在旋转中途进行摄像得到的图像进行了面部检测的范围。

例如，如图10A所示，假设旋转完成时的预测摄像图像为连结了坐标P1(x1，y2)、P2(x2，y2)、P3(x2，y1)、P4(x1，y1)这4个点的坐标的范围。假设在时刻t1进行摄像得到的图像中的与预测摄像图像重复的区域为用斜线涂满的连结了坐标P5(x3，y2)、P2(x2，y2)、P3(x2，y1)、P6(x3，y1)这4个点的坐标的范围。

在时刻t1的摄像后，因为在它之前未进行面部检测，所以对图10A的斜线范围进行面部检测处理。在该处理后，在检测完成区域数据中存放坐标P5、P2、P3、P6这4个点的坐标值。

如图10B所示，假设在时刻t2进行摄像得到的图像中的与预测摄像图像重复的区域为连结了P7、P2、P3、P8这4个点的坐标的范围。此时，在检测完成区域数据中存放有坐标P5、P2、P3、P6这4个点的坐标值，因此在时刻t2的摄像后，从连结了P7、P2、P3、P8这4个点的坐标的范围除去了作为检测完成区域的连结了坐标P5、P2、P3、P6这4个点的坐标的范围的范围成为面部检测的对象的区域。

当时刻t2的摄像后的面部检测处理结束时，在检测完成区域数据中存放坐标为P7、P2、P3、P8这4个点的坐标值。

如图10C所示，假设在时刻t3进行摄像得到的图像中的与预测摄像图像重复的区域为连结了P9、P2、P3、P10这4个点的坐标的范围。此时，在检测完成区域数据中存放有坐标P7、P2、P3、P8这4个点的坐标值，因此在时刻t3的摄像后，从连结了P9、P2、P3、P10这4个点的坐标的范围除去了作为检测完成区域的连结了坐标P7、P2、P3、P8这4个点的坐标的范围的范围成为面部检测的对象的区域。

此外，对于将图10C的未进行面部检测处理的坐标P1、P9、P10、P4这4个点的坐标连结的范围，在旋转完成后进行面部检测。

另外，由旋转造成的照相机的观察效果会根据距对象的距离而改变，因此在以下说明的面部检测中，使用金字塔图像(以一定的比率对原图像重复进行缩小而制作的一系列的图像组)，对金字塔图像的各层次应用面部检测器，这将在后面进行详细叙述。因此，虽然在图10A～图10C中图示了一个层次的范围，但是实际上对摄像图像进行遍及多个层次的面部检测。

再次参照图9。接下来，控制部127驱动颈关节121的电机，开始头部110的旋转(步骤S10402)。在此，控制部127旋转头部110，直到机器人100的头部110的正面(照相机111的镜头面)朝向声源(用户P)的方向为止。具体地，控制部127控制颈关节121，使得机器人100的头部110旋转存储在存储部125中的通过声源定位求出的角度θ。

控制部127控制照相机111进行摄像(步骤S10403)，并将摄像得到的图像(摄像图像)存放到存储部125。进而，控制部127从存储部125获取由照相机111进行了摄像的位置处的外部照相机参数(旋转矩阵和平移向量)，并将摄像得到的图像的信息和外部照相机参数建立对应而存储到存储部125。外部照相机参数是以旋转驱动的完成位置为基准的参数。假设根据机器人100的姿势的当前位置和旋转完成位置，预先可知与旋转相关的外部照相机参数。

接着，控制部127求出摄像得到的图像与旋转完成时的预测摄像图像重复的区域对应于旋转完成位置处的预测摄像图像的哪个位置(步骤S10404)。基于旋转矩阵的位置对应关系能够通过透视变换而求出。基于平移向量的位置对应关系能够根据内部照相机参数和到被摄体为止的进深方向上的距离而求出。假设内部照相机参数在事先已完成计测。进深方向的距离(的代表值)能够根据金字塔图像的缩小率和检测窗的尺寸等而预先设定。

控制部127判别进行面部检测的范围(步骤S10405)。在步骤S10404中求出的对应位置所示的范围中还包含已经实施了面部检测的处理的范围。因而，控制部127基于存放在存储部125中的检测完成区域数据和在S10404中求出的对应位置所示的范围，判别进行面部检测的范围。另外，面部检测处理的对象的范围也可以视余量(margin)而稍微减小。

控制部127判别在步骤S10405中判别出的范围的大小是否为给定值以上(步骤S10406)。在判别出的范围的大小小于给定值的情况下(步骤S10406；否)，控制部127返回到步骤S10403的处理。给定值至少为一个像素，但是也可以根据控制部127的性能，根据计算负荷等而设为稍微大的值。

在为给定值以上的情况下(步骤S10406；是)，控制部127进行在步骤S10405中判别出的范围的图像变换(图像的切取)(步骤S10407)。从在步骤S10403得到的图像(摄像图像)，基于在步骤S10404中求出的对应位置，制作从摄像图像切取了与旋转完成时的摄像预测图像重复的部分+α的范围的图像。+α的量考虑检测窗的尺寸、外部照相机参数的误差等来决定。

控制部127对在步骤S10407中生成的图像进行面部检测(步骤S10408)。

控制部127进行的面部检测的方法如下。首先，制作金字塔图像。所谓金字塔图像，是以一定的比率对原图像重复进行缩小而制作的一系列的图像组，通过对金字塔图像的各层次应用固定尺寸的面部检测器，从而能够检测各种各样的尺寸(即，相当于距离)的面部。在此，由旋转造成的照相机的观察效果会根据距对象的距离而改变，因此使用金字塔图像进行面部检测。

首先，将面部搜索对象设定在最初的层次。在此，设为缩小前的原来的图像。设定最初的检测窗。初始位置例如设为左上角。对设定的检测窗应用固定尺寸的面部检测器。判定基于该层次中的滑动的搜索是否已完成。如果基于滑动的搜索未完成，则使检索窗滑动，再次进行面部检测。如果基于滑动的搜索已完成，则进行金字塔图像的全部的层次中的处理是否已完成的判定。如果全部的层次中的处理未完成，则移动层次，在移动目的地的层次中也进行基于滑动的面部检测。如果全部的层次中的处理已完成，则结束面部检测的处理。

另外，在用户P处于靠近机器人100的场所的情况下，考虑到存在其面部未完全进入到摄像图像的情况和整体的计算负荷的比例小的情况，更优选不进行缩小率大的层次的面部搜索。

参照图9。当判别为面部检测已成功时(步骤S10408；是)，控制部127结束分散面部检测处理，并跳到图5的步骤S106。另一方面，当判别为图9的面部检测未成功时(步骤S10408；否)，控制部127将检测完成区域数据记录到存储部125(步骤S10409)。在此，控制部127记录表示在步骤S10408中已结束了面部检测的范围的坐标值。

接下来，控制部127判别是否完成了旋转(步骤S10410)，当判别为未完成旋转时(步骤S10410；否)，返回到步骤S10403，再次控制照相机111进行摄像。

另一方面，当判别为旋转了通过声源定位求出的角度θ时，即，判别为完成了旋转时(步骤S10410；是)，控制部127基于存储在存储部125中的检测完成区域数据对旋转完成时的预测摄像图像中的未处理的范围进行面部检测(步骤S10411)。

再次参照图5。在面部检测未成功的情况下(步骤S105；否)，控制部127再次返回到步骤S101。

另一方面，当面部检测成功时(步骤S105；是)，控制部127进行面部方向调整，使得正对用户P(步骤S106)。在此，控制部127判别是否与用户P正对，在判别为未正对的情况下，控制颈关节121，使头部110旋转，使得机器人100的面部(头部110的正面)正对用户P。

接下来，控制部127判别用户P是否正在注视机器人100(步骤S107)。具体地，控制部127控制照相机111对用户P进行摄像，对摄像得到的图像进行面部检测，判别用户P的面部是否朝向机器人100的方向。或者，也可以不仅判别面部的方向，还对持续时间进行判别。具体地，控制部127可以控制照相机111在给定的期间进行多次摄像，判别在给定的期间用户P的面部是否朝向机器人100的方向，且面部的方向是否未改变。

当基于摄像得到的图像判别为用户P未注视机器人100时(步骤S107；否)，控制部127再次返回到步骤S101，等待声音的输入。

另一方面，当判别为用户P的面部朝向机器人100的方向时(步骤S107；是)，控制部127移动给定的距离，使得靠近用户P(步骤S108)，并判别与用户P的距离是否成为规定的距离(步骤S109)。该用户P与机器人100之间的规定的距离是，机器人100能够对用户P发声的内容进行语音识别的程度的距离。在判别为用户P与机器人100之间的距离小于规定的距离的情况下(步骤S109；否)，控制部127再次返回到步骤S108。

另一方面，在判别为用户P与机器人100之间的距离成为规定的距离的情况下(步骤S109；是)，控制部127与用户P进行对话(步骤S110)。例如，控制部127控制扬声器113，对用户P发话，例如“请问有什么事？”，此外，对从传声器112输入的用户的发言进行语音分析，并基于分析出的内容从扬声器113输出某些语音。

像以上说明的那样，在本实施方式中，不等待旋转完成就开始面部检测处理。因此，与以往相比，在旋转完成后成为面部检测处理的对象的范围变窄，能够缩短在旋转完成后面部检测所需的时间。因此，能够将完成面部检测的时间点提前。因而，能够提高机器人的响应性。

另外，虽然在上述的说明中，以偏航(yaw)为前提对旋转驱动进行了说明，但是即使有其它方向上的旋转也成立。

此外，像图5的流程的步骤S106的处理那样，此外，根据本实施方式，即使能够从由照相机111进行摄像得到的图像检测到用户P，在该用户P未正对机器人100的情况下，控制部127调整机器人100的面部的方向，使得正对用户P。像这样，控制部127作为面部方向调整部而发挥功能，从而用户能够与正对的机器人100顺利地进行交流。

当然，本发明不限定于上述实施方式，能够在不脱离本发明的主旨的部分中进行各种修正。

虽然在参照上述的图8、图10进行的说明中示出了在时刻t1～t4进行摄像的例子，但是旋转中途的摄像的定时也可以不是规定的时刻。摄像的定时是任意的。例如，也可以在从开始旋转起经过了给定的时间之后进行摄像，并在该摄像后进一步经过了给定的时间之后进行摄像，如此反复。或者，也可以不以给定的时间间隔开始下一次的摄像，而是在结束了摄像和面部检测的处理的定时开始下一次的摄像。

进而，此外，既可以在旋转开始的时间点进行摄像，也可以不在旋转开始的时间点进行摄像。也可以根据判别出的声源方向判别是否在旋转开始的时间点进行摄像。例如，可以使得，在照相机111的摄像方向与声源方向所成的角度在给定的范围内的情况下，在旋转开始的时间点进行摄像，除此以外，不在旋转开始的时间点进行摄像。

虽然在上述的实施方式中对机器人100、用户P均在屋内(房间R内)的例子进行了说明，但是即使是屋外，同样地能够在完成旋转前开始面部检测处理。

虽然在上述的实施方式中直到完成旋转为止重复了摄像和摄像图像的面部检测，但是例如也可以使用计时器在初次的摄像和摄像图像的面部检测后，在经过给定期间之后进行下一次摄像和摄像图像的面部检测。

虽然在上述的面部检测中，依次移动金字塔图像的层次而进行了面部检测，但是控制部127也可以基于传声器112的输入语音的大小(振幅的大小)，推定从机器人100到声源的距离，并基于推定出的距离，不对金字塔图像的全部的层次进行面部检测。例如，在判别为用户P处于附近的情况下，无需使用缩小至某种程度的金字塔图像。

控制部127可以判别从声源发出的声音是否朝向机器人100，仅在判别为朝向机器人100的情况下，通过进行摄像、面部检测等处理而进行反应，在除此以外的情况下，不进行反应。在该情况下，例如，通过作为传声器112包含的13个传声器而使用单一指向性传声器，从而能够精度良好地判别从声源发出的声音的方向。

控制部127在规定的定时(例如，每个整点、每隔两小时)控制照相机111对本机的周边进行摄像，并将摄像得到的图像预先存储在存储部125中。然后，通过传声器112检测声音，在判别声源方向之后，从存储部125获取包含判别出的声源方向的范围的图像，对获取的图像与照相机111进行摄像得到的图像重复的区域进行面部检测。

在该情况下，在照相机111进行摄像的范围不包含作为声源的用户P所在的周边的图像时，不进行面部检测。因而，不会进行无用的检测处理，能够高效地进行面部检测。

此外，虽然在上述实施例中对具备照相机111(摄像部)的机器人100进行了叙述，但是未必一定要具备照相机111(摄像部)，也可以接收由其它照相机进行摄像得到的静止图像并进行处理。

此外，本发明涉及的面部识别装置不依赖于专用的系统，能够使用通常的计算机系统来实现。例如，可以将用于执行上述动作的程序存放在计算机系统可读的记录介质(CD-ROM(Compact Disc Read Only Memory，光盘只读存储器)，MO(Magneto-Optical，磁光)等)而发布给连接到网络的计算机，并将该程序安装到计算机系统，由此，构成执行上述的处理的面部识别装置。

此外，对计算机提供程序的方法是任意的。例如，程序也可以上传到通信线路的公告板(BBS(Bulletin Board System))，并经由通信线路发送到计算机。此外，程序也可以通过利用表示程序的信号对载波进行了调制的调制波进行传输，并由接收到该调制波的装置对调制波进行解调而复原程序。然后，计算机启动该程序，基于OS(Operating System，操作系统)的控制，与其它应用同样地执行。由此，计算机作为执行上述的处理的面部识别装置而发挥功能。

本发明能够在不脱离本发明的广义的精神和范围的情况下设为各种各样的实施方式以及变形。此外，上述的实施方式用于对本发明进行说明，并不限定本发明的范围。即，本发明的范围不是由实施方式示出，而是由权利要求书示出。而且，在权利要求书内以及与其等同的发明的意思的范围内实施的各种各样的变形可视为在本发明的范围内。

Claims

1.一种对象物检测装置，具备：

2.根据权利要求1所述的对象物检测装置，其中，

还具备：动作部，改变所述摄像部的摄像方向，

对所述摄像部进行控制，使得所述摄像部在通过由所述动作部进行的改变所述摄像部的摄像方向的动作而使摄像方向变化的期间进行多次摄像。

3.根据权利要求2所述的对象物检测装置，其中，

对所述摄像部进行控制，使得在通过由所述动作部进行的改变所述摄像部的摄像方向的动作而使摄像方向变化的期间，以给定的时间间隔进行多次摄像。

4.根据权利要求2所述的对象物检测装置，其中，

对所述摄像部进行控制，使得在通过由所述动作部进行的改变所述摄像部的摄像方向的动作而使摄像方向变化的期间，在由所述对象物检测部进行的检测处理结束的定时进行下一次摄像。

5.根据权利要求2所述的对象物检测装置，其中，还具备：

声音检测部，检测周围的声音；以及

声源方向判别部，基于所述声音检测部检测到的声音，判别声源的方向，

所述动作部进行控制，使所述对象物检测装置旋转，以使得所述摄像部的摄像方向朝向所述声源方向判别部判别出的声源的方向，并使得所述摄像部的摄像方向接近所述声源的方向。

6.根据权利要求5所述的对象物检测装置，其中，

在由所述声源方向判别部判别出的声源的方向与判别时间点的所述摄像部的摄像方向所构成的角度在给定的范围内的情况下，所述动作部不使所述对象物检测装置旋转，并控制所述摄像部，使得由所述摄像部进行摄像。

7.根据权利要求5所述的对象物检测装置，其中，

所述对象物检测部基于所述声音检测部检测到的声音的大小，推定到发出声源的物体的距离，并在对象物的检测中使用与推定出的距离相应的缩小率的检测窗。

8.根据权利要求5所述的对象物检测装置，其中，

还具备：存储部，存储有所述对象物检测装置周边的摄像图像，

所述对象物检测部从所述存储部获取对所述声源方向判别部判别出的声源的方向进行摄像得到的图像，并对获取的图像与所述摄像部进行摄像得到的图像重复的区域进行对象物的检测。

9.根据权利要求1所述的对象物检测装置，其中，

所述对象物检测部对所述第一图像检测对象物，并且检测除了所述判别部判别出的所述重复的区域以外的区域所包含的对象物。

10.根据权利要求1至9中的任一项所述的对象物检测装置，其中，

所述对象物检测部将进行了对象物的检测的区域设为检测处理完成区域，并对所述检测处理完成区域以外的区域进行检测。

11.根据权利要求1所述的对象物检测装置，其中，

所述对象物是人的面部、人的身体、发出声音的物体、或能够摄像的物体中的任一者。

12.根据权利要求1所述的对象物检测装置，其中，

所述判别部判别从声源发出的声音是否为向所述对象物检测装置发出的声音，仅在判别为是发往所述对象物检测装置的声音的情况下，判别所述重复的区域。

13.一种对象物检测方法，具备：

14.一种计算机可读取的记录介质，记录有程序，其中，

所述程序使计算机实现如下功能：

对象物检测功能，检测所述第二图像中的除了通过所述判别功能判别出的所述重复的区域以外的区域的图像所包含的对象物。