CN111527739A

CN111527739A - 摄像设备及其控制方法和记录介质

Info

Publication number: CN111527739A
Application number: CN201880083608.1A
Authority: CN
Inventors: 鸟海祐介; 风间规久夫; 佐藤龙介; 辻本悠贵
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-12-26
Filing date: 2018-11-19
Publication date: 2020-08-11
Also published as: US20200329202A1; JP2019117375A

Abstract

本发明可以在无需用户进行特殊操作的情况下以用户期望的构图在用户期望的定时拍摄图像。为此，一种包括摄像单元的摄像设备，该摄像设备包括：驱动单元，用于驱动摄像单元；第一检测单元，用于检测用户存在于的方向；第二检测单元，用于检测摄像设备的移动；多个声音收集单元，用于收集语音；第三检测单元，用于使用多个声音收集单元来检测语音的声源的方向；以及控制单元。控制单元基于第一检测单元检测到的用户存在于的方向和第二检测单元所检测到的摄像设备的移动，从多个声音收集单元中确定两个或更多个声音收集单元。第三检测单元使用所确定的两个或更多个声音收集单元来检测语音的声源的方向。在第三检测单元使用所确定的两个或更多个声音收集单元检测到语音的声源的方向的情况下，控制单元控制驱动单元，使得摄像单元的摄像方向指向第三检测单元所检测到的声源的方向。

Description

摄像设备及其控制方法和记录介质

技术领域

本发明涉及摄像设备及其控制方法和记录介质。

背景技术

在使用诸如照相机等的摄像设备拍摄静止图像或运动图像时，用户通常在经由取景器等确定拍摄目标、并且亲自确认拍摄状况并调整要拍摄的图像的取景之后，拍摄图像。这样的摄像设备配备有如下的功能：在检测到错误时，向用户通知用户所进行的操作错误，或者检测外部环境并向用户通知处于不适合拍摄的环境中。此外，已知有控制照相机以进入适合于拍摄的状态的机制。

与根据用户操作来执行拍摄的这样的摄像设备相比，存在在无需用户给出拍摄指示的情况下间断地和连续地进行拍摄的生活记录照相机(专利文献1)。

现有技术文献

专利文献

专利文献1：日本特表2016-536868

发明内容

发明要解决的问题

然而，由于已知的附着至用户的身体的类型的生活记录照相机定期地进行自动拍摄，因此存在通过拍摄所获得的图像不是用户所期望的图像的情况。

本发明是有鉴于上述问题而做出的，并且目的在于提供如下的技术，该技术使得能够在无需用户进行特殊操作的情况下，以用户期望的构图在用户期望的定时拍摄图像。

用于解决问题的方案

为了解决该问题，例如，本发明的第一摄像设备包括以下的结构。也就是说，一种摄像设备，其包括摄像部件，其特征在于，所述摄像设备包括：

驱动部件，用于驱动所述摄像部件；

第一检测部件，用于检测用户存在于的方向；

第二检测部件，用于检测所述摄像设备的移动；

多个声音收集部件，用于收集语音；

第三检测部件，用于使用所述多个声音收集部件来检测语音的声源的方向；以及

控制部件，

其中，所述控制部件基于所述第一检测部件所检测到的用户存在于的方向和所述第二检测部件所检测到的所述摄像设备的移动，来从所述多个声音收集部件中确定两个或更多个声音收集部件，

所述第三检测部件使用所确定的两个或更多个声音收集部件来检测语音的声源的方向，以及

在所述第三检测部件使用所确定的两个或更多个声音收集部件检测到语音的声源的方向的情况下，所述控制部件控制所述驱动部件，使得所述摄像部件的摄像方向指向所述第三检测部件所检测到的声源的方向。

发明的效果

根据本发明，首先，提供如下的技术，该技术用于可以在无需用户进行特殊操作的情况下，以用户期望的构图在用户期望的定时拍摄图像。

此外，根据另一变形例，除上述第一效果之外，作为根据使用模式来改变要用于方向检测的麦克风的数量的结果，可以在实现省电的同时，防止由于在附着至用户的身体的情况下等通过与衣服摩擦所产生的声音而错误地检测到声音方向。

此外，根据另一变形例，除了上述第一效果之外，摄像方向不会改变到无意义的方向。

此外，根据另一变形例，除了上述第一效果之外，随着从使用开始起的时间经过，摄像部件的摄像方向向着被摄体的移动效率提高。

另外，根据另一变形例，除了上述第一效果之外，声源的方向的精度取决于摄像部件的倍率，因此检测声源方向的精度无需保持高，并且可以降低电力消耗。

本发明的其它特征和优点将在以下参考附图的说明中显而易见。注意，在附图中，相同或相似的构成元件被指派相同的附图标记。

附图说明

附图包括在说明书中并构成说明书的一部分，例示本发明的实施例，并用于连同说明书的描述一起说明本发明的原理。

图1是根据实施例的摄像设备的框图。

图2是根据实施例的声音输入单元和声音信号处理单元的详细框图。

图3A是根据实施例的摄像设备的俯视图和正视图。

图3B是示出实施例中的摄像设备的使用示例的图。

图3C是示出实施例中的摄像设备的使用示例的图。

图3D是示出实施例中的摄像设备的使用示例的图。

图3E是示出实施例中的摄像设备的使用示例的图。

图4是示出根据实施例的摄像设备的平摇和俯仰操作的图。

图5A是示出实施例中的中央控制单元的处理过程的流程图。

图5B是示出实施例中的中央控制单元的处理过程的流程图。

图6是示出图5B中的语音命令处理的详情的流程图。

图7是示出实施例中的语音命令的含义与语音命令之间的关系的图。

图8是实施例中的从启动起直到操作拍摄开始命令为止的时序图。

图9A是示出根据实施例的声音方向检测方法的图。

图9B是示出根据实施例的声音方向检测方法的图。

图9C是示出根据实施例的声音方向检测方法的图。

图10A是示出在摄像设备的正上方存在声源的情况下的检测方法的图。

图10B是示出在摄像设备的正上方存在声源的情况下的检测方法的图。

图11是示出第一实施例中的用于检测安装位置的处理的流程图。

图12A是示出第一实施例中的检测各安装位置的声源方向的原理的图。

图12B是示出第一实施例中的检测各安装位置的声源方向的原理的图。

图12C是示出第一实施例中的检测各安装位置的声源方向的原理的图。

图13A是示出第一实施例中的各安装位置的声源的检测范围的图。

图13B是示出第一实施例中的各安装位置的声源的检测范围的图。

图13C是示出第一实施例中的各安装位置的声源的检测范围的图。

图14A是示出第二实施例中的摄像设备1的使用模式的图。

图14B是示出图14A的使用模式中的掩蔽区域的图。

图14C是示出第二实施例中的摄像设备1的使用模式的图。

图14D是示出图14C的使用模式中的掩蔽区域的图。

图14E是示出第二实施例中的摄像设备1的使用模式的图。

图14F是示出图14E中使用模式中的掩蔽区域的图。

图15A是示出第二实施例中的中央控制单元的处理过程的流程图。

图15B是示出第二实施例中的中央控制单元的处理过程的流程图。

图16是示出第三实施例中的问题的图。

图17是示出第三实施例中的中央控制单元的处理过程的流程图。

图18是示出第三实施例中的改进了的操作的图。

图19是示出第三实施例的变形例中的中央控制单元的处理过程的流程图。

图20是示出第三实施例的变形例中的改进了的操作的图。

图21A是示出第四实施例中的声音方向的灵敏度与视角之间的关系的图。

图21B是示出第四实施例中的声音方向的灵敏度与视角之间的关系的图。

图22A是示出第四实施例中的在增加变焦倍率的情况下的声音方向的灵敏度与视角之间的关系的图。

图22B是示出第四实施例中的在增加变焦倍率的情况下的声音方向的灵敏度与视角之间的关系的图。

图22C是示出第四实施例中的在增加变焦倍率的情况下的声音方向的灵敏度与视角之间的关系的图。

图23是示出声音方向上的检测分辨率与处理负荷之间的关系的图。

图24A是示出第四实施例中的水平方向上的拍摄视角与检测声音方向时的水平方向上的检测分辨率之间的关系的图。

图24B是示出第四实施例中的水平方向上的拍摄视角与检测声音方向时的水平方向上的检测分辨率之间的关系的图。

图24C是示出第四实施例中的水平方向上的拍摄视角与检测声音方向时的水平方向上的检测分辨率之间的关系的图。

图25是示出第四实施例中的接收到变焦倍率的语音命令时的中央控制单元的处理过程的流程图。

图26A是示出第四实施例中的摄像设备的操作内容的图。

图26B是示出第四实施例中的摄像设备的操作内容的图。

图26C是示出第四实施例中的摄像设备的操作内容的图。

图26D是示出第四实施例中的摄像设备的操作内容的图。

具体实施方式

以下将参考附图来详细说明本发明的实施例。

[第一实施例]

图1是根据第一实施例的摄像设备1的框结构图。摄像设备1由可动摄像单元100和支撑单元200构成，该可动摄像单元100包括光学透镜单元，其中进行摄像的方向(光轴方向)是可变的，该支撑单元200包括中央控制单元(CPU)，该CPU进行可动摄像单元100的驱动控制，并且控制摄像设备整体。

注意，支撑单元200设置有包括压电元件的多个振动器11～13，以与可动摄像单元100的面接触。可动摄像单元100通过控制这些振动器11～13的振动来进行平摇和俯仰操作。注意，结构可以如下：使用伺服马达等来实现平摇和俯仰操作。

可动摄像单元100包括镜头单元101、摄像单元102、镜头致动器控制单元103和声音输入单元104。

镜头单元101由包括变焦透镜、光圈/快门和调焦透镜等的拍摄光学系统构成。摄像单元102包括诸如CMOS传感器或CCD传感器等的图像传感器，将由镜头单元101形成的光学图像光电转换成电信号，并输出该电信号。镜头致动器控制单元103包括马达驱动器IC，并且驱动镜头单元101的变焦透镜、光圈/快门和调焦透镜等所用的各种致动器。基于从后面将说明的支撑单元200中的中央控制单元201接收到的致动器驱动指示数据来驱动各种致动器。声音输入单元104是包括麦克风(以下称为麦克风(mic))的声音输入单元，并由多个麦克风(在本实施例中为四个麦克风)构成，并且将声音信号转换成电信号，将该电信号转换成数字信号(声音数据)，并输出该数字信号。

另一方面，支撑单元200包括用于控制摄像设备1整体的中央控制单元201。中央控制单元201由CPU、存储有CPU所要执行的程序的ROM和用作CPU的工作区的RAM构成。此外，支撑单元200包括摄像信号处理单元202、视频信号处理单元203、声音信号处理单元204、操作单元205、存储单元206和显示单元207。支撑单元200还包括输入/输出端子单元208、声音再现单元209、电源单元210、电源控制单元211、位置检测单元212、枢转控制单元213、无线通信单元214、以及上述振动器11～13。

摄像信号处理单元202将从可动摄像单元100的摄像单元102输出的电信号转换成视频信号。视频信号处理单元203根据用途来对从摄像信号处理单元202输出的视频信号进行处理。视频信号的处理包括图像的剪切、通过旋转处理所实现的电子图像稳定操作、以及用于检测被摄体(面部)的被摄体检测处理。

声音信号处理单元204对来自声音输入单元104的数字信号进行声音处理。在声音输入单元104具有电模拟输出时，声音信号处理单元204可以包括用于将电模拟信号转换成数字信号的构成元件。注意，后面将使用图2来说明包括声音输入单元104的声音信号处理单元204的详情。

操作单元205用作摄像设备1和用户之间的用户界面，并且由各种开关和按钮等构成。存储单元206存储诸如通过拍摄所获得的视频信息等的各种数据。显示单元207包括诸如LCD等的显示器，并且基于从视频信号处理单元203输出的信号来根据需要显示图像。此外，显示单元207通过显示各种菜单等用作用户界面的一部分。外部输入/输出端子单元208相对于外部设备接收/输出通信信号和视频信号。声音再现单元209包括扬声器，将声音数据转换成电信号，并再现声音。电源单元210是驱动摄像设备的整体(构成元件)所需的电源，并且在本实施例中假定为可再充电电池。

电源控制单元211根据摄像设备1的状态来控制从电源单元210向上述各个构成元件的电力的供给/切断。根据摄像设备1的状态，存在不使用的构成元件。电源控制单元211在中央控制单元201的控制下，通过根据摄像设备1的状态切断向不使用的构成元件的电力来执行抑制电力消耗的功能。注意，电力供给/切断将通过后面给出的说明变得清楚。

位置检测单元212使用陀螺仪、加速度传感器和GPS等来检测摄像设备1的移动。位置检测单元212也用于应对用户将摄像设备1附着至他/她的身体的情况。枢转控制单元213根据来自中央控制单元201的指示来生成用于驱动振动器11～13的信号，并输出这些信号。振动器11～13各自由压电元件构成，并根据从枢转控制单元213施加的驱动信号而振动。振动器11～13构成枢转驱动单元(平摇/俯仰驱动单元)。结果，可动摄像单元100在中央控制单元201所指示的方向上进行平摇和俯仰操作。

无线单元214按照诸如Wifi或BLE(蓝牙低功耗)等的无线标准进行图像数据等的数据发送。

接着，将参考图2来说明本实施例中的声音输入单元104和声音信号处理单元204的结构、以及声音方向检测处理。图2示出声音输入单元104和声音信号处理单元204的结构、以及声音信号处理单元204、中央控制单元201和电源控制单元211之间的连接关系。

声音输入单元104由四个非定向麦克风(麦克风104a、104b和104c以及麦克风104d)构成。各麦克风包括A/D转换器，按预先设置的采样率(命令检测和方向检测处理：16kHz，运动图像记录：48kHz)对声音进行采样，使用内部A/D转换器将通过采样所获得的声音信号转换成数字声音数据，并输出该数字声音数据。注意，在本实施例中，声音输入单元104由四个数字麦克风构成，但也可以由具有模拟输出的麦克风构成。在模拟麦克风的情况下，在声音信号处理单元204中仅需设置相应的A/D转换器。此外，本实施例中的麦克风的数量是四个，但数量仅需为三个或更多个。

麦克风104a在摄像设备1的电源接通的情况下被无条件地供给电力，并且进入可收集声音状态。另一方面，其它麦克风104b、104c和104d在中央控制单元201的控制下是电源控制单元211的电力供给/切断的目标，并且在摄像设备1的电源接通之后的初始状态下，切断向这些其它麦克风的电力。

声音信号处理单元204由声压级检测单元2041、语音存储器2042、语音命令识别单元2043、声音方向检测单元2044、运动图像声音处理单元2045和命令存储器2046构成。

在由来自麦克风104a的声音数据表示的输出级超过预先设置的阈值时，声压级检测单元2041将表示检测到了声音的信号供给至电源控制单元211和语音存储器2042。

电源控制单元211在从声压级检测单元2041接收到表示检测到了声音的信号时，向语音命令识别单元2043供给电力。

语音存储器2042是在中央控制单元201的控制下利用电源控制单元211的电力供给/切断的目标其中之一。此外，语音存储器2042是暂时存储来自麦克风104a的声音数据的缓冲存储器。语音存储器2042具有可以存储在相对缓慢地说出最长的语音命令的情况下所获得的所有采样数据的容量。在麦克风104a的采样率为16kHz、针对各采样输出两个字节(16位)的声音数据、并且假定最长的语音命令为5秒的情况下，语音存储器2042需要具有约160千字节

的容量。此外，在语音存储器2042的容量充满来自麦克风104a的声音数据时，旧的声音数据被新的声音数据覆盖。结果，语音存储器2042保持最近的预定时间段(在以上示例中为5秒)的声音数据。此外，语音存储器2042在被从声压级检测单元2041接收到表示检测到了声音的信号所触发的情况下，开始将来自麦克风104a的声音数据存储在采样数据区域中。

命令存储器2046由非易失性存储器构成，并且在命令存储器2046中预先存储(登记)了与摄像设备所识别出的语音命令有关的信息。尽管后面将说明详情，但例如，要存储在命令存储器2046中的语音命令的类型是如图8所示的。与包括“启动命令”的多个类型的命令有关的信息被存储在命令存储器2046中。

语音命令识别单元2043是在中央控制单元201的控制下利用电源控制单元211的电力供给/切断的目标其中之一。注意，语音识别本身是已知的技术，因此这里省略了对语音识别的说明。语音命令识别单元2043通过参考命令存储器2046来进行用于识别语音存储器2042中所存储的声音数据的处理。此外，语音命令识别单元2043判断通过由麦克风104a进行的声音收集所获得的声音数据是否是语音命令，并且还判断所登记的语音命令中的哪个语音命令与声音数据匹配。此外，语音命令识别单元2043在检测到与命令存储器2046中所存储的语音命令其中之一匹配的声音数据时，将表示确定了这些语音命令中的哪个语音命令的信息、以及语音存储器2042内所存储的声音数据中的用于确定该语音命令的声音数据的开始和结束地址(定时)供给至中央控制单元201。

声音方向检测单元2044是在中央控制单元201的控制下利用电源控制单元211的电力供给/切断的目标其中之一。此外，声音方向检测单元2044基于来自四个麦克风104a～104d的声音数据来周期性地进行用于检测存在声源的方向的处理。声音方向检测单元2044包括内部缓冲存储器2044a，并将表示所检测到的声源方向的信息存储在缓冲存储器2044a中。注意，声音方向检测单元2044进行声音方向检测处理的周期(例如，16kHz)可以充分长于麦克风104a的采样周期。注意，假定缓冲存储器2044a具有足以存储与可以存储在语音存储器2042中的声音数据的持续时间相同的持续时间的声音方向信息的容量。

运动图像声音处理单元2045是在中央控制单元201的控制下利用电源控制单元211的电力供给/切断的目标其中之一。运动图像声音处理单元2045接收来自四个麦克风中的麦克风103a和104b的两个声音数据作为立体声声音数据，并对该立体声声音数据进行诸如各种滤波处理、风声消除、立体声感增强、驱动声音去除、ALC(自动电平控制)和压缩处理等的针对运动图像声音的声音处理。尽管详情将通过后面给出的说明变得清楚，但在本实施例中，麦克风104a用作立体声麦克风中的L通道麦克风，并且麦克风104b用作R通道麦克风。

注意，在图2中，考虑到电力消耗和电路结构，示出声音输入单元104的各麦克风与声音信号处理单元204中所包括的各块之间的针对四个麦克风的最小连接数。然而，结构也可以如下：在电力和电路结构允许的范围内，多个麦克风由声音信号处理单元204中所包括的各块共享使用。此外，在本实施例中，麦克风104a作为基准麦克风而连接，但任何麦克风均可以是基准麦克风。

将参考图3A～3E来说明摄像设备1的外观图和使用示例。图3A示出根据本实施例的摄像设备1的外观的俯视图和正视图。摄像设备1的可动摄像单元100具有大致半球形状，并且包括第一壳体150，该第一壳体150包括从-20度到表示垂直方向的90度的范围内的切出窗口，并且在由该图所示的箭头A表示的水平面中可枢转360度，其中水平方向为0度。此外，可动摄像单元100包括第二壳体151，该第二壳体151可以在从水平方向到如由该图示出的箭头B所示的垂直方向的范围内，连同镜头单元101和摄像单元102一起沿着切出窗口枢转。这里，箭头A所示的第一壳体150的枢转操作对应于平摇操作，并且箭头B所示的第二壳体151的枢转操作对应于俯仰操作，并且这些操作是通过驱动振动器11～13来实现的。注意，如上所述，假定本实施例中的摄像设备的可俯仰范围为从-20度到+90度的范围。

麦克风104a和104b以夹持第一壳体150的切出窗口的方式布置在前面侧的位置。此外，麦克风104c和104d布置在第一壳体150的后面侧。如从图示应理解，即使在第二壳体152固定的状态下在沿着箭头A的任何方向上进行第一壳体150的平摇操作，麦克风104a和104b相对于镜头单元101和摄像单元102的相对位置也不会改变。也就是说，麦克风104a相对于摄像单元102的摄像方向始终位于左侧，并且麦克风104b始终位于右侧。因此，可以在由通过摄像单元102所进行的拍摄而获得的图像表示的空间与麦克风104a和104b所获取到的声场之间保持固定关系。

注意，如图3A所示，本实施例中的四个麦克风104a、104b、104c和103d布置在摄像设备1的俯视图中的矩形的各顶点的位置。此外，假定这四个麦克风位于图3A中的一个水平面上，但允许小的位置偏移。

麦克风104a与麦克风104b之间的距离大于麦克风104a与麦克风104c之间的距离。注意，相邻麦克风之间的距离期望在从约10mm到30mm的范围内。此外，在本实施例中，麦克风的数量是四个，但麦克风的数量可以是三个或更多个，只要满足麦克风不布置在直线上的条件即可。此外，图3A所示的麦克风104a～104d的布置位置是示例性的，并且布置方法可以根据机械限制和设计限制适当改变。

图3B～3E示出本实施例中的摄像设备1的使用模式。图3B示出摄像设备1放置在桌子等上的情况，并且拍摄者本人和拍摄者周围的被摄体是拍摄目标。图3C示出摄像设备1从拍摄者的颈部悬挂的示例性情况，并且拍摄者前方的被摄体在他/她移动时是拍摄目标。图3D示出摄像设备1固定到拍摄者的肩部的示例性使用情况，并且在例示情况中，前后和右侧的周围被摄体是拍摄目标。此外，图3E示出摄像设备1固定至用户所把持的杆的端部的示例性使用情况，其目的是使摄像设备1移动到用户期望的拍摄位置(高位置、手不能到达的位置)并进行拍摄。

将参考图4来进一步详细地说明本实施例的摄像设备1的平摇和俯仰操作。这里，将假定如图3B所示、摄像设备1被放置成站立的示例性使用情况来进行说明，但这同样可以适用于其它使用情况。

图4中的4a表示镜头单元101指向水平方向的状态。图4的4a所表示的状态被定义为初始状态，并且在如从上方观看到的、第一壳体150沿逆时针方向上进行90度的平摇操作时，进入图4中的4b所表示的状态。另一方面，在第二壳体151从图4中的4a所表示的初始状态起进行90度的俯仰操作时，进入图4中的4c所表示的状态。如上所述，第一壳体150和第二壳体151的枢转是通过由枢转控制单元213驱动的振动器11～13的振动来实现的。

接着，将按照图5A和5B所示的流程图来说明摄像设备1的中央控制单元201所进行的处理的过程。图5A和5B所示的处理示出在摄像设备1的主电源接通或者摄像设备1被重置的情况下中央控制单元201所进行的处理。

中央控制单元201在步骤S101中进行摄像设备1的初始化处理。在该初始化处理中，中央控制单元201将可动摄像单元100中的摄像单元102的摄像方向的水平面中的当前方向分量确定为平摇操作的基准角度(0度)。

在下文，在进行可动摄像单元100的平摇操作之后的摄像方向的水平面中的分量由从该基准角度起的相对角度表示。此外，声音方向检测单元2044所检测到的声源方向的水平面中的分量也由相对于基准角度的相对角度表示。此外，尽管后面将说明详情，但声音方向检测单元2044还进行与在摄像设备1正上方的方向(平摇操作的转动轴的轴方向)上是否存在声源有关的判断。

注意，在该阶段，切断向语音存储器2042、声音方向检测单元2044、运动图像声音处理单元2045、以及麦克风104b～104d的电力。

在初始化处理结束时，在步骤S102中，中央控制单元201通过控制电源控制单元211来开始向声压级检测单元2041和麦克风104a供给电力。结果，声压级检测单元2041基于通过由麦克风104a进行的采样所获得的声音数据来执行声压检测处理，并且在检测到表示超过预先设置的阈值的声压级的声音数据时，向中央控制单元通知该事实。注意，该阈值例如被设置为60dB SPL(声压级)，但该阈值可以由摄像设备1根据环境等改变，或者可以关注于所需频带中的声音分量。

中央控制单元201在步骤S103中等待声压级检测单元2041检测到表示超过阈值的声压级的声音数据。在检测到表示超过阈值的声压级的声音数据时，在步骤S104中，声音存储器2042开始用于接收并存储来自麦克风104a的声音数据的处理。

此外，在步骤S105中，中央控制单元201通过控制电源控制单元211来开始向语音命令识别单元2043供给电力。结果，语音命令识别单元2043开始用于参考命令存储器2046来识别语音存储器2042中所存储的声音数据的处理。此外，语音命令识别单元2043进行用于识别语音存储器2042中所存储的声音数据的处理，并且在识别出与命令存储器2046中的语音命令其中之一匹配的语音命令时，向中央控制单元201通知如下的信息，该信息包括用于指定所识别的语音命令的信息、以及与语音存储器2042中的用于确定该所识别的语音命令的声音数据的开始地址和结束地址(或定时)有关的信息。

在步骤S106中，中央控制单元201判断是否从语音命令识别单元2043接收到表示识别出了语音命令的信息。如果判断为“否”，则中央控制单元201使处理进入步骤S108，并且判断从语音命令识别单元2043的启动起所经过的时间是否超过了预先设置的阈值。此外，只要所经过的时间为阈值或更小，则中央控制单元201等待语音命令识别单元2043识别语音命令。然后，如果在经过了由阈值表示的时间时、语音命令识别单元2043未识别出语音命令，则中央控制单元201使处理进入步骤S109。在步骤S109中，中央控制单元201通过控制电源控制单元211来切断向语音命令识别单元2043的电力。然后，中央控制单元201使处理返回到步骤S103。

另一方面，中央控制单元201在从语音命令识别单元2043接收到表示识别出了语音命令的信息时，使处理进入步骤S107。在步骤S107中，中央控制单元201判断所识别出的语音命令是否对应于图8所示的启动命令。此外，中央控制单元201在判断为所识别出的语音命令是除启动命令以外的命令时，使处理进入步骤S108。此外，如果所识别的语音命令是启动命令，则中央控制单元201使处理从步骤S107进入步骤S110。

在步骤S110中，中央控制单元201通过控制电源控制单元211来开始向声音方向检测单元2044和麦克风104b～104d供给电力。结果，声音方向检测单元2044开始用于基于同一时间点的来自四个麦克风104a～104d的声音数据来检测声源方向的处理。用于检测声源方向的处理是按预定周期进行的。此外，声音方向检测单元2044将表示所检测到的声音方向的声音方向信息存储在内部缓冲存储器2044a中。这里，声音方向检测单元2044将声音方向信息存储在缓冲存储器2044a中，使得确定声音方向信息所使用的声音数据的定时可以与声音存储器2042中所存储的声音数据的定时相关联。通常，声音方向和声音存储器2042中的声音数据的地址可以存储在缓冲存储器2044a中。注意，声音方向信息是表示水平面中的、表示声源方向与上述基准角度的差的角度的信息。此外，尽管后面将说明详情，但在声源位于摄像设备1正上方的情况下，将表示声源在正上方的方向上的信息设置为声音方向信息。

在步骤S111中，中央控制单元201通过控制电源控制单元211来开始向摄像单元102和镜头致动器控制单元103供给电力。结果，可动摄像单元100开始用作摄像设备。

接着，在步骤S151中，中央控制单元201判断从语音命令识别单元2043是否接收到表示识别出了新语音命令的信息。如果判断为“否”，则中央控制单元201使处理进入步骤S152，并且判断与来自用户的指示相对应的作业当前是否在执行中。尽管详情将通过对图6的流程图的说明变得清楚，但运动图像拍摄和记录、以及追踪处理等对应于作业。这里，在假定没有正在执行这样的作业的情况下继续该说明。

在步骤S153中，判断从识别出前一语音命令起所经过的时间是否超过预先设置的阈值。如果判断为“否”，则中央控制单元201使处理返回到步骤S151，并且等待识别出语音命令。然后，如果没有正在执行作业、并且即使从识别出前一语音命令起所经过的时间超过阈值、也未识别出新的语音命令，则中央控制单元201使处理进入步骤S154。在步骤S154中，中央控制单元201通过控制电源控制单元211来切断向摄像单元102和镜头致动器控制单元103的电力供给。另外，在步骤S155中，中央控制单元201还通过控制电源控制单元211切断向声音方向检测单元2044的电力供给，并且使处理返回到步骤S106。

假定中央控制单元201从语音命令识别单元2043接收到表示接收到了新语音命令的信息。在这种情况下，语音命令识别单元2043使处理从步骤S151进入步骤S156。

本实施例中的中央控制单元201在执行与所识别出的语音命令相对应的作业之前，进行用于使说出了语音命令的人物进入可动摄像单元100的摄像单元102的视角的处理。然后，中央控制单元201在人物在摄像单元102的视角中的状态下，执行基于所识别的语音命令的作业。

为了实现上述技术，在步骤S156中，中央控制单元201从声音方向检测单元2044的缓冲存储器2044a获取与语音命令识别单元2043所识别出的语音命令同步的声音方向信息。如上所述，语音命令识别单元2043在识别出语音命令时，向中央控制单元201通知语音存储器2042中的语音命令的开始和结束这两个地址。然后，中央控制单元201从缓冲存储器2044a获取在由这两个地址表示的时间段中检测到的声音方向信息。可能存在如下情况：在由这两个地址表示的时间段中存在多个声音方向信息。在这种情况下，中央控制单元201从缓冲存储器2044a获取在时间上最近的声音方向信息。这是因为，在时间上最近的声音方向信息表示说出了语音命令的人物的当前位置的概率高。

在步骤S157中，中央控制单元201判断由所获取到的声音信息表示的声源方向是否是摄像设备正上方的方向。注意，后面将说明与声音方向是否是摄像设备正上方的方向有关的判断的详情。

如果在摄像设备1正上方的方向上存在声源，则中央控制单元201使处理进入步骤S158。在步骤S158中，中央控制单元201通过控制枢转控制单元213，来使可动摄像单元100的第二壳体151枢转，使得如由图4的4c所示，镜头单元101和摄像单元102的摄像方向为正上方向。在摄像单元102的摄像方向被设置为正上方向的情况下，在步骤S159中，中央控制单元201从视频信号处理单元203接收拍摄图像，并且判断在拍摄图像中是否存在可以是声源的对象(人物的面部)。如果判断为“否”，则中央控制单元201使处理返回到步骤S151。另一方面，如果在拍摄图像中存在对象，则中央控制单元201使处理进入步骤S164，并且执行与已识别出的语音命令相对应的作业。注意，后面将使用图6来说明步骤S164中的处理的详情。

在步骤S157中，中央控制单元201在判断为由声音信息表示的方向是除正上方向以外的方向时，使处理进入步骤S160。在步骤S160中，中央控制单元201通过控制枢转控制单元213来进行可动摄像单元100的平摇操作，使得摄像单元102的水平面中的当前角度与由声音信息表示的水平面中的角度一致。然后，在步骤S161中，中央控制单元201从视频信号处理单元203接收拍摄图像，并且判断在拍摄图像中是否存在可以是声源的对象(面部)。如果判断为“否”，则中央控制单元201使处理进入步骤S162，并且通过控制枢转控制单元213来进行可动摄像单元100向着目标俯仰角按预先设置的角度的俯仰操作。然后，在步骤S163中，中央控制单元201判断摄像单元102的摄像方向的俯仰角是否达到俯仰操作的上限(在本实施例中为从水平方向起的90度)。如果判断为“否”，则中央控制单元201使处理返回到步骤S161。以这种方式，中央控制单元201在进行俯仰操作的同时，判断在来自图像信号处理单元203的拍摄图像中是否存在可以是声源的对象(面部)。然后，如果即使摄像单元102的摄像方向的俯仰角达到了俯仰上限、也没有检测到对象，则中央控制单元201使处理从步骤S163返回到步骤S151。另一方面，如果在拍摄图像中存在对象，则中央控制单元201使处理进入步骤S164，并且执行与已识别的语音命令相对应的作业。

接着，将基于图6的流程图和图7所示的语音命令表来说明步骤S164中的处理的详情。与图7的语音命令表中所示的诸如“你好，照相机”等的语音命令相对应的语音模式数据被存储在命令存储器2046中。注意，在图7中示出数个代表性示例作为语音命令，但没有具体限制语音命令的数量。此外，应当注意，以下说明中的语音命令是在图5B的步骤S151的定时检测到的语音命令。

首先，在步骤S201中，中央控制单元201判断语音命令是否是启动命令。

启动命令是用于使得摄像设备1转变为可以进行摄像的状态的语音命令。启动命令是在图5A的步骤S107中判断出的命令，而不是与摄像有关的作业。因此，如果所识别出的语音命令是启动命令，则中央控制单元201忽略该命令并使处理返回到步骤S151。

在步骤S202中，中央控制单元201判断语音命令是否是停止命令。停止命令是用于使得状态从可以进行一系列摄像的状态转变为等待启动命令的输入的状态的命令。因此，如果所识别出的语音命令是停止命令，则中央控制单元201使处理进入步骤S211。在步骤S211中，中央控制单元201通过控制电源控制单元211来切断向摄像单元102、声音方向检测单元2044、语音命令识别单元2043、运动图像声音处理单元2045、以及麦克风104b～104d等的电力，并且停止这些单元。然后，中央控制单元201使处理返回到启动时的步骤S103。

在步骤S203中，中央控制单元201判断语音命令是否是静止图像拍摄命令。静止图像拍摄命令是用于请求摄像设备1执行一个静止图像的拍摄/记录作业的命令。因此，中央控制单元201在判断为语音命令是静止图像拍摄命令时，使处理进入步骤S212。在步骤S212中，中央控制单元201将通过由摄像单元102进行的拍摄所获得的一个静止图像数据例如作为JPEG文件存储在存储单元206中。注意，静止图像拍摄命令的作业是通过进行一个静止图像的拍摄和记录来完成的，因此该作业不是上述图5B的步骤S152中的判断目标作业。

在步骤S204中，中央控制单元201判断语音命令是否是运动图像拍摄命令。运动图像拍摄命令是用于请求摄像设备1拍摄并记录运动图像的命令。中央控制单元201在判断为语音命令是运动图像拍摄命令时，使处理进入步骤S213。在步骤S213中，中央控制单元201利用摄像单元102来开始运动图像的拍摄和记录，并使处理返回到步骤S151。在本实施例中，所拍摄到的运动图像被存储在存储单元206中，但所拍摄到的运动图像可以经由外部输入/输出端子单元208被发送至网络上的文件服务器。运动图像拍摄命令是用于使得运动图像的拍摄和记录继续的命令，因此该作业是上述图5B的步骤S152中的判断目标作业。

在步骤S205中，中央控制单元201判断语音命令是否是运动图像拍摄结束命令。如果语音命令是运动图像拍摄结束命令、并且实际正进行运动图像的拍摄/记录，则中央控制单元201结束记录(作业)。然后，中央控制单元201使处理返回到步骤S151。

在步骤S206中，中央控制单元201判断语音命令是否是追踪命令。追踪命令是用于向摄像设备1请求使得用户连续位于摄像单元102的摄像方向上的命令。中央控制单元201在判断为语音命令是追踪命令时，使处理进入步骤S214。然后，在步骤S214中，中央控制单元201开始控制枢转控制单元213，使得对象连续位于视频信号处理单元203所获得的视频的中心位置。此外，中央控制单元201使处理返回到步骤S151。结果，可动摄像单元100通过进行平摇操作或俯仰操作来追踪移动的用户。注意，尽管进行了用户的追踪，但未进行拍摄图像的记录。此外，在进行追踪时，作业是上述图5B的步骤S152中的判断目标作业。然后，在接收到追踪结束命令时，中央控制单元201最终结束运动图像的拍摄和记录。注意，静止图像拍摄命令和运动图像拍摄命令的作业例如可以在进行追踪时执行。

在步骤S207中，中央控制单元201判断语音命令是否是追踪结束命令。如果语音命令是追踪结束命令、并且实际上正进行追踪，则中央控制单元201结束记录(作业)。然后，中央控制单元201使处理返回到步骤S151。

在步骤S208中，中央控制单元201判断语音命令是否是自动运动图像拍摄命令。中央控制单元201在判断为语音命令是自动运动图像拍摄命令时，使处理进入步骤S217。在步骤S217中，中央控制单元201开始利用摄像单元102的运动图像拍摄和记录，并且返回到步骤S151。自动运动图像拍摄命令与上述的运动图像拍摄命令的不同之处在于：在开始自动运动图像拍摄命令的作业的情况下，从该时间点起，每次用户说话时，在镜头单元101的摄像方向指向语音的声源方向的同时，进行运动图像的拍摄/记录。例如，在存在多个说话者的会议的环境中，在进行平摇和俯仰操作的同时记录运动图像，以便在每次讲话时，使说话者进入镜头单元101的视角中。注意，在这种情况下，允许自由发言，因此不存在用于使得自动运动图像拍摄命令的作业结束的语音命令。假定通过对操作单元205中所设置的预定开关进行操作来结束该作业。此外，在正执行该作业时，中央控制单元201停止语音命令识别单元2043。此外，中央控制单元201参考声音方向检测单元2044在声压级检测单元2041检测到了超过阈值的声压级的定时所检测到的声音方向信息，来进行可动摄像单元104的平摇和俯仰操作。

注意，尽管在图6中未示出，但是如果所识别出的语音命令是放大命令，则中央控制单元201通过控制镜头致动器控制单元103来使当前倍率增大预先设置的值。此外，如果所识别出的语音命令是放大命令，则中央控制单元201通过控制镜头致动器控制单元103来使当前倍率减小预先设置的值。注意，如果镜头单元101已在远摄端或广角端，则不能进一步增大放大率或缩小率，因此在进行这样的语音命令时，中央控制单元201忽略该语音命令。

以上进行了说明。除上述语音命令以外的语音命令将在步骤S207之后的步骤中执行，但这里将省略其说明。

这里，将按照图8所示的时序图来说明本实施例中的从在摄像设备1中主电源接通时起的序列的示例。

在摄像设备1的主电源接通时，声压级检测单元2041开始用于检测来自麦克风1014a的声音数据的声压级的处理。假定用户在定时T601开始说出启动命令“你好，照相机”。结果，声压级检测单元2041检测到超过阈值的声压。在被该检测触发的情况下，在定时T602，语音存储器2042开始存储来自麦克风104a的声音数据，并且语音命令识别单元2043开始识别语音命令。在用户说完启动命令“你好，照相机”时，在定时T603，语音命令识别单元2043识别出该语音命令，并指定所识别出的语音命令是启动命令。

在定时T603，中央控制单元201在被启动命令的识别触发的情况下，开始向声音方向检测单元2044的电力供给。此外，中央控制单元201还在定时T604开始向摄像单元102的电力供给。

假定用户在定时T606开始说出例如“动画开始”。在这种情况下，将发生的开始的定时的声音数据从定时T607起顺次存储在语音存储器2042中。此外，在定时T608，语音命令识别单元2043将声音数据识别为表示“动画开始”的语音命令。语音命令识别单元2043向中央控制单元201通知语音存储器2042中的表示“动画开始”的声音数据的开始和结束地址、以及识别结果。中央控制单元201将由所接收到的开始和结束地址表示的范围确定为有效范围。此外，中央控制单元201从声音方向检测单元2044的缓冲器2044a内的有效范围中提取最新的声音方向信息，并且在定时T609，基于所提取的信息，通过控制驱动控制单元213来开始可动摄像单元100的平摇和俯仰操作。

假定如下：在定时T612，在可动摄像单元100正进行平摇和俯仰操作时，在摄像单元102所拍摄的图像中检测到被摄体(对象：面部)。中央控制单元201停止平摇和俯仰操作(定时T613)。此外，在定时T614，中央控制单元201向运动图像声音处理单元2045供给电力，以进入利用麦克风104a和104b收集立体声的状态。此外，中央控制单元201在定时T615开始拍摄和记录带有声音的运动图像。

接着，将说明本实施例中的声音方向检测单元2044所进行的用于检测声源方向的处理。该处理是在图5A中的步骤S110之后周期性地且连续地进行的。

首先，将使用图9A来说明使用两个麦克风(即，麦克风104a和104b)的简单声音方向检测。在图9A中，假定麦克风104a和104b布置在平面上(虚拟平面上)。麦克风104a和104b之间的距离由d[a-b]表示。假定摄像设备1和声源之间的距离相对于距离d[a-b]足够大。在这种情况下，可以通过比较麦克风104a和104b所收集到的声音来指定麦克风104a和104b之间的声音的延迟时间。

可以通过将到达延迟时间乘以声速(在空气中为340m/s)来指定距离I[a-b]。结果，可以使用以下的等式来指定声源方向角度θ[a-b]。

θ[a-b]＝acos(I[a-b]/d[a-b])

然而，在所获得的声源方向和θ[a-b]'之间不能区分通过使用两个麦克风所获得的声音方向。也就是说，不能指定两个方向中的哪个方向。

因而，将如下使用图9B和9C来说明本实施例中的声源方向的检测方法。具体地，由于存在使用两个麦克风可以估计的两个声源方向，因此这两个方向被视为临时方向。此外，使用另外两个麦克风来获得声源方向，并且获得两个临时方向。然后，将在这些临时方向之间共同的方向确定为要获得的声源方向。注意，假定图9B和9C中的上方向是可动摄像单元100的摄像方向。可动摄像单元100的摄像方向也可被改述为镜头单元101的光轴方向(主轴方向)。

图9B示出使用三个麦克风的方法。将使用麦克风104a、104b和104c来给出说明。在如图3A所示的布置中，与麦克风104a和104b排列的方向垂直的方向是镜头单元101的摄像方向。

如参考图9A所述，根据麦克风104a和104b的位置，距离d[a-b]是已知的，因此如果可以根据声音数据指定距离I[a-b]，则可以指定θ[a-b]。此外，由于麦克风104a和104c之间的距离d[a-c]是已知的，因此也可以根据声音数据指定距离I[a-c]，并且可以指定θ[a-c]。如果可以计算出θ[a-b]和θ[a-c]，则可以将在与麦克风104a、104b和104c布置于的平面相同的二维平面上(虚拟平面上)的这些角度之间共同的角度确定为准确的声音产生方向。

将使用图9C来说明使用四个麦克风确定声源方向的方法。由于图3A所示的麦克风104a、104b、104c和104d的布置，因此与麦克风104a和104b排列的方向垂直的方向是镜头单元101的摄像方向(光轴方向)。在使用四个麦克风的情况下(即，在使用各自位于对角线上的麦克风104a和104d的配对以及麦克风10b和104c的配对这两个配对的情况下)，可以准确地计算出声源方向。

由于麦克风104a和104d之间的距离d[a-d]是已知的，因此可以根据声音数据指定距离I[a-d]，并且也可以指定θ[a-d]。

此外，由于麦克风104b和104c之间的距离d[b-c]是已知的，因此可以根据声音数据指定距离I[b-c]，并且也可以指定θ[b-c]。

因此，一旦θ[a-d]和θ[b-c]是已知的，可以在与麦克风布置于的平面相同的二维平面上准确地检测到声音产生方向。

此外，通过增加诸如θ[a-b]和θ[c-d]等的检测角度的数量，也可以提高方向角度的检测精度。

为了进行上述处理，如图3A所示，麦克风104a和104b以及麦克风104c和104d布置在矩形的四个顶点处。注意，麦克风的数量无需是四个，并且可以是三个，只要三个麦克风没有排成直线即可。

上述方法的缺点是仅可以检测到同一二维平面上的声音方向。因此，在声源位于摄像设备1的正上方的情况下，不能检测到方向，并且该方向是不确定的。因此，接着，将参考图10A和10B来说明声音方向检测单元2044中的与存在声源的方向是否是正上方向有关的判断的原理。

图10A示出使用三个麦克风的方法。将使用麦克风104a、104b和104c来给出说明。在麦克风如图3A所示布置时，与麦克风104a和104b排列的方向垂直的方向是镜头单元101的摄像方向(光轴方向)。麦克风104a和104b排列的方向是连接麦克风104a的中心点和麦克风104b的中心点的直线的方向。

将说明声音沿着与声音输入单元104布置于的平面垂直相交的直线(即，从上方)进入的情况。

这里，在声源位于摄像设备1的正上方的情况下，可以认为麦克风104a和104b相对于声源在等距离处。也就是说，在来自声源的声音在两个麦克风104a和104b之间的到达时间方面不存在差异。因此，可以认识到，在与连接麦克风104a和104b的直线垂直相交的方向上存在声源。

此外，同样可以认为，麦克风104a和104c相对于声源在等距离处，因此在来自声源的声音在两个麦克风104a和104c之间的到达时间方面也不存在差异。因此，可以认识到，在与连接麦克风104a和104c的直线垂直相交的方向上存在声源。

也就是说，在麦克风104a和104b所检测到的声音的时间差的绝对值由ΔT1表示、麦克风104a和104c所检测到的声音的时间差的绝对值由ΔT2表示、并且与预先设置的足够小的阈值ε的关系满足以下条件的情况下，可以判断为声源位于摄像设备1的正上方。

条件：ΔT1<ε且ΔT2<ε

将参考图10B来说明使用四个麦克风104a、104b、104c和104d的位于摄像设备1的正上方的声源的检测方法。如图3A所示，将考虑麦克风104a和104d的配对以及麦克风104b和10c的配对。

在摄像设备1的正上方存在声源的情况下，麦克风104a和104d相对于声源在等距离处，这些麦克风104a和104d所检测到的声音的时间差的绝对值ΔT3为零或极小的值。也就是说，认识到，在与连接麦克风104a和104d的直线垂直相交的方向上存在声源。

此外，由于麦克风104b和104c也相对于声源在等距离处，因此这些麦克风104b和104c所检测到的声音的时间差的绝对值ΔT4也为零或极小的值。也就是说，认识到，在与连接麦克风104b和104c的直线垂直相交的方向上存在声源。因此，如果满足以下条件，则可以判断为声源位于摄像设备1的正上方。

条件：ΔT3<ε且ΔT4<ε

如上所述，针对三个或更多个麦克风中的两对麦克风获得声音的到达时间差的绝对值，并且在这两个绝对值都小于或等于足够小的阈值的情况下，可以判断为存在声源的方向是正上方向。注意，在确定了两对时，允许任何组合，只要这两对的方向不彼此平行即可。

以上说明了第一实施例。根据上述实施例，判断为在由声音方向检测单元2044顺次检测到的声音方向信息中的、在由语音命令识别单元2043识别出了语音命令所针对的声音数据的开始和结束表示的时间段中的声音方向信息表示的方向上，存在说出了语音命令的被摄体。结果，防止了除说出语音命令的人物(其面部)以外的对象被误识别为被摄体。此外，可以执行说出了语音命令的人物所期望的作业。

此外，如上述实施例所述，在中央控制单元201的控制下，向各个麦克风104a～104d和构成声音信号处理单元204的各元件的电力在进入实际使用该元件的阶段之后供给，因此与所有的构成元件都处于可操作状态的情况相比，可以抑制电力消耗。

接着，将基于对上述实施例的说明来说明具体的使用模式。如图3A～3E所示，本实施例中的摄像设备1具有各种使用模式。

这里，例如，考虑如图3C所示、摄像设备1从用户的颈部悬挂的情况。在这种情况下，可以容易地理解，如果镜头单元101的摄像方向(光轴方向)指向用户的身体，则将拍摄到不需要的图像。因此，期望镜头单元101的摄像方向(光轴方向)始终指向用户的前方。在这种情况下，如图3A所示，四个麦克风中的麦克风104c和194d很有可能触到用户的身体。也就是说，麦克风104c和1094d将收集到与用户的衣服摩擦的声音的可能性增加，并且利用使用这四个麦克风的声音方向检测单元2044的声音方向检测被中断。因此，在本实施例中，在摄像设备1从用户的颈部悬挂的使用模式中，中央控制单元201切断向麦克风104c和104d的电力，并且指示声音方向检测单元2044仅使用麦克风104a和104b这两个麦克风来进行声音方向检测。在这种情况下，将不会发生参考图9A已说明的、在仅使用两个麦克风获得声源方向时检测到两个声源方向的问题。这是因为声源方向可被视为至少在用户的前方的范围内。也就是说，由于仅使用麦克风104a和104b这两个麦克风，因此声音方向检测单元2044从数学上检测到两个声音方向，但将指向用户的前方的声源方向检测为有效的声源方向。注意，例如，按照如下进行对用户的身体存在于的方向的检测。在判断为摄像设备1从用户的颈部悬挂之后，进行360度(一周)的平摇操作，并且可以将以所测量到的距离最短的方向(图3C中的用户的胸部的方向)为中心的适当角度(例如，图3C中的180度)的范围确定为用户存在于的方向。此外，中央控制单元201将所确定的方向作为基准方向保存在存储单元206中。

接着，还考虑如图3D所示、将摄像设备1附着至到用户的肩部的情况。在这种情况下，四个麦克风中的一个麦克风位于靠近用户的头部的位置，并且该麦克风很有可能将接触用户的头部或衣服。因此，在这种情况下，在检测声音方向时将不会使用四个麦克风中的靠近用户的头部的麦克风(电力被切断)，并且使用其余的三个麦克风来检测声源方向。一旦摄像设备1附着(固定)至用户的肩部，无论用户的移动如何，用户的头部相对于摄像设备1的相对方向都将不会改变。因此，中央控制单元201将该方向作为用户的头部的方向保存在存储单元206中。此外，中央控制单元201基于所存储的方向和镜头单元101的摄像方向(光轴方向)，在要检测方向时不使用四个麦克风中的靠近用户头部一侧的一个麦克风(切断向该麦克风的电力)，并且配置设置使得声音方向检测单元2044将使用其余的三个麦克风来进行方向检测。注意，例如，按照如下进行对用户的头部存在于的方向的检测。在判断为摄像设备1附着至肩部之后，进行360度的平摇操作，并且可以将以所测量到的距离最短的方向为中心的适当角度(例如，90度)的范围确定为用户存在于的方向。此外，中央控制单元201将所测量到的距离最短的方向(用户的头部的方向)作为基准方向保存在存储单元206中。

此外，在图3B和3E所示的使用模式的情况下，声音方向检测单元2044可以使用四个麦克风来进行声音方向检测。

这里，用户经由支撑单元200的操作单元205来设置将使用图3B～3E所示的使用模式中的哪个使用模式。注意，在用户经由操作单元205设置了自动检测模式时，利用中央控制单元201进行使用模式的自动检测。以下将说明在设置自动检测模式的情况下利用中央控制单元201要进行的自动检测的处理。

已经说明了如下事实：本实施例中的位置检测单元212包括诸如陀螺仪传感器、加速度传感器和GPS传感器等的用于检测摄像设备1的移动的构成元件。因此，在接通摄像设备1的主电源并且进行图5A的步骤S101中的初始化处理之后，在假定摄像设备1基本上处于图3B所示的状态、即处于固定状态的情况下，声音方向检测单元2044进行声音方向检测。

另一方面，在图5A的步骤S101中的初始化处理之后，在用户把持摄像设备1并进行用以确定其使用模式的操作的情况下，位置检测单元212自然地使用诸如加速度传感器和陀螺仪等的传感器来检测大于阈值的位置的变化。此外，假定用户进行该操作的定时是用户接通摄像设备1的主电源的定时。例如，在这些传感器至少之一在初始化处理之后的预先设置的时间段内检测到大于阈值的变化的情况下，位置检测单元212估计为用户正进行用于安装摄像设备1的操作，并将中断信号发送至中央控制单元201。

图11所示的流程图示出该中断处理(用于检测摄像设备1的安装位置的处理)。以下将参考图11来说明中央控制单元201所要进行的处理。

首先，在步骤S1101中，中央控制单元201将位置检测单元212中所包括的传感器在预先设置的时间段(保存时间段)期间输出的数据保存在存储单元206中。保存时间段期望是足够用户完成与使用模式有关的操作的时间段(例如，1分钟)。

在经过了保存时间段时，如以下所述，中央控制单元201基于所保存的数据来进行摄像设备1的安装位置的判断，并且确定声音方向检测单元2044所要使用的声音方向检测方法。注意，在以下的说明中，假定由x轴和y轴表示的平面表示与摄像设备1的平摇操作的转动轴垂直的平面，并且z轴表示摄像设备1的平摇操作的转动轴的轴方向。

在用户将摄像设备1附着至他/她的肩部的情况(图3D所示的情况)下，存在x、y和z轴方向其中之一上的移动量远大于图3B、3C和3E所示的情况下的该移动量的趋势。因此，在步骤S1102中，中央控制单元201判断所保存的沿着x、y和z轴的加速度中的任意加速度是否超过预先设置的阈值。如果存在超过阈值的角速度，则中央控制单元201估计为摄像设备1附着至用户的肩部，并且在步骤S1103中，配置设置使得声音方向检测单元2044按照使用除靠近用户头部的一个麦克风以外的其余三个麦克风的声音方向检测方法(或规则)来进行声源方向的检测，并且结束该处理。

在步骤S1102中，如果沿着x、y和z轴的加速度均未超过阈值，则中央控制单元201使处理进入步骤S1104。

存在如下的趋势：在摄像设备1从颈部悬挂的情况下的x、y和z方向上的移动量小于在摄像设备1附着至肩部的情况下的这些移动量。此外，为了将摄像设备1从颈部悬挂，如图3C所示，需要对摄像设备1上下翻转的操作。因此，在进行将摄像设备1从颈部悬挂的操作的情况下，存在相对于特定轴的角速度将增大的趋势。此外，绕z轴的转动小。

因此，在步骤S1104中，中央控制单元201检测沿着x、y和z轴的角速度，并将这些角速度与阈值进行比较。具体地，中央控制单元201判断相对于z轴的角速度(横摆)是否小于或等于预先设置的阈值、并且相对于x轴或y轴的角速度(侧倾、纵摇)是否大于预先设置的阈值(由于该阈值不同于前一阈值，因此不使用冠词“the”)。

如果满足该条件，则中央控制单元201估计为摄像设备1从用户的颈部悬挂。此外，中央控制单元201配置设置，使得声音方向检测单元2044按照麦克风104c和104d的相反侧的方向被视为声源存在于的方向的声音方向检测方法，使用四个麦克风中的仅麦克风104a和104b这两个麦克风来进行声源方向检测，并且结束该处理(其中，术语“仅使用这两个麦克风”应针对“声源方向检测”)。

另一方面，如果在步骤S1104中判断为横摆方向上的角速度大于阈值、并且侧倾或纵摇的角速度小于或等于阈值，则中央控制单元201在步骤1106中认为摄像设备1已由用户的手固定在适当位置。因此，中央控制单元201在步骤S1106中配置设置，使得声音方向检测单元2044按照使用四个麦克风的声音方向检测方法进行声源方向检测，并且结束该处理。

图12A是示出在摄像设备1从用户的颈部悬挂的情况下的声音方向检测方法的图，并且图12B是示出在摄像设备1固定至用户的肩部的情况下的声音方向检测方法的图。此外，图12C是示出在摄像设备1固定的情况下的声音方向检测方法的图。

图13A～13C是示出使用图12A～12C所示的各个方法可以获得的麦克风的指向性的图。注意，图12A～12C所示的声源方向的确定方法与图9A～9C所示的确定方法相同，因此省略了对其的详细说明，并且以下将给出简要说明。

图12A示出在图11所示的处理中判断为摄像设备1从用户的颈部悬挂的情况下的声音方向检测方法。导出声源方向本身的原理与图9A所示的原理相同。获得相对于作为麦克风104a和104b之间的距离d[a-b]的一侧的θ[a-b]。声源方向具有两个候选，即角度θ[a-b]和角度θ[a-b]'，但可以忽略指向用户的身体的角度θ[a-b]'。此外，如上所述，可以切断向麦克风104c和104d的电力。注意，图13A中由附图标记1101表示的被虚线包围的范围示出通过该检测方法可以检测到的声源方向的范围。如图所示，声音方向的前方检测范围比后方检测范围更宽，但这不是问题，因为用户的身体存在于向后方向上。

图12B示出在图11所示的处理中判断为摄像设备1附着至用户的肩部的情况下的声音方向检测方法。假定用户的头部的方向是该图中的左下方向。在摄像设备1附着至用户的肩部的情况下，获得相对于作为麦克风104a和104b之间的距离d[a-b]的一侧的θ[a-b]。之后，获得相对于作为麦克风104b和104c之间的距离d[c-b]的一侧的θ[c-b]，并且与θ[a-b]相关地获得声源位置的角度。切断对四个麦克风其中之一的电力，并且向其余的三个麦克风供给电力，只要声音方向检测单元2044在操作中即可。图13B中由附图标记1102表示的范围示出通过该检测方法可以检测声源方向的范围。如图所示，声音方向的检测范围在左下方向上窄，但这不是特别的问题，因为用户的身体存在于该方向上。

图12C示出在图11所示的处理中判断为摄像设备1不是附着至诸如用户等的移动体而是固定的情况下的声音方向检测方法。在这种情况下，向所有的四个麦克风供给电力，并且进行使用这四个麦克风的声音方向。图13C中由附图标记1103表示的范围示出通过该检测方法可以检测到的声源方向的范围。如图所示，声音方向的检测范围是均匀分布的，并且可以在所有方向上均匀地检测到声源方向。

如上所述，检测摄像设备附着于的位置，并且根据所检测到的信息来选择声音方向的检测方法，结果可以在检测声音方向时确保适合于附着位置的麦克风的指向性，并且可以提高检测精度。

[第二实施例]

将说明第二实施例。假定设备的结构与上述第一实施例的结构相同，并且将省略对该结构的说明，且将说明不同之处。

考虑将摄像设备1固定在房间的角落以拍摄房间中的人的情况。然而，在声音方向检测单元2044由于某种原因而错误地检测到在靠近安装位置的墙壁的方向上存在声源的情况下，根据上述实施例，镜头单元101进行一次无意义的平摇操作，以将摄像方向(光轴方向)指向墙壁的方向。

因此，在第二实施例中，中央控制单元201对声音方向检测单元2044设置声音方向的有效范围(或无效范围)。将说明如下的情况：仅在声音方向检测处理中检测到的声音方向在有效范围内的情况下，声音方向检测单元2044才将表示所检测到的方向的声音信息存储在内部缓冲器2044a中。换句话说，将说明如下的示例：在声音方向检测处理中检测到的声音方向在无效范围内的情况下，声音方向检测单元2044不将表示所检测到的声音方向的信息存储在内部缓冲器2044a中，并且忽略(掩蔽)检测结果。

图14A～14F是示出在第二实施例中设想的摄像设备1的使用模式与相应的掩蔽区域之间的关系的图。

图14A示出摄像设备1从用户的颈部悬挂的示例。在由所示的箭头A表示的方向被定义为用户的前方向时，图14B是摄像设备1的从其底面观看到的透视图。如图所示，麦克风104a和104b侧的区域是摄像设备1可以拍摄的区域。相反，可以理解，麦克风104c和104d侧的区域是无需拍摄的区域。因此，中央控制单元201对声音方向检测单元2044设置以用户的身体方向为中心的预定范围(在该图中为180度的范围)作为声音方向检测的掩蔽区域。根据该设置，在所检测到的声音方向在所设置的掩蔽区域中的情况下，声音方向检测单元2044不将表示该声音方向的声音方向信息存储到缓冲存储器2044a。换句话说，仅在所检测到的声音方向在所设置的掩蔽区域外的情况下，声音方向检测单元2044才将声音方向信息存储在缓冲存储器2044a中。结果，中央控制单元201将不进行平摇操作，使得镜头单元101的摄像方向(光轴方向)指向掩蔽区域。

图14C示出将摄像设备1放置到房间的角落靠近墙壁的位置的示例。在这种情况下，如图14D所示，将在从摄像设备1的上方观看时的、以向着角落的方向为中心的适当角度(例如，200度)的范围设置为掩蔽区域。

图14E示出摄像设备1附着至用户的肩部的示例。图14F示出在从用户的上方观看的情况下的掩蔽区域。如图所示，包括用户的头部存在于的方向的区域是掩蔽区域。

接着，将参考图15A的流程图来说明第二实施例中的中央控制单元201所进行的处理。应当注意，图15A仅示出中央控制单元201所要进行的包括掩蔽区域设置的主要处理。此外，以下将假定正在执行图6的步骤S217中的自动运动图像拍摄和记录的作业来给出说明。

在模式转变为自动运动图像拍摄模式的情况下，在步骤S1502中，中央控制单元201根据摄像单元102和摄像信号处理单元202的输出来确认当前视角范围是否覆盖需要拍摄的区域。该判断方法包括用于判断所获得的图像是否具有预定值或更大的亮度、在通过镜头致动器控制单元103可以聚焦的位置处是否存在被摄体、或者被摄体是否过近的方法。该判断可以通过使用距离传感器或距离图等获得到被摄体的距离来进行。

如果判断为无需拍摄当前视角的一部分或全部，则在步骤S1503中，中央控制单元201将该角度作为声音方向检测掩蔽区域保存到存储单元206。

在步骤S1504中，中央控制单元201通过控制枢转控制单元213来使得可动摄像单元100按预先设置的单位角度进行平摇操作。此外，在步骤S1505中，中央控制单元201重复步骤S1502及其之后的处理，直至判断为平摇操作达到了360度(一周)为止。结果，由于在存储单元206中存储有要掩蔽的多个角度，因此中央控制单元201将包括由多个角度中的两端的角度夹持的多个角度的范围确定为掩蔽区域。这里，用于判断初始声音方向检测掩蔽区域的操作完成。

之后，假定在步骤S1506中，声音方向检测单元2044检测到了声源方向。在这种情况下，在步骤S1507中，声音方向检测单元2044判断声源方向是否在先前确定的掩蔽区域内。如果所检测到的声源方向在掩蔽区域内，则声音方向检测单元2044忽略该声源方向。也就是说，声音方向检测单元不将该声音方向信息存储到内部缓冲存储器2044a，并且使处理返回到步骤S1506。

另一方面，如果所检测到的声音方向在掩蔽区域外，则声音方向检测单元2044将所检测到的方向存储在内部缓冲器2044a中。结果，中央控制单元201了解声音方向检测单元2044检测到了声音方向，因此在步骤S1508中，通过控制枢转控制单元213来使得可动摄像单元100进行平摇操作，以将可动摄像单元100指向声源方向。

此外，在步骤S1509中，如果中央控制单元201在经由视频信号处理单元203获取到的图像中不能检测到被摄体，则中央控制单元201使处理返回到步骤S1506，并且继续等待声音方向检测的状态。

另一方面，如果在拍摄图像中包括被摄体，则在步骤S1510中，中央控制单元201执行诸如面部识别、追踪、静止图像拍摄或运动图像拍摄等的作业。这里，在步骤S1511中，使用位置检测单元212的陀螺仪和加速度传感器来检测摄像设备1的移动。如果利用位置检测单元212检测到摄像设备1的移动，则中央控制单元201判断为摄像设备1正被携带。然后，中央控制单元201使处理返回到步骤S1502，并且再次进行用于设置声音方向检测掩蔽区域的处理。

图15A示出在摄像设备1通常使用的预处理中进行掩蔽区域设置处理的处理流程。将参考图15B的流程图来说明根据需要更新声音方向检测掩蔽区域的处理。应当注意，在以下的说明中也将仅说明中央控制单元201所要进行的包括掩蔽区域设置的主要处理。也就是说，在图15B的流程图中，省略了与第一实施例中所述的启动命令有关的电力控制等的电力控制，并且仅示出掩蔽区域的设置、以及从声音方向检测起直到基于语音命令的处理为止的处理的主要部分。

在步骤S1522中，中央控制单元201等待声音方向检测单元2044对声音方向的检测。在检测到声音方向时，在步骤S1523中，中央控制单元201判断所检测到的声源方向是否在声音检测掩蔽区域中，并且如果声源方向在掩蔽区域中，则忽略该声音方向，并使处理返回到步骤S1522。注意，在初始状态下，没有设置声音方向检测的掩蔽区域。因此，中央控制单元201使处理进入步骤S1524，并且通过控制枢转控制单元213来使得可动摄像单元100开始平摇操作，以将可动摄像单元100指向声源方向。

在进行了预定时间段的平摇操作之后，在步骤S1525中，中央控制单元201根据视频信号处理单元203的输出来确认视角范围是否覆盖需要拍摄的区域。该判断方法包括用于判断所获得的图像是否具有预定值或更大的亮度、在通过镜头致动器控制单元103可以聚焦的位置处是否存在被摄体、或者被摄体是否过近而不能聚焦的方法。该判断可以通过使用距离传感器和距离图等获得到被摄体的距离来进行。

如果判断为需要拍摄当前视角的一部分或全部，则在步骤S1526中，中央控制单元201通过取消声音方向检测掩蔽区域的设置来保存该方向(角度)。相反，如果判断为无需拍摄当前视角的一部分或全部，则在步骤S1527中，中央控制单元201将该方向(角度)保存为声音方向检测掩蔽区域。

另外，在步骤S1528中，中央控制单元201判断是否到达在先前的步骤S1522中检测到的声源方向。如果判断为“否”，则在步骤S1529中，中央控制单元201进行预定时间段的平摇操作。然后，中央控制单元201使处理返回到步骤S1525。

在步骤S1528中，中央控制单元201在判断为进行了向着声音方向检测单元2044的方向的平摇操作时，使处理进入步骤S1530。在步骤S1530中，中央控制单元201在经由视频信号处理单元203获得的图像中检测被摄体(面部)。如果不能检测到被摄体，则中央控制单元201使处理返回到步骤S1522，并使处理返回到等待声音方向检测的状态。另一方面，如果在视频信号处理单元203所获得的图像中可以检测到被摄体，则中央控制单元201使处理进入步骤S1531，并且根据所识别出的语音命令来进行诸如追踪、静止图像拍摄或运动图像拍摄等的预定操作。

如上所述，作为放大或缩小声音方向检测掩蔽区域的结果，可以获得仅在最佳方向上的声音方向检测单元2044的检测结果。

如上所述，作为进行用于放大或缩小声音方向检测掩蔽区域的更新处理的结果，可以获得仅在最佳方向上的声音方向检测单元2044的检测结果。

[第三实施例]

将说明该第三实施例应用于图6的步骤S217中的自动运动图像记录作业的示例。图16是示出摄像设备1固定在台1605上、并且被摄体(其面部)1603和1604处于不同高度的情况(容易理解一个人正站着并且另一人正坐着的情况)的示意图。

在图16中，假定在摄像设备1正拍摄被摄体1603(附图标记1601表示此时的视角)时，之后被摄体1604说了些什么。在这种情况下，摄像设备1可以检测到被摄体160在水平方向上的角度(平摇角)，但不能检测到被摄体1604在垂直方向上的角度(俯仰角)(图示的附图标记1602表示在俯仰角尚未确定的情况下平摇操作已完成时的视角)。因此，在平摇操作之后，需要通过逐渐进行俯仰操作来检测被摄体。

然而，在交替地重复被摄体1603和被摄体1604的拍摄的情况下，在每次进行平摇操作时，都需要通过进行视角的俯仰操作来搜索被摄体，因此在检测到被摄体之前需要较长的时间。此外，在记录运动图像的情况下，存在可能记录了如下的运动图像的问题，在该运动图像中，视角移动，这导致用户感到不协调。

因此，在第三实施例中，一旦识别出了被摄体，学习(存储)表示此时的镜头单元101的摄像方向(光轴方向)的平摇角和俯仰角。此外，在声音方向检测单元2044所检测到的声音方向相对于所学习的方向在小于或等于预先设置的阈值的容许范围内的情况下(在这两个方向基本上一致的情况下)，通过向着所学习的方向同时执行平摇和俯仰操作、使得镜头单元101的摄像方向(光轴方向)与所学习的方向一致，来减少进行平摇和俯仰操作所需的时间。注意，在学习平摇角和俯仰角时，如第一实施例所述，将在摄像设备1启动时的镜头单元101的水平面的方向(平摇0度)和俯仰范围的水平方向(俯仰0度)设置为基准角度，并且将这两者的差记录在存储单元206中。

图17示出第三实施例中的中央控制单元201的自动运动图像记录作业(图6的步骤S217)的处理过程的流程图。注意，假定在本处理开始之前，带有声音的运动图像的拍摄和记录已开始。

首先，在步骤S1701中，中央控制单元201等待，直到声音方向检测单元2044检测到声源方向为止。在检测到声源方向的情况下，中央控制单元201使处理进入步骤S1702，并且根据镜头单元101的当前摄像方向(光轴方向)和所检测到的声源方向来确定平摇操作的方向和角度。此外，在步骤S1703中，中央控制单元201判断与本次检测到的声源方向匹配的被摄体信息是否已登记在存储单元206中。在本实施例的摄像设备1中，过去的被摄体信息可以保存在存储单元206中。作为累积与进行了被摄体检测的时间、水平方向上的角度(平摇角)和垂直方向上的角度(俯仰角)有关的信息作为过去的被摄体信息的结果，可以针对新进行拍摄时的被摄体检测获得有效的线索。

在步骤S1703中，中央控制单元201在判断为存在与本次检测到的声源方向匹配的过去的被摄体信息时，使处理进入步骤S1704。此外，在步骤S1703中，中央控制单元201在判断为不存在与本次检测到的声源方向匹配的被摄体信息时，使处理进入步骤S1706。

在步骤S1704中，中央控制单元201根据由被判断为与本次检测到的声源方向匹配的被摄体信息所表示的俯仰角、以及当前俯仰角，来确定俯仰操作的方向和角度。此外，在步骤S1705中，中央控制单元201基于与在先前的步骤S1702中确定的平摇操作的方向和角度以及在步骤S1704中确定的俯仰操作的方向和角度有关的信息，来并行地执行平摇和俯仰操作，使得镜头单元101的摄像方向(光轴方向)在最短距离内指向目标方向。这样，在摄像设备1和被摄体之间的位置关系从检测到过去的被摄体信息的时间点起没有改变的情况下，可以通过一次视角移动检测到被摄体，并且可以使检测被摄体所需的时间最小化。因此，即使在使用摄像设备1记录运动图像的情况下，也可以记录在不会导致用户感到不协调的情况下视角移动的运动图像。

在步骤S1706中，中央控制单元201通过进行平摇操作来将镜头单元101的摄像方向(光轴方向)指向所检测到的声源。此外，中央控制单元201使处理进入步骤S1707。

在步骤S1707中，中央控制单元201在从视频信号处理单元203获得的当前拍摄图像中检测被摄体。在检测到被摄体的情况下，处理转移到步骤S1708，并且进行被摄体的拍摄。这里，在存储单元206中存在相对于当前平摇角具有容许范围内的差的被摄体信息的情况下，中央控制单元201根据镜头单元101的当前视线来更新被摄体信息中的平摇角和俯仰角。此外，在存储单元206中不存在相对于当前平摇角具有容许范围内的差的被摄体信息的情况下，中央控制单元201将表示镜头单元101的当前摄像方向(光轴方向)的平摇角和俯仰角作为新的被摄体信息登记到存储单元206。

另一方面，在步骤S1707中，在视角移动之后未检测到被摄体的情况下，中央控制单元201使处理进入步骤S1709。在步骤S1709中，中央控制单元201将镜头单元101的摄像方向(光轴方向)移动到垂直方向(进行俯仰操作)，并且搜索被摄体。此外，在步骤S1710中，中央控制单元201判断是否检测到被摄体。在检测到了被摄体的情况下，处理进入步骤S1708。在处理进入步骤S1708的情况下，将新的被摄体信息登记在存储单元206中。

此外，在步骤S1710中，如果没有检测到被摄体，则中央控制单元201使处理进入步骤S1711，并且进行错误处理。该错误处理例如可以是用于在保持处于当前位置的同时继续拍摄并记录的处理，但也可以是用于将镜头单元101的摄像方向(光轴方向)返回到在步骤S1701中判断为检测到声源方向的时间点的镜头单元101的摄像方向的处理。此外，被摄体可能已移动，因此处理可以是用于将平摇角相对于镜头单元101的当前水平面的平摇角处于容许范围内的被摄体信息从存储单元206删除的处理。

图18是示意性地示出第三实施例的摄像设备的控制的图。假定摄像设备1通过进行平摇和俯仰操作可能已检测到了被摄体1604，这是由被摄体1604说话引起的。在这种情况下，在被摄体1604下次说话时，本实施例的摄像设备1可以立即控制平摇和俯仰操作，使得镜头单元101的视角在最短距离内转变为由附图标记1801表示的视角。

接着，将说明第三实施例的变形例。同样在下文，将说明将该技术应用于图6的步骤S217中的自动运动图像记录作业的示例。

图19示出本变形例中的在利用中央控制单元201进行自动运动图像记录作业期间的处理过程的流程图。注意，假定在该处理开始之前，带有声音的运动图像的拍摄和记录已开始。

该处理与图17所示的处理的不同之处在于，添加了步骤S1901和S1902。

首先，在步骤S1701中，中央控制单元201等待，直到利用声音方向检测单元2044检测到声源方向为止。如果检测到声源方向，则在步骤S1702中，中央控制单元201基于镜头单元101的当前摄像方向(光轴方向)和所检测到的声源方向来确定平摇操作的方向和角度。

接着，在步骤S1901中，中央控制单元201进行与在存储单元206中是否存在关于以目标方向为中心的预先设置的范围内的被摄体的多个信息有关的判断。如果判断为存在与本次检测到的声源方向上的被摄体有关的多个信息，则中央控制单元201将处理转移到步骤S1902。此外，如果仅存在一个与被摄体有关的信息、或者不存在与被摄体有关的信息，则中央控制单元201使处理进入步骤S1703。

在步骤S1902中，中央控制单元201确定目标俯仰角，使得多个被摄体进入镜头单元101的视角。此外，中央控制单元201使处理进入步骤S1705。

步骤S1703及其之后的处理与图17所示的处理相同，因此省略了对该处理的说明。

作为上述处理的结果，在多个被摄体位于几乎相同的场所、并且这些被摄体其中之一说话的情况下，可以进行拍摄，使得包括实际说话的被摄体的多个被摄体在视角中，因此可以记录将不会导致用户感到不协调的运动图像。

例如，如图20所示，在被摄体1604和1610处于靠近位置、并且这两个被摄体信息都登记在存储单元206中的状态下，并且在被摄体1604说话的情况下，中央控制单元201进行可动摄像单元100的平摇和俯仰操作，使得其视角在最短距离内转变为图示的视角2001，因此可以进行自然的运动图像拍摄和记录。

如上所述，根据第三实施例及其变形例，一旦说话的被摄体进入镜头单元101的视角并被识别出，将向着被摄体方向的相对于基准方向的平摇角和俯仰角存储(学习)为被摄体信息。然后，在第二次及其之后，在声音方向检测单元2044所检测到的声音方向的平摇角与所存储的被摄体信息的平摇角基本上一致的情况下，通过同时执行平摇和俯仰操作以变为由所存储的被摄体信息表示的平摇角和俯仰角来使可动摄像单元100移动。结果，可以进行被摄体的自然切换，并且可以进行对于用户而言将仅感到略微不协调的运动图像的记录。

[第四实施例]

将说明第四实施例。在第四实施例中将说明可以改变声音方向检测单元2044所检测到的声音方向的检测精度的示例。已经说明了声音方向检测单元2044所要进行的声音方向的检测原理。提高声音方向检测的检测精度的一个方法是增加每单位时间的检测次数并且获得其平均值。然而，增加每单位时间的检测次数引起了声音方向检测单元2044的负荷增加、即操作率增加，结果，摄像设备1的电力消耗增加。

因此，在第四实施例中，将说明可以改变声音方向检测单元2044所检测到的声音方向的检测精度、并且根据需要提高或降低精度的示例。

图21A和21B以及图22A～22C是示例性拍摄中的摄像设备1在水平方向上的拍摄视角与声音方向检测在水平方向上的检测分辨率之间的关系的图。在图21A和21B以及图22A～22C中，坐标右方向被定义为基准方向0°，并且逆时针转动方向被定义为正方向。另外，由点划线表示的角度是摄像设备1的镜头单元101的拍摄视角θ。图21A和21B示出θ＝110度的示例，并且图22A～22C示出θ＝40度的示例。注意，拍摄视角θ越小表示变焦倍率越高，并且相反，拍摄视角θ越大表示变焦倍率越低。这里，将声音方向检测单元2044在水平方向上的角度的分辨率表示为声音方向检测分辨率φ。此外，该图中的实心圆表示声音方向检测单元2044所检测到的声源的位置。

图21A和21B示出在拍摄视角θ>声音方向检测分辨率φ的情况下的示例性拍摄。如上所述，拍摄视角θ为110°，并且声音方向检测分辨率φ为90°。声音方向检测分辨率φ为90°意味着对声音方向检测范围进行四分割。在这种情况下，从声音方向检测单元2044要输出的声音方向检测结果表示四个方向(即，0～90°、90～180°、180～270°和270～360°(0°))其中之一。

图22A示出摄像设备1的初始状态，并且拍摄方向为90°。此外，说话的被摄体存在于由点表示的坐标270°～360°(0°)的范围内。在图21A所示的示例性拍摄中，在进行声音方向检测之后，如图21B所示，改变拍摄方向，使得作为平摇驱动的结果，检测到声音方向的范围被拍摄视角θ所覆盖，结果可以使被摄体进入拍摄视角θ。

图22A～22C示出在拍摄视角θ<声音方向检测分辨率φ的情况下的示例性拍摄。在图22A～22C中，拍摄视角θ为40°，并且声音方向检测分辨率φ为90°。图22A示出摄像设备1的初始状态，并且拍摄方向为90°。此外，说话的被摄体存在于由点表示的坐标270°～360°(0°)的范围内。在图22A所示的示例性拍摄中，在进行声音方向检测之后，如图22B或22C所示，通过平摇驱动来改变拍摄方向，使得拍摄视角θ进入检测到了声音方向的范围。在拍摄方向如图22C所示改变的情况下，被摄体可以进入拍摄视角θ，但如果拍摄方向如图22B所示改变，则被摄体不能进入拍摄视角θ。在这种情况下，需要通过重复地进行平摇驱动以使被摄体进入拍摄视角θ来将拍摄方向改变为如图22C所示的拍摄方向。

如使用图21A和21B以及图22A～22C所述，在拍摄视角θ>声音方向检测分辨率φ的情况下，可以通过一次平摇驱动来使检测声音的方向进入拍摄视角，并且可以进行被摄体检测。然而，在拍摄视角θ<声音方向检测分辨率φ的情况下，可以理解，通过一次平摇驱动有可能不能使检测到声音的方向进入拍摄视角，结果存在由于重复地进行平摇驱动而导致被摄体检测所用的操作时间和电力消耗增加的问题。

图23是示出声音方向检测分辨率φ与声音信号处理单元2045的处理量之间的关系的图。存在如下的关系：随着声音方向检测分辨率φ的减小，声音信号处理单元2045的每单位时间的处理量增加，并且随着声音方向检测分辨率φ的增大，声音信号处理单元2045的每单位时间的处理量减少。也就是说，如果声音方向检测分辨率φ降至低于所需的声音方向检测分辨率，则存在声音信号处理单元2045的处理量将增加、并且其它处理受影响的问题。

通过以上说明，关于拍摄视角θ和声音方向检测分辨率φ之间的关系，期望在满足拍摄视角θ>声音方向检测分辨率φ的条件下，尽可能增大声音方向检测分辨率φ。

图24A和24B是示出第四实施例中的摄像设备1在水平方向上的拍摄视角与声音方向检测在水平方向上的检测分辨率之间的关系的图。图25示出在语音命令识别单元2043识别出放大命令或缩小命令的情况下、中央控制单元201所要进行的处理的流程图。图25的流程图示出第一实施例中的图5B的步骤S164中的处理的一部分。也就是说，该流程图是在步骤S208之后在判断为语音命令是放大或缩小命令的情况下要进行的处理，其中在图6中省略了步骤S208之后的处理。

在步骤S2501中，中央控制单元201判断所识别出的语音命令是放大命令和缩小命令中的哪一个。如果判断为该命令是放大命令，则中央控制单元201使处理进入步骤S2502。在步骤S2502中，中央控制单元201从镜头致动器控制单元103获取当前变焦透镜位置，并且判断所获取到的位置是否在远摄端。如果当前变焦透镜位置是远摄端的位置，则不能进行进一步的放大。因此，中央控制单元201忽略所识别出的放大命令，并使处理返回到图5B的步骤S151。

此外，如果判断为当前变焦透镜位置未到达远摄端，则中央控制单元201使处理进入步骤S2503。在步骤S2503中，中央控制单元201通过控制镜头致动器控制单元103来使变焦倍率增大预定倍率。此外，中央控制单元201使处理返回到图5B的步骤S151。

另一方面，在步骤S2501中，如果判断为该命令是缩小命令，则中央控制单元201使处理进入步骤S2504。在步骤S2504中，中央控制单元201从镜头致动器控制单元103获取当前变焦透镜位置，并且判断所获取到的位置是否处于广角端。如果当前变焦透镜位置是广角端的位置，则不能进行进一步的缩小。因此，中央控制单元201忽略所识别出的缩小命令，并使处理返回到图5B的步骤S151。

此外，如果判断为当前变焦透镜位置未到达广角端，则中央控制单元201使处理进入步骤S2505。在步骤S2505中，中央控制单元201通过控制镜头致动器控制单元103来使将变焦倍率减小预定倍率。此外，中央控制单元201使处理返回到图5B的步骤S151。

作为以上的结果，例如，假定当前如图26A所示，拍摄视角为110，镜头单元101指向相对于基准方向的90度的方向，并且声音方向检测分辨率φ为90度。此外，假定在该时刻，由位于从270度到360度的坐标范围内的实心圆表示的人物说出了放大命令。在这种情况下，由于声音方向检测分辨率φ为90度，因此作为平摇操作的结果的镜头单元101的视角如图26B所示。也就是说，可以使说话的被摄体进入镜头单元101的视角。然而，由于要执行该命令，因此镜头单元101的视角减小。结果，如图26C所示，被摄体(实心圆)有可能在更新后的镜头单元101的视角外。然而，在同一人物说出放大命令时，在将声音方向检测分辨率φ设置为比前次高的分辨率的状态(声音方向检测分辨率φ为30度)下进行平摇操作，因此如图26D所示，被摄体可以进入镜头单元101的视角。也就是说，如果作为被摄体的人物重复地说出放大命令，则镜头单元101的摄像方向(光轴方向)以更高的精度指向被摄体，并且放大率也增大。

如上所述，根据第四实施例，即使在由于变焦驱动而导致拍摄视角改变的情况下，声音检测分辨率φ也改变。结果，通过以改变后的声音检测分辨率φ进行声音方向检测，可以在抑制处理时间和电力消耗的同时，有效地使在视角外的被摄体进入视角。此外，在要作为被摄体的人物说出放大命令、之后例如说出运动图像拍摄命令的情况下，在该人物被放大的状态下进行运动图像拍摄和记录。

在上述示例中，声音方向的分辨率根据用户所进行的与变焦有关的语音命令而改变。然而，在根据语音命令进行平摇操作时，在拍摄图像中存在多个被摄体的情况下，不论变焦倍率如何，都可以增大声音方向分辨率以指定说话者。

(其它实施例)

本发明还可以通过以下处理来实现：将实现上述实施例的一个或多个功能的程序经由网络或存储介质供给至系统或设备，并且该系统或设备的计算机的一个或多个处理器读取程序并执行所读取的程序。此外，本发明还可以通过实现一个或多个功能的电路(例如，ASIC)来实现。

本发明不限于上述实施例，并且可以在本发明的精神和范围内进行各种改变和修改。因此，为了公开本发明的范围，添加了所附的权利要求书。

本申请要求2017年12月26日提交的日本专利申请2017-250108和2018年11月2日提交的日本专利申请2018-207634的优先权，这两个申请的全部内容通过引用而被包含于此。

Claims

1.一种摄像设备，其包括摄像部件，其特征在于，所述摄像设备包括：

驱动部件，用于驱动所述摄像部件；

第一检测部件，用于检测用户存在于的方向；

第二检测部件，用于检测所述摄像设备的移动；

多个声音收集部件，用于收集语音；

控制部件，

2.根据权利要求1所述的摄像设备，其特征在于，

在存在与所述第三检测部件所检测到的语音的声源的方向有关的多个候选的情况下，所述控制部件控制所述驱动部件，使得所述摄像部件的摄像方向指向并非所述第一检测部件所检测到的用户存在于的方向的方向。

3.根据权利要求1或2所述的摄像设备，其特征在于，

所述第二检测部件基于所述摄像设备的加速度和角速度来检测所述摄像设备的移动。

4.根据权利要求1至3中任一项所述的摄像设备，其特征在于，

所述多个声音收集部件被布置成使得并非所有的声音收集部件都在直线上。

5.一种摄像设备的控制方法，所述摄像设备包括：

摄像部件；

驱动部件，用于驱动所述摄像部件；

多个声音收集部件，用于收集语音；以及

检测部件，用于使用所述多个声音收集部件来检测语音的声源的方向，

所述控制方法的特征在于包括：

第一检测步骤，用于检测用户存在于的方向；

第二检测步骤，用于检测所述摄像设备的移动；

确定步骤，用于基于在所述第一检测步骤中所检测到的用户存在于的方向和在所述第二检测步骤中所检测到的所述摄像设备的移动，来从所述多个声音收集部件中确定两个或更多个声音收集部件，

检测步骤，用于使用在所述确定步骤中所确定的两个或更多个声音收集部件来检测语音的声源的方向；以及

控制步骤，用于在所述检测步骤中检测到语音的声源的方向的情况下，控制所述驱动部件，使得所述摄像部件的摄像方向指向在所述检测步骤中所检测到的声源的方向。

6.一种记录有程序的记录介质，所述程序用于使得摄像设备执行控制方法，所述摄像设备包括：

摄像部件；

驱动部件，用于驱动所述摄像部件；

多个声音收集部件，用于收集语音；以及

所述控制方法的特征在于包括：

第一检测步骤，用于检测用户存在于的方向；

第二检测步骤，用于检测所述摄像设备的移动；

7.一种摄像设备，其特征在于包括：

摄像部件；

驱动部件，用于驱动所述摄像部件；

多个声音收集部件，用于收集语音；

检测部件，用于使用所述多个声音收集部件来检测语音的声源的方向；以及

控制部件，

其中，所述控制部件基于通过由所述摄像部件进行的拍摄所获得的图像数据来设置无需拍摄的区域，以及

在所述检测部件所检测到的语音的声源的方向并非在无需拍摄的区域中的情况下，所述控制部件控制所述驱动部件，使得所述摄像部件的摄像方向指向所述检测部件所检测到的语音的声源的方向。

8.根据权利要求7所述的摄像设备，其特征在于，

在通过由所述摄像部件进行的拍摄所获得的图像数据的亮度低于预定阈值的情况下、或者在图像数据中拍摄到的被摄体和所述摄像设备之间的距离小于预定阈值的情况下，所述控制部件将摄像方向设置为无需拍摄的区域。

9.根据权利要求7或8所述的摄像设备，其特征在于，

在判断为所述摄像设备正被携带的情况下，所述控制部件再次设置无需拍摄的区域。

10.根据权利要求7或8所述的摄像设备，其特征在于，

所述控制部件在进行控制以驱动所述驱动部件并持续预定时间之后，基于通过由所述摄像部件进行的拍摄所获得的图像数据来进一步判断所述摄像部件的当前摄像方向是否在需要拍摄的区域中，并且根据该判断来再次设置无需拍摄的区域。

11.一种摄像设备的控制方法，所述摄像设备包括：

摄像部件；

多个声音收集部件，用于收集语音，

所述控制方法的特征在于包括：

检测步骤，用于检测使用所述多个声音收集部件所收集的语音的声源的方向；

设置步骤，用于基于通过由所述摄像部件进行的拍摄所获得的图像数据来设置无需拍摄的区域；以及

驱动步骤，用于在所述检测步骤中所检测到的语音的声源的方向并非在所述设置步骤中所设置的无需拍摄的区域中的情况下，进行驱动，使得所述摄像部件的摄像方向指向在所述检测步骤中所检测到的语音的声源的方向。

12.一种记录有程序的记录介质，所述程序用于使得摄像设备执行控制方法，所述摄像设备包括：

摄像部件；

多个声音收集部件，用于收集语音，

所述控制方法的特征在于包括：

13.一种摄像设备，其特征在于包括：

摄像部件；

驱动部件，用于使用平摇操作和俯仰操作来驱动所述摄像部件；

多个声音收集部件，用于收集语音；

检测部件，用于使用所述多个声音收集部件来检测语音的声源的方向的平摇角；以及

控制部件，

其中，在利用所述摄像部件拍摄到被摄体的情况下，所述控制部件将指向所述被摄体的方向的所述摄像部件的摄像方向的平摇角和俯仰角记录为被摄体信息，

在所述检测部件所检测到的平摇角与所述被摄体信息中所包括的平摇角进行比较的情况下，如果这两个角之间的差为阈值或更小，则所述控制部件控制所述驱动部件，使得所述摄像部件的摄像方向指向所述检测部件所检测到的平摇角和所述被摄体信息中所包括的俯仰角，以及

在所述检测部件所检测到的平摇角与所述被摄体信息中所包括的平摇角进行比较的情况下，如果这两个角之间的差超过所述阈值，则所述控制部件控制所述驱动部件，使得所述摄像部件的摄像方向指向处于所述检测部件所检测到的平摇角的被摄体。

14.根据权利要求13所述的摄像设备，其特征在于，

所述控制部件控制所述驱动部件，使得所述摄像部件的摄像方向指向所述检测部件所检测到的平摇角和所述被摄体信息中所包括的俯仰角，以及

在所述检测部件所检测到的平摇角和所述被摄体信息中所包括的俯仰角的方向上检测到被摄体的情况下，所述控制部件将所述被摄体信息更新为所述摄像部件的当前摄像方向的平摇角和俯仰角。

15.根据权利要求13或14所述的摄像设备，其特征在于，

在所述检测部件所检测到的平摇角和所述被摄体信息中所包括的俯仰角的方向上未检测到被摄体的情况下，所述控制部件删除所述被摄体信息。

16.根据权利要求13至15中任一项所述的摄像设备，其特征在于，在存在与所述检测部件所检测到的平摇角的差为阈值或更小的多个被摄体信息的情况下，

所述控制部件以使得所述多个被摄体信息各自的俯仰角在预定范围内的方式确定所述俯仰角，以及

所述控制部件控制所述驱动部件，使得所述摄像部件的摄像方向指向所述检测部件所检测到的平摇角和所确定的俯仰角。

17.一种摄像设备的控制方法，包括：

摄像部件；

驱动部件，用于使用平摇操作和俯仰操作来驱动所述摄像部件；以及

多个声音收集部件，用于收集语音，

所述控制方法的特征在于包括：

记录步骤，用于在利用所述摄像部件拍摄到被摄体的情况下，将指向所述被摄体的方向的所述摄像部件的摄像方向的平摇角和俯仰角记录为被摄体信息；

检测步骤，用于使用所述多个声音收集部件来检测语音的声源的方向的平摇角；

如下的步骤：在将所述检测步骤中所检测到的平摇角与所述记录步骤中所记录的所述被摄体信息中所包括的平摇角进行比较的情况下，如果这两个角之间的差为阈值或更小，则控制所述驱动部件，使得所述摄像部件的摄像方向指向所述检测步骤中所检测到的平摇角和所述记录步骤中所记录的所述被摄体信息中所包括的俯仰角；以及

如下的步骤：在将所述检测步骤中所检测到的平摇角与所述记录步骤中所记录的所述被摄体信息中所包括的平摇角进行比较的情况下，如果这两个角之间的差超过所述阈值，则控制所述驱动部件，使得所述摄像部件的摄像方向指向处于在所述检测步骤中检测到的平摇角的被摄体。

18.一种记录有程序的记录介质，所述程序用于使得摄像设备执行控制方法，所述摄像设备包括：

摄像部件；

多个声音收集部件，用于收集语音，

所述控制方法的特征在于包括：

19.一种摄像设备，其特征在于包括：

摄像部件；

驱动部件，用于驱动所述摄像部件；

多个声音收集部件，用于收集语音；

检测部件，用于使用所述多个声音收集部件以预定角度的分辨率来检测语音的声源的方向；以及

控制部件，

其中，所述控制部件配置设置，使得所述预定角度小于所述摄像部件的视角，以及

在利用所述声音收集部件收集到语音的情况下，所述控制部件控制所述驱动部件，使得所述摄像部件的摄像方向指向所述检测部件以所述预定角度的分辨率所检测到的语音的声源的方向。

20.根据权利要求19所述的摄像设备，其特征在于，

所述控制部件配置所述设置，使得在所述摄像部件的变焦倍率增加的情况下，所述预定角度以小于所述摄像部件的视角的方式增大，以及

所述控制部件配置所述设置，使得在所述摄像部件的变焦倍率减少的情况下，所述预定角度以小于所述摄像部件的视角的方式减小。

21.根据权利要求19或20所述的摄像设备，其特征在于，还包括：

识别部件，用于识别通过语音所作出的指示，

其中，在所述识别部件识别出用于改变所述摄像部件的变焦倍率的指示的情况下，所述控制部件根据所述指示来改变所述摄像部件的变焦倍率。

22.一种摄像设备的控制方法，所述摄像设备包括：

摄像部件；

驱动部件，用于驱动所述摄像部件；以及

多个声音收集部件，用于收集语音，

所述控制方法的特征在于包括：

检测步骤，用于使用所述多个声音收集部件以预定角度的分辨率来检测语音的声源的方向；

设置步骤，用于将所述预定角度设置成小于所述摄像部件的视角；以及

控制步骤，用于控制所述驱动部件，使得在利用所述声音收集部件收集到语音的情况下，所述摄像部件的摄像方向指向在所述检测步骤中以所述预定角度的分辨率检测到的语音的声源的方向。

23.一种记录有程序的记录介质，所述程序用于使得摄像设备执行控制方法，所述摄像设备包括：

摄像部件；

驱动部件，用于驱动所述摄像部件；以及

多个声音收集部件，用于收集语音，

所述控制方法的特征在于包括：