CN113141448B

CN113141448B - 摄像装置

Info

Publication number: CN113141448B
Application number: CN202011513532.7A
Authority: CN
Inventors: 春日井宏树
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2020-01-20
Filing date: 2020-12-18
Publication date: 2024-03-19
Anticipated expiration: 2040-12-18
Also published as: JP2021114716A; US11258940B2; CN113141448A; JP6739064B1; US20210227145A1

Abstract

提供一种在取得声音并摄像的摄像装置中，能易于确认用户打算进行声音的拾音的被摄体的摄像装置。摄像装置(100)具备：显示信息的显示部(130)；对被摄体摄像并生成图像数据的摄像部(115)；和取得表示在摄像部所进行的摄像中被拾音的声音的声音数据的声音取得部(165)，检测部具备：在图像数据中检测与被摄体对应的被摄体区域的检测部(122)；按照由检测部检测到的被摄体区域决定设为声音信号中的拾音对象的被摄体和主要被摄体的控制部(135)。控制部进行控制，以使得在由检测部检测到多个被摄体区域时将表示是主要被摄体且是拾音对象的被摄体的第1识别信息、和表示是与主要被摄体不同的被摄体且是拾音对象的第2识别信息区别地显示于显示部。

Description

摄像装置

技术领域

本公开涉及取得声音并进行摄像的摄像装置。

背景技术

专利文献1公开了具有脸检测功能的视频摄像机。专利文献1的视频摄像机对应于变焦比率以及拍摄到的画面内的人物的脸的大小来使麦克风的指向角变化。由此，该视频摄像机通过与视频摄像机和被摄体影像的距离建立关联地控制麦克风的指向角来取得影像与声音的匹配，并谋求实现使麦克风的指向角变化以使得能更确实地捕捉到被摄体的声音的控制。这时，该视频摄像机检测人物(被摄体)的脸的位置以及大小，在检测到的脸部分附加框(脸检测框)来显示，并利用脸检测框的大小(脸的大小)的信息。

现有技术文献

专利文献

专利文献1：JP特开2010-283706号公报

发明内容

本公开提供一种摄像装置，在取得声音并进行摄像的摄像装置中，能易于确认用户打算进行声音的拾音的被摄体。

在本公开中，摄像装置具备显示部、摄像部、声音取得部、检测部和控制部。显示部显示信息。摄像部对被摄体进行摄像并生成图像数据。声音取得部取得表示在摄像部所进行的摄像中被拾音的声音的声音数据。检测部在图像数据中检测与被摄体对应的被摄体区域。控制部按照由检测部检测到的被摄体区域来决定设为声音信号中的拾音对象的被摄体以及主要被摄体。控制部进行控制，使得在由检测部检测到多个被摄体区域时，将表示是主要被摄体且设为拾音对象的被摄体的第1识别信息、和表示是与主要被摄体不同的被摄体且是拾音对象的第2识别信息区别地显示于显示部。

发明的效果

根据本公开所涉及的摄像装置，基于图像数据中的检测部的检测结果，对应于检测到的被摄体区域来决定拾音对象的被摄体，与其他被摄体区别地进行显示。由此，用户能易于确认打算进行声音的拾音的被摄体。

附图说明

图1是表示本公开的实施方式1所涉及的数码摄像机100的结构的图。

图2是例示数码摄像机100中的波束形成部172的结构的图。

图3是在数码摄像机100中例示拾音区域的图。

图4是例示实施方式1所涉及的数码摄像机100的动作的流程图。

图5是用于说明数码摄像机100的动作的概要的图。

图6是例示实施方式1所涉及的数码摄像机100的拾音对象的挑选处理(图4的S3)的流程图。

图7是用于说明数码摄像机100中的拾音对象的挑选处理的图。

图8是例示数码摄像机100中的拾音区域的决定处理(图4的S4)的流程图。

图9是用于说明数码摄像机100中的拾音区域的决定处理的图。

图10是例示利用了数码摄像机100中的脸辨识的拾音控制(图4的S5)的流程图。

图11是用于说明通过拾音区域的决定处理得到的管理信息的图。

图12是例示根据数码摄像机100中的水平视角以及对焦距离求取增益的关系的图。

图13是例示不使用数码摄像机100中的脸辨识的拾音控制(图4的S6)的流程图。

图14是表示实施方式2所涉及的数码摄像机100的显示例的图。

图15是例示实施方式2所涉及的数码摄像机100的动作的流程图。

图16是表示与实施方式2所涉及的数码摄像机100中的拾音对象的追加操作相应的动作例的图。

图17是表示与实施方式2所涉及的数码摄像机100中的拾音对象的除外操作相应的动作例的图。

图18是例示实施方式2所涉及的数码摄像机100中的拾音对象的挑选处理(图15的S3A)的流程图。

图19是例示实施方式2所涉及的数码摄像机100中的拾音对象的显示处理(图15的S51)的流程图。

图20是表示实施方式2的变形例1的图。

图21是表示实施方式2的变形例2的图。

图22是表示实施方式2的变形例3的图。

附图标记的说明

100数码摄像机

115图像传感器

120图像处理引擎

122脸辨识部

125缓存存储器

130显示监视器

135控制器

145闪速存储器

150操作部

11AF框

12、12A、12B拾音图标

13检测框

具体实施方式

以下适宜参考附图来详细说明实施方式。但有省略必要以上详细的说明的情况。例如，有省略已经广为人知的事项的详细说明、对实质相同的结构的重复说明的情况。这时为了避免以下的说明不必要地变得冗长，使本领域技术人员的理解容易。另外，发明者(们)为了本领域技术人员充分理解本公开而提供了附图以及以下的说明，但并不意在由此限定记载于权利要求书的主题。

(实施方式1)

在实施方式1中，作为本公开所涉及的摄像装置的一例，说明如下那样的数码摄像机：基于图像辨识技术来检测被摄体，进行与检测到的被摄体的大小相应的拾音区域的控制、以及对进行拾音的声音进行强调的拾音增益的控制。

〔1-1.结构〕

图1是表示本实施方式所涉及的数码摄像机100的结构的图。本实施方式的数码摄像机100具备图像传感器115、图像处理引擎120、显示监视器130和控制器135。进而，数码摄像机100具备缓存存储器125、卡槽140、闪速存储器145、操作部150和通信模块155。另外，数码摄像机100具备麦克风161、麦克风用的模拟/数字(A/D)转换器165和声音处理引擎170。另外，数码摄像机100例如具备光学系统110以及镜头驱动部112。

光学系统110包含聚焦透镜、变焦透镜、光学式手抖动校正透镜(OIS)、光圈、快门等。聚焦透镜是用于使形成于图像传感器115上的被摄体像的聚焦状态变化的透镜。变焦透镜是用于使在光学系统形成的被摄体像的倍率变化的透镜。聚焦透镜等分别包含1片或多片透镜。

镜头驱动部112驱动光学系统110中的聚焦透镜等。镜头驱动部112包含电动机，基于控制器135的控制来使聚焦透镜沿着光学系统110的光轴移动。在镜头驱动部112中驱动聚焦透镜的结构能用DC电动机、步进电动机、伺服电动机或超声波电动机等实现。

图像传感器115对经由光学系统110形成的被摄体像进行摄像，并生成摄像数据。摄像数据构成表示图像传感器115所得到摄像图像的图像数据。图像传感器115以给定的帧频(例如30帧/秒)生成新的帧的图像数据。图像传感器115中的摄像数据的生成定时以及电子快门动作通过控制器135来控制。图像传感器115能使用CMOS图像传感器、CCD图像传感器或NMOS图像传感器等各种图像传感器。

图像传感器115执行动态图像、静止图像的摄像动作、直通图像(through image)的摄像动作等。直通图像主要是动态图像，为了用户决定例如用于静止图像的摄像的构图而显示于显示监视器130。

直通图像、动态图像以及静止图像分别是本实施方式中的摄像图像的一例。图像传感器115是本实施方式中的摄像部的一例。

图像处理引擎120对从图像传感器115输出的摄像数据实施各种处理来生成图像数据，或对图像数据实施各种处理来生成用于显示于显示监视器130的图像。作为各种处理，能举出白平衡校正、伽马校正、YC变换处理、电子变焦处理、压缩处理、解压缩处理等，但并不限定于这些。图像处理引擎120可以用硬接线的电子电路构成，也可以用利用程序的微型计算机、处理器等构成。

在本实施方式中，图像处理引擎120包含通过摄像图像的图像辨识实现人的脸这样的被摄体的检测功能的脸辨识部122。脸辨识部122例如通过规则库的图像辨识处理进行脸检测，输出检测信息。脸检测可以通过各种图像辨识算法进行。检测信息包含与被摄体的检测结果对应的位置信息。位置信息例如以处理对象的图像Im上的水平位置以及垂直位置规定，例如作为被检测到的被摄体而示出矩形地包围人的脸的区域(参考图5)。

显示监视器130是显示各种信息的显示部的一例。例如显示监视器130显示由图像传感器115摄像、由图像处理引擎120图像处理的图像数据所表示的图像(直通图像)。另外，显示监视器130显示用于用户对数码摄像机100进行各种设定的菜单画面等。显示监视器130例如能包含液晶显示器设备或有机EL设备。

操作部150是设于数码摄像机100的外装的操作按钮、操作杆等硬件键的总称，受理使用者所进行的操作。操作部150例如包含释放按钮、模式拨盘、触控面板、光标按钮、操纵杆。操作部150若受理用户的操作，就将与用户操作对应的操作信号发送到控制器135。

控制器135对数码摄像机100整体的动作进行总括控制。控制器135包含CPU等，通过CPU执行程序(软件)来实现给定的功能。控制器135也可以取代CPU而包含为了实现给定的功能而设计的专用的电子电路构成的处理器。即，控制器135能用CPU、MPU、GPU、DSU、FPGA、ASIC等各种处理器来实现。控制器135可以包含1个或多个处理器。另外，控制器135也可以和图像处理引擎120等一起用1个半导体芯片构成。

缓存存储器125是作为图像处理引擎120、控制器135的工作存储器发挥功能的记录介质。缓存存储器125通过DRAM(Dynamic Random Access Memory，动态随机存取存储器)等实现。闪速存储器145是非易失性的记录介质。另外，虽未图示，控制器135具有各种内部存储器，例如可以内置ROM。在ROM中存储控制器135所执行的各种程序。另外，控制器135也可以内置作为CPU的作业区域发挥功能的RAM。

卡槽140是插入能拆装的存储卡142的单元。卡槽140能电或机械地连接存储卡142。存储卡142是在内部具备闪速存储器等记录元件的外部存储器。存储卡142能存放由图像处理引擎120生成的图像数据等数据。

通信模块155是进行遵循通信标准IEEE802.11或Wi-Fi标准等的通信的通信模块(电路)。数码摄像机100能经由通信模块155与其他设备进行通信。数码摄像机100可以经由通信模块155与其他设备直接通信，也可以经由接入点进行通信。通信模块155也可与因特网等通信网络能连接。

麦克风161是对声音进行拾音的拾音部的一例。麦克风161将拾音到的声音变换成作为电信号的模拟信号并输出。本实施方式的麦克风161包含3个麦克风元件161L、161C以及161R。麦克风161可以包含2个或4个以上的麦克风元件。

麦克风用的A/D转换器165将来自麦克风161的模拟信号变换成数字信号的声音数据。麦克风用的A/D转换器165是本实施方式中的声音取得部的一例。另外，麦克风161可以包含位于数码摄像机100的外部的麦克风元件。在该情况下，数码摄像机100具备针对外部的麦克风161的接口电路作为声音取得部。

声音处理引擎170接收从麦克风用的A/D转换器165等声音取得部输出的声音数据，并对接收到的声音数据实施各种声音处理。声音处理引擎170是本实施方式中的声音处理部的一例。

本实施方式的声音处理引擎170例如如图1所示那样具备波束形成部172和增益调整部174。波束形成部172实现控制声音的指向性的功能。关于波束形成部172的详细内容，之后叙述。增益调整部174进行在输入的声音数据乘以例如由控制器135设定的拾音增益的乘法运算处理，来将声音放大。增益调整部174也可以进行在输入的声音数据乘以负的增益来压抑声音的处理。增益调整部174可以进一步具有使输入的声音数据的频率特性以及立体声特性变化的功能。关于拾音增益的设定的详细内容，之后叙述。

〔1-1-1.关于波束形成部〕

以下说明本实施方式中的波束形成部172的详细内容。

波束形成部172进行控制麦克风161进行拾音的声音的指向性的波束成形。在图2示出本实施方式中的波束形成部172的结构例。

如图2所示那样，波束形成部172例如具备滤波器D1～D3和加法运算器173，调整被各麦克风元件161L、161C以及161R拾音的声音的延迟期间，并输出其加权和。通过波束形成部172，能控制麦克风161的拾音指向性的方向以及范围来设定麦克风161所拾音的物理的范围。

波束形成部172在图示中由1个加法运算器173进行1信道的输出，但也可以具备2个以上的加法运算器，例如是立体声输出那样在各信道进行不同的输出的结构。另外，除了加法运算器173以外，也可以使用减法运算器来形成在特定方向上具有灵敏度低的方向即死角的指向性，还可以进行适应环境而改变处理的适应波束成形。另外，也可以运用根据声音信号的频带而不同的处理。

在图2中示出直线配置麦克风元件161L、161C以及161R的示例，但各麦克风元件的配置并不限于此。例如，即使是配制成三角形的情况下，也能适宜调整滤波器D1～D3的延迟期间以及权重来控制麦克风161的拾音指向性。另外，波束形成部172可以在拾音指向性的控制中运用公知的手法。例如可以使用OZO Audio这样的声音处理技术来进行形成指向性的处理，并一并执行抑制声音的噪声的处理等。

对能通过上述那样的波束形成部172设定的数码摄像机100的拾音区域进行说明。

〔1-1-2.关于拾音区域〕

图3表示在数码摄像机100中定义的拾音区域的示例。图3通过以数码摄像机100为中心的圆的扇形区域例示拾音区域，X、Y以及Z轴分别与数码摄像机100的水平视角方向、垂直视角方向以及光学系统110中的透镜的光轴方向对应。在本实施方式的数码摄像机100中，水平视角方向与麦克风元件161R、161C以及161R所排列的方向一致。

图3的(A)表示在角度范围401(例如70°)中将拾音区域朝向数码摄像机100的前方(即拍摄方向)的“前方中心拾音区域”41。图3的(B)表示在角度范围401中将拾音区域朝向数码摄像机100的左方的“左半部分拾音区域”42。图3的(C)表示在角度范围401中将拾音区域朝向数码摄像机100的右方的“右半部分拾音区域”43。图3的(D)表示在比角度范围401大的角度范围402(例如160°)中将拾音区域朝向数码摄像机100的前方的“前方拾音区域”44。这些拾音区域是本实施方式中的多个给定区域的一例，角度范围401以及402是第1角度范围以及第2角度范围的一例。

本实施方式的数码摄像机100在被摄体位于摄像图像的中心部分时，使用图3的(A)的前方中心拾音区域41。另外，在被摄体位于摄像图像的左半部分时，使用图3的(B)的左半部分拾音区域42，在被摄体位于摄像图像的右半部分时，使用图3的(C)的右半部分拾音区域43。进而，在被摄体位于摄像图像的整体时，主要使用图3的(D)的前方拾音区域44。

在图5的(B)的示例中，由于拾音对象的被摄体R1以及R3位于摄像图像的中心部分，因此使用前方中心拾音区域41。在图5的(C)的示例中，由于拾音对象的被摄体R1以及R2位于摄像图像的左半部分，因此使用左半部分拾音区域42。

在数码摄像机100的麦克风161这样的摄像装置的拾音部中，麦克风元件的数量以及配置由于元件的搭载空间等事情而受到制约。例如在用户希望对多个被摄体记录声音的拍摄场面中，有由于麦克风元件数的制约而无法充分缩窄拾音指向性的情况。在这样的情况下，本实施方式的数码摄像机100也设想用户的拍摄场面来定义拾音区域，使用脸辨识来决定拾音区域，由此能提供按照用户的意图的拾音区域。

〔1-2.动作〕

对以上那样构成的数码摄像机100的动作进行说明。以下说明数码摄像机100的动态图像拍摄时的动作。

数码摄像机100依次对经由光学系统110形成的被摄体像用图像传感器115进行摄像，并生成摄像数据。图像处理引擎120对由图像传感器115生成的摄像数据实施各种处理来生成图像数据，并记录到缓存存储器125。另外，图像处理引擎120的脸辨识部122基于摄像数据所表示的图像来检测被摄体的区域，并将例如检测信息输出到控制器135。

本实施方式的数码摄像机100具备脸辨识模式，其是如下那样的动作模式：在输入到脸辨识部122的摄像图像中，通过图像辨识处理进行脸检测，基于检测信息来确定设为自动对焦(AF)控制的对象的被摄体。

与以上的摄像动作同时并行地，数码摄像机100在麦克风161中进行拾音。从麦克风用的A/D转换器165将拾音结果的声音数据在声音处理引擎170进行处理。声音处理引擎170将处理后的声音数据Aout记录到缓存存储器125。控制器135在经由缓存存储器125从图像处理引擎120受理的图像数据和从声音处理引擎170受理的声音数据之间取得同步，并将动态图像记录到存储卡142。另外，控制器135逐次使显示监视器130显示直通图像。用户能通过显示监视器130的直通图像随时确认拍摄的构图等。动态图像拍摄的动作对应于操作部150中的用户的操作而开始/结束。

以上那样的数码摄像机100的动态图像拍摄例如有关注拍摄者和其同伴者等伙伴们进行会话的被摄体的组而进行的情况。在该情况下，对于声音，还要考虑希望清晰地拾音该被摄体的组的发声的需求。

本实施方式的数码摄像机100通过图像处理引擎120中的脸辨识部122的检测信息来检测被摄体，在决定了AF对象的被摄体时，在声音处理引擎170中对该被摄体以及在进行拍摄的空间中对位于该被摄体的周围的被摄体进行拾音的声音进行强调的处理。如此地，使图像处理引擎120的脸辨识和声音处理引擎170的声音强调等联动，来精度良好地实现强调了进行上述那样的会话的被摄体的组的声音的拾音。

〔1-2-1.动作的概要〕

使用图4以及图5来说明本实施方式所涉及的数码摄像机100的动作的概要。

图4是例示本实施方式所涉及的数码摄像机100的动作的流程图。图4的流程图所示的各处理例如在数码摄像机100的动作模式是脸辨识模式时在动态图像的拍摄中以给定的周期重复执行。给定的周期例如是动态图像的帧周期。图5是用于说明本实施方式所涉及的数码摄像机100的动作的概要的图。

控制器135基于脸辨识部122的检测信息来确定AF对象，执行AF控制(S1)。AF对象表示成为AF控制的对象的被摄体的图像上的区域。图5的(A)例示在脸辨识部122的检测信息中包含表示检测到被摄体的区域的脸区域R1、R2以及R3的摄像图像Im。脸区域R1、R2以及R3是本实施方式中的被摄体区域的一例。例如将脸区域R1确定为AF对象的脸区域60。

接下来，控制器135判断确定为AF对象的脸区域是否存在(S2)。具体地，控制器135判断是否检测到脸区域且AF对象是脸区域。

在有AF对象的脸区域60的情况下(S2“是”)，控制器135执行从检测信息中的被摄体挑选麦克风161的拾音对象的处理(S3)。拾音对象是设为由麦克风161强调声音并进行拾音的对象的被摄体。确定为AF对象的脸区域R1(60)成为拾音对象。图5的(B)示出基于图5的(A)所示的检测信息来将脸区域R1以及R3决定为拾音对象，另一方面不将脸区域R2作为拾音对象的示例。

本实施方式的数码摄像机100在拾音对象的挑选处理(S3)中除了决定AF对象的脸区域R1(60)以外，还将摄像图像Im中示出与脸区域R1同程度的脸的大小的脸区域R3决定为进一步的拾音对象。另一方面，与脸区域R1不同大小的脸区域R2被从拾音对象排除。由此，反映了人物21和人物23位于距数码摄像机100同程度的距离(即，Z轴方向的距离的差小)、人物22位于不同的距离，从而例如能将伙伴们进行会话的被摄体的组作为拾音对象。关于拾音对象的挑选处理(S3)的详细内容，之后叙述。

接下来，控制器135进行基于所决定的拾音对象来决定拾音区域的处理(S4)。拾音区域的决定处理(S4)决定包含所决定的全部拾音对象的拾音区域。在图5的(B)的示例中，将拾音区域决定为前方中心拾音区域41，使得包含拾音对象的脸区域R1以及R3(图3的(A))。关于拾音区域的决定处理(S4)的详细内容，之后叙述。

接下来，控制器135基于决定的拾音对象以及拾音区域，使用脸辨识来进行拾音的控制(S5)。利用脸辨识的拾音控制(S5)通过对声音处理引擎170设定控制器135所决定的拾音对象、包含拾音区域以及拾音增益的拾音参数来进行。声音处理引擎170实现与拾音参数相应的拾音指向性以及拾音增益。

另一方面，在例如在脸辨识模式的动作中未检测到脸区域等、没有AF对象的脸区域60的情况下(S2“否”)，控制器135进行不利用脸辨识的拾音控制(S6)。关于利用或不利用脸辨识的拾音控制(S5、S6)的详细内容，之后叙述。

控制器135在执行步骤S5或S6的拾音控制后重复步骤S1以后的处理。

根据以上的处理，本实施方式的数码摄像机100从通过脸辨识检测到的被摄体挑选拾音对象，决定包含全部拾音对象的拾音区域，并进行利用脸辨识的拾音控制。由此，能对例如伙伴们进行会话的被摄体的组强调声音来进行拾音。

另外，在基于脸辨识的AF控制(S1)中，例如能在显示于显示监视器130的直通图像上进行表示脸区域的框显示等，由操作部150受理用户选择框显示的操作，从而执行基于检测信息的AF对象的确定。

图5的(C)示出在与图5的(A)、(B)不同的位置有人物21～23的情况下的摄像图像Im的示例。数码摄像机100与图5的(B)的示例同样地，首先例如将脸区域R1确定为AF对象的脸区域60(S1)，决定为拾音对象。在图5的(C)的示例中，拾音对象的挑选处理(S3)在摄像图像Im上将与脸区域R1同程度的脸的大小的脸区域R2决定为拾音对象，将脸区域R3从拾音对象排除。拾音区域的决定处理(S4)将包含决定为拾音对象的脸区域R1以及R2的左半部分拾音区域42(图3的(B))决定为拾音区域。设定拾音参数，使得将指向性控制到左半部分拾音区域42来清晰地拾音人物21以及22的声音，由此进行利用了脸辨识的拾音控制(S5)。

〔1-2-2.拾音对象的挑选处理〕

使用图6～7来说明图4的步骤S3中的拾音对象的挑选处理的详细内容。

图6是例示数码摄像机100的拾音对象的挑选处理(S3)的流程图。图6所示的流程图的各处理在前进到图4的步骤S11“是”时例如由数码摄像机100的控制器135执行。

图7是用于说明数码摄像机100中的拾音对象的挑选处理(S3)的图。以下在图5的(A)、(B)的示例对决定拾音对象的动作进行说明。

在图6的流程图中，控制器135将与图4的步骤S1中确定的AF对象的脸区域对应的被摄体决定为拾音对象(S10)。这时，控制器135基于从脸辨识部122取得的检测信息，将AF对象的脸区域的大小(即脸宽W)设定为从其他被摄体挑选拾音对象的基准。

图7的(A)例示在图5的(A)、(B)的示例中挑选拾音对象的情况。脸宽W1、W2、W3以X轴方向的宽度表示摄像图像Im中的脸区域R1、R2、R3的大小。在图7的(A)的示例中，控制器135将AF对象的脸区域R1的脸宽W1设定为基准的脸宽W(S10)。设定的脸宽W例如保持在控制器135的RAM等中。

接下来，控制器135判定是否除了AF对象以外还有被检测到的被摄体(S11)。具体地，控制器135判断脸辨识部122的检测信息是否除了AF对象的脸区域以外还包含其他脸区域。

在除了AF对象以外还检测到被摄体的情况下(S11“是”)，控制器135选择一个被摄体i作为拾音对象的候补即拾音候补(S12)。在图7的(A)的示例中，关于检测信息，每当步骤S12就依次与拾音候补的被摄体i建立对应地选择AF对象的脸区域R1以外的脸区域R2以及R3。

控制器135进行对所选择的被摄体i的脸宽Wi和基准的脸宽W进行比较的运算(S13)。具体地，控制器135算出被摄体i的脸宽Wi相对于基准的脸宽W的比例Wi/W。在图7的(A)的示例中，在将脸区域R2设为拾音候补的选择时(S12)，算出关于该脸宽W2的比例W2/W(S13)。

控制器135判断拾音候补的脸宽Wi与基准的脸宽W间的比例Wi/W是否是给定范围内(S14)。给定范围例如出于规定视作拾音候补的脸宽Wi相对地与基准的脸宽Wi同程度的范围的观点，用比“1”大的上限值和比“1”小的下限值规定。另外，也可以提供用于设定给定范围的用户界面，例如可以将用户通过操作部150设定的给定范围保持在缓存存储器125等中。

控制器135若判定为脸宽的比例Wi/W是给定范围内(S14“是”)，就决定将被摄体i设为拾音对象(S15)。

另一方面，控制器135若判断为脸宽的比例Wi/W不是给定范围内(S14“否”)，则控制器135决定不将被摄体i作为拾音对象(S16)。在图7的(A)的示例中，比例W2/W低于给定范围的下限值，决定不将脸区域R2设为拾音对象。

控制器135若决定了是否将被摄体i作为拾音对象(S15或S16)，例如就将对被摄体i决定的结果记录到缓存存储器125(S17)。接下来，控制器135对与作为拾音候补而选择完毕的被摄体不同的其他被摄体再次进行步骤S11以后的处理。

在图7的(A)的示例中，除了脸区域R2以外，在检测信息中还包含脸区域R3(S11“是”)。控制器135若选择与脸区域R3对应的被摄体(S12)，就与脸区域R2的情况同样地算出脸宽W3相对于基准的脸宽W的比例W3/W(S13)。在图7的(A)的示例中，比例W3/W被算出为“1”附近。控制器135判断为算出的脸宽的比例W3/W是拾音对象的给定范围内(S14“是”)，将与脸区域R3对应的被摄体决定为拾音对象(S15)。

控制器135重复步骤S11～S17的处理直到没有未被选择为拾音候补的被摄体为止(步骤S11“否”)。之后，控制器135结束拾音对象的挑选处理(S3)，并前进到图4的步骤S4。

根据以上的处理，对通过脸辨识检测到的被摄体进行以确定为AF对象的脸区域R1为基准的相对的脸区域R2、R3的大小比较。由此，能挑选相对的脸区域R3的大小与AF对象的脸区域R1同程度的被摄体来决定为拾音对象。

图7的(B)例示在图5的(C)的示例中挑选拾音对象的情况。在图7的(B)的示例中，将脸区域R1与图7的(A)的示例同样地确定为AF对象。据此，控制器135将脸区域R1决定为拾音对象，将脸宽W1设定为基准的脸宽W(S10)。

在图7的(B)的示例中，脸区域R2的脸宽W2是与基准的脸宽W(＝W1)同程度的大小。另一方面，脸区域R3的脸宽W3与其他脸宽W1以及W2比较而更大。在本例中，控制器135判断为比例W2/W是给定范围内(S14“是”)，将脸区域R2的被摄体决定为拾音对象(S15)。另一方面由于比例W3/W超过给定范围的上限值(S14“否”)，因此决定不将脸区域R3的被摄体作为拾音对象(S16)。因而，将本例的拾音对象决定为与脸区域R1以及R2对应的2个被摄体(参考图5的(C))。

图7的(C)例示在与图5的(C)同样的拍摄图像Im中将脸区域R3确定为AF对象的脸区域60的(图4的S1)情况。控制器135将脸区域R3决定为拾音对象，将脸宽W3设定为基准的脸宽W(S10)。在图7的(C)的示例中，由于比例W2/W以及W1/W低于给定范围的下限值(S14“否”)，因此决定不将与脸区域R1以及R2对应的被摄体作为拾音对象(S16)。因而，将本例的拾音对象决定为与脸区域R3对应的1个被摄体。

如以上那样，本实施方式的数码摄像机100通过从采用图像辨识检测到的多个被摄体将与AF对象相同程度的大小的被摄体决定为拾音对象，从而能利用在后述的按照用户的意图的拾音区域的决定中。

〔1-2-3.拾音区域的决定处理〕

使用图8～9来说明图4的步骤S4中的拾音区域的决定处理的详细内容。

图8是例示本实施方式的数码摄像机100中的拾音区域的决定处理(S4)的流程图。图8所示的流程图的各处理在执行图4的步骤S3后例如由数码摄像机100的控制器135执行。

图9是用于说明数码摄像机100中的拾音区域的决定处理(S4)的图。图9的(A)、(B)分别紧接图7的(A)、(B)的示例例示决定拾音区域的情况。图9的(C)例示与图9的(A)、(B)进一步不同的情况。在图9的(A)～(C)中，中心位置x0表示X轴方向上的摄像图像Im的中心的位置，图像宽度Wh表示X轴方向上的摄像图像Im的宽度。图像范围在摄像图像Im上以中心位置x0为基准规定为从X坐标-xh到xh的范围x0±xh。X坐标xh以xh＝Wh/2(＞0)定义。

在图8的流程图中，控制器135对全部拾音对象判断脸区域的中心等位置是否位于摄像图像Im的中心范围(S20)。中心范围是摄像图像Im中与前方中心拾音区域41建立对应的范围。

中心范围例如如图9的(A)所示那样，在摄像图像Im上以中心位置x0为基准规定为从X坐标-xe到xe的范围x0±xe。X坐标xe例如基于给定的视角θe和与图像宽度Wh对应的水平视角θh例如用xe＝xh×θe/θh(＞0)定义。给定的视角θe例如出于包含1人的人物的观点而预先设定，例如是30°等。控制器135例如从光学系统110的变焦透镜的变焦倍率等取得当前的水平视角θh，并算出中心范围x0±xe。

在水平视角θh大的广角拍摄中，X坐标xe变小，中心范围x0±xe窄。另一方面，在水平视角θh小的长焦拍摄中，X坐标xe变大，中心范围x0±xe宽。由此，能易于实现与进行摄像的物理的范围和距离对应的拾音区域的决定。

在全拾音对象的脸区域的位置位于中心范围内的情况下(S20“是”)，控制器135将拾音区域决定为前方中心拾音区域41(S21)。在图9的(A)的示例中，拾音对象与脸区域R1以及R3对应。各个脸区域R1以及R3的中心的位置x1以及x3均位于x0±xe的范围内(S20“是”)。因而，将拾音区域决定为前方中心拾音区域41(参考S21、图5的(B))。

另一方面，在至少一个以上的拾音对象的脸区域的位置不位于中心范围内的情况下(S20“否”)，使用前方中心拾音区域41以外的拾音区域。在该情况下，控制器135对全部拾音对象判断例如脸区域的位置是否仅位于摄像图像Im中的左右任一个半部分的范围(S22)。左半部分的范围是与X轴方向的中心位置x0相比而X坐标小的范围，右半部分的范围是与中心位置x0相比而X坐标大的范围。

在对于全部拾音对象而脸区域的位置仅位于摄像图像Im中的左半部分或右半部分的范围的情况下(S22“是”)，控制器135进一步判断全拾音对象的脸区域的位置是否是摄像图像Im中的左半部分的范围内(S23)。

在全拾音对象的脸区域的位置是摄像图像Im中的左半部分的范围内的情况下(S23“是”)，控制器135将拾音区域决定为左半部分拾音区域42(S24)。在图9的(B)的示例中，拾音对象与脸区域R1以及R2对应。由于脸区域R1的位置x1以及脸区域R2的位置x2位于比X轴方向的中心位置x0更靠左(即，X坐标小的)侧(S23“是”)，因此将拾音区域决定为左半部分拾音区域42(参考S24、图5的(C))。

另一方面，在全拾音对象的脸区域的位置是摄像图像Im中的右半部分的范围内而不是左半部分的范围内的情况下(S23“否”)，控制器135将拾音区域决定为右半部分拾音区域43(S25)。

另外，在全部拾音对象的脸区域的位置并非仅位于摄像图像Im中的左右任一个半部分的范围的情况下(S22“否”)，控制器135将拾音区域决定为前方拾音区域44(S26)。如图3的(D)、(A)所示那样，前方拾音区域44具有比前方中心拾音区域41的角度范围401大的角度范围402。即，前方拾音区域44在摄像图像Im中包含位于在X轴方向上宽的范围的拾音对象的被摄体。

在图9的(C)的示例中，拾音对象与脸区域R1、R2以及R3对应。脸区域R1～R3的中心的位置x1、x2以及x3包含中心范围x0±xe外的位置x1以及x2(S20“否”)，且包含左半部分的范围内的位置x1和右半部分的范围内的位置x2以及x3(S22、S23“否”)。因此，在本例中将拾音区域决定为前方拾音区域44(S26)。

控制器135若决定了拾音区域(S21、S24～S26)，就将决定的拾音区域作为管理信息记录到缓存存储器125等(S27)。由此，拾音区域的决定处理(S4)结束，前进到图4的步骤S5。

根据以上的处理，对应于决定为拾音对象的被摄体的摄像图像上的位置，来从预先定义的多个拾音区域决定拾音区域，使其包含全部拾音对象。由此，能在动态图像拍摄中决定拾音区域，使其包含按照用户的意图的拾音对象的被摄体。

图11是用于说明通过拾音区域的决定处理(S4)得到的管理信息的图。图11的(A)例示在图7的(A)以及图9的(A)的示例中在执行了拾音对象的挑选处理(S3)以及拾音区域的决定处理(S4)的阶段得到的管理信息。图11的(B)例示图7的(B)以及图9的(B)的示例中的管理信息。

管理信息例如将通过拾音对象的挑选处理(S3)决定的“拾音对象”、由拾音区域的决定处理(S4)决定的“拾音区域”、“水平视角”以及“对焦距离”建立关联进行管理。另外，对焦距离例如在执行基于脸辨识的AF控制(S1)时取得。例如控制器135可以基于对焦时的光学系统110的各种透镜的位置或焦点距离来取得对应的对焦距离。另外，数码摄像机100可以通过基于DFD(Depth from Defocus，离焦深度)技术或测距传感器的测定来检测对焦距离。

另外，本实施方式的数码摄像机100能设定前方中心拾音区域的判断(S20)中所用的中心范围的视角θe，例如记录在控制器135的ROM等中。另外，也可以提供用于设定视角θe的用户界面，例如可以将用户通过操作部150而设定的值保持在缓存存储器125等中。

〔1-2-4.拾音控制〕

(1)关于图4的步骤S5

使用图10～12来说明利用了图4的步骤S5中的脸辨识的拾音控制的详细内容。

在基于拾音参数设定的拾音控制中，本实施方式的数码摄像机100例如对与AF对象的脸区域对应的被摄体进行拾音增益的设定，使得强调动态图像声音。拾音增益例如具有频率滤波器特性以及立体声分离特性。数码摄像机100例如在数码摄像机100正拍摄动态图像中，基于对焦到AF对象的脸区域时的水平视角以及对焦距离来算出拾音增益。规定拾音增益，使得例如算出的值越大则越抑制人的声音以外的频带，或者抑制立体声效果，来使拾音变焦效果产生。

图10是例示利用了脸辨识的拾音控制(S5)的流程图。图10的流程图所示的各处理在执行图4的步骤S4后例如通过数码摄像机100的控制器135执行。

数码摄像机100在保持图11所示的管理信息的状态下开始步骤S5的处理。

控制器135例如从缓存存储器125取得水平视角，算出基于水平视角的增益Gh(S30)。图12的(A)例示根据水平视角来求取增益Gh的关系。在图12的(A)的示例中，增益Gh在预先确定的增益的最大值Gmax与最小值Gmin之间，水平视角越小则越增加。由此，在变焦等中，水平视角越小则拾音时越增大增益，从而能强调在长焦侧拍摄的被摄体的声音。

控制器135与步骤S30同样地取得对焦距离，并算出基于对焦距离的增益Gd(S31)。图12的(B)例示根据对焦距离求取增益Gd的关系。在图12的(B)的示例中，增益Gd在预先确定的增益的最大值Gmax与最小值Gmin之间，对焦距离越大则越增加。由此，越是对焦到距数码摄像机100远的被摄体，在拾音时越是增大增益，从而越远的被摄体越强调声音。

控制器135将算出的基于水平视角的拾音增益Gh和基于对焦距离的拾音增益Gd进行比较，将任意大的增益作为拾音增益G(S32)。由此，能算出拾音增益G，使得例如按照以长焦的水平视角或远的对焦距离进行拍摄的用户的意图来强调被摄体的声音。

控制器135判断遍及过去的给定次数(例如5次)算出的拾音增益G以及所决定的拾音区域是否相互相同(S33)。例如拾音增益G每当在图4的步骤S1～S5的执行周期中的给定次数的范围内算出，就和上述的管理信息一起存储。控制器135在判断为过去的给定次数的拾音增益G以及拾音区域相同的情况下(S33“是”)，前进到步骤S34。

控制器135将通过步骤S3的拾音对象的挑选处理决定的拾音对象、通过步骤S4的拾音区域的决定处理决定的拾音区域和步骤S32中算出的拾音增益G作为拾音参数，来对声音处理引擎170进行设定(S34)。声音处理引擎170通过波束形成部172以及增益调整部174来实现与设定的拾音参数相应的拾音区域以及拾音增益。

在拾音参数的设定(S34)后，控制器135结束利用了脸辨识的拾音控制的处理(S5)。另外，控制器135在判断为过去的给定次数的拾音增益G以及拾音区域不相同的情况下(S33“否”)，不进行步骤S34的处理而结束图4的步骤S5的处理。之后重复图4的步骤S1以后的处理。

根据以上的处理，能将算出的拾音增益、和基于脸辨识而决定的拾音对象以及拾音区域设定成拾音参数，来容易地实现将含AF对象的拾音对象的被摄体的声音清晰地进行拾音的拾音区域以及拾音增益。

另外，步骤S30和S31的执行顺序并不限于本流程图的顺序，例如可以在步骤S31算出增益Gd后，在步骤S30算出增益Gh，或者也可以并行执行步骤S30和S31。

另外，根据以上的步骤S33，仅在拾音区域以及拾音增益G未变化给定次数(例如5次)的情况下执行设定拾音参数的处理(S34)。由此，能防止由于被摄体的活动等而过度频繁地变更拾音区域以及拾音增益G，能按照用户的意图精度良好地实现利用了脸辨识的拾音控制(S5)。

(2)关于图4的步骤S6

使用图13来说明不利用图4的步骤S6中的脸辨识的拾音控制(S6)的详细内容。

图13是例示不利用脸辨识的拾音控制(S6)的流程图。图13的流程图所示的各处理在未检测到脸区域等、在图4的步骤S2中没有AF对象的脸区域(S2“否”)的情况下，例如通过数码摄像机100的控制器135执行。

首先，控制器135将拾音区域决定为例如前方拾音区域44(S40)。

接下来，控制器135与步骤S30同样地算出基于水平视角的增益Gh，并设为拾音增益G(S41)。进而，控制器135与步骤S33同样地判断遍及过去的给定次数算出的拾音增益G以及所决定的拾音区域是否相互相同(S42)。

控制器135在判断为过去的给定次数的拾音增益G以及拾音区域相同的情况下(S42“是”)，将拾音区域和拾音增益G设定为拾音参数(S43)，结束不利用脸辨识的拾音控制(S6)。另外，控制器135在判断为过去的给定次数的拾音增益G以及拾音区域不相同的情况下(S42“否”)，不进行步骤S43的处理而结束图4的步骤S6。在步骤S6结束后，重复步骤S1以后的处理。

根据以上的处理，即使在没有AF对象的脸区域的情况下，也对数码摄像机100的前方的大的范围的声音进行拾音，另外，在变焦等中水平视角越小则越增大拾音增益，从而能容易地将所摄像的范围的声音清晰地进行拾音。

另外，也可以对应于数码摄像机100的动作模式来定义具有数码摄像机100的周围360°的角度范围的整体拾音区域，在步骤S40中决定为整体拾音区域。这时，例如可以仅将整体拾音区域设定为拾音参数。

〔1-3.效果等〕

在本实施方式中，控制器135对应于由脸辨识部122检测到的被摄体区域、即脸区域R1～R3的大小即脸宽W1、W2以及W3来决定设为声音信号中的拾音对象的被摄体(S3)，控制拾音区域，使得包含决定为拾音对象的被摄体(S4～S5)。由此，例如能实现多个被摄体挑选对应于被摄体区域的大小设为拾音对象的被摄体、和未设为拾音对象的被摄体。

在本实施方式中，脸辨识部122检测图像数据中的人的脸区域R1～R3，作为被摄体区域。另外，被摄体区域并不限于人的脸区域，例如也可以检测动物的脸区域。另外，被摄体区域的大小并不限于脸宽，例如也可以是摄像图像Im中的脸区域R1～R3的Y轴方向的宽度、或脸区域R1～R3的面积。

在本实施方式中，控制器135控制图像传感器115(摄像部)的摄像动作，使得对焦到AF对象的被摄体(主要被摄体)。另外，主要被摄体并不限定于AF对象。数码摄像机100也可以取代对主要被摄体的对焦的动作或在此基础上执行例如曝光控制这样的各种动作。

(实施方式2)

以下使用附图来说明实施方式2。在实施方式1中，对在动态图像拍摄时等挑选并决定拾音对象的数码摄像机100进行了说明。在实施方式2中，对在实施方式1那样的动作时将与所决定的拾音对象相关的信息对用户可视化的数码摄像机100进行说明。

以下适宜省略与实施方式1所涉及的数码摄像机100同样的结构、动作的说明，来说明本实施方式所涉及的数码摄像机100。

〔2-1.概要〕

使用图14来说明本实施方式所涉及的数码摄像机100显示各种信息的动作的概要。

图14示出本实施方式所涉及的数码摄像机100的显示例。图14的显示例示出在数码摄像机100如图5的(B)例示的那样决定了拾音对象的情况下在显示部130实时显示的一例。在本显示例中，数码摄像机100在显示监视器130除了显示表示AF对象的被摄体的AF框11以及表示AF对象以外的被检测到的被摄体的检测框13以外，还在摄像图像Im上重叠显示表示拾音对象的被摄体的拾音图标12。

本实施方式的数码摄像机100通过将拾音图标12与AF框11以及检测框13组合使用，来对用户可视化是否将AF对象那样的主要被摄体和除此以外检测到的被摄体决定为AF对象以及/或者拾音对象。

例如在图14的显示例中，数码摄像机100在将图5的(B)的示例中与脸区域R1(60)对应的被摄体决定为AF对象且拾音对象后，在人物21显示AF框11和拾音图标12。另外，数码摄像机100在将图5的(B)的示例中与脸区域R3对应的被摄体决定为AF对象以外的拾音对象后，在人物23显示检测框13和拾音图标12。进而，数码摄像机100通过不伴随拾音图标12的检测框13的显示，来对用户可视化决定不将图5的(B)的示例中与脸区域R2对应的AF对象以外的被摄体作为拾音对象。

在本实施方式的数码摄像机100中，用户能通过AF框11或检测框13的任一方的显示来确认检测到的被摄体是否是AF对象。用户另外能通过拾音图标12的有无来确认检测到的被摄体是否是拾音对象。AF框11与拾音图标12的组合是本实施方式中的第1识别信息的一例。检测框13与拾音图标12的组合是本实施方式中的第2识别信息的一例。检测框13是第3识别信息的一例。

如以上那样，本实施方式所涉及的数码摄像机100进行区别从检测信息所包含的被摄体决定的拾音对象以及AF对象的被摄体的显示。由此，用户能掌握数码摄像机100检测到的被摄体当中的拾音对象的被摄体，从而例如能确认按照意图的被摄体是否被决定为拾音对象。进而，本实施方式的数码摄像机100能输入这样的用户操作地动作，使得用户能基于该显示进行在拾音对象中追加被摄体的操作，或进行从拾音对象将被摄体除外的操作。

〔2-2.动作的详细内容〕

图15是例示本实施方式所涉及的数码摄像机100的动作的流程图。图15的流程图所示的各处理与实施方式1中的图4的流程图同样地，例如通过数码摄像机100的控制器135执行。图15中的步骤S2、S4～S6的处理与实施方式1(图4)同样，以下省略其说明。

在本实施方式中，例如在基于脸辨识的AF控制(S1A)中，控制器135若与图4的步骤S1同样地基于脸辨识部122的检测结果决定AF对象，就使上述的AF框11以及检测框13显示于显示监视器130。

进而，本实施方式的拾音对象的挑选处理(S3A)在与图4的步骤S3同样的处理中执行反映上述的用户操作的处理。关于本实施方式中的拾音对象的挑选处理(S3A)的详细内容，之后叙述。

在本实施方式中，控制器135在例如利用了脸辨识的拾音控制(S5)的执行后，进行显示与拾音对象相关的信息的处理(S51)。在图14的显示例中，控制器135除了步骤S1A中显示的AF框11以及检测框13以外，还在步骤S3A中决定的拾音对象的被摄体显示拾音图标12(S51)。关于拾音对象的显示处理(S51)的详细内容，之后叙述。

接下来，控制器135判断在操作部150中是否被输入在所决定的拾音对象追加被摄体的用户操作或从拾音对象将被摄体除外的用户操作(S52)。这样的拾音对象的追加或除外操作例如在与显示监视器130的显示画面重叠配置的操作部150的触控面板中预先设定成指定位置的触摸操作(参考图16、17)。若输入上述的用户操作，则控制器135将包含指定的位置的脸区域等被摄体的信息和表示拾音对象的追加或除外操作的任一者的信息建立对应，作为输入信息保持在例如缓存存储器125中。

控制器135在判断为被输入了拾音对象的追加或除外操作的情况下(S52“是”)，再次执行步骤S3A以后的处理。在这时的拾音对象的挑选处理(S3A)中，参考步骤S52中输入的输入信息。

图16是表示与拾音对象的追加操作相应的动作例的图。图16的(A)表示从图14的显示例起、由用户进行拾音对象的追加操作的示例。图16的(B)例示对应于图16的(A)的追加操作而拾音区域从图5的(B)变更的状态。图16的(C)表示与图16的(B)的状态对应的显示监视器130的显示例。

在图16的动作例中，用户对未显示拾音图标12的人物22的检测框13进行触摸操作。对该追加操作做出响应，数码摄像机100的控制器135将脸区域R2的被摄体决定为拾音对象(S3A)，决定为包含脸区域R2的前方拾音区域44(S4)。之后，如图16的(C)所示那样，控制器135在决定为拾音对象的被摄体显示拾音图标12(S51)。

图17是表示与拾音对象的除外操作相应的动作例的图。图17的(A)表示在输入图16的追加操作后用户进行拾音对象的除外操作的示例。图17的(B)例示对应于图17的(A)的除外操作而拾音区域从图16的(B)变更的状态。图17的(C)表示与图17的(B)的状态对应的显示监视器130的显示例。

在图17的动作例中，用户对显示拾音图标12的人物23的检测框13进行触摸操作。对该除外操作做出响应，控制器135决定不将脸区域R3的被摄体作为拾音对象(S3A)，决定为不含脸区域R3的左半部分拾音区域42(S4)。之后，如图17的(C)所示那样，控制器135不在决定不设为拾音对象的被摄体显示拾音图标12(S51)。

回到图15，在未特别输入将拾音对象的被摄体追加或除外的操作的情况下(S52“否”)，控制器135重复步骤S1A以后的处理。

根据以上的处理，本实施方式的数码摄像机100在检测到的被摄体显示AF框11或检测框13(S1A)，决定拾音对象(S3A)，并进行区别是否是拾音对象的显示(S51)。数码摄像机100受理基于这些显示的用户所进行的拾音对象的追加或除外操作(S52)。

如此地，本实施方式的数码摄像机100能对应于基于被摄体是否是拾音对象的显示的用户操作来将用户指定的被摄体如图16所示那样追加到拾音对象，或者如图17所示那样从拾音对象除外。由此，即使是决定的拾音对象与用户的意图不同的情况下，数码摄像机100也能变更成按照用户的意图的拾音对象。

另外，图15的步骤S5和S51的处理也可以与以上的说明不同的顺序执行。例如，也可以在执行步骤S51的处理后进行步骤S5的处理。另外，步骤S52中的用户操作的输入并不特别限于触摸操作，例如也可以通过操作部150的光标键或操纵杆进行。

〔2-2-1.实施方式2所涉及的拾音对象的挑选处理〕

图18是例示本实施方式的数码摄像机100中的拾音对象的挑选处理(图15的S3A)的流程图。以下说明在图15的步骤S52中输入了拾音对象的追加或除外操作(S52“是”)的情况的示例。在本实施方式中，除了执行实施方式1中的图6的流程图所示的处理以外，还执行对应于步骤S52中输入的操作来决定拾音对象的处理。图18中的步骤S10～S12、S13～S17的处理与实施方式1(图6)同样，以下省略其说明。

控制器135若与图6的流程图同样地选择了拾音候补的被摄体i(S12)，就判断关于该被摄体i是否有拾音对象的追加操作(S71)。具体地，控制器135参考图15的步骤S52中存放于缓存存储器125的输入信息，来判断被摄体i是否与追加操作建立对应地记录于输入信息。

在没有被摄体i的追加操作的情况下(S71“否”)，控制器135关于该被摄体i判断是否有拾音对象的除外操作(S72)。这时，控制器135与步骤S71的判断同样地，参考输入信息来判断被摄体i是否与除外操作建立对应地记录于输入信息。

在没有被摄体i的除外操作的情况下(S72“否”)，控制器135与图6的流程图同样地执行步骤S13以后的处理。在该情况下，与实施方式1同样地，对应于脸区域的大小的比较来决定是否将被摄体i设为拾音对象。

另一方面，控制器135若判断为有被摄体i的追加操作(S71“是”)，就不特别执行步骤S13～S14的处理而决定将被摄体i设为拾音对象(S15)。在图16的示例中，在将人物22的脸区域R2选择为拾音候补的被摄体i时(S12)，控制器135前进到步骤S71“是”，不依赖于脸区域R2的大小地决定将该被摄体i设为拾音对象。

另外，控制器135若判断为有被摄体i的除外操作(S72“是”)，就不特别执行步骤S13～S14的处理而决定不将被摄体i设为拾音对象(S16)。在图17的示例中，在将人物23的脸区域R3选择为拾音候补的被摄体i时(S12)，控制器135前进到步骤S72“是”，不依赖于脸区域R3的大小地决定不将该被摄体i设为拾音对象(S16)。

另外，在上述的示例中，说明了判断是否输入拾音对象的追加操作以及除外操作(S71、S72)的数码摄像机100，但并不限于此。例如，数码摄像机100也可以在图15的步骤S52中受理追加操作或除外操作的仅任一方的输入，对应于各操作来仅执行图18的步骤S71或S72的任一方。

〔2-2-2.拾音对象的显示处理〕

使用图19来说明图15的步骤S51中的拾音对象的显示处理(S51)的详细内容。

图19是例示拾音对象的显示处理(S51)的流程图。以下说明在与图5的(B)的示例对应的图14的显示例中显示拾音对象的动作。

首先，控制器135对应于在拾音对象的挑选处理(图15的S3A)中将AF对象的被摄体决定为拾音对象(参考图6的S10)这一情况，来在显示监视器130使拾音图标12显示在AF对象的被摄体(S60)。在图5的(B)的示例中，显示监视器130如图14所示那样，在与AF对象的脸区域60对应的被摄体和AF框11一起显示拾音图标12。

接下来，控制器135判断在图4的步骤S4中决定的拾音区域在所含的被摄体中是否除了AF对象以外还有被摄体(S61)。具体地，控制器135通过将脸辨识部122的检测信息中的位置信息、和与决定的拾音区域的方向以及角度范围对应的摄像图像Im上的位置进行比较，来判断在拾音区域中是否除了AF对象以外还包含被摄体。

在拾音区域中有除了AF对象以外而包含的被摄体的情况下(S61“是”)，控制器135从该被摄体选择1个被摄体i(S62)。在图5的(B)的示例中，由于在前方中心拾音区域41中除了AF对象的脸区域60以外还包含脸区域R3，因此控制器135选择脸区域R3。

接着，控制器135在所选择的被摄体i显示拾音图标12(S63)。由此，在图5的(B)的示例中，显示监视器130如图14所示那样，在与脸区域R3对应的人物23和检测框13一起显示拾音图标12。

之后，控制器135若在选择的被摄体i显示拾音图标12(S63)，就判断是否除了选择完毕的被摄体以外还有含在拾音区域中的被摄体(S61)，若其他还有被摄体(S61“是”)，就再次进行步骤S42以后的处理。

若除了拾音区域以外没有包含的被摄体(S41“否”)，控制器135就结束拾音对象的显示处理(S51)，前进到图15的步骤S52。

根据以上的处理，通过在拾音区域中所含的被摄体显示拾音图标12，用户能掌握拾音对象的被摄体。由此用户易于确认除了AF对象这样的主要被摄体以外打算拾音的被摄体是否是拾音对象。

另外，在图19例示的流程图中，控制器135从拾音区域中所含的被摄体选择了被摄体i(S61～62)，但并不限于此。例如被摄体i也可以从图15的步骤S3A中决定的拾音对象选择，还可以从检测信息所含的全部被摄体选择。另外，例如在图15的流程图中，在第2次以后执行步骤S51的情况下，也可以省略步骤S61，还可以使用其他判断基准。

〔2-3.效果等〕

如以上那样，上述的实施方式的数码摄像机100具备显示监视器130(显示部)、图像传感器115(摄像部)、麦克风用的A/D转换器165(声音取得部)、脸辨识部122(检测部)和控制器135(控制部)。显示监视器130显示信息。图像传感器115对被摄体进行摄像并生成图像数据。麦克风用的A/D转换器165取得表示图像传感器115的摄像中所拾音的声音的声音信号。脸辨识部122在由图像传感器115生成的图像数据中检测脸区域R1、R2以及R3，作为与被摄体对应的被摄体区域的一例。控制器135对应于由脸辨识部122检测到的脸区域R1～R3来决定设为声音信号中的拾音对象的被摄体以及AF对象的被摄体(主要被摄体)。控制器135进行控制，使得在由脸辨识部122检测到多个脸区域R1～R3时，将表示是AF对象且设为拾音对象的被摄体的AF框11以及拾音图标12(第1识别信息)、和表示是与主要被摄体不同的被摄体且是拾音对象的检测框13以及拾音图标12(第2识别信息)区别地显示于显示监视器130(S1A、S51)。

根据以上的数码摄像机100，由于是主要被摄体且是拾音对象的被摄体、和是主要被摄体以外且是拾音对象的被摄体区别地进行显示，因此对用户可视化除了主要被摄体以外是否还有成为拾音对象的被摄体。由此，能易于确认用户打算进行声音的拾音的被摄体。

在实施方式2中，控制器135使表示不是拾音对象的被摄体的检测框13(第3识别信息)和第1识别信息以及第2识别信息区别地显示于显示监视器130(S1A)。由此，用户能在显示监视器130还确认检测到的被摄体当中不是拾音对象的被摄体。

在本实施方式中，第1识别信息在表示是否是AF对象的被摄体(主要被摄体)的有无AF框11(第1识别显示)中识别为主要被摄体，且在表示是否是拾音对象的有无拾音图标12(第2识别显示)中识别为拾音对象。第2识别信息在有无AF框11中识别为不是AF对象的被摄体，且在有无拾音图标12中识别为拾音对象。第3识别信息在有无AF框11中识别为不是AF对象，且在有无拾音图标12中识别为不是拾音对象(参考图14)。

根据以上的数码摄像机100，通过进行出于在AF框11中是否是AF对象以及在拾音图标12是否是拾音对象这2个观点来识别被摄体的显示，对用户而言，能进行易于理解的可视化。

在本实施方式中，数码摄像机100还具备操作部150，其被输入基于在显示监视器130显示的信息而从拾音对象除去特定的被摄体的用户操作、和将特定的被摄体追加到拾音对象的用户操作的至少一方。由此，数码摄像机100即使是决定的拾音对象的被摄体与用户的意图不同的情况，例如通过输入选择用户所期望的被摄体的操作，能按照用户的意图地追加到拾音对象，或从拾音对象进行除外。

(其他实施方式)

如以上那样，作为本申请中公开的技术的例示而说明了上述的各实施方式。但本公开中的技术并不限定于此，还能运用在适宜进行了变更、置换、附加、省略等的实施方式中。另外，还能将上述的各实施方式中说明的各构成要素组合来做出新的实施方式。

在实施方式2中，数码摄像机100显示图14例示的AF框11、拾音图标12以及检测框13(图15的S1A、S51)。本实施方式的数码摄像机100可以在与实施方式2不同的显示方式中对用户可视化与所决定的拾音对象相关的信息。图20、图21以及图22分别是表示实施方式2的变形例1、变形例2以及变形例3的图。

图20、图21分别表示显示与实施方式2不同的拾音图标12A以及12B的显示监视器130的示例。图20例示模仿麦克风的拾音图标12A。图21例示基于框显示的拾音图标12B。拾音图标12B并不特别限于图21的示例，例如也可以是矩形的框显示。另外，本实施方式的数码摄像机100例如可以受理用户在操作部150中从拾音图标12A、12B这样的各种拾音图标选择的用户操作。

另外，实施方式2所涉及的第1识别信息、第2识别信息以及第3识别信息在有无AF框11中识别是否是主要被摄体，在有无拾音图标12中识别了是否是拾音对象。在本实施方式中，第1～第3识别信息并不特别限于此，例如也可以是3种类的框显示。图22例示本实施方式中的3种类的框显示。在图22的示例中，通过表示是AF对象且是拾音对象的被摄体的框显示11A、表示是AF对象以外且是拾音对象的被摄体的框显示13A以及表示不是拾音对象的被摄体的框显示13B来一体地进行AF对象以及除此以外的被摄体的显示和拾音对象的显示。

在实施方式1～2中，在图4的流程图中，说明了对数码摄像机100所内置的麦克风161进行利用了或不利用脸辨识的拾音控制(S5或S6)的动作例。本实施方式的数码摄像机100也可以取代内置的麦克风161而具备外带的麦克风(以下称作“麦克风161a”)。麦克风161a包含位于数码摄像机100的外部的麦克风元件，具备3个以上的麦克风元件。本实施方式中，控制器135能通过预先将与麦克风元件的配置相关的信息保持在缓存存储器125等，来对麦克风161a与实施方式1同样地执行步骤S5或S6。在该情况下，也能对应于与实施方式1地同样决定的拾音对象以及/或者拾音区域而易于清晰地得到被摄体的声音。

另外，在实施方式1～2中，在图10的流程图中，说明了基于与数码摄像机100的摄像范围对应的水平视角来算出增益Gh的(S30)动作例。该情况下的水平视角与图8的流程图中的前方中心拾音区域的判定(S20)中所用的水平视角θh相同。在本实施方式中，可以在增益Gh的算出中使用与步骤S20中的水平视角θh不同的水平视角。例如，将摄像图像上与包含全部拾音对象的被摄体的X轴方向的宽度对应的角度范围设为步骤S30中的水平视角。由此，能对应于拍到拾音对象的视角来算出增益Gh，以使得将远处的被摄体的声音更清晰地进行拾音。

另外，在实施方式1～2中，脸辨识部122检测人的脸。在本实施方式中，脸辨识部122例如可以检测动物的脸。认为动物的脸根据动物的类别而大小多样。在该情况下，例如能通过扩大用于挑选拾音对象的给定范围(参考S14)，来与实施方式1同样地挑选拾音对象。进而，脸辨识部122也可以按每个动物的类别来检测脸，对应于类别来设定步骤S14中的给定范围。

另外，在实施方式1～2中，说明了具备脸辨识部122的数码摄像机100。在本实施方式中，脸辨识部122可以设于外部服务器。在该情况下，数码摄像机100也可以经由通信模块155对外部服务器发送摄像图像的图像数据，从外部服务器接收脸辨识部122所得到的处理结果的检测信息。在这样的数码摄像机100中，通信模块155作为检测部发挥功能。

另外，在实施方式1～2中，例示了具备光学系统110以及镜头驱动部112的数码摄像机100。本实施方式的摄像装置也可以没有光学系统110以及镜头驱动部112，例如可以是更换镜头式的摄像机。

另外，在实施方式1～2中，作为摄像装置的示例而说明了数码摄像机，但并不限定于此。本公开的摄像装置只要是具有图像拍摄功能的电子设备(例如视频摄像机、智能手机、平板终端等)即可。

如以上那样，作为本公开中的技术的例示而说明了实施方式。为此提供附图以及详细的说明。

因此，在附图以及详细的说明中记载的构成要素中不仅包含为了课题解决而必须的构成要素，还能为了例示上述技术而还包含为了课题解决非必须的构成要素。为此，不应当因这些非必须的构成要素记载于附图、详细的说明中，就直接将这些非必须的构成要素认定为是必须的。

另外，上述的实施方式由于用于例示本公开中的技术，因此能在权利要求书的范围或等同的范围中进行各种变更、置换、附加、省略等。

产业上的利用可能性

本公开能运用取得声音并进行摄像的摄像装置中。

Claims

1.一种摄像装置，具备：

显示部，显示信息；

摄像部，对被摄体进行摄像并生成图像数据；

声音取得部，取得表示在所述摄像部进行的摄像中被拾音的声音的声音信号；

检测部，在所述图像数据中检测与所述被摄体对应的被摄体区域；和

控制部，按照由所述检测部检测到的被摄体区域来决定设为所述声音信号中的拾音对象的被摄体以及设为自动对焦控制的对象的主要被摄体，

所述控制部进行控制，以使得在由所述检测部检测到多个被摄体区域时将第1识别信息和第2识别信息区别地显示于所述显示部，其中所述第1识别信息表示是所述主要被摄体且设为拾音对象的被摄体，所述第2识别信息表示是与所述主要被摄体不同的被摄体且为所述拾音对象。

2.根据权利要求1所述的摄像装置，其中，

所述控制部使表示不是所述拾音对象的被摄体的第3识别信息与所述第1识别信息以及所述第2识别信息区别地显示于所述显示部。

3.根据权利要求2所述的摄像装置，其中，

所述第1识别信息在表示是否是所述主要被摄体的第1识别显示中识别为所述主要被摄体，且在表示是否是所述拾音对象的第2识别显示中识别为所述拾音对象，

所述第2识别信息在所述第1识别显示中识别为不是所述主要被摄体，且在所述第2识别显示中识别为所述拾音对象，

所述第3识别信息在所述第1识别显示中识别为不是所述主要被摄体，且在所述第2识别显示中识别为不是所述拾音对象。

4.根据权利要求1～3中任一项所述的摄像装置，其中，

所述摄像装置还具备操作部，该操作部被输入基于显示于所述显示部的信息而从所述拾音对象除去特定的被摄体的用户操作和将特定的被摄体追加到所述拾音对象的用户操作的至少一方。

5.根据权利要求1～3中任一项所述的摄像装置，其中，

所述控制部，

按照所述被摄体区域的大小来决定设为所述拾音对象的被摄体，

控制在所述声音信号中对来自所述被摄体的声音进行拾音的拾音区域以使得包含决定为所述拾音对象的被摄体。

6.根据权利要求1～3中任一项所述的摄像装置，其中，

所述检测部检测所述图像数据中的人的脸区域来作为所述被摄体区域。

7.根据权利要求1～3中任一项所述的摄像装置，其中，

所述控制部对所述摄像部的摄像动作进行控制以使得对焦到所述主要被摄体。

8.一种摄像装置，具备：

显示部，显示信息；

摄像部，对被摄体进行摄像并生成图像数据；

控制部，按照由所述检测部检测到的被摄体区域来决定不设为所述声音信号中的拾音对象的被摄体以及设为自动对焦控制的对象的主要被摄体，

所述控制部进行控制，以使得在由所述检测部检测到多个被摄体区域时将第1识别信息和第3识别信息区别地显示于所述显示部，其中所述第1识别信息表示是所述主要被摄体且设为所述拾音对象的被摄体，所述第3识别信息表示是与所述主要被摄体不同的被摄体且不设为所述拾音对象的被摄体。

9.一种摄像装置，具备：

显示部，显示信息；

摄像部，对被摄体进行摄像并生成图像数据；

控制部，按照由所述检测部检测到的被摄体区域来决定设为所述声音信号中的拾音对象的被摄体、不设为所述声音信号中的拾音对象的被摄体以及设为自动对焦控制的对象的主要被摄体，

所述控制部进行控制，以使得在由所述检测部检测到多个被摄体区域时将分别区分第1被摄体、第2被摄体和第3被摄体的信息显示于所述显示部，其中所述第1被摄体为所述主要被摄体且设为所述拾音对象，所述第2被摄体与所述主要被摄体不同且设为所述拾音对象，所述第3被摄体与所述主要被摄体不同且不设为所述拾音对象。

10.根据权利要求8或9所述的摄像装置，其中，