CN102316265A

CN102316265A - 电子设备

Info

Publication number: CN102316265A
Application number: CN2011101765933A
Authority: CN
Inventors: 津田佳行; 锹田海平
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2010-06-29
Filing date: 2011-06-28
Publication date: 2012-01-11
Also published as: US20110317023A1; JP2012015651A; JP5748422B2

Abstract

本发明提供一种电子设备，该电子设备生成和再现适合用户(视听者)兴趣的音响信号。摄像装置通过拍摄而获取对象图像，另一方面，使用多个麦克风来获取与对象图像对应的对象音响信号，并根据对象图像的聚焦状态，变更应该对对象音响信号进行的音响信号处理。通过音响信号处理来生成再现用音响信号。当对象图像整体聚焦时，均等地再现来自图像整体中的被摄体的音响信号。当仅在对象图像的左侧部分聚焦时，对来自位于对象图像的左侧部分的被摄体的音响信号进行强调再现。

Description

电子设备

技术领域

本发明涉及数字照相机等电子设备。

背景技术

能够与影像一起记录以及再现声音的数字照相机等电子设备正在广泛普及。在这种电子设备中，公开有通过在特定的方向上具有指向性来录音或再现声音的方法。

例如，在第一现有方法中的摄像机中，在显示画面中显示摄影图像的同时，对与用户指示的显示画面上的位置对应的方向，设定麦克风阵列的指向性(例如参照下述专利文献1)。下述专利文献2的方法，也与其类似。

此外，例如在第二现有方法中，对特定种类的被摄体(例如，人物)存在的方向进行检测，并根据检测方向来控制记录声音等的指向性。第二现有方法或与第二现有方法类似的方法，例如，包含在下述专利文献3以及4公开内容的一部分中。

专利文献1：JP特开2008-271157号公报

专利文献2：JP特开2005-124090号公报

专利文献3：JP特开2009-65587号公报

专利文献4：JP特开2009-156888号公报

根据第一现有方法，能够使记录声音或再现声音具有适合用户兴趣的指向性。但是，为了确定指向性的方向，必须要有用户的指示，因而用户的操作负担大。

另一方面，根据第二现有方法，不用等待用户的指示，就能够使被假设为用户关注的特定种类的被摄体的方向对准指向性。然而，仅在特定种类的被摄体存在于摄影范围内的情况下，第二现有方法才有效地发挥功能，当用户关注特定种类以外的被摄体时，指向性控制不能有效地发挥功能。

发明内容

因此，本发明的目的在于，提供一种电子设备，该电子设备不会让用户承受特别的操作负担，并且不依存于还可作为声源来发挥功能的物体的种类，就能够生成按照用户意图的声音信号。

本发明的电子设备，

例如，当再现对象图像时，视听者的兴趣大多会集中于已聚焦的物体。如上述结构，若根据聚焦状态来控制声音信号处理的内容，则例如，能够使与视听者的兴趣集中的图像部分对应的方向对准指向性的方向。其结果是，能够生成按照视听者(用户)意图的声音信号。此时，不会让用户承受特别的操作负担，且不依存于物体的种类，就能够完成上述控制。

具体而言，例如，可以在该电子设备中设置聚焦位置获取部，该聚焦位置获取部获取有已聚集的物体的图像数据存在的聚焦区域的所述对象图像上的位置作为聚焦位置。并且例如，所述音响信号处理部根据所述聚焦位置来控制所述音响信号处理的内容。

更具体而言，所述音响信号处理部对所述对象音响信号实施所述音响信号处理，以使来自所述聚焦位置中的音源的声音被强调。

此外，例如，在所述聚焦状态中也包含所述对象图像的景深，所述音响信号处理部根据所述聚焦位置以及所述景深来控制所述音响信号处理的内容。

更具体而言，所述音响信号处理部根据所述景深比较深的情况和所述景深比较浅的情况，而使所述音响信号处理的内容不同。

此外，例如，还具有通过图像处理来变更所述对象图像的聚焦状态的图像加工部，在进行了该变更时，所述音响信号处理部根据变更后的聚焦状态来控制所述音响信号处理的内容。

由此，能够与聚焦状态的变更联动地进行恰当的音响信号处理。

(发明效果)

根据本发明，能够提供不会让用户承受特别的操作负担，并且不依存于还可作为声源来发挥功能的物体的种类，就能够生成按照用户意图的声音信号的电子设备。

附图说明

图1是表示本发明的第一实施方式的摄像装置的概略整体方框图。

图2是图1所示的摄像部的内部结构图。

图3是表示图1所示的话筒部的内部结构以及与话筒部连接的电路的示意图。

图4是图1的摄像装置的外观立体图。

图5的(a)(b)是表示由图1的声音信号处理部能够生成的声音信号的极坐标的图，(c)是用于说明针对任意声源的角度的意义的图。

图6是本发明的第一实施方式的摄像装置的一部分方框图。

图7是表示对象输入图像与应收音对象音响信号的对象收音期间的关系的图。

图8是表示在实际空间上所定义的三个区域的图。

图9是表示对象输入图像被分割为三个的情形的图。

图10是用于明示景深、聚焦距离以及被摄体距离的意义的图。

图11是表示对象输入图像与再现用音响信号的关系例的示意图。

图12是本发明的第一实施方式的生成再现用音响信号的动作的流程图。

图13是本发明的第二实施方式的摄像装置的一部分方框图。

图14是表示在本发明的第二实施方式的具体例中所参照的对象输入图像的图。

图15是表示本发明的第二实施方式的三个被摄体与摄像装置的距离关系的图。

图16是表示本发明的第二实施方式的数字聚焦的第一～第三模式的图。

图中：

1-摄像装置，

11-摄像部，

13-图像处理部，

14-话筒部，

14L、14R-麦克风，

15-音响信号处理部，

33-摄像元件，

61-按各方向声源分离部，

62-聚焦位置/景深获取部，

63-按各方向控制量设定部，

64-按各方向音量调整部，

71-数字聚焦部，

72-聚焦状态变更指定部。

具体实施方式

以下，参照附图对本发明的实施方式的示例具体地进行说明。在所参照的各附图中，对相同部分赋予相同符号，原则上省略与相同部分相关的重复说明。

《第一实施方式》

对本发明的第一实施方式进行说明。图1是第一实施方式的摄像装置1的概略整体方框图。摄像装置1是能够拍摄和记录静止图像的数字照相机、或是能够拍摄和记录静止图像以及运动图像的数字摄像机。摄像装置1也可以被搭载于手机等便携式终端。

在摄像装置1中，设置有：摄像部11、AFE12、图像处理部13、话筒部14、音响信号处理部15、显示部16、扬声器部17、操作部18、记录介质19以及主控制部20。

图2表示摄像部11的内部结构图。摄像部11具有：光学系统35、光圈32、由CCD(Charge Coupled Device：电荷耦合元件)或CMOS(Complementary Metal Oxide Semiconductor：互补金属氧化物半导体)图像传感器等构成的摄像元件33、用于驱动控制光学系统35及光圈32的驱动器34。光学系统35由包含变焦透镜30以及聚焦透镜31在内的多个透镜形成。变焦透镜30以及聚焦透镜31能够在光轴方向上移动。驱动器34通过根据来自主控制部20的控制信号，对变焦透镜30以及聚焦透镜31的各位置和光圈32的开度进行驱动控制，从而对摄像部11的焦距(视角)以及焦点位置和向摄像元件33的入射光量(换言之，光圈值)进行控制。

摄像元件33对经光学系统35以及光圈32射入的表示被摄体的光学图像进行光电变换，并将通过该光电变换而得到的电信号输出给AFE12。AFE12对从摄像部11(摄像元件33)输出的模拟信号进行放大，并将被放大的模拟信号变换为数字信号。AFE12将该数字信号作为RAW数据而输出给图像处理部13。AFE12中的信号放大的放大量由主控制部20来控制。

图像处理部13根据来自AFE12的RAW数据，生成表示由摄像部11拍摄的图像(以下，也称为拍摄图像)的图像数据。在此所生成的图像数据中，例如，包括亮度信号以及色差信号。但是，RAW数据其自身也是图像数据的一种，从摄像部11输出的模拟信号也是图像数据的一种。

话筒部14将摄像装置1的周围声音变换为音响信号。能够由多个麦克风来形成话筒部14。其中，如图3所示，话筒部14由两个麦克风14L以及14R构成。能够在音响信号处理部15中设置A/D变换器51L以及51R。图4表示摄像装置1的外观立体图。麦克风14L以及14R被配置在摄像装置1的壳体上相互不同的位置。图4表示由摄像装置1拍摄的物体即摄像装置1的被摄体。通过在显示部16中显示被摄体的拍摄图像，用户能够确认摄像装置1的拍摄范围等。

如图4所示，将由摄像装置1能够拍摄的被摄体所存在的方向定义为前方，将其相反的方向定义为后方。前方以及后方是沿着摄像部11的光轴的方向。此外，右以及左是指从后方侧看前方侧时的右以及左。

麦克风14L以及14R分别将自身所收音的声音变换为模拟音响信号并输出。图3的A/D变换器51L以及51R分别将从麦克风14L以及14R输出的模拟音响信号以规定的采样周期(例如48千赫)变换为数字音响信号并输出。将A/D变换器51L的输出信号特别称为左原信号，将A/D变换器51R的输出信号特别称为右原信号

音响信号处理部15能够对左原信号以及右原信号实施必要的音响信号处理。关于该处理内容，在后面进行描述。

显示部16是具有液晶显示面板等显示画面的显示装置，在主控制部20的控制下，显示拍摄图像或记录在记录介质19中的图像等。扬声器部17由一个或多个喇叭构成，将话筒部14的输出音响信号、由音响信号处理部15生成的音响信号、从记录介质19读出的音响信号等任意的音响信号作为声音进行再现输出。操作部18是接受来自用户的各种操作的部位。对操作部18的操作内容被传送给主控制部20等。记录介质19是卡状半导体存储器或磁盘等非易失性存储器，在主控制部20的控制下，对拍摄图像等进行存储。主控制部20按照向操作部18的操作内容，对摄像装置1内的各部位的动作进行统一控制。

在摄像装置1的动作模式中，包括能够拍摄静止图像或运动图像的拍摄模式和在显示部16上能够再现记录在记录介质19中的静止图像或运动图像的再现模式。在拍摄模式中，以规定的帧周期周期性地进行被摄体的拍摄，从摄像部11(更详细而言，是从AFE12)输出表示被摄体的拍摄图像列的RAW数据。拍摄图像列所代表的图像列是指以时间序列排列的图像的集合。通过一个帧周期的图像数据来表现一张图像。将由来自AFE12的一帧周期的图像数据所表现的一张拍摄图像称为帧图像。也可以将针对基于RAW数据的拍摄图像实施规定图像处理(解马赛克处理、噪声除去处理、颜色补偿处理等)而得到的图像解释为帧图像。

作为麦克风14L以及14R，能够采用没有指向性的无指向性麦克风。麦克风14L以及14R是无指向性麦克风时，左原信号以及右原信号是无指向性的音响信号(没有指向性的音响信号)。音响信号处理部15能够采用公知的指向性，根据无指向性的左原信号以及右原信号，在任意方向上生成具有指向轴的音响信号。

能够通过使左原信号或右原信号延迟的延迟处理、以规定比例使左原信号或右原信号衰减的衰减处理、以及从经过延迟处理和/或衰减处理后得到的左原信号以及右原信号的一方中减去另一方的减算处理来实现该指向性控制。具体而言，例如，通过从右原信号中减去使左原信号延迟基于麦克风14L以及14R间的距离的时间并且按规定比例衰减而得到的信号，能够生成具有图5(a)的极坐标图310的音响信号，即，能够生成在左斜后方45°方向上具有死角的音响信号。具有极坐标图310的音响信号，是在右斜前方45°方向上具有指向轴的音响信号，即，是针对从位于摄像装置1的右斜前方45°的声源到达摄像装置1的声音的分量，具有最高指向性(灵敏度)的音响信号。同样地，通过从左原信号减去使右原信号仅基于麦克风14L以及14R间的距离的时间延迟并且仅按规定比例衰减而得到的信号，能够生成具有图5(b)的极坐标图311的音响信号，即，在右斜后方45°方向上具有死角的音响信号。具有极坐标图311的音响信号是在左斜前方45°方向上具有指向轴的音响信号，即，是针对从位于摄像装置1的左斜前方45°的声源到达摄像装置1的声音的分量，具有最高指向性(灵敏度)的音响信号。

此外，定义将如图5(c)所示的X轴以及Y轴作为坐标轴的XY坐标面(XY坐标系)。X轴是通过麦克风14L的中心与麦克风14R的中心的轴，原点O位于它们的中心的中间。Y轴是在原点O处与X轴正交。沿Y轴的方向与摄像部11的光轴(对摄像元件33而言的光轴)的方向一致。X轴以及Y轴与水平面平行。从原点O朝向麦克风14R的方向(即摄像装置1的右方向)设为X轴的正方向，从原点O朝向摄像装置1的前方的方向设为Y轴的正方向。线段313是连结原点O与作为任意的声源的声源SS的线段。以θ表示X轴与线段313形成的角度。其中，角度θ设为从连结原点O与麦克风14R的中心的线段向逆时针方向观察线段313时的X轴和线段313间的角度。所谓逆时针方向是指使从原点O向麦克风14R的中心延伸的线段向摄像装置1的前方侧旋转的方向。声源SS的角度θ表示声源SS位于的方向(即，针对声源SS的声源方向)。

摄像装置1具有根据聚焦状态而实施特殊音响信号处理的功能。以下，针对该功能进行详细说明。图6是与实现该功能特别相关的部位的方框图。在图1的音响信号处理部15中能够预先设定：按各方向声源分离部61、按各方向控制量设定部63以及按各方向音量调整部64。聚焦位置/景深获取部62通过图像处理部13和/或主控制部20来实现。

按各方向声源分离部61(以下，有时简称为声源分离部61)，根据对象音响信号生成第一～第m方向信号。其中，m是2以上的整数。对象音响信号是由左原信号以及右原信号构成的音响信号。各方向信号是从对象音响信号中提取出的具有指向性的音响信号，当取i以及j为相互不同的整数时，指向性的朝向在第i以及第j的方向信号间不同。在以下的说明中，只要没有特别限定，则m＝3。并且，假设作为第一、第二以及第三方向信号而分别生成L方向信号、C方向信号以及R方向信号的情况。

对象音响信号是与对象输入图像建立对应的音响信号。对象输入图像，例如，是作为按照拍摄静止图像的指示而得到的静止图像的一张帧图像。当对象输入图像是静止图像时，如图7(a)所示，在作为该静止图像的对象输入图像320中设定对象收音期间321，通过对象收音期间321中的话筒部14的输出音响信号(在本例中是左原信号以及右原信号)，形成与对象输入图像320对应的对象音响信号。对象收音期间321是将对象输入图像320的拍摄时刻作为基准的期间，当时刻s作为对象输入图像320的曝光期间的中间时刻时，例如，是从时刻(s-Δs_A)到时刻(s+Δs_B)的期间。时刻(s-Δs_A)表示自时刻s之前Δs_A的时刻，时刻(s+Δs_B)表示自时刻s之后Δs_B的时刻。Δs_A以及Δs_B是正的时间。不过，Δs_A以及Δs_B之中的任意一方均可为零。

或者，对象输入图像也可以是形成运动图像的任意帧图像。当对象输入图像是运动图像中的帧图像时，如图7(b)所示，在作为该帧图像的对象输入图像330中设定对象收音期间331，通过对象收音期间331中的话筒部14的输出音响信号(在本例中是左原信号以及右原信号)，形成与对象输入图像330对应的对象音响信号。对象收音期间331是将对象输入图像330的拍摄时刻作为基准的期间，当时刻s作为对象输入图像330的曝光期间的中间时刻时，例如，是从时刻(s-Δs_A)到时刻(s+Δs_B)的期间，或者，是与对象输入图像330对应的帧期间。

参照图8对各方向信号的意义进行说明。L方向信号是通过从对象音响信号中分离提取从位于区域350L内的各声源到达摄像装置1的声音的分量而得到的音响信号。C方向信号是通过从对象音响信号中分离提取从位于区域350C内的各声源到达摄像装置1的声音的分量而得到的音响信号。R方向信号是通过从对象音响信号中分离提取从位于区域350R内的各声源到达摄像装置1的声音的分量而得到的音响信号。

区域350L、350C以及350R是相互不同的实际空间上的区域。

区域350L是配置具有满足不等式“θ₃≤θ＜θ₄”的角度θ的声源SS的区域。

区域350C是配置具有满足不等式“θ₂≤θ＜θ₃”的角度θ的声源SS的区域。

区域350R是配置具有满足不等式“θ₁≤θ＜θ₂”的角度θ的声源SS的区域。其中，不等式满足“0°≤θ₁＜θ₂＜90°＜θ₃＜θ₄≤180°”。不过，也可以将角度θ₁设为负的角度，也可以将角度θ₄设为大于180°。

能够根据对象输入图像的视角来决定角度θ₁、θ₂、θ₃以及θ₄的具体值。例如，在生成针对图7(a)的对象输入图像320的各方向信号时，只要将对象输入图像320的整体图像区域划分为如图9所示的分割图像区域321L、321C以及321R，并根据拍摄对象输入图像320时的视角来决定角度θ₁、θ₂、θ₃以及θ₄的具体值，以使在区域350L中收入作为位于分割图像区域321L内的声源的被摄体，并且在区域350C中收入作为位于分割图像区域321C内的声源的被摄体，并且在区域350R中收入作为位于分割图像区域321R内的声源的被摄体即可。对于图7(b)的对象输入图像330也同样。其中，分割图像区域321L、321C以及321R是沿对象输入图像320的垂直方向将对象输入图像320的整体图像区域分割为三个而得到的，且在对象输入图像320的图像空间上以及实际空间上，分割图像区域321L内的被摄体比分割图像区域321C内的被摄体更位于左侧，并且分割图像区域321R内的被摄体比分割图像区域321C内的被摄体更位于右侧(对于图7(b)的对象输入图像330也同样)。

声源分离部61能够利用上述指向性控制由对象音响信号生成L、C以及R方向信号。此外，虽然将“通过从对象音响信号中分离提取从位于区域350L内的各声源到达摄像装置1的声音的分量而得到的音响信号”描述为L方向信号，但根据指向性控制的特性，来自位于区域350L以外的各声源的声音分量也可能混入L方向信号(对于C以及R方向信号也同样)。因此，所谓L方向信号能够表现为：与不满足“θ₃≤θ＜θ₄”的声源SS的方向相比，在满足“θ₃≤θ＜θ₄”的声源SS的方向上具有比较高的灵敏度的音响信号(对于C以及R方向信号也同样)。

图6的聚焦位置/景深获取部62(以下，有时简称为获取部62)，获取对象输入图像的聚焦位置以及景深的深度。

关于任意的二维图像，所谓该二维图像的聚焦位置是表示该二维图像的整体图像区域中所包含的聚焦区域在该二维图像上的位置。因此，能够将聚焦位置称为聚焦区域位置。聚焦位置不仅表示聚焦区域的中心位置，也是表示聚焦区域的水平以及垂直方向的大小的信息。因此，例如，当聚焦区域是矩形区域时，聚焦位置是对聚焦区域的左上角的位置以及聚焦区域的右下角的位置进行确定的信息。

所谓聚焦区域是指存在已聚焦的被摄体的图像数据的图像区域。众所周之(参照图10)，在拍摄对象输入图像时，对位于景深内的被摄体360进行聚焦，已聚焦的被摄体360出现在聚焦区域内。此时，被摄体360的被摄体距离是景深内的距离。某一被摄体的被摄体距离是指该被摄体与摄像装置1(更具体而言，是摄像元件33)之间的实际空间上的距离。

此外，可认为聚焦度比较高的图像区域(例如，聚焦度比规定的基准聚焦度大的图像区域)为聚焦区域。“存在已聚焦的被摄体的图像数据的图像区域”是“聚焦度比较高的图像区域”的一种。所谓聚焦度是表示已聚焦到何种程度的聚焦程度。认为对关注区域或关注像素的聚焦度越大，越已聚焦于关注区域或关注像素中的被摄体。来自作为点光源的关注被摄体的光，在摄像元件33以及对象输入图像上形成点图像。该点图像的直径越小，存在该关注被摄体的图像数据的部分的聚焦度越高，该点图像的直径越大，存在该关注被摄体的图像数据的部分的聚焦度越小。

此外，将景深内的中心的距离称为聚焦距离(参照图10)。能够根据拍摄对象输入图像时的光学系统35的各透镜的状态(特别是聚焦透镜31的位置)，求出对象输入图像的聚焦距离。

获取部62能够根据聚焦位置用信息来检测对象输入图像的聚焦区域。通过检测聚焦区域，还同时检测出聚焦位置。

聚焦位置用信息，例如，是对象输入图像的图像数据。公知从对象输入图像的图像数据中检测出聚焦区域以及聚焦位置的方法，获取部62能够利用公知的任意的检测方法。典型地例如，可以利用对比度检测法。即例如，可以在对象输入图像的整体区域中设定相互不同的多个评价区域，按照每个评价区域提取出评价区域内的图像的空间频率分量中的高频段频率分量，并判断为所提取出的高频段频率分量大于规定基准量的评价区域是聚焦区域。按照每个评价区域而提取出的高频段频率分量，能够认为是按照每个评价区域而计算出的聚焦度。通过各被摄体的被摄体距离或景深的深度等，有时会判断为2以上的评价区域是聚焦区域，有时也会判断为对象输入图形的整体图像区域是聚焦区域。

或者，例如，也可以进行对摄像装置1的摄像范围内的各被摄体的被摄体距离进行测定的测距处理，并利用测距处理的结果来检测聚焦区域以及聚焦位置。若将测距处理的结果变换为各像素值具有被摄体距离的测定值的距离图像，且将距离图像、聚焦距离以及景深的深度用作聚焦位置用信息，则能够确定对象输入图像上的哪些部分是聚焦区域。

获取部62能够根据景深用信息来检测对象输入图像的景深的深度。作为景深用信息能够采用拍摄对象输入图像时的光圈以及焦距。这是因为若确定了拍摄对象输入图像时的光圈值以及焦距，就能确定对象输入图像的景深的深度。

获取部62输出表示对象输入图像的聚焦状态的聚焦状态信息。聚焦状态信息中包含表示对象输入图像的聚焦位置以及景深的深度的信息。

按各方向控制量设定部63(以下，有时简称为控制量设定部63)，根据聚焦状态信息，按照每个方向信号来设定针对L、C及R方向信号的控制量，并输出表示针对L、C及R方向信号的控制量的控制量信息。按各方向音量调整部64(以下，有时简称为音量调整部64)，根据控制量信息，即根据按每个方向信号所设定的控制量，按照每个方向信号来调整L、C及R方向信号的音量，并根据音量调整后的各方向信号来生成再现用音响信号。扬声器部17输出再现用音响信号作为声音。此外，扬声器部17也可以是设置在摄像装置1的外部的扬声器部。

分别以L(t)、C(t)以及R(t)表示音量调整前的时刻t的L、C以及R方向信号，分别以L’(t)、C’(t)以及R’(t)表示音量调整后的时刻t的L、C以及R方向信号。根据控制量，有可能是L(t)＝L’(t)，也有可能是C(t)＝C’(t)，也有可能是R(t)＝R’(t)。当针对L方向信号的控制量为零时，在音量调整前后L方向信号的音量不变，在针对L方向信号的控制量为正时，通过音量调整来增大L方向信号的音量，当针对L方向信号的控制量为负时，通过音量调整来减少L方向信号的音量。对于C以及R方向信号也同样。

再现用音响信号，例如，是通过单纯将音量调整后的L、C以及R方向信号相加而得到的单声道音响信号。此时，单声道音响信号即时刻t的再现用音响信号由“L’(t)+C’(t)+R’(t)”来表示。

或者例如，再现用音响信号，可以是作为三声道的音响信号而具有音量调整后的L、C以及R方向信号的多声道信号。此时，只要在扬声器部17中设置L方向信号再现用的L声道扬声器、C方向信号再现用的C声道扬声器、R方向信号再现用的R声道扬声器，就能够通过各声道扬声器来再现音量调整后的各方向信号。

当扬声器17是由L侧扬声器和R侧扬声器构成的立体声扬声器时，也可以根据音量调整后的L、C以及R方向信号来生成两声道音响信号即L输出信号以及R输出信号，且生成由L输出信号以及R输出信号构成的立体声音响信号作为再现用音响信号。此时，L输出信号以及R输出信号分别通过L侧扬声器和R侧扬声器来再现。

通过扬声器17来再现再现用音响信号时，在显示部16上再现对象输入图像(即，由显示部16进行显示)。此时，控制量设定部63通过恰当地设定每个方向信号的控制量，能够再现适合再现图像的聚焦状态的音响信号。

以对象输入图像是图7(a)以及图9的对象输入图像320的情况为例，参照图11(a)对控制量的设定方法例进行说明。

例如，当根据聚焦状态信息所包含的聚焦位置而判断为对象输入图像320的整体图像区域其自身为聚焦区域时，或者，当判断为对象输入图像320的分割图像区域321L、321C以及321R分别包含有聚焦区域时，控制量设定部63对对象输入图像320进行全聚焦判定。图11(a)是进行全聚焦判定时的示意图。图11(a)的图像320w表示进行了全聚焦判定时的对象输入图像320。

当进行了全聚焦判定时，控制量设定部63将针对L、C以及R方向信号的控制量全部设为零。此时，在基于音量调整部64的音量调整前后，各方向信号的音量不变。即，L(t)＝L’(t)、C(t)＝C’(t)、且R(t)＝R’(t)。因此，当进行了全聚焦判定时，会均衡地再现来自区域350L、350C以及350R内的声源的声音(也参照图8)。在进行全聚焦判定的状况下，可认为视听者正关注再现图像整体，或者，关注再现图像上的特定部分的可能性低。因此，认为均衡再现最适合再现图像。

此外，例如，当根据聚焦状态信息所包含的聚焦位置而判断为对象输入图像320的分割图像区域321L其自身为聚焦区域时，或者，当判断为仅在对象输入图像320的分割图像区域321L中包含有聚焦区域时，控制量设定部63针对对象输入图像320进行左聚焦判定。图11(b)是进行左聚焦判定时的示意图。图11(b)的图像320_L表示进行了左聚焦判定时的对象输入图像320。在图11(b)中，通过加粗图像320_L中的物体的轮廓线来表现图像的模糊(在图11(c)以及(d)等中也同样)。

当进行了左聚焦判定时，控制量设定部63将针对L方向信号的控制量设为正，而将针对C以及R方向信号的控制量设为零或负。如此，通过音量调整部64的音量调整，使L方向信号的音量增大，而使C以及R方向信号的音量减小。或者，也可以将针对L方向信号的控制量设为零，而将针对C以及R方向信号的控制量设为负。如此，与C以及R方向信号的音量相比，L方向信号的音量会相对增大。无论如何，在进行了左聚焦判定时，在再现用音响信号中会强调来自与分割图像区域321L内的被摄体对应的区域350L内的声源的声音(也参照图8以及图9)。在进行左聚焦判定的状况下，，视听者关注位于再现图像的左侧的被摄体的可能性高。因此，进行强调来自位于再现图像的左侧的被摄体的声音的上述音量调整(对于后述的中央聚焦判定以及右聚焦判定也同样)。

此外，例如，当根据聚焦状态信息所包含的聚焦位置而判断为对象输入图像320的分割图像区域321C其自身为聚焦区域时，或者，当判断为仅在对象输入图像320的分割图像区域321C中包含有聚焦区域时，控制量设定部63对对象输入图像320进行中央聚焦判定。图11(c)是进行中央聚焦判定时的示意图。图11(c)的图像320_C表示进行了中央聚焦判定时的对象输入图像320。

当进行了中央聚焦判定时，控制量设定部63将针对C方向信号的控制量设为正，而将针对L以及R方向信号的控制量设为零或负。如此，通过音量调整部64的音量调整，使C方向信号的音量增大，而使L以及R方向信号的音量减小。或者，也可以将针对C方向信号的控制量设为零，而将针对L以及R方向信号的控制量设为负。如此，与L以及R方向信号的音量相比，C方向信号的音量相对增大。无论如何，在进行了中央聚焦判定时，在再现用音响信号中会强调来自与分割图像区域321C内的被摄体对应的区域350C内的声源的声音(也参照图8以及图9)。

此外，例如，当根据聚焦状态信息所包含的聚焦位置而判断为对象输入图像320的分割图像区域321R其自身为聚焦区域时，或者，当判断为仅在对象输入图像320的分割图像区域321R中包含有聚焦区域时，控制量设定部63对对象输入图像320进行右聚焦判定。图11(d)是进行了右聚焦判定时的示意图。图11(d)的图像320_R表示进行了右聚焦判定时的对象输入图像320。

当进行了右聚焦判定时，控制量设定部63将针对R方向信号的控制量设为正，而将针对L以及C方向信号的控制量设为零或负。如此，通过音量调整部64的音量调整，使R方向信号的音量增大，而使L以及C方向信号的音量减小。或者，也可以将针对R方向信号的控制量设为零，而将针对L以及C方向信号的控制量设为负。如此，与L以及C方向信号的音量相比，R方向信号的音量相对增大。无论如何，在进行了右聚焦判定时，在再现用音响信号中会强调来自与分割图像区域321L内的被摄体对应的区域350R内的声源的声音(也参照图8以及图9)。

或者，也可以当聚焦状态信息所包含的景深的深度比规定的基准深度深时，针对对象输入图像320进行全聚焦判定，当聚焦状态信息所包含的景深的深度比该基准深度浅时，针对对象输入图像320进行全聚焦判定以外的判定，即进行左聚焦判定、中央聚焦判定或右聚焦判定(进行左、中央以及右判定中的哪一个判定，要依照上述方法)。此时，根据景深的深度比基准深度TH_DEPTH深或者浅的情形，控制量会不同，从而由音量调整部64进行的音响信号处理的内容也会不同。

图12是表示再现用音响信号的生成动作的流程图。生成再现用音响信号需要执行步骤S11～S14的处理。在步骤S11中，根据对象音响信号而生成L、C以及R方向信号。在步骤S12中，根据聚焦位置用信息以及景深用信息而生成聚焦状态信息。在步骤S13中，根据聚焦状态信息而生成控制量信息。在步骤S14中，根据L、C以及R方向信号和控制量信息而生成再现用音响信号。

能够在拍摄模式下执行步骤S11～S14的全部处理，并将所得到的再现用音响信息与对象输入图像的图像数据建立关联地预先记录在记录介质19中。此时，通过从记录介质19读出对象输入图像的图像数据的同时还读出再现用音响信号，能够将对象输入图像与再现音响信号一起进行再现。

但是，步骤S11～S14的各个处理的执行时刻是任意的，也可以在直到完成步骤S11～S14的全部处理为止的过程中，介入向记录介质19的信息或信号的记录。

即，例如，也可以将对象音响信号以及聚焦位置用信息和景深用信息与对象输入图像的图像数据建立关联地预先记录在记录介质19中，且在必要时，从记录介质19读出对象音响信号以及聚焦位置用信息和景深用信息，来执行步骤S11～S14的处理。

同样认为，也可以将对象音响信号与对象输入图像的图像数据建立关联地预先记录在记录介质19中，且在必要时，从记录介质19读出对象音响信号来执行步骤S11的处理。此时，若得到控制量信息，则能够进一步执行步骤S14的处理。

此外，例如，也可以将聚焦位置用信息和景深用信息与对象输入图像的图像数据建立关联地预先记录在记录介质19中，且在必要时，从记录介质19读出聚焦位置用信息和景深用信息，来执行步骤S12以及S13的处理。此时，若得到L、C以及R方向信号，则能够进一步执行步骤S14的处理。

此外，例如，也可以将聚焦状态信息与对象输入图像的图像数据建立关联地预先记录在记录介质19中，且在必要时，从记录介质19读出聚焦状态信息，来执行步骤S13的处理。此时，若得到L、C以及R方向信号，则能够进一步执行步骤S14的处理。

此外，例如，也可以将L、C和R方向信号以及控制量信息与对象输入图像的图像数据建立关联地预先记录在记录介质19中，且在必要时，从记录介质19读出L、C和R方向信号以及控制量信息来执行步骤S14的处理。

如上所述，在本实施方式中，根据作为再现图像的对象输入图像的聚焦状态，来控制用于从对象音响信号生成再现用音响信号的音响信号处理的内容。此时，根据再现图像的聚焦状态来确定被推定为视听者关注度高的区域，且对与该区域对应的声音进行强调再现。由此，能够进行适合视听者兴趣的音响信号再现。由于该再现的实现不需要基于用户的特殊的操作，因此便利性极高。例如，在将景深比较浅的聚焦区域限定于特定区域的再现图像中，由于视听者的兴趣集中于聚焦部分，因此对从聚焦部分到来的音响信号进行强调再现(参照图11(b)、(c)以及(d))。另一方面，当景深比较深的再现图像整体已聚焦时，均衡地再现宽范围的声音(参照图11(a))。

此外，对象输入图像可以是通过使用AF控制(自动聚焦控制)的拍摄而得到的图像，也可以是通过使用MF控制(手动聚焦控制)的拍摄而得到的图像。使用AF控制时，由摄像装置1执行的AF控制来确定焦距，相对于此，在使用MF控制时，根据用户指定来确定焦距。在AF控制以及MF控制期间，仅是确定焦距的主体不同，图6所示的各部位的动作不变。

也可以通过上述指向性控制以外的方法来生成L、C和R方向信号。例如，可以采用从多个麦克风的输出音响信号中按照每个声源来分离提取来自空间上分散的各声源的音响信号的方法(例如，JP特开2000-81900号公报、JP特开平10-313497号公报中记载的方法)。此时，在分离提取的过程中，当然要识别各声源的角度θ。因此，只要根据该识别结果，生成各方向信号，以使在L方向信号中包含来自区域350L内各声源的音响信号，并且在C方向信号中包含来自区域350C内各声源的音响信号，并且在R方向信号中包含来自区域350R内各声源的音响信号，

或者，例如，也可以在话筒部14预先设置针对来自区域350L内的声源的声音具有高灵敏度的第一指向性麦克风、针对来自区域350C内的声源的声音具有高灵敏度的第二指向性麦克风、和针对来自区域350R内的声源的声音具有高灵敏度的第三指向性麦克风，并从第一～第三指向性麦克风直接获取L、C以及R方向信号。此时，根据由第一～第三指向性麦克风的收音而得到的三种音响信号而形成对象音响信号。关于第一指向性麦克风，所谓“针对来自区域350L内的声源的声音具有高灵敏度”是指与针对来自区域350L以外的声源的声音的灵敏度相比，针对来自区域350L内的声源的声音的灵敏度更高(第二以及第三指向性麦克风也同样)。

此外，虽然对由声源分离部61生成的方向信号的个数为3时的动作进行了说明，但只要该个数为2以上即可。

《第二实施方式》

对本发明的第二实施方式进行说明。第二实施方式是以第一实施方式为基础的实施方式，关于在第二实施方式中未特别描述的事项，只要不矛盾，则第一实施方式的记载也适用于第二实施方式。在第二实施方式的摄像装置1中设置有以下功能：在通过拍摄而获取对象输入图像的图像数据之后，通过图像处理来变更对象输入图像的聚焦状态(聚焦距离、景深的深度等)。实现该功能的处理称为数字聚焦。

图13是针对根据变更对象输入图像的聚焦状态的功能和聚焦状态来实施特殊的音响信号处理的功能，特别相关的部位的方框图。由图13的符号61～64所参照的各部位与图6中的相同。能够预先在图1的图像处理部13中设置数字聚焦部71。聚焦状态变更指定部72由图1的图像处理部13以及主控制部20来实现。

数字聚焦部(图像加工部)71对对象输入图像的聚焦状态进行变更。将聚焦状态的变更后的对象输入图像称为对象输出图像。在由数字聚焦部71变更的聚焦状态中，至少包括对象输入图像的聚焦位置、聚焦距离、景深的深度以及聚焦度之中的一个。

现在，以图9所示的对象输入图像320为例，参照图14对聚焦状态的变更的意义进行说明。图14表示与图9所示的内容相同的对象输入图像320。在对象输入图像320的分割图像区域321L、321C以及321R中，分别存在有：作为狗的被摄体401、作为汽车的被摄体403以及作为人物的被摄体402的图像数据。此外，如图15所示，分别以d₄₀₁、d₄₀₂以及d₄₀₃来表示拍摄对象输入图像320时的被摄体401、402以及403的被摄体距离。其中，设为d₄₀₁＜d₄₀₂＜d₄₀₃。

将在拍摄对象输入图像320时被摄体距离d₄₀₁与聚焦距离一致的状态称为状态ST₄₀₁。但是，设为：在状态ST₄₀₁下所拍摄的对象输入图像320的景深内不包括被摄体距离d₄₀₂以及d₄₀₃。图11(b)的图像320_L相当于在状态ST₄₀₁下所拍摄的对象输入图像320。

将在拍摄对象输入图像320时被摄体距离d₄₀₂与聚焦距离一致的状态称为状态ST₄₀₂。但是，设为：在状态ST₄₀₂下所拍摄的对象输入图像320的景深内不包括被摄体距离d₄₀₁以及d₄₀₃。图11(d)的图像320_R相当于在状态ST₄₀₂下所拍摄的对象输入图像320。

将在拍摄对象输入图像320时被摄体距离d₄₀₃与聚焦距离一致的状态称为状态ST₄₀₃。但是，设为：在状态ST₄₀₃下所拍摄的对象输入图像320的景深内不包括被摄体距离d₄₀₁以及d₄₀₂。图11(c)的图像320_C相当于在状态ST₄₀₃下所拍摄的对象输入图像320。

将在拍摄对象输入图像320时的景深内包括全部被摄体距离d₄₀₁～d₄₀₃的状态称为状态ST_w。图11(a)的图像320_w相当于在状态ST_w下所拍摄的对象输入图像320。

作为数字聚焦的执行模式例示以下几种执行模式。

图16(a)是第一模式中的数字聚焦的示意图。在第一模式中，根据在状态ST_w下拍摄而得到的对象输入图像320_w，通过数字聚焦而生成图像320_L作为对象输出图像。为了实现它，数字聚焦部71使对象输入图像320_w的聚焦距离减小，或者使对象输入图像320_w的景深的深度变浅，或执行这两者，以使在对象输出图像中仅被摄体距离d₄₀₁～d₄₀₃之中的d₄₀₁收入景深内。或者，也可以执行使对象输入图像320_w的分割图像区域321C以及321R的聚焦度降低的图像处理，以使在对象输出图像中仅被摄体距离d₄₀₁～d₄₀₃之中的d₄₀₁收入景深内。在第一模式中，通过变更聚焦距离等，使聚焦区域从图像整体变更为图像左侧区域，伴随该聚焦区域的变更，聚焦位置也被变更。

图16(b)是第二模式中的数字聚焦的示意图。在第二模式中，根据在状态ST₄₀₁下拍摄而得到的对象输入图像320_L，通过数字聚焦而生成图像320_w作为对象输出图像。为了实现它，数字聚焦部71使对象输入图像320_L的景深的深度加深，以使在对象输出图像中被摄体距离d₄₀₁～d₄₀₃全部收入景深内。或者，也可以执行使对象输入图像320_L的分割图像区域321C以及321R的聚焦度提高的图像处理，以使在对象输出图像中被摄体距离d₄₀₁～d₄₀₃全部收入景深内。在第二模式中，通过变更景深深度等，使聚焦区域从图像左侧区域变更为图像整体，伴随该聚焦区域的变更，聚焦位置也被变更。

图16(c)是第三模式中的数字聚焦的示意图。在第三模式中，根据在状态ST₄₀₁下拍摄而得到的对象输入图像320_L，通过数字聚焦而生成图像320_R作为对象输出图像。为了实现它，数字聚焦部71使对象输入图像320_L的聚焦距离增大，以使在对象输出图像中仅收集被摄体距离d₄₀₁～d₄₀₃之中的d₄₀₂收入景深内。与该增大同时，也可以根据需要来变更景深的深度。或者，也可以执行使对象输入图像320_L的分割图像区域321L的聚焦度降低的图像处理、和使对象输入图像320_L的分割图像区域321R的聚焦度增加的图像处理，以使在对象输出图像中仅被摄体距离d₄₀₁～d₄₀₃之中的d₄₀₂收入景深内。在第三模式中，通过变更聚焦距离等，使聚焦区域从图像左侧区域变更为图像右侧区域，伴随该聚焦区域的变更，聚焦位置也被变更。

作为对对象输入图像的聚焦距离以及景深的深度进行变更的方法，数字聚焦部71能够利用包括公知方法的任意方法。例如，能够利用称为“Light Field Photography：光场摄影”的方法(以下，称为Light Field法)。若采用Light Field法，则能够根据基于摄像元件33的输出信号的对象输入图像来生成具有任意聚焦距离和景深(景深的深度)的对象输出图像。此时，能够利用基于Light Field法的公知的方法(例如，国际公开第06/039486号刊物或JP特开2009-224982号公报中记载的方法)。在LightField法中，通过使用具有开口光圈的摄像透镜和微型透镜阵列，而使从摄像元件得到的图像信号(图像数据)除了包括摄像元件的受光面上的光的强度分布，还包括光的行进方向的信息。采用Light Field法的摄像装置，通过进行基于来自摄像元件的图像信号的图像处理，能够重构具有任意聚焦距离以及景深(景深的深度)的图像。即，若采用Light Field法，在拍摄对象输入图像之后，能够自由地构筑与任意被摄体已对准焦点的对象输出图像。

因此，虽然未在图2中表示，但在采用Light Field法时，在摄像部11中设置有实现Light Field法所需要的光学部件。该光学部件包括微型透镜阵列等，来自被摄体的摄入光经微型透镜阵列等射入到摄像元件33的受光面(换言之，摄像面)。微型透镜阵列由多个微型透镜构成，针对摄像元件33上的一个或多个受光像素分配一个微型透镜。由此，摄像元件33的输出信号除了包括摄像元件33的受光面上的光的强度分布，还包括向摄像元件33的射入光的行进方向的信息。利用包含该信息的对象输入图像的图像数据，数字聚焦部71能够自由地变更对象输入图像的聚焦距离以及景深的深度。

数字聚焦部71也能够通过不基于Light Field法的方法，来进行数字聚焦。作为示例，就与第一～第三模式的关系，对在拍摄对象输入图像后变更聚焦度的方法进行说明。

如上所述，在第一模式中，数字聚焦部71能够执行使对象输入图像320_w的分割图像区域321C以及321R的聚焦度降低的图像处理，由此也能够生成对象输出图像320_L。具体而言，例如，只要在处理对象区域中设定320_w的分割图像区域321C以及321R，来执行用于使处理对象区域内的图像模糊的模糊处理即可。能够通过采用平均化滤波器、加权平均化滤波器或高斯过滤器等的空间滤波，或采用低通滤波器的频率滤波来实现模糊处理。

如上所述，在第二模式中，数字聚焦部71能够执行使对象输入图像320_L的分割图像区域321C以及321R的聚焦度提高的图像处理，由此，能够生成对象输出图像320_w。为了实现它，可以在处理对象区域中设定对象输入图像320_L的分割图像区域321C以及321R，且在数字聚焦中包括修复由处理对象区域内的图像的模糊所导致的变差的图像复原处理。通过该图像复原处理，处理对象区域内的图像的模糊被消除，使处理对象区域也包含于聚焦区域(即，得到对象输出图像320_w)。作为图像复原处理的方法能够利用公知的方法。每当执行图像复原处理，不仅是对象输入图像，还可以进而利用与对象输入图像在时间上接近而拍摄的一张以上的帧图像的图像数据。

如上所述，在第三模式中，数字聚焦部71能够执行使对象输入图像320_L的分割图像区域321L的聚焦度降低的图像处理、和使对象输入图像320_L的分割图像区域321R的聚焦度增加的图像处理，由此能够生成对象输出图像320_R。为了实现它，只要将在处理对象区域中设定对象输入图像320_L的分割图像区域321L的上述模糊处理、和在处理对象区域中设定对象输入图像320_L的分割图像区域321R的上述图像复原处理包含于数字聚焦中来执行即可。

作为聚焦状态信息，从图13的聚焦状态信息变更指定部72(以下，有时简称为指定部72)输出指示由数字聚焦部71以何种方式变更对象输入图像的聚焦状态的信息。从指定部72输出的聚焦状态信息是根据用户的操作而生成的。将用于指示对象输入图像的聚焦状态的变更的基于用户的操作称为聚焦状态变更指示操作。

主要考虑以下使用方式：在拍摄了对象输入图像并保存在记录介质19中之后，在再现模式下，从记录介质19读出的对象输入图像被赋予数字聚焦部71。此时，若进行聚焦状态变更指示操作，则指定部72按照聚焦状态变更指示操作的内容来生成聚焦状态信息，并将它输出给数字聚焦部71以及控制量决定部63。指定部72能够以获取部62的输出作为基础，生成自身所输出的聚焦状态信息。数字聚焦部71按照来自指定部72的聚焦状态信息，通过数字聚焦，从对象输入图像生成对象输出图像。

控制量决定部63，当未进行聚焦状态变更指示操作时，如第一实施方式中所述，根据从获取部62输出的聚焦状态信息来生成控制量信息，当进行了聚焦状态变更指示操作时，根据从指定部72输出的聚焦状态信息来生成控制量信息。在从指定部72输出的聚焦状态信息中，包含表示对象输出图像的聚焦位置以及景深的深度的信息。因此，在进行了聚焦状态变更指示操作时，控制量决定部63根据对象输出图像的聚焦位置以及景深的深度，通过与第一实施方式同样的动作，来生成控制量信息。即，代替对象输入图像的聚焦位置以及景深的深度，而采用对象输出图像的聚焦位置以及景深的深度，来生成控制量信息。基于声源分离部61的动作以及控制量信息的音量调整部64的动作，如第一实施方式所述。

由话筒部17再现再现用音响信号时，在显示部16上再现对象输出图像(即，由显示部16进行显示)。此时，通过音量调整部64等的作用，来再现适合再现图像的聚焦状态的音响信号。

例如，如图16(a)的第一模式所示，在按照聚焦状态变更指示操作而生成对象输出图像320_L时，会生成与进行左聚焦判定时同样的控制量信息(参照图11(b))，因此，在再现用音响信号中，来自与分割图像区域321L内的被摄体对应的区域350L内的声源的声音会被强调(也参照图8以及图9)。

此外，例如，如图16(b)的第二模式所示，在按照聚焦状态变更指示操作而生成对象输出图像320_w时，会生成与进行了全聚焦判定时同样的控制量信息(参照图11(a))，因此，结果是，会均等地再现来自区域350L、350C以及350R内的声源的声音(也参照图8)。

此外，例如，如图16(c)的第三模式所示，在按照聚焦状态变更指示操作而生成对象输出图像320_R时，会生成与进行了右聚焦判定时同样的控制量信息(参照图11(d))，因此，在再现用音响信号中，来自与分割图像区域321R内的被摄体对应的区域350R内的声源的声音会被强调(也参照图8以及图9)。

当存在对景深等进行变更的用户操作时，进行按各方向的音量调整，以使适应该变更后的再现图像。这是因为考虑到进行与变更后的景深等相应的音响信号再现适合视听者的兴趣。即，通过上述音量调整，能够进行适合视听者兴趣的音响信号再现。

《变形等》

本发明的实施方式，可以在技术方案的范围所示的技术思想的范围内，适当进行各种变更。以上的实施方式，始终是本发明的实施方式的示例，本发明乃至各结构要件的术语的意义并不局限于以上实施方式中所记载的内容。上述说明书中所示的具体数值只是简单的示例，当然，能够将其变更为各种数值。作为能够适用于上述实施方式的注释事项，以下，对注释1～注释4进行记述。各注释中记载的内容，只要不矛盾，可任意地进行组合。

[注释1]

在上述的实施方式中，虽然在摄像装置1上执行了用于生成再现用音响信号的音响信号处理以及数字聚焦，但这些处理也可以在与摄像装置1不同的电子设备(未图示)上执行。其中的电子设备，例如，是个人计算机、PDA(Personal Digital Assistant：个人数字助手)等信息终端装置，优选具备图像以及音响信号的再现功能。此外，摄像装置1也是电子设备的一种。在该电子设备中，例如，预先设置图6所示的各部位或图13所示的各部位，并通过向该电子设备供给对象输入图像的图像数据和对象音响信号以及用于导出聚焦状态信息所需要的信息，能够在该电子设备上生成再现用音响信号，而且能够生成对象输出图像。

[注释2]

在上述的实施方式中，虽然在从对象音响信号生成了L、C以及R方向信号之后，经过对L、C以及R方向信号的音量调整，生成了再现用音响信号(例如，在特定方向上具有指向性的再现用音响信号)，但若根据聚焦状态能得到与上述同样的再现用音响信号，则从对象音响信号生成再现用音响信号的处理方法不局限于上述方法。

例如，在第一实施方式中，针对对象输入图像进行了左聚焦判定时(参照图11(b))，可以通过指向性控制，从音响信号中仅提取L方向信号，并将提取出的L方向信号作为再现用音响信号来进行输出(此时，不进行C以及R方向信号的生成)。此时的再现用音响信号，尽管针对区域350L内的声源的方向具有高灵敏度，但只要适当地调整指向性的特性，则来自区域350C或区域350R内的声源的声音分量，也会部分包含于再现用音响信号中。

[注释3]

在上述实施方式中，主要假设由两个麦克风14L以及14R构成话筒部14，但是，也可以采用由三个以上的麦克风构成的麦克风阵列(未图示)作为话筒部14，并通过麦克风阵列的收音来生成对象音响信号。此时，只要通过根据对象输入图像或对象输出图像的聚焦状态来控制麦克风阵列的指向性，从而生成再现用音响信号即可。

[注释4]

能够通过硬件、或硬件与软件的组合来构成图1的摄像装置1或上述电子设备。在使用软件构成摄像装置1或上述电子设备时，与由软件实现的部位相关的方框图表示为该部位的功能方框图。也可以作为程序来记述使用软件来实现的功能，并通过在程序执行装置(例如计算机)上执行该程序，来实现其功能。

Claims

1.一种电子设备，具有：

音响信号处理部，其对与对象图像对应的对象音响信号实施音响信号处理，

所述音响信号处理部根据所述对象图像的聚焦状态来控制所述音响信号处理的内容。

2.根据权利要求1所述的电子设备，其特征在于，

还具有聚焦位置获取部，该聚焦位置获取部获取有已聚焦的物体的图像数据存在的聚焦区域的所述对象图像上的位置作为聚焦位置，

所述音响信号处理部根据所述聚焦位置来控制所述音响信号处理的内容。

3.根据权利要求2所述的电子设备，其特征在于，

所述音响信号处理部对所述对象音响信号实施所述音响信号处理，以使来自所述聚焦位置的声源的声音被强调。

4.根据权利要求2或3所述的电子设备，其特征在于，

所述聚焦状态中也包括所述对象图像的景深，

所述音响信号处理部根据所述聚焦位置以及所述景深来控制所述音响信号处理的内容。

5.根据权利要求4所述的电子设备，其特征在于，

所述音响信号处理部根据所述景深比较深的情况和所述景深比较浅的情况，而使所述音响信号处理的内容不同。

6.根据权利要求1～5中任一项所述的电子设备，其特征在于，

所述电子设备还具有图像加工部，该图像加工部通过图像处理来变更所述对象图像的聚焦状态，

在进行了该变更时，所述音响信号处理部根据变更后的聚焦状态来控制所述音响信号处理的内容。