CN101378455B

CN101378455B - 根据取得的图像确定主要拍摄物的图像区域的装置及方法

Info

Publication number: CN101378455B
Application number: CN2008102144793A
Authority: CN
Inventors: 岩本健士
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2007-08-31
Filing date: 2008-08-28
Publication date: 2011-04-20
Anticipated expiration: 2028-08-28
Also published as: US8411160B2; CN101378455A; JP4896838B2; US20090059027A1; JP2009060394A

Abstract

本发明提供具备根据取得的图像确定主要拍摄物的图像区域的功能的装置、方法以及存储有程序的计算机可读的存储媒体。摄像装置(100)为了根据取得的图像确定主要拍摄物的图像区域，具备：取得从所述主要拍摄物发出的声音的声音取得部(6)；根据由所述声音取得部(6)取得的声音，确定所述主要拍摄物的图像区域的中央控制部(71)。

Description

根据取得的图像确定主要拍摄物的图像区域的装置及方法

技术领域

本发明涉及具有根据取得的图像确定主要拍摄物的图像区域的功能的装置、方法以及存储有程序的计算机可读的存储媒体。

背景技术

目前，已知通过摄像装置进行主要拍摄物的图像检测，通过声音取得装置进行主要拍摄物的声音检测，由此判断图像检测到的拍摄物的方向和声音检测到的拍摄物的方向是否一致，在不一致时作为识别错误的技术。

发明内容

本发明的目的在于提供可以根据取得的图像恰当地确定主要拍摄物的图像区域的装置、方法以及存储有程序的计算机可读存储媒体。

为了达成该目的，本发明的根据取得的图像确定主要拍摄物的图像区域的装置，包含以下的结构：

取得从所述主要拍摄物发出的声音的声音取得单元；以及

根据由所述声音取得单元取得的声音，确定所述主要拍摄物的图像区域的确定单元。

此外，本发明的、根据取得的图像确定主要拍摄物的图像区域的方法，由以下的步骤构成：

使声音取得部，取得从所述主要拍摄物发出的声音的声音取得步骤(步骤S2)；以及

根据在所述声音取得步骤中取得的声音，确定所述主要拍摄物的图像区域的确定步骤。

而且，本发明的存储有用于根据取得的图像确定主要拍摄物的图像区域的程序的程序产品，其特征为，让计算机实现以下的单元：

使声音取得部取得从所述主要拍摄物发出的声音的声音取得单元(步骤S2)；以及

附图说明

图1是表示应用本发明的一实施方式的摄像装置的概要结构的方框图。

图2A示意地表示在图1的摄像装置的图像显示部中显示的拍摄物图像的一例。

图2B示意地表示在图1的摄像装置的图像显示部中显示的拍摄物图像的一例。

图3A示意地表示在图1的摄像装置的数据存储部中存储的面部图像数据和声音数据的一例。

图3B示意地表示在图1的摄像装置的数据存储部中存储的面部图像数据和声音数据的一例。

图4是表示图1的摄像装置的摄像处理的动作的一例的流程图。

图5是表示变形例1的摄像装置的概要结构的方框图。

图6A示意地表示图5的摄像装置的图像显示部中显示的拍摄物图像的一例。

图6B示意地表示图5的摄像装置的图像显示部中显示的拍摄物图像的一例。

图7A示意地表示在图5的摄像装置的数据存储部中存储的人物的姓名和面部图像数据以及声音数据的一例。

图7B示意地表示在图5的摄像装置的数据存储部中存储的人物的姓名和面部图像数据以及声音数据的一例。

图8是表示变形例2的摄像装置的概要结构的方框图。

图9A示意地表示图1的摄像装置的信息确定用数据的一例。

图9B示意地表示图1的摄像装置的信息确定用数据的一例。

图9C示意地表示图1的摄像装置的信息确定用数据的一例。

图10示意地表示图8的摄像装置的数据存储部中存储的登录表的一例。

具体实施方式

以下，对于本发明使用附图说明具体的方式。但是，本发明的范围并不限于图示的例子。

图1是表示应用本发明的一实施方式的摄像装置100的概要结构的方框图。

本实施方式的摄像装置100识别从作为主要拍摄物的人物发出的声音，确定发音方向、人物的性别、年龄以及国籍等声音关联检测用信息(主要拍摄物信息)。并且，摄像装置100提高该声音关联检测用信息的重要度来进行面部检测。

具体地说，如图1所示，摄像装置100具备：摄像部1、摄像辅助部2、显示部3、操作部4、记录媒体5、声音取得部6、控制部7、数据存储部8等。

摄像部1具备摄像镜头组11、电子摄像部12、影像信号处理部13、图像存储器14、摄影控制部15等。

摄像镜头组11由多个摄像镜头构成。

电子摄像部12由把通过摄像镜头组11的拍摄物图像转换为二维图像信号的CCD(Charge Coupled Device)或CMOS(Complementary Metal-OxideSemiconductor)等摄像元件构成。

影像信号处理部13对于从电子摄像部12输出的图像信号，实施规定的图像处理。

图像存储器14暂时存储图像处理后的图像信号。

摄影控制部15，在中央控制部71的控制下，控制电子摄像部12以及影像信号处理部13。具体地说，摄影控制部15控制执行以下的处理：使电子摄像部12以规定的曝光时间对拍摄物进行拍摄，从该电子摄像部12的摄像区域按照规定的帧率读出图像信号。

上述结构的摄像部1，构成了对拍摄物进行拍摄，取得摄像图像数据(图像信号)的摄像单元。

摄像辅助部2，在通过摄像部1对拍摄物进行拍摄时进行驱动，具有聚焦驱动部21和变焦距驱动部22。

聚焦驱动部12驱动与摄像镜头组11连接的聚焦机构部(省略图示)。

变焦距驱动部22驱动与摄像镜头组11连接的变焦距机构部(省略图示)。

此外，聚焦驱动部21以及变焦距驱动部22，与摄像控制部15连接，在摄影控制部15的控制下进行驱动。

显示部3显示由摄像部1拍摄的图像，具备显示控制部31和图像显示部32等。

显示控制部31具备视频存储器(省略图示)，其暂时保存从中央控制部71适当输出的显示数据。

图像显示部32根据来自显示控制部31的输出信号，在显示画面上显示规定的图像或信息。具体地说，图像显示部32显示通过摄像处理拍摄到的拍摄物图像(参照图2A以及图2B)。而且，图像显示部32当在面部检测处理(后述)中检测面部时，在该面部上重叠显示大体矩形状的框W(主要拍摄物的图像区域)(参照图2B)。

此外，在图2A中，示意性地发出声音地表示了作为主要拍摄物的各个女子发出的声音“拍摄了”以及“这里”。

操作部4用于进行该摄像装置100的规定操作，具备操作输入部41和输入电路42。

操作输入部41具备指示摄像部11对拍摄物进行拍摄的快门按钮41e。快门按钮41a，例如可以进行半按动操作以及全按动操作这样的两个阶段的按动操作，输出与各个操作阶段对应的规定的操作信号。

输入电路42用于将从操作输入部41输出输入的操作信号输入到中央控制部71。

记录媒体5例如由卡片型的非易失性存储器(闪速存储器)或硬盘等构成，记录由摄像部1生成的摄像图像数据。

声音取得部6例如具备麦克风和放大器(省略图示)，取得从周围发出的规定的声音来生成声音数据，并将声音数据输出给中央控制部71。具体地说，声音取得部6作为声音取得单元，取得从作为主要拍摄物的女子(人)发出的声音，例如“拍摄了”以及“这里”等(参照图2A)。

麦克风具有指向性，为了确定来自人(主要拍摄物)的发音方向，即说话者方向，希望设置多个麦克风，但如果可以确定说话者的方向则也可以为其他的方式。

数据存储部8对应地存储通过面部检测处理检测到的面部图像数据(主要拍摄物信息)，以及由声音取得部6生成的声音数据(参照图3A以及图3B)。例如，对应地存储通过面部检测处理检测到的左侧的女子(参照图2B)的面部图像数据和声音数据“拍摄了”(参照图3A)，并且对应地存储右侧女子(参照图2B)的面部图像数据和声音数据“这里”(参照图3B)。

此外，以上以面部图像数据进行了说明，当然也可以不是面部图像数据本身，可以存储表示面部图像的特征部分的数据。

例如，可以存储从面部图像数据中提取出的表示性别、年龄、国籍等特征的特征部分的数据。

此外，同样地，以上以声音数据进行了说明，当然也可以不是声音数据本身，可以存储表示声音的特征部分的数据。

此外，在确定了与面部检测处理中检测到的面部有关的人时，例如，根据操作输入部41的规定操作，在事后输入该人物的姓名。

由此，可以恰当地进行以下处理：在之后进行的面部检测处理以及面部识别处理中，使用数据存储部8中存储的面部图像数据、声音数据等，识别并确定作为主要拍摄物的人物。

控制部7控制摄像装置100的各部，具备中央控制部71、程序存储器72、数据存储器73等。

中央控制部71按照程序存储器72中存储的用于摄像装置100的各种处理程序，进行各种控制动作。

数据存储器73，例如由闪速存储器等构成，临时存储由中央控制部71处理的数据等。

程序存储器72存储中央控制部71的动作所需的各种程序和数据。具体地说，程序存储器72存储有面部检测程序72a、检测用信息确定程序72b、检测重要度设定程序72c、信息确定用数据d等。

与此对应，中央控制部71具备与面部检测程序72a对应的面部检测程序处理部71a、与检测用信息确定程序72b对应的检测用信息确定程序处理部71b、与检测重要度设定程序72c对应的检测重要度设定程序处理部71c等。

面部检测程序72a，使中央控制部71作为主要拍摄物检测单元来工作。即，面部检测程序72a是使中央控制部71实现有关以下处理的功能的程序，该处理为：根据由摄像部1生成的摄像图像数据，检测拍摄物图像内的作为主要拍摄物的人物的面部。

具体地说，中央控制部71执行面部检测程序72a，这样，对于多个摄像图像数据中的一个摄像图像数据按照规定的方向对面部探索框进行扫描，确定与眼、鼻、口等相当的特征部分(面部部分)。然后，根据各面部部分的位置关系判定是否为面部，当判断为面部时，作为面部区域检测该探索框区域。此外，考虑通过后述的检测重要度设定处理设定的声音关联检测用信息的重要度来进行面部检测处理。

此外，上述的面部检测处理的方法仅是一个例子，并非局限于此。

检测用信息确定程序72b使中央控制部71作为检测用信息确定单元来工作。即，检测用信息确定程序72b是用于使中央处理部71实现涉及以下处理的功能的程序，该处理为：根据由声音取得部6取得的声音，确定用于通过面部检测处理检测人物面部的声音关联检测用信息，例如发音方向、性别、年龄以及国籍等。

具体地说，通过中央控制部71执行检测用信息确定程序72b，对由声音取得部6的多个麦克风取得并生成的声音数据进行分析，根据该分析结果确定组要拍摄物的说话者方向，或者参照信息确定用数据d，确定主要拍摄物的性别、年龄以及国籍。

此外，通过声音识别，推定说话者的年龄、性别、国籍的技术为公知的技术。

检测重要度设定程序72c，使中央控制部71作为检测重要度设定单元来工作。即，检测重要度设定程序72c是用于使中央处理部71实现涉及以下检测重要度设定处理的功能的程序，该检测重要度设定处理为：在通过面部检测处理检测人物的面部时，进行设定以提高通过检测用信息确定处理确定的主要拍摄物的发音方向、性别、年龄以及国籍等的重要度。

具体地说，通过中央控制部71执行检测重要度设定程序72c，在面部检测处理中，以主要拍摄物的说话者方向为中心执行面部检测，或者，对应性别、年龄以及国籍来设定各个面部部分的位置关系的基准，或者对应国籍设定成为面部主要部分的肌肤颜色的深浅的基准。由此，可以容易地检测特定的人物。

此外，通过面部检测，推定所检测的面部的年龄、性别、国籍的技术为公知的现有技术。该技术是从检测的面部发现规定的特征的技术，但通过逆向使用该技术，可以根据规定的特征提高规定的面部的重要度，可以容易地进行检测。

此外，检测重要度设定处理中的主要拍摄物的发音方向、性别、年龄以及国籍等各要素的重要度设定的有无设定，例如可以根据操作输入部41的规定操作事先进行设定。

信息确定用数据d是按性别、年龄、国籍等划分的多个种类的基准声音模型数据。例如，男性用基准声音模型由300Hz前后的降低的频率构成，女性用基准声音模型是400Hz前后，与男性相比为较高的频率。

上述信息确定用数据d，如图9A、图9B、图9C所示，与性别或年龄或者国籍对应地保存表示声音的特征部分的基准生意数据，和表示人的面部的特征部分的面部特征数据(主要拍摄物信息)，通过对其进行参照，推定说话者的年龄、性别、国籍。

对使用图9A表示的表T1对推定说话者的性别的处理具体地进行说明。根据由声音取得部6取得的声音，根据上述图9A所示的表T1中保存的基准声音数据，确定最接近的基准声音数据，来推定说话者的性别，并确定与所确定的基准声音数据相对应地保存的面部特征数据。

关于性别或国籍的推定也相同。

此外，也可以采用通过进行使用了上述公知技术的一些计算来进行推定的结构。

然后，对于摄像处理，参照图4进行详细地说明。

在此，图4是表示摄像处理的动作的一例的流程图。

如图4所示，首先开始通过摄像部1进行的拍摄物的拍摄。于是，中央控制部71根据由摄像部1进行拍摄并生成的图像数据，在图像显示部32上显示通过图像(through image)(步骤S1)。

然后，当由声音取得部6取得从拍摄物的主要拍摄物发出的声音时(步骤S2)，中央控制部71判定由声音取得部6取得的声音是否为规定音量以上。

在此，当判定为声音为规定音量以上时(步骤S3：YES)，中央控制部71执行程序存储器72内的检测用信息确定程序72b，对由声音取得部6生成的声音数据进行分析，根据该分析结果确定主要拍摄物的说话者方向，或者参照信息确定用数据d，确定主要拍摄物的性别、年龄以及国籍(步骤S4)。

此外，在步骤S2中，在提高来自主要拍摄物的声音的识别率方面，可以预先登录基于规定话语(例如“拍摄了”等)的声音的特征数据，使主要拍摄物说出该话语。

然后，中央控制部71执行程序存储器72内的检测重要度设定程序72c，提高用于检测所确定的人的面部的声音关联检测用信息的重要度，例如提高主要拍摄物的发音方向、性别、年龄以及国籍等的重要度(步骤S5)。

具体地说，中央控制部71可以判断为在将面部检测的中心作为主要拍摄物的说话者方向，即在由声音取得部6检测出的声音的方向上，存在主要拍摄物的人的面部的概率高，从与检测到的声音的方向相对应的、由摄像部1拍摄并取得的摄影图像的中间，确定重点检测注目拍摄物的范围，来重点进行注目拍摄物的检测，由此提高注目拍摄物的检测精度。

此外，可以根据性别、年龄以及国籍设定各个面部部分的位置关系的基准，即，可以根据由声音取得部6取得的声音，从上述图9A所示的表T1中保存的基准声音数据中确定最接近的基准声音数据，由此来推定说话者的性别，并确定与所确定的基准声音数据相对应保存的面部特征数据(性别或国籍的推定也相同)，由此来提高注目拍摄物的检测精度。

然后，中央控制部71，执行程序存储器72内的面部检测程序72a，根据由摄像部1生成的摄像图像数据，执行对拍摄物图像内的人的面部进行检测的面部检测处理(步骤S6)。

具体地说，中央控制部71，考虑在检测重要度设定处理中设定的声音关联检测用信息的重要度，以主要拍摄物的说话者方向为中心进行面部检测。此外，中央控制部71根据性别、年龄以及国籍设定各个面部部分的位置关系的基准，或者根据国籍设定成为面部主要部分的肌肤颜色的深浅的基准，来进行面部检测。

然后，当在面部检测处理中检测人的面部时，中央控制部71让图像显示部32，在该面部上OSD显示大体矩形的面部检测框(参照图2B)(步骤S7)。

此外，在步骤S3中，当判定为取得的声音不是规定音量以上时(步骤S3：NO)，转移至步骤S6，中央控制部71不进行检测重要度设定处理，而进行面部检测处理。

之后，当由用户对快门按钮41a进行半按动操作时(步骤S8：YES)，中央控制部71进行自动曝光处理(AE)和自动聚焦处理(AF)(步骤S9)，自动曝光处理(AE)把与面部检测处理中检测到的面部重叠的面部检测框W(主要拍摄物的图像区域)作为测光区域来调整曝光条件，自动聚焦处理(AF)将面部检测框W(主要拍摄物的图像区域)作为测距区域调整聚焦位置。

然后，不解除用户对快门按钮41a的半按动操作(步骤S10：NO)，当对快门按钮41a进行全按动操作时(步骤S11：YES)，中央控制部71执行拍摄记录静止图像(本图像)的处理(步骤S12)。

之后，中央控制部71提取在面部检测处理中检测到的面部的面部图像数据，将该面部图像数据和声音取得部6取得的声音数据对应地存储在数据存储部8中(步骤S13)。

此外，在步骤S8中用户没有对快门按钮41a进行半按动操作时(步骤S8：NO)，或者在步骤S10中，解除了用户对快门按钮41a的半按动操作时(步骤S10：YES)，返回步骤S1。

如上所述，根据本实施方式的摄像装置100，根据由声音取得部6取得的声音的声音数据，确定用于在面部检测处理中检测面部的说话者方向、性别、年龄以及国籍等声音关联检测用信息，在面部检测处理时，进行设定以提高所确定的声音关联检测用信息的重要度。即，在面部检测处理中，将面部检测的中心作为主要拍摄物的说话者方向，或者对应性别、年龄以及国籍设定各个面部部分的位置关系的基准，或者对应国籍设定成为面部主要部分的肌肤颜色的深浅的基准。

因此，可以利用从作为主要拍摄物的人物发出的声音的信息，进行作为该主要拍摄物的人物的面部检测，结果，可以提高主要拍摄物的检测精度。并且，可以实现面部检测处理的快速化。

此外，因为将作为主要拍摄物的人物的发音方向、性别、年龄以及国籍等作为声音关联检测用信息来使用，所以可以使用该声音关联检测用信息更加恰当地进行面部检测处理。

此外，本发明并不限于上述实施方式，在不超出本发明的主旨的范围中可以进行各种改良以及设计的变更。

以下，参照图5～图8对摄像装置的变形列进行说明。

(变形例1)

变形例1的摄像装置200识别从作为主要拍摄物的人发出的声音，来确定该人的面部图像信息，根据确定的面部图像信息进行面部检测处理。

具体地说，如图5所示，变形例1的摄像装置200的程序存储器72，除了面部检测程序72a、检测用信息确定程序72b、检测重要度设定程序72c、信息确定用数据d之外，还存储有面部图像信息确定程序72d、面部识别程序72e。

与此对应，在中央控制部71a中具备：

与面部检测程序72a对应的面部检测程序处理部71a；与检测用信息确定程序72b对应的检测用信息确定程序处理部71b；与检测重要度设定程序72c对应的检测重要度设定程序处理部71c；与面部图像信息确定程序72d对应的面部图像信息确定程序处理部71d；与面部识别程序72e对应的面部识别程序处理部71e。

此外，变形例1的摄像装置200除了以下说明的之外，具有与上述实施方式的摄像装置100大体相同的结构，故省略该说明。

面部图像信息确定程序72d，使中央控制部71作为面部图像信息确定单元来工作。即，面部图像信息确定程序72d是使中央控制部71实现涉及以下处理的功能的程序，该处理为：根据由声音取得部6取得的声音的声音数据，确定与声音数据相对应地记录在数据存储部8中的面部图像数据。

具体地说，在面部检测处理中，中央控制部71通过执行面部图像信息确定程序72d，分析在对拍摄物进行拍摄时由声音取得部6取得的声音的声音数据(例如“好吃！”参照图6A)，根据该声音数据的频率特征，确定与声音数据(例如“高兴”以及“有趣”)对应地存储在数据存储部8中的面部图像数据(例如，“香”的面部图像数据)(参照图7A)。

并且，通过中央控制部71执行程序存储器72内的面部检测程序72a，以在面部图像信息确定处理中所确定的面部图像数据作为基准，从拍摄物内进行作为主要拍摄物的人物的面部的检测。

面部识别程序72e使中央控制部71作为面部识别单元来工作。即，面部识别程序72e是用于使中央控制部71实现涉及面部识别处理的功能的程序，该面部识别处理为：进行在面部检测处理中检测出的人的面部识别。

具体地说，通过中央控制部71执行面部识别程序72e，参照数据存储部8来识别在面部检测处理中检测出的人的面部，由此来确定人的面部，并且确定与该确定的人的面部有关的人物的姓名(主要拍摄物信息)。

然后，中央控制部71在图像显示部32上与面部图像相对应地显示在面部识别处理中确定的人物的姓名(主要拍摄物的显示信息)(参照图6B)。

如图7A所示，数据存储部8作为面部信息存储单元，对应地记录作为主要拍摄物的人物(例如“香”)的面部的面部图像数据，以及声音数据(例如“高兴”以及“有趣”等)。

此外，当在面部识别处理中确定了人物的姓名时，数据存储部8如图7B所示，与人物的姓名(例如“香”)相对应地记录在面部检测处理中新检测到的面部的面部图像数据(图7B中的右侧的面部图像)，和通过声音取得部6新取得的声音数据(例如“好吃”)。

因此，根据变形例1的摄像装置200，根据由声音取得部6取得的声音的声音数据，确定在数据存储部8中与声音数据相对应地记录的面部图像数据，根据所确定的面部图像数据，可以进行作为主要拍摄物的人物的面部检测，所以可以更恰当并且迅速地从拍摄物内进行主要拍摄物的面部检测。即，即使主要拍摄物脸扭向一边，或者为不鲜明的状态下的图像，根据从主要拍摄物发出的声音，也可以恰当地进行作为主要拍摄物的人物的面部检测。

此外，通过识别在面部检测处理中检测出的人的面部是谁(人物)的面部，来确定该人物的面部图像，此外，确定该人物的姓名后与面部图像相对应地在图像显示部32中进行显示，所以在摄像处理中，可以向摄影者报告从拍摄物图像内检测并识别出的人物。由此，摄影者可以恰当地了解是否恰当地进行了面部识别处理。

并且，数据存储部8，与作为主要拍摄物的人物的姓名相对应地记录在面部检测处理中新检测到的面部的面部图像数据，和由声音取得部6新取得的声音数据，所以在之后进行的面部检测处理以及面部识别处理中，可以使用在数据存储部8中记录的面部图像数据、声音数据，来识别作为主要拍摄物的人物，由此可以恰当地进行确定。

(变形例2)

变形例2的摄像装置300识别由声音取得部6取得的声音，来确定面部识别处理(人物的特定处理)中的人物的性别、年龄以及国籍等识别用特征信息。并且，摄像装置300，进行设定以提高该识别用特征信息在面部识别处理中的优先顺序。

此外，变形例2的摄像装置300除了以下说明的以外，具有与上述实施方式的摄像装置100大体相同的结构，故省略该说明。

即，如图8所示，变形例2的摄像装置300的程序存储器72，除了面部检测程序72a、检测用信息确定程序72b、检测重要度设定程序72c、面部识别程序72e、信息确定用数据d之外，还存储有识别用信息确定程序72f、识别重要度设定程序72g、面部信息记录控制程序72h。

与此相对，中央控制部71具有：

与面部检测程序72a对应的面部检测程序处理部71a；与检测用信息确定程序72b对应的检测用信息确定程序处理部71b；与检测重要度设定程序72c对应的检测重要度设定程序处理部71c；与面部图像信息确定程序72d对应的面部图像信息确定程序处理部71d；与面部识别程序72e对应的面部识别程序处理部71e；与识别用信息确定程序72f对应的识别用信息确定程序处理部71f；与识别重要度设定程序72g对应的识别重要度设定程序处理部71g；以及与面部信息记录控制程序72h对应的面部信息记录控制程序处理部71h等。

识别用信息确定程序72f使中央控制部71作为识别用信息确定单元作为。即，识别用信息确定程序72f是使中央处理部71实现涉及以下处理的功能的程序，该处理为：识别由声音取得部6取得的声音，来确定人物(主要拍摄物)的识别用特征信息。

具体地说，通过中央控制部71执行识别用信息确定程序72f，根据由声音取得部6取得的声音的频率特征，确定人物(主要拍摄物)的性别、年龄以及国籍等识别用特征。

并且，中央控制部71与面部图像对应地在图像显示部32上显示所确定的人物的性别、年龄以及国籍等识别用特征信息(主要拍摄物的显示信息的显示)。

识别重要度设定程序72g使中央控制部71作为识别重要度设定单元来工作。即，识别重要度设定程序72g，进行设定以提高在识别用信息确定处理中确定的识别用特征信息在面部识别处理中的优先顺序(涉及面部识别处理的重要度)。

具体地说，通过中央控制部71执行识别重要度设定程序72g，例如在被确定的作为主要拍摄物的人物为男性(女性)时，优先参照数据存储部8中存储的男性(女性)的数据库，此外，对应人物的年龄或国籍，优选参照该年龄或国籍的数据库来进行面部识别处理。

此外，上述数据库可以具备图10所示的表。

具体地说，在面部检测处理中，通过中央控制部71执行识别重要度设定程序72g，进行以下的面部识别处理：对拍摄拍摄物时由声音取得部6取得的声音的声音数据进行分析，根据该声音数据的频率特征，在数据存储部8的登录表T4中确定与声音数据相对应的人物。

如图10所示，登录表T4对应地存储各人物的姓名(例如“香”等)、由声音取得部6取得的声音数据(例如“高兴”以及“有趣”等)，以及通过面部检测处理检测出的面部图像数据。

因此，根据实施方式2的摄像装置300，根据由声音取得部6取得的声音的声音数据，可以确定作为主要拍摄物的人物，利用该人物的面部图像数据进行面部识别，可以进行人物的确定。结果，可以提高主要拍摄物的识别精度。并且，可以实现面部识别处理的高速化。

面部信息记录控制程序72h使中央控制部71作为面部信息记录控制单元作为。即，面部信息记录控制程序72h是使中央控制部71实现涉及以下处理的功能的程序，该处理为：将识别用信息确定处理中确定的识别用特征信息、以及由声音取得部6取得的声音的声音数据，与面部图像数据相对应地存储在数据存储部8中。

具体地说，在面部识别处理后，通过中央控制部71执行面部信息记录控制程序72h，把在面部识别处理中面部识别出的人物的性别、年龄以及国籍等(识别用特征信息)以及声音数据，与面部图像数据相对应地记录在数据存储部8中。

因此，根据变形例2的摄像装置300，识别由声音取得部6取得的声音，确定面部识别处理中的人物的性别、年龄以及国籍等识别用特征信息，并进行设定以提高该识别用特征信息在面部识别处理中的优先顺序，所以对应作为主要拍摄物的人物的性别或年龄或国籍，优先参照该性别或年龄或国籍的数据库，可恰当并且迅速地进行面部识别处理。

此外，因为在图像显示部32与面部图像相对应地显示确定的识别用特征信息，所以在摄像处理中，可以向摄影者报告从拍摄物图像内检测并识别出的人物的识别用特征信息，摄影者可以恰当地掌握是否恰当地进行了面部识别处理。

并且，数据存储部8，除了在面部识别处理中新检测出的面部的面部图像数据，和通过声音取得部6新取得的声音数据之外，还与作为主要拍摄物的人物的姓名相对应地记录人物的性别、年龄以及国籍等识别用特征信息，所以在之后进行的面部检测处理以及面部识别处理中，可以使用数据存储部8中存储的识别用特征信息，识别作为主要拍摄物的人物，恰当地确定为主要拍摄物。

此外，因为作为识别用特征信息使用了作为主要拍摄物的人物的性别、年龄以及国籍等，所以可以使用该识别用特征信息更恰当地进行面部识别处理。

此外，在上述变形例2中，在数据存储部8中与面部图像数据相对应地存储人物的性别、年龄以及国籍等识别用特征信息，但并不限于此，例如可以将人物的性别、年龄以及国籍等识别用特征信息或人物的姓名等作为Exif标签信息，附带在Exif形式的图像数据中。由此，即使是该摄像装置300以外的外部设备，通过参照该图像数据的Exif标签信息，可以识别作为主要拍摄物的人物的姓名或性别、年龄以及国籍等识别用特征信息。

此外，在上述实施方式中，作为主要拍摄物以人物的面部为例进行了说明，但并不限于此，只要是可以发出声音(叫声)的拍摄物即可，例如可以是电车、汽车、船舶、飞机等交通工具，或者狗、猫、牛、狮子等动物。即，通过将交通工具或动物的各个图像和声音(叫声)相对应地记录在数据存储部8中，在拍摄这些交通工具或动物时，根据交通工具或动物的声音(叫声)，可以高精度地检测作为主要拍摄物的交通工具或动物。

而且，在上述实施方式中，作为声音关联检测用信息，例示了主要拍摄物的发音方向、性别、年龄以及国籍，但并不限于此，但只要是从主要拍摄物发出且与该主要拍摄物的检测有关的信息，无论何种信息都可以。

加之，作为识别用特征信息，例示了作为主要拍摄物的人物的性别、年龄以及国籍，但并不限于此，只要是表示人物面部的特征且与该面部的识别有关的信息，无论何种信息都可以。

此外，在上述实施例中，在变形例1、变形例2中都是单独构成的摄像机，当然，也可以是采用一个照相机，切换使用三个动作模式的结构。由此，因为可以通过一个照相机实现多个动作模式，所以可以提高便利性。

此外，在上述实施方式中，对于通过面部检测程序a检测出的面部，通过面部识别程序e进行个人的确定，但也可以不是这样，也可以通过一个程序，例如通过面部检测程序与面部检测一起进行个人的确定。

此外，在上述实施方式中，只表示了通过摄像部1对多个人进行拍摄的情况，但即使拍摄的人仅为一人，也可以使用本发明。

即，其实与对人进行拍摄的情况无关，在不检测人时，请此人发出声音，由声音取得部6取得该声音的结果，参照与该声音有关的主要拍摄物信息，就可提高拍摄的人的检测精度，这样也可以进行人的检测。

此外，关于摄像装置100的结构，上述实施方式中示例的结构为一个例子，并不限于此。

并且，在上述实施方式中，做成了这样的结构：亦即，通过中央控制部71执行规定的程序等，来实现作为主要拍摄物检测单元、检测用信息确定单元、重要度设定单元、面部图像信息确定单元、面部识别单元、特征信息确定单元、特征重要度设定单元、以及面部信息记录控制单元的功能，但并不限于此，例如还可以由用于实现各种功能的逻辑电路等来构成。

Claims

1.一种根据取得的图像确定主要拍摄物的图像区域的装置，其从取得的图像中确定主要拍摄物的图像区域，其特征在于，

具备：

声音取得部(6)，其取得从所述主要拍摄物发出的声音；

确定单元(71a、71b)，其根据由所述声音取得部(6)取得的声音，确定所述主要拍摄物的图像区域；以及

主要拍摄物检测单元，其根据由所述声音取得部(6)取得的声音，确定所述主要拍摄物的属性，并根据该属性来变更应该检测的该主要拍摄物的检测基准后检测所述拍摄物图像内的所述主要拍摄物。

2.根据权利要求1所述的装置，其特征在于，

所述主要拍摄物检测单元，作为所述主要拍摄物的属性来确定该主要拍摄物的性别、年龄、国籍中的至少一个。

3.根据权利要求1所述的装置，其特征在于，

所述主要拍摄物是人物的面部，

所述主要拍摄物检测单元，作为所述主要拍摄物的属性来确定所述人物的性别、年龄、国籍中的至少一个，并根据该人物的性别以及年龄中的至少一个，变更应该检测的所述人物的面部部分的位置关系的基准。

4.根据权利要求1所述的装置，其特征在于，

所述主要拍摄物检测单元，变更应该检测的该主要拍摄物的检测基准，以提高所确定的所述主要拍摄物的属性的重要度。

5.一种根据取得的图像确定主要拍摄物的图像区域的方法，其用于从取得的图像中确定主要拍摄物的图像区域，其特征在于，

具有下述步骤：

使声音取得部取得从所述主要拍摄物发出的声音的声音取得步骤(步骤S2)；

根据在所述声音取得步骤中取得的声音，确定所述主要拍摄物的图像区域的步骤(步骤S6)；以及

根据由所述声音取得步骤取得的声音，确定所述主要拍摄物的属性，并根据该属性来变更应该检测的该主要拍摄物的检测基准后检测所述拍摄物图像内的所述主要拍摄物的主要拍摄物检测步骤。