具体实施方式
以下,参照附图说明作为本发明的摄像装置的一个实施方式的数字静像照相机(以下简单称作“数字照相机”)。
<<实施方式1>>
实施方式1的数字照相机100按每个摄影环境(以下也称作“摄影场景”)预先存储有适合于该摄影场景的摄影机构控制用的多个设定值,基于周围的声音自动地判断摄影场景,并自动地设定适合于摄影场景的摄影机构控制用的各设定值,从而能够减轻用户的操作负担、并且用于生成漂亮的图像。
<装置结构>
首先,对有关实施方式1的数字照相机100的装置结构进行说明。
图1(a)是表示数字照相机100的正面及上面的外观的立体图,图1(b)是表示数字照相机100的背面及上面的外观的立体图。
如图1(a)所示,在数字照相机100的正面,配置有:摄影透镜1,使来自被摄体的光成像在CCD(Charge Coupled Device:电荷耦合器件)或CMOS(Complementary Metal Oxide Semiconductor:互补性氧化金属半导体)等的摄像元件上;闪光灯发光机2,在摄影时向被摄体发光;以及传感器3,传感检测与被摄体的距离、曝光、及数字照相机100的旋转方向等。此外,在数字照相机100的上面,配置有:释放按钮4,通过用户半按而能够进行对焦的指示,通过全按而能够进行摄影指示;以及扬声器及麦克风5,用来收集在外部产生的反映摄影环境的声音、或通过输出规定的声音而产生的回声。
此外,如图1(b)所示,在数字照相机100的背面,配置有:显示器6,显示摄影出的图像及各种信息;转盘按钮7,用于用户指定数字照相机100的动作模式(手动模式、自动最优化模式、动画模式等);以及操作面板8,受理用户操作、例如各种设定的变更操作或摄影出的图像的显示操作。 另外,以下,假设仅在转盘按钮7中指定了自动最优化模式的情况下,数字照相机100自动地设定适合于摄影场景的摄影机构控制用的各设定值。
<功能结构>
接着,对有关实施方式1的数字照相机100的功能结构进行说明。
图2是表示数字照相机100的主要部的功能结构的模块图。
数字照相机100如该图所示,具备声音取得部110、设定部120、场景确定部130、图像数据生成部140及图像处理部141。
另外,数字照相机100包括DSP(Digital Signal Processor:数字信号处理器)、处理器及存储器而构成,通过由DSP及处理器执行存储在该存储器中的程序,实现设定部120、场景确定部130、图像处理部141的功能。
这里,声音取得部110包括扬声器及麦克风5及未图示的A/D变换器而构成,具有将由扬声器及麦克风5收集到的外部的声音变换为电信号、并向场景确定部130送出将该电信号用A/D变换器变换为数字信号而得到的声音数据的功能。另外,这里设声音取得部110包括扬声器及麦克风5,但也可以包括例如用来将从外部麦克风输出的电信号输入到数字照相机100中的输入端子。
设定部120保持有按每个摄影场景登记了适合于该摄影场景的摄影机构控制用的各设定值的表(以下称作“设定表”),具有将与场景确定部130所确定的摄影场景对应的各设定值向各控制装置及图像处理部141送出的功能。另外,关于该设定表的内容等在后面叙述(参照图6)。
这里,在各控制装置中,例如包括控制摄影透镜1的焦点的装置、控制快门(未图示)的速度的装置、或控制闪光灯发光机2的发光的有无的装置等。
场景确定部130具有如下功能:根据对于从声音取得部110接受到的声音数据的1个以上的特征的值(以下称作“特征量”)及从图像处理部141接受到的图像种类信息(后述),确定1个摄影场景。
另外,这里设为了场景确定部130不仅基于声音数据的各特征量,还基于从图像处理部141接受到的声音种类信息来确定摄影场景,但也可以仅基于声音数据的各特征量确定摄影场景。即,图2中用虚线表示的图像数据生成部140及图像处理部141并不是在实现本发明的特征方面所必须 的功能结构要素。
这里,利用图3对场景确定部130的详细的功能结构进行说明。
图3是表示场景确定部130的功能结构的模块图。
如该图所示,场景确定部130包括特征量提取部131、变化量计算部132、基准存储部133、种类判断部134、可靠度计算部135、状况判断部136、以及摄影场景判断部137而构成。
另外,在该实施方式中,将有关本发明的提取单元分为特征量提取部131、变化量计算部132来记载,但也可以构成为1个功能部。
以下,假设场景确定部130以单位时间长(例如1秒)的声音数据为单位进行处理,将当前处理中的单位时间长的声音数据也称作“对象数据”。
这里,特征量提取部131具有对于从声音取得部110接受到的对象数据提取1个以上的特征量、并向变化量计算部132送出的功能。该特征量是以例如用声功率、零交叉、频谱关联特征量、倒谱关联特征量、色度矢量等表示的声音的各属性中的、两个以上的各属性为成分构成的矢量。作为频谱关联或倒谱关联的特征量,有频谱的滚降(roll off)、MFCC(MelFrequency Cepstrum Coefficient:Mel频率倒谱系数)等。除此以外,还有在MPEG7(Moving Picture Experts Group Phase7)的标准中,作为MPEG7-Audio Features记载的多个特征。作为低登记下的特征量,有音频功率(Audio Power)、音频频谱包络(Audio Spectrum Envelope)、音频频谱质心(Audio Spectrum Centroid)、谐波频谱偏差(Harmonic SpectralDeviation)、谐波频谱扩展(Harmonic Spectral Spread)等。另外,在Hyoung-Gook Kim等著的“MPEG7 AUDIO AND BEYOND”(John Wiley &Sons Ltd,2005)中记载了详细情况。
变化量计算部132具有对从特征量提取部131接受到的各特征量计算与该特征量对应的、相对于该特征量的1个以前接受到的特征量的变化量的功能。
此外,变化量计算部132按各个特征保持有阈值,仅在计算出的各特征量的变化量是各阈值以下的情况下,将从特征量提取部131接受到的各特征量向种类判断部134送出。
这是因为,变化量较大的部分表示突发性地产生的声音,基于变化量 较大的部分的各特征量,即使判断摄影场景也有可能不能进行正确的判断。
基准存储部133是用来按照预先定义的声音种类(例如室内、室外、水中、交通工具、焰火、聚会、运动、演奏会、运动会、博览会等)、存储模型信息的存储器区域,该模型信息由用于分类到该声音种类的各特征量构成。
另外,模型信息包含表示作为对矢量的各成分的值的平均值和方差的信息。
种类判断部134具有进行从变化量计算部132送出的各特征量与保存在基准存储部133中的各模型信息的匹配处理、计算表示匹配的程度的各似然度的功能。
在匹配处理中,例如使用作为机械学习方法的判别器。作为一般的判别器,存在GMM(Gaussian Mixture Model:高斯混合模型)或SVM(SupportVector Machine:支持矢量机)等。
对于各声音种类,将对应于该声音种类的存储在基准存储部133中的模型信息依次设置到判别器中,进行与从特征量提取部131送出的各特征量的匹配处理,计算似然度。对各声音种类的似然度,该似然度的值越大,意味着对象数据被分类为该声音种类的可靠度越高,以下,假设取0~1的值来进行说明。
种类判断部134对于各声音种类,将由表示该声音种类的声音种类标识符和对该声音种类的似然度构成的组发送给可靠度计算部135。以下,将该各组称作“声音似然度信息”。
可靠度计算部135具有基于从种类判断部134送出的声音似然度信息、对各似然度计算该似然度的可靠度(以下称作“相对可靠度”)的功能。
这里,例如即使对某个对象数据的某个声音种类A的似然度和别的声音种类B的似然度是相同的值,也可以说声音种类A和声音种类B中的、对应于方差较小的模型的声音种类的似然度可靠度更高。
此外,即使对某个对象数据α的声音种类A的似然度与对别的对象数据β的声音种类A的似然度是相同的值,在对对象数据α的另一声音种类B的似然度小于对对象数据β的另一声音种类B的似然度的情况下,也可以说对对象数据α的声音种类A的似然度可靠度更高。这是因为,对象数 据被分类为声音种类B的可靠性更低。
因此,可靠度计算部135计算考虑到与各声音种类对应的各模型的方差、以及距离其他模型的中心(即平均值)的距离的各相对可靠度。
例如,在设对于对象数据的3个声音种类A、B、C的各似然度为a、b、c、设对应于各声音种类的各模型的方差为p、q、r的情况下,对声音种类A的相对可靠度Xa可以用以下的公式计算。另外,关于对声音种类B的相对可靠度Xb、以及对声音种类C的相对可靠度Xc也能够同样计算,所以省略用来计算相对可靠度Xb、Xc的公式的记载。
[公式1]
相对可靠度Xa的值越大,意味着似然度a的可靠度越高。
可靠度计算部135对于各声音种类,将由对该声音种类的声音种类标识符、似然度、和相对可靠度构成的组送出给状况判断部136。以下,将该各组称作“可靠度信息”。
状况判断部136保持有图4所示的声音种类基准表,具有基于该声音种类基准表和从可靠度计算部135接受到的可靠度信息、确定推测为对象数据属于的1个以上的声音种类的功能。
声音种类基准表是按每个声音种类登记了该声音种类的似然度的下限值(以下称作“似然度阈值”)和相对可靠度的下限值(以下称作“可靠度阈值”)的表,在后面详细说明。
状况判断部136对于构成可靠度信息的各声音种类的组,判断该组所包含的似然度及相对可靠度是否满足分别为对对应的声音种类的似然度阈值及可靠度阈值以上的条件,将有关满足条件的各组的声音种类确定为推测对象数据属于的1个以上的声音种类。
此外,状况判断部136在确定了1个以上的声音种类时,根据过去的确定结果判断该确定结果的妥当性,在妥当的情况下,将构成可靠度信息的各声音种类的组中的、对确定的声音种类的组所包含的包括声音种类标识符和相对似然度的信息(以下称作“声音种类信息”)送出给摄影场景判断部137。另外,对于该确定结果的妥当性的判断方法在后面叙述(参照图 7),但其主旨是,为了根据所确定的声音种类更正确地判断摄影场景,在所确定的声音种类频繁地变化的情况下,不将该确定结果用于摄影场景的判断。
摄影场景判断部137具有如下功能:基于从状况判断部136送出的声音种类信息、从图像处理部141送出的声音种类信息、和图5所示的场景对应表,计算对各摄影场景的可靠度(以下称作“单位时间可靠度”),并基于包括过去计算出的对各摄影场景的单位时间可靠度的、多个单位时间可靠度,确定各摄影场景(一般室内、室内聚会、室内演奏会、一般室外、室外焰火、室外焰火、室外运动、室外运动会、水中等)中的1个场景。如果确定1个摄影场景,则摄影场景判断部137将表示所确定的摄影场景的信息(以下称作“场景标识符”)向设定部120送出。
场景对应表是按每个摄影场景登记了加权值的表,该加权值表示该摄影场景和各声音种类及各图像种类以何种程度相关,在后面详细地说明。
再次使用图2,对数字照相机100的剩余的各部进行说明。
图像数据生成部140包括摄影透镜1、CCD或CMOS等的摄像元件、以及A/D变换器,具有如下功能:将从被摄体入射的光通过摄影透镜1聚光在CCD等上,将该光用CCD等变换为电信号,将该电信号通过A/D变换器变换为数字信号,由此生成图像数据(例如640×480像素量的亮度数据群),并向图像处理部141送出。
图像处理部141具有与构成场景确定部130的各部分的一部分类似的功能,具有如下功能:基于对从图像数据生成部140接受到的图像数据的1个以上的特征的值(特征量),计算预先定义的各图像种类(例如室内、室外、水中、焰火等)的似然度及相对可靠度,基于该计算出的似然度及相对可靠度,确定推测为该图像数据属于的1个以上的图像种类。图像处理部141将表示确定结果的图像种类信息向摄影场景判断部137送出。
图像处理部141例如提取亮度成分及色差成分等作为上述1个以上的特征量,将所提取的特征量变换为例如以用于判断摄影场景的颜色直方图、或用于判断对象的SIFT(Scale-Invariant Feature Transform:尺度不变特征转换)等为代表的部分特征量群(Bag of Features,以下称作“BoF”)。
此外,图像处理部141虽然没有特别图示,但按照预先定义的每个图 像种类而存储有由用来分类为该图像种类的特征量构成的模型信息,进行上述BoF与存储的各模型信息的匹配处理,计算表示匹配的程度的似然度,按照式1所示的公式计算对各似然度的相对可靠度。
此外,图像处理部141具有如下能够:如果从释放按钮4受理进行了摄影指示的通知,则对从图像数据生成部140接受到的图像数据实施对应于从设定部120接受到的设定值的颜色修正等的图像处理,向记录介质保存。
<数据>
以下,对在数字照相机100中使用的数据进行说明。
<声音种类基准表>
图4是表示声音种类基准表10的数据结构及内容例的图。
声音种类基准表10是登记有按每个声音种类而将声音种类标识符11、似然度阈值12、和可靠度阈值13建立了对应的数据的表,在状况判断部136确定推测为对象数据属于的1个以上的声音种类时参照。
另外,设该图所示的“La”~“Li”、“Ra”~“Ri”表示具体的数值而进行说明。
这里,声音种类标识符11是对应的声音种类的识别信息,这里,表示使用与其他声音种类标识符不重复的字符串的例子。
似然度阈值12是能够推测为对象数据属于对应的声音种类的、计算出的似然度的下限值,可靠度阈值13是能够推测为对象数据属于对应的声音种类的、计算出的相对可靠度的下限值。
该图例如表示用来推测为对象数据属于声音种类标识符是“a0”的声音种类(即室内)的似然度阈值是“La”、可靠度阈值是“Ra”。
<场景对应表>
图5是表示场景对应表20的数据结构及内容例的图。
场景对应表20是登记有按每个摄影场景而将场景标识符21、各声音种类的加权值22、和各图像种类的加权值23建立对应的数据的表,摄影场景判断部137在计算单位时间可靠度时参照。
另外,设该图中的“Wa1”~“Wn5”表示1以下的具体的数值而进行说明。
这里,场景标识符21是对应的摄影场景的识别信息,这里,表示使用与其他场景标识符不重复的字符串的例子。
此外,各声音种类的加权值22是表示对应的摄影场景与各声音种类的关系的程度的值,各图像种类的加权值23是表示对应的摄影场景与各图像种类的关系的程度的值,决定为:使相互对应的各声音种类的加权值与各图像种类的加权值的加权值的合计为1。
该图例如表示对场景标识符是“S001”的摄影场景(即一般室内)的各声音种类的加权值为,室内的加权值是“Wa1”、室外的加权值是“Wb1”、水中的加权值是“Wc1”,各图像种类的加权值为,交通工具的加权值是“Wl1”、焰火的加权值是“Wm1”、聚会的加权值是“Wn1”。
<设定表>
图6是表示设定表30的数据结构及内容例的图。
设定表30是登记有按每个摄影场景而将场景标识符31和各设定值32建立了对应的数据的表,设定部120在取得对应于摄影场景的摄影机构控制用的设定值时参照。
这里,场景标识符31是对应的摄影场景的识别信息,是与上述场景对应表20的某个场景标识符一致的值。
此外,各设定值32是适合于对应的摄影场景的摄影机构控制用的设定值,由对于对焦、快门速度、白平衡、灵敏度、颜色强调、闪光等设定项目的设定值构成。另外,颜色强调栏中的“×”表示不特别进行颜色强调。
该图表示例如适合于场景标识符是“S001”的摄影场景(即一般室内)的摄影机构控制用的各设定值为,对焦是“AF(Auto Focus:自动对焦)”、快门速度是“1/60”秒、白平衡是使光源为“荧光灯”的情况下的预先定义的值、CCD等的灵敏度是“标准”、颜色强调是“×”(即不进行)、闪光的有无是“自动”。
<动作>
以下,对数字照相机100的动作进行说明。
<声音种类确定处理>
图7是表示场景确定部130进行的声音种类的确定处理的流程图。
该声音种类的确定处理在由用户将电源设为ON等、数字照相机100 成为能够摄影的状态、并且图1所示的转盘按钮7被设定为自动最优化模式的情况下开始,虽然没有特别图示,但在由用户将电源设为OFF等、数字照相机100成为不能摄影的状态时结束。
如图7所示,场景确定部130的特征量提取部131如果经由声音取得部110取得单位时间长的声音数据(对象数据)(步骤S1),则提取各特征量(步骤S2),将所提取的各特征量向变化量计算部132送出。
变化量计算部132对于从特征量提取部131接受到的各特征量,计算对应于该特征量的、相对于在1个以前接受到的特征量的变化量,判断计算出的各变化量是否分别是对应的阈值以下(步骤S3)。
在计算出的各变化量中的至少1个比对应的阈值大的情况下(步骤S3:否),场景确定部130再次从步骤S1开始进行处理,在计算出的各变化量是对应的阈值以下的情况下(步骤S3:是),变化量计算部132将从特征量提取部131接受到的各特征量向种类判断部134送出。
另外,设为在数字照相机100成为能够摄影的状态之后立刻从特征量提取部131接受到各特征量的情况下,变化量计算部132进行肯定的判断(步骤S3:是)。
此外,种类判断部134进行从变化量计算部132接受到的各特征量与保存在基准存储部133中的各模型信息的匹配处理,计算表示匹配的程度的似然度(步骤S4),对于各声音种类,将由声音种类标识符和对该声音种类的似然度构成的组(声音似然度信息)向可靠度计算部135送出。
可靠度计算部135基于从种类判断部134接受到的声音似然度信息所包含的各似然度,按照公式1所示的公式计算各相对可靠度(步骤S5),对于各声音种类,将由声音种类标识符、对该声音种类的似然度和相对可靠度构成的组(可靠度信息)向状况判断部136送出。
状况判断部136基于声音种类基准表10及从可靠度计算部135接受到的可靠度信息,确定推测为对象数据属于的1个以上的声音种类(步骤S6)。更详细地讲,对于各声音种类,从声音种类基准表10取得对该声音种类的似然度阈值和可靠度阈值,从由种类判断部134接受到的可靠度信息中取得对该声音种类的似然度和相对可靠度,在似然度是似然度阈值以上、并且相对可靠度是可靠度阈值以上的情况下,将该声音种类确定为推测对象 数据属于的声音种类。
例如,在图4所示的声音种类基准表10的例子中,在构成可靠度信息的、声音种类是“a0”的组所包含的似然度是“La”以上、并且该组所包含的相对可靠度是“Ra”以上的情况下,将“室内”确定为推测该对象数据属于的声音种类。
此外,状况判断部136根据所确定的各声音种类的至少一部分是否与对于在对象数据Dn的一个前及两个前处理的单位时间长的声音数据Dn-1、Dn-2确定的1个以上的声音种类重复,来判断在步骤S6中确定的结果是否妥当(步骤S7)。
具体而言,仅在由步骤S6确定的各声音种类的至少一部分既包含在对于声音数据Dn-1确定的1个以上的声音种类中、也包含在对于声音数据Dn-2确定的1个以上的声音种类中的情况下进行肯定的判断(步骤S7:是)。
例如,在由步骤S6确定的声音种类是“室内”和“聚会”的情况下,当在对声音数据Dn-1、Dn-2确定的1个以上的声音种类中分别包含“室内”、或在对声音数据Dn-1、Dn-2确定的1个以上的声音种类中分别包含“聚会”时,进行肯定的判断(步骤S7:是)。
在步骤S7中,在进行了否定的判断的情况下(步骤S7:否),场景确定部130再次从步骤S1开始进行处理,在进行了肯定的判断的情况下(步骤S7:是),状况判断部136将声音种类信息向摄影场景判断部137送出(步骤S8),场景确定部130再次从步骤S1开始进行处理。
这里,声音种类信息是按每个声音种类将声音种类标识符和相对可靠度建立了对应的信息,作为该相对可靠度,对于由步骤S6确定的声音种类,与从可靠度计算部135接受到的可靠度信息所包含的对该声音种类的相对可靠度建立对应,对于没有由步骤S6确定的声音种类,与“0”建立对应。
<图像种类确定处理>
图8是表示图像处理部141进行的图像种类的确定处理的流程图。
该图像种类的确定处理的流程与使用图7说明的声音种类的确定处理的流程很类似,所以这里简单地说明。
此外,该图像种类的确定处理也与声音种类的确定处理同样,在数字 照相机100是能够摄影的状态、并且转盘按钮7被设定为自动最优化模式的情况下开始,在数字照相机100成为不能摄影的状态时结束。
如图8所示,图像处理部141如果从图像数据生成部140取得图像数据(步骤S11),则提取各特征量(步骤S12),进行将所提取的各特征量变换后的BoF与对各图像种类的模型信息的匹配处理,计算表示匹配的程度的似然度(步骤S14)。
此外,图像处理部141基于计算出的各似然度,按照公式1所示的公式计算各相对可靠度(步骤S15),基于各图像种类的似然度与可靠度信息的组,确定推测为图像数据属于的1个以上的图像种类(步骤S16)。
虽然没有特别说明,但图像处理部141保持有按每个图像种类登记了似然度阈值和可靠度阈值的、与声音种类基准表10的数据结构很相似的数据结构的表,与上述状况判断部136同样,对于各图像种类的组,在该组的似然度是该图像种类的似然度阈值以上、并且该组的相对可靠度是该图像种类的可靠度阈值以上的情况下,将该图像种类确定为推测图像数据属于的图像种类。
图像处理部141将图像种类信息向摄影场景判断部137送出(步骤S18),图像处理部141再次从步骤S11开始进行处理。
这里,图像种类信息是按每个图像种类将图像种类标识符和相对可靠度建立了对应的信息,作为该相对可靠度,对于由步骤S16确定的图像种类,与在步骤S15中计算出的对该图像种类的相对可靠度建立对应,对于没有由步骤S16确定的图像种类,与“0”建立对应。
<摄影场景判断处理>
图9是表示摄影场景判断部137进行的摄影场景的判断处理的流程图。
如该图所示,场景确定部130的摄影场景判断部137如果从状况判断部136接受到声音种类信息,从图像处理部141接受到图像种类信息(步骤S21),则使用场景对应表20,计算各摄影场景的单位时间可靠度(步骤S22),并储存所计算出的对各摄影场景的单位时间可靠度。
更详细地讲,按每个摄影场景,将对声音种类信息所包含的各相对可靠度分别乘以场景对应表20的对应的声音种类的加权值后的值合计,将对图像种类信息所包含的各相对可靠度分别乘以场景对应表20的对应的图像 种类的加权值后的值合计,取各合计的和,作为单位时间可靠度。
例如,在设声音种类信息所包含的声音种类“室内”、“室外”、“水中”、……的相对可靠度是“Xa1”、“Xb1”、“Xc1”、……、声音种类信息所包含的图像种类“交通工具”、“焰火”、“聚会”……的相对可靠度是“Xl1”、“Xm1”、“Xn1”、……的情况下,在图5的场景对应表20的例子中,摄影场景“一般室内”的单位时间可靠度可以计算为“wa1×Xa1+wb1×Xb1+wc1×Xc1+……+wl1×Xl1+wm1×Xm1+wn1×Xn1+……”。
摄影场景判断部137判断是否已存储有对在对象数据Dn的1个前~4个前处理的单位时间长的声音数据Dn-1~Dn-4计算出的、对各摄影场景的单位时间可靠度(步骤S23)。
另外,在图7的步骤S3及步骤S7的判断处理中进行了否定的判断的情况下,没有从状况判断部136接受到对此时为处理对象的声音数据的声音种类信息,所以没有存储基于该声音种类信息的单位时间可靠度。
在没有储存有对相应的各摄影场景的单位时间可靠度的情况下(步骤S23:否),场景确定部130再次从步骤S21开始进行处理,在已储存有对相应的各摄影场景的单位时间可靠度的情况下(步骤S23:是),基于对声音数据Dn~Dn-4计算出的对各摄影场景的单位时间可靠度,计算对各摄影场景的短时间可靠度及长时间可靠度(步骤S24)。
这里,对各摄影场景的短时间可靠度是对声音数据Dn和Dn-1计算出的该摄影场景的单位时间可靠度的平均值,对各摄影场景的长时间可靠度是对声音数据Dn~Dn-4计算出的该摄影场景的单位时间可靠度的平均值。
例如,在对声音数据Dn~Dn-4计算出的摄影场景“一般室内”的单位时间可靠度是“Sa0”~“Sa4”的情况下,能够将摄影场景“一般室内”的单位时间可靠度计算为“(Sa0+Sa1)÷2”,能够将长时间可靠度计算为“(Sa0+Sa1+Sa2+Sa3+Sa4)÷5”。
接着,摄影场景判断部137按每个摄影场景,计算该摄影场景的短时间可靠度与长时间可靠度的平均值(以下称作“场景可靠度”)(步骤S25)。
摄影场景判断部137对于计算出的各场景的场景可靠度,判断该场景可靠度是否是对该摄影场景的预先设定的基准值以上,并判断预先设定的 基准值以上的场景可靠度的数量(步骤S26)。
在基准值以上的场景可靠度的数量是0的情况下(步骤S26:0),什么都不做,摄影场景判断部137再次从步骤S21开始进行处理,在基准值以上的场景可靠度的数量是1的情况下(步骤S26:1),摄影场景判断部137确定为与该基准值以上的场景可靠度有关的摄影场景(步骤S27),将所确定的摄影场景的场景标识符向设定部120送出,再次从步骤S21开始进行处理。
接受到场景标识符的设定部120从设定表30取得对应于接受到的场景标识符的各设定值,将设定值向对应的控制装置、图像处理部141送出。结果,各控制装置、图像处理部141进行对应于接受到的设定值的处理。
此外,在基准值以上的场景可靠度的数量是2的情况下(步骤S26:2以上),确定为与场景可靠度是最大的场景可靠度有关的摄影场景(步骤S28),将所确定的摄影场景的场景标识符向设定部120送出,再次从步骤S21开始进行处理。以后的设定部120、各控制装置、图像处理部141的处理与上述步骤S27的情况同样。
<具体例>
以下,使用具体例说明上述步骤S26以后的处理。
图10是表示对各摄影场景的基准值、和摄影场景判断部137计算出的短时间可靠度、长时间可靠度、以及场景可靠度的例子的图。
在该图所示的例子中,由于计算出的场景可靠度42中的、与对应的基准值以上的场景可靠度有关的摄影场景仅是“一般室内”(步骤S26:1),所以摄影场景判断部137确定摄影场景是“一般室内”(步骤S27),将一般室内的场景标识符(S001)向设定部120送出。
接受到该场景标识符(S001)的设定部120在图6的设定表30的例子中,取得对焦“AF”、快门速度“1/60”、白平衡“荧光灯”、颜色强调“×”、闪光“自动”的各设定值。
设定部120将对焦“AF”、快门速度“1/60”、闪光“自动”的设定值向对应的控制装置送出,将白平衡“荧光灯”、颜色强调“×”的设定值向图像处理部141送出,在各控制装置、图像处理部141中进行对应于接受到的设定值的处理。
<<变形例1>>
在实施方式1中,说明了自动地确定1个摄影场景、设定对应于所确定的摄影场景的各设定值的例子,而以下说明将摄影场景的候选提示给用户、设定对应于由用户选择的摄影场景的各设定值的一变形例。
由此,用户能够通过简单的操作进行适合于摄影场景的各设定值下的摄影。此外,由于用户进行摄影场景的最终的决定,所以能够用于更漂亮的图像的生成。
有关变形例1的数字照相机(以下称作“变形数字照相机”)是将有关上述实施方式1的数字照相机100的摄影场景判断部137的功能稍稍变更的结构,所以以从数字照相机100的变更部分为中心进行说明。
以下,将该变形数字照相机的摄影场景判断部称作“变形场景判断部”。
<动作>
以下,说明变形数字照相机的动作。
<摄影场景判断处理>
图11是表示变形场景判断部进行的摄影场景的判断处理的流程图。
该图中的步骤S21~S28的处理与有关实施方式1的摄影场景判断部137的处理(参照图9)同样,所以以下说明步骤S30~S32的处理。
在步骤S26中,在基准值以上的场景可靠度的数量是0的情况下(步骤S26:0),变形场景判断部将场景可靠度大于0的各摄影场景作为候选,在显示器6上按场景可靠度从大到小的顺序,从左侧起显示表示各摄影场景的候选的图标(步骤S30)。
变形场景判断部判断是否经由操作面板8进行了选择某个摄影场景的候选的操作(步骤S31),在没有选择的情况下(步骤S31:否),再次进行步骤S31的处理,在选择了情况下(步骤S31:是),确定为所选择的摄影场景(步骤S32),将所确定的摄影场景的场景标识符向设定部120送出,再次从步骤S21开始进行处理。
接受到场景标识符的设定部120与在步骤S27、S28中说明的同样,将从设定表30取得的各设定值向各控制装置、图像处理部141送出,各控制装置、图像处理部141进行对应于接受到的设定值的处理。
<具体例>
以下,使用具体例说明上述步骤S26以后的处理。
图12是表示对各摄影场景的基准值、和变形场景判断部计算出的短时间可靠度、长时间可靠度、以及场景可靠度的例子的图。
图13是示出表示各摄影场景的候选的图标的显示例的图。
在图12所示的例子中,由于不存在与计算出的场景可靠度52中的、对应的基准值以上的场景可靠度有关的摄影场景(图11的步骤S26:0),变形场景判断部将场景可靠度大于0的各摄影场景“一般室内”、“室内聚会”、“一般室外”作为候选,在显示器6上按场景可靠度从大到小的顺序,从左侧起显示表示各摄影场景的候选的图标(步骤S30)。
在该例中,如图13所示,按场景可靠度从大到小的顺序,从左侧起显示表示摄影场景的候选“一般室内”的图标6a、表示摄影场景的候选“室内聚会”的图标6b、表示摄影场景的候选“一般室外”的图标6c。
在该例中,如果例如用户操作操作面板8而选择了摄影场景“一般室内”(步骤S31:是),则变形场景判断部将摄影场景确定为“一般室内”,将一般室内的场景标识符(S001)向设定部120送出。
以后,与在实施方式1中说明的同样,设定部120将从设定表30取得的各设定值向对应的控制装置、图像处理部141送出,在各控制装置、图像处理部141中,进行对应于接受到的设定值的处理。
<<变形例2>>
在实施方式1中,说明了基于周围的声音判断摄影场景、自动地设定适合于判断出的摄影场景的摄影机构控制用的各设定值的方法。以下,说明除此以外、还基于周围的声音确定检测对象(人脸、人造物等)、在能够从图像数据中检测到所确定的检测对象的情况下自动地设定修正后的摄影机构控制用的各设定值的变形例。
另外,以下以从有关上述实施方式1的数字照相机100的变更部分为中心进行说明。
<功能结构>
首先,对有关变形例2的数字照相机200的功能结构进行说明。
图14是表示数字照相机200的主要部的功能结构的模块图。
如该图所示,数字照相机200代替有关实施方式1的数字照相机100 的场景确定部130、图像处理部141而具备场景确定部210、图像处理部230,还具备声音确定部220。
这里,场景确定部210在代替有关实施方式1的场景确定部130的状况判断部136而具备状况判断部211这一点上与场景确定部130不同。
另外,在该变形例中,设为声音种类包括“人声”、“动物的叫声”、“电车”、“风”等(以下也称作“新的声音种类”),并设为基准存储部133保持对应于新的声音种类的各模型信息,此外在实施方式1中说明的各种表中也登记有对应于新的声音种类的值。
此外,设为摄影场景判断部137如果一旦确定了摄影场景、将所确定的摄影场景的场景标识符向设定部120送出,则在下次确定了摄影场景时,只要该确定的摄影场景与上次确定的摄影场景没有不同,就不进行向设定部120的场景标识符的送出。这是因为如后述那样有可能将由图像处理部230修正为较佳的各设定值向各控制装置送出、在各控制装置及图像处理部230中进行了基于该修正后的设定值的处理。
状况判断部211具有与有关实施方式1的状况判断部136同样的功能,但在将声音种类信息向摄影场景判断部137送出时也向声音确定部220送出这一点上与状况判断部136不同。
此外,声音确定部220具有如下功能:基于从状况判断部211接受到的声音种类信息、和过去的声音种类信息,确定各声音种类(例如室内、室外、人声、动物的叫声、电车、风等)中的1个声音种类,并将确定的声音种类的声音种类标识符向图像处理部230送出。
此外,图像处理部230除了有关实施方式1的图像处理部141的功能以外,还具有执行与从声音确定部220接受到的声音种类标识符所表示的声音种类预先建立了对应的处理(以下称作“对应处理”)的功能。
这里,所谓对应处理,例如作为一例可以举出人脸、动物的身体、桌子或椅子等的人造物、大厦等的建筑物等的物体检测处理、运动检测处理、振动修正处理等。
<动作>
以下,对数字照相机200的动作进行说明。
<声音种类确定处理>
图15是表示声音确定部220进行的声音种类的确定处理的流程图。
如该图所示,声音确定部220如果从状况判断部211接受到声音种类信息(步骤S41),则将该声音种类信息储存,判断是否储存有对在对象数据Dn的1个前~4个前处理的单位时间长的声音数据Dn-1~Dn-4的声音种类信息(步骤S43)。
在没有储存有相应的各声音种类信息的情况下(步骤S43:否),声音确定部220再次从步骤S41开始进行处理,在储存有相应的各声音种类信息的情况下(步骤S43:是),基于对声音数据Dn~Dn-4的各声音种类信息,按每个声音种类,计算短时间声音可靠度、含有率、功率等级(步骤S44)。
这里,所谓的对各声音种类的短时间声音可靠度,是对声音数据Dn和Dn-1的各声音种类信息所包含的、该声音种类的相对可靠度的平均值。
此外,所谓对各声音种类的含有率,是对声音数据Dn~Dn-4的各声音种类信息所包含的、对该声音种类的大于0的相对可靠度的数量的比例。例如,在对声音数据Dn~Dn-4的各声音种类信息所包含的、对声音种类“人声”的相对可靠度是“0.5”、“0.4”、“0.3”、“0.2”、“0”的情况下,大于0的相对可靠度的数量是“4”,含有率可以计算为“0.8”。
此外,所谓对各声音种类的功率等级,是声音数据Dn~Dn-4中的、包含有对该声音种类的大于0的相对可靠度的部分的声功率的平均值(标准化为取0~1的值的值)。另外,到目前为止没有特别说明,但为了计算对该各声音种类的功率等级,假设声音确定部220从种类判断部134接受到对声功率的特征量。
声音确定部220按每个声音种类,计算该声音种类的短时间声音可靠度、含有率、和功率等级的平均值(以下称作“声音种类可靠度”)(步骤S45)。
声音确定部220对于计算出的对各声音种类的声音种类可靠度,判断该声音种类可靠度是否是对该声音种类的预先设定的基准值以上,判断预先设定的基准值以上的声音种类可靠度的数量(步骤S46)。
在基准值以上的声音种类可靠度的数量是0的情况下(步骤S46:0),什么都不特别进行,声音确定部220再次从步骤S41开始进行处理,在基 准值以上的声音种类可靠度的数量是1的情况下(步骤S46:1),声音确定部220确定为与该基准值以上的声音种类可靠度有关的声音种类(步骤S47),将所确定的声音种类的声音种类标识符向图像处理部230送出,再次从步骤S41开始进行处理。
接受到声音种类标识符的图像处理部230执行对应于该声音种类标识符所表示的声音种类的对应处理。例如,在声音确定部220确定为声音种类“人声”的情况下,图像处理部230作为对应处理而进行检测人脸的处理,在检测到的情况下,例如将用于对准检测到的脸部分来进行对焦的设定值等向对应的控制装置送出,并且将对摄影出的图像进行的图像处理的内容例如变更为强调肤色。
另外,图像处理部230保持有用于脸部检测的模板图像,通过将该模板图像与从图像数据生成部140接受到的图像数据进行匹配处理,进行脸部检测。
此外,在基准值以上的声音种类可靠度的数量是2以上的情况下(步骤S46:2以上),确定为与最大的声音种类可靠度有关的声音种类(步骤S48),与上述步骤S47同样,将所确定的声音种类的声音种类标识符向图像处理部230送出,再次从步骤S41开始进行处理。接受到声音种类标识符的图像处理部230执行对应于该声音种类标识符所表示的声音种类的对应处理。
另外,在上述中,以声音确定部220确定为声音种类“人声”的情况为例,说明了图像处理部230作为对应处理而进行脸部检测的例子,但例如在声音确定部220确定为声音种类“室内”的情况下,也可以作为对应处理而进行检测桌子或椅子等人造物的处理、或基于亮度等的信息判断荧光灯颜色(暖色系、冷色系等)的处理,基于判断结果将对焦等的设定值向对应的控制装置发送,并且变更对摄影出的图像进行的颜色修正处理的内容(例如白平衡的设定值)。
此外,例如在声音确定部220确定为声音种类“室外”的情况下,也可以作为对应处理而进行检测山等的自然或较大的建筑物的处理、或运动检测,并根据检测结果,将对焦等的设定值向对应的控制装置送出,并且变更对摄影出的图像进行的颜色修正处理的内容(例如强调颜色的设定 值)。
此外,例如如图16所示,也可以是图像处理部230按每个声音种类而保持登记了包含近距离范围、中距离范围、远距离范围等的有关与被摄体的距离的设定值的各设定值的设定表,对应于所确定的声音种类将修正后的摄影机构控制用的各设定值向各控制装置送出,并且进行对应于设定值的图像处理(在该例中是白平衡的调节处理)。
此外,例如在声音确定部220确定为声音种类“风”的情况下,也可以作为对应处理而进行模糊(ブレ)修正。进而,此时也可以进行变形以基于功率等级判断吹着何种程度的风,在添加风的影响后基于来自传感器3的信息计算数字照相机200的模糊修正量并进行修正,或者通过也检测植物等的被摄体的摆动,将数字照相机200的摆动和被摄体的摆动同时修正。
此外,也可以在声音确定部200确定为声音种类“电车”等的交通工具的情况下也作为对应处理而进行模糊修正。此时,既可以基于功率等级等判断该交通工具的摆动的程度,也可以进行考虑到摆动的影响的模糊修正。
<<实施方式2>>
在实施方式2中,说明能够使用在实施方式1中说明的声音种类信息将摄影出的图像数据分类、用于图像数据的检索的例子。
<功能结构>
首先,对有关实施方式2的数字照相机300的功能结构进行说明。
图17是表示数字照相机300的主要部的功能结构的模块图。
如该图所示,数字照相机300是代替有关实施方式1的数字照相机100的场景确定部130而具备场景确定部310、还具备分类信息存储部320、分类信息生成部330的结构。
另外,在该实施方式中,设为图像处理部141如果从释放按钮4受理进行了摄影指示的通知,则对分类信息生成部330通知该情况。
这里,场景确定部在代替有关实施方式1的场景确定部130的状况判断部136而具备状况判断部311这一点上与场景确定部130不同,但状况判断部311除了在将声音种类信息向摄影场景判断部137送出时也向分类信息生成部330送出这一点以外,具有与有关实施方式1的状况判断部136 同样的功能。
分类信息存储部320是用来存储种类结构表、组表、重要组表的存储区域。关于各表的内容在后面叙述(参照图18)。
分类信息生成部330具有如下功能:将从状况判断部311接受到的声音种类信息依次储存,在从图像处理部141接受到进行了摄影指示的通知时,基于连续输入到数字照相机300的对规定数量(例如为10个)的单位时间长的声音数据的各声音种类信息,按每个声音种类计算该声音种类的可靠度(以下称作“长时间声音可靠度”)。
分类信息生成部330具有如下功能:将计算出的对各声音种类的长时间声音可靠度(以下称作“种类结构信息”)登记到种类结构表70,并根据构成该种类结构信息的每个声音种类的长时间声音可靠度,将该登记的种类结构信息登记为组表80的某一个组的成员。
此外,分类信息生成部330具有根据构成各组的成员的数量等、判断该组是否是重要的组、并根据判断结果登记到重要组表90中的功能。另外,该判断方法在后面叙述(参照图19)。
<数据>
<种类结构表>
图18(a)是表示种类结构表70的数据结构及内容例的图。
种类结构表70是登记有按每个种类结构信息将结构标识符71、长时间声音可靠度72、和登记日期和时间73建立了对应的数据的表,由分类信息生成部330登记。
这里,结构标识符71是对应的种类结构信息的识别信息,这里例示了各结构标识符被分配为从1开始的连号的情况。另外,各结构标识符还与摄影出的图像数据建立了对应,在图像数据的检索时使用。
长时间声音可靠度72是表示构成对应的种类结构信息的对各声音种类的长时间声音可靠度的信息,登记日期和时间73是表示登记种类结构信息的日期和时间的信息。
该图示出了例如结构标识符是“1”的种类结构信息为,对声音种类“室内”的长时间声音可靠度是“0.5”,对声音种类“室外”的长时间声音可靠度是“0.3”,对声音种类“水中”的长时间声音可靠度是“0.15”,登记日 期和时间是“2008/3/1 10:10”。
<组表>
图18(b)是表示组表80的数据结构及内容例的图。
组表80是登记有按每个组将组标识符81与成员标识符82建立了对应的数据的表,由分类信息生成部330登记。另外,假设由对应的组标识符和成员标识符构成的信息(所谓的记录)在该数字照相机300的使用开始时1件也没有登记。
这里,组标识符81是对应的组的识别信息,是与其他组标识符不重复的字符串。这里,例示了各组标识符由字符“G”与从1开始的连号的数字的组合构成的字符串的情况。
此外,成员标识符82是构成对应的组的成员即种类结构信息的识别信息,与上述种类结构表70的某个结构标识符一致。
该图示出了例如组标识符是“G1”的组由组标识符是“1”、“51”、“100”、……的成员、即种类结构表70的结构标识符是“1”、“51”、“100”的种类结构信息构成。
<重要组表>
图18(c)是表示重要组表90的数据结构及内容例的图。
重要组表90是登记有按每个重要组将重要组标识符91和成员组标识符92建立了对应的数据的表,由分类信息生成部330登记。
这里,重要组标识符91是对应的重要组的识别信息,是与其他重要组标识符不重复的字符串。
此外,成员组标识符92是构成对应的重要组的成员即组的识别信息,与上述组表80的某个组标识符一致。另外,假设在数字照相机300的使用开始时,在成员组标识符92中没有登记有任何组标识符。
该图示出了例如重要组标识符是“IG1”的组由成员组标识符是“G1”、“G3”、“G6”的成员、即组表80的组标识符是“G1”、“G3”、“G6”的组构成。
另外,关于该图所示的重要组标识符是“IG1”的重要组、与重要组标识符是“IG2”的重要组的差别在后面叙述(参照图19)。
<动作>
以下,对数字照相机300的动作进行说明。
<分类信息生成处理>
图19是表示分类信息生成部330进行的分类信息的生成处理的流程图。
另外,设与该分类信息的生成处理不同地、分类信息生成部330在从状况判断部311接受到声音种类信息时,进行将接受到的声音种类信息依次储存的处理。
如该图所示,分类信息生成部330如果从图像处理部141接受到进行了摄影指示的通知(步骤S51),则判断是否储存有最近储存的声音种类信息、以及对在与该声音种类有关的单位时间长的声音数据Dn的1个前~9个前处理的单位时间长的声音数据Dn-1~Dn-9的声音种类信息(步骤S52)。
在没有储存相应的各声音种类信息的情况下(步骤S52:否),分类信息生成部330结束分类信息生成处理,在储存有相应的各声音种类信息的情况下(步骤S52:是),基于对声音数据Dn~Dn-9的各声音种类信息,按每个声音种类计算长时间声音可靠度(步骤S53)。
这里,所谓的对各声音种类的长时间声音可靠度,是对声音数据Dn~Dn-9的各声音种类信息所包含的、该声音种类的相对可靠度的平均值。
分类信息生成部330将由结构标识符、对生成的各声音种类的长时间声音可靠度和登记日期和时间构成的种类结构信息登记到分类信息存储部320的种类结构表70中。另外,该结构标识符为对已登记在种类结构表70中的各结构标识符中的最大的结构标识符加上1后的值,登记日期和时间使用从未图示的计时部随时得到的值(例如1分钟单位的时刻的值)得到。
接着,分类信息生成部330对于登记在组表80中的各组标识符所表示的所有的组,判断以下说明的步骤S55的处理是否已完成(步骤S54)。
在还没有完成对所有的组的处理的情况下(步骤S54:否),分类信息生成部330在组表80中从未处理的1个组(以下称作“对象组”)的成员标识符中取得最小的标识符,从种类结构表70取得所取得的标识符所表示的种类结构信息的长时间声音可靠度。分类信息生成部330计算所取得的对各声音种类的长时间声音可靠度与在步骤S53中计算出的对各声音种类 的长时间声音可靠度的一致度,判断计算出的一致度是否是规定值(例如0.9)以上(步骤S55)。
这里,例如在从种类结构表70取得的对声音种类“室内”、“室外”、“水中”、……的长时间声音可靠度是“Lra1”、“Lrb1”、“Lrc1”、……、在步骤S53中计算出的对声音种类“室内”、“室外”、“水中”、……的长时间声音可靠度是“Lra2”、“Lrb2”、“Lrc2”、……的情况下,一致度可以如以下这样计算。
[公式2]
在计算出的一致度小于规定值的情况下(步骤S55:否),分类信息生成部330再次从步骤S54开始处理,在步骤S54中,在对于所有的组的处理都完成的情况下(步骤S54:是),将与在步骤S53中计算出的对各声音种类的长时间声音可靠度有关的种类构成信息分类到新的组中(步骤S56)。即,将由该种类结构信息所包含的结构标识符和新生成的组标识符构成的记录登记到组表80中,结束分类信息生成处理。
另一方面,在步骤S55中,在计算出的一致度是规定值以上的情况下(步骤S55:是),分类信息生成部330将与在步骤S53中计算出的对各声音种类的长时间声音可靠度有关的种类构成信息分类到对象组中(步骤S57)。即,将该种类结构信息所包含的结构标识符追加到组表80的对象组的成员标识符中。
接着,分类信息生成部330判断对象组的成员标识符的数量是否是N(例如10)以上(步骤S58),在对象组的成员标识符的数量小于N的情况下(步骤S58:否),结束分类信息生成处理,在对象组的成员标识符的数量是N以上的情况下(步骤S58:是),判断在作为对象组的成员的各种类结构信息的登记日期和时间是否有周期性(步骤S59)。
这里的周期性,是指将作为对象组的成员的各种类结构信息例如以1天1次、1周1次、1月1次那样定期地登记。
该是否有周期性的判断可以通过一般的频率分析的方法进行,所以这 里省略详细的说明。
在步骤S59中,在有周期性的情况下(步骤S59:是),分类信息生成部330将对象组分类到重要组标识符是“IG1”的重要组(步骤S60),结束分类信息生成处理。即,将对象组的组标识符追加到重要组表90的重要组标识符是“IG1”的成员组标识符中。
即,作为成员的各种类结构信息的数量是N以上、并且其登记日期和时间有周期性的组属于重要组标识符是“IG1”的重要组。
对象组的各种类结构信息的数量是N以上、并且其登记日期和时间有周期性,表示能够根据声音判断为在共通的环境下进行的摄影被定期地进行,可以推测该对象组对于用户而言是有关重要的事件下的摄影的组。
另一方面,在步骤S59中,在没有周期性的情况下(步骤S59:否),分类信息生成部330判断对象组的成员标识符的数量是否是大于N的M(例如50)以上(步骤S61)。
在对象组的成员标识符的数量小于M的情况下(步骤S61:否),结束分类信息生成处理,在对象组的成员标识符的数量是M以上的情况下(步骤S61:是),分类信息生成部330将对象组分类到重要组标识符是“IG2”的重要组(步骤S62),结束分类信息生成处理。即,将对象组的组标识符追加到重要组表90的重要组标识符是“IG2”的成员组标识符中。
即,作为成员的各种类结构信息的数量是M以上、并且其登记日期和时间没有周期性的组属于重要组标识符是“IG2”的重要组。
虽然其登记日期和时间没有周期、但对象组的各种类结构信息的数量是M以上,这表示在能够根据声音判断为在共通的环境下进行的摄影被进行多次,可以推测该对象组对于用户而言是有关重要的事件下的摄影的组。
<检索例>
以下,使用具体例说明使用通过上述分类信息的生成处理生成的各表的信息怎样进行检索。
图20是说明数字照相机300中的显示器6的画面转移的图。
另外,在该图中,为了说明的简单化,仅表示了数字照相机300的显示器6,而将数字照相机300的壳体等的记载省略。
在该图的(a)中,示出了用来选择登记在重要组表90中的各重要组 中的某个重要组的画面(以下称作“重要组选择画面”)的显示例。
在重要组选择画面中,显示有显示“发生频率较高的组”的字符的图标6e、和显示“有周期的组”的字符的图标6f。
在该重要组选择画面中,如果用户操作操作面板8而选择例如图标6f,则数字照相机300取得重要组表90的重要组标识符为“IG1”的重要组的成员组标识符“G1”、“G3”、“G6”,将该图的(b)的画面(以下称作“组选择画面”)显示在显示器6上。
另外,虽然没有特别图示,但如果用户操作操作面板8而选择例如图标6e,则数字照相机300取得重要组表90的重要组标识符为“IG2”的重要组中包含的组的选择画面(与该图的(b)的画面类似的画面)显示在显示器6上。
在组选择画面中,显示有与所取得的成员组标识符的数量“3”对应的数量的图标6g、6h、6i,即,在该组选择画面的例子中,表示在“有周期性的组”中包含有3个组。
另外,在该组选择画面的例子中,设想了作为显示在各图标上的字符、对应于成员组标识符的数量而使用从“A”到“Z”的罗马字母的情况。
在该组选择画面中,如果用户操作操作面板8而选择例如图标6g,则数字照相机300取得组表80的组标识符为“G1”的组的成员组标识符“1”、“51”、“100”、……,将该图的(c)的画面(以下称作“缩略画面”)显示在显示器6上。
在缩略画面中,显示与所取得的成员标识符(结构标识符)建立了对应的图像数据的缩略图像6j~6o。
在缩略画面中,如果用户操作操作面板8而选择某个缩略图像,则虽然没有特别图示,但将对应的图像数据显示在显示器6整体上。
<补充>
以上,基于实施方式1、变形例1、2及实施方式2(以下单称作“实施方式”)说明了有关本发明的摄像装置,但也可以如以下这样变形,本发明当然并不限定于如在上述实施方式中表示那样的摄像装置。
(1)也可以将表示通过在实施方式1及变形例2中说明的方法确定的摄影场景的信息与图像数据建立对应,将表示该摄影场景的信息用于图像 数据的检索。
例如,在显示器6上显示分别表示多个摄影场景的图标,在用户操作操作面板8而选择了某个图标的情况下,显示与所选择的摄影场景的信息建立了对应的各图像数据的缩略图像。
在用户操作操作面板8而选择了某个缩略图像的情况下,例如如图21所示,将对应于所选择的缩略图像的图像(在该例中是室外的风景的图像)显示在显示器6上。此外,在该图中,示出了在所显示的图像上叠加显示了表示对应的摄影场景的图标6d(在该例中是表示摄影场景“一般室外”的图标)的例子。
此外,如在变形例2中说明那样,在从多个摄影场景的候选之中确定为用户选择的摄影场景的情况下,将表示没有被选择的其他摄影场景的候选的信息也与图像数据建立对应,既可以使得能够使用表示该摄影场景的候选的信息来检索图像数据,也可以使得能够检索多个场景的候选的组合相同的图像数据。
(2)在实施方式中,设按照预先定义的、例如室内、室外、水中等的声音种类(在该项目中称作“综合种类”)而存在由用于分类到该综合种类的各特征量构成的模型信息来进行了说明。但是,例如也可以按照室内1、室内2、室内3、室外1、室外2、水中1、水中2、水中3等的、细分化的声音种类(在该项目中称作“详细种类”)而存在模型信息。
例如,在设详细种类“室内1”、“室内2”、“室内3”的各似然度是“La1”、“La2”、“La3”的情况下,综合种类“室内”的似然度a可以计算为“Wa11×La1+Wa12×La2+Wa13×La3”。
这里,Wa11、Wa12、Wa13是系数,决定为使其合计为1。对于其他综合种类的似然度也能够同样计算。
(3)在实施方式1及变形例1中,设基于根据声音种类信息及图像种类信息计算出的场景可靠度来确定摄影场景的结构而进行了说明,但也可以基于仅根据声音种类信息计算出的场景可靠度来确定摄影场景。
此外,设将场景可靠度为基于短时间可靠度及长时间可靠度计算而进行了说明,但也可以将短时间可靠度及长时间可靠度的某个作为场景可靠度。
此外,设场景可靠度是短时间可靠度与长时间可靠度的平均值而进行了说明,但也可以对短时间可靠度和长时间可靠度赋予加权而计算。
此外,设将短时间可靠度基于2个单位时间可靠度(即2秒)计算、将长时间可靠度基于5个单位时间可靠度(即5秒)计算而进行了说明,但这里的2个、5个的数量既可以比其多也可以比其少。但是,需要将该数量决定为使长时间可靠度比短时间可靠度在计算中使用的单位时间可靠度的数量更多。
(4)在变形例2中,以各控制装置、图像处理部230按照适合于所确定的摄影场景的设定值来动作为前提,说明了例如在确定了声音种类“人声”的情况下,由于能够推测在周围存在人,所以进行检测人脸的处理,当检测到时,按照修正为更适合之后的对焦及颜色强调等的设定值,使各控制装置、图像处理部230动作的例子。
但是,也可以不以各控制装置、图像处理部230按照适合于摄影场景的设定值来动作为前提,而各控制装置、图像处理部230仅按照对应于所确定的声音种类的设定值来动作。
在此情况下,作为构成图16所示的设定表60的各设定值的设定项目,也可以包括图6所示的设定表30的各设定值的设定项目“对焦”、“快门速度”、“颜色强调”、“闪光”等。
(5)在变形例2中,设声音确定部220基于构成声音种类信息的对各声音种类的相对可靠度确定1个声音种类而进行了说明,但也可以基于对各声音种类的似然度来确定1个声音种类。
(6)在实施方式1中,设在图7的步骤S3中、在计算出的各变化量中的至少1个比对应的阈值大的情况下进行否定的判断(步骤S3:否)而进行了说明。但是,也可以仅在计算出的各变化量都比对应的阈值大的情况下进行否定的判断,也可以仅在对某个指定的特征的变化量比阈值大的情况下进行否定的判断。
(7)在实施方式1的图9及实施例1的图11的步骤S26中,设为使用固定的基准值(以下称作“第1基准值”)而进行了说明,但也可以在该第1基准值以上的场景可靠度的数量小于规定数量的情况下,使用设定得比第1基准值低的第2基准值,在第1基准值以上的场景可靠度的数量是 规定数量以上的情况下,使用设定得比第1基准值高的第3基准值。
此外,在步骤S26中,也可以在基准值以上的场景可靠度的数量是0的情况下(步骤S26:0),确定为与最大的场景可靠度有关的摄影场景。
(8)在实施方式1的图9及变形例1的图11中,设为在步骤S28中确定为与基准值以上的各场景可靠度中的最大的场景可靠度有关的摄影场景而进行了说明,但也可以以其他基准确定摄影场景。例如,也可以确定为基准值以上的各场景可靠度中的、与基准值的差最大的场景可靠度。
(9)变形例1中说明的处理(参照图11)中,设为在图1所示的转盘按钮7被设定为自动最优化模式的情况下执行而进行了说明,但也可以在转盘按钮7被设定为与该自动最优化模式不同的指定的模式的情况下执行。
此外,在图11中,设为在步骤S26中、仅在基准值以上的场景的可靠度的数量是0的情况下(步骤S26:0)进行步骤S30~S32的处理而进行了说明,但也可以不管基准值以上的场景可靠度的数量如何都进行步骤S30~S32的处理。即,也可以是如果步骤S25的处理完成则进行步骤S30~S32的处理。
(10)在实施方式中,设用户的选择操作经由操作面板8进行而说明,但也可以将显示器6做成触摸面板、用户能够经由该触摸面板进行操作。
(11)在变形例2中,设为例如在确定为声音种类“人声”的情况下进行脸部检测而进行了说明,但也可以不论所确定的声音种类如何都进行脸部检测处理(在该项目中称作“第1脸部检测处理”),特别地,在确定为声音种类“人声”的情况下,进行包括与上述通常的脸部检测不同的处理的脸部检测处理(在该项目中称作“第2脸部检测处理”)。
该第2脸检测处理可以考虑进行例如不只是朝向正面的脸、还检测朝向侧面的脸的处理,或因为能够推测为存在人、所以在将检测朝向正面的脸时使用的阈值降低的状态下进行脸部检测处理。另外,为了检测侧脸而需要对应的模板图像。
另外,这里以脸部检测的情况为例进行了说明,但对于其他物体的检测处理也同样能够变形,进而,对于检测处理以外的处理也能够变形以进行其处理精度及处理内容的详细化。
(12)在变形例1中,如图13所示,设为按场景可靠度从大到小的顺 序从左起,将表示各摄影场景的候选的图标显示在显示器6上而进行了说明,但各图标的显示顺序并不限定于此,例如也可以按场景可靠度从大到小的顺序从右起、或从上起或从下起进行显示。此外,也可以不是显示图标、而是以排列表示各场景的候选的字符串的列表形式显示。此外,在图标显示或列表显示中,也可以根据场景可靠度的大小而变更所显示的图标的尺寸或字符的尺寸。
(13)设有关实施方式的变化量计算部132计算与连续输入的单位时间长的声音数据有关的特征量的差分而进行了说明,但并不限定于此,例如也可以使用一定时间内的数据差分、分散、回归方程系数。
这里,所谓一定时间内数据差分,是包括以最小数据单位为帧的情况下的帧间差分、且从某个基准时间看时与两帧前的数据的差,或与1~n帧前的所有差的平均的通量。
此外,所谓分散,是通过定义为一定时间内的数据的一般的样本分散或无偏分散的内容计算出的。
此外,所谓回归方程系数,是作为回归分析方法而用最小二乘法或Logistic回归方法等计算出的模型系数,根据该模型系数判断模型以怎样的程度变化。
(14)说明了以下例子:有关实施方式的状况判断部在确定了1个以上的声音种类时,根据所确定的各声音种类的至少一部分是否与对在对象数据Dn的1个前及2个前处理的单位时间长的声音数据Dn-1、Dn-2确定的1个以上的声音种类重复,来判断所确定的声音种类的变化是否剧烈。
但是,判断所确定的声音种类的变化是否剧烈的方法并不限于该方法,例如也可以根据声音种类的变化率及重复率进行判断。
这里,所谓声音种类的变化率,是例如在将T秒期间的数据框内的种类变化数设为M的情况下,通过M/T计算的值。此外,声音种类的重复率是在将每1秒间判断出的似然度高的种类数设为C1的情况下,例如通过在T秒间计算的平均值来计算。
(15)图1所示的扬声器及麦克风5优选配置在当摄影时能够高精度地集音外部的声音等的位置上,并不限定于该图所示的位置,例如也可以 配置在数字照相机100的前面或背面上。
此外,在例如在以数字照相机100为中心的例如半径几m以内的区域(以下称作“近距离区域”)中发生了人的会话音等的声音的情况下,作为较大的声音而由扬声器及麦克风5集音,所以有可能不能将在上述近距离区域的外侧(以下称作“远距离区域”)发生的声音用扬声器及麦克风5集音。也有在该远距离区域中产生的声音更好地表示数字照相机100的摄影环境的情况。
所以,例如也可以将数字照相机100变形以使其在扬声器及麦克风5以外还具备有指向性的1个以上的麦克风,在扬声器及麦克风5及各麦克风集音的声音中,使用由变化量计算部132使用各变化量小于规定值的声音判断摄影场景。
(16)在实施方式中,设以单位时间长(1秒)的声音数据为单位进行处理而进行了说明,但该1秒是一例,既可以比其长也可以比其短。
此外,也可以按照想要判别的摄影场景、或想要判别的声音种类来变更该处理单位。
(17)在实施方式中,说明了按每个摄影场景定义各设定值的例子,但也可以考虑按每个特征量的阈值群定义各设定值,如果从对象数据中提取出的各特征量为阈值以上,则将定义的设定值设定到各控制装置及图像处理部中。在此情况下,也不需要进行从对象数据中提取出的各特征量与各模型信息的匹配处理。另外,上述阈值也可以是由上限值和下限值构成的具有幅度的值。
(18)在实施方式中,设在种类判断部134的匹配处理中使用作为机械学习方法的判别器而进行了说明,但也可以不通过机械学习方法,而只要是能够按照某个判别基准来判别具有某个特征量的信号属于的、某个定义的分类项目的方法就可以。例如,作为图案匹配方法,可以考虑利用矢量相关的方法、LPC(Linear Predictive Coding,线性预测编码)法、主成分分析、神经网络、遗传算法或贝叶斯推测等。
(19)在实施方式中,设使用由1个集合构成的各模型信息进行了说明,但例如也可以切换所使用的集合。例如,也可以通过GPS(GlobalPositioning System)确定数字照相机的位置,使用包括对应于在该位置上使 用的语言等的各模型的集合。
(20)在实施方式中,设特征量提取部131提取的特征量例如是以用声功率、零交叉、频谱关联特征量、倒谱关联特征量、色度矢量等表示的声音的各属性中的、两个以上各个的属性作为成分而构成的矢量进行了说明,但也可以以1个属性为成分构成。
(21)在实施方式2中,设在种类结构表70中登记登记日期和时间而进行了说明,但也可以不进行向种类结构表70的登记日期和时间的登记,并且代替该登记日期和时间而取得生成图像数据时的日期和时间(摄像日期和时间)。
(22)也可以将在实施方式中说明的各构成要素中的全部或一部分用1个芯片或多芯片的集成电路实现,也可以由计算机的程序实现,由其他何种形态实现都可以。
(23)也可以将用来使处理器执行在实施方式中说明的各处理(参照图7、图8、图9、图11、图15、图19)的程序记录到记录介质中、或经由各种通信路径等流通并发布。作为这样的记录介质,有IC卡、光盘、软盘、ROM、闪存存储器等。流通、发布的程序通过保存在能够由设备的处理器读取的存储器等中而供使用,通过该处理器执行该程序,实现实施方式所示的数字照相机的各功能。
(24)在实施方式中,对作为有关本发明的摄像装置的一实施方式的数字照相机进行了说明,但也可以是具备摄像单元的其他设备、例如便携电话机、数字摄像机,也可以是非数字的单反照相机。
但是,在非数字的单反照相机中,不进行在实施方式中说明的通过图像处理部的颜色修正等的图像处理。
此外,在实施方式中,说明了数字照相机的主要部分的结构,但当然也可以具备一般的数字照相机具备的其他结构。
例如,也可以构成为具有检测照相机的状态及变化信息的传感器、进行数据的输入输出处理的输入输出接口单元、存储有各种应用程序的程序存储器、保存文件DB(数据库)及属性信息DB(数据库)及在各种处理中产生的数据的数据存储器、用来进行用于控制各构成要素的控制信号及在各种设备相互间收发的数据传送的数据总线等。
在实施方式中,虽然没有特别详细地说明,但上述文件DB、属性信息DB记录在由实施方式说明的记录介质中。
这里,文件DB是登记有由数据输入单元输入的多个文件数据的数据库。作为文件数据,例如包括照片图像数据、运动图像数据及音乐数据。
此外,属性信息DB是登记有保存在文件DB中的数据的属性信息数据的数据库。作为属性信息,例如包括表示照片图像数据或运动图像数据的摄像年月日的时间信息及表示摄影场所的场所信息。
另外,上述记录介质并不限定于半导体存储器,例如也可以由HDD(Hard Disk Drive)或DVD(Digital Versatile Disk)等的大容量介质盘实现。此外,程序存储器也通过这些各种存储设备实现。在存储在程序存储器中的各种应用程序中,除了存储有用来进行在实施方式中说明的各种处理的程序以外,还存储有用来进行数字照相机整体的控制处理的程序,通过在实施方式中说明的处理器或DSP执行这些程序,实现进行数字照相机整体的控制的控制单元的功能。
(25)也可以在有关实施方式的数字照相机中组合采用上述(1)~(24)的一部分或全部的变形。
(26)以下,进一步说明有关本发明的一实施方式的摄像装置的结构及其变形例和各效果。
(a)有关本发明的一实施方式的摄像装置,其特征在于,具备:摄影机构;声音取得单元,取得声音数据,该声音数据包含反映了摄影环境的信息;以及设定单元,基于由上述声音取得单元取得的声音数据,选择上述摄影机构的控制用的设定值。
根据具备上述结构的有关本发明的一实施方式的摄像装置,由于基于来自摄影环境的声音数据选择设定值,所以对于例如快门速度、摄像元件的灵敏度等的摄影机构的控制,能够进行适合于摄影的环境的控制。
(b)此外,也可以是,上述摄像装置也可以具备场景确定单元,该场景确定单元具有从由上述声音取得单元取得的声音数据中提取表示摄影环境的环境声音特征量的提取部,存储各模型信息,参照各模型信息,根据由上述提取部提取的环境声音特征量,确定1个摄影场景,上述各模型信息分别决定与多个摄影场景各自具有规定的关系性的各种声音的特征;
上述设定单元存储有将多个摄影场景各自与1个或多个设定值建立了对应的对应信息,选择通过上述对应信息而与由上述场景确定单元确定的摄影场景建立了对应的设定值,作为上述摄影机构的控制用的设定值。
由此,根据有关本发明的一实施方式的摄像装置,通过进行表示摄影环境的环境音特征量以及与摄影场景建立了关系的各种模型信息的对照,能够适当地确定摄影场景,所以只要按每个摄影场景预先适当地决定设定值,就能够进行适合于摄影的控制。
(c)此外,也可以是,上述提取部按照规定的每单位时间确定表示上述声音数据的特征的特征量,提取在多个单位时间中特征量的时间变化比规定量小的对该多个单位时间的各特征量,作为上述环境声音特征量。
由此,根据有关本发明的一实施方式的摄像装置,由于排除特征量的时间变化为规定量以上的偶发性地发生的声音的影响,所以能够适当地确定摄影场景。
(d)此外,也可以是,表示上述声音数据的特征的特征量是以声音的各属性中的两个以上的各个属性为成分构成的矢量,上述声音的各属性是用声功率、零交叉、频谱关联特征量、倒谱关联特征量及色度矢量表示的属性;上述模型信息用于与表示上述声音数据的特征的特征量的比较,包含表示对上述矢量的各成分的值的信息而构成;上述场景确定单元根据表示对上述各模型信息与表示上述声音数据的特征的特征量这两者的矢量的一致程度的各个似然度,进行摄影场景的上述确定。
由此,根据有关本发明的一实施方式的摄像装置,由于对照有关声音的多个特征成分,所以与单一成分的对照相比提高了适当确定摄影场景的可能性。
(e)此外,也可以是,上述模型信息构成为,包含作为对上述矢量的各成分的值而表示平均值及方差的信息;上述场景确定单元根据表示对与上述各模型信息各自的平均值有关的矢量、和表示上述声音数据的特征的特征量这两者的矢量的一致程度的各个似然度以及各模型信息各自的矢量的方差,进行摄影场景的上述确定。
由此,根据有关本发明的一实施方式的摄像装置,由于各模型信息表示具有有关声音的多个特征成分的样本的多个集合,也基于该各样本的成 分值的分散的程度进行摄影场景的确定,所以能够适当地进行确定。
(f)此外,也可以是,上述场景确定单元根据表示对构成上述环境声音特征量的多个单位时间各自的特征量和上述各模型信息这两者的矢量的一致程度的各个似然度中的、将不满足条件的似然度除外而剩余的各个似然度,进行摄影场景的上述确定,上述条件为关于一个模型信息,对规定数量的连续的单位时间的似然度都比规定值大。
由此,根据有关本发明的一实施方式的摄像装置,通过仅将有关来自环境的声音的特征中的瞬间性的特征排除,在许多情况下能够适当地进行摄影场景的确定。
(g)此外,也可以是,上述摄像装置还具备修正单元,该修正单元存储用于将上述各模型信息和用于对上述摄影机构的控制用的设定值进行修正的处理建立对应的信息,确定表示对上述各模型信息和表示上述声音数据的特征的特征量这两者的矢量的一致程度的似然度变为比规定值大时的模型信息,执行与该确定的模型信息对应的处理。
由此,根据有关本发明的一实施方式的摄像装置,通过与各模型信息表示的特定的特征关联而修正设定值,能够实现更适当的摄影机构的控制。
(h)此外,也可以是,上述各模型信息属于多个组的某1个;上述场景确定单元将各模型信息与系数建立对应来存储,上述场景确定单元对于各组,计算基于对属于该组的各模型信息的似然度及系数的组似然度,根据各组似然度,进行摄影场景的上述确定。
由此,根据有关本发明的一实施方式的摄像装置,以预先适当地设定系数为前提,能够更适当地进行摄影机构的控制。
(i)此外,也可以是,上述摄像装置具备受理用户的操作的操作受理单元;上述场景确定单元参照上述各模型信息,根据由上述提取部提取的环境声音特征量选出摄影场景的多个候选,并根据所选出的候选和由上述操作受理单元受理的用户的操作,确定候选中的1个作为摄影场景。
由此,根据有关本发明的一实施方式的摄像装置,由于能够适当地锁定摄影场景的候选,所以用户能够通过简单的操作选择摄影场景。
(j)此外,也可以是,上述摄影机构具备通过摄影而生成图像数据的图像数据生成单元;上述设定单元根据上述声音数据及上述图像数据,进 行用于在该图像数据的摄影后使用的上述摄影机构的控制用的设定值的上述选择。
由此,根据有关本发明的一实施方式的摄像装置,不仅基于声音,还基于图像进行设定值的选择,所以能够进行更适合于摄影的环境的控制。
(27)有关本发明的摄影机构相当于在数字照相机等的一般的摄像装置中已知的摄影机构,例如也可以包括具有有关实施方式的摄影透镜1、CCD或CMOS等的摄像元件的图像数据生成部140、控制摄影透镜1的驱动的装置、快门、控制快门的驱动的控制装置、控制摄像元件的灵敏度的装置、或实施对摄影出的图像数据的处理的图像处理部。
此外,有关本发明的声音取得单元相当于有关实施方式的声音取得部110,有关本发明的设定单元相当于有关实施方式的设定部120,有关本发明的场景确定单元相当于有关实施方式的场景确定部,有关本发明的修正单元相当于有关实施方式的声音确定部220及图像处理部230,有关本发明的操作受理部相当于有关实施方式的操作面板8,有关本发明的图像数据生成单元相当于有关实施方式的图像数据生成部140。
工业实用性
本发明能够用于DSC等的摄像装置的摄影机构的控制。
符号说明
1摄影透镜
2闪光灯发光机
3传感器
4释放按钮
5扬声器及麦克风
6显示器
7转盘按钮
8操作面板
100、200、300数字照相机
110声音取得部
120设定部
130、210、310场景确定部
131特征量提取部
132变化量计算部
133基准存储部
134种类判断部
135可靠度计算部
136、211、311状况判断部
137摄影场景判断部
140图像数据生成部
141、230图像处理部
220声音确定部
320分类信息存储部
330分类信息生成部