具体实施方式
以下,参照附图说明本发明实施方式。
实施方式的追踪对象选择装置是对追踪对象(追踪对象103xm:图22)进行选择的追踪对象选择装置(追踪对象选择装置1、摄像机),具备:物体检测部(物体检测部301:图3、图22等),从输入图像(例如图像9Ia等(图22、图24),在摄像机中摄像到的第二输入图像)检测规定的物体(被摄体301x);追踪部(追踪部302),对所述物体检测部检测出的所述物体(被摄体301x)进行追踪,计算所追踪的该物体所处的追踪物体候补区域((图像9Ia中包含的之前的影像93的)区域301xR);合成部(合成部306),在输入图像(图像9Ib(图22、图24等)、第一输入图像)中的固定位置(位置92P:图22、图12、图13等),对所述追踪部计算出的所述追踪物体候补区域(区域301xR)的图像(之前的影像93(图22、图24等)、影像92(图22、图12、图13等))进行合成;显示部(显示部307),显示由所述合成部在所述固定位置(位置92P)将所述图像(影像92(影像93))合成后的、包含有合成的该图像(影像92)的所述输入图像(图像9C(图22、图24、图12、图13等));以及选择部(选择部308),在使用者(使用者1U:图22)对由所述显示部显示的合成后的所述输入图像(图像9C)中在所述固定位置(位置92P)的显示的合成后的所述图像(影像92(影像93))进行了操作(操作104L2(图22、图13等)、触摸的操作等)的情况下,将在(多个物体(被摄体A~C等)之中)被进行了所述操作的所述图像(影像93)中检测出的所述物体(被摄体301x:例如图12、图13的被摄体B),选择为预先确定的处理(AF处理等)中的在追踪的所述追踪对象(追踪对象103xm:图22)。
并且,本追踪对象选择装置具备:特征提取部(特征提取部303),从所述追踪部正在追踪的所述对象物体候补区域(区域301xR)的所述图像(影像93)中提取规定的特征(坐标904(图9)等);判定部(判定部304),根据由所述特征提取部提取的所述特征(坐标904等),计算对象物体(影像93、被摄体301x)的规定的状态(角度3D1b(图11)、方向103x1、103x2等),判定计算出的所述状态是否是预先确定的状态(例如0度(附近)、方向103x2(图12)等);以及存储部(存储部305),在所述判定部判定为计算出的所述对象物体候补区域(区域301xR、区域301xR的影像93)的所述状态(角度3D1b(图11)等)是所述预先确定的状态(0度、方向013x2等)的情况下,对被做出该判定的所述追踪对象候补区域(区域301xR、区域301xR的影像93)进行存储(作为用于合成的(区域、影像))。
另外,例如对区域进行存储是指,对该区域的影像进行存储。此外,也可以是显示部(显示部307)控制该显示部的显示。也就是说,例如可以构成为通过显示部的一部分或全部构成进行该控制的显示控制部。
也就是说,也可以是,该追踪对象选择装置是摄像机(参照图1等),具备对被摄体(例如图25的被摄体B)的、一个影像(一个影像91)进行摄像的摄像元件(摄像元件103:图1),所述显示部(显示部307)与所摄像到的所述一个影像(一个影像91)一起显示该一个影像(一个影像91)的被摄体(被摄体B)的另一个影像(另一个影像92:图25等),所述选择部(选择部308)在对所显示的所述另一个影像(另一个影像92)进行了操作(操作92L:图25等)的情况下,将所摄像到的所述一个影像(一个影像91)的所述被摄体(被摄体B)选择为预先确定的处理(AF的处理等)中的在追踪的追踪对象(追踪对象103xm:图22)。
由此,由触摸等操作而选择的被摄体(被摄体B)的影像(一个影像91)是通过摄像机(摄像元件103)摄像到的影像,可能会是各种影像(参照图2、图26~图28等),而即便无法预测(多数情况下很难预测出)是什么样的影像的情况下,也能够进行正确的动作。
也就是说,作为被摄体(图25的被摄体B)的影像,与所摄像到的一个影像91一起还显示有不同于该一个影像91的另一个影像92,通过对所显示的该另一个影像92进行操作92L,来选择被摄体(被摄体B)。由此,不管所摄像到的一个影像91是什么样的影像(参照图2、图26~图28等),都能够通过对另一个影像92的操作来充分且简单地进行选择的操作。
而且,例如在多个时刻(图26的上部分的第一时刻、下部分的第二时刻)中的第二时刻(下部分的时刻)显示的合成后的所述图像(图26中的另一个影像921N(921))的位置(位置921PN),是与在第一时刻(上部分的时刻)的该另一个影像(另一个影像921M(921))的位置(位置921PM)相同的位置(共通的位置921P),而不是不同的位置(与上部分的位置921PM不同的其他位置(省略标记))。
也就是说,例如这样使另一个影像92P的位置92P在多个时刻(第一时刻、第二时刻)之间不移动(变化),而是静止,也就是说,固定在共通的位置92P(固定位置)。
另外,这样的多个时刻例如是第一影像911(图26上部分、下部分)的位置从第一时刻的位置911PM向第二时刻的位置911PN移动(变化)时的第一时刻和第二时刻等。
由此,在使用者对另一个影像92进行操作时,不需要从例如图26的位置911PM(上部分)和911PN(下部分)、或者图2的位置91a1P和91a2P等那样的互相不同的位置中确定应操作的位置。也就是说,只要与在第一时刻在位置921PM进行的操作同样地,在第二时刻也在与第一时刻的位置921PM相同的位置921PN(共通的位置921P)进行操作即可。因此,不需要使用者从多个位置中确定出位置,能够更足够简单地进行操作。
而且,尽管第二时刻(下部分)时的一个影像911N(911)的位置911PN不同于第一时刻(上部分)时的位置911PM,第二时刻(下部分)时的另一个影像921P的位置921PN也是与第一时刻(上部分)的位置921PM相同的位置(位置921P、右下角的地方),而不是其他位置。因此,尽管一个影像911的位置发生变化,与另一个影像921在第一时刻(上部分)的位置921PM为适当的位置(右下角的位置)同样地,第二时刻(下部分)的位置921PN也维持在适当的位置(右下角的位置),能够在适当的位置(例如右下角的位置)可靠地显示另一个影像921。
这样,根据本装置,能够简单地进行操作,并且能使简单的程度为更加足够简单,并且,能够可靠且适当地显示合成后的图像(另一个影像92(921))的位置,能够兼得各种效果。
(实施方式1)
在本实施方式1中,公开一种追踪对象选择装置(追踪对象选择装置1a)。
图1是追踪对象选择装置的框图。
图3是本实施方式1中的对象追踪选择装置的功能框图。
利用图1说明本方式的追踪对象选择装置的结构。
在图1中,CPU(中央运算处理装置)101执行在ROM(只读存储器:Read Only Memory)102中保存的、用于遵循图4、图5(后述)所示的流程图进行处理的图像处理程序(例如计算机程序1P),经由总线110控制图3所示的各要素。
另外,例如RAM(随机存取存储器)105和外部存储装置106中,除了用于图3所示的存储部305的区域之外,还确保有CPU101为进行该处理所需的一次存储区域。
另外,图3所示的各处理部的处理例如通过CPU101执行保存在ROM102中的图像处理程序来进行。
本装置具有物体检测部301、追踪部302、特征提取部303、判定部304、存储部305、合成部306、显示部307以及选择部308。
另外,将在后面描述各部的动作的详细情况。
图4是本发明的追踪对象候补的显示方法的流程图。
图4所示的追踪对象候补的显示方法通过图1的装置来实现。另外,在本实施方式中,将对象物体设为人物的脸部(参照图7、图8等)并且将规定的状态设为脸部朝向(参照图8的(A)栏、(B)栏、图2的影像91c等)来进行说明。
在步骤S401中,在本装置中,物体检测部301从自摄像元件103输入的图像分别检测人物的脸部的位置和大小。
在步骤S402中,将物体检测部301检测出的人物的脸部作为固有的物体,进行物体追踪(追踪部302)。
在步骤S403中,提取用于计算所追踪的脸部的脸部朝向的特征(特征提取部303)。
在步骤S404中,根据步骤S403中提取出的特征,推测脸部朝向(例如通过特征提取部303进行)。
在步骤S405中,判定步骤S404中推测出的脸部朝向是否是与规定的状态(例如正面朝向的脸部)之间的误差小于过去的推测误差的朝向(判定部304)。
在步骤S406中,当在步骤S405中判定为是比过去的推测误差小的情况下(S405:是),在存储部305中更新为被判定为更小的推测误差。
在步骤S407中,与步骤S406中的处理同样地,将步骤S401检测出的脸部图像与赋予给该脸部图像的(与该脸部图像建立了对应的)固有的标签一起,更新存储于存储部305(参照数据3D(图3))。
在步骤S408中,对步骤S407中所存储的脸部图像,以显示在固定位置(参照图12、图13的位置92P等)的方式由合成部306进行合成,并将合成后的固定位置的脸部图像显示于显示部307。
物体检测部301从自摄像元件103输入的图像(输入图像)检测使用者想要追踪的人物的脸部的候补。
另外,作为详细的检测算法,例如使用日本特开2006-350645等所公开的Ada Boost算法,例如构成按照每个脸部朝向分别检测专用的脸部朝向的识别器,来实现适当的处理(参照后述的说明)。
另外,物体检测方法不限于该算法。
另外,在非专利文献PRMU107(206)PP211-224中,描述了也能够对一般物体进行检测的情况。也就是说,本技术不限于将对象物体限定为人物的脸部的情况,而能够在将对象物体的范围扩大为一般物体的范围内适用本技术。
追踪部302也可以进行适于在物体检测部301例如构成为一个系统LSI(Large Scale Integration)而能够进行实时处理(例如每1秒进行30次以上的处理)等的情况下的、下述的处理。也就是说,被检测出了一次的物体,在下一帧在前帧被检测出的位置附近被检测出的可能性应该会很高。也就是说,如上所述,在能够进行实时处理的状况等时,在追踪部302中,利于这样的检测位置的连续性,来实现利用该连续性的追踪部。
图6是追踪部的流程图。
在步骤S601中,判定在检测出的物体的位置的附近在1帧前是否存在有物体。
在步骤S602中,当在步骤S601中判定为在1帧前的位置的附近存在有检测出的物体的情况下(S601:是),更新检测出的物体(与1帧前存在附近的物体相同的物体)的检测坐标的履历。
在步骤S603中,当在步骤S601中判定为在1帧前的附近不存在检测出的物体的情况下(S601:否),对检测出的物体赋予与对目前为止检测出的物体赋予的各标签不同的、固有的标签(新标签)。
在步骤S604中,将新检测出的物体检测坐标新追加至检测坐标的履历。
另外,此处的说明中,描述了利用位置的连续性的追踪方法,但是所使用的方法也可以是利用色的物体追踪方法、利用脸部比对的物体追踪方法,也可以是其他方法。
图7示出了追踪的结果。
通过图7示出了从前帧701(图7的上部分)检测出的物体的位置(位置702a、703a)向在后帧704(下部分)检测出的物体的位置(位置705a、706a)变化这样、检测出的位置发生了变化的情况。
并且,在该情况下,(从图7的上部分的时刻起)已经存在并被赋予了固有的标签的A(702)、B(703),在后帧704(下部分的时刻)进行如下的处理。也就是说,所进行的处理是如下的处理:各个物体(前帧701的、位置702a的物体、位置703a的物体)的位置即使变成了新的位置(下部分的位置705a、位置706a),也通过与上部分的时刻的、该物体的标签相同的标签、即没有变化的标签对该物体赋予标签的处理。由此,如图所示,对位置705a赋予A(705),对位置706a赋予B(706)。另一方面,新检测出的物体(707)新被赋予标签C(新标签)。
在特征提取部303的本说明中,利用人物的脸部朝向进行说明。
图8是用于说明本发明实施方式1中的特征提取部中的物体朝向的计算的处理。
例如,作为提取的特征(属性、性质),有左右眼的位置(例如图8的(A)栏中的、两眼的坐标801、802)、脸部中心坐标(例如坐标803)、鼻子位置坐标(例如坐标804)、脸部尺寸(图8的尺寸)这五点。
另外,在双眼的检测中,能够通过与人物脸部的检测的算法相同的算法进行检测。另外,该检测中使用的方法例如也可以是基于边缘的角部检测算法,也可以是其他方法等。
图9是用于说明本发明实施方式1中的脸部中心坐标的计算的处理的图。
脸部检测器(脸部检测器303a)由多个脸部朝向检测器(检测器303a1~303a3等)构成,在脸部所存在的一个地方,这些各种脸部朝向的多个检测器(检测器303a1等)之中的每个检测器输出位置和尺寸变化了而相互不同的多个候补框(参照检测器303a1输出的三个(多个)框901、检测器303a2输出的三个框902、检测器303a3输出的三个框903等)。
并且,分别计算所输出的多个候补框的中心坐标的平均值、尺寸的平均值,对在这些多个计算中得到的多个信息进行统合后作为结果得到的中心坐标,成为脸部中心坐标(坐标904)。另外,也就是说可以是,通过这样利用这些例如检测器303a1输出的多个框901、检测器303a2输出的多个框90、检测器303a3输出的多个框903中的所有框,能够相对高精度地计算脸部的中心的坐标904。
图10是用于说明本发明实施方式1中的鼻子位置坐标(参照坐标1004)的计算的处理图。
与脸部中心坐标的处理(上述的图9等)同样地,多个脸部朝向检测器(例如检测器303b1~303b3等)分别输出位置·尺寸变化了的多个候补框(参照图9)。
并且,对该输出的候补框进行与输出该候补框的检测器对应的处理。也就是说,对各个候补框附加一定量的、与输出该候补框的检测器对应的偏置。另外,例如赋予的偏置是利用脸部尺寸进行了标准化的偏置。由此,将候补框的中心坐标校正为鼻子位置(参照图10中的補正后的框1001~1003)。
并且,分别计算被赋予了偏置量的候补框(補正后的框1001~1003)的中心坐标的平均值、尺寸的平均值,对各计算中得到的信息进行统合后的结果的中心坐标,成为鼻子位置坐标(坐标1004)。
另外,在该例子中,在鼻子位置坐标的计算中,利用各脸部检测器的输出结果进行了计算,但是,也可以通过与人物脸部的检测相同的算法来进行检测,也可以使用其他算法进行位置的检测。
在判定部304的说明中,使用人物的脸部朝向判定的例子进行说明。
如上述所示,在进行下述处理之前,已经通过特征提取部303得到了左右眼睛位置坐标、脸部中心坐标、鼻子位置坐标、和脸部尺寸。
因此,首先,计算脸部中心位置(例如图9的坐标904等)、鼻子位置(图10的坐标1004等)的各自的位置的X成分(参照下述的数式1中的Facex和Nosex)的、利用脸部尺寸(Face Size,参照下述的数式1的分母)标准化后的标准化差分量(Fn,参照数式1的左边)。
[数式1]
(数式1)
此外,同样地计算脸部中心位置(参照下述的数式2中的Facex)、左右眼(参照下述的数式2中的LEyex和LEyey、图8)的中心点(参照图8的坐标805a)的X成分的、利用脸部尺寸(Face Size,参照下述的数式2的分母)标准化后的标准化差分量(Fe,参照数式2的左边)。
[数式2]
(数式2)
根据分别计算出的标准化差分量(Fn,、Fe、数式1和数式2),从查找表格(参照数式3、4中的LUTn、LUTe)表格提取出与该差分量相当(对应)的、脸部朝向的角度(参照下述的数式3、4中的Dirn,Dire),来作为脸部朝向角度(Dirn,Dire)。
[数式3]
Dirn=LUTn[Fn]
(数式3)
[数式4]
Dire=LUTe[Fe]
(数式4)
并且,作为最终的脸部朝向角度,如下述的[式5](数式5)所示,对利用上述的数式3、4分别计算出的脸部朝向(Dirn、Dire)施加权重(Wn,We),计算相加后的值(Dir)。
[数式5]
Dir=Dirn×Wn+Dire×We(数式5)
另外,在脸部朝向判定中,优选取得更多的脸部特征点,也就是说,例如也可以采用根据几何学的位置关系来更高精度地计算脸部朝向的算法等。
并且,判定计算出的脸部朝向角度是否是规定的朝向。在此,例如为了便于说明,以正面的脸部朝向(参照图12的方向103x2等)来说明规定的朝向面的脸部朝向。
并且,在计算出的脸部朝向角度为-10度~10度(0度的预先确定的附近的角度)的情况下,判定为正面朝向的脸部,在存储部305中,与被判定为正面朝向的脸部的图像一起,存储脸部朝向角度的计算值、被赋予的标签(参照图3的数据3D)。
并且,在下一帧之后的处理中,在同一追踪对象的脸部朝向计算值是与所存储的计算值(脸部朝向计算值)比较时为更朝向正面的脸部的计算值(脸部朝向计算值)的情况下,进行接下来的处理。也就是说,该处理是将存储于存储部的、正面朝向的图像和脸部朝向角度的计算值,分别更新为上述的、被计算为同一追踪对象的脸部朝向计算值的图像及其脸部朝向计算值的处理。
图11是用于说明本发明实施方式1中的存储部的图。
如上述所说明的那样,通过进行适当的处理,在存储部中如图11所示那样分别存储正在追踪的物体(脸部)的、正面朝向的图像(图像3D1a~3D3a)、脸部朝向的计算值(值(分数)3D1b~3D3b)以及被赋予的标签(标签3D1c~3D3c)。另外,标签(标签3D1c等)例如是从多个被摄体(被摄体A~C)中确定出被赋予该标签的图像(例如图像3D1a)的被摄体(被摄体A)的信息等。
合成部306对存储于存储部的追踪物体的图像的尺寸进行标准化,将标准化后的追踪物体的图像合成为输入图像。也就是说,例如也可以是,根据所存储的图像,生成具有预先确定的尺寸且尺寸被标准化(变更)成该预先确定的尺寸的图像,将所生成的图像合成为上述输入图像(的一部分)。
另外,优选进行合成的场所是不会给撮影场景图像带来妨碍的场所,例如,可以在画面的下部或上部等四角进行合成(参照图12中的进行合成的右下角的场所等)。
此外,通常情况下也可以不进行标准化后的图像的合成等而不显示标准化后的图像,只显示合成前的原来的输入图像。并且,仅在由使用者的操作进行了进行标准化后的图像的显示的指示的情况下,才在任意的场所(右下角的场所等)进行图像(标准化后的图像)的合成,生成包含有原来的输入图像和标准化后的图像这两者的、合成后的图像,并进行显示。也就是说,可以仅在进行了该指示的情况下显示该图像(标准化后的图像)。
此外,也可以在输入图像中的、正在追踪的物体的位置(例如图12中的影像91的位置)的附近将被赋予的与该物体对应的标签(参照图12中的影像91的附近所示的“B”文字)也合成。由此,能够(相对简单地)建立所要选择的对象物体(被摄体的、标准化后合成的图像(参照影像92))、与实际的输入图像上的位置(输入图像中该被摄体被摄像的位置(影像91的位置))之间的对应,便于使用者理解。
图12是用于说明本发明实施方式1中的显示部的图。
通过合成部306使显示部307显示输入图像和存储于存储部的图像。图12示出了将所存储的图像和输入图像合成,显示由合成而生成的图像9C的例子。
图5是表示本发明实施方式1中的追踪对象选择装置的功能结构的追踪对象选择处理的流程图。
接着,利用图5的流程图来说明追踪对象候补的选择方法。
在步骤S501中,将存储于存储部的追踪对象候补的图像显示在固定位置。另外,例如也可以是,在第一时刻(例如图26的上部分的时刻)进行显示(S501a),并且在与第一时刻进行显示的位置(例如位置921PM)相同的位置(位置921PN)进行第二时刻的显示,由此进行在固定位置的显示。
在步骤S502中,通过使用者的操作(对合成后显示的上述图像(图12的影像92)的触摸等),使用者(使装置1)在固定位置选择要追踪的对象。也就是说,例如也可以是,对象(例如图12的被摄体B),通过对该对象的、合成后的影像(例如图12的影像92b)被显示的固定位置(位置92bP)的操作(触摸等)而被选择。
图13是用于说明本发明实施方式1中的选择处理的图。
如图13所示,使用者能够从各个脸部图像为位于固定位置(位置92P等)且面向正面的脸部图像(影像92)的多个脸部图像(被摄体A~C的三个脸部图像)之中,触摸要追踪的对象的脸部图像来对该脸部图像的对象(被摄体,例如被摄体B)进行选择,而不会进行错误的对象选择。
另外,在选择对象之后,仅对所选择的对象显示追踪框(参照图13中的对被摄体B的影像91赋予的粗线91x的框),进行AE/AF的控制。此外,也可以是,在对象选择之后,不对存储于存储部的图像进行合成,不进行影像92等的合成,而进行画面104R中的显示。
图14是用于说明本发明实施方式1中的其他例子的图。
在实施方式1中,以人物的脸部为例进行了说明,但也可以如图14所示那样构成为人物以外的一般物体、例如汽车这样的方式。
此外,也可以是,在特征提取部作为特征提取基于笑脸判定的脸部图像的、边缘或频率成分。并且,也可以是,在判定部,根据所提取的特征判定笑脸度并存储于存储部,也可以作为静态照片输出该场景。也就是说,例如也可以是,输出多个脸部图像之中根据从其脸部图像提取的特征而确定出的笑脸度相对高的脸部图像,将所输出的脸部图像的场景的影像作为合成后的影像(参照影像92)输出。
(实施方式2)
图15是本实施方式2中的利用了文字信息的追踪对象选择装置(装置1b)的功能框图。
本装置具有物体检测部1501、追踪部1502、特征提取部1503、文字识别部1504、存储部1505、合成部1506、显示部1507、以及选择部1508。
将在后面描述各部分的动作。
图16是表示本发明实施方式2中的追踪对象选择装置的功能结构(处理结构)的到显示处理为止的流程图。
与实施方式1的情况之间多处相同,因此,对文字识别部的处理之后的部分(S1604之后的部分)特别详细地说明。
在步骤S1604中,从正在追踪的对象物体候补图像提取文字识别所需的特征(特征提取部1503)。
在步骤S1605中,判定正在追踪的对象物体候补是否已经能够被文字识别。
在步骤S1606中,如果还不能够被文字识别,则根据提取出的特征进行文字识别(文字识别部1504)。
在步骤S1607中,判定文字识别是否成功。
在步骤S1608中,如果文字识别失败(S1607:否),则存储追踪物体的图像。
在步骤S1609中,如果文字识别成功(S1607:是),则存储识别出的文字(存储部1505)。
在步骤S1610中,将存储在存储部中的追踪对象候补图像或文字合成为输入图像,并显示在固定的位置(固定位置)。
文字识别部1504识别追踪对象物体所持有的固有的文字信息。例如,识别的文字信息是汽车的车牌信息这样的文字信息。
存储部1505中,存储有追踪对象的图像和识别出的文字信息这两者(参照图3的数据3D)。
在合成部1506中,对输入图像合成追踪对象候补图像或文字信息,或者这两者(参照后述的图17等),并使显示部1507显示合成后的图像(输入图像)。
图17是用于说明本发明实施方式2中的显示的例子的图。
例如也可以是,进行图17所示那样的显示。
(实施方式3)
图18是本实施方式3中的利用了文字信息的对象追踪选择装置(装置1c)的功能框图。
本装置具有物体检测部1801、追踪部1802、特征提取部1803、相似度计算部1804、存储部1805、合成部1806、显示部1807、选择部1808、以及登录DB1809(DB:data base)。
图19是表示本发明实施方式3中的追踪对象选择装置的功能结构(处理结构)的到显示处理为止的流程图。
与实施方式1的情况之间多处相同,因此对判定部之后的部分(S1905之后的部分)特别详细地进行说明。
在步骤S1905中,进行从正在追踪的对象物体候补图像提取出的特征(特征1803a:图18)与预先登录在登录DB中的特征(特征1809a)之间的匹配,计算(该特征之间的)相似度(相似度1804a:图18)。
在步骤S1906中,将S1905中计算出的相似度(相似度1804a)与过去的相似度(参照数据3DW(图18))进行比较,进行判定。
在步骤S1907中,当在步骤S1905中计算出的相似度是比过去的相似度(数据3DW的相似度)的高的值的情况下(S1906:是),进行相似度的更新。
在步骤S1908中,在是比过去的相似度高的值的情况下(S1906:是),对追踪物体进行更新存储。
在步骤S1909中,判定在步骤S1905中计算出的相似度是否高于某个阈值。
在步骤S1910中,如果是高于某个阈值的相似度(S1909:是),则将登录DB所附带的附加信息也存储于存储部。
在步骤S1911中,将存储于存储部的追踪对象候补图像和附加信息分别合成为输入图像(参照图17的影像92e),并将它们显示在输入图像的固定位置。
登录DB1809是预先登录有特定的人物的脸部图像和附加信息(人物名等)的数据库。
在相似度计算部1804中,进行特征提取部1803提取出的特征(特征1803a:图18)与预先登录的登录DB1809中的特征(特征1809a)之间的匹配。如果作为匹配结果的相似度(相似度1804a)是比以前的相似度(数据3DW的相似度)高的相似度(图19的S1906:是),则向存储部更新存储相似度和追踪物体图像。进而,在相似度超过阈值的情况下(S1909:是),将登录DB所附带的附加信息也存储于存储部。
在合成部1806,在存在附加信息的情况下,将该附加信息也相对于输入图像(先述)进行合成,并与追踪对象图像一起显示于显示部。
图20是用于说明本发明实施方式3中的显示的例子的图。
图20示出了显示例。
另外,基于上述实施方式说明了本发明,但是本发明不限于上述实施方式。以下所述的情况也包含在本发明中。
上述的对象物体选择装置具体地是包括中央运算处理装置(CPU:Central Processing Unit)、ROM(Read Only Memory)、RAM(Random AccessMemory)等的计算机系统。并且,所述RAM中存储有计算机程序。所述CPU通过所述计算机程序进行动作,从而使各装置实现其功能。在此,计算机程序为了实现规定的功能而组合了多个表示对计算机的指令的命令代码而构成。
构成上述各装置的结构要素的一部分或全部可以由一个系统LSI(Large Scale Integration:大规模集成电路)构成。系统LSI是将多个结构部集成在一个芯片上而制造成的超多功能LSI,具体而言,包含微处理器、ROM、RAM等而构成的计算机系统。所述RAM中存储有计算机程序。所述微处理器按照所述计算机程序进行动作,从而使系统LSI实现其功能。
构成上述各装置的结构要素的一部分或全部也可以由能够相对各装置拆装的、IC卡(IC:Integrated Circuit)或单体的模块构成。所述IC卡或所述模块是由微处理器、ROM、RAM等构成的计算机系统。所述IC卡或所述模块也可以包含有上述的超多功能LSI。微处理器按照计算机程序进行动作,从而使所述IC卡或所述模块实现其功能。该IC卡或该模块具有耐篡改性。
本发明也可以是上述的方法。此外,也可以是通过计算机实现该方法的计算机程序,还可以是由所述计算机程序构成的数字信号。
此外,本发明也可以是将所述计算机程序或所述数字信号记录在计算机可读取的记录介质、例如、软盘、硬盘、CD-ROM(Compact Disc-ROM)、MO(Magneto-Optical disk(disc))、DVD(Digital Versatile Disc)、DVD-ROM、DVD-RAM、BD(Blu-ray Disc)、半导体存储器等中。此外,也可以是记录在这些记录介质中的所述数字信号。
此外,本发明也可以是经由以电气通信回路、无线或有线通信回路、因特网为代表的网络、数据广播等来传播登录数据、所述计算机程序或所述数字信号的方法。
此外,本发明也可以是具备微处理器和存储器的计算机系统,所述存储器存储上述计算机程序,所述微处理器按照所述计算机程序进行动作。
此外,也可以是,通过将所述程序或所述数字信号记录在所述记录介质中来进行移送,或者通过将所述程序或所述数字信号经由所述网络等进行移送,从而由独立的其他的计算机系统来实施本发明。
这样,也就是说,在使用者选择追踪对象时,在追随对象正在运动的情况下(参照图2的(A)栏)或视觉识别性较差的情况下((B)栏),也能够容易地选择追踪对象。也就是说,具有:物体检测部,从输入图像中检测规定的物体;追踪部,将所述检测出的物体(确定)作为(即使时刻不同也相互)相同的物体,进行追踪;特征提取部,从正在进行追踪(追随)的所述物体提取特征;判定部,根据提取出的所述特征计算检测物体的状态(例如脸部的方向等),进行是否存储检测物体的判定;存储部,对表示所述判定部判定为要存储的物体的状态的分数、和正在追踪的物体的图像(该分数的状态下(脸部的方向)的图像)进行存储;显示部,对输入图像在固定位置合成在所述存储部存储的、物体的图像(上述分数的状态下的图像),并对合成后的上述输入图像进行显示;以及选择部,将在所述显示部的固定位置显示的检测物体,选择为预先确定的处理(例如AF的处理)的追踪中的追踪对象。
另外,被摄体也可以是猫、狗等宠物。并且,在上述的固定位置(图12的位置92P等)合成而被显示的图像(例如图12中的另一个影像92)是显示宠物的毛发(颜色、图案、毛发的纹理(texture)等)的图像。
另外,在进行了图14的处理时等情况下,例如可以监视正道路103R上行驶的汽车(被摄体103x)。
另外,这样也可以如图26所示,与被摄体(例如图26的被摄体B)的、被摄像的第一影像(一个影像91)一起,显示该被摄体的被进行触摸等操作的第二影像(另一个影像92)。
并且,如图12的方向92bd、方向92md所示,例如也可以是,使得一个被摄体(例如图12的被摄体B)的第二影像(另一个影像92b)的被摄体(被摄体B)的方向(方向92bd)与另一个被摄体(例如被摄体C)的第二影像(另一个影像92m)中的被摄体(被摄体C)的方向(方向92md)相同。
即,显示在固定位置的对象物也可以不面向相同方向(朝向)。
也就是说,也可以是,图12中的被摄体B的另一个影像92b中的方向92bd是与被摄体C的另一个影像92m中的方向92md相同的方向。如这些方向92bd和方向92md所示,例如也可以使显示在固定位置的对象物面向相同方向。
另一方面,没有必要如该图12的例子所示那样面向相同方向(参照方向92bd和方向92md),为了方便说明而省略详细的说明(图示等),也可以是面向不同方向。
另外,关于该点,图14中的方向92dd和方向92nd也一样。
另外,例如也可以是,图14所示的汽车A~C(图14上部的三个被摄体103x)的三个第一影像(一个影像91)分别是摄像元件103所摄像到的道路103R的图像9Ib(图14)的一部分。也就是说,也可以是通过摄像到图像9Ib,来摄像多个第一影像(多个一个影像91(图14)),该多个第一影像的每一个是摄像到的图像9Ib中的一部分,是在该图像91b中包含在该一部分中的影像。
这样,例如可以是,所述判定部计算表示所述状态(被拍摄的被摄体的方向等)的分数(角度3D1b(图11)等),所述存储部与所述追踪物体候补区域的所述图像(图像3D1a(图11))一起将计算出的该图像的所述状态的所述分数(角度3D1b等)存储。
此外,所述判定部将计算出的表示所述状态的分数(角度3Dxb(图11))与预先存储于所述存储部的分数(角度3D1b)进行比较,判定是否在所述存储部中更新为计算出的所述分数(角度3Dxb)、和计算出的所述分数(角度3Dxb)所示的所述状态的所述图像(图像3Dxa),在所述判定部判定为进行更新的情况下,将预先存储于所述存储部的所述分数(角度3D1b)、和与预先存储的该分数(角度3D1b)对应地存储的图像(图像3D1a),分别更新为计算出的所述分数(角度3Dxb)、和计算出的该分数(角度3Dxb)的所述图像(图像3Dxa)。
此外,也可以是,所述特征提取部提取表示所述追踪物体候补区域的所述图像(影像93:图22等)所呈现的朝向(图12的朝向103x1、朝向103x2等中的一个)的特征量(坐标904(图9)等),所述判定部基于提取出的所述特征量,判定由该特征量表示出的所述朝向(朝向103x1、朝向103x2等中的一个)是否是规定的朝向(例如方向103d(图12)的朝向),在判定为是所述规定的朝向的情况下,将提取出了表示所判定的所述朝向的所述特征量的所述追踪物体候补区域(图像3Dxa(图11)、图像3Dxa存在过的图22的区域301xR等)存储于所述存储部。
另外,例如对区域进行存储是指对该区域的影像进行存储。
此外,所述追踪物体候补区域(区域301xR:图22)是人物的脸部(脸部8F:图8)的区域,所述特征提取部作为所述特征量提取脸部中心坐标(例如坐标807:图8)、鼻子位置坐标(坐标808)、眼睛位置坐标(坐标805、806)、脸部尺寸(Size),所述判定部根据所述脸部中心坐标(坐标807)与所述鼻子位置坐标(坐标808)这两个坐标间之差、以及所述脸部中心坐标(坐标807)与两个所述眼睛位置坐标(坐标805、806)的中心坐标(坐标805a)这两个坐标间之差的两个所述差(未赋予附图标记),进行是否是所述规定的朝向(图12的方向103D的朝向)的判定(如上所述)。
此外,也可以是,所述特征提取部提取表示所述追踪物体候补区域(区域301xR:图22)的人物的脸部表情的特征量,所述判定部基于提取出的该特征量,判定所述人物的所述脸部表情是否是笑脸的表情。
另外,是否是笑脸的表情的判定例如可以通过公知技术的处理来进行。
此外,也可以是,所述特征提取部从所述追踪物体候补区域(区域301xR)的物体提取文字识别所需的特征量(例如文字边缘的位置、方向等),所述判定部判定是否基于提取出的该特征量实现了该物体中出现的文字的文字识别。
此外,也可以是,所述特征提取部从所述追踪物体候补区域(区域301xR)的物体提取物体识别所需的特征量,所述判定部进行预先登录于所述存储部的特征与提取出的该特征量所示的特征之间的匹配,进行判定。
另外,例如物体识别是指,从多个物体之中确定出与追踪物体候补区域的物体相同的物体。
此外,也可以是,所述合成部除了所述追踪物体候补区域(区域301xR)的图像(图20的影像92等)之外,还将所述判定部得到的附加信息(标签(名称等)的图像92N)也对(摄像到的输入图像(如上所述那样))进行合成。
另外,例如也可以是,图26上部分的时刻的另一个影像92的显示由图5的S501a进行,并且,下部分的时刻的显示由S501b进行。
另外,例如也可以是,生成由于确定作为追踪对象103xm(图22等)被选择的被摄体的选择数据308d(图22),由此将通过所生成的数据208d确定出的被摄体选择为追踪对象103xm。
并且,也可以是,所显示的所述另一个影像(图25的另一个影像92)中的所述被摄体(被摄体B)的尺寸(尺寸92S)为预先确定的阈值(阈值Th)以上的尺寸(尺寸92S),而不是比该阈值(阈值Th)小的尺寸(图2的影像91b的尺寸、图27的小尺寸912S等)。
由此,由于是阈值以上的大尺寸92S,因此,使用者能够从多个被摄体(被摄体A~C等)之中简单地确定出与该被摄体相同的被摄体(被摄体B),作为观察另一个影像92时被观看到的该另一个影像92的被摄体(例如图25中的被摄体B)。由此,例如使用者能够简单地判断对另一个影像92的操作92L是适当的等这样,能够使操作足够简单。
另外,具体而言,阈值Th例如可以是若被拍摄的被摄体的尺寸若为该尺寸以下,则不能够简单地进行而是很难进行对该尺寸的被摄体被拍摄的影像(图2的影像91b、图27的影像912)的操作这样的尺寸(例如多个这样的尺寸中最大的一个等)等。
并且,也可以是,所显示的所述另一个影像(图25的另一个影像92)中的所述被摄体的方向(图28的方向92d)是与预先确定的方向(图12的方向103d)相同的方向(方向103x2、面向摄像元件103(摄像机1)的方向),而不是不同的方向(方向103x1、图28的方向913d、图2的影像91c中的方向(朝向后方的方向、朝向左后方的方向等)。
另外,被摄体的方向是指,例如被摄体的正面等、被摄体所具有的多个面之中较多地呈现该被摄体的特征的面所朝向的方向(参照图28的方向92d、图14的方向92dd等)等。
并且,如上所述,预先确定的方向是指,例如与面向摄像元件103的方向103d(图12)相同的(近似于方向103d的方向103d附近的)方向等。
由此,使用者能够方便看到被摄体的正面的外观(的特征(参照图25的影像92、图14的影像92等)),由此,使用者能够从多个被摄体(例如图25的被摄体A~C)中简单地确定出被拍摄成另一个影像92的被摄体(被摄体B)是哪个被摄体,能够使操作足够简单。
另外,例如也可以是,图26的一个影像911例如更具体地是如下的影像,即是从位置911PM(上部分)向位置911PN(下部分)移动的、且被拍摄的被摄体的尺寸是比阈值Th(图25等)小的尺寸(参照图27的小尺寸912S)的、且被拍摄的被摄体(被摄体B)的方向是与预先确定的方向(图12的方向103d)不同方向(方向103x1、参照图26的一个影像911的朝向左后方的方向)这样的影像。
也可以在摄像这样的一个影像911时,不移动位置(参照图25、图26的位置92P)地显示具有大尺寸92S(参照图25)且具有与预先确定的方向相同方向(图12的方向103x2)的另一个影像921(图26)。
由此,在摄像这样的一个影像911时就能够简单地进行操作,能够更加可靠地使操作足够简单。
并且,也可以是,所述摄像元件在对所述一个影像(图28的一个影像91)即之后的影像(图24的一个影像(后的影像)91)进行摄像之前,摄像之前的影像(图24的之前的影像93x),该之前的影像是对与该之后的影像的所述被摄体(图28的被摄体B)相同的被摄体(被摄体B)进行拍摄而成,且被拍摄的该被摄体的方向(图24的影像93x的方向)是与所述预先确定的方向(图12的方向103d)相同方向(方向103x2);所述显示部显示通过利用所摄像的所述之前的影像(之前的影像93x)的信息(图24(图3)的信息3D)而(通过合成部306(图24、图3等))生成的与所述预先确定的方向相同方向(图12的方向103x2、图28的方向92d)的所述另一个影像(图28的另一个影像92)。
由此,仅通过摄像之前的影像93x(图24)就能够简单地用于另一个影像92显示的信息(信息3D:图24、图3等),能够简单地进行另一个影像92的显示。
另外,例如可以如上所述那样,从包含有具有方向103x2的适当的之前的影像93(之前的影像93x:图24)、和具有方向103x1的不适当的之前的影像93的多个先的影像93(参照图24)中选择适当的之前的影像93(之前的影像93x)来进行利用。
并且,也可以是,所述显示部将根据除了所述被摄体(例如图17中的汽车C)的所述一个影像(一个影像91e)和所述另一个影像(另一个影像92e)以外的、该被摄体(汽车C)的再一个影像(图17的影像93(参照图24的之前的影像93))生成的、表示用于从多个被摄体(汽车A~C)确定出该被摄体(汽车C)的文字(图17的「奈良330xx-oo 」、文字串92e2)的影像(另一个影像92e),显示为所述另一个影像(另一个影像92)。
并且,也可以是,所述合成部(合成部306)根据除了所述一个影像(一个影像91e)和所述另一个影像(另一个影像92e)以外的所述再一个影像(图17的影像93),生成将由文字识别确定出的所述文字(“奈良330xx-oo”、文字串92e2)相对于该再一个影像(影像93)进行合成而得到的影像(另一个影像92e),所述显示部将所生成的该影像(另一个影像92e)显示为所述另一个影像(另一个影像92)。
由此,使用者能够更简单地进行被摄体的确定,能够使操作足够简单。
另外,例如可以是,在被摄体为脸部8F(图8)时等情况下,显示被摄体的名称等信息的文字(文字串)。
另外,例如也可以是,设置进行上述文字识别的文字识别部1504(图15等)。并且,例如文字识别部1504如图15所示那样,例如可以是判定部304的一部分,也可以在判定部304的外部等设置。
另外,例如在某种状况等时可以摄像图23的影像9W来作为(上述)一个影像91。并且,该影像9W例如可以与图25所示的另一个影像92相同地,是不进行(规定时间期间)移动的、且具有大尺寸92S的、且被拍摄的被摄体的方向为与预先确定的方向相同方向(图12的方向103x2)的影像。
并且,不管摄像到的一个影像91是这样的影像9W还是不是这样影像9W的其他影像(参照图26的一个影像911、图27的一个影像912、图28的一个影像913等),都在摄像到一个影像91并进行显示时,显示该一个影像91(影像9W、或一个影像912等的某个)的被摄体的另一个影像92。
由此,在摄像到影像9W并进行显示时,显示另一个影像92,进行与摄像到不是影像9W的上述其他影像时的处理相同的处理,能够更简单地进行处理。
而且,进行与摄像到其他影像时的显示相同的显示,能够更明白易懂地进行显示。
由此,能够同时实现更简单的处理和更明白易懂的显示。
另外,本摄像机例如是大众用的数码摄像机等,是购入的使用者在所需时对所需的被摄体进行摄像而不能够预测出(很难预测出)摄像到什么样的被摄体的影像的摄像机等。
另外,本摄像机例如可以是,对在道路103R上行驶的汽车等偶然出现的被摄体103x进行摄像的摄像机(例如监视摄像机等)等。
此外,如图13所示,例如在进行了对另一个影像92的操作104L2时,仅在一个影像91的位置91P和另一个影像92的位置92P之中的一个影像91的位置91P(的附近)显示出表示被进行了操作104L2的显示(粗线)91X,而在另一个影像92的位置(的附近)不进行显示。
由此,显示变少,能够使显示更加明白易懂。
另外,更具体地讲,例如可以是,作为显示在固定位置的另一个影像92,对不含有被摄体的外观的图像(参照图17的图像92e1)而仅示出了文字识别所确定的文字串9X1(参照图17的影像92e的文字串92e2)的影像9X进行显示。
由此,与从多个被摄体(汽车A~汽车C)之中确定出被摄体(汽车B)的摄像到的一个影像91e一起,显示确定出该被摄体(汽车B)的(表示该被摄体的文字串「大阪550なoo-xx 」的)另一个影像9X,能够简单地进行操作。而且,通过显示在固定位置,能够使操作足够简单,能够可靠地使显示的位置适当。而且,通过进行仅基于文字串9X1的简易显示,能够进行明白易懂的显示,能够更加充分地进行适当的显示。
由此,通过对多个结构(显示部307、选择部308等)进行组合,能够获得组合的相乘效果。对此,在已知的现有例子中,不存在这些多个结构之中的全部或一部分,不会产生相乘效果。本技术在这样的结构、作用、效果方面相对于现有例子具有进步性。
另外,相互不同的多个实施方式中的多个记载等的、相互相差很远的多处的多个技术事項可以适当地进行组合。在此一并公开了组合后的方式。
另外,也可以如图26所示,被摄体B的一个影像91(一个影像911)的位置(位置911PM、位置911PN)在第一时刻(上部分)相对于其他位置(其他被摄体A所摄像到的一个影像91的位置(位置921XM)),具有预先确定的第一位置关系921JM(位于右侧的关系)。
并且也可以是,另一方面在其他第二时刻(下部分),相对于该第二时刻的该其他被摄体(被摄体A)的影像的位置(相对于位置921XN))具有第二位置关系921JN(位于左侧的关系)。
并且,也可以是,被摄体B的另一个影像92(另一个影像921)的位置(位置921P)在第一时刻和第二时刻都是相对于其他位置(被摄体A(其他被摄体)的、合成后的另一个影像92的位置(位置922X(922XM、922XN)))具有相互相同的位置关系922J(位于右侧的关系)。
由此,即使被摄体B的一个影像91所具有的位置关系从第一位置关系921JM变为第二位置关系921JN,也不需要在与位置关系922J(位于右侧的关系)不同的其他位置关系(省略图示,例如位于左侧的关系)的位置进行操作(参照下部分的位置关系922J),而进行相同的位置关系922J(向右侧)的操作即可,能够更可靠简单地进行操作。
另外,如图1所示,例如追踪对象选择装置(摄像机)1的一部分或全部是包含有CPU101(图1)等而构成的计算机1C(图1)。并且,通过该计算机1C执行计算机程序1P(图1,例如上述的图像处理程序),由此,实现上述的一个以上功能。并且,该计算机程序1P例如存储于ROM102中。
此外,也可以通过安装该计算机1C等,来构筑构成有适当的电路且安装有上述一个以上功能的集成电路1L(图1)。
另外,还可以构筑包含有一个以上工序的方法、上述程序的数据构造等。
另外,利用附图标记705表示与时刻T的标签A的物体相同物体在时刻T+α的影像。利用附图标记706表示与时刻T的标签B的物体相同的物体在时刻T+α的影像。利用附图标记707表示新检测出的物体的被赋予标签C的影像。利用附图标记901表示右75度脸部检测器所输出的脸部检测候补框。利用附图标记902表示右30度脸部检测器所输出的脸部检测候补框。利用附图标记903表示正面脸部检测器所输出的脸部检测候补框。利用附图标记1001表示对右75度脸部检测器所输出的脸部检测候补框施加了偏置的结果。利用附图标记1002表示对右30度脸部检测器所输出的脸部检测候补框施加了偏置的结果。利用附图标记1003表示对正面脸部检测器所输出的脸部检测候补框施加了偏置的结果。利用附图标记104L2表示选择位于固定位置的物体的操作。
工业实用性
本发明所涉及的追踪对象选择装置、方法及其存储介质,在数码摄像机、数码摄影机的撮影时,在各种场景的摄影中,能够容易地选择并追踪被摄体,进行AF/AE控制,由此能够简单地进行不会产生失败的撮影,
具有实用性。
附图标记说明
101CPU
102ROM
103摄像机
104显示器部
105RAM
106外部存储装置
108接口装置
301物体检测部
302追踪部
303特征提取部
304判定部
305存储部
306合成部
307显示部
308选择部
701时刻T的图像帧
702被赋予标签A的影像
703被赋予标签B的影像
704时刻T+α的图像帧
801正面朝向的右眼
802正面朝向的左眼
803正面朝向的脸部中心坐标
804正面朝向的鼻子坐标
805右朝向的右眼
806右朝向的左眼
807右朝向的脸部中心坐标
808右朝向的鼻子坐标
904脸部中心坐标
1004鼻子位置坐标
1200显示画面
1201图像合成后的图像
1302所选择的物体
9X1被识别的文字
1809登录(DB)数据库