CN102239687A

CN102239687A - 追踪对象选择装置、方法、程序及其电路

Info

Publication number: CN102239687A
Application number: CN2010800034826A
Authority: CN
Inventors: 小仓康伸; 物部祐亮
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2009-10-07
Filing date: 2010-10-05
Publication date: 2011-11-09
Anticipated expiration: 2030-10-05
Also published as: EP2355492A1; WO2011043060A1; JP5399502B2; US8432357B2; CN102239687B; EP2355492A4; JPWO2011043060A1; US20110241991A1; EP2355492B1

Abstract

构筑一种追踪对象选择装置(1a)，用于对追踪对象(103xm)进行选择，其中，具备：合成部(306)，在输入图像(9Ib)中的固定位置(92P)合成影像(93)；显示部(307)；以及选择部(308)，在对显示在所述固定位置(92P)的所述影像(92)进行了操作(104L2)的情况下，将检测出的被摄体(301x)选择为预先确定的处理的追踪中的追踪对象(103xm)。

Description

追踪对象选择装置、方法、程序及其电路

技术领域

本发明涉及在数码摄像机、数码摄影机、网络摄像机、安保摄像机等领域中用于从图像中正确地选择追踪对象物体的技术。

背景技术

近年来，以数码摄像机、数码摄影机等为代表的具有摄像功能的小型电子设备得以普及，并且这些小型电子设备的摄像功能的高功能化在不断地进步。

例如，这些摄像装置通常具备LCD等显示器，使用者能够一边利用显示器确认所记录的影像一边对被摄体进行撮影。目前，在数码摄像机、数码摄影机的领域中，还存在如下的摄像装置，即检测人物的脸部并能够对检测出的脸部进行自动对焦功能(AF(Auto Focus))或自动曝光功能(AE(Auto Exposure))等调整的处理的摄像装置，或者测定人物的笑脸度来进行快门控制的摄像装置。

但是，在检测出了多个脸部的情况下，是很难判断要对检测出的多个脸部之中哪个脸部进行控制的。因此，有时候对使用者不关注的对象进行了控制(AF处理、AE处理等)。另一方面，还存在有如下的摄像装置，该摄像装置针对使用者关注的人物预先登录好该人物的脸部图像而只检测特定的人物(所登录的脸部图像的人物)，或者对使用者所选择的人物·物体进行追踪而与该追踪相对应地进行AF/AE控制。

作为使用者选择想要追踪的人物或物体的现有技术，存在有如下的技术，即，通过使用者的手输入(例如对触摸面板上的追踪对象物体区域进行触摸等)，来指定追踪对象物体区域，提取所指定的追踪对象物体区域的色特征，对所提取的色特征等的物体等进行追踪的技术，或者，从图像中检测追踪候补目标，选择检测出的追踪候补目标，将所选择的追踪候补目标设定为追踪目标的技术(例如，参照专利文献1和专利文献2)。

图21是所述专利文献1中记载的现有技术的框图。

作为现有技术，能够列举出图21所示的处理的方法9A。

先行技术文献

专利文献

专利文献1：日本特开2004-252748号公报

专利文献2：日本特开2007-74279号公报

发明内容

发明所要解决的技术问题

然而，在所述专利文献1的方法中，追踪对象物体需要处于静止状态(或者接近于静止的状态)。

图2是说明现有技术的技术问题的图。

也就是说，例如在录像机等的动态图像的撮影环境下，多数情况下被摄体在运动。并且，在这样的撮影环境下，在进行追踪对象(AE等中进行的追踪中的追踪对象)的选择时，录像机的使用者一边观看LCD(LiquidCrystal Display)等显示器一边进行选择。并且，如图2的(A)栏所示，有时在选择了追踪对象的选择的瞬间被摄体产生了运动。也就是说，例如，有时被摄体的影像91在运动前的第一时刻显示为第一位置91a1P的第一影像91a1、而另一方面在第二时刻显示为第二位置91a2P的第二影像92a2。也就是说，如上述这样，有时影像91在第一位置91a1P与第二位置91a2P之间移动(位置发生变化)。

这样移动的结果为，对与使用者本应关注的位置偏离了的位置的物体(例如在影像91的位置为第二位置91a2的第二时刻，位于第一位置91a1P的物体(省略图示)等)进行了选择，而基于错误的选择进行追踪。

另外，这样的影像91的移动，例如也会因被拍摄为该影像91的被摄体(参照图14中的被摄体103x)在三维空间(参照道路103R)中的移动而产生。

另一方面，在数码摄像机或录像机的撮影中，多数情况下不使用三脚架而用拿着进行摄影。因此，即使在被摄体在三维空间(道路103R)中几乎静止的情况下，有时也会产生影像91的移动。也就是说，在设定对象选择时，需要进行设备的按钮操作或触摸面板的操作。因此，有时因这些操作使摄像机本体运动。并且，产生这样的摄像机本体的运动的结果是，有时会因被摄体的位置(参照被摄体103x的位置)与摄像机的位置(参照摄像元件103的位置)之间的位置关系为偏离而使影像91(图2)的位置在多个位置(位置91a1P、91a2P等)之间变化。也就是说，如上述那样，有时摄像机的运动会成为误设定的起因。

此外，在专利文献2的方法中，从目标检测出来的一个以上的候补选择追踪对象物。

但是，如图2的(B)栏所示，在追随对象的视觉识别性较差的情况下(例如在对象为脸部时，脸部较小的情况(影像91b)，面向后方(例如左后方等)的情况(影像91c)等)，有时不知道哪个是使用者想要选择为追踪对象的物体(不容易搞清楚)，很难正确地进行选择，而不能够简单地进行选择的操作。

本发明用于解决上述技术问题，其目的在于提供一种追踪对象选择装置及其方法、存储介质等，该追踪对象选择装置即使在追踪对象不处于静止状态的情况下(影像91a等)、或视觉识别性较差的情况下(影像91b、影像91c等)等，也能够简易(简单)地进行追踪对象选择的操作(触摸等)，能够简单地进行选择，而且能够(可靠)适当地进行选择。

用于解决技术问题的技术手段

为了解决上述技术问题，第一追踪对象选择装置是对追踪对象进行选择的追踪对象选择装置，具备：物体检测部，从输入图像(摄像机等摄像到的输入图像(第二输入图像))检测规定的物体(预先确定的物体，该摄像成输入图像的物体)；追踪部，对所述物体检测部检测出的所述物体进行追踪，计算被追踪的该物体所处的追踪物体候补区域；合成部，在输入图像(第一输入图像)中的固定位置，对所述追踪部计算出的所述追踪物体候补区域的图像(第一输入图像中包含的第一影像的被摄体在第二输入图像中的第二影像)进行合成；显示部，对包含有在所述合成部中在所述固定位置对所述图像进行合成后的、该合成后图像的所述输入图像(合成后的第一输入图像)进行显示；以及选择部，在使用这对所述显示部所显示的合成后的所述输入图像中的所述固定位置显示的、合成后的所述图像进行了操作(触摸的操作等)的情况下，将在被进行了所述操作的所述图像中检测出的所述物体(例如人物(的脸部)、汽车等)选择为预先确定的处理(例如AF处理等)的追踪中的所述追踪对象。

根据本结构，即使在使用者(从多个物体)选择想要追踪的物体时(使追踪对象选择装置进行选择)时对象物体(想要追踪的物体)正在运动的情况下，由于对象物体候补(进行图像合成后的图像)显示在固定位置，因此也能够正确地选择使用者所关注的对象物体。

并且，第二追踪对象选择装置具有上述的结构和作用，并且，具备：特征提取部，从所述追踪部正在追踪的所述对象物体候补区域的所述图像提取规定的特征；判定部，根据所述特征提取部提取的所述特征，计算对象物体的规定的状态(方向(参照图2的影像91c等)等)，判定计算出的所述状态是否是预先确定的状态(是否是正面朝向的方向等)；以及存储部，在所述判定部判定为计算出的所述对象物体候补区域的所述状态是所述预先确定的状态的情况下，对被做出该判定的所述追踪对象候补区域(所述追踪对象候补区域的图像)进行存储。

另外，例如对区域进行存储是指，对该区域的影像进行存储。

根据本结构，判定对象物体候补区域(该区域的图像)的状态(例如拍摄在该区域的被摄体的方向等)，并存储于存储部，所存储的对象物体候补区域(的图像)被显示于固定位置。因此，在使用者选择对象物体时，即使所摄像到的对象物体的影像(上述的第一输入图像中的第一影像)是视觉识别性较差的影像(参照图2的(B)栏等)、而使用者不能够判断出该影像的对象物体是否是使用者所关注的对象物体(很难判断)的情况下，使用者也能够正确地选择所关注的对象物体。

另外，本装置例如可以称作追踪装置，也可以称作对象选择装置，还可以称作物体选择装置等其他名字。

另外，也可以通过进行显示的显示部的一部分等来构成进行该显示的控制的显示控制部。也就是说，也可以是显示部通过该显示控制部来控制该显示部的显示。

发明效果

根据本发明的追踪对象选择装置，在图像中的对象物体正在运动的情况下(参照图2的(A)栏)、或在对象物体的影像的视觉识别性较差(因对象较小、处于不恰当的朝向等而让使用者不能够(简单地)识别出对象物体(是多个物体中的哪个)的情况下(参照(B)栏)，也能够正确地选择使用者所关注的对象物体。

即，能够通过简单地进行操作，并且，能够使简单的程度为更加足够简单，并且，能够可靠且适当地设定合成的图像(本申请中的“另一个影像”)的位置。

附图说明

图1是本发明实施方式中的追踪对象选择装置的框图。

图2是说明现有技术的技术问题的图。

图3是表示本发明实施方式1中的追踪对象选择装置的功能结构的功能框图。

图4是表示本发明实施方式1中的追踪对象选择装置的功能结构的到显示处理为止的流程图。

图5是表示本发明实施方式1中的追踪对象选择装置的功能结构的追踪对象选择处理的流程图。

图6是本发明实施方式1中的追踪部的流程图。

图7是用于说明本发明实施方式1中的追踪部的图。

图8是用于说明本发明实施方式1中的特征提取部中进行的物体的朝向计算的图。

图9是用于说明本发明实施方式1中的脸部中心坐标的计算的图。

图10是用于说明本发明实施方式1中的鼻子位置坐标的计算的图。

图11是用于说明本发明实施方式1中的存储部的图。

图12是用于说明本发明实施方式1中的显示部的图。

图13是用于说明本发明实施方式1中的选择处理的图。

图14是用于说明本发明实施方式1中的其他例的图。

图15是表示本发明实施方式2中的追踪对象选择装置的功能结构的功能框图。

图16是表示本发明实施方式2中的追踪对象选择装置的功能结构的到显示处理为止的流程图。

图17是用于说明本发明实施方式2中的显示例的图。

图18是表示本发明实施方式3中的追踪对象选择装置的功能结构的功能框图。

图19是表示本发明实施方式3中的追踪对象选择装置的功能结构的到显示处理为止的流程图。

图20是用于说明本发明实施方式3中的显示例的图。

图21是现有技术的框图。

图22是追踪对象选择装置的框图。

图23是表示画面的图。

图24是表示所摄像的多个图像的图。

图25是表示画面的图。

图26是表示多个时刻时的画面的图。

图27是表示小尺寸的影像等的图。

图28是表示被摄体的朝向不是正面朝向的影像等的图。

具体实施方式

以下，参照附图说明本发明实施方式。

实施方式的追踪对象选择装置是对追踪对象(追踪对象103xm：图22)进行选择的追踪对象选择装置(追踪对象选择装置1、摄像机)，具备：物体检测部(物体检测部301：图3、图22等)，从输入图像(例如图像9Ia等(图22、图24)，在摄像机中摄像到的第二输入图像)检测规定的物体(被摄体301x)；追踪部(追踪部302)，对所述物体检测部检测出的所述物体(被摄体301x)进行追踪，计算所追踪的该物体所处的追踪物体候补区域((图像9Ia中包含的之前的影像93的)区域301xR)；合成部(合成部306)，在输入图像(图像9Ib(图22、图24等)、第一输入图像)中的固定位置(位置92P：图22、图12、图13等)，对所述追踪部计算出的所述追踪物体候补区域(区域301xR)的图像(之前的影像93(图22、图24等)、影像92(图22、图12、图13等))进行合成；显示部(显示部307)，显示由所述合成部在所述固定位置(位置92P)将所述图像(影像92(影像93))合成后的、包含有合成的该图像(影像92)的所述输入图像(图像9C(图22、图24、图12、图13等))；以及选择部(选择部308)，在使用者(使用者1U：图22)对由所述显示部显示的合成后的所述输入图像(图像9C)中在所述固定位置(位置92P)的显示的合成后的所述图像(影像92(影像93))进行了操作(操作104L2(图22、图13等)、触摸的操作等)的情况下，将在(多个物体(被摄体A～C等)之中)被进行了所述操作的所述图像(影像93)中检测出的所述物体(被摄体301x：例如图12、图13的被摄体B)，选择为预先确定的处理(AF处理等)中的在追踪的所述追踪对象(追踪对象103xm：图22)。

并且，本追踪对象选择装置具备：特征提取部(特征提取部303)，从所述追踪部正在追踪的所述对象物体候补区域(区域301xR)的所述图像(影像93)中提取规定的特征(坐标904(图9)等)；判定部(判定部304)，根据由所述特征提取部提取的所述特征(坐标904等)，计算对象物体(影像93、被摄体301x)的规定的状态(角度3D1b(图11)、方向103x1、103x2等)，判定计算出的所述状态是否是预先确定的状态(例如0度(附近)、方向103x2(图12)等)；以及存储部(存储部305)，在所述判定部判定为计算出的所述对象物体候补区域(区域301xR、区域301xR的影像93)的所述状态(角度3D1b(图11)等)是所述预先确定的状态(0度、方向013x2等)的情况下，对被做出该判定的所述追踪对象候补区域(区域301xR、区域301xR的影像93)进行存储(作为用于合成的(区域、影像))。

另外，例如对区域进行存储是指，对该区域的影像进行存储。此外，也可以是显示部(显示部307)控制该显示部的显示。也就是说，例如可以构成为通过显示部的一部分或全部构成进行该控制的显示控制部。

也就是说，也可以是，该追踪对象选择装置是摄像机(参照图1等)，具备对被摄体(例如图25的被摄体B)的、一个影像(一个影像91)进行摄像的摄像元件(摄像元件103：图1)，所述显示部(显示部307)与所摄像到的所述一个影像(一个影像91)一起显示该一个影像(一个影像91)的被摄体(被摄体B)的另一个影像(另一个影像92：图25等)，所述选择部(选择部308)在对所显示的所述另一个影像(另一个影像92)进行了操作(操作92L：图25等)的情况下，将所摄像到的所述一个影像(一个影像91)的所述被摄体(被摄体B)选择为预先确定的处理(AF的处理等)中的在追踪的追踪对象(追踪对象103xm：图22)。

由此，由触摸等操作而选择的被摄体(被摄体B)的影像(一个影像91)是通过摄像机(摄像元件103)摄像到的影像，可能会是各种影像(参照图2、图26～图28等)，而即便无法预测(多数情况下很难预测出)是什么样的影像的情况下，也能够进行正确的动作。

也就是说，作为被摄体(图25的被摄体B)的影像，与所摄像到的一个影像91一起还显示有不同于该一个影像91的另一个影像92，通过对所显示的该另一个影像92进行操作92L，来选择被摄体(被摄体B)。由此，不管所摄像到的一个影像91是什么样的影像(参照图2、图26～图28等)，都能够通过对另一个影像92的操作来充分且简单地进行选择的操作。

而且，例如在多个时刻(图26的上部分的第一时刻、下部分的第二时刻)中的第二时刻(下部分的时刻)显示的合成后的所述图像(图26中的另一个影像921N(921))的位置(位置921PN)，是与在第一时刻(上部分的时刻)的该另一个影像(另一个影像921M(921))的位置(位置921PM)相同的位置(共通的位置921P)，而不是不同的位置(与上部分的位置921PM不同的其他位置(省略标记))。

也就是说，例如这样使另一个影像92P的位置92P在多个时刻(第一时刻、第二时刻)之间不移动(变化)，而是静止，也就是说，固定在共通的位置92P(固定位置)。

另外，这样的多个时刻例如是第一影像911(图26上部分、下部分)的位置从第一时刻的位置911PM向第二时刻的位置911PN移动(变化)时的第一时刻和第二时刻等。

由此，在使用者对另一个影像92进行操作时，不需要从例如图26的位置911PM(上部分)和911PN(下部分)、或者图2的位置91a1P和91a2P等那样的互相不同的位置中确定应操作的位置。也就是说，只要与在第一时刻在位置921PM进行的操作同样地，在第二时刻也在与第一时刻的位置921PM相同的位置921PN(共通的位置921P)进行操作即可。因此，不需要使用者从多个位置中确定出位置，能够更足够简单地进行操作。

而且，尽管第二时刻(下部分)时的一个影像911N(911)的位置911PN不同于第一时刻(上部分)时的位置911PM，第二时刻(下部分)时的另一个影像921P的位置921PN也是与第一时刻(上部分)的位置921PM相同的位置(位置921P、右下角的地方)，而不是其他位置。因此，尽管一个影像911的位置发生变化，与另一个影像921在第一时刻(上部分)的位置921PM为适当的位置(右下角的位置)同样地，第二时刻(下部分)的位置921PN也维持在适当的位置(右下角的位置)，能够在适当的位置(例如右下角的位置)可靠地显示另一个影像921。

这样，根据本装置，能够简单地进行操作，并且能使简单的程度为更加足够简单，并且，能够可靠且适当地显示合成后的图像(另一个影像92(921))的位置，能够兼得各种效果。

(实施方式1)

在本实施方式1中，公开一种追踪对象选择装置(追踪对象选择装置1a)。

图1是追踪对象选择装置的框图。

图3是本实施方式1中的对象追踪选择装置的功能框图。

利用图1说明本方式的追踪对象选择装置的结构。

在图1中，CPU(中央运算处理装置)101执行在ROM(只读存储器：Read Only Memory)102中保存的、用于遵循图4、图5(后述)所示的流程图进行处理的图像处理程序(例如计算机程序1P)，经由总线110控制图3所示的各要素。

另外，例如RAM(随机存取存储器)105和外部存储装置106中，除了用于图3所示的存储部305的区域之外，还确保有CPU101为进行该处理所需的一次存储区域。

另外，图3所示的各处理部的处理例如通过CPU101执行保存在ROM102中的图像处理程序来进行。

本装置具有物体检测部301、追踪部302、特征提取部303、判定部304、存储部305、合成部306、显示部307以及选择部308。

另外，将在后面描述各部的动作的详细情况。

图4是本发明的追踪对象候补的显示方法的流程图。

图4所示的追踪对象候补的显示方法通过图1的装置来实现。另外，在本实施方式中，将对象物体设为人物的脸部(参照图7、图8等)并且将规定的状态设为脸部朝向(参照图8的(A)栏、(B)栏、图2的影像91c等)来进行说明。

在步骤S401中，在本装置中，物体检测部301从自摄像元件103输入的图像分别检测人物的脸部的位置和大小。

在步骤S402中，将物体检测部301检测出的人物的脸部作为固有的物体，进行物体追踪(追踪部302)。

在步骤S403中，提取用于计算所追踪的脸部的脸部朝向的特征(特征提取部303)。

在步骤S404中，根据步骤S403中提取出的特征，推测脸部朝向(例如通过特征提取部303进行)。

在步骤S405中，判定步骤S404中推测出的脸部朝向是否是与规定的状态(例如正面朝向的脸部)之间的误差小于过去的推测误差的朝向(判定部304)。

在步骤S406中，当在步骤S405中判定为是比过去的推测误差小的情况下(S405：是)，在存储部305中更新为被判定为更小的推测误差。

在步骤S407中，与步骤S406中的处理同样地，将步骤S401检测出的脸部图像与赋予给该脸部图像的(与该脸部图像建立了对应的)固有的标签一起，更新存储于存储部305(参照数据3D(图3))。

在步骤S408中，对步骤S407中所存储的脸部图像，以显示在固定位置(参照图12、图13的位置92P等)的方式由合成部306进行合成，并将合成后的固定位置的脸部图像显示于显示部307。

物体检测部301从自摄像元件103输入的图像(输入图像)检测使用者想要追踪的人物的脸部的候补。

另外，作为详细的检测算法，例如使用日本特开2006-350645等所公开的Ada Boost算法，例如构成按照每个脸部朝向分别检测专用的脸部朝向的识别器，来实现适当的处理(参照后述的说明)。

另外，物体检测方法不限于该算法。

另外，在非专利文献PRMU107(206)PP211-224中，描述了也能够对一般物体进行检测的情况。也就是说，本技术不限于将对象物体限定为人物的脸部的情况，而能够在将对象物体的范围扩大为一般物体的范围内适用本技术。

追踪部302也可以进行适于在物体检测部301例如构成为一个系统LSI(Large Scale Integration)而能够进行实时处理(例如每1秒进行30次以上的处理)等的情况下的、下述的处理。也就是说，被检测出了一次的物体，在下一帧在前帧被检测出的位置附近被检测出的可能性应该会很高。也就是说，如上所述，在能够进行实时处理的状况等时，在追踪部302中，利于这样的检测位置的连续性，来实现利用该连续性的追踪部。

图6是追踪部的流程图。

在步骤S601中，判定在检测出的物体的位置的附近在1帧前是否存在有物体。

在步骤S602中，当在步骤S601中判定为在1帧前的位置的附近存在有检测出的物体的情况下(S601：是)，更新检测出的物体(与1帧前存在附近的物体相同的物体)的检测坐标的履历。

在步骤S603中，当在步骤S601中判定为在1帧前的附近不存在检测出的物体的情况下(S601：否)，对检测出的物体赋予与对目前为止检测出的物体赋予的各标签不同的、固有的标签(新标签)。

在步骤S604中，将新检测出的物体检测坐标新追加至检测坐标的履历。

另外，此处的说明中，描述了利用位置的连续性的追踪方法，但是所使用的方法也可以是利用色的物体追踪方法、利用脸部比对的物体追踪方法，也可以是其他方法。

图7示出了追踪的结果。

通过图7示出了从前帧701(图7的上部分)检测出的物体的位置(位置702a、703a)向在后帧704(下部分)检测出的物体的位置(位置705a、706a)变化这样、检测出的位置发生了变化的情况。

并且，在该情况下，(从图7的上部分的时刻起)已经存在并被赋予了固有的标签的A(702)、B(703)，在后帧704(下部分的时刻)进行如下的处理。也就是说，所进行的处理是如下的处理：各个物体(前帧701的、位置702a的物体、位置703a的物体)的位置即使变成了新的位置(下部分的位置705a、位置706a)，也通过与上部分的时刻的、该物体的标签相同的标签、即没有变化的标签对该物体赋予标签的处理。由此，如图所示，对位置705a赋予A(705)，对位置706a赋予B(706)。另一方面，新检测出的物体(707)新被赋予标签C(新标签)。

在特征提取部303的本说明中，利用人物的脸部朝向进行说明。

图8是用于说明本发明实施方式1中的特征提取部中的物体朝向的计算的处理。

例如，作为提取的特征(属性、性质)，有左右眼的位置(例如图8的(A)栏中的、两眼的坐标801、802)、脸部中心坐标(例如坐标803)、鼻子位置坐标(例如坐标804)、脸部尺寸(图8的尺寸)这五点。

另外，在双眼的检测中，能够通过与人物脸部的检测的算法相同的算法进行检测。另外，该检测中使用的方法例如也可以是基于边缘的角部检测算法，也可以是其他方法等。

图9是用于说明本发明实施方式1中的脸部中心坐标的计算的处理的图。

脸部检测器(脸部检测器303a)由多个脸部朝向检测器(检测器303a1～303a3等)构成，在脸部所存在的一个地方，这些各种脸部朝向的多个检测器(检测器303a1等)之中的每个检测器输出位置和尺寸变化了而相互不同的多个候补框(参照检测器303a1输出的三个(多个)框901、检测器303a2输出的三个框902、检测器303a3输出的三个框903等)。

并且，分别计算所输出的多个候补框的中心坐标的平均值、尺寸的平均值，对在这些多个计算中得到的多个信息进行统合后作为结果得到的中心坐标，成为脸部中心坐标(坐标904)。另外，也就是说可以是，通过这样利用这些例如检测器303a1输出的多个框901、检测器303a2输出的多个框90、检测器303a3输出的多个框903中的所有框，能够相对高精度地计算脸部的中心的坐标904。

图10是用于说明本发明实施方式1中的鼻子位置坐标(参照坐标1004)的计算的处理图。

与脸部中心坐标的处理(上述的图9等)同样地，多个脸部朝向检测器(例如检测器303b1～303b3等)分别输出位置·尺寸变化了的多个候补框(参照图9)。

并且，对该输出的候补框进行与输出该候补框的检测器对应的处理。也就是说，对各个候补框附加一定量的、与输出该候补框的检测器对应的偏置。另外，例如赋予的偏置是利用脸部尺寸进行了标准化的偏置。由此，将候补框的中心坐标校正为鼻子位置(参照图10中的補正后的框1001～1003)。

并且，分别计算被赋予了偏置量的候补框(補正后的框1001～1003)的中心坐标的平均值、尺寸的平均值，对各计算中得到的信息进行统合后的结果的中心坐标，成为鼻子位置坐标(坐标1004)。

另外，在该例子中，在鼻子位置坐标的计算中，利用各脸部检测器的输出结果进行了计算，但是，也可以通过与人物脸部的检测相同的算法来进行检测，也可以使用其他算法进行位置的检测。

在判定部304的说明中，使用人物的脸部朝向判定的例子进行说明。

如上述所示，在进行下述处理之前，已经通过特征提取部303得到了左右眼睛位置坐标、脸部中心坐标、鼻子位置坐标、和脸部尺寸。

因此，首先，计算脸部中心位置(例如图9的坐标904等)、鼻子位置(图10的坐标1004等)的各自的位置的X成分(参照下述的数式1中的Face_x和Nose_x)的、利用脸部尺寸(Face Size，参照下述的数式1的分母)标准化后的标准化差分量(F_n，参照数式1的左边)。

[数式1]

F_{n} = \frac{{Face}_{x} - {Nose}_{x}}{FaceSize}

(数式1)

此外，同样地计算脸部中心位置(参照下述的数式2中的Face_x)、左右眼(参照下述的数式2中的LEye_x和LEye_y、图8)的中心点(参照图8的坐标805a)的X成分的、利用脸部尺寸(Face Size，参照下述的数式2的分母)标准化后的标准化差分量(F_e，参照数式2的左边)。

[数式2]

F_{e} = \frac{({Face}_{x} - \frac{({LEye}_{x} + {REye}_{x})}{2})}{FaceSize}

(数式2)

根据分别计算出的标准化差分量(F_n，、F_e、数式1和数式2)，从查找表格(参照数式3、4中的LUT_n、LUT_e)表格提取出与该差分量相当(对应)的、脸部朝向的角度(参照下述的数式3、4中的Dir_n，Dir_e)，来作为脸部朝向角度(Dir_n，Dir_e)。

[数式3]

Dir_n＝LUT_n[F_n]

(数式3)

[数式4]

Dir_e＝LUT_e[F_e]

(数式4)

并且，作为最终的脸部朝向角度，如下述的[式5](数式5)所示，对利用上述的数式3、4分别计算出的脸部朝向(Dir_n、Dir_e)施加权重(W_n，W_e)，计算相加后的值(Dir)。

[数式5]

Dir＝Dir_n×W_n+Dir_e×W_e(数式5)

另外，在脸部朝向判定中，优选取得更多的脸部特征点，也就是说，例如也可以采用根据几何学的位置关系来更高精度地计算脸部朝向的算法等。

并且，判定计算出的脸部朝向角度是否是规定的朝向。在此，例如为了便于说明，以正面的脸部朝向(参照图12的方向103x2等)来说明规定的朝向面的脸部朝向。

并且，在计算出的脸部朝向角度为-10度～10度(0度的预先确定的附近的角度)的情况下，判定为正面朝向的脸部，在存储部305中，与被判定为正面朝向的脸部的图像一起，存储脸部朝向角度的计算值、被赋予的标签(参照图3的数据3D)。

并且，在下一帧之后的处理中，在同一追踪对象的脸部朝向计算值是与所存储的计算值(脸部朝向计算值)比较时为更朝向正面的脸部的计算值(脸部朝向计算值)的情况下，进行接下来的处理。也就是说，该处理是将存储于存储部的、正面朝向的图像和脸部朝向角度的计算值，分别更新为上述的、被计算为同一追踪对象的脸部朝向计算值的图像及其脸部朝向计算值的处理。

图11是用于说明本发明实施方式1中的存储部的图。

如上述所说明的那样，通过进行适当的处理，在存储部中如图11所示那样分别存储正在追踪的物体(脸部)的、正面朝向的图像(图像3D1a～3D3a)、脸部朝向的计算值(值(分数)3D1b～3D3b)以及被赋予的标签(标签3D1c～3D3c)。另外，标签(标签3D1c等)例如是从多个被摄体(被摄体A～C)中确定出被赋予该标签的图像(例如图像3D1a)的被摄体(被摄体A)的信息等。

合成部306对存储于存储部的追踪物体的图像的尺寸进行标准化，将标准化后的追踪物体的图像合成为输入图像。也就是说，例如也可以是，根据所存储的图像，生成具有预先确定的尺寸且尺寸被标准化(变更)成该预先确定的尺寸的图像，将所生成的图像合成为上述输入图像(的一部分)。

另外，优选进行合成的场所是不会给撮影场景图像带来妨碍的场所，例如，可以在画面的下部或上部等四角进行合成(参照图12中的进行合成的右下角的场所等)。

此外，通常情况下也可以不进行标准化后的图像的合成等而不显示标准化后的图像，只显示合成前的原来的输入图像。并且，仅在由使用者的操作进行了进行标准化后的图像的显示的指示的情况下，才在任意的场所(右下角的场所等)进行图像(标准化后的图像)的合成，生成包含有原来的输入图像和标准化后的图像这两者的、合成后的图像，并进行显示。也就是说，可以仅在进行了该指示的情况下显示该图像(标准化后的图像)。

此外，也可以在输入图像中的、正在追踪的物体的位置(例如图12中的影像91的位置)的附近将被赋予的与该物体对应的标签(参照图12中的影像91的附近所示的“B”文字)也合成。由此，能够(相对简单地)建立所要选择的对象物体(被摄体的、标准化后合成的图像(参照影像92))、与实际的输入图像上的位置(输入图像中该被摄体被摄像的位置(影像91的位置))之间的对应，便于使用者理解。

图12是用于说明本发明实施方式1中的显示部的图。

通过合成部306使显示部307显示输入图像和存储于存储部的图像。图12示出了将所存储的图像和输入图像合成，显示由合成而生成的图像9C的例子。

接着，利用图5的流程图来说明追踪对象候补的选择方法。

在步骤S501中，将存储于存储部的追踪对象候补的图像显示在固定位置。另外，例如也可以是，在第一时刻(例如图26的上部分的时刻)进行显示(S501a)，并且在与第一时刻进行显示的位置(例如位置921PM)相同的位置(位置921PN)进行第二时刻的显示，由此进行在固定位置的显示。

在步骤S502中，通过使用者的操作(对合成后显示的上述图像(图12的影像92)的触摸等)，使用者(使装置1)在固定位置选择要追踪的对象。也就是说，例如也可以是，对象(例如图12的被摄体B)，通过对该对象的、合成后的影像(例如图12的影像92b)被显示的固定位置(位置92bP)的操作(触摸等)而被选择。

图13是用于说明本发明实施方式1中的选择处理的图。

如图13所示，使用者能够从各个脸部图像为位于固定位置(位置92P等)且面向正面的脸部图像(影像92)的多个脸部图像(被摄体A～C的三个脸部图像)之中，触摸要追踪的对象的脸部图像来对该脸部图像的对象(被摄体，例如被摄体B)进行选择，而不会进行错误的对象选择。

另外，在选择对象之后，仅对所选择的对象显示追踪框(参照图13中的对被摄体B的影像91赋予的粗线91x的框)，进行AE/AF的控制。此外，也可以是，在对象选择之后，不对存储于存储部的图像进行合成，不进行影像92等的合成，而进行画面104R中的显示。

图14是用于说明本发明实施方式1中的其他例子的图。

在实施方式1中，以人物的脸部为例进行了说明，但也可以如图14所示那样构成为人物以外的一般物体、例如汽车这样的方式。

此外，也可以是，在特征提取部作为特征提取基于笑脸判定的脸部图像的、边缘或频率成分。并且，也可以是，在判定部，根据所提取的特征判定笑脸度并存储于存储部，也可以作为静态照片输出该场景。也就是说，例如也可以是，输出多个脸部图像之中根据从其脸部图像提取的特征而确定出的笑脸度相对高的脸部图像，将所输出的脸部图像的场景的影像作为合成后的影像(参照影像92)输出。

(实施方式2)

图15是本实施方式2中的利用了文字信息的追踪对象选择装置(装置1b)的功能框图。

本装置具有物体检测部1501、追踪部1502、特征提取部1503、文字识别部1504、存储部1505、合成部1506、显示部1507、以及选择部1508。

将在后面描述各部分的动作。

图16是表示本发明实施方式2中的追踪对象选择装置的功能结构(处理结构)的到显示处理为止的流程图。

与实施方式1的情况之间多处相同，因此，对文字识别部的处理之后的部分(S1604之后的部分)特别详细地说明。

在步骤S1604中，从正在追踪的对象物体候补图像提取文字识别所需的特征(特征提取部1503)。

在步骤S1605中，判定正在追踪的对象物体候补是否已经能够被文字识别。

在步骤S1606中，如果还不能够被文字识别，则根据提取出的特征进行文字识别(文字识别部1504)。

在步骤S1607中，判定文字识别是否成功。

在步骤S1608中，如果文字识别失败(S1607：否)，则存储追踪物体的图像。

在步骤S1609中，如果文字识别成功(S1607：是)，则存储识别出的文字(存储部1505)。

在步骤S1610中，将存储在存储部中的追踪对象候补图像或文字合成为输入图像，并显示在固定的位置(固定位置)。

文字识别部1504识别追踪对象物体所持有的固有的文字信息。例如，识别的文字信息是汽车的车牌信息这样的文字信息。

存储部1505中，存储有追踪对象的图像和识别出的文字信息这两者(参照图3的数据3D)。

在合成部1506中，对输入图像合成追踪对象候补图像或文字信息，或者这两者(参照后述的图17等)，并使显示部1507显示合成后的图像(输入图像)。

图17是用于说明本发明实施方式2中的显示的例子的图。

例如也可以是，进行图17所示那样的显示。

(实施方式3)

图18是本实施方式3中的利用了文字信息的对象追踪选择装置(装置1c)的功能框图。

本装置具有物体检测部1801、追踪部1802、特征提取部1803、相似度计算部1804、存储部1805、合成部1806、显示部1807、选择部1808、以及登录DB1809(DB：data base)。

图19是表示本发明实施方式3中的追踪对象选择装置的功能结构(处理结构)的到显示处理为止的流程图。

与实施方式1的情况之间多处相同，因此对判定部之后的部分(S1905之后的部分)特别详细地进行说明。

在步骤S1905中，进行从正在追踪的对象物体候补图像提取出的特征(特征1803a：图18)与预先登录在登录DB中的特征(特征1809a)之间的匹配，计算(该特征之间的)相似度(相似度1804a：图18)。

在步骤S1906中，将S1905中计算出的相似度(相似度1804a)与过去的相似度(参照数据3DW(图18))进行比较，进行判定。

在步骤S1907中，当在步骤S1905中计算出的相似度是比过去的相似度(数据3DW的相似度)的高的值的情况下(S1906：是)，进行相似度的更新。

在步骤S1908中，在是比过去的相似度高的值的情况下(S1906：是)，对追踪物体进行更新存储。

在步骤S1909中，判定在步骤S1905中计算出的相似度是否高于某个阈值。

在步骤S1910中，如果是高于某个阈值的相似度(S1909：是)，则将登录DB所附带的附加信息也存储于存储部。

在步骤S1911中，将存储于存储部的追踪对象候补图像和附加信息分别合成为输入图像(参照图17的影像92e)，并将它们显示在输入图像的固定位置。

登录DB1809是预先登录有特定的人物的脸部图像和附加信息(人物名等)的数据库。

在相似度计算部1804中，进行特征提取部1803提取出的特征(特征1803a：图18)与预先登录的登录DB1809中的特征(特征1809a)之间的匹配。如果作为匹配结果的相似度(相似度1804a)是比以前的相似度(数据3DW的相似度)高的相似度(图19的S1906：是)，则向存储部更新存储相似度和追踪物体图像。进而，在相似度超过阈值的情况下(S1909：是)，将登录DB所附带的附加信息也存储于存储部。

在合成部1806，在存在附加信息的情况下，将该附加信息也相对于输入图像(先述)进行合成，并与追踪对象图像一起显示于显示部。

图20是用于说明本发明实施方式3中的显示的例子的图。

图20示出了显示例。

另外，基于上述实施方式说明了本发明，但是本发明不限于上述实施方式。以下所述的情况也包含在本发明中。

上述的对象物体选择装置具体地是包括中央运算处理装置(CPU：Central Processing Unit)、ROM(Read Only Memory)、RAM(Random AccessMemory)等的计算机系统。并且，所述RAM中存储有计算机程序。所述CPU通过所述计算机程序进行动作，从而使各装置实现其功能。在此，计算机程序为了实现规定的功能而组合了多个表示对计算机的指令的命令代码而构成。

构成上述各装置的结构要素的一部分或全部可以由一个系统LSI(Large Scale Integration：大规模集成电路)构成。系统LSI是将多个结构部集成在一个芯片上而制造成的超多功能LSI，具体而言，包含微处理器、ROM、RAM等而构成的计算机系统。所述RAM中存储有计算机程序。所述微处理器按照所述计算机程序进行动作，从而使系统LSI实现其功能。

构成上述各装置的结构要素的一部分或全部也可以由能够相对各装置拆装的、IC卡(IC：Integrated Circuit)或单体的模块构成。所述IC卡或所述模块是由微处理器、ROM、RAM等构成的计算机系统。所述IC卡或所述模块也可以包含有上述的超多功能LSI。微处理器按照计算机程序进行动作，从而使所述IC卡或所述模块实现其功能。该IC卡或该模块具有耐篡改性。

本发明也可以是上述的方法。此外，也可以是通过计算机实现该方法的计算机程序，还可以是由所述计算机程序构成的数字信号。

此外，本发明也可以是将所述计算机程序或所述数字信号记录在计算机可读取的记录介质、例如、软盘、硬盘、CD-ROM(Compact Disc-ROM)、MO(Magneto-Optical disk(disc))、DVD(Digital Versatile Disc)、DVD-ROM、DVD-RAM、BD(Blu-ray Disc)、半导体存储器等中。此外，也可以是记录在这些记录介质中的所述数字信号。

此外，本发明也可以是经由以电气通信回路、无线或有线通信回路、因特网为代表的网络、数据广播等来传播登录数据、所述计算机程序或所述数字信号的方法。

此外，本发明也可以是具备微处理器和存储器的计算机系统，所述存储器存储上述计算机程序，所述微处理器按照所述计算机程序进行动作。

此外，也可以是，通过将所述程序或所述数字信号记录在所述记录介质中来进行移送，或者通过将所述程序或所述数字信号经由所述网络等进行移送，从而由独立的其他的计算机系统来实施本发明。

这样，也就是说，在使用者选择追踪对象时，在追随对象正在运动的情况下(参照图2的(A)栏)或视觉识别性较差的情况下((B)栏)，也能够容易地选择追踪对象。也就是说，具有：物体检测部，从输入图像中检测规定的物体；追踪部，将所述检测出的物体(确定)作为(即使时刻不同也相互)相同的物体，进行追踪；特征提取部，从正在进行追踪(追随)的所述物体提取特征；判定部，根据提取出的所述特征计算检测物体的状态(例如脸部的方向等)，进行是否存储检测物体的判定；存储部，对表示所述判定部判定为要存储的物体的状态的分数、和正在追踪的物体的图像(该分数的状态下(脸部的方向)的图像)进行存储；显示部，对输入图像在固定位置合成在所述存储部存储的、物体的图像(上述分数的状态下的图像)，并对合成后的上述输入图像进行显示；以及选择部，将在所述显示部的固定位置显示的检测物体，选择为预先确定的处理(例如AF的处理)的追踪中的追踪对象。

另外，被摄体也可以是猫、狗等宠物。并且，在上述的固定位置(图12的位置92P等)合成而被显示的图像(例如图12中的另一个影像92)是显示宠物的毛发(颜色、图案、毛发的纹理(texture)等)的图像。

另外，在进行了图14的处理时等情况下，例如可以监视正道路103R上行驶的汽车(被摄体103x)。

另外，这样也可以如图26所示，与被摄体(例如图26的被摄体B)的、被摄像的第一影像(一个影像91)一起，显示该被摄体的被进行触摸等操作的第二影像(另一个影像92)。

并且，如图12的方向92bd、方向92md所示，例如也可以是，使得一个被摄体(例如图12的被摄体B)的第二影像(另一个影像92b)的被摄体(被摄体B)的方向(方向92bd)与另一个被摄体(例如被摄体C)的第二影像(另一个影像92m)中的被摄体(被摄体C)的方向(方向92md)相同。

即，显示在固定位置的对象物也可以不面向相同方向(朝向)。

也就是说，也可以是，图12中的被摄体B的另一个影像92b中的方向92bd是与被摄体C的另一个影像92m中的方向92md相同的方向。如这些方向92bd和方向92md所示，例如也可以使显示在固定位置的对象物面向相同方向。

另一方面，没有必要如该图12的例子所示那样面向相同方向(参照方向92bd和方向92md)，为了方便说明而省略详细的说明(图示等)，也可以是面向不同方向。

另外，关于该点，图14中的方向92dd和方向92nd也一样。

另外，例如也可以是，图14所示的汽车A～C(图14上部的三个被摄体103x)的三个第一影像(一个影像91)分别是摄像元件103所摄像到的道路103R的图像9Ib(图14)的一部分。也就是说，也可以是通过摄像到图像9Ib，来摄像多个第一影像(多个一个影像91(图14))，该多个第一影像的每一个是摄像到的图像9Ib中的一部分，是在该图像91b中包含在该一部分中的影像。

这样，例如可以是，所述判定部计算表示所述状态(被拍摄的被摄体的方向等)的分数(角度3D1b(图11)等)，所述存储部与所述追踪物体候补区域的所述图像(图像3D1a(图11))一起将计算出的该图像的所述状态的所述分数(角度3D1b等)存储。

此外，所述判定部将计算出的表示所述状态的分数(角度3Dxb(图11))与预先存储于所述存储部的分数(角度3D1b)进行比较，判定是否在所述存储部中更新为计算出的所述分数(角度3Dxb)、和计算出的所述分数(角度3Dxb)所示的所述状态的所述图像(图像3Dxa)，在所述判定部判定为进行更新的情况下，将预先存储于所述存储部的所述分数(角度3D1b)、和与预先存储的该分数(角度3D1b)对应地存储的图像(图像3D1a)，分别更新为计算出的所述分数(角度3Dxb)、和计算出的该分数(角度3Dxb)的所述图像(图像3Dxa)。

此外，也可以是，所述特征提取部提取表示所述追踪物体候补区域的所述图像(影像93：图22等)所呈现的朝向(图12的朝向103x1、朝向103x2等中的一个)的特征量(坐标904(图9)等)，所述判定部基于提取出的所述特征量，判定由该特征量表示出的所述朝向(朝向103x1、朝向103x2等中的一个)是否是规定的朝向(例如方向103d(图12)的朝向)，在判定为是所述规定的朝向的情况下，将提取出了表示所判定的所述朝向的所述特征量的所述追踪物体候补区域(图像3Dxa(图11)、图像3Dxa存在过的图22的区域301xR等)存储于所述存储部。

另外，例如对区域进行存储是指对该区域的影像进行存储。

此外，所述追踪物体候补区域(区域301xR：图22)是人物的脸部(脸部8F：图8)的区域，所述特征提取部作为所述特征量提取脸部中心坐标(例如坐标807：图8)、鼻子位置坐标(坐标808)、眼睛位置坐标(坐标805、806)、脸部尺寸(Size)，所述判定部根据所述脸部中心坐标(坐标807)与所述鼻子位置坐标(坐标808)这两个坐标间之差、以及所述脸部中心坐标(坐标807)与两个所述眼睛位置坐标(坐标805、806)的中心坐标(坐标805a)这两个坐标间之差的两个所述差(未赋予附图标记)，进行是否是所述规定的朝向(图12的方向103D的朝向)的判定(如上所述)。

此外，也可以是，所述特征提取部提取表示所述追踪物体候补区域(区域301xR：图22)的人物的脸部表情的特征量，所述判定部基于提取出的该特征量，判定所述人物的所述脸部表情是否是笑脸的表情。

另外，是否是笑脸的表情的判定例如可以通过公知技术的处理来进行。

此外，也可以是，所述特征提取部从所述追踪物体候补区域(区域301xR)的物体提取文字识别所需的特征量(例如文字边缘的位置、方向等)，所述判定部判定是否基于提取出的该特征量实现了该物体中出现的文字的文字识别。

此外，也可以是，所述特征提取部从所述追踪物体候补区域(区域301xR)的物体提取物体识别所需的特征量，所述判定部进行预先登录于所述存储部的特征与提取出的该特征量所示的特征之间的匹配，进行判定。

另外，例如物体识别是指，从多个物体之中确定出与追踪物体候补区域的物体相同的物体。

此外，也可以是，所述合成部除了所述追踪物体候补区域(区域301xR)的图像(图20的影像92等)之外，还将所述判定部得到的附加信息(标签(名称等)的图像92N)也对(摄像到的输入图像(如上所述那样))进行合成。

另外，例如也可以是，图26上部分的时刻的另一个影像92的显示由图5的S501a进行，并且，下部分的时刻的显示由S501b进行。

另外，例如也可以是，生成由于确定作为追踪对象103xm(图22等)被选择的被摄体的选择数据308d(图22)，由此将通过所生成的数据208d确定出的被摄体选择为追踪对象103xm。

并且，也可以是，所显示的所述另一个影像(图25的另一个影像92)中的所述被摄体(被摄体B)的尺寸(尺寸92S)为预先确定的阈值(阈值Th)以上的尺寸(尺寸92S)，而不是比该阈值(阈值Th)小的尺寸(图2的影像91b的尺寸、图27的小尺寸912S等)。

由此，由于是阈值以上的大尺寸92S，因此，使用者能够从多个被摄体(被摄体A～C等)之中简单地确定出与该被摄体相同的被摄体(被摄体B)，作为观察另一个影像92时被观看到的该另一个影像92的被摄体(例如图25中的被摄体B)。由此，例如使用者能够简单地判断对另一个影像92的操作92L是适当的等这样，能够使操作足够简单。

另外，具体而言，阈值Th例如可以是若被拍摄的被摄体的尺寸若为该尺寸以下，则不能够简单地进行而是很难进行对该尺寸的被摄体被拍摄的影像(图2的影像91b、图27的影像912)的操作这样的尺寸(例如多个这样的尺寸中最大的一个等)等。

并且，也可以是，所显示的所述另一个影像(图25的另一个影像92)中的所述被摄体的方向(图28的方向92d)是与预先确定的方向(图12的方向103d)相同的方向(方向103x2、面向摄像元件103(摄像机1)的方向)，而不是不同的方向(方向103x1、图28的方向913d、图2的影像91c中的方向(朝向后方的方向、朝向左后方的方向等)。

另外，被摄体的方向是指，例如被摄体的正面等、被摄体所具有的多个面之中较多地呈现该被摄体的特征的面所朝向的方向(参照图28的方向92d、图14的方向92dd等)等。

并且，如上所述，预先确定的方向是指，例如与面向摄像元件103的方向103d(图12)相同的(近似于方向103d的方向103d附近的)方向等。

由此，使用者能够方便看到被摄体的正面的外观(的特征(参照图25的影像92、图14的影像92等))，由此，使用者能够从多个被摄体(例如图25的被摄体A～C)中简单地确定出被拍摄成另一个影像92的被摄体(被摄体B)是哪个被摄体，能够使操作足够简单。

另外，例如也可以是，图26的一个影像911例如更具体地是如下的影像，即是从位置911PM(上部分)向位置911PN(下部分)移动的、且被拍摄的被摄体的尺寸是比阈值Th(图25等)小的尺寸(参照图27的小尺寸912S)的、且被拍摄的被摄体(被摄体B)的方向是与预先确定的方向(图12的方向103d)不同方向(方向103x1、参照图26的一个影像911的朝向左后方的方向)这样的影像。

也可以在摄像这样的一个影像911时，不移动位置(参照图25、图26的位置92P)地显示具有大尺寸92S(参照图25)且具有与预先确定的方向相同方向(图12的方向103x2)的另一个影像921(图26)。

由此，在摄像这样的一个影像911时就能够简单地进行操作，能够更加可靠地使操作足够简单。

并且，也可以是，所述摄像元件在对所述一个影像(图28的一个影像91)即之后的影像(图24的一个影像(后的影像)91)进行摄像之前，摄像之前的影像(图24的之前的影像93x)，该之前的影像是对与该之后的影像的所述被摄体(图28的被摄体B)相同的被摄体(被摄体B)进行拍摄而成，且被拍摄的该被摄体的方向(图24的影像93x的方向)是与所述预先确定的方向(图12的方向103d)相同方向(方向103x2)；所述显示部显示通过利用所摄像的所述之前的影像(之前的影像93x)的信息(图24(图3)的信息3D)而(通过合成部306(图24、图3等))生成的与所述预先确定的方向相同方向(图12的方向103x2、图28的方向92d)的所述另一个影像(图28的另一个影像92)。

由此，仅通过摄像之前的影像93x(图24)就能够简单地用于另一个影像92显示的信息(信息3D：图24、图3等)，能够简单地进行另一个影像92的显示。

另外，例如可以如上所述那样，从包含有具有方向103x2的适当的之前的影像93(之前的影像93x：图24)、和具有方向103x1的不适当的之前的影像93的多个先的影像93(参照图24)中选择适当的之前的影像93(之前的影像93x)来进行利用。

并且，也可以是，所述显示部将根据除了所述被摄体(例如图17中的汽车C)的所述一个影像(一个影像91e)和所述另一个影像(另一个影像92e)以外的、该被摄体(汽车C)的再一个影像(图17的影像93(参照图24的之前的影像93))生成的、表示用于从多个被摄体(汽车A～C)确定出该被摄体(汽车C)的文字(图17的「奈良330xx-oo 」、文字串92e2)的影像(另一个影像92e)，显示为所述另一个影像(另一个影像92)。

并且，也可以是，所述合成部(合成部306)根据除了所述一个影像(一个影像91e)和所述另一个影像(另一个影像92e)以外的所述再一个影像(图17的影像93)，生成将由文字识别确定出的所述文字(“奈良330xx-oo”、文字串92e2)相对于该再一个影像(影像93)进行合成而得到的影像(另一个影像92e)，所述显示部将所生成的该影像(另一个影像92e)显示为所述另一个影像(另一个影像92)。

由此，使用者能够更简单地进行被摄体的确定，能够使操作足够简单。

另外，例如可以是，在被摄体为脸部8F(图8)时等情况下，显示被摄体的名称等信息的文字(文字串)。

另外，例如也可以是，设置进行上述文字识别的文字识别部1504(图15等)。并且，例如文字识别部1504如图15所示那样，例如可以是判定部304的一部分，也可以在判定部304的外部等设置。

另外，例如在某种状况等时可以摄像图23的影像9W来作为(上述)一个影像91。并且，该影像9W例如可以与图25所示的另一个影像92相同地，是不进行(规定时间期间)移动的、且具有大尺寸92S的、且被拍摄的被摄体的方向为与预先确定的方向相同方向(图12的方向103x2)的影像。

并且，不管摄像到的一个影像91是这样的影像9W还是不是这样影像9W的其他影像(参照图26的一个影像911、图27的一个影像912、图28的一个影像913等)，都在摄像到一个影像91并进行显示时，显示该一个影像91(影像9W、或一个影像912等的某个)的被摄体的另一个影像92。

由此，在摄像到影像9W并进行显示时，显示另一个影像92，进行与摄像到不是影像9W的上述其他影像时的处理相同的处理，能够更简单地进行处理。

而且，进行与摄像到其他影像时的显示相同的显示，能够更明白易懂地进行显示。

由此，能够同时实现更简单的处理和更明白易懂的显示。

另外，本摄像机例如是大众用的数码摄像机等，是购入的使用者在所需时对所需的被摄体进行摄像而不能够预测出(很难预测出)摄像到什么样的被摄体的影像的摄像机等。

另外，本摄像机例如可以是，对在道路103R上行驶的汽车等偶然出现的被摄体103x进行摄像的摄像机(例如监视摄像机等)等。

此外，如图13所示，例如在进行了对另一个影像92的操作104L2时，仅在一个影像91的位置91P和另一个影像92的位置92P之中的一个影像91的位置91P(的附近)显示出表示被进行了操作104L2的显示(粗线)91X，而在另一个影像92的位置(的附近)不进行显示。

由此，显示变少，能够使显示更加明白易懂。

另外，更具体地讲，例如可以是，作为显示在固定位置的另一个影像92，对不含有被摄体的外观的图像(参照图17的图像92e1)而仅示出了文字识别所确定的文字串9X1(参照图17的影像92e的文字串92e2)的影像9X进行显示。

由此，与从多个被摄体(汽车A～汽车C)之中确定出被摄体(汽车B)的摄像到的一个影像91e一起，显示确定出该被摄体(汽车B)的(表示该被摄体的文字串「大阪550なoo-xx 」的)另一个影像9X，能够简单地进行操作。而且，通过显示在固定位置，能够使操作足够简单，能够可靠地使显示的位置适当。而且，通过进行仅基于文字串9X1的简易显示，能够进行明白易懂的显示，能够更加充分地进行适当的显示。

由此，通过对多个结构(显示部307、选择部308等)进行组合，能够获得组合的相乘效果。对此，在已知的现有例子中，不存在这些多个结构之中的全部或一部分，不会产生相乘效果。本技术在这样的结构、作用、效果方面相对于现有例子具有进步性。

另外，相互不同的多个实施方式中的多个记载等的、相互相差很远的多处的多个技术事項可以适当地进行组合。在此一并公开了组合后的方式。

另外，也可以如图26所示，被摄体B的一个影像91(一个影像911)的位置(位置911PM、位置911PN)在第一时刻(上部分)相对于其他位置(其他被摄体A所摄像到的一个影像91的位置(位置921XM))，具有预先确定的第一位置关系921JM(位于右侧的关系)。

并且也可以是，另一方面在其他第二时刻(下部分)，相对于该第二时刻的该其他被摄体(被摄体A)的影像的位置(相对于位置921XN))具有第二位置关系921JN(位于左侧的关系)。

并且，也可以是，被摄体B的另一个影像92(另一个影像921)的位置(位置921P)在第一时刻和第二时刻都是相对于其他位置(被摄体A(其他被摄体)的、合成后的另一个影像92的位置(位置922X(922XM、922XN)))具有相互相同的位置关系922J(位于右侧的关系)。

由此，即使被摄体B的一个影像91所具有的位置关系从第一位置关系921JM变为第二位置关系921JN，也不需要在与位置关系922J(位于右侧的关系)不同的其他位置关系(省略图示，例如位于左侧的关系)的位置进行操作(参照下部分的位置关系922J)，而进行相同的位置关系922J(向右侧)的操作即可，能够更可靠简单地进行操作。

另外，如图1所示，例如追踪对象选择装置(摄像机)1的一部分或全部是包含有CPU101(图1)等而构成的计算机1C(图1)。并且，通过该计算机1C执行计算机程序1P(图1，例如上述的图像处理程序)，由此，实现上述的一个以上功能。并且，该计算机程序1P例如存储于ROM102中。

此外，也可以通过安装该计算机1C等，来构筑构成有适当的电路且安装有上述一个以上功能的集成电路1L(图1)。

另外，还可以构筑包含有一个以上工序的方法、上述程序的数据构造等。

另外，利用附图标记705表示与时刻T的标签A的物体相同物体在时刻T+α的影像。利用附图标记706表示与时刻T的标签B的物体相同的物体在时刻T+α的影像。利用附图标记707表示新检测出的物体的被赋予标签C的影像。利用附图标记901表示右75度脸部检测器所输出的脸部检测候补框。利用附图标记902表示右30度脸部检测器所输出的脸部检测候补框。利用附图标记903表示正面脸部检测器所输出的脸部检测候补框。利用附图标记1001表示对右75度脸部检测器所输出的脸部检测候补框施加了偏置的结果。利用附图标记1002表示对右30度脸部检测器所输出的脸部检测候补框施加了偏置的结果。利用附图标记1003表示对正面脸部检测器所输出的脸部检测候补框施加了偏置的结果。利用附图标记104L2表示选择位于固定位置的物体的操作。

工业实用性

本发明所涉及的追踪对象选择装置、方法及其存储介质，在数码摄像机、数码摄影机的撮影时，在各种场景的摄影中，能够容易地选择并追踪被摄体，进行AF/AE控制，由此能够简单地进行不会产生失败的撮影，

具有实用性。

附图标记说明

101CPU

102ROM

103摄像机

104显示器部

105RAM

106外部存储装置

108接口装置

301物体检测部

302追踪部

303特征提取部

304判定部

305存储部

306合成部

307显示部

308选择部

701时刻T的图像帧

702被赋予标签A的影像

703被赋予标签B的影像

704时刻T+α的图像帧

801正面朝向的右眼

802正面朝向的左眼

803正面朝向的脸部中心坐标

804正面朝向的鼻子坐标

805右朝向的右眼

806右朝向的左眼

807右朝向的脸部中心坐标

808右朝向的鼻子坐标

904脸部中心坐标

1004鼻子位置坐标

1200显示画面

1201图像合成后的图像

1302所选择的物体

9X1被识别的文字

1809登录(DB)数据库

Claims

1.一种追踪对象选择装置，用于选择追踪对象，其中，

该追踪对象选择装置具备：

物体检测部，从输入图像检测规定的物体；

追踪部，对所述物体检测部检测出的所述物体进行追踪，计算被追踪的该物体所处的追踪物体候补区域；

合成部，在输入图像中的固定位置，对所述追踪部计算出的所述追踪物体候补区域的图像进行合成；

显示部，对包含有在所述合成部中在所述固定位置对所述图像进行合成后的、该合成后图像在内的所述输入图像进行显示；以及

选择部，在使用者对在所述显示部所显示的合成后的所述输入图像中的所述固定位置显示的、合成后的所述图像进行了操作的情况下，将在被进行了所述操作的所述图像中检测出的所述物体选择为预先确定的处理的追踪中的所述追踪对象。

2.如权利要求1所述的追踪对象选择装置，其中，

该追踪对象选择装置具备：

特征提取部，从所述追踪部正在追踪的所述对象物体候补区域的所述图像提取规定的特征；

判定部，根据所述特征提取部所提取的所述特征，计算对象物体的规定的状态，判定计算出的所述状态是否是预先确定的状态；以及

存储部，在所述判定部判定为计算出的所述对象物体候补区域的所述状态是所述预先确定的状态的情况下，存储被做出该判定的所述追踪对象候补区域。

3.如权利要求2所述的追踪对象选择装置，其中，

所述判定部计算表示所述状态的分数，

所述存储部存储所述追踪物体候补区域的所述图像和计算出的该图像的所述状态的所述分数。

4.如权利要求2所述的追踪对象选择装置，其中，

所述判定部将计算出的表示所述状态的分数与预先存储于所述存储部的分数进行比较，判定是否在所述存储部中更新计算出的所述分数、和计算出的所述分数所示的所述状态的所述图像，

在所述判定部判定为进行更新的情况下，将预先存储于所述存储部的所述分数、和与预先存储的该分数对应地存储的图像分别更新为计算出的所述分数、和计算出的该分数的所述图像。

5.如权利要求2所述的追踪对象选择装置，其中，

所述特征提取部提取表示所述追踪物体候补区域的所述图像所呈现的朝向的特征量，

所述判定部基于提取出的所述特征量，判定该特征量所示的所述朝向是否是规定的朝向，

在判定为是所述规定的朝向的情况下，将提取出所述特征量的所述追踪物体候补区域，存储于所述存储部，所述特征量表示被做出该判定的所述朝向。

6.如权利要求5所述的追踪对象选择装置，其中，

所述追踪物体候补区域是人物的脸部的区域，

所述特征提取部作为所述特征量提取脸部中心坐标、鼻子位置坐标、眼睛位置坐标以及脸部尺寸，

所述判定部根据所述脸部中心坐标与所述鼻子位置坐标这两个坐标间之差、所述脸部中心坐标与两个所述眼睛位置坐标的中心的坐标这两个坐标间之差的两个所述差，判定是否是所述规定的朝向。

7.如权利要求2所述的追踪对象选择装置，其中，

所述特征提取部提取表示所述追踪物体候补区域的人物的脸部表情的特征量，

所述判定部基于提取出的该特征量，判定所述人物的所述脸部表情是否是笑脸的表情。

8.如权利要求2所述的追踪对象选择装置，其中，

所述特征提取部从所述追踪物体候补区域的物体提取文字识别所需的特征量，

所述判定部基于提取出的该特征量判定是否进行了该物体所出现的文字的文字识别。

9.如权利要求2所述的追踪对象选择装置，其中，

所述特征提取部从所述追踪物体候补区域的物体提取物体识别所需的特征量，

所述判定部进行预先登录于所述存储部的特征与提取出的该特征量所示的特征之间的匹配，进行判定。

10.如权利要求2所述的追踪对象选择装置，其中，

所述合成部除了所述追踪物体候补区域的图像之外，还对所述判定部得到的附加信息也进行合成。

11.如权利要求1所述的追踪对象选择装置，其中，

该追踪对象选择装置是摄像机，

具备对被摄体的一个影像进行摄像的摄像元件，

所述显示部显示摄像到的所述一个影像和该一个影像的被摄体的另一个影像，

所述选择部在对所显示的所述另一个影像进行了操作的情况下，将摄像到的所述一个影像的所述被摄体选择为预先确定的处理的追踪中的追踪的对象，

多个时刻之中的第二时刻所显示的所述另一个影像的位置是与第一时刻的该另一个影像的位置相同的位置。

12.如权利要求11所述的追踪对象选择装置，其中，

所显示的所述另一个影像中的所述被摄体的尺寸是预先确定的阈值以上的尺寸，不是比该阈值小的尺寸。

13.如权利要求11或12所述的追踪对象选择装置，其中，

所显示的所述另一个影像中的所述被摄体的方向是与预先确定的方向相同的方向，不是不同的方向。

14.如权利要求13所述的追踪对象选择装置，其中，

所述摄像元件在对所述一个影像即之后的影像进行摄像之前，对之前的影像进行摄像，该之前的影像是对与该之后的影像的所述被摄体相同的被摄体进行拍摄而得，并且被拍摄的该被摄体的方向是与所述预先确定的方向相同的方向，

所述显示部显示通过利用摄像到的所述之前的影像的信息而生成的、与所述预先确定的方向相同方向的所述另一个影像。

15.如权利要求11～14中任一项所述的追踪对象选择装置，其中，

所述显示部显示根据除了所述被摄体的所述一个影像和所述另一个影像以外的、该被摄体的再一个影像生成的、表示从多个被摄体确定出该被摄体的文字的影像，作为所述另一个影像。

16.如权利要求15所述的追踪对象选择装置，其中，

所述合成部根据除了所述另一个影像和所述另一个影像以外的所述再一个影像，生成将通过文字识别确定出的所述文字相对于该再一个影像进行合成后的影像，

所述显示部将生成的该影像显示为所述另一个影像。

17.一种集成电路，设置在对追踪对象进行选择的追踪对象选择装置中，其中，

该集成电路具备：

物体检测部，从输入图像检测规定的物体；

显示控制部，使包含有在所述合成部中在所述固定位置对所述图像进行合成后的、该合成后图像在内的所述输入图像显示在显示部；以及

18.一种追踪对象选择方法，用于对追踪对象进行选择，其中，

该追踪对象选择方法包括：

物体检测步骤，从输入图像检测规定的物体；

追踪步骤，对所述物体检测步骤检测出的所述物体进行追踪，计算被追踪的该物体所处的追踪物体候补区域；

合成步骤，在输入图像中的固定位置，对所述追踪部计算出的所述追踪物体候补区域的图像进行合成；

显示步骤，对包含有在所述合成步骤中在所述固定位置对所述图像进行合成后的、该合成后图像在内的所述输入图像进行显示；以及

选择步骤，在使用者对在所述显示步骤所显示的合成后的所述输入图像中的所述固定位置显示的、合成后的所述图像进行了操作的情况下，将在被进行了所述操作的所述图像中检测出的所述物体选择为预先确定的处理的追踪中的所述追踪对象。

19.一种计算机程序，用于使计算机对追踪对象进行选择，其中，

使计算机执行如下步骤：

物体检测步骤，从输入图像检测规定的物体；

追踪步骤，使所述物体检测步骤检测出的所述物体进行追踪，计算被追踪的该物体所处的追踪物体候补区域；

显示控制步骤，使包含有在所述合成步骤中在所述固定位置对所述图像进行合成后的、该合成后图像在内的所述输入图像显示在显示部；以及

选择步骤，在使用者对在所述显示部所显示的合成后的所述输入图像中的所述固定位置显示的、合成后的所述图像进行了操作的情况下，将在被进行了所述操作的所述图像中检测出的所述物体选择为预先确定的处理的追踪中的所述追踪对象。