CN101383000A

CN101383000A - 信息处理装置，信息处理方法和计算机程序

Info

Publication number: CN101383000A
Application number: CNA2008102139672A
Authority: CN
Inventors: 大谷伸弥; 大久保厚志
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-09-03
Filing date: 2008-09-01
Publication date: 2009-03-11
Anticipated expiration: 2028-09-01
Also published as: JP2009059257A; US8295556B2; KR20090024086A; US20090060291A1; EP2031545A2; CN101383000B

Abstract

本发明涉及一种信息处理装置，信息处理方法和计算机程序。信息处理装置包括检测在图像数据中包含的面部区域的面部检测单元、从由所述面部检测单元检测的所述面部区域检测面部成分的面部成分检测单元、和对被所述面部成分检测单元检测到面部成分的面部图像进行视线鉴别处理的视线鉴别单元。所述视线鉴别单元根据针对视线鉴别词典与输入的面部图像数据的校准处理，进行用于鉴别被检测到所述面部成分的所述面部图像数据的视线方向是处于视线指向照相机方向的正状态还是处于视线不指向照相机方向的负状态的处理，所述视线鉴别词典存储有包含与所述各个状态对应的分类数据的训练数据。

Description

信息处理装置，信息处理方法和计算机程序

相关申请的交叉参考

本发明包含涉及2007年9月3日在日本专利局提交的日本专利申请JP2007-227262的主题，其全部内容通过引用结合与此。

技术领域

本发明涉及一种信息处理装置、信息处理方法和计算机程序，尤其涉及一种用于进行下述处理的信息处理装置、信息处理方法和计算机程序，即通过分析由照相机拍摄的图像来检测拍摄图像中包含的人、动物等的视线方向。

背景技术

例如当可从由照相机获得的图像判断人，诸如狗或猫之类的宠物，或者动物的视线时，可在视线转向照相机的时刻操作快门。因此，可减小拍摄画面中的不足。当把用于进行对视线的这种判断的处理的程序例如结合在移动图像生成软件中时，可有效挑选出移动图像，例如从大量拍摄数据中选出包含正在看前方的人的图像。

当在交互系统(如电视会议系统)中结合视线判断处理执行程序时，可通过根据视线进行照相机的切换、照相机方向的设定、变焦等进行平稳的交互。

作为公开了用于从由照相机拍摄的图像数据进行视线判断的技术的一种现有技术，具有视线方向检测。视线方向检测是一种用于估测在照相机中用户的观看方向的技术。通过读取虹膜位置之间的精确位置关系进行所述视线方向检测。例如，在“Passive Driver Gaze Tracking with ActiveAppearance Models”，T.Ishikawa，S.Baker，I.Matthews，and T.Kanade，Proceedings of the 11th World Congress on Intelligent TransportationSystems，October，2004(之后称作非专利文献1)公开的技术中，通过AAM(活动外观模型(Active Appearance Models))计算检测的面部的姿态，从眼睛的部分检测虹膜的位置，从眼睛与虹膜之间的位置关系估测眼球的姿态，并通过将眼球的姿态与面部的姿态结合来估测总的视线方向。

然而，在非专利文献1中，为了估测眼球的姿态，需要虹膜和精细的图像输入。为了该目的，必须使用高性能高分辨率照相机。当一般的用户在房子的起居室中用设置在距用户2m到3m位置中的照相机进行拍摄时，很难使用具有大约一百万像素的普通照相机。

为了实现非专利文献1中公开的技术，必须使用具有大量像素的昂贵照相机。此外，下述处理是必需的，即用于提高精确性的特定处理，例如用于对拍摄体的眼睛的一部分进行变焦拍摄以提高虹膜位置的测量精确性的处理，以及用于对眼睛照射红外线，提高眼睛的视网膜和球体部分的亮度以精确地拍摄物体的处理。此外，必须进行面部姿态估测，以估测眼睛的位置和眼球的姿态。因此，处理比较复杂，视线方向检测中的误差增加。

在“Line-of-Sight Direction Recognition for an Interactive System”，Toshihiko Yamahata and Shinya Fujie，Image Recognition andUnderstanding Symposium(MIRU2006)中，公开了下述一种方法，即放弃模拟值的视线方向估测，根据将视线方向分为十类的处理来进行视线方向判断。当以这样的方式在预定范围中将视线方向分类时，不必估测眼球的精确姿态。可通过应用PCA(主成分分析)，LDA(线性鉴别分析)等从眼睛部分的图像输出识别结果。结果，解决了由于识别装置串行化(recognizer serialization)导致的误差分散的问题。

然而，为了用PCA(主成分分析)二维地压缩眼睛部分的图像并用LDA(线性鉴别分析)线性鉴别图像，必须解决将视线方向分类为十类的问题。然而，很难有力地(稳定地)解决该问题。

在“Line-of-Sight Measuring Method based on an Eyeball ShapeModel”，Takehiko Ohno，Naoki Takekawa，and Atsushi Yoshikawa(NTTCommunications Science Laboratories)Proceedings of the 8th ImageSensing Symposium，pp.307 to 312中，公开了一种通过角膜反射方法进行视线方向估测的方法。该方法是一种从瞳孔中心和Purkinje图像的位置估测视线的方法。通过该方法，可高度精确地估测视线。此外，因为不管面部的方向如何都可估测视线，所以该估测不受面部姿态识别装置的误差的影响。

然而，为了提取Purkinje图像，必须从相对于照相机固定的位置照射光。因此，装置比较复杂。此外，在Purkinje图像、瞳孔中心和视线方向之间的关系中存在个体差异，每次换人时都必须进行校准。

发明内容

因此，希望提供一种用于通过分析由照相机拍摄的图像来有效检测拍摄图像中包含的人、动物等的视线方向的信息处理装置、信息处理方法和计算机程序。

更具体地说，希望提供一种用于通过分析由照相机拍摄的图像来鉴别拍摄图像中包含的人、动物等的视线是否指向照相机的信息处理装置、信息处理方法和计算机程序。

依照本发明的一个实施例，提供了一种信息处理装置，该信息处理装置包括：检测在图像数据中包含的面部区域的面部检测单元、从由所述面部检测单元检测到的所述面部区域检测面部成分(面部部分)的面部成分检测单元、和对被所述面部成分检测单元检测到面部成分的面部图像进行视线鉴别处理的视线鉴别单元，其中所述视线鉴别单元根据针对视线鉴别词典与输入的面部图像数据的校准处理，进行用于鉴别被检测到所述面部成分的所述面部图像数据的视线方向是处于视线指向照相机方向的正状态还是处于视线不指向照相机方向的负状态的处理，其中所述视线鉴别词典存储有包含与所述各个状态对应的分类数据的训练数据(即学习数据)。

在依照所述实施例的信息处理装置中，所述面部成分检测单元从所述面部检测单元检测到的所述面部区域检测眼、鼻和口，且所述视线鉴别单元对被检测到眼、鼻和口的所述面部图像数据进行所述视线鉴别处理。

在依照所述实施例的信息处理装置中，所述视线鉴别单元根据利用PixDif算法的处理进行所述视线鉴别处理，所述PixDif算法使用在图像的特定位置中的像素对的差值作为比较和校对数据。

在依照所述实施例的信息处理装置中，所述信息处理装置进一步包括图像处理单元，所述图像处理单元对被所述面部成分检测单元检测到面部成分的所述面部图像进行旋转处理、尺寸标准化处理和面部区域切片处理，所述视线鉴别单元输入由所述图像处理单元处理过的所述图像并进行所述视线鉴别处理。

在依照所述实施例的信息处理装置中，所述面部检测单元参照存储有各种面部区域图像信息的面部检测词典，使用PixDif算法对所述图像数据中包含的面部区域进行面部区域检测处理，所述PixDif算法使用在图像的特定位置中的像素对的差值作为比较和校对数据。

在依照所述实施例的信息处理装置中，所述面部成分检测单元参照存储有各种面部成分图像信息的面部成分检测词典，使用PixDif算法进行从所述面部检测单元检测到的面部区域检测面部成分的面部成分检测处理，所述PixDif算法使用在图像的特定位置中的像素对的差值作为比较和校对数据。

在依照所述实施例的信息处理装置中，所述信息处理装置进一步包括进行声音识别处理的声音识别单元，所述信息处理装置将所述视线鉴别单元中的视线鉴别结果和所述声音识别单元中的声音识别结果组合，并对讲话者进行分析。

在依照所述实施例的信息处理装置中，所述信息处理装置是成像装置，所述信息处理装置进一步包括快门控制单元，其被输入所述视线鉴别单元中的视线鉴别结果，并对所述成像装置进行快门控制，当所述成像装置所获取图像中包含的面部的视线中包含了视线不指向照相机方向的所述负状态中的面部图像时，所述快门控制单元进行用于停止快门操作的控制。

在依照所述实施例的信息处理装置中，所述信息处理装置进一步包括帧选择单元，其被输入由所述视线鉴别单元鉴别的与多个图像帧对应的视线鉴别结果，并对所述图像数据进行选择处理，且所述帧选择单元应用所述正状态和所述负状态的各种状态信息，并进行图像帧的选择。

在依照所述实施例的信息处理装置中，所述信息处理装置是成像装置，所述信息处理装置进一步包括警告输出单元，其被输入所述视线鉴别单元中的视线鉴别结果，并进行警告输出，且当所述成像装置所获取图像中包含的面部的视线中包含了视线不指向照相机方向的所述负状态中的面部图像时，所述警告输出单元进行警告输出。

在依照所述实施例的信息处理装置中，所述信息处理装置将所述视线鉴别单元中的视线鉴别结果应用于数据检索处理，进行用于选择并提取出视线指向照相机方向的所述正状态或视线不指向照相机方向的所述负状态中的图像的检索处理。

在依照所述实施例的信息处理装置中，所述信息处理装置进行下述处理，即用于将所述图像数据的视线鉴别处理结果存储在存储单元中，作为存储在所述存储单元中的所述图像数据的对应信息。

依照本发明的另一个实施例，提供了一种在信息处理装置中进行的信息处理方法，所述信息处理方法包括下述步骤：面部检测单元检测在图像数据中包含的面部区域、面部成分检测单元从在所述面部检测步骤检测到的所述面部区域检测面部成分、以及视线鉴别单元对在所述面部成分检测步骤中被检测到面部成分的面部图像进行视线鉴别处理，其中所述视线鉴别步骤是进行下述处理的步骤，即用于根据针对视线鉴别词典与输入的面部图像数据的校准处理，鉴别被检测到所述面部成分的所述面部图像数据的视线方向是处于视线指向照相机方向的正状态还是处于视线不指向照相机方向的负状态，所述视线鉴别词典存储有包含与所述各个状态对应的分类数据的训练数据。

在依照所述实施例的信息处理方法中，所述面部成分检测步骤是从所述面部检测步骤中检测到的所述面部区域检测眼、鼻和口的步骤，所述视线鉴别步骤是对被检测到眼、鼻和口的所述面部图像数据进行所述视线鉴别处理的步骤。

在依照所述实施例的信息处理方法中，所述视线鉴别步骤是根据利用PixDif算法的处理进行所述视线鉴别处理的步骤，所述PixDif算法使用在图像的特定位置中的像素对的差值作为比较和校对数据。

在依照所述实施例的信息处理方法中，所述信息处理方法进一步包括图像处理单元对在所述面部成分检测步骤中被检测到面部成分的所述面部图像进行旋转处理、尺寸标准化处理和面部区域切片处理的步骤，所述视线鉴别步骤是输入在所述图像处理步骤中处理过的所述图像并进行所述视线鉴别处理的步骤。

在依照所述实施例的信息处理方法中，所述面部检测步骤是参照存储有各种面部区域图像信息的面部检测词典，使用PixDif算法对所述图像数据中包含的面部区域进行面部区域检测处理的步骤，所述PixDif算法使用在图像的特定位置中的像素对的差值作为比较和校对数据。

在依照所述实施例的信息处理方法中，所述面部成分检测步骤是参照存储有各种面部成分图像信息的面部成分检测词典，使用PixDif算法进行从所述面部检测单元检测到的面部区域检测面部成分的面部成分检测处理的步骤，所述PixDif算法使用在图像的特定位置中的像素对的差值作为比较和校对数据。

在依照所述实施例的信息处理方法中，所述信息处理方法进一步包括：声音识别单元进行声音识别处理的步骤；和数据处理单元将视线鉴别结果和所述声音识别单元中的声音识别结果组合并对讲话者进行分析的步骤。

在依照所述实施例的信息处理方法中，所述信息处理装置是成像装置，所述信息处理方法进一步包括：快门控制单元输入在所述视线鉴别步骤中的视线鉴别结果并对所述成像装置进行快门控制的步骤，所述快门控制步骤是下述步骤，即当所述成像装置所获取图像中包含的面部的视线中包含了视线不指向照相机方向的所述负状态中的面部图像时进行用于停止快门操作的控制。

在依照所述实施例的信息处理方法中，所述信息处理方法进一步包括：帧选择单元输入在所述视线鉴别步骤中鉴别的与多个图像帧对应的视线鉴别结果，并对所述图像数据进行选择处理的步骤，所述帧选择步骤是应用所述正状态和所述负状态的各种状态信息，进行图像帧的选择的步骤。

在依照所述实施例的信息处理方法中，所述信息处理装置是成像装置，所述信息处理方法进一步包括：警告输出单元输入所述视线鉴别步骤中的视线鉴别结果并进行警告输出的步骤，所述警告输出步骤是当所述成像装置所获取图像中包含的面部的视线中包含了视线不指向照相机方向的所述负状态中的面部图像时进行所述警告输出的步骤。

在依照所述实施例的信息处理方法中，所述信息处理方法进一步包括下述步骤，即检索单元将所述视线鉴别单元中的视线鉴别结果应用于数据检索处理，并进行用于选择并提取出视线指向照相机方向的所述正状态或视线不指向照相机方向的所述负状态中的图像的检索处理。

在依照所述实施例的信息处理方法中，所述信息处理方法进一步包括进行下述处理的步骤，即数据处理单元将所述图像数据的视线鉴别处理结果存储在存储单元中，作为存储在所述存储单元中的所述图像数据的对应信息。

依照本发明的另一个实施例，提供了一种用于使信息处理装置进行信息处理的计算机程序，所述计算机程序包括：使面部检测单元检测图像数据中包含的面部区域的面部检测步骤、使面部成分检测单元从在所述面部检测步骤中检测到的面部区域检测面部成分的面部成分检测步骤、和使视线鉴别单元对在所述面部成分检测步骤中被检测到面部成分的面部图像进行视线鉴别处理的视线鉴别步骤，其中所述视线鉴别步骤是使所述视线鉴别单元进行下述处理的步骤，即用于根据针对视线鉴别词典与输入的面部图像数据的校准处理，鉴别被检测到所述面部成分的所述面部图像数据的视线方向是处于视线指向照相机方向的正状态还是处于视线不指向照相机方向的负状态，所述视线鉴别词典存储有包含与所述各个状态对应的分类数据的训练数据。

依照本发明的所述实施例的计算机程序例如是通过存储介质或以计算机可读形式提供的通讯介质提供给可进行各种程序编码的通用计算机系统的计算机程序。通过以计算机可读形式提供所述程序，计算机系统可根据所述程序进行处理。

通过根据后面所述本发明的实施例和附图的更加详细的描述，本发明的其他目的、特性和优点将变得显而易见。在该说明书中，系统是多个装置的逻辑组的结构，并不限于其中在同一框架中设置具有单个结构的装置的系统。

在发明的一个实施例中，检测图像中包含的面部区域和面部成分，如眼、鼻和口。所述视线鉴别单元对其中被检测到眼、鼻和口的面部图像进行视线鉴别处理。作为所述视线鉴别处理，所述视线鉴别单元使用其中存储有包含与各个状态对应的分类数据的训练数据的视线鉴别词典，进行下述处理，即用于鉴别被检测到面部成分的面部图像数据的视线是处于视线指向照相机方向的正状态还是处于视线不指向照相机方向的负状态。具体地说，所述视线鉴别单元通过应用所述使用图像特定位置中的像素对的差值作为比较和校对数据的PixDif算法来进行所述视线鉴别处理。依照所述实施例，所述视线鉴别是基于对两个状态(即视线指向照相机方向的状态和其中视线不指向照相机方向的状态)的清楚鉴别。因此，鉴别处理的精度较高，鉴别结果的使用价值也较高。

附图说明

图1显示了用于解释由依照本发明一个实施例的信息处理装置进行的处理的概述的视图；

图2是用于解释依照所述实施例的所述信息处理装置的结构和处理的视图；

图3A到3D是用于解释可应用在依照所述实施例的所述信息处理装置中的掩模(mask)设定的例子的视图；

图4是用于解释在依照所述实施例的所述信息处理装置中进行的视线鉴别结果的估测数据的曲线图；

图5是用于解释在依照所述实施例的所述信息处理装置中进行的视线鉴别处理的流程图；

图6是用于解释依照应用于图像和声音识别系统的实施例的视线鉴别处理的处理程序的流程图；

图7是用于解释依照应用于成像装置的实施例的视线鉴别处理的处理程序的流程图；

图8是用于解释依照应用于图像数据管理系统的实施例的视线鉴别处理的处理程序的流程图；

图9是用于解释依照应用于成像装置的实施例的视线鉴别处理的处理程序的流程图；

图10A和10B是用于解释依照其中应用了视线鉴别处理的实施例的数据检索装置的结构和处理的视图；

图11A和11B是用于解释依照其中应用了视线鉴别处理的实施例，移动图像数据管理装置的结构和处理的视图；

图12是用于解释作为依照所述实施例的所述信息处理装置一个例子的成像装置的硬件结构的一个例子的视图；

图13是用于解释作为依照所述实施例的所述信息处理装置一个例子的PC的硬件结构的一个例子的视图。

具体实施方式

下面将参照附图解释依照本发明实施例的信息处理装置、信息处理方法和计算机程序的细节。

首先，参照图1解释通过依照一个实施例的信息处理装置进行的处理的概述。依照所述实施例的所述信息处理装置是下述一种信息处理装置，即其对照相机的拍摄图像进行分析并进行用于检测拍摄图像中包含的人、动物等面部的眼睛的视线方向的处理。所述信息处理装置鉴别视线是否指向照相机，具体地说鉴别下述两个状态：

正状态：视线指向照相机的面部(包括正面和侧面)；和

负状态：视线不指向照相机的面部，例如转向一侧的面部或闭眼的面部。

依照所述实施例的所述信息处理装置鉴别由照相机拍摄的拍摄图像中包含的人、动物等的面部的眼睛的视线方向是处于正状态还是处于负状态。图1中显示了具体的例子。

图1中的(A)是正状态的例子，即视线指向照相机的面部。图1中的(B)是负状态的一个例子，即视线不指向照相机的面部。

参照图2及随后的附图解释依照所述实施例的所述信息处理装置的结构和处理。图2是显示依照所述实施例的所述信息处理装置的一个例子的结构的视图。依照所述实施例的所述信息处理装置通过用于结合低性能训练机(低端训练器)来输出高精度鉴别结果的所谓的强化(boosting)，鉴别由照相机拍摄的拍摄图像中包含的人、动物等的面部的眼睛的视线方向是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态。

图2中所示的信息处理装置100包括面部检测单元101、眼鼻口检测单元102、图像处理单元103和视线鉴别单元104。图像处理单元103包括旋转修正处理单元111、面部尺寸标准化处理单元112、和面部区域切片单元113。信息处理装置100还包括在面部检测单元101中的面部检测处理中使用的面部检测词典121、在眼鼻口检测单元102中的眼鼻口检测处理中使用的眼鼻口检测词典122、和用于在视线鉴别单元104中的视线鉴别处理的视线鉴别词典123。

在图2中所示的信息处理装置100中，在面部检测单元101、眼鼻口检测单元102、和视线鉴别单元104中使用强化的低性能训练机(低端训练器)。这些处理单元进行利用PixDif算法的处理，该PixDif算法使用在训练(即学习)时获得的图像的特定位置中的像素对的差值作为比较和校对数据。例如在JP-A-2005-284348中公开了该算法的细节。

当输入作为视线鉴别处理的目标的图像时，首先，面部检测单元101检测面部是否在输入图像帧中。通过使用面部检测词典121进行该面部检测处理。如上所述，面部检测处理作为使用强化的低性能训练机(低端训练器)的处理而进行，并通过利用所述使用通过训练而获得的图像特定位置中的像素对的差值作为比较和校对数据的PixDif算法的处理来进行。换句话说，面部检测单元101参照其中存储有各种面部区域图像信息的面部检测词典121，利用所述使用在图像特定位置中的像素对的差值作为比较和校对数据的PixDif算法对图像数据中的面部区域进行面部区域检测处理。

在所述面部检测词典121中存储有通过使用在图像特定位置中的像素对的差值作为比较和校对数据的所述PixDif算法进行的面部检测的训练结果(即学习结果)。所述面部检测单元101根据输入图像特定位置中的像素对的差值数据与其中存储有训练结果的所述面部检测词典121中的数据的校对，判断面部是否处于输入图像帧中。

由所述面部检测单元101检测的面部检测信息与图像一起输入到作为面部成分检测单元的所述眼鼻口检测单元102。所述眼鼻口检测单元102进行下述处理，即用于检测由所述面部检测单元101检测到的面部中的面部成分，即眼、鼻和口。通过使用面部成分检测词典，即眼鼻口检测词典122进行该眼鼻口检测处理，作为使用强化的低性能训练机(低端训练器)的处理，所述眼鼻口检测处理通过利用所述使用通过训练而获得的图像特定位置中的像素对的差值作为比较和校对数据的PixDif算法的处理来进行。换句话说，作为面部成分检测单元的所述眼鼻口检测单元102参照其中存储有各种面部成分图像信息的面部成分检测词典，即所述眼鼻口检测词典122，利用所述使用在图像特定位置中的像素对的差值作为比较和校对数据的PixDif算法进行面部成分检测处理，用于从由所述面部检测单元101检测的面部区域检测面部成分。

在所述眼鼻口检测词典122中存储有通过使用在图像特定位置中的像素对的差值作为比较和校对数据的所述PixDif算法进行的眼鼻口检测的训练结果。所述眼鼻口检测单元102根据输入图像特定位置中的像素对的差值数据与其中存储有训练结果的所述眼鼻口检测词典122中的数据的校对，对由所述面部检测单元101检测到的面部中的眼、鼻和口进行检测处理。

在所述眼鼻口检测单元102中的所述眼鼻口检测处理中，从处理的目标移除未被全部检测到眼、鼻和口的面部，对所述面部不进行视线鉴别。只选择眼、鼻和口未被全部检测到的面部作为视线鉴别目标的面部，从所述面部获取眼、鼻和口的位置关系信息。

图像数据与眼、鼻和口全部被检测的所述面部的选择信息以及所述眼、鼻和口的位置关系信息一起输入到所述图像处理单元103。所述图像处理单元103的所述旋转修正处理单元111使用眼、鼻和口之间的位置关系对被判断为视线鉴别目标的面部区域进行图像旋转修正。换句话说，所述旋转修正处理单元111进行用于竖起倾斜面部的处理。

经过旋转修正的图像数据输入到所述面部尺寸标准化处理单元112。所述面部尺寸标准化处理单元112使用眼、鼻和口的距离信息进行图像尺寸的放大和缩小，以使面部部分的尺寸等于提前设定的标准尺寸并进行尺寸标准化处理。

经过标准化处理的图像输入到所述面部区域切片单元113，进行用于将面部图像区域部分进行切片的处理。该切片的图像输出到所述视线鉴别单元104。

所述视线鉴别单元104对所述切片的图像中包含的面部进行视线鉴别处理。通过使用所述视线鉴别词典123进行所述视线鉴别处理，作为使用强化的低性能训练机(低端训练器)的处理，所述视线鉴别处理通过利用所述使用通过训练而获得的图像特定位置中的像素对的差值作为比较和校对数据的PixDif算法的处理来进行。

在所述视线鉴别词典123中，存储有包括与其中视线指向照相机方向的正状态和其中视线不指向照相机方向的负状态对应的分类数据在内的训练数据，即视线鉴别的训练结果。所述视线鉴别单元104根据所述输入图像特定位置中的像素对的差值数据与其中存储有所述训练结果的所述视线鉴别词典123的数据的校对进行所述视线鉴别处理。

作为对所述切片的图像中包含的面部的视线鉴别处理，所述视线鉴别单元104根据利用所述使用通过训练而获得的图像特定位置中的像素对的差值作为比较和校对数据的PixDif算法的处理，鉴别图像中包含的人、动物等的面部的眼睛的视线方向是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态，并输出鉴别结果。

在其中存储有所述训练结果的所述视线鉴别词典123中存储有被分为正状态和负状态两类的训练数据(学习数据)。所述视线鉴别单元104根据利用其中存储有所述训练结果的所述视线鉴别词典123中的数据的校准，进行视线鉴别。

当在输入图像中包含多个面部时，在完成了一个面部的处理之后，对于下一面部重复相同的处理。最后，对图像中检测到的所有面部进行处理，并完成所述处理。

根据经过视线鉴别的目标，适当使用图2中所示的三个词典，即用于在所述面部检测单元101中的面部检测处理的所述面部检测词典121、用于在所述眼鼻口检测单元102中的眼鼻口检测处理的所述眼鼻口检测词典122、和用于在所述视线鉴别单元104中的视线鉴别处理的所述视线鉴别词典123。例如，当进行人的视线鉴别时，使用用于人的词典。对于猫使用用于猫的词典，对于狗使用用于狗的词典。

如上所述，作为用于在所述切片的图像中包含的面部的视线鉴别处理，所述视线鉴别单元104根据利用所述使用在训练时获得的图像特定位置中的像素对的差值作为比较和校对数据的PixDif算法的处理，鉴别图像中包含的人、动物等的面部的眼睛的视线方向是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态。当进行该处理时，如果对整个面部图像进行所述处理，则处理时间较长。因此，优选进行用于限制处理范围的处理，如将利用所述使用像素对的差值作为对比和校对数据的PixDif算法的处理的应用范围限制于眼睛的区域。

例如，如图3A到3D中所示，可通过使用用于选择设定为处理目标的像素对的掩模进行有效的处理。图3A到3D中显示了下面所述的几种掩模的例子。

图3A：用于将包含双眼的矩形区域设定为处理目标区域的掩模。

图3B：用于将各个眼睛的单独区域设定为处理目标区域的掩模。

图3C：用于将各个眼睛和鼻子上部区域设定为处理目标区域的掩模。

图3C：用于将各个眼睛和整个鼻子设定为处理目标区域的掩模。

通过设定这些掩模并限制处理区域，可有效产生训练结果并进行鉴别处理。

图4中显示了在参照图2所述的所述信息处理装置中的所述视线鉴别结果的性能评价数据。主体(拍摄用户)将面部的方向设定在相对于照相机的前方向为-5度到+5度的范围中，视线指向各种方向，并使用图2中所示的信息处理装置进行所述视线鉴别。

图4是作为ROC曲线的显示在不同房间(房间1和2)中的实验结果的曲线图。曲线的纵坐标对应于鉴别结果的误差率，横坐标对应于修正率。在所述视线鉴别中，鉴别视线是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态。大部分实验结果是正确的。

参照图5中所示的流程图解释图2中所示的所述信息处理装置使用的所述视线鉴别处理的顺序。当输入作为视线鉴别处理的目标的图像时，首先，在步骤S101中，进行用于检测其中面部是否在输入图像帧中的面部检测处理。通过图2中所示的所述信息处理装置的所述面部检测单元101的处理进行该处理。如上所述，所述面部检测单元101使用所述面部检测词典121进行下述处理，即根据利用所述使用像素对的差值作为比较和校对数据的PixDif算法的处理来检测面部是否在所述输入图像帧中。

在步骤S102中，鉴别存在还是不存在未处理的图像，当没有未处理的图像时，完成所述处理。当存在未处理的图像时，所述信息处理装置进行到步骤S103。在步骤S103中，进行所述眼鼻口检测处理。通过图2中所示的所述信息处理装置的所述眼鼻口检测单元102的处理进行该处理。所述眼鼻口检测单元102根据利用所述使用在图像的特定位置中的像素对的差值作为比较和校对数据的PixDif算法的处理，使用所述眼鼻口检测词典122对由所述面部检测单元101检测到的面部进行所述眼鼻口检测处理。

在步骤S104中，判断在所述眼鼻口检测处理中是否检测到所有的眼、鼻和口。如上所述，在所述眼鼻口检测单元102中的所述眼鼻口检测处理中，从处理目标移除其中未被全部检测到眼、鼻和口的面部，不进行视线鉴别。换句话说，所述信息处理装置进行到步骤S111，从所述处理目标移除所述面部。所述信息处理装置进行到步骤S101，对下一面部进行所述处理。

只对眼、鼻和口全部被检测到的面部进行步骤S105中的处理及随后的处理。步骤S105到S107中的处理是图2中所示的所述图像处理单元103的处理。首先，在步骤S105中，所述图像处理单元103的所述旋转修正处理单元111使用眼、鼻和口之间的位置关系对设定为所述视线鉴别目标的面部区域施加图像旋转修正。换句话说，所述旋转修正处理单元111进行用于竖起倾斜面部的处理。

在步骤S106中，所述面部尺寸标准化处理单元112使用眼、鼻和口的距离信息通过放大和缩小图像尺寸进行尺寸标准化处理，以使面部部分的尺寸等于提前设定的标准尺寸。在步骤S107中，所述面部区域切片单元113进行用于将从经过标准化处理的图像切出面部图像区域部分的处理。

在步骤S108中，进行视线鉴别处理。通过图2中所示的所述信息处理装置的所述视线鉴别单元104进行该处理。所述视线鉴别单元104根据利用所述使用通过训练而获得的图像特定位置中的像素对的差值的PixDif算法的处理，使用所述视线鉴别词典123对切片的图像中包含的面部进行所述视线鉴别处理。作为对所述切片的图像中包含的面部的视线鉴别处理，所述视线鉴别单元104鉴别图像中包含的人、动物等的面部的眼睛的视线方向是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态。当对于一个面部图像完成了该视线鉴别处理时，所述信息处理装置返回到步骤S101，移向下一个面部图像的处理。当在步骤S102中判断不存在未处理的图像时，完成所述处理。

在依照该实施例的所述信息处理装置中，通过图2中所示的所述信息处理装置的所述视线鉴别单元104进行的处理很明显是用于鉴别图像中包含的人、动物等的面部的眼睛的视线方向是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态的双态鉴别处理。通过利用所述使用在特定位置中的像素对的差值作为对比和校对数据的PixDif算法获取训练数据的所述视线鉴别词典123进行该双态鉴别处理。通过应用从大量训练数据产生的词典可进行精确的视线鉴别。根据视线鉴别目标，通过适当使用所述视线鉴别词典可实现更精确的识别。例如，当进行人的视线鉴别时，使用用于人的词典。对于猫使用用于猫的词典，对于狗使用用于狗的词典。

参照图6及随后的附图解释使用图2中所示的所述信息处理装置的具体数据处理应用的几个例子。下面解释的处理是下面四种处理(a)到(d)：

(a)应用在图像和声音识别系统中的例子；

(b)应用(A)在成像装置中的例子；

(c)应用在图像数据管理系统中的例子；和

(d)应用(B)在成像装置中的例子。

作为这几种处理，在信息处理装置(如PC)中进行(a)和(c)，在成像装置，如照相机和摄像机中进行(b)和(d)。下面解释这几种处理的处理顺序。

(a)应用在图像和声音识别系统中的例子。

将参照图6中所示的流程图解释其中将上述视线鉴别处理应用于图像和声音识别系统的应用的一个例子。在信息处理装置(如PC)中进行图6中所示的流程。在所述信息处理装置的存储单元中存储有图6中所示的处理顺序和用于进行上面参照图5解释的视线鉴别处理的程序。通过CPU等构成的控制单元进行图6中所示的处理顺序和上面参照图5解释的视线鉴别处理。

进行图6中所示的处理的所述信息处理装置包括进行声音识别处理的声音识别单元。所述信息处理装置将视线鉴别结果和所述声音识别单元中的声音识别结果组合，进行讲话者的分析。将解释图6所示的流程中的各个步骤中的处理。

在图6所示的流程的步骤S201中，输入图像和声音信息。所述图像通过照相机输入所述信息处理装置，所述声音通过麦克风输入所述信息处理装置。

在步骤S202中，所述信息处理装置对输入的图像进行视线鉴别处理。所述信息处理装置根据其中应用了图2中所示处理结构的处理，具体地说是图5中所示的流程图，进行所述视线鉴别处理。所述视线鉴别处理的结果是关于所述输入的图像中包含的面部的视线是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态的鉴别结果。

与基于图像的所述视线鉴别处理同步，在步骤S203中，所述信息处理装置根据所述输入的声音信息进行声音识别处理。该声音识别处理是其中应用了现有的声音识别技术的处理。

在步骤S204中，所述信息处理装置使用基于所述图像的视线鉴别结果和基于所述声音的声音识别结果进行滤除处理。具体地说，例如，在指定发出所述声音识别结果的话语的人时，所述信息处理装置例如进行下述处理，即使用基于所述图像的视线鉴别结果指定正在看照相机方向的人为讲话者。

在步骤S205中，所述信息处理装置确定下一动作，并根据通过使用所述视线鉴别结果和基于所述声音的所述声音识别结果获得的滤除处理结果，进行所述确定的动作。例如，所述信息处理装置进行例如用于将照相机变焦到所述讲话者的处理。可替换地，在记录话音时，所述信息处理装置可进行用于将所述讲话者的识别信息记录为元数据的处理。

一般地，在所述声音识别处理中，通常产生识别误差。例如，当人在照相机周围产生噪音或者存在各种噪音时，即使使用者不发出话语，也自动进行声音识别，并通常输入命令(例如，用于照相机控制或数据记录的命令)。这在交互系统中是重大的问题。当使用下述系统，即仅当视线指向照相机时才与所述声音识别协同进行所述视线鉴别处理并接收命令的系统时，所述系统能取消不必要的错误命令的执行，并能进行正确的处理。尤其是，在嘈杂的地方，如集会和现场音乐厅中，自然是彼此不脱离视线地讲话，不会听错话。在交互系统中当使用者发出命令时同时“盯住”照相机也是很自然的动作。因此，可在不对使用者施加负担的情况下进行自然的处理。

(b)应用(A)在成像装置中的例子

将参照图7中所示的流程图解释其中上述视线鉴别处理用在成像装置中的处理的一个例子。在成像装置，如数字照相机中进行图7中所示的流程。在所述成像装置的存储单元中存储有用于进行图7中所示的处理顺序和上面参照图5解释的视线鉴别处理的程序。通过CPU等构成的控制单元进行图7中所示的处理顺序和上面参照图5解释的视线鉴别处理。

根据图7中所示的流程进行处理的所述信息处理装置是成像装置。所述信息处理装置包括被输入视线鉴别单元中的视线鉴别结果的快门控制单元，对所述成像装置进行快门控制。当所述成像装置获取的图像中包含的面部的视线中包含了其中视线不指向照相机方向的负状态中的面部图像时，所述快门控制单元进行用于停止快门操作的控制。将解释图7中所示的流程的各个步骤中的处理。

在图7中所示的流程的步骤S221中，输入图像。从照相机的成像单元输入所述图像。在步骤S222中，对所述输入的图像进行视线鉴别处理。根据其中应用了图2中所示处理结构的处理，具体地说是图5中所示的流程图，进行所述视线鉴别处理。该视线鉴别处理的结果是关于所述输入的图像中包含的面部的视线是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态的鉴别结果。

在步骤S223中，根据在步骤S222中获得的视线鉴别结果进行快门控制处理。例如，当所述图像中包含的所述面部的视线指向照相机方向(正状态)时，所述快门控制单元进行用于将快门操作设定为可以工作的控制，当所述图像中包含的所述面部的视线不指向照相机方向(负状态)时，所述快门控制单元进行用于将快门操作设定为不可以工作的控制。通过该控制，拍摄者可根据所述快门操作的可能性鉴别主体的视线状态，防止他自己/她自己错误地拍摄到没有注视照相机的面部。

当所述图像中包含的所述面部的视线指向照相机方向(正状态)时，快门操作可以进行工作。在步骤S224中进行拍摄操作，在步骤S225中将拍摄的图像数据存储在所述存储单元中。

当对即使拍摄者希望拍摄图片但却不容易注视照相机的人(如婴儿)或宠物进行拍摄时，拍摄者通常被迫在用一只手吸引人或宠物的注意力的同时将另一只手放在快门开关上，等待好的拍摄机会。然而，通常很难用一只手吸引注意力。尽管拍摄者有时使用定时器功能让两只手放开进行拍摄，但对婴儿进行良好的拍摄的机会是很短的。因此，拍摄者通常错过这样的机会。然而，通过进行上述的视线鉴别，拍摄者可在确认注视照相机的主体的“良好面部”的同时进行图片拍摄。

(c)应用在图像数据管理系统中的例子

将参照图8中所示的流程图解释其中上述视线鉴别处理应用于图像数据管理系统的应用的一个例子。在信息处理装置(如PC)中进行图8中所示的流程。在所述信息处理装置的存储单元中存储有图8中所示的处理顺序和用于进行上面参照图5解释的视线鉴别处理的程序。通过CPU等构成的控制单元进行图8中所示的处理顺序和上面参照图5解释的视线鉴别处理。

在根据图8中所示的流程进行处理的所述信息处理装置中，具有被输入由所述视线鉴别单元鉴别的与多个图像帧对应的视线鉴别结果的帧选择单元，对图像数据进行选择处理。所述帧选择单元通过应用正状态和负状态的各种状态信息来选择图像帧。将解释图8中所示的流程的各个步骤中的处理。

在图8中所示的流程的步骤S241中，输入移动图像。所述移动图像例如是存储在所述信息处理装置的所述存储单元中的移动图像数据。

在步骤S242中，对形成所述输入的移动图像的各个帧图像进行视线鉴别处理。根据其中应用了图2中所示处理结构的处理，具体地说是图5中所示的流程图，进行所述视线鉴别处理。作为该视线鉴别结果的结果，获取关于所述输入的移动图像中包含的面部的视线是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态的鉴别结果，以作为与各个图像帧对应的信息。

在步骤S243中，对其中应用了与所述各个图像帧对应的视线鉴别结果的帧图像进行选择处理。例如，进行下述处理，即用于将所述图像帧分类为包含正状态中的面部图像的帧、仅包含负状态中的面部图像的帧、以及不包含面部图像的帧。

在步骤S244中，将在步骤S243中被分类的所述帧设定为索引，例如，用于显示缩略图像的图像帧。在步骤S245中，进行索引信息(缩略信息)的显示、根据分类信息对数据进行分类存储处理等。

例如，许多种的移动图像编辑软件都具有显示与各个场景对应的缩略图像并便于编辑的功能。作为产生缩略图的方法，存在使用被分割场景的第一帧的方法和以固定的帧间隔提取几个帧并将所述帧连接的方法。然而，当使用场景的第一帧和切片图像作为缩略图时，不容易理解场景的内容。因此，缩略图不会形成感观。在这种情形中，可选择图片中正在看照相机方向的人或宠物的图像，并提取出正在看照相机的“良好面部的帧”作为索引帧。因而，可实现简单的索引提取，并可提高移动图像编辑的效率。

(d)应用(B)在成像装置中的例子。

将参照图9中所示的流程图解释其中上述视线鉴别处理用在成像装置中的处理的一个例子。在成像装置，如数字照相机中进行图9中所示的流程。在所述成像装置的存储单元中存储有用于进行图9中所示的处理顺序和上面参照图5解释的视线鉴别处理的程序。通过CPU等构成的控制单元进行图9中所示的处理顺序和上面参照图5解释的视线鉴别处理。

根据图9中所示的流程进行处理的所述信息处理装置是成像装置。所述信息处理装置具有被输入了所述视线鉴别单元中的视线鉴别结果并进行警告输出的警告输出单元。当在所述成像装置获取的图像中包含的面部的视线中包含了视线不指向照相机方向的负状态中的面部图像时，所述警告输出单元进行警告输出。将解释图9中所示的流程的各个步骤中的处理。

在图9中所示的流程的步骤S261中，输入图像。从照相机的成像单元输入所述图像。在步骤S262中，对所述输入的图像进行视线鉴别处理。根据其中应用了图2中所示处理结构的处理，具体地说是图5中所示的流程图，进行所述视线鉴别处理。该视线鉴别处理的结果是关于所述输入的图像中包含的面部的视线是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态的鉴别结果。

在步骤S263中，根据在步骤S262中获得的视线鉴别结果进行用于鉴别所述输入的图像中包含的人等的面部的全部视线是否指向照相机方向的处理。当所述输入的图像中包含的人等的所述面部的所有视线都指向照相机方向时，步骤S264中的判断结果为是。完成所述处理并进行下一操作，例如拍摄处理。

另一方面，当所述输入的图像中包含的人等的所述面部的视线没有全部指向照相机方向时，步骤S264中的判断结果为否。处理进行到步骤S265，进行警告输出。例如，进行警告声音的输出和用于警告信息的警告显示处理。根据该警告，拍摄者在拍摄处理之前鉴别主体的视线状态，防止他自己/她自己错误地拍摄没有看照相机的面部。

例如，在紧随拍摄重大事件的组图之后，拍摄者希望检查所述组图是否失败。拍摄者通过使用根据图9中所示流程的视线鉴别结果，可防止他自己/她自己错误地拍摄没有看照相机的面部。在所述组图中，在左端和右端的人通常看侧方。因此，仅进行面部方向检测是不够的。拍摄者希望直到的是“是不是所有的人都在看照相机”。在依照该实施例的信息处理装置中，不是根据面部的方向进行视线鉴别，而是根据训练数据来鉴别所述输入的图像中包含的面部的视线是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态。可根据照相机获取的图像进行视线鉴别处理并在监视器等上显示警告图标等。当在监视器上显示一些面部时，还可结合各个面部进行下述处理，即显示用于仅指定视线没有指向照相机的人的识别信息的处理。

将参照图10A和10B解释使用上述视线鉴别处理的数据检索装置的结构的一个例子。图10A和10B中显示了检索处理装置的结构的例子。

图10A是从其中存储有照片等大量图像数据的数据库313检索与检索条件匹配的图像的装置的视图。通过信息处理装置(如PC)实现该检索装置。可通过使用所述信息处理装置(如PC)的功能实现图10A中所示的输入单元311、检索单元312、数据库313、视线检测单元314和显示单元315。所述视线检测单元314具有上面参照图2所述的处理结构，进行参照图5所述的所述视线鉴别处理。在所述信息处理装置的存储单元中存储有用于通过所述检测单元312进行数据检索处理、通过所述视线检测单元314进行所述视线检测处理的程序，通过CPU等构成的控制单元执行该程序。

所述输入单元311输入检索查询，用于从存储在所述数据库313中的所述大量图像数据中仅选出下述图像，即在特定期间拍摄的图像、且其中包含人的面部、同时人的面部的视线指向照相机方向的图像。

首先，所述检索单元312根据例如所述检索查询中设定的期间信息从数据库313检索所述期间中的图像数据。检索的图像传输到所述视线检测单元314，对所述检索结果的图像进行视线检测处理。换句话说，根据应用了图2中所示处理结构的处理，具体地说是图5中所示的流程图，进行所述视线鉴别处理。

所述视线检测单元314产生关于所述检索结果的图像中包含的面部的视线是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态的鉴别结果。所述视线检测单元314将判断结果信息输出到所述显示单元315。所述显示单元315进行下述处理，即用于仅选择并显示包含正状态的面部的图像，即其中视线指向照相机的图像。

与图10A中一样，图10B是从其中存储有照片等大量图像数据的数据库323检索与检索条件匹配的图像的装置的视图。该装置设置为当所述数据库323中存储有图像数据时，对所述图像数据进行视线鉴别，并将视线鉴别结果存储在所述数据库323中，作为与所述图像数据对应的元信息。

当从输入单元321输入存储在所述数据库323中的图像数据时，视线检测单元322对图像进行视线鉴别处理。换句话说，根据应用了图2中所示处理结构的处理，具体地说是图5中所示的流程图，进行所述视线鉴别处理。所述视线检测单元322产生关于所述检索结果的图像中包含的面部的视线是处于视线指向照相机方向的正状态还是处于视线不指向照相机方向的负状态的鉴别结果。所述视线检测单元322将鉴别结果信息设定为与所述图像对应的元信息，并将所述鉴别结果信息与所述图像数据一起存储在所述数据库323中。

在检索处理中，从输入单元324输入检索查询。例如，所述输入单元324输入下述检索查询，即用于从存储在所述数据库323中的所述大量图像数据中仅选出下述图像，即在特定期间拍摄的图像、且其中包含人的面部、同时人的面部的视线指向照相机方向的图像。检索单元325使用期间信息和设定在所述数据库323中的存储图像中的作为元数据的视线鉴别信息进行数据检索，获取与所述检索查询匹配的数据，并在显示单元326上显示所述数据。例如，在显示单元326上仅显示包含正状态的面部的图像，即其中视线指向照相机的图像。

图11A和11B是用于解释具有上述视线鉴别处理功能的移动图像数据管理装置的结构和处理的一个例子的视图。图11A和11B中所示的装置例如由摄像机构成。在图11A中，当进行用于将移动图像数据存储在存储单元413中的处理时，对图像数据进行视线鉴别，并将视线鉴别结果记录为独立于图像文件的单个文件。

例如，从输入单元411输入拍摄的移动图像数据。视线检测单元412对形成移动图像的各个帧进行视线鉴别处理。换句话说，根据应用了图2中所示处理结构的处理，具体地说是图5中所示的流程图，进行所述视线鉴别处理。所述视线检测单元412产生关于所述检索结果的图像中包含的面部的视线是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态的鉴别结果。

移动图像数据文件以及其中记录有所述视线检测单元412的视线检测结果信息(即与各个帧图像中包含的面部图像对应的视线鉴别结果信息)的视线信息文件记录在存储单元413中。

在图11B中，当进行用于将移动图像数据存储在存储单元424中的处理时，对所述移动图像数据进行视线鉴别，并将视线鉴别结果记录为所述移动图像数据的元数据。

例如，从输入单元421输入拍摄的移动图像数据。视线检测单元422对形成移动图像的各个帧进行视线鉴别处理。换句话说，根据应用了图2中所示处理结构的处理，具体地说是图5中所示的流程图，进行所述视线鉴别处理。所述视线检测单元422产生关于所述检索结果的图像中包含的面部的视线是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态的鉴别结果。

文件产生单元423产生下述文件，即其中设置有关于在作为移动图像数据的元数据的每个图像帧中包含的面部的视线是处于视线指向照相机的正状态还是处于视线不指向照相机的负状态的鉴别结果。产生的具有元数据的移动图像文件记录在存储单元424中。

最后，作为依照该实施例的所述信息处理装置的例子，将参照图12和13解释所述成像装置的硬件结构的一个例子和所述PC的硬件结构的一个例子。图12是作为依照该实施例的所述信息处理装置的一个例子的成像装置的硬件结构的一个例子的视图。

在成像装置500中，由成像单元501(如镜头或CCD(电荷耦合装置))获取的拍摄信号输入到模拟信号处理单元502。所述模拟信号处理单元502进行诸如去噪声这样的处理。A/D转换单元503将所述拍摄信号转换为数字信号。通过数字信号处理单元504对经过数字转换的数据进行数字信号处理，如数据压缩，然后记录在由闪存等构成的记录装置515中。此外，在监视器517和取景器(EVF)516上显示所述数据。

除了设置在照相机主体中的快门等之外，操作单元511还包括用于在所述记录装置515中记录的数据的再现指示开关以及用于启动诸如快进再现和倒退再现的处理的开关。

控制单元510包括CPU并根据提前存储在存储器(ROM)520等中的程序对由所述成像装置进行的各种处理进行控制。在存储器(EEPROM)512中存储有图像数据、各种辅助信息、程序等。存储器(ROM)520存储由所述控制单元(CPU)510使用的程序、算法操作参数等。存储器(RAM)521存储在所述控制单元(CPU)510中使用的程序、在进行所述程序时适当改变的参数等。

视线检测单元505进行面部检测、眼鼻口检测、视线检测处理等。例如，如上面参照图5解释的，所述视线检测单元505从所述图像检测面部区域和视线，并将检测结果输入到所述数字信号处理单元504。所述数字信号处理单元504例如进行下述处理，即用于将所述检测结果设定为元数据并将所述检测结果记录在所述记录装置515中。

图13是用于解释作为依照该实施例的所述信息处理装置的一个例子的个人计算机的硬件结构的一个例子的视图。CPU(中央处理单元)701根据存储在ROM(只读存储器)702或存储单元708中的程序进行各种处理。例如，CPU701进行上述例子中解释的用于所述面部检测、所述眼鼻口检测和所述视线鉴别处理的处理程序。RAM(随机存取存储器)703中适当存储有由CPU701执行的程序、数据等。所述CPU701、所述ROM702和所述RAM703通过总线704彼此连接。

所述CPU701通过所述总线704与输入/输出接口705连接。包括键盘、鼠标、麦克风的输入单元706以及包括显示器和扬声器的输出单元707与所述输入/输出接口705连接。所述CPU701响应于从所述输入单元706输入的命令进行各种处理并将处理结果例如输出到所述输出单元707。

与所述输入/输出接口705连接的存储单元708例如包括硬盘，其存储有由所述CPU701执行的程序和各种数据。通讯单元709通过网络，如因特网和局域网与外部装置通讯。

与所述输入/输出接口705连接的驱动器710驱动可移动式介质711，如磁盘、光盘、磁光盘或半导体存储器，获取其中记录的程序、数据等。当需要时，获取的程序和数据传输至并存储在所述存储单元708中。

已经参照具体的实施例详细解释了本发明。然而，在不脱离本发明的精神的情况下，可对所述实施例进行修改和替换，这对于本领域普通技术人员来说是显而易见的。换句话说，以举例的形式公开了本发明，其不应解释为限于此。为了判断本发明的要点，应当考虑专利权利要求。

可通过硬件、软件或软硬件结合来进行该说明书中解释的一系列处理。当通过软件进行所述处理时，可将记录有处理顺序的程序安装在包含于专门硬件中的计算机中的存储器中，并使所述计算机执行所述程序，或将所述程序安装在可进行各种处理的通用计算机中，并使所述通用计算机执行所述程序。例如，所述程序可提前记录在记录介质中。除了将所述程序从所述记录介质安装到所述计算机之外，还可通过网络，如LAN(局域网)或因特网接收所述程序，并记录在记录介质，如内装式硬盘等中。

该说明书中所述的各种处理不仅可根据上述内容按时间序列进行，而且还可根据进行所述处理的装置的处理能力或者在需要时并行或单独进行。在该说明书中，系统是多个装置的逻辑组的结构，并不限于其中在同一框架中设置具有单个结构的装置的系统。

如上所述，在本发明的所述实施例中，检测图像中包含的面部区域和如眼、鼻和口等面部成分。所述视线鉴别单元对其中被检测到眼、鼻和口的面部图像进行视线鉴别处理。作为所述视线鉴别处理，所述视线鉴别单元使用视线鉴别词典进行用于鉴别被检测到面部成分的面部图像数据的视线是处于视线指向照相机方向的正状态还是处于视线不指向照相机方向的负状态的处理，其中所述视线鉴别词典中存储有包含与以上各个状态对应的分类数据的训练数据。具体地说，所述视线鉴别单元通过应用所述使用在图像的特定位置中的像素对的差值作为比较和校对数据的PixDif算法来进行所述视线鉴别处理。依照所述实施例，所述视线鉴别是基于对两个状态，即视线指向照相机方向的状态和其中视线不指向照相机方向的状态的清楚鉴别。因此，鉴别处理的精度较高，鉴别结果的使用价值也较高。

本领域普通技术人员应当理解，根据设计要求和其他因素，可进行各种修改、组合、再组合和替换，它们的范围在所附权利要求及其等同物的范围内。

Claims

1.一种信息处理装置，包括:

面部检测单元，该面部检测单元检测在图像数据中包含的面部区域；

面部成分检测单元，该面部成分检测单元从由所述面部检测单元检测到的所述面部区域检测面部成分；

视线鉴别单元，该视线鉴别单元对被所述面部成分检测单元检测到面部成分的面部图像进行视线鉴别处理，其中

所述视线鉴别单元根据针对视线鉴别词典与输入的面部图像数据的校准处理，进行用于鉴别被检测到所述面部成分的所述面部图像数据的视线方向是处于视线指向照相机方向的正状态还是处于视线不指向照相机方向的负状态的处理，其中所述视线鉴别词典存储有包含与所述各个状态对应的分类数据的训练数据。

2.根据权利要求1所述的信息处理装置，其中

所述面部成分检测单元从所述面部检测单元检测到的所述面部区域检测眼、鼻和口，以及

所述视线鉴别单元对被检测到眼、鼻和口的所述面部图像数据进行所述视线鉴别处理。

3.根据权利要求1所述的信息处理装置，其中所述视线鉴别单元根据利用PixDif算法的处理进行所述视线鉴别处理，所述PixDif算法使用在图像的特定位置中的像素对的差值作为比较和校对数据。

4.根据权利要求1所述的信息处理装置，进一步包括图像处理单元，所述图像处理单元对被所述面部成分检测单元检测到面部成分的所述面部图像进行旋转处理、尺寸标准化处理和面部区域切片处理，其中

所述视线鉴别单元输入由所述图像处理单元处理过的所述图像并进行所述视线鉴别处理。

5.根据权利要求1所述的信息处理装置，其中所述面部检测单元参照存储有各种面部区域图像信息的面部检测词典，使用PixDif算法对所述图像数据中包含的面部区域进行面部区域检测处理，所述PixDif算法使用在图像的特定位置中的像素对的差值作为比较和校对数据。

6.根据权利要求1所述的信息处理装置，其中所述面部成分检测单元参照存储有各种面部成分图像信息的面部成分检测词典，使用PixDif算法进行从所述面部检测单元检测到的面部区域检测面部成分的面部成分检测处理，所述PixDif算法使用在图像的特定位置中的像素对的差值作为比较和校对数据。

7.根据权利要求1所述的信息处理装置，进一步包括进行声音识别处理的声音识别单元，其中

所述信息处理装置将所述视线鉴别单元中的视线鉴别结果和所述声音识别单元中的声音识别结果组合，对讲话者进行分析。

8.根据权利要求1所述的信息处理装置，其中

所述信息处理装置是成像装置，

所述信息处理装置进一步包括快门控制单元，该快门控制单元被输入所述视线鉴别单元中的视线鉴别结果，并对所述成像装置进行快门控制，且

当所述成像装置所获取图像中包含的面部的视线中包含了视线不指向照相机方向的所述负状态中的面部图像时，所述快门控制单元进行用于停止快门操作的控制。

9.根据权利要求1所述的信息处理装置，进一步包括帧选择单元，该帧选择单元被输入由所述视线鉴别单元鉴别的与多个图像帧对应的视线鉴别结果，并对所述图像数据进行选择处理，其中

所述帧选择单元应用所述正状态和所述负状态的各种状态信息，进行图像帧的选择。

10.根据权利要求1所述的信息处理装置，其中

所述信息处理装置是成像装置，

所述信息处理装置进一步包括警告输出单元，该警告输出单元被输入所述视线鉴别单元中的视线鉴别结果，并进行警告输出，且

当所述成像装置所获取图像中包含的面部的视线中包含了视线不指向照相机方向的所述负状态中的面部图像时，所述警告输出单元进行警告输出。

11.根据权利要求1所述的信息处理装置，其中所述信息处理装置将所述视线鉴别单元中的视线鉴别结果应用于数据检索处理，并进行用于选择并提取出视线指向照相机方向的所述正状态或视线不指向照相机方向的所述负状态中的图像的检索处理。

12.根据权利要求1所述的信息处理装置，其中所述信息处理装置进行下述处理，即用于将所述图像数据的视线鉴别处理结果存储在存储单元中，作为存储在所述存储单元中的所述图像数据的对应信息。

13.一种在信息处理装置中进行的信息处理方法，所述信息处理方法包括下述步骤:

检测在图像数据中包含的面部区域；

从在所述面部检测步骤检测到的所述面部区域检测面部成分；

对在所述面部成分检测步骤中被检测到面部成分的面部图像进行视线鉴别处理，其中

所述视线鉴别步骤是进行下述处理的步骤，即用于根据针对视线鉴别词典与输入的面部图像数据的校准处理，鉴别被检测到所述面部成分的所述面部图像数据的视线方向是处于视线指向照相机方向的正状态还是处于视线不指向照相机方向的负状态，所述视线鉴别词典存储有包含与所述各个状态对应的分类数据的训练数据。

14.根据权利要求13所述的信息处理方法，其中

所述面部成分检测步骤是从所述面部检测步骤中检测到的所述面部区域检测眼、鼻和口的步骤，以及

所述视线鉴别步骤是对被检测到眼、鼻和口的所述面部图像数据进行所述视线鉴别处理的步骤。

15.根据权利要求13所述的信息处理方法，其中所述视线鉴别步骤是根据利用PixDif算法的处理进行所述视线鉴别处理的步骤，所述PixDif算法使用在图像的特定位置中的像素对的差值作为比较和校对数据。

16.根据权利要求13所述的信息处理方法，进一步包括对在所述面部成分检测步骤中被检测到面部成分的所述面部图像进行旋转处理、尺寸标准化处理和面部区域切片处理的步骤，其中

所述视线鉴别步骤是输入在所述图像处理步骤中处理过的所述图像并进行所述视线鉴别处理的步骤。

17.根据权利要求13所述的信息处理方法，其中所述面部检测步骤是参照存储有各种面部区域图像信息的面部检测词典，使用PixDif算法对所述图像数据中包含的面部区域进行面部区域检测处理的步骤，所述PixDif算法使用在图像的特定位置中的像素对的差值作为比较和校对数据。

18.根据权利要求13所述的信息处理方法，其中所述面部成分检测步骤是参照存储有各种面部成分图像信息的面部成分检测词典，使用PixDif算法进行从所述面部检测步骤中检测到的面部区域检测面部成分的面部成分检测处理的步骤，所述PixDif算法使用在图像的特定位置中的像素对的差值作为比较和校对数据。

19.根据权利要求13所述的信息处理方法，进一步包括下述步骤:

进行声音识别处理；和

将视线鉴别结果和所述声音识别步骤中的声音识别结果组合，并对讲话者进行分析。

20.根据权利要求13所述的信息处理方法，其中

所述信息处理装置是成像装置，

所述信息处理方法进一步包括输入在所述视线鉴别步骤中的视线鉴别结果并对所述成像装置进行快门控制的步骤，且

所述快门控制步骤是下述步骤，即当所述成像装置所获取图像中包含的面部的视线中包含了视线不指向照相机方向的所述负状态中的面部图像时进行用于停止快门操作的控制。

21.根据权利要求13所述的信息处理方法，进一步包括输入在所述视线鉴别步骤中鉴别的与多个图像帧对应的视线鉴别结果，并对所述图像数据进行选择处理的步骤，其中

所述帧选择步骤是应用所述正状态和所述负状态的各种状态信息，并进行图像帧的选择的步骤。

22.根据权利要求13所述的信息处理方法，其中

所述信息处理装置是成像装置，

所述信息处理方法进一步包括输入所述视线鉴别步骤中的视线鉴别结果并进行警告输出的步骤，且

所述警告输出步骤是当所述成像装置所获取图像中包含的面部的视线中包含了视线不指向照相机方向的所述负状态中的面部图像时进行所述警告输出的步骤。

23.根据权利要求13所述的信息处理方法，进一步包括下述步骤，即将所述视线鉴别步骤中的视线鉴别结果应用于数据检索处理，并进行用于选择并提取出视线指向照相机方向的所述正状态或视线不指向照相机方向的所述负状态中的图像的检索处理。

24.根据权利要求13所述的信息处理方法，进一步包括进行下述处理的步骤，即将所述图像数据的视线鉴别处理结果存储在存储单元中，作为存储在所述存储单元中的所述图像数据的对应信息。