CN101295354B

CN101295354B - 图像处理装置、成像装置和图像处理方法

Info

Publication number: CN101295354B
Application number: CN2008100950367A
Authority: CN
Inventors: 福岛正刚; 柏木繁
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-04-23
Filing date: 2008-04-23
Publication date: 2013-03-27
Anticipated expiration: 2028-04-23
Also published as: CN103258185B; KR20080095179A; CN103258185A; JP4775306B2; EP1986128A2; JP2008271268A; TW200907824A; US20080260255A1; EP1986128A3; EP1986128B1; CN101295354A; TWI375917B; US8064656B2

Abstract

本发明提供了一种图像处理装置、成像装置和图像处理方法。该图像处理装置包括典型人脸提取单元，其被配置为在构成视频图像数据的一部分的图像帧中检测人脸图像，并且从检测出的人脸图像中选择将用作索引信息的人脸图像。典型人脸提取单元被配置为基于在所述图像帧中检测出的每个人脸图像的特征计算所述人脸图像的分数，并且将分数较高的检测出的人脸图像选作索引用人脸图像。

Description

图像处理装置、成像装置和图像处理方法

技术领域

本发明涉及图像处理装置、成像装置、图像处理方法和计算机程序。更具体地说，本发明涉及显示与从通过例如利用摄像机拍摄获得的多段视频图像数据中选择的图像相对应的略缩图(thumbnail)图像列表，并且执行从与该列表中的略缩图图像中指定的一个相对应的位置开始回放视频的过程的图像处理装置、成像装置、图像处理方法和计算机程序。

背景技术

当今，诸如数码相机或数码摄像机之类的多种成像装置以及诸如DVD播放机之类的多种图像处理装置具有例如在图像显示部件或监视器上显示在存储介质中存储的图像数据的列表的功能。

例如，一些能够播放视频的成像装置或DVD播放机具有显示菜单的能力，在该菜单中排列出视频的标题和章节，允许用户从所显示的菜单中选择期望的内容，并且播放所选内容。此外，一些设备能够执行所谓的索引显示过程。索引显示过程是这样的过程：用缩小(略缩图)的形式显示代表通过例如利用成像装置的一个拍摄过程(即，从拍摄的开始导结束)获得的视频的图像。这使得可以利用按照缩小的形式在显示器上显示的图像作为索引从该图像的帧开始回放视频。

在显示视频数据的索引时，显示从组成该视频数据的所有帧中选择的帧的缩小图像。因此，为了使用户容易地了解视频数据的内容，必须从视频数据选择尽可能重要的帧作为索引用图像。在例如日本专利No.3312105中描述了实现该目的的一种技术。根据该技术，利用对象字典在视频图像数据中进行搜索，其中在该对象字典中，注册了要被搜索的对象的图像，使得与该注册图像相似的图像将作为索引用帧图像被选择。在对象字典中注册要被搜索的对象的图像是通过学习预先执行的。

根据该技术，可以从通过一个记录操作所获得的一个单位的数据(该单位数据在下文中将被称作“一段内容”)中选择与特定的已注册对象相对应的索引图像，并且要求先前的对象图像注册。该技术存在这样的问题：与未注册的对象相对应的图像不能被选作索引。例如，假设多个人在同一内容的不同时间段中出现。在该情形中，包括与特定注册对象相对应的人的人脸的帧可以被选作索引，而仅包括其他人的帧作为索引被显示。这种技术存在用户期望作为索引图像被显示的人脸(例如，用户的孩子的人脸)不能作为索引图像被显示。

在诸如摄像机之类的在显示视频图像的索引时显示该视频图像中包括的人脸的图像的应用(下文称作“人脸索引”)中，将内容(即，视频图像)中所包括的所有人脸都作为索引显示可能是不合理的。例如，当拍摄了出现许多人脸的场景(例如，合唱比赛、运动会等)时，太多的人脸的图像将作为索引被显示。显示索引的最初目的是使得能够快速了解内容的概要。当如上例所述太多的人脸被显示为索引时，就不能实现该目的。

发明内容

本发明解决了上述问题，以及与过去的方法和装置相关联的其他问题，并且提供了图像处理装置、成像装置、图像处理方法和计算机程序，用于在从视频数据提取人脸图像并将所提取的人脸数据作为索引显示时，使得能够在无需先注册对象等的情况下提取并显示人脸图像作为索引，并且使得能够即使在视频数据中包括大量的人脸也能够高效地选择多个人人脸并且将所选人脸作为索引显示。

根据本发明一个实施例，提供了一种图像处理装置，包括：典型人脸提取单元，其被配置为在构成视频图像数据的一部分的图像帧中检测人脸图像，并且从检测出的人脸图像中选择将被用作索引信息的人脸图像，其中，所述典型人脸提取单元被配置为基于在所述图像帧中检测出的每个人脸图像的特征计算所述人脸图像的分数，并且将分数较高的检测出的人脸图像选作索引用人脸图像。

根据本发明另一个实施例，提供了一种成像装置，包括：成像部件；以及典型人脸提取单元，其被配置为接受通过所述成像部件拍摄获得的视频图像数据，在构成所接受的视频图像数据的一部分的图像帧中检测人脸图像，并且从检测出的人脸图像中选择将被用作索引信息的人脸图像，其中，所述典型人脸提取单元被配置为基于在所述图像帧中检测出的每个人脸图像的特征计算所述人脸图像的分数，并且将分数较高的检测出的人脸图像选作索引用人脸图像。

根据本发明另一个实施例，提供了一种在包括典型人脸提取单元的图像处理装置中采用的图像处理方法，该方法包括以下步骤：典型人脸提取单元在构成视频图像数据的一部分的图像帧中检测人脸图像，并且从检测出的人脸图像中选择将被用作索引信息的人脸图像，其中，所述检测和选择步骤包括以下步骤：基于在所述图像帧中检测出的每个人脸图像的特征计算所述人脸图像的分数，并且将分数较高的检测出的人脸图像选作索引用人脸图像。

根据本发明另一个实施例，提供了一种用于使包括典型人脸提取单元的图像处理装置执行图像处理的计算机程序，该计算机程序使典型人脸提取单元执行以下步骤：在构成视频图像数据的一部分的图像帧中检测人脸图像，并且从检测出的人脸图像中选择将被用作索引信息的人脸图像，其中，所述检测和选择步骤包括以下步骤：基于在所述图像帧中检测出的每个人脸图像的特征计算所述人脸图像的分数，并且将分数较高的检测出的人脸图像选作索引用人脸图像。

根据本发明的该实施例的计算机程序是这样的计算机程序：可以例如通过存储介质或者通信介质以计算机可读形式提供给能够执行各种程序代码的通用计算机的计算机程序。当以计算机可读形式提供这种程序时，在计算机系统上实现根据该程序的处理。

从下面结合附图对本发明的实施例的详细描述中，本发明的其他特点和优点将变得更明显。

根据本发明的一个实施例，在从视频图像数据中选择将被用作索引图像的人脸图像的情形中，在图像帧中检测出的人脸的分数(例如，根据人脸在帧内的位置的位置分数、根据人脸的大小的大小分数、根据人脸的相似程度的人脸评估值分数、以及根据人脸检测位置与先前的人脸检测帧的差别的距离分数)被计算出，并且基于上述分数计算的合计分数较高的人脸图像优选被用作索引。因此，可以从大量人脸出现的视频图像数据中高效地仅选择分数较高的人脸，以便生成便于用户的人脸索引信息。

附图说明

图1是用于说明作为根据本发明一个实施例的图像处理装置的成像装置的结构的框图；

图2是用于说明在显示部件上显示人脸选择图标的示例性方式的图；

图3是用于说明在显示部件上显示人脸索引视图的示例的图；

图4是示出了在根据本发明一个实施例的图像处理装置中执行的数据记录序列的流程图，该数据记录序列包括人脸检测过程和索引用人脸选择过程；

图5是用于说明在根据本发明一个实施例的图像处理装置中执行的用于选择将经受人脸选择过程的帧的示例过程的图；

图6是用于说明关于在根据本发明一个实施例的图像处理装置中执行的人脸检测过程所检测的人脸的元信息的图；

图7是示出了在根据本发明一个实施例的图像处理装置中执行的索引人脸选择过程的流程图；

图8是用于说明在根据本发明一个实施例的图像处理装置中执行的索引人脸选择过程中用于计算距离分数的过程的细节的图；

图9A和9B示出了根据本发明一个实施例的图像处理装置中示出的索引人脸的元数据的示例结构；

图10是用于说明在根据本发明一个实施例的图像处理装置中执行的索引人脸选择序列的流程图，其中该索引人脸选择序列涉及个人标识；

图11是用于说明在根据本发明一个实施例的图像处理装置中执行的索引人脸选择序列的流程图，其中该索引人脸选择序列涉及笑容识别；

图12是用于说明在根据本发明一个实施例的图像处理装置中执行的索引人脸选择序列的流程图，其中该索引人脸选择序列涉及儿童人脸识别。

具体实施方式

下文将参考附图详细描述根据本发明实施例的图像处理装置、成像装置、图像处理方法和计算机程序。

首先，参考图1的框图，下面将描述作为根据本实施例的图像处理装置的一个示例的成像装置100的结构。当例如拍摄开始信号从作为用户操作部件的键输入部件106被输入到微处理器110时，微处理器110向相关部件输出控制信号，从而开始拍摄过程。在微处理器110的控制下，透镜101的聚焦机构、快门机构、光圈机构等被控制来拍摄物体的图像，并且该图像被提供给电荷耦合器件(CCD)102。

CCD 102对物体的图像(图像信息)进行光电转换来获得与该图像相对应的电信号，并将该电信号输出到相机信号处理部件103。相机信号处理部件103对从CCD 102输入的电信号(即，图像信号)进行信号处理。信号处理的示例包括诸如相关双采样(CDS)、自动增益控制(AGC)、模/数(A/D)转换、自动聚焦(AF)、自动曝光(AE)和自动白平衡(AWB)之类的相机信号处理。

相机信号处理部件103包括典型人脸提取单元114。典型人脸提取单元114执行人脸检测过程和索引用人脸选择过程。人脸检测过程是用于检测通过拍摄获得的图像中的每段帧数据是否包括人人脸区域的过程。索引用人脸选择过程是用于确定所检测出的人人脸图像是否应当被选作索引图像的过程。在下文中，“人脸检测过程”和“索引用人脸选择过程”将被总地称作“典型人脸提取过程”。注意，已知的人脸检测过程算法适用于人脸检测过程，即，检测通过拍摄获得的图像中的每段帧数据是否包括人人脸区域的过程。索引用人脸选择过程，即，确定所检测出的人人脸图像是否应当被选作索引图像的过程，的细节将在后面描述。

通过相机信号处理部件103中的各种调节所获得的图像数据利用记录/再现部件104与通过拍摄获得的图像的元数据一起被存储到记录介质105中。该元数据是作为典型人脸提取单元114执行人脸检测过程和索引用人脸选择过程的结果而生成的。该元数据例如包括：关于其中已检测到人脸的帧的信息；所检测到的人脸区域的位置和大小；以及稍后将描述的分数信息。

记录/再现部件104执行根据预定压缩方法的数据压缩，并且将经压缩数据记录到记录介质105中。作为用于记录视频信号的系统，采用例如利用MPEG-4AVC/H.264的高清晰(HD)视频记录、利用MPEG-2压缩的标准清晰(SD)视频记录等。另外，记录/再现部件104生成其中存储了经压缩图像信息的管理信息的图像信息管理文件(称作例如AV索引文件)，并且将所生成的图像信息管理文件存储到记录介质105中。

每个帧的元数据被存储在图像信息管理文件(即，AV索引文件)中。如上所述，该元数据包括：关于其中已检测到人脸的帧的信息；所检测到的人脸区域的位置和大小；以及稍后将描述的分数信息。

通过拍摄获得的图像还经由记录/再现部件104被输出到显示部件显示部件109，从而在显示部件109上将通过拍摄获得的图像作为“贯穿图像”显示。在相机信号处理部件103中的典型人脸提取单元114已在通过拍摄获得的帧中检测到人脸的情形中，人脸检测图标被显示在该贯穿图像上。人脸检测图标指示已检测到人脸。图2示出了在显示部件109上显示的通过拍摄获得的图像(即，贯穿图像)的示例。相机信号处理部件103中的典型人脸提取单元114执行分析来确定该通过拍摄获得的图像是否包括人脸区域，并且在典型人脸提取单元114检测到人脸时，在贯穿图像上显示指示已检测到人脸的人脸检测图标201。可以以多种方式显示人脸检测图标201。例如，当在屏幕中检测到人脸时，可以使人脸检测图标201与视频相反地明暗闪烁。

再参考图1，继续描述成像装置的结构。微处理器110接收来自键输入部件106的键操作信息，或者来自在显示部件109上显示的GUI上的操作键的用户操作信息，并且根据用户指令执行处理。显示部件109例如由LCD触摸板形成，并且可以在其上显示GUI。因此，可以输入用户操作信息。

微处理器110在接收来自电池120的电源或者经由电源电路121的 AC电源时工作，对在成像装置100中执行的各种过程进行控制。另外，微处理器110必要的话通过对电源控制信号进行控制来控制向其他电路提供功率。微处理器110对键输入部件106上的键输入或者显示部件109上显示的GUI上的键输入进行模数转换，并且基于结果数字值判断哪个按键正被按下。微处理器110根据该判断的结果执行各种过程。微处理器110包括CPU 111、RAM 112和ROM 113，并且根据预先存储的程序执行各种处理。

例如，当利用键输入部件106中的键或者显示部件109上显示的GUI上的键输入了用于回放的指令时，微处理器110使成像装置进入视频信号再现模式，并且经由记录/再现部件104读取记录介质105中记录的数据，对读取的数据进行解码，经由叠加部件108将解码后的数据提供给显示部件显示部件109，从而在显示部件109上显示该数据。

屏上显示(OSD)处理部件107对从微处理器110输入的命令进行解释，并且基于逐扫描(on a scan-by-scan basis)地将VRAM中的生成的显示信号发送到叠加部件108。例如，屏上显示(OSD)处理部件107生成诸如GUI信息和指南信息之类的与视频信号不同并且将被显示以叠加在视频上的数据，并且将所生成的数据发送到叠加部件108。叠加部件108将从屏上显示(OSD)处理部件107发送来的显示信号叠加到将被记录的视频信号或者再现的视频信号上，并且将结果信号输出到显示部件109。

在根据本实施例的成像装置中，微处理器110基于用户指令生成记录介质105中记录的图像数据的略缩图图像的列表，并且在显示部件109上显示该列表。此刻，从记录介质105中记录的每段内容选出包括人人脸的图像，那些选出的包括人脸的图像的略缩图图像被生成，从而按照时间顺序在显示部件109上显示这些略缩图图像。

注意，在图1中，由虚线框围起来的典型人脸提取部件114’被示出在微处理器110中。典型人脸提取部件114’执行与相机信号处理部件103中的典型人脸提取单元114的过程类似的过程。即，典型人脸提取部件114’执行人脸检测过程，即，用于确定每幅图像是否包括人人脸区域的过程，以及索引用人脸选择过程，即，用于确定所检测出的人脸图像是否应当被选作索引图像的过程。人脸检测过程和索引用人脸选择过程可以在相机信号处理部件103中执行，或者可以在微处理器110中执行。或者，可以提供独立的专用处理器来执行人脸检测过程和索引用人脸选择过程。在图1中的微处理器110中示出用虚线框围起来的典型人脸提取部件114’表明可以在微处理器110中而不是在相机信号处理部件103中提供典型人脸提取单元。

此外，微处理器110接受关于用户已从显示部件109上显示的时间顺序的缩略图图像中选择了哪个略缩图图像的信息，并且从与所选略缩图图像相对应的图像的位置开始回放内容。

在根据本实施例的成像装置中，微处理器110从例如记录介质105获取由用户指定的内容的图像数据，基于对图像信息管理文件中的元数据的分析从所获取的图像数据提取包括被选作索引的人脸图像的帧，从所提取的帧切除被选作索引的人脸区域，并且将按照时间顺序排列的索引图像输出到显示部件109。与一段已记录视频数据相对应的时间顺序略缩图人脸图像的列表的显示数据将被称作“人脸索引视图”。

下面将参考图3描述在显示部件109上显示的人脸索引视图的示例。“人脸索引视图”是基于元数据生成的人脸区域的略缩图图像(缩小图像)的时间列表的图像，其中元数据是作为在相机信号处理部件103中的典型人脸提取单元114中或者微处理器110中的典型人脸提取部件114’中执行人脸检测过程(即，用于检测所拍摄的图像中的每段帧数据是否包括人人脸区域的过程)和索引用人脸选择过程(即，用于确定所检测出的人脸图像是否应当被选作索引并且应当被作为索引提取出的过程)的结果而获得的。

要在人脸索引视图中显示的略缩图图像是在发出了请求显示人脸索引视图的请求时由微处理器110生成的。所生成的略缩图图像被临时存储在微处理器110内的RAM 112中，然后被输出到显示部件109来显示。在人脸索引视图中使用的略缩图图像不被记录到记录介质105中。因此，不会因此缩小了记录介质中的记录区域。微处理器110获取记录介质105中记录的经压缩图像(例如，利用MPEG-4 AVC/H.264压缩的高清晰 (HD)视频、利用MPEG-2压缩的标准清晰(SD)视频等)，从中切出帧内编码图像(称作I图片、I帧或者I-VOP)，对其执行大小缩小过程，然后在人脸索引区域中顺序显示缩小了的帧内编码图像。后面将描述生成被应用到人脸索引视图的略缩图图像的方法的细节。

下面参考图3描述人脸索引视图的详细结构。人脸索引视图包括内容索引显示区域301和人脸索引显示区域302。

内容索引显示区域301是显示从作为记录视频数据的一个单位的一段内容中选择的一幅典型图像的区域。当操作内容索引后退/前进键303a和303b之一时，呈现出不同内容的典型图像。内容索引显示区域301中显示的典型图像例如是该内容的最前面的图片的略缩图图像。

同时，人脸索引显示区域302是显示从包括基于元数据被选作索引的人脸区域的帧切出的人脸(即，人脸区域)的略缩图图像(即，缩小的图像)的列表的图像数据的区域，其中元数据是作为对内容索引显示区域301中所显示的略缩图图像所属的内容(即，视频图像数据)执行人脸检测过程和索引用人脸选择过程的结果获得的。

人脸索引后退/前进键306a和306b被显示在人脸索引显示区域302中。当操作人脸索引后退/前进键306a和306b之一时，显示作为同一内容中的与不同时刻相对应的人脸索引的略缩图图像。注意，在单个静止图像包括多个人脸图像区域时，在人脸索引显示区域302中一个接一个地显示与这多个人脸图像区域相对应的多个人脸图像。

当已操作了内容索引显示区域301中的内容索引后退/前进键303a和303b之一时，人脸索引显示区域302中显示的人脸索引被与内容索引显示区域301中显示的新索引相对应的其他人脸索引所替换。

接下来，参考图4的流程图，下面将示意性地描述根据本实施例的图像处理装置中执行的过程。图4的流程图示出了当如图1所示的成像装置拍摄图像并将所拍摄的图像记录到记录介质105中时执行的过程。该流程图示出了人脸检测过程、索引用人脸选择过程、以及记录基于人脸检测过程和索引用人脸选择过程所生成的元数据的过程的序列。图4所示的过程流对应于在如图1所示的微处理器110的控制下主要由典型人脸提取单元 114和记录/再现部件104执行的过程。

下面将描述图4的流程图中示出的步骤的过程。首先，在步骤S101中，典型人脸提取单元114从通过拍摄获得的视频图像中提取将经受人脸检测的图像帧。该提取帧的过程例如作为用于从所拍摄的图像按照规则的间隔选择帧的过程被执行。可以已多种方式设置提取帧的间隔。例如，可以提取每个帧(在该清晰中，所有的帧都被提取)。或者，例如可以按照若干个帧的间隔提取帧。

下面将参考图5描述步骤S101中的用于提取帧的过程的细节。在例如MPEG或者AVC被用作记录介质105中记录的数据的视频压缩格式的情形中，经压缩图像数据经压缩图像数据400包括按照不同方式压缩的不同类型的帧(图片)。具体而言，经压缩图像数据400包括帧内编码图像(I图片)、B帧(B图片)和P帧(P图片)。B帧和P帧的数据量比帧内编码图像小。在这些类型的编码数据中，可以独立地对帧内编码图像进行解码。

要经受人脸检测的帧是用于选择将用作索引显示的人脸图像的帧。因此，有选地便于实现索引显示过程的帧被选作将经受人脸检测的图像帧。帧内编码帧(即，I图片)是可以不参考其他帧而被解码的帧。因此，优选地帧内编码帧(即，I图片)被选作被选帧被选帧401。在基于GOP执行处理的情形中(例如，基于15帧)，可以在回放模式中快速访问期望的帧。因此，优选基于GOP提取帧。例如，优选按照2个GOP的间隔提取帧。将意识到，取决于系统性能，可以按照更长的间隔提取帧。

在步骤S101中从视频图像提取了要经受人脸检测的图像帧后，在步骤S102中执行人脸检测过程。人脸检测过程确定每个提取出的帧是否包括任何人脸区域。可以利用已知的技术实现人脸检测过程。例如，利用在日本专利早期公开No.2005-157679中所描述的技术执行人脸检测过程。在在步骤S102中在任意帧中检测到人脸的情形中，确定每个被检测到的人脸的“帧内坐标位置”、“大小”和“人脸分数评估值(指示人脸相似程度)”，并且将这些信息段存储到存储器中。

下面将参考图6描述人脸的“帧内坐标位置”和“大小”。

参考图6，人脸的“帧内坐标位置”作为在帧的左上角为原点并且X和Y分别表示水平方向和垂直方向的情况下帧中检测出的人脸区域421的左上角的坐标(X，Y)而被计算出。

人脸的“大小”作为帧中检测出的人脸区域421的X方向上的宽带和Y方向上的高度而被计算出。

“人脸分数评估值(指示人脸的相似程度)”是指示在利用例如日本专利早期公开No.2005-157679中描述的技术执行人脸检测中人人脸相似的程度的评估值。当存在较大的人人脸特征量时，人脸分数评估值将较高，而存在较小的人人脸特征量时，人脸分数评估值将较低。计算该评估值的过程的细节在日本专利早期公开No.2005-157679中有所描述。在本实施例中，这里所公开的技术在计算人脸分数评估值(指示人脸相似程度)时被应用。

接下来，在步骤S103中，执行索引用人脸选择过程。如上所述，在步骤S102中，对被选帧，例如帧内编码图像(即，I图片)，执行了人脸检测。将检测出的所有人脸都设置为索引图像是不合理的。在最常见的对人进行拍摄获得的视频图像的情形中，在大多数帧中检测到人脸。如果所有这种人脸都被设置为索引图像，则将设置大量的索引人脸图像，使得这些索引人脸图像作为索引是无用的。

因此，在步骤S103中，执行从在步骤S102中检测出的人脸图像中选择将用作索引的人脸图像的过程。步骤S103的过程是针对步骤S101和S102的过程已在其中检测出至少一个人脸的每个帧执行的。具体而言，针对检测出的每个人脸计算分数，并且具有最高分数的人脸被选作索引人脸。步骤S103的过程的一个示例将在下面参考图7的流程图详细描述。

图7的流程图示出了针对图4所示步骤S101和S102的过程已在其中检测出人脸的每个帧执行的过程。即，步骤S201至S208的过程是针对其中已检测出了人脸的每个帧顺序执行的。下文中，将把其中已检测出人脸的帧适当地称作“人脸检测帧”。

首先，在步骤S201中，计算在步骤S102中检测出的每个人脸的根据“人脸位置”的位置分数。位置分数是针对将被处理的每个人脸检测帧中的每个检测出的人脸计算的。在已检测出多个人脸的情形中，针对这多个人脸中的每个计算位置分数。

位置分数的值随相应的检测出的人脸的位置接近帧的中央而增大。位置分数的值随相应的检测出的人脸的位置远离帧的中央而变小。

具体而言，一个帧的区域可以被划分成两个区域，例如，中央区域和外围区域。

在中央区域中检测出的人脸的位置分数可以被设置为：位置分数＝100。

在外围区域中检测出的人脸的位置分数可以被设置为：位置分数＝0。

以此方式，该帧的区域也可以被划分成多个区域，并且可以向这些区域指派不同的位置分数值。可以采用这种数字分数设置。也可以采用模拟分数设置。例如，位置分数的值可以随相应人脸的位置远离该帧的中央而逐渐减小。

接下来，在步骤S202中，计算在步骤S102中检测出的每个人脸的根据“人脸大小”的大小分数。大小分数是针对将被处理的每个人脸检测帧中的每个检测出的人脸计算的。在已检测出多个人脸的情形中，针对这多个人脸中的每个计算大小分数。

大小分数的值随相应的检测出的人脸增大而增大。大小分数的值随相应的检测出的人脸减小而减小。

具体而言，可以设置特定的阈值大小，例如：

大小大于等于阈值大小的人脸的大小分数可以被设置为：大小分数＝100。

大小小于阈值大小的人脸的大小分数可以被设置为：大小分数＝0。

以此方式，全部大小可以被分类成多组，并且可以向这些大小组指派不同的大小分数值。可以采用这种数字分数设置。也可以采用模拟分数设置。例如，大小分数的值可以随相应人脸的大小缩小而逐渐减小。

接下来，在步骤S203中，计算在步骤S102中检测出的每个人脸的根据“人脸分数评估值(指示人脸相似程度)”的人脸评估值分数。人脸评估值分数是针对将被处理的每个人脸检测帧中的每个检测出的人脸计算的。在已检测出多个人脸的情形中，针对这多个人脸中的每个计算人脸评估值分数。

如上所述，“人脸分数评估值(指示人脸相似程度)”例如在日本专利早期公开No.2005-157679中有所描述。当存在较大的人人脸特征量时，人脸分数评估值将较高，而存在较小的人人脸特征量时，人脸分数评估值将较低。人脸评估值分数是根据人脸分数评估值设置的。人脸评估值分数的值随相应的检测出的人脸的人脸分数评估值增大而增大，并且人脸评估值分数的值随相应的检测出的人脸的人脸分数评估值减小而减小。

具体而言，可以设置特定的阈值，例如：

人脸分数评估值大于等于阈值的人脸的人脸评估值分数可以被设置为：人脸评估值分数＝100。

人脸分数评估值小于阈值的人脸的人脸评估值分数可以被设置为：人脸评估值分数＝0。

以此方式，全部评估值可以被分类成多组，并且可以向这些组指派不同的人脸评估值分数值。可以采用这种数字分数设置。也可以采用模拟分数设置。例如，人脸评估值分数的值可以随人脸分数评估值减小而逐渐减小。

接下来，在步骤S204中，计算在步骤S102中检测出的每个人脸的“距离分数”。距离分数是针对将被处理的每个人脸检测帧中的每个检测出的人脸计算的。在已检测出多个人脸的情形中，针对这多个人脸中的每个计算距离分数。

下面参考图8描述距离分数。图8所示距离分数计算帧451是将经受距离分数计算的帧。距离分数计算帧451是在图4的流程图中的步骤S102中已在其中检测出了人脸的帧。

图8所示距离分数计算帧451是在时刻T处的帧图像。在距离分数计算帧451中已检测出三个人脸P1(t)、P2(t)和P3(t)。将针对这三个人脸中的每个计算距离分数。

在距离分数计算帧(T)中检测出的人脸P1(t)、P2(t)和P3(t)的距离分数是参考图8所示帧(T-1)(即，参考帧461)中检测出的人脸P1(t-1)和P2(t-1)计算的。参考帧461是时刻T01处的帧，是就在时刻T处的距离分数计算帧451之前的帧，并且已在图4的流程图中的步骤S102中经过了人脸检测。

在距离分数计算帧(T)中检测出的人脸P1(t)、P2(t)和P3(t)的距离分数是基于距在帧(T-1)中检测出的每个人脸P1(t-1)和P2(t-1)的距离计算的，其中帧(T-1)就在前一时刻已被处理。

例如，通过将分数“0”赋予当前处理的帧中检测出、并且位于与在先前处理的前一帧(T-1)中检测出的人脸P1(t-1)或P2(t-1)的位置最接近的位置中的人脸，而将分数“100”赋予其他人脸，从而计算出距离分数。

例如，距离分数计算帧451中的人脸P1(t)的距离分数为：

P1(t)：距离分数＝(0+100)＝100。

(0+100)中的第一项“0”对应于分数“0”，其是基于下述条件设置的：距离分数计算帧451中的人脸P1(t)位于与参考帧461(即，帧(T-1))中检测出的人脸P1(t-1)的位置最接近的位置中，其中参考帧461就在前一时刻已被处理。(0+100)中的第二项“100”对应于分数“100”，其是基于下述条件设置的：距离分数计算帧451中的人脸P1(t)不位于与参考帧461(即，帧(T-1))中检测出的人脸P2(t-1)的位置最接近的位置中。距离分数计算帧451中的人脸P1(t)的距离分数是通过将分数“0”和“100”加到一起计算出的，因此人脸P1(t)的距离分数是(0+100)＝100。

距离分数计算帧451中的人脸P2(t)的距离分数为：

P2(t)：距离分数＝(100+0)＝100。

(100+0)中的第一项“100”对应于分数“100”，其是基于下述条件设置的：距离分数计算帧451中的人脸P2(t)不位于与参考帧461(即，帧(T-1))中检测出的人脸P1(t-1)的位置最接近的位置中。(0+100)中的第二项“0”对应于分数“0”，其是基于下述条件设置的：距离分数计算帧451中的人脸P2(t)位于与参考帧461(即，帧(T-1))中检测出的人脸P2(t-1)的位置最接近的位置中。距离分数计算帧451中的人脸P2(t)的距离分数是通过将分数“100”和“0”加到一起计算出的：

P2(t)：距离分数＝(100+0)＝100。

距离分数计算帧451中的人脸P3(t)的距离分数为：

P3(t)：距离分数＝(100+100)＝200。

(100+100)中的第一项“100”对应于分数“100”，其是基于下述条件设置的：距离分数计算帧451中的人脸P3(t)不位于与参考帧461(即，帧(T-1))中检测出的人脸P1(t-1)的位置最接近的位置中。(100+100)中的第二项“100”对应于分数“100”，其是基于下述条件设置的：距离分数计算帧451中的人脸P3(t)不位于与参考帧461(即，帧(T-1))中检测出的人脸P2(t-1)的位置最接近的位置中。距离分数计算帧451中的人脸P3(t)的距离分数是通过将分数“100”和“100”加到一起计算出的：

P3(t)：距离分数＝(100+100)＝200。

如上所述，根据距参考帧中的检测出的每个人脸的距离，设置了距离分数计算帧451中的每个检测出的人脸的距离分数。这是因为位于相同位置的人脸很可能是同一个人的人脸，因为不希望将同一个人的多个人脸作为多个索引，还因为如果可能的话希望将不同人的人脸作为索引。

在如上参考图8所述的计算距离分数的示例性过程中，分数“0”被赋予在距离分数计算帧451中检测出的、并且位于与参考帧中检测出的任意人脸的位置最接近的位置中的人脸，并且分数“100”被赋予其他人脸。这种数字方式的分数设置仅是示例，并且不是本发明的关键。模拟方式的分数设置也是适用的。例如，在距离分数计算帧451中检测出的并且在位置上与在参考帧中检测出的任意人脸相对应的人脸可以被赋予较低的分数，而随着该人脸远离参考帧中的人脸可以赋予其逐渐变大的分数。

接下来，在步骤S25中，基于在步骤S201至S204中计算出的下述四类分数计算总计分数：(a)位置分数；(b)大小分数；(c)人脸评估值分数；以及(d)距离分数。另外，按照合计分数对人脸递减排序，从而按照合计分数的降序对人脸进行排列。合计分数是针对在将被处理的每个人脸检测帧中检测出的每个人脸计算的，并且这些人脸按照上述方式被排序。在计算合计分数时，例如在对上述四类分数指派加权参数的情况下将这些分数相加到一起。

具体而言，假设如下：

(a)位置分数＝Sa；

(b)大小分数＝Sb；

(c)人脸评估值分数＝Sc；以及

(d)距离分数＝Sd。

另外，假设对于上述分数设置了加权参数p、q、r和s。则通过下面

的等式计算合计分数[Sall]：

合计分数[Sall]＝p(Sa)+q(Sb)+r(Sc)+s(Sd)。

注意，每个加权参数可以是1。可以以各种方式设置加权参数。例如，距离分数的加权参数可以被设置为较大的值。

如上所述，在步骤S205中，基于(a)位置分数、(b)大小分数、(c)人脸评估值分数和(d)距离分数，计算出在将被处理的每个人脸检测帧中检测出的每个人脸的合计分数，并且按照合计分数对人脸进行排序，从而按照合计分数的降序对人脸进行排列。

在步骤S206中，将在当前处理的帧(即，刚经过计算上述四类分数和合计分数的处理的帧)中检测出的人脸的数目与在先前处理的前一帧(在图4的流程图中的步骤S101中被选作将被处理的帧)中检测出的人脸的数目进行比较，来确定在当前处理的帧中检测出的人脸的数目是否大于在先前处理的前一帧中检测出的人脸的数目。如果确定为肯定结果，则控制前进到步骤S207。如果确定是否定结果，则控制前进到步骤S208。

在步骤S207中，在当前处理的帧中的已被检测出并且按照合计分数被排序的人脸中，合计分数最高的一个或多个人脸被选作索引人脸，并且所选人脸的元信息(例如，帧号、位置、大小、人脸评估值分数、合计分数等)被输入到元信息记录部件中。此后，执行图4中所示步骤S104的过程，即，元信息记录过程。就是说，在步骤S207中基于合计分数的顺序从当前处理的帧中选择的人脸被挑选作为索引人脸(即，典型人脸)，并且索引人脸的元信息被记录到记录介质105中(参见图1)。合计分数较低并且因此在步骤S207中未被选择的人脸不被设置为索引。

注意，应当从一个帧中选作索引人脸(即，典型人脸)的人脸的数目是预先设置的。该数目可由用户设置。在该情形中，用户预先输入数目，并且根据合计分数的顺序选择该数目的人脸作为索引人脸。

如果在步骤S206中确定在当前处理的帧中检测出的人脸的数目不大于在先前处理的前一帧中检测出的人脸的数目，则控制前进到步骤S208而不执行步骤S207的过程。因此，在当前处理的帧中检测出的人脸的数目不大于在先前处理的前一帧中检测出的人脸的数目，则在当前处理的帧中检测出的人脸不被选作索引人脸。

在步骤S208中，关于在当前处理的人脸检测帧中检测出的人脸的位置信息被记录到存储器中。当该帧作为在步骤S204中计算距离分数时的参考帧(即，图8所示参考帧461)被参考时将使用该信息。

如上所述，图4的流程图中的步骤S103中的索引用人脸选择过程是例如根据图7的流程图执行的，并且要被用作索引的人脸图像是从在步骤S102中检测出的人脸图像中选择的。在步骤S104中，在步骤S103中的索引用人脸选择过程中被选择的人脸的元信息(即，与被选作索引的人脸相对应的帧号、位置、大小、人脸评估值分数、总计分数等)作为索引人脸的元信息被记录到记录介质记录介质105(参见图1)中。

如上所述，在根据本实施例的装置中，从构成视频图像的帧中选择的帧(例如，帧内编码帧(即，I图片))经受人脸检测，并且其中检测出了人脸的帧经受索引用人脸选择过程，如图7所示。即，计算出每个检测出的人脸的四类分数(即，(a)位置分数、(b)大小分数、(c)人脸评估值分数和(d)距离分数)和合计分数，然后按照合计分数对检测出的人脸排序，使得按照合计分数的降序排列这些人脸，然后仅合计分数较高的人脸被选作索引用人脸。此外，在当前被处理的人脸检测帧中检测出的人脸的数目被与在先前处理的前一帧中检测出的人脸的数目相比较，并且当在当前处理的帧中检测出的人脸的数目大于在先前处理的前一帧中检测出的人脸的数目，则在当前处理的帧中检测出的人脸被设置为索引的候选。因此，所生成的索引的数目被限制为合理的数目。例如，假设在连续多个帧中检测出的人脸的数目相等的情形中，例如，在同一个人连续被拍摄的情形中。在这种情形中，在包括新出现的人脸或者重新出现的人脸(即，人)的帧中检测出的人脸作为索引被注册，而在连续的帧中连续出现的同一个人不被设置为多个索引。

在图4的流程图中的步骤S104中，被选作索引人脸的人脸的元信息被记录到记录介质105(参见图1)中。如上所述，该元信息包括被选作索引的人脸的帧号、位置、大小、人脸评估值分数和合计分数。

下面参考图9描述特定元数据的示例性数据结构。元数据被存储在人脸信息管理文件中，人脸信息管理文件是图像信息管理文件(即，AV索引文件)的数据分量，图像信息管理文件被记录在记录介质105(中)，从而被与相应的图像数据相关联，图像数据例如也被记录在记录介质105中。如图9A所示，人脸信息管理文件包括被选作索引用人脸的索引人脸(即，典型人脸)的元数据片断的集合。与独立的人脸相对应的每段元数据具有如图9B所示的数据结构。

即，每段元数据包括：与被选作索引的人脸(即，典型人脸)的帧号相对应的人脸检测帧的时间信息(高阶4字节和低阶4字节)；关于人脸在帧中的位置的位置信息(4字节)；关于人脸的大小的大小信息(4字节)；人脸评估值分数(4字节)；以及合计分数(4字节)。注意，关于人脸在帧中的位置的位置信息和关于人脸的大小的大小信息对应于参考图6的上述数据。还要注意，图9B所示的元数据的结构仅是示例。例如可以省略人脸评估值分数(4字节)和合计分数(4字节)。

在实际显示索引时，元数据被用来选作适当的帧，获取关于人脸区域的信息，并且从帧中切出人脸区域，从而按照图3所示的方式显示人脸索引。在元数据包括例如人脸评估值分数(4字节)或合计分数(4字节)的情形中，在索引显示过程时可以执行用于有选择地仅显示合计评估值较高的索引人脸的过程或者有选择地仅显示人脸评估值分数较高的索引人脸的控制。

在如上参考图7的流程图所述的索引用人脸选择过程中，基于每个被选人脸的分数信息(即，(a)位置分数、(b)大小分数、(c)人脸评估值分数和(d)距离分数)选择索引人脸(即，典型人脸)。但是，在本发明的其他实施例中，可以利用其他类型的信息、基于其他标准选作索引人脸(即，典型人脸)。

下面将分别参考图10、11和12的流程图描述(1)利用个人标识信息选择索引人脸的示例性过程，(2)利用笑容检测信息选择索引人脸的示例性过程；以及(3)利用儿童人脸检测信息选择索引人脸的示例性过程。图10、11和12的流程图对应于上述图7的流程图，并且示出了图4的流程图中的步骤S103中的索引用人脸选择过程的变体。上述过程中的每个是针对其中已检测出了人脸的帧执行的。

(1)利用个人标识信息选择索引人脸的示例性过程

首先，下面将参考图10描述利用个人标识信息选择索引人脸的示例性过程。在该示例性过程中，每个检测出的人脸被标识出。在上述实施例中，即，在如上参考图7所述的选择索引人脸的过程中，每个检测出的人脸未被标识来确定所检测出的两个不同的人脸是属于同一个人还是不同的人。在本示例性过程中，每个检测出的人脸被标识出，并且当已检测到与其人脸已从过去的帧中被选作索引人脸的人不同的人的人脸时，该不同的人的人脸优选被选作索引。

下面将参考图10的流程图描述该示例性过程，图10示出了用于选择索引人脸的过程。如前所述，图10的流程图对应于上述图7的流程图，并且示出了图4的流程图中的步骤S103中的索引用人脸选择过程。图10所示的过程是针对其中已检测出了人脸的每个帧执行的。

首先，在步骤S301中，在当前处理的帧中已被检测出的全部人脸都被标识来确定每个检测出的人脸是否与在先前处理的前一帧中检测出的任意人脸相同，并且在当前处理的帧中检测出的全部人脸被分类成可以清楚地确定为与在先前处理的前一帧中检测出的任意人脸相同的人脸的组和其他人脸的组。即，(a)在当前处理的帧中检测出的每个人脸和(b)在先前被处理的人脸检测帧中检测出的每个人脸被标识，并且确定在当前处理的帧中检测出的人脸是否包括在先前被处理的人脸检测帧中未检测到其人脸的个人的人脸。注意，可以通过将在人脸检测过程中获得的人脸图像的特征量彼此比较，来执行用于确定两个不同的检测出的人脸是否属于同一个人的所谓的个人标识过程。可以采用例如下述技术来执行个人标识过程：日本专利早期公开No.Hei 7-128031(其公开了人脸图像识别过程)所公开的技术，以及文章“Learning by Detector of Real-time Face inArbitrary Posture Using Pixel Difference Characteristic”，Proceedings of 10^th Symposium on Sensing via Image Information，pp.547-552，2004中公开的技术。

在步骤S302中，确定当前处理的帧是否包括与在先前处理的前一帧中检测出的任何人脸都不同的人脸。在当前处理的帧包括可能被清楚地确定为与在先前处理的前一帧中检测出的任意人脸相同的情形中，控制前进到步骤S303，并且执行选择索引人脸的过程。同时，在当前处理的帧不包括可能被清楚地确定为与在先前处理的前一帧中检测出的任意人脸相同的情形中，控制前进到步骤S308而不执行选择索引人脸的过程。

步骤S303至S305的过程对应于上述参考图7的步骤S201至S203的过程。即，计算假定是新人的人脸的的(a)位置分数、(b)大小分数和(c)人脸评估值分数。

在步骤S306，基于上述三类分数计算合计分数，并且按照合计分数对人脸进行排序，使得按照合计分数的降序排列这些人脸。即，针对被假定为与在先前处理的前一人脸检测帧中检测出的任何人脸都不同的每个人脸计算合计分数，并且按照合计分数对人脸进行排序。注意，在计算合计分数时，例如与上述过程所述，在向上述三类分数指派加权参数的情况下将这些分数相加到一起。

具体而言，假设如下：

(a)位置分数＝Sa；

(b)大小分数＝Sb；以及

(c)人脸评估值分数＝Sc。

另外，假设对于上述分数设置了加权参数p、q和r。则通过下面的等式计算合计分数[Sall]：

合计分数[Sall]＝p(Sa)+q(Sb)+r(Sc)。

在步骤S307中，在已按照合计分数被排序的全部人脸中，合计分数最高的一个或多个人脸被选作索引人脸，并且所选人脸的元信息(例如，帧号、位置、大小、人脸评估值分数、合计分数等)被输出到元信息记录部件。在该过程之后，执行如图4所示的步骤S104的过程，即，元信息记录过程。

在步骤S308中，关于在当前处理的人脸检测帧中的人脸图像的信息被记录到存储器中。该信息在对将被处理的下一个帧执行步骤S301中的个人标识过程的下一个实例中参考这些人脸图像时将被使用。

在本示例性过程中，执行个人标识过程来确定检测出的两个不同的人脸是属于同一个人还是不同的人，并且在检测到与其人脸已从过去的帧中被选作索引人脸的人不同的个人的人脸时，该不同的个人的人脸优选被选作索引。因此，在其中出现多个人的的视频图像数据的情形中，可以根据每个人出现的定时设置索引人脸。

(2)利用笑容检测信息选择索引人脸的示例性过程

接下来，下面将参考图11描述利用笑容检测信息选择索引人脸的示例性过程。在该示例性过程中，确定每个检测出的人脸是否是笑人脸，并且当检测出的人脸是笑人脸时，优选选作索引。

下面将参考图11的流程图描述该示例性过程，图10示出了用于选择索引人脸的过程。如前所述，图11的流程图对应于上述图7的流程图，并且示出了图4的流程图中的步骤S103中的索引用人脸选择过程。图11所示的过程是针对其中已检测出了人脸的每个帧执行的。

首先，在步骤S401中，获得当前处理的帧中检测出的每个人脸的“笑容程度”。在步骤S402中，计算每个人脸的笑容分数，即，根据该“笑容程度”的分数。可以基于在人脸检测过程时获得的人脸图像的特征量计算“笑容程度”。可以采用例如下述技术：日本专利早期公开No.Hei 7-128031(其公开了人脸图像识别过程)所公开的技术，以及文章“Learning by Detector of Real-time Face in Arbitrary Posture Using PixelDifference Characteristic”，Proceedings of 10^th Symposium on Sensing via Image Information，pp.547-552，2004中公开的技术。

笑容分数的值随着相应的检测出的人脸的“笑容程度”增大而增大，而笑容分数的值随着相应的检测出的人脸的“笑容程度”减小而减小。

具体而言，可以针对代表“笑容程度”的数值设置阈值，例如：

“笑容程度”大于等于阈值的人脸的笑容分数可以设置为：笑容分数＝100。

“笑容程度”小于阈值的人脸的笑容分数可以设置为：笑容分数＝0。

与上述实例相同，可以以数字方式设置笑容分数。模拟分数设置也是可以的。例如，笑容分数的值可以根据代表笑容程度的数值逐渐减小。

步骤S403至S407的过程对应于上述参考图7的步骤S204至S208的过程。具体而言，在本示例性过程中，在步骤S402和S403中分别计算(a)笑容分数和(b)距离分数，并且在步骤S404中，基于这两类分数计算合计分数，按照合计分数对人脸进行排序，从而按照合计分数的降序排列人脸。距离分数是按照与参考图8的上述方式相同的方式计算出的。

合计分数是按照与上述示例性过程相同的方式计算出的。例如，通过在向上述不同类别的分数指派加权参数的情况下将这些分数相加到一起计算出合计分数。具体而言，假设如下：

(a)笑容程度＝Sa；以及

(b)距离分数＝Sb。

另外，假设对于上述分数设置了加权参数p和q。则通过下面的等式计算合计分数[Sall]：

合计分数[Sall]＝p(Sa)+q(Sb)。

在步骤S407中，在当前处理的帧(即，刚经过计算上述两类分数和合计分数的处理的帧)中检测出的人脸的数目被与在先前处理的前一帧(在图4的流程图中的步骤S101中被选作将被处理的帧)中检测出的人脸的数目相比较，来确定在当前处理的帧中检测出的人脸的数目是否大于在先前处理的前一帧中检测出的人脸的数目。如果确定为肯定结果，则控制前进到步骤S406。如果确定是否定结果，则控制前进到步骤S407。

在步骤S406中，在已按照合计分数被排序的人脸中，合计分数最高的一个或多个人脸被选作索引人脸，并且所选人脸的元信息(例如，帧号、位置、大小、人脸评估值分数、合计分数等)被输出到元信息记录部件。此后，执行如图4所示的步骤S104的过程，即，元信息记录过程。

在步骤S407中，关于在当前处理的人脸检测帧中检测出的人脸的位置信息被记录到存储器中。在当在步骤S403中计算距离分数时将该帧作为参考帧(即，图8中所示的参考帧461)参考时将使用该信息。

在本示例性过程中，执行了计算每个检测出的人脸的笑容程度的过程，并且较高的分数被赋予笑容程度较高的人脸，使得笑容程度较高的人脸将优选被选作索引。因此，在所检测出的人脸具有多种面部表情时，优选笑人脸被选择并被设置为索引。

(3)利用儿童人脸检测信息选择索引人脸的示例性过程

接下来，下面将参考图12描述利用儿童人脸检测信息选择索引人脸的示例性过程。在该示例性过程中，确定每个检测出的人脸是否是儿童人脸，并且当所检测的人脸是儿童人脸时，优选选作索引。

下面将参考图12的流程图描述该示例性过程，图12示出了用于选择索引人脸的过程。如前所述，图12的流程图对应于上述图7的流程图，并且示出了图4的流程图中的步骤S103中的索引用人脸选择过程。图12所示的过程是针对其中已检测出了人脸的每个帧执行的。

首先，在步骤S501中，获得当前处理的帧中检测出的每个人脸的“儿童人脸程度”。在步骤S502中，计算每个人脸的儿童人脸分数，即，根据该“儿童人脸程度”的分数。可以基于在人脸检测过程时获得的人脸图像的特征量计算“儿童人脸程度”。可以采用例如下述技术：日本专利早期公开No.Hei 7-128031(其公开了人脸图像识别过程)所公开的技术，以及文章“Learning by Detector of Real-time Face in ArbitraryPosture Using Pixel Difference Characteristic”，Proceedings of 10^th Symposium on Sensing via Image Information，pp.547-552，2004中公开的技术。

儿童人脸分数的值随着相应的检测出的人脸的“儿童人脸程度”增大而增大，而儿童人脸分数的值随着相应的检测出的人脸的“儿童人脸程度”减小而减小。

具体而言，可以针对代表“儿童人脸程度”的数值设置阈值，例如：

“儿童人脸程度”大于等于阈值的人脸的儿童人脸分数可以设置为：儿童人脸分数＝100。

“儿童人脸程度”小于阈值的人脸的儿童人脸分数可以设置为：儿童人脸分数＝0。

与上述实例相同，可以以数字方式设置儿童人脸分数。模拟分数设置也是可以的。例如，儿童人脸分数的值可以根据代表儿童人脸程度的数值逐渐减小。

步骤S503至S507的过程对应于上述参考图7的步骤S204至S208的过程。具体而言，在本示例性过程中，在步骤S502和S503中分别计算(a)儿童人脸分数和(b)距离分数，并且在步骤S504中，基于这两类分数计算合计分数，按照合计分数对人脸进行排序，从而按照合计分数的降序排列人脸。距离分数是按照与参考图8的上述方式相同的方式计算出的。

(c)儿童人脸程度＝Sa；以及

(d)距离分数＝Sb。

合计分数[Sall]＝p(Sa)+q(Sb)。

在步骤S505中，在当前处理的帧(即，刚经过计算上述两类分数和合计分数的处理的帧)中检测出的人脸的数目被与在先前处理的前一帧(在图4的流程图中的步骤S101中被选作将被处理的帧)中检测出的人脸的数目相比较，来确定在当前处理的帧中检测出的人脸的数目是否大于在先前处理的前一帧中检测出的人脸的数目。如果确定为肯定结果，则控制前进到步骤S506。如果确定是否定结果，则控制前进到步骤S507。

在步骤S506中，在已按照合计分数被排序的人脸中，合计分数最高的一个或多个人脸被选作索引人脸，并且所选人脸的元信息(例如，帧号、位置、大小、人脸评估值分数、合计分数等)被输出到元信息记录部件。此后，执行如图4所示的步骤S104的过程，即，元信息记录过程。

在步骤S507中，关于在当前处理的人脸检测帧中检测出的人脸的位置信息被记录到存储器中。在当在步骤S503中计算距离分数时将该帧作为参考帧(即，图8中所示的参考帧461)参考时将使用该信息。

在本示例性过程中，执行了计算每个检测出的人脸的儿童人脸程度的过程，并且较高的分数被赋予儿童人脸程度较高的人脸，使得儿童人脸程度较高的人脸将优选被选作索引。因此，在多个人出现的数据的情形中，优选儿童人脸被选择并被设置为索引。

注意，可以以硬件或者软件或者这二者的组合实现本说明书中描述的一系列过程。在以软件实现该系列过程的情形中，可以将写有处理序列的程序安装到具有专用硬件结构的计算机的存储器中并且在其中被执行，或者可以将程序安装到能够执行各种类型过程的通用计算机中并且在其中执行。程序例如可以预先被存储到存储介质中。可以将程序从存储介质安装到计算机中。或者，可以经由诸如局域网(LAN)或因特网之类的网络接收程序，然后将其安装到计算机中的诸如硬盘之类的存储介质中。

还要注意，本说明书中描述的各种过程可以按照它们在本说明书中被描述的时间顺序被执行。但是，按照需求或者取决于执行这些过程的设备的处理能力，可以并行或者独立地执行这些过程中的一些。

如上所述，根据本发明的一个实施例，在从视频图像数据中选择将被用作索引图像的人脸图像的情形中，在图像帧中检测出的人脸的分数(例如，根据人脸在帧内的位置的位置分数、根据人脸的大小的大小分数、根据人脸的相似程度的人脸评估值分数、以及根据人脸检测位置与先前的人脸检测帧的差别的距离分数)被计算出，并且基于上述分数计算的合计分数较高的人脸图像优选被用作索引。因此，可以从大量人脸出现的视频图像数据中高效地仅选择分数较高的人脸，以便生成便于用户的人脸索引信息。

本领域技术人员应当理解，取决于涉及需求和其他因素，可以进行各种修改、组合、子组合和替换，只要它们在所附权利要求书或者其等同物的范围内。

本发明包含与2007年4月23日递交到日本特许厅的日本专利申请JP2007-112591相关的主题，该在先日本专利申请的全部内容通过引用被结合于此。

Claims

1.一种图像处理装置，包括：

典型人脸提取单元，其被配置为在构成视频图像数据的一部分的图像帧中检测人脸图像，并且从检测出的人脸图像中选择将被用作索引信息的人脸图像，

其中，所述典型人脸提取单元被配置为基于在所述图像帧中检测出的每个人脸图像的不同特征计算所述人脸图像的多种类型的分数，基于所述多种类型的分数计算每个人脸图像的合计分数，确定在所述图像帧中检测出的人脸图像的数目是否大于在前一人脸检测帧中检测出的人脸图像的数目，并且当在所述图像帧中检测出的人脸图像的数目大于在前一人脸检测帧中检测出的人脸图像的数目时将合计分数较高的检测出的人脸图像选作索引用人脸图像。

2.如权利要求1所述的图像处理装置，其中，所述典型人脸提取单元还被配置为计算在所述图像帧中检测出的每个人脸图像的位置分数，并且将位置分数较高的检测出的人脸图像选作所述索引用人脸图像，所述位置分数的值随所述人脸图像接近所述图像帧的中央而增大。

3.如权利要求1所述的图像处理装置，其中，所述典型人脸提取单元还被配置为计算在所述图像帧中检测出的每个人脸图像的大小分数，并且将大小分数较高的检测出的人脸图像选作所述索引用人脸图像，所述大小分数的值随所述人脸图像的大小增大而增大。

4.如权利要求1所述的图像处理装置，其中，所述典型人脸提取单元还被配置为计算在所述图像帧中检测出的每个人脸图像的人脸评估值分数，并且将人脸评估值分数较高的检测出的人脸图像选作所述索引用人脸图像，所述人脸评估值分数的值随所述人脸图像的人脸相似程度增大而增大。

5.如权利要求1所述的图像处理装置，其中，所述典型人脸提取单元被配置为确定在所述图像帧中检测出的每个人脸图像的笑容程度以及在所述图像帧中检测出的每个人脸图像与在所述前一人脸检测帧中检测出的每个人脸图像的距离，计算每个人脸图像的笑容分数和距离分数，并且将笑容分数和距离分数的合计分数较高的检测出的人脸图像选作所述索引用人脸图像，所述笑容分数的值随所述人脸图像的所述笑容程度增大而增大，所述距离分数是基于所述人脸图像与在所述前一人脸检测帧中检测出的每个人脸图像的距离计算出来的。

6.如权利要求1所述的图像处理装置，其中，所述典型人脸提取单元被配置为确定在所述图像帧中检测出的每个人脸图像的儿童人脸程度以及在所述图像帧中检测出的每个人脸图像与在所述前一人脸检测帧中检测出的每个人脸图像的距离，计算每个人脸图像的儿童人脸分数和距离分数，并且将儿童人脸分数和距离分数的合计分数较高的检测出的人脸图像选作所述索引用人脸图像，所述儿童人脸分数的值随所述人脸图像的所述儿童人脸程度增大而增大，所述距离分数是基于所述人脸图像与在所述前一人脸检测帧中检测出的每个人脸图像的距离计算出来的。

7.如权利要求1所述的图像处理装置，其中，所述典型人脸提取单元还被配置为生成被选作所述索引用人脸图像的人脸图像的元数据，并且将所述元数据记录在记录介质中。

8.如权利要求7所述的图像处理装置，其中，所述元数据包括与被选作所述索引用人脸图像的人脸图像相对应的帧号、人脸位置信息和人脸大小信息。

9.如权利要求7或8所述的图像处理装置，其中，所述元数据包括与被选作所述索引用人脸图像的人脸图像相对应的分数信息。

10.一种成像装置，包括：

成像部件；以及

典型人脸提取单元，其被配置为接受通过所述成像部件拍摄获得的视频图像数据，在构成所接受的视频图像数据的一部分的图像帧中检测人脸图像，并且从检测出的人脸图像中选择将被用作索引信息的人脸图像，

11.一种在包括典型人脸提取单元的图像处理装置中采用的图像处理方法，该方法包括以下步骤：

所述典型人脸提取单元在构成视频图像数据的一部分的图像帧中检测人脸图像，并且从检测出的人脸图像中选择索引用人脸图像，

其中，所述检测和选择步骤包括以下步骤：基于在所述图像帧中检测出的每个人脸图像的不同特征计算所述人脸图像的多种类型的分数，基于所述多种类型的分数计算每个人脸图像的合计分数，确定在所述图像帧中检测出的人脸图像的数目是否大于在前一人脸检测帧中检测出的人脸图像的数目，并且当在所述图像帧中检测出的人脸图像的数目大于在前一人脸检测帧中检测出的人脸图像的数目时将合计分数较高的检测出的人脸图像选作索引用人脸图像。

12.如权利要求11所述的图像处理方法，其中，所述检测和选择步骤包括以下步骤：计算在所述图像帧中检测出的每个人脸图像的位置分数，并且将位置分数较高的检测出的人脸图像选作所述索引用人脸图像，所述位置分数的值随所述人脸图像接近所述图像帧的中央而增大。

13.如权利要求11所述的图像处理方法，其中，所述检测和选择步骤包括以下步骤：计算在所述图像帧中检测出的每个人脸图像的大小分数，并且将大小分数较高的检测出的人脸图像选作所述索引用人脸图像，所述大小分数的值随所述人脸图像的大小增大而增大。

14.如权利要求11所述的图像处理方法，其中，所述检测和选择步骤包括以下步骤：计算在所述图像帧中检测出的每个人脸图像的人脸评估值分数，并且将人脸评估值分数较高的检测出的人脸图像选作所述索引用人脸图像，所述人脸评估值分数的值随所述人脸图像的人脸相似程度增大而增大。

15.如权利要求11所述的图像处理方法，其中，所述检测和选择步骤包括以下步骤：确定在所述图像帧中检测出的每个人脸图像的笑容程度以及在所述图像帧中检测出的每个人脸图像与在所述前一人脸检测帧中检测出的每个人脸图像的距离，计算每个人脸图像的笑容分数和距离分数，并且将笑容分数和距离分数的合计分数较高的检测出的人脸图像选作所述索引用人脸图像，所述笑容分数的值随所述人脸图像的所述笑容程度增大而增大，所述距离分数是基于所述人脸图像与在所述前一人脸检测帧中检测出的每个人脸图像的距离计算出来的。

16.如权利要求11所述的图像处理方法，其中，所述检测和选择步骤包括以下步骤：确定在所述图像帧中检测出的每个人脸图像的儿童人脸程度以及在所述图像帧中检测出的每个人脸图像与在所述前一人脸检测帧中检测出的每个人脸图像的距离，计算每个人脸图像的儿童人脸分数和距离分数，并且将儿童人脸分数和距离分数的合计分数较高的检测出的人脸图像选作所述索引用人脸图像，所述儿童人脸分数的值随所述人脸图像的所述儿童人脸程度增大而增大，所述距离分数是基于所述人脸图像与在所述前一人脸检测帧中检测出的每个人脸图像的距离计算出来的。

17.如权利要求11到16中的任意一个所述的图像处理方法，还包括以下步骤：

所述典型人脸提取单元生成被选作所述索引用人脸图像的人脸图像的元数据，并且将所述元数据记录在记录介质中。

18.如权利要求17所述的图像处理方法，其中，所述元数据包括与被选作所述索引用人脸图像的人脸图像相对应的帧号、人脸位置信息和人脸大小信息。

19.如权利要求18所述的图像处理方法，其中，所述元数据包括与被选作所述索引用人脸图像的人脸图像相对应的分数信息。