CN102214293B - 面部群集设备、面部群集方法和程序 - Google Patents

面部群集设备、面部群集方法和程序 Download PDF

Info

Publication number
CN102214293B
CN102214293B CN201110079857.3A CN201110079857A CN102214293B CN 102214293 B CN102214293 B CN 102214293B CN 201110079857 A CN201110079857 A CN 201110079857A CN 102214293 B CN102214293 B CN 102214293B
Authority
CN
China
Prior art keywords
unit
group
facial
participant
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110079857.3A
Other languages
English (en)
Other versions
CN102214293A (zh
Inventor
望月俊助
村田诚
孙赟
后藤智彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102214293A publication Critical patent/CN102214293A/zh
Application granted granted Critical
Publication of CN102214293B publication Critical patent/CN102214293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本发明公开了面部群集设备、面部群集方法和程序。该面部群集设备检测包含在图像中的面部,检测所检测的面部的方向,考虑所检测的面部的方向来检测具有相似特征的面部,并形成表示该面部的特征的多条面部信息的集合,针对已形成的多条面部信息的每个集合,将面部信息的条数缩窄到为每个面部方向预先设定的数目,并将条数已被缩窄的多条面部信息的集合设置为一个单位群组,并以所设置的单位群组为对象,执行基于每个单位群组中包括的多条面部信息的群集。

Description

面部群集设备、面部群集方法和程序
技术领域
本发明涉及面部群集(faceclustering)设备、面部群集方法和程序。
背景技术
近年来,一种高效管理视频中包含的人物等的面部信息的方法正引起关注。例如,JP-A-2009-81883公开了一种提供资源数据的方法,该资源数据使得用户能够很容易掌握视频中包含的人物的面部信息和人物的出现场景。另外,JP-A-2010-3021公开了一种通过在检测视频中包含的面部信息时聚集同一人的面部信息并从所聚集的面部特征量中去除不适于面部群集的面部信息来实现面部群集的加速和精度增强的方法。
发明内容
然而,在以视频中包含的所有人物的面部信息作为对象执行面部群集的情况下,需要大的存储容量和高的计算能力。考虑到前述问题,希望提供一种新颖且改进的面部群集设备、面部群集方法和程序,其能够以更高效率、更高精度来群集面部信息。
根据本发明的一个实施例,提供了一种面部群集设备,包括面部检测单元、面部方向检测单元、面部辨别单元、单位群组设置单元和群集单元,面部检测单元检测包含在图像中的面部,面部方向检测单元检测由面部检测单元检测出的面部的方向,面部辨别单元考虑由面部方向检测单元检测出的面部的方向来检测具有相似特征的面部,并形成表示该面部的特征的多条面部信息的集合,单位群组设置单元针对由面部辨别单元形成的多条面部信息的每个集合,基于由面部方向检测单元检测出的面部的方向将面部信息的条数缩窄到为每个面部方向预先设定的数目,并将条数已被缩窄的多条面部信息的每个集合设置为一个单位群组,群集单元以由单位群组设置单元设置的单位群组为单位、执行基于每个单位群组中包括的多条面部信息的群集。
当由单位群组设置单元设置的单位群组被表示为第一单位群组并且基于第k(k=1至N)单位群组设置的单位群组被表示为第k+1单位群组时,群集单元可以对于k=2至N依次执行以下操作:取第一单位群组中存在于按预定的第一时间T1划分得到的每个区间中的单位群组作为对象,合并具有相似特征的单位群组以设置第二单位群组,并且取第k单位群组中存在于按预定的第k时间Tk(Tk>Tk-1)划分得到的每个区间中的单位群组作为对象,合并具有相似特征的单位群组以设置第k+1单位群组。
群集单元可包括第一合并单元和第二合并单元,第一合并单元以设在所有单位群组中的每条面部信息作为对象,基于每条面部信息的相似度来合并具有相似特征的单位群组,第二合并单元使用设在每个个体单位群组中的面部信息,基于每个个体单位群组的相似度来合并具有相似特征的单位群组。第一合并单元可以以第i(1≤i≤N)单位群组为对象来执行合并具有相似特征的单位群组的操作,并且第二合并单元可以以第j(j≠i)单位群组为对象来执行合并具有相似特征的单位群组的操作。
群集单元可以被配置为不合并与基本上同一时间相对应的两个单位群组。
当以第i(1≤i≤N)单位群组为对象来执行合并具有相似特征的单位群组的操作时,第一合并单元可以重复执行该操作直到合并不再发生为止。
单位群组设置单元可以缩窄面部信息的条数,使得与分开的时间相对应的多条面部信息易于被设置在同一单位群组中。
第二合并单元可以以至少第一单位群组为对象来执行合并具有相似特征的单位群组的操作。
当合并具有相似特征的单位群组时,群集单元可以保持设在合并前的单位群组中的多条面部信息以及表示合并前的单位群组和合并后的单位群组之间的对应关系的分层信息。
根据本发明的另一实施例,提供了一种面部群集方法,包括以下步骤:检测包含在图像中的面部;检测在检测面部的步骤中检测出的面部的方向;考虑在检测方向的步骤中检测出的面部的方向来检测具有相似特征的面部,并形成表示该面部的特征的多条面部信息的集合;针对在检测和形成步骤中形成的多条面部信息的每个集合,基于在检测方向的步骤中检测出的面部的方向将面部信息的条数缩窄到为每个面部方向预先设定的数目,并将条数已被缩窄的多条面部信息的每个集合设置为一个单位群组;以及以在缩窄步骤中设置的单位群组为单位,基于每个单位群组中包括的多条面部信息来执行群集。
根据本发明的另一实施例,提供了一种用于使计算机实现以下功能的程序:面部检测功能,用于检测包含在图像中的面部;面部方向检测功能,用于检测由面部检测功能检测出的面部的方向;面部辨别功能,用于考虑由面部方向检测功能检测出的面部的方向来检测具有相似特征的面部并形成表示该面部的特征的多条面部信息的集合;单位群组设置功能,用于针对由面部辨别功能形成的多条面部信息的每个集合,基于由面部方向检测功能检测出的面部的方向将面部信息的条数缩窄到为每个面部方向预先设定的数目,并将条数已被缩窄的多条面部信息的每个集合设置为一个单位群组;以及群集功能,用于以由单位群组设置功能设置的单位群组为单位,执行基于每个单位群组中包括的多条面部信息的群集。
根据本发明的另一实施例,提供了一种记录有该程序的记录介质,该记录介质能够被计算机读取。
根据上述本发明的实施例,可以更高效率、更高精度地对面部信息进行群集。
附图说明
图1是用于描述根据本发明一个实施例的信息处理装置的示例性功能配置的示意图;
图2是用于描述根据该实施例的面部群集方法(总体处理流程)的示意图;
图3是用于描述根据该实施例的面部群集方法(总体处理流程)的示意图;
图4是用于描述根据该实施例的面部群集方法(总体处理流程)的示意图;
图5是用于描述根据该实施例的面部群集方法(初始设置)的示意图;
图6是用于描述根据该实施例的面部群集方法(生成参与者信息)的示意图;
图7是用于描述根据该实施例的面部群集方法(执行参与者群集)的示意图;
图8是用于描述根据该实施例的面部群集方法(执行对象层分析)的示意图;
图9是用于描述根据该实施例的面部群集方法(执行合并处理)的示意图;
图10是用于描述根据该实施例的面部群集方法(更新参与者信息)的示意图;
图11是用于描述根据该实施例的面部群集方法(最终群集)的示意图;
图12是用于描述根据该实施例的面部群集方法(参与者信息的构成)的示意图;
图13是用于描述根据该实施例的面部群集方法(参与者信息的构成)的示意图;
图14是用于描述根据该实施例的面部群集方法(参与者信息的构成)的示意图;
图15是用于描述根据该实施例的面部群集方法(初步-最终方案)的示意图;
图16是用于描述根据该实施例的面部群集方法(第一群集方案)的示意图;
图17是用于描述根据该实施例的面部群集方法(第一群集方案)的示意图;
图18是用于描述根据该实施例的面部群集方法(第一群集方案)的示意图;
图19是用于描述根据该实施例的面部群集方法(第一群集方案)的示意图;
图20是用于描述根据该实施例的面部群集方法(第一群集方案)的示意图;
图21是用于描述根据该实施例的面部群集方法(第二群集方案)的示意图;
图22是用于描述根据该实施例的面部群集方法(性能改善措施1)的示意图;
图23是用于描述根据该实施例的面部群集方法(性能改善措施2)的示意图;
图24是用于描述根据该实施例的面部群集方法(性能改善措施3)的示意图;
图25是用于描述根据该实施例的面部群集方法(性能改善措施4)的示意图;以及
图26是用于描述根据该实施例的信息处理装置的示例性硬件配置的示意图。
具体实施方式
下文中将参考附图详细描述本发明的优选实施例。注意,在该说明书和附图中,具有基本相同的功能和结构的结构元件被用相同的附图标记表示,并且对这些结构元件的重复说明被省略。
[描述流程]
这里将简要提及下面要描述本发明实施例的描述流程。首先,将参考图1简要描述根据该实施例的信息处理装置100的功能配置。然后,将参考图2至25详细描述根据该实施例的信息处理装置100的操作和面部群集方法。然后,将参考图26描述信息处理装置100的示例性硬件配置。最终,将总结该实施例的技术构思并简要描述由该技术构思获得的操作效果。
(描述项目)
1:实施例
1-1:信息处理装置100的配置
1-2:信息处理装置100的操作(面部群集方法)
1-2-1:第一群集方案
1-2-2:第二群集方案
1-2-3:应用步骤
1-3:性能改善措施
1-3-1:性能改善措施1
1-3-2:性能改善措施2
1-3-3:性能改善措施3
1-3-4:性能改善措施4
1-4:示例性硬件配置
2:总结
<1.实施例>
将描述本发明的一个实施例。本实施例涉及一种群集关于从图像序列(例如连拍图像或视频)中检测出的个人的信息(例如,面部信息等)的方法(下文中称为面部群集方法)。具体而言,本实施例涉及一种按预定单位(下文中称为参与者)管理关于从图像序列中检测出的个人的信息的方法。下面将以面部信息作为关于个人的信息的具体例子来描述对面部信息进行群集的方法。
[1-1:信息处理装置100的配置]
首先,将参考图1简要描述根据本实施例的能够实现面部群集方法的信息处理装置100的示例性功能配置。图1是示出信息处理装置100的示例性功能配置的示意图。
如图1所示,信息处理装置100主要包括显示单元101、存储单元102、数据获取单元103、面部识别单元104、参与者生成单元105和参与者群集单元106。此外,参与者群集单元106包括第一群集单元1061和第二群集单元1062。
显示单元101是用于显示图像的装置。例如,显示单元101读取存储在存储单元102中的图像序列并显示该图像序列。另外,显示单元101显示从图像序列中提取的面部图像。此外,显示单元101针对每个人物显示面部图像出现在图像序列中的区间和与该区间相对应的面部图像。存储单元102是用于保存数据的装置。例如,存储单元102保存形成图像序列的每个图像。另外,存储单元102保存面部识别单元104、参与者群集单元106等(后面将描述)所提取或选择的图像序列中的面部图像。
数据获取单元103从存储单元102获取形成图像序列的每个图像。这里,在存储单元102所保存的图像已被编码的情况下,数据获取单元103对从存储单元102获取的图像进行解码。例如,在图像序列通过诸如MPEG-2、MPEG-4、H.264/AVC等之类的编码方案被编码的情况下,数据获取单元103基于相应的编码方案对每个图像进行解码。另外,在形成图像序列的每个图像通过诸如JPEG等之类的编码方案被编码的情况下,数据获取单元103基于相应的编码方案对每个图像进行解码。以这种方式由数据获取单元103从存储单元102获取的每个图像被输入到面部识别单元104。
面部识别单元104检测包含在从数据获取单元103输入的每个图像中的面部图像。以图像作为输入的、能够判断“面部性”的学习器可以用于面部图像的检测。例如,通过基于Haar类特征创建多个弱学习器并将这些弱学习器应用于自适应增强(AdaBoost),可以获得用于计算“面部性”的学习器(见JP-A-2010-3021)。然而,面部图像的检测方法并不限于此。例如,还可以想到一种基于两个像素之间的亮度差的组合(下文中称为像素差特征)来创建多个弱学习器并将这些弱学习器应用于自适应增强(AdaptiveBoosting)的方法。
利用这种增强方法,可以检测与面部图像相对应的面部的方向、三维位置等,或者可以检测具有相似特征的面部图像。面部识别单元104利用上述方法来检测包含在每个图像中的面部图像。另外,面部识别单元104检测与每个面部图像相对应的面部的方向、三维位置等。然后,面部识别单元104检测出现在图像序列中的面部图像中具有相似特征的面部图像。然后,面部识别单元104向具有相似特征的面部图像分配相同的标识信息(下文中称为面部ID)并与面部图像的检测时间(下文中称为检测时间)相关联地管理这些面部图像。例如,面部ID、检测时间、面部信息等与每个面部图像相关联。
另外,上述面部信息是指示面部图像的特征的特征量。例如,面部信息包括面部的方向、面部的三维位置、年龄、性别、像素差特征等等。另外,年龄、性别等还可以通过机器学习(例如上述的增强方法)来检测。此外,以下配置也是可以的,其中用户向通过面部检测检测出的面部图像分配诸如年龄和性别之类的信息。这样,用于比较面部图像之间的相似度的信息被包含在上述面部信息中。因而,好好地利用面部信息将能够判断从图像序列中检测出的面部图像是否为同一人的面部图像。
面部识别单元104以上述方式检测出的面部图像以及与面部图像相对应的面部ID、检测时间和面部信息被输入到参与者生成单元105。参与者生成单元105是用于生成本实施例的面部群集方法的群集对象(参与者)的装置。这里的参与者对应于出现在图像序列中的每个人。即,参与者生成单元105生成指示每个参与者的特征的参与者信息。参与者信息是由面部识别单元104检测出的面部信息的集合形成的。
这里,图12中将示出与个人A相对应的参与者信息的例子。如图12所示,参与者信息具有预定数目的特征量位置(featurequantityslot),将向这些特征量位置指派面部信息。另外,特征量位置对应于将向其指派面部信息的存储区。在参与者信息中提供的特征量位置的类型和数目可以任意设定。在图12的例子中,对于一条参与者信息提供了与面部的三个方向(面向左、面向前、面向右)相对应的三个特征量位置。在本实施例的情况下,可以指派给每个特征量位置的面部信息的条数限于预定数目。因而,即使从图像序列中检测出极大数目的面部图像,表征一个参与者的面部信息的条数也是有限的。
在图12中,按检测时间的顺序示出了面部ID=A的多条面部信息。在下面的描述中,按照从最早开始的检测时间的顺序赋予从1开始的编号,并且面部信息的面部ID和检测时间(检测顺序)例如通过表示符A1、A2、...A8示出在一起。此外,在图12的例子中,为每个特征量位置提供四个空位(可以向其指派面部信息的存储区)。因而,向每个特征量位置可以指派最多四条面部信息。基于图12的例子给出说明,参与者生成单元105根据面部的方向对按时间顺序排列的多条面部信息进行分类,如图13所示(步骤1)。接下来,参与者生成单元105按照检测时间的顺序向与面部方向相对应的特征量位置指派面部信息(步骤2)。
然而,由于可以指派给每个特征量位置的面部信息的条数是有限的,因此在检测时间顺序上靠后的面部信息不被指派给特征量位置。因而,如图14所示,参与者生成单元105将已经指派给特征量位置的面部信息(下文中称为现有面部信息)与要指派给特征量位置的面部信息(下文中称为新面部信息)相比较,并选择最适当的面部信息。例如,参与者生成单元105将新面部信息A8与现有的多条面部信息A3、A4、A6和A7相比较,并且如果新面部信息A8被确定为比现有面部信息A4更为适当,则参与者生成单元105选择新面部信息A8。然后,参与者生成单元105利用新面部信息A8替换现有面部信息A4(步骤3)。
另外,在选择最适当的面部信息的时候,参与者生成单元105在现有面部信息和新面部信息之间比较诸如“面部性”、“与个人A的面部的相象”、“与另一面部信息的相似度”等等的分数,并选择具有较高分数的面部信息。可以优先选择“几乎面向前的面部”或者“模糊度更低或失焦更小的面部”(利用这种信息更容易辨别面部)。参与者生成单元105通过重复图14中所示的步骤3的处理来生成参与者信息。另外,参与者生成单元105针对每个面部ID生成参与者信息。因此,每条参与者信息由面部ID、指派给特征量位置的面部信息等等来表征。另外,图12至14中示出了一种配置,其中为每个“面部方向”提供特征量位置,但是并不限于该例子。
将再次参考图1。由参与者生成单元105以上述方式生成的参与者信息被输入到参与者群集单元106。参与者群集单元106通过逐个参与者地执行群集来执行参与者的缩窄。根据本实施例的参与者群集单元106通过分层群集方案(下文中称为初步-最终方案)来执行参与者的缩窄,如图15所示。首先,参与者群集单元106取参与者(面部图像)被首次检测到的时刻taS作为分析起始时刻tbS,并选择从分析起始时刻tbS起的预定时间段tbR(下文中称为分析区间)中所包含的参与者作为群集对象。
在图15的例子中,参与者B和C被包括在包含参与者A的分析区间中。在这种情况下,参与者群集单元106以参与者A、B和C为对象执行群集。相似地,E被包括在包含参与者D的分析区间中,因而参与者群集单元106以参与者D和E为对象执行群集。此外,G被包括在包含参与者F的分析区间中,因而参与者群集单元106以参与者F和G为对象执行群集。另外,由于参与者H未纳入包含参与者F的分析区间中(例如,HI至H8中的H7和H8留在分析区间外),它将会成为下一分析区间中的群集对象。
以这种方式执行第一层中的群集,并且具有相似特征的参与者被合并。在图15的例子中,参与者B与参与者A合并,参与者D与参与者E合并,并且参与者I及J被与参与者H合并。这里的合并意味着将被指派给与作为合并坐标的参与者相对应的参与者信息的特征量位置的面部信息重新指派给与合并之后的参与者相对应的参与者信息的特征量位置(例如参见图25)。例如,在合并参与者D(被指派面部信息D1和D2)与参与者E(其位置数为2并且被指派面部信息E1)的情况下,最适当的两条面部信息被从面部信息E1、D1和D2中选出并被指派给合并之后的参与者E。
当第一层中参与者群组的群集完成时,参与者群集单元106利用合并之后的参与者群组作为对象来执行第二层中的群集。这里,第二层中的分析区间的长度被设定为长于第一层中的分析区间。当第二层中的群集完成时,参与者群集单元106在存储单元102中存储关于已通过第二层中的群集合并的参与者群组(第三层中的参与者群组)的信息。另外,尽管在图15中示出了三层的情况,但是层级的数目可以被设定为4或更大。此外,每层中的群集方法将在后面描述。
通过上述群集方案合并的顶层中的参与者群组被假定代表相同的人。因此,显示单元101针对每个参与者显示与顶层中的各个参与者相对应的面部图像的出现场景。利用针对每个参与者显示的出现场景,用户能够很容易掌握哪个人出现在图像序列中的哪个时隙中。另外,上述群集方案是取具有有限数目的位置的参与者信息作为单位来执行的,因而在确定参与者之间的相似性时要分析的面部信息的条数可以保持较少,并且用于实现该方案所需的诸如存储容量和计算能力之类的条件可以得到缓解。
在前述内容中,已简要描述了根据本实施例的信息处理装置100的功能配置。然而,在上面的说明中省略了群集方案的详细说明。因而,下面将结合对信息处理装置100的操作的描述来详细描述面部群集方法。另外,参与者群集单元106中包括的第一群集单元1061和第二群集单元1062的功能将在后面描述。
[1-2:信息处理装置100的操作(面部群集方法)]
下面将参考图2至25详细描述根据本实施例的信息处理装置100的操作和面部群集方法。另外,根据本实施例的面部群集方法涉及基于上述参与者信息(见图12至14)的群集方案。
如图2所示,信息处理装置100执行初始设置(S101)。如图5所示,该初始设置是在三步中进行的,即,路由节点的设置(S201),层级数目的设置(S202),以及对每层的参数设置(S203)。如上所述,根据本实施例的面部群集方法基于图15中所示的初步-最终方案。为了实现该初步-最终方案,对参数的设置将是必需的,例如直到顶层为止的层级的数目(群集的执行次数)和每层中分析区间的长度。这些参数在步骤S101中被设置。另外,对参数的设置是由信息处理装置100基于用户输入执行的。
将再次参考图2。在步骤S101之后,信息处理装置100利用数据获取单元103的功能按时间顺序重新排列内容(S102)。例如,在多个视频和静止图像被包括在存储单元102中的情况下,数据获取单元103基于分配给视频和静止图像的数据的时间信息来重新排列存储在存储单元102中的数据。接下来,信息处理装置100利用数据获取单元103的功能从存储单元102获取诸如视频或静止图像之类的内容数据(S103)。然后,信息处理装置100利用数据获取单元103的功能判断所获取的内容数据是否为视频(S104)。
在内容数据是视频的情况下,信息处理装置100的处理进行到步骤S121(图3)。另一方面,在内容数据不是视频的情况下,信息处理装置100的处理进行到步骤S105。在处理进行到步骤S105的情况下,信息处理装置100判断内容数据是否为静止图像(S105)。在内容数据是静止图像的情况下,信息处理装置100的处理进行到步骤S106。另一方面,在内容数据不是静止图像的情况下,信息处理装置100的处理进行到步骤S141(图4)。
(内容数据是静止图像的情况)
在处理进行到步骤S106的情况下,信息处理装置100利用面部识别单元104的功能从静止图像中检测面部图像(S106)。接下来,信息处理装置100判断是否从静止图像中检测出面部图像(S107)。在检测出面部图像的情况下,信息处理装置100的处理进行到步骤S108。另一方面,在未检测出面部图像的情况下,信息处理装置100的处理进行到步骤S141(图4)。
在处理进行到步骤S108的情况下,信息处理装置100利用参与者生成单元105的功能生成参与者信息(S108)。这里,与步骤S108中参与者信息的生成有关的处理流程将参考图6补充描述。
如图6所示,首先,参与者生成单元105定义参与者(S211)。例如,在检测出个人A的面部图像的情况下,参与者生成单元105生成个人A的一帧参与者信息,如图12所示。例如,参与者生成单元105生成一帧参与者信息,其包括与面部的方向相对应的多个特征量位置并且根据该帧参与者信息可以向每个特征量位置指派四条面部信息。
接下来,参与者生成单元105以图13和14中所示的步骤1至步骤3的方式向形成参与者信息的特征量位置指派面部信息并执行面部信息的登记(S212)。然后,参与者生成单元105选择代表每个参与者的面部图像(下文中称为代表性面部图像),并通过使面部图像与参与者信息相关联来登记代表性面部图像(S213)。当上述处理完成时,与图2的步骤S108中参与者信息的生成有关的处理完成。
将再次参考图2。在步骤S108之后,信息处理装置100利用参与者群集单元106的功能执行基于初步-最终方案的群集(下文中称为参与者群集)(S109)。这里,参考图7补充描述与步骤S109中参与者群集有关的处理流程。
如图7所示,参与者群集单元106获取参与者的出现起始时刻taS(见图15)(S221)。接下来,参与者群集单元106按照从较低层起的次序顺序地选择要作为群集对象的层级(S222)。然后,参与者群集单元106获取在步骤S222中选择的层级中的分析起始时刻tbS和分析区间的长度(范围持续时间tbR)(S223)。然后,参与者群集单元106判断tbS+tbR是否小于taS(S224)。在tbS+tbR小于taS的情况下,参与者群集单元106的处理进行到步骤S225。另一方面,在tbS+tbR不小于taS的情况下,参与者群集单元106的处理进行到步骤S227。
在处理进行到步骤S225的情况下,参与者群集单元106对作为分析对象的层级(下文中称为对象层)执行分析(S225)。这里,将参考图8补充描述与步骤S225中对象层的分析有关的处理流程。
如图8所示,首先,参与者群集单元106获取对象层中的分析起始时刻tbS和范围持续时间tbR(S231)。接下来,参与者群集单元106获取包含在时刻tbS到时刻(tbS+tbR)的分析区间中的参与者信息(S232)。然后,参与者群集单元106利用在步骤S232中获取的多条参与者信息执行合并具有相似特征的参与者的合并处理(S233)。这里,将参考图9补充描述步骤S233中合并处理的流程。
如图9所示,首先,参与者群集单元106选择合并算法(第一群集方案(见图16至20)、第二群集方案(见图21))(S241)。另外,将在后面描述第一群集方案和第二群集方案。接下来,参与者群集单元106利用所选的合并算法计算参与者之间的相似度(S242)。然后,参与者群集单元106针对合并之后剩余的若干条参与者信息生成新的参与者信息帧(S243)。然后,参与者群集单元106组织包含在合并前的多条参与者信息中的多条面部信息,选择要包含在合并后的多条参与者信息中的适当条数的面部信息,并将各条面部信息登记在新的多条参与者信息中(S244)。
即,参与者群集单元106将具有高相似度的参与者识别为与同一人相对应的参与者,并生成与参与者相对应的参与者信息。如上所述,可以指派给每条参与者信息的特征量位置的面部信息的条数是有限的。因而,参与者群集单元106从包含在合并前的两条参与者信息中的多条面部信息中选择要包含在合并后的参与者信息中的适当的面部信息,并将所选的面部信息指派给新的参与者信息。当上述处理完成时,图8中步骤S233的合并处理完成。
将再次参考图8。当多条参与者信息在步骤S233中被合并时,参与者群集单元106取合并后的参与者信息作为下一更高层级中的分析对象(S234)。当上述处理完成时,图7中步骤S225的分析处理完成。
将再次参考图7。在步骤S225之后,参与者群集单元106将tbS设为等于taS(S226),并且处理进行到步骤S227。当处理进行到步骤S227时,参与者群集单元106判断作为对象层的下一更高层级是否为顶层(S227)。在该层是顶层的情况下,参与者群集单元106的处理进行到步骤S228。另一方面,在该层不是顶层的情况下,参与者群集单元106将对象层移动到下一更高层级,并且处理进行到步骤S222。
在处理进行到步骤S228的情况下,参与者群集单元106将顶层中的参与者信息添加至最低层中的分析对象(S228)。当上述处理完成时,与图2中步骤S109的参与者群集有关的处理完成。当步骤S109的处理完成时,信息处理装置100的处理进行到步骤S141(图4)。
如图4所示,信息处理装置100判断对所有内容片段的分析是否已完成(S141)。在对所有内容片段的分析已完成的情况下,信息处理装置100的处理进行到步骤S142。另一方面,在对所有内容片段的分析未完成的情况下,信息处理装置100的处理进行到步骤S103(图2)。在处理进行到步骤S142的情况下,信息处理装置100利用参与者群集单元106的功能执行最终群集处理(S142)。这里,将参考图11补充描述步骤S142中的群集处理的流程。
如图11所示,首先,参与者群集单元106按照从低层起的顺序选择对象层(S261)。接下来,参与者群集单元106获取对象层中的分析起始时刻tbS和范围持续时间tbR(S262)。然后,参与者群集单元106对对象层执行分析(S263)。与步骤S263中对对象层的分析有关的处理流程基本上与已参考图8描述的步骤S225(图7)的处理相同。
接下来,参与者群集单元106利用作为对象层的下一更高层级是否为顶层(S264)。在该层是顶层的情况下,参与者群集单元106结束与图4中的步骤S142有关的群集处理。另一方面,在该层不是顶层的情况下,参与者群集单元106的处理进行到步骤S265。在处理进行到步骤S265的情况下,参与者群集单元106将对象层移动到下一更高层级(S265),并且处理进行到步骤S261。
当上述处理完成时,图4中步骤S142的群集处理完成。将再次参考图4。在步骤S142之后,信息处理装置100更新存储在存储单元102中的参与者信息的数据库(下文中称为参与者信息DB)(S143)。当参与者信息DB被更新时,显示单元101基于更新后的参与者信息DB显示每个参与者的面部信息、面部信息的出现时刻、等等。然后,信息处理装置100响应于该显示内容判断是否有来自用户的用于校正参与者信息的输入(S144)。在有校正输入的情况下,信息处理装置100的处理进行到步骤S143。另一方面,在没有校正输入的情况下,信息处理装置100结束处理序列。
(内容数据是视频的情况)
现在,在图2的步骤S104中内容数据是视频的情况下,信息处理装置100的处理进行到步骤S121(图3)。
如图3所示,首先,信息处理装置100利用数据获取单元103的功能从存储单元102中读取视频帧(S121)。此时,如果存储在存储单元102中的视频数据是已被编码的数据,则数据获取单元103对视频数据进行解码并生成未编码的视频帧。然后,信息处理装置100例如利用面部识别单元104的功能检测包含在视频帧中的面部图像或者检测面部的方向、三维位置等等(S122)。
接下来,信息处理装置100利用面部识别单元104的功能判断是否要开始与在步骤S122中检测出的面部图像有关的面部跟踪(S123)。在开始面部跟踪的情况下,信息处理装置100的处理进行到步骤S124。另一方面,在不开始面部跟踪的情况下,信息处理装置100的处理进行到步骤S125。在处理进行到步骤S124的情况下,信息处理装置100将面部识别单元104的面部跟踪的结果、面部信息等等输入到参与者生成单元105,并生成参与者信息(S124)。与步骤S124中参与者信息的生成有关的处理流程基本上与已参考图6描述的步骤S108(图2)的处理相同。
当步骤S124的处理完成时,信息处理装置100的处理进行到步骤S125。当处理进行到步骤S125时,信息处理装置100判断是否继续面部跟踪(S125)。在继续面部跟踪的情况下,信息处理装置100的处理进行到步骤S126。另一方面,在不继续面部跟踪的情况下,信息处理装置100的处理进行到步骤S127。在处理进行到步骤S127的情况下,信息处理装置100利用参与者生成单元105的功能更新参与者信息(S127)。这里,将参考图10补充描述与图3的步骤S127中参与者信息的更新有关的处理流程。
如图10所示,首先,参与者生成单元105获取要作为更新对象的参与者信息(S251)。接下来,参与者生成单元105检查形成所获取的参与者信息的特征量位置中的空位(S252)。然后,参与者生成单元105通过步骤S252的检查判断是否存在空位(S253)。在存在空位的情况下,参与者生成单元105的处理进行到步骤S254。另一方面,在不存在空位的情况下,参与者生成单元105的处理进行到步骤S255。
在处理进行到步骤S254的情况下,参与者生成单元105向特征量位置中的空位指派面部信息并登记面部信息(S254),并且处理进行到步骤S258。另一方面,在处理进行到步骤S255的情况下,参与者生成单元105计算要作为更新对象的面部信息的分数(S255)。即,参与者生成单元105将指派给特征量位置的现有面部信息与新面部信息相比较,并计算用于选择更适当的面部信息的分数作为参与者信息的特征量。
例如,新面部信息和所有现有的多条面部信息之间的相似度被计算,并且相似度的平均值被取作新面部信息的分数。另外,某些现有的面部信息(对象面部信息)和所有其他现有的多条面部信息之间的相似度被计算,并且相似度的平均值被取作对象面部信息的分数。即,该分数指示了作为具有相似特征的多条面部信息被收集的多条面部信息的集合的相似程度。因此,具有高分数的面部信息强烈地反映了现有的多条面部信息的特征,并且可以认为适合于由现有的多条面部信息形成的集合。另外,作为除了相似度以外的分数的度量,可以使得“几乎面向前的面部”或者“模糊度更低或失焦更小的面部”(利用这种信息更容易辨别面部)的分数为高。另外,上述分数并不限于多条面部信息之间的相似度的平均值或者“几乎面向前的面部”或者“模糊度更低或失焦更小的面部”的值,而可以是任何指标,只要可以确定要包含在参与者信息中的面部信息的优先度即可。
接下来,参与者生成单元105判断新面部信息的分数是否高于现有的多条面部信息的分数中的最低分数(S256)。在其高于最低分数的情况下,参与者生成单元105的处理进行到步骤S257。另一方面,在其不高于最低分数的情况下,参与者生成单元105的处理进行到步骤S258。在处理进行到步骤S257的情况下,参与者生成单元105将现有的多条面部信息中具有最低分数的面部信息与新面部信息相交换(S257),并且处理进行到步骤S258。
当处理进行到步骤S258时,参与者生成单元105将更新后的面部信息的分数(下文中称为更新后面部分数)与对应于参与者信息的代表性面部图像的面部信息的分数(下文中称为代表性面部分数)进行比较,并且判断更新后面部分数是否高于代表性面部分数(S258)。在更新后面部分数高于代表性面部分数的情况下,参与者生成单元105的处理进行到步骤S259。另一方面,在更新后面部分数不高于代表性面部分数的情况下,参与者生成单元105结束与图3的步骤S126中参与者信息的更新有关的处理。在处理进行到步骤S259的情况下,参与者生成单元105将现有的代表性面部图像更新为与新面部信息相对应的面部图像(S259),并且结束与图3的步骤S126中参与者信息的更新有关的处理。
将再次参考图3。当与步骤S126中参与者信息的更新有关的处理完成时,信息处理装置100的处理进行到步骤S127。接下来,信息处理装置判断是否结束面部跟踪(S127)。在结束面部跟踪的情况下,信息处理装置100的处理进行到步骤S128。另一方面,在不结束面部跟踪的情况下,信息处理装置100的处理进行到步骤S130。在处理进行到步骤S128的情况下,信息处理装置100选择在结束面部跟踪之后获得的参与者信息作为要作为群集对象的参与者信息(S128),并且处理进行到步骤S129。
接下来,信息处理装置100利用参与者群集单元106的功能以所选的参与者信息作为对象来执行群集(S129),并且处理进行到步骤S130。另外,与步骤S129中参与者群集的执行有关的处理流程基本上与已参考图7描述的步骤S109(图2)的处理相同。当处理进行到步骤S130时,信息处理装置100判断当前视频帧是否为最终读取帧(S130)。在它是最终读取帧的情况下,信息处理装置100的处理进行到步骤S141(图4)。另一方面,在它不是最终读取帧的情况下,信息处理装置100的处理进行到步骤S121。
如图4所示,信息处理装置100判断对所有内容片段的分析是否已完成(S141)。在对所有内容片段的分析已完成的情况下,信息处理装置100的处理进行到步骤S142。另一方面,在对所有内容片段的分析未完成的情况下,信息处理装置100的处理进行到步骤S103(图2)。在处理进行到步骤S142的情况下,信息处理装置100利用参与者群集单元106的功能执行最终群集处理(S142)。
接下来,信息处理装置100更新存储在存储单元102中的参与者信息的数据库(参与者信息DB)(S143)。当参与者信息DB被更新时,显示单元101基于更新后的参与者信息DB显示每个参与者的面部信息、面部信息的出现时刻、等等。然后,信息处理装置100响应于该显示内容判断是否有来自用户的校正参与者信息的输入(S144)。在有校正输入的情况下,信息处理装置100的处理进行到步骤S143。另一方面,在没有校正输入的情况下,信息处理装置100结束处理序列。
在前述内容中,已经描述了根据本实施例的信息处理装置100的操作和面部群集方法。然而,省略了根据初步-最终方案的群集方法(第一群集方案、第二群集方案)的详细说明。因而,下面将描述根据本实施例的第一群集方案和第二群集方案。
(1-2-1:第一群集方案)
首先,将参考图16至20描述根据本实施例的第一群集方案。另外,基于第一群集方案的群集是由包含在参与者群集单元106中的第一群集单元1061实现的。
如图16所示,第一群集方案是基于包含在作为群集对象的所有参与者信息中的每条参与者信息的相似度的方案。另外,最初给出的每条参与者信息是例如利用在JP-A-2010-3021中描述的确定单元通过面部识别方法或面部跟踪方法检测出的相似面部信息的集合。
当使用面部跟踪方法时,同一人的具有不同方向的面部的多条面部信息可以被包含在同一参与者信息中。然而,即使这多条面部信息是同一人的,具有很大不同方向的面部的多条面部信息之间的相似度也较低。因此,即使这多条参与者信息对应于同一人,多条参与者信息(每条由具有不同方向的面部的面部信息形成)之间的相似度也较低。因而,第一群集方案单独处置包含在参与者信息中的多条面部信息。
在图15的例子中,参与者B和C被包括在包含参与者A的分析区间中。因此,作为群集对象的参与者信息将是个人A、B和C的参与者信息。在这种情况下,根据第一群集方案,包含在个人A、B和C的参与者信息中的所有面部信息都将是群集对象,如图16所示。下面将具体描述上述个人A、B和C的参与者信息被取作群集对象的情况。另外,如图16所示,个人A的参与者信息包括面部信息A1、A2、...A5。另外,个人B的参与者信息包括面部信息B1、B2、...B8。此外,个人C的参与者信息包括面部信息C1、C2、...C9。
当参与者信息A、B和C被给出时,第一群集单元1061从每条参与者信息中提取出面部信息A1、...A5、B1、...B8及C1、...C9。然后,第一群集单元1061为每条面部信息计算相似度,并通过聚集具有高相似度的多条面部信息来生成群集,如图17所示。另外,每条面部信息的相似度例如是基于表征各个面部图像的特征量向量之间的欧几里得(Euclidean)距离来计算的。
接下来,第一群集单元1061基于包含在多条面部信息中的面部的方向来对这多条面部信息分类。图17中示出了对群集(1)分类的例子。在图17的例子中,面部信息A2、A5、B1、C7、C8和C9被分类为“面部方向=前”,面部信息B3和B6被分类为“面部方向=右”。此外,在该例子中,没有面部信息被分类为“面部方向=左”。
接下来,第一群集单元1061为每个面部方向生成加权系数。该加权系数指示群集(1)的每个面部方向的重要程度。例如,该加权系数是基于被分类为每个面部方向的面部信息的条数来计算的。在群集(1)的例子中,被分类为左的面部信息的条数是0,被分类为前的面部信息的条数是6,而被分类为右的面部信息的条数是2。然后,使得与具有最大条数的方向相对应的加权系数为1,并且根据面部信息的条数确定与其他方向相对应的加权系数。例如,在群集(1)的情况下,与前相对应的加权系数被计算为1,与左相对应的加权系数被计算为0,并且与右相对应的加权系数被计算为2/8=0.25。
此外,第一群集单元1061基于计算出的加权系数计算每条参与者信息的分数。该分数被计算作为“与参与者信息相对应的面部信息的条数×加权系数”的总和。例如,根据“(左)加权系数0×条数0+(前)加权系数1×条数2+(右)加权系数0.25×条数0”,与个人A的参与者信息相对应的分数是2。类似地,根据“(左)加权系数0×条数0+(前)加权系数1×条数1+(右)加权系数0.25×条数2”,与个人B的参与者信息相对应的分数是1.5。此外,根据“(左)加权系数0×条数0+(前)加权系数1×条数3+(右)加权系数0.25×条数0”,与个人C的参与者信息相对应的分数是3。
上述分数被用于选择将作为临时代表的参与者信息。例如,在群集(1)的情况下,由于与个人A的参与者信息相对应的分数是2,与个人B的参与者信息相对应的分数是1.5,与个人C的参与者信息相对应的分数是3,因此个人C的参与者信息被选为临时代表。该临时代表指示与群集(在这种情况下是群集(1))相对应的个人的估计值。即,群集(1)被估计是指示个人C的特征的多条面部信息的集合。第一群集单元1061还为群集(2)和(3)计算参与者信息的分数,并根据计算结果为每个群集选择临时代表。
如图18所示,对于图17中所示的群集(1)至(3),分别选择了临时代表C、C和B。因而,如图18所示,形成每个群集的每条面部信息都将伴随有指示临时代表的标签。具体而言,包括在临时代表C的群集(1)中的面部信息A2被示为面部信息A2c,其标签c指示所添加的临时代表C。当使用该表示方法时,包括在群集(1)至(3)中的面部信息将被表示为图18的中部所示。此外,当多条面部信息照原样被重新排序为与各个人相对应的原始参与者信息时,它将被表示为如图18的下部所示。
在图18的例子中,与个人A相对应的参与者信息包括面部信息A1c、A2c、A3c、A4b和A5c。类似地,与个人B相对应的参与者信息包括面部信息B1c、B2b、B3c、B4b、B5b、B6c、B7b和B8b。此外,与个人C相对应的参与者信息包括面部信息C1c、C2c、C3c、C4c、C5c、C6c、C7c、C8c和C9c。
即,与临时代表B相对应的一条面部信息和与临时代表C相对应的四条面部信息被包含在与个人A相对应的参与者信息中。另外,与临时代表B相对应的五条面部信息和与临时代表C相对应的三条面部信息被包含在与个人B相对应的参与者信息中。此外,与临时代表C相对应的九条面部信息被包含在与个人C相对应的参与者信息中。
当提取针对每个临时代表计算出的面部信息的条数最大的临时代表的类型时,对于与个人A相对应的参与者信息而言它将是临时代表C,对于与个人B相对应的参与者信息而言它将是临时代表B,对于与个人C相对应的参与者信息而言它将是临时代表C。从该结果估计出个人A和个人C非常可能是同一人。因而,第一群集单元1061将个人A的参与者信息与个人C的参与者信息合并。然后,第一群集单元1061的处理进行到稍后描述的合并后判断。
另外,分数最高的个人的参与者信息在选择临时代表的处理中被选为临时代表,但是在分数的最大值不超过预定阈值的情况下,该处理将在假定没有临时代表的情况下执行。另外,在提取针对每个临时代表计算出的面部信息的条数最大的临时代表的类型的处理中,如果条数不超过预定阈值,则不执行合并。
现在,已合并了多条参与者信息的第一群集单元1061接下来执行合并后判断的处理。这里的合并后判断的处理是这样一种处理,其考虑到实际上不会发生的情形而判断合并结果是否正确。例如,在图18的例子中,个人A和个人C被临时判定为同一人,并且如果该结果是正确的,则个人A和个人C将不会同时出现在同一视频帧中。因而,第一群集单元1061将形成个人A的参与者信息的面部信息的出现时间与形成个人C的参与者信息的面部信息的出现时间相比较,并判断个人A和C是否同时出现。
例如,在图19的例子中,个人A和C的出现时间之间没有重叠。因此,不否认个人A和个人C是同一人。因而,第一群集单元1061将个人A的参与者信息与个人C的参与者信息合并。另一方面,在图20的例子中,在个人A和C的出现时间之间存在重叠。因此,假定个人A和个人C不是同一人。因而,第一群集单元1061不将个人A的参与者信息与个人C的参与者信息合并。另外,在诸如个人A和C的性别或年龄之类的属性信息预先已知的情况下,在基于属性信息个人A和C之间存在差异的情况下,第一群集单元1061不将个人A的参与者信息与个人C的参与者信息合并。
如上所述,通过执行合并后判断可以防止错误的判断,并且可以提高群集处理的精度。另外,为了进一步提高群集处理的精度,第一群集单元1061利用合并结果再次执行参与者信息的合并。例如,在上述例子中个人A和C的参与者信息被合并的情况下,第一群集单元1061通过上述过程选择与合并后的参与者信息相对应的临时代表,并判断是否要执行与另一参与者信息的合并。在执行合并的情况下,第一群集单元1061再次选择与合并后的参与者信息相对应的临时代表,并判断是否要执行与另一参与者信息的合并。以这种方式,第一群集单元1061重复合并处理达特定次数或者直到合并不再发生为止。通过该重复处理进一步提高了群集处理的精度。
在前述内容中,已经描述了根据本实施例的第一群集方案。
(1-2-2:第二群集方案)
接下来,将参考图21描述根据本实施例的第二群集方案。另外,基于第二群集方案的群集处理是利用包含在参与者群集单元106中的第二群集单元1062来实现的。
如图21所示,基于第二群集方案的群集处理是基于多条参与者信息之间的相似度执行的。即,与第一群集方案不同,第二群集方案不分离形成参与者信息的多条面部信息。
首先,第二群集单元1062选择将作为比较对象的多条参与者信息。在图21的例子中,个人A的参与者信息和个人B的参与者信息被选择。已选择了将作为比较对象的多条参与者信息的第二群集单元1062为所选的多条参与者信息计算多条面部信息之间的相似度。例如,在n条面部信息被包含在个人A的参与者信息中并且m条面部信息被包含在个人B的参与者信息中的情况下,针对n×m种组合计算多条面部信息之间的相似度。另外,可以通过计算由特征量向量等表示的面部特征量之间的欧几里得距离来获得多条面部信息之间的相似度。
此时,第二群集单元1062考虑包含在多条面部信息中的面部的方向并将面部特征量转换为同一面部方向(例如“前”),然后计算多条面部信息之间的相似度。接下来,第二群集单元1062对计算出的相似度进行加权平均,并计算与参与者信息的每种组合相对应的相似度分数。然后,第二群集单元1062选择相似度分数超过预定阈值的参与者信息作为合并候选的参与者信息。然后,与第一群集方案一样,第二群集单元1062对于作为合并候选的多条参与者信息执行合并后判断(见图19和20)。
例如,在形成作为合并候选的多条参与者信息的多条面部信息之间存在时间重叠的情况下,或者在基于属性信息否认了为同一人的可能性的情况下,第二群集单元1062不合并作为合并候选的多条参与者信息。另一方面,第二群集单元1062合并作为合并候选并且通过合并后判断不否认对应于同一人的多条参与者信息。此外,第二群集单元1062选择将作为比较对象的其他多条参与者信息,并通过以上述相似方式执行相似度分数的计算、阈值判断和合并后判断来判断是否要执行合并。然后,第二群集单元1062针对多条参与者信息的所有组合判断是否要执行合并,并且合并被判断为要合并的多条参与者信息。
在前述内容中,已经描述了根据本实施例的第二群集方案。
(1-2-3:应用步骤)
这里,在根据图2至11所示的本实施例的面部群集方法的处理步骤中,将补充描述应用了基于上述第一和第二群集方案的群集处理的处理步骤。基于上述第一和第二群集方案的群集处理被应用于图2中的步骤S109(具体参见图7等)、图3中的步骤S129(具体参见图7等)、以及图4中的步骤S142(具体参见图11等)。即,其被应用于图15所示的初步-最终方案中的每层中的群集。例如,在图2的步骤S101的初始设置中预先确定在哪个处理步骤中采用哪一群集方案,或者预先提供用于自动选择的机制。
用于自动选择的机制的例子包括下面描述的例子。另外,自动选择的处理是由参与者群集单元106执行的。此外,可以采用现有的场景检测技术来进行关于后面描述的场景的判断。
(1)在内容数据是视频的情况下,对于存在于多个场景上的多条参与者信息的合并,采用第一群集方案。在多个场景的序列中,面部的特征由于拍摄环境变化大而发生很大改变。因此,即使对于与同一人相对应的多条参与者信息来说,相似度分数也趋向于减小。因而,第二群集方案不适合于存在于多个场景上的多条参与者信息的合并,而是如上所述采用第一群集方案。
(2)在内容数据是视频,并且包括同一场景中多条面部信息的多条参与者信息要被合并的情况下,采用第一群集方案。在同一场景中,很有可能同一人出现在不同时间段中。因而,检测出的多条参与者信息实际上与同一人相对应。因而,基于形成多条参与者信息的全部多条面部信息来合并多条参与者信息更加高效。具体而言,在存在与同一人相对应的三条或更多条参与者信息的情况下,第一群集方案相比于第二群集方案更加合适。因而,在合并包括同一场景中的多条面部信息的多条参与者信息的情况下,如上所述采用第一群集方案。
(3)在基于第一群集方案合并了多条参与者信息之后参与者信息的条数超过预定数目的情况下,进一步采用第二群集方案。在基于各条面部信息进行群集处理的情况下,不能否认有以下可能性:未能充分实现多条参与者信息的缩窄。在未能充分实现缩窄的情况下,据信通过进一步采用第二群集方案利用形成多条参与者信息的全部多条面部信息执行群集处理能够充分地缩窄多条参与者信息。因而,在基于第一群集方案合并了多条参与者信息之后参与者信息的条数超过预定数目的情况下,进一步采用第二群集方案。
如上所述,根据场景的特征或者缩窄的状态,可以适当地自动选择第一和第二群集方案。当然,对于哪一层的群集要采用哪一种群集方案可以在初始设置中预先设定。
[1-3:性能改善措施]
这里,将参考图22至25描述根据本实施例的面部群集方法的进一步性能改善措施。
(1-3-1:性能改善措施1)
首先,将参考图22描述第一性能改善措施(下文中称为性能改善措施1)。如上所述,为每条参与者信息提供了特征量位置。在生成参与者信息时,多条面部信息按照从最早开始的检测时间的顺序被指派给特征量位置中的空位。此外,在特征量位置变满之后,按照从最早开始的检测时间的顺序执行面部信息的更新,并且最适当的面部信息被指派给特征量位置。
然而,在从连续的照片、相邻的视频帧等(下文中称为近邻区间)中检测出多条面部信息的情况下,多条面部信息的特征将是类似的。因而,如果用从这种近邻区间中检测出的多条面部信息填充特征量位置的话,则对于从分离的区间检测出的面部信息来说,特征量位置的分数将很低,并且面部信息的更新将会受到阻碍。以这种方式,如果特征量位置被从一个区间检测出的且具有相似特征的多条面部信息所占据,则参与者信息的特征将仅具有与一条面部信息的特征几乎相同的价值度(信息量)。结果,将会丧失逐个参与者信息地进行群集处理的优点。
因此,作为性能改善措施1,参与者生成单元105的功能配置被细化以从分离的区间提取要指派给特征量位置的多条面部信息。首先,参与者生成单元105划分面部信息的出现区间,并计算每个出现区间中面部信息的条数。此外,参与者生成单元105根据面部信息的条数计算权重,并根据计算出的权重选择要指派给特征量位置的面部信息。根据该配置,适当的多条面部信息可以从远离的区间中被指派给特征量位置,同时考虑到近邻区间的长度。
(1-3-2:性能改善措施2)
接下来,将参考图23描述第二性能改善措施(下文中称为性能改善措施2)。如参考图19和20所描述的,作为合并后判断,第一群集单元1061判断在与作为合并对象的多条参与者信息相对应的个人的出现时间之间是否存在重叠。在个人的出现时间之间存在重叠的情况下(如图20所示),第一群集单元1061不执行合并。
图23的例子示出了在与临时代表B相对应的大量面部信息被包含在个人A和C的参与者信息中的情况下多条面部信息的检测时刻。另外,利用粗线示出的面部信息是与临时代表B相对应的面部信息。在这种情况下,存在以下可能性:个人A、B和C是同一人,并且个人A、B和C的参与者信息将是合并候选。然而,在图23的例子中,在个人A和出现时间和个人B的出现时间之间有重叠。因而,通过合并后判断判定个人A和B不是同一人。类似地,在个人A的出现时间和个人C的出现时间之间有重叠。因而,判定个人A和C不是同一人。
另一方面,在个人B的出现时间和个人C的出现时间之间没有重叠。因而,根据参考图19和20描述的合并后判断,个人B和C的参与者信息将被合并。然而,基于根据临时代表的判断结果曾认定个人A、B和C是同一人。因此,基于上述结果,即个人A≠个人C且个人A≠个人B,则基于合并后判断,间接地判定个人B≠个人C。以这种方式,考虑基于临时代表的个人同一性判断结果和基于出现时间的合并后判断的结果,可以进一步提高群集精度。
(1-3-3:性能改善措施3)
接下来,将参考图24描述第三性能改善措施(下文中称为性能改善措施3)。存在以下趋势,即在时间和空间上靠近的个人的多条面部信息易于集合在一起。例如,同一人的面部图像被包含在时间上靠近的图像中的可能性很高。另外,在连续的视频帧中,同一人的面部图像的空间位置没有很大改变。因而,包括在时间和空间上靠近的个人的多条面部信息的多条参与者信息更易于彼此合并。然而,在参考图15描述的初步-最终方案的情况下,作为分析对象的多条参与者信息在低层中按照相对短的分析区间来划分。因而,存在以下可能性:靠近分析区间的边界的多条参与者信息的相似性在低层中未被考虑在内。
因此,在低层中执行基于第二群集方案的群集,并且如图24所示,其结果被反映在高层中。例如,在图24的例子中,作为在低层中执行基于第二群集方案的群集的结果,判定个人B和个人D是同一人。例如,假定在低层中执行基于第一群集方案的群集的情况下,在高层中获得了多条参与者信息A’、C’、D’和E’。在这种情况下,由于个人B和D在低层中被判定为同一人,因此与低层中的个人D相对应的高层中的参与者信息D’被与和低层中的个人B相对应的高层中的参与者信息A’相合并。以这种方式,通过考虑低层中多条参与者信息的相似性,可以进一步提高群集的精度。
(1-3-4:性能改善措施4)
接下来,将参考图25描述第四性能改善措施(下文中称为性能改善措施4)。如上所述,当两条参与者信息合并时,这些参与者信息中包括的多条面部信息的一部分丢失。图25中示出了合并个人A的参与者信息与个人B的参与者信息的例子。在该例子中,面部信息A1和A2被包括在个人A的参与者信息中,并且面部信息B1、B2、B3和B4被包括在个人B的参与者信息中。另外,面部信息A1、B2、B3和B4被包括在合并后的参与者信息(下文中称为合并后参与者信息)中。即,作为合并的结果,面部信息A2和B1丢失。
为了避免这种信息的丢失,需要保留层级结构及低层中的参与者信息。另外,在合并时操控面部ID和参与者信息之间的对应关系(而非面部信息和参与者信息之间的对应关系)就足够了。通过保留层级结构及面部信息,低层中的面部信息将不会丢失,并且使用低层中的面部信息进行的额外处理将是可能的。即,通过适当地利用低层中的面部信息,可以提高群集的精度。
在前文中,已经描述了根据本实施例的性能改善措施。
[1-4:硬件配置]
上述信息处理装置100的每个结构元件的功能可以利用例如图26中所示的信息处理装置的硬件配置实现。即,可以利用计算机程序控制图26中所示的硬件来实现每个结构元件的功能。另外,该硬件的模式是任意的,并且可以是个人计算机、诸如移动电话、PHS或PDA之类的移动信息终端、游戏机或者各种类型的信息电器。而且,PHS是个人手持电话系统的缩写。另外,PDA是个人数字助理的缩写。
如图26所示,该硬件主要包括CPU902、ROM904、RAM906、主机总线908和桥接器910。此外,该硬件包括外部总线912、接口914、输入单元916、输出单元918、存储单元920、驱动器922、连接端口924和通信单元926。而且,CPU是中央处理单元的缩写。另外,ROM是只读存储器的缩写。此外,RAM是随机访问存储器的缩写。
CPU902例如用作算术处理单元或控制单元,并且基于记录在ROM904、RAM906、存储单元920或可移动记录介质928上的各种程序来控制每个结构元件的全部操作或者一部分操作。ROM904是用于存储例如要加载在CPU902上的程序或用在算术运算中的数据等的装置。RAM906临时或永久地存储例如要加载在CPU902上的程序或在程序运行中任意改变的各种参数等。
这些结构元件例如通过能够执行高速数据传输的主机总线908彼此连接。另外,主机总线908例如通过桥接器910连接到数据传输速度相对较低的外部总线912。此外,输入单元916例如是鼠标、键盘、触摸板、按钮、开关或操纵杆。另外,输入单元916可以是利用红外线或其他无线电波发送控制信号的遥控器。
输出单元918例如是诸如CRT、LCD、PDP或ELD之类的显示设备,诸如扬声器或麦克风之类的音频输出设备,打印机,移动电话或者传真机,其能够可视地或可听地向用户通知所获取的信息。而且,CRT是阴极射线管的缩写。LCD是液晶显示器的缩写。PDP是等离子体显示面板的缩写。另外,ELD是电致发光显示器的缩写。
存储单元920是用于存储各种数据的器件。存储单元920例如是诸如硬盘驱动器(HDD)之类的磁存储器件、半导体存储器件、光存储器件或者磁光存储器件。HDD是硬盘驱动器的缩写。
驱动器922是读取记录在可移动记录介质928(例如磁盘、光盘、磁光盘或半导体存储器)上的信息或者在可移动记录介质928中写入信息的器件。可移动记录介质928例如是DVD介质、蓝光(Blu-ray)介质、HD-DVD介质、各种类型的半导体存储介质,等等。当然,可移动记录介质928可以是例如安装有非接触式IC芯片的IC卡或者电子装置。IC是集成电路的缩写。
连接端口924是诸如USB端口、IEEE1394端口、SCSI、RS-232C端口、或者用于连接外部连接的设备930的端口(例如光音频端子)之类的端口。外部连接的设备930例如是打印机、移动音乐播放器、数字相机、数字摄像机或IC记录器。而且,USB是通用串行总线的缩写。另外,SCSI是小型计算机系统接口的缩写。
通信单元926是要连接到网络932的通信设备,并且例如是用于有线或无线LAN的通信卡、蓝牙(注册商标)、或WUSB、光通信路由器、ADSL路由器或者各种通信调制解调器。连接到通信单元926的网络932是由有线连接或无线连接的网络构成的,并且例如是因特网、家用LAN、红外通信、可见光通信、广播或者卫星通信。而且,LAN是局域网的缩写。另外,WUSB是无线USB的缩写。此外,ADSL是非对称数字订户线的缩写。
<2.总结>
最后,将简要描述根据本发明实施例的技术内容。这里所记载的技术内容可以应用于各种信息处理装置,例如个人计算机、移动电话、便携式游戏机、便携式信息终端、信息电器、车载导航系统,等等。
上述信息处理装置的功能可以表示如下。该信息处理装置由下面描述的面部检测单元、面部方向检测单元、面部辨别单元、单位群组设置单元和群集单元构成。面部检测单元用于检测图像中所含的面部。另外,面部方向检测单元用于检测由面部检测单元检测出的面部的方向。此外,面部辨别单元用于在考虑由面部方向检测单元检测出的面部的方向的情况下检测具有相似特征的面部并形成表示该面部的特征的多条面部信息的集合。
另外,单位群组设置单元用于针对由面部辨别单元形成的多条面部信息的每个集合,基于由面部方向检测单元检测出的面部的方向将面部信息的条数缩窄到为每个面部方向预先设定的数目,并将数目已缩窄的多条面部信息的每个集合设置为一个单位群组。此外,群集单元用于以由单位群组设置单元设置的单位群组作为单位、基于每个单位群组中包含的多条面部信息来执行群集。在如上所述多条面部信息被单位群组设置单元缩窄的情况下,可以利用小存储容量高效地执行面部群集,即使当以从中检测出大量面部信息的视频等作为对象时也是如此。
(注释)
面部识别单元104是面部检测单元、面部方向检测单元和面部辨别单元的例子。参与者生成单元105是单位群组设置单元的例子。参与者群集单元106是群集单元的例子。第一群集单元1061是第一合并单元的例子。第二群集单元1062是第二合并单元的例子。参与者信息是单位群组的例子。
本领域技术人员应当理解,取决于设计需求和其他因素可以发生各种修改、组合、下位组合和变更,只要这些修改、组合、下位组合和变更在权利要求或其等同物的范围内。
本申请包含与2010年4月9日向日本专利局提交的日本在先专利申请JP2010-90290中公开的内容有关的主题,上述申请的全部内容通过引用而结合于此。

Claims (8)

1.一种面部群集设备,包括:
面部检测单元,用于检测包含在图像中的面部;
面部方向检测单元,用于检测由所述面部检测单元检测出的面部的方向;
面部辨别单元,用于考虑由所述面部方向检测单元检测出的面部的方向来检测具有相似特征的面部,并形成表示该面部的特征的多条面部信息的集合;
单位群组设置单元,用于针对由所述面部辨别单元形成的多条面部信息的每个集合,基于由所述面部方向检测单元检测出的面部的方向将面部信息的条数缩窄到为每个面部方向预先设定的数目,并将条数已被缩窄的多条面部信息的每个集合设置为一个单位群组;以及
群集单元,用于以由所述单位群组设置单元设置的单位群组为单位,执行基于每个单位群组中包括的多条面部信息的群集,
其中,当由所述单位群组设置单元设置的单位群组被表示为第一单位群组并且基于第k单位群组设置的单位群组被表示为第k+1单位群组时,其中k=1至N,所述群集单元对于k=2至N依次执行以下操作:取所述第一单位群组中存在于按预定的第一时间T1划分得到的每个区间中的单位群组作为对象,合并具有相似特征的单位群组以设置第二单位群组,并且取所述第k单位群组中存在于按预定的第k时间Tk划分得到的每个区间中的单位群组作为对象,合并具有相似特征的单位群组以设置第k+1单位群组,其中Tk>Tk-1
2.如权利要求1所述的面部群集设备,
其中所述群集单元包括:
第一合并单元,该第一合并单元以设置在所有单位群组中的每条面部信息作为对象,基于每条面部信息的相似度来合并具有相似特征的单位群组,以及
第二合并单元,该第二合并单元利用设置在每个个体单位群组中的面部信息,基于每个个体单位群组的相似度来合并具有相似特征的单位群组,并且
其中所述第一合并单元以第i单位群组为对象来执行合并具有相似特征的单位群组的操作,并且所述第二合并单元以第j单位群组为对象来执行合并具有相似特征的单位群组的操作,其中1≤i≤N且j≠i。
3.如权利要求2所述的面部群集设备,
其中所述群集单元不合并与基本上同一时间相对应的两个单位群组。
4.如权利要求2所述的面部群集设备,
其中,当以第i单位群组为对象来执行合并具有相似特征的单位群组的操作时,所述第一合并单元重复执行该操作直到合并不再发生为止,其中1≤i≤N。
5.如权利要求1所述的面部群集设备,
其中所述单位群组设置单元缩窄面部信息的条数,使得与分开的时间相对应的多条面部信息很可能被设置在同一单位群组中。
6.如权利要求2所述的面部群集设备,
其中所述第二合并单元以至少所述第一单位群组为对象来执行合并具有相似特征的单位群组的操作。
7.如权利要求1所述的面部群集设备,
其中,当合并具有相似特征的单位群组时,所述群集单元保留设置在合并前的单位群组中的多条面部信息以及表示合并前的单位群组和合并后的单位群组之间的对应关系的分层信息。
8.一种面部群集方法,包括以下步骤:
检测包含在图像中的面部;
检测在检测面部的步骤中检测出的面部的方向;
考虑在检测方向的步骤中检测出的面部的方向来检测具有相似特征的面部,并形成表示该面部的特征的多条面部信息的集合;
针对在检测和形成步骤中形成的多条面部信息的每个集合,基于在检测方向的步骤中检测出的面部的方向将面部信息的条数缩窄到为每个面部方向预先设定的数目,并将条数已被缩窄的多条面部信息的每个集合设置为一个单位群组;以及
以在缩窄和设置步骤中设置的单位群组为单位,执行基于每个单位群组中包括的多条面部信息的群集,
其中,当在缩窄和设置步骤中设置的单位群组被表示为第一单位群组并且基于第k单位群组设置的单位群组被表示为第k+1单位群组时,其中k=1至N,在执行群集的步骤中对于k=2至N依次执行以下操作:取所述第一单位群组中存在于按预定的第一时间T1划分得到的每个区间中的单位群组作为对象,合并具有相似特征的单位群组以设置第二单位群组,并且取所述第k单位群组中存在于按预定的第k时间Tk划分得到的每个区间中的单位群组作为对象,合并具有相似特征的单位群组以设置第k+1单位群组,其中Tk>Tk-1
CN201110079857.3A 2010-04-09 2011-03-31 面部群集设备、面部群集方法和程序 Active CN102214293B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010090290A JP5526955B2 (ja) 2010-04-09 2010-04-09 顔クラスタリング装置、顔クラスタリング方法、及びプログラム
JP2010-090290 2010-04-09

Publications (2)

Publication Number Publication Date
CN102214293A CN102214293A (zh) 2011-10-12
CN102214293B true CN102214293B (zh) 2016-01-13

Family

ID=44745595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110079857.3A Active CN102214293B (zh) 2010-04-09 2011-03-31 面部群集设备、面部群集方法和程序

Country Status (3)

Country Link
US (1) US8605957B2 (zh)
JP (1) JP5526955B2 (zh)
CN (1) CN102214293B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013003631A (ja) * 2011-06-13 2013-01-07 Sony Corp 情報処理装置、情報処理方法、情報処理システム、及びプログラム
US9179201B2 (en) * 2011-08-26 2015-11-03 Cyberlink Corp. Systems and methods of detecting significant faces in video streams
US8958645B2 (en) * 2012-04-19 2015-02-17 Canon Kabushiki Kaisha Systems and methods for topic-specific video presentation
JP5942747B2 (ja) * 2012-09-26 2016-06-29 株式会社バッファロー 画像処理装置及びプログラム
US9158996B2 (en) * 2013-09-12 2015-10-13 Kabushiki Kaisha Toshiba Learning image collection apparatus, learning apparatus, and target object detection apparatus
JP6197613B2 (ja) * 2013-12-02 2017-09-20 富士通株式会社 生体情報抽出装置、生体情報抽出方法、および生体情報抽出プログラム
CN103927545B (zh) * 2014-03-14 2017-10-17 小米科技有限责任公司 聚类方法及相关装置
KR102024867B1 (ko) * 2014-09-16 2019-09-24 삼성전자주식회사 예제 피라미드에 기초하여 입력 영상의 특징을 추출하는 방법 및 얼굴 인식 장치
US9858679B2 (en) * 2014-11-04 2018-01-02 Hewlett-Packard Development Company, L.P. Dynamic face identification
JP2017033547A (ja) 2015-08-05 2017-02-09 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム
US10311290B1 (en) * 2015-12-29 2019-06-04 Rogue Capital LLC System and method for generating a facial model
CN108427955B (zh) * 2017-10-27 2022-02-01 平安科技(深圳)有限公司 电子装置、混乱样本整理方法和计算机可读存储介质
JP6769475B2 (ja) 2018-12-04 2020-10-14 日本電気株式会社 情報処理システム、認証対象の管理方法、及びプログラム
US11250244B2 (en) 2019-03-11 2022-02-15 Nec Corporation Online face clustering
JP7067593B2 (ja) * 2020-09-24 2022-05-16 日本電気株式会社 情報処理システム、認証対象の管理方法、及びプログラム
US20230386253A1 (en) * 2020-10-08 2023-11-30 Nec Corporation Image processing device, image processing method, and program
CN112861981B (zh) * 2021-02-22 2023-06-20 每日互动股份有限公司 数据集标注方法、电子设备和介质
JP2023141329A (ja) * 2022-03-23 2023-10-05 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101610341A (zh) * 2008-06-18 2009-12-23 索尼株式会社 图像处理设备、图像处理方法和程序

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3315888B2 (ja) * 1997-02-18 2002-08-19 株式会社東芝 動画像表示装置および表示方法
JP2009042876A (ja) * 2007-08-07 2009-02-26 Toshiba Corp 画像処理装置及びその方法
JP4968249B2 (ja) * 2008-12-15 2012-07-04 ソニー株式会社 情報処理装置及び方法、並びにプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101610341A (zh) * 2008-06-18 2009-12-23 索尼株式会社 图像处理设备、图像处理方法和程序

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Framework for Using Context to Understand Images of People;Andrew C. Gallagher;《Department of Electrical and Computer Engineering Carnegie Mellon University》;20090531;全文 *

Also Published As

Publication number Publication date
CN102214293A (zh) 2011-10-12
JP2011221791A (ja) 2011-11-04
US20110249904A1 (en) 2011-10-13
JP5526955B2 (ja) 2014-06-18
US8605957B2 (en) 2013-12-10

Similar Documents

Publication Publication Date Title
CN102214293B (zh) 面部群集设备、面部群集方法和程序
Zhou et al. Global and local-contrast guides content-aware fusion for RGB-D saliency prediction
Muhammad et al. Cost-effective video summarization using deep CNN with hierarchical weighted fusion for IoT surveillance networks
CN109977943B (zh) 一种基于yolo的图像目标识别方法、系统和存储介质
CN110837836B (zh) 基于最大化置信度的半监督语义分割方法
JP5166409B2 (ja) 映像処理方法および映像処理装置
CN112069929B (zh) 一种无监督行人重识别方法、装置、电子设备及存储介质
US20160260015A1 (en) Sports formation retrieval
Wang et al. Deep appearance and motion learning for egocentric activity recognition
CN109598231A (zh) 一种视频水印的识别方法、装置、设备及存储介质
CN109145766A (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
CN108830892A (zh) 人脸图像处理方法、装置、电子设备及计算机可读存储介质
KR20180038169A (ko) 딥 러닝 기반의 데이터특징을 이용한 도시영상의 안전도 분류방법
CN109492576A (zh) 图像识别方法、装置及电子设备
CN105095853A (zh) 图像处理装置及图像处理方法
US20230351718A1 (en) Apparatus and method for image classification
Lu et al. Aesthetic guided deep regression network for image cropping
CN113762041A (zh) 视频分类方法、装置、计算机设备和存储介质
CN112001398B (zh) 域适应方法、装置、设备、图像处理方法及存储介质
Zhang et al. A self-occlusion detection approach based on depth image using SVM
JP2004086737A (ja) 類似度判定方法および装置並びにプログラム
CN115294162B (zh) 目标识别方法、装置、设备及存储介质
CN114449362B (zh) 视频封面的选取方法、装置、设备及存储介质
CN113191300B (zh) 用于指纹图像识别的方法、设备及计算机可读介质
CN109658172A (zh) 一种商圈推荐方法、计算设备、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant