CN101794392A - 对象检测设备、学习设备、对象检测方法和程序 - Google Patents

对象检测设备、学习设备、对象检测方法和程序 Download PDF

Info

Publication number
CN101794392A
CN101794392A CN201010003219A CN201010003219A CN101794392A CN 101794392 A CN101794392 A CN 101794392A CN 201010003219 A CN201010003219 A CN 201010003219A CN 201010003219 A CN201010003219 A CN 201010003219A CN 101794392 A CN101794392 A CN 101794392A
Authority
CN
China
Prior art keywords
image
value
face
unit
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010003219A
Other languages
English (en)
Other versions
CN101794392B (zh
Inventor
小川要
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN101794392A publication Critical patent/CN101794392A/zh
Application granted granted Critical
Publication of CN101794392B publication Critical patent/CN101794392B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships

Abstract

提供了一种对象检测设备、学习设备、对象检测方法和程序。所述对象检测设备包括:比较单元,用于提取确定对象图像上的两个区域的特征量,并比较基于提取的两个特征量的特征量和阈值;以及计算单元,用于根据所述比较结果选择具有不同绝对值的两个值之一,并且通过用选择的值执行计算,计算用于确定对象是否包括在所述确定对象图像中的评估值。

Description

对象检测设备、学习设备、对象检测方法和程序
技术领域
本发明涉及对象检测设备,并且具体地涉及从图像检测如人的面部的对象的对象检测设备、创建用于其检测的数据的学习设备、及其处理方法和使得计算机执行这样的方法的程序。
背景技术
迄今,已经提出了识别成像的图像中包括什么被摄体(subject)的被摄体识别技术,所述成像的图像通过如数字照相机、数字摄像机(例如,集成了相机的记录器)等生成。例如,作为被摄体识别技术,已经提出了一种面部检测技术,用于使用如亮度、颜色等的特征量通过成像处理从成像的图像中检测人的面部。
例如,基于图像上的两点之间的亮度的差值是否是阈值或更大,确定加权多数值(weighted majorityvalue),并且对两点的每个组合将该加权多数值顺序相加,从而计算评估值。提出了一种对象检测设备,其基于计算的评估值确定对象是否包括在其图像中(例如,参见日本未审专利申请公开第2005-157679号(图1))。
发明内容
在如上所述的现有技术的情况下,通过学习设备预先获得图像上的两点的组合以及加权多数表决值和阈值的组合,并且将它们相关并存储。根据所确定的对象图像上的两点之间的亮度的差值是否等于或大于阈值,确定对应于两点的加权多数的正/负符号,并且对于两点的每个组合,通过将具有所确定的符号的加权多数值顺序相加来计算评估值。
在用学习设备计算用于在对象和非对象之间进行区分的加权多数值的情况下,对包括对象或非对象的多个样本图像上的两点的每个组合创建所述两点之间的亮度的差值的分布信息。利用该分布信息,例如可以看到,示出包括对象的样本图像上的两点之间的亮度的差值的分布状态的分布曲线的第一钟形曲线(bell)、以及示出包括非对象的样本图像上的两点之间的亮度的差值的分布状态的分布曲线的第二钟形曲线。
例如,对于在对应于对象的分布曲线的第一钟形曲线和对应于非对象的分布曲线的第二钟形曲线相距相对远的情况下通过学习设备计算的加权多数值,可以认为相对可靠度高。相反,对于在对应于对象的分布曲线的第一钟形曲线和对应于非对象的分布曲线的第二钟形曲线较大地重叠的情况下通过学习设备计算的加权多数值,可以认为相对可靠度低。
然而,例如,即使在对应于对象的分布曲线的第一钟形曲线和对应于非对象的分布曲线的第二钟形曲线较大地重叠的情况下,在某种范围内也可能存在特征。例如,在一定范围内,两个钟形曲线较大地重叠,没有特征分布改变,并且对象和非对象之间的区分是困难的(即,可靠度低)。相反,在另一范围内,两个钟形曲线中的一个钟形曲线可能分布为支配性的,从而将两者区分开来是容易的(例如,可靠度高)。
因此,为了改进对象的检测精度,在包括对象或非对象的多个样本图像中根据特征量分布值的分布信息设置适当的加权多数值变得重要。
已经认识到需要改进对象的检测精度。
根据本发明实施例,提供了一种对象检测设备、其处理方法和使得计算机执行该方法的程序,该对象检测设备包括:比较单元,用于提取确定对象图像上的两个区域的特征量,并基于提取的两个特征量的特征量与阈值进行比较;以及计算单元,用于根据所述比较结果选择具有不同绝对值的两个值之一,并且通过用选择的值执行计算,计算用于确定对象是否包括在所述确定对象图像中的评估值。
这用来提取确定对象上的两个区域的特征量,并将提取的两个特征量与阈值进行比较,根据所述比较结果选择两个值之一,并且对选择的值执行计算,从而计算评估值。
所述对象检测设备还可包括:确定信息存储单元,用于存储包括所述确定对象图像上的两个位置、所述阈值和所述两个值的多个组合的确定信息,其中所述比较单元对每个所述组合比较由所述两个位置标识的所述确定对象图像上的对两个区域的两个提取的特征量与所述阈值;并且其中所述计算单元根据所述比较结果选择所述两个值之一,并且通过顺序执行所选择的值的计算来计算所述评估值。
这用来比较基于对确定对象图像中的两个区域提取的两个特征量的特征量和每个组合的阈值,依赖于比较结果选择每个组合的两个值之一,并对选择的值顺序执行计算,从而计算评估值。
对于每个所述对象,所述计算单元可计算评估值,以便对于每个所述对象选择与多个对象的每个相关的所述两个值之一,并且对每个所述对象执行对每个对象选择的值的计算,从而确定所述多个对象之一是否包括在所述确定对象图像中。
这用来依赖于比较结果选择对于多个对象的每个相关的两个值之一,并且对每个对象执行为每个对象选择的值的计算,从而计算每个对象的评估值。
所述对象检测设备还可包括:确定信息存储单元,用于存储包括所述确定对象图像上的两个位置、所述阈值和与所述多个对象的每个相关的所述两个值的多个组合的确定信息,其中对于每个所述组合,所述比较单元比较通过所述两个位置标识的所述确定对象图像上的对两个区域的两个提取的特征量与所述阈值,并且其中所述计算单元计算每个所述对象的所述多个组合的、对每个所述对象选择的值,从而计算每个所述对象的所述评估值。
这用来比较对确定对象图像上的对两个区域的两个提取的特征量和每个组合的阈值,并且对每个对象执行为每个对象选择的值的计算,从而计算每个对象的评估值。
此外,所述特征量可以是所述确定对象图像上的两点的位置处的亮度值,并且其中所述比较单元计算所述两个提取的亮度值之间的差值,并且比较所述差值和所述阈值。
这用来计算对确定对象图像中的两个区域提取的两个亮度值的差值,并比较所述差值与阈值。
此外,利用本发明实施例,提供了一种学习设备、其处理方法和使得计算机执行该方法的程序,该学习设备包括:加权单元,用于对包括对象和非对象之一的多个学习对象图像加权;差值计算单元,用于对每个所述学习对象图像,提取所述学习对象图像上的两个区域的特征量,并且对所述学习对象图像上的两个区域的每个组合计算所述两个提取的特征量的差值;分布信息创建单元,用于对包括所述对象的每个学习对象图像和包括所述非对象的每个学习对象图像的每个所述组合创建分布信息,所述分布信息示出对所述学习对象图像加权的权重相对于所述计算的差值的分布状态;确定单元,用于基于作为对包括所述对象的学习对象图像创建的分布信息的对象分布信息、和作为对包括所述非对象的学习对象创建的分布信息的非对象分布信息,确定在计算用于确定是否包括所述对象的评估值的情况下使用的每个组合中的一个组合、以及与关于所述组合的所述差值相对应的阈值;以及加权计算单元,用于基于与高于和低于所确定的阈值的两个范围中的较低范围中包括的所确定的组合有关的所述对象分布信息和所述非对象分布信息、和与在所述两个范围中的较高范围中包括的所确定的组合有关的所述对象分布信息和所述非对象分布信息,计算在计算所述评估值的情况下使用的值,作为其中根据所述两个范围而绝对值不同的两个值。
这用来对每个学习对象图像的每个组合计算所述学习对象图像上的对两个区域的两个提取的特征量的差值,对包括对象的每个学习对象图像和包括非对象的每个学习对象图像的每个组合创建分布信息,基于对象分布信息和非对象分布信息,确定在计算评估值的情况下使用的组合和阈值,并且基于与低于所确定的阈值的范围中包括的组合有关的所述对象分布信息和所述非对象分布信息、和与高于所确定的阈值的范围中包括的组合有关的所述对象分布信息和所述非对象分布信息,计算所述值作为依赖于两个范围、具有不同绝对值的两个值。
此外,所述确定单元可基于高于和低于标准值的两个范围中的较低范围中包括的所述对象分布信息和所述非对象分布信息、和高于和低于所述标准值的两个范围中的较高范围中包括的所述对象分布信息和所述非对象分布信息,确定所述组合和所述阈值,其中对应于所述差值的级别的一个值是标准值。
这用来基于高于和低于标准值的两个范围中的较低范围中包括的所述对象分布信息和所述非对象分布信息、和较高范围中包括的所述对象分布信息和所述非对象分布信息,确定组合和阈值。
此外,所述加权单元可依赖于所述学习对象图像与所述两个范围中的较低范围相联系还是与较高范围相联系,对每个所述学习对象图像选择所计算的两个值之一,并且使用对每个学习对象图像选择的值来计算和更新每个所述学习对象图像的权重。
这用来依赖于所述学习对象图像与所述较低范围相联系还是与较高范围相联系,对每个所述学习对象图像选择两个值之一,并且使用对每个学习对象图像选择的值来计算和更新每个学习对象图像的权重。
此外,所述对象可由相互不同的第一对象和第二对象组成;其中,所述分布信息创建单元可对包括所述第一对象的学习对象图像和包括所述第二对象的学习对象图像以及包括所述非对象的学习对象图像的每个组合,创建所述分布信息;其中,所述确定单元可基于作为对包括所述第一对象的学习对象图像创建的分布信息的第一对象分布信息、作为对包括所述第二对象的学习对象图像创建的分布信息的第二对象分布信息、以及所述非对象分布信息,确定在计算用于确定是否包括所述第一对象和所述第二对象之一的评估值的情况下使用的所述每个组合中的所述组合之一、和关于所述组合的所述阈值;并且其中所述加权计算单元可基于与高于和低于所确定的阈值的两个范围中的较低范围中包括的所确定的组合有关的所述第一对象分布信息和所述第二对象分布信息以及所述非对象分布信息的各种信息、以及与所述两个范围中的较高范围中包括的所确定的组合有关的所述第一对象分布信息和所述第二对象分布信息以及所述非对象分布信息的各种信息,计算所述第一对象和所述第二对象的每个的值,用作其中绝对值依赖于所述两个范围而不同的两个值。
这用来对包括所述第一对象的学习对象图像、包括所述第二对象的学习对象图像以及包括所述非对象的学习对象图像的每个组合,创建分布信息,并且基于第一对象分布信息、第二对象分布信息以及所述非对象分布信息,确定在评估值的情况下使用的组合和阈值,并且基于与低于所确定的阈值的范围中包括的组合有关的所述第一对象分布信息和所述第二对象分布信息以及所述非对象分布信息的各种信息、以及与高于所确定的阈值的范围中包括的组合有关的所述第一对象分布信息和所述第二对象分布信息以及所述非对象分布信息的各种信息,将所述第一对象和所述第二对象的每个的所述值计算为根据两个范围而具有不同绝对值的两个值。
根据上述配置,可获得改进对象的检测精度的出色的优点。
附图说明
图1是图示根据本发明第一实施例的成像设备的功能配置示例的框图;
图2是图示根据本发明第一实施例的相机控制单元的功能配置示例的框图;
图3是图示根据本发明第一实施例的面部检测单元的功能配置示例的框图;
图4是图示根据本发明第一实施例的学习设备的功能配置示例的框图;
图5A和5B是图示根据本发明第一实施例的、用作学习设备的学习对象的学习对象图像的示例的图;
图6A和6B是示意性图示根据本发明第一实施例的权重保持单元的保持内容的图;
图7A和7B是图示通过根据本发明第一实施例的权重分布信息创建单元进行的权重分布信息的创建方法的概述的图;
图8A和8B是图示通过根据本发明第一实施例的权重分布信息创建单元创建的权重分布信息和学习对象图像之间的关系的概述的图;
图9A到9C是图示通过根据本发明第一实施例的权重分布信息创建单元创建的权重分布信息和通过最佳阈值确定单元确定的阈值之间的关系的概述的图;
图10A到10C是图示根据本发明第一实施例的、将对应于通过弱假设确定单元确定的弱假设的值记录到面部检测字典中的记录方法的概述的图;
图11A和11B是图示对学习对象图像上的两个点的组合创建的两个权重分布曲线的图;
图12A到12C是图示用作根据本发明第一实施例的学习设备的学习对象的学习对象图像的示例的图;
图13A和13B是示意性图示根据本发明第一实施例的权重保持单元的保持内容的图;
图14A到14C是图示通过根据本发明第一实施例的权重分布信息创建单元进行的权重分布信息的创建方法的概述的图;
图15A和15B图示通过根据本发明第一实施例的权重分布信息创建单元创建的权重分布信息和学习对象图像之间的关系的概述的图;
图16A和16B是图示通过根据本发明第一实施例的权重分布信息创建单元创建的权重分布信息和通过最佳阈值确定单元确定的阈值之间的关系的概述的图;
图17A到17C是图示根据本发明第一实施例的、将对应于通过弱假设确定单元确定的弱假设的值记录到面部检测字典中的记录方法的概述的图;
图18是描述通过根据本发明第一实施例的学习设备进行的对象检测字典创建处理的处理过程的流程图;
图19是描述在通过根据本发明第一实施例的学习设备800进行的对象检测字典创建处理的处理过程中的弱假设确定处理过程的流程图;
图20A和20B是图示根据本发明第一实施例的、用于计算确定对象图像的多个评估值的评估值计算字典的示例的图;
图21A和21B是图示根据本发明第一实施例的、用于确定面部是否包括在确定对象图像中的面部确定字典的示例的图;
图22A到22D是图示根据本发明第一实施例的、用于提取经历了面部检测单元的面部检测处理的确定对象图像的图像提取方法的概述的图;
图23A和23B是图示根据本发明第一实施例的、从图像提取单元提取的确定对象图像和通过评估值计算单元对所述确定对象图像计算的评估值的示例的图;
图24A到24D是图示根据本发明第一实施例的、从图像提取单元提取的确定对象图像和通过面部确定单元对所述确定对象图像计算的评估值的示例的图;
图25A到25C是示意性图示根据本发明第一实施例的、在用面部检测单元执行面部检测的情况下的流程的图;
图26是图示根据本发明第一实施例的、经历通过面部检测单元的面部检测处理的成像图像、和通过面部检测单元的面部检测处理的检测结果的图;
图27是描述根据本发明第一实施例的、通过成像设备进行的成像图像记录处理的处理序列的流程图;
图28是描述根据本发明第一实施例的、通过成像设备进行的成像图像记录处理的处理序列中的面部检测处理序列的流程图;
图29是描述根据本发明第一实施例的、通过成像设备进行的面部检测处理的处理序列中的确定处理序列的流程图;
图30是描述根据本发明第一实施例的、通过成像设备进行的面部检测处理的处理序列中的第一评估值计算处理序列的流程图;
图31是描述根据本发明第一实施例的、通过成像设备进行的面部检测处理的处理序列中的第二评估值计算处理序列的流程图;
图32是图示根据本发明第二实施例的面部检测单元的功能配置示例的框图;
图33A到33D是图示根据本发明第二实施例的、其中可通过位置计算单元对两个新的点的位置进行计算而计算评估值的对象的示例的图;
图34A到34D是图示根据本发明第二实施例的、通过位置计算单元计算的两个新的位置和使用这两个新的点的位置计算的评估值的关系示例的图;
图35A到35E是示意性图示根据本发明第二实施例的、通过面部检测单元执行面部检测的情况下的流程的图;
图36是图示根据本发明第二实施例的、可通过面部检测单元检测的面部及其检测结果的示例的图;以及
图37是描述通过根据本发明第二实施例的成像设备进行的面部检测处理的处理过程的流程图。
具体实施方式
将在下面描述用于执行本发明的优选实施例(以下称为实施例)。将按以下顺序进行描述。
1.第一实施例(面部检测控制:用于从图像检测面部的示例和用于面部检测的字典信息的创建示例)
2.第二实施例(面部检测控制:用于从图像检测面部的修改示例)
第一实施例
成像设备的配置示例
图1是图示根据本发明第一实施例的成像设备100的功能配置示例的框图。成像设备100具有透镜111、成像单元112、系统控制单元120、存储设备单元130、外部接口单元140、记录单元150、操作输入单元160、显示单元170、音频输出单元180和相机控制单元200。成像设备100例如可通过数字照相机实现,该数字照相机对被摄体成像,并生成图像数据,对图像数据通过图像分析提取每个特征量,并使用提取的特征量执行各种类型的图像处理。
透镜111由会聚来自被摄体的光的多个透镜(变焦透镜、聚焦透镜等)组成,并且来自被摄体的输入光经由这些透镜提供到成像单元112。
成像单元112具有成像设备(未示出)和信号处理单元(未示出),该成像设备具有电子快门功能,该信号处理单元处理成像设备的输出信号并生成成像图像(图像数据)。也就是说,利用成像单元112,被摄体的输入光学图像经由透镜111在成像设备的成像面上成像,该成像设备在该状态下执行成像操作,并且信号处理单元执行关于成像信号的信号处理,从而生成成像图像。生成的成像图像然后提供到存储设备单元130并存储其中。注意,通过相机控制单元200顺序确定用于生成成像图像的相机参数(成像参数)。
相机控制单元200基于经由存储设备单元130从成像单元112提供的成像图像和来自系统控制单元120的控制,控制成像单元112。注意,将参照图2详细描述相机控制单元200。
系统控制单元120执行成像设备100的整体控制。例如,系统控制单元120根据通过操作输入单元160接受的、来自用户的操作输入,执行控制。此外,系统控制单元120控制在显示单元170上显示的菜单图像等的显示、关于记录单元150的成像图像的记录和读取、经由外部接口单元140执行的与外部计算机和网络的通信等。此外,在图像操作期间进行监视时,系统控制单元120执行控制,以便在显示单元170上显示通过成像单元112生成的成像图像。
存储设备单元130是为了暂时保存成像设备100系统上的成像图像等的主存储设备,并且例如由DRAM(动态随机存取存储器)组成。也就是说,主要经由存储设备单元130执行成像设备100内的各个单元之间的成像图像的交换。
外部接口单元140是具有如USB(通用串行总线)等的输入/输出端子的外部接口,并且提供用于与外部计算机的连接和网络连接的接口。
记录单元150基于系统控制单元120的控制,记录通过成像单元112生成的成像图像。此外,记录单元150基于系统控制单元120的控制,读取记录的成像图像,并将其提供到系统控制单元120。例如,如闪存等的记录介质可用作记录单元150。此外,记录单元150可内置到成像设备100中,或可安装在成像设备100上以便可拆卸。
操作输入单元160是从用户接收操作输入的操作输入单元,并且将根据接受的操作输入的信号输出到系统控制单元120。例如,在按下用于指令成像图像的记录的快门按钮时,将根据按下快门按钮的信号输出到系统控制单元120。
显示单元170是用于基于系统控制单元120的控制显示各种类型的图像的显示单元。例如,显示单元170显示通过成像单元112生成的成像图像、从记录单元150读取的成像图像以及提供给用户的菜单屏幕等。
音频输出单元180基于系统控制单元120的控制,输出各种类型的音频信息。音频输出单元180可用例如扬声器实现。
图2是图示根据本发明第一实施例的相机控制单元200的功能配置示例的框图。在图2中,与相机控制单元200的功能配置示例一起,还示出了图1中示出的成像单元112、系统控制单元120和存储设备单元130的配置。相机控制单元200具有顺序控制单元210、相机参数控制单元220、面部检测单元230、以及存储设备接口240。经由存储设备接口240执行存储设备单元130和相机参数控制单元220之间、以及存储设备单元130和面部检测单元230之间执行的成像图像的交换。
顺序控制单元210用来自系统控制单元120的成像图像记录等待命令启动,并且维持可记录通过成像单元112生成的成像图像的状态。在该成像图像记录等待状态下,通过成像单元112生成的成像图像顺序记录到记录设备单元130中。例如,存储设备单元130中记录的成像图像以1/60秒增量顺序更新。此外,顺序控制单元210执行控制,使得相机参数控制单元220基于存储设备单元130中存储的当前成像图像(通过成像单元112生成的最新成像图像),确定相机参数。此外,顺序控制单元210执行对于面部检测单元230的控制,以便对于存储设备单元130中存储的当前成像图像执行面部检测处理。在从面部检测单元230输出显示已经检测到面部的面部检测信息的情况下,顺序控制单元210将意思是(to the effect that)已经检测到面部的信息输出到系统控制单元120和相机参数控制单元220。
相机参数控制单元220确定关于成像图像的相机参数,并且使用所确定的相机参数执行关于成像单元112的成像控制。具体地,相机参数控制单元220基于来自顺序控制单元210的触发,经由存储设备接口240获得存储设备单元130中存储的当前成像图像。评估当前成像图像,并且确定如快门速度、曝光、白平衡等的相机参数。此外,在当前成像图像中检测到面部的情况下,相机参数控制单元220基于检测到的面部和当前成像图像评估,确定如快门速度、曝光、白平衡等的相机参数。例如,在检测到面部的情况下,基于成像图像中检测到的面部的位置和大小,确定对于检测到的面部最佳的相机参数。
面部检测单元230使存储设备单元130中存储的当前成像图像经历面部检测处理,并且在检测到面部的情况下,将面部检测信息输出到顺序控制单元210。具体地,基于来自顺序控制单元210的触发,面部检测单元230经由存储设备接口240获得存储设备单元130中存储的当前成像图像,并且使当前成像图像经历面部检测处理。面部检测信息是关于检测到的面部的信息,并且例如是包括表示成像图像中的检测到的面部的位置的分数、面部的大小、类型(面部的朝向等)、以及程度的信息。注意,将参照图3详细描述面部检测单元230。
图3是图示根据本发明第一实施例的面部检测单元230的功能配置示例的框图。面部检测单元230具有图像获得单元231、图像缩小(reduction)单元232、图像提取单元233、评估值计算单元235、选择单元236、面部确定单元237、确定结果输出单元238、评估值计算字典存储单元300、以及面部确定字典存储单元310。
图像获得单元231经由存储设备接口240获得存储设备单元130中存储的成像图像,并将获得的成像图像输出到图像缩小单元232。
图像缩小单元232通过以预定比率顺序缩小从图像获得单元231输出的成像图像,生成不同大小的多个图像,并且将生成的图像顺序输出到图像提取单元233。注意,将参照图22A到22D详细描述成像图像的缩小。
图像提取单元233对于从图像缩小单元232输出的每个图像,顺序提取每个图像的预定区域中包括的图像,并且将提取的图像(确定的对象图像)输出到评估值计算单元235和面部确定单元237。将参照图22A到22D详细描述该图像的提取。
评估值计算字典存储单元300对每个对象存储用于计算评估值的评估值计算字典,以评估多个对象中的哪个包括在从图像提取单元233输出的图像中。将所存储的评估值计算字典提供给评估值计算单元235。描述本发明的第一实施例以将多个对象例示为面向不同方向的多个面部。注意,将参照图5A到17C等详细描述评估值计算字典的创建方法。此外,将参照图20A和20B详细描述评估值计算字典的存储内容。注意,评估值计算字典存储单元300是发明内容中所指的确定信息存储单元的示例。
面部确定字典存储单元310对于每个对象,将用于确定所标识的对象是否包括在从图像提取单元233输出的图像中的面部确定字典相关。将所存储的面部确定字典提供到面部确定字典存储器239。对于与使用评估值计算字典存储单元300中存储的评估值计算字典计算的评估值相对应的多个对象的每个,将面部确定字典存储在面部确定字典存储单元310中。注意,将参照图5A到17C等详细描述面部确定字典的创建方法。此外,将参照图21A和21B详细描述面部确定字典的存储内容。注意,面部确定字典存储单元310是发明内容中所指的确定信息存储单元的示例。
面部确定字典存储器239是用于存储面部确定字典存储单元310中存储的多个面部确定字典当中的一个或多个面部确定字典的工作存储器,并且将存储的面部确定字典中的内容提供到面部确定单元237。
评估值计算单元235从自图像提取单元233输出的确定对象图像中的多个区域提取特征量,并且比较提取的各个特征量中的两个特征量,从而同时计算多个对象的评估值。将每个计算的对象的评估值输出到选择单元236。评估值计算字典存储单元300中存储的评估值计算字典用于评估值的计算。注意,将参照图23A到25C详细描述通过评估值计算单元235进行的评估值的计算。此外,评估值计算单元235是发明内容中所指的比较单元和计算单元的示例。
选择单元236从自评估值计算单元235输出的每个对象的评估值中选择满足一定条件的评估值,并将关于涉及所选择的评估值的对象的信息(选择对象信息)输出到面部确定单元237。一定条件例如可以是每个对象的评估当中的预定数量的具有高的值的评估值。此外,一定条件例如可以是预定数量的评估值当中的超过定义值的评估值。注意,将参照图23A到25C详细描述通过选择单元236进行的评估值的选择方法。
面部确定单元237执行面部确定处理,以便确定面部是否包括在从图像提取单元233输出的确定对象图像中。确定结果输出到确定结果输出单元238。例如,输出成像图像中的检测到的面部的位置和大小、类型(面部的朝向等)、以及表示面部的程度的分数,作为确定结果。具体地,面部确定单元237使关于通过选择单元236选择的评估值的对象相关,并将面部确定字典存储单元310中存储的面部确定字典保持在面部确定字典存储器239中。使用面部确定字典存储器239中保持的面部确定字典,从自图像提取单元233输出的确定对象图像中的多个区域提取特征量,并且比较提取的各个特征量中的两个特征量,从而对每个面部确定字典计算评估值。基于这里的评估值,进行关于面部是否包括在从图像提取单元233输出的确定对象图像中的确定。注意,将参照图23A到25C详细描述通过面部确定单元237进行的面部确定处理。此外,面部确定单元237是发明内容中所指的计算单元和比较单元的示例。
在从面部确定单元237输出面部包括在从图像提取单元233输出的确定对象图像中的确定的确定结果的情况下,确定结果输出单元238将指示意思是已经从成像图像检测到面部的信息的面部检测信息输出到顺序控制单元210。面部检测信息例如包括成像图像中检测到的面部的位置和大小、类型(面部的朝向等)、以及表示面部的程度的分数。
学习设备的配置示例
接下来,将参照附图详细描述用于创建根据本发明第一实施例的面部检测处理中使用的评估值计算字典和面部确定字典的学习设备。注意,本发明实施例中示出的学习意味着基于大量数据发现数据背后的规律性。
图4是示出根据本发明第一实施例的学习设备800的功能配置示例的框图。学习设备800具有学习对象图像输入单元801、亮度差值计算单元802、权重分布信息创建单元803、最佳阈值确定单元804、弱假设(弱学习器)确定单元805、以及权重计算单元806。此外,学习设备800具有权重更新单元807、记录控制单元808、权重保持单元810以及面部检测字典存储单元820。在该示例中,将描述创建用于检测人的面部的面部检测字典的示例。面部检测字典对应于图3中示出的评估值计算字典存储单元300中存储的评估值计算字典和面部确定字典存储单元310中存储的面部确定字典。注意,学习设备800用如Real AdaBoost等的学习算法实现。
学习对象图像输入单元801对于学习对象图像的每种类型,输入用作学习样本的学习对象图像,并将输入的学习对象图像输出到亮度差值计算单元802和权重更新单元807。根据本发明第一实施例,示出了使用已经被规范化为24像素×24像素的图像作为输入到学习对象图像输入单元801的学习对象图像的示例。此外,在创建用于检测人的面部的面部检测字典的情况下,包括人的面部的样本图像(学习对象正面面部图像)和不包括人的面部的样本图像(学习对象非面部图像)作为学习对象图像输入到学习对象图像输入单元801中。在此情况下,作为学习对象正面面部图像,例如,可使用已经被规范化使得面部的双眼的位置在每个学习对象图像中的相同位置处的图像。此外,例如,将大约10,000个图像输入为学习对象正面面部图像,并且将大约100,000个图像输入为学习对象非面部图像。将参照图5A和5B以及12A到12C详细描述这些图像示例。
亮度差值计算单元802对每个学习对象图像,计算从学习对象图像输入单元801输出的学习对象图像上的两点之间的亮度的差值。使所计算的差值与经历计算的学习对象图像和两点之间的位置相关,并输出到权重分布信息创建单元803。在学习对象图像上的相同两点处的两种计算方式中(例如,在两点的亮度值是A和B的情况下的“A-B”、“B-A”),仅正/负符号不同,并且绝对值是相同值。因此,在两种计算方式中,执行一种计算,而可以忽略另一种计算。也就是说,亮度差值计算单元802对于组成从学习对象图像输入单元801输出的学习对象图像的像素的两点之间的每个组合(576C2=165,600种方式)计算亮度的差值。注意,亮度差值计算单元802是发明内容中所指的差值计算单元的示例。
权重分布信息创建单元803对两点的每个组合创建权重分布信息,所述权重分布信息指示为经历计算的学习对象图像给出的权重关于从亮度差值计算单元802输出的两点之间的亮度的差值的分布状态。注意,权重分布信息分类为学习对象正面面部图像和学习对象非面部图像,并被创建。计算的权重分布信息与经历创建的两点的组合相关,并输出到最佳阈值确定单元804和权重更新单元807。注意,为学习成像图像给出的权重保持在权重保持单元810中。此外,将参照图7A到8B以及14A到15B详细描述权重分布信息的创建。注意,权重分布信息创建单元803是发明内容中所指的分布信息创建单元的示例。
最佳阈值确定单元804基于从权重分布信息创建单元803输出的权重分布信息,确定对于两点的每个组合的最佳阈值。所确定的最佳阈值和经历确定的权重分布信息与两点的组合相关并输出到弱假设确定单元805。将参照图8A和8B以及15A到15C详细描述最佳阈值的确定。
弱假设确定单元805基于通过权重分布信息创建单元803创建的权重分布信息,确定最佳弱假设。具体地,弱假设确定单元805从自最佳阈值确定单元804输出的每个最佳阈值确定一个阈值,并将对应于该阈值的权重分布信息的弱假设确定为最佳弱假设。将确定的阈值、以及最佳弱假设和对应于该弱假设的权重分布信息相关并输出到权重计算单元806、权重更新单元807和记录控制单元808。将参照图9A到9C和16A和16B详细描述弱假设的确定。注意,弱假设确定单元805是发明内容中所指的确定单元的示例。
权重计算单元806使用对应于从弱假设确定单元805输出的最佳弱假设的权重分布信息计算权重(加权多数值),并将计算的权重值输出到记录控制单元808。将参照图10A到10C和17A到17C详细描述该权重的计算。
权重更新单元807更新对应于权重保持单元810中保持的每个学习对象图像的权重。具体地,权重更新单元807基于来自权重分布信息创建单元803的权重分布信息、对应于来自弱假设确定单元805的最佳弱假设的最佳阈值、以及来自权重计算单元806的权重值,更新每个权重。将参照图10A到10C和17A到17C详细描述权重的更新。
记录控制单元808将从权重计算单元806输出的权重值以及阈值和从弱假设确定单元805输出的最佳弱假设相关,并将其记录在面部检测字典存储单元820中。将参照图10A到10C和17A到17C详细描述该面部检测字典。
权重保持单元810保持为从学习对象图像输入单元801输出的每个学习对象图像给出的权重,并将保持的权重提供到权重分布信息创建单元803。此外,用权重更新单元807更新权重保持单元810中保持的权重。注意,将参照图6A和6B以及13A和13B详细描述权重保持单元810的保持内容。
图5A和5B是图示根据本发明第一实施例、用作学习设备800的学习对象的学习对象图像的示例的图。图5A示出由多个学习对象正面面部图像组成的学习对象正面面部图像组830,并且图5B示出由多个学习对象非面部图像组成的学习对象非面部图像组840。注意,在图5A和5B中示出的示例中,为描述方便,将简化的图像示出为学习对象图像。
例如,将包括人的面部(正面面部)的大量样本图像用作学习对象正面面部图像,如图5A中示出的学习对象正面面部图像831到834。此外,将不包括人的面部的大量样本图像用作学习对象非面部图像,如图5B中示出的学习对象非面部图像841到844。注意,在该示例的情况下,将描述在使用大约10,000个学习对象正面面部图像和大约100,000个学习对象非面部图像创建面部检测字典的情况下的示例。每个学习对象图像按类型顺序输入到学习对象图像输入单元801中。
图6A和6B是示意性示出根据本发明第一实施例的权重保持单元810的保持内容的图。图6A示出其中在权重保持单元810保持权重的学习对象图像,并且图6B示出对应于学习对象图像的权重保持单元810的保持内容。此外,图6A和6B的相关性示出为通过箭头连结在一起。注意,图5A和5B中示出的学习对象图像的一部分示出为图6A中示出的学习对象正面面部图像组830和学习对象非面部图像组840中包括的学习对象图像,并且在学习对象图像相同处附上相同的参考标号。
学习对象图像区分信息(xi)811、权重(Wi t)812、以及面部图像/非面部图像标识信息(yi)813保持在权重保持单元810中。对于从学习对象图像输入单元801输出的每个学习对象图像,这里的各种信息通过权重更新单元807存储,并被更新。
学习对象图像区分信息(xi)811是用于区分学习对象图像输入单元801中输入的学习对象图像的区分信息,并且例如将xi(i是满足1≤i≤k的整数)与学习对象图像相关并保持。在图6B示出的示例中,示出了其中K个学习对象图像输入到学习对象图像输入单元801中的情况。例如,可以设K=110,000。
权重(Wi t)812是对学习对象图像输入单元801中输入的每个学习对象图像给出的权重,并且通过权重更新单元807顺序更新。权重(Wi t)812是被规范化以便满足下面的表达式1的值。此外,对于紧接在后输入到学习对象图像输入单元801中的每个学习对象图像给出相同值(1/K)作为权重(Wi 1)。现在,i对应于学习对象图像区分信息(xi)811的i,并且t是提升(boosting)的情况下的循环计数器,例如,可以设t=2,000到3,000。
Σ i = 1 K W i t = 1 ...表达式1
面部图像/非面部图像标识信息(yi)813是标识输入到学习对象图像输入单元801的学习对象图像的类型的信息,并且例如,“1”保持在学习对象正面面部图像中,而“-1”保持在学习对象非面部图像中。根据从学习对象图像输入单元801输出的学习对象图像的类型,用权重更新单元807存储该面部图像/非面部图像标识信息。
面部检测字典的创建示例
图7A和7B是示出根据本发明第一实施例、通过权重分布信息创建单元803进行的权重分布信息的创建方法的概述的图。图7A示出用于计算每个学习对象图像上的两点之间的亮度的差值的计算方法的概述。在图7A中,在学习对象正面面部图像组830和学习对象非面部图像组840中包括的各学习对象图像中,示出学习对象正面面部图像831和832以及学习对象非面部图像842和844,并示出用于计算亮度的差值的示例。此外,对于其他学习对象图像可执行相同处理。此外,对于每个学习对象图像加权的权重(Wi t)在每个学习对象图像的下面部分的虚线矩形中示出。权重(Wi t)与每个学习对象图像相关并保持在权重保持单元810中。
首先,亮度差值计算单元802提取每个学习对象图像上的相同两点的亮度,并对每个学习对象图像计算提取的两点的亮度的差值。例如,如图7A所示,提取学习对象正面面部图像831和832以及学习对象非面部图像842和844中的两点(像素位置P11和P12)的亮度,并计算提取的两点的亮度的差值。
图7B示出用于基于每个学习对象图像上的两点之间的亮度的差值创建权重分布信息的创建方法的概述。在图7B中,权重分布曲线图示出为权重分布信息,其中水平轴是示出亮度的差值的轴(-255到255),并且垂直轴是示出权重的乘积值的轴。
权重分布信息创建单元803将与从其计算差值的学习对象图像相关并保持在权重保持单元810中的权重(Wi t)、与通过亮度差值计算单元802计算的差值的级别相加。例如,如图7B所示,对应于每个学习对象图像的权重(W1 t,W2 t,Wi t,WK t)与对学习对象正面面部图像831和832和学习对象非面部图像842和844计算的差值的级别相加。此外,对于其他学习对象图像,以相同方式将对应于每个学习对象图像的权重(Wi t)顺序相加,并且创建权重分布信息。注意,对紧接在后面输入到学习对象图像输入单元801中的每个学习对象图像给出相同值(1/K)作为权重(Wi 1),从而,在t=1的情况下,将相同权重(Wi t)顺序相加。此外,对于学习对象图像上的其他两点的组合(对),类似地,将与每个学习对象图像相关的权重(Wi t)顺序相加,并且创建权重分布信息。因此,图8A和8B中示出对每个学习对象图像中的两点(像素位置P11和P12)的组合创建的权重分布信息的示例。
图8A和8B是示出根据本发明第一实施例、通过权重分布信息创建单元803创建的权重分布信息与学习对象图像之间的关系的概述的图。图8A示出学习对象正面面部图像组830和学习对象非面部图像组840中包括的各种学习对象图像。这些学习对象图像与图5A和5B中的学习对象图像相同。
图8B示出对两点(像素位置P11和P12)的组合创建的权重分布曲线(权重分布信息)850。权重分布曲线850是对每种学习对象图像、用图7A和7B所示的权重分布信息的创建方法、通过将对每个顺序相加的级别的权重(Wi t)的乘积值连结在一起而创建的曲线。利用权重分布曲线,可以看到根据每种学习对象图像的特征权重分布状态。此外,利用权重分布曲线,可以对面部图像和非面部图像的每个获得独立的权重分布。例如,利用图8B所示的权重分布曲线850,设在右侧的以钟形生成的曲线是对应于面部图像的曲线,并且在左侧的以钟形生成的曲线是对应于非面部图像的曲线。权重分布的特征经常根据作为亮度差值的计算对象的两点的组合而不同。
将描述用于执行面部和非面部之间的区分的阈值的确定方法。例如,设图8B所示的权重分布曲线850上的垂直轴的值是d(d是满足-255≤d≤255的整数),并且水平轴上的常数是th1(th1是满足-255≤th1≤255的整数)。在此情况下,设小于常数th1的学习对象正面面部图像的权重分布曲线上的值是PL +(d),并且等于或大于常数th1的学习对象正面面部图像的权重分布曲线上的值是PH +(d)。此外,设小于常数th1的学习对象非面部图像的权重分布曲线上的值是PL -(d),并且等于或大于常数th1的学习对象非面部图像的权重分布曲线上的值是PH -(d)。注意,在图8B中,小于常数th1的面部图像的权重分布曲线(PL +(d))用细的虚线示出,而等于或大于常数th1的面部图像的权重分布曲线(PH +(d))用粗的虚线示出。此外,小于常数th1的非面部图像的权重分布曲线(PL -(d))用粗线示出,而等于或大于常数th1的非面部图像的权重分布曲线(PH -(d))用细线示出。
在此情况下,最佳阈值确定单元804比较常数th1的两侧上的权重分布的总和。例如,使用下面的表达式2到5,计算常数th1的两侧上的权重分布总和PH +、PL +、PH -和PL -
P H + = Σ d = th 1 255 P H + ( d ) ...表达式2
P L + = Σ d = - 255 th 1 P L + ( d ) ...表达式3
P H - = Σ d = th 1 255 P H - ( d ) ...表达式4
P L - = Σ d = - 255 th 1 P L - ( d ) ...表达式5
接下来,最佳阈值确定单元804使用下面的表达式6,计算对于计算的权重分布总和PH +、PL +、PH -和PL -的值T1。
T 1 = ( P L + × P L - ) + ( P H + × P H - ) ...表达式6
接下来,最佳阈值确定单元804确定常数th1,其中计算的值T1是最小的,作为关于与图8B所示的权重分布曲线850对应的两点(像素位置P11和P12)的组合的阈值th1。此外,对于学习对象图像上的其他两点的组合(对),类似地,权重分布信息用于确定阈值。因此,对于每个学习对象图像上的两点的组合,在图9A到9C中示出创建的权重分布信息和基于权重分布信息确定的阈值的示例。
图9A到9C是示意性示出通过权重分布信息创建单元803创建的权重分布信息和通过最佳阈值确定单元804确定的阈值之间的关系的图。此外,图9A到9C示出权重分布信息和阈值、以及与此对应的学习对象图像上的两点的组合。注意,在图9A到9C中,在学习对象正面面部图像组830和学习对象非面部图像组840中包括的学习对象图像中,仅示出学习对象正面面部图像832和学习对象非面部图像842。此外,如图9A中所示的学习对象图像上的两点的组合以及权重分布信息和阈值之间的关系类似于图8A和8B中所示的关系。注意,图9A中示出的权重分布曲线850用曲线851示出对应于学习对象非面部图像的权重分布曲线,并且用曲线852示出对应于学习对象正面面部图像的权重分布曲线。
图9B示出对学习对象图像上的两点(像素位置P21和P22)的组合创建的权重分布曲线853和基于权重分布曲线853确定的阈值th2之间的关系。此外,对于权重分布曲线853,在曲线854中示出对应于学习对象非面部图像的权重分布曲线,并且在曲线855中示出对应于学习对象正面面部图像的权重分布曲线。
图9C示出对学习对象图像上的两点(像素位置Pj1和Pj2)的组合创建的权重分布曲线856和基于权重分布曲线856确定的阈值thj之间的关系。此外,对于权重分布曲线856,在曲线857中示出对应于学习对象非面部图像的权重分布曲线,并且在曲线858中示出对应于学习对象正面面部图像的权重分布曲线。
因此,最佳阈值确定单元804使用对学习对象图像上的两点的每个组合(对)的权重分布曲线(权重分布信息)来确定阈值th1到thj。接下来,弱假设确定单元805确定所确定的阈值th1到thj当中使用上述表达式6计算的值T1变为最小的阈值。将对应于所确定的阈值的权重分布信息的弱假设确定为最佳弱假设。
图10A到图10C是示意性示出根据本发明第一实施例、用于将对应于通过弱假设确定单元805确定的弱假设的值记录在面部检测字典中的记录方法的图。图10A示出对应于通过弱假设确定单元805确定的阈值thr和学习对象图像上的两点(像素位置Pr1和Pr2)的组合的权重分布曲线860。注意,在图10A中,示出阈值thr的位置的线示出为粗线。此外,对于权重分布曲线860,对应于学习对象非面部图像的曲线用曲线861示出,并且对应于学习对象正面面部图像的曲线用曲线862示出。
图10B示出计算通过弱假设确定单元805确定的阈值thr的两个权重的权重计算单元806。权重计算单元806使用下面的表达式7和8,基于权重分布总和PH +、PL +、PH -和PL -,对权重分布曲线860的阈值thr的两侧计算权重h(x)(两个权重hH(x)和hL(x))。注意,如表达式7和8中示出的x区分要检测的图像。
Figure G2010100032199D00211
图10C示出其中将对应于通过弱假设确定单元805确定的弱假设的值记录在面部检测字典821中的示例的模型。将面部检测字典821存储在面部检测字典存储单元820中。具体地,将通过弱假设确定单元805确定的阈值thr的值记录在面部检测字典821的阈值(θ)824中。此外,在对应于阈值thr的两点(像素位置Pr1和Pr2)的组合中,将其中一点(像素位置Pr1)记录在面部检测字典821的位置1(u1,v1)822处。此外,在对应于阈值thr的两点(像素位置Pr1和Pr2)的组合中,将另一点(像素位置Pr2)记录在面部检测字典821的位置2(u2,v2)823处。现在,例如,在学习对象图像的左上角是原点的情况下,设学习对象图像的水平方向上的位置是u1和u2,并且学习对象图像的垂直方向上的位置是v1和v2。此外,对阈值thr计算的权重h(x)(两个权重hH(x)和hL(x))记录在面部检测字典821的权重(α)825中。例如,权重hH(x)记录在权重(α)825的(H)中,并且权重hL(x)记录在权重(α)825的(L)中。这里的各种值通过记录控制单元808记录在面部检测字典821中。
接下来,权重更新单元807使用下面的表达式9来计算对每个学习对象图像给出的权重Wi t+1,并且更新权重保持单元810中保持的权重。该更新称为提升操作。
W i t + 1 = W i t exp ( - y i h t ( x i ) ) Σ i = 1 K W i t exp ( - y i h t ( x i ) ) ...表达式9
现在,Wi t和yi是与用作对象的学习对象图像xi相关并保持在权重保持单元810中的值(图6A和6B所示)。此外,Ht(xi)是根据对两点(图像位置Pr1和Pr2)的组合计算的每个学习对象图像的亮度的差值而确定的值,该两点的组合对应于通过弱假设确定单元805确定的阈值thr。具体地,在对用作对象的学习对象图像xi计算的亮度的差值Pd为PD≥thr的情况下,使用表达式7计算的权重hH(xi)用作ht(xi)。另一方面,在对用作对象的学习对象图像xi计算的亮度的差值Pd为PD<thr的情况下,使用利用表达式8计算的权重hL(xi)。因此,例如,使用通过弱假设确定单元805确定的阈值作为标准,对于不同地区分的学习对象图像,使得权重更重,并且可以更容易地用下面的循环来反映。因此,对紧接在后面输入到学习对象图像输入单元801的每个学习对象图像给出相同的值(1/K)作为权重(Wi 1),但是根据每个学习对象图像修改对于t=2及此后的权重(Wi t)。
接下来,重复上述处理,直到实现期望的循环数,或直到实现期望的精度。因此,根据本发明第一实施例,根据在通过弱假设确定单元805确定的阈值以上/以下计算不同的权重。因此,即使对用现有技术难以区分的图像也可以容易地在面部检测处理中进行检测,并且可以改进面部检测精度。
图11A和11B是示出关于在学习对象图像上的两点的组合创建的两个权重分布曲线的图。图11A所示的权重分布曲线850类似于图9A所示的权重分布曲线850。在该情况下,对应于学习对象非面部图像的曲线和对应于学习对象正面面部图像的曲线的特征示出在阈值以上/以下,从而认为这两者之间的区分相对清楚。
图11B所示的权重分布曲线865是在阈值th10或更小处区分非面部或面部困难、但在阈值th10或更大处可以使得区分相对清楚的情况下的权重分布曲线的示例。对于权重分布曲线865,对应于学习对象非面部图像的曲线在曲线866中示出,并且对应于学习对象正面面部图像的曲线在曲线867中示出。也就是说,在阈值th10或以下处,非面部和面部的权重分布状态是混合的,从而认为区分是困难的。然而,在阈值th10或更大处,几乎没有非面部权重分布,并且面部权重的分布是其大多数,从而可以使得区分相对清楚。即使在此情况下,通过使用根据在阈值10th以上/以下而不同的权重可以非常有效地检测面部。因此,可减小弱假设,从而可快速地执行面部检测处理。此外,即使在减小弱假设的情况下,也可增加面部检测精度。
在使用由此创建的面部检测字典821来执行面部检测处理的情况下,面部检测字典821中包括的从t=1到T的各种信息用于关于要检测的图像x(24像素×24像素),根据下面的表达式10来计算最终假设H(x)。依赖于H(x)≥0还是H(x)<0,确定面部是否包括在要检测的图像x中。
H ( x ) = Σ t = 1 T h ( x ) ...表达式10
以下将示出在表达式7和8用于计算表达式10中示出的最终假设H(x)、并且执行面部确定的情况下的流程。
Figure G2010100032199D00232
例如,在对图像x执行面部检测处理的情况下,对应于面部检测字典821中包括的第t行中的位置1(u1,v1)822和位置2(u2,v2)823,提取图像x上的两点的亮度值。接下来,计算两点之间的亮度的差值,并且比较该差值和面部检测字典821的阈值(θ)824中存储的值。例如,在两点之间的亮度的差值是Dt、并且阈值(θ)824中存储的值是tht的情况下,如果Dt≥tht,则选择权重(α)825的(H)中存储的值(即,表达式7中所示的权重hH(x))。另一方面,如果Dt<tht,则选择权重(α)825的(L)中存储的值(即,表达式8中所示的权重hL(x))。对于从t=1到T的每个权重(α)825,通过将选择的权重(α)825的值(H或L)顺序相加,计算最终假设H(x)。在H(x)<0的情况下,确定面部不包括在要检测的图像x中,而在H(x)≥0的情况下,确定面部包括在要检测的图像x中。注意,将参照图22A到25C详细描述面部确定处理。
用于检测多个不同对象的字典创建示例
上面示出了使用其中包括用作对象的人的面部的学习对象正面面部图像、和其中不包括人的面部的学习对象非面部图像来创建面部检测字典的示例。然而,通过应用上述计算方法,可创建用于同时执行检测处理多个不同对象的字典。具体地,在对多个不同对象执行检测处理的情况下,对多个不同对象的每个,可创建用于同时执行评估值的计算的字典,其中,在确定这些对象是否包括在图像中的情况下使用所述评估值。也就是说,可创建用于对多个类同时执行确定处理的字典。下面将描述创建用于对作为多个不同对象的正面面部和左侧面面部同时执行检测处理的面部检测字典的示例。注意,功能配置与图4所示的功能配置类似,所以将附上相同的参考标号,将主要对不同功能给出描述,并将省略其他描述。
图12A到12C是示出用作根据本发明第一实施例的学习设备800的学习对象的学习对象图像的示例的图。图12A示出由多个学习对象正面面部图像组成的学习对象正面面部图像组830,并且图12B示出由多个学习对象侧面图像组成的学习对象侧面图像组870。此外,图12C示出由多个学习对象非面部图像组成的学习对象非面部图像组840。注意,图12A和12C中示出的学习对象正面面部图像组830和学习对象非面部图像组840与图5A和5B中示出的学习对象正面面部图像组830和学习对象非面部图像组840相同。因此,对于这些,将附上与图5A和5B中的相同的参考标号,并且即使在图12A到12C所示的示例中,为了描述方便,也将显示简化的图像作为学习对象图像。
如图12B中所示的学习对象侧面图像871到874,例如,包括人的面部(左侧面部)的大量样本图像用作学习对象侧面图像。此外,在该示例中,将描述使用大约10,000个学习对象正面面部图像、大约10,000个学习对象侧面图像和大约100,000个学习对象非面部图像来创建面部检测字典的示例。这些学习对象图像按种类顺序输入到学习对象图像输入单元801。
图13A和13B是示出根据本发明第一实施例的权重保持单元810的保持内容的模型的图。图13A和13B中所示的权重保持单元810中保持的各项目与图6A和6B中所示的权重保持单元810中的相同,除了其中添加类信息814并按每类保持权重的这些点外。因此,在配置与图6A和6B类似处,将附上相同的参考标号,将主要对于不同功能给出描述,并将省略其他描述。图13A示出其中在权重保持单元810中保持权重的学习对象图像,并且图13B示出对应于学习对象图像的权重保持单元810的保持内容。此外,图13A和13B的相关性示出为用箭头连结在一起。注意,图12A到12C中示出的学习对象图像的一部分示出为学习对象侧面图像组870等中包括的学习对象图像,并且对相同学习对象图像附上相同参考标号。此外,在该示例的情况下,描述了学习对象正面面部图像组830中包括的图像的数量和学习对象侧面图像组870中包括的图像的数量相同的情况的示例。
用于区分学习对象图像的xi(i是满足1≤i≤K的整数)保持在学习对象图像区分信息(xi)811中。图13B示出的示例示出了学习对象正面面部图像组830和学习对象非面部图像组840中包括的图像的总数是K、并且学习对象侧面图像组870和学习对象非面部图像组840中包括的图像的总数是K的情况。例如,设K=110,000。此外,例如,x1与学习对象侧面图像871相关并且保持在学习对象图像区分信息(xi)811中。
如上所述,权重按每个类保持在权重(Wi,cj t)812中。也就是说,如图13B所示,按照学习对象正面面部图像组830和学习对象非面部图像组840中包括的各学习对象图像、以及学习对象侧面图像组870和学习对象非面部图像组840中包括的各学习对象图像的每个类保持权重。现在,将对学习对象非面部图像组840中包括的各学习对象图像的每个类使用共同图像,但通过权重更新单元807顺序更新的权重变为不同值。此外,对紧接在后面输入到学习对象图像输入单元801中的每个学习对象图像给出相同值(1/K)作为权重(Wi,cj 1)。此外,例如,W1,c2 t与学习对象侧面图像871相关并保持在(Wi,cj t)812中。现在,cj对应于类信息(cj)814中的cj,并且表示所属的类。
在面部图像/非面部图像标识信息(yi)813中,类似于学习对象正面面部图像,“1”保持在学习对象侧面图像中。例如,使“1”与学习对象侧面图像871相关并保持在面部图像/非面部图像标识信息(yi)813中。
类信息(cj)814是用于标识类的信息,并且例如,“c1”保持在学习对象正面面部图像中,并且“c2”保持在学习对象侧面图像中。此外,“c1”保持在属于学习对象正面面部图像的类的学习对象非面部图像的权重中,并且“c2”保持在属于学习对象侧面图像的类的学习对象非面部图像的权重中。例如,“c1”保持在属于学习对象正面面部图像的类的学习对象非面部图像844的权重中,并且“c2”保持在属于学习对象侧面图像的类的学习对象非面部图像844的权重中。
图14A到14C是示意性示出根据本发明第一实施例、通过权重分布创建单元803创建权重分布信息的方法的图。图14A到14C所示的示例是图7A和7B的修改示例,并且除了创建关于学习对象正面面部图像和学习对象非面部图像的权重分布信息外,与图7A和7B不同的点在于,创建关于学习对象侧面图像和学习对象非面部图像的权重分布信息。因此,在其中配置类似时将附上相同的参考标号,并将省略描述,并且将主要对于与图7A和7B不同的部分给出描述。
如图14A所示,每个学习对象图像上的两点之间的亮度的差值的计算方法类似于图7A所示的情况。此外,如图14B所示,用于基于每个学习对象正面面部图像和学习对象非面部图像之间的亮度的差值创建权重分布信息的创建方法类似于图7B所示的示例。
图14C所示的权重分布信息与图7B所示的示例的不同在于,图14C所示的权重分布信息是关于学习对象侧面图像和学习对象非面部图像的权重分布信息。然而,基于每个学习对象侧面图像和学习对象非面部图像上的两点之间的亮度的差值的权重分布信息的创建方法类似于图7B所示的示例。
具体地,权重分布信息创建单元803将与对其计算差值的学习对象图像相关并保持在权重保持单元810中的权重(Wi,cj t)、与通过亮度差值计算单元802计算的差值的级别相加。对每个类执行相加处理。也就是说,对关于图14B所示的学习对象正面面部图像和学习对象非面部图像的权重分布曲线图、以及关于图14C所示的学习对象侧面图像和学习对象非面部图像的权重分布曲线图执行相加处理。例如,如图14B所示,对应于每个学习对象图像的权重(W1,c1 t,WK,c1 t)与对学习对象正面面部图像831和学习对象非面部图像844计算的差值的级别相加。此外,如图14C所示,对应于每个学习对象图像的权重(W1,c2 t,WK,c2 t)与对学习对象侧面图像871和学习对象非面部图像844计算的差值的级别相加。因此,对于学习对象非面部图像,对于图14B所示的权重分布曲线图和图14C所示的权重分布曲线图同时执行相加处理。此外,对于学习对象图像,类似地,将对应于每个学习对象图像的权重(Wi,cj t)与计算的差值的级别顺序相加,并且创建权重分布信息。此外,对于学习对象图像上的两个其他点的组合(对),类似地,将与每个学习对象图像相关的权重(Wi t)顺序相加,并且创建权重分布信息。因此,图15A和15B中示出对每个学习对象图像上的两点(像素位置P11和P12)的组合创建的权重分布信息的示例。
图15A和15B是示意性示出根据本发明第一实施例、通过权重分布信息创建单元803创建的权重分布信息与学习对象图像之间的关系的图。图15A示出学习对象正面面部图像组830、学习对象侧面图像组870和学习对象非面部图像组840中包括的学习对象图像。这些学习对象图像类似于图12A到12C中的一部分。
图15B示出对两点(像素位置P11和P12)的组合创建的权重分布曲线(权重分布信息)875和876。如图14B所示,权重分布曲线875是对学习对象正面面部图像组和学习对象非面部图像组中包括的每种学习对象图像、通过将对每个顺序相加的级别的权重(Wi,c1 t)的乘积值连结在一起而创建的曲线。此外,如图14C所示,权重分布曲线876是对学习对象侧面图像组和学习对象非面部图像组中包括的每种学习对象图像、通过将对每个顺序相加的级别的权重(Wi,c2 t)的乘积值连结在一起而创建的曲线。利用这些权重分布曲线,可以理解根据学习对象图像的种类的特性权重分布状态。
此外,利用这些分布曲线,可以对正面面部图像和非面部图像、以及左侧面面部图像和非面部图像的每个获得独立的权重分布。例如,利用权重分布曲线875,设在右侧的以钟形生成的曲线是对应于正面面部图像的曲线,并且在左侧以钟形生成的曲线是对应于非面部图像的曲线。此外,利用权重分布曲线876,设在右侧的以钟形生成的曲线是对应于左侧面面部图像的曲线,并且在左侧的以钟形生成的曲线是对应于非面部图像的曲线。例如,在权重分布曲线875和876中,在对应于非面部图像的曲线是t=1的情况下,要相加的学习对象图像是相同的,并因此共同保持。此外,例如,在权重分布曲线875和876中,对应于正面面部图像的曲线和对应于左侧面面部图像的曲线具有不同的要相加的学习对象图像,从而是相互不同的曲线。
现在将描述用于区分正面面部、左侧面面部和非面部之间的阈值的确定方法。例如,设图15B所示的权重分布曲线875和876的垂直轴的值是d(d是满足-255≤d≤255的整数)并且水平轴的常数是th11(th11是满足-255≤th1≤255的整数)。在此情况下,设小于常数th11的学习对象正面面部图像的权重分布曲线上的值是PL c1+(d),并且等于或大于常数th11的学习对象正面面部图像的权重分布曲线上的值是PH c1+(d)。此外,小于常数th11的学习对象侧面面部图像的权重分布曲线上的值是PL c2+(d),并且等于或大于常数th11的学习对象侧面面部图像的权重分布曲线上的值是PH c2+(d)。此外,对于类(c1),设小于常数th11的学习对象非面部图像的权重分布曲线上的值是PL c1-(d),并且等于或大于常数th11的学习对象非面部图像的权重分布曲线上的值是PH c1-(d)。此外,对于类(c2),设小于常数th11的学习对象非面部图像的权重分布曲线上的值是PL c2-(d),并且等于或大于常数th11的学习对象非面部图像的权重分布曲线上的值是PH c2-(d)。
在此情况下,对于权重分布曲线875和876的每个,最佳阈值确定单元804计算常数th11的两侧上的权重分布的总和。例如,对于权重分布曲线875,使用下面的表达式11到14,计算总和PH c1+、PL c1+、PH c1-和PL c1-
P H c 1 + = Σ d = th 11 255 P H c 1 + ( d ) ...表达式11
P L c 1 + = Σ d = - 255 th 11 P L c 1 + ( d ) ...表达式12
P H c 1 - = Σ d = th 11 255 P H c 1 - ( d ) ...表达式13
P L c 1 - = Σ d = - 255 th 11 P L c 1 - ( d ) ...表达式14
此外,例如对于权重分布曲线876,使用下面的表达式15到18,计算总和PH c2+、PL c2+、PH c2-和PL c2-
P H c 2 + = Σ d = th 11 255 P H c 2 + ( d ) ...表达式15
P L c 2 + = Σ d = - 255 th 11 P L c 2 + ( d ) ...表达式16
P H c 2 - = Σ d = th 11 255 P H c 2 - ( d ) ...表达式17
P L c 2 - = Σ d = - 255 th 11 P L c 2 - ( d ) ...表达式18
现在,如上所述,在权重分布曲线875和876中,在t=1的情况下,对应于非面部图像的曲线是相同的,从而表达式13所示的PH c1-和表达式17所示的PH c2-是相同的值。类似地,在t=1的情况下,表达式14所示的PL c1-和表达式18所示的PL c2-是相同的值。
接下来,最佳阈值确定单元804使用下面的表达式19,利用计算的权重分布总和PH c1+、PL c1+、PH c1-、PL c1-、PH c2+、PL c2+、PH c2-和PL c2-,计算值T11。
T 11 = ( P L c 1 + × P L c 1 - ) + ( P H c 1 + × P H c 1 - )
+ ( P L c 2 + × P L c 2 - ) + ( P H c 2 + × P H c 2 - ) ...表达式19
接下来,最佳阈值确定单元804将其中计算的值T11是最小的常数th11确定为关于图15B所示的权重分布曲线875和876对应的两点(像素位置P11和P12)的组合的阈值th11。此外,对于学习对象图像上的两点的其他组合(对),类似地,可以使用权重分布曲线(权重分布信息)确定阈值。因此,对于每个学习对象图像上的两点的组合,在图16A和16B中示出创建的权重分布信息和基于权重分布信息确定的阈值的示例。
图16A和16B是示意性示出根据本发明第一实施例、通过权重分布信息创建单元803创建的权重分布信息和通过最佳阈值确定单元804确定的阈值之间的关系的图。此外,图16A和16B示出权重分布信息和阈值、以及与此对应的学习对象图像上的两点的组合。注意,在图16A和16B中,在学习对象正面面部图像组830、学习对象侧面图像组870和学习对象非面部图像组840中包括的各学习对象图像中,仅示出学习对象正面面部图像831、学习对象侧面图像871和学习对象非面部图像844。此外,图16A中所示的学习对象图像上的两点的组合、权重分布信息和阈值之间的关系类似于图15A和15B中所示的关系。
图16B示出对学习对象图像上的两点(像素位置Pq 1和Pq2)的组合创建的权重分布曲线877和878、和基于权重分布曲线877和878确定的阈值thq1之间的关系。
因此,对学习对象图像上的两点的每个组合(对),最佳阈值确定单元804使用权重分布信息来确定阈值th11到thq1。接下来,弱假设确定单元805确定所确定的阈值th11到thq1当中使用上述表达式19计算的阈值T11为最小的阈值。将对应于所确定的阈值的权重分布信息的弱假设确定为最佳弱假设。
图17A到图17C是示意性示出根据本发明第一实施例、用于将对应于通过弱假设确定单元805确定的弱假设的各个值记录在面部检测字典中的记录方法的图。图17A示出对应于通过弱假设确定单元805确定的阈值thr11和学习对象图像上的两点(像素位置Pr11和Pr12)的组合的权重分布曲线880和881。注意,在图17A中,示出阈值thr11的位置的线是粗线。此外,对于权重分布曲线880(类:c1),对应于学习对象非面部图像的曲线用曲线882示出,并且对应于学习对象正面面部图像的曲线用曲线883示出。此外,对于权重分布曲线881(类:c2),对应于学习对象非面部图像的曲线用曲线884示出,并且对应于学习对象侧面面部图像的曲线用曲线885示出。
图17B示出用于计算关于通过弱假设确定单元805确定的阈值thr11的四个权重的权重计算单元806。权重计算单元806基于权重分布曲线880和881的阈值thr11的两侧上的权重分布的总和,计算关于正面面部的权重h(x,c1)和关于左面面部的权重h(x,c2)。对于阈值thr11的两侧的每个权重分布的总和是PH c1+、PL c1+、PH c1-、PL c1-、PH c2+、PL c2+、PH c2-和PL c2-。此外,关于正面面部的权重h(x,c1)是两个权重hH(x,c1)和hL(x,c1),并且关于左侧面面部的权重h(x,c2)是两个权重hH(x,c2)和hL(x,c2)。具体地,基于权重分布曲线880的阈值thr11的两侧上的权重分布的总和,使用下面的表达式20和21计算权重h(x,c1)。此外,基于权重分布曲线881的阈值thr11的两侧上的权重分布的总和,使用下面的表达式22和23计算权重h(x,c2)。注意,表达式20到23中所示的x用于区分要检测的图像。
Figure G2010100032199D00301
图17C示出其中将对应于通过弱假设确定单元805确定的弱假设的各个值记录在面部检测字典826中的示例的模型。面部检测字典826存储在面部检测字典存储单元820中。具体地,通过弱假设确定单元805确定的阈值thr11的值记录在面部检测字典826的阈值(θ)824中。此外,在对应于阈值thr11的两点(像素位置Pr11和Pr12)的组合中,将其中一点(像素位置Pr11)记录在面部检测字典826的位置1(u1,v1)822中。此外,在对应于阈值thr11的两点(像素位置Pr11和Pr12)的组合中,将另一点(像素位置Pr12)记录在面部检测字典826的位置2(u2,v2)823中。此外,将对阈值thr11计算的权重h(x,c1)和权重h(x,c2)记录在面部检测字典826的权重(α1和α2)827中。例如,将权重h(x,c1)的hH(x,c1)记录在权重(α1)827的(H)中,并且权重h(x,c1)的hL(x,c1)记录在权重(α1)827的(L)中。此外,将权重h(x,c2)的hH(x,c2)记录在权重(α2)827的(H)中,并且将权重h(x,c2)的hL(x,c2)记录在权重(α2)827的(L)中。这里的各种值通过记录控制单元808记录在面部检测字典826中。
接下来,权重更新单元807使用下面的表达式24来计算要加权到每个学习对象图像的权重Wi,cj t+1,并且更新权重保持单元810中保持的权重。
W i , c j t + 1 = W i , c j t exp ( - y i h t ( x i , c j ) ) Σ i = 1 K W i , c j t exp ( - y i h t ( x i , c j ) ) ...表达式24
现在,Wi,cj t和yi是与学习对象图像xi相关并保持在权重保持单元810中的值(图13A和13B中所示)。此外,ht(xi,ci)是根据每个学习对象图像的亮度的差值确定的值,所述每个学习对象图像是对于与通过弱假设确定单元805确定的阈值thr11对应的两点(像素位置Pr11和Pr12)的组合计算的。现在,ci与学习对象图像xi相关,并表示在权重保持单元810中保持的类(图13A和13B所示)。具体地,在“c1”与学习对象图像xi相关并存储在权重保持单元810中保持的类信息(ci)814中的情况下,使用表达式20或21之一的权重h(x,c1)。此外,在“c2”与学习对象图像xi相关并存储在权重保持单元810中保持的类信息(ci)814中的情况下,使用表达式22或23之一的权重h(x,c2)。现在,设对学习对象图像xi中的两点(像素位置Pr11和Pr12)的组合计算的亮度的差值是差值Pd。例如,在类信息(ci)814是“c1”的情况下,在Pd≥thr11成立的情况下,则使用表达式20中所示的hL(x,c1)。另一方面,在Pd<thr11成立的情况下,则使用表达式21中所示的hL(x,c1)。此外,在类信息(ci)814是“c2”的情况下,在Pd≥thr11成立的情况下,则使用表达式22中所示的hH(x,c2)。另一方面,在Pd<thr11成立的情况下,则使用表达式23中所示的hL(x,c2)。因此,根据亮度的差值选择ht(xi,ci)。因此,例如,对于已经被不同地区分的学习对象图像,使用通过弱假设确定单元805确定的阈值作为基础,可以使得权重更重,并且因此可更容易地用下面的循环反映。因此,对紧接在后面输入到学习对象图像输入单元801的每个学习对象图像给出相同的值(1/K)作为权重(Wi,cj t),但是根据每个学习对象图像修改对于t=2及此后的权重(Wi,cj t)。
接下来,重复上述处理,直到实现期望的循环数,或直到实现期望的精度。
因此,根据本发明第一实施例,即使在两个或更多对象的情况下,也可根据通过弱假设确定单元805确定的阈值的增加/减小计算不同的权重。因此,在同时检测多个对象的面部检测处理中,即使对难以区分的图像也可以容易地进行检测,并且可以改进面部检测精度。
此外,在上述示例中,描述了创建用于检测正面面部和左侧面面部的两个对象的对象检测字典的示例。然而,该示例可应用于创建用于检测三个或更多对象的对象检测字典。在此情况下,可使用下面的表达式25和26计算每个类(ci)的权重h(x,cj)。
Figure G2010100032199D00321
此外,在上面示出的示例中,描述了其中多个对象是面向不同方向的人的面部的示例,但是例如,该示例可应用到创建关于不同种类(如狗和猫)的多个对象的对象检测字典的情况。此外,该示例可应用到创建用于确定属性(如区分男性和女性,或区分年龄范围)的属性确定字典的情况。
在使用由此创建的面部检测字典826来执行面部检测处理的情况下,使用面部检测字典826中包括的t=1到T的各种信息,对用作检测对象的图像x(24像素×24像素)计算关于两个对象的最终假设。也就是说,使用下面的表达式27和28,计算关于正面面部的最终假设H(x,c1)和关于左侧面面部的最终假设H(x,c2)。依赖于H(x,c1)≥0还是H(x,c1)<0,确定正面面部是否包括在用作检测对象的图像x中。此外,依赖于H(x,c2)≥0还是H(x,c2)<0,确定左侧面部是否包括在用作检测对象的图像x中。注意,将参照图22A到25C详细描述这里的面部确定。
H ( x , c 1 ) = Σ t = 1 T h ( x , c 1 ) ...表达式27
H ( x , c 2 ) = Σ t = 1 T h ( x , c 2 ) ...表达式28
因此,根据本发明第一实施例,可使用相同的亮度差值同时执行关于两个不同对象的确定处理。因此,可快速地执行面部检测处理。
学习设备的操作示例
接下来,将参照附图描述根据本发明第一实施例的学习设备800的操作。
图18是示出根据本发明第一实施例、通过学习设备800进行的对象检测字典创建处理的处理过程的流程图。在该示例中,将描述创建用于检测作为对象的正面面部的面部检测字典的示例。与该示例一起,还将描述其中重复对象检测字典创建处理直到实现期望的次数的示例。
首先,将多个学习对象正面面部图像和学习对象非面部图像输入到学习对象图像输入单元801(步骤S1001)。接下来,权重更新单元807将对每个学习对象图像加权的权重(Wi t)初始化(步骤S1002)。也就是说,在每个学习对象图像中,相同的值加权为权重(Wi t)。接下来,执行弱假设确定处理(步骤S1010)。将参照图19详细描述弱假设确定处理。
接下来,权重计算单元806基于对应于确定的最佳弱假设的权重分布信息计算权重(步骤S1003)。接下来,记录控制单元808将对应于确定的弱假设的两点(两点的像素位置)的组合、阈值和权重值记录在面部检测字典中(步骤S1004)。接下来,权重更新单元807基于确定的弱假设,计算要对每个学习对象图像加权的权重Wi t+1,并更新权重保持单元810中保持的权重(步骤S1005)。接下来,确定是否已经实现期望的次数(步骤S1006),并且在还没有实现该次数的情况下(步骤S1006),流程返回到步骤S1010。另一方面,在已经实现期望的次数的情况下(步骤S1006),结束对象检测字典创建处理的操作。
图19是示出根据本发明第一实施例、在通过学习设备800进行的对象检测字典创建处理的处理过程中的弱假设确定处理过程(图18所示的步骤S1010中的处理过程)的流程图。
首先,亮度差值计算单元802选择每个学习对象图像上的像素位置的两点的一个组合(对)(步骤S1011),并且选择用作对象的一个学习对象图像用于权重相加(S1012)。接下来,亮度差值计算单元802提取选择的学习对象图像上的两点之间的亮度(步骤S1013),并且计算提取的两点的亮度的差值(步骤S1014)。接下来,权重分布信息创建单元803将下述权重与计算的差值的级别相加,在所述权重中差值与计算的学习对象图像相关,并且所述权重保持在权重保持单元810中(步骤S1015)。在权重相加处理中,按照每种学习对象图像将权重相加,并且对每种学习对象图像创建权重分布信息。
接下来,对于学习对象图像输入单元801中输入的学习对象正面面部图像和学习对象非面部图像的全部,确定是否执行关于相同两点的权重相加处理(步骤S 1016)。在没有对学习对象正面面部图像和学习对象非面部图像的全部执行关于相同两点的权重相加处理的情况下(步骤S1016),流程返回到步骤S1012。另一方面,在执行关于相同两点的权重相加处理的情况下(步骤S1016),最佳阈值确定单元804使用上述表达式6来确定对创建的权重分布信息的最佳阈值(步骤S1017)。
接下来,确定是否对每个学习对象图像上的像素位置的两点的所有组合创建权重分布信息(步骤S1018)。在没有对像素位置的两点的所有组合创建权重分布信息的情况下(步骤S1018),流程返回到步骤S1011。另一方面,在对像素位置的两点的所有组合创建权重分布信息的情况下(步骤S1018),弱假设确定单元805基于确定的最佳阈值确定最佳弱假设(步骤S1019)。
接下来,将参照附图详细描述将可通过学习设备800创建的各种字典提供给成像设备100的示例。
评估值计算字典的配置示例
图20A和20B是示出根据本发明第一实施例、用于计算确定对象图像的多个评估值的评估值计算字典的示例的图。图20A示出包括图像601到609的对象图像组600,所述图像601到609表示要对其计算评估值的多个对象。现在,根据本发明第一实施例,将描述作为多个对象的面向各个方向的人的面部的示例。也就是说,图像601到609是表示面向各个方向的人的面部的图像。例如,图像605是包括面向前面的面部的图像,图像601到604和606到609是包括面向前面以外的方向的面部的图像。
图20B示出用于同时计算对应于图20A所示的图像601到609的各评估值的评估值计算字典301。评估值计算字典301是用于通过评估值计算单元235对于通过图像提取单元233提取的确定对象图像(例如,矢量形式弱假设)执行评估值计算处理的确定信息,并且存储在评估值计算字典存储单元300中。此外,例如通过学习设备800创建评估值计算字典301中存储的各值。此外,评估值计算字典301是仅保持关于确定标准的数据的确定信息,并且不保持图像自身。因此,可减小存储容量,并可快速执行确定处理。
将位置1(u1,v1)302、位置2(u2,v2)303、阈值(θ)304和权重(α1到α9)305的T组组合存储在评估值计算字典301中。
位置1(u1,v1)302和位置2(u2,v2)303是确定对象图像上的两点的位置。现在,例如,在确定对象图像上的左上角是原点的情况下,设确定对象图像的水平方向上的位置是u1和u2,并且垂直方向上的位置是v1和v2。
阈值(θ)304是关于位置1(u1,v1)302的亮度值和位置2(u2,v2)303的亮度值之间的差值的阈值。
权重(α1到α9)305是基于位置1(u1,v1)302的亮度值和位置2(u2,v2)303的亮度值之间的差值和阈值(θ)304的比较结果相加的权重α1到α9。权重α1到α9是用于计算对应于图20A所示的图像601到609的各评估值的值,并且在图20A和20B中,图20B中所示的图像601到609与对应的权重α1到α9被示出为用箭头连结在一起。此外,对于权重α1到α9的每个,存储两个不同值(H和L)。
现在,评估值计算字典301用于计算用于缩窄要经历通过图21A和21B所示的面部确定字典311到319的面部确定处理的对象的评估值,并且不独立地执行面部检测。因此,评估值计算字典301具有比用于面部确定字典311到319的评估值的计算精度更松的条件。例如,在创建评估值计算字典301的情况下,使用几千个到几万个样本图像,从而大致设T=100。注意,根据本发明第一实施例,示出了使用公共值作为对于每个记录的阈值的示例,但是可使用根据每个对象(类)修改的阈值。此外,例如,在创建同时计算关于多个对象的评估值的评估值计算字典的情况下,可假设用于各对象的样本图像的数量极大不同的情况。在此情况下,在评估值计算处理的情况下,可根据样本图像的数量执行规范化或调整操作等。注意,将参照图23A和23B等详细描述使用每个值执行的评估值的计算。
面部确定字典的配置示例
图21A和21B是示出根据本发明第一实施例、用于确定面部是否包括在确定对象图像中的面部确定字典的示例的图。图21A示出用于计算对应于图20A和21B中所示的图像601到609的评估值并执行面部确定的面部确定字典311到319。面部确定字典311到319是用于通过面部确定单元237对通过图像提取单元233提取的确定对象图像执行面部确定处理的确定信息(例如,标量型弱假设),并且存储在面部确定字典存储单元310中。此外,面部确定字典311到319中存储的各值例如通过学习设备800创建。注意,面部确定字典311到319是仅保持关于确定标准的数据的确定信息,并且不保持图像自身。因此,可减小存储容量,同时可快速执行确定处理。面部确定字典311到319具有对每个项目不同的值,但是每个项目的格式相同。因此,在图21A中,仅表示和示出面部确定字典311和319的存储内容,并且从图中省略其他的存储内容。注意,图21B中示出的图像601到609与图20A中示出的图像601到609相同,并且是示出要确定的多个对象的图像。此外,在图21A和21B中,图21B中示出的图像601到609和对应的面部确定字典311到319示出为用箭头连结在一起。
位置1(u1,v1)321、位置2(u2,v2)322、阈值(θ)323和权重(α)324的Z组组合存储在面部确定字典311中。位置1(u1,v1)321和位置2(u2,v2)322是确定对象图像上的两点的位置。阈值(θ)323是关于位置1(u1,v1)321的亮度值和位置2(u2,v2)322的亮度值之间的差值的阈值。权重(α)324是基于位置1(u1,v1)321的亮度值和位置2(u2,v2)322的亮度值之间的差值和阈值(θ)323的比较结果而相加的权重α。此外,将两个不同值(H和L)存储在权重(α)324中。
现在,面部确定字典311到319具有比使用评估值计算字典301的评估值的计算精度更严格的条件。例如,在创建面部确定字典311到319的情况下,使用几万个样本图像,从而大致设Z=2,000到3,000。现在,例如,在创建计算关于多个对象的评估值的面部确定字典的情况下,可假设用于各对象的样本图像的数量极大不同的情况。在此情况下,在评估值计算处理的情况下,可根据样本图像的数量执行规范化或调整操作等。此外,将参照图24A到24D等详细描述使用每个值执行的评估值的计算。
图像中包括的面部的检测示例
图22A到22D是示出根据本发明第一实施例、用于提取要经历面部检测单元230的面部检测处理的确定对象图像的图像提取方法的概述的图。图22A示出通过图像获得单元231获得的成像图像400,并且图22B到22D示出经历图像缩小单元232的缩小处理的、从成像图像400得到的图像410、420和430。注意,通过图像提取单元233执行确定对象图像的提取。
图22A所示的成像图像400是其中面向相互不同的方向的三个人是被摄体的成像图像。在从成像图像400提取确定对象图像的情况下,如图22B到22D所示,生成通过图像缩小单元232顺序缩小成像图像400的图像410、420和430。例如,提取框401位于图像410的左上角,并且提取提取框401中包括的图像。接下来,提取框在右侧方向(通过箭头411和412指示的方向)偏移一像素,并且提取提取框中包括的图像。类似地,提取框每次在右侧方向顺序偏移一像素,并且顺序提取提取框中包括的图像。在提取在偏移到图像410的右边缘位置的位置处的提取框中包括的图像时,提取框向下偏移一像素,并移动到图像410的左边缘。接下来,在紧接在后移动到图像410的左边缘的提取框中包括的图像之后,提取框每次在右侧方向顺序偏移一像素,并且顺序提取提取框中包括的图像。此后,类似地顺序提取提取框中包括的图像。在提取框偏移到处于图像410的右边缘和下边缘的位置413时,并且在提取位置413处的提取框中包括的图像时,结束从图像410进行的确定对象图像的提取处理。
此外,在图22C和22D所示的图像420和430中,示出了将提取框401定位在第一定位位置中的示例,同时示出了提取框401的最终定位位置为位置421和431。注意,提取框401从第一定位位置到最终定位位置的运动类似于图22B所示的运动。此外,提取框401的大小是恒定的,而不论要提取的图像是否相同。执行图像提取处理,直到经历图像缩小单元232的缩小处理的图像的大小变为小于提取框401。注意,经历缩小处理的原始图像例如是320像素×240像素的图像。此外,通过图像缩小单元232执行的缩小处理可以是例如将之前的图像缩小0.83倍的缩小处理。
接下来,将参照附图详细描述使用对确定对象图像的评估值计算字典执行评估值计算处理的示例。
图23A和23B是示出根据本发明第一实施例、通过图像提取单元233提取的确定对象图像和通过评估值计算单元235关于确定对象图像计算的评估值的示例的图。图23A示出作为确定对象图像的示例的确定对象图像440。此外,在图23A所示的示例中,给出了使确定对象图像440经历评估值计算处理的情况的示例的描述,其中确定对象图像440的左上角是原点,水平轴是u轴,并且垂直轴是v轴。
例如,设对应于存储在图20B所示的评估值计算字典301的第一行中的位置1(u1,v1)302的值的确定对象图像440的位置是位置441,并且对应于位置2(u2,v2)303的值的确定对象图像440的位置是位置442。此外,设对应于存储在评估值计算字典301的第二行中的位置1(u1,v1)302的值的确定对象图像440的位置是位置443,并且对应于位置2(u2,v2)303的值的确定对象图像440的位置是位置444。此外,设对应于存储在评估值计算字典301的第三行中的位置1(u1,v1)302的值的确定对象图像440的位置是位置445,并且对应于位置2(u2,v2)303的值的确定对象图像440的位置是位置446。
首先,示出评估值的分数S1到S9的值设为0,并且执行使用评估值计算字典301的第一行中存储的每个值的计算。具体地,提取存储在评估值计算字典301的第一行中的、在对应于位置1(u1,v1)302的值的位置441处的亮度值A(1)、以及对应于位置2(u2,v2)303的值的位置442处的亮度值B(1)。使用下面的表达式,计算每个提取的亮度值的差值C(1)。
C(1)=A(1)-B(1)
接下来,比较存储在评估值计算字典301的第一行中的阈值(θ)304的阈值θ(1)和每个计算的亮度值的差值C(1),并且确定计算的差值C(1)是否小于阈值θ(1)。在计算的差值C(1)小于阈值(θ)1的情况下,存储在评估值计算字典301的第一行中的权重(α1到α9)305中的L的各个值与对应的分数S1到S9顺序相加。具体地,权重α1(L)的值与分数S1相加,权重α2(L)的值与分数S2相加,并且权重α3(L)的值与分数S3相加。此外,权重α4(L)的值与分数S4相加,权重α5(L)的值与分数S5相加,并且权重α6(L)的值与分数S6相加。此外,权重α7(L)的值与分数S7相加,权重α8(L)的值与分数S8相加,并且权重α9(L)的值与分数S9相加。
另一方面,在计算的差值C(1)大于阈值θ(1)的情况下,存储在评估值计算字典301的第一行中的权重(α1到α9)305中的H的各个值与对应的分数S1到S9顺序相加。具体地,权重α1(H)的值与分数S1相加,权重α2(H)的值与分数S2相加,并且权重α3(H)的值与分数S3相加。此外,权重α4(H)的值与分数S4相加,权重α5(H)的值与分数S5相加,并且权重α6(H)的值与分数S6相加。此外,权重α7(H)的值与分数S7相加,权重α8(H)的值与分数S8相加,并且权重α9(H)的值与分数S9相加。
接下来,使用存储在评估值计算字典301的第二行中的各个值,重复上述计算。具体地,提取存储在评估值计算字典301的第二行中的、在对应于位置1(u1,v1)302的值的位置443处的亮度值A(2)、以及对应于位置2(u2,v2)303的值的位置444处的亮度值B(2)。使用下面的表达式,计算每个提取的亮度值的差值C(2)。
C(2)=A(2)-B(2)
接下来,比较存储在评估值计算字典301的第二行中的阈值(θ)304的阈值θ(2)和每个计算的亮度值的差值C(2),并且确定计算的差值C(2)是否小于阈值θ(2)。在计算的差值C(2)小于阈值θ(2)的情况下,存储在评估值计算字典301的第二行中的权重(α1到α9)305中的L的各个值与对应的分数S1到S9顺序相加。另一方面,在计算的差值C(2)大于阈值θ(2)的情况下,存储在评估值计算字典301的第二行中的权重(α1到α9)305中的H的各个值与对应的分数S1到S9顺序相加。接下来,顺序使用评估值计算字典301的第三行和此后直到第T行中存储的各个值,重复上述计算。
也就是说,在使用用于确定对象图像440的评估值计算字典301执行评估值计算处理的情况下,评估值计算单元235顺序使用评估值计算字典301的第一行到第T行中存储的各个值,并使用表达式29计算C(i)。确定计算的C(i)是否满足表达式30。变量i是整数,并指示1到T的值。
C(i)=A(i)-B(i)...表达式29
C(i)<θ(i)...表达式30
在计算的C(i)满足表达式30的情况下,评估值计算单元235将α1L(i)到α9L(i)的各个值与对应的分数S1到S9相加。另一方面,在计算的C(i)不满足表达式30的情况下,评估值计算单元235将α1H(i)到α9H(i)的各个值与对应的分数S1到S9顺序相加。A(i)表示对应于第i行中存储的位置1(u1,v1)302的亮度值,并且B(i)表示对应于第i行中存储的位置2(u2,v2)303的亮度值。此外,θ(i)表示第i行中存储的阈值(θ)304的值。此外,α1H(i)到α9H(i)表示权重(α1到α9)305中的H的各个值,并且α1L(i)到α9L(i)表示权重(α1到α9)305中的L的各个值。
在结束使用评估值计算字典301的第一行到第T行中存储的各个值的各种计算之后的分数(评估值)S1到S9可使用下面的表达式31表示。
Sj = Σ i = 1 T h ( x i , c j ) ...表达式31
在C(i)≥θ(i)成立的情况下,h(xi,ci)表示表达式25中计算的αjH(i),并且在C(i)<θ(i)成立的情况下,表示表达式26中计算的αjL(i)。此外,j=1到9。
图23B示出表示经历评估值的计算的面部的图像601到609、以及评估值计算单元235关于确定对象图像440计算的评估值S1到S9之间的关系。如图23B所示,在结束使用评估值计算字典301的第T行中存储的各种值的各种计算时,计算九个评估值S 1到S9。注意,在图23B中,评估值S1到S9的大小表示为条形曲线图的模型。
因此,将通过评估值计算单元235计算的评估值S1到S9输出到选择单元236。选择单元236提取评估值S1到S9中的等于或大于阈值447的评估值。例如,在图23B所示的评估值S1到S9中,提取对应于图像601、602、606和608的评估值S1、S2、S6和S8。接下来,选择单元236选择提取的评估值中三个具有最高值的评估值,并将关于对应于选择的评估值的对象的信息(选择对象信息)输出到面部确定单元237。例如,在提取的评估值S1、S2、S6和S8中,将评估值S1、S7和S8选择为三个具有最高值的评估值。在图23B中,示出选择的评估值S1、S7和S8的条形曲线图示出为阴影区域。接下来,对应于评估值S1、S7和S8的选择对象信息输出到面部确定单元237。
注意,在评估值S1到S9中存在等于或大于阈值447的评估值的情况下,选择单元236输出此含义的信息到面部确定单元237。此外,在仅存在1个或2个等于或大于阈值447的评估值的情况下,选择单元236将对应于1个或2个评估值的选择对象信息输出到面部确定单元237。例如,0可用作阈值447。此外,为了具有相对低的可靠度,可使用小于0的值,或可使用另一值。
接下来,将参照附图详细描述使用确定对象图像的面部确定字典执行面部确定处理的示例。
图24A到24D是示出根据本发明第一实施例、从图像提取单元233提取的确定对象图像、和通过面部确定单元237对确定对象图像计算的评估值的示例的图。图24A示出作为确定对象图像的示例的确定对象图像440。注意,确定对象图像440与图23A所示的确定对象图像440相同。此外,在该示例中,将描述作为与图23A所示的示例类似的对确定对象图像440设置两维网格并执行面部确定处理的情况的示例。
首先,面部确定单元237从面部确定字典存储单元310获得用于确定对应于通过选择单元236选择的评估值的对象的面部确定字典,并将其保持在面部确定字典存储器239中。例如,如图23B所示,在通过选择单元236选择评估值S1、S7和S8的情况下,获得对应于评估值S1、S7和S8的面部确定字典311、317和318,并将其保持在面部确定字典存储器239中。接下来,面部确定单元237使用面部确定字典存储器239中保持的各面部确定字典,顺序计算关于每个面部确定字典的评估值。注意,通过面部确定单元237使用面部确定字典进行的评估值的计算与通过评估值计算单元235使用评估值计算字典进行的评估值的计算类似,除了权重(α)的数量不同。
例如,对应于面部确定字典311的第i行中存储的位置1(u1,v1)321的亮度值A(i)表示为A(i),对应于位置2(u2,v2)321的亮度值B(i)表示为B(i),并且亮度值A(i)和亮度值B(i)之间的差值表示为C(i)。此外,面部确定字典311的第i行中存储的阈值(θ)的值表示为θ(i),第i行中存储的权重(α)324的H值表示为αH(i),并且第i行中存储的权重(α)324的L值表示为αL(i)。
例如,在使用确定对象图像440的面部确定字典311执行评估值计算处理的情况下,将0设为评估值中示出的分数S的值。面部确定单元237顺序使用面部确定字典311的第1行到第Z行中存储的各值,并使用表达式32计算C(i)。接下来,确定计算的C(i)是否满足表达式33。变量i是整数,并且示出从1到Z的值。
C(i)=A(i)-B(i)...表达式32
C(i)<θ(i)...表达式33
在计算的C(i)满足表达式33的情况下,面部确定单元237将αL(i)的值与分数S相加。另一方面,在计算的C(i)不满足表达式33的情况下,面部确定单元237将αH(i)的值与分数S相加。
在结束使用面部确定字典311的第1行到第Z行中存储的各值的各种计算之后的分数(评估值)S可通过下面的表达式34表示。
S = Σ i = 1 T h ( x i ) ...表达式34
在C(i)≥θi成立的情况下,h(xi)表示用表达式7计算的αH(i),并且在C(i)<θi成立的情况下,h(xi)表示用表达式8计算的αL(i)。注意,对于其他面部确定字典312到319,可类似地计算分数(评估值)S。注意,在图24A到25C中,使用面部确定字典311到319计算的各评估值示出为评估值SS1到SS9。
图24B示出表示经历评估计算的面部的图像601、607和608、以及通过面部确定单元237对确定对象图像440计算的评估值SS1、SS7和SS8之间的关系。如图24B所示,在使用面部确定字典311的第Z行中存储的各值的各计算结束时,计算一个评估值SS1。类似地,在使用面部确定字典317的第Z行中存储的各值的各计算结束时,计算一个评估值SS7。在使用面部确定字典318的第Z行中存储的各值的各计算结束时,计算一个评估值SS8。注意,在图24B中,评估值SS1、SS7和SS8的大小表示为具有条形曲线图的模型。
因此,面部确定单元237基于计算的评估值SS1、SS7和SS8,确定面部是否包括在确定对象图像440中。也就是说,面部确定单元237在计算的评估值中选择等于或大于阈值并具有最高值的评估值,并确定对应于所选择的评估值的面部包括在确定对象图像440中。例如,在图24B所示的评估值SS1、SS7和SS8中,等于或大于阈值448的评估值是评估值SS7和SS8。此外,在评估值SS7和SS8中,选择具有最高值的评估值SS7。对应于评估值SS7的图像607中包括的面部被确定为包括在确定对象图像440中。将确定结果输出到确定结果输出单元238。
注意,在计算的评估值中不存在等于或大于阈值的评估值的情况下,面部确定单元237确定对象面部不包括在确定对象图像440中,并且将此含义的信息输出到确定结果输出单元238。例如,0可用作阈值448。此外,为了具有相对低的可靠度,可使用小于0的值或可使用另一值。
因此,使得确定对象图像的分辨率为相同分辨率并且用于评估计算的特征量一致地为两点之间的亮度值,这使得能够在多个面部确定字典之间切换,并且可用相同的算法创建多个评估值。
图25A到25C是示意性示出根据本发明第一实施例、在用面部检测单元230执行面部检测的情况下的流程的图。图25A示出通过图像提取单元233提取的确定对象图像440。确定对象图像440与图23A到24D中示出的确定对象图像440相同。
图25B示出表示经历确定的面部的图像601到609、和通过评估值计算单元235计算的评估值S1到S9之间的关系。注意,图25B所示的关系与图23B所示的关系类似。此外,在图25B中,对应于通过选择单元236选择的评估值的区域用粗框围绕。
图25C示出表示经历确定的面部的图像601到609、和通过面部确定单元237计算的评估值SS1、SS7和SS8之间的关系。注意,在图25C中,对其通过面部确定单元237计算评估值的区域用粗框围绕。
图25B所示的评估值S1到S9是缩窄用于计算图25C所示的评估值SS1到SS9的对象的评估值。因此,可减小评估值计算的计算量,并且可快速执行评估值计算处理。注意,评估值S1到S9的可靠度相对低,从而例如如图25B所示,认为对应于看起来不像确定对象图像440中包括的面部的图像601的评估值S1的值大。即使在此情况下,使用面部确定字典311到319的评估值的可靠度也高,从而例如如图25C所示,最终可确定与确定对象图像440中包括的面部具有高类似度的图像607。因此,通过缩窄要基于具有相对低可靠度的第一级别的评估值确定的对象,可减小具有高可靠度的第二级别的评估值的计算处理的对象,从而可快速执行面部检测处理。此外,例如如在第一级中错误地计算大约1或2的评估值的情况下,可基于具有高可靠度的第二级的评估值执行正确确定,从而可实现具有高精度的对象检测。
现在,例如,使用树形结构来考虑这样的检测方法,其通过使用对每种面部方向创建的多个区分器,同时根据通过树示出的分支顺序区分面部的朝向,检测面向各方向的面部。在该检测方法中,在顺序区分面部方向的同时检测面部,从而例如,直到得到结论为止的平均弱假设可能变长,并且效率变差。此外,如果在直到到达叶节点为止的确定中存在错误并且采用了错误的节点分支,则步骤不折回,并且不执行适当的面部检测。
相反,在本发明的第一实施例中,不存在节点分支逻辑,从而可以缩短直到得到结论为止的平均弱假设,并可以改进效率。此外,在第一级计算的评估值中,无论面部面向的方向的种类如何,都可从所有对象选择用于面部确定的候选,从而例如,即使当不确定该面部对应于哪个对象时,也不太可能出现错误检测。此外,不采用树形结构,并且在第一级的面部检测处理中同时执行评估,便利了其执行,并且可以避免错误分支的影响。此外,在第一级的面部检测处理处,可使用相同特征量同时计算关于多个对象的评估值,从而可以改进关于评估值计算处理的效率。此外,在创建可同时计算关于在第一级使用的多个对象的评估值的字典的情况下,可同时创建关于每个对象的字典,从而改进收敛(convergent)学习。
此外,在评估值计算的情况下,根据小于每个字典的阈值和大于所述阈值的情况,修改与分数相乘的权重并执行计算。因此,即使在关于确定对象图像中的物理量的复杂分布的情况下,也可以从其分布执行区分。
图26是示出根据本发明第一实施例、已经经历通过面部检测单元230的面部检测处理的成像图像400和通过面部检测单元230进行的面部检测处理的检测结果的图。成像图像400与图22A中所示的成像图像400相同,并包括三个人。此外,在成像图像400中,在已经检测到三个人的面部的情况下的检测结果用框461到463示意性示出。作为通过面部检测单元230进行的面部检测处理的检测结果,框461到463是示出位置和大小的框。基于这里的检测结果,例如相机参数控制单元220可确定对检测最佳的相机参数。此外,在成像图像400显示在显示单元170上的情况下,可以显示框461到463以便与成像图像400重叠。如图26所示,例如,还可适当地检测倾斜的面部或躺倒的人的面部。
成像图像的操作示例
接下来,将参照附图描述根据本发明第一实施例的成像图像100的操作。图27是示出根据本发明第一实施例、通过成像设备100进行的成像图像记录处理的处理过程的流程图。在该示例中,将描述在成像设备100处于成像图像记录等待状态下的情况下生成成像图像并执行面部检测处理的示例。
首先,确定成像设备100是否处于成像图像记录等待状态(步骤S901)。在成像设备100处于成像图像记录等待状态的情况下(步骤S901),成像单元112生成成像图像(步骤S902),并且面部检测单元230对于生成的成像图像执行面部检测处理(步骤S920)。将参照图28详细描述面部检测处理。面部检测处理可关于每个帧(frame)执行,或可关于以每个定义的间隔的帧执行。另一方面,在成像设备100不处于成像图像记录等待状态的情况下(步骤S901),结束成像图像记录处理的操作。
接下来,相机参数控制单元220确定相机参数(步骤S903)。例如,在从面部检测单元230输出面部检测信息的情况下,相机参数控制单元220基于检测的面部的成像图像上的位置和大小,确定对检测的面部最佳的相机参数。接下来,确定是否已经按压快门按钮(步骤S904),并且在已经按压快门按钮的情况下,将生成的成像图像记录在记录单元150中(步骤S905)。另一方面,在还没有按压快门按钮的情况下(步骤S904),结束成像图像记录处理的操作。
图28是示出根据本发明第一实施例、在通过成像设备100进行的成像图像记录处理的处理过程中的面部检测处理过程(图27所示的步骤S920中的处理过程)的流程图。
首先,获得存储设备单元130中存储的当前成像图像(步骤S921)。接下来,将提取框放置在获得的成像图像的左上角(步骤S922),并提取提取框内的图像(步骤S923)。接下来,对从提取框内提取的图像(确定对象图像)执行确定处理(步骤S940)。注意将参照图29详细描述确定处理。
接下来,确定确定对象图像是否小于提取框(步骤S924)。在确定对象图像不小于提取框的情况下(步骤S924),确定提取框是否存在于确定对象图像的右边缘(步骤S925)。在提取框不存在于确定对象图像的右边缘的情况下(步骤S925),将提取框在确定对象图像上向右侧偏移一像素并定位(步骤S926),并且流程返回到步骤S923。另一方面,在提取框存在于确定对象图像的右边缘的情况下(步骤S925),确定提取框是否存在于确定对象图像的下边缘(步骤S927)。在提取框不存在于确定对象图像的下边缘的情况下(步骤S927),将提取框在确定对象图像上向下偏移一像素并定位(步骤S928),并且流程返回到步骤S923。在提取框存在于确定对象图像的下边缘的情况下(步骤S927),确定对象图像经历缩小处理(步骤S929),并且提取框在缩小处理后定位在图像的左上角(步骤S922)。
另一方面,在确定对象图像小于提取框的情况下(步骤S924),确定面部是否包括在确定对象图像中(步骤S930)。在确定面部包括在确定对象图像中的情况下(步骤S930),将示出已经检测到面部的面部检测信息输出为确定结果(步骤S932)。现在,在确定多个面部包括在确定对象图像中的情况下,输出关于多个面部的面部检测信息。此外,在对于重叠区域多次确定包括面部的情况下,例如,基于具有使用在步骤S940的确定处理中的面部确定字典计算的最大分数(评估值)的提取框的位置和大小输出面部检测信息。另一方面,在未确定面部包括在确定对象图像中的情况下(步骤S930),将示出没有检测到面部的面部未确定信息输出为确定结果(步骤S931)。
注意,在该示例中,描述了这样的示例,其中即使在曾经确定面部包括在确定对象图像中的情况下,也重复执行确定处理,直到确定对象图像变为小于提取框,并且基于该确定结果,确定是否从当前成像图像检测到面部。然而,可进行这样的安排,其中在曾经确定面部包括在确定对象图像中的情况下,其他确定对象图像不经历确定处理,并且可以输出示出已经从当前成像图像检测到面部的面部检测信息。
图29是示出根据本发明第一实施例、通过成像设备100进行的面部检测处理的处理过程中的确定处理过程(图28所示的步骤S940中的处理过程)的流程图。
首先,评估值计算单元235执行第一评估值计算处理(步骤S950)。将参照图30详细描述第一评估值计算处理。接下来,选择单元236确定在通过评估值计算单元236计算的多个评估值中是否存在等于或高于阈值的任何评估值(步骤S941)。在存在等于或高于阈值的评估值的情况下(步骤S941),选择单元236从等于或高于阈值的评估值中选择预定数量的具有高的值的评估值(步骤S942)。例如,在通过评估值计算单元235计算的评估值是9的情况下,按最高值的顺序选择最多三个评估值。
接下来,面部确定单元237从面部确定字典存储单元310获得关于对应于选择的评估值的对象的面部确定字典,并且将其保持在面部确定字典存储器239中(步骤S943)。接下来,面部确定单元237使用面部确定字典存储器239中保持的面部确定字典来执行第二评估值计算处理(步骤S970)。将参照图31详细描述第二评估值计算处理。
接下来,面部确定单元237确定计算的一个或多个评估值中是否存在等于或大于阈值的任何评估值(步骤S944)。在计算的一个或多个评估值中存在等于或大于阈值的评估值的情况下(步骤S944),面部确定单元237从等于或大于阈值的评估值中选择具有最高值的评估值。对应于评估值的对象被确定为包括在确定对象图像中(步骤S945)。
注意,在不存在等于或大于通过评估值计算单元235计算的评估值的评估值的情况下(步骤S941),或在通过面部确定单元237计算的评估值中不存在等于或大于阈值的评估值的情况下(步骤S944),结束确定处理的操作。
图30是示出根据本发明第一实施例、通过成像设备100进行的面部检测处理的处理过程中的第一评估值计算处理过程(图29中所示的步骤S950中的处理过程)的流程图。
首先,分数S1到S9初始化为“0”(步骤S951),并且变量i初始化为“1”(步骤S952)。接下来,评估值计算单元235提取对应于评估值计算字典301的第i行中存储的位置1(u1,v1)和位置2(u2,v2)的亮度值(步骤S953)。在该示例中,设对应于位置1(u1,v1)的亮度值是A(i),并且对应于位置2(u2,v2)的亮度值是B(i)。接下来,评估值计算单元235计算两个提取的亮度值的差值(A(i)-B(i))(步骤S954)。注意,步骤S953和S954是发明内容中所指的比较过程的示例。
接下来,评估值计算单元235确定计算的差值(A(i)-B(i))是否小于评估值计算字典301的第i行中存储的阈值θ(i)(步骤S955)。在计算的差值(A(i)-B(i))小于阈值θ(i)的情况下(步骤S955),评估值计算单元235将存储在评估值计算字典的第i行中的α1L(i)到α9L(i)与分数S1到S9顺序相加(步骤S956)。另一方面,在计算的差值(A(i)-B(i))不小于阈值θ(i)的情况下(步骤S955),评估值计算单元235将存储在第i行中的α1H(i)到α9H(i)与分数S1到S9顺序相加(步骤S957)。注意,步骤S955到S957是发明内容中所指的计算过程的示例。
接下来,将“1”加到变量i(步骤S958),并且确定变量i是否大于T(步骤S959)。在变量i不大于T的情况下(步骤S959),流程返回到步骤S953,并且重复评估值计算处理(步骤S953到S958)。另一方面,在变量i大于T的情况下(步骤S959),结束第一评估值计算处理的操作。
图31是示出根据本发明第一实施例、通过成像设备100进行的面部检测处理的处理过程中的第二评估值计算处理过程(图29中所示的步骤S970中的处理过程)的流程图。
首先,分数S初始化为“0”(步骤S971),并且变量i初始化为“1”(步骤S972)。接下来,面部确定单元237从确定对象图像提取对应于面部确定字典的第i行中存储的位置1(u1,v1)和位置2(u2,v2)的亮度值(步骤S973)。在此示例中,设对应于位置1(u1,v1)的亮度值是A(i),并且对应于位置2(u2,v2)的亮度值是B(i)。接下来,面部确定单元237计算两个提取的亮度值的差值(A(i)-B(i))(步骤S974)。注意,步骤S973和S974是发明内容中所指的比较过程的示例。
接下来,面部确定单元237确定计算的差值(A(i)-B(i))是否小于面部确定字典的第i行中存储的阈值θ(i)(步骤S975)。在计算的差值(A(i)-B(i))小于阈值θ(i)的情况下(步骤S975),面部确定单元237将存储在面部确定字典的第i行中的αL(i)加到分数S(步骤S976)。另一方面,在计算的差值(A(i)-B(i))不小于阈值θ(i)的情况下(步骤S975),面部确定单元237将存储在当前的面部确定字典的第i行中的αH(i)加到分数S(步骤S977)。注意,步骤S975到S977是发明内容中所指的计算过程的示例。
接下来,将“1”加到变量i(步骤S978),并且确定变量i是否大于Z(步骤S979)。在变量i不大于Z的情况下(步骤S979),流程返回到步骤S973,并且重复使用当前面部确定字典的评估值计算处理(步骤S973到S978)。另一方面,在变量i大于Z的情况下(步骤S979),面部确定单元237将其与面部确定字典中对应的对象相关,并保持计算的评估值S(步骤S980)。
接下来,面部确定单元237确定在面部确定字典存储器239中保持的面部确定字典中是否存在还没有计算评估值的另一面部确定字典(步骤S981)。在存在还没有计算评估值的另一面部确定字典的情况下(步骤S981),流程返回到步骤S971,并且重复评估值计算处理,直到结束了对面部确定字典存储器239中保持的所有面部确定字典的评估值计算。另一方面,在不存在还没有计算评估值的另一面部确定字典的情况下(步骤S981),第二评估值计算处理的操作结束。
此外,在该示例的情况下,描述了使用从每个面部确定字典的第1行到第Z行的各个值来计算分数S的示例。然而,例如,所述值对应于每个面部确定字典的每个记录,并且存储截止(cut-off)阈值,并且在步骤S976或S977中找到的分数S降至当前记录的截止阈值之下的情况下,使用当前面部确定字典的评估值计算处理可以被截止。因此,可进一步加速面部检测处理。
如上所述,根据本发明第一实施例,因为用两级评估值计算处理执行面部检测,所以可以以较少弱假设快速执行检测处理,并且可改进检测精度。此外,在面部检测处理的情况下,依赖于小于每个字典中的阈值的情况和大于所述阈值的情况修改和计算与分数相乘的权重,从而可进一步改进检测精度。
第二实施例
成像图像的配置示例
在本发明第一实施例的情况下,示出了使用一个评估值计算字典同时计算关于多个对象的评估值的示例。在本发明第二实施例的情况下,示出这样的示例,其通过变换要计算一个评估值计算字典中存储的其亮度差值的两点的位置,计算关于可使用评估值计算字典计算的对象的对象数的四倍的对象的评估值。注意,根据本发明第二实施例的成像设备与根据本发明第一实施例的成像设备100的不同在于,提供了面部检测单元250来替代面部检测单元230。因此,此后,将省略与本发明第一实施例共同的部分的描述,并且将主要描述不同部分。
图32是示出根据本发明第二实施例的面部检测单元250的功能配置示例的框图。面部检测单元250是图3所示的面部检测单元230的修改示例,并且具有位置计算单元251、评估值计算单元252和面部确定字典存储单元253。注意,与图3所示的面部检测单元230共同的部分将附上相同的参考标号,并且将省略其描述。
位置计算单元251变换评估值计算字典存储单元300中存储的评估值计算字典301中存储的位置1(u1,v1)302和位置2(u2,v2)303的值,并计算两个新的点的位置。位置计算单元251然后将变换后的两点的位置、与变换前的两点的位置相关并存储在评估值计算字典301中的阈值(θ)、以及权重(α1到α9)305的每个值输出到评估值计算单元252。例如,位置计算单元251使用确定对象图像的中心位置作为标准,使位置1(u1,v1)302和位置2(u2,v2)303的值经历仿射变换,并计算两个新的点的位置。利用仿射变换,例如,执行在顺时针方向旋转90度的变换、在与顺时针方向相反的方向旋转90度的变换、以及旋转180度的变换。注意,将参照图33A到34D详细描述该位置计算方法。
评估值计算单元252使用评估值计算字典存储单元300中存储的评估值计算字典301中的各个值、以及通过位置计算单元251计算的两点的位置和与此对应的各个值来计算对于每个对象的评估值。现在,将假设其中在顺时针方向的90度旋转、在与顺时针方向相反的方向的90度旋转、以及180度旋转的每个的情况。在此情况下,通过评估值计算单元252计算的评估值变为仅使用评估值计算字典301计算的评估值的数量的四倍。将由此计算的每个对象的评估值输出到选择单元236。注意,对每个对象的评估值的计算方法类似于本发明的第一实施例,从而这里将省略描述。
面部确定字典存储单元253对每个对象使面部确定字典相关,所述面部确定字典用于确定标识的对象是否包括在从图像提取单元233输出的图像中。将存储的面部确定字典提供到面部确定字典存储器239。现在,对多个对象的每个存储面部确定字典,所述多个对象对应于通过评估值计算单元252对其计算评估值的对象。注意,将参照图33A到33D详细描述对其在面部确定字典存储单元253存储面部确定字典的对象。
图33A到33D是示出根据本发明第二实施例、可通过位置计算单元251计算两个新的点的位置来对其进行评估值计算的对象的示例的图。图33A示出对象图像组500,其包括示出可使用图20B所示的评估值计算字典301对其计算评估值的对象的面部图像。对象图像组500对应于图20A所示的对象图像组600。此外,图33B到33D示出包括下述面部图像的对象图像组501到503,所述面部图像示出可通过变换图20B所示的评估值计算字典301的位置1(u1,v1)302和位置2(u2,v2)303的值来对其计算评估值的对象。
如本发明第一实施例所示,图20B中示出关于使用评估值计算字典301的面向不同方向的九种面部的评估值。现在,例如,评估值计算字典301的位置1(u1,v1)302和位置2(u2,v2)303中存储的两点的位置在与顺时针方向相反的方向上旋转90度,其中以确定对象图像的中心位置作为旋转标准。旋转后的两点的位置和与两点的位置相关并存储在评估值计算字典301中的阈值(θ)、以及权重(α1到α9)305的各个值用于执行上述评估值计算处理。因此,例如,可同时计算关于与图33B中所示的对象图像组501中包括的面部图像相对应的对象的评估值。
类似地,例如,评估值计算字典301的位置1(u1,v1)302和位置2(u2,v2)303中存储的两点的位置在顺时针方向旋转90度,其中以确定对象图像的中心位置作为旋转标准。通过使用旋转后的两点的位置执行上述评估值计算处理,例如,可计算关于与图33C中所示的对象图像组502中包括的面部图像相对应的对象的评估值。
类似地,例如,评估值计算字典301的位置1(u1,v1)302和位置2(u2,v2)303中存储的两点的位置旋转180度,其中以确定对象图像的中心位置作为旋转标准。通过使用旋转后的两点的位置执行上述评估值计算处理,例如,可计算关于与图33D中所示的对象图像组502中包括的面部图像相对应的对象的评估值。
通过位置计算单元251执行这些位置的变换。此外,作为对此的位置变换方法,例如,二维网格上的3×3矩阵(仿射矩阵)可用于使用变换两点的位置的仿射变换。此外,关于与图33A到33D中所示的对象图像组500到503中包括的每个面部图像相对应的对象的面部确定字典的每个存储在面部确定字典存储单元253中。也就是说,将根据本发明第一实施例的面部确定字典存储单元310中存储的面部确定字典的数量的四倍的面部确定字典存储在面部确定字典存储单元253中。
图34A到34D是示出通过根据本发明第二实施例的位置计算单元251计算的两个新的点的位置和使用这两个新的点的位置计算的评估值之间的关系示例的图。注意,图34A到34D中示出的评估值S1到S9对应于图23B中示出的评估值S1到S9。
图34A示出使用变换前的两点的位置计算的评估值的示例。注意,图34A示出要对其计算评估值的确定对象图像470、以及确定对象图像470上的两点的位置的组合中的一个组合(位置471和472)。
图34B示出通过位置计算单元251在与顺时针方向相反的方向上旋转90度的两点的位置和使用这两点的位置计算的评估值的示例。例如,位置471和472通过位置计算单元251在与顺时针方向相反的方向上旋转90度,并且变换为两点的位置473和474。用评估值计算单元252计算使用由此变换的两点的各位置的图34B所示的评估值。
图34C示出通过位置计算单元251在顺时针方向上旋转90度的两点的位置和使用这两点的位置计算的评估值的示例。例如,图34A所示的两点的位置471和472通过位置计算单元251在顺时针方向上旋转90度,并且变换为两点的位置475和476。用评估值计算单元252计算使用由此变换的两点的各位置的图34C所示的评估值。
图34D示出通过位置计算单元251旋转180度的两点的位置和使用这两点的位置计算的评估值的示例。例如,图34A所示的两点的位置471和472通过位置计算单元251旋转180度,并且变换为两点的位置477和478。用评估值计算单元252计算使用由此变换的两点的各位置的图34D所示的评估值。
因此,可变换评估值计算字典301的位置1(u1,v1)302和位置2(u2,v2)303中存储的两点的位置,并且变换后的两点的位置用于计算评估值。因此,可使用一个评估值计算字典快速地计算更多评估值。例如,如图34所示,可同时计算九个评估值的评估值计算字典301用于执行三种方式的变换,从而可计算36个评估值。因此,可减小关于评估值计算字典的存储容量。
此外,将由此计算的图34A到34D中所示的评估值S1到S9输出到选择单元236。选择单元236类似于本发明第一实施例提取等于或大于评估值S1到S6的阈值447的四个评估值。在提取的评估值中,选择三个具有最高值的评估值,并且将关于与选择的评估值对应的对象的信息(选择对象信息)输出到面部确定单元237。例如,等于或大于阈值447并且对应于图34B所示的图像611和614以及图34D所示的对象631的评估值被选择为具有三个最高值的评估值。在图34A到34D中,示出选择的评估值的条形曲线图以阴影示出。
图35A到35E是示意性示出用根据本发明第二实施例的面部检测单元250执行面部检测的情况下的流程的图。图35A示出通过图像提取单元233提取的确定对象图像480。图35B示出包括示出要对其计算评估值的面部的图像的对象图像组500到503。注意,与图34A到34D类似,通过评估值计算单元252计算对象图像组500到503中包括的、对应于图像601到609、611到619、621到629、631到639的各个评估值。例如,类似于图34A到34D计算评估值,并且选择对应于图35B中所示的图像611、614和631的评估值。
图35C示出图像611、614和631和通过面部确定单元237对确定对象图像480计算的评估值SS10到SS12之间的关系,所述图像611、614和631示出对应于通过选择单元236选择的评估值的面部。注意,通过面部确定单元237进行的面部确定与本发明第一实施例类似,所以这里将省略其详细描述。例如,对应于图35B所示的图像611、614和631的评估值SS10、SS11和SS12中的具有最高值、并等于或大于阈值448的评估值是评估值SS10。因此,对应于评估值SS10的图像611中包括的面部被确定为包括在确定对象图像480中。
图36是示出可通过根据本发明第二实施例的面部检测单元250检测的面部和其检测结果的示例的图。图36用框示出包括正面面部在360度的范围内以预定间隔旋转的图像、以及用这些图像检测的检测结果。如图36所示,根据本发明第二实施例,即使对于各个角度的面部也可进行检测。可检测各个角度的面部,例如,如躺在地上的人的面部、倒立的人的面部、以及在使成像设备100倾斜时拍摄的面部。此外,在图36中,仅示出其中正面面部的方向在旋转方向上倾斜的示例,但是类似地,可对在摇动或偏转方向上倾斜的面部进行检测。
因此,通过仅变换相同字典上的两点的位置,可使用相同字典快速计算关于作为字典的对象的数量的若干倍的评估值。因此,可非常有效地计算评估值,并且可改进对象的检测精度。
注意,在认为不太可能在上下翻转的状态下用成像设备100拍摄的情况下,可省略通过位置计算单元251进行的180度旋转。此外,仅将对应于可使用评估值计算字典301对其计算评估值的对象的面部确定字典存储在面部确定字典存储单元253中。与上述评估值计算处理类似,面部确定单元237可使用面部确定字典中的值或其中变换两点的位置的值来计算各种评估值。
成像设备的操作示例
图37是示出通过根据本发明第二实施例的成像设备100进行的面部检测处理的处理过程的流程图。注意,该示例是根据本发明第一实施例的面部检测处理(图29中的步骤S940中的处理过程)的修改示例。因此,与图29中所示的处理过程相同的部分将对其附上相同参考标号,并且将省略其描述。
首先,评估值计算单元252执行第一评估值计算处理(步骤S950)。接下来,确定是否存在对其还没有计算评估值的角度(步骤S991)。例如,在对顺时针方向的90度、与顺时针方向相反的方向上的90度和180度的每个角度计算评估值的情况下,确定是否对这些角度的每个计算评估值。在存在对其还没有对其计算评估值的角度的情况下(步骤S991),位置计算单元251变换评估值计算字典301的位置1(u1,v1)302和位置2(u2,v2)303中存储的两点的位置(步骤S992)。接下来,将变换后的两点的位置、以及与变换前的两点的位置相关并存储在评估值计算字典301中的阈值(θ)的各个值、以及权重(α1到α9)305输出到评估值计算单元252,并且执行第一评估值计算处理(步骤S950)。
注意,根据本发明实施例,示出了使用确定对象图像上的两点的亮度值之间的差值来检测对象的示例,但是本发明实施例可应用到通过使用确定对象图像上的两个区域的另一物理量的差值来检测对象的检测方法。例如,确定对象图像内的两个区域的矩形特征可用于计算评估值并应用用于检测对象的对象检测方法的本发明实施例。此外,确定对象图像内的两个区域中的亮度的直方图(频率分布)的预定级的差值用于计算评估值,并且本发明实施例可应用到用于检测对象的对象检测方法。例如,可使用作为一种亮度直方图的HOG:面向梯度的直方图(Histograms ofOriented Gradients)。面向梯度的历史将图像划分为多个区域,对每个区域计算亮度的梯度方向和梯度强度,并基于这些亮度的梯度强度和梯度方向而创建面向梯度的历史。
此外,利用本实施例,已经描述了面向各种方向的面部的示例作为用作对象检测处理的对象的多个对象,但是面部以外的物理对象可应用到本发明实施例。例如,如比如哺乳动物、昆虫、鱼等的动物(例如,宠物)、汽车、飞机等的一个或多个对象的情况可应用到本发明实施例。在此情况下,修改关于相同物理对象的种类(例如,面向各方向的狗),并且多个对象(例如,狗和猫)的混合物可以是多个对象。
此外,本发明实施例可应用到具有成像功能的各种蜂窝电话或数字摄像机(例如,集成相机记录器)的成像设备,以成像静态画面和动态画面。此外,例如,可与监视相机连接,并且本发明实施例可应用到如用于检测人的面部的面部检测设备的对象检测设备。
注意,本发明实施例图示了实现本发明的示例,并且与所要求保护的每个元件具有关联。然而,本发明不限于所述实施例,并且可在本发明的范围和精神内进行各种修改。
此外,用本发明实施例描述的处理过程可构思为具有用于这里的一系列过程的过程的方法,并且该系列过程可构思为用于记录程序并使得计算机执行该系列过程的记录介质。例如,可使用CD(致密盘)、MD(迷你盘)、DVD(数字多功能盘)、存储卡、蓝光盘(注册商标)等作为记录介质。
本申请包含涉及于2009年1月9日向日本专利局提交的日本优先权专利申请JP 2009-003870中公开的主题的主题,在此通过引用并入其全部内容。
本领域技术人员应当理解,依赖于设计需求和其他因素可以出现各种修改、组合、子组合和更改,只要它们在权利要求或其等效物的范围内。

Claims (11)

1.一种对象检测设备,包括:
比较单元,用于提取确定对象图像上的两个区域的特征量,并将基于提取的两个特征量的特征与阈值进行比较;以及
计算单元,用于根据所述比较结果选择具有不同绝对值的两个值之一,并且通过用选择的值执行计算,来计算用于确定对象是否包括在所述确定对象图像中的评估值。
2.如权利要求1所述的对象检测设备,还包括:
确定信息存储单元,用于存储包括所述确定对象图像上的两个位置、所述阈值和所述两个值的多个组合的确定信息,其中所述比较单元对每个所述组合,比较由所述两个位置标识的所述确定对象图像上的对两个区域的两个提取的特征量与所述阈值;
并且其中对于每个所述组合,所述计算单元根据所述比较结果选择所述两个值之一,并且通过顺序执行所选择的值的计算来计算所述评估值。
3.如权利要求1所述的对象检测设备,其中对于每个所述对象,所述计算单元计算所述评估值,以便对于每个所述对象根据所述比较结果选择与多个对象的每个相关的所述两个值之一,并且对每个所述对象执行对每个对象选择的值的计算,从而确定所述多个对象之一是否包括在所述确定对象图像中。
4.如权利要求3所述的对象检测设备,还包括:
确定信息存储单元,用于存储包括所述确定对象图像上的两个位置、所述阈值和与所述多个对象的每个相关的所述两个值的多个组合的确定信息;
其中对于每个所述组合,所述比较单元比较通过所述两个位置标识的所述确定对象图像上的对两个区域的两个提取的特征量与所述阈值;
并且其中所述计算单元计算每个所述对象的所述多个组合的、对每个所述对象选择的值,从而计算每个所述对象的所述评估值。
5.如权利要求1所述的对象检测设备,其中所述特征量是所述确定对象图像上的两点的位置处的亮度值,并且其中所述比较单元计算所述两个提取的亮度值之间的差值,并且比较所述差值和所述阈值。
6.一种学习设备,包括:
加权单元,用于对包括对象和非对象之一的多个学习对象图像加权;
差值计算单元,用于对每个所述学习对象图像,提取所述学习对象图像上的两个区域的特征量,并且对所述学习对象图像上的两个区域的每个组合计算所述两个提取的特征量的差值;
分布信息创建单元,用于对包括所述对象的每个学习对象图像和包括所述非对象的每个学习对象图像的每个所述组合创建分布信息,所述分布信息示出对所述学习对象图像加权的权重相对于所述计算的差值的分布状态;
确定单元,用于基于作为对包括所述对象的学习对象图像创建的分布信息的对象分布信息、和作为对包括所述非对象的学习对象图像创建的分布信息的非对象分布信息,确定在计算用于确定是否包括所述对象的评估值的情况下使用的所述每个组合中的一个组合、以及与关于所述组合的所述差值相对应的阈值;以及
加权计算单元,用于基于与高于和低于所确定的阈值的两个范围中的较低范围中包括的所确定的组合有关的所述对象分布信息和所述非对象分布信息、和与在所述两个范围中的较高范围中包括的所确定的组合有关的所述对象分布信息和所述非对象分布信息,计算在计算所述评估值的情况下使用的值,作为其中根据所述两个范围而绝对值不同的两个值。
7.如权利要求6所述的学习设备,其中所述确定单元基于高于和低于标准值的两个范围中的较低范围中包括的所述对象分布信息和所述非对象分布信息、和高于和低于所述标准值的两个范围中的较高范围中包括的所述对象分布信息和所述非对象分布信息,确定所述组合和所述阈值,其中对应于所述差值的级别的一个值是标准值。
8.如权利要求6所述的学习设备,其中所述加权单元依赖于所述学习对象图像与所述两个范围中的较低范围相联系还是与较高范围相联系,对每个所述学习对象图像选择所计算的两个值之一,并且使用对每个学习对象图像选择的值来计算和更新每个所述学习对象图像的权重。
9.如权利要求6所述的学习设备,其中
所述对象由相互不同的第一对象和第二对象组成;
并且其中所述分布信息创建单元对包括所述第一对象的学习对象图像和包括所述第二对象的学习对象图像以及包括所述非对象的学习对象图像的每个组合,创建所述分布信息;
并且其中所述确定单元基于作为对包括所述第一对象的学习对象图像创建的分布信息的第一对象分布信息、作为对包括所述第二对象的学习对象图像创建的分布信息的第二对象分布信息、以及所述非对象分布信息,确定在计算用于确定是否包括所述第一对象和所述第二对象之一的评估值的情况下使用的所述每个组合中的所述组合之一、和关于所述组合的所述阈值;
并且其中所述加权计算单元基于与高于和低于所确定的阈值的两个范围中的较低范围中包括的所确定的组合有关的所述第一对象分布信息和所述第二对象分布信息以及所述非对象分布信息的各种信息、以及与所述两个范围中的较高范围中包括的所确定的组合有关的所述第一对象分布信息和所述第二对象分布信息以及所述非对象分布信息的各种信息,计算所述第一对象和所述第二对象的每个的值,用作其中绝对值依赖于所述两个范围而不同的两个值。
10.一种对象检测方法,包括以下步骤:
提取确定对象图像上的两个区域的特征量,并比较两个提取的特征量和阈值;以及
选择具有不同绝对值的两个值之一,并且对根据所述比较结果而选择的选择值执行计算,从而计算用于确定对象是否包括在所述确定对象图像中的评估值。
11.一种使得计算机执行以下步骤的程序:
提取确定对象图像上的两个区域的特征量,并比较两个提取的特征量和阈值;以及
选择具有不同绝对值的两个值之一,并且对根据所述比较结果而选择的选择值执行计算,从而计算用于确定对象是否包括在所述确定对象图像中的评估值。
CN201010003219.9A 2009-01-09 2010-01-11 对象检测设备、学习设备、对象检测方法和程序 Expired - Fee Related CN101794392B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP003870/09 2009-01-09
JP2009003870A JP4710979B2 (ja) 2009-01-09 2009-01-09 対象物検出装置、学習装置、対象物検出方法およびプログラム

Publications (2)

Publication Number Publication Date
CN101794392A true CN101794392A (zh) 2010-08-04
CN101794392B CN101794392B (zh) 2014-06-04

Family

ID=42319136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010003219.9A Expired - Fee Related CN101794392B (zh) 2009-01-09 2010-01-11 对象检测设备、学习设备、对象检测方法和程序

Country Status (3)

Country Link
US (1) US8391551B2 (zh)
JP (1) JP4710979B2 (zh)
CN (1) CN101794392B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654108A (zh) * 2014-11-28 2016-06-08 佳能株式会社 分类方法、检查方法和检查装置
CN105654109A (zh) * 2014-11-28 2016-06-08 佳能株式会社 分类方法、检查方法和检查装置
CN108431824A (zh) * 2015-12-23 2018-08-21 快图有限公司 图像处理系统
US10248888B2 (en) 2014-11-28 2019-04-02 Canon Kabushiki Kaisha Classifying method, storage medium, inspection method, and inspection apparatus
US11532148B2 (en) 2015-12-23 2022-12-20 Fotonation Limited Image processing system

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5361524B2 (ja) * 2009-05-11 2013-12-04 キヤノン株式会社 パターン認識システム及びパターン認識方法
JP5371541B2 (ja) * 2009-05-19 2013-12-18 キヤノン株式会社 データ処理装置及びその処理方法
JP5570866B2 (ja) * 2010-04-30 2014-08-13 オリンパス株式会社 画像処理装置、画像処理装置の作動方法、および画像処理プログラム
JP5658945B2 (ja) * 2010-08-24 2015-01-28 オリンパス株式会社 画像処理装置、画像処理装置の作動方法、および画像処理プログラム
JP5620194B2 (ja) * 2010-08-24 2014-11-05 オリンパス株式会社 画像処理装置、画像処理方法、および画像処理プログラム
US9959482B2 (en) * 2014-11-28 2018-05-01 Canon Kabushiki Kaisha Classifying method, storage medium, inspection method, and inspection apparatus
JP6606849B2 (ja) * 2015-04-06 2019-11-20 大日本印刷株式会社 識別器生成装置、識別器生成方法、推定装置、推定方法、およびプログラム
US11176420B2 (en) * 2017-12-14 2021-11-16 Nec Corporation Identification device, identification method, and storage medium
JP7382245B2 (ja) 2020-02-07 2023-11-16 株式会社日立製作所 代替候補推薦システム及び方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828632A (zh) * 2005-02-28 2006-09-06 株式会社东芝 目标检测装置、学习装置、目标检测系统及目标检测方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5629752A (en) * 1994-10-28 1997-05-13 Fuji Photo Film Co., Ltd. Method of determining an exposure amount using optical recognition of facial features
JP3452685B2 (ja) * 1995-05-10 2003-09-29 三菱電機株式会社 顔画像の処理装置
JP2907120B2 (ja) * 1996-05-29 1999-06-21 日本電気株式会社 赤目検出補正装置
US5864630A (en) * 1996-11-20 1999-01-26 At&T Corp Multi-modal method for locating objects in images
US7508961B2 (en) * 2003-03-12 2009-03-24 Eastman Kodak Company Method and system for face detection in digital images
EP2955662B1 (en) * 2003-07-18 2018-04-04 Canon Kabushiki Kaisha Image processing device, imaging device, image processing method
JP4517633B2 (ja) * 2003-11-25 2010-08-04 ソニー株式会社 対象物検出装置及び方法
JP4482796B2 (ja) * 2004-03-26 2010-06-16 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP2006031387A (ja) * 2004-07-15 2006-02-02 Yamaha Motor Co Ltd 画像認識装置、画像認識方法、画像認識プログラムおよび画像認識プログラムを記録した記録媒体
JP4588575B2 (ja) * 2005-08-09 2010-12-01 富士フイルム株式会社 デジタル画像の複数対象物検出方法および装置並びにプログラム
JP4434236B2 (ja) * 2007-06-11 2010-03-17 ソニー株式会社 画像処理装置、画像表示装置、撮像装置、これらの処理方法およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1828632A (zh) * 2005-02-28 2006-09-06 株式会社东芝 目标检测装置、学习装置、目标检测系统及目标检测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654108A (zh) * 2014-11-28 2016-06-08 佳能株式会社 分类方法、检查方法和检查装置
CN105654109A (zh) * 2014-11-28 2016-06-08 佳能株式会社 分类方法、检查方法和检查装置
CN105654109B (zh) * 2014-11-28 2019-03-05 佳能株式会社 分类方法、检查方法和检查装置
US10248888B2 (en) 2014-11-28 2019-04-02 Canon Kabushiki Kaisha Classifying method, storage medium, inspection method, and inspection apparatus
CN105654108B (zh) * 2014-11-28 2019-04-12 佳能株式会社 分类方法、检查方法和检查装置
CN108431824A (zh) * 2015-12-23 2018-08-21 快图有限公司 图像处理系统
CN108431824B (zh) * 2015-12-23 2022-04-29 快图有限公司 图像处理系统
US11532148B2 (en) 2015-12-23 2022-12-20 Fotonation Limited Image processing system

Also Published As

Publication number Publication date
JP4710979B2 (ja) 2011-06-29
US20100177957A1 (en) 2010-07-15
JP2010160758A (ja) 2010-07-22
US8391551B2 (en) 2013-03-05
CN101794392B (zh) 2014-06-04

Similar Documents

Publication Publication Date Title
CN101794392B (zh) 对象检测设备、学习设备、对象检测方法和程序
CN101840504A (zh) 对象检测设备、图像拾取设备、对象检测方法和程序
WO2020125216A1 (zh) 一种行人重识别方法、装置、电子设备及计算机可读存储介质
Jain et al. Better exploiting motion for better action recognition
JP4626692B2 (ja) 物体検出装置、撮像装置、物体検出方法およびプログラム
CN106709404B (zh) 图像处理装置及图像处理方法
Murthy et al. Ordered trajectories for large scale human action recognition
US8818112B2 (en) Methods and apparatus to perform image classification based on pseudorandom features
CN101729785A (zh) 图像处理装置、图像处理方法和程序
CN104915673A (zh) 一种基于视觉词袋模型的目标分类方法和系统
CN111324874A (zh) 一种证件真伪识别方法及装置
CN102054165A (zh) 图像处理装置及图像处理方法
CN109784243B (zh) 身份确定方法及装置、神经网络训练方法及装置、介质
CN114238904B (zh) 身份识别方法、双通道超分模型的训练方法及装置
CN111680678A (zh) 目标区域识别方法、装置、设备及可读存储介质
US20130243330A1 (en) Method and apparatus for constructing image blur pyramid, and an image feature extracting circuit
CN114283350A (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
EP3410396A1 (en) Moving object tracking apparatus, moving object tracking method, and computer-readable medium
KR101397845B1 (ko) 얼굴 인식 방법 및 기계로 읽을 수 있는 저장 매체 및 얼굴 인식 장치
KR20190018274A (ko) 이미지에 포함된 특징 포인트의 시간 또는 공간의 움직임에 기초하여 이미지에 존재하는 피사체를 인식하는 장치 및 방법
CN109726621B (zh) 行人检测方法、装置及设备
CN113298188A (zh) 字符识别及神经网络训练方法和装置
CN112380978A (zh) 基于关键点定位的多人脸检测方法、系统及存储介质
KR101963042B1 (ko) 3d 영상에서 반투명 및 투명 객체를 복원하는 장치 및 그 방법
CN110598555A (zh) 一种图像的处理方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140604

Termination date: 20160111

CF01 Termination of patent right due to non-payment of annual fee