CN102087710A - 学习设备和方法、识别设备和方法、以及程序 - Google Patents

学习设备和方法、识别设备和方法、以及程序 Download PDF

Info

Publication number
CN102087710A
CN102087710A CN2010105705922A CN201010570592A CN102087710A CN 102087710 A CN102087710 A CN 102087710A CN 2010105705922 A CN2010105705922 A CN 2010105705922A CN 201010570592 A CN201010570592 A CN 201010570592A CN 102087710 A CN102087710 A CN 102087710A
Authority
CN
China
Prior art keywords
zone
characteristic quantity
image
value
wave filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010105705922A
Other languages
English (en)
Inventor
横野顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102087710A publication Critical patent/CN102087710A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种学习设备和方法、识别设备和方法、以及程序,所述学习设备包括:生成单元,被配置成根据输入图像生成分辨率不同的图像;提取单元,被配置成从生成单元生成的图像中提取作为处理对象的特征点;计算单元,被配置成采用预定滤波器对特征点进行滤波处理来计算特征点的特征量;以及标识生成单元,被配置成通过采用特征量的统计学习生成用于从图像中检测预定目标对象的标识;其中,滤波器包括多个区域,计算单元把区域内差的差值作为特征量。

Description

学习设备和方法、识别设备和方法、以及程序
技术领域
本发明涉及一种学习设备和方法、识别设备和方法、以及程序,具体而言,涉及一种使得能够以更可靠的方式从图像中检测目标对象的学习设备和方法、识别设备和方法、以及程序。
背景技术
迄今为止,已经研究和开发了用于从图像中检测人的技术以主要用于安全或车载用途(例如,见2005年第10届国际会议Computer Vision合集中B.Wu和R.Nevatia“Detection of multiple,partially occludedhumans in a single image by bayesian combination of edgelet partdetectors”以及Navneet Dalal和Bill Triggs“Histograms of OrientedGradients for Human Detection”CVPR2005)。对于2005年第10届国际会议Computer Vision合集中B.Wu和R.Nevatia“Detection of multiple,partially occluded humans in a single image by bayesian combination ofedgelet part detectors”以及Navneet Dalal和Bill Triggs“Histograms ofOriented Gradients for Human Detection”CVPR2005,采用通过边缘提取获得的特征量作为用于从图像中检测(识别)人的主要特征量。在这些技术中,把通过边缘提取获得的特征量的各种变化定义成新特征量,并执行人的识别。
例如,对于Navneet Dalal和Bill Triggs“Histograms of OrientedGradients for Human Detection”CVPR2005,提供了如下优点:其中,通过在包括边缘的小区域内的方向上获得直方图来获得特征量,采用此特征量使得该技术有力地克服轮廓的一些失真,等等。
发明内容
对于用于从图像中检测人等的以上方法,通过采用轮廓的特征检测对象,但是要求执行高精度的检测。
已发现期望使得能够以准确的方式检测诸如人等的目标对象。
根据本发明的一个实施例的学习设备包括:生成单元,被配置成根据输入图像生成分辨率不同的图像;提取单元,被配置成从生成单元生成的图像中提取作为处理对象的特征点;计算单元,被配置成通过采用预定滤波器对特征点进行滤波处理来计算特征点的特征量;以及标识生成单元,被配置成通过采用特征量的统计学习生成用于从图像中检测预定目标对象的标识;其中,滤波器包括多个区域,计算单元把区域内差的差值作为特征量。
预定滤波器的区域可以具有矩形形状。
计算单元可以按任意角度以高斯函数预定阶的微分函数执行卷积运算,以计算运算结果的绝对值的和。
计算单元可以按任意角度以高斯函数预定阶的微分函数执行卷积运算,以计算运算结果的绝对值的最大值。
计算单元可以针对多个区域中的每个区域计算位于区域内的像素的像素值的和或平均值,计算其和或平均值的差,并且把其差值的绝对值作为特征量。
计算单元可以针对多个区域中的每个区域根据位于区域内的像素的像素值创建直方图,计算其值的差,并且把其差值的绝对值作为特征量。
计算单元可以针对多个区域中的每个区域根据位于区域内的像素的像素值创建直方图,执行归一化以使得其直方图的和为1,计算归一化的直方图的值的差,并且把其差值的绝对值作为特征量。
计算单元可以把应用于作为参考的特征点的滤波器应用于位于作为该参考的特征点附近的多个特征点,把根据这多个特征点计算的特征量的和或平均值作为用作参考的特征点的特征量。
根据本发明的一个实施例的学习方法包括以下步骤:根据输入图像生成分辨率不同的图像;从生成的图像中提取特征点;通过采用预定滤波器对特征点进行滤波处理来计算特征点的特征量;以及通过采用特征量的统计学习生成用于从图像中检测预定目标对象的标识;其中,滤波器包括多个区域,并且这些区域内差的差值被作为特征量。
根据本发明的一个实施例的第一程序是计算机可读程序,用于使得计算机执行包括如下步骤的处理:根据输入图像生成分辨率不同的图像;从生成的图像中提取特征点;通过采用预定滤波器对特征点进行滤波处理来计算特征点的特征量;以及通过采用特征量的统计学习生成用于从图像中检测预定目标对象的标识;其中,滤波器包括多个区域,并且这些区域内差的差值被作为特征量。
采用根据本发明的实施例的学习设备和方法以及第一程序,根据输入图像生成分辨率不同的图像,从该生成的图像中提取作为处理对象的特征点,通过采用预定滤波器对特征点进行滤波处理计算特征点的特征量,以及通过采用特征量的统计学习生成用于从图像中检测预定目标对象的标识。另外,该滤波器包括多个区域,并且是由此区域内差的差值被作为特征量的滤波器。
根据本发明的一个实施例的识别设备包括:生成单元,被配置成根据输入图像生成分辨率不同的图像;提取单元,被配置成从生成单元生成的图像中提取特征点;计算单元,被配置成通过采用预定滤波器对特征点进行滤波处理来计算特征点的特征量;以及检测单元,被配置成用特征量替换通过统计学习获得的、用于从图像中检测预定目标对象的标识,以从输入图像中检测目标对象;其中,滤波器包括多个区域,计算单元把区域内差的差值作为特征量。
预定滤波器的区域可以具有矩形形状。
计算单元可以按任意角度以高斯函数预定阶的微分函数执行卷积运算,以计算运算结果的绝对值的和。
计算单元可以按任意角度以高斯函数预定阶的微分函数执行卷积运算,以计算运算结果的绝对值的最大值。
计算单元可以针对多个区域中的每个区域计算位于区域内的像素的像素值的和或平均值,计算其和或平均值的差,并且把其差值的绝对值作为特征量。
计算单元可以针对多个区域中的每个区域根据位于区域内的像素的像素值创建直方图,计算其值的差,并且把其差值的绝对值作为特征量。
计算单元可以针对多个区域中的每个区域根据位于区域内的像素的像素值创建直方图,执行归一化以使得其直方图的和为1,计算归一化的直方图的值的差,并且把其差值的绝对值作为特征量。
计算单元可以把应用于作为参考的特征点的滤波器应用于位于作为该参考的特征点附近的多个特征点,把根据这多个特征点计算的特征量的和或平均值作为用作参考的特征点的特征量。
根据本发明的一个实施例的识别方法包括以下步骤:根据输入图像生成尺度系数不同的图像;从生成的图像中提取特征点;通过采用预定滤波器对特征点进行滤波处理来计算特征点的特征量;以及用特征量替换通过统计学习获得的、用于从图像中检测预定目标对象的标识,以从输入图像中检测目标对象;其中,滤波器包括多个区域,并且区域内差的差值被作为特征量。
根据本发明的一个实施例的第二程序是计算机可读程序,用于使得计算机执行包括如下步骤的处理:根据输入图像生成尺度系数不同的图像;从生成的图像中提取特征点;通过采用预定滤波器对特征点进行滤波处理来计算特征点的特征量;以及用特征量替换通过统计学习获得的、用于从图像中检测预定目标对象的标识,以从输入图像中检测目标对象;其中,滤波器包括多个区域,并且区域内差的差值被作为特征量。
采用根据本发明的实施例的识别设备和方法以及第二程序,根据输入图像生成尺度系数不同的图像,从生成的图像中提取特征点,通过采用预定滤波器对提取的特征点进行滤波处理来计算特征点的特征量,用特征量替换通过统计学习获得的、用于从图像中检测预定目标对象的标识,以及从输入图像中检测目标对象。所应用的滤波器包括多个区域,并且是由此区域内差的差值被作为特征量的滤波器。
根据以上配置,可以以高精度检测目标对象。
附图说明
图1是示出了应用了本发明的辨识系统的实施例的配置的图;
图2是示出了特征量计算单元的详细配置示例的图;
图3是用于描述导向滤波器的图;
图4是用于描述矩形滤波器的图;
图5是示出了标识生成单元的详细配置示例的图;
图6是用于描述学习处理的流程图;
图7是用于描述特征量计算处理的流程图;
图8是用于描述标识生成处理的流程图;
图9A和图9B是用于描述标识的生成的图;
图10是用于描述特征点提取的图;
图11是用于描述特征量的图;
图12是用于描述每对特征点的特征量采样的图;
图13是用于描述弱标识的设置的图;
图14是用于描述另一矩形滤波器的图;
图15是示出了特征量计算单元的另一配置示例的图;
图16是用于描述另一矩形滤波器的图;
图17是示出了特征量计算单元的另一配置示例的图;
图18是用于描述另一矩形滤波器的图;
图19是示出了特征量计算单元的另一配置示例的图;
图20是用于描述对象检测处理的流程图;以及
图21是用于描述记录介质的图。
具体实施方式
下面,将参照附图描述本发明的实施例。
系统配置
图1是示出了应用了本发明的对象辨识系统的实施例的配置示例的框图。此对象辨识系统由学习设备11、标识存储单元12以及识别设备13组成,用于允许识别输入图像中包括例如作为目标对象的人的图像的区域。
学习设备11基于输入的学习图像生成要在识别设备13中执行用于辨识图像上是否存在目标对象的处理时使用的标识,并且将其记录在标识存储单元12中。识别设备13使用标识存储单元12中记录的标识以及用于辨识的特征量辨识已输入的输入图像中是否存在目标对象的图像,并且输出其辨识结果。
学习设备11由图像输入单元21、多分辨率图像生成单元22、特征点提取单元23、特征量计算单元24、以及标识生成单元25构成。
多分辨率图像生成单元22根据图像输入单元21输入的学习图像生成彼此具有不同分辨率的多个图像,并且把这些图像提供给特征点提取单元23作为多分辨率图像。例如,生成级别L1至级别L8的八个分辨率等级的多分辨率图像。在此,假定级别L1的多分辨图像的分辨率最高,多分辨率图像的分辨率从级别L1到级别L8依次变低。
特征点提取单元23从构成多分辨率图像生成单元22处生成的多分辨率图像的每个图像(学习图像)中提取该图像的数个像素作为要在生成标识时使用的特征点,并且把提取的特征点和学习图像提供给特征量计算单元24。在此,此处提到的标识是通过统计学习生成的、由多个弱标识构成的强标识,并且在通过利用例如对象的轮廓辨识输入图像内是否存在包括对象图像的区域时使用。
特征量计算单元24基于来自特征点提取单元23的学习图像通过采用例如导向滤波器的滤波处理针对每个特征点计算表示提取轮廓的特征量,并且把获得的特征量和学习后的图像提供给标识生成单元25。标识生成单元25基于从特征量计算单元24提供的特征量和学习图像,通过例如Adaboost执行统计学习处理以生成用于识别例如作为目标对象的人的标识。另外,标识生成单元25将生成的标识提供给标识存储单元12。
识别设备13由图像输入单元31、多分辨率图像生成单元32、特征点提取单元33、特征量计算单元34、辨识计算单元35、以及辨识结果输出单元36构成。识别设备13的图像输入单元31、多分辨率图像生成单元32、特征点提取单元33和特征量计算单元34中的每一个对于从其中识别目标对象的输入图像执行与学习设备11的图像输入单元21、多分辨率图像生成单元22、特征点提取单元23和特征量计算单元24中的每一个相同的处理,因此将省略其详细描述。
辨识计算单元35读取出标识存储单元12中记录的标识以及用于辨识的特征量。另外,辨识计算单元35用来自特征量计算单元34的特征量中用于辨识的特征量所对应的特征量替换读取出的标识以执行运算。辨识结果输出单元36获得辨识计算单元35处的计算结果以基于计算结果输出关于是否从输入图像中识别出了目标对象的辨识结果。
特征点提取单元23(33)和特征量计算单元24(34)的不同之处在于内部配置以及取决于使用哪种滤波器执行哪种处理。首先,将针对应用采用微分函数的滤波器的情形进行描述。
使用微分函数作为滤波器的情形
图2是示出了图1中特征量计算单元24的更详细配置示例的图。特征量计算单元34的配置与特征量计算单元24相同,因此,将描述特征量计算单元24的配置作为示例。特征量计算单元24由一阶滤波器处理单元51、二阶滤波器处理单元52、三阶滤波器处理单元53以及特征量生成单元54构成。另外,来自特征点提取单元23的学习图像通过特征量生成单元54提供给一阶滤波器处理单元51,特征点通过三阶滤波器处理单元53提供给一阶滤波器处理单元51。
一阶滤波器处理单元51针对每个提供的特征点对特征点进行通过高斯函数G的一阶微分函数G1的滤波处理以提取特征量,并且将特征量提供给特征量生成单元54。在此,高斯函数G和一阶微分函数G1由如下表达式(1)和表达式(2)表示。
G = e - x 2 + y 2 2 σ 2 · · · · · · ( 1 )
G1(θ)=cos(θ)G1(0°)+sin(θ)G1(90°)...(2)
在表达式(1)中,σ表示高斯宽度。在表达式(2)中,θ表示任意角度,以及表示要计算的滤波器的方向。
例如,一阶滤波器处理单元51把高斯函数G的高斯宽度σ变成三个预定值(例如,高斯宽度σ1、σ2、σ3=1、2、4),并且针对每个高斯宽度σ关于预定的四个方向(例如,θ=θ1、θ2、θ3、θ4)计算表达式(2)。
注意,方向θ不限于四个方向,可以是八个方向,例如,把π等分成八个方向时的每个方向。另外,迄今为止,如上所述,使用多个高斯宽度执行了处理,但是对于本实施例,应当准备一个高斯宽度,这将在后面描述。相应地,以上对将高斯宽度变成三个预定值、并且针对每个高斯宽度σ关于预定的四个方向计算表达式(2)进行了描述,但是对于本实施例,仅需要用设定的高斯宽度σ关于预定的四个方向计算表达式(2)。
因此,不需要对多个高斯宽度的每一个执行计算,相应地,可以减小计算量。这种情况对例如二阶滤波器处理单元52、以及三阶滤波器处理单元53等其它滤波器成立。
二阶滤波器处理单元52针对每个提供的特征点对特征点进行通过高斯函数G的二阶微分函数G2的滤波处理以提取特征量,并且将其提供给特征量生成单元54。如下表达式(3)表示二阶微分函数G2,在表达式(3)中,θ表示任意角度。
G2(θ)=k21(θ)G2(0°)+k22(θ)G2(60°)+k23(θ)G2(120°)
...(3)
另外,表达式(3)中的系数k2i(θ)(其中,i=1、2、3)是如下表达式(4)中表示的函数。
k 2 i ( θ ) = 1 3 { 1 + 2 cos ( 2 ( θ - θ i ) ) } · · · · · · ( 4 )
例如,二阶滤波器处理单元52用高斯函数G的预定高斯宽度σ关于预定的四个方向(例如,θ=θ1、θ2、θ3、θ4)计算表达式(3)。
三阶滤波器处理单元53针对每个提供的特征点对特征点进行通过高斯函数G的三阶微分函数G3的滤波处理以提取特征量,并且将其提供给特征量生成单元54。如下表达式(5)表示三阶微分函数G3,在表达式(5)中,θ表示任意角度。
G3(θ)=k31(θ)G3(0°)+k32(θ)G3(45°)+k33(θ)G3(90°)+k34(θ)G3(135°)...(5)
另外,表达式(5)中的系数k3i(θ)(其中,i=1、2、3)是如下表达式(6)中表示的函数。
k 31 ( θ ) = 1 4 { 2 cos ( θ - θ i ) + 2 cos ( 3 ( θ - θ i ) ) } · · · · · · ( 6 )
例如,三阶滤波器处理单元53用高斯函数G的预定高斯宽度σ关于预定的四个方向(例如,θ=θ1、θ2、θ3、θ4)计算表达式(5)。
特征量生成单元54接收从一阶滤波器处理单元51、二阶滤波器处理单元52、以及三阶滤波器处理单元53提供的关于四个方向θ计算的每个特征点的特征量的提供,排列总共12(=3(阶)×4(方向))个提供的特征量,并且把这些作为特征点中的特征量。
另外,分辨率不同的多个图像从多分辨率图像生成单元22提供给每个滤波器处理单元,相应地,还提供根据每个图像关于四个方向计算的每个特征点的特征量。这些提供的特征量取决于多分辨率图像生成单元22生成的图像的数量,例如,在生成从级别1到级别8的八个图像的情况下,提供关于四个方向θ的八个图像计算的每个特征点的特征量。
另外,特征量生成单元54把生成的特征量以及提供的学习图像提供给标识生成单元25。
因而,对于特征量计算单元24,采用要通过对高斯函数进行微分获得的在方向θ上具有选择性的滤波器(基函数),针对每个微分阶次不同的特征量(轮廓)被提取,并被作为特征量。
在采用导向滤波器用于特征量的提取的情况下,如图3中所示,如果准备了方向θ和高斯宽度σ不同的滤波器,则根据这些滤波器的线性组合,可以表达任意方向θ的滤波器,即高斯函数G的微分函数Gn(其中,n=1、2、3)。
在图3中,左侧最上面一行的图像按自图中左起的次序,表示在高斯宽度σ=2的情况下的一阶微分函数G1(0°)和一阶微分函数G1(90°)。另外,在图中,左侧中间行的图像按自图中左起的次序,表示在高斯宽度σ=2的情况下的二阶微分函数G2(0°)、二阶微分函数G2(60°)、二阶微分函数G2(120°)、以及拉普拉斯算子。另外,在图中,左侧最下面一行的图像按自图中左起的次序,表示在高斯宽度σ=2的情况下的三阶微分函数G3(0°)、三阶微分函数G3(45°)、三阶微分函数G3(90°)、以及三阶微分函数G3(135°)。
另外,在图中,右侧水平方向上的行中最上面一行的图像按自图中左起的次序,表示在高斯宽度σ=1的情况下把θ变成0、1/8×π、2/8×π、3/8×π、4/8×π、5/8×π、6/8×π、以及7/8×π的一阶微分函数G1(θ)。
类似地,在图中,右侧水平方向上每行的图像按自图中从上面起第二个向下的次序表示在高斯宽度σ=2的情况下的一阶微分函数G1(θ)、在高斯宽度σ=4的情况下的一阶微分函数G1(θ)、在高斯宽度σ=1的情况下的二阶微分函数G2(θ)、在高斯宽度σ=4的情况下的二阶微分函数G2(θ)、在高斯宽度σ=1的情况下的三阶微分函数G3(θ)、在高斯宽度σ=2的情况下的三阶微分函数G3(θ)、以及在高斯宽度σ=4的情况下的三阶微分函数G3(θ)。然后,这每行的图像按自图中左起的次序表示把θ变成0、1/8×π、2/8×π、3/8×π、4/8×π、5/8×π、6/8×π、以及7/8×π的微分函数。
例如,在图中,采用作为左侧滤波器的一阶微分函数G1(0°)和一阶微分函数G1(90°),从而可以表示图中右侧从上面起第二行的每个方向θ上的一阶微分函数G1(θ)。类似地,可以使用图中左侧的二阶微分函数G2表示自图中右侧最上面起第五行中表示的每个方向θ上的二阶微分函数G2(θ),并且可以使用图中左侧的三阶微分函数G3表示自图中右侧最上面起第八行中表示的每个方向θ上的三阶微分函数G3(θ)。即,每个维度的任意方向上的微分函数在存在数量比该维度大一的基函数的情况下可以用这些基函数的线性组合表示。
图4是示出了其它滤波器的示例的图。图4中示出的每个滤波器是把矩形合并的滤波器。在图4中,滤波器101-1至101-16表示一阶微分函数G1。滤波器102-1至102-16分别表示对于滤波器101-1至101-16的二阶微分函数G2。另外,滤波器103-1至103-16分别表示对于滤波器101-1至101-16的三阶微分函数G3
滤波器101-1是具有预定尺寸的滤波器,并且是以图中的右侧为白色区域以及以图中的左侧为黑色区域的滤波器。滤波器101-2至101-5中的每一个是尺寸与滤波器101-1不同的滤波器,但是,是以与滤波器101-1相同的方式,以图中的右侧为白色区域以及以图中的左侧为黑色区域的滤波器。
注意,这里采用白色区域和黑色区域的表述,但是并不意味着表述限于白色和黑色。即,要用作滤波器的区域应当是颜色不同的区域,而对于颜色本身没有限制。因此,在此将描述白色和黑色作为示例。
另外,可以采用白色区域和黑色区域交换的滤波器。例如,可以做出交换滤波器101-1的白色区域和黑色区域的布置,在图中,把左侧作为白色区域,把右侧作为黑色区域。然而,对于本实施例,把应用的滤波器计算的值的绝对值作为特征量,这将在后面描述。因而,这样布置以使得可以获得与应用未交换这些区域的滤波器、以及交换了这些区域的滤波器这两个滤波器的情形相同的优点。
滤波器101-6至101-10中的每个滤波器是尺寸不同的滤波器,并且是以上部为图中白色区域、以及以下部为图中黑色区域的滤波器。滤波器101-11至101-13中的每个滤波器是尺寸不同的滤波器,并且是以上部为图中白色区域、以及以下部为图中黑色区域的具有图中对角线左边向上形状的滤波器。滤波器101-14至101-16中的每个滤波器是尺寸不同的滤波器,并且是以上部作为图中白色区域、以及以下部作为图中黑色区域的具有图中对角线右边向上形状的滤波器。
表示一阶微分函数G1的这些滤波器101-1至101-16适合于边缘分量的提取。对于滤波器101-1至101-16,计算对于相邻区域的亮度平均差,相应地,这具有例如使得存在白色区域变成黑色区域的边缘的含义。
滤波器102-1是具有预定尺寸的滤波器,并且是按自图中左起的次序具有白色区域、黑色区域、以及白色区域的滤波器。滤波器102-2至102-5中的每个滤波器是尺寸与滤波器102-1不同的滤波器,但是,是以与滤波器102-1相同的方式按自图中左起的次序具有白色区域、黑色区域、以及白色区域的滤波器。
滤波器102-6至102-10中的每个滤波器是尺寸不同的滤波器,并且是按自图中最上面起的次序具有白色区域、黑色区域、以及白色区域的滤波器。滤波器102-11至102-13中的每个滤波器是尺寸不同的滤波器,并且是按自图中最上面起的次序具有白色区域、黑色区域、以及白色区域的具有图中对角线左边向上形状的滤波器。滤波器102-14至102-16中的每个滤波器是尺寸不同的滤波器,并且是按自图中最上面起的次序具有白色区域、黑色区域、以及白色区域的具有图中对角线右边向上形状的滤波器。
表示二阶微分函数G2的这些滤波器102-1至102-16适合于条状分量(条形分量)的提取。
滤波器103-1是具有预定尺寸的滤波器,并且是按自图中左起的次序具有黑色区域、白色区域、黑色区域、以及白色区域的滤波器。滤波器103-2至103-5中的每个滤波器是尺寸与滤波器103-1不同的滤波器,但是,是以与滤波器103-1相同的方式按自图中左起的次序具有黑色区域、白色区域、黑色区域、以及白色区域的滤波器。
滤波器103-6至103-10中的每个滤波器是尺寸不同的滤波器,并且是按自图中最上面起的次序具有白色区域、黑色区域、白色区域、以及黑色区域的滤波器。滤波器103-11至103-13中的每个滤波器是尺寸不同的滤波器,并且是按自图中最上面起的次序具有白色区域、黑色区域、白色区域、以及黑色区域的具有图中对角线左边向上形状的滤波器。滤波器103-14至103-16中的每个滤波器是尺寸不同的滤波器,并且是按自图中最上面起的次序具有白色区域、黑色区域、白色区域、以及黑色区域的具有图中对角线右边向上形状的滤波器。
表示三阶微分函数G3的这些滤波器103-1至103-16适合于如人腿形状的提取。
标识生成单元的配置
图5是示出了图1中标识生成单元25的更详细配置示例的框图。标识生成单元25由采样单元61、权重设置单元62、排序单元63、标识设置单元64、标识选择单元65、以及权重更新单元66构成。
采样单元61响应于权重设置单元62要设置的学习图像增量的权重,针对每对特征点在与多个学习图像中的每个学习图像相同的位置中从一对特征点的特征量中采样M个特征量,并且将其提供给排序单元63。
排序单元63针对每对特征点按升序或降序对M个采样的特征量排序,并且将其提供给标识设置单元64。
标识设置单元64基于表示从其中提取了特征点的学习图像中是否包括要识别的目标对象的正误表信息,控制错误率计算单元64a计算错误率同时针对按升序或降序排序的每对特征量改变阈值,并且设置阈值以使得错误率变得最低(此阈值设置为弱标识)。另外,标识设置单元64把每个弱标识的错误率提供给标识选择单元65。
为学习图像附加表示该学习图像中是否包括目标对象的正误表信息(标签),标识设置单元64基于从特征量计算单元24提供的学习图像附加的正误表信息执行弱标识的设置。
标识选择单元65在弱标识中选择错误率最小的弱标识,更新由弱标识构成的标识,并且把与每个弱标识和最终标识对应的特征量提供给标识存储单元12。另外,标识选择单元65基于选定弱标识的错误率计算可靠性,并且将其提供给权重更新单元66。
权重更新单元66基于所提供的可靠性重新计算每个学习图像的权重,还通过归一化更新权重,并且把更新结果提供给权重设置单元62。权重设置单元62基于从权重更新单元66提供的权重的更新结果设置学习图像的增量的权重。
学习处理
接下来,将针对要在学习设备11处执行的学习处理添加描述。在把学习图像输入到学习设备11、以及指示标识的生成后,学习设备11开始学习处理以通过统计学习生成标识。下面,将参照图6至图8描述学习设备11所进行的学习处理。
在步骤S11中,多分辨率图像生成单元22根据输入的学习图像生成多分辨率图像。如上所述,多分辨率图像生成单元22生成例如从级别L1至级别L8的八个分辨率等级的多分辨率图像,并且把生成的图像提供给特征点提取单元23。特征点提取单元23以提供的多分辨率图像(分辨率不同的多个图像)之一作为要处理的学习图像执行步骤S11中及其后的处理,并且对多个图像的各个图像重复执行步骤S11中及其后的处理。
在步骤S12中,特征点提取单元23从输入的学习图像中提取特征点。例如,在把图9A中示出的学习图像输入到了特征点提取单元23的情况下,特征点提取单元23如图9B中所示出地提取学习图像中以预定间隔排列的像素作为特征点。注意,在图9B中,学习图像上的圆圈表示被确定为特征点的像素。
图9A和图9B中示出的学习图像是由图中竖直方向上的64个像素和水平方向上的32个像素构成的学习图像,特征点提取单元23在水平方向和在竖直方向上以两个像素间隔选择学习图像上的像素作为用作特征点的像素。因而,对于学习图像,选择水平方向上的12个像素、竖直方向上的28个像素、总共226(=12×28)个像素作为图中的特征点。
在从学习图像中提取特征点之后,特征点提取单元23把提取的特征点和输入的学习图像提供给特征量计算单元24。
在步骤S13中,特征量计算单元24执行特征量计算处理以基于从特征点提取单元23提供的学习图像和特征点计算每个特征点的特征量。现在,将参照图7中的流程图描述步骤S13中的处理对应的特征量计算处理。
在步骤S51中,特征量计算单元24,更详细地,特征量计算单元24的一阶滤波器处理单元51、二阶滤波器处理单元52、以及三阶滤波器处理单元53的每一个在从特征点提取单元23提供的特征点中选择一个未处理的特征点作为关注的像素。此时,一阶滤波器处理单元51、二阶滤波器处理单元52、以及三阶滤波器处理单元53中的每个采用的滤波器可以是图3中示出的滤波器,或者可以是图4中示出的滤波器。或者,可以采用这两者。
在步骤S52中,特征量计算单元24把表示方向θq的计数器q设置为1。从而,把方向θq设置为θ1。
在步骤S53中,一阶滤波器处理单元51执行一阶滤波处理。具体地,一阶滤波器处理单元51基于用作处理对象的关注像素的像素值,在高斯宽度为σ=1、以及方向为θq的情况下计算表达式(2),并且把滤波处理的结果提供给特征量生成单元54。即,在表达式(2)中的方向θ为θq的情况下执行计算,并提取轮廓。
注意,在高斯宽度为σ=1的情况下进行了描述,但是在本实施例的情况下,把高斯宽度固定为σ=1(预先设置了一个高斯宽度的滤波器),从而可以略去在高斯宽度为σ=1的情况下的处理。即,对于本实施例,在步骤S53中执行用于在高斯宽度为1的滤波器的方向为θq的情况下计算表达式(2)的处理。另外,将在高斯宽度为σ=1的情况下继续描述,但是毫无疑问预先准备的滤波器的高斯宽度可以是除了σ=1以外的高斯宽度。
在步骤S54中,二阶滤波器处理单元52执行二阶滤波处理。具体地,二阶滤波器处理单元52基于关注像素的像素值,在高斯宽度σ=1的滤波器的方向为θq的情况下计算表达式(3),并且把滤波处理的结果提供给特征量生成单元54。即,在表达式(3)中的方向θ为θq的情况下执行计算,并提取轮廓。
在步骤S55中,三阶滤波器处理单元53执行三阶滤波处理。具体地,三阶滤波器处理单元53基于关注像素的像素值,在高斯宽度σ=1的滤波器的方向为θq的情况下计算表达式(5),并且把滤波处理的结果提供给特征量生成单元54。即,在表达式(5)中的方向θ为θq的情况下执行计算,并提取轮廓。
在步骤S56中,特征量计算单元24确定方向θq是否是θ4,即,是否计数器q=4。在步骤S56中确定方向θq并非θ4的情况下,在步骤S57中,特征量计算单元24递增计数器q。例如,在计数器q=1的情况下,将计数器q递增为q=2,从而把方向θq设置为θ2。在递增计数器q后,处理返回步骤S53,并重复以上处理。
另一方面,在步骤S56中确定方向θq为θ4的情况下,在步骤S58中,特征量生成单元54综合从一阶滤波器处理单元51、二阶滤波器处理单元52、以及三阶滤波器处理单元53提供的计算结果作为特征量,并且对于一个特征点生成特征量。
通过如下表达式(7)或表达式(8)获得特征量。
υ j = Σ x , y | G d , θ ⊗ I ( x i , y i , s i ) | · · · · · · ( 7 )
υ j = max x , y | G d , θ ⊗ I ( x i , y i , s i ) | · · · · · · ( 8 )
对于表达式(7)和表达式(8),Gd,θ是以与表达式(2)相同的方式具有任意角度θ的高斯函数G的d阶微分函数。另外,在I(xi,yi,si)中,(xi,yi)表示作为处理对象的特征点的图像内的坐标,(si)表示构成多分辨率图像的图像中作为处理对象的图像的尺度。
表达式(7)是用于对任意角度θ中的特征量以及高斯函数G的d阶微分函数进行卷积运算、以及通过∑计算其绝对值和的表达式。表达式(8)是用于对任意角度θ中的特征量以及高斯函数G的d阶微分函数进行卷积运算、以及通过取最大值(max)计算其绝对值最大值的表达式。
表达式(7)和表达式(8)均是用于计算特征量的表达式,但是表达式(7)是用于计算局部能量的表达式,而表达式(8)是用于计算局部最大值的表达式。现在,将针对这些表达式的含义添加描述。
根据诸如以上所述的处理,可以生成检测标识,其采用以通过任意角度中的尺度和函数提取的滤波器系数为特征量的指导因子(tutor)执行统计学习,以检测诸如人等的目标对象。然而,对于此检测标识,例如,获得取决于人穿的衣服与背景之间关系的特征量。另外,对于诸如人的失真或变形很大的验证对象,选择性作为特征量过高。因此,需要通过吸收这些来执行处理,需要把每个特征量转换成具有恒定性的特征量。
在滤波处理之后计算输出值的绝对值可以解决把取决于人穿的衣服与背景之间关系的特征量向具有恒定性的特征量的转换。可以通过计算绝对值提取与人的轮廓近似的特征量。另外,对于本实施例,计算一阶微分函数、二阶微分函数、以及三阶微分函数,其中每一个执行绝对值的计算。因而,与只用通过一阶微分函数的绝对值执行计算的情形相比可以改进精度,并且可以计算具有恒定性的特征量。
另外,为了解决对于诸如人的失真或变形大的验证对象、选择性作为特征量过高的上述问题,可以通过执行由于位置偏移的不变量计算来计算吸收这种问题的特征量。由于位置偏移的不变量计算是利用了在检测人面部的轮廓时其轮廓的长度无论面部形状如何通常均相同的计算。换言之,此计算是如下这种计算:其中,当关注轮廓的预定部分时,即使该部分在位置上偏移了,例如,当使几乎圆脸的人的轮廓在位置上移动以与伸长面部的轮廓重叠时,也只是位置偏移,而其长度的值等被视为恒定。
作为这种计算,计算和,如表达式(7)。根据计算的和,例如,计算人面部轮廓的和。另外,如表达式(8),计算最大值。根据计算的最大值,例如,计算人面部轮廓的最大值。
在此,示出了用于获得诸如和以及最大值的两种计算。换言之,如上所述,示出了用于基于表达式(7)获得局部能量的计算、以及用于基于表达式(8)获得局部最大值的计算。除了这些之外,还可以执行用于获得具有局部最大值的点周围局部能量的计算。这是响应于表达式(8)的计算结果执行表达式(7)的计算的图像。另外,可以执行用于获得局部能量周围最大值的计算。这是响应于表达式(7)的计算结果执行表达式(8)的计算的图像。虽然未示出具体表达式,但是可以通过这种计算来计算特征量。
现在,将参照图10、针对特征点的计算进一步添加描述。假定图10中示出的图像201是作为处理对象的图像。此图像201是在学习时作为学习对象的图像,并且是在识别时作为识别对象的图像。通过图像201在滤波器101-1处进行滤波处理获得的结果是图像202。
此图像202是反映了通过如下表达式(9)计算的特征量的图像。
υ j = G d , θ ⊗ I ( x i , y i , s i ) · · · · · · ( 9 )
表达式(9)是在表达式(7)中既未计算和也未计算绝对值的表达式。
图像203是作为基于如下表达式(10)的计算结果、反映了计算的特征量的图像。
υ j = | G d , θ ⊗ I ( x i , y i , s i ) | · · · · · · ( 10 )
表达式(10)是用于计算表达式(9)的计算结果绝对值的表达式。
图像203是与使用通过反转在生成图像202时使用的滤波器101-1的区域获得的滤波器101-1′执行了处理的情形等同的图像。滤波器101-1′是以图中左边的图像为白色区域、以及以图中右边的图像为黑色区域的滤波器,并且是通过反转滤波器101-1的区域获得的滤波器。
反映了基于用于通过应用滤波器101-1基于表达式(9)未计算绝对值的表达式计算的特征量的图像成为例如颜色从白色变成黑色的部分(轮廓)的图像202。反映了基于用于通过应用滤波器101-1′基于表达式(10)计算绝对值的表达式计算的特征量的图像成为例如颜色从黑色变成白色的部分(轮廓)的图像203。因而,虽然只是方向不同,但是可以提取同样的轮廓。
另外,图10中示出的图像204是反映了如下内容的图像:通过应用多个滤波器101-1通过基于表达式(7)的计算针对每个滤波器计算的值的和获得的结果(特征量)。虽然描述了多个滤波器101-1,但是这表示同一滤波器101-1应用于多个位置(像素)。换言之,在把滤波器101-1a应用于预定像素a的情况下,对于位于该像素a附近的像素b至f中的每个像素执行应用滤波器101-1的计算。在此,为了区分要应用于不同位置的滤波器,通过向其附加描述从a至f的下标。
应用滤波器101-1a,执行基于表达式(10)的计算,计算特征量A。类似地,应用滤波器101-1b,执行基于表达式(10)的计算,计算特征量B,应用滤波器101-1c,执行基于表达式(10)的计算,计算特征量C。
另外,类似地,应用滤波器101-1d,执行基于表达式(10)的计算,计算特征量D,应用滤波器101-1e,执行基于表达式(10)的计算,计算特征量E,应用滤波器101-1f,执行基于表达式(10)的计算,计算特征量F。从而计算特征量A至F并相加,由此计算特征量。把此相加的特征量作为对于用作参考的像素a的特征量。
注意,在此对把相加的特征量(即,和)作为对于用作参考的像素a的特征量进行了描述,但是相加的特征量可以是除以用作处理对象的特征点数量的值,即可以把平均值作为特征点。
这种特征点是有力地克服位移、旋转、尺寸改变等等的特征点。在此情形中,把滤波器应用于不同位置,从而计算每个特征点,但是每个特征点成为例如用于在图像内提取预定对象轮廓的特征点。对每个不同位置提取轮廓,从而轮廓本身提供模糊感。可以通过利用此模糊度吸收位移、旋转、尺寸改变等等,并且可以获得有力地克服位移、旋转、尺寸改变等等的特征量。
对于参照图10的描述,描述了应用表达式(10)的情形作为示例,但是即使在应用表达式(8)的情况下,也可以按与上述情形相同的方式计算特征量,相应地,将省略其描述。
描述将返回图7中示出的流程图。在步骤S58中,通过这种计算根据每个特征点计算特征量。随后,在步骤S59中,特征量计算单元24确定是否针对所有特征点完成了处理。例如,在针对从特征点提取单元23提供的所有特征点获得了特征量的情况下,确定处理结束。
在步骤S59中确定尚未针对所有特征点完成处理的情况下,处理返回步骤S51,在步骤S51中,选择下一个特征点作为关注的像素。
另一方面,在步骤S59中确定已经针对所有特征点完成了处理的情况下,特征量生成单元54把从特征点提取单元23提供的学习图像、以及每个生成特征点的特征量提供给标识生成单元25。随后,处理进行到图6中的步骤S14。
注意,不仅可以采用导向滤波器也可以采用Gabor滤波器用于从学习图像中提取特征点。
描述将返回图6中的流程图,其中,在获得每个特征点的特征量后,在步骤S14中,标识生成单元25基于从特征量计算单元24提供的特征量和学习图像执行标识生成处理以生成标识。将参照图8中的流程图描述要在步骤S14中执行的标识生成处理。
在步骤S101中,权重设置单元62把例如图11中示出的每个学习图像PIi(1≤i≤M)的所有权重Wi初始化成1/M,标识选择单元65分别把计数器j初始化成1、并且把由弱标识的和构成的标识R(x)初始化成0。
这里,i是用于辨识图11中学习图像PIi的变量,并且在1≤i≤M的范围中。根据步骤S101中的处理,把所有学习图像PIi的权重Wi设置为同一归一化权重(=1/M)。另外,计数器j表示更新标识R(x)的预定阶数。
在步骤S102中,采样单元61根据学习图像PIi的权重Wi、对每对特征点从在多个学习图像PIi中每个学习图像的同样的位置中的一对特征点的特征量中选择M个特征量,并且将其提供给排序单元63。
例如,假定如图12中所示,把M个学习图像PI1至PIM的特征量从特征量计算单元24提供给采样单元61。在图12中,在图中的水平方向上排列从学习图像PIi(其中,1≤i≤M)中获得的特征点,代表学习图像的字母PIi的图中左侧的数字“+1”或“-1”表示向该学习图像PIi添加的标签(正误表信息)。
具体地,图中最顶端水平方向上排列的(A1、A2、A3、...、AN)中的每个表示学习图像PI1每对特征点的特征量,表示学习图像PI1的字母“PI1”的图中左侧的数字“+1”表示意为学习图像PI1包括目标对象的标签。
类似地,图中从顶部起第二个水平方向上排列的(B1、B2、B3、...、BN)中的每个表示学习图像PI2每对特征点的特征量,表示学习图像PI2的字母“PI2”的图中左侧的数字“+1”表示意为学习图像PI2包括目标对象的标签。
另外,图中从顶部起第三个水平方向上排列的(C1、C2、C3、...、CN)中的每个表示学习图像PI3每对特征点的特征量,字母“PI3”的图中左侧的数字“-1”表示意为学习图像PI3不包括目标对象的标签。另外,图中从顶部起第M个水平方向上排列的(M1、M2、M3、...、MN)中的每个表示学习图像PIM每对特征点的特征量,字母“PIM”的图中左侧的数字“-1”表示意为学习图像PIM不包括目标对象的标签。
以此方式,对于图12中的示例,从一个学习图像PIi中获得N对特征点中每对的特征量。另外,在图12中,把竖直方向上排列的M个特征量Ak至Mk(其中,1≤k≤M)作为一个组Grk,把属于此组Grk的特征量作为每个学习图像PIi的同样位置中特征量对的特征量。
例如,组Gr1由竖直方向上排列的特征量A1至特征量M1构成,作为由此获得特征量A1的一对学习图像PI1的两个特征点、以及属于组Gr1的其它特征量,例如,作为由此获得特征量M1的一对学习图像PIM的两个特征点,位于学习图像的同样位置中。现在,下面,将把每个学习图像PIi中的一对特征点称作对k,其中该对特征点是由此获得属于组Grk(1≤k≤M)的特征量的一对。
在把图12中示出的学习图像PIi中的每个学习图像的特征量提供给了采样单元61的情况下,采样单元61根据学习图像PIi的权重Wi,对每个对k,即对每个组Grk,从属于该组的特征量中通过抽选来选择M个特征量。例如,采样单元61根据权重Wi从属于组Gr1的特征量A1至特征量M1中选择M个特征量。注意,对于第一次处理,权重Wi中的任何权重同为1/M,相应地,在通过抽选来选择M个特征量后,随机选择所有特征量。因此,现在,假定对于第一次处理,在每个组Grk中选择了所有特征量。毫无疑问,实际上,可以冗余地选择同样的特征量。
注意,可以采用权重Wi用于每对特征点的错误计算。在此情形中,通过乘以错误值的数据权重系数(权重Wi)执行错误计算。
在步骤S103中,排序单元63针对N个组Grk中的每个组按升序或者按降序把针对每个组Grk,即针对每个对k选择的M个特征量排序,并将其提供给标识设置单元64。例如,按顺序对从属于图12中的组Gr1的特征量中选择的M个特征量进行排序。
在步骤S104中,标识设置单元64基于从特征量计算单元24提供的学习图像附加的正误表信息(标签)控制错误率计算单元64a,同时改变每个组Grk,即每对特征点k的阈值,以如以下表达式(11)中所示计算错误率ejk,并且设置阈值以使得错误率ejk变得最小。
在此,每个特征点对k的阈值thjk成为一个弱标识fjk。标识设置单元64把每个弱标识fjk的错误率ejk提供给标识选择单元65。即,把N个弱标识fjk分别设置到N个对k,针对N个弱标识fjk分别获得错误率ejk。注意,弱标识fjk是用于在包括要识别的目标对象的情况下输出“+1”、以及在不包括要识别的目标对象的情况下输出“-1”的函数。
例如,如图13中所示,在j=1并且按L1、A1、C1、B1、...、M1的升序或降序排列特征点的对k=1的特征量的情况下,阈值th11设置在特征量A1与C1之间。然后,当识别出在小于阈值th11的范围(用“-1”表示的范围)中不存在要识别的目标对象,并且识别出在大于阈值th11的范围(用“+1”表示的范围)中存在要识别的目标对象时,图中用虚线环绕的特征量A1是包括要识别的目标对象的学习图像的特征量,所以被视为错误。另外,相反地,特征量C1和M1是不包括要识别的目标对象的学习图像的特征量,因此被视为错误。
对于图13中的示例,阈值th11设置到错误率ejk变得最小的位置。例如,在未把图13中示出的阈值th11设置到错误率ejk变得最小的位置的情况下,标识设置单元64改变阈值th11的位置,在参考每个位置中的错误率ejk的情况下找出错误率ejk变得最小的阈值th11的位置,并且把该位置作为阈值th11的位置。
错误率计算单元64a如以下表达式(11)中所示,基于学习图像的正误表信息(标签)添加从其中提取了被视为错误的特征量的学习图像的权重Wi,以计算错误率ejk
Ejk=EW[1(y≠fjk)]...(11)
此处,y≠fjk表示特征点的对k被视为错误的条件,EW表示添加的出现错误的对k中的权重。
在步骤S105中,标识选择单元65基于从标识设置单元64提供的每个对k的N个错误率,选择错误率ejk成为N个弱标识fjk最小值的弱标识fjk。然后,标识选择单元65从标识设置单元64获得选择的弱标识fjk
在步骤S106中,标识选择单元65基于选定弱标识fjk的错误率ejk计算如下表达式(12)中示出的可靠性cj,并且把计算结果提供给权重更新单元66。
cj=log((1-ej)/ej)...(12)
注意,在表达式(12)中,ej表示错误率ejk中选定弱标识fjk的错误率ejk,即N个错误率ejk的最小错误率ejk。另外,下面,也将把在步骤S105中的处理中选择的对k的弱标识称作“弱标识fj”,还将把该弱标识fj的错误率ejk称作“错误率ej”。
在步骤S107中,权重更新单元66通过基于提供的可靠性cj计算如下表达式(13)重新计算每个学习图像PIi的权重Wi,并且还通过归一化更新所有权重Wi,把更新结果提供给权重设置单元62。权重设置单元62基于从权重更新单元66提供的权重的更新结果设置每个学习图像的权重。
Wi=Wiexp[-cj·1(y≠fj)],i=1,2,...,N...(13)
表达式(13)表示包括出现了错误的特征量的学习图像的权重Wi增加。
在步骤S108中,标识选择单元65使用新获得的弱标识fj更新保存的标识R(x)。具体地,标识选择单元65通过计算如下表达式(14)更新标识R(x)。
R(x)=R′(x)+cj×fj(x)...(14)
在表达式(14)中,R′(x)表示标识选择单元65中保存的更新之前的标识,fj(x)表示新获得的弱标识fj。即,标识选择单元65将通过乘以可靠性cj加权后的、新获得的弱标识加到保存的标识,从而更新标识。
在步骤S109中,标识选择单元65保存错误率ejk变得最小的弱标识fjk对应的特征点的对k的特征量,作为用于辨识的特征量。
在步骤S110中,标识选择单元65确定计数器j是否等于或大于L。在步骤S110中确定计数器j小于L的情况下,在步骤S111中,标识选择单元65递增计数器j。然后,处理返回步骤S102,并重复上述处理。
具体地,使用每个学习图像的新获得的权重Wi针对N个对k设置新的弱标识fjk,从这些弱标识fjk中,选择错误率ej变得最小的弱标识fjk。然后,通过选择的弱标识fjk更新标识。
另一方面,在步骤S110中确定计数器j等于或大于L的情况下,在步骤S112中,标识选择单元65把保存的标识以及用于辨识的特征量输出到标识存储单元12。
根据以上处理,把由错误率较低的L个弱标识fj(1≤j≤L)构成的标识提供给标识存储单元12,并且还把要在每个弱标识fj处使用的特征点的对k的特征量提供给标识存储单元12。这里,L为L≤N。
注意,在使用表达式(14)的标识以生成在替换为特征量的标识为正时输出“+1”、而在标识为负时输出“-1”的标识(函数)的情况下,可以认为该标识为通过L个弱标识的大多数选取用于输出是否包括要识别的目标对象的函数。另外,把参照图7中的流程图描述的、用于通过重复叠加弱标识同时对弱标识进行加权以生成标识的用于生成标识的学习处理称作离散Adaboost算法。
具体地,根据以上标识生成处理,重复用于计算每对特征点的错误率以及弱标识的处理,以使得错误率高的学习图像的特征量的权重顺序增加、以及错误率低的特征量的权重减小。因此,在重复性处理(步骤S102至S111中的处理)中,要在设置弱标识时选择的特征量(在步骤S102中选择的特征量)在它的错误率高的情况下逐渐倾向于容易被选择,相应地,随着重复地选择难以识别的特征量,重复学习,相应地,频繁地选择难以识别的学习图像的特征量,最终可以获得高识别率。
另外,在重复性处理(步骤S102至S111中的处理)中,标识选择单元65恒定地选择错误率最低的对所对应的弱标识,所以根据学习处理的重复,恒定地选择并且向标识叠加针对可靠性最高的一对特征点的弱标识,每次重复学习处理时按顺序叠加精度高的弱标识。
另外,标识是用于使用特征量辨识图像中是否包括作为目标对象的人的标识。要替换构成标识的每个弱标识的特征量所对应的一对特征点是特征点对中适合于从输入图像中检测目标对象的一对。
如上所述,把输入图像转换成不同分辨率的图像,对不同分辨率的图像进行滤波处理,从而可以提高计算效率,可以提高处理速度。从而,例如,可以实时地识别诸如人等的目标对象。
例如,在采用多个滤波器对多个尺度的图像进行处理的情况下,需要执行大量滤波器计算,结果,存在处理时间和吞吐量会增加的可能性。然而,对于本实施例,采用一个滤波器对多个尺度的图像进行处理,换言之,卷积节省为一个尺度,可以在没有大量计算的情况下执行处理,相应地,可以提高处理速度。
另外,在多尺度滤波器的情形中,当频率变低(高斯宽度σ增加)时,执行卷积运算耗费时间,但是根据本实施例,如上所述,滤波器可以由一个高斯宽度构成,不需要准备多个高斯宽度的滤波器,不需要用多个高斯宽度的滤波器执行计算。因此,根据本实施例,即使通过只准备一个最高高频滤波器执行处理,与多尺度滤波器的情形相比也可以显著提高处理速度。
使用区域平均差值作为滤波器的情形
以上针对使用形式诸如图3和图4中所示的滤波器的示例进行了描述。接下来,将针对使用形式诸如图14中所示的滤波器的情形进行描述。
图14中示出的滤波器A具有同样尺寸的区域302和区域303,这些区域以其间的预定间隔置于预定尺寸的图像301中(图像内预定尺寸的区域301内)。注意,对于如下描述,区域的尺寸表示示例并且不受限制,例如,区域302和区域303可以是不同尺寸的区域。
区域302和303均被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。此布局也是示例,其区域之间的间隔、布局位置、布局方向等等不代表限制。
滤波器A是用于计算位于区域302内像素的像素值的和(在下文中,“和302′”)以及位于区域303内像素的像素值的和(在下文中,“和303′”)、从和302′中减去和303′;并且把其差值作为特征量的滤波器。把和302′与和303′之间差的差值的绝对值作为特征量,此特征量不取决于差值的符号,相应地,期望对其配置以计算绝对值。
在图14中,将假设从用白色表示的区域(滤波器A中的区域302)中减去用黑色表示的区域(滤波器A中的区域303)来继续描述。另外,将在假设计算区域内像素值的和、但是会采用平均值而非和的情况下进行描述。
图14中示出的滤波器B具有不同尺寸的区域312和区域313,这些区域以其之间的预定间隔置于预定尺寸的图像311中(图像内预定尺寸的区域311内)。另外,区域312和区域313均被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。
滤波器B是用于通过计算位于区域312内像素的像素值的和与位于区域313内像素的像素值的和之间的差来计算特征量的滤波器。
区域312和区域313是不同尺寸的,所以例如,接连从区域312读取出像素值,而从区域313读取出像素值同时进行稀疏,所以使得从这些区域读取出的像素值的数量相同以用于计算差值。或者,由于生成多分辨率图像,所以可以通过使用多个多分辨率图像执行处理来计算差值。
例如,假定区域313的大小是区域312的四倍。另外,将把区域312作为参考,并把应用区域312的图像作为参考图像。此时,应用区域313的图像是放大为参考图像尺寸四倍的图像(多分辨率图像)。因而,以此方式使用多分辨率图像使得能够使从区域读取出的像素值的数量等相同,相应地,计算差值。
图14中示出的滤波器C具有不同尺寸的(或同样尺寸的)区域322至325,这些区域置于预定尺寸的图像321中(图像内预定尺寸的区域321内)。另外,区域322被置于水平方向上(矩形的长边面向图中的水平方向),而区域323至325均被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。
在应用滤波器C的情况下,首先,计算位于区域322内像素的像素值的和(在下文中,“和322′”)、以及位于区域323内像素的像素值的和(在下文中,“和323′”),并通过把和322′以及和323′相加计算相加值(在下文中,“相加值322″”)。另外,类似地,计算位于区域324内像素的像素值的和(在下文中,“和324′”)、以及位于区域325内像素的像素值的和(在下文中,“和325′”),并通过把和324′以及和325′相加计算相加值(在下文中,“相加值324″”)。
在计算相加值322″和相加值324″后,计算它们之间的差,并计算其差值的绝对值。滤波器C是把计算的绝对值作为特征量的滤波器。区域322至325是不同尺寸的,相应地,如在滤波器B中所述,把区域322至325分别应用于其每个的尺寸与每个区域的尺寸匹配的多分辨率图像,并计算区域内的和。
图14中示出的滤波器D具有不同尺寸的(或同样尺寸的)区域332至区域334,这些区域以其之间的预定间隔被置于预定尺寸的图像331中(图像内预定尺寸的区域331内)。另外,区域332被置于水平方向上(矩形的长边面向图中的水平方向),区域333和334均被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。另外,区域333和区域334被置于部分重叠的状态。
在应用滤波器D的情况下,计算位于区域332内像素的像素值的和(在下文中,“和332′”)、以及位于区域333内像素的像素值的和(在下文中,“和333′”),通过把和332′以及和333′相加计算相加值(在下文中,“相加值332″”)。另外,类似地,计算位于区域334内像素的像素值的和(在下文中,“和334′”)。
在计算相加值332″以及和334′后,计算它们之间的差,并计算其差值的绝对值。滤波器D是把计算的绝对值作为特征量的滤波器。区域332至334是不同尺寸的区域,相应地,如在滤波器B中所述,把区域332至334分别应用于其每个的尺寸与每个区域的尺寸匹配的多分辨率图像,并计算区域内的和。
图14中示出的滤波器E具有不同尺寸的(或同样尺寸的)区域342和343,这些区域以其之间的预定间隔被置于预定尺寸的图像341中(图像内预定尺寸的区域341内)。另外,区域342和区域343均被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。另外,区域342和区域343被置于区域343中包括区域342的状态(完全重叠)。
在应用滤波器E的情况下,首先,计算位于区域342内像素的像素值的和(在下文中,“和342′”),并计算位于区域343内像素的像素值的和(在下文中,“和343′”)。在计算和342′以及和343′后,计算它们之间的差,并计算其差值的绝对值。滤波器E是把计算的绝对值作为特征量的滤波器。区域342和343是不同尺寸的区域,相应地,如在滤波器B中所述,把区域342和343分别应用于其每个的尺寸与每个区域的尺寸匹配的多分辨率图像,并计算区域内的和。
图14中示出的滤波器F具有同样尺寸的区域352和区域353,这些区域以其之间的预定间隔被置于预定尺寸的图像351中(图像内预定尺寸的区域351内)。另外,区域352以倾斜方式置于区域351内,其倾斜使得图中其左上角朝向图14中示出的示例中的顶部。另外,区域353被置于面向竖直方向(即,矩形的长边面向图中的竖直方向)。
在应用滤波器F的情况下,首先,计算位于区域352内像素的像素值的和(在下文中,“和352′”),并计算位于区域353内像素的像素值的和(在下文中,“和353′”)。在计算和352′以及和353′后,计算它们之间的差,并计算其差值的绝对值。滤波器F是把计算的绝对值作为特征量的滤波器。
图14中示出的滤波器G具有不同尺寸的区域362和区域363,这些区域以其之间的预定间隔置于预定尺寸的图像361中(图像内预定尺寸的区域361内)。另外,区域362和区域363均以倾斜方式置于区域361内,其倾斜使得图中区域362的左上角以及区域363的右上角朝向图14中示出的示例中的顶部。
在应用滤波器G的情况下,计算位于区域362内像素的像素值的和(在下文中,“和362′”),并计算位于区域363内像素的像素值的和(在下文中,“和363′”)。在计算和362′以及和363′后,计算它们之间的差,并计算其差值的绝对值。滤波器G是把计算的绝对值作为特征量的滤波器。区域362和区域363是不同尺寸的区域,相应地,如在滤波器B中所述,把区域362和363分别应用于其每个的尺寸与每个区域的尺寸匹配的多分辨率图像,并计算区域内的和。
图14中示出的滤波器H具有不同尺寸的(或同样尺寸的)区域372至375,这些区域以其之间的预定间隔置于预定尺寸的图像371中(图像内预定尺寸的区域371内)。另外,区域372至374以倾斜方式置于区域371内,其倾斜使得图中区域372至374的右上角朝向图14中示出的示例中的顶部。另外,区域375以倾斜方式置于区域371内,其倾斜使得图中区域375的左上角朝向图14中示出的示例中的顶部。
在应用滤波器H的情况下,计算位于区域372内像素的像素值的和(在下文中,“和372′”)、以及位于区域373内像素的像素值的和(在下文中,“和373′”),并通过把和372′以及和373′相加计算相加值(在下文中,“相加值372″”)。另外,类似地,计算位于区域374内像素的像素值的和(在下文中,“和374′”)、以及位于区域375内像素的像素值的和(在下文中,“和375′”),并通过把和374′以及和375′相加计算相加值(在下文中,“相加值374″”)。
在计算相加值372″和相加值374″后,计算它们之间的差,并计算其差值的绝对值。滤波器H是把计算的绝对值作为特征量的滤波器。区域372至375是不同尺寸的,相应地,如在滤波器B中所述,把区域372至375分别应用于其每个的尺寸与每个区域的尺寸匹配的多分辨率图像,并计算区域内的和。
图14中示出的滤波器I具有不同尺寸的(或同样尺寸的)区域382至384,这些区域以其之间的预定间隔置于预定尺寸的图像381中(图像内预定尺寸的区域381内)。另外,区域382以倾斜方式置于区域381内,其倾斜使得图中其右上角朝向图14中示出的示例中的顶部。区域383和384均被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。另外,区域383和区域384被置于部分重叠的状态。
在应用滤波器I的情况下,计算位于区域382内像素的像素值的和(在下文中,“和382′”)、以及位于区域383内像素的像素值的和(在下文中,“和383′”),并通过把和382′以及和383′相加计算相加值(在下文中,“相加值382″”)。另外,类似地,计算位于区域384内像素的像素值的和(在下文中,“和384′”)。
在计算相加值382″以及和384′后,计算它们之间的差,并计算其差值的绝对值。滤波器I是把计算的绝对值作为特征量的滤波器。区域382至384是不同尺寸的,相应地,如在滤波器B中所述,把区域382至384分别应用于其每个的尺寸与每个区域的尺寸匹配的多分辨率图像,并计算区域内的和。
图14中示出的滤波器J具有不同尺寸的(或同样尺寸的)区域392和区域393,这些区域以其之间的预定间隔置于预定尺寸的图像391中(图像内预定尺寸的区域391内)。另外,区域392以倾斜方式被置于区域391内,其倾斜使得图中其左上角朝向图14中示出的示例中的顶部。另外,区域393被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。另外,区域392和区域393被置于区域393中包括区域392的状态(完全重叠)。
在应用滤波器J的情况下,计算位于区域392内像素的像素值的和(在下文中,“和392′”),并计算位于区域393内像素的像素值的和(在下文中,“和393′”)。在计算和392′以及和393′后,计算它们之间的差,并计算差值的绝对值。滤波器J是把计算的绝对值作为特征量的滤波器。区域392和393是不同尺寸的,相应地,如在滤波器B中所述,把区域392和393分别应用于其每个的尺寸与每个区域的尺寸匹配的多分辨率图像,并计算区域内的和。
以此方式,图14中示出的滤波器是包括两个或更多个区域、计算区域内像素值的和(或平均值)、并把该计算的和的差值的绝对值作为特征量的滤波器。另外,每个区域具有矩形形状,其布局位置不需要连续(相邻),且可以置于分开的位置中。另外,可以通过生成多分辨率图像并利用这些图像配置包括不同尺寸的区域的滤波器。
图15是示出了在采用诸如图14中示出的滤波器的情况下特征量计算单元24的配置的图。图15中示出的特征量计算单元24包括像素值相加单元411和差值计算单元412。像素值相加单元411把从特征点提取单元23(图1)提供的特征点的像素值相加。
例如,在采用滤波器A(图14)的情况下,特征点提取单元23提取位于区域302内的像素作为特征点,并且还把该特征点的像素值提供给特征量计算单元24的像素值相加单元411。像素值相加单元411通过把提供的像素值相加来计算区域302内像素值的和。类似地,特征点提取单元23提取位于区域303内的像素作为特征点,并且还把该特征点的像素值提供给特征量计算单元24的像素值相加单元411。像素值相加单元411通过把提供的像素值相加来计算区域303内像素值的和。
另外,例如,当使用诸如滤波器C的包括两个或更多个区域的滤波器计算特征量时,像素值相加单元411还适当执行用于把每个区域的像素值的和相加的处理。例如,在应用滤波器C的情况下,像素值相加单元411还执行用于把区域322的和与区域323的和相加、以及把区域324的和与区域325的和相加的处理。
注意,在诸如滤波器B的区域312和313尺寸不同的情况下,为了把从其中提取特征点的图像(从其读取出像素值的图像)转换成适合于区域尺寸的图像,特征点提取单元23还包括用于从多分辨率图像生成单元22处生成的多分辨率图像中选择适合于区域尺寸的多分辨率图像的处理。可替选地,配置多分辨率图像生成单元22以生成适合于应用特征点提取单元23的滤波器的区域的多分辨率图像、以及以提供此内容。
把特征量计算单元24的像素值相加单元411计算的和提供给差值计算单元412。差值计算单元412计算提供的和之间的差,并且把其差值的绝对值提供给标识生成单元25作为特征量。
标识生成单元25使用如此计算的特征量生成标识。标识生成单元25的配置可以与图5中示出的标识生成单元25相同,已参照图8中的流程图描述了其处理,相应地,在此将省略其描述。
使用直方图作为滤波器的情形
以上针对使用形式诸如图3、图4、或者图14中所示的滤波器的示例进行了描述。接下来,将针对使用形式诸如图16中所示的滤波器的情形进行描述。
图16中所示的滤波器A具有相同尺寸的区域502和区域503,这些区域以其之间的预定间隔置于预定尺寸的图像501中(图像内预定尺寸的区域501内)。另外,区域502和区域503均被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。
在应用滤波器A的情况下,根据位于区域502内的像素的像素值创建直方图,并计算其值(在下文中,“值502′”)。以同样的方式,根据位于区域503内的像素的像素值创建直方图,并计算其值(在下文中,“值503′”)。通过从值502′中减去值503′计算其之间的差值。滤波器A是特征量为此差值的滤波器。
值502′与值503′之间的差的差值的绝对值是特征量,所以特征量不取决于差值的符号,相应地,计算绝对值的配置是优选的。将在计算绝对值的理解下进行如下描述。
将在如下理解下根据图16继续描述:从根据用白色表示的区域(滤波器A的情形中的区域502)计算的值中减去根据用黑色表示的区域(滤波器A的情形中的区域503)计算的值。另外,将在如下假设下进行描述:将计算区域内像素的直方图值,所使用的直方图可以基于SIFT(尺度不变特征变换)或HOG(方向梯度直方图)。
图16中所示的滤波器B具有不同尺寸的区域512和区域513,这些区域以其之间的预定间隔置于预定尺寸的图像511中(图像内预定尺寸的区域511内)。另外,区域512和区域513均被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。
在应用滤波器B的情况下,根据位于区域512内像素的像素值创建直方图,并计算其值(在下文中,“值512′”)。以同样的方式,根据处于区域513内像素的像素值创建直方图,并计算其值(在下文中,“值513′”)。计算值512′与值513′之间的差值,并进一步计算其绝对值。滤波器B是通过把计算的绝对值作为特征量来计算特征量的滤波器。
区域512和区域513是不同尺寸的,所以例如,接连从区域512读取出像素值,而从区域513读取出像素值同时进行稀疏,因此使得从这些区域读取出的像素值的数量相同以用于计算差值。可替选地,由于生成多分辨率图像,所以可以通过使用多个多分辨率图像执行处理来计算差值。即,假定区域513的大小是区域512的四倍。另外,将把区域512作为参考,并把应用区域512的图像作为参考图像。此时,应用区域513的图像是放大为参考图像的尺寸四倍的图像(多分辨率图像)。以此方式使用多分辨率图像使得能够使从区域读取出的像素值的数量等相同,相应地,计算差值。
图16中所示的滤波器C具有不同尺寸的(或同样尺寸的)区域522至525,这些区域以其之间的预定间隔置于预定尺寸的图像521中(图像内预定尺寸的区域521内)。另外,区域522被置于水平方向上(矩形的长边面向图中的水平方向),而区域523至525被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。
在应用滤波器C的情况下,根据位于区域522内的像素的像素值创建直方图,并计算其值(在下文中,“值522′”)。以同样的方式,根据位于区域523内的像素的像素值创建直方图,并计算其值(在下文中,“值523′”)。计算通过把值522′和值523′相加获得的相加值(在下文中,“相加值522″”)。
以同样的方式,根据位于区域524内的像素的像素值创建直方图,并计算其值(在下文中,“值524′”)。另外,根据位于区域525内的像素的像素值创建直方图,并计算其值(在下文中,“值525′”)。计算通过把值524′和值525′相加获得的相加值(在下文中,“相加值524″”)。
在计算相加值522″和相加值524″后,计算其差,并计算差值的绝对值。滤波器C是通过把计算的绝对值作为特征量来计算特征量的滤波器。区域522至525是不同尺寸的,所以把区域522至525应用于与每个区域的尺寸匹配的多分辨率图像,并创建区域内的直方图,计算其值,如对于滤波器B的情形所述。
图16中所示的滤波器D具有不同尺寸的(或同样尺寸的)区域532至534,这些区域以其之间的预定间隔置于预定尺寸的图像531中(图像内预定尺寸的区域531内)。另外,区域532被置于水平方向上(矩形的长边面向图中的水平方向),而区域533和534被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。另外,区域533和区域534被置于部分重叠的状态。
在应用滤波器D的情况下,根据位于区域532内的像素的像素值创建直方图,并计算其值(在下文中,“值532′”)。以同样的方式,根据位于区域533内的像素的像素值创建直方图,并计算其值(在下文中,“值533′”)。计算通过把值532′和值533′相加获得的相加值(在下文中,“相加值532″”)。另外,以同样的方式,根据位于区域534内的像素的像素值创建直方图,并计算其值(在下文中,“值534′”)。
在计算相加值532″和值534′后,计算其差,并计算差值的绝对值。滤波器D是通过把计算的绝对值作为特征量来计算特征量的滤波器。区域532至534是不同尺寸的,所以把区域532至534应用于与每个区域的尺寸匹配的多分辨率图像,并计算区域内直方图的值,如对于滤波器B的情形所述。
图16中所示的滤波器E具有不同尺寸的(或同样尺寸的)区域542和543,这些区域以其之间的预定间隔置于预定尺寸的图像541中(图像内预定尺寸的区域541内)。另外,区域542和区域543被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。另外,区域542和区域543被置于区域543中包括区域542的状态(完全重叠)。
在应用滤波器E的情况下,根据位于区域542内的像素的像素值创建直方图,并计算其值(在下文中,“值542′”)。以同样的方式,根据位于区域543内的像素的像素值创建直方图,并计算其值(在下文中,“值543′”)。在计算值542′和值543′后,计算其差,并计算差值的绝对值。滤波器E是通过把计算的绝对值作为特征量来计算特征量的滤波器。区域542和区域543是不同尺寸的,所以把区域542和区域543应用于与每个区域的尺寸匹配的多分辨率图像,并计算区域内直方图的值,如对于滤波器B的情形所述。
图16中所示的滤波器F具有同样尺寸的区域552和区域553,这些区域以其之间的预定间隔置于预定尺寸的图像551中(图像内预定尺寸的区域551内)。另外,区域552以倾斜方式置于该区域内,其倾斜使得图中其左上角朝向图16中所示的示例中的顶部。另外,区域553被置于面向竖直方向(即,矩形的长边面向图中的竖直方向)。
在应用滤波器F的情况下,根据位于区域552内的像素的像素值创建直方图,并计算其值(在下文中,“值552′”),根据位于区域553内的像素的像素值创建直方图,并计算其值(在下文中,“值553′”)。在计算值552′和值553′后,计算其之间的差值,并计算差值的绝对值。滤波器F是把计算的绝对值作为特征量的滤波器。
图16中所示的滤波器G具有不同尺寸的区域562和区域563,这些区域以其之间的预定间隔置于预定尺寸的图像561中(图像内预定尺寸的区域561内)。另外,区域562和区域563以倾斜方式置于区域561内,其倾斜使得图中区域562的左上角以及区域563的右上角朝向图16中所示的示例中的顶部。
在应用滤波器G的情况下,根据位于区域562内的像素的像素值创建直方图,并计算其值(在下文中,“值562′”)。以同样的方式,根据位于区域563内的像素的像素值创建直方图,并计算其值(在下文中,“值563′”)。计算值562′与值563′之间的差值,并进一步计算其绝对值。滤波器G是通过把计算的绝对值作为特征量来计算特征量的滤波器。区域562和区域563是不同尺寸的,所以把区域562和563应用于与每个区域的尺寸匹配的多分辨率图像,创建区域内的直方图,并计算其值,如对于滤波器B的情形所述。
图16中所示的滤波器H具有不同尺寸的(或同样尺寸的)区域572至575,这些区域以其之间的预定间隔置于预定尺寸的图像571中(图像内预定尺寸的区域571内)。另外,区域572至575倾斜方式置于区域571内,其倾斜使得图中区域572至574右上角以及区域575左上角朝向图16中所示的示例中的顶部。
在应用滤波器H的情况下,根据位于区域572内的像素的像素值创建直方图,并计算其值(在下文中,“值572′”)。以同样的方式,根据位于区域573内的像素的像素值创建直方图,并计算其值(在下文中,“值573′”)。计算通过把值572′和值573′相加获得的相加值(在下文中,“相加值572″”)。
以同样的方式,根据位于区域574内的像素的像素值创建直方图,并计算其值(在下文中,“值574′”)。另外,根据位于区域575内的像素的像素值创建直方图,并计算其值(在下文中,“值575′”)。计算通过把值574′和值575′相加获得的相加值(在下文中,“相加值574″”)。
在计算相加值572″和相加值574″后,计算其差,并计算差值的绝对值。滤波器H是通过把计算的绝对值作为特征量来计算特征量的滤波器。区域572至575是不同尺寸的,所以把区域572至575应用于与每个区域的尺寸匹配的多分辨率图像,创建区域内的直方图,并计算其值,如对于滤波器B的情形所述。
图16中所示的滤波器I具有不同尺寸的(或同样尺寸的)区域582至584,这些区域以其之间的预定间隔置于预定尺寸的图像581中(图像内预定尺寸的区域581内)。另外,区域582以倾斜方式置于该区域内,其倾斜使得图中其右上角朝向图16中所示的示例中的顶部,而区域583和584被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。另外,区域583和区域584被置于部分重叠的状态。
在应用滤波器I的情况下,根据位于区域582内的像素的像素值创建直方图,并计算其值(在下文中,“值582′”)。以同样的方式,根据位于区域583内的像素的像素值创建直方图,并计算其值(在下文中,“值583′”)。计算通过把值582′和值583′相加获得的相加值(在下文中,“相加值582″”)。另外,以同样的方式,根据位于区域584内的像素的像素值创建直方图,并计算其值(在下文中,“值584′”)。
在计算相加值582′和值584′后,计算其差,并计算差值的绝对值。滤波器I是通过把计算的绝对值作为特征量来计算特征量的滤波器。区域582至584是不同尺寸的,所以把区域582至584应用于与每个区域的尺寸匹配的多分辨率图像,并计算区域内直方图的值,如对于滤波器B的情形所述。
图16中所示的滤波器J具有不同尺寸的(或同样尺寸的)区域592和593,这些区域以其之间的预定间隔置于预定尺寸的图像591中(图像内预定尺寸的区域591内)。另外,区域592以倾斜方式被置于该区域内,其倾斜使得图中其左上角朝向图16中所示的示例中的顶部。区域593被置于面向竖直方向(即,矩形的长边面向图中的竖直方向)。另外,区域592和区域593被置于区域593中包括区域592的状态(完全重叠)。
在应用滤波器J的情况下,根据位于区域592内的像素的像素值创建直方图,并计算其值(在下文中,“值592′”),根据位于区域593内的像素的像素值创建直方图,并计算其值(在下文中,“值593′”)。在计算值592′和值593′后,计算其差,并计算差值的绝对值。滤波器J是通过把计算的绝对值作为特征量来计算特征量的滤波器。区域592和区域593是不同尺寸的,所以把区域592和区域593应用于与每个区域的尺寸匹配的多分辨率图像,并计算区域内直方图的值,如对于滤波器B的情形所述。
如上所述,图16中所示的滤波器是具有两个或更多个区域的滤波器,其中,创建区域内像素值的直方图,计算其值,并把计算值的差值的绝对值作为特征量。另外,每个区域不必须被形成为其放置位置为连续(相邻)的矩形,而是可以放置在远端位置处。另外,可以通过生成和使用多分辨率图像来配置具有不同尺寸的区域的滤波器。
注意,虽然以上实施例描述了具有两个或更多个区域以及创建区域内的像素值的直方图,但是可以做出计算直方图的值以使得把直方图的和归一化成1的安排。可以做出使用归一化后的直方图值以执行诸如上述运算,即计算区域之间的差并计算其绝对值)的安排。
通过归一化以使得直方图的和是1,即使应用具有例如如同对于滤波器B的不同尺寸的区域512和区域513的滤波器的情形,也可以允许同一尺度上的比较。同一尺度上的比较例如意思是使用同一分辨率的多分辨率图像进行处理。使用同一分辨率的多分辨率图像执行处理允许相比于使用多个分辨率的多分辨率图像的处理的情形而言改进处理进程的数量、以及处理速度。
图17是示出了在使用诸如图16中所示的滤波器的情形中特征量计算单元24的配置的图。图17中所示的特征量计算单元24具有直方图创建单元611和差值计算单元612。直方图创建单元611根据从特征点提取单元23(图1)提供的特征点的像素值创建直方图,并计算其值。
例如,在应用滤波器A(图16)的情形中,特征点提取单元23提取位于区域502内的像素作为特征点,并且把特征点的像素值提供给特征量计算单元24的直方图创建单元611。直方图创建单元611针对提供的像素值创建直方图,并计算其值。以同样的方式,特征点提取单元23提取位于区域503内的像素作为特征点,并且把特征点的像素值提供给特征量计算单元24的直方图创建单元611。
另外,在用具有多于两个区域的滤波器、如例如滤波器C计算特征量的情况下,直方图创建单元611适当执行把每个区域的像素值的直方图的值相加的处理。例如,在应用滤波器C的情况下,直方图创建单元611还执行把区域522的直方图的值与区域523的直方图的值相加、以及把区域524的直方图的值与区域525的直方图的值相加的处理。
注意,在区域512和区域513的尺寸如在滤波器B的情形中不同的情况下,特征点提取单元23还执行用于从多分辨率图像生成单元22处生成的多分辨率图像中选择适合于区域尺寸的多分辨率图像的处理,以使得要从其中提取特征点的图像(要从其读取出像素值的图像)是适合于区域的尺寸的图像。另外,多分辨率图像生成单元22生成适合于特征点提取单元23应用的滤波器区域的多分辨率图像,以向其提供。
另外,在配置直方图创建单元611以执行归一化以使得直方图的和是1的情况下,即使应用包括不同尺寸的区域的滤波器的情形也可以通过使用同一分辨率的多分辨率图像执行处理来进行处理。在此情形中,特征点提取单元23从自多分辨率图像生成单元22提供的多分辨率图像中选择一个多分辨率图像,并且从选择的多分辨率图像中提取提供给直方图创建单元611的特征点。另外,在此情形中,可以把直方图创建单元611布置成使用多个多分辨率图像以把同一滤波器应用于每个多分辨率图像并计算特征点。
把特征量计算单元24的直方图创建单元611计算的直方图的值提供给差值计算单元612。差值计算单元612计算提供的直方图值之间的差,并且把其差值的绝对值提供给标识生成单元25。
标识生成单元25使用以此方式计算的特征量生成标识。标识生成单元25的配置可以与图5中所示的标识生成单元25相同,已参照图8中的流程图描述了其处理,因此将省略其描述。
使用区域差值作为滤波器的情形
以上针对使用形式诸如图3、图4、图14、或者图16中所示的滤波器的示例进行了描述。接下来,将针对使用形式诸如图18中所示的滤波器的情形进行描述。
图18中所示的滤波器A具有同样尺寸的区域702和区域703,这些区域以其之间的预定间隔置于预定尺寸的图像701中(图像内预定尺寸的区域701内)。另外,区域702和区域703均被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。
滤波器A是计算位于区域702内的像素的像素值与位于区域703内的像素的像素值之间的差的值、并且把差值作为特征量的滤波器。在区域702和区域703是同样尺寸的区域的情况下,比较位于区域内对应位置处的像素,并计算其差值。
差值的绝对值是特征量,所以特征量不取决于差值的符号,相应地,计算绝对值的配置是优选的。将在计算绝对值的理解下进行如下描述。另外,可以使用亮度值作为像素值。
图18中所示的滤波器B具有不同尺寸的区域712和区域713,这些区域以其之间的预定间隔置于预定尺寸的图像711中(图像内预定尺寸的区域711内)。另外,区域712和区域713均被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。
滤波器B是通过计算位于区域712内的像素的像素值与位于区域713内的像素的像素值之间的差来计算特征量的滤波器。
区域712和区域713是不同尺寸的,所以例如,接连从区域712读取出像素值,而从区域713读取出像素值同时进行稀疏,以使得从这些区域读取出的像素值的数量相同以用于计算差值。可替选地,由于生成多分辨率图像,所以可以通过使用多个多分辨率图像执行处理来计算差值。即,假定区域713的大小是区域712的四倍。另外,将把区域712作为参考,并把应用区域712的图像作为参考图像。此时,应用区域713的图像是放大为参考图像尺寸四倍的图像(多分辨率图像)。以此方式使用多分辨率图像使得能够使从区域读取出的像素值的数量等相同,相应地,计算差值。
图18中所示的滤波器C具有不同尺寸的(或同样尺寸的)区域722至725,这些区域以其之间的预定间隔置于预定尺寸的图像721中(图像内预定尺寸的区域721内)。另外,区域722被置于水平方向上(矩形的长边面向图中的水平方向),而区域723至725被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。
在应用滤波器C的情况下,计算位于区域722内的像素的像素值、位于区域723内的像素的像素值、位于区域724内的像素的像素值、以及位于区域725内的像素的像素值之间的差值。在以此方式滤波器中包括多于两个区域的情况下,从位于参考区域中的像素值中按次序减去位于其它区域中的像素值,从而计算差值。可替选地,可以做出根据两个区域的像素值计算差值、以及进一步计算这些差值的差值的安排。
图18中所示的滤波器是用于通过计算位于预定区域中的像素值之间的差值来计算特征量的滤波器,可以适当地改变获得差值的方式、使用哪个区域根据哪个区域计算差值等等。另外,如何获得差值本身可以用作滤波器的特征。
例如,从区域722中依次减去区域723、区域724、以及区域725的情形与从区域722中依次减去区域725、区域724、以及区域723的情形可以产生获得不同的特征量,存在可以检测的轮廓和对象将根据特征的差别而不同的可能性。相应地,同一滤波器可以采用计算差值的不同方式执行学习。其它滤波器可以按同样的方式、应用各种方式的计算。将在通过把预定区域作为参考、以及从该区域中按顺序执行减法来计算差值的理解下进行如下描述。
图18中所示的滤波器D具有不同尺寸的(或同样尺寸的)区域732至734,这些区域以其之间的预定间隔置于预定尺寸的图像731中(图像内预定尺寸的区域731内)。另外,区域732被置于水平方向上(矩形的长边面向图中的水平方向),而区域733和734被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。另外,区域733和区域734被置于部分重叠的状态。
在应用滤波器D的情况下,计算位于区域732内的像素的像素值、位于区域733内的像素的像素值、以及位于区域734内的像素的像素值之间的差值,并计算差值的绝对值。滤波器D是通过把计算的绝对值作为特征量来计算特征量的滤波器。区域732至734是不同尺寸的,所以把区域732至734应用于与每个区域的尺寸匹配的多分辨率图像,并计算区域内像素之间的差值,如对于滤波器B的情形所述。
图18中所示的滤波器E具有不同尺寸的(或同样尺寸的)区域742和743,这些区域以其之间的预定间隔置于预定尺寸的图像741中(图像内预定尺寸的区域741内)。另外,区域742和区域743被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。另外,区域742和区域743置于区域743中包括区域742的状态(完全重叠)。
滤波器E是通过计算位于区域742内的像素的像素值与位于区域743内的像素的像素值之间的差、并把计算的绝对值作为特征量来计算特征量的滤波器。区域742和区域743是不同尺寸的,所以把区域742和区域743应用于与每个区域的尺寸匹配的多分辨率图像,并计算区域内像素之间的差值,如对于滤波器B的情形所述。
图18中所示的滤波器F具有同样尺寸的区域752和区域753,这些区域以其之间的预定间隔置于预定尺寸的图像751中(图像内预定尺寸的区域751内)。另外,区域752以倾斜方式被置于该区域内,其倾斜使得图中其左上角朝向图18中所示的示例中的顶部。另外,区域753被置于面向竖直方向(即,矩形的长边面向图中的竖直方向)。
滤波器F是通过计算位于区域752内的像素的像素值与位于区域753内的像素的像素值之间的差、并把计算的绝对值作为特征量来计算特征量的滤波器。对于滤波器F,区域752以倾斜方式放置,但是在把区域752和区域753排列在同一方向上的假设下把区域内位置处的像素与对应区域处的像素相比较,从而计算差值。
图18中所示的滤波器G具有不同尺寸的区域762和区域763,这些区域以其之间的预定间隔置于预定尺寸的图像761中(图像内预定尺寸的区域761内)。另外,区域762和区域763以倾斜方式置于区域761内,其倾斜使得图中区域762的左上角以及区域763的右上角朝向图18中所示的示例中的顶部。
滤波器G是通过计算位于区域762内的像素的像素值与位于区域763内的像素的像素值之间的差、并把计算的绝对值作为特征量来计算特征量的滤波器。区域762和区域763是不同尺寸的,所以把区域762和763应用于与每个区域的尺寸匹配的多分辨率图像,并计算区域内像素之间的差值,如对于滤波器B的情形所述。
图18中所示的滤波器H具有不同尺寸的(或同样尺寸的)区域772至775,这些区域以其之间的预定间隔置于预定尺寸的图像771中(图像内预定尺寸的区域771内)。另外,区域772至775以倾斜方式置于区域771内,其倾斜使得图中区域772至774的右上角以及区域775的左上角朝向图18中所示的示例中的顶部。
滤波器H是通过计算位于区域772内的像素的像素值、位于区域773内的像素的像素值、位于区域774内的像素的像素值、以及位于区域775内的像素的像素值之间的差,并且把计算的绝对值作为特征量来计算特征量的滤波器。区域772至775是不同尺寸的,所以把区域772至775应用于与每个区域的尺寸匹配的多分辨率图像,并计算区域内像素之间的差值,如对于滤波器B的情形所述。
图18中所示的滤波器I具有不同尺寸的(或同样尺寸的)区域782至784,这些区域以其之间的预定间隔置于预定尺寸的图像781中(图像内预定尺寸的区域781内)。另外,区域782以倾斜方式置于该区域内,其倾斜使得图中其右上角朝向图18中所示的示例中的顶部,而区域783和784被置于面向竖直方向(即,矩形的长边面向同一方向,即图中的竖直方向)。另外,区域783和区域784被置于部分重叠的状态。
滤波器I是通过计算位于区域782内的像素的像素值、位于区域783内的像素的像素值、以及位于区域784内的像素的像素值之间的差,并把计算的绝对值作为特征量来计算特征量的滤波器。区域782至784是不同尺寸的,所以把区域782至784应用于与每个区域的尺寸匹配的多分辨率图像,并计算区域内像素之间的差值,如对于滤波器B的情形所述。
图18中所示的滤波器J具有不同尺寸的(或同样尺寸的)区域792和793,这些区域以其之间的预定间隔置于预定尺寸的图像791中(图像内预定尺寸的区域791内)。另外,区域792以倾斜方式置于该区域内,其倾斜使得图中其左上角朝向图18中所示的示例中的顶部。区域793被置于面向竖直方向(即,矩形的长边面向图中的竖直方向)。另外,区域792和区域793被置于区域793中包括区域792的状态(完全重叠)。
滤波器J是通过计算位于区域792内的像素的像素值与位于区域793内的像素的像素值之间的差,并把计算的绝对值作为特征量来计算特征量的滤波器。区域792和区域793是不同尺寸的,所以把区域792和区域793应用于与每个区域的尺寸匹配的多分辨率图像,并计算区域内像素之间的差值,如对于滤波器B的情形所述。
如上所述,图18中所示的滤波器是具有两个或更多个区域的滤波器,其中,计算区域内像素值之间的差值,并把计算的差值的绝对值作为特征量。另外,每个区域不必须被形成为其放置位置连续(相邻)的矩形,而是可以放置在远端位置处。另外,可以通过生成和使用多分辨率图像配置具有不同尺寸的区域的滤波器。
图19是示出了在使用诸如图18中所示的滤波器的情形中特征量计算单元24的配置的图。图19中所示的特征量计算单元24具有像素值相减单元811。像素值相减单元811把从特征点提取单元23(图1)提供的特征点的像素值相减。
例如,在使用滤波器A(图18)的情形中,特征点提取单元23提取位于区域702内的像素作为特征点,并且把特征点的像素值提供给特征量计算单元24的像素值相减单元811。以同样的方式,特征点提取单元23提取位于区域703内的像素作为特征点,并且把特征点的像素值提供给特征量计算单元24的像素值相减单元811。像素值相减单元811从提供的像素值之一中减去另一个像素值。像素值相减单元811还计算相减结果(差值)的绝对值,并将其输出到标识生成单元25作为特征量。
另外,在用具有多于两个区域的滤波器、如例如滤波器C计算特征量的情况下,像素值相减单元811执行从区域的像素值的差值中进一步减去其它区域的像素值的处理。例如,在应用滤波器C的情况下,像素值相减单元811还执行计算区域722与区域723的像素之间的差值的处理,随后从该差值中依次减去区域724和区域725的像素值。
注意,如在滤波器B的情形中在区域712和区域713的尺寸不同的情况下,特征点提取单元23还执行用于从多分辨率图像生成单元22处生成的多分辨率图像中选择适合于区域尺寸的多分辨率图像的处理,以使得要从其中提取特征点的图像(要从其读取出像素值的图像)是适合于区域的尺寸的图像。另外,多分辨率图像生成单元22生成适合于特征点提取单元23应用的滤波器区域的多分辨率图像,以向其提供。
标识生成单元25使用以此方式计算的特征量生成标识。已参照图8中的流程图描述了标识生成单元25的处理,所以将省略其描述。
修改
可以把上述滤波器单独应用于预定图像,或者可以把多个滤波器合并并应用于预定图像。
关于识别处理
接下来,将针对用于使用学习的结果例如检测(识别)诸如人的物体的处理进行附加描述。在把输入图像输入到识别设备13、以及指示了作为目标对象的人的检测后,识别设备13开始人检测处理,以从输入图像中检测目标对象。如下内容是采用识别设备13的人检测处理的描述。
注意,可以按与学习设备11的图像输入单元21、多分辨率图像生成单元22、特征点提取单元23、以及特征量计算单元24相同的方式配置识别设备13的图像输入单元31、多分辨率图像生成单元32、特征点提取单元33、以及特征量计算单元34。相应地,以上针对学习设备11的图像输入单元21、多分辨率图像生成单元22、特征点提取单元23、以及特征量计算单元24进行的描述,以及针对滤波器等的描述可应用于识别设备13,所以将在此省略这种冗余的详细描述。
在步骤S151中,识别设备13的图像输入单元31输入提供给多分辨率图像生成单元32的要识别的图像,之后,多分辨率图像生成单元32生成多分辨率图像。以与对于例如上述步骤S11(图6)相同的方式执行此处理,已经进行了其详细的描述,所以在此将省略其详细描述。
注意,当多分辨率图像生成单元32生成多分辨率图像时,生成尺度(分辨率)与学习设备11的多分辨率图像生成单元22生成的多分辨率图像相同的图像。把学习时的尺度系数(与分辨率有关的信息)与识别时的尺度系数匹配允许在识别时执行高效的扫描。
在步骤S152中,特征点提取单元33执行与图6中步骤S12的处理相同的处理,以从输入了的输入图像中提取特征点并把提取的特征点随输入图像一起提供给特征量计算单元34。相应地,提取的特征点的位置和数量根据使用的是哪种滤波器而不同。另外,应用的多分辨率图像是适用于滤波器的图像。
在步骤S153中,特征量计算单元34基于来自特征点提取单元33的特征点和输入图像执行特征量计算,并计算每个特征点的特征量。特征量计算单元34随后把获得的特征量提供给辨识计算单元35。注意,此特征量计算处理是与参照图7描述的特征量计算处理相同的处理,所以在此将省略其描述。另外,对于本发明的实施例,可以把各种滤波器用于特征量计算处理,诸如上述滤波器,例如图14中所示的滤波器A。
在步骤S154中,辨识计算单元35从标识存储单元12中读取出标识以及用于辨识的特征量,代入读取出的标识中的特征量并执行其计算。即,辨识计算单元35把来自特征量计算单元34的特征量中对应于用于辨识的特征量的那些特征量代入到表达式(7)或表达式(8)表示的标识中,并执行运算。
现在,要代入到构成标识的弱标识中的特征量是从输入图像上与学习图像的相同位置处的特征点对或特征点相同的位置处的特征点对或特征点获得的特征量。另外,用作用于辨识的特征量的特征量是用于在统计学习处理时设置构成标识的弱标识的特征量。
例如,在执行表达式(7)的运算后,获得表示作为目标对象的人存在于输入图像内的“+1”、或者表示作为目标对象的人不存在于输入图像内的“-1”作为运算的结果。辨识计算单元35把来自标识的运算结果提供给辨识结果输出单元36。
在步骤S155中,辨识结果输出单元36基于来自辨识计算单元35的运算结果输出目标(人)的检测结果,目标检测处理结束。即,输出是否在输入图像中识别出了目标对象的辨识结果。
例如,可以做出如下这种安排:在辨识结果输出单元36上显示其中在显示作为目标对象的人的区域中显示框的输入图像,作为是否在输入图像中识别出了目标对象的辨识结果。
因而,识别设备13从输入图像中提取特征点以及获得特征点对的特征量,并且还从输入图像中提取特征点以及获得特征量。识别设备13随后使用获得的特征量和特征量、以及标识存储单元12中记录的标识从输入图像中检测目标对象。相应地,可以通过使用特征量从输入图像中检测目标对象而以更可靠的方式从图像中检测目标对象。
关于记录介质
上述一系列处理可以通过硬件执行,或者可以通过软件执行。在通过软件执行这一系列处理的情形中,把构成软件的程序安装在计算机中。在此所使用的术语“计算机”涵盖内置到专用硬件中的计算机、能够通过其中安装的各种类型的程序来执行各种类型的功能的通用计算机(其示例是个人计算机)等等。
图21是示出了根据程序执行上述一系列处理的计算机硬件的配置示例的框图。对于计算机,CPU(中央处理单元)1001、以及ROM(只读存储器)1002、RAM(随机访问存储器)1003经由总线1004相互连接。输入/输出接口1005进一步连接到总线1004。输入单元1006、输出单元1007、存储单元1008、通信单元1009、以及驱动器1010连接到输入/输出接口1005。
输入单元1006由键盘、鼠标、麦克风等构成。输出单元1007由显示器、扬声器等构成。存储单元1008由诸如硬盘、非易失性存储器等的存储器构成。驱动器1010驱动诸如磁盘、光盘、磁光盘、半导体存储器等的可拆除介质1011。
对于如上所述配置的计算机,CPU 1001经由输入/输出接口1005和总线1004把例如存储单元1008中存储的程序加载到RAM 1003中并执行程序,从而进行上述一系列处理。
可以把计算机(CPU 1001)执行的程序记录在可拆除介质1011中作为例如封装介质等来提供。另外,可以借助于诸如局域网、互联网、数字卫星广播等线缆或无线传输介质提供程序。
对于计算机,可以通过把可拆除介质1011装配到驱动器1010而经由输入/输出接口1005把程序安装到存储单元1008。另外,可以通过经由线缆或无线传输介质在通信单元1009处接收而把程序安装到存储单元1008。可替选地,可以预先把程序安装在ROM 1002或存储单元1008中。
应当注意,计算机执行的程序可以是以时间顺序按照本说明书中描述的次序执行处理的程序、或者可以是在诸如调用时等适当的时刻执行处理的程序。还应当注意,对于本说明书,术语“系统”指的是由多个设备构成的装备的整体。
应当理解,本发明的实施例不限于上述内容,可以在不脱离本发明实质的情况下进行各种修改。
本申请包含与2009年12月3日提交于日本专利局的日本在先专利申请JP 2009-275815中公开的主题相关的主题,其全部内容通过引用合并于此。
本领域的技术人员应当理解,根据设计需要和其它因素,可以进行各种修改、组合、子组合和变换,只要它们在所附权利要求或其等价内容的范围内。

Claims (22)

1.一种学习设备,包括:
生成装置,被配置成根据输入图像生成分辨率不同的图像;
提取装置,被配置成从所述生成装置生成的图像中提取作为处理对象的特征点;
计算装置,被配置成通过采用预定滤波器对所述特征点进行滤波处理来计算所述特征点的特征量;以及
标识生成装置,被配置成通过采用所述特征量的统计学习生成用于从图像中检测预定目标对象的标识;
其中,所述滤波器包括多个区域,所述计算装置把所述区域内差的差值作为特征量。
2.如权利要求1所述的学习设备,其中,所述预定滤波器的区域具有矩形形状。
3.如权利要求1所述的学习设备,其中,所述计算装置按任意角度以高斯函数预定阶的微分函数执行卷积运算,以计算运算结果的绝对值的和。
4.如权利要求1所述的学习设备,其中,所述计算装置按任意角度以高斯函数预定阶的微分函数执行卷积运算,以计算运算结果的绝对值的最大值。
5.如权利要求1所述的学习设备,其中,所述计算装置针对所述多个区域中的每个区域计算位于区域内的像素的像素值的和或平均值,计算该和或平均值的差,并且把该差值的绝对值作为所述特征量。
6.如权利要求1所述的学习设备,其中,所述计算装置针对所述多个区域中的每个区域根据位于区域内的像素的像素值创建直方图,计算其值的差,并且把其差值的绝对值作为所述特征量。
7.如权利要求1所述的学习设备,其中,所述计算装置针对所述多个区域中的每个区域根据位于区域内的像素的像素值创建直方图,执行归一化以使得其直方图的和为1,计算归一化的直方图的值的差,并且把其差值的绝对值作为所述特征量。
8.如权利要求1所述的学习设备,其中,所述计算装置把应用于作为参考的特征点的滤波器应用于位于用作该参考的特征点附近的多个特征点,把根据这多个特征点计算的特征量的和或平均值作为用作参考的特征点的特征量。
9.一种学习方法,包括以下步骤:
根据输入图像生成分辨率不同的图像;
从生成的图像中提取特征点;
通过采用预定滤波器对所述特征点进行滤波处理来计算所述特征点的特征量;以及
通过采用所述特征量的统计学习生成用于从图像中检测预定目标对象的标识;
其中,所述滤波器包括多个区域,并且这些区域内差的差值被作为所述特征量。
10.一种计算机可读程序,用于使得计算机执行包括如下步骤的处理:
根据输入图像生成分辨率不同的图像;
从生成的图像中提取特征点;
通过采用预定滤波器对所述特征点进行滤波处理来计算所述特征点的特征量;以及
通过采用所述特征量的统计学习生成用于从图像中检测预定目标对象的标识;
其中,所述滤波器包括多个区域,并且这些区域内差的差值被作为所述特征量。
11.一种识别设备,包括:
生成装置,被配置成根据输入图像生成分辨率不同的图像;
提取装置,被配置成从所述生成装置生成的图像中提取特征点;
计算装置,被配置成通过采用预定滤波器对所述特征点进行滤波处理来计算所述特征点的特征量;以及
检测装置,被配置成用所述特征量替换通过统计学习获得的、用于从图像中检测预定目标对象的标识,以从所述输入图像中检测目标对象;
其中,所述滤波器包括多个区域,并且所述计算装置把区域内差的差值作为所述特征量。
12.如权利要求11所述的识别设备,其中,所述预定滤波器的区域具有矩形形状。
13.如权利要求11所述的识别设备,其中,所述计算装置按任意角度以高斯函数预定阶的微分函数执行卷积运算,以计算运算结果的绝对值的和。
14.如权利要求11所述的识别设备,其中,所述计算装置按任意角度以高斯函数预定阶的微分函数执行卷积运算,以计算运算结果的绝对值的最大值。
15.如权利要求11所述的识别设备,其中,所述计算装置针对所述多个区域中的每个区域计算位于区域内的像素的像素值的和或平均值,计算该和或平均值的差,并且把该差值的绝对值作为所述特征量。
16.如权利要求11所述的识别设备,其中,所述计算装置针对所述多个区域中的每个区域根据位于区域内的像素的像素值创建直方图,计算其值的差,并且把其差值的绝对值作为所述特征量。
17.如权利要求11所述的识别设备,其中,所述计算装置针对所述多个区域中的每个区域根据位于区域内的像素的像素值创建直方图,执行归一化以使得其直方图的和为1,计算归一化的直方图的值的差,并且把其差值的绝对值作为所述特征量。
18.如权利要求11所述的识别设备,其中,所述计算装置把应用于作为参考的特征点的滤波器应用于位于用作该参考的特征点附近的多个特征点,把根据这多个特征点计算的特征量的和或平均值作为用作参考的特征点的特征量。
19.一种识别方法,包括以下步骤:
根据输入图像生成尺度系数不同的图像;
从生成的图像中提取特征点;
通过采用预定滤波器对所述特征点进行滤波处理来计算所述特征点的特征量;以及
用所述特征量替换通过统计学习获得的、用于从图像中检测预定目标对象的标识,以从所述输入图像中检测目标对象;
其中,所述滤波器包括多个区域,并且区域内差的差值被作为所述特征量。
20.一种计算机可读程序,用于使得计算机执行包括如下步骤的处理:
根据输入图像生成尺度系数不同的图像;
从生成的图像中提取特征点;
通过采用预定滤波器对所述特征点进行滤波处理来计算所述特征点的特征量;以及
用所述特征量替换通过统计学习获得的、用于从图像中检测预定目标对象的标识,以从所述输入图像中检测目标对象;
其中,所述滤波器包括多个区域,并且区域内差的差值被作为所述特征量。
21.一种学习设备,包括:
生成单元,被配置成根据输入图像生成分辨率不同的图像;
提取单元,被配置成从所述生成单元生成的图像中提取作为处理对象的特征点;
计算单元,被配置成通过采用预定滤波器对所述特征点进行滤波处理来计算所述特征点的特征量;以及
标识生成单元,被配置成通过采用所述特征量的统计学习生成用于从图像中检测预定目标对象的标识;
其中,所述滤波器包括多个区域,所述计算单元把区域内差的差值作为所述特征量。
22.一种识别设备,包括:
生成单元,被配置成根据输入图像生成分辨率不同的图像;
提取单元,被配置成从所述生成单元生成的图像中提取特征点;
计算单元,被配置成通过采用预定滤波器对所述特征点进行滤波处理来计算所述特征点的特征量;以及
检测单元,被配置成用所述特征量替换通过统计学习获得的、用于从图像中检测预定目标对象的标识,以从输入图像中检测目标对象;
其中,所述滤波器包括多个区域,并且所述计算单元把区域内差的差值作为所述特征量。
CN2010105705922A 2009-12-03 2010-11-26 学习设备和方法、识别设备和方法、以及程序 Pending CN102087710A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009275815A JP2011118694A (ja) 2009-12-03 2009-12-03 学習装置および方法、認識装置および方法、並びにプログラム
JP2009-275815 2009-12-03

Publications (1)

Publication Number Publication Date
CN102087710A true CN102087710A (zh) 2011-06-08

Family

ID=44082070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010105705922A Pending CN102087710A (zh) 2009-12-03 2010-11-26 学习设备和方法、识别设备和方法、以及程序

Country Status (3)

Country Link
US (1) US9275305B2 (zh)
JP (1) JP2011118694A (zh)
CN (1) CN102087710A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156699A (zh) * 2015-03-31 2016-11-23 联想(北京)有限公司 图像处理装置和图像匹配方法
CN108335287A (zh) * 2017-01-18 2018-07-27 株式会社理光 信息处理装置和信息处理方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194122A (zh) * 2010-03-05 2011-09-21 索尼公司 对图像进行分类的方法和设备
JP5671928B2 (ja) * 2010-10-12 2015-02-18 ソニー株式会社 学習装置、学習方法、識別装置、識別方法、およびプログラム
JP2012198781A (ja) * 2011-03-22 2012-10-18 Sony Corp 情報処理装置、情報処理方法およびプログラム
JP6098498B2 (ja) * 2013-12-19 2017-03-22 ソニー株式会社 情報処理装置、情報処理方法、並びにプログラム
RU2640322C2 (ru) * 2014-01-30 2017-12-27 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов
JP6338429B2 (ja) * 2014-04-15 2018-06-06 キヤノン株式会社 被写体検出装置、被写体検出方法及びプログラム
CN107710731B (zh) 2015-06-26 2021-05-04 麦克赛尔株式会社 摄像装置以及图像处理方法
US10303977B2 (en) * 2016-06-28 2019-05-28 Conduent Business Services, Llc System and method for expanding and training convolutional neural networks for large size input images
CN107967691B (zh) * 2016-10-20 2021-11-23 株式会社理光 一种视觉里程计算方法和装置
US10558870B2 (en) * 2016-11-08 2020-02-11 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
US20190272620A1 (en) * 2018-03-05 2019-09-05 Jared Siegwarth Seip System and method for image upscaling
CN117372722B (zh) * 2023-12-06 2024-03-22 广州炫视智能科技有限公司 一种目标识别方法及识别系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458764A (zh) * 2007-12-07 2009-06-17 索尼株式会社 学习设备、学习方法、识别设备、识别方法和程序

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8396285B2 (en) * 2009-04-20 2013-03-12 Hewlett-Packard Development Company, L.P. Estimating vanishing points in images

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458764A (zh) * 2007-12-07 2009-06-17 索尼株式会社 学习设备、学习方法、识别设备、识别方法和程序

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156699A (zh) * 2015-03-31 2016-11-23 联想(北京)有限公司 图像处理装置和图像匹配方法
CN106156699B (zh) * 2015-03-31 2019-06-25 联想(北京)有限公司 图像处理装置和图像匹配方法
CN108335287A (zh) * 2017-01-18 2018-07-27 株式会社理光 信息处理装置和信息处理方法

Also Published As

Publication number Publication date
US9275305B2 (en) 2016-03-01
JP2011118694A (ja) 2011-06-16
US20110135192A1 (en) 2011-06-09
US20150161481A9 (en) 2015-06-11

Similar Documents

Publication Publication Date Title
CN102087710A (zh) 学习设备和方法、识别设备和方法、以及程序
Chaki et al. Plant leaf recognition using texture and shape features with neural classifiers
US20220180622A1 (en) Weakly supervised image semantic segmentation method, system and apparatus based on intra-class discriminator
JP5041229B2 (ja) 学習装置および方法、認識装置および方法、並びにプログラム
Wang et al. Leaf image classification with shape context and sift descriptors
Su et al. An effective staff detection and removal technique for musical documents
JP2008287439A (ja) 画像処理装置及び画像検索方法
CN102982305A (zh) 信息处理设备和处理信息的方法、存储介质以及程序
Csurka et al. What is the right way to represent document images?
Cholakkal et al. A classifier-guided approach for top-down salient object detection
Bouni et al. Impact of pretrained deep neural networks for tomato leaf disease prediction
Anjomshoae et al. Enhancement of template-based method for overlapping rubber tree leaf identification
CN101414352B (zh) 信息处理设备和信息处理方法
CN111127407B (zh) 一种基于傅里叶变换的风格迁移伪造图像检测装置及方法
Moysset et al. Space displacement localization neural networks to locate origin points of handwritten text lines in historical documents
De Croon et al. Adaptive gaze control for object detection
CN101546379A (zh) 计算机可读记录介质、字符识别设备和字符识别方法
CN115546862A (zh) 基于跨尺度局部差异深度子空间特征的表情识别方法和系统
Wu et al. An accurate feature point matching algorithm for automatic remote sensing image registration
Lian et al. Fast pedestrian detection using a modified WLD detector in salient region
Rauyani et al. ROI based Indonesian Paper Currency Recognition Using Canny Edge Detection
Dijaya et al. Corn Plant Disease Identification Using SURF-based Bag of Visual Words Feature
Liu et al. An iris recognition approach with SIFT descriptors
Schuch et al. Minutia-based enhancement of fingerprint samples
Huq et al. Combined zemike moments, binary pixel and histogram of oriented gradients feature extraction technique for recognizing hand written Bangla characters

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110608