CN101714214A - 学习装置和方法、识别装置和方法、程序及记录介质 - Google Patents
学习装置和方法、识别装置和方法、程序及记录介质 Download PDFInfo
- Publication number
- CN101714214A CN101714214A CN200910179404A CN200910179404A CN101714214A CN 101714214 A CN101714214 A CN 101714214A CN 200910179404 A CN200910179404 A CN 200910179404A CN 200910179404 A CN200910179404 A CN 200910179404A CN 101714214 A CN101714214 A CN 101714214A
- Authority
- CN
- China
- Prior art keywords
- image
- resolving
- resolving device
- eigenwert
- generate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了学习装置和方法、识别装置和方法、程序及记录介质。学习装置包括图像生成器、特征点提取器、特征值计算器以及分辨器生成器。图像生成器从输入图像生成具有不同比例系数的图像。特征点提取器从图像生成器所生成的每个图像中提取特征点。特征值计算器通过利用预定滤波器对特征点滤波来计算特征点的特征值。分辨器生成器利用特征值通过统计学习来生成用于从图像中检测预定目标对象的一个或多个分辨器。
Description
技术领域
本发明涉及学习装置和方法、识别装置和方法、程序以及记录介质。更具体地,本发明涉及用来更可靠地从图像中检测目标对象的学习装置和方法、识别装置和方法、程序以及记录介质。
背景技术
在相关技术中,已研究并开发出了主要针对安全或车载应用的从图像中检测人的技术(例如参见:Navneet Dalal和Bill Triggs的“Histogramsof Oriented Gradients for Human Detection”,CVPR2005;以及B.Wu和R.Nevatia的“Detection of multiple,partially occluded humans in a single imageby bayesian combination of edgelet part detectors”,In Proc.10th Int.Conf.Computer Vision,2005)。在这些文献中,通过边缘检测获得的轮廓特征值被用作从图像检测(即,识别)人的主要特征值。对于这些技术,通过边缘检测获得的轮廓特征值的许多变化被定义为新特征值,并且利用其来进行人的识别。
例如,在Dalal和Triggs提出的技术中,通过获取朝向边缘的较小区域内的直方图来获得特征值。利用这种特征值,该技术具有的优点在于对一定程度的轮廓失真以及类似因素更具恢复力。
发明内容
在用于从图像中检测人或类似影像的上述方法中,轮廓特征被用来检测人或类似影像。然而,这些方法例如极大地增加了涉及的计算复杂度,并且因此难以实时地检测人。
鉴于这些状况,存在对能够通过提高计算效率实时地检测诸如人之类的目标对象的技术的需求。
根据本发明实施例的学习装置包括:生成装置,被配置为从输入图像生成具有不同比例系数的图像;提取装置,被配置为从由生成装置生成的每个图像提取特征点;计算装置,被配置为通过利用预定滤波器对特征点进行滤波来计算特征点的特征值;以及分辨器生成装置,被配置为通过利用特征值的统计学习来生成用于从图像中检测预定目标对象的一个或多个分辨器。
预定滤波器可以是具有预定高斯宽度的导函数。
计算装置可以执行包括在任意角的高斯函数的预定阶导函数的卷积运算,并且随后计算计算结果的绝对值之和。
计算装置可以执行包括在任意角的高斯函数的预定阶导函数的卷积运算,并且随后计算计算结果的最大绝对值。
在利用一个或多个分辨器来分辨预定目标对象时使用的图像的比例系数可以与生成装置中的比例系数相同。
输入图像可以是包含预定手形的图像的图像,或者替代地,是不包含手的图像的图像。一个或多个分辨器可以是用于检测预定手形的分辨器。
根据本发明实施例的学习方法包括以下步骤:从输入图像生成具有不同比例系数的图像;从每个所生成图像中提取特征点;通过利用预定滤波器对特征点进行滤波来计算特征点的特征值;以及通过利用特征值的统计学习来生成用于从图像中检测预定目标对象的一个或多个分辨器。
根据本发明实施例的计算机可读程序执行包括以下步骤的处理:从输入图像生成具有不同比例系数的图像;从每个所生成图像中提取特征点;通过利用预定滤波器对特征点进行滤波来计算特征点的特征值;以及通过利用特征值的统计学习来生成用于从图像中检测预定目标对象的一个或多个分辨器。
在根据本发明实施例的学习装置、方法和程序中,从输入图像生成具有不同比例系数的图像。针对这些图像的每个提取特征点,随后利用预定滤波器对特征点进行滤波。结果被当作特征值。然后通过利用特征值的统计学习来生成用于从图像检测预定目标对象的一个或多个分辨器。
根据本发明另一实施例的识别装置,包括:生成装置,被配置为从输入图像生成具有不同比例系数的图像;提取装置,被配置为从生成装置所生成的每个图像提取特征点;计算装置,被配置为通过利用预定滤波器对特征点进行滤波来计算特征点的特征值;以及检测装置,被配置为通过将特征值带入通过统计学习获得的并且被用于从图像中检测目标对象的一个或多个分辨器,来从输入图像中检测预定目标对象。
预定滤波器可以是具有预定高斯宽度的导函数。
计算装置可以执行包括在任意角的高斯函数的预定阶导函数的卷积运算,并且随后计算计算结果的绝对值之和。
计算装置可以执行包括在任意角的高斯函数的预定阶导函数的卷积运算,并且随后计算计算结果的最大绝对值。
一个或多个分辨器可以是用于检测预定手形的分辨器。当预定手形被检测装置检测到时,输入图像可以被存储。
根据本发明实施例的识别方法包括以下步骤:从输入图像生成具有不同比例系数的图像;从每个所生成图像中提取特征点;通过利用预定滤波器对特征点进行滤波来计算特征点的特征值;以及通过将特征值带入通过统计学习获得的并且被用于从图像中检测目标对象的一个或多个分辨器,来从输入图像中检测预定目标对象。
根据本发明实施例的程序使计算机执行包括以下步骤的处理:从输入图像生成具有不同比例系数的图像;从每个所生成图像中提取特征点;通过利用预定滤波器对特征点进行滤波来计算特征点的特征值;以及通过将特征值带入通过统计学习获得的并且被用于从图像中检测目标对象的一个或多个分辨器,来从输入图像中检测预定目标对象。
在根据本发明实施例的识别装置、方法和程序中,从输入图像生成具有不同比例系数的图像。针对这些图像的每个提取特征点,随后利用预定滤波器对特征点进行滤波。结果被当作特征值。特征值被带入用于从图像检测目标对象的一个或多个分辨器,从而预定目标对象被检测。
根据本发明的实施例,能够以提高的计算效率来实时地检测诸如人之类的目标对象并学习该目标对象。
附图说明
图1图示出了应用了本发明实施例的人分辨系统;
图2图示出了服装分辨器生成器的示例性详细配置;
图3图示出了轮廓特征值计算器的示例性详细配置;
图4说明了可调滤波器(steerable filter);
图5图示出了对图像滤波的结果;
图6是说明学习处理的流程图;
图7是说明服装分辨器生成处理的流程图;
图8是说明轮廓特征值计算处理的流程图;
图9说明了服装特征点提取;
图10说明了服装特征值;
图11说明了以服装特征点的没对为基础的服装特征值采样;
图12说明了弱分辨器配置;
图13说明了服装特征点对;
图14A说明了轮廓特征点提取;
图14B说明了轮廓特征点提取;
图15是说明人检测处理的流程图;
图16图示出了示例性目标对象识别结果显示;
图17说明了用于检测预定形状的手的分辨器的生成;
图18图示出了手图像的示例;
图19图示出了图像处理装置的功能配置;
图20说明了识别装置的配置;
图21是说明图像处理装置的操作的流程图;以及
图22是图示出计算机的示例性配置的框图。
具体实施方式
在下文中,将参考附图描述本发明的实施例。
[系统配置]
图1是图示出应用了本发明实施例的人分辨系统的示例性配置的框图。人分辨系统包括学习装置11、分辨器记录单元12以及识别装置13,并且识别出输入图像中包含了人的图像形式的目标对象的区域。
基于输入的学习图像,学习装置11生成当识别装置13判断图像中是否存在目标对象时使用的分辨特征值和综合(ensemble)分辨器。分辨特征值和综合分辨器被记录在分辨器记录单元12中。利用记录在分辨器记录单元12中的分辨特征值和综合分辨器,识别装置13判断目标对象(例如,人的图像)是否存在于输入图像中,并输出分辨结果。
学习装置11包括图像金字塔生成器20、服装特征点提取器21、服装特征值计算器22、服装分辨器生成器23、轮廓特征点提取器24、轮廓特征值计算器25、轮廓分辨器生成器26以及综合分辨器生成器27。
图像金字塔生成器20从输入的学习图像生成具有各自的不同分辨率的多个图像,并且随后将图像作为图像金字塔提供给服装特征点提取器21和轮廓特征点提取器24。例如,可以生成具有从级L1到级L8的8层级分辨率的图像金字塔,并且其中,图像的分辨率按从L1到L8的顺序下降。
从构成图像金字塔生成器20所生成的图像金字塔的各个图像(每个图像也称为学习图像),服装特征点提取器21在该学习图像中提取在生成服装分辨器时使用的若干像素作为服装特征点。所提取的服装特征点与学习图像一起被提供给服装特征值计算器22。这里,服装分辨器是由多个较弱分辨器组成的较强分辨器,并且是通过统计学习生成的。利用了人的服装特征的服装分辨器在判断人的图像区域是否存在于输入图像中时被使用。
对于从服装特征点提取器21接收的每个服装特征点,服装特征值计算器22通过将该服装特征点与另一服装特征点配对来创建一对。另外,基于从服装特征点提取器21接收的学习图像,服装特征值计算器22计算每对服装特征点的服装特征值,其表示两个任意区域之间的纹理距离(texture distance)。如此求解出的服装特征值以及学习图像被提供给服装分辨器生成器23。
基于从服装特征值计算器22提供来的学习图像和服装特征值,服装分辨器生成器23例如根据Adaboost进行统计学习处理,并生成用于识别目标对象(即,人)的服装分辨器。另外,服装分辨器生成器23将所生成的服装分辨器提供给综合分辨器生成器27。
从构成图像金字塔生成器20所生成的图像金字塔的每个图像(每个图像也称为学习图像),轮廓特征点提取器24在该学习图像中提取在生成轮廓分辨器时使用的若干像素作为轮廓特征点。所提取的轮廓特征点以及学习图像被提供给轮廓特征值计算器25。这里,轮廓分辨器是由多个弱分辨器组成的强分辨器,并且是通过统计学习生成的。利用了人的轮廓的轮廓分辨器在判断人的图像区域是否存在于输入图像中时被使用。
基于从轮廓特征点提取器24接收的学习图像,并且例如通过利用可调滤波器的滤波处理,轮廓特征值计算器25计算每个轮廓特征点的轮廓特征值,其表示所提取的轮廓。如此求解出的轮廓特征值以及学习图像被提供给轮廓分辨器生成器26。基于从轮廓特征值计算器25提供来的学习图像和轮廓特征值,轮廓分辨器生成器26例如根据Adaboost进行统计学习处理,并生成用于识别目标对象(即,人)的轮廓分辨器。另外,轮廓分辨器生成器26将所生成的轮廓分辨器提供给综合分辨器生成器27。
综合分辨器生成器27将来自服装分辨器生成器23的服装分辨器与来自轮廓分辨器生成器26的轮廓分辨器相组合,以生成综合分辨器,综合分辨器被提供给分辨器记录单元12并记录在其中。另外,在利用综合分辨器识别目标对象时使用的服装特征点对的服装特征值以及轮廓特征点的轮廓特征值也被综合分辨器生成器27提供给分辨器记录单元12,并且被记录为分辨特征值。
识别装置13包括服装特征点提取器31、服装特征值计算器32、轮廓特征点提取器33、轮廓特征值计算器34、分辨计算器35以及分辨结果输出单元36。识别装置13中从服装特征点提取器31至轮廓特征值计算器34的各个组件分别与学习装置11中的服装特征点提取器21、服装特征值计算器22、轮廓特征点提取器24和轮廓特征值计算器25相类似地处理目标对象在其中被识别的输入图像。因此,省略对上面组件的详细描述。
分辨计算器35读取记录在分辨器记录单元12中的分辨特征值和综合分辨器。另外,分辨计算器35代入综合分辨器并计算与从服装特征值计算器32接收的服装特征值以及从轮廓特征值计算器34接收的轮廓特征值相对应的信息。分辨结果输出单元36从分辨计算器35获取计算结果,并且基于该计算结果输出表明是否在输入图像中识别出目标对象的分辨结果。
[服装分辨器生成器的配置]
图2是图示出图1所示的服装分辨器生成器23的更详细示例配置的框图。服装分辨器生成器23包括采样单元51、加权单元52、排序器53、分辨器配置单元54、分辨器选择器55以及权重更新器56。
采样单元51从分别位于多个学习图像中的相同位置处的服装特征点对的服装特征值中采样M个服装特征值。针对每对服装特征点并且根据加权单元52所设置的每个学习图像的权重进行采样。如此采样的M个服装特征值被提供给排序器53。
排序器53按升序或降序对每对服装特征点的如此采样得到的M个服装特征值进行排序,并且将排序结果提供给分辨器配置单元54。
基于指示要识别的目标对象是否包含在特定服装特征值被提取的学习图像中的命中/未命中(hit/miss)信息,分辨器配置单元54在变化按升序或降序排序的每对服装特征值的每个的阈值的同时,控制误差率计算器54a。如此来计算误差率,并且设置阈值以使得误差率最小化(这些阈值被设置为弱分辨器)。另外,分辨器配置单元54将每个弱分辨器的误差率提供给分辨器选择器55。
指示目标对象是否包含在学习图像中的命中/未命中信息(即,标签)被附加到该学习图像中。基于附加到从服装特征值计算器22提供来的学习图像中的命中/未命中信息,分辨器配置单元54配置弱分辨器。
分辨器选择器55从弱分辨器中选择具有最小误差率的弱分辨器,更新由弱分辨器组成的服装分辨器,并且将与最终的服装分辨器相对应的服装特征值以及每个弱分辨器提供给综合分辨器生成器27。另外,分辨器选择器55基于所选弱分辨器的误差率计算可靠性因数,并且将结果提供给权重更新器56。
基于所提供的可靠性因数,权重更新器56重新计算每个学习图像的权重,还归一化并更新权重,并且将更新的结果提供给加权单元52。基于权重更新器56提供来的更新后的权重结果,加权单元52设置每个学习图像的权重。
[轮廓特征值计算器的配置]
图3图示出了图1所示的轮廓特征值计算器25的更详细示例性配置。轮廓特征值计算器25包括一阶滤波器处理器61、二阶滤波器处理器62、三阶滤波器处理器63以及特征值生成器64。另外,来自轮廓特征点提取器24的学习图像分别被提供给从一阶滤波器处理器61到特征值生成器64的每个组件,同时轮廓特征点分别被提供给从一阶滤波器处理器61到三阶滤波器处理器63的每个组件。
一阶滤波器处理器61通过利用高斯函数G的一阶导函数G1对每个提供来的轮廓特征点滤波来提取特征值,并且将结果提供给特征值生成器64。这里,在下面的等式1和2中给出了高斯函数G和一阶导函数G1。
等式1
等式2
G1(θ)=cos(θ)G1(0°)+sin(θ)G1(90°)(2)
在等式1中,σ表示高斯宽度。在等式2中,θ表示指示在其中应用滤波器的所希望方向的任意角。
例如,一阶滤波器处理器61可以在三个预设值(例如,高斯段度σ1=1,σ2=2,以及σ3=4)中变化高斯函数的高斯宽度σ,然后针对每个高斯宽度σ在四个预定方向(例如,θ1,θ2,θ3和θ4)上求解等式2。
应当理解,方向θ不限于四个方向,而是还可以使用八个方向(例如,在八个方向上相等地划分pi时得到的方向)。此外,虽然如上所述相关技术利用多个高斯宽度进行处理,然而可以仅为本实施例准备单个高斯宽度。换言之,变化高斯宽度可以被省略。因此,虽然上面阐述了在三个预设值中变化高斯宽度σ并且针对每个高斯宽度σ在四个预定方向上求解等式2,然而,在本实施例中,可以简单地针对已设置的单个高斯宽度σ在四个预定方向上求解等式2。
由于可以省略针对多个高斯宽度中的每个的计算,因此能够减小计算复杂度。这也适用于诸如二阶滤波器处理器62和三阶滤波器处理器63之类的其它滤波器。
二阶滤波器处理器62通过利用高斯函数G的二阶导函数G2对每个提供来的轮廓特征点滤波来提取特征值,并且将结果提供给特征值生成器64。等式3表示二阶导函数G2,其中,θ表示任意角。
等式3
G2(θ)=k21(θ)G2(0°)+k22(θ)G2(60°)+k23(θ)G2(120°)(3)
等式3中的系数k2i(θ)(其中,i=1,2,3)表示由下面的等式4所表达的函数。
等式4
二阶滤波器处理器62例如可以针对高斯函数G的预定高斯宽度σ在四个预定方向(例如,θ1,θ2,θ3和θ4)上求解等式3。
三阶滤波器处理器63通过利用高斯函数G的三阶导函数G3对每个提供来的轮廓特征点滤波来提取特征值,并且将结果提供给特征值生成器64。等式5表示三阶导函数G3,其中,θ表示任意角。
等式5
G3(θ)=k31(θ)G3(0°)+k32(θ)G3(45°)+k33(θ)G3(90°)+k34(θ)G3(135°)(5)
等式5中的系数k3i(θ)(其中,i=1,2,3)表示由下面的等式6所表达的函数。
等式6
三阶滤波器处理器63例如可以针对高斯函数G的预定高斯宽度σ在四个预定方向(例如,θ1,θ2,θ3和θ4)上求解等式5。
特征值生成器64接收分别从一阶滤波器处理器61、二阶滤波器处理器62和三阶滤波器处理器63提供来的、在四个方向上计算出的每个轮廓特征点的特征值。提供来的总计12个特征值(3个阶次中的4个方向)总地被当作每个轮廓特征点的轮廓特征值。
另外,由于每个滤波器处理器被提供有来自图像金字塔生成器20的不同分辨率的多个图像,因此,针对每个轮廓特征点在四个方向θ上计算出的每个图像的特征值被提供给特征值生成器64。提供来的特征值取决于图像金字塔生成器20所生成的图像数目。例如,当生成从从级L1到级L8的八个图像时,则提供针对每个轮廓特征点在四个方向θ上计算出的八组特征值。
特征值生成器64将所生成的轮廓特征值以及提供来的学习图像都提供给轮廓分辨器生成器26。
因此,在轮廓特征值计算器25中,高斯函数的导数被采用来获取具有方向(θ)选择性的滤波器(即,基底函数)。所获得滤波器被用来提取随各阶导数而异的特征值(即,轮廓),并且这些特征值被当作轮廓特征值。
如图4所示,当可调滤波器用于轮廓特征值提取时,如果滤波器被配置有不同的方向θ和高斯宽度σ,则这些滤波器的线性组合可以用来创建任意方向θ的滤波器,或者换言之,高斯函数G的导函数Gn(其中,n=1,2,3)。
图4的右侧所示的水平行中的最上面的图像表示高斯宽度σ等于1,所示θ值从左到右为0,1/8*pi,2/8*pi,3/8*pi,4/8*pi,5/8*pi,6/8*pi和7/8*pi时的一阶导函数G1(θ)。
类似地,图4的右侧所示的水平行按从上面的第二行起朝下的顺序分别表示:高斯宽度σ等于2的一阶导函数G1(θ)、高斯宽度σ等于4的一阶导函数G1(θ)、高斯宽度σ等于1的二阶导函数G2(θ)、高斯宽度σ等于2的二阶导函数G2(θ)、高斯宽度σ等于4的二阶导函数G2(θ)、高斯宽度σ等于1的三阶导函数G3(θ)、高斯宽度σ等于2的三阶导函数G3(θ)、高斯宽度σ等于4的三阶导函数G3(θ)。此外,每行中的图像图示出了θ值从左到右为0,1/8*pi,2/8*pi,3/8*pi,4/8*pi,5/8*pi,6/8*pi和7/8*pi的相对应导函数。
例如,图4的左侧所示的两个滤波器,即一阶导函数G1(0°)和一阶导函数G1(90°),可以用来表示针对图4右侧的上面第二行所示的每个方向θ的一阶导函数G1(θ)。类似地,图4左侧的二阶导函数G2可以用来表示针对图4右侧从顶部起第五行所示的每个方向θ的二阶导函数G2(θ)。图4左侧的三阶导函数G3可以用来表示针对图4右侧从顶部起第八行所示的每个方向θ的三阶导函数G3(θ)。换言之,如果基底函数的数目比其维度大1,则可以通过基底函数的线性组合来表示相同维度中的任意方向的导函数。
图5图示出了通过利用高斯函数G的导函数对描绘了人的图像滤波而获得的结果。在图5中,左边示出了要滤波的图像,中间示出了滤波器,而右边示出了后滤波器(post-filter)图像。
图5左侧所示的图像是构成了金字塔的两个图像,并且具有不同的分辨率。如前所述,图像金字塔生成器20例如生成具有从级L1至L8的不同分辨率的图像。在图5的左侧,作为示例示出了来自这种图像金字塔的L1图像101和L2图像102。
在图5的中间作为示例所示的滤波器是高斯宽度σ都等于1的一阶导函数G1、二阶导函数G2和三阶导函数G3。在图5的中间作为示例所示的滤波器取自图4所示的滤波器的一部分。
当来自图5中间所示的那些导函数的滤波器(例如,三阶导函数G3的滤波器)被用来对图5左侧所示的图像滤波时,生成了图5右侧所示的图像。换言之,如果图像101经三阶导函数G3的滤波器滤波,则生成图像111-1至111-4。同样,如果图像102经三阶导函数滤波器滤波,则生成图像112-1至112-4。
利用高斯宽度σ等于1(σ=1)的三阶导函数G3的滤波器分别对图像111-1至111-4进行了滤波。因此,图像111-1至111-4是在利用高斯宽度σ等于1的滤波器进行滤波时获得的图像。
类似地,利用高斯宽度σ等于1(σ=1)的三阶导函数G3的滤波器分别对图像112-1至112-4进行了滤波。因此,图像112-1至112-4是在利用高斯宽度σ等于1的滤波器进行滤波时获得的图像。
然而,图像112-1至112-4是对图像102滤波得到的图像。图像102是图像101的缩小版。在这种情况中,图像112-1至112-4可以被看作等同于作为利用高斯宽度σ等于2(σ=2)的三阶导函数G3的滤波器进行滤波的结果而生成的图像。换言之,图像112-1至112-4等同于当利用高斯宽度σ等于2(σ=2)的三阶导函数G3的滤波器对图像101滤波时生成的图像。
换言之,通过对图像金字塔滤波,能够获得与当利用具有不同高斯宽度的多个滤波器对单个图像滤波时所获得的那些图像等同的图像。例如,如果在利用以各个高斯宽度配置的多个滤波器对单个图像滤波的情况与利用以安格高斯宽度配置的单个滤波器对图像金字塔滤波的情况之间,比较滤波中包括的计算复杂度和处理负荷,则利用单个滤波器对图像金字塔滤波表现出了大幅降低的计算复杂度和处理负荷。
换言之,通过生成图像金字塔并以单个高斯宽度对其滤波,能够大幅缩短处理时间。因此,这种技术在尝试从图像中检测人或其它目标对象时也缩短了处理时间,由此使得能够实时地从图像中检测目标对象。
以这种方式,轮廓特征值计算器25生成与利用具有不同高斯宽度的多个滤波器进行滤波时所获得那些图像等同的多个图像,并且还通过平均多个生成的图像来生成图像。可以从由此生成的平均图像中确认出人的轮廓,因此,通过利用各个滤波器对图像滤波适宜地从图像中提取出了人的轮廓。
图1所示的识别装置13中的轮廓特征值计算器34的内部配置与图3所示的轮廓特征值计算器25的类似。
[学习处理]
现在描述在学习装置11中进行的学习处理。学习图像被输入学习装置11中,并且当生成综合分辨器的指令被发出时,学习装置11初始化学习处理,并通过统计学习生成综合分辨器。下面,将参考图6至8所示的流程图描述学习装置进行的学习处理。
在步骤S10,图像金字塔生成器20从输入的学习图像生成图像金字塔。如前所述,图像金字塔生成器20例如生成具有从级L1至L8的八个分辨率层级的图像金字塔。所生成的图像被提供给服装特征点提取器21和轮廓特征点提取器24。服装特征点提取器21和轮廓特征点提取器24分别将提供来的图像金字塔(即,具有不同分辨率的多个图像)中的一个图像设置为要处理的学习图像,并且执行步骤S11及其后的处理。针对多个图像中的每个图像重复执行步骤S11及其后的处理。
在步骤S11,服装特征点提取器21从提供来的学习图像中提取服装特征点,并且随后将所提取的服装特征点以及学习图像提供给服装特征值计算器22。
在步骤S12,服装特征值计算器22将从服装特征点提取器21提供来的服装特征点和学习图像用作将各个服装特征点与另一服装特征点配对的基础。
在步骤S13,服装特征值计算器22计算在步骤S12中配对的每对服装特征点的服装特征值。由此获得的服装特征值被提供给服装分辨器生成器23。
例如,当图9所示的学习图像被输入服装特征点提取器21时,服装特征点提取器21基于预定边距(margin)和采样跳跃数,从学习图像提取服装特征点。图9所示的学习图像上的圆圈表示当作服装特征点的像素。
这里,边距指从学习图像的边缘开始到服装特征点提取区域为止的学习图像中的像素数。采样跳跃数指学习图像中被设为服装特征点的两个像素之间的间隔。
因此,例如当边距为5个像素并且采样跳跃数为5个像素时,服装特征点提取器21从学习图像中排除由位于从学习图像边缘起5个像素内的像素组成的区域,并且将剩余区域E11设为服装特征点提取的目标。然后,服装特征点提取器21提取位于彼此相隔5个像素处的像素作为服装特征点。换言之,在图9中,垂直和水平方向上的相邻服装特征点之间的距离都为5个像素,并且每个服装特征点是区域E11内的像素。
接下来,服装特征值计算器22基于预定的最小半径和最大半径来配对每个服装特征点。例如,对于最小半径R11和最大半径R12,当以给定服装特征点KT1为目标时,服装特征值计算器22将服装特征点KT1分别与与服装特征点KT1的距离不小于最小半径R11且不大于最大半径R12的服装特征点的每个相配对。
例如,在存在与服装特征点KT1的距离不小于最小半径R11且不大于最大半径R12的N个服装特征点的情况中,获得N对服装特征点。服装特征值计算器22如此将所有服装特征点与其它服装特征点配对。
另外,对于通过上面的配对获得的每对服装特征点,服装特征值计算器22计算分别以构成对的服装特征点为中心的预定形状和大小的区域之间的纹理距离。这样计算出的纹理距离被当作服装特征值。
例如,考虑如下情况:通过获取由图9所示的服装特征点KT1和KT2组成的对的绝对差之和(SAD)来计算服装特征值。在此情况中,服装特征值计算器22将区域TX1定义为以服装特征点KT1为中心的预定区域,并且将区域TX2定义为以服装特征点KT2为中心并且与区域TX1的大小相同的区域。然后,服装特征值计算器22计算区域TX1内的像素的像素值与区域TX2内相对应像素的像素值之间的差的绝对值之和。由此计算出的绝对差之和被当作服装特征值。
应当理解,服装特征值不限于SSD,而还可以是诸如平方差之和(SSD)或归一化相关性之类的值。
以这种方式,服装特征值计算器22计算出从学习图像提取的每对服装特征点的服装特征值。更具体地,由包含目标对象的若干学习图像和不包含目标对象的若干学习图像组成的多个学习图像被输入学习装置11。然后,针对每个输入学习图像提取服装特征点并计算服装特征值。
例如,考虑M个学习图像PI1至PIM(其中,M是自然数)被输入学习装置11的情况。如图10所示,针对M个学习图像PIi(其中,1≤i≤M)中的每对服装特征点获取服装特征值。
在图10中,信号方块表示一对服装特征点的服装特征值。另外,图10中垂直排列的方块的各列表示从学习图像PIi(其中,1≤i≤M)获得的服装特征值的各序列。每个序列包含与从给定学习图像PIi获得的服装特征点的对数相等数目的服装特征值。换言之,从学习图像PIi获得的服装特征点的对数成为了该学习图像PIi的服装特征值的维度。
这里的学习图像指如前所述的图像金字塔中的各个图像。图10图示出了这样的情况:其中,从单个图像生成三图像金字塔,并且其中,分别处理金字塔中的三个图像中的每个图像。换言之,图10图示出了当多分辨率级数设为3时的学习期间的特征值向量的简单情况。
在图10中,比例(scale)指比例系数。比例系数是指示在下一级如何缩放图像大小的缩小比率。例如,比例1表示比例系数为1。图10中的单列包含了与分别从构成图像金字塔的多个学习图像PIi获得的服装特征点的对数相等数目的服装特征值。
另外,在图10中的每个学习图像PIi的服装特征值的列的底部,示出了表明目标对象是否包含在该学习图像PIi中的标签(即,命中/未命中信息)。例如,学习图像PI1的服装特征值的列的底部所示的标签“+1”表明目标对象包含在学习图像PI1中,而学习图像PIM的服装特征值的列的底部所示的标签“-1”表明目标对象未包含在学习图像PIM中。
现在返回图6中的流程图,在步骤S13,计算服装特征值,然后在步骤S14,服装分辨器生成器23进行服装分辨器生成处理以生成服装分辨器。
现在参考图7的流程图描述与步骤S14相对应的服装分辨器生成处理。
在步骤S51,加权单元52例如将图10所示的各个学习图像PIi(其中,1≤i≤M)的所有权重Wi初始化为1/M,同时分辨器选择器55分别地将计数器j初始化为1并将由弱分辨器之和组成的服装分辨器R(x)初始化为0。
这里,i是用于标识图10所示的学习图像PIi的数,其中,1≤i≤M。作为步骤S51中的处理的结果,所有学习图像PIi的权重Wi都被设为同一初始化后的权重(1/M)。另外,计数器j是表示用于更新服装分辨器R(x)的预定计数的数。
在步骤S52,采样单元51根据学习图像PIi的权重从位于多个学习图像PIi中相同的各自位置处的服装特征点的服装特征值中,为每对服装特征点选择M个服装特征值。如此选出的M个服装特征值被提供给排序器53。
例如,考虑如图11所示的来自从PI1到PIM的M个学习图像的服装特征值从服装特征值计算器22被提供到采样单元51的情况。在图11中,从学习图像PIi(其中,1≤i≤M)获得的服装特征值被排列在水平方向上。表示学习图像的字母PIi左边所示的数字“+1”和“-1”表示附加到各个相对应的学习图像PIi的标签(即,命中/未命中信息)。
换言之,水平地排列在图11的最上面一行中的序列(A1,A2,A3,...,AN)表示学习图像PI1中的每对服装特征点的各个服装特征值。图11中表示学习图像PI1的文字“PI1”左边的数字“+1”表示表明目标对象包含在学习图像PI1中的标签。
类似地,水平地排列在图11中从顶部起第二行中的序列(B1,B2,B3,...,BN)表示学习图像PI2中的每对服装特征点的各个服装特征值。图11中表示学习图像PI2的文字“PI2”左边的数字“+1”表示表明目标对象包含在学习图像PI2中的标签。
水平地排列在图11中从顶部起第三行中的序列(C1,C2,C3,...,CN)表示学习图像PI3中的每对服装特征点的各个服装特征值。图11中文字“PI3”左边的数字“-1”表示表明目标对象未包含在学习图像PI3中的标签。此外,水平地排列在图11中从顶部起第三行中的序列(M1,M2,M3,...,MN)表示学习图像PIM中的每对服装特征点的各个服装特征值。图11中文字“PIM”左边的数字“-1”表示表明目标对象未包含在学习图像PIM中的标签。
因此,在图11所示的示例中,从单个学习图像PIi获得了N对分组特征点的各自的服装特征值。此外,在图11中,垂直排列地从Ai到的Mi(其中,1≤i≤M)的M个服装特征值形成了单个组Grk。属于给定组Grk的服装特征值是位于各个学习图像PIi中的相同位置处的服装特征点对的服装特征值。
例如,组Gr1包含从A1到M1的垂直排列的服装特征值。服装特征值A1是针对学习图像PI1中的服装特征点对计算出来的。这两个服装特征点位于学习图像上与属于Gr1的其它服装特征值的服装特征点(例如,用来计算出服装特征值M1的学习图像PIM中的服装特征点对)相同的位置处。下面,当给定特定学习图像PIi中的服装特征点对时,该对将被称为表明服装特征值属于组Grk(其中,1≤k≤N)的对k。
当图11所示的每个学习图像PIi的服装特征值被提供给采样单元51时,采样单元51根据学习图像PIi的权重Wi通过抽奖方法从属于该组的服装特征值中选择每个对k(即,针对每组Grk)的M个服装特征值。例如,采样单元51可以根据权重Wi从A1到M1的服装特征值中选择M个服装特征值。因此,在这里的第一处理中,在每个组Grk中选择所有服装特征值。显然,实际上相同服装特征值还可能被选择多次。
权重Wi还可以用来计算每对服装特征点的误差。在此情况中,通过将误差值乘以数据加权系数(即,权重Wi)来计算误差。
在步骤S53,排序器53按升序或降序对针对N组Grk的每组(即,针对每对k)选出的M个服装特征值排序,并且将结果提供给分辨器配置单元54。例如,从图11中属于Gr1的组的服装特征值中选出的M个服装特征值按顺序被排序。
在步骤S54,分辨器配置单元54基于附加到从服装特征值计算器22提供来的学习图像的命中/未命中信息(即,标签),在变化每组Grk(即,针对服装特征值的每对k)的阈值的同时控制误差率。通过这种控制,分辨器配置单元54如下面给出的图7所示的那样来计算误差率ejk,并设置阈值以使得误差率ejk被最小化。
这里,服装特征点的每对k的阈值thjk成为单个弱分辨器fjk。分辨器配置单元54将每个弱分辨器fjk的误差率ejk提供给分辨器选择器55。换言之,对于N个对k的每个,分别设置N个弱分辨器fjk,并针对N个弱分辨器fjk的每个计算误差率ejk。这里,弱分辨器fjk是当供识别的目标对象出现时输出+1,并且当供识别的目标对象未出现时输出-1的函数。
例如,当j=1并且如图12所示那样按升序或降序排列服装特征点对k=1的服装特征值L1,A1,C1,B1,...,M1时,阈值th11被设置在服装特征值A1和C1之间。在小于阈值th11的值的范围(即,-1所指示的范围)中,供识别的目标对象不被识别,而在大于阈值th11的值的范围(即,+1所指示的范围)中,供识别的目标对象被识别出。在此情况中,图12中用虚线圈起来的服装特征值A1是包含供识别的目标对象的学习图像,因此,将服装特征值A1当作差错。相反,服装特征值C1和M1是来自不包含供识别的目标对象的学习图像的服装特征值,因此,也将服装特征值C1和M1当作差错。
在图12所示的示例中,设置了阈值th11,以使得误差率ejk最小化。例如,当图12所示的阈值th11未被定位得使误差率ejk最小化时,分辨器配置单元54变化阈值th11的位置,并且在检查各个位置处的误差率ejk的同时,搜索使误差率ejk最小的阈值th11的位置。一旦找到,该位置就被当作阈值th11的位置。
如下面的等式7所示,误差率计算器54a将学习图像的命中/未命中信息(即,标签)用作用于通过将用来提取被当作差错的服装特征值的学习图像的权重Wi相加来计算误差率ejk的基础。
等式7
这里,y≠fjk表示使服装特征点对k成为差错的参数,而Ew表示产生差错的对k中的权重被加起来。
在步骤55,分辨器选择器55将从分辨器配置单元54提供来的每对k的N个误差率ejk用作从N个弱分辨器fjk中选择使误差率ejk最小的弱分辨器fjk的基础。分辨器选择器55随后从分辨器配置单元54获取所选弱分辨器fjk。
在步骤S56,分辨器选择器55将所选弱分辨器fjk的误差率ejk用作用于计算下面的等式8所示的可靠性因子cj的基础。计算结果被提供给权重更新器56。
等式8
cj=log((1-ej)/ej)(8)
在等式8中,ej表示从所有误差率ejk中选出弱分辨器fjk的误差率ejk。换言之,ej表示N个误差率ejk中的最小ejk。下面,将在步骤S55中选择的对k的弱分辨器称为fj,并将该弱分辨器fj的误差率ejk称为ej。
在步骤S57,权重更新器56基于提供来的可靠性因子cj来求解下面的等式9,由此重新计算每个学习图像PIi的权重Wi,同时还归一化并更新所有权重Wi。更新后的结果被提供给加权单元52。基于权重更新器56提供来的更新后的权重结果,加权单元52设置每个学习图像的权重。
等式9
等式9表明包含产生差错的分组特征值的学习图像的权重Wi增加。
在步骤S58,分辨器选择器55利用新计算出的弱分辨器fj来更新所存储的服装分辨器R(x)。换言之,分辨器选择器55通过求解下面的等式10来更新服装分辨器R(x)。
等式10
R(x)=R′(x)+cj×fj(x)(10)
在等式10中,R′(x)表示分辨器选择器55所存储的预更新的服装分辨器,而fj(x)表示新计算出的弱分辨器fj。换言之,分辨器选择器55通过首先取出所存储的分辨器,然后将其添加到通过与可靠性因子cj相乘而被加权的新计算出的弱分辨器,来更新服装分辨器。
在步骤S59,分辨器选择器55取与使误差率ejk最小的弱分辨器fj相对应的服装特征点对k的服装特征值,并且将该服装特征值存储为分辨特征值。
在步骤S60,分辨器选择器55判断计数器j是否等于或大于L。如果在步骤S60中判断出计数器j小于L,则在步骤S61,分辨器选择器55递增计数器j。然后,处理返回步骤S52,并且重复上面的处理。
换言之,利用每个学习图像的新设置的权重Wi,设置N对k的新的弱分辨器fj,并且从这些弱分辨器fj中选择使误差率ejk最小的单个弱分辨器fj。然后通过所选弱分辨器fj来更新服装分辨器。
相反,如果在步骤S60中判断出计数器j等于或大小L,则在步骤S62,分辨器选择器55将所存储的服装分辨器以及分辨特征值输出到综合分辨器生成器27。然后,处理前进到图6所示的步骤S15。
作为上面处理的结果,由具有相对较低的误差率的L个组成的服装分辨器弱分辨器fj(1≤j≤L)被提供给综合分辨器生成器27,同时,另外,将与每个相应的弱分辨器fj一起使用的每对k服装特征点的服装特征值也被提供给综合分辨器生成器27。这里,取L小于N。
将图10的服装分辨器用来生成分辨器(即,函数),以使得当服装特征值被代入该分辨器时,在服装分辨器为正时输出值+1,在服装分辨器为负时输出值-1。因此,该分辨器是针对要识别的目标对象输出通过L个弱分辨器的多数决定原则确定的是或否的函数。将参考图7的流程图描述的这种学习处理(其中,弱分辨器被重复加权并被加起来以生成分辨器)称为离散Adaboost算法。
换言之,作为上述服装分辨器生成处理的结果,计算每对服装特征点的误差率和弱分辨器的处理被重复,以使得学习图像的服装特征值的权重在高误差率时逐渐增加,而在低误差率时逐渐减小。因此,在被重复的处理(即,步骤S52至S61)中,当服装特征值(即,在步骤S52中选择的服装特征值)被选择用于设置弱分辨器时,随着时间的过去具有高误差率的服装特征值变得更容易被选择。如此重复学习,从而难以进行识别的服装特征值随着重复的增加更频繁地被选择。因此,难以识别的学习图像中的服装特征值变得更频繁被选择,由此使得最终能够增加识别率。
此外,在被重复的处理(即,步骤S52至S61)中,分辨器选择器55选择与具有最低误差率的对相对应的弱分辨器。因此,通过重复学习处理,被选择并被添加到服装分辨器的弱分辨器是针对具有最高可靠性因子的服装特征点对的,并且随着每次重复,连续地计算出了高精度的弱分辨器。
此外,服装分辨器是使用服装特征值来判断图像是否包含被设为目标对象的人的分辨器。因此,与被代入构成服装分辨器的每个弱分辨器中的服装特征值相对应的服装特征点对,是服装特征点的所有对中最适合于从输入图像检测目标对象的对。
例如,在图13中,与代入服装分辨器的服装特征值相对应的对是围绕图像中被设为目标对象的人的服装特征点对。在图13中,每条直虚线连接形成对的两个服装特征点,而以每条线的端点为中心的方块表示在计算服装特征值时使用的纹理区域。
在图13所示的示例中,存在由图像中的人所穿的上半身服装上的两个服装特征点组成、其纹理距离(即,服装特征值)减小的对。还存在由人的服装上的服装特征点以及背景上而非人上的服装特征点组成、其服装特征值增加的对。因此,图13所示的示例表明了如何选择诸如上述对之类的对。
现在返回图6中的流程图,在步骤S15,轮廓特征点提取器24从输入学习图像提取轮廓特征点。
例如,当图14A所示的学习图像被输入轮廓特征点提取器24时,轮廓特征点提取器24提取以如图14B所示按预定间隔排列在学习图像中的像素形式的轮廓特征点。在图14B中,学习图像上的圆圈表示被当作轮廓特征点的像素。
图14A和14B所示的学习图像包括水平方向上的32个像素和垂直方向上的64个像素。学习图像中被轮廓特征点提取器24选作轮廓特征点的轮廓特征点在水平和垂直方向上都相隔2个像素间隔。结果,学习图像中如图14B所示的水平方向上的12个像素和垂直方向上的28个像素,总计336(12×28)个像素被选作轮廓特征点。
当从学习图像提取了轮廓特征点时,轮廓特征点提取器24将所提取的轮廓特征点以及输入学习图像提供给轮廓特征值计算器25。
在步骤S16,轮廓特征值计算器25进行轮廓特征值计算处理,其中,基于从轮廓特征点提取器24提供来的轮廓特征点和学习图像计算每个轮廓特征点的轮廓特征值。
现在参考图8所示的流程图描述与步骤S16相对应的轮廓特征值计算处理。
在步骤S101,轮廓特征值计算器25选择,或者更具体地轮廓特征值计算器25的一阶滤波器处理器61、二阶滤波器处理器62和三阶滤波器处理器63分别从自轮廓特征点提取器24提供来的轮廓特征点中选择单个未经处理的轮廓特征点形式的主体像素。
在步骤S102中,轮廓特征值计算器25将指示方向θq的轮廓q设置为1。这样一来,方向θq被设置为θ1。
在步骤S103,一阶滤波器处理器61进行一阶滤波。换言之,基于要处理的主体像素的像素值,一阶滤波器处理器61在将高斯宽度σ设为1(σ=1)并将方向设为θq时求解等式2。滤波结果被提供给特征值生成器64。换言之,在方向θ被设为θq时求解等式2,并且提取轮廓。
应当理解,虽然上面阐述了高斯宽度σ被设为1(σ=1),然而在本实施例的情况中,高斯宽度被固定为σ=1(即,预先配置一个高斯宽度的滤波器)。因此,能够省略将高斯宽度σ设为1的处理。换言之,在本实施例中,在步骤S103中执行处理,以使得通过在θq方向上应用高斯宽度σ为1的滤波器来求解等式2。下面,高斯宽度σ将继续被描述为1(σ=1),然而显然,所配置的滤波器的高斯宽度可以为σ=1之外的高斯宽度。
在步骤S104,二阶滤波器处理器62进行二阶滤波。换言之,基于主体像素的像素值,二阶滤波器处理器62通过在θq方向上应用高斯宽度σ=1的滤波器来求解等式3。滤波结果被提供给特征值生成器64。换言之,在方向θ被设为θq时求解等式3,并提取轮廓。
在步骤S105,三阶滤波器处理器63进行三阶滤波。换言之,基于主体像素的像素值,三阶滤波器处理器63通过在θq方向上应用高斯宽度σ=1的滤波器来求解等式5。滤波结果被提供给特征值生成器64。换言之,在方向θ被设为θq时求解等式5,并提取轮廓。
在步骤S106,轮廓特征值计算器25判断方向θq是否为θ4,或者换言之,计数器q是否等于4(q=4)。如果在步骤S106中判断出θq不为θ4,则轮廓特征值计算器25递增q。例如,如果计数器q等于1(q=1),则计数器q被递增为2(q=2),由此将方向θq设为θ2。递增了计数器q之后,处理返回步骤S103,并且重复上面的处理。
相反,如果在步骤S106中判断出θq为θ4,则特征值生成器64将从一阶滤波器处理器61、二阶滤波器处理器62和三阶滤波器处理器63提供来的计算结果(即,轮廓特征值)相组合,以生成单个轮廓特征点的轮廓特征值。
可以根据下面的等式11或12来计算轮廓特征值。
等式11
等式12
在等式11和12中,与等式2所示相同,Gd,θ是任意角θ时的高斯函数G的d阶导函数。另外,在项I(xi,yi,si)中,(xi,yi)表示被处理的轮廓特征点的图像内坐标,而(si)表示构成图像金字塔的图像中被处理的图像的比例。
等式11是这样的公式:首先计算轮廓特征值与任意角θ时的高斯函数G的d阶导函数的张量乘积,然后计算该结果的绝对值之和(∑)。等式12是这样的公式:计算轮廓特征值与任意角θ时的高斯函数G的d阶导函数的张量乘积,然后计算该结果的绝对值的最大值(max)。
虽然等式11和12都是用于计算特征值的公式,然而等式11是用于计算局部能量的公式,而等式12是用于计算局部最大值的公式。现在描述这些公式的含义。
作为象上述那样的处理的结果,利用任意角处的函数以及作为特征值的按比例提取的滤波器系数,来进行经指导的统计学习。这样,可以生成用于检测人或类似目标对象的检测分辨器。然而,在这种检测分辨器中,存在依赖于例如人所穿的服装以及他或他与背景的关系的特征值。此外,未针对具有重大变形或变换的如人之类的识别目标来高度约束特征值选择性。因此,希望进行吸收这些因数的处理,并且将各个特征值转换为不变特征值。
可以通过计算经滤波的输出值的绝对值来解决从依赖于人所穿的服装以及他或他与背景的关系的特征值到不变特征值的转换。通过计算绝对值,可以提取出接近人的轮廓的特征值。在本实施例中,对一阶导函数、二阶导函数以及三阶导函数进行求解,从而从它们每个获取各个绝对值。因此,在仅从一阶导函数计算绝对值的情况上极大地提高了精确度,由此使得能够提取不变特征值。
如上所述,未针对具有重大变形或变换的如人之类的识别目标来高度约束特征值选择性。通过执行位置不变计算来使能能够吸收这种因数的特征值计算。例如,当检测人脸的轮廓时,计算利用不管脸的形状如何都使得那些轮廓的长度几乎相同的因数。换言之,当关注轮廓的给定部分时,即使该部分移动位置,计算也将诸如该部分的长度之类的值看作不变量。例如,如果具有近乎圆脸的人的轮廓改变位置从而与具有长窄脸的人的轮廓重叠,则计算将轮廓看作仅改变了位置,而长度保持不变。
这些计算包括计算如等式11中的和。通过计算和,例如,人脸的轮廓的和被计算出。或者,可以计算出如等式12中的最大值。通过计算最大值,例如,人脸的轮廓的那些值中的最大值被计算出。
这里,演示了两个计算:和与最大值。换言之,如上所述,基于等式11演示了用于计算局部能量的计算,以及基于等式12演示了用于计算局部最大值的计算。除了这些计算之外,还可以进行计算,以便计算出表现出局部最大值的点周围的局部能量。这种计算大概包括:从等式12获取计算结果,并且执行等式11中的计算。或者,可以进行计算,以便计算出局部能量附近的最大值。这种计算大概包括:从等式11获取计算结果,并且执行等式12中的计算。虽然这里为给出具体公式,然而,可以利用这些计算来计算特征值。
通过这些计算,从每个轮廓特征点计算出特征值。然后,在步骤S109,轮廓特征值计算器25判断是否完成了针对所有轮廓特征点的处理。例如,如果已经计算出了从轮廓特征点提取器24提供来的所有轮廓特征点的轮廓特征值,则确定处理完成。
如果在步骤S109中判断出尚未完成针对所有轮廓特征点的处理,则处理返回步骤S101,步骤下一轮廓特征点被选为主体像素。
相反,如果在步骤S109中判断出已完成了针对所有轮廓特征点的处理,则特征值生成器64将从轮廓特征点提取器24提供来的学习图像以及针对每个轮廓特征点生成的轮廓特征值提供给轮廓分辨器生成器26。然后,处理前进到图6中的步骤S17。
应当理解,从学习图像提取轮廓特征值不限于利用可调滤波器来进行,而是还可以使用Gabor或类似滤波器。
现在返回图6所示的流程图,当在步骤S17计算出了每个轮廓特征点的轮廓特征值后,轮廓分辨器生成器26将从轮廓特征值计算器25提供来的学习图像和轮廓特征值用作进行轮廓分辨器生成处理的基础,并由此生成轮廓分辨器。这里的轮廓分辨器生成处理与参考图7所述的服装分辨器生成处理类似,因此省略对其的进一步描述。
更具体地,轮廓分辨器生成处理与服装分辨器生成处理的不同之处仅在于要处理的特征值是轮廓特征值,而不是服装特征值。因此,在轮廓分辨器生成处理中,从与具有最低误差率的轮廓特征点的轮廓特征值相对应的弱分辨器之和来生成轮廓分辨器。轮廓分辨器生成器26将所生成的轮廓分辨器以及分辨特征值提供给综合分辨器生成器27。
在步骤S18,综合分辨器生成器27通过将从服装分辨器生成器23提供来的服装分辨器与从轮廓分辨器生成器26提供来的轮廓分辨器相组合来生成综合分辨器。
例如,由于通过基于Adaboost的统计学习获得的分辨器可以表示为弱分辨器的线性组合,因此,综合分辨器生成器27通过late fusion来将服装分辨器与轮廓分辨器组合。
更具体地,综合分辨器生成器27通过求解下面的等式13来计算服装分辨器R(x)与轮廓分辨器T(x)的分辨器和U(x)。换言之,分辨器和U(x)是通过对服装分辨器R(x)和轮廓分辨器T(x)进行线性组合而得出的。
等式13
U(x)=α·R(x)+β·T(x)(13)
在等式13中,α和β是预定常数(即,调谐参数),并且例如可以是利用诸如在统计学习中使用的相对于学习图像的分辨率之类的因子计算出的。轮廓分辨器T(x)是被乘以其可靠性因子的弱分辨器的和,并且类似于等式10所示的服装分辨器R(x)。
另外,综合分辨器生成器27使用计算出的分辨器和U(x)以生成如下面的等式14所示的综合分辨器。
等式14
综合分辨器=sign(U(x))(14)
在等式14,当分辨器和U(x)为正时,sign(U(x))输出+1,这表明要识别的目标对象存在于输入图像内。当分辨器和U(x)为负时,sign(U(x))输出-1,这表明要识别的目标对象未存在于输入图像中。
当以这种方式生成综合分辨器后,综合分辨器生成器27将所生成的综合分辨器提供给分辨器记录单元12,在其中综合分辨器被记录。另外,综合分辨器生成器27通过将从轮廓分辨器生成器26提供来的分辨特征值添加到从服装特征值计算器22提供来的分辨特征值,来生成最终分辨特征值。最终分辨特征值被提供给分辨器记录单元12并被记录,然后学习处理终止。
以这种方式,学习装置11从学习图像提取服装特征点,计算每对服装特征点的服装特征值,并且通过统计学习生成服装分辨器。另外,学习装置11还从学习图像提取轮廓特征点,计算轮廓特征值,并通过统计学习生成轮廓分辨器。然后,学习装置11以线性组合方式将服装分辨器与轮廓分辨器相组合以生成综合分辨器。
因此,通过将服装分辨器与轮廓分辨器相组合并生成综合分辨器,可以提供能够可靠地从图像检测目标对象的综合分辨器。换言之,由于综合分辨器是利用目标对象的服装特征的服装分辨器与利用目标对象的轮廓的轮廓分辨器的综合,因此,如果可以充分地提取出至少一种类型的特征值,则可以从图像检测出目标对象。
当从图像检测作为目标对象的人时,希望在即使人的服装改变时也检测到该人。因此,在相关技术中仅利用轮廓作为特征值来进行从图像检测人,其不依赖于人的服装的明度。
相反,学习装置11使用服装特征值用于从图像检测人,服装特征值利用人的服装的特征,但是相对于人的服装的图案(pattern)改变它们本身是不变的。这些服装特征值是新近被定义的采用了如下统计观察的特征值:人常常在其上本身穿着相同纹理的重复图案(即,T恤),同时还在其下半身穿着相同纹理的重复图案(即,裤子)。
换言之,服装特征值表明了图像上两个任意区域中的纹理(即,明度图案)之间的相似(即,类似性)程度。例如,对于人的上半身的两个区域纹理类似性可能较高,而对于上半身和下半身之间或人的服装与背景之间,纹理类似性可能较低。在学习装置11中,区域对之间的这种纹理类似性被用来生成用于从图像检测人的服装分辨器,然后,服装分辨器被用来生成综合分辨器。
因此,例如即使未从输入图像充分地提取轮廓,如果可以从图像充分地提取区域对之间的纹理类似性特征,则仍然可以将综合分辨器用来从图像检测人。相反,如果人所穿的服装具有非重复图案,或者服装在图像中被包或其它对象部分地遮掩时,则不能从图像充分地提取纹理类似性特征。然而,如果可以从图像充分地提取轮廓,则可以利用综合分辨器从图像检测人。
[识别处理]
现在描述例如在使用学习结果检测(即,识别)诸如人之类的目标对象时进行的处理。输入图像被输入识别装置13,并且当检测作为目标对象的人的指令被发布时,识别装置13初始化人检测处理,并从输入图像检测目标对象。下面,将参考图15所示的流程图描述识别装置13执行的人检测处理。
步骤S150至S153中分别进行的处理分别类似于图6的步骤S10至S13中分别进行的处理,因此,这里省略进一步的描述。换言之,服装特征点提取器31从上面输入的输入图像中提取服装特征点,而服装特征值计算器32将服装特征点提取器31提取的服装特征点进行配对,并且随后计算每对的服装特征值。然后,服装特征值计算器32将针对每对计算出的服装特征值提供给分辨计算器35。
图像金字塔生成器30被配置以使得当生成图像金字塔时,按照与学习装置11中的图像金字塔生成器20所生成的图像金字塔的那些图像相同的比例(即,分辨率)来生成图像。通过将用于识别的比例系数与用于学习的比例系数相匹配,能够在识别期间高效地执行扫描。
在步骤S154,轮廓特征点提取器33执行与图6的步骤S 15中的处理类似的处理。轮廓特征点从输入图像被提取,并随后与输入图像一起被提供给轮廓特征值计算器34。
在步骤S155,轮廓特征值计算器34将来自轮廓特征点提取器33的输入图像和轮廓特征点用作用于进行轮廓特征值计算处理的基础,并且计算每个轮廓特征点的轮廓特征值。然后,轮廓特征值计算器34将计算出的轮廓特征值提供给分辨计算器35。这里的轮廓特征值计算处理与参考图8所述的轮廓特征值计算处理类似,因此省略对其的进一步描述。
在步骤S156,分辨计算器35从分辨器记录单元12读取分辨特征值和综合分辨器,将特征值代入综合分辨器,并求解。更具体地,分辨计算器35将服装特征值计算器32提供来的服装特征值以及轮廓特征值计算器34提供来的轮廓特征值中与分辨特征值相对应的值代入等式14所示的综合分辨器,并且随后求解综合分辨器。
就此而言,被代入构成综合分辨器的弱分辨器的特征值是根据输入图像上的服装特征点或轮廓特征点对计算出的,其中,这些点位于与用来计算作为分辨特征值的特征值的服装特征点或轮廓特征点对的那些点相同的位置处。此外,被当作分辨特征值的特征值是在统计学习处理期间用来设置构成综合分辨器的弱分辨器的那些特征值。
当求解等式14时获得的计算结果为+1或-1,+1表明被设为目标对象的人存在于输入图像内,-1表明被设为目标对象的人未存在于输入图像内。分辨计算器35将来自综合分辨器的计算结果提供给分辨结果输出单元36。
在步骤S157,分辨结果输出单元36基于从分辨计算器35接收到的计算结果,输出针对人的检测结果,并且随后人检测处理终止。换言之,输出了指示是否在输入图像中识别出目标对象的分辨结果。
作为指示是否在输入图像中识别出目标对象的分辨结果的一个示例,分辨结果输出单元36可以被配置为将输入图像与包围检测到目标对象(即,人)的区域的帧一起显示,如图16所示。
图16所示的输入图像包含两个被设为目标对象的人,并且包围每个人的帧被显示在输入图像上。在此情况中,将输入图像输入分辨结果输出单元36中,同时分辨计算器35将计算结果与指示输入图像中检测到目标对象的区域的信息一起提供给分辨结果输出单元36。然后,基于从分辨计算器35提供来的计算结果和区域指示信息,分辨结果输出单元36在目标对象在输入图像中被检测到的情况下,显示输入图像以及包围找到目标对象的区域的帧。
以这种方式,识别装置13从输入图像提取服装特征点,并且计算服装特征点对的服装特征值,同时还从输入图像提取轮廓特征点并计算轮廓特征值。然后,识别装置13利用计算出的服装特征值和轮廓特征值以及记录在分辨器记录单元12中的综合分辨器,从输入图像检测目标对象。
因此,通过利用服装特征值和轮廓特征值来从输入图像检测目标对象,可以更可靠地从图像中检测目标对象。换言之,如果可以从输入图像中充分地提取出服装特征值或轮廓特征值中的至少一种类型,则可以可靠地从输入图像检测目标对象。
虽然前面描述了检测作为目标对象的人,然而应当理解,目标对象不限于人,而取而代之可以是其表面图案表现出相同纹理的重复图案的任何对象。
而且,虽然前面描述了基于离散Adaboost算法执行统计学习处理的示例,然而,也可以应用诸如Gentle Adaboost算法之类的其它boosting算法。离散Adaboost算法与Gentle Adaboost算法的不同之处在于前者的分辨器输出结果是离散变量,后者的结果是连续变量。然而,前者包括乘以可靠性因子,因此在实际中将输出结果看作连续变量。因此,两个算法实质上相同。
除了上面的以外,还可以通过根据支持向量机(SVM)、Bayesian(贝叶斯定理)或其它方法进行统计处理来生成服装分辨器和轮廓分辨器。然而,如果统计学习处理被配置以使得特征值(即,服装特征值或轮廓特征值)是通过Adaboost选择的,则当在识别装置13中利用综合分辨器检测人时可以以较高的速度来执行处理。
虽然前面描述了生成服装分辨器和轮廓分辨器,然后组合这些分辨器以生成综合分辨器,然而,也可以直接从服装特征值和轮廓特征值生成综合分辨器,而不必生成服装分辨器和轮廓分辨器。
如前所述,输入图像被转换为不同分辨率的若干图像(即,图像金字塔),然后分别对这些不同分辨率的图像进行滤波。这样做使得能够提高计算效率,由此使得能够提高处理速度。因此,例如,变得能够实时地识别诸如人之类的目标对象。
例如,利用多个滤波器对多种比例的图像进行滤波包括了大量滤波器计算,这带来了处理时间或处理能力大幅增加的可能性。然而,在本实施例中,利用单个滤波器对多种比例的图像进行滤波。换言之,由于仅以一种比例进行卷积,因此,可以在不需要大量计算的情况下对图像滤波,由此使得能够提高处理速度。
此外,在多比例滤波器的情况中,低频(即,针对较大值的高斯宽度σ)的卷积运算是费时的。然而,在本实施例中,如前所述,能够以单个高斯宽度σ形成滤波器。结果,在不必准备多个高斯宽度的滤波器的情况下实现了滤波,并且不必利用多个高斯宽度的滤波器进行计算。因此,根据本实施例,即使假设利用以最高频配置的单个滤波器来执行处理,与多比例滤波器的情况相比,仍然能够大幅提高处理速度。
[手形检测]
现在描述针对上述实施例中检测作为目标对象的人的情况的示例。为了检测人,当在学习装置11中进行学习时,使用捕获到人的图像以及未捕获到人的图像。如图17所示,如果在学习装置11中利用手图像201-1至201-M以及自然图像(即,不是手图像的图像)202-1至202-N进行学习,则能够生成可以对手进行分辨(即,检测)的分辨器。
输入到学习装置11中作为手图像201的图像例如可以是图18所示的手图像201。手图像201是表现出俗称为和平符号(peace sign)的手姿势的主体211的图像。当生成用于对和平符号手形进行分辨的分辨器时,利用包含了作出如图18所示的和平符号的手的图像部分的M个手图像201来进行学习。输入到学习装置11中作为自然图像的图像是未出现手形的图像。利用N个这种自然图像来进行学习。
通过将(M+N)个手图像201和自然图像202输入学习装置11并进行学习,对预定手形进行分辨的分辨器被生成并被记录在分辨器记录单元12中。这种分辨器能够从输入图像中分辨出手图像部分和非手图像部分。此外,当利用作出和平符号的手的图像作为手图像201来进行学习时,例如,生成了对和平符号形状的手进行分辨的分辨器。当利用作出拳头状的手的图像作为手图像201来进行学习时,生成了对拳头形状的手进行分辨的分辨器。
换言之,可以通过学习时所使用的手图像201中的手形来生成适合于要分辨的手的形状的分辨器。
如前参考图1所述的,学习装置11被配置为包括服装分辨器生成器23和轮廓分辨器生成器26,服装分辨器生成器23从人所穿的服装的特征来生成用于在包含人的图像和不包含人的图像之间进行区分的服装分辨器,轮廓分辨器生成器26从人的轮廓的特征生成用于在包含人的图像和不包含人的图像之间进行区分的轮廓分辨器。
由于服装分辨器例如是通过从服装的袖口或其它部分检测服装特征而生成的,因此,服装分辨器可以令人信服地有效地充当用于在包含手的图像与不包含手的图像之间进行区分的分辨器。此外,在本实施例中,不仅生成了服装分辨器,而且生成了轮廓分辨器。可以通过这种轮廓分辨器来检测手的轮廓,因此,轮廓分辨器也可以令人信服地有效地充当用于在包含手的图像与不包含手的图像之间进行区分的分辨器。通过综合分辨器生成器27,服装分辨器和轮廓分辨器可以被组合来生成用于检测手形的分辨器。
在相关技术中,已经提出了用于从预定图像提取手的图像部分并且利用皮肤颜色以及类似颜色特征来识别手形的方法。然而,本发明的实施例利用不依赖于颜色的特征值来检测手形。因此,例如,即使手隐藏在手套或其它材料中,也可以被检测到。换言之,可以从难以检测手颜色的图像(例如,黑图像和白图像)中检测到手。
此外,如果手套被看作服装并且两个区域之间的纹理关系中存在统计相关性,则服装特征值也有效地起作用。即使考虑手的纹理,两个区域之间的纹理差别通常较小,因此,手纹理本身也可以被使用。
以这种方式,本发明的实施例可以应用来生成用于分辨手形的分辨器,该分辨器与前述的用于分辨人的分辨器类似,能够精确地分辨手形。此外,由于针对分辨所进行的计算是高效的,因此,可以提高处理速度。
现在描述图像处理装置,其中,如上所述那样生成的用于分辨手形的分辨器被用来分辨手形,并且利用分辨结果获得图像。图19图示出了图像处理装置的功能配置。图19所示的图像处理装置230包括分辨器记录单元12、识别装置13、图像获取器231、快门控制器232和图像存储单元233。
具有象上面那样的配置的图像处理装置230被包括在诸如数字静态相机或数字摄像机之类的设备中。如果图像处理装置230被包括在数字静态相机中,则图像获取器231被配置为包括图像传感器或类似元件。因此,图像获取器231通过对对象成像来获取图像。
分辨器记录单元12和识别装置13具有分别与图1所示的分辨器记录单元12和识别装置13类似的功能,并且类似地被配置。因此,使用了相同的标号,并且这里省略进一步的描述。如前所述,根据分辨器记录单元12和识别装置13,能够在从输入图像检测诸如人之类的目标对象时提高计算效率和处理速度。因此,即使当图像处理装置230被包括在数字静态相机或类似设备中时,也可以实时地处理所获取的图像。
在识别装置13中,将手形识别(即,检测)为目标对象。当识别装置13检测到手形时,指示该检测的信息被提供给快门控制器232。快门控制器232控制包括在图像获取器231中的快门。快门是在固定量的时间中打开的相机曝光装置。数字静态相机可以包含电子快门或机械快门。当快门激活时,由图像获取器231获取的图像被提供给图像存储单元233并被记录在其中。图像存储单元233包括预定记录介质,并且存储图像数据。
如果分辨器记录单元12存储分别用于分辨多个手形的分辨器,则识别装置13如图20所示那样被配置。输入图像251被提供给手形识别器252-1至252-N。手形识别器252-1至252-N分别包括用于分辨不同手形的分辨器。不同手形例如可以包括和平符号形,以及在游戏摇滚(gamerock)、寻呼机、剪刀中使用的三种手形。用于分辨不同手形的分辨器被存储在分辨器记录单元12中。识别装置13(即,手形识别器252-1至252-N)随后利用各个分辨器进行分辨。
如参考图1所述的,多个分辨器被存储在分辨器记录单元12中。识别装置13中的分辨计算器35利用存储在分辨器记录单元12中的多个分辨器进行分辨。换言之,作为分辨计算器35利用不同分辨器执行计算的结果,实现了手形识别器252-1至252-N。
现在返回图20,分别从手形识别器252-1至252-N输出的检测结果253-1至253-N被提供给最大值输出识别器254。最大值输出识别器254从所有检测结果253-1至253-N中识别出具有最大值的检测结果253。最大值输出识别器254将识别结果输出到快门控制器232(图19)。当识别结果是预定手形时,快门控制器232控制图像获取器以获取图像,并且随后将所获取的图像存储在图像存储单元233中。
现在将参考图21所示的流程图进一步描述这种操作。在步骤S211,图像被获取。图像获取器231利用其内部图像传感器进行成像。例如在数字静态相机中,这种状态包括相机操作者观看显示在数字静态相机的显示屏上的对象的图像以便决定诸如拍摄的构成之类的因素。另外,该状态还包括数据从图像获取器231的图像传感器被获取数据并被提供给显示屏。
由此获取的图像被提供给显示屏并被呈现给用户,同时还被提供给识别装置13。在步骤S212,识别装置13从提供来的图像检测手形。例如,如果如图18所示那样的手图像201被提供,则区域212被检测为手形。然后,通过确定分辨区域的分辨器来分辨该区域212中的这种手形。
例如,假设手形识别器252-1是用于检测和平符号的分辨器。如果最大值输出识别器254输出的识别结果是来自手形识别器252-1的检测结果253-1,则检测出手图像201包含可识别为手的图像部分,并且此外该图像部分是和平符号。以这种方式,识别装置13向快门控制器232提供指示检测到的手形的类型的识别结果。
在步骤S213,快门控制器232判断该手形是否是预定手形。例如,用户可能已经登记了针对快门被激活时的特定手形(这里为和平符号形状)。指示和平符号形状被登记的信息被存储在快门控制器232中。在步骤S213,快门控制器232参考该信息并且判断由来自识别装置13的识别结果所指示的手形是否与所登记的手形相匹配。
注意,例如,如果仅仅用于检测和平符号手形的分辨器被存储在分辨器记录单元12中,则可以省略上面被描述为登记的处理(即,如果识别装置13被配置为仅检测预定手形)。识别装置13随后向快门控制器232提供指示是否检测到预定手形的识别结果。快门控制器232随后通过判断识别结果是否指示检测到预定手形来执行步骤S213中的处理。
如果快门控制器232在步骤S213中判定包含在所获取图像中的手形不是预定手形,则处理返回步骤S211并重复。换言之,继续图像获取器231的图像获取,直到手的图像部分包含在图像获取器231所获取的图像中,并且判定手形是预定形状为止。图像获取器231继续图像获取是快门未被激活并且图像未被存储在图像存储单元233中的状态。而是,该状态包括如前所述的从图像获取器231的图像传感器输出所获取的图像数据。
反之,如果快门控制器232在步骤S213中判定包含在所获取图像中的手的形状是预定形状,则处理前进到步骤S214。在步骤S214,快门控制器232发布使图像获取器231激活快门、获取图像并随后将所获取图像提供给图像存储单元233的指令。基于指令,图像获取器231控制电子快门或其它类型的快门,激活快门,并获取图像。在步骤S215,所获取的图像从图像获取器231被提供给图像存储单元233并存储在其中。
通过以这种方式控制快门激活的定时,能够例如仅在对象表现出诸如和平符号之类的预定手形时获取并存储对象的图像。
可以通过硬件或软件来执行前门的处理序列。在通过软件执行处理序列的情况中,可以将构成该软件的程序安装在形成专用硬件的计算机中。或者,可以从程序记录介质将程序安装到能够通过在其上安装各种程序而执行各种功能的通用计算机(例如,个人计算机)中。
图22是图示出通过程序执行前门的处理序列的计算机的示例性硬件配置的框图。
在该计算机中,CPU(中央处理单元)501、ROM(只读存储器)502和RAM(随机存取存储器)503通过总线504相互连接。
总线504还连接到输入/输出接口505。输入/输出接口505连接到:包括诸如键盘、鼠标、麦克风之类的组件的输入单元506;包括诸如显示器以及一个或多个扬声器之类的组件的输出单元507;包括诸如硬盘和非易失性存储器的记录单元508;包括诸如网络接口之类的组件的通信单元509;以及驱动诸如光盘、磁光盘或半导体存储器之类的可移除介质511的驱动器510。
在如上所述那样配置的计算机中,CPU 501例如可以通过经由输入/输出接口505和总线504将程序载入RAM 503来执行记录在记录单元508中的程序。这样做,前门的处理序列被实行。
计算机(即,CPU 501)执行的程序可以记录在可移除介质511上,可移除介质11是由磁盘(包括软盘)、光盘(包括CD-ROM(致密盘只读存储器)和DVD(数字通用盘))、磁光盘或半导体存储器实现的封装介质。或者,可以经由诸如局域网、因特网或数字卫星广播之类的有线或无线传输介质来提供程序。
可以通过将可移除介质511载入驱动器510来经由输入/输出接口505将程序安装在记录单元508中。或者,可以经由有线或无线传输介质通过通信单元509来接收程序,并且随后将程序安装在记录单元508中。除了上面的之外,还可以预先将程序安装在ROM 502或记录单元508中。
还应当理解,计算机所执行的程序可以是按跟随本实施例所述的顺序的时序进行处理的程序,或者当被调用时并行地或以适当定时进行处理的程序。
本申请包含与2008年10月3日向日本专利局提交的日本优先专利申请JP 2008-258011以及2009年3月9日向日本专利局提交的日本优先专利申请JP 2009-055062中公开的主题有关的主题,这些申请的全部内容通过引用结合与此。
本领域的技术人员应当明白,可以根据设计要求和其它因素进行各种修改、组合、子组合和变更,只要它们在所附权利要求或其等同物的范围之内。
Claims (18)
1.一种学习装置,包括:
生成装置,被配置为从输入图像生成具有不同比例系数的图像;
提取装置,被配置为从由所述生成装置生成的每个图像提取特征点;
计算装置,被配置为通过利用预定滤波器对所述特征点进行滤波来计算所述特征点的特征值;以及
分辨器生成装置,被配置为通过利用所述特征值的统计学习来生成用于从图像中检测出预定目标对象的一个或多个分辨器。
2.根据权利要求1所述的学习装置,其中,所述预定滤波器是具有预定高斯宽度的导函数。
3.根据权利要求1所述的学习装置,其中,所述计算装置执行包括在任意角的高斯函数的预定阶导函数的卷积运算,并且随后计算计算结果的绝对值之和。
4.根据权利要求1所述的学习装置,其中,所述计算装置执行包括在任意角的高斯函数的预定阶导函数的卷积运算,并且随后计算计算结果的最大绝对值。
5.根据权利要求1所述的学习装置,其中,在利用所述一个或多个分辨器来分辨所述预定目标对象时所使用的图像的比例系数与所述生成装置中的比例系数相同。
6.根据权利要求1所述的学习装置,其中
所述输入图像是包含预定手形的图像的图像,或者替代地,是不包含手的图像的图像,并且
所述一个或多个分辨器是用于检测预定手形的分辨器。
7.一种学习方法,包括以下步骤:
从输入图像生成具有不同比例系数的图像;
从每个所生成的图像中提取特征点;
通过利用预定滤波器对所述特征点进行滤波来计算所述特征点的特征值;以及
通过利用所述特征值的统计学习来生成用于从图像中检测预定目标对象的一个或多个分辨器。
8.一种执行处理的计算机可读程序,所述处理包括以下步骤:
从输入图像生成具有不同比例系数的图像;
从每个所生成的图像中提取特征点;
通过利用预定滤波器对所述特征点进行滤波来计算所述特征点的特征值;以及
通过利用所述特征值的统计学习来生成用于从图像中检测预定目标对象的一个或多个分辨器。
9.一种识别装置,包括:
生成装置,被配置为从输入图像生成具有不同比例系数的图像;
提取装置,被配置为从所述生成装置所生成的每个图像提取特征点;
计算装置,被配置为通过利用预定滤波器对所述特征点进行滤波来计算所述特征点的特征值;以及
检测装置,被配置为通过将所述特征值带入通过统计学习所获得的并且被用于从图像中检测目标对象的一个或多个分辨器,来从所述输入图像中检测预定目标对象。
10.根据权利要求9所述的识别装置,其中,所述预定滤波器是具有预定高斯宽度的导函数。
11.根据权利要求9所述的识别装置,其中,所述计算装置执行包括在任意角的高斯函数的预定阶导函数的卷积运算,并且随后计算计算结果的绝对值之和。
12.根据权利要求9所述的识别装置,其中,所述计算装置执行包括任意角的高斯函数的预定阶导函数的卷积运算,并且随后计算计算结果的最大绝对值。
13.根据权利要求9所述的识别装置,其中
所述一个或多个分辨器是用于检测预定手形的分辨器,并且
当所述预定手形被所述检测装置检测到时,所述输入图像被存储。
14.一种识别方法,包括以下步骤:
从输入图像生成具有不同比例系数的图像;
从每个所生成图像中提取特征点;
通过利用预定滤波器对所述特征点进行滤波来计算所述特征点的特征值;以及
通过将所述特征值带入通过统计学习获得的并且被用于从图像中检测目标对象的一个或多个分辨器,来从所述输入图像中检测预定目标对象。
15.一种使计算机执行处理的程序,所述处理包括以下步骤:
从输入图像生成具有不同比例系数的图像;
从每个所生成图像中提取特征点;
通过利用预定滤波器对所述特征点进行滤波来计算所述特征点的特征值;以及
通过将所述特征值带入通过统计学习获得的并且被用于从图像中检测目标对象的一个或多个分辨器,来从所述输入图像中检测预定目标对象。
16.一种记录介质,包括:
记录在所述记录介质上的根据权利要求8或15所述的程序。
17.一种学习装置,包括:
图像生成器,被配置为从输入图像生成具有不同比例系数的图像;
特征点提取器,被配置为从由所述图像生成器生成的每个图像中提取特征点;
特征值计算器,被配置为通过利用预定滤波器对所述特征点进行滤波来计算所述特征点的特征值;以及
分辨器生成器,被配置为通过利用所述特征值的统计学习来生成用于从图像中检测预定目标对象的一个或多个分辨器。
18.一种识别装置,包括:
图像生成器,被配置为从输入图像生成具有不同比例系数的图像;
特征点提取器,被配置为从由所述图像生成器生成的每个图像中提取特征点;
特征值计算器,被配置为通过利用预定滤波器对所述特征点进行滤波来计算所述特征点的特征值;以及
检测器,被配置为通过将所述特征值带入通过统计学习获得的并且被用于从图像中检测目标对象的一个或多个分辨器,来从所述输入图像中检测预定目标对象。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008258011 | 2008-10-03 | ||
JP2008-258011 | 2008-10-03 | ||
JP2009055062A JP4670976B2 (ja) | 2008-10-03 | 2009-03-09 | 学習装置および方法、認識装置および方法、プログラム、並びに記録媒体 |
JP2009-055062 | 2009-03-09 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101714214A true CN101714214A (zh) | 2010-05-26 |
Family
ID=42075853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910179404A Pending CN101714214A (zh) | 2008-10-03 | 2009-10-09 | 学习装置和方法、识别装置和方法、程序及记录介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8494258B2 (zh) |
JP (1) | JP4670976B2 (zh) |
CN (1) | CN101714214A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366171A (zh) * | 2012-03-30 | 2013-10-23 | 佳能株式会社 | 物体检测方法和物体检测装置 |
CN110210523A (zh) * | 2019-05-13 | 2019-09-06 | 山东大学 | 一种基于形状图约束的模特穿着衣物图像生成方法及装置 |
CN110648382A (zh) * | 2019-09-30 | 2020-01-03 | 北京百度网讯科技有限公司 | 图像生成方法和装置 |
CN112308084A (zh) * | 2020-11-09 | 2021-02-02 | 西安工程大学 | 一种基于多尺度Gabor的服装廓形分类方法 |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5041229B2 (ja) * | 2007-12-07 | 2012-10-03 | ソニー株式会社 | 学習装置および方法、認識装置および方法、並びにプログラム |
ES2377303B1 (es) * | 2009-06-05 | 2013-02-01 | Vodafone España S.A.U. | Método y sistema para recomendar fotografías. |
JP2011237907A (ja) | 2010-05-07 | 2011-11-24 | Sony Corp | 画像処理装置、画像処理方法、およびプログラム |
US8451384B2 (en) * | 2010-07-08 | 2013-05-28 | Spinella Ip Holdings, Inc. | System and method for shot change detection in a video sequence |
JP5671928B2 (ja) * | 2010-10-12 | 2015-02-18 | ソニー株式会社 | 学習装置、学習方法、識別装置、識別方法、およびプログラム |
JP2012243180A (ja) * | 2011-05-23 | 2012-12-10 | Sony Corp | 学習装置および方法、並びにプログラム |
JP5848551B2 (ja) * | 2011-08-26 | 2016-01-27 | キヤノン株式会社 | 学習装置、学習装置の制御方法、検出装置、検出装置の制御方法、およびプログラム |
JP5950441B2 (ja) * | 2012-02-01 | 2016-07-13 | 日本電産エレシス株式会社 | 画像認識装置、画像認識方法および画像認識プログラム |
JP2013164643A (ja) * | 2012-02-09 | 2013-08-22 | Honda Elesys Co Ltd | 画像認識装置、画像認識方法および画像認識プログラム |
JP2013182416A (ja) * | 2012-03-01 | 2013-09-12 | Pioneer Electronic Corp | 特徴量抽出装置、特徴量抽出方法及び特徴量抽出プログラム |
JP6325405B2 (ja) * | 2014-09-22 | 2018-05-16 | 株式会社東芝 | 特徴点検出装置、方法及びプログラム |
US9959482B2 (en) | 2014-11-28 | 2018-05-01 | Canon Kabushiki Kaisha | Classifying method, storage medium, inspection method, and inspection apparatus |
JP6643856B2 (ja) * | 2014-11-28 | 2020-02-12 | キヤノン株式会社 | 分類方法、検査方法、検査装置、およびプログラム |
US10248888B2 (en) * | 2014-11-28 | 2019-04-02 | Canon Kabushiki Kaisha | Classifying method, storage medium, inspection method, and inspection apparatus |
JP6616645B2 (ja) * | 2014-11-28 | 2019-12-04 | キヤノン株式会社 | 分類方法、検査方法、検査装置、およびプログラム |
CN113099118B (zh) | 2015-06-26 | 2023-08-22 | 麦克赛尔株式会社 | 摄像装置以及图像处理方法 |
USD780222S1 (en) * | 2015-11-09 | 2017-02-28 | Naver Corporation | Display panel with icon |
CN110914864A (zh) * | 2017-07-31 | 2020-03-24 | 富士通株式会社 | 信息处理装置、信息处理程序和信息处理方法 |
US20200065706A1 (en) * | 2018-08-24 | 2020-02-27 | Htc Corporation | Method for verifying training data, training system, and computer program product |
EP3977402A1 (en) * | 2019-05-28 | 2022-04-06 | PAIGE.AI, Inc. | Systems and methods for processing images to prepare slides for processed images for digital pathology |
JP7004768B2 (ja) * | 2020-05-26 | 2022-01-21 | フリードベルト パドゥブリン、ハリー | 等高線マッピングから導き出される移植可能な等高線メトリックを使用する学習型等高線識別システム |
CN113449714B (zh) * | 2021-09-02 | 2021-12-28 | 深圳奥雅设计股份有限公司 | 一种用于儿童游乐场地的识别方法及系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020184169A1 (en) * | 2001-05-31 | 2002-12-05 | Opitz David William | Method and device for creating a sequence of hypotheses |
US7742641B2 (en) * | 2004-12-06 | 2010-06-22 | Honda Motor Co., Ltd. | Confidence weighted classifier combination for multi-modal identification |
JP2006195536A (ja) * | 2005-01-11 | 2006-07-27 | Ntt Data Corp | 画像処理装置、画像処理方法及びプログラム |
JP4618098B2 (ja) * | 2005-11-02 | 2011-01-26 | ソニー株式会社 | 画像処理システム |
JP2007265367A (ja) * | 2006-03-30 | 2007-10-11 | Fujifilm Corp | 視線検出方法および装置ならびにプログラム |
EP1850270B1 (en) * | 2006-04-28 | 2010-06-09 | Toyota Motor Europe NV | Robust interest point detector and descriptor |
JP4267648B2 (ja) * | 2006-08-25 | 2009-05-27 | 株式会社東芝 | インターフェース装置及びその方法 |
FR2918486B1 (fr) * | 2007-07-03 | 2009-09-18 | Gen Electric | Procede de traitement d'images en radioscopie interventionnelle pour une detection de materiels d'instrumentations de guidage |
JP4623387B2 (ja) * | 2008-09-04 | 2011-02-02 | ソニー株式会社 | 学習装置および方法、認識装置および方法、並びにプログラム |
JP2010108475A (ja) * | 2008-10-03 | 2010-05-13 | Sony Corp | 画像処理装置および方法、プログラム、並びに記録媒体 |
-
2009
- 2009-03-09 JP JP2009055062A patent/JP4670976B2/ja not_active Expired - Fee Related
- 2009-10-01 US US12/571,946 patent/US8494258B2/en active Active
- 2009-10-09 CN CN200910179404A patent/CN101714214A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366171A (zh) * | 2012-03-30 | 2013-10-23 | 佳能株式会社 | 物体检测方法和物体检测装置 |
CN103366171B (zh) * | 2012-03-30 | 2017-03-01 | 佳能株式会社 | 物体检测方法和物体检测装置 |
US10395103B2 (en) | 2012-03-30 | 2019-08-27 | Canon Kabushiki Kaisha | Object detection method, object detection apparatus, and program |
CN110210523A (zh) * | 2019-05-13 | 2019-09-06 | 山东大学 | 一种基于形状图约束的模特穿着衣物图像生成方法及装置 |
CN110210523B (zh) * | 2019-05-13 | 2021-01-15 | 山东大学 | 一种基于形状图约束的模特穿着衣物图像生成方法及装置 |
CN110648382A (zh) * | 2019-09-30 | 2020-01-03 | 北京百度网讯科技有限公司 | 图像生成方法和装置 |
CN110648382B (zh) * | 2019-09-30 | 2023-02-24 | 北京百度网讯科技有限公司 | 图像生成方法和装置 |
CN112308084A (zh) * | 2020-11-09 | 2021-02-02 | 西安工程大学 | 一种基于多尺度Gabor的服装廓形分类方法 |
CN112308084B (zh) * | 2020-11-09 | 2024-04-23 | 西安工程大学 | 一种基于多尺度Gabor的服装廓形分类方法 |
Also Published As
Publication number | Publication date |
---|---|
US8494258B2 (en) | 2013-07-23 |
JP4670976B2 (ja) | 2011-04-13 |
US20100086176A1 (en) | 2010-04-08 |
JP2010108476A (ja) | 2010-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101714214A (zh) | 学习装置和方法、识别装置和方法、程序及记录介质 | |
Fayed et al. | Speed up grid-search for parameter selection of support vector machines | |
CN101458764B (zh) | 学习设备、学习方法、识别设备、识别方法和程序 | |
Zhang et al. | Local features and kernels for classification of texture and object categories: A comprehensive study | |
US8842883B2 (en) | Global classifier with local adaption for objection detection | |
US8582806B2 (en) | Device, method, and computer-readable storage medium for compositing images | |
US20180293431A1 (en) | Identification method using partitioning of subject silhouettes | |
US8855426B2 (en) | Information processing apparatus and method and program | |
JP2018526719A (ja) | 指紋に基づく認証のための装置及びコンピュータ実装方法 | |
Luque-Baena et al. | Assessment of geometric features for individual identification and verification in biometric hand systems | |
US9275305B2 (en) | Learning device and method, recognition device and method, and program | |
Raghavendra et al. | Presentation attack detection algorithms for finger vein biometrics: A comprehensive study | |
JP2010204826A (ja) | 学習装置及び物体検出装置 | |
CN109961093B (zh) | 一种基于众智集成学习的图像分类方法 | |
Pham et al. | Banknote recognition based on optimization of discriminative regions by genetic algorithm with one-dimensional visible-light line sensor | |
Guerbai et al. | One-class versus bi-class SVM classifier for off-line signature verification | |
Shabani et al. | Multiple scale-specific representations for improved human action recognition | |
Gebremeskel et al. | Developing a Model for Detection of Ethiopian Fake Banknote Using Deep Learning | |
Brandoli et al. | Visual data exploration to feature space definition | |
Hardani et al. | Identify the authenticity of rupiah currency using k nearest neighbor (K-NN) algorithm | |
JP5800557B2 (ja) | パターン認識装置、パターン認識方法及びプログラム | |
Dardi et al. | A combined approach for footwear retrieval of crime scene shoe marks | |
Suwarno | Gender Classification Based on Fingerprint Using Wavelet and Multilayer Perceptron | |
Alimardani et al. | Improvement of the performance of fingerprint verification using a combinatorial approach | |
Gupta et al. | Comparative Analysis of Texture-Based Algorithms LBP, LPQ, SIFT, and SURF Using Touchless Footprints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20100526 |