CN101894262A - 对图像进行分类的方法和设备 - Google Patents

对图像进行分类的方法和设备 Download PDF

Info

Publication number
CN101894262A
CN101894262A CN2009101352986A CN200910135298A CN101894262A CN 101894262 A CN101894262 A CN 101894262A CN 2009101352986 A CN2009101352986 A CN 2009101352986A CN 200910135298 A CN200910135298 A CN 200910135298A CN 101894262 A CN101894262 A CN 101894262A
Authority
CN
China
Prior art keywords
area
gradient
feature
zone
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009101352986A
Other languages
English (en)
Other versions
CN101894262B (zh
Inventor
张伦
吴伟国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to CN200910135298.6A priority Critical patent/CN101894262B/zh
Priority to EP10777364A priority patent/EP2434431A1/en
Priority to JP2012511134A priority patent/JP5545361B2/ja
Priority to US13/319,914 priority patent/US20120093420A1/en
Priority to PCT/CN2010/072867 priority patent/WO2010133161A1/zh
Publication of CN101894262A publication Critical patent/CN101894262A/zh
Application granted granted Critical
Publication of CN101894262B publication Critical patent/CN101894262B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

对图像进行分类的方法和设备。方法包括:从所述图像中提取一组特征作为特征向量,其中所述提取包括:对于所述特征向量的每个特征,确定沿第一轴的方向布置的多个第一区域,和沿与所述第一轴相交的第二轴的方向布置的多个第二区域;计算所述多个第一区域的像素和或均值之间的第一差,和所述多个第二区域的像素和或均值之间的第二差;和根据所述第一差和第二差计算梯度大小和梯度方向,以形成所述每个特征;和根据所述提取的特征向量,对所述图像进行分类。

Description

对图像进行分类的方法和设备
技术领域
本发明涉及对视频或图像的分类(包含对象/不包含对象),即视频或图像中对象的检测或识别,尤其涉及生成用于区分视频或图像中是否包含所要检测的对象的分类器的方法和设备,以及用所生成的分类器对图像进行分类的方法和设备。
背景技术
随着视频监控、人工智能、计算机视觉等应用的不断普及,对检测视频和图像中出现的特定对象,例如人、动物、车辆等等的技术的需求日益增加。在用于检测视频或者图像中的对象的方法中,已知有一类方法是采用静态图像特征来建立用于区分视频或图像中是包含对象还是非对象的分类器,从而用该分类器来对图像进行分类,即在图像中检测对象,其中对于视频,将每一帧视为一幅图像来进行检测。
Paul Viola和Michael Jones在“Robust Real-time Object Detection”,Second International Workshop On Statistical And Computational Theories Of Vision-Modeling,Learning,Computing,And Sampling,Vancouver,Canada,July 13,2001中公开了一种这样的技术。在Paul Viola等人的技术中,从图像中提取矩形块的像素和之间的差作为特征,通过AdaBoost方法从所提取的特征中选择更适合用来区分对象和非对象的特征来形成弱分类器,并且通过融合弱分类器来形成强分类器。这类方法比较适合在图像中检测例如人脸这样的对象,但是对于例如人这样的对象的检测的鲁棒性则不是很高。
发明内容
鉴于现有技术的上述不足,本发明旨在提供一种生成分类器的方法、设备和对图像进行分类的方法和设备,以提高图像中对象检测的鲁棒性。
本发明的一个实施例是一种生成用于区分对象图像和非对象图像的分类器的方法,包括:从多个输入图像的每个图像中提取一组特征作为特征向量,其中所述提取包括:对于所述特征向量的每个特征,确定沿第一轴的方向布置的多个第一区域,和沿与所述第一轴相交的第二轴的方向布置的多个第二区域;计算所述多个第一区域的像素和或均值之间的第一差,和所述多个第二区域的像素和或均值之间的第二差;和根据所述第一差和第二差计算梯度大小和梯度方向,以形成所述每个特征;和根据所述提取的特征向量训练出所述分类器。
本发明的另一个实施例是一种生成用于区分对象图像和非对象图像的分类器的设备,其中所述设备从多个输入图像的每个图像中提取一组特征作为特征向量,所述设备包括:确定单元,其对于所述特征向量的每个特征,确定沿第一轴的方向布置的多个第一区域,和沿与所述第一轴相交的第二轴的方向布置的多个第二区域;差计算单元,其计算所述多个第一区域的像素和或均值之间的第一差,和所述多个第二区域的像素和或均值之间的第二差;和梯度计算单元,其根据所述第一差和第二差计算梯度大小和梯度方向,以形成所述每个特征;和训练单元,其根据所述提取的特征向量训练出所述分类器。
根据本发明的上述实施例,由于根据沿两个方向布置的区域的像素来计算包含梯度方向和梯度大小的特征,所提取的特征能够更加真实地反映相应图像部分中对象边缘的分布。基于这样的特征产生的分类器,能够更加鲁棒地检测图像中例如人或动物的对象,尤其是具有各种姿态的对象。
进一步地,在上述方法和设备中,各区域可以是矩形区域,其中第一区域是相接的,并且第二区域也是相接的。
在上述方法和设备中,在第一区域的数目和第二区域的数目均为二,第一区域是相接的并且第二区域是相接的情况下,第一轴和第二轴的交点在第一区域的连接线上或连接点的预定范围内,并且在第二区域的连接线上或连接点的预定范围内。
在上述方法和设备中,在第一区域的数目和第二区域的数目均为二,第一区域是间隔开的并且第二区域是间隔开的情况下,第一轴和第二轴的交点在第一区域的位置中心之间的中点和第二区域的位置中心之间的中点的预定范围内。
在上述方法和设备中,在第一区域的数目和第二区域的数目均为三的情况下,第一轴和第二轴的交点分别在第一区域中居于中间的第一区域内和第二区域中居于中间的第二区域内。
在上述方法和设备中,至少两个特征所基于的区域布置之间的差别包括下述中的一个或多个:区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。这使得可供考察的特征更加丰富,从而更加利于选择适合区分对象和非对象的特征。
在上述方法和设备中,对多个特征向量的至少一个维的特征进行转换,其中被转换的特征包括梯度方向和梯度大小,所述转换包括将所述梯度方向转换为多个预定区间中所述梯度方向属于的区间。针对所述至少一个维的每个维,生成包含分别对应于所述预定区间的子分类器的分类器,其中,对于每个所述预定区间,根据所述特征向量中区间与所述预定区间相同的该维特征的梯度大小的分布,获得相应子分类器的阈值。
本发明的另一个实施例是一种对图像进行分类的方法,包括:从所述图像中提取一组特征作为特征向量,其中所述提取包括:对于所述特征向量的每个特征,确定沿第一轴的方向布置的多个第一区域,和沿与所述第一轴相交的第二轴的方向布置的多个第二区域;计算所述多个第一区域的像素和或均值之间的第一差,和所述多个第二区域的像素和或均值之间的第二差;和根据所述第一差和第二差计算梯度大小和梯度方向,以形成所述每个特征;和根据所述提取的特征向量,对所述图像进行分类。
本发明的另一个实施例是一种对图像进行分类的设备,包括:特征提取装置,其从所述图像中提取一组特征作为特征向量,包括:确定单元,其对于所述特征向量的每个特征,确定沿第一轴的方向布置的多个第一区域,和沿与所述第一轴相交的第二轴的方向布置的多个第二区域;差计算单元,其计算所述多个第一区域的像素和或均值之间的第一差,和所述多个第二区域的像素和或均值之间的第二差;和梯度计算单元,其根据所述第一差和第二差计算梯度大小和梯度方向,以形成所述每个特征;和分类单元,其根据所述提取的特征向量,对所述图像进行分类。
在上述方法和设备中,如前所述,由于能够根据多个区域的像素来计算图像部分的梯度,所提取的特征能够更加完备地反映相应图像部分中对象边缘的分布,而较少受对象姿态变化的影响。基于这样的特征产生的分类器,能够更加鲁棒地检测图像中例如人或动物的对象,尤其是具有各种姿态的对象。
在上述方法和设备中,各区域可以是矩形区域,其中第一区域是相接的,并且第二区域是相接的。
在上述方法和设备中,在第一区域的数目和第二区域的数目均为二,第一区域是相接的并且第二区域是相接的情况下,第一轴和第二轴的交点在第一区域的连接线上或连接点的预定范围内,并且在第二区域的连接线上或连接点的预定范围内。
在上述方法和设备中,在第一区域的数目和第二区域的数目均为二,第一区域是间隔开的并且第二区域是间隔开的情况下,第一轴和第二轴的交点在第一区域的位置中心之间的中点和第二区域的位置中心之间的中点的预定范围内。
在上述方法和设备中,在第一区域的数目和第二区域的数目均为三的情况下,第一轴和第二轴的交点分别在第一区域中居于中间的第一区域内和第二区域中居于中间的第二区域内。
进一步地,在上述方法和设备中,至少两个特征所基于的区域布置之间的差别包括下述中的一个或多个:区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。这使得可供考察的特征更加丰富,从而更加利于选择适合区分对象和非对象的特征。
进一步地,在上述方法和设备中,对图像进行分类包括:对于每个特征的梯度方向和梯度大小,确定多个梯度方向区间中梯度方向所属的梯度方向区间,每个梯度方向区间具有相应的阈值;比较所述梯度大小和所确定的梯度方向区间的相应阈值;和根据比较结果产生分类结果。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中,相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。在附图中不必依照比例绘制出单元的尺寸和相对位置。
图1的框图示出了根据本发明一个实施例的、生成用于区分对象图像和非对象图像的分类器的设备的结构。
图2是示出确定单元所确定的区域布置的例子的示意图。
图3a示出了对象(人体)的边缘轮廓的分布的一个例子。
图3b和3c分别示出了基于图2a和2b示出的区域布置在图3a示出的部分中确定第一区域和第二区域的示意图。
图4a是示出图3a所示的部分302中所包含的对象边缘轮廓的示意图。
图4b是示出梯度计算单元根据差计算单元基于图3b和3c所示的第一区域和第二区域计算的第一差和第二差所计算的梯度的示意图。
图5示出了根据本发明一个实施例的生成用于区分对象图像和非对象图像的分类器的方法的流程图。
图6的框图示出了根据本发明一个优选实施例的、生成用于区分对象图像和非对象图像的分类器的训练单元的结构。
图7示出了根据本发明一个优选实施例的、生成用于区分对象图像和非对象图像的分类器的训练方法的流程图。
图8的框图示出了根据本发明一个实施例的、对图像进行分类的设备的结构。
图9示出了示出了根据本发明一个实施例的、检测图像中的对象的方法的流程图。
图10的框图示出了根据本发明一个优选实施例的分类单元的结构。
图11示出了根据本发明一个优选实施例的分类方法的流程图。
图12是示出其中实现本发明的计算机的示例性结构的框图。
具体实施方式
下面参照附图来说明本发明的实施例。应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
图1的框图示出了根据本发明一个实施例的、生成用于区分对象图像和非对象图像的分类器的设备100的结构。
如图1所示,设备100包括确定单元101、差计算单元102、梯度计算单元103和训练单元104。
在采用静态图像特征来建立分类器的技术中,收集对象图像和非对象图像,从所收集的对象图像和非对象图像中提取特征,利用AdaBoost方法对提取的特征进行选择和融合,得到区分对象图像和非对象图像的分类器。在Ding等人的标题为“A Robust Human Face Detecting Method In Complicated Background Image”的专利申请WO 2008/151470中公开了收集和准备这样的对象图像和非对象图像的方法(参见说明书第2页至第3页)。所收集和准备的对象图像和非对象图像可作为设备100的输入图像。设备100从多个输入图像的每个图像中提取一组特征作为特征向量。
确定单元101对于所述特征向量的每个特征,确定沿第一轴的方向布置的多个第一区域,和沿与所述第一轴相交(例如,以直角或非直角相交)的第二轴的方向布置的多个第二区域。
要提取的特征通常基于输入图像中的像素。确定单元101用于确定每个要提取的特征所基于的输入图像中的像素。确定单元101可根据预定区域布置确定所基于的输入图像中的像素。
第一区域和第二区域的布置可以有各种方式。在一个例子中,多个第一区域的像素的位置的加权平均位置以及多个第二区域的像素的位置的加权平均位置在所述第一轴和第二轴的交点的预定范围内。具体以第一区域为例,可以将第一区域的像素的位置表示为(xij,yij),其中xij表示第i个第一区域中的第j个像素在第一轴(即X轴)上的座标,yij表示第i个第一区域中的第j个像素在第二轴(即Y轴)上的座标。可将第一区域的像素的位置的加权平均位置(xa,ya)定义如下:
xa = Σ i N Σ j M i x ij × w i , ya = Σ i N Σ j M i y ij × w i
其中N为第一区域的数目,Mi为第i个第一区域中像素的数目,wi为第i个第一区域的权重,并且
Figure B2009101352986D0000062
进一步地,或可选地,在上述例子中,所有第一区域的权重可以相同,也可以至少部分地不同。在不相同的情况下,可以为包含的像素较多的第一区域分配较小的权重,为包含的像素较少的第一区域分配较大的权重。
虽然前面以第一区域为例对加权平均位置进行了说明,然而上述说明也适用于第二区域。
在另一个例子中,区域可以是矩形区域,第一区域是相接的,并且第二区域是相接的。
图2是示出确定单元101所确定的区域布置的其它例子的示意图。在图2中,X轴表示第一轴,Y轴表示第二轴,并且矩形块的白色和黑色只是用于区分的目的。虽然图2中的第一轴和第二轴被示出为相互正交的,然而第一轴和第二轴也可以以非直角的角度相交。
根据一种区域布置,第一区域的数目和第二区域的数目均为二,第一区域是相接的并且第二区域是相接的。在这种布置中,第一轴和第二轴的交点在第一区域的连接线上或连接点(例如当矩形区域的顶点相接时)的预定范围内(例如基本重合),并且在第二区域的连接线上或连接点的预定范围内。
图2a和图2b示出了这种区域布置的一个例子。具体地,图2a示出了在第一轴上第一区域的布置,其中白色矩形块201和黑色矩形块202均表示第一区域并且在连接线上相接,而第一轴和第二轴的交点在连接线上。图2b示出了在第二轴上第二区域的布置,其中白色矩形块203和黑色矩形块204均表示第二区域并且在连接线上相接,而第一轴和第二轴的交点在连接线上。虽然图2a和图2b中分别示出了第一轴和第二轴上区域的布置,但实际上反映的是将图2a和图2b合并,即图2a的第一轴和第二轴分别与图2b的第一轴和第二轴相同时的区域布置。可选地,矩形块201与202,以及矩形块203与204可以通过各自的顶点彼此相接。
根据另一种区域布置,第一区域的数目和第二区域的数目均为二,第一区域是间隔开的并且第二区域是间隔开的。在这种布置中,第一轴和第二轴的交点在第一区域的位置中心之间的中点和第二区域的位置中心之间的中点的预定范围内。
图2c和图2d示出了这种区域布置的一个例子。图2c示出了在第一轴上第一区域的布置,其中白色矩形块205和黑色矩形块206均表示第一区域并且是间隔开的,而第一轴和第二轴的交点在白色矩形块205和黑色矩形块206的位置中心之间的中点的预定范围内。图2d示出了在第二轴上第二区域的布置,其中白色矩形块207和黑色矩形块208均表示第二区域并且是间隔开的,而第一轴和第二轴的交点在白色矩形块207和黑色矩形块208的位置中心之间的中点的预定范围内。虽然图2c和图2d中分别示出了第一轴和第二轴上区域的布置,但实际上反映的是将图2c和图2d合并,即图2c的第一轴和第二轴分别与图2d的第一轴和第二轴相同时的区域布置。
图2g和图2h示出了这种区域布置的另一个例子,其中矩形块的顶点相对。图2g示出了在第一轴上第一区域的布置,其中白色矩形块215和黑色矩形块216均表示第一区域并且是间隔开的,而第一轴和第二轴的交点在白色矩形块215和黑色矩形块216的位置中心之间的中点的预定范围内。图2h示出了在第二轴上第二区域的布置,其中白色矩形块217和黑色矩形块218均表示第二区域并且是间隔开的,而第一轴和第二轴的交点在白色矩形块217和黑色矩形块218的位置中心之间的中点的预定范围内。虽然图2g和图2h中分别示出了第一轴和第二轴上区域的布置,但实际上反映的是将图2g和图2h合并,即图2g的第一轴和第二轴分别与图2h的第一轴和第二轴相同时的区域布置。
根据另一种区域布置,第一区域的数目和第二区域的数目均为三。在这种布置中,第一轴和第二轴的交点分别在第一区域中居于中间的第一区域内和第二区域中居于中间的第二区域内。
图2e和图2f示出了这种区域布置的一个例子。图2e示出了在第一轴上第一区域的布置,其中白色矩形块210和黑色矩形块209、211均表示第一区域,并且第一轴和第二轴的交点在居中的白色矩形块210内。图2f示出了在第二轴上第二区域的布置,其中白色矩形块213和黑色矩形块212、214均表示第二区域,并且第一轴和第二轴的交点在居中的白色矩形块213内。虽然图2e和图2f中分别示出了第一轴和第二轴上区域的布置,但实际上反映的是将图2e和图2f合并,即图2e的第一轴和第二轴分别与图2f的第一轴和第二轴相同时的区域布置。可选地,矩形块209、210与211,以及矩形块212、213与214可以是分离的,而不是相接的。
需要注意,第一区域和第二区域的形状并不限于矩形,也可以是其它形状,例如多边形、三角形、圆形、环形、不规则形状。第一区域和第二区域的形状也可以是不同的,并且不同第一/第二区域的形状也可以是不同的。
另外,在具有矩形形状的情况下,第一区域中的不同区域的边可以是彼此平行的,也可以是彼此相对旋转一个角度。同样地,在具有矩形形状的情况下,第二区域中的不同区域的边可以是彼此平行的,也可以是彼此相对旋转一个角度。在具有矩形形状的情况下,矩形区域的相接包括通过各自的边来相接(即第一轴和第二轴的交点在这些边上),和通过各自的角部的顶点相接(即第一轴和第二轴的交点在这些顶点处)。
还应注意,第一轴上布置的第一区域和第二轴上布置的第二区域的数目不限于图2所示的数目,并且第一区域的数目不必与第二区域的数目相同,只要第一区域的像素的位置的加权平均位置以及第二区域的像素的位置的加权平均位置在第一轴和第二轴的交点的预定范围内。优选地,第一区域的数目和第二区域的数目均不超过3。
还应注意,第一区域的相对位置关系和第二区域的相对位置关系可以是任意的,例如第一轴上布置的第一区域可以是相接的、分离的、部分相接的、部分分离的,第二轴上布置的第二区域可以是相接的、分离的、部分相接的、部分分离的,只要第一区域的像素的位置的加权平均位置以及第二区域的像素的位置的加权平均位置在第一轴和第二轴的交点的预定范围内。
在收集的对象图像中,对象的边缘轮廓表现出区别于非对象的特征。对象的边缘轮廓在对象图像中可能具有各种分布。为了能够提取出足够的反映对象的边缘轮廓的特征,确定单元101可以在输入图像的不同位置处的不同大小的部分内确定第一区域和第二区域,以获得该部分内的边缘轮廓特征。
图3a示出了对象(人体)的边缘轮廓的分布的一个例子。如图3a所示,在输入图像中,人体的边缘轮廓存在于例如部分301、302、303的大小不同、位置不同的各个部分中。
图3b和3c示出了基于图2a和2b示出的区域布置在图3a示出的部分302中确定第一区域和第二区域的示意图。在图3b中,附图标记304指示第一区域的布置。在图3c中,附图标记305指示第一区域的布置。
在一个实施例中,确定单元101可以基于一种区域布置在输入图像的不同位置确定第一区域和第二区域。接着通过改变这种区域布置中区域大小和/或区域纵横比来得到新的区域布置,并且基于新的区域布置在输入图像的不同位置确定第一区域和第二区域。重复此过程,直到这种区域布置的所有可能区域大小或区域纵横比均被尝试过。
另外,或可选地,在上述实施例中,确定单元101可以通过改变区域布置中区域的相对位置关系来得到新的区域布置。
另外,或可选地,在上述实施例中,确定单元101可以通过改变区域布置中区域的数目来得到新的区域布置。
另外,或可选地,在上述实施例中,确定单元101可以通过改变区域布置中区域的形状来得到新的区域布置。
确定单元101基于一种区域布置在输入图像中的一个位置确定的第一区域和第二区域决定了一个要提取的特征。概括地讲,至少两个特征所基于的区域布置是不同的。例如,不同区域布置之间的差别可以包括下述中的一个或多个:区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。
回到图1,对于确定单元101基于每个区域布置在输入图像中的每个位置确定的第一区域和第二区域,差计算单元102计算第一区域的像素和或均值(灰度)之间的第一差dx,和第二区域的像素和或均值(灰度)之间的第二差dy。
例如,对于图2a和2b示出的区域布置,可以通过下式计算第一差和第二差:
第一差=矩形块202的像素和或均值-矩形块201的像素和或均值,
第二差=矩形块202的像素和或均值-矩形块201的像素和或均值。
再例如,对于图2c和2d示出的区域布置,可以通过下式计算第一差和第二差:
第一差=矩形块206的像素和或均值-矩形块205的像素和或均值,
第二差=矩形块208的像素和或均值-矩形块207的像素和或均值。
再例如,对于图2e和2f示出的区域布置,可以通过下式计算第一差和第二差:
第一差=矩形块209的像素和或均值+矩形块211的像素和或均值-矩形块210的像素和或均值×2,
第二差=矩形块212的像素和或均值+矩形块214的像素和或均值-矩形块213的像素和或均值×2。
再例如,对于图2g和2h示出的区域布置,可以通过下式计算第一差和第二差:
第一差=矩形块216的像素和或均值-矩形块215的像素和或均值,
第二差=矩形块218的像素和或均值-矩形块217的像素和或均值。
计算轴向上区域的像素和或均值(灰度)之间的差的目的是获得反映相应轴向上像素灰度的变化的信息。对于不同的区域布置,可以有相应的计算第一差和第二差的方法,只要其能够反映这种变化。
回到图1,梯度计算单元103根据差计算单元计算的第一差和第二差计算梯度大小和梯度方向,以形成所提取的特征。
可根据下式计算梯度的方向和大小:
Figure B2009101352986D0000111
Figure B2009101352986D0000112
根据上式(1),梯度方向的角度范围为0到180度。在一个可选实施例中,可以根据下式计算梯度方向:
Figure B2009101352986D0000113
根据上式(1′),梯度方向的角度范围为0到360度。
图4a是示出图3a所示的部分302中所包含的对象边缘轮廓的示意图。如图4a所示,边缘401示意性地表示在部分302中包含的边缘轮廓。
图4b是示出梯度计算单元103根据差计算单元102基于图3b和3c所示的第一区域和第二区域计算的第一差和第二差所计算的梯度方向的示意图。在图4b中,斜线402的法线403表示所计算出的梯度方向。
由于根据沿两个方向布置的、协同定位的区域的像素来计算包含梯度方向和梯度大小的特征,所提取的特征能够更加真实地反映相应图像部分中对象边缘的分布。相应地,基于这样的特征产生的分类器,能够更加鲁棒地检测图像中例如人或动物的对象,尤其是具有各种姿态的对象。
针对每个输入图像提取的所有特征形成一个特征向量。
回到图1,训练单元104根据所提取的特征向量训练出分类器。
可采用方向性梯度直方图,通过例如SVM(支持向量机)的机器学习方法来根据上述实施例中获得的特征向量来训练出分类器。在例如Dalal等人的“Histograms of Oriented Gradients for Human Detection”,Proc.of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005:886-893和Triggs等人的“Human Detection Using Oriented Histograms of Flow and Appearance”,Proc.European Conference on Computer Vision,2006的文献中描述了这种根据梯度特征训练分类器的方法。
图5示出了根据本发明一个实施例的生成用于区分对象图像和非对象图像的分类器的方法500的流程图。
如图5所示,方法500从步骤501开始。步骤503、505和507用于从当前输入图像中提取一组特征作为特征向量。在步骤503,对于特征向量的每个特征,确定沿第一轴的方向布置的多个第一区域,和沿与所述第一轴相交(例如,以直角或非直角相交)的第二轴的方向布置的多个第二区域。
如参照图1所描述的,可通过Ding等人的标题为“A Robust Human Face Detecting Method In Complicated Background Image”的专利申请WO 2008/151470中公开的方法(参见说明书第2页至第3页)来收集和准备包括对象图像和非对象图像的输入图像。
第一区域和第二区域的布置可以是前面结合图1的实施例说明的区域布置。
在步骤503中,可以在输入图像的不同位置处的不同大小的部分内确定第一区域和第二区域,以获得该部分内的边缘轮廓特征。
在方法500的一个修改实施例中,在步骤503可以基于一种区域布置在输入图像的不同位置确定第一区域和第二区域。接着通过改变这种区域布置中区域大小和/或区域纵横比来得到新的区域布置,并且基于新的区域布置在输入图像的不同位置确定第一区域和第二区域。重复此过程,直到这种区域布置的所有可能区域大小或区域纵横比均被尝试过。
另外,或可选地,在上述实施例中,在步骤503可以通过改变区域布置中区域的相对位置关系来得到新的区域布置。
另外,或可选地,在上述实施例中,在步骤503可以通过改变区域布置中区域的数目来得到新的区域布置。
另外,或可选地,在上述实施例中,在步骤503可以通过改变区域布置中区域的形状来得到新的区域布置。
在步骤503,基于一种区域布置在输入图像中的一个位置确定的第一区域和第二区域决定了一个要提取的特征。概括地讲,至少两个特征所基于的区域布置是不同的。例如,不同区域布置之间的差别可以包括下述中的一个或多个:区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。
在步骤505,计算第一区域的像素和或均值之间的第一差,和第二区域的像素和或均值之间的第二差。可通过前面结合图1的实施例描述的方法来计算第一差和第二差。
接着在步骤507,根据计算的第一差和第二差计算梯度大小和梯度方向,以形成所提取的特征。可根据公式(1)(或(1′))和(2)来计算梯度方向和梯度大小。
接着在步骤509,确定对于当前输入图像,是否存在未提取的特征。如果存在,则返回步骤503,以执行提取下一个特征的过程;否则,执行步骤511。
在步骤511,确定是否还有未提取特征向量的输入图像。如果有,则返回步骤503,以执行提取下一个输入图像的特征向量的过程;否则,方法前进到步骤513。
在方法500中,由于根据沿两个方向布置的、协同定位的区域的像素来计算包含梯度方向和梯度大小的特征,所提取的特征能够更加真实地反映相应图像部分中对象边缘的分布。相应地,基于这样的特征产生的分类器,能够更加鲁棒地检测图像中例如人或动物的对象,尤其是具有各种姿态的对象。
针对每个输入图像提取的所有特征形成一个特征向量。
在步骤513,根据所提取的特征向量训练出分类器。
可采用方向性梯度直方图,通过例如SVM(支持向量机)的机器学习方法来根据上述实施例中获得的特征向量来训练出分类器。在例如Dalal等人的“Histograms of Oriented Gradients for Human Detection”,Proc.of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005:886-893和Triggs等人的“Human Detection Using Oriented Histograms of Flow and Appearance”,Proc.European Conference on Computer Vision,2006的文献中描述了这种根据梯度特征训练分类器的方法。
方法500在步骤515结束。
如下面将要描述的,也可以不采用方向性梯度直方图来根据上述实施例中获得的梯度特征来训练出分类器。
图6的框图示出了根据本发明一个优选实施例的、生成用于区分对象图像和非对象图像的分类器的训练单元104的结构。
如图6所示,训练单元104包括转换单元601和分类器生成单元602。
转换单元601对多个特征向量的至少一个维的特征进行转换,其中被转换的特征包括梯度方向和梯度大小。例如,特征向量可以是前面参照图1和图5描述的实施例中产生的特征向量。转换单元601进行的转换包括将梯度方向转换为多个预定区间中该梯度方向属于的区间。
例如,梯度方向的角度范围(即多个预定区间的角度覆盖范围)为180度。可以将这个范围划分为若干个预定区间(也称为梯度方向区间),例如划分为0到60度、60度到120度和120度到180度三个区间。当然,也可以进行其它的划分。梯度方向的角度范围也可以是360度。预定区间的数目优选为3至15。预定区间的数目越大,则角度划分越细致,更加利于得到更强分类能力(更低的错误率),但在检测时更容易产生过学习现象,使分类效果变差。预定区间的数目越小,则角度划分越粗,分类能力越弱,但对角度变化越不敏感,有利于提高姿势变化的鲁棒性。可以根据具体实现的需要在分类能力和姿势鲁棒性之间取得折衷,以确定预定区间的数目。
转换单元601根据特征的梯度方向所处于的区间,将梯度方向转换为相应的区间。
假定有N个预定区间,并且特征向量表示为<f1,...,fM>,其中fi包括梯度大小Ii和梯度方向Oi。对于要转换的特征fi,经过转换的特征表示为f′i,其中f’i包括梯度大小Ii和区间Ri
可以根据各个特征向量的同一个维的特征fi来生成与该维相应的分类器。该分类器可表示为hi(I,O),其中I表示梯度大小,O表示梯度方向。分类器包括分别与N个预定区间Kj对应的N个子分类器hij(I),0<j<N+1,用于对梯度方向属于相应预定区间的特征进行分类。每个子分类器hij(I)具有相应的阈值θij,和基于该阈值确定的分类aij和bij(对象、非对象)。hij(I)的处理可表示为:如果I<θij,则hij(I)=aij;否则hij(I)=bij。对于每个子分类器hij(I),可以根据各个转换的特征向量的特征f’i中区间Ri与区间Kj相同的特征的梯度大小的分布,学习得到阈值θij,和分类aij和bij
分类器生成单元602针对上述至少一个维的每个维,生成包含分别对应于所述预定区间的子分类器的分类器,其中,对于每个所述预定区间,根据所述特征向量中区间与所述预定区间相同的该维特征的梯度大小的分布,获得相应子分类器的阈值和基于该阈值确定的分类。可选地,也可以进一步获得所确定的分类和的可靠性的度量。
在一个简单实现中,可以只针对一个维进行转换和分类器生成,所生成的分类器作为用于区分对象图像和非对象图像的分类器。
优选地,上述至少一个维可以包括特征向量的至少两个维或所有维。在这样的情况下,可以分别生成与每一个维相应的分类器,并且根据生成的各个分类器获得最终的分类器。
可通过已知的方法来将对应于各个维的分类器组合成最终的分类器。例如,Adaboost方法是一种用来分类的方法,可用来把针对各个维生成的分类器融合在一起,组合出新的很强的分类器。
在Adaboost方法中,为每个样本设置权重,通过迭代的方法组合分类器。每次迭代时,当分类器对某些样本正确分类时,则减少这些样本的权值;当错误分类时,则增加这些样本的权重,让学习算法在后续的学习中集中对比较难的训练样本进行学习,最终得到一个识别准确率理想的分类器。
在Paul Viola和Michael Jones的文章“Robust Real-time Object Detection”,Second International Workshop On Statistical And Computational Theories Of Vision-Modeling,Learning,Computing,And Sampling,Vancouver,Canada,July 13,2001中描述这种选择和融合多个分类器以形成最终分类器的技术。
在一个优选实施例中,预定区间之一为代表弱梯度的区间。在这种情况下,转换单元601在特征的梯度大小小于预定阈值的情况下,将梯度方向转换为代表弱梯度的区间。对于和代表弱梯度的区间相应的子弱分类器,无论梯度大小如何,均将特征分类为非对象。
图7示出了根据本发明一个优选实施例的、生成用于区分对象图像和非对象图像的分类器的训练方法700的流程图。
如图7所示,方法700从步骤701开始。在步骤703,对多个特征向量的至少一个维的特征进行转换,其中被转换的特征包括梯度方向和梯度大小。例如,特征向量可以是前面参照图1和图5描述的实施例中产生的特征向量。所进行的转换包括将梯度方向转换为多个预定区间中该梯度方向属于的区间。
在步骤705,针对所转换的特征向量的当前维,生成包含分别对应于所述预定区间的子分类器的分类器,其中,对于每个所述预定区间,根据所述特征向量中区间与所述预定区间相同的当前维特征的梯度大小的分布,获得相应子分类器的阈值和基于该阈值确定的分类。可选地,也可以进一步获得所确定的分类和的可靠性的度量。
在步骤707,确定是否有未生成分类器的维。如果有,则返回步骤705生成下一个维的分类器;否则方法在步骤709结束。
在一个简单实现中,可以只针对一个维进行转换和分类器生成,所生成的分类器作为用于区分对象图像和非对象图像的分类器。
优选地,上述至少一个维可以包括特征向量的至少两个维或所有维。在这样的情况下,可以分别生成与每一个维相应的分类器,并且根据生成的各个分类器获得最终的分类器。
可通过已知的方法来将对应于各个维的分类器组合成最终的分类器,例如Paul Viola等人的AdaBoost方法来根据所生成的分类器来形成最终的分类器。
在一个优选实施例中,预定区间之一为代表弱梯度的区间。在这种情况下,在步骤703中,在特征的梯度大小小于预定阈值的情况下,将梯度方向转换为代表弱梯度的区间。对于和代表弱梯度的区间相应的子弱分类器,无论梯度大小如何,均将特征分类为非对象。
图8的框图示出了根据本发明一个实施例的、对图像进行分类的设备800的结构。
如图8所示,设备800包括确定单元801、差计算单元802、梯度计算单元803和分类单元804。
输入设备800的图像可以是通过扫描窗口从要处理的图像中获得预定尺寸的图像。可通过在Ding等人的标题为“A Robust Human Face Detecting Method In Complicated Background Image”的专利申请WO2008/151470中描述的方法来获得图像(参见说明书第5页)。
在这个实施例中,所要提取的特征向量是分类单元804所使用的分类器所基于的特征向量。
确定单元801对于所述特征向量的每个特征,确定沿第一轴的方向布置的多个第一区域,和沿与所述第一轴相交(例如,以直角或非直角相交)的第二轴的方向布置的多个第二区域。
确定单元801所基于的第一区域和第二区域的区域布置可以是前面结合确定单元101描述的区域布置。
对于确定单元801基于每个区域布置在输入图像中的每个位置确定的第一区域和第二区域,差计算单元802计算第一区域的像素和或均值(灰度)之间的第一差dx,和第二区域的像素和或均值(灰度)之间的第二差dy。可根据公式(1)(或(1′))和(2)来计算梯度方向和梯度大小。
梯度计算单元803根据差计算单元802计算的第一差和第二差计算梯度大小和梯度方向,以形成所提取的特征。可以采用前面结合梯度计算单元103描述的方法来计算梯度大小和梯度方向。
针对输入图像提取的所有特征形成一个特征向量。分类单元804根据所提取的特征向量,对输入图像进行分类。分类单元804所采用的分类器可以是在前面的实施例中生成的分类器,例如采用方向性梯度直方图生成的分类器、基于梯度方向区间生成的分类器。
图9示出了示出了根据本发明一个实施例的、对图像进行分类的方法900的流程图。
如图9所示,方法900从步骤901开始。步骤903、905和907用于从当前输入图像中提取一组特征作为特征向量。所要提取的特征向量是所使用的分类器所基于的特征向量。输入图像可以是通过扫描窗口从要处理的图像中获得预定尺寸的图像。可通过在Ding等人的标题为“A Robust Human Face Detecting Method In Complicated Background Image”的专利申请WO 2008/151470中描述的方法来获得图像(参见说明书第5页)。
在步骤903,对于特征向量的每个特征,确定沿第一轴的方向布置的多个第一区域,和沿与所述第一轴相交(例如,以直角或非直角相交)的第二轴的方向布置的多个第二区域。步骤903所基于的第一区域和第二区域的区域布置可以是前面结合确定单元101描述的区域布置。
接着在步骤907,根据计算的第一差和第二差计算梯度大小和梯度方向,以形成所提取的特征。可根据公式(1)(或(1′))和(2)来计算梯度方向和梯度大小。
接着在步骤909,确定对于当前输入图像,是否存在未提取的特征。如果存在,则返回步骤903,以执行提取下一个特征的过程;否则,执行步骤911。
针对输入图像提取的所有特征形成一个特征向量。在步骤911,根据所提取的特征向量,对输入图像进行分类。步骤911所采用的分类器可以是在前面的实施例中生成的分类器,例如采用方向性梯度直方图生成的分类器、基于梯度方向区间生成的分类器。
方法900在步骤913结束。
图10的框图示出了根据本发明一个优选实施例的分类单元104的结构。
如图12所示,分类单元104包括分类器1001至100M,M为所提取的特征向量中特征的数目。每个分类器对应于一个特征。分类器1001至100M可以是前面参照图6描述的分类器。以分类器1001为例,分类器1001包括多个子分类器1001-1至1001-N。如前面参照图6所描述的,每个子分类器1001-1至1001-N对应于一个不同的梯度方向区间,并且每个梯度方向区间具有相应的阈值。
对于所提取的特征向量的每个特征,在相应分类器(例如分类器1001)中,在该特征的梯度方向属于的一个子分类器(例如子分类器1001-1至1001-N之一)所对应的梯度方向区间的情况下,由该子分类器比较该特征的梯度大小和该梯度方向区间的相应阈值,并且根据比较结果产生分类结果。分类结果可以是图像的分类(对象、非对象)。可选地,分类结果还可以包含图像分类的可靠性。
在未示出的单元中,可通过已知的方法,把各个分类器根据特征向量的相应特征产生的分类结果组合成最终的分类结果。例如可采用Adaboost方法。
图11示出了根据本发明一个优选实施例的分类方法的流程图。该方法可用来实现图9的步骤911。
如图11所示,方法从步骤1101开始。在步骤1103,对于所提取的特征向量的一个特征,确定与该特征相关的多个梯度方向区间(如参照图6所描述的)中该特征的梯度方向所属的梯度方向区间。如参照图6所描述的,每个梯度方向区间具有相应的阈值。
在步骤1105,比较该特征的梯度大小和所确定的梯度方向区间的相应阈值。
在步骤1107,根据比较结果产生分类结果。分类结果可以是图像的分类(对象、非对象)。可选地,分类结果还可以包含图像分类的可靠性。
在步骤1109,确定特征向量中是否还有未处理的特征。如果有,则返回步骤1103继续处理下一个特征。如果没有,则方法在步骤1111结束。
图12是示出其中实现本发明的计算机的示例性结构的框图。
本发明的设备和方法实现环境如图12所示。
在图12中,中央处理单元(CPU)1201根据只读映射数据(ROM)1202中存储的程序或从存储部分1208加载到随机存取映射数据(RAM)1203的程序执行各种处理。在RAM 1203中,也根据需要存储当CPU 1201执行各种处理等等时所需的数据。
CPU 1201、ROM 1202和RAM 1203经由总线1204彼此连接。输入/输出接口1205也连接到总线1204。
下述部件连接到输入/输出接口1205:输入部分1206,包括键盘、鼠标等等;输出部分1207,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分1208,包括硬盘等等;和通信部分1209,包括网络接口卡比如LAN卡、调制解调器等等。通信部分1209经由网络比如因特网执行通信处理。
根据需要,驱动器1210也连接到输入/输出接口1205。可拆卸介质1211比如磁盘、光盘、磁光盘、半导体映射数据等等根据需要被安装在驱动器1210上,使得从中读出的计算机程序根据需要被安装到存储部分1208中。
在通过软件实现上述步骤和处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1211安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图12所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可拆卸介质1211。可拆卸介质1211的例子包含磁盘、光盘(包含光盘只读映射数据(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)和半导体映射数据。或者,存储介质可以是ROM 1202、存储部分1208中包含的硬盘等等,其中存有程序,并且与包含它们的方法一起被分发给用户。
在前面的说明书中参照特定实施例描述了本发明。然而本领域的普通技术人员理解,在不偏离如权利要求书限定的本发明的范围的前提下可以进行各种修改和改变。

Claims (14)

1.一种对图像进行分类的方法,包括:
从所述图像中提取一组特征作为特征向量,其中所述提取包括:
对于所述特征向量的每个特征,确定沿第一轴的方向布置的多个第一区域,和沿与所述第一轴相交的第二轴的方向布置的多个第二区域;
计算所述多个第一区域的像素和或均值之间的第一差,和所述多个第二区域的像素和或均值之间的第二差;和
根据所述第一差和第二差计算梯度大小和梯度方向,以形成所述每个特征;和
根据所述提取的特征向量,对所述图像进行分类。
2.如权利要求1所述的方法,其中所述区域为矩形区域,所述第一区域是相接的,并且所述第二区域是相接的。
3.如权利要求1所述的方法,其中,
在所述第一区域的数目和所述第二区域的数目均为二,所述第一区域是相接的并且所述第二区域是相接的情况下,所述第一轴和第二轴的交点在所述第一区域的连接线上或连接点的预定范围内,并且在所述第二区域的连接线上或连接点的预定范围内;
在所述第一区域的数目和所述第二区域的数目均为二,所述第一区域是间隔开的并且所述第二区域是间隔开的情况下,所述第一轴和第二轴的交点在所述第一区域的位置中心之间的中点和所述第二区域的位置中心之间的中点的预定范围内;
在所述第一区域的数目和所述第二区域的数目均为三的情况下,所述第一轴和第二轴的交点分别在所述第一区域中居于中间的第一区域内和所述第二区域中居于中间的第二区域内。
4.如权利要求1所述的方法,其中至少两个所述特征所基于的区域布置之间的差别包括下述中的一个或多个:区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。
5.如权利要求1所述的方法,其中对所述图像进行分类包括:
对于每个所述特征,确定与所述特征相关的多个梯度方向区间中所述特征的梯度方向所属的梯度方向区间,每个梯度方向区间具有相应的阈值;
比较所述特征的梯度大小和所确定的梯度方向区间的相应阈值;和
根据比较结果产生分类结果。
6.如权利要求5所述的方法,其中所述多个梯度方向区间的数目为3至15。
7.如权利要求5所述的方法,其中多个梯度方向区间所覆盖的范围为180度或360度。
8.一种对图像进行分类的设备,所述设备从所述图像中提取一组特征作为特征向量,并且包括:
确定单元,其对于所述特征向量的每个特征,确定沿第一轴的方向布置的多个第一区域,和沿与所述第一轴相交的第二轴的方向布置的多个第二区域;
差计算单元,其计算所述多个第一区域的像素和或均值之间的第一差,和所述多个第二区域的像素和或均值之间的第二差;和
梯度计算单元,其根据所述第一差和第二差计算梯度大小和梯度方向,以形成所述每个特征;和
分类单元,其根据所述提取的特征向量,对所述图像进行分类。
9.如权利要求8所述的设备,其中所述区域为矩形区域,所述第一区域是相接的,并且所述第二区域是相接的。
10.如权利要求8所述的设备,其中,
在所述第一区域的数目和所述第二区域的数目均为二,所述第一区域是相接的并且所述第二区域是相接的情况下,所述第一轴和第二轴的交点在所述第一区域的连接线上或连接点的预定范围内,并且在所述第二区域的连接线上或连接点的预定范围内;
在所述第一区域的数目和所述第二区域的数目均为二,所述第一区域是间隔开的并且所述第二区域是间隔开的情况下,所述第一轴和第二轴的交点在所述第一区域的位置中心之间的中点和所述第二区域的位置中心之间的中点的预定范围内;
在所述第一区域的数目和所述第二区域的数目均为三的情况下,所述第一轴和第二轴的交点分别在所述第一区域中居于中间的第一区域内和所述第二区域中居于中间的第二区域内。
11.如权利要求8所述的设备,其中至少两个所述特征所基于的区域布置之间的差别包括下述中的一个或多个:区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。
12.如权利要求8所述的设备,其中对于每个所述特征,所述分类单元包括相应的分类器,所述分类器包括:
多个子分类器,每个子分类器对应于一个不同的梯度方向区间,每个梯度方向区间具有相应的阈值,
其中每个子分类器被配置为在所述特征的梯度方向属于所述子分类器所对应的梯度方向区间的情况下,比较所述特征的梯度大小和所述梯度方向区间的相应阈值,并且根据比较结果产生分类结果。
13.如权利要求12所述的设备,其中所有所述梯度方向区间的数目为3至15。
14.如权利要求12所述的设备,其中所有所述梯度方向区间所覆盖的范围为180度或360度。
CN200910135298.6A 2009-05-20 2009-05-20 对图像进行分类的方法和设备 Expired - Fee Related CN101894262B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN200910135298.6A CN101894262B (zh) 2009-05-20 2009-05-20 对图像进行分类的方法和设备
EP10777364A EP2434431A1 (en) 2009-05-20 2010-05-18 Method and device for classifying image
JP2012511134A JP5545361B2 (ja) 2009-05-20 2010-05-18 画像分類方法、装置、プログラム製品および記憶媒体
US13/319,914 US20120093420A1 (en) 2009-05-20 2010-05-18 Method and device for classifying image
PCT/CN2010/072867 WO2010133161A1 (zh) 2009-05-20 2010-05-18 对图像进行分类的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910135298.6A CN101894262B (zh) 2009-05-20 2009-05-20 对图像进行分类的方法和设备

Publications (2)

Publication Number Publication Date
CN101894262A true CN101894262A (zh) 2010-11-24
CN101894262B CN101894262B (zh) 2014-07-09

Family

ID=43103450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910135298.6A Expired - Fee Related CN101894262B (zh) 2009-05-20 2009-05-20 对图像进行分类的方法和设备

Country Status (5)

Country Link
US (1) US20120093420A1 (zh)
EP (1) EP2434431A1 (zh)
JP (1) JP5545361B2 (zh)
CN (1) CN101894262B (zh)
WO (1) WO2010133161A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609713A (zh) * 2011-01-20 2012-07-25 索尼公司 对图像进行分类的方法和设备
WO2013063765A1 (en) * 2011-11-01 2013-05-10 Intel Corporation Object detection using extended surf features
US8781221B2 (en) 2011-04-11 2014-07-15 Intel Corporation Hand gesture recognition system
WO2014194620A1 (zh) * 2013-06-04 2014-12-11 北京大学深圳研究生院 图像特征提取、训练、检测方法及模块、装置、系统
CN105308944A (zh) * 2013-03-13 2016-02-03 柯法克斯公司 对移动设备捕获的数字图像中的对象进行分类的系统和方法
CN106855950A (zh) * 2015-12-09 2017-06-16 安讯士有限公司 旋转不变对象特征辨识
US9934433B2 (en) 2009-02-10 2018-04-03 Kofax, Inc. Global geographic information retrieval, validation, and normalization
CN108475338A (zh) * 2017-07-14 2018-08-31 深圳市柔宇科技有限公司 全景图像、视频的识别方法、分类器建立方法及电子装置
US10108860B2 (en) 2013-11-15 2018-10-23 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US10127636B2 (en) 2013-09-27 2018-11-13 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10146803B2 (en) 2013-04-23 2018-12-04 Kofax, Inc Smart mobile application development platform
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US10657600B2 (en) 2012-01-12 2020-05-19 Kofax, Inc. Systems and methods for mobile image capture and processing
US10699146B2 (en) 2014-10-30 2020-06-30 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9036903B2 (en) * 2010-01-06 2015-05-19 Nec Corporation Learning device, identification device, learning identification system and learning identification device
JP2013161126A (ja) * 2012-02-01 2013-08-19 Honda Elesys Co Ltd 画像認識装置、画像認識方法および画像認識プログラム
JP6901386B2 (ja) * 2017-12-08 2021-07-14 株式会社東芝 勾配推定装置、勾配推定方法、プログラムおよび制御システム
US11315352B2 (en) * 2019-05-08 2022-04-26 Raytheon Company Calculating the precision of image annotations

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5291563A (en) * 1990-12-17 1994-03-01 Nippon Telegraph And Telephone Corporation Method and apparatus for detection of target object with improved robustness
WO2008151470A1 (fr) * 2007-06-15 2008-12-18 Tsinghua University Procédé de détection robuste de visage humain dans une image d'arrière-plan compliquée

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3606430B2 (ja) * 1998-04-14 2005-01-05 松下電器産業株式会社 画像整合性判定装置
JP2005044330A (ja) * 2003-07-24 2005-02-17 Univ Of California San Diego 弱仮説生成装置及び方法、学習装置及び方法、検出装置及び方法、表情学習装置及び方法、表情認識装置及び方法、並びにロボット装置
CN100405388C (zh) * 2004-05-14 2008-07-23 欧姆龙株式会社 特定被摄体检测装置
JP2006268825A (ja) * 2005-02-28 2006-10-05 Toshiba Corp オブジェクト検出装置、学習装置、オブジェクト検出システム、方法、およびプログラム
JP4764172B2 (ja) * 2006-01-13 2011-08-31 財団法人電力中央研究所 画像処理による移動体候補の検出方法及び移動体候補から移動体を検出する移動体検出方法、移動体検出装置及び移動体検出プログラム
US7693301B2 (en) * 2006-10-11 2010-04-06 Arcsoft, Inc. Known face guided imaging method
KR101330636B1 (ko) * 2007-01-24 2013-11-18 삼성전자주식회사 얼굴시점 결정장치 및 방법과 이를 채용하는 얼굴검출장치및 방법
US8325983B2 (en) * 2008-09-22 2012-12-04 Samsung Electronics Co., Ltd. Combination detector and object detection method using the same
US20100091127A1 (en) * 2008-09-30 2010-04-15 University Of Victoria Innovation And Development Corporation Image reconstruction method for a gradient camera
JP2010204947A (ja) * 2009-03-03 2010-09-16 Toshiba Corp オブジェクト検出装置、オブジェクト検出方法、及び、プログラム
WO2010138645A2 (en) * 2009-05-29 2010-12-02 University Of Pittsburgh - Of The Commonwealth System Of Higher Education Blood vessel segmentation with three-dimensional spectral domain optical coherence tomography
US8509526B2 (en) * 2010-04-13 2013-08-13 International Business Machines Corporation Detection of objects in digital images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5291563A (en) * 1990-12-17 1994-03-01 Nippon Telegraph And Telephone Corporation Method and apparatus for detection of target object with improved robustness
WO2008151470A1 (fr) * 2007-06-15 2008-12-18 Tsinghua University Procédé de détection robuste de visage humain dans une image d'arrière-plan compliquée

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAVNEET DALAL 等: "Histogram of Oriented Gradients for Human Detection", 《PROCEEDINGS OF THE 2005 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR"05)》 *
PAUL VIOLA 等: "Robust Real-time Object Detection", 《SECOND INTERNATIONAL WORKSHOP ON STATISTICAL AND COMPUTATIONAL THEORIES OF VISION-MODELING,LEARNING,COMPUTING,AND SAMPLING》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9934433B2 (en) 2009-02-10 2018-04-03 Kofax, Inc. Global geographic information retrieval, validation, and normalization
CN102609713A (zh) * 2011-01-20 2012-07-25 索尼公司 对图像进行分类的方法和设备
US8781221B2 (en) 2011-04-11 2014-07-15 Intel Corporation Hand gesture recognition system
CN104025118B (zh) * 2011-11-01 2017-11-07 英特尔公司 使用扩展surf特征的对象检测
WO2013063765A1 (en) * 2011-11-01 2013-05-10 Intel Corporation Object detection using extended surf features
US10657600B2 (en) 2012-01-12 2020-05-19 Kofax, Inc. Systems and methods for mobile image capture and processing
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
CN105308944A (zh) * 2013-03-13 2016-02-03 柯法克斯公司 对移动设备捕获的数字图像中的对象进行分类的系统和方法
US9996741B2 (en) 2013-03-13 2018-06-12 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US10146803B2 (en) 2013-04-23 2018-12-04 Kofax, Inc Smart mobile application development platform
WO2014194620A1 (zh) * 2013-06-04 2014-12-11 北京大学深圳研究生院 图像特征提取、训练、检测方法及模块、装置、系统
US10127636B2 (en) 2013-09-27 2018-11-13 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10108860B2 (en) 2013-11-15 2018-10-23 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US10699146B2 (en) 2014-10-30 2020-06-30 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
CN106855950A (zh) * 2015-12-09 2017-06-16 安讯士有限公司 旋转不变对象特征辨识
WO2019010704A1 (zh) * 2017-07-14 2019-01-17 深圳市柔宇科技有限公司 全景图像、视频的识别方法、分类器建立方法及电子装置
CN108475338B (zh) * 2017-07-14 2020-04-14 深圳市柔宇科技有限公司 全景图像、视频的识别方法、分类器建立方法及电子装置
CN108475338A (zh) * 2017-07-14 2018-08-31 深圳市柔宇科技有限公司 全景图像、视频的识别方法、分类器建立方法及电子装置
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach

Also Published As

Publication number Publication date
CN101894262B (zh) 2014-07-09
JP2012527664A (ja) 2012-11-08
US20120093420A1 (en) 2012-04-19
EP2434431A1 (en) 2012-03-28
JP5545361B2 (ja) 2014-07-09
WO2010133161A1 (zh) 2010-11-25

Similar Documents

Publication Publication Date Title
CN101894262B (zh) 对图像进行分类的方法和设备
Serna et al. Classification of traffic signs: The european dataset
CN109829398B (zh) 一种基于三维卷积网络的视频中的目标检测方法
Liu et al. A new benchmark on the recognition of handwritten Bangla and Farsi numeral characters
CN101807256B (zh) 一种基于多分辨率框架的物体识别检测方法
CN101576953B (zh) 一种人体姿态的分类方法和装置
CN102682287B (zh) 基于显著度信息的行人检测方法
CN112418074A (zh) 一种基于自注意力的耦合姿态人脸识别方法
CN105608441B (zh) 一种车型识别方法及系统
CN105574063A (zh) 基于视觉显著性的图像检索方法
CN105894047A (zh) 一种基于三维数据的人脸分类系统
CN101350069A (zh) 从训练数据构建分类器并使用分类器检测在测试数据中的移动对象的计算机实现方法
CN103136504A (zh) 人脸识别方法及装置
CN102103698A (zh) 图像处理装置及图像处理方法
KR101476799B1 (ko) 깊이 정보를 이용한 객체 검출 시스템 및 방법
CN103295025A (zh) 一种三维模型最优视图的自动选择方法
CN102947863A (zh) 移动物体检测装置
CN103345631A (zh) 图像特征提取、训练、检测方法及模块、装置、系统
CN102479329A (zh) 分类器生成装置和方法,检测图像中的对象的装置和方法
CN103186790A (zh) 对象检测系统和方法
Babu et al. Handwritten digit recognition using structural, statistical features and k-nearest neighbor classifier
CN102663740B (zh) 基于图切的sar图像变化检测方法
CN111027526A (zh) 一种提高车辆目标检测识别检测效率的方法
Pujol-Miro et al. Correspondence matching in unorganized 3D point clouds using Convolutional Neural Networks
CN102194122A (zh) 对图像进行分类的方法和设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140709

Termination date: 20210520