CN101894262A

CN101894262A - 对图像进行分类的方法和设备

Info

Publication number: CN101894262A
Application number: CN2009101352986A
Authority: CN
Inventors: 张伦; 吴伟国
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-05-20
Filing date: 2009-05-20
Publication date: 2010-11-24
Anticipated expiration: 2029-05-20
Also published as: CN101894262B; JP2012527664A; US20120093420A1; EP2434431A1; JP5545361B2; WO2010133161A1

Abstract

对图像进行分类的方法和设备。方法包括：从所述图像中提取一组特征作为特征向量，其中所述提取包括：对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交的第二轴的方向布置的多个第二区域；计算所述多个第一区域的像素和或均值之间的第一差，和所述多个第二区域的像素和或均值之间的第二差；和根据所述第一差和第二差计算梯度大小和梯度方向，以形成所述每个特征；和根据所述提取的特征向量，对所述图像进行分类。

Description

对图像进行分类的方法和设备

技术领域

本发明涉及对视频或图像的分类(包含对象/不包含对象)，即视频或图像中对象的检测或识别，尤其涉及生成用于区分视频或图像中是否包含所要检测的对象的分类器的方法和设备，以及用所生成的分类器对图像进行分类的方法和设备。

背景技术

随着视频监控、人工智能、计算机视觉等应用的不断普及，对检测视频和图像中出现的特定对象，例如人、动物、车辆等等的技术的需求日益增加。在用于检测视频或者图像中的对象的方法中，已知有一类方法是采用静态图像特征来建立用于区分视频或图像中是包含对象还是非对象的分类器，从而用该分类器来对图像进行分类，即在图像中检测对象，其中对于视频，将每一帧视为一幅图像来进行检测。

Paul Viola和Michael Jones在“Robust Real-time Object Detection”，Second International Workshop On Statistical And Computational Theories Of Vision-Modeling，Learning，Computing，And Sampling，Vancouver，Canada，July 13，2001中公开了一种这样的技术。在Paul Viola等人的技术中，从图像中提取矩形块的像素和之间的差作为特征，通过AdaBoost方法从所提取的特征中选择更适合用来区分对象和非对象的特征来形成弱分类器，并且通过融合弱分类器来形成强分类器。这类方法比较适合在图像中检测例如人脸这样的对象，但是对于例如人这样的对象的检测的鲁棒性则不是很高。

发明内容

鉴于现有技术的上述不足，本发明旨在提供一种生成分类器的方法、设备和对图像进行分类的方法和设备，以提高图像中对象检测的鲁棒性。

本发明的一个实施例是一种生成用于区分对象图像和非对象图像的分类器的方法，包括：从多个输入图像的每个图像中提取一组特征作为特征向量，其中所述提取包括：对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交的第二轴的方向布置的多个第二区域；计算所述多个第一区域的像素和或均值之间的第一差，和所述多个第二区域的像素和或均值之间的第二差；和根据所述第一差和第二差计算梯度大小和梯度方向，以形成所述每个特征；和根据所述提取的特征向量训练出所述分类器。

本发明的另一个实施例是一种生成用于区分对象图像和非对象图像的分类器的设备，其中所述设备从多个输入图像的每个图像中提取一组特征作为特征向量，所述设备包括：确定单元，其对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交的第二轴的方向布置的多个第二区域；差计算单元，其计算所述多个第一区域的像素和或均值之间的第一差，和所述多个第二区域的像素和或均值之间的第二差；和梯度计算单元，其根据所述第一差和第二差计算梯度大小和梯度方向，以形成所述每个特征；和训练单元，其根据所述提取的特征向量训练出所述分类器。

根据本发明的上述实施例，由于根据沿两个方向布置的区域的像素来计算包含梯度方向和梯度大小的特征，所提取的特征能够更加真实地反映相应图像部分中对象边缘的分布。基于这样的特征产生的分类器，能够更加鲁棒地检测图像中例如人或动物的对象，尤其是具有各种姿态的对象。

进一步地，在上述方法和设备中，各区域可以是矩形区域，其中第一区域是相接的，并且第二区域也是相接的。

在上述方法和设备中，在第一区域的数目和第二区域的数目均为二，第一区域是相接的并且第二区域是相接的情况下，第一轴和第二轴的交点在第一区域的连接线上或连接点的预定范围内，并且在第二区域的连接线上或连接点的预定范围内。

在上述方法和设备中，在第一区域的数目和第二区域的数目均为二，第一区域是间隔开的并且第二区域是间隔开的情况下，第一轴和第二轴的交点在第一区域的位置中心之间的中点和第二区域的位置中心之间的中点的预定范围内。

在上述方法和设备中，在第一区域的数目和第二区域的数目均为三的情况下，第一轴和第二轴的交点分别在第一区域中居于中间的第一区域内和第二区域中居于中间的第二区域内。

在上述方法和设备中，至少两个特征所基于的区域布置之间的差别包括下述中的一个或多个：区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。这使得可供考察的特征更加丰富，从而更加利于选择适合区分对象和非对象的特征。

在上述方法和设备中，对多个特征向量的至少一个维的特征进行转换，其中被转换的特征包括梯度方向和梯度大小，所述转换包括将所述梯度方向转换为多个预定区间中所述梯度方向属于的区间。针对所述至少一个维的每个维，生成包含分别对应于所述预定区间的子分类器的分类器，其中，对于每个所述预定区间，根据所述特征向量中区间与所述预定区间相同的该维特征的梯度大小的分布，获得相应子分类器的阈值。

本发明的另一个实施例是一种对图像进行分类的方法，包括：从所述图像中提取一组特征作为特征向量，其中所述提取包括：对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交的第二轴的方向布置的多个第二区域；计算所述多个第一区域的像素和或均值之间的第一差，和所述多个第二区域的像素和或均值之间的第二差；和根据所述第一差和第二差计算梯度大小和梯度方向，以形成所述每个特征；和根据所述提取的特征向量，对所述图像进行分类。

本发明的另一个实施例是一种对图像进行分类的设备，包括：特征提取装置，其从所述图像中提取一组特征作为特征向量，包括：确定单元，其对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交的第二轴的方向布置的多个第二区域；差计算单元，其计算所述多个第一区域的像素和或均值之间的第一差，和所述多个第二区域的像素和或均值之间的第二差；和梯度计算单元，其根据所述第一差和第二差计算梯度大小和梯度方向，以形成所述每个特征；和分类单元，其根据所述提取的特征向量，对所述图像进行分类。

在上述方法和设备中，如前所述，由于能够根据多个区域的像素来计算图像部分的梯度，所提取的特征能够更加完备地反映相应图像部分中对象边缘的分布，而较少受对象姿态变化的影响。基于这样的特征产生的分类器，能够更加鲁棒地检测图像中例如人或动物的对象，尤其是具有各种姿态的对象。

在上述方法和设备中，各区域可以是矩形区域，其中第一区域是相接的，并且第二区域是相接的。

进一步地，在上述方法和设备中，至少两个特征所基于的区域布置之间的差别包括下述中的一个或多个：区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。这使得可供考察的特征更加丰富，从而更加利于选择适合区分对象和非对象的特征。

进一步地，在上述方法和设备中，对图像进行分类包括：对于每个特征的梯度方向和梯度大小，确定多个梯度方向区间中梯度方向所属的梯度方向区间，每个梯度方向区间具有相应的阈值；比较所述梯度大小和所确定的梯度方向区间的相应阈值；和根据比较结果产生分类结果。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。在附图中不必依照比例绘制出单元的尺寸和相对位置。

图1的框图示出了根据本发明一个实施例的、生成用于区分对象图像和非对象图像的分类器的设备的结构。

图2是示出确定单元所确定的区域布置的例子的示意图。

图3a示出了对象(人体)的边缘轮廓的分布的一个例子。

图3b和3c分别示出了基于图2a和2b示出的区域布置在图3a示出的部分中确定第一区域和第二区域的示意图。

图4a是示出图3a所示的部分302中所包含的对象边缘轮廓的示意图。

图4b是示出梯度计算单元根据差计算单元基于图3b和3c所示的第一区域和第二区域计算的第一差和第二差所计算的梯度的示意图。

图5示出了根据本发明一个实施例的生成用于区分对象图像和非对象图像的分类器的方法的流程图。

图6的框图示出了根据本发明一个优选实施例的、生成用于区分对象图像和非对象图像的分类器的训练单元的结构。

图7示出了根据本发明一个优选实施例的、生成用于区分对象图像和非对象图像的分类器的训练方法的流程图。

图8的框图示出了根据本发明一个实施例的、对图像进行分类的设备的结构。

图9示出了示出了根据本发明一个实施例的、检测图像中的对象的方法的流程图。

图10的框图示出了根据本发明一个优选实施例的分类单元的结构。

图11示出了根据本发明一个优选实施例的分类方法的流程图。

图12是示出其中实现本发明的计算机的示例性结构的框图。

具体实施方式

下面参照附图来说明本发明的实施例。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

图1的框图示出了根据本发明一个实施例的、生成用于区分对象图像和非对象图像的分类器的设备100的结构。

如图1所示，设备100包括确定单元101、差计算单元102、梯度计算单元103和训练单元104。

在采用静态图像特征来建立分类器的技术中，收集对象图像和非对象图像，从所收集的对象图像和非对象图像中提取特征，利用AdaBoost方法对提取的特征进行选择和融合，得到区分对象图像和非对象图像的分类器。在Ding等人的标题为“A Robust Human Face Detecting Method In Complicated Background Image”的专利申请WO 2008/151470中公开了收集和准备这样的对象图像和非对象图像的方法(参见说明书第2页至第3页)。所收集和准备的对象图像和非对象图像可作为设备100的输入图像。设备100从多个输入图像的每个图像中提取一组特征作为特征向量。

确定单元101对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交(例如，以直角或非直角相交)的第二轴的方向布置的多个第二区域。

要提取的特征通常基于输入图像中的像素。确定单元101用于确定每个要提取的特征所基于的输入图像中的像素。确定单元101可根据预定区域布置确定所基于的输入图像中的像素。

第一区域和第二区域的布置可以有各种方式。在一个例子中，多个第一区域的像素的位置的加权平均位置以及多个第二区域的像素的位置的加权平均位置在所述第一轴和第二轴的交点的预定范围内。具体以第一区域为例，可以将第一区域的像素的位置表示为(x_ij，y_ij)，其中x_ij表示第i个第一区域中的第j个像素在第一轴(即X轴)上的座标，y_ij表示第i个第一区域中的第j个像素在第二轴(即Y轴)上的座标。可将第一区域的像素的位置的加权平均位置(xa，ya)定义如下：

xa = Σ_{i}^{N} Σ_{j}^{M_{i}} x_{ij} \times w_{i}, ya = Σ_{i}^{N} Σ_{j}^{M_{i}} y_{ij} \times w_{i}

其中N为第一区域的数目，M_i为第i个第一区域中像素的数目，w_i为第i个第一区域的权重，并且

进一步地，或可选地，在上述例子中，所有第一区域的权重可以相同，也可以至少部分地不同。在不相同的情况下，可以为包含的像素较多的第一区域分配较小的权重，为包含的像素较少的第一区域分配较大的权重。

虽然前面以第一区域为例对加权平均位置进行了说明，然而上述说明也适用于第二区域。

在另一个例子中，区域可以是矩形区域，第一区域是相接的，并且第二区域是相接的。

图2是示出确定单元101所确定的区域布置的其它例子的示意图。在图2中，X轴表示第一轴，Y轴表示第二轴，并且矩形块的白色和黑色只是用于区分的目的。虽然图2中的第一轴和第二轴被示出为相互正交的，然而第一轴和第二轴也可以以非直角的角度相交。

根据一种区域布置，第一区域的数目和第二区域的数目均为二，第一区域是相接的并且第二区域是相接的。在这种布置中，第一轴和第二轴的交点在第一区域的连接线上或连接点(例如当矩形区域的顶点相接时)的预定范围内(例如基本重合)，并且在第二区域的连接线上或连接点的预定范围内。

图2a和图2b示出了这种区域布置的一个例子。具体地，图2a示出了在第一轴上第一区域的布置，其中白色矩形块201和黑色矩形块202均表示第一区域并且在连接线上相接，而第一轴和第二轴的交点在连接线上。图2b示出了在第二轴上第二区域的布置，其中白色矩形块203和黑色矩形块204均表示第二区域并且在连接线上相接，而第一轴和第二轴的交点在连接线上。虽然图2a和图2b中分别示出了第一轴和第二轴上区域的布置，但实际上反映的是将图2a和图2b合并，即图2a的第一轴和第二轴分别与图2b的第一轴和第二轴相同时的区域布置。可选地，矩形块201与202，以及矩形块203与204可以通过各自的顶点彼此相接。

根据另一种区域布置，第一区域的数目和第二区域的数目均为二，第一区域是间隔开的并且第二区域是间隔开的。在这种布置中，第一轴和第二轴的交点在第一区域的位置中心之间的中点和第二区域的位置中心之间的中点的预定范围内。

图2c和图2d示出了这种区域布置的一个例子。图2c示出了在第一轴上第一区域的布置，其中白色矩形块205和黑色矩形块206均表示第一区域并且是间隔开的，而第一轴和第二轴的交点在白色矩形块205和黑色矩形块206的位置中心之间的中点的预定范围内。图2d示出了在第二轴上第二区域的布置，其中白色矩形块207和黑色矩形块208均表示第二区域并且是间隔开的，而第一轴和第二轴的交点在白色矩形块207和黑色矩形块208的位置中心之间的中点的预定范围内。虽然图2c和图2d中分别示出了第一轴和第二轴上区域的布置，但实际上反映的是将图2c和图2d合并，即图2c的第一轴和第二轴分别与图2d的第一轴和第二轴相同时的区域布置。

图2g和图2h示出了这种区域布置的另一个例子，其中矩形块的顶点相对。图2g示出了在第一轴上第一区域的布置，其中白色矩形块215和黑色矩形块216均表示第一区域并且是间隔开的，而第一轴和第二轴的交点在白色矩形块215和黑色矩形块216的位置中心之间的中点的预定范围内。图2h示出了在第二轴上第二区域的布置，其中白色矩形块217和黑色矩形块218均表示第二区域并且是间隔开的，而第一轴和第二轴的交点在白色矩形块217和黑色矩形块218的位置中心之间的中点的预定范围内。虽然图2g和图2h中分别示出了第一轴和第二轴上区域的布置，但实际上反映的是将图2g和图2h合并，即图2g的第一轴和第二轴分别与图2h的第一轴和第二轴相同时的区域布置。

根据另一种区域布置，第一区域的数目和第二区域的数目均为三。在这种布置中，第一轴和第二轴的交点分别在第一区域中居于中间的第一区域内和第二区域中居于中间的第二区域内。

图2e和图2f示出了这种区域布置的一个例子。图2e示出了在第一轴上第一区域的布置，其中白色矩形块210和黑色矩形块209、211均表示第一区域，并且第一轴和第二轴的交点在居中的白色矩形块210内。图2f示出了在第二轴上第二区域的布置，其中白色矩形块213和黑色矩形块212、214均表示第二区域，并且第一轴和第二轴的交点在居中的白色矩形块213内。虽然图2e和图2f中分别示出了第一轴和第二轴上区域的布置，但实际上反映的是将图2e和图2f合并，即图2e的第一轴和第二轴分别与图2f的第一轴和第二轴相同时的区域布置。可选地，矩形块209、210与211，以及矩形块212、213与214可以是分离的，而不是相接的。

需要注意，第一区域和第二区域的形状并不限于矩形，也可以是其它形状，例如多边形、三角形、圆形、环形、不规则形状。第一区域和第二区域的形状也可以是不同的，并且不同第一/第二区域的形状也可以是不同的。

另外，在具有矩形形状的情况下，第一区域中的不同区域的边可以是彼此平行的，也可以是彼此相对旋转一个角度。同样地，在具有矩形形状的情况下，第二区域中的不同区域的边可以是彼此平行的，也可以是彼此相对旋转一个角度。在具有矩形形状的情况下，矩形区域的相接包括通过各自的边来相接(即第一轴和第二轴的交点在这些边上)，和通过各自的角部的顶点相接(即第一轴和第二轴的交点在这些顶点处)。

还应注意，第一轴上布置的第一区域和第二轴上布置的第二区域的数目不限于图2所示的数目，并且第一区域的数目不必与第二区域的数目相同，只要第一区域的像素的位置的加权平均位置以及第二区域的像素的位置的加权平均位置在第一轴和第二轴的交点的预定范围内。优选地，第一区域的数目和第二区域的数目均不超过3。

还应注意，第一区域的相对位置关系和第二区域的相对位置关系可以是任意的，例如第一轴上布置的第一区域可以是相接的、分离的、部分相接的、部分分离的，第二轴上布置的第二区域可以是相接的、分离的、部分相接的、部分分离的，只要第一区域的像素的位置的加权平均位置以及第二区域的像素的位置的加权平均位置在第一轴和第二轴的交点的预定范围内。

在收集的对象图像中，对象的边缘轮廓表现出区别于非对象的特征。对象的边缘轮廓在对象图像中可能具有各种分布。为了能够提取出足够的反映对象的边缘轮廓的特征，确定单元101可以在输入图像的不同位置处的不同大小的部分内确定第一区域和第二区域，以获得该部分内的边缘轮廓特征。

图3a示出了对象(人体)的边缘轮廓的分布的一个例子。如图3a所示，在输入图像中，人体的边缘轮廓存在于例如部分301、302、303的大小不同、位置不同的各个部分中。

图3b和3c示出了基于图2a和2b示出的区域布置在图3a示出的部分302中确定第一区域和第二区域的示意图。在图3b中，附图标记304指示第一区域的布置。在图3c中，附图标记305指示第一区域的布置。

在一个实施例中，确定单元101可以基于一种区域布置在输入图像的不同位置确定第一区域和第二区域。接着通过改变这种区域布置中区域大小和/或区域纵横比来得到新的区域布置，并且基于新的区域布置在输入图像的不同位置确定第一区域和第二区域。重复此过程，直到这种区域布置的所有可能区域大小或区域纵横比均被尝试过。

另外，或可选地，在上述实施例中，确定单元101可以通过改变区域布置中区域的相对位置关系来得到新的区域布置。

另外，或可选地，在上述实施例中，确定单元101可以通过改变区域布置中区域的数目来得到新的区域布置。

另外，或可选地，在上述实施例中，确定单元101可以通过改变区域布置中区域的形状来得到新的区域布置。

确定单元101基于一种区域布置在输入图像中的一个位置确定的第一区域和第二区域决定了一个要提取的特征。概括地讲，至少两个特征所基于的区域布置是不同的。例如，不同区域布置之间的差别可以包括下述中的一个或多个：区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。

回到图1，对于确定单元101基于每个区域布置在输入图像中的每个位置确定的第一区域和第二区域，差计算单元102计算第一区域的像素和或均值(灰度)之间的第一差dx，和第二区域的像素和或均值(灰度)之间的第二差dy。

例如，对于图2a和2b示出的区域布置，可以通过下式计算第一差和第二差：

第一差＝矩形块202的像素和或均值-矩形块201的像素和或均值，

第二差＝矩形块202的像素和或均值-矩形块201的像素和或均值。

再例如，对于图2c和2d示出的区域布置，可以通过下式计算第一差和第二差：

第一差＝矩形块206的像素和或均值-矩形块205的像素和或均值，

第二差＝矩形块208的像素和或均值-矩形块207的像素和或均值。

再例如，对于图2e和2f示出的区域布置，可以通过下式计算第一差和第二差：

第一差＝矩形块209的像素和或均值+矩形块211的像素和或均值-矩形块210的像素和或均值×2，

第二差＝矩形块212的像素和或均值+矩形块214的像素和或均值-矩形块213的像素和或均值×2。

再例如，对于图2g和2h示出的区域布置，可以通过下式计算第一差和第二差：

第一差＝矩形块216的像素和或均值-矩形块215的像素和或均值，

第二差＝矩形块218的像素和或均值-矩形块217的像素和或均值。

计算轴向上区域的像素和或均值(灰度)之间的差的目的是获得反映相应轴向上像素灰度的变化的信息。对于不同的区域布置，可以有相应的计算第一差和第二差的方法，只要其能够反映这种变化。

回到图1，梯度计算单元103根据差计算单元计算的第一差和第二差计算梯度大小和梯度方向，以形成所提取的特征。

可根据下式计算梯度的方向和大小：

根据上式(1)，梯度方向的角度范围为0到180度。在一个可选实施例中，可以根据下式计算梯度方向：

根据上式(1′)，梯度方向的角度范围为0到360度。

图4a是示出图3a所示的部分302中所包含的对象边缘轮廓的示意图。如图4a所示，边缘401示意性地表示在部分302中包含的边缘轮廓。

图4b是示出梯度计算单元103根据差计算单元102基于图3b和3c所示的第一区域和第二区域计算的第一差和第二差所计算的梯度方向的示意图。在图4b中，斜线402的法线403表示所计算出的梯度方向。

由于根据沿两个方向布置的、协同定位的区域的像素来计算包含梯度方向和梯度大小的特征，所提取的特征能够更加真实地反映相应图像部分中对象边缘的分布。相应地，基于这样的特征产生的分类器，能够更加鲁棒地检测图像中例如人或动物的对象，尤其是具有各种姿态的对象。

针对每个输入图像提取的所有特征形成一个特征向量。

回到图1，训练单元104根据所提取的特征向量训练出分类器。

可采用方向性梯度直方图，通过例如SVM(支持向量机)的机器学习方法来根据上述实施例中获得的特征向量来训练出分类器。在例如Dalal等人的“Histograms of Oriented Gradients for Human Detection”，Proc.of IEEE Computer Society Conference on Computer Vision and Pattern Recognition，2005：886-893和Triggs等人的“Human Detection Using Oriented Histograms of Flow and Appearance”，Proc.European Conference on Computer Vision，2006的文献中描述了这种根据梯度特征训练分类器的方法。

图5示出了根据本发明一个实施例的生成用于区分对象图像和非对象图像的分类器的方法500的流程图。

如图5所示，方法500从步骤501开始。步骤503、505和507用于从当前输入图像中提取一组特征作为特征向量。在步骤503，对于特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交(例如，以直角或非直角相交)的第二轴的方向布置的多个第二区域。

如参照图1所描述的，可通过Ding等人的标题为“A Robust Human Face Detecting Method In Complicated Background Image”的专利申请WO 2008/151470中公开的方法(参见说明书第2页至第3页)来收集和准备包括对象图像和非对象图像的输入图像。

第一区域和第二区域的布置可以是前面结合图1的实施例说明的区域布置。

在步骤503中，可以在输入图像的不同位置处的不同大小的部分内确定第一区域和第二区域，以获得该部分内的边缘轮廓特征。

在方法500的一个修改实施例中，在步骤503可以基于一种区域布置在输入图像的不同位置确定第一区域和第二区域。接着通过改变这种区域布置中区域大小和/或区域纵横比来得到新的区域布置，并且基于新的区域布置在输入图像的不同位置确定第一区域和第二区域。重复此过程，直到这种区域布置的所有可能区域大小或区域纵横比均被尝试过。

另外，或可选地，在上述实施例中，在步骤503可以通过改变区域布置中区域的相对位置关系来得到新的区域布置。

另外，或可选地，在上述实施例中，在步骤503可以通过改变区域布置中区域的数目来得到新的区域布置。

另外，或可选地，在上述实施例中，在步骤503可以通过改变区域布置中区域的形状来得到新的区域布置。

在步骤503，基于一种区域布置在输入图像中的一个位置确定的第一区域和第二区域决定了一个要提取的特征。概括地讲，至少两个特征所基于的区域布置是不同的。例如，不同区域布置之间的差别可以包括下述中的一个或多个：区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。

在步骤505，计算第一区域的像素和或均值之间的第一差，和第二区域的像素和或均值之间的第二差。可通过前面结合图1的实施例描述的方法来计算第一差和第二差。

接着在步骤507，根据计算的第一差和第二差计算梯度大小和梯度方向，以形成所提取的特征。可根据公式(1)(或(1′))和(2)来计算梯度方向和梯度大小。

接着在步骤509，确定对于当前输入图像，是否存在未提取的特征。如果存在，则返回步骤503，以执行提取下一个特征的过程；否则，执行步骤511。

在步骤511，确定是否还有未提取特征向量的输入图像。如果有，则返回步骤503，以执行提取下一个输入图像的特征向量的过程；否则，方法前进到步骤513。

在方法500中，由于根据沿两个方向布置的、协同定位的区域的像素来计算包含梯度方向和梯度大小的特征，所提取的特征能够更加真实地反映相应图像部分中对象边缘的分布。相应地，基于这样的特征产生的分类器，能够更加鲁棒地检测图像中例如人或动物的对象，尤其是具有各种姿态的对象。

针对每个输入图像提取的所有特征形成一个特征向量。

在步骤513，根据所提取的特征向量训练出分类器。

方法500在步骤515结束。

如下面将要描述的，也可以不采用方向性梯度直方图来根据上述实施例中获得的梯度特征来训练出分类器。

图6的框图示出了根据本发明一个优选实施例的、生成用于区分对象图像和非对象图像的分类器的训练单元104的结构。

如图6所示，训练单元104包括转换单元601和分类器生成单元602。

转换单元601对多个特征向量的至少一个维的特征进行转换，其中被转换的特征包括梯度方向和梯度大小。例如，特征向量可以是前面参照图1和图5描述的实施例中产生的特征向量。转换单元601进行的转换包括将梯度方向转换为多个预定区间中该梯度方向属于的区间。

例如，梯度方向的角度范围(即多个预定区间的角度覆盖范围)为180度。可以将这个范围划分为若干个预定区间(也称为梯度方向区间)，例如划分为0到60度、60度到120度和120度到180度三个区间。当然，也可以进行其它的划分。梯度方向的角度范围也可以是360度。预定区间的数目优选为3至15。预定区间的数目越大，则角度划分越细致，更加利于得到更强分类能力(更低的错误率)，但在检测时更容易产生过学习现象，使分类效果变差。预定区间的数目越小，则角度划分越粗，分类能力越弱，但对角度变化越不敏感，有利于提高姿势变化的鲁棒性。可以根据具体实现的需要在分类能力和姿势鲁棒性之间取得折衷，以确定预定区间的数目。

转换单元601根据特征的梯度方向所处于的区间，将梯度方向转换为相应的区间。

假定有N个预定区间，并且特征向量表示为<f₁，...，f_M>，其中f_i包括梯度大小I_i和梯度方向O_i。对于要转换的特征f_i，经过转换的特征表示为f′_i，其中f’_i包括梯度大小I_i和区间R_i。

可以根据各个特征向量的同一个维的特征f_i来生成与该维相应的分类器。该分类器可表示为h_i(I，O)，其中I表示梯度大小，O表示梯度方向。分类器包括分别与N个预定区间K_j对应的N个子分类器h_ij(I)，0＜j＜N+1，用于对梯度方向属于相应预定区间的特征进行分类。每个子分类器h_ij(I)具有相应的阈值θ_ij，和基于该阈值确定的分类a_ij和b_ij(对象、非对象)。h_ij(I)的处理可表示为：如果I＜θ_ij，则h_ij(I)＝a_ij；否则h_ij(I)＝b_ij。对于每个子分类器h_ij(I)，可以根据各个转换的特征向量的特征f’_i中区间R_i与区间K_j相同的特征的梯度大小的分布，学习得到阈值θ_ij，和分类a_ij和b_ij。

分类器生成单元602针对上述至少一个维的每个维，生成包含分别对应于所述预定区间的子分类器的分类器，其中，对于每个所述预定区间，根据所述特征向量中区间与所述预定区间相同的该维特征的梯度大小的分布，获得相应子分类器的阈值和基于该阈值确定的分类。可选地，也可以进一步获得所确定的分类和的可靠性的度量。

在一个简单实现中，可以只针对一个维进行转换和分类器生成，所生成的分类器作为用于区分对象图像和非对象图像的分类器。

优选地，上述至少一个维可以包括特征向量的至少两个维或所有维。在这样的情况下，可以分别生成与每一个维相应的分类器，并且根据生成的各个分类器获得最终的分类器。

可通过已知的方法来将对应于各个维的分类器组合成最终的分类器。例如，Adaboost方法是一种用来分类的方法，可用来把针对各个维生成的分类器融合在一起，组合出新的很强的分类器。

在Adaboost方法中，为每个样本设置权重，通过迭代的方法组合分类器。每次迭代时，当分类器对某些样本正确分类时，则减少这些样本的权值；当错误分类时，则增加这些样本的权重，让学习算法在后续的学习中集中对比较难的训练样本进行学习，最终得到一个识别准确率理想的分类器。

在Paul Viola和Michael Jones的文章“Robust Real-time Object Detection”，Second International Workshop On Statistical And Computational Theories Of Vision-Modeling，Learning，Computing，And Sampling，Vancouver，Canada，July 13，2001中描述这种选择和融合多个分类器以形成最终分类器的技术。

在一个优选实施例中，预定区间之一为代表弱梯度的区间。在这种情况下，转换单元601在特征的梯度大小小于预定阈值的情况下，将梯度方向转换为代表弱梯度的区间。对于和代表弱梯度的区间相应的子弱分类器，无论梯度大小如何，均将特征分类为非对象。

图7示出了根据本发明一个优选实施例的、生成用于区分对象图像和非对象图像的分类器的训练方法700的流程图。

如图7所示，方法700从步骤701开始。在步骤703，对多个特征向量的至少一个维的特征进行转换，其中被转换的特征包括梯度方向和梯度大小。例如，特征向量可以是前面参照图1和图5描述的实施例中产生的特征向量。所进行的转换包括将梯度方向转换为多个预定区间中该梯度方向属于的区间。

在步骤705，针对所转换的特征向量的当前维，生成包含分别对应于所述预定区间的子分类器的分类器，其中，对于每个所述预定区间，根据所述特征向量中区间与所述预定区间相同的当前维特征的梯度大小的分布，获得相应子分类器的阈值和基于该阈值确定的分类。可选地，也可以进一步获得所确定的分类和的可靠性的度量。

在步骤707，确定是否有未生成分类器的维。如果有，则返回步骤705生成下一个维的分类器；否则方法在步骤709结束。

可通过已知的方法来将对应于各个维的分类器组合成最终的分类器，例如Paul Viola等人的AdaBoost方法来根据所生成的分类器来形成最终的分类器。

在一个优选实施例中，预定区间之一为代表弱梯度的区间。在这种情况下，在步骤703中，在特征的梯度大小小于预定阈值的情况下，将梯度方向转换为代表弱梯度的区间。对于和代表弱梯度的区间相应的子弱分类器，无论梯度大小如何，均将特征分类为非对象。

图8的框图示出了根据本发明一个实施例的、对图像进行分类的设备800的结构。

如图8所示，设备800包括确定单元801、差计算单元802、梯度计算单元803和分类单元804。

输入设备800的图像可以是通过扫描窗口从要处理的图像中获得预定尺寸的图像。可通过在Ding等人的标题为“A Robust Human Face Detecting Method In Complicated Background Image”的专利申请WO2008/151470中描述的方法来获得图像(参见说明书第5页)。

在这个实施例中，所要提取的特征向量是分类单元804所使用的分类器所基于的特征向量。

确定单元801对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交(例如，以直角或非直角相交)的第二轴的方向布置的多个第二区域。

确定单元801所基于的第一区域和第二区域的区域布置可以是前面结合确定单元101描述的区域布置。

对于确定单元801基于每个区域布置在输入图像中的每个位置确定的第一区域和第二区域，差计算单元802计算第一区域的像素和或均值(灰度)之间的第一差dx，和第二区域的像素和或均值(灰度)之间的第二差dy。可根据公式(1)(或(1′))和(2)来计算梯度方向和梯度大小。

梯度计算单元803根据差计算单元802计算的第一差和第二差计算梯度大小和梯度方向，以形成所提取的特征。可以采用前面结合梯度计算单元103描述的方法来计算梯度大小和梯度方向。

针对输入图像提取的所有特征形成一个特征向量。分类单元804根据所提取的特征向量，对输入图像进行分类。分类单元804所采用的分类器可以是在前面的实施例中生成的分类器，例如采用方向性梯度直方图生成的分类器、基于梯度方向区间生成的分类器。

图9示出了示出了根据本发明一个实施例的、对图像进行分类的方法900的流程图。

如图9所示，方法900从步骤901开始。步骤903、905和907用于从当前输入图像中提取一组特征作为特征向量。所要提取的特征向量是所使用的分类器所基于的特征向量。输入图像可以是通过扫描窗口从要处理的图像中获得预定尺寸的图像。可通过在Ding等人的标题为“A Robust Human Face Detecting Method In Complicated Background Image”的专利申请WO 2008/151470中描述的方法来获得图像(参见说明书第5页)。

在步骤903，对于特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交(例如，以直角或非直角相交)的第二轴的方向布置的多个第二区域。步骤903所基于的第一区域和第二区域的区域布置可以是前面结合确定单元101描述的区域布置。

接着在步骤907，根据计算的第一差和第二差计算梯度大小和梯度方向，以形成所提取的特征。可根据公式(1)(或(1′))和(2)来计算梯度方向和梯度大小。

接着在步骤909，确定对于当前输入图像，是否存在未提取的特征。如果存在，则返回步骤903，以执行提取下一个特征的过程；否则，执行步骤911。

针对输入图像提取的所有特征形成一个特征向量。在步骤911，根据所提取的特征向量，对输入图像进行分类。步骤911所采用的分类器可以是在前面的实施例中生成的分类器，例如采用方向性梯度直方图生成的分类器、基于梯度方向区间生成的分类器。

方法900在步骤913结束。

图10的框图示出了根据本发明一个优选实施例的分类单元104的结构。

如图12所示，分类单元104包括分类器1001至100M，M为所提取的特征向量中特征的数目。每个分类器对应于一个特征。分类器1001至100M可以是前面参照图6描述的分类器。以分类器1001为例，分类器1001包括多个子分类器1001-1至1001-N。如前面参照图6所描述的，每个子分类器1001-1至1001-N对应于一个不同的梯度方向区间，并且每个梯度方向区间具有相应的阈值。

对于所提取的特征向量的每个特征，在相应分类器(例如分类器1001)中，在该特征的梯度方向属于的一个子分类器(例如子分类器1001-1至1001-N之一)所对应的梯度方向区间的情况下，由该子分类器比较该特征的梯度大小和该梯度方向区间的相应阈值，并且根据比较结果产生分类结果。分类结果可以是图像的分类(对象、非对象)。可选地，分类结果还可以包含图像分类的可靠性。

在未示出的单元中，可通过已知的方法，把各个分类器根据特征向量的相应特征产生的分类结果组合成最终的分类结果。例如可采用Adaboost方法。

图11示出了根据本发明一个优选实施例的分类方法的流程图。该方法可用来实现图9的步骤911。

如图11所示，方法从步骤1101开始。在步骤1103，对于所提取的特征向量的一个特征，确定与该特征相关的多个梯度方向区间(如参照图6所描述的)中该特征的梯度方向所属的梯度方向区间。如参照图6所描述的，每个梯度方向区间具有相应的阈值。

在步骤1105，比较该特征的梯度大小和所确定的梯度方向区间的相应阈值。

在步骤1107，根据比较结果产生分类结果。分类结果可以是图像的分类(对象、非对象)。可选地，分类结果还可以包含图像分类的可靠性。

在步骤1109，确定特征向量中是否还有未处理的特征。如果有，则返回步骤1103继续处理下一个特征。如果没有，则方法在步骤1111结束。

图12是示出其中实现本发明的计算机的示例性结构的框图。

本发明的设备和方法实现环境如图12所示。

在图12中，中央处理单元(CPU)1201根据只读映射数据(ROM)1202中存储的程序或从存储部分1208加载到随机存取映射数据(RAM)1203的程序执行各种处理。在RAM 1203中，也根据需要存储当CPU 1201执行各种处理等等时所需的数据。

CPU 1201、ROM 1202和RAM 1203经由总线1204彼此连接。输入/输出接口1205也连接到总线1204。

下述部件连接到输入/输出接口1205：输入部分1206，包括键盘、鼠标等等；输出部分1207，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分1208，包括硬盘等等；和通信部分1209，包括网络接口卡比如LAN卡、调制解调器等等。通信部分1209经由网络比如因特网执行通信处理。

根据需要，驱动器1210也连接到输入/输出接口1205。可拆卸介质1211比如磁盘、光盘、磁光盘、半导体映射数据等等根据需要被安装在驱动器1210上，使得从中读出的计算机程序根据需要被安装到存储部分1208中。

在通过软件实现上述步骤和处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1211安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图12所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可拆卸介质1211。可拆卸介质1211的例子包含磁盘、光盘(包含光盘只读映射数据(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)和半导体映射数据。或者，存储介质可以是ROM 1202、存储部分1208中包含的硬盘等等，其中存有程序，并且与包含它们的方法一起被分发给用户。

在前面的说明书中参照特定实施例描述了本发明。然而本领域的普通技术人员理解，在不偏离如权利要求书限定的本发明的范围的前提下可以进行各种修改和改变。

Claims

1.一种对图像进行分类的方法，包括：

从所述图像中提取一组特征作为特征向量，其中所述提取包括：

对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交的第二轴的方向布置的多个第二区域；

计算所述多个第一区域的像素和或均值之间的第一差，和所述多个第二区域的像素和或均值之间的第二差；和

根据所述第一差和第二差计算梯度大小和梯度方向，以形成所述每个特征；和

根据所述提取的特征向量，对所述图像进行分类。

2.如权利要求1所述的方法，其中所述区域为矩形区域，所述第一区域是相接的，并且所述第二区域是相接的。

3.如权利要求1所述的方法，其中，

在所述第一区域的数目和所述第二区域的数目均为二，所述第一区域是相接的并且所述第二区域是相接的情况下，所述第一轴和第二轴的交点在所述第一区域的连接线上或连接点的预定范围内，并且在所述第二区域的连接线上或连接点的预定范围内；

在所述第一区域的数目和所述第二区域的数目均为二，所述第一区域是间隔开的并且所述第二区域是间隔开的情况下，所述第一轴和第二轴的交点在所述第一区域的位置中心之间的中点和所述第二区域的位置中心之间的中点的预定范围内；

在所述第一区域的数目和所述第二区域的数目均为三的情况下，所述第一轴和第二轴的交点分别在所述第一区域中居于中间的第一区域内和所述第二区域中居于中间的第二区域内。

4.如权利要求1所述的方法，其中至少两个所述特征所基于的区域布置之间的差别包括下述中的一个或多个：区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。

5.如权利要求1所述的方法，其中对所述图像进行分类包括：

对于每个所述特征，确定与所述特征相关的多个梯度方向区间中所述特征的梯度方向所属的梯度方向区间，每个梯度方向区间具有相应的阈值；

比较所述特征的梯度大小和所确定的梯度方向区间的相应阈值；和

根据比较结果产生分类结果。

6.如权利要求5所述的方法，其中所述多个梯度方向区间的数目为3至15。

7.如权利要求5所述的方法，其中多个梯度方向区间所覆盖的范围为180度或360度。

8.一种对图像进行分类的设备，所述设备从所述图像中提取一组特征作为特征向量，并且包括：

确定单元，其对于所述特征向量的每个特征，确定沿第一轴的方向布置的多个第一区域，和沿与所述第一轴相交的第二轴的方向布置的多个第二区域；

差计算单元，其计算所述多个第一区域的像素和或均值之间的第一差，和所述多个第二区域的像素和或均值之间的第二差；和

梯度计算单元，其根据所述第一差和第二差计算梯度大小和梯度方向，以形成所述每个特征；和

分类单元，其根据所述提取的特征向量，对所述图像进行分类。

9.如权利要求8所述的设备，其中所述区域为矩形区域，所述第一区域是相接的，并且所述第二区域是相接的。

10.如权利要求8所述的设备，其中，

11.如权利要求8所述的设备，其中至少两个所述特征所基于的区域布置之间的差别包括下述中的一个或多个：区域的相对位置关系、区域的数目、区域的形状、区域的大小、区域的纵横比。

12.如权利要求8所述的设备，其中对于每个所述特征，所述分类单元包括相应的分类器，所述分类器包括：

多个子分类器，每个子分类器对应于一个不同的梯度方向区间，每个梯度方向区间具有相应的阈值，

其中每个子分类器被配置为在所述特征的梯度方向属于所述子分类器所对应的梯度方向区间的情况下，比较所述特征的梯度大小和所述梯度方向区间的相应阈值，并且根据比较结果产生分类结果。

13.如权利要求12所述的设备，其中所有所述梯度方向区间的数目为3至15。

14.如权利要求12所述的设备，其中所有所述梯度方向区间所覆盖的范围为180度或360度。