CN103679187B

CN103679187B - 图像识别方法和系统

Info

Publication number: CN103679187B
Application number: CN201210336518.3A
Authority: CN
Inventors: 马颖东; 邓亮; 陈先开
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Hongzhituoxin Venture Capital Enterprise LP
Priority date: 2012-09-12
Filing date: 2012-09-12
Publication date: 2018-07-27
Anticipated expiration: 2032-09-12
Also published as: CN103679187A

Abstract

一种图像识别方法包括：通过不同尺寸的扫描窗口对影像进行扫描，得到多个窗口图像；提取各个窗口图像的HOG‑LBP特征向量；将多个HOG‑LBP特征向量依次通过预设的HOG‑LBP分类器进行识别，得到多个初步判定为目标的窗口图像；通过预设的PHOW字典提取初步判定为目标的多个窗口图像的图像特征；将多个窗口图像的图像特征通过预设的PHOW分类器进行识别，得到目标图像窗口图像；聚类处理得到目标图像。本发明还提供对应的图像识别系统。上述两个分类器通过级联方式对窗口图像进行过滤，避免了在全图像、多尺度上同时扫描计算多种窗口特征的大计算量问题，而且PHOW分类器独立于HOG‑LBP分类器，从而降低误判率。

Description

图像识别方法和系统

技术领域

本发明涉及图像处理分析技术，特别是涉及一种图像识别方法和系统。

背景技术

图像识别，如行人检测是目前机器视觉研究的一个重要方向，检测并跟踪行人在人们的生活中得到了越来越多的应用，这主要包括智能交通与监控，机器人自动检测，照顾老人，及目前流行的基于图像内容的搜索等。目前流行的技术都是采用二分类方法，即用窗口扫描图像，然后利用训练好的分类器来判断该窗口是行人还是非行人。

目前大量的有效算法都是以HOG(Histograms of Oriented Gradients，方向梯度直方图)为基础的。一些其他的特征与HOG特征组合起来，形成一系列新的检测方法，这些方法相比其中单个的特征效果都有明显的改进。如类Haar特征与HOG组合等，结果显示这些组合特征要明显优于单个特征。Walk加入局部色彩特征，Wu等加入edgelet及协方差特征，Wang等加入局部二进模式(LBP) 特征。考虑到检测速度等问题，一般都采用线性支持向量机来训练分类器，为了改进速度并且使用更为复杂的分类器，Maji提出了HIKSVM，Felzenszwalb 等提出了LATSVM，这些分类器较线性SVM更为复杂，检测效果也有所提高。

现在大多数的行人检测系统都是以多种特征为基础。计算不同种类特征后，将各种特征组合成高维特征向量以便用在线性支持向量机中；或者把不同类型的特征放在一起，用Boosting多核学习等方法依据特定的代价函数从中选择代价最小的特征组合。这些方法虽然取得了较好的检测效果，但仍然存在两个主要的局限性：

1，多种特征组合的计算量大。

2，在保证较低丢失率(Miss Rate)的情况下，系统的误判率(False Positive)仍然较高。

发明内容

基于此，有必要提供一种计算量小且误判率低的图像识别方法和系统。

一种图像识别方法，包括如下步骤：

获取影像，并通过不同尺寸的扫描窗口对影像进行扫描，得到多个窗口图像；

提取各个所述窗口图像的HOG-LBP特征向量；

将所述多个HOG-LBP特征向量依次通过预设的HOG-LBP分类器进行识别，得到多个初步判定为目标的窗口图像；

通过预设的PHOW字典提取所述初步判定为目标的多个窗口图像的图像特征；

将所述多个窗口图像的图像特征通过预设的PHOW分类器进行识别，过滤掉非目标窗口图像，得到目标图像窗口图像；

对所述目标窗口图像进行聚类处理，得到目标图像。

一种图像识别系统，包括：

扫描模块，用于获取影像，并通过不同尺寸的扫描窗口对影像进行扫描，得到多个窗口图像；

HOG-LBP特征提取模块，用于提取各个所述窗口图像的HOG-LBP特征向量；

HOG-LBP识别模块，用于将所述多个HOG-LBP特征向量依次通过预设的 HOG-LBP分类器进行识别，得到多个初步判定为目标的窗口图像；

PHOW特征提取模块，用于通过预设的PHOW字典提取所述初步判定为目标的多个窗口图像的图像特征；

PHOW识别模块，用于将所述多个窗口图像的图像特征通过预设的PHOW 分类器进行识别，过滤掉非目标窗口图像，得到目标图像窗口图像；

聚类模块，用于对所述目标窗口图像进行聚类处理，得到目标图像

其中一个实施例中，所述聚类处理是使用带权值的MeanShift方法对目标窗口图像进行聚类处理。

其中一个实施例中，所述预设的HOG-LBP分类器可通过以下动作得到：

计算每个归一化的目标样本的特征向量作为正样本；

在多个尺度中扫描负样本计算其特征向量，与正样本的特征向量一起用 SVM训练初步线性分类器；

保留正样本的特征向量与负样本的支持向量，其余的负样本特征向量丢弃；

使用训练好的线性分类器继续扫描负样本，将分类结果大于0的特征向量替换丢弃掉的特征向量，直至所有的负样本都被扫描，得到的分类器作为最终的分类器。

其中一个实施例中，所述预设的PHOW分类器可通过以下动作得到：

计算每个归一化的行人样本的特征向量作为正样本；

使用训练好的线性分类器继续扫描负样本，将分类结果大于0的特征向量替换丢弃掉的特征向量，重新使用SVM训练线性分类器，直至所有的负样本都被扫描，得到的分类器作为最终的分类器。

其中一个实施例中，所述通过预设的PHOW字典提取所述初步判定为目标的多个窗口图像的图像特征包括两个步骤，首先对窗口图像进行金字塔SIFT特征提取，然后利用预设的PHOW字典对窗口图像进行金字塔直方图投票。

上述图像识别方法和系统把多类特征分散到两级分类器中。一方面没有一次性将多种特征组合成高维特征，避免了在全图像、多尺度上同时扫描计算多种窗口特征的大计算量问题。另一方面第二级采用了形态特征描述子PHOW，并且PHOW分类器的训练独立于第一级分类器（HOG-LBP分类器），这样第二级分类器就能过滤掉第一级分类器无法去除的非目标的检测窗口，降低误判率。

附图说明

图1为一实施例的图像识别方法的步骤流程图；

图2为窗口图像的HOG计算示意图；

图3为N=8，R=1时的LBP计算示意图；

图4为一实施例的图像识别系统的功能模块图；

图5为实验结果曲线图。

具体实施方式

请参阅图1，其为一实施例的图像识别方法的步骤流程图，包括如下步骤：

步骤S101，获取影像，并通过不同尺寸的扫描窗口对影像进行扫描，得到多个窗口图像。

步骤S102，提取各个窗口图像的HOG-LBP特征【Histograms of OrientedGradients(HOG)and Local Binary Pattern(LBP)】向量。

步骤S103，将所述多个HOG-LBP特征向量依次通过预设的HOG-LBP分类器进行识别，得到多个初步判定为目标的窗口图像。

步骤S104，通过预设的PHOW(Pyramid Histogram of Words，塔式关键词直方图)字典提取所述初步判定为目标的多个窗口图像的图像特征。

步骤S105，将所述多个窗口图像的图像特征通过预设的PHOW分类器进行识别，过滤掉非目标窗口图像，得到目标图像窗口图像。

步骤S106，对所述目标窗口图像进行聚类处理，得到目标图像。

本实施例中，使用带权值的MeanShift方法对目标窗口图像进行聚类处理。

一实施例中，上述步骤S101中假设选定扫描窗口大小为[Hn,Wn]，即窗口图像大小也为[Hn,Wn]，并将所有的训练图像转化为灰度图像。再确定扫描尺度，设输入图像的大小为[Hi，Wi]，初始扫描尺度为S_s，最终扫描尺度为 S_e=min{Hi/Hn,Wi/Wn}，每级扫描放大倍数为S_r，那么扫描的放大倍数为 S={S_s,S_sS_r,S_sS_rS_r,...,S_n}，S_n<S_e。

一实施例中，上述步骤S102可包括如下动作：

(1)使用一维梯度模板m=[-1，0，1]求取窗口图像的每个像素点的梯度方向与权重值。表示卷积运算，方向 O(x,y)=atan(Iy(x,y)/Ix(x，y))，O(x,y)∈[0,π]，模值

(2)将窗口图像[Hn，Wn]分割成sBin×sBin大小的小单元，如图2所示，统计每个小单元201在oBin个方向上的梯度投影统计直方图，这些方向为统计直方图时，累计像素点的梯度权值。为了防止小单元201的边界影响，累计时在位置与方向上都进行线性插值。

(3)将相邻的四个小单元201组成一个块202，如图2所示，将一个块202 内的统计直方图连接起来，并除以标准方差进行归一化处理。这些块之间有交叠区域203。如果窗口图像分割成nrow×nvol个小单元，共有(nrow-1)×(nvol-1) 个块，每个块的特征向量长度为4×oBin，那么窗口图像的HOG特征长度为 N1＝(nrow-1)×(nvol-1)×4×oBin。

(4)计算窗口图像的局部二进模式值，其中N表示比较像素个数，R 表示距离，u表示均匀模式的阈值（uniformity measure）。LBP_N，R的计算如下：

(5)将窗口图像分割成方形块，块的边长为2×sBin个像素，统计每个块的LBP直方图，每个块得到一个59维的向量。

(6)统计直方图时，块之间不交叠，如果窗口图像分割成Nrow×Nvol个块，窗口图像可以获得长度为N2=Nrow×Nvol×59的向量。

(7)将窗口图像的HOG特征向量与LBP特征向量组合在一起，形成一个长度为N1+N2的特征向量，即为窗口图像的HOG-LBP特征。

一实施例中，上述步骤S103中的预设的HOG-LBP分类器可通过以下动作得到：

1.计算每个归一化的目标样本的特征向量作为正样本。

2.在多个尺度S中扫描负样本计算其特征向量，与正样本的特征向量一起用SVM训练初步线性分类器。

3.保留正样本的特征向量与负样本的支持向量，其余的负样本特征向量丢弃。

4.使用训练好的线性分类器继续扫描负样本，将分类结果大于0的特征向量替换丢弃掉的特征向量。直至所有的负样本都被扫描，得到的分类器作为最终的分类器。所述特征向量大于0的负样本不能用目前的分类器正确分类，通常称他们是对目前的分类器较为困难的负样本（Hard Negative Example）。全部替换后，重新使用SVM训练线性分类器。

一实施例中，上述步骤S105中的预设的PHOW分类器可通过以下动作得到：

1)计算每个归一化的行人样本的特征向量作为正样本。

2)在多个尺度S中扫描负样本计算其特征向量，与正样本的特征向量一起用SVM训练初步线性分类器。

3)保留正样本的特征向量与负样本的支持向量，其余的负样本特征向量丢弃。

4)使用训练好的线性分类器继续扫描负样本，将分类结果大于0的特征向量替换丢弃掉的特征向量，这些负样本对目前的分类器是较为困难的（难以正确分类的负样本，Hard Negative Example）。全部替换后，重新使用SVM训练线性分类器。直至所有的负样本都被扫描，得到的分类器作为最终的分类器。

一实施例中，上述步骤S104中的预设的PHOW字典可通过以下动作得到：

按照8x8的步长将每张规格化的目标图片依次切割成16x16小块，24x24 小块及32x32小块，记所有的图片小块的集合为Sub＝{P₁,P₂,...,P_n}。对每个图像小块P_i提取SIFT特征(长度128维)，z_i＝(z_i1,z_i2,...,z_i128)，即梯度直方图特征，记所有的图片小块的特征集合为Z＝(z₁,z₂,...,z_n)。

设定字典长度为K=1024，利用聚类算法如K-means，将数据集Z聚成K 类，所有的类的中心即为学习得到的字典。我们称每个中心点c_i为一个字，字的长度为128维，将字典表示为C＝{c₁,c₂,...,c_K}。

一实施例中，上述步骤S104中通过预设的PHOW字典提取各个窗口图像的图像特征主要包括两个步骤，首先对窗口图像进行金字塔SIFT特征提取，然后利用预设的PHOW字典对窗口图像进行金字塔直方图投票，具体包括：

金字塔SIFT特征提取。设输入图片I，按照8x8的步长将图片依次切割成 16x16小块，24x24小块，及32x32小块，记所有图片小块的集合为Sub＝{P₁,P₂,...,P_n}，同时记所有图片小块的中心在原图片中的位置F＝{f₁,f₂,...,f_n}，其中f_i＝(x,y)_i，对每个图像小块P_i，提取SIFT特征(长度128维)，z_i＝(z_i1,z_i2,...,z_i128)，即梯度直方图特征，记所有的图片小块的特征集合为Z＝(z₁,z₂,...,z_n )。

金字塔特征表达。金字塔特征表达共包括三层，每层提取类似的直方图特征，计算方式如下所示：

a)KDTree构造

对字典C＝{c₁,c₂,...,c_K}构造KDtree，记为KD。对给定一个特征z，这里的KD 能够快速地计算与z最邻近的字的索引i，此过程表示为i＝KD(z)。

b)第三层特征提取

将图片l_I等分的割成16块子图像，分别记为I_3,1,I_3,2,I_3,3,...,I_3，16，同时记录16个子块的左上角和右下角坐标在原图中的位置，分别表示为Q_3,1,Q_3,2,Q_3，3,...,Q_3,16，其中Q_3,i＝(xmin_3,i,ymin_3,i,xmax_3,i,ymax_3,i)，左上角顶点坐标为(xmin_3,i,ymin_3,i)，右下角顶点坐标为(xmax_3,i,ymax_3,i)。在图片每个子块的图像大小均相同(注意当图像宽和高均为偶数时，否则子图像宽和高之间会有1个像素的差别)。对子图像 I_3,1,I_3,2,I_3,3,...,I_3,16分别计算特征H_3,1,H_3,2,H_3,3,...,H_3,16。对每块子图像执行如下相同的操作:

考虑子图像I_3,i,i∈{1,2,3,...,16}，初始化特征H_3,i=(h_3,1,h_3,2,...,h_3,k)=(0,0,...,0)，长度为K(字典学习中指定的长度)。

根据位置F={f₁,f₂,...,f_n}和Q_3,i=(xmin_3,i,ymin_3,i,xmax_3,i,ymax_3，i)，查找所有属于 I_3i子块的所有图像子块索引号，即

M={i|(xmin_3,i,ymin_3,i)≤f_i≤(xmax_3,i,ymax_3,i)}。

对每个特征z∈M以投票的方式进行直方图统计，即对所有z∈M，执行操作 h_3,KD(Z)＝h_3,KD(Z)+1，H_3,1,H_3,2,H_3,3,...,H_3,16为最后计算的特征。

c)第二层特征提取

将图片I等分的割成4块子图像，分别记为I_2,1,I_2,2,I_2,3,I_2,4。对子图像 I_2,1,I_2,2,I_2,3,I_2,4分别计算特征H_2,1,H_2,2,H_2,3,H_2,4。事实上，I_2,1,I_2,2,I_2,3,I_2,4分别是由第三层中的I_3,1,I_3,2,I_3,5,I_3,6、I_3,3,I_3,4,I_3,7,I_3,8、I_3,9,I_3,10,I_3,13,I_3,14和I_3,11,I_3,12,I_3,15,I_3,16组成，因此计算第二层特征按如下方式计算：

H_2,1=(H_3,1+H_3,2+H_3,5+H_3,6)/2²；

H_2,2=(H_3,3+H_3,4+H_3,7+H_3,8)/2²；

H_2,3=(H_3,9+H_3,10+H_3,13+H_3,14)/2²；

H_2,4=(H_3,11+H_3,12+H_3,15+H_3,16)/2²；

其中等式右边为相应元素进行加法运算。H_2,1,H_2,2,H_2,3,H_2,4为第二层输出的特征。

d)第一层特征提取

图片的原图我们记为I_1,1，对图I_1,1计算特征H_1,1＝(h_1，1,h_1,2,...,h_1,K)，长度为K(字典学习中指定的长度)。事实上I_1,1为第一层的特征，I_1,1由I_2,1,I_2,2,I_2,3,I_2，4组成，因此第一层的特征计算方式为：

H_1,1=(H_2,1+H_2,2+H_2,3+H_2,4)/2²；

e)金字塔特征表达

将图片I的特征H按一定顺序连接起来，即：

H=(H_1,1,H_2,1,H_2,2,H_2,3,H_2,4,H_3,1,H_3,2,H_3,3,...,H_3,16)

上述步骤S103和步骤S105形成级联方式对窗口图像进行识别过滤，首先每个窗口图像都依次通过HOG-LBP分类器，得到的判定为目标的窗口图像再将判定为目标的窗口图像通过PHOW分类器，再一次过滤掉其中非目标的窗口图像。本实施例中，HOG-LBP分类器的阈值采用FPPI(False Positive per Image)=1 对应的阈值。

上述图像识别方法把多类特征分散到两级分类器中。一方面没有一次性将多种特征组合成高维特征，避免了在全图像、多尺度上同时扫描计算多种窗口特征的大计算量问题。另一方面第二级采用了形态特征描述子PHOW，并且 PHOW分类器的训练独立于第一级分类器（HOG-LBP分类器），这样第二级分类器就能过滤掉第一级分类器（边缘描述特征）无法去除的非目标的检测窗口，降低误判率。

一实施例中，上述步骤S106的聚类处理可包括如下动作：

设X_i=[x_i,y_i]与S′_i分别为检测窗口的位置与尺度，为了保证在三维空间中是线性的，对尺度稍作处理，S_i=log(S′_i)，那么检测得到的三维空间为y=[x_i,y_i,S_i]，我们对此三维空间中的检测结果进行聚类。每个检测结果权值t(y)为线性分类器的结果值函数，这里我们采用HOG-LBP的线性分类器，f(y)为特征向量为y的线性分类结果值，我们采用双S形函数（double sigmoid function）将其归一化到 [0，1]，归一化函数为

其中r₁和r₂是线性范围的大小，该双S形函数在[-r₁,r₂]范围内基本上是线性的。

聚类算法：

1)为每个点计算协方差矩阵其中

σ_x,σ_y及σ_S分别为各个空间尺度上的平滑因子。

2)选择y∈{y_i|i＝1,..,n}进行迭代聚类，如果所有的样本均已聚类，则结束，返回7)。

6)如果迭代次数大于T_Ite或者||y_new-y||<T_d，迭代结束，y的聚类结果为y_new，返回2)；否则，y＝y_new，返回3)，继续计算。

7)将欧氏距离小于T_S的迭代点重新聚类成一个新的点：设迭代点集合S_i重新聚类成新的点即S_i满足条件：满足为S_i中迭代点的平均值其中为集合S_i中元素的个数，的权值（置信度）为S_i中迭代点的最大权值

如图4所示，其为一实施例的图像识别系统40的功能模块图，包括：

扫描模块401，用于获取影像，并通过不同尺寸的扫描窗口对影像进行扫描，得到多个窗口图像。

HOG-LBP特征提取模块402，用于提取各个窗口图像的HOG-LBP特征向量。

HOG-LBP识别模块403，用于将所述多个HOG-LBP特征向量依次通过预设的HOG-LBP分类器进行识别，得到多个初步判定为目标的窗口图像。

PHOW特征提取模块404，用于通过预设的PHOW字典提取所述初步判定为目标的多个窗口图像的图像特征。

PHOW识别模块405，用于将所述多个窗口图像的图像特征通过预设的 PHOW分类器进行识别，过滤掉非目标窗口图像，得到目标图像窗口图像。

聚类模块406，用于对所述目标窗口图像进行聚类处理，得到目标图像。

所述聚类模块406是使用带权值的MeanShift方法对目标窗口图像进行聚类处理。所述预设的HOG-LBP分类器，预设的PHOW字典，预设的PHOW分类器的得到方式与前述内容相同，不再赘述。

上述HOG-LBP识别模块403和PHOW识别模块405形成级联方式对窗口图像进行识别过滤，首先每个窗口图像都依次通过HOG-LBP分类器，得到的判定为目标的窗口图像再将判定为目标的窗口图像通过PHOW分类器，再一次过滤掉其中非目标的窗口图像。

上述图像识别系统40把多类特征分散到两级分类器中。一方面没有一次性将多种特征组合成高维特征，避免了在全图像、多尺度上同时扫描计算多种窗口特征的大计算量问题。另一方面第二级采用了形态特征描述子PHOW，并且 PHOW分类器的训练独立于第一级分类器（HOG-LBP分类器），这样第二级分类器就能过滤掉第一级分类器（边缘描述特征）无法去除的非目标的检测窗口，降低误判率。

下面是以在INRIA行人数据库上进行训练与测试为例进行实验及其结果。

选择合适的行人扫描窗口大小[Hn,Wn]＝[128,64]，并将训练的行人样本规格化到该大小，将所有的训练图像转化为灰度图像。

确定扫描尺度，设输入图像的大小为[Hi,Wi]，初始扫描尺度为S_s=0.5，最终扫描尺度为S_e=min{Hi/Hn,Wi/Wn}，每级扫描放大倍数为S_r=1.05，那么扫描的放大倍数为S＝{S_s,S_sS_r,S_sS_rS_r,...,S_n}，S_n<S_e

计算窗口图像HOG-LBP特征向量的步骤

将窗口图像[128，64]分割成8×8（oBin=8）大小的小单元，统计每个小单元在oBin=9个方向上的梯度投影统计直方图，这些方向为统计直方图时，累计是像素点的梯度模值。为了防止单元的边界影响，累计时在位置与方向上都进行线性插值。

将相邻的四个小单元组成一个块，将一个块内的统计直方图连接起来，并除以标准方差进行归一化处理。这些块之间有交叠，窗口图像分割成16×8 （nrow=128/8，nvol=64/8）个小单元，每个块的特征向量长度为4×9=36，窗口图像的HOG特征长度为N1=(nrow-1)×(nvol-1)×4×oBin=3780。

计算灰度图像的局部二进模式值，其中N表示比较像素个数，R表示距离，u表示均匀模式的阈值（uniformity measure）。LBP_N，R为一般的LBP值，即

将窗口图像分割成方形块，块的边长为16个像素，统计每个块的LBP直方图，每个块得到一个59维的向量。

统计直方图时，块之间不交叠，窗口图像分割成8×4=32（Nrow=128/16， Nvol=64/16）个块，窗口图像可以获得长度为N2=Nrow×Nvol×59=1888的向量。

将窗口图像的HOG特征向量与LBP特征向量组合在一起，形成一个长度为N1+N2=5668的特征向量。

训练HOG-LBP线性分类器，这里训练使用的线性SVM均采用序优化方法（Sequential Minimal Optimization，SMO），迭代次数为3000000。

每个窗口图像都依次通过HOG-LBP分类器，得到的检测窗口再通过PHOW 分类器。分类器HOG-LBP的阈值T1要综合考虑丢失率与误判率(这里我们采用 FPPI(FalsePositive per Image))，在实际的过程中我们选择FPPI=1对应的阈值 T1=-0.686；而PHOW分类器的阈值T2的选择主要是用于过滤掉非行人检测窗口而保留行人检测窗口，T2的值一般比较低，选取T2=-1。在图片上进行扫描时，移动步长[dx,dy]一般设为dx=8，dy=8。检测时在多个尺度S上进行扫描，得到不同尺度上的行人检测窗口。

使用带权值MeanShift方法对最终的窗口图像进行聚类

设X_i＝[x_i,y_i]与S′_i分别为检测窗口的位置与尺度，为了保证在三维空间中是线性的，对尺度稍作处理，S_i=log(S′_i)，那么检测得到的三维空间为y＝[x_i,y_i,S_i]，我们对此三维空间中的检测结果进行聚类。每个检测结果权值t(y)为线性分类器的结果值函数，这里我们采用HOG-LBP的线性分类器，f(y)为特征向量为y的线性分类结果值，我们采用双S形函数（double sigmoid function）将其归一化到 [0，1]，归一化函数为

其中r₁=3和r₂=3是线性范围的大小，该双S形函数在[-3，3]范围内基本上是线性的。

聚类算法：

为每个点计算协方差矩阵其中σ_x=8,σ_y＝4及σ_S=log(1.3)分别为各个空间尺度上的平滑因子。

选择y∈{y_i|i＝1,..,n}进行迭代聚类，如果所有的样本均已聚类，则结束，返回7)。

计算平均协方差矩阵H_h，定义为

迭代计算，

设T_Ite=100，T_d=0.001，如果迭代次数大于T_Ite=100或者||y_new-y||<T_d，迭代结束，y的聚类结果为y_new，返回2)；否则，y＝y_new，返回3)，继续计算。

将欧氏距离小于T_S的迭代点重新聚类成一个新的点：设迭代点集合S_i重新聚类成新的点即S_i满足条件：满足为S_i中迭代点的平均值其中为集合S_i中元素的个数，的权值（置信度）为S_i中迭代点的最大权值

如图5所示，其为上述INRIA数据库上的行人检测测试结果曲线图，横轴为误判率，纵轴为丢失率。PHOW的过滤功能可以去除掉一些HOG-LBP分类值较大（对HOG-LBP来说难于检测）的非行人窗口，提高系统的检测性能，将FPPI=1时对应的丢失率从HOG-LBP的0.2降低到了0.15。这主要是因为PHOW 可以在不同的特征空间中去除掉一些HOG-LBP特征难于正确分类的非行人窗口。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种图像识别方法，其特征在于，包括如下步骤：

提取各个所述窗口图像的HOG-LBP特征向量；

对所述目标窗口图像进行聚类处理，得到目标图像。

2.根据权利要求1所述的图像识别方法，其特征在于，所述聚类处理是使用带权值的MeanShift方法对目标窗口图像进行聚类处理。

3.根据权利要求1所述的图像识别方法，其特征在于，所述预设的HOG-LBP分类器可通过以下动作得到：

计算每个归一化的目标样本的特征向量作为正样本；

在多个尺度中扫描负样本计算其特征向量，与正样本的特征向量一起用SVM训练初步线性分类器；

4.根据权利要求1所述的图像识别方法，其特征在于，所述预设的PHOW分类器可通过以下动作得到：

计算每个归一化的行人样本的特征向量作为正样本；

5.根据权利要求1所述的图像识别方法，其特征在于，所述通过预设的PHOW字典提取所述初步判定为目标的多个窗口图像的图像特征包括两个步骤，首先对窗口图像进行金字塔SIFT特征提取，然后利用预设的PHOW字典对窗口图像进行金字塔直方图投票。

6.一种图像识别系统，其特征在于，包括：

HOG-LBP识别模块，用于将所述多个HOG-LBP特征向量依次通过预设的HOG-LBP分类器进行识别，得到多个初步判定为目标的窗口图像；

PHOW识别模块，用于将所述多个窗口图像的图像特征通过预设的PHOW分类器进行识别，过滤掉非目标窗口图像，得到目标图像窗口图像；

聚类模块，用于对所述目标窗口图像进行聚类处理，得到目标图像。

7.根据权利要求6所述的图像识别系统，其特征在于，所述聚类模块是使用带权值的MeanShift方法对目标窗口图像进行聚类处理。

8.根据权利要求6所述的图像识别系统，其特征在于，所述预设的HOG-LBP分类器可通过以下动作得到：

计算每个归一化的目标样本的特征向量作为正样本；

9.根据权利要求6所述的图像识别系统，其特征在于，所述预设的PHOW分类器可通过以下动作得到：

计算每个归一化的行人样本的特征向量作为正样本；

10.根据权利要求6所述的图像识别系统，其特征在于，所述通过预设的PHOW字典提取所述初步判定为目标的多个窗口图像的图像特征包括两个步骤，首先对窗口图像进行金字塔SIFT特征提取，然后利用预设的PHOW字典对窗口图像进行金字塔直方图投票。