CN101807259B

CN101807259B - 一种基于视觉词汇本集体的不变性识别方法

Info

Publication number: CN101807259B
Application number: CN2010101320992A
Authority: CN
Inventors: 危辉; 罗会兰
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2010-03-25
Filing date: 2010-03-25
Publication date: 2012-08-22
Anticipated expiration: 2030-03-25
Also published as: CN101807259A

Abstract

本发明属于模式识别、计算机视觉、图像理解技术领域，具体为一种基于视觉词汇文本集体的不变性识别方法。本发明首先对训练数据采样后，再对兴趣点采样，然后对兴趣点使用不同特征描述方法进行描述，对描述后的矢量进行聚类建立视觉词汇本。通过利用每次采样得到的不同数据子集，兴趣点子集以及不同的特征描述方法得到视觉词汇本集体。基于产生的视觉词汇本集体，得到分类器集体，从而建立物体类的认知模型和模型的学习方法，使之能根据当前的识别任务来自适应选择特征或特征的权重。实验结果表明此方法能得到较好的效果，能有效提高传统的基于单个视觉词汇本的图像识别方法的性能。

Description

一种基于视觉词汇本集体的不变性识别方法

技术领域

本发明属于模式识别、计算机视觉、图像理解技术领域，具体涉及一种不变性识别方法。

背景技术

目前计算机视觉面临的挑战是不变性识别，它已经成为众多专家学者研究的一个热点。不变性识别是指在视角，尺度，光照条件发生变化时，或存在遮挡，背景噪声，一定程度的变形时也能准确将物体识别出来。目前存在的研究方法主要有：

1.基于全局形状的方法。为了实现不变性识别，许多早期的文献，其中典型的有文献[1]，应用几何方法提取边轮廓来表示物体。这种表示方法对于光照有不变性，而且使得二维或三维姿势的决定相对简单。但是这种方法依赖于物体轮廓，它们假设图像中的边轮廓能可靠发现，而且这种方法要求识别目标的几何轮廓已经事先知道。

2.基于全局外观统计的方法。文献[2]中使用局部外观的联合统计直方图来表示物体。文献[3]中使用全局图像方法，利用全局外观统计信息来分类物体。这种全局方法，尽管它比较简单，但不变性识别效果欠佳，且由于没有对局部建模，所以对背景噪声和遮挡敏感。

3.基于局部区域的方法，主要思想是使用一个区域检测器来找到一个感兴趣的图像部分(局部)的集合^[4]，[5]，然后用某种描述子^[6-8]来表示它们，识别成为匹配图像中的描述子与已知物体的描述子的过程^[6]，[9-11]，如果找到充足的匹配则认为物体识别到了。要想保持对某种变换的不变性，则区域和区域的表示方法均要对此变换保持不变性。这种将对象模型化成局部的集合(collections of parts)的思想最先由Fischler和Elschlager^[12]在计算机视觉领域中提出。由于这种模型具有很强的灵活性，能很好处理物体类实例的多样性和各种变换及遮挡，所以近年来这方面的研究日益增多^{[6]，[13-20]}。目前这种基于局部区域的方法大多只利用了局部纹理或亮度信息，对于局部几何形状信息，以及局部间关系的信息没有利用上，所以大多数的研究只针对特定类有比较好的效果，而且在物体的定位方面效果欠佳。

当前对不变性识别研究的共识是^[21]：第一，物体的形状和外观复杂且同类物体间差异大，所以模型应该是丰富的(包含很多的参数，使用混合描述)；第二，一个给定类内的物体的外观应该是高度变化的，所以模型应该是灵活的(允许参数的变化)；第三，为了处理类内物体变化和遮挡，模型应该由特征组成，或者说部分组成，这些特征不必在所有的实例中检测到，这些局部的相互位置构成了进一步的模型信息；第四，使用先验知识来模型化类是困难的，最好是从训练样本中学习模型；第五，必须考虑计算效率。

所以利用机器学习的方法来进行不变性识别研究是当前的一种研究趋势。早期的针对特定物体人工建立一个固定模型的方法局限性非常大，根本不可能推广到多类物体和不同应用场景下。但是目前对不变性识别的学习监督程度普遍比较强，有的要求将图像预先分割，有的要求对目标物体的矩形定位，有的要求对图像给予类标签，除此之外最弱的监督样本也会要求样本中目标物体以绝对优势占有样本的中心位置，而且所有的样本要有同样的大小。监督样本的获取代价非常大，那么这就意味着不可能获取很多的样本，也不可能所有类的样本都能获取到，这就限制了学习的性能和学习的宽度。

人类的视觉系统会并行利用多种信息来识别物体，并且对于每种不变性都能学习到一个模型，而这正是集成学习技术的思想。集成学习是近年来发展起来的一种学习技术，集成学习(Ensemble Learning)是指利用多个学习机解决同一个问题。最近也有利用集成学习技术来解决不变性识别问题的文献，但都只限于使用单个信息，没有将集成学习的思想应用到多个信息的利用上去，而只是利用监督式集成学习技术来做后续的分类工作，最典型的应用是boosting方法^[22-25]。非监督式集成学习技术或者说聚类集成技术近年来得到了一定的发展，为减少不变性识别的监督程度和利用集成学习技术的研究提供了基础。

本项发明的主要贡献在于提出了一种基于非监督式集成学习技术进行不变性识别的方法。本发明能有效减少不变性识别的监督程度，综合利用多种有效信息，并行学习物体模型，有效提高不变性识别的效率和准确度。

发明内容

为了解决传统物体识别中存在的模型过于复杂，监督程度过强和鲁棒性差的问题，本发明提供了一种利用词汇本集体来并行利用图像中存在的多种信息识别物体的方法。

本发明的整体目标是根据图像中包含的物体来分类图像。本发明是一种视觉词汇本方法。它包含从图像中提取兴趣点(或称为显著区域)，用局部描述子来描述兴趣点和用学习到的视觉词汇本标注描述后的兴趣点矢量。就像在文本分类中一样，每个标签出现的次数统计生成一个全局直方图用来表示图像内容。直方图输入到一个分类器来识别图像中的物体类别。视觉词汇本由对训练数据的兴趣点描述矢量集聚类获得。

图像分类对于传统机器学习算法来说是特别困难的，主要原因是图像所包含的信息量太大，维度太高。维度太高导致传统机器学习方法得到很不稳定的模型，且模型的泛化能力很差。本发明将集成学习技术用于图像分类。不同的聚类器和不同的信息用来形成视觉词汇本集体。基于视觉词汇本集体可以得到同一训练数据集的不同量化矢量集。基于包含了不同方面特征的量化训练集，可以训练不同的分类器，从而得到一个分类器集体，每种分类器利用不同的信息来建立物体模型。用学习到的分类器集体来识别新的图像时可以得到意想不到的好效果。集成方法通过结合多个模型的预测来提高现存的学习算法。一个好的集体应该是集体中成员间的差异性较大。如果集体中的成员都一样，那集成它们不会带来性能的提升。所以成员间的差异性是决定集成学习的泛化误差的一个重要因素。本发明提出了生成差异性视觉词汇本集体和基于视觉词汇本集体生成相应的分类器集体的技术。

本发明的内容阐述如下：

1、利用数据和兴趣点采样以及利用不同描述子表示图像不同方面信息生成视觉词汇本集体

通过运行多个聚类器，每个利用有限的训练子集和特征子集(这里是兴趣点子集)以及不同方面的信息，可以形成一个视觉词汇本集体。

为了像人类一样利用不同的信息来识别物体，本方法使用不同的描述子来表达图像不同方面的信息。可以提取颜色、纹理和形状等等方面的信息来形成兴趣点的不同表达矢量。每种特征矢量能表达图像的不同方面的特点。基于这些不同的特征矢量，运用聚类算法来得到视觉词汇本集体，其中的成员能捕获不同的特点。为增加集体的差异性，在生成每个成员视觉词汇本时，先将训练数据随机采样得到一个训练子集，然后随机从每个训练图像中采样一部分兴趣点，再使用不同的描述子来表示兴趣点的不同方面的特征，最后在这些特征矢量上运行聚类器形成视觉词汇本。本方法不仅运用随机性和不同的聚类器，而且直接运用多种信息来形成视觉词汇本集体，所以产生的集体差异性很大。在构造词汇本集体时没有用类标签，视觉词汇本集体的构建是非监督式的。样本的类标签只有在训练分类器时才会用到。使用视觉词汇本集体与使用分类器集体的目标都是一样的，即提高结果的质量和鲁棒性。

本方法的过程描述如下：

1)首先对训练数据集随机采样得到训练数据子集；

2)对此训练子集中的每个图像提取兴趣点，然后从中随机采样一部分；

3)对采样得到的兴趣点集分别采用不同的描述方法(比如颜色、纹理和形状等等描述子)描述后，使用聚类算法对其进行聚类得到一个视觉词汇本；

4)重复步骤1到3，直到生成预设大小的视觉词汇本集体。

实验结果表明此方法能有效捕获不同的信息和训练数据集的不同数据结构。使用词汇本集体来表达图像比传统的使用一个词汇本来表示图像有更好的识别性能。

2、基于视觉词汇本集体生成相应分类器集体

在生成词汇本集体后，每个成员词汇本可以得到融合了不同图像信息的量化训练数据集。在融合了不同图像信息的量化训练数据集上训练不同的分类器，从而可以得到一个分类器集体。每个成员分类器根据不同方面的特征为物体建立模型。实验结果表明此方法能抓住图像的不同特征信息，得到的集体差异性高，从而识别效果好。通过构建差异视觉词汇本集体，可以得到具有高差异性的分类器集体。具有高差异性的集体能有效减少建立一个准确模型所需要的监督程度。本发明并行利用多个可用线索来分类图像，使用不同的视觉词汇本来表示图像不同方面的特点。基于所得到的视觉词汇本集体得到训练数据集的不同量化矢量集。基于同一训练数据集的不同量化矢量集学习得到分类器集体，集体中的不同模型能捕获不同的特征。具体的步骤如下：

1)对于生成的视觉词汇本集体，每个成员视觉词汇本融合了不同的图像信息；

2)对于一个成员视觉词汇本，对训练数据进行量化；

3)在量化后的训练数据集上学习一个分类器；

4)重复步骤2到步骤3，生成预设大小的分类器集体。

综上本发明方法，首先随机采样训练图像和部分兴趣点，然后每次用不同的描述子来描述这些兴趣点，在描述后的矢量集上聚类得到一个能表征一种图像信息的视觉词汇本。基于此视觉词汇本对原训练图像集量化，从而得到不同的量化矢量集，在此矢量集上训练得到根据特定信息来分类物体的模型，见图1所示。此过程并行进行，每个处理器使用不同描述方式捕捉不同的图像信息来学习物体的模型，其中，在提取到新图像的兴趣点后，并行使用视觉词汇本集体中的成员分别对图像进行量化，然后使用相应的分类器成员进行识别，最后根据所有成员分类器的识别结果进行集成给出最终识别结果，见图2所示。

本发明通过生成能表达物体多方面信息的视觉词汇本集体来识别物体。相对于基于单个视觉词汇本的图像识别方法，此方法具有鲁棒性较强、实践简单和平均效果好等优势。本方法将图像中包含的多种信息分散在基于各个视觉词汇本的表达中，从而并行生成一个分类器集体，降低了求解的复杂度，因此这项发明也能够有效提高计算效率、减少计算资源的消耗，快速准确的识别物体。

本发明具有在不同领域数据集上的平均性能更好，鲁棒性强的优点，且模型简单，非常适用于一般操作者。它不需要复杂参数的调整，监督程度低，且对训练数据的要求低。利用集成学习固有的并行性，可以在多个处理器上利用少量训练数据并行学习，所以本发明的效率也相对较高。

附图说明

图1是本发明的示例图。

图2是用学习到的视觉词汇本集体和分类器集体对新图像识别的示例图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明优选的具体实施例：

首先随机采样60％的训练数据，然后在此采样得到的数据集上，针对每个训练图像，首先利用‘canny’边检测子检测图像的边，在检测到的边上随机采样m个点(如60点)，分别以这些点作为中心点提取n×n(如16×16)像素大小的块作为此图像的兴趣点，之后分别使用以下8种描述子描述采样得到的兴趣点：

(1)颜色描述子：兴趣点中的每个像素的颜色值用来形成n×n×3维的特征矢量(如16×16×3＝768维)，用这种类型的描述子来捕获图像的颜色信息。

(2)颜色小波描述子：对每个兴趣点的颜色信息进行‘Haar’二维小波一阶分解来得到n×n×3维的特征矢量。这种类型的描述子可以融入图像的多分辨率信息。

(3)边信息描述子：‘Canny’边检测子用来获得n×n维(如16×16)描述子。使用这种类型的描述子，物体的形状信息被用来识别物体。

(4)局部范围描述子(一阶纹理特征)：输出每个像素的3×3邻域内的灰度值范围(灰度最大值-灰度最小值)，得到一个n×n维(如16×16)描述子。

(5)局部标准差描述子(一阶纹理特征)：输出每个像素的3×3邻域内的灰度值标准差，得到一个n×n维(如16×16)描述子。

(6)局部熵值描述子(一阶纹理特征)：输出每个像素的9×9邻域内的熵值，得到一个n×n维(如16×16)描述子。

(7)基于灰度值共生矩阵(co-occurrence matrix)的二阶统计描述子：考虑距离为1像素，方向分别为水平、对角线、垂直和反对角线的像素对。计算共生矩阵的对比度值、角二阶矩值、相关系数和方差。这种描述子的维度是16(4方向×4种度量)。

(8)基于灰度值共生矩阵(co-occurrence matrix)的二阶统计描述子：考虑距离为2像素，方向分别为水平和垂直的像素对。计算共生矩阵的对比度值、角二阶矩值、相关系数和方差。这种描述子的维度是8(2方向×4种度量)。

然后使用k-means聚类得到有8个成员视觉词汇本的词汇本集体。基于此视觉词汇本集体，对训练图像集分别进行量化。在量化时，每个训练图像在‘canny’边上采样800个兴趣点来量化。

量化后得到了8种表述图像不图方面特征的量化训练集，在不同的量化训练集上训练线性支持向量机得到大小为8的分类器集体。

对新的图像进行识别时，首先用学习到的视觉词汇本集体对图像分别量化，然后分别用相应分类器集体中的成员进行识别；将分类器集体识别结果集成得到最终识别结果。这里集成可以使用最简单的无加权投票法，也可以根据先验知识采用加权投票法，给不同特征信息不同的权重。

实验结果表明，本发明优选的具体实施例比传统基于单个视觉词汇本的识别方法具有更好的性能，甚至超过了一些经过精心参数调整的复杂模型的性能。

参考文献

[1]D.G.Lowe，″The viewpoint consistency constraint，″International Journal of Computer VisionResearch，vol.1，pp.57-72，1987.

[2]B.Schiele and J.L.Crowley，″Object recognition without correspondence using multidimensionalreceptive field histograms，″International Journal of Computer Vision Research，vol.36，pp.31-50，2000.

[3]M.Pontil，S.Rogai，and A.Verri，″Recognizing 3-d objects with linear support vector machines，″presented at Proceedings of the 5th European Conference on Computer Vision，Freiburg，Germany，1998.

[4]J.Matas，O.Chum，U.Martin，and T.Pajdla，″Robust wide baseline stereo from maximally stableextremal regions，″presented at Proc.BMVC，2002.

[5]K.Mikolajczyk and C.Schmid，″An affine invariant interest point detector，″presented at EuropeanConference on Computer Vision(ECCV)，Copenhagen，Denmark，2002.

[6]D.G.Lowe，″Distinctive image features from scale-invariant keypoints，″IJCV，vol.60，pp.91-110，2004.

[7]S.Belongie，J.Malik，and J.Puzicha，″Shape Matching and Object Recognition Using ShapeContexts，″IEEE PAMI，2002.

[8]Y.Ke and R.Sukthankar，″PCA-SIFT：A More Distinctive Representation for Local ImageDescriptors，″CVPR，pp.506-513，2004.

[9]C.Schmid and R.Mohr，″Local greyvalue invariants for image retrieval，″IEEE Transactions onPattern Analysis and Machine Intelligence，vol.19，pp.530-534，1997.

[10]G.Carneiro and A.D.Jepson，″Flexible Spatial Models for Grouping Local Image Features，″CVPR， pp.747-754，2004.

[11]P.Moreels and P.Perona，″Common-Frame Model for Object Recognition，″NIPS，2004.

[12]M.A.Fischler and R.A.Elschlager，″The representation and matching of pictorial structures，″IEEETransactions on Computer，vol.22，pp.67-92，1973.

[13]A.B.Hillel，D.Weinshall，and T.Hertz，″Efficient learning of relational object class models，″presented at IEEE International Conference on Computer Vision，2005.

[14]A.Torralba，K.Murphy，and W.Freeman，″Sharing features：efficient boosting procedures formulticlass object detection，″presented at CVPR，2004.

[15]V.Ferrari，T.Tuytelaars，and L.V.Gool，″Integrating Multiple Model Views for ObjectRecognition，″presented at IEEE Computer Vision and Pattern Recognition(CVPR)，Washington，USA，2004.

[16]V.Ferrari，T.Tuytelaars，and L.V.Gool，″Simultaneous ogject recognition and segmentation byimage exploration，″presented at Proc.ECCV，2004.

[17]M.A.Ranzato，F.J.Huang，Y.-L.Boureau，and Y.LeCun，″Unsupervised Learning of InvariantFeature Hierarchies with Applications to Object Recognition，″presented at IEEE Conference on ComputerVision and Pattern Recognition，2007.

[18]B.Ommer and J.M.Buhmann，″Learning the Compositional Nature of Visual Objects，″presented atIEEE Conference on Computer Vision and Pattern Recognition，2007.

[19]D.Parikh and T.Chen，″Unsupervised Learning of Hierarchical Semantics of Objects(hSOs)，″presented at IEEE Conference on Computer Vision and Pattern Recognition 2007.

[20]O.Chum and A.Zisserman，″An Exemplar Model for Learning Object Classes，″presented atProceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2007.

[21]F.-F.Li，″Visual Recognition：Computational Models and Human Psychophysics，″vol.Doctor ofPhilosophy.Pasadena，California：California Institute of Technology，2005.

[22]O.A.，F.M.，P.A.，and A.P.，″Weak hypotheses and boosting for generic object detection andrecognition，″presented at ECCV，2004.

[23]J.Shotton，A.Blake，and R.Cipolla，″Contour-based learning for object detection，″presented at Proc.ICCV，2005.

[24]B.H.A.，H.T.，and W.D.，″Object class recognition by boosting a part based model，″presented atCVPR，2005.

[25]A.Opelt，A.Pinz，and A.Zisserman，″Incremental learning of object detectors using a visual shapealphabet，″presented at CVPR，2006。

Claims

1.一种基于视觉词汇本集体的不变性识别方法，其特征在于利用数据和兴趣点采样以及利用不同描述子表示图像不同方面信息，生成视觉词汇本集体，具体步骤如下：

1)首先对训练数据集随机采样得到训练数据子集；

3)对采样得到的兴趣点集分别采用不同的描述方法描述，使用聚类算法对不同的描述方法描述的兴趣点集进行聚类得到一个视觉词汇本；

4)重复步骤1到步骤3，直到生成预设大小的视觉词汇本集体；

所述不同的描述方法采用如下8种描述子：

(1)颜色描述子：兴趣点中的每个像素的颜色值用来形成n×n×3维的特征矢量，用这种类型的描述子来捕获图像的颜色信息；

(2)颜色小波描述子：对每个兴趣点的颜色信息进行‘Haar’二维小波一阶分解来得到n×n×3维的特征矢量；

(3)边信息描述子：‘Canny’边检测子用来获得n×n维描述子；使用这种类型的描述子，物体的形状信息被用来识别物体；

(4)局部范围描述子：输出每个像素的3×3邻域内的灰度值范围，得到一个n×n维描述子；

(5)局部标准差描述子：输出每个像素的3×3邻域内的灰度值标准差，得到一个n×n维描述子；

(6)局部熵值描述子：输出每个像素的9×9邻域内的熵值，得到一个n×n维描述子；

(7)基于灰度值共生矩阵的二阶统计描述子：考虑距离为1像素，方向分别为水平、对角线、垂直和反对角线的像素对；计算共生矩阵的对比度值、角二阶矩值、相关系数和方差；这种描述子的维度是16；

(8)基于灰度值共生矩阵的二阶统计描述子：考虑距离为2像素，方向分别为水平和垂直的像素对；计算共生矩阵的对比度值、角二阶矩值、相关系数和方差；这种描述子的维度是8；

其中，n×n为图像的兴趣点尺寸，即像素数。

2.根据权利要求1所述的方法，其特征在于根据视觉词汇本集体生成相应分类器集体，具体步骤如下：

(1)对于生成的视觉词汇本集体，每个成员视觉词汇本融合了不同的图像信息；

(2)对于一个成员视觉词汇本，对训练数据进行量化；

(3)在量化后的训练数据集上学习一个分类器；

(4)重复步骤(2)到步骤(3)，生成预设大小的分类器集体。

3.根据权利要求2所述的方法，其特征在于对新的图像进行识别时，首先用学习到的视觉词汇本集体对图像分别量化，然后分别用相应分类器集体中的成员进行识别；将分类器集体识别结果集成得到最终识别结果。