CN102930292B

CN102930292B - 一种基于p-SIFT特征的物体识别方法

Info

Publication number: CN102930292B
Application number: CN201210395429.6A
Authority: CN
Inventors: 尹首一; 张杰男; 欧阳鹏; 刘雷波; 魏少军
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2012-10-17
Filing date: 2012-10-17
Publication date: 2015-11-11
Anticipated expiration: 2032-10-17
Also published as: CN102930292A

Abstract

本发明提出了一种基于p-SIFT特征的物体识别方法，其包括模板库训练阶段和测试图片匹配阶段，其中，模板库训练阶段包括步骤：对模板库中的每一张训练图片分别计算SIFT特征点，得到特征矩阵；计算所述特征矩阵的协方差矩阵，得到p-SIFT特征描述子；测试图片匹配阶段包括步骤：计算测试图片的SIFT特征矩阵；计算测试图片与模版库训练图片的特征矩阵相似度。本发明的p-SIFT特征描述的是特征点的区域相关性和方向相关性，使得特征点从绝对位置、绝对方向变为相对位置、相对方向，提高了识别正确率。

Description

一种基于p-SIFT特征的物体识别方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及适用于需要平衡识别准确率和计算复杂度的实时2D或3D物体识别应用场景的基于p-SIFT特征的物体识别方法。

背景技术

目前，2D或3D图片中的刚性物体识别越来越广泛地应用于各类计算机视觉算法中并已开发出很多相关的应用系统，例如工业生产中的次品检测、交通路口的车牌识别以及互联网的图片检索等。在衡量物体识别算法优劣时，识别准确率和计算复杂度是两个重要的指标，通常识别准确率的提高是以引入更多的特征来实现的，这同时会带来计算复杂度的提升，即识别准确率和计算复杂度是一对相互矛盾的指标。而现今应用场景却越来越复杂，例如复杂的背景、光线的明暗变化、其他物体的遮挡或多物体的识别等等，这些应用场景的复杂化导致了识别算法必须引入更多更细致的特征或者在同一场景中结合多种识别算法，这在保证识别准确率的前提下势必导致计算复杂度的提升，影响实时系统的运行速度。在软件算法层面上，这些应用场景的出现对平衡高的识别准确率和低的计算复杂度提出了新的挑战。

要实现高的识别准确率和低的计算复杂度，必须首先清楚地了解物体识别算法的构成。一个完整的物体识别算法包括特征描述和特征匹配两部分，而大部分算法的特征描述部分又可以分为特征点提取和描述子计算，鲁棒性良好的特征点、简单且分辨率高的描述子、快速准确的匹配方法对于改善识别准确率和降低计算复杂度都有不同程度的贡献，因此想要改善算法的性能，可以从特征点提取、描述子计算和特征匹配方法三个方面着手。

DavidG.Lowe等人（DistinctiveImageFeaturesfromScale-InvariantKeypoints，InternationalJournalofComputerVision,2004）提出了基于SIFT（Scale-InvariantFeatureTransform，尺度不变特征变换）特征的物体识别算法，该算法将局部的灰度值极值点作为物体的特征点，将该特征点周围16个子区域像素的梯度8-方向直方图作为描述子并用欧式距离的二阶匹配作为匹配方法。该算法在特征点提取时，利用不同尺度系数的高斯滤波器构建了一系列的尺度空间，并在所有的尺度空间中寻找上述极值点，从而实现了尺度不变性；在描述子计算时，先将2D图片旋转到其主方向后统计梯度方向直方图，从而实现了旋转不变性，这两个不变性使得该算法对不同的应用场景具有良好的鲁棒性，能实现很高的识别准确率。但是其识别准确率的提高是以高的计算复杂度为代价的，其在构建高斯尺度空间、统计梯度方向直方图时花费了很大的计算量，而得到的128维描述子在特征匹配阶段也带来了大量的计算，这在很大程度上限制了该算法的应用。

为了继承SIFT算法的高识别率同时降低计算复杂度，YanKe等（PCA-SIFT:AMoreDistinctiveRepresentationforLocalImageDescriptors，IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition，2004）提出了基于SIFT特征的改进算法—PCA-SIFT。该算法利用K-L变换的原理将SIFT描述子投影到一个新的向量空间中，而该向量空间是经过主成分分析筛选后的特征空间，实现了降低描述子维数的目的。虽然该算法能有效地降低计算量，但是其存在两个问题，一是其特征空间的不完备性使得特征点的区分度相较SIFT有所下降从而影响了识别正确率，二是其训练过程不易扩展。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于p-SIFT特征的物体识别方法。

为了实现本发明的上述目的，本发明提供了一种基于p-SIFT（ProminentSIFT，显著的尺度不变特征变换）特征的物体识别方法，其包括模板库训练阶段和测试图片匹配阶段，所述模板库训练阶段包括如下步骤：

S1：分别计算模板库中M张训练图片中的每一张训练图片的SIFT特征点，得到M个特征矩阵，所述M为正整数；

S2：计算所述每一个特征矩阵的协方差矩阵，得到p-SIFT特征描述子；

所述测试图片匹配阶段包括如下步骤：

S3：计算测试图片的SIFT特征矩阵；

S4：计算测试图片与模版库M张训练图片的特征矩阵相似度。

本发明的p-SIFT特征描述的是特征点的区域相关性和方向相关性，使得特征点从绝对位置、绝对方向变为相对位置、相对方向，提高了识别正确率。

在本发明的一种优选实施例中，所述模板库训练阶段还具有以下步骤：利用主成分分析，减少p-SIFT特征描述子个数。

在本发明的另一种优选实施例中，选取包含不少于90%信息量的特征值和特征向量的p-SIFT特征描述子。

本发明利用主成分分析的思路，选取信息量大的特征值和特征向量对作为p-SIFT描述子，使得描述子数量下降到原有的一半。

在本发明的一种优选实施例中，采用测试图片的特征矩阵在当前训练图片的L个p-SIFT特征向量上的投影P_l=A×μ_l与T_l=λ_l×μ_l的欧式距离之和度量特征矩阵的相似度，其中，A为测试图片的特征矩阵，μ_l为当前训练图片的第l个p-SIFT特征向量，λ_l为当前训练图片第l个特征值，l=1，2，…，L，L是当前训练图片的p-SIFT特征点的个数。

在本发明的另一种优选实施例中，所述测试图片匹配阶段的步骤S4之后还具有以下步骤：在所述特征矩阵相似度中引入权值。

在本发明的再一种优选实施例中，在所述特征矩阵相似度中引入权值的方法为：

E = Σ_{l = 0}^{L} (ω_{l} \times E_{l}) = Σ_{l = 0}^{L} ω_{l} Σ_{i = l}^{128} {| | P_{li} - T_{li} | |}_{2}

其中，E为加权后的欧氏距离，l=1，2，…，L,L为当前训练图片p-SIFT特征点的个数，ω_l为对欧氏距离El引入的权值，ω_l=exp(-(λ_l-λ_min)/σ²)，λ_l是当前训练图片的第l个特征值的大小，λ_min是当前训练图片所有特征值的最小值，σ控制特征值权重强度。

在本发明的再另一种优选实施例中，将得到的测试图片与M张训练图片的M个欧氏距离E进行比较，如果最小欧氏距离比第二小欧氏距离小1.6倍以上，则认为所述测试图片与最小欧氏距离对应的训练图片匹配。

本发明的匹配方法使得匹配阶段的计算复杂度从O（N²）降为O（N），提高了计算效率。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明基于p-SIFT特征的物体识别方法的算法流程图；

图2是本发明基于p-SIFT特征的物体识别方法的具体实施过程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

本发明提供了一种基于p-SIFT特征的物体识别方法，包括模板库训练阶段和测试图片匹配阶段，其中，模板库训练阶段包括如下步骤：

S1：分别计算模板库中M张训练图片中的每一张训练图片的SIFT特征点，得到M个特征矩阵，其中，M为正整数；

S2：计算每一个特征矩阵的协方差矩阵，得到每一张训练图片的p-SIFT特征描述子；

所述测试图片匹配阶段包括如下步骤：

S3：计算测试图片的SIFT特征矩阵；

S4：计算测试图片与模版库M张训练图片的特征矩阵相似度。

在本发明的一种优选实施方式中，该基于p-SIFT特征的物体识别方法的具体步骤为：

第一步：进行模板库训练，本发明p-SIFT特征的提取是基于特征矩阵的概念，旨在进行二次特征提取以降低特征维度。特征矩阵是本发明中提出的一个新的概念，该矩阵相对于像素矩阵而提出的。所谓像素矩阵，是指将一幅2D图片转换成由像素点的灰度值或彩色值代表的像素矩阵，该矩阵的行数为图片的高度、列数为图片的宽度，这种转换是直接的、直观的。而所谓特征矩阵是指将一幅2D图片转换成由某种特征描述子组成的特征矩阵，该矩阵的行数为该种描述子的维数、列数为该种特征点的个数，这种转换是间接的、非直观的。利用矩阵变换在特征矩阵上进行适当的二次特征提取就能去掉描述子之间的相关性或降低特征维度，从而降低计算复杂度。

本发明将SIFT特征点作为基本的一次提取的特征点，将一幅图片的所有SIFT特征点组成一个特征矩阵，p-SIFT特征是用该特征矩阵的协方差矩阵的特征值和特征向量对描述的。从统计的角度看，特征矩阵矩阵可以看作是一组特征点的统计样本的集合，样本的个数与SIFT特征点的个数相同，而每一个样本则包含128个值，分别代表该特征点周围16个子区域内像素的8个方向的统计值。由于SIFT特征描述子是通过将特征点周围的64个邻域分成16个4×4的子区域，然后每4×4的子区域统计一个8方向直方图，来得到1个128维的描述子。因此一个SIFT特征描述子中隐含着区域信息，也隐含着方向信息，那么该特征矩阵的协方差矩阵就代表着16个子区域间的区域相关性以及其对应的8个方向之间的方向相关性，因此p-SIFT特征实际上描述的是特征点的区域相关性和方向相关性，这种相关性使得区域位置关系和方向关系从绝对变为相对，增大了不同特征点距离分布的方差，使得每个特征描述子所包含的信息更多，从而使得特征点更具区别性，这一点使得p-SIFT特征比SIFT特征拥有更高的识别正确率。

进行模板库训练时，首先对模板库中的每一张训练图片分别计算SIFT特征点，得到特征矩阵。在本实施方式中，训练图片的数量M为20，如图2所示，对每一幅训练图片利用SIFT算法找到该幅图像中所有的SIFT特征点，每个特征点由一个128维的向量来描述，共得到N个特征点，将这N个128维的向量组成一个128×N的矩阵，该矩阵为此图像的特征矩阵，记为F_128×N。至此，一幅图像不再以像素为单位的灰度来表征，而是以特征矩阵来表征，特征矩阵中的每一个值代表特征点64邻域内的像素在8个方向区间上的信息。

第二步：计算特征矩阵的协方差矩阵，得到p-SIFT特征描述子。由于SIFT特征描述子是通过将特征点周围的64邻域分成16个4×4的子区域，然后每4×4的子区域统计一个8-方向直方图，来得到1个128维的描述子，因此一个SIFT特征描述子中隐含着区域信息，也隐含着方向信息。为了增强特征匹配的鲁棒性，本发明将SIFT特征点之间的区域相关性及相应地8个方向的相关性引入到最终的特征中，即得到了p-SIFT特征描述子。特征矩阵F_128×N减掉一个均值F_E后与其转置矩阵F_128×122 ^T-F_E相乘，得到一个新的128×128维的矩阵C_128×128，这个矩阵就是特征矩阵的协方差矩阵，其中的每个点的值可以反映出不同子区域的不同方向之间的相互关系。由于协方差矩阵C_128×128是一个方阵，因此可以计算其特征值和特征向量，最终得到128个（包含重复）128维的特征值和特征向量对作为p-SIFT特征描述子。在本实施方式中，p-SIFT特征描述子中包含重复的特征值。

第二步之后还具有以下步骤：利用主成分分析，减少p-SIFT特征描述子个数，在本实施方式中，选取包含不少于90%信息量的特征值和特征向量的p-SIFT特征描述子，这一选取方法使得p-SIFT特征描述子个数减少了一半，大大地简化了特征匹配的过程，例如在一幅训练图片中，通过计算特征值分布图发现前41.89%的特征值即可包含90.03%的信息，因此选取前42%（即前54个）的p-SIFT描述子作为该幅训练图片最终的特征描述子，计算量可节省一半以上。随后，重复以上步骤，直到20张图片全部训练完成为止。

第三步：进入测试图片匹配阶段，计算测试图片的SIFT特征矩阵，具体过程可以根据模板库训练的步骤进行计算。

第四步：计算测试图片与模版库训练图片的特征矩阵相似度。本发明的匹配过程是将输入的测试图片与预先训练好的模板库中的训练图片进行特征比对的过程。由于p-SIFT特征是由特征值和特征向量对表示的，而矩阵的特征值和特征向量又具有如下性质：一个矩阵A在某特征向量上的投影等于其对应的特征值与该特征向量的乘积，即矩阵×特征向量=特征值×特征向量。

在本实施方式中，在特征匹配时，首先将待匹配测试图片特征矩阵的协方差矩阵与模板库的特征向量相乘，将特征值与特征向量相乘，分别得到两个列向量，然后计算这两个列向量的欧氏距离。欧氏距离越小，表明带匹配图片与模板图片越接近，理想情况时欧氏距离为0，代表完全匹配。

在本实施中，采用测试图片的特征矩阵在当前训练图片的54个p-SIFT特征向量上的投影P_l=A×μ_l与T_l=λ_l×μ_l的欧式距离之和度量特征矩阵的相似度，其中，A为测试图片的特征矩阵，μ_l为当前训练图片的第l个p-SIFT特征向量，λ_l为当前训练图片第l个特征值，l=1，2，…，54。当前训练图片的p-SIFT特征点的个数是54，因此可得到54个欧氏距离的和值。

随后，在特征矩阵相似度中引入权值。需要说明的是，一幅训练图片是由多个特征值和特征向量对表示的，因此在进行匹配过程时，为了将这些距离数值充分地用于匹配过程以提高匹配正确率，我们对这些距离进行加权平均，不同欧氏距离值的权值是依据其对应特征值的信息熵决定的，信息熵越大，其权值越大。从统计的角度看，一系列样本的协方差矩阵的特征值代表着这组数据的方差大小，方差越大，这组样本所包含的信息越大，从图像的角度来说就是这组特征的差别越明显。因此向其投影的特征向量所对应的特征值越大，其在匹配中的重要性就应该越大，其权值越大。于是，我们为上述54个欧氏距离引入了以特征值为基础的权值ω_l，即在本实施方式中，在特征矩阵相似度中引入权值：

E = Σ_{l = 0}^{54} (ω_{l} \times E_{l}) = Σ_{l = 0}^{54} ω_{l} Σ_{i = 0}^{128} {| | P_{li} - T_{li} | |}_{2}

其中，E为加权后的欧氏距离，l=1，2，…，54,54为当前训练图片p-SIFT特征点的个数，ω_l为对欧氏距离E_l引入的权值，ω_l=exp(-(λ_l-λ_min)/σ²)，λ_l是当前训练图片的第l个特征值的大小，λ_min是当前训练图片所有特征值的最小值，σ为控制特征值权重强度。这样特征值越大，其对应的权值ω_l越小，欧氏距离之和越小，则代表两幅图片越匹配。

按照本发明的匹配方法遍历模板库中20张训练图片，得到20个欧式距离，将L个欧式距离进行比较，如果最小欧氏距离比第二小欧氏距离小1.6倍以上，则认为该测试图片与最小欧氏距离对应的模板图片匹配。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于p-SIFT特征的物体识别方法，其特征在于，包括模板库训练阶段和测试图片匹配阶段，所述模板库训练阶段包括如下步骤：

S2：计算所述每一个特征矩阵的协方差矩阵，得到p-SIFT特征描述子，其中，所述模板库训练阶段的步骤S2之后还具有以下步骤：利用主成分分析，减少p-SIFT特征描述子个数；

所述测试图片匹配阶段包括如下步骤：

S3：计算测试图片的SIFT特征矩阵；

S4：计算测试图片与模版库M张训练图片的特征矩阵相似度，其中，采用测试图片的特征矩阵在当前训练图片的L个p-SIFT特征向量上的投影P_l＝A×μ_l与T_l＝λ_l×μ_l的欧式距离之和度量特征矩阵的相似度，A为测试图片的特征矩阵，μ_l为当前训练图片的第l个p-SIFT特征向量，λ_l为当前训练图片第l个特征值，l＝1，2，…，L，L是当前训练图片的p-SIFT特征点的个数，并且所述测试图片匹配阶段的步骤S4之后还具有以下步骤：在所述特征矩阵相似度中引入权值，其中，在所述特征矩阵相似度中引入权值的方法为：

E = Σ_{l = 0}^{L} (ω_{l} \times E_{l}) = Σ_{l = 0}^{L} ω_{l} Σ_{i = 0}^{128} {| | P_{li} - T_{li} | |}_{2}

其中，E为加权后的欧氏距离，l＝1，2，…，L,L为当前训练图片p-SIFT特征点的个数，ω_l为对欧氏距离E_l引入的权值，ω_l＝exp(-(λ_l-λ_min)/σ²)，λ_l是当前训练图片的第l个特征值的大小，λ_min是当前训练图片所有特征值的最小值，σ控制特征值权重强度，P_l为测试图片的特征矩阵在当前训练图片第l个特征向量上的投影，T_l代表当前训练图片的特征矩阵在自身的第l个特征向量上的投影，投影后的向量均为多维向量，i代表其第i维。

2.如权利要求1所述的基于p-SIFT特征的物体识别方法，其特征在于，选取包含不少于90％信息量的特征值和特征向量的p-SIFT特征描述子。

3.如权利要求1所述的基于p-SIFT特征的物体识别方法，其特征在于，将得到的测试图片与M张训练图片的M个欧氏距离E进行比较，如果最小欧氏距离比第二小欧氏距离小1.6倍以上，则认为所述测试图片与最小欧氏距离对应的训练图片匹配。