CN102298703A

CN102298703A - 一种基于投影残差的分类方法

Info

Publication number: CN102298703A
Application number: CN2011100989405A
Authority: CN
Inventors: 于传帅; 张景中; 冯勇; 谭治英; 徐可佳; 曾丽
Original assignee: Chengdu Information Technology Co Ltd of CAS
Current assignee: Chengdu Information Technology Co Ltd of CAS
Priority date: 2011-04-20
Filing date: 2011-04-20
Publication date: 2011-12-28
Anticipated expiration: 2031-04-20
Also published as: CN102298703B

Abstract

本发明公开了一种基于投影残差的分类方法，包括如下步骤：步骤一、改变测试样本中每个物体k的图像集合I_k，使图像集合I_k成为互相正交的、低维的特征图像空间FI_k；步骤二、提取每个互相正交的、低维特征图像空间FI_k的主成分V_k，j；步骤三、计算待测试图像x的映射到每个特征图像空间FI_k的投影残差；步骤四、判断在某个物体的特征图像空间的投影残差最小，待测试图像x即为该投影残差最小的物体的图像。本发明相对于现有技术，首先该分类方法直接寻找最近的特征图像空间，能够对多类问题直接进行识别，速度快，识别率高；其次，当将流行学习方法添加到非线性特征映射来改变测试样本中物体的图像集合时，能在训练样本较少的情况下提高识别率，识别效果稳定。

Description

一种基于投影残差的分类方法

技术领域

本发明涉及图像、声音等高维数据的识别领域，特别是涉及一种基于投影残差的分类方法。

背景技术

在日常生活中我们会遇到各种各样的声音、图像等高维数据。目前广泛使用的分类器有KNN(K-Nearest Neighbor Algorithm，K最邻近结点算法)，Adaboost(Adaptive Boosting，自适应增强算法)，SVM(Support Vector Machine支持向量机)，KFD(Kernel Fisher Discriminant Analysis核鉴别分析算法)。其中以SVM最为流行，它使用高斯核函数时，对USPS(用于手写体数字识别的样本数据库)的识别率达到了95.5％。但SVM致力于在两个类别之间建立边界，所以它一次只能区分两个类别，对于一个K类问题，就需要次比较，当K很大时，计算速度就非常慢。

发明内容

针对现有技术存在的问题，本发明的主要目的在于提供一种能够针对多类问题直接进行识别、速度快、识别率高的基于投影残差的分类方法。

为实现上述目的，本发明提供一种基于投影残差分类方法的实施例，所述方法包括如下步骤：

步骤一、改变测试样本中每个物体k的图像集合I_k，使所述图像集合I_k成为互相正交的、低维的特征图像空间FI_k；

步骤二、提取所述每个互相正交的、低维特征图像空间FI_k的主成分V_k，j；

步骤三、计算待测试图像x的映射

到所述每个特征图像空间Fi_k的投影残差，所述计算投影残差的方法如下：

(1)使用特征映射

将待测试图像x映射为

(2)向所述每个特征图像空间FI_k的主成分V_k，j进行投射

(3)计算

在每个特征图像空间FI_k的投影：

其中

γ_{k, i} = \underset{j}{Σ} α_{k, i, j} β_{k, j};

(4)计算

在每个特征图像空间FI_k的投影残差：

步骤四、判断

在某个物体的特征图像空间的投影残差最小，所述待测试图像x即为该投影残差最小的物体的图像。

上述步骤一可以使用高斯核函数相对应的非线性特征映射来改变测试样本中每个物体k的图像集合I_k，该高斯核函数的表达式为：

其中x₁、x₂为测试样本，σ为高斯核函数的参数，σ根据具体的数据库具体确定，可以为75000000。

上述步骤一还可以使用流行学习来改变测试样本中每个物体k的图像集合I_k，该流行学习方法用测地距离来代替高斯核函数中的欧式距离。流行学习方法的核函数表达式为：

其中x₁、x₂是测试样本，y₁、y₂是离x₁、x₂最近的流行学习样本，m₁、m₂是y₁、y₂在流行上的坐标m₁、m₂之间的欧式距离代表了y₁、y₂之间的测地距离。

上述步骤二是利用核主成分分析方法来提取每个特征图像空间FI_k的主成分V_k，j。

本发明相对于现有技术，首先该基于投影残差的分类方法直接寻找最近的特征图像空间，能够对多类问题直接进行识别，速度快，识别率高；其次，当将流行学习方法添加到非线性特征映射来改变测试样本中物体的图像集合时，能在训练样本较少的情况下提高识别率，识别效果稳定。

附图说明

图1为本发明的基于投影残差的分类方法的流程图

图2为本发明的步骤一改变测试样本中每个物体的图像集合示意图

图3为本发明的待测试图像到每个特征图像空间的投影残差示意图

图4为本发明的以swiss-roll为例使用流行学习方法示意图

图5为本发明的以USPS数据库为例执行本发明实施例一的效果示意图

具体实施方式

下面结合附图，详细说明本发明的具体实施方式。

实施例一

下面结合附图1、附图2、附图3，详细说明本发明的基于投影残差的分类方法实施例一的具体流程步骤。

如图1所示，本发明的基于投影残差的分类方法实施例一具体包括如下步骤：

S1、改变测试样本中每个物体k的图像集合I_k，使其成为互相正交的、低维的特征图像空间FI_k。

一个物体k的所有图像应该是一个无穷的集合I_k，它包括了光照、角度、平移、距离等的变化。这里k是物体的标签，k＝1，2，3，...K，一共有K个集合，每个集合都是同一个物体的图像。使用高斯核函数相对应的非线性特征映射

来改变测试样本中每个物体k的图像集合I_k，使他们成为互相正交的、低维的特征图像空间FI_k，如图2所示(注：图2绘制的是理想情况。在实际中，各个特征图像空间都是单位球面上的一个截面，它们趋向于两两正交)。这样一方面各个特征图像空间更容易区分了，另一方面，由于维度的降低，提高了运算速度。高斯核函数的表达式如下：

其中x₁、x₂为测试样本，σ为高斯核函数的参数，由经验来决定，我们在实验中使用75000000。

通过表达式我们可以看到，一方面，如果x₁，x₂是同一物体的图像，它们的欧式距离相对的应该比较近，那么它们的内积就会接近1。相反的，如果x₁，x₂是不同物体的图像，它们的距离相对较远，内积就会接近0。这就意味着不同物体的特征图像空间趋向于正交。整个特征空间由K个特征图像空间构成，如果各个图像特征空间相互正交，当我们将新来的测试图像向各个特征图像空间投影时，残差的变化就会更剧烈，有利于我们进行分类；另一方面，该非线性特征映射也对各个物体的图像集合进行了降维，新的特征图形空间的维度不会超过样本的个数。x_i的像

实际上是RKHS空间(再生核希尔伯特空间)的一个广义的函数，特征空间F实际上是一个由

张成广义的函数空间，通过定义

特征空间F就变成了一个Hilbert空间(希尔伯特空间)。一旦我们使用了高斯核函数，原空间唯一保留下来的信息就是

之间的点积。

之间的夹角为

所以高斯核函数实际上将原空间中x₁附近的区域变成特征空间中的一个维度。由于F实际上由张成，所以它的维度不会超过样本个数。这样我们就通过与高斯核函数相对应的特征映射建立了两两正交的低维特征图像空间。

S2、提取每个特征图像空间FI_k的主成分V_k，j。

利用KPCA(Kernel Principal Component Analysis，核主成分分析)来提取每个特征图像空间FI_k的主成分V_k，j。假设IS_k＝{x_k，1，x_k，2 L x_k，l}，x_k，l∈R^N训练样本，它是I_k的一个子空间，l表示训练样本的个数。首先，使用非线性特征映射

将IS_k映射到特征图像子空间

假设样本已经中心化，其次，在该特征图像子空间FIS_k上做PCA(Principal Component Analysis，主成份分析)。如果训练样本覆盖了物体图像所有的变化方向，就能够提取到特征图像空间FI_k的所有主成分。

每个特征图像空间FI_k的协方差矩阵可以表示为需要寻找特征值λ_k，j特征向量V_k，j使得λ_k，jV_k，j＝C_kV_k，j。所以V_k，j应该由

的线性组合构成。将λ_k，jV_k，j＝C_kV_k，j变形为k＝1，2L l。记

并将

代入得lλα_k，j＝K_kα_k，j。这样就可以求出α_k，j，也就求出了主成份V_k，j。

S3、计算待测试图像x的映射

到每个特征图像空间FI_k的投影残差，包括如下步骤：

(1)使用特征映射将待测试图像x映射为

(2)向所述每个特征图像空间FI_k的主成分V_k，j进行投射

(3)计算在每个特征图像空间FI_k的投影：

其中

γ_{k, i} = \underset{j}{Σ} α_{k, i, j} β_{k, j};

(4)计算

在每个特征图像空间FI_k的投影残差：

如图3所示。

S4、判断待测试图像x的映射

在某个物体的特征图像空间的投影残差最小，该待测试图像x即为该投影残差最小的物体的图像。根据前面的分析，如果x是某个特定物体的图像，那么应该位于这个特定物体的特征图像空间内。忽略了微小的噪声后，它在这个特定的特征图像空间上的投影残差应该为0。所以我们认为在哪个特征图像空间的投影残差最小，它就是哪个物体的图像。

该实施例一中的基于投影残差的图像分类方法有一个特点：当一个新的图像添加到训练样本时，这个图像就肯定能被正确识别。由于这个图像的映像与它的临近图像的映像之间的点积接近于1，它们在特征空间中实际上是在一个维度上。所以当这个新的图像被添加到训练样本时，特征图像空间中就可能会添加新的主成分，这个图像以及跟它相类似的图像就会被正确的识别。如果我们的训练样本能覆盖所有的图像变动，那么识别率就能够提高到100％。对于用来分类的投影残差的大小并没有固定的标准，像图3中样本点1，它到FI₁、FI₃的投影残差都很小，但样本点2到三个特征图像空间的投影残差却都比较大。因此，设定投影残差的固定标准比较困难，这里仅使用他们的相对大小来进行比较。

为了验证该实施例一中的基于投影残差的图像分类方法的效果，将其在两个国际上通用的数据库——coil-20数据库和手写体数字识别的USPS数据库上进行了测试。

Coil-20包含20个物体的图像，每个物体放在一个转台上。相机每隔5°就拍一次照，所以每个物体都有72张图像。我们在每个物体的图像中均匀的取了1/8、1/4、1/3来作为训练样本，然后运行该图像分类方法，实验数据如表1。

表1

USPS数据库包含了9209个手写体数字的图像，其中前7201个图像是训练样本，后2008个图像是测试样本。为了简单起见，我们只在7201个测试样本中对每个数字选取了具有代表性的100、150、170、200、220、400个图像作为训练样本，实验数据如表2所示。

表2

表1、表2验证了运行时间与训练样本个数之间的线性关系，所以在识别率和运行时间此消彼长。实验中的训练样本都是手动选取的，如果能使用程序迭代选取，相信实验效果会更好。

当我们使用1/3的图像作为训练样本时，对coil-20的识别率达到了100％。图5展示了在实验中USPS数据库中一部分被错误识别的图像。“0to2”表示数字0的手写体图像被识别了成数字2。从图中可以看出很多数字的图像即使是人也很难识别，也有一部分的错误识别是由于在训练样本中缺少类似的样本。这验证该方法的特点：当一个新的图像添加到训练样本时，这个图像以及跟它相类似的图像就会被正确的识别。

表3列出了五个示例图像在各个特征图像空间的投影残差，虽然他们都是0的手写体图像，但投影残差的变化却比较剧烈，这也验证了我们之前的分析。

表3

特征图像空间的平均维度虽然大大低于图像的维度，但是由于非线性特征映射并没有专门针对于降维，因此特征图像空间的降维效果还有待提高。在实施例二中添加了流行学习方法后，降维效果非常好。

实施例二

虽然图像的维度非常高，但是特征空间的维度却比较低，最多只有光照、角度、平移、距离等几个维度。实施例一中使用非线性特征映射使图像集合I_k成为互相正交的、低维的特征图像空间FI_k。这一过程虽然大大降低了维度，但降维效果还有待提高，而且识别率受训练样本覆盖率的影响较大。人类的大脑能够自动的对光照、角度、平移、距离等进行调整，流行学习理论即模仿了这一人类的思维过程。

实施例二使用流行学习来改变测试样本中每个物体k的图像集合I_k，使其成为互相正交的、低维的特征图像空间FI_k，以达到对图像集合I_k进行降维的效果。对每一个特征图像空间，使用SDE方法(Semi-Definite Embedding，半正定嵌入)发现流行学习样本在流行上的坐标，并使用测地距离来代替高斯核函数中的欧式距离，使用的核函数表达式为：

其中x₁、x₂是测试样本，y₁、y₂是离x₁，x₂最近的流行学习样本，m₁、m₂是y₁、y₂在流行上的坐标，m₁、m₂之间的欧式距离代表了y₁、y₂之间的测地距离。

如图4所示，以Swiss-roll为例来具体说明。图中黑色密集的点为流行学习样本，其余灰色的点为测试样本。左边的图是流行展开前的图形，右边是流行展开后的图形。通过三部分来估计测地距离，第一和第三部分是测试样本点到最近的流行学习样本点的欧式距离，第二部分是两个流行学习样本点的测地距离。如果流行学习样本点很致密，这个估计距离与真实的测试样本的测地距离应该很接近。那么新的核函数的表达式是

其中x₁、x₂是测试样本，y₁、y₂是离x₁、x₂最近的流行学习样本，m₁、m₂是y₁、y₂在流行上的坐标，m₁、m₂之间的欧式距离代表了y₁、y₂之间的测地距离。

SDE方法允许相连的流行学习样本缩短距离，增加不相连样本点间的距离，这反映样本之间真实的测地距离。使用SDE方法后，各个特征图像空间内部样本点的点积将变的更加准确。对于数量较少的训练样本，流行学习理论能显著的提高识别率；对于数量较大的训练样本，识别率几乎没什么变化，但识别效果却变的非常稳定。引入了流行学习后，特征图像空间的维度也会急剧的减少。

在实施例一的基础上引入了上述流行学习后，对coil-20和USPS数据库再次进行实验。在coil-20实验中，我们将每个物体的72个图像作为流行学习样本，用SDE方法分别对每个物体的图像进行流行展开；在USPS图像中，我们则使用每个数字少于1200个的图像作为流行学习样本。在使用实施例二的图像分类方法进行测试后，实验数据如表4、表5所示。

表4

训练集比例	特征图像空间平均维度	错误个数	识别率
				1/8	1	0	100％
1/4	2	0	100％
				1/3	2.15	0	100％

表5

训练集个数	特征图像空间平均维度	错误个数	识别率
				100	1	100	95.02％
150	1.5	100	95.02％
				170	1.1	100	95.02％
200	1.2	100	95.02％
				400	1.5	100	95.02％

通过表4、表5我们可以看到，对于数量较少的训练样本，流行学习理论能显著的提高识别率。这是因为使用SDE方法后，各个图像特征空间内部样本点的点积将变的更加准确。对于数量较大的训练样本，识别率几乎没什么变化，但识别效果却变的非常稳定。添加了流行学习理论后，特征图像空间的平均维度大大降低了，只需要1-1.5个维度就能够对USPS的识别率达到95％。在实施例二中，搜索离测试样本最近的流行学习样本花费时间较多，如果我们能建立直接的测地距离函数表达式，那么运行时间将会大大降低，甚至将比实施例一更快。

以上介绍了基于投影残差的分类方法，实际上本发明的分类方法不仅可应用在图像上，还可应用在声音等各种高维向量数据的识别。本发明并不限定于以上实施例，任何未脱离本发明技术方案，即仅仅对其进行本领域普通技术人员所知悉的改进或变更，均属于本发明的保护范围之内。