CN102663392A

CN102663392A - 一种基于拉普拉斯算子的图像特征提取方法

Info

Publication number: CN102663392A
Application number: CN2012100505401A
Authority: CN
Inventors: 何晓飞; 卜佳俊; 陈纯; 刘晓
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2012-02-29
Filing date: 2012-02-29
Publication date: 2012-09-12

Abstract

本发明公开了一种基于拉普拉斯算子的图像特征提取方法。本发明的方法在特征提取的过程中引入了拉普拉斯正则化最小二乘因子，利用其特性将数据中的潜在流形结构和数据的区别性纳入到考虑范围中。同时，本方法中要提取使结果集协方差矩阵最小的特征，可以使用两种不同的度量方法——协方差矩阵的迹最优化(A-optimality)和协方差矩阵的行列式最优化(D-optimality)，也相应产生两种不同的算法，分别是拉普拉斯正则化A-最佳特征选择(LapAOFS)和拉普拉斯正则化D-最佳特征选择(LapDOFS)。本方法的优点在于同时考虑到了数据中的区别结构与几何结构，可以提取出一个合适的特征子集，在保持了数据潜在流形结构的同时可以将后续的学习过程的性能尽量提高。

Description

一种基于拉普拉斯算子的图像特征提取方法

技术领域

本发明涉及特征选择，矩阵降维，流形等领域，特别是涉及一种基于拉普拉斯算子的图像特征提取方法。

背景技术

在很多计算机视觉、模式识别、数据挖掘的实践中，图像、文字等对象常常被表示为高维欧式空间中的点。但是过高的维数显著增加了信息处理过程中需要的时间和空间。更为重要的是，如分类、聚集、检索等在低维空间中简单可行的基本学习任务在维度达到数百或者数千的高维空间中会显得相当棘手。为了解决这个问题，特征选择与抽取技术就从所有特征的集合中选出有意义的特征子集或者特征组合，同时也减少了特征的维数，它可以被应用到数据预处理中并加速后续的学习任务。

特征提取的使用环境可以分为有监管与无监管两种。

在有监管的情况下，数据中会包含类标签，可以通过判断特征与类标签的关联程度评估某个特征的重要性。常见有监管特征提取方法有Pearson相关系数、Kolmogorov-Smirnov测试等。但是在实际应用中常常面对的都是不含有类标签的数据，而且要添加类标签的代价相当高。因此，找到一种能利用所有数据点的无监管特征提取方法就具有极强的重要性。

无监管特征提取方法可以大致分为两类。第一类方法致力于优化聚集性能，比如Q-α算法，它可以将输入数据投影到特定的坐标上，进而在最小二乘准则函数的基础上根据其可聚集能力进行优化。第二类方法则是着重与提取出那些最能表现出数据空间几何结构的特征，比如PCA算法。

本发明所提出的一种基于拉普拉斯算子的图像特征提取方法正是综合了上述两类无监管特征提取方法，通过应用拉普拉斯算子成功地找到了一种新的特征提取方法。这种方法既考虑到了图像特征数据的区别性，又考虑到了图像特征数据的原始几何结构，并且在实践中表现出了比原有方法更高的性能，具有很强的应用价值与理论意义。

发明内容

为了实现更加有效的特征提取，本发明公开了一种基于拉普拉斯算子的图像特征提取方法。不同与原有的特征提取方法，本方法既考虑到了数据的区别性，又考虑到了数据的原始几何结构，并且在实践中表现出了比原有方法更高的性能。该方法包含以下步骤：

1)利用互联网搜集图像，获得一个图像库，并根据图像的视觉特征将每个图像用一个高维度的向量x_i＝(f_1，i，...，f_n，i)T表示，f_j，i表示第i个图像所对应的第j个特征的值。

2)将所有步骤1)得到的所有图像特征向量表示成一个矩阵X＝(x₁，...，x_m)，其中的每一个列向量x_i都对应第i个图像由步骤1)得到的向量，每一个行向量都对应到某一个特征。方法的目标是提取合适的特征，即提取合适的行向量。用

表示最后选出的特征所表示的矩阵，其中的列向量

表示原始图像经过特征提取之后的特征向量。

3)计算得到一个m×m维相似矩阵W(

x_i是步骤2)中矩阵X的一个列向量，N(x_i)表示与x_i距离最近的k个向量的集合，k为一个参数)，再计算对角矩阵D，且D_ii＝∑_jW_ij。对角矩阵减去相似矩阵可以得到拉普拉斯矩阵L，即L＝D-W。

4)利用拉普拉斯正则化最小均方的方法：

a)得到拉普拉斯算子

J_{LapRLS} (w) = Σ_{i = 1}^{m} {(w^{T} x_{i}^{S} - y_{i})}^{2} + \frac{λ_{1}}{2} Σ_{i, j = 1}^{m} {(w^{T} x_{i}^{S} - w^{T} x_{j}^{S})}^{2} W_{ij}

+ λ_{2} {| | w | |}^{2}

(其中w表示特征权重的向量，

是2)中所示矩阵X^S的一个列向量，y_i是该特征向量对应的数据点的标签，λ₁和λ₂是拉普拉斯算子的两个参数)。

b)计算J对于w的一阶导数，并令其为0得到：

\hat{w} = {(X^{S} {(X^{S})}^{T} + λ_{1} X^{S} L {(X^{S})}^{T} + λ_{2} I)}^{- 1} X^{S} y

其中I为k阶单位矩阵；L为步骤3)所得拉普拉斯矩阵；y＝(X^S)^Tw+∈，∈为平均值为0的未知误差，∈的方差为σ²。

c)定义H＝X^S(X^S)^T+λ₁X^SL(X^S)^T+λ₂I，用x^S某一个具体的图像，由于Cov(y)＝σ²I，且λ₁和λ₂的值通常被设定得较小，所以协方差与偏差可以有如下近似：

Cov (\hat{w}) \approx σ^{2} H^{- 1}

E {(y - \hat{y})}^{2} \approx σ^{2} + σ^{2} {(x^{S})}^{T} H^{- 1} x^{S}

要获得最优解，即要求得使H^-1最小的特征集

5)用最优化矩阵的迹和最优化矩阵的行列式两种最优判别标准优化步骤4)所得的协方差矩阵，提取出最优的图像特征维度。

对应最优化矩阵的行列式方法为：

最小化det(H^-1)，其中det()表示求矩阵行列式；问题可以进一步转化为最大化det(H)，并最终转化为求如下优化问题：

其中{g₁，...，g_k}为被选中的特征的集合，g_i在第i个维度上所有图像的特征所组成的向量；

为所有特征的集合；M＝λ₂(I+λ₁L)^-1，λ₁、λ₂是拉普拉斯算子参数；I为k阶单位矩阵；L为拉普拉斯矩阵。

最优化矩阵的迹方法为：

最小化Tr(H^-1)，其中Tr()表示求矩阵迹；问题最终化简为如下优化问题：

其中M＝λ₂(I+λ₁L)^-1；I为k阶单位矩阵；k为如3所述的参数；L为拉普拉斯矩阵；α^T＝(α₁，...，α_n)，其中如果第i个特征被选中则α_i＝1，否则α_i＝0。

在得出如上两种简化问题之后均可以通过顺序优化和凸优化两种方法使问题得到解决。

附图说明

图1是本发明的方法流程图。

具体实施方式

参照附图，进一步说明本发明：

一种基于拉普拉斯算子的图像特征提取方法，该方法包括以下步骤：

1)获取原始图像特征数据

利用互联网搜集图像，获得一个图像库，并根据图像的视觉特征将每个图像用一个高维度的向量x_i＝(f_1，i，...，f_n，i)T表示，f_j，i表示第i个图像所对应的第j个特征的值。

2)获取拉普拉斯矩阵

将所有步骤1)得到的所有图像特征向量表示成一个矩阵X＝(x₁，...，x_m)，其中的每一个列向量x_i都对应第i个图像由步骤1)得到的向量，每一个行向量都对应到某一个特征。方法的目标是提取合适的特征，即提取合适的行向量。用表示最后选出的特征所表示的矩阵，其中的列向量表示原始图像经过特征提取之后的特征向量。

计算得到一个m×m维相似矩阵W

x_i矩阵X的一个列向量，N(x_i)表示与x_i距离最近的k个向量的集合，k为一个参数)，再计算对角矩阵D，且D_ii＝∑_jW_ij。对角矩阵减去相似矩阵可以得到拉普拉斯矩阵L，即L＝D-W。

3)获取协方差矩阵

利用拉普拉斯正则化最小均方的方法：

a)得到拉普拉斯算子

J_{LapRLS} (w) = Σ_{i = 1}^{m} {(w^{T} x_{i}^{S} - y_{i})}^{2} + \frac{λ_{1}}{2} Σ_{i, j = 1}^{m} {(w^{T} x_{i}^{S} - w^{T} x_{j}^{S})}^{2} W_{ij}

+ λ_{2} {| | w | |}^{2}

(其中w表示特征权重的向量，

b)计算J对于w的一阶导数，并令其为0得到：

\hat{w} = {(X^{S} {(X^{S})}^{T} + λ_{1} X^{S} L {(X^{S})}^{T} + λ_{2} I)}^{- 1} X^{S} y

Cov (\hat{w}) \approx σ^{2} H^{- 1}

E {(y - \hat{y})}^{2} \approx σ^{2} + σ^{2} {(x^{S})}^{T} H^{- 1} x^{S}

要获得最优解，即要求得使H^-1最小的特征集

4)用最优化矩阵的迹和最优化矩阵的行列式两种最优判别标准优化步骤4)所得的协方差矩阵，提取出最优的图像特征维度。

对应最优化矩阵的行列式方法为：

最小化det(H^-2)，其中det()表示求矩阵行列式；问题可以进一步转化为最大化det(H)，并最终转化为求如下优化问题：

最优化矩阵的迹方法为：

其中M＝λ₂(I+λ₂L)^-1；I为k阶单位矩阵；k为如3所述的参数；L为拉普拉斯矩阵；α^T＝(α₁，...，α_n)，其中如果第i个特征被选中则α_i＝1，否则α_i＝0。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于拉普拉斯算子的图像特征提取方法，其特征在于该方法的步骤如下：

1)利用互联网搜集图像，获得一个图像库，并根据图像的视觉特征将每个图像用一个高维度的向量表示，每个维度表示一个图像特征；

2)通过构建图像的最近邻图，得到拉普拉斯矩阵；

3)利用拉普拉斯正则化最小均方的方法，计算得到协方差矩阵；

4)通过最小化协方差得到最优的特征子集，用最优化协方差矩阵的行列式和最优化协方差矩阵的迹两种最优判别标准，提取出最优的图像特征子集。

2.根据权利要求1所述的一种基于拉普拉斯算子的图像特征提取方法，其特征在于：所述步骤1)产生特征向量主要是提取图像的多种视觉特征，并将每一种特征作为一个维度，将每个图像用一个高维度的向量x_i＝(f_1，i，...，f_n，i)T表示，f_j，i表示第i个图像所对应的第j个特征的值；将得到的所有图像特征向量表示成一个矩阵X＝(x₁，...，x_m)，其中的每一个列向量x_i都对应第i个图像由步骤1)得到的向量，每一个行向量都对应到某一个特征。方法的目标是提取合适的特征，即提取合适的行向量。用

表示最后选出的特征所表示的矩阵，其中的列向量

表示原始图像经过特征提取之后的特征向量。

3.根据权利要求1所述的一种基于拉普拉斯算子的图像特征提取方法，其特征在于：所述步骤2)中图像的最近邻图是通过计算步骤1)所产生的m个图像向量两两之间的距离(余弦距离)得到的，选出与第j个图像距离最近的前k个图像，如果第i个图像在其中，则第i个图像属于第j个图像的k个最近邻，k是一个预先设定的参数；计算得到一个m×m的相似矩阵W，其中W_ij＝1当第i个图像属于第j个图像的k个最近邻(k为参数)，其余W_ij＝0；再计算对角矩阵D，且D_ii＝∑_jW_ij；对角矩阵减去相似矩阵可以得到拉普拉斯矩阵L，即L＝D-W。

4.根据权利要求1所述的一种基于拉普拉斯算子的图像特征提取方法，其特征在于：所述步骤3)中的利用拉普拉斯正则化最小均方的方法：

计算J对于w的一阶导数，并令其为0得到：

其中I为k阶单位矩阵；L为步骤3)所得拉普拉斯矩阵；y＝(X^S)^Tw+∈，∈为平均值为0的未知误差，∈的方差为σ²；

定义H＝X^S(X^S)^T+λ₁X^SL(X^S)^T+λ₂I，用x^S某一个具体的图像，由于Cov(y)＝σ²I，且λ₁和λ₂的值通常被设定得较小，所以协方差与偏差可以有如下近似：

要获得最优解，就要最小化协方差矩阵，即要求得使H^-1最小的特征集。

5.根据权利要求1所述的一种基于拉普拉斯算子的图像特征提取方法，其特征在于：所述步骤4)中对应

最优化矩阵的行列式方法为：

为所有特征的集合；M＝λ₂(I+λ₁L)^-1，λ₁、λ₂是拉普拉斯算子参数；I为k阶单位矩阵；L为拉普拉斯矩阵；

最优化矩阵的迹方法为：