CN104978729A

CN104978729A - 一种基于数据感知的图像哈希方法

Info

Publication number: CN104978729A
Application number: CN201410139516.4A
Authority: CN
Inventors: 邹复好; 周可; 陈云鹏; 张玉清; 郑创伟; 谢志成; 郑胜; 曾宇鹏
Original assignee: SHENZHEN PRESS GROUP; Huazhong University of Science and Technology
Current assignee: SHENZHEN PRESS GROUP; Huazhong University of Science and Technology
Priority date: 2014-04-08
Filing date: 2014-04-08
Publication date: 2015-10-14

Abstract

本发明公开了一种基于数据感知的图像哈希方法，包括：提取图像的特征矢量；对特征矢量进行主成份分析，得到按特征值由大到小排列的特征矢量矩阵；对经过主成份分析之后的特征序列进行顺序测度，得到向量中的值在整个向量中的位置序列矩阵；对向量的位置序列矩阵进行局部保持投影，得到降维后的特征序列；对降维后的特征序列进行二值化处理，得到01比特序列。本发明方法具有较低的时间复杂度，并且得到的码字具有较高的效率，语义保持性较好，创新性的将主成份分析、顺序测度和局部保持投影结合起来；在局部保持投影中，将顺序测度中的距离度量函数用于构造邻接图，使得投影矩阵能够很好的适用于特征向量，提高了码字的语义保持性。

Description

一种基于数据感知的图像哈希方法

技术领域

本发明属于信息检索技术领域，更具体地，涉及一种基于数据感知的图像哈希方法。

背景技术

随着计算机网络的发展和数字化处理技术的广泛使用，互联网中的多媒体数据呈现爆炸式增长，使得多媒体数据在网络上的传播变得日益普及。这使得多媒体数据的组织和管理变得十分重要，其中如何在大规模数据集上实施快速相似性搜索是完成上述功能的核心关键技术。

目前，相似性搜索技术主要分为基于空间划分的方法和基于哈希的方法。基于空间划分的方法主要采用树形结构对数据进行存储，例如kd-Tree、R-Tree、X-Tree和SS-Tree。为进行空间的划分，合适的距离测度方法被引入计算向量间的相似性以将特征向量划分到子空间中。但是由于树形结构存在以下问题：当向量维度较高时，需要较多的空间用来表示，使得在树的构建过程需要频繁的分裂并且使得树的高度明显增加；在空间划分的过程中，由于高维数据之间的相关性，使得空间出现重叠现象，因此在查询过程中需要查询更多的子树。为了解决树的这些问题，引入了近似压缩的思想，即在创建索引之前首先对数据进行压缩以减少查询代价，如VA-File。VA-File的基本原理是将原始向量空间划分为不同的子区域，然后利用不同的二进制向量表示映射到相同子区域中的特征向量。对于给定的查询向量，只需要扫描相同子区域内的向量而不需要扫描全部的数据。由于只扫描相同子区域内的向量，使得数据的访问量和时间复杂度大大减小。但是当原始数据集很大时，相同子区域中的数据仍然很多，而且数据划分的算法决定了数据划分的分布，即好的划分算法使得数据划分到每个子区域的概率相同。但是由于原始数据中存在近似数据，而VA-File没有对近似数据进行排序和层次处理，因此D.Daoguo等在2005年提出了VAR-Tree。

海量的互联网数据和高维的特征矢量，使得基于空间划分的方法面临着“维度灾难”的问题，并且由于高维向量的相似性使得基于空间划分的方法容易产生空间重叠的现象，因此提出了基于哈希算法的相似性搜索。哈希方法的代表性工作是局部敏感哈希(Locality Sensitive Hashing,LSH)。LSH是一种用于近似查询的最受关注的方法之一。LSH基本原理是创建L个哈希表，每个哈希表中有k个哈希桶。对于一个向量，将其映射到哈希表的某个哈希桶里面。如果两个向量具有较大的相关性，则其会被映射到同一个哈希桶中。因此可以根据冲突概率的大小来判断两个向量是否相关。冲突概率的大小依据L个哈希表判断，即如果两个向量映射到每个哈希表的相同的哈希桶里面则其冲突概率最大。对于一个查询，只需要找与查询向量有相同哈希值的桶，大大减少访问的数据量。与树形结构如k-d树、SR树相比，LSH能很好的克服“维度灾难”，并且能够很大的减少K近邻搜索的时间复杂度。因此，LSH多被用于文本、图像、视频的相似性判断。然而，由于LSH哈希函数设计时采用数据独立哈希方式，因而使用LSH获得的汉明码效率并不高。为了取得较高的搜索准确性，LSH方法需要使用大量的哈希表，相应地其需要占用大量存储空间。为解决LSH空间开销过大问题，Panigrahy等使用随机扰动方法以及Qin等使用多探测方法来产生多个查询对象，使得每一哈希表的多个桶被选择为候选集，从而降低使用的哈希表数量。尽管上述方法显著降低哈希表的数量，但是空间开销仍然十分巨大。为了克服LSH产生的汉明码效率不高问题，近年来，一些学者将机器学习用于生成数据感知的哈希函数。Salakhutdinov利用RBM产生二进制码从而加速文本检索。Weiss提出了一种新的哈希算法SpH，该方法先用非监督学习方式获得样本数据的汉明码，然后基于非监督学习的结果，再为检验数据生成哈希函数。基于哈希函数的相似性搜索首先对特征矢量进行降维，然后对降维结果进行二值化。尽管降维过程获得较好的语义保持性，但二值化过程中则损失大量语义信息。

综上所述，研究学者在相似性搜索领域做了大量的研究工作。但是由于互联网上海量的多媒体数据和高维的特征矢量，相似性搜索算法需要面对高维和海量数据搜索问题。基于空间划分的方法面临着“维度灾难”的问题，因此研究基于数据感知的哈希算法，得到高效率、较好语义保持性的码字是相似性检索领域的热点问题，同时也是难点问题。

发明内容

本发明的目的在于提供一种基于数据感知的图像哈希方法，该方法利用主成份分析、顺序测度和局部保持投影将原始特征矢量映射到低维空间中，最后利用基于最大熵模型的二值化处理转化为二进制序列。通过该方法得到的码字具有较高的效率，并且语义保持性更好，其步骤包括：

第1步提取图像的特征矢量

第2步对特征矢量进行主成份分析，得到按特征值由大到小排列的特征矢量矩阵。

第2.1步计算每一列向量的均值，然后原始数据矩阵X的每一列减去其对应的均值，使得得到的新的数据矩阵每列的均值为零；

第2.2步计算新的数据矩阵的协方差矩阵covariance；

第2.3步计算协方差矩阵covariance所对应的特征值和特征向量；

第2.4步将原始数据投影到新的坐标系中。

第3步对经过主成份分析之后的特征序列进行顺序测度，得到向量中的值在整个向量中得位置序列。

第4步对向量的位置序列进行局部保持投影，得到降维后的特征序列。

第4.1步构造邻接图。假设G是具有Q个节点的图，如果X'_i和X'_j是相邻的，则在点X'_i和点X'_j之间存在一条边；

其中，X'_i是位置序列矩阵X'中的第i列，X'_j是位置序列矩阵X'中的第j列。

第4.2步选择各边的权重。矩阵W是Q*Q的实数矩阵，W_ij代表点X'_i和点X'_j之间的权重；当W_ij为0时，表示点X'_i和点X'_j之间没有边。

第4.3步计算特征映射。当优化参数α设为零时，可直接按照下式计算X'LX'^T的特征值和特征向量；否则计算X'LX'^T+αI的特征值和特征向量。

X'LX'^Ta＝λX'DX'^Ta，

其中D是对角矩阵D_ij＝Σ_jW_ij，L=D-W是拉普拉斯矩阵。

第4.4步投影变换。按从小到大的顺序排列特征值，并选择前l个特征值：λ₀≤λ₁≤...≤λ_l-1，各特征值对应的特征向量分别为：a₀,a₁...a_l-1。则可按照如下公式将原数据集映射到新的坐标系中：

X'_i→Y_i＝A^TX'_i,A＝(a₀,a₁...a_l-1)

其中，Y_i是l维的向量，A是n*l维的矩阵，其中l为预设的比特序列的长度。

第5步对降维后的特征序列进行二值化处理，得到01比特序列。

假设得到的N维的特征向量X''=(x''₁,x''₂...x''_N)，首先计算特征向量的整体均值然后将特征向量的每一维与均值进行比较，如果大于均值mean，则对应的比特位选择为1；否则为0；

bit (k) = \{\begin{matrix} 1 & if {X^{''}}_{k} > mean \\ 0 & if {X^{''}}_{k} \leq mean \end{matrix} .

与现有技术相比，本发明提出的基于数据位置信息的特征矢量处理方法具有较低的时间复杂度，并且得到的码字具有较高的效率，语义保持性较好。在哈希方法中，创新性的将主成份分析、顺序测度和局部保持投影结合起来；在局部保持投影中，将顺序测度中的距离度量函数用于构造邻接图，并且提出了局部保持投影优化问题，使得投影矩阵能够很好的适用于特征向量，提高了码字的语义保持性。

附图说明

图1为本发明一种基于数据感知的图像哈希方法的流程图；

图2（a）为本发明实施例中一个假定数据分布示意图；

图2（b）为对图2（a）中假定数据的主成分分析示意图；

图3为本发明实施例中一种基于亮度的顺序测度原理示意图；

图4为本发明实施例中在不同参数α下的PR曲线示意图；

图5（a）为本发明实施例中F1-Measure随编码长度和汉明距离在100W测试集下的变化趋势图；

图5（b）为本发明实施例中F1-Measure随编码长度和汉明距离在CALTECH256测试集下的变化趋势图；

图5（c）为本发明实施例中F1-Measure随编码长度和汉明距离在CALTECH测试集下的变化趋势图；

图5（d）为本发明实施例中F1-Measure随编码长度和汉明距离在COREL测试集下的变化趋势图；

图6（a）为本发明实施例中不同码字长度在100W测试集下的PR曲线；

图6（b）为本发明实施例中不同码字长度在CALTECH256测试集下的PR曲线；

图6（c）为本发明实施例中不同码字长度在CALTECH测试集下的PR曲线；

图6（d）为本发明实施例中不同码字长度在COREL测试集下的PR曲线；

图7（a）为本发明实施例中虚警率和漏警率随汉明距离在100W测试集下的变化趋势图；

图7（b）为本发明实施例中虚警率和漏警率随汉明距离在CALTECH256测试集下的变化趋势图；

图7（c）为本发明实施例中虚警率和漏警率随汉明距离在CALTECH测试集下的变化趋势图；

图7（d）为本发明实施例中虚警率和漏警率随汉明距离在COREL测试集下的变化趋势图；

图8（a）为本发明实施例与LSH方法在100W测试集下的PR曲线比较示意图；

图8（b）为本发明实施例与LSH方法在CALTECH256测试集下的PR曲线比较示意图；

图8（c）为本发明实施例与LSH方法在CALTECH测试集下的PR曲线比较示意图；

图8（d）为本发明实施例与LSH方法在COREL测试集下的PR曲线比较示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明中，将主成份分析、顺序测度和局部保持投影应用于特征序列的处理方法中。本发明的流程图如图1所示，下面具体说明本发明中的特征矢量处理方法的具体实施步骤。

第1步提取输入图像的特征矢量。对一幅输入图像，利用常用的图像特征提取算法提取图像的特征作为图像的描述符进行后续的处理。

主成分分析是数学上对数据降维的一种方法。其基本原理是寻找一组互不相关的向量组成低维空间，将原始数据映射到低维空间中，从而降低原始数据之间的相关性，达到降维的目的。设有M个向量，每个向量具有p维数据，则原始的数据矩阵为：

X = (\begin{matrix} X_{11} & X_{12} & . . . & X_{1 p} \\ X_{21} & X_{22} & . . . & X_{2 p} \\ . . . & . . . & . . . & . . . \\ X_{M 1} & X_{M 2} & . . . & X_{MP} \end{matrix}) = (\begin{matrix} X_{1} & X_{2} & . . . & X_{p} \end{matrix}) - - - (1)

其中，X_j＝(x_1j,x_2j...x_Mj)，j＝1,2...p。

如图2所示，为主成份分析几何示意图。下面介绍主成分分析的具体计算过程。

第2.1步计算每一列向量的均值，然后原始数据矩阵X的每一列减去其对应的均值，使得得到的新的数据矩阵每列的均值为零。

{mean}_{i} = Σ_{k = 1}^{M} \frac{x_{ki}}{M} 1 \leq i \leq p - - - (2)

X_i＝X_i-mean_i1≤i≤p (3)

第2.2步计算新的数据矩阵的协方差矩阵covariance

covariance = \frac{1}{M - 1} X * X^{'} - - - (4)

第2.3步计算协方差矩阵covariance所对应的特征值和特征向量

求出协方差矩阵covariance的特征值并按照从大到小的顺序排序，即

λ₁≥λ₂≥...λ_p＞0 (5)

并求得特征值所对应的相互正交的特征向量：

a_{1} = (\begin{matrix} a_{11} \\ a_{21} \\ . . . \\ a_{p 1} \end{matrix}), a_{2} = (\begin{matrix} a_{12} \\ a_{22} \\ . . . \\ a_{p 2} \end{matrix}) . . . a_{p} = (\begin{matrix} a_{1 p} \\ a_{2 p} \\ . . . \\ a_{pp} \end{matrix}) - - - (6)

第2.4步将原始数据投影到新的坐标系中

newData＝PC*X (7)

其中PC＝(a₁,a₂...a_p)。

其中主成分分析(PCA)具有以下优点：

(1)经过PCA处理之后，各维向量之间具有线性无关的性质，即经过处理之后的各维向量彼此独立；

(2)由于主成分分析将数据从高维空间转换为低维空间，减少了数据的维数，所以可以适用于快速的索引结构，从而提高查询效率；

(3)主成分分析变换后得到的数据是按照方差大小依次排列的，也就是相关性小的成分排在前面，相关性大的成分排在后面。所以在实际的处理中，可以只选取前面的几个成分而不会失去数据原有的信息。

第3步对经过主成份分析之后的特征序列进行顺序测度，得到向量中的值在整个向量中的位置序列。

可用于顺序测度的方法有多种，例如：基于图像方向信息的测度、基于图像纹理的复杂度与粗糙度的测度以及块的平坦测度等，在本发明实施例中，如图3所示，采用了基于亮度的顺序测度方法。

其中选用顺序测度的优势在于：顺序测度是基于排列而不是真正的值本身并且局部保持投影能够保持原始数据的局部结构信息，所以经过处理之后的特征序列具有极低的维度并且具有一定的抵抗几何攻击的能力。

在信息处理中，很多的问题都涉及到数据的降维。其中，局部保持投影(LPP)是一种保持数据集中局部内在结构的线性投影算法。当将高维数据映射到低维空间中时，LPP通过寻找Laplace特征函数的线性估计得到线性投影方向。LPP通过构造包含局部内在信息的邻接图，利用图像拉普拉斯的概念，计算出将原始数据映射到子空间中的变换矩阵。这种线性变换在一定程度上保持了数据集内在的结构信息。其算法过程如下：

第4.1步构造邻接图。假设G是具有Q个节点的图，如果X'_i和X'_j是相邻的，则在点X'_i和点X'_j之间存在一条边；其中，X'_i是位置序列矩阵X'中的第i列，X'_j是位置序列矩阵X'中的第j列。判断X'_i和X'_j是否相邻，可根据下述原则之一处理：

1）ε-近邻准则：当点X'_i和X'_j之间的欧几里得距离||X'_i-X'_j||≤ε时，X_i和X_j之间存在一条边；

2）k-近邻准则：当X'_i是X'_j的k近邻中的一个，或者X'_j是X'_i的k近邻中的一个时，则X'_i和X'_j之间存在一条边；

3）顺序度量准则：当X'_i和X'_j之间的顺序测度距离κ(I₁,I₂)≤d时，X'_i和X'_j之间存在一条边，其中，κ(I₁,I₂)为点X'_i和X'_j之间的顺序测度距离。

第4.2步选择各边的权重。矩阵W是Q*Q的实数矩阵，W_ij代表点X'_i和点X'_j之间的权重；当W_ij为0时，表示点X'_i和点X'_j之间没有边。权重的确定可按下列方法之一处理：

1）当点X'_i和X'_j之间是相连的，则W_ij＝κ(I₁,I₂)，κ(I₁,I₂)为点X'_i和X'_j之间的顺序测度距离；

2）当点X'_i和X'_j之间是相连的，则W_ij＝1；否则，W_ij＝0。

第4.3步计算特征映射。按照下式计算X'LX'^T特征值和特征向量：

X'LX'^Ta＝λX'DX'^Ta (8)

其中，D是对角矩阵D_ij＝Σ_jW_ij，L=D-W是拉普拉斯矩阵。

第4.4步投影变换。对‘第4.3步’中计算得到的特征值按从小到大的顺序排列，并取前l个：λ₀≤λ₁≤...≤λ_l-1，各特征值对应的特征向量分别为：a₀,a₁...a_l-1。其中l为预设的比特序列的长度。则可按照如下公式将原数据集映射到新的坐标系中：

X'_i→Y_i＝A^TX'_i,A＝(a₀,a₁...a_l-1) (9)

其中，Y_i是l维的向量，A是n*l维的矩阵。

第4.5步投影优化。在实际的拷贝检测系统中，首先通过一个训练数据集得到LPP特征映射矩阵。在其后的处理中，利用此特征映射矩阵将原始特征序列映射到一个低维的空间中。但是由于此特征映射矩阵与训练数据集可能会产生过度拟合的现象，使得此矩阵不能很好的描述新的数据集。因此在原有LPP算法的基础上，加入正则化处理，即在原有算法的基础上，引入参数αI，其中I为对角矩阵。通过确定α的值，可以得到一个很好描述新数据集的特征映射矩阵。

上面提到，LPP是计算X'LX'^T的特征值与特征向量；当引入参数α之后，需要按照式10示，计算X'LX'^T+αI的特征值和特征向量，而后仍将得到的特征值按从小到大排序，取前l个特征值对应的特征向量，则可按照公式(9)将原数据集映射到新的坐标系中。

\begin{matrix} tr (V^{t} XL X^{t} V) + α {| | V | |}_{F}^{2} \\ = tr (V^{t} XL X^{t} V + α V^{t} V) \\ = tr (V^{t} (XL X^{t} + αI) V) \end{matrix} - - - (10)

如图4所示，为不同参数α下的PR曲线图，从图中可以看出，当α取-1000时，系统具有较好的查询性能，即得到的特征矩阵能够更好的表示新的数据集。

二值化处理主要是将得到的低维特征转换为01比特序列，这些01比特序列方便计算和存储，并且对于相邻的特征能够映射到相似的比特序列，即两个比特序列的距离小于一定的阈值。下面介绍如何将上一节得到的低维空间特征转换为01比特序列。

假设得到的N维的特征向量X''=(x''₁,x''₂...x''_N)，首先计算特征向量的整体均值然后将特征向量的每一维与均值进行比较，如果大于均值mean，则对应的比特位选择为1；否则为0。

bit (k) = \{\begin{matrix} 1 & if {X^{''}}_{k} > mean \\ 0 & if {X^{''}}_{k} \leq mean \end{matrix} . - - - (11)

经由以上步骤产生的比特序列（哈希码）具有区分性强、紧凑高效且语义保持性好的特点。即便在没有索引结构支持的条件下，仍能通过直接装入到内存，利用简单的XOR和bit-count运算计算图像间汉明距离度量其相似性，完成大规模数据下的快速查询。

通过本发明方法所得到的图像的比特序列可以应用于基于内容的图像相似性检索。例如，将本方法应用于拷贝检测中，则可通过完成对两幅图像的比特序列进行相似性比较，判断两幅图像是否为拷贝关系。即，将比特序列作为图像的唯一标识，采用比特序列的汉明距离判断两个序列的相似性。通过实验即可得到比特序列的长度以及距离阈值，当两个序列的汉明距离小于阈值时，则两幅图像为拷贝关系；当汉明距离大于阈值时，则两幅图像为非拷贝关系。

参数确定

下面以拷贝检测为例，介绍本图像哈希方法中各参数的确定过程。

对于一幅图像，最终将其特征序列转化为特定长度的01字符序列。字符序列的长度l是第一步要确定的问题。当字符串序列太小时，不同的特征序列就会转换成相似的01字符序列，使得系统的查全率和查准率较小，影响系统的性能；而当字符串序列太长时，虽然能够获得较好的查询结果，但却需要占用较大的内存并且需要较大的汉明距离来判断两个序列是否相似。

利用F1-Measure准则来确定二进制码长度。F1-Measure是对查全率和查准率的一个综合评价，其用来表示在不同的汉明距离的条件下，查全率和查准率随编码长度变化而变化的趋势。具体定义如下：

F₁＝2*r*p/(r+p) (12)

其中r为recall，p为precision。

本实验中通过改变编码长度（码字长度）从1到200，汉明距离从0到4，测试了编码长度与汉明距离对系统性能的影响，如图5所示为F1-Measure在图像数据集上随编码长度变化而呈现的变化趋势。从图中可以看出，随着汉明距离的变大，F1-Measure的峰值就会变大；并且在达到峰值之前，F1-Measure逐渐变大，随后逐渐变小。

如图5所示为特征向量在不同的编码长度下的最佳查全率和查准率，由图可知，随着编码长度的增加，系统的查全率和查准率不断增加。但是，当编码长度为40,50,60,70,80时，其最优查全率和查准率变化不大。而且当编码长度太大时，需要较多的存储空间。综合查询性能与空间复杂度，将编码长度设置为40，此编码长度可以使系统具有较好的查询性能并且具有较低的空间复杂度。

如图6所示为通过虚警率和漏警率来测试在编码长度为40的情况下，如何选择汉明距离使得系统具有较高的查全率和查准率。在一定的条件下，虚警率(False Alarm)是指误检的图像个数与检测出的图像数目的比例；漏警率(Missing Alarm)是指没有检测出的拷贝数目与全部拷贝数目的比例。其公式如下所示：

\{\begin{matrix} FA = FP / (TP + FP) \\ MA = FN / (TP + FN) \end{matrix} - - - (13)

其中FP为误检的图像数目，TP为正确检测出的图像数目，FN为漏检的图像数目。

通过分析可以知道，拷贝图像与原始图像的汉明距离较小，并且当汉明距离等于零时，拷贝图像的数目应该是最多的；非拷贝图像与原始图像的汉明距离较大，其分布应该是符合高斯分布的，即在某点达到峰值，峰值左右两边依次减小。通常，峰值点应该为编码长度的一半。

从图7中可以看出，当汉明距离等于0时，拷贝图像的个数比例最高；随着汉明距离的变大，拷贝图像的个数所占的比例逐渐变小。当汉明距离等于17时，非拷贝图像所占的比例达到峰值，大于或小于17时，随着汉明距离的变大或变小，非拷贝所占的比例逐渐变小。

通过图7可以确定汉明距离的大小。选择方法是在汉明距离一定的条件下，使得虚警率和漏警率组成的面积最小。可以看出，当汉明距离为10时，可以得到较高的查全率和查准率。

试验结果

为了验证本发明中提出的哈希方法，我们选择四个数据库作为实验数据集，其中三个数据库为COREL(http://www.stat.psu.edu/～jiali/),CALTECH110(http://vision.caltech.edu/Image_Datasets/Caltech110/)和CALTECH256(http://vision.caltech.edu/Image_Datasets/Caltech256/)。另外的一个图像库是利用网络爬虫，在图片网站上获取的多幅图像，这些图像是在不同的网站上爬取的，是有着不同类型、不同大小、不同色彩和纹理的图像。实验结果如图8所示。本发明中提出的特征矢量处理方法得到的码字具有较高的效率和语义保持性，要优于LSH算法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据感知的图像哈希方法，其特征在于，包括：

第1步，提取图像的特征矢量；

第2步，对特征矢量进行主成份分析，得到按特征值由大到小排列的特征矢量矩阵；

第3步，对经过主成份分析之后的特征序列进行顺序测度，得到向量中的值在整个向量中的位置序列；

第4步，对向量的位置序列进行局部保持投影，得到降维后的特征序列；

第5步，对降维后的特征序列进行二值化处理，得到01比特序列。

2.如权利要求1所述的方法，其特征在于，所述步骤2具体包括：

第2.1步，计算每一列特征矢量的均值，然后将原始数据矩阵X的每一列减去其对应的均值；

第2.2步，计算新的数据矩阵的协方差矩阵；

第2.3步，计算协方差矩阵所对应的特征值λ₁,λ₂,...λ_p和特征向量a₁,a₂...a_p；

第2.4步，将原始数据投影到新的坐标系中，新的数据矩阵为newData＝PC*X，其中PC＝(a₁,a₂...a_p)，a₁,a₂...a_p分别为特征值λ₁,λ₂,...λ_p对应的特征向量，λ₁≥λ₂≥...λ_p。

3.如权利要求1或2所述的方法，其特征在于，所述步骤4具体包括：

第4.1步，构造邻接图：假设G是具有Q个节点的图，如果X'_i和X'_j是相邻的，则在点X'_i和点X'_j之间存在一条边；其中，X'_i是位置序列矩阵X'中的第i列，X'_j是位置序列矩阵X'中的第j列；

第4.2步，选择各边的权重：矩阵W是Q*Q的实数矩阵，W_ij代表点X'_i和点X'_j之间的权重；当W_ij为0时，表示点X'_i和点X'_j之间没有边；

第4.3步，计算特征映射：按照下式计算X'LX'^T的特征值和特征向量：X'LX'^Ta＝λX'DX'^Ta，其中D是对角矩阵D_ij＝Σ_jW_ij，L=D-W是拉普拉斯矩阵；

第4.4步，投影变换：按从小到大的顺序排列特征值，并选择前l个特征值，λ₀≤λ₁≤...≤λ_l-1，各特征值对应的特征向量分别为：a₀,a₁...a_l-1；按照如下公式将原数据集映射到新的坐标系中：

X'_i→Y_i＝A^TX'_i,A＝(a₀,a₁...a_l-1)

4.如权利要求3所述的方法，其特征在于，所述步骤4.3中将求X'LX'^T的特征值与特征向量，转化为求X'LX'^T+αI的特征值和特征向量，其中α为调节参数，I为对角矩阵。

5.如权利要求3所述的方法，其特征在于，所述步骤4.1中判断X'_i和X'_j是否相邻，可根据下述原则之一处理：

1）ε-近邻准则：当点X'_i和X'_j之间的欧几里得距离||X'_i-X'_j||≤ε时，点X'_i和X'_j之间存在一条边；

6.如权利要求3所述的方法，其特征在于，所述步骤4.2中权重的确定可按下列方法之一处理：

2）当点X'_i和X'_j之间是相连的，则W_ij＝1；否则，W_ij＝0。

7.如权利要求1至6任一项所述的方法，其特征在于，所述步骤5具体包括：

第5.1步，首先计算特征向量的整体均值为得到的N维的特征向量；

第5.2步，将特征向量的每一维与均值进行比较，如果大于均值mean，则对应的比特位选择为1；否则为0；

bit (k) = \{\begin{matrix} 1 & if {X^{''}}_{k} > mean \\ 0 & if {X^{''}}_{k} \leq mean \end{matrix} .