CN103310216A

CN103310216A - 基于保内积降维技术的模式识别方法

Info

Publication number: CN103310216A
Application number: CN2013102763629A
Authority: CN
Inventors: 林通; 戚峰; 查红彬
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2013-07-03
Filing date: 2013-07-03
Publication date: 2013-09-18
Anticipated expiration: 2033-07-03
Also published as: CN103310216B

Abstract

本发明公布了一种基于保内积降维技术的模式识别方法，所述模式识别方法采用如下步骤进行降维：首先在坐标逼近的思想下建立保持局部内积的误差函数模型；然后利用矩阵向量形式的转换求解出局部的最优保内积低维坐标；在使用特征值分解求得初值后，对目标函数进行多变量迭代求解；分别使用二次函数极值求解，正交强迫分解，最小二乘等方法逐步求解迭代问题，并得到最终低维坐标。本发明对降维问题提出了新的方法，可以应用与流形学习并能取得较好的效果，并在真实数据集上的分类效果能达到与现有流形方法相媲美的效果。

Description

基于保内积降维技术的模式识别方法

技术领域

本发明属于模式识别领域，具体涉及一种保持局部内积不变的非线性降维方法。

背景技术

特征提取原本是计算机视觉和图像处理中的一个概念，后被引入机器学习领域，成为一个重要研究问题。通过特定的计算方法，从输入数据中得到特征用于学习，是现今分类、同归等问题的一般策略。学习过程中，我们获得的样本的各种属性都可以以数据的形式进行保存。由于技术设备的不断进步，我们可以采集到的样本信息也不断增加，将这些信息归纳成数据时，其维度也不断膨胀。在如此高维度的数据里，包含了很多冗余信息。如果能去除那些对问题影响极小的甚至是带有误差的信息，势必能简化问题。降维于是应运而生。

降维即降低维度，通过对高维数据进行一定的操作，削减其信息的维度，从而达到简化问题的目的。这种简化，将对提升学习问题的效率和精度有很大的帮助。降维工作的本质是在保留数据特征的前提下，将高维数据转化为相应的低维数据，为一种特种提取的方法。高维数据通常存在一个低于自身数据维度值的内蕴维度：即能使用最少参数表示数据信息的参数个数。降维的一个重要工作就是寻找高维数据的内蕴维度，将数据降维至此维度从而将数据信息得到较好的保留。由于其实为特征提取，降维在机器学习的很多领域诸如分类，可视化和数据压缩等中都有着重要的应用，也是众多学习方法的基础工具。

随着现实问题中数据越来越复杂，其结构信息也受到了越来越多的关注。在相关研究中，极具代表性的是流形学习。流形学习于2000年被提出，现已成为研究热点。假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现维数约简或者数据可视化。出于几何信息对于复杂数据结构更全面、准确的刻画，流形学习在机器学习领域中显示出其重要意义。

一般的降维问题的数学描述为：假设有初始高维数据集X，方便起见将其各数据点的坐标写成整体用矩阵表示，也记为X，它是一个R^D×n的矩阵，包含n个D维的数据向量x_i(i＝1，2，..，n)，并且假定此数据的内蕴维度为d(d＜D，并且一般d＜＜D)。数学上对内蕴维度的解释如下：即数据集X中的数据点落在或几乎落在一个能够嵌入D维空间中的d维流形上。降维即寻找一个X到d维数据集Y的变换，能够使得X的信息得到最大程度的保留。即通过寻找映射F：x→y(x∈X，y∈Y)，其中x表示高维数据集中的数据点，y表示低维数据集中的数据点，x∈R^D，y∈R^d，F(·)∈R^D→R^d。当映射F为左乘一个矩阵时，该方法就是一个线性降维方法。其形式为Y＝AX。一般来讲，其低维坐标表示Y与内蕴维度d都是未知的，而我们的求解目标主要为Y。

目前已有很多数据降维的方法，按照对输入数据的映射变化是否线性分为线性降维方法和非线性降维方法。线性方法的映射是一个线性变化，即在原数据矩阵上左乘一个映射矩阵得到低维结果。非线性方法的映射函数较为复杂，往往不能精确求得，但我们只需得到高维数据被映射后的结果即可。最广泛使用的线性降维方法是主成分分析法(PCA)，其他方法有独立成分分析法(ICA)、线性决策分析法(LDA)等。由于在处理结构更为复杂的数据时效果不令人满意，在上述方法之后，很多非线性降维方法被提出，他们在处理这些数据时能更好的保持其特性。非线性降维方法主要包括核方法、全局方法和局部方法：核函数主成分分析法(KPCA)、核函数决策分析法(KDA)等一类基于核函数的方法统称为核方法；等距特征映射法(ISOMAP)，全局保距映射法(MDS)属于典型的全局方法；而局部方法的代表有局部线性嵌入法(LLE)，拉普拉斯特征映射法(LE)和局部切空间排列法(LTSA)等。

已有降维方法都较好地实现了数据降维目的，他们从不同的角度出发，保留了数据不同的特征。但线性方法无法较好处理流形学习问题，核方法中核函数选取困难，全局方法计算速度慢，局部方法对数据几何信息保持效果不佳。我们希望结合各类方法的优点，得到一种能够较好保持数据几何信息，同时计算速度较快的降维方法。

发明内容

本发明的目的在于提出一种保持局部内积不变的降维方法，针对具有流形结构的复杂数据，重点保持数据的几何信息。

本发明的技术方案如下：

一种基于保内积降维技术的模式识别方法，其特征是，所述模式识别方法采用如下步骤进行降维：

步骤1：将样本图片按像素方式(每点为一个0到255的整值)存入电脑中，即可用一个向量来表示一张图片，将所有向量的整体记作初始高维坐标矩阵X，根据高维数据点的距离关系矩阵进行近邻选择，得到各点的近邻选择矩阵S_i；

步骤2：根据坐标逼近的思想建立误差函数模型

\min Σ_{i = 1}^{n} {| | s_{i} L_{i} - U_{i} Y S_{i} P | |}_{F}^{2},

(公式I)

其中s_i为尺度因子，L_i为每点近邻域内保持内积的局部低维坐标，U_i表示全等变换的正交矩阵，Y为所求目标低维坐标，P为代表平移的变换矩阵；

步骤3：在局部保内积模型公式II中，将约束由矩阵形式转化为向量形式，之后使用最小二乘法，求得每点近邻域的最优保内积低维坐标

L_{i}^{*} = \min_{L} \underset{t, j, k &Element; Ω_{i}}{Σ} {| | < l_{j} - l_{t}, l_{k} - l_{t} > - < x_{j} - x_{t}, x_{k} - x_{t} > | |}_{F}^{2}

(公式II)

其中，l代表低维信息，x代表高维信息，x的下标表示数据点在数据集中的序号，Ω_i表示数据集中第i个点的近邻点的下标组成的集合，L即诸数据点坐标l组成的整体坐标矩阵，L*表示此优化式的最优解；

步骤4：对误差函数模型(公式I)中的三个位置标量尺度因子s_i、正交矩阵U_i和低维坐标Y进行交替迭代求解，首先使用特征值分解求得Y的初始值，并根据原高维数据与步骤3中求得的低维坐标L_i的相互关系计算出s_i的初始值；

步骤5：将目标函数公式I分解为三个子问题，分别求解三个未知变量s_i，U_i，Y，通过正交强迫分解更新正交变换矩阵U_i，求解二次函数极值更新尺度因子s_i，以及使用最小二乘法求解低维坐标Y，在满足迭代终止条件后停止迭代，得到所求的低维坐标。

本发明的有益效果：本发明在降维过程中，能较好保持原始数据的诸如数据点间距离，角度等几何信息，能对原数据做到极高的几何保真效果。

附图说明

图1是本发明流程图；

图2是瑞士卷模拟数据降维结果图；

图3是人脸石膏模型降维可视化效果图。

具体实施方式

本发明实施方式如下：

实施例一：

步骤1：输入数据为一组共800个三维数据点云，目标将其降维至二维，首先将这些数据点的坐标记录下来，保存成一个整体坐标矩阵X，并计算各点间的欧氏距离，得到近邻选择矩阵。根据高维数据点的距离关系矩阵进行近邻选择，得到各点的近邻选择矩阵S_i。

输入数据为800个三维数据点的坐标矩阵X，他们拥有如瑞士卷般的流形结构，如图2A所示。使用L2距离计算公式(即空间中两点间欧氏距离计算公式)求得数据点间两两欧氏距离，得到距离关系矩阵。选取每点自身及其8个最近邻点，将其标号组成集合记为Ω_i，称为近邻域；每个点得到其相应的800×9的近邻选择矩阵S_i。

例如：若全部数据点共有8个，1号数据点的3-近邻点分别为2号，4号和5号点，则1号点对应的选择矩阵S₁的具体形式为：

S_{1} = (\begin{matrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \end{matrix})

步骤2：根据坐标逼近的思想建立误差函数模型

其中s_i为尺度因子，L_i为每点近邻域内保持内积的局部低维坐标，U_i为表示全等变换的正交矩阵，Y为所求目标低维坐标，P为代表平移的变换矩阵。

在这个模型中，共有四个未知量，分别为：保内积的每点局部低维坐标L_i，尺度因子s_i，正交矩阵U_i以及目标低维坐标Y。S_i为步骤1中求得的各点近邻选择矩阵，P的形式为P＝I-e₁·e′，其中I为k+1阶单位矩阵，e₁＝(1，0，...，0)′为k+1维首位为1其余各位为0的列向量，e＝(1，..，1)′为k+1维全1列向量。在任意m×(k+1)的矩阵A上右乘P得到的结果即是将A的每列均减去其第一列后得到的矩阵。其表示的含义为，将每个点的近邻局部平移至中心点与原点重合。

步骤3：在局部保内积模型

L_{i}^{*} = \min_{L} \underset{t, j, k &Element; Ω_{i}}{Σ} {| | < l_{j} - l_{t}, l_{k} - l_{t} > - < x_{j} - x_{t}, x_{k} - x_{t} > | |}_{F}^{2}

中(其中l代表低维信息，x代表高维信息)，将约束由矩阵形式转化为向量形式，之后使用最小二乘法，可以求得每点近邻域的最优保内积低维坐标L_i。

由于在求解局部坐标步骤时直接使用PCA降维结果会损大较多的几何信息，使降维结果出现错误，因此需要建立保持局部内积的模型，并从中求解能够较好保持局部几何信息的低维坐标。

模型中l_t表示各点的欲求低维逼近坐标，即为L_i中对应列(l_t1，l_t2，..，l_id)′。注意到在循环变量中t的核心性，如果我们考虑t在Ω_i中的遍历，则可以将上式中的求和项转化成k+1个子项。因为各x_i的坐标均已知，因此高维数据的内积可以求得，我们用

来表示<x_j-x_i，x_k-x_t>，并将整体的

记为W_it。对于每一项，可以看成这样一个一般的形式：

{(L (I - e_{t} e^{'}))}^{T} \cdot (L (I - e_{t} e^{'})) = (\begin{matrix} < l_{1} - l_{t}, l_{1} - l_{t} > & \cdot \cdot \cdot & < l_{1} - l_{t}, l_{k + 1} - l_{t} > \\ \cdot \cdot \cdot & \cdot \cdot \cdot & \cdot \cdot \cdot \\ < l_{k + 1} - l_{t}, l_{1} - l_{t} > & \cdot \cdot \cdot & < l_{k + 1} - l_{t}, l_{k + 1} - l_{t} > \end{matrix}) = {\hat{L}}_{t}

则对于特定的t，该项有这样的矩阵表达形式：其中P_t是将化简过程最后形式中所有已知量综合得到的一个矩阵表示，W表示的是原数据集X的相关内积信息。

令

引入一个(k+1)×(k+1)阶的对称d秩矩阵Z，将问题转化为一个次数更低的有约束问题，得到一个关于Z的无约束优化问题，即

通过观察可以发现，上式关于Z的每个约束，实为其坐标的一次线性组合，因此可以通过变换将其从矩阵形式转换成向量形式：

Z^{*} = \min_{Z} {| | AP (Z) - P (W) | |}_{F}^{2}

其中变换函数P(·)表示将矩阵按列依次拉成一个长向量的变换。式中A的形式较为复杂，但其可以通过P_t求得，并对每个点的邻域可以重复使用。对上式使用最小二乘，可以得到最优的向量P(Z)，再将其转换同矩阵形式，即可得到Z。

由于内积具有对称性，W本身即为一个对称矩阵，因而此时求得的Z也必然满足对称性。于是只需对其进行特征值分解并选取d个最大特征值对应的特征向量排列即可得到欲求的局部低维坐标L_i。

步骤4：对误差函数模型中的三个位置标量尺度因子s_i，正交矩阵U_i和低维坐标Y进行交替迭代求解，首先使用特征值分解求得Y的初始值，并根据原高维数据与步骤3中求得的低维坐标L_i的相互关系计算出s_i的初始值。

首先求解s_i，这个量在原目标函数中存在的意义是作为尺度因子约束局部内积最优低秩逼近坐标L_i与最终低维坐标Y在距离度量上的关系。在最理想的情况下，我们所求得的低维坐标可以认为保留了原始数据的全部信息，因此在估计初始值时我们不妨将L_i与Y间的约束关系直接转换成L_i与X间的关系。于是我们可以通过L_i与高维局部坐标矩阵X_i比较，将对应二元点组距离比例求平均得到初始s_i0，具体形式如下：

s_{i 0} = \frac{1}{C_{k + 1}^{2}} \cdot \underset{j, k &Element; Ω_{i}}{Σ} \frac{| | x_{j} - x_{k} | |}{| | l_{j} - l_{k} | |}

(此处的各符合与前文交代的一致)

接下来求解Y的初始值。根据F-范数的简单性质，可以将目标函数转换为：

\min E = \min Σ_{i = 1}^{n} {| | s_{i} U_{i}^{T} L_{i} - {YS}_{i} P | |}_{F}^{2}

将s_iU_i看成一个整体，其最优值应为其中L⁺表示矩阵L的广义逆(

是L_i的广义逆)，将其整体带入，可得

I是单位矩阵(即对角线为全1其余全0的矩阵)。再令

并将其排列成一个大的准对角矩阵W，可将问题转化成一个特征值分解问题：

minE＝mintr(YWW^TY^T)，其中，tr表示矩阵的迹，其意义为矩阵对角线所有元素的总和。

加入防止解退化的约束YY^T＝I后，即可求得Y的初始值。

步骤5：将目标函数

分解为三个子问题分别求解三个未知变量，通过正交强迫分解更新正交变换矩阵U_i，求解二次函数极值更新尺度因子s_i，以及使用最小二乘法求解低维坐标Y，在满足迭代终止条件后停止迭代，得到最终所求的低维坐标。此处得到的是800个数据点的二维坐标矩阵，矩阵中每一列的一个二维向量即表示一个二维数据点的坐标，将其全部表示在坐标平面上，即能得到降维的结果图(图2B)。

将目标函数分解为三个子问题：

\min \underset{i}{Σ} {| | s_{i} A_{i} - B_{i} | |}_{F}^{2}

\min \underset{i}{Σ} {| | A_{i} - U_{i} B_{i} | |}_{F}^{2}

\min \underset{i}{Σ} {| | A_{i} - B_{i} {YC}_{i} | |}_{F}^{2}

A_i，B_i，C_i表示已知量，三个式子表达的意思是分别的三个问题(三个子问题)，未知量为s_i，U_i，Y时的一般形式。在上述三个子问题中，我们可以依次在已知两个变量的条件下，更新第三个变量。可以通过求二次函数极值更新尺度因子s_i；通过正交强迫分解更新正交矩阵U_i；通过最小二乘更新低维坐标Y。经过若干次迭代直至收敛后，可以得到最终所要求的低维坐标Y，并完成降维。

对该瑞士卷模拟数据降维后的结果如图1所示。方法较好的将原数据展成带状颜色渐变结果。对其进行定量评价，能多出其在几何信息的保留程度上要优于已有的经典降维算法。

下表给出了在内积改变率，角度改变率，距离改变率和近邻点保持率四个指标上，本方法与其他方法的效果比较(分别在五个模拟数据上进行实验，并与其他五种方法进行比较)：

实施例二：

该实施例基于一个石膏人脸照片库，其包含698张64×64像素大小的灰度图像，为不同角度不同光照的图片，朝向范围为左右-90°至90°，上下-10°至10°。与实施例一中操作步骤类似，将这些图片按像素(每点为一个0到255的整值)存入电脑中，即可用一个向量来表示每幅图片，将这698个向量的整体记作这里的初始高维坐标矩阵，将该数据输入后进行降维，降至二维后，将所有低维数据点表示在二维坐标平面上，在图3中给出了可视化效果图。

从实验结果图中可以看出，本发明提出的降维方法对数据降维后，较好的反应了高维数据中反应图片脸部朝向的信息。

实施例三：

USPS(U.S.Postal Service)数据集使用美国邮政信封上扫描的手写体数字图片，每张图片是28×28的灰度图片，包含一个数字，从数字0到9，共10类。本实施例从中随机抽取了1000个样本来做实验，使用本发明提出的方法，选取近邻域数量为40，类似例二中的步骤，将每幅图片表示成一个向量形式存储，将整体矩阵作为原高维数据集的坐标矩阵，将原数据降维至30维，然后使用最为经典的两种分类器SVM和KNN对降维结果进行分类实验。

下表给出了各自经过5次五折交叉实验的平均正确率结果，并与另外三种降维方法(PCA，LLE，LTSA)进行了对比：

Med

Dim

Num

PCA

LLE

LTSA

Linn

SVM

30

1000

90.0％

88.2％

89.6％

90.4％

KNN

30

1000

86.0％

84.2％

81.8％

82.2％

实验表明，在处理一般的诸如分类等模式识别问题时，本方法能取得与其他经典降维方法相媲美的效果。

Claims

1.一种基于保内积降维技术的模式识别方法，其特征是，所述模式识别方法采用如下步骤进行降维：

步骤1：将样本图片按像素方式存入电脑中，即可用一个向量来表示一张图片，将所有向量的整体记作初始高维坐标矩阵X，根据高维数据点的距离关系矩阵进行近邻选择，得到各点的近邻选择矩阵S_i；

步骤2：建立误差函数模型：

\min Σ_{i = 1}^{n} {| | s_{i} L_{i} - U_{i} Y S_{i} P | |}_{F}^{2},

(公式I)

L_{i}^{*} = \min_{L} \underset{t, j, k &Element; Ω_{i}}{Σ} {| | < l_{j} - l_{t}, l_{k} - l_{t} > - < x_{j} - x_{t}, x_{k} - x_{t} > | |}_{F}^{2}

(公式II)

步骤4：对目误差函数模型公式I中的三个位置标量尺度因子s_i、正交矩阵U_i和低维坐标Y进行交替迭代求解，首先使用特征值分解求得Y的初始值，并根据原高维数据与步骤3中求得的低维坐标L_i的相互关系计算出s_i的初始值；

步骤5：将目标函数公式I分解，分别求解三个未知变量s_i，U_i，Y，得到所求的低维坐标。

2.如权利要求1所述的模式识别方法，其特征是，步骤5中，通过正交强迫分解更新正交变换矩阵U_i，求解二次函数极值更新尺度因子s_i，使用最小二乘法求解低维坐标Y，在满足迭代终止条件后停止迭代。

3.如权利要求1所述的模式识别方法，其特征是，步骤1中，使用L2距离计算公式求得数据点间两两欧氏距离，得到距离关系矩阵。