CN106529588A

CN106529588A - 一种基于自适应密度聚类的非线性流行学习降维方法

Info

Publication number: CN106529588A
Application number: CN201610944452.4A
Authority: CN
Inventors: 陈晋音; 保星彤; 陈心怡; 郑海斌
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-11-02
Filing date: 2016-11-02
Publication date: 2017-03-22

Abstract

一种基于自适应密度聚类的非线性流行学习降维方法，包括以下步骤：1)用用自适应密度聚类算法聚类后，用ICA对每个聚类降维形成线性模型平面；2)建立局部线性模型间的最小穿越树MST；3)遍历流行的全局MST；4)通过在全局超平面上运行ICA找到低维植入。本发明提出了一种基于自适应密度聚类的非线性流行学习降维方法，运用平面的平行映射能够克服原数据集因为通过降维而产生的畸变，正确率较高、可信度较好。

Description

一种基于自适应密度聚类的非线性流行学习降维方法

技术领域

本发明属于非线性的数据降维方法，针对目前大数据应用中的高维数据直接展开数据挖掘和分析存在困难，利用平行映射的方法，提出了一种基于自适应密度聚类的非线性流行学习降维方法，运用平面的平行映射能够克服原数据集因为通过降维而产生的畸变。

背景技术

随着科技和大数据时代的发展，数据信息快速向高维化转变，人们在行为过程中产生的数据信息不再是简单的少量数据，而是蕴含大量信息量的高维数据，但巨大的数据量和每个数据样本的高维特征值给数据处理带来了困难。高维数据包含了含有海量特征的数据集，这些数据中有效的维度信息很少，大量信息对机器学习和数据挖掘的结果影响几乎为零，这些信息会使算法的性能降低，计算时间延长。因此，把高维数据的“维度灾难”通过一个有效的降维方法投映到低维的空间，从而提取我们所需要的低维结构信息变得十分重要。

流行学习的方法广泛用于机器学习和模式识别。基于数据是采样于一个高维的外围欧式空间的一个低维子流行的假设，流行存在一定的低维内在结构。降维实际就是将流行展开，找到它的内在结构。降维过程是通过忽略对整体数据影响较小的成分，随之导致的结果是会损失一些信息，降维方法中特征值等关键值取值效果越好，所损失的信息会越少。主成分分析(Principal Components Analysis，PCA)是一种应用广泛的线性降维算法，通常在数据集是一个线性流形时，通过PCA得到的降维结果是最优的，但是现实中数据集显然更多的是非线性结构，然而PCA对非线性数据集降维效果不明显，无法处理非线性流形。

对于非线性降维方法，等距映射算法(Isometric Mapping，ISOMAP)适用于内部平坦的流行，ISOMAP是一种全局优化算法，通过计算最近邻图中的最短路径得到近似的流行表面距离。但ISOMAP要求学习的流行必须是非凸的，当流行曲率较大或有洞时，结果会产生较大偏差。ISOMAP通过保持任意两点之间的测地线距离来保持流形的全局几何结构，因此从保持几何结构的角度来看，ISOMAP保持了更多的信息量。然而ISOMAP的全局方法有一个很大的缺陷就是要考虑数据集中任意两点之间的关系，这个计算量将随着数据点数量的增多而使得计算负荷很大。随着互联网的发展，巨型数据结构使用全局方法进行分析变得越来越不切实际。以局部线性嵌入(Locally linear embedding，LLE)为首的各种局部分析方法和相关的理论基础研究逐渐受到更多关注。LLE试图保留数据的局部性质，因此在局部上，流行近似于一个欧氏空间，通过样本点的邻近点计算出局部重建权值矩阵再与其邻近点计算出输出值。但LLE也有缺陷，当样本数据分布在整个球面上，LLE则无法将其映射到二维空间上。LE思路与LLE类似，但LE希望保持流形的近邻关系，即原始空间中相近的点在通过LE算法运算后映射到目标空间中，这些点依然相近，研究拉普拉斯特征映射算法(Laplacian eigenmap，LE)使用两点间的加权距离作为损失函数，求得相应的降维结果。局部保持映射(Locality Preserving Projections，LPP)则计算复杂度更低，在LE算法的基础上，寻求一个全局映射矩阵，将高维数据通过这个全局映射矩阵映射到低维空间，最大程度的保留了数据集的局部流行结构。

发明内容

为了克服普通降维方法的降维后对流行产生扭曲、展开后结构发生“畸形”、正确率较低、可信度较差的不足，本发明提供了一种正确率较高、可信度较好的基于自适应密度聚类的非线性流行学习降维方法，将流行近似为一系列的线性模型，根据每个小的线性模型在全局中的结构，在一定的遍历顺序下迭代线性模型，利用平行映射将局部线性模型合并得到一个全局稳定且局部变换的流行。

本发明解决其技术问题所采用的技术方案是：

一种基于自适应密度聚类的非线性流行学习降维方法，有高维样本M，M的每一个样本为一个点x，目标是找到N维流行中流行为M的n维内在结构的样本，n<<N；所述降维方法包括以下步骤：

1)用聚类方法形成线性模型平面，过程如下：

1.1对流行M中的数据对象运用自适应密度聚类算法进行聚类，自动确定初始的聚类中心a，并且把M分成c个聚类；

1.2在每个类簇上运行独立成分分析(Independent Component Analysis，ICA)，对数据进行标准化和白化处理，设白化矩阵为其中Γ和Λ分别是协方差矩阵E的特征值和特征向量，在这里保留了N维特征向量中特征值从大到小取前n个的n维向量，即对数据M进行了局部模型的降维。白化后的数据集M为M_ICA＝W*M′；

1.3利用公式P_i＝mean(M*g(P_a ^TM))-(mean(g′(P_a ^TM))*P_a和I＝P*M迭代得到分离矩阵的各行向量P₁…P_n和特征矩阵I，其中P_a为任一选择的一个初始权向量，mean(M)为对M求均值运算，g(M)为求tanh(M)的导数，标准化新向量

2)建立局部线性模型间的最小穿越树MST，过程如下：

2.1计算聚类中心a_i与其余每个聚类中心之间的欧式距离

2.2判断任意三个聚类中心之间是否首尾连接，若三个中心的连边构成环，选取三条边中距离最大的一条去除形成MST，要求MST消除所有首尾连接且连边权重最小；

2.3此时，聚类中心a看成MST的一个节点a，而节点之间的连线则为MST的树枝；

3)遍历流行的全局MST，过程如下：

3.1确定进行平行映射两个平面的聚类中心，即MST中两个节点a_new和a_pre；任意选取MST树的一个节点为第一个子节点a_pre，a_pre现在为已访问的线性模型平面，找出任意一个与a_pre有连接且未遍历过的节点a_new；

3.2将a_pre所在线性模型的所有数据点前向映射到a_new所在线性模型平面；

3.3若节点a_new为MST的叶子，即没有子树的情况下，需将已遍历的所有数据点从a_new所在平面沿遍历顺序返回映射到最近一个有未遍历子树的节点处，否则重复步骤3.2；

3.4判断若所有线性模型都已遍历，结束遍历并返回遍历合并所有线性模型的流行得到的数据矩阵Q；

4)通过在全局超平面上运行ICA找到低维植入，过程如下：

4.1在Q上运行ICA找到低维嵌入，得到数据集M的低维表现，首先对数据进行标准化和白化处理，设白化矩阵为其中Γ和Λ分别是协方差矩阵E的特征值和特征向量，白化后的数据集M为M_ICA＝W*M′；

4.2利用公式P_i＝mean(M*g(P_a ^TM))-(mean(g′(P_a ^TM))*P_a和I＝P*M迭代得到分离矩阵的各行向量P₁…P_n和特征矩阵I，其中P_a为任一选择的一个初始权向量，mean(M)为对M求均值运算，g(M)为求tanh(M)的导数，标准化新向量

本发明的技术构思为：运用一种自适应密度聚类算法对数据集做初始聚类处理，该算法无需预设希望得到的聚类类别数，它能快速且准确地确定聚类中心，有利于帮助本发明算法得到一个客观准确的数据聚类处理结果。不同于现有大部分聚类算法普遍存在聚类质量低、对算法参数依赖较大、聚类类别数和聚类中心无法自动确定等问题，该算法通过分析混合属性数据特征，针对三类数值占优、分类占优和均衡性混合属性数据，选取不同的距离度量方式。画出数据集各个点的密度和距离分布图进行分析，确定奇异点，这些奇异点即为聚类中心。

在本发明设计中，对于聚类完成的每个类在类内降维为线性模型平面，和已得到在高维空间中高维流行的低维表现的数据集的降维，这两种情况下，采用ICA作为降维算法。ICA更能抑制高斯噪声，刻画变量的随机统计特性。且考虑到经典降维算法PCA对于非高斯分布的数据难以识别，因此在众多特征中盲目的选取特征或降维并不一定能得到很好的结果，而利用ICA算法将混合特征进行分离之后再提取显著特征，能更好的分析数据的内在关联。

对每个线性模型平面，采用其聚类中心作为线性模型代表，将所有聚类中心建立一个MST树，实现将拓扑结构中有序排列的线性模型按一定规则连接，为后续不断迭代相邻两个线性模型映射到同一平面构建遍历的骨架。MST的优势在于，遍历起点的选择和当存在多个子节点时遍历顺序的选择，对本发明设计结果的影响为零。选取任意一个树的叶子作为遍历的起点，以任意对每个根节点的子节点的访问顺序进行遍历，只要完成对整个MST的遍历，所得到的流行的内在结构，也就是流行展开操作的结果是相同的。

针对已构建的MST，由于在流行上构建的MST不同于普通二叉树每个节点只有两个子树，因此先序遍历等遍历无法简单快捷的满足本发明方法中根节点需要在访问每个子树之前都被遍历一次的要求，因此设计了一种能够简便遍历含有两个以上子树的MST的方法，该方法实现在遍历过程中能同时对当前和下一个遍历节点进行平行映射。

本发明设计中最重要的降维步骤，将两个线性模型平面旋转到同一平面上，利用平行映射方法，使一个线性模型在映射到另一个线性模型过程的结果不会产生数据内在结构的畸形，极大程度保证了本发明设计方法结果的正确率和可信度。

本发明的有益效果为：正确率较高、可信度较好；用分段线性模型来近似流行。不同于其他方法，这个方法中流行的全局结构可以通过迭代合并相邻局部模型得到，从而得到流行的低维结构。并且本专利采用自适应密度聚类算法建立局部小的模型，方便之后对每个模型的迭代合并，完成对整个流行的遍历，克服了传统的聚类算法存在的聚类中心无法自动确定、参数依赖性大等问题。

附图说明

图1是非线性流行学习降维方法的流程图。

图2是遍历流行的全局MST流程图。

图3是返回映射流程图。

图4是平行映射关系示意图。

图5是遍历流行的全局MST示意图。

图6是瑞士卷数据图。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1～图5，一种基于自适应密度聚类的非线性流行学习降维方法，有高维样本M，M的每一个样本为一个点x，这个点通常是一个数学表示的对象。从嵌入了的低维流行(n<<N)中取样，本发明设计降维算法的目标是找到最接近n维流行的M的样本。

参照图1所示，基于平行映射的非线性流行学习降维方法，所述降维方法包括如下步骤：

1)用聚类方法形成线性模型平面，过程如下：

1.2在每个聚类上运行ICA，将聚类样本映射到(n+1)维且不改变聚类的关联情况，形成局部低维线性模型。对于这个点，数据还是嵌入在N维空间但在聚类的类中是n维的。首先对数据进行标准化和白化处理，设白化矩阵为其中Γ和Λ分别是协方差矩阵E的特征值和特征向量，在这里保留了N维特征向量中特征值从大到小取前n个的n维向量，即对数据M进行了局部模型的降维。白化后的数据集M为M_ICA＝W*M′；

2)建立局部线性模型间的最小穿越树MST，过程如下：

因为数据是目前已是c个线性模型为n维的平面，接下来需要将拓扑结构中有序排列的这些线性模型用N维空间数据构造一个n维的全局流行，首先我们构造一个最小跨越树穿越超平面中心。

2.1计算聚类中心a_i(i＜c)与其余每个聚类中心之间的欧式距离

2.2判断任意三个聚类中心之间是否首尾连接，若三个中心的连边构成环，选取三条边中距离最大的一条去除形成MST。要求MST消除所有首尾连接且连边权重最小；

2.3此时，聚类中心a可以看成MST的一个节点a，而节点之间的连线则为MST的树枝；

3)遍历流行的全局MST，过程如下：

这是算法的主要步骤，基本思想是通过沿着超平面的MST遍历时合并该超平面。在此步骤中遍历的是聚类中心构成的MST节点，映射时应对节点所在的平面的每一个数据点进行操作。该步骤流程图如图2所示。

4)通过在全局超平面上运行ICA找到低维植入，过程如下：

定理1(自适应密度聚类算法)

该算法主要分为初始化、在线处理和离线聚类三个过程，克服了已有混合属性数据流聚类算法聚类精度不高、处理离群点能力差的缺点，能够快速并准确地自动确定聚类中心。

1)找到每个点与其他点的密度ρ_i＝∑_jf(X_ij-X)，其中X为选定的一个点，X_ij为其他所有点，和最短距离值d，以密度和距离作图，图中奇异点作为初始聚类中心进行聚类，获得最初的密集类，所有类的平均半径为初始的r。

2)在线维护过程，过程如下：

2.1当新数据x输入，若与密集类或稀疏类的距离小于r，则该数据对象划归该类中；若不能被已有的类所吸收，则以该点新建一个稀疏类；

2.2当新到达的对象被加入到相应的密集类或稀疏类中，则对相应的类特征向量进行更新；若新数据对象加入的类为稀疏类，则判断该类的密度值Ρ是否大于临界密度值P_thread，若大于，说明该稀疏类已经可作为一个密集类，则该加入到密集类集合中；

2.3密集类衰减为稀疏类的最小时间为检测时间间隔T，

其中P_thread是临界密度值，α为衰减因子。每隔时间T对所有类进行检测，若密集类的密度衰减至小于临界值值，则该密集类退化为离群点噪声，将其删除；

3)离线聚类过程，过程如下：

3.1从在线部分存储的类中寻找到一个密集类，以该类作为聚类的起始点开始聚类；

3.2按照广度优先搜索原则，寻找密集类直接密度可达的新类，然后对新类中的密集类继续进行广度优化搜索，直到所有到类密度可达的类都被搜索为止；

3.3当一次聚类结束时，从剩余的未聚类中找出新的密集类，重复3.1-3.2步骤，若不存在任何未被聚类密集类，则跳到步骤3.4；

3.4输出离线聚类最终的聚类中心数和聚类结果。

定理2(ICA算法)可以去除各个分量的相关性，保证相互统计独立，而且是非高斯分布。因此，ICA相比传统PCA算法虽同属于多变量数据分析方法，但ICA能更加全面揭示数据的内在结构。1)预处理数据，过程如下：

1.1将数据集M进行标准化处理，除去其均值，使其均值为0，得到标准化后的M′；

1.2对处理后的数据X′进行白化处理，主要目的是去除数据的相关性。数据的白化处理可以使随后的计算大为简化，并且还可以压缩数据。设白化矩阵为其中Γ和Λ分别是协方差矩阵E的特征值和特征向量。在本算法中保留了N维特征向量中特征值从大到小取前n个的n维向量时，即对数据M进行了降维；

1.3求出白化矩阵W后，ICA处理后的数据集M为M_ICA＝W*M′；2)迭代得到特征矩阵，过程如下：

2.1选择任意一个初始权向量P_a，使用快速ICA(FastICA)算法对数据进行特征提取。Fast ICA算法是一种快速寻优迭代算法，过程如下；

2.2利用迭代公式P_i＝mean(M*g(P_a ^TM))-(mean(g′(P_a ^TM))*P_a来学习新的向量P_i，其中mean(M)为对M求均值运算，g(M)为求tanh(M)的导数；

2.3标准化新向量

2.4若步骤2.3得到的向量与迭代前的向量P_a方向同向或反向，则得到独立分量I＝P*M，结束迭代，否则P作为P_a返回步骤2.2；

2.5直到已求出前n个独立向量I₁…I_n，构成新的特征矩阵I。

定理3(MST最小生成树)由很多子平面——子平面可能也是个树，构成无指向的图，所有顶点都是通过连边权重的最小和连接在一起。它避开分支间的联通捷径，且不构成圆圈，让它可以有序遍历每个子平面并按目标每个节点至少遍历一次。

1.1计算n×n的矩阵D(i，j)＝d(x_i，x_j)，d是x_i、x_j的欧式距离；

1.2构造MST的矩阵S＝{D_new}，S是通过减去一些连边值判断三个节点之间是否成环，若成环，则删除一条连边，删除连边d遵循使MST连边权重最小原则；

1.3判断是否检查过所有节点间是否成环，若没有，返回步骤1.2；若已对所有节点组合可能判断成环，输出矩阵S。

定理4(前向映射和返回映射)：遍历流行的全局MST流程图如图2所示，其中返回映射的详细流程在图3中说明。

在遍历过程中需要考虑两种情况：

1)前向映射

当从一个线性模型P_pre到另一个线性模型P_new时，若新的线性模型P_new还没被遍历过，我们要将之前访问P_pre的映射到这个线性模型的平面P_new。

1.1使用平行映射，将已经访问过的线性模型按新的线性模型排列；

1.2这种旋转和映射应该对所有之前访问的线性模型都施行。

2)返回映射

若这个超平面已经访问过，我们要把已经过映射到当前P_new所在平面的所有线性模型旋转回到P_pre原始所在的平面，返回映射流程图如图3所示。

2.1如果线性模型已经访问过我们就不用考虑平行映射的问题，我们只需找到P′_a旋转矩阵Φ将P_a旋转到P′_a，因为两个样本集不会改变，之前的映射步骤也没有使样本集变形，我们在两个线性模型的样本集上运行普氏分析，找到转化向量和旋转矩阵Φ让经过平行映射后基向量矩阵旋转过的线性模型旋转回原本的基向量矩阵方向；

2.2得到旋转后的线性模型P′＝P′Φ+v，转化向量v＝X_Pmean-ΦX′_Pmean，其中X_Pmean和X′_Pmean分别为P_a和P′_a时数据的均值点；

2.3这种旋转同前向映射一样，也应该对所有之前遍历过的线性模型都施行。

定理5(平行映射)：平行映射关系示意图如图4所示，P_pre为一个线性模型平面，P_new为另一个线性模型平面，n_pre为线性模型平面P_pre的法向量，P_new为线性模型平面a₂的法向量，为了将P_pre映射到P_new所在的平面，我们就需要使n_pre与n_new的角度变为0，使得P_pre旋转到P_new所在的平面上，得到平面P′_pre，即为旋转之后的线性模型平面P_pre，n′_pre为平面P′_pre的法向量，即与n_new平行。

在本发明设计中，已经访问的线性模型为P_pre，新线性模型为P_new。我们希望让P_pre与P_new平行，因此通过找到旋转矩阵Φ，将P_pre基向量U_pre的轴心旋转，以契合P_new的基向量Φ_new。为了确保在旋转时其它线性模型不会被改变，因此需要对每个线性模型都构造一个轴心矩阵U。

1.由于线性模型的轴类似基向量，基向量矩阵U有(n+1)维向量组成，基向量矩阵用U＝{u₁，…，u_n，u_n+1}近似构造，这确保旋转只在标准向量的指示下发生，找到P_pre的目前的聚类中心a值；

2.需要求出旋转矩阵Φ将P_pre基向量矩阵匹配P_new到上。使用奇异值分解(Singular Value Decomposition，SVD)的方法优化，如果的SVD是Y∑V^T，那么Φ＝YV^T；

3.代入公式P′_pre＝P_preΦ实现旋转；

4.现在两个线性模型已经平行，更新P_pre的基向量U_pre＝U_preΦ，更新后的U取前n维，U_new为P_new的基向量，然后将P′_pre投射到P_new。

P′_pre＝P′_preU_newU^T _new+(a-(aU_newU^T _new))

以下对定理4结合定理5在遍历过程中对各线性模型操作做详细解释：

如图5所示，是对MST遍历中出现返回映射的情况的举例，假设存在流行为一个球体，在第一步的过程中，通过自适应密度聚类算法把它分为6个曲面，再通过ICA算法得到6个线性模型平面，即如图的立方体，a₁～a₆为以6个平面的聚类中心构成MST的节点。若如图⑥所示，在遍历过程中如a₃节点存在多个子树的情况时：

1：如图①所示，聚类中心a₁所在的线性模型平面前向映射聚类中心a₂所在的线性模型平面上；

2：如图②所示，聚类中心a₁与a₂所在的线性模型平面组成的平面前向映射到聚类中心a₃所在的平面上；

3：如图③所示，在聚类中心a₃出存在两个子树，在这里先选择遍历a₄，将聚类中心a₁，a₂，a₃所在的线性模型平面前向映射到聚类中心a₄所在的线性模型平面上；

4：如图④所示，由于聚类中心a₄为叶子节点，即没有子节点，因此需要访问a₃的另一个子树a₅，此处先将聚类中心a₁，a₂，a₃，a₄所在的线性模型平面返回映射到原来a₃节点所处的平面上；

5：如图⑤所示，将返回映射后的聚类中心a₁，a₂，a₃，a₄所在的线性模型平面前向映射到聚类中心a₅所在的线性模型平面上。

下面以实例解释本发明的应用：

若如图6所示为三维空间中的瑞士卷数据，该瑞士卷由二维的平面卷曲形成三维空间中的流行，而本发明需要做的就是将三维空间的瑞士卷展开成二维平面，这个二维平面也就是所谓的流行的内在结构。

1)用用自适应密度聚类算法聚类后，找到瑞士卷上数据的分类，并可以自动确定聚类个数，将瑞士卷分为不同的类区域；用ICA对每个聚类降维的步骤实际上是将每个类先由三维降至二维，形成线性模型平面。经过第一步后，瑞士卷由一个光滑曲面变为一个由一个个小平面拼成的卷；

2)建立局部线性模型间的最小穿越树MST是将每个小平面根据它的聚类中心构成一个树的框架，这一步是建立面与面之间的关系；

3)遍历流行的全局MST，沿着MST的框架将一个平面映射到另一个平面上，也就是两个平面平行，在之后的迭代中，不断把之前已经遍历过的已经映射合并为整块的平面映射到新的小平面的方向上，当遍历完所有的小平面后，流行形成一整个二维的平面，但这个平面的空间位置仍在最后遍历的这一平面上，因此是在三维空间中的二维平面；

4)通过在全局超平面上运行ICA再对三维空间的二维平面降维，将二维平面在二维空间中显示，也就真正实现了对数据三维到二维的降维。

对于瑞士卷的数据集来说，只是由三维降到二维的降维应用，若现实生活中的图像具有32×32的像素，则该数据集的每个样本点有1024的信息维度，也就是这个数据集为高维数据集。在这样高维图像的降维中，我们同样可以通过本发明方法对数据降维，提取关键特征数据，将高维数据降维到低维数据，本发明方法的降维将大大简化后续的聚类等数据分析过程。

Claims

1.一种基于自适应密度聚类的非线性流行学习降维方法，其特征在于：有高维样本M，M的每一个样本为一个点x，目标是找到N维流行中流行为M的n维内在结构的样本，n<<N；所述降维方法包括以下步骤：

1)用聚类方法形成线性模型平面，过程如下：

1.2在每个类簇上运行ICA，对数据进行标准化和白化处理，设白化矩阵为其中Γ和Λ分别是协方差矩阵E的特征值和特征向量，在这里保留了N维特征向量中特征值从大到小取前n个的n维向量，即对数据M进行了局部模型的降维；白化后的数据集M为M_ICA＝W*M′；

2)建立局部线性模型间的最小穿越树MST，过程如下：

2.1计算聚类中心a_i与其余每个聚类中心之间的欧式距离

3)遍历流行的全局MST，过程如下：

4)通过在全局超平面上运行ICA找到低维植入，过程如下：