CN102682089A

CN102682089A - 一种利用鉴别随机邻域嵌入分析的数据降维方法

Info

Publication number: CN102682089A
Application number: CN2012101224570A
Authority: CN
Inventors: 郑建炜; 邱虹; 王万良; 蒋一波; 陈旻昊
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2012-04-24
Filing date: 2012-04-24
Publication date: 2012-09-19

Abstract

一种利用鉴别随机邻域嵌入分析的数据降维方法，包括以下步骤：(1)待降维数据输入：输入数据矩阵X＝[x₁，x₂，...，x_N]及其类别标签，方差参数λ以及最大迭代次数Mt；(2)对输入的数据进行初始化；(3)利用映射模块进行数据建模：依据子空间的样本相似度和类别标签计算联合概率q_ij，通过KL散度制定目标代价函数，在此目标函数下，通过经典的共轭梯度法更新变换矩阵A^t进行迭代求解，其中C(A)针对A的梯度；输出最终投影矩阵：如果步骤B中包含主成分分析的预处理步骤则输出的投影矩阵为A^tW，否则输出A^t。本发明是线性有监督的、可通过类别信息提升算法的可视化性能和判别能力。

Description

一种利用鉴别随机邻域嵌入分析的数据降维方法

技术领域

本发明涉及信号处理、机器学习、模式识别和人工智能领域，尤其是一种数据降维方法。

背景技术

数据降维方法是运用计算机图形学和特征提取技术，挖掘高维数据的低维本质表达，并进行交互处理的理论、方法和技术。数据降维方法的基本原理按一般降维方法所必需的过程可划分为“数据预处理”、“映射”、“绘制显示”或“特征表达”几个步骤，即先将所采集的模拟数据和实测数据进行预处理及存储，然后利用映射模块完成将多维数据转变成本质表达的功能，接着通过绘制功能将几何数据转换成图像或者进行本质特征的后续处理。其中映射功能实质上完成的是数据建模功能，是数据降维方法的核心。因此，优秀的数据建模是数据降维方法的关键。

传统的数据降维方法，大致可归为以下5类：①用多个子窗口分别表示数据维的不同组合，如散列图矩阵(scatterplot matrices)和面向像素技术(pixel-oriented techniques)；②在低维空间中对所有的数据维进行重新排列，如星型坐标系(star coordinates)和平行坐标系(parallel coordinates)；③按照所有的数据维对低维空间进行层次划分，如dimensional stacking和他treemap；④采用具有多个可视特征的图标(icon)，每个可视特征都可以代表一个数据维，如Chemoff-faces和stick figures；⑤将数据映射到低维空间中，尽可能保持数据间的某种关系不变，如PCA(principal component analysis)，MDS(multi-dimensional，scaling)，SOM(self-organizingmap)，ISOMAP，LLE(locally linear embedding)，SNE(stochastic neighbor embedding)、t-SNE等。相比而言，降维映射方法能更好地展现数据的本质结构，本发明提出的方法就属于这一类。

经专利查询统计，国内外已有不少数据降维方法方面的专利：例如，用于近似查询的长序列数据降维方法(200710303987.4)、一种基于规则邻域的数据降维方法(200810063304.7)、一种基于因子分析模型的高光谱数据降维方法(200910078443.1)等。

发明内容

为了克服已有降维映射方法非线性本质和无监督学习特征的不足，本发明提供一种线性有监督的、可通过类别信息提升算法的可视化性能和判别能力的利用鉴别随机邻域嵌入分析的数据降维方法。

本发明解决其技术问题所采用的技术方案是：

一种利用鉴别随机邻域嵌入分析的数据降维方法，包括以下步骤：

(1)待降维数据输入：输入数据矩阵X＝[x₁，x₂，...，x_N]及其类别标签，方差参数λ以及最大迭代次数Mt；

(2)对输入的数据进行初始化：

2.1)根据X计算输入样本间两两欧式距离；

2.2)依据原空间的样本相似度和类别标签计算联合概率p_ij：

p_{ij} = \{\begin{matrix} \frac{\exp (- {| | x_{i} - x_{j} | |}^{2} / 2 λ^{2})}{Σ_{c_{k} = c_{l}} \exp (- {| | x_{k} - x_{l} | |}^{2} / 2 λ^{2})} if c_{i} = c_{j} \\ \frac{\exp (- {| | x_{i} - x_{j} | |}^{2} / 2 λ^{2})}{Σ_{c_{k} &NotEqual; c_{m}} \exp (- {| | x_{k} - x_{m} | |}^{2} / 2 λ^{2})} else \end{matrix}

其中，x₁ ¹，x₂ ¹，...，x_N1 ¹，x₁ ²，x₂ ²，...，x_N2 ²，...，x₁ ^C，x₂ ^C，...，x_NC ^C为给定的类别标签样本，而x_i ^c代表第c类的第i个样本，样本总类别数为C，c_i表示样本x_i的类别标签；

2.3)如果原输入数据X维度高于设定值，则对X进行主成分分析，得到投影矩阵W，反之忽略此步骤；

2.4)初始化变换矩阵A⁰，其元素满足(0，1)高斯分布；

(3)利用映射模块进行数据建模：

3.1)依据子空间的样本相似度和类别标签计算联合概率q_ij：

q_{ij} = \{\begin{matrix} \frac{{(1 + {| | y_{i} - y_{j} | |}^{2})}^{- 1}}{Σ_{c_{k} = c_{l}} {(1 + {| | y_{k} - y_{l} | |}^{2})}^{- 1}} if c_{i} = c_{j} \\ \frac{{(1 + {| | y_{i} - y_{j} | |}^{2})}^{- 1}}{Σ_{c_{k} &NotEqual; c_{m}} {(1 + {| | y_{k} - y_{m} | |}^{2})}^{- 1}} else \end{matrix}

3.2)通过KL散度制定目标代价函数为：

\min C (A) = \underset{c_{i} = c_{j}}{Σ} p_{ij} \log \frac{p_{ij}}{q_{ij}} - \underset{c_{i} &NotEqual; c_{k}}{Σ} p_{ik} \log \frac{p_{ik}}{q_{ik}}

3.3)在此目标函数下，通过经典的共轭梯度法更新变换矩阵A^t进行迭代求解，其中C(A)针对A的梯度为：

\frac{dC (A)}{d (A)} = 2 A {\underset{c_{i} = c_{j}}{Σ} u_{ij} (x_{i} - x_{j}) {(x_{i} - x_{j})}^{T} - \underset{c_{l} &NotEqual; c_{m}}{Σ} u_{lm} (x_{l} - x_{m}) {(x_{l} - x_{m})}^{T}}

= 4 A {\underset{c_{i} = c_{j}}{Σ} u_{ij} x_{i} {x_{i}}^{T} - \underset{c_{i} = c_{j}}{Σ} u_{ij} x_{i} {x_{j}}^{T} + \underset{c_{l} &NotEqual; c_{m}}{Σ} u_{lm} x_{l} {x_{m}}^{T} - \underset{c_{l} &NotEqual; c_{m}}{Σ} u_{lm} x_{l} {x_{m}}^{T}}

= 4 A {X (D^{in} - U^{in} + D^{ou} - U^{ou}) X^{T}}

其中对角矩阵Dⁱⁿ，D^ou中的元素由相应Uⁱⁿ和U^ou的每列和组成，即

且

几个辅助变量为：

w_ij＝[1+(x_i+x_j)^TA^TA(x_i-x_j)]^-1

u_ij＝(p_ij-q_ij)wij

u_{ij}^{in} = \{\begin{matrix} u_{ij} & if c_{i} = c_{j} \\ 0 & else \end{matrix}

u_{ij}^{ou} = \{\begin{matrix} u_{ij} & if c_{i} &NotEqual; c_{j} \\ 0 & else \end{matrix}

(4)输出最终投影矩阵：如果步骤B中包含主成分分析的预处理步骤则输出的投影矩阵为A^tW，否则输出A^t。

本发明的技术构思：随机近邻嵌入(Stochastic NeighborEmbedding，SNE)是由Geoffrey Hinton等人提出的一种新降维分析方法。SNE将高维数据间的欧式距离转化为概率表达形式，其目标泛函构建准则要求子空间与原输入空间具有相同的概率分布形式。Laurens等人提出了改进的t分布SNE(t-SNE)，采用具有对称性的联合概率表达替代SNE中的条件概率形式，并在子空间中引入t分布表现两两样本间的相似度。SNE和t-SNE在数据可视化方面具有独特的优势，但仍然存在着两个固有的缺陷：首先是SNE和t-SNE都属于非线性降维算法，没有明确的投影矩阵，因此其“样本外问题”还有待解决；其次是SNE和t-SNE都属于无监督学习方法，缺少类别信息的指导，并不适合于模式判别任务。

利用鉴别随机邻域嵌入分析的数据降维方法通过引入类别标签，分别构建了原始输入数据和子空间数据的近邻联合概率表达方式，并通过投影矩阵A建立两个空间的线性关系。利用鉴别随机邻域嵌入分析的数据降维方法不仅有效地保持了t-SNE的本质特征，而且通过类别信息提升了算法的可视化性能和判别能力。

本发明的有益效果是：1)引入类别信息后，利用鉴别随机邻域嵌入分析的数据降维方法在数据可视化过程中能够有效展开高维数据，而SNE和t-SNE等无监督降维算法却容易导致降维后数据过于拥挤；2)ISOMAP和LLE等无监督算法都无法使子空间数据正确分簇，而且都是非线性降维算法，限制了其分类应用的能力；3)利用鉴别随机邻域嵌入分析的数据降维方法在保持SNE和t-SNE优势的同时引入了线性思想和类别信息所具有的良好子空间判别能力。

附图说明

图1是各算法对Helix数据降至2维的可视化效果对比，其中，a是Original Helix算法；b是DSNE算法；c是SNE算法，d是t-SNE算法；e是ISOMAP算法，f是LLE算法；g是LTSA算法。

图2是各算法对Twinpeaks数据降至2维的可视化效果对比，其中，a是Original Twinpeaks算法；b是DSNE算法；c是SNE算法，d是t-SNE算法；e是ISOMAP算法，f是LLE算法；g是LTSA算法。

图3是利用鉴别随机邻域嵌入分析的数据降维方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图3，一种利用鉴别随机邻域嵌入分析的数据降维方法，包括以下步骤：

(1)待降维数据输入：输入数据矩阵X＝[x₁，x₂，...，x_N]及其类别标签，方差参数λ以及最大迭代次数Mt。

(2)对输入的数据进行初始化：

2.1)根据X计算输入样本间两两欧式距离；

2.2)依据原空间的样本相似度和类别标签计算联合概率p_ij：

p_{ij} = \{\begin{matrix} \frac{\exp (- {| | x_{i} - x_{j} | |}^{2} / 2 λ^{2})}{Σ_{c_{k} = c_{l}} \exp (- {| | x_{k} - x_{l} | |}^{2} / 2 λ^{2})} if c_{i} = c_{j} \\ \frac{\exp (- {| | x_{i} - x_{j} | |}^{2} / 2 λ^{2})}{Σ_{c_{k} &NotEqual; c_{m}} \exp (- {| | x_{k} - x_{m} | |}^{2} / 2 λ^{2})} else \end{matrix}

2.3)对X进行主成分分析，得到投影矩阵W(可选)；

2.4)初始化变换矩阵A⁰，其元素满足(0，1)高斯分布。

(3)利用映射模块进行数据建模：

3.1)依据子空间的样本相似度和类别标签计算联合概率q_ij：

q_{ij} = \{\begin{matrix} \frac{{(1 + {| | y_{i} - y_{j} | |}^{2})}^{- 1}}{Σ_{c_{k} = c_{l}} {(1 + {| | y_{k} - y_{l} | |}^{2})}^{- 1}} if c_{i} = c_{j} \\ \frac{{(1 + {| | y_{i} - y_{j} | |}^{2})}^{- 1}}{Σ_{c_{k} &NotEqual; c_{m}} {(1 + {| | y_{k} - y_{m} | |}^{2})}^{- 1}} else \end{matrix}

3.2)通过KL散度制定目标代价函数为：

\min C (A) = \underset{c_{i} = c_{j}}{Σ} p_{ij} \log \frac{p_{ij}}{q_{ij}} - \underset{c_{i} &NotEqual; c_{k}}{Σ} p_{ik} \log \frac{p_{ik}}{q_{ik}}

\frac{dC (A)}{d (A)} = 2 A {\underset{c_{i} = c_{j}}{Σ} u_{ij} (x_{i} - x_{j}) {(x_{i} - x_{j})}^{T} - \underset{c_{l} &NotEqual; c_{m}}{Σ} u_{lm} (x_{l} - x_{m}) {(x_{l} - x_{m})}^{T}}

= 4 A {\underset{c_{i} = c_{j}}{Σ} u_{ij} x_{i} {x_{i}}^{T} - \underset{c_{i} = c_{j}}{Σ} u_{ij} x_{i} {x_{j}}^{T} + \underset{c_{l} &NotEqual; c_{m}}{Σ} u_{lm} x_{l} {x_{m}}^{T} - \underset{c_{l} &NotEqual; c_{m}}{Σ} u_{lm} x_{l} {x_{m}}^{T}}

= 4 A {X (D^{in} - U^{in} + D^{ou} - U^{ou}) X^{T}}

且

几个辅助变量表达为：

w_ij＝[1+(x_i+x_j)^TA^TA(x_i-x_j)]^-1

u_ij＝(p_ij-q_ij)w_ij

u_{ij}^{in} = \{\begin{matrix} u_{ij} & if c_{i} = c_{j} \\ 0 & else \end{matrix}

u_{ij}^{ou} = \{\begin{matrix} u_{ij} & if c_{i} &NotEqual; c_{j} \\ 0 & else \end{matrix}

效果测试：采用Helix和Twinpeaks两种合成数据进行可视化降维效果对比，每组数据都由1600个样本点构成，原空间维度为3。其中Helix的生成函数为：t＝2π×[1：n]’/n ；X＝[(2+cos(8t)).×cos(t)(2+cos(8t)).×sin(t)sin(8t)]+0.05randn(n，3)；Twinpeaks的生成函数为：t＝(1-2rand(2，n))’；X＝[t；sin(π×t(1，：)).×tanh(3*t(2，：))]’+0.05randn(n，3)；X(：，3)＝10X(：，3)。

除利用鉴别随机邻域嵌入分析的数据降维方法外，对比算法还包括SNE，tSNE，ISOMAP，LLE以及LTSA几个算法用于效果展示，各种算法的具体配置参数如表1所示，其中perp代表SNE和t-SNE算法中的复杂度因子。

表1各算法在可视化对比中的参数配置

图1和图2分别是Helix和Twinpeaks样本集在不同算法作用下降至2维时的可视化结果。从中可见，SNE和t-SNE并不能重现原始样本集的主流形；ISOMAP和LTSA虽然基本反映了高维数据的主要分布结构(Helix中的圆环和Twinpeaks中的五簇)，但是在同簇内的细节表达较为失败，没有正确展开。LLE对Helix的降维结果虽然基本反映了原数据的分布流形，但却丢失了原有的样本对称结构，而在Twinpeaks可视化结果中，LLE能够正确展开原数据的分布流形，但由于缺少类别信息，导致结果中两类样本出现了部分的混叠。只有利用鉴别随机邻域嵌入分析的数据降维方法对两类数据进行了正确降维投影，不仅保持了数据分布的主流形，且各分簇间的异类样本混叠较少，反映了鉴别性和线性降维的优势。

Claims

1.一种利用鉴别随机邻域嵌入分析的数据降维方法，其特征在于：包括以下步骤：

(2)对输入的数据进行初始化：

2.1)根据X计算输入样本间两两欧式距离；

2.2)依据原空间的样本相似度和类别标签计算联合概率p_ij：

p_{ij} = \{\begin{matrix} \frac{\exp (- {| | x_{i} - x_{j} | |}^{2} / 2 λ^{2})}{Σ_{c_{k} = c_{l}} \exp (- {| | x_{k} - x_{l} | |}^{2} / 2 λ^{2})} if c_{i} = c_{j} \\ \frac{\exp (- {| | x_{i} - x_{j} | |}^{2} / 2 λ^{2})}{Σ_{c_{k} &NotEqual; c_{m}} \exp (- {| | x_{k} - x_{m} | |}^{2} / 2 λ^{2})} else \end{matrix}

2.4)初始化变换矩阵A⁰，其元素满足(0，1)高斯分布；

(3)利用映射模块进行数据建模：

3.1)依据子空间的样本相似度和类别标签计算联合概率q_ij：

q_{ij} = \{\begin{matrix} \frac{{(1 + {| | y_{i} - y_{j} | |}^{2})}^{- 1}}{Σ_{c_{k} = c_{l}} {(1 + {| | y_{k} - y_{l} | |}^{2})}^{- 1}} if c_{i} = c_{j} \\ \frac{{(1 + {| | y_{i} - y_{j} | |}^{2})}^{- 1}}{Σ_{c_{k} &NotEqual; c_{m}} {(1 + {| | y_{k} - y_{m} | |}^{2})}^{- 1}} else \end{matrix}

3.2)通过KL散度制定目标代价函数为：

\min C (A) = \underset{c_{i} = c_{j}}{Σ} p_{ij} \log \frac{p_{ij}}{q_{ij}} - \underset{c_{i} &NotEqual; c_{k}}{Σ} p_{ik} \log \frac{p_{ik}}{q_{ik}}

\frac{dC (A)}{d (A)} = 2 A {\underset{c_{i} = c_{j}}{Σ} u_{ij} (x_{i} - x_{j}) {(x_{i} - x_{j})}^{T} - \underset{c_{l} &NotEqual; c_{m}}{Σ} u_{lm} (x_{l} - x_{m}) {(x_{l} - x_{m})}^{T}}

= 4 A {\underset{c_{i} = c_{j}}{Σ} u_{ij} x_{i} {x_{i}}^{T} - \underset{c_{i} = c_{j}}{Σ} u_{ij} x_{i} {x_{j}}^{T} + \underset{c_{l} &NotEqual; c_{m}}{Σ} u_{lm} x_{l} {x_{m}}^{T} - \underset{c_{l} &NotEqual; c_{m}}{Σ} u_{lm} x_{l} {x_{m}}^{T}}

= 4 A {X (D^{in} - U^{in} + D^{ou} - U^{ou}) X^{T}}

且

几个辅助变量为：

w_ij＝[1+(x_i+x_j)^TA^TA(x_i-x_j)]^-1

u_ij＝(p_ij-q_ij)w_ij

u_{ij}^{in} = \{\begin{matrix} u_{ij} & if c_{i} = c_{j} \\ 0 & else \end{matrix}

u_{ij}^{ou} = \{\begin{matrix} u_{ij} & if c_{i} &NotEqual; c_{j} \\ 0 & else \end{matrix}