CN106055645A

CN106055645A - 一种用于高维数据分析的维度重要性评估方法

Info

Publication number: CN106055645A
Application number: CN201610377043.0A
Authority: CN
Inventors: 刘腾; 张怡; 李克非
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-05-30
Filing date: 2016-05-30
Publication date: 2016-10-26

Abstract

本发明涉及一种用于高维数据分析的维度重要性评估方法：对于高维数据每一维度利用高斯核密度估计计算每一维度中数据点的密度，并绘制密度曲线；求密度曲线的最大值和局部极小值之间的差值；以所求得的各个差值的均值来作为衡量维度重要性的标准；在计算出每一维度的重要性quality之后，按照其quality值的大小将所有维度进行重排序，quality值越大的排在前面，越小的排在后面，排在前面的维度是比较重要的。本发明达到降维的目的，又可以保留原始数据，提高对于高维数据分析的效率。

Description

一种用于高维数据分析的维度重要性评估方法

技术领域

本发明属于高维可视分析领域，涉及一种维度重要性的分析方法，并且用于维度排序，筛选出重要维度，方便用户分析高维数据。

背景技术

随着信息技术的高速发展，产生了大量的结构繁多、数目巨大的高维数据，这些高维数据加大了我们对于它们的理解难度，但是通过将其转化为可视化图形，可以帮助我们理解这些数据，发掘其中有价值的信息，因此高维数据可视化变得越来越重要。目前，高维数据的可视化方法主要分为降维方法和非降维方法两大类。降维方法是将高维数据投影到低维空间，尽量保留高维空间中原有的特性和聚类关系，主要包括主成分分析(PrincipleComponent Analysis，PCA)、多维尺度分析(Multi-Dimensional Scaling，MDS)、自组织图(Self-Organization Map，SOM)等。降维的可视化方法虽然能够很好地将高维数据通过投影的方法在低维空间中呈现出来，但是它却失去了原始数据本身的意义。虽然也能表现出数据之间的联系，但是我们投影之后很可能已经丢失了数据中的一些很重要和有价值的东西。非降维的方法则保留了数据在各个维度上的信息，常用的是平行坐标(Parallelcoordinates)和散点图(Scatter plot)。这两种非降维方法可以在保留原始数据的情况下很好的展示高维数据，且能够简单表现出维度之间的关系。但是，由于高维数据维数多、数据规模大，在图形上表示这些数据时容易产生混乱，且单条数据选择困难，这样也不利于我们分析数据。

现有的高维数据可视化方法，无论是降维的还是非降维的，都有其自身的局限性，降维的方法可以帮助减少维度，降低数据的复杂性，但是它却改变了原始的数据，丢失了其本身的意义，会导致一些有价值的东西流失。而对于非降维及其改进的方法，虽然可以在一定程度上帮助人们分析数据相关性，发现其中的一些结构，但是在这些分析的数据维度中可能有一些维度是不重要、没有意义的，如果能够筛选出这样的维度就可以更加有效的帮助用户分析高维数据，避免了时间的浪费。于是，本发明的目的

发明内容

本发明的目的在于克服降维和非降维的一些缺点，提供一种维度重要性的分析方法，筛选出重要的维度，既达到降维的目的，又可以保留原始数据，提高对于高维数据分析的效率，而且对于相关性不明显的数据集同样有效。本发明的技术方案如下：

一种用于高维数据分析的维度重要性评估方法，步骤如下：，

(1)对于高维数据的某个维度为d＝{x₁,x₂,x₃,...x_n}，利用高斯核密度估计计算每一维度中数据点的密度f(x)，并绘制密度曲线：

f (x) = \frac{1}{\sqrt{2 π} \cdot n \cdot h} Σ_{i = 1}^{n} e^{- \frac{1}{2} {(\frac{x - x_{i}}{h})}^{2}} - - - (1)

其中π和e为常数，n为数据集中数据的个数，x是要估计的数据点，x_i是样本数据点，其中i的取值为1～n，h为窗宽，h越小则密度曲线波动较大，h越大则密度曲线越平滑；

(2)求密度曲线的最大值和局部极小值之间的差值，差值越大则说明数据集中分布在某个区间内，差值越小则说明数据分布越均匀，每一个区间内数据量都差不多：

Difference(d)＝(H₁-H₂)/H₁ (2)

其中Difference(d)代表维度d的密度曲线的最大值和局部极小值的差值，H₁是该密度曲线的最大值，H₂是该密度曲线的局部极小值，当密度曲线较平滑时，局部极小值数目较少，当密度曲线波动较大时，局部极小值数目则较多；

(3)以所求得的各个差值的均值来作为衡量维度d重要性的标准，记为quality(d)，quality(d)值越大则说明此维度越重要；

(4)在计算出每一维度的重要性quality之后，按照其quality值的大小将所有维度进行重排序，quality值越大的排在前面，越小的排在后面，排在前面的维度是比较重要的，从而可以筛选出比较重要的维度。

对步骤1中的参数h进行估计的步骤如下：

(1)求出维度d＝{x₁,x₂,x₃,...x_n}的数据样本的标准差δ；

(2)给出一个与数据样本的标准差和样本大小相关的h的公式这里a是一个常数，取值范围是0～1；

(3)根据步骤(2)中给出的关于h的定义选择合适的a估计h值；

(4)求出该维度数据样本点的密度，并绘制相应的密度曲线；

(5)检查密度曲线中是否存在局部极小值，若不存在，则选取一个较小的a值来重新估计h值，反之，保留该h值；

(6)重复步骤(4)-(5)直到得到合适的h值。

本发明是基于维度特征分析的，主要是将维度重要性用于可视分析，可以帮助筛选出没有意义的维度，这样我们便可以不用对这样的维度做进一步分析，而对于非常重要的维度我们要可以着重的进行分析。与传统的降维方法和相关性分析方法相比，本发明通过维度筛选来“降维”，并且可以保留原始数据，对于那些相关性不明显的数据集，此方法可以帮助用户分析重要性，而单纯的相关性分析方法则帮助不大。

附图说明

图1是本发明的整体流程图；

图2(a)为h取较大值时的密度曲线；

图2(b)为h取较小值时的密度曲线；

图3是汽车(car)数据集中的两个维度马力(power)和重量(weight)的重要性评估示例图；

图3(a)是属性马力(power)在时的维度重要性示例图；

图3(b)是属性重量(weight)在时的维度重要性示例图；

图3(c)是属性马力(power)在时的维度重要性示例图；

图3(d)是属性重量(weight)在时的维度重要性示例图；

图4(a)为汽车(car)数据集在排序之前的维度序列图；

图4(b)为汽车(car)数据集在时按维度重要性从大到小排序之后的维度序列图；

图5(a)为房子数据集(Housing Data Set)在排序之前的维度序列图；

图5(b)为房子数据集(Housing Data Set)在时按维度重要性从大到小排序之后的维度序列图。

具体实施方式

本发明主要用于高维数据的分析，基于维度分析提出一种维度重要性评估方法，计算出每一维度的一个重要性，然后按照重要性从大到小将维度重新排序，以便筛选出重要的和非重要的维度，到达“降维”的效果。

给出一种认为维度的重要性和它的数据分布特征是有一定关系的，一个聚集分布的数据集要比一个均匀分布的数据集更重要，基于这个观点我们给出一个计算维度重要性的具体步骤，并且按照维度重要性从大到小将维度重新排序，进行维度筛选，筛选出不重要的维度，对于那些重要的维度我们便可以对其作进一步的分析。

图1为总的流程图，具体包括以下步骤：

1.维度重要性评估

维度质量评估是本发明最重要的部分，它主要基于维度数据的分布。我们认为聚集分布的数据集要比均匀分布的数据集更重要。基于这个思想，我们给出维度质量的计算步骤如下。

(1)我们首先绘出维度数据的密度图，这样我们便可以清楚的看出数据的聚集程度，判断一个维度数据呈均匀分布还是聚集分布。计算数据集密度最常用的就是核密度估计法，于是这里我们使用核密度估计来计算每一维度数据的密度，并绘制每一维度的密度曲线。

f (x) = \frac{1}{\sqrt{2 π} \cdot n \cdot h} Σ_{i = 1}^{n} e^{- \frac{1}{2} {(\frac{x - x_{i}}{h})}^{2}}

这里选用的是高斯核，其中π和e为常数，n为数据集中数据的个数，x是要估计的数据点，x_i是样本数据点，其中i的取值为1～n。h为窗宽，而且这里的h是一个参数，需要我们来估计，它的取值大小直接影响到我们得到的密度曲线，一般h越大则密度曲线越平滑，h越小则密度曲线会有较大的波动，出现多个波峰和波谷(如图2(a)和图2(b)所示)。h的取值应该根据数据样本的大小和样本数据值来确定，因此这里我们定义一个与数据样本的数目和标准差相关的h。

h = a \times δ \times n^{- \frac{1}{5}},

其中δ为数据样本标准差(计算公式如下)，n为样本个数，a是一个常数，它的值取为0～1。

σ = {(\frac{1}{n} Σ_{i = 1}^{n} {(x_{i} - u)}^{2})}^{\frac{1}{2}}

其中n为样本点的数目，x_i为每一个样本点，i取值为1～n，u为样本点的均值，

(2)求密度曲线的最大值和局部极小值之间的差值，差值越大则说明数据集中分布在某个区间内，差值越小则说明数据分布越均匀，每一个区间内数据量都差不多。由于每一维度的数量级不同，因此我们需要对这个差值做一下归一化处理，这里我们用差值与最大值的比来作为衡量最大值与局部极小值之间差值的标准。

Difference(m)＝(H₁-H₂)/H₁

其中Difference(m)代表维度m的密度曲线的最大值和局部极小值的差值，取值范围为0～1，H₁是密度曲线的最大值，H₂是密度曲线的局部极小值，一般有一个或多个。当密度曲线较平滑时，局部极小值数目较少，当密度曲线波动较大时，局部极小值数目则较多。

(3)求步骤(2)中所有差值的均值作为衡量每一维度质量的标准。

q u a l i t y (s) = \frac{1}{N} Σ_{i = 1}^{N} d i f f e r e n c e (m_{i})

其中quality(s)为维度s的质量，取值范围为0～1，N为局部极小值的个数，difference(m_i)为维度m的最大值与每个局部极小值之间的差值，i取值为1～N。

在维度质量评估的整个过程中有一个参数h需要估计，我们将其定义为因此我们只需估计系数a即可，它的取值为0～1，当它取值较大时，密度曲线会比较平滑，这样便会导致没有局部极小值，只有最大值，此时计算出的维度质量为1，是一个错误的结果，因此我们尽量取较小的a值，即使这样也可能会造成误差，于是我们检验每一维度的质量值，如果有质量值为1便重新估计h值，重新计算维度质量，直到没有误差为止。

实例1：汽车(car)数据集是我们在研究高维数据时经常选用的数据集，它包括7个属性和406条数据，这里我们选取其中的两个属性来计算它们的重要性。图3给出了汽车(car)数据集中的两个属性马力(power)和重量(weight)在h取不同值时的重要性评估示例图，其中图3(a)和图3(b)是马力(power)和重量(weight)在时的维度重要性示例图，在图3(a)中马力(power)有一个最大值和一个局部极小值，而在图3(b)中重量(weight)只有一个最大值，没有局部极小值，利用我们上述的公式计算两个维度的质量如下：

q u a l i t y (^{''} {power}^{''}) = \frac{H_{1} - H_{2}}{H_{1}} = 0.72

q u a l i t y (^{''} {weight}^{''}) = \frac{H_{1} - 0}{H_{1}} = 1

由计算结果我们也可以看出quality("weight")＝1，因此根据我们的方法，这个结果是错误的，由于h取值过大导致密度曲线过于平滑而没有局部极小值，我们再重新估计h值，将h的值取得小一些，然后重新计算维度的质量。于是我们取此时马力(power)和重量(weight)的重要性评估示例图如图3(c)和图3(d)所示，在图3(c)中马力(power)有一个最大值和一个局部极小值，在图3(d)中重量(weight)也有一个最大值和一个局部极小值，这时我们分别计算它们的质量：

q u a l i t y (^{''} {power}^{''}) = \frac{H_{1} - H_{2}}{H_{1}} = 0.85

q u a l i t y (^{''} {weight}^{''}) = \frac{H_{1} - H_{2}}{H_{1}} = 0.59

由计算结果我们可以看出quality("power")＞quality("weight")，因此属性马力(power)比质量(weight)更加重要。在实际生活中，我们也是更关注的是汽的马力，而不是它的重量，而在图3(a)和图3(b)中计算出来的结果是重量(weight)的重要性要比马力(power)的重要性大，这是不正确的，当我们修正h的值之后，得到图3(c)和图3(d)中的正确结果，重量(weight)的重要性要比马力(power)的重要性小。

2.维度排序。

在维度重要性的基础上，我们将维度按照其重要性从大到小排序，以便筛选出重要的和非重要的维度。根据上述步骤我们可以知道计算出的维度质量(quality)的取值范围在0～1之间，于是我们可以定义一个质量阈值(比如0.5)，在此阈值之前的维度都是重要的，而在此阈值之后的维度是不重要的，这样我们便可以先对那些重要的维度作进一步分析，对于不重要的这些维度先不考虑。这样便达到了“降维”的目的，且保留了原始数据。

实例2：汽车(car)数据集是高维可视分析中最常用的一个数据集，它包括7个属性和406条数据，这里我们选取它作为我们的一个排序实例。如图4(b)所示，我们取计算每一维度的质量，然后按照重要性从大到小重新排列维度，我们可以看到所有的计算结果均无quality＝1，因此计算结果是正确的，维度序列依次是缸数(cylinders)、排气量(displacement)、马力(power)、速度(mph)、价格(economy)、重量(weight)和年份(year)，在这7个属性中，我们可以将属性重量(weight)和年份(year)筛选掉，因为我们在买车的时候对于它的重量和年份并不是很关心，而我们往往关心的是它的速度、排气量、价格等，因此这里我们可以设置一个阈值s＝0.5，quality≥0.5的维度是比较重要的，我们可以进一步分析，而quality＜0.5的维度是相对不太重要的，我们可以暂时先不考虑它们。这样我们便将属性重量(weight)和年份(year)分了出来，如图4(b)所示。与排序之前的维度序列(图4(a))相比，排序后的维度序列更有利于我们分析数据。

实例3：房子价格数据集(Housing Data Set)是一个经典的数据集，它主要关注的是波士顿郊区的房子的价值，包括14个属性和506条数据集，这里我们选取其中的12各维度用平行坐标图(parallel coordinates)显示(如图5(a)所示)，我们可以从中看出，在这个数据集中相关性并不明显，因此使用我们的方法来分析维度重要性是很有必要的，且它的维度比较多，利用我们的方法来对其“降维”会方便我们分析数据。如图5(b)所示，我们取计算每一维度的质量，然后按照重要性从大到小重新排列维度，根据得到的每一维的质量我们可以看出，这些维度的质量值都比较大，且维度间的质量值相差都很小，因此我们可以判断这些维度几乎都是比较重要的，这些属性对于房子价值都有一定的影响，但是我们还是可以从中筛选出比较重要和比较不重要的维度。例如我们将阈值设为s＝0.9，quality≥0.9的维度都是比较重要的，如图5(b)所示，我们筛选出5个比较重要的属性，它们对于房子的价值影响是比较大的。我们也可以将阈值设为s＝0.6，quality＜0.6的维度是相对比较不重要的，如图5(b)所示，我们筛选出2个相对不重要的属性，它们对于房子的价值影响比较小。

由以上实例可以看出我们的维度重要性评估方法是正确的，在某种程度上它可以帮助用户筛选出重要的和非重要的维度，达到“降维”的效果。

Claims

1.一种用于高维数据分析的维度重要性评估方法，步骤如下：，

f (x) = \frac{1}{\sqrt{2 π} \cdot n \cdot h} Σ_{i = 1}^{n} e^{- \frac{1}{2} {(\frac{x - x_{i}}{h})}^{2}} - - - (1)

Difference(d)＝(H₁-H₂)/H₁ (2)

2.根据权利要求1所述的评估方法，对步骤1中的参数h进行估计的步骤如下：

(1)求出维度d＝{x₁,x₂,x₃,...x_n}的数据样本的标准差δ；

(3)根据步骤(2)中给出的关于h的定义选择合适的a估计h值；

(4)求出该维度数据样本点的密度，并绘制相应的密度曲线；

(6)重复步骤(4)-(5)直到得到合适的h值。