CN106383889A

CN106383889A - 降维聚类的数据分析方法

Info

Publication number: CN106383889A
Application number: CN201610842787.5A
Authority: CN
Inventors: 夏虎; 康明; 陈进宝
Original assignee: Guoxin Youe Data Co Ltd
Current assignee: Guoxin Youe Data Co Ltd
Priority date: 2016-09-22
Filing date: 2016-09-22
Publication date: 2017-02-08

Abstract

本发明公开了一种降维聚类的数据分析方法，其包括以下步骤：S101、通过生成样本数据，对样本数据进行无量纲化处理，构造出模型所需的投影数据；S102、构造投影指标，并得到最优投影方向向量S103、对投影数据进行线性投影，得到一维投影特征值。本发明通过上述步骤，能将投影寻踪技术和动态聚类的方法相结合，应用于高维数据降维聚类的模型，既操作简单，又增加了模型的客观性；而且针对可能出现的决策者偏好的情况，本发明通过增加约束条件，使得模型能够综合考虑客观权重和决策者的偏好，扩大了模型的适用范围。

Description

降维聚类的数据分析方法

技术领域

本发明涉及一种计算机领域的数据分析方法，尤其涉及一种降维聚类的数据分析方法。

背景技术

现有技术中，需要根据包含着多个变量的数据分类标准表，将一组向量按照此分类标准表进行归类。

常见地，如果分类标准表中的变量维度比较高，就需要进行降维聚类分析，现有的降维方法中，以投影寻踪方法为代表的模型，涉及到的唯一参数——密度窗宽取值，目前还必须依靠经验或试算来确定，缺乏相应的理论依据；另外，此类模型的运算结果需要利用其它方法进行分类处理，才能得到最终的聚类结果；还有，在实际应用问题中，还要考虑到决策者的偏好，即主观倾向于某个变量占的权重要大一些。这些都是需要解决的问题。

发明内容

本发明目的是提供一种降维聚类的数据分析方法，引入了投影寻踪动态聚类，建立相应的降维聚类模型，一方面，可以避免在降维模型运算过程中需要人为给定的参数的缺点，另一方面，还可以根据决策者的偏好因素进行分类并直接输出分类标准值。

本发明解决技术问题采用如下技术方案：一种降维聚类的数据分析方法，其包括以下步骤：

S101、通过生成样本数据，对样本数据进行无量纲化处理，构造出模型所需的投影数据；

S102、构造投影指标，并得到最优投影方向向量

S103、对投影数据进行线性投影，得到一维投影特征值。

可选的，所述步骤103中，设为m维单位投影方向向量，记为则样本影响指标x_ij的一维投影特征值z_i可以表示为：

z_{i} = Σ_{j = 1}^{m} a_{j} x_{i j},

其中，m为自然数。

可选的，所述步骤S101中：将样本数据的影响指标记为X_ij(i＝1,2,…,n；j＝1,2,…m)，其中n为自然数，表示样本个数；m为自然数，表示变量个数，对于越小越优型指标，采用式(1-1)进行无量纲化处理；对于越大越优型指标，采用式(1-2)进行无量纲化处理：

x_{i j} = \frac{X_{j m a x} - X_{i j}}{X_{j \max} - X_{j m i n}} - - - (1 - 1)

x_{i j} = \frac{X_{i j} - X_{j m i n}}{X_{j m a x} - X_{j m i n}} - - - (1 - 2)

式中，X_{j max}、X_{j min}分别为第j个变量的样本最大值与最小值，x_ij为样本影响指标，即第i个样本的第j个指标的观测值。

可选的，步骤S102中，

假设样本投影特征值集合为Ω＝{z₁,z₂,…,z_n}，任意两个投影特征值间的距离记为s(z_i,z_k)，即s(z_i,z_k)＝|z_i-z_k|，(k＝1,…,n)；若将样本分为N(N≤n)类，则第h类样本投影特征值集合可记为Θ_h(h＝1,2,…,N)，则：

Θ_{h} = {z_{i} | d (A_{h} - z_{i}) \leq d (A_{t} - z_{i}), &ForAll; t = 1, 2, ..., N, t &NotEqual; h} - - - (1 - 4)

式中d(A_h-z_i)＝|z_i-A_h|；

d(A_t-z_i)＝|z_i-A_t|；

其中，A_h和A_t分别为第h类和第t类的初始聚核；依据动态聚类的算法，每一类的初始聚核会被上一次该类样本投影特征值的均值所迭换，直至满足结束条件；

若用类内聚集度表示样本内的聚集程度：

d d (\overset{&RightArrow;}{a}) = Σ_{h = 1}^{N} d_{h} (\overset{&RightArrow;}{a}) - - - (1 - 5)

式中，

用类分散度表示样本间的分散程度：

s s (\overset{&RightArrow;}{a}) = \underset{z_{i}, z_{k} &Element; Ω}{Σ} s (z_{i}, z_{k}) - - - (1 - 6)

则为达到类类样本充分散开、类内样本尽量集中的聚类目的，根据动态聚类方法构建的投影指标应为：

Q Q (\overset{&RightArrow;}{a}) = s s (\overset{&RightArrow;}{a}) - d d (\overset{&RightArrow;}{a}) - - - (1 - 7)

并使得：

可选的，若决策者对某个向量存在偏好，增加约束：a_i＞a_j(j＝1,2,3,4,…m；j≠i)。

本发明具有如下有益效果：本发明通过上述步骤，能将投影寻踪技术和动态聚类的方法相结合，应用于高维数据降维聚类的模型，既操作简单，又增加了模型的客观性；而且针对可能出现的决策者偏好的情况，本发明通过增加约束条件，使得模型能够综合考虑客观权重和决策者的偏好，扩大了模型的适用范围。

附图说明

图1为一种降维聚类的数据分析方法流程图；

图2为细化后的流程图；

具体实施方式

下面结合实施例及附图对本发明的技术方案作进一步阐述。

实施例1

本实施例提供了一种降维聚类的数据分析方法，其包括：

S101、通过生成样本数据，对样本数据进行无量纲化处理，构造出模型所需的投影数据。

本实施例中，可以通过生成样本数据，构造出模型所需的投影数据。例如：按照分类标准表，在各级别范围内随机产生一定量的样本数据。将样本数据的影响指标记为X_ij(i＝1,2,…,n；j＝1,2,…m)，其中n为自然数，表示样本个数；m为自然数，表示变量个数，若分类标准表中分为5级，在每个等级范围内生成100个样本，则样本数n为500。

由于样本数据中各变量的量纲不尽相同或数值范围相差较大，因此在建模之前要对各变量数据进行无量纲化处理。对于越小越优型指标，采用式(1-1)；对于越大越优型指标，采用式(1-2)：

x_{i j} = \frac{X_{j m a x} - X_{i j}}{X_{j \max} - X_{j m i n}} - - - (1 - 1)

x_{i j} = \frac{X_{i j} - X_{j m i n}}{X_{j m a x} - X_{j m i n}} - - - (1 - 2)

式中，X_{j max}、X_{j min}分别为第j个变量的样本最大值与最小值。

S102、构造投影指标

投影指标是样本数据由多维向低维投影形成聚类所遵循的原则，由于聚类分析的实质就是将待评价样本数据进行合理的分类，可以根据分类指标来构造投影指标。本实施例应用动态聚类方法来构造模型的投影指标，通过求解投影指标函数，得到能够反映样本特征的最优投影方向，同时输出投影特征值聚类结果，即标准表的分类标准值。构造投影指标的步骤如下：

设样本投影特征值集合为Ω＝{z₁,z₂,…,z_n}，任意两个投影特征值间的距离记为s(z_i,z_k)，即s(z_i,z_k)＝|z_i-z_k|，(k＝1,…,n)。若将样本分为N(N≤n)类，则第h类样本投影特征值集合可记为Θ_h(h＝1,2,…,N)，即：

Θ_{h} = {z_{i} | d (A_{h} - z_{i}) \leq d (A_{t} - z_{i}), &ForAll; t = 1, 2, ..., N, t &NotEqual; h} - - - (1 - 4)

式中d(A_h-z_i)＝|z_i-A_h|；

d(A_t-z_i)＝|z_i-A_t|。

其中，A_h和A_t分别为第h类和第t类的初始聚核(聚类的中心点)，(1-4)式表明了动态聚类方法中聚合分类的原则。依据动态聚类的算法，每一类的初始聚核会被上一次该类样本投影特征值的均值所迭换，直至满足结束条件，即分类结果趋于稳定。

若用类内聚集度表示样本内的聚集程度：

d d (\overset{&RightArrow;}{a}) = Σ_{h = 1}^{N} d_{h} (\overset{&RightArrow;}{a}) - - - (1 - 5)

式中，

用类分散度表示样本间的分散程度：

s s (\overset{&RightArrow;}{a}) = \underset{z_{i}, z_{k} &Element; Ω}{Σ} s (z_{i}, z_{k}) - - - (1 - 6)

Q Q (\overset{&RightArrow;}{a}) = s s (\overset{&RightArrow;}{a}) - d d (\overset{&RightArrow;}{a}) - - - (1 - 7)

上式表明，各类之间分散度越大或类内聚集程度越高，投影指标越大。

模型在投影指标取得最大值时就能得到最显著的聚类结果。因此，本模型的求解就可以转化成对如下问题的优化计算：

\{\begin{matrix} \max Q Q (\overset{&RightArrow;}{a}) \\ | | \overset{&RightArrow;}{a} | | = 1 \end{matrix} - - - (1 - 8) .

向量为线性，通过1-8式解决变量为的非线性优化问题，也就是说，1-8式的最优解即为向量可以用遗传算法求解。本领域技术人员知晓，通过遗传算法求解是本领域现有技术，在此不再一一赘述。

在实际应用中，若决策者对某个向量存在偏好，可以通过增加模型的约束条件来实现。例如，在所有变量中，决策者最关心的是第二项，根据投影原理，即认为在a₂方向上的投影值最大，因此可增加约束：

a₂＞a_j(j＝1,3,4,…m；j≠2) (1-9)

S103、对投影数据进行线性投影

投影就是从不同角度观察数据，寻找能够最大程度地反映样本数据特征的最佳观察角度即最优投影方向。本发明考虑采用线性投影，将样本的多项变量值投影到一维空间，得到反映该样本特征的数值，该数值被认为是能够反映该样本优劣程度的量化值，在模型中用投影特征值z_i来表示。设为m维单位投影方向向量，记为则样本影响指标x_ij的一维投影特征值z_i可以表示为：

z_{i} = Σ_{j = 1}^{m} a_{j} x_{i j} - - - (1 - 3)

本发明通过上述步骤，能将投影寻踪技术和动态聚类的方法相结合，应用于高维数据降维聚类的模型，既操作简单，又增加了模型的客观性；而且针对可能出现的决策者偏好的情况，本发明通过增加约束条件，使得模型能够综合考虑客观权重和决策者的偏好，扩大了模型的适用范围。

实施例2

本实施例通过具体的操作，来展示降维聚类的数据分析方法，即一种水质分析方法，参见下表1-1，为某水库某月份的水质监测结果表，先要根据《地表水环境质量标准》表1-2来对此水库进行评价，可以采用实施例1中的步骤。

表1-1某水库某月份水质监测结果表

表1-2水库水质评价标准表

在每个水质标准级别范围内随机生成30个样本，而水库水质评价标准分为5级，于是总共得到了150个水质样本。依据生成的各级样本数据建立起该水库基于投影寻踪动态聚类方法的水质评价模型，其中n＝150，m＝5，N＝5。

(1)不考虑决策者的偏好

只有约束条件计算得到最大投影指标函数值为24.16，相应的最优投影方向向量即通过求解得到投影向量代入得到投影指标的最大值(最大投影指标函数值)。同时得到相应的水库水质等级综合评价的分级标准，见表1-3。

表1-3水质综合评价分级标准值

投影特征值越大，表示水库水质越差。根据最优投影方向向量计算该水库样本的投影特征值z＝0.8274，即将最优投影方向向量代入从而得到样本的投影特征值，参照上表，可以得出该水库的水质在该月份为Ⅲ级水。这一结论与该水库的官方水质报告结果一致。相比之下，水质报告只是基于单项水质指标的评价，较为笼统、不够直观，而且同一等级内的水质无法给出量化的比较。

(2)考虑决策者的偏好

不同地区的水库由于自然环境及功能不同对水质的要求不尽相同，从该水库近两年的水质连续监测数据分析知道，总氮及总磷指标超标的频率较高，这两项指标对控制水体富营养化有重要的作用，因此可以假设决策者会提高这两项指标对其决策的影响力。在模型中通过增加约束的方法来考虑决策者的这种偏好：通过优化求解，可以得到最优投影向量：模型计算结果列入表1-4。

表1-4考虑决策者偏好的水质综合评价分级标准值

根据最优投影方向向量计算该水库样本的投影特征值z＝0.8109，参照表1-4的标准值，该水库的水质等级为Ⅲ级。可以看出，这一结果与不考虑决策者偏好的结果相同。主要原因是：根据投影寻踪方法的原理，最优投影方向向量实际上反映了各个因素的不同重要程度，而且它为单位投影方向向量，满足平方和为1，因而可以将w_i＝(a₁ ²,a₂ ²,…,a_m ²)作为各影响因素的权重。在不考虑决策者此偏好时，总磷及总氮的所占权重已经很大，故两次评价结果保持一致。

以上实施例的先后顺序仅为便于描述，不代表实施例的优劣。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种降维聚类的数据分析方法，其特征在于，包括以下步骤：

S102、构造投影指标，并得到最优投影方向向量

S103、对投影数据进行线性投影，得到一维投影特征值。

2.根据权利要求1所述的降维聚类的数据分析方法，其特征在于，所述步骤103中，设为m维单位投影方向向量，记为则样本影响指标x_ij的一维投影特征值z_i可以表示为：

z_{i} = Σ_{j = 1}^{m} a_{j} x_{i j},

其中，m为自然数。

3.根据权利要求2所述的降维聚类的数据分析方法，其特征在于，所述步骤S101中：将样本数据的影响指标记为X_ij(i＝1,2,…,n；j＝1,2,…m)，其中n为自然数，表示样本个数；m为自然数，表示变量个数，对于越小越优型指标，采用式(1-1)进行无量纲化处理；对于越大越优型指标，采用式(1-2)进行无量纲化处理：

x_{i j} = \frac{X_{j m a x} - X_{i j}}{X_{j \max} - X_{j m i n}} - - - (1 - 1)

x_{i j} = \frac{X_{i j} - X_{j m i n}}{X_{j m a x} - X_{j m i n}} - - - (1 - 2)

式中，X_jmax、X_jmin分别为第j个变量的样本最大值与最小值，x_ij为样本影响指标，即第i个样本的第j个指标的观测值。

4.根据权利要求1所述的降维聚类的数据分析方法，其特征在于，步骤S102中，

Θ_{h} = {z_{i} | d (A_{h} - z_{i}) \leq d (A_{t} - z_{i}), &ForAll; t = 1, 2, ..., N, t &NotEqual; h} - - - (1 - 4)

式中d(A_h-z_i)＝|z_i-A_h|；

d(A_t-z_i)＝|z_i-A_t|；

若用类内聚集度表示样本内的聚集程度：

d d (\overset{&RightArrow;}{a}) = Σ_{h = 1}^{N} d_{h} (\overset{&RightArrow;}{a}) - - - (1 - 5)

式中，

用类分散度表示样本间的分散程度：

s s (\overset{&RightArrow;}{a}) = \underset{z_{i}, z_{k} &Element; Ω}{Σ} s (z_{i}, z_{k}) - - - (1 - 6)

Q Q (\overset{&RightArrow;}{a}) = s s (\overset{&RightArrow;}{a}) - d d (\overset{&RightArrow;}{a}) - - - (1 - 7)

并使得：

5.根据权利要求4所述的降维聚类的数据分析方法，其特征在于，

若决策者对某个向量存在偏好，增加约束：a_i＞a_j(j＝1,2,3,4,…m；j≠i)。