CN106383889A - 降维聚类的数据分析方法 - Google Patents

降维聚类的数据分析方法 Download PDF

Info

Publication number
CN106383889A
CN106383889A CN201610842787.5A CN201610842787A CN106383889A CN 106383889 A CN106383889 A CN 106383889A CN 201610842787 A CN201610842787 A CN 201610842787A CN 106383889 A CN106383889 A CN 106383889A
Authority
CN
China
Prior art keywords
projection
sample
class
data
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610842787.5A
Other languages
English (en)
Inventor
夏虎
康明
陈进宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoxin Youe Data Co Ltd
Original Assignee
Guoxin Youe Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoxin Youe Data Co Ltd filed Critical Guoxin Youe Data Co Ltd
Priority to CN201610842787.5A priority Critical patent/CN106383889A/zh
Publication of CN106383889A publication Critical patent/CN106383889A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种降维聚类的数据分析方法,其包括以下步骤:S101、通过生成样本数据,对样本数据进行无量纲化处理,构造出模型所需的投影数据;S102、构造投影指标,并得到最优投影方向向量S103、对投影数据进行线性投影,得到一维投影特征值。本发明通过上述步骤,能将投影寻踪技术和动态聚类的方法相结合,应用于高维数据降维聚类的模型,既操作简单,又增加了模型的客观性;而且针对可能出现的决策者偏好的情况,本发明通过增加约束条件,使得模型能够综合考虑客观权重和决策者的偏好,扩大了模型的适用范围。

Description

降维聚类的数据分析方法
技术领域
本发明涉及一种计算机领域的数据分析方法,尤其涉及一种降维聚类的数据分析方法。
背景技术
现有技术中,需要根据包含着多个变量的数据分类标准表,将一组向量按照此分类标准表进行归类。
常见地,如果分类标准表中的变量维度比较高,就需要进行降维聚类分析,现有的降维方法中,以投影寻踪方法为代表的模型,涉及到的唯一参数——密度窗宽取值,目前还必须依靠经验或试算来确定,缺乏相应的理论依据;另外,此类模型的运算结果需要利用其它方法进行分类处理,才能得到最终的聚类结果;还有,在实际应用问题中,还要考虑到决策者的偏好,即主观倾向于某个变量占的权重要大一些。这些都是需要解决的问题。
发明内容
本发明目的是提供一种降维聚类的数据分析方法,引入了投影寻踪动态聚类,建立相应的降维聚类模型,一方面,可以避免在降维模型运算过程中需要人为给定的参数的缺点,另一方面,还可以根据决策者的偏好因素进行分类并直接输出分类标准值。
本发明解决技术问题采用如下技术方案:一种降维聚类的数据分析方法,其包括以下步骤:
S101、通过生成样本数据,对样本数据进行无量纲化处理,构造出模型所需的投影数据;
S102、构造投影指标,并得到最优投影方向向量
S103、对投影数据进行线性投影,得到一维投影特征值。
可选的,所述步骤103中,设为m维单位投影方向向量,记为则样本影响指标xij的一维投影特征值zi可以表示为:
z i = Σ j = 1 m a j x i j ,
其中,m为自然数。
可选的,所述步骤S101中:将样本数据的影响指标记为Xij(i=1,2,…,n;j=1,2,…m),其中n为自然数,表示样本个数;m为自然数,表示变量个数,对于越小越优型指标,采用式(1-1)进行无量纲化处理;对于越大越优型指标,采用式(1-2)进行无量纲化处理:
x i j = X j m a x - X i j X j max - X j m i n - - - ( 1 - 1 )
x i j = X i j - X j m i n X j m a x - X j m i n - - - ( 1 - 2 )
式中,Xj max、Xj min分别为第j个变量的样本最大值与最小值,xij为样本影响指标,即第i个样本的第j个指标的观测值。
可选的,步骤S102中,
假设样本投影特征值集合为Ω={z1,z2,…,zn},任意两个投影特征值间的距离记为s(zi,zk),即s(zi,zk)=|zi-zk|,(k=1,…,n);若将样本分为N(N≤n)类,则第h类样本投影特征值集合可记为Θh(h=1,2,…,N),则:
Θ h = { z i | d ( A h - z i ) ≤ d ( A t - z i ) , ∀ t = 1 , 2 , ... , N , t ≠ h } - - - ( 1 - 4 )
式中d(Ah-zi)=|zi-Ah|;
d(At-zi)=|zi-At|;
其中,Ah和At分别为第h类和第t类的初始聚核;依据动态聚类的算法,每一类的初始聚核会被上一次该类样本投影特征值的均值所迭换,直至满足结束条件;
若用类内聚集度表示样本内的聚集程度:
d d ( a → ) = Σ h = 1 N d h ( a → ) - - - ( 1 - 5 )
式中,
用类分散度表示样本间的分散程度:
s s ( a → ) = Σ z i , z k ∈ Ω s ( z i , z k ) - - - ( 1 - 6 )
则为达到类类样本充分散开、类内样本尽量集中的聚类目的,根据动态聚类方法构建的投影指标应为:
Q Q ( a → ) = s s ( a → ) - d d ( a → ) - - - ( 1 - 7 )
并使得:
可选的,若决策者对某个向量存在偏好,增加约束:ai>aj(j=1,2,3,4,…m;j≠i)。
本发明具有如下有益效果:本发明通过上述步骤,能将投影寻踪技术和动态聚类的方法相结合,应用于高维数据降维聚类的模型,既操作简单,又增加了模型的客观性;而且针对可能出现的决策者偏好的情况,本发明通过增加约束条件,使得模型能够综合考虑客观权重和决策者的偏好,扩大了模型的适用范围。
附图说明
图1为一种降维聚类的数据分析方法流程图;
图2为细化后的流程图;
具体实施方式
下面结合实施例及附图对本发明的技术方案作进一步阐述。
实施例1
本实施例提供了一种降维聚类的数据分析方法,其包括:
S101、通过生成样本数据,对样本数据进行无量纲化处理,构造出模型所需的投影数据。
本实施例中,可以通过生成样本数据,构造出模型所需的投影数据。例如:按照分类标准表,在各级别范围内随机产生一定量的样本数据。将样本数据的影响指标记为Xij(i=1,2,…,n;j=1,2,…m),其中n为自然数,表示样本个数;m为自然数,表示变量个数,若分类标准表中分为5级,在每个等级范围内生成100个样本,则样本数n为500。
由于样本数据中各变量的量纲不尽相同或数值范围相差较大,因此在建模之前要对各变量数据进行无量纲化处理。对于越小越优型指标,采用式(1-1);对于越大越优型指标,采用式(1-2):
x i j = X j m a x - X i j X j max - X j m i n - - - ( 1 - 1 )
x i j = X i j - X j m i n X j m a x - X j m i n - - - ( 1 - 2 )
式中,Xj max、Xj min分别为第j个变量的样本最大值与最小值。
S102、构造投影指标
投影指标是样本数据由多维向低维投影形成聚类所遵循的原则,由于聚类分析的实质就是将待评价样本数据进行合理的分类,可以根据分类指标来构造投影指标。本实施例应用动态聚类方法来构造模型的投影指标,通过求解投影指标函数,得到能够反映样本特征的最优投影方向,同时输出投影特征值聚类结果,即标准表的分类标准值。构造投影指标的步骤如下:
设样本投影特征值集合为Ω={z1,z2,…,zn},任意两个投影特征值间的距离记为s(zi,zk),即s(zi,zk)=|zi-zk|,(k=1,…,n)。若将样本分为N(N≤n)类,则第h类样本投影特征值集合可记为Θh(h=1,2,…,N),即:
Θ h = { z i | d ( A h - z i ) ≤ d ( A t - z i ) , ∀ t = 1 , 2 , ... , N , t ≠ h } - - - ( 1 - 4 )
式中d(Ah-zi)=|zi-Ah|;
d(At-zi)=|zi-At|。
其中,Ah和At分别为第h类和第t类的初始聚核(聚类的中心点),(1-4)式表明了动态聚类方法中聚合分类的原则。依据动态聚类的算法,每一类的初始聚核会被上一次该类样本投影特征值的均值所迭换,直至满足结束条件,即分类结果趋于稳定。
若用类内聚集度表示样本内的聚集程度:
d d ( a → ) = Σ h = 1 N d h ( a → ) - - - ( 1 - 5 )
式中,
用类分散度表示样本间的分散程度:
s s ( a → ) = Σ z i , z k ∈ Ω s ( z i , z k ) - - - ( 1 - 6 )
则为达到类类样本充分散开、类内样本尽量集中的聚类目的,根据动态聚类方法构建的投影指标应为:
Q Q ( a → ) = s s ( a → ) - d d ( a → ) - - - ( 1 - 7 )
上式表明,各类之间分散度越大或类内聚集程度越高,投影指标越大。
模型在投影指标取得最大值时就能得到最显著的聚类结果。因此,本模型的求解就可以转化成对如下问题的优化计算:
max Q Q ( a → ) | | a → | | = 1 - - - ( 1 - 8 ) .
向量为线性,通过1-8式解决变量为的非线性优化问题,也就是说,1-8式的最优解即为向量可以用遗传算法求解。本领域技术人员知晓,通过遗传算法求解是本领域现有技术,在此不再一一赘述。
在实际应用中,若决策者对某个向量存在偏好,可以通过增加模型的约束条件来实现。例如,在所有变量中,决策者最关心的是第二项,根据投影原理,即认为在a2方向上的投影值最大,因此可增加约束:
a2>aj(j=1,3,4,…m;j≠2) (1-9)
S103、对投影数据进行线性投影
投影就是从不同角度观察数据,寻找能够最大程度地反映样本数据特征的最佳观察角度即最优投影方向。本发明考虑采用线性投影,将样本的多项变量值投影到一维空间,得到反映该样本特征的数值,该数值被认为是能够反映该样本优劣程度的量化值,在模型中用投影特征值zi来表示。设为m维单位投影方向向量,记为则样本影响指标xij的一维投影特征值zi可以表示为:
z i = Σ j = 1 m a j x i j - - - ( 1 - 3 )
本发明通过上述步骤,能将投影寻踪技术和动态聚类的方法相结合,应用于高维数据降维聚类的模型,既操作简单,又增加了模型的客观性;而且针对可能出现的决策者偏好的情况,本发明通过增加约束条件,使得模型能够综合考虑客观权重和决策者的偏好,扩大了模型的适用范围。
实施例2
本实施例通过具体的操作,来展示降维聚类的数据分析方法,即一种水质分析方法,参见下表1-1,为某水库某月份的水质监测结果表,先要根据《地表水环境质量标准》表1-2来对此水库进行评价,可以采用实施例1中的步骤。
表1-1某水库某月份水质监测结果表
表1-2水库水质评价标准表
在每个水质标准级别范围内随机生成30个样本,而水库水质评价标准分为5级,于是总共得到了150个水质样本。依据生成的各级样本数据建立起该水库基于投影寻踪动态聚类方法的水质评价模型,其中n=150,m=5,N=5。
(1)不考虑决策者的偏好
只有约束条件计算得到最大投影指标函数值为24.16,相应的最优投影方向向量即通过求解得到投影向量代入得到投影指标的最大值(最大投影指标函数值)。同时得到相应的水库水质等级综合评价的分级标准,见表1-3。
表1-3水质综合评价分级标准值
投影特征值越大,表示水库水质越差。根据最优投影方向向量计算该水库样本的投影特征值z=0.8274,即将最优投影方向向量代入从而得到样本的投影特征值,参照上表,可以得出该水库的水质在该月份为Ⅲ级水。这一结论与该水库的官方水质报告结果一致。相比之下,水质报告只是基于单项水质指标的评价,较为笼统、不够直观,而且同一等级内的水质无法给出量化的比较。
(2)考虑决策者的偏好
不同地区的水库由于自然环境及功能不同对水质的要求不尽相同,从该水库近两年的水质连续监测数据分析知道,总氮及总磷指标超标的频率较高,这两项指标对控制水体富营养化有重要的作用,因此可以假设决策者会提高这两项指标对其决策的影响力。在模型中通过增加约束的方法来考虑决策者的这种偏好:通过优化求解,可以得到最优投影向量:模型计算结果列入表1-4。
表1-4考虑决策者偏好的水质综合评价分级标准值
根据最优投影方向向量计算该水库样本的投影特征值z=0.8109,参照表1-4的标准值,该水库的水质等级为Ⅲ级。可以看出,这一结果与不考虑决策者偏好的结果相同。主要原因是:根据投影寻踪方法的原理,最优投影方向向量实际上反映了各个因素的不同重要程度,而且它为单位投影方向向量,满足平方和为1,因而可以将wi=(a1 2,a2 2,…,am 2)作为各影响因素的权重。在不考虑决策者此偏好时,总磷及总氮的所占权重已经很大,故两次评价结果保持一致。
以上实施例的先后顺序仅为便于描述,不代表实施例的优劣。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种降维聚类的数据分析方法,其特征在于,包括以下步骤:
S101、通过生成样本数据,对样本数据进行无量纲化处理,构造出模型所需的投影数据;
S102、构造投影指标,并得到最优投影方向向量
S103、对投影数据进行线性投影,得到一维投影特征值。
2.根据权利要求1所述的降维聚类的数据分析方法,其特征在于,所述步骤103中,设为m维单位投影方向向量,记为则样本影响指标xij的一维投影特征值zi可以表示为:
z i = Σ j = 1 m a j x i j ,
其中,m为自然数。
3.根据权利要求2所述的降维聚类的数据分析方法,其特征在于,所述步骤S101中:将样本数据的影响指标记为Xij(i=1,2,…,n;j=1,2,…m),其中n为自然数,表示样本个数;m为自然数,表示变量个数,对于越小越优型指标,采用式(1-1)进行无量纲化处理;对于越大越优型指标,采用式(1-2)进行无量纲化处理:
x i j = X j m a x - X i j X j max - X j m i n - - - ( 1 - 1 )
x i j = X i j - X j m i n X j m a x - X j m i n - - - ( 1 - 2 )
式中,Xjmax、Xjmin分别为第j个变量的样本最大值与最小值,xij为样本影响指标,即第i个样本的第j个指标的观测值。
4.根据权利要求1所述的降维聚类的数据分析方法,其特征在于,步骤S102中,
假设样本投影特征值集合为Ω={z1,z2,…,zn},任意两个投影特征值间的距离记为s(zi,zk),即s(zi,zk)=|zi-zk|,(k=1,…,n);若将样本分为N(N≤n)类,则第h类样本投影特征值集合可记为Θh(h=1,2,…,N),则:
Θ h = { z i | d ( A h - z i ) ≤ d ( A t - z i ) , ∀ t = 1 , 2 , ... , N , t ≠ h } - - - ( 1 - 4 )
式中d(Ah-zi)=|zi-Ah|;
d(At-zi)=|zi-At|;
其中,Ah和At分别为第h类和第t类的初始聚核;依据动态聚类的算法,每一类的初始聚核会被上一次该类样本投影特征值的均值所迭换,直至满足结束条件;
若用类内聚集度表示样本内的聚集程度:
d d ( a → ) = Σ h = 1 N d h ( a → ) - - - ( 1 - 5 )
式中,
用类分散度表示样本间的分散程度:
s s ( a → ) = Σ z i , z k ∈ Ω s ( z i , z k ) - - - ( 1 - 6 )
则为达到类类样本充分散开、类内样本尽量集中的聚类目的,根据动态聚类方法构建的投影指标应为:
Q Q ( a → ) = s s ( a → ) - d d ( a → ) - - - ( 1 - 7 )
并使得:
5.根据权利要求4所述的降维聚类的数据分析方法,其特征在于,
若决策者对某个向量存在偏好,增加约束:ai>aj(j=1,2,3,4,…m;j≠i)。
CN201610842787.5A 2016-09-22 2016-09-22 降维聚类的数据分析方法 Pending CN106383889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610842787.5A CN106383889A (zh) 2016-09-22 2016-09-22 降维聚类的数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610842787.5A CN106383889A (zh) 2016-09-22 2016-09-22 降维聚类的数据分析方法

Publications (1)

Publication Number Publication Date
CN106383889A true CN106383889A (zh) 2017-02-08

Family

ID=57936809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610842787.5A Pending CN106383889A (zh) 2016-09-22 2016-09-22 降维聚类的数据分析方法

Country Status (1)

Country Link
CN (1) CN106383889A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330619A (zh) * 2017-06-30 2017-11-07 国核电力规划设计研究院有限公司 确定综合评价值的方法、装置及计算机可读存储介质
CN108304656A (zh) * 2018-02-01 2018-07-20 三峡大学 一种劳务众包平台的任务接受情况仿真方法
CN109408554A (zh) * 2018-09-17 2019-03-01 顺丰科技有限公司 物流网点的数据分析方法、系统、设备及存储介质
CN111145595A (zh) * 2020-02-20 2020-05-12 智慧航海(青岛)科技有限公司 基于投影寻踪法的自主驾驶船舶重点避让船舶的确认方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902737A (zh) * 2014-04-22 2014-07-02 上海理工大学 基于群智能算法的投影寻踪分类建模软件及实现

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103902737A (zh) * 2014-04-22 2014-07-02 上海理工大学 基于群智能算法的投影寻踪分类建模软件及实现

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
倪长健 等: "投影寻踪动态聚类模型及其在地下水分类中的应用", 《四川大学学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330619A (zh) * 2017-06-30 2017-11-07 国核电力规划设计研究院有限公司 确定综合评价值的方法、装置及计算机可读存储介质
CN108304656A (zh) * 2018-02-01 2018-07-20 三峡大学 一种劳务众包平台的任务接受情况仿真方法
CN108304656B (zh) * 2018-02-01 2022-02-01 三峡大学 一种劳务众包平台的任务接受情况仿真方法
CN109408554A (zh) * 2018-09-17 2019-03-01 顺丰科技有限公司 物流网点的数据分析方法、系统、设备及存储介质
CN111145595A (zh) * 2020-02-20 2020-05-12 智慧航海(青岛)科技有限公司 基于投影寻踪法的自主驾驶船舶重点避让船舶的确认方法

Similar Documents

Publication Publication Date Title
Fülöp Introduction to decision making methods
Park et al. Extension of the VIKOR method for group decision making with interval-valued intuitionistic fuzzy information
CN106383889A (zh) 降维聚类的数据分析方法
Singh et al. A hybrid decision support model using axiomatic fuzzy set theory in AHP and TOPSIS for multicriteria route selection
Fayek et al. Introduction to fuzzy logic in construction engineering and management
de Moraes et al. Application of deterministic, stochastic, and hybrid methods for cloud provider selection
Peng et al. Research on the random multi-attribute decision-making methods with trapezoidal fuzzy probability based on prospect theory
Zeng et al. Decision tree classification model for popularity forecast of Chinese colleges
Kashyap et al. Software development cost estimation using similarity difference between software attributes
Kim et al. A simulated annealing algorithm for the creation of synthetic population in activity-based travel demand model
Amini et al. A method for constructing non-isosceles triangular fuzzy numbers using frequency histogram and statistical parameters
Nguyen et al. Fuzzy numbers and MCDM methods for portfolio optimization
CN103679539A (zh) 多层次指标的投影寻踪动态聚类方法与装置
CN114745288A (zh) 基于区块链和动态赋权的复杂网络抗毁性模型量化方法
Graff et al. Models of performance of evolutionary program induction algorithms based on indicators of problem difficulty
Thompson Analysis of market returns using multifractal time series and agent-based simulation
El Hannach et al. Project portfolio management information systems (PPMIS) information entropy based approch to prioritize PPMIS
Yang et al. Power demand forecast based on optimized neural networks by improved genetic algorithm
CN110889431A (zh) 基于K-Means算法改进的高频职业技能生命曲线聚类方法
Urdaneta et al. Fuzzy model for estimation of energy performance of residential buildings
Maydina et al. Implementation of agglomerative clustering and modified artificial bee colony algorithm on stock portfolio optimization with possibilistic constraints
Beaudouin et al. Combining rank-dependent models and rule-based aggregation for experts’ joint decision making
Rajaonarisoa et al. Annual precipitation in Southern of Madagascar: modeling using high order fuzzy time series
Ivanoska et al. Algorithms for effective team building
Si et al. Dynamic multiattribute decision making based on the intuitionistic fuzzy priority rating model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170208