CN110162568A - 一种基于PCA-Radviz的三维数据可视化方法 - Google Patents
一种基于PCA-Radviz的三维数据可视化方法 Download PDFInfo
- Publication number
- CN110162568A CN110162568A CN201910440105.1A CN201910440105A CN110162568A CN 110162568 A CN110162568 A CN 110162568A CN 201910440105 A CN201910440105 A CN 201910440105A CN 110162568 A CN110162568 A CN 110162568A
- Authority
- CN
- China
- Prior art keywords
- data
- radviz
- dimension
- vector
- plane
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000000513 principal component analysis Methods 0.000 claims abstract description 13
- 230000000694 effects Effects 0.000 claims abstract description 9
- 238000013461 design Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000012800 visualization Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000003086 colorant Substances 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000004040 coloring Methods 0.000 claims 1
- 239000004615 ingredient Substances 0.000 claims 1
- 238000013079 data visualisation Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 9
- 230000000007 visual effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000005483 Hooke's law Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于PCA‑Radviz的三维数据可视化方法,其步骤为:1)对原始数据进行标准化处理;2)将处理后的数据进行主成分分析(PCA),得到以贡献度最大的两维向量为x、y轴构成的平面;3)分别求出数据原始维度与x、y轴的余弦距离,得到原始维度在该平面上投影的角度与向量长度;4)利用上一步骤中得到的角度为Radviz圆周设计合理的维度锚点布局;5)将数据样本以圆点模式投影到Radviz单位圆内部;6)扩展z轴,将二维平面点拉至三维立体中。本发明基于PCA‑Radviz对集中不同类别数据样本的数据进行展示,不但为用户提供了尽可能多的数据聚类信息,而且达到了更好的数据可视化效果,从而使用户进行更加快速、直观、准确的决策。
Description
技术领域
本发明属于计算机信息处理技术领域,涉及到一种基于PCA-Radviz的三维数据可视化方法。
背景技术
随着大数据时代的到来,数据挖掘俨然成为了一个数据分析的热门研究方向。其包含的分析方法具有全自动化、高效节约的特点,但由于缺乏人机交互的矫正过程,其准确率通常低于人工分析的结果。而数据可视化很好地弥补了此项缺点,提高了人类的认知能力。Radviz(Radial Coordinate Visualization)是基于弹簧模型的可视化算法。它提供了一种特殊的思路来观察数据间的关系,可从全局出发研究高维数据。
经典Radviz算法的主要思想是将具有高维属性的点使用非线性方法映射到二维圆坐标平面上,达到增强直观效果的目的。具体过程为,圆周上的维度锚点以其对应的属性值的力将中心样本点向圆周方向拉拽,中心样本点由于受力不平衡开始位移。将每根连接中心样本点和圆周维度锚点的线看作物理模型中的弹簧,并且假设每根弹簧的弹性系数相同。当各个方向对中心样本点的作用力合力为零时,中心样本点就会停止位移,所处位置即平衡状态,可通过胡克定律计算,形成了一种弹簧模型。该算法具有计算复杂度低、可视化效果强的优点,但具有一定的局限性:1.会弱化甚至消除原始n维空间中数据间的一些聚类信息;2.算法的非线性映射导致了最终映射结果为多对一的关系。这两种局限性在一定程度上削弱了该算法最终的可视化效果,使其无法达到最优。
发明内容
本发明针对现有技术的不足,提供一种基于PCA-Radviz的三维数据可视化方法,为用户展示了数据间的隐藏关系,帮助用户在茫茫数据中以清晰直观的方式观察、探索数据相关性,从中获得信息进行更加精准有效的数据挖掘及其后续应用。
本发明的技术方案为:
一种基于PCA-Radviz的数据可视化方法,包含以下步骤:
步骤1)对原始数据进行标准化处理,得到标准化矩阵M;具体包括以下步骤:
步骤1.1)计算样本数据的均值μ及标准差σ,计算公式为:
其中,xi为第i个样本数据,N为样本数据的个数;
步骤1.2)根据步骤1.1)得到的均值μ及标准差σ,计算标准化处理后的转化函数,经过标准化处理的数据符合标准正态分布,即均值为0,标准差为1;标准化处理后的数据变化范围为-1≤x*≤1;所述的标准化处理数据公式为:
其中,x*为标准化处理后的数据;
步骤2)根据步骤1)得到的标准化矩阵M,进行主成分分析(PCA);
步骤2.1)通过PCA计算标准化矩阵M的协方差矩阵Cov(Xi,Xj),然后得到协方差矩阵的特征值λ={λ1,λ2,…,λk}和特征向量C=(c1,c2,…,ck);
步骤2.2)依据特征值大小对特征向量进行降序排序,给出成分的重要性级别;
步骤2.3)选择重要性级别最高的两个特征向量组成平面L,即第一个新坐标轴选取原始数据中方差最大的方向作为x轴,第二个新坐标轴选取与第一个新坐标轴正交的平面内所有方向中方差最大的方向作为y轴。
步骤3)根据步骤2)得到的平面L,分别求出原始数据各维度与x、y轴的余弦距离cosθi1和cosθi2,得到原始数据各维度在该平面L上投影的角度与向量长度,即构成原始数据各维度在平面L上的投影坐标(xi,yi);所述的余弦距离cosθi1和cosθi2的计算公式为:
式(4)-(5)中,θi1为原始数据各维度在x轴上投影的角度,θi2为原始数据各维度在y轴上投影的角度,为原始数据维度,为x轴向量,为y轴向量。
步骤4)根据步骤3)得到的投影坐标(xi,yi),利用步骤3)中得到的投影的角度为Radviz圆周设计合理的维度锚点布局。将步骤3)中得到的向量长度进行压缩,角度不变,计算得到Radviz维度锚点在Radviz圆周上的位置
步骤5)根据步骤4)得到的Radviz维度锚点在Radviz圆周上的位置,将所有原始数据的数据点在Radviz维度锚点的弹簧拉力作用下投影到Radviz内部,弹簧拉力大小正比于原始数据的数据点在每一维度上的维度值;并根据数据分类或聚类结果对数据点进行不同颜色的着色。
步骤6)根据步骤5)得到的Radviz在二维平面上的可视化效果,扩展z轴(即原始数据点到原点的欧拉距离),将二维平面点拉至三维立体中。
进一步地,步骤2.2)中对特征向量进行排序的具体方法为:第1个向量选择原始数据中方差最大的方向,第2个向量选取与第1个向量正交的平面中使得方差最大的方向,第3个向量是与第1、第2个向量正交的平面中方差最大的方向,依次类推,得到k个特征向量的排序。
本发明的有益效果:本发明提供了一种基于PCA-Radviz的三维数据可视化方法,基于PCA-Radviz对集中不同类别数据样本的数据进行展示,不但为用户提供了尽可能多的数据聚类信息,而且达到了更好的数据可视化效果,从而使用户进行更加快速、直观、准确的决策。
附图说明
图1为本发明所述方法流程图。
图2为本发明实施例Wine数据经PCA处理维度锚点布局流程图。
图3为本发明实施例Wine数据维度锚点布局的可视编码。
图4为本发明实施例Wine数据的数据点在二维平面上的可视编码。
图5为本发明实施例Wine数据的数据点在三维平面上的可视编码。
图6为Wine数据的数据点在三维平面上的散点可视编码。
具体实施方式
为使本发明的目的、设计思路和优点更加清楚,以下结合具体实例,并参照附图,对本发明作进一步详细说明。
本发明提供了一种基于PCA-Radviz的三维数据可视化方法,如图1所示,包括六个主要步骤:1)对原始数据进行标准化处理,该原始数据采用Wine数据,得到标准化矩阵M;2)对标准化矩阵M进行主成分分析(PCA),得到以贡献度最大的两维向量为x、y轴构成的平面;3)分别求出数据原始维度与x、y轴的余弦距离,得到原始维度在该平面上投影的角度与向量长度;4)利用步骤3)中得到的角度为Radviz圆周设计合理的维度锚点布局;5)将数据样本以圆点模式投影到Radviz单位圆内部;6)扩展z轴,将二维平面点拉至三维立体中。
下面对本发明的关键步骤进行逐一详细说明,具体步骤如下:
步骤一,对原始数据进行标准化处理,得到标准化矩阵M
具体包括以下步骤:
(1)计算原始数据的均值μ及标准差σ。得到均值标准差
(2)根据μ和σ计算标准化处理后的转化函数:经过处理的数据符合标准正态分布,即均值为0,标准差为1,标准化处理后的数据变化范围为-1≤x*≤1。
步骤二,进行主成分分析(PCA),得到以贡献度最大的两维向量为x、y轴构成的平面
具体包括以下步骤:
(1)通过PCA来计算标准化矩阵M的协方差矩阵Cov(Xi,Xj),然后得到协方差矩阵的特征值λ={λ1,λ2,…,λk}和特征向量C=(c1,c2,…,ck);
(2)对特征向量进行由大到小排序。具体排序过程为:第1个向量选择原始数据中方差最大的方向,第2个向量选取与第1个向量正交的平面中使得方差最大的方向,第3个向量是与第1、第2个向量正交的平面中方差最大的方向,依次类推,得到k个特征向量的排序;即将特征值λ按照由大到小的顺序进行排列,从而给出成分的重要性级别;
(3)选择特征值最大(即方差最大)的两个特征值所对应的特征向量组成平面L。
步骤三,求出数据原始维度与x、y轴的余弦距离,得到投影角度与向量长度
具体过程为:根据步骤二得到平面L,分别求出原始数据各维度与平面L的x、y轴的余弦距离得到原始数据各维度在该平面L上投影的角度与向量长度,即构成原始数据各维度在平面L上的投影坐标(xi,yi)。
步骤四,利用角度为Radviz圆周设计合理的维度锚点布局
流程如图2所示,为使维度锚点坐标落在Radviz单位圆上,将步骤三中得到的向量长度进行压缩,角度不变,计算得到Radviz维度锚点在Radviz圆周上的位置结果如图3所示。
步骤五,将数据样本以圆点模式投影到Radviz单位圆内部
如图4所示,将所有的数据点在Radviz维度锚点的弹簧拉力作用下投影到Radviz内部,弹簧拉力大小正比于数据点在每一维度上的维度值,并根据数据分类或聚类结果对数据点进行不同颜色的着色。
步骤六,扩展z轴,将二维平面点拉至三维立体中
如图5所示,根据步骤五中的Radviz二维平面可视化效果,计算原始数据点到原点的欧拉距离,将其作为z轴的数值,将二维平面点拉至三维立体中。
Claims (2)
1.一种基于PCA-Radviz的三维数据可视化方法,其特征在于,所述的方法包括以下步骤:
步骤1)对原始数据进行标准化处理,得到标准化矩阵M;
步骤1.1)计算样本数据的均值μ及标准差σ,计算公式为:
其中,xi为第i个样本数据,N为样本数据的个数;
步骤1.2)根据步骤1.1)得到的均值μ及标准差σ,计算标准化处理后的转化函数,经过标准化处理的数据符合标准正态分布,即均值为0,标准差为1;标准化处理后的数据变化范围为-1≤x*≤1;所述的标准化处理数据公式为:
其中,x*为标准化处理后的数据;
步骤2)根据步骤1)得到的标准化矩阵M,进行主成分分析;步骤2.1)通过主成分分析计算标准化矩阵M的协方差矩阵Cov(Xi,Xj),然后得到协方差矩阵的特征值λ={λ1,λ2,...,λk}和特征向量C=(c1,c2,...,ck);
步骤2.2)依据特征值大小对特征向量进行降序排序,给出成分的重要性级别;
步骤2.3)选择重要性级别最高的两个特征向量组成平面L,即第一个新坐标轴选取原始数据中方差最大的方向作为x轴,第二个新坐标轴选取与第一个新坐标轴正交的平面内所有方向中方差最大的方向作为y轴;
步骤3)根据步骤2)得到的平面L,分别求出原始数据各维度与x、y轴的余弦距离cosθi1和cosθi2,得到原始数据各维度在该平面L上投影的角度与向量长度,即构成原始数据各维度在平面L上的投影坐标(xi,yi);所述的余弦距离cosθi1和cosθi2的计算公式为:
式(4)-(5)中,θi1为原始数据各维度在x轴上投影的角度,θi2为原始数据各维度在y轴上投影的角度,为原始数据维度,为x轴向量,为y轴向量;
步骤4)根据步骤3)得到的投影坐标(xi,yi),利用步骤3)中得到的投影的角度为Radviz圆周设计合理的维度锚点布局;将步骤3)中得到的向量长度进行压缩,角度不变,计算得到Radviz维度锚点在Radviz圆周上的位置
步骤5)根据步骤4)得到的Radviz维度锚点在Radviz圆周上的位置,将所有原始数据的数据点在Radviz维度锚点的弹簧拉力作用下投影到Radviz内部,弹簧拉力大小正比于数据点在每一维度上的维度值;并根据数据分类或聚类结果对数据点进行不同颜色的着色;
步骤6)根据步骤5)得到的Radviz在二维平面上的可视化效果,将原始数据点到原点的欧拉距离作为z轴的数值,将二维平面点拉至三维立体中。
2.根据权利要求1所述的一种基于PCA-Radviz的三维数据可视化方法,其特征在于,步骤2.2)中对特征向量进行排序的具体方法为:第1个向量选择原始数据中方差最大的方向,第2个向量选取与第1个向量正交的平面中使得方差最大的方向,第3个向量选取与第1、第2个向量正交的平面中方差最大的方向,依次类推,得到k个特征向量的排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910440105.1A CN110162568B (zh) | 2019-05-24 | 2019-05-24 | 一种基于PCA-Radviz的三维数据可视化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910440105.1A CN110162568B (zh) | 2019-05-24 | 2019-05-24 | 一种基于PCA-Radviz的三维数据可视化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110162568A true CN110162568A (zh) | 2019-08-23 |
CN110162568B CN110162568B (zh) | 2021-01-08 |
Family
ID=67632576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910440105.1A Expired - Fee Related CN110162568B (zh) | 2019-05-24 | 2019-05-24 | 一种基于PCA-Radviz的三维数据可视化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110162568B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116909901A (zh) * | 2023-07-19 | 2023-10-20 | 浙江大学 | 基于富样本径向投影可信聚类的软件性能可视评价方法 |
CN118038560A (zh) * | 2024-04-12 | 2024-05-14 | 魔视智能科技(武汉)有限公司 | 驾驶员的人脸姿态预测方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6792434B2 (en) * | 2001-04-20 | 2004-09-14 | Mitsubishi Electric Research Laboratories, Inc. | Content-based visualization and user-modeling for interactive browsing and retrieval in multimedia databases |
CN104899288A (zh) * | 2015-06-05 | 2015-09-09 | 四川大学 | 基于径向布局的多维层次可视化方法 |
US20180348998A1 (en) * | 2017-06-02 | 2018-12-06 | The Research Foundation For The State University Of New York | Data access interface |
CN109271441A (zh) * | 2018-12-12 | 2019-01-25 | 南昌航空大学 | 一种高维数据可视化聚类分析方法及系统 |
-
2019
- 2019-05-24 CN CN201910440105.1A patent/CN110162568B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6792434B2 (en) * | 2001-04-20 | 2004-09-14 | Mitsubishi Electric Research Laboratories, Inc. | Content-based visualization and user-modeling for interactive browsing and retrieval in multimedia databases |
CN104899288A (zh) * | 2015-06-05 | 2015-09-09 | 四川大学 | 基于径向布局的多维层次可视化方法 |
US20180348998A1 (en) * | 2017-06-02 | 2018-12-06 | The Research Foundation For The State University Of New York | Data access interface |
CN109271441A (zh) * | 2018-12-12 | 2019-01-25 | 南昌航空大学 | 一种高维数据可视化聚类分析方法及系统 |
Non-Patent Citations (4)
Title |
---|
BJÖRN LABITZKE: "Radviz-based visual analysis of multispectral images", 《2013 COLOUR AND VISUAL COMPUTING SYMPOSIUM (CVCS)》 * |
TRAN VAN LONG等: "An optimal radial layout for high dimensional data class visualization", 《2015 INTERNATIONAL CONFERENCE ON ADVANCED TECHNOLOGIES FOR COMMUNICATIONS (ATC)》 * |
孟辉: "基于径向坐标可视化的高维数据分析方法", 《计算机工程》 * |
陆丛: "多维流数据的可视分析方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116909901A (zh) * | 2023-07-19 | 2023-10-20 | 浙江大学 | 基于富样本径向投影可信聚类的软件性能可视评价方法 |
CN116909901B (zh) * | 2023-07-19 | 2024-04-05 | 浙江大学 | 基于富样本径向投影可信聚类的软件性能可视评价方法 |
CN118038560A (zh) * | 2024-04-12 | 2024-05-14 | 魔视智能科技(武汉)有限公司 | 驾驶员的人脸姿态预测方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110162568B (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929649B2 (en) | Multi-pose face feature point detection method based on cascade regression | |
CN106874580B (zh) | 一种基于点云数据的弯管模型重建方法 | |
CN106096503A (zh) | 一种基于关键点和局部特征的三维人脸识别方法 | |
CN105551015A (zh) | 一种散乱点云图像配准方法 | |
CN108681737B (zh) | 一种复杂光照下图像特征提取方法 | |
CN110781920B (zh) | 一种室内场景点云部件语义信息的识别方法 | |
CN106484692A (zh) | 一种三维模型检索方法 | |
CN114881955A (zh) | 基于切片的环状点云缺陷提取方法、装置、设备存储介质 | |
CN109766903B (zh) | 一种基于曲面特征的点云模型曲面匹配方法 | |
CN110162568A (zh) | 一种基于PCA-Radviz的三维数据可视化方法 | |
WO2021114026A1 (zh) | 一种基于局部参考坐标系的3d形状匹配方法及装置 | |
CN107240132B (zh) | 一种利用灰度共生矩阵计算分形维数的方法 | |
CN116721144A (zh) | 一种基于点云切片的锥形孔尺寸测量方法 | |
Wang et al. | Anisotropic elliptic pdes for feature classification | |
CN104361347B (zh) | 一种基于单一图像的数控机床设计模块三维模型检索方法 | |
CN106682575A (zh) | Elm算法的人眼点云特征定位 | |
CN116295065A (zh) | 基于三维激光扫描点云数据的岩体变形量及变形趋势的描述方法 | |
CN108010114A (zh) | 基本图元点云曲面的几何形状识别方法以及特征识别方法 | |
CN104331412A (zh) | 一种在规格化三维人脸库中进行人脸检索的方法 | |
CN104134073B (zh) | 一种基于一类归一化的遥感影像单类分类方法 | |
Lee et al. | Anlysis methods of the variation of facial size and shape based on 3D face scan images | |
CN106599815A (zh) | 基于标记分布的解决类别缺失问题的头部姿态估计方法 | |
CN112825084A (zh) | 一种基于平行坐标优化的多维数据可视化方法 | |
CN106485739A (zh) | 一种基于l2距离的点集配准方法 | |
CN116452842A (zh) | 基于注意力机制的精简点云数据集的聚类算法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210108 Termination date: 20210524 |
|
CF01 | Termination of patent right due to non-payment of annual fee |