CN110162568A - 一种基于PCA-Radviz的三维数据可视化方法 - Google Patents

一种基于PCA-Radviz的三维数据可视化方法 Download PDF

Info

Publication number
CN110162568A
CN110162568A CN201910440105.1A CN201910440105A CN110162568A CN 110162568 A CN110162568 A CN 110162568A CN 201910440105 A CN201910440105 A CN 201910440105A CN 110162568 A CN110162568 A CN 110162568A
Authority
CN
China
Prior art keywords
data
radviz
dimension
vector
axis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910440105.1A
Other languages
English (en)
Other versions
CN110162568B (zh
Inventor
殷晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910440105.1A priority Critical patent/CN110162568B/zh
Publication of CN110162568A publication Critical patent/CN110162568A/zh
Application granted granted Critical
Publication of CN110162568B publication Critical patent/CN110162568B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于PCA‑Radviz的三维数据可视化方法,其步骤为:1)对原始数据进行标准化处理;2)将处理后的数据进行主成分分析(PCA),得到以贡献度最大的两维向量为x、y轴构成的平面;3)分别求出数据原始维度与x、y轴的余弦距离,得到原始维度在该平面上投影的角度与向量长度;4)利用上一步骤中得到的角度为Radviz圆周设计合理的维度锚点布局;5)将数据样本以圆点模式投影到Radviz单位圆内部;6)扩展z轴,将二维平面点拉至三维立体中。本发明基于PCA‑Radviz对集中不同类别数据样本的数据进行展示,不但为用户提供了尽可能多的数据聚类信息,而且达到了更好的数据可视化效果,从而使用户进行更加快速、直观、准确的决策。

Description

一种基于PCA-Radviz的三维数据可视化方法
技术领域
本发明属于计算机信息处理技术领域,涉及到一种基于PCA-Radviz的三维数据可视化方法。
背景技术
随着大数据时代的到来,数据挖掘俨然成为了一个数据分析的热门研究方向。其包含的分析方法具有全自动化、高效节约的特点,但由于缺乏人机交互的矫正过程,其准确率通常低于人工分析的结果。而数据可视化很好地弥补了此项缺点,提高了人类的认知能力。Radviz(Radial Coordinate Visualization)是基于弹簧模型的可视化算法。它提供了一种特殊的思路来观察数据间的关系,可从全局出发研究高维数据。
经典Radviz算法的主要思想是将具有高维属性的点使用非线性方法映射到二维圆坐标平面上,达到增强直观效果的目的。具体过程为,圆周上的维度锚点以其对应的属性值的力将中心样本点向圆周方向拉拽,中心样本点由于受力不平衡开始位移。将每根连接中心样本点和圆周维度锚点的线看作物理模型中的弹簧,并且假设每根弹簧的弹性系数相同。当各个方向对中心样本点的作用力合力为零时,中心样本点就会停止位移,所处位置即平衡状态,可通过胡克定律计算,形成了一种弹簧模型。该算法具有计算复杂度低、可视化效果强的优点,但具有一定的局限性:1.会弱化甚至消除原始n维空间中数据间的一些聚类信息;2.算法的非线性映射导致了最终映射结果为多对一的关系。这两种局限性在一定程度上削弱了该算法最终的可视化效果,使其无法达到最优。
发明内容
本发明针对现有技术的不足,提供一种基于PCA-Radviz的三维数据可视化方法,为用户展示了数据间的隐藏关系,帮助用户在茫茫数据中以清晰直观的方式观察、探索数据相关性,从中获得信息进行更加精准有效的数据挖掘及其后续应用。
本发明的技术方案为:
一种基于PCA-Radviz的数据可视化方法,包含以下步骤:
步骤1)对原始数据进行标准化处理,得到标准化矩阵M;具体包括以下步骤:
步骤1.1)计算样本数据的均值μ及标准差σ,计算公式为:
其中,xi为第i个样本数据,N为样本数据的个数;
步骤1.2)根据步骤1.1)得到的均值μ及标准差σ,计算标准化处理后的转化函数,经过标准化处理的数据符合标准正态分布,即均值为0,标准差为1;标准化处理后的数据变化范围为-1≤x*≤1;所述的标准化处理数据公式为:
其中,x*为标准化处理后的数据;
步骤2)根据步骤1)得到的标准化矩阵M,进行主成分分析(PCA);
步骤2.1)通过PCA计算标准化矩阵M的协方差矩阵Cov(Xi,Xj),然后得到协方差矩阵的特征值λ={λ12,…,λk}和特征向量C=(c1,c2,…,ck);
步骤2.2)依据特征值大小对特征向量进行降序排序,给出成分的重要性级别;
步骤2.3)选择重要性级别最高的两个特征向量组成平面L,即第一个新坐标轴选取原始数据中方差最大的方向作为x轴,第二个新坐标轴选取与第一个新坐标轴正交的平面内所有方向中方差最大的方向作为y轴。
步骤3)根据步骤2)得到的平面L,分别求出原始数据各维度与x、y轴的余弦距离cosθi1和cosθi2,得到原始数据各维度在该平面L上投影的角度与向量长度,即构成原始数据各维度在平面L上的投影坐标(xi,yi);所述的余弦距离cosθi1和cosθi2的计算公式为:
式(4)-(5)中,θi1为原始数据各维度在x轴上投影的角度,θi2为原始数据各维度在y轴上投影的角度,为原始数据维度,为x轴向量,为y轴向量。
步骤4)根据步骤3)得到的投影坐标(xi,yi),利用步骤3)中得到的投影的角度为Radviz圆周设计合理的维度锚点布局。将步骤3)中得到的向量长度进行压缩,角度不变,计算得到Radviz维度锚点在Radviz圆周上的位置
步骤5)根据步骤4)得到的Radviz维度锚点在Radviz圆周上的位置,将所有原始数据的数据点在Radviz维度锚点的弹簧拉力作用下投影到Radviz内部,弹簧拉力大小正比于原始数据的数据点在每一维度上的维度值;并根据数据分类或聚类结果对数据点进行不同颜色的着色。
步骤6)根据步骤5)得到的Radviz在二维平面上的可视化效果,扩展z轴(即原始数据点到原点的欧拉距离),将二维平面点拉至三维立体中。
进一步地,步骤2.2)中对特征向量进行排序的具体方法为:第1个向量选择原始数据中方差最大的方向,第2个向量选取与第1个向量正交的平面中使得方差最大的方向,第3个向量是与第1、第2个向量正交的平面中方差最大的方向,依次类推,得到k个特征向量的排序。
本发明的有益效果:本发明提供了一种基于PCA-Radviz的三维数据可视化方法,基于PCA-Radviz对集中不同类别数据样本的数据进行展示,不但为用户提供了尽可能多的数据聚类信息,而且达到了更好的数据可视化效果,从而使用户进行更加快速、直观、准确的决策。
附图说明
图1为本发明所述方法流程图。
图2为本发明实施例Wine数据经PCA处理维度锚点布局流程图。
图3为本发明实施例Wine数据维度锚点布局的可视编码。
图4为本发明实施例Wine数据的数据点在二维平面上的可视编码。
图5为本发明实施例Wine数据的数据点在三维平面上的可视编码。
图6为Wine数据的数据点在三维平面上的散点可视编码。
具体实施方式
为使本发明的目的、设计思路和优点更加清楚,以下结合具体实例,并参照附图,对本发明作进一步详细说明。
本发明提供了一种基于PCA-Radviz的三维数据可视化方法,如图1所示,包括六个主要步骤:1)对原始数据进行标准化处理,该原始数据采用Wine数据,得到标准化矩阵M;2)对标准化矩阵M进行主成分分析(PCA),得到以贡献度最大的两维向量为x、y轴构成的平面;3)分别求出数据原始维度与x、y轴的余弦距离,得到原始维度在该平面上投影的角度与向量长度;4)利用步骤3)中得到的角度为Radviz圆周设计合理的维度锚点布局;5)将数据样本以圆点模式投影到Radviz单位圆内部;6)扩展z轴,将二维平面点拉至三维立体中。
下面对本发明的关键步骤进行逐一详细说明,具体步骤如下:
步骤一,对原始数据进行标准化处理,得到标准化矩阵M
具体包括以下步骤:
(1)计算原始数据的均值μ及标准差σ。得到均值标准差
(2)根据μ和σ计算标准化处理后的转化函数:经过处理的数据符合标准正态分布,即均值为0,标准差为1,标准化处理后的数据变化范围为-1≤x*≤1。
步骤二,进行主成分分析(PCA),得到以贡献度最大的两维向量为x、y轴构成的平面
具体包括以下步骤:
(1)通过PCA来计算标准化矩阵M的协方差矩阵Cov(Xi,Xj),然后得到协方差矩阵的特征值λ={λ12,…,λk}和特征向量C=(c1,c2,…,ck);
(2)对特征向量进行由大到小排序。具体排序过程为:第1个向量选择原始数据中方差最大的方向,第2个向量选取与第1个向量正交的平面中使得方差最大的方向,第3个向量是与第1、第2个向量正交的平面中方差最大的方向,依次类推,得到k个特征向量的排序;即将特征值λ按照由大到小的顺序进行排列,从而给出成分的重要性级别;
(3)选择特征值最大(即方差最大)的两个特征值所对应的特征向量组成平面L。
步骤三,求出数据原始维度与x、y轴的余弦距离,得到投影角度与向量长度
具体过程为:根据步骤二得到平面L,分别求出原始数据各维度与平面L的x、y轴的余弦距离得到原始数据各维度在该平面L上投影的角度与向量长度,即构成原始数据各维度在平面L上的投影坐标(xi,yi)。
步骤四,利用角度为Radviz圆周设计合理的维度锚点布局
流程如图2所示,为使维度锚点坐标落在Radviz单位圆上,将步骤三中得到的向量长度进行压缩,角度不变,计算得到Radviz维度锚点在Radviz圆周上的位置结果如图3所示。
步骤五,将数据样本以圆点模式投影到Radviz单位圆内部
如图4所示,将所有的数据点在Radviz维度锚点的弹簧拉力作用下投影到Radviz内部,弹簧拉力大小正比于数据点在每一维度上的维度值,并根据数据分类或聚类结果对数据点进行不同颜色的着色。
步骤六,扩展z轴,将二维平面点拉至三维立体中
如图5所示,根据步骤五中的Radviz二维平面可视化效果,计算原始数据点到原点的欧拉距离,将其作为z轴的数值,将二维平面点拉至三维立体中。

Claims (2)

1.一种基于PCA-Radviz的三维数据可视化方法,其特征在于,所述的方法包括以下步骤:
步骤1)对原始数据进行标准化处理,得到标准化矩阵M;
步骤1.1)计算样本数据的均值μ及标准差σ,计算公式为:
其中,xi为第i个样本数据,N为样本数据的个数;
步骤1.2)根据步骤1.1)得到的均值μ及标准差σ,计算标准化处理后的转化函数,经过标准化处理的数据符合标准正态分布,即均值为0,标准差为1;标准化处理后的数据变化范围为-1≤x*≤1;所述的标准化处理数据公式为:
其中,x*为标准化处理后的数据;
步骤2)根据步骤1)得到的标准化矩阵M,进行主成分分析;步骤2.1)通过主成分分析计算标准化矩阵M的协方差矩阵Cov(Xi,Xj),然后得到协方差矩阵的特征值λ={λ1,λ2,...,λk}和特征向量C=(c1,c2,...,ck);
步骤2.2)依据特征值大小对特征向量进行降序排序,给出成分的重要性级别;
步骤2.3)选择重要性级别最高的两个特征向量组成平面L,即第一个新坐标轴选取原始数据中方差最大的方向作为x轴,第二个新坐标轴选取与第一个新坐标轴正交的平面内所有方向中方差最大的方向作为y轴;
步骤3)根据步骤2)得到的平面L,分别求出原始数据各维度与x、y轴的余弦距离cosθi1和cosθi2,得到原始数据各维度在该平面L上投影的角度与向量长度,即构成原始数据各维度在平面L上的投影坐标(xi,yi);所述的余弦距离cosθi1和cosθi2的计算公式为:
式(4)-(5)中,θi1为原始数据各维度在x轴上投影的角度,θi2为原始数据各维度在y轴上投影的角度,为原始数据维度,为x轴向量,为y轴向量;
步骤4)根据步骤3)得到的投影坐标(xi,yi),利用步骤3)中得到的投影的角度为Radviz圆周设计合理的维度锚点布局;将步骤3)中得到的向量长度进行压缩,角度不变,计算得到Radviz维度锚点在Radviz圆周上的位置
步骤5)根据步骤4)得到的Radviz维度锚点在Radviz圆周上的位置,将所有原始数据的数据点在Radviz维度锚点的弹簧拉力作用下投影到Radviz内部,弹簧拉力大小正比于数据点在每一维度上的维度值;并根据数据分类或聚类结果对数据点进行不同颜色的着色;
步骤6)根据步骤5)得到的Radviz在二维平面上的可视化效果,将原始数据点到原点的欧拉距离作为z轴的数值,将二维平面点拉至三维立体中。
2.根据权利要求1所述的一种基于PCA-Radviz的三维数据可视化方法,其特征在于,步骤2.2)中对特征向量进行排序的具体方法为:第1个向量选择原始数据中方差最大的方向,第2个向量选取与第1个向量正交的平面中使得方差最大的方向,第3个向量选取与第1、第2个向量正交的平面中方差最大的方向,依次类推,得到k个特征向量的排序。
CN201910440105.1A 2019-05-24 2019-05-24 一种基于PCA-Radviz的三维数据可视化方法 Expired - Fee Related CN110162568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910440105.1A CN110162568B (zh) 2019-05-24 2019-05-24 一种基于PCA-Radviz的三维数据可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910440105.1A CN110162568B (zh) 2019-05-24 2019-05-24 一种基于PCA-Radviz的三维数据可视化方法

Publications (2)

Publication Number Publication Date
CN110162568A true CN110162568A (zh) 2019-08-23
CN110162568B CN110162568B (zh) 2021-01-08

Family

ID=67632576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910440105.1A Expired - Fee Related CN110162568B (zh) 2019-05-24 2019-05-24 一种基于PCA-Radviz的三维数据可视化方法

Country Status (1)

Country Link
CN (1) CN110162568B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116909901A (zh) * 2023-07-19 2023-10-20 浙江大学 基于富样本径向投影可信聚类的软件性能可视评价方法
CN118038560A (zh) * 2024-04-12 2024-05-14 魔视智能科技(武汉)有限公司 驾驶员的人脸姿态预测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6792434B2 (en) * 2001-04-20 2004-09-14 Mitsubishi Electric Research Laboratories, Inc. Content-based visualization and user-modeling for interactive browsing and retrieval in multimedia databases
CN104899288A (zh) * 2015-06-05 2015-09-09 四川大学 基于径向布局的多维层次可视化方法
US20180348998A1 (en) * 2017-06-02 2018-12-06 The Research Foundation For The State University Of New York Data access interface
CN109271441A (zh) * 2018-12-12 2019-01-25 南昌航空大学 一种高维数据可视化聚类分析方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6792434B2 (en) * 2001-04-20 2004-09-14 Mitsubishi Electric Research Laboratories, Inc. Content-based visualization and user-modeling for interactive browsing and retrieval in multimedia databases
CN104899288A (zh) * 2015-06-05 2015-09-09 四川大学 基于径向布局的多维层次可视化方法
US20180348998A1 (en) * 2017-06-02 2018-12-06 The Research Foundation For The State University Of New York Data access interface
CN109271441A (zh) * 2018-12-12 2019-01-25 南昌航空大学 一种高维数据可视化聚类分析方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BJÖRN LABITZKE: "Radviz-based visual analysis of multispectral images", 《2013 COLOUR AND VISUAL COMPUTING SYMPOSIUM (CVCS)》 *
TRAN VAN LONG等: "An optimal radial layout for high dimensional data class visualization", 《2015 INTERNATIONAL CONFERENCE ON ADVANCED TECHNOLOGIES FOR COMMUNICATIONS (ATC)》 *
孟辉: "基于径向坐标可视化的高维数据分析方法", 《计算机工程》 *
陆丛: "多维流数据的可视分析方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116909901A (zh) * 2023-07-19 2023-10-20 浙江大学 基于富样本径向投影可信聚类的软件性能可视评价方法
CN116909901B (zh) * 2023-07-19 2024-04-05 浙江大学 基于富样本径向投影可信聚类的软件性能可视评价方法
CN118038560A (zh) * 2024-04-12 2024-05-14 魔视智能科技(武汉)有限公司 驾驶员的人脸姿态预测方法及装置

Also Published As

Publication number Publication date
CN110162568B (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN109887015B (zh) 一种基于局部曲面特征直方图的点云自动配准方法
CN110096500B (zh) 一种面向海洋多维数据的可视分析方法及系统
Li et al. A stable direct solution of perspective-three-point problem
Collins et al. Vanishing point calculation as a statistical inference on the unit sphere.
CN106600537B (zh) 一种反距离权重的异向性三维空间插值方法
CN109215129B (zh) 一种基于三维点云的局部特征描述方法
CN105118059A (zh) 一种多尺度坐标轴夹角特征的点云快速配准方法
CN110162568A (zh) 一种基于PCA-Radviz的三维数据可视化方法
CN110136178B (zh) 一种基于端点拟合的三维激光点云配准方法及装置
Han et al. An adaptive GRP scheme for compressible fluid flows
CN109472300A (zh) 一种面向k均值聚类算法的质心以及质心个数初始化方法
CN108764676A (zh) 一种高维多目标评价方法及系统
Li et al. Geometry-driven deterministic sampling for nonlinear bingham filtering
CN112164101A (zh) 三维点云匹配方法和装置
CN107391289B (zh) 一种三维笔式交互界面可用性评估方法
CN113159117A (zh) 流线生成方法及装置
CN102880869B (zh) 基于先验知识的马尔科夫随机场指纹方向场提取方法
CN106023314A (zh) 一种基于回转轴方向映射的b样条母曲线拟合方法
CN110210576A (zh) 一种地图数据的图斑相似性计算方法及系统
Hsieh et al. Diffeomorphic registration of discrete geometric distributions
Gomero et al. Detectability of cosmic topology in flat universes
CN110136179A (zh) 一种基于直线拟合的三维激光点云配准方法及装置
CN112596659B (zh) 一种基于智能语音和图像处理的绘画方法和装置
CN114119684B (zh) 基于四面体结构的标记点配准方法
Yang et al. Structured down-sampling and registration method for 3D point cloud of indoor scene

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210108

Termination date: 20210524