CN111950651B - 高维数据处理方法及装置 - Google Patents
高维数据处理方法及装置 Download PDFInfo
- Publication number
- CN111950651B CN111950651B CN202010851642.8A CN202010851642A CN111950651B CN 111950651 B CN111950651 B CN 111950651B CN 202010851642 A CN202010851642 A CN 202010851642A CN 111950651 B CN111950651 B CN 111950651B
- Authority
- CN
- China
- Prior art keywords
- dimension
- data
- reduced
- scatter
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 230000009467 reduction Effects 0.000 claims abstract description 97
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 78
- 239000011159 matrix material Substances 0.000 claims abstract description 59
- 238000010586 diagram Methods 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000003993 interaction Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 5
- 238000007621 cluster analysis Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013079 data visualisation Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011985 exploratory data analysis Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- User Interface Of Digital Computer (AREA)
- Image Generation (AREA)
Abstract
本发明公开了一种高维数据处理方法及装置。其中,该方法包括:获取与高维数据对应的降维算法;采用上述降维算法对上述高维数据进行降维处理,得到降维后数据;确定与上述降维后数据对应的散点矩阵图,其中,上述散点矩阵图包括多个降维散点集合,上述降维散点集合用于展示上述降维后数据中所有维度中每两个维度之间的数据关系。本发明解决了现有技术中无法展示多个数据维度之间的关联蕴含的数据特征,缺乏有效对高维数据进行可视分析的技术问题。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种高维数据处理方法及装置。
背景技术
现有技术中,各个行业的数据都呈现出爆发式的增长,数据量的增加导致了数据维度的爆炸,多个数据维度之间的关联蕴含了丰富的数据特征。如何实现采用可视化分析对高维大数据的定性的探索式分析,为大数据分析提供重要的技术补充。
高维数据可视化,尤其是科研高维大数据可视化和可视分析中,常用的方法包括基于图形设计方法和普通降维算法。基于图形设计方法进行分析需要有足够大的屏幕空间来涵盖所有数据维度的显示;基于降维算法进行分析需要在低维空间尽量保留原始高维空间的特征信息。上述两种现有处理方案均是当前高维数据可视化面临的挑战,缺乏有效地支持虚拟现实环境中高维数据可视分析的方案,导致无法展示多个数据维度之间的关联蕴含的数据特征。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种高维数据处理方法及装置,以至少解决现有技术中无法展示多个数据维度之间的关联蕴含的数据特征,缺乏有效对高维数据进行可视分析的技术问题。
根据本发明实施例的一个方面,提供了一种高维数据处理方法,包括:获取与高维数据对应的降维算法;采用上述降维算法对上述高维数据进行降维处理,得到降维后数据;确定与上述降维后数据对应的散点矩阵图,其中,上述散点矩阵图包括多个降维散点集合,上述降维散点集合用于展示上述降维后数据中所有维度中每两个维度之间的数据关系。
可选的,获取与高维数据对应的降维算法,包括:获取上述高维数据的需求信息;基于上述需求信息确定上述高维数据的类别,其中,上述类别包括以下至少之一:线性维度类、非线性维度类和可回溯维度类;依据上述类别确定上述降维算法,其中,上述降维算法包括以下至少之一:线性降维PCA算法、非线性降维T-SNE算法、复原降维VAE算法。
可选的,采用上述降维算法对上述高维数据进行降维处理,包括以下至少之一:采用上述线性降维PCA算法对第一高维数据进行降维,其中,上述第一高维数据为各个维度之间存在线性关系的高维数据;采用上述非线性降维T-SNE算法对第二高维数据进行降维,其中,上述第二高维数据为各个维度之间存在非线性关系的高维数据;采用上述复原降维VAE算法对第三高维数据进行降维,其中,上述第三高维数据为具有低维可复原高维特征的高维数据。
可选的,确定与上述降维后数据对应的散点矩阵图,包括:确定与上述降维后数据对应的点云数据;采用聚类分析算法对上述点云数据中每一个点进行聚类处理,得到多个不同类别的上述降维散点集合;基于多个不同类别的上述降维散点集合生成上述散点矩阵图。
可选的,在确定与上述降维后数据对应的散点矩阵图之后,上述方法还包括:获取面向用户的视点关注特征信息;依据上述关注特征信息确定焦距优化后的弧面虚拟屏;在上述弧面虚拟屏中展示上述散点矩阵图,其中,上述弧面虚拟屏中展示的每一个降维散点集合与用户视点之间的距离固定不变。
可选的,在确定与上述降维后数据对应的散点矩阵图之后,上述方法还包括:采用可变笔刷交互选择方式选取上述降维散点集合中的目标散点集合;在弧面虚拟屏中展示上述目标散点集合。
可选的,采用可变笔刷交互选择方式选取上述降维散点集合中的目标散点集合,包括:在第一手柄和/或第二手柄移动的过程中,获取上述第一手柄和上述第二手柄之间的距离,其中,上述第一手柄和上述第二手柄用于绘制笔刷球体,上述笔刷球体的半径长度可变;基于上述距离确定上述笔刷球体选中的目标降维后数据;将上述目标降维后数据存储至上述目标散点集合中。
可选的,基于上述距离确定上述笔刷球体选中的上述目标降维后数据,包括:基于上述距离确定上述笔刷球体的半径长度;判断上述半径长度是否大于预定长度;在确定上述半径长度大于上述预定长度时,获取上述笔刷球体选中的上述目标降维后数据。
可选的,在弧面虚拟屏中展示上述目标散点集合,包括:获取与上述目标散点集合对应的目标降维后数据;在弧面虚拟屏中展示上述目标降维后数据中所有维度中每两个维度之间的数据关系。
根据本发明实施例的另一方面,还提供了一种高维数据处理装置,包括:获取模块,用于获取与高维数据对应的降维算法;处理模块,用于采用上述降维算法对上述高维数据进行降维处理,得到降维后数据;确定模块,用于确定与上述降维后数据对应的散点矩阵图,其中,上述散点矩阵图包括多个降维散点集合,上述降维散点集合用于展示上述降维后数据中所有维度中每两个维度之间的数据关系。
根据本发明实施例的另一方面,还提供了一种非易失性存储介质,上述非易失性存储介质存储有多条指令,上述指令适于由处理器加载并执行任意一项的高维数据处理方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器和存储器;其中,上述存储器存储有计算机程序,上述计算机程序适于由上述处理器加载并执行任意一项的高维数据处理方法。
在本发明实施例中,通过获取与高维数据对应的降维算法;采用上述降维算法对上述高维数据进行降维处理,得到降维后数据;确定与上述降维后数据对应的散点矩阵图,其中,上述散点矩阵图包括多个降维散点集合,上述降维散点集合用于展示上述降维后数据中所有维度中每两个维度之间的数据关系,达到了确定高维数据中多个数据维度之间的关联蕴含的数据特征的目的,从而实现了有效支持虚拟现实环境中高维数据可视分析的技术效果,进而解决了现有技术中无法展示多个数据维度之间的关联蕴含的数据特征,缺乏有效对高维数据进行可视分析的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种高维数据处理方法的流程图;
图2是根据本发明实施例的一种可选的降维模型的结构示意图;
图3是根据本发明实施例的一种可选的散点矩阵的示意图;
图4是根据本发明实施例的一种可选的可视交互模型的示意图;
图5是根据本发明实施例的一种可选的可视交互模型的方法流程图;
图6是根据本发明实施例的一种高维数据处理装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种高维数据处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种高维数据处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取与高维数据对应的降维算法;
步骤S104,采用上述降维算法对上述高维数据进行降维处理,得到降维后数据;
步骤S106,确定与上述降维后数据对应的散点矩阵图,其中,上述散点矩阵图包括多个降维散点集合,上述降维散点集合用于展示上述降维后数据中所有维度中每两个维度之间的数据关系。
在本发明实施例中,通过获取与高维数据对应的降维算法;采用上述降维算法对上述高维数据进行降维处理,得到降维后数据;确定与上述降维后数据对应的散点矩阵图,其中,上述散点矩阵图包括多个降维散点集合,上述降维散点集合用于展示上述降维后数据中所有维度中每两个维度之间的数据关系,达到了确定高维数据中多个数据维度之间的关联蕴含的数据特征的目的,从而实现了有效支持虚拟现实环境中高维数据可视分析的技术效果,进而解决了现有技术中无法展示多个数据维度之间的关联蕴含的数据特征,缺乏有效对高维数据进行可视分析的技术问题。
本申请实施例所提供的高维数据处理方法可以但不限于应用于金融领域中,基于虚拟现实的高维数据可视分析平台进行实现,具体可以应用于虚拟现实环境可视分析任务模型中进行实现,例如,可以采用该虚拟现实环境可视分析任务模型,实现在虚拟现实空间中利用手柄对三维点云进行快速选择。
需要说明的是,本申请实施例中的虚拟现实环境可视分析任务模型主要用于在虚拟现实环境下对高维大数据进行有效的可视分析。上述虚拟现实环境可视分析任务模型包括三部分:降维模型DRM(Dimension Reduction Model)、多维可视化模型ASM(Arc ScatterMatrix Model)和可视交互模型BQBM(Bubble Queen Brush Model),其中,降维模型针对不同的任务选择不同的降维算法,以实现对数据的有效降维;多维可视化模型实现焦距优化的可扩展的散点矩阵可视化;可视交互模型实现的是虚拟现实环境中的三维点云可变笔刷选择。
可选的,上述高维数据即高维大数据,可以为高维金融数据;上述降维算法包括以下至少之一:线性降维PCA算法、非线性降维T-SNE算法、复原降维VAE算法。
在一种可选的实施例中,获取与高维数据对应的降维算法,包括:
步骤S202,获取上述高维数据的需求信息;
步骤S204,基于上述需求信息确定上述高维数据的类别,其中,上述类别包括以下至少之一:线性维度类、非线性维度类和可回溯维度类;
步骤S206,依据上述类别确定上述降维算法。
作为一种可选的实施例,可以采用降维模型DRM针对高维大数据的所述类别,分别对应采用三类降维算法:线性维度类PCA降维算法、非线性维度类T-SNE降维算法和可回溯维度类VAE降维算法。
需要说明的是,上述三类降维算法覆盖一般情况下常用的降维可视化方法,其中,上述PCA降维算法用于各维度之间存在线性关系的高维数据的降维,T-SNE降维算法用于非线性关系的高维数据的降维,VAE降维算法用于具有低维数据可复原高维数据的高维数据的降维。
在一种可选的实施例中,采用上述降维算法对上述高维数据进行降维处理,包括以下至少之一:
步骤S302,采用上述线性降维PCA算法对第一高维数据进行降维,其中,上述第一高维数据为各个维度之间存在线性关系的高维数据;
步骤S304,采用上述非线性降维T-SNE算法对第二高维数据进行降维,其中,上述第二高维数据为各个维度之间存在非线性关系的高维数据;
步骤S306,采用上述复原降维VAE算法对第三高维数据进行降维,其中,上述第三高维数据为具有低维可复原高维特征的高维数据。
如图2所示,高维数据特征选择器区分不同的高维数据的需求信息,针对不同需求信息将高维数据划分为线性维度关系、非线性维度关系和可回溯维度关系三类,分别对应至线性维度类PCA降维算法、非线性维度类T-SNE降维算法和可回溯维度类VAE降维算法。
在一种可选的实施例中,确定与上述降维后数据对应的散点矩阵图,包括:
步骤S402,确定与上述降维后数据对应的点云数据;
步骤S404,采用聚类分析算法对上述点云数据中每一个点进行聚类处理,得到多个不同类别的上述降维散点集合;
步骤S406,基于多个不同类别的上述降维散点集合生成上述散点矩阵图。
可选的,上述降维后数据可以为三维数据,对应的,上述点云数据可以为三维点云,采用聚类分析算法对上述点云数据中每一个点进行聚类处理,得到多个不同类别的上述降维散点集合;进而可以基于多个不同类别的上述降维散点集合生成上述散点矩阵图。
在一种可选的实施例中,在确定与上述降维后数据对应的散点矩阵图之后,上述方法还包括:
步骤S502,获取面向用户的视点关注特征信息;
步骤S504,依据上述关注特征信息确定焦距优化后的弧面虚拟屏;
步骤S506,在上述弧面虚拟屏中展示上述散点矩阵图,其中,上述弧面虚拟屏中展示的每一个降维散点集合与用户视点之间的距离固定不变。
可选的,上述弧面虚拟屏实质是一种弧面虚拟屏,作为一种可选的实施例,在确定与上述降维后数据对应的散点矩阵图之后,还可以采用多维可视化模型ASM实现焦距优化的可充分扩展的散点图矩阵图。
本申请实施例中,利用虚拟现实理论上无线扩大的特性,将随着维度不断增加的散点矩阵图绘制在弧面虚拟屏中,由于如果利用平面绘制散点矩阵图,会导致四周的图由于视距问题导致可视化效果不清,因此,如图3所示的弧面虚拟屏和用户视点之间的关系,本申请实施例采用获取面向用户的视点关注特征信息的方式,基于上述视点关注信息确定焦距优化后的弧面虚拟屏,用于展示散点矩阵图。
在本申请实施例中,为了保证每一个散点矩阵图到用户视点的距离不变形,且受到用户的关注度不受影响,根据用户视点关注特征信息确定弧面虚拟屏的投影弧面的弧度。
作为一种可选的实施例,可以根据视点的距离计算弧面上点的弧度,例如,可以采用余弦公式来计算,在不会让散点矩阵图过度变形的基础上,实现不同的散点图受到的关注度一致的效果。例如,可以将弧面虚拟屏横竖划分为N份,针对每一份利用u和v标记横纵两个方向的百分比,其中,上述u和v是0到1之间的小数,利用如下计算公式来计算每一份屏幕区域在Z轴方向上的值:
-(cos(fabs(u-0.5))+cos(fabs(v-0.5)))×D;
需要说明的是,上述计算公式中利用了横竖两个方向的偏移程度,视点默认对齐屏幕的中心点。u和v的绝对值之和较大时为靠近弧面虚拟屏边缘的区域,反之则是靠近中心点的位置。对两者取余弦求和,并乘上一个距离调整参数D,可以得到一个焦距优化的可扩展虚拟散点矩阵图。
在一种可选的实施例中,在确定与上述降维后数据对应的散点矩阵图之后,上述方法还包括:
步骤S602,采用可变笔刷交互选择方式选取上述降维散点集合中的目标散点集合;
步骤S604,在弧面虚拟屏中展示上述目标散点集合。
在上述可选的实施例中,本申请实施可以采用可变笔刷交互选择方式,选取降维散点集合中的目标散点集合;并将选取到的目标散点集合在弧面虚拟屏中展示。
在一种可选的实施例中,采用可变笔刷交互选择方式选取上述降维散点集合中的目标散点集合,包括:
步骤S702,在第一手柄和/或第二手柄移动的过程中,获取上述第一手柄和上述第二手柄之间的距离,其中,上述第一手柄和上述第二手柄用于绘制笔刷球体,上述笔刷球体的半径长度可变;
步骤S704,基于上述距离确定上述笔刷球体选中的目标降维后数据;
步骤S706,将上述目标降维后数据存储至上述目标散点集合中。
在上述可选的实施例中,在第一手柄和/或第二手柄移动的过程中,获取上述第一手柄和上述第二手柄之间的距离,其中,上述第一手柄和上述第二手柄用于绘制笔刷球体,上述笔刷球体的半径长度可变;基于上述距离确定上述笔刷球体选中的目标降维后数据;将上述目标降维后数据存储至上述目标散点集合中。
在上述可选的实施例中,可以采用可视交互模型BQBM实现虚拟空间中的三维点集的可变笔刷交互选择方式,利用左手手柄和右手手柄,按下按键确定开始绘制,绘制采用半径可变的球体为笔刷,包含在笔刷球内的点被选中,且笔刷球的半径由左手手柄和右手手柄之间的距离确定,如图4所示的左手手柄、右手手柄、A、B、C、D、E共五个笔刷球,在可视交互模型的示意图中,可变笔刷随着左手手柄和右手手柄的变化而变化,沿着移动路径绘制多个球体,路径上的球组成一个集合,即可方便的选取出三维散点集合,并在弧面虚拟屏中展示上述目标散点集合。
如图4所示,从起笔开始去顶球A,随着手柄移动,差值沿路径多个球,在半径变化后,得到笔刷球B,A和B之前半径都是A,依次得到A、B、C、D、E各个笔刷球。当手柄按键抬起时,结束笔刷绘制,停止散点选择操作,点击操作左右手区分功能,左手手柄按下为开始选择,右手手柄按下为清除所选区域。
如图5所示,三维点云输入进行KMean聚类处理得到聚类结果,手柄按下之后计算笔刷半径,并生成对应的笔刷球,计算选中点,即选中的三维点云,得到选中点集合;在检测到手柄移动时再次重新计算笔刷半径,并生成对应的笔刷球,计算选中点,得到选中点集合。
以上述高维数据为高维金融数据为例,采用本申请实施例所提供的高维数据处理方法,可以实现对虚拟现实环境中的高维金融数据的可视分析,若高维金融数据包含十个维度且默认选择全国4000个导入系统,作为一种可选的实施例,可以首先对高维金融数据进行预处理,将高维金融数据生成CSV格式数据,并通过VAE算法进行降维处理,将10维度降低到3个维度,三个维度的数据通过KMean算法聚类为7个类别,为后期可视化交互提供参考,选择某一区域后的系统整体效果图中包括聚类后的目标散点集合,该目标散点集合可以设置弧面虚拟屏的左下角,右上角为散点矩阵图,避免了遮挡弧面虚拟屏上的散点矩阵图。
在一种可选的实施例中,基于上述距离确定上述笔刷球体选中的上述目标降维后数据,包括:
步骤S802,基于上述距离确定上述笔刷球体的半径长度;
步骤S804,判断上述半径长度是否大于预定长度;
步骤S806,在确定上述半径长度大于上述预定长度时,获取上述笔刷球体选中的上述目标降维后数据。
在上述可选的实施例中,根据上述第一手柄和上述第二手柄之间的距离确定上述笔刷球体的半径长度,并通过判断上述半径长度是否大于预定长度;进而在确定上述半径长度大于上述预定长度时,获取上述笔刷球体选中的上述目标降维后数据。
在一种可选的实施例中,在弧面虚拟屏中展示上述目标散点集合,包括:
步骤S902,获取与上述目标散点集合对应的目标降维后数据;
步骤S904,在弧面虚拟屏中展示上述目标降维后数据中所有维度中每两个维度之间的数据关系。
在上述可选的实施例中,在弧面虚拟屏中展示上述目标散点集合,即通过获取与上述目标散点集合对应的目标降维后数据;并在弧面虚拟屏中展示上述目标降维后数据中所有维度中每两个维度之间的数据关系。通过本申请实施例可以充分利用虚拟空间,可以突破弧面虚拟屏的瓶颈限制,显示目标降维后数据中所有维度中每两个维度之间的数据关系的散点矩阵图,并且,散点矩阵图的效果根据选中的点集而变化,实时响应选择,显示选中点的高维数据两两维度之间的关系。
本申请实施例中,可以采用可变笔刷对散点数据集进行选择,实现有效地对三维散点数据进行选择,并实时将数据汇聚到选择点的集合中,同时联动散点矩阵图,实现对散点矩阵图的查看。由于散点矩阵图显示所有维度中每两个维度之间的两两关系,需要大屏幕展示。当我们选中某一个区域的降维散点集合后,对应显示该集合对应的高维数据的两两维度的关系,散点图中每一个小图即表示每两个维度之间的关系。屏幕的弧度较好的将大量的散点图呈现在虚拟空间中,避免了四周数据的视觉遗漏,同时也不会导致曲率过大导致的图形变形。
实施例2
根据本发明实施例,还提供了一种用于实施上述高维数据处理方法的装置实施例,图6是根据本发明实施例的一种高维数据处理装置的结构示意图,如图6所示,上述高维数据处理装置,包括:获取模块60、处理模块62和确定模块64,其中:
获取模块60,用于获取与高维数据对应的降维算法;处理模块62,用于采用上述降维算法对上述高维数据进行降维处理,得到降维后数据;确定模块64,用于确定与上述降维后数据对应的散点矩阵图,其中,上述散点矩阵图包括多个降维散点集合,上述降维散点集合用于展示上述降维后数据中所有维度中每两个维度之间的数据关系。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,例如,对于后者,可以通过以下方式实现:上述各个模块可以位于同一处理器中;或者,上述各个模块以任意组合的方式位于不同的处理器中。
此处需要说明的是,上述获取模块60、处理模块62和确定模块64对应于实施例1中的步骤S102至步骤S106,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在计算机终端中。
需要说明的是,本实施例的可选或优选实施方式可以参见实施例1中的相关描述,此处不再赘述。
上述的高维数据处理装置还可以包括处理器和存储器,上述获取模块60、处理模块62和确定模块64等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元,上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
根据本申请实施例,还提供了一种非易失性存储介质实施例。可选地,在本实施例中,上述非易失性存储介质包括存储的程序,其中,在上述程序运行时控制上述非易失性存储介质所在设备执行上述任意一种高维数据处理方法。
可选地,在本实施例中,上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中,上述非易失性存储介质包括存储的程序。
可选地,在程序运行时控制非易失性存储介质所在设备执行以下功能:获取与高维数据对应的降维算法;采用上述降维算法对上述高维数据进行降维处理,得到降维后数据;确定与上述降维后数据对应的散点矩阵图,其中,上述散点矩阵图包括多个降维散点集合,上述降维散点集合用于展示上述降维后数据中所有维度中每两个维度之间的数据关系。
根据本申请实施例,还提供了一种处理器实施例。可选地,在本实施例中,上述处理器用于运行程序,其中,上述程序运行时执行上述任意一种高维数据处理方法。
本申请实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取与高维数据对应的降维算法;采用上述降维算法对上述高维数据进行降维处理,得到降维后数据;确定与上述降维后数据对应的散点矩阵图,其中,上述散点矩阵图包括多个降维散点集合,上述降维散点集合用于展示上述降维后数据中所有维度中每两个维度之间的数据关系。
本申请实施例还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取与高维数据对应的降维算法;采用上述降维算法对上述高维数据进行降维处理,得到降维后数据;确定与上述降维后数据对应的散点矩阵图,其中,上述散点矩阵图包括多个降维散点集合,上述降维散点集合用于展示上述降维后数据中所有维度中每两个维度之间的数据关系。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个非易失性存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的非易失性存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种高维数据处理方法,其特征在于,包括:
获取与高维数据对应的降维算法,包括:获取所述高维数据的需求信息;基于所述需求信息确定所述高维数据的类别,其中,所述类别包括以下至少之一:线性维度类、非线性维度类和可回溯维度类;依据所述类别确定所述降维算法,其中,所述降维算法包括以下至少之一:线性降维PCA算法、非线性降维T-SNE算法、复原降维VAE算法;
采用所述降维算法对所述高维数据进行降维处理,得到降维后数据;
确定与所述降维后数据对应的散点矩阵图,其中,所述散点矩阵图包括多个降维散点集合,所述降维散点集合用于展示所述降维后数据中所有维度中每两个维度之间的数据关系;
在确定与所述降维后数据对应的散点矩阵图之后,所述方法还包括:获取面向用户的视点关注特征信息;依据所述关注特征信息确定焦距优化后的弧面虚拟屏;在所述弧面虚拟屏中展示所述散点矩阵图,其中,所述弧面虚拟屏中展示的每一个降维散点集合与用户视点之间的距离固定不变;以及,
采用可变笔刷交互选择方式选取所述降维散点集合中的目标散点集合,包括:
在第一手柄和/或第二手柄移动的过程中,获取所述第一手柄和所述第二手柄之间的距离,其中,所述第一手柄和所述第二手柄用于绘制笔刷球体,所述笔刷球体的半径长度可变;基于所述距离确定所述笔刷球体选中的目标降维后数据,包括:
基于所述距离确定所述笔刷球体的半径长度;判断所述半径长度是否大于预定长度;在确定所述半径长度大于所述预定长度时,获取所述笔刷球体选中的所述目标降维后数据;将所述目标降维后数据存储至所述目标散点集合中;
在弧面虚拟屏中展示所述目标散点集合。
2.根据权利要求1所述的方法,其特征在于,采用所述降维算法对所述高维数据进行降维处理,包括以下至少之一:
采用所述线性降维PCA算法对第一高维数据进行降维,其中,所述第一高维数据为各个维度之间存在线性关系的高维数据;
采用所述非线性降维T-SNE算法对第二高维数据进行降维,其中,所述第二高维数据为各个维度之间存在非线性关系的高维数据;
采用所述复原降维VAE算法对第三高维数据进行降维,其中,所述第三高维数据为具有低维可复原高维特征的高维数据。
3.根据权利要求1所述的方法,其特征在于,确定与所述降维后数据对应的散点矩阵图,包括:
确定与所述降维后数据对应的点云数据;
采用聚类分析算法对所述点云数据中每一个点进行聚类处理,得到多个不同类别的所述降维散点集合;
基于多个不同类别的所述降维散点集合生成所述散点矩阵图。
4.根据权利要求1所述的方法,其特征在于,在弧面虚拟屏中展示所述目标散点集合,包括:
获取与所述目标散点集合对应的目标降维后数据;
在弧面虚拟屏中展示所述目标降维后数据中所有维度中每两个维度之间的数据关系。
5.一种高维数据处理装置,其特征在于,包括:
获取模块,用于获取与高维数据对应的降维算法,包括:获取所述高维数据的需求信息;基于所述需求信息确定所述高维数据的类别,其中,所述类别包括以下至少之一:线性维度类、非线性维度类和可回溯维度类;依据所述类别确定所述降维算法,其中,所述降维算法包括以下至少之一:线性降维PCA算法、非线性降维T-SNE算法、复原降维VAE算法;
处理模块,用于采用所述降维算法对所述高维数据进行降维处理,得到降维后数据;
确定模块,用于确定与所述降维后数据对应的散点矩阵图,其中,所述散点矩阵图包括多个降维散点集合,所述降维散点集合用于展示所述降维后数据中所有维度中每两个维度之间的数据关系;在确定与所述降维后数据对应的散点矩阵图之后,所述确定模块还用于:获取面向用户的视点关注特征信息;依据所述关注特征信息确定焦距优化后的弧面虚拟屏;在所述弧面虚拟屏中展示所述散点矩阵图,其中,所述弧面虚拟屏中展示的每一个降维散点集合与用户视点之间的距离固定不变;以及,采用可变笔刷交互选择方式选取所述降维散点集合中的目标散点集合,包括:在第一手柄和/或第二手柄移动的过程中,获取所述第一手柄和所述第二手柄之间的距离,其中,所述第一手柄和所述第二手柄用于绘制笔刷球体,所述笔刷球体的半径长度可变;基于所述距离确定所述笔刷球体选中的目标降维后数据,包括:基于所述距离确定所述笔刷球体的半径长度;判断所述半径长度是否大于预定长度;在确定所述半径长度大于所述预定长度时,获取所述笔刷球体选中的所述目标降维后数据;将所述目标降维后数据存储至所述目标散点集合中;在弧面虚拟屏中展示所述目标散点集合。
6.一种非易失性存储介质,其特征在于,所述非易失性存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1至4中任意一项的高维数据处理方法。
7.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至4中任意一项的高维数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010851642.8A CN111950651B (zh) | 2020-08-21 | 2020-08-21 | 高维数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010851642.8A CN111950651B (zh) | 2020-08-21 | 2020-08-21 | 高维数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111950651A CN111950651A (zh) | 2020-11-17 |
CN111950651B true CN111950651B (zh) | 2024-02-09 |
Family
ID=73359848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010851642.8A Active CN111950651B (zh) | 2020-08-21 | 2020-08-21 | 高维数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950651B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626414A (zh) * | 2021-08-26 | 2021-11-09 | 国家电网有限公司 | 一种高维数据集的数据降维、去噪方法 |
CN115600268A (zh) * | 2022-04-19 | 2023-01-13 | 南京天洑软件有限公司(Cn) | 高维数据集可视化方法及装置、电子设备、存储介质 |
CN117173496B (zh) * | 2023-09-20 | 2024-04-02 | 重庆大学 | 一种保持一维拓扑特征的高维数据降维方法及系统 |
CN117909635B (zh) * | 2023-12-26 | 2024-10-01 | 北京邮电大学 | 用于散点图矩阵的散点图关联方法及装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102854445A (zh) * | 2012-10-18 | 2013-01-02 | 上海市电力公司 | 一种局部放电脉冲电流的波形特征提取方法 |
CN105160352A (zh) * | 2015-08-18 | 2015-12-16 | 中南大学 | 一种基于维度重构的高维数据子空间聚类投影效果优化方法 |
CN105868928A (zh) * | 2016-04-29 | 2016-08-17 | 西南石油大学 | 一种油田运营风险高维评估方法 |
CN106845728A (zh) * | 2017-02-14 | 2017-06-13 | 北京邮电大学 | 一种电力变压器缺陷的预测方法及装置 |
US10148680B1 (en) * | 2015-06-15 | 2018-12-04 | ThetaRay Ltd. | System and method for anomaly detection in dynamically evolving data using hybrid decomposition |
CN109344194A (zh) * | 2018-09-20 | 2019-02-15 | 北京工商大学 | 基于子空间聚类的农药残留高维数据可视分析方法与系统 |
CN110096500A (zh) * | 2019-05-07 | 2019-08-06 | 上海海洋大学 | 一种面向海洋多维数据的可视分析方法及系统 |
CN110275909A (zh) * | 2019-06-06 | 2019-09-24 | 太原理工大学 | 基于de-mic算法检测多变量相关性方法和系统 |
CN110532444A (zh) * | 2019-07-22 | 2019-12-03 | 中国电力科学研究院有限公司 | 一种高维电力大数据可视化方法及系统 |
CN110659924A (zh) * | 2018-06-29 | 2020-01-07 | 北京奇虎科技有限公司 | 一种产品竞争关系可视化分析方法、装置及设备 |
CN111340108A (zh) * | 2020-02-25 | 2020-06-26 | 重庆邮电大学 | 一种基于最优传输理论的高维数据可视化方法 |
CN111340685A (zh) * | 2020-02-14 | 2020-06-26 | 中国地质大学(武汉) | 一种用于遥感数据处理的流形降维方法 |
CN111553485A (zh) * | 2020-04-30 | 2020-08-18 | 深圳前海微众银行股份有限公司 | 基于联邦学习模型的视图显示方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020014533A1 (en) * | 1995-12-18 | 2002-02-07 | Xiaxun Zhu | Automated object dimensioning system employing contour tracing, vertice detection, and forner point detection and reduction methods on 2-d range data maps |
-
2020
- 2020-08-21 CN CN202010851642.8A patent/CN111950651B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102854445A (zh) * | 2012-10-18 | 2013-01-02 | 上海市电力公司 | 一种局部放电脉冲电流的波形特征提取方法 |
US10148680B1 (en) * | 2015-06-15 | 2018-12-04 | ThetaRay Ltd. | System and method for anomaly detection in dynamically evolving data using hybrid decomposition |
CN105160352A (zh) * | 2015-08-18 | 2015-12-16 | 中南大学 | 一种基于维度重构的高维数据子空间聚类投影效果优化方法 |
CN105868928A (zh) * | 2016-04-29 | 2016-08-17 | 西南石油大学 | 一种油田运营风险高维评估方法 |
CN106845728A (zh) * | 2017-02-14 | 2017-06-13 | 北京邮电大学 | 一种电力变压器缺陷的预测方法及装置 |
CN110659924A (zh) * | 2018-06-29 | 2020-01-07 | 北京奇虎科技有限公司 | 一种产品竞争关系可视化分析方法、装置及设备 |
CN109344194A (zh) * | 2018-09-20 | 2019-02-15 | 北京工商大学 | 基于子空间聚类的农药残留高维数据可视分析方法与系统 |
CN110096500A (zh) * | 2019-05-07 | 2019-08-06 | 上海海洋大学 | 一种面向海洋多维数据的可视分析方法及系统 |
CN110275909A (zh) * | 2019-06-06 | 2019-09-24 | 太原理工大学 | 基于de-mic算法检测多变量相关性方法和系统 |
CN110532444A (zh) * | 2019-07-22 | 2019-12-03 | 中国电力科学研究院有限公司 | 一种高维电力大数据可视化方法及系统 |
CN111340685A (zh) * | 2020-02-14 | 2020-06-26 | 中国地质大学(武汉) | 一种用于遥感数据处理的流形降维方法 |
CN111340108A (zh) * | 2020-02-25 | 2020-06-26 | 重庆邮电大学 | 一种基于最优传输理论的高维数据可视化方法 |
CN111553485A (zh) * | 2020-04-30 | 2020-08-18 | 深圳前海微众银行股份有限公司 | 基于联邦学习模型的视图显示方法、装置、设备及介质 |
Non-Patent Citations (4)
Title |
---|
Dynamic Balanced Scorecard with Rough Set and Fuzzy Evaluation;Pei Zheng等;《IEEE》;第853-855页 * |
全球气候变化模拟结果数据的远程抽取及其可视化;谭清海等;《地震》;第153-161页 * |
多视图协同的海洋多要素环境数据关联关系分析方法;贺琪等;《上海海洋大学信息学院》;第533-542页 * |
面向大规模数据的科学可视化系统GPVis;单桂华等;《数据与计算发展前沿》;第46-62页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111950651A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950651B (zh) | 高维数据处理方法及装置 | |
US10872446B2 (en) | Systems and methods for high dimensional 3D data visualization | |
CN110807451B (zh) | 人脸关键点检测方法、装置、设备及存储介质 | |
Feixas et al. | A unified information-theoretic framework for viewpoint selection and mesh saliency | |
US10409856B2 (en) | Approaches for associating terms with image regions | |
JP4916548B2 (ja) | 画像のドミナントライン(dominantline)の確定及び使用 | |
US10325372B2 (en) | Intelligent auto-cropping of images | |
US20130127838A1 (en) | Systems and methods for providing a three-dimensional display of a digital image | |
CN111680678A (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
CN101639767A (zh) | 用于改善图形性能的方法、装置和计算机程序产品 | |
CN107563958B (zh) | 全息图像转换方法和系统 | |
US7991225B2 (en) | Methods and systems for dynamic color equalization | |
CN115731442A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
Chagnon-Forget et al. | Enhanced visual-attention model for perceptually improved 3D object modeling in virtual environments | |
CN112101376B (zh) | 图像处理方法、装置、电子设备和计算机可读介质 | |
CN114693889A (zh) | 一种增强现实场景构建系统及方法 | |
CN114238677A (zh) | 一种多视图展示方法、装置、设备和介质 | |
CN112016609A (zh) | 一种图像聚类方法、装置、设备及计算机存储介质 | |
CN116584100A (zh) | 适合于覆盖媒体内容的图像空间检测 | |
Setlur et al. | Semantic Resizing of Charts Through Generalization: A Case Study with Line Charts | |
Palma et al. | Enhanced visualization of detected 3d geometric differences | |
CN113449697B (zh) | 视频信息处理方法、设备及计算机存储介质 | |
Zellinger et al. | Improving visual discomfort prediction for stereoscopic images via disparity-based contrast | |
CN114407364B (zh) | 三维模型的切片方法、打印方法、打印系统及电子设备 | |
CN114219808B (zh) | 图像处理方法、装置、设备、存储介质和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |