CN112163641B - 一种基于概率多层次图结构的高维数据可视化方法 - Google Patents
一种基于概率多层次图结构的高维数据可视化方法 Download PDFInfo
- Publication number
- CN112163641B CN112163641B CN202011193041.9A CN202011193041A CN112163641B CN 112163641 B CN112163641 B CN 112163641B CN 202011193041 A CN202011193041 A CN 202011193041A CN 112163641 B CN112163641 B CN 112163641B
- Authority
- CN
- China
- Prior art keywords
- data
- graph structure
- dimensional
- probability
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明涉及数据可视化及降维技术领域,具体地说,涉及一种基于概率多层次图结构的高维数据可视化方法。
背景技术
高维数据可视化是数据分析中的重要任务,对于深度学习,生命科学和网络分析等方向起着至关重要的作用。降维算法学习数据中的复杂信息,将高维数据转换为低维数据,从而分析数据的分布。
在过去的几十年中,已经有大量高维数据的可视化方法被提出。t-SNE算法是最成功的降维算法之一,公布号为CN110458187A的发明专利申请文献公开的恶意代码家族聚类方法及系统,其中方法包括采用了T-SNE算法对原始恶意代码执行序列进行降维可视化。公布号为CN107478418A的发明专利申请文献公开的旋转机械故障特征自动提取方法,其中采用t-SNE算法对获得的高维特征进行降维处理实现故障特征的可视化,由此可根据提取的特征对未知的故障信号实现故障诊断。
t-SNE算法往往用于可视化具有固有非线性结构的高维数据,但是,t-SNE由于计算复杂度与数据点的数量成平方关系,难以处理日益增长的大规模数据。尽管BH-SNE,LargeVis等算法通过构造最近邻网络和负采样技术来获得更小的算法复杂度,但是这些方法在应用于大规模数据时仍面临两个主要问题:1)可视化效果往往不够令人满意;2)优化过程仍然很耗时。因此科研人员需要使用更快更好的降维算法来满足他们的任务。
发明内容
本发明的目的是提供一种基于概率多层次图结构的高维数据可视化方法,可以加快优化过程,并优化可视化效果。
为了实现上述目的,本发明提供的基于概率多层次图结构的高维数据可视化方法包括以下步骤:
1)给定一个高维数据集,该数据集包含n个数据点,每个数据点的维度均为D;
4)基于低维数据构建散点视图,用于数据挖掘和分析。
上述技术方案中,通过利用层次图结构来加快优化过程,并引入基于概率的采样优化了可视化效果。由于学习了层次图的结构信息,在较不准确的k近邻算法下依然有很好的可视化效果。除此之外,本方法支持CPU和GPU的并行运算,在多核运算下有更快的速度,满足了大规模高维数据可视化的需要。
可选地,在一个实施例中,步骤2)中,概率多层次图集合的构建过程包括:
2-1)基于数据分布,构建k-d树索引,对于每个数据点,在k-d树索引中求出其k近邻;
2-3)依据每个数据的空间分布求得数据点重要性概率 定义d(xi,xj)代表数据点xi和xj的欧式距离,σi是度量空间密度的超参数,NNK(xi)是数据点xi的K阶邻域,每个数据点xi的重要性概率由其邻边空间概率P(i|j)的总和决定:
2-5)基于高维数据集X,以步骤2-2)得到的初始k近邻图结构G0作为输入,通过步骤2-4)的方法得到G1;以G1作为输入,通过同样过程得到G2,以此类推,若当前采样比例低于阈值则停止,返回一个多层次图结构集合
可选地,在一个实施例中,步骤2-4)中,随机采样方法的步骤如下:
c.从随机点池Pl中删去集合Fj,重复以上过程,直到所有点都被选择过;
可选地,在一个实施例中,步骤3)中的布局过程包括:
3-1)对于图结构Gl=(Vl,El),通过优化高维数据分布P和低维数据分布Q之间的KL散度;
步骤3-1)中,高维数据分布P通过近邻图网络求得,每个点的概率分布由其邻域点决定,而低维数据分布Q通过t分布来近似表达。利用负采样技术,简化优化目标,以一个点的邻域作为正样本,其他点随机获得负样本的方法,加快优化过程。
步骤3-2)中的概率转化过程为:已知图结构Gl由图结构Gl-1采样而来,将数据点低维表达按照概率赋值到其上一层图的对应点以及其一阶邻域获得Gl-1层降维的初始低维表达 重复此过程,得到G0层的低维表达Y0,返回高维数据X的降维结果Y={y1,y2,…,yn}。
与现有技术相比,本发明的有益之处在于:
通过本发明的基于概率多层次图结构的高维数据可视化方法可以产生优美的可视化效果;由于在并行化,重要性采样,构建k近邻图等方面的优化,拥有更好的算法复杂度。
附图说明
图1为本发明实施例中基于概率多层次图结构的高维数据可视化方法的流程图;
图2为本发明实施例中相邻层级共享梯度和布局的示意图;
图3为本发明实施例中方法与现有的比较算法的可视化效果展示。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合实施例及其附图对本发明作进一步说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
实施例
参见图1,本实施例的基于概率多层次图结构的高维数据可视化方法包括以下步骤:
S100,给定一个高维数据集X={x1,x2,…,xn},其中包含n个数据点,每个数据点的维度都是D。
其中,概率多层次图集合构建过程为:
S201,基于数据分布,构建多棵随机k-d树索引。对于每个数据点,在多棵k-d树上依次求出的k近邻,还有这些节点在k-d树空间中的邻域节点,从这些候选点得到每个数据点的k近邻。令邻域范围为K,计算每个数据点所对应的K阶邻域其中为点xi的K个最近数据点的标号。
S202,基于k近邻信息,构建初始化k近邻图结构G0=(V0,E0),其中V0代表原先高维数据点V0={v0,v1,...,vn},vi=xi,E0代表了两个数据点之间的连接边,如果数据点vj存在于数据点vi的k近邻中,满足e=(vi,vj)∈E0,vj∈NNK(vi),则增加该边。最后返回构建完成的初始近邻图结构G0。
S203,依据每个数据的空间分布求得数据点重要性概率 定义d(xi,xj)代表数据点xi和xj的欧式距离,σi是度量空间密度的超参数,NNK(xi)是数据点xi的K阶邻域。每个数据点xi的重要性概率由其邻边空间概率P(i|j)的总和决定:
S204,对于图结构Gl=(Vl,El),通过随机点采样获得聚合的图结构Gl+1=(Vl+1,El +1),其中Vl+1每个点由Vl中的多个点聚合而成。如上所述的随机点采样算法,具体如下,为图结构Gl设立一个随机点池初始化Pl为所有点的集合,每个点选中的概率依据归一化后的重要性概率Normalize(Sl)。每次从点池Pl随机选点将该点以及它在图中一阶邻域的集合聚合成一个新的点他们之间存在父子关系(公式中用Father,Son来表示),其中点为该层的关键点集合keyPointl的一员,的重要性概率为此集合Fj的重要性概率之和,随后从随机点池Pl中删去集合Fj:
S205,基于高维数据集X,通过步骤S201,步骤S202,步骤S203得到初始k近邻图结构G0。以G0作为输入,通过步骤S204可以得到G1,以G1作为输入,通过同样过程得到G2,以此类推,如果当前步骤的采样比例不高则停止,返回一个多层次图结构集合其中的每一层是前一层采样的结果;
其中,布局过程包括:
S301,对于图结构Gl=(Vl,El),通过优化高维数据分布P和低维数据分布Q之间的KL散度,在保持高维数据的邻域信息的前提下获得更好的可视化效果。定义d(yi,yj)代表数据点yi和yj在低维空间的欧式距离。高维数据分布P参考步骤S203所定义的邻边空间概率P(i|j),每个点的概率分布由其邻域点决定,而低维数据分布Q通过t分布来近似表达:
利用负采样技术,可以简化优化目标,以一个点的邻域作为正样本,其他点随机获得负样本的方法,加快优化过程:
S302,将层次图结构集合{G0,G1,…GL}的最后一层GL作为输入,通过输入步骤S301得到图结构GL的低维表达以通过概率转化作为GL-1层降维的初始低维表达YL-1。上述概率转化过程如附图2所示,每次优化过程的梯度由数据点代表的原图G0中的点聚团共享,而每一层布局的坐标会根据邻域传递到上层。具体来说已知图结构Gl由图结构Gl-1采样而来,将数据点低维表达按照概率赋值到其上一层图的对应点以及其一阶邻域获得Gl-1层降维的初始低维表达所有的关键点会被赋值为它父亲Father(vi)的坐标,而非关键点由它所有一阶邻域的关键点所决定:
重复这个过程,最后得到G0层的低维表达Y0,作为高维数据的降维结果Y={y1,y2,…,yn};
S400,基于低维数据构建散点视图,用于数据挖掘和分析。
参见图3,为采用本实施例中基于概率多层次图结构的高维数据可视化方法与采用常规比较算法的可视化效果展示,可以看出,本实施例的方法效果更佳。
Claims (7)
1.一种基于概率多层次图结构的高维数据可视化方法,其特征在于,包括以下步骤:
1)给定一个高维数据集X,该数据集包含n个数据点,每个数据点的维度均为D;
2-1)基于数据分布,构建k-d树索引,对于每个数据点,在k-d树索引中求出其k近邻;
2-3)依据每个数据的空间分布求得数据点重要性概率 定义d(xi,xj)代表数据点xi和xj的欧式距离,σi是度量空间密度的超参数,NNK(xi)是数据点xi的K阶邻域,每个数据点xi的重要性概率由其邻边空间概率P(i|j)的总和决定:
2-5)基于高维数据集X,以步骤2-2)得到的初始k近邻图结构G0作为输入,通过步骤2-4)的方法得到G1;以G1作为输入,通过同样过程得到G2,以此类推,若当前采样比例低于阈值则停止,返回一个多层次图结构集合
3-1)对于图结构Gl=(Vl,El),通过优化高维数据分布P和低维数据分布Q之间的KL散度;
4)基于低维数据构建散点视图,用于数据挖掘和分析。
4.根据权利要求1所述的基于概率多层次图结构的高维数据可视化方法,其特征在于,步骤3)中,采用重要性采样的方法逐层布局概率多层次图。
5.根据权利要求1所述的基于概率多层次图结构的高维数据可视化方法,其特征在于,步骤3-1)中,高维数据分布P通过近邻图结构求得,每个点的概率分布由其邻域点决定,而低维数据分布Q通过t分布来近似表达。
6.根据权利要求1所述的基于概率多层次图结构的高维数据可视化方法,其特征在于,步骤3-1)中,利用负采样技术,简化优化目标,以一个点的邻域作为正样本,其他点随机获得负样本的方法,加快优化过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011193041.9A CN112163641B (zh) | 2020-10-30 | 2020-10-30 | 一种基于概率多层次图结构的高维数据可视化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011193041.9A CN112163641B (zh) | 2020-10-30 | 2020-10-30 | 一种基于概率多层次图结构的高维数据可视化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112163641A CN112163641A (zh) | 2021-01-01 |
CN112163641B true CN112163641B (zh) | 2022-06-14 |
Family
ID=73866019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011193041.9A Active CN112163641B (zh) | 2020-10-30 | 2020-10-30 | 一种基于概率多层次图结构的高维数据可视化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163641B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112884040B (zh) * | 2021-02-19 | 2024-04-30 | 北京小米松果电子有限公司 | 训练样本数据的优化方法、系统、存储介质及电子设备 |
CN113537281B (zh) * | 2021-05-26 | 2024-03-19 | 山东大学 | 一种对多个高维数据进行可视化比较的降维方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678261A (zh) * | 2016-01-07 | 2016-06-15 | 西安电子科技大学 | 基于有监督图的直推式数据降维方法 |
CN108229295A (zh) * | 2017-09-22 | 2018-06-29 | 江西师范大学 | 一种基于多重局部约束的图优化维数约简方法 |
CN108520281A (zh) * | 2018-04-13 | 2018-09-11 | 上海海洋大学 | 一种基于全局与局部保持的高光谱图像半监督降维方法 |
CN109815440A (zh) * | 2019-01-16 | 2019-05-28 | 江西师范大学 | 联合图优化和投影学习的维数约简方法 |
CN110390352A (zh) * | 2019-06-26 | 2019-10-29 | 华中科技大学 | 一种基于相似性哈希的图像暗数据价值评估方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8659604B2 (en) * | 2009-09-29 | 2014-02-25 | International Business Machines Corporation | Dimensional reduction mechanisms for representing massive communication network graphs for structural queries |
WO2014210368A1 (en) * | 2013-06-28 | 2014-12-31 | D-Wave Systems Inc. | Systems and methods for quantum processing of data |
CN110188196B (zh) * | 2019-04-29 | 2021-10-08 | 同济大学 | 一种基于随机森林的文本增量降维方法 |
CN111694879B (zh) * | 2020-05-22 | 2023-10-31 | 北京科技大学 | 一种多元时间序列异常模式预测方法及数据采集监控装置 |
-
2020
- 2020-10-30 CN CN202011193041.9A patent/CN112163641B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105678261A (zh) * | 2016-01-07 | 2016-06-15 | 西安电子科技大学 | 基于有监督图的直推式数据降维方法 |
CN108229295A (zh) * | 2017-09-22 | 2018-06-29 | 江西师范大学 | 一种基于多重局部约束的图优化维数约简方法 |
CN108520281A (zh) * | 2018-04-13 | 2018-09-11 | 上海海洋大学 | 一种基于全局与局部保持的高光谱图像半监督降维方法 |
CN109815440A (zh) * | 2019-01-16 | 2019-05-28 | 江西师范大学 | 联合图优化和投影学习的维数约简方法 |
CN110390352A (zh) * | 2019-06-26 | 2019-10-29 | 华中科技大学 | 一种基于相似性哈希的图像暗数据价值评估方法 |
Non-Patent Citations (3)
Title |
---|
Geodesic distance based semi-supervised locality dimensinality reduction;Yan Wang 等;《2013 International Conference on Machine Learning and Cybernetics》;20140908;全文 * |
二、降维——流形学习-高维数据的降维与可视化;Nicole_Liang;《https://blog.csdn.net/weixin_39541558/article/details/80054159》;20180423;全文 * |
基于局部邻域优化的降维算法研究;吕志超;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20150131(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112163641A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kwedlo | A clustering method combining differential evolution with the K-means algorithm | |
CN112163641B (zh) | 一种基于概率多层次图结构的高维数据可视化方法 | |
CN101699514B (zh) | 基于免疫克隆量子聚类的sar图像分割方法 | |
CN111125397B (zh) | 一种基于卷积神经网络的布料图像检索方法 | |
CN114187446B (zh) | 一种跨场景对比学习的弱监督点云语义分割方法 | |
CN113516019B (zh) | 高光谱图像解混方法、装置及电子设备 | |
CN116383422B (zh) | 一种基于锚点的无监督跨模态哈希检索方法 | |
CN111524140A (zh) | 基于cnn和随机森林法的医学图像语义分割方法 | |
Li et al. | GoT: A growing tree model for clustering ensemble | |
CN111986223B (zh) | 一种基于能量函数的室外点云场景中树木提取方法 | |
WO2021059527A1 (ja) | 学習装置、学習方法、及び、記録媒体 | |
CN112861862A (zh) | 基于区域生长与深度学习结合的针对兵马俑点云的无监督分割方法 | |
Wu et al. | Mixed Pattern Matching‐Based Traffic Abnormal Behavior Recognition | |
Babatunde et al. | Comparative analysis of genetic algorithm and particle swam optimization: An application in precision agriculture | |
CN114974400B (zh) | 一种全局生物网络比对方法 | |
CN116958027A (zh) | 三维工业异常检测方法、装置、存储介质及电子设备 | |
CN114240844B (zh) | 一种医学图像中无监督的关键点定位和目标检测方法 | |
Du et al. | ParSymG: a parallel clustering approach for unsupervised classification of remotely sensed imagery | |
CN112766299B (zh) | 一种人脸图像的迭代式双向连接聚类算法 | |
Tuan et al. | ColorRL: reinforced coloring for end-to-end instance segmentation | |
Anh et al. | Reinforced coloring for end-to-end instance segmentation | |
CN113010748A (zh) | 一种基于亲和聚类的分布式大图划分方法 | |
Zhang et al. | Color clustering using self-organizing maps | |
CN117056088B (zh) | 一种基于MapReduce的多模态测图数据分布式并行计算方法及系统 | |
Sun et al. | Optimization study and application on the K value of K-means algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |