CN112163641B

CN112163641B - 一种基于概率多层次图结构的高维数据可视化方法

Info

Publication number: CN112163641B
Application number: CN202011193041.9A
Authority: CN
Inventors: 朱闽峰; 胡元哲; 陈为
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-06-14
Anticipated expiration: 2040-10-30
Also published as: CN112163641A

Abstract

本发明涉及一种基于概率多层次图结构的高维数据可视化方法，属于数据可视化及降维技术领域。包括：1)给定一个高维数据集，该数据集包含n个数据点，每个数据点的维度均为D；2)计算每个数据点的k近邻，并构建最近邻图结构G⁰，基于图结构G⁰构建概率多层次图结构，得到概率多层次图结构集合

3)基于概率多层次图结构集合

逐层布局概率多层次图得到数据低维度表示，每个数据点的维度都是二维或三维；4)基于低维数据构建散点视图，用于数据挖掘和分析。通过利用层次图结构来加快优化计算过程，并引入基于概率的采样优化了可视化效果。

Description

一种基于概率多层次图结构的高维数据可视化方法

技术领域

本发明涉及数据可视化及降维技术领域，具体地说，涉及一种基于概率多层次图结构的高维数据可视化方法。

背景技术

高维数据可视化是数据分析中的重要任务，对于深度学习，生命科学和网络分析等方向起着至关重要的作用。降维算法学习数据中的复杂信息，将高维数据转换为低维数据，从而分析数据的分布。

在过去的几十年中，已经有大量高维数据的可视化方法被提出。t-SNE算法是最成功的降维算法之一，公布号为CN110458187A的发明专利申请文献公开的恶意代码家族聚类方法及系统，其中方法包括采用了T-SNE算法对原始恶意代码执行序列进行降维可视化。公布号为CN107478418A的发明专利申请文献公开的旋转机械故障特征自动提取方法，其中采用t-SNE算法对获得的高维特征进行降维处理实现故障特征的可视化，由此可根据提取的特征对未知的故障信号实现故障诊断。

t-SNE算法往往用于可视化具有固有非线性结构的高维数据，但是，t-SNE由于计算复杂度与数据点的数量成平方关系，难以处理日益增长的大规模数据。尽管BH-SNE，LargeVis等算法通过构造最近邻网络和负采样技术来获得更小的算法复杂度，但是这些方法在应用于大规模数据时仍面临两个主要问题：1)可视化效果往往不够令人满意；2)优化过程仍然很耗时。因此科研人员需要使用更快更好的降维算法来满足他们的任务。

发明内容

本发明的目的是提供一种基于概率多层次图结构的高维数据可视化方法，可以加快优化过程，并优化可视化效果。

为了实现上述目的，本发明提供的基于概率多层次图结构的高维数据可视化方法包括以下步骤：

1)给定一个高维数据集，该数据集包含n个数据点，每个数据点的维度均为D；

2)计算每个数据点的k近邻，并构建最近邻图结构G⁰，基于图结构G⁰构建概率多层次图结构，得到概率多层次图结构集合

3)基于概率多层次图结构集合

逐层布局概率多层次图得到数据低维度表示，每个数据点的维度都是二维或三维；

4)基于低维数据构建散点视图，用于数据挖掘和分析。

上述技术方案中，通过利用层次图结构来加快优化过程，并引入基于概率的采样优化了可视化效果。由于学习了层次图的结构信息，在较不准确的k近邻算法下依然有很好的可视化效果。除此之外，本方法支持CPU和GPU的并行运算，在多核运算下有更快的速度，满足了大规模高维数据可视化的需要。

可选地，在一个实施例中，步骤2)中，概率多层次图集合的构建过程包括：

2-1)基于数据分布，构建k-d树索引，对于每个数据点，在k-d树索引中求出其k近邻；

2-2)令邻域范围为K，计算每个数据点所对应的K阶邻域，并基于每个点的K阶邻域，构建初始化k近邻图结构G⁰＝(V⁰,E⁰)，并依据每个数据的空间密度求得数据点的重要性概率

2-3)依据每个数据的空间分布求得数据点重要性概率

定义d(x_i,x_j)代表数据点x_i和x_j的欧式距离，σ_i是度量空间密度的超参数，NN_K(x_i)是数据点x_i的K阶邻域，每个数据点x_i的重要性概率

由其邻边空间概率P_(i|j)的总和决定：

2-4)对于图结构G^l＝(V^l,E^l)，通过随机采样的方式获得聚合的图结构G^l+1＝(V^l+1,E^l+1)，其中，

V^l+1每个点由V^l中的多个点聚合而成；

2-5)基于高维数据集X，以步骤2-2)得到的初始k近邻图结构G⁰作为输入，通过步骤2-4)的方法得到G¹；以G¹作为输入，通过同样过程得到G²，以此类推，若当前采样比例低于阈值则停止，返回一个多层次图结构集合

可选地，在一个实施例中，步骤2-4)中，随机采样方法的步骤如下：

a.为图结构G^l设立一个随机点池

初始化P^l为所有点的集合，每个点选中的概率依据归一化后的重要性概率Normalize(S^l)；

b.每次从点池P^l中随机选取点

将该点及其在图中一阶邻域的集合

聚合成一个新的点

并且

的重要性概率

为此集合F_j的重要性概率之和；

c.从随机点池P^l中删去集合F_j，重复以上过程，直到所有点都被选择过；

d.将所有不属于同一个新数据点的边

插入新的边集E^l+1中，构建成新的图结构G^l+1＝(V^l+1,E^l+1)。

可选地，在一个实施例中，步骤2-5)中，

的每一层是前一层采样的结果。步骤3)中，采用重要性采样的方法逐层布局概率多层次图。

可选地，在一个实施例中，步骤3)中的布局过程包括：

3-1)对于图结构G^l＝(V^l,E^l)，通过优化高维数据分布P和低维数据分布Q之间的KL散度；

3-2)将多层次图结构集合{G⁰,G¹,…G^L}的最后一层G^L作为输入，通过输入步骤3-1)得到图结构G^L的低维表达

Y^L的维度为二维或者三维，通过概率转化为G^L-1层降维的初始低维表达Y^L-1。

步骤3-1)中，高维数据分布P通过近邻图网络求得，每个点的概率分布由其邻域点决定，而低维数据分布Q通过t分布来近似表达。利用负采样技术，简化优化目标，以一个点的邻域作为正样本，其他点随机获得负样本的方法，加快优化过程。

步骤3-2)中的概率转化过程为：已知图结构G^l由图结构G^l-1采样而来，将数据点

低维表达按照概率赋值到其上一层图的对应点

以及其一阶邻域

获得G^l-1层降维的初始低维表达

重复此过程，得到G⁰层的低维表达Y⁰，返回高维数据X的降维结果Y＝{y₁,y₂,…,y_n}。

与现有技术相比，本发明的有益之处在于：

通过本发明的基于概率多层次图结构的高维数据可视化方法可以产生优美的可视化效果；由于在并行化，重要性采样，构建k近邻图等方面的优化，拥有更好的算法复杂度。

附图说明

图1为本发明实施例中基于概率多层次图结构的高维数据可视化方法的流程图；

图2为本发明实施例中相邻层级共享梯度和布局的示意图；

图3为本发明实施例中方法与现有的比较算法的可视化效果展示。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合实施例及其附图对本发明作进一步说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

实施例

参见图1，本实施例的基于概率多层次图结构的高维数据可视化方法包括以下步骤：

S100，给定一个高维数据集X＝{x₁,x₂,…,x_n}，其中包含n个数据点，每个数据点的维度都是D。

S200，基于步骤S100计算每个数据点的k近邻，并构建最近邻图结构G⁰，基于图结构G⁰构建概率多层次结构，得到L层图结构集合

其中，概率多层次图集合构建过程为：

S201，基于数据分布，构建多棵随机k-d树索引。对于每个数据点，在多棵k-d树上依次求出的k近邻，还有这些节点在k-d树空间中的邻域节点，从这些候选点得到每个数据点的k近邻。令邻域范围为K，计算每个数据点所对应的K阶邻域

其中

为点x_i的K个最近数据点的标号。

S202，基于k近邻信息，构建初始化k近邻图结构G⁰＝(V⁰,E⁰)，其中V⁰代表原先高维数据点V⁰＝{v₀,v₁,...,v_n},v_i＝x_i，E⁰代表了两个数据点之间的连接边，

如果数据点v_j存在于数据点v_i的k近邻中，满足e＝(v_i,v_j)∈E₀,v_j∈NN_K(v_i)，则增加该边。最后返回构建完成的初始近邻图结构G⁰。

S203，依据每个数据的空间分布求得数据点重要性概率

定义d(x_i,x_j)代表数据点x_i和x_j的欧式距离，σ_i是度量空间密度的超参数，NN_K(x_i)是数据点x_i的K阶邻域。每个数据点x_i的重要性概率

由其邻边空间概率P_(i|j)的总和决定：

S204，对于图结构G^l＝(V^l,E^l),通过随机点采样获得聚合的图结构G^l+1＝(V^l+1,E^l ⁺¹)，其中

V^l+1每个点由V^l中的多个点聚合而成。如上所述的随机点采样算法，具体如下，为图结构G^l设立一个随机点池

初始化P^l为所有点的集合，每个点选中的概率依据归一化后的重要性概率Normalize(S^l)。每次从点池P^l随机选点

将该点以及它在图中一阶邻域的集合

聚合成一个新的点

他们之间存在父子关系(公式中用Father,Son来表示)，其中点

为该层的关键点集合keyPoint^l的一员，

的重要性概率

为此集合F_j的重要性概率之和，随后从随机点池P^l中删去集合F_j：

重复这个过程，直到所有点都被选择过。此时再将所有不属于同一个新数据点的边

插入新的边集E^l+1中，构建成新的图结构G^l+1＝(V^l+1,E^l+1)。

S205，基于高维数据集X，通过步骤S201，步骤S202，步骤S203得到初始k近邻图结构G⁰。以G⁰作为输入，通过步骤S204可以得到G¹,以G¹作为输入，通过同样过程得到G²，以此类推，如果当前步骤的采样比例不高则停止，返回一个多层次图结构集合

其中

的每一层是前一层采样的结果；

S300，基于步骤S200的L层图结构

采用重要性采样的方法逐层布局概率多层次图得到最后的数据低维度表示Y＝{y₁,y₂,…,y_n},y_n∈R² or R³。

其中，布局过程包括：

S301，对于图结构G^l＝(V^l,E^l)，通过优化高维数据分布P和低维数据分布Q之间的KL散度，在保持高维数据的邻域信息的前提下获得更好的可视化效果。定义d(y_i,y_j)代表数据点y_i和y_j在低维空间的欧式距离。高维数据分布P参考步骤S203所定义的邻边空间概率P_(i|j)，每个点的概率分布由其邻域点决定，而低维数据分布Q通过t分布来近似表达：

利用负采样技术，可以简化优化目标，以一个点的邻域作为正样本，其他点随机获得负样本的方法，加快优化过程：

S302，将层次图结构集合{G⁰,G¹,…G^L}的最后一层G^L作为输入，通过输入步骤S301得到图结构G^L的低维表达

以通过概率转化作为G^L-1层降维的初始低维表达Y^L-1。上述概率转化过程如附图2所示，每次优化过程的梯度由数据点

代表的原图G⁰中的点聚团共享，而每一层布局的坐标会根据邻域传递到上层。具体来说已知图结构G^l由图结构G^l-1采样而来，将数据点

低维表达按照概率赋值到其上一层图的对应点

以及其一阶邻域

获得G^l-1层降维的初始低维表达

所有的关键点会被赋值为它父亲Father(v_i)的坐标，而非关键点由它所有一阶邻域的关键点所决定：

重复这个过程，最后得到G⁰层的低维表达Y⁰，作为高维数据的降维结果Y＝{y₁,y₂,…,y_n}；

S400，基于低维数据构建散点视图，用于数据挖掘和分析。

参见图3，为采用本实施例中基于概率多层次图结构的高维数据可视化方法与采用常规比较算法的可视化效果展示，可以看出，本实施例的方法效果更佳。