CN110188098B

CN110188098B - 一种基于双层锚点图投影优化的高维向量数据可视化方法及系统

Info

Publication number: CN110188098B
Application number: CN201910343325.2A
Authority: CN
Inventors: 付聪; 张永辉; 蔡登�
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2021-02-19
Anticipated expiration: 2039-04-26
Also published as: CN110188098A

Abstract

本发明公开了一种基于双层锚点图投影优化的高维向量数据可视化方法及系统，其中，具体方法包括：(1)对原始高维向量数据集D进行K‑means聚类，将得到的聚类中心作为锚点集合A；(2)根据锚点集合A建立高维向量数据的倒排索引；(3)使用倒排索引建立数据集D的近似k_D近邻图G_D；(4)针对数据集D中的每个点d，暴力搜索距离d最近的c个锚点，并将这c个锚点作为d的邻居更新到近邻图G_D；(5)在锚点集合A上用暴力检索方式构建k_A近邻图G_A；(6)基于G_D和G_A所表示成的高维空间数据结构信息，使用双层投影优化算法产生低维空间可视化投影。利用本发明，可以将高维空间中的全局宏观和局部微观结构信息一并保留，得到高质量的布局信息。

Description

一种基于双层锚点图投影优化的高维向量数据可视化方法及系统

技术领域

本发明涉及大数据可视化领域，尤其是涉及一种基于双层锚点图投影优化的高维向量数据可视化方法及系统。

背景技术

在大数据时代，由互联网等信息系统生成的数据呈指数规模增长。由于数据规模空前庞大且更新速度极快，挖掘大数据之中蕴含的规律和模式已经超越人力所及范围。尤其是当下大量机器学习和数据挖掘算法往往将离散的多模态数据表示为高维空间中的连续实数向量，这种数据更加难以由人直接理解。高维向量数据可视化技术是解决这一问题的关键性技术，即本发明的主要研究内容。高维向量数据可视化技术，是将高维空间中的实数向量数据投影到低维空间中，并尽可能保留高维空间中数据点之间的相互位置关系信息，具体来说，是尽可能保证在高维空间中互相靠近的点，在算法产生的低维空间中保持互相靠近的关系；而在高维空间中互相疏远的点，在低维空间中也保持互相疏远的关系。其中，所述低维空间指的是二维或三维空间，是人可以直接观察理解的空间。一个好的高维向量可视化算法可以将高维空间数据的结构信息尽可能多的保留在对应的低维空间投影内，辅助人对数据内潜在的规律进行理解。

目前，作为广泛应用的高维数据可视化工具的算法核心，是Laurens等人在2008年Journal of machine learning research期刊上提出的t-SNE算法《Visualizing DataUsing t-SNE》。该方法的核心思想是，认为高维空间中任意一数据点与待考察数据点之间的距离，服从以待考察数据点为中心的高斯分布；而在低维空间中，任意一数据点与待考察数据点之间的距离服从以待考察数据点为中心的student t-分布。将高维空间中的数据点投影到低维空间并保持其结构信息的问题，可以转化为尽可能减小这两个分布之间的差异的优化问题。2014年，Tang Jian等人在International conference on world wide web会议上发表的《Visualizing Large-scale and High-dimensional Data》一文中，提出了LargeVis算法，该算法采用了与t-SNE相似的数据建模思路，即用低维空间的student t-分布拟合高维空间中的高斯分布，但采用了不一样的优化方法，即仅仅将待考察数据点与其最近数个邻居点的近邻关系保留在低维空间中，这种近邻关系用近似最近邻图来表示。同时，LargeVis算法还采用了一种高效的近似最近邻图构建算法和负采样方法，极大提高了算法效率。相比于t-SNE，LargeVis可以可视化百万级规模的大数据。2018年Leland等人在康奈尔大学Arxiv网站上的文章《UMAP:Uniform Manifold Approximation andProjection for Dimension Reduction》提出了名为UMAP的高维向量数据可视化方法，该方法假设高维空间数据在某个低位流形空间中是均匀分布的，并据此为高维空间数据点生成拓扑表示；同时在低维空间中也为对应数据点建立拓扑表示，通过最小化高低维空间中对应点拓扑表示的交叉熵来进行降维优化。该方法比t-SNE更好地保留了高维空间数据分布的全局结构信息，即数据的宏观分布形态，同时还有更高效的运算速度。2018年同样在Arxiv网站上的一篇文章《t-SNE-CUDA：GPU-Accelerated t-SNE and its Applicationsto Modern Data》将t-SNE方法实现到了GPU平台，使得t-SNE可以更快地进行投影。

目前最为广泛使用的高维向量可视化工具主要是BH-t-SNE，LargeVis和UMAP。其中，BH-t-SNE是一种在数据集上构建树结构索引来加速近似最近邻图构建速度的优化版t-SNE。然而，这三种算法都没有办法直接在GPU上进行实现。原因是其算法逻辑复杂，可并行性差，从而无法支撑大规模数据的可视化。另外，BH-t-SNE和LargeVis都不能很好的保留数据的全局布局结构信息，因此经常展示出错误的可视化布局结构，使得人们对数据内的结构信息产生误解。UMAP只能针对满足存在低维流形空间内均匀分布假设的数据进行高效投影并保留全局信息。

发明内容

本发明提供一种基于双层锚点图投影优化的高维向量数据可视化方法及系统，可以通过在数据中生成少数锚点来记录全局结构信息，并在投影优化过程中同时维护普通点与普通点、普通点与锚点、锚点与锚点之间的相互作用关系，将高维空间中的全局宏观以及局部微观结构信息一并保留下来，得到高质量的布局信息。

一种基于双层锚点图投影优化的高维向量数据可视化方法，包括：

(1)对原始的高维向量数据集D进行K-means聚类，将得到的聚类中心作为锚点集合A，聚类数目k_c为预设值；

(2)根据锚点集合A建立高维向量数据集D的倒排索引IVF；

(3)使用倒排索引建立高维向量数据集D的近似k_D近邻图G_D，k_D为预设值；

(4)针对高维向量数据集D中的每个点d，暴力搜索距离d最近的c个锚点，并将这c个锚点作为d的邻居更新到近邻图G_D，c为预设值；

(5)在锚点集合A上用暴力检索方式构建k_A近邻图G_A，k_A为预设值；

(6)基于G_D和G_A所表示成的高维空间数据结构信息，使用双层投影优化算法产生低维空间可视化投影。

步骤(1)中，对于数据点超过500万的大规模数据集，通过采样出一个不超过一百万点的子集进行K-means聚类。

步骤(2)建立倒排索引IVF的具体方法为：

(2-1)设高维向量数据集D共有N个点，D中的每个点都会被赋予0到N-1范围内独一无二的编号；

(2-2)对于锚点集合A中的每一个锚点a，表示K-means聚类得到的一个类别数据的中心点；将以点a为中心点的高维空间中的数据点的编号保存为以a为索引关键词的列表，称为以a为索引的倒排项；

(2-3)锚点集合A中所有点的倒排项的集合为基于A且关于D的倒排索引IVF。

倒排表是一种优秀的近似最近邻检索方法，可以快速高效地检索出高维空间数据点的最近邻点，而且非常易于在GPU上进行实现。通过使用倒排表索引，可以实现高效快速的近似最近邻图构建。

步骤(3)的具体过程为：

对于高维向量数据集D的任意一个点，找出距离它最近的若干个锚点，并扫描这些锚点对应的倒排项中所有的普通点，找到这些普通点中距离待检索点最近的k_D个点。

步骤(6)中，使用双层投影优化算法的具体步骤如下：

(6-1)在低维空间中，随机初始化投影得到对应在低维空间中投影锚点集合

的各点坐标；所述低维空间的维度为二维或三维；

(6-2)基于锚点最近邻图G_A，计算高维空间中锚点集合的距离概率分布，计算方式如下：

对锚点集合中任意两点a_i,a_j∈A，假设他们的距离分布服从高斯分布，写为：

P(a_i|a_j)为以a_j为中心的条件概率分布，表示为：

其中，

为保存在锚点最近邻图G_A中的锚点a_j的最近锚点点集合；

为该条件概率分布的标准差，设置为固定值或通过设置一个分布散度后用二分查找法进行估计；

(6-3)计算低维空间中投影锚点集合

的距离概率分布，计算公式如下：

假设低维空间中任意两点

之间的距离概率分布服从student t-分布，写为：

(6-4)最小化高低维空间之间锚点距离概率分布的Kullback-Leibler散度，

用随机梯度下降方法优化该目标函数直至收敛，其中，

(6-5)初始化低维空间中投影普通点集合

中各点坐标；具体步骤为：对每个锚点a_i，计算a_i与其最近锚点a_j之间的距离l(a_i,a_j)；根据倒排索引IVF，将以a_i为聚类中心的普通点初始化为以a_i为球心，

为半径的球内任意点。

(6-6)计算高维空间中普通点集合D上的距离概率分布，假设为高斯分布：

其中，

是点d_i的近邻集合，包括普通点近邻和锚点近邻，

和P(d_i,a_j)的定义如下：

(6-7)计算低维空间中投影普通点集合

上的距离概率分布，计算公式如下：

其中，

为

的负采样点集合，负采样用来抵消近邻点对

产生的过大的拉力；

(6-8)最小化高低空间普通点距离概率分布间的Kullback-Leibler散度

用随机梯度下降法优化该目标函数一步迭代，更新低维空间普通点坐标；

(6-9)根据新的低维空间普通点坐标，更新低维空间锚点坐标：

其中，

代表

倒排项中所有普通点的集合，

代表该集合大小；

(6-10)用随机梯度下降方法继续优化目标函数

进行一次迭代；

(6-11)重复步骤(6-8)到(6-10)直到到达最大迭代次数。

本发明还提供了一种基于双层锚点图投影优化的高维向量数据可视化系统，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中存有以下模块：

聚类和索引模块，用于利用K-Means算法对高维空间中向量进行聚类，并根据聚类结果构建倒排索引IVF；

建图模块，用于暴力建立锚点最近邻图，并利用倒排索引建立普通点的近似最近邻图；

预投影初始化模块，用于将锚点根据优化目标优先投影到低维空间，并将普通点初始化到其对应的锚点周围；

分层交替优化模块，用于根据普通点和普通点、锚点和锚点以及普通点和锚点之间相互关系，交替优化低维空间中的普通点布局以及锚点布局。

与现有技术相比，本发明具有以下有益效果：

1、本发明的方法所提出的双层锚点图投影优化可以解决目前广泛使用的t-SNE和LargeVis算法中，无法正确捕捉全局信息从而得到错误投影结果的问题，本发明所提出的算法可以产生稳定合理的投影布局。

2、本发明提出的优化算法非常适合在GPU平台实现，可以应用到千万级以上规模的数据集，可以高效快速处理大规模数据集，而以往的算法往往只能应用于百万级以下的数据。

附图说明

图1为本发明实施例一种基于双层锚点图投影优化的高维向量数据可视化方法的流程示意图；

图2为利用本发明方法与其他方法在公开数据集上的可视化效果图；

图3为利用本发明方法应用于2000万级别大规模数据的可视化效果。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，一种基于双层锚点图投影优化的高维向量数据可视化方法，具体流程如下：

(1)对原始高维空间数据集合D进行K-means聚类，将得到的聚类中心作为锚点集合A，聚类数目k_c在实际应用中，我们将其设置为默认值1000；为每个锚点赋予0-999内独一无二的编号。同时，对于大规模数据(数据点数幕超过500万的数据集)，我们不在全集上聚类，而是采样出一个不超过一百万点的子集，聚类迭代次数为默认25次。

(2)根据锚点集合A建立高维向量数据的倒排索引IVF；建立方法为，根据步骤(1)中得到的K-means聚类结果，针对A中每个点构建倒排项。对于A中任意一点a，a的物理意义是高维数据集D中对应一个聚类的聚类中心，将该聚类的高维数据点的编号存储到以a的编号为索引关键词的数组中。对所有A中的点都进行上述操作所得到的字典结构就是所述倒排索引。

(3)使用倒排索引建立高维向量数据D的近似k_D近邻图G_D。搜索方法为，对每个点，找出距离它最近的50个锚点，并扫描这些锚点在IVF中对应的倒排项中所有普通点，找到距离待检索点最近的k_D个点。k_D在实际应用中设置为默认值100，即每个点包含100个邻居；

(4)针对高维向量数据D中的每个点d，暴力搜索距离d最近的c个锚点，并将这c个锚点作为d的邻居更新到近邻图G_D，c在实际应用中为默认值5；结合步骤(3)，所得近邻图G_D内每个点包含105个邻居，邻居包含普通点编号和锚点编号。锚点编号都固定存放于普通点之后，即数组100-104的位置上，方便区别和查询。

(5)在锚点集合A上用暴力检索方式构建k_A近邻图G_A，k_A在实际应用中为默认值5；具体做法为，将锚点集合A内所有点，两两之间相互计算距离。对每个锚点，将其他点根据到该考察锚点的距离排序，取最近的5个存入G_A。

(6)基于G_D和G_A所表示成的高维空间数据结构信息，使用双层投影优化算法，预先投影锚点坐标，然后交替优化目标

和

交替更新低维空间普通点坐标和锚点坐标直到达到最大迭代次数，产生低维空间可视化投影。

具体方法为，将锚点集合中的点随机投影到低维空间中，用随机梯度下降算法优化目标

次迭代。将D中的普通点随机投影到其对应的锚点周围，用随机梯度下降算法交替进行优化

更新锚点坐标、优化目标

各一步迭代，如此反复2000次迭代。在实际应用中，我们设置算法所使用的随机梯度下降算法的学习率为默认值0.05，最大迭代次数均为2000，负采样集合大小为400。对每个普通点的负采样点都在每次迭代时随机选取。

本发明主要在四大评判指标上进行对比，分别是：10-NN Acc，运行时间，内存占用量，以及可视化效果。其中，10-NN Acc代表高维空间局部信息的保留率，speed-up代表以LargeVis为基准的速度提升率。我们总共在11个公开数据集上分别与3种目前最先进且广泛使用的可视化工具对比。公开数据集包括：CIFAR10、CIFAR100、Mnist、Fasshion-Mnist，AG’s news、DBPedia、ImageNet、Yahoo、Crawl、Amazon3M和Amazon20M。3种方法分别为BH-t-SNE，t-SNE-CUDA和LargeVis。BH-t-SNE和LargeVis由于自身方法局限只能在CPU上运行。运行时间及内存对比结果如表1所示。

表1

从表1可以看出，本发明提出的可视化方法在GPU上实现了极大的索引内存缩减并获得了极高的加速比，同时本发明的方法在绝大多数数据集上保留了更多的局部信息。表1中“-”代表该算法因为程序问题无法运行得到结果，发现BH-t-SNE方法在一些大规模数据上无法运行得到结果，而数据集Amazon20M上只有本发明的方法(AtSNE)可以得到结果。

如图2所示，本发明提出的算法(AtSNE)，在所有11个公开数据集上取得了最好的可视化效果，即相同类别的数据被聚到了一起(相同类别的点被画成相同的颜色)。而AtSNE是唯一可以在2000万级别的大数据上可以运行并得到优秀可视化效果的算法。图3中揭示了Amazon20M数据集中的一些规律。Amazon20M是包含2000万Amazon购物网站上的英文评论语句的文本数据集。avg_len代表对应数据团中文本句子的平均长度，我们可以发现，为商品打上不同星级的评论会各自被聚成一团，同时，评论也会根据句子长度把不同的句子聚成一团。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。