CN110188098B - 一种基于双层锚点图投影优化的高维向量数据可视化方法及系统 - Google Patents

一种基于双层锚点图投影优化的高维向量数据可视化方法及系统 Download PDF

Info

Publication number
CN110188098B
CN110188098B CN201910343325.2A CN201910343325A CN110188098B CN 110188098 B CN110188098 B CN 110188098B CN 201910343325 A CN201910343325 A CN 201910343325A CN 110188098 B CN110188098 B CN 110188098B
Authority
CN
China
Prior art keywords
points
point
anchor
anchor point
dimensional space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910343325.2A
Other languages
English (en)
Other versions
CN110188098A (zh
Inventor
付聪
张永辉
蔡登�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910343325.2A priority Critical patent/CN110188098B/zh
Publication of CN110188098A publication Critical patent/CN110188098A/zh
Application granted granted Critical
Publication of CN110188098B publication Critical patent/CN110188098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于双层锚点图投影优化的高维向量数据可视化方法及系统,其中,具体方法包括:(1)对原始高维向量数据集D进行K‑means聚类,将得到的聚类中心作为锚点集合A;(2)根据锚点集合A建立高维向量数据的倒排索引;(3)使用倒排索引建立数据集D的近似kD近邻图GD;(4)针对数据集D中的每个点d,暴力搜索距离d最近的c个锚点,并将这c个锚点作为d的邻居更新到近邻图GD;(5)在锚点集合A上用暴力检索方式构建kA近邻图GA;(6)基于GD和GA所表示成的高维空间数据结构信息,使用双层投影优化算法产生低维空间可视化投影。利用本发明,可以将高维空间中的全局宏观和局部微观结构信息一并保留,得到高质量的布局信息。

Description

一种基于双层锚点图投影优化的高维向量数据可视化方法及 系统
技术领域
本发明涉及大数据可视化领域,尤其是涉及一种基于双层锚点图投影优化的高维向量数据可视化方法及系统。
背景技术
在大数据时代,由互联网等信息系统生成的数据呈指数规模增长。由于数据规模空前庞大且更新速度极快,挖掘大数据之中蕴含的规律和模式已经超越人力所及范围。尤其是当下大量机器学习和数据挖掘算法往往将离散的多模态数据表示为高维空间中的连续实数向量,这种数据更加难以由人直接理解。高维向量数据可视化技术是解决这一问题的关键性技术,即本发明的主要研究内容。高维向量数据可视化技术,是将高维空间中的实数向量数据投影到低维空间中,并尽可能保留高维空间中数据点之间的相互位置关系信息,具体来说,是尽可能保证在高维空间中互相靠近的点,在算法产生的低维空间中保持互相靠近的关系;而在高维空间中互相疏远的点,在低维空间中也保持互相疏远的关系。其中,所述低维空间指的是二维或三维空间,是人可以直接观察理解的空间。一个好的高维向量可视化算法可以将高维空间数据的结构信息尽可能多的保留在对应的低维空间投影内,辅助人对数据内潜在的规律进行理解。
目前,作为广泛应用的高维数据可视化工具的算法核心,是Laurens等人在2008年Journal of machine learning research期刊上提出的t-SNE算法《Visualizing DataUsing t-SNE》。该方法的核心思想是,认为高维空间中任意一数据点与待考察数据点之间的距离,服从以待考察数据点为中心的高斯分布;而在低维空间中,任意一数据点与待考察数据点之间的距离服从以待考察数据点为中心的student t-分布。将高维空间中的数据点投影到低维空间并保持其结构信息的问题,可以转化为尽可能减小这两个分布之间的差异的优化问题。2014年,Tang Jian等人在International conference on world wide web会议上发表的《Visualizing Large-scale and High-dimensional Data》一文中,提出了LargeVis算法,该算法采用了与t-SNE相似的数据建模思路,即用低维空间的student t-分布拟合高维空间中的高斯分布,但采用了不一样的优化方法,即仅仅将待考察数据点与其最近数个邻居点的近邻关系保留在低维空间中,这种近邻关系用近似最近邻图来表示。同时,LargeVis算法还采用了一种高效的近似最近邻图构建算法和负采样方法,极大提高了算法效率。相比于t-SNE,LargeVis可以可视化百万级规模的大数据。2018年Leland等人在康奈尔大学Arxiv网站上的文章《UMAP:Uniform Manifold Approximation andProjection for Dimension Reduction》提出了名为UMAP的高维向量数据可视化方法,该方法假设高维空间数据在某个低位流形空间中是均匀分布的,并据此为高维空间数据点生成拓扑表示;同时在低维空间中也为对应数据点建立拓扑表示,通过最小化高低维空间中对应点拓扑表示的交叉熵来进行降维优化。该方法比t-SNE更好地保留了高维空间数据分布的全局结构信息,即数据的宏观分布形态,同时还有更高效的运算速度。2018年同样在Arxiv网站上的一篇文章《t-SNE-CUDA:GPU-Accelerated t-SNE and its Applicationsto Modern Data》将t-SNE方法实现到了GPU平台,使得t-SNE可以更快地进行投影。
目前最为广泛使用的高维向量可视化工具主要是BH-t-SNE,LargeVis和UMAP。其中,BH-t-SNE是一种在数据集上构建树结构索引来加速近似最近邻图构建速度的优化版t-SNE。然而,这三种算法都没有办法直接在GPU上进行实现。原因是其算法逻辑复杂,可并行性差,从而无法支撑大规模数据的可视化。另外,BH-t-SNE和LargeVis都不能很好的保留数据的全局布局结构信息,因此经常展示出错误的可视化布局结构,使得人们对数据内的结构信息产生误解。UMAP只能针对满足存在低维流形空间内均匀分布假设的数据进行高效投影并保留全局信息。
发明内容
本发明提供一种基于双层锚点图投影优化的高维向量数据可视化方法及系统,可以通过在数据中生成少数锚点来记录全局结构信息,并在投影优化过程中同时维护普通点与普通点、普通点与锚点、锚点与锚点之间的相互作用关系,将高维空间中的全局宏观以及局部微观结构信息一并保留下来,得到高质量的布局信息。
一种基于双层锚点图投影优化的高维向量数据可视化方法,包括:
(1)对原始的高维向量数据集D进行K-means聚类,将得到的聚类中心作为锚点集合A,聚类数目kc为预设值;
(2)根据锚点集合A建立高维向量数据集D的倒排索引IVF;
(3)使用倒排索引建立高维向量数据集D的近似kD近邻图GD,kD为预设值;
(4)针对高维向量数据集D中的每个点d,暴力搜索距离d最近的c个锚点,并将这c个锚点作为d的邻居更新到近邻图GD,c为预设值;
(5)在锚点集合A上用暴力检索方式构建kA近邻图GA,kA为预设值;
(6)基于GD和GA所表示成的高维空间数据结构信息,使用双层投影优化算法产生低维空间可视化投影。
步骤(1)中,对于数据点超过500万的大规模数据集,通过采样出一个不超过一百万点的子集进行K-means聚类。
步骤(2)建立倒排索引IVF的具体方法为:
(2-1)设高维向量数据集D共有N个点,D中的每个点都会被赋予0到N-1范围内独一无二的编号;
(2-2)对于锚点集合A中的每一个锚点a,表示K-means聚类得到的一个类别数据的中心点;将以点a为中心点的高维空间中的数据点的编号保存为以a为索引关键词的列表,称为以a为索引的倒排项;
(2-3)锚点集合A中所有点的倒排项的集合为基于A且关于D的倒排索引IVF。
倒排表是一种优秀的近似最近邻检索方法,可以快速高效地检索出高维空间数据点的最近邻点,而且非常易于在GPU上进行实现。通过使用倒排表索引,可以实现高效快速的近似最近邻图构建。
步骤(3)的具体过程为:
对于高维向量数据集D的任意一个点,找出距离它最近的若干个锚点,并扫描这些锚点对应的倒排项中所有的普通点,找到这些普通点中距离待检索点最近的kD个点。
步骤(6)中,使用双层投影优化算法的具体步骤如下:
(6-1)在低维空间中,随机初始化投影得到对应在低维空间中投影锚点集合
Figure BDA0002041442740000041
的各点坐标;所述低维空间的维度为二维或三维;
(6-2)基于锚点最近邻图GA,计算高维空间中锚点集合的距离概率分布,计算方式如下:
对锚点集合中任意两点ai,aj∈A,假设他们的距离分布服从高斯分布,写为:
Figure BDA0002041442740000042
P(ai|aj)为以aj为中心的条件概率分布,表示为:
Figure BDA0002041442740000051
其中,
Figure BDA0002041442740000052
为保存在锚点最近邻图GA中的锚点aj的最近锚点点集合;
Figure BDA0002041442740000053
为该条件概率分布的标准差,设置为固定值或通过设置一个分布散度后用二分查找法进行估计;
(6-3)计算低维空间中投影锚点集合
Figure BDA0002041442740000054
的距离概率分布,计算公式如下:
假设低维空间中任意两点
Figure BDA0002041442740000055
之间的距离概率分布服从student t-分布,写为:
Figure BDA0002041442740000056
(6-4)最小化高低维空间之间锚点距离概率分布的Kullback-Leibler散度,
Figure BDA0002041442740000057
用随机梯度下降方法优化该目标函数直至收敛,其中,
Figure BDA0002041442740000058
Figure BDA0002041442740000059
(6-5)初始化低维空间中投影普通点集合
Figure BDA00020414427400000510
中各点坐标;具体步骤为:对每个锚点ai,计算ai与其最近锚点aj之间的距离l(ai,aj);根据倒排索引IVF,将以ai为聚类中心的普通点初始化为以ai为球心,
Figure BDA00020414427400000511
为半径的球内任意点。
(6-6)计算高维空间中普通点集合D上的距离概率分布,假设为高斯分布:
Figure BDA00020414427400000512
其中,
Figure BDA00020414427400000513
是点di的近邻集合,包括普通点近邻和锚点近邻,
Figure BDA00020414427400000514
和P(di,aj)的定义如下:
Figure BDA0002041442740000061
Figure BDA0002041442740000062
Figure BDA0002041442740000063
(6-7)计算低维空间中投影普通点集合
Figure BDA0002041442740000064
上的距离概率分布,计算公式如下:
Figure BDA0002041442740000065
Figure BDA0002041442740000066
Figure BDA0002041442740000067
其中,
Figure BDA0002041442740000068
Figure BDA0002041442740000069
的负采样点集合,负采样用来抵消近邻点对
Figure BDA00020414427400000610
产生的过大的拉力;
(6-8)最小化高低空间普通点距离概率分布间的Kullback-Leibler散度
Figure BDA00020414427400000611
用随机梯度下降法优化该目标函数一步迭代,更新低维空间普通点坐标;
(6-9)根据新的低维空间普通点坐标,更新低维空间锚点坐标:
Figure BDA00020414427400000612
其中,
Figure BDA00020414427400000613
代表
Figure BDA00020414427400000614
倒排项中所有普通点的集合,
Figure BDA00020414427400000615
代表该集合大小;
(6-10)用随机梯度下降方法继续优化目标函数
Figure BDA0002041442740000071
进行一次迭代;
(6-11)重复步骤(6-8)到(6-10)直到到达最大迭代次数。
本发明还提供了一种基于双层锚点图投影优化的高维向量数据可视化系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中存有以下模块:
聚类和索引模块,用于利用K-Means算法对高维空间中向量进行聚类,并根据聚类结果构建倒排索引IVF;
建图模块,用于暴力建立锚点最近邻图,并利用倒排索引建立普通点的近似最近邻图;
预投影初始化模块,用于将锚点根据优化目标优先投影到低维空间,并将普通点初始化到其对应的锚点周围;
分层交替优化模块,用于根据普通点和普通点、锚点和锚点以及普通点和锚点之间相互关系,交替优化低维空间中的普通点布局以及锚点布局。
与现有技术相比,本发明具有以下有益效果:
1、本发明的方法所提出的双层锚点图投影优化可以解决目前广泛使用的t-SNE和LargeVis算法中,无法正确捕捉全局信息从而得到错误投影结果的问题,本发明所提出的算法可以产生稳定合理的投影布局。
2、本发明提出的优化算法非常适合在GPU平台实现,可以应用到千万级以上规模的数据集,可以高效快速处理大规模数据集,而以往的算法往往只能应用于百万级以下的数据。
附图说明
图1为本发明实施例一种基于双层锚点图投影优化的高维向量数据可视化方法的流程示意图;
图2为利用本发明方法与其他方法在公开数据集上的可视化效果图;
图3为利用本发明方法应用于2000万级别大规模数据的可视化效果。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1所示,一种基于双层锚点图投影优化的高维向量数据可视化方法,具体流程如下:
(1)对原始高维空间数据集合D进行K-means聚类,将得到的聚类中心作为锚点集合A,聚类数目kc在实际应用中,我们将其设置为默认值1000;为每个锚点赋予0-999内独一无二的编号。同时,对于大规模数据(数据点数幕超过500万的数据集),我们不在全集上聚类,而是采样出一个不超过一百万点的子集,聚类迭代次数为默认25次。
(2)根据锚点集合A建立高维向量数据的倒排索引IVF;建立方法为,根据步骤(1)中得到的K-means聚类结果,针对A中每个点构建倒排项。对于A中任意一点a,a的物理意义是高维数据集D中对应一个聚类的聚类中心,将该聚类的高维数据点的编号存储到以a的编号为索引关键词的数组中。对所有A中的点都进行上述操作所得到的字典结构就是所述倒排索引。
(3)使用倒排索引建立高维向量数据D的近似kD近邻图GD。搜索方法为,对每个点,找出距离它最近的50个锚点,并扫描这些锚点在IVF中对应的倒排项中所有普通点,找到距离待检索点最近的kD个点。kD在实际应用中设置为默认值100,即每个点包含100个邻居;
(4)针对高维向量数据D中的每个点d,暴力搜索距离d最近的c个锚点,并将这c个锚点作为d的邻居更新到近邻图GD,c在实际应用中为默认值5;结合步骤(3),所得近邻图GD内每个点包含105个邻居,邻居包含普通点编号和锚点编号。锚点编号都固定存放于普通点之后,即数组100-104的位置上,方便区别和查询。
(5)在锚点集合A上用暴力检索方式构建kA近邻图GA,kA在实际应用中为默认值5;具体做法为,将锚点集合A内所有点,两两之间相互计算距离。对每个锚点,将其他点根据到该考察锚点的距离排序,取最近的5个存入GA
(6)基于GD和GA所表示成的高维空间数据结构信息,使用双层投影优化算法,预先投影锚点坐标,然后交替优化目标
Figure BDA0002041442740000091
Figure BDA0002041442740000092
交替更新低维空间普通点坐标和锚点坐标直到达到最大迭代次数,产生低维空间可视化投影。
具体方法为,将锚点集合中的点随机投影到低维空间中,用随机梯度下降算法优化目标
Figure BDA0002041442740000093
次迭代。将D中的普通点随机投影到其对应的锚点周围,用随机梯度下降算法交替进行优化
Figure BDA0002041442740000094
更新锚点坐标、优化目标
Figure BDA0002041442740000095
各一步迭代,如此反复2000次迭代。在实际应用中,我们设置算法所使用的随机梯度下降算法的学习率为默认值0.05,最大迭代次数均为2000,负采样集合大小为400。对每个普通点的负采样点都在每次迭代时随机选取。
本发明主要在四大评判指标上进行对比,分别是:10-NN Acc,运行时间,内存占用量,以及可视化效果。其中,10-NN Acc代表高维空间局部信息的保留率,speed-up代表以LargeVis为基准的速度提升率。我们总共在11个公开数据集上分别与3种目前最先进且广泛使用的可视化工具对比。公开数据集包括:CIFAR10、CIFAR100、Mnist、Fasshion-Mnist,AG’s news、DBPedia、ImageNet、Yahoo、Crawl、Amazon3M和Amazon20M。3种方法分别为BH-t-SNE,t-SNE-CUDA和LargeVis。BH-t-SNE和LargeVis由于自身方法局限只能在CPU上运行。运行时间及内存对比结果如表1所示。
表1
Figure BDA0002041442740000101
从表1可以看出,本发明提出的可视化方法在GPU上实现了极大的索引内存缩减并获得了极高的加速比,同时本发明的方法在绝大多数数据集上保留了更多的局部信息。表1中“-”代表该算法因为程序问题无法运行得到结果,发现BH-t-SNE方法在一些大规模数据上无法运行得到结果,而数据集Amazon20M上只有本发明的方法(AtSNE)可以得到结果。
如图2所示,本发明提出的算法(AtSNE),在所有11个公开数据集上取得了最好的可视化效果,即相同类别的数据被聚到了一起(相同类别的点被画成相同的颜色)。而AtSNE是唯一可以在2000万级别的大数据上可以运行并得到优秀可视化效果的算法。图3中揭示了Amazon20M数据集中的一些规律。Amazon20M是包含2000万Amazon购物网站上的英文评论语句的文本数据集。avg_len代表对应数据团中文本句子的平均长度,我们可以发现,为商品打上不同星级的评论会各自被聚成一团,同时,评论也会根据句子长度把不同的句子聚成一团。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于双层锚点图投影优化的高维向量数据可视化方法,其特征在于,包括:
(1)对原始的高维向量数据集D进行K-means聚类,将得到的聚类中心作为锚点集合A,聚类数目kc为预设值;
(2)根据锚点集合A建立高维向量数据集D的倒排索引IVF;
(3)使用倒排索引建立高维向量数据集D的近似kD近邻图GD,kD为预设值;
(4)针对高维向量数据集D中的每个点d,暴力搜索距离d最近的c个锚点,并将这c个锚点作为d的邻居添加到近邻图GD,c为预设值;
(5)在锚点集合A上用暴力检索方式构建锚点kA近邻图GA,kA为预设值;
(6)基于GD和GA所表示成的高维空间数据结构信息,使用双层投影优化算法产生低维空间可视化投影;使用双层投影优化算法的具体步骤如下:
(6-1)在低维空间中,随机初始化投影得到对应在低维空间中投影锚点集合
Figure FDA0002811217300000011
的各点坐标;所述低维空间的维度为二维或三维;
(6-2)基于锚点最近邻图GA,计算高维空间中锚点集合的距离概率分布,计算方式如下:
对锚点集合中任意两点ai,aj∈A,假设他们的距离分布服从高斯分布,写为:
Figure FDA0002811217300000012
P(ai|aj)为以aj为中心的条件概率分布,表示为:
Figure FDA0002811217300000021
其中,
Figure FDA0002811217300000022
为保存在锚点最近邻图GA中的锚点aj的最近锚点点集合;
Figure FDA0002811217300000023
为该条件概率分布的标准差,设置为固定值或通过设置一个分布散度后用二分查找法进行估计;
(6-3)计算低维空间中投影锚点集合
Figure FDA0002811217300000024
的距离概率分布,计算公式如下:
假设低维空间中任意两点
Figure FDA0002811217300000025
之间的距离概率分布服从student t-分布,写为:
Figure FDA0002811217300000026
(6-4)最小化高低维空间之间锚点距离概率分布的Kullback-Leibler散度,
Figure FDA0002811217300000027
用随机梯度下降方法优化该目标函数直至收敛,其中,
Figure FDA0002811217300000028
Figure FDA0002811217300000029
(6-5)初始化低维空间中投影普通点集合
Figure FDA00028112173000000210
中各点坐标,具体为:对每个锚点ai,计算ai与其最近锚点aj之间的距离l(ai,aj);根据倒排索引IVF,将以ai为聚类中心的普通点初始化为以ai为球心,以
Figure FDA00028112173000000211
为半径的球内随机点;
(6-6)计算高维空间中普通点集合D上的距离概率分布,假设为高斯分布:
Figure FDA00028112173000000212
其中,
Figure FDA00028112173000000213
是点di的近邻集合,包括普通点近邻和锚点近邻,P(di,dj)和P(di,aj)的定义如下:
Figure FDA0002811217300000031
Figure FDA0002811217300000032
Figure FDA0002811217300000033
(6-7)计算低维空间中投影普通点集合
Figure FDA0002811217300000034
上的距离概率分布,计算公式如下:
Figure FDA0002811217300000035
Figure FDA0002811217300000036
Figure FDA0002811217300000037
其中,
Figure FDA0002811217300000038
Figure FDA0002811217300000039
的负采样点集合,负采样用来抵消近邻点对
Figure FDA00028112173000000310
产生的过大的拉力;
(6-8)最小化高低空间普通点距离概率分布间的Kullback-Leibler散度
Figure FDA00028112173000000311
用随机梯度下降法优化该目标函数一步迭代,更新低维空间普通点坐标;
(6-9)根据新的低维空间普通点坐标,更新低维空间锚点坐标:
Figure FDA00028112173000000312
其中,
Figure FDA00028112173000000313
代表
Figure FDA00028112173000000314
倒排项中所有普通点的集合,
Figure FDA00028112173000000315
代表该集合大小;
(6-10)用随机梯度下降方法继续优化目标函数
Figure FDA0002811217300000041
进行一次迭代;
(6-11)重复步骤(6-8)到(6-10)直到到达最大迭代次数。
2.根据权利要求1所述的基于双层锚点图投影优化的高维向量数据可视化方法,其特征在于,步骤(1)中,对于数据点超过500万的大规模数据集,通过采样出一个不超过一百万点的子集进行K-means聚类。
3.根据权利要求1所述的基于双层锚点图投影优化的高维向量数据可视化方法,其特征在于,步骤(2)的具体过程为:
(2-1)设高维向量数据集D共有N个点,D中的每个点都会被赋予0到N-1范围内独一无二的编号;
(2-2)锚点集合A中的每一个锚点a,表示K-means聚类得到的一个类别数据的中心点;将以点a为中心点的高维空间中的数据点的编号保存为以a为索引关键词的列表,称为以a为索引的倒排项;
(2-3)锚点集合A中所有点的倒排项的集合为基于A且关于D的倒排索引IVF。
4.根据权利要求1所述的基于双层锚点图投影优化的高维向量数据可视化方法,其特征在于,步骤(3)的具体过程为:
对于高维向量数据集D的每个点,找出距离最近的若干个锚点,并扫描这些锚点对应的倒排项中所有的普通点,找到这些普通点中距离待检索点最近的kD个点。
CN201910343325.2A 2019-04-26 2019-04-26 一种基于双层锚点图投影优化的高维向量数据可视化方法及系统 Active CN110188098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910343325.2A CN110188098B (zh) 2019-04-26 2019-04-26 一种基于双层锚点图投影优化的高维向量数据可视化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910343325.2A CN110188098B (zh) 2019-04-26 2019-04-26 一种基于双层锚点图投影优化的高维向量数据可视化方法及系统

Publications (2)

Publication Number Publication Date
CN110188098A CN110188098A (zh) 2019-08-30
CN110188098B true CN110188098B (zh) 2021-02-19

Family

ID=67715189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910343325.2A Active CN110188098B (zh) 2019-04-26 2019-04-26 一种基于双层锚点图投影优化的高维向量数据可视化方法及系统

Country Status (1)

Country Link
CN (1) CN110188098B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537281B (zh) * 2021-05-26 2024-03-19 山东大学 一种对多个高维数据进行可视化比较的降维方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034441A (zh) * 2007-03-29 2007-09-12 浙江大学 基于集成隐马尔可夫模型学习方法的人体运动数据的识别方法
CN103714138A (zh) * 2013-12-20 2014-04-09 南京理工大学 一种基于密度聚类的区域数据可视化方法
CN104050247A (zh) * 2014-06-04 2014-09-17 上海美琦浦悦通讯科技有限公司 实现海量视频快速检索的方法
CN105160352A (zh) * 2015-08-18 2015-12-16 中南大学 一种基于维度重构的高维数据子空间聚类投影效果优化方法
CN105374006A (zh) * 2015-11-21 2016-03-02 中国人民解放军信息工程大学 基于遗传算法的ct图像重建反投影加速方法
CN107423763A (zh) * 2017-07-26 2017-12-01 中南大学 高维数据的二维投影方法及其投影系统
CN109214298A (zh) * 2018-08-09 2019-01-15 盈盈(杭州)网络技术有限公司 一种基于深度卷积网络的亚洲女性颜值评分模型方法
US10529100B2 (en) * 2018-04-10 2020-01-07 Vmware, Inc. Interaction-driven format for graph visualization

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101034441A (zh) * 2007-03-29 2007-09-12 浙江大学 基于集成隐马尔可夫模型学习方法的人体运动数据的识别方法
CN103714138A (zh) * 2013-12-20 2014-04-09 南京理工大学 一种基于密度聚类的区域数据可视化方法
CN104050247A (zh) * 2014-06-04 2014-09-17 上海美琦浦悦通讯科技有限公司 实现海量视频快速检索的方法
CN105160352A (zh) * 2015-08-18 2015-12-16 中南大学 一种基于维度重构的高维数据子空间聚类投影效果优化方法
CN105374006A (zh) * 2015-11-21 2016-03-02 中国人民解放军信息工程大学 基于遗传算法的ct图像重建反投影加速方法
CN107423763A (zh) * 2017-07-26 2017-12-01 中南大学 高维数据的二维投影方法及其投影系统
US10529100B2 (en) * 2018-04-10 2020-01-07 Vmware, Inc. Interaction-driven format for graph visualization
CN109214298A (zh) * 2018-08-09 2019-01-15 盈盈(杭州)网络技术有限公司 一种基于深度卷积网络的亚洲女性颜值评分模型方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An Optimal Radial Layout for High Dimensional Data Class Visualization;Tran Van Long 等;《2015 INTERNATIONAL CONFERENCE ON ADVANCED TECHNOLOGIES FOR COMMUNICATIONS (ATC)》;20151016;343-346 *
AtSNE: Efficient and Robust Visualization on GPU through Hierarchical Optimization;Cong Fu 等;《KDD "19: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining》;20190808;176–186 *
t-SNE-CUDA: GPU-Accelerated t-SNE and its Applications to Modern Data;Chan, DM 等;《30TH INTERNATIONAL SYMPOSIUM ON COMPUTER ARCHITECTURE AND HIGH PERFORMANCE COMPUTING (SBAC-PAD 2018)》;20180927;330-338 *
大规模人脸图像检索系统的研究与实现;刘正华;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215(第 02 期);I138-1686 *

Also Published As

Publication number Publication date
CN110188098A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
Forestier et al. Generating synthetic time series to augment sparse datasets
Yao et al. Computing trajectory similarity in linear time: A generic seed-guided neural metric learning approach
Liu et al. Clustering with outlier removal
Pan et al. Fast GPU-based locality sensitive hashing for k-nearest neighbor computation
Zhang et al. Efficient parallel skyline evaluation using MapReduce
CN111125469B (zh) 一种社交网络的用户聚类方法、装置以及计算机设备
Groh et al. Ggnn: Graph-based gpu nearest neighbor search
EP3940555A2 (en) Method and apparatus of processing information, method and apparatus of recommending information, electronic device, and storage medium
CN111460234B (zh) 图查询方法、装置、电子设备及计算机可读存储介质
Qin et al. 3D CAD model retrieval based on sketch and unsupervised variational autoencoder
CN109145143A (zh) 图像检索中的序列约束哈希算法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN115618096A (zh) 内积检索方法和电子设备
Xiao et al. A survey of parallel clustering algorithms based on spark
CN115410199A (zh) 图像内容检索方法、装置、设备及存储介质
CN110188098B (zh) 一种基于双层锚点图投影优化的高维向量数据可视化方法及系统
Karim et al. Spatiotemporal Aspects of Big Data.
He et al. Parallel outlier detection using kd-tree based on mapreduce
Charnine et al. Visualization of Research Trending Topic Prediction: Intelligent Method for Data Analysis
CN107944045B (zh) 基于t分布哈希的图像检索方法及系统
Wu et al. So (3) rotation equivariant point cloud completion using attention-based vector neurons
Jiang et al. A survey of gnn-based graph similarity learning
Fox et al. Contributions to high-performance big data computing
Agrawal et al. High performance big data clustering
CN111125308A (zh) 一种支持语义联想的轻量级文本模糊搜索的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant