CN112163641B - 一种基于概率多层次图结构的高维数据可视化方法 - Google Patents

一种基于概率多层次图结构的高维数据可视化方法 Download PDF

Info

Publication number
CN112163641B
CN112163641B CN202011193041.9A CN202011193041A CN112163641B CN 112163641 B CN112163641 B CN 112163641B CN 202011193041 A CN202011193041 A CN 202011193041A CN 112163641 B CN112163641 B CN 112163641B
Authority
CN
China
Prior art keywords
data
graph structure
dimensional
probability
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011193041.9A
Other languages
English (en)
Other versions
CN112163641A (zh
Inventor
朱闽峰
胡元哲
陈为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011193041.9A priority Critical patent/CN112163641B/zh
Publication of CN112163641A publication Critical patent/CN112163641A/zh
Application granted granted Critical
Publication of CN112163641B publication Critical patent/CN112163641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于概率多层次图结构的高维数据可视化方法,属于数据可视化及降维技术领域。包括:1)给定一个高维数据集,该数据集包含n个数据点,每个数据点的维度均为D;2)计算每个数据点的k近邻,并构建最近邻图结构G0,基于图结构G0构建概率多层次图结构,得到概率多层次图结构集合
Figure DDA0002753266300000011
3)基于概率多层次图结构集合
Figure DDA0002753266300000012
逐层布局概率多层次图得到数据低维度表示,每个数据点的维度都是二维或三维;4)基于低维数据构建散点视图,用于数据挖掘和分析。通过利用层次图结构来加快优化计算过程,并引入基于概率的采样优化了可视化效果。

Description

一种基于概率多层次图结构的高维数据可视化方法
技术领域
本发明涉及数据可视化及降维技术领域,具体地说,涉及一种基于概率多层次图结构的高维数据可视化方法。
背景技术
高维数据可视化是数据分析中的重要任务,对于深度学习,生命科学和网络分析等方向起着至关重要的作用。降维算法学习数据中的复杂信息,将高维数据转换为低维数据,从而分析数据的分布。
在过去的几十年中,已经有大量高维数据的可视化方法被提出。t-SNE算法是最成功的降维算法之一,公布号为CN110458187A的发明专利申请文献公开的恶意代码家族聚类方法及系统,其中方法包括采用了T-SNE算法对原始恶意代码执行序列进行降维可视化。公布号为CN107478418A的发明专利申请文献公开的旋转机械故障特征自动提取方法,其中采用t-SNE算法对获得的高维特征进行降维处理实现故障特征的可视化,由此可根据提取的特征对未知的故障信号实现故障诊断。
t-SNE算法往往用于可视化具有固有非线性结构的高维数据,但是,t-SNE由于计算复杂度与数据点的数量成平方关系,难以处理日益增长的大规模数据。尽管BH-SNE,LargeVis等算法通过构造最近邻网络和负采样技术来获得更小的算法复杂度,但是这些方法在应用于大规模数据时仍面临两个主要问题:1)可视化效果往往不够令人满意;2)优化过程仍然很耗时。因此科研人员需要使用更快更好的降维算法来满足他们的任务。
发明内容
本发明的目的是提供一种基于概率多层次图结构的高维数据可视化方法,可以加快优化过程,并优化可视化效果。
为了实现上述目的,本发明提供的基于概率多层次图结构的高维数据可视化方法包括以下步骤:
1)给定一个高维数据集,该数据集包含n个数据点,每个数据点的维度均为D;
2)计算每个数据点的k近邻,并构建最近邻图结构G0,基于图结构G0构建概率多层次图结构,得到概率多层次图结构集合
Figure GDA0003589098640000021
3)基于概率多层次图结构集合
Figure GDA0003589098640000022
逐层布局概率多层次图得到数据低维度表示,每个数据点的维度都是二维或三维;
4)基于低维数据构建散点视图,用于数据挖掘和分析。
上述技术方案中,通过利用层次图结构来加快优化过程,并引入基于概率的采样优化了可视化效果。由于学习了层次图的结构信息,在较不准确的k近邻算法下依然有很好的可视化效果。除此之外,本方法支持CPU和GPU的并行运算,在多核运算下有更快的速度,满足了大规模高维数据可视化的需要。
可选地,在一个实施例中,步骤2)中,概率多层次图集合的构建过程包括:
2-1)基于数据分布,构建k-d树索引,对于每个数据点,在k-d树索引中求出其k近邻;
2-2)令邻域范围为K,计算每个数据点所对应的K阶邻域,并基于每个点的K阶邻域,构建初始化k近邻图结构G0=(V0,E0),并依据每个数据的空间密度求得数据点的重要性概率
Figure GDA0003589098640000031
2-3)依据每个数据的空间分布求得数据点重要性概率
Figure GDA0003589098640000032
Figure GDA0003589098640000033
定义d(xi,xj)代表数据点xi和xj的欧式距离,σi是度量空间密度的超参数,NNK(xi)是数据点xi的K阶邻域,每个数据点xi的重要性概率
Figure GDA0003589098640000037
由其邻边空间概率P(i|j)的总和决定:
Figure GDA0003589098640000034
Figure GDA0003589098640000035
2-4)对于图结构Gl=(Vl,El),通过随机采样的方式获得聚合的图结构Gl+1=(Vl+1,El+1),其中,
Figure GDA0003589098640000036
Vl+1每个点由Vl中的多个点聚合而成;
2-5)基于高维数据集X,以步骤2-2)得到的初始k近邻图结构G0作为输入,通过步骤2-4)的方法得到G1;以G1作为输入,通过同样过程得到G2,以此类推,若当前采样比例低于阈值则停止,返回一个多层次图结构集合
Figure GDA0003589098640000041
可选地,在一个实施例中,步骤2-4)中,随机采样方法的步骤如下:
a.为图结构Gl设立一个随机点池
Figure GDA0003589098640000042
初始化Pl为所有点的集合,每个点选中的概率依据归一化后的重要性概率Normalize(Sl);
b.每次从点池Pl中随机选取点
Figure GDA0003589098640000043
将该点及其在图中一阶邻域的集合
Figure GDA0003589098640000044
聚合成一个新的点
Figure GDA0003589098640000045
并且
Figure GDA0003589098640000046
的重要性概率
Figure GDA0003589098640000047
为此集合Fj的重要性概率之和;
c.从随机点池Pl中删去集合Fj,重复以上过程,直到所有点都被选择过;
d.将所有不属于同一个新数据点的边
Figure GDA0003589098640000048
插入新的边集El+1中,构建成新的图结构Gl+1=(Vl+1,El+1)。
可选地,在一个实施例中,步骤2-5)中,
Figure GDA00035890986400000410
的每一层是前一层采样的结果。步骤3)中,采用重要性采样的方法逐层布局概率多层次图。
可选地,在一个实施例中,步骤3)中的布局过程包括:
3-1)对于图结构Gl=(Vl,El),通过优化高维数据分布P和低维数据分布Q之间的KL散度;
3-2)将多层次图结构集合{G0,G1,…GL}的最后一层GL作为输入,通过输入步骤3-1)得到图结构GL的低维表达
Figure GDA0003589098640000049
YL的维度为二维或者三维,通过概率转化为GL-1层降维的初始低维表达YL-1
步骤3-1)中,高维数据分布P通过近邻图网络求得,每个点的概率分布由其邻域点决定,而低维数据分布Q通过t分布来近似表达。利用负采样技术,简化优化目标,以一个点的邻域作为正样本,其他点随机获得负样本的方法,加快优化过程。
步骤3-2)中的概率转化过程为:已知图结构Gl由图结构Gl-1采样而来,将数据点
Figure GDA0003589098640000051
低维表达按照概率赋值到其上一层图的对应点
Figure GDA0003589098640000052
以及其一阶邻域
Figure GDA0003589098640000053
获得Gl-1层降维的初始低维表达
Figure GDA0003589098640000054
Figure GDA0003589098640000055
重复此过程,得到G0层的低维表达Y0,返回高维数据X的降维结果Y={y1,y2,…,yn}。
与现有技术相比,本发明的有益之处在于:
通过本发明的基于概率多层次图结构的高维数据可视化方法可以产生优美的可视化效果;由于在并行化,重要性采样,构建k近邻图等方面的优化,拥有更好的算法复杂度。
附图说明
图1为本发明实施例中基于概率多层次图结构的高维数据可视化方法的流程图;
图2为本发明实施例中相邻层级共享梯度和布局的示意图;
图3为本发明实施例中方法与现有的比较算法的可视化效果展示。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合实施例及其附图对本发明作进一步说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
实施例
参见图1,本实施例的基于概率多层次图结构的高维数据可视化方法包括以下步骤:
S100,给定一个高维数据集X={x1,x2,…,xn},其中包含n个数据点,每个数据点的维度都是D。
S200,基于步骤S100计算每个数据点的k近邻,并构建最近邻图结构G0,基于图结构G0构建概率多层次结构,得到L层图结构集合
Figure GDA0003589098640000061
Figure GDA0003589098640000062
其中,概率多层次图集合构建过程为:
S201,基于数据分布,构建多棵随机k-d树索引。对于每个数据点,在多棵k-d树上依次求出的k近邻,还有这些节点在k-d树空间中的邻域节点,从这些候选点得到每个数据点的k近邻。令邻域范围为K,计算每个数据点所对应的K阶邻域
Figure GDA0003589098640000071
其中
Figure GDA0003589098640000072
为点xi的K个最近数据点的标号。
S202,基于k近邻信息,构建初始化k近邻图结构G0=(V0,E0),其中V0代表原先高维数据点V0={v0,v1,...,vn},vi=xi,E0代表了两个数据点之间的连接边,
Figure GDA0003589098640000073
如果数据点vj存在于数据点vi的k近邻中,满足e=(vi,vj)∈E0,vj∈NNK(vi),则增加该边。最后返回构建完成的初始近邻图结构G0
S203,依据每个数据的空间分布求得数据点重要性概率
Figure GDA0003589098640000074
Figure GDA0003589098640000075
定义d(xi,xj)代表数据点xi和xj的欧式距离,σi是度量空间密度的超参数,NNK(xi)是数据点xi的K阶邻域。每个数据点xi的重要性概率
Figure GDA0003589098640000076
由其邻边空间概率P(i|j)的总和决定:
Figure GDA0003589098640000077
Figure GDA0003589098640000078
S204,对于图结构Gl=(Vl,El),通过随机点采样获得聚合的图结构Gl+1=(Vl+1,El +1),其中
Figure GDA0003589098640000081
Vl+1每个点由Vl中的多个点聚合而成。如上所述的随机点采样算法,具体如下,为图结构Gl设立一个随机点池
Figure GDA0003589098640000082
初始化Pl为所有点的集合,每个点选中的概率依据归一化后的重要性概率Normalize(Sl)。每次从点池Pl随机选点
Figure GDA0003589098640000083
将该点以及它在图中一阶邻域的集合
Figure GDA0003589098640000084
聚合成一个新的点
Figure GDA0003589098640000085
他们之间存在父子关系(公式中用Father,Son来表示),其中点
Figure GDA0003589098640000086
为该层的关键点集合keyPointl的一员,
Figure GDA0003589098640000087
的重要性概率
Figure GDA0003589098640000088
为此集合Fj的重要性概率之和,随后从随机点池Pl中删去集合Fj
Figure GDA0003589098640000089
Figure GDA00035890986400000810
Figure GDA00035890986400000811
Figure GDA00035890986400000812
Figure GDA00035890986400000813
重复这个过程,直到所有点都被选择过。此时再将所有不属于同一个新数据点的边
Figure GDA00035890986400000814
插入新的边集El+1中,构建成新的图结构Gl+1=(Vl+1,El+1)。
S205,基于高维数据集X,通过步骤S201,步骤S202,步骤S203得到初始k近邻图结构G0。以G0作为输入,通过步骤S204可以得到G1,以G1作为输入,通过同样过程得到G2,以此类推,如果当前步骤的采样比例不高则停止,返回一个多层次图结构集合
Figure GDA0003589098640000091
其中
Figure GDA0003589098640000092
的每一层是前一层采样的结果;
S300,基于步骤S200的L层图结构
Figure GDA0003589098640000093
采用重要性采样的方法逐层布局概率多层次图得到最后的数据低维度表示Y={y1,y2,…,yn},yn∈R2 or R3
其中,布局过程包括:
S301,对于图结构Gl=(Vl,El),通过优化高维数据分布P和低维数据分布Q之间的KL散度,在保持高维数据的邻域信息的前提下获得更好的可视化效果。定义d(yi,yj)代表数据点yi和yj在低维空间的欧式距离。高维数据分布P参考步骤S203所定义的邻边空间概率P(i|j),每个点的概率分布由其邻域点决定,而低维数据分布Q通过t分布来近似表达:
Figure GDA0003589098640000094
Figure GDA0003589098640000095
Figure GDA0003589098640000096
利用负采样技术,可以简化优化目标,以一个点的邻域作为正样本,其他点随机获得负样本的方法,加快优化过程:
Figure GDA0003589098640000101
S302,将层次图结构集合{G0,G1,…GL}的最后一层GL作为输入,通过输入步骤S301得到图结构GL的低维表达
Figure GDA0003589098640000102
以通过概率转化作为GL-1层降维的初始低维表达YL-1。上述概率转化过程如附图2所示,每次优化过程的梯度由数据点
Figure GDA0003589098640000103
代表的原图G0中的点聚团共享,而每一层布局的坐标会根据邻域传递到上层。具体来说已知图结构Gl由图结构Gl-1采样而来,将数据点
Figure GDA0003589098640000104
低维表达按照概率赋值到其上一层图的对应点
Figure GDA0003589098640000105
以及其一阶邻域
Figure GDA0003589098640000106
获得Gl-1层降维的初始低维表达
Figure GDA0003589098640000107
所有的关键点会被赋值为它父亲Father(vi)的坐标,而非关键点由它所有一阶邻域的关键点所决定:
Figure GDA0003589098640000108
Figure GDA0003589098640000109
重复这个过程,最后得到G0层的低维表达Y0,作为高维数据的降维结果Y={y1,y2,…,yn};
S400,基于低维数据构建散点视图,用于数据挖掘和分析。
参见图3,为采用本实施例中基于概率多层次图结构的高维数据可视化方法与采用常规比较算法的可视化效果展示,可以看出,本实施例的方法效果更佳。

Claims (7)

1.一种基于概率多层次图结构的高维数据可视化方法,其特征在于,包括以下步骤:
1)给定一个高维数据集X,该数据集包含n个数据点,每个数据点的维度均为D;
2)计算每个数据点的k近邻,并构建最近邻图结构G0,基于图结构G0构建概率多层次图结构,得到L层图结构集合
Figure FDA0003589098630000011
其构建的步骤包括:
2-1)基于数据分布,构建k-d树索引,对于每个数据点,在k-d树索引中求出其k近邻;
2-2)令邻域范围为K,计算每个数据点所对应的K阶邻域,并基于每个点的K阶邻域,构建初始化k近邻图结构G0=(V0,E0),并依据每个数据的空间密度求得数据点的重要性概率
Figure FDA0003589098630000012
2-3)依据每个数据的空间分布求得数据点重要性概率
Figure FDA0003589098630000013
Figure FDA0003589098630000014
定义d(xi,xj)代表数据点xi和xj的欧式距离,σi是度量空间密度的超参数,NNK(xi)是数据点xi的K阶邻域,每个数据点xi的重要性概率
Figure FDA0003589098630000015
由其邻边空间概率P(i|j)的总和决定:
Figure FDA0003589098630000016
Figure FDA0003589098630000021
2-4)对于图结构Gl=(Vl,El),通过随机采样的方式获得聚合的图结构Gl+1=(Vl+1,El +1),其中,
Figure FDA0003589098630000022
Vl+1每个点由Vl中的多个点聚合而成;
2-5)基于高维数据集X,以步骤2-2)得到的初始k近邻图结构G0作为输入,通过步骤2-4)的方法得到G1;以G1作为输入,通过同样过程得到G2,以此类推,若当前采样比例低于阈值则停止,返回一个多层次图结构集合
Figure FDA0003589098630000024
3)基于概率多层次图结构集合
Figure FDA0003589098630000025
逐层布局概率多层次图得到数据低维度表示,每个数据点的维度都是二维或三维,其具体步骤包括:
3-1)对于图结构Gl=(Vl,El),通过优化高维数据分布P和低维数据分布Q之间的KL散度;
3-2)将多层次图结构集合{G0,G1,…GL}的最后一层GL作为输入,通过输入步骤3-1)得到图结构GL的低维表达
Figure FDA0003589098630000023
YL的维度为二维或者三维,通过概率转化为GL-1层降维的初始低维表达YL-1
4)基于低维数据构建散点视图,用于数据挖掘和分析。
2.根据权利要求1所述的基于概率多层次图结构的高维数据可视化方法,其特征在于,步骤2-4)中,随机采样方法的步骤如下:
a.为图结构Gl设立一个随机点池
Figure FDA0003589098630000031
初始化Pl为所有点的集合,每个点选中的概率依据归一化后的重要性概率Normalize(Sl);
b.每次从点池Pl中随机选取点
Figure FDA0003589098630000032
将该点及其在图中一阶邻域的集合
Figure FDA0003589098630000033
聚合成一个新的点
Figure FDA0003589098630000034
并且
Figure FDA0003589098630000035
的重要性概率
Figure FDA0003589098630000036
为此集合Fj的重要性概率之和;
c.从随机点池Pl中删去集合Fj,重复以上过程,直到所有点都被选择过;
d.将所有不属于同一个新数据点的边
Figure FDA0003589098630000037
插入新的边集El+1中,构建成新的图结构Gl+1=(Vl+1,El+1)。
3.根据权利要求1所述的基于概率多层次图结构的高维数据可视化方法,其特征在于,步骤2-5)中,
Figure FDA0003589098630000038
的每一层是前一层采样的结果。
4.根据权利要求1所述的基于概率多层次图结构的高维数据可视化方法,其特征在于,步骤3)中,采用重要性采样的方法逐层布局概率多层次图。
5.根据权利要求1所述的基于概率多层次图结构的高维数据可视化方法,其特征在于,步骤3-1)中,高维数据分布P通过近邻图结构求得,每个点的概率分布由其邻域点决定,而低维数据分布Q通过t分布来近似表达。
6.根据权利要求1所述的基于概率多层次图结构的高维数据可视化方法,其特征在于,步骤3-1)中,利用负采样技术,简化优化目标,以一个点的邻域作为正样本,其他点随机获得负样本的方法,加快优化过程。
7.根据权利要求1所述的基于概率多层次图结构的高维数据可视化方法,其特征在于,步骤3-2)中的概率转化过程为:已知图结构Gl由图结构Gl-1采样而来,将数据点
Figure FDA0003589098630000041
低维表达按照概率赋值到其上一层图的对应点
Figure FDA0003589098630000042
以及其一阶邻域
Figure FDA0003589098630000043
获得Gl-1层降维的初始低维表达
Figure FDA0003589098630000044
重复此过程,得到G0层的低维表达Y0,返回高维数据X的降维结果Y={y1,y2,…,yn}。
CN202011193041.9A 2020-10-30 2020-10-30 一种基于概率多层次图结构的高维数据可视化方法 Active CN112163641B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011193041.9A CN112163641B (zh) 2020-10-30 2020-10-30 一种基于概率多层次图结构的高维数据可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011193041.9A CN112163641B (zh) 2020-10-30 2020-10-30 一种基于概率多层次图结构的高维数据可视化方法

Publications (2)

Publication Number Publication Date
CN112163641A CN112163641A (zh) 2021-01-01
CN112163641B true CN112163641B (zh) 2022-06-14

Family

ID=73866019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011193041.9A Active CN112163641B (zh) 2020-10-30 2020-10-30 一种基于概率多层次图结构的高维数据可视化方法

Country Status (1)

Country Link
CN (1) CN112163641B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112884040B (zh) * 2021-02-19 2024-04-30 北京小米松果电子有限公司 训练样本数据的优化方法、系统、存储介质及电子设备
CN113537281B (zh) * 2021-05-26 2024-03-19 山东大学 一种对多个高维数据进行可视化比较的降维方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678261A (zh) * 2016-01-07 2016-06-15 西安电子科技大学 基于有监督图的直推式数据降维方法
CN108229295A (zh) * 2017-09-22 2018-06-29 江西师范大学 一种基于多重局部约束的图优化维数约简方法
CN108520281A (zh) * 2018-04-13 2018-09-11 上海海洋大学 一种基于全局与局部保持的高光谱图像半监督降维方法
CN109815440A (zh) * 2019-01-16 2019-05-28 江西师范大学 联合图优化和投影学习的维数约简方法
CN110390352A (zh) * 2019-06-26 2019-10-29 华中科技大学 一种基于相似性哈希的图像暗数据价值评估方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8659604B2 (en) * 2009-09-29 2014-02-25 International Business Machines Corporation Dimensional reduction mechanisms for representing massive communication network graphs for structural queries
WO2014210368A1 (en) * 2013-06-28 2014-12-31 D-Wave Systems Inc. Systems and methods for quantum processing of data
CN110188196B (zh) * 2019-04-29 2021-10-08 同济大学 一种基于随机森林的文本增量降维方法
CN111694879B (zh) * 2020-05-22 2023-10-31 北京科技大学 一种多元时间序列异常模式预测方法及数据采集监控装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105678261A (zh) * 2016-01-07 2016-06-15 西安电子科技大学 基于有监督图的直推式数据降维方法
CN108229295A (zh) * 2017-09-22 2018-06-29 江西师范大学 一种基于多重局部约束的图优化维数约简方法
CN108520281A (zh) * 2018-04-13 2018-09-11 上海海洋大学 一种基于全局与局部保持的高光谱图像半监督降维方法
CN109815440A (zh) * 2019-01-16 2019-05-28 江西师范大学 联合图优化和投影学习的维数约简方法
CN110390352A (zh) * 2019-06-26 2019-10-29 华中科技大学 一种基于相似性哈希的图像暗数据价值评估方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Geodesic distance based semi-supervised locality dimensinality reduction;Yan Wang 等;《2013 International Conference on Machine Learning and Cybernetics》;20140908;全文 *
二、降维——流形学习-高维数据的降维与可视化;Nicole_Liang;《https://blog.csdn.net/weixin_39541558/article/details/80054159》;20180423;全文 *
基于局部邻域优化的降维算法研究;吕志超;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20150131(第1期);全文 *

Also Published As

Publication number Publication date
CN112163641A (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
Kwedlo A clustering method combining differential evolution with the K-means algorithm
CN112163641B (zh) 一种基于概率多层次图结构的高维数据可视化方法
CN101699514B (zh) 基于免疫克隆量子聚类的sar图像分割方法
CN111125397B (zh) 一种基于卷积神经网络的布料图像检索方法
CN114187446B (zh) 一种跨场景对比学习的弱监督点云语义分割方法
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
CN116383422B (zh) 一种基于锚点的无监督跨模态哈希检索方法
CN111524140A (zh) 基于cnn和随机森林法的医学图像语义分割方法
Li et al. GoT: A growing tree model for clustering ensemble
CN111986223B (zh) 一种基于能量函数的室外点云场景中树木提取方法
WO2021059527A1 (ja) 学習装置、学習方法、及び、記録媒体
CN112861862A (zh) 基于区域生长与深度学习结合的针对兵马俑点云的无监督分割方法
Wu et al. Mixed Pattern Matching‐Based Traffic Abnormal Behavior Recognition
Babatunde et al. Comparative analysis of genetic algorithm and particle swam optimization: An application in precision agriculture
CN114974400B (zh) 一种全局生物网络比对方法
CN116958027A (zh) 三维工业异常检测方法、装置、存储介质及电子设备
CN114240844B (zh) 一种医学图像中无监督的关键点定位和目标检测方法
Du et al. ParSymG: a parallel clustering approach for unsupervised classification of remotely sensed imagery
CN112766299B (zh) 一种人脸图像的迭代式双向连接聚类算法
Tuan et al. ColorRL: reinforced coloring for end-to-end instance segmentation
Anh et al. Reinforced coloring for end-to-end instance segmentation
CN113010748A (zh) 一种基于亲和聚类的分布式大图划分方法
Zhang et al. Color clustering using self-organizing maps
CN117056088B (zh) 一种基于MapReduce的多模态测图数据分布式并行计算方法及系统
Sun et al. Optimization study and application on the K value of K-means algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant