CN110955809B - 一种支持拓扑结构保持的高维数据可视化方法 - Google Patents

一种支持拓扑结构保持的高维数据可视化方法 Download PDF

Info

Publication number
CN110955809B
CN110955809B CN201911179884.0A CN201911179884A CN110955809B CN 110955809 B CN110955809 B CN 110955809B CN 201911179884 A CN201911179884 A CN 201911179884A CN 110955809 B CN110955809 B CN 110955809B
Authority
CN
China
Prior art keywords
dimensional
visual
data
neuron
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911179884.0A
Other languages
English (en)
Other versions
CN110955809A (zh
Inventor
窦慧
申富饶
徐百乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201911179884.0A priority Critical patent/CN110955809B/zh
Publication of CN110955809A publication Critical patent/CN110955809A/zh
Application granted granted Critical
Publication of CN110955809B publication Critical patent/CN110955809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种支持拓扑结构保持的高维数据可视化方法,基于自组织增量学习神经网络的高维数据可视化方法,以实现拓扑结构保持过程中自适应网络结构设定,并可实现可视空间数据密度分布情况展示。该方法主要包括:在线聚类,可视映射,可视渲染等几个部分。在线聚类从原始数据集中自组织的学习出一个可代表该结构的代表数据集;可视映射利用降维方法多维缩放,将数据集映射到可视空间内,并保持代表数据的相对距离;可视渲染展示数据集在可视空间分布情况。采用本发明进行高维数据可视化,可以实现自适应的可视网络结构生成,并在可视结果中展示数据相互关系的同时展示数据密度分布情况。

Description

一种支持拓扑结构保持的高维数据可视化方法
技术领域
本发明涉及高维数据可视化领域,尤其涉及一种支持拓扑结构保持的高维数据可视化方法。
背景技术
当今,计算机硬件技术的发展使得存储数据变得快捷简单。日常生活的各个领域的数据几乎都会被记录,例如购物网站消费记录、手机通信记录、微信聊天记录等等。这些被记录的信息,构成了的高维数据。这些高维数据就像一个可用信息储存池,发现高维数据中的潜在信息,提取其中有价值的信息,可以帮助人们更好的掌握规律、分析趋势。但是,从高维数据中获取有价值的隐藏信息并不是一件简单的事。单纯的使用计算机分析高维数据很难全面。为了更好的提取和分析高维数据,可以采用人机结合的方式处理高维数据。人类的灵活性、创造性和具有的常识,可以同机器的存储能力和计算能力相结合。但是由于人眼只能理解3维及以下维度的数据,所以对高维数据进行转换,使其能够被人直观的获取和处理变得非常重要,即高维数据可视化。
高维数据可视化的本质,是寻找一种最佳的映射关系,实现高维数据在低维空间的展现。在影射过程中,尽可能的减少信息的丢失。高维数据可视化的主要过程包括:
1、数据转换,对原始高维数据集进行处理,使其适用于后续步骤的要求。常见的数据转换手段包括采样、归一化、特征提取等。
2、可视映射,将处理过的高维数据集映射至可视空间,即一维、二维或三维空间。大量研究致力于这一步骤的实现和完善,包括使用常见的降维方法实现。
3、可视渲染,利用可视空间中的特征清晰明了的表达映射后的数据信息。通常使用位置、颜色、形状或大小等视觉特征进行渲染。
4、人机交互,根据当前的数据可视化结果,人为的调整可视化算法各步骤及其参数,实现更好的可视化效果。
在可视化中,算法应尽可能的保持高维数据的某些固有特性或特征。衡量高维数据可视化算法的最直接有效的标准,是衡量该算法是否有能力保持高维数据在某一方面的特性,例如拓扑保持能力、分类能力、维度间相关性保持能力等。
在可视化的过程中,可视映射是其中的核心步骤,许多降维方法被用于可视映射过程中。主成分分析法(PCA)和多维缩放(MDS)是经典的线性降维方法,在数据量较大的数据集中,这类方法计算强度过大,对计算机硬件要求较高。等度量映射(Isomap)、t分布邻域嵌入算法(t-SNE)是常用的非线性降维方法,但他们保持拓扑结构的能力较弱。自组织神经网络(SOM)是一种基于非监督学习的神经网络模型,可用在可视映射过程中,它可以通过将高维临近点映射到低维网格邻域来实现拓扑结构保持。但自组织神经网络中的低维网格结构必须被提前设计,不合理的网格结构对可视化结果存在很大的影响。无论多少高维数据点映射到该网格中,自组织神经网络中每个网格只会被标注一次,这导致很难在低维网格中观察到数据集的密度分布情况。
设计一种可视化方法可以在保持拓扑结构的同时,展示数据分布密度情况,是一个需要解决的问题。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种支持拓扑结构保持的高维数据可视化方法,为基于自组织增量学习神经网络的高维数据可视化方法,以实现拓扑结构保持过程中自适应网络结构设定,并可实现可视空间数据密度分布情况展示。本发明具体包括如下步骤:
步骤1,通过非监督学习神经网络自组织增量学习网络,自主构建数据在高维空间的聚类拓扑结构,并从原始数据集中自组织的学习出一个代表所述聚类拓扑结构的代表数据集;
步骤2,进行可视映射,利用降维方法将代表数据集映射到可视空间内,并保持代表数据的相对距离,生成二维基准点,基准点在可视空间中自适应生成可视网络结构,将高维数据集映射至可视网络结构;
步骤3,进行可视渲染,展示的基准点的大小正比于该基准点的激活次数,通过基准点的位置和大小,展示数据集在可视空间的密度分布情况。
步骤1包括:
步骤1-1,通过自组织增量学习网络构造单层的神经网络,所述神经网络包括神经元集合A和边集合
Figure BDA0002290958700000021
其中第i个神经元i∈A的权值ωi∈Rn是它在高维空间中的坐标表示,其中Rn表示n维实数集;边集合记录神经元之间的连接关系和边的年龄;
步骤1-2,初始化神经网络;
步骤1-3,通过竞争学习迭代训练神经网络;
步骤1-4,更新神经网络;
步骤1-5,进行网络去噪。
步骤1-2包括:初始时神经元集合A={c1,c2},其中,定义两个神经元c1,c2的权重分别为ω1,ω2,ω1和ω2是高维数据集中的随机两个数据样本,初始边集合为空集。
步骤1-3包括:在每次迭代过程中,输入一个新的高维数据样本s∈Rn,找出A中与其最相似的两个神经元,即获胜神经元s1和s2
Figure BDA0002290958700000031
Figure BDA0002290958700000032
步骤1-4包括:使用激活阈值判断新样本s与获胜神经元s1和s2是否属于同一类别:
对于任意神经元i,激活阈值
Figure BDA0002290958700000033
如果神经元i与其他神经元无连接,则/>
Figure BDA0002290958700000034
/>
如果
Figure BDA0002290958700000035
或者/>
Figure BDA0002290958700000036
成立,则判定s是一个新的神经元,加入到神经元集合A中。
否则,如果s1和s2之间无连接,则连接s1和s2并加入到C中,年龄设为0;与冠军s1相连的所有边的年龄加1,更新冠军s1的权值为
Figure BDA0002290958700000037
α是学习率,α∈(0,1)。
步骤1-5包括:迭代n1次后(迭代次数根据数据集的不同,进行不同的设置,比如设置为10次),神经网络删除由噪声产生的神经元,移除边的年龄值过大的边连接,其中,如果一个神经元是孤立的或只有一个边连接,则判定它是需要被删除的噪声点。一般设定边的年龄值大于10时将其删除。
迭代过程完成后,神经网络训练完成,输出神经元集合即为代表数据集,神经元的权值即是代表数据集的权值。
步骤2包括:
步骤2-1,生成可视空间基准点;
步骤2-2,进行拓扑保持映射。
步骤2-1包括:对于代表数据集的数据,计算平方欧式距离,生成距离矩阵D:
D中元素Dij为ωi和ωj的平方欧式距离,计算公式如下:
Dij=||ωij||2
ωi和ωj的中心矩阵H,其中H中元素Hij计算如下,n为数据维数:
Figure BDA0002290958700000041
根据矩阵H,将矩阵D转换成矩阵B:
Figure BDA0002290958700000042
由此获得神经网络输出的代表数据集在二维可视空间对应的点,称之为基准点,基准点的权值即是相应代表数据集中点的权值。
基准点在二维可视空间中的空间坐标表示为L:
Figure BDA0002290958700000043
其中,λi是矩阵B的第i大的特征值,νi是其对应的特征向量。
步骤2-2包括:将全部高维数据集映射至可视网络结构,实现高维数据可视化的目标:
依次输入样本x∈Rn,通过
Figure BDA0002290958700000044
找出与其最相似的基准点c1,其中/>
Figure BDA0002290958700000045
是基准点c1的权值;
更新基准点c1的权值:
Figure BDA0002290958700000051
/>
基准点c1的激活次数加1。
步骤3包括:根据基准点的二维坐标表示其位置,基准点的点的大小正比于所述基准点的激活次数,通过基准点的位置和大小,即能够展示数据集在可视空间的密度分布情况。
本发明想法来源于自组织神经网络,自组织神经网络可将高维数据映射到低维网格内,且具有良好的拓扑保持特性,常用于高维数据的可视化展示。但自组织神经网络的拓扑保持能力的好坏很大程度上取决于网格结构的人工提前设定,不同的数据集的网络结构设定不尽相同,网络只能根据人的经验设定和调整,这导致可视化的结果的不稳定。同时,网格中的点无论被投影多少次,只能被标志一次,无法反映数据密度分布情况。
基于以上考虑,本发明实施例公开一种自适应的拓扑保持可视化方法。该方法主要包括:在线聚类,可视映射,可视渲染等几个部分。
在线聚类通过非监督学习神经网络自组织增量学习网络(SOINN),自主构建数据在高维空间的聚类拓扑结构,并从原始数据集中自组织的学习出一个可代表该结构的代表数据集。
可视映射利用降维方法多维缩放(MDS),将代表数据集映射到可视空间内,并保持代表数据的相对距离。以这些二维数据点为基准点,将全部数据映射至基准点上,拓扑结构保持实现主要通过将高维临近点映射至低维邻近基准点上。映射过程中,每个基准点被投影的次数即激活次数被实时记录。人眼的可视空间包括一维、二维和三维空间,本发明中提到的可视空间默认为二维空间。
可视渲染主要通过图片表示特征实现,常用到的特征包括位置、颜色、形状或大小等。本发明根据基准点的二维坐标表示其位置,基准点的点的大小正比于该基准点的激活次数。通过基准点的位置和大小,可展示数据集在可视空间的密度分布情况。
有益效果:
本发明提出一种高维数据可视化方法,支持拓扑结构保持。相较于现有的拓扑结构保持可视化方法,本发明优势主要体现在以下两点:
1、可视空间网络结构无需人工设定,可实现自适应的网络结构生成。现有的利用自组织神经网络进行可视化的方法,网络结构形状固定,网格数量需人工设定,参数需根据数据集类型手动进行调整。本发明可自适应地生成网络结构,无需手动设定网络形状和基准点数量。
2、在可视空间内展示数据密度分布情况。现有的方法单纯根据二维映射点位置展示数据分布。本发明同时使用映射点的位置和大小表示数据分布情况,可在展示数据相互关系的同时展示数据密度分布情况。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为使用本发明提供的一种支持拓扑结构保持的高维数据可视化方法的流程示意图;
图2为使用本发明提供的一种支持拓扑结构保持的高维数据可视化方法对3维人工数据集可视化的结果展示;
图3为使用本发明提供的一种支持拓扑结构保持的高维数据可视化方法对4维虹膜(iris)数据集可视化的结果展示;
图4为使用本发明提供的一种支持拓扑结构保持的高维数据可视化方法对784维手写数字(mnist)数据集可视化的结果展示;
图5为使用本发明提供的一种支持拓扑结构保持的高维数据可视化方法对各数据集可视化过程进行拓扑结构保持能力计算的结果展示,本发明使用相对标准偏差(RSD)作为评估标准。RSD值越小,拓扑结构保持能力越好。
具体实施方式
本发明提供了一种支持拓扑结构保持的高维数据可视化方法,本发明的可视化过程主要包括:在线聚类,可视映射,可视渲染等几个部分。在本发明中,考虑的主要问题是将高维空间中的数据集X映射至可视空间(二维空间)中。
1在线聚类
在线聚类主要通过非监督学习神经网络自组织增量学习网络(SOINN),自主构建数据在高维空间的聚类拓扑结构,并从原始数据集中自组织的学习出一个可代表该结构的代表数据集。
本发明通过自组织增量学习网络(SOINN)构造单层神经网络,该网络包括神经元集合A和边集合
Figure BDA0002290958700000071
其中每个神经元i∈A的权值ωi∈Rn是它在高维空间中的坐标表示。边集合记录神经元之间的连接关系和边的年龄。
(1)神经网络初始化
初始时神经元集合A={c1,c2},其中,神经元c1,c2的权重ω1,ω2是高维数据集中的随机两个数据样本,初始边集合为空集。
(2)竞争学习
初始化后,通过竞争学习迭代训练神经网络。在每次迭代过程中,输入一个新的样本s∈Rn,找出A中与其最相似的两个神经元,即获胜神经元s1和s2
Figure BDA0002290958700000072
Figure BDA0002290958700000073
(3)更新神经网络
使用激活阈值判断新样本s与获胜神经元s1和s2是否属于同一类别。
对于任意神经元i,激活阈值
Figure BDA0002290958700000074
如果神经元i与其他神经元无连接,则/>
Figure BDA0002290958700000075
如果
Figure BDA0002290958700000076
或者/>
Figure BDA0002290958700000077
成立,则认为s是一个新的神经元,加入到神经元集合A中。
否则,如果s1和s2之间无连接,则连接s1和s2并加入到C中,年龄设为0。与冠军s1相连的所有边的年龄加1。更新冠军s1的权值为
Figure BDA0002290958700000078
α是学习率,本方法设置其为0到1之前的常数,α∈(0,1)。
(4)网络去噪
迭代一定次数后,神经网络删除由噪声产生的神经元,移除边的年龄值过大的边连接。如果某个神经元是孤立的或只有一个边连接,则认为它是应该被删除的噪声点。
迭代过程完成后,神经网络训练完成,输出神经元集合为代表数据集,神经元的权值即是代表数据集的权值。
2可视映射
可视映射利用降维方法多维缩放(MDS),将代表数据集映射到可视空间内,并保持代表数据的相对距离。以这些二维数据点为基准点,将全部数据映射至基准点上,拓扑结构保持实现主要通过将高维临近点映射至低维邻近基准点上。映射过程中,每个基准点被投影的次数即激活次数被实时记录。
(1)生成可视空间基准点
对于代表数据集的数据,计算平方欧式距离,生成距离矩阵D,计算D中元素Dij
Dij=||ωij||2
然后计算中心矩阵H,计算H中元素Hij
Figure BDA0002290958700000081
根据矩阵H,将矩阵D转换成:
Figure BDA0002290958700000082
计算各代表点在二维可视空间的空间坐标表示L:
Figure BDA0002290958700000083
其中,λi是矩阵B的第i大的特征值,νi是其对应的特征向量。
由此获得代表点在二维可视空间对应的点,称之为基准点,形成基准点集合。基准点的权值即是相应代表点的权值。
(2)拓扑保持映射
基准点在二维可视空间中自适应生成可视网络结构。本步骤中将全部高维数据集映射至可视网络结构,实现高维数据可视化的目标。
依次输入样本x∈Rn,通过
Figure BDA0002290958700000084
找出与其最相似的基准点c1,其中/>
Figure BDA0002290958700000085
是基准点c1的权值。
更新基准点c1的权值:
Figure BDA0002290958700000091
基准点c1的激活次数加1。
3可视渲染
可视渲染主要通过图片表示特征实现,常用到的特征包括位置、颜色、形状或大小等。本发明根据基准点的二维坐标表示其位置,基准点的点的大小正比于该基准点的激活次数。通过基准点的位置和大小,可展示数据集在可视空间的密度分布情况。
至此,本发明实现了高维数据的可视化。
实施例
本发明实施例公开一种支持拓扑结构保持的高维数据可视化方法,名为基于自组织增量学习神经网络的高维数据可视化方法,适用于对高维数据进行可视化,并在可视过程中实现拓扑结构保持。本发明自适应设定可视空间中的网络结构,包括网络形状和基准点数量,并在可视空间中展示高维数据密度分布情况。
本发明的流程见图1。本发明的可视化过程主要包括:在线聚类,可视映射,可视渲染等几个部分。在本发明中,我们考虑的主要问题是将高维空间中的数据集X映射至可视空间(二维空间)中。以784维书写数据集为例,本发明的详细步骤如下:
步骤1在线聚类
在线聚类主要通过非监督学习神经网络自组织增量学习网络(SOINN),自主构建数据在高维空间的聚类拓扑结构,并从原始数据集中自组织的学习出一个可代表该结构的代表数据集。
本发明通过自组织增量学习网络(SOINN)构造单层神经网络,该网络包括神经元集合A和边集合
Figure BDA0002290958700000092
其中每个神经元i∈A的权值ωi∈Rn是它在高维空间中的坐标表示。边集合记录神经元之间的连接关系和边的年龄。
步骤1.1神经网络初始化
初始时神经元集合A={c1,c2},其中,神经元c1,c2的权重ω1,ω2是高维数据集中的随机两个784维数据样本,初始边集合为空集。
步骤1.2竞争学习
初始化后,通过竞争学习迭代训练神经网络。在每次迭代过程中,输入一个新的样本s∈Rn,通过公式(1)找出A中与其最相似的两个神经元,即获胜神经元s1和s2
Figure BDA0002290958700000101
步骤1.3更新神经网络
使用激活阈值判断新样本s与获胜神经元s1和s2是否属于同一类别。
对于任意神经元i,激活阈值
Figure BDA0002290958700000102
如果神经元i与其他神经元无连接,则/>
Figure BDA0002290958700000103
/>
如果
Figure BDA0002290958700000104
或者/>
Figure BDA0002290958700000105
成立,则认为s是一个新的神经元,加入到神经元集合A中。
否则,如果s1和s2之间无连接,则连接s1和s2并加入到C中,年龄设为0。与冠军s1相连的所有边的年龄加1。更新冠军s1的权值为
Figure BDA0002290958700000106
α是学习率,本方法设置其为0.5。
步骤1.4网络去噪
迭代一定次数后,神经网络删除由噪声产生的神经元,移除边的年龄值过大的边连接。如果某个神经元是孤立的或只有一个边连接,则认为它是应该被删除的噪声点。
迭代过程完成后,神经网络训练完成,输出神经元集合为代表数据集,神经元的权值即是代表数据集的权值。
步骤2可视映射
可视映射利用降维方法多维缩放(MDS),将代表数据集映射到可视空间内,并保持代表数据的相对距离。以这些二维数据点为基准点,将全部数据映射至基准点上,拓扑结构保持实现主要通过将高维临近点映射至低维邻近基准点上。映射过程中,每个基准点被投影的次数即激活次数被实时记录。
步骤2.1生成可视空间基准点
对于代表数据集的数据,计算平方欧式距离,生成距离矩阵D,D中元素Dij为ωi和ωj的平方欧式距离:
Dij=||ωij||2 (2)
计算ωi和ωj的中心矩阵H,其中H中元素Hij计算如下,n为数据维数:
Figure BDA0002290958700000111
根据矩阵H,将矩阵D转换成矩阵B:
Figure BDA0002290958700000112
获得基准点在二维可视空间中的的空间坐标表示L:
Figure BDA0002290958700000113
其中,λi是矩阵B的第i大的特征值,νi是其对应的特征向量。
步骤2.2拓扑保持映射
基准点在二维可视空间中自适应生成可视网络结构。本步骤中将全部高维数据集映射至可视网络结构,实现高维数据可视化的目标。
依次输入样本x∈Rn,n为784,通过公式(6)找出与其最相似的基准点c1,其中
Figure BDA0002290958700000114
是基准点c1的权值:/>
Figure BDA0002290958700000115
更新基准点c1的权值:
Figure BDA0002290958700000116
基准点c1的激活次数加1。
步骤3可视渲染
可视渲染主要通过图片表示特征实现,常用到的特征包括位置、颜色、形状或大小等。本发明根据基准点的二维坐标表示其位置,基准点的点的大小正比于该基准点的激活次数。通过基准点的位置和大小,可展示数据集在可视空间的密度分布情况。
至此,本发明实现了高维数据的可视化。
下面对本发明进行实验验证。
在这个部分,本发明将在一系列基准数据集中测试性能,数据集包括一个3维仿真数据集、4维虹膜数据集和784维的手写数字数据集。
为验证本发明的拓扑结构保持优越性,将对本发明与现有支持拓扑结构保持的可视方法自组织神经网络进行性能比较。本发明选用相对标准偏差(RSD)作为度量拓扑结构保持的指标。相对标准偏差的本质是衡量各输入样本与其临近点在高维空间和低维空间的距离比值。在理论情况下,各输入样本与其临近点的距离比值为0,即相对标准偏差的值为0。在实际实验中,相对标准偏差的值越小,则方法保持拓扑结构的能力就越好。
在所有实验中,颜色代表数据集中的数据类别信息。数据类别信息只用于最后的结果展示,并没用于发明可视化的过程中。
1.数据集可视化结果
3维人工数据集实验采用的人工数据集的具有1000个样本,实验设定本发明的网络去噪周期为500,比较实验中,自组织神经网络的网络结构设定为12×12。
4维虹膜数据集具有150个样本,该数据集共包含3个类别的样本,每个类别的样本数量为50。实验设定本发明的网络去噪周期为50,比较实验中,自组织神经网络的网络结构设定为7×7。
784维的手写数字数据集实验重复进行5次,分别采用100,500,1000,2000,5000个样本,实验设定本发明的网络去噪周期依次为50,250,500,500,500,比较实验中,自组织神经网络的网络结构依次设定为7×7,10×10,12×12,15×15,20×20。这里只展示采样个数为5000时的可视化结果。
图2、图3、图4分别为本发明在各数据集的可视化结果展示。通过这些可视化结果,可以观察出高维数据的分布情况和相互关系。并可以根据可视化结果观察到各类数据的密度分布情况。
2.拓扑结构保持性能
图5展示各数据集下,本发明和现有方法自组织神经网络进行高维数据可视化时,相对标准偏差(RSD)的结果值。通过该结果可以看出,在不同数据集下,本发明的RSD值始终小于自组织神经网络,证实本发明的拓扑结构保持能力稳定优于现有方法自组织神经网络。
本发明提供了一种支持拓扑结构保持的高维数据可视化方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (1)

1.一种支持拓扑结构保持的高维数据可视化方法,其特征在于,包括如下步骤:
步骤1,通过非监督学习神经网络自组织增量学习网络,自主构建数据在高维空间的聚类拓扑结构,并从原始数据集中自组织的学习出一个代表所述聚类拓扑结构的代表数据集;
步骤2,进行可视映射,利用降维方法将代表数据集映射到可视空间内,并保持代表数据的相对距离,生成二维基准点,基准点在可视空间中自适应生成可视网络结构,将高维数据集映射至可视网络结构;
步骤3,进行可视渲染,展示的基准点的大小正比于该基准点的激活次数,通过基准点的位置和大小,展示数据集在可视空间的密度分布情况;
步骤1包括:
步骤1-1,通过自组织增量学习网络构造单层的神经网络,所述神经网络包括神经元集合A和边集合
Figure FDA0004016736200000011
其中第i个神经元i∈A的权重ωi∈Rn是它在高维空间中的坐标表示,其中Rn表示n维实数集;边集合记录神经元之间的连接关系和边的年龄;
步骤1-2,初始化神经网络;
步骤1-3,通过竞争学习迭代训练神经网络;
步骤1-4,更新神经网络;
步骤1-5,进行网络去噪;
步骤1-2包括:初始时神经元集合A={c1,c2},其中,定义两个神经元c1、c2的权重分别为ω1、ω2,ω1和ω2是高维数据集中的随机两个数据样本,初始边集合为空集;
步骤1-3包括:在每次迭代过程中,输入一个新的高维数据样本s∈Rn,找出A中与其最相似的两个神经元,即获胜神经元s1和s2
Figure FDA0004016736200000012
Figure FDA0004016736200000013
步骤1-4包括:使用激活阈值判断新样本s与获胜神经元s1和s2是否属于同一类别:
对于任意神经元i,激活阈值
Figure FDA0004016736200000014
如果神经元i与其他神经元无连接,则
Figure FDA0004016736200000021
如果
Figure FDA0004016736200000022
或者/>
Figure FDA0004016736200000023
成立,则判定s是一个新的神经元,加入到神经元集合A中;
否则,如果s1和s2之间无连接,则连接s1和s2并加入到C中,年龄设为0;与获胜神经元s1相连的所有边的年龄加1,更新获胜神经元s1的权重为
Figure FDA0004016736200000024
α是学习率,α∈(0,1);
步骤1-5包括:迭代n1次后,神经网络删除由噪声产生的神经元,移除边的年龄值过大的边连接,其中,如果一个神经元是孤立的或只有一个边连接,则判定它是需要被删除的噪声点;
迭代过程完成后,神经网络训练完成,输出神经元集合即为代表数据集,神经元的权重即是代表数据集的权重;
步骤2包括:
步骤2-1,生成可视空间基准点;
步骤2-2,进行拓扑保持映射;
步骤2-1包括:对于代表数据集的数据,计算平方欧式距离,生成距离矩阵D:
D中元素Dij为ωi和ωj的平方欧式距离,计算公式如下:
Dij=||ωij||2
ωi和ωj的中心矩阵H,其中H中元素Hij计算如下,n为数据维数:
Figure FDA0004016736200000025
根据矩阵H,将矩阵D转换成矩阵B:
Figure FDA0004016736200000026
由此获得神经网络输出的代表数据集在二维可视空间对应的点,称之为基准点,基准点的权重即是相应代表数据集中点的权重;
基准点在二维可视空间中的空间坐标表示为L:
Figure FDA0004016736200000031
其中,λi是矩阵B的第i大的特征值,νi是其对应的特征向量;
步骤2-2包括:将全部高维数据集映射至可视网络结构,实现高维数据可视化的目标:
依次输入样本x∈Rn,通过
Figure FDA0004016736200000032
找出与其最相似的基准点c1,其中ωc1是基准点c1的权重;
更新基准点c1的权重:
Figure FDA0004016736200000033
基准点c1的激活次数加1;
步骤3包括:根据基准点的二维坐标表示其位置,基准点的点的大小正比于所述基准点的激活次数,通过基准点的位置和大小,即能够展示数据集在可视空间的密度分布情况。
CN201911179884.0A 2019-11-27 2019-11-27 一种支持拓扑结构保持的高维数据可视化方法 Active CN110955809B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911179884.0A CN110955809B (zh) 2019-11-27 2019-11-27 一种支持拓扑结构保持的高维数据可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911179884.0A CN110955809B (zh) 2019-11-27 2019-11-27 一种支持拓扑结构保持的高维数据可视化方法

Publications (2)

Publication Number Publication Date
CN110955809A CN110955809A (zh) 2020-04-03
CN110955809B true CN110955809B (zh) 2023-03-31

Family

ID=69976965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911179884.0A Active CN110955809B (zh) 2019-11-27 2019-11-27 一种支持拓扑结构保持的高维数据可视化方法

Country Status (1)

Country Link
CN (1) CN110955809B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709492A (zh) * 2020-07-03 2020-09-25 大连东软教育科技集团有限公司 高维电子医疗记录表的降维可视化方法、装置及存储介质
CN112102945B (zh) * 2020-11-09 2021-02-05 电子科技大学 一种用于预测covid-19病患重症化的装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576913A (zh) * 2009-06-12 2009-11-11 中国科学技术大学 基于自组织映射神经网络的舌象自动聚类、可视化和检索系统
CN102184349A (zh) * 2011-04-29 2011-09-14 河海大学 基于流形学习的基因表达数据的聚类系统及方法
CN104346520A (zh) * 2014-07-28 2015-02-11 南京大学 一种基于神经元网络的数据降维系统及其降维方法
WO2018120423A1 (zh) * 2016-12-29 2018-07-05 平安科技(深圳)有限公司 网络拓扑自适应的数据可视化方法、装置、设备和存储介质
CN108549936A (zh) * 2017-12-29 2018-09-18 西安电子科技大学 基于深度学习的自组织神经网络拓扑保持的增强方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576913A (zh) * 2009-06-12 2009-11-11 中国科学技术大学 基于自组织映射神经网络的舌象自动聚类、可视化和检索系统
CN102184349A (zh) * 2011-04-29 2011-09-14 河海大学 基于流形学习的基因表达数据的聚类系统及方法
CN104346520A (zh) * 2014-07-28 2015-02-11 南京大学 一种基于神经元网络的数据降维系统及其降维方法
WO2018120423A1 (zh) * 2016-12-29 2018-07-05 平安科技(深圳)有限公司 网络拓扑自适应的数据可视化方法、装置、设备和存储介质
CN108549936A (zh) * 2017-12-29 2018-09-18 西安电子科技大学 基于深度学习的自组织神经网络拓扑保持的增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
自组织增量学习神经网络综述;邱天宇等;《软件学报》;20161230;第9卷(第27期);第2230页-第2247页 *

Also Published As

Publication number Publication date
CN110955809A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
Pistilli et al. Learning graph-convolutional representations for point cloud denoising
CN108304357B (zh) 一种基于字体流形的中文字库自动生成方法
Aupetit Visualizing distortions and recovering topology in continuous projection techniques
Yuan et al. Factorization-based texture segmentation
Lozes et al. Partial difference operators on weighted graphs for image processing on surfaces and point clouds
CN104268593A (zh) 一种小样本情况下多稀疏表示的人脸识别方法
CN111242841A (zh) 一种基于语义分割和深度学习的图片背景风格迁移方法
CN112634149B (zh) 一种基于图卷积网络的点云去噪方法
Pistilli et al. Learning robust graph-convolutional representations for point cloud denoising
CN110955809B (zh) 一种支持拓扑结构保持的高维数据可视化方法
CN115222625A (zh) 一种基于多尺度噪声的激光雷达点云去噪方法
Sangole et al. Visualization of randomly ordered numeric data sets using spherical self-organizing feature maps
Sahu et al. A Bayesian multiresolution approach for noise removal in medical magnetic resonance images
Hu et al. Curve skeleton extraction from 3D point clouds through hybrid feature point shifting and clustering
Dvořák et al. As-rigid-as-possible volume tracking for time-varying surfaces
Omer et al. Image specific feature similarities
Yuan et al. Explore double-opponency and skin color for saliency detection
Pan et al. Phase-field guided surface reconstruction based on implicit hierarchical B-splines
Florindo et al. Texture descriptors by a fractal analysis of three-dimensional local coarseness
CN107492101B (zh) 基于自适应构造最优图的多模态鼻咽肿瘤分割算法
Hu et al. Image segmentation and adaptive superpixel generation based on harmonic edge-weighted centroidal Voronoi tessellation
Li et al. Feature proposal model on multidimensional data clustering and its application
Canales et al. Optimal segmentation of image datasets by genetic algorithms using color spaces
CN113283469A (zh) 基于视图的三维模型检索的图嵌入无监督特征学习方法
Chen et al. An integrated graph Laplacian downsample (IGLD)-based method for DEM generalization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant