CN112241478B - 一种基于图神经网络的大规模数据可视化降维方法 - Google Patents

一种基于图神经网络的大规模数据可视化降维方法 Download PDF

Info

Publication number
CN112241478B
CN112241478B CN202011258545.4A CN202011258545A CN112241478B CN 112241478 B CN112241478 B CN 112241478B CN 202011258545 A CN202011258545 A CN 202011258545A CN 112241478 B CN112241478 B CN 112241478B
Authority
CN
China
Prior art keywords
neural network
dimensional
network model
dimension reduction
gnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011258545.4A
Other languages
English (en)
Other versions
CN112241478A (zh
Inventor
杨易扬
张景彬
任成森
巩志国
蔡瑞初
郝志峰
陈炳丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202011258545.4A priority Critical patent/CN112241478B/zh
Publication of CN112241478A publication Critical patent/CN112241478A/zh
Application granted granted Critical
Publication of CN112241478B publication Critical patent/CN112241478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Image Generation (AREA)

Abstract

本发明提出一种基于图神经网络的可视化降维方法,涉及深度学习、大规模数据处理的技术领域,解决了现有降维技术中,模型无法进行大规模数据训练、非参数式可视化降维模型无法处理未知数据点的可视化以及参数式可视化降维模型的可视化结果差的问题,对获取后的高维数据集进行划分和预处理后,构建异构图,建立GNN图神经网络模型,并确认损失函数,然后训练,训练完成后进行测试,损失函数面向高维大规模数据进行可视化降维,采用子图负采样的思想进行了创新训练,减少了模型的训练成本,且能把数据的维度降低,但保持住相当一部分的高维数据信息,使得后续的数据分析与处理变得更有意义且容易。

Description

一种基于图神经网络的大规模数据可视化降维方法
技术领域
本发明涉及深度学习、大规模数据处理的技术领域,更具体地,涉及一种基于图神经网络的大规模数据可视化降维方法。
背景技术
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注,由于大数据分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作,将会花费过多的时间和金钱,因此在大数据时代,对已收集的数据进行了解和探索是一项重要的任务,传统通过绘制2维(2D)或3维(3D)空间中数据的方法使数据散布在数据挖掘管道中,直接可视化观察数据分布,并以交互方式参与探索分析,对大规模数据分析探索起着至关重要的作用,保证了各行各业决策行动的准确性和时效性。
然而,大规模数据大多是高维的并且难以研究,例如,机器学习中样本的特征变量、图像的像素强度矢量以及单词或文档的嵌入通常包含数百至数千个维度,解决此类问题的核心思想是将高维数据投影到保留相似结构的低维空间中,这意味着投影的低维空间中的数据节点若在高维空间中是相似的,则应靠近,而若在高维空间中非相似,则应远离,这些高维度的数据引起的维度灾难现象使得很多传统的机器学习、数据挖掘算法失去原有的效果,因此,高维数据的降维技术一直是学术界关注的重点。
在降维技术中,有一类特殊的降维技术可以使数据直接下降到低维空间上,这种降维技术被称为可视化降维技术。2018年12月,董骏在《计算技术与自动化》期刊上发表了“面向数据集的ST-SNE算法高维数据降维研究”文章,对t-SNE计算高维空间样本点相似度的过程进行了改进,克服了数据集欧氏距离在高维空间中不能忠实反映样本位于非线性流形上相似关系的缺陷,提升了降维结果的分类准确度和可视化效果,然而在现有可视化降维算法中,往往需要对全部的数据进行可视化,这样的做法虽然能够使得可视化降维后的效果显著,但在模型的训练上所付出的代价是十分巨大的,因此无法进行大规模训练,而且实际应用对可视化的速度要求高,传统非参数式模型无法处理未知数据点的可视化问题。
发明内容
为解决现有降维技术中,模型无法进行大规模数据训练、非参数式可视化降维模型无法处理未知数据点的可视化以及参数式可视化降维模型的可视化结果差的问题,本发明提出了一种基于图神经网络的可视化降维方法,实现高效数据降维的同时,保证了高维数据原有的数据结构,便于后续数据的分析与处理操作。
为了达到上述技术效果,本发明的技术方案如下:
一种基于图神经网络的大规模数据可视化降维方法,包括:
S1.获取高维数据集,对高维数据集进行预处理;
S2.构建高维数据集的异构图;
S3.构建GNN图神经网络模型,将高维数据集及异构图作为输入,输出降维后的可视化向量;
S4.将高维数据集划分为测试集T和训练集S,构建图神经网络模型的损失函数,利用训练集S训练GNN图神经网络模型;
S5.图神经网络模型训练完成后,利用测试集T对图神经网络模型进行测试,确定最终的可视化降维模型;
S6.将待降维的大规模数据集输入可视化降维模型,进行可视化降维。
优选地,所述高维数据集包括词向量数据集和图形像素数据集,设高维数据集表示为D={D1,D2,...Di,...,DN},D∈Rd,R表示实数,Di表示第i个维度为d的向量,对高维数据集进行的预处理操作包括正则化处理。
优选地,步骤S2所述构建高维数据集的异构图的过程包括:利用高维数据集中已存在的异构图信息直接组成异构图或高维数据集中不存在异构图信息,构建高维数据集的KNN图;
所述利用高维数据集中已存在的异构图信息直接组成异构图的表达式为:
GH=(EH,VH)
其中,GH表示高维数据集的异构图,VH表示异构图的节点集合,VH中第i个节点vi对应的高维数据集的第一个向量D1;EH表示异构图的边,若节点vi与节点vj在异构图中存在边,则(vi,vj)∈EH
优选地,构建异构图的过程中获得高维数据集的概率分布P,表示为:
Figure BDA0002773867130000031
其中,pij表示节点Di的附近出现节点Dj的概率;k,l表示不同于i、j的数值编号。
优选地,步骤S3所述的构建GNN图神经网络模型的过程为:
S31.确定GNN图神经网络模型的超参数,包括隐藏层的维度h、神经网络的深度H及学习速率γ;
S32.将高维数据集D及高维数据集的异构图GH=(EH,VH)作为GNN图神经网络模型的输入,选定神经网络模型参数W={w1,w2,...,wH},其中,wi表示GNN图神经网络第i层隐藏层的可训练参数;
S33.构建出GNN图神经网络模型fGNN(GH,D,W)。
优选地,步骤S4所述构建图神经网络模型的损失函数面向的算法包括于t-SNE算法、UMAP算法及LargeVis算法,通过GNN图神经网络模型fGNN(GH,D,W)得到与输入高维数据集D={D1,D2,...,DN}对应降维后的y维可视化向量D′={D′1,D′2,...,D′N},其中D′∈Ry,y=2或3,兼容任何的可视化目标函数。
优选地,面向t-SNE算法构建的第一损失函数OFt-SNE满足:
Figure BDA0002773867130000032
其中,qij为中间概率,
Figure BDA0002773867130000033
且为整数;
面向UMAP算法构建的第二损失函数OFUMAP满足:
Figure BDA0002773867130000034
Figure BDA0002773867130000035
其中,β、u均为大于零的实数;
面向LargeVis算法构建的第三损失函数OFLargeVis满足:
Figure BDA0002773867130000036
Figure BDA0002773867130000041
其中,EH为异构图的边集合,δ为大于0的实数,
Figure BDA0002773867130000042
表示在选定的数据节点Dj的情况下,节点Dk被选中的概率。
在此,面向t-SNE算法构建的第一损失函数OFt-SNE目标在于最小化高维数据集与低维数据集之间的Kullback-Leibler散度,面向UMAP算法构建的第二损失函数OFUMAP目标在于最小化高维数据集与低维数据集之间的交叉熵cross-entropy,面向LargeVis算法构建的第三损失函数OFLargeVis与面向面向UMAP算法构建的第二损失函数OFUMAP类似,但利用了负采样的方式对相距较远的数据点进行负采样,通过不同的可视化损失函数,使得模型的结果有所不同,但是这些损失函数的特点是使得数据点在高维空间中相近的节点在低维空间中也保持相近的特性,而在高维空间中相距较远的节点在低维空间中也保持较远。
优选地,利用训练集S训练GNN图神经网络模型的过程为:
S41.基于第一损失函数OFt-SNE、第二损失函数OFUMAP及第三损失函数OFLargeVis,确定损失函数值OF;
S42.利用神经网络残差反向传播技术,计算GNN图神经网络模型中的所有节点残差,更新网络中的参数W={w1,w2,...,wH};
S43.存在收敛值E,判断损失函数值OF是否满足:
|OF-E|≤ε是否成立,ε表示足够小的正数,若是,训练结束;否则,返回步骤S41。
9.根据权利要求8所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,步骤S5所述利用测试集T对图神经网络模型进行测试的过程包括:
S51.确认高维数据集中的标签信息;
S52.将测试集T={T1,T2,...,TN′}通过训练好的GNN图神经网络模型进行降维,得到降维后的测试集T′={T′1,T′2,...,T′N′};
S53.利用k邻近邻居分类算法测试数据集T′的可视化效果:
确定测试节点i的k邻近邻居集合N(T′i)={T′i1,T′i2,...,T′ik};
通过k邻近邻居集合N(T′i)计算出节点T′i得到标签,判断是否与节点T′i的原分类标签是否一致,若是,GNN图神经网络模型为最终的可视化降维模型;否则,返回S4继续训练GNN图神经网络模型,通过这个方法可以计算出可视化降维后的数据是否能将分类标签相同的点聚在一块区域上,假设在高维空间上,相同标签的数据是聚在同一块区域内。
优选地,步骤S5所述利用测试集T对图神经网络模型进行测试的过程还包括高维数据集中未含标签信息的测试;过程为:
S501.将测试集T={T1,T2,...,TN′}通过训练好的GNN图神经网络模型进行降维,得到降维后的测试集T′={T′1,T′2,...,T′N′};
S502.设测试集T={T1,T2,...,TN′}的秩为ρ,计算满足:
ρij=|{k:δik<δij or(δik=δij and k<j)}|
δij=||Ti-Tj||2
其中,|·|表示集合的基数,δij表示降维前高维测试集节点i与高维节点j的距离;
降维后的测试集T′={T′1,T′2,...,T′N′}的秩为r,计算满足:
rij=|{k:dik<dij or(dik=dij and k<j)}|
dij=||T′i-T′j||2
其中,dij表示低维节点i与低维节点j的距离;
S503.将降维前高维测试集的秩为ρ与降维后的秩r对比,利用co-ranking技术确认降维前高维测试集与降维后数据的相似度,判断相似度是否满足K标准,若是,GNN图神经网络模型为最终的可视化降维模型;否则,返回S4继续训练GNN图神经网络模型,通过此过程判断高维测试集在降维过后能保持原有高维数据信息的多少,只有符合标准的GNN图神经网络模型才会作为最终的可视化降维模型。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出一种基于图神经网络的大规模数据可视化降维方法,首先获取到高维数据集,然后构建GNN图神经网络模型,将高维数据集及异构图作为输入,输出降维后的可视化向量,构建图神经网络模型的损失函数,利用训练集S训练GNN图神经网络模型,图神经网络模型训练完成后,利用测试集T对图神经网络模型进行测试,确定最终的可视化降维模型,在基于反向传播技术的GNN图神经网络模型下,利用t-SNE,UMAP,LargeVis非参数式可视化降维算法所导出的可视化损失函数对高维大规模数据进行可视化降维,过程中采用子图负采样的思想进行了创新训练,减少了模型的训练成本,且能把数据的维度降到低,且能保持住相当一部分的高维数据信息,使得后续的数据分析与处理变得更有意义且容易。
附图说明
图1表示本发明实施例中提出的基于图神经网络的大规模数据可视化降维方法的流程图;
图2表示本发明实施例中提出的图神经网络模型中数据流动的示意图;
图3表示本发明实施例中提出的应用于高维数据集MNIST手写数据集上的可视化降维效果图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好地说明本实施例,附图某些部位会有省略、放大或缩小;
对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示的基于图神经网络的大规模数据可视化降维方法的流程图;参见图1,包括:
S1.获取高维数据集,对高维数据集进行预处理;
S2.构建高维数据集的异构图;
S3.构建GNN图神经网络模型,将高维数据集及异构图作为输入,输出降维后的可视化向量;
S4.将高维数据集划分为测试集T和训练集S,构建图神经网络模型的损失函数,利用训练集S训练GNN图神经网络模型;
S5.图神经网络模型训练完成后,利用测试集T对图神经网络模型进行测试,确定最终的可视化降维模型;
S6.将待降维的大规模数据集输入可视化降维模型,进行可视化降维。
在本实施例中,所述高维数据集包括词向量数据集和图形像素数据集,设高维数据集表示为D={D1,D2,...Di,...,DN},D∈Rd,R表示实数,Di表示第i个维度为d的向量,对高维数据集进行的预处理操作包括正则化处理,但实际实施时,预处理操作的过程并不局限于正则化处理。
在本实施例中,步骤S2所述构建高维数据集的异构图的过程包括:利用高维数据集中已存在的异构图信息直接组成异构图或高维数据集中不存在异构图信息,构建高维数据集的KNN图;
所述利用高维数据集中已存在的异构图信息直接组成异构图的表达式为:
GH=(EH,VH)
其中,GH表示高维数据集的异构图,VH表示异构图的节点集合,VH中第i个节点vi对应的高维数据集的第一个向量D1;EH表示异构图的边,若节点vi与节点vj在异构图中存在边,则(vi,vj)∈EH
构建异构图的过程中获得高维数据集的概率分布P,表示为:
Figure BDA0002773867130000071
其中,pij表示节点Di的附近出现节点Dj的概率;k,l表示不同于i、j的数值编号。
在本实施例中,步骤S3所述的构建GNN图神经网络模型的过程为:
S31.确定GNN图神经网络模型的超参数,包括隐藏层的维度h、神经网络的深度H及学习速率γ;
S32.将高维数据集D及高维数据集的异构图GH=(EH,VH)作为GNN图神经网络模型的输入,选定神经网络模型参数W={w1,w2,...,wH},其中,wi表示GNN图神经网络第i层隐藏层的可训练参数;
S33.构建出GNN图神经网络模型fGNN(GH,D,W)。
在本实施例中,步骤S4所述构建图神经网络模型的损失函数面向的算法包括于t-SNE算法、UMAP算法及LargeVis算法,损失函数的主要作用在于利用设计好的损失函数对S3中构建的GNN图神经网络模型的可训练参数W,通过深度学习中的反向传播的技术进行迭代。通过GNN图神经网络模型fGNN(GH,D,W)得到与输入高维数据集D={D1,D2,...,DN}对应降维后的y维可视化向量D′={D′1,D′2,...,D′N},其中D′∈Ry,y=2或3,兼容任何的可视化目标函数。
面向t-SNE算法构建的第一损失函数OFt-SNE满足:
Figure BDA0002773867130000072
其中,qij为中间概率,
Figure BDA0002773867130000073
且为整数;
面向UMAP算法构建的第二损失函数OFUMAP满足:
Figure BDA0002773867130000081
Figure BDA0002773867130000082
其中,β、u均为大于零的实数;
面向LargeVis算法构建的第三损失函数OFLargeVis满足:
Figure BDA0002773867130000083
Figure BDA0002773867130000084
其中,EH为异构图的边集合,δ为大于0的实数,
Figure BDA0002773867130000085
表示在选定的数据节点Dj的情况下,节点Dk被选中的概率。面向t-SNE算法构建的第一损失函数OFt-SNE目标在于最小化高维数据集与低维数据集之间的Kullback-Leibler散度,面向UMAP算法构建的第二损失函数OFUMAP目标在于最小化高维数据集与低维数据集之间的交叉熵cross-entropy,面向LargeVis算法构建的第三损失函数OFLargeVis与面向面向UMAP算法构建的第二损失函数OFUMAP类似,但利用了负采样的方式对相距较远的数据点进行负采样,通过不同的可视化损失函数,使得模型的结果有所不同,但是这些损失函数的特点是使得数据点在高维空间中相近的节点在低维空间中也保持相近的特性,而在高维空间中相距较远的节点在低维空间中也保持较远。
在本实施例中,利用训练集S训练GNN图神经网络模型的过程为:
S41.基于第一损失函数OFt-SNE、第二损失函数OFUMAP及第三损失函数OFLargeVis,确定损失函数值OF;
S42.利用神经网络残差反向传播技术,计算GNN图神经网络模型中的所有节点残差,更新网络中的参数W={w1,w2,...,wH};
S43.存在收敛值E,判断损失函数值OF是否满足:
|OF-E|≤ε是否成立,ε表示足够小的正数,若是,训练结束;否则,返回步骤S41,具体图神经网络模型中数据流动的示意参见图2,由概率分布得到最终的损失函数值OF。
在本实施例中,步骤S5所述利用测试集T对图神经网络模型进行测试的过程包括:
S51.确认高维数据集中的标签信息;
S52.将测试集T={T1,T2,...,TN′}通过训练好的GNN图神经网络模型进行降维,得到降维后的测试集T′={T′1,T′2,...,T′N′};
S53.利用k邻近邻居分类算法测试数据集T′的可视化效果:
确定测试节点i的k邻近邻居集合N(T′i)={T′i1,T′i2,...,T′ik};
通过k邻近邻居集合N(T′i)计算出节点T′i得到标签,判断是否与节点T′i的原分类标签是否一致,若是,GNN图神经网络模型为最终的可视化降维模型;否则,返回S4继续训练GNN图神经网络模型,通过这个方法可以计算出可视化降维后的数据是否能将分类标签相同的点聚在一块区域上,假设在高维空间上,相同标签的数据是聚在同一块区域内。
步骤S5所述利用测试集T对图神经网络模型进行测试的过程还包括高维数据集中未含标签信息的测试;即为测试一个模型是否为有效的可视化降维模型提供两类方法,除上述第一类方法外,若高维数据集中未含标签信息,则测试过程为:
S501.将测试集T={T1,T2,...,TN′}通过训练好的GNN图神经网络模型进行降维,得到降维后的测试集T′={T′1,T′2,...,T′N′};
S502.设测试集T={T1,T2,...,TN′}的秩为ρ,计算满足:
ρij=|{k:δik<δij or(δik=δij and k<j)}|
δij=||Ti-Tj||2
其中,|·|表示集合的基数,δij表示降维前高维测试集节点i与高维节点j的距离;
降维后的测试集T′={T′1,T′2,...,T′N′}的秩为r,计算满足:
rij=|{k:dik<dij or(dik=dij and k<j)}|
dij=||T′i-T′j||2
其中,dij表示低维节点i与低维节点j的距离;
S503.将降维前高维测试集的秩为ρ与降维后的秩r对比,利用co-ranking技术确认降维前高维测试集与降维后数据的相似度,判断相似度是否满足K标准,若是,GNN图神经网络模型为最终的可视化降维模型;否则,返回S4继续训练GNN图神经网络模型,通过此过程判断高维测试集在降维过后能保持原有高维数据信息的多少,只有符合标准的GNN图神经网络模型才会作为最终的可视化降维模型。
为验证本发明所提出方法的有效性,进一步给出本发明所提方法应用于高维数据集MNIST手写数据集上的可视化降维效果图如图3所示,参见图3,横坐标表示可视化降维成二维数据的X维度坐标值,而纵坐标表示降维后的Y维度坐标值,图中相同类别的数据被投影到相近的区域符合可视化降维效果,表明了本发明提出的方法能把数据的维度降到非常低,并且能保持住相当一部分的高维数据信息。
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (2)

1.一种基于图神经网络的大规模数据可视化降维方法,其特征在于,包括:
S1.获取高维数据集,对高维数据集进行预处理;
所述高维数据集包括词向量数据集和图形像素数据集,设高维数据集表示为D={D1,D2,...Di,...,DN},D∈Rd,R表示实数,Di表示第i个维度为d的向量,对高维数据集进行的预处理操作包括正则化处理;
S2.构建高维数据集的异构图;
步骤S2所述构建高维数据集的异构图的过程包括:利用高维数据集中已存在的异构图信息直接组成异构图或高维数据集中不存在异构图信息,构建高维数据集的KNN图;
所述利用高维数据集中已存在的异构图信息直接组成异构图的表达式为:
GH=(EH,VH)
其中,GH表示高维数据集的异构图,VH表示异构图的节点集合,VH中第i个节点vi对应的高维数据集的第一个向量D1;EH表示异构图的边,若节点vi与节点vj在异构图中存在边,则(vi,vj)∈EH
S3.构建GNN图神经网络模型,将高维数据集及异构图作为输入,输出降维后的可视化向量;
S4.将高维数据集划分为测试集T和训练集S,构建图神经网络模型的损失函数,利用训练集S训练GNN图神经网络模型;
步骤S4所述构建图神经网络模型的损失函数面向的算法包括于t-SNE算法、UMAP算法及LargeVis算法,通过GNN图神经网络模型fGNN(GH,D,W)得到与输入高维数据集D={D1,D2,...,DN}对应降维后的y维可视化向量D′={D′1,D′2,...,D′N},其中D′∈Ry,y=2或3;
面向t-SNE算法构建的第一损失函数OFt-SNE满足:
Figure QLYQS_1
其中,qij为中间概率,
Figure QLYQS_2
且为整数;
构建异构图的过程中获得高维数据集的概率分布P,表示为:
Figure QLYQS_3
其中,pij表示节点Di的附近出现节点Dj的概率;k,l表示不同于i、j的数值编号;
面向UMAP算法构建的第二损失函数OFUMAP满足:
Figure QLYQS_4
Figure QLYQS_5
其中,β、u均为大于零的实数;
面向LargeVis算法构建的第三损失函数OFLargeVis满足:
Figure QLYQS_6
Figure QLYQS_7
其中,EH为异构图的边集合,δ为大于0的实数,
Figure QLYQS_8
表示在选定的数据节点Dj的情况下,节点Dk被选中的概率;
利用训练集S训练GNN图神经网络模型的过程为:
S41.基于第一损失函数OFt-SNE、第二损失函数OFUMAP及第三损失函数OFLargeVis,确定损失函数值OF;
S42.利用神经网络残差反向传播技术,计算GNN图神经网络模型中的所有节点残差,更新网络中的参数W={w1,w2,...,wH};
S43.存在收敛值E,判断损失函数值OF是否满足:
|OF-E|≤ε是否成立,ε表示足够小的正数,若是,训练结束;否则,返回步骤S41;
S5.GNN图神经网络模型训练完成后,利用测试集T对图神经网络模型进行测试,确定最终的可视化降维模型;
步骤S5所述利用测试集T对图神经网络模型进行测试的过程包括:
S51.确认高维数据集中的标签信息;
S52.将测试集T={T1,T2,...,TN′}通过训练好的GNN图神经网络模型进行降维,得到降维后的测试集T′={T′1,T′2,...,T′N′};
S53.利用k邻近邻居分类算法测试数据集T′的可视化效果:
确定测试节点i的k邻近邻居集合N(T′i)={T′i1,T′i2,...,T′ik};
通过k邻近邻居集合N(T′i)计算出节点T′i得到标签,判断是否与节点T′i的原分类标签是否一致,若是,GNN图神经网络模型为最终的可视化降维模型;否则,返回S4继续训练GNN图神经网络模型;
步骤S5所述利用测试集T对图神经网络模型进行测试的过程还包括高维数据集中未含标签信息的测试;过程为:
S501.将测试集T={T1,T2,...,TN′}通过训练好的GNN图神经网络模型进行降维,得到降维后的测试集T′={T′1,T′2,...,T′N′};
S502.设测试集T={T1,T2,...,TN′}的秩为ρ,计算满足:
ρij=|{k:δik<δijor(δik=δijand k<j)}|
δij=||Ti-Tj||2
其中,|·|表示集合的基数,δij表示降维前高维测试集节点i与高维节点j的距离;
降维后的测试集T′={T′1,T′2,...,T′N′}的秩为r,计算满足:
Figure QLYQS_9
dij=||T′i-T′j||2
其中,dij表示低维节点i与低维节点j的距离;
S503.将降维前高维测试集的秩为ρ与降维后的秩r对比,利用co-ranking技术确认降维前高维测试集与降维后数据的相似度,判断相似度是否满足K标准,若是,GNN图神经网络模型为最终的可视化降维模型;否则,返回S4继续训练GNN图神经网络模型;
S6.将待降维的大规模数据集输入可视化降维模型,进行可视化降维。
2.根据权利要求1所述的基于图神经网络的大规模数据可视化降维方法,其特征在于,步骤S3所述的构建GNN图神经网络模型的过程为:
S31.确定GNN图神经网络模型的超参数,包括隐藏层的维度h、神经网络的深度H及学习速率γ;
S32.将高维数据集D及高维数据集的异构图GH=(EH,VH)作为GNN图神经网络模型的输入,选定神经网络模型参数W={w1,w2,...,wH},其中,wv表示GNN图神经网络第v层隐藏层的可训练参数;
S33.构建出GNN图神经网络模型fGNN(GH,D,W)。
CN202011258545.4A 2020-11-12 2020-11-12 一种基于图神经网络的大规模数据可视化降维方法 Active CN112241478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011258545.4A CN112241478B (zh) 2020-11-12 2020-11-12 一种基于图神经网络的大规模数据可视化降维方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011258545.4A CN112241478B (zh) 2020-11-12 2020-11-12 一种基于图神经网络的大规模数据可视化降维方法

Publications (2)

Publication Number Publication Date
CN112241478A CN112241478A (zh) 2021-01-19
CN112241478B true CN112241478B (zh) 2023-05-30

Family

ID=74166658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011258545.4A Active CN112241478B (zh) 2020-11-12 2020-11-12 一种基于图神经网络的大规模数据可视化降维方法

Country Status (1)

Country Link
CN (1) CN112241478B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801192B (zh) * 2021-01-26 2024-03-19 北京工业大学 一种基于深度神经网络的扩展LargeVis图像特征降维方法
CN113139590B (zh) * 2021-04-13 2022-03-22 索信达(北京)数据技术有限公司 时间序列数据的降维方法、装置、计算机设备和存储介质
CN113255895B (zh) * 2021-06-07 2023-06-16 之江实验室 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法
CN115223661B (zh) * 2022-06-24 2023-04-14 西湖大学 生物组学数据分析系统
CN115270686B (zh) * 2022-06-24 2024-07-26 无锡芯光互连技术研究院有限公司 一种基于图神经网络的芯片布局方法
CN115310585B (zh) * 2022-07-04 2024-08-09 浙江大学 一种基于自编码器的高维神经信号降维方法及用途
CN117763360B (zh) * 2024-02-22 2024-07-12 杭州光云科技股份有限公司 基于深度神经网络的训练集快速分析方法及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909867A (zh) * 2019-11-26 2020-03-24 南通恒趣新材料有限公司 一种基于力导图的图神经网络可视分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909867A (zh) * 2019-11-26 2020-03-24 南通恒趣新材料有限公司 一种基于力导图的图神经网络可视分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Yajun Huang等.GNNVis: Visualize Large-Scale Data by Learning a Graph Neural Network Representation.《CIKM '20: Proceedings of the 29th ACM International Conference on Information & Knowledge》.2020,545-554. *
基于深度特征与非线性降维的图像数据集可视化方法;李阳;张亚非;徐玉龙;王家宝;苗壮;;计算机应用研究(第02期);621-625 *
面向数据集的ST-SNE 算法高维数据降维研究;董骏;《计算基数与自动化》;第第37卷卷(第第4期期);116-122 *

Also Published As

Publication number Publication date
CN112241478A (zh) 2021-01-19

Similar Documents

Publication Publication Date Title
CN112241478B (zh) 一种基于图神经网络的大规模数据可视化降维方法
Czerniawski et al. 6D DBSCAN-based segmentation of building point clouds for planar object classification
Tran et al. Extraction of cylinders and estimation of their parameters from point clouds
CN109740588B (zh) 基于弱监督和深度响应重分配的x光图片违禁品定位方法
Chen et al. Developing a new mesh quality evaluation method based on convolutional neural network
Xie et al. Graph neural network-enabled manufacturing method classification from engineering drawings
Kalinin et al. 3D shape modeling for cell nuclear morphological analysis and classification
Sun et al. PGCNet: patch graph convolutional network for point cloud segmentation of indoor scenes
Regaya et al. Point-Denoise: Unsupervised outlier detection for 3D point clouds enhancement
Serrat et al. Cost estimation of custom hoses from STL files and CAD drawings
Yang et al. A real-time image forensics scheme based on multi-domain learning
CN117274388A (zh) 基于视觉文本关系对齐的无监督三维视觉定位方法及系统
Shrestha et al. A real world dataset for multi-view 3d reconstruction
Ruediger-Flore et al. CAD-based data augmentation and transfer learning empowers part classification in manufacturing
Gezawa et al. A Deep Learning Approach to Mesh Segmentation.
Genovese et al. Finding singular features
Moura 3D density histograms for criteria-driven edge bundling
Davidson Visualizing clustering results
Diallo et al. Concept-enhanced multi-view clustering of document data
Toutain et al. A unified geometric model for virtual slide image processing and classification
Zhang et al. CAD‐Aided 3D Reconstruction of Intelligent Manufacturing Image Based on Time Series
Kamburugamuve et al. Tsmap3d: Browser visualization of high dimensional time series data
Yu et al. Regularity-constrained point cloud reconstruction of building models via global alignment
Babel et al. Area of interest algorithm for surface deflection areas
Sun et al. A review of point cloud segmentation for understanding 3D indoor scenes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant