CN114897085A - 一种基于封闭子图链路预测的聚类方法及计算机设备 - Google Patents

一种基于封闭子图链路预测的聚类方法及计算机设备 Download PDF

Info

Publication number
CN114897085A
CN114897085A CN202210575106.9A CN202210575106A CN114897085A CN 114897085 A CN114897085 A CN 114897085A CN 202210575106 A CN202210575106 A CN 202210575106A CN 114897085 A CN114897085 A CN 114897085A
Authority
CN
China
Prior art keywords
node
closed
subgraph
label
closed subgraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210575106.9A
Other languages
English (en)
Inventor
黄文焕
贾洪杰
张浩东
张嘉祥
毛启容
吕晨昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202210575106.9A priority Critical patent/CN114897085A/zh
Publication of CN114897085A publication Critical patent/CN114897085A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于封闭子图链路预测的聚类方法及计算机设备,本发明首先建立一个基于封闭子图的链路预测模型,为每个目标数据对提取一个h‑hop封闭子图,将链路预测任务转化为封闭子图分类问题,并使用图卷积网络进行求解,根据封闭子图的类别标签预测目标数据对之间是否存在链路;然后,基于预测的有效连接构造一个复杂网络,再用标签传播算法通过检测网络的社区结构划分类簇。本发明利用封闭子图可以预测任意目标数据对的连接关系,模型的空间复杂度低,具有良好的可扩展性,而且通过建立复杂网络并使用标签传播算法聚类,可以大幅减轻错误链路预测的影响,提高聚类结果的质量。

Description

一种基于封闭子图链路预测的聚类方法及计算机设备
技术领域
本发明属于聚类算法领域,具体涉及一种基于封闭子图链路预测的聚类方法及计算机设备。
背景技术
近年来,基于深度学习方法的智能识别技术取得了长足的进步,大规模有标注的训练数据是深度学习成功的重要因素,人们对大规模数据标注的需求越来越大。聚类作为机器学习中的一项经典任务,它提供了另一种利用海量未标记数据的方法,也是解决数据标注问题的一种自然方法。另外,聚类在社交媒体、信息检索、数据挖掘等领域也有重要应用,可用于组织和归档大量数据,发现数据的内在联系。
聚类方法有很多,主要包括无监督的聚类方法和有监督的聚类方法。传统的无监督聚类方法包括K-Means、FCM、DBSCAN、谱聚类等,通常依赖于一些人工设计的聚类策略,它们在小数据集上表现良好,但在处理大规模数据时效率较低。近年来,有监督的聚类方法在很大程度上提高了聚类的准确率,尤其是基于链路预测的聚类方法,在很多大规模数据集上都取得了较好的聚类结果。
链路预测模型可以分为三类:启发式方法、嵌入式方法和深度学习方法。启发式方法的核心思想是从两个目标节点的邻域计算相似度得分,由于许多启发式方法被提出来处理不同的图,因此选择一种有利的启发式方法成为一个具有挑战性的问题。嵌入式方法则是基于节点嵌入计算两个目标节点之间的相似度,节点嵌入方法可以从图中学习信息特征,从而获得令人满意的链路预测性能。但是,如果图变得非常稀疏,则节点嵌入方法的性能可能会受到影响。为了克服启发式方法和嵌入式方法的局限性,近年来提出了基于深度学习的链路预测模型,利用图卷积网络(Graph Convolutional Network,GCN)强大的学习能力预测链路是否存在,将此模型用于聚类,开发基于GCN的聚类方法,可以进一步改善聚类性能。
基于GCN的聚类方法都是在亲和图上执行的,根据其GCN的输入是否为整个图,大致可以分为基于全局的聚类方法和基于局部的聚类方法。GCN-V+E是代表性的基于全局的聚类方法,它使用整个亲和图进行GCN训练。与无监督的方法相比,该方法大大提高了聚类的性能,但训练数据的规模受到计算机内存的限制,这使得进一步挖掘大规模训练集的能力变得困难。基于局部的聚类方法更注重局部图信息,尽管不受内存限制,但这些方法缺乏对全局图结构的理解,严重依赖冗余子图操作,导致推理时间较长。另外,虽然GCN可用于预测链路是否存在,但是链路预测结果不一定可靠。已有的基于GCN的聚类方法默认两个点之间若存在链路,就属于相同的类,所以容易受错误链路预测结果的误导。
为了解决以上问题,本发明创新地提出了一种基于封闭子图链路预测的聚类方法。首先利用GCN建立一个基于封闭子图的链路预测模型,以两个目标数据点为中心提取一个h-hop封闭子图,将链路预测任务转化为封闭子图分类问题,并使用GCN进行求解,根据封闭子图的类别标签预测目标数据对之间是否存在链路。为了更好地利用链路预测结果,基于预测的有效连接构造一个复杂网络,再用标签传播算法通过检测网络的社区结构划分类簇。
将所有预测存在的链路看作一个整体,基于复杂网络的社区结构聚类,可以大幅减轻错误链路预测的影响,增强聚类的鲁棒性。复杂网络在现实生活中有很多例子,例如互联网、社交网络、引文网络、通信和运输网络等,这些网络最典型的特性就是社区结构,即网络中的节点可以被划分成若干子图,这些子图内部紧密相连,而与网络的其他子图部分稀疏连接。检测网络划分到社区的能力可以为网络系统的组织和行为提供重要的见解,因此复杂网络的社区发现问题受到了广泛的关注。
本发明选用标签传播算法对所构造的复杂网络进行聚类分析,寻找网络中的社区结构,可以在未知类簇个数的情况下,实现对大规模数据的有效聚类。
发明内容
针对上述传统链路预测模型在整个亲和图上计算节点嵌入,占用大量内存,以及聚类过程容易受错误链路预测结果的误导等问题,本发明实现了一种基于封闭子图链路预测的聚类方法,根据k近邻亲和图提取封闭子图,建立基于封闭子图的链路预测模型,预测封闭子图对应的目标数据对的连接关系,筛选有效连接构造复杂网络,再使用标签传播算法完成聚类。本发明利用封闭子图可以预测任意目标数据对的连接关系,模型的空间复杂度低,具有良好的可扩展性,而且通过建立复杂网络并使用标签传播算法聚类,可以大幅减轻错误链路预测的影响,提高聚类结果的质量。
本发明首先根据训练数据集中数据点的类簇标签,构造net图;然后,将每个数据点作为图中的一个节点,计算它与k个最近邻节点的欧氏距离,从而构建k近邻亲和图;接着,根据net图和k近邻亲和图,为随机采样的数据对提取h-hop封闭子图;再应用节点标记函数为封闭子图中的每一个节点进行标注;然后,对封闭子图的节点标注信息进行one-hot编码,结合节点原来的属性,生成节点新的属性特征;再然后,使用GCN建立基于封闭子图的链路预测模型,将节点标注好的封闭子图作为输入,并通过最小化所有潜在链路的交叉熵损失来训练模型;接着,从测试数据集随机采样成对数据点,为每对数据点提取封闭子图,并进行节点标注,将封闭子图输入到训练好的链路预测模型中,预测目标数据对的连接关系;最后,从链路预测结果中筛选出有效连接,由有效连接构建复杂网络,然后使用标签传播算法将复杂网络划分为若干社区,并为每个节点分配类簇标签。基于封闭子图链路预测的聚类方法,包括下列步骤:
步骤1,构造net图:根据训练数据集中数据点的类簇标签,构造net图,形成稀疏矩阵net;
步骤2,构造k近邻亲和图:将每个数据点作为图中的一个节点,计算它与k个最近邻节点的欧氏距离,形成稀疏对称邻接矩阵adj,为训练数据集和测试数据集分别构建k近邻亲和图;
步骤3,提取封闭子图:从net图中随机采样,将采样元素的横纵坐标作为目标数据对,根据k近邻亲和图,为每对数据点提取h-hop封闭子图,并根据net图采样的元素确定封闭子图的类别标签,用于学习特征和预测链路的存在;
步骤4,节点标注:使用节点标记函数为封闭子图中的每一个节点进行标注,用于识别两个目标节点,以及描述每个节点对目标节点的结构重要性;
步骤5,生成节点属性:对封闭子图的节点标注信息进行one-hot编码,将每个节点的one-hot编码向量与节点原来的属性拼接,生成节点新的属性特征;
步骤6,建立并训练链路预测模型:将链路预测任务视为一个封闭子图分类问题,使用图卷积网络建立基于封闭子图的链路预测模型,将节点标注好的封闭子图作为输入,对封闭子图进行图卷积运算,并通过最小化所有潜在链路的交叉熵损失来训练模型,优化图卷积网络中的参数;
步骤7,链路预测:从测试数据集中随机采样成对数据点,为每对数据点提取封闭子图,并对封闭子图中的点进行节点标注,将标注好的封闭子图输入到训练好的链路预测模型中,预测目标数据对的连接关系;
步骤8,标签传播算法聚类:使用链路预测模型得到所有采样数据对的连接关系后,筛选出有效连接,由有效连接构建复杂网络,然后使用标签传播算法将复杂网络划分为若干社区,并为网络中的每个节点分配类簇标签。
进一步,所述步骤1中,构造net图,运用公式(1)建立稀疏矩阵net:
Figure BDA0003661834760000041
其中,net(i,j)为稀疏矩阵net中第i行第j列元素,表示vi和vj两个数据点的连接关系,label(vi)表示训练数据集中vi的类簇标签。若vi和vj的类簇标签相同,则vi和vj之间存在连接,net(i,j)=1;若vi和vj的类簇标签不同,则vi和vj之间没有连接,net(i,j)=0.
进一步,所述步骤2中,构造k近邻亲和图adj,首先运用公式(2)初始化矩阵adj中的元素:
Figure BDA0003661834760000042
其中,||vi-vj||2是vi和vj|的欧氏距离,Nk(vi)是离vi最近的k个点的集合。然后,运用公式(3)建立稀疏对称邻接矩阵adj:
adj=adj+adjT*Y-adj*Y, (3)
其中,Y为布尔矩阵,表示如公式(4)所示:
Figure BDA0003661834760000043
进一步,所述步骤3中,从net图中随机采样是指,在net矩阵中随机选取若干0元素和1元素,将所选元素的横纵索引(i,j),作为采样数据对。
进一步,所述步骤3中,对于一对数据点(vi,vj),由公式(5)提取h-hop封闭子图:
G(vi,vj)={vd(v,vi)≤h or d(v,vj)≤h}, (5)
其中,d(v,vi)表示在k近邻亲和图adj中v与vi之间的最短路径长度,h表示最大的路径长度。
进一步,所述步骤3中,根据net图采样的元素确定封闭子图的类别标签是指,若采样元素net(i,j)=1,则目标数据对(vi,vj)的封闭子图的类别标签为1,表示vi和vj之间存在链路;若采样元素net(i,j)=0,则目标数据对(vi,vj)的封闭子图的类别标签为0,表示vi和vj之间没有链路。
进一步,所述步骤4中,节点标记函数如公式(6)所示:
tag(v)=1+min(d(v,vi),d(v,vj))+(ds/2)[(ds/2)+(ds%2)-1], (6)
其中,(vi,vj)是封闭子图的目标节点,v是封闭子图的其他节点,d(v,vi)表示在封闭子图中v与vi之间的最短路径长度。ds=d(v,vi)+d(v,vj)。两个目标节点vi和vj被标记为1,分别为tag(vi)=1和tag(vj)=1。对于任何满足d(v,vi)=∞或d(v,vj)=∞的节点v,被标记为0,即tag(v)=0。
进一步,所述步骤5中,生成节点属性由公式(7)计算:
attribute(v)=concate(one-hot(tag(v)),original(v)), (7)
其中,concate(·)为拼接函数,tag(v)为节点v的标注信息,one-hot(·)为one-hot编码函数,original(v)为节点v的原始属性。
进一步,所述步骤6中,图卷积网络是一种多层神经网络结构,其第k层的输出特征表示为Zk(vi,vj),图卷积网络第1层的输入为数据对(vi,vj)的h-hop封闭子图G(vi,vj),表示为:
Z0(vi,vj)=G(vi,vj), (8)
图卷积网络在第k+1层的输出特征根据公式(9)计算:
Zk+1(vi,vj)=σ(D(-1/2)AD(-1/2)Zk(vi,vj)Wk), (9)
其中,A为封闭子图的亲和矩阵,D为封闭子图的度矩阵,Wk是图卷积网络第k层的权值矩阵,σ(·)是非线性激活函数。
进一步,所述步骤6中,交叉熵损失由公式(10)表示:
Figure BDA0003661834760000051
其中,L是要预测的目标数据对集合,pl是封闭子图对应的目标数据对之间存在链路l的概率,yl∈{0,1}是封闭子图的类别标签,指示目标链路是否存在。
进一步,所述步骤7中,为每对数据点提取封闭子图是指,对于采样的一对数据点(vi,vj),由公式(5)提取h-hop封闭子图。
进一步,所述步骤7中,对封闭子图中的点进行节点标注是指,使用节点标记函数公式(6)为封闭子图中的每一个节点进行标注,然后由公式(7)生成节点属性。
进一步,所述步骤7中,预测目标数据对的连接关系是指,若链路预测模型预测封闭子图的类别标签为1,则表示该封闭子图对应的目标数据对之间存在链路;若链路预测模型预测封闭子图的类别标签为0,则表示该封闭子图对应的目标数据对之间没有链路。
进一步,所述步骤8中,筛选出有效连接是指,根据封闭子图的类别标签筛选存在链路的数据对,若链路预测模型预测封闭子图的类别标签为1,则该封闭子图对应的目标数据对存在有效连接。
进一步,所述步骤8中,由有效连接构建复杂网络是指,将有效连接看作图中的边,构建一个图G(V,E),其中E是全部有效连接的集合,V是有效连接所关联的数据点的集合。
进一步,所述步骤8中,使用标签传播算法将复杂网络划分为若干社区的具体过程如下:
步骤8.1,对于图G(V,E)中每个节点v∈V,使用v的序号初始化v的类簇标签label0(v),label0(v)由公式(11)表示:
label0(v)=v, (11)
步骤8.2,在第i次迭代中,遍历图G(V,E)中每个节点v∈V,更新v的类簇标签labeli(v),更新规则为统计v的所有邻居节点的类簇标签,将出现个数最多的那个标签赋值给labeli(v),如果个数最多的标签不唯一,就随机选择一个标签赋值给labeli(v)。labeli(v)的更新由公式(12)表示:
Figure BDA0003661834760000061
其中,N(v)表示节点v的邻居节点的集合,labeli-1(u)是节点u在第i–1次迭代后的类簇标签。
步骤8.3,重复步骤8.2,直到在某一次迭代中,每个节点的类簇标签都不再改变,并输出每个节点最终的类簇标签。
上述聚类方法能够在计算机控制设备执行指令时执行,或者以程序代码的形式储存在存储设备内。
本发明的有益效果:
(1)本发明是一种基于封闭子图链路预测的聚类技术,创新地将链路预测任务转化为封闭子图分类问题,并使用GCN设计了一个基于封闭子图的链路预测模型。该链路预测模型可以预测任意数据对的连接关系,每对数据点可以根据k近邻亲和图提取一个h-hop封闭子图,然后使用节点标记函数为封闭子图中的每一个节点进行标注,通过节点标注挖掘更丰富的子图信息。数据对之间有链路的封闭子图和数据对之间无链路的封闭子图具有不同的特征,所设计的链路预测模型通过预测封闭子图的类别判断目标数据对之间是否存在链路。因为封闭子图通常很小,所设计的链路预测模型是一个轻量级模型,与使用整个亲和图的链路预测模型相比,可以有效减少内存使用,具有良好的可扩展性,适用于大规模数据的聚类分析。
(2)本发明为了更好地利用链路预测结果,创新地基于预测的有效连接构造一个复杂网络,再用检测网络社区的标签传播算法进行聚类。其他基于链路预测的聚类方法默认两个点之间若存在链路,就属于相同的类,所以容易受错误链路预测结果的误导。本发明将所有预测存在的链路看作一个整体,基于复杂网络的社区结构聚类,可以大幅减轻错误链路预测的影响,增强聚类的鲁棒性。另外,本发明使用标签传播算法对所构造的复杂网络进行聚类分析,具有线性时间复杂度,而且可以自动识别社区个数。当复杂网络中包含的有效连接足够多时,标签传播算法能够快速准确地发现网络的社区结构,在未知类簇个数的情况下,实现对大规模数据的有效聚类。
附图说明
图1是h-hop封闭子图的示意图
图2是基于封闭子图的链路预测模型的训练流程图
图3是图卷积网络的示意图
图4是基于封闭子图的链路预测模型的预测流程图
具体实施方式
下面结合附图对本发明作进一步说明。
本发明主要包含八个步骤:构造net图、构造k近邻亲和图、提取封闭子图、节点标注、生成节点属性、建立并训练链路预测模型、链路预测、标签传播算法聚类。本发明首先根据训练数据集中数据点的类簇标签,构造net图;然后,将每个数据点作为图中的一个节点,计算它与k个最近邻节点的欧氏距离,从而构建k近邻亲和图;接着,根据net图和k近邻亲和图,为随机采样的数据对提取h-hop封闭子图;再应用节点标记函数为封闭子图中的每一个节点进行标注;然后,对封闭子图的节点标注信息进行one-hot编码,结合节点原来的属性,生成节点新的属性特征;再然后,使用GCN建立基于封闭子图的链路预测模型,将节点标注好的封闭子图作为输入,并通过最小化所有潜在链路的交叉熵损失来训练模型;接着,从测试数据集随机采样成对数据点,为每对数据点提取封闭子图,并进行节点标注,将封闭子图输入到训练好的链路预测模型中,预测目标数据对的连接关系;最后,从链路预测结果中筛选出有效连接,由有效连接构建复杂网络,然后使用标签传播算法将复杂网络划分为若干社区,并为每个节点分配类簇标签。具体步骤如下:
步骤1,构造net图:根据训练数据集中数据点的类簇标签,构造net图,运用公式(1)建立稀疏矩阵net:
Figure BDA0003661834760000081
其中,net(i,j)为稀疏矩阵net中第i行第j列元素,表示vi和vj两个数据点的连接关系,label(vi)表示训练数据集中vi的类簇标签。若vi和vj的类簇标签相同,则vi和vj之间存在连接,net(i,j)=1;若vi和vj的类簇标签不同,则vi和vj之间没有连接,net(i,j)=0.
步骤2,构造k近邻亲和图:将每个数据点作为图中的一个节点,计算它与k个最近邻节点的欧氏距离,形成稀疏对称邻接矩阵adj,为训练数据集和测试数据集分别构建k近邻亲和图。首先,运用公式(2)初始化矩阵adj中的元素:
Figure BDA0003661834760000082
其中,||vi-vj||2是vi和vj|的欧氏距离,Nk(vi)是离vi最近的k个点的集合。然后,运用公式(3)建立稀疏对称邻接矩阵adj:
adj=adj+adjT*Y-adj*Y, (3)
其中,Y为布尔矩阵,表示如公式(4)所示:
Figure BDA0003661834760000083
步骤3,提取封闭子图:首先从net图中随机采样,在net矩阵中随机选取若干0元素和1元素,将所选元素的横纵索引(i,j),作为采样数据对。
然后,根据k近邻亲和图,为每对数据点提取h-hop封闭子图。如图1所示,对于一对数据点(vi,vj),由公式(5)提取h-hop封闭子图:
G(vi,vj)={v|d(v,vi)≤h or d(v,vj)≤h}, (5)
其中,d(v,vi)表示在k近邻亲和图adj中v与vi之间的最短路径长度,h表示最大的路径长度。
最后,根据net图采样的元素确定封闭子图的类别标签,用于学习特征和预测链路的存在。若采样元素net(i,j)=1,则目标数据对(vi,vj)的封闭子图的类别标签为1,表示vi和vj之间存在链路;若采样元素net(i,j)=0,则目标数据对(vi,vj)的封闭子图的类别标签为0,表示vi和vj之间没有链路。
步骤4,节点标注:使用节点标记函数为封闭子图中的每一个节点进行标注,用于识别两个目标节点,以及描述每个节点对目标节点的结构重要性。节点标记函数如公式(6)所示:
tag(v)=1+min(d(v,vi),d(v,vj))+(ds/2)[(ds/2)+(ds%2)-1], (6)
其中,(vi,vj)是封闭子图的目标节点,v是封闭子图的其他节点,d(v,vi)表示在封闭子图中v与vi之间的最短路径长度。ds=d(v,vi)+d(v,vj)。两个目标节点vi和vj被标记为1,分别为tag(vi)=1和tag(vj)=1。对于任何满足d(v,vi)=∞或d(v,vj)=∞的节点v,被标记为0,即tag(v)=0。
步骤5,生成节点属性:对封闭子图的节点标注信息进行one-hot编码,将每个节点的one-hot编码向量与节点原来的属性拼接,生成节点新的属性特征。生成节点属性由公式(7)计算:
attribute(v)=concate(one-hot(tag(v)),original(v)), (7)
其中,concate(·)为拼接函数,tag(v)为节点v的标注信息,one-hot(·)为one-hot编码函数,original(v)为节点v的原始属性。
步骤6,建立并训练链路预测模型:将链路预测任务视为一个封闭子图分类问题,使用图卷积网络建立基于封闭子图的链路预测模型,将节点标注好的封闭子图作为输入,对封闭子图进行图卷积运算,并通过最小化所有潜在链路的交叉熵损失来训练模型,优化图卷积网络中的参数。基于封闭子图的链路预测模型的训练过程如图2所示。
基于封闭子图的链路预测模型中,图卷积网络是一种多层神经网络结构,如图3所示,其第k层的输出特征表示为Zk(vi,vj),图卷积网络第1层的输入为数据对(vi,vj)的h-hop封闭子图G(vi,vj),表示为:
Z0(vi,vj)=G(vi,vj), (8)
图卷积网络在第k+1层的输出特征根据公式(9)计算:
Zk+1(vi,vj)=σ(D(-1/2)AD(-1/2)Zk(vi,vj)Wk), (9)
其中,A为封闭子图的亲和矩阵,D为封闭子图的度矩阵,Wk是图卷积网络第k层的权值矩阵,σ(·)是非线性激活函数。
基于封闭子图的链路预测模型中,交叉熵损失由公式(10)表示:
Figure BDA0003661834760000101
其中,L是要预测的目标数据对集合,pl是封闭子图对应的目标数据对之间存在链路l的概率,yl∈{0,1}是封闭子图的类别标签,指示目标链路是否存在。
步骤7,链路预测:从测试数据集中随机采样成对数据点,首先为每对数据点提取封闭子图,即对于采样的一对数据点(vi,vj),由公式(5)提取h-hop封闭子图;
然后,对封闭子图中的点进行节点标注,即使用节点标记函数公式(6)为封闭子图中的每一个节点进行标注,然后由公式(7)生成节点属性;
最后,将标注好的封闭子图输入到训练好的链路预测模型中,预测目标数据对的连接关系:若链路预测模型预测封闭子图的类别标签为1,则表示该封闭子图对应的目标数据对之间存在链路;若链路预测模型预测封闭子图的类别标签为0,则表示该封闭子图对应的目标数据对之间没有链路。基于封闭子图的链路预测模型的预测过程如图4所示。
步骤8,标签传播算法聚类:使用链路预测模型得到所有采样数据对的连接关系后,首先筛选出有效连接,即根据封闭子图的类别标签筛选存在链路的数据对,若链路预测模型预测封闭子图的类别标签为1,则该封闭子图对应的目标数据对存在有效连接。
然后,由有效连接构建复杂网络,即将有效连接看作图中的边,构建一个图G(V,E),其中E是全部有效连接的集合,V是有效连接所关联的数据点的集合。
最后,使用标签传播算法将复杂网络划分为若干社区,并为网络中的每个节点分配类簇标签。具体过程如下:
步骤8.1,对于图G(V,E)中每个节点v∈V,使用v的序号初始化v的类簇标签label0(v),label0(v)由公式(11)表示:
label0(v)=v, (11)
步骤8.2,在第i次迭代中,遍历图G(V,E)中每个节点v∈V,更新v的类簇标签labeli(v),更新规则为统计v的所有邻居节点的类簇标签,将出现个数最多的那个标签赋值给labeli(v),如果个数最多的标签不唯一,就随机选择一个标签赋值给labeli(v)。labeli(v)的更新由公式(12)表示:
Figure BDA0003661834760000111
其中,N(v)表示节点v的邻居节点的集合,labeli-1(u)是节点u在第i–1次迭代后的类簇标签。
步骤8.3,重复步骤8.2,直到在某一次迭代中,每个节点的类簇标签都不再改变,并输出每个节点最终的类簇标签。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于封闭子图链路预测的聚类方法,其特征在于,包括如下步骤:
步骤1,构造net图:根据训练数据集中数据点的类簇标签,构造net图,形成稀疏矩阵net;
步骤2,构造k近邻亲和图:将每个数据点作为图中的一个节点,计算它与k个最近邻节点的欧氏距离,形成稀疏对称邻接矩阵adj,为训练数据集和测试数据集分别构建k近邻亲和图;
步骤3,提取封闭子图:从net图中随机采样,将采样元素的横纵坐标作为目标数据对,根据k近邻亲和图,为每对数据点提取h-hop封闭子图,并根据net图采样的元素确定封闭子图的类别标签,用于学习特征和预测链路的存在;
步骤4,节点标注:使用节点标记函数为封闭子图中的每一个节点进行标注,用于识别两个目标节点,以及描述每个节点对目标节点的结构重要性;
步骤5,生成节点属性:对封闭子图的节点标注信息进行one-hot编码,将每个节点的one-hot编码向量与节点原来的属性拼接,生成节点新的属性特征;
步骤6,建立并训练链路预测模型:将链路预测任务视为一个封闭子图分类问题,使用图卷积网络建立基于封闭子图的链路预测模型,将节点标注好的封闭子图作为输入,对封闭子图进行图卷积运算,并通过最小化所有潜在链路的交叉熵损失来训练模型,优化图卷积网络中的参数;
步骤7,链路预测:从测试数据集中随机采样成对数据点,为每对数据点提取封闭子图,并对封闭子图中的点进行节点标注,将标注好的封闭子图输入到训练好的链路预测模型中,预测目标数据对的连接关系;
步骤8,标签传播算法聚类:使用链路预测模型得到所有采样数据对的连接关系后,筛选出有效连接,由有效连接构建复杂网络,然后使用标签传播算法将复杂网络划分为若干社区,并为网络中的每个节点分配类簇标签。
2.根据权利要求1所述的一种基于封闭子图链路预测的聚类方法,其特征在于,所述步骤1中,构造net图时运用公式(1)建立稀疏矩阵net:
Figure FDA0003661834750000011
其中,net(i,j)为稀疏矩阵net中第i行第j列元素,表示vi和vj两个数据点的连接关系,label(vi)表示训练数据集中vi的类簇标签。若vi和vj的类簇标签相同,则vi和vj之间存在连接,net(i,j)=1;若vi和vj的类簇标签不同,则vi和vj之间没有连接,net(i,j)=0。
3.根据权利要求1所述的一种基于封闭子图链路预测的聚类方法,其特征在于,所述步骤2中,构造k近邻亲和图adj,首先运用公式(2)初始化矩阵adj中的元素:
Figure FDA0003661834750000021
其中,||vi-vj||2是vi和vj|的欧氏距离,Nk(vi)是离vi最近的k个点的集合;
然后,运用公式(3)建立稀疏对称邻接矩阵adj:
adj=adj+adjT*Y-adj*Y, (3)
其中,Y为布尔矩阵,表示如公式(4)所示:
Figure FDA0003661834750000022
4.根据权利要求1所述的一种基于封闭子图链路预测的聚类方法,其特征在于,所述步骤3中,从net图中随机采样的方法:在net矩阵中随机选取若干0元素和1元素,将所选元素的横纵索引(i,j),作为采样数据对;
对于一对数据点(vi,vj),由公式(5)提取h-hop封闭子图:
G(vi,vj)={v|d(v,vi)≤h or d(v,vj)≤h}, (5)
其中,d(v,vi)表示在k近邻亲和图adj中v与vi之间的最短路径长度,h表示最大的路径长度;
所述步骤3中,根据net图采样的元素确定封闭子图的类别标签的方法:
若采样元素net(i,j)=1,则目标数据对(vi,vj)的封闭子图的类别标签为1,表示vi和vj之间存在链路;若采样元素net(i,j)=0,则目标数据对(vi,vj)的封闭子图的类别标签为0,表示vi和vj之间没有链路。
5.根据权利要求1所述的一种基于封闭子图链路预测的聚类方法,其特征在于,所述步骤4中,节点标记函数如公式(6)所示:
tag(v)=1+min(d(v,vi),d(v,vj))+(ds/2)[(ds/2)+(ds%2)-1], (6)
其中,(vi,vj)是封闭子图的目标节点,v是封闭子图的其他节点,d(v,vi)表示在封闭子图中v与vi之间的最短路径长度,ds=d(v,vi)+d(v,vj),两个目标节点vi和vj被标记为1,分别为tag(vi)=1和tag(vj)=1,对于任何满足d(v,vi)=∞或d(v,vj)=∞的节点v,被标记为0,即tag(v)=0。
6.根据权利要求1所述的一种基于封闭子图链路预测的聚类方法,其特征在于,所述步骤5中,生成节点属性由公式(7)计算:
attribute(v)=concate(one-hot(tag(v)),original(v)), (7)
其中,concate(·)为拼接函数,tag(v)为节点v的标注信息,one-hot(·)为one-hot编码函数,original(v)为节点v的原始属性。
7.根据权利要求1所述的一种基于封闭子图链路预测的聚类方法,其特征在于,所述步骤6中,图卷积网络采用多层神经网络结构,其第k层的输出特征表示为Zk(vi,vj),图卷积网络第1层的输入为数据对(vi,vj)的h-hop封闭子图G(vi,vj),表示为:
Z0(vi,vj)=G(vi,vj), (8)
图卷积网络在第k+1层的输出特征根据公式(9)计算:
Zk+1(vi,vj)=σ(D(-1/2)AD(-1/2)Zk(vi,vj)Wk), (9)
其中,A为封闭子图的亲和矩阵,D为封闭子图的度矩阵,Wk是图卷积网络第k层的权值矩阵,σ(·)是非线性激活函数;
所述步骤6中,交叉熵损失由公式(10)表示:
Figure FDA0003661834750000031
其中,L是要预测的目标数据对集合,pl是封闭子图对应的目标数据对之间存在链路l的概率,yl∈{0,1}是封闭子图的类别标签,指示目标链路是否存在。
8.根据权利要求1所述的一种基于封闭子图链路预测的聚类方法,其特征在于,所述步骤7中,为每对数据点提取封闭子图的方法:对于采样的一对数据点(vi,vj),由公式(5)提取h-hop封闭子图;
G(vi,vj)={v|d(v,vi)≤h or d(v,vj)≤h}, (5)
其中,d(v,vi)表示在k近邻亲和图adj中v与vi之间的最短路径长度,h表示最大的路径长度;
所述步骤7中,对封闭子图中的点进行节点标注的方法:使用节点标记函数公式(6)为封闭子图中的每一个节点进行标注,然后由公式(7)生成节点属性;
tag(v)=1+min(d(v,vi),d(v,vj))+(ds/2)[(ds/2)+(ds%2)-1], (6)
其中,(vi,vj)是封闭子图的目标节点,v是封闭子图的其他节点,d(v,vi)表示在封闭子图中v与vi之间的最短路径长度,ds=d(v,vi)+d(v,vj),两个目标节点vi和vj被标记为1,分别为tag(vi)=1和tag(vj)=1,对于任何满足d(v,vi)=∞或d(v,vj)=∞的节点v,被标记为0,即tag(v)=0;
attribute(v)=concate(one-hot(tag(v)),original(v)), (7)
其中,concate(·)为拼接函数,tag(v)为节点v的标注信息,one-hot(·)为one-hot编码函数,original(v)为节点v的原始属性;
所述步骤7中,预测目标数据对的连接关系的方法:若链路预测模型预测封闭子图的类别标签为1,则表示该封闭子图对应的目标数据对之间存在链路;若链路预测模型预测封闭子图的类别标签为0,则表示该封闭子图对应的目标数据对之间没有链路。
9.根据权利要求1所述的一种基于封闭子图链路预测的聚类方法,其特征在于,所述步骤8中,筛选出有效连接的方法:根据封闭子图的类别标签筛选存在链路的数据对,若链路预测模型预测封闭子图的类别标签为1,则该封闭子图对应的目标数据对存在有效连接;
所述步骤8中,构建复杂网络的方法:将有效连接看作图中的边,构建一个图G(V,E),其中E是全部有效连接的集合,V是有效连接所关联的数据点的集合;
所述步骤8中,使用标签传播算法将复杂网络划分为若干社区的具体过程如下:
步骤8.1,对于图G(V,E)中每个节点v∈V,使用v的序号初始化v的类簇标签label0(v),label0(v)由公式(11)表示:
label0(v)=v, (11)
步骤8.2,在第i次迭代中,遍历图G(V,E)中每个节点v∈V,更新v的类簇标签labeli(v),更新规则为统计v的所有邻居节点的类簇标签,将出现个数最多的那个标签赋值给labeli(v),如果个数最多的标签不唯一,就随机选择一个标签赋值给labeli(v),labeli(v)的更新由公式(12)表示:
Figure FDA0003661834750000051
其中,N(v)表示节点v的邻居节点的集合,labeli-1(u)是节点u在第i–1次迭代后的类簇标签;
步骤8.3,重复步骤8.2,直到在某一次迭代中,每个节点的类簇标签都不再改变,并输出每个节点最终的类簇标签。
10.一种计算机设备,其特征在于,所述计算机设备为控制设备或存储设备,所述控制设备在执行指令时能够执行权利要求1-9任一项所述的基于封闭子图链路预测的聚类方法;所述存储设备内设置权利要求1-9任一项所述的基于封闭子图链路预测的聚类方法的程序代码。
CN202210575106.9A 2022-05-25 2022-05-25 一种基于封闭子图链路预测的聚类方法及计算机设备 Pending CN114897085A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210575106.9A CN114897085A (zh) 2022-05-25 2022-05-25 一种基于封闭子图链路预测的聚类方法及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210575106.9A CN114897085A (zh) 2022-05-25 2022-05-25 一种基于封闭子图链路预测的聚类方法及计算机设备

Publications (1)

Publication Number Publication Date
CN114897085A true CN114897085A (zh) 2022-08-12

Family

ID=82725238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210575106.9A Pending CN114897085A (zh) 2022-05-25 2022-05-25 一种基于封闭子图链路预测的聚类方法及计算机设备

Country Status (1)

Country Link
CN (1) CN114897085A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129992A (zh) * 2023-04-17 2023-05-16 之江实验室 基于图神经网络的基因调控网络构建方法及系统
CN116776175A (zh) * 2023-08-24 2023-09-19 中国空气动力研究与发展中心计算空气动力研究所 一种基于层次聚类的数据标签体系构建方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129992A (zh) * 2023-04-17 2023-05-16 之江实验室 基于图神经网络的基因调控网络构建方法及系统
CN116776175A (zh) * 2023-08-24 2023-09-19 中国空气动力研究与发展中心计算空气动力研究所 一种基于层次聚类的数据标签体系构建方法及系统
CN116776175B (zh) * 2023-08-24 2023-11-24 中国空气动力研究与发展中心计算空气动力研究所 一种基于层次聚类的数据标签体系构建方法及系统

Similar Documents

Publication Publication Date Title
CN111967294B (zh) 一种无监督域自适应的行人重识别方法
WO2022083624A1 (zh) 一种模型的获取方法及设备
WO2021164382A1 (zh) 针对用户分类模型进行特征处理的方法及装置
CN111553127A (zh) 一种多标记的文本类数据特征选择方法及装置
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN112308115B (zh) 一种多标签图像深度学习分类方法及设备
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN112069310A (zh) 基于主动学习策略的文本分类方法及系统
CN110990718B (zh) 一种公司形象提升系统的社会网络模型构建模块
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN112364352A (zh) 可解释性的软件漏洞检测与推荐方法及系统
CN113269647A (zh) 基于图的交易异常关联用户检测方法
CN113806582A (zh) 图像检索方法、装置、电子设备和存储介质
CN116049412A (zh) 文本分类方法、模型训练方法、装置及电子设备
CN113314188B (zh) 图结构增强的小样本学习方法、系统、设备及存储介质
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN114328942A (zh) 关系抽取方法、装置、设备、存储介质和计算机程序产品
CN117237559A (zh) 面向数字孪生城市的三维模型数据智能分析方法及系统
Bai et al. A unified deep learning model for protein structure prediction
CN116361788A (zh) 一种基于机器学习的二进制软件漏洞预测方法
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
Xue et al. Fast and unsupervised neural architecture evolution for visual representation learning
Fang et al. How to realize efficient and scalable graph embeddings via an entropy-driven mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination